專利名稱:一二三四輸入法的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種向計算機(jī)輸入漢字的技術(shù),特別是涉及以漢語拼音知識和漢字書寫知識為基礎(chǔ)的漢字編碼輸入技術(shù)。
背景技術(shù):
為了適應(yīng)計算機(jī)時代的需要,提高向計算機(jī)輸入漢字的速度,以王碼五筆為先河的一大批編碼輸入法相繼問世。與漢語拼音輸入法不同,各種編碼輸入法已經(jīng)把漢字輸入過程由字母向漢字的單向轉(zhuǎn)換過程改變?yōu)橛蓾h字向編碼,再由編碼向漢字的雙向轉(zhuǎn)換過程。這個轉(zhuǎn)換過程不但要由輸入法的設(shè)計人員來完成,而且最終要由用戶來完成。無論是設(shè)計者還是用戶,為漢字編碼,本質(zhì)上是對每個漢字的讀音和書寫信息進(jìn)行采集、篩選和處理。所謂設(shè)計輸入法,就是設(shè)計一套對漢字讀音和書寫信息進(jìn)行篩選、采集和處理的規(guī)則,并按照這些規(guī)則將選定的漢字讀音和書寫信息變成編碼,然后儲存在計算機(jī)中。所謂用編碼輸入法輸入漢字,就是按照設(shè)計者確定的規(guī)則和方法,對漢字讀音和書寫信息進(jìn)行采集和處理,重現(xiàn)并激活由設(shè)計者預(yù)置在計算機(jī)中的那套編碼。所以,設(shè)計者確定的規(guī)則越簡單,所篩選的讀寫信息越直觀,越精煉,用戶的重現(xiàn)工作就越容易,輸入的速度就越快。但現(xiàn)在的設(shè)計者們往往為了減少每個漢字的編碼數(shù)量而把編碼技術(shù)設(shè)計得越來越復(fù)雜,越來越讓用戶難以接受。
在已經(jīng)公開的編碼輸入法中,《一種漢字形音碼的計算機(jī)輸入方法及鍵盤》算是比較通俗易懂的(申請?zhí)?9117573.5,公開號CN1286422A)。在這種輸入法中,每個漢字的編碼不超過3,可謂已降至最低。但其編碼規(guī)則中關(guān)于“第一、二筆為第一碼,第三、四筆為第二碼,最末兩筆為第三碼”的規(guī)定,等于是要求用戶每輸入一個漢字,最少要向這個漢字采集6條信息并進(jìn)行數(shù)理分析。遇有筆劃是單數(shù)的字,還要進(jìn)行更多的數(shù)理分析。在很多情況下,光這些還不夠,還要象王碼輸入法那樣拆分字根。雖然該輸入法把王碼輸入法中的100多個字根減少為8個,但卻為這8個字根的使用規(guī)定了很多限制性條件。按照這種方法,思考每個漢字的編碼的過程,實際上是一個比拆分字根更加復(fù)雜的過程,這對廣大非專業(yè)錄入用戶來說,實在是一件很難做到的事情。
很顯然,編碼輸入法的設(shè)計者大都忽略了一個重要的事實信息時代,知識爆炸,人們十分珍惜自己大腦中的記憶空間。因此,許多非專業(yè)錄入人員在微機(jī)上進(jìn)行文字處理時,寧可使用速度很慢但卻不需要經(jīng)過專門訓(xùn)練的拼音輸入法。特別是當(dāng)人們直接在微機(jī)上專心致志地撰寫文稿時,最怕為輸入某個漢字而分心去思考這個漢字的編碼規(guī)則。因此,要真正幫助廣大直接在微機(jī)上處理文稿的用戶提高漢字輸入速度,不但要想辦法降低為每個漢字編碼的數(shù)量,更重要的是簡化為漢字編碼的過程,即簡化向漢字采集和處理讀寫信息的過程。
目前編碼輸入技術(shù)的另一個重要不足是,能夠支持的漢字比較少,一般不超過6800個漢字。
發(fā)明內(nèi)容
本發(fā)明的出發(fā)點是,充分利用人們最基本的漢語拼音知識編碼,致力于拼音字母輸入速度的提高,同時充分利用人們的漢字書寫常識降低同音字的重碼率。本發(fā)明由三個主要要素構(gòu)成,分別是設(shè)計一個有序排列的漢字輸入鍵位圖,使用戶能夠很容易地記住每個聲母鍵和韻母鍵,每擊字母鍵一次都能輸入一個聲母或一個韻母;設(shè)計一種書寫常識碼,把每個漢字的重碼率降到10以下,使用戶不必使用pagedown鍵尋找自己所需要的漢字。這種書寫常識碼由兩條漢字書寫過程中順序出現(xiàn)的最簡單最直觀的信息構(gòu)成,用不著為采集和處理這些信息而進(jìn)行復(fù)雜的思考;規(guī)范單字和詞匯的編碼數(shù),便于用戶形成盲打習(xí)慣,同時讓用戶能夠盡量以詞匯而不是以單個漢字為單元進(jìn)行漢字輸入。
一、鍵位圖 鍵位圖說明(一)圖中以字母V表示漢語拼音中的韻母ü,相應(yīng)地,ve表示üe.
(二)這個鍵位圖中包含了漢語拼音方案中的全部聲母和韻母,但其中有三個韻母,即ueng、üan和ün,不是按照韻母表中的寫法寫入鍵盤的。
韻母ueng是個零聲母音節(jié)。按照漢語拼音方案的規(guī)定,用ueng拼音時,應(yīng)當(dāng)寫成weng。所以,在使用本輸入法拼寫讀作ueng的漢字時,應(yīng)當(dāng)使用W和Y(韻母eng所在鍵)兩個鍵來表示,而不必專門為ueng安排一個字母鍵。
韻母üan也可以作為零聲母音節(jié)來使用。按照漢語拼音方案的規(guī)定,當(dāng)üan作為零聲母音節(jié)時,即當(dāng)其前面沒有聲母時,應(yīng)當(dāng)寫成yuan,即省去ü上面的兩個點。當(dāng)其前面有聲母時,這個聲母只能是J、Q、X中的一個而不可能是別的,這時的üan也應(yīng)當(dāng)寫成uan,即省去ü上面的兩個點。也就是說,用韻母üan拼寫漢字時,應(yīng)當(dāng)使用字母Y或者聲母J、Q、X的所在鍵加韻母uan的所在鍵,而不必專門為üan安排一個字母鍵。同樣道理,韻母ün也完全可以由韻母un的所在鍵來表示,而不必單獨安排一個字母鍵。這樣,我們就能夠用26個字母鍵表示出漢語拼音方案中的全部聲母和韻母。而且,我們把由同一個字母打頭的韻母按一定順序排列在相鄰的位置,非常便于記憶,滿足了本發(fā)明所設(shè)定的第一項技術(shù)要求。
二、書寫常識碼書寫常識碼(以下簡稱書寫碼)的任務(wù),是把太多的同音字按字形和起筆劃分成若干小組,使每小組的同音字不超過10個,以便能夠在提示行中一次全部出現(xiàn)。
書寫碼是用鍵盤上面兩排19個加底下一排的N鍵共20個字母鍵來表示的。我們先把這20個鍵分成四個鍵區(qū)中間一排的從G開始向左到A共五個鍵為一區(qū);從H開始向右到L再加下面一排的N共五個鍵為二區(qū);上面一排的從T開始向左到Q共五個鍵為三區(qū);從Y開始向右到P共五個鍵為四區(qū)。
書寫碼的設(shè)計原理是先按每個漢字的字形結(jié)構(gòu)特點把漢字字形區(qū)分為左右結(jié)構(gòu)、上下結(jié)構(gòu)、整體結(jié)構(gòu)和多元結(jié)構(gòu)等四種類型,依次對應(yīng)到一、二、三、四鍵區(qū)中,然后,再按照每個字第一筆的筆劃名稱,即按照橫、豎、撇、點(捺)、折的順序,分別對應(yīng)到每個鍵區(qū)從中間向兩側(cè)排列的每一個字母鍵上,從而最終確定出其書寫碼。
例如,“橫”字是左右結(jié)構(gòu),其書寫碼在一區(qū)中,第一筆是橫,所以其書寫碼就是G?!把邸弊制鸸P劃是豎,書寫碼就是F?!般y”字起筆劃是撇,書寫碼就是D。“說”字起筆劃是點,書寫碼是S?!懊健弊制鸸P劃是折,書寫碼是A?!柏Q”字是上下結(jié)構(gòu),書寫碼在二區(qū)中,起筆劃是豎,所以書寫碼是J?!肮P”字起筆劃是撇,書寫碼是K?!邦悺弊制鸸P劃是點,書寫碼是L?!按洹弊制鸸P劃是折,書寫碼是N。
不難看出,書寫碼使用的是漢字書寫中最直觀最基本的常識,用戶不但一看就能明白,而且在使用中也不必為把每個漢字變成編碼而苦心思索。為了統(tǒng)一不同的書寫習(xí)慣,需要明確幾項簡單的約定。
(一)關(guān)于字形分類所依據(jù)的字體的約定字形分類和起筆劃所依據(jù)的字體為楷體字。
(二)關(guān)于字形結(jié)構(gòu)分類的約定1、左右結(jié)構(gòu)的字,包括“這”、“過”等帶“辶”旁的字,以及“武”、“成”、“威”、“截”等帶“弋”字旁或“戈”字旁的字。
2、上下結(jié)構(gòu)的字包括帶“戶”字頭、“廠”字頭、“尸”字頭、“廣”字頭、“疒”字頭以及“”字頭的字,如“肩”、“病”、“慶”、“展”、“壓”、“虎”、“左”、“有”等字。在這里,請?zhí)貏e注意“壓”字與“氏”字的不同?!笆稀弊肿笙陆怯幸粋€提,實際上形成了一個向右的折鉤框架,所以與“壓”字不同,“氏”字屬整體結(jié)構(gòu)。
3、整體結(jié)構(gòu),即無法區(qū)分上下左右的字形,如“國”、“圍”、“月”、“風(fēng)”、“包”、“毯”、“颮”、“勻”、“刀”、“刁”、“與”等字,以及“申”、“中”、“我”、“升”等字。
整體結(jié)構(gòu)又分兩種情況。一種是由于有個外框把其他筆劃包圍起來,如“國”、“圍”、“月”、“風(fēng)”、“氏”等字。這種字形的基本特點是右上角或左下角有一個折鉤筆劃。
有些上下結(jié)構(gòu)的字形從外觀上看很象整體結(jié)構(gòu),如“且”、“丑”、“丘”等字,與“國”、“目”、“區(qū)”等字就很相象。但“且”、“丑”、“丘”等字實際上可以分成上下兩部分。所以,凡封底口的筆劃在兩端出頭的字,都不是包圍結(jié)構(gòu)而是上下結(jié)構(gòu)。
歸結(jié)起來,包圍結(jié)構(gòu)的判斷標(biāo)準(zhǔn),可以用三句話來概括“三面或四面包圍,右上或左下有折鉤,封口不出頭?!闭w結(jié)構(gòu)的另一種情況是主體框架性筆劃完全交插,沒有邊界,如“申”、“中”、“寸”、“木”、“冊”、“廿”、“我”、“升”等字。有的雖有邊界,但邊界上的筆劃與其他筆劃連在了一起,例如“尹”、“果”、“甲”等字,整體性也很強(qiáng),也屬于整體結(jié)構(gòu)。
有些字表面上看似乎沒有間隙,整體性很強(qiáng),但沒有交插或沒有完全交插,前者例如“爿”字,后者例如“王”、“里”等字,都不是整體結(jié)構(gòu),而是上下結(jié)構(gòu)。
4、多元結(jié)構(gòu),是左右結(jié)構(gòu)中的一些特殊情況,主要有三種有些字形是橫向里并列成三個或更多部分,如“誰”、“糊”、“假”等字;有些字形既可看作左右結(jié)構(gòu),也可看作上下結(jié)構(gòu),如“喆”、“槑”等字;還有些字形呈不規(guī)則狀,從整體上看是左右結(jié)構(gòu),但其中的一半又由上下兩個或多個平行的橫筆劃形成一條或多條明顯的間隙,使字的一半又區(qū)分為上下兩個或若干部分。如“許”、“投”、“儻”、“礙”、“欄”、“喝”等字。有些字的左半邊或右半邊有特殊的部首或偏旁(例如“宀”、“皿”、“冖”等),也會形成上下兩部分。
以上三種情況都可以叫做多元結(jié)構(gòu)。前兩種情況很容易判斷。最后一種情況,即呈不規(guī)則狀的字形中有時容易發(fā)生某些混淆。如“腰”字中的“要”,“垢”字中的“后”,“啟”字中的“啟”,“賄”字中的“有”,獨立成字時也是上下結(jié)構(gòu),但由于上下兩部分中的間隙不明顯,所以“腰”、“垢”、“啟”、“賄”等這種字形是左右結(jié)構(gòu)而不是多元結(jié)構(gòu)。
另外,判斷字形結(jié)構(gòu)只能根據(jù)其結(jié)構(gòu)特點而不能根據(jù)筆劃的多少。例如“小”字,只有三筆,但屬于多元結(jié)構(gòu)?!绊g”字中間雖然只一個點,因為這個點是獨立的,所以“韌”字也是多元結(jié)構(gòu)。另外,凡帶“刂”而且“刂”頂天立地的字,都是多元結(jié)構(gòu)。
(三)關(guān)于起筆劃的約定一般來說,書寫漢字遵循先上后下,先左后右的規(guī)則。另外,完全包圍和下開口、右開口的半包圍結(jié)構(gòu)如“國”、“月”、“勺”、“區(qū)”、“氏”等字先寫邊框;上開口和左開口的半包圍結(jié)構(gòu)如“山”、“豳”、“凼”、“司”等字先寫被包圍的筆劃。
有些字的上頭有橫豎筆劃交插或相連的情況,一般來說,交插的先橫后豎,如“革”、“朝”等字;不交插的先豎后橫,如“虎”、“占”等字。唯有“艸”字頭除外。“艸”字頭雖然上頭的橫豎筆劃交插,但考慮到多數(shù)人的書寫習(xí)慣,我們這里按照先寫兩豎再寫一橫的順序確定其書寫碼。
有些字是由撇和折鉤構(gòu)成的,如“九”、“乃”、“力”等字。這里約定,右外鉤如“九”字先寫撇后寫鉤,左內(nèi)鉤如“乃”、“力”字則先寫鉤后寫撇。
起筆劃的問題可以歸結(jié)為這樣的命題“帶*部首的字一般以*字母為書寫常識碼”。例如帶“王”、“木”、“石”等部首的字一般都以G為書寫碼,少數(shù)以Y為書寫碼。
三、編碼數(shù)規(guī)范為了讓用戶能夠盡快養(yǎng)成盲打習(xí)慣,同時最大限度地釋放詞匯編碼空間,讓用戶能夠盡量以詞匯為單位輸入文稿,除鍵盤上標(biāo)明的26個使用頻率最高的漢字外,每個漢字拼音碼一律由2碼構(gòu)成,如果需要增加書寫常識碼,則由3碼構(gòu)成,每個漢字最多不超過3碼。凡《現(xiàn)代漢語詞典》1998年重印的第三版中所收入的由兩個或兩個以上音節(jié)構(gòu)成的詞匯,包括某些《現(xiàn)代漢語詞典》中沒有收入的短語,一律由4碼構(gòu)成。符合本發(fā)明所設(shè)定的第三項要求。
本發(fā)明的有益效果一、減少了擊鍵次數(shù)按照本輸入法,輸入任何一個《新華字典》1998年5月第9版中所規(guī)范的漢字,最多擊打三次字母鍵,輸入一個詞匯最多擊打四次字母鍵。
鍵盤上標(biāo)明的26個使用頻率最高的漢字,只需擊打一次字母鍵。
另有1100多個漢字,只需擊打兩次字母鍵,即給定一個聲母和一個韻母,重碼率不超過10。
其他漢字,最多擊打三次字母鍵,即在給定這個漢字的聲母和韻母后再給定其書寫碼,重碼率不超過10。
由于每個漢字的編碼都不超過3,所以最大限度地開發(fā)了詞匯編碼空間,用戶可以詞匯為單元輸入和編輯漢字文稿,只要擊打四次字母鍵,提示行中可以顯示《現(xiàn)代漢語詞典》1998年重印的第三版中幾乎所有的雙音詞和常用的多音詞,重碼率不超過10。
二、簡化了用戶為需要輸入的漢字編碼的程序使用本輸入法輸入一個漢字,有時只需采集兩條讀音信息,最多是采集其聲母、韻母、字形、第一筆等四條讀寫信息,而且這四條讀寫信息是在用戶一想到要輸入這個漢字時就必然要想到的最直觀的信息,信息采集的過程與漢字的讀寫過程基本一致,因而用不著進(jìn)行和分析就能把它們變成編碼輸入微機(jī)。除鍵位圖外,沒有任何需要死記硬背的專用符號,方便非專業(yè)錄入人員提高漢字輸入速度。
三、提高了對漢字的支持能力《新華字典》1998年5月第9版中規(guī)范的任何一個漢字,包括不是用通常聲母和韻母注音的漢字,以及《新華字典》未收入的個別地名用字,只要微機(jī)字庫能夠支持,本輸入法都能支持。
使用一二三四輸入法輸入漢字的操作方法一、輸入單個漢字的操作方法(一)輸入普通單個漢字的操作方法第一次擊打字母鍵,提示行中出現(xiàn)一個單碼字,等待用戶用空格鍵來確認(rèn)完成。但是如果用戶不是想要錄入這個單碼字,并準(zhǔn)備進(jìn)行第二次擊鍵,那么,第一次擊鍵給出的就是一個聲母。
第二次擊打字母鍵,給出的是韻母,提示行中會出現(xiàn)一個漢字,或者出現(xiàn)兩個以上10個以下漢字。如果出現(xiàn)兩個以上10個以下漢字,說明在這個音節(jié)中的同音字已經(jīng)全部出現(xiàn),用戶可以用相應(yīng)的數(shù)字鍵選擇確認(rèn)。如果提示行中出現(xiàn)的是一個漢字而又不是用戶所需要的漢字,則說明在這個音節(jié)中存在11個以上的同音字,需要用書寫碼對它們進(jìn)行整理,即需要進(jìn)行第三次擊鍵。
第三次擊鍵,給出的是一個書寫碼,這時,不管這個音節(jié)中有多少個同音字,它們都會被編成若干小組,每個小組的同音字不超過10,提示行中能夠一次顯示完畢。
如果第三次擊鍵后提示行中仍沒有出現(xiàn)所需要的字,用戶可以檢驗一下自己的操作是否正確。如果確實無誤,那說明這個漢字是比較生僻的,需要進(jìn)入二級字表。二級字表中的單碼字是這個字的聲母所在鍵。如果用戶一次擊鍵后沒有找到所需要的字,可以緊接著擊打其韻母所在鍵。如果這時屏幕上仍然沒有所要找的字,可以緊接著擊打這個字的書寫常識碼,用戶一定能夠如愿以償。
(二)零聲母漢字的輸入方法在漢語中,每個單字都是一個獨立而完整的音節(jié)。每個音節(jié)一般是由一個聲母和一個韻母構(gòu)成的。因此,輸入一個漢字需要兩次擊鍵,即給出一個聲母和一個韻母才能完成其拼音過程。但有些字只用一個韻母注音,叫做零聲母音節(jié)。表示零聲母音節(jié)的韻母,有的用一個字母來表示,有的則用兩個或三個字母來表示。為了統(tǒng)一規(guī)范,我們約定,所有單個漢字的拼音碼,除26個單碼字外,一律通過兩次擊鍵輸入。其中,凡由兩個字母組成的零聲母音節(jié),例如ai、an、ao、ei、en、er、ou等,通過連續(xù)擊打構(gòu)成它們的兩個字母鍵來完成;凡由一個字母或三個字母構(gòu)成的音節(jié),如a、ang、e、eng、o等,通過雙擊這個韻母所在鍵來完成。
(三)幾個特殊讀音漢字的輸入方法《新華字典》中有幾個特殊的字,其發(fā)音不用漢語拼音方案中的聲母和韻母,本輸入法直接以其拼音所使用的字母編碼。這幾個字是1、“噷”,讀作hm,其編碼即為HM;2、“哼”,讀作hng,因與“哼”(讀作heng)同形,以“哼”(heng)的編碼HY代之。
3、“唔”、“嗯”、 等字,讀作ng,其編碼即為NG,與 字同碼不同音。
二、輸入詞匯的操作方法(一)雙音詞輸入法由兩個字構(gòu)成的詞匯,分別擊打兩個字的聲母和韻母所在鍵。雙音詞中的零聲母音節(jié),按前述零聲母單字的輸入方法處理。
帶“兒”音的詞,如“旮旯兒”、“蓋帽兒”等詞中的“兒”字,不視為一個獨立的音節(jié)。錄入這種雙音詞時,只要給出前兩個字的聲母和韻母即可。
(二)三音詞輸入法先分別擊打前兩個字的聲母所在鍵(前兩個字中如果有零聲母音節(jié),按前述零聲母音節(jié)的輸入方法,擊打輸入這個音節(jié)時應(yīng)當(dāng)擊打的第一個鍵),再擊打第三個字的聲母和韻母所在鍵。
(三)多音詞輸入法由四個字以上的字組成的詞叫多音詞。輸入多音詞的方法是,先分別擊打前三個字的聲母所在鍵(前三個字中如果有零聲母音節(jié),按前述零聲母音節(jié)的輸入方法,擊打輸入這個音節(jié)時應(yīng)當(dāng)擊打的第一個鍵),再擊打最后一個字的聲母所在鍵。附若干漢字字形、起筆劃和書寫碼示例表《說明書》附表若干漢字字形、起筆劃和書寫碼示例表
權(quán)利要求
1.一種以漢語拼音規(guī)則和漢字書寫規(guī)則為基礎(chǔ)的漢字編碼輸入法,其基本特征是單字編碼不超過3個,前兩碼為聲母和韻母,第三碼為書寫常識碼,把同音字的重碼率降低到10以下;詞匯編碼一律是4個,支持詞匯量達(dá)33000多個,重碼率不超過10。
2.根據(jù)權(quán)利要求1所述的漢字輸入法,其特征是用普通微機(jī)鍵盤上的26個字母鍵表示漢語拼音方案中的全部聲母和韻母,第一個字母相同的韻母依次排列在相鄰的字母鍵上。
3.根據(jù)權(quán)利要求1所述的漢字輸入方法,其特征是按左右、上下、整體和多元四種字形結(jié)構(gòu)和每個字第一筆的五種筆劃(橫、豎、撇、點、折)設(shè)計書寫常識碼。
4.根據(jù)權(quán)利要求1所述的漢字輸入法,其特征是設(shè)兩級字表,一級字表支持漢字10028個,二級字表支持漢字779個;所支持的漢字讀音和字形以《新華字典》(1998年修訂本)的規(guī)范漢字為依據(jù),個別該版《新華字典》中未收入的地名用字和全部詞匯的讀音和字形以《現(xiàn)代漢語詞典》1998年7月修訂第3版為依據(jù)。
全文摘要
一種以漢語拼音常識和漢字書寫常識為基礎(chǔ)的漢字編碼輸入法。它設(shè)計了新的鍵盤圖,設(shè)計了漢字書寫常識碼,把輸入單個漢字的擊鍵次數(shù)降低到3以下;這種書寫常識碼由漢字書寫過程中依次出現(xiàn)的最簡單最直觀的讀寫信息構(gòu)成,操作中用不著為確認(rèn)編碼而苦心思索;它規(guī)范了單字和詞匯的編碼數(shù),使用戶可以在大多數(shù)情況下能以詞匯而不是以單個漢字為單元輸入漢字;它提高了對漢字的支持能力,凡《新華字典》1998年修訂本中所規(guī)范的漢字都能支持。
文檔編號G06F3/023GK1419183SQ0215874
公開日2003年5月21日 申請日期2002年12月26日 優(yōu)先權(quán)日2002年12月26日
發(fā)明者齊世澤, 齊亮 申請人:齊世澤, 齊亮