專利名稱:基于讀音的漢字輸入方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計算機(jī)漢字輸入編碼技術(shù),更具體地說,涉及一種基于讀音的漢字輸入方法。
由于電腦鍵盤使用的是包括英文字母在內(nèi)的小字符集,要在電腦里實現(xiàn)漢字輸入,就必須建立小字符集與漢字的對應(yīng)關(guān)系及使用規(guī)則,這種規(guī)則就是漢字編碼?,F(xiàn)有的漢字編碼方案已不下千種,其中較常用的主要有漢語拼音(全拼和雙拼)、五筆字型、自然碼等,其中有的是形碼,有的是音碼,一般來說,形碼重碼少、輸入速度快,但較難學(xué),音碼重碼多,輸入速度慢,但比形碼易學(xué)。已有的編碼大多為專業(yè)人士設(shè)計,在許多方面破壞了漢字的固有結(jié)構(gòu),增加了學(xué)習(xí)難度。電腦已普及到千家萬戶,這些用戶大多未必是計算機(jī)專業(yè)人士,他們對漢字編碼的要求,首先是好學(xué),其次才是速度,根據(jù)調(diào)查,現(xiàn)有很多家庭用戶仍在使用漢語拼音輸入法,原因很簡單拼音好學(xué)。本發(fā)明提供的目的就是提供一種面向家庭電腦用戶的以音為主、以形托音的簡單易學(xué)的漢字編碼。
本發(fā)明的目的在于提供一種基于讀音的漢字輸入方法,這種基于讀音的漢字輸入方法可以克服現(xiàn)有技術(shù)的缺點(diǎn),特別適合于非專業(yè)人員學(xué)習(xí)、使用和掌握,而且,比普通的拼音法輸入有更高的效率。
本發(fā)明的目的是這樣實現(xiàn)的,構(gòu)造一種基于讀音的漢字輸入方法,用于將包括二級國標(biāo)漢字在內(nèi)的較大漢字集合中的每一個漢字,通過一定步驟轉(zhuǎn)換成可以輸入到計算機(jī)并為其所識別的漢字編碼,所述漢字編碼集合包含英文26個字母,所述一定步驟包括從欲輸入漢字中抽取三個漢字特征部件的步驟、將抽取出的三個漢字特征部件中的每一個分別映射到一個漢字編碼集合中的一個的步驟、逐個輸入得到的漢字編碼到計算機(jī)的步驟,其特征在于所述三個漢字特征部件中的第一部件是該漢字的漢語拼音、第二部件是該漢字的首部、第三部件是該漢字的尾部,所述首部是該漢字首筆劃所在的字元或字元字,所述尾部則是該漢字中除去首部以外的尾筆劃所在的字元或字元字,所述字元是筆劃組合,包括
所述字元字是不可分解的單體字,包括(凹、八、卜、半、貝、白、百、本、不、必、髟、步、川、巛、廠、才、臣、冊、斥、蟲、寸、長、才、垂、車、成、串、承、丑、彳、亍、匆、重、叉、大、刀、東、刁、歹、電、丹、單、斗、石、氐、耳、兒、二、而、豐、凡、父、甫、夫、缶、飛、非、方、鬼、個、戈、更、艮、瓜、廣、甘、工、弓、丐、火、戶、禾、乎、黑、互、乙、弋、義、衣、已、一、夷、金、臼、九、幾、巾、甲、見、戔、夾、巨、井、久、及、擊、柬、開、口、六、立、力、了、來、龍、良、耒、吏、里、木、目、皿、門、馬、米、毛、母、民、面、矛、末、內(nèi)、女、年、牛、廿、鳥、乃、又、由、酉、尤、匹、疋、片、爿、平、犬、求、七、且、曲、乞、氣、丘、日、冉、入、人、刃、十、水、厶、書、手、山、四、上、三、少、尸、氏、術(shù)、豕、束、事、世、矢、失、勺、升、卅、生、身史、土、太、天、屯、田、頭、五、無、勿、兀、戊、毋、烏、午、雨、玉、勻、月、魚、于、予、聿、與、文、王、萬、韋、瓦、未、亡、我、為、丸、心、小、西、習(xí)、下、血、鄉(xiāng)、彡、言、幺、央、羊頁、用、業(yè)、也、牙、丫、永、亞、曳、之、足、爪、夊、中、隹、子、止、丁、自、乍、專、舟、州、兆、專、丈、走),所述第一部件的編碼就是該漢字的漢語拼音字母本身,所述第二和第三部件的編碼是這樣的,如果所述第二、第三部件是字元字,其編碼就是該字元字漢語拼音的首字母,如果所述第二、第三部件是字元,其編碼是由以下所列字元到編碼集合的映射關(guān)系確定的(凵(凹)宀(安)主圭亠(敖)爫(愛)->A)、(冫丷)(八)
按照本發(fā)明提供的基于讀音的漢字輸入方法,其特征在于,在對欲輸入漢字分解時,遵循以下規(guī)則先左后右、先上后下、先外后內(nèi)、先中后旁。
按照本發(fā)明提供的基于讀音的漢字輸入方法,其特征在于,在完成三碼輸入后,如果出現(xiàn)重碼,以加輸一個代表漢字筆劃數(shù)的數(shù)字來區(qū)分。
按照本發(fā)明提供的基于讀音的漢字輸入方法,其特征在于,欲輸入漢字屬于字元字時,其編碼對象的第一部件是該字元字的漢語拼音的首字母,第二部件是該字元字首筆的筆劃,第三部件是該字元字末筆的筆劃,所述筆劃“橫(heng)、豎(shu)、撇(pie)、捺(na)、折(ze)”筆畫分別用其漢語拼音H、S、P、N、Z編碼。
按照本發(fā)明提供的基于讀音的漢字輸入方法,其特征在于,輸入詞組時,二字詞的編碼由組成二字的漢語拼音首字母、再加上尾字的第三部件編碼組成,三字詞編碼由三字的漢語拼音的首字母組成,三字以上詞的編碼由前二字及最后一字的漢語拼音首字母組成。
實施本發(fā)明的基于讀音的漢字輸入方法,具有如下突出特點(diǎn)首先,它是一種輸入速度較快的三鍵音碼,即每個漢字僅三鍵便可完成輸入,比起四鍵碼,理論上速度要快四分之一。即使加入校驗碼(極少數(shù)字),也不會比四鍵碼慢。其次,這種編碼方法特別容易學(xué)習(xí),只要會漢語拼音(小學(xué)三年級以上文化)便可在十分鐘以內(nèi)學(xué)會。第三個特點(diǎn)是易記難忘,由于所選字元字本是一些簡單常用的完整漢字,無須記憶;字元僅73個,均按其規(guī)范讀音、構(gòu)字讀音和相形讀音來記憶,十分簡單,記憶時間僅需幾分鐘。編碼規(guī)則更加簡單,僅用一句話便可教會,因其規(guī)則簡單,且符合人們的辨字習(xí)慣,學(xué)會后很難忘記。最后,無須顧慮南北口音差異,也無須顧慮漢字手寫體與印刷體的差異。
結(jié)合實施例,進(jìn)一步說明本發(fā)明的特點(diǎn)。
通過對《現(xiàn)代漢語詞典》中11000個漢字的分析研究,可以知道漢字的構(gòu)成無非是三種構(gòu)件字、常用非漢字構(gòu)件和筆畫,而每一個漢字均可分為三部分首部、尾部和中間部,有些漢字僅有首部和尾部,則可將中間部視為空筆。在漢字的三種構(gòu)件中,我們將構(gòu)成漢字的筆劃組合組成的常用構(gòu)件叫作字元,將構(gòu)成漢字的一些常見字叫作字元字,筆畫則只有五種“橫豎撇捺折”。從《現(xiàn)代漢語詞典》的11000個漢字中,可以總結(jié)出800個漢字構(gòu)件,這些構(gòu)件共出現(xiàn)了34471次,其中,有250個構(gòu)件(包括字元和字元字)比較常用,共出現(xiàn)了27037次,占全部構(gòu)件出現(xiàn)次數(shù)的78.43%,通過對這250個常用構(gòu)件的分析,在250個常用構(gòu)件基礎(chǔ)上,將800個漢字構(gòu)件進(jìn)行歸納、合并,整理成73個字元和247個字元字,它們在《現(xiàn)代漢語詞典》中一共出現(xiàn)了33893次,占構(gòu)件總出現(xiàn)次數(shù)的98.32%,剩下的一些漢字都是無法用構(gòu)件來拆分的獨(dú)體字,這部分字可用筆畫來解決。這便可做到以最少的構(gòu)件來拆分最多的漢字。
人們在語言中對漢字的分辯是非常有規(guī)則的,比方說,人們常說阝東陳、弓長張、木子李等等,將漢字字按其組字規(guī)律來拆分,以此來分辨同音漢字。全碼對漢字的拆分,便是按照人們的這種習(xí)慣。
每一個漢字的編碼,便由該字漢語拼音的第一個字母,再加上該字首尾部分的第一個字母而成,這就是該字的編碼。
譬如“陳”(cheng)字,首部為“阝”(er),尾部為“東”(dong),則“陳”的全碼為CED;“張”(zhang)字的首部為弓(gong),尾部為長(chang),則該字的全碼為ZGC;“李”(li)字的首部為(mu),尾部為(zi),則該字的全碼為LMZ。
在本發(fā)明提供的漢字輸入方案中,欲輸入漢字的漢語拼音的第一個字母是可以稱為字碼,也是對第一部件的編碼,對該字筆劃首部的編碼叫首碼,對該字筆劃尾部的編碼叫尾碼。用一個公式來表示欲輸入漢字的編碼=字碼+首碼+尾碼。由此可見,本發(fā)明提供的漢字輸入方案(或稱全碼)是一種三鍵碼,是一種以音為主,以形托音的音形碼。1.字母本發(fā)明提供的全碼用26個拉丁字母、即電腦鍵盤上的26個字母來對漢字編碼,以 為通配符來作為萬能鍵。由于漢語拼音的特殊性,故在編碼中將部分拼音作如下處理wu(u)開頭用u作第一個字母,yi(i)音開頭用i作第一個字母,yu(u)音開頭用v作第一個字母,o、yo、you音開頭用o作第一個字母。這樣做既不違反漢語拼音的規(guī)則,又可將字母鍵在編碼中均勻分配,從而減少重碼。其它22個拉丁字母可視為漢語拼音字母來使用。2.字元字元是筆劃組合、其編碼以拼音為基礎(chǔ),用三種方法來安排規(guī)范拼音字元是標(biāo)準(zhǔn)偏旁部首,本來有其規(guī)范讀音。如“艸”一般讀為“草字頭”,故拼音代碼為“C”,“阝”一般讀為“耳旁”,故拼音代碼為“E”,“亻”一般讀為“單人旁”,故拼音代碼為“R”。
構(gòu)字拼音以該字元構(gòu)成的某常見字拼音為其讀音。如“”是“愛”的構(gòu)件,將其讀音定為ai,故其拼音代碼為A,“_”是“虎”的構(gòu)件,故拼音代碼為H;“廴”是“建”的構(gòu)件,故拼音代碼為J。
相形拼音該字元與某字或某字元相形相似,以其相形相似的字或字元的讀音作為其拼音。如“冂”似“幾”,故拼音代碼為J,“屮”似“山”,故拼音代碼為S,“凵”似“凹”,故拼音代碼為A。3.字元字字元字是無法用字元拆分的獨(dú)體字,如“五”、“日”、“之”、“口”等,它們既是完整的漢字,又是常用的漢字構(gòu)件,作為漢字構(gòu)件。對字元字的拆分,用“橫(heng)、豎(shu)、撇(pie)、捺(na)、折(ze)”五種筆畫(用“hspnz”五個字母作為其漢語拼音代碼)就以足夠,其字碼是漢字的漢語拼音第一個字母,首碼是該字首筆的代碼,尾碼是該字尾筆的代碼。譬如“五”(wu)字首筆為橫(h),尾筆為橫(h),則“五”字的全碼為UHH;“日”(ri)字首筆為豎(s),尾筆為橫(h),則“日”字的全碼為RSH;“之”(zhi)字首筆為點(diǎn),點(diǎn)屬捺(n),尾筆為捺(n),則“之”字全碼為ZNN?!耙弧痹谧衷种惺枪P畫橫(h),在其它字中則是字元字“一”(yi)。4.詞組二字詞由二字之字碼,再加上尾字之尾碼組成,如“全碼”一詞的編碼為QMM;三字詞由三字之字碼組成,如“計算機(jī)”一詞的編碼為JSJ;三字以上詞由前二字之字碼加上尾字之字碼組成,如“大浪淘沙”一詞的編碼為DLS。5.首部和尾部漢字有獨(dú)體形(如″上″、″下″、″中″)、左右形(如″鐵″、″銅″、″礦″)、上下形(″苗″、″芒″、″每″)、包圍形(如″圍″、″因″、″國″)和混合形(如″逶″、″覆″、″嚼″)等五種結(jié)構(gòu),要正確辨認(rèn)漢字的首尾部,必須了解這幾種結(jié)構(gòu)。
一般來說,漢字的首部是該字首筆所在的字元或字元字,尾部則是除開該字首部以外的尾筆所在的字元或字元字。
但由于各人的書寫習(xí)慣不同,首尾筆因人而異,這就需要有明確的規(guī)定,全碼對漢字首尾部的規(guī)定也是按照漢字的組字規(guī)律和標(biāo)準(zhǔn)筆順。
在本發(fā)明中規(guī)定如下先左后右、先上后下、先外后內(nèi)、先中后旁。
例如“紅”,先左后右,首部為“纟”,尾部為“工”,“全”,先上后下,首部為“人”,尾部為“王”,“連”,先外后內(nèi),首部為“辶”,尾部為“車”,“乘”,先中后旁,首部為“禾”,尾部為“匕”。6.重碼率與校驗碼作為一種以音為主的三鍵碼,如何降低重碼率是編碼過程中的首要考慮。在本發(fā)明中,主要利用字元與字元字的讀音規(guī)定來減少重碼。
根據(jù)一字多音的特點(diǎn),將少數(shù)字元字的非常用音作為其拼音代碼。如″石″取dan音,拼音代碼定為D;“丁”取zheng音,拼音代碼定為Z;根據(jù)全碼中字元的注音規(guī)則,將部分字元的拼音代碼加以調(diào)整。如“饣”取其相似的字元“個”音,拼音代碼定為G;“扌”取其相似的字元“?!币簦匆舸a定為N;根據(jù)漢字的相似特點(diǎn),將少數(shù)相似的字元?dú)w入一個音,不僅減少了重碼,也解決了手寫體與印刷體的差異,即使手寫不標(biāo)準(zhǔn),仍可用全碼輸入漢字。如將“壬”歸入“王”,拼音代碼為定W;“士”歸入“土”,拼音代碼定為T;“夭”歸入“天”,拼音代碼定為T;“千”、“干”歸入“于”,拼音代碼定為V。
校驗碼是對重碼的一種非絕對必要的分辨碼,此碼由漢字尾部的筆畫數(shù)所對應(yīng)的鍵組成,附加于該字編碼之后,這樣,可使全碼的重碼率進(jìn)一步降低。在實現(xiàn)本發(fā)明的輸入方案時,校驗碼是可選可不選的一種輔助方式。筆畫數(shù)與字母的對應(yīng)關(guān)系是無須記憶的,因為代表筆畫數(shù)的鍵是標(biāo)準(zhǔn)鍵盤是從1至0數(shù)字鍵下方的一排字母鍵QWERTYUIOP,分別對應(yīng)1234567890,其中0代表10,筆畫超過10的字元或字元字全部用字母Z代替。例如要輸入“溫”字,鍵入編碼WSM,會出現(xiàn)“溫”和“尾”兩個字,“溫”的尾部為“皿”,筆畫為5,對應(yīng)的校驗碼為T,再鍵入T,便輸入了“溫”字。
根據(jù)統(tǒng)計,本發(fā)明的漢字輸入方案在實現(xiàn)二級字庫情況下,重碼率為4.33%。
權(quán)利要求
1.一種基于讀音的漢字輸入方法,用于將包括二級國標(biāo)漢字在內(nèi)的較大漢字集合中的每一個漢字,通過一定步驟轉(zhuǎn)換成可以輸入到計算機(jī)并為其所識別的漢字編碼,所述漢字編碼集合包含英文26個字母,所述一定步驟包括從欲輸入漢字中抽取三個漢字特征部件的步驟、將抽取出的三個漢字特征部件中的每一個分別映射到一個漢字編碼集合中的一個的步驟、逐個輸入得到的漢字編碼到計算機(jī)的步驟,其特征在于所述三個漢字特征部件中的第一部件是該漢字的漢語拼音、第二部件是該漢字的首部、第三部件是該漢字的尾部,所述首部是該漢字首筆劃所在的字元或字元字,所述尾部則是該漢字中除去首部以外的尾筆劃所在的字元或字元字,所述字元是筆劃組合,包括
所述字元字是不可分解的單體字,包括(凹、八、卜、半、貝、白、百、本、不、必、髟、步、川、巛、廠、才、臣、冊、斥、蟲、寸、長、才、垂、車、成、串、承、丑、彳、亍、匆、重、叉、大、刀、東、刁、歹、電、丹、單、斗、石、氐、耳、兒、二、而、豐、凡、父、甫、夫、缶、飛、非、方、鬼、個、戈、更、艮、瓜、廣、甘、工、弓、丐、火、戶、禾、乎、黑、互、乙、弋、義、衣、已、一、夷、金、臼、九、幾、巾、甲、見、戔、夾、巨、井、久、及、擊、柬、開、口、六、立、力、了、來、龍、良、耒、吏、里、木、目、皿、門、馬、米、毛、母、民、面、矛、末、內(nèi)、女、年、牛、廿、鳥、乃、又、由、酉、尤、匹、疋、片、爿、平、犬、求、七、且、曲、乞、氣、丘、日、冉、入、人、刃、十、水、厶、書、手、山、四、上、三、少、尸、氏、術(shù)、豕、束、事、世、矢、失、勺、升、卅、生、身史、土、太、天、屯、田、頭、五、無、勿、兀、戊、毋、烏、午、雨、玉、勻、月、魚、于、予、聿、與、文、王、萬、韋、瓦、未、亡、我、為、丸、心、小、西、習(xí)、下、血、鄉(xiāng)、彡、言、幺、央、羊頁、用、業(yè)、也、牙、丫、永、亞、曳、之、足、爪、夊、中、隹、子、止、丁、自、乍、專、舟、州、兆、專、丈、走),所述第一部件的編碼就是該漢字的漢語拼音字母本身,所述第二和第三部件的編碼是這樣的,如果所述第二、第三部件是字元字,其編碼就是該字元字漢語拼音的首字母,如果所述第二、第三部件是字元,其編碼是由以下所列字元到編碼集合的映射關(guān)系確定的(凵(凹)宀(安) 主圭亠(敖)爫(愛)->A)、(冫丷)(八)
2.根據(jù)權(quán)利要求1所述的基于讀音的漢字輸入方法,其特征還在于,在對欲輸入漢字分解時,遵循以下規(guī)則先左后右、先上后下、先外后內(nèi)、先中后旁。
3.根據(jù)權(quán)利要求1所述的基于讀音的漢字輸入方法,其特征還在于,在完成三碼輸入后,如果出現(xiàn)重碼,以加輸一個代表漢字筆劃數(shù)的數(shù)字來區(qū)分。
4.根據(jù)權(quán)利要求1所述的基于讀音的漢字輸入方法,其特征還在于,欲輸入漢字屬于字元字時,其編碼對象的第一部件是該字元字的漢語拼音的首字母,第二部件是該字元字首筆的筆劃,第三部件是該字元字末筆的筆劃,所述筆劃“橫(heng)、豎(shu)、撇(pie)、捺(na)、折(ze)”筆畫分別用其漢語拼音H、S、P、N、Z編碼。
5.根據(jù)權(quán)利要求1所述的基于讀音的漢字輸入方法,其特征還在于,輸入詞組時,二字詞的編碼由組成二字的漢語拼音首字母、再加上尾字的第三部件編碼組成,三字詞編碼由三字的漢語拼音的首字母組成,三字以上詞的編碼由前二字及最后一字的漢語拼音首字母組成。
全文摘要
本發(fā)明公開了一種基于讀音的三碼漢字輸入方法,所抽取并編碼的三個漢字特征部件包括該漢字的讀音、首部及尾部筆劃組合,讀音直接以拼音首字母編碼,首部及尾部筆劃組合由其組成字元或字元字所對應(yīng)的字母編碼。這種漢字輸入方法,具有如下突出特點(diǎn):輸入速度較快,特別容易學(xué)習(xí),字元僅73個,均按其規(guī)范讀音、構(gòu)字讀音和相形讀音來記憶,十分簡單,記憶時間僅需幾分鐘。因其規(guī)則簡單,且符合人們的辨字習(xí)慣,易記難忘。而且,無須顧慮南北口音及手寫體與印刷體的差異。
文檔編號G06F3/023GK1204796SQ9710897
公開日1999年1月13日 申請日期1997年7月3日 優(yōu)先權(quán)日1997年7月3日
發(fā)明者全威 申請人:全威