分層首拼編碼法
【技術(shù)領(lǐng)域】
[0001]本公開涉及漢語字、詞、句分層首拼編碼法,可廣泛應(yīng)用于中文電腦(含手機等智能設(shè)備)輸入、中文檢索等領(lǐng)域。
【背景技術(shù)】
[0002]目前漢語智能化編碼技術(shù)一直是個難題,雖然已有五筆編碼法,但五筆也存在字根復(fù)雜、難記,字難拆、拆樣多、大規(guī)模推廣難等缺點,漢語拼音方案雖然簡單,但重碼太多,編碼效率低,此處,還有類似的智能ABC輸入法,也是重碼率高。而且,以前的編碼法只是主要針對字和簡單的二字、至四字詞進行編碼,還沒有一個編碼技術(shù)可以對很長的一段句子進行編碼。因此,還是需要一種方法能解決以上問題。
[0003]漢語字、詞、句分層首拼編碼法(以下簡稱分層首拼編碼法)設(shè)計可以解決漢字輸入難、效率低、重碼率高、字根難記等的缺點。她的出現(xiàn)預(yù)計是我國漢字自電腦、手機、平板等智能終端出現(xiàn)以來漢字編碼輸入領(lǐng)域一場新的革命,是首次實現(xiàn)字、詞、句統(tǒng)一進行編碼,是首次實現(xiàn)中英文輸入不用依賴ctrl+shift即可進行切換,是首次實現(xiàn)數(shù)字0~9也可用字母鍵進行輸入,通過分層首拼編碼法的學(xué)習(xí)與撐握,還可加深對我國漢字本質(zhì)的理解,通過拆分漢字認(rèn)識字根的發(fā)音來了解我國漢字是怎么來的,能夠更好地撐握中國漢字構(gòu)造規(guī)律,也加深對中國傳統(tǒng)文化的了解。
【發(fā)明內(nèi)容】
[0004]分層首拼編碼法。
[0005]分層首拼編碼法是依據(jù)人的語言發(fā)音特點、結(jié)合漢字構(gòu)造原理和漢字來歷而設(shè)計,以漢語拼音為基礎(chǔ),取漢字及其拆分的字根漢語拼音首字母(以下簡稱首拼)組合而成,只要撐握漢字及字根的音,即可學(xué)會本輸入法,所謂音,即語言,而語言是與生俱來的,本說明書具體講就是漢語拼音,而漢語拼音在我國漢語教學(xué)中是必修課,這就決定了分層首拼編碼法具有廣泛推廣的基礎(chǔ),加上其有簡單易學(xué)易記的特點,因而適合在中小學(xué)生中推廣。
[0006]分層首拼編碼法對于初學(xué)者的要求是撐握基本漢字及字根的首拼,比準(zhǔn)確掌握全部漢語拼音的發(fā)音要求還要低,例如,很多人不大會區(qū)別聲母“s”和“sh”(對應(yīng)的漢字有“三”和“山”),分層首拼編碼法統(tǒng)一其首拼皆為“S”,足見本編碼法的簡單吧;分層首拼編碼法還具有學(xué)習(xí)功能,當(dāng)遇到有不認(rèn)識的漢字或字根而不知道其首拼時,對于單個字或字根,可直接從第2層開始輸入,由于編程時可做到每個漢字或字根上屏前皆附有其全拼發(fā)音,故可通過打字來認(rèn)識漢字、學(xué)習(xí)漢字。
[0007]分層首拼編碼法不僅僅限于字的編碼,還可實現(xiàn)二字詞及以上詞語、句子的編碼,理論上可實現(xiàn)任意長度的句子(可理解為一句話、甚至一段文章)的編碼,且可實現(xiàn)無重碼。
[0008]分層首拼編碼法可實現(xiàn)漢字輸入高速、高效,能大大提高漢字輸入速度,因而也適合專業(yè)打字員盲打。
[0009]分層首拼編碼法編碼方案都是圍繞取漢字或字根發(fā)音的首拼展開,因而簡單易學(xué),無須像五筆那樣需要記憶復(fù)雜的字根在鍵盤的哪個鍵上,只需記住附圖1、圖2、圖3、圖4中漢字或字根的發(fā)音首拼字母即可,而字母在鍵上的位置是固定的,因而不用記漢字或字根在鍵盤的哪個鍵上,只記住首拼便可打字,非常適合普通人員打字輸入。適合在大眾中推廣,社會價值高。
[0010]分層首拼編碼法使用的是標(biāo)準(zhǔn)鍵盤(中文與英文通用鍵盤),通過V鍵可實現(xiàn)中英文輸入切換,不用依賴ctrl+shift即可進行切換,通過i鍵實現(xiàn)數(shù)字0~9也可用字母鍵進行輸入,即當(dāng)輸入i切到數(shù)字功能時,ο代表0,y代表1,e代表2,s代表3,f (four是英文4的讀音)代表4,w代表5,I代表6,q代表7,b代表8,j代表9 (注:0yeSfVlqbj為對應(yīng)0~9的首拼)。
[0011]分層首拼編碼法是以簡體中文為輸入對象,由于簡體字與繁體字發(fā)音沒有變化,字根書寫雖有一些變化,但基本字根沒有變,因而同樣適用繁體字。
[0012]分層首拼編碼法基本要求學(xué)習(xí)者對漢字要有正確的發(fā)音,至少應(yīng)知道首拼。這樣會加速學(xué)習(xí)者對我國漢字的認(rèn)識,因而是有利于漢字普通話的推廣。能促進提高學(xué)習(xí)者識字水平,特別適合在中小學(xué)學(xué)生中推廣。
[0013]分層首拼編碼法引入“層”的概念,即字、詞、句在沒有拆分前取其首拼的字母皆歸為第I層;字、詞、句首次一拆為三后的漢字或字根首拼皆歸為第2層,同樣,字、詞、句2次拆分后的字根首拼皆歸為第3層,依次同理,字、詞、句η-1次拆分后的字根首拼皆歸為第η層。漢字拆分的終點是第η層字根皆由單筆畫字根組成??蓪崿F(xiàn)字、詞、句編碼無重碼。
[0014]分層首拼編碼法漢字拆分規(guī)則相當(dāng)簡單,只需記住口訣可改筆順、取多優(yōu)先、一拆為三、若拆多三,取首次末”,比起五筆復(fù)雜的拆分方案要簡單的多。
[0015]可改筆順、取多優(yōu)先指漢字拆分時,不必按照書寫順序拆分漢字,要取最多的筆畫,即使不是連續(xù)的筆順也可組成字根,本規(guī)則自始至終會體現(xiàn)在任何一級字或字根拆分上面,包括首位字根,次位字根,末位字根(簡稱首次末)等等。例如目”字,正確應(yīng)拆為“口一一”,而不是“門二一”。又如國”正確的拆分應(yīng)是“口王點”。
[0016]所謂一拆為三、若拆多三,取首次末,即指任一大于或等于3畫的漢字或字根一定要拆為三部分,這是最高的優(yōu)先級(當(dāng)漢字或字根只有2畫時拆成2部分,只有I畫時拆成I部分)。若拆分字根總數(shù)大于3個時,只需取首次末字根編碼即可,不必每個字根都要入編碼。
[0017]—拆為三規(guī)則的優(yōu)先級高于取多優(yōu)先規(guī)則,兩者有矛盾時,要首先滿足一拆為三規(guī)則。
[0018]分層首拼編碼法以漢語拼音為基礎(chǔ),取每一個漢字首拼。此外,需要熟記圖1、圖2、圖3、圖4中漢字或字根的發(fā)音以及首拼(這部分屬于本編碼方案發(fā)明創(chuàng)造的,需要熟記)。這些漢字或字根都是本編碼法的基礎(chǔ)。有了這些基礎(chǔ)后,分層首拼編碼法中字、詞、句及其拆分字根的編碼就是由這些首拼組合而成。
[0019]依據(jù)分層首拼編碼法形成的編碼可叫做分層首拼碼或許碼,許碼對于字、詞、句而言,可分為有效長碼和最大長碼;其中最大長碼是依據(jù)本編碼規(guī)則對漢字進行拆分到底的長碼;有效長碼長度是不確定的,有效長碼以實現(xiàn)輸入時無重碼時的長度為有效長碼,在設(shè)計有效長碼時,可將高頻漢字有效長碼盡量短,低頻漢字有效長碼加長。
[0020]附加層碼:為了防止以上規(guī)則全部用完后仍有重碼的情況發(fā)生,取oyesfVlqbj(注:oyesfwlqbj為對應(yīng)0~9的首拼)任意字母附加在以上最大長碼或有效長碼后面(僅當(dāng)按以上規(guī)則輸入出現(xiàn)重碼時選用)。
[0021]單字最大長碼=第I層首拼碼+第2層首拼碼+…+第η層首拼碼+附加層碼=1+3+9+…+3(η-1) +1。
[0022]詞或句子(設(shè)由m個單字組成)最大長碼=m (第I層首拼碼+第2層首拼碼+...+第η層首拼碼+附加層碼)=m (1+3+9+…+3 (η-1) +1)。
[0023]單個漢字編碼:分層首拼編碼法對單個漢字編碼時,第I層首拼碼只有I個;第二層一拆為三,即三個首拼碼;第三層,又進行一拆為三,共得九個首拼碼;依次類推。
[0024]詞、句編碼:是屬于單個漢字組合分層編碼問題,本發(fā)明編碼規(guī)則是每一層皆按先組合后拆分的順序編碼(以下簡稱先組后拆)。比如:二字詞語“ΧΥ”(假設(shè)其許碼分別為abcd,AB⑶,那么,第I層組合首拼碼就為aA,第二層先組后拆字根(首首次次末末)首拼碼就為bBcCdD,二字詞總的編碼為aAbBcCdD (簡稱組合許碼)。為何要先組合呢,是因為這樣組合交替輸入,有效避免了字與詞之間的重碼問題。實際輸入時不必要輸入8位,可減少碼長,提高輸入速度。具體可參見圖5:漢字和詞語拆分舉例;圖6:典型漢字一拆為三的拆分方法。
[0025]分層首拼編碼法可用于中文漢字檢索,以現(xiàn)代漢語詞典為例,目前有漢語拼音檢字方案和部首檢字方案,以分層首拼編碼法為基礎(chǔ)的檢字法可看作漢語拼音檢字方案和部首檢字方案的優(yōu)化。具體如下:詞典名稱可叫“漢語分層首拼編碼詞典”,分為兩部分,第一部分為無I許碼檢字表(無I許碼,故名字義,即許碼是從第2層開始的按照分層首拼規(guī)則形成,去掉了第I層碼,即無I許碼),無I許碼以英文字母順序排列漢字或字根,這樣可從該檢字表直接查到該漢字在正文中的位置頁碼,那么,為何要從第2層開始呢,因為考慮到有些漢字我們不認(rèn)識,不知其發(fā)音,如果從第I層開始的編碼排序,則無從查起,從第2層開始的排序方案,有助于查字過程中認(rèn)識漢字,也達到了查字的目的;第二部分(即詞典正文),漢字或字根排列順序按許碼英文字母順序排列漢字。如果知道漢字或字根的發(fā)音,則可直接跳過無I許碼檢字表,直接在正文部分查找漢字或字根