欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種根素碼漢字輸入方法

文檔序號:6437495閱讀:539來源:國知局
專利名稱:一種根素碼漢字輸入方法
技術(shù)領(lǐng)域
本發(fā)明屬于計算機(jī)漢字輸入技術(shù)領(lǐng)域,特別涉及一種鍵盤漢字編碼輸入方法。
漢字的數(shù)量很多,而鍵盤的鍵不可能做得和漢字一樣多,因此絕大多數(shù)漢字要擊多次或多個鍵輸入,通過漢字輸入系統(tǒng)的轉(zhuǎn)換程序,把擊鍵得到的代碼根據(jù)漢字編碼字典轉(zhuǎn)化為漢字代碼,從而達(dá)到輸入漢字的目的。編寫輸入法的目的是確定輸入漢字的要擊的鍵及擊鍵的順序和次數(shù)。但因為不同的鍵盤其布局不同,輸入字符的方法也不全相同,且直接規(guī)定每個漢字對應(yīng)的擊鍵方法既繁瑣又不現(xiàn)實,因此要把每個鍵用一個字母、數(shù)字或特定的鍵名來代表并稱之為鍵碼,微軟的輸入法生成器及部分輸入法中稱之為碼元,但有的輸入法中的“碼元”實質(zhì)是字根,為避免引起歧義,本輸入法稱之為鍵碼。一般鍵碼在各種普通鍵盤上都可直接或間接輸入,特殊鍵碼要設(shè)計專門的鍵及鍵盤與之對應(yīng)。這樣就可把漢字和鍵位的對應(yīng)轉(zhuǎn)化為和編碼對應(yīng),編碼是由一定數(shù)量的鍵碼按一定順序排列構(gòu)成的,編碼中所含鍵碼的種類、個數(shù)、排列順序分別表示輸入漢字要擊的鍵、擊鍵的次數(shù)及順序,編碼中含鍵碼的個數(shù)稱為碼長,所有用來編碼的鍵碼組成鍵碼集,把漢字用編碼表示就構(gòu)成編碼字典。這樣創(chuàng)造輸入法的過程主要是為漢字編碼的過程。
漢字編碼和漢字要盡量一一對應(yīng)且使鍵碼和漢字之間有一定的聯(lián)系規(guī)則,使人能夠根據(jù)漢字編碼規(guī)則從漢字的音形意等信息得出其編碼。漢字的信息很多,聲音、字形、書寫順序、字意等都是漢字的信息;還有一種信息是把漢字根據(jù)一定的規(guī)則拆分為字根(也有的輸入法中稱之為字元、構(gòu)件、字體等),先把字根根據(jù)其音、形、意等信息和鍵碼對應(yīng),再根據(jù)漢字所含字根種類、數(shù)量、及字根在漢字中的結(jié)構(gòu)順序等信息為漢字編碼。由于絕大部分編碼利用漢字的音、形信息編碼,因此通常把編碼分為“拼音碼”、“拼形碼”、“音形碼”等幾種,下面分別對上述幾種編碼作一介紹(1)拼音碼。
拼音碼以漢字的拼音信息為基礎(chǔ)編碼,多利用漢字的聲母和韻母信息,也有的把聲調(diào)信息用來編碼。把拼音字母和英文字母一一對應(yīng)的編碼稱為全拼碼,把韻母用某些單字母對應(yīng)的稱為雙拼碼。由于雙拼碼把韻母簡化為一個字母,擊鍵次數(shù)少于全拼碼,輸入速度有所提高,但雙拼布局需要記憶。拼音碼對熟悉拼音的人來說極易掌握,但由于重音字太多,重碼率很高,輸入速度慢。有的拼音碼輸入法可以連續(xù)輸入整個句子,系統(tǒng)自動識別漢字,如果識別有誤,要返回到這個漢字,在屏幕的提示下改正,一般而言,系統(tǒng)將識別出大部分的漢字,但仍有一部分漢字需要挑選,因此它的輸入速度仍受到一定的限制。
(2)拼形碼。
拼形碼只根據(jù)漢字字形信息編碼。多數(shù)拼形碼把漢字拆分為字根,每個字根對應(yīng)一個鍵碼,根據(jù)漢字的結(jié)構(gòu)信息把字根對應(yīng)的鍵碼排列,取此鍵碼排列的全部或一部分作為漢字編碼。如中國專利申請?zhí)柺?5100837的輸入法編碼就是把漢字拆分為字根的輸入法。由于如何拆分漢字沒有統(tǒng)一的標(biāo)準(zhǔn),且拆分出的字根數(shù)往往大于鍵碼數(shù),因此要解決漢字拆分與把字根分類和鍵碼對應(yīng)的問題。在解決字根和鍵碼對應(yīng)的問題上,有的根據(jù)字根的筆劃信息把字根分類和鍵碼對應(yīng);有的根據(jù)字根和英文字母的形似把字根和鍵碼對應(yīng);有的根據(jù)字根間的形似或把某些字根看作是某個字根的變體歸為一類;有的根據(jù)字根的拼音信息把字根分類和鍵碼對應(yīng);有的利用字根的意義把字根分類和鍵碼對應(yīng);還有的根據(jù)字根的筆劃、筆順、筆劃數(shù)等信息綜合起來把字根分類;但這些字根分類方法都存在規(guī)律性不強、分類規(guī)則不嚴(yán)格統(tǒng)一等缺點。規(guī)律性不強指分類規(guī)則不明顯,往往把形狀相似作為分類原則,而不能用邏輯性的語言把分類規(guī)則概括出來。不嚴(yán)格指只有一部分字根的分類符合規(guī)則,另一部分字根的分類不符合規(guī)則,即其規(guī)則是描述性的,不是用以規(guī)定字根的分類,而是用以解釋為什么把這些字根歸為一類,也就是說某一類別里的字根雖然符合其分類規(guī)則,但符合這一分類規(guī)則的字根卻不都?xì)w在這一類字根里。不統(tǒng)一指存在不一致的分類方法,一部分字根用這種方法分類,另一部分卻用另一種方法分類;或先用某一方法分類,再用另一種方法細(xì)分,使分類規(guī)則很難掌握。因此現(xiàn)有技術(shù)的字根分類規(guī)則不能用簡明的語言概括出來,更不能根據(jù)其分類規(guī)則推理出字根的類別,需用表格或鍵盤鍵位圖詳細(xì)規(guī)定字根的分類及字根和鍵碼的對應(yīng),有的雖有明確的分類規(guī)則,但往往要對字根規(guī)定一些記憶的東西,其實質(zhì)是形式上的規(guī)則,把不符合規(guī)則的字根附加一個特征,或者說不是根據(jù)字根的特征建立分類規(guī)則,而是先建立分類規(guī)則,再設(shè)法使字根符合規(guī)則,如把沒有讀音的字根規(guī)定讀音,這個附加讀音的過程就需要記憶。由于以上原因,拆分漢字的拼形碼在學(xué)習(xí)時需記憶的東西很多,學(xué)起來很慢,但由于它重碼率很低,經(jīng)一段時間的學(xué)習(xí),一旦熟練掌握,輸入速度很快。另有少數(shù)拼形碼不把漢字拆分,直接利用漢字的筆劃、筆順、結(jié)構(gòu)、形狀等信息編碼,如利用漢字四角的形狀信息編碼,利用漢字的起筆、末筆、頭兩筆、末兩筆等信息編碼。如中國專利申請?zhí)枮?8121593.9的輸入法編碼就是利用四角號碼編碼的拼形碼。這類形碼不存在漢字拆分的問題,但對漢字的編碼不符合漢字的構(gòu)造規(guī)律,編碼也很難掌握。
(3)音形碼或形音碼。
音形碼中含有根據(jù)漢字拼音信息編碼的音碼和根據(jù)漢字字形信息編碼的形碼。形音碼也屬于音形碼,只是形碼在編碼的前面,音碼在后面。音形碼中多取漢字拼音的聲母作音碼,也有的采用全拼或雙拼作音碼,還有的把音調(diào)也作為編碼信息。形碼編碼和拼形碼相似。把漢字拆分的音形碼多采用漢字的聲母作音碼;不把漢字拆分的音形碼多采用漢字的全拼或雙拼作音碼。和拼形碼相比,音形碼的優(yōu)點是由于有了音碼作區(qū)分,形碼部分的編碼相對簡單,學(xué)起來更容易。但現(xiàn)有的音形碼和拼形碼有共同的缺點,拆分漢字的音形碼存在字根分類及漢字拆分等問題;不拆分漢字的音形碼中,有的采用了雙拼加形碼的方案,雙拼布局增加了記憶量,有的雖不采用雙拼方案,但其形碼和拼形碼一樣都不好掌握,有的利用筆劃和筆順信息為漢字編形碼,雖然能夠建立較嚴(yán)格的規(guī)則,但對漢字的編碼不符合人們對漢字的習(xí)慣理解,如中國專利申請?zhí)枮?7118358.9輸入法編碼。值得一提的是由于先用音碼把漢字分類,形碼編碼對重碼率的要求大大降低,拆分漢字的音形碼可以利用字根的讀音把它分類,對沒有讀音的字根,或為其規(guī)定讀音,或根據(jù)其形狀編碼。由于這類音形碼以音為主,編碼方案簡單明了,易于掌握,但在處理沒有讀音或讀音很少有人知道的字根時有困難,且由于主要以字根讀音分類,不利于優(yōu)化組合字根以及減少根碼鍵碼的數(shù)量。
音和形是漢字的兩種最重要的信息,對兩種信息的不同利用產(chǎn)生的效果有很大不同,因此把編碼分為拼音碼、拼形碼、音形碼具有一定的科學(xué)性,但在編碼時采取拆分漢字的方案和不拆分漢字的方案產(chǎn)生的效果也有很大不同,而上述分法在區(qū)分編碼方案是否把漢字拆分這方面有困難,因此本輸入法引入了“字息碼”和“根碼”的概念,字息碼指根據(jù)漢字本身的信息編的碼,根碼指把漢字拆分為字根,把每一字根對應(yīng)一個鍵碼,把字根對應(yīng)的鍵碼按一定的規(guī)則組合排列、取舍構(gòu)成的漢字編碼。根據(jù)編碼是否含有字息碼或根碼,把漢字編碼分為全字碼、全根碼和混碼三種,下面介紹一下這三種編碼的結(jié)構(gòu)特征及和音形碼、拼音碼、拼形碼之間的區(qū)別與聯(lián)系(1)、全字碼這種編碼中只含有字息碼。拼音碼都是全字碼;不把漢字拆分的音形碼和拼形碼也是全字碼,如中國專利申請?zhí)枮?0114633.5的輸入法編碼就屬于不把漢字拆分的音形碼,也屬于全字碼。由于拼音是漢字本身的信息中最易掌握的,也最易實現(xiàn),因此全字碼大部分是拼音碼。
(2)、全根碼這種編碼中只含有根碼,如中國專利申請?zhí)枮?2115608.5和85100837的輸入法編碼就屬于全根碼,也屬于拼形碼。由于是根據(jù)漢字的字形拆分漢字,所以全根碼都是拼形碼,拼形碼大部分是全根碼。
(3)、混碼這種編碼既含有字息碼又含有根碼,字息碼和根碼按一定的規(guī)則組合排列構(gòu)成混碼。大部分音形碼屬于混碼,這種音形碼音碼即字息碼,形碼即根碼,如中國專利申請?zhí)枮?0122403.4的輸入法編碼。理論上講混碼可以是拼形碼,實際上由于用字形信息編字息碼遠(yuǎn)不如用拼音信息方便實用,幾乎所有的混碼都是音形碼。
全字碼、全根碼和混碼各有優(yōu)缺點,全字碼特點就是前面講的拼音碼和不把漢字拆分的音形碼、拼形碼的特點。其共同點是不拆分漢字,因此不存在漢字拆分及字根分類和鍵碼對應(yīng)等問題。
全根碼和混碼的共同點是都把漢字拆分為字根,編根碼的過程也一樣,不同點是混碼還含有字息碼。因為把漢字拆為幾部分,就相當(dāng)于利用幾個字根的信息來為漢字編碼,由于可利用的信息多了,就可減少重碼,縮短碼長,但全根碼和混碼也有一個共同的缺點即“漢字拆分”和“字根分類”比較難于掌握。
由此可見,各種編碼都有各自的優(yōu)缺點,有的優(yōu)缺點具有不可替代性,如拼形碼可輸入不知讀音的漢字,而拼音碼可輸入對拼形碼而言是難拆的和特殊的漢字。因此有的輸入法里含有幾種編碼,就是想利用各種編碼的優(yōu)點。但一種輸入法含有幾種編碼絕不等于它具有了幾種編碼的優(yōu)點,因為輸入漢字時一次只能用一種編碼,而且各種編碼的綜合優(yōu)勢肯定不同,絕大多數(shù)時候要用那種主要的、具有綜合優(yōu)勢的編碼,只有在特殊情況下才切換到其他編碼。因此現(xiàn)有的鍵盤漢字編碼輸入法雖然很多,但其編碼易學(xué)與好用的矛盾仍未得到很好的的解決,輸入速度快,重碼率低的編碼往往難于掌握,而易于掌握的編碼又存在著輸入速度慢的缺點。
為了克服現(xiàn)有技術(shù)的不足,解決漢字編碼易學(xué)與好用之間的矛盾問題,就得選擇最有利于解決此問題的編碼類型,并進(jìn)一步找出其存在的根本問題,因為不同類型的編碼有不同的特點。拼音碼由于其固有的特點決定了其易學(xué)不好用的特點,不拆分漢字的音形碼和拼形碼,由于把漢字看作一個整體,所利用的信息有限,即使能使重碼率很低,但其編碼也比較難掌握。因此若想充分利用漢字的各種信息,就不可忽略絕大部分漢字是由某些更基本的部件組合構(gòu)成的這一事實,而這點和英文的單詞由字母組成很相似,利用此特點更有利于解決編碼易學(xué)與好用的問題,因此要用全根碼或混碼來解決此問題。但傳統(tǒng)的漢字構(gòu)成理論中沒有統(tǒng)一的漢字拆分標(biāo)準(zhǔn),不同的拆分原則會得到不同的字根集,因此全根碼和混碼首先要解決“漢字拆分”的問題。如果單純解決此問題并不難,因為絕大部分漢字是合體字,我們在學(xué)習(xí)合體字時都很自然的把漢字拆分為更簡單的部件來學(xué)習(xí)記憶,并且總結(jié)出構(gòu)字能力強的偏旁部首用于教學(xué)和檢索,只要遵循漢字的構(gòu)成規(guī)律,并對易引起誤解的漢字作出明確的規(guī)定即可很容易的解決漢字拆分問題。但問題在于構(gòu)成漢字的基本部件太多了,約有五、六百種左右,要把這么多的部件都作為字根編碼,如果沒有有效的字根分類方法,勢必使每個鍵碼對應(yīng)的字根數(shù)很多,造成學(xué)習(xí)記憶困難,因此現(xiàn)有的混碼和全根碼多把字根數(shù)控制在一定范圍內(nèi),并把傳統(tǒng)的漢字部件拆分為更基本的部件,由此造成漢字拆分問題。如“吞”字,幾乎每個人都會把它看作是“天”和“口”的合體字,但如因為“天”的組字能力不強而不把它編為字根,就得把它拆為“一、大、口”或“二、人、口”編碼,這必然不符合常理,使編碼不容易掌握。即使是控制字根數(shù),字根數(shù)也往往遠(yuǎn)大于鍵碼數(shù),因此要根據(jù)一定的規(guī)則決定把哪些字根歸為一類,及決定把各類字根對應(yīng)哪些鍵碼,這就是“字根分類和鍵碼對應(yīng)”的問題??梢钥闯?,漢字拆分與字根分類是一對矛盾,兩者不可兼顧。漢字的拆分從某種意義上講是漢字本身所決定的,要真正解決易學(xué)與好用的問題,就不得擅自改變傳統(tǒng)的漢字拆分規(guī)則,這樣就把所有的問題都集中在字根分類和鍵碼對應(yīng)的問題上了。怎樣把字根分類并和鍵碼對應(yīng)才能使編碼達(dá)到易學(xué)好用的目的呢?要使編碼易學(xué),其字根分類要使其編碼滿足三個條件(1)字根分類規(guī)則要簡單明了,嚴(yán)格統(tǒng)一,不能把毫無聯(lián)系或聯(lián)系很勉強的字根歸為一類。(2)字根分類的數(shù)量(即根碼鍵碼數(shù))不能太多,這一方面是因為鍵碼多了不利于在鍵盤上對應(yīng),另一方面是因為根碼鍵碼多了不易學(xué)習(xí)記憶。(3)分類要直觀,不可把抽象的邏輯方法用于漢字編碼,因為漢字是一種表形文字,抽象的邏輯方法不符合人們對漢字的習(xí)慣理解。
要使編碼好用,其字根分類要滿足兩個條件(1)漢字平均碼長要短;(2)重碼率要低。這兩個要求是相互制約的,從概率上講,和二者相關(guān)的因素有三個鍵碼數(shù)、碼長、編碼漢字的數(shù)量。鍵碼和碼長共同決定可用碼的多少??捎么a指可用來編碼的所有碼的數(shù)量,是鍵碼在規(guī)定碼長內(nèi)的所有排列。如鍵碼數(shù)為25碼長固定為4的全根碼,其可用碼的數(shù)量為254個,即390625個。可用碼越多,編碼漢字的數(shù)量越少,重碼率越低。一般而言,編碼漢字的數(shù)量是一定的,對GB2312,其數(shù)量為6763個。因此可用碼數(shù)量越多即鍵碼越多、碼長越長重碼率越低。由于碼長越短輸入速度越快,故鍵碼越多,即字根分類種類越多越好用,這顯然和前面易學(xué)的要求相矛盾。這就是字根分類種類多少的問題。
當(dāng)然,字根分類和鍵碼對應(yīng)并不是簡單的概率問題,這一方面是因為要根據(jù)一定的規(guī)則為字根分類,不能把字根隨機(jī)分類,也不可能使各類字根中的數(shù)量都相等或相近,另一方面是因為漢字有很多重音字,形近字,各種字根在漢字中出現(xiàn)的概率差別也很大。這樣在要求鍵碼盡量多的條件下各個鍵碼在漢字編碼中出現(xiàn)的次數(shù)要盡量平均,這樣才能充分利用可用碼,減少重碼率。要達(dá)到這一要求就得在統(tǒng)計分析的基礎(chǔ)上對字根進(jìn)行優(yōu)化組合,這樣既可以降低重碼率,又可以在保證重碼率不變的情況下減少鍵碼的數(shù)量。但優(yōu)化組合的結(jié)果往往使組合在一起的字根沒有共同的特征,或和字根分類規(guī)則相沖突。這就是字根分類和優(yōu)化組合之間的矛盾問題。
全根碼和混碼雖然面臨著共同的問題,但面臨問題的側(cè)重點有所不同。因為全根碼編根碼時面對的是要編碼的全部漢字,而混碼由于首先把漢字用字息碼分類,在編根碼時面對的編碼漢字是根據(jù)字息碼分類后的各類漢字的數(shù)量,其平均值是全部漢字的數(shù)量除以字息碼鍵碼的數(shù)量。因此從理論上講,在保持重碼率不變的條件下,根碼部分的鍵碼數(shù)和碼長都可以減少,即混碼更有利于解決字根分類種類多少的問題。正因為如此,近幾年混碼占編碼總數(shù)的比例較大。但混碼只是在結(jié)構(gòu)原理上為解決編碼易學(xué)好用的矛盾提供了條件,并沒有為字根分類帶來便利,相反,如想利用混碼減少根碼鍵碼數(shù),反而會增加字根分類的難度。因為如果減少根碼鍵碼,字根總數(shù)不變,每個鍵碼對應(yīng)的字根數(shù)會增加,給字根分類帶來困難;若減少字根總數(shù),又給拆分漢字帶來困難;若強行按字根的公知信息建立嚴(yán)格的字根分類規(guī)則,又和字根優(yōu)化組合相沖突。因此現(xiàn)有的混碼雖對字根分類作了許多有益的嘗試,如利用字根讀音分類,但由于沒有發(fā)現(xiàn)漢字字根構(gòu)成的普遍規(guī)律,沒有突破利用傳統(tǒng)信息分類的局限性,沒有建立嚴(yán)格統(tǒng)一且能兼顧字根優(yōu)化組合的字根分類規(guī)則,其根碼鍵碼相對全根碼鍵碼的數(shù)量多數(shù)沒有減少,和全根碼相比也就沒有多少優(yōu)勢,這也是混碼雖然從理論上講有優(yōu)勢,但實際上混碼并未取代全根碼成為主流編碼的原因。而全根碼除了字根分類和鍵碼對應(yīng)問題,還面臨字根分類種類多少的問題,但若字根分類的問題解決了,也可在保持重碼率不變的情況下改變根碼分類需記憶的現(xiàn)狀,使根碼更容易掌握。
由此可見,對全根碼和混碼而言,其根本問題是解決字根分類和鍵碼對應(yīng)的問題,即在建立嚴(yán)格統(tǒng)一的字根分類規(guī)則的基礎(chǔ)上兼顧字根優(yōu)化組合。這個問題解決了,就可改變字根的分類需要記憶的現(xiàn)狀,并可在減少根碼鍵碼數(shù)的同時增加字根總數(shù),繼而解決漢字拆分問題,實現(xiàn)根碼編碼易于掌握的目的,解決漢字編碼易學(xué)與好用的矛盾。
本發(fā)明提出的一種根素碼漢字輸入方法,把漢字拆分為字根作為漢字編碼的元素,把字根和鍵碼對應(yīng),根據(jù)字根對應(yīng)的鍵碼對漢字編碼,鍵入漢字的編碼輸入漢字,其特征是從字根中提取出構(gòu)成字根的形狀特征信息元素作為根素,根據(jù)根素的所屬信息、數(shù)量信息、筆劃筆順位置信息、是否由完整筆劃構(gòu)成信息中的一種或幾種建立字根分類規(guī)則對字根進(jìn)行分類,字根根據(jù)其所屬類別和鍵碼對應(yīng)。
本發(fā)明的方案說明如下本發(fā)明所述根素是在為字根分類時所體現(xiàn)出來的構(gòu)成字根的形狀特征信息元素,所述形狀特征指平面幾何圖形的直線段、曲線段的種類、數(shù)量、方向角度及相互位置等信息的綜合,即僅把字根作為一幅平面幾何圖形來對待,忽略構(gòu)成字根的筆劃筆順等信息。根素在字根中的存在形式是構(gòu)成字根的一個或幾個圖形局部或全部,其作用是利用根素的各種信息為字根分類,作為根素的具體元素可以和筆劃、筆劃組合、偏旁部首、字根、漢字中的某些具體元素的形狀相同,也可以是由筆劃或線條構(gòu)成的一種全新的形狀元素。本發(fā)明提出“根素”這一分類原理的創(chuàng)造性不是體現(xiàn)在是否發(fā)現(xiàn)了現(xiàn)有漢字輸入技術(shù)領(lǐng)域不存在的漢字部件,而是體現(xiàn)在發(fā)現(xiàn)了字根是在某些形狀特征元素的基礎(chǔ)上延伸擴(kuò)展得到的這一字根構(gòu)成規(guī)律,并利用這一規(guī)律從字根中提取出一定數(shù)量的形狀元素作為根素對字根分類,這些形狀元素是構(gòu)成字根的組成部分,同時也是字根的形狀特征。傳統(tǒng)的漢字構(gòu)成理論沒有發(fā)現(xiàn)這一規(guī)律,現(xiàn)有的輸入法編碼中也沒有發(fā)現(xiàn)并利用這一規(guī)律為字根分類,而只利用了筆劃、筆順、讀音及字根的整體形狀相似或變體變形等字根信息。根素不同于傳統(tǒng)漢字構(gòu)成理論中的筆劃、偏旁部首,也不同于字根、筆劃組合。筆劃和偏旁部首是根據(jù)相關(guān)標(biāo)準(zhǔn)確立的已經(jīng)公認(rèn)的漢字構(gòu)成部件,筆劃是書寫楷體漢字時從起筆到落筆形成的連續(xù)的線條,其最初作用是構(gòu)成漢字,在漢字編碼時,可以作為字根編碼,也可以利用起筆、末筆、筆順、筆劃數(shù)等信息為字根分類;偏旁部首是經(jīng)常出現(xiàn)的漢字構(gòu)成部件,其最初作用是用于檢索和教學(xué),實質(zhì)是根據(jù)漢字中含有的偏旁部首把漢字分類,在漢字編碼時可以作為字根編碼,但僅用偏旁部首編碼效果并不理想,往往和非偏旁部首的字根結(jié)合為漢字編碼。字根是在為漢字編碼時從漢字中拆分出的漢字構(gòu)成部件,它可以是筆劃、偏旁部首、筆劃組合或漢字,字根沒有固定的內(nèi)容,它們隨編碼的不同而不同,其最初作用是為漢字編碼,因而是隨漢字編碼的需要出現(xiàn)的。筆劃組合也是漢字構(gòu)成部件,是兩個以上筆劃構(gòu)成的可以用作字根的具有固定形狀的漢字部件,不包含漢字、筆劃、偏旁部首等公知部件,它在傳統(tǒng)漢字構(gòu)成理論及漢字編碼中都沒有明確的定義,它的出現(xiàn)是因為不同編碼的字根集往往不同,同一筆劃組合,有的編碼中拆分,有的編碼中卻不拆分,因此就把可作為字根編碼的非傳統(tǒng)漢字部件統(tǒng)稱為筆劃組合。可以看出,上述幾種概念雖有明顯不同,但也有一定的聯(lián)系,如果僅從形狀上看,構(gòu)成各種概念的元素集合完全相同的可能性很小,但卻存在著交叉歸屬現(xiàn)象,即一個幾何圖形在不同的條件下有不同的定義,例如“口”,在文章中它是個漢字,在部首檢索時它是個偏旁部首,在為字根編碼時它可以是個字根。構(gòu)成根素的具體元素在形狀上也和現(xiàn)有公知部件存在著交叉歸屬現(xiàn)象,因此不能從各種概念的具體元素來區(qū)分它們。要理解根素的本質(zhì)并和現(xiàn)有的漢字部件區(qū)分就要從它們的定義、作用、各種屬性特征來分析。從定義中可以看出,根素和現(xiàn)有的漢字構(gòu)成部件的最大區(qū)別在于根素僅具有形狀特征,忽略了其他的筆劃筆順等特征,僅把根素和字根看作是一幅幾何圖形,可以把幾何圖形放大或縮小,但圖形的直線段或曲線段的數(shù)量、相互位置關(guān)系、方向角度等信息卻有固定的內(nèi)容,而現(xiàn)有的漢字構(gòu)成部件都是由筆劃構(gòu)成的,其構(gòu)成信息是以筆劃為單位的。筆劃是漢字及漢字構(gòu)成部件特有的屬性,如果把“口”看作是漢字,則它除具有方框形的幾何特征外,還具有筆劃筆順等信息特征,而根素正是忽略了字根的筆劃筆順等信息特征,僅抓住了其形狀特征。在判斷某一字根中是否含有某一根素時,不允許添加圖形,但允許擦除任何部分圖形,只要剩余部分的圖形形狀可以構(gòu)成根素的形狀特征,就可以認(rèn)為此字根中含有這個根素,而其他部件卻不同。例如,以“身、電、壬、弓”等為字根,以“目、日、口、 亻、 乚”為根素,則可以認(rèn)為“身”字根含有一個“目”根素,四個“日”根素,6個“口”根素,一個 根素;“電”字根含有三個“日”字根、三個 根素、九個“口”根素,一個“乚”根素;“壬”字根含有“亻”根素;“弓”字根含有 根素。但如果以“身、田、壬、弓”為漢字,以“目、日、口、 亻、 為字根、偏旁部首或筆劃,則不會認(rèn)為“身”含有“目、日、口”字根、“電”含有 口”字根、“壬”含有“亻”偏旁、“弓”含有 筆劃??梢钥闯?,只要某一根素中的某一局部的形狀特征和根素的特征相同,就可認(rèn)為其含有此根素,而不管其他部分如何,也不管是否破壞了筆劃筆順,而漢字中的筆劃、偏旁部首和字根的存在依據(jù)都是以筆劃為基礎(chǔ)的。根素在字根中的存在是客觀的,由于根素具有固定的幾何特征,利用根素可以建立嚴(yán)格統(tǒng)一的字根分類規(guī)則,而不僅僅是用來對字根的分類作解釋性的說明。構(gòu)成字根的根素很多,可以根據(jù)漢字編碼的需要選擇不同的根素來為字根分類,這就可以使字根分類既有嚴(yán)格的規(guī)則又有很大的靈活性,可以解決字根分類的嚴(yán)格性和優(yōu)化組合的矛盾,滿足漢字編碼的需要。
從作用來看,筆劃的最初作用和根素不同,但隨著漢字編碼的發(fā)展,用筆劃為字根分類的編碼為數(shù)不少?,F(xiàn)有技術(shù)典型的利用筆劃、筆順信息為字根分類的編碼主要有三類第一類是如上所述的“五筆字型”編碼,先利用字根起筆把字根分為幾類,再根據(jù)其他方法如第二筆筆劃、相似、變形等規(guī)則細(xì)分第二類是先利用字根的筆劃數(shù)把字根先分為幾類,再根據(jù)其他方法細(xì)分,如中國專利申請?zhí)枮?6100816.4和01108148.1的編碼第三類是根據(jù)筆劃和筆順為字根分類,典型的方法是把基本筆劃兩兩組合成筆劃對為字根分類,如中國專利申請?zhí)枮?0129107.6編碼。第一類和第二類由于先用起筆筆劃或筆劃數(shù)把字根分了類,再用其他方法細(xì)分時就容易多了,但這樣會使分類的方法復(fù)雜化,雖然有利于建立比較嚴(yán)格的規(guī)則,但不利于學(xué)習(xí)記憶,即使如此,其細(xì)分方法仍沒有可推理的邏輯規(guī)則,往往仍根據(jù)形似,變形等方法為字根分類,其分類規(guī)則仍局限于解釋分類、增強記憶的作用,不能根據(jù)分類規(guī)則反推出字根的所屬類別。第三類編碼雖然規(guī)則簡明,邏輯性好,但根據(jù)筆順判斷不附合人們對漢字的習(xí)慣思維,輸入速度很難提高,同時也不利于字根優(yōu)化組合。而本輸入法編碼對字根的分類方法是基于根素的基礎(chǔ)上的,根素和筆劃的不同前面已說明,雖然有些根素和筆劃在形狀上可能一樣,但由于根素和筆劃的定義及在字根中的存在形式不同,它們在字根中的屬性及在分類時的作用都有了根本性的變化,用形狀一樣的根素和筆劃為字根分類就可能產(chǎn)生不同的結(jié)果,如可認(rèn)為“九”含有“乚”根素,但不可認(rèn)為“九”含有“乚”筆劃。筆劃的種類是有限的,固定的,由于筆劃的最初作用是構(gòu)成漢字,并不適應(yīng)漢字編碼的需要,而根素由于僅具有形狀特征,它突破了筆劃的局限性,不管它是不是筆劃,也不管它是不是其他什么已知部件,只要它是一些字根的標(biāo)志性特征元素,就可以作為根素來為字根分類,由此產(chǎn)生出既能兼顧字根優(yōu)化組合,又能為字根嚴(yán)格分類的效果,并且分類規(guī)則簡單明了、符合傳統(tǒng)漢字拆分習(xí)慣,和現(xiàn)有技術(shù)利用筆劃為字根分類相比有實質(zhì)的變化和進(jìn)步。當(dāng)然,以上所述僅就字根分類方法進(jìn)行比較,許多編碼由于沒有采用音形碼或混碼方案,和本輸入法編碼所屬類別也不一樣。
從作用來看,偏旁部首、字根和根素的作用都不同,字根的作用是為漢字編碼,偏旁部首也可作為字根來為漢字編碼,而根素的作用是用來為字根分類。用字根或偏旁部首為字根分類雖不大可能,但把某些字根看作是某個字根的變體或形似字根并歸為一類的輸入法編碼卻為數(shù)不少。用變體或形似原則為字根分類的結(jié)果可能和用根素為字根分類的結(jié)果有很少部分相同或相似,這不能說明變體和形似的分類原則與根素的分類規(guī)則相同或相似,而恰恰說明漢字和字根的構(gòu)成是有規(guī)律的,但現(xiàn)有技術(shù)只根據(jù)字根構(gòu)成規(guī)律的表象來為字根分類,只看到表面的相似現(xiàn)象,沒有發(fā)現(xiàn)字根的根本的、內(nèi)在的規(guī)律,也就不能建立嚴(yán)格統(tǒng)一的分類規(guī)則,無法把其規(guī)則貫徹始終。而實際上漢字及字根表面相似的背后是有其內(nèi)在構(gòu)成規(guī)律的,而且有適合漢字編碼需要的規(guī)律,只是現(xiàn)有技術(shù)中沒有發(fā)現(xiàn)而已。例如中國專利申請?zhí)枮?5100837的“五筆字型”輸入法中,雖然其分類規(guī)則是用字根的起筆和第二筆來為字根分類,但其規(guī)則并沒有貫徹始終,而且在許多地方應(yīng)用了形似規(guī)則,如把“且”和“目”歸在一類,但并沒有把含有“目”根素的所有字根都?xì)w為一類把“丬、冫、丷、”歸在一類,但并沒有把所有含有兩個“丶”根素的字根都?xì)w為一類;把“田、甲、皿”歸為一類,但卻沒有發(fā)現(xiàn)它們都含有 根素并進(jìn)一步把含有 根素的字根都?xì)w為一類。當(dāng)然,“五筆字型”和本輸入法的主要編碼混碼并不是一種編碼類型,而是屬于全根碼?,F(xiàn)有的把漢字拆分為字根的編碼雖然很多,但對字根分類的原理只有有數(shù)的幾個類別,根據(jù)對千余種輸入法的分析統(tǒng)計,對字根的分類方法主要有讀音法、起筆筆劃法、筆劃數(shù)法、形似或變體法、字意法、字根和字母形似、綜合法等,根據(jù)字根的形似、變體把字根分類的編碼為數(shù)不少,其分類方法大同小異,這一方面是因為已有的分類方法說不清其分類的原則以及和現(xiàn)有技術(shù)的區(qū)別,只好把專利保護(hù)范圍局限在具體的分類規(guī)則里,另一方面其他用形似、變體原理把字根分類的編碼很容易在同一編碼原理下做出不同的解釋,結(jié)果造成申請專利的編碼雖多,但真正有突破的編碼很少,這也是輸入法編碼層出不窮的原因之一。由于變體和形似都沒有明確的含義,不同的人會從不同的角度把不同的字根看作是某個字根的變體或形似字根,因而采用變體或形似為字根分類只能起解釋其分類的原因、幫助記憶的作用,而不能根據(jù)某個字根的變體或形似規(guī)則推理出哪些字根是屬于一類的,至于應(yīng)該把哪些字根歸為一類,要根據(jù)其字根分類表通過記憶來完成。即使有比較明確的分類規(guī)則,但其規(guī)則往往只適用于已歸于某一類的字根,并不是所有符合規(guī)則的字根都?xì)w為這一類。而根素是構(gòu)成字根的基本形狀特征元素,字根中所含有的根素是客觀的,是不以個人的意志為轉(zhuǎn)移的,因為根素實質(zhì)僅是一種幾何圖形,它的幾何特征是固定的,允許把幾何特征相同、大小比例不同的圖形看作是同一根素,但不允許把幾何特征作變形或近似處理。如根據(jù)形似理論可能把“廣、廠、 “冖、宀”、 山、彐、巾”分別歸為一類,但它們具有不同的形狀特征,不作同一根素理解。如果把它們用根素來分類,有可能把一部分歸為一類,如分別用“廠、冖、彐”作根素,會把“廣、廠”、“冖、宀” 彐”分別歸為一類,若另選根素,如根據(jù)后面的幾個實施例提取的根素分類,其結(jié)果又不一樣,但無論用哪些根素分類,其結(jié)果都是根據(jù)規(guī)則推理出來的,是嚴(yán)格統(tǒng)一的。這也正是用根素為字根分類的優(yōu)點所在。
所述根素的所屬信息指某一字根是否含有某一特定根素,只要任意局部或全部的形狀特征和某一根素的形狀特征相同,則判定此字根從屬于含有這一根素的類別。所述數(shù)量信息指字根中含有特定根素的數(shù)量。所述筆劃筆順位置信息指當(dāng)筆劃由根素構(gòu)成時,根素所構(gòu)成的筆劃是字根中的第幾個筆劃。所述是否由完整筆劃構(gòu)成信息是指字根中的根素是否由完整筆劃構(gòu)成,如在判斷某一字根是否含有某一由完整筆劃構(gòu)成的根素時,就不可以認(rèn)為“身”字根含有“目、日、口”根素,不可以認(rèn)為“電”字根含有 根素,因為“身”和“電”,雖然含有這些根素,但這些根素不是由完整的筆劃構(gòu)成的。之所以又引入了筆劃筆順信息,是因為根素雖然僅具有幾何形狀特征,但根素構(gòu)成的字根除了具有幾何形狀特征外,還具有筆劃筆順信息,且有的根素也可能是由筆劃構(gòu)成的。在判斷某一字根是否含有某一根素時忽略其筆劃筆順信息,是為了突破筆劃筆順的限制,使根素在字根中的存在更具有普遍性,有利于為字根分類。但忽略了筆劃筆順并不等于其不存在,僅意味著不受筆劃的限制,并不排斥筆劃筆順,突破了筆劃筆順的限制也不等于根素就不可由筆劃構(gòu)成。本輸入法可以只根據(jù)根素在字根中的上述信息為字根分類,必要情況下,也可以在上述信息的基礎(chǔ)上結(jié)合其它信息來為字根分類,如根素在字根中的上、下、左、右、內(nèi)、外位置信息、字根的讀音信息、字根的結(jié)構(gòu)信息為字根分類,這樣做的好處是為字根分類時更有利于優(yōu)化組合。
所述字根根據(jù)其所屬類別和鍵碼對應(yīng)是把各類字根指定一個鍵碼,但字根在根據(jù)其類別和鍵碼對應(yīng)時可能造成“交叉歸屬”問題,即有的字根根據(jù)分類規(guī)則可能同時屬于兩種或兩種以上的類別,如起筆筆劃由某一根素構(gòu)成的字根可能同時也含有另外一根素,這樣它既屬于“起筆筆劃由某一根素構(gòu)成”類的字根,又屬于“含有某一根素”類的字根。為解決這一問題,本發(fā)明創(chuàng)造性的提出字根分類和鍵碼對應(yīng)的優(yōu)先級別的概念,把每一類字根對應(yīng)一個鍵碼,并把各個鍵碼規(guī)定編碼優(yōu)先級別,當(dāng)某一字根根據(jù)分類規(guī)則同時屬于兩種或兩種以上類別時,取其中編碼優(yōu)先級別高的鍵碼作為其對應(yīng)的鍵碼;或首先規(guī)定各類字根的特征,然后規(guī)定各類字根的分類優(yōu)先級別,確定某一具體字根的類別時,先判斷它是否具有分類優(yōu)先級別最高的類別所描述的特征,如果具有,則判定其屬于這一類,而不再繼續(xù)判斷它是否屬于其它比這類字根分類優(yōu)先級別低的類別,如果不具有,則繼續(xù)判斷它是否具有分類優(yōu)先級別比它低一級的類別的特征,這樣直至判斷出它屬于某一種類別后就不再繼續(xù)判斷它是否屬于其它優(yōu)先級別更低的類別,這樣每個字根就只屬于一種類別,這種類別的字根所對應(yīng)的鍵碼即這個字根對應(yīng)的鍵碼;或建立字根分類規(guī)則,使字根的共有特征具有有選擇的排它性,具有排它性的類別特征里包含一個前提條件,這個前提條件的內(nèi)容是確定具有該類別所描述的特征的字根首先不具有其它特定某幾類字根所具有的特征。三種方法雖形式各異,但其實質(zhì)、作用及達(dá)到的效果一樣的,它們的共同點是在為字根分類和鍵碼對應(yīng)時確立一個分類、對應(yīng)的優(yōu)先級別,根據(jù)優(yōu)先級別的高低來確定字根的所屬類別或?qū)?yīng)的鍵碼,第一種方法在對應(yīng)時確立優(yōu)先級別,第二種方法在分類時確立優(yōu)先級別,第三種方法是把優(yōu)先級別的內(nèi)容規(guī)定在分類規(guī)則里了。后兩種方法和第一種方法的不同點在于使每個字根只屬于一種類別,現(xiàn)有輸入法中的編碼多采用圖表規(guī)定字根分類和鍵碼對應(yīng),因此每個字根只屬于一種類別,這樣本輸入法的字根和鍵碼對應(yīng)的規(guī)則也就和現(xiàn)有技術(shù)一樣,只規(guī)定各類字根對應(yīng)的鍵碼就可以了。值得一提的是除非不顧字根優(yōu)化組合刻意選取根素或確立分類規(guī)則,否則用根素的多種信息為字根分類很難避免字根交叉歸屬問題,尤其是同時利用所屬信息和位置信息時,即使通過分類規(guī)則避免交叉歸屬的問題,用根素的分類法除了要規(guī)定某個字根屬于哪個類別,還要規(guī)定其不屬于某些特定類別,即分類規(guī)則間存在著排他性,這也可以看作是用根素為字根分類和現(xiàn)有技術(shù)的字根分類方法不同的特征之一,因為現(xiàn)有技術(shù)往往用圖表規(guī)定字根的分類和對應(yīng)的鍵碼,不存在交叉歸屬問題,有的雖建立了一定的規(guī)則,但其規(guī)則不嚴(yán)格統(tǒng)一,不是用以推理字根分類,而是用以解釋分類,因此避免了可能出現(xiàn)的交叉歸屬現(xiàn)象。
筆劃有兩種,一種是基本筆劃,只有四個“一”、“丨”、 “丶”,其他筆劃都是基本筆劃的組合或延展,稱為延展筆劃。根素里也可能含有其他更基本的根素。為此把不是由基本筆劃構(gòu)成的根素分為兩種,基本根素和延展根素,基本根素指構(gòu)成延展根素的根素,延展根素指由基本根素經(jīng)延展或組合構(gòu)成的根素,兩者都是相對概念。如以“乚”、“九”、“十”、“木”、 “田”、“中”、“皿”、“日”、“目”作為根素,由于“九”中含有“乚”,故“乚”是“九”的基本根素,“九”是“乚”的延展根素。以此類推, 是“田”、“中”、“皿”的基本根素;“田”、“目”是“日”的延展根素;“十”是“木”的基本根素。如某字根中含有兩個根素,且一個是另一個的基本根素,如果根據(jù)任意一根素分類,字根都屬同一類別,則認(rèn)為它含有哪個根素都無所謂,但一般認(rèn)為其含有延展根素,如“身”為字根,“目”、“日”為根素,則認(rèn)為“身”字根含“目”根素;如果根據(jù)兩根素分類,字根不屬同一類別,要看作是“交叉歸屬”現(xiàn)象,根據(jù)分類或編碼優(yōu)先級別確定字根對應(yīng)的類別或鍵碼。
所述把漢字拆分為字根,實際就是提取字根的過程。提取字根的多少和漢字拆分規(guī)則直接相關(guān),而兩者又和漢字編碼原理有關(guān),或者說受限于字根分類方法。在沒有解決字根分類問題時字根數(shù)是不宜取很多的,只能減少字根,犧牲漢字的傳統(tǒng)拆分習(xí)慣。由于沒有傳統(tǒng)的漢字拆分標(biāo)準(zhǔn)及字根的定義,不同的編碼有不同的字根集,其數(shù)量從十幾個到幾百個不等,而本輸入法由于解決了字根分類問題,無論多少字根都可用本分類方法為其分類,因此本輸入法編碼字根的提取不受限制,對漢字拆分最好以傳統(tǒng)的漢字構(gòu)成理論為基礎(chǔ)。最基本的原則應(yīng)是筆劃交連的漢字部件不拆分,有明顯分離的部件拆分,不宜把單獨一筆作字根編碼,傳統(tǒng)的偏旁部首大部分可作為字根編碼,但象“角、麻、羽”等有明顯分離部件的部首不宜作字根處理。應(yīng)當(dāng)指出,由于本發(fā)明解決了字根分類的難題,任何字根集都可用根素的原理分類,提取字根和為字根分類可看作是兩個相互獨立的步驟。漢字拆分規(guī)則的好壞對編碼的易學(xué)易用性也很重要,由于傳統(tǒng)漢字拆分習(xí)慣沒有統(tǒng)一的標(biāo)準(zhǔn),而漢字的結(jié)構(gòu)又多種多樣,必須參照傳統(tǒng)習(xí)慣制定規(guī)則,為此本發(fā)明提出漢字的拆分方案,把漢字、筆劃組合和偏旁部首分為兩種結(jié)構(gòu)字根結(jié)構(gòu)和組合結(jié)構(gòu),字根結(jié)構(gòu)指不可再分為字根的結(jié)構(gòu),組合結(jié)構(gòu)指可再分為兩個以上字根的結(jié)構(gòu)。字根結(jié)構(gòu)有四種相關(guān)結(jié)構(gòu)、交叉結(jié)構(gòu)、融合結(jié)構(gòu)、筆劃相連結(jié)構(gòu)。組合結(jié)構(gòu)有兩種漢字相連結(jié)構(gòu)和分離結(jié)構(gòu)。上述概念的具體含義將在實施例中解釋。實施例一、三、四、五提取的字根為586個,實施例二中提取的字根為612個,但這些字根集并不是唯一的、固定的,由于對漢字結(jié)構(gòu)的理解不同,對字根的提取也會有所不同,因此允許根據(jù)本輸入法的漢字拆分規(guī)則提取出不同于實施例的字根集,也允許對個別字根根據(jù)字根分類規(guī)則做出不同分類,或者說允許有容錯碼。當(dāng)然,由于本輸入法的發(fā)明點在于對字根的分類方法,也可提出不同的漢字拆分規(guī)則并結(jié)合根素原理為字根分類。
所述根據(jù)字根對應(yīng)的鍵碼對漢字編碼是把漢字對應(yīng)鍵碼進(jìn)行排列組合構(gòu)成根碼,或把根碼和字息碼組合的過程,即漢字編碼中必含有根碼,可以只根據(jù)根碼編全根碼,也可以把根碼和字息碼結(jié)合編混碼。根碼鍵碼一般按書寫及結(jié)構(gòu)順序排列,即參照傳統(tǒng)的“先上后下,先左后右,先外后內(nèi)”順序排列??梢酝ㄟ^取舍鍵碼限制碼長,取全部鍵碼時就是不限制碼長,取部分鍵碼就是限制碼長。由于混碼、全根碼、拼音碼各有特點,如全根碼可輸入不知讀音的字,全拼碼可輸入難拆的已知讀音的字??筛鶕?jù)需要只編混碼,也可根據(jù)特殊需要只編全根碼,或混碼和全根碼都含有,還可以含有拼音碼。由于用字息碼尤其是音碼可有效離散根碼重碼,含音碼的混碼最能體現(xiàn)本輸入法編碼易學(xué)好用的特點,因此最好三種編碼都含有,輸入時以混碼為主,全根碼用來輸入生辟字,全拼碼用來查詢混碼或全根碼的編碼。要使三種碼互相沒有重碼,應(yīng)使根碼鍵碼集和字息碼鍵碼集的交集為空集,即根碼鍵碼集中不含有字息碼鍵碼,字息碼鍵碼集中也不含有根碼鍵碼,且根碼鍵碼集中不含有拼音碼中韻母部分的第一個字母。這樣以混碼輸入漢字時,輸入下一個漢字的字息碼將自動結(jié)束前一個漢字的根碼輸入,中間不必輸入其他鍵分隔鍵碼,但在某些碼之間切換時要輸入一個特定的切換鍵,如空格鍵等??筛鶕?jù)漢字拼音的聲母信息為漢字編字息碼,對沒有聲母的漢字,取漢字拼音的首字母或規(guī)定某個特定鍵碼作其字息碼。這時字息碼即音碼,根碼即形碼,混碼即音形碼或形音碼??梢园崖暷负陀⑽淖帜告I位一一對應(yīng),也可把聲母和映射鍵對應(yīng),如用鍵碼Z、C、S分別對應(yīng)聲母ZH、CH、SH,再如擊某一特定鍵一次對應(yīng)聲母G,擊兩次對應(yīng)聲母H。也可根據(jù)漢字的其他信息如形、意等信息編字息碼,如根據(jù)漢字的結(jié)構(gòu)信息不同,把上下、左右、包圍、半包圍等不同結(jié)構(gòu)的漢字各歸為一類并編字息碼;再如根據(jù)漢字的起筆筆劃、末筆筆劃或四角形狀的不同把漢字各歸一類并編字息碼。
所述鍵入漢字編碼輸入漢字是漢字輸入的最后環(huán)節(jié)。編寫編碼的目的是讓人根據(jù)編碼輸入漢字,創(chuàng)造一種輸入法最主要的工作是創(chuàng)建漢字編碼,但最終輸入漢字還是離不開鍵盤鍵入,因此要把漢字編碼和具體鍵盤上的鍵位聯(lián)系起來。鍵碼和鍵盤上的鍵位的對應(yīng)隨漢字輸入系統(tǒng)的不同而不同,即同一鍵碼在不同的鍵盤上可能有不同的輸入方法。如移動電話等鍵位比較少的漢字輸入系統(tǒng),往往只有10個數(shù)字鍵及幾個特殊的字符鍵或功能鍵,這種情況下,只能利用組合鍵或特定的擊鍵方法輸入某些字符,有的采用連續(xù)擊鍵次數(shù)的不同輸入不同的字符,有的采用組合鍵的方法輸入不同的字符,即同時按幾個鍵或先按某個鍵切換,再按鍵輸入字符。對鍵盤上不能直接表示的鍵碼還可以指定特定的鍵位來對應(yīng)它,這些特定的鍵位即這些鍵碼的映射鍵;有時對某些可直接在鍵盤上鍵入的鍵碼,出于某種目的,也可以用不是這個鍵碼對應(yīng)的其他鍵位來對應(yīng),這些鍵位也是映射鍵。例如輸入法鍵碼集為“A、B、C、D、E、F、G、H、I”的鍵碼可以用“1、2、3、4、5、6、7、8、9”對應(yīng)的鍵位來鍵入。上述鍵碼和鍵位的不同對應(yīng)及用映射鍵和鍵碼對應(yīng)的實質(zhì)都是代碼轉(zhuǎn)換或者說概念代替,這個過程是由漢字輸入系統(tǒng)的制造者在編寫軟件或制造硬件時完成,也可以在軟件編寫時設(shè)置為由用戶在使用時自己指定映射鍵,因此它隨鍵盤或目的的不同而不同。本輸入法不設(shè)專用鍵盤,標(biāo)準(zhǔn)101鍵盤或其他普通鍵盤都適用于本輸入法,實施方案中所指的鍵碼可以用各種鍵盤的映射鍵來鍵入。本輸入法適用于各種漢字輸入系統(tǒng),如計算機(jī)漢字處理系統(tǒng)、移動電話(手機(jī))、信息電話、電子計事本、漢字排版系統(tǒng)、中外文翻譯機(jī),電報機(jī)等。
對重碼字可采用識別碼區(qū)分,識別碼可以根據(jù)漢字本身信息編碼,如根據(jù)漢字的讀音編識別碼;也可以根據(jù)特定字根信息編碼,如根據(jù)最后一個字根信息編碼;還可以是一個和漢字無關(guān)系的特定鍵碼。
以往的輸入法由于沒有統(tǒng)一、嚴(yán)格的字根分類規(guī)則,需用圖表定義字根的種類、數(shù)量及字根分類和鍵碼的對應(yīng)。而本輸入法由于有了嚴(yán)格的字根分類規(guī)則,可以通過漢字拆分規(guī)則及字根分類和鍵碼對應(yīng)規(guī)則推理出字根對應(yīng)的鍵碼及漢字編碼,但由于漢字結(jié)構(gòu)的復(fù)雜性及使用者對規(guī)則的理解不同,極少數(shù)漢字及字根不同的使用者可能有不同的理解,因此字根對應(yīng)的鍵碼和漢字編碼也不應(yīng)是唯一的、固定的,具體實施例提供的字根分類和鍵碼對應(yīng)圖只起幫助理解編碼原理的作用,對易引起誤解的漢字及字根應(yīng)有多個編碼和它對應(yīng)以增加易學(xué)性,即編寫容錯碼。
可以根據(jù)單字編碼對詞組編詞組碼以提高輸入速度。也可以對單字或詞組編簡碼以提高輸入速度,取漢字或詞組編碼的一部分就構(gòu)成簡碼。
本輸入法解決漢字輸入領(lǐng)域字根分類和鍵碼對應(yīng)問題的技術(shù)方案同現(xiàn)有技術(shù)方案對比有三點進(jìn)步(1)現(xiàn)有技術(shù)方案只利用了字根的傳統(tǒng)信息為字根分類,沒有從字根中提取出專為字根分類的形狀特征信息元素。而本發(fā)明發(fā)現(xiàn)了字根是在某些形狀特征元素的基礎(chǔ)上延伸擴(kuò)展得到的這一字根構(gòu)成規(guī)律,并利用這一規(guī)律從字根中提取出一定數(shù)量的形狀元素作為根素對字根分類,在提取根素時忽略字根的筆劃筆順信息,而把字根僅看作是一幅幾何圖形,也不管它是不是已知的未知的漢字部件,只要它是某些字根所共有的標(biāo)志性幾何特征,就可以把它提取出來作為一個根素為字根分類。幾何特征具有客觀性和統(tǒng)一性,因此可以據(jù)此建立嚴(yán)格統(tǒng)一、可推理的字根分類規(guī)則,改變了字根分類規(guī)則只起增強記憶的現(xiàn)狀,可只根據(jù)分類規(guī)則推理出的字根的所屬類別。(2)現(xiàn)有輸入法技術(shù)的另一個局限性在于在應(yīng)用筆劃等公知部件為字根分類時,也沒有充分利用其各種信息,往往根據(jù)筆劃所在位置、筆順、筆劃數(shù)或形似、變體等單一信息對字根分類,這也是造成信息量少,字根分類和優(yōu)化組合難以結(jié)合的原因之一。而本輸入法充分利用根素的所屬信息、數(shù)量信息、筆劃筆順位置信息、是否由完整筆劃構(gòu)成信息等對字根分類,又由于構(gòu)成字根的根素很多,經(jīng)過優(yōu)選根素并靈活選用信息,就可在建立嚴(yán)格統(tǒng)一的字根分類規(guī)則時兼顧字根的優(yōu)化組合,解決了字根分類和優(yōu)化組合之間的矛盾。(3)現(xiàn)有的輸入法技術(shù)中之所以沒有采用公知漢字部件(如筆劃)在字根中的各種信息來為字根分類,一方面是因為其分類規(guī)則本身解釋性的,不嚴(yán)格的,沒有形成明確的信息概念,另一方面還因為用漢字部件的多種信息為字根分類有一個潛在的困難,即交叉歸屬問題。本輸入法運用優(yōu)先級的概念,采用推理的方法成功地解決了這個困難,使采用多種信息的分類規(guī)則不但不互相矛盾,而且可通過調(diào)整優(yōu)先順序進(jìn)行優(yōu)化組合。
綜上所述,發(fā)現(xiàn)字根構(gòu)成的基本規(guī)律,提出“根素”這一分類原理并充分利用根素在字根中的各種信息為字根分類、運用優(yōu)先級的概念解決可能出現(xiàn)的字根和鍵碼對應(yīng)的問題,是本輸入法解決漢字編碼易學(xué)與好用之間矛盾的關(guān)鍵因素,也是本輸入法的發(fā)明點所在。具體的講,本輸入法技術(shù)方案和現(xiàn)有技術(shù)方案相比有如下有益效果第一、現(xiàn)有輸入法的根碼編碼沒有嚴(yán)格統(tǒng)一的字根分類規(guī)則,其描述性的規(guī)則僅起解釋字根分類的作用,用以幫助記憶,不能達(dá)到不用字根分類和鍵碼對應(yīng)表而僅根據(jù)字根分類和鍵碼對應(yīng)規(guī)則推理出字根對應(yīng)的鍵碼的要求,而本輸入法由于利用根素在字根中的各種信息建立了嚴(yán)格統(tǒng)一的字根分類規(guī)則,并運用優(yōu)先級別的概念解決了可能出現(xiàn)的字根和鍵碼對應(yīng)的“交叉歸屬”問題,可用簡單的規(guī)則推理出字根的所屬類別,使根碼保留了編碼直觀、輸入效率高的優(yōu)點,克服了其字根分類需記憶、不易學(xué)習(xí)掌握的缺點。
第二、現(xiàn)有輸入法的根碼鍵碼太多,不易學(xué)習(xí)和記憶,而本輸入法由于利用根素及根素在字根中的各種信息解決了字根分類和優(yōu)化組合之間的矛盾,每一類字根中的字根數(shù)可以取很多,在兼顧傳統(tǒng)漢字拆分習(xí)慣的基礎(chǔ)上減少了根碼鍵碼數(shù),使根碼的編碼易于學(xué)習(xí)掌握。
第三、現(xiàn)有輸入法編碼中有的字根分類規(guī)則是一些抽象的邏輯規(guī)則,而本輸入法根據(jù)字根的形狀信息分類,分類方法直觀,符合人們對漢字習(xí)慣理解。
第四、現(xiàn)有輸入法的根碼中的字根受分類方法限制往往數(shù)量很少,使?jié)h字拆分不符合常理,而本輸入法由于解決了字根分類和優(yōu)化組合的矛盾,可用少量鍵碼對應(yīng)大量字根,實施例中所錄入的字根多達(dá)五、六百個,這一方面可使?jié)h字拆分符合傳統(tǒng)習(xí)慣,另一方面使單個漢字含有字根的平均數(shù)減少了,減少了碼長,提高了輸入效率。
第五、現(xiàn)有輸入法的根碼鍵碼數(shù)相對很多,且字根分類規(guī)則往往和鍵碼有關(guān),而本輸入法由于利用根素為字根分類,可以根據(jù)不同的鍵盤的特點靈活確定鍵碼數(shù),且字根分類不依賴其對應(yīng)的鍵碼,可以為每一類字根任意指定鍵碼,這一方面有利于靈活安排鍵盤中的鍵碼布局,另一方面有利于在不同類型的鍵盤中推廣本輸入法,尤其是當(dāng)采用十個數(shù)字鍵作為根碼鍵碼集時,有利于在移動電話等以數(shù)字鍵為主的漢字輸入系統(tǒng)中推廣,當(dāng)應(yīng)用于這些領(lǐng)域時,可用映射鍵來輸入鍵盤上不能直接輸入的鍵碼。
第六、現(xiàn)有輸入法的混碼中的根碼鍵碼數(shù)相對很多,且字根分類規(guī)則往往和鍵碼有關(guān),很難實現(xiàn)字息碼和根碼的分離,而本輸入法由于采用根素為字根分類,字根分類不依賴其對應(yīng)的鍵碼,可以使根碼鍵碼集和字息碼鍵碼集的交集為空集,使根碼鍵碼中不含有拼音碼中韻母部分的第一個字母。這樣做有三點好處,一是可以在一種輸入法中含有多種編碼以利用其各自的優(yōu)點,可通過全拼碼查詢混碼或全根碼以提高編碼的易學(xué)性,且各種碼之間互相沒有重碼,如同時含有混碼、全根碼、全拼碼三種編碼;二是可使碼長不必固定,使結(jié)構(gòu)簡單的常用漢字碼長很短,使編碼自動區(qū)分,含根碼的簡碼后面不必輸入結(jié)束鍵,提高了輸入速度;三是可以使詞組編碼和單字編碼之間無重碼,可以錄入大量詞組以提高輸入速度。
圖2是實施例2采用的根素、字根、類別、與鍵碼之間的對應(yīng)關(guān)系。
圖3是實施例3和實施例5采用的根素、字根、分類優(yōu)先級別、類別與鍵碼之間的對應(yīng)關(guān)系。
本編碼原理適合GB2312的全部漢字及非國標(biāo)的漢字和繁體字,以下實施例中的字根是在GB2312的6763個漢字及其對應(yīng)的繁體字的基礎(chǔ)上得出的,對GB2312以外的簡體、繁體漢字中的字根,可以參照以下實施例分類并和鍵碼對應(yīng)。以下五個實施例對應(yīng)的三個附圖只起參照作用,在實際編碼時對某些容易引起誤解的字根可以對應(yīng)兩個以上的鍵碼。編寫三個附圖的目的是為了學(xué)習(xí)和理解本輸入法的編碼原理和規(guī)則,并不是本輸入法唯一的不變的字根和鍵碼的對應(yīng),可以在本輸入法編碼原理和規(guī)則的基礎(chǔ)上編寫出與附圖有一定差異圖表。
實施例一A、把漢字拆分為字根,漢字拆分規(guī)則如下(1)、單獨的一筆不作為字根編碼,除單獨一點“丶”外,其余的在編碼時將其忽略,即每個字根至少由兩筆構(gòu)成,如“魯、威、與”等字中的“一”忽略不編碼。所述單獨一筆指不和其他筆劃相連且靠近它的筆劃都互相連接或交叉的筆劃,如“豆”字的第一筆就是單獨一筆,而最后一筆由于其附近的筆劃“丷”也不相連,因此它不是單獨一筆,而是和“丷”相關(guān)構(gòu)成“”作為一個字根。“彳、纟、饣”雖是偏旁,但由于單獨一筆被忽略,其編碼分別同“亻、 ”的編碼。一筆構(gòu)成的漢字按字根編碼規(guī)則編碼,如“一、乙”。
(2)、漢字、筆劃組合和偏旁部首都有兩種結(jié)構(gòu)字根結(jié)構(gòu)和組合結(jié)構(gòu),字根結(jié)構(gòu)指不可再分為兩個以上字根的結(jié)構(gòu),組合結(jié)構(gòu)指可再分為兩個以上字根的結(jié)構(gòu)。字根結(jié)構(gòu)有四種相關(guān)結(jié)構(gòu)、交叉結(jié)構(gòu)、融合結(jié)構(gòu)、筆劃相連結(jié)構(gòu)。組合結(jié)構(gòu)有兩種漢字相連結(jié)構(gòu)和分離結(jié)構(gòu)。
相關(guān)結(jié)構(gòu)指每一筆劃都不和其他筆劃相連且有固定的對應(yīng)關(guān)系的結(jié)構(gòu),如“二、兒、三、川、氵、州、 等。之所以不把相關(guān)結(jié)構(gòu)分開,是因為由兩筆構(gòu)成的相關(guān)結(jié)構(gòu),分開后都是單獨的一筆,不能構(gòu)成字根,如“二、兒”等字;由三筆以上構(gòu)成的相關(guān)結(jié)構(gòu),分開時容易引起歧義,或者說有多種分法,如“三”就可分為“一、二”或“二、一”再如“氵、灬”,分別有兩、三種分法。
交叉結(jié)構(gòu)指至少存在一個交叉點,且其它筆劃都相連的結(jié)構(gòu),如“丙、吏、事、 等。
融合結(jié)構(gòu)是兩個以上的“丶”根素被其它相連或交叉的筆劃分隔開構(gòu)成的結(jié)構(gòu),如“為、辦、米、火、亦、半”等,即至少有兩個“丶”根素,且有至少兩筆相連或交叉。
筆劃相連結(jié)構(gòu)指任意筆劃都與其他筆劃有至少一個接觸點相連構(gòu)成的結(jié)構(gòu),但筆劃之間沒有交叉點,如果從通過某一連接點的直線把它分開成兩部分,任意一部分都不能構(gòu)成多于兩筆的漢字,或雖有一部分可構(gòu)成多于兩筆的漢字,但另一部分少于兩筆,如“面、而、宀、正、斤、日、自”等不可拆分,而“百”由于可拆為 日”,故可拆分。
漢字相連結(jié)構(gòu)是由漢字和漢字、筆劃組合或偏旁部首相連構(gòu)成的結(jié)構(gòu),即至少有一個漢字,且拆分后的各部分至少由兩筆構(gòu)成,如“右、石、占、先、足、元、示、云、支、舌、早、百、糸”等。注意漢字相連結(jié)構(gòu)是漢字和其他部件相連構(gòu)成,而不是相交或相分離構(gòu)成,即拆分時只允許從筆劃連接點分,不可根據(jù)筆劃書寫順序拆分,也不可從交叉點拆分,如不可把“里”分為“日、土”,不可把“天”分為“二、人”。
分離結(jié)構(gòu)指構(gòu)成漢字的漢字、筆劃組合及偏旁部首間有明顯界限,且從分界處分開的部件都在兩筆以上,如“結(jié)、相、樹、晶、問、因、髟”等字。
(3)、由于“丶”多不和其他筆劃相連,可單獨對含有“丶”根素的漢字、偏旁部首和筆劃組合作如下拆分規(guī)定(a)和其他筆劃相交的筆劃不作“丶”根素理解,如“斥、匆、丸”等字中的末筆劃。(b)“亠”和其他筆劃相分離時,可以單獨作字根,如“高、亢”;和其他筆劃或漢字相連或相關(guān)時,不單獨作字根,如“玄、卞、衣、立、市”等。(c)“人、八、入、丷、 理解為含有兩個“丶”根素。當(dāng)兩點的中間沒有其他筆劃夾雜時,由于不是融合結(jié)構(gòu),可單獨作字根,如“六、只,羊、關(guān)、共、令、會、興、今、欠、穴、”等,和其它筆劃交叉時不作兩點理解,也不作一點理解,如“兩、丙、內(nèi)、大、天”等。(d)“米、來、火、滅”由于含有“人”或“八”,因此應(yīng)當(dāng)理解為含有三個以上“丶”根素。(e)含有兩點以上的漢字、偏旁部首或筆劃組合當(dāng)能拆出字時要拆分,如“羽、應(yīng)”;點被相連筆劃半包圍時可作為字根,如 夕、點被不相連的筆劃分割成幾部分時要拆分,如“卵、麗、多”;其余的要以相關(guān)結(jié)構(gòu)或融合結(jié)構(gòu)作為一個整體不拆分,如“、豸、心、衤、 癶”等。(f)宋體字中的短撇、短提和短豎在和點對應(yīng)形成相關(guān)結(jié)構(gòu)時作“丶”根素理解,如 丬、”,不和點相關(guān)的要分別作“ 一、丨”理解。
B、提取根素并根據(jù)根素的信息對字根分類,字根根據(jù)其所屬類別和鍵碼對應(yīng)(1)提取根素提取如下根素用于為字根分類,“一”、“丨”、“十”、“丿”、 “乚”、 “丶”、“口”、“彐”、 “木”、“中”。其中,“丿”是由“丨”和 連接構(gòu)成的,因而可以認(rèn)為“戶、尸”等字根含有“口”根素。
(2)根據(jù)根素的所屬信息、數(shù)量信息、筆劃筆順位置信息對字根分類1)、起筆筆劃僅由“一”根素構(gòu)成的字根歸為1類。
2)、起筆筆劃僅由“丨”根素構(gòu)成的字根或含有由完整筆劃構(gòu)成的“十”根素并且“十”根素在字根中左右居中上下靠上的字根歸為2類,如“土、十、木”屬于2類,而“干、艸、扌”雖含“十”根素,但“十”根素不左右居中或不上下靠上或不是由完整筆劃構(gòu)成,因而不屬于2類。
3)、起筆筆劃僅由“丿”或 根素構(gòu)成的字根歸為3類。
4)、含有 或“乚”根素的字根歸為4類。
5)、含有一個“丶”根素的字根歸為5類。
6)、含有兩個“丶”根素且不含有“木”根素的字根歸為6類。
7)、含有三個或三個以上“丶”根素的字根歸為7類。
8)、含有“口”根素的字根歸為8類。
9)、含有“彐”或 根素且僅含有一個 根素時 中不夾雜其他筆劃同時字根中也不含有“中”根素的字根歸為9類。如“中、蟲、 雖含有 根素,但由于含有“中”根素或 中夾雜其他筆劃,因而不屬于9類;而 皿、申”由于含有兩個以上的 根素,因此即使含有“中”根素,也屬于9類。
10)、不屬于上述9類字根的字根歸為0類。
(3)字根根據(jù)其所屬類別和鍵碼對應(yīng)如“字根分類規(guī)則”所述的“1、2、3、4、5、6、7、8、9、0”類字根分別對應(yīng)“1、2、3、4、5、6、7、8、9、0”10個鍵碼,或以其他10個鍵碼和10類字根相對應(yīng)。鍵碼編碼優(yōu)先級別由低到高的順序為0、1、2、3、4、5、6、7、8、9,或另規(guī)定一種優(yōu)先級別順序。當(dāng)某一字根根據(jù)“字根分類規(guī)則”屬于兩種或兩種以上類別時,即對應(yīng)兩個以上的鍵碼時,取其中優(yōu)先級別最高的鍵碼和它對應(yīng)。例如“事”字根,它起筆筆劃僅由“一”根素構(gòu)成,既含有“口”根素,又含有“彐”根素,根據(jù)分類規(guī)則它分別屬于1、8、9類,分別對應(yīng)鍵碼1、8、9,在編碼時取其中編碼優(yōu)先級別最高的鍵碼,即鍵碼9和“事”字根對應(yīng)。
(4)容錯碼規(guī)定對根據(jù)字根分類和鍵碼對應(yīng)規(guī)則確定字根對應(yīng)的鍵碼容易引起誤解的字根可對應(yīng)兩個以上的鍵碼,如“夷、弗”兩字根含有 根素,從宋體字看也含有“口”根素,但從其他字體或根據(jù)使用者的習(xí)慣理解可能認(rèn)為它們不含有“口”根素,這種特殊字根可以指定其含有哪一個根素,如在本實施例和實施例二中指定它們屬于含有 根素的類別,而實施例三中指定它們屬于含有“口”根素的字根,因此最好在實際編碼時使之對應(yīng)兩個鍵碼,這樣含有這些字根的漢字將有兩個以上的編碼與之對應(yīng)。也允許對結(jié)構(gòu)類型不明顯的漢字有不同的拆分,因此有的漢字在一種編碼里有幾個編碼與之對應(yīng),這幾個碼中取最合理的一種作首選碼,其余的作為容錯碼。
C、根據(jù)字根對應(yīng)的鍵碼對漢字編碼每個漢字可編四種碼混碼、拼音碼和全根碼,其中混碼又分兩種形音碼和音形碼。也可只編其中的一種或幾種碼。但必須含有音形碼。下面分別描述它們的取碼規(guī)則(1)音形碼和形音碼把漢字在鍵盤上的輸入編碼分為兩部分,一部分是聲碼,一部分是形碼。聲碼加形碼即構(gòu)成漢字的音形碼。形碼加聲碼即構(gòu)成漢字的形音碼。
聲碼編碼規(guī)則取漢字讀音的聲母所對應(yīng)的字母作為漢字的聲碼,聲母B、P、M、F、D、T、N、L、G、K、H、J、Q、X、ZH、CH、SH、R、Z、C、S、Y、W分別對應(yīng)鍵碼B、P、M、F、D、T、N、L、G、K、H、J、Q、X、ZH、CH、SH、R、Z、C、S、Y、W。聲母不同的多音字分別對應(yīng)不同的聲碼,對沒有聲母的漢字,規(guī)定字母O作為其聲碼,或以其他非根碼鍵碼作為其聲碼。可以把拼音的頭兩個字母為YI的漢字的聲碼規(guī)定為I。聲母是CH、SH、ZH的漢字的聲碼可以分別規(guī)定為C、S、V。
形碼編碼規(guī)則編碼順序按“先上后下,先左后右,先外后內(nèi)”的順序把字根對應(yīng)的鍵碼排列,內(nèi)外結(jié)構(gòu)指一部分被另一部分四面包圍的結(jié)構(gòu),如“圍、國、困”等字,“可、廳、兇、同、爽、巫、幽”等字屬于上下結(jié)構(gòu),“還、區(qū)”等字屬于左右結(jié)構(gòu)。最大碼長為3,多于3個鍵碼的漢字取前2個鍵碼和最后一個鍵碼構(gòu)成漢字的根碼,不多于3碼的有幾碼取幾碼。
(2)全根碼編碼順序同形碼編碼順序,最大碼長為4,多于4個鍵碼的漢字取前3個鍵碼和最后一個鍵碼構(gòu)成漢字的全根碼,不多于4碼的有幾碼取幾碼。
(3)、拼音碼以全拼方案編碼。
上述幾種碼所對應(yīng)的鍵碼可以用其他鍵碼或映射鍵代替,若使幾種碼之間沒有重碼,應(yīng)使根碼鍵碼集和聲碼鍵碼集的交集為空集,即根碼鍵碼集中不含有聲碼鍵碼,聲碼鍵碼集中也不含有根碼鍵碼,且根碼鍵碼集中不含有拼音碼中韻母部分的第一個字母。這樣以混碼輸入漢字時,輸入下一個漢字的字息碼將自動結(jié)束前一個漢字的根碼輸入,中間不必輸入其他鍵分隔編碼,但在某些碼之間切換時要輸入一個特定的切換鍵,如空格鍵等。
D、對重碼漢字加識別碼區(qū)分,識別碼規(guī)則如下音形碼、形音碼和全根碼在一種編碼內(nèi)有重碼的漢字在重碼漢字的編碼后面再加一個識別碼來區(qū)分。加識別碼后仍有重碼的再輸入一次識別碼。識別碼有兩類,一類是拼音識別碼,一類是字形識別碼。有拼音識別碼的用拼音識別碼,沒有拼音識別碼的用字形識別碼來區(qū)分。
(1)、拼音識別碼重碼字中,如果其拼音中含有A、E、U,就分別以A、E、U作識別碼,當(dāng)拼音中含有兩個以上的識別碼時,取排在前面的作為其識別碼。也可以用A、E、U以外的鍵碼作拼音識別碼。
(2)、字形識別碼拼音中不含有A、E、U的漢字用字形識別碼來區(qū)分重碼,規(guī)定字形識別碼為數(shù)字0。也可以用0以外的鍵碼作為字形識別碼。
上述識別碼所用的鍵碼可以用其他鍵碼或映射鍵代替,為使幾種碼之間沒有重碼,應(yīng)使識別碼鍵碼集和聲碼鍵碼集的交集為空集。
E、為詞組編碼,詞組編碼規(guī)則如下此編碼規(guī)則適用于音形碼。拼音碼、全根碼和形音碼的詞組編碼可以參照此規(guī)則建立詞組編碼規(guī)則。(1)雙字詞第一字聲碼+第二字聲碼+第一字形碼首碼+第二字形碼首碼+第二字形碼尾碼。(2)三字詞第一字聲碼+第二字聲碼+第三字聲碼+第三字形碼首碼+第三字形碼尾碼。(3)四字以上詞第一字聲碼+第二字聲碼+第三字聲碼+最后一字聲碼+最后一字形碼首碼。詞組編碼有重碼的可在重碼詞組編碼后加識別碼輸入,其識別碼為詞組編碼的最后一個鍵碼,加識別碼后仍有重碼的漢字可再輸入一次識別碼。
F、為漢字或詞組編簡碼,簡碼規(guī)則如下單字和詞組的編碼可以在不引起重碼的前提下為常用漢字和詞組編簡碼。取漢字或詞組編碼的一部分作漢字的編碼就構(gòu)成簡碼。單字簡碼一級簡碼取漢字編碼的第一個鍵碼;二級簡碼取漢字編碼的前兩個鍵碼;三級簡碼取漢字編碼的前三個鍵碼。
詞組簡碼一級簡碼取詞組編碼的前兩個鍵碼,二級簡碼取詞組編碼的前三個鍵碼,三級簡碼取詞組編碼的前四個鍵碼。
G、特殊規(guī)定(1)字根“匚、凹、凸、和鍵碼“0”對應(yīng), 字根屬于含有“彐”根素的類別。(2)“乙、一、乚”在整字的字尾且不和其他筆劃相連時可作為一個字根編碼,如“乞、旦、鳥、孔”等字,“舊、引”中的“丨”的根碼為2。
H、鍵入漢字編碼輸入漢字。
以實施例一的漢字編碼規(guī)則為基礎(chǔ),建立一個字根分類和鍵碼對應(yīng)圖,如附1所示。根據(jù)

圖1及實施例一的各條規(guī)則就可以編制編碼字典,下面舉例說明音形碼娥005 高G588 海H736 與Y41 事S9 粥V474 嘴Z829形音碼娥050 高588G 海736H 與41Y 事9S 粥474V 嘴829Z全根碼娥05 高5848 海736 與41 事9 粥474 嘴8249拼音碼娥E高GAO 海HAI 與YU 事SHI 粥ZHOU 嘴ZUI根據(jù)編碼字典編寫應(yīng)用軟件安裝在漢字輸入系統(tǒng)中,漢字或詞組編碼中所含鍵碼的種類、個數(shù)、排列順序分別表示輸入漢字要擊的鍵、擊鍵的次數(shù)及順序,確定鍵碼和漢字輸入系統(tǒng)鍵盤鍵位的對應(yīng)關(guān)系,依次擊漢字或詞組編碼中鍵碼對應(yīng)的鍵位,就可輸入漢字或詞組。對有重碼的漢字或詞組,可從第二個重碼字開始在其編碼后加識別碼,如“永、么、尤、玉”的編碼都是Y5,后三個漢字編碼加識別碼為“么Y5A、尤Y50、玉Y5U”,再如“無、衛(wèi)、韋、萬、”的編碼都是W4,后三個漢字編碼加識別碼為“無W4、衛(wèi)W4E、韋W4EE、萬W4A”,輸入“么、尤、玉、衛(wèi)、韋、萬”等字時在輸入編碼Y5、W4后再輸入識別碼就可不用選字輸入。
實施例二A、把漢字拆分為字根,漢字拆分規(guī)則如下(1)、單獨的一筆不作為字根編碼,除單獨一點“丶”外,其余的在編碼時將其忽略或同其附近的筆劃構(gòu)成一個字根,即每個字根至少由兩筆構(gòu)成。一筆構(gòu)成的漢字按字根編碼規(guī)則編碼,如“一、乙”。
(2)、相關(guān)結(jié)構(gòu)、交叉結(jié)構(gòu)、融合結(jié)構(gòu)、筆劃相連結(jié)構(gòu)的漢字、筆劃組合或偏旁部首作為字根不拆分。漢字相連結(jié)構(gòu)和分離結(jié)構(gòu)的漢字、筆劃組合或偏旁部首拆分。
(3)、由于“丶”多不和其他筆劃相連,可單獨對含有“丶”根素的字和筆劃組合作如下拆分規(guī)定(a)“亠”和其他筆劃相分離時,可以單獨作字根,如“高、亢”;和其他筆劃或漢字相連或相關(guān)時,不單獨作字根,如“玄、卞、衣、立、市”等。(b)“人、八、入”不和其他筆劃交叉時理解為含有兩個“丶”根素。(c)“米、來、火、滅”由于含有“人”字根或“八”字根,因此應(yīng)當(dāng)理解為含有三個以上點根素。(d)含有兩點以上的漢字、偏旁部首或筆劃組合當(dāng)能拆出字時要拆分,如“羽、應(yīng)”;點被相連筆劃半包圍時可作為字根,如 夕、 點被不相連的筆劃分割成幾部分時要拆分,如“卵、麗、多”;其余的要以相關(guān)結(jié)構(gòu)或筆劃相連結(jié)構(gòu)作為一個整體不拆分,如“、豸、心、衤、 癶”等。(e)宋體字中的短撇、短提和短豎在和點對應(yīng)時作點理解,如 丬、”,不和點相關(guān)的要分別作 一、丨”理解。
B、提取根素并根據(jù)根素的信息對字根分類,字根根據(jù)其所屬類別和鍵碼對應(yīng)(1)提取根素提取如下幾種根素為字根分類,“一”、“丨”、“”、“乚”、 “冂”、 “丶”、“亠”、“冖”、“弋”、“厶”、 “丷”、“口”、 “彐”、“日”、“罒”、“田”、“目”、“月”、“木”。
(2)根據(jù)根素的所屬信息、數(shù)量信息、筆劃筆順位置信息、是否由完整筆劃構(gòu)成信息對字根分類1)字根有讀音且拼音的聲母為“B”或“Y”的屬于GB2312的常用字字根歸為1類。
2)、不屬于上述第1類字根,含有“彐”、“日”、“罒”、“田”、“目”或“月”等網(wǎng)格狀根素的字根歸為2類。
3)、不屬于上述2類字根,含有“口”或 根素的字根歸為3類。
4)、不屬于上述3類字根,含有三個及三個以上“丶”根素的字根歸為4類。
5)、不屬于上述4類字根,含有“丷”或 根素且 根素不和其他筆劃相交同時字根中不含有“木”根素的字根或其他只含有兩個“丶”根素的字根歸為5類。
6)、不屬于上述5類字根,含有“亠”、“冖”、“弋”、“厶”等根素的字根或其他只含有一個“丶”根素的字根歸為6類。
7)、不屬于上述6類字根,含有“乚”、 或 的延展根素 “冂”等根素且所含根素是由完整筆劃構(gòu)成的字根歸為7類。如“九”字根,雖含有“乚”根素,但“乚”不是由完整的筆劃構(gòu)成,故“九”字根不屬于7類字根。
8)、不屬于上述7類字根,末筆筆劃僅由“”根素構(gòu)成的字根歸為8類。
9)、不屬于上述8類字根,末筆筆劃僅由“丨”根素構(gòu)成的字根歸為9類。
10)、不屬于上述9類字根,末筆筆劃僅由“一”根素構(gòu)成的字根歸為10類。
11)、不屬于上述10類字根的字根歸為0類。
(3)字根根據(jù)其所屬類別和鍵碼對應(yīng)如“字根分類規(guī)則”所述的“0、1、2、3、4、5、6、7、8、9、10”11類字根分別對應(yīng)“0、V、9、8、7、6、5、4、3、2、1”11個鍵碼,或?qū)?yīng)“A、B、C、D、E、F、G、H、I、J、K”11個鍵碼,或?qū)?yīng)其他11個鍵碼。
(4)容錯碼規(guī)定同實施例一。
C、根據(jù)字根對應(yīng)的鍵碼對漢字編碼以漢字的字形信息編字息碼,把漢字的筆劃分為5種,橫、豎、撇、點、折,把漢字根據(jù)結(jié)構(gòu)分兩種左右結(jié)構(gòu)字和非左右結(jié)構(gòu)字,字息碼的取碼規(guī)則為1)、起筆為橫“一”的左右結(jié)構(gòu)漢字歸為1類。
2)、起筆為橫“一”的非左右結(jié)構(gòu)漢字歸為2類。
3)、起筆為豎“丨”的左右結(jié)構(gòu)漢字歸為3類。
4)、起筆為豎“丨”的非左右結(jié)構(gòu)漢字歸為4類。
5)、起筆為撇“丿”的左右結(jié)構(gòu)漢字歸為5類。
6)、起筆為撇“丿”的非左右結(jié)構(gòu)漢字歸為6類。
7)、起筆為點“丶”的左右結(jié)構(gòu)漢字歸為7類。
8)、起筆為點“丶”的非左右結(jié)構(gòu)漢字歸為8類。
9)、起筆為折類筆劃的漢字歸為9類。
上述9類漢字對應(yīng)的字息碼分別為1、2、3、4、5、6、7、8、9,或?qū)?yīng)其他9個鍵碼。
根碼編碼規(guī)則編碼順序按“先上后下,先左后右,先外后內(nèi)”的順序把字根對應(yīng)的鍵碼排列,內(nèi)外結(jié)構(gòu)指一部分被另一部分四面包圍的結(jié)構(gòu),如“圍、國、困”等字,“可、廳、兇、同、爽、巫、幽”等字屬于上下結(jié)構(gòu),“還、區(qū)”等字屬于左右結(jié)構(gòu)。最大碼長為4,多于4個鍵碼的漢字取前3個鍵碼和最后一個鍵碼構(gòu)成漢字根碼,不多于4碼的有幾碼取幾碼。
把字息碼和根碼組合排列構(gòu)成混碼。
D、對重碼漢字加識別碼區(qū)分,識別碼規(guī)則如下末筆為橫的漢字的識別碼為1,末筆為豎的漢字的識別碼為2,末筆為捺或點的漢字的識別碼為3,其余漢字的識別碼為0。
E、鍵入漢字編碼輸入漢字。
以實施例二的漢字編碼規(guī)則為基礎(chǔ),建立一個字根分類和鍵碼對應(yīng)圖,如附2所示。根據(jù)圖2及實施例二的各條規(guī)則就可以編制編碼字典,下面舉例說明馬94 高85848 海7716 但528 事29 身69 板130V嘴38149根據(jù)編碼字典編寫應(yīng)用軟件安裝在漢字輸入系統(tǒng)中,漢字編碼中所含鍵碼的種類、個數(shù)、排列順序分別表示輸入漢字要擊的鍵、擊鍵的次數(shù)及順序,確定鍵碼和漢字輸入系統(tǒng)鍵盤鍵位的對應(yīng)關(guān)系,依次擊漢字編碼中鍵碼對應(yīng)的鍵位,就可輸入漢字。對有重碼的漢字,可從第二個重碼字開始在其編碼后加識別碼輸入。
實施例三A、把漢字拆分為字根,漢字拆分規(guī)則同實施例一。
B、提取根素并根據(jù)根素的信息對字根分類,字根根據(jù)其所屬類別和鍵碼對應(yīng)(1)提取根素提取如下根素用于為字根分類,“一”、“丨”、“十”、“ノ”、“丿”、“亻”、 “乚”、“丶”、“口”、“日”、 “木”。其中,“丿”是由“丨”和 連接構(gòu)成的,因而可以認(rèn)為“月、戶、尸”等字根分別含有“日”或“口”根素。
(2)根據(jù)根素的所屬信息、數(shù)量信息、筆劃筆順位置信息對字根分類1)、起筆筆劃僅由“一”根素構(gòu)成的非成字字根歸為1類,起筆筆劃僅由“一”根素構(gòu)成的成字字根歸為2類。
2)、起筆筆劃僅由“丨”根素構(gòu)成的字根或含有由完整筆劃構(gòu)成的“十”根素并且“十”根素在字根中左右居中上下靠上的字根歸為3類。
3)、起筆筆劃僅由 根素構(gòu)成的非成字字根歸為4類,起筆筆劃僅由“丿”根素構(gòu)成的字根或起筆筆劃僅由 根素構(gòu)成的成字字根或含有“亻”根素的字根歸為5類。
4)、含有 或“乚”根素的字根歸為6類。
5)、只含有兩個“丶”根素且兩“丶”相對形成“八”字形的字根歸為8類,其余只含有兩個“丶”根素的字根歸為7類。
6)、含有三個或三個以上“丶”根素的字根歸為9類。
7)、“口”字根歸為10類,含有“口”根素的非“口”字的字根歸為11類。
8)、只含有一個“丶”根素且“丶”在字根上方的字根歸為13類,只含有一個“丶”根素且“丶”不在上方的歸為12類。
9)、含有“日”或 根素的字根歸為14類,含有“木”或 根素的字根歸為15類。
10)、不在以上9條所列的字根歸為0類。
上述16類字根分類的優(yōu)先級別從低到高的順序為0、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15或另行規(guī)定一特定優(yōu)先級別。確定某一具體字根的類別時,先判斷它是否具有分類優(yōu)先級別最高的類別所描述的特征,如果具有,則判定其屬于這一類,而不再繼續(xù)判斷它是否屬于其它比這類字根分類優(yōu)先級別低的類別,如果不具有,則繼續(xù)判斷它是否具有分類優(yōu)先級別比它低一級的類別所描述的特征,這樣直至判斷出它屬于某一種類別后就不再繼續(xù)判斷它是否屬于其它優(yōu)先級別更低的類別。例如“臣”字根,它起筆為“一”,又含有“口”根素,根據(jù)分類規(guī)則首先判斷它是否屬于15類,它不屬于15類,再往下判斷,它不屬于14類,也不屬于12和13類,但屬于11類,至此就不再判斷它是否屬于其他類別,即“蟲”字根屬于11類。
(3)字根根據(jù)其所屬類別和鍵碼對應(yīng)如“字根分類規(guī)則”所述的0、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15類字根對應(yīng)的鍵碼分別為“0、1、A、2、3、E、4、6、U、7、8、I、V、5、9、0”,或以其他16個鍵碼和16類字根相對應(yīng)。
(4)容錯碼規(guī)定同實施例一。
C、根據(jù)字根對應(yīng)的鍵碼對漢字編碼字息碼為漢字讀音的聲母所對應(yīng)的字母,即聲碼,聲母B、P、M、F、D、T、N、L、G、K、H、J、Q、X、ZH、CH、SH、R、Z、C、S、Y、W分別對應(yīng)鍵碼B、P、M、F、D、T、N、L、G、K、H、J、Q、X、ZH、CH、SH、R、Z、C、S、Y、W。對沒有聲母的漢字,規(guī)定字母R作為其聲碼,或以其他非根碼鍵碼作為其聲碼。聲母是CH、SH、ZH的漢字的聲碼可以分別規(guī)定為C、S、Z。
根碼編碼規(guī)則編碼順序按“先上后下,先左后右,先外后內(nèi)”的順序把字根對應(yīng)的鍵碼排列,內(nèi)外結(jié)構(gòu)指一部分被另一部分四面包圍的結(jié)構(gòu),如“圍、國、困”等字,“可、廳、兇、同、爽、巫、幽”等字屬于上下結(jié)構(gòu),“還、區(qū)”等字屬于左右結(jié)構(gòu)。最大碼長為3,多于3個鍵碼的漢字取前2個鍵碼和最后一個鍵碼構(gòu)成漢字的根碼,不多于3碼的有幾碼取幾碼。
根碼和聲碼組合,根碼在前構(gòu)成形音碼,聲碼在前構(gòu)成音形碼。
D、對重碼漢字加識別碼區(qū)分,漢字識別碼為數(shù)字0。
E、鍵入漢字編碼輸入漢字。
以實施例三的漢字編碼規(guī)則為基礎(chǔ),建立一個字根分類和鍵碼對應(yīng)圖,如附3所示。根據(jù)圖3及實施例三的各條規(guī)則就可以編制編碼字典,下面舉例說明音形碼、混碼娥R05 高G588 海H736 從CUU 事S0 身S9 代DE5 嘴Z820形音碼、混碼娥05R 高588G 海736H 從UUC 事0S 身9S 代E5D 嘴820Z根據(jù)編碼字典編寫應(yīng)用軟件安裝在漢字輸入系統(tǒng)中,漢字編碼中所含鍵碼的種類、個數(shù)、排列順序分別表示輸入漢字要擊的鍵、擊鍵的次數(shù)及順序,確定鍵碼和漢字輸入系統(tǒng)鍵盤鍵位的對應(yīng)關(guān)系,依次擊漢字編碼中鍵碼對應(yīng)的鍵位,就可輸入漢字。對有重碼的漢字,可從第二個重碼字開始在其編碼后加識別碼輸入。
實施例四A、把漢字拆分為字根,漢字拆分規(guī)則同實施例一。
B、提取根素并根據(jù)根素的信息對字根分類,字根根據(jù)其所屬類別和鍵碼對應(yīng),提取根素及字根分類和鍵碼對應(yīng)規(guī)則同實施例一。
C、根據(jù)字根對應(yīng)的鍵碼對漢字編碼根據(jù)漢字讀音的聲母信息編字息碼,漢字聲母是B、C、D、F、G、H、J、K、L、M、N、P、Q、R、S、T、W、X、Y、Z的字息碼分別為1、11、2、22、3、33、4、44、5、55、6、66、7、77、8、88、9、99、0、00。對沒有聲母的漢字,規(guī)定聲母R對應(yīng)的字息碼77作為其字息碼。聲母是CH、SH、ZH的漢字的聲碼分別為C、S、Z對應(yīng)的聲碼11、8、00。
根碼編碼規(guī)則編碼順序按“先上后下,先左后右,先外后內(nèi)”的順序把字根對應(yīng)的鍵碼排列,內(nèi)外結(jié)構(gòu)指一部分被另一部分四面包圍的結(jié)構(gòu),如“圍、國、困”等字,“可、廳、兇、同”等字屬于上下結(jié)構(gòu),“還、區(qū)”等字屬于左右結(jié)構(gòu)。最大碼長為4,多于4個鍵碼的漢字取前3個鍵碼和最后一個鍵碼構(gòu)成漢字的根碼,不多于4碼的有幾碼取幾碼。
字息碼和根碼組合構(gòu)成混碼。
D、鍵入漢字編碼輸入漢字。
根據(jù)圖1及實施例四的各條規(guī)則就可以編制編碼字典,根據(jù)編碼字典編寫應(yīng)用軟件安裝在漢字輸入系統(tǒng)中,漢字編碼中所含鍵碼的種類、個數(shù)、排列順序分別表示輸入漢字要擊的鍵、擊鍵的次數(shù)及順序,確定鍵碼和漢字輸入系統(tǒng)鍵盤鍵位的對應(yīng)關(guān)系,依次擊漢字編碼中鍵碼對應(yīng)的鍵位,就可輸入漢字。
實施例五A、把漢字拆分為字根,漢字拆分規(guī)則同實施例三。
B、提取根素并根據(jù)根素的信息對字根分類,字根根據(jù)其所屬類別和鍵碼對應(yīng),提取根素及字根分類和鍵碼對應(yīng)規(guī)則同實施例三。
C、根據(jù)字根對應(yīng)的鍵碼對漢字編碼(1)、本身是字根的漢字的編碼分兩部分,一部分是其本身對應(yīng)的根碼,另一部分是其頭三個筆劃對應(yīng)的鍵碼按書寫順序排列得到的筆劃碼,把根碼和筆劃碼組合排列構(gòu)成其編碼。筆劃碼按如下規(guī)則取把筆劃分五種,橫、豎、撇、點、折,分別對應(yīng)鍵碼1、2、3、4、5,按書寫順序把筆劃對應(yīng)的鍵碼排列,多于3筆的取前3個鍵碼,少于等于3個筆劃的有幾碼取幾碼。
(2)、本身不是字根的漢字的編碼根據(jù)字根在漢字中的位置,編碼順序按“先上后下,先左后右,先外后內(nèi)”的順序把字根對應(yīng)的鍵碼排列,內(nèi)外結(jié)構(gòu)指一部分被另一部分四面包圍的結(jié)構(gòu),如“圍、國、困”等字,“可、廳、兇、同”等字屬于上下結(jié)構(gòu),“還、區(qū)”等字屬于左右結(jié)構(gòu)。最大碼長為5,多于5個鍵碼的漢字取前4個鍵碼和最后一個鍵碼構(gòu)成漢字的根碼,不多于5碼的有幾碼取幾碼。
D、鍵入漢字編碼輸入漢字。
根據(jù)圖3及實施例五的各條規(guī)則就可以編制編碼字典,下面舉例說明馬4551 高5848 海736 從UU 事0125 身9325 代E5 嘴82430根據(jù)編碼字典編寫應(yīng)用軟件安裝在漢字輸入系統(tǒng)中,漢字編碼中所含鍵碼的種類、個數(shù)、排列順序分別表示輸入漢字要擊的鍵、擊鍵的次數(shù)及順序,確定鍵碼和漢字輸入系統(tǒng)鍵盤鍵位的對應(yīng)關(guān)系,依次擊漢字編碼中鍵碼對應(yīng)的鍵位,就可輸入漢字。
權(quán)利要求
1.一種根素碼漢字輸入方法,把漢字拆分為字根作為漢字編碼的元素,把字根和鍵碼對應(yīng),根據(jù)字根對應(yīng)的鍵碼對漢字編碼,鍵入漢字的編碼輸入漢字,其特征是從字根中提取出構(gòu)成字根的形狀特征信息元素作為根素,根據(jù)根素的所屬信息、數(shù)量信息、筆劃筆順位置信息、是否由完整筆劃構(gòu)成信息中的一種或幾種建立字根分類規(guī)則對字根進(jìn)行分類,字根根據(jù)其所屬類別和鍵碼對應(yīng)。
2.根據(jù)權(quán)利要求1所述的根素碼漢字輸入方法,其特征是所述字根根據(jù)其所屬類別和鍵碼對應(yīng),是把每一類字根對應(yīng)一個鍵碼,并把各個鍵碼規(guī)定編碼優(yōu)先級別,當(dāng)某一字根根據(jù)分類規(guī)則同時屬于兩種或兩種以上類別時,取其中優(yōu)先級別最高的鍵碼作為其對應(yīng)的鍵碼。
3.根據(jù)權(quán)利要求1所述的根素碼漢字輸入方法,其特征是所述字根根據(jù)其所屬類別和鍵碼對應(yīng),是首先規(guī)定各類字根的特征,然后規(guī)定各類字根的分類優(yōu)先級別,確定某一具體字根的類別時,先判斷它是否具有分類優(yōu)先級別最高的類別所描述的特征,如果具有,則判定其屬于這一類,而不再繼續(xù)判斷它是否屬于其它比這類字根分類優(yōu)先級別低的類別,如果不具有,則繼續(xù)判斷它是否具有分類優(yōu)先級別比它低一級的類別的特征,這樣直至判斷出它屬于某一種類別后就不再繼續(xù)判斷它是否屬于其它優(yōu)先級別更低的類別,這樣每個字根就只屬于一種類別,這種類別的字根所對應(yīng)的鍵碼即為這個字根對應(yīng)的鍵碼。
4.根據(jù)權(quán)利要求1所述的根素碼漢字輸入方法,其特征是所述的建立字根分類規(guī)則,是使字根的共有特征具有有選擇的排它性,具有排它性的類別特征里包含一個前提條件,這個前提條件的內(nèi)容是確定具有該類別所描述的特征的字根首先不具有其它特定某幾類字根所具有的特征。
5.根據(jù)權(quán)利要求1、2、3或4所述的根素碼漢字輸入方法,其特征是所述漢字的編碼包含根據(jù)漢字拼音的聲母信息編碼的字息碼,對沒有聲母的漢字,根據(jù)漢字拼音的首字母編字息碼或直接指定某個鍵碼作為其字息碼。
6.根據(jù)權(quán)利要求1、2、3或4所述的根素碼漢字輸入方法,其特征是所述根素中含有“丶”、 “乚”、“口”、 “彐”六種根素中的一種或幾種、或含有以上述六種根素為基本根素的延展根素“亠”、“冖”、“弋”、“厶”、 “丷”、“冂”、 “日”、“罒”、“田”、“目”、“月”、 中的一種或幾種。
7.根據(jù)權(quán)利要求6所述的根素碼漢字輸入方法,其特征是所述字根分類規(guī)則中含有如下規(guī)則中的一條或幾條a、含有 或“乚”根素的字根歸為一類;b、含有一個“丶”根素的字根歸為一類或根據(jù)“丶”根素的位置信息細(xì)分為幾類;c、含有兩個“丶”根素的字根歸為一類或根據(jù)“丶”根素的位置信息細(xì)分為幾類;d、含有三個以上“丶”根素的字根歸為一類;e、含有“口”根素的字根歸為一類或根據(jù)是否是“口”字根本身細(xì)分為幾類;f、含有 或“彐”根素的字根歸為一類或兩類。
8.根據(jù)權(quán)利要求6所述的根素碼漢字輸入方法,其特征是所述根素還包含“一”、“丨”、 “”四種根素中的一種或幾種,所述字根分類規(guī)則中把不含有 “乚”、“丶”、“口”、 “彐”根素的字根根據(jù)“一”、“丨”、 或“”根素在字根中的筆劃筆順位置信息分類。
9.根據(jù)權(quán)利要求1、2、3或4所述的根素碼漢字輸入方法,其特征是所述的把漢字拆分為字根的規(guī)則中含有如下幾條規(guī)則中的一條或幾條a、單獨的一筆劃不作為編碼元素,除單獨一點“丶”外,其余的在編碼時將其忽略;b、相關(guān)結(jié)構(gòu)、交叉結(jié)構(gòu)、融合結(jié)構(gòu)、筆劃相連結(jié)構(gòu)的漢字、偏旁部首或筆劃組合作為字根不拆分。漢字相連結(jié)構(gòu)和分離結(jié)構(gòu)的漢字、偏旁部首或字根拆分;c、一點不作字根,必須和其他漢字、筆劃組合構(gòu)成字根,且不可忽略。
全文摘要
本發(fā)明屬于計算機(jī)漢字輸入技術(shù)領(lǐng)域,涉及一種根素碼漢字輸入方法,該方法把漢字拆分為字根作為漢字編碼的元素,把字根和鍵碼對應(yīng),根據(jù)字根對應(yīng)的鍵碼對漢字編碼,鍵入漢字的編碼輸入漢字,其特征是從字根中提取出構(gòu)成字根的形狀特征信息元素作為根素,根據(jù)根素的所屬信息、數(shù)量信息、筆劃筆順位置信息、是否由完整筆劃構(gòu)成信息中的一種或幾種建立字根分類規(guī)則對字根進(jìn)行分類,字根根據(jù)其所屬類別和鍵碼對應(yīng)。本發(fā)明在建立嚴(yán)格統(tǒng)一的字根分類規(guī)則時兼顧優(yōu)化組合,解決了字根分類和優(yōu)化組合之間的矛盾,并用少量鍵碼對應(yīng)大量字根,從而解決了漢字編碼易學(xué)與好用的之間的矛盾。本發(fā)明適用于用鍵盤輸入漢字的漢字輸入系統(tǒng)。
文檔編號G06F3/023GK1420427SQ0310007
公開日2003年5月28日 申請日期2003年1月9日 優(yōu)先權(quán)日2003年1月9日
發(fā)明者王義斌 申請人:王義斌
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
兖州市| 文水县| 丰县| 泸溪县| 兰西县| 兴文县| 阿坝| 久治县| 临泽县| 武胜县| 民乐县| 和硕县| 建德市| 镇安县| 仙居县| 长白| 墨玉县| 漯河市| 萝北县| 和林格尔县| 宣化县| 靖州| 潢川县| 广汉市| 明水县| 南安市| 晴隆县| 邢台市| 如皋市| 卓资县| 淮北市| 邮箱| 新源县| 洛隆县| 白朗县| 南部县| 西和县| 凤台县| 南乐县| 区。| 榆林市|