專利名稱:漢字特征映射編碼法的制作方法
目前的漢字編碼方案不是記憶量大難學(xué)、難以掌握,就是重碼率高、輸入效率低。本申請(qǐng)?zhí)岢龅臐h字編碼方案,將漢字拆分成若干部件后,將部件根據(jù)其特征映射到鍵盤的某個(gè)鍵位上,無需任何記憶。同時(shí)通過巧妙地定義若干部件鍵位,調(diào)整若干部件在漢字編碼中的碼位和(或)碼序,極大地減少了漢字編碼的重碼率,具有記憶量少、好學(xué)、易掌握、重碼率低和高效好用的特點(diǎn)。本編碼方案碼長(zhǎng)最長(zhǎng)為4,超過4個(gè)部件時(shí),取頭兩個(gè)部件碼和尾兩個(gè)部件碼。部件包括偏旁部首,廣義上還包括漢字。
漢字部件(或漢字)是一種平面圖形結(jié)構(gòu),包括有大量的特征信息,其特征信息至少包括如下十大類一、漢字或部件筆劃數(shù)。
二、筆劃類型最基本的漢字筆劃類型有橫、豎、撇、捺、點(diǎn)和彎鉤,也可以濃縮成以下三類類1(橫)、類2(豎和撇)、類3(捺、點(diǎn)和彎鉤)。
三、每一種筆劃類型在部件中的個(gè)數(shù)。例如橫劃數(shù),彎曲筆劃數(shù)等。
四、每一種筆劃類型在部件中的位置。例如彎曲筆劃在部件第幾劃。
五、兩筆劃之間的位置關(guān)系。位置關(guān)系包括相交、端接、交接、垂接、相鄰和相隔。
相交兩筆劃有公共交點(diǎn),例“十”字。
端接一筆劃的端點(diǎn)與另一筆劃的端點(diǎn)相連接,例如“幾”。
交接一個(gè)筆劃的端點(diǎn)與一個(gè)交點(diǎn)相連接,例“大”。
垂接一個(gè)筆劃端點(diǎn)與另一筆劃垂直相接,例“上”字首筆和末筆。
相隔兩筆劃之間有另一個(gè)筆劃相間隔,例“馬”中首筆和末筆。
相鄰非上述5種關(guān)系。
六、部件中交點(diǎn)數(shù)、端接點(diǎn)數(shù)、交接點(diǎn)數(shù)、垂接點(diǎn)數(shù)。
七、交點(diǎn)、端接點(diǎn)、交接點(diǎn)、垂接點(diǎn)在部件中的位置。例如首筆劃有無交點(diǎn),末筆劃有無交點(diǎn)。
八、漢字字型信息,基本的漢字字型有上下型、左右型、內(nèi)外型(或側(cè)包型)和雜型。如下所示 以這四種基本字型為基礎(chǔ),通過嵌套可以演變出多種字型結(jié)構(gòu)。
例如 九、每個(gè)漢字中所含子漢字的個(gè)數(shù)。
十、每個(gè)漢字中其子漢字的位置。例首部件是漢字。
把鍵盤看成一個(gè)二維平面,在鍵盤上建立二維坐標(biāo)系,鍵盤的鍵位做為坐標(biāo)軸的刻度。漢字部件(或漢字)可以根據(jù)其特征方便地映射到鍵盤鍵位上,而無需任何記憶。下面給出一個(gè)根據(jù)部件特征將其映射到鍵盤鍵位上的例子。如
圖1所示(見說明書附圖1)。我們稱為映射1。為了說明方便,我們將鍵盤劃分成3個(gè)區(qū)。分別稱為T1區(qū)、T2區(qū)、T3區(qū)。
所有不含交點(diǎn)的部件將被映射到T1區(qū),具體鍵位由其首筆劃和末筆劃類型來確定。類似地所有含交點(diǎn)的部件將被映射到T2區(qū),具體鍵位由其首筆劃和末筆劃類型來確定。T3區(qū)為若干部件的定義區(qū)。在T1區(qū)和T2區(qū)建立兩個(gè)坐標(biāo)系,坐標(biāo)原點(diǎn)分別為Q和R。T1區(qū)中X軸方向由Q、A、Z3鍵所指方向確定,Y軸方向由Q、W、E3鍵所指方向確定。T2區(qū)中X軸方向由R、F、V3鍵所指方向確定,Y軸方向由R、T、Y3鍵所指方向確定。筆劃類型定義如下類1(橫)、類2(豎和撇)、類3(捺、點(diǎn)和彎曲筆劃)。
X=0,1,2分別表示其首筆劃類型為類1、類2、類3。
Y=0,1,2分別表示其末筆劃類型為類1、類2、類3。
X坐標(biāo)和Y坐標(biāo)的交點(diǎn),即為部件映射到的鍵位。例如“天”,其含有交點(diǎn),將被映射到T2區(qū),其首筆劃類型為類1、末筆劃類型為類3,X=0、Y=2,則其被映射到鍵位“Y”。再如“已”,其不含交點(diǎn),將被映射到T1區(qū),其首筆劃類型為類3、末筆劃類型也為類3,即X=2,Y=2,則“已”將被映射到“C”。
下面再給出一個(gè)映射例子。如圖2所示(見說明書附圖2)。我們稱為映射2。為說明方便,將鍵盤鍵位分成三個(gè)區(qū),分別稱為K1、K2、和K3區(qū)。
所有含有一個(gè)彎曲筆劃(不包括變向彎曲筆劃)的部件都被映射到K1區(qū),其具體鍵位由部件的交點(diǎn)數(shù)和彎曲筆劃所在位置來確定,所有含有1個(gè)交叉點(diǎn)(X=1),彎曲筆劃位置在2(Y=1)的部件將被映射到鍵位S。如漢字“代”中的“弋”。交點(diǎn)數(shù)大于2時(shí)都算2。彎曲筆劃位置在3劃以后時(shí)全算3。
所有其它的部件(不包括含變向彎曲筆劃的部件)都將被映射到K2區(qū)。其具體鍵位將由部件的劃數(shù)和其首末筆劃關(guān)系來確定。例如劃數(shù)為3,首末筆劃關(guān)系為相隔的部件“已”將被定位到鍵位J。部件劃數(shù)大于4時(shí),都算做4,小于2劃時(shí),都算2劃。
所有含有變向彎曲筆劃的部件都將被映射到K3區(qū)。其具體鍵位將由部件的筆劃數(shù)和彎曲筆劃個(gè)數(shù)來確定。例如劃數(shù)為3、含有兩個(gè)彎曲筆劃的部件“馬”將被映射到鍵位“L”。所有被映射到鍵位“,”和“.”的部件都映射到“P”。
變向彎曲筆劃的定義所謂變向彎曲筆劃是指,筆劃的一部分順時(shí)針方向彎曲,而另一部分逆時(shí)針方向彎曲。例如“乙”等。
映射和映射可以進(jìn)行組合,組合的方式有兩種,一種是橫向組合,一種是縱向組合。映射的橫向組合使部件映射到一個(gè)鍵位組。
如果將前述的兩種映射橫向結(jié)合起來,一個(gè)部件將不是映射到一個(gè)鍵位,而是一個(gè)鍵位組。例如“夫”分別用兩種方法映射,映射1將其映射到鍵位“Y”。映射2將其映射到鍵位“M”,結(jié)合兩個(gè)映射,“夫”被映射到鍵位組“YM”。
映射的縱向組合是指在用某一映射將部件映射到某一個(gè)鍵位上后,再以該鍵位作為坐標(biāo)原點(diǎn)建立坐標(biāo)系,選用另一映射對(duì)部件再度進(jìn)行映射,映射到一個(gè)新的鍵位上。映射的縱向組合可以用單個(gè)鍵位反映部件更多的特征信息,可以更加均勻的將部件映射到鍵盤上。有利于減少漢字重碼。例如在映射1的基礎(chǔ)上再建立一個(gè)新的映射,取部件第2筆劃類型做為映射特征,就是一個(gè)映射縱向結(jié)合的例子。定義部件第2筆劃的類型也為類1、類2和類3。假設(shè)映射1已將部件映射到X1鍵,新的對(duì)第2筆劃類型的映射定義如下第2筆劃類型為類1,部件被映射到X1鍵上。
第2筆劃類型為類2,部件被映射到X1鍵上的垂直方向(X軸正向)的下面第一個(gè)鍵位上。
第2筆劃為類3,部件被映射到X1鍵的垂直方向(X軸正向)的下面第2個(gè)鍵位上。
當(dāng)X1鍵位在鍵盤第1排上時(shí),其下面第1鍵位和第2鍵位分別在第2排和第3排。
當(dāng)X1鍵位在鍵盤第2排上時(shí),其下面第1鍵位和第2鍵位分別在第3排和第1排。
當(dāng)X1鍵位在鍵盤第3排上時(shí),其下面第1鍵位和第2鍵位分別在第1排和第2排。
這是一種循環(huán)定位方式。
結(jié)合多個(gè)映射可以更充分地體現(xiàn)被映射部件的特征,有效地將不同的部件映射到不同的鍵位組或鍵位。重碼可能性小,因此,漢字編碼的重碼率也小。
另外,結(jié)合多個(gè)映射,合理地安排和使用部件(或漢字)的特點(diǎn),可以在不對(duì)漢字進(jìn)行拆分或分成兩個(gè)部件的情況下,直接將漢字映射到一個(gè)鍵位組,而確定其編碼。
漢字碼長(zhǎng)增加,重碼率變小,但輸入速度變慢,因此,漢字編碼的碼長(zhǎng)一般不超過4碼。在碼長(zhǎng)固定的情況下,減低編碼的重碼率是一項(xiàng)關(guān)鍵而艱巨的工作。通過調(diào)整漢字編碼中某些漢字部件的碼位和(或)碼序,可以極大地降低漢字編碼的重碼率,而基本上不增加記憶量。
當(dāng)選擇上述映射1對(duì)部件“土”和“王”進(jìn)行映射時(shí),他們被映射到相同的鍵位,而以“土”和“王”為部首的漢字都很多,以“土”和“王”為部首的漢字極易出現(xiàn)重碼。部件“土”和“王”在漢字部首出現(xiàn)的頻率很高,而在其它位置出現(xiàn)的頻率都較低。在對(duì)以“土”為部首的漢字進(jìn)行編碼時(shí),將出現(xiàn)在編碼首位,代表部件“土”的字母移到編碼序列的末尾或插入到編碼序列的第2個(gè)或第3個(gè)字母之后,這樣將極大地減少以“土”和“王”為部首的漢字的重碼率,通??梢詫⒅卮a率減少到原來的1/4到1/5。例如字“坡”和“?!睘橹卮a字,假設(shè)其編碼均為ABCD,對(duì)于字“坡”將其編碼調(diào)整為BCDA,則“坡”字與“?!辈辉偈侵卮a字。
對(duì)漢字編碼的碼位和(或)碼序進(jìn)行調(diào)整的方法很多,假如編碼的原序?yàn)锳BCD,可以將其調(diào)整為BACD或其逆序DCAB,調(diào)整為CBAD或其逆序DABC等,或干脆逆向編碼,調(diào)整為DCBA。但目的只有一個(gè),就是盡量減少漢字編碼的重碼率。目前的漢字編碼方法都是通過硬性定義部件的鍵位來減少重碼,而本方案通過調(diào)整編碼的碼位和(或)碼序來減少重碼,不增加記憶量,是一種新的嘗試,也是一種極有效的方法。
權(quán)利要求
1.一種漢字編碼方案,該方案將漢字分解成若干漢字部件或不分解,其特征是漢字部件或漢字本身根據(jù)其特征信息映射到鍵盤鍵位上,而無需任何記憶,部件或漢字可以映射到單個(gè)鍵位,也可以映射到一個(gè)鍵位組,同時(shí),通過調(diào)整漢字部件在漢字編碼序列中其編碼字母的位置和(或)順序來減少漢字編碼的重碼率。
2.根據(jù)權(quán)利要求1所述的編碼方案,其特點(diǎn)是將鍵盤看一個(gè)平面,在其上建立二維坐標(biāo)系,用坐標(biāo)軸X代表部件的一個(gè)特征,用坐標(biāo)軸Y代表部件的另一個(gè)特征,鍵盤鍵位做為坐標(biāo)軸的刻度。定義若干種映射,任何一個(gè)部件或漢字都可以根據(jù)某個(gè)映射及選定的若干個(gè)特征映射到鍵盤的一個(gè)鍵位上。結(jié)合多個(gè)映射,漢字或部件可以映射到一個(gè)鍵位組。漢字或部件的特征指如下十大類中的若干個(gè)一、漢字或部件筆劃數(shù)。二、筆劃類型最基本的漢字筆劃類型有橫、豎、撇、捺、點(diǎn)和彎鉤,也可以濃縮成以下三類類1(橫)、類2(豎和撇)、類3(捺、點(diǎn)和彎鉤)。三、每一種筆劃類型在部件中的個(gè)數(shù)。例如橫劃數(shù),彎曲筆劃數(shù)等。四、每一種筆劃類型在部件中的位置。例如彎曲筆劃在部件第幾劃。五、兩筆劃之間的位置關(guān)系。位置關(guān)系包括相交、端接、交接、垂接、相鄰和相隔。相交兩筆劃有公共交點(diǎn),例“十”字。端接一筆劃的端點(diǎn)與另一筆劃的端點(diǎn)相連接,例如“幾”。交接一個(gè)筆劃的端點(diǎn)與一個(gè)交點(diǎn)相連接,例“大”。垂接一個(gè)筆劃端點(diǎn)與另一筆劃垂直相接,例“上”字首筆和末筆。相隔兩筆劃之間有另一個(gè)筆劃相間隔,例“馬”中首筆和末筆。相鄰非上述5種關(guān)系。六、部件中交點(diǎn)數(shù)、端接點(diǎn)數(shù)、交接點(diǎn)數(shù)、垂接點(diǎn)數(shù)。七、交點(diǎn)、端接點(diǎn)、交接點(diǎn)、垂接點(diǎn)在部件中的位置。例如首筆劃有無交點(diǎn),末筆劃有無交點(diǎn)。八、漢字字型信息,基本的漢字字型有上下型、左右型、內(nèi)外型(或側(cè)包型)和雜型。如下所示 以這四種基本字型為基礎(chǔ),通過嵌套可以演變出多種字型結(jié)構(gòu)。例如 九、每個(gè)漢字中所含子漢字的個(gè)數(shù)。十、每個(gè)漢字中其子漢字的位置。例首部件是漢字。
3.根據(jù)權(quán)利要求1所述的漢字編碼方案,其特征是為減少漢字編碼的重碼率,對(duì)漢字編碼的碼位和(或)碼序做適當(dāng)調(diào)整。
全文摘要
目前的漢字編碼方案不是記憶量大難學(xué)、難以掌握,就是重碼率高、輸入效率低。本申請(qǐng)?zhí)岢龅臐h字編碼方案,將漢字拆分成若干部件后,將部件根據(jù)其特征映射到鍵盤的某個(gè)鍵位上,無需任何記憶。具有記憶量少、好學(xué)、易掌握、重碼率低和高效好用的特點(diǎn)。本編碼方案碼長(zhǎng)最長(zhǎng)為4,超過4個(gè)部件時(shí),取頭兩個(gè)部件碼和尾兩個(gè)部件碼。
文檔編號(hào)G06F3/023GK1110414SQ9410390
公開日1995年10月18日 申請(qǐng)日期1994年4月9日 優(yōu)先權(quán)日1994年4月9日
發(fā)明者周南塔 申請(qǐng)人:周南塔