專(zhuān)利名稱(chēng):通用多功能漢字編碼方法及處理系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種通用多功能漢字編碼方法及裝置,通用于計(jì)算機(jī)、電話(huà)等設(shè)備的漢字輸入、檢索、排序、漢字拼形字庫(kù)、漢字文本通訊等各漢字信息處理領(lǐng)域。
漢字編碼源于漢字的檢字法。廣泛使用的檢字法包括音序檢字法、偏旁部首檢字法、筆畫(huà)檢字法、四角號(hào)碼檢字法等。五筆字型和倉(cāng)頡碼則分別廣泛用于簡(jiǎn)體和繁體漢字的計(jì)算機(jī)輸入。電話(huà)機(jī)等只有數(shù)字鍵的設(shè)備主要采用筆畫(huà)編碼,輔以拼音(注音)輸入。隨著漢字處理技術(shù)的深入發(fā)展,泛字符集漢字的輸入和處理也已日益迫切,倉(cāng)頡碼提供了一種漢字拼形解決方法。而漢字的識(shí)字教育中一般是合體字教偏旁部首、獨(dú)體字教筆畫(huà)順序。這里的偏旁部首不受鍵盤(pán)的限制,不需要作取舍和歸并,能充分反映漢字的結(jié)構(gòu)特征,這使字根部件甚至部首檢字法都難以與它取得一致。
漢字的檢字、簡(jiǎn)繁體輸入、電腦電話(huà)機(jī)輸入、拼形與漢字識(shí)字教育等采用不同的編碼不但造成了人力物力的極大浪費(fèi),而且已經(jīng)引起了漢字教育和使用的混亂。
字根編碼采用字母編碼,字根眾多,難以記憶和使用,在數(shù)字鍵盤(pán)上還需額外的映射規(guī)則,也不符合漢字使用者單手寫(xiě)字的習(xí)慣,因此難以作為通用的漢字編碼。
采用數(shù)字編碼的漢字號(hào)碼輸入法如王永民的“簡(jiǎn)易五筆畫(huà)輸入法”,李金凱的“長(zhǎng)城筆形碼輸入法”,等采用0-9十個(gè)數(shù)字或其子集按照筆畫(huà)順序取碼的方法,因特征單元過(guò)小,按照筆畫(huà)順序取碼使各部分取碼不均衡,無(wú)法反映筆畫(huà)的空間位置,因此碼長(zhǎng)較長(zhǎng),且長(zhǎng)短不一,重碼率很高,無(wú)法反映漢字的結(jié)構(gòu)特征。一些筆畫(huà)編碼采用了字首或字尾的概念,如;黃金富的“唯物碼漢字輸入法”,陳培基的“部首號(hào)碼輸入法”,廖明德(臺(tái)灣)的“行列輸入法”,戚桐欣(臺(tái)灣)的“中易系統(tǒng)”中的“中文123式”,等,增強(qiáng)了編碼規(guī)律性,但也增加了編碼復(fù)雜性,同樣無(wú)法作為通用的漢字編碼。
四角號(hào)碼以編碼順序表示筆畫(huà)的空間位置,編碼方法簡(jiǎn)單,碼長(zhǎng)一致,是唯一一種國(guó)家推薦的編碼檢字方法。但四角號(hào)碼“一個(gè)筆形前角用過(guò),后角作0”失去了大量信息,全包圍、半包圍結(jié)構(gòu)漢字中取碼不均衡,都造成了大量的重碼,雖然采取了“外圍是‘門(mén)口門(mén)’的三類(lèi)字,左右兩下角取里面的筆形,但上、下、左、右還有附加筆形的不在此例”的措施,仍然不能令人滿(mǎn)意;在處理角形不明顯的漢字時(shí),采取了“下角筆形偏在一角的,按實(shí)際位置取角,缺角作0,但“弓虧”等字作偏旁時(shí),取2作整個(gè)字的左下角號(hào)碼?!薄ⅰ敖切伪M量取復(fù)筆;”、“點(diǎn)下帶橫折的,如“空戶(hù)”等字的上角取點(diǎn)作3;”、“角形有兩復(fù)筆和一復(fù)筆一單筆的,不論高低,一律取最左和最右的筆形;有兩復(fù)筆可取的,在上角取較高的復(fù)筆,在下角取較低的復(fù)筆;”、“當(dāng)中起筆的撇,下角有他筆的,取他筆作角,但左邊起筆的撇,取撇筆作角?!钡忍幚矸椒ㄊ谷〈a方法復(fù)雜、難以掌握,卻仍然無(wú)法明確每一個(gè)漢字的角。四角號(hào)碼按“Z”字形順序取角,割裂了漢字的結(jié)構(gòu),因此編碼比較雜亂,難以反映漢字的結(jié)構(gòu)特征,也無(wú)法作為通用的漢字編碼。
安子介先生的安氏數(shù)碼法吸收了部首法和四角號(hào)碼法的優(yōu)點(diǎn),但把部首由210個(gè)減少至170個(gè),在反映漢字的結(jié)構(gòu)特征方面前進(jìn)了一大步。但限制部首的數(shù)量必須作出取舍,因此仍然與部首教育中的部首有差異,也無(wú)法涵蓋所有漢字,只能通過(guò)設(shè)立五個(gè)“類(lèi)屬”加以彌補(bǔ),使編碼方法和編碼過(guò)程復(fù)雜化。安氏數(shù)碼法保留了四角號(hào)碼的一些缺陷以及編碼位數(shù)的增長(zhǎng)等使它難以成為通用的漢字編碼。
因此,現(xiàn)有編碼的復(fù)雜性、與識(shí)字教育的不一致、不同條件下的適應(yīng)性等方面難以滿(mǎn)足各方面的需求,都無(wú)法作為漢字的通用編碼。
本發(fā)明公開(kāi)的就是一種通用多功能漢字編碼及處理系統(tǒng)。
本發(fā)明的目的是通過(guò)采用數(shù)字筆形編碼,按漢字的結(jié)構(gòu)分塊,按單元塊的走向順序取角,結(jié)合取邊、取端來(lái)實(shí)現(xiàn)的。
編碼過(guò)程可以由以下幾步組成1.按漢字的結(jié)構(gòu)組成方式對(duì)半切分,把漢字分為一到三個(gè)單元塊。
例如上下、左右、內(nèi)外結(jié)構(gòu)漢字分別切分為上下、左右、內(nèi)外兩個(gè)單元塊;上中下、左中右結(jié)構(gòu)漢字分別切分為上中下、左中右三個(gè)單元塊;難于切分的漢字則不切分,整個(gè)漢字作為一個(gè)單元塊。
分塊的方法類(lèi)似于漢字識(shí)字教育中劃分偏旁部首,按成字、匹配和字源的原則切分即各塊盡可能成字或由于其他部件組字的能力,符合漢字的造字規(guī)律。優(yōu)先按相離關(guān)系切分,只有相接的兩個(gè)筆形的漢字不再切分。
對(duì)于包圍結(jié)構(gòu)漢字,可優(yōu)先按“H”型結(jié)構(gòu)分為左右兩個(gè)單元塊。
2.按先上后下、先左后右的順序排列單元塊,同一單元塊按單元塊或筆形的走向順序取角。
例如上下結(jié)構(gòu)漢字按左上、右上、左下、右下順序(“Z”形)取角,左右結(jié)構(gòu)漢字按左上、左下、右上、右下順序(“H”形)取角,其他結(jié)構(gòu)漢字以此類(lèi)推。
只有一個(gè)單元塊的漢字,按筆形走向順序取角,如“州”按“H”形取角,“主”按“Z”取角。筆形走向不明確的,可優(yōu)先按“Z”形取角。
3.取角是取實(shí)際占角的筆形和靠外、靠?jī)啥说墓P形。
漢字是方塊字,通常四角分明很容易取角,但也有一些漢字的角呈階梯狀,此時(shí)應(yīng)優(yōu)先取靠外的筆形、后取靠?jī)啥说墓P形。其中兩端是依據(jù)取角順序確定的,例如“H”形取角時(shí),左右各有上下兩端“Z”形取角時(shí),上下各有左右兩端。
4.取過(guò)筆形視為移去,多單元漢字占角單元各取兩個(gè)筆形,不足則可以補(bǔ)以中間單元筆形,無(wú)中間單元?jiǎng)t補(bǔ)“0”。一單元漢字不足四個(gè)筆形也補(bǔ)“0”。
5.偏旁按其位置編碼,空角補(bǔ)“0”。
6.筆形編碼可按四角號(hào)碼的筆形編碼,按下表取筆形編碼則可取得更好的效果表(1)筆形編碼表
注表中字例及編碼僅供說(shuō)明筆形編碼參考,不作定義、解釋編碼規(guī)則的依據(jù)。
本編碼可與現(xiàn)有各種漢字編碼類(lèi)似的方式用于計(jì)算機(jī)、電話(huà)機(jī)等設(shè)備的漢字輸入、漢字檢索等領(lǐng)域。采用的鍵盤(pán)可以是大鍵盤(pán)數(shù)字鍵、數(shù)字小鍵盤(pán)或字母鍵虛擬數(shù)字鍵,也可以以語(yǔ)音、手寫(xiě)(圖形)、雙音多頻信號(hào)等方式來(lái)輸入、傳遞編碼。
用作輸入法,可以不經(jīng)選字直接四碼輸入GB2312字符集中的約3000字和GBK字符集中的約5000字,與常用的漢字?jǐn)?shù)量相當(dāng),在計(jì)算機(jī)、電話(huà)機(jī)中一樣可以盲打輸入常用漢字。對(duì)于次常用字,GB2312中99.5%的漢字、GBK字符集中90%的漢字可以在十選的范圍內(nèi)輸入。與倉(cāng)頡碼類(lèi)似,本編碼可用于建立拼形字庫(kù),最終實(shí)現(xiàn)所有泛字符集漢字的輸入和處理。即本編碼可高速輸入常用的漢字,方便輸入所有漢字。
為同時(shí)在數(shù)字鍵盤(pán)上輸入字母、數(shù)字、符號(hào)等,可以采用區(qū)位碼的方式,也可以以多次按鍵的方式為字母、數(shù)字、符號(hào)編碼。
區(qū)位碼的方式把字母及標(biāo)點(diǎn)符號(hào)分布在全部或部分?jǐn)?shù)字按鍵上,以其所在按鍵數(shù)字為區(qū)碼,以其在該鍵上的序號(hào)為位碼;有對(duì)應(yīng)關(guān)系的字符安排在同一鍵的對(duì)應(yīng)位置上;常用的字符安排在可雙擊按鍵輸入的位置上。輸入?yún)^(qū)位碼即可輸入字母、數(shù)字、符號(hào)。
多次按鍵的方式;把字母及標(biāo)點(diǎn)符號(hào)分布在全部或部分?jǐn)?shù)字按鍵上,輸入時(shí)先按所在鍵,再多次按特定鍵(如*鍵)來(lái)選定。
用于字、辭典編制,四位數(shù)字編碼與一般字、辭典的頁(yè)碼相似,可以代替頁(yè)碼,比拼音更直觀。此外,與拼音配合,字符編碼的前二碼或后二碼獨(dú)立或分別與另一字符串的編碼或指定編碼進(jìn)行比較,可以近似地找出具有相同形旁或聲旁的漢字或按形旁或聲旁排列漢字。在編制漢字校對(duì)字典時(shí),提供相同形旁或聲旁的漢字作候選字、詞或按形旁或聲旁排列候選字、詞可以使?jié)h字的校對(duì)更直觀、更有實(shí)際意義。
采用本編碼進(jìn)行文本通訊,設(shè)備間利用最簡(jiǎn)單的聲音傳送設(shè)備傳輸表示數(shù)字符號(hào)的信號(hào)(如雙音多頻信號(hào))來(lái)傳輸漢字文本,不需要額外的接口就可以實(shí)現(xiàn)遠(yuǎn)、近程有(無(wú))線(xiàn)文本通訊,可以實(shí)現(xiàn)機(jī)器、人工譯碼輸入完全兼容,聾啞人、不便使用語(yǔ)音時(shí)也可以通過(guò)電話(huà)進(jìn)行文本信息的交流。
本編碼具有編碼方法簡(jiǎn)單,記憶量小,與識(shí)字教育一致,適應(yīng)性強(qiáng),編碼效率高的特點(diǎn),因此可以一碼多用,節(jié)約大量人力物力,促進(jìn)漢字應(yīng)用的規(guī)范化、標(biāo)準(zhǔn)化。
實(shí)施例智能輸入法本編碼有與拼音類(lèi)似的性質(zhì),碼長(zhǎng)相同,前二碼與聲母相似、后二碼與韻母相似,可以與拼音一樣整句輸入、縮拼輸入。
因重碼極少,可以盲打高速輸入常用漢字、次常用漢字,又因采用數(shù)字編碼還可用于電話(huà)機(jī)等設(shè)備的漢字輸入。
簡(jiǎn)易文本通訊系統(tǒng)采用本編碼以雙音多頻傳輸可以像語(yǔ)音傳輸一樣快速建立和斷開(kāi)連接,可以通過(guò)揚(yáng)聲器和話(huà)筒發(fā)送和接收,同時(shí)可以兼容人工和機(jī)器譯碼、輸入。很適合名片交換、短信息發(fā)布等交換信息量比較小,對(duì)傳輸速度要求不高,但要求能快速建立和斷開(kāi)連接的過(guò)程的需要。
漢字校對(duì)字典受輸入法影響,漢字的拼寫(xiě)錯(cuò)誤很不規(guī)則,難以離開(kāi)原稿進(jìn)行校對(duì)和糾正,漢字的拼寫(xiě)檢查往往有名無(wú)實(shí)。使用本編碼輸入發(fā)生的錯(cuò)誤只影響某一偏旁,很容易離開(kāi)原稿進(jìn)行校對(duì)和糾正,使用拼音輸入時(shí)使用本編碼編制的校對(duì)字典可提供相同聲旁的漢字,使?jié)h字拼寫(xiě)檢查名至實(shí)歸。
漢字拼形字庫(kù)以本編碼為基礎(chǔ)生成拼形字庫(kù),可以實(shí)現(xiàn)人工輔助拼形。漢字拼形字庫(kù)不但可以大大節(jié)約字庫(kù)容量,而且符合漢字的造字規(guī)律,可以通過(guò)拼形生成新字,解決超出特定字符集漢字的處理問(wèn)題。
本編碼不經(jīng)改變即可用于各預(yù)域。
權(quán)利要求
1.通用多功能漢字編碼方法及處理系統(tǒng),采用0-9十個(gè)數(shù)字或其子集作為編碼碼元,包括按一定規(guī)則對(duì)字符進(jìn)行編碼與下列步驟中的一個(gè)或多個(gè)的組合1)把字符或映射字符的其它形式按字符編碼進(jìn)行排列,并存儲(chǔ)在介質(zhì)上,2)以物理鍵盤(pán)或模擬鍵盤(pán)、語(yǔ)音、手寫(xiě)等方式輸入編碼來(lái)輸入或輔助輸入字符信息,3)以傳輸、存儲(chǔ)編碼的方式傳輸、存儲(chǔ)字符,4)把字符串的編碼與另一字符串的編碼或指定編碼進(jìn)行比較,并按比較結(jié)果作出標(biāo)記、修改、輸出特定信息等操作,其特征在于按漢字的結(jié)構(gòu)組成方式對(duì)半切分,把漢字分為一到三個(gè)單元塊;按先上后下、先左后右的順序排列單元塊,同一單元塊按單元塊或筆形的走向順序取角編碼。
2.權(quán)利要求(1)所述通用多功能漢字編碼方法及處理系統(tǒng),其特征在于取角是取實(shí)際占角的筆形和靠外、靠?jī)啥说墓P形。
3.權(quán)利要求(1)所述通用多功能漢字編碼方法及處理系統(tǒng),其特征在于取過(guò)筆形視為移去,多單元漢字占角單元各取兩個(gè)筆形,不足則可以補(bǔ)以中間單元筆形,無(wú)中間單元?jiǎng)t補(bǔ)特定的數(shù)字;一單元漢字不足四個(gè)筆形也補(bǔ)特定的數(shù)字。
4.權(quán)利要求(2)所述通用多功能漢字編碼方法及處理系統(tǒng),其特征在于取過(guò)筆形視為移去,多單元漢字占角單元各取兩個(gè)筆形,不足則可以補(bǔ)以中間單元筆形,無(wú)中間單元?jiǎng)t補(bǔ)特定的數(shù)字。一單元漢字不足四個(gè)筆形也補(bǔ)特定的數(shù)字。
5.權(quán)利要求(4)所述通用多功能漢字編碼方法及處理系統(tǒng),其特征在于偏旁按其位置編碼,空角補(bǔ)特定的數(shù)字。
6.權(quán)利要求(5)所述通用多功能漢字編碼方法及處理系統(tǒng),其特征在于筆形編碼按下表取得表(1)筆形編碼表
注表中字例及編碼僅供說(shuō)明筆形編碼參考,不作定義、解釋編碼規(guī)則的依據(jù)。
7.權(quán)利要求(6)所述通用多功能漢字編碼方法及處理系統(tǒng),其特征在于把字母及標(biāo)點(diǎn)符號(hào)分布在全部或部分?jǐn)?shù)字按鍵上,以其所在按鍵數(shù)字為區(qū)碼,以其在該鍵上的序號(hào)為位碼;輸入?yún)^(qū)位碼來(lái)輸入字母、數(shù)字、符號(hào)。
8.權(quán)利要求(6)所述通用多功能漢字編碼方法及處理系統(tǒng),其特征在于字符串的編碼與另一字符串的編碼或指定編碼進(jìn)行比較是按字符編碼的前二碼或后二碼獨(dú)立或分別進(jìn)行的,以近似地找出具有相同特征(同一位置具有相同偏旁)的漢字或按特定要求排列漢字。
9.權(quán)利要求(6)所述通用多功能漢字編碼方法及處理系統(tǒng),其特征在于采用本編碼進(jìn)行文本通訊,設(shè)備間利用最簡(jiǎn)單的聲音傳送設(shè)備傳輸表示數(shù)字符號(hào)的信號(hào)來(lái)傳輸漢字文本。
全文摘要
通用多功能漢字編碼方法及處理系統(tǒng),一種四位數(shù)字漢字編碼方法及處理系統(tǒng),解決漢字的檢字、簡(jiǎn)繁體輸入、電腦電話(huà)機(jī)輸入、拼形等采用不同的編碼造成人力物力的極大浪費(fèi),并且與漢字識(shí)字教育不一致引起漢字教育和使用的混亂的問(wèn)題。按漢字結(jié)構(gòu)切分漢字,按單元(筆形)走向取角,取占角、靠邊、兩端的筆形為角,分塊均衡取碼。編碼簡(jiǎn)單、規(guī)范、高效、通用,能夠滿(mǎn)足漢字檢索、輸入和深入發(fā)展?jié)h字處理技術(shù)的需要。
文檔編號(hào)G06F3/023GK1267015SQ9912091
公開(kāi)日2000年9月20日 申請(qǐng)日期1999年9月22日 優(yōu)先權(quán)日1999年3月13日
發(fā)明者練新 申請(qǐng)人:練新