專利名稱:同一聲形數(shù)碼的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及漢字編碼方法,尤其涉及一種將漢字從根本上數(shù)字化和拼音化而在計算機領(lǐng)域、通訊錄領(lǐng)域;金融、商貿(mào)、交通、行政管理等行業(yè)數(shù)字輸入終端設(shè)施上,實現(xiàn)同一平臺聲碼形碼互補的輸入方法及其應(yīng)用。
由于計算機的飛速發(fā)展,文字信息處理技術(shù)領(lǐng)域可謂萬“碼”奔騰。就其類別一般分為形碼、音碼、音形結(jié)合碼、區(qū)位代碼四大類,它們從字元、字根、字形、結(jié)構(gòu)、幾何形狀、角度形狀、讀音及讀音加字形等等方面著手,用英文字母或數(shù)字或其它特殊符號作代碼給漢字編碼。這些發(fā)明創(chuàng)造在技術(shù)上都各有長處是毫無疑問的、對于信息技術(shù)的推動作用是不可否認的。但,由于有的發(fā)明過分強調(diào)自身的長處、強調(diào)個性特征、強調(diào)某一方面的獨創(chuàng)性,導(dǎo)致技術(shù)處理上的不平衡、實際使用上的不平衡,甚至有的長處反而變成了短處?!昂糜秒y學(xué)、好學(xué)難用”是很多編碼方法普遍存在的問題。有些編碼技術(shù)對硬件設(shè)備和使用者提出了特別的限制和專業(yè)技術(shù)的高要求,極大地影響了其技術(shù)的普及,這可能就是科技成果難以真正實現(xiàn)其社會價值的原因之一。例如公開號為CN1164059A,發(fā)明名稱為《漢字筆形碼編碼方法》的發(fā)明專利申請,其漢字為編碼方法是通過選擇漢字中的子漢字對漢字進行拆分,然后采用聲碼、韻碼和筆形碼給漢字編碼。這種編碼方法在應(yīng)用過程中必須具備相當程度的漢字構(gòu)造知識和相配套的硬件設(shè)施;有的音形結(jié)合碼,表面上是結(jié)合了聲碼和形碼的優(yōu)點,實際上是把對漢字讀音能力的要求和對漢字結(jié)構(gòu)拆分能力的要求加到一塊,對使用者提出了更全面的高要求;有些聽起來簡單的漢字編碼方法,在實際應(yīng)用中卻很不簡單。如“一字碼”、“二筆碼”輸入法,只要稍加分析就會明白,當選作代碼的數(shù)量為一定時,有限的代碼怎能涵蓋數(shù)以萬計的漢字;還有的編碼方法從漢字的幾何結(jié)構(gòu)入手,其方法是否好用,暫且不論,單就那厚厚的使用說明書已經(jīng)讓人望而生畏(包括專利申請文件,都顯得那樣的“纏綿”)。很多漢字編碼方法(包括計算機輸入法)都存在著一個共同的技術(shù)問題,那就是代碼的使用頻率極不平衡,大量的空碼位(沒有漢字與之對應(yīng)的編碼)必然導(dǎo)致高頻代碼的漢字高重碼。諸如此類的問題與不足之處,除了在本發(fā)明中得到改善以外;本發(fā)明還特別注意到了與其它硬件設(shè)施的兼容(如應(yīng)用于液晶顯示電話,能讓聾啞之人打電話變?yōu)楝F(xiàn)實,至于那些應(yīng)用前景如何廣闊的空話等到實現(xiàn)之日再說吧)。
本發(fā)明的目的在于提供一種將漢字數(shù)字化,讓漢字編碼查找、傳輸替代、計算機漢字輸入、文字信息交換、數(shù)字通訊系統(tǒng)、簡繁體漢字等都能共用的編碼方法。
本發(fā)明的目的是通過以下技術(shù)方案實現(xiàn)的一、字元筆形的定義1、字元筆形,本發(fā)明是以構(gòu)成漢字的單筆或復(fù)筆的筆畫形狀作為字元筆形。而字元的確定是在近叁萬個漢字中(GB2313-GB18030字符集所收錄的漢字),經(jīng)過反復(fù)的排列比較、拆分組合、筆形使用頻率分析、調(diào)整平衡后,將這些字元歸納為十類。再結(jié)合國家語委對橫、豎、撇、捺、折的一貫定義和字元形狀與數(shù)字形狀的共同特征分別用0~9的數(shù)字替代。如橫(一)、豎(丨)、撇(丿)、捺點( 丶)、折(乙)的一貫定義是1、2、3、4、5,而“言、廠、又、耳、口”五類字元(含漢字字形)分別與“6、7、8、9、0”之間存在著結(jié)構(gòu)共通或形狀相似之處。
2、字元筆形分類與數(shù)字代碼表 3、幫助記憶口訣方框蟲0橫串1豎鉤掛2竹撇3點火捺4折絲5對點言6金角78又交叉月身9二、編碼規(guī)則1、編碼長度,一個漢字最多取四個字元筆形編四位碼,如不足四個字元(筆形)的,則有幾個取幾個,取過的字元不再取。即一個漢字最多取4碼,不足4碼則有幾碼是幾碼,不重復(fù)取碼。
2、編碼順序,按照漢字的書寫規(guī)則(筆順),順取兩碼、再從末筆起倒取兩碼。
3、給碼原則①取大優(yōu)先,當幾種字元(筆形)在一起時,以筆畫數(shù)多者為先;②筆順優(yōu)先,當幾種字元(筆形)在一起而且筆畫數(shù)相同時,筆順先到的筆形優(yōu)先;③特征顯著的筆形優(yōu)先,當幾種字元(筆形)在一起含混不清時,以特征最明顯者優(yōu)先。
實例1“焱”字,是由3個字元“火”組成,而“火”的代碼是“4”,所以“焱=444”;實例2“省”字,第一碼是豎(丨)=2,第二碼是對點(ハ)=6,第三碼(倒數(shù)第一字元)為方框(目)=0,第四碼(倒數(shù)第二字元)為目中一橫(一)1,即“?。?601”;實例3“耒”字,取過“豐”之后,“木”已經(jīng)不存在應(yīng)取“人”,所以“耒”字的全碼是27。
本發(fā)明之所以取名為“同一聲形數(shù)碼”是因為該編碼方法可與計算機拼音輸入法連接。在鍵盤上表現(xiàn)為主副鍵盤不做任何切換操作,可同一平臺分別輸入聲(音)碼、形(數(shù)字)碼;可以編成檢字表式的字庫集;使?jié)h字的編碼、讀音、簡體、繁體顯示于同一板塊或同一平臺;還可與申請?zhí)枮?1135698.7的發(fā)明專利《英文數(shù)字碼》連接運用,在同一輸入終端實現(xiàn)簡繁體漢字、英文字母、數(shù)字及其運算的一體操作。
權(quán)利要求
1.一種漢字數(shù)字編碼法。它是以構(gòu)成漢字的單筆或復(fù)筆的筆畫形狀作為字元筆形,將其提煉歸納為十個種類,再根據(jù)漢字筆畫與數(shù)字的一貫定義和漢字筆形的共通之處,分別用0~9的數(shù)字作代碼。例如,橫(一)、豎(丨)、撇(丿)、捺點( 、)、折(乙)的一貫定義是1、2、3、4、5,而“言、廠、又、耳、口”五類字元(含漢字字形)分別與“6、7、8、9、0”之間存在著結(jié)構(gòu)共通或形狀相似之處。具體的字元筆形分類與數(shù)字代碼定義如下表
2.根據(jù)權(quán)利要求“1”所述的漢字字元筆形的定義,其特征在于①按漢字的筆順規(guī)則,順取兩碼倒兩碼,即順2倒2;②一個漢字最多取四位碼,不重復(fù)取碼;③三個優(yōu)先原則,第一是取大優(yōu)先,當幾種字元(筆形)在一起時,以單筆筆畫數(shù)多者為先;第二是筆順優(yōu)先,當幾種字元(筆形)在一起而且筆畫數(shù)相同時,筆順先到的筆形優(yōu)先;第三是特征顯著的筆形優(yōu)先,當幾種字元(筆形)在一起含混不清時,以特征最明顯者優(yōu)先。
3.根據(jù)權(quán)利要求“1”和“2”所述的字元筆形定義及取碼規(guī)則,其特征在于它與任何一種漢語字(詞)典連接應(yīng)用,可用數(shù)碼快速檢索。
4.根據(jù)權(quán)利要求“1”和“2”所述的字元筆形定義及取碼規(guī)則,其特征在于它與計算機輸入系統(tǒng)的數(shù)字區(qū)及數(shù)字映射區(qū)、數(shù)字通訊系統(tǒng)和數(shù)字運算存儲系統(tǒng)的數(shù)字輸入終端連接,可快速錄入漢字。
5.根據(jù)權(quán)利要求“1”和“2”、“4”之表述,其特征還在于它與申請?zhí)枮?1135698.7的發(fā)明專利《英文數(shù)字碼》連接運用,可實現(xiàn)簡繁體漢字、英文字母、數(shù)字及其運算的一體操作。
全文摘要
這是一項將漢字數(shù)字化的編碼方法。該編碼方法采用0~9的數(shù)字編碼,編碼長度不超過四位碼。在近三萬個漢字的編碼運用中,90%的重碼不足10個,10%的重碼不足30個,平均重碼3.47。取漢字的首尾編碼,這完全符合人的最佳識別速度。它完全適用于計算機領(lǐng)域、通訊領(lǐng)域;金融、交通、文教、行政管理等行業(yè)的數(shù)字輸入終端設(shè)施。在數(shù)字輸入產(chǎn)品方面具有廣闊的開發(fā)空間。
文檔編號G06F3/023GK1459700SQ0211946
公開日2003年12月3日 申請日期2002年5月25日 優(yōu)先權(quán)日2002年5月25日
發(fā)明者徐惠才 申請人:徐惠才