專利名稱:一種用數字將漢字輸入計算機的方法
技術領域:
本發(fā)明涉及一種計算機的漢字輸入方法,是一種新穎的計算機輸入方法,它是根據漢字的結構轉化為阿拉伯數字運用計算機標準鍵盤輸入漢字。
目前,計算機漢字輸入方法種類繁多,按輸入方式,一般分為音碼、形碼、音形結構碼、聲碼、聲控輸入、手寫輸入等形式??v觀這些編碼方法普遍存在規(guī)則復雜,難學難記的弊端。在諸多輸入方法中用數碼輸入是較理想的輸入方式,有代表性的是區(qū)位碼和電位碼,但這兩種方法數字與漢字之間無規(guī)律可循。本發(fā)明就是研究漢字與數字之間內在聯系,尋求數字變化同漢字結構演變的規(guī)律,將漢字用數字描繪出來輸入計算機。
本發(fā)明的特點是學習容易、操作簡單。漢字分類小學生用幾人課時就可掌握,成年人幾個小時即可學會,操作對象只是0-9數字鍵,簡單易學。本發(fā)明應用范圍廣,不僅是理想的電子計算機漢字輸入方法,而且可以應用于信息檢索、檔案管理、圖書管理、字典查字、機器翻譯有其他各類需要編碼的領域。有利于計算機應用的推廣和普及。
本發(fā)明通過如下技術方案實現通過漢字的結構轉化為數字再利用計算機標準鍵盤輸入計算機。
漢字轉化為數字的方法,依據群體漢字結構的差異和漢字內部結構變化規(guī)律進行數字編碼,配合鍵盤,具體方法是(1)、將群體漢字按結構分為五類上下結構、左右結構、四面包圍、半包圍、獨體結構。
(2)、按結構將漢字的字首的筆劃數細分為10個區(qū)域;上下結構的漢字分為兩個區(qū),字首在三筆劃以內的劃為0區(qū),字首在四筆劃以上的劃為1區(qū)。左右結構的漢字劃為六個區(qū),即左面兩筆劃為2區(qū),左面三筆劃為3區(qū),左面四筆劃為4區(qū),左面五筆劃以上為5區(qū),“口”旁和“钅”同四面包圍漢字統一組成第6區(qū),第7區(qū)由半包圍結構組成,8區(qū)是由“氵”、“扌”組成,9區(qū)是由不能進行上述分類的獨體字組成。凡是落入該區(qū)域的漢字就是該漢字的第一編碼,余下部分漢字再按結構分類編碼,以此類推(見編碼表)。
(3)、通過若干次分類編碼漢字就剩余字尾,字尾編碼,方法如下字的末筆劃統分橫豎撇捺折五種,用1-5表示,有交叉的末部首橫豎撇捺折用6-0表示,“口”字為特定末筆,編碼為0。
(4)、末筆碼可編第二碼,第三碼和第四碼。
(5)、漢字轉化為數字,輸入單個字,不僅為四個數碼,也可以一數碼輸入,二數碼輸入,三數碼輸入。
(6)、漢字轉化為數字,不僅可以單字輸入,還可以兩字詞輸入,三字詞輸入及多字詞輸入。
(7)、利用計算機標準鍵盤,在標準鍵盤上設定二套0-9數字鍵,在Q-M鍵盤中,TGV鍵以左的鍵帽為左手鍵,YHB鍵以右的鍵帽為右手鍵,其中RTYU鍵為特定O鍵,R鍵代表“一”,包括“亠”、“”、“丆”、“ ”,T鍵代表“人”字頭,包括“八”,Y鍵代表“宀”,包括“ ”,U鍵代表“艸”,在輸入過程中,遇0區(qū)漢字符合上述條件字首優(yōu)先敲擊特字RTYU鍵,A鍵為特定1,A鍵代表“”、“心”、“灬”,Z鍵為技術處理鍵。
(8)、根據被編碼字首筆劃,字首無交叉筆劃歸左手數字鍵,字首有交叉筆劃歸右手鍵,凡是被編碼字首在字的右側一律歸右手數字鍵,凡是被編碼由左上半包圍和三面包圍無交叉字首歸左手數字鍵,其它半包圍形式歸右手數字鍵,單字輸入時,第四碼跟隨第三碼手位。
(9)、詞組輸入方法兩字詞采用漢字編碼每字取頭兩碼編碼,三字詞采用第一、第二字取頭一碼,第三字取頭兩碼,四字詞每字取頭一碼,多字詞取頭三字和最后一字的第一碼。
(10)、詞組輸入時,所有被編碼字首有交叉筆劃歸右手鍵,字首無交叉筆劃歸右手鍵。
以下通過漢字編碼實例和鍵盤應用進一步說明本發(fā)明的具體操作方法。
結合漢字結構編碼表一,末筆編碼表二,鍵盤分布表三,詳細說明本發(fā)明。
一種用數字將漢字輸入計算機的方法,將漢字的類型設定歸納為5種類型劃分10個區(qū)域。5種結構類型1、上下結構,2、左右結構,3、全包圍結構,4、半包圍結構,5、獨體結構。又將漢字分成5個類別化分10個區(qū)。其中上下結構分成2個區(qū)即0區(qū)和1區(qū)。0區(qū)指上下結構,上部筆劃在三劃以內的(包括3劃),1區(qū)指上部筆劃4劃以上的(包括4劃)的漢字。左右結構劃分為5個區(qū),由左部2筆劃組成的漢字定為第二區(qū),由左部3筆劃組成的漢字定為第三區(qū)。由左部4筆劃組成的漢字定為第四區(qū),由左部5筆劃以上(包括5筆劃)組成的漢字定為第五區(qū),由左部“氵”和“扌”單獨拿出來組成左右結構的第八區(qū),第六區(qū)是由四面包圍形的漢字來組成,由于四面包圍的漢字比較少,所以將左右結構漢字“口”字旁的也歸為第六區(qū)?!邦摹睔w為第六區(qū)一是考慮五區(qū)的漢字分配的比較多,二是為了左右手鍵盤分配的合理特定的,第七區(qū)是由半包圍型漢字組成的,它不考慮外部包圍形體,只要滿足二面及三面包圍的即可。第九區(qū)是不能進行上述分類的不規(guī)則的漢字(見表一)。
只了解字的結構進行漢字編碼是不完全的,因為每一個漢字都有字尾也稱末部首。例“寄”字的字尾是“口”字。每一個字的字尾是不同的,這就需要對字尾也要進行編碼。在進行筆劃編碼時,只考慮筆劃的運筆方向,而不計較輕重長短,根據其使用頻率,便于記憶和應用的原則,將筆劃分為橫、豎、撇、捺、折5種。又因每一字的末筆存在于交叉與非交叉偏旁部首之中。為了增加編碼范圍將橫、豎、撇、捺、折擴展為有交叉的橫、豎、撇、捺、折和無交叉的橫、豎、撇、捺、折。因此將5種末筆劃碼增加到10種(見表二)。確定末筆時有兩種情況需要注意一是“匕”、“戈”這類字末筆為撇,二是某些字被編碼切斷時確定字尾交叉與否,如“蟲”字作為字尾出現末筆為9,如以單字出現末筆為4(因被編碼切斷)。另外有一部分字的編碼信息量不足這時再取字尾首筆筆形碼補充編碼,字尾首筆碼編法是編碼本筆無交叉用1-5,本筆有交叉6-0表示。
在編碼過程中,首先是查看漢字的基本結構,確定漢字的類型,然后查看部首的筆劃數量,按分類編碼表的要求即可確定第一碼,第一碼確定后再查看余下部分漢字結構,這時會出現兩種情況,一是還能繼續(xù)進行上述結構分類化區(qū),如遇這種情況則應繼續(xù)按編碼分類方法分類。二是遇到土、女、木、小、巾、口、人等漢字字尾時應按末筆編碼表確定末筆碼。如漢字字尾的無交叉筆劃,末筆則按“一、丨、丿、丶、乙”用數字1、2、3、4、5來代表它,如漢字字尾有交叉筆則用數字6、7、8、9、0來描繪。例如某漢字字尾是“小”字無交叉筆劃,末筆是“丶”捺為4,這時末筆編碼為4,又如某漢字的字尾是“土”土字有交叉筆劃,末筆是橫但有交叉筆劃則橫為6,這個末筆碼為6。末筆碼可編第二碼、第三碼和第四碼,不能編第一碼。第三碼的確定有三種情況。如該漢字經兩次結構分類劃區(qū)后還能進行分類劃區(qū),則繼續(xù)分類劃區(qū)編碼,自然狀態(tài)編碼應為3碼或4碼。如編完第三碼、第四碼就按末筆劃碼法編碼。
例如漢字的“字”,先看“字”字由上下結構組成,上部的“宀”三筆劃劃分為0區(qū),第一編碼為“0”,再編第二碼,看余下部分漢字“子”字的末筆為橫,字尾有交叉筆,查表得知末筆碼為6,即第二碼為6。第三碼為字尾首筆碼,字尾首筆順為“折”編碼為5(字尾首筆碼本筆無交叉編碼1-5,本筆有交叉編碼6-0),“字”字的編碼為065。
例“例“寄”字去掉字首“宀”后是“奇”字,“奇”字去掉字首“大”字是“可”字,“可”字去掉“丁”是“口”字,“口字”為特定字尾編碼為0,因此“寄”字的編碼為0070。
例“唱”字為左右結構,左部為“0”,編碼為6,余下部分是“昌”字,“昌”字為上下結構,上部“日”筆劃是四筆以上,編碼為1,余下“日”字,“日”字按結構分為第6區(qū),則第三碼定為6,“日”字去掉外框之后,僅剩一筆“一”,按字尾編碼可知,編碼為1,唱字的編碼6161。例“編”字,按結構分類為左右結構,左邊“ ”三筆劃屬于第三區(qū)漢字,第一編碼為3,余下部分是“扁”字,“扁”字為半包圍結構劃為第七區(qū),第二編碼為7,“冂”部首同樣是半包圍結構劃為第七區(qū),第三編碼為7,最后剩余“艸”末筆為豎有交叉筆編碼為7,因此“編”字的編碼為3777。以上幾例可以看出“寄”字與“唱”雖然都有“口”,但編碼數字卻不同,“寄”與“奇”的字首不同,但編碼相同,這說明一個實質問題就是要掌握字的結構和字首復雜程度的來進行編碼。
計算機鍵盤鍵位分配由漢字的結構進行數字編碼是根據近似模糊數學的原理,僅對字的結構進行分類,而不對字的每一筆順細分化,將造成重碼率較高,這只能應用在對輸入或查找漢字要求速度不高的地方使用。為了減少重碼率增加輸入速度我們對標準鍵盤O-M輸入鍵進行以下利用(見表三)。設計兩套0-9數字在鍵盤上,在O-M鍵盤中,TGV以左0-9為左手用鍵,用以操作被編碼無交叉部首,YHB以右為右手用鍵,用以操作被編碼有交叉部首,其中RTYU鍵為特定0鍵,以分散0區(qū)編碼密度,A鍵為特定1鍵,以分散1區(qū)編碼密度,Z鍵為技術處理鍵。由于兩套0-9數字可以交替操作,編碼容量可達16萬,大大地減少了重碼率。本編碼法有很多漢字編碼雖然相同,但通過兩套數字交替操作都能做到不重碼輸入。
漢字的編碼輸入一、上下結構漢字的編碼及輸入上下結構的漢字在國標一級字庫中占25%。其中字首在三筆劃以下的(簡稱0區(qū)以下同)占12%。由于在群體漢字中進行一次分類反映到上下結構占70%,而且字首在反映到0區(qū)的占50%。因此對0區(qū)進行細分化尤為重要。在0區(qū)除有兩個0以外,還分別設立RTYU四個鍵來承擔0區(qū)的任務,R鍵代表“一”包括“亠”、“”、“丆”、“ ”T鍵代表“人”字頭包括“八”,Y鍵代表“宀”,U鍵代表“艸”。在輸入過程中如遇0區(qū)漢字優(yōu)先擊符合上述條件字首的鍵位,而不去擊0鍵。0區(qū)漢字編碼例“分”字,第一碼0(結構碼),第二碼3(末筆碼),第三碼5(字尾首筆碼),“分”字編碼035。例“京”字,第一碼0(結構碼),第二碼0(結構碼),第三碼4(末筆碼),“京”字編碼004。例“蔣”字,第一碼0(上下結構),第二碼3(左右結構),第三碼0(上下結構),第四碼9(末筆碼),“蔣”字編碼0309。兩套數字鍵分配,被編碼字首無交叉筆劃歸左手數字鍵,有交叉部首歸右手數字鍵。
上一結構字首四筆劃以上(簡稱1區(qū)以下同)占13%,該區(qū)漢字字數較多字形也比較復雜。因此我們將“A”鍵也作為特定1鍵,把“竹”頭“心”“灬”底規(guī)結到A鍵而不使用1鍵,其它1區(qū)漢字按規(guī)則要求輸入。該區(qū)編碼又略有差別,對于上部為整體結構下部屬于天常規(guī)律變化的漢字同0區(qū)的編碼方法一樣,如遇上部左右兩部分組成的字按下列方式定碼,第一區(qū)的漢字第一碼為1,第二碼則查看上部按左右結構編碼法編碼,第三碼以后則繼續(xù)按規(guī)則編碼。1區(qū)漢字編碼,例“爸”字,第一碼1(結構碼),第二碼5(末筆碼),第三碼5(字尾首筆碼),“爸”字編碼155。例“型”字,第一碼1(結構碼),第二碼2(結構碼),第三碼6(末筆碼),“型”字編碼126。例“想”字,第一碼1(上下結構),第二碼4(左右結構),第三碼6(全包圍結構),第四碼1(末筆碼),“想”字編碼1461。兩套數字鍵分配,被編碼字首無交叉筆劃歸左手數字鍵,有交叉部首歸右手數字鍵。
二、左右結構漢字的輸入左右結構的漢字占60%,數量最多,因此劃分區(qū)域也最多,共化為2、3、4、5、6、8六個區(qū)。其中左面兩劃以下及右面“刂”“卩”劃為2區(qū),左面三筆劃為3區(qū),左面四筆劃及右面“夂”劃為4區(qū),左面五筆劃以上及右面“頁”劃為5區(qū),“口”“钅”劃為第6區(qū),“氵”“扌”劃為第8區(qū)。2區(qū)漢字編碼例“他”字,第一碼2(結構碼),第二碼0(末筆碼),第三碼0(字尾首筆碼),“他”字編碼200。例“到”字,第一碼2(結構碼),第二碼0(結構碼),第三碼6(末筆碼),“到”字編碼206。例“倒”字,第一碼2(左右結構),第二碼2(左右結構),第三碼0(上下結構),第四碼6(末筆碼),“倒”字編碼2206。例“攝”字,第一碼8(左右結構),第二碼1(上下結構),第三碼2(左右結構),第四碼9(末筆碼),“攝”字編碼8129。左右兩套數字鍵位分配凡是被編碼的字首無交叉筆劃的歸左手數字鍵,凡是有交叉筆劃的歸右手數字鍵,凡是被編碼字首在字的右側一律歸右手數字鍵,特定2區(qū)“亻”為右手數字鍵。
三、四面包圍結構漢字的輸入四面包圍結構的漢字在群體漢字中數量較少,僅占1%。但在個體漢字結構分類中又有一定量的比重,因此劃為6區(qū)。我們將“口”“钅”也劃為6區(qū)以補償該區(qū)群體漢字的不足。6區(qū)漢字編碼例“國”字,第一碼6(結構碼),第二碼6(末筆碼),第三碼1(字尾首筆碼),“國”字編碼661。例“哈”字,第一碼6(結構碼),第二碼0(結構碼),第三碼0(末筆碼),“哈”字編碼600。例“鋸”字,第一碼6(左右結構),第二碼7(半包圍結構),第三碼0(上下結構),第四碼0(末筆碼),“鋸”字編碼6700。兩套數字鍵位分配凡是被編碼的字首無交叉筆劃的歸左手數字鍵,凡是有交叉筆劃的歸右手數字鍵。
四、半包圍結構漢字的輸入半包圍結構漢字占4.7%,凡是滿足兩面、三面包圍的漢字均屬7區(qū),不考慮包圍體結構。7區(qū)漢字編碼例“遼”字,第一碼7(結構碼),第二碼2(末筆碼),第三碼5(字尾首筆碼),“遼”字編碼725。例“遠”字,第一碼7(結構碼),第二碼0(結構碼),第三碼5(末筆碼),“遠”字編碼705。例“痛”字,第一碼7(半包圍結構),第二碼0(上下結構),第三碼7(半包圍結構),第四碼7(末筆碼),“痛”字編碼7077。兩套數字鍵的分配凡是被編碼由左上半包圍和三面半包圍無交叉字首歸左手數字鍵,其余半包圍形式歸右手數字鍵。
五、獨體結構漢字輸入獨體結構漢字是指不能進行上述分類的漢字,對這些漢字在編碼時第一碼設定為9即可,如“也”字,第一碼為0,第二碼為0,第三碼為0,“也”字的編碼900。例“主”字,第一碼為9,第二碼為6(末筆碼),第三碼4(字尾首筆碼),“主”字編碼964。另外一些漢字從上到下或從左到右有一筆相連,對這些漢字第一碼也編碼為9,其余看整體結構進行拆分。例“我”字只有一橫相連化分為準左右結構,編碼948。例“里”字只有一豎相連化分為準上下結構,編碼916,對于獨體字上部有兩點也劃為本區(qū)例“單”字編碼為9017。
兩字詞的編碼方法兩字詞在編碼時取組成兩字詞單字的前兩碼組成。例“編碼”一詞,“編”字前二碼是3、7(3左右結構,7半包圍結構),“碼”字前兩碼是5、1(5左右結構,第五區(qū),1末筆碼),則“編碼”一詞的編碼是3751。擊鍵方式全為左手。
三字詞的編碼方法三字詞在編碼時取組成三字詞的第一、二單字的第一碼,取最后一字的前兩碼。例“遼寧省”一詞,“遼”字為半包圍結構,第一碼為7,“寧”字為上下結構,上部是三筆劃,第一碼是0,“省”字上下結構,上部是三筆畫,第一碼為0,“目”字為全包圍結構,第二碼為6,因此“遼寧省”一詞的編碼是7006。擊鍵方式第一碼為右手,其余左手。
多字詞的編碼方法多字詞在編碼時是取前三個字的頭一碼,取最后一字的頭一碼組成。例“中華人民共和國”一詞,“中”字第一碼是6(全包圍結構),“華”字上下結構,上部四筆劃第一編碼為1,“人”字為獨體結構,第一碼為9,“國”字第一碼為6(全包圍結構),因此“中華人民共和國”一詞的編碼為6196。擊鍵方式第一碼右手,第二碼右手,第三碼左手,第四碼為左手。
本發(fā)明打破常規(guī)的漢字編碼方法,是一項具有開拓意義的發(fā)明。它不僅適應于電子計算機的漢字輸入,而且可用于其它各個需要漢字編碼的領域。
權利要求
1.一種用數字將漢字輸入計算機的方法,其特征在于通過漢字的結構轉化為數字再利用計算機標準鍵盤輸入計算機,具體方法是(1)、將群體漢字按結構分為五類上下結構、左右結構、四面包圍、半包圍、獨體結構。(2)、按結構將漢字的字首的筆劃數細分為10個區(qū)域上下結構的漢字分為兩個區(qū),字首在三筆劃以內的劃為0區(qū),字首在四筆劃以上的劃為1區(qū)。左右結構的漢字劃為六個區(qū),即左面兩筆劃為2區(qū),左面三筆劃為3區(qū),左面四筆劃為4區(qū),左面五筆劃以上為5區(qū),“口”旁和“钅”同四面包圍漢字統一組成第6區(qū),第7區(qū)由半包圍結構組成,8區(qū)是由“氵”、“扌”組成,9區(qū)是由不能進行上述分類的獨體字組成。凡是落入該區(qū)域的漢字就是該漢字的第一編碼,余下部分漢字再按結構分類編碼,以此類推(見編碼表)。(3)、通過若干次分類編碼漢字就剩余字尾,字尾編碼,方法如下字的末筆劃統分橫豎撇捺折五種,用1-5表示,有交叉的末部首橫豎撇捺折用6-0表示,“口”字為特定末筆,編碼為0。(4)、末筆碼可編第二碼,第三碼和第四碼。(5)、漢字轉化為數字,輸入單個字,不僅為四個數碼,也可以一數碼輸入,二數碼輸入,三數碼輸入。(6)、漢字轉化為數字,不僅可以單字輸入,還可以兩字詞輸入,三字詞輸入及多字詞輸入。(7)、詞組輸入方法兩字詞采用漢字編碼每字取頭兩碼編碼,三字詞采用第一、第二字取頭一碼,第三字取頭兩碼,四字詞每字取頭一碼,多字詞取頭三字和最后一字的第一碼。
2.根據權利要求1所述的鍵盤,其特征在于利用計算機標準鍵盤,在標準鍵盤上設定二套0-9數字鍵,在Q-M鍵盤中,TGV鍵以左的鍵帽為左手鍵,YHB鍵以右的鍵帽為右手鍵,其中RTYU鍵為特定O鍵,R鍵代表“一”,包括“亠”、“”、“丆”、“ ”,T鍵代表“人”字頭,包括“八”,Y鍵代表“宀”,包括“ ”,U鍵代表“艸”,在輸入過程中,遇0區(qū)漢字符合上述條件字首優(yōu)先敲擊特定RTYU鍵,A鍵為特定1,A鍵代表“竹”、“心”、“灬”,Z鍵為技術處理鍵。
3.根據權利要求1、2所述的方法,其特征于根據被編碼字首筆劃,字首無交叉筆劃歸左手數字鍵,字首有交叉筆劃歸右手鍵,凡是被編碼字首在字的右側一律歸右手數字鍵,凡是被編碼由左上半包圍和三面包圍無交叉字首歸左手數字鍵,其它半包圍形式歸右手數字鍵,單字輸入時,第四碼跟隨第三碼手位。
4.根據權利要求1、2所述的方法,其特征在于詞組輸入時,所有被編碼字首有交叉筆劃歸右手鍵,字首無交叉筆劃歸右手鍵。
全文摘要
本發(fā)明涉及一種計算機的漢字輸入方法,是一種新穎的計算機輸入方法,它是根據漢字的結構轉化為阿拉伯數字運用計算機標準鍵盤輸入的方法。本發(fā)明的特點是學習容易、操作簡單。漢字分類小學生用幾個課時就可掌握,成年人幾個小時即可學會,操作對象只是0—9數字鍵,簡單易學。本發(fā)明應用范圍廣,不僅是理想的電子計算機漢字輸入方法,而且可以應用于信息檢索、檔案管理、圖書管理、字典查字、機器翻譯等其他各類需要編碼的領域。有利于計算機應用的推廣和普及。
文檔編號G06F3/023GK1102716SQ9411016
公開日1995年5月17日 申請日期1994年4月1日 優(yōu)先權日1994年4月1日
發(fā)明者張金嶺 申請人:張金嶺