欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

層次結(jié)構(gòu)漢字編碼法及其鍵盤的制作方法

文檔序號:6410730閱讀:689來源:國知局
專利名稱:層次結(jié)構(gòu)漢字編碼法及其鍵盤的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種新的漢字編碼法及其鍵盤,其中包括一套新的漢字字型劃分方案及其拆分方法,和與此相適應(yīng)的兩套碼長分別為5碼和6碼的鍵盤漢字輸入方案。
隨著計算機(jī)等技術(shù)的訊速發(fā)展,以鍵盤輸入為主的漢字輸入技術(shù)已成為中文信息處理技術(shù)領(lǐng)域地重要分支。經(jīng)過近20年的發(fā)展,國內(nèi)已提出的輸入方案已達(dá)近千種,其中已形成生產(chǎn)力的已達(dá)20余種。這些方案除電報碼、區(qū)位碼外從方法上基本上可歸為音碼、音形碼和形碼三類。
目前市面上已流行的智能ABC、雙拼雙音等均屬于音碼范籌。音碼的特點(diǎn)是好學(xué)易用,但重碼太多,速度太慢及難以實(shí)現(xiàn)盲打是該類方法的缺點(diǎn)。雖然目前該類方法均采用了以詞組輸入為主的技術(shù)以減少重碼和加快速度,但這并不能有效地將重碼率降低到很低的限度,操作者仍不能擺脫對屏幕的依賴。
目前市面上流行的五筆字型、太極、鄭碼、表形碼等均屬形碼。形碼的特點(diǎn)是重碼率低,一般只有3%左右。因此可實(shí)現(xiàn)高速盲打。但使用該類方法的先決條件是必須首先記住大量字根,如五筆字型最新板本字根總數(shù)是199個,鄭碼為170多個,而表形碼超過了360個,這就為一般人員的學(xué)習(xí)和使用帶來了較大的困難。同時重碼仍為該類方法不能忽視的問題。以五筆字型為例,在國標(biāo)(GB2312—80)6763個漢字中,有246組重碼,最多一組涉及4個漢字,總共涉及500多個漢字。雖然通過安排簡碼可分散一部分重碼,但仍有102組重碼沒有得到異化。說明形碼在本身體系上仍有難以逾越的缺陷。
目前市面上常見的大眾音形碼、四筆聲形碼、自然碼等均屬于音形碼。該類方法重碼率居中,一般在5%—8%,學(xué)起來也比較容易,但要完全熟練掌握仍有一定難度。因?yàn)樵擃惙椒ㄈ孕栌涀〈罅孔指热缢墓P聲形字根數(shù)量為380多個,雖然這些字根大多同其發(fā)音一致,但要記住這幾百個可以使用的和幾十個特殊規(guī)定的字根本身已非易事了。
總之在目前已有的各種輸入法中普遍地存在著“易學(xué)的打不快,打得快的不易學(xué)”的問題。因此還沒有一種方法能在計算機(jī)用戶中占絕對優(yōu)勢,多種輸入方法并存的局面很難打破,這表明目前用于編碼的漢字輸入理論及漢字結(jié)構(gòu)理論存有缺陷。主要表現(xiàn)在
1、現(xiàn)有的主流理論認(rèn)為為了提高打字速度,漢字編碼的碼長以小于4碼為好,因?yàn)槿粢?6個英文字母為碼元集,4碼的編碼空間就可達(dá)40萬個,相對于6763個漢字來說是足夠了,所以目前絕大多數(shù)編碼方案均選用4碼和3碼。實(shí)際上這就大大地低估了漢字本身的規(guī)律性,結(jié)果是按3碼和4碼建立起來的各種輸入方案均有數(shù)百個重碼字,均沒有從根本上解決漢字的重碼問題。特別是在計算機(jī)漢字輸入技術(shù)發(fā)展到以詞輸入為主的今天,該編碼空間更顯得不足。
2、在漢字的結(jié)構(gòu)上,大多數(shù)編碼設(shè)計人應(yīng)用了字根是最小構(gòu)字單位的概念,所以在拆字時使用了固定字根的方法,其數(shù)量從幾十個到幾百個不等。這此均需要使用者強(qiáng)記,這是該類方法難學(xué)易忘的主要原因。同時在一個漢字中這種字根絕大多數(shù)只含有2~3個,這導(dǎo)致了在一個漢字中提取的信息量不足。另一方面由于大都采用順序取碼方式,又容易使含有5個字根以上的漢字編碼,漏掉關(guān)鍵性的區(qū)別信息。如對“羸、嬴、贏、蠃”這四個字,許多方案都不能區(qū)分,五筆字型對它們的編碼均為YNKY,大眾碼為LLDJ,太極碼為TMGT。這就是該類方法不可能消除重碼的原因。
本發(fā)明的目在于避免上述漢字輸入法的不足之外,提供一類兼顧易學(xué)性和高效性的漢字鍵盤輸入編碼方案。
本發(fā)明的目的可通過如下技術(shù)方案來達(dá)到提供一套新的漢字字型劃分方案和在此基礎(chǔ)上的漢字逐層拆分方法和取碼方法,通過把這些方法納入人們已有的知識體系中,使之具有易學(xué)性的特點(diǎn),同時由于采用對漢字進(jìn)行逐層拆分的方法,可以提取到足夠的信息量,從而達(dá)到大大降低重碼率的目的。
在本發(fā)明中將漢字定義為由兩個一級字根按照一定的位置關(guān)系組成的塊。而一級字根是由兩個二級字根按一定的位置關(guān)系而組成的塊。依次類推,可定義三級字根,四級字根等,最后末級字根就是由二個筆畫按一定的位置關(guān)系而構(gòu)成的塊。
取碼時對字和字根以取音為主,對某些沒有讀音卻常用的字根也做了一些硬性規(guī)定、如

圖1,對本身有讀音或已規(guī)定了取碼的字根稱為成字字根,否則稱為不成字字根,不成字字根是必須進(jìn)一步拆分的字根。對字或成字字根取碼時所用的音主要指該字漢語拼音的首字母。(其中zh、ch、sh用u、v、i代替)和規(guī)定韻母。規(guī)定韻母一般指韻母的末字母,對單韻母來說就是該字母本身。例外情況是ei、ui和ou是按發(fā)音來歸類的,其中ei、ui、歸入a,ou歸入o,這樣實(shí)際使用的韻母為7個,即圖2。
字根的代碼分全碼和拆分碼兩種。對成字字根全碼指整字根拼音首碼或硬性規(guī)定碼,對不成字字根全碼是次級字根的首字根碼(取前時)或末字根碼(取后時)全碼一般是單碼。如夫(F)、人(R)等,拆分碼指將整字拆分成次級字根后的兩個字根碼。拆分碼一般是雙碼。如夫(ER)人(PN)。筆畫只有全碼沒有拆分碼。
在本發(fā)明中將漢字的筆畫歸為兩類,一類為線狀筆畫,包括橫(一)H、豎(丨)I、撇(丿)P、捺(_)N、點(diǎn)(丶)D、提(
)T;另一類為塊狀筆畫,包括鉤(
ㄋ)G、折(
_ )U、刺(乛、亅、
)C及Z(
、乙、
)。除明確規(guī)定的外,其余筆畫可以稍有變形,或方向上旋轉(zhuǎn)。如乛、亅均為C,乚、
均為G,_、_、
均為U。U和C的區(qū)別是U的兩段長度相同,且均為直筆,而C的兩段長度不等,有時一段是彎的。如“登”左上角的“
”即為C。
在本發(fā)明中,對于少于三畫的漢字取碼方式為拼音首碼+規(guī)定韻母碼+第一筆畫碼+第二筆畫碼+第三筆畫碼,筆畫不足三畫的用空格鍵結(jié)束。如一YIH、乙YIZ、二ERHH、人RNPN、入RUPN、工GGHIH、土TUHIH、兀WUHPG、萬WNHPG等,此類漢字共86個。無重碼。
對多于四畫的漢字,則根據(jù)字中字根的連接關(guān)系和字型,分區(qū)后編碼,5碼方式為拆分成A、B兩區(qū),整字編碼為拼音首碼+A區(qū)拆分碼+B區(qū)拆分碼;6碼方式為拆分成A、B、C三區(qū),整字編碼為拼音首碼+A區(qū)拆分碼+B區(qū)拆分碼+C區(qū)全碼(或拆分末碼)。在對漢字進(jìn)行拆分時,要盡量不拆出單筆畫。字根的連接關(guān)系分為交、連、隨、散四種,字型即指漢字整字的字型,也指字根的字型有交體型、疊體型、上下型、左右型、夾型、串型、右上帶點(diǎn)型7種,下面主要根據(jù)取5碼的情況分別進(jìn)行說明。
一、連接關(guān)系
1、交指兩個筆畫相交,有一個交叉點(diǎn)。如十、
等。
2、連指字根之間必須連接在一起,否則算錯。如“廠”中的“一”“丿”、“革”中的“廿”“
”、“目”中的“口”“二”等。
3、隨指字根之間可以連在一起,也可以不連接在一起,二者均算對。如“類”中的“米”“大”、“主”中的“·”、“王”、“玉”中的“王”“丶”等。
4、散指筆畫、字根之間必不可連在一起,否則算錯。如“呂”中的兩個“口”,“句”中的“勹”“口”等。
這些連接關(guān)系的強(qiáng)度一般由散到交依次增強(qiáng),但首或末筆的隨的連接強(qiáng)度高于次筆的連,如主中“丶”和“王”之間的連接強(qiáng)度要高于“亠”和“土”之間的連接強(qiáng)度,首或末筆連的連接強(qiáng)度要高于組成框的連接強(qiáng)度,而后者又高于其它連的連接強(qiáng)度。如“自”中連接強(qiáng)度最弱的是“
”和“二“之間,其次是“
”和“_”之間。
二、字型及漢字拆分字型的劃分主要是看一個字中最弱的連接關(guān)系出現(xiàn)在字的什么部位
1、左右型在一個漢字的字根之間出現(xiàn)貫穿上下的散或隨的關(guān)系則該字屬于左右型的字。如引、肭、相、招等。另外結(jié)構(gòu)上主要是左右型,但中間有一筆連接筆畫的字,應(yīng)將該筆剪斷后視為左右結(jié)構(gòu)的字。如我、戢。
劃分A、B區(qū)時,左右結(jié)構(gòu)的字應(yīng)從最左邊的散或隨處拆開,左邊為A區(qū),右邊為B區(qū)。如“淵”應(yīng)拆成“氵”和“
”,“鶘”應(yīng)拆成“古”和“
”、“招”應(yīng)拆成“扌”和“召”等
取碼時,若A區(qū)是左右結(jié)構(gòu)的字根,同樣從最左邊的散或隨處拆開,左邊取1碼,右邊取1碼。若右邊是不成字字根則應(yīng)繼續(xù)拆分,對左右型取前面字根碼,對上下型取上部字根碼。如“羸”拆分后A區(qū)為
為左右型結(jié)構(gòu)字根,拆分后左邊為“月”碼為Y,右邊為“
”為不成字字根,仍為左右型結(jié)構(gòu),則再次拆分為“羊”和“凡”取前部字根碼Y,這樣A區(qū)碼為YY。又如“崔”拆分后A區(qū)為“隹”仍為左右形字根,拆分后左為“亻”碼為R,右為“
”為不成字字根,且為上下型,拆分后為“亠”和
,取上部字根碼B,則A區(qū)編碼為RB,若B區(qū)是左右型結(jié)構(gòu)的字,拆分方法和A區(qū)相同,只是第二碼要取后取下。如“鶘”拆分后B區(qū)為“
”,為左右型結(jié)構(gòu)的字根,碼為YN,上兩例若位于B區(qū),則
的碼應(yīng)為YF,“
”碼應(yīng)為RU。另外具有“辶”“廴”結(jié)構(gòu)的字也應(yīng)視為左右結(jié)構(gòu)的字。
2、上下型在一個漢字的字根之間出現(xiàn)貫穿左右的散的關(guān)系,或著除首末筆畫外上下字根、筆畫之間仍有連的或隨的關(guān)系,則該字為上下型結(jié)構(gòu)。如主、旦、贏、革等。
上下型結(jié)構(gòu)的漢字劃分A、B區(qū)時,若是散的結(jié)構(gòu)則從最下部散處劃分,下為A區(qū),上為B區(qū)。如“亙”A區(qū)為“一”B區(qū)為“
”、“吳”A區(qū)為“天”B區(qū)為“口”,但對有“人”或“一”的字則從“人”或“一”處劃分。如“崳”A區(qū)應(yīng)為“俞”,B區(qū)應(yīng)為“山”、“稟”A區(qū)應(yīng)為“示”,B區(qū)應(yīng)為“
”另外下部為“魚”字結(jié)構(gòu)的則“魚”為A區(qū)其余為B區(qū)。
對以隨或連相連接的上下型結(jié)構(gòu)的字,若只有一個隨或連的連接點(diǎn),則從該處直接劃分如“共”A區(qū)為“八”B區(qū)為“
”、“革”A區(qū)為
”B區(qū)為“廿”,若有多個隨或連的連接點(diǎn)則從均衡處劃分,即劃分后A、B兩區(qū)盡量均為成字,否則從下部劃分,如“冀”A區(qū)為“共”B區(qū)為“

取碼時,若A或B區(qū)仍為上下結(jié)構(gòu)的字根則應(yīng)上下拆分為后各取一碼。如“部”拆份后A區(qū)為“咅”則上碼為L,下碼為O,若可拆分成多個部分,則應(yīng)取上碼和最下碼,如“
”拆分后A區(qū)為“
”,則應(yīng)取“士”和“角”碼,即IJ,若下部為不成字字根且為內(nèi)外結(jié)構(gòu)的字則取內(nèi),如“敲”拆分后A區(qū)為“高”上部取“亠”碼為B,下部取“冋”為不成字字根,則應(yīng)取“口”碼O。B區(qū)取碼方式相同。
在一個漢字中,若上下,左右均有散的構(gòu)型則以上下型優(yōu)先。如“翳”應(yīng)歸為上下型,A區(qū)為“羽”B區(qū)為“殹”另外在以交叉或連接筆畫大于90°夾角內(nèi)含有字根時,也應(yīng)視為上下結(jié)構(gòu)的字。如歷、友、或、病等。A區(qū)別為“力、又、
、丙”,B區(qū)分別為“廠、ナ、
、疒”。
3、交體型在一個漢字中去掉以連或隨相連接的首末筆后,若剩余筆劃只有一個交叉點(diǎn),或橫向有兩個交叉點(diǎn),則屬于交體型,如王、干、開等。
對交體字,若去掉以連式隨與其余部分相連接的首末筆后,其余部分為成字字根,該首末筆為A區(qū),其余部分為B區(qū)。若首末均有單筆畫則以末筆優(yōu)先拆分。如“王”A區(qū)為“一”B區(qū)為“干”,“干”A區(qū)為“一”B區(qū)為“十”否則按筆畫拆分,如“十”可拆成“一”“丨”等。取碼時,金碼取整字字根碼,拆分碼取按上述拆分規(guī)則拆分后各字根碼。如“王”拆分碼為GH,“壬”為QH,“干”為HX,“十”為HI等。
4.疊體型在一個字或字根內(nèi)部出現(xiàn)交、連、隨、散的關(guān)系,或多個字根在空間位置上相互重疊的構(gòu)型。如回、半、冉等,當(dāng)出現(xiàn)首末單筆是以連的關(guān)系同疊體型字根相連時,也歸入該類。如央、西、夷等。根據(jù)疊體型字中各字根的位置情況,又可分為內(nèi)疊、外疊、疊交三種情況。
(1)內(nèi)疊除首末單筆畫外,外圍字根從三或四面包圍其余筆畫、字根或其主要部分的構(gòu)型。如回、包、目、白、巫、玉、匡、司等。
(2)外疊某幾筆畫包含在其它幾筆或折筆所形成的小于90°的字框內(nèi)的結(jié)構(gòu)。如半、業(yè)、止、米等。
內(nèi)疊和外疊字的拆分規(guī)則和取碼規(guī)則相同,均是將框作為A區(qū),其余部分為B區(qū),如“句”A區(qū)為“勹”B區(qū)為“口”,“米”A區(qū)為“十”B區(qū)為“
”、“業(yè)”A區(qū)為“
”B區(qū)為“丷”,“止”A區(qū)為“丄”B區(qū)為“
”等。
取碼時,全碼取整字根碼,如,“米”全碼為M,“半”為B,取拆分碼時框取1碼,其余部分取1碼,如上兩例的拆分碼分別為XS和FB,“止”的拆分碼為TI(A區(qū))或TII(B區(qū))
(3)疊交型某幾筆畫同其它幾筆畫所構(gòu)成的區(qū)域重疊并相交。如西、夷、重、曳等。疊交根據(jù)各字根所圍成區(qū)域的覆蓋情況又可分為以下四種情況。
a、區(qū)域疊交,即兩個疊交的字根共用全部或部分區(qū)域,如西、夷、重等。拆分時在整字中位置比較高、面積比較大的字根在A區(qū),其余為B區(qū),如“西”A區(qū)為“?!盉區(qū)為“口”、“夷”A區(qū)為“大”B區(qū)為“弓”“重”A區(qū)為“
”B區(qū)為“日”,“再”A區(qū)為“王”B區(qū)為“冂”當(dāng)區(qū)域疊交字或字根位于A區(qū)或B區(qū),取拆分碼時按上述拆分規(guī)則拆分后,兩字根各取一碼。如“再”拆分碼為WK,“夷”拆分碼為DG,“西”的拆分碼為WO等。
b、插入式疊交即兩個字根中有一個字根用某一筆畫的延長線插入另一個字根中。如央、幣等,對該類型的字或字根拆分和取碼時,只要將該單筆畫拔出后按上下型結(jié)構(gòu)字處理,同時拔出時應(yīng)盡量拔成成字、如
應(yīng)拆成“中”和“三”,“里”應(yīng)拆成“日”和“土”,“豐”應(yīng)拆成“十”和“二”。
c、插出式疊交即處于框內(nèi)位置上的字根以單筆畫伸出框外,而構(gòu)成的字型。如內(nèi)、
等,對該類字或字根拆分或取碼時,將該伸出筆畫縮回后按內(nèi)疊字處。
d、單筆疊交即一個單筆同一個字根疊交,如甲、由、申、中、廿等,除甲、由、申外,其余按筆畫次序拆分,如“中”A區(qū)為“口”,B區(qū)為“丨”“廿”A區(qū)為“一”B區(qū)為“
”,甲、由、申拆分時A區(qū)為“十”B區(qū)為“口”。
取碼時,除甲、由、申外其余同其拆分次序一至,如“中”拆分碼為OI,“廿”拆分碼為HK,對甲、由、申三個字取拆分碼時第一碼取整字聲母碼,第二碼取“十”的規(guī)定碼X,則甲、由、申的拆分碼分別為JX、YX、IX。
5.右上帶點(diǎn)型指發(fā)、甫、犬、戈、戊右上帶有一點(diǎn)的結(jié)構(gòu),拆分時忽略該點(diǎn)然后進(jìn)行拆分和取碼,若忽略該點(diǎn)后,其余部分少于三畫的按小于三畫的字取碼,如“戈”碼應(yīng)為GEHCP,“犬”編碼應(yīng)為QNHPN。若右上帶點(diǎn)的結(jié)構(gòu)出現(xiàn)在A或B區(qū),取拆分碼時,若去掉該點(diǎn)后其余部分為成字字根則取該字根碼和“
”碼D,如“犬”拆分碼應(yīng)為DD,“
”拆分碼為YD,若去掉該點(diǎn)后其余部分為不成字字根,則忽掉該點(diǎn),其余部分拆分后取碼。如“戊”拆分碼應(yīng)為VV,“戈”拆分碼應(yīng)為VP,“發(fā)”拆分碼應(yīng)為UY等。
6.夾體型指水、非、小、永、北、兆等及與這幾個相似結(jié)構(gòu)的字,拆分時被夾筆畫為A區(qū),其余筆畫為B區(qū),如“非”A區(qū)為“
”B區(qū)為““
”,“永”A區(qū)為“
”B區(qū)為
。取碼時若夾體型字根位于A或B區(qū),則拆分碼頭碼取整字拚音首碼,第二碼取被夾筆畫碼。如“非”拆分碼為FE,“永”為YG,“小”為XC等。
7.串體型指除首末連或隨筆外,其余筆畫首尾相連而成環(huán)形結(jié)構(gòu)。如凹、乓等,對該種類型的字整字取碼時,第一、二碼取整字拼音首字母碼和規(guī)定韻母碼,第三、四、五碼取第一、二、末筆畫碼。如“凹”編碼為AOIZH,丘編碼為QUPIH。若該型字位于A或B區(qū),則按結(jié)構(gòu)拆成兩個最大成字字根取碼。如“凹”為內(nèi)疊字拆分碼為KJ,“凸”為上下結(jié)構(gòu),拆分碼為JK,“丘”應(yīng)拆成“
”和“工”后取碼VG,“乒”拆分碼為QP。
注1.在疊體字結(jié)構(gòu)中出現(xiàn)外疊、內(nèi)疊、疊交的混合結(jié)構(gòu)時,則三者的優(yōu)先次序?yàn)橥獐B、內(nèi)疊、疊交,如“
”應(yīng)為外疊形字根,“肉”為內(nèi)疊型字。
注2、對一個字或字根進(jìn)行拆分時總是從連接最弱處拆分。如“與”和“
”應(yīng)分別視作“一”和“灬”同“
”內(nèi)疊。
三、單字取碼規(guī)劃
首先將漢字按拆分規(guī)則分成A區(qū)和B區(qū),然后對A區(qū)和B區(qū)分別取碼。
(一)、A區(qū)取碼規(guī)則
1、對即常在漢字的左邊又常在漢字的下部出現(xiàn),且有變化筆畫的成字字根,分取整字字根碼和變化筆畫碼。如“桉”和“案”中的“木”應(yīng)分別取MD和MN,這樣的字根有
_TT—土TH
MD—木MN
MT—馬MH
YT—魚YH
HD—火HN
NT—鳥NH
NT—牛NH
WT—王WH
VH—車VH
LT—立LH
另外有些雖然沒有上述字根的變化,但取碼方式上也歸入該類的字根有兩組,即扌IT—手 IH—
IP和XD—心XH
2、應(yīng)指明位置或狀態(tài)的字根
阝E Z(在左),若在B區(qū)則為EY(在右)口OO(在左,或在右)—OX(在下部)—DO(內(nèi)有字根)
3、二、三筆畫的常見字和偏旁部首,交體字及內(nèi)疊型字中內(nèi)部筆畫兩頭連在框上的字,取整體拼音首字母+規(guī)定韻母。如月YE 白BI用YG 又YO 女NU 乃NI 廿NN 久JU 大DA 亻RN 厶SI 七QI 丘QU 子ZI 孑JE ㄨVA 兀WU 久WN 片PN 毛MO 廴VE 必BI 互GG 丈UG之 UI巾JN 犭QN 了LO等。
4、較復(fù)雜的偏旁部首取整體聲+上部或上部字根聲。如衤YB礻IB石IO 饣IC 門MG 辶VD 讠YZ 钅JR 彳PR
5、上下結(jié)構(gòu)的字和疊體字則按拆分規(guī)則拆分后取拆分碼。(二)B區(qū)取碼規(guī)則
1、艸、鳥、山、刂、_、口取規(guī)定碼CO、NO、IN、DO、UU、OO
2、其余均取拆分碼。
對在A區(qū)和B區(qū)取拆分碼的情況,若兩個字根大小、方向一至則第二碼用A來代替。如“琶”拆分后B區(qū)為“
”則碼應(yīng)為WA。又如“葭”拆分后A區(qū)為“叚”為左右型結(jié)構(gòu)的字,則“
”和“
”應(yīng)各取一碼,但二者均不是成字字根,則應(yīng)拆分后分別取碼,取碼的字根均為“_”則碼應(yīng)為KA。
(三)字編碼舉例贏YYBWO 提 TITRR 鶘HXOYN 蝴HUTGY壓YTDHP 叭BOOPN 依YRNBZ 限XEZIZ固GDOXO 錮GJROG 遜XVDJX
四、詞編碼規(guī)則
對二字詞,第一碼和第二碼分別是該二字漢語拼音的首字母碼,第三碼是第一個字拆分后的前碼,第四、五碼是第二個字的拆分碼。如高興GXBCB但是DIRRR 體會THRRY 同學(xué)TXKSZ迅速XSVVS 漢語HYSYW等。
對三字詞,前三碼取每個字拼音首字母,第四碼取第一個字拆分后的首碼,第五碼取第三個字拆分后的末碼。如國務(wù)院GWYOW 怎么樣ZMYZY等。
對四字詞,前四碼為每個字的拼音首字母,第五碼為第一個字拆分后的首碼。如比比皆是BBJIQ 半壁江山BBJIF 大公無私DGWSV任勞任怨RLRYR等。
對五字及五字以上的詞,取前四個字及最末一個字的拼音首字母。如中國外交部UGWJB 中國外貿(mào)部UGWMB,中華人民共和國UHRMG等。
取六碼時的情況同取五碼時的拆分方式基本相同,對單字只是在分出A區(qū)后,若剩下部分仍是左右、上下或疊體型應(yīng)再往前分一次而成為A、B、C三區(qū),A、B區(qū)同取5碼時A區(qū)和B區(qū)取碼規(guī)則相同,C區(qū)取一碼,對成字字根取全碼,對不成字字根取拆分碼。如同 TKGOOH 喱LOORTV 嚦LOOGPV 笞TOXUDU等。
對二字詞先取兩個字的拼音首碼,后四碼分取兩個字的拆分碼。如高興GXBOCB 但是DIRDRR 如果RGNORB等。
對三字詞先取三個字的拼音首碼,第四、五碼分取第一、二個字拆分前碼,第六碼取第三個字拆分后碼。如國務(wù)院GWYOWW 怎么樣ZMYZPY 對四字詞先取四個字的拼音首碼,第五碼取第一個字的拆分前碼,第六碼取第四個字的拆分末碼。如大公無私DGWSVS 任勞任怨RLRYRX等。
對五字詞先取五個的拼音首碼,第六碼取第一個字的拆分前碼,如中國外交部UGWJBO
對六字及六字以上詞的取前六個字及最末一個字的拼音首字母。如中華人民共和國UHRMGG。
本發(fā)明的優(yōu)點(diǎn)主要表現(xiàn)在以下幾個方面
一、由于只有少部分常用的字根采用歸類或硬性規(guī)定的辦法處理,所以具有易記性的特點(diǎn),同時,絕大多數(shù)用拆分的辦法取成字字根的代碼,所以取碼方式明確。
二、重碼率極低可配置大容量詞庫,在國際GB2312—80所確定的6763個漢字中,在5碼的情況下只有兩組重碼,即喱—嚦(LOOVL)臺—笤(TOXUD),而在6碼的情況下則完全消除了重碼。詞重碼率在包含5萬條詞的詞庫中,5碼情況的重碼率小于0.5%,而6碼情況下基本消除了重碼。
3、可有效地提高漢字輸入效率。由于本方案以五或六碼作為基本碼長,且沒有一個漢字或詞采用完全相同的字母組合,這就為鍵盤的合理安排創(chuàng)造了條件。根據(jù)北京航空航天大學(xué)等單位所做的“現(xiàn)代漢語詞頻統(tǒng)計”,在現(xiàn)代漢語各類文章中,當(dāng)覆蓋50%詞條數(shù)時,一字詞為63個,二字詞為672個,三字詞為342個,四字詞為344個。對這些詞均可以簡碼方式輸入。在本方案中,在26個字母鍵上每鍵安排五個有聯(lián)系的字,這樣共可字排130個高頻字。如我W 你WW 他WWW 她WWWW 它WWWWW、中U 上UU 下UUU 左UUUU 右UUUUU等。另外在10個數(shù)字鍵上安排50個與數(shù)字有關(guān)的字。如一1 壹11 百111世紀(jì)1111 星期一11111、二2 貳22 千222 季度2222星期二22222等。對簡碼詞采用一字一鍵的方式輸入。如但是DI、如果RG、怎么樣ZMY、不得不BDB、科學(xué)技術(shù)KXJI等。對編碼字母完全一樣的詞末字母用“1”等代替。如事實(shí)I1等。
通過以上安排可大大提高漢字的輸入效率,下面是本方案與五筆字型的比較。
根據(jù)現(xiàn)代漢語詞頻統(tǒng)計,在現(xiàn)代漢語的各類文章中,二字以上詞,加上熟語,常用搭配,常用短句共占字?jǐn)?shù)的70%左右。26個高頻字占總字?jǐn)?shù)的20%左右,其余10%為一般用字。以一篇1000字的文章為例(詞均以二字詞計算),二字詞占700個字,高頻字為200個,其余一般字為100個。由于本方案中的5萬余條詞庫可覆蓋詞頻統(tǒng)計中的99%的詞,所以這700個字中的99%(即693個字)的字可用詞語方式輸入,其中一半可用簡碼(1.5鍵/字),另一半按正常編碼輸入(2.5鍵/字),所以在不出現(xiàn)錯誤的情況下,對這1000個字總擊鍵次數(shù)為
346.5×1.5+346.5×2.5+200×2+107×5=2321鍵,平均為2.32鍵/字。
但由于對詞庫中所不包含的這1%的詞,往往是打錯后重打,則這7個字的擊鍵次數(shù)應(yīng)為7×(5+2.5)=52.5鍵,總擊鍵次數(shù)變?yōu)?338.5鍵,平均為2.34鍵/字。
當(dāng)然由于在這些詞中還包含三字以上的詞,所以平均擊鍵次數(shù)還會有所下降。
若采用六碼方式,則總擊鍵次數(shù)為2601鍵,平均2.6鍵/字,可見即使是使用六碼方式也比大多數(shù)三碼方案擊鍵次數(shù)少。
五筆字型最新的5.0版本中包含1.5萬條詞匯,可覆蓋詞頻統(tǒng)計中90%的詞,重碼率約為2%,在不出錯的情況下對這1000個字的總擊鍵次數(shù)為2340鍵,平均2.34鍵/字。
但若對詞庫中所不包含的這10%的詞是打錯后重打,則總擊鍵次數(shù)變?yōu)?480鍵,即2.48鍵/字。當(dāng)然在這里還未考慮重碼的影響。可見本方案中的5碼方式比目前廣泛使用的五筆字型方案具有更高的輸入效率。
圖1硬性規(guī)定的字根及其代碼。
圖2規(guī)定韻母表。
權(quán)利要求
1、一種層次結(jié)構(gòu)漢字編碼法及其鍵盤,其特征在于依據(jù)漢字中字根或筆畫間的連接方式和字型,采用逐層拆分,分區(qū)取碼的方式而形成的編碼體系。
2、根據(jù)權(quán)利要求1所述的一種層次結(jié)構(gòu)編碼法及其鍵盤,其特征在于將漢字中的字根分成成字字根和不成字字根兩種,字根代碼分全碼和拆分碼兩種。
3、根據(jù)權(quán)利要求1或2所述的字根代碼取碼方式有用u、v、i代替zh、ch、sn后的漢字拼音首字母;硬性規(guī)定代碼、即圖1;規(guī)定韻母碼、即圖2;及其相互組合。
4、根據(jù)權(quán)利要求1所述的一種層次結(jié)構(gòu)編碼法及其鍵盤,其特征在于將組成漢字的筆畫分為線狀筆畫,即橫、豎、撇、捺、點(diǎn)、提,和塊狀筆畫,即鉤、折、刺、Z兩類十種,這10種筆畫的代碼分別為H、I、P、N、D、T、G、U、C、Z。
5、根據(jù)權(quán)利要求1所述的一種層次結(jié)構(gòu)編碼法及其鍵盤,其特征在于將漢字中字根、筆畫間的連接方式分為交、連、隨、散四種,字型分為左右型、上下型、交體型、疊體型、夾型、串型、右上帶點(diǎn)型7種。
6、根據(jù)權(quán)利要求1所述的一種層次結(jié)構(gòu)編碼法及其鍵盤,其特征在于在碼長為5碼的情況下,除筆畫數(shù)少于三畫的漢字外,均依字型分為A、B兩區(qū),整字編碼為整字拼音首字母碼+A區(qū)拆分碼+B區(qū)拆分碼;在碼長為6碼的情況下分為A、B、C三區(qū),整字編碼為整字拼音首字母碼+A區(qū)拆分碼+B區(qū)拆分碼+C區(qū)全碼。
7、根據(jù)權(quán)利要求1或6所述的少于三畫的漢字,其整字編碼為整字拼音首碼+規(guī)定韻母碼+第一、二、三筆畫碼,不足三畫的以空格鍵結(jié)束。
8、根據(jù)權(quán)利要求1所述的一種層次結(jié)構(gòu)編碼法及其鍵盤,其特征在于在碼長為5碼的情況下,二字詞的編碼為兩字拼音首字母碼+第一字拆分首碼+第二字拆分碼,三字詞為三字拼音首字母碼+第一字拆分首碼+第三字拆分末碼,四字詞為四字拼音首字母碼+第一字拆分首碼,五字以上的詞為前四個字及最末一個字的拼音首碼;在碼長為6碼的情況下,二字詞的編碼為兩字拼音首字母碼+第一字拆分碼+第二個字拆分碼,三字詞為三字拼音首字母碼+第一字拆分首碼+第二字拆分首碼+第三個字拆分末碼,四字詞為四個字拼音首字母碼+第一個字拆分首碼+第四個字拆分末碼,五字詞為五個字拼音首碼+第一個字拆分首碼,六字以上的詞為前五個字及最末一個字拼音首字母碼。
9、根據(jù)權(quán)利要求1所述的一種層次結(jié)構(gòu)編碼法及其鍵盤,其特征在于可用在各種計算機(jī)中文信息處理系統(tǒng)中,也可以用于漢字電傳機(jī)和各種通訊系統(tǒng)中。
全文摘要
層次結(jié)構(gòu)漢字編碼法及鍵盤,是根據(jù)漢字逐層拆分的原理,而建立起來的具有較強(qiáng)科學(xué)性的漢字鍵盤輸入方法。發(fā)明將漢字及字根分為7種構(gòu)型、4種連接關(guān)系,代碼以取拼音首字母為主,從而具有記憶量小、易學(xué)的特點(diǎn)。同時將漢字的結(jié)構(gòu)和拆分作為取碼的主線,從而具有思路明確、單一的特點(diǎn)。另外極低的重碼率,大容量的詞庫和合理的鍵盤布局使其具有較高的輸入效率,其動態(tài)平均碼長低于五筆字型等多數(shù)流行的編碼方案。
文檔編號G06F3/023GK1162145SQ96118660
公開日1997年10月15日 申請日期1996年4月8日 優(yōu)先權(quán)日1996年4月8日
發(fā)明者白云山 申請人:白云山
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
徐州市| 临海市| 抚远县| 龙陵县| 厦门市| 商洛市| 墨竹工卡县| 高要市| 宜宾县| 嘉峪关市| 邵阳市| 江油市| 古蔺县| 桐柏县| 龙泉市| 务川| 贵州省| 无锡市| 华阴市| 伊宁县| 克东县| 广东省| 毕节市| 壶关县| 曲阜市| 珲春市| 东明县| 平原县| 武城县| 赤城县| 新巴尔虎右旗| 西丰县| 峨山| 邯郸市| 六枝特区| 桐梓县| 合水县| 射阳县| 海晏县| 莆田市| 枝江市|