專利名稱:漢字免拆分快速輸入法的制作方法
技術(shù)領(lǐng)域:
漢字信息處理技術(shù)和現(xiàn)代漢字應(yīng)用研究3.漢字計算機鍵盤輸入技術(shù)的現(xiàn)狀將漢字編碼后用通用鍵盤輸入計算機是漢字輸入主要的、基本的方法。其中尤以形碼最具發(fā)展?jié)摿Γ梢赃_到重碼極少,高效輸入,又不依賴所輸入漢字的讀音。然而至今大多數(shù)人仍在使用拼音輸入法,輸入速度慢,對不認(rèn)識的漢字難以輸入,會用某種形碼的人也是靠的苦背口訣反復(fù)練習(xí),停用則忘,“形碼難學(xué)”幾成定論;擔(dān)心違反漢字規(guī)范的編碼造成負(fù)面影響也在所必然。因此目前這一技術(shù)的現(xiàn)狀可以概括為“初步解決了漢字進入計算機的難題”,但“在令人欣喜的同時,我們還應(yīng)清醒地認(rèn)識到如錢偉長教授指出的‘理想的輸入方法還沒有實現(xiàn)’這樣的現(xiàn)實?!?見《漢語語言文字信息處理》,陳原主編,上海教育出版社1997年12月出版)這種狀況對我國普及信息技術(shù)、提高社會文化水平和工作效率都是非常不利的。為了尋求更好的鍵盤輸入法,人們努力探求,從未停止。去年推出的“二筆輸入法”便是一種新的音形碼,但由于多了一個拆取筆劃配對編碼的過程,比直接按部件編碼要慢,而且輸入不認(rèn)識的漢字比較麻煩。人們期待著向易學(xué)、高效、規(guī)范方向發(fā)展的形碼研究能有新的進展。4.解決漢字查字典難問題在四角號碼之后未有進展?jié)h字檢索不便問題是非拼音文字的固有缺點,在字典上查一個不認(rèn)識的漢字可能要比查一個英文單字多用幾倍的時間,增加了學(xué)習(xí)漢字的困難,以至于“秀才認(rèn)字讀半邊”,妨礙了國人使用漢字水平的提高。這種狀況對中華文化的發(fā)展和傳播很不利。其他需要給漢字排序檢索的地方都不方便,效率不高。改善這一狀況的努力始終未有結(jié)果,甚至連討論多年的統(tǒng)一部首也不能實現(xiàn)。應(yīng)該看到,在東西文化交融的時代,按字型給漢字編碼,借助編碼的碼元為漢字排序,是解決漢字檢索難的好辦法。使用四角號碼檢字法有時便可以達到準(zhǔn)確迅速的目的。然而四角號碼加取第五碼之后在一些區(qū)域仍有很多重碼,且取碼難點不少,難以推廣使用(見《現(xiàn)代漢字學(xué)綱要》,蘇培成著,北京大學(xué)出版社,1994)。近年來為漢字進入計算機不斷推出各種編碼,解決漢字檢索難的問題獲得了新的契機,然而現(xiàn)有的編碼由于遠離人們的文字習(xí)慣,不能與原有的檢字法接軌,難以用來編排字典。例如,碼元集由字母、數(shù)字、標(biāo)點符號混合組成的編碼,漢字被過度拆分或采用無理表達導(dǎo)致脫離漢字字型特征的編碼,或者需要進行復(fù)雜的漢字分類、使用繁雜的拆分取碼規(guī)則因而識字階段的學(xué)生難以學(xué)會的編碼,以及有違漢字規(guī)范的編碼,都不適用于漢字檢索。四角號碼之后,尚未有新的按編碼排序的字典得到稍具規(guī)模的使用。
5.發(fā)明金翼碼的目的發(fā)明一種好的形碼具有特殊重要的意義,因為(1)只有形碼不依賴每個漢字的讀音只按照漢字字型和筆順進行編碼,學(xué)會之后可以迅速輸入相應(yīng)字庫中的任何一個漢字??紤]到國內(nèi)文化事業(yè)的全面發(fā)展和漢字走向世界后使用范圍的擴大,ISO10646.1國際漢字標(biāo)準(zhǔn)和與其對應(yīng)的GB13000.1字符集(大字庫)的制訂,只有形碼才能在鍵盤輸入中滿足這一形勢的需要。
(2)按漢字部件編制的形碼與漢字最貼近,熟悉漢字者在編碼時只要眼睛“閃電式的一瞥”(鄭易里先生語)便可識別部件,編碼速度快,加之可以做到重碼極少,能達到最高的輸入效率。
(3)如部件選擇適當(dāng)表達有據(jù),編碼法簡單易學(xué)符合規(guī)范,利用形碼給漢字排序編字典可與部首檢字法比照銜接,既可以解決查字典難問題,又可使信息技術(shù)學(xué)習(xí)和語文學(xué)習(xí)互相溶合銜接,相輔相成,事半功倍。
按照這一思路設(shè)計的金翼碼不僅提供了漢字輸入和漢字檢索用的形碼,也提供了一個最佳的學(xué)習(xí)途徑小學(xué)生先學(xué)會使用金翼碼檢字法字典,在語文學(xué)習(xí)中受益;而后自然過渡到計算機漢字輸入,可以熟練掌握,運用自如。此后在學(xué)習(xí)古文、學(xué)習(xí)專業(yè)和社會工作中當(dāng)GB2312基本集漢字不敷需要時,又可用同一編碼法輸入GB13000.1字庫中的繁體字、港臺地區(qū)和日、韓漢字。一份投入,兩份收獲,終生受益。
無疑的,金翼碼適合各種文化程度的人學(xué)習(xí)使用,可以滿足社會各界人士的需要。6.金翼碼的技術(shù)方案(1)適用的漢字集金翼碼適用于GB2312-80基本集漢字,也適用于GB13000.1字符集。對常用漢字要求重碼少以實現(xiàn)高效輸入,現(xiàn)在達到的是在基本集漢字加7000多條常用詞組組成的首選字詞庫中重碼率6%,其中一級漢字的重碼率也是6%。GB13000.1中去除基本集漢字后的部份可以稱為擴展?jié)h字,組成擴展字庫。對擴展?jié)h字要求沒有輸入困難,每組重碼字字?jǐn)?shù)小于10,不需翻頁尋找。兩個字庫呈梯隊式銜接,當(dāng)首選字庫不敷需要時轉(zhuǎn)入擴展字庫。這樣的設(shè)計保證了在漢字大字庫中輸入基本集漢字的高效性。
根據(jù)清華大學(xué)的統(tǒng)計,86王碼的字庫重碼率為7.4%。金翼碼的重碼率屬于鍵盤輸入法中最低者之一。
(2)碼元集和最大碼長為了操作迅速并適用于漢字檢索,只用26個拉丁字母為碼元。最大碼長為四碼,不用五碼,以利于高效輸入。
(3)編碼規(guī)則對組合字只有一條編碼規(guī)則依照筆順按有大不取小的規(guī)定取前三后一四碼。
與鄭碼不同,金翼碼對雙碼字元的取碼不另作規(guī)定,按照前三后一的規(guī)定自然取碼。如雙碼字元禾-HM,在以下三個字中禾的取碼分別為HM、H、M萎-CHMN,矮-SDHN,榛-MSRM,(艸-C,女-N,矢-SD,木-M,秦-SRHM)不須用公式去規(guī)定,不必特殊記憶。
單碼成字字元作為漢字輸入時,只補首筆筆劃和末筆筆劃,如木=MHN。
雙碼成字字元作為漢字輸入時,不另補碼,非常方便。
(4)編碼部件集主要有以下幾部份A.獨體字和語委推薦的201個字典部首中的大部份
凹巴八貝本卑鼻匕必秉卜不才長車冊臣辰尺赤齒丑出川串垂寸大刀丹丁東電典豆兒二耳戔方豐凡甫夫非弗發(fā)缶工弓干瓜戈革甘果廣鬼骨更艮火回乎一戶禾黃黑衣亦弋尹已夷金斤井見及甲巾柬九夾臼口開了立力鹿兩來耒里龍幺木皿母民馬門目毛末麻矛女鳥廿農(nóng)牛年乃內(nèi)平皮片爿彳犬七千丘且僉求其氣曲欠齊人冉刃入日曰隹上三山卅十石世士氏豕矢示食尸水書束鼠肅手身申厶土田天屯凸月元羽聿禺禹魚雨于臾王文萬瓦韋毋烏兀丸五無未午為戊心小辛夕西熏言又尢業(yè)曳也酉由牙央竹子州之中爪止丈乙兆舟重乍豸專勹疒艸匚屮髟刂冫阝卩彐囗宀冖巛灬虍衤廴殳钅纟冂丶丨丿彡犭亻饣礻氵廾扌肀凵夂攵忄X亠讠辶B.折筆把折筆分成三類,有利于充分反映形狀特征,用同形對應(yīng)法表達,形象易記,也利于減少重碼L形折筆用L表示ㄑㄥ S形折筆用S表示ㄅㄋZ形折筆用Z表示 C.與拉丁字母(大寫)形狀相同或非常相象的非成字部件,見(5)。D.少數(shù)非部首合體字爾堯用與成離E.少數(shù)表音非成字部件如-Q(青=QU),-Z(占=ZK)等。
以上部件屬于GB3212漢字,是第一批。第二批是少數(shù),用于擴展?jié)h字時補充進去,如等,可先不學(xué)。(5)部件表達技術(shù)A.對成字部件和有慣用名稱的字典部首用拼音首碼整體表達法。如丿-P,艸-C,辶-Z,木-M,女-N,土-T,火-H,言讠-Y,成-CG(右部為戈),柬-JX(下部為小),重-ZT(下部為土)。B.對非成字部件用碼元同形對應(yīng)法。マ-A, -B,匚-C,-D,彐-E, -F, -G, -H, -K,纟-L,冂-M, -P, -Q, ㄅ-S,ㄒ-T,凵-U,厶-V,X-X,ㄐ-Y,乙 -Z。以上兩例結(jié)合產(chǎn)生了下列編碼董-CZT,追-PBZ,煉-HJX,嫗-NCX,誠-YCG。
在王碼中將董字拆分為艸丿一曰土,追字拆分為亻 辶,煉字拆分為火七乙八。原本非常熟悉的重字不見了,在官字中非常醒目的 也不見了,卻冒出了單人旁亻。柬字的簡化偏旁拆出了七和乙,更加遠離柬字。
再將成、城兩字的編碼作一比較金翼碼成字為雙碼字元 成=CG, 城=TCG;王碼拆成字為廠乙L丿,成=DNNT,城=FDNT;表形碼拆為 戈丿乙, 成=SJZ, 城=Y(jié)SJZ;鄭碼拆為戈丿乙, 成=HMY, 城=BHV。
對比之下不難看出,運用拼音首碼整體表達法免除了困難的拆分,利用部件的音形特征——學(xué)習(xí)者最熟悉的漢字知識和漢語拼音知識(最簡單部份)編碼,表達簡捷有據(jù),不僅最容易學(xué)習(xí)記憶,而且可以從編碼看出漢字由部件組成的情況。李=MZ,木子李;陳=ED,耳東陳;吳=KT,口天吳;譚=Y(jié)XIS,言西早譚;金翼碼使用的是人們最熟知的漢字結(jié)構(gòu)表達法。而過度拆分的編碼法使用戶遠離了原本熟悉的漢字知識背景,加之表達方法的無理性,所以只能機械地記憶生疏的拆分規(guī)則和一串串作為輸入工具的符號。
金翼碼選用了大多數(shù)的獨體字作編碼部件,結(jié)構(gòu)復(fù)雜的如重垂秉熏黑肅年缶曲酉丑甘艮母禹禺臣成等字,以及制敝典等字,都不需要拆分,同時也避免了從且字中拆出月,從丘字中拆出斤這種不合文字習(xí)慣的作法。
金翼碼的同形對應(yīng)和表形碼的表形不同。表形碼的碼元表達的不是部件的形狀,而是靠語言表述的一類部件的結(jié)構(gòu)特征,如用F表達的一類叫作“直式多交叉部件”,包括中豐韋申聿串事扌 等。這些部件與F的形狀差異很大,而同形對應(yīng)則是非成字部件和碼元形狀相同或近似,可以直接由部件形狀對應(yīng)到碼元,符合認(rèn)知心理。(6)詞組輸入根據(jù)《現(xiàn)代漢語頻率詞典》(北京語言學(xué)院編)對16000個詞匯的統(tǒng)計(包括單字詞)使用頻率最高的前1677個詞條復(fù)蓋率為80%,使用頻率最高的前3000個詞條復(fù)蓋率為86.8%,使用頻率最高的前4150個詞條復(fù)蓋率為90%,使用頻率最高的前5000個詞條復(fù)蓋率為91.67%,使用頻率最高的前8000個詞條復(fù)蓋率為95.12%。
金翼碼在GB2312字庫中加入七千多條詞組,以常用書面用語兩字詞為主,保證高效輸入。編碼規(guī)則是兩字詞[第一字首碼][第一字末碼][第二字首碼][第二字末碼]三字詞[第一字首碼][第二字首碼][第三字首碼][第三字末碼]四字詞[第一字首碼][第二字首碼][第三字首碼][第四字首碼]多字詞[第一字首碼][第二字首碼][第三字首碼][最末字首碼]例如現(xiàn)代-WJRI現(xiàn)代化-WRRB現(xiàn)代企業(yè)制度-WRRG(7)一碼和兩碼資源的使用漢字的使用頻率差別很大,“現(xiàn)代漢語通用字?jǐn)?shù)據(jù)統(tǒng)計表”中“使用度”數(shù)據(jù)舉例如下(見《現(xiàn)代漢語通用字表》,國家語委編)的=405501,在=100599,以=49000, 及=10065,準(zhǔn)=5086, 肯=1006,灌=501, 侮=103,蝦=56,槌=10,擯=6, 營=1。
可見讓高頻字成為無重碼的一碼或兩碼,可以明顯提高輸入速度。一碼字位26個,兩碼字位676個,應(yīng)該充份利用。
金翼碼規(guī)定,由兩個碼元組成的雙碼字要補加字元的兩個末筆碼,如巡-GZLN,其中LN是補充的L丶兩個末筆碼。這樣可以減少重碼,也可以有計劃的按排兩碼字元。在使用頻率最高的前50個漢字中選擇26個單碼字他不出大說 國工一是的和了在為個 我就人上地有以這 要用中其中除了“他的在就”四字之外都有記憶依據(jù)。其他高頻字大多數(shù)是兩碼字,有記憶依據(jù),如兩碼字元成于發(fā)里來力長電兩本年制重正;兩碼組合字,不加補碼時生對分可主過產(chǎn)進如化現(xiàn)當(dāng)去好;縮碼們到也能學(xué)面法部高;首尾碼(與兩字詞中相同)作會同子下動而方種得行經(jīng)都小自度還體開業(yè)。
兩碼字位還可以用來按排重碼字中的常用者,如另叻重碼,另=KL;貪頷重碼,貪=RN;部競重碼,部=LK,競=LE;因此在實際使用中常用字的重碼可以大為減少。
兩碼字中還有二三四五六七八九十百千萬億兆整,月日,多少,內(nèi)外,比更最,及與因則再被,張王李劉吳孫朱周等諸多高頻字,追求輸入速度的人士可以如愿以償。7.金翼碼的規(guī)范性金翼碼所用規(guī)范除了兩個字庫之外還有獨體字的劃分按《信息處理用GB-13000.1字符集漢字部件規(guī)范》,國家語委發(fā)布,1997.12;201部首按《漢字統(tǒng)一部首表(草案)》,見《語言文字規(guī)范手冊》,語文出版社,1993;漢字筆順按《現(xiàn)代漢語通用字筆順規(guī)范》,國家語委編,1997。8.金翼碼檢字法金翼碼檢字法——按金翼碼排序的漢字字典,其目錄(部件表)具有如下形式(C組)C-艸廠寸匚垂川出屮CC-蟲CE-丑
CG-成CH-冊CK-辰CL-臣CN-尺CP-髟才CS-車CU-齒CV-镸長可以從中找到部首檢字法中的艸部、廠部、匚部、屮部、蟲部、辰部、髟部、車部、齒部等等。寸字位子字尾,還有心、刂、攵、灬、辶等都在字尾,必要時也可列出尾碼部首的對照表。
字典形式,漢字前為金翼碼,漢字后為漢語拼音(和解釋)|CB 萆biCBB 芘piCBBS 蓽biCBD 廁ce|CCS 厙sheCCSG 蝻nanCCSK 蜘zhiCCSK 蛄gu|CSB 質(zhì)zhiCSCE 軛eCSD 醫(yī)yiCSDK 軺yao|CUB 齔chenCUBL 齙paoCUDK 齠tiao|在金翼碼排序的字典中,位于左側(cè)和上側(cè)的同一部首的字靠近排列,雙碼部首的字更易集中。由于漢字沒有過度拆分,部件完整,表達有音形可依,編碼可以反映出漢字由部件構(gòu)成的情況,比四角號字典更接近部首檢字的習(xí)慣。一個漢字,前有由拉丁字母組成的形碼表達字形屬性,后有拉丁字母組成的漢語拼音表示讀音,使?jié)h字在音、形信息的表達方面都具備科學(xué)性,適合現(xiàn)代社會的需要,對漢字走向世界也極其有利。
用部首檢字法查字,有時難以確定部首。如以下兩字疑現(xiàn)代漢語辭典——矢部,辭海——匕部,康熙字典——疋部;孰現(xiàn)代漢語辭典——亠部,辭海——丸部,康熙字典——子部。
查字典難的實質(zhì)是部首檢字法的不確定性以及要數(shù)出部首筆劃數(shù)和剩余筆劃數(shù)兩次檢索。用《金翼碼檢字法》就完全沒有這些問題,查漢字的速度要比用部首檢字法或筆劃法快很多,可以超過查英文單字的速度。這本字典也是學(xué)習(xí)金翼碼的工具。8.推廣使用金翼碼的意義(1)提高語文學(xué)習(xí)效率和信息技術(shù)學(xué)習(xí)效率,有利于漢字書寫規(guī)范化;(2)提高使用漢字的計算機用戶的工作效率,提高網(wǎng)絡(luò)使用和運行效率;(3)繁簡通用,在使用大字庫時也能保證輸入基本集漢字的高效性,有利于中華文化的繼承和發(fā)展以及漢字走向世界;(4)廣泛使用金翼碼有利于提高全社會的漢字應(yīng)用水平,并可給圖書編目、電話簿編排等需要大量編目檢索之處提供新的手段。推廣一種科學(xué)高效的漢字檢索法將對社會文化的發(fā)展傳播產(chǎn)生深遠的影響。
權(quán)利要求
漢字免拆分快速輸入法是一種漢字形碼輸入法,可按照漢字字形用26個拉丁字母為漢字編碼,每字最多四碼,用于設(shè)計計算機漢字輸入軟件以及為漢字排序編漢字字典和詞典。本發(fā)明的技術(shù)特征是1.運用拼音首碼整體表達法來表達獨體字和字典部首,避開了違背漢字結(jié)構(gòu)規(guī)律的過度折分,摒除了需要依賴口訣記憶的無理表達,易學(xué)易記,符合漢字規(guī)范。
2.用部件與碼元同形對應(yīng)來表達非成字部件,符合認(rèn)知規(guī)律,簡捷易記。
3.漢字的拆分取碼規(guī)則只有一條依照筆順按有大不取小的規(guī)定編碼。
4.國家語委推薦的201個字典部首的82%選為編碼部件并且有恰當(dāng)?shù)谋磉_,用本發(fā)明給漢字排序編字典可與部首檢字法比照銜接,不僅能解決查字典難的問題,又可使信息技術(shù)學(xué)習(xí)和語文學(xué)習(xí)相融合,收事半功倍之效。
5.用于對GB2312-80基本集漢字和7000多常用詞組編碼,字庫重碼率6%,低于五筆字型的7.4%;合理利用兩碼資源,數(shù)百個高頻字編為無重碼的兩碼,記憶有據(jù),輸入效率極高。
6.由于盡量設(shè)置簡體字和繁體字同碼部件,本發(fā)明也適用于GB13000.1字符集,可以輸入繁體字和日、韓及港、臺地區(qū)漢字。
7.符合國家語委制訂的各種漢字規(guī)范。
全文摘要
本發(fā)明屬于漢字信息處理技術(shù)和現(xiàn)代漢字應(yīng)用研究領(lǐng)域,可以解決漢字檢索不便和形碼難學(xué)兩個問題。特點是用拼音首碼整體表達獨體字,拆分不再難,不需背口訣;使用雙碼部件仍只需按前三后一規(guī)則取碼;高效輸入GB2312漢字重碼率僅6%,又可輸入繁體字;具有易學(xué)高效規(guī)范繁簡通用的特點。部首的82%取為編碼部件且表達恰當(dāng),金翼碼檢字法可與部首檢字法比照銜接,不僅解決查字典難問題,又使信息技術(shù)學(xué)習(xí)和語文學(xué)習(xí)相溶合,相輔相成。
文檔編號G06F3/023GK1366227SQ0110522
公開日2002年8月28日 申請日期2001年1月16日 優(yōu)先權(quán)日2001年1月16日
發(fā)明者敬永權(quán) 申請人:敬永權(quán)