專利名稱:計算機(jī)中文信息編碼輸入法的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及的是向計算機(jī)系統(tǒng)輸入中文信息的編碼方法,尤其涉及的是以計算機(jī)鍵盤為輸入媒介的中文信息編碼輸入法。
漢字信息輸入方法的種類非常多,歸納起來有以下幾大類1、形碼輸入法,以專職人員常用的五筆字型漢字編碼法最為典型,這種方法經(jīng)過一定時間的專業(yè)培訓(xùn),其輸入速度較快,但其不足是①拆分字根和拆分原則、鍵盤分布規(guī)則較為特殊,記憶量大,不規(guī)律方法較多,遺忘率較高,必須重復(fù)強(qiáng)化記憶、使用才會維持高輸入速度;②該輸入法是以單個漢字輸入為主,不僅不符合人們的語言表達(dá)習(xí)慣和思維方式,而且其字型拆分方法與現(xiàn)行國家語言文字方面的規(guī)范標(biāo)準(zhǔn)、現(xiàn)行中小學(xué)語文教學(xué)方案存在較大差異,難以更廣泛地推廣應(yīng)用,而主要成為專職人員的輸入法;③存在大量重碼,本輸入法的編碼碼串基本以四個碼元為限,導(dǎo)致特別是收錄大量常用詞條的高版本重碼率的積聚增加,成為實現(xiàn)盲打和高速錄入的嚴(yán)重障礙。2、音碼輸入法,以雙音輸入法最為典型,這種方法是以漢語拼音為模板進(jìn)行編碼的,易于學(xué)習(xí),適于非專業(yè)錄入人員使用,但其不足是①由于漢字的同音字和同音雙音詞很多,造成大量重碼,尤其對于全拼全音碼串以較長,因而嚴(yán)重影響了音碼漢字輸入法的輸入效率;②對不會讀的字無法輸入,除非變換其他漢字輸入法;③以音托的方式定義鍵盤鍵位,缺少規(guī)律性,尤其對于雙拼雙音韻母安排更雜亂、缺少規(guī)律性。3、音形碼輸入法,以“四筆聲形”碼為例,其編排規(guī)則是“本、首、末、次”的四碼原則,其中本碼為本字的聲母,首、末、次碼分別為首部件代碼、末部件代碼和次部件代碼,其部件拆分法與五筆字型拆分方法類同,如“扒”其編碼為B(本碼)、F(扌首碼)、B(八末碼)、N(次碼),“抽”其編碼為U(ch本碼)、F(扌首碼)、Y(由末碼)、T(土次碼),同樣存在部件零散、包含大量無規(guī)律性和規(guī)則、以音托方式定義鍵盤鍵位、排列無規(guī)律的弊端。綜上所述,現(xiàn)有的各種漢字輸入法普遍存在鍵盤鍵位定義、漢字編碼方法不符合語言學(xué)習(xí)規(guī)范的弱點(diǎn),限制了各編碼方法的廣泛使用;為縮短碼串采取封閉式編碼方法、并由于本身基于的編碼原理,造成大量重碼的出現(xiàn),妨礙了以詞或詞組為主的方式進(jìn)行錄入,不符合人們的思維方式和語言表達(dá)習(xí)慣,影響了輸入效率。因此,現(xiàn)有的各種計算機(jī)漢字編碼輸入技術(shù)方案并非理想。
本發(fā)明的目的是提供一種用標(biāo)準(zhǔn)鍵盤為輸入媒介、向計算機(jī)輸入中文信息的輸入法,尤其提供一種以音碼輸入法為基礎(chǔ)、結(jié)合漢字字形、簡單易學(xué)、消除重碼、能夠以詞或詞組為主要錄入單位的中文信息輸入編碼方法。
本發(fā)明的計算機(jī)中文信息編碼輸入法的技術(shù)構(gòu)成方案是,其編碼規(guī)則為它所組成的與中文信息對應(yīng)的碼串是由分別代表漢字部首和字余的聲母和韻母的碼元依次順序連接組成,其所使用的鍵盤定義為A-iao B-zh/u C-sh/uaiD-h/ian E-m/an F-k/ia G-g/i H-j/ie I--n/en J--q/in K-x/ing L-iong M-c/uen N--z/uei O-l/eng P-ou/erQ-ao R-p/ai S-iang T-b/a U-t/ei V-ch/ua W-f/angX-r/uan Y-d/e Z-uang;-iou’-üe [-ü]--üan,--s/ueng/ong。-o/uo/-ün。
在上述技術(shù)方案中,其編碼規(guī)則所組成的與漢字信息對應(yīng)的碼串是由分別代表漢字聲母和韻母及作為同音詞區(qū)分碼的漢字部首或其字余的聲母或韻母的碼元依次順序連接組成。
本發(fā)明的其中一些部首選擇及對應(yīng)的漢語拼音對照表如下一 畫 八b-a 辶 zh-i 四 畫七 畫丶d-ian 人r-en工g-ong灬h-ou展ch-en一h-eng 入r-u 土t-u
sh-i豕sh-i丨 sh-u 亻r-en士sh-i 攴p-o 豸sh-i丿p-ie勹b-ao艸c-ao 攵 wen谷g-u乙zh-e兒er 大d-a 殳sh-uzh-e幾j-i 廾n-ong肀yu 八 畫zh-e厶s-i 尢 you 聿yuzh-e又you 寸c-un 爿p-an雨yuzh-e廴 j-ian 弋yi 黽m-inzh-e卩 d-an扌t-i 五 畫 隹zh-ui阝er 口wei二 畫 凵 sh-an 彳ch-i疒b-ing九 畫亠wen 刀d-ao彡s-an衤yi冫l-iang 力l-i 夕x-i 钅j-in 音yin冖p-ing 夂d-ong 疋p-i 鬼g-ui讠 yan三 畫 犭q-uan二er 饣sh-i六 畫十一畫十shi 氵d-ian
x-un廠ch-ang 忄x-in
ch-u耒l-ei 麻m-a匚q=u宀g-ai 幺yaoh-u卜b-u 丬zh-uang 孑z-i 缶f-ou十二畫刂d-ao 廣g-uang 纟s-i 艮g-en冂t-ong門m-en 巛 ch-uan糸m-i 黑h-ei本發(fā)明所設(shè)計的計算機(jī)中文信息輸入編碼方案其優(yōu)點(diǎn)是①雖然是以《漢語拼音方案》為編碼基礎(chǔ),但是由于結(jié)合了依據(jù)《現(xiàn)代漢語詞典》部首劃分規(guī)則的字根拆分方式,并賦予固定讀音,使本輸入法不僅能夠錄入不知其讀音的中文信息,而且這種字根拆分方式完全摒棄了現(xiàn)有備輸入法存在的漢字拆分零散和缺少規(guī)律性的弊病,使其符合現(xiàn)代漢語的規(guī)范要求,實現(xiàn)與現(xiàn)有漢語的完全兼容。②本發(fā)明技術(shù)是以重新定義的鍵盤鍵位為輸入媒介的,這種鍵盤定義是分別以漢語拼音聲母、韻母原有順序進(jìn)行定義的,鍵盤由中間向兩側(cè)其聲母定義包括左手第一行鍵位分別為b、p、m、f,右手為d、t、n、l,第二行鍵位左手為g、k、h,右手為j、q、x,第三行鍵位左手為zh、ch、sh、r,右手為z、c、s,其韻母定義以第一行字母鍵位左手為例,其排列為a、ai、an、ang、ao,可以看出該鍵盤定義與拼音規(guī)律相統(tǒng)一,使該輸入法更符合國家語言文字的教育程序規(guī)范,易于記憶、使用,這就使計算機(jī)不僅適合成人,而且還能成為中小學(xué)生語言學(xué)習(xí)過程中的輔助工具。③由本發(fā)明技術(shù)方案可知,本中文信息編碼輸入法采用的是樹狀開放編碼方式,不僅適合、還能夠最大限限度地收錄常用詞、習(xí)慣用語、成語等大量詞匯,使目前以字為主的輸入方法改變?yōu)橐栽~或詞組為主的錄入方式,字輸入成為其一輔助輸入手段。另外,由于將記錄詞或詞組的漢字的部首或字余作為同音字或同音詞的區(qū)分碼,從而根本消除了重碼,使原有繁瑣的手動翻動、按動數(shù)字鍵、眼睛搜尋選擇方式變成人腦的自然選擇,使計算機(jī)中文信息錄入更符合人們思維方式和語言表達(dá)習(xí)慣,能夠?qū)崿F(xiàn)快速輸入和盲打、想打、聽打。④本編碼輸入技術(shù)與目前最先進(jìn)的WINDOWS′95輸入法管理器相掛運(yùn)行后能夠充分發(fā)揮本輸入法的特長,這是由于該輸入法管理器采用動態(tài)掃描選擇錄入方式,人機(jī)界面友好、直觀,以該輸入法管理器作為本發(fā)明這種開放式輸入編碼技術(shù)的運(yùn)行環(huán)境,在許多情況下無須輸入全部碼串即可錄入整個詞或詞組,可使每個字的動態(tài)平均碼長為2鍵左右,錄入方式更加快捷。由上所述,本中文信息編碼輸入技術(shù)是以現(xiàn)代漢語拼音和標(biāo)準(zhǔn)部首為基礎(chǔ)原理設(shè)計而成的編碼技術(shù)方案和鍵盤定義方式,符合現(xiàn)代漢語規(guī)范標(biāo)準(zhǔn)和人們思維方式及語言表達(dá)習(xí)慣,使本輸入法易于掌握和學(xué)習(xí),拓寬了它的應(yīng)用范圍。
下面將對本發(fā)明的中文信息編碼輸入法方案進(jìn)行詳細(xì)說明。
附圖
為本發(fā)明中文信息輸入編碼技術(shù)所使用的鍵盤定義圖。
本發(fā)明將中文信息分為會讀音和不會讀音漢字兩類一、不會讀音的漢字信息的編碼方法1、對于單音詞編碼=①(字)部首聲+(字)部首韻+(字)字余聲+(字)字余韻②(字)部首聲+(字)部首韻+(字)字余聲+(字)字余韻+(字)字余某一部分聲/韻;如,“绱”的編碼為,(s)g(i)c (sh)w(ang)/(與會讀音詞編碼的區(qū)分碼),則總的編碼為“,gcw/”;“雹”的編碼為1(零聲母)[(u)t(b)q(ao)/(與會讀音詞編碼的區(qū)分碼),則總的編碼為“l(fā)[tq/”。
2、對于雙音以上詞或詞組雙音以上及下面的“3、”所述的五音或五音以上的詞或詞組中當(dāng)包含有不會讀音的字時,其編碼規(guī)則是以代表該字部首或字余的聲母或韻母的碼元及與其余會讀漢字的代表其聲母或韻母的碼元共同依詞或詞組順序連接組成其編碼碼串,即編碼=(字N)部首聲/韻+(字N)字余聲/韻+(會讀音字)編碼如,“绱鞋”的編碼為,(s)c(sh)k(x)h(ie)l(避免重碼鍵),則總的編碼為“,ckhl”;“三宥”的編碼為,(s)e(an)g(g);(iou)l(避免重碼鍵),則總的編碼為“,eg;l”。
3、對于五音或五音以上詞或詞組編碼=(字N)部首聲/韻+(會讀音字)編碼二、會讀音的漢字信息的編碼1、對于單音詞編碼=①(字)聲②(字)韻③(字)聲+(字)韻④(字)聲+(字)韻+(字)部首聲/韻⑤(字)聲+(字)韻+(字)部首聲/韻+(字)字余聲/韻⑥(字)聲+(字)韻+(字)部首聲/韻+(字)字余聲/韻+(字)字余部首聲/韻⑦(字)聲+(字)韻+(字)部首聲/韻+(字)字余聲/韻+(字)字余部首聲/韻+(字)字余字余聲/韻2、對于雙音詞或詞組編碼=①(字1)聲+(字1)韻+(字2)聲+(字2)韻②(字1)聲+(字1)韻+(字2)聲+(字2)韻+(字1)部首聲/韻
③(字1)聲+(字1)韻+(字2)聲+(字2)韻+(字1)部首聲/韻+(字2)部首聲/韻④(字1)聲+(字1)韻+(字2)聲+(字2)韻+(字1)部首聲/韻+(字2)部首聲/韻+(字2)字余聲/韻如,“一直”的編碼為l(零聲母鍵)g(i)b(zh)g(i);“一致”的編碼為l (零聲母鍵)g(i)b(zh)g(i)m(uen);“醫(yī)治”的編碼為l(零聲母鍵)g(i)b (zh)g(i)j(q);“意志”的編碼為l(零聲母鍵)g(i)b(zh)g(i)o(l);由于“意”為雙部首字,所以其另一編碼為l(零聲母健)g(i)b(zh)g(i)k(x)。
“抑制”的編碼為l(零聲母鍵)g(i)b(zh)g(i)u(t);3、對于三音詞或詞組編碼=①(字1)聲+(字1)韻+(字2)聲+(字2)韻+(字3)聲+(字3)韻②(字1)聲+(字1)韻+(字2)聲+(字2)韻+(字3)聲+(字3)韻+(字N)部首聲/韻如,“看一下”的編碼為f(k)e(an)l(零聲母)g(i)k(x)f(ia)“砍一下”的編碼為f(k)e(an)l(零聲母)g(i)k(x)f(ia)c(sh)“刊一下”的編碼為f(k)e(an)l(零聲母)g(i)k(x)f(ia)y(d)“一本書”的編碼為l(零聲母)g(i)t(b)i(en)c(sh)b(u)“一朵花”的編碼為l(零聲母)g(i)y(d)。(uo)d(h)v(ua)4、對于四音詞或詞組編碼=①(字1)聲+(字1)韻+(字2)聲+(字2)韻+(字3)聲+(字3)韻+(字4)聲+(字4)韻②(字1)聲+(字1)韻+(字2)聲+(字2)韻+(字3)聲+(字3)韻+(字4)聲+(字4)韻+(字N)部首聲/韻如,“聳入云霄”的編碼為,(s),(ong)x(r)b(u)l(零聲母)/(un)k(x)a(iao)“送貨上門”的編碼為,(s),(ong)d(h)。(uo)c(sh)w(ang)e(m)i(en)。
5、對于五音以上的詞或詞組編碼=(字1)聲/韻+(字2)聲/韻+(字3)聲/韻+…+(字N)聲/韻如“訴訟代理人”的編碼方法為,(s),(s)y (d)o(l)x(r),則總的編碼為“,,yox”。
本編碼中,對于雙音詞以上的詞或詞組,若第二詞的第一字與第一詞的第一字不同,則取第二詞的第一字部首聲母或韻母所代表的碼元作為區(qū)分碼;若第二詞的第一字與第一詞的第一字相同而第二字不同,則取第二詞的第二字部首的聲母或韻母所代表的碼元作為區(qū)分碼。以此類推,作為同音詞或詞組的區(qū)分碼的選取規(guī)則是以第二詞或詞組與第一詞或詞組的不同的第一字取代表其部首的聲母或韻母的碼元作為區(qū)分碼。
由上所舉實例可以看出,本中文信息編碼輸入法的詞定義是相當(dāng)廣泛的,遠(yuǎn)遠(yuǎn)超過了現(xiàn)有的各種編碼輸入方案,因此形成了以詞或詞組為主的輸入方法,如下面一段文字就是作如下詞組劃分進(jìn)行編碼輸入的“他是一個心臟病患者,患病前他住在國外。患病后的一些日子,他一直感覺不好。他的心臟上長有一個腫瘤。他打算回國治療?!痹谏鲜黾夹g(shù)方案中,為防止不會讀音的中文信息編碼與會讀音的中文信息編碼產(chǎn)生同碼,即防止出現(xiàn)重碼,本技術(shù)方案中采用了不會作為部首聲母出現(xiàn)的鍵位“/”作為兩種編碼方式的末尾區(qū)分碼,還用雖可用部首聲母但其出現(xiàn)頻率極低的鍵位“l(fā)”作為含有不會讀音字的單音詞與雙音詞或詞組之間的末尾區(qū)分碼。
權(quán)利要求
1.一種計算機(jī)中文信息編碼輸入法,其編碼規(guī)則為它所組成的與中文信息對應(yīng)的碼串是由分別代表漢字部首和字余的聲母和韻母的碼元依次順序連接組成,其所使用的鍵盤定義為A-iao B-zh/u C-sh/uai D-h/ian E--m/an F-k/ia G-g/i H-j/ie I-n/en J-q/in K-x/ing L-iong M-c/uen N-z/uei O-l/eng P-ou/er Q-ao R-p/aiS-iang T-b/a U-t/ei V-ch/ua W-f/ang X-r/uan Y-d/eZ-uang;-iou’-üe[-ü]-üan,-s/ueng/ong。-o/uo/-ün。
2.根據(jù)權(quán)利要求1所述的計算機(jī)中文信息編碼輸入法,其特征在于中文信息編碼碼串為(1)、對于單音詞編碼=①(字)部首聲+(字)部首韻+(字)字余聲+(字)字余韻②(字)部首聲+(字)部首韻+(字)字余聲+(字)字余韻+(字)字余某一部分聲/韻;(2)、對于雙音以上詞或詞組編碼=(字N)部首聲/韻+(字N)字余聲/韻(3)、對于五音或五音以上詞或詞組編碼=(字N)部首聲/韻。
3.根據(jù)權(quán)利要求1所述的計算機(jī)中文信息編碼輸入法,其特征在于其編碼規(guī)則為組成與中文信息對應(yīng)的碼串是由分別代表漢字聲母和韻母及作為同音詞區(qū)分碼的漢字部首或其字余的聲母或韻母的碼元依次順序連接組成。
4.根據(jù)權(quán)利要求3所述的計算機(jī)中文信息編碼輸入法,其特征在于其中文信息編碼碼串為(1)、對于單音詞編碼=①(字)聲+(字)韻+(字)部首聲/韻②(字)聲+(字)韻+(字)部首聲/韻+(字)字余聲/韻③(字)聲+(字)韻+(字)部首聲/韻+(字)字余聲/韻+(字)字余部首聲/韻④(字)聲+(字)韻+(字)部首聲/韻+(字)字余聲/韻+(字)字余部首聲/韻+(字)字余字余聲/韻(2)、對于雙音詞或詞組編碼=①(字1)聲+(字1)韻+(字2)聲+(字2)韻+(字1)部首聲/韻②(字1)聲+(字1)韻+(字2)聲+(字2)韻+(字1)部首聲/韻+(字2)部首聲/韻③(字1)聲+(字1)韻+(字2)聲+(字2)韻+(字1)部首聲/韻+(字2)部首聲/韻+(字2)字余聲/韻(3)、對于三音詞或詞組編碼=(字1)聲+(字1)韻+(字2)聲+(字2)韻+(字3)聲+(字3)韻+(字N)部首聲/韻(4)、對于四音詞或詞組編碼=(字1)聲+(字1)韻+(字2)聲+(字2)韻+(字3)聲+(字3)韻+(字4)聲+(字4)韻+(字N)部首聲/韻(5)、對于五音以上的詞或詞組編碼=(字1)聲/韻+(字2)聲/韻+(字3)聲/韻+…+(字N)聲/韻
5.根據(jù)權(quán)利要求3所述的計算機(jī)中文信息編碼輸入法, 其特征在于作為同音詞或詞組的區(qū)分碼的選取規(guī)則是以第二詞或詞組與第一詞或詞組的不同的第一字取代表其部首的聲母或韻母的碼元作為區(qū)分碼。
6.根據(jù)權(quán)利要求1、2或3所述的計算機(jī)中文信息編碼輸入法,其特征在于對于包含有不會讀音字的編碼規(guī)則為以代表該字部首或字余的聲母或韻母的碼元及與其余漢字的代表其聲母和韻母的碼元共同依詞或詞組順序連接組成其編碼碼串。
7.根據(jù)權(quán)利要求1或3所述的計算機(jī)中文信息編碼輸入法,其特征在于零聲母的碼元為“1”。
8.根據(jù)權(quán)利要求1或3所述的計算機(jī)中文信息編碼輸入法,其特征在于‘/’作為兩種編碼方法的末尾區(qū)分碼。
9.根據(jù)權(quán)利要求1或2所述的計算機(jī)中文信息編碼輸入法,其特征在于鍵位“1”作為含有不會讀音字的單音詞與雙音詞或詞組之間的末尾區(qū)分碼
全文摘要
本發(fā)明涉及的是一種以計算機(jī)鍵盤為輸入媒介的計算機(jī)中文信息編碼輸入法,其編碼技術(shù)方案是它所組成的與中文信息對應(yīng)的碼串是由分別代表漢字部首和字余的聲母和韻母的碼元依次順序連接組成。本技術(shù)的編碼輸入法符合現(xiàn)代漢語規(guī)范標(biāo)準(zhǔn)和人們思維方式及語言表達(dá)習(xí)慣,實現(xiàn)了以詞或詞組的錄入方式,無重碼,易于學(xué)習(xí)和掌握,適用范圍廣。
文檔編號G06F3/023GK1166646SQ97103598
公開日1997年12月3日 申請日期1997年5月10日 優(yōu)先權(quán)日1997年5月10日
發(fā)明者蘇永全 申請人:蘇永全