欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于漢字拆分的智能語句級漢字輸入系統(tǒng)的制作方法

文檔序號:6598504閱讀:1117來源:國知局

專利名稱::基于漢字拆分的智能語句級漢字輸入系統(tǒng)的制作方法
技術(shù)領(lǐng)域
:本發(fā)明涉及中文信息處理領(lǐng)域,特別適用于漢字鍵盤輸入、漢字手寫(筆寫、指書等)輸入、信息技術(shù)漢語(漢字)教學(xué)、信息化漢字檢索、漢語分詞、語音輸入、機(jī)器翻譯及網(wǎng)絡(luò)智能搜索等領(lǐng)域。
背景技術(shù)
:在漢字鍵盤輸入方面,諸如“優(yōu)化五筆字型”的字形輸入速度快的最大優(yōu)點(diǎn)已變得并不明顯,難學(xué)難用性也依舊,反而是拼音輸入不僅保持了易學(xué)易用的最大優(yōu)點(diǎn),在輸入速度上也大有改觀。特別是搜狗、谷歌、QQ等拼音輸入法的面世,可以說標(biāo)志著漢字輸入進(jìn)入了比較成熟的拼音語句級輸入時代,輸入速度直逼字形輸入法。但即使是在這類智能化的輸入法中,語句轉(zhuǎn)換錯誤的現(xiàn)象也常會發(fā)生,簡拼輸入時就更為明顯。其原因在于,目前自動分詞的準(zhǔn)確度尚達(dá)不到100%,全拼難以達(dá)到,簡拼就更達(dá)不到。因此它們無法根本解決語句輸入(特別是短語輸入)“回頭看”的問題,也難以縮短平均碼長。正是由于這些原因,數(shù)字鍵盤的漢字輸入效果就更不理想,速度和效率都很低下。在漢字手寫(筆寫、指書等)方面,目前采用的大都是整字輸入、整字識別技術(shù),前提是要建立漢字識別庫。對GB13000.1字符集建立漢字識別庫,就要包含約21003個對象;要把一個字基本寫完整才能將這個字顯示在屏幕上或屏幕待選框中,然后才由它產(chǎn)生詞語或語句級聯(lián)想,進(jìn)行聯(lián)想智能輸入。受目前手寫技術(shù)的影響,這類書寫的準(zhǔn)確率和速度并不高。并且由于傳統(tǒng)的漢字書寫習(xí)慣以及手指手掌大小的限定,這類技術(shù)的運(yùn)用受到手寫屏幕(或區(qū)域)的限制。比如說不用書寫筆,書寫屏就得夠大,否則就必須配備手寫筆,且要“雙管齊下”,給使用者帶來不便。在漢字排序檢索方面,教育部、國家語委發(fā)布了語言文字規(guī)范《漢字部首表》和《GB13000.1字符集漢字部首歸部規(guī)范》,以統(tǒng)一漢字部首。然而,部首檢字法的弊端并不會因?yàn)椴渴椎慕y(tǒng)一而消減多少?!敖y(tǒng)一”之下漢字找部首的方法也并不一定簡單,第二是數(shù)筆畫太繁瑣。要查一個漢字,大致要經(jīng)歷如下四個步驟第一步,找出部首,數(shù)部首的筆畫;第二步,到部首表中找到該部首,按所示頁碼翻到該部首欄;第三步,數(shù)漢字除部首以外的筆畫,到部首欄中找到該筆畫數(shù)一欄,找到該漢字;第四步,按所示頁碼翻到正文該頁,再找該漢字。另外,漢字部首的統(tǒng)一依然側(cè)重語言文字傳統(tǒng),它并不能更有利于解決中文信息處理比如說智能漢字輸入、信息技術(shù)漢語(漢字)教學(xué)等問題。在信息技術(shù)漢語(漢字)教學(xué)方面,目前國家只允許拼音輸入法進(jìn)入中小學(xué)教育界。漢語拼音方案雖然方便漢字拼讀,但并不能也決不能代替漢字的書寫。漢語拼音輸入帶來的負(fù)面影響是常?!疤峁P忘字”,這不利于對漢字的掌握。因此必須要有符合漢字書寫規(guī)范的字形輸入法來幫助進(jìn)行漢語(漢字)教學(xué)??上б延械淖中屋斎敕ㄒ话悴鹱謴?fù)雜、亂拆漢字、規(guī)則不一、難學(xué)難用,難以輔助漢語(漢字)教學(xué)。“信息產(chǎn)品中的語言文字標(biāo)準(zhǔn)更強(qiáng)調(diào)技術(shù)性,與教育等領(lǐng)域的語言文字傳統(tǒng)常常有些差距,這樣就可能出現(xiàn)學(xué)校的信息教育與語文教學(xué)之間的不協(xié)調(diào)。怎樣克服這種不協(xié)調(diào)現(xiàn)象,進(jìn)而怎樣利用信息技術(shù)促進(jìn)語文教學(xué),是值得思考的問題。”目前中文分詞算法有三大類基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計的分詞方法。基于理解的分詞方法模擬人對句子的理解過程,雖為理想中的分詞方法,但由于漢語語言知識的籠統(tǒng)、復(fù)雜性,難以將各種語言信息組織成機(jī)器可直接讀取的形式,因此目前基于理解的分詞方法還不夠成熟,反而是基于統(tǒng)計的分詞方法是主流的分詞方法。基于統(tǒng)計的分詞方法其分詞單位一般反映出的是音節(jié)與音節(jié)的組合,即便有網(wǎng)絡(luò)搜索引擎技術(shù)的介入,分詞效果也并非十分理想,錯誤率也比較高,這一效果直接制約著漢字輸入、語音輸入、機(jī)器翻譯及智能搜索等技術(shù)的發(fā)展。
發(fā)明內(nèi)容影響漢字輸入精度的根本原因是漢語分詞精度,而在同等分詞精度條件或同等軟件技術(shù)條件下,輸入速度又取決于輸入取碼方式與分詞精度的有效結(jié)合度。簡言之,要提高輸入精度和輸入速度,就要提高分詞精度,找到一種更好的輸入方式,并能使它們有機(jī)結(jié)合,這是一個問題的三個方面。在提高分詞精度方面,基于上下文關(guān)聯(lián)的智能輸入軟件,如青月亮漢字通智能輸入軟件平臺和二筆智能輸入軟件等,采用人工分詞,有效降低了歧義分詞錯誤??梢?,在自動分詞成為主流的時代,人工分詞仍然有著重要的現(xiàn)實(shí)意義,在必要的情況下仍可成為自動分詞的一個重要而關(guān)鍵的補(bǔ)充。在輸入方式方面,眾所周知,雖然以往常見的字形、音形輸入法漢字難拆分,“塊”的取碼難記憶等帶來的難學(xué)難用問題使大多數(shù)用戶望而卻步,很難使其向語句級輸入發(fā)展,但字形、音形輸入法的平均碼長較之拼音輸入法要短,而且字形、音形輸入法由于取碼方式不同于拼音輸入法的純音節(jié)(及其簡化)方式,故語句單位有相同編碼的現(xiàn)象較之拼音輸入法少,漢語分詞結(jié)果的可能性也較之后者少得多。反過來即是說,以往字形、音形輸入法的取碼方式有助于提高漢語分詞精度。目前主流拼音輸入法的自動分詞主要基于網(wǎng)絡(luò)而依據(jù)概率來決定分詞的結(jié)果,從而決定漢語分詞(在輸入過程中,表現(xiàn)為對漢語拼音進(jìn)行分詞),每個漢字在分詞之前都是相對孤立的。而字形、音形輸入法由于其特殊的取碼方式,在系統(tǒng)進(jìn)行分詞之前就內(nèi)在地或“人工”地將某些內(nèi)容捆綁在一起,作了預(yù)先分詞處理。如在此基礎(chǔ)上增加拼音輸入法的自動分詞技術(shù),則可將人工分詞和自動分詞相結(jié)合,從而提高漢語分詞精度。又由于字形、音形輸入法的平均碼長較之拼音輸入法要短得多,故還能提高漢字輸入速度。兩者結(jié)合,從而在整體上可大大提高漢字輸入效率。本發(fā)明的任務(wù)是找到一種更好的漢字拆分原則和方法,給拆分所需的基礎(chǔ)部件(以下簡稱基件)定量,按照更好的方式給基件取碼并進(jìn)行歸并,然后用此方法和所用的基件對漢字進(jìn)行拆分,并依一定的輸入方式進(jìn)行高效地智能語句級或非語句級漢字鍵盤和手寫(筆寫、指書等)輸入、信息技術(shù)漢語(漢字)教學(xué)、信息化漢字檢索、漢語分詞、語音輸入、機(jī)器翻譯及智能搜索等,從而可應(yīng)用在電腦、手機(jī)、機(jī)頂盒、學(xué)習(xí)機(jī)、速錄機(jī)、電子辭典等電子信息設(shè)備上。一、漢字拆分本發(fā)明提出漢字拆分要以“絕對尊重古今漢字筆畫的形狀、數(shù)量和順序,盡量考慮古今漢字展現(xiàn)的間架結(jié)構(gòu),進(jìn)而盡量符合漢字造字歷史,最終有利于解決漢字檢索、教學(xué)和輸入等一系列問題”的原則,毫無例外地遵循同一拆分方法,將漢字拆分成若干基件。本發(fā)明所用漢字拆分的方法包括兩步交否基件少;離接交成多。后一步是前一步的補(bǔ)充。第一步“交否基件少”。指,恪守漢字筆畫的形狀、數(shù)量和順序,采用基件拆分漢字。如不相交拆分能完全拆出基件則不相交拆分,否則相交拆分,使拆出的基件盡量少。上述第一步的內(nèi)容可調(diào)整為恪守漢字筆畫的形狀、數(shù)量和順序,采用基件拆分漢字,使拆出的基件盡量少。第二步“離接交成多”。指,拆分不唯一時,能離不接,能接不交;再盡量多地拆出成字基件,然后使先拆出的基件筆畫盡量多。上述第二步的內(nèi)容可調(diào)整為拆分不唯一時,能離不接,能接不交;再盡量多地拆出成字基件,然后使較先(或較后)拆出的基件筆畫盡量多。其中“再盡量多地拆出成字”可不予考慮。上述第二步的內(nèi)容可調(diào)整為拆分不唯一時,能離不接,能接不交;再盡量多地拆出成字并使(特別是能較先或較后拆出的)成字筆畫盡量多,然后使較先或較后拆出的非成字筆畫盡量多。同時概述可改為“離接交成非”。其中“能離不接,能接不交”和/或“再盡量多地拆出成字并使(特別是能較先或較后拆出的)成字筆畫盡量多,然后使較先或較后拆出的非成字筆畫盡量多”可不予考慮;也可將“再盡量多地拆出成字并使(特別是能較先或較后拆出的)成字筆畫盡量多,然后使較先或較后拆出的非成字筆畫盡量多”調(diào)整為“再使較先或較后拆出的基件筆畫盡量多”。上述第二步的內(nèi)容可調(diào)整為拆分不唯一時,能離不接,能接不交(相交拆分要盡量多地拆出成字),再使較先(或較后)拆出的基件筆畫盡量多。同時概述可改為“離接交先(/后)多”。也可增設(shè)所述漢字拆分方法之第二步涉及的個別漢字或漢字部分為基件,從而去掉此第二步。還可直接刪除所述漢字拆分方法第二步,僅遵照第一步內(nèi)容拆分漢字,此時有些漢字可兼容拆分,即有多少種拆分可能就允許有多少種拆分,無論哪種拆分都行。上述各調(diào)整可在各個層面綜合運(yùn)用。作上述調(diào)整時,拆分方法的內(nèi)涵愈小,拆分結(jié)果的外延就愈大,意味著需要的基件也就可能愈多,這時可根據(jù)調(diào)整后的具體拆分方法在已給出的基件(如附圖1所示)的基礎(chǔ)上采用增力卩、刪減、改變、移動基件等方式,來達(dá)到更佳的漢字拆分編碼狀態(tài)。在處理漢字筆畫、漢字間架結(jié)構(gòu)和漢字字義的關(guān)系問題上,堅持“絕對尊重古今漢字筆畫(形狀、數(shù)量、順序),盡量考慮古今漢字展現(xiàn)的間架結(jié)構(gòu),進(jìn)而盡量符合漢字造字歷史”的原則,嚴(yán)格遵照漢字筆畫的形狀、數(shù)量和順序?qū)h字進(jìn)行拆分。但為了滿足不同人群的漢字輸入需求,漢字拆分方法允許有輔助輸入臨時性拆分方法。即上述漢字拆分方法指出要嚴(yán)格遵照漢字筆畫順序?qū)h字進(jìn)行拆分,但為了滿足部分人群的漢字輸入需求,也可按漢字形體結(jié)構(gòu)(間架結(jié)構(gòu))臨時拆出“匚戈弋工大土山兒夫七蟲口H”且不限于這些基件(盡管它們的筆畫順序有時被其他基件隔開),進(jìn)而可按漢字形體結(jié)構(gòu)對“必秉束丑乘東柬可來巨酉束兆州冊豕”且不限于這些漢字或漢字部分臨時進(jìn)行拆分,其他部分依然遵從筆畫順序拆分,使拆出的基件盡量少。二、基礎(chǔ)部件(一)定義本發(fā)明對基件作了如下定義在某一漢字集內(nèi),漢字檢索、教學(xué)和輸入等實(shí)踐涉及的漢字字形拆分,以“絕對尊重古今漢字筆畫的形狀、數(shù)量和順序,盡量考慮古今漢字展現(xiàn)的間架結(jié)構(gòu),進(jìn)而盡量符合漢字造字歷史”的原則,毫無例外地遵循同一拆分方法,而能毫無例外地符合這一拆分方法且不再被拆分的部件,稱為該漢字集的基礎(chǔ)部件,簡稱基件。這一定義涉及幾個關(guān)鍵性問題1.確定基件要選取一個恰當(dāng)?shù)淖址?.漢字拆分要絕對尊重漢字筆畫,盡量使筆畫和間架結(jié)構(gòu)統(tǒng)一,進(jìn)而盡量符合漢字造字歷史;3.漢字拆分要綜合考慮漢字檢索、教學(xué)和輸入等問題,即“形理相權(quán)檢學(xué)用”①力求形理兼?zhèn)?,既是依形拆分也是依理拆分;②理不易掌握或無理據(jù)而形容易拆分時,依形拆分;③理容易掌握而形不易拆分時,依理拆分;④理容易掌握而形也易拆分,或理不易掌握(或無理據(jù))而形也不易拆分時,拆分取決于它們構(gòu)字能力、漢字輸入、排序檢索等情況。4.漢字拆分要毫無例外地遵循同一拆分方法;5.基件要毫無例外地符合同一拆分方法,且不能再分。定義基件的過程,實(shí)際上是充分考慮漢字的筆畫、間架結(jié)構(gòu)和字義的關(guān)系問題,充分考慮漢字的檢索、教學(xué)和輸入等問題,為了最好地解決這些問題,制定毫無例外的拆分方法,實(shí)現(xiàn)基件定量,從而按照上述拆分方法使用基件解決這些問題以及其他問題的過程。(二)定量在給基件定量的過程中,涉及相交拆分的問題,本發(fā)明將相交拆分的“度”描述為①不違背漢字筆畫的形狀、數(shù)量和順序;②使拆分后的基件還原成該漢字時較簡單直觀;③不為難其他漢字或部件的拆分。根據(jù)漢字拆分方法、相交拆分的“度”及基件定義涉及的諸方面,制定如附圖1的基件分布圖。為了更好地實(shí)現(xiàn)本發(fā)明的宗旨,這些基件可采用增加、刪減、改變、移動等方式作局部調(diào)整。(三)取碼及歸并本發(fā)明對漢字基件的選擇、取碼與歸并作如下安排單筆根據(jù)漢字拆分的實(shí)際需要可成為單筆基件;利用大寫字母AEIOU的書寫首筆與漢字筆畫“撇橫豎點(diǎn)折”的形近聯(lián)系,將“橫豎撇點(diǎn)折”等單筆基件的取碼相應(yīng)定為EIA0U,也可將它們按HSPDZ取碼歸并,對多筆基件(包括基件變體)則取其(或其所在漢字的)讀音首字母為碼并按取碼歸并?;蛇M(jìn)一步歸并成更大或更小的類,如將25類歸并為10個數(shù)字類,或?qū)?5類分布到26個鍵甚至30多個鍵上。三、輸入方式在鍵盤輸入方面,本發(fā)明有3種通用鍵盤輸入方式和3種數(shù)字鍵盤輸入方式,具體輸入方式在“具體實(shí)施方式”部分有詳述。通過“V”鍵加輸入法對應(yīng)的編碼或數(shù)字選擇鍵等,可實(shí)現(xiàn)這些輸入方式之間的切換。鍵盤輸入方式中的漢語拼音可按照聲韻相拼后的形體,將聲母和韻母分開(可不含聲調(diào)),其中將音節(jié)開頭的y、w定為聲母,將y、w后的部分定為韻母,根據(jù)聲韻相拼規(guī)則^ang禾口iong、ia禾口an、ian禾口uang、ua禾口iao、uai禾口ing、ui禾口in、ο禾口uan、Ue(ue)禾口en這8組幾乎不共用聲母的韻母分別置于某一個字母鍵位上以實(shí)現(xiàn)漢語拼音的聲韻簡化,來進(jìn)行漢語拼音簡化輸入。在漢語拼音及其簡拼參與漢字輸入時,不僅基件輸入可變?yōu)橄鄳?yīng)取碼的筆畫輸入,而且漢字輸入也可用簡拼后的聲母和/或韻母取代筆畫作為補(bǔ)碼方式。這些輸入方式還可做局部調(diào)整,甚至可以直接按照每字兩鍵(其中不排除漢字串平均每字或幾字一鍵輸入的應(yīng)用)的方式(并可在任意漢字對應(yīng)的編碼后添加字形、字音或筆畫方面的標(biāo)識字母)進(jìn)行輸入而不必區(qū)分字、詞或短語。四、手寫輸入基于本發(fā)明的漢字手寫輸入系統(tǒng)的實(shí)現(xiàn)是將鍵盤漢字輸入系統(tǒng)和手寫識別系統(tǒng)相結(jié)合。具體是按照鍵盤輸入方式,手寫語句單位的基件或其對應(yīng)的編碼(字母或數(shù)字等);讓手寫識別系統(tǒng)只對本方案所使用的基件(約297個)、26個字母(或更少的字母)或10個數(shù)字(或更少的數(shù)字)或其他進(jìn)行識別;手寫識別系統(tǒng)將識別出的基件或其對應(yīng)的編碼進(jìn)行分向處理實(shí)現(xiàn)基件序列與漢字串的映射,或通過鍵盤漢字輸入系統(tǒng)實(shí)現(xiàn)編碼與漢字串的映射,然后將基件或其對應(yīng)的編碼所對應(yīng)的語句單位顯示在屏幕上。如附圖2所示。這樣,就將原來對每個漢字進(jìn)行整字的復(fù)雜識別轉(zhuǎn)變?yōu)閷s297個基件、26個字母(或更少的字母)或10個數(shù)字(或更少的數(shù)字)或其他進(jìn)行的識別,同時將手寫識別系統(tǒng)和通用鍵盤漢字輸入系統(tǒng)的優(yōu)勢相結(jié)合,從而提高漢字手寫輸入的速度和效率。五、語言模型智能語句級漢字輸入系統(tǒng),其聯(lián)想和糾錯等功能得以實(shí)現(xiàn)的核心是語言模型,特別是文法語言模型和基于網(wǎng)絡(luò)的統(tǒng)計語言模型的綜合運(yùn)用,其中可以文法語言模型為主,統(tǒng)計語言模型為輔。統(tǒng)計語言模型一般只在文法語言模型出現(xiàn)歧義或無法判斷等情況下起作用,但這一過程也可以不需要文法語言模型的參與。六、漢語分詞、漢字檢索、漢語(漢字)教學(xué)等上述輸入方式中,分詞可不直接面對漢字,而是先對輸入的編碼按詞庫中的編碼組合進(jìn)行分割,在系統(tǒng)進(jìn)行分詞之前就內(nèi)在地或“人工”地將某些內(nèi)容作了分詞處理,從而可與自動分詞技術(shù)、網(wǎng)絡(luò)搜索引擎技術(shù)等結(jié)合,用來提高分詞、語音輸入、機(jī)器翻譯及智能搜索等的精度,從而可應(yīng)用在電腦、手機(jī)、機(jī)頂盒、學(xué)習(xí)機(jī)、速錄機(jī)、電子辭典等電子信息設(shè)備上。本系統(tǒng)的實(shí)現(xiàn)手段及其結(jié)果可用于漢語(漢字)教學(xué)、漢字檢索等。本發(fā)明“手寫(筆寫,指書等)+通用鍵盤漢字輸入系統(tǒng)”可應(yīng)用于各種信息化產(chǎn)品,為通用鍵盤、數(shù)字鍵盤、手寫(筆寫,指書等)的高速漢字輸入提供了保障,對電腦的微化起到了關(guān)鍵性的作用。與現(xiàn)有技術(shù)相比,本發(fā)明具有如下優(yōu)勢一、漢字拆分方法簡單、合理、可行,拆分結(jié)果唯一,將基件和漢語拼音牢牢聯(lián)系在一起,便于記憶和運(yùn)用,并和文法語言模型、統(tǒng)計語言模型等結(jié)合,實(shí)現(xiàn)語句級或非語句級輸入,從而大大提高漢字輸入的速度和效率。二、漢字拆分絕對尊重漢字的筆畫,從形體上既保全了字義,又充分追求人對漢字結(jié)構(gòu)的直覺反應(yīng)與漢字結(jié)構(gòu)本身的一致性,進(jìn)而盡量符合漢字的造字歷史,從而綜合考慮漢字的義和形,充分照顧漢字的歷史與現(xiàn)實(shí)應(yīng)用,基件75%以上是常用漢字和漢字部首,最后將漢字的音、形、義镕為了一體,使?jié)h字輸入兼顧音、形、義,便于信息化漢語(漢字)教學(xué)。三、使?jié)h字拆分的筆畫形狀、數(shù)量、順序和漢字手寫(筆寫,指書等)的筆畫形狀、數(shù)量、順序完全一致,便于實(shí)現(xiàn)漢字手寫、鍵盤輸入、書寫輸入的一致性,從而便于漢字教學(xué),有利于漢字文化傳承。四、能更直接地運(yùn)用在漢字排序檢索上,使?jié)h字檢索所需時間平均縮短至每字9秒左右。五、不僅能“整”字手寫(筆寫,指書等)(書寫完整的漢字),也能直接“缺”字手寫(書寫漢字的基件而非整個漢字),并可在“缺”字手寫的基礎(chǔ)上實(shí)現(xiàn)漢字連寫,大大提高漢字手寫輸入速度和效率。還可手寫基件對應(yīng)的字母或數(shù)字等,實(shí)現(xiàn)編碼手寫輸入。這無疑能推動信息產(chǎn)品微型化進(jìn)程。六、實(shí)現(xiàn)了漢字的通用鍵盤輸入、數(shù)字鍵盤輸入、手寫(筆寫,指書等)輸入三者的統(tǒng)一;實(shí)現(xiàn)了學(xué)習(xí)漢字、檢索漢字、使用漢字三者的高度統(tǒng)一。與當(dāng)前方案相比,前三者的速度和效率都得到了很大提高。七、能提高漢語分詞精度,從而推動漢語分詞、語音輸入、機(jī)器翻譯及智能搜索等技術(shù)的發(fā)展。附圖1漢字基件分布圖附圖2手寫_鍵盤輸入系統(tǒng)附圖3信息產(chǎn)品微型化具體實(shí)施例方式一、漢字拆分本發(fā)明提出漢字拆分要以“絕對尊重古今漢字筆畫的形狀、數(shù)量和順序,盡量考慮古今漢字展現(xiàn)的間架結(jié)構(gòu),進(jìn)而盡量符合漢字造字歷史,最終有利于解決漢字檢索、教學(xué)和輸入等一系列問題”的原則,毫無例外地遵循同一拆分方法,將漢字拆分成若干基件。本發(fā)明所用漢字拆分的方法包括兩步交否基件少;離接交成多。后一步是前一步的補(bǔ)充。第一步“交否基件少”。指,恪守漢字筆畫的形狀、數(shù)量和順序,采用基件拆分漢字。如不相交拆分能完全拆出基件則不相交拆分,否則相交拆分,使拆出的基件盡量少。如“援”根據(jù)基件可不相交拆分并完全拆分出基件為“-一大又”(且在不相交拆分狀態(tài)下使基件最少),則不能相交拆分為“-二夂”?!皢巍毕嘟徊鸱譃椤翱诳谌帐焙汀翱诳诩滓弧倍际共鸪龅幕?shù)為4(盡量少),但按筆畫順序,最后一筆“丨”在上一筆“一”之后,故不能與“日,,組構(gòu)成“甲”,而要與“一”組成“十”。“串,,拆為“口中”而非“中口”,更不拆分為“中中”。上述第一步的內(nèi)容可調(diào)整為恪守漢字筆畫的形狀、數(shù)量和順序,采用基件拆分漢字,使拆出的基件盡量少。第二步“離接交成多”。指,拆分不唯一時,能離不接,能接不交;再盡量多地拆出成字基件,然后使先拆出的基件筆畫盡量多。如“勻”相離拆分為“勹7”而不相接拆分為"i習(xí)”,“生”相接拆分為“)主”而不相交拆分為“土”,“午”相接拆分為“十”使先拆出的基件筆畫盡量多,而非“j干”;“卅”相交拆分為盡量多地拆出成字“一川”,而非“大II”或“升[”;“百”拆為“一白”而非“廣日,,,“夏”拆為“一自欠”而非“廣目欠,,;等等。上述第二步的內(nèi)容可調(diào)整為拆分不唯一時,能離不接,能接不交;再盡量多地拆出成字基件,然后使較先(或較后)拆出的基件筆畫盡量多。其中“再盡量多地拆出成字”可不予考慮。上述第二步的內(nèi)容可調(diào)整為拆分不唯一時,能離不接,能接不交;再盡量多地拆出成字并使(特別是能先拆出的)成字筆畫盡量多,然后使先拆出的非成字筆畫盡量多。同時概述可改為“離接交成非”。如“勻”相離拆分為“勹7”而不相接拆分為“j習(xí)”,“生”相接拆分為“)主”而不相交拆分為“土”,“卅”相交拆分為盡量多地拆出成字“一川”,而非“于11”或“升丨”;“午”相接拆分為“)干”使成字筆畫盡量多,而非“十”;“百”拆為“一白,,而非uT日,,,“夏”拆為“一自夂”而非“丁目夂”;等等。上述第二步的內(nèi)容可進(jìn)一步調(diào)整為拆分不唯一時,能離不接,能接不交;再盡量多地拆出成字并使(特別是能較先或較后拆出的)成字筆畫盡量多,然后使較先或較后拆出的非成字筆畫盡量多。同時概述可改為“離接交成非”。其中“能離不接,能接不交”和/或“再盡量多地拆出成字并使(特別是能較先或較后拆出的)成字筆畫盡量多,然后使較先或較后拆出的非成字筆畫盡量多”可不予考慮;也可將“再盡量多地拆出成字并使(特別是能較先或較后拆出的)成字筆畫盡量多,然后使較先或較后拆出的非成字筆畫盡量多”調(diào)整為“再使較先或較后拆出的基件筆畫盡量多”。上述第二步的內(nèi)容可調(diào)整為拆分不唯一時,能離不接,能接不交(相交拆分要盡量多地拆出成字),再使較先(或較后)拆出的基件筆畫盡量多。同時概述可改為“離接交先(/后)多”。如“百”拆為日”而非“一白”,“夏”拆為目欠”而非“一自欠”。也可增設(shè)所述漢字拆分方法之第二步涉及的個別漢字或漢字部分為基件,從而去掉此第二步。還可直接刪除所述漢字拆分方法第二步,僅遵照第一步內(nèi)容(并可相應(yīng)增加“虧缶生”且不限于這些基件,或減少某些基件)拆分漢字,此時有些漢字可兼容拆分,即有多少種拆分可能就允許有多少種拆分,無論哪種拆分都行。如“午”既可拆為“)干”也可拆為“十”,“缶”(如果不增為基件)既可拆為“)干U”也可拆為“)二山”或“十U”或“一山”,“卅”既可拆為“一川”也可拆為“大11”或“升丨”,“雙”既可拆為“刀I”也可拆為“乂”,“生”既可拆為“)主”也可拆為“土”,“擊”既可拆為“牛U”也可拆為“二山”,“開”既可拆為“一升”也可拆為“二)丨”,“虧”既可拆為“一5”也可拆為“二勺”,等等。上述各調(diào)整可在各個層面綜合運(yùn)用。作上述調(diào)整時,拆分方法的內(nèi)涵愈小,拆分結(jié)果的外延就愈大,意味著需要的基件也就可能愈多,這時可根據(jù)調(diào)整后的具體拆分方法在已給出的基件(如附圖1所示)的基礎(chǔ)上采用增力卩、刪減、改變、移動基件等方式,來達(dá)到更佳的漢字拆分編碼狀態(tài)。由此可見,本發(fā)明還可以采用一個與附圖1所示基件(可不涉及基件的取碼及歸并)重合度較高的且能與本發(fā)明所述漢字拆分方法(重在內(nèi)容描述)相匹配的漢字基件集,而實(shí)現(xiàn)漢字鍵盤輸入、漢字手寫輸入、漢語分詞且不限于這些用途。在處理漢字筆畫、漢字間架結(jié)構(gòu)和漢字字義的關(guān)系問題上,堅持“絕對尊重古今漢字筆畫(形狀、數(shù)量、順序),盡量考慮古今漢字展現(xiàn)的間架結(jié)構(gòu),進(jìn)而盡量符合漢字造字歷史”的原則,嚴(yán)格遵照漢字筆畫的形狀、數(shù)量和順序?qū)h字進(jìn)行拆分。但為了滿足不同人群的漢字輸入需求,漢字拆分方法允許有輔助輸入臨時性拆分方法。即上述漢字拆分方法指出要嚴(yán)格遵照漢字筆畫順序?qū)h字進(jìn)行拆分,但為了滿足部分人群的漢字輸入需求,也可按漢字形體結(jié)構(gòu)(間架結(jié)構(gòu))臨時拆出“匚戈弋工大土山兒夫七蟲口S”且不限于這些基件(盡管它們的筆畫順序有時被其他基件隔開),進(jìn)而可按漢字形體結(jié)構(gòu)對“必秉束丑乘東柬可來巨酉束兆州冊豕”且不限于這些漢字或漢字部分臨時進(jìn)行拆分,其他部分依然遵從筆畫順序拆分,使拆出的基件盡量少。如“國”可依筆畫拆為“門一口一戈一”但也可依結(jié)構(gòu)臨時拆為“口戈口一”,“栽”可依筆畫拆為“土木戈”但也可依結(jié)構(gòu)臨時拆為“十戈木”。嚴(yán)格遵照漢字筆畫的形狀、數(shù)量和順序?qū)h字進(jìn)行拆分,必然涉及相交拆分的問題。從以往的經(jīng)驗(yàn)看,漢字的框架結(jié)構(gòu)一般指的是平面結(jié)構(gòu),很少有人從立體結(jié)構(gòu)的角度來理解或闡釋它。首先可能是因?yàn)榻^大部分漢字都可以在平面上一分為二,擁有平面結(jié)構(gòu),框架結(jié)構(gòu)“理所當(dāng)然”地被定位為平面結(jié)構(gòu);其次可能是以往相交拆分的實(shí)踐嚴(yán)重地摧殘了漢字,更使人們堅定地認(rèn)為漢字的框架結(jié)構(gòu)就是平面結(jié)構(gòu),惟有“平面”拆分才有利于漢字;再者恐怕是受韓文等的影響。然而,相交拆分并不一定會踐踏漢字。如“秉”,從字源來講就是“禾”和“3”的組合,無論是依理還是依形都宜于拆分為“禾3”。立足于漢字信息處理,倘若相交都不拆分,那么即使是在GB13000.1字符集范圍內(nèi),漢字的基件也會猛地增加到560個甚至更多。如果是超大字符集,是不是還要增加幾百個?如此“龐大”的數(shù)目只會嚴(yán)重地影響漢字“檢學(xué)用”問題的解決。因此,必須從利于漢字健康發(fā)展的角度,有選擇地對相交對象進(jìn)行相交拆分。換個角度來看,漢字的筆順和框架結(jié)構(gòu)也是基本一致的。眾所周知,一筆一劃地書寫漢字,不算是不尊重漢字框架結(jié)構(gòu)。那么按照筆順將漢字分成幾個有相交關(guān)系的基件,不影響原有筆畫的形狀、數(shù)量和先后順序,從推理來看,也不應(yīng)是不尊重漢字框架結(jié)構(gòu)。若以平面框架結(jié)構(gòu)論之,則還是不尊重漢字框架結(jié)構(gòu)。然而,跳出平面結(jié)構(gòu)的框框,把筆畫相交看作是筆畫在垂直于視線的立體空間上的動態(tài)疊交,那么相交拆分也是可以接受的,因?yàn)樗灰暈榱Ⅲw結(jié)構(gòu)而不僅是平面結(jié)構(gòu)。漢字能夠發(fā)展出獨(dú)一無二的書法藝術(shù),恐怕也是源于此吧??梢?,相交拆分并非不尊重漢字結(jié)構(gòu)的標(biāo)志。是否尊重漢字結(jié)構(gòu),取決于對漢字結(jié)構(gòu)的理解,也取決于相交拆分的“度”。而這個“度”,充分地體現(xiàn)在基件的定量上。說漢字的筆順和框架結(jié)構(gòu)基本一致,是在可理解范圍內(nèi)而言的,而非絕對一致。比如“圍”,從框架結(jié)構(gòu)上來看,應(yīng)該拆分為“口韋”,但依照筆順,最少應(yīng)該拆分為“門韋一”。此時,筆順和結(jié)構(gòu)之間看似出現(xiàn)了不可調(diào)和的矛盾。然而,框架結(jié)構(gòu)和筆順之間本身就隱含著牢固的對應(yīng)關(guān)系,如“口”就隱射出它的最后一橫處于被包圍部分的筆畫之后,它體現(xiàn)出“先里頭,再封口”的(書寫)筆順原則。只要理解這一點(diǎn),“遵循”筆順而“違反”結(jié)構(gòu)的拆分就是可以接受的。另外,電腦中的漢字在造形上偶爾存在著筆畫長短區(qū)別的現(xiàn)象,如“幸”拆為“土、/干”,“連”的第四橫雖比第三橫短,但“1_”半包圍的部分明顯是“幸”,故該字參照“幸”拆為“土、Z干”。類似的映射在漢字集中時有發(fā)生,如“鳘”“驚”參照“敏”分別拆為“母夂魚”和“母夂白水”,“瀠”參照“敏”“繁”拆分為“?母夂幺小”;同理,“園”“速”參照“袁”、“還”參照“袁”“寰”進(jìn)行拆分。這體現(xiàn)出電腦造字的規(guī)范性問題。再如宋體的“殼殼郎郎乗剰”華文楷體卻為“殼殼郎郎乗剰”;宋體的“貤朥変焴槩羋蛘觭觴憲蕙欞麗”華文楷體卻為“靦朥変焴柴羋蛘觭觴憲蕙欞麗”。宋體或方正楷體的“界堺榥堺烙”中倒數(shù)三四筆顯示為“八”,但華文楷體卻為“堺榥堺塔”,“八”變成了“人”;宋體的“鰭憲觴鎵夔堆,,華文楷體卻為“鰭憲觴深夔堆”。還有“蒐夂眾蒽榨瞻瑙氍泉塾”等不一而足。更奇怪的是,“涼”(51C9和F979)、“隣”(96A3和F9F1)、“?!?5140和FA0C)、“季”(79CA和F995)、“裏”(88CF和F9E7)、“撙”(58AB和58FF)這些字竟然分別存在兩個不同的Unicode代碼,以及同時存在“埒埒嵆蘅郎郎”這些同形字等。本發(fā)明承認(rèn)這些差異,并有隨之改進(jìn)的本質(zhì)。二、基件(一)定義什么是漢字基礎(chǔ)部件(基件)?學(xué)術(shù)界歷來爭論不一。對什么是筆畫、什么是一般性部件則基本達(dá)成了共識筆畫是構(gòu)成楷書漢字字形的最小連筆單位,由筆畫組成的具有組配漢字功能的構(gòu)字單位稱為漢字部件??梢元?dú)立成字的部件稱為成字部件,不能獨(dú)立成字的部件稱為非成字部件;由單一筆畫構(gòu)成的部件稱為單筆部件,由多于一個筆畫構(gòu)成的部件稱為多筆部件。進(jìn)而,基件既可以是成字部件,也可以是非成字部件,既可以是單筆部件,也可以是多筆部件。本發(fā)明正是基于上述成熟概念,從有利于綜合解決漢字“檢學(xué)用”諸問題的角度出發(fā),對基件作了如下定義在某一漢字集內(nèi),漢字檢索、教學(xué)和輸入等實(shí)踐涉及的漢字字形拆分,以“絕對尊重古今漢字筆畫的形狀、數(shù)量和順序,盡量考慮古今漢字展現(xiàn)的間架結(jié)構(gòu),進(jìn)而盡量符合漢字造字歷史,最終有利于解決漢字檢索、教學(xué)和輸入等一系列問題”的原則,毫無例外地遵循同一拆分方法,而能毫無例外地符合這一拆分方法且不再被拆分的部件,稱為該漢字集的基礎(chǔ)部件,簡稱基件。這一定義涉及幾個關(guān)鍵性問題1.確定基件要選取一個恰當(dāng)?shù)淖址瘽h字的基件存在于漢字拆分中,漢字拆分實(shí)踐涉及漢字的對象群即漢字集問題。在某一漢字集里拆分漢字得出的基件,適用于較小的漢字集,卻不一定適用于更大的漢字集。除非是對所有的漢字進(jìn)行拆分得出的基件,否則基件就是一個相對而非絕對的概念。因此,探討基件須選擇一個恰當(dāng)?shù)臐h字集,便于研究,又有利于絕大部分基件的確定。2.漢字拆分要絕對尊重漢字筆畫,盡量使筆畫和間架結(jié)構(gòu)統(tǒng)一,進(jìn)而盡量符合漢字造字歷史這是從漢字的本質(zhì)方面考慮問題?!敖^對尊重古今漢字筆畫的形狀、數(shù)量和順序”是確保漢字的字形無誤,字形是字義的載體,筆畫是字形的微觀單位,只有字形得到保障,字義才能完整;“盡量考慮古今漢字展現(xiàn)的間架結(jié)構(gòu)”是保證漢字的字形無誤的延伸,漢字筆畫的組合,必然表現(xiàn)出某種格局(間架結(jié)構(gòu)),結(jié)構(gòu)是筆畫群的走向,它從宏觀上體現(xiàn)漢字的字形,從而成為保證字義的又一手段;“盡量符合漢字造字歷史”是盡量要求在一定程度上,從與字義有關(guān)的歷史和現(xiàn)實(shí)方面反映字義,以便于更好地理解漢字的字義,它必須以正確的筆畫和間架結(jié)構(gòu)為基礎(chǔ)。3.漢字拆分要綜合考慮漢字檢索、教學(xué)和輸入等問題有利于漢字檢索、教學(xué)和輸入等問題的綜合解決是確立基件的出發(fā)點(diǎn)和歸宿。不能一味地從“形態(tài)”出發(fā),也不能絕對地從“理據(jù)”出發(fā),而要將每一個字的“形”和“理”結(jié)合起來考慮,充分權(quán)衡它在漢字檢索、教學(xué)和輸入等方面的利弊,最后決定是依形拆分還是依理拆分。即“形理相權(quán)檢學(xué)用”,這是從漢字的功用方面考慮問題①力求形理兼?zhèn)洌仁且佬尾鸱忠彩且览聿鸱?;②理不易掌握或無理據(jù)而形容易拆分時,依形拆分;③理容易掌握而形不易拆分時,依理拆分;④理容易掌握而形也易拆分,或理不易掌握(或無理據(jù))而形也不易拆分時,拆分取決于它們構(gòu)字能力、漢字輸入、排序檢索等情況。以“形”為主或以“理”為主,看似兼顧了漢字的“形”和“理”,實(shí)則往往一邊倒,關(guān)鍵是容易忽視從漢字的檢索、教學(xué)和輸入等角度全面考慮問題,常常顧此失彼。4.漢字拆分要毫無例外地遵循同一拆分方法漢字拆分必須充分考慮漢字的筆畫、間架結(jié)構(gòu)和字義的關(guān)系問題,綜合考慮漢字檢索、教學(xué)和輸入等問題,拆分過程必須毫無例外地遵循同一拆分方法,這是確立基件的保證。給不出拆分方法,拆分就是任意的,無規(guī)律可循的;給出的拆分方法不能統(tǒng)領(lǐng)所有的拆分行為,有例外,這樣的拆分方法就缺乏可行性;拆分的結(jié)果有二義性,也只能說明拆分方法是失敗的。失去同一性這一保證,基件就會名存實(shí)亡。雖然為了方便更多人進(jìn)行漢字輸入,有時也臨時允許漢字拆分的結(jié)果出現(xiàn)二義性,但這與漢字拆分方法的原則性內(nèi)容無關(guān)。5.基件要毫無例外地符合同一拆分方法,且不能再分基件的本質(zhì)要求是毫無例外地符合同一漢字拆分方法,不再拆分是基件的外在要求,是本質(zhì)要求的外在體現(xiàn),它指出基件的使用方式,即不能再被其他基件拆分。比如,“今”和“人”“、,,“7”都是基件,但“琴”就只能拆為“王王今”,而不能拆分成“王王人、7”與其他部件,否則就是基件“今”被基件“人”“、,,“7”拆分了。定義基件的過程,實(shí)際上是充分考慮漢字的筆畫、間架結(jié)構(gòu)和字義的關(guān)系問題,充分考慮漢字的檢索、教學(xué)和輸入等問題,為了最好地解決這些問題,制定毫無例外的拆分方法,實(shí)現(xiàn)基件定量,從而按照上述拆分方法使用基件解決這些問題以及其他問題的過程。(二)定量給基件定量,換言之就是制定基件圖,它是基件的實(shí)現(xiàn)。制定基件,貌似隨機(jī),有其偶然性,但哪些部件要作為基件在一定程度上有其必然性。事實(shí)上,定義基件的過程、定量基件的過程、制定同一拆分方法的過程,是同一過程的三個方面。其中拆分方法的原則和具體方法占主導(dǎo)地位,它滲透在另外兩個方面之中,既決定著另外兩個方面的實(shí)現(xiàn),也深受它們的影響。在這一過程中它們相互制約,相輔相成,互相促進(jìn),最終共同實(shí)現(xiàn)。而檢驗(yàn)它們的標(biāo)準(zhǔn),就是是否有利于漢字“檢學(xué)用”問題的綜合解決。在給基件定量的過程中,不得不再次談及相交拆分的問題,這是綜合解決漢字“檢學(xué)用”諸問題所必須先行解決的問題。不相交拆分的結(jié)果是將諸如“串單電隸果龜象豕世事甩禹庸”的部件都納入到基件中來。然而,這些部件容易被更小的部件拆分,其結(jié)果一目了然。因此,一味地進(jìn)行不相交拆分,把它們當(dāng)作基件拿來教學(xué),既不便于漢語(漢字)教學(xué),也只會僵化初學(xué)漢字之孩童的大腦,無益于其智力開發(fā)。而“適當(dāng)”地相交拆分不僅便于漢語(漢字)教學(xué),有助于培養(yǎng)青少年的立體思維,更有利于漢字信息處理。為此,以國家新近研制的《通用規(guī)范漢字表》(征求意見稿)的8300個漢字為主要對象,相交拆分的“度”可以描述為①不違背漢字筆畫的形狀、數(shù)量和順序;②使拆分后的基件還原成該漢字時較簡單直觀;③不為難其他漢字或部件的拆分。這就從拆分的“度”上對漢字基件作了形體要求,從而為基件定量做了充分準(zhǔn)備。在充分考慮漢字“檢學(xué)用,,及其他問題的前提下,結(jié)合上述基件的定義、漢字拆分的方法,可制定基件分布圖,簡稱基件分布圖,如附圖1所示。為了更好地實(shí)現(xiàn)本發(fā)明的宗旨,這些基件可作局部調(diào)整。如圖中基件可作增加、刪減、改變、移位等調(diào)整,可以合并成更大的部件或拆分成更小的部件而將之作為新的基件??稍黾?009年新頒布以及以后還可能修正的《漢字部首表》或《GB13000.1字符集漢字部件規(guī)范》中的部首如“缶(j干U)鼻(自田一)丨)兀頁”等作基件,也可增加非上述規(guī)范所含部首的漢字或漢字部分如“東樂丐丐H丈丌”“延字心”“師字邊”等作基件;可減少“乘束自”等基件;可將“,、、、戶”由A鍵、“匕、/”由B鍵移至其他鍵位,將“”分別改稱為“‘宅,字頭”“‘冢,字頭”而歸并至Z鍵,可將“輿左角”改變?yōu)椤拜涬p角”,等等。進(jìn)而可采用一個與附圖1所示基件(可不涉及基件的取碼及歸并)重合度較高的且能與本發(fā)明所述漢字拆分方法(重在內(nèi)容描述)相匹配的漢字基件集,而實(shí)現(xiàn)漢字鍵盤輸入、漢字手寫(筆寫,指書等)輸入、漢語分詞且不限于這些用途。(三)取碼及歸并漢字拆分方法和相交拆分的“度”的提出雖然為基件作了定量處理要求,但并不足以構(gòu)成優(yōu)秀技術(shù)方案的充分條件,還必須就基件的取碼方式作進(jìn)一步探討,使基件具有易用性?;?有的只是字根、字元、字梁等)的取碼通常有三種作法,一是硬性地將基件主要分布在25或26個字母上,二是依照基件與字母的形似性將其歸并到字母,三是賦予基件一個讀音,按讀音首字母對其進(jìn)行取碼與歸并。硬性分布決定了基件和取碼對應(yīng)的無規(guī)律性,導(dǎo)致對基件取碼記憶的困難。形似歸并雖有一定的邏輯依據(jù),但相似的部件間經(jīng)常出現(xiàn)取碼“客串”現(xiàn)象,且相似性并沒有必然性,只是人為賦予一種想象而將字母和基件聯(lián)系在一起,時間久了,聯(lián)系記憶的鏈條也會斷裂。按基件讀音首字母對其取碼與歸并則不同,這些基件具有字的讀音而在本質(zhì)上成為了或本就是構(gòu)成其他漢字的基礎(chǔ)漢字,其音和形早已融為一體(拼音教育基本使之如此)。只要學(xué)會這些基礎(chǔ)漢字,又有誰能輕易地將它們的音和形分開呢?由此,本發(fā)明對漢字基件的選擇、取碼與歸并作如附圖1的安排基件被用來拆分不是基件的漢字或漢字部分,能獨(dú)立作現(xiàn)代漢字使用的基件稱為成字基件(簡稱基件字或成字),否則稱為非成字基件(非成字)。所有基件中,75%以上是漢字或常用漢字部首,余下的利用其所在的漢字來記憶。EIAOU首筆與筆畫“一丨j、L(橫豎撇點(diǎn)折)”書寫相似,故將“一Ii、L”等單筆基件的鍵位定為EIA0U,同時將鄰筆順的“短長兩橫(或漢字‘二’)和等長兩橫”、“兩豎”、“三撇”、“兩點(diǎn)和四點(diǎn)(包括漢字‘O,)”、“三折”定為EIAOU;也可將它們按HSPDZ取碼歸并?!癓”包括所有折筆。對多筆基件(包括基件變體)則取其(或其所在漢字的)讀音首字母為碼并按取碼歸并?!翱诳谪巍钡哪硢喂P不與其他筆畫構(gòu)成基件,“1”僅位于其他基件上方或下方,因此“一”不變?yōu)椤耙籠漢字筆畫有時發(fā)生變化,如“一"“[—/”、”“J—丨”“—,,“L-L,,"I-[”等,其漢字變化如“且一助”“十一直”“木一樣”“小一少雀”“兒習(xí)一耀翼”“袁—園”等;“豐半羊”末筆變?yōu)槠踩纭鞍钆严琛钡?,“斤月”撇變?yōu)樨Q如“兵散”等,在進(jìn)行漢字拆分時發(fā)生變化后的基件要還原成本來的基件形體?!耙弧奔仁菃喂P基件也是成字基件。成字基件單獨(dú)作漢字使用時,“長”表“生長”或職務(wù)時鍵位為Ζ,“車(車)”表“乘車”或棋子時鍵位為J,“乘”表車輛時鍵位為S,“鳥(鳥)”表謔語(讀diao)時鍵位為D,“石”表重量單位時鍵位為D,“龜”表“裂紋”時鍵位為J;“一乙”單獨(dú)用作漢字時鍵位為Y?;唉?立字頭)”和“7(冰字邊),,的區(qū)別在于“1”處于其他部件上方或下方,“口k0u”和臨時基件“口w6i”的區(qū)別在于“口w6i”中間含有與之相交的筆畫或不相交的兩個及以上筆畫?;g不存在似是而非的替代,如不用“夕”替代“夂”,不用“七”替代“匕”或“七”,不用“日”替代“曰”或“冒”的上半部分等。這些基件也可進(jìn)一步歸并成更大或更小的類,如將25類歸并為10個數(shù)字類(鍵09),或?qū)?5類分布到26個鍵位(鍵AZ)甚至30多個鍵位上。多筆基件除了取其(或其所在漢字的)讀音首字母為碼外,也可增加字母作為區(qū)分碼,如將有相同讀音首字母(取碼)S的“山尸身士”增加區(qū)別碼變?yōu)椤皊a”“sh”“se”“si”等而使彼此相區(qū)別。本發(fā)明將GB13000.1字符集所有漢字進(jìn)行拆分、排序,進(jìn)行統(tǒng)計的結(jié)果是①所有漢字的拆分均為全息拆分;②每個漢字的拆分都毫不例外地遵循同一拆分方法,不存在二義拆分特例;③8300個通用字中較難拆分的有“重垂噩”,其拆分分別為“j一日丨二”、“J十*一一”和“一丨口口一口口一”(“噩”字筆順可考慮作一定修改),拆分難度基本符合本發(fā)明對“度”的描述。由此可見,本發(fā)明的基件易學(xué)難忘易用接近于漢字拼音,既利于漢字傳統(tǒng)教學(xué)和計算機(jī)輔助教學(xué),也易于采用目前拼音輸入法的智能技術(shù)。三、輸入方式在鍵盤輸入方面,本發(fā)明有3種通用鍵盤輸入方式和3種數(shù)字鍵盤輸入方式。通用鍵盤漢字輸入系統(tǒng),其字形輸入方式為表1所示<table>tableseeoriginaldocumentpage17</column></row><table><table>tableseeoriginaldocumentpage18</column></row><table>表1字形輸入方式在漢語輸入上有其偏向性,即偏向于字形輸入,重字形而不重字音,因此僅用字形輸入方式對中小學(xué)電腦輔助漢語(漢字)教學(xué)以及習(xí)慣于用拼音進(jìn)行鍵盤輸入的人是不利的,必須輔以字音輸入方式,以彌補(bǔ)字形輸入之不足。在漢字音、形的掌握上,形、音、音形三種漢字輸入方式理應(yīng)齊頭并進(jìn),相得益彰,成為人們學(xué)習(xí)漢字、使用漢語的有效工具。上述字形方式相應(yīng)可產(chǎn)生字音輸入方式如表2所示<table>tableseeoriginaldocumentpage18</column></row><table>表2其相應(yīng)產(chǎn)生的音形輸入方式如表3所示<table>tableseeoriginaldocumentpage18</column></row><table><table>tableseeoriginaldocumentpage19</column></row><table>表3數(shù)字鍵盤漢字輸入系統(tǒng),其字形輸入方式如表4所示<table>tableseeoriginaldocumentpage19</column></row><table>表5其相應(yīng)產(chǎn)生的音形輸入方式如表6所示<table>tableseeoriginaldocumentpage20</column></row><table>表6通過“V”鍵加輸入方式涉及的編碼或數(shù)字選擇鍵等,可實(shí)現(xiàn)這些輸入方式之間的切換。如在某輸入方式狀態(tài)下,鍵入ν會出現(xiàn)帶有序號和編碼的上述所有輸入方式,再鍵入相應(yīng)編碼或序號數(shù),可轉(zhuǎn)至所要的輸入方式。鍵盤輸入方式中的漢語拼音可按照聲韻相拼后的形體,將聲母和韻母分開(不含聲調(diào)),其中將音節(jié)開頭的1、w定為聲母,將y、w后的部分定為韻母,根據(jù)聲韻相拼規(guī)則將ang禾口iong、ia禾口an、ian禾口uang、ua禾口iao、uai禾口ing、ui禾口in、ο禾口uan、Ue(ue)禾口en這8組幾乎不共用聲母的韻母分別置于某一個字母鍵位上以實(shí)現(xiàn)漢語拼音的聲韻簡化,來進(jìn)行漢語拼音簡化輸入。比如可將這8組韻母分別置于某一個字母鍵位上,實(shí)現(xiàn)漢語拼音的如下聲韻簡化,此僅為若干種歸并方法中的一種<table>tableseeoriginaldocumentpage20</column></row><table><table>tableseeoriginaldocumentpage21</column></row><table><table>tableseeoriginaldocumentpage22</column></row><table>其中zh,ch,sh對應(yīng)的簡拼也可讓步為z,c,S。助記口訣是羌-外_惡-兒_頭,藥_束-嗤_哦-砰,炸-喪-電-飯-鍋,花-蕨-潰-零-縱,修-村-別-女-袂;uan同ο,jen與kin,來當(dāng)(+u)好發(fā)松(+i)。Qiang-wai-e-er-tou,yao_shu_chi_o_perig,zha-sang-dian-fan-guo,hua-jue-kui-1ing-zong,χiu-cun-bie-nii-mei;uan=ο,jen-kin,Iuai,duang,hiao,fia,siong.口訣內(nèi)容是從塞外來了惡人頭目,“嗤-哦-碎’點(diǎn)燃了炸藥,砸爛了廚房里的電飯鍋,栽種的花兒草兒潰撒一地,少女為了修復(fù)村莊告別女裝(而拿起斗爭的武器);uan在0,en在j,in在k,“來當(dāng)”拼音中加u(uai的簡拼為1,uang的簡拼為d),“好發(fā)松”拼音中加i(iao的簡拼為h,ia的簡拼為f,iong的簡拼為s)。在漢語拼音及其簡拼參與漢字輸入時,不僅基件輸入可變?yōu)橄鄳?yīng)取碼的筆畫輸入,而且漢字輸入也可用簡拼后的聲母和/或韻母取代筆畫作為補(bǔ)碼方式。如“盟”進(jìn)行漢語拼音輸入時,其取碼字母可以是mengry,也可以是mpry,還可以是mengiu、mpiu,或menghs、mphs,等等。再如“盟”進(jìn)行字形輸入時,其取碼字母可以是rymiu,也可以是rymmp等。上述諸輸入方式還可做局部調(diào)整,甚至可以直接按照每字兩鍵(其中不排除漢字串平均每字或幾字一鍵輸入的應(yīng)用)的方式(并可在任意漢字對應(yīng)的編碼后添加字形、字音或筆畫方面的標(biāo)識字母)進(jìn)行輸入而不必區(qū)分字、詞或短語。如,要輸出“本發(fā)明有如下顯著優(yōu)勢”這個語句,可用如下方式且不限于這些方式進(jìn)行輸入(I)Bjfamlytruxfxdauytui.(2)Bjmefamlytruxfxdauytuisj.(3)Bjfamlytruxfxayu.(4)Bjfamlytruxfxzys.(5)Mefaryzynkebryctrysj.(6)Mebj/Meeifaryzynkebryctrysj.......四、手寫輸入基于本發(fā)明的漢字手寫輸入系統(tǒng),只需建立一個包含幾百個對象的識別庫即可。它的實(shí)現(xiàn)是將鍵盤漢字輸入系統(tǒng)和手寫識別系統(tǒng)相結(jié)合。具體是按照鍵盤輸入方式,手寫語句單位的基件或其對應(yīng)的編碼(字母或數(shù)字等);讓手寫識別系統(tǒng)只對約297個基件、26個字母(或更少的字母)或10個數(shù)字(或更少的數(shù)字)或其他進(jìn)行識別;手寫識別系統(tǒng)將識別出的基件或其對應(yīng)的編碼進(jìn)行分向處理;實(shí)現(xiàn)基件序列與漢字串的映射,或通過鍵盤漢字輸入系統(tǒng)實(shí)現(xiàn)編碼與漢字串的映射,然后將基件或其對應(yīng)的編碼所對應(yīng)的語句單位顯示在屏幕上。如附圖2所示。這樣,就將原來對每個漢字進(jìn)行整字的復(fù)雜識別轉(zhuǎn)變?yōu)閷s279(或297)個基件、26個字母(或更少的字母)或10個數(shù)字(或更少的數(shù)字)或其他進(jìn)行的識別,同時將手寫識別系統(tǒng)和通用鍵盤漢字輸入系統(tǒng)的優(yōu)勢相結(jié)合,從而提高漢字手寫輸入的速度和效率。(一)手寫基件比如輸入和識別“繁”字的過程可演示如表7所示。<table>tableseeoriginaldocumentpage23</column></row><table>表7此時書寫的基件序列惟一,故只有“繁”字上屏。當(dāng)“繁”字上屏?xí)r,待選框中出現(xiàn)聯(lián)想候選詞。這是輸入單字進(jìn)行聯(lián)想輸入詞或詞組的方式,然而它的功能更能通過以詞、短語或語句為單位的輸入體現(xiàn)出來。下面看輸入和識別“南轅北轍”一詞的過程,如表8所示。<table>tableseeoriginaldocumentpage23</column></row><table>表8此時書寫的基件序列惟一,只有“南轅北轍”一詞上屏。而事實(shí)上,當(dāng)寫到基件“十車”時,“十車”的序列也是惟一的,“南轅北轍”一詞就可自動上屏。由此可知,這種書寫的好處是它不僅能書寫完整的漢字(“整”字手寫),便于給基件設(shè)置識別節(jié)點(diǎn),實(shí)現(xiàn)“連基件”和“連字”書寫,從而提高整字輸入效率,也能直接書寫漢字串的基件(“缺”字手寫)而非每個完整的漢字實(shí)現(xiàn)漢字連寫;“缺”字書寫較之“整”字書寫速度更快,識別效果更好,基件序列基本唯一,出現(xiàn)同碼單位的幾率幾乎為零,因此手寫輸入速度和效率會更高。(二)手寫字母這種方式同鍵盤輸入方式接近,不同的是前者是鍵入字母,通過鍵盤給鍵盤漢字輸入系統(tǒng)下達(dá)指令,而后者是手寫字母,通過手寫識別系統(tǒng)給原來的鍵盤漢字輸入系統(tǒng)下達(dá)指令。比如輸入和識別“繁”字的過程可演示如表9所示。、‘1--··._./.|餘·”ΓIj1.僑adqIl.每ae|l.敏|l.鳘|l.繁榮富強(qiáng)2.佚af2.體重ae2.體現(xiàn)j2.繁χ2.繁榮昌盛3.仵ag3.繁重ae3.化整為零y3.繁花似錦4.低amo4.休ai4.鳘y4.繁文縟節(jié)5.人ao5.們ao5.繁yx5.繁亂L0191」6.入ao6.糴ao6.繁重7.仟as7.繁亂as7.繁冗8.任as8.休憩as8.繁密9.仫as9.體系ay9.繁榮0.賃asb0.倚馬千言ay__0.繁蕪:rIinIwIy丨χ表9當(dāng)“繁”字上屏?xí)r,待選框中出現(xiàn)聯(lián)想候選詞,這和一般字形輸入的聯(lián)想輸入基本相同。而輸入和識別“南轅北轍”一詞的過程可演示如表10所示。:·[‘I--T^fe^rg^EZDjSlSmi1.屬actIl.射aiIl.賁Il.南轅北徹2.飫ad2.蝕ai2.搭背b2.扼守3.撟adq3.導(dǎo)向at3.導(dǎo)購b4.嶠adq4.搭背bb4.南轅北轍c5.手aeei5.導(dǎo)購bb5.扼守c6.縋agi6.南轅北轍be6.搭客d7.身aiueeea7.扼守be7.礞es8.紙am8.搭客bd8.撈19.砥amo9.礞bes9.嶗10.抵amo0.撈bl0.嶸m__sc丨b丨c表10這一過程雖然書寫簡單,但和鍵盤輸入時一樣,同碼現(xiàn)象不可避免,因此當(dāng)字母被識別后,輸入法的操作實(shí)際上就是鍵盤輸入系統(tǒng)的操作了。以上僅作字形輸入方式舉例,其他鍵盤輸入方式(包括漢語拼音簡拼)對應(yīng)的手寫輸入方式與此相似,故不累述。(三)手寫數(shù)字此方式同手寫字母輸入方式大致相同,不同的是前者手寫26個字母或更少的字母,而后者手寫10個類數(shù)(1、2、3等類)或更少類數(shù),故要輸入相同的語句單位,手寫數(shù)字的個數(shù)一般要求相對多些,以保證輸入的效率。(四)鍵盤指書手寫輸入方式是唯一既能保持漢字文化又能跟電腦實(shí)現(xiàn)交互的方式?!爸笗币彩鞘謱戄斎敕绞剑瑴?zhǔn)確一點(diǎn)說,就是用手指頭書寫進(jìn)行漢字輸入,它既可以在熒光屏上輸入,也可在鍵盤位上輸入,是筆寫技術(shù)的升華。當(dāng)用手指替代手寫筆進(jìn)行漢字書寫的時候,基于本發(fā)明的指書方式就順理成章地應(yīng)用到電腦、手機(jī)等產(chǎn)品上。Motorola公司曾于2005年推出其第二代指書A732型手機(jī),以其“鍵盤指書”特色名噪一時,至2008年其主打產(chǎn)品卻回歸到屏幕手寫手機(jī),以及演變成“通用鍵盤鍵輸”手機(jī),原因不在于它成熟的技術(shù),而在于當(dāng)時的“指書”無法真正滿足人們的訴求,“中看中玩不中用”,實(shí)用價值不大。對數(shù)字鍵盤鍵輸、通用鍵盤鍵輸、屏幕手寫和鍵盤指書四種手機(jī)的實(shí)用性可作簡單分析,如表11所示調(diào)查項(xiàng)數(shù)字鍵盤鍵輸手機(jī)(w)通用鍵盤鍵輸手機(jī)(X)屏幕手寫手機(jī)(y)鍵盤指書手機(jī)(z)速度和準(zhǔn)確率可接受值(a)w>ax>w>aa>ya>y>z是否受搖晃、震動影響不受影響不受影響受影響不受影響需雙手操作還是單手操作單手操作雙手操作雙手操作單手操作表11四種手機(jī)中,數(shù)字鍵盤鍵輸手機(jī)和鍵盤指書手機(jī)最方便,便于人們騰出另一只手干別的事情,乘車也能方便使用,這是數(shù)字鍵盤鍵輸手機(jī)歷經(jīng)屏幕手寫而發(fā)展到數(shù)字鍵盤指書的一大緣由。然而,數(shù)字鍵盤指書有一個致命的問題,就是手指書寫需要的面積相對較大,鍵盤區(qū)域不足以很好地書寫漢字,書寫不便,常溢出鍵盤區(qū)域外而導(dǎo)致書寫失敗。另外,目前的整字手寫識別技術(shù)也達(dá)不到隨心所欲的要求,這也限制了數(shù)字鍵盤“指書”功能的發(fā)揮。人們購買需要進(jìn)行漢字輸入的手機(jī),一般首先看重的是它的實(shí)用性。數(shù)字鍵盤指書手機(jī)雖然簡便,但以“犧牲”其實(shí)用性為代價,因此“簡便”也變得不可接受了。人們寧愿麻煩一點(diǎn),選擇鍵盤來提高漢字輸入速度和效率。通常情況下,使用原來的數(shù)字鍵盤鍵輸手機(jī)也能應(yīng)付日常需要。不熟悉鍵盤輸入的,也會選擇屏幕手寫手機(jī),而很少會選用數(shù)字鍵盤指書手機(jī)?;谶@樣的原因,原本前途看好的鍵盤指書手機(jī)就這樣淡出了市場。手指尖比筆尖要粗得多,字的筆畫多了,指書時自然需要比筆寫更大的、與之相適應(yīng)的接觸面供其書寫。而手機(jī)鍵面,或者說單手可握的手機(jī)面積又是基本一定的,因此鍵盤指書手機(jī)的尷尬處境,實(shí)際上是整字輸入的弊端造成的。而基于本發(fā)明的鍵盤(包括通用鍵盤和數(shù)字鍵盤)指書系統(tǒng),卻不必整字書寫。只需指頭(甚至是大拇指)在鍵盤區(qū)域移動書寫漢字(非整字書寫,而只寫漢字基件),或書寫漢字(或漢字基件)對應(yīng)的編碼(字母或數(shù)字等),就能像屏幕手寫筆輸入那樣輸入漢字,且速度和效率更高。此時,返回至上述分析表(表11),結(jié)合本發(fā)明的優(yōu)勢,可以得出這么一個結(jié)論,就是a>y>ζ可以演變成a>ζ>y甚至是ζ>a>y。因?yàn)殡S著手寫識別技術(shù)的日趨完善,指書效率將越來越高。這樣,鍵盤指書手機(jī)就將重返市場,給人們帶來更多的方便,并促使這些信息產(chǎn)品“瘦身”。五、智能化智能語句級漢字輸入系統(tǒng),其聯(lián)想和糾錯等功能實(shí)現(xiàn)的核心是語言模型,特別是文法語言模型和基于網(wǎng)絡(luò)的統(tǒng)計語言模型的綜合運(yùn)用,其中可以文法語言模型為主,統(tǒng)計語言模型為輔。統(tǒng)計語言模型一般只在文法語言模型出現(xiàn)歧義或無法判斷等情況下起作用。這一過程也可以不需要文法語言模型的參與。可用如下示意表(且為字形輸入方式)來演示輸入“水池的溫度不適合這種植物的生長”這句話的整個過程,主要展示其糾錯功能。按照取碼方式取“水池”的編碼sisy,輸入,過程顯示如表12所示。水池ι.水池‘2.水滸3.水潭4.水澤_表12“水池”既上屏又在待選框中,上屏的“水池”下方有“______”,顯示可修改,修改方式見下文。繼續(xù)以“的”字的簡碼d(或加空格)輸入“的”字。如表13所示。水池的*‘.、.■Γι.水池的2.水滸的3.水潭的4.水澤的_表13以語句方式進(jìn)行輸入,遇同碼單位時可暫不理會,等到一句話擊鍵完成后再進(jìn)行修正。比如原本要輸入“水池的溫度不適合這種植物的生長”這句話。則此句話擊鍵完成后顯示如表14所示。水池的溫度不適合這種植物的生長<table>tableseeoriginaldocumentpage27</column></row><table>表14在輸入過程中,如無同碼單位,則不出現(xiàn)待選框,上屏的單位等待修改或確定。若出現(xiàn)同碼單位,則系統(tǒng)根據(jù)語言模型排列出優(yōu)選項(xiàng),并默認(rèn)第一項(xiàng)上屏,此時上屏的單位等待修改或確定。待選框內(nèi)各項(xiàng)同碼部分用顏色標(biāo)識,便于選擇。用上下鍵和空格鍵,或僅用數(shù)字鍵(也可用“,”、“。,,等替代)可選擇某項(xiàng)上屏。修改語句單位時,可采用如下方式(1)如需修改同碼部分,按住shift鍵后使用左右鍵,即可在各同碼部分之間切換。假設(shè)用戶輸入“asre”不是希望得到“適合”而是想得到“辭行”(僅是假設(shè))一詞,則可按住shift鍵然后使用左右鍵切換到“asre”,此時在原有待選框的上方彈出另一待選框,提供原待選框以外的同碼單位。如表15所示。<table>tableseeoriginaldocumentpage27</column></row><table>表15同樣使用上下鍵和空格鍵,或僅用數(shù)字鍵(也可用“’”、“上屏,則原待選框中的各項(xiàng)也跟著變化,上屏內(nèi)容也可能跟著變化。來的待選框可能變?yōu)槿绫?6所示。水池的濕度不辭行這種植物的生長<table>tableseeoriginaldocumentpage27</column></row><table>表16(2)如需改動其他部分,只需使用左右鍵移動到需要修改的地方進(jìn)行添加、刪除或修改操作。假如此處把“動物”錯鍵成“植物”,要更正過來,則使用左右鍵將光標(biāo)滑動到“msnw”部分。如表17所示。水池的濕度不辭行這種植物的生長ι.的不辭行這種植物的生長2.水,ν的不辭行這種植物的生長3.的不辭行這種植物的生長4.t^,的擬υ不辭行這種植物的生長_表17修改為“esnw”即可。同理,如出現(xiàn)同碼單位,則依然彈出第二待選框供選擇。此時上述待選框變?yōu)槿绫?8所示。水池的濕度不辭行這種動物的牛長ι.的不辭行這種動物的生長2.水沖的不辭行這種動物的生長3.的、Λ.不辭行這種動物的生長4.水丨O的況&不辭行這種動物的生長_表18使用上下鍵和空格鍵,或僅用數(shù)字鍵(也可用“,”、“?!钡忍娲?可選擇某項(xiàng)上屏,而直接按空格鍵則是確定上屏內(nèi)容,也即是選擇了第一項(xiàng)。以上是字形輸入方式,拼音、音形輸入方式與其同理,此處不再贅述。通過演示可看出,上述字形輸入方式在漢字拆分和基件取碼上比以往形碼輸入法容易,輸入較之簡便,速度自然也要快很多,比既有的漢語拼音方式也快一些。六、分詞功能上述輸入方式下,分詞可不直接面對漢字,而是先對輸入的編碼按詞庫中的編碼組合進(jìn)行分割。編碼分割存在若干種可能,分割的結(jié)果是漢字的不同組合。系統(tǒng)對每一漢字組合進(jìn)行比較,選出最符合或最接近文法語言模型的組合。若完全符合但有同碼單位或不完全符合(且有同碼單位),則輔以統(tǒng)計語言模型。這一過程也可以不需要文法語言模型的參與。如果編碼分割的結(jié)果能作為漢字的副本被系統(tǒng)記錄,則以記錄的編碼組合為依據(jù),這些組合對應(yīng)的漢字就可由系統(tǒng)按漢語單位的編碼規(guī)則生成新詞,而用戶只要輸入新的編碼就能輸入這些內(nèi)容。在此過程中,一組編碼有多種分割可能,并不代表分割后對應(yīng)的詞語單位可以再分詞。如輸入漢語拼音tongjimou可能出現(xiàn)“統(tǒng)計-某”或“同-計謀”的分詞結(jié)果,但按字形輸入方式輸入slysgm只能出現(xiàn)“統(tǒng)計_某”,“統(tǒng)計-某”不會因其他內(nèi)容而自動切分為“同-計謀”。即是說,如果輸入slys,“統(tǒng)計”就是一個整體,不會被分割開。這是因?yàn)?,傳統(tǒng)的分詞一般首先依據(jù)概率最大值來決定分詞的結(jié)果,從而表現(xiàn)為漢語拼音的分詞,每個漢字在分詞之前都是孤立的。而上述輸入方式是在系統(tǒng)進(jìn)行分詞之前就內(nèi)在地或“人工”地將某些內(nèi)容作了分詞處理。文字內(nèi)容只是在這種手工分詞不充分及符合文法語言模型但達(dá)不到使用者之預(yù)期效果的情況下,系統(tǒng)才被要求輔之以概率統(tǒng)計處理。由此可見,上述輸入方式事實(shí)上對漢字內(nèi)容進(jìn)行了兩次分詞處理,這有別于漢語拼音輸入。對漢字的編碼進(jìn)行分割有兩個好處,一是輸入編碼后按空格鍵,意味在這些編碼后設(shè)置了切分點(diǎn);二是字形(以及在此基礎(chǔ)上產(chǎn)生的拼音和音形)取碼輸入特性決定其漢字分詞的選擇性較之漢語拼音全拼輸入要小得多。分詞的可能性越小,意味著文法語言模型中需要考慮的對象(語言單元)越少,原來需要對每個語言單元作文法描述,而現(xiàn)在只需對極少數(shù)歧義分詞以及少數(shù)同碼現(xiàn)象進(jìn)行描述和規(guī)定,其描述對象和難度大大降低,從而使文法語言模型起實(shí)質(zhì)性作用成為可能。文法語言模型起實(shí)質(zhì)性作用,會進(jìn)一步提高分詞精度。而分詞結(jié)果作為漢字的副本被系統(tǒng)記錄,不僅能進(jìn)一步提高漢字輸入速度和準(zhǔn)確率,更有助于機(jī)器翻譯、機(jī)器搜索等相關(guān)機(jī)器智能問題的解決。七、信息產(chǎn)品微型化本發(fā)明“手寫(筆寫,指書等)+通用鍵盤漢字輸入系統(tǒng)”的設(shè)計便于給手寫識別設(shè)置識別節(jié)點(diǎn),實(shí)現(xiàn)“連基件”和“連字”書寫,甚至是“盲寫”——不必看著手機(jī)面,也可以正確進(jìn)行漢字輸入,這將從漢字本質(zhì)上解決很多漢字輸入方面的難題,從而實(shí)現(xiàn)漢字輸入速度和效率的飛躍。未來人們可能更希望擁有像現(xiàn)在的學(xué)習(xí)機(jī)甚至是電子詞典那樣“迷你”的筆記本電腦,擁有輕、薄、面積小、開關(guān)機(jī)方便快捷、待機(jī)時間長、隨需隨用等優(yōu)點(diǎn)。人的手不會變小,所以只有數(shù)字鍵盤、筆寫、指書才能最終促成電腦的微化,而本發(fā)明為數(shù)字鍵盤、筆寫、指書的高速漢字輸入提供了保障,對電腦的微化起到了關(guān)鍵性的作用。本發(fā)明的應(yīng)用不限于電腦和手機(jī),且更能促使各種信息產(chǎn)品相互之間進(jìn)行完美結(jié)合。比如,人們再也無法將筆記本和學(xué)習(xí)機(jī)區(qū)分開了,因?yàn)樗鼈円呀?jīng)沒有任何可供區(qū)分的界線,都是集多種功能于一身的新的微型電腦,是現(xiàn)有諸產(chǎn)品的結(jié)合與“瘦身”,是真正意義上隨身隨時解決各種問題的筆記本。當(dāng)前的許多便攜科技產(chǎn)品都有體積小、開關(guān)機(jī)方便快捷、待機(jī)時間長等優(yōu)點(diǎn),現(xiàn)在簡要設(shè)計一種將這些優(yōu)點(diǎn)與本發(fā)明的效能相結(jié)合所產(chǎn)生的新型便攜電子科技產(chǎn)品。如附圖3所示。八、漢字檢索基件的排列具有序性,漢字拆分成基件后,漢字具有序性也就成為可能?,F(xiàn)在的問題是,每個漢字具有的序性能否比較有效地將彼此區(qū)分開?如果能,則漢字的檢索問題就可以得到解決。本發(fā)明已經(jīng)給出漢字拆分的方法,制定了漢字基件表,并給基件命了名取了碼。因此理論上只要將漢字逐個拆分成基件序列,將基件序列轉(zhuǎn)變成取碼序列,然后按照取碼序列進(jìn)行排序,就可以得出結(jié)論。依此方法,本發(fā)明將GB13000.1字符集所有漢字進(jìn)行拆分、取碼、排序,進(jìn)行統(tǒng)計的結(jié)果是①所有漢字的拆分均為全息拆分;②每個漢字的拆分都毫不例外地遵循同一拆分方法,不存在二義拆分特例;③8300個通用字中較難拆分的有“重垂噩”,其拆分為“j一日丨二”、“J十*一一”和“一[口口一口口一”,拆分難度基本符合本發(fā)明對“度”的描述;④所有漢字碼長范圍為212,其中碼長為2的漢字有2567個,碼長為3的漢字有6754個,碼長為4的6220個,碼長為5的3555個,碼長為6的1369個,碼長為7的365個,碼長為8的109個,碼長為9的49個,碼長為10的6個,碼長為11的1個,碼長為12的3個,碼長不超過6的漢字占(21003-533)/20996=97.46%;⑤GB13000.1字符集漢字經(jīng)過在23碼同碼字后增加該漢字前兩筆取碼及將同碼簡繁體字合并后,形成20152條檢索碼。其中2字同碼的有2007組,3字600組,4字202組,5字103組,6字43組,7字27組,8字10組,9字5組,10字1組,11字2組,12字1組,13字1組,同碼數(shù)不超過5的檢索碼占(20151-629)/20151=96.88%,同碼數(shù)不超過10的檢索碼占(20151-47)/20151=99.77%。析而綜之可知,按照本發(fā)明進(jìn)行漢字拆分的結(jié)果唯一,碼長總體適中,便于操作,漢字的序列具有比較好的區(qū)分度,這樣就可以形成一種能夠較好地對漢字進(jìn)行排序檢索的基件(基件)檢字法。基件檢字法不僅能從基件的角度對漢字進(jìn)行排序檢索,也能在漢語拼音方案的基礎(chǔ)上將漢字的拼音和基件相結(jié)合,形成一種漢語拼音加基件的新型排序檢索方法。因其雖不同于單純漢語拼音檢字法,但仍以拼音為主而以基件為輔,故也稱為拼音檢字法。其方法一般為“漢語拼音(不含聲調(diào),或用aeiou分別代替聲調(diào)14聲和輕聲)”+“漢字(至少)前兩個基件讀音首字母”。其中漢語拼音按本發(fā)明進(jìn)行聲韻簡化。基件檢字法和拼音檢字法的示例如表19所示。\漢字基件檢字法拼音檢字法繁rmwyxfanfan(e)rm葉ksyeks(o)ksye天edtianedtian(a)ed方foeuafSngoefang(a)oe(上述漢字未按任何方法排序)表19漢字音形“脫離”的特點(diǎn)決定漢字排序檢索必須采用“音”“形”兩種方法,以滿足不同的檢索需求。于某一漢字,音形皆知既可用基件檢字法也可用拼音檢字法,只知字形則宜于采用基件檢字法,而只知字音則宜于采用拼音檢字法。總體而言,教學(xué)用漢字采用基件檢字法和拼音檢字法均可,超出此范圍的其他漢字則宜于采用基件檢字法。九、漢語(漢字)教學(xué)漢字本身包括字音、字形、字義三個方面,對漢字的學(xué)習(xí)也必然包括對漢字字音、字形、字義三個方面的學(xué)習(xí)。字音教學(xué)的問題已由《漢語拼音方案》解決,字形、字義的教學(xué)卻有待改進(jìn)。本發(fā)明以“絕對尊重古今漢字筆畫(形狀、數(shù)量、順序),盡量考慮古今漢字展現(xiàn)的間架結(jié)構(gòu),進(jìn)而盡量符合漢字造字歷史”的原則為指導(dǎo)制定漢字拆分方法和漢字基件集?!敖^對尊重古今漢字筆畫的形狀、數(shù)量和順序”是確保漢字的字形無誤。字形是字義的載體,如果筆畫錯了,整個漢字就錯了;漢字錯了,其字義也就不復(fù)存在。正所謂“皮之不存,毛將焉附”?筆畫是字形的微觀單位,只有字形得到保障,字義才能完整?!氨M量考慮古今漢字展現(xiàn)的間架結(jié)構(gòu)”是保證漢字的字形無誤的延伸。漢字筆畫的組合,必然表現(xiàn)出某種格局(間架結(jié)構(gòu)),結(jié)構(gòu)是筆畫群的走向,它從宏觀上體現(xiàn)漢字的字形,從而成為保證字義的又一手段。僅有筆畫正確還不夠,必須從整體上反映漢字形體,便于漢字再現(xiàn)和使用者把握,它以正確的筆畫為前提?!氨M量符合漢字造字歷史”是盡量要求在一定程度上,從與字義有關(guān)的歷史和現(xiàn)實(shí)方面反映字義,以便于更好地理解漢字的字義,它必須以正確的筆畫和間架結(jié)構(gòu)為基礎(chǔ),脫離這個現(xiàn)實(shí),追求漢字的字源或造字歷史無疑是本末倒置。因此,本發(fā)明使?jié)h字的構(gòu)字單位在真正意義上實(shí)現(xiàn)了由筆畫到基件的轉(zhuǎn)變。換言之,每個漢字都是由若干個筆畫組合構(gòu)成的,這些筆畫組合又是確定的,于8300個通用漢字而言,就是266或278個基件(可作調(diào)整);8300個通用漢字中的任何一個漢字都由266或278個基件(可作調(diào)整)中的若干個構(gòu)成,毫無例外。這樣,利用漢字結(jié)構(gòu)和漢字基件來學(xué)習(xí)漢字書寫的理論就能被系統(tǒng)地固定下來。漢字識字教學(xué)過程可用如表20的公式表示。若干基件X漢字結(jié)構(gòu)(基件組合關(guān)系)=漢字1;[漢字1+基件(或部首)]χ漢字結(jié)構(gòu)(基件組合關(guān)系)=漢字A、B、C...[漢字A+基件(或部首)]X漢字結(jié)構(gòu)(基件組合關(guān)系)=漢字a、b、c.........表20例如,“同”字是半包圍結(jié)構(gòu),“門”中包圍著“一”和“口”兩個部件,并且“一”和“口”是上下結(jié)構(gòu),這樣“同”字的正確書寫就被確定下來。“同”加“廣”構(gòu)成“痼”字,屬半包圍結(jié)構(gòu);加“”構(gòu)成“筒”字、加“*”構(gòu)成“茼”字,屬上下結(jié)構(gòu);加“·”構(gòu)成“銅”字、加“木”構(gòu)成“桐”字、加“?,,構(gòu)成“洞”字、加“4”構(gòu)成“侗”字、加“石”構(gòu)成“硐”字、力口“山”構(gòu)成“峒”字、加“土”構(gòu)成“垌”字、加“個”構(gòu)成“恫”字、加“月”構(gòu)成“胴”字,屬左右結(jié)構(gòu),由此“痼筒茼銅桐洞侗硐峒垌恫胴”這12個字的正確書寫也被確定下來。而通過表意的“廣木?彳石山土個月”等部件,又可更好地理解這些字的字義。進(jìn)一步,“霜”等漢字也就更易于掌握。這一教學(xué)過程和效果,可以充分地以本發(fā)明來實(shí)現(xiàn)。權(quán)利要求一種基于漢字拆分的智能語句級漢字輸入系統(tǒng),采用語言模型和網(wǎng)絡(luò)搜索引擎技術(shù)等作為實(shí)現(xiàn)聯(lián)想功能和糾錯功能的重要手段,其特征是,為使?jié)h字鍵盤輸入、手寫(筆寫、指書等)輸入、信息技術(shù)漢語(漢字)教學(xué)、漢字檢索、漢語分詞、語音輸入、機(jī)器翻譯及智能搜索且不限于這些實(shí)踐涉及的漢字拆分毫無例外地遵循同一拆分方法和采用一定的基礎(chǔ)部件(以下簡稱基件),以綜合解決上述問題,易學(xué)易用,從而按照“絕對尊重古今漢字筆畫(形狀、數(shù)量、順序),盡量考慮古今漢字展現(xiàn)的間架結(jié)構(gòu),進(jìn)而盡量符合漢字造字歷史,最終有利于解決漢字檢索、教學(xué)和輸入等一系列問題”的原則,在漢字拆分方法制定和基件選取相互制約、互相作用的實(shí)踐中,最終采取一定的漢字拆分方法并實(shí)現(xiàn)漢字基件的初步定量,按基件(或其所在漢字)的讀音首字母對基件取碼及歸并,然后用此拆分方法和所采用的基件對漢字進(jìn)行拆分,并依一定的方式進(jìn)行智能語句級或非語句級漢字鍵盤和手寫(筆寫、指書等)輸入、信息技術(shù)漢語(漢字)教學(xué)、信息化漢字檢索、漢語分詞、語音輸入、機(jī)器翻譯及智能搜索等,從而應(yīng)用在電腦、手機(jī)、機(jī)頂盒、學(xué)習(xí)機(jī)、速錄機(jī)、電子辭典且不限于這些電子信息設(shè)備上。2.如權(quán)利要求1所述的智能語句級漢字輸入系統(tǒng),其特征在于,其漢字拆分方法包括第一步“交否基件少”。指,恪守漢字筆畫的形狀、數(shù)量和順序,采用基件拆分漢字。如不相交拆分能完全拆出基件則不相交拆分,否則相交拆分,使拆出的基件盡量少。第二步“離接交成多”。指,拆分不唯一時,能離不接,能接不交;再盡量多地拆出成字基件,然后使先拆出的基件筆畫盡量多。本漢字拆分方法允許有輔助輸入臨時性拆分方法。即上述漢字拆分方法指出要嚴(yán)格遵照漢字筆順對漢字進(jìn)行拆分,但為了滿足部分人群的漢字輸入需求,也可按漢字形體結(jié)構(gòu)臨時拆出“匚戈弋工大土山兒夫七蟲口向”且不限于這些基件(盡管它們的筆順有時被其他基件隔開),進(jìn)而可按漢字形體結(jié)構(gòu)對“必秉朿丑乘東柬可來巨酉束兆州冊豕”且不限于這些漢字或漢字部分臨時進(jìn)行拆分,其他部分依然遵從筆順拆分,使拆出的基件盡量少。上述第一步的內(nèi)容可調(diào)整為恪守漢字筆畫的形狀、數(shù)量和順序,采用基件拆分漢字,使拆出的基件盡量少。上述第二步的內(nèi)容可調(diào)整為拆分不唯一時,能離不接,能接不交;再盡量多地拆出成字基件,然后使較先(或較后)拆出的基件筆畫盡量多。其中“再盡量多地拆出成字”可不予考慮。上述第二步的內(nèi)容可調(diào)整為拆分不唯一時,能離不接,能接不交;再盡量多地拆出成字并使(特別是能較先或較后拆出的)成字筆畫盡量多,然后使較先或較后拆出的非成字筆畫盡量多。同時概述可改為“離接交成非”。其中“能離不接,能接不交”和/或“再盡量多地拆出成字并使(特別是能較先或較后拆出的)成字筆畫盡量多,然后使較先或較后拆出的非成字筆畫盡量多”可不予考慮;也可將“再盡量多地拆出成字并使(特別是能較先或較后拆出的)成字筆畫盡量多,然后使較先或較后拆出的非成字筆畫盡量多”調(diào)整為“再使較先或較后拆出的基件筆畫盡量多”。上述第二步的內(nèi)容可調(diào)整為拆分不唯一時,能離不接,能接不交(相交拆分要盡量多地拆出成字),再使較先(或較后)拆出的基件筆畫盡量多。同時概述可改為“離接交先(/后)多,,°也可增設(shè)上述第二步涉及的個別漢字或漢字部分為基件,從而去掉此第二步。還可直接刪除上述第二步,僅遵照第一步內(nèi)容拆分漢字,此時有些漢字可兼容拆分,即有多少種拆分可能就允許有多少種拆分,無論哪種拆分都行。上述各調(diào)整可在各個層面綜合運(yùn)用。作上述調(diào)整時,拆分方法的內(nèi)涵愈小,拆分結(jié)果的外延就愈大,意味著需要的基件也就可能愈多,這時可根據(jù)調(diào)整后的具體拆分方法在已給基件(如附圖1所示)的基礎(chǔ)上采用增加、刪減、改變、移動基件等方式,來達(dá)到更佳的漢字拆分編碼狀態(tài)。3.如權(quán)利要求2所述的智能語句級漢字輸入系統(tǒng),其特征在于,漢字拆分及其拆分方法涉及包括如附圖1所示的基件(基礎(chǔ)部件)并按附圖1所示取碼與歸并分布(1)利用大寫字母AEI0U的書寫首筆與漢字筆畫“撇橫豎點(diǎn)折”的形近聯(lián)系,將“橫豎撇點(diǎn)折”等單筆基件的取碼相應(yīng)定為EIA0U并按取碼歸并,也可將它們按HSPDZ取碼歸并;(2)對多筆基件(包括變體)取其(或其所在漢字的)讀音(漢語拼音)首字母為碼并按取碼歸并。4.如權(quán)利要求3所述的智能語句級漢字輸入系統(tǒng),其特征在于(1)基件可作增加、刪減、改動、移位等調(diào)整,其取碼歸并也作相應(yīng)變化;(2)基件可以合并成更大的部件或拆分成更小的部件而作為新的基件;(3)基件可進(jìn)一步歸并成更大或更小的類;(4)多筆基件除了取其(或其所在漢字的)讀音首字母為碼外,也可增加字母作為區(qū)分碼。5.如權(quán)利要求2所述的智能語句級漢字輸入系統(tǒng),其特征在于,還可以采用一個與附圖1所示基件(可不涉及基件的取碼及歸并)重合度較高的且能與本發(fā)明所述漢字拆分方法(重在內(nèi)容描述)相匹配的漢字基件集,而實(shí)現(xiàn)漢字鍵盤輸入、漢字手寫(筆寫、指書等)輸入、漢語分詞且不限于這些用途。6.如權(quán)利要求1所述的智能語句級漢字輸入系統(tǒng),其特征在于,鍵盤輸入方式可以是⑴<table>tableseeoriginaldocumentpage3</column></row><table><table>tableseeoriginaldocumentpage4</column></row><table>或⑶<table>tableseeoriginaldocumentpage4</column></row><table>或⑷<table>tableseeoriginaldocumentpage4</column></row><table>五字及以上每字首基件或(5)<table>tableseeoriginaldocumentpage4</column></row><table>或(6)<table>tableseeoriginaldocumentpage5</column></row><table>并且這些輸入方式可以通過“V”鍵加輸入方式對應(yīng)的編碼或數(shù)字選擇鍵等實(shí)現(xiàn)相互之間的切換。7.如權(quán)利要求6所述智能語句級漢字輸入系統(tǒng),其特征在于,還包括,鍵盤輸入方式中的漢語拼音可按照聲韻相拼后的形體,將聲母和韻母分開(可不含聲調(diào)),其中將音節(jié)開頭的y、w定為聲母,將y、w后的部分定為韻母,根據(jù)聲韻相拼規(guī)則將ang和iong、ia和an、ian禾口uang、ua禾口iao、uai禾口ing、ui禾口in、o禾口uan、iie(ue)禾口en這8組JL乎不共用聲母的韻母分別置于某一個字母鍵位上以實(shí)現(xiàn)漢語拼音的聲韻簡化,來進(jìn)行漢語拼音簡化輸入,并且在漢語拼音及其簡拼參與漢字輸入時,不僅基件輸入可變?yōu)橄鄳?yīng)取碼的筆畫輸入,而且漢字輸入也可用簡拼后的聲母和/或韻母取代筆畫作為補(bǔ)碼方式輸入。8.如權(quán)利要求1、2、3、4、5、6或7所述智能語句級漢字輸入系統(tǒng),其特征在于,還包括,鍵盤輸入方式可稍作調(diào)整,甚至可以直接按照每字兩鍵(其中不排除漢字串平均每字或幾字一鍵輸入的應(yīng)用)的方式(并可在任意漢字對應(yīng)的編碼后添加字形、字音或筆畫方面的標(biāo)識字母)進(jìn)行輸入而不必區(qū)分字、詞或短語。9.如權(quán)利要求1、2、3、4、5、6或7所述的智能語句級漢字輸入系統(tǒng),其特征在于,還包括,與手寫識別系統(tǒng)相結(jié)合,按照一定的規(guī)則手寫(用筆、手指等書寫)基件、基件的取碼或取碼類數(shù)、漢語拼音及其簡化拼音等進(jìn)行漢字輸入。10.如權(quán)利要求1、2、3、4、5、6或7所述的智能語句級漢字輸入系統(tǒng),其特征在于,還包括,本系統(tǒng)的實(shí)現(xiàn)手段及其結(jié)果可用于漢語(漢字)教學(xué)、漢字檢索,并可與自動分詞技術(shù)、網(wǎng)絡(luò)搜索引擎技術(shù)且不限于這些技術(shù)相結(jié)合,用來提高分詞、語音輸入、機(jī)器翻譯及智能搜索等的精度,從而可應(yīng)用在電腦、手機(jī)、機(jī)頂盒、學(xué)習(xí)機(jī)、速錄機(jī)、電子辭典且不限于這些電子信息設(shè)備上。全文摘要基于漢字拆分的智能語句級漢字輸入系統(tǒng),特別適用于漢字鍵盤輸入、手寫(筆寫、指書等)輸入、信息技術(shù)漢語(漢字)教學(xué)、漢字檢索、漢語分詞、語音輸入、機(jī)器翻譯及智能搜索等領(lǐng)域。按照“絕對尊重古今漢字筆畫(形狀、數(shù)量、順序),盡量考慮古今漢字展現(xiàn)的間架結(jié)構(gòu),進(jìn)而盡量符合漢字造字歷史,最終有利于解決漢字檢索、教學(xué)和輸入等一系列問題”的原則,采取一定的漢字拆分方法并實(shí)現(xiàn)漢字基件定量,按基件(或其所在漢字)的讀音首字母對基件取碼歸并,然后用此拆分方法和所采用的基件對漢字進(jìn)行拆分,并依一定的方式進(jìn)行智能語句級或非語句級漢字鍵盤和手寫輸入、信息技術(shù)漢語(漢字)教學(xué)、信息化漢字檢索、漢語分詞、語音輸入、機(jī)器翻譯及智能搜索等。文檔編號G06F3/023GK101833376SQ20101011327公開日2010年9月15日申請日期2010年1月30日優(yōu)先權(quán)日2010年1月30日發(fā)明者王道平申請人:王道平
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
海伦市| 广丰县| 延安市| 嘉兴市| 常德市| 抚宁县| 汉阴县| 兴城市| 南康市| 兰溪市| 瑞昌市| 湘阴县| 咸宁市| 石阡县| 剑河县| 清流县| 松江区| 安丘市| 灵丘县| 右玉县| 福泉市| 涟源市| 班玛县| 阿拉善左旗| 衡阳县| 大竹县| 喀喇沁旗| 谢通门县| 全椒县| 日照市| 株洲县| 合江县| 靖边县| 岗巴县| 琼结县| 博罗县| 白河县| 子洲县| 东乡族自治县| 梓潼县| 白水县|