欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

數(shù)字鍵盤智能拼音漢字輸入方法

文檔序號:6421249閱讀:403來源:國知局
專利名稱:數(shù)字鍵盤智能拼音漢字輸入方法
技術領域
本發(fā)明涉及一種漢字的輸入方法,特別是一種以“語句”為單位通過數(shù)字鍵盤將漢字輸入到手機、電話機、傳真機、或掌上類電子設備的方法。
背景技術
拼音是漢字的標準音調符號,因其易學易用,成為最受歡迎的漢字輸入手段,缺點是由于漢字多音字現(xiàn)象很普遍,因而重碼率高,基于字、詞的拼音輸入往往速度較慢,手機等信息處理設備利用數(shù)字鍵盤進行拼音輸入面臨的這種問題更加明顯。根據(jù)上下文建立漢語語言模型,在此基礎上以語句為單位進行輸入能很好地克服普通漢字輸入法的弊端。
數(shù)字鍵盤中,每個按鍵對應多個英文字母或者漢語拼音字母,在利用拼音進行漢字輸入時,存在多種輸入歧義,目前的數(shù)字鍵盤拼音漢字輸入法通常不能同時消除這些歧義。歧義包括以下幾種1.數(shù)字鍵位歧義。數(shù)字鍵盤上的每個按鍵多數(shù)對應多個(三~四個)字母(如圖1所示),按一次鍵不能確定唯一的字母,常用的有效方法是根據(jù)不同情況多次按相應的鍵。例如數(shù)字鍵“2”對應三個字母“A”、“B”、和“C”,想分別輸入這三個字母,最常用的一種方法是按一次“2”鍵輸入“A”,連續(xù)按二次“2”鍵輸入“B”,連續(xù)按三次“2”鍵輸入“C”。
2.拼音組合歧義。由第一種歧義引發(fā),一個按鍵序列(可用數(shù)字序列表示)可對應多個漢語拼音。這里每個合法漢語拼音對應的數(shù)字序列稱之為數(shù)字拼音,所以換句話說,一個數(shù)字拼音通常對應多個合法的候選標準拼音,如數(shù)字拼音“226”對應“ban”、“can”兩個合法拼音,而數(shù)字拼音“726”則對應“pan”、“pao”、“rao”、“san”、“sao”、“ran”等多達六個合法拼音。
3.同音多字歧義。通過拼音輸入漢字,如果以字、詞為單位通常存在大量候選,如輸入拼音“shi”,其對應的漢字包括“時、使、識、是、…”等,輸入拼音“shi shi”,其對應的漢字詞包括“實施、逝世、事實、…”等,對應國標GB2313-80中的漢字,同音字最多超過130個,新的國標中,這種現(xiàn)象更為嚴重。由于一個數(shù)字拼音對應多個標準拼音,使用數(shù)字拼音輸入漢字時的重碼現(xiàn)象要嚴重幾倍。以字或詞為單位輸入漢字,必須有一個用戶選擇同音字、詞的過程,需要時常翻頁,大大影響了輸入速度。
目前在數(shù)字鍵盤上利用拼音輸入漢字的各種方法均不能同時消除以上歧義。

發(fā)明內容
本發(fā)明的目的在于提供一種在手機、電話機、傳真機或掌上類電子產(chǎn)品等主要由數(shù)字鍵構成的小鍵盤上使用的數(shù)字鍵盤智能拼音漢字輸入方法。本發(fā)明輸入采取連續(xù)輸入方式,一次輸入多個字的拼音信息,這些字通常組合為一個短語或句子,系統(tǒng)對輸入信息進行處理,選擇具有最大可能的對應漢字結果作為輸出,如果該結果正確,用戶再輸入一個確認學習鍵結束,否則進入句內編輯方式對該結果進行修改,修改錯誤完畢后,輸入確認學習鍵結束。本發(fā)明輸入法可以處理通過數(shù)字鍵盤以各種方式輸入的漢語拼音,通過語句級的上下文分析將拼音語句自動轉換為漢字語句。以句子為單位輸入漢語拼音,由于句子中各漢字或詞之間存在語法、語義關系,可以根據(jù)上下文自動消除輸入過程中的各種歧義,確定正確的同音字。本發(fā)明方法具有以更少的按鍵次數(shù)來達到更快輸入的優(yōu)點。


圖1是目前手機等信息設備中數(shù)字鍵盤字符鍵的通用布局示意圖,圖2是數(shù)字拼音智能漢字輸入處理流程圖,圖3是音字轉換錯誤修正的流程圖,圖4是強制學習的一種實現(xiàn)流程圖。
具體實施例方式
一本發(fā)明輸入采取連續(xù)輸入方式,一次輸入多個字的拼音信息,這些字通常組合為一個短語或句子,系統(tǒng)對輸入信息進行處理,選擇具有最大可能的對應漢字結果作為輸出,如果該結果正確,用戶再輸入一個確認學習鍵結束,否則進入句內編輯方式對該結果進行修改,修改錯誤完畢后,輸入確認學習鍵結束。
以句子為單位輸入漢語拼音,由于句子中各漢字或詞之間存在語法、語義關系,可以根據(jù)上下文自動消除以上各種歧義,確定正確的同音字。如輸入標準拼音串“ha er bin shi ge mei li de cheng shi”,轉換系統(tǒng)可將其自動轉換為漢語句子“哈爾濱是個美麗的城市”,其同音字的選擇由音字轉換系統(tǒng)自動進行,大大減輕了用戶選字的麻煩,提高了輸入速度。
語句級輸入是本輸入法的基本方式,最能體現(xiàn)智能輸入的優(yōu)越性,為兼容不同語言單位的輸入,本輸入法可對字、詞、短語和任意長的句子或漢字串進行音字轉換處理,為用戶提供多種可選方式。這些不同方式都可看作語句輸入方式的特例。
使用標準計算機鍵盤輸入漢字,直接按上述方式輸入字母串即可確定唯一拼音串,進而實現(xiàn)語句級輸入。在手機等信息設備中,必須利用數(shù)字鍵盤(小鍵盤)輸入信息。使用本發(fā)明輸入法,拼音輸入仍然可以直接按照小鍵盤盤面定義的字母輸入,一鍵對應多個字母的只需輸入同一鍵,輸入完一個完整拼音后可以輸入一個拼音結束確認鍵,再接著輸入下一個拼音,或者省略拼音結束確認鍵,由系統(tǒng)自動切分拼音,連續(xù)輸入數(shù)字拼音串所產(chǎn)生的數(shù)字鍵位歧義、拼音組合歧義、和同音多字歧義由系統(tǒng)根據(jù)語言模型處理。
以數(shù)字拼音輸入漢字,基本表達形式如下用數(shù)字串代替標準拼音串,根據(jù)鍵盤定義,每個字母按順序對應一個數(shù)字,數(shù)字拼音之間顯式輸入拼音確認鍵,如用0作為人工確認鍵,例如輸入“哈爾濱是個美麗的城市”,則輸入的數(shù)字拼音串表示為“420370246074404306340540330243640744”。
數(shù)字拼音串到漢字串的轉換可以在輸入完所有數(shù)字拼音并按確認鍵后一次性轉換,也可以在確認輸入每一個數(shù)字拼音后立即轉換已輸入的所有數(shù)字拼音,這樣用戶可以隨時知道轉換結果,便于隨時進行錯誤修改,或在認為輸入正確的情況下及時給與確認。這兩種處理方式適合各種拼音輸入形式。
顯式輸入拼音確認鍵是因為相鄰兩個拼音連續(xù)輸入時存在界限劃分的歧義。比如對標準拼音而言,字符串“shengen”既可切分為“shen”和“gen”,也可切分為“sheng”和“en”。其相應的數(shù)字串“7436436”至少可切分為兩種結果“7436”和“436”,或“74364”和“36”。有時一個字符串既可看作一個拼音,也可看作兩個拼音,如字符串“xian”,其本身是一個合法拼音,同時也可看作兩個拼音“xi”和“an”的組合,其相應的數(shù)字拼音也存在同樣問題。對數(shù)字拼音而言,類似現(xiàn)象更為嚴重,不同的切分結果可能更多。一個未切分的數(shù)字串可以對應多種數(shù)字拼音的組合。如根據(jù)實驗結果,數(shù)字串“423724674443634543324364744”可切分為多達189種合法的數(shù)字拼音組合。
人工輸入拼音確認鍵,增加了按鍵信息,本發(fā)明可以自動對數(shù)字串進行切分,確定最合理的切分結果。
具體實施方式
二連續(xù)輸入數(shù)字拼音,無需用戶輸入拼音切分確認鍵。例如輸入“哈爾濱是個美麗的城市”,輸入的對應數(shù)字串為“423724674443634543324364744”。正確地切分數(shù)字拼音由系統(tǒng)自動處理。
這種方式的弊端是有時會發(fā)生轉換錯誤,此時需要額外的錯誤修正過程。
具體實施方式
三本實施方式為以上兩種實施方式的混合運用。用戶根據(jù)經(jīng)驗在認為可能出現(xiàn)切分歧義的情況下對數(shù)字拼音進行人工確認,即輸入確認鍵(如“0”鍵),其他情況下由系統(tǒng)自動切分。同時限定在對當前拼音進行切分時,其前面的切分結果不變,即在處理當前拼音時,默認前面的切分結果是正確的,以避免不同轉換結果帶來的反復修改的麻煩。在用戶輸入過程中,如果發(fā)現(xiàn)拼音切分錯誤可以及時糾正,這樣可以減少后續(xù)的拼音切分和拼音漢字轉換錯誤。這種靈活輸入方式能在盡量降低擊鍵次數(shù)的同時保證輸入的準確性。因而這里的混合輸入方式是最理想的。
實現(xiàn)語句輸入,需要在設備的顯示屏幕上開辟出特定區(qū)域顯示輸入信息、待編輯的轉換結果和候選提示信息。
以下為使用本實施方式進行漢字輸入的例子。
例1輸入“下午開會”。其對應的數(shù)字拼音依次為“924”、“98”、“524”、“484”。
輸入 輸出 說明924 已構成一個完整拼音,待切分9 下“9”被看作下一個拼音的開始,從此處開始切分8 下此時“98”已構成完整拼音5 下午 “5”被看作下一個拼音的開始,從此處開始切分24下午 此時“524”已構成完整拼音4 下午來“4”被看作下一個拼音的開始,從此處開始切分840 下午開會 “484”構成完整拼音,“0”作為拼音結束鍵,轉換出最后結果
0 整個句子輸入確認鍵。
例2輸入“再就業(yè)工作”。其對應的數(shù)字拼音依次為“924”、“548”、“93”、“4664”、“986”。
輸入 輸出 說明924已構成一個完整拼音,待切分5 在 “5”被看作下一個拼音的開始,從此處開始切分48在 此時“548”已構成完整拼音9 再就 “9”被看作下一個拼音的開始,從此處開始切分34再就 此時“934”已構成完整拼音,但不是需要的結果,應在“3”和“4”之間切分C(刪除鍵) 再就 按刪除鍵刪去“4”0 再就業(yè) 按“0”手工切分4664 再就業(yè) 此時“4664”已構成完整拼音9 再就業(yè)工 “9”被看作下一個拼音的開始,從此處開始切分860 再就業(yè)工作 “0”作為拼音結束鍵,轉換出最后結果0 整個句子輸入結束確認鍵。
具體實施方式
四當輸入一個數(shù)字拼音后,系統(tǒng)提示出對應的所有標準拼音,用戶確定需要的唯一漢語拼音,這樣能提高系統(tǒng)的轉換正確率,但確認過程增加了按鍵信息,降低了語句輸入的流暢性。
以上幾種實施方式的拼音表達方式都使用了不等長的標準拼音形式,除此之外,每個拼音音節(jié)還可以通過以下方式來輸入使用等長的壓縮拼音形式,如三鍵確認一個標準拼音。這種情況下,拼音漢字轉換程序可以直接針對標準漢語拼音進行處理,數(shù)字鍵到標準拼音的轉換由具體的拼音輸入方法處理,與拼音漢字轉換程序無關。這種方式由于輸入不同拼音的擊鍵數(shù)相等,所以無需額外的拼音確認鍵,也不存在自動切分拼音的難題,可進一步減少拼音輸入的擊鍵次數(shù),降低系統(tǒng)的復雜程度,同時由于輸入的漢語拼音是確定的,減少了候選漢字的數(shù)量,可進一步提高漢字轉換結果的準確率。
拼音到漢字轉換的方法由拼音到漢字的轉換(音字轉換)通過采用語言模型技術自動完成。這里拼音包括數(shù)字拼音在內的各種拼音形式。
音字轉換過程能同時自動處理前文所述的各種輸入歧義。
給定數(shù)字串,得到相應的漢字結果,存在幾條途徑1.給定數(shù)字串→得到所有可能的漢字串→找到可能性最大的漢字串作為結果;2.給定數(shù)字串→切分數(shù)字拼音(如未切分)→如有切分錯誤進行手工修正→得到所有可能的漢字串→找到可能性最大的漢字串作為結果;3.給定數(shù)字串→切分數(shù)字拼音(如未切分)→如有切分錯誤進行手工修正→轉換為標準漢語拼音串→如存在轉換錯誤則手工選擇正確拼音→得到所有可能的漢字串→找到可能性最大的漢字串作為結果。
以上幾種方法實現(xiàn)起來,人工干涉依次越來越多,導致漢字候選越來越少,轉換精度越來越高。作為折衷,申請人認為第二種方法最理想。理由是第一種方法轉換的漢字串可能不對應正確的數(shù)字拼音切分結果,因而不利于錯誤修改;第三種方法人工干涉過多。在數(shù)字拼音切分正確的前提下,一次性轉換為漢字,如存在轉換錯誤再去修改可能的錯誤漢字和拼音,是比較可行的。第二種方法適合前面給定例子。
以上方法中包括幾個存在包含關系的子步驟1.給定未切分的數(shù)字拼音串,得到切分的數(shù)字拼音串;2.給定切分的數(shù)字拼音串,得到正確的標準漢語拼音串;3.給定未切分的數(shù)字拼音串,得到標準漢語拼音串;4.給定未切分的數(shù)字拼音串、或切分的數(shù)字拼音串、或標準漢語拼音串,得到漢字串。
這些問題的解決可以使用語言模型技術。語言模型包括基于語言知識的規(guī)則模型和統(tǒng)計模型。統(tǒng)計語言模型是主流方法,其中最簡單有效的是N-gram模型(N-1階Markov模型)假設句子s由詞串w1w2…wn組成,使用語言模型M,s的概率pM(s)可表示為pM(s)=p(w1)Πi=2np(wi|w1···wi-1)---(1)]]>由于n值所限,當前詞的概率依賴于前面所有詞的同現(xiàn)概率在現(xiàn)實中是無法估計的,因此在N-gram模型中,假設當前詞的出現(xiàn)概率僅與相鄰的前N-1個詞有關,此時wi-N+1…wi-1wi稱為N元對,通常N小于或等于3,當N值取3時有pM(s)≈p(w1)p(w1|w2)Πi=3np(wi|wi-2wi-1)---(2)]]>采用最大可能性原理估計N(3)元概率值p(wi|wi-2wi-1)p(wi|wi-2wi-1)=c(wi-2,wi-1,wi)Σwic(wi-2,wi-1,wi)---(3)]]>其中,c(*)表示*在訓練語料中出現(xiàn)的次數(shù)(頻率)。
語言模型應用于智能拼音漢字轉換系統(tǒng),問題的求解轉化為給定一拼音串(包括數(shù)字拼音),求使pM(s)值為最大的漢字串s。為解決數(shù)據(jù)稀疏問題,采用線性插值方法進行數(shù)據(jù)平滑。
模型中的w1w2…wn既可以是詞串,也可以是字串。將w1w2…wn看成數(shù)字拼音串或標準拼音串,就構成了求解唯一拼音串的數(shù)學模型。求解過程可采用Viterbi算法。
為支持本發(fā)明的數(shù)字拼音切分、數(shù)字拼音-標準拼音轉換和各種形式的音字轉換,需提供以下幾個知識庫1.標準漢語拼音表漢語拼音字符形式的列表。用于標準拼音的查詢,進一步供拼音提示、查找同音字和計算最大可能拼音串使用。
2.數(shù)字拼音表按照現(xiàn)有小鍵盤上的數(shù)字與字母的對應關系定義的數(shù)字拼音列表。按從小到大的順序排序。用于數(shù)字拼音的查詢和切分。
3.數(shù)字拼音到標準漢語拼音的索引表標明數(shù)字拼音到漢語拼音的對應關系。與前兩個表一起用于通過數(shù)字拼音查詢標準拼音。
索引形如726->pan,pao,ran,rao,san,sao;其中對應同一個數(shù)字拼音的多個標準拼音按字母順序排序。
4.帶漢語拼音并按拼音排序的漢語字庫(國家標準,字可以看作單字詞)和詞庫(幾千到幾萬詞條)用于根據(jù)拼音串(一個或多個拼音)查找相應字或詞并組合所有可能的句子,也用于查找對應某個拼音或拼音串的所有同音字詞候選,供提示選擇用。為便于查詢,按詞長不同分別存儲。
詞條形如zhong guo 中國zhuan li fa 專利法5.數(shù)字拼音統(tǒng)計知識庫包括數(shù)字拼音的N元對和其頻率信息,它由大規(guī)模數(shù)字拼音語料統(tǒng)計得到。用于根據(jù)N-gram模型計算拼音切分結果。例如一元對形式94664 800二元對形式94664 482 350三元對形式94664 482 736 60其中,最后一段整數(shù)為頻率,前面數(shù)字串為數(shù)字拼音6.漢語拼音統(tǒng)計知識庫包括拼音的N元對和其頻率信息,它由大規(guī)模漢語拼音語料統(tǒng)計得到。用于根據(jù)N-gram模型計算最大可能的標準拼音序列。例如一元對形式zhong 400二元對形式zhong hua 150三元對形式zhong hua ren 307.漢語詞(單字看作一字詞)的統(tǒng)計知識庫包括詞的N元對和其頻率信息,它由大規(guī)模漢字文本語料統(tǒng)計得到。用于根據(jù)N-gram模型計算最大可能的漢字轉換結果。例如一元對形式中華 300二元對形式中華 人民 120
三元對形式中華 人民 共和國 50具體實施方式
五本實施方式為給定未切分的數(shù)字拼音串,得到正確切分的數(shù)字拼音串的處理過程,即自動切分加手工修正過程1.給定數(shù)字拼音串(通過數(shù)字鍵盤連續(xù)輸入并按轉換確認鍵);2.查詢“數(shù)字拼音表”得到對應輸入數(shù)字串的所有數(shù)字拼音組合;3.查詢“數(shù)字拼音統(tǒng)計知識庫”,得到相應數(shù)字拼音的N元對信息,利用N-gram模型和Viterbi算法計算最大可能的數(shù)字拼音切分結果,并顯示于屏幕;4.如果存在切分錯誤,手工刪除錯誤結果,重新輸入相應拼音并手工切分。
(5.轉到音字轉換過程)具體實施方式
六本實施方式為給定切分好的數(shù)字拼音串(包括用戶在前面編輯過程中的錯誤修改信息),得到相應的漢字結果的處理過程(對應圖2中的拼音漢字轉換過程)1.給定已切分好的數(shù)字拼音串,同時給定用戶在上次編輯過程中的錯誤修改信息;2.查找“數(shù)字拼音到標準漢語拼音的索引表”得到每個數(shù)字拼音對應的標準拼音,如果某數(shù)字拼音對應的漢語拼音在前面的句內編輯過程中已被用戶唯一選定,則只需要已選定的標準拼音;3.根據(jù)每個可能的標準拼音的連續(xù)組合查找“帶拼音的詞庫”獲得所有對應的漢字和詞,得到結果漢字串的所有可能的字詞組合,如果某數(shù)字拼音對應的漢字在前面的句內編輯過程中已被用戶唯一選定,則只需要已選定的漢字及在相應位置包含這個字的詞;4.查詢“漢語詞的統(tǒng)計知識庫”,獲得相應漢字詞的N元對信息,利用N-gram模型和Viterbi算法計算最大可能的漢字串,作為音字轉換結果。
(5.轉到句內編輯過程)具體實施方式
具體實施方式
六即是系統(tǒng)對輸入信息進行處理的主要過程。
具體實施方式
七本實施方式為數(shù)字鍵盤智能拼音漢字輸入系統(tǒng)的典型運行過程,其主要步驟如圖2所示,例1、例2為其實施例,要點包括
1.以數(shù)字拼音形式輸入漢字語句;2.輸入一個數(shù)字拼音之后可手工輸入拼音確認鍵,也可以由系統(tǒng)自動切分拼音,自動切分時,前面的切分結果不變,如果發(fā)現(xiàn)切分錯誤,可手動刪除錯誤結果,重新輸入數(shù)字拼音并手動切分;3.在確認一個新拼音后,連同之前輸入的拼音,系統(tǒng)對其進行音字轉換,并顯示轉換結果,手動確認拼音時,在按確認鍵后開始音字轉換,自動切分拼音時,對切分好的拼音進行音字轉換;4.每次音字轉換后,可以接著輸入下一個漢字的數(shù)字拼音,也可以進入句內編輯狀態(tài),或在按確認鍵后結束本句輸入過程;5.在句內編輯狀態(tài),可以按提示選擇方式修正音字轉換錯誤,也可以進行拼音插入、刪除、修改等操作;6.句內編輯結束后,可選擇強化記憶或自然記憶過程,之后結束本句輸入過程;7.在句內編輯過程中如果對原始輸入有修改,必須重新進行音字轉換;8.幾種情況下結束本句輸入按強化記憶或自然記憶鍵后、按結束確認鍵后。
具體實施方式
八輸入法提供對錯誤的漢字轉換結果的編輯程序,編輯包括錯誤修正和拼音插入、刪除、修改等功能。
音字轉換并不總是100%正確,當存在各種轉換錯誤時需要對其修正。如例2所示,數(shù)字拼音的切分錯誤最好在其輸入過程中隨時修正。音字轉換之后系統(tǒng)會根據(jù)用戶指示(通常將光標移動到所要修改的漢字前面)提示出某數(shù)字拼音對應的多個標準拼音,或其同音字(這里同音可以針對標準拼音、數(shù)字拼音等各種拼音形式),如果用戶發(fā)現(xiàn)存在轉換錯誤,可以根據(jù)提示來選擇正確的拼音、字或詞,在這之后,系統(tǒng)會將用戶選擇的拼音或字確認下來重新進行音字轉換。如果仍然存在轉換錯誤,則繼續(xù)修改,直到完全正確為止。
這里錯誤修正包括拼音的重新選擇和漢字詞的重新選擇兩個階段,一種實現(xiàn)方法是如果有拼音確定錯誤,則先提示數(shù)字拼音對應的多個標準拼音,供用戶選擇,如果沒有拼音確定錯誤或錯誤已糾正,則用戶判斷是否有音字轉換錯誤,如有,則提示同音字或詞,供用戶進一步選擇。
另一種方法是同時提示可選拼音和所有對應漢字,如果選擇某拼音,則接著提示該拼音所對應的漢字;或者直接選擇漢字,如果當前屏幕沒有所需漢字,則使用翻頁鍵翻頁。一種實現(xiàn)方案如下例所示步驟1.假設鍵盤輸入為“3260”(“0”用來確認拼音),則屏幕首先顯示出其轉換(根據(jù)上下文進行音字轉換)結果,假設為“刀”;步驟2.如果想修改轉換結果,將光標移動到“刀”前面,或額外按提示鍵,則系統(tǒng)可以以3乘3、3乘4或3乘5的矩陣形式同時顯示該數(shù)字拼音對應的標準拼音(同一數(shù)字拼音對應的標準拼音不超過6個,一頁足以顯示)和候選漢字(),如下所示fan dao dan刀 反 到翻 但 彈拼音顯示在前,漢字顯示在后,可分別按使用頻率的大小進行排列。這種顯示方法布局與數(shù)字鍵盤的9個數(shù)字鍵的布局相對應,因此可以方便地通過對應位置的數(shù)字鍵來選擇相應的拼音或漢字。
步驟3.拼音或漢字選擇。如果按某個拼音對應的鍵,則系統(tǒng)會接著以同樣方式提示該拼音所對應的漢字,如按“2”鍵,則系統(tǒng)接著以矩陣形式提示“dao”對應的同音漢字刀 到 島導 盜 倒稻 搗 蹈如果按某個漢字對應的鍵則選擇相應的漢字,如果該頁沒有所選漢字,則按翻頁鍵提示下一頁同音字,直到出現(xiàn)所選漢字,按相應數(shù)字鍵進行選擇。例如在顯示第一個矩陣后按“9”鍵,得到漢字“彈”,而在顯示第二個矩陣后按“9”鍵則得到漢字“蹈”。
圖3給出了按此種方式修正音字轉換錯誤的流程。
以上錯誤修正可能引起新的轉換錯誤,因此這種錯誤修正必須按照一定的順序進行,比如自左向右的順序,此時當修改某個轉換錯誤時,系統(tǒng)假設其左邊的轉換是正確的,這樣重新進行音字轉換時對已轉換正確的內容不造成影響。這種處理方法也適合對拼音自動切分錯誤的修正。也可以采用其它的錯誤修正順序。通常修正一個錯誤重新進行音字轉換后可以進一步減少后面的錯誤。
當用戶發(fā)現(xiàn)自己的輸入存在問題(如拼音拼寫錯誤、切分錯誤、拼音選擇錯誤、多輸入或少輸入拼音等)時,系統(tǒng)為用戶提供拼音修正、插入、刪除等編輯功能。
為完成以上各種句內編輯功能,本方法需設置相應的提示鍵、光標左右移動鍵、翻頁鍵、選擇鍵、漢字刪除鍵、插入鍵、句內編輯結束鍵(自然記憶學習結束鍵、強制記憶學習結束鍵)等功能鍵。由于數(shù)字鍵盤中按鍵有限,以上功能鍵可以復用,根據(jù)其所處狀態(tài)決定其功能。由于插入、刪除方法屬已有技術,所以在此不再贅述。
具體實施方式
九在對可能的音字轉換錯誤經(jīng)過修正后,本輸入法能夠自動學習用戶知識,不斷提高音字轉換的準確率。機器學習區(qū)分為兩種方式,本實施方式為其中的一種即“自然學習”在用戶輸入自然學習命令后,輸入法可小幅度地增加相應字、詞、或N元詞對的頻率值,或同時減小其他字、詞、或N元詞對的頻率值,經(jīng)過一段時間的學習、記憶使特定語言現(xiàn)象(字或詞)在候選中的優(yōu)先性逐步提高。
在“句內編輯”程序之后設置“自然記憶”程序將程序自動提供的漢字串和修正后的正確漢字串進行對比,對兩個漢字串中對應漢字不相等的位置作標記,將修正后的漢字串中包含以上標記的詞及其與相鄰詞構成的N元對的頻率分別增加一較小固定值(比如3、4或5)即可。
具體實施方式
十本實施方式為“強制學習”,在經(jīng)過錯誤修正后輸入強制學習命令,系統(tǒng)可對正確的結果強化記憶,比如大幅增加相應字、詞、或N元詞對的頻率值,或同時大幅減小錯誤轉換結果的頻率值,以便下一次輸入同樣內容的情況下轉換正確。圖4給出了強制學習的一種實現(xiàn)流程。在絕大多數(shù)情況下可以達到強制學習目的,只有當互相競爭的不同候選字、詞或N元詞對的頻率都達到極限值(受存儲器內部數(shù)值表示范圍的限制)時,無法達到此目的。為有效防止或限制這種情況的發(fā)生,系統(tǒng)在達到極值的詞或詞對數(shù)達到一個限定值(設置變量記錄此值)時,將對整個知識庫中的頻率信息按比例減值,以預留足夠的增值空間。
在“句內編輯”程序之后設置“強化記憶”程序將程序自動轉換的漢字串和修正后的正確漢字串進行對比,對兩個漢字串中對應漢字不相等的位置作標記,將修正后的漢字串中包含以上標記的詞及其與相鄰詞構成的N元對的頻率分別增加一較大固定值(可以是10~50),然后針對初始輸入的數(shù)字串系統(tǒng)內部重新進行數(shù)字拼音到漢字的轉換過程,以此驗證“強化記憶”是否達到了目標,此時判斷是否仍然存在音字轉換錯誤?否,強制學習結束,當前語句輸入過程結束;若仍然存在音字轉換錯誤,則判斷相關頻率是否已增至系統(tǒng)允許極限值?是,將記錄頻率達到極限值的詞或詞對個數(shù)的變量增值,強制學習結束,當前語句輸入過程結束,否,轉到“將程序自動提供的漢字串和修正后的正確結果漢字串進行對比”程序。
系統(tǒng)的知識存儲空間有限,因此在記憶一段時間后可以根據(jù)先進先出規(guī)則“適時地”刪去某些記憶信息。這一方面能防止系統(tǒng)知識庫規(guī)模的無限擴大,另一方面也符合并模擬了人的記憶規(guī)律,即人的記憶是有限的,對最近記憶的信息印象最深,這能有效避免記憶知識的沖突。
權利要求
1.一種數(shù)字鍵盤智能拼音漢字輸入方法,其特征在于輸入采取連續(xù)輸入方式,一次輸入多個字的拼音信息,這些字通常組合為一個短語或句子,系統(tǒng)對輸入信息進行處理,選擇具有最大可能的對應漢字結果作為輸出,如果該結果正確,用戶再輸入一個確認學習鍵結束,否則進入句內編輯方式對該結果進行修改,修改錯誤完畢后,輸入確認學習鍵結束。
2.根據(jù)權利要求1所述的數(shù)字鍵盤智能拼音漢字輸入方法,其特征在于拼音為不等長標準拼音或者等長的壓縮拼音。
3.根據(jù)權利要求1所述的數(shù)字鍵盤智能拼音漢字輸入方法,其特征在于使用標準拼音輸入時,直接按照小鍵盤盤面定義的字母輸入,一鍵對應多個字母的只需輸入同一鍵即可,輸入完一個完整拼音后可以輸入一個拼音結束確認鍵,再接著輸入下一個拼音,或者省略拼音結束確認鍵,由系統(tǒng)自動切分拼音,連續(xù)輸入數(shù)字拼音串所產(chǎn)生的數(shù)字鍵位歧義、拼音組合歧義、和同音多字歧義由系統(tǒng)根據(jù)上下文信息自動處理。
4.根據(jù)權利要求1所述的數(shù)字鍵盤智能拼音漢字輸入方法,其特征在于系統(tǒng)以3乘3、3乘4或3乘5的矩陣形式同時或分別顯示輸入數(shù)字拼音對應的標準拼音和候選漢字,供用戶選擇,如果按某個拼音對應的鍵,則系統(tǒng)會接著以同樣方式提示該拼音所對應的漢字;如果按某個漢字對應的鍵則選擇相應的漢字,如果當前頁沒有所選漢字,則按翻頁鍵進行翻頁,直到出現(xiàn)所選漢字,按相應數(shù)字鍵進行選擇。
5.根據(jù)權利要求1所述的數(shù)字鍵盤智能拼音漢字輸入方法,其特征在于句內編輯之后,為自然記憶學習或強化記憶學習,在用戶按自然學習鍵后,輸入法可通過小幅度地增加相應字、詞、或N元詞對的頻率值,或同時減小其他字、詞、或N元詞對的頻率值,逐步記憶用戶知識。在經(jīng)過錯誤修正后按強制學習鍵,系統(tǒng)對正確的結果強化記憶,大幅增加相應字、詞、或N元詞對的頻率值,或同時大幅減小錯誤轉換結果的頻率值,以便下一次輸入同樣內容的情況下轉換出正確結果。
全文摘要
數(shù)字鍵盤智能拼音漢字輸入方法,以“語句”為單位通過數(shù)字鍵盤將漢字輸入到手機、電話機、傳真機、或掌上類信息處理設備。使用本輸入法,能同時自動處理漢字輸入過程中的數(shù)字鍵位歧義、拼音組合歧義、和同音多字歧義。用戶只需輸入對應漢字拼音的數(shù)字鍵,系統(tǒng)便根據(jù)上下文在整個語句范圍內調整相應的漢字,保證漢字語句的正確。輸入過程中數(shù)字拼音的確認可由人工操作,也可由系統(tǒng)自動完成,同時,可處理其他形式的拼音輸入。系統(tǒng)能自動學習用戶知識,不斷提高拼音到漢字轉換的準確率。本輸入法操作自然,易于學習,可減少拼音輸入的擊鍵次數(shù),提高手機類設備的漢字輸入速度。
文檔編號G06F3/023GK1556452SQ200310121628
公開日2004年12月22日 申請日期2003年12月31日 優(yōu)先權日2003年12月31日
發(fā)明者王曉龍, 劉秉權, 關毅, 王軒, 王平, 徐志明 申請人:哈爾濱工業(yè)大學
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
阳朔县| 萝北县| 罗平县| 蓬安县| 界首市| 夏津县| 滁州市| 扎囊县| 安陆市| 新蔡县| 福贡县| 临湘市| 阳东县| 瓦房店市| 上虞市| 罗江县| 枞阳县| 禄劝| 江孜县| 奈曼旗| 乌兰浩特市| 巨鹿县| 朝阳市| 五原县| 京山县| 德安县| 行唐县| 同江市| 赣州市| 高青县| 乐至县| 邢台县| 荥经县| 体育| 化州市| 诏安县| 屯昌县| 昭通市| 宜兰县| 元谋县| 杭州市|