欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

漢語盲文到漢字的自動轉(zhuǎn)換方法

文檔序號:6556558閱讀:12364來源:國知局
專利名稱:漢語盲文到漢字的自動轉(zhuǎn)換方法
技術(shù)領(lǐng)域
本發(fā)明屬于計算機(jī)文字處理技術(shù)領(lǐng)域,特別涉及盲人用計算機(jī)的文字轉(zhuǎn)換技術(shù)。
盲人使用盲文(摸讀的點(diǎn)字符號)進(jìn)行文化學(xué)習(xí)與信息交流。目前在國外一些發(fā)達(dá)國家中,已經(jīng)研究出較好的盲人用計算機(jī)及其操作平臺。英國已研制出盲人用的計算機(jī),其鍵盤各鍵是由大小、形狀、紋理不一,每鍵均帶有發(fā)聲機(jī)制的多媒體信息交互功能。在中國,近年來為了使盲人能夠使用計算機(jī)及能夠閱讀普通文本也作了一些局部的工作,如中國盲文書社在中國殘疾人聯(lián)合會和中國盲人協(xié)會的資助支持下,研制出盲文分詞連寫系統(tǒng);北京圖書館在Dos操作系統(tǒng)下研究過盲人閱讀機(jī),是將印刷體普通漢字文本通過掃描輸入計算機(jī)進(jìn)行識別,再將識別的漢字轉(zhuǎn)換成聲音由計算機(jī)輸出;使盲人能夠聽到普通文本;清華大學(xué)自動化系研究過盲人用鍵盤輸入法,用聲音幫助選字,及在Dos下的漢字盲文轉(zhuǎn)換。
上述已有技術(shù)的不足之處包括一、在漢語盲文與漢字的轉(zhuǎn)換中沒有應(yīng)用自然語言理解處理技術(shù)。二、在已公開的漢字識別后處理技術(shù)中,為了提高識別文本的正確率,用Viterbi動態(tài)規(guī)劃算法來快速搜索一條最佳路徑,而進(jìn)入同一個結(jié)點(diǎn)的其余的路徑便被舍棄。不能找出次最優(yōu)的漢語句子。三、已公開系統(tǒng)只涉及漢語盲文和漢字的相互轉(zhuǎn)換,不支持其它諸如數(shù)學(xué)公式等符號的相互轉(zhuǎn)換。四、已公開的盲文轉(zhuǎn)換只涉及雙拼盲文,而沒有現(xiàn)行盲文處理功能。
本發(fā)明的目的是為克服已有技術(shù)的不足之處,提出一種漢語盲文到漢字的自動轉(zhuǎn)換方法。使用該方法,盲文可以由鍵盤和掃描儀兩種方式輸入。對盲文的標(biāo)調(diào)沒有嚴(yán)格限制可以輸入英文,數(shù)字。同時可以追加任意的特殊符號。已建立了數(shù)學(xué)庫,可在文檔中輸入數(shù)學(xué)符號。同時可以根據(jù)需要加入其它特殊字庫,轉(zhuǎn)換正確率高。
本發(fā)明提出的一種漢語盲文到漢字的自動轉(zhuǎn)換方法,其特征在于,將盲文書籍掃描后識別盲文,或用鍵盤將盲文輸入后,將盲文通過拼音的概念轉(zhuǎn)換為漢字;所說的拼音與漢字轉(zhuǎn)換的每一個環(huán)節(jié),利用漢語盲文綜合知識庫,在帶轉(zhuǎn)移概率權(quán)重的拼音到漢字轉(zhuǎn)換搜索圖上采用viterbi搜索方法得到N個有序最佳結(jié)果,來實(shí)現(xiàn)由盲文到漢字的自動轉(zhuǎn)換。
所說的漢語盲文綜合知識庫包括電子字典、規(guī)則庫和統(tǒng)計信息庫(由統(tǒng)計大規(guī)模真實(shí)語料得到的鄰接詞同現(xiàn)概率庫)。
本發(fā)明所述漢語盲文到漢字的自動轉(zhuǎn)換方法,包括以下具體步驟1)讀入未轉(zhuǎn)換文本頭部的全部連續(xù)非盲文點(diǎn)字符號;2)當(dāng)前的輸入點(diǎn)字符號是否表示非漢字意義,若表示漢字,轉(zhuǎn)步驟4;若表示非漢字,在viterbi搜索圖中搜索N-best路徑并選擇最好路徑,得到轉(zhuǎn)換結(jié)果,并將開始讀入的非盲文點(diǎn)字符號插入到對應(yīng)位置;3)記錄本句的轉(zhuǎn)換結(jié)果,記錄表示非漢字意義的輸入點(diǎn)字符號的轉(zhuǎn)換結(jié)果,清空viterbi搜索圖,轉(zhuǎn)入步驟5;4)查找當(dāng)前輸入的點(diǎn)字符號能夠匹配的所有漢字詞候選,并在viterbi搜索圖中構(gòu)造相應(yīng)結(jié)點(diǎn)。
5)判斷是否全部轉(zhuǎn)換完畢?若是,輸出轉(zhuǎn)換后漢字結(jié)果;若不是,轉(zhuǎn)步驟1。
本發(fā)明的特點(diǎn)是由于盲文掃描識別或盲文碼輸入不可能達(dá)到100%正確,雙面掃描盲文的識別錯誤率更高。同時,也是更重要的是由于漢字特有的一字多音、一音多字性質(zhì),以及自然語言的歧義現(xiàn)象,在將掃描盲文或盲文碼輸入與拼音的轉(zhuǎn)換,拼音與漢字轉(zhuǎn)換的每一個環(huán)節(jié),均可能發(fā)生歧義或轉(zhuǎn)換錯誤,因此本發(fā)明利用漢語盲文綜合知識庫包括電子字典、規(guī)則庫和統(tǒng)計信息庫(由統(tǒng)計大規(guī)模真實(shí)語料得到的鄰接詞同現(xiàn)概率庫),在帶權(quán)的拼音到漢字轉(zhuǎn)換多部圖上采用N-Best搜索算法,來實(shí)現(xiàn)由盲文到漢字的自動轉(zhuǎn)換。
本發(fā)明具有以下效果1.盲文可以由鍵盤和掃描儀兩種方式輸入。
2.對盲文的標(biāo)調(diào)沒有嚴(yán)格限制。例如“公園”可寫作gonglyuan2;gonglyuan;gongyuan2;gongyuan四種方式。
3.可以輸入英文,數(shù)字。同時可以追加任意的特殊符號。
4.已建立了數(shù)學(xué)庫,可在文檔中輸入數(shù)學(xué)符號。同時可以根據(jù)需要加入其它特殊字庫,如化學(xué)、物理等。
5.轉(zhuǎn)換正確率高。
附圖簡要說明

圖1為本發(fā)明的漢語盲文到漢字的自動轉(zhuǎn)換具體方法流程圖。
圖2為本發(fā)明的帶轉(zhuǎn)移概率權(quán)重的拼音到漢字轉(zhuǎn)換搜索圖。
以下結(jié)合實(shí)施例對本發(fā)明的實(shí)現(xiàn)方法詳細(xì)進(jìn)行說明。
本發(fā)明所述漢語盲文到漢字的自動轉(zhuǎn)換具體實(shí)施方法,如圖1所示,包括以下步驟1)讀入未轉(zhuǎn)換文本頭部的全部連續(xù)非盲文點(diǎn)字符號;2)當(dāng)前的輸入點(diǎn)字符號是否表示非漢字意義,若表示漢字,轉(zhuǎn)步驟4;若表示非漢字,在viterbi搜索圖中搜索N-best路徑并選擇最好路徑,得到轉(zhuǎn)換結(jié)果,并將開始讀入的非盲文點(diǎn)字符號插入到對應(yīng)位置;3)記錄本句的轉(zhuǎn)換結(jié)果,記錄表示非漢字意義的輸入點(diǎn)字符號的轉(zhuǎn)換結(jié)果,清空viterbi搜索圖,轉(zhuǎn)入步驟5;4)查找當(dāng)前輸入的點(diǎn)字符號能夠匹配的所有漢字詞候選,并在viterbi搜索圖中構(gòu)造相應(yīng)結(jié)點(diǎn)。
5)判斷是否全部轉(zhuǎn)換完畢?若是,輸出轉(zhuǎn)換后漢字結(jié)果;若不是,轉(zhuǎn)步驟1。
本發(fā)明中所應(yīng)用的算法說明如下1.N-Best搜索算法圖2為本發(fā)明的帶轉(zhuǎn)移概率權(quán)重的拼音到漢字轉(zhuǎn)換搜索圖。圖中,假設(shè)某一個拼音句子Y由T個字構(gòu)成,Y=y1y2…yT。在這個句子的前后各加上分界符,構(gòu)成#y1,y2,...,yT#。設(shè)拼音yi對應(yīng)的漢字詞候選為Ci,1Ci,2...Ci,ui]]>。在帶轉(zhuǎn)移概率權(quán)重的拼音到漢字轉(zhuǎn)換搜索圖中對與yi對應(yīng)的每一個漢字詞候選都構(gòu)造一個結(jié)點(diǎn),所有與yi對應(yīng)的結(jié)點(diǎn)構(gòu)成一級。帶轉(zhuǎn)移概率權(quán)重的拼音到漢字轉(zhuǎn)換搜索圖中級與級之間是全連接的關(guān)系,即第i級的每一個結(jié)點(diǎn)與第i+1級的每一個結(jié)點(diǎn)之間都有一條邊。邊上的權(quán)為后一級漢字詞在前一級漢字后出現(xiàn)的條件概率(同現(xiàn)概率)。在帶轉(zhuǎn)移概率權(quán)重的拼音到漢字轉(zhuǎn)換搜索圖中,每一條邊都是帶權(quán)邊。例如,C11與C21之間邊上的權(quán)為P(C21|C11),表示C11后出現(xiàn)C21的條件概率。在兩個分界符之間的任意找一條路徑,其中所有邊的權(quán)重乘積就是該路徑對應(yīng)轉(zhuǎn)換方案的概率值。搜索具有最大概率值的轉(zhuǎn)換方案就是在帶轉(zhuǎn)移概率權(quán)重的拼音到漢字轉(zhuǎn)換搜索圖中搜索一條邊權(quán)重乘積最大的路徑,路徑上的結(jié)點(diǎn)就表示了對應(yīng)的轉(zhuǎn)換方案。
N-Best搜索算法可在圖2中找出具有前N大次最優(yōu)的漢語句子。該搜索方法分為前向和后向兩個過程。在前向過程中,對圖中每一個結(jié)點(diǎn),計算由初始結(jié)點(diǎn)到此結(jié)點(diǎn)的最佳路徑,并且記錄此最佳路徑的累計分值和指向路徑上前一個結(jié)點(diǎn)的指針。在后向過程中,通過比較進(jìn)入終止結(jié)點(diǎn)的路徑就可以得到最優(yōu)路徑。然后,為了使求次優(yōu)路徑時不會又選到最佳路徑,把最佳路徑整個復(fù)制到一個所謂N-Best樹的結(jié)構(gòu)中。對N-Best樹中的每一個結(jié)點(diǎn)計算后向累計分值。后向累計分值與前向累計分值相結(jié)合,使之能夠快速方便地計算出某一條路徑的總分值。
對N-Best樹上的所有結(jié)點(diǎn)進(jìn)行擴(kuò)展,比較擴(kuò)展后所有路徑的分值,最大的那個就是次優(yōu)路徑。然后把次優(yōu)路徑與最優(yōu)路徑不同的部分復(fù)制到N-Best樹中。接著計算新加入結(jié)點(diǎn)的后向累計分值。假設(shè)前N選路徑已經(jīng)求出,那么第N+1選路徑可以通過比較從當(dāng)前N-Best樹中擴(kuò)展出的路徑來求得。從此算法可以看出,N-Best樹結(jié)構(gòu)保證了任何一條路徑不會被考慮兩次。而且,此算法也是一個精確的算法,即能夠準(zhǔn)確的找出前N個大似然度的N個漢語句子。
使用N-Best算法使盲文到漢字的轉(zhuǎn)換正確率得到提高。但是,N-Best對于算法影響轉(zhuǎn)換速度。因此只有當(dāng)系統(tǒng)認(rèn)為最優(yōu)選的漢語句子中存在著轉(zhuǎn)換錯誤時,才自動進(jìn)行N-Best搜索。
特點(diǎn)用該方法完成的系統(tǒng)是國內(nèi)第一個加入了漢語計算語言學(xué)處理技術(shù)的漢語盲文到漢字自動轉(zhuǎn)換系統(tǒng),它用數(shù)億字的統(tǒng)計數(shù)據(jù)庫進(jìn)行后處理。使得系統(tǒng)整體轉(zhuǎn)化正確率達(dá)到97%以上。漢語到盲文的轉(zhuǎn)換系統(tǒng)具有很高的轉(zhuǎn)換率,已經(jīng)接近達(dá)到實(shí)用水平。
2.表示非漢字意義的點(diǎn)字轉(zhuǎn)換按照漢語盲文規(guī)則先判斷當(dāng)前輸入點(diǎn)字是否為標(biāo)點(diǎn)符號,再判斷是否為數(shù)學(xué)公式或者英文字母。
數(shù)學(xué)公式的轉(zhuǎn)換需要遞歸的進(jìn)行,對表達(dá)式按照數(shù)學(xué)符號的運(yùn)算級別分層次轉(zhuǎn)換。例如“3*4+5/6”,先對“3*4”和“5/6”進(jìn)行轉(zhuǎn)換,然后再轉(zhuǎn)換“+”,將兩部分連結(jié)起來。
由于轉(zhuǎn)換后的數(shù)學(xué)公式使用純文本表示,因此例如根號,次方這樣的數(shù)學(xué)符號就沒法表示。應(yīng)該通過定義新的數(shù)學(xué)公式純文本表示方法來表示。
3.查找盲文對應(yīng)的漢字詞現(xiàn)行盲文的點(diǎn)字和漢語拼音中的聲母或者韻母對應(yīng)。但是也存在同一個盲文點(diǎn)字對應(yīng)兩個不同拼音部分的情況。例如 可以對應(yīng)聲母“g”或者“j”,因此應(yīng)該對所有盲文點(diǎn)字可能轉(zhuǎn)換成的拼音組合都進(jìn)行對應(yīng)漢字詞的查找。例如 可以對應(yīng)拼音“ho”,“he”,“xo”,“xe”,都需要進(jìn)行對應(yīng)漢字詞的查找,其中不合法的拼音顯然沒有對應(yīng)漢字詞。
由于詞庫中的漢字詞最長到7字,因此查找的時候最長檢測對應(yīng)7個漢字的盲文點(diǎn)字。
用上述方法首次將漢語自然語言理解的理論應(yīng)用于漢語盲文與漢字的自動處理技術(shù)中,完成了漢語盲漢、漢盲自動轉(zhuǎn)換系統(tǒng)。
權(quán)利要求
1.一種漢語盲文到漢字的自動轉(zhuǎn)換方法,其特征在于,將盲文書籍掃描后識別盲文,或用鍵盤將盲文輸入后,將盲文通過拼音的概念轉(zhuǎn)換為漢字;所說的拼音與漢字轉(zhuǎn)換的每一個環(huán)節(jié),利用漢語盲文綜合知識庫,在帶轉(zhuǎn)移概率權(quán)重的拼音到漢字轉(zhuǎn)換搜索圖上采用viterbi搜索方法得到N個有序最佳結(jié)果,來實(shí)現(xiàn)由盲文到漢字的自動轉(zhuǎn)換。
2.如權(quán)利要求1所述的漢語盲文到漢字的自動轉(zhuǎn)換方法,其特征在于,具體包括以下步驟1)讀入未轉(zhuǎn)換文本頭部的全部連續(xù)非盲文點(diǎn)字符號;2)當(dāng)前的輸入點(diǎn)字符號是否表示非漢字意義,若表示漢字,轉(zhuǎn)步驟4;若表示非漢字,在viterbi搜索圖中搜索N-best路徑并選擇最好路徑,得到轉(zhuǎn)換結(jié)果,并將開始讀入的非盲文點(diǎn)字符號插入到對應(yīng)位置;3)記錄本句的轉(zhuǎn)換結(jié)果,記錄表示非漢字意義的輸入點(diǎn)字符號的轉(zhuǎn)換結(jié)果,清空viterbi搜索圖,轉(zhuǎn)入步驟5;4)查找當(dāng)前輸入的點(diǎn)字符號能夠匹配的所有漢字詞候選,并在viterbi搜索圖中構(gòu)造相應(yīng)結(jié)點(diǎn)。5)判斷是否全部轉(zhuǎn)換完畢?若是,輸出轉(zhuǎn)換后漢字結(jié)果;若不是,轉(zhuǎn)步驟1。
全文摘要
本發(fā)明屬于計算機(jī)文字處理技術(shù)領(lǐng)域,其特征在于,將盲文書籍掃描后識別盲文,或用鍵盤將盲文輸入后,將盲文通過拼音的概念轉(zhuǎn)換為漢字;所說的拼音與漢字轉(zhuǎn)換的每一個環(huán)節(jié),利用漢語盲文綜合知識庫,在帶轉(zhuǎn)移概率權(quán)重的拼音到漢字轉(zhuǎn)換搜索圖上采用viterbi搜索方法得到N個有序最佳結(jié)果,來實(shí)現(xiàn)由盲文到漢字的自動轉(zhuǎn)換。使得系統(tǒng)整體轉(zhuǎn)換正確率達(dá)到97%以上。
文檔編號G06F17/28GK1323004SQ0111867
公開日2001年11月21日 申請日期2001年6月8日 優(yōu)先權(quán)日2001年6月8日
發(fā)明者朱小燕, 江銘虎, 夏瑩, 馬少平, 姜哲, 包塔, 譚剛 申請人:清華大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
永靖县| 徐闻县| 彩票| 托克托县| 大石桥市| 石屏县| 新巴尔虎左旗| 油尖旺区| 竹山县| 太原市| 卢氏县| 宁陵县| 桦甸市| 周口市| 扎赉特旗| 治县。| 锦州市| 兴义市| 温泉县| 淮滨县| 富锦市| 阳西县| 彩票| 连江县| 灵丘县| 武功县| 桐柏县| 元氏县| 荣昌县| 台北县| 贵州省| 金塔县| 轮台县| 韩城市| 翁牛特旗| 鱼台县| 大荔县| 商水县| 岳普湖县| 应城市| 郓城县|