漢語盲文到漢字的自動轉(zhuǎn)換方法

文檔序號：6556558閱讀：12364來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：漢語盲文到漢字的自動轉(zhuǎn)換方法
技術(shù)領(lǐng)域：
本發(fā)明屬于計算機(jī)文字處理技術(shù)領(lǐng)域，特別涉及盲人用計算機(jī)的文字轉(zhuǎn)換技術(shù)。
盲人使用盲文(摸讀的點(diǎn)字符號)進(jìn)行文化學(xué)習(xí)與信息交流。目前在國外一些發(fā)達(dá)國家中，已經(jīng)研究出較好的盲人用計算機(jī)及其操作平臺。英國已研制出盲人用的計算機(jī)，其鍵盤各鍵是由大小、形狀、紋理不一，每鍵均帶有發(fā)聲機(jī)制的多媒體信息交互功能。在中國，近年來為了使盲人能夠使用計算機(jī)及能夠閱讀普通文本也作了一些局部的工作，如中國盲文書社在中國殘疾人聯(lián)合會和中國盲人協(xié)會的資助支持下，研制出盲文分詞連寫系統(tǒng)；北京圖書館在Dos操作系統(tǒng)下研究過盲人閱讀機(jī)，是將印刷體普通漢字文本通過掃描輸入計算機(jī)進(jìn)行識別，再將識別的漢字轉(zhuǎn)換成聲音由計算機(jī)輸出；使盲人能夠聽到普通文本；清華大學(xué)自動化系研究過盲人用鍵盤輸入法，用聲音幫助選字，及在Dos下的漢字盲文轉(zhuǎn)換。
上述已有技術(shù)的不足之處包括一、在漢語盲文與漢字的轉(zhuǎn)換中沒有應(yīng)用自然語言理解處理技術(shù)。二、在已公開的漢字識別后處理技術(shù)中，為了提高識別文本的正確率，用Viterbi動態(tài)規(guī)劃算法來快速搜索一條最佳路徑，而進(jìn)入同一個結(jié)點(diǎn)的其余的路徑便被舍棄。不能找出次最優(yōu)的漢語句子。三、已公開系統(tǒng)只涉及漢語盲文和漢字的相互轉(zhuǎn)換，不支持其它諸如數(shù)學(xué)公式等符號的相互轉(zhuǎn)換。四、已公開的盲文轉(zhuǎn)換只涉及雙拼盲文，而沒有現(xiàn)行盲文處理功能。
本發(fā)明的目的是為克服已有技術(shù)的不足之處，提出一種漢語盲文到漢字的自動轉(zhuǎn)換方法。使用該方法，盲文可以由鍵盤和掃描儀兩種方式輸入。對盲文的標(biāo)調(diào)沒有嚴(yán)格限制可以輸入英文，數(shù)字。同時可以追加任意的特殊符號。已建立了數(shù)學(xué)庫，可在文檔中輸入數(shù)學(xué)符號。同時可以根據(jù)需要加入其它特殊字庫，轉(zhuǎn)換正確率高。
本發(fā)明提出的一種漢語盲文到漢字的自動轉(zhuǎn)換方法，其特征在于，將盲文書籍掃描后識別盲文，或用鍵盤將盲文輸入后，將盲文通過拼音的概念轉(zhuǎn)換為漢字；所說的拼音與漢字轉(zhuǎn)換的每一個環(huán)節(jié)，利用漢語盲文綜合知識庫，在帶轉(zhuǎn)移概率權(quán)重的拼音到漢字轉(zhuǎn)換搜索圖上采用viterbi搜索方法得到N個有序最佳結(jié)果，來實(shí)現(xiàn)由盲文到漢字的自動轉(zhuǎn)換。
所說的漢語盲文綜合知識庫包括電子字典、規(guī)則庫和統(tǒng)計信息庫(由統(tǒng)計大規(guī)模真實(shí)語料得到的鄰接詞同現(xiàn)概率庫)。
本發(fā)明所述漢語盲文到漢字的自動轉(zhuǎn)換方法，包括以下具體步驟1)讀入未轉(zhuǎn)換文本頭部的全部連續(xù)非盲文點(diǎn)字符號；2)當(dāng)前的輸入點(diǎn)字符號是否表示非漢字意義，若表示漢字，轉(zhuǎn)步驟4；若表示非漢字，在viterbi搜索圖中搜索N-best路徑并選擇最好路徑，得到轉(zhuǎn)換結(jié)果，并將開始讀入的非盲文點(diǎn)字符號插入到對應(yīng)位置；3)記錄本句的轉(zhuǎn)換結(jié)果，記錄表示非漢字意義的輸入點(diǎn)字符號的轉(zhuǎn)換結(jié)果，清空viterbi搜索圖，轉(zhuǎn)入步驟5；4)查找當(dāng)前輸入的點(diǎn)字符號能夠匹配的所有漢字詞候選，并在viterbi搜索圖中構(gòu)造相應(yīng)結(jié)點(diǎn)。
5)判斷是否全部轉(zhuǎn)換完畢？若是，輸出轉(zhuǎn)換后漢字結(jié)果；若不是，轉(zhuǎn)步驟1。
本發(fā)明的特點(diǎn)是由于盲文掃描識別或盲文碼輸入不可能達(dá)到100％正確，雙面掃描盲文的識別錯誤率更高。同時，也是更重要的是由于漢字特有的一字多音、一音多字性質(zhì)，以及自然語言的歧義現(xiàn)象，在將掃描盲文或盲文碼輸入與拼音的轉(zhuǎn)換，拼音與漢字轉(zhuǎn)換的每一個環(huán)節(jié)，均可能發(fā)生歧義或轉(zhuǎn)換錯誤，因此本發(fā)明利用漢語盲文綜合知識庫包括電子字典、規(guī)則庫和統(tǒng)計信息庫(由統(tǒng)計大規(guī)模真實(shí)語料得到的鄰接詞同現(xiàn)概率庫)，在帶權(quán)的拼音到漢字轉(zhuǎn)換多部圖上采用N-Best搜索算法，來實(shí)現(xiàn)由盲文到漢字的自動轉(zhuǎn)換。
本發(fā)明具有以下效果1．盲文可以由鍵盤和掃描儀兩種方式輸入。
2．對盲文的標(biāo)調(diào)沒有嚴(yán)格限制。例如“公園”可寫作gonglyuan2；gonglyuan；gongyuan2；gongyuan四種方式。
3．可以輸入英文，數(shù)字。同時可以追加任意的特殊符號。
4．已建立了數(shù)學(xué)庫，可在文檔中輸入數(shù)學(xué)符號。同時可以根據(jù)需要加入其它特殊字庫，如化學(xué)、物理等。
5．轉(zhuǎn)換正確率高。
附圖簡要說明

圖1為本發(fā)明的漢語盲文到漢字的自動轉(zhuǎn)換具體方法流程圖。
圖2為本發(fā)明的帶轉(zhuǎn)移概率權(quán)重的拼音到漢字轉(zhuǎn)換搜索圖。
以下結(jié)合實(shí)施例對本發(fā)明的實(shí)現(xiàn)方法詳細(xì)進(jìn)行說明。
本發(fā)明所述漢語盲文到漢字的自動轉(zhuǎn)換具體實(shí)施方法，如圖1所示，包括以下步驟1)讀入未轉(zhuǎn)換文本頭部的全部連續(xù)非盲文點(diǎn)字符號；2)當(dāng)前的輸入點(diǎn)字符號是否表示非漢字意義，若表示漢字，轉(zhuǎn)步驟4；若表示非漢字，在viterbi搜索圖中搜索N-best路徑并選擇最好路徑，得到轉(zhuǎn)換結(jié)果，并將開始讀入的非盲文點(diǎn)字符號插入到對應(yīng)位置；3)記錄本句的轉(zhuǎn)換結(jié)果，記錄表示非漢字意義的輸入點(diǎn)字符號的轉(zhuǎn)換結(jié)果，清空viterbi搜索圖，轉(zhuǎn)入步驟5；4)查找當(dāng)前輸入的點(diǎn)字符號能夠匹配的所有漢字詞候選，并在viterbi搜索圖中構(gòu)造相應(yīng)結(jié)點(diǎn)。
5)判斷是否全部轉(zhuǎn)換完畢？若是，輸出轉(zhuǎn)換后漢字結(jié)果；若不是，轉(zhuǎn)步驟1。
本發(fā)明中所應(yīng)用的算法說明如下1．N-Best搜索算法圖2為本發(fā)明的帶轉(zhuǎn)移概率權(quán)重的拼音到漢字轉(zhuǎn)換搜索圖。圖中，假設(shè)某一個拼音句子Y由T個字構(gòu)成，Y=y1y2…yT。在這個句子的前后各加上分界符，構(gòu)成#y1,y2,...,yT#。設(shè)拼音yi對應(yīng)的漢字詞候選為Ci,1Ci,2...Ci,ui]]>。在帶轉(zhuǎn)移概率權(quán)重的拼音到漢字轉(zhuǎn)換搜索圖中對與yi對應(yīng)的每一個漢字詞候選都構(gòu)造一個結(jié)點(diǎn)，所有與yi對應(yīng)的結(jié)點(diǎn)構(gòu)成一級。帶轉(zhuǎn)移概率權(quán)重的拼音到漢字轉(zhuǎn)換搜索圖中級與級之間是全連接的關(guān)系，即第i級的每一個結(jié)點(diǎn)與第i+1級的每一個結(jié)點(diǎn)之間都有一條邊。邊上的權(quán)為后一級漢字詞在前一級漢字后出現(xiàn)的條件概率(同現(xiàn)概率)。在帶轉(zhuǎn)移概率權(quán)重的拼音到漢字轉(zhuǎn)換搜索圖中，每一條邊都是帶權(quán)邊。例如，C11與C21之間邊上的權(quán)為P(C21|C11)，表示C11后出現(xiàn)C21的條件概率。在兩個分界符之間的任意找一條路徑，其中所有邊的權(quán)重乘積就是該路徑對應(yīng)轉(zhuǎn)換方案的概率值。搜索具有最大概率值的轉(zhuǎn)換方案就是在帶轉(zhuǎn)移概率權(quán)重的拼音到漢字轉(zhuǎn)換搜索圖中搜索一條邊權(quán)重乘積最大的路徑，路徑上的結(jié)點(diǎn)就表示了對應(yīng)的轉(zhuǎn)換方案。
N-Best搜索算法可在圖2中找出具有前N大次最優(yōu)的漢語句子。該搜索方法分為前向和后向兩個過程。在前向過程中，對圖中每一個結(jié)點(diǎn)，計算由初始結(jié)點(diǎn)到此結(jié)點(diǎn)的最佳路徑，并且記錄此最佳路徑的累計分值和指向路徑上前一個結(jié)點(diǎn)的指針。在后向過程中，通過比較進(jìn)入終止結(jié)點(diǎn)的路徑就可以得到最優(yōu)路徑。然后，為了使求次優(yōu)路徑時不會又選到最佳路徑，把最佳路徑整個復(fù)制到一個所謂N-Best樹的結(jié)構(gòu)中。對N-Best樹中的每一個結(jié)點(diǎn)計算后向累計分值。后向累計分值與前向累計分值相結(jié)合，使之能夠快速方便地計算出某一條路徑的總分值。
對N-Best樹上的所有結(jié)點(diǎn)進(jìn)行擴(kuò)展，比較擴(kuò)展后所有路徑的分值，最大的那個就是次優(yōu)路徑。然后把次優(yōu)路徑與最優(yōu)路徑不同的部分復(fù)制到N-Best樹中。接著計算新加入結(jié)點(diǎn)的后向累計分值。假設(shè)前N選路徑已經(jīng)求出，那么第N+1選路徑可以通過比較從當(dāng)前N-Best樹中擴(kuò)展出的路徑來求得。從此算法可以看出，N-Best樹結(jié)構(gòu)保證了任何一條路徑不會被考慮兩次。而且，此算法也是一個精確的算法，即能夠準(zhǔn)確的找出前N個大似然度的N個漢語句子。
使用N-Best算法使盲文到漢字的轉(zhuǎn)換正確率得到提高。但是，N-Best對于算法影響轉(zhuǎn)換速度。因此只有當(dāng)系統(tǒng)認(rèn)為最優(yōu)選的漢語句子中存在著轉(zhuǎn)換錯誤時，才自動進(jìn)行N-Best搜索。
特點(diǎn)用該方法完成的系統(tǒng)是國內(nèi)第一個加入了漢語計算語言學(xué)處理技術(shù)的漢語盲文到漢字自動轉(zhuǎn)換系統(tǒng)，它用數(shù)億字的統(tǒng)計數(shù)據(jù)庫進(jìn)行后處理。使得系統(tǒng)整體轉(zhuǎn)化正確率達(dá)到97％以上。漢語到盲文的轉(zhuǎn)換系統(tǒng)具有很高的轉(zhuǎn)換率，已經(jīng)接近達(dá)到實(shí)用水平。
2．表示非漢字意義的點(diǎn)字轉(zhuǎn)換按照漢語盲文規(guī)則先判斷當(dāng)前輸入點(diǎn)字是否為標(biāo)點(diǎn)符號，再判斷是否為數(shù)學(xué)公式或者英文字母。
數(shù)學(xué)公式的轉(zhuǎn)換需要遞歸的進(jìn)行，對表達(dá)式按照數(shù)學(xué)符號的運(yùn)算級別分層次轉(zhuǎn)換。例如“3*4+5/6”，先對“3*4”和“5/6”進(jìn)行轉(zhuǎn)換，然后再轉(zhuǎn)換“+”，將兩部分連結(jié)起來。
由于轉(zhuǎn)換后的數(shù)學(xué)公式使用純文本表示，因此例如根號，次方這樣的數(shù)學(xué)符號就沒法表示。應(yīng)該通過定義新的數(shù)學(xué)公式純文本表示方法來表示。
3．查找盲文對應(yīng)的漢字詞現(xiàn)行盲文的點(diǎn)字和漢語拼音中的聲母或者韻母對應(yīng)。但是也存在同一個盲文點(diǎn)字對應(yīng)兩個不同拼音部分的情況。例如可以對應(yīng)聲母“g”或者“j”，因此應(yīng)該對所有盲文點(diǎn)字可能轉(zhuǎn)換成的拼音組合都進(jìn)行對應(yīng)漢字詞的查找。例如可以對應(yīng)拼音“ho”,“he”,“xo”,“xe”，都需要進(jìn)行對應(yīng)漢字詞的查找，其中不合法的拼音顯然沒有對應(yīng)漢字詞。
由于詞庫中的漢字詞最長到7字，因此查找的時候最長檢測對應(yīng)7個漢字的盲文點(diǎn)字。
用上述方法首次將漢語自然語言理解的理論應(yīng)用于漢語盲文與漢字的自動處理技術(shù)中，完成了漢語盲漢、漢盲自動轉(zhuǎn)換系統(tǒng)。
權(quán)利要求
1.一種漢語盲文到漢字的自動轉(zhuǎn)換方法，其特征在于，將盲文書籍掃描后識別盲文，或用鍵盤將盲文輸入后，將盲文通過拼音的概念轉(zhuǎn)換為漢字；所說的拼音與漢字轉(zhuǎn)換的每一個環(huán)節(jié)，利用漢語盲文綜合知識庫，在帶轉(zhuǎn)移概率權(quán)重的拼音到漢字轉(zhuǎn)換搜索圖上采用viterbi搜索方法得到N個有序最佳結(jié)果，來實(shí)現(xiàn)由盲文到漢字的自動轉(zhuǎn)換。
2.如權(quán)利要求1所述的漢語盲文到漢字的自動轉(zhuǎn)換方法，其特征在于，具體包括以下步驟1)讀入未轉(zhuǎn)換文本頭部的全部連續(xù)非盲文點(diǎn)字符號；2)當(dāng)前的輸入點(diǎn)字符號是否表示非漢字意義，若表示漢字，轉(zhuǎn)步驟4；若表示非漢字，在viterbi搜索圖中搜索N-best路徑并選擇最好路徑，得到轉(zhuǎn)換結(jié)果，并將開始讀入的非盲文點(diǎn)字符號插入到對應(yīng)位置；3)記錄本句的轉(zhuǎn)換結(jié)果，記錄表示非漢字意義的輸入點(diǎn)字符號的轉(zhuǎn)換結(jié)果，清空viterbi搜索圖，轉(zhuǎn)入步驟5；4)查找當(dāng)前輸入的點(diǎn)字符號能夠匹配的所有漢字詞候選，并在viterbi搜索圖中構(gòu)造相應(yīng)結(jié)點(diǎn)。5)判斷是否全部轉(zhuǎn)換完畢？若是，輸出轉(zhuǎn)換后漢字結(jié)果；若不是，轉(zhuǎn)步驟1。
全文摘要
本發(fā)明屬于計算機(jī)文字處理技術(shù)領(lǐng)域,其特征在于,將盲文書籍掃描后識別盲文,或用鍵盤將盲文輸入后,將盲文通過拼音的概念轉(zhuǎn)換為漢字;所說的拼音與漢字轉(zhuǎn)換的每一個環(huán)節(jié),利用漢語盲文綜合知識庫,在帶轉(zhuǎn)移概率權(quán)重的拼音到漢字轉(zhuǎn)換搜索圖上采用viterbi搜索方法得到N個有序最佳結(jié)果,來實(shí)現(xiàn)由盲文到漢字的自動轉(zhuǎn)換。使得系統(tǒng)整體轉(zhuǎn)換正確率達(dá)到97%以上。
文檔編號G06F17/28GK1323004SQ0111867
公開日2001年11月21日申請日期2001年6月8日優(yōu)先權(quán)日2001年6月8日
發(fā)明者朱小燕, 江銘虎, 夏瑩, 馬少平, 姜哲, 包塔, 譚剛申請人:清華大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：朱小燕;江銘虎;夏瑩;馬少平;姜哲;包塔;譚剛
技術(shù)所有人：清華大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

漢語盲文對照表相關(guān)技術(shù)

漢語盲文相關(guān)技術(shù)

盲文轉(zhuǎn)換相關(guān)技術(shù)

盲文轉(zhuǎn)換器相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

漢語盲文到漢字的自動轉(zhuǎn)換方法