語(yǔ)音識(shí)別方法和系統(tǒng)的制作方法

文檔序號(hào)：2833747閱讀：311來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：語(yǔ)音識(shí)別方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及語(yǔ)音識(shí)別技術(shù)領(lǐng)域，更具體地說(shuō)，涉及語(yǔ)音識(shí)別方法和系統(tǒng)。
背景技術(shù)：
語(yǔ)音識(shí)別技術(shù)是一種對(duì)用戶錄入的語(yǔ)音信號(hào)進(jìn)行識(shí)別，最終轉(zhuǎn)化為文本/字符串(也即識(shí)別結(jié)果為文本)的技術(shù)，其為自然人性的人機(jī)交互提供了便利。以采用語(yǔ)音識(shí)別技術(shù)的移動(dòng)設(shè)備為例，在語(yǔ)音識(shí)別技術(shù)的支持下，用戶只要對(duì)著移動(dòng)設(shè)備說(shuō)話，經(jīng)過(guò)語(yǔ)音識(shí)別系統(tǒng)識(shí)別后就會(huì)自動(dòng)形成文字，大大提高了用戶的輸入效率。但是，在大詞匯量隨意說(shuō)的應(yīng)用環(huán)境下，語(yǔ)音識(shí)別技術(shù)依然不能達(dá)到百分百正確的識(shí)別率，需要人工對(duì)識(shí)別結(jié)果進(jìn)行修正編輯。移動(dòng)設(shè)備(語(yǔ)音識(shí)別系統(tǒng))將語(yǔ)音識(shí)別結(jié)果顯示到屏幕的文本輸入?yún)^(qū)后，用戶如想對(duì)語(yǔ)音識(shí)別結(jié)果進(jìn)行修改編輯，則首先需要在語(yǔ)音識(shí)別結(jié)果中定位需要修正(也可稱為待修改)的字符。而在移動(dòng)設(shè)備上，特別是小屏幕的指觸屏設(shè)備上，由于屏幕尺寸受限，用戶在從連續(xù)大段文本中對(duì)某個(gè)確定的字符進(jìn)行定位時(shí)，特別是在相鄰兩字符間插入編輯光標(biāo)時(shí)，存在定位不便的問(wèn)題。

發(fā)明內(nèi)容
有鑒于此，本發(fā)明實(shí)施例目的在于提供語(yǔ)音識(shí)別方法和系統(tǒng)，以解決上述用戶人工進(jìn)行定位存在的定位不便的問(wèn)題。為實(shí)現(xiàn)上述目的，本發(fā)明實(shí)施例提供如下技術(shù)方案根據(jù)本發(fā)明實(shí)施例的一個(gè)方面，提供一種語(yǔ)音識(shí)別方法，包括對(duì)用戶輸入的語(yǔ)音信號(hào)進(jìn)行語(yǔ)音識(shí)別，獲得第一最優(yōu)解碼路徑，所述第一最優(yōu)解碼路徑包括語(yǔ)音識(shí)別結(jié)果以及所述語(yǔ)音識(shí)別結(jié)果中各字符對(duì)應(yīng)的語(yǔ)音片段；接收用戶單獨(dú)輸入的糾錯(cuò)信息并生成相應(yīng)的糾錯(cuò)字符串，所述糾錯(cuò)信息通過(guò)非語(yǔ)音方式或語(yǔ)音方式輸入；根據(jù)所述糾錯(cuò)字符串確定所述用戶輸入的語(yǔ)音信號(hào)中產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段；根據(jù)所述語(yǔ)音識(shí)別結(jié)果中各字符對(duì)應(yīng)的語(yǔ)音片段，確定所述產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段在所述語(yǔ)音識(shí)別結(jié)果中所對(duì)應(yīng)的字符串，作為產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串；利用所述糾錯(cuò)字符串替換所述產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串。根據(jù)本發(fā)明實(shí)施例的另一個(gè)方面，提供一種語(yǔ)音識(shí)別系統(tǒng)，包括語(yǔ)音識(shí)別單元，用于對(duì)用戶輸入的語(yǔ)音信號(hào)進(jìn)行語(yǔ)音識(shí)別，獲得第一最優(yōu)解碼路徑，所述第一最優(yōu)解碼路徑包括語(yǔ)音識(shí)別結(jié)果以及所述語(yǔ)音識(shí)別結(jié)果中各字符對(duì)應(yīng)的語(yǔ)音片段；糾錯(cuò)字串輸入單元，用于接收用戶單獨(dú)輸入的糾錯(cuò)信息并生成相應(yīng)的糾錯(cuò)字符串，所述糾錯(cuò)信息通過(guò)非語(yǔ)音方式或語(yǔ)音方式輸入；自動(dòng)糾錯(cuò)單元，用于根據(jù)所述糾錯(cuò)字符串確定所述用戶輸入的語(yǔ)音信號(hào)中產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段；根據(jù)所述語(yǔ)音識(shí)別結(jié)果中各字符對(duì)應(yīng)的語(yǔ)音片段，確定所述產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段在所述語(yǔ)音識(shí)別結(jié)果中所對(duì)應(yīng)的字符串，作為產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串；利用所述糾錯(cuò)字符串替換所述產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串。從上述的技術(shù)方案可以看出，本發(fā)明實(shí)施例所公開(kāi)的技術(shù)方案根據(jù)用戶單獨(dú)輸入的糾錯(cuò)信息而生成的糾錯(cuò)字符串確定產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段，再通過(guò)該語(yǔ)音段找到其在語(yǔ)音識(shí)別結(jié)果中所對(duì)應(yīng)的產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串，實(shí)現(xiàn)了用戶所輸入的糾錯(cuò)信息而生成的糾錯(cuò)字符串與錯(cuò)誤字符串的對(duì)應(yīng)，進(jìn)而實(shí)現(xiàn)了對(duì)語(yǔ)音識(shí)別結(jié)果中錯(cuò)誤字符串的自動(dòng)定位，解決了用戶人工進(jìn)行定位存在的定位不便的問(wèn)題。

為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案，下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹，顯而易見(jiàn)地，下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例，對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講，在不付出創(chuàng)造性勞動(dòng)的前提下，還可以根據(jù)這些附圖獲得其他的附圖。圖1為本發(fā)明實(shí)施例提供的語(yǔ)音識(shí)別方法流程圖；圖2為本發(fā)明實(shí)施例提供的手寫(xiě)輸入識(shí)別流程圖；圖3為本發(fā)明實(shí)施例提供字符覆蓋的最小區(qū)域示意圖；圖4為本發(fā)明實(shí)施例提供的自動(dòng)糾錯(cuò)過(guò)程流程圖；圖5為本發(fā)明實(shí)施例提供的糾錯(cuò)字符串檢索網(wǎng)絡(luò)結(jié)構(gòu)示意圖；圖6為本發(fā)明實(shí)施例提供的語(yǔ)音識(shí)別系統(tǒng)結(jié)構(gòu)示意圖。
具體實(shí)施例方式下面將結(jié)合本發(fā)明實(shí)施例中的附圖，對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述，顯然，所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例，而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例，本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例，都屬于本發(fā)明保護(hù)的范圍。作為一種簡(jiǎn)單方便而又高效的輸入方式，語(yǔ)音識(shí)別改變了傳統(tǒng)的基于復(fù)雜編碼或拼音輸入的鍵盤(pán)模式，為自然人性的人機(jī)交互提供了便利條件。特別是近年來(lái)隨著科技的發(fā)展和無(wú)線通訊網(wǎng)絡(luò)的創(chuàng)新普及，各種在線語(yǔ)音識(shí)別應(yīng)用，如發(fā)微博，寫(xiě)短信，網(wǎng)絡(luò)即時(shí)通訊等受到了越來(lái)越多的關(guān)注。在語(yǔ)音識(shí)別技術(shù)的支持下，用戶只要對(duì)著移動(dòng)設(shè)備說(shuō)話，經(jīng)過(guò)系統(tǒng)識(shí)別后就會(huì)自動(dòng)形成文字，大大提高了用戶的輸入效率。但是，在大詞匯量隨意說(shuō)的應(yīng)用環(huán)境下，語(yǔ)音識(shí)別技術(shù)依然不能達(dá)到百分百正確的識(shí)別率，需要人工對(duì)識(shí)別結(jié)果進(jìn)行修正編輯。移動(dòng)設(shè)備(語(yǔ)音識(shí)別系統(tǒng))將語(yǔ)音識(shí)別結(jié)果顯示到屏幕的文本輸入?yún)^(qū)后，用戶如想對(duì)語(yǔ)音識(shí)別結(jié)果進(jìn)行修改編輯，則需要在識(shí)別結(jié)果中定位需要修正(也可稱為待修改)的字符。而在移動(dòng)設(shè)備上，特別是小屏幕的指觸屏設(shè)備上，由于屏幕尺寸受限，用戶在從連續(xù)大段文本中對(duì)某個(gè)確定的字符進(jìn)行定位時(shí)，特別是在相鄰兩字符間插入編輯光標(biāo)時(shí)，存在定位不準(zhǔn)的問(wèn)題。為便于理解，現(xiàn)對(duì)語(yǔ)音識(shí)別介紹如下
如果將待識(shí)別的一段語(yǔ)音信號(hào)記作S，對(duì)S進(jìn)行一系列處理后得到與之相對(duì)應(yīng)的語(yǔ)音特征序列O,記作O = (O1,02,…,Oi,…，0T},其中Oi是第i個(gè)語(yǔ)音特征，T為語(yǔ)音特征總個(gè)數(shù)。語(yǔ)音信號(hào)S對(duì)應(yīng)的句子可看作是由許多詞組成的一個(gè)詞串，記作W= Iw1,w2，…，WnI。語(yǔ)音識(shí)別的任務(wù)就是根據(jù)已知的語(yǔ)音特征序列0，求出最可能的詞串r。在語(yǔ)音識(shí)別的具體過(guò)程中，一般首先提取語(yǔ)音信號(hào)對(duì)應(yīng)的語(yǔ)音特征參數(shù)，隨后在由預(yù)置的聲學(xué)模型和語(yǔ)言模型構(gòu)成的網(wǎng)絡(luò)搜索空間中，根據(jù)預(yù)設(shè)的搜索算法(比如Viterbi算法)，搜索相對(duì)于所提取得語(yǔ)音特征參數(shù)的最優(yōu)路徑(也即最優(yōu)解碼路徑)。在了解了語(yǔ)音識(shí)別的一些概念后，現(xiàn)對(duì)本發(fā)明實(shí)施例的技術(shù)方案介紹如下。為解決上述定位不便的問(wèn)題，本發(fā)明實(shí)施例所提供的語(yǔ)音識(shí)別方法至少包括如下步驟語(yǔ)音識(shí)別過(guò)程對(duì)用戶輸入的語(yǔ)音信號(hào)進(jìn)行語(yǔ)音識(shí)別，獲得最優(yōu)解碼路徑，其中，最優(yōu)解碼路徑包括語(yǔ)音識(shí)別結(jié)果以及語(yǔ)音識(shí)別結(jié)果中各字符對(duì)應(yīng)的語(yǔ)音片段；糾錯(cuò)字符串生成過(guò)程接收用戶單獨(dú)輸入的糾錯(cuò)信息并生成相應(yīng)的糾錯(cuò)字符串，上述糾錯(cuò)信息允許通過(guò)非語(yǔ)音方式或語(yǔ)音方式輸入；自動(dòng)糾錯(cuò)過(guò)程根據(jù)糾錯(cuò)字符串確定用戶輸入的語(yǔ)音信號(hào)中產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段；根據(jù)語(yǔ)音識(shí)別結(jié)果中各字符對(duì)應(yīng)的語(yǔ)音片段，確定產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段在所述語(yǔ)音識(shí)別結(jié)果中所對(duì)應(yīng)的字符串，作為產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串；并利用糾錯(cuò)字符串替換所述產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串。為稱呼方便，本文后續(xù)一些記載使用錯(cuò)誤字符串作為“產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串”的簡(jiǎn)稱。下面對(duì)各個(gè)過(guò)程進(jìn)行一一介紹。一，語(yǔ)音識(shí)別過(guò)程為了最大可能的滿足用戶日常交互需求，本發(fā)明實(shí)施例采用大詞匯量連續(xù)語(yǔ)音識(shí)別技術(shù)，以實(shí)現(xiàn)對(duì)任意說(shuō)語(yǔ)音的文本轉(zhuǎn)換。其中，參見(jiàn)圖1，上述語(yǔ)音識(shí)別過(guò)程具體包括S11、跟蹤采集用戶輸入的語(yǔ)音信號(hào)(也即上述待識(shí)別的一段語(yǔ)音信號(hào))；在本發(fā)明其他實(shí)施例中，可將上述語(yǔ)音信號(hào)存入數(shù)據(jù)緩存區(qū)；S12、對(duì)上述語(yǔ)音信號(hào)進(jìn)行預(yù)處理，以得到經(jīng)過(guò)預(yù)處理后的語(yǔ)音數(shù)據(jù)；上述預(yù)處理可包括語(yǔ)音信號(hào)采樣、反混疊帶通濾波、分幀處理、去除個(gè)體發(fā)音差異和設(shè)備、環(huán)境引起的噪聲影響，端點(diǎn)檢測(cè)。為了提高語(yǔ)音識(shí)別系統(tǒng)的魯棒性上述預(yù)處理具體還可包括前端降噪處理，以為后續(xù)語(yǔ)音處理提供較為純凈的語(yǔ)音。S13、對(duì)上述經(jīng)過(guò)預(yù)處理的語(yǔ)音數(shù)據(jù)中每幀語(yǔ)音數(shù)據(jù)分別進(jìn)行特征提取，以獲取特征矢量序列。在步驟S13中，對(duì)每幀語(yǔ)音數(shù)據(jù)進(jìn)行特征提取后可提取出有效語(yǔ)音特征(或者特征矢量)。這樣，經(jīng)特征提取后，每一幀語(yǔ)音數(shù)據(jù)形成一個(gè)特征矢量，相應(yīng)的，上述語(yǔ)音數(shù)據(jù)即可用一特征矢量序列表示；本領(lǐng)域技術(shù)人員可以理解的是，如果對(duì)經(jīng)過(guò)預(yù)處理后的語(yǔ)音數(shù)據(jù)包括30幀語(yǔ)音數(shù)據(jù)的話，那么這30幀語(yǔ)音數(shù)據(jù)就可提取出30個(gè)特征矢量，而這30個(gè)特征矢量按照時(shí)間先后順序即可組成上述特征矢量序列。在本發(fā)明其他實(shí)施例中，上述有效語(yǔ)音特征可為線性預(yù)測(cè)倒譜或MFCC (Mel倒譜)特征。具體的，以MFCC特征為例，可對(duì)窗長(zhǎng)25ms幀移IOms的每幀語(yǔ)音數(shù)據(jù)通過(guò)短時(shí)分析得到MFCC參數(shù)和/或MFCC參數(shù)的一階/ 二階差分，共計(jì)39維。這樣，每幀語(yǔ)音數(shù)據(jù)經(jīng)過(guò)特征提取可得到一個(gè)39維的特征矢量。在本發(fā)明其他實(shí)施例中，可將上述語(yǔ)音特征/語(yǔ)音特征矢量序列存入特征緩存區(qū)內(nèi)。S14、在預(yù)先構(gòu)建的檢索網(wǎng)絡(luò)中對(duì)上述特征矢量序列進(jìn)行最優(yōu)路徑搜索(上述檢索網(wǎng)絡(luò)主要由系統(tǒng)預(yù)設(shè)的聲學(xué)模型，詞典，語(yǔ)言模型等構(gòu)成)，以獲取與上述特征矢量序列具有最大模型似然概率的模型串作為語(yǔ)音識(shí)別結(jié)果輸出(顯出)。在具體實(shí)施時(shí)，可采用業(yè)內(nèi)主流的基于動(dòng)態(tài)規(guī)劃思想的Viterbi搜索算法，對(duì)每一特征矢量遍歷檢索網(wǎng)絡(luò)中滿足預(yù)設(shè)條件的活躍節(jié)點(diǎn)計(jì)算累計(jì)歷史路徑概率并保留滿足預(yù)設(shè)條件的歷史路徑作為后續(xù)搜索網(wǎng)絡(luò)的活躍節(jié)點(diǎn)，最后通過(guò)對(duì)具有最大歷史路徑概率的路徑(也即上述第一最優(yōu)解碼路徑)回溯實(shí)現(xiàn)對(duì)輸入語(yǔ)音的識(shí)別解碼。在解碼中第一最優(yōu)解碼路徑對(duì)每幀語(yǔ)音數(shù)據(jù)均保留其所對(duì)應(yīng)的識(shí)別單元模型，進(jìn)而對(duì)語(yǔ)音識(shí)別結(jié)果中的每一字符都可獲取其所對(duì)應(yīng)的語(yǔ)音片段，當(dāng)然，也可獲取每一字符所對(duì)應(yīng)語(yǔ)音片段的起始位置信息和結(jié)束位置信息。需要說(shuō)明的是，上述提及的語(yǔ)音片段既可為用戶輸入的語(yǔ)音信號(hào)中的語(yǔ)音片段，也可為經(jīng)過(guò)預(yù)處理后的語(yǔ)音數(shù)據(jù)中的至少一幀語(yǔ)音數(shù)據(jù)，還可為特征矢量序列中的特征矢量子序列。為稱呼方便，本文后續(xù)將用戶輸入的語(yǔ)音信號(hào)、經(jīng)過(guò)預(yù)處理后的語(yǔ)音數(shù)據(jù)以及特征矢量序列統(tǒng)稱為待識(shí)別語(yǔ)音信號(hào)。也即，本文下述提及的待識(shí)別語(yǔ)音信號(hào)具體可為用戶輸入的語(yǔ)音信號(hào)、經(jīng)過(guò)預(yù)處理后的語(yǔ)音數(shù)據(jù)或特征矢量序列。而本文下述提及的語(yǔ)音片段具體可為用戶輸入的語(yǔ)音信號(hào)中的語(yǔ)音片段、至少一幀語(yǔ)音數(shù)據(jù)或特征矢量子序列。也就是說(shuō)，我們可將步驟Sll中的語(yǔ)音信號(hào)或者步驟S12中經(jīng)過(guò)預(yù)處理后的語(yǔ)音數(shù)據(jù)或者步驟S13中的特征矢量序列劃分成與語(yǔ)音識(shí)別結(jié)果中的字符相對(duì)應(yīng)的語(yǔ)音片段，從而令語(yǔ)音識(shí)別結(jié)果中的每個(gè)字符對(duì)應(yīng)一個(gè)確切的語(yǔ)音片段。舉例來(lái)講，如果語(yǔ)音識(shí)別結(jié)果為“我們?nèi)ヅ郎健边@一字符串，該字符串對(duì)應(yīng)的解碼路徑信息可保存為(0000000 2200000)，(2200000 3600000)，(36000004300000)，(4300000 5000000)， (5000000 7400000)。上述(0000000 2200000)指示了“我”這個(gè)字符所對(duì)應(yīng)的語(yǔ)音片斷的起始位置信息和結(jié)束位置信息。其中，0000000是“我”所對(duì)應(yīng)的語(yǔ)音片斷在待識(shí)別語(yǔ)音信號(hào)中的起始位置(時(shí)刻)，而2200000是“我”所對(duì)應(yīng)的語(yǔ)音片斷在待識(shí)別語(yǔ)音信號(hào)中的結(jié)束位置(時(shí)刻)。二、糾錯(cuò)字符串生成過(guò)程本發(fā)明實(shí)施例支持用戶以非語(yǔ)音方式或語(yǔ)音方式輸入糾錯(cuò)信息并生成糾錯(cuò)字符
串O在采用語(yǔ)音方式輸入糾錯(cuò)信息時(shí)，所輸入的糾錯(cuò)信息具體為語(yǔ)音信號(hào)，由于與語(yǔ)音識(shí)別過(guò)程一樣是以語(yǔ)音方式輸入，則系統(tǒng)可能無(wú)法確定當(dāng)前的語(yǔ)音輸入是為了繼續(xù)新文本的語(yǔ)音輸入，還是為了對(duì)原始文本進(jìn)行語(yǔ)音糾錯(cuò)輸入。因此，可以設(shè)置單獨(dú)的糾錯(cuò)信息輸入控制按鍵，控制從新文本的語(yǔ)音輸入切換至對(duì)原始文本的語(yǔ)音糾錯(cuò)輸入。在以語(yǔ)音方式輸入糾錯(cuò)信息的模式下，由于糾錯(cuò)信息為語(yǔ)音信號(hào)，在將其轉(zhuǎn)化成糾錯(cuò)字符串時(shí)的處理過(guò)程同上述語(yǔ)音識(shí)別過(guò)程相同，在此不作贅述，并且，還可提供多個(gè)識(shí)別候選字符串供用戶選擇以提高生成糾錯(cuò)字符串的準(zhǔn)確率。此外，本發(fā)明實(shí)施例還支持用戶以按鍵輸入(比如拼音輸入、筆劃輸入、區(qū)位碼輸入等等)、手寫(xiě)輸入等非語(yǔ)音方式輸入糾錯(cuò)信息，此時(shí)，如以按鍵輸入，所輸入的糾錯(cuò)信息具體為按鍵序列，如以手寫(xiě)輸入，所輸入的糾錯(cuò)信息具體為書(shū)寫(xiě)筆跡?，F(xiàn)以拼音輸入和手寫(xiě)輸入為例，對(duì)非語(yǔ)音方式輸入過(guò)程進(jìn)行介紹。其具體流程仍請(qǐng)參見(jiàn)圖1 :S21、判斷用戶的輸入方式，如是拼音按鍵輸入轉(zhuǎn)入步驟S22，如果是手寫(xiě)輸入轉(zhuǎn)入步驟S23。S22、將用戶輸入的按鍵序列轉(zhuǎn)換成侯選糾錯(cuò)字符串。其中，步驟S22具體可包括S221，跟蹤采集用戶的按鍵序列，將其對(duì)應(yīng)成字母串序列；S222，將采集到的字母串序列和預(yù)置的拼音辭典匹配以找到侯選糾錯(cuò)字符串，并顯不O比如用戶在輸入qinghua后,系統(tǒng)可能顯示清華、青花、親華等多個(gè)侯選糾錯(cuò)字符串供用戶選擇。S23、識(shí)別用戶輸入的書(shū)寫(xiě)筆跡，將用戶輸入的書(shū)寫(xiě)筆跡轉(zhuǎn)化為至少一個(gè)侯選糾錯(cuò)
字符串；其中，參見(jiàn)圖2，步驟S23可具體包括S231，跟蹤用戶輸入的書(shū)寫(xiě)筆跡，并將采集到的書(shū)寫(xiě)筆跡保存在筆跡數(shù)據(jù)緩存區(qū)內(nèi)；在聯(lián)機(jī)手寫(xiě)識(shí)別系統(tǒng)中，用戶的書(shū)寫(xiě)筆跡通常用一序列的二維(位置坐標(biāo))或三維點(diǎn)(位置坐標(biāo)和抬筆/落筆狀態(tài))坐標(biāo)表示，用以描述字符書(shū)寫(xiě)的空間和時(shí)間信息。S232，對(duì)上述書(shū)寫(xiě)筆跡進(jìn)行預(yù)處理。由于采集設(shè)備或用戶在書(shū)寫(xiě)時(shí)抖動(dòng)等原因，原始采集到的書(shū)寫(xiě)筆跡中可能存在各種噪音干擾。為了提高系統(tǒng)的魯棒性，可對(duì)采集到的筆跡進(jìn)行預(yù)處理。具體的，可通過(guò)字符大小歸一化、野點(diǎn)去除、平滑，重采樣等處理方式加以組合，以盡可能減少噪音干擾帶來(lái)的識(shí)別率下降的問(wèn)題。S233，對(duì)經(jīng)過(guò)預(yù)處理的書(shū)寫(xiě)筆跡進(jìn)行筆跡特征提取。和語(yǔ)音識(shí)別相類似，在手寫(xiě)識(shí)別中，也需要從原始的筆跡軌跡上提取反映字符特點(diǎn)的字符特征。具體的，本實(shí)施例提取手寫(xiě)識(shí)別領(lǐng)域常用的八方向特征，并通過(guò)LDA等技術(shù)提高筆跡特征的區(qū)分性。S234，將提取的字符特征與預(yù)置模型進(jìn)行匹配，計(jì)算相似度。S235、選取與上述字符特征具有最高相似度的至少一個(gè)預(yù)置模型作為侯選糾錯(cuò)字符串，并顯示?？紤]到拼音輸入以及手寫(xiě)識(shí)別技術(shù)的準(zhǔn)確率往往很好，因而通常上述侯選糾錯(cuò)字符串的個(gè)數(shù)可以選擇3到5。當(dāng)然，本領(lǐng)域技術(shù)人員可以理解的是，當(dāng)用戶的非語(yǔ)音輸入足夠長(zhǎng)時(shí)，也可能只有一個(gè)侯選糾錯(cuò)字符串。S25、從侯選糾錯(cuò)字符串中確定糾錯(cuò)字符串。步驟S25可具體包括接受用戶的選擇指定，從至少一個(gè)侯選糾錯(cuò)字符串中確定唯一的糾錯(cuò)字符串。S25可以單獨(dú)列出，作為對(duì)糾錯(cuò)字符串的進(jìn)一步確認(rèn)，以兼容語(yǔ)音輸入和非語(yǔ)音輸入方式。三，自動(dòng)糾錯(cuò)過(guò)程考慮到糾錯(cuò)字符串和語(yǔ)音識(shí)別結(jié)果中產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串所對(duì)應(yīng)的語(yǔ)音段往往具有一致性，本發(fā)明實(shí)施例自動(dòng)糾錯(cuò)的核心思想是將糾錯(cuò)字符串映射到語(yǔ)音段上，再通過(guò)該語(yǔ)音段找到其在語(yǔ)音識(shí)別結(jié)果中所對(duì)應(yīng)的字詞(也即產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串)，從而實(shí)現(xiàn)了糾錯(cuò)字符串與錯(cuò)誤字符串的對(duì)應(yīng)。這樣，就實(shí)現(xiàn)了對(duì)語(yǔ)音識(shí)別結(jié)果中錯(cuò)誤字符串的自動(dòng)定位，解決了用戶人工進(jìn)行定位存在的定位不便的問(wèn)題。具體來(lái)說(shuō)，首先在待識(shí)別語(yǔ)音信號(hào)中找到對(duì)應(yīng)于上述糾錯(cuò)字符串的語(yǔ)音段。隨后在語(yǔ)音識(shí)別結(jié)果中定位與該語(yǔ)音段相對(duì)應(yīng)的字符串作為“產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串”。上述“產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串”是在步驟S14中得到的模型串中的子串，該子串在待識(shí)別語(yǔ)音信號(hào)中所對(duì)應(yīng)的語(yǔ)音段的起始時(shí)刻和結(jié)束時(shí)刻，與上述糾錯(cuò)字符串在待識(shí)別語(yǔ)音信號(hào)中所對(duì)應(yīng)的語(yǔ)音段的起始時(shí)刻和結(jié)束時(shí)刻具有一致性。自動(dòng)糾錯(cuò)過(guò)程的流程請(qǐng)仍參見(jiàn)圖1，包括S31、根據(jù)糾錯(cuò)字符串確定待識(shí)別語(yǔ)音信號(hào)中產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段；S32、根據(jù)語(yǔ)音識(shí)別結(jié)果中各字符對(duì)應(yīng)的語(yǔ)音片段，確定上述產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段在第一最優(yōu)解碼路徑的語(yǔ)音識(shí)別結(jié)果中所對(duì)應(yīng)的字符串，將其作為“產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串”；S33、利用糾錯(cuò)字符串替換上述產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串。在本發(fā)明其他實(shí)施例，步驟S33可包括如下步驟在產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串的數(shù)目等于I時(shí)，直接利用用戶輸入的糾錯(cuò)信息而生成的糾錯(cuò)字符串替換該產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串；在產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串的數(shù)目大于I時(shí)，利用糾錯(cuò)字符串替換用戶指定的產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串。本發(fā)明一些實(shí)施例可接受用戶主動(dòng)參與選擇，因此，上述“利用糾錯(cuò)字符串替換用戶指定的產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串”的具體流程可包括A，在語(yǔ)音識(shí)別結(jié)果中突出顯示所有產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串。在本發(fā)明其他實(shí)施例中，除突出顯示所有產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串外，還可以設(shè)置除錯(cuò)誤字符串外的其它識(shí)別結(jié)果為非活躍狀態(tài)，以提高定位精確度；B，接受用戶的選擇指定，利用上述糾錯(cuò)字符串更新用戶所選定的錯(cuò)誤字符串。此外，在本發(fā)明其他實(shí)施例中，還可支持用戶的模糊選擇指定一即并不要求用戶精準(zhǔn)定位錯(cuò)誤字符串，而是通過(guò)近鄰方式進(jìn)行定位當(dāng)手寫(xiě)筆的落筆點(diǎn)落入錯(cuò)誤字符串近鄰區(qū)域時(shí)，自動(dòng)將其定位到對(duì)應(yīng)的錯(cuò)誤字符串上。具體來(lái)說(shuō)，計(jì)算落筆點(diǎn)距每個(gè)錯(cuò)誤字符串所覆蓋的最小區(qū)域的最短距離，選擇具有最小“最短距離”的錯(cuò)誤字符串作為用戶選定的錯(cuò)誤字符串。例如，參見(jiàn)圖3，可設(shè)定一個(gè)字符(我)所覆蓋的最小區(qū)域的高度H為該字符字高h(yuǎn)的A倍，而一個(gè)字符所覆蓋的最小區(qū)域的寬度W為該字符字寬w的B倍，A和B可為大于等于I的任意正數(shù)。那么，錯(cuò)誤字符串所覆蓋的最小區(qū)域則為組成該錯(cuò)誤字符串中所有字符所覆蓋的最小區(qū)域的總和。參見(jiàn)圖4，在本發(fā)明其他實(shí)施例中，上述步驟S31可具體包括如下步驟S311，根據(jù)上述糾錯(cuò)字符串生成糾錯(cuò)字符串檢索網(wǎng)絡(luò)。請(qǐng)參見(jiàn)圖5，上述糾錯(cuò)字符串檢索網(wǎng)絡(luò)包括糾錯(cuò)字符串模型以及預(yù)置的吸收模型。其中，糾錯(cuò)字符串模型由糾錯(cuò)字符串生成通過(guò)預(yù)置的詞典將糾錯(cuò)字符串?dāng)U展為相應(yīng)的模型序列得到對(duì)應(yīng)的糾錯(cuò)字符串模型。由于用戶每次輸入的糾錯(cuò)信息而生成的糾錯(cuò)字符串都不盡相同，因此，糾錯(cuò)字符串網(wǎng)絡(luò)中的糾錯(cuò)字符串模型需要實(shí)時(shí)更新。因此，上述步驟S31又可具體包括獲取糾錯(cuò)字符串對(duì)應(yīng)的糾錯(cuò)字符串模型；獲取預(yù)置的吸收模型；根據(jù)獲取的糾錯(cuò)字符串模型以及吸收模型生成糾錯(cuò)字符串檢索網(wǎng)絡(luò)。需要說(shuō)明的是，如果語(yǔ)音識(shí)別結(jié)果中存在不相鄰且不相干的多處識(shí)別錯(cuò)誤，比如語(yǔ)音識(shí)別結(jié)果中存在“清華”和“西站”兩處識(shí)別錯(cuò)誤，則需要多次通過(guò)語(yǔ)音或非語(yǔ)音方式輸入糾錯(cuò)信息生成糾錯(cuò)字符串。而對(duì)每次輸入的糾錯(cuò)信息而生成的糾錯(cuò)字符串，不管其包含多少字詞，都將其看作一個(gè)獨(dú)立的糾錯(cuò)字符串。比如，用戶在某次輸入糾錯(cuò)字符串時(shí)，共輸入了 3個(gè)漢字，則糾錯(cuò)字符串包括3個(gè)漢字，隨后通過(guò)字典將包括該3個(gè)漢字的糾錯(cuò)字符串?dāng)U展成對(duì)應(yīng)的糾錯(cuò)字符串模型。在將糾錯(cuò)字符串?dāng)U展成糾錯(cuò)字符串模型時(shí)，根據(jù)預(yù)置的聲學(xué)模型的不同可采用不同的擴(kuò)展方式。比如，可基于音節(jié)模型單元的聲學(xué)模型(如基于音節(jié)模型單元的聲學(xué)模型，單個(gè)漢字由I個(gè)音節(jié)構(gòu)成)，也可基于音素模型單元的聲學(xué)模型(如基于音素模型單元的聲學(xué)模型，單個(gè)漢字由2個(gè)音素構(gòu)成)，具體由在進(jìn)行語(yǔ)音識(shí)別時(shí)所采用的模型單元所決定。因此，如對(duì)上述包括3個(gè)漢字的糾錯(cuò)字符串進(jìn)行擴(kuò)展，可擴(kuò)展得到由3個(gè)音節(jié)模型單元相串聯(lián)的糾錯(cuò)字符串模型或者由6個(gè)音素模型單元相串聯(lián)的糾錯(cuò)字符串模型。至于吸收模型則是由系統(tǒng)預(yù)先在海量語(yǔ)音數(shù)據(jù)訓(xùn)練得到的背景模型，也可采用多個(gè)吸收模型以提高復(fù)雜語(yǔ)音匹配的準(zhǔn)確性。需要注意的是，多個(gè)單獨(dú)吸收模型是并聯(lián)的。S312，在糾錯(cuò)字符串檢索網(wǎng)絡(luò)中對(duì)待識(shí)別語(yǔ)音信號(hào)重新解碼獲取第二最優(yōu)解碼路徑。其中，第二最優(yōu)解碼路徑包括糾錯(cuò)字符串模型對(duì)應(yīng)的語(yǔ)音段作為產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段。具體的，上述糾錯(cuò)字符串模型所對(duì)應(yīng)的語(yǔ)音段可為用戶輸入的語(yǔ)音信號(hào)中的語(yǔ)音段，也可為經(jīng)過(guò)預(yù)處理后的語(yǔ)音數(shù)據(jù)中的至少一幀語(yǔ)音數(shù)據(jù)，還可為特征矢量序列中的特征矢量子序列。為簡(jiǎn)單化起見(jiàn)，可選用糾錯(cuò)字符串模型所對(duì)應(yīng)的特征矢量子序列作為產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段。則步驟S312可具體包括在糾錯(cuò)字符串檢索網(wǎng)絡(luò)中搜索相應(yīng)于特征矢量序列的最優(yōu)路徑(即第二最優(yōu)路徑)，得到上述糾錯(cuò)字符串模型所對(duì)應(yīng)的特征矢量子序列在整個(gè)特征矢量序列中的起始位置和結(jié)束位置。步驟S312中的解碼，與上述步驟S14相類似，二者的不同在于，步驟S312所利用的網(wǎng)絡(luò)是根據(jù)糾錯(cuò)字符串生成的糾錯(cuò)字符串檢索網(wǎng)絡(luò)，而步驟S14所利用的檢索網(wǎng)絡(luò)的范圍要大于上述糾錯(cuò)字符串檢索網(wǎng)絡(luò)。因此，步驟S312的解碼，仍可采用業(yè)內(nèi)主流的基于動(dòng)態(tài)規(guī)劃思想的Viterbi搜索算法，對(duì)每幀特征矢量遍歷糾錯(cuò)字符串檢索網(wǎng)絡(luò)中滿足預(yù)設(shè)條件的活躍節(jié)點(diǎn)并保留滿足預(yù)設(shè)條件的歷史路徑作為后續(xù)搜索網(wǎng)絡(luò)的活躍節(jié)點(diǎn)，最后通過(guò)對(duì)具有最大歷史路徑概率的路徑(即第二最優(yōu)解碼路徑)獲得糾錯(cuò)字符串模型對(duì)應(yīng)的語(yǔ)音段，從而確定了產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段。由于在步驟S312中，已經(jīng)獲取了糾錯(cuò)字符串模型對(duì)應(yīng)的語(yǔ)音段的起始位置(時(shí)刻)和結(jié)束位置(時(shí)刻)，因此，在后續(xù)的步驟S32中，可根據(jù)語(yǔ)音識(shí)別結(jié)果中各字符對(duì)應(yīng)的語(yǔ)音片段，確定產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段的起始位置在語(yǔ)音識(shí)別結(jié)果中所對(duì)應(yīng)的起始字符。同時(shí)，可確定產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段的結(jié)束位置在語(yǔ)音識(shí)別結(jié)果中所對(duì)應(yīng)的結(jié)束字符，在確定了起始字符和結(jié)束字符后，就可確定出產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串。更具體的，可通過(guò)如下方式來(lái)確定起始字符將起始位置對(duì)應(yīng)的字符作為第一字符，并將該第一字符所對(duì)應(yīng)的語(yǔ)音片斷作為第一語(yǔ)音片斷；若上述起始位置位于第一語(yǔ)音片斷的前部，則將該第一字符作為起始字符，否則選擇語(yǔ)音識(shí)別結(jié)果中的下一字符作為起始字符。而在確定結(jié)束字符時(shí)，可通過(guò)如下方式將結(jié)束位置對(duì)應(yīng)的字符作為第二字符，將第二字符所對(duì)應(yīng)的語(yǔ)音片斷作為第二語(yǔ)首片斷；若結(jié)束位置位于第二語(yǔ)音片斷的前部時(shí)，選擇語(yǔ)音識(shí)別結(jié)果中的上一字符作為結(jié)束字符，否則，將第二字符作為結(jié)束字符。仍以前述的“我們?nèi)ヅ郎健边@一語(yǔ)音識(shí)別結(jié)果為例，前已述及，該語(yǔ)音識(shí)別結(jié)果中各個(gè)字符所對(duì)應(yīng)的語(yǔ)音片段的起始位置和結(jié)束位置分別為(00000002200000)，(22000003600000),(3600000 4300000),(4300000 5000000),(5000000 7400000)。舉例來(lái)講，假設(shè)，在步驟S312中，產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段的起始位置和結(jié)束位置為(0000050 3600000)，由于起始位置0000050在(0000000 2200000)的前部，可確定“我”作為起始字符，而結(jié)束位置3600000在(2200000 3600000)的后部，可確定“們”為結(jié)束字符。則可知，“我們”即為上述產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段在語(yǔ)音識(shí)別結(jié)果中所對(duì)應(yīng)的錯(cuò)誤字符串O與上述方法相對(duì)應(yīng)，本發(fā)明實(shí)施例還提供語(yǔ)音識(shí)別系統(tǒng)。圖6示出了上述系統(tǒng)的一種結(jié)構(gòu)，包括語(yǔ)音識(shí)別單元1，用于對(duì)用戶輸入的語(yǔ)音信號(hào)進(jìn)行語(yǔ)音識(shí)別，獲得最優(yōu)解碼路徑，其中，最優(yōu)解碼路徑包括語(yǔ)音識(shí)別結(jié)果以及所述語(yǔ)音識(shí)別結(jié)果中各字符對(duì)應(yīng)的語(yǔ)音片段；更具體的，語(yǔ)音識(shí)別單元可包括處理器，由處理器對(duì)用戶輸入的語(yǔ)音信號(hào)進(jìn)行語(yǔ)音識(shí)別。糾錯(cuò)字符串生成單元2，用于接收用戶單獨(dú)輸入的糾錯(cuò)信息并生成相應(yīng)的糾錯(cuò)字符串；更具體的，如以語(yǔ)音方式輸入糾錯(cuò)信息，則糾錯(cuò)字符串生成單元仍可包括上述處理器，由處理器對(duì)糾錯(cuò)信息進(jìn)行語(yǔ)音識(shí)別生成糾錯(cuò)字符串；
如以按鍵輸入方式輸入糾錯(cuò)信息，則糾錯(cuò)字符串生成單元至少可包括鍵盤(pán)和處理器，由處理器對(duì)將用戶輸入的按鍵序列轉(zhuǎn)換成侯選糾錯(cuò)字符串，并接受用戶的選擇指定，從至少一個(gè)侯選糾錯(cuò)字符串中確定唯一的糾錯(cuò)字符串。當(dāng)然也可由另一獨(dú)立的芯片或處理器來(lái)將用戶輸入的按鍵序列轉(zhuǎn)換成侯選糾錯(cuò)字符串，并接受用戶的選擇指定，從至少一個(gè)侯選糾錯(cuò)字符串中確定唯一的糾錯(cuò)字符串。如以手寫(xiě)輸入方式輸入糾錯(cuò)信息，則糾錯(cuò)字符串生成單元至少可包括手寫(xiě)筆、觸摸屏和處理器，由處理器對(duì)將用戶輸入的書(shū)寫(xiě)筆跡轉(zhuǎn)換成侯選糾錯(cuò)字符串，并接受用戶的選擇指定，從至少一個(gè)侯選糾錯(cuò)字符串中確定唯一的糾錯(cuò)字符串。當(dāng)然也可由另一獨(dú)立的芯片或處理器來(lái)將用戶輸入的書(shū)寫(xiě)筆跡轉(zhuǎn)換成侯選糾錯(cuò)字符串，并接受用戶的選擇指定，從至少一個(gè)侯選糾錯(cuò)字符串中確定唯一的糾錯(cuò)字符串。當(dāng)然，為了保證用戶可采用多種方式輸入糾錯(cuò)信息，糾錯(cuò)字符串生成單元也可同時(shí)包括上述多種器件。自動(dòng)糾錯(cuò)單元3，用于根據(jù)糾錯(cuò)字符串確述用戶輸入的語(yǔ)音信號(hào)中產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段，根據(jù)語(yǔ)音識(shí)別結(jié)果中各字符對(duì)應(yīng)的語(yǔ)音片段，確定產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段在語(yǔ)音識(shí)別結(jié)果中所對(duì)應(yīng)的字符串，作為產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串；并利用糾錯(cuò)字符串替換產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串。更具體的，自動(dòng)糾錯(cuò)單元3的功能也可通過(guò)上述處理器或其他獨(dú)立的芯片或處理器實(shí)現(xiàn)。上述各單元的更詳盡的功能可參見(jiàn)前述方法記載，在此不作贅述。本領(lǐng)域普通技術(shù)人員可以意識(shí)到，結(jié)合本文中所公開(kāi)的實(shí)施例描述的各示例的單元及算法步驟，能夠以電子硬件、計(jì)算機(jī)軟件或者二者的結(jié)合來(lái)實(shí)現(xiàn)，為了清楚地說(shuō)明硬件和軟件的可互換性，在上述說(shuō)明中已經(jīng)按照功能一般性地描述了各示例的組成及步驟。這些功能究竟以硬件還是軟件方式來(lái)執(zhí)行，取決于技術(shù)方案的特定應(yīng)用和設(shè)計(jì)約束條件。專業(yè)技術(shù)人員可以對(duì)每個(gè)特定的應(yīng)用來(lái)使用不同方法來(lái)實(shí)現(xiàn)所描述的功能，但是這種實(shí)現(xiàn)不應(yīng)認(rèn)為超出本發(fā)明的范圍。所屬領(lǐng)域的技術(shù)人員可以清楚地了解到，為描述的方便和簡(jiǎn)潔，上述描述的裝置和單元的具體工作過(guò)程，可以參考前述方法實(shí)施例中的對(duì)應(yīng)過(guò)程，在此不再贅述。在本申請(qǐng)所提供的幾個(gè)實(shí)施例中，應(yīng)該理解到，所揭露的裝置和方法，可以通過(guò)其它的方式實(shí)現(xiàn)。例如，以上所描述的裝置實(shí)施例僅僅是示意性的，例如，所述單元的劃分，僅僅為一種邏輯功能劃分，實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式，例如多個(gè)單元或組件可以結(jié)合或者可以集成到另一個(gè)系統(tǒng)，或一些特征可以忽略，或不執(zhí)行。另一點(diǎn)，所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過(guò)一些接口，裝置或單元的間接耦合或通信連接，可以是電性，機(jī)械或其它的形式。所述作為分離部件說(shuō)明的單元可以是或者也可以不是物理上分開(kāi)的，作為單元顯示的部件可以是或者也可以不是物理單元，即可以位于一個(gè)地方，或者也可以分布到多個(gè)單元上。可以根據(jù)實(shí)際的需要選擇其中的部分或者全部單元來(lái)實(shí)現(xiàn)本實(shí)施例方案的目的。另外，在本發(fā)明各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理單元中，也可以是各個(gè)單元單獨(dú)物理存在，也可以兩個(gè)或兩個(gè)以上單元集成在一個(gè)單元中。上述集成的單元既可以采用硬件的形式實(shí)現(xiàn)，也可以采用軟件功能單元的形式實(shí)現(xiàn)。
所述集成的單元如果以軟件功能單元的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時(shí)，可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中?；谶@樣的理解，本發(fā)明的技術(shù)方案本質(zhì)上或者說(shuō)對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的全部或部分可以以軟件產(chǎn)品的形式體現(xiàn)出來(lái)，該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中，包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī)，服務(wù)器，或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述方法的全部或部分步驟。而前述的存儲(chǔ)介質(zhì)包括U盤(pán)、移動(dòng)硬盤(pán)、只讀存儲(chǔ)器(ROM，Read-OnlyMemory)、隨機(jī)存取存儲(chǔ)器(RAM, Random Access Memory)、磁碟或者光盤(pán)等各種可以存儲(chǔ)程序代碼的介質(zhì)。對(duì)所公開(kāi)的實(shí)施例的上述說(shuō)明，使本領(lǐng)域?qū)I(yè)技術(shù)人員能夠?qū)崿F(xiàn)或使用本發(fā)明。對(duì)這些實(shí)施例的多種修改對(duì)本領(lǐng)域的專業(yè)技術(shù)人員來(lái)說(shuō)將是顯而易見(jiàn)的，本文中所定義的一般原理可以在不脫離本發(fā)明的精神或范圍的情況下，在其它實(shí)施例中實(shí)現(xiàn)。因此，本發(fā)明將不會(huì)被限制于本文所示的這些實(shí)施例，而是要符合與本文所公開(kāi)的原理和新穎特點(diǎn)相一致的最寬的范圍。
權(quán)利要求
1.一種語(yǔ)音識(shí)別方法，其特征在于，包括對(duì)用戶輸入的語(yǔ)音信號(hào)進(jìn)行語(yǔ)音識(shí)別，獲得第一最優(yōu)解碼路徑，所述第一最優(yōu)解碼路徑包括語(yǔ)音識(shí)別結(jié)果以及所述語(yǔ)音識(shí)別結(jié)果中各字符對(duì)應(yīng)的語(yǔ)音片段；接收用戶單獨(dú)輸入的糾錯(cuò)信息并生成相應(yīng)的糾錯(cuò)字符串，所述糾錯(cuò)信息通過(guò)非語(yǔ)音方式或語(yǔ)音方式輸入；根據(jù)所述糾錯(cuò)字符串確定所述用戶輸入的語(yǔ)音信號(hào)中產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段；根據(jù)所述語(yǔ)音識(shí)別結(jié)果中各字符對(duì)應(yīng)的語(yǔ)音片段，確定所述產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段在所述語(yǔ)音識(shí)別結(jié)果中所對(duì)應(yīng)的字符串，作為產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串；利用所述糾錯(cuò)字符串替換所述產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串。
2.如權(quán)利要求1所述的方法，其特征在于，所述根據(jù)所述糾錯(cuò)字符串確定所述用戶輸入的語(yǔ)音信號(hào)中產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段，包括根據(jù)所述糾錯(cuò)字符串生成糾錯(cuò)字符串檢索網(wǎng)絡(luò)，所述糾錯(cuò)字符串檢索網(wǎng)絡(luò)包括所述糾錯(cuò)字符串對(duì)應(yīng)的糾錯(cuò)字符串模型以及預(yù)置的吸收模型；在所述糾錯(cuò)字符串檢索網(wǎng)絡(luò)內(nèi)搜索相應(yīng)于所述用戶輸入的語(yǔ)音信號(hào)的第二最優(yōu)解碼路徑，所述第二最優(yōu)解碼路徑包括所述糾錯(cuò)字符串模型對(duì)應(yīng)的語(yǔ)音段作為所述產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段；確定所述產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段在所述用戶輸入的語(yǔ)音信號(hào)中對(duì)應(yīng)的起始位置和結(jié)束位置。
3.如權(quán)利要求2所述的方法，其特征在于，所述根據(jù)所述糾錯(cuò)字符串生成糾錯(cuò)字符串檢索網(wǎng)絡(luò)，包括獲取所述糾錯(cuò)字符串對(duì)應(yīng)的糾錯(cuò)字符串模型；獲取預(yù)置的吸收模型；根據(jù)獲取的糾錯(cuò)字符串模型以及吸收模型生成所述糾錯(cuò)字符串檢索網(wǎng)絡(luò)。
4.如權(quán)利要求1至3任一項(xiàng)所述的方法，其特征在于，根據(jù)所述語(yǔ)音識(shí)別結(jié)果中各字符對(duì)應(yīng)的語(yǔ)音片段，確定所述產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段在所述語(yǔ)音識(shí)別結(jié)果中所對(duì)應(yīng)的字符串，作為產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串，包括確定所述產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段的起始位置在所述語(yǔ)音識(shí)別結(jié)果中所對(duì)應(yīng)的起始字確定所述產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段的結(jié)束位置在所述語(yǔ)音識(shí)別結(jié)果中所對(duì)應(yīng)的結(jié)束字根據(jù)所述起始字符和結(jié)束字符，確定出在所述語(yǔ)音識(shí)別結(jié)果中的字符串，作為產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串。
5.如權(quán)利要求4所述的方法，確定所述產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段的起始位置在所述語(yǔ)音識(shí)別結(jié)果中所對(duì)應(yīng)的起始字符，包括將所述產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段的起始位置對(duì)應(yīng)的字符作為第一字符，并將所述第一字符所對(duì)應(yīng)的語(yǔ)音片斷作為第一語(yǔ)音片斷；當(dāng)所述產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段的起始位置位于所述第一語(yǔ)音片斷的前部時(shí)，將所述第一字符作為起始字符；當(dāng)所述產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段的起始位置位于所述第一語(yǔ)音片斷的后部時(shí)，選擇所述語(yǔ)音識(shí)別結(jié)果中的下一字符作為起始字符。
6.如權(quán)利要求4所述的方法，確定所述產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段的結(jié)束位置在所述語(yǔ)音識(shí)別結(jié)果中所對(duì)應(yīng)的結(jié)束字符，包括將所述產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段的結(jié)束位置對(duì)應(yīng)的字符作為第二字符，并將所述第二字符所對(duì)應(yīng)的語(yǔ)音片斷作為第二語(yǔ)音片斷；當(dāng)所述產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段的結(jié)束位置位于所述第二語(yǔ)音片斷的前部時(shí)，選擇所述語(yǔ)音識(shí)別結(jié)果中的上一字符作為結(jié)束字符；當(dāng)所述產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段的結(jié)束位置位于所述第二語(yǔ)音片斷的后部時(shí)，將所述第二字符作為結(jié)束字符。
7.如權(quán)利要求1至6任一項(xiàng)所述的方法，其特征在于，所述利用所述糾錯(cuò)字符串替換所述產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串具體包括在所述產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串的數(shù)目等于I時(shí)，直接利用所述糾錯(cuò)字符串替換所述產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串；在所述產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串的數(shù)目大于I時(shí)，利用所述糾錯(cuò)字符串替換用戶指定的產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串。
8.如權(quán)利要求7所述的方法，其特征在于，所述利用所述糾錯(cuò)字符串替換用戶指定的產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串具體包括在所述語(yǔ)音識(shí)別結(jié)果中突出顯示所有產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串；接受用戶選擇，利用所述糾錯(cuò)字符串更新用戶選定的產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串。
9.一種語(yǔ)音識(shí)別系統(tǒng)，其特征在于，包括語(yǔ)音識(shí)別單元，用于對(duì)用戶輸入的語(yǔ)音信號(hào)進(jìn)行語(yǔ)音識(shí)別，獲得第一最優(yōu)解碼路徑，所述第一最優(yōu)解碼路徑包括語(yǔ)音識(shí)別結(jié)果以及所述語(yǔ)音識(shí)別結(jié)果中各字符對(duì)應(yīng)的語(yǔ)音片段；糾錯(cuò)字符串生成單元，用于接收用戶單獨(dú)輸入的糾錯(cuò)信息并生成相應(yīng)的糾錯(cuò)字符串，所述糾錯(cuò)信息通過(guò)非語(yǔ)音方式或語(yǔ)音方式輸入；自動(dòng)糾錯(cuò)單元，用于根據(jù)所述糾錯(cuò)字符串確定所述用戶輸入的語(yǔ)音信號(hào)中產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段；在根據(jù)所述語(yǔ)音識(shí)別結(jié)果中各字符對(duì)應(yīng)的語(yǔ)音片段，確定所述產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段所述語(yǔ)音識(shí)別結(jié)果中所對(duì)應(yīng)的字符串，作為產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串；利用所述糾錯(cuò)字符串替換所述產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串。
10.如權(quán)利要求9所述的系統(tǒng)，其特征在于所述根據(jù)所述糾錯(cuò)字符串確定所述用戶輸入的語(yǔ)音信號(hào)中產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段，包括根據(jù)所述糾錯(cuò)字符串生成糾錯(cuò)字符串檢索網(wǎng)絡(luò)，所述糾錯(cuò)字符串檢索網(wǎng)絡(luò)包括所述糾錯(cuò)字符串對(duì)應(yīng)的糾錯(cuò)字符串模型以及預(yù)置的吸收模型；在所述糾錯(cuò)字符串檢索網(wǎng)絡(luò)內(nèi)搜索相應(yīng)于所述用戶輸入的語(yǔ)音信號(hào)的第二最優(yōu)解碼路徑，所述第二最優(yōu)解碼路徑包括所述糾錯(cuò)字符串模型對(duì)應(yīng)的語(yǔ)音段作為所述產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段；確定所述產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段在所述用戶輸入的語(yǔ)音信號(hào)中對(duì)應(yīng)的起始位置和結(jié)束位置。
全文摘要
本發(fā)明實(shí)施例公開(kāi)了語(yǔ)音識(shí)別方法和系統(tǒng)。方法包括對(duì)用戶輸入的語(yǔ)音信號(hào)進(jìn)行語(yǔ)音識(shí)別，獲得語(yǔ)音識(shí)別結(jié)果以及語(yǔ)音識(shí)別結(jié)果中各字符對(duì)應(yīng)的語(yǔ)音片段；接收用戶單獨(dú)輸入的糾錯(cuò)信息并生成糾錯(cuò)字符串；根據(jù)糾錯(cuò)字符串確定用戶輸入的語(yǔ)音信號(hào)中產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段；根據(jù)語(yǔ)音識(shí)別結(jié)果中各字符對(duì)應(yīng)的語(yǔ)音片段，確定產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段在語(yǔ)音識(shí)別結(jié)果中所對(duì)應(yīng)的字符串，作為錯(cuò)誤字符串；利用糾錯(cuò)字符串替換錯(cuò)誤字符串。在本發(fā)明實(shí)施例中，根據(jù)用戶單獨(dú)輸入的糾錯(cuò)信息而生成的糾錯(cuò)字符串確定產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段，再通過(guò)該語(yǔ)音段找到其在語(yǔ)音識(shí)別結(jié)果中所對(duì)應(yīng)的錯(cuò)誤字符串，實(shí)現(xiàn)了對(duì)語(yǔ)音識(shí)別結(jié)果中錯(cuò)誤字符串的自動(dòng)定位，解決了人工定位不便的問(wèn)題。
文檔編號(hào)G10L15/26GK103021412SQ20121058474
公開(kāi)日2013年4月3日申請(qǐng)日期2012年12月28日優(yōu)先權(quán)日2012年12月28日
發(fā)明者何婷婷, 胡郁, 劉慶峰申請(qǐng)人:安徽科大訊飛信息科技股份有限公司

完整全部詳細(xì)技術(shù)資料下載