專利名稱:語(yǔ)音識(shí)別方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語(yǔ)音識(shí)別技術(shù)領(lǐng)域,更具體地說(shuō),涉及語(yǔ)音識(shí)別方法和系統(tǒng)。
背景技術(shù):
語(yǔ)音識(shí)別技術(shù)是一種對(duì)用戶錄入的語(yǔ)音信號(hào)進(jìn)行識(shí)別,最終轉(zhuǎn)化為文本/字符串(也即識(shí)別結(jié)果為文本)的技術(shù),其為自然人性的人機(jī)交互提供了便利。以采用語(yǔ)音識(shí)別技術(shù)的移動(dòng)設(shè)備為例,在語(yǔ)音識(shí)別技術(shù)的支持下,用戶只要對(duì)著移動(dòng)設(shè)備說(shuō)話,經(jīng)過(guò)語(yǔ)音識(shí)別系統(tǒng)識(shí)別后就會(huì)自動(dòng)形成文字,大大提高了用戶的輸入效率。但是,在大詞匯量隨意說(shuō)的應(yīng)用環(huán)境下,語(yǔ)音識(shí)別技術(shù)依然不能達(dá)到百分百正確的識(shí)別率,需要人工對(duì)識(shí)別結(jié)果進(jìn)行修正編輯。移動(dòng)設(shè)備(語(yǔ)音識(shí)別系統(tǒng))將語(yǔ)音識(shí)別結(jié)果 顯示到屏幕的文本輸入?yún)^(qū)后,用戶如想對(duì)語(yǔ)音識(shí)別結(jié)果進(jìn)行修改編輯,則首先需要在語(yǔ)音識(shí)別結(jié)果中定位需要修正(也可稱為待修改)的字符。而在移動(dòng)設(shè)備上,特別是小屏幕的指觸屏設(shè)備上,由于屏幕尺寸受限,用戶在從連續(xù)大段文本中對(duì)某個(gè)確定的字符進(jìn)行定位時(shí),特別是在相鄰兩字符間插入編輯光標(biāo)時(shí),存在定位不便的問(wèn)題。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明實(shí)施例目的在于提供語(yǔ)音識(shí)別方法和系統(tǒng),以解決上述用戶人工進(jìn)行定位存在的定位不便的問(wèn)題。為實(shí)現(xiàn)上述目的,本發(fā)明實(shí)施例提供如下技術(shù)方案根據(jù)本發(fā)明實(shí)施例的一個(gè)方面,提供一種語(yǔ)音識(shí)別方法,包括對(duì)用戶輸入的語(yǔ)音信號(hào)進(jìn)行語(yǔ)音識(shí)別,獲得第一最優(yōu)解碼路徑,所述第一最優(yōu)解碼路徑包括語(yǔ)音識(shí)別結(jié)果以及所述語(yǔ)音識(shí)別結(jié)果中各字符對(duì)應(yīng)的語(yǔ)音片段;接收用戶單獨(dú)輸入的糾錯(cuò)信息并生成相應(yīng)的糾錯(cuò)字符串,所述糾錯(cuò)信息通過(guò)非語(yǔ)音方式或語(yǔ)音方式輸入;根據(jù)所述糾錯(cuò)字符串確定所述用戶輸入的語(yǔ)音信號(hào)中產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段;根據(jù)所述語(yǔ)音識(shí)別結(jié)果中各字符對(duì)應(yīng)的語(yǔ)音片段,確定所述產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段在所述語(yǔ)音識(shí)別結(jié)果中所對(duì)應(yīng)的字符串,作為產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串;利用所述糾錯(cuò)字符串替換所述產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串。根據(jù)本發(fā)明實(shí)施例的另一個(gè)方面,提供一種語(yǔ)音識(shí)別系統(tǒng),包括語(yǔ)音識(shí)別單元,用于對(duì)用戶輸入的語(yǔ)音信號(hào)進(jìn)行語(yǔ)音識(shí)別,獲得第一最優(yōu)解碼路徑,所述第一最優(yōu)解碼路徑包括語(yǔ)音識(shí)別結(jié)果以及所述語(yǔ)音識(shí)別結(jié)果中各字符對(duì)應(yīng)的語(yǔ)音片段;糾錯(cuò)字串輸入單元,用于接收用戶單獨(dú)輸入的糾錯(cuò)信息并生成相應(yīng)的糾錯(cuò)字符串,所述糾錯(cuò)信息通過(guò)非語(yǔ)音方式或語(yǔ)音方式輸入;自動(dòng)糾錯(cuò)單元,用于根據(jù)所述糾錯(cuò)字符串確定所述用戶輸入的語(yǔ)音信號(hào)中產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段;根據(jù)所述語(yǔ)音識(shí)別結(jié)果中各字符對(duì)應(yīng)的語(yǔ)音片段,確定所述產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段在所述語(yǔ)音識(shí)別結(jié)果中所對(duì)應(yīng)的字符串,作為產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串;利用所述糾錯(cuò)字符串替換所述產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串。從上述的技術(shù)方案可以看出,本發(fā)明實(shí)施例所公開(kāi)的技術(shù)方案根據(jù)用戶單獨(dú)輸入的糾錯(cuò)信息而生成的糾錯(cuò)字符串確定產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段,再通過(guò)該語(yǔ)音段找到其在語(yǔ)音識(shí)別結(jié)果中所對(duì)應(yīng)的產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串,實(shí)現(xiàn)了用戶所輸入的糾錯(cuò)信息而生成的糾錯(cuò)字符串與錯(cuò)誤字符串的對(duì)應(yīng),進(jìn)而實(shí)現(xiàn)了對(duì)語(yǔ)音識(shí)別結(jié)果中錯(cuò)誤字符串的自動(dòng)定位,解決了用戶人工進(jìn)行定位存在的定位不便的問(wèn)題。
為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為本發(fā)明實(shí)施例提供的語(yǔ)音識(shí)別方法流程圖;圖2為本發(fā)明實(shí)施例提供的手寫(xiě)輸入識(shí)別流程圖;圖3為本發(fā)明實(shí)施例提供字符覆蓋的最小區(qū)域示意圖;圖4為本發(fā)明實(shí)施例提供的自動(dòng)糾錯(cuò)過(guò)程流程圖;圖5為本發(fā)明實(shí)施例提供的糾錯(cuò)字符串檢索網(wǎng)絡(luò)結(jié)構(gòu)示意圖;圖6為本發(fā)明實(shí)施例提供的語(yǔ)音識(shí)別系統(tǒng)結(jié)構(gòu)示意圖。
具體實(shí)施例方式下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。作為一種簡(jiǎn)單方便而又高效的輸入方式,語(yǔ)音識(shí)別改變了傳統(tǒng)的基于復(fù)雜編碼或拼音輸入的鍵盤(pán)模式,為自然人性的人機(jī)交互提供了便利條件。特別是近年來(lái)隨著科技的發(fā)展和無(wú)線通訊網(wǎng)絡(luò)的創(chuàng)新普及,各種在線語(yǔ)音識(shí)別應(yīng)用,如發(fā)微博,寫(xiě)短信,網(wǎng)絡(luò)即時(shí)通訊等受到了越來(lái)越多的關(guān)注。在語(yǔ)音識(shí)別技術(shù)的支持下,用戶只要對(duì)著移動(dòng)設(shè)備說(shuō)話,經(jīng)過(guò)系統(tǒng)識(shí)別后就會(huì)自動(dòng)形成文字,大大提高了用戶的輸入效率。但是,在大詞匯量隨意說(shuō)的應(yīng)用環(huán)境下,語(yǔ)音識(shí)別技術(shù)依然不能達(dá)到百分百正確的識(shí)別率,需要人工對(duì)識(shí)別結(jié)果進(jìn)行修正編輯。移動(dòng)設(shè)備(語(yǔ)音識(shí)別系統(tǒng))將語(yǔ)音識(shí)別結(jié)果顯示到屏幕的文本輸入?yún)^(qū)后,用戶如想對(duì)語(yǔ)音識(shí)別結(jié)果進(jìn)行修改編輯,則需要在識(shí)別結(jié)果中定位需要修正(也可稱為待修改)的字符。而在移動(dòng)設(shè)備上,特別是小屏幕的指觸屏設(shè)備上,由于屏幕尺寸受限,用戶在從連續(xù)大段文本中對(duì)某個(gè)確定的字符進(jìn)行定位時(shí),特別是在相鄰兩字符間插入編輯光標(biāo)時(shí),存在定位不準(zhǔn)的問(wèn)題。為便于理解,現(xiàn)對(duì)語(yǔ)音識(shí)別介紹如下
如果將待識(shí)別的一段語(yǔ)音信號(hào)記作S,對(duì)S進(jìn)行一系列處理后得到與之相對(duì)應(yīng)的語(yǔ)音特征序列O,記作O = (O1,02,…,Oi,…,0T},其中Oi是第i個(gè)語(yǔ)音特征,T為語(yǔ)音特征總個(gè)數(shù)。語(yǔ)音信號(hào)S對(duì)應(yīng)的句子可看作是由許多詞組成的一個(gè)詞串,記作W= Iw1,w2,…,WnI。語(yǔ)音識(shí)別的任務(wù)就是根 據(jù)已知的語(yǔ)音特征序列0,求出最可能的詞串r。在語(yǔ)音識(shí)別的具體過(guò)程中,一般首先提取語(yǔ)音信號(hào)對(duì)應(yīng)的語(yǔ)音特征參數(shù),隨后在由預(yù)置的聲學(xué)模型和語(yǔ)言模型構(gòu)成的網(wǎng)絡(luò)搜索空間中,根據(jù)預(yù)設(shè)的搜索算法(比如Viterbi算法),搜索相對(duì)于所提取得語(yǔ)音特征參數(shù)的最優(yōu)路徑(也即最優(yōu)解碼路徑)。在了解了語(yǔ)音識(shí)別的一些概念后,現(xiàn)對(duì)本發(fā)明實(shí)施例的技術(shù)方案介紹如下。為解決上述定位不便的問(wèn)題,本發(fā)明實(shí)施例所提供的語(yǔ)音識(shí)別方法至少包括如下步驟 語(yǔ)音識(shí)別過(guò)程對(duì)用戶輸入的語(yǔ)音信號(hào)進(jìn)行語(yǔ)音識(shí)別,獲得最優(yōu)解碼路徑,其中,最優(yōu)解碼路徑包括語(yǔ)音識(shí)別結(jié)果以及語(yǔ)音識(shí)別結(jié)果中各字符對(duì)應(yīng)的語(yǔ)音片段;糾錯(cuò)字符串生成過(guò)程接收用戶單獨(dú)輸入的糾錯(cuò)信息并生成相應(yīng)的糾錯(cuò)字符串,上述糾錯(cuò)信息允許通過(guò)非語(yǔ)音方式或語(yǔ)音方式輸入;自動(dòng)糾錯(cuò)過(guò)程根據(jù)糾錯(cuò)字符串確定用戶輸入的語(yǔ)音信號(hào)中產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段;根據(jù)語(yǔ)音識(shí)別結(jié)果中各字符對(duì)應(yīng)的語(yǔ)音片段,確定產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段在所述語(yǔ)音識(shí)別結(jié)果中所對(duì)應(yīng)的字符串,作為產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串;并利用糾錯(cuò)字符串替換所述產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串。為稱呼方便,本文后續(xù)一些記載使用錯(cuò)誤字符串作為“產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串”的簡(jiǎn)稱。下面對(duì)各個(gè)過(guò)程進(jìn)行一一介紹。一,語(yǔ)音識(shí)別過(guò)程為了最大可能的滿足用戶日常交互需求,本發(fā)明實(shí)施例采用大詞匯量連續(xù)語(yǔ)音識(shí)別技術(shù),以實(shí)現(xiàn)對(duì)任意說(shuō)語(yǔ)音的文本轉(zhuǎn)換。其中,參見(jiàn)圖1,上述語(yǔ)音識(shí)別過(guò)程具體包括S11、跟蹤采集用戶輸入的語(yǔ)音信號(hào)(也即上述待識(shí)別的一段語(yǔ)音信號(hào));在本發(fā)明其他實(shí)施例中,可將上述語(yǔ)音信號(hào)存入數(shù)據(jù)緩存區(qū);S12、對(duì)上述語(yǔ)音信號(hào)進(jìn)行預(yù)處理,以得到經(jīng)過(guò)預(yù)處理后的語(yǔ)音數(shù)據(jù);上述預(yù)處理可包括語(yǔ)音信號(hào)采樣、反混疊帶通濾波、分幀處理、去除個(gè)體發(fā)音差異和設(shè)備、環(huán)境引起的噪聲影響,端點(diǎn)檢測(cè)。為了提高語(yǔ)音識(shí)別系統(tǒng)的魯棒性上述預(yù)處理具體還可包括前端降噪處理,以為后續(xù)語(yǔ)音處理提供較為純凈的語(yǔ)音。S13、對(duì)上述經(jīng)過(guò)預(yù)處理的語(yǔ)音數(shù)據(jù)中每幀語(yǔ)音數(shù)據(jù)分別進(jìn)行特征提取,以獲取特征矢量序列。在步驟S13中,對(duì)每幀語(yǔ)音數(shù)據(jù)進(jìn)行特征提取后可提取出有效語(yǔ)音特征(或者特征矢量)。這樣,經(jīng)特征提取后,每一幀語(yǔ)音數(shù)據(jù)形成一個(gè)特征矢量,相應(yīng)的,上述語(yǔ)音數(shù)據(jù)即可用一特征矢量序列表示;本領(lǐng)域技術(shù)人員可以理解的是,如果對(duì)經(jīng)過(guò)預(yù)處理后的語(yǔ)音數(shù)據(jù)包括30幀語(yǔ)音數(shù)據(jù)的話,那么這30幀語(yǔ)音數(shù)據(jù)就可提取出30個(gè)特征矢量,而這30個(gè)特征矢量按照時(shí)間先后順序即可組成上述特征矢量序列。在本發(fā)明其他實(shí)施例中,上述有效語(yǔ)音特征可為線性預(yù)測(cè)倒譜或MFCC (Mel倒譜)特征。具體的,以MFCC特征為例,可對(duì)窗長(zhǎng)25ms幀移IOms的每幀語(yǔ)音數(shù)據(jù)通過(guò)短時(shí)分析得到MFCC參數(shù)和/或MFCC參數(shù)的一階/ 二階差分,共計(jì)39維。這樣,每幀語(yǔ)音數(shù)據(jù)經(jīng)過(guò)特征提取可得到一個(gè)39維的特征矢量。在本發(fā)明其他實(shí)施例中,可將上述語(yǔ)音特征/語(yǔ)音特征矢量序列存入特征緩存區(qū)內(nèi)。S14、在預(yù)先構(gòu)建的檢索網(wǎng)絡(luò)中對(duì)上述特征矢量序列進(jìn)行最優(yōu)路徑搜索(上述檢索網(wǎng)絡(luò)主要由系統(tǒng)預(yù)設(shè)的聲學(xué)模型,詞典,語(yǔ)言模型等構(gòu)成),以獲取與上述特征矢量序列具有最大模型似然概率的模型串作為語(yǔ)音識(shí)別結(jié)果輸出(顯出)。在具體實(shí)施時(shí),可采用業(yè)內(nèi)主流的基于動(dòng)態(tài)規(guī)劃思想的Viterbi搜索算法,對(duì)每一特征矢量遍歷檢索網(wǎng)絡(luò)中滿足預(yù)設(shè)條件的活躍節(jié)點(diǎn)計(jì)算累計(jì)歷史路徑概率并保留滿足預(yù)設(shè)條件的歷史路徑作為后續(xù)搜索網(wǎng)絡(luò)的活躍節(jié)點(diǎn),最后通過(guò)對(duì)具有最大歷史路徑概率的路徑(也即上述第一最優(yōu)解碼路徑)回溯實(shí)現(xiàn)對(duì)輸入語(yǔ)音的識(shí)別解碼。在解碼中第一最優(yōu)解碼路徑對(duì)每幀語(yǔ)音數(shù)據(jù)均保留其所對(duì)應(yīng)的識(shí)別單元模型,進(jìn)而對(duì)語(yǔ)音識(shí)別結(jié)果中的每一字符都可獲取其所對(duì)應(yīng)的語(yǔ)音片段,當(dāng)然,也可獲取每一字符所對(duì)應(yīng)語(yǔ)音片段的起始位置信息和結(jié)束位置信息。需要說(shuō)明的是,上述提及的語(yǔ)音片段既可為用戶輸入的語(yǔ)音信號(hào)中的語(yǔ)音片段,也可為經(jīng)過(guò)預(yù)處理后的語(yǔ)音數(shù)據(jù)中的至少一幀語(yǔ)音數(shù)據(jù),還可為特征矢量序列中的特征矢量子序列。為稱呼方便,本文后續(xù)將用戶輸入的語(yǔ)音信號(hào)、經(jīng)過(guò)預(yù)處理后的語(yǔ)音數(shù)據(jù)以及特征矢量序列統(tǒng)稱為待識(shí)別語(yǔ)音信號(hào)。也即,本文下述提及的待識(shí)別語(yǔ)音信號(hào)具體可為用戶輸入的語(yǔ)音信號(hào)、經(jīng)過(guò)預(yù)處理后的語(yǔ)音數(shù)據(jù)或特征矢量序列。而本文下述提及的語(yǔ)音片段具體可為用戶輸入的語(yǔ)音信號(hào)中的語(yǔ)音片段、至少一幀語(yǔ)音數(shù)據(jù)或特征矢量子序列。也就是說(shuō),我們可將步驟Sll中的語(yǔ)音信號(hào)或者步驟S12中經(jīng)過(guò)預(yù)處理后的語(yǔ)音數(shù)據(jù)或者步驟S13中的特征矢量序列劃分成與語(yǔ)音識(shí)別結(jié)果中的字符相對(duì)應(yīng)的語(yǔ)音片段,從而令語(yǔ)音識(shí)別結(jié)果中的每個(gè)字符對(duì)應(yīng)一個(gè)確切的語(yǔ)音片段。舉例來(lái)講,如果語(yǔ)音識(shí)別結(jié)果為“我們?nèi)ヅ郎健边@一字符串,該字符串對(duì)應(yīng)的解碼路徑信息可保存為(0000000 2200000),(2200000 3600000),(36000004300000),(4300000 5000000), (5000000 7400000)。上述(0000000 2200000)指示了“我”這個(gè)字符所對(duì)應(yīng)的語(yǔ)音片斷的起始位置信息和結(jié)束位置信息。其中,0000000是“我”所對(duì)應(yīng)的語(yǔ)音片斷在待識(shí)別語(yǔ)音信號(hào)中的起始位置(時(shí)刻),而2200000是“我”所對(duì)應(yīng)的語(yǔ)音片斷在待識(shí)別語(yǔ)音信號(hào)中的結(jié)束位置(時(shí)刻)。二、糾錯(cuò)字符串生成過(guò)程本發(fā)明實(shí)施例支持用戶以非語(yǔ)音方式或語(yǔ)音方式輸入糾錯(cuò)信息并生成糾錯(cuò)字符
串O在采用語(yǔ)音方式輸入糾錯(cuò)信息時(shí),所輸入的糾錯(cuò)信息具體為語(yǔ)音信號(hào),由于與語(yǔ)音識(shí)別過(guò)程一樣是以語(yǔ)音方式輸入,則系統(tǒng)可能無(wú)法確定當(dāng)前的語(yǔ)音輸入是為了繼續(xù)新文本的語(yǔ)音輸入,還是為了對(duì)原始文本進(jìn)行語(yǔ)音糾錯(cuò)輸入。因此,可以設(shè)置單獨(dú)的糾錯(cuò)信息輸入控制按鍵,控制從新文本的語(yǔ)音輸入切換至對(duì)原始文本的語(yǔ)音糾錯(cuò)輸入。在以語(yǔ)音方式輸入糾錯(cuò)信息的模式下,由于糾錯(cuò)信息為語(yǔ)音信號(hào),在將其轉(zhuǎn)化成糾錯(cuò)字符串時(shí)的處理過(guò)程同上述語(yǔ)音識(shí)別過(guò)程相同,在此不作贅述,并且,還可提供多個(gè)識(shí)別候選字符串供用戶選擇以提高生成糾錯(cuò)字符串的準(zhǔn)確率。此外,本發(fā)明實(shí)施例還支持用戶以按鍵輸入(比如拼音輸入、筆劃輸入、區(qū)位碼輸入等等)、手寫(xiě)輸入等非語(yǔ)音方式輸入糾錯(cuò)信息,此時(shí),如以按鍵輸入,所輸入的糾錯(cuò)信息具體為按鍵序列,如以手寫(xiě)輸入,所輸入的糾錯(cuò)信息具體為書(shū)寫(xiě)筆跡?,F(xiàn)以拼音輸入和手寫(xiě)輸入為例,對(duì)非語(yǔ)音方式輸入過(guò)程進(jìn)行介紹。其具體流程仍請(qǐng)參見(jiàn)圖1 :S21、判斷用戶的輸入方式,如是拼音按鍵輸入轉(zhuǎn)入步驟S22,如果是手寫(xiě)輸入轉(zhuǎn)入步驟S23。S22、將用戶輸入的按鍵序列轉(zhuǎn)換成侯選糾錯(cuò)字符串。其中,步驟S22具體可包括S221,跟蹤采集用戶的按鍵序列,將其對(duì)應(yīng)成字母串序列;S222,將采集到的字母串序列和預(yù)置的拼音辭典匹配以找到侯選糾錯(cuò)字符串,并顯不O比如用戶在輸入qinghua后,系統(tǒng)可能顯示清華、青花、親華等多個(gè)侯選糾錯(cuò)字符串供用戶選擇。S23、識(shí)別用戶輸入的書(shū)寫(xiě)筆跡,將用戶輸入的書(shū)寫(xiě)筆跡轉(zhuǎn)化為至少一個(gè)侯選糾錯(cuò)
字符串;其中,參見(jiàn)圖2,步驟S23可具體包括S231,跟蹤用戶輸入的書(shū)寫(xiě)筆跡,并將采集到的書(shū)寫(xiě)筆跡保存在筆跡數(shù)據(jù)緩存區(qū)內(nèi);在聯(lián)機(jī)手寫(xiě)識(shí)別系統(tǒng)中,用戶的書(shū)寫(xiě)筆跡通常用一序列的二維(位置坐標(biāo))或三維點(diǎn)(位置坐標(biāo)和抬筆/落筆狀態(tài))坐標(biāo)表示,用以描述字符書(shū)寫(xiě)的空間和時(shí)間信息。S232,對(duì)上述書(shū)寫(xiě)筆跡進(jìn)行預(yù)處理。由于采集設(shè)備或用戶在書(shū)寫(xiě)時(shí)抖動(dòng)等原因,原始采集到的書(shū)寫(xiě)筆跡中可能存在各種噪音干擾。為了提高系統(tǒng)的魯棒性,可對(duì)采集到的筆跡進(jìn)行預(yù)處理。具體的,可通過(guò)字符大小歸一化、野點(diǎn)去除、平滑,重采樣等處理方式加以組合,以盡可能減少噪音干擾帶來(lái)的識(shí)別率下降的問(wèn)題。S233,對(duì)經(jīng)過(guò)預(yù)處理的書(shū)寫(xiě)筆跡進(jìn)行筆跡特征提取。和語(yǔ)音識(shí)別相類似,在手寫(xiě)識(shí)別中,也需要從原始的筆跡軌跡上提取反映字符特點(diǎn)的字符特征。具體的,本實(shí)施例提取手寫(xiě)識(shí)別領(lǐng)域常用的八方向特征,并通過(guò)LDA等技術(shù)提高筆跡特征的區(qū)分性。S234,將提取的字符特征與預(yù)置模型進(jìn)行匹配,計(jì)算相似度。S235、選取與上述字符特征具有最高相似度的至少一個(gè)預(yù)置模型作為侯選糾錯(cuò)字符串,并顯示??紤]到拼音輸入以及手寫(xiě)識(shí)別技術(shù)的準(zhǔn)確率往往很好,因而通常上述侯選糾錯(cuò)字符串的個(gè)數(shù)可以選擇3到5。當(dāng)然,本領(lǐng)域技術(shù)人員可以理解的是,當(dāng)用戶的非語(yǔ)音輸入足夠長(zhǎng)時(shí),也可能只有一個(gè)侯選糾錯(cuò)字符串。S25、從侯選糾錯(cuò)字符串中確定糾錯(cuò)字符串。步驟S25可具體包括接受用戶的選擇指定,從至少一個(gè)侯選糾錯(cuò)字符串中確定唯一的糾錯(cuò)字符串。S25可以單獨(dú)列出,作為對(duì)糾錯(cuò)字符串的進(jìn)一步確認(rèn),以兼容語(yǔ)音輸入和非語(yǔ)音輸入方式。三,自動(dòng)糾錯(cuò)過(guò)程考慮到糾錯(cuò)字符串和語(yǔ)音識(shí)別結(jié)果中產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串所對(duì)應(yīng)的語(yǔ)音段往往具有一致性,本發(fā)明實(shí)施例自動(dòng)糾錯(cuò)的核心思想是將糾錯(cuò)字符串映射到語(yǔ)音段上,再通過(guò)該語(yǔ)音段找到其在語(yǔ)音識(shí)別結(jié)果中所對(duì)應(yīng)的字詞(也即產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串),從而實(shí)現(xiàn)了糾錯(cuò)字符串與錯(cuò)誤字符串的對(duì)應(yīng)。這樣,就實(shí)現(xiàn)了對(duì)語(yǔ)音識(shí)別結(jié)果中錯(cuò)誤字符串的自動(dòng)定位,解決了用戶人工進(jìn)行定位存在的定位不便的問(wèn)題。具體來(lái)說(shuō),首先在待識(shí)別語(yǔ)音信號(hào)中找到對(duì)應(yīng)于上述糾錯(cuò)字符串的語(yǔ)音段。隨后在語(yǔ)音識(shí)別結(jié)果中定位與該語(yǔ)音段相對(duì)應(yīng)的字符串作為“產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串”。上述“產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串”是在步驟S14中得到的模型串中的子串,該子串在待識(shí)別語(yǔ)音信號(hào)中所對(duì)應(yīng)的語(yǔ)音段的起始時(shí)刻和結(jié)束時(shí)刻,與上述糾錯(cuò)字符串在待識(shí)別語(yǔ)音信號(hào)中所對(duì)應(yīng)的語(yǔ)音段的起始時(shí)刻和結(jié)束時(shí)刻具有一致性。自動(dòng)糾錯(cuò)過(guò)程的流程請(qǐng)仍參見(jiàn)圖1,包括S31、根據(jù)糾錯(cuò)字符串確定待識(shí)別語(yǔ)音信號(hào)中產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段;S32、根據(jù)語(yǔ)音識(shí)別結(jié)果中各字符對(duì)應(yīng)的語(yǔ)音片段,確定上述產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段在第一最優(yōu)解碼路徑的語(yǔ)音識(shí)別結(jié)果中所對(duì)應(yīng)的字符串,將其作為“產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串”;S33、利用糾錯(cuò)字符串替換上述產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串。在本發(fā)明其他實(shí)施例,步驟S33可包括如下步驟在產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串的數(shù)目等于I時(shí),直接利用用戶輸入的糾錯(cuò)信息而生成的糾錯(cuò)字符串替換該產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串;在產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串的數(shù)目大于I時(shí),利用糾錯(cuò)字符串替換用戶指定的產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串。本發(fā)明一些實(shí)施例可接受用戶主動(dòng)參與選擇,因此,上述“利用糾錯(cuò)字符串替換用戶指定的產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串”的具體流程可包括A,在語(yǔ)音識(shí)別結(jié)果中突出顯示所有產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串。在本發(fā)明其他實(shí)施例中,除突出顯示所有產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串外,還可以設(shè)置除錯(cuò)誤字符串外的其它識(shí)別結(jié)果為非活躍狀態(tài),以提高定位精確度;B,接受用戶的選擇指定,利用上述糾錯(cuò)字符串更新用戶所選定的錯(cuò)誤字符串。此外,在本發(fā)明其他實(shí)施例中,還可支持用戶的模糊選擇指定一即并不要求用戶精準(zhǔn)定位錯(cuò)誤字符串,而是通過(guò)近鄰方式進(jìn)行定位當(dāng)手寫(xiě)筆的落筆點(diǎn)落入錯(cuò)誤字符串近鄰區(qū)域時(shí),自動(dòng)將其定位到對(duì)應(yīng)的錯(cuò)誤字符串上。具體來(lái)說(shuō),計(jì)算落筆點(diǎn)距每個(gè)錯(cuò)誤字符串所覆蓋的最小區(qū)域的最短距離,選擇具有最小“最短距離”的錯(cuò)誤字符串作為用戶選定的錯(cuò)誤字符串。例如,參見(jiàn)圖3,可設(shè)定一個(gè)字符(我)所覆蓋的最小區(qū)域的高度H為該字符字高h(yuǎn)的A倍,而一個(gè)字符所覆蓋的最小區(qū)域的寬度W為該字符字寬w的B倍,A和B可為大于等于I的任意正數(shù)。那么,錯(cuò)誤字符串所覆蓋的最小區(qū)域則為組成該錯(cuò)誤字符串中所有字符所覆蓋的最小區(qū)域的總和。參見(jiàn)圖4,在本發(fā)明其他實(shí)施例中,上述步驟S31可具體包括如下步驟S311,根據(jù)上述糾錯(cuò)字符串生成糾錯(cuò)字符串檢索網(wǎng)絡(luò)。請(qǐng)參見(jiàn)圖5,上述糾錯(cuò)字符串檢索網(wǎng)絡(luò)包括糾錯(cuò)字符串模型以及預(yù)置的吸收模型。其中,糾錯(cuò)字符串模型由糾錯(cuò)字符串生成通過(guò)預(yù)置的詞典將糾錯(cuò)字符串?dāng)U展為相應(yīng)的模型序列得到對(duì)應(yīng)的糾錯(cuò)字符串模型。由于用戶每次輸入的糾錯(cuò)信息而生成的糾錯(cuò)字符串都不盡相同,因此,糾錯(cuò)字符串網(wǎng)絡(luò)中的糾錯(cuò)字符串模型需要實(shí)時(shí)更新。因此,上述步驟S31又可具體包括獲取糾錯(cuò)字符串對(duì)應(yīng)的糾錯(cuò)字符串模型;獲取預(yù)置的吸收模型;根據(jù)獲取的糾錯(cuò)字符串模型以及吸收模型生成糾錯(cuò)字符串檢索網(wǎng)絡(luò)。需要說(shuō)明的是,如果語(yǔ)音識(shí)別結(jié)果中存在不相鄰且不相干的多處識(shí)別錯(cuò)誤,比如語(yǔ)音識(shí)別結(jié)果中存在“清華”和“西站”兩處識(shí)別錯(cuò)誤,則需要多次通過(guò)語(yǔ)音或非語(yǔ)音方式輸入糾錯(cuò)信息生成糾錯(cuò)字符串。而對(duì)每次輸入的糾錯(cuò)信息而生成的糾錯(cuò)字符串,不管其包含多少字詞,都將其看作一個(gè)獨(dú)立的糾錯(cuò)字符串。比如,用戶在某次輸入糾錯(cuò)字符串時(shí),共輸入了 3個(gè)漢字,則糾錯(cuò)字符串包括3個(gè)漢字,隨后通過(guò)字典將包括該3個(gè)漢字的糾錯(cuò)字符串?dāng)U展成對(duì)應(yīng)的糾錯(cuò)字符串模型。在將糾錯(cuò)字符串?dāng)U展成糾錯(cuò)字符串模型時(shí),根據(jù)預(yù)置的聲學(xué)模型的不同可采用不同的擴(kuò)展方式。比如,可基于音節(jié)模型單元的聲學(xué)模型(如基于音節(jié)模型單元的聲學(xué)模型,單個(gè)漢字由I個(gè)音節(jié)構(gòu)成),也可基于音素模型單元的聲學(xué)模型(如基于音素模型單元的聲學(xué)模型,單個(gè)漢字由2個(gè)音素構(gòu)成),具體由在進(jìn)行語(yǔ)音識(shí)別時(shí)所采用的模型單元所決定。因此,如對(duì)上述包括3個(gè)漢字的糾錯(cuò)字符串進(jìn)行擴(kuò)展,可擴(kuò)展得到由3個(gè)音節(jié)模型單元相串聯(lián)的糾錯(cuò)字符串模型或者由6個(gè)音素模型單元相串聯(lián)的糾錯(cuò)字符串模型。至于吸收模型則是由系統(tǒng)預(yù)先在海量語(yǔ)音數(shù)據(jù)訓(xùn)練得到的背景模型,也可采用多個(gè)吸收模型以提高復(fù)雜語(yǔ)音匹配的準(zhǔn)確性。需要注意的是,多個(gè)單獨(dú)吸收模型是并聯(lián)的。S312,在糾錯(cuò)字符串檢索網(wǎng)絡(luò)中對(duì)待識(shí)別語(yǔ)音信號(hào)重新解碼獲取第二最優(yōu)解碼路徑。其中,第二最優(yōu)解碼路徑包括糾錯(cuò)字符串模型對(duì)應(yīng)的語(yǔ)音段作為產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段。具體的,上述糾錯(cuò)字符串模型所對(duì)應(yīng)的語(yǔ)音段可為用戶輸入的語(yǔ)音信號(hào)中的語(yǔ)音段,也可為經(jīng)過(guò)預(yù)處理后的語(yǔ)音數(shù)據(jù)中的至少一幀語(yǔ)音數(shù)據(jù),還可為特征矢量序列中的特征矢量子序列。為簡(jiǎn)單化起見(jiàn),可選用糾錯(cuò)字符串模型所對(duì)應(yīng)的特征矢量子序列作為產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段。則步驟S312可具體包括在糾錯(cuò)字符串檢索網(wǎng)絡(luò)中搜索相應(yīng)于特征矢量序列的最優(yōu)路徑(即第二最優(yōu)路徑),得到上述糾錯(cuò)字符串模型所對(duì)應(yīng)的特征矢量子序列在整個(gè)特征矢量序列中的起始位置和結(jié)束位置。步驟S312中的解碼,與上述步驟S14相類似,二者的不同在于,步驟S312所利用的網(wǎng)絡(luò)是根據(jù)糾錯(cuò)字符串生成的糾錯(cuò)字符串檢索網(wǎng)絡(luò),而步驟S14所利用的檢索網(wǎng)絡(luò)的范圍要大于上述糾錯(cuò)字符串檢索網(wǎng)絡(luò)。因此,步驟S312的解碼,仍可采用業(yè)內(nèi)主流的基于動(dòng)態(tài)規(guī)劃思想的Viterbi搜索算法,對(duì)每幀特征矢量遍歷糾錯(cuò)字符串檢索網(wǎng)絡(luò)中滿足預(yù)設(shè)條件的活躍節(jié)點(diǎn)并保留滿足預(yù)設(shè)條件的歷史路徑作為后續(xù)搜索網(wǎng)絡(luò)的活躍節(jié)點(diǎn),最后通過(guò)對(duì)具有最大歷史路徑概率的路徑(即第二最優(yōu)解碼路徑)獲得糾錯(cuò)字符串模型對(duì)應(yīng)的語(yǔ)音段,從而確定了產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段。由于在步驟S312中,已經(jīng)獲取了糾錯(cuò)字符串模型對(duì)應(yīng)的語(yǔ)音段的起始位置(時(shí)刻)和結(jié)束位置(時(shí)刻),因此,在后續(xù)的步驟S32中,可根據(jù)語(yǔ)音識(shí)別結(jié)果中各字符對(duì)應(yīng)的語(yǔ)音片段,確定產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段的起始位置在語(yǔ)音識(shí)別結(jié)果中所對(duì)應(yīng)的起始字符。同時(shí),可確定產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段的結(jié)束位置在語(yǔ)音識(shí)別結(jié)果中所對(duì)應(yīng)的結(jié)束字符,在確定了起始字符和結(jié)束字符后,就可確定出產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串。更具體的,可通過(guò)如下方式來(lái)確定起始字符將起始位置對(duì)應(yīng)的字符作為第一字符,并將該第一字符所對(duì)應(yīng)的語(yǔ)音片斷作為第一語(yǔ)音片斷;若上述起始位置位于第一語(yǔ)音片斷的前部,則將該第一字符作為起始字符,否則選擇語(yǔ)音識(shí)別結(jié)果中的下一字符作為起始字符。而在確定結(jié)束字符時(shí),可通過(guò)如下方式將結(jié)束位置對(duì)應(yīng)的字符作為第二字符,將第二字符所對(duì)應(yīng)的語(yǔ)音片斷作為第二語(yǔ)首片斷;若結(jié)束位置位于第二語(yǔ)音片斷的前部時(shí),選擇語(yǔ)音識(shí)別結(jié)果中的上一字符作為結(jié)束字符,否則,將第二字符作為結(jié)束字符。仍以前述的“我們?nèi)ヅ郎健边@一語(yǔ)音識(shí)別結(jié)果為例,前已述及,該語(yǔ)音識(shí)別結(jié)果中各個(gè)字符所對(duì)應(yīng)的語(yǔ)音片段的起始位置和結(jié)束位置分別為(00000002200000),(22000003600000),(3600000 4300000),(4300000 5000000),(5000000 7400000)。舉例來(lái)講,假設(shè),在步驟S312中,產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段的起始位置和結(jié)束位置為(0000050 3600000),由于起始位置0000050在(0000000 2200000)的前部,可確定“我”作為起始字符,而結(jié)束位置3600000在(2200000 3600000)的后部,可確定“們”為結(jié)束字符。則可知,“我們”即為上述產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段在語(yǔ)音識(shí)別結(jié)果中所對(duì)應(yīng)的錯(cuò)誤字符串O與上述方法相對(duì)應(yīng),本發(fā)明實(shí)施例還提供語(yǔ)音識(shí)別系統(tǒng)。圖6示出了上述系統(tǒng)的一種結(jié)構(gòu),包括語(yǔ)音識(shí)別單元1,用于對(duì)用戶輸入的語(yǔ)音信號(hào)進(jìn)行語(yǔ)音識(shí)別,獲得最優(yōu)解碼路徑,其中,最優(yōu)解碼路徑包括語(yǔ)音識(shí)別結(jié)果以及所述語(yǔ)音識(shí)別結(jié)果中各字符對(duì)應(yīng)的語(yǔ)音片段;更具體的,語(yǔ)音識(shí)別單元可包括處理器,由處理器對(duì)用戶輸入的語(yǔ)音信號(hào)進(jìn)行語(yǔ)音識(shí)別。糾錯(cuò)字符串生成單元2,用于接收用戶單獨(dú)輸入的糾錯(cuò)信息并生成相應(yīng)的糾錯(cuò)字符串;更具體的,如以語(yǔ)音方式輸入糾錯(cuò)信息,則糾錯(cuò)字符串生成單元仍可包括上述處理器,由處理器對(duì)糾錯(cuò)信息進(jìn)行語(yǔ)音識(shí)別生成糾錯(cuò)字符串;
如以按鍵輸入方式輸入糾錯(cuò)信息,則糾錯(cuò)字符串生成單元至少可包括鍵盤(pán)和處理器,由處理器對(duì)將用戶輸入的按鍵序列轉(zhuǎn)換成侯選糾錯(cuò)字符串,并接受用戶的選擇指定,從至少一個(gè)侯選糾錯(cuò)字符串中確定唯一的糾錯(cuò)字符串。當(dāng)然也可由另一獨(dú)立的芯片或處理器來(lái)將用戶輸入的按鍵序列轉(zhuǎn)換成侯選糾錯(cuò)字符串,并接受用戶的選擇指定,從至少一個(gè)侯選糾錯(cuò)字符串中確定唯一的糾錯(cuò)字符串。如以手寫(xiě)輸入方式輸入糾錯(cuò)信息,則糾錯(cuò)字符串生成單元至少可包括手寫(xiě)筆、觸摸屏和處理器,由處理器對(duì)將用戶輸入的書(shū)寫(xiě)筆跡轉(zhuǎn)換成侯選糾錯(cuò)字符串,并接受用戶的選擇指定,從至少一個(gè)侯選糾錯(cuò)字符串中確定唯一的糾錯(cuò)字符串。當(dāng)然也可由另一獨(dú)立的芯片或處理器來(lái)將用戶輸入的書(shū)寫(xiě)筆跡轉(zhuǎn)換成侯選糾錯(cuò)字符串,并接受用戶的選擇指定,從至少一個(gè)侯選糾錯(cuò)字符串中確定唯一的糾錯(cuò)字符串。當(dāng)然,為了保證用戶可采用多種方式輸入糾錯(cuò)信息,糾錯(cuò)字符串生成單元也可同時(shí)包括上述多種器件。自動(dòng)糾錯(cuò)單元3,用于根據(jù)糾錯(cuò)字符串確述用戶輸入的語(yǔ)音信號(hào)中產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段,根據(jù)語(yǔ)音識(shí)別結(jié)果中各字符對(duì)應(yīng)的語(yǔ)音片段,確定產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段在語(yǔ)音識(shí)別結(jié)果中所對(duì)應(yīng)的字符串,作為產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串;并利用糾錯(cuò)字符串替換產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串。更具體的,自動(dòng)糾錯(cuò)單元3的功能也可通過(guò)上述處理器或其他獨(dú)立的芯片或處理器實(shí)現(xiàn)。上述各單元的更詳盡的功能可參見(jiàn)前述方法記載,在此不作贅述。本領(lǐng)域普通技術(shù)人員可以意識(shí)到,結(jié)合本文中所公開(kāi)的實(shí)施例描述的各示例的單元及算法步驟,能夠以電子硬件、計(jì)算機(jī)軟件或者二者的結(jié)合來(lái)實(shí)現(xiàn),為了清楚地說(shuō)明硬件和軟件的可互換性,在上述說(shuō)明中已經(jīng)按照功能一般性地描述了各示例的組成及步驟。這些功能究竟以硬件還是軟件方式來(lái)執(zhí)行,取決于技術(shù)方案的特定應(yīng)用和設(shè)計(jì)約束條件。專業(yè)技術(shù)人員可以對(duì)每個(gè)特定的應(yīng)用來(lái)使用不同方法來(lái)實(shí)現(xiàn)所描述的功能,但是這種實(shí)現(xiàn)不應(yīng)認(rèn)為超出本發(fā)明的范圍。所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡(jiǎn)潔,上述描述的裝置和單元的具體工作過(guò)程,可以參考前述方法實(shí)施例中的對(duì)應(yīng)過(guò)程,在此不再贅述。在本申請(qǐng)所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所揭露的裝置和方法,可以通過(guò)其它的方式實(shí)現(xiàn)。例如,以上所描述的裝置實(shí)施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式,例如多個(gè)單元或組件可以結(jié)合或者可以集成到另一個(gè)系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點(diǎn),所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過(guò)一些接口,裝置或單元的間接耦合或通信連接,可以是電性,機(jī)械或其它的形式。所述作為分離部件說(shuō)明的單元可以是或者也可以不是物理上分開(kāi)的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)單元上。可以根據(jù)實(shí)際的需要選擇其中的部分或者全部單元來(lái)實(shí)現(xiàn)本實(shí)施例方案的目的。另外,在本發(fā)明各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理單元中,也可以是各個(gè)單元單獨(dú)物理存在,也可以兩個(gè)或兩個(gè)以上單元集成在一個(gè)單元中。上述集成的單元既可以采用硬件的形式實(shí)現(xiàn),也可以采用軟件功能單元的形式實(shí)現(xiàn)。
所述集成的單元如果以軟件功能單元的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時(shí),可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說(shuō)對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的全部或部分可以以軟件產(chǎn)品的形式體現(xiàn)出來(lái),該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述方法的全部或部分步驟。而前述的存儲(chǔ)介質(zhì)包括U盤(pán)、移動(dòng)硬盤(pán)、只讀存儲(chǔ)器(ROM,Read-OnlyMemory)、隨機(jī)存取存儲(chǔ)器(RAM, Random Access Memory)、磁碟或者光盤(pán)等各種可以存儲(chǔ)程序代碼的介質(zhì)。對(duì)所公開(kāi)的實(shí)施例的上述說(shuō)明,使本領(lǐng)域?qū)I(yè)技術(shù)人員能夠?qū)崿F(xiàn)或使用本發(fā)明。對(duì)這些實(shí)施例的多種修改對(duì)本領(lǐng)域的專業(yè)技術(shù)人員來(lái)說(shuō)將是顯而易見(jiàn)的,本文中所定義的一般原理可以在不脫離本發(fā)明的精神或范圍的情況下,在其它實(shí)施例中實(shí)現(xiàn)。因此,本發(fā)明將不會(huì)被限制于本文所示的這些實(shí)施例,而是要符合與本文所公開(kāi)的原理和新穎特點(diǎn)相一致的最寬的范圍。
權(quán)利要求
1.一種語(yǔ)音識(shí)別方法,其特征在于,包括對(duì)用戶輸入的語(yǔ)音信號(hào)進(jìn)行語(yǔ)音識(shí)別,獲得第一最優(yōu)解碼路徑,所述第一最優(yōu)解碼路徑包括語(yǔ)音識(shí)別結(jié)果以及所述語(yǔ)音識(shí)別結(jié)果中各字符對(duì)應(yīng)的語(yǔ)音片段;接收用戶單獨(dú)輸入的糾錯(cuò)信息并生成相應(yīng)的糾錯(cuò)字符串,所述糾錯(cuò)信息通過(guò)非語(yǔ)音方式或語(yǔ)音方式輸入;根據(jù)所述糾錯(cuò)字符串確定所述用戶輸入的語(yǔ)音信號(hào)中產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段;根據(jù)所述語(yǔ)音識(shí)別結(jié)果中各字符對(duì)應(yīng)的語(yǔ)音片段,確定所述產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段在所述語(yǔ)音識(shí)別結(jié)果中所對(duì)應(yīng)的字符串,作為產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串;利用所述糾錯(cuò)字符串替換所述產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串。
2.如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述糾錯(cuò)字符串確定所述用戶輸入的語(yǔ)音信號(hào)中產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段,包括根據(jù)所述糾錯(cuò)字符串生成糾錯(cuò)字符串檢索網(wǎng)絡(luò),所述糾錯(cuò)字符串檢索網(wǎng)絡(luò)包括所述糾錯(cuò)字符串對(duì)應(yīng)的糾錯(cuò)字符串模型以及預(yù)置的吸收模型;在所述糾錯(cuò)字符串檢索網(wǎng)絡(luò)內(nèi)搜索相應(yīng)于所述用戶輸入的語(yǔ)音信號(hào)的第二最優(yōu)解碼路徑,所述第二最優(yōu)解碼路徑包括所述糾錯(cuò)字符串模型對(duì)應(yīng)的語(yǔ)音段作為所述產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段;確定所述產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段在所述用戶輸入的語(yǔ)音信號(hào)中對(duì)應(yīng)的起始位置和結(jié)束位置。
3.如權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述糾錯(cuò)字符串生成糾錯(cuò)字符串檢索網(wǎng)絡(luò),包括獲取所述糾錯(cuò)字符串對(duì)應(yīng)的糾錯(cuò)字符串模型;獲取預(yù)置的吸收模型;根據(jù)獲取的糾錯(cuò)字符串模型以及吸收模型生成所述糾錯(cuò)字符串檢索網(wǎng)絡(luò)。
4.如權(quán)利要求1至3任一項(xiàng)所述的方法,其特征在于,根據(jù)所述語(yǔ)音識(shí)別結(jié)果中各字符對(duì)應(yīng)的語(yǔ)音片段,確定所述產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段在所述語(yǔ)音識(shí)別結(jié)果中所對(duì)應(yīng)的字符串,作為產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串,包括確定所述產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段的起始位置在所述語(yǔ)音識(shí)別結(jié)果中所對(duì)應(yīng)的起始字確定所述產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段的結(jié)束位置在所述語(yǔ)音識(shí)別結(jié)果中所對(duì)應(yīng)的結(jié)束字根據(jù)所述起始字符和結(jié)束字符,確定出在所述語(yǔ)音識(shí)別結(jié)果中的字符串,作為產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串。
5.如權(quán)利要求4所述的方法,確定所述產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段的起始位置在所述語(yǔ)音識(shí)別結(jié)果中所對(duì)應(yīng)的起始字符,包括將所述產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段的起始位置對(duì)應(yīng)的字符作為第一字符,并將所述第一字符所對(duì)應(yīng)的語(yǔ)音片斷作為第一語(yǔ)音片斷;當(dāng)所述產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段的起始位置位于所述第一語(yǔ)音片斷的前部時(shí),將所述第一字符作為起始字符;當(dāng)所述產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段的起始位置位于所述第一語(yǔ)音片斷的后部時(shí),選擇所述語(yǔ)音識(shí)別結(jié)果中的下一字符作為起始字符。
6.如權(quán)利要求4所述的方法,確定所述產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段的結(jié)束位置在所述語(yǔ)音識(shí)別結(jié)果中所對(duì)應(yīng)的結(jié)束字符,包括將所述產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段的結(jié)束位置對(duì)應(yīng)的字符作為第二字符,并將所述第二字符所對(duì)應(yīng)的語(yǔ)音片斷作為第二語(yǔ)音片斷;當(dāng)所述產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段的結(jié)束位置位于所述第二語(yǔ)音片斷的前部時(shí),選擇所述語(yǔ)音識(shí)別結(jié)果中的上一字符作為結(jié)束字符;當(dāng)所述產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段的結(jié)束位置位于所述第二語(yǔ)音片斷的后部時(shí),將所述第二字符作為結(jié)束字符。
7.如權(quán)利要求1至6任一項(xiàng)所述的方法,其特征在于,所述利用所述糾錯(cuò)字符串替換所述產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串具體包括在所述產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串的數(shù)目等于I時(shí),直接利用所述糾錯(cuò)字符串替換所述產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串;在所述產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串的數(shù)目大于I時(shí),利用所述糾錯(cuò)字符串替換用戶指定的產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串。
8.如權(quán)利要求7所述的方法,其特征在于,所述利用所述糾錯(cuò)字符串替換用戶指定的產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串具體包括在所述語(yǔ)音識(shí)別結(jié)果中突出顯示所有產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串;接受用戶選擇,利用所述糾錯(cuò)字符串更新用戶選定的產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串。
9.一種語(yǔ)音識(shí)別系統(tǒng),其特征在于,包括語(yǔ)音識(shí)別單元,用于對(duì)用戶輸入的語(yǔ)音信號(hào)進(jìn)行語(yǔ)音識(shí)別,獲得第一最優(yōu)解碼路徑, 所述第一最優(yōu)解碼路徑包括語(yǔ)音識(shí)別結(jié)果以及所述語(yǔ)音識(shí)別結(jié)果中各字符對(duì)應(yīng)的語(yǔ)音片段;糾錯(cuò)字符串生成單元,用于接收用戶單獨(dú)輸入的糾錯(cuò)信息并生成相應(yīng)的糾錯(cuò)字符串, 所述糾錯(cuò)信息通過(guò)非語(yǔ)音方式或語(yǔ)音方式輸入;自動(dòng)糾錯(cuò)單元,用于根據(jù)所述糾錯(cuò)字符串確定所述用戶輸入的語(yǔ)音信號(hào)中產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段;在根據(jù)所述語(yǔ)音識(shí)別結(jié)果中各字符對(duì)應(yīng)的語(yǔ)音片段,確定所述產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段所述語(yǔ)音識(shí)別結(jié)果中所對(duì)應(yīng)的字符串,作為產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串;利用所述糾錯(cuò)字符串替換所述產(chǎn)生識(shí)別錯(cuò)誤的錯(cuò)誤字符串。
10.如權(quán)利要求9所述的系統(tǒng),其特征在于所述根據(jù)所述糾錯(cuò)字符串確定所述用戶輸入的語(yǔ)音信號(hào)中產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段,包括根據(jù)所述糾錯(cuò)字符串生成糾錯(cuò)字符串檢索網(wǎng)絡(luò),所述糾錯(cuò)字符串檢索網(wǎng)絡(luò)包括所述糾錯(cuò)字符串對(duì)應(yīng)的糾錯(cuò)字符串模型以及預(yù)置的吸收模型;在所述糾錯(cuò)字符串檢索網(wǎng)絡(luò)內(nèi)搜索相應(yīng)于所述用戶輸入的語(yǔ)音信號(hào)的第二最優(yōu)解碼路徑,所述第二最優(yōu)解碼路徑包括所述糾錯(cuò)字符串模型對(duì)應(yīng)的語(yǔ)音段作為所述產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段;確定所述產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段在所述用戶輸入的語(yǔ)音信號(hào)中對(duì)應(yīng)的起始位置和結(jié)束位置。
全文摘要
本發(fā)明實(shí)施例公開(kāi)了語(yǔ)音識(shí)別方法和系統(tǒng)。方法包括對(duì)用戶輸入的語(yǔ)音信號(hào)進(jìn)行語(yǔ)音識(shí)別,獲得語(yǔ)音識(shí)別結(jié)果以及語(yǔ)音識(shí)別結(jié)果中各字符對(duì)應(yīng)的語(yǔ)音片段;接收用戶單獨(dú)輸入的糾錯(cuò)信息并生成糾錯(cuò)字符串;根據(jù)糾錯(cuò)字符串確定用戶輸入的語(yǔ)音信號(hào)中產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段;根據(jù)語(yǔ)音識(shí)別結(jié)果中各字符對(duì)應(yīng)的語(yǔ)音片段,確定產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段在語(yǔ)音識(shí)別結(jié)果中所對(duì)應(yīng)的字符串,作為錯(cuò)誤字符串;利用糾錯(cuò)字符串替換錯(cuò)誤字符串。在本發(fā)明實(shí)施例中,根據(jù)用戶單獨(dú)輸入的糾錯(cuò)信息而生成的糾錯(cuò)字符串確定產(chǎn)生識(shí)別錯(cuò)誤的語(yǔ)音段,再通過(guò)該語(yǔ)音段找到其在語(yǔ)音識(shí)別結(jié)果中所對(duì)應(yīng)的錯(cuò)誤字符串,實(shí)現(xiàn)了對(duì)語(yǔ)音識(shí)別結(jié)果中錯(cuò)誤字符串的自動(dòng)定位,解決了人工定位不便的問(wèn)題。
文檔編號(hào)G10L15/26GK103021412SQ20121058474
公開(kāi)日2013年4月3日 申請(qǐng)日期2012年12月28日 優(yōu)先權(quán)日2012年12月28日
發(fā)明者何婷婷, 胡郁, 劉慶峰 申請(qǐng)人:安徽科大訊飛信息科技股份有限公司