專利名稱:使用可識度標準在不利的未知噪聲環(huán)境下進行可靠的關鍵字檢測的穩(wěn)定的字識別系統(tǒng)的制作方法
發(fā)明
背景技術:
領域本發(fā)明一般涉及語音識別,更具體地涉及一種用于語音信號中字識別的方法和系統(tǒng),可以動態(tài)補償背景噪音和溝道效應。
討論語音識別越來越受到歡迎,并且證明在多種應用中是相當有用的。例如,語音識別已經(jīng)在家庭器具和電子產(chǎn)品、蜂窩式電話以及其他移動用戶電子產(chǎn)品這些領域中興旺發(fā)展。隨著關注程度的增加,傳統(tǒng)語音識別的局限性越來越顯現(xiàn)出來了。
一個特別的局限性是端點檢測。端點檢測涉及自動將語音信號分割為語音和非語音片斷。分割以后,通常會應用某些模式匹配的格式來給出識別結(jié)果。但是,需要特別注意的是背景(或附加)噪音和通道(或渦流)噪音。例如,可以用文獻來證明某些應用包括相對來說可預知的背景噪音(例如汽車導航),盡管很多其他應用會涉及到不可預知的背景噪音(例如,蜂窩式電話)。雖然上述端點檢測方法經(jīng)常用于低噪音或可預知的噪音環(huán)境,但是有噪音的或不可預知的背景很難處理,原因有多方面。一個原因是因為當信噪比(SNR)的減小時,區(qū)分語音和非語音的能力降低。另外,由于意想不到的背景噪音而導致的失真(例如頻譜屏蔽效應)使得后面的模式匹配變的越發(fā)困難。
對于信道噪音,眾所周知,由于所使用的信號傳輸/轉(zhuǎn)換設備的不同,溝道效應也會不同。例如,個人電腦(PC)麥克風和電話通道對音頻信號的更改很可能不同。眾所周知,噪音類型、噪音級別和通道全體限定出一個環(huán)境。所以,不可知的信道噪音會產(chǎn)生很多上述背景噪音問題。簡單的說,在處理不可預知通道、高噪音級別介質(zhì)或者不穩(wěn)定背景時,語音和非語音的自動分割變得非常不可信。在這些條件下,自動端點檢測器會發(fā)生錯誤,例如在沒有語音的部分觸發(fā)或者在語音部分的開頭和/或結(jié)尾添加噪音片斷。
另一個與傳統(tǒng)端點檢測有關的問題是預知最終用戶(或者說話者)行為的能力。例如,最好是可以在短語“取消它”中識別出命令“取消”,或者在短語“啊……是”中識別出命令“是”。這些不相關的詞和停頓可能給識別過程造成很大的困難。另外,通過選擇性迫使用戶遵循固定的發(fā)音風格,使系統(tǒng)的自然性和期望值大大降低。因此,端點檢測方法通常不能忽略說話者發(fā)出的不相關的詞和停頓。
盡管字識別技術致力于解決上述用戶關心的問題,但是所有傳統(tǒng)的字識別技術在補償背景噪音方面仍舊存在缺陷。例如,某些系統(tǒng)需要一個或幾個背景模式,并在字模式和背景模式之間使用競爭方案(competition scheme)來幫助觸發(fā)決定。這種方法參見Garman等的美國專利US5425129,此處作為引用文獻。其他系統(tǒng),例如此處作為引用文獻的Ariyoshi的美國專利US6029130中,把字識別和端點檢測合并在一起以幫助確定語音信號的有用部分。還有一些其他方法使用非關鍵字或者無用模式來處理背景噪音。另一種方法是在使用其他字記錄的地方進行判別訓練,來幫助提高檢測可信度,如此處引用的Juange等的美國專利US5710864中所述。
上述所有字識別技術都是基于一種假設,即字匹配記錄(score)(表示字在語音信號中的絕對可能性(likelihood))是決定性識別因素,而不考慮背景環(huán)境。這樣,只要這個字的最佳記錄超過一個給定閾值,這個字就被認為已被檢測到。盡管上述假設在高SNR的情況下通常是成立的,但是在低SNR的情況下,當字的可識度受噪音頻譜特性影響很大時,這個假設是不成立的??勺R度的減小是因為噪音的屏蔽效應,這種效應會隱藏或者不再強調(diào)標志著某個字的某些相關信息。這種效應因字而不同,這使字之間的記錄比較變得更加困難和不可信。所以,最好是有一種可以進行語音信號中字識別的方法和系統(tǒng),可以按每個字動態(tài)地補償信道噪音和背景噪音。
一種根據(jù)本發(fā)明用于在語音信號中識別字的方法提供了上述和其他目標。該方法包括根據(jù)語音信號和第一字在詞典中的條目生成第一識別記錄。第一識別記錄追蹤第一字在語音信號中的絕對可能性。根據(jù)第一識別記錄估算出第一背景記錄。在優(yōu)選實施例中,第一背景記錄由第一識別記錄的平均值來定義。該方法還可以根據(jù)第一最小識別值和第一背景記錄之間的匹配率來計算第一置信記錄。因此,第一置信記錄追蹤第一字在語音信號中的噪音修正可能性。上述過程可以應用于任意數(shù)量的字(例如,第二、第三或第四字等等)。這樣,本發(fā)明確定字識別記錄之間的關系是噪音類型和噪音級別取向的。同樣的,本發(fā)明的可靠性程度是傳統(tǒng)方法無法達到的。
另外,本發(fā)明還提供了一種用于計算給定字的字識別置信記錄的方法。該方法用語音識別記錄的最小值除以預定時間段內(nèi)語音識別記錄的平均值從而得到匹配率。該平均值定義了估算出的背景記錄。該方法還可使匹配率規(guī)范化,規(guī)范化的匹配率定義了置信記錄。
作為本發(fā)明的另一個方面,字識別系統(tǒng)包括一個語音識別器和一個識別模塊。語音識別器根據(jù)語音信號和大量字在詞典中的條目生成識別記錄。該識別記錄追蹤這些字在語音信號中的絕對可能性。識別模塊按照識別記錄估算出背景記錄。識別模塊根據(jù)最小識別記錄和背景記錄之間的匹配率按幀進一步計算出置信記錄。這樣,該置信記錄追蹤這些字在語音信號中的噪音修正可能性。
應該理解,無論是上述總體描述還是下面的詳細說明都只是本發(fā)明的一些例舉,目的是幫助總體上理解本發(fā)明的實質(zhì)和特點。結(jié)合其中的附圖有助于更好的理解本發(fā)明,這些附圖將作為說明書的一部分。附圖中示出本發(fā)明的多個功能和實施例,與說明文字相結(jié)合來解釋本發(fā)明的原理和操作。
本領域?qū)I(yè)技術人員通過閱讀說明書以及權(quán)利要求書并參照以下附圖很容易了解本發(fā)明的有益效果圖1按照本發(fā)明原理得到的字識別系統(tǒng)的方框圖。
圖2A圖1中所示第一識別記錄和第一背景記錄曲線圖的放大視圖。
圖2B圖1中所示第二識別記錄和第二背景記錄曲線圖的放大視圖。
圖3本發(fā)明的一個實施例中的識別模塊的詳細視圖。
圖4按照本發(fā)明原理得到的識別語音信號中識別字的方法的流程圖。
圖5本發(fā)明的一個實施例中用于計算字識別置信記錄的過程流程圖。
圖6本發(fā)明的一個實施例中一個識別記錄的局部最小值的放大視圖。
具體實施例方式
圖1中顯示了一種字識別系統(tǒng)10。應將理解,通常字識別系統(tǒng)10從輸入設備(例如麥克風12)接收語音信號13,并生成字識別結(jié)果14。系統(tǒng)10可以應用于很多需要使用字識別的設備。例如,蜂窩式電話可以使用系統(tǒng)10來實現(xiàn)語音撥號系統(tǒng)(未示出)。這樣,在一個實施例中,語音信號13代表來自電話用戶(未示出)的連續(xù)的語音流,其中識別系統(tǒng)10尋找語音中特定的字來執(zhí)行撥號過程。字識別結(jié)果14被傳遞到用于執(zhí)行很多命令的語音撥號系統(tǒng)的其他部分。需要注意的是,盡管識別系統(tǒng)10的應用很廣泛,但是識別系統(tǒng)10特別適用于具有苛刻的和不可預知的背景和信道噪音的環(huán)境。
通常,識別系統(tǒng)10具有語音識別器16和識別模塊18。識別器16根據(jù)語音信號13和多個字24,26在詞典中的條目生成識別記錄20,22(R1和R2)??梢钥吹剑R別模塊18根據(jù)識別記錄20,22估算出背景記錄28,30。給定字W的背景記錄是在強制W的字模式與背景環(huán)境(即沒有發(fā)W的音時)匹配時獲得的記錄。識別模塊18還可以按照最小識別值和背景記錄28,30之間的匹配率按幀計算置信記錄(后面將詳細說明)。置信記錄追蹤字24,26在語音信號13中的噪音修正可能性。
需要注意的是,為了方便說明,該識別系統(tǒng)10已被簡化。例如圖示的詞典32具有兩個條目,然而可以想象實際應用程序可能需要大量條目。還要注意的是,如果需要,可以配置識別系統(tǒng)10,以便在語音信號13中搜索單個字。
盡管如此,語音識別器16根據(jù)語音信號13和詞典條目生成連續(xù)的識別記錄R1和R2。如圖2A、2B所示,識別記錄20,22最好表示可識度標準,這樣低識別記錄可以指示出被查詢的字包含在語音信號中的高可能性。這樣最小值M1和M2表示識別器最確定相應的字包含在語音信號中的時間點。很多已知的識別器都可以配置為提供這種結(jié)果。一種這樣識別器參見Dharanipragada等的美國專利US6073095,在此作為引用文獻。需要注意的是識別記錄20,22追蹤這些字在語音信號中的絕對可能性。
在附圖1-3中,可以看到識別模塊18可以使識別系統(tǒng)10消除詞典中每個字特有的動態(tài)偏差,這樣可以公平的進行記錄比較。通常,識別模塊18連續(xù)估算出每個字的背景記錄。然后,根據(jù)每個時間幀處活動記錄和背景記錄之間的匹配率以及以每個字為基礎建立觸發(fā)策略。
如圖3所示,識別模塊18具有與第一字相對應的第一置信模塊34a,與第二字相對應的第二置信模塊34b。可以看到置信模塊34具有追蹤模塊50,用于定位識別記錄R中的最小值M。
如圖3所示,置信模塊34用識別值M除以識別記錄的平均值B得到匹配率M/B。這樣,平均值B定義了背景記錄。每個置信模塊34還對匹配率進行規(guī)范化以便規(guī)范化的匹配率1-M/B定義置信記錄。應理解,當最小值M變得小于背景記錄B時,匹配率M/B將趨近于零。規(guī)范化的匹配率(即置信度1-M/B將趨近于1。另外,因為每個背景記錄B對于給定字是唯一的,所以本發(fā)明中的置信記錄考慮了噪音會以不同的方式影響不同的字。)應進一步理解,字識別選擇器48最好能夠?qū)⒅眯庞涗浐皖A定的置信閾值進行比較,其中當被查詢的字相應的置信記錄超過預定的置信閾值時,這個字被定義為包含在語音信號中。還應理解,字識別選擇器也可以確定第一字和第二字是否對應于語音信號中共同的時間段。這樣,當?shù)谝蛔趾偷诙謱诠餐臅r間段時,選擇器48可以根據(jù)第一置信記錄和第二置信記錄在第一字和第二字之間進行選擇。進一步將理解,選擇器48使用可能值進行工作。例如,當規(guī)范器56生成一個更好的可能值時,計時器(未示出)啟動。如果在該計時器期滿之前(即Δt延遲之前)又生成一個新的更好的可能值,可能會重新啟動計時器。當1)計時器期滿,2)最好的可能值在可能值閾值之上時,將檢測到這個字。
如圖6所示,字識別選擇器48的延遲組件可以在識別記錄20的預定范圍Δt內(nèi)延遲字選擇,這樣可以從匹配率計算中排除局部最小值52。延遲的目的是為了確保系統(tǒng)不會根據(jù)超過閾值的第一置信度來輸出字。為了實現(xiàn)觸發(fā),最佳置信度必須超過閾值,并且其后的Δt秒內(nèi)沒有發(fā)現(xiàn)更好的值(針對詞典中的任何字)。實際上,此功能可避免過早觸發(fā)。例如,如果要識別的短語是“Victoria Station”,延遲可以避免偶然觸發(fā)“Victoria Sta.”。因此,Δt值表示在局部最小值上觸發(fā)時的有效性延遲,它還提供了一種確保達到最小值的機制。
附圖4顯示了一種用于語音信號中字識別的方法36。如上所述,該方法36可以應用于詞典里存儲的任意數(shù)量的字。在步驟38中,根據(jù)語音信號和第一字在詞典中的條目生成第一識別記錄。已經(jīng)注意到,識別記錄追蹤第一字在語音信號中的絕對可能性。在步驟40中,根據(jù)第一識別記錄估算出第一背景記錄。該方法還可以在步驟42中進一步根據(jù)第一最小識別值和第一背景記錄之間的匹配率計算第一置信記錄。第一置信記錄追蹤第一字在語音信號中的噪音修正可能性。最好通過第一識別記錄在預定時間段內(nèi)的平均值來估算背景記錄。例如,計算平均值的時間間隔可以被定義為一些特定數(shù)量的連續(xù)幀,或者從語音信號的開頭開始。
附圖5中詳細顯示了計算第一置信記錄的優(yōu)選方法。具體地,可以看到,在步驟44中,第一最小識別值除以第一識別記錄的平均值,從而得到匹配率。如上所述,該平均值定義了第一背景記錄。在步驟46中,對匹配率進行了規(guī)范化,其中規(guī)范化的匹配率定義了第一置信記錄。如上所述,可以針對詞典中包含的任何數(shù)量的字執(zhí)行附圖4和5所示的步驟。
繼續(xù)參考附圖4和5中,應將理解,當識別語音信號中的第二字時,遵循上面描述的方法36。這樣,在步驟38中,根據(jù)語音信號和第二字在詞典中的條目生成第二識別記錄。第二識別記錄追蹤第二字在語音信號中的絕對可能性。在步驟40中,根據(jù)第二識別記錄估算出第二背景記錄。在步驟42中根據(jù)第二最小識別值和第二背景記錄之間的匹配率計算出第二置信記錄。第二置信記錄追蹤第二字在語音信號中的噪音修正可能性。
本領域?qū)I(yè)技術人員可以從前述說明中了解本發(fā)明廣泛的教導可以以多種形式實施。因此,當本發(fā)明結(jié)合其實際例子進行描述時,本發(fā)明的實際范圍并不局限于上述例子,因為本領域?qū)I(yè)技術人員通過研究附圖、說明書以及權(quán)利要求書,其他修改將變得顯而易見。
權(quán)利要求
1.一種識別語音信號中字的方法,所述方法包括以下步驟根據(jù)語音信號和第一字在詞典中的條目生成第一識別記錄,第一識別記錄追蹤第一字在語音信號中的絕對可能性;根據(jù)第一識別記錄估算出第一背景記錄;根據(jù)第一最小識別值和第一背景記錄之間的匹配率計算出第一置信記錄,第一置信記錄追蹤第一字在語音信號中的噪音修正可能性。
2.如權(quán)利要求1所述的方法,其特征在于還包括,取預定時間段內(nèi)第一識別記錄的平均值。
3.如權(quán)利要求1所述的方法,其特征在于還包括以下步驟第一最小識別值除以在預定時間段內(nèi)第一識別記錄的平均值得到匹配率,該平均值定義了第一背景記錄;以及對匹配率進行規(guī)范化;所述規(guī)范化的匹配率定義了第一置信記錄。
4.如權(quán)利要求3所述的方法,其特征在于還包括,在第一識別記錄中定位最小值的步驟。
5.如權(quán)利要求4所述的方法,其特征在于還包括,在第一識別記錄的預定范圍內(nèi)搜索最小值的步驟,以便從匹配率計算中排除局部最小值。
6.如權(quán)利要求1所述的方法,其特征在于還包括,將第一置信記錄與預定置信閾值進行比較的步驟,當?shù)谝恢眯庞涗洺^預定置信閾值時第一字處于語音信號中。
7.如權(quán)利要求6所述的方法,其特征在于還包括,識別語音信號中的第二字。
8.如權(quán)利要求7所述的方法,其特征在于還包括以下步驟根據(jù)語音信號和第二字在詞典中的條目生成第二識別記錄,第二識別記錄追蹤第二字在語音信號中的絕對可能性;根據(jù)第二識別記錄估算出第二背景記錄;以及根據(jù)第二最小識別值和第二背景記錄之間的匹配率計算出第二置信記錄,第二置信記錄追蹤第二字在語音信號中的噪音修正可能性。
9.如權(quán)利要求8所述的方法,其特征在于還包括,將第二置信記錄與預定置信閾值進行比較的步驟,當?shù)诙眯庞涗洺^預定置信閾值時第二字處于語音信號中。
10.如權(quán)利要求9所述的方法,其特征在于還包括以下步驟確定第一字和第二字是否對應于語音信號中公共時間段;當?shù)谝蛔趾偷诙謱诠矔r間段時,根據(jù)第一置信記錄和第二置信記錄在第一字和第二字之間進行選擇。
11.如權(quán)利要求1所述的方法,其特征在于還包括,逐幀計算置信記錄的步驟。
12.一種用于計算給定字的字識別置信記錄的方法,所述方法包括以下步驟語音識別記錄最小值除以一預定時間間隔內(nèi)語音識別記錄的平均值得到匹配率,該平均值定義了估算的背景記錄;以及對匹配率進行規(guī)范化;所述規(guī)范化的匹配率定義了置信記錄。
13.如權(quán)利要求12所述的方法,其特征在于還包括,在語音識別記錄中定位最小值的步驟。
14.如權(quán)利要求13所述的方法,其特征在于還包括,在識別記錄的預定范圍內(nèi)搜索最小值的步驟,以便從匹配率計算中排除局部最小值。
15.一種字識別系統(tǒng),包括一個語音識別器,用于根據(jù)語音信號和多個字在詞典中的條目生成識別記錄,識別記錄追蹤這些字在語音信號中的絕對可能性;和一個識別模塊,用于根據(jù)識別記錄來估算背景記錄;所述識別模塊根據(jù)最小識別值和背景記錄之間的匹配率逐幀計算置信記錄,置信記錄追蹤這些字在語音信號中的噪音修正可能性。
16.如權(quán)利要求15所述的字識別系統(tǒng),其特征在于該識別模塊包括一個置信模塊,用于將最小識別值除以識別記錄平均值得到匹配率,該平均值定義了背景記錄;所述置信模塊對匹配率進行規(guī)范化,以便規(guī)范化的匹配率定義置信記錄。
全文摘要
本發(fā)明提供了一種在惡劣和未知噪音環(huán)境下的語音信號中進行字識別的方法和系統(tǒng)。該方法消除了由環(huán)境(即噪音和溝道效應)造成的針對詞典中的每個字特定的動態(tài)偏差。該方法包括根據(jù)語音信號和這個字在詞典中的條目生成第一識別記錄。該識別記錄追蹤這個字在語音信號中的絕對可能性。根據(jù)第一識別記錄估算出背景記錄。該方法可以進一步根據(jù)最小識別值和背景記錄之間的匹配率計算出置信記錄。該方法和系統(tǒng)可以根據(jù)應用的需要處理任意數(shù)量的字。因此,該置信記錄追蹤這些字在語音信號中的噪音修正可能性。
文檔編號G10L15/00GK1434436SQ02105628
公開日2003年8月6日 申請日期2002年3月28日 優(yōu)先權(quán)日2001年3月28日
發(fā)明者P·R·莫林 申請人:松下電器產(chǎn)業(yè)株式會社