專利名稱:用于校準語音識別系統的方法
技術領域:
本發(fā)明總地來說涉及語音識別(voice recognition)方法和系統。具體地,但并非排他地,本發(fā)明涉及在接收用戶輸入的語音信號之前根據背景噪聲電平來校準語音識別系統的麥克風輸入增益。
背景技術:
語音識別是一種用于向個人電子設備提供輸入的強有力的工具。現在,語音識別技術已經成為移動電話、個人數字助理(PDA)、筆記本計算機、車載計算機以及其他設備的常規(guī)組件,該技術能夠實現“免提”通信,并且能在用戶與設備之間交換指令。例如,只要用戶發(fā)出口頭命令,就可以在音樂播放器上改變音量或歌曲選擇設置,或者在移動電話上撥打某個電話號碼。此外,舉例來說,語音識別還可以在包括說話者驗證(speaker verification)或語音認證(voiceauthentication)的生物鎖(biometric locks)中使用,而生物鎖涉及語音譜(signature)的生物匹配。由此,語音識別可以用于可靠、方便地保護對于電子設備的訪問。
語音識別技術通常使用那些試圖借助現有語音模型來對人的語音的特征進行分類和匹配的算法。這些模型包括高斯混合模型-通用背景模型(GMM-UBM)。在GMM-UBM語音識別或說話者驗證過程中,被授權的說話者是用訓練語音段(training speech segments)借助GMM來建模的。首先利用很大的語音庫(speech corpus)創(chuàng)建與說話者無關的高階UBM。然后,利用貝葉斯或最大后驗(MAP)自適應方法從UBM中導出各個說話者的模型。然后,將這些模型與輸入語音特征矢量相比較,以便確定諸如口頭命令或輸入語音譜之類的特定語音輸入是否與GMM-UBM模型中的一個相匹配。
與大多數檢測系統一樣,語音識別系統通常會被調諧,以便提供理想的接收機操作特性(ROC)。檢測/差錯權衡(Detection/ErrorTradeoff,DET)曲線則是一種用于測量ROC的常規(guī)方法,并評估兩種類型的差錯誤拒絕率以及誤接受率。對說話者驗證來說,誤拒絕是在被授權的人試圖將其語音與語音模型相匹配,但卻被驗證系統不恰當拒絕的情況下發(fā)生的。誤接受則是在諸如冒名頂替者之類的未被授權的人能夠成功地將其語音與為另一個人創(chuàng)建的語音模型相匹配,并且由此能夠不恰當地訪問某個設備或設施的情況下發(fā)生的。
很多檢測系統都進行了校準,以便在誤接受率曲線與誤拒絕率曲線相交叉的狀態(tài)下工作。這種狀態(tài)通常被稱為相等差錯率(EER)點,它在過多的誤接受與過多的誤拒絕之間提供了一種平衡。然而,背景噪聲電平的變化往往會擾亂說話者驗證系統的校準,由此導致不期望的數量的誤接受或是不期望的數量的誤拒絕。
發(fā)明內容
根據一個方面,本發(fā)明是一種用于校準語音識別系統,以便改善語音信號噪聲比的方法。該方法包括通過將背景噪聲信號與背景噪聲參考值相比較來確定背景噪聲參數。然后,根據背景噪聲參數來校準麥克風輸入增益。然后,在校準了麥克風輸入增益之后,向系統用戶提供語音識別提示。
由此,本發(fā)明的優(yōu)點包括提供了一種用于校準語音識別系統的更有效的手段,其中校準是在接收到輸入語音信號之前進行的,因此,輸入語音信號的初始分量不會因為無效的麥克風輸入增益而丟失或是失真。根據本發(fā)明的一個實施例,提供給語音識別系統用戶的提示將會使得該系統只在根據當前背景噪聲電平而被有效校準之后才接收語音輸入信號。
為使本發(fā)明易于理解和實施,現在將參考附圖來對示范性實施例加以描述,其中相似的附圖標記在單獨的附圖中始終表示相同或功能相似的部件。這些附圖以及下文中的詳細描述都被引入并構成了說明書的一部分,并且用來根據本發(fā)明來對實施例進行進一步描述,并對各種原理和優(yōu)點進行說明,其中圖1是描述根據本發(fā)明實施例的,采用了無線電話形式的無線電通信設備的示意圖;圖2是描述MAP自適應過程的示意圖;圖3是描述典型的接收機操作特性(ROC)曲線集的圖形;圖4是在典型的語音識別系統中接收的輸入語音信號的幅度時間對照圖,其中該圖描述了過分設置麥克風輸入增益的效果;圖5是根據本發(fā)明實施例的,在典型的語音識別系統中接收的輸入語音信號的幅度時間對照圖,其中該圖描述了恰當設置麥克風輸入增益的效果;以及圖6是描述根據本發(fā)明實施例的,校準語音識別系統以改善語音信號噪聲比的方法的總的流程圖。
本領域技術人員將會理解的是,附圖中的部件是出于簡明目的而被圖示的,但是這些部件不一定是按照比例繪制的。例如,在附圖中,相對于其他部件而言,某些部件的尺寸可能被夸大,這樣做有助于更好地理解本發(fā)明的實施例。
具體實施例方式
在詳細描述根據本發(fā)明的實施例之前,應該注意的是,這些實施例主要存在于與用于校準語音識別系統的方法相關聯的方法步驟和設備組件的組合中。相應地,在附圖中,這些設備組件和方法步驟是用常規(guī)符號適當表示的,僅僅顯示了與理解本發(fā)明的實施例相關的具體細節(jié),從而避免本公開內容與那些可以被得益于本說明書的本領域技術人員很容易地了解的細節(jié)相混淆。
在本文中,諸如第一和第二、頂部和底部等相關術語僅僅用于將一個實體或動作與另一個實體或動作區(qū)分開來,而并不一定要求或者暗示此類實體或動作之間具有任何這樣的實際關系或順序。術語“包括”、“包含”或者其任何變體旨在涵蓋那些非排他性的包含,因此,包含一組部件的處理、方法、制品或設備并不僅僅只包含這些部件,而是可以包含其他那些沒有明確列舉或是為此類處理、方法、制品或設備所固有的部件。在沒有更多限制的情況下,處于“包含......”之前的部件并不排除在包含該部件的處理、方法、制品或設備中還存在額外的相同部件。
參考圖1,該示意圖描述了采用了無線電話100的形式的無線電通信設備,其中包括被耦合用來與處理器103進行通信的射頻通信單元102。無線電話100還具有被耦合用來與處理器103進行通信的鍵盤106以及顯示屏105。對本領域技術人員來說,很明顯,屏幕105可以是觸摸屏,因此鍵盤106是可選的。
處理器103包括編碼器/解碼器111,其中該編碼器/解碼器111具有一個相關聯的代碼只讀存儲器(ROM)112,所述存儲器用于存儲用于對那些可以被無線電話100發(fā)射和接收的語音或其他信號進行編碼和解碼的數據。此外,處理器103還包括微處理器113,所述微處理器113則通過公共數據和地址總線117耦合到編碼器/解碼器111、字符只讀存儲器(ROM)114、隨機存取存儲器(RAM)104、語音識別(VR)存儲器116以及SIM接口118。
語音識別存儲器116可以包括任何類型的存儲器,其中包含了被配置成執(zhí)行本發(fā)明的功能的計算機可讀程序代碼。由此,語音識別存儲器116可以包括本領域公知的隨機存取存儲器(例如靜態(tài)隨機存取存儲器(SRAM))、只讀存儲器(例如可編程只讀存儲器(PROM)或電可擦除可編程只讀存儲器(EPROM))或是混合存儲器(例如閃存)。然后,微處理器113會對語音識別存儲器116中的計算機可用介質進行訪問,其中所述介質包含了計算機可讀的程序代碼組件,所述程序代碼組件則被配置用來使電話100執(zhí)行那些與語音識別系統校準有關的本發(fā)明的功能。
微處理器113具有用于與鍵盤106、屏幕105以及報警器115相耦合的端口,其中所述報警器115通常包含報警揚聲器、振動器馬達以及相關聯的驅動器。此外,微處理器113還具有用于與麥克風135以及通信揚聲器140相耦合的端口。字符只讀存儲器114存儲用于對那些可以被通信單元102接收的文本消息進行編碼和解碼的代碼。在本實施例中,字符只讀存儲器114還存儲了用于微處理器113的操作代碼(OC),以及用于執(zhí)行與無線電話100相關聯的功能的代碼。
射頻通信單元102是一個具有公共天線107的組合的接收機和發(fā)射機。該通信單元102具有經由射頻放大器109而與天線107相耦合的收發(fā)機108。該收發(fā)機108還耦合到一個組合調制/解調器110,而所述組合調制/解調器110則將通信單元102耦合到處理器103。
為了清楚完整地描述本發(fā)明,現在將參考圖2和3來描述某些附加的背景材料,其中圖2和3分別涉及現有技術中的最大后驗(MAP)自適應過程以及相等差錯率(EER)曲線。
參考圖2,該示意圖描述的是根據現有技術的MAP自適應過程。其中左邊的四個橢圓205表示的是說話者模型,該模型包含了通用背景模型中的四個高斯概率密度函數(PDF)。點210表示的是來自目標說話者的訓練語音采樣分數。MAP自適應過程根據附近的訓練語音采樣分數來重新計算每一個高斯PDF的分布,并且有效地重新配置PDF,如圖2右側、用定義經過修正的說話者模型的修正橢圓215所示。如果可以通過例如電話100的麥克風135而獲得具有最小背景噪聲干擾的高質量訓練語音采樣,那么這種經過修正的說話者模型可以更有效地進行操作。
參考圖3,該差錯率-閾值設置對照圖描述的是本領域公知的典型的接收機操作特性(ROC)曲線集。y軸表示的是差錯率,x軸則表示的是閾值設置,其中在所述閾值設置上,特定檢測系統進行操作以產生指定的一組差錯率。在應用于說話者驗證(SV)、例如作為安全特征包含在無線電話100中的時候,誤接受(FA)曲線表示諸如冒名頂替者之類的未經授權的人能夠成功地將其語音與為另一個人創(chuàng)建的語音模型相匹配,從而能夠不恰當地訪問電話100的差錯率。誤拒絕(FR)曲線則表示在經過授權的人嘗試將其語音與某個語音模型相匹配,但是其對電話100的訪問卻被不恰當地拒絕的情況下的差錯率。這兩條曲線交叉的位置通常被稱為相等差錯率(EER)點。正如本領域中眾所周知的那樣,檢測系統通常都會被校準,以便在EER點或是接近EER點的位置工作,由此提供最優(yōu)的性能。
對無線電話100中包含的SV系統來說,如果將該系統校準成在與閾值設置T0相對應的EER點上工作,那么電話100可以為經過授權的用戶提供一個便利的訪問安全性等級,其中,電話100可以快速可靠地對經過授權的人員的語音進行驗證,同時拒絕非授權用戶的訪問。然而,如果用戶需要電話100更可靠地識別已授權用戶的語音,那么可以對該系統進行校準,以便在與閾值設置T1相對應的較低的FR率上工作。另一方面,如果用戶要求對電話100的較高的訪問安全性,那么可以對SV系統進行校準,以便在與閾值設置T2相對應的較低FA率上工作。但是,改變背景噪聲電平有可能會改變用于指定閾值設置的預期FA/FR率。
在需要語音識別或說話者驗證系統接收和處理用戶說出的很短的口頭命令的時候,背景噪聲電平將會帶來問題。這是因為很多系統都包含了自動增益控制(AGC)特征,而該特征基于背景噪聲參數來校準麥克風輸入增益。然而,這種系統需要時間來首先接收背景噪聲采樣,然后則根據背景噪聲來校準麥克風輸入增益,然后才能從用戶接收高質量的語音輸入信號。但是很多此類系統還包含了語音活動檢測(VAD)特征,而該特征只在檢測到語音輸入信號之后才會激活語音識別處理。在僅僅向系統輸入很短的話語、例如一或兩個單詞的命令的時候,這會帶來問題,因為如果系統不能立即校準麥克風輸入增益,那么所說話語中的很大一部分將會很難為系統所理解。
參考圖4,其中給出了一個在典型的語音識別系統中接收的輸入語音信號的幅度時間對照圖,該圖描述的是過分的麥克風輸入增益設置所導致的結果。語音信號成分405被示為在圖形的頂部和底部被限制(clip);而背景噪聲成分410則被示為是過度放大的。在語音識別系統中,這種過分的麥克風輸入增益的后果可能包括降低系統性能,甚至是系統完全損壞,在這種情況下,該系統將完全無法識別語音信號成分405。
參考圖5,其中示出根據本發(fā)明實施例,在典型的語音識別系統中接收的輸入語音信號的幅度時間對照圖,該圖描述的是恰當的麥克風輸入增益設置的后果。在這里,語音信號成分505未被限制,并且將會作為清晰和意義明確的數據而被例如電話100的語音識別系統所捕獲。此外,相對于語音信號成分505而言,背景噪聲成分510的幅度將會減至最小。
在圖5中,由于自動增益控制調整是在電話100已經開始接收語音信號成分505之后實時執(zhí)行的,因此語音信號成分505的任何部分都不會丟失或失真。根據本發(fā)明的實施例,只有在根據背景噪聲參數校準了電話100的麥克風輸入增益之后,才會接收語音信號成分505。
舉例來說,根據本發(fā)明實施例,電話100可以接收一個語音識別觸發(fā)器,例如鍵入到鍵盤106中的代碼,或是在麥克風135上接收的某種聲音。然后,由語音識別存儲器116中存儲的軟件管理的語音識別系統對麥克風135上接收的背景噪聲進行處理。根據本發(fā)明實施例,背景噪聲信號可能非常短,例如只有100ms,這樣,接收信號不會對電話100的用戶產生可察覺的延遲。然后,麥克風113將背景噪聲信號與背景噪聲參考值進行比較。背景噪聲參考值可以是任何類型的聲音測量變量,例如以分貝為單位測定的峰值幅度,或是以能量為單位測定的平均聲強或響度(loudness)。
背景噪聲信號與背景噪聲參考值所進行的比較將會產生一個關于背景噪聲參數的判定,例如與預置標稱背景噪聲電平的百分比偏差。然而,根據本發(fā)明的各種實施例,提供背景噪聲信號與背景噪聲參考值的相對比較的任何類型的背景噪聲參數都是可以使用的。然后,背景噪聲參數將被用于校準麥克風135的麥克風輸入增益,從而提高語音識別信號中的信號噪聲比。
在校準了麥克風輸入增益之后,向電話100的用戶提供一個語音識別提示。例如,從通信揚聲器100中可以發(fā)出特定的音調,或者在顯示屏105上可以顯示可視提示。根據本發(fā)明實施例,這個提示會向電話100的用戶指示已經完成了背景噪聲校準處理并且電話100的語音識別特征現在已經得到激活和校準,從而可以在當前的背景噪聲狀態(tài)下有效進行操作。這樣,用戶可以說出一個很短的口頭命令,而電話100則使用恰當的麥克風輸入增益而在麥克風135上接收這個作為語音信號的命令。
參考圖6,該總的流程圖描述了根據本發(fā)明實施例來校準語音識別系統,以便提高語音信號噪聲比的方法600。在步驟605,響應于用戶激活語音識別系統的操作,在語音識別系統的麥克風上接收一個背景噪聲信號。在步驟610,通過將背景噪聲信號與背景噪聲參考值相比較來確定背景噪聲參數。在步驟615,根據背景噪聲參數來校準系統的麥克風輸入增益。最后,在步驟620,在校準了麥克風輸入增益之后,向系統用戶提供一個語音識別提示。
由此,本發(fā)明的優(yōu)點包括提供了一種用于校準語音識別系統的更有效的手段,其中校準是在接收輸入語音信號之前進行的,這樣,輸入語音信號的初始成分不會因為不恰當的麥克風輸入增益而丟失或是失真。根據本發(fā)明實施例,提供給語音識別系統用戶的提示將會使得系統只在根據當前背景噪聲電平而被有效校準之后才接收語音輸入信號。
以上的詳細描述僅僅提供了一個示范性實施例,并沒有對本發(fā)明的范圍、適用性或是結構加以限制。與此相反,關于示范性實施例的詳細描述為本領域技術人員提供了使其能夠實施本發(fā)明示范性實施例的描述。此外還應該理解,在沒有脫離附加權利要求所闡述的發(fā)明實質和范圍的情況下,在部件的功能和布置方面可以進行各種變化。應該了解的是,這里描述的本發(fā)明實施例可以包括一個或多個常規(guī)處理器,以及唯一的存儲程序指令,其中該指令對一個或多個處理器進行控制,以便結合一定的非處理器電路來實施這里所述的用于校準語音識別系統的功能中的某些、大部分或所有功能。非處理器電路可以包括但不局限于無線電接收機、無線電發(fā)射機、信號驅動器、時鐘電路、電源電路以及用戶輸入設備。這樣,這些功能也可以解釋成是用于執(zhí)行語音識別系統校準的方法的步驟。作為選擇,某些或所有功能可以由一個沒有存儲程序指令的狀態(tài)機來完成,也可以在一個或多個專用集成電路(ASIC)中實施,其中每一個功能或是某些功能的組合是作為定制的邏輯電路來實現的。當然,兩種方法的組合同樣也是可以使用的。由此,在這里描述了用于這些功能的方法和裝置。此外還應該預期的是,對本領域技術人員來說,雖然有可能受可用時間、當前技術以及經濟因素等等的推動而進行大量工作并做出眾多設計選擇,但在得到了這里所公開的概念和原則指導的情況下,他們很容易就能通過最少的試驗來產生這種軟件指令和程序以及IC。
在上文的描述中,對本發(fā)明的具體實施例進行了描述。但是本領域技術人員應該了解,在不脫離下列權利要求所述的發(fā)明范圍的情況下可以進行各種修改和變化。因此,說明書和附圖應被視為是說明性的,它們并不具有限制意義,并且所有這些修改都被視為是處于本發(fā)明的范圍以內。對那些由此產生或是更為明顯的益處、優(yōu)點、問題解決方案以及產生這些益處、優(yōu)點或解決方案的任何要素來說,在這里并不將其視為是任何一個或是所有權利要求所具有的關鍵性的、必要的或是本質的特性或部件。本發(fā)明僅僅由附加權利要求以及這些權利要求的所有等價方案來限定,其中包括了在本申請的審查過程中做出的任何補正。
權利要求
1.一種用于校準語音識別系統以便提高語音信號噪聲比的方法,該方法包括通過將背景噪聲信號與背景噪聲參考值相比較來確定背景噪聲參數;根據背景噪聲參數來校準麥克風輸入增益;以及在校準了麥克風輸入增益之后,向系統用戶提供一個語音識別提示。
2.如權利要求1所述的方法,還包括響應于用戶激活語音識別系統,在語音識別系統的麥克風上接收背景噪聲信號。
3.如權利要求1所述的方法,其中背景噪聲信號具有少于500ms的持續(xù)時間。
4.如權利要求1所述的方法,其中背景噪聲信號具有大約100ms的持續(xù)時間。
5.如權利要求1所述的方法,其中語音識別提示包括從系統揚聲器發(fā)出的可聽見的聲音。
6.如權利要求1所述的方法,其中語音識別提示包括系統顯示屏上的圖形顯示。
7.如權利要求1所述的方法,其中只有在背景噪聲參數超過一個閾值的時候才校準麥克風輸入增益。
8.如權利要求1所述的方法,其中背景噪聲參考值包括關于聲音幅度、聲音強度或者響度的量度。
全文摘要
一種用于校準語音識別系統,以便提高語音信號噪聲比的方法,該方法可用于提高與較短的輸入語音信號相關的語音識別性能。該方法包括通過將背景噪聲信號與背景噪聲參考值相比較來確定背景噪聲參數(步驟610)。然后,根據背景噪聲參數來校準麥克風輸入增益(步驟615)。然后,在校準了麥克風輸入增益之后,向系統用戶提供語音識別提示(步驟620)。
文檔編號G10L15/00GK101071565SQ20061008181
公開日2007年11月14日 申請日期2006年5月12日 優(yōu)先權日2006年5月12日
發(fā)明者陳吉勝, 何昕, 張亞昕 申請人:摩托羅拉公司