專利名稱:用于講話者驗證的方法與系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
一般地,本發(fā)明涉及講話者驗證方法與系統(tǒng)。更具體地,盡管并非排它性地,本發(fā)明涉及使用從嘈雜的無明顯可辨話音(unvoiced)的語音分量導(dǎo)出的目標(biāo)模型進(jìn)行的語音驗證。
背景技術(shù):
生物鑒定常常是保護(hù)對設(shè)備或設(shè)施的訪問的理想方法。與傳統(tǒng)的涉及物理鑰匙或者鍵入的密碼的安全鎖不同,生物鎖僅可由特定的、授權(quán)的個人操作。這樣的鎖通過測量獨(dú)特的生物特性,例如指紋、眼模式、或話音簽名,來評定個人身份。當(dāng)某人試圖開啟這樣的鎖時,測量該人士的一或多個生物特性,并與授權(quán)人士數(shù)據(jù)庫中的信息比較。如果找到匹配,則鎖開啟,否則鎖保持關(guān)閉。因為沒有易于丟失、失竊或忘記的鑰匙或密碼,并且因為生物簽名可以是高度可靠和獨(dú)特的,生物鎖很可能越來越普及。
涉及講話者驗證、或話音認(rèn)證的生物鎖,關(guān)注話音簽名的生物匹配。講話者驗證是保護(hù)訪問的特別方便的技術(shù),這是因為用戶可以以“免提(hands free)”的方式容易地進(jìn)行之。這使得對于經(jīng)常操作于“免提”模式的設(shè)備,例如移動電話與個人數(shù)字助理(PDA),講話者驗證成為理想的安全技術(shù)。
因此,存在無數(shù)種試圖分類和匹配人類話音的特性,以允許話音簽名作為生物鑰匙得到可靠使用的算法。算法包括高斯混合模型通用背景模型(GMM-UBM)方法。在GMM-UBM講話者鑒定中,以GMM建模授權(quán)的講話者。使用大型語音語料庫(large speech corpus)首先創(chuàng)建高階講話者無關(guān)的UBM。其后,使用貝葉斯(Bayesian)或最大后驗概率(MAP)適配方法,從UBM導(dǎo)出單個講話者的模型。其后,將模型與輸入話音特性向量比較,以確定特定輸入話音是否匹配GMM-UBM模型之一。
如大多數(shù)檢測系統(tǒng)那樣,講話者驗證系統(tǒng)通常被調(diào)諧,以提供想要的接收器操作特性(ROC)。檢測/錯誤折衷(DET)曲線是測量ROC的通用方法,其評估兩種類型的錯誤誤拒絕率與誤接受率。關(guān)于講話者驗證,當(dāng)授權(quán)的人士試圖將他的或她的話音與話音模型匹配,但該人士被驗證系統(tǒng)不適當(dāng)?shù)鼐芙^時,誤拒絕發(fā)生。當(dāng)未授權(quán)的人士,例如冒名頂替者,能夠成功地將他的或她的話音與為另一人士創(chuàng)建的話音模型匹配,從而獲得對設(shè)備或設(shè)施的不適當(dāng)?shù)脑L問時,誤接受發(fā)生。
許多檢測系統(tǒng)被校準(zhǔn),使得系統(tǒng)操作于誤接受率曲線與誤拒絕率曲線相交的狀況。該狀況常常被稱為等錯誤率(EER)點(diǎn),其提供了位于過多的誤接受與過多的誤拒絕之間的平衡。然而,背景噪聲水平的變化常擾亂講話者驗證系統(tǒng)的校準(zhǔn),導(dǎo)致不合意的誤接受數(shù)目或不合意的誤拒絕數(shù)目。
為使本發(fā)明易于理解和投入實用,現(xiàn)在將參照示例性實施例,如參照所附繪圖所示,其中在各個分立的視圖中,相似的引用號指代相同或功能上相似的組件。繪圖連同下面的詳細(xì)描述集成到說明書并形成說明書的一部分,以進(jìn)一步闡釋實施例,和解釋各種原則與優(yōu)點(diǎn),其遵照本發(fā)明,其中圖1是闡釋無線電話形式的無線通信設(shè)備的示意圖;圖2是闡釋MAP適配流程的示意圖;圖3是闡釋接收器操作特性(ROC)曲線的典型集的圖形;圖4是闡釋來自兩種講話者(目標(biāo)講話者與冒名頂替者)的兩組柱狀圖分值分布;
圖5是講話者驗證系統(tǒng)的示意圖,其遵照本發(fā)明的實施例,其提供針對背景噪聲的改善的魯棒性;和圖6是闡釋遵照本發(fā)明的實施例的講話者驗證方法的一般流程圖。
本領(lǐng)域技術(shù)人員將意識到,圖中的組件為簡單和清晰起見而繪制,不一定遵照比例畫出。例如,圖中某些組件的尺寸相對于其它組件可能被夸大,以幫助促進(jìn)對本發(fā)明的實施例的理解。
具體實施例方式
在詳細(xì)描述遵照本發(fā)明的實施例之前,需要觀察到的是,實施例主要存在于涉及用于講話者驗證的方法與系統(tǒng)的方法步驟與設(shè)備組件的組合。相應(yīng)地,在適宜時,圖中以傳統(tǒng)符號表示設(shè)備組件與方法步驟,僅顯示與理解本發(fā)明的實施例相關(guān)的特定細(xì)節(jié),從而避免對于本領(lǐng)域普通技術(shù)人員而言顯而易見的細(xì)節(jié)壓倒這里的描述,令本公開變得晦澀。
在本文檔中,關(guān)系術(shù)語,例如第一與第二、頂與底、等等僅用于將一實體或動作從另一實體或動作區(qū)分開來,而不一定要求或暗示在這樣的實體或動作之間(存在)任何實際的這樣的關(guān)系或順序。術(shù)語“包括”或其任何其它變形意欲指代非排它性的包括,使得包括一組元素的過程、方法、物品、或設(shè)備不僅包括這些元素,還可包括未特別地列出的或為該過程、方法、物品、或設(shè)備所固有的其它元素。在無更多限制時,“包括一個”之后的元素不排除在包括該元素的過程、方法、物品、或設(shè)備中存在其它相同元素。
參照圖1,闡釋無線電話100形式的無線通信設(shè)備的示意圖,無線電話100包括射頻通信單元102,其被連接以與處理器103通信。無線電話100還具有小鍵盤106與顯示屏105,其被連接以與處理器103通信。如對于本領(lǐng)域技術(shù)人員而言將顯而易見的那樣,屏105可以是觸摸屏,從而使小鍵盤106成為可選項。
處理器103包括編碼器/解碼器111,其具有相關(guān)聯(lián)的代碼只讀存儲器(ROM)112,其為編碼和解碼可由無線電話100發(fā)送或接收的話音或其它信號存儲數(shù)據(jù)。處理器103還包括微處理器113,其由公共數(shù)據(jù)與地址總線117連接到編碼器/解碼器111、字符只讀存儲器(ROM)114、隨機(jī)存取存儲器(RAM)104、靜態(tài)可編程存儲器116與SIM接口118。靜態(tài)可編程存儲器116與SIM(常稱為SIM卡)可操作地連接到SIM接口118,除其它功能之外,其可分別存儲所選擇的進(jìn)來的文本消息與電話號碼數(shù)據(jù)庫(TND)(電話簿),其包括用于電話號碼的號碼域以及用于標(biāo)識符的名稱域,名稱域中的標(biāo)識符與號碼之一相關(guān)聯(lián)。例如,電話號碼數(shù)據(jù)庫TND中的一個條目可以是91999111111(在號碼域中輸入),其名稱域中為相關(guān)聯(lián)的標(biāo)識符“StevenC!at work”。SIM卡與靜態(tài)存儲器116還可存儲密碼或訓(xùn)練語音信號語料庫,以允許訪問無線電話100上的受保護(hù)功能。
微處理器113具有端口,以連接到小鍵盤106與屏105和警報115,警報115典型地包括警報揚(yáng)聲器、振動器馬達(dá)與相關(guān)聯(lián)的驅(qū)動。而且,微處理器113具有端口,以連接到麥克風(fēng)135和通信揚(yáng)聲器140。字符只讀存儲器114存儲碼字,以解碼或編碼可由通信單元102接收的文本消息。在此實施例中,字符只讀存儲器114也存儲用于微處理器113的操作碼字(OC),并存儲用于進(jìn)行與無線電話100相關(guān)聯(lián)的功能的碼字。
射頻通信單元102為具有公共天線107的組合的接收器與發(fā)送器。通信單元102具有收發(fā)器108,其經(jīng)由射頻放大器109連接到天線107。收發(fā)器108還連接到組合調(diào)制器/解調(diào)器110,將通信單元102連接到處理器103。
為了提供對本發(fā)明的清晰而完整的描述,現(xiàn)在參照分別關(guān)于現(xiàn)有技術(shù)的MAP適配流程與EER曲線的圖2與3描述一些額外的背景材料。
參照圖2,闡釋MAP適配流程的示意圖,其遵照現(xiàn)有技術(shù)。左邊的四個橢圓205表示講話者模型,其在通用背景模型中包括四個高斯概率密度函數(shù)(PDF)。點(diǎn)210表示來自目標(biāo)講話者的訓(xùn)練語音樣本分值。MAP適配流程基于鄰近的訓(xùn)練語音樣本分值,重新計算每一高斯PDF的分布,并有效地重新配置PDF,如圖2的右邊由修改的橢圓215所表示的那樣,修改的橢圓215定義修改的講話者模型。
參照圖3,闡釋如本領(lǐng)域眾所周知的接收器操作特性(ROC)曲線的典型集的圖形。y軸表示錯誤率,而x軸表示門限設(shè)置,特定檢測系統(tǒng)操作于該門限以產(chǎn)生一組給定的錯誤率。如應(yīng)用于講話者驗證(SV)技術(shù),例如可包括在無線電話100的安全特性中的那樣,誤接受(FA)曲線表示這樣的錯誤率,其中未授權(quán)的人士,例如冒名頂替者,能夠成功地將他的或她的話音與為另一人士創(chuàng)建的話音模型匹配,從而獲得對電話100的不適當(dāng)?shù)脑L問。誤拒絕(FR)曲線表示這樣的錯誤率,其中授權(quán)的人士試圖將他的或她的話音與話音模型匹配,但對電話100的訪問被不適當(dāng)?shù)鼐芙^。兩曲線的交點(diǎn)常被稱為等錯誤率(EER)點(diǎn)。如本領(lǐng)域眾所周知的那樣,檢測系統(tǒng)常被校準(zhǔn),以操作在EER點(diǎn)或接近EER點(diǎn),以提供最優(yōu)性能。
關(guān)于無線電話100中包括的SV系統(tǒng),如果系統(tǒng)被校準(zhǔn)以操作在對應(yīng)于門限設(shè)置T0的EER點(diǎn),電話100可為授權(quán)的用戶提供方便水平的訪問安全性,其中電話100可快速地、可靠地驗證授權(quán)的用戶的話音,而拒絕未授權(quán)的用戶的訪問。然而,如果用戶要求電話100更可靠地識別授權(quán)的用戶的話音,系統(tǒng)可被校準(zhǔn)以操作在對應(yīng)于門限設(shè)置T1的更低的FR率。另一方面,如果用戶要求電話100的更大的訪問安全性,SV系統(tǒng)可被校準(zhǔn)以操作在對應(yīng)于門限設(shè)置T2的更低的FA率。然而,對于給定的門限設(shè)定,變化水平的背景噪聲可改變想要的FA/FR率。
參照圖4,闡釋來自兩種類型的講話者(目標(biāo)講話者與許多冒名頂替者)的兩組柱狀圖分值分布。x軸表示SV測試分值,而y軸表示測試發(fā)音(utterance)的數(shù)目。已觀察到SV系統(tǒng)在不同的背景噪聲環(huán)境中遵照不同的FA/FR ROC曲線起作用。在SV系統(tǒng)中測量背景噪聲的一種方法使用語音噪聲比(SNR)。安靜的背景生成更高的SNR,而嘈雜的背景生成更低的SNR。當(dāng)SV系統(tǒng)從具有高SNR的環(huán)境移動到具有較低SNR的環(huán)境時,定義系統(tǒng)的ROC的FA/FR曲線改變。圖4中顯示的分布是基于在5dB到25dB之間變化的SNR。這樣,圖4闡釋在安靜的背景環(huán)境(SNR=25dB)中,來自冒名頂替的講話者的SV分值一般將與來自目標(biāo)講話者的SV分值不同。但在相對嘈雜的背景環(huán)境(SNR=5dB)中,來自冒名頂替的講話者的SV分值一般將與來自目標(biāo)講話者的SV分值更近似,呈現(xiàn)出更多重疊。
進(jìn)一步地,圖4闡釋與來自冒名頂替的講話者的SV分值相比,來自目標(biāo)講話者的SV分值一般對背景噪聲水平更敏感。這表現(xiàn)在與冒名頂替者的SV分值相比,目標(biāo)講話者的SV分值從25dB到5dB的橫向移動更大。目標(biāo)講話者的SV分值對于背景噪聲具有增大的敏感度,這是因為用于目標(biāo)講話者的訓(xùn)練模型一般在相對安靜或“干凈”的環(huán)境中創(chuàng)建;而來自冒名頂替者的測試語音一般在相對嘈雜的“真實”環(huán)境中創(chuàng)建。
參照圖5,SV系統(tǒng)500的示意圖,其遵照本發(fā)明的實施例,提供針對背景噪聲的改善的魯棒性。系統(tǒng)500包括無明顯可辨話音(unvoiced)與有明顯可辨話音(voiced)(U/V)語音分類器505,其對語音輸入信號進(jìn)行分類。三個語言模型可操作地連接到U/V分類器505通用背景語音模型(UBM)515、干凈目標(biāo)語音模型(CTM)510、與嘈雜目標(biāo)語音模型(NTM)520。U/V分類器505將輸入語音信號幀分類為三個分量靜音、干凈的有明顯可辨話音語音、與嘈雜的無明顯可辨話音語音。使用來自輸入訓(xùn)練語音的干凈的有明顯可辨話音語音從UBM 515生成CTM 510,其從而僅包括一或多個特定講話者的信息。這樣,可將CTM 510定義為使用來自相對安靜的背景環(huán)境的有明顯可辨話音語音分量從UBM 515生成或適配的任意目標(biāo)語音模型。使用來自真實環(huán)境的測試語音發(fā)音的靜音與嘈雜的無明顯可辨話音語音分量從CTM 510生成NTM 520。這樣,NTM 520包括關(guān)于特定講話者與關(guān)于背景噪聲環(huán)境兩者的信息。因此,可將NTM 520定義為使用來自相對嘈雜的背景環(huán)境的無明顯可辨話音語音分量從UBM 515生成或適配的任意目標(biāo)語音模型。
這樣,系統(tǒng)500包括兩個子系統(tǒng)包括U/V分類器505、UBM 515與CTM 510的基線系統(tǒng)以及包括NTM 520的環(huán)境適配系統(tǒng)。在U/V分類器505接收輸入訓(xùn)練語音信號之后,系統(tǒng)500進(jìn)行登記過程,其中從輸入訓(xùn)練語音信號的干凈有明顯可辨話音分量525,并使用,比如說,貝葉斯(Bayesian)或最大后驗概率(MAP)適配方法從UBM 515,生成CTM 510。
U/V分類器505還接收輸入測試語音信號,其隨后輸出嘈雜的無明顯可辨話音語音分量。在上述登記過程之后,進(jìn)一步的適配過程其后從嘈雜的無明顯可辨話音語音分量530生成NTM 520。
本領(lǐng)域技術(shù)人員將意識到本發(fā)明的實施例的成本效率。例如,盡管系統(tǒng)500包括三個語音模型,CTM 510與NTM 520均直接地或間接地從UBM 515生成。這樣,在一個UBM 515包括128個原始高斯語音模型的特定實施例中,每幀僅需計算五個額外的高斯語音模型,以生成CTM 510與NTM 520兩者。這樣,相對于系統(tǒng)500相對于現(xiàn)有技術(shù)改善的噪聲魯棒性而言,額外的計算成本是微不足道的。
在生成CTM 510與NTM 520之后,輸入測試語音信號的分量由CTM 510、UBM 515、與NTM 520中的每一個進(jìn)行處理。如圖5所示,遵照本發(fā)明的一個實施例,計算輸入測試語音信號的初始CTM匹配分值,并以來自UBM的匹配分值輸出對其進(jìn)行歸一化,以創(chuàng)建第一初步匹配分值(分值1)。還計算輸入測試語音信號的初始NTM匹配分值,并以來自UBM的匹配分值輸出對其進(jìn)行歸一化,以創(chuàng)建第二初步匹配分值(分值2)。歸一化過程可包括各種技術(shù),例如簡單地減去UBM匹配分值。其后,使用第一與第二初步匹配分值來確定最終匹配分值。例如,最終匹配分值可等于第一與第二初步匹配分值之和。
示例下面是錯誤削減的實驗結(jié)果,其遵照使用來自各種背景環(huán)境的輸入測試語音信號的本發(fā)明的實施例產(chǎn)生。背景環(huán)境包括多路串?dāng)_噪聲(表1)、機(jī)場噪聲(表2)、列車車廂噪聲(表3)、街道噪聲(表4)、餐館噪聲(表5)、以及列車車站噪聲(表6)。使用稱為Polycost的電話語音數(shù)據(jù)庫作為輸入語音信號。Polycost數(shù)據(jù)庫是一個大型混合語音語料庫,其涉及超過100個講話者,包括外國人說的英語。數(shù)據(jù)庫主要包括數(shù)字,以及一些自由語音,其收集自國際電話線路,并且每一講話者包括超過八段會話。不同的背景環(huán)境表示一段范圍的SNR。參數(shù)包括36維mel-頻率倒譜系數(shù)(MFCC)(例如,12MFCC+12ΔMFCC+12ΔΔMFCC)。講話者模型適配自具有128個高斯語音模型、3份發(fā)音(utterance)的UBM。
表1錯誤削減—多路串?dāng)_噪聲
表2錯誤削減—機(jī)場噪聲
表3錯誤削減—列車車廂噪聲
表4錯誤削減—街道噪聲
表5錯誤削減—餐館噪聲
表6錯誤削減—列車車站噪聲
上面呈現(xiàn)的實驗數(shù)據(jù)闡述遵照本發(fā)明的講話者驗證方法與系統(tǒng)顯著地改善了寬廣范圍的嘈雜環(huán)境下的講話者驗證性能。錯誤削減范圍在餐館背景噪聲下的3.5%到列車車廂背景噪聲下的42.13%之間。平均EER削減是大約22%。
總之,參照圖6,闡釋遵照本發(fā)明的實施例的講話者驗證方法600的一般流程圖。首先,在步驟605,無明顯可辨話音與有明顯可辨話音(U/V)語音分類器505對輸入訓(xùn)練語音信號進(jìn)行分類,以輸出干凈的有明顯可辨話音語音分量,并對輸入測試語音信號進(jìn)行分類,以輸出嘈雜的無明顯可辨話音語音分量。接著,在步驟610,使用訓(xùn)練語音的干凈的有明顯可辨話音語音分量從UBM 515生成CTM 510。在步驟615,使用測試語音的嘈雜的無明顯可辨話音語音分量從CTM510生成NTM 520。在步驟620,為輸入測試語音信號的話音語音分量計算初始CTM匹配分值,并以來自UBM 515的匹配分值輸出對其進(jìn)行歸一化,以創(chuàng)建第一初步匹配分值。其后,在步驟625,為輸入測試語音信號的話音語音分量計算初始NTM匹配分值,并以來自UBM515的匹配分值輸出對其進(jìn)行歸一化,以創(chuàng)建第二初步匹配分值。最后,在步驟630,使用第一與第二初步匹配分值確定最終匹配分值。
這樣,本發(fā)明的優(yōu)點(diǎn)包括更魯棒的講話者驗證系統(tǒng)500與方法600,其對于背景噪聲較不敏感。進(jìn)一步地,本發(fā)明在計算上是高成本效率的,這是因為盡管使用至少三個模型510、515、520,CTM 510與NTM 515系從UBM 515導(dǎo)出,因此僅計算相對小數(shù)目的額外的高斯語音模型。
上面的細(xì)節(jié)描述僅提供示例性實施例,而無意限制本發(fā)明的范圍、適用性、或配置。相反地,示例性實施例的詳細(xì)描述向本領(lǐng)域技術(shù)人員提供這樣的描述,其允許他們實現(xiàn)本發(fā)明的示例性實施例。需要理解的是,可在組件與步驟的功能與排列中進(jìn)行各種變化,而不偏離如所附權(quán)利要求書所述的本發(fā)明的實質(zhì)與范圍。本領(lǐng)域技術(shù)人員將意識到,這里描述的本發(fā)明的實施例可包括一或多個傳統(tǒng)處理器以及獨(dú)特的存儲的程序指令,其控制所述一或多個處理器連同特定的非處理器電路實現(xiàn)講話者驗證的一些、大部分、或全部功能,如這里所描述的那樣。非處理器電路可包括,但不限于,無線接收器、無線發(fā)送器、信號驅(qū)動器、時鐘電路、電源電路、與用戶輸入設(shè)備。同樣地,可將這些功能解釋為進(jìn)行講話者驗證的方法的步驟。作為可供選擇的另一替代方案,可使用沒有存儲的程序指令的狀態(tài)機(jī)實現(xiàn)一些或全部功能,或者在一或多個專用集成電路(ASIC)中(實現(xiàn)一些或全部功能),其中將每一功能或者特定功能的某些組合作為定制邏輯來實現(xiàn)。當(dāng)然,可使用兩種方法的組合。這樣,這里已描述了這些功能的方法與設(shè)備。進(jìn)一步地,盡管可能需要顯著的努力,以及存在由,比如說,可用時間、當(dāng)前技術(shù)、與經(jīng)濟(jì)考慮等激發(fā)的許多設(shè)計選擇,當(dāng)由這里公開的概念與原則指導(dǎo)時,預(yù)期本領(lǐng)域普通技術(shù)人員將能夠容易地生成這樣的軟件指令與程序與IC,而只需最少的實驗。
在前面的詳述中,已描述本發(fā)明的特定實施例。然而,本領(lǐng)域普通技術(shù)人員意識到,可進(jìn)行各種修改與變動,而不偏離如所附權(quán)利要求書所闡明的本發(fā)明的范圍。相應(yīng)地,說明書與附圖應(yīng)被視為闡釋性的而非限制性的,并且所有這樣的修改均被試圖包括在本發(fā)明的范圍之內(nèi)。好處、優(yōu)點(diǎn)、問題的解決方案,以及任何可引起任何好處、優(yōu)點(diǎn)、或解決方案發(fā)生或變得更加顯著的元素,不應(yīng)被解釋為任何權(quán)利要求的決定性的、必需的、或本質(zhì)性的特性或元素。本發(fā)明僅由所附權(quán)利要求書,包括在本申請的預(yù)決期間進(jìn)行的任何修正,以及權(quán)利要求的所有等價物,來定義。
權(quán)利要求
1.一種用于講話者驗證的方法,其包括使用無明顯可辨話音與有明顯可辨話音(U/V)語音分類器,對輸入訓(xùn)練語音信號進(jìn)行分類,以輸出干凈的有明顯可辨話音的語音分量,并對輸入測試語音信號進(jìn)行分類,以輸出嘈雜的無明顯可辨話音的語音分量;使用所述的干凈的有明顯可辨話音語音分量從通用背景模型(UBM)生成干凈目標(biāo)語音模型(CTM);使用所述的嘈雜的無明顯可辨話音語音分量從所述CTM生成嘈雜目標(biāo)語音模型(NTM);為所述輸入測試語音信號計算初始CTM匹配分值,并以來自所述UBM的匹配分值輸出對其進(jìn)行歸一化,以創(chuàng)建第一初步匹配分值;為所述輸入測試語音信號計算初始NTM匹配分值,并以來自所述UBM的匹配分值輸出對其進(jìn)行歸一化,以創(chuàng)建第二初步匹配分值;和使用所述第一與第二初步匹配分值確定最終匹配分值。
2.如權(quán)利要求1所述的方法,其中,所述UBM包括超過100個計算的高斯語音模型。
3.如權(quán)利要求2所述的方法,其中,計算不超過五個額外的高斯語音模型以生成所述CTM與所述NTM兩者。
4.如權(quán)利要求1所述的方法,其中,通過減去來自所述UBM的匹配分值輸出來對所述初始CTM匹配分值進(jìn)行歸一化,以創(chuàng)建所述第一初步匹配分值。
5.如權(quán)利要求1所述的方法,其中,通過減去來自所述UBM的匹配分值輸出來對所述初始NTM匹配分值進(jìn)行歸一化,以創(chuàng)建所述第二初步匹配分值。
6.如權(quán)利要求1所述的方法,其中,從所述CTM生成所述NTM還使用來自所述U/V語音分類器的靜音分量輸出,以定義背景噪聲水平。
7.如權(quán)利要求1所述的方法,其中,所述最終匹配分值是所述第一與第二初步匹配分值之和。
8.如權(quán)利要求1所述的方法,其中,所述U/V語音分類器將語音信號分類為三種分量靜音、有明顯可辨話音語音、和無明顯可辨話音語音。
9.如權(quán)利要求1所述的方法,其中,使用最大后驗概率(MAP)適配方法生成所述CTM與所述NTM兩者。
10.一種用于講話者驗證的系統(tǒng),包括無明顯可辨話音與有明顯可辨話音(U/V)語音分類器,其接收輸入訓(xùn)練語音信號,以輸出干凈的有明顯可辨話音語音分量,并接收輸入測試語音信號,以輸出嘈雜的無明顯可辨話音語音分量;通用背景模型(UBM),其可操作地連接到所述U/V語音分類器;干凈目標(biāo)語音模型(CTM),其可操作地連接到所述U/V語音分類器與所述UBM,且其被使用所述的干凈的有明顯可辨話音語音分量從所述UBM生成;嘈雜目標(biāo)語音模型(NTM),其可操作地連接到所述U/V分類器、所述UBM與所述CTM,且其被使用所述的嘈雜的無明顯可辨話音語音分量從所述CTM生成;其中,為所述輸入測試語音信號計算初始CTM匹配分值,并以來自所述UBM的匹配分值輸出對其進(jìn)行歸一化,以創(chuàng)建第一初步匹配分值,為所述輸入測試語音信號計算初始NTM匹配分值,并以來自所述UBM的匹配分值輸出對其進(jìn)行歸一化,以創(chuàng)建第二初步匹配分值,以及使用所述第一與第二初步匹配分值確定最終匹配分值。
11.如權(quán)利要求10所述的系統(tǒng),其中,所述UBM包括超過100個計算的高斯語音模型。
12.如權(quán)利要求11所述的系統(tǒng),其中,計算不超過五個額外的高斯語音模型以生成所述CTM與所述NTM兩者。
13.如權(quán)利要求10所述的系統(tǒng),其中,通過減去來自所述UBM的匹配分值輸出來對所述初始CTM匹配分值進(jìn)行歸一化,以創(chuàng)建所述第一初步匹配分值。
14.如權(quán)利要求10所述的系統(tǒng),其中,通過減去來自所述UBM的匹配分值輸出來對所述初始NTM匹配分值進(jìn)行歸一化,以創(chuàng)建所述第二初步匹配分值。
15.如權(quán)利要求10所述的系統(tǒng),其中,從所述CTM生成所述NTM還使用來自所述U/V語音分類器的靜音分量輸出,以定義背景噪聲水平。
16.如權(quán)利要求10所述的系統(tǒng),其中,所述最終匹配分值是所述第一與第二初步匹配分值之和。
17.如權(quán)利要求10所述的系統(tǒng),其中,所述U/V語音分類器將語音信號分類為三種分量靜音、有明顯可辨話音語音、和無明顯可辨話音語音。
18.如權(quán)利要求10所述的系統(tǒng),其中,使用最大后驗概率(MAP)適配方法生成所述CTM與所述NTM兩者。
全文摘要
一種用于講話者驗證的方法與系統(tǒng),對于驗證諸如講話者的身份等講話者屬性是有用的。在無明顯可辨話音與有明顯可辨話音(U/V)語音分類器中對輸入訓(xùn)練語音信號進(jìn)行分類,以輸出干凈的V語音分量,并對輸入測試語音信號進(jìn)行分類,以輸出嘈雜的U語音分量(605)。使用干凈的V語音分量從通用背景模型(UBM)生成干凈目標(biāo)模型(CTM)(610)。使用嘈雜的U語音分量從CTM生成嘈雜目標(biāo)模型(NTM)(615)。計算初始CTM匹配分值,以來自UBM的匹配分值輸出對其進(jìn)行歸一化,創(chuàng)建第一初步匹配分值(620)。計算初始NTM匹配分值,以來自UBM的匹配分值輸出對其進(jìn)行歸一化,創(chuàng)建第二初步匹配分值(625)。使用第一與第二初步匹配分值確定最終匹配分值(630)。
文檔編號G10L17/00GK1924998SQ200510097649
公開日2007年3月7日 申請日期2005年8月29日 優(yōu)先權(quán)日2005年8月29日
發(fā)明者黃偉, 韓兆兵, 張亞昕 申請人:摩托羅拉公司