用于講話者驗證的方法與系統(tǒng)的制作方法

文檔序號：2822451閱讀：157來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：用于講話者驗證的方法與系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
一般地，本發(fā)明涉及講話者驗證方法與系統(tǒng)。更具體地，盡管并非排它性地，本發(fā)明涉及使用從嘈雜的無明顯可辨話音(unvoiced)的語音分量導(dǎo)出的目標(biāo)模型進(jìn)行的語音驗證。
背景技術(shù)：
生物鑒定常常是保護(hù)對設(shè)備或設(shè)施的訪問的理想方法。與傳統(tǒng)的涉及物理鑰匙或者鍵入的密碼的安全鎖不同，生物鎖僅可由特定的、授權(quán)的個人操作。這樣的鎖通過測量獨(dú)特的生物特性，例如指紋、眼模式、或話音簽名，來評定個人身份。當(dāng)某人試圖開啟這樣的鎖時，測量該人士的一或多個生物特性，并與授權(quán)人士數(shù)據(jù)庫中的信息比較。如果找到匹配，則鎖開啟，否則鎖保持關(guān)閉。因為沒有易于丟失、失竊或忘記的鑰匙或密碼，并且因為生物簽名可以是高度可靠和獨(dú)特的，生物鎖很可能越來越普及。
涉及講話者驗證、或話音認(rèn)證的生物鎖，關(guān)注話音簽名的生物匹配。講話者驗證是保護(hù)訪問的特別方便的技術(shù)，這是因為用戶可以以“免提(hands free)”的方式容易地進(jìn)行之。這使得對于經(jīng)常操作于“免提”模式的設(shè)備，例如移動電話與個人數(shù)字助理(PDA)，講話者驗證成為理想的安全技術(shù)。
因此，存在無數(shù)種試圖分類和匹配人類話音的特性，以允許話音簽名作為生物鑰匙得到可靠使用的算法。算法包括高斯混合模型通用背景模型(GMM-UBM)方法。在GMM-UBM講話者鑒定中，以GMM建模授權(quán)的講話者。使用大型語音語料庫(large speech corpus)首先創(chuàng)建高階講話者無關(guān)的UBM。其后，使用貝葉斯(Bayesian)或最大后驗概率(MAP)適配方法，從UBM導(dǎo)出單個講話者的模型。其后，將模型與輸入話音特性向量比較，以確定特定輸入話音是否匹配GMM-UBM模型之一。
如大多數(shù)檢測系統(tǒng)那樣，講話者驗證系統(tǒng)通常被調(diào)諧，以提供想要的接收器操作特性(ROC)。檢測/錯誤折衷(DET)曲線是測量ROC的通用方法，其評估兩種類型的錯誤誤拒絕率與誤接受率。關(guān)于講話者驗證，當(dāng)授權(quán)的人士試圖將他的或她的話音與話音模型匹配，但該人士被驗證系統(tǒng)不適當(dāng)?shù)鼐芙^時，誤拒絕發(fā)生。當(dāng)未授權(quán)的人士，例如冒名頂替者，能夠成功地將他的或她的話音與為另一人士創(chuàng)建的話音模型匹配，從而獲得對設(shè)備或設(shè)施的不適當(dāng)?shù)脑L問時，誤接受發(fā)生。
許多檢測系統(tǒng)被校準(zhǔn)，使得系統(tǒng)操作于誤接受率曲線與誤拒絕率曲線相交的狀況。該狀況常常被稱為等錯誤率(EER)點(diǎn)，其提供了位于過多的誤接受與過多的誤拒絕之間的平衡。然而，背景噪聲水平的變化常擾亂講話者驗證系統(tǒng)的校準(zhǔn)，導(dǎo)致不合意的誤接受數(shù)目或不合意的誤拒絕數(shù)目。

為使本發(fā)明易于理解和投入實用，現(xiàn)在將參照示例性實施例，如參照所附繪圖所示，其中在各個分立的視圖中，相似的引用號指代相同或功能上相似的組件。繪圖連同下面的詳細(xì)描述集成到說明書并形成說明書的一部分，以進(jìn)一步闡釋實施例，和解釋各種原則與優(yōu)點(diǎn)，其遵照本發(fā)明，其中圖1是闡釋無線電話形式的無線通信設(shè)備的示意圖；圖2是闡釋MAP適配流程的示意圖；圖3是闡釋接收器操作特性(ROC)曲線的典型集的圖形；圖4是闡釋來自兩種講話者(目標(biāo)講話者與冒名頂替者)的兩組柱狀圖分值分布；
圖5是講話者驗證系統(tǒng)的示意圖，其遵照本發(fā)明的實施例，其提供針對背景噪聲的改善的魯棒性；和圖6是闡釋遵照本發(fā)明的實施例的講話者驗證方法的一般流程圖。
本領(lǐng)域技術(shù)人員將意識到，圖中的組件為簡單和清晰起見而繪制，不一定遵照比例畫出。例如，圖中某些組件的尺寸相對于其它組件可能被夸大，以幫助促進(jìn)對本發(fā)明的實施例的理解。
具體實施例方式
在詳細(xì)描述遵照本發(fā)明的實施例之前，需要觀察到的是，實施例主要存在于涉及用于講話者驗證的方法與系統(tǒng)的方法步驟與設(shè)備組件的組合。相應(yīng)地，在適宜時，圖中以傳統(tǒng)符號表示設(shè)備組件與方法步驟，僅顯示與理解本發(fā)明的實施例相關(guān)的特定細(xì)節(jié)，從而避免對于本領(lǐng)域普通技術(shù)人員而言顯而易見的細(xì)節(jié)壓倒這里的描述，令本公開變得晦澀。
在本文檔中，關(guān)系術(shù)語，例如第一與第二、頂與底、等等僅用于將一實體或動作從另一實體或動作區(qū)分開來，而不一定要求或暗示在這樣的實體或動作之間(存在)任何實際的這樣的關(guān)系或順序。術(shù)語“包括”或其任何其它變形意欲指代非排它性的包括，使得包括一組元素的過程、方法、物品、或設(shè)備不僅包括這些元素，還可包括未特別地列出的或為該過程、方法、物品、或設(shè)備所固有的其它元素。在無更多限制時，“包括一個”之后的元素不排除在包括該元素的過程、方法、物品、或設(shè)備中存在其它相同元素。
參照圖1，闡釋無線電話100形式的無線通信設(shè)備的示意圖，無線電話100包括射頻通信單元102，其被連接以與處理器103通信。無線電話100還具有小鍵盤106與顯示屏105，其被連接以與處理器103通信。如對于本領(lǐng)域技術(shù)人員而言將顯而易見的那樣，屏105可以是觸摸屏，從而使小鍵盤106成為可選項。
處理器103包括編碼器/解碼器111，其具有相關(guān)聯(lián)的代碼只讀存儲器(ROM)112，其為編碼和解碼可由無線電話100發(fā)送或接收的話音或其它信號存儲數(shù)據(jù)。處理器103還包括微處理器113，其由公共數(shù)據(jù)與地址總線117連接到編碼器/解碼器111、字符只讀存儲器(ROM)114、隨機(jī)存取存儲器(RAM)104、靜態(tài)可編程存儲器116與SIM接口118。靜態(tài)可編程存儲器116與SIM(常稱為SIM卡)可操作地連接到SIM接口118，除其它功能之外，其可分別存儲所選擇的進(jìn)來的文本消息與電話號碼數(shù)據(jù)庫(TND)(電話簿)，其包括用于電話號碼的號碼域以及用于標(biāo)識符的名稱域，名稱域中的標(biāo)識符與號碼之一相關(guān)聯(lián)。例如，電話號碼數(shù)據(jù)庫TND中的一個條目可以是91999111111(在號碼域中輸入)，其名稱域中為相關(guān)聯(lián)的標(biāo)識符“StevenC！at work”。SIM卡與靜態(tài)存儲器116還可存儲密碼或訓(xùn)練語音信號語料庫，以允許訪問無線電話100上的受保護(hù)功能。
微處理器113具有端口，以連接到小鍵盤106與屏105和警報115，警報115典型地包括警報揚(yáng)聲器、振動器馬達(dá)與相關(guān)聯(lián)的驅(qū)動。而且，微處理器113具有端口，以連接到麥克風(fēng)135和通信揚(yáng)聲器140。字符只讀存儲器114存儲碼字，以解碼或編碼可由通信單元102接收的文本消息。在此實施例中，字符只讀存儲器114也存儲用于微處理器113的操作碼字(OC)，并存儲用于進(jìn)行與無線電話100相關(guān)聯(lián)的功能的碼字。
射頻通信單元102為具有公共天線107的組合的接收器與發(fā)送器。通信單元102具有收發(fā)器108，其經(jīng)由射頻放大器109連接到天線107。收發(fā)器108還連接到組合調(diào)制器/解調(diào)器110，將通信單元102連接到處理器103。
為了提供對本發(fā)明的清晰而完整的描述，現(xiàn)在參照分別關(guān)于現(xiàn)有技術(shù)的MAP適配流程與EER曲線的圖2與3描述一些額外的背景材料。
參照圖2，闡釋MAP適配流程的示意圖，其遵照現(xiàn)有技術(shù)。左邊的四個橢圓205表示講話者模型，其在通用背景模型中包括四個高斯概率密度函數(shù)(PDF)。點(diǎn)210表示來自目標(biāo)講話者的訓(xùn)練語音樣本分值。MAP適配流程基于鄰近的訓(xùn)練語音樣本分值，重新計算每一高斯PDF的分布，并有效地重新配置PDF，如圖2的右邊由修改的橢圓215所表示的那樣，修改的橢圓215定義修改的講話者模型。
參照圖3，闡釋如本領(lǐng)域眾所周知的接收器操作特性(ROC)曲線的典型集的圖形。y軸表示錯誤率，而x軸表示門限設(shè)置，特定檢測系統(tǒng)操作于該門限以產(chǎn)生一組給定的錯誤率。如應(yīng)用于講話者驗證(SV)技術(shù)，例如可包括在無線電話100的安全特性中的那樣，誤接受(FA)曲線表示這樣的錯誤率，其中未授權(quán)的人士，例如冒名頂替者，能夠成功地將他的或她的話音與為另一人士創(chuàng)建的話音模型匹配，從而獲得對電話100的不適當(dāng)?shù)脑L問。誤拒絕(FR)曲線表示這樣的錯誤率，其中授權(quán)的人士試圖將他的或她的話音與話音模型匹配，但對電話100的訪問被不適當(dāng)?shù)鼐芙^。兩曲線的交點(diǎn)常被稱為等錯誤率(EER)點(diǎn)。如本領(lǐng)域眾所周知的那樣，檢測系統(tǒng)常被校準(zhǔn)，以操作在EER點(diǎn)或接近EER點(diǎn)，以提供最優(yōu)性能。
關(guān)于無線電話100中包括的SV系統(tǒng)，如果系統(tǒng)被校準(zhǔn)以操作在對應(yīng)于門限設(shè)置T0的EER點(diǎn)，電話100可為授權(quán)的用戶提供方便水平的訪問安全性，其中電話100可快速地、可靠地驗證授權(quán)的用戶的話音，而拒絕未授權(quán)的用戶的訪問。然而，如果用戶要求電話100更可靠地識別授權(quán)的用戶的話音，系統(tǒng)可被校準(zhǔn)以操作在對應(yīng)于門限設(shè)置T1的更低的FR率。另一方面，如果用戶要求電話100的更大的訪問安全性，SV系統(tǒng)可被校準(zhǔn)以操作在對應(yīng)于門限設(shè)置T2的更低的FA率。然而，對于給定的門限設(shè)定，變化水平的背景噪聲可改變想要的FA/FR率。
參照圖4，闡釋來自兩種類型的講話者(目標(biāo)講話者與許多冒名頂替者)的兩組柱狀圖分值分布。x軸表示SV測試分值，而y軸表示測試發(fā)音(utterance)的數(shù)目。已觀察到SV系統(tǒng)在不同的背景噪聲環(huán)境中遵照不同的FA/FR ROC曲線起作用。在SV系統(tǒng)中測量背景噪聲的一種方法使用語音噪聲比(SNR)。安靜的背景生成更高的SNR，而嘈雜的背景生成更低的SNR。當(dāng)SV系統(tǒng)從具有高SNR的環(huán)境移動到具有較低SNR的環(huán)境時，定義系統(tǒng)的ROC的FA/FR曲線改變。圖4中顯示的分布是基于在5dB到25dB之間變化的SNR。這樣，圖4闡釋在安靜的背景環(huán)境(SNR＝25dB)中，來自冒名頂替的講話者的SV分值一般將與來自目標(biāo)講話者的SV分值不同。但在相對嘈雜的背景環(huán)境(SNR＝5dB)中，來自冒名頂替的講話者的SV分值一般將與來自目標(biāo)講話者的SV分值更近似，呈現(xiàn)出更多重疊。
進(jìn)一步地，圖4闡釋與來自冒名頂替的講話者的SV分值相比，來自目標(biāo)講話者的SV分值一般對背景噪聲水平更敏感。這表現(xiàn)在與冒名頂替者的SV分值相比，目標(biāo)講話者的SV分值從25dB到5dB的橫向移動更大。目標(biāo)講話者的SV分值對于背景噪聲具有增大的敏感度，這是因為用于目標(biāo)講話者的訓(xùn)練模型一般在相對安靜或“干凈”的環(huán)境中創(chuàng)建；而來自冒名頂替者的測試語音一般在相對嘈雜的“真實”環(huán)境中創(chuàng)建。
參照圖5，SV系統(tǒng)500的示意圖，其遵照本發(fā)明的實施例，提供針對背景噪聲的改善的魯棒性。系統(tǒng)500包括無明顯可辨話音(unvoiced)與有明顯可辨話音(voiced)(U/V)語音分類器505，其對語音輸入信號進(jìn)行分類。三個語言模型可操作地連接到U/V分類器505通用背景語音模型(UBM)515、干凈目標(biāo)語音模型(CTM)510、與嘈雜目標(biāo)語音模型(NTM)520。U/V分類器505將輸入語音信號幀分類為三個分量靜音、干凈的有明顯可辨話音語音、與嘈雜的無明顯可辨話音語音。使用來自輸入訓(xùn)練語音的干凈的有明顯可辨話音語音從UBM 515生成CTM 510，其從而僅包括一或多個特定講話者的信息。這樣，可將CTM 510定義為使用來自相對安靜的背景環(huán)境的有明顯可辨話音語音分量從UBM 515生成或適配的任意目標(biāo)語音模型。使用來自真實環(huán)境的測試語音發(fā)音的靜音與嘈雜的無明顯可辨話音語音分量從CTM 510生成NTM 520。這樣，NTM 520包括關(guān)于特定講話者與關(guān)于背景噪聲環(huán)境兩者的信息。因此，可將NTM 520定義為使用來自相對嘈雜的背景環(huán)境的無明顯可辨話音語音分量從UBM 515生成或適配的任意目標(biāo)語音模型。
這樣，系統(tǒng)500包括兩個子系統(tǒng)包括U/V分類器505、UBM 515與CTM 510的基線系統(tǒng)以及包括NTM 520的環(huán)境適配系統(tǒng)。在U/V分類器505接收輸入訓(xùn)練語音信號之后，系統(tǒng)500進(jìn)行登記過程，其中從輸入訓(xùn)練語音信號的干凈有明顯可辨話音分量525，并使用，比如說，貝葉斯(Bayesian)或最大后驗概率(MAP)適配方法從UBM 515，生成CTM 510。
U/V分類器505還接收輸入測試語音信號，其隨后輸出嘈雜的無明顯可辨話音語音分量。在上述登記過程之后，進(jìn)一步的適配過程其后從嘈雜的無明顯可辨話音語音分量530生成NTM 520。
本領(lǐng)域技術(shù)人員將意識到本發(fā)明的實施例的成本效率。例如，盡管系統(tǒng)500包括三個語音模型，CTM 510與NTM 520均直接地或間接地從UBM 515生成。這樣，在一個UBM 515包括128個原始高斯語音模型的特定實施例中，每幀僅需計算五個額外的高斯語音模型，以生成CTM 510與NTM 520兩者。這樣，相對于系統(tǒng)500相對于現(xiàn)有技術(shù)改善的噪聲魯棒性而言，額外的計算成本是微不足道的。
在生成CTM 510與NTM 520之后，輸入測試語音信號的分量由CTM 510、UBM 515、與NTM 520中的每一個進(jìn)行處理。如圖5所示，遵照本發(fā)明的一個實施例，計算輸入測試語音信號的初始CTM匹配分值，并以來自UBM的匹配分值輸出對其進(jìn)行歸一化，以創(chuàng)建第一初步匹配分值(分值1)。還計算輸入測試語音信號的初始NTM匹配分值，并以來自UBM的匹配分值輸出對其進(jìn)行歸一化，以創(chuàng)建第二初步匹配分值(分值2)。歸一化過程可包括各種技術(shù)，例如簡單地減去UBM匹配分值。其后，使用第一與第二初步匹配分值來確定最終匹配分值。例如，最終匹配分值可等于第一與第二初步匹配分值之和。
示例下面是錯誤削減的實驗結(jié)果，其遵照使用來自各種背景環(huán)境的輸入測試語音信號的本發(fā)明的實施例產(chǎn)生。背景環(huán)境包括多路串?dāng)_噪聲(表1)、機(jī)場噪聲(表2)、列車車廂噪聲(表3)、街道噪聲(表4)、餐館噪聲(表5)、以及列車車站噪聲(表6)。使用稱為Polycost的電話語音數(shù)據(jù)庫作為輸入語音信號。Polycost數(shù)據(jù)庫是一個大型混合語音語料庫，其涉及超過100個講話者，包括外國人說的英語。數(shù)據(jù)庫主要包括數(shù)字，以及一些自由語音，其收集自國際電話線路，并且每一講話者包括超過八段會話。不同的背景環(huán)境表示一段范圍的SNR。參數(shù)包括36維mel-頻率倒譜系數(shù)(MFCC)(例如，12MFCC+12ΔMFCC+12ΔΔMFCC)。講話者模型適配自具有128個高斯語音模型、3份發(fā)音(utterance)的UBM。
表1錯誤削減—多路串?dāng)_噪聲

表2錯誤削減—機(jī)場噪聲

表3錯誤削減—列車車廂噪聲

表4錯誤削減—街道噪聲

表5錯誤削減—餐館噪聲

表6錯誤削減—列車車站噪聲

上面呈現(xiàn)的實驗數(shù)據(jù)闡述遵照本發(fā)明的講話者驗證方法與系統(tǒng)顯著地改善了寬廣范圍的嘈雜環(huán)境下的講話者驗證性能。錯誤削減范圍在餐館背景噪聲下的3.5％到列車車廂背景噪聲下的42.13％之間。平均EER削減是大約22％。
總之，參照圖6，闡釋遵照本發(fā)明的實施例的講話者驗證方法600的一般流程圖。首先，在步驟605，無明顯可辨話音與有明顯可辨話音(U/V)語音分類器505對輸入訓(xùn)練語音信號進(jìn)行分類，以輸出干凈的有明顯可辨話音語音分量，并對輸入測試語音信號進(jìn)行分類，以輸出嘈雜的無明顯可辨話音語音分量。接著，在步驟610，使用訓(xùn)練語音的干凈的有明顯可辨話音語音分量從UBM 515生成CTM 510。在步驟615，使用測試語音的嘈雜的無明顯可辨話音語音分量從CTM510生成NTM 520。在步驟620，為輸入測試語音信號的話音語音分量計算初始CTM匹配分值，并以來自UBM 515的匹配分值輸出對其進(jìn)行歸一化，以創(chuàng)建第一初步匹配分值。其后，在步驟625，為輸入測試語音信號的話音語音分量計算初始NTM匹配分值，并以來自UBM515的匹配分值輸出對其進(jìn)行歸一化，以創(chuàng)建第二初步匹配分值。最后，在步驟630，使用第一與第二初步匹配分值確定最終匹配分值。
這樣，本發(fā)明的優(yōu)點(diǎn)包括更魯棒的講話者驗證系統(tǒng)500與方法600，其對于背景噪聲較不敏感。進(jìn)一步地，本發(fā)明在計算上是高成本效率的，這是因為盡管使用至少三個模型510、515、520，CTM 510與NTM 515系從UBM 515導(dǎo)出，因此僅計算相對小數(shù)目的額外的高斯語音模型。
上面的細(xì)節(jié)描述僅提供示例性實施例，而無意限制本發(fā)明的范圍、適用性、或配置。相反地，示例性實施例的詳細(xì)描述向本領(lǐng)域技術(shù)人員提供這樣的描述，其允許他們實現(xiàn)本發(fā)明的示例性實施例。需要理解的是，可在組件與步驟的功能與排列中進(jìn)行各種變化，而不偏離如所附權(quán)利要求書所述的本發(fā)明的實質(zhì)與范圍。本領(lǐng)域技術(shù)人員將意識到，這里描述的本發(fā)明的實施例可包括一或多個傳統(tǒng)處理器以及獨(dú)特的存儲的程序指令，其控制所述一或多個處理器連同特定的非處理器電路實現(xiàn)講話者驗證的一些、大部分、或全部功能，如這里所描述的那樣。非處理器電路可包括，但不限于，無線接收器、無線發(fā)送器、信號驅(qū)動器、時鐘電路、電源電路、與用戶輸入設(shè)備。同樣地，可將這些功能解釋為進(jìn)行講話者驗證的方法的步驟。作為可供選擇的另一替代方案，可使用沒有存儲的程序指令的狀態(tài)機(jī)實現(xiàn)一些或全部功能，或者在一或多個專用集成電路(ASIC)中(實現(xiàn)一些或全部功能)，其中將每一功能或者特定功能的某些組合作為定制邏輯來實現(xiàn)。當(dāng)然，可使用兩種方法的組合。這樣，這里已描述了這些功能的方法與設(shè)備。進(jìn)一步地，盡管可能需要顯著的努力，以及存在由，比如說，可用時間、當(dāng)前技術(shù)、與經(jīng)濟(jì)考慮等激發(fā)的許多設(shè)計選擇，當(dāng)由這里公開的概念與原則指導(dǎo)時，預(yù)期本領(lǐng)域普通技術(shù)人員將能夠容易地生成這樣的軟件指令與程序與IC，而只需最少的實驗。
在前面的詳述中，已描述本發(fā)明的特定實施例。然而，本領(lǐng)域普通技術(shù)人員意識到，可進(jìn)行各種修改與變動，而不偏離如所附權(quán)利要求書所闡明的本發(fā)明的范圍。相應(yīng)地，說明書與附圖應(yīng)被視為闡釋性的而非限制性的，并且所有這樣的修改均被試圖包括在本發(fā)明的范圍之內(nèi)。好處、優(yōu)點(diǎn)、問題的解決方案，以及任何可引起任何好處、優(yōu)點(diǎn)、或解決方案發(fā)生或變得更加顯著的元素，不應(yīng)被解釋為任何權(quán)利要求的決定性的、必需的、或本質(zhì)性的特性或元素。本發(fā)明僅由所附權(quán)利要求書，包括在本申請的預(yù)決期間進(jìn)行的任何修正，以及權(quán)利要求的所有等價物，來定義。
權(quán)利要求
1.一種用于講話者驗證的方法，其包括使用無明顯可辨話音與有明顯可辨話音(U/V)語音分類器，對輸入訓(xùn)練語音信號進(jìn)行分類，以輸出干凈的有明顯可辨話音的語音分量，并對輸入測試語音信號進(jìn)行分類，以輸出嘈雜的無明顯可辨話音的語音分量；使用所述的干凈的有明顯可辨話音語音分量從通用背景模型(UBM)生成干凈目標(biāo)語音模型(CTM)；使用所述的嘈雜的無明顯可辨話音語音分量從所述CTM生成嘈雜目標(biāo)語音模型(NTM)；為所述輸入測試語音信號計算初始CTM匹配分值，并以來自所述UBM的匹配分值輸出對其進(jìn)行歸一化，以創(chuàng)建第一初步匹配分值；為所述輸入測試語音信號計算初始NTM匹配分值，并以來自所述UBM的匹配分值輸出對其進(jìn)行歸一化，以創(chuàng)建第二初步匹配分值；和使用所述第一與第二初步匹配分值確定最終匹配分值。
2.如權(quán)利要求1所述的方法，其中，所述UBM包括超過100個計算的高斯語音模型。
3.如權(quán)利要求2所述的方法，其中，計算不超過五個額外的高斯語音模型以生成所述CTM與所述NTM兩者。
4.如權(quán)利要求1所述的方法，其中，通過減去來自所述UBM的匹配分值輸出來對所述初始CTM匹配分值進(jìn)行歸一化，以創(chuàng)建所述第一初步匹配分值。
5.如權(quán)利要求1所述的方法，其中，通過減去來自所述UBM的匹配分值輸出來對所述初始NTM匹配分值進(jìn)行歸一化，以創(chuàng)建所述第二初步匹配分值。
6.如權(quán)利要求1所述的方法，其中，從所述CTM生成所述NTM還使用來自所述U/V語音分類器的靜音分量輸出，以定義背景噪聲水平。
7.如權(quán)利要求1所述的方法，其中，所述最終匹配分值是所述第一與第二初步匹配分值之和。
8.如權(quán)利要求1所述的方法，其中，所述U/V語音分類器將語音信號分類為三種分量靜音、有明顯可辨話音語音、和無明顯可辨話音語音。
9.如權(quán)利要求1所述的方法，其中，使用最大后驗概率(MAP)適配方法生成所述CTM與所述NTM兩者。
10.一種用于講話者驗證的系統(tǒng)，包括無明顯可辨話音與有明顯可辨話音(U/V)語音分類器，其接收輸入訓(xùn)練語音信號，以輸出干凈的有明顯可辨話音語音分量，并接收輸入測試語音信號，以輸出嘈雜的無明顯可辨話音語音分量；通用背景模型(UBM)，其可操作地連接到所述U/V語音分類器；干凈目標(biāo)語音模型(CTM)，其可操作地連接到所述U/V語音分類器與所述UBM，且其被使用所述的干凈的有明顯可辨話音語音分量從所述UBM生成；嘈雜目標(biāo)語音模型(NTM)，其可操作地連接到所述U/V分類器、所述UBM與所述CTM，且其被使用所述的嘈雜的無明顯可辨話音語音分量從所述CTM生成；其中，為所述輸入測試語音信號計算初始CTM匹配分值，并以來自所述UBM的匹配分值輸出對其進(jìn)行歸一化，以創(chuàng)建第一初步匹配分值，為所述輸入測試語音信號計算初始NTM匹配分值，并以來自所述UBM的匹配分值輸出對其進(jìn)行歸一化，以創(chuàng)建第二初步匹配分值，以及使用所述第一與第二初步匹配分值確定最終匹配分值。
11.如權(quán)利要求10所述的系統(tǒng)，其中，所述UBM包括超過100個計算的高斯語音模型。
12.如權(quán)利要求11所述的系統(tǒng)，其中，計算不超過五個額外的高斯語音模型以生成所述CTM與所述NTM兩者。
13.如權(quán)利要求10所述的系統(tǒng)，其中，通過減去來自所述UBM的匹配分值輸出來對所述初始CTM匹配分值進(jìn)行歸一化，以創(chuàng)建所述第一初步匹配分值。
14.如權(quán)利要求10所述的系統(tǒng)，其中，通過減去來自所述UBM的匹配分值輸出來對所述初始NTM匹配分值進(jìn)行歸一化，以創(chuàng)建所述第二初步匹配分值。
15.如權(quán)利要求10所述的系統(tǒng)，其中，從所述CTM生成所述NTM還使用來自所述U/V語音分類器的靜音分量輸出，以定義背景噪聲水平。
16.如權(quán)利要求10所述的系統(tǒng)，其中，所述最終匹配分值是所述第一與第二初步匹配分值之和。
17.如權(quán)利要求10所述的系統(tǒng)，其中，所述U/V語音分類器將語音信號分類為三種分量靜音、有明顯可辨話音語音、和無明顯可辨話音語音。
18.如權(quán)利要求10所述的系統(tǒng)，其中，使用最大后驗概率(MAP)適配方法生成所述CTM與所述NTM兩者。
全文摘要
一種用于講話者驗證的方法與系統(tǒng)，對于驗證諸如講話者的身份等講話者屬性是有用的。在無明顯可辨話音與有明顯可辨話音(U/V)語音分類器中對輸入訓(xùn)練語音信號進(jìn)行分類，以輸出干凈的V語音分量，并對輸入測試語音信號進(jìn)行分類，以輸出嘈雜的U語音分量(605)。使用干凈的V語音分量從通用背景模型(UBM)生成干凈目標(biāo)模型(CTM)(610)。使用嘈雜的U語音分量從CTM生成嘈雜目標(biāo)模型(NTM)(615)。計算初始CTM匹配分值，以來自UBM的匹配分值輸出對其進(jìn)行歸一化，創(chuàng)建第一初步匹配分值(620)。計算初始NTM匹配分值，以來自UBM的匹配分值輸出對其進(jìn)行歸一化，創(chuàng)建第二初步匹配分值(625)。使用第一與第二初步匹配分值確定最終匹配分值(630)。
文檔編號G10L17/00GK1924998SQ200510097649
公開日2007年3月7日申請日期2005年8月29日優(yōu)先權(quán)日2005年8月29日
發(fā)明者黃偉, 韓兆兵, 張亞昕申請人:摩托羅拉公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：黃偉;韓兆兵;張亞昕
技術(shù)所有人：摩托羅拉公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

用于講話者驗證的方法與系統(tǒng)的制作方法