專利名稱:基于事先知識(shí)的說(shuō)話者檢驗(yàn)及說(shuō)話者識(shí)別系統(tǒng)和方法
技術(shù)領(lǐng)域:
本發(fā)明一般地涉及語(yǔ)音技術(shù),并且尤其涉及一種用于執(zhí)行說(shuō)話者檢驗(yàn)和說(shuō)話者識(shí)別的系統(tǒng)和方法。
背景技術(shù):
數(shù)百萬(wàn)人通過(guò)電話實(shí)施秘密的金融事務(wù)處理,例如訪問(wèn)他們的銀行帳戶或使用他們的信用卡,鑒定問(wèn)題位于幾乎每個(gè)事務(wù)處理的核心部分。在現(xiàn)行實(shí)踐下的鑒定是不可靠的。該用戶交換某些形式的假定秘密信息,例如社會(huì)保險(xiǎn)編號(hào),母親的少女時(shí)期的姓名或者類似的。顯然,這種信息能被盜用,導(dǎo)致錯(cuò)誤的鑒定。
本發(fā)明的一個(gè)方面通過(guò)提供一種用于執(zhí)行說(shuō)話者檢驗(yàn)的系統(tǒng)和方法處理上述的問(wèn)題。說(shuō)話者檢驗(yàn)包括判斷一個(gè)給出的聲音是否屬于一個(gè)確定的說(shuō)話者(在這里稱為“客戶”)或?qū)儆谝粋€(gè)冒充者(除了客戶的任何人)。
與說(shuō)話者檢驗(yàn)問(wèn)題緊密相關(guān)的是說(shuō)話者識(shí)別問(wèn)題。說(shuō)話者識(shí)別包括使一個(gè)給出的聲音與一系列已知聲音中的一個(gè)相符。象說(shuō)話者檢驗(yàn)一樣,說(shuō)話者識(shí)別有許多有吸引力的應(yīng)用。例如,一個(gè)說(shuō)話者識(shí)別系統(tǒng)可以被用于通過(guò)一系列說(shuō)話者中的說(shuō)話者把聲音郵件分類,這些說(shuō)話者的聲音抽樣是可利用的。這種性能允許一個(gè)計(jì)算機(jī)執(zhí)行的電話系統(tǒng)在一個(gè)計(jì)算機(jī)屏幕上顯示在該聲音郵件系統(tǒng)上留有消息的呼叫者的標(biāo)識(shí)。
雖然用于說(shuō)話者檢驗(yàn)和說(shuō)話者識(shí)別的應(yīng)用實(shí)際上是無(wú)窮的,執(zhí)行這兩個(gè)任務(wù)的解決方案迄今為止被證明是難以捉摸的。識(shí)別人的語(yǔ)音和從其他的說(shuō)話者中特別地鑒別該說(shuō)話者是一個(gè)復(fù)雜的問(wèn)題。由于人的語(yǔ)音產(chǎn)生的方式,很少有人以相同的方式講即使一個(gè)簡(jiǎn)單的單詞兩次。
人的語(yǔ)音是空氣在壓力下從肺沖擊聲帶,并通過(guò)聲門調(diào)整以產(chǎn)生聲波,接著在由舌頭、上顎、牙齒和嘴唇清晰發(fā)音之前在口腔和鼻腔內(nèi)共鳴的產(chǎn)物。許多因素影響這些聲音產(chǎn)生機(jī)制互相運(yùn)行的方式。例如,普通的感冒大大地改變鼻腔的共鳴以及聲帶的聲調(diào)質(zhì)量。
特定的復(fù)雜性和易變性伴隨著人產(chǎn)生語(yǔ)音的過(guò)程,說(shuō)話者檢驗(yàn)和說(shuō)話者識(shí)別不能容易地通過(guò)比較一個(gè)新的語(yǔ)音與預(yù)先存儲(chǔ)的語(yǔ)音抽樣來(lái)實(shí)現(xiàn)。為了拒絕冒充者,采用一個(gè)高相似性的閾值,當(dāng)他或她患感冒時(shí)可能拒絕真正的說(shuō)話者。另一方面,采用一個(gè)低相似性的閾值能夠使該系統(tǒng)傾向錯(cuò)誤的檢驗(yàn)。
發(fā)明內(nèi)容
本發(fā)明利用一個(gè)以模型為基礎(chǔ)的分析法實(shí)現(xiàn)說(shuō)話者檢驗(yàn)和說(shuō)話者識(shí)別。模型被構(gòu)成并依據(jù)已知的客戶說(shuō)話者的語(yǔ)音(或者在說(shuō)話者檢驗(yàn)的情況下同樣依據(jù)一個(gè)或多個(gè)冒充者的語(yǔ)音)被訓(xùn)練。這些說(shuō)話者模型典型地采用多種參數(shù)(例如隱藏馬可夫模型或GMM參數(shù))。不直接使用這些參數(shù),而把這些參數(shù)連在一起以形成超矢量。每個(gè)發(fā)言者有一個(gè)超矢量,這些超矢量表示全體發(fā)言者的全部訓(xùn)練數(shù)據(jù)。
在這些超矢量執(zhí)行一個(gè)線性變換導(dǎo)致維數(shù)減少,由此產(chǎn)生一個(gè)低維數(shù)空間我們稱之為本征空間。本征空間的這系列矢量我們稱之為“本征聲音”矢量或“本征矢量”。如果希望,通過(guò)放棄一些本征矢量項(xiàng)該本征空間能進(jìn)一步減少維度。
其次,包括訓(xùn)練數(shù)據(jù)的每個(gè)說(shuō)話者被表示在本征空間,不是作為本征空間中的一個(gè)點(diǎn)就是作為本征空間中的概率分布。因?yàn)檎J(rèn)為每個(gè)說(shuō)話者沒(méi)有相對(duì)變化,前者具有低精確度。后者反映每個(gè)說(shuō)話者的語(yǔ)音從語(yǔ)調(diào)到語(yǔ)調(diào)的變化。
在本征空間上表示用于每個(gè)說(shuō)話者的訓(xùn)練數(shù)據(jù)后,該系統(tǒng)能被用于執(zhí)行說(shuō)話者檢驗(yàn)和說(shuō)話者識(shí)別。
新的語(yǔ)音數(shù)據(jù)被獲得并被用于構(gòu)成一個(gè)超矢量,減小其維度并表示在本征空間中。估計(jì)本征空間中新的語(yǔ)音數(shù)據(jù)和現(xiàn)有數(shù)據(jù)的接近度,說(shuō)話者檢驗(yàn)和說(shuō)話者識(shí)別被執(zhí)行。如果在本征空間中從該說(shuō)話者來(lái)的新的語(yǔ)音所對(duì)應(yīng)的點(diǎn)或分布是在一個(gè)和用于客戶說(shuō)話者的訓(xùn)練數(shù)據(jù)的閾值接近度之內(nèi),該從說(shuō)話者來(lái)的新的語(yǔ)音被檢驗(yàn)。如果該新的語(yǔ)音在放置在本征空間中的時(shí)候落于靠近一個(gè)冒充者的語(yǔ)音,該系統(tǒng)可能作為真正的冒充者拒絕該新的語(yǔ)音。
說(shuō)話者識(shí)別用相似的方式執(zhí)行。新的語(yǔ)音數(shù)據(jù)被放置在本征空間中并識(shí)別受過(guò)訓(xùn)練的說(shuō)話者,其用于分布的本征矢量點(diǎn)是最接近的。
估計(jì)本征空間中新的語(yǔ)音數(shù)據(jù)和訓(xùn)練數(shù)據(jù)之間的接近度有許多優(yōu)點(diǎn)。首先,該本征空間用簡(jiǎn)單的、低維度方式、每個(gè)完整的說(shuō)話者而不僅僅選擇每個(gè)說(shuō)話者的幾個(gè)特征來(lái)表示。在本征空間中執(zhí)行的接近度比較能被相當(dāng)快速地完成,因?yàn)閷?duì)于在本征空間中的的維度通常的遠(yuǎn)遠(yuǎn)少于原始說(shuō)話者模型空間中的或特征矢量空間中的維度。同樣,該系統(tǒng)不需要包括每個(gè)被用于構(gòu)成原始訓(xùn)練數(shù)據(jù)的樣本或說(shuō)法的新的語(yǔ)音數(shù)據(jù)。通過(guò)在這里描述的技術(shù),因?yàn)橐恍┏噶康姆至渴侨鄙俚?,在一個(gè)超矢量上執(zhí)行維度減少是可能的。結(jié)果本征空間中用于分布的點(diǎn)仍然將特別好的代表說(shuō)話者。
為了更完整的理解本發(fā)明,參照下面說(shuō)明和附圖描述其目的和優(yōu)點(diǎn)。
圖1闡明一個(gè)典型的隱藏型馬可夫模型(HMM),有助于理解本發(fā)明;圖2是一個(gè)流程圖示出了本征空間構(gòu)成實(shí)施說(shuō)話者識(shí)別的系統(tǒng)的方式,這里已知的客戶說(shuō)話者由本征空間中的點(diǎn)表示;圖3是一個(gè)流程圖闡明了本征空間構(gòu)成實(shí)施說(shuō)話者識(shí)別的系統(tǒng)的方式,這里客戶說(shuō)話者和潛在的冒充者由本征空間中的分布表示;圖4是一個(gè)流程圖闡明了在訓(xùn)練期間利用本征空間開發(fā)執(zhí)行說(shuō)話者識(shí)別或說(shuō)話者檢驗(yàn)的過(guò)程;圖5是一個(gè)執(zhí)行最大概似法技術(shù)的舉例說(shuō)明;圖6是一個(gè)數(shù)據(jù)結(jié)構(gòu)圖闡明了如何從基于最大概似法運(yùn)算放入本征空間的一個(gè)說(shuō)話者觀測(cè)數(shù)據(jù);圖7闡明了一個(gè)典型的高斯混合模型(GMM),有助于理解本發(fā)明;圖8是一個(gè)流程圖示出了從被用于產(chǎn)生隨機(jī)語(yǔ)音模型的本征空間的點(diǎn)的方式;圖9是一個(gè)流程圖闡明了利用從說(shuō)話者空間產(chǎn)生的語(yǔ)音模型執(zhí)行識(shí)別或說(shuō)話者檢驗(yàn)的過(guò)程;圖10是一個(gè)流程圖示出了一種近似法以基于口語(yǔ)字之間的平均間隔登記說(shuō)話者到請(qǐng)求附加語(yǔ)音;和圖11是一個(gè)流程圖示出了另一種近似法以基于說(shuō)話者空間內(nèi)的總密度登記說(shuō)話者到請(qǐng)求附加語(yǔ)音。
具體實(shí)施例方式
被本發(fā)明采用的該本征聲音技術(shù)將工作于多種不同的語(yǔ)音模型。我們將結(jié)合一個(gè)隱藏馬可夫模型識(shí)別器闡明該優(yōu)選實(shí)施例,因?yàn)樵诂F(xiàn)今的語(yǔ)音識(shí)別技術(shù)中它的普遍性。然而,應(yīng)當(dāng)理解能利用其他類型的基礎(chǔ)模型識(shí)別器實(shí)行本發(fā)明,例如,語(yǔ)音近似性識(shí)別器。
為了更好的理解本發(fā)明的說(shuō)話者識(shí)別和說(shuō)話者檢驗(yàn),一個(gè)語(yǔ)音識(shí)別系統(tǒng)的基本的了解是有幫助的。由于現(xiàn)如今的語(yǔ)音識(shí)別系統(tǒng)最多的采用隱藏馬可夫模型(HMM)表示語(yǔ)音,將在這里描述該HMM技術(shù)以使讀者熟悉該技術(shù)。
該隱藏馬可夫模型是一個(gè)包括狀態(tài)圖表的模型化法。任何語(yǔ)音單元(例如一個(gè)短語(yǔ)、單詞、子字或類似的)能被模型化,所有的知識(shí)資源包括在模型中。該HMM表示一個(gè)未知的過(guò)程,該過(guò)程在不連續(xù)的時(shí)間間隔產(chǎn)生一序列可觀測(cè)的輸出,該輸出由一些有限的字母構(gòu)成(相應(yīng)于預(yù)先確定的一組語(yǔ)音單元)。這些模型被稱為“隱藏的”,因?yàn)樵摖顟B(tài)序列所產(chǎn)生的可觀測(cè)的輸出是不可知的。
如在圖1中闡明的,一個(gè)HMM10由一組狀態(tài)(S1、S2...S5)、矢量和一組概率數(shù)據(jù)舉例說(shuō)明,矢量定義在確定的狀態(tài)對(duì)之間的轉(zhuǎn)換,如圖1中箭頭。特別地,該隱藏馬可夫模型包括一系列與轉(zhuǎn)換矢量結(jié)合的轉(zhuǎn)換概率12和一系列與在每個(gè)狀態(tài)與可觀測(cè)輸出結(jié)合的輸出概率14。該模型被定時(shí)在有規(guī)律地隔開的、不連續(xù)的時(shí)間間隔上從一個(gè)狀態(tài)到另一個(gè)狀態(tài)。在定時(shí)時(shí)間,該模型可以從它的當(dāng)前狀態(tài)改變到存在一個(gè)轉(zhuǎn)換矢量的任何狀態(tài),如舉例說(shuō)明的,一個(gè)轉(zhuǎn)換能從一個(gè)給定狀態(tài)返回到其本身。
該轉(zhuǎn)換概率表示當(dāng)模型被定時(shí)時(shí)將可能發(fā)生的從一個(gè)狀態(tài)到另一個(gè)狀態(tài)的轉(zhuǎn)換。因此,如圖1中闡明的,每個(gè)轉(zhuǎn)換對(duì)應(yīng)于一個(gè)概率值(在0和1之間)。離開任何狀態(tài)的概率的總和等于1。為了舉例說(shuō)明目的,在轉(zhuǎn)換概率表12中給出了典型的轉(zhuǎn)換概率值。應(yīng)當(dāng)理解在一個(gè)運(yùn)行的實(shí)施例中這些值將由訓(xùn)練數(shù)據(jù)產(chǎn)生,其受到離開任何狀態(tài)的概率的總和等于1的約束。
每當(dāng)一個(gè)轉(zhuǎn)換發(fā)生,該模型能被作為發(fā)出或輸出的一個(gè)構(gòu)成它的字母考慮。在圖1中闡明的實(shí)施例中,一個(gè)以語(yǔ)音為基礎(chǔ)的話音單元被假定。在輸出概率表14中被鑒別的符號(hào)對(duì)應(yīng)于標(biāo)準(zhǔn)英語(yǔ)中的一些語(yǔ)音。每次轉(zhuǎn)換時(shí)這些字母中的哪個(gè)發(fā)出取決于訓(xùn)練期間學(xué)習(xí)的輸出概率值或函數(shù)。該發(fā)出的輸出從而表示一個(gè)可觀測(cè)的序列(基于該訓(xùn)練的數(shù)據(jù))和字母的每個(gè)都有可能被發(fā)出。
在模型化語(yǔ)音時(shí),通常將輸出作為一系列連續(xù)的矢量,而不是一系列單獨(dú)字母符號(hào)序列。這需要該輸出概率由連續(xù)的概率函數(shù)表示,而不是單個(gè)的數(shù)值。因此HMM被經(jīng)?;诎ㄒ粋€(gè)或多個(gè)高斯分布的概率函數(shù)實(shí)施。當(dāng)多個(gè)高斯函數(shù)被使用時(shí),如在16說(shuō)明的,它們被通常的相加地混合在一起以定義一個(gè)復(fù)雜的概率分布。
無(wú)論以一個(gè)簡(jiǎn)單的高斯函數(shù)或一個(gè)高斯函數(shù)的混合表示,該概率分布能由多個(gè)參數(shù)描述。象轉(zhuǎn)換概率值(表12)一樣,這些輸出概率參數(shù)可能包括浮點(diǎn)數(shù)量。參數(shù)表18基于從受過(guò)訓(xùn)練的說(shuō)話者的觀測(cè)數(shù)據(jù)鑒別通常的用于表示概率密度函數(shù)(pdf)的參數(shù)。如圖1中在高斯函數(shù)16的等式所說(shuō)明的,對(duì)于一個(gè)被模擬的可觀測(cè)的矢量0該概率密度函數(shù)是對(duì)于每個(gè)混合的組成部分乘以該高斯密度n的混合系數(shù)的迭代和,這里該高斯密度有一個(gè)平均矢量uj和從該倒頻譜(cepstral)或?yàn)V波器組系數(shù)語(yǔ)音參數(shù)計(jì)算的協(xié)方差矩陣Uj。
一個(gè)隱藏馬可夫模型的詳細(xì)執(zhí)行可以從一個(gè)應(yīng)用到另一個(gè)應(yīng)用大大地改變。在圖1中的HMM例子僅僅想要闡明隱藏馬可夫模型的構(gòu)成方式,而不想在本發(fā)明的范圍上作為限制。在這點(diǎn)上,在隱藏馬可夫模型概念上有許多變化。從下面的描述中可以作更全面地了解,本發(fā)明的本征聲音適應(yīng)技術(shù)能夠容易地用于每個(gè)隱藏馬可夫模型,以及以其他基于參數(shù)的語(yǔ)音模擬系統(tǒng)。
圖2和圖3分別地舉例說(shuō)明了利用本發(fā)明的技術(shù)可以執(zhí)行的說(shuō)話者識(shí)別和說(shuō)話者檢驗(yàn)。作為在執(zhí)行說(shuō)話者識(shí)別或說(shuō)話者檢驗(yàn)的第一步驟,一個(gè)本征空間被構(gòu)成。該特殊的本征空間依據(jù)應(yīng)用構(gòu)成。在圖2中舉例說(shuō)明,在說(shuō)話者識(shí)別的情況下,一系列已知的客戶說(shuō)話者20被用于提供訓(xùn)練數(shù)據(jù)22,在此基礎(chǔ)上建立本征空間??梢赃x擇的,對(duì)于圖3中所示的說(shuō)話者檢驗(yàn),該訓(xùn)練數(shù)據(jù)22被從對(duì)于所希望檢驗(yàn)的客戶說(shuō)話者或說(shuō)話者們21a和從一個(gè)或多個(gè)可能的冒充者21b提供。除訓(xùn)練數(shù)據(jù)源的區(qū)別之外,對(duì)于說(shuō)話者識(shí)別和說(shuō)話者檢驗(yàn)應(yīng)用二者在產(chǎn)生本征空間的程序上本質(zhì)上是相同的。因此,圖2和圖3采用相似的標(biāo)記。
參考圖2和圖3,通過(guò)為表示在訓(xùn)練數(shù)據(jù)22中的每個(gè)說(shuō)話者開發(fā)和訓(xùn)練模型構(gòu)成本征空間。這個(gè)步驟在24被說(shuō)明并為每一個(gè)說(shuō)話者產(chǎn)生一系列模型26。盡管在這里舉例說(shuō)明了隱藏馬可夫模型,本發(fā)明并不被限制于隱藏馬可夫模型。相反地,可以使用任何具有適合于并置的參數(shù)的任何語(yǔ)音模型。最好地,該被訓(xùn)練的模型26具有充分的訓(xùn)練數(shù)據(jù)以便對(duì)于每個(gè)說(shuō)話者由模型定義所有的聲音單元都被至少一個(gè)實(shí)際的語(yǔ)音的例子訓(xùn)練。雖然在圖2和圖3中沒(méi)有明確的說(shuō)明,該模型訓(xùn)練步驟24能夠包括適當(dāng)?shù)妮o助說(shuō)話者適應(yīng)性處理以改進(jìn)該模型。這種輔助處理的例子包括最大后驗(yàn)估算(MAP)或其他以變換為基礎(chǔ)的方法,例如最大似然線性回歸(MLLR)。建立該說(shuō)話者模型26的目的是準(zhǔn)確地表示該訓(xùn)練數(shù)據(jù)主體,因?yàn)檫@個(gè)主體被用于定義本征空間的邊界和范圍,每個(gè)受過(guò)訓(xùn)練的說(shuō)話者被放置在該空間,并根據(jù)該空間測(cè)試每個(gè)新語(yǔ)音語(yǔ)調(diào)。
在構(gòu)成該模型26后,在步驟28適合于每個(gè)說(shuō)話者的該模型被用于構(gòu)成一個(gè)超矢量。如標(biāo)記30所示,該超矢量可以通過(guò)連結(jié)每個(gè)說(shuō)話者的模型的參數(shù)構(gòu)成。當(dāng)使用隱藏馬可夫模型時(shí),每個(gè)說(shuō)話者的超矢量可以包括一個(gè)有序的參數(shù)列表(典型的浮點(diǎn)數(shù)量),該參數(shù)列表與至少一部分那個(gè)說(shuō)話者的隱藏馬可夫模型的參數(shù)相一致。與每個(gè)聲音單元相一致的參數(shù)被包括在適合一個(gè)給定說(shuō)話者的超矢量中。該參數(shù)可以用任何方便的順序組織。該順序不是關(guān)鍵性的,但是,一旦一個(gè)順序被采用,對(duì)于所有的受過(guò)訓(xùn)練的說(shuō)話者必須遵守。
用于構(gòu)成該超矢量的模型參數(shù)的選擇基于計(jì)算機(jī)系統(tǒng)的有效處理能力進(jìn)行。當(dāng)使用隱藏馬可夫模型參數(shù)時(shí),我們通過(guò)從高斯方法構(gòu)成超矢量達(dá)到好的效果。如果較高的處理能力是可利用的,該超矢量同樣可以包括其它參數(shù),例如,轉(zhuǎn)換概率(圖1,表12)或協(xié)方差矩陣參數(shù)(圖1,參數(shù)18)。如果該隱藏馬可夫模型產(chǎn)生離散的輸出(與概率密度相反),則這些輸出值可以被用于組成該超矢量。
在構(gòu)成該超矢量之后,一個(gè)維度降低操作在步驟32被執(zhí)行。維度降低能通過(guò)任何降低該原始的高維度超矢量為基礎(chǔ)矢量的線性變換實(shí)現(xiàn)。一個(gè)非窮舉的例子的列表包括首要成份分析(PCA)、獨(dú)立成份分析(ICA)、線性鑒別分析(LDA)、系數(shù)分析(FA)、和單一值分解(SVD)。
更特別地,可用于實(shí)施本發(fā)明的維度降低技術(shù)定義如下。假定一系列T訓(xùn)練超矢量從適合于語(yǔ)音識(shí)別的依賴于說(shuō)話者的模型獲得。讓這些超矢量的每一個(gè)有維度V;因此,我們能把每個(gè)超矢量表示為X=[x1,x2,...,xV]^T(一個(gè)V*1矢量)。假定一個(gè)能被施加到一個(gè)超矢量(例如,施加到維度V的任何矢量)的線性變換M以產(chǎn)生一個(gè)維度為E(E小于或等于訓(xùn)練超矢量的數(shù)量為T)的新的矢量;每個(gè)變換后的矢量可被表示為W=[w1,w2,...,wE]^T。M的參數(shù)的值用某些方式從T個(gè)訓(xùn)練超矢量的序列被計(jì)算。
因此,我們有線性變換W=M*X。M有維度E*V,并且W有維度E*1,這里E<=T;對(duì)于一個(gè)T個(gè)訓(xùn)練的超矢量的特定的序列,M是常數(shù)。幾種維度降低技術(shù)可以被用于從一系列T個(gè)訓(xùn)練超矢量計(jì)算一個(gè)線性變換M以便W有維度E<=T。
這些例子包括首要成份分析、獨(dú)立成份分析、線性鑒別分析、系數(shù)分析、和單一值分解。為了在特殊的情況下發(fā)現(xiàn)這樣的一個(gè)常數(shù)線性變換M,本發(fā)明可以用任何這樣的方法(不僅僅這些列出的)實(shí)施,其中該輸入矢量是起源自依賴于說(shuō)話者的模擬的訓(xùn)練超矢量,并且其中M被用于實(shí)施上述技術(shù)。
在步驟32產(chǎn)生的基礎(chǔ)矢量定義一個(gè)由本征矢量覆蓋的本征空間。維度降低為每一個(gè)受訓(xùn)練的說(shuō)話者產(chǎn)生一個(gè)本征矢量。從而如果有T個(gè)受訓(xùn)練的說(shuō)話者則該維度降低步驟32產(chǎn)生T個(gè)本征矢量。這些本征矢量定義所謂的本征矢量空間或本征空間。
如標(biāo)記34所示組成該本征矢量空間的本征矢量中的每個(gè)本征矢量表示一個(gè)不同的維度,不同的說(shuō)話者的在該維度上可能是有差別的。在原始的訓(xùn)練系列中的每個(gè)本征矢量能由這些本征矢量的一個(gè)線性結(jié)合表示。本征矢量通過(guò)它們?cè)谀P突摂?shù)據(jù)中的重要性排序該第一本征矢量比第二本征矢量更重要,第二本征矢量比第三本征矢量更重要,等等。我們的就這種技術(shù)的實(shí)驗(yàn)至今如止顯示出第一本征矢量看來(lái)對(duì)應(yīng)于男性-女性維度。
雖然在步驟32產(chǎn)生一個(gè)最大為T個(gè)的本征矢量,實(shí)際上,放棄這些本征矢量中的幾個(gè),僅保留最重要的N個(gè)本征矢量是可能的。因此在步驟36我們隨意地抽取T個(gè)本征矢量的N個(gè)以在步驟38組成一個(gè)減少的參數(shù)本征空間。由于它們通常含有對(duì)于在說(shuō)話者中的鑒別不太重要的信息,該更高次序的本征矢量能被放棄。當(dāng)構(gòu)成受到內(nèi)存或處理器資源限制的特殊系統(tǒng)時(shí),降低該本征聲音空間至少于受訓(xùn)練的說(shuō)話者的總數(shù)能提供一個(gè)內(nèi)在的數(shù)據(jù)壓縮,這是有幫助的。
在從訓(xùn)練數(shù)據(jù)產(chǎn)生本征矢量之后,訓(xùn)練數(shù)據(jù)中的每個(gè)說(shuō)話者被表示在本征空間中。在說(shuō)話者識(shí)別的情況下,在步驟40a每個(gè)已知的客戶說(shuō)話者在本征空間中被表示,并且在標(biāo)記42a處予以圖解說(shuō)明。在說(shuō)話者檢驗(yàn)的情況下,客戶說(shuō)話者和可能的冒充說(shuō)話者被表示在本征空間中,如在步驟40b指示的和在標(biāo)記42b處說(shuō)明的。該說(shuō)話者能作為本征空間的點(diǎn)(如在圖2中42a的圖解說(shuō)明的)或本征空間中的概率分布(如在圖3中42b的圖解說(shuō)明的)被表示在本征空間中。
利用該說(shuō)話者識(shí)別或說(shuō)話者檢驗(yàn)的系統(tǒng)在步驟44試圖進(jìn)行說(shuō)話者識(shí)別或檢驗(yàn)的用戶提供新的語(yǔ)音數(shù)據(jù)并且在步驟46這些數(shù)據(jù)被用于訓(xùn)練一個(gè)依賴于說(shuō)話者模型。接著在步驟50該模型48被使用以構(gòu)成一個(gè)超矢量52。注意該新的語(yǔ)音數(shù)據(jù)沒(méi)有必要包括每個(gè)聲音單元的一個(gè)例子。例如,該新的語(yǔ)音發(fā)音可能太短不能包含所有聲音單元的例子。該系統(tǒng)將處理這種情況,在下面將作更全面地解釋。
在步驟54通過(guò)該超矢量52維度降低被執(zhí)行,如在步驟56指示的和在標(biāo)記58說(shuō)明的導(dǎo)致一個(gè)新的數(shù)據(jù)點(diǎn)被表示在本征空間中。在標(biāo)記58的說(shuō)明中在本征空間中的先前獲得的點(diǎn)(基于受訓(xùn)練的說(shuō)話者)以點(diǎn)表示,而新的語(yǔ)音數(shù)據(jù)點(diǎn)用星號(hào)表示。
放置該新數(shù)據(jù)點(diǎn)在本征空間中后,現(xiàn)在估計(jì)它與受訓(xùn)練的說(shuō)話者對(duì)應(yīng)的其它的現(xiàn)有數(shù)據(jù)點(diǎn)或數(shù)據(jù)分布的接近度。圖4舉例說(shuō)明了一種說(shuō)話者識(shí)別和說(shuō)話者檢驗(yàn)的典型的實(shí)施例。
對(duì)于說(shuō)話者識(shí)別,在步驟62該新的語(yǔ)音數(shù)據(jù)被指定給本征空間中最靠近的受訓(xùn)練的說(shuō)話者,如在標(biāo)記64處圖解說(shuō)明的。該系統(tǒng)將把該新的語(yǔ)音數(shù)據(jù)識(shí)別為在本征空間中其數(shù)據(jù)點(diǎn)或數(shù)據(jù)分布與該新語(yǔ)音數(shù)據(jù)最接近的先前受訓(xùn)說(shuō)話者的語(yǔ)音。
對(duì)于說(shuō)話者檢驗(yàn),該系統(tǒng)在步驟66檢驗(yàn)該新的數(shù)據(jù)點(diǎn)以確定是否它在一個(gè)到本征空間中該客戶說(shuō)話者的預(yù)定閾值接近度之內(nèi)。在步驟68,如果在本征空間中它位于到一個(gè)冒充者比到一個(gè)客戶說(shuō)話者更近,該系統(tǒng)可以作為一個(gè)安全措施,拒絕該新的說(shuō)話者數(shù)據(jù)。這是在標(biāo)記69處圖解說(shuō)明的,其中到客戶說(shuō)話者的接近度和到該最接近的冒充者的接近度被指示。
最大似然本征空間分解(MLED)技術(shù)一種在本征空間內(nèi)放置新的說(shuō)話者的簡(jiǎn)單的技術(shù)是使用一種簡(jiǎn)單的投影操作。一種投影操作搜索本征空間內(nèi)的一個(gè)點(diǎn),該點(diǎn)盡可能地靠近在對(duì)應(yīng)于該新的說(shuō)話者的輸入語(yǔ)音的本征空間外部的點(diǎn)。應(yīng)指出的是,這些點(diǎn)實(shí)際是可從其重構(gòu)一系列HMM的超矢量。
該投影操作是一種相當(dāng)拙劣的技術(shù),其不能保證本征空間內(nèi)的該點(diǎn)對(duì)于該新的說(shuō)話者是最佳的。此外,該投影操作需要對(duì)于該新的說(shuō)話者的超矢量含有一個(gè)完全系列的數(shù)據(jù)以表示對(duì)于那個(gè)說(shuō)話者的HMM的整個(gè)系列。這個(gè)需要引起一個(gè)重要的實(shí)際的局限性。當(dāng)使用投影以約束一個(gè)新的說(shuō)話者到該本征空間時(shí),那個(gè)說(shuō)話者必須提供足夠的輸入語(yǔ)音以便所有的語(yǔ)音單元在該數(shù)據(jù)中被表示。例如,如果隱藏馬可夫模型被設(shè)計(jì)為表示英語(yǔ)中的所有語(yǔ)音,則在簡(jiǎn)單的投影技術(shù)能被使用之前該訓(xùn)練的說(shuō)話者必須提供所有語(yǔ)音的例子。在許多應(yīng)用中,這個(gè)約束是明顯不實(shí)用的。
本發(fā)明的最大似然技術(shù)克服了簡(jiǎn)單的投影的兩個(gè)上面涉及的缺點(diǎn)。本發(fā)明的最大似然技術(shù)搜索本征空間內(nèi)的一個(gè)點(diǎn),該點(diǎn)表示對(duì)應(yīng)于一系列隱藏馬可夫模型的超矢量,該系列隱藏馬可夫模型具有產(chǎn)生該由新的說(shuō)話者提供的語(yǔ)音的最大概率。
簡(jiǎn)單的投影操作以具有相同的重要性處理超矢量的所有分量,而最大似然技術(shù)是基于起自實(shí)際適應(yīng)數(shù)據(jù)的概率并傾向于給更可能的數(shù)據(jù)以更重的權(quán)重。不像簡(jiǎn)單的投影操作,即使新的說(shuō)話者不提供訓(xùn)練數(shù)據(jù)的一個(gè)完整的序列(例如,對(duì)于一些聲音單元的數(shù)據(jù)是缺少的)最大似然技術(shù)仍將工作。實(shí)際上,最大似然技術(shù)考慮了構(gòu)造超矢量的具體情況,即用于構(gòu)造超矢量的隱藏馬可夫模型中的一部分與其他部分相比有產(chǎn)生由新說(shuō)話者提供的語(yǔ)音的更大的可能性。
實(shí)際上,該最大似然技術(shù)將在本征空間內(nèi)選擇與新的說(shuō)話者的語(yǔ)音最一致的超矢量,不管多少輸入語(yǔ)音實(shí)際上可利用。為了舉例說(shuō)明,假定該新的說(shuō)話者是一位亞拉巴馬州本地的年輕女性。通過(guò)接收幾個(gè)從這個(gè)說(shuō)話者發(fā)出的音節(jié),該最大似然技術(shù)將在本征空間內(nèi)選擇一個(gè)點(diǎn),該點(diǎn)表示與這個(gè)說(shuō)話者的亞拉巴馬州本地女性口音一致的所有語(yǔ)音(甚至那些在輸入的話音中沒(méi)有表示的語(yǔ)音)。
圖5示出了該最大似然技術(shù)的工作方式。來(lái)自新的說(shuō)話者的輸入語(yǔ)音被用于構(gòu)成超矢量70。如上面解釋的,該超矢量包括一個(gè)語(yǔ)音參數(shù)的連接列表,對(duì)應(yīng)于倒頻譜系數(shù)或類似的。在該舉例說(shuō)明的實(shí)施例中,這些參數(shù)是浮點(diǎn)數(shù)量,表示從對(duì)應(yīng)于該新的說(shuō)話者的該系列隱藏馬可夫模型抽取出來(lái)的高斯平均值。其它HMM參數(shù)同樣可以被使用。如在72的舉例說(shuō)明中這些HMM平均值被作為點(diǎn)示出。當(dāng)完全地填滿數(shù)據(jù)時(shí),超矢量70將含有適合于每一個(gè)HMM平均值的浮點(diǎn)數(shù)量,對(duì)應(yīng)于每一個(gè)由該HMM模型表示的聲音單元。為了舉例說(shuō)明目的,在這里假定適合于語(yǔ)音“ah”的參數(shù)是存在的而適合于語(yǔ)音“iy”的參數(shù)是缺少的。
該本征空間38由一系列本征矢量74、76和78表示。對(duì)應(yīng)于來(lái)自該新的說(shuō)話者的可觀測(cè)數(shù)據(jù)的超矢量70可以在本征空間中由每個(gè)本征矢量乘以一個(gè)相應(yīng)的本征值表示,本征值命名為W1,W2...Wn。這些本征值最初是未知的。該最大似然技術(shù)搜索適合于這些未知的本征值的值。如將做的全面解釋,通過(guò)尋找在本征空間內(nèi)最好地表示該新的說(shuō)話者的最佳解決方案選擇這些值。
在該本征值與該本征空間38對(duì)應(yīng)的本征矢量相乘并對(duì)產(chǎn)生的結(jié)果求和之后,產(chǎn)生一個(gè)適合的模型80。該輸入語(yǔ)音的超矢量(超矢量70)可能有一些失去的參數(shù)值(例如,該“iy”參數(shù)),而該超矢量80表示全面填充值的適合的模型。這只是本發(fā)明的一個(gè)好處。此外,超矢量80中的值表示該最佳的解決方案,也就是說(shuō)表示本征空間中新的說(shuō)話者的最大似然性。
各本征值W1,W2...Wn可以視為構(gòu)成一個(gè)最大似然性矢量,在這里稱為最大似然性矢量。圖5在82說(shuō)明圖解的矢量。如說(shuō)明所示,最大似然失量82包括這組本征值W1,W2...Wn。
在圖6中示出了利用最大似然性技術(shù)執(zhí)行適應(yīng)性的過(guò)程。來(lái)自一個(gè)新的說(shuō)話者的語(yǔ)音包括可觀測(cè)數(shù)據(jù),如在100指示的被用于構(gòu)成一組HMM。接著如在104指示的這組HMM構(gòu)成一個(gè)超矢量。如所說(shuō)明的,該超矢量106包括一個(gè)從該HMM模型抽取的HMM參數(shù)的連接列表。
利用該超矢量106,在108構(gòu)成一個(gè)既率函數(shù)Q。該目前的優(yōu)選實(shí)施例采用一個(gè)概率函數(shù),該函數(shù)表示適合于HMM模型102的預(yù)先定義的組的產(chǎn)生該觀測(cè)到的數(shù)據(jù)的概率。如果概率函數(shù)Q不但包括一個(gè)概率項(xiàng)P而且包括那個(gè)項(xiàng)的對(duì)數(shù)1ogP,該概率函數(shù)Q的隨后的操作被比較容易地進(jìn)行。
接著在步驟110該概率函數(shù)通過(guò)分別對(duì)與每個(gè)本征值W1,W2...Wn的求概率函數(shù)的導(dǎo)數(shù)被最大化。例如,如果該本征空間是維度為100的本征空間,這個(gè)系統(tǒng)計(jì)算該概率函數(shù)Q的100個(gè)導(dǎo)數(shù),設(shè)定每個(gè)為零,并解出相應(yīng)的W。雖然這表面上像是一個(gè)巨大的計(jì)算,它花費(fèi)的計(jì)算遠(yuǎn)遠(yuǎn)少于執(zhí)行成千上萬(wàn)個(gè)常規(guī)的MAP或MLLR技術(shù)通常需要的計(jì)算。
如此獲得的Ws組表示識(shí)別本征空間中對(duì)應(yīng)于最大似然性的點(diǎn)所需要的本征值。因此該組Ws在本征空間中構(gòu)成一個(gè)最大似然性矢量。在這點(diǎn)上,每個(gè)本征矢量(圖5中的本征矢量74、76和78)定義一組正交的矢量或坐標(biāo),本征值與其相乘以定義本征空間內(nèi)的一個(gè)約束點(diǎn)。這個(gè)在112指示的最大似然性矢量被用于構(gòu)成對(duì)應(yīng)于本征空間內(nèi)最佳點(diǎn)(圖4中的點(diǎn)66)的超矢量114。接著超矢量114能被用在步驟116以構(gòu)成新說(shuō)話者的適合的模型118。
在本發(fā)明的最大似然性框架中,我們希望最大化一個(gè)關(guān)于模型λ的觀測(cè)0=o1...oT的似然性。這可以通過(guò)迭代最大化輔助函數(shù)Q(下面的)完成,其中λ是迭代中的當(dāng)前模型和 是估算的模型。我們有Q(λ,λ^)=Σθ∈statseP(O,θ|λ)log[P(O,θ|λ^)]]]>
作為一個(gè)最初的近似值,我們可以執(zhí)行對(duì)于平均值的最大化。在概率P由一組HMMs給出的情況下,我們得到Q(λ,λ^)=const-12P(O|λ)ΣstatesSλinλΣmixtMsgaussinSΣtimeTt{γm(s)(t)[nlog(2π)+log|Cm(s)|+h(ot,m,s)]}]]>這里h(ot,m,s)=(ot-μ^m(s))TCm(s)-1(ot-μ^m(s))]]>并且讓ot是在時(shí)間t的特征矢量Cm(s)-1是狀態(tài)s的混合高斯m的反相協(xié)方差是狀態(tài)s,混合分量m的近似的適合的平均值γm(s)(t) 是P(利用混合高斯m|λ,ot)假定適合于該新的說(shuō)話者的HMM高斯平均值被定位在本征空間中。假設(shè)這個(gè)空間由該平均超矢量μj隨著j=1...E覆蓋。μ‾j=μ‾1(1)(j)μ‾2(1)(j)··μ‾m(s)(j)μ‾Msλ(sλ)(j)]]>其中μm(s)(j)表示該本征矢量(本征模型)j的適合于在狀態(tài)s下的該混合高斯m的平均矢量。
那么我們需要μ^=Σj=1Ewjμ‾j]]>該μj是正交的和該wj是我們的說(shuō)話者模型的本征值。我們假定這里任何新的說(shuō)話者能被模型化為一個(gè)檢測(cè)的說(shuō)話者的數(shù)據(jù)庫(kù)的線性結(jié)合。則μ^m(s)=Σj=1Ewjμ‾m(s)(j)]]>在λ的狀態(tài)用s,在M的混合高斯中用m。
既然我們需要最大化Q,我們只需要設(shè)定∂Q∂we=0,e=1...E,]]>(注意因?yàn)樵摫菊魇噶渴钦坏模?)因此我們有∂Q∂we=0=ΣstatesSλinλΣmixtMsgaussinSΣtimeTt{∂∂weγm(s)(t)h(ot,s)},e=1...E.]]>計(jì)算上面的導(dǎo)數(shù),我們有0=ΣsΣmΣtγm(s)(t){-μ‾m(s)T(e)Cm(s)-1ot+Σj=1Ewjμ‾m(s)T(j)Cm(s)-1μ‾m(s)(e)}]]>由此我們導(dǎo)出這組線性方程式ΣsΣmΣtγm(s)(t)μ‾m(s)T(e)Cm(s)-1ot=ΣsΣmΣtγm(s)(t)Σj=1Ewjμ‾m(s)T(j)Cm(s)-1μ‾m(s)(e),e=1..E.]]>估算本征空間中的接近度當(dāng)在本征空間中以點(diǎn)表示說(shuō)話者時(shí),一種簡(jiǎn)單的幾何距離計(jì)算能被用于識(shí)別最靠近該新的說(shuō)話者的訓(xùn)練數(shù)據(jù)說(shuō)話者。當(dāng)在本征空間中以分布表示說(shuō)話者時(shí),通過(guò)將該新的說(shuō)話者數(shù)據(jù)作為一個(gè)觀察0,并通過(guò)檢測(cè)每個(gè)分布候選者(表示該受訓(xùn)練的說(shuō)話者),以確定該候選者產(chǎn)生該觀測(cè)數(shù)據(jù)的概率來(lái)估算接近度。具有最高概率的候選者被估算為具有最靠近的接近度。在一些高安全性的應(yīng)用中,如果該最高可能性的候選者有一個(gè)低于預(yù)定閾值的概率值,可拒絕檢驗(yàn)。一個(gè)成本函數(shù)可以被用于排除缺少高度必然性的候選者。
如上所述,估算該新的說(shuō)話者到該受訓(xùn)練的說(shuō)話者的接近度可以在本征空間內(nèi)被完整地執(zhí)行??梢赃x擇的,為了較大的準(zhǔn)確度一種貝葉斯估計(jì)技術(shù)能被使用。
利用貝葉斯估計(jì)以提高該接近度估算,本征空間內(nèi)的受訓(xùn)練的說(shuō)話者的高斯密度被乘以在正交補(bǔ)空間中估算的邊界密度,正交補(bǔ)空間表示通過(guò)維度降低刪除的說(shuō)話者數(shù)據(jù)。在這點(diǎn)上,認(rèn)為通過(guò)該說(shuō)話者模擬超矢量執(zhí)行維度降低導(dǎo)致一個(gè)重要的從一個(gè)高維度空間到低維度空間的數(shù)據(jù)壓縮。雖然維度降低保存最重要的基礎(chǔ)矢量,一些較高次序的信息被刪除。該貝葉斯估算技術(shù)估計(jì)一個(gè)對(duì)應(yīng)于這個(gè)刪除的信息的邊界高斯密度。
為了舉例說(shuō)明,假定該原始的本征空間通過(guò)一個(gè)維度降低處理由超矢量的線性變換構(gòu)成,借此從較大數(shù)目N的所有分量中抽取M個(gè)分量。該較少的抽取的M個(gè)分量表示一個(gè)對(duì)應(yīng)于最大的本征值的該基本變換的低維度子空間。因此,該本征空間由i=1...M的分量定義,而刪除的次要的分量對(duì)應(yīng)于i=M+1...N。這兩組分量定義兩個(gè)互不相交的和互補(bǔ)的子空間,該首要的子空間表示重要的本征空間并且其正交分量表示通過(guò)維度降低被刪除的數(shù)據(jù)。
我們能通過(guò)下面的方程式計(jì)算在這兩個(gè)分別的正交空間中的高斯密度的積,作為似然性估計(jì)。P^(x|Ω)=PE(x|Ω)*PE..(x|Ω)]]>在上面的等式中,第一項(xiàng)是本征空間E中的單個(gè)高斯密度和第二項(xiàng)是與該本征空間正交的空間中的單個(gè)高斯分布。這些項(xiàng)能從這組訓(xùn)練數(shù)據(jù)中只利用到本征空間的投影和殘數(shù)被完整地估算。
其他實(shí)施例在前面的例子中,語(yǔ)音被作為隱藏馬可夫模型(HMM)表示。被采用的隱藏馬可夫模型如今在許多語(yǔ)音識(shí)別中普遍使用,并且由此它們能被很好地用于說(shuō)話者檢驗(yàn)和說(shuō)話者識(shí)別目的。然而,本發(fā)明的技術(shù)并不限于隱藏馬可夫模型的使用。例如,一種對(duì)于說(shuō)話者檢驗(yàn)和/或說(shuō)話者識(shí)別的有用的和有效的系統(tǒng)可以利用高斯混合模型(GMM)實(shí)施。高斯混合模型是一種單一狀態(tài)模型,其可以通過(guò)不依賴于文本的或依賴于文本的訓(xùn)練數(shù)據(jù)被訓(xùn)練。比較而言,典型的隱藏馬可夫模型有多于一個(gè)的狀態(tài)并根據(jù)用于訓(xùn)練數(shù)據(jù)的文本作了標(biāo)記的語(yǔ)音數(shù)據(jù)被訓(xùn)練。高斯混合模型可以由此被看作是隱藏馬可夫模型的一種特殊情況,在這里僅有一個(gè)單一的狀態(tài)被使用并且在這里訓(xùn)練數(shù)據(jù)不需要被作標(biāo)記。
高期混合模型(GMM)可以被用于說(shuō)話者識(shí)別和檢驗(yàn)?zāi)康牟⑼ㄟ^(guò)賦值個(gè)別的高斯分量以表示寬的聲音等級(jí)。該等級(jí)可以表示與說(shuō)話者有關(guān)的對(duì)于模擬說(shuō)話者識(shí)別有用的聲域結(jié)構(gòu)。該高斯混合密度提供一個(gè)平滑的近似值到下面的從一個(gè)給出的說(shuō)話者說(shuō)的話獲得的觀察的長(zhǎng)項(xiàng)抽樣分布。參見(jiàn)Reynolds,D.A.,“利用高斯混合說(shuō)話者模型的說(shuō)話者識(shí)別和說(shuō)話者檢驗(yàn)(Speaker Identification AndSpeaker Verification Using Gaussian Mixture Speaker Modules)”,SpeechCommunication,Vol.17,pp.91-108,1995。
一個(gè)高斯混合密度是M個(gè)分量密度的加權(quán)的和并由該等式給出。f(x‾)=Σi=1Mpibi(x‾)]]>這里x是一個(gè)D維矢量,i=1,...,M是分量密度和pi,i=1,...,M是混合加權(quán)。每個(gè)分量密度是一個(gè)D變量高斯函數(shù),bi(x‾)=1(2π)D/2|Σi|1/2e{-12(x‾-μ1b)TΣi-1(x‾-μ1b)}]]>用該平均矢量μ1和協(xié)方差矩陣∑1.該混合的加權(quán)進(jìn)一步滿足 的約束。該全部的GM密度通過(guò)該平均矢量用參數(shù)、協(xié)方差矩陣和來(lái)自所有分量密度的混合加權(quán)表示。λ={pi,μi,∑i},i=1,...,M此外,應(yīng)當(dāng)理解雖然在這里舉例說(shuō)明了HMM和GMM,同樣可以使用其它類型的語(yǔ)音模型。用于這個(gè)目的的最好的模型是那些由數(shù)字表示的(例如,象浮點(diǎn)數(shù)量)以便一個(gè)說(shuō)話者空間能被以數(shù)學(xué)方法定義的模型。為了舉例說(shuō)明目的,在圖7中說(shuō)明一個(gè)GMM模型120。
在前面的例子中,說(shuō)話者空間由一個(gè)本征聲音的線性組合表示。然而,本發(fā)明的技術(shù)并不限于一個(gè)這種類型的說(shuō)話者空間。一般地說(shuō),說(shuō)話者空間是一組衍生自一組受訓(xùn)練的說(shuō)話者的數(shù)學(xué)上的約束并表示一個(gè)新的說(shuō)話者必須滿足的現(xiàn)有知識(shí)。除了基于說(shuō)話者空間的本征聲音之外,其它方法包括(但并不限于)“參考說(shuō)話者加權(quán)”(見(jiàn)Hazen,T.J.,和Glass,J.R.,“用于瞬間說(shuō)話者適應(yīng)性的新技術(shù)的比較”(“A Comparison of Novel Techniques for InstantaneousSpeaker Adaptation”),pp.2047-50,1997)和說(shuō)話者分組(見(jiàn)Kosaka,T.,和Sagayama,S.,“用于快速適應(yīng)性的樹結(jié)構(gòu)說(shuō)話者分組”(“Tree-StructuredSpeaker Clustering for Fast Speaker Adaptation”),ICASSP pp.1-245至1-248,1994)。
圖8舉例說(shuō)明了同樣可以選擇的構(gòu)成該說(shuō)話者空間,在說(shuō)話者空間中表示登記的語(yǔ)音,并確定是否該檢驗(yàn)的說(shuō)話者是客戶說(shuō)話者之一的其他實(shí)施例。在開始時(shí),關(guān)于該說(shuō)話者空間構(gòu)建的一個(gè)重要的考慮涉及受訓(xùn)練的說(shuō)話者122的選擇。雖然客戶說(shuō)話者124能被用于收集該訓(xùn)練的數(shù)據(jù)22,通過(guò)利用一個(gè)第二組個(gè)人作為該訓(xùn)練的說(shuō)話者122能獲得某些優(yōu)點(diǎn)。例如,這種方法允許該受訓(xùn)練的說(shuō)話者122任意地多,并將通常允許更多不同的訓(xùn)練數(shù)據(jù)。例如,付費(fèi)的個(gè)人或志愿者能被預(yù)先的從遠(yuǎn)遠(yuǎn)大于客戶說(shuō)話者群的一個(gè)人群中選擇。該選擇的受訓(xùn)練的說(shuō)話者的人群與由客戶說(shuō)話者124(除了他們說(shuō)話的能力)定義的人群沒(méi)有特殊的關(guān)系。每個(gè)受訓(xùn)練的說(shuō)話者將提供訓(xùn)練語(yǔ)音的相當(dāng)大的抽樣?;谟?xùn)練得相當(dāng)好的語(yǔ)音模型,這將允許一個(gè)更多不同的說(shuō)話者空間的構(gòu)成,并將允許來(lái)自該客戶說(shuō)話者124的數(shù)據(jù)量的大幅度降低。因此,在客戶登記步驟,只需要幾秒自每個(gè)客戶的語(yǔ)音,而不是幾分鐘。這是該說(shuō)話者空間方法的主要優(yōu)點(diǎn)。
步驟132說(shuō)明了訓(xùn)練說(shuō)話者空間的過(guò)程。如上論述的,結(jié)果是一組在126舉例說(shuō)明的GMM語(yǔ)音模型(最好不依賴于文本)或如上面論述的與依賴于文本的語(yǔ)音模型。因此,雖然在這里舉例說(shuō)明了高斯混合模型,本發(fā)明不限于高斯混合模型(或隱藏馬可夫模型,對(duì)于這個(gè)問(wèn)題)。相反地,可以使用任何具有適合于連接的參數(shù)的語(yǔ)音模型。
該語(yǔ)音模型可以進(jìn)一步被微調(diào)或匹配,以考慮在訓(xùn)練期間使用的環(huán)境和隨后用于說(shuō)話者檢驗(yàn)和/或說(shuō)話者識(shí)別期間使用的環(huán)境之間的區(qū)別。通常地,訓(xùn)練數(shù)據(jù)在受控制的狀態(tài)下(已知背景噪音質(zhì)量、標(biāo)準(zhǔn)化的話筒和信號(hào)處理設(shè)備、受控制的話筒布局,等等)被收集。使用中,例如,該系統(tǒng)可以被配置在辦公室環(huán)境中,這里的環(huán)境狀態(tài)與那些訓(xùn)練的環(huán)境完全不同。為了適應(yīng)這種改變,一種環(huán)境適應(yīng)過(guò)程可以被使用以改進(jìn)訓(xùn)練說(shuō)話者模型,使之適應(yīng)于一個(gè)給出的環(huán)境中的特殊用途。為了這個(gè)目的MLLR適配可以被使用。其它已知的適配技術(shù)可以被同樣使用。
在當(dāng)前的優(yōu)選實(shí)施例中,每個(gè)說(shuō)話者的模型被使用以建立一個(gè)超矢量。該超矢量可以通過(guò)并置每個(gè)說(shuō)話者的模型的參數(shù)形成。當(dāng)使用高斯混合模型時(shí),對(duì)于每個(gè)說(shuō)話者用于表示該高斯混合的浮點(diǎn)數(shù)量可以被連接。
在構(gòu)成超矢量之后,一種降低一個(gè)適合于一個(gè)特定說(shuō)話者的語(yǔ)音模型中的自由度的數(shù)量的技術(shù)被應(yīng)用。這種技術(shù)用于受訓(xùn)練的說(shuō)話者數(shù)據(jù)以產(chǎn)生一個(gè)降低的維度的說(shuō)話者空間。雖然任何這樣的技術(shù)能被使用,線性判別式分析(LDA)在這里被示出并被必然的優(yōu)先選用。因此,除該超矢量之外,步驟132使用完全的在說(shuō)話者之內(nèi)的散射矩陣數(shù)據(jù)130。這是值得注意的因?yàn)檫@種類型的數(shù)據(jù)通常不是一個(gè)說(shuō)話者的與說(shuō)話者有關(guān)的模型的一部分。
在例如PCA或LDA的技術(shù)產(chǎn)生一組最初的基礎(chǔ)矢量134后,一個(gè)重新估算說(shuō)話者空間的可選擇的步驟136能被執(zhí)行。在這里,一種例如MLES的技術(shù)可以在空間上旋轉(zhuǎn)基礎(chǔ)矢量134以便該空間中根據(jù)的受訓(xùn)練的說(shuō)話者模型的訓(xùn)練數(shù)據(jù)的似然性被最大化。結(jié)果將是一組改進(jìn)的基礎(chǔ)矢量138。MLES技術(shù)的細(xì)節(jié)在下面給出。
在產(chǎn)生說(shuō)話者空間之后,該系統(tǒng)可以被使用以登記一個(gè)或多個(gè)客戶說(shuō)話者以便與這些客戶說(shuō)話者有關(guān)的說(shuō)話者識(shí)別和/或說(shuō)話者檢驗(yàn)可以被執(zhí)行。在步驟140登記被執(zhí)行,在那里每個(gè)客戶說(shuō)話者被基于一個(gè)登記語(yǔ)音的短的話語(yǔ)表示在說(shuō)話者空間中。如上面論述的,這通過(guò)在來(lái)自客戶說(shuō)話者的登記語(yǔ)音(可能象幾個(gè)單詞一樣少)上訓(xùn)練一個(gè)登記語(yǔ)音模型完成,并且接著通過(guò)MLED或投影放置該客戶說(shuō)話者到該說(shuō)話者空間。如果像預(yù)期的,例如MLLR的說(shuō)話者或環(huán)境適配技術(shù)可以被采用以改進(jìn)一個(gè)或多個(gè)客戶說(shuō)話者的語(yǔ)音模型,或者去重新估算該說(shuō)話者空間以便它更好地模擬該新的環(huán)境(例如,記錄有客戶說(shuō)話者的環(huán)境)。
在這點(diǎn)上,該說(shuō)話者空間的能力可以被更全面地估計(jì)。當(dāng)該客戶說(shuō)話者提供一個(gè)非常短的語(yǔ)音抽樣時(shí),這沒(méi)有足夠的數(shù)據(jù)去構(gòu)成一個(gè)適合于那個(gè)說(shuō)話者的完整的模型。盡管如此,如由MLED程序(或通過(guò)投影)指示的,通過(guò)在它的正確的位置放置部分的模型到說(shuō)話者空間中,該說(shuō)話者空間將詳細(xì)地填充,允許隨后產(chǎn)生一個(gè)適合于那個(gè)說(shuō)話者的完整的模型。
在該說(shuō)話者空間被產(chǎn)生和所有的客戶說(shuō)話者被登記之后,該系統(tǒng)準(zhǔn)備使用。為了在一個(gè)測(cè)試說(shuō)話者上執(zhí)行說(shuō)話者檢驗(yàn)或說(shuō)話者識(shí)別,一個(gè)語(yǔ)音抽樣被從那個(gè)說(shuō)話者獲得并利用登記的說(shuō)話者估算說(shuō)話者空間。在前述的例子中,通過(guò)放置該測(cè)試說(shuō)話者的語(yǔ)音到說(shuō)話者空間執(zhí)行說(shuō)話者識(shí)別和說(shuō)話者檢驗(yàn),以通過(guò)適當(dāng)?shù)木嚯x測(cè)量確定該測(cè)試說(shuō)話者靠近的客戶說(shuō)話者。下面將描述—種替換的技術(shù)。
代替放置測(cè)試說(shuō)話者到說(shuō)話者空間,該替換的技術(shù)擴(kuò)展說(shuō)話者空間內(nèi)的該客戶說(shuō)話者矢量返回到完整的語(yǔ)音模型。上面提到,即使該最初的客戶登記語(yǔ)音非常短(完全可能導(dǎo)致不完全的語(yǔ)音模型)說(shuō)話者空間中的點(diǎn)將產(chǎn)生完整的語(yǔ)音模型。這是因?yàn)樵撛嫉恼f(shuō)話者空間含有大量關(guān)于人類語(yǔ)音特性的現(xiàn)有知識(shí)。換句話說(shuō),僅僅有幾個(gè)來(lái)自一個(gè)客戶說(shuō)話者的被講的單詞就足以放置那個(gè)客戶說(shuō)話者到該說(shuō)話者空間中。在那里一個(gè)完全地和完整地語(yǔ)音模型被推斷。
在該替換的技術(shù)中,說(shuō)話者空間內(nèi)的每個(gè)客戶說(shuō)話者點(diǎn)被用于產(chǎn)生其相應(yīng)的完整的語(yǔ)音模型。接著,面對(duì)著來(lái)自該測(cè)試說(shuō)話者的語(yǔ)音該客戶說(shuō)話者模型的每一個(gè)被估算。為了說(shuō)話者識(shí)別和/或說(shuō)話者檢驗(yàn)?zāi)康?,具有產(chǎn)生該測(cè)試語(yǔ)音的最高概率的客戶模型被使用。
在圖8中步驟144示出了說(shuō)話者空間矢量中的該客戶說(shuō)話者的位置的擴(kuò)展返回到語(yǔ)音模型中。特別地,該對(duì)應(yīng)的完整的語(yǔ)音模型146從說(shuō)話者空間142中它們的位置被產(chǎn)生。這些模型被用于隨后的說(shuō)話者檢驗(yàn)和/或說(shuō)話者識(shí)別。這些模型的每一個(gè)面對(duì)著由一個(gè)測(cè)試說(shuō)話者(系統(tǒng)的用戶)提供的測(cè)試語(yǔ)音被測(cè)試。為了隨后的說(shuō)話者檢驗(yàn)和說(shuō)話者識(shí)別目的,具有產(chǎn)生該測(cè)試語(yǔ)音的最高的概率的模型被使用。圖9圖解地說(shuō)明了說(shuō)話者模型被用于估算該測(cè)試語(yǔ)音的過(guò)程。在步驟148由測(cè)試的說(shuō)話者提供的語(yǔ)音數(shù)據(jù)150被提交到作為一個(gè)似然性分析一部分的概然客戶說(shuō)話者模型146。每個(gè)測(cè)試的說(shuō)話者被指定到那個(gè)得到產(chǎn)生他的或她的語(yǔ)音的最高的似然性的客戶;可選擇地,該測(cè)試的說(shuō)話者可以被歸為一個(gè)冒充者。因此,最后的估算不是發(fā)生在說(shuō)話者空間而是在模型空間中。
同樣值得注意的是該說(shuō)話者空間可在客戶登記期間隨著新的語(yǔ)音的獲得被調(diào)整。如果客戶環(huán)境不同于原始的訓(xùn)練環(huán)境(象常見(jiàn)的一樣),環(huán)境適應(yīng)能被執(zhí)行。例如,由于訓(xùn)練得到的說(shuō)話者空間產(chǎn)生代表或表示說(shuō)話者之間的可變性的模型,這些模型能被用于估計(jì)一個(gè)環(huán)境錯(cuò)配函數(shù)并應(yīng)用這個(gè)函數(shù)到該說(shuō)話者空間(例如,作為一個(gè)線性變換)。這將防止測(cè)試環(huán)境的不相關(guān)特征干擾說(shuō)話者檢驗(yàn)和說(shuō)話者識(shí)別。
困難的客戶說(shuō)話者的登記即使本發(fā)明通常需要非常少的登記語(yǔ)音,向少數(shù)易出故障的(例如,不穩(wěn)定的)客戶要求更多的客戶數(shù)據(jù)可能有益于總性能。這樣做是因?yàn)椋瑢?shí)際上通常一小組特殊客戶說(shuō)話者引起大多數(shù)的錯(cuò)誤識(shí)別。在現(xiàn)在的方法中,在他們登記和那些客戶需要更多語(yǔ)音的時(shí)侯這些客戶被識(shí)別。換句話說(shuō),當(dāng)該登記語(yǔ)音滿足預(yù)定的條件時(shí),依據(jù)從該客戶說(shuō)話者附加的語(yǔ)音該登記語(yǔ)音模型能被容易地訓(xùn)練。例如,圖10示出了該預(yù)定的環(huán)境能被定義為包括該說(shuō)話者空間中的一個(gè)第一言論的位置,該位置離該說(shuō)話者空間中第二言論的位置是一個(gè)預(yù)定距離。如果該平均的說(shuō)話者之間的距離遠(yuǎn)遠(yuǎn)大于兩個(gè)位置的平均值,該客戶由此要求更多的登記數(shù)據(jù)。如圖11中所示,該預(yù)定的環(huán)境同樣能被定義為包括該第一位置,其位于說(shuō)話者空間的具有一個(gè)預(yù)定密度的一個(gè)區(qū)域內(nèi)(例如,一個(gè)“密集的”區(qū)域)。在這種情況下,一種例如MLED的方法允許關(guān)于說(shuō)話者空間中說(shuō)話者分布的現(xiàn)有信息被考慮。這個(gè)分布能夠從該訓(xùn)練數(shù)據(jù)或從該登記數(shù)據(jù)被估計(jì)。
MLES說(shuō)話者空間重新估計(jì)象上面介紹的,說(shuō)話者空間技術(shù)限制該說(shuō)話者模型到一個(gè)維度非常低的線性矢量空間,被稱之為說(shuō)話者空間。該說(shuō)話者空間概括一個(gè)關(guān)于最初的系統(tǒng)訓(xùn)練期間獲得的說(shuō)話者模型的現(xiàn)有知識(shí)。如上論述的,雖然該說(shuō)話者空間在其最初產(chǎn)生形狀期間將充當(dāng)一個(gè)用于說(shuō)話者識(shí)別和說(shuō)話者檢驗(yàn)的有利的工具,通過(guò)一種被稱作最大似然性本征空間(MLES)的技術(shù)對(duì)該說(shuō)話者空間作附加的改進(jìn)是可能的。該MLES方法在該訓(xùn)練數(shù)據(jù)上執(zhí)行重新估計(jì)。它導(dǎo)致在該說(shuō)話者空間內(nèi)的該矢量被旋轉(zhuǎn),以便該訓(xùn)練數(shù)據(jù)的似然性根據(jù)在該空間中的受訓(xùn)練的說(shuō)話者模型被最大化。該MLES技術(shù)通過(guò)在估計(jì)程序中作為隱藏?cái)?shù)據(jù)的積分值開始,得到M^=argmaxMΣq=1T∫logL(O,w|M)PO(W,q)dW]]>在那里Po(W,q)包含關(guān)于說(shuō)話者q的現(xiàn)有信息(例如,顯示一個(gè)給出的方言或性別的可能性)。它被廣泛地用于說(shuō)話者不穩(wěn)定的組。例如,我們可以設(shè)定為一個(gè)給出的K 種子說(shuō)話者能夠通過(guò)PCA、線性判別式分析(LDA)、說(shuō)話者分組聲音獲得,或能夠作為一組與說(shuō)話者有關(guān)的模型給出。當(dāng)沒(méi)有關(guān)于wK的特殊的知識(shí)是已知的時(shí),我們使用MLED以由一個(gè)最大算子代替該積分算子。
該重新估計(jì)公式是相對(duì)地容易導(dǎo)出μ‾q(m)=ΣqLqwq(e)Σtγm(t){ot-μ‾q(m)(e)}ΣqLq(wq(e))2Σtγm(t)]]>其中q,m,e表示一個(gè)說(shuō)話者,一個(gè)分布,和一個(gè)說(shuō)話者空間基礎(chǔ)矢量。Lq是該說(shuō)話者的言論O(e)的后面的概率,Lq,γm(t)是觀測(cè)的后面的概率,Wq(e)是說(shuō)話者q的第e個(gè)坐標(biāo)的當(dāng)前的估計(jì)。最后,μq-(m)是該估計(jì)的平均數(shù)的補(bǔ),例如μq-(m)(e)=Σk=1,k≠eEwq(k)μ‾k(m),e=1,...,E.]]>從前述的可以理解本發(fā)明提供了用于說(shuō)話者檢驗(yàn)和/或說(shuō)話者識(shí)別的強(qiáng)有力的技術(shù)。雖然在這里闡明了本發(fā)明的幾個(gè)例子,本領(lǐng)域普通技術(shù)人員應(yīng)當(dāng)理解許多的其它變化可能在附加的權(quán)利要求的范圍內(nèi)。
權(quán)利要求
1.用于根據(jù)預(yù)定客戶說(shuō)話者的語(yǔ)音估計(jì)語(yǔ)音的方法,包括步驟依據(jù)來(lái)自多個(gè)訓(xùn)練說(shuō)話者的語(yǔ)音訓(xùn)練一組語(yǔ)音模型;從這組語(yǔ)音模型構(gòu)成一個(gè)說(shuō)話者空間以表示所述多個(gè)訓(xùn)練說(shuō)話者;以一個(gè)在所述說(shuō)話者空間中的第一位置表示來(lái)自所述客戶說(shuō)話者的登記語(yǔ)音,和基于該第一位置和來(lái)自新說(shuō)話者的新語(yǔ)音數(shù)據(jù)確定該新說(shuō)話者是否為該客戶說(shuō)話者。
2.權(quán)利要求1的方法,進(jìn)一步包括步驟從該第一位置產(chǎn)生一個(gè)概率語(yǔ)音模型;和估計(jì)該概率語(yǔ)音模型和該新的語(yǔ)音數(shù)據(jù)之間的似然性并利用所述估計(jì)值作為該新的說(shuō)話者是否為該客戶說(shuō)話者的指示。
3.權(quán)利要求1的方法,進(jìn)一步包括步驟利用所述語(yǔ)音數(shù)據(jù)產(chǎn)生一個(gè)該新的說(shuō)話者的表示,作為該說(shuō)話者空間中的一個(gè)第二位置;和估計(jì)該第一和第二位置之間的接近度并利用所述估計(jì)值作為該新的說(shuō)話者是否為該客戶說(shuō)話者的指示。
4.權(quán)利更求1的方法,進(jìn)一步包括步驟依據(jù)來(lái)自該客戶說(shuō)話者的登記語(yǔ)音上訓(xùn)練一個(gè)登記語(yǔ)音模型;和產(chǎn)生一個(gè)該客戶說(shuō)話者的表示,作為該說(shuō)話者空間中的該第一位置。
5.權(quán)利要求4的方法,進(jìn)一步包括當(dāng)該登記語(yǔ)音滿足預(yù)定的條件時(shí),依據(jù)來(lái)自該客戶說(shuō)話者的附加語(yǔ)音訓(xùn)練該登記的語(yǔ)音模型的步驟。
6.權(quán)利要求5的方法,其中該登記語(yǔ)音包括一個(gè)第一發(fā)音和一個(gè)第二發(fā)音,該方法進(jìn)一步包括定義該預(yù)定的條件以包括該說(shuō)話者空間中的所述第一發(fā)音的位置的步驟,該位置離該說(shuō)話者空間中所述第二言論的位置有一個(gè)預(yù)定距離。
7.權(quán)利要求5的方法,進(jìn)一步包括定義該預(yù)定的條件以包括該第一位置,其位于說(shuō)話者空間的具有一個(gè)預(yù)定密度的一個(gè)區(qū)域內(nèi)的步驟。
8.權(quán)利更求1的方法,進(jìn)一步包括訓(xùn)練一組不依賴于文本的語(yǔ)音模型的步驟。
9.權(quán)利要求1的方法,進(jìn)一步包括訓(xùn)練一組依賴于文本的語(yǔ)音模型的步驟。
10.權(quán)利要求1的方法,進(jìn)一步包括步驟對(duì)每個(gè)所述訓(xùn)練說(shuō)話者獲得一個(gè)依賴于說(shuō)話者的超矢量;和基于該依賴于說(shuō)話者的超矢量產(chǎn)生一個(gè)比該語(yǔ)音模型的維度低的說(shuō)話者空間。
11.權(quán)利要求10的方法,進(jìn)一步包括步驟獲得全部的說(shuō)話者內(nèi)的散射矩陣數(shù)據(jù);和基于該矩陣數(shù)據(jù)執(zhí)行維度降低。
12.權(quán)利要求1的方法,進(jìn)一步包括重新估計(jì)該說(shuō)話者空間的步驟。
13.權(quán)利要求1的方法,進(jìn)一步包括基于關(guān)于一個(gè)客戶登記環(huán)境的信息修改該說(shuō)話者空間的步驟。
14.權(quán)利要求1的方法,進(jìn)一步包括估計(jì)所述第一和第二位置之間的接近度并利用所述估計(jì)值作為該新的說(shuō)話者是否該客戶說(shuō)話者的指示的步驟。
15.權(quán)利要求1的方法,其中該多個(gè)訓(xùn)練說(shuō)話者包括該客戶說(shuō)話者。
16.權(quán)利要求1的方法,其中該多個(gè)訓(xùn)練說(shuō)話者不包括該客戶說(shuō)話者。
17.權(quán)利要求1的方法,進(jìn)一步包括通過(guò)降低每個(gè)訓(xùn)練說(shuō)話者的語(yǔ)音模型的自由度的數(shù)量構(gòu)成該說(shuō)話者空間的步驟。
18.權(quán)利要求1的方法,進(jìn)一步包括執(zhí)行說(shuō)話者識(shí)別的步驟。
19.權(quán)利要求1的方法,進(jìn)一步包括通過(guò)判定該新的說(shuō)話者是否該客戶說(shuō)話者或一個(gè)冒充者執(zhí)行說(shuō)話者檢驗(yàn)的步驟。
全文摘要
客戶說(shuō)話者空間中的客戶說(shuō)話者位置被用于產(chǎn)生用于與測(cè)試的說(shuō)話者數(shù)據(jù)或測(cè)試說(shuō)話者語(yǔ)音模型比較的語(yǔ)音模型。該說(shuō)話者空間能夠利用訓(xùn)練說(shuō)話者構(gòu)成,訓(xùn)練說(shuō)話者是從客戶說(shuō)話者人群、或從客戶說(shuō)話者、或從訓(xùn)練和客戶說(shuō)話者的混合整體地分離出來(lái)的。基于客戶環(huán)境信息該說(shuō)話者空間可重新估計(jì)以提高落在該說(shuō)話者空間內(nèi)的客戶數(shù)據(jù)的似然性。在進(jìn)入到說(shuō)話者空間的該客戶的登記期間,當(dāng)滿足預(yù)定條件時(shí)能夠獲得附加的客戶語(yǔ)音。在該客戶登記步驟該說(shuō)話者分布同樣能被使用。
文檔編號(hào)G10L17/04GK1366295SQ0112591
公開日2002年8月28日 申請(qǐng)日期2001年7月5日 優(yōu)先權(quán)日2000年7月5日
發(fā)明者羅蘭德·庫(kù)恩, 奧利弗·史耶斯, 帕特里克·安古因, 吉恩-克勞德·君夸, 羅伯特·博曼 申請(qǐng)人:松下電器產(chǎn)業(yè)株式會(huì)社