專利名稱:說話者識別的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及說話者識別。在說話者識別中,說話者的身份被識別或驗證。在說話者識別中,一說話者或者被識別為一組已知說話者之一,或者作為一未知的說話者而被拒絕。在說話者識別中,說話者或者作為具有一聲稱的身份而被接受或者被拒絕。說話者可例如通過一口令、一個人身份識別號或一卡而輸入一要求的身份。
通常,對于說話者識別,語音處理目的在于提高對于不同說話者的所說詞的影響,而對于語音識別,其中一特定的詞(或有時一個短語或者一個音素,或者其他所說的內(nèi)容)被識別,語音處理目的在于減少對不同說話者的所說詞的影響。
輸入語音數(shù)據(jù)(通常是數(shù)字形式的)到一前端處理器是共同的,該前端處理器從輸入語音數(shù)據(jù)流導(dǎo)出更緊湊、感性上更明顯的稱之為輸入特征矢量的數(shù)據(jù)(或有時稱之為前端特征矢量)。其中說話者說一對于識別設(shè)備和說話者是已知的預(yù)定的詞(例如在銀行中的個人身份識別號),該技術(shù)已知為“正文相關(guān)(text-dependent)”技術(shù)。在說話者識別的一些應(yīng)用中,使用一種技術(shù),其中該技術(shù)不要求語音的內(nèi)容是預(yù)定的,這樣的技術(shù)別已知為“正文無關(guān)(textindependent)”技術(shù)。
在正文相關(guān)技術(shù)中,存儲的該詞的一表示,稱之為模板或模型,被預(yù)先從一已知是真實的說話者導(dǎo)出。從待被識別的說話者導(dǎo)出的輸入特征矢量被與該模板進行比較且兩者之間的類似性的測量被與一接受判定的閾值進行比較??山柚谠贑hollet&Gagnoulet所著的“On the evaluation of Speech Recognisers and Data Bases usinga Reference System(使用參考系統(tǒng)的語音識別器及數(shù)據(jù)基礎(chǔ)的評估)”,1982 IEEE,International Conference on Acoustics(國際聲學(xué)會),Speech and Signal Processing(語音及信號處理),pp2026-2029(2026-2029頁)中所述的動態(tài)時間扭曲(Dynamic timewarping-DTW)來進行該比較。其他比較的手段包括隱藏馬克夫模型(Hidden Markov Model-HMM)處理和神經(jīng)網(wǎng)絡(luò)。這些技術(shù)在BritishTelecom Technology Journal,Vol.6,No.2 April 1988(英國電信技術(shù)刊物,第6卷,第2號,1988年4月)中105-115頁的由SJCox所著的“Hidden Markov Models for Automatic SpeechRecognitionTheory And Application(用于自動語音識別的隱藏馬克夫模型理論及應(yīng)用)”;131-139頁的由McCullogh等人所著的“Multi-layer perceptrons applied to speech technology(用于語音技術(shù)的多層感知器)”和140-163頁的由Tattershall等人所著的“Neural arrays for speech recognition(用于語音識別的神經(jīng)陣列)”中被進行了描述。
各種類型的特征已被用于或被建議用于語音處理。通常,由于用于語音識別的特征類型傾向于從對于說話者是不敏感的另一詞中分辨出一詞,而用于說話者識別的特征類型傾向于對于一(些)已知的詞而言在若干個說話者之間進行辨別,適用于一種識別的一種特征對于另一種識別可能是不合適的。在Atal所著的“AutomaticRecognition of Speakers from their voices(從他們的話音自動識別說話者)”,Proc IEEE vol 64 pp 460-475,April 1976(Proc IEEE第64卷460-475頁,1976年4月)中描述了適用于說話者識別的一些特征。
根據(jù)本發(fā)明,提供有一種說話者識別方法,包括有步驟接收來自一未知的說話者的語音信號;根據(jù)一變換(transform)對該接收的語音信號進行變換,該變換是與一特定的說話者相關(guān)聯(lián)的;將該變換的語音信號與一代表所述特定的說話者的模型進行比較;且將依據(jù)于該未知的說話者是所述的特定說話者的似然性的一參數(shù)提供作為輸出。
較佳地,該變換步驟包括有子步驟檢測該接收的語音信號內(nèi)的一語音開始點和一語音結(jié)束點;生成從該接收的語音信號導(dǎo)出的一特征矢量序列;及將對應(yīng)于該檢測的開始點和檢測的結(jié)束點之間的語音信號的該特征矢量序列與用于所述特定說話者的代表性的特征矢量序列相對準(zhǔn)以使在被對準(zhǔn)的特征矢量序列中的各特征矢量對應(yīng)于該代表性的特征矢量序列中的一特征矢量。
有利地,該變換步驟還包括有子步驟平均帶有該代表性的特征矢量序列中的對應(yīng)特征矢量的該被對準(zhǔn)的特征矢量序列中的各特征矢量。
較佳地,該模型是一隱藏的馬克夫模型且可以是一左至右(leftto right)隱藏的馬克夫模型。
有利地,該代表性的特征矢量序列包括與隱藏的馬克夫模型中的狀態(tài)數(shù)相同數(shù)量的特征矢量。
根據(jù)本發(fā)明的另一方面,提供有一種用于說話者識別的設(shè)備,包括有用于接收來自一未知的說話者的語音信號的接收裝置;用于存儲多個說話者變換的說話者變換存儲裝置,各變換與多個說話者中對應(yīng)的一個相關(guān)聯(lián);用于存儲多個說話者模型的說話者模型存儲裝置,各說話者模型與所述多個說話者中對應(yīng)的一個相關(guān)聯(lián);與該接收裝置和說話者變換存儲裝置耦合的變換裝置,被配置用于根據(jù)一選擇的說話者變換對該接收的語音信號進行變換;耦合至該變換裝置和說話者模型存儲裝置的比較裝置,被配置用于將該變換的語音信號與對應(yīng)的說話者的模型進行比較;和用于提供一指示該未知的說話者是與該選擇的說話者變換相關(guān)聯(lián)的說話者的似然性的一信號的輸出裝置。
較佳地,該變換存儲裝置存儲各所述變換作為一代表性的特征矢量序列;且該變換裝置包括一起始點和結(jié)束點檢測器,用于檢測該接收的語音信號內(nèi)的一語音開始點和一語音結(jié)束點;一特征矢量生成器,用于生成從該接收的語音信號導(dǎo)出的一特征矢量序列;及一對準(zhǔn)裝置,用于將對應(yīng)于該檢測的開始點和檢測的結(jié)束點之間的語音信號的該特征矢量序列與用于所述特定說話者的代表性的特征矢量序列相對準(zhǔn)以使在得到的被對準(zhǔn)的特征矢量序列中的各特征矢量對應(yīng)于該代表性的特征矢量序列中的一特征矢量。
有利地,該變換裝置還包括有平均裝置,用于平均帶有該代表性的特征矢量序列中的對應(yīng)特征矢量的該被對準(zhǔn)的特征矢量序列中的各特征矢量。
較佳地,該說話者模型存儲裝置被配置用于存儲一隱藏的馬克夫模型形式的說話者模型且可被配置以存儲是一左至右(left toright)隱藏的馬克夫模型形式的說話者模型。
有利地,該存儲的代表性的特征矢量序列包括與隱藏的馬克夫模型中的狀態(tài)數(shù)相同數(shù)量的特征矢量。
眾所周知,發(fā)音期間的說話者的發(fā)聲道可被模型化為一時間變化濾波器。在本發(fā)明中,在將從語音導(dǎo)出的特征矢量與一存儲的參考模型進行比較之前,通過施加與一特定的說話者的發(fā)聲道的特性匹配的與說話者相關(guān)的變換,對這些特征矢量進行處理。從具有與該變換所依據(jù)的說話者的特性非常不類似的特性的語音導(dǎo)出的特征通過該變換可被嚴(yán)重地失真,而具有與該變換所依據(jù)的說話者的特性類似的特性的語音導(dǎo)出的特征則被失真小得多。這樣一與說話者相關(guān)的變換可被看作為與常規(guī)的匹配的濾波處理(其中使用一匹配的濾波器使濾波的信號不發(fā)生失真)類似的一處理。這樣被變換的特征因此提供說話者之間的更多辨別。這樣變換的特征然后被用于常規(guī)的說話者識別比較過程。
下面參照附圖,通過例子對本發(fā)明進行描述。
圖1示出了結(jié)合有一識別處理器的一電信系統(tǒng);圖2示出了結(jié)合有一頻譜信號抽取器的圖11中的識別處理器的部分;圖3示出了圖2中的頻譜信號抽取器;
圖4a是說明載荷說話者驗證期間圖1中的識別處理器的操作的流程圖;圖4b是說明在說話者識別期間圖1中的識別處理器的操作的流程圖;圖5示出了兩特征矢量M和R之間的一扭曲函數(shù)(warpingfunction)的例子;圖6示出了在扭曲期間可被施加的一加權(quán)函數(shù)的例子;圖7是說明在兩特征矢量之間的時間正規(guī)化距離的計算的流程圖;圖8是一馬克夫模型的例子;圖9示出了該轉(zhuǎn)變矩陣和圖8的馬克夫模型的一起始(initialisation)矢量的例子;圖10示出了一六狀態(tài)隱藏的馬克夫模型的前向概率的計算;及圖11示出了使用韋特比算法計算的一可能狀態(tài)序列。
在圖1中,示出了包括有說話者識別設(shè)備的一電信系統(tǒng),該電信系統(tǒng)包括有一麥克風(fēng)1(通常形成電話手機的部分)、一電信網(wǎng)絡(luò)2(例如公共交換電信網(wǎng)(PSTN)或數(shù)字電信網(wǎng))、一被連接以接收來自網(wǎng)絡(luò)2的話音信號的識別處理器3、和一應(yīng)用設(shè)備4,其被連接至該識別處理器3且被配置以從識別處理器3接收一話音識別信號,指示一特定說話者的識別或未識別,并響應(yīng)其而采取行動。例如該應(yīng)用設(shè)備4可以是遠程操作的銀行終端,用于影響銀行交易。在許多情況下,該應(yīng)用設(shè)備4將生成對用戶的一音頻響應(yīng),經(jīng)網(wǎng)絡(luò)2發(fā)送給一揚聲器5(通常形成電話手機的部分)。
在操作中,一說話者對麥克風(fēng)1說話且一模擬語音信號被從麥克風(fēng)1發(fā)送進網(wǎng)絡(luò)2到識別處理器3,其中該語音信號被分析且生成指示一特定說話者的識別或未識別的信號并發(fā)送給該應(yīng)用設(shè)備4,應(yīng)用設(shè)備4然后在一特定說話者的識別或未識別的情況下采取適當(dāng)?shù)膭幼?。如果識別處理器正執(zhí)行說話者識別,則該信號或者指示被識別的說話者或者指示該說話者已被拒絕。如果該識別處理器正執(zhí)行說話者驗證,則該信號指示該說話者是否是所聲稱的說話者。
該識別處理器需要獲取涉及該語音信號與其比較的說話者的身份的數(shù)據(jù)。該數(shù)據(jù)獲取可由識別處理器在操作的第二模型中執(zhí)行,其中識別處理器3未被連接至應(yīng)用設(shè)備4,而接收來自麥克風(fēng)1的語音信號以形成用于該說話者的識別數(shù)據(jù)。然而,獲取說話者識別數(shù)據(jù)的其他方法也是可能的;例如,說話者識別數(shù)據(jù)可被容納于由說話者攜帶的一卡上且可被插入一卡讀取器中,從而讀取該數(shù)據(jù)并在傳送該語音信號之前,通過網(wǎng)絡(luò)發(fā)送給該識別處理器。
通常,識別處理器3不知道自麥克風(fēng)1及通過網(wǎng)絡(luò)2到其所經(jīng)由的路徑;麥克風(fēng)1例如可通過一移動模擬或數(shù)字無線電鏈路被連接至網(wǎng)絡(luò)2,或可自另一城市始發(fā)。該麥克風(fēng)可以是多種接收機手機之一的部分。類似地,在網(wǎng)絡(luò)2內(nèi),可采取多條傳輸路徑中的任一條,包括無線電鏈路、模擬及數(shù)字路徑等。
圖2示出了識別處理器3的部分。一頻譜信號抽取器20例如從一數(shù)字電話網(wǎng)絡(luò)或者從一模數(shù)轉(zhuǎn)換器接收數(shù)字語音。從該數(shù)字語音導(dǎo)出多個特征矢量,各特征矢量代表多個連續(xù)數(shù)字樣本。例如,這些語音樣本可以8khz的取樣率被接收,且一特征矢量可代表256個連續(xù)樣本的一幀,即32ms的語音。
頻譜信號抽取器20將特征矢量提供給一端點檢測器24,該端點檢測器24提供指示該接收的語音的開始點和結(jié)束點的輸出信號。這些特征矢量在由說話者識別處理器21進行處理之前還被存儲在幀緩沖器25中。
使用一常規(guī)的基于能量的端點器(endpointer)提供這些語音的開始和結(jié)束點。在一改進的技術(shù)中,來自被配置用于識別特定詞的一語音識別器的信號可被使用。
說話者識別處理器21接收多個特征矢量,其從說話者變換存儲裝置22讀取與一特定說話者相關(guān)聯(lián)的與說話者相關(guān)的變換矩陣并從一說話者模型存儲裝置23讀取與該特定說話者相關(guān)聯(lián)的一參考模型。該說話者識別處理器然后根據(jù)所抽取的說話者變換矩陣處理接收的特征矢量,并根據(jù)由所抽取的模型代表的說話者和產(chǎn)生由接收的特征矢量代表的語音的與說話者相關(guān)的變換的似然性而生成一輸出信號。該說話者識別處理器的操作將參照圖4a和4b進行更全面的描述。該說話者識別處理器21構(gòu)成本發(fā)明的變換裝置、比較裝置和輸出裝置。
現(xiàn)參見圖3,將更詳細地描述頻譜信號抽取器20的操作。一高頻加重濾波器10以例如8khz的取樣率接收數(shù)字化的語音波形作為一序列8位數(shù)并執(zhí)行高頻加重濾波處理(例如通過執(zhí)行一1-0.95-1濾波器)以增加較高頻率的幅度。被濾波的信號的連續(xù)樣本的一幀通過一窗口處理器11被開窗(即這些樣本被乘以預(yù)定的加權(quán)常數(shù)),使用例如漢明窗,以減少由這些幀邊緣生成的寄生污跡。在一優(yōu)選實施例中,這些幀被重疊例如50%,以使在該例中每16ms提供一幀。
256開窗樣本的各幀然后由一MFCC(Mel Frequency CepstralCoefficient—美頻率倒譜系數(shù))發(fā)生器12處理以生成一MFCC特征矢量,該MFCC特征矢量包括一組MFCC系數(shù)(例如8個系數(shù))。
該MFCC特征矢量是這樣被導(dǎo)出的對一語音信號的各幀執(zhí)行一頻譜變換例如快速傅里葉變換(FFT)以導(dǎo)出一信號頻譜;將該頻譜的這些項集成為一系列寬帶,該些寬帶沿頻率軸以“美—頻率”標(biāo)度分布;取各帶中的幅度的對數(shù);且然后執(zhí)行進一步的變換(例如離散余弦變換DCT)以生成用于該幀的MFCC系數(shù)組。可發(fā)現(xiàn)有用的信息通常被限制在下級系數(shù)。該美—頻率標(biāo)度是在0和1khz之間的一線性頻率標(biāo)度上均勻間隔的、且在1khz上的一對數(shù)頻率標(biāo)度上均勻間隔的頻帶。
通過一或多個適當(dāng)編程的數(shù)字信號處理器(DSP)和/或微處理器,可提供高頻加重濾波器10、MFCC發(fā)生器12、端點檢測器24和說話者識別處理器21。幀緩沖器25、說話者變換存儲裝置22和說話者模型存儲裝置23可被設(shè)置在連接至這些處理器裝置的讀/寫存儲器裝置中。
圖4a概略地示出了在說話者驗證期間說話者識別處理器21的操作。在步驟40,說話者識別處理器接收一特征矢量序列和來自端點檢測器11的一檢測的開始點和一檢測的結(jié)束點。在步驟41,對于使用者被聲稱是該說話者,說話者識別處理器從說話者變換存儲裝置22選擇一與說話者相關(guān)的變換矩陣并從該說話者模型存儲裝置23讀取表示與該代表的特征矩陣相同的說話者的一對應(yīng)模型。
該與說話者相關(guān)的變換矩陣表示用于一特定說話者的一特定詞。它包括當(dāng)由該代表的說話者說出時的該代表的詞的一代表性特征矢量序列。該與說話者相關(guān)的變換矩陣在這里也被稱作為代表性的特征矢量序列。在步驟42,使用動態(tài)時間扭曲(DTW)處理,對應(yīng)于檢測的開始點和檢測的結(jié)束點之間的語音信號的該接收的特征矢量序列與該與說話者相關(guān)的變換矩陣進行時間對準(zhǔn)。
現(xiàn)將參照圖5、6和7更加詳細地描述在步驟42執(zhí)行的時間對準(zhǔn)。
該與說話者相關(guān)的變換矩陣包括用于一特定詞的一代表性的特征矢量序列。
M m1,m2,…,mi…mj一特征矢量序列R r1,r2,…,ri…rj被接收。如下所述,該接收的特征矢量序列與該代表性的特征矢量序列進行時間對準(zhǔn)。
參見圖5,該代表性序列被沿i軸表示且該接收的序列沿j軸表示。
點序列C=(i,j)表示一“扭曲”函數(shù),其近似地實現(xiàn)從該接收的特征矢量序列的時間軸到該代表性的特征矢量序列的時間軸的映射。
F c(1),c(2),...,c(k),...c(K)其中c(k)=(r(k),m(k))作為兩特征矢量M和R之間的差的測量,使用一距離d(c)d(i,j)||mirj||。在該扭曲函數(shù)上這些距離的求和是fk1Kd(c(k))]]>其給出了該扭曲函數(shù)F如何將一組特征矢量映射到另一組特征矢量上的量度。當(dāng)F被確定最佳地調(diào)節(jié)該兩特征矢量序列之間的時間差時,該量度達到一最小值??商鎿Q地,可采用一加權(quán)函數(shù)以使一加權(quán)的求和被使用fk1Kd(c(k)).Z(k)]]>且Z(k)被使用以對該距離量度進行加權(quán)。加權(quán)函數(shù)的一個例子是Z(K)(i(K)i(K 1))(j(K)j(K 1))其被概略地示出在圖6中。
兩特征矢量序列之間的時間正規(guī)化的距離被定義為 如Sskoe和Chiba所著的“Dynamic Programming AlgorihtmOptimisation for Spoken Word Recognition(用于所說的詞識別的動態(tài)編程算法最優(yōu)化)”,IEEE Transactions on Acoustics Speechand Signal Processing,vol 26,No.1,F(xiàn)ebruary 1978(聲學(xué)語音和信號處理學(xué)報,第6卷,第1期,1978年2月)中所述的,可對該扭曲函數(shù)施加各種不同的約束。計算時間正規(guī)化距離連同提供所需的最小值的扭曲函數(shù)一起的方程如下 其被稱之為“動態(tài)編程”方程該時間正規(guī)化距離是D(M,R)1fk1KZ(k)gK(c(k)).]]>如果先前示出的加權(quán)函數(shù)被使用,則該動態(tài)編程(DP)方程變?yōu)?及fk1kZ(K)IJ]]>在圖7中示出使用圖6的加權(quán)函數(shù)計算該時間正規(guī)化距離的流程圖。
在步驟74,i和j被初始化等于1。在步驟76,g(1,1)的初始值被設(shè)置等于乘以2的m1-r1<d<1,1>>(根據(jù)加權(quán)函數(shù)w)。然后,在步驟78,i被增加1且除非在步驟80,i大于1,在步驟86,該動態(tài)編程方程被進行計算。如果i大于I,則在步驟88,j被增加且在步驟96,i被復(fù)位至1。然后重復(fù)步驟78和86直至最后對于所有的I和J的值,該動態(tài)編程方程已被進行了計算,則在步驟92,計算了該時間正規(guī)化距離。
在一更加有效的算法中,該動態(tài)編程方程僅對于在一大小為r的限制窗口內(nèi)的值進行計算,以使j rδiδj r然后如下通過“退回(backtracking)”來確定該扭曲函數(shù)FC(K)(I,J)C(k1)i,j,對于 是最小的一旦扭曲函數(shù)FC(1),C(2),C(3),..C(k)..C(K)被得知,其中C(k)(r(k),m(k))然后可能確定一“時間對準(zhǔn)的”接收的特征矢量序列Z Z1,Z2,...,Z1在圖5中所示的例子中C(1)(1,1)C(2)(1,2)C(3)(2,2)C(4)(3,3)C(5)(4,3)即r1被映射至m1,r2被映射至m2,r3被映射至m3等??煽吹皆诖饲闆r下r1和r2兩者已被映射到m2且對于哪個接收的特征矢量應(yīng)被用于時間對準(zhǔn)的特征矢量作出確定。選擇接收的特征矢量之一的另一種方法是計算映射到一單個的代表性特征矢量上的接收的特征矢量的平均值。
如果第一個這樣的接收的特征矢量被使用,則Zprq其中qMinj(k)i(k)p]]>或者如果最后一個這樣的接收的特征矢量被使用,則Zprs其中sMaxj(k)i(k)p]]>或者如果使用一平均值ZpAve(rj(k))i(k) p這樣,在圖5所示的例子中,假定第一個這樣接收的矢量被使用Z1r1Z2r2Z3r3Z4r4等。
顯然這樣一對準(zhǔn)處理導(dǎo)致一對準(zhǔn)的特征矢量序列,其中該對準(zhǔn)的特征矢量序列中的各特征矢量對應(yīng)于該代表性特征矢量序列中的一特征矢量。
再參見圖4a,在該變換處理的一改進的版本中,在任選的步驟43中,各被時間對準(zhǔn)的接收的特征矢量還用該與說話者相關(guān)的變換矩陣的對應(yīng)的特征矢量進行平均。如果該時間對準(zhǔn)的接收的特征矢量與該與說話者相關(guān)的變換矩陣的對應(yīng)的特征矢量明顯不同,則這樣一平均步驟將嚴(yán)重地變形改時間對準(zhǔn)的接收的特征矢量,而如果這些時間對準(zhǔn)的接收的特征矢量類似于改與說話者相關(guān)的變換矩陣,則該平均處理將很少地變形該接收的特征矢量矩陣。這些變換的特征將增強在任何隨后的比較過程中的辨別。
然后在步驟44中,這些變換的特征在一常規(guī)的說話者識別比較過程中被使用。在本發(fā)明的該實施例中,由一左至右隱藏的馬克夫模型提供該說話者模型,且使用韋特比算法進行比較(在后將參照圖8至11進行描述)。在步驟45,指示該被表示的說話者產(chǎn)生由這些接收的特征矢量代表的語音的似然性的一距離量度被生成且隨后與一閾值進行比較。如果其間的差異小于該閾值,在步驟47,該說話者被接受位對應(yīng)于該存儲的模板;否則在步驟46,該說話者被拒絕。
現(xiàn)將參照圖8至11對使用隱藏的馬克夫模型和韋特比算法模型化語音的原理進行描述。
圖8示出了一例子HMM。五個圓圈100、102、104、106和108表示該HMM的狀態(tài)且在一離散時間瞬間t,該模型被認為處于這些狀態(tài)之一且被認為發(fā)出一觀測值(observation)Ot。在語音或說話者識別中,各觀測值通常對應(yīng)于一特征矢量。
在瞬間t+1,該模型或者移至一新的狀態(tài)或者呆在相同的狀態(tài)中且在另一情況下發(fā)出另一觀測值等等。該發(fā)出的觀測值僅取決于該模型的狀態(tài)。在時間t+1占用的狀態(tài)僅取決于在時間t占用的狀態(tài)(該特性被稱之為馬克夫特性)。從一狀態(tài)移至另一狀態(tài)的概率可被列表在-N×N狀態(tài)轉(zhuǎn)變矩陣(A=[ai,j])中,如圖9所示。在該矩陣的第i行和第j列的項是從在時間t的狀態(tài)Si移至在時間t+1的狀態(tài)Sj的概率。當(dāng)從一狀態(tài)移動的概率是1.0(如果該模型呆在相同的狀態(tài)下,則被認為是到其自身的一轉(zhuǎn)變),該矩陣的各行求和至1.0。在示出的該例子中,該狀態(tài)轉(zhuǎn)變矩陣僅具有在上三角形中的項,因為該例子是一左至右模型,其中不允許“向后”轉(zhuǎn)變。在一更加通常的HMM中,轉(zhuǎn)變可從任何狀態(tài)到任何其他的狀態(tài)。還示出一起始矢量(∑),其第i分量是在時間t=1占用狀態(tài)Si的概率假定W個這樣的模型存在M1,…Mw,各表示一特定的說話者且假定來自一未知的說話者的語音信號由一T個觀測值O1,O2,O3,…,OT的序列表示,則問題是確定哪個模型最有可能已發(fā)出了該觀測值序列,即確定k,其中 Pr(O|M)被如下地遞歸地計算該前向概率Δt(j)被確定是一模型發(fā)出該特定的觀測值序列O1,O2,O3,…,Ot且在時間t占用狀態(tài)Sj的概率。
因此Pr(O|M)fj1NΔT(j)]]>該模型在時間t+1占用狀態(tài)Sj且發(fā)出觀測值Ot+1的概率可從在時間t的前向概率、狀態(tài)轉(zhuǎn)變概率(ai,j)和狀態(tài)Sj發(fā)出觀測值Ot+1的概率bt(Ot+1)被計算如下 圖10示出了對于一個六狀態(tài)HMM的計算Δt+1(4)通過設(shè)置Δ1(j)=∑(j)bj(O1)來初始化該遞歸。
上述算法的一個計算上更加有效的變型被稱之為是韋特比算法。在替代如上所述的求和前向概率的韋特比算法中,使用前向概率的最大值。
即 如果要求恢復(fù)該最大可能的狀態(tài)序列,則每次It被計算Δt(j)被記錄,其中假定在時間t是狀態(tài)Sj,Δt(j)是在時間t-1的最大可能的狀態(tài),即最大化上述方程的右手側(cè)的狀態(tài)。在時間T的最大可能狀態(tài)是對于其IT(j)是最大的狀態(tài)Sk且ΔT(k)給出了在時間T-1的最大可能狀態(tài)等等。
圖11示出了對于十六個幀的觀測值(特征矢量)序列及一個五狀態(tài)左至右隱藏的馬克夫模型,使用韋特比算法計算的一可能狀態(tài)序列。
圖4b示出了在說話者識別中說話者識別處理器的對應(yīng)操作;在此情況下,使用多個說話者變換和對應(yīng)的說話者模型。進而選擇各與說話者相關(guān)的變換并使用其在步驟42時間對準(zhǔn)接收的特征矢量。然后在步驟48,將該時間對準(zhǔn)的接收的特征矢量序列與對應(yīng)的說話者模型進行比較。如先前參照圖4a所述,在任選的步驟43,各時間對準(zhǔn)的接收的特征矢量還用與說話者相關(guān)的變換矩陣的對應(yīng)的特征矢量被進行平均。然后由于具有指示該已知的說話者對應(yīng)于該未知的說話者的最大似然性的距離量度,該說話者被識別為已知的說話者。然而,如果在步驟53,該最小的距離量度大于一閾值,指示沒有說話者具有是該已知說話者的特定的高似然性,則在步驟54,由于對于該系統(tǒng)是未知的,該說話者被拒絕。
歷史上,DTW比較處理相比于HMM比較處理,對于說話者識別的效果更佳。將一特征矢量序列與一隱藏的馬克夫模型進行比較和使用一動態(tài)時間扭曲(DTW)算法將相同序列與一代表性模板進行比較之間的差異在于圖形匹配階段。在DTW方案中,一接收的特征矢量可被匹配至兩或更多的代表性特征矢量,對應(yīng)于圖5中的水平路徑。然而,在HMM方案中,各接收的特征矢量可僅被匹配至一個狀態(tài)。它不可能具有圖11中的一水平路徑。將接收的特征矢量序列與與說話者相關(guān)的變換矩陣對準(zhǔn),允許將接收的特征矢量映射至HMM狀態(tài)的更多的可能性,且因此可改善基于HMM的說話者識別器的性能。
基于HMM說話者的識別器和基于DTW的說話者識別器之間的另一差異是DTW模板是整體地基于一個個體(individual)的語音,而一單個的HMM拓撲經(jīng)常在用一個體的語音訓(xùn)練一組模型之前被定義。在本發(fā)明的一改善的實施例中,根據(jù)各個體的訓(xùn)練語音,由具有不同數(shù)量的狀態(tài)的HMM提供這些說話者模型。例如,用于一特定詞的一組特定個體的訓(xùn)練發(fā)聲中的最小數(shù)量的特征矢量可被用于選擇用于該特定個體的該特定詞的HMM的狀態(tài)數(shù)目。在與說話者相關(guān)的變換矩陣中的特征的數(shù)量可被類似地確定,其中在該代表性特征矢量序列中的特征數(shù)量將與隱藏的馬克夫模型中的狀態(tài)數(shù)量相同。
已參照MFCC對本發(fā)明進行了描述,但顯然任何適當(dāng)?shù)念l譜表示可以使用。例如,線性預(yù)測系數(shù)(LPC)倒譜系數(shù)、快速傅里葉變換(FFT)倒譜系數(shù)、線譜對(LSP)系數(shù)等。
盡管已討論了使用隱藏的馬克夫模型的比較處理,本發(fā)明同等地適用于采用其他類型的比較處理的說話者識別,例如動態(tài)時間扭曲技術(shù)或神經(jīng)網(wǎng)絡(luò)技術(shù)。
本發(fā)明采用用于各待被識別的說話者的一與說話者相關(guān)的變換。在此所述的本發(fā)明的實施例中,借助于用于各詞的一代表性特征矢量序列,提供與說話者相關(guān)的變換矩陣。
導(dǎo)出代表性的特征矢量序列的方法是眾所周知的,且對于理解本發(fā)明,指出各代表性特征矢量序列可通過接收由一說話者對于同一詞的多個發(fā)聲并如上所述地對于各發(fā)聲導(dǎo)出一組特征矢量的處理而被形成是足夠的。這些序列然后被時間對準(zhǔn),例如先前所述,且然后對用于該多個發(fā)聲的時間對準(zhǔn)的特征矢量序列進行平均以導(dǎo)出提供該與說話者相關(guān)的變換矩陣的一平均的特征矢量序列。
權(quán)利要求
1.一種說話者識別方法,包括有步驟接收來自一未知的說話者的語音信號;根據(jù)一變換對該接收的語音信號進行變換,該變換是與一特定的說話者相關(guān)聯(lián)的;將該變換的語音信號與一代表所述特定的說話者的模型進行比較;且將依據(jù)于該未知的說話者是所述的特定說話者的似然性的一參數(shù)提供作為輸出。
2.根據(jù)權(quán)利要求1的方法,其中該變換步驟包括有子步驟檢測該接收的語音信號內(nèi)的一語音開始點和一語音結(jié)束點;生成從該接收的語音信號導(dǎo)出的一特征矢量序列;及將對應(yīng)于該檢測的開始點和檢測的結(jié)束點之間的語音信號的該特征矢量序列與用于所述特定說話者的一代表性的特征矢量序列相對準(zhǔn)以使在被對準(zhǔn)的特征矢量序列中的各特征矢量對應(yīng)于該代表性的特征矢量序列中的一特征矢量。
3.根據(jù)權(quán)利要求2的方法,其中該變換步驟還包括有子步驟用該代表性的特征矢量序列中的對應(yīng)特征矢量對該被對準(zhǔn)的特征矢量序列中的各特征矢量進行平均。
4.根據(jù)以上任一權(quán)利要求的方法,其中該模型是一隱藏的馬克夫模型。
5.根據(jù)權(quán)利要求4的方法,其中該模型是一左至右隱藏的馬克夫模型。
6.根據(jù)權(quán)利要求5的方法,當(dāng)權(quán)利要求4是從屬于權(quán)利要求2或權(quán)利要求3時,其中該代表性的特征矢量序列包括與隱藏的馬克夫模型中的狀態(tài)數(shù)量相同數(shù)量的特征矢量。
7.一種用于說話者識別的設(shè)備,包括有用于接收來自一未知的說話者的語音信號的接收裝置;用于存儲多個說話者變換的說話者變換存儲裝置,各變換與多個說話者中對應(yīng)的一個相關(guān)聯(lián);用于存儲多個說話者模型的說話者模型存儲裝置,各說話者模型與所述多個說話者中對應(yīng)的一個相關(guān)聯(lián);與該接收裝置和說話者變換存儲裝置耦合的變換裝置,被配置用于根據(jù)一選擇的說話者變換對該接收的語音信號進行變換;耦合至該變換裝置和說話者模型存儲裝置的比較裝置,被配置用于將該變換的語音信號與對應(yīng)的說話者模型進行比較;和用于提供一指示該未知的說話者是與該選擇的說話者變換相關(guān)聯(lián)的說話者的似然性的一信號的輸出裝置。
8.根據(jù)權(quán)利要求7的設(shè)備,其中該變換存儲裝置存儲各所述變換作為一代表性的特征矢量序列;且其中該變換裝置包括一起始點和結(jié)束點檢測器,用于檢測該接收的語音信號內(nèi)的一語音開始點和一語音結(jié)束點;一特征矢量發(fā)生器,用于生成從該輸入語音導(dǎo)出的一特征矢量序列;及一對準(zhǔn)裝置,用于將對應(yīng)于該檢測的開始點和檢測的結(jié)束點之間的語音信號的該特征矢量序列與一代表性的特征矢量序列相對準(zhǔn)以使在得到的被對準(zhǔn)的特征矢量序列中的各特征矢量對應(yīng)于該代表性的特征矢量序列中的一特征矢量。
9.根據(jù)權(quán)利要求8的設(shè)備,其中該變換裝置還包括有平均裝置,用于用該代表性的特征矢量序列中的對應(yīng)特征矢量對該被對準(zhǔn)的特征矢量序列中的各特征矢量進行平均。
10.根據(jù)權(quán)利要求7至9中任一的設(shè)備,其中該說話者模型存儲裝置被配置用于存儲一隱藏的馬克夫模型形式的說話者模型。
11.根據(jù)權(quán)利要求10的設(shè)備,其中該說話者模型存儲裝置被配置以存儲是一左至右隱藏的馬克夫模型形式的說話者模型。
12.根據(jù)權(quán)利要求11的設(shè)備,當(dāng)權(quán)利要求10從屬于權(quán)利要求8或權(quán)利要求9時,其中該存儲的代表性的特征矢量序列包括與對應(yīng)的隱藏的馬克夫模型中的狀態(tài)數(shù)量相同數(shù)量的特征矢量。
13.一種如在此參照附圖所述的用于說話者識別的設(shè)備。
全文摘要
本發(fā)明涉及一種用于說話者識別的方法和設(shè)備。在本發(fā)明中,在將從語音導(dǎo)出的特征矢量與一存儲的參考模型進行比較之前,通過施加一與說話者相關(guān)的變換對這些特征矢量進行處理,該變換匹配于一特定的說話者的發(fā)聲帶的特性。從具有與該變換所依據(jù)的說話者的特性不類似的特性的語音導(dǎo)出的特征通過該變換被嚴(yán)重地變形,而從具有與該變換所依據(jù)的說話者的特性類似的特性的語音導(dǎo)出的特征通過該變換所產(chǎn)生的變形非常小。
文檔編號G10L17/02GK1343352SQ0080489
公開日2002年4月3日 申請日期2000年2月25日 優(yōu)先權(quán)日1999年3月11日
發(fā)明者西蒙·尼古拉斯·唐尼 申請人:英國電訊有限公司