專利名稱:用于評估聲音間相似度的方法和設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種使用所謂的波段間相關(guān)矩陣來評估聲音間相似度的技術(shù),并涉及一種使用該評估技術(shù)來驗證和識別說話者的技術(shù)。
背景技術(shù):
為了驗證或識別說話者,必須對該說話者產(chǎn)生的聲音和先前從特定說話者獲得的聲音之間的相似度進(jìn)行評估。在用于評估聲音間相似度的一般方法中,要比較的聲音的各自的特征被量化為特征量,并通過比較從聲音獲得的特征量來評估聲音間的相似度。非專利參考文獻(xiàn)1描述了這樣的技術(shù),其中波段間相關(guān)矩陣被用作聲音的特征量來執(zhí)行說話者識別。從聲音中獲得的波段間相關(guān)矩陣是一種特殊矩陣,該矩陣的元素是在多個波段中聲音的包絡(luò)成分間的相關(guān)值,所述的多個波段是將聲音的譜數(shù)據(jù)分割成的多個波段。分別從說話者所發(fā)出聲音獲得的波段間相關(guān)矩陣并不大大受到所發(fā)出聲音的內(nèi)容的影響,而是極大地取決于說話者。具有相似內(nèi)容的波段間相關(guān)矩陣是從相同說話者所發(fā)出的聲音獲得的,而與所發(fā)出聲音的內(nèi)容無關(guān)。因此,可以使用波段間相關(guān)矩陣作為說話者的聲音的特征量來驗證或識別說話者。
2002年3月由KAZAMA MICHIKO、HIGASHIYAMA MIKIO、和YAMAZAKI YOSHIO在電子信息和通信工程師協(xié)會中發(fā)表的文章“使用窄波段包絡(luò)相關(guān)矩陣而進(jìn)行的講話者的識別”。
1974年4月由K.-P.Li和G.W.Hughes發(fā)表在J.Acoust.Soc.Am.,Vol.55,No.4上的文章“在連續(xù)語音譜的相關(guān)矩陣中顯現(xiàn)的講話者差異”。
在非專利參考文獻(xiàn)1所描述的技術(shù)中使用的波段間相關(guān)矩陣包括作為其元素的大量相關(guān)值,這些值是在沿頻率軸彼此相鄰或連續(xù)(非離散)的多個波段中的聲音的各包絡(luò)成分之間的相關(guān)值。然而,沿頻率軸彼此相鄰的頻率波段中的聲音包絡(luò)成分之間的相關(guān)性對于發(fā)出聲音的任何一個說話者來說都是高的。非專利參考文獻(xiàn)1中使用的波段間相關(guān)矩陣所包括的元素不能表示個體間的差異,這引起了聲音間相似度評估的準(zhǔn)確性的降低。
發(fā)明內(nèi)容
因此,考慮以上情況而作出了本發(fā)明,并且本發(fā)明的一個目的是提供了用來以聲音的特征量有力地反映在發(fā)出聲音的說話者之間的個體差異的技術(shù)方法,從而來增加對聲音間相似度的評估的精確性。
本發(fā)明的相似度評估方法是通過波段間相關(guān)矩陣生成處理和相似度計算處理來實現(xiàn)的,其中所述的波段間相關(guān)矩陣生成處理是從輸入聲音的譜數(shù)據(jù)來生成波段間相關(guān)矩陣的處理,從而將譜數(shù)據(jù)分割成沿頻率軸彼此以間隔分開的多個離散波段,從這多個離散波段中獲得譜數(shù)據(jù)的多個包絡(luò)成分,并且波段間相關(guān)矩陣的元素是輸入聲音的各個包絡(luò)成分間的相關(guān)值,所述的相似度計算處理是通過使用由波段間相關(guān)矩陣生成處理針對一對要互相比較的輸入聲音而獲得的各自的波段間相關(guān)矩陣來對這對輸入聲音間的相似度進(jìn)行計算的處理。
另一種選擇是本發(fā)明的相似度評估方法是通過波段間相關(guān)矩陣生成處理和相似度計算處理來實現(xiàn)的,其中所述的波段間相關(guān)矩陣生成處理是從輸入聲音的譜數(shù)據(jù)來生成波段間相關(guān)矩陣的處理,從而將譜數(shù)據(jù)分割成沿頻率軸布置的多個波段,從這多個波段中獲得譜數(shù)據(jù)的多個包絡(luò)成分,并且波段間相關(guān)矩陣的元素是輸入聲音的各個包絡(luò)成分間的相關(guān)值,所述的相似度計算處理是由一對波段間相關(guān)矩陣來構(gòu)造一對小矩陣并使用各個小矩陣來計算一對要相互比較的輸入聲音間的相似度的處理,其中所述這對波段間相關(guān)矩陣是由預(yù)定行數(shù)和列數(shù)的元素組成的并與這對要相互比較的輸入聲音相對應(yīng),從而通過從波段間相關(guān)矩陣中提取以給定間隔布置的減少了行數(shù)和列數(shù)的元素來構(gòu)造這對小矩陣。
根據(jù)本發(fā)明,用于計算相似度的兩個波段間相關(guān)矩陣的內(nèi)容沒有包括不表現(xiàn)個體間差異的元素。因此,使用這些波段間相關(guān)矩陣可以增加對聲音間相似度進(jìn)行評估的精確性。
根據(jù)本發(fā)明用來對聲音間相似度進(jìn)行評估的技術(shù)的典型執(zhí)行實例為說話者驗證和說話者識別。通過以下描述的“具體實施方式
”將更加清楚地說明該技術(shù)的詳情。
圖1是根據(jù)本發(fā)明第一實施例的說話者驗證設(shè)備的框圖。
圖2是在第一實施例中用作特征量提取器的波段間相關(guān)矩陣生成器的框圖。
圖3示出了在第一實施例中對其中的聲音成分進(jìn)行提取的N個波段。
圖4是在第一實施例中執(zhí)行的驗證處理的流程圖。
圖5示出了根據(jù)本發(fā)明第二實施例用于比較波段間相關(guān)矩陣的方法。
圖6是根據(jù)本發(fā)明第三實施例的說話者識別設(shè)備的框圖。
圖7是在第三實施例中執(zhí)行的識別處理的流程圖。
圖8示出了在本發(fā)明第四實施例中由特征量比較器執(zhí)行的相似度計算處理的示例圖。
圖9示出了本發(fā)明實施例的優(yōu)點。
圖10示出了本發(fā)明實施例的優(yōu)點。
具體實施例方式
下面將參考附圖描述本發(fā)明的實施例。
<第一實施例>
圖1是根據(jù)本發(fā)明實施例的說話者驗證設(shè)備的框圖。該說話者驗證設(shè)備主要包括登記部分10、模板數(shù)據(jù)庫(DB)20、和驗證部分30。
登記部分10包括ID輸入單元11、聲音輸入單元12、發(fā)聲間隔檢測器13、特征量提取器14、以及登記信息生成器15。ID輸入單元11是接收用戶ID并包括鍵盤等的裝置,該用戶具有接受服務(wù)的合法權(quán)利。聲音輸入單元12是對具有合法權(quán)利的用戶的聲音進(jìn)行接收的裝置。該聲音輸入單元12例如包括麥克風(fēng)和A/D轉(zhuǎn)換器,該A/D轉(zhuǎn)換器把從麥克風(fēng)輸出的模擬聲音信號轉(zhuǎn)換為數(shù)字聲音信號。發(fā)聲間隔檢測器13是一個對從聲音輸入單元12輸出的聲音數(shù)據(jù)水平進(jìn)行監(jiān)視并使相隔某一具有等于或高于一個閾值水平的發(fā)聲間隔的聲音數(shù)據(jù)通過這樣的裝置。
特征量提取器14是從相隔某一發(fā)聲間隔已經(jīng)通過發(fā)聲間隔檢測器13的聲音數(shù)據(jù)中提取特征量的裝置。在本實施例中,每個用戶說出多個句子并且特征量提取器14從用戶所說句子的聲音中提取特征量。登記信息生成器15把通過對所提取特征量求平均而獲得的特征量與ID輸入單元11接收到的用戶ID關(guān)聯(lián)起來并將其作為登記信息登記到模板DB 20中。
驗證部分30包括ID輸入單元31、聲音輸入單元32、發(fā)聲間隔檢測器33、特征量提取器34、登記信息選擇器35、特征量比較器36、和驗證結(jié)果輸出單元37。ID輸入單元31是一個用來接收要被驗證的用戶的ID的裝置,并且其包括鍵盤等。聲音輸入單元32是用來接收要被驗證的用戶的聲音的裝置。與聲音輸入單元12類似,聲音輸入單元32包括麥克風(fēng)和A/D轉(zhuǎn)換器。與發(fā)聲間隔檢測器13類似的發(fā)聲間隔檢測器33被提供在聲音輸入單元32的下游。
特征量提取器34是使用與特征量提取器14相同的提取方法來從通過了發(fā)聲間隔檢測器33的聲音數(shù)據(jù)中提取特征量的裝置。登記信息選擇器35是用來從模板DB 20中讀取與ID輸入單元31接收的用戶ID相關(guān)聯(lián)的特征量并將該特征量與預(yù)定閾值一起輸出的裝置。
特征量比較器36是用來將特征量提取器34提取的特征量與登記信息選擇器35讀取的特征量進(jìn)行比較并將這兩個特征量所代表的聲音間的相似度作為比較結(jié)果而輸出的裝置。驗證結(jié)果輸出單元37是這樣的裝置,其通過對特征量比較器36輸出的相似度與登記信息選擇器35輸出的閾值進(jìn)行比較來執(zhí)行驗證,從而確定產(chǎn)生了聲音輸入單元32所接收的聲音的用戶是否與ID輸入單元31所接收的ID相對應(yīng),并且隨后輸出該驗證結(jié)果。
本實施例的特征在于以下內(nèi)容特征量提取器14和34每一個的配置、作為由提取器14和34所提取的特征量的波段間相關(guān)矩陣的內(nèi)容、以及由特征量比較器36執(zhí)行的特征量比較方法。
特征量提取器14和34的任意一個都包括圖2示出的波段間相關(guān)矩陣生成器。波段間相關(guān)矩陣生成器包括頻率分析器51、波段包絡(luò)生成器52、和相關(guān)值計算器53。頻率分析器51在逐幀的基礎(chǔ)上對通過了發(fā)聲間隔檢測器13或33的聲音數(shù)據(jù)執(zhí)行快速傅立葉變換(FFT),并輸出通過FFT獲得的振幅譜,其中所述的每個幀都具有恒定時間長度。
波段包絡(luò)生成器52是這樣的裝置,其從由頻率分析器51進(jìn)行了FFT變換的數(shù)據(jù)中提取以相互間隔排布在頻率軸上的多個波段中聲音的各個成分,并隨后生成波段中各個聲音成分的包絡(luò)。更具體地,該波段包絡(luò)生成器52執(zhí)行以下處理。首先,波段包絡(luò)生成器52從由頻率分析器51獲得的振幅譜中提取如圖3所示以相互間隔排布在頻率軸上的從第1到第N波段中的聲音成分,并隨后將所提取的成分轉(zhuǎn)換成dB值。之后,波段包絡(luò)生成器52獲得了以dB值表示的振幅譜中的改變,其中dB值是在針對第1到第N波段每一個的幀中分別獲得的,并且波段包絡(luò)生成器52輸出在第1到第N波段中各個聲音成分的包絡(luò)E-i(i=1~N)。還可通過使用包括不同通頻帶的多個帶通濾波器的濾波器組來將輸入聲音分割成不同波段,并隨后對通過該濾波器組的各個波段的信號執(zhí)行如半波整流和平滑之類的處理,從而獲得波段中聲音成分的包絡(luò)E-i(i=1~N)。
相關(guān)值計算器53計算第j波段包絡(luò)E-j與第k波段包絡(luò)E-k之間針對j和k范圍內(nèi)每個(j,k)組合的相關(guān)值ajk,其中j和k的范圍都是從1到N(即,j=1~N并且k=1~N),并且其輸出一個矩陣元素為相關(guān)值ajk(j=1~N并且k=1~N)的N行N列的波段間相關(guān)矩陣。
以上描述是對特征量提取器14和34每一個的詳細(xì)配置以及由該提取器14和34提取的波段間相關(guān)矩陣的內(nèi)容的描述。
關(guān)于相關(guān)值計算的詳細(xì)具體的描述在之前提到的非專利參考文獻(xiàn)2,即1974年4月由K.-P.Li和G.W.Hughes發(fā)表在J.Acoust.Soc.Am.,Vol.55,No.4上的文章“在連續(xù)語音譜的相關(guān)矩陣中顯現(xiàn)的講話者差異”中給出。該文章的全部內(nèi)容以引用的方式并入本說明書。
特征量比較器36將上述波段間相關(guān)矩陣進(jìn)行比較并計算從中提取波段間相關(guān)矩陣的聲音之間的相似度。在一個優(yōu)選實施例中,特征量比較器36獲得例如要針對矩陣的每一列進(jìn)行比較的兩個波段間相關(guān)矩陣的元素之間的相關(guān)值,并把針對所有列獲得的相關(guān)值的平均值作為相似度輸出。在另一個優(yōu)選實施例中,當(dāng)用“A”和“B”來表示要進(jìn)行比較的兩個波段間相關(guān)矩陣時,特征量比較器36根據(jù)以下等式(1)來計算相似度D。
D=(trace(AB-1)·trace(BA-1)),...(1)在等式(1)中,“trace()”表示括號中方矩陣的對角線元素的和。
圖4是在該實施例中執(zhí)行的驗證處理的流程圖。在驗證用戶的處理中,首先,通過ID輸入單元31獲得用戶ID,同時通過聲音輸入單元32和發(fā)聲間隔檢測器33獲得用戶的具有一定發(fā)聲間隔的聲音數(shù)據(jù)(步驟S11)。
之后,通過特征量提取器34,從在步驟S11獲得的聲音數(shù)據(jù)中生成一個波段間相關(guān)矩陣A(步驟S12)并且通過登記信息選擇器35從模板DB 20中讀取一個與在步驟S11獲得的ID相關(guān)聯(lián)的波段間相關(guān)矩陣B(步驟S13)。
之后特征量比較器36根據(jù)波段間相關(guān)矩陣A和B來計算相似度D(步驟S14),并且驗證結(jié)果輸出單元37將計算出的相似度D與一個閾值進(jìn)行比較(S15)。如果相似度D等于或大于該閾值,則驗證結(jié)果輸出單元37判定發(fā)出聲音的用戶是與用戶ID對應(yīng)的人(步驟S16)。否則,驗證結(jié)果輸出單元37判定該用戶是一個頂替者(步驟S17)。之后,驗證結(jié)果輸出單元37將判定結(jié)果輸出。
在上述實施例中,要由特征量比較器36進(jìn)行比較的兩個波段間相關(guān)矩陣的每一個都具有以相互間隔排布在頻率軸上的多個波段中聲音成分的各個包絡(luò)間的相關(guān)值來作為其元素。在傳統(tǒng)的技術(shù)中,針對每個說話者獲得一個波段間相關(guān)矩陣并將該波段間相關(guān)矩陣用作該說話者聲音的特征量,其中該波段間相關(guān)矩陣的元素是在無間隔地排布在頻率軸上的波段中對應(yīng)聲音成分的包絡(luò)間的相關(guān)值。然而,對于任何發(fā)出聲音的說話者來說,相鄰波段中聲音成分的包絡(luò)間的相關(guān)度高。這就指示了在傳統(tǒng)技術(shù)中所使用的波段間相關(guān)矩陣還包括了不表示個體間差異的元素。然而,在本實施例中要進(jìn)行比較的波段間相關(guān)矩陣的內(nèi)容不包括那些不表示個體間差異的元素。因此,在本實施例中,當(dāng)對波段間相關(guān)矩陣進(jìn)行比較時強(qiáng)調(diào)了個體間的差異,從而增加了驗證的精確性。
<第二實施例>
與第一實施例類似,本實施例涉及一種說話者驗證設(shè)備。本實施例的說話者驗證設(shè)備具有與第一實施例基本相同的配置。本實施例與第一實施例的不同之處在于用于在特征量提取器14和34中生成波段間相關(guān)矩陣的方法和用于在特征量比較器36中比較波段間相關(guān)矩陣的方法。
在本實施例中,特征量提取器14和34的每一個從通過該特征量提取器14或34的聲音數(shù)據(jù)中生成在相互無間隔地排布在頻率軸上的從第1到第2N波段中的各個成分的包絡(luò)Ei(i=1~2N),而不是在如圖3所示的以相互間隔排布的從第1到第N波段中的成分的包絡(luò),之后根據(jù)所生成的包絡(luò)Ei(i=1~2N)來生成一個2N×2N的波段間相關(guān)矩陣。
特征量比較器36通過從要被比較的兩個波段間相關(guān)矩陣中去除以預(yù)定行間距和預(yù)定列間距排布的元素來構(gòu)造這兩個波段間相關(guān)矩陣的各自的小矩陣,并且特征量比較器36還通過比較這兩個小矩陣來計算聲音的相似度。圖5示出了一個示例。在該示例中,通過從兩個要被比較的2N×2N波段間相關(guān)矩陣中去除偶數(shù)行和偶數(shù)列的元素可構(gòu)造兩個小的N×N矩陣,并且通過比較這兩個小的N×N矩陣可計算出聲音的相似度。
這兩個要被比較的小的N×N矩陣每一個的元素都是在以相互間隔排布在頻率軸上的N的波段中聲音成分的各個包絡(luò)間的相關(guān)值。
因此,本實施例具有與第一實施例相同的優(yōu)點。
<第三實施例>
圖6是根據(jù)本發(fā)明實施例的說話者識別設(shè)備的框圖。該說話者識別設(shè)備包括與圖1中所示第一實施例相類似的登記部分10和模板DB 20,并且進(jìn)一步包括代替驗證部分30的識別部分40。
識別部分40包括聲音輸入單元41、發(fā)聲間隔檢測器42、特征量提取器43、特征量比較器44、和識別結(jié)果輸出單元45。聲音輸入單元41是用來從要被識別的用戶接收聲音并輸出其聲音數(shù)據(jù)的裝置。發(fā)聲間隔檢測器42是一個對與包括在從聲音輸入單元41輸出的聲音數(shù)據(jù)中的發(fā)聲間隔相對應(yīng)的數(shù)據(jù)進(jìn)行檢測和輸出的裝置。特征量提取器43是從通過發(fā)聲間隔檢測器42的聲音數(shù)據(jù)中提取特征量的裝置。特征量比較器44是用來把由特征量提取器43所提取的特征量與登記到模板DB 20中的用戶特征量進(jìn)行比較并輸出指示了比較結(jié)果的相似度的裝置。識別結(jié)果輸出單元45是用來從登記到模板DB 20中的用戶特征量中選出與由特征量提取器43所提取的特征量相似度最高的特征量并將與所選出的特征量相關(guān)聯(lián)的用戶ID進(jìn)行輸出的裝置。
特征量提取器14和43每一個的配置、作為由特征量提取器14和43提取的特征量的波段間相關(guān)矩陣的內(nèi)容、以及由特征量比較器44執(zhí)行的特征量比較方法都與上述第一和第二實施例中的相似。
圖7是在該實施例中執(zhí)行的驗證處理的流程圖。在用于識別一個用戶的處理中,首先通過聲音輸入單元41和發(fā)聲間隔檢測器42來獲得要被識別的用戶以一定發(fā)聲間隔的聲音數(shù)據(jù)(步驟S21)。
之后,通過特征量提取器43,由在步驟S21獲得的聲音數(shù)據(jù)來生成波段間相關(guān)矩陣A(步驟S22)。這里,識別結(jié)果輸出單元45將最高相似度Dmax初始化為0。
在本實施例中,當(dāng)“M”表示登記到模板DB 20中的波段間相關(guān)矩陣的數(shù)量時,針對每一個i重復(fù)執(zhí)行從步驟S23到S28的循環(huán)處理,其中i=1~M。
首先,特征量比較器44從模板DB 20中讀取第i個用戶的波段間相關(guān)矩陣Bi(步驟S24)。之后,特征量比較器44計算在步驟S22獲得的波段間相關(guān)矩陣A與在步驟S24獲得的波段間相關(guān)矩陣Bi之間的相似度D(步驟S25)。這里,如果作為特征量的波段間相關(guān)矩陣A和Bi每一個都具有如上在第一實施例中所述在以相互間隔排布在頻率軸上的多個波段中聲音成分的各個包絡(luò)間相關(guān)值的對應(yīng)元素的話,則特征量比較器44將在步驟S25中使用未進(jìn)行變化的波段間相關(guān)矩陣A和Bi來計算相似度D。另一方面,如果波段間相關(guān)矩陣A和Bi每一個都具有在無間隔地排布在頻率軸上的多個波段中聲音成分的各個包絡(luò)間相關(guān)值的對應(yīng)元素的話,則在步驟S25中,特征量比較器44將對每個波段間相關(guān)矩陣A和Bi執(zhí)行行去除和列去除,以構(gòu)造波段間相關(guān)矩陣A和Bi各自的小矩陣,并且如上在第二實施例中所述那樣使用該小矩陣來計算相似度D。識別結(jié)果輸出單元45將以此方法獲得的相似度D與最高相似度Dmax進(jìn)行比較(步驟S26)。只有當(dāng)D高于Dmax(即,D>Dmax)時,將Dmax設(shè)置為D(即,Dmax=D)并將imax設(shè)置為i(即,imax=i)(步驟S27)。
對每個i(i=1~M)重復(fù)進(jìn)行該處理必然會獲得波段間相關(guān)矩陣Bimax的指數(shù)imax,其中該波段間相關(guān)矩陣Bimax與包括在模板DB 20中的M個波段間相關(guān)矩陣Bi(i=1~M)中的那個由輸入聲音獲得的波段間相關(guān)矩陣具有最高的相關(guān)性。識別結(jié)果輸出單元45輸出與指數(shù)imax相關(guān)聯(lián)的用戶ID IDimax來作為識別結(jié)果(步驟S29)。
本實施例以上述方式工作。因此本實施例也具有與第一實施例相同的優(yōu)點。
<第四實施例>
第二實施例中的特征量比較器36通過用一種提取方法(例如,通過從波段間相關(guān)矩陣中去除奇數(shù)行和奇數(shù)列或者提取偶數(shù)行和偶數(shù)列的元素)從要比較的兩個波段間相關(guān)矩陣中提取一種類型的各自的小矩陣并隨后比較這兩個小矩陣來計算聲音的相似度。然而,可使用多種方法來從兩個波段間相關(guān)矩陣中提取各自的小矩陣。以下是使用多種提取方法的一個示例。本實施例中的特征量比較器36使用多種不同的提取方法從針對兩個要比較的聲音而獲得的兩個波段間相關(guān)矩陣的每一個中提取多種類型的小矩陣。之后,針對多種不同類型提取方法的每一個,特征量比較器36執(zhí)行處理來計算使用相同提取方法分別從要比較的兩個聲音的波段間相關(guān)矩陣中提取的兩個小矩陣間的相似度。隨后該特征量比較器36通過對使用該提取方法獲得的兩個小矩陣間的各個相似度執(zhí)行全面評估(例如,取平均)來計算要比較的兩個聲音間的相似度。本實施例中的相似度評估方法可被用于第一實施例和第二實施例中例舉的說話者驗證系統(tǒng),并且也可被用于第三實施例中例舉的說話者識別系統(tǒng)。
圖8示出了在本第四實施例中由特征量比較器36執(zhí)行的相似度計算處理的示例圖。在本實施例中,特征量比較器36使用以下四種提取方法分別從輸入聲音的波段間相關(guān)矩陣和讀取自模板DB 20的波段間相關(guān)矩陣中提取兩個小矩陣。
(a)奇數(shù)列和奇數(shù)行元素的提取(b)偶數(shù)列和偶數(shù)行元素的提取(c)偶數(shù)列和奇數(shù)行元素的提取(d)奇數(shù)列和偶數(shù)行元素的提取特征量比較器36對使用以上四種提取方法從兩個波段間相關(guān)矩陣提取出的小矩陣當(dāng)中的使用相同提取方法所提取的每對小矩陣的兩個小矩陣進(jìn)行比較,并且計算每對兩個小矩陣間的相似度。由此,特征量比較器36獲得4個相似度。特征量比較器36獲得了例如4個相似度的平均值并將該平均值確定為兩個要比較的聲音間最終的相似度。期望本方法可以提供比第二實施例更精確的對相似度的評估。
雖然在以上示例中,通過從原始波段間相關(guān)矩陣兩個連續(xù)行和兩個連續(xù)列的每組元素中提取一個元素來構(gòu)造4種小矩陣,但是也可通過從大于2的m(m>2)個連續(xù)行和m個連續(xù)列的每組元素中提取一個元素來構(gòu)造小矩陣。例如,當(dāng)從3個連續(xù)行和3個連續(xù)列的每組元素中提取一個元素時,可從原始波段間相關(guān)矩陣種提取9種小矩陣。在此情況下,對于從輸入聲音的波段間相關(guān)矩陣中提取的9種小矩陣和從模板DB 20的波段間相關(guān)矩陣中提取的9種小矩陣來說,對使用相同提取方法而獲得的每對小矩陣的兩個進(jìn)行相互比較,并且將9對小矩陣的所述兩個小矩陣間的相似度的平均值確定為聲音的相似度。
<實施例優(yōu)點的證明>
為證明以上實施例的優(yōu)點,本發(fā)明人構(gòu)建了一個如圖6所示第三實施例的說話者識別系統(tǒng)并使用該系統(tǒng)執(zhí)行了說話者識別測試。在每個測試中,用從一組25個男性和一組28個女性的每個人收集到的聲音來生成波段間相關(guān)矩陣。預(yù)先創(chuàng)建了模板DB 20。為了生成波段間相關(guān)矩陣,特征量提取器14使用包括多個BPF和LPF的濾波器組而不是執(zhí)行FFT來獲得波段中聲音信號的各個包絡(luò)。特征量提取器43使用相同的方法來生成輸入聲音的波段間相關(guān)矩陣。在該測試中,對于每個男性組和女性組,通過向聲音輸入單元41提供組中一個人的聲音來執(zhí)行說話者識別,并且隨后獲得作為識別成功率的識別率。這里,通過改變提取間隔可以獲得識別率對間隔的相關(guān)性,所述間隔指的是用于獲得在計算要由特征量比較器44進(jìn)行比較的兩個波段間相關(guān)矩陣間相似度的過程中所使用的小矩陣而提取的元素間的間隔。
圖9圖示出了對于25個男性來說識別率與提取間隔的相關(guān)性,并且圖10圖示出了對于28個女性來說識別率與提取間隔的相關(guān)性。在圖9和10中,對于提取間隔“0”的識別率指的是當(dāng)特征量比較器44輸出在輸入聲音的波段間相關(guān)矩陣與模板DB 20的波段間相關(guān)矩陣間的相似度而未對這兩個波段間相關(guān)矩陣進(jìn)行元素提取的時候每個說話者的識別率。對于提取間隔“1”的識別率指的是當(dāng)特征量比較器44通過以1行和1列間隔從兩個波段間相關(guān)矩陣中提取元素來輸出要被比較的兩個波段間相關(guān)矩陣間的相似度的時候所獲得的每個說話者的識別率。如上在第四實施例中所述,有4種方法可以從原始波段間相關(guān)矩陣中通過以1行和1列間隔來從原始波段間相關(guān)矩陣中提取元素。因此,特征量比較器34使用方法(a)和(b)從兩個波段間相關(guān)矩陣中獲得小矩陣并且獲得這兩個小矩陣之間的相似度,隨后把這些相似度的平均值確定為聲音間的最終相似度。類似地,對于提取間隔“k”的識別率指的是當(dāng)特征量比較器44通過以k行和k列間隔從兩個波段間相關(guān)矩陣中提取元素來計算要被比較的兩個聲音間的相似度的時候所獲得的每個說話者的識別率。
如圖9和10所示,測試結(jié)果顯示出與使用未改變的波段間相關(guān)矩陣計算相似度時相比,通過從聲音的波段間相關(guān)矩陣中提取行和列來計算要被比較的聲音間的相似度提高了說話者識別率。
雖然本發(fā)明實施例的各種變化已在上面作出了描述,但是其他的實施例仍是可能的。以下是一些示例。
(1)在第一實施例中,第1到第N波段每一個的寬度以及相鄰波段間的間隔可以彼此相同和不同。
(2)在第二實施例中,在無間隔地排布在頻率軸上的多個波段中的輸入聲音成分的各個包絡(luò)是從輸入聲音獲得的,并且其元素為這多個波段中各個包絡(luò)間的相關(guān)值的波段間相關(guān)矩陣被用作特征量。然而,生成了該波段間相關(guān)矩陣的聲音成分的包絡(luò)并非必須是無間隔地排布在頻率軸上的這多個波段中聲音成分的包絡(luò),而也可能是以相互間隔排布的多個波段中聲音成分的包絡(luò)。
(3)雖然在第一和第二實施例中把登記部分10提供為與說話者驗證設(shè)備中的驗證部分30彼此分開的裝置,但是也可將登記部分10的功能合并到驗證部分30中,以使得用戶通過驗證部分30就可將用于驗證的其聲音的波段間相關(guān)矩陣登記到模板DB 20中。類似地,登記部分10的功能也可被合并到第三實施例的說話者識別設(shè)備中的識別部分40中。
權(quán)利要求
1.一種相似度評估方法,該方法包括波段間相關(guān)矩陣生成處理,該處理從輸入聲音的譜數(shù)據(jù)來生成波段間相關(guān)矩陣,從而將譜數(shù)據(jù)分割成沿頻率軸彼此以間隔分開的多個離散波段,從所述多個離散波段中獲得譜數(shù)據(jù)的多個包絡(luò)成分,并且所述波段間相關(guān)矩陣的元素是輸入聲音的各個包絡(luò)成分間的相關(guān)值;以及相似度計算處理,該處理通過使用由所述波段間相關(guān)矩陣生成處理針對一對要互相比較的輸入聲音而獲得的各自的波段間相關(guān)矩陣來對這對輸入聲音間的相似度進(jìn)行計算。
2.一種相似度評估方法,該方法包括波段間相關(guān)矩陣生成處理,該處理從輸入聲音的譜數(shù)據(jù)來生成波段間相關(guān)矩陣,從而將譜數(shù)據(jù)分割成沿頻率軸排布的多個波段,從所述多個波段中獲得譜數(shù)據(jù)的多個包絡(luò)成分,并且所述波段間相關(guān)矩陣的元素是輸入聲音的各個包絡(luò)成分間的相關(guān)值;以及相似度計算處理,該處理由一對波段間相關(guān)矩陣來構(gòu)造一對小矩陣并使用各個小矩陣來計算這對輸入聲音間的相似度,其中所述一對波段間相關(guān)矩陣是由預(yù)定行數(shù)和列數(shù)的元素組成的并對應(yīng)于要彼此進(jìn)行比較的一對輸入聲音,從而通過從所述波段間相關(guān)矩陣中提取以給定間距排布的減少了行數(shù)和列數(shù)的元素來構(gòu)造所述小矩陣。
3.一種相似度評估設(shè)備,該設(shè)備包括波段間相關(guān)矩陣生成裝置,該裝置用于從輸入聲音的譜數(shù)據(jù)來生成波段間相關(guān)矩陣,從而將譜數(shù)據(jù)分割成沿頻率軸彼此以間隔分開的多個離散波段,從所述多個離散波段中獲得譜數(shù)據(jù)的多個包絡(luò)成分,并且所述波段間相關(guān)矩陣的元素是輸入聲音的各個包絡(luò)成分間的相關(guān)值;以及相似度計算裝置,該裝置用于通過使用由所述波段間相關(guān)矩陣生成裝置針對一對要互相比較的輸入聲音而獲得的各自的波段間相關(guān)矩陣來對這對輸入聲音間的相似度進(jìn)行計算。
4.一種相似度評估設(shè)備,該設(shè)備包括波段間相關(guān)矩陣生成裝置,該裝置用于從輸入聲音的譜數(shù)據(jù)來生成波段間相關(guān)矩陣,從而將譜數(shù)據(jù)分割成沿頻率軸排布的多個離散波段,從所述多個波段中獲得譜數(shù)據(jù)的多個包絡(luò)成分,并且所述波段間相關(guān)矩陣的元素是輸入聲音的各個包絡(luò)成分間的相關(guān)值;以及相似度計算裝置,該裝置由一對波段間相關(guān)矩陣來構(gòu)造一對小矩陣并使用各個小矩陣來計算這對輸入聲音間的相似度,其中所述一對波段間相關(guān)矩陣是由預(yù)定行數(shù)和列數(shù)的元素組成的并對應(yīng)于要彼此進(jìn)行比較的一對輸入聲音,從而通過從所述波段間相關(guān)矩陣中提取以給定間距排布的減少了行數(shù)和列數(shù)的元素來構(gòu)造所述小矩陣。
5.根據(jù)權(quán)利要求4所述的相似度評估設(shè)備,其中所述相似度計算裝置通過從波段間相關(guān)矩陣的不同位置提取減少了行數(shù)和列數(shù)的元素來從所述波段間相關(guān)矩陣獲得不同類型的小矩陣,并且所述相似度計算裝置執(zhí)行針對每個不同類型的小矩陣來計算所述小矩陣對之間的每一個相似度的處理,并隨后執(zhí)行對不同類型小矩陣所獲得的各個相似度的全面評估。
6.一種說話者驗證設(shè)備,該設(shè)備包括數(shù)據(jù)庫,其存儲基準(zhǔn)波段間相關(guān)矩陣來作為對應(yīng)于每個用戶ID的一個或多個用戶的聲音特征量,從每個用戶聲音的譜數(shù)據(jù)來獲得所述基準(zhǔn)波段間相關(guān)矩陣,從而將譜數(shù)據(jù)分割成沿頻率軸彼此以間隔分開的多個離散波段,從所述多個離散波段中獲得譜數(shù)據(jù)的多個包絡(luò)成分,并且所述基準(zhǔn)波段間相關(guān)矩陣的元素是每個用戶聲音的各個包絡(luò)成分間的相關(guān)值;ID輸入單元,其接收要被驗證的目標(biāo)用戶的ID;聲音輸入單元,其接收要被驗證的目標(biāo)用戶的聲音;特征量提取器,其從所述接收到的目標(biāo)用戶的聲音的譜數(shù)據(jù)來生成目標(biāo)波段間相關(guān)矩陣,從而將譜數(shù)據(jù)分割成沿頻率軸彼此以間隔分開的多個離散波段,從所述多個離散波段中獲得譜數(shù)據(jù)的多個包絡(luò)成分,并且所述目標(biāo)波段間相關(guān)矩陣的元素是所述接收到的目標(biāo)用戶聲音的各個包絡(luò)成分間的相關(guān)值;登記信息選擇器,其從數(shù)據(jù)庫中取得與通過所述ID輸入單元所接收到的目標(biāo)用戶ID相對應(yīng)的基準(zhǔn)波段間相關(guān)矩陣;特征量比較器,其計算從所述特征量提取器生成的目標(biāo)波段間相關(guān)矩陣與由所述登記信息選擇器取得的基準(zhǔn)波段間相關(guān)矩陣間的相似度;以及驗證結(jié)果輸出單元,其執(zhí)行驗證,從而根據(jù)由所述特征量比較器計算出的相似度來判定其發(fā)出的聲音被所述聲音輸入單元接收到的目標(biāo)用戶是否與所述ID輸入單元所接收到的ID相對應(yīng),并且所述驗證結(jié)果輸出單元輸出驗證結(jié)果。
7.一種說話者驗證設(shè)備,該設(shè)備包括數(shù)據(jù)庫,其存儲基準(zhǔn)波段間相關(guān)矩陣來作為對應(yīng)于每個用戶ID的一個或多個用戶的聲音特征量,從每個用戶聲音的譜數(shù)據(jù)來生成基準(zhǔn)波段間相關(guān)矩陣,從而將譜數(shù)據(jù)分割成沿頻率軸排布的多個波段,之后從所述多個波段中獲得譜數(shù)據(jù)的多個包絡(luò)成分,并且所述基準(zhǔn)波段間相關(guān)矩陣的元素是每個用戶聲音的各個包絡(luò)成分間的相關(guān)值;ID輸入單元,其接收要被驗證的目標(biāo)用戶的ID;聲音輸入單元,其接收要被驗證的目標(biāo)用戶的聲音;特征量提取器,其從所述接收到的目標(biāo)用戶的聲音的譜數(shù)據(jù)中提取目標(biāo)波段間相關(guān)矩陣,從而將譜數(shù)據(jù)分割成沿頻率軸排布的多個波段,從所述多個波段中獲得譜數(shù)據(jù)的多個包絡(luò)成分,并且所述目標(biāo)波段間相關(guān)矩陣的元素是所接收到的聲音的各個包絡(luò)成分間的相關(guān)值;登記信息選擇器,其從數(shù)據(jù)庫中取得與通過所述ID輸入單元所接收到的目標(biāo)用戶ID相對應(yīng)的基準(zhǔn)波段間相關(guān)矩陣;特征量比較器,其由一對目標(biāo)和基準(zhǔn)波段間相關(guān)矩陣來構(gòu)造一對小矩陣并計算這對小矩陣間的相似度,其中所述一對目標(biāo)和基準(zhǔn)波段間相關(guān)矩陣是由預(yù)定行數(shù)和列數(shù)的元素組成的,從而通過從所述波段間相關(guān)矩陣中提取以給定間距排布的減少了行數(shù)和列數(shù)的元素來構(gòu)造所述小矩陣;以及驗證結(jié)果輸出單元,其執(zhí)行驗證,從而根據(jù)由所述特征量比較器計算出的相似度來判定其發(fā)出的聲音被所述聲音輸入單元接收到的目標(biāo)用戶是否與所述ID輸入單元所接收到的ID相對應(yīng),并且所述驗證結(jié)果輸出單元隨后輸出驗證結(jié)果。
8.一種說話者識別設(shè)備,該設(shè)備包括數(shù)據(jù)庫,其存儲基準(zhǔn)波段間相關(guān)矩陣來作為對應(yīng)于每個用戶ID的一個或多個用戶的聲音特征量,從每個用戶聲音的譜數(shù)據(jù)來獲得所述基準(zhǔn)波段間相關(guān)矩陣,從而將譜數(shù)據(jù)分割成沿頻率軸彼此以間隔分開的多個離散波段,從所述多個離散波段中獲得譜數(shù)據(jù)的多個包絡(luò)成分,并且所述基準(zhǔn)波段間相關(guān)矩陣的元素是每個用戶聲音的各個包絡(luò)成分間的相關(guān)值;聲音輸入單元,其接收要被識別的目標(biāo)用戶的聲音;特征量提取器,其從所述接收到的目標(biāo)用戶的聲音的譜數(shù)據(jù)來生成目標(biāo)波段間相關(guān)矩陣,從而將譜數(shù)據(jù)分割成沿頻率軸彼此以間隔分開的多個離散波段,從所述多個離散波段中獲得譜數(shù)據(jù)的多個包絡(luò)成分,并且所述目標(biāo)波段間相關(guān)矩陣的元素是所述接收到的目標(biāo)用戶聲音的各個包絡(luò)成分間的相關(guān)值;特征量比較器,其計算由所述特征量提取器生成的目標(biāo)波段間相關(guān)矩陣與存儲在所述數(shù)據(jù)庫中的每個用戶的每個基準(zhǔn)波段間相關(guān)矩陣間的每個相似度;以及識別結(jié)果輸出單元,其根據(jù)由所述特征量比較器計算出的每個相似度來從存儲在所述數(shù)據(jù)庫中的基準(zhǔn)波段間相關(guān)矩陣中選出一個理想基準(zhǔn)波段間相關(guān)矩陣,該理想基準(zhǔn)波段間相關(guān)矩陣與所述特征量提取器生成的目標(biāo)波段間相關(guān)矩陣間的相似度最高,并且所述識別結(jié)果輸出單元還輸出與所選基準(zhǔn)波段間相關(guān)矩陣對應(yīng)的ID。
9.一種說話者識別設(shè)備,該設(shè)備包括數(shù)據(jù)庫,其存儲基準(zhǔn)波段間相關(guān)矩陣來作為對應(yīng)于每個用戶ID的一個或多個用戶的聲音特征量,從每個用戶聲音的譜數(shù)據(jù)來生成基準(zhǔn)波段間相關(guān)矩陣,從而將譜數(shù)據(jù)分割成沿頻率軸的多個波段,從所述多個波段中獲得譜數(shù)據(jù)的多個包絡(luò)成分,并且所述基準(zhǔn)波段間相關(guān)矩陣的元素是每個用戶聲音的各個包絡(luò)成分間的相關(guān)值;聲音輸入單元,其接收要被識別的目標(biāo)用戶的聲音;特征量提取器,其從所述接收到的目標(biāo)用戶的聲音的譜數(shù)據(jù)中生成目標(biāo)波段間相關(guān)矩陣,從而將譜數(shù)據(jù)分割成沿頻率軸的多個波段,從所述多個波段中獲得譜數(shù)據(jù)的多個包絡(luò)成分,并且所述目標(biāo)波段間相關(guān)矩陣的元素是所述接收到的目標(biāo)用戶聲音的各個包絡(luò)成分間的相關(guān)值;特征量比較器,其從每對目標(biāo)波段間相關(guān)矩陣和每個基準(zhǔn)波段間相關(guān)矩陣來構(gòu)造每對小矩陣并計算每對小矩陣間的每個相似度,其中所述每對目標(biāo)波段間相關(guān)矩陣和每個基準(zhǔn)波段間相關(guān)矩陣是由預(yù)定行數(shù)和列數(shù)的元素組成的,從而通過從所述波段間相關(guān)矩陣中提取以給定間距排布的減少了行數(shù)和列數(shù)的元素來構(gòu)造所述每個小矩陣;以及識別結(jié)果輸出單元,其根據(jù)由所述特征量比較器計算出的每個相似度來從存儲在所述數(shù)據(jù)庫中的基準(zhǔn)波段間相關(guān)矩陣中選出一個理想基準(zhǔn)波段間相關(guān)矩陣,該理想基準(zhǔn)波段間相關(guān)矩陣與所述特征量提取器生成的目標(biāo)波段間相關(guān)矩陣間的相似度最高,并且所述識別結(jié)果輸出單元還輸出與所選基準(zhǔn)波段間相關(guān)矩陣對應(yīng)的ID。
全文摘要
本發(fā)明提供了一種用于評估聲音間相似度的方法和設(shè)備,該相似度評估方法由兩個處理來執(zhí)行。在第一處理中,從輸入聲音的譜數(shù)據(jù)來生成波段間相關(guān)矩陣,從而將譜數(shù)據(jù)分割成沿頻率軸彼此以間隔分開的多個離散波段,從所述多個離散波段中獲得譜數(shù)據(jù)的多個包絡(luò)成分,并且所述波段間相關(guān)矩陣的元素是輸入聲音的各個包絡(luò)成分間的相關(guān)值。在第二處理中通過使用由所述波段間相關(guān)矩陣生成處理針對一對要互相比較的輸入聲音而獲得的各自的波段間相關(guān)矩陣來對這對輸入聲音間的相似度進(jìn)行計算。
文檔編號G10L17/00GK101042870SQ20071008808
公開日2007年9月26日 申請日期2007年3月26日 優(yōu)先權(quán)日2006年3月24日
發(fā)明者東山三樹夫, 風(fēng)間道子, 后藤理, 川原毅彥, 吉岡靖雄 申請人:雅馬哈株式會社, 學(xué)校法人早稻田大學(xué)