一種基于簡(jiǎn)單直接度量學(xué)習(xí)算法的說(shuō)話人識(shí)別方法
【專利摘要】本發(fā)明提供一種基于簡(jiǎn)單直接度量學(xué)習(xí)算法的說(shuō)話人識(shí)別方法,包括:采集多個(gè)說(shuō)話人的語(yǔ)音樣本,提取所有樣本的i?vector,采用LDA或WCCN方法進(jìn)行信道補(bǔ)償處理,并進(jìn)行長(zhǎng)度規(guī)整,形成訓(xùn)練樣本集;根據(jù)訓(xùn)練樣本集的i?vector和說(shuō)話人身份,構(gòu)造相似樣本對(duì)集和非相似樣本對(duì)集;采用KISS算法,在相似樣本對(duì)集和非相似樣本對(duì)集上訓(xùn)練得到度量矩陣;對(duì)于新的兩條語(yǔ)音,先將它們的i?vector提取出來(lái),采用LDA或WCCN方法進(jìn)行信道補(bǔ)償處理,并進(jìn)行長(zhǎng)度規(guī)整,使用前面計(jì)算出來(lái)的度量矩陣,計(jì)算出兩個(gè)i?vector之間的馬氏距離,并和閾值進(jìn)行比較,判定這兩條新的語(yǔ)音是否屬于同一個(gè)說(shuō)話人。本發(fā)明所得到的馬氏距離度量矩陣更能真實(shí)反映樣本空間的相似性和區(qū)分性,從而提高說(shuō)話人識(shí)別系統(tǒng)的性能。
【專利說(shuō)明】
一種基于簡(jiǎn)單直接度量學(xué)習(xí)算法的說(shuō)話人識(shí)別方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明是一種基于簡(jiǎn)單直接度量學(xué)習(xí)算法的說(shuō)話人識(shí)別方法,可廣泛用于說(shuō)話人 識(shí)別,模式識(shí)別,度量學(xué)習(xí),機(jī)器學(xué)習(xí)等領(lǐng)域。
【背景技術(shù)】
[0002] 說(shuō)話人識(shí)別(Speaker Recognition,SR)又稱聲紋識(shí)別,是一種通過(guò)對(duì)說(shuō)話人的語(yǔ) 音進(jìn)行處理和分析,從而對(duì)說(shuō)話人身份進(jìn)行鑒別的技術(shù)。如何有效衡量說(shuō)話人語(yǔ)音樣本間 的相似度,是目前說(shuō)話人識(shí)別研究領(lǐng)域的熱點(diǎn)問(wèn)題之一。模式識(shí)別領(lǐng)域中,對(duì)樣本間相似度 進(jìn)行衡量的方法有很多,較常用的方法有距離打分法,如余弦距離打分(cosine distance scoring)和馬氏距離打分(Mahalanobis distance scoring)等。
[0003] 余弦距離打分法通過(guò)計(jì)算樣本向量?jī)?nèi)積空間的夾角余弦值來(lái)衡量樣本間的相似 度,它根據(jù)向量方向上的差異進(jìn)行區(qū)分,不能衡量向量維度上數(shù)值的差異。余弦距離dc( Xl, Xi)的計(jì)筧公式為:
[0005] 其中,余弦距離(1(^^」),1;[為第;[條語(yǔ)音的;[-¥6(31:01'向量,1'表示轉(zhuǎn)置。
[0006] 兩個(gè)向量(Xi,Xj)之間的馬氏距離dM(Xi,Xj)定義為:
[0008] 其中,馬氏距離dM(Xi,Xj),為第i條語(yǔ)音的i-vector向量,T表示轉(zhuǎn)置。
[0009] 只有獲得能夠反映樣本空間同類樣本相似性、非同類樣本區(qū)分性的半正定度量矩 陣M,計(jì)算的馬氏距離才能有效衡量樣本相似度,但訓(xùn)練樣本有限使獲得這種度量矩陣有難 度。
[0010] 度量學(xué)習(xí)方法一般根據(jù)訓(xùn)練樣本含有的類別信息,通過(guò)自動(dòng)學(xué)習(xí)得到一個(gè)距離度 量矩陣,常用來(lái)計(jì)算目標(biāo)樣本間的馬氏距離得分,從而對(duì)未知數(shù)據(jù)的相似度進(jìn)行預(yù)測(cè)。度量 學(xué)習(xí)算法的基本目標(biāo)是利用訓(xùn)練樣本的先驗(yàn)信息,在盡可能滿足某些條件的前提下,通過(guò) 最優(yōu)化求解下式來(lái)找到一個(gè)全局的、線性的變換距離度量矩陣M:
[0011] min l(Af)+ l R(M)
[0012] 1(M)是損失函數(shù),R(M)是訓(xùn)練距離度量矩陣M過(guò)程中的規(guī)整項(xiàng),當(dāng)損失函數(shù)1(M)在 訓(xùn)練過(guò)程中過(guò)擬合時(shí)進(jìn)行約束修正,平衡參數(shù)1 3〇。度量矩陣M用于計(jì)算樣本(Xl,&)間的馬 氏距離:
[0013] dM(Xi,Xj) = (Xi-Xj)TM(Xi_Xj)
[0014] 其中,馬氏距離dM(Xi,Xj),Xi為第i條語(yǔ)音的i-vector向量。
[0015]用于訓(xùn)練度量矩陣的訓(xùn)練樣本的數(shù)目越來(lái)越大,巨大的數(shù)據(jù)量使得大規(guī)模數(shù)據(jù)的 分析和處理帶來(lái)了很大的麻煩,帶來(lái)所謂的"維數(shù)災(zāi)難"。隨著數(shù)據(jù)維數(shù)的升高,這些高維數(shù) 據(jù)之間往往存在較大的相關(guān)性和冗余度。
【發(fā)明內(nèi)容】
[0016]本發(fā)明的目的在于提供一種基于簡(jiǎn)單直接度量學(xué)習(xí)算法的說(shuō)話人識(shí)別方法,該方 法所得的度量矩陣可有效反映說(shuō)話人空間中的相似性和區(qū)分性,同時(shí)將該度量矩陣用于測(cè) 試目標(biāo)說(shuō)話人語(yǔ)音樣本的馬氏距離得分分類器,可使說(shuō)話人識(shí)別系統(tǒng)取得很好的識(shí)別效 果。
[0017]為達(dá)到以上目的,本發(fā)明采取的技術(shù)方案是:
[0018] 一種基于簡(jiǎn)單直接度量學(xué)習(xí)算法(Keep it simple and straight!,KISS)的說(shuō)話 人識(shí)別方法,其特征在于:采用KISS算法訓(xùn)練處理后的i-vector,計(jì)算說(shuō)話人語(yǔ)音測(cè)試樣本 與目標(biāo)樣本之間的馬氏距離;
[0019] 保持簡(jiǎn)單直接度量學(xué)習(xí)算法(Keep it simple and straight!,KISS),簡(jiǎn)單有效, 存在全局最優(yōu)解,能快速求得滿足條件的度量矩陣,用于訓(xùn)練的樣本對(duì)只需知道是否屬于 同類。求解的度量矩陣不會(huì)出現(xiàn)過(guò)擬合,且易于獲得。KISS算法的可擴(kuò)展性好,無(wú)需最優(yōu)化 求解的迭代過(guò)程,只需計(jì)算兩個(gè)很小的協(xié)方差矩陣。該度量矩陣可有效反映說(shuō)話人空間中 的相似性和區(qū)分性,將該度量矩陣用于測(cè)試目標(biāo)說(shuō)話人語(yǔ)音樣本的馬氏距離得分分類器, 使說(shuō)話人識(shí)別系統(tǒng)取得了很好的識(shí)別效果。性能較優(yōu),且度量矩陣的訓(xùn)練過(guò)程的速度較快。 [0020]本發(fā)明的目的通過(guò)以下技術(shù)方案來(lái)具體實(shí)現(xiàn):
[0021 ]采集多個(gè)說(shuō)話人的語(yǔ)音樣本,提取所有樣本中的i-vector;
[0022]采用LDA或WCCN方法進(jìn)行信道補(bǔ)償處理所有樣本中的i-vector,并進(jìn)行長(zhǎng)度規(guī)整, 形成訓(xùn)練樣本集;
[0023]構(gòu)造基于訓(xùn)練樣本集的i-vector和說(shuō)話人身份的相似樣本對(duì)集和非相似樣本對(duì) 集;
[0024]采用KISS算法,在相似樣本對(duì)集和非相似樣本對(duì)集上訓(xùn)練得到度量矩陣;
[0025]對(duì)于新的兩條語(yǔ)音,將它們的i-vector經(jīng)過(guò)以上所述提取、信道補(bǔ)償處理和長(zhǎng)度 規(guī)整的處理后,基于之前計(jì)算出來(lái)的度量矩陣,計(jì)算兩個(gè)i-vector之間的馬氏距離;
[0026] 將所得的馬氏距離和閾值進(jìn)行比較,基于比較結(jié)果,對(duì)這兩條新的語(yǔ)音是否屬于 同一說(shuō)話人作出判斷。
[0027] 進(jìn)一步的,采用LDA方法進(jìn)行信道補(bǔ)償處理所有樣本中的i-vector,具體包括: [0028]通過(guò)投影矩陣算法最小化同類樣本間距離和最大化非同類樣本間距離。
[0029]進(jìn)一步的,采用WCCN方法進(jìn)行信道補(bǔ)償處理所有樣本中的i-vector,具體包括:
[0030] 使目標(biāo)樣本空間中的基盡可能正交。
[0031] 進(jìn)一步的,該方法還包括:
[0032] 對(duì)提取所有樣本中的i-vector進(jìn)行長(zhǎng)度規(guī)整。
[0033]進(jìn)一步的,其特征在于,采用KISS算法,在相似樣本對(duì)集和非相似樣本對(duì)集上訓(xùn)練 得到度量矩陣,具體包括:
[0034] 分別求解出所述目標(biāo)樣本中相似樣本對(duì)的協(xié)方差和非相似樣本對(duì)的協(xié)方差;
[0035] 計(jì)算所述相似樣本對(duì)的協(xié)方差和非相似樣本對(duì)的協(xié)方差的度量矩陣;
[0036]進(jìn)一步的,該方法還包括:
[0037]根據(jù)所得的度量矩陣計(jì)算兩個(gè)i-vector之間的馬氏距離。
[0038] 進(jìn)一步的,將所得的馬氏距離和閾值進(jìn)行比較,基于比較結(jié)果,對(duì)這兩條新的語(yǔ)音 是否屬于同一說(shuō)話人作出判斷,具體包括:
[0039] 如果所得的馬氏距離大于閾值,則說(shuō)明這兩條新的語(yǔ)音不是屬于同一說(shuō)話人;
[0040] 如果所得的馬氏距離在閾值之內(nèi),則說(shuō)明這兩條新的語(yǔ)音是屬于同一說(shuō)話人。
[0041] 本發(fā)明公開(kāi)一種基于簡(jiǎn)單直接度量學(xué)習(xí)算法的說(shuō)話人識(shí)別方法。保持簡(jiǎn)單直接度 量學(xué)習(xí)算法(KISS)利用成對(duì)訓(xùn)練樣本的約束信息訓(xùn)練一個(gè)馬氏距離度量矩陣,利用成對(duì)訓(xùn) 練樣本對(duì)的約束信息來(lái)指導(dǎo)度量學(xué)習(xí)過(guò)程,對(duì)已標(biāo)記的相似樣本對(duì)和非相似樣本對(duì)進(jìn)行度 量矩陣訓(xùn)練時(shí)有效利用了訓(xùn)練樣本數(shù)據(jù)間相似性與非相似性的指導(dǎo)信息,得到的度量矩陣 更加真實(shí)反映說(shuō)話人空間的區(qū)分性,使得馬氏距離得分分類器對(duì)未知說(shuō)話人語(yǔ)音樣本間的 相似性可以進(jìn)行較好的預(yù)測(cè)。在度量矩陣訓(xùn)練過(guò)程中,對(duì)相似樣本對(duì)和非相似樣本對(duì)的協(xié) 方差進(jìn)行計(jì)算,并求出兩個(gè)協(xié)方差的差,作為馬氏距離度量矩陣,訓(xùn)練出來(lái)的度量矩陣用于 說(shuō)話人識(shí)別系統(tǒng),取得了很好的識(shí)別效果。
【附圖說(shuō)明】
[0042]
[0043]圖1為根據(jù)本發(fā)明的一種基于簡(jiǎn)單直接度量學(xué)習(xí)算法的說(shuō)話人識(shí)別方法的一實(shí)施 例的流程圖。
【具體實(shí)施方式】
[0044] 下面結(jié)合附圖對(duì)本發(fā)明實(shí)施例的一種基于簡(jiǎn)單直接度量學(xué)習(xí)算法的說(shuō)話人識(shí)別 方法進(jìn)行詳細(xì)描述。參照?qǐng)D1,圖1示出了本發(fā)明的方法的一實(shí)施例的流程圖,該方法包括以 下步驟:
[0045] 在步驟S110中,采集多個(gè)說(shuō)話人的語(yǔ)音樣本,提取所有樣本中的i-vector;
[0046] 在步驟S120中,采用LDA或WCCN方法進(jìn)行信道補(bǔ)償處理所有樣本中的i-vector,并 進(jìn)行長(zhǎng)度規(guī)整,形成訓(xùn)練樣本集;
[0047]在步驟S130中,構(gòu)造基于訓(xùn)練樣本集的i-vector和說(shuō)話人身份的相似樣本對(duì)集和 非相似樣本對(duì)集;
[0048]在步驟S140中,采用KISS算法,在相似樣本對(duì)集和非相似樣本對(duì)集上訓(xùn)練得到度 量矩陣;
[0049] 在步驟S150中,對(duì)于新的兩條語(yǔ)音,將它們的i-vector經(jīng)過(guò)以上所述提取、信道補(bǔ) 償處理和長(zhǎng)度規(guī)整的處理后,基于之前計(jì)算出來(lái)的度量矩陣,計(jì)算兩個(gè)i-vector之間的馬 氏距離;
[0050] 在步驟160中,將所得的馬氏距離和閾值進(jìn)行比較,基于比較結(jié)果,對(duì)這兩條新的 語(yǔ)音是否屬于同一說(shuō)話人作出判斷。
[0051 ] 進(jìn)一步的,采用線性判別分析(Linear Discriminant Analysis,LDA)方法進(jìn)行信 道補(bǔ)償處理所有樣本中的i-vector,具體包括:
[0052]線性判別分析(LDA)的目標(biāo)為通過(guò)投影矩陣算法最小化同類樣本間距離和最大化 非同類樣本間距離。
[0053]具體為:定義類間散度矩陣Sb和類內(nèi)散度矩陣Sw;
[0054] Sb為說(shuō)話人類間散度矩陣,Sw為說(shuō)話人類內(nèi)散度矩陣,~是說(shuō)話人s對(duì)應(yīng)的語(yǔ)音數(shù); 訴是所有說(shuō)話人i-vector均值; < 是第s個(gè)說(shuō)話人i-vector均值。
[0055] 投影矩陣A由下式特征值1對(duì)應(yīng)的特征向量組成。
[0056] Sbv = 1 SwV
[0057] Sb為說(shuō)話人類間散度矩陣,Sw為說(shuō)話人類內(nèi)散度矩陣,1為說(shuō)話人特征值對(duì)角陣,v 是說(shuō)話人空間方向。
[0058] 進(jìn)一步的,米用類內(nèi)方差規(guī)整(Within Class Covariance Normalization,WCCN) 方法進(jìn)行信道補(bǔ)償處理所有樣本中的i-vector,具體包括:
[0059]類內(nèi)協(xié)方差規(guī)整(WCCN)的目標(biāo)為使樣本空間中的基盡可能正交。
[0060]類內(nèi)協(xié)方差矩陣的計(jì)算如下:
[0062] 共有s個(gè)說(shuō)話人;]^是說(shuō)話人s對(duì)應(yīng)的語(yǔ)音數(shù);是所有說(shuō)話人i-vector均值; <是 第s個(gè)說(shuō)話人i-vector均值。
[0063] 對(duì)特征向量進(jìn)行映射:。其中B為F1的喬萊斯基分解,即W^iBBt。
[0064]更進(jìn)一步的,該方法還包括:
[0065]對(duì)提取所有樣本中的i-vector進(jìn)行長(zhǎng)度規(guī)整。
[0066]進(jìn)一步的,采用KISS算法,在相似樣本對(duì)集和非相似樣本對(duì)集上訓(xùn)練得到度量矩 陣,具體包括:
[0067] 分別求解出所述目標(biāo)樣本中相似樣本對(duì)的協(xié)方差和非相似樣本對(duì)的協(xié)方差,計(jì)算 所述相似樣本對(duì)的協(xié)方差和非相似樣本對(duì)的協(xié)方差的度量矩陣。
[0068] 具體為,首先分別求解出所有相似樣本對(duì)的協(xié)方差和非相似樣本對(duì)的協(xié)方差 。乂
[0071] Xi表示第i條語(yǔ)音的i-vector向量,yij = 0表示第i條語(yǔ)音和第j條語(yǔ)音來(lái)自不同說(shuō) 話人,yu = l表示第i條語(yǔ)音和第j條語(yǔ)音來(lái)自相同說(shuō)話人,可求得度量矩陣M:
[0072] -r4 >
[0073] S&h為相似樣本對(duì)的協(xié)方差,為非相似樣本對(duì)的協(xié)方差,得到M作為最終所 要求解的度量矩陣。
[0074]進(jìn)一步的,根據(jù)所得的度量矩陣計(jì)算兩個(gè)i-vector之間的馬氏距離,具體包括:根 據(jù)之前求得的度量矩陣M,計(jì)算兩個(gè)i-vector (Xi,Xj)間的馬氏距離:
[0075] dM(Xi,Xj) = (Xi-Xj)TM(Xi_Xj)
[0076] Xi表示第i條語(yǔ)音的i-vector向量,M為度量矩陣,dM(Xi,Xj)為兩個(gè)i-vector (Xi, XJ)間的馬氏距離。
[0077]更進(jìn)一步的,將所得的馬氏距離和閾值進(jìn)行比較,基于比較結(jié)果,對(duì)這兩條新的語(yǔ) 音是否屬于同一說(shuō)話人作出判斷,具體包括:
[0078]根據(jù)所得的馬氏距離計(jì)算為兩個(gè)i-VeCt〇r(Xl,幻)間的相似度得分:
[0079] ScoreM(Xi,Xj) =-(Xi-Xj)TM(Xi_Xj)
[0080] 其中,馬氏距離得分ScoreM(Xi,Xj),M為度量矩陣,Xi為第i條語(yǔ)音的i-vector向 量。
[0081]將所得的馬氏距離得分Sc〇reM(Xl,&)與閾值作比較,如果馬氏距離得分大于閾 值,則說(shuō)明這兩條新的語(yǔ)音不是屬于同一說(shuō)話人;如果馬氏距離得分在閾值之內(nèi),則說(shuō)明這 兩條新的語(yǔ)音是屬于同一說(shuō)話人。
[0082] 本實(shí)施例中,s為說(shuō)話人數(shù)量;1^是說(shuō)話人s對(duì)應(yīng)的語(yǔ)音數(shù);是所有說(shuō)話人i_ vector均值;疋是第s個(gè)說(shuō)話人i-vector均值。
[0083] 為了便于理解本發(fā)明的技術(shù)方案,以下通過(guò)一個(gè)具體的實(shí)驗(yàn)測(cè)試應(yīng)用場(chǎng)景為例進(jìn) 行說(shuō)明實(shí)施例提供的方法達(dá)到的效果及可實(shí)施性:
[0084] 實(shí)驗(yàn)在MATLAB環(huán)境下進(jìn)行,說(shuō)話人語(yǔ)音測(cè)試樣本的實(shí)驗(yàn)語(yǔ)音數(shù)據(jù)均來(lái)自于美國(guó)國(guó) 家標(biāo)準(zhǔn)與技術(shù)局(NIST)說(shuō)話人評(píng)測(cè)(SRE) 04、05、06、08年核心語(yǔ)音庫(kù)。說(shuō)話人識(shí)別系統(tǒng)首先 對(duì)采集的多個(gè)說(shuō)話人的目標(biāo)樣本的語(yǔ)音數(shù)據(jù)進(jìn)行去冗余和降噪處理,將語(yǔ)音模擬信號(hào)轉(zhuǎn)換 離散語(yǔ)音數(shù)字信號(hào)。用幀長(zhǎng)20ms的窗函數(shù)將語(yǔ)音信號(hào)交疊分幀(幀移10ms)。提取13維梅爾 頻率倒譜系數(shù)(MFCC)與其一階、二階差分組合成39維特征向量對(duì)語(yǔ)音信號(hào)進(jìn)行表示。采用 NISTSRE04、05和06年語(yǔ)音數(shù)據(jù)集訓(xùn)練出512階性別相關(guān)的UBM,在此基礎(chǔ)上訓(xùn)練出所有說(shuō)話 人的目標(biāo)樣本的i _vector向量(400維),并對(duì)i-vector向量進(jìn)行LDA、WCCN和長(zhǎng)度規(guī)整等魯 棒性處理,用于后續(xù)過(guò)程。其中08年語(yǔ)音數(shù)據(jù)作為說(shuō)話人的目標(biāo)樣本和語(yǔ)音測(cè)試樣本進(jìn)行 相似度評(píng)測(cè)。
[0085] 進(jìn)行度量學(xué)習(xí)實(shí)驗(yàn)前,首先構(gòu)造用于訓(xùn)練的相似樣本對(duì)集和非相似樣本對(duì)集。本 實(shí)施例使用NIST SRE04、05、06年語(yǔ)音集中的491個(gè)男性6609條語(yǔ)音,及703個(gè)女性9136條語(yǔ) 音來(lái)構(gòu)造相似樣本對(duì)集S與非相似樣本對(duì)集D。
[0086] 從語(yǔ)音中提取出的i-vector經(jīng)過(guò)LDA或WCCN信道補(bǔ)償處理后,采用KISS算法訓(xùn)練 一個(gè)馬氏距離度量矩陣,計(jì)算馬氏距離計(jì)算目標(biāo)i-vector與測(cè)試i-vector間的相似度得 分。
[0087] 設(shè)s個(gè)說(shuō)話人;~是說(shuō)話人s對(duì)應(yīng)的語(yǔ)音數(shù);^是所有說(shuō)話人i-vector均值;%.是各 說(shuō)話人i-vector均值。
[0088] 其中,線性判別分析(LDA)的目標(biāo)為通過(guò)投影最小化同類樣本間距離和最大化非 同類樣本間距離。定義類間散度矩陣Sb和類內(nèi)散度矩陣S w:
[0089] Sb為說(shuō)話人類間散度矩陣,Sw為說(shuō)話人類內(nèi)散度矩陣,^是說(shuō)話人s對(duì)應(yīng)的語(yǔ)音數(shù); 是所有說(shuō)話人i -vector均值;巧是第s個(gè)說(shuō)話人i-vector均值。
[0090] 投影矩陣A由下式特征值1對(duì)應(yīng)的特征向量組成。
[0091] Sbv = 1 SwV
[0092] Sb為說(shuō)話人類間散度矩陣,Sw為說(shuō)話人類內(nèi)散度矩陣,1為說(shuō)話人特征值對(duì)角陣,v 是說(shuō)話人空間方向。
[0093]類內(nèi)協(xié)方差規(guī)整(WCCN)的目標(biāo)為使樣本空間的基盡可能正交。類內(nèi)協(xié)方差矩陣的 計(jì)算如下:
[0095] 共有s個(gè)說(shuō)話人;^是說(shuō)話人s對(duì)應(yīng)的語(yǔ)音數(shù)W是所有說(shuō)話人i-vector均值;疋是 第s個(gè)說(shuō)話人i-vector均值。
[0096] 對(duì)特征向量進(jìn)行映射:夂=^。其中B為F1的喬萊斯基分解,即W_i = B Bt。
[0097] 對(duì)i-vector向量進(jìn)行長(zhǎng)度規(guī)整可提高系統(tǒng)性能。
[0098] 其中,KISS算法如下:
[0099]分別求解出所有相似樣本對(duì)的協(xié)方差^^和非相似樣本對(duì)的協(xié)方差
[0102] Xl表示第i條語(yǔ)音的i-vector向量,yij = 0表示第i條語(yǔ)音和第j條語(yǔ)音來(lái)自不同說(shuō) 話人,yu = l表示第i條語(yǔ)音和第j條語(yǔ)音來(lái)自相同說(shuō)話人,可求得度量矩陣M:
[0103] )
[0104] 為相似樣本對(duì)的協(xié)方差,s_為非相似樣本對(duì)的協(xié)方差,得至ijM作為最終所要 求解的度量矩陣,用于計(jì)算說(shuō)話人語(yǔ)音測(cè)試樣本和目標(biāo)樣本( Xl,&)間的馬氏距離:
[0105] dM(Xi,Xj) = (Xi-Xj)TM(Xi_Xj)
[0106] Xi表示第i條語(yǔ)音的i-vector向量,M為度量矩陣,dM(Xi,Xj)為說(shuō)話人語(yǔ)音測(cè)試樣 本和目標(biāo)樣本(Xl,幻)間的馬氏距離。
[0107]根據(jù)該距離計(jì)算說(shuō)話人樣本(Xl,幻)間的相似度得分:
[0108] ScoreM(Xi,Xj) =-(Xi-Xj)TM(Xi_Xj)
[0109] 其中,馬氏距離得分ScoreM(Xi,Xj),M為度量矩陣,Xi為第i條語(yǔ)音的i-vector向 量。
[0110] 本實(shí)施例提供的方法,保持簡(jiǎn)單直接(KISS)算法,簡(jiǎn)單有效,存在全局最優(yōu)解,能 快速求得滿足條件的距離度量矩陣,用于訓(xùn)練的樣本對(duì)只需知道是否屬于同類。要求解的 度量矩陣不會(huì)出現(xiàn)過(guò)擬合,且易于獲得,KISS算法的可擴(kuò)展性好,無(wú)需最優(yōu)化求解的迭代過(guò) 程,只需計(jì)算兩個(gè)很小的協(xié)方差矩陣。該度量矩陣可有效反映說(shuō)話人空間中的相似性和區(qū) 分性,將該度量矩陣用于測(cè)試目標(biāo)說(shuō)話人語(yǔ)音樣本的馬氏距離得分分類器,使說(shuō)話人識(shí)別 系統(tǒng)取得了很好的識(shí)別效果。性能接近甚至優(yōu)于目前流行的度量學(xué)習(xí)算法,且度量矩陣的 訓(xùn)練過(guò)程的速度比其他算法快,訓(xùn)練出來(lái)的馬氏距離度量矩陣更能真實(shí)反映樣本空間的相 似性和區(qū)分性,從而提高說(shuō)話人識(shí)別系統(tǒng)的性能。
[0111] 需要指出,根據(jù)實(shí)施的需要,可將本申請(qǐng)中描述的各個(gè)步驟拆分為更多步驟,也可 將兩個(gè)或多個(gè)步驟部分操作組合成新的步驟,以實(shí)現(xiàn)本發(fā)明的目的。
[0112] 上述根據(jù)本發(fā)明的方法可在硬件、固件中實(shí)現(xiàn),或者被實(shí)現(xiàn)為可存儲(chǔ)在記錄介質(zhì) (諸如CD ROM、RAM、軟盤(pán)、硬盤(pán)或磁光盤(pán))中的軟件或計(jì)算機(jī)代碼,或者被實(shí)現(xiàn)通過(guò)網(wǎng)絡(luò)下載 的原始存儲(chǔ)在遠(yuǎn)程記錄介質(zhì)或非暫時(shí)機(jī)器可讀介質(zhì)中并將被存儲(chǔ)在本地記錄介質(zhì)中的計(jì) 算機(jī)代碼,從而在此描述的方法可被存儲(chǔ)在使用通用計(jì)算機(jī)、專用處理器或者可編程或?qū)?用硬件(諸如ASIC或FPGA)的記錄介質(zhì)上的這樣的軟件處理??梢岳斫猓?jì)算機(jī)、處理器、微 處理器控制器或可編程硬件包括可存儲(chǔ)或接收軟件或計(jì)算機(jī)代碼的存儲(chǔ)組件(例如,RAM、 ROM、閃存等),當(dāng)所述軟件或計(jì)算機(jī)代碼被計(jì)算機(jī)、處理器或硬件訪問(wèn)且執(zhí)行時(shí),實(shí)現(xiàn)在此 描述的處理方法。此外,當(dāng)通用計(jì)算機(jī)訪問(wèn)用于實(shí)現(xiàn)在此示出的處理的代碼時(shí),代碼的執(zhí)行 將通用計(jì)算機(jī)轉(zhuǎn)換為用于執(zhí)行在此示出的處理的專用計(jì)算機(jī)。
[0113]以上所述,僅為本發(fā)明的【具體實(shí)施方式】,但本發(fā)明的保護(hù)范圍并不局限于此,任何 熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵 蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)以所述權(quán)利要求的保護(hù)范圍為準(zhǔn)。
【主權(quán)項(xiàng)】
1. 一種基于簡(jiǎn)單直接度量學(xué)習(xí)算法的說(shuō)話人識(shí)別方法,其特征在于,該方法包括以下 步驟: 采集多個(gè)說(shuō)話人的語(yǔ)音樣本,提取所有樣本中的i-vector; 采用LDA或WCCN方法進(jìn)行信道補(bǔ)償處理所有樣本中的i-vector,并進(jìn)行長(zhǎng)度規(guī)整,形成 訓(xùn)練樣本集; 構(gòu)造基于訓(xùn)練樣本集的i-vector和說(shuō)話人身份的相似樣本對(duì)集和非相似樣本對(duì)集; 采用KISS算法,在相似樣本對(duì)集和非相似樣本對(duì)集上訓(xùn)練得到度量矩陣; 對(duì)于新的兩條語(yǔ)音,將它們的i-vector經(jīng)過(guò)以上所述提取、信道補(bǔ)償處理和長(zhǎng)度規(guī)整 的處理后,基于之前計(jì)算出來(lái)的度量矩陣,計(jì)算兩個(gè)i-vector之間的馬氏距離; 將所得的馬氏距離和閾值進(jìn)行比較,基于比較結(jié)果,對(duì)這兩條新的語(yǔ)音是否屬于同一 說(shuō)話人作出判斷。2. 如權(quán)利要求1所述的方法,其特征在于,采用LDA或WCCN方法進(jìn)行信道補(bǔ)償處理所有 樣本中的i-vector,具體包括: 通過(guò)投影矩陣算法最小化同類樣本間距離和最大化非同類樣本間距離。3. 如權(quán)利要求1所述的方法,其特征在于,采用LDA或WCCN方法進(jìn)行信道補(bǔ)償處理所有 樣本中的i-vector,具體包括: 使目標(biāo)樣本空間中的基盡可能正交。4. 如權(quán)利要求1所述的方法,其特征在于,該方法還包括: 對(duì)提取所有樣本中的i-vector進(jìn)行長(zhǎng)度規(guī)整。5. 如權(quán)利要求1所述的方法,其特征在于,采用KISS算法,在相似樣本對(duì)集和非相似樣 本對(duì)集上訓(xùn)練得到度量矩陣,具體包括: 分別求解出所有樣本中相似樣本對(duì)的協(xié)方差和非相似樣本對(duì)的協(xié)方差; 計(jì)算所述相似樣本對(duì)的協(xié)方差和非相似樣本對(duì)的協(xié)方差的度量矩陣。6. 如權(quán)利要求1所述的方法,其特征在于,該方法還包括: 根據(jù)所得的度量矩陣計(jì)算兩個(gè)i-vector之間的馬氏距離。7. 如權(quán)利要求1所述的方法,其特征在于,將所得的馬氏距離和閾值進(jìn)行比較,基于比 較結(jié)果,對(duì)這兩條新的語(yǔ)音是否屬于同一說(shuō)話人作出判斷,具體包括: 如果所得的馬氏距離大于閾值,則說(shuō)明這兩條新的語(yǔ)音不是屬于同一說(shuō)話人; 如果所得的馬氏距離在閾值之內(nèi),則說(shuō)明這兩條新的語(yǔ)音是屬于同一說(shuō)話人。
【文檔編號(hào)】G10L17/04GK105931646SQ201610281884
【公開(kāi)日】2016年9月7日
【申請(qǐng)日】2016年4月29日
【發(fā)明人】雷震春, 楊印根, 朱明華
【申請(qǐng)人】江西師范大學(xué)