專利名稱:一種基于近鄰原則合成情感模型的說話人識別方法
技術(shù)領(lǐng)域:
本發(fā)明屬于模式識別技術(shù)領(lǐng)域,具體涉及一種基于近鄰原則合成情感模型的說話人識別方法。
背景技術(shù):
說話人識別技術(shù)是利用信號處理和模式識別的方法,根據(jù)說話人的語音識別其身份的技術(shù),主要包括兩個步驟說話人模型訓(xùn)練和語音測試。目前,說話人語音識別采用的主要特征包括梅爾倒譜系數(shù)(MFCC)、線性預(yù)測編碼倒譜系數(shù)(LPCC)、感覺加權(quán)的線性預(yù)測系數(shù)(PLP)。說話人語音識別的算法主要包括矢量量化法(VQ)、通用背景模型法(GMM-UBM)、支持向量機法(SVM)等等。其中,GMM-UBM在整個說話人語音識別領(lǐng)域應(yīng)用非常廣泛。然而,在說話人語音識別中,說話人的訓(xùn)練語音通常為中性語音,因為在現(xiàn)實應(yīng)用中,用戶一般情況下只會提供中性發(fā)音下的語音訓(xùn)練自己的模型,要求所有用戶提供自己各種情感的語音在實際情況下并不太容易也不太方便實現(xiàn),且對系統(tǒng)的數(shù)據(jù)庫的承受負(fù)荷也是一種很高的要求。但是,在實際測試時,說話人可能會根據(jù)當(dāng)時的情緒發(fā)出富有情感的語音,如高興的、悲傷的、憤怒的等。然而,現(xiàn)有的說話人識別方法并不能自適應(yīng)這種訓(xùn)練語音與測試語音失配的情況,從而導(dǎo)致說話人識別系統(tǒng)性能下降,對于情感語音的識別成功率大打折扣。
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)所存在的上述技術(shù)缺陷,本發(fā)明提供了一種基于近鄰原則合成情感模型的說話人識別方法,合成出說話人的情感模型來降低模型的失配程度,提高對情感語音的識別成功率?!N基于近鄰原則合成情感模型的說話人識別方法,包括如下步驟(1)獲取若干套參考語音以及用戶的中性訓(xùn)練語音,對所有語音進(jìn)行模型訓(xùn)練,對應(yīng)得到若干套GMM(Gaussian Mixture Model)參考模型以及用戶的中性訓(xùn)練模型;所述的參考語音包括中性參考語音和m種情感參考語音;所述的GMM參考模型包括一個中性參考模型和m個情感參考模型,m為大于0的自然數(shù);(2)提取每套GMM參考模型的中性_情感高斯分量映射集;(3)根據(jù)KL散度(Kullback-Leibler divergence)計算法,逐一計算中性訓(xùn)練模型中的每一中性訓(xùn)練高斯分量與所有中性參考模型中的中性參考高斯分量的KL散度,選取每一中性訓(xùn)練高斯分量對應(yīng)的與之KL散度最小的η個中性參考高斯分量;進(jìn)而根據(jù)所述的中性_情感高斯分量映射集,提取出η個中性參考高斯分量中每個中性參考高斯分量對應(yīng)的m個情感參考高斯分量,η為大于0的自然數(shù);(4)將每一中性訓(xùn)練高斯分量對應(yīng)的nXm個情感參考高斯分量合成出對應(yīng)的m個情感訓(xùn)練高斯分量,進(jìn)而得到用戶的m個情感訓(xùn)練模型;
(5)根據(jù)步驟⑴至(4),合成得到所有用戶的GMM訓(xùn)練模型,所述的GMM訓(xùn)練模型包括所述的中性訓(xùn)練模型和m個情感訓(xùn)練模型;(6)輸入某一用戶的測試語音,將該測試語音與所有用戶的GMM訓(xùn)練模型逐一進(jìn)行得分計算,將得分最大的GMM訓(xùn)練模型所對應(yīng)的用戶作為識別出的用戶。所述的步驟(1)中,對所有語音進(jìn)行模型訓(xùn)練的過程為首先對語音依次進(jìn)行采樣量化、去零漂、預(yù)加重、加窗的預(yù)處理過程,然后采用基于MFCC的特征提取法或基于LPCC的特征提取法對預(yù)處理后的語音進(jìn)行特征提取,提取出語音的特征向量集,通過 EM(Expectation Maximization)法訓(xùn)練、出特征向量集的 UBM(Universal Background Model)模型,最后采用MAP (Maximum A Posterior)法從UBM模型中訓(xùn)練出語音的GMM模型。所述的中性-情感高斯分量映射集為中性參考模型中的中性參考高斯分量與各情感參考模型中的情感參考高斯分量的對應(yīng)關(guān)系。所述的KL散度計算法的方程表達(dá)式如下
權(quán)利要求
1.一種基于近鄰原則合成情感模型的說話人識別方法,包括如下步驟(1)獲取若干套參考語音以及用戶的中性訓(xùn)練語音,對所有語音進(jìn)行模型訓(xùn)練,對應(yīng)得到若干套GMM參考模型以及用戶的中性訓(xùn)練模型;所述的參考語音包括中性參考語音和m種情感參考語音;所述的GMM參考模型包括一個中性參考模型和m個情感參考模型,m為大于O的自然數(shù);(2)提取每套GMM參考模型的中性_情感高斯分量映射集;(3)根據(jù)KL散度計算法,逐一計算中性訓(xùn)練模型中的每一中性訓(xùn)練高斯分量與所有中性參考模型中的中性參考高斯分量的KL散度,選取每一中性訓(xùn)練高斯分量對應(yīng)的與之KL 散度最小的η個中性參考高斯分量;進(jìn)而根據(jù)所述的中性-情感高斯分量映射集,提取出η 個中性參考高斯分量中每個中性參考高斯分量對應(yīng)的m個情感參考高斯分量,η為大于O的自然數(shù);(4)將每一中性訓(xùn)練高斯分量對應(yīng)的nXm個情感參考高斯分量合成出對應(yīng)的m個情感訓(xùn)練高斯分量,進(jìn)而得到用戶的m個情感訓(xùn)練模型;(5)根據(jù)步驟(1)至(4),合成得到所有用戶的GMM訓(xùn)練模型;(6)輸入某一用戶的測試語音,將該測試語音與所有用戶的GMM訓(xùn)練模型逐一進(jìn)行得分計算,將得分最大的GMM訓(xùn)練模型所對應(yīng)的用戶作為識別出的用戶。
2.根據(jù)權(quán)利要求1所述的基于近鄰原則合成情感模型的說話人識別方法,其特征在于所述的步驟(1)中,對所有語音進(jìn)行模型訓(xùn)練的過程為首先對語音依次進(jìn)行采樣量化、去零漂、預(yù)加重、加窗的預(yù)處理過程,然后采用基于MFCC的特征提取法或基于LPCC的特征提取法對預(yù)處理后的語音進(jìn)行特征提取,提取出語音的特征向量集,通過EM法訓(xùn)練出特征向量集的UBM模型,最后采用MAP法從UBM模型中訓(xùn)練出語音的GMM模型。
3.根據(jù)權(quán)利要求1所述的基于近鄰原則合成情感模型的說話人識別方法,其特征在于所述的中性-情感高斯分量映射集為中性參考模型中的中性參考高斯分量與各情感參考模型中的情感參考高斯分量的對應(yīng)關(guān)系。
4.根據(jù)權(quán)利要求1所述的基于近鄰原則合成情感模型的說話人識別方法,其特征在于所述的KL散度計算法的方程表達(dá)式如下1「 IΣ I“^ = - ΙοΒΙ-^+Τγ(Σ-%) + (Α - μ2)τΣ-\μι - μ2)( 1 )2 L Ι、Ι_式1中S為KL散度,μ工和乙工分別為第一個高斯分量的均值和方差,μ 2和乙2分別為第二個高斯分量的均值和方差。
5.根據(jù)權(quán)利要求1所述的基于近鄰原則合成情感模型的說話人識別方法,其特征在于所述的步驟(4)中,將每一中性訓(xùn)練高斯分量對應(yīng)的nXm個情感參考高斯分量利用基于近鄰位置法或基于近鄰變化法合成出對應(yīng)的m個情感訓(xùn)練高斯分量;所述的基于近鄰位置法的方程表達(dá)式如下 1 “Me=-YjMe,(2)式2中μ e為中性訓(xùn)練高斯分量對應(yīng)的任一情感訓(xùn)練高斯分量的均值,μ μ為η個對應(yīng)的情感參考高斯分量中第i情感參考高斯分量的均值;所述的基于近鄰變化法的方程表達(dá)式如下
6.根據(jù)權(quán)利要求1所述的基于近鄰原則合成情感模型的說話人識別方法,其特征在于所述的步驟(6)中,將測試語音與所有用戶的GMM訓(xùn)練模型逐一進(jìn)行得分計算,該得分計算的公式為
全文摘要
本發(fā)明公開了一種基于近鄰原則合成情感模型的說話人識別方法,包括(1)訓(xùn)練出參考語音和用戶中性語音的模型;(2)提取GMM參考模型的中性-情感高斯分量映射集;(3)提取與用戶的中性訓(xùn)練高斯分量鄰近的若干中性參考高斯分量映射的情感參考高斯分量;(4)合成出用戶的情感訓(xùn)練高斯分量,進(jìn)而得到用戶的情感訓(xùn)練模型;(5)合成出所有用戶的GMM訓(xùn)練模型;(6)輸入測試語音進(jìn)行識別。本發(fā)明采用基于KL散度的近鄰原則從語音庫中提取若干與用戶的中性訓(xùn)練語音相似的參考語音,用參考語音中的情感參考語音合成出用戶的情感訓(xùn)練語音,改善了在訓(xùn)練語音與測試語音失配情況下說話人識別系統(tǒng)的性能,提高了說話人識別系統(tǒng)的魯棒性。
文檔編號G10L15/06GK102332263SQ20111028494
公開日2012年1月25日 申請日期2011年9月23日 優(yōu)先權(quán)日2011年9月23日
發(fā)明者吳朝暉, 楊瑩春, 陳力 申請人:浙江大學(xué)