專利名稱:基于中性和情感聲紋模型轉(zhuǎn)換的說話人識別方法
技術(shù)領(lǐng)域:
本發(fā)明涉及生物特征識別技術(shù),主要是一種基于中性和情感聲紋模型轉(zhuǎn)換的說話人識別方法。
背景技術(shù):
生物認(rèn)證技術(shù)以人們自身的物理特征作為身份認(rèn)證依據(jù),從根本上區(qū)別于傳統(tǒng)的基于“你所擁有的東西”或者“你所知道的東西”的認(rèn)證技術(shù),真正以人自身作為身份認(rèn)證的依據(jù),自己真正代表了自己。其中,根據(jù)人的語音進(jìn)行身份認(rèn)證的技術(shù)稱為說話人識別技術(shù)。
說話人識別分為用戶模型訓(xùn)練和用戶語音測試兩個步驟。在訓(xùn)練過程中,需要用戶提供語音訓(xùn)練和用戶身份匹配的用戶模型。在測試過程中,需要用戶提供語音進(jìn)行身份確認(rèn)。目前,說話人識別方法主要有GMM方法,GMM-UBM方法,SVM方法,HMM方法,VQ方法。
傳統(tǒng)的說話人識別方法需要用戶提供中性語音進(jìn)行用戶模型訓(xùn)練和用戶測試,但在日常生活中,人們的語音會受到自身情感波動的影響,這會影響系統(tǒng)的識別性能。用戶在各種情感狀態(tài)下發(fā)出的語音被稱為情感語音。在測試語音或者訓(xùn)練語音中含有情感語音的說話人識別方法,被稱為情緒化的說話人識別。
發(fā)明內(nèi)容
本發(fā)明要解決上述技術(shù)所存在的缺陷,提供一種基于中性和情感聲紋模型轉(zhuǎn)換的說話人識別方法,根據(jù)用戶的中性語音分布情況得到用戶的情感語音分布情況,以此來提高說話人識別的準(zhǔn)確率。用戶的語音特征分布用高斯混合模型(GMM)來建模,所以本發(fā)明重點解決的是中性語音模型和情感語音模型之間的轉(zhuǎn)換。
本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案這種基于中性和情感聲紋模型轉(zhuǎn)換的說話人識別方法基于中性和情感聲紋模型轉(zhuǎn)換的說話人識別方法基于中性和情感聲紋模型轉(zhuǎn)換的說話人識別方法,包括如下步驟(1)、語音特征的提取先進(jìn)行音頻預(yù)處理,音頻預(yù)處理分為采樣量化,去零漂,預(yù)加重和加窗三個部分;然后進(jìn)行提取倒譜特征MFCC;(2)、建立情感模型庫進(jìn)行高斯混合模型訓(xùn)練,對于每個用戶的中性語音訓(xùn)練中性模型,進(jìn)行中性-情感模型轉(zhuǎn)化,通過中性情感語音轉(zhuǎn)化算法得到情感語音模型;(3)、測試語音打分,進(jìn)行說話人識別。
第一步為創(chuàng)建情感語音模型數(shù)據(jù)庫,采集大量用戶的各種情感語音和中性語音訓(xùn)練GMM模型,并在中性語音模型和情感語音模型之間建立一一對應(yīng)的關(guān)系;第二步根據(jù)用戶的中性語音和情感語音數(shù)據(jù)集合訓(xùn)練用戶的情感語音模型,其中該用戶的語音并不包括在情感語音集合中。通過該過程可以訓(xùn)練出具有不同情感的用戶語音模型。
本發(fā)明有益的效果是本技術(shù)采用中性-情感模型轉(zhuǎn)換算法提高了情緒化說話人識別的識別率。本技術(shù)根據(jù)用戶中性語音模型訓(xùn)練出用戶的情感語音模型,提高了系統(tǒng)的識別率。
圖1是本發(fā)明的基于中性-情感模型轉(zhuǎn)化的情緒化的說話人識別技術(shù)的框架圖; 圖2是本發(fā)明的中性-情感模型轉(zhuǎn)換的流程圖;
具體實施例方式 下面結(jié)合附圖和實施例對本發(fā)明作進(jìn)一步介紹本發(fā)明的方法共分三步。
第一步 特征提取 I.音頻預(yù)處理 音頻預(yù)處理分為采樣量化,去零漂,預(yù)加重和加窗三個部分。
A)、采樣量化 用銳截止濾波器對音頻信號進(jìn)行濾波,使其奈奎斯特頻率FN為4KHZ; 設(shè)置音頻采樣率F=2FN;對音頻信號sa(t)按周期進(jìn)行采樣,得到數(shù)字音頻信號的振幅序列 用脈沖編碼調(diào)制(PCM)對s(n)進(jìn)行量化編碼,得到振幅序列的量化表示s’(n)。
B)、去零漂 計算量化的振幅序列的平均值
將每個振幅值減去平均值,得到去零漂后平均值為0的振幅序列s”(n)。
C)、預(yù)加重 設(shè)置數(shù)字濾波器的Z傳遞函數(shù)H(z)=1-αz-1中的預(yù)加重系數(shù)α,α可取1或比1稍小的值;s”(n)通過數(shù)字濾波器,得到音頻信號的高、中、低頻幅度相當(dāng)?shù)恼穹蛄衧(n)。
D)、加窗 計算音頻幀的幀長N(32毫秒)和幀移量T(10毫秒),分別滿足 這里F是音頻采樣率,單位為Hz; 以幀長為N、幀移量為T,把s(n)劃分成一系列的音頻幀F(xiàn)m,每一音頻幀包含N個音頻信號樣本; 計算哈明窗函數(shù)
對每一音頻幀F(xiàn)m加哈明窗 II.MFCC的提取 A)、設(shè)置梅爾倒譜系數(shù)的階數(shù)p; B)、做快速傅立葉變換FFT,將時域信號s(n)變成頻域信號X(k)。
C)、計算梅爾域刻度 D)、計算對應(yīng)的頻域刻度 E)、計算每個梅爾域通道φj上的對數(shù)能量譜 其中 F)、離散余弦變換DCT。
第二步 模型訓(xùn)練 模型訓(xùn)練中包括兩個部分,第一部分是采用似然估計法得到中型語音的高斯混合模型模型;第二部分采用中性-情感模型轉(zhuǎn)化算法。
I.高斯混合模型模型的訓(xùn)練 迭代估計GMM參數(shù)的過程可分為兩步,計算訓(xùn)練數(shù)據(jù)在第i階時的概率,這一步稱為Expectation;然后以局部最大準(zhǔn)則用式估計GMM的參數(shù),這一步被稱為Maximization。
II.中性-情感模型轉(zhuǎn)化算法 A)建立語音模型數(shù)據(jù)庫。
分別采集用戶的情感語音和中性語音訓(xùn)練高斯混合模型,在數(shù)據(jù)庫中來至同一個說話人的中型模型和情感模型建立了對應(yīng)關(guān)系(G,M)。
B)計算G和G’之間每個高斯分量的距離 di,k,j=D(Gi′,Gk,j)(k=1...n)(1) 其中Gk,j表示語音模型數(shù)據(jù)庫(E)中第k個中性語音模型(GMM)的第j個高斯分量,并且Gi′表示用戶中性語音模型的第i個高斯分量。兩個高斯分量N1(μ1,∑1)和N2(μ2,∑2)之間的距離表示如下 C)在語音模型數(shù)據(jù)庫中尋找Gi′和Gk,j之間距離最短的m個高斯分量。
其中,Ji和Ki保存了語音模型數(shù)據(jù)庫中中性情感模型的索引。第一步和第二步的目標(biāo)是在模型數(shù)據(jù)庫中找到和Gi′距離最短得k個高斯分量。
D)采用下式把中性語音模型轉(zhuǎn)換成情感語音模型 其中wi’表示G’的第i個高斯分量的權(quán)重,wJ(j),K(j)表示搜索到的第J(j)個高斯混合模型的第K(j)個高斯分量對應(yīng)的權(quán)重。如果,情感模型庫中高斯混合模型的階數(shù)為nc,那么最后得到的情感模型的階數(shù)為k*nc*nc+nc。
第三步 識別算法 根據(jù)貝葉斯理論,在輸入語音信號X下,符合模型λi的概率為 實驗結(jié)果 實驗中采用的數(shù)據(jù)庫為中文情感語音數(shù)據(jù)庫(MASC)。該數(shù)據(jù)庫包括68人,其中女性23人。一共錄制了5種情感的語音,分別為中性,生氣,高興,痛苦和悲傷。每個說話人要在每種情感情況下說出5個單詞和20句語句3遍。
在實驗中,MASC被分成了兩個部分。53個說話人的語音用于創(chuàng)建語音模型數(shù)據(jù)庫,剩余的15人(6女9男)用于評價算法在說話人識別中的性能。數(shù)據(jù)庫中的前5句話用來訓(xùn)練模型,后15句用來進(jìn)行測試。因為每句話閱讀三邊,所以用于測試語音為每個人的45句話,用于訓(xùn)練的有15句。
用兩組實驗來表示該技術(shù)的性能。兩組實驗特征提取方法都是相同的,為13維的MFCC特征。用等錯誤率(EER)來表示系統(tǒng)的識別性能。在第一組實驗中,測試語音為5種情感的語音,訓(xùn)練語音為中性語音,只訓(xùn)練中性語音模型用于測試過程。這是一個基準(zhǔn)實驗。在第二組實驗中,測試語音和訓(xùn)練語音同第一組實驗完全相同。只是在訓(xùn)練了中性語音模型后,還要根據(jù)該模型和情感語音模型數(shù)據(jù)庫訓(xùn)練相應(yīng)情感的模型。實驗結(jié)果如下表所示 從上表可以看出,采用了中性語音模型和情感語音模型轉(zhuǎn)換的方法后,系統(tǒng)的識別性能得到了提高。測試語音有五種情感語音,增強(qiáng)了情感說話人識別系統(tǒng)的性能。
上述實施例用來解釋說明本發(fā)明,而不是對本發(fā)明進(jìn)行限制,在本發(fā)明的精神和權(quán)利要求的保護(hù)范圍內(nèi),對本發(fā)明作出的任何修改和改變,都落入本發(fā)明的保護(hù)范圍。
權(quán)利要求
1.一種基于中性和情感聲紋模型轉(zhuǎn)換的說話人識別方法,其特征在于包括如下步驟
(1)、語音特征的提取先進(jìn)行音頻預(yù)處理,音頻預(yù)處理分為采樣量化,去零漂,預(yù)加重和加窗三個部分;然后進(jìn)行提取倒譜特征MFCC;
(2)、建立情感模型庫進(jìn)行高斯混合模型訓(xùn)練,對于每個用戶的中性語音訓(xùn)練中性模型,進(jìn)行中性-情感模型轉(zhuǎn)化,通過中性情感語音轉(zhuǎn)化算法得到情感語音模型;
(3)、測試語音打分,進(jìn)行說話人識別。
2.根據(jù)權(quán)利要求1所述的基于中性和情感聲紋模型轉(zhuǎn)換的說話人識別方法,其特征在于所述的音頻預(yù)處理具體步驟是
1)、采樣量化
A)、用銳截止濾波器對音頻信號進(jìn)行濾波,使其奈奎斯特頻率FN為4KHZ;
B)、設(shè)置音頻采樣率F=2FN;
C)、對音頻信號sa(t)按周期進(jìn)行采樣,得到數(shù)字音頻信號的振幅序列
D)、用脈沖編碼調(diào)制(PCM)對s(n)進(jìn)行量化編碼,得到振幅序列的量化表示s’(n);
2)、去零漂
A)、計算量化的振幅序列的平均值
B)、將每個振幅值減去平均值,得到去零漂后平均值為0的振幅序列s”(n);
3)、預(yù)加重
A)、設(shè)置數(shù)字濾波器的Z傳遞函數(shù)H(z)=1-αz-1中的預(yù)加重系數(shù)α,α可取1或比1稍小的值;
B)、s”(n)通過數(shù)字濾波器,得到音頻信號的高、中、低頻幅度相當(dāng)?shù)恼穹蛄衧(n);
4)、加窗
A)、計算音頻幀的幀長N和幀移量T,其中N為32毫秒,T為10毫秒,分別滿足
這里F是音頻采樣率,單位為Hz;
B)、以幀長為N、幀移量為T,把s(n)劃分成一系列的音頻幀F(xiàn)m,每一音頻幀包含N個音頻信號樣本;
C)、計算哈明窗函數(shù)
D)、對每一音頻幀F(xiàn)m加哈明窗
ω(n)×Fm(n){Fm′(n)|n=0,1,...N-1}。
3.根據(jù)權(quán)利要求1所述的基于中性和情感聲紋模型轉(zhuǎn)換的說話人識別方法,其特征在于所述提取倒譜特征MFCC具體步驟是
1)、能量的提取
2)、過零率的提取
3)、梅爾倒譜系數(shù),即MFCC的提取
A)、設(shè)置梅爾倒譜系數(shù)的階數(shù)p;
B)、做快速傅立葉變換FFT,將時域信號s(n)變成頻域信號X(k);
C)、計算梅爾域刻度
D)、計算對應(yīng)的頻域刻度
E)、計算每個梅爾域通道φj上的對數(shù)能量譜
其中
F)、離散余弦變換DCT。
4.根據(jù)權(quán)利要求1所述的基于中性和情感聲紋模型轉(zhuǎn)換的說話人識別方法,其特征在于所述的高斯混合模型訓(xùn)練具體步驟是
迭代估計GMM參數(shù)的過程可分為兩步,計算訓(xùn)練數(shù)據(jù)在第i階時的概率,這一步稱為Expectation;然后以局部最大準(zhǔn)則用式估計GMM的參數(shù)
5.根據(jù)權(quán)利要求1所述的基于中性和情感聲紋模型轉(zhuǎn)換的說話人識別方法,其特征在于所述的建立情感模型庫具體步驟是分別采集用戶的情感語音和中性語音訓(xùn)練高斯混合模型,在數(shù)據(jù)庫中來至同一個說話人的中型模型和情感模型建立了對應(yīng)關(guān)系。
6.根據(jù)權(quán)利要求1所述的基于中性和情感聲紋模型轉(zhuǎn)換的說話人識別方法,其特征在于所述的中性-情感模型轉(zhuǎn)化具體步驟是
A)計算G和G’之間每個高斯分量的距離
di,k,j=D(Gi′,Gk,j)(k=1...n)(1)
其中Gk,j表示語音模型數(shù)據(jù)庫(E)中第k個中性語音模型GMM的第j個高斯分量,并且Gi′表示用戶中性語音模型的第i個高斯分量,兩個高斯分量N1(μ1,∑1)和N2(μ2,∑2)之間的距離表示如下
B)在語音模型數(shù)據(jù)庫中尋找Gi′和Gk,j之間距離最短的m個高斯分量;
其中,Ji和Ki保存了語音模型數(shù)據(jù)庫中中性情感模型的索引,第一步和第二步的目標(biāo)是在模型數(shù)據(jù)庫中找到和Gi′距離最短得k個高斯分量;
C)采用下式把中性語音模型轉(zhuǎn)換成情感語音模型
其中wi’表示G’的第i個高斯分量的權(quán)重,wJ(j),K(j)表示搜索到的第J(j)個高斯混合模型的第K(j)個高斯分量對應(yīng)的權(quán)重;如果,情感模型庫中高斯混合模型的階數(shù)為nc,那么最后得到的情感模型的階數(shù)為k*nc*nc+nc。
7.根據(jù)權(quán)利要求1所述的基于中性和情感聲紋模型轉(zhuǎn)換的說話人識別方法,其特征在于所述的測試語音打分具體步驟是
在輸入語音信號X下,符合模型λi的概率為
全文摘要
本發(fā)明涉及一種基于中性和情感聲紋模型轉(zhuǎn)換的說話人識別方法,包括如下步驟(1)語音特征的提取先進(jìn)行音頻預(yù)處理,音頻預(yù)處理分為采樣量化,去零漂,預(yù)加重和加窗三個部分;然后進(jìn)行提取倒譜特征MFCC;(2)建立情感模型庫進(jìn)行高斯混合模型訓(xùn)練,對于每個用戶的中性語音訓(xùn)練中性模型,進(jìn)行中性-情感模型轉(zhuǎn)化,通過中性情感語音轉(zhuǎn)化算法得到情感語音模型;(3)測試語音打分,進(jìn)行說話人識別。本發(fā)明有益的效果是本技術(shù)采用中性-情感模型轉(zhuǎn)換算法提高了情緒化說話人識別的識別率。本技術(shù)根據(jù)用戶中性語音模型訓(xùn)練出用戶的情感語音模型,提高了系統(tǒng)的識別率。
文檔編號G10L17/00GK101226743SQ20071015713
公開日2008年7月23日 申請日期2007年12月5日 優(yōu)先權(quán)日2007年12月5日
發(fā)明者吳朝暉, 楊瑩春, 單振宇 申請人:浙江大學(xué)