本發(fā)明屬于語音情感識別領(lǐng)域,涉及一種基于冗余特征和多詞典表示的語音情感識別方法及系統(tǒng)。
背景技術(shù):
語音作為最主要的交流手段之一,在新型的人機交互領(lǐng)域受到越來越廣泛的關(guān)注。若想讓計算機理解人類的意思,就要讓計算機模仿人們最常見的溝通方式。如今人類的溝通方式已經(jīng)變得多種多樣,而人們最主要的交流方式就是說話。人在說話時,便將自己的情感隱藏在語音信號之中,所以語音是人在表達自己情感和想法的最好媒介。語音情感識別是實現(xiàn)基于語音的智人工交互的重要步驟之一,因此讓計算機有效地識別人類話語中的情感,對于更好地實現(xiàn)人機交互是一個行之有效的方法。
我國在語音情感識別領(lǐng)域的研究還是取得了重大的進展,國內(nèi)許多高校和國家重點實驗室都對語音情感識別進行了深入的分析與研究。從2000年起,清華大學(xué)的蔡紅蓮教授對超音段特征進行了深入的研究,并使用高斯混合模型(GMM)和概率神經(jīng)網(wǎng)絡(luò)(PNN)分類器對漢語的普通話情感進行識別。最后的結(jié)果表明,超音段特征能較好地將不同的情感狀態(tài)區(qū)分開來,他們的實驗中識別結(jié)果準(zhǔn)確率達到了76.7%。從2001年起,東南大學(xué)的趙力教授針對驚奇、悲傷、高興、憤怒4種語音情感信號的小樣本數(shù)據(jù),提出了將語音情感的全局特征和時序基頻(F0)特征相結(jié)合的方式來進行語音情感識別,并取得了較好的識別結(jié)果,識別率達到80%。
在情感特征提取方面,由于某些情感的相似性,單一類型的特征不能將語音情感進行很好的區(qū)分,因而尋找合適的情感特征組合有利于系統(tǒng)性能的進一步改善。
在特征表示或分類方面,基于詞典的表示方法受到了廣泛的關(guān)注,這是因為詞典具有強大的表示能力并且具有自適應(yīng)學(xué)習(xí)能力。然而,在當(dāng)前基于詞典表示的方法中,絕大多數(shù)方法都只使用一個詞典,因而表示能力受到限制。
為了解決當(dāng)前方法中存在的特征抽取和表示的不足,本發(fā)明提出了冗余特征抽取方案和多詞典表示方法,并提出了基于冗余特征和多詞典表示的語音情感識別系統(tǒng)。一些詞典用于分解,另一些詞典用于綜合表示。利用多個詞典,從而可以充分挖掘冗余特征中的區(qū)分性特征,又可以適當(dāng)?shù)叵鞒卣魅哂鄮淼牟焕绊?;同時基于多詞典的表示使分類更容易,可以基于類別重構(gòu)誤差最小化來簡單地完成分類識別任務(wù)。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的是針對當(dāng)前單一類型特征的有限區(qū)分能力和單詞典表示的有限表示能力,提供一種基于冗余特征和多詞典表示的語音情感識別方法。該方法提取基音頻率特征(F0)、超音段響度(Loudness)特征、譜特征中的MEL頻率子帶能量系數(shù)(MFBECS)特征、線性譜頻率(LSF)特征以及小波變換后的多尺度特征,并將這些特征組合在一起形成冗余特征,然后基于這些冗余特征學(xué)習(xí)多類多個分析和綜合詞典對,并選取具有最小重構(gòu)誤差的那一對詞典的類別作為測試語音的情感類別,最終提高語音情感識別率。
為實現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案是:
一種基于冗余特征和多詞典表示的語音情感識別系統(tǒng),包括以下步驟:
(1)對訓(xùn)練樣本庫中每個語音情感信號進行預(yù)處理,得到語音情感數(shù)據(jù)幀。
(2)對(1)中的語音情感數(shù)據(jù)幀進行基音頻率特征、超音段響度特征、譜特征中的MEL頻率子帶能量系數(shù)特征、線性譜頻率特征以及多尺度小波變換特征抽取,并進行特征組合,得到訓(xùn)練樣本的冗余特征向量。
(3)對(2)中所提取的情感冗余特征向量進行歸一化并用主成分分析法(PCA)進行降維,再進行表示詞典和分析詞典學(xué)習(xí),得到多詞典對。
(4)對測試樣本語音情感信號進行預(yù)處理,如(2)中的特征提取,并形成冗余特征向量,再進行歸一化以及PCA降維。
(5)使用學(xué)習(xí)到的多類多字典對來對(4)中的測試樣本冗余特征向量進行重構(gòu),并根據(jù)最小重構(gòu)誤差所對應(yīng)的詞典對的類別來對該語音情感樣本的類別進行判別。
所述步驟(1)中的預(yù)處理步驟如下:
(11)對語音情感信號的音頻文件進行解碼處理,將其轉(zhuǎn)換成PCM格式的波形文件,再對語音情信號進行重采樣處理。
(12)對(11)中得到的語音信號預(yù)加重處理,提高情感信號的高頻分量。
(13)對(12)中得到的語音信號進行漢明窗分幀處理。
所述步驟(2)中的冗余特征抽取以及歸一化和PCA降維具體步驟如下:
對預(yù)處理后的語音情感信號進行響度(Loudness)特征、譜特征中的MFBECS特征和LSF特征提取。
對(13)中預(yù)處理后的每一幀情感信號進行傅里葉變換,求得時域點對應(yīng)的頻譜,并對每個頻率及其所有倍頻諧波成分進行疊加。疊加公式如下所示:
其中,R為要考慮的諧波數(shù)量,本發(fā)明中該參數(shù)取15;參數(shù)c的作用是在統(tǒng)計諧波總和能量時,降低諧波能量的影響,本發(fā)明中該值取0.85。
針對諧波疊加的能量,在給定的基頻范圍內(nèi)(fmin,fmax)進行極大值的尋找。為了提取更準(zhǔn)確的F0特征,為了消除二倍頻的影響,本發(fā)明提出改進的諧波和計算公式如下:
利用上述公式從而完成F0特征提取。
(24)使用Gabor帶通濾波器對(13)中預(yù)處理后的語音情感數(shù)據(jù)幀進行十七個臨界帶的濾波處理。Gabor帶通濾波器的具體公式如下所示:
其中,Sx為輸入的語音情感信號的方差,Sy的取值為1。
(25)對每個情感數(shù)據(jù)幀的每一個臨界帶進行三層小波包變換(WPT),從而獲得相應(yīng)的小波系數(shù)。
(26)對17個臨界帶的每個小波系數(shù)進行自相關(guān)系數(shù)的計算,從而得到多尺度小波變換特征,共136維。
完成基于小波變換的多尺度特征提取。
(27)直接將以上得到的不同的情感特征首尾相連形成一個較長的列向量,從而得到情感特征組合,也就是冗余情感特征。
所述步驟(3)中的多類多詞典對學(xué)習(xí)的具體步驟如下:
對所提取的冗余情感特征向量進行歸一化以及PCA降維。
(31)使用訓(xùn)練樣本的語音情感的冗余特征數(shù)據(jù)構(gòu)建情感模型。本發(fā)明引進變量XK,使得Xk=PkYk,對目標(biāo)函數(shù)進行優(yōu)化。目標(biāo)函數(shù)為:
其中Dk=[d1,d2…dl]∈Rd×l,Pk∈Rl×d分別表示第k類訓(xùn)練樣本得到的合成字典和分析字典。D=[D1,…Dk,…DC]是合成字典,P=[P1,…Pk,…PC]是分析字典。其中C類的訓(xùn)練樣本數(shù)據(jù)d表示訓(xùn)練樣本的特征維數(shù),NK表示第k類的樣本總個數(shù),λ為標(biāo)量參數(shù),N表示訓(xùn)練樣本的總個數(shù)di是合成矩陣D的第i個列向量。
(33)使用訓(xùn)練樣本數(shù)據(jù)訓(xùn)練字典對,得到合成字典D以及分析字典P。具體步驟如下:
步驟1.輸入:C個目標(biāo)類的訓(xùn)練語音情感樣本構(gòu)成的數(shù)據(jù)矩陣Y=[Y1,…YK,…YC],所需的參數(shù)λ、λ1及/(字典的個數(shù))。
步驟2.初始化:隨機初始化Dk∈Rd×l和Pk∈Rl×d,這兩個矩陣均具有歸一化的F范數(shù)。
步驟3.固定D與P,使用公式對X進行更新。
步驟4.固定D與X,使用公式對P進行更新。
步驟5.固定X與P,使用公式對D進行更新。
步驟6.斷定是否收斂。若收斂,則轉(zhuǎn)到步驟7;否則步驟3,繼續(xù)對D、P、X進行更新。
步驟7.輸出:分析字典P,合成字典D。
所述步驟(4)中的測試樣本語音情感信號預(yù)處理、冗余特征提取、歸一化以及PCA降維的具體步驟如下:
對測試樣本語音情感信號進行預(yù)處理并抽取響度(Loudness)特征、MFBECS特征、LSF特征、F0特征以及小波變換特征,將得到的情感特征首尾相接形成一個列向量,也就是冗余特征,再進行歸一化以及PCA降維。
所述步驟(5)中使用得到的字典對對測試樣本進行重構(gòu)的具體步驟如下:
使用得到的字典對來對測試樣本進行重構(gòu),并根據(jù)最小重構(gòu)誤差來對該語音情感樣本的類別進行判別。
具體的基于多類多詞典對表示的分類過程如下:
步驟1.輸入:C個目標(biāo)類的語音情感訓(xùn)練樣本構(gòu)成的數(shù)據(jù)為Y=[Y1,Y2…YJ,…YC],以及測試樣本數(shù)據(jù)矩陣A=[x1,x2…xk,…xN]∈Rd×N。
步驟2.使用式Y(jié)k≈DPY=D1P1Tk+D2P2Yk+…DkPkYk+…DCPCYk進行求解合成字典D與分析字典P。對于測試樣本數(shù)據(jù)中的每一個測試樣本x∈Rd,重復(fù)進行如下步驟3與步驟4。
步驟3.對于每一類k,k=1,2,…,C,重復(fù)進行下面兩個步驟
(1)計算重構(gòu)的樣本xrecons(k)=DkPkx。
(2)計算原測試樣本x與重構(gòu)樣本之間的殘差rk(x)=||x-xrecons(k)||2。
步驟4.輸出:
本發(fā)明的創(chuàng)新之處在于:
本發(fā)明提出冗余特征抽取方案,包括小波特征、F0特征、響度(Loudness)特征、譜特征中的MFBECS特征和LSF特征;然后利用抽取的冗余特征進行多類多詞典表示學(xué)習(xí),最后利用重構(gòu)誤差最小的詞典對所對應(yīng)的類別對輸入語音情感進行分類識別。與傳統(tǒng)使用單一或少數(shù)特征進行情感識別的方法不同,本發(fā)明綜合利用了各種特征的區(qū)分能力,有利于提高系統(tǒng)的識別準(zhǔn)確度;同時與傳統(tǒng)的基于單個詞典的表示方法不同,本發(fā)明提出了綜合詞典和分析詞典的多詞典對學(xué)習(xí)方法,并利用多詞典的較強表示能力來進一步提高語音情感識別的準(zhǔn)確度??傊景l(fā)明既能綜合利用冗余特征的區(qū)分能力,又能利用多詞典的強大表示能力來提高語音情感的識別準(zhǔn)確率。
附圖說明
圖1是小波特征提取流程圖
圖2是語音情感識別流程圖
具體實施方式
以下將結(jié)合附圖所示的各實施方式對本發(fā)明進行詳細描述。但這些實施方式并不限制本發(fā)明,本領(lǐng)域的普通技術(shù)人員根據(jù)這些實施方式所做出的結(jié)構(gòu)、方法、或功能上的變換均包含在本發(fā)明的保護范圍內(nèi)。
本發(fā)明公開了一種基于冗余特征和多詞典表示的語音情感識別系統(tǒng),具體實施步驟包括:
(1)對訓(xùn)練樣本庫中每個語音情感信號進行預(yù)處理,得到語音情感數(shù)據(jù)幀。
(2)對(1)中的語音情感數(shù)據(jù)幀進行小波特征、F0特征、響度特征、MFBECS特征和LSF特征抽取,并進行特征首尾相接而形成冗余特征,從而得到訓(xùn)練樣本特征向量。
(3)對(2)中所提取的情感特征向量進行歸一化以及使用主成分分析法進行降維,再進行多詞典對表示學(xué)習(xí),從而得到詞典對。
(4)對測試樣本語音情感信號進行預(yù)處理,如(2)中的特征提取,并時行特征向量組合,再進行歸一化以及PCA降維。
(5)使用得到的詞典對來對(4)中得到的測試樣本進行重構(gòu),并根據(jù)最小重構(gòu)誤差來對該語音情感樣本的類別進行判別。
所述步驟(1)中的預(yù)處理步驟如下:
(11)對語音情感信號的音頻文件進行解碼處理,將其轉(zhuǎn)換成PCM格式的波形文件,再對語音情信號進行重采樣處理。
(12)對(11)中得到的語音信號預(yù)加重處理,提高情感信號的高頻分量。
(13)對(12)中得到的語音信號進行漢明窗分幀處理。
所述步驟(2)中的特征提取及特征組合以及歸一化以及PCA降維具體步驟如下:
對預(yù)處理后的語音情感信號進行響度特征、MFBECS特征和LSF特征提取。
對(13)中預(yù)處理后的每一幀情感信號進行傅里葉變換,求得時域點對應(yīng)的頻譜,并對每個頻率及其所有倍頻諧波成分進行疊加。疊加公式如下所示。
其中,R為要考慮的諧波數(shù)量,本發(fā)明中該參數(shù)取15;參數(shù)c的作用是在統(tǒng)計諧波總和能量時,降低諧波能量的影響,本發(fā)明中該值取0.85。
針對諧波疊加的能量,在給定的基頻范圍內(nèi)(fmin,fmax)進行極大值的尋找。為了提取更準(zhǔn)確的F0特征,為了消除二倍頻的影響,改進的諧波和計算公式如下:
完成基于改進算法的F0特征提取。
(24)使用Gabor帶通濾波器對(13)中預(yù)處理后的語音情感數(shù)據(jù)幀進行十七個臨界帶的濾波處理。Gabor帶通濾波器的具體公式如下所示:
其中,Sx為輸入的語音情感信號的方差,Sy的取值為1。
(25)對每個情感數(shù)據(jù)幀的每一個臨界帶進行三層小波包變換,從而獲得相應(yīng)的小波系數(shù)。
(26)對17個臨界帶的每個小波系數(shù)進行自相關(guān)系數(shù)的計算并作為特征,從而得到小波特征,共136維特征。
完成基于臨界帶多分辨率分析的小波特征提取。
(27)直接將以上得到的不同的情感特征組成一個列向量,從而得到冗余的情感特征組合。
所述步驟(3)中的基于多詞典對表示的語音情感識別的具體步驟如下:
對所提取的冗余情感特征向量進行歸一化以及PCA降維。
(32)使用訓(xùn)練樣本的語音情感的特征數(shù)據(jù)構(gòu)建情感模型。使用訓(xùn)練樣本的語音情感的特征數(shù)據(jù)構(gòu)建情感模型。本發(fā)明引進變量XK,使得Xk=PkYk,對目標(biāo)函數(shù)進行優(yōu)化。目標(biāo)函數(shù)為。
其中Dk=[d1,d2…dl]∈Rd×l,Pk∈Rl×d分別表示第k類訓(xùn)練樣本得到的合成字典和分析字典。D=[D1,…Dk,…DC]是合成字典,P=[P1,…Pk,…PC]是分析字典。其中C類的訓(xùn)練樣本數(shù)據(jù)d表示訓(xùn)練樣本的特征維數(shù),NK表示第k類的樣本總個數(shù),λ為標(biāo)量參數(shù),N表示訓(xùn)練樣本的總個數(shù)di是合成矩陣D的第i個列向量。
(33)使用訓(xùn)練樣本數(shù)據(jù)訓(xùn)練詞典對,得到合成詞典D以及分析詞典P。具體步驟如下:
步驟1.輸入:C個目標(biāo)類的訓(xùn)練語音情感樣本構(gòu)成的數(shù)據(jù)矩陣Y=[Y1,…YK,…YC],所需的參數(shù)λ、λ1及/(字典的個數(shù))。
步驟2.初始化:隨機初始化Dk∈Rd×l和Pk∈Rl×d,這兩個矩陣均具有歸一化的F范數(shù)。
步驟3.固定D與P,使用公式對X進行更新。
步驟4.固定D與X,使用公式對P進行更新。
步驟5.固定X與P,使用公式對D進行更新。
步驟6.斷定是否收斂。若收斂,則轉(zhuǎn)到步驟7;否則步驟3,繼續(xù)對D、P、X進行更新。
步驟7.輸出:分析字典P,合成字典D。
所述步驟(4)中的測試樣本語音情感信號進行預(yù)處理,特征提取,并進行特征向量組合,再進行歸一化以及PCA降維的具體步驟如下:
對測試樣本語音情感信號行預(yù)處理,并抽取響度(Loudness)特征、譜特征中的MFBECS特征、LSF特征、F0特征和基于臨界帶多分辨率分析的小波特征,并將得到的冗余情感特征組成一個列向量,再進行歸一化以及PCA降維。
所述步驟(5)中的使用得到的詞典對來對測試樣本進行重構(gòu)的具體步驟如下:
(51)使用得到的詞典對來對測試樣本進行重構(gòu),并根據(jù)最小重構(gòu)誤差來對該語音情感樣本的類別進行判別。
具體基于多類多字典對表示的分類過程如下:
步驟1.輸入:C個目標(biāo)類的語音情感訓(xùn)練樣本構(gòu)成的數(shù)據(jù)為Y=[Y1,Y2…Yj,…YC],以及測試樣本數(shù)據(jù)矩陣A=[x1,x2…xk,…xN]∈Rd×N。
步驟2.使用式Y(jié)k≈DPY=D1P1Yk+D2P2Yk+…DkPkYk+…DCPCYk進行求解合成字典D與分析字典P。對于測試樣本數(shù)據(jù)中的每一個測試樣本x∈Rd,重復(fù)進行如下步驟3與步驟4。
步驟3.對于每一類k,k=1,2,…,C,重復(fù)進行下面兩個步驟
(1)計算重構(gòu)的樣本xrecons(k)=DkPkx。
(2)計算原測試樣本x與重構(gòu)樣本之間的殘差rk(x)=||x-xrecons(k)||2。
步驟4.輸出:
本發(fā)明效果可以通過以下實驗進一步說明:
1)實驗條件
實驗仿真環(huán)境為:Matlab(R14a),主頻3.01GHZ的處理器上RAM為4GB的PC機上。
2)實驗內(nèi)容
2.1)實驗數(shù)據(jù)來源
本實驗使用三個公開且被廣泛使用的語音情感數(shù)據(jù)庫來進行語音情感識別問題的研究,即Emodb語音情感數(shù)據(jù)庫和Polish語音情感數(shù)據(jù)庫及eNTERFACE’05情感數(shù)據(jù)庫。
Emodb語音情感數(shù)據(jù)庫由10位演員(5男5女)對七種常見的情感進行模擬,得到的音頻文件格式為單通道、采樣精度為16比特、采樣率為16HKZ的wav音頻文件。這些情感語句的語義皆為中性,不帶情感傾向,并且使用日??谡Z化的風(fēng)格。該數(shù)據(jù)庫有535個德語語句,包含七種情感,即憤怒(anger)、難過(sadness)、快樂(happy)、恐懼(fear)、平靜(neutral)、厭惡(disgust)、無聊(bordem),這七種情感的個數(shù)分別為127、62、71、69、79、46,該數(shù)據(jù)庫中每種情感樣本數(shù)據(jù)不是均等分配的。
Polish語音情感數(shù)據(jù)庫,由8位演員(4男4女)對六種情感進行模擬,得到的音頻文件格式為單通道、采樣精度為16比特、采樣率為44.1HKZ的wav音頻文件。該數(shù)據(jù)庫有240個波蘭語語句,包含六種情感,即憤怒(anger)、難過(sadness)、快樂(happy)、恐懼(fear)、平靜(neutral)、無聊(bordem),這六種情感的個數(shù)均為40。
eNTERFACE’05情感數(shù)據(jù)庫是一個音視頻結(jié)合的情感數(shù)據(jù)庫,由42位演員(34男8女)對六種情感進行模擬。本文采用ffmpeg將其進行轉(zhuǎn)換,得到音頻文件格式為單通道、采樣精度為16比特、采樣率為16HKZ的wav音頻文件。該數(shù)據(jù)庫有1260個英語語句,包含六種情感,即憤怒(anger)、難過(sadness)、快樂(happy)、恐懼(fear)、吃驚(surprise)、厭惡(disgust),這六種情感的個數(shù)均為210。
2.2)實驗步驟:
首先對訓(xùn)練樣本庫中每個語音情感信號進行預(yù)處理,得到語音情感數(shù)據(jù)幀。然后對語音情感數(shù)據(jù)幀抽取小波特征、F0特征提取、響度(Loudness)特征、MFBECS特征和LSF特征。并進行特征組合形成冗余特征向量,從而得到訓(xùn)練樣本特征向量。之后用情感特征向量進行多類多詞典對表示學(xué)習(xí),得到多詞典對。再對測試樣本語音情感信號進行預(yù)處理,如之前訓(xùn)練樣本一樣的特征提取,并形成特征向量組合,再進行歸一化以及PCA降維。使用得到的多詞典對對測試樣本進行重構(gòu),并根據(jù)最小重構(gòu)誤差來對該語音情感樣本的類別進行判別。采用的是五次交叉驗證的方法對時間性能進行測試。
實驗結(jié)果分析
以下是本發(fā)明方法與基于稀疏表示的方法(SRC)、支持向量機方法(SVM)、聯(lián)合稀疏低秩方法(Joint Sparse Low-Rank Representation(JSLRR))、協(xié)同表示方法(collaborative representation(CRC))的比較結(jié)果。
表1 Emodb語音情感數(shù)據(jù)庫上的不同識別方法的帶權(quán)重的平均準(zhǔn)確率(WA)結(jié)果比較(%)
表2 Emodb語音情感數(shù)據(jù)庫上的不同識別方法的不帶權(quán)重的平均準(zhǔn)確率(UA)結(jié)果比較(%)
表3Polish語音情感數(shù)據(jù)庫上的不同識別方法的識別結(jié)果比較(%)
表4 eNTERFACE’05語音情感數(shù)據(jù)庫上的不同識別方法的識別結(jié)果比較(%)
從表1,2,3,4中的結(jié)果可以看出本發(fā)明方法在在不同的語音情感數(shù)據(jù)庫上的識別率高于其他的識別方法。
以下結(jié)果是采用五次交叉驗證的方法對不同的識別方法時間性能的測試:
表5不同識別方法在Emodb語音情感數(shù)據(jù)庫的時間性能比較
表6不同識別方法在Polish語音情感數(shù)據(jù)庫的時間性能比較
表7不同識別方法在eNTERFACE’05語音情感數(shù)據(jù)庫的時間性能比較
從表5,6,7中可以看出在對識別率有一定要求的條件下,本發(fā)明方法的訓(xùn)練時間相比SVM與JLSRR方法的訓(xùn)練時間少,而且本發(fā)明方法的測試時間也比SRC、CRC、SVM、JSLRR的測試時間要少,從而就可以說明本發(fā)明方法在解決語音情感識別問題上,不僅在識別準(zhǔn)確率方面具有較好的性能,在運算時間方面上同樣具有較好的性能。
應(yīng)當(dāng)理解,雖然本說明書按照實施方式加以描述,但并非每個實施方式僅包含一個獨立的技術(shù)方案,說明書的這種敘述方式僅僅是為清楚起見,本領(lǐng)域技術(shù)人員應(yīng)當(dāng)將說明書作為一個整體,各實施方式中的技術(shù)方案也可以經(jīng)適當(dāng)組合,形成本領(lǐng)域技術(shù)人員可以理解的其他實施方式。
上文所列出的一系列的詳細說明僅僅是針對本發(fā)明的可行性實施方式的具體說明,它們并非用以限制本發(fā)明的保護范圍,凡未脫離本發(fā)明技藝精神所作的等效實施方式或變更均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。