一種基于核半監(jiān)督判別分析的語音情感識別方法
【專利摘要】本發(fā)明公開了一種基于核半監(jiān)督判別分析的語音情感識別方法,對經(jīng)預(yù)處理的語音樣本中語音情感特征提取后,進行特征篩選、KSDA維數(shù)約簡和分類。在訓練階段,對全監(jiān)督訓練樣本集使用KSDA進行維數(shù)約簡,將表示訓練樣本不同關(guān)系信息的嵌入圖結(jié)合起來,并使用核化數(shù)據(jù)映射,實現(xiàn)對語音情感特征維數(shù)約簡的優(yōu)化,再用低維樣本訓練多類SVM分類器;在測試階段,依次使用訓練階段特征篩選得到的特征及維數(shù)約簡得到的數(shù)據(jù)映射方式,對各測試樣本獲取其低維特征,再使用訓練得到的分類器進行分類判決,得到測試樣本的類別。與現(xiàn)有方法相比,本發(fā)明的方法在語音情感特征維數(shù)約簡中增加了降維的有效性,使語音情感識別系統(tǒng)的識別率性能得到了提升。
【專利說明】—種基于核半監(jiān)督判別分析的語音情感識別方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于語音情感識別領(lǐng)域,特別是涉及一種基于核半監(jiān)督判別分析的語音情感識別方法。
【背景技術(shù)】
[0002]語音情感識別(Speech Emotion Recognition,簡稱SER,)涉及到語音信號處理、模式識別、機器學習以及心理學等交叉學科,目前已成為了一個得到了較多關(guān)注的領(lǐng)域。大量算法被提出用于語音情感識別,并經(jīng)過實驗驗證了其有效性。常用的標準數(shù)據(jù)庫包括柏林(Berlin)語音情感庫、AIBO數(shù)據(jù)庫、SUSAS語料庫等,所涉及到的基本情感類型包括平靜、恐懼、生氣、愉悅、煩躁、驚訝等。
[0003]在人機交互(HMI)中,機器需要根據(jù)交流對象的語音信號,經(jīng)過處理之后提取出信號樣本的情感特征,進行語音情感類型的識別,根據(jù)識別的結(jié)果給出相應(yīng)的反應(yīng)策略;同樣,機器也可以根據(jù)各類樣本特征分析的結(jié)果,自動生成帶某種情感成分的語音信號,從而提高人機交互系統(tǒng)的性能。在航天員培訓訓練過程中及航天器在軌階段,語音情感識別也具有重要的意義,可以及時檢測出負面情感,從而盡早進行干預(yù)和情緒疏導,排除由負面情緒所帶來的安全隱患。此外,在呼叫中心、兒童的心理疾病診療等方面語音情感識別方法同樣能夠為相關(guān)人員提供一定的初步診斷篩選依據(jù)。
[0004]目前很多語音情感識別算法都是基于原始特征直接通過分類器進行分類識別,常用的分類器如高斯混合模型(GMM)、隱馬爾可夫模型(HMM)、支持向量機(SVM)等,雖然能取得一些效果,但由于語音情感原始特征的維數(shù)一般較高,而且原始特征中一般會含有一些對情感分類無用的特征,所以對普通的語音情感樣本的準確分類存在著較大的局限性。
[0005]傳統(tǒng)的語音情感識別方法還采用了一些特征篩選的措施,但由于缺乏對原始特征的線性或非線性變換,語音情感的維數(shù)仍然太高,所以仍無法提供較為準確的語音情感特征。當前的研究成果中,流形學習算法已經(jīng)成為模式識別與機器學習中的維數(shù)約簡常用方法。常見的基本流形學習算法包括局部線性嵌入(Locally Linear Embedding,簡稱LLE)、等距線性映射(Isomap)、局部保持投影(Locally Preserve Pro jection,簡稱LPP)和隨機近鄰嵌入(Stochastic Neighbor Embedding,簡稱SNE)等。其中很多流形學習算法都與判別分析、瑞利(Rayleigh)商、譜圖學習等相關(guān)算法具有密切聯(lián)系。
[0006]較多的心理學研究表明,語音情感空間具有較低的維度,目前以三維及多維情緒空間理論為主,這為流形學習算法在語音情感識別中應(yīng)用提供了依據(jù),即語音情感空間在利用流行學習算法將其降到較低維度時仍然能保持并加強對于樣本情緒的表達。
[0007]但是,在當前的研究成果中還存在下列問題:大部分方法都是直接基于基本的流形學習算法如 LLE、Isomap、LPP、邊界 Fisher 分析(Marginal Fisher Analysis,簡稱 MFA)等,或是主成分分析(Principal Component Analysis,簡稱PCA)、線性判別分析(LinerDiscriminant Analysis,簡稱LDA)等簡單的維數(shù)約簡算法及其不同的數(shù)據(jù)映射形式,無論是基本的流行學習算法還是簡單的維數(shù)約減算法都僅僅使用單一的嵌入圖及其相似模型的學習,而忽略了對于嵌入圖的優(yōu)化。由于一個嵌入圖反映了訓練樣本的某種方面的關(guān)系,就必然會忽略其他方面的特性,所以單一的嵌入圖并不能完全反映訓練樣本的特征空間結(jié)構(gòu),造成語音情感的識別效果不佳。
【發(fā)明內(nèi)容】
[0008]要解決的技術(shù)問題:針對現(xiàn)有技術(shù)的不足,本發(fā)明提供一種基于核半監(jiān)督判別分析的語音情感識別方法,解決現(xiàn)有技術(shù)中語音情感的維數(shù)較高,無法提供較為準確的語音情感特征;基本的流行學習算法中僅利用單一嵌入圖及其相似模型進行學習時不能完全反應(yīng)訓練樣本的特征空間結(jié)構(gòu)導致語音情感識別率低的技術(shù)問題。
[0009]技術(shù)方案:為解決上述技術(shù)問題,本發(fā)明采用以下技術(shù)方案:
[0010]一種基于核半監(jiān)督判別分析的語音情感識別方法,將語音情感數(shù)據(jù)庫中若干個語音樣本任意劃分為訓練樣本集和測試樣本集,包括順序執(zhí)行的以下步驟:
[0011]步驟一,語音樣本預(yù)處理:對語音樣本進行預(yù)加重,然后對預(yù)加重后的語音樣本的時域信號進行分幀;
[0012]步驟二,語音情感特征提取:提取經(jīng)步驟一處理后的每個語音樣本中的語音情感特征,按照提取方式的不同分為能量、基音、過零率、時長、共振峰和Mel頻率倒譜系數(shù)(MelFrequency Cepstrum Coefficient,簡稱MFCC)共6大類語音情感特征組成每個語音樣本的原始語音情感特征向量,其中統(tǒng)計特征包括一個語段的各幀中相應(yīng)特征的最大值、最小值、均值、中值、標準差和范圍;對所述6大類語音情感特征的每一維特征進行規(guī)整化處理后組成每個語音樣本的規(guī)整化語音情感特征向量;
[0013]步驟三,特征篩選:對步驟二中得到的規(guī)整化語音情感特征向量中每個特征維數(shù)的FDR值進行特征篩選,去除規(guī)整化語音情感特征向量中對語音情感分析貢獻較小的特征,得到每個語音樣本的特征篩選后語音情感特征向量;
[0014]步驟四,基于核半監(jiān)督判別分析KSDA的特征維數(shù)約簡:對經(jīng)步驟三特征篩選后得到的訓練樣本的特征篩選后語音情感特征向量集X = [X1, X2,, χΝ]使用KSDA對X進行維數(shù)約簡訓練,生成核方法的降維映射陣A,同時求解得到X的低維樣本集ATK,Gram陣K選用Gauss核函數(shù);
[0015]步驟五,訓練兩類SVM分類器:對訓練樣本中的N個分屬于N。個種類的語音樣本,取每兩類組合訓練得到I個兩類SVM分類器,共得到N。(Nc-1) /2個兩類SVM分類器;
[0016]步驟六,測試:利用經(jīng)步驟五訓練完成的SVM分類器每個測試樣本進行測試,具體包括順序執(zhí)行的以下步驟:
[0017](I)對經(jīng)步驟三得到的每個測試樣本的特征篩選后語音情感特征向量使用核方法的降維映射陣A進行維數(shù)約簡,得到Χ'1經(jīng)過維數(shù)約簡后的低維樣本為ΑτΚρ對于一個
測試樣本
【權(quán)利要求】
1.一種基于核半監(jiān)督判別分析的語音情感識別方法,其特征在于:將語音情感數(shù)據(jù)庫中若干個語音樣本任意劃分為訓練樣本集和測試樣本集,包括順序執(zhí)行的以下步驟: 步驟一,語音樣本預(yù)處理:對語音樣本進行預(yù)加重,然后對預(yù)加重后的語音樣本的時域信號進行分幀; 步驟二,語音情感特征提取:提取經(jīng)步驟一處理后的每個語音樣本中的語音情感特征,按照提取方式的不同分為能量、基音、過零率、時長、共振峰和Mel頻率倒譜系數(shù)共6大類語音情感特征組成每個語音樣本的原始語音情感特征向量;對所述6大類語音情感特征的每一維特征進行規(guī)整化處理后組成每個語音樣本的規(guī)整化語音情感特征向量; 步驟三,特征篩選:對步驟二中得到的規(guī)整化語音情感特征向量中每個特征維數(shù)的FDR值進行特征篩選,去除規(guī)整化語音情感特征向量中對語音情感分析貢獻較小的特征,得到每個語音樣本的特征篩選后語音情感特征向量; 步驟四,基于KSDA的特征維數(shù)約簡:對經(jīng)步驟三特征篩選后得到的訓練樣本的特征篩選后語音情感特征向量集X = [X1, X2,, xN]使用KSDA對X進行維數(shù)約簡訓練,生成核方法的降維映射陣A,同時求解得到X的低維樣本集ATK, Gram陣K選用Gauss核函數(shù); 步驟五,訓練兩類SVM分類器:假設(shè)訓練樣本集中有N個分屬于N。個種類的語音樣本,在訓練樣本集中任取兩個種類的語音樣本,進行組合訓練得到I個兩類SVM分類器,共得到Nc (Nc-1) /2個兩類SVM分類器; 步驟六,測試:利用經(jīng)步驟五訓練完成的SVM分類器每個測試樣本進行測試,具體包括順序執(zhí)行的以下步驟: (1)對經(jīng)步驟三得到的每個測試樣本Xfif的特征篩選后語音情感特征向量使用核方法的降維映射陣A進行維數(shù)約簡,得到xitest經(jīng)過維數(shù)約簡后的低維樣本為ATKi對于一個測試樣本
2.根據(jù)權(quán)利要求1所述的一種基于核半監(jiān)督判別分析的語音情感識別方法,其特征在于:步驟二中原始語音情感特征向量中的語音情感特征分布如下: 1-80維:能量序列的統(tǒng)計特征和一階、二階抖動;能量一階、二階差分序列的統(tǒng)計特征;三個不同頻帶內(nèi)的能量序列及其一階、二階差分序列分別的統(tǒng)計特征;三個不同頻帶內(nèi)能量序列的一階、二階抖動; 81-101維:基音序列的統(tǒng)計特征和一階、二階抖動;基音一階、二階差分序列的統(tǒng)計特征;基首序列斜率;102-121維:過零率序列及其一階、二階差分序列的統(tǒng)計特征; 122-130維:濁音幀數(shù)與清音幀數(shù)的比;濁音段數(shù)與清音段數(shù)的比;濁、清音最長段的幀數(shù);濁、清音幀數(shù)和段數(shù);語速; 131-250維:共振峰頻率序列、帶寬序列及其一階、二階差分序列的統(tǒng)計特征;共振峰頻率序列的一階、二階抖動; 251-406維:MFCC及其一階差分序列的統(tǒng)計特征; 其中統(tǒng)計特征包括一個語段的各幀中相應(yīng)特征的最大值、最小值、均值、中值、標準差和范圍。
3.根據(jù)權(quán)利要求1所述的一種基于核半監(jiān)督判別分析的語音情感識別方法,其特征在于:步驟二中的規(guī)整化處理的方法如下: 規(guī)整化前的所有語音樣本中的任一樣本為x(°),其中N個訓練樣本組成的訓練樣本集為 Xw ?'xf》,,.,,#)],設(shè)為jf)的第 j 個特征元素(i = I, 2,..., N); 對于任一語音樣本x(°),特征j對應(yīng)元素Λ:的規(guī)整化處理的計算公式為:
4.根據(jù)權(quán)利要求3所述的一種基于核半監(jiān)督判別分析的語音情感識別方法,其特征在于:步驟三中所述特征篩選的方法如下: 任一語音樣本規(guī)整化語音情感特征向量yl] =中屬于特征j的FDR值的計算公式為: 其中,Mv/、分別為訓練樣本的規(guī)整化語音情感特征向量集χα)中特征j分屬于C1, Ck類樣本的均值,S;s1、《丨分別為訓練樣本的規(guī)整化語音情感特征向量集Χω中特征j分屬于Cl、Ck類樣本的方差,Nc為情感的類數(shù);去除100~150個較小J(j)值對應(yīng)的特征j,得到訓練樣本的特征篩選后語音情感特征向量集X = [X1, X2,, xN]和每個測試樣本的特征篩選后語音情感特征向量D
5.根據(jù)權(quán)利要求1所述的一種基于核半監(jiān)督判別分析的語音情感識別方法,其特征在于:維數(shù)約簡訓練時,KSDA的圖嵌入的優(yōu)化形式為:
6.根據(jù)權(quán)利要求5所述的一種基于核半監(jiān)督判別分析的語音情感識別方法,其特征在于:所述5折交叉驗證的方法為: 將訓練樣本集平均分為五份子集,每次交叉驗證時將訓練樣本集中的四份子集合并劃分為驗證訓練樣本集,取剩下的一份子集作為驗證測試樣本集,用于對驗證訓練樣本集進行測試,依次經(jīng)過步驟四、步驟五和步驟六對于5折交叉驗證中所有5種分割情況進行訓練和測試,得到所取的每個權(quán)重參數(shù)τ值對應(yīng)的驗證測試樣 本集中的語音樣本的平均識別率,反向驗證得到較優(yōu)識別率對應(yīng)的權(quán)重參數(shù)τ。
【文檔編號】G10L25/63GK103544963SQ201310549224
【公開日】2014年1月29日 申請日期:2013年11月7日 優(yōu)先權(quán)日:2013年11月7日
【發(fā)明者】鄭文明, 徐新洲, 趙力, 魏昕, 余華, 黃程韋, 劉健剛 申請人:東南大學