一種結(jié)合局部與全局信息的語音情感特征提取方法
【專利摘要】本發(fā)明公開了一種結(jié)合局部與全局信息的語音情感特征提取方法,能提取三類特征,屬于語音信號處理處理和模式識別【技術(shù)領(lǐng)域】。其步驟是:(1)將語音信號分幀,(2)對每一幀進(jìn)行傅立葉變換,(3)使用Mel濾波器對傅立葉變換結(jié)果濾波,對濾波結(jié)果求能量,并對能量取對數(shù),(4)對取得的對數(shù)結(jié)果使用局部Hu運算,獲得第1類特征,(5)對局部Hu運算后的每一幀進(jìn)行離散余弦變換,獲得第2類特征,(6)對第3步計算的對數(shù)結(jié)果進(jìn)行差分運算,然后對差分結(jié)果的每一幀進(jìn)行離散余弦變換獲得第3類特征。本發(fā)明可快速有效地表達(dá)各類情感的語音,應(yīng)用范圍包括語音檢索、語音識別、情感計算等領(lǐng)域。
【專利說明】一種結(jié)合局部與全局信息的語音情感特征提取方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種語音信號處理和模式識別技術(shù),特別涉及一種結(jié)合局部與全局信息的語音情感特征提取方法。
【背景技術(shù)】
[0002]隨著信息技術(shù)的不斷發(fā)展,社會發(fā)展對情感計算提出了更高的要求。例如在人機交互方面,一個擁有情感能力的計算機能夠?qū)θ祟惽楦羞M(jìn)行獲取、分類、識別和響應(yīng),進(jìn)而幫助使用者獲得高效而又親切的感覺,并能有效減輕人們使用電腦的挫敗感,甚至能幫助人們理解自己和他人的情感世界。例如采用此類技術(shù)探測駕駛司機的精力是否集中,感受到的壓力水平等,并做出相對反應(yīng)。此外,情感計算還能應(yīng)用在機器人、智能玩具、游戲、電子商務(wù)等相關(guān)產(chǎn)業(yè)中,以構(gòu)筑更加擬人化的風(fēng)格和更加逼真的場景。情感也反映了人類的心理健康情況,情感計算的應(yīng)用可以有效地幫助人們避免不良情緒,保持樂觀健康的心理。
[0003]人的面部表情,語音,生理指標(biāo)等都能在一定程度上反映人類的情感。本發(fā)明涉及基于語音的情感識別中的語音特征抽取問題。目前使用在語音情感識別中的特征有很多,廣泛使用的是MFCC特征。但是MFCC忽略了 Mel濾波器內(nèi)部的能量分布信息以及每一幀不同濾波器結(jié)果之間的局部分布信息,對噪音敏感,為此本發(fā)明提出一種同時考慮這兩類信息的語音情感特征提取方法。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的目的在于克服現(xiàn)有技術(shù)的缺點與不足,提供一種結(jié)合局部與全局信息的語音情感特征提取方法,該方法簡單,易于實現(xiàn)。
[0005]本發(fā)明的目的通過下述技術(shù)方案實現(xiàn):一種結(jié)合局部與全局信息的語音情感特征提取方法,包括以下步驟:
[0006][I]將語音信號分巾貞;
[0007][2]對每一幀進(jìn)行傅立葉變換;
[0008][3]使用Mel濾波器對傅立葉變換結(jié)果濾波,并對濾波結(jié)果取對數(shù);
[0009][4]對取得的對數(shù)結(jié)果使用局部Hu運算,獲得第I類特征,稱為HuLFPC特征;
[0010][5]對局部Hu運算后的每一幀進(jìn)行離散余弦變換,獲得第2類特征,稱為HuMFCC特征;
[0011][6]對第[3]步計算的對數(shù)結(jié)果進(jìn)行差分運算,然后對差分運算結(jié)果的每一幀進(jìn)行離散余弦變換,獲得第3類特征,稱為DMFCC特征。
[0012]所述的步驟[4],對步驟[3]計算的對數(shù)結(jié)果使用局部Hu運算,獲得第I類特征,稱為HuLFPC特征。
[0013]所述的步驟[5],對局部Hu運算后的每一幀進(jìn)行離散余弦變換,獲得第2類特征,稱為HuMFCC特征。
[0014]所述的步驟[6],對步驟[3]計算的對數(shù)結(jié)果在一個窗口內(nèi)進(jìn)行差分運算,然后對差分運算結(jié)果的每一幀進(jìn)行離散余弦變換,獲得第3類特征,稱為DMFCC特征。
[0015]本發(fā)明提取以下三類特征:
[0016]第I類特征:用于提取每個Mel濾波器內(nèi)部的能量分布信息,稱為HuLFPC特征,其首先將語音信號分幀,并對每一幀進(jìn)行傅立葉變換;然后對傅立葉變換結(jié)果使用Mel濾波器濾波,對濾波結(jié)果求能量,并對能量取對數(shù);再對取得的對數(shù)結(jié)果在局部窗口內(nèi)求Hu矩,獲得HuLFPC特征。
[0017]第2類特征:用于提取每個Mel濾波器內(nèi)部的能量分布信息,稱為HuMFCC特征,其方法是獲得HuLFPC特征之后,對每一幀的HuLFPC特征系數(shù)進(jìn)行一維DCT變換,獲得HuMFCC特征。
[0018]第3類特征:用于提取每一幀不同濾波器結(jié)果之間的局部分布信息,稱為DMFCC特征,其方法,首先將語音信號分幀,并對每一幀進(jìn)行傅立葉變換;然后對傅立葉變換結(jié)果使用Mel濾波器濾波,對濾波結(jié)果求能量,并對能量取對數(shù);再對取對數(shù)結(jié)果在局部窗口內(nèi)求差分;最后對每一幀的差分系數(shù)進(jìn)行一維DCT變換,獲得DMFCC特征。
[0019]本發(fā)明的工作原理:語音情感不同時,發(fā)音清晰度、基音變化程度、發(fā)音強度、語速都會發(fā)生相應(yīng)的變化,這些變化將改變語譜圖能量的集中程度,如發(fā)音比較清晰、發(fā)音強度高時語譜圖能量比較集中。而Hu的一階矩恰好能夠評價數(shù)據(jù)能量集中到數(shù)據(jù)重心的程度,這樣能夠很好的提取語音情感變化時導(dǎo)致語譜圖上能量集中度發(fā)生的變化。另外目前大部分研究都只將導(dǎo)數(shù)應(yīng)用到語譜圖的時間軸上,以此提取能量發(fā)生變化的程度,但是情感發(fā)生變化時會改變語音信號的頻率分布,從而在語譜圖的頻率軸上發(fā)生變化,所以本文使用頻率軸上的導(dǎo)數(shù)來提取這些變化。
[0020]本發(fā)明相對于現(xiàn)有技術(shù)具有如下的優(yōu)點及效果:
[0021]1、方法簡單,整個特征提取框架簡單,易于實現(xiàn)。
[0022]2、算法復(fù)雜度低,所有特征提取方法中沒有計算復(fù)雜度高的公式。
[0023]3、HuLFPC具有局部旋轉(zhuǎn)、平移不變性,能夠突出共振峰、清音的整體能量分布信息,并且能夠部分克服各種噪聲。
[0024]4,HuMFCC將每一幀的各HuLFPC系數(shù)從時域轉(zhuǎn)化到頻域,除了具有第三個效果外,相對MFCC它能減弱基音的變化帶來的能量整體偏移的影響。
[0025]5、DMFCC突出了語音能量變化劇烈的地方,減小了語音全局能量變化帶來的系數(shù)偏移,同時使語譜圖的能量走向更突出。
[0026]6、從附圖2,3,6,7中可以看到,HuLFPC與已有的MLFPC特征相差較大;從附圖4,5,8,9, 10, 11中可以看到,DMFCC、HuMFCC與已有的MFCC相差也很大,所以新提出來的三類語音特征對MFCC,MLFPC等傳統(tǒng)語音特征有著很好的互補作用,效果明顯。
【專利附圖】
【附圖說明】
[0027]圖1是為本發(fā)明語音情感特征提取方法提取三類特征的流程圖。
[0028]圖2 “就是下雨也去”的MLFPC特征可視化結(jié)果。
[0029]圖3 “職員完成任務(wù)”的MLFPC特征可視化結(jié)果。
[0030]圖4 “就是下雨也去”的MFCC特征可視化結(jié)果。
[0031]圖5 “職員完成任務(wù)”的MFCC特征可視化結(jié)果。[0032]圖6 “就是下雨也去”的HuLFPC特征可視化結(jié)果。
[0033]圖7 “職員完成任務(wù)”的HuLFPC特征可視化結(jié)果。
[0034]圖8 “就是下雨也去”的HuMFCC特征可視化結(jié)果。
[0035]圖9 “職員完成任務(wù)”的HuMFCC特征可視化結(jié)果。
[0036]圖10 “就是下雨也去”的DMFCC特征可視化結(jié)果。
[0037]圖11 “職員完成任務(wù)”的DMFCC特征可視化結(jié)果。
[0038]圖12是語音情感識別系統(tǒng)結(jié)構(gòu)圖。
【具體實施方式】
[0039]下面結(jié)合實施例及附圖對本發(fā)明作進(jìn)一步詳細(xì)的描述,但本發(fā)明的實施方式不限于此。
[0040]實施例
[0041]如圖1所示,一種結(jié)合局部與全局信息的語音情感特征提取方法,包括以下步驟:
[0042]第一步:對語音信號進(jìn)行分幀與加窗獲得Sk(N)。采取如下兩式進(jìn)行分幀,其中N表示幀長,inc表示下一幀偏離的采樣點個數(shù),fix (X)求離X最近的整數(shù),fs為語音信號的采樣率,來自語音數(shù)據(jù),bw為在語譜圖中的頻率分辨率,k表示第k幀,本發(fā)明取60HZ。加窗函數(shù)為Hamming窗口。
[0043]N=fix(l.81*fs/bw), (I)
[0044]inc=l.81/(4*bw), (2);
[0045]第二步:對Sk (N)執(zhí)行短時傅立葉變換Fk (N),并對Fk (N)使用(3)式獲得Mel頻率Gk (N)。
[0046]Mel(f)=2595*lg (l+f/700), (3);
[0047]第三步:首先使用式(4)定義一個有M個濾波器的濾波器組,每個濾波器為三角濾波器,M在計算HuLFPC,HuMFCC時取160,在計算DMFCC時取40。然后使用式(5)計算第m個濾波器對第k幀濾波后的能量Ek (m)。獲得的E為K*M的矩陣,其中K為一段語音的幀數(shù)。
【權(quán)利要求】
1.一種結(jié)合局部與全局信息的語音情感特征提取方法,其特征在于,包括以下步驟: [1]將語音信號分幀; [2]對每一幀進(jìn)行傅立葉變換; [3]使用Mel濾波器對傅立葉變換結(jié)果濾波,并對濾波結(jié)果取對數(shù); [4]對取得的對數(shù)結(jié)果使用局部Hu運算,獲得第I類特征; [5]對局部Hu運算后的每一幀進(jìn)行離散余弦變換,獲得第2類特征; [6]對步驟[3]計算的對數(shù)結(jié)果進(jìn)行差分運算,然后對差分運算結(jié)果的每一幀進(jìn)行離散余弦變換,獲得第3類特征。
2.根據(jù)權(quán)利要求1所述的結(jié)合局部與全局信息的語音情感特征提取方法,其特征在于,所述步驟[4]包括以下步驟: ①將E分成不重疊的窗口,每個窗口為3X 3大小的矩陣數(shù)據(jù)E (r, c); ②對所有E(r, c)計算Hu特征獲得HuLFPC,其維度為:
(K-2) X (M-2), 其中,Hu特征計算過程如下: 首先,對二維數(shù)據(jù)E(r,c),使用以下的(6)式、(7)式和(8)式計算p+q階幾何矩mM,p+q階中心距μ M,p+q階歸一化的中心距npq:
3.根據(jù)權(quán)利要求1所述的結(jié)合局部與全局信息的語音情感特征提取方法,其特征在于,在步驟[5]中,對每一幀的HuLFPC執(zhí)行DCT算法,取第二個系數(shù)到最后一個系數(shù)組成(K-2) X (M-3)維的 HuMFCC 特征。
4.根據(jù)權(quán)利要求1所述的結(jié)合局部與全局信息的語音情感特征提取方法,其特征在于,所述步驟[6]包括以下步驟: I、對E分成重疊的3 X 3窗口,每個窗口相對前一個窗口滑動一個像素,對所有窗口使用(11)式計算差分獲得DLFPC:
5.根據(jù)權(quán)利要求1所述的結(jié)合局部與全局信息的語音情感特征提取方法,其特征在于,所述步驟[I]中,采取(I)式和(2)式進(jìn)行分幀:
6.根據(jù)權(quán)利要求1所述的結(jié)合局部與全局信息的語音情感特征提取方法,其特征在于,所述步驟[2]中,對Sk(N)執(zhí)行短時傅立葉變換Fk(N),并對Fk(N)使用(3)式獲得Mel頻率Gk (N):
7.根據(jù)權(quán)利要求1所述的結(jié)合局部與全局信息的語音情感特征提取方法,其特征在于,所述步驟[3]包括以下步驟: (i )定義一個有M個濾波器的濾波器組,每個濾波器為三角濾波器; (ii )使用式(5)計算第m個濾波器對第k幀濾波后的能量Ek(m),獲得的E為KXM的矩陣,其中K為一段語音的幀數(shù):
【文檔編號】G10L25/63GK103531206SQ201310460191
【公開日】2014年1月22日 申請日期:2013年9月30日 優(yōu)先權(quán)日:2013年9月30日
【發(fā)明者】文貴華, 孫亞新 申請人:華南理工大學(xué)