一種面向語音情感識別的語譜特征提取方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種面向語音情感識別的語譜特征提取方法,屬于語音情感識別技術(shù) 領(lǐng)域。
【背景技術(shù)】
[0002] 隨著人機交互技術(shù)的發(fā)展需求,語音情感識別已成為關(guān)鍵技術(shù)之一。為了使人機 交互系統(tǒng)和機器人的對話系統(tǒng)更加智能和完善,語音的情感分析變得越來越重要。此外,在 一些長時間的、單調(diào)的、高強度的任務(wù)(如航天、航海等)中,相關(guān)人員常產(chǎn)生某些負面的情 緒。有效的識別這些負面情緒,有助于提高個體認知和工作效率,防患于未然。面向兒童的 早期情感分析,也逐漸成為語音情感識別的一個重要研宄方向。因此,語音情感識別算法仍 然具有重要的應(yīng)用研宄價值。
[0003] 在語音情感識別的實用性研宄方面,很多學(xué)者做了很多有益的嘗試,獲得不少有 價值的成果。在提高算法魯棒性研宄方面,有學(xué)者提出了一些抗噪性能較好的情感識別算 法。在語音情感識別模型研宄方面,許多基于不同方法的識別模型被提出,比如加權(quán)稀疏識 別模型、說話人無關(guān)的識別模型、基于詞法語義的識別模型等等。鑒于特征參數(shù)的選取與構(gòu) 造對情感識別性能的影響較大,許多學(xué)者都對情感特征進行了細致的分析和研宄,并提出 多種語音情感特征的構(gòu)造方式。上述研宄雖然獲得了一定的研宄成果,但是語音情感特征 的選擇與構(gòu)建仍然沒有定論,需要進一步的研宄。
[0004] 語音情感識別的常用特征大致可歸納為韻律學(xué)特征、譜特征和音質(zhì)特征這三種 類型。目前這三類語音特征不是時域特征,就是頻域特征,缺少針對時頻特征對于語音情感 識別影響的研宄。語譜圖作為一種語音能量的時頻分布的可視化表達方式,本身就包含了 一些語音特征,如能量,共振峰,基頻,音調(diào)等。因此國內(nèi)外學(xué)者針對語譜圖進行了相關(guān)研 宄,突破目前語音信號處理的時頻特征的單一性?;谡Z譜的研宄主要包括聲分類、聲音識 另Ij、聲音增強等,但是尚沒有基于語譜特征的語音情感識別的算法研宄。
【發(fā)明內(nèi)容】
[0005] 為了解決上述技術(shù)問題,本發(fā)明提供了一種面向語音情感識別的語譜特征提取方 法。
[0006] 為了達到上述目的,本發(fā)明所采用的技術(shù)方案是:
[0007] -種面向語音情感識別的語譜特征提取方法,包括以下步驟,
[0008] 步驟一,對語音信號分幀,并進行快速傅里葉變換得到對應(yīng)的語譜圖;
[0009] 步驟二,對語譜圖進行分解
[0010] 將圖像與線性分解高斯核進行卷積運算,在不同的尺度上進行不同通道的分解, 得到多通道多尺度的分解圖像;所述通道包括顏色通道、亮度通道和方向通道;
[0011] 步驟三,對分解圖像進行中央周邊差運算并歸一化,得到每幅分解圖的特征圖;
[0012] 步驟四,提取每幅特征圖的特征矩陣
[0013] 將特征圖分成m行η列,共mXη個子區(qū)域,用每個子區(qū)域的均值替代該子區(qū)域,將 特征圖歸一化為mXn的特征矩陣;
[0014] 步驟五,特征矩陣降維并重構(gòu)
[0015] 將每幅特征圖對應(yīng)的特征矩陣重塑為IXmn的特征向量,并由這些特征向量構(gòu)成 特征向量矩陣,通過對特征向量做主成分分析并保留其99 %的主元,得到主特征向量矩陣。
[0016] 同一通道不同尺度上的分解圖像之間的關(guān)系為P(〇) =P(〇-l)/2,其中,P(〇) 表示尺度σ上的分解圖像,P(I)表示原圖像。
[0017] 顏色通道分解,圖像被分解成兩組分解圖像,分別為PK_e( σ )和ΡΒ_Υ( σ ),
[0018] Pr-G ( σ ) = (r-g) /max (r, g, b)
[0019] PB-Y(°) = (b-min(r, g))/max(r, g, b)
[0020] 其中,PK_e( σ )和PB_Y( 〇 )分別表示R-G和B-Y顏色對在尺度σ上的分解圖像,r、 g、b分別表不一幅彩色圖像中紅、綠、藍分量值,min( ·)表不取最小值,max( ·)表不取最 大值;
[0021] 亮度通道分解,分解圖像為?1(〇),?1(〇) = 0'+8+13)/3,表示在尺度〇上的亮度 通道分解圖像用r、g和b分量的平均值表示,I代表亮度通道;
[0022] 方向通道分解,分解圖像通過二維Gabor方向濾波器來提取,將濾波器與相應(yīng)尺 度的圖像進行卷積得到方向通道上的分解圖像P e ( σ ),
[0023] P0(O) = IP1(O)XG0(Q)卜Ipi(O) xg"2(0)
[0024] 其中,GQ( Θ )和〇π/2( Θ )為Gabor方向濾波器,其中0和π/2代表相位,Θ代表 角度。
[0025] 得到每幅分解圖的特征圖的過程為,將中央尺度與周邊尺度的分解圖進行跨尺度 點對點相減,然后歸一化得到特征圖FP i,
[0026] FPi=NdP e( 〇-Pe(〇s) |),i e [1,1]
[0027] 其中,e e {R-G,B_Y,I,Θ },σ c表示中央尺度,σ s表示周邊尺度,σ s= σ c+d, Pe( σ。)表示在尺度σ。上的e所代表通道的分解圖像,P e(。s)表示在尺度σ s上的e所代 表通道的分解圖像,d代表中央尺度和周邊尺度的差值,N代表歸一化操作,1為特征圖的個 數(shù),1等于e的長度乘以σ。的長度,再乘以σ 3的長度。
[0028] 所述 Θ = {〇。,45。,90。,135。},Oc= {2,3},d=⑵。
[0029] 特征矩陣的數(shù)學(xué)表示為,
[0030]
【主權(quán)項】
1. 一種面向語音情感識別的語譜特征提取方法,其特征在于:包括以下步驟, 步驟一,對語音信號分幀,并進行快速傅里葉變換得到對應(yīng)的語譜圖; 步驟二,對語譜圖進行分解 將圖像與線性分解高斯核進行卷積運算,在不同的尺度上進行不同通道的分解,得到 多通道多尺度的分解圖像;所述通道包括顏色通道、亮度通道和方向通道; 步驟三,對分解圖像進行中央周邊差運算并歸一化,得到每幅分解圖的特征圖; 步驟四,提取每幅特征圖的特征矩陣 將特征圖分成m行η列,共mXη個子區(qū)域,用每個子區(qū)域的均值替代該子區(qū)域,將特征 圖歸一化為mXn的特征矩陣; 步驟五,特征矩陣降維并重構(gòu) 將每幅特征圖對應(yīng)的特征矩陣重塑為IXmn的特征向量,并由這些特征向量構(gòu)成特征 向量矩陣,通過對特征向量做主成分分析并保留其99 %的主元,得到主特征向量矩陣。
2. 根據(jù)權(quán)利要求1所述的一種面向語音情感識別的語譜特征提取方法,其特征在于: 同一通道不同尺度上的分解圖像之間的關(guān)系為Ρ(σ) =Ρ(σ-1)/2,其中,P(〇)表示尺度 σ上的分解圖像,P⑴表示原圖像。
3. 根據(jù)權(quán)利要求1所述的一種面向語音情感識別的語譜特征提取方法,其特征在于: 顏色通道分解,圖像被分解成兩組分解圖像,分別為Ρ κ<( σ )和ΡΒ_Υ( 〇 ), Pr-g ( σ ) = (r-g) /max (r, g, b) ΡΒ-γ(°) = (b-min(r, g))/max(r, g, b) 其中,P1^ 〇 )和PB-Y( 〇 )分別表示R-G和B-Y顏色對在尺度σ上的分解圖像,r、g、 b分別表不一幅彩色圖像中紅、綠、藍分量值,min(·)表不取最小值,max(·)表不取最大 值; 亮度通道分解,分解圖像為P1(O), P1(O) = (r+g+b)/3,表示在尺度〇上的亮度通道 分解圖像用r、g和b分量的平均值表示,I代表亮度通道; 方向通道分解,分解圖像通過二維Gabor方向濾波器來提取,將濾波器與相應(yīng)尺度的 圖像進行卷積得到方向通道上的分解圖像Pe ( σ ), Ρθ(σ) = |ΡΙ(σ)Χ6〇(θ) | + |ΡΙ(σ)Χ6π/2(θ) 其中,6。(0)和6"/2(0)為6&13〇1'方向濾波器,其中〇和31/2代表相位,0代表角度。
4. 根據(jù)權(quán)利要求3所述的一種面向語音情感識別的語譜特征提取方法,其特征在于: 得到每幅分解圖的特征圖的過程為,將中央尺度與周邊尺度的分解圖進行跨尺度點對點相 減,然后歸一化得到特征圖FP i, FPi=NdPe(Oc)-Pe(Os) l),i e [I, U 其中,e e {R-G, B-Y, I,θ },σ。表不中央尺度,σ s表不周邊尺度,〇 S= 〇 c+d,Pe ( σ c) 表示在尺度σ。上的e所代表通道的分解圖像,P e(。s)表示在尺度〇 s上的e所代表通道 的分解圖像,d代表中央尺度和周邊尺度的差值,N代表歸一化操作,1為特征圖的個數(shù),1 等于e的長度乘以〇。的長度,再乘以σ 3的長度。
5. 根據(jù)權(quán)利要求4所述的一種面向語音情感識別的語譜特征提取方法,其特征在于: 所述 θ={〇°,45°,90°,135。Koc=UJhd=Uh
6. 根據(jù)權(quán)利要求4所述的一種面向語音情感識別的語譜特征提取方法,其特征在于: 特征矩陣的數(shù)學(xué)表示為,
其中,Pe [〇,n-l],qe [〇,111-1],?01表示特征圖對應(yīng)的特征矩陣,ie [1,1],1為特 征圖的個數(shù),V代表特征圖的寬度,h代表特征圖的高度。
7.根據(jù)權(quán)利要求6所述的一種面向語音情感識別的語譜特征提取方法,其特征在于: 所述m取值為4, η取值為5。
【專利摘要】本發(fā)明公開了一種面向語音情感識別的語譜特征提取方法,步驟一,對語音信號分幀,并進行快速傅里葉變換得到對應(yīng)的語譜圖;步驟二,對語譜圖進行分解;步驟三,對分解圖像進行中央周邊差運算并歸一化,得到每幅分解圖的特征圖;步驟四,提取每幅特征圖的特征矩陣;步驟五,特征矩陣降維并重構(gòu)。本發(fā)明從分析語音語譜特征的角度,綜合運用圖像處理的一些方法,從創(chuàng)新的角度挖掘情感識別的特征,采用多尺度多通道的濾波器對語譜圖進行分解,在不同的特征域進行處理,并結(jié)合PCA分析,更好的挖掘?qū)φZ音情感有益的信息。
【IPC分類】G10L25-03, G10L25-63
【公開號】CN104637497
【申請?zhí)枴緾N201510020519
【發(fā)明人】梁瑞宇, 馮月芹, 唐閨臣, 王青云, 花濤, 包永強, 陳姝, 顧保府
【申請人】南京工程學(xué)院
【公開日】2015年5月20日
【申請日】2015年1月16日