專利名稱::基于情感對(duì)特征優(yōu)化的語(yǔ)音情感分類方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及一種語(yǔ)音識(shí)別方法,特別涉及一種基于情感對(duì)特征優(yōu)化的自動(dòng)語(yǔ)音情感識(shí)別方法。
背景技術(shù):
:語(yǔ)音情感識(shí)別是從語(yǔ)音信號(hào)中識(shí)別出說(shuō)話人的情感狀態(tài)。一般的語(yǔ)音情感分類器,可以在一定程度上區(qū)分喜悅、憤怒、驚訝、悲傷、恐懼等基本情感類別。建立一個(gè)語(yǔ)音情感分類器,首先需要確定待識(shí)別的情感類別,建立相應(yīng)的情感語(yǔ)料庫(kù),然后根據(jù)情感語(yǔ)料庫(kù)中的語(yǔ)音數(shù)據(jù),尋找合適的語(yǔ)音情感特征,通常是依據(jù)基音、短時(shí)能量、共振峰等參數(shù)構(gòu)造的聲學(xué)特征,最后采用統(tǒng)計(jì)的方法建立語(yǔ)音情感模型。其中語(yǔ)音情感特征的優(yōu)劣對(duì)分類器的性能具有關(guān)鍵的影響。語(yǔ)音情感分類器的性能,一般包括以下幾個(gè)方面,所識(shí)別的情感類別范圍與識(shí)別率、適用的說(shuō)話人群體、對(duì)文本內(nèi)容的依賴程度以及跨語(yǔ)種性能等。其中,識(shí)別率是最常用的衡量分類器性能優(yōu)劣的指標(biāo),通常,所能識(shí)別的情感類別越多,平均識(shí)別率就越低。語(yǔ)音情感特征的優(yōu)化是設(shè)計(jì)分類器的一個(gè)關(guān)鍵部分。目前,一般的做法是首先提取基本的聲學(xué)參數(shù),在基本聲學(xué)參數(shù)的基礎(chǔ)上構(gòu)造大量的情感特征,然后通過(guò)特征選擇算法得到維數(shù)較少的最佳特征組。在語(yǔ)音情感的特征優(yōu)化中存在的一個(gè)問題是,一般的語(yǔ)音情感分類器采用單一的一組最佳特征來(lái)進(jìn)行全部情感類別的分類,使用這一組情感特征并不能達(dá)到對(duì)任意兩個(gè)情感類別之間的最優(yōu)區(qū)分。例如,選擇一組特征最優(yōu)的區(qū)分A、B、C、D、E五類語(yǔ)音情感,但是這一組特征往往不能使A與B之間的誤識(shí)別率在最優(yōu)化的意義上降到最低。
發(fā)明內(nèi)容本發(fā)明目的是針對(duì)現(xiàn)有技術(shù)存在的缺陷提供一種基于情感對(duì)特征優(yōu)化的語(yǔ)音情感分類方法。本發(fā)明為實(shí)現(xiàn)上述目的,采用如下技術(shù)方案本發(fā)明基于情感對(duì)特征優(yōu)化的語(yǔ)音情感分類方法,包括如下步驟(1)采集喜、怒、驚、悲,和平靜五種基本情感狀態(tài)的語(yǔ)音數(shù)據(jù);(2)語(yǔ)音情感特征提取;(3)情感對(duì)的配對(duì);(4)特征壓縮與特征選擇(4-1)線性判別分析(LDA)降維,分別通過(guò)每個(gè)情感對(duì)的類內(nèi)、類間離散度矩陣來(lái)計(jì)算各自的投影變換向量;使用每個(gè)情感對(duì)各自的投影向量,分別進(jìn)行各自的LDA變換;(4-2)基于fisher判別準(zhǔn)則的特征選擇方法Fisher判別準(zhǔn)則如式(1)所示(1)其中yld、y2d為第d個(gè)維度兩個(gè)類別的特征值的均值,CT&,C722d為第d個(gè)維度兩個(gè)類別的特征值的方差;(5)基于兩類分類器組的判決融合(5-1)記輸入的情感語(yǔ)音數(shù)據(jù),經(jīng)過(guò)步驟(4)特征選擇后構(gòu)成待識(shí)別的樣本矢量為X,一個(gè)兩類分類器識(shí)別的情感為第i個(gè)情感與第j個(gè)情感,則通過(guò)GMM模型得到的GMM似然度為,P(X|Ai),P(X、),其中、,^為兩種情感的GMM模型的參數(shù);(5-2)兩類分類器的判決輸出Cy為JhP(XU)>P(X|AV.)IJ~{j\P(X|^)<P(X|ly)(5-3)每個(gè)兩類分類器的置信度&,」,用式(3)來(lái)得到(5-4)用相關(guān)譯碼的方法來(lái)進(jìn)行判決,即每個(gè)兩類分類器的輸出值構(gòu)成列向量C,設(shè)定的情感碼字記為矩陣ImXn,m為分類器的個(gè)數(shù),n為情感類別數(shù)。輸出值與碼字間的距離即為相關(guān)值i=1,2,…n,通過(guò)式⑷得到,RT=CTImXn(4)其中,R={ri,巧,…,rn},每個(gè)分量與一種情感對(duì)應(yīng)。最大的相關(guān)值對(duì)應(yīng)的情感類別,即為識(shí)別結(jié)果,i*=argmax{rj(5)i*表示識(shí)別出的情感類別的標(biāo)號(hào)。本發(fā)明的優(yōu)點(diǎn)和效果在于(1)能夠?qū)⑷我鈨蓚€(gè)情感類別之間的識(shí)別錯(cuò)誤率在最優(yōu)化的意義上降到最低。(2)能夠獲得每?jī)蓚€(gè)情感類別之間的最佳特征組。(3)能夠獲得每?jī)蓚€(gè)情感類別之間的最佳特征空間。(4)將兩類分類器組的輸出通過(guò)相關(guān)譯碼的方法進(jìn)行融合判決以實(shí)現(xiàn)多類別的識(shí)別。(5)識(shí)別系統(tǒng)整體的識(shí)別率顯著高于傳統(tǒng)方法。圖1—一語(yǔ)音情感識(shí)別系統(tǒng)框圖。圖2—一情感對(duì)分組的LDA降維優(yōu)化效果圖。圖3—一分類器組的判決融合框圖。圖4—-LDA方法的錯(cuò)誤率的下降幅度圖。圖5—一最佳特征組方法的錯(cuò)誤率的下降幅度圖。具體實(shí)施例方式本發(fā)明中的語(yǔ)音情感識(shí)別系統(tǒng)框圖如圖1所示。1.語(yǔ)音情感數(shù)據(jù)庫(kù)(1)在所分析的情感種類上,本發(fā)明選取分析了喜、怒、驚、悲,和平靜五種基本的情感狀態(tài)。(2)本發(fā)明中使用的中文語(yǔ)音情感庫(kù),是通過(guò)表演語(yǔ)音(ActedSpeech)的方法得到的。語(yǔ)句材料的錄制是由具有表演或廣播經(jīng)驗(yàn)的人(三男三女,年齡在20-30歲之間,近期無(wú)感冒,普通話標(biāo)準(zhǔn))來(lái)錄音。錄音時(shí)在安靜的錄音室內(nèi)進(jìn)行。錄音時(shí)選用AKGWMS300的錄音設(shè)備和話筒,Creative的聲卡,CoolEdit錄音軟件來(lái)錄音。錄音時(shí)采用單聲道,16bit量化,11.025kHz的采樣率。語(yǔ)句存為WAV格式。(3)語(yǔ)句資料的選取上,遵循兩條原則1、所選取的語(yǔ)句不包含某一方面的情感傾向;2、語(yǔ)句必須具有較高的情感自由度,對(duì)同一語(yǔ)句可以施加不同的情感。為了保證錄制的情感語(yǔ)料的質(zhì)量,進(jìn)行了主觀聽辨評(píng)價(jià),選取了置信度85%以上的語(yǔ)句,男性1410條,女性1429條。2.語(yǔ)音情感特征提取用于識(shí)別和建模的特征向量一般有兩種構(gòu)造方法,全局統(tǒng)計(jì)特征和短時(shí)動(dòng)態(tài)特征。由于動(dòng)態(tài)特征對(duì)音位信息的依賴性較強(qiáng),而全局統(tǒng)計(jì)特征受到文本內(nèi)容的影響較小,采用全局統(tǒng)計(jì)特征易于建立與文本無(wú)關(guān)的情感識(shí)別系統(tǒng),在本發(fā)明中選用了84個(gè)全局統(tǒng)計(jì)特征,如下所示特征1-10短時(shí)能量及其差分的均值、最大值、最小值、中值、方差;特征11-25基音及其一階、二階差分的均值、最大值、最小值、中值、方差;特征26基音范圍;特征27-36發(fā)音幀數(shù)、不發(fā)音幀數(shù)、不發(fā)音幀數(shù)和發(fā)音幀數(shù)之比、發(fā)音幀數(shù)和總幀數(shù)之比、發(fā)音區(qū)域數(shù)、不發(fā)音區(qū)域數(shù)、發(fā)音區(qū)域數(shù)和不發(fā)音區(qū)域數(shù)之比、發(fā)音區(qū)域數(shù)和總區(qū)域數(shù)之比、最長(zhǎng)發(fā)音區(qū)域數(shù)、最長(zhǎng)不發(fā)音區(qū)域數(shù);特征37-66第一、第二、第三共振峰及其一階差分的均值、最大值、最小值、中值、方差;特征67-69:250Hz以下能量百分比、650Hz以下能量百分比、4kHz以上能量百分比。特征70-840-400Hz、400-2000Hz、2000-5000Hz三個(gè)頻段中的諧波噪聲比的均值、最大值、最小值、中值、方差。其中,在構(gòu)造頻譜能量的分頻段特征時(shí),未采用650Hz_4kHz內(nèi)的能量百分比,雖然這個(gè)頻段涉及第一共振峰和幾乎全部的第二共振峰,但是此頻段的能量受到文本內(nèi)容變化的影響較大,主要隨著音位信息的變化而變化。采用了4kHz以上頻譜能量特征,根據(jù)Pittam等人的研究結(jié)果顯示,這一部分頻段能量的增加能反映激勵(lì)程度的提高,可用于區(qū)分悲傷與憤怒等。諧波噪聲比以往常用于診斷喉部疾病,是衡量說(shuō)話人嗓音沙程度的一個(gè)特征。Biemans將諧波噪聲比作為音質(zhì)特征用于評(píng)價(jià)語(yǔ)音的音質(zhì),考慮基頻與各個(gè)共振峰的分布,本發(fā)明中采用Biemans的三個(gè)頻段的劃分方法提取語(yǔ)音情感的諧波噪聲比特征。53.情感對(duì)的配對(duì)在本發(fā)明中對(duì)五種情感類別(喜、怒、驚、悲、平靜),分別兩兩進(jìn)行特征降維優(yōu)化和最佳特征組選擇。將這五個(gè)類別兩兩組合可以分成為10個(gè)情感對(duì),如表1所示。對(duì)每個(gè)情感對(duì)的特征壓縮與特征選擇,對(duì)應(yīng)了一個(gè)兩類分類器。表1情感對(duì)的十種組合4.特征壓縮與特征選擇可以采用兩種方法對(duì)特征空間進(jìn)行優(yōu)化,一是線性判別分析(LDA)降維方法,二是基于fisher判別準(zhǔn)則的特征選擇方法。(l)LDA變換通過(guò)一個(gè)投影變換來(lái)進(jìn)行特征空間的優(yōu)化,顯然,這個(gè)投影向量的求解是關(guān)鍵的。識(shí)別五種情感類別,傳統(tǒng)的做法是通過(guò)這五個(gè)類別的類內(nèi)、類間離散度矩陣來(lái)求解投影向量。而本發(fā)明將通過(guò)對(duì)每個(gè)情感對(duì)分別設(shè)計(jì)各自的優(yōu)化的特征空間來(lái)提高識(shí)別性能。因此,下面在求解LDA的投影向量時(shí),將這五個(gè)類別分組成的10個(gè)情感對(duì),分別通過(guò)每個(gè)情感對(duì)的類內(nèi)、類間離散度矩陣來(lái)計(jì)算各自的投影變換向量。LDA變換將高維的特征空間投影變換為c-1維的特征空間,c為類別數(shù),對(duì)于上文中的情感對(duì),類別數(shù)c=2。使用每個(gè)情感對(duì)各自的投影向量,分別進(jìn)行各自的LDA變換后,每個(gè)情感對(duì)的樣本在各自的優(yōu)化的特征空間中的分布密度如圖2所示,橫軸表示投影后的特征空間,縱軸表示樣本分布密度。圖中的實(shí)線與情感對(duì)中前一個(gè)情感對(duì)應(yīng),虛線與情感對(duì)中后一個(gè)情感對(duì)應(yīng)??梢钥吹绞畟€(gè)情感對(duì)各自都達(dá)到了較好的可分度。(2)對(duì)提取的84個(gè)特征進(jìn)行特征選擇,本發(fā)明中選用特征的均值和方差兩個(gè)方面來(lái)做為評(píng)價(jià)特征優(yōu)劣的準(zhǔn)則。對(duì)第d個(gè)維度,F(xiàn)isher判別準(zhǔn)則可以用式(1)來(lái)表示f⑷(1)其中i;ld、i;2d為第d個(gè)維度兩個(gè)類別的特征值的均值,’a22d為第d個(gè)維度兩個(gè)類別的特征值的方差。Fisher判別準(zhǔn)則越大,表明該特征對(duì)區(qū)分這兩種類別效果越好。對(duì)于多類的情況,式(1)可以改寫為其中m為類別的總數(shù)。根據(jù)Fisher判別準(zhǔn)則,對(duì)十個(gè)情感對(duì)選擇出的前十個(gè)最佳特征如表2所示。表25.基于兩類分類器組的判決融合對(duì)上面的十個(gè)情感對(duì)及各自優(yōu)化得到的十個(gè)特征空間,分別設(shè)計(jì)和使用十個(gè)兩類分類器,對(duì)這組兩類分類器進(jìn)行輸出融合,將各個(gè)部分重新組成一個(gè)整體,完成對(duì)五種語(yǔ)音情感的識(shí)別。因此,下面通過(guò)兩類分類器組的輸出判決融合來(lái)取代單個(gè)多類分類器進(jìn)行語(yǔ)音情感識(shí)別。本發(fā)明中采用高斯混合模型(GaussianMixtureModel,GMM)對(duì)每種情感的概率分布進(jìn)行建模,采用貝葉斯分類器來(lái)實(shí)現(xiàn)上文中的每個(gè)兩類分類器,來(lái)識(shí)別圖2中的每對(duì)語(yǔ)音情感對(duì)。記輸入的情感語(yǔ)音樣本,經(jīng)過(guò)特征提取后構(gòu)成待識(shí)別的樣本矢量為X,一個(gè)兩類分類器識(shí)別的情感為第i個(gè)情感與第j個(gè)情感,則通過(guò)GMM模型得到的GMM似然度為,P(X|A^,P(X入》,其中入”入」為通過(guò)EM(ExpectationMaximization)算法訓(xùn)練得到的兩種情感的GMM模型的參數(shù)。則兩類分類器的判決輸出Cy可表示為,在本發(fā)明多分類器的判決融合中,首先對(duì)每個(gè)子分類器的輸出置信度進(jìn)行評(píng)價(jià),然后通過(guò)一定的融合算法進(jìn)行判決融合,計(jì)算出最終的識(shí)別結(jié)果。貝葉斯分類器的錯(cuò)誤概率(或正確率)有多種計(jì)算方法,通常是計(jì)算圖3中相應(yīng)的樣本分布曲線的積分。這種方法是計(jì)算的平均意義上的錯(cuò)誤概率,本發(fā)明中考慮采用一種樣本自適應(yīng)的方法,來(lái)計(jì)算對(duì)于每個(gè)樣本的判決的置信度。貝葉斯分類器中,當(dāng)樣本處于后驗(yàn)概率密度分布曲線的重疊區(qū)域時(shí),分類器可能發(fā)生錯(cuò)判,發(fā)生錯(cuò)判的可能性可以用當(dāng)前樣本的后驗(yàn)概率的差來(lái)度量,進(jìn)入分類器的樣本屬于不同類別的后驗(yàn)概率相差越大,誤判的可能性就越小。樣本處于重疊區(qū)域的可能性的度量,作為每個(gè)兩類分類器的置信度1」,可以用式(4)來(lái)得到。ln(P(X|A;))-ln(P(X|^))當(dāng)分類器判決越可靠時(shí),差值越大,Wi,j越大,反之當(dāng)越小時(shí),說(shuō)明樣本距離重疊區(qū)域越近,分類可靠性越差。得到了分類器的置信度Wy,據(jù)此作為融合權(quán)值將分類器的輸出定義為,Cu*=w^j'1,1=+1,-1(5)其中I是兩類分類的判決,我們令I(lǐng)=+1表示判斷為兩類分類中的第一個(gè)類別,I="1表示判斷為另一圖3個(gè)類別。為了進(jìn)行判決融合,下面將這組分類器的輸出構(gòu)成一個(gè)超矢量,用相關(guān)譯碼的方法來(lái)進(jìn)行判決,如所示。在理想的情況下,判決置信為1,此時(shí)得到的輸出值=I當(dāng)待識(shí)別樣本不屬于兩類分類器所能識(shí)別的兩個(gè)類別時(shí),輸出值給出的信息不偏向于任何一個(gè)類別,置為零。以此理想情況得到的輸出值作為當(dāng)前類別的碼字,如表3所示。在實(shí)際情況下,輸出值(;,/=&,」〗,圍繞在理想值(碼字)的周圍,可根據(jù)實(shí)際輸出值與碼字的距離進(jìn)行譯碼。相關(guān)譯碼器的作用即是通過(guò)相關(guān)運(yùn)算來(lái)衡量實(shí)際值與理想值之間的接近程度,最大的相關(guān)值對(duì)應(yīng)的情感類別,即為識(shí)別結(jié)果,i*=argmax{rj(6)i*表示識(shí)別出的情感類別的標(biāo)號(hào),r,為相關(guān)值,通過(guò)式(7)得到,RT=CTImXn(7)其中,R={ri,r2,rn}(8)C是每個(gè)分類器輸出值構(gòu)成的列向量,ImXn是圖6中碼字構(gòu)成的矩陣,m為分類器的個(gè)數(shù),n為情感類別數(shù)。6.系統(tǒng)識(shí)別率測(cè)試為了驗(yàn)證本發(fā)明中分解優(yōu)化的方法相對(duì)于單個(gè)多類分類器的性能的提高,進(jìn)行了兩組對(duì)比實(shí)驗(yàn)。第一組實(shí)驗(yàn)中,采用LDA降維的方法,用高斯混合模型(GMM)擬合情感類別的概率分布,分別用單個(gè)分類器和本發(fā)明中的兩類分類器組,識(shí)別五種情感。第二組實(shí)驗(yàn)中,采用特征選擇的方法進(jìn)行降維,選出前十個(gè)最佳特征,仍然用GMM擬合情感類別的概率分布,分別用單個(gè)分類器和本發(fā)明中的兩類分類器組識(shí)別五種情感。用于訓(xùn)練的樣本集,包括3名男性與3名女性的情感語(yǔ)料,針對(duì)15條不同的文本短句進(jìn)行5種情感表演的朗讀,包括了每條語(yǔ)句的3到4遍的重復(fù)錄音,共243X5條,每種情感共243條,用于說(shuō)話人無(wú)關(guān)、文本無(wú)關(guān)的情感識(shí)別訓(xùn)練。選用與訓(xùn)練樣本不同的情感語(yǔ)料作為識(shí)別率測(cè)試的樣本集,包括了同樣的3名男性與3名女性對(duì)同樣的15條文本短句的情感表演語(yǔ)料,共85X5條,每種情感85條。在對(duì)比實(shí)驗(yàn)中,每種識(shí)別方法的訓(xùn)練與測(cè)試,采用相同的訓(xùn)練樣本集和相同的測(cè)試樣本集。(1)第一組對(duì)比實(shí)驗(yàn)采用單個(gè)多類分類器,LDA降維后,特征空間維度為4(因?yàn)榇R(shí)別樣本為5),采用GMM建模與識(shí)別,經(jīng)實(shí)驗(yàn)觀察,GMM混合度為9時(shí)識(shí)別率最高,識(shí)別結(jié)果如表4所示。表410采用本發(fā)明中的兩類分類器組,對(duì)每個(gè)情感對(duì)進(jìn)行LDA降維后,特征空間維度為1。實(shí)驗(yàn)中觀察到每個(gè)兩類分類器的最佳識(shí)別的GMM混合度如表5所示。表5進(jìn)行兩類分類器組的置信度相關(guān)譯碼融合后,對(duì)五種情感的識(shí)別測(cè)試結(jié)果如表6所示。表6在第一組對(duì)比實(shí)驗(yàn)結(jié)果中我們可以觀察到正確識(shí)別率有了明顯的提升,“喜”、“怒”、“驚”、“悲”和“平靜”的正確識(shí)別率分別提升了6.2個(gè)百分點(diǎn)、8.2個(gè)百分點(diǎn)、11.2個(gè)百分點(diǎn)、8.1個(gè)百分點(diǎn)和9.3個(gè)百分點(diǎn)。其中對(duì)“驚”的正確識(shí)別率的提升最高,達(dá)到了十個(gè)百分點(diǎn)以上,這反映出了在單個(gè)多類分類器中對(duì)“驚”的情感特征的優(yōu)化選取的不足。由于特征空間的降維優(yōu)化是以區(qū)分5種情感為準(zhǔn)則的,因此在同一個(gè)特征空間中,就很難兼顧到所有5種情感類別的最佳情感特征,這也就造成了對(duì)“驚”的情感特征的優(yōu)化的不理想,同時(shí)這也就說(shuō)明了情感特征的優(yōu)化還有一段提升的空間。因此在兩類分類器組中,對(duì)每個(gè)情感對(duì)都進(jìn)行各自的特征空間優(yōu)化,將“驚”同其余4中類別分別進(jìn)行特征的降維優(yōu)化,以兩兩之間的最佳區(qū)分為準(zhǔn)則進(jìn)行,提升了優(yōu)化的效果。具體的分析,在實(shí)驗(yàn)中“驚”與“喜”之間容易發(fā)生錯(cuò)誤識(shí)別,采用了本發(fā)明中的方法后,“驚”誤識(shí)為“喜”的誤識(shí)率下降了7.1個(gè)百分點(diǎn),“喜”誤識(shí)為“驚”的誤識(shí)率下降了1.7個(gè)百分點(diǎn)。在其余的情感類別之間,也觀察到了類似的特征優(yōu)化帶來(lái)的效果。在圖4中,顯示了錯(cuò)誤率的下降幅度,對(duì)每種情感類別的漏識(shí)率(第一類錯(cuò)誤率)和誤識(shí)率(第二類錯(cuò)誤率)進(jìn)行了總結(jié)。(2)第二組對(duì)比實(shí)驗(yàn)通過(guò)特征選擇進(jìn)行降維,根據(jù)fisher判別準(zhǔn)則選擇最佳的十個(gè)特征,如表7所示。表7測(cè)試本發(fā)明中的兩類分類器組識(shí)別效果,每個(gè)情感對(duì)的最佳特征選擇組如表2所示,依據(jù)分類器的平均識(shí)別錯(cuò)誤率,每個(gè)兩類分類器各自的最佳GMM混合度如表9所示。使用各自最佳的GMM混合度,兩類分類器組的置信度相關(guān)譯碼融合后的識(shí)別測(cè)試結(jié)果如表10所示。表9表10在第二組對(duì)比實(shí)驗(yàn)結(jié)果中我們觀察到,與第一組對(duì)比實(shí)驗(yàn)一樣,每個(gè)情感類別的識(shí)別率都得到了一定的提升。“喜”、“怒”、“驚”、“悲”和“平靜”的正確識(shí)別率分別提升了8.7個(gè)百分點(diǎn)、9.9個(gè)百分點(diǎn)、9.0個(gè)百分點(diǎn)、7.7個(gè)百分點(diǎn)和10.6個(gè)百分點(diǎn),其中“平靜”的識(shí)別率提升最顯著,到達(dá)了十個(gè)百分點(diǎn)以上。這表明了本發(fā)明中的方法選擇出了更加合理的最佳特征組,達(dá)到了識(shí)別效果的明顯提升。在傳統(tǒng)的單個(gè)多類分類器中5種情感類別的最佳特征選取,只能在單個(gè)特征空間中進(jìn)行,需要兼顧到5類不同的類別,因而不能達(dá)到類別兩兩最佳識(shí)別意義下的優(yōu)化。而在兩類分類器組的10個(gè)特征空間中,分別對(duì)每個(gè)情感對(duì)進(jìn)行了最佳特征組的選擇,獲得了10組最佳特征(如表2所示)用于情感類別的兩兩最佳識(shí)別,從而達(dá)到了特征的更合理的優(yōu)化,提高了識(shí)別效果。例如“平靜”與“喜”容易發(fā)生混淆,在第二組實(shí)驗(yàn)結(jié)果中我們觀察到,“平靜”誤判為“喜”的錯(cuò)誤率下降了3.6個(gè)百分點(diǎn),“喜”誤判為“平靜”的錯(cuò)誤率下降了3.1個(gè)百分點(diǎn),錯(cuò)誤率的下降,是由于在“喜”和“平靜”的兩類分類器中優(yōu)化選取了最適合區(qū)分“平靜”與“喜”的最佳特征組。根據(jù)實(shí)驗(yàn)數(shù)據(jù),在其它的情感類別之間,也同樣觀察到了類似的錯(cuò)誤率的下降。圖5中總結(jié)和顯示了5種情感類別的第一類錯(cuò)誤率和第二類錯(cuò)誤率的下降幅度。總的來(lái)說(shuō)本發(fā)明的對(duì)多類分類器分解并優(yōu)化的方法,能夠明顯提高識(shí)別率,第一組實(shí)驗(yàn)中平均識(shí)別率提高了8.6個(gè)百分點(diǎn),第二組實(shí)驗(yàn)中平均識(shí)別率提高了9.2個(gè)百分點(diǎn)。這是由于本發(fā)明中的兩類分類器組能對(duì)于不同的情感對(duì),進(jìn)行各自最優(yōu)的特征降維和特征選擇,充分利用了適合各個(gè)情感對(duì)的不同的最優(yōu)特征。本發(fā)明請(qǐng)求保護(hù)的范圍并不僅僅局限于本具體實(shí)施方式的描述。權(quán)利要求一種基于情感對(duì)特征優(yōu)化的語(yǔ)音情感分類方法,包括如下步驟(1)采集喜、怒、驚、悲,和平靜五種基本情感狀態(tài)的語(yǔ)音數(shù)據(jù);(2)語(yǔ)音情感特征提??;(3)情感對(duì)的配對(duì);其特征在于還包括如下步驟(4)特征壓縮與特征選擇(41)線性判別分析(LDA)降維,分別通過(guò)每個(gè)情感對(duì)的類內(nèi)、類間離散度矩陣來(lái)計(jì)算各自的投影變換向量;使用每個(gè)情感對(duì)各自的投影向量,分別進(jìn)行各自的LDA變換;(42)基于fisher判別準(zhǔn)則的特征選擇方法Fisher判別準(zhǔn)則如式(1)所示<mrow><mi>f</mi><mrow><mo>(</mo><mi>d</mi><mo>)</mo></mrow><mo>=</mo><mfrac><msup><mrow><mo>(</mo><msub><mi>μ</mi><mrow><mn>1</mn><mi>d</mi></mrow></msub><mo>-</mo><msub><mi>μ</mi><mrow><mn>2</mn><mi>d</mi></mrow></msub><mo>)</mo></mrow><mn>2</mn></msup><mrow><msubsup><mi>σ</mi><mrow><mn>1</mn><mi>d</mi></mrow><mn>2</mn></msubsup><mo>+</mo><msubsup><mi>σ</mi><mrow><mn>2</mn><mi>d</mi></mrow><mn>2</mn></msubsup></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></mrow>其中μ1d、μ2d為第d個(gè)維度兩個(gè)類別的特征值的均值,為第d個(gè)維度兩個(gè)類別的特征值的方差;(5)基于兩類分類器組的判決融合(51)記輸入的情感語(yǔ)音數(shù)據(jù),經(jīng)過(guò)步驟(4)特征選擇后構(gòu)成待識(shí)別的樣本矢量為X,一個(gè)兩類分類器識(shí)別的情感為第i個(gè)情感與第j個(gè)情感,則通過(guò)GMM模型得到的GMM似然度為,P(X|λi),P(X|λi),其中λi,λj為兩種情感的GMM模型的參數(shù);(52)兩類分類器的判決輸出Ci,j為<mrow><msub><mi>C</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow></msub><mo>=</mo><mfencedopen='{'close=''><mtable><mtr><mtd><mi>i</mi></mtd><mtd><mi>P</mi><mrow><mo>(</mo><mi>X</mi><mo>|</mo><msub><mi>λ</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>≥</mo><mi>P</mi><mrow><mo>(</mo><mi>X</mi><mo>|</mo><msub><mi>λ</mi><mi>j</mi></msub><mo>)</mo></mrow></mtd></mtr><mtr><mtd><mi>j</mi><mo>,</mo></mtd><mtd><mi>P</mi><mrow><mo>(</mo><mi>X</mi><mo>|</mo><msub><mi>λ</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>≤</mo><mi>P</mi><mrow><mo>(</mo><mi>X</mi><mo>|</mo><msub><mi>λ</mi><mi>j</mi></msub><mo>)</mo></mrow></mtd></mtr></mtable></mfenced><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></mrow>(53)每個(gè)兩類分類器的置信度wi,j,用式(3)來(lái)得到<mrow><msub><mi>w</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow></msub><mo>=</mo><mn>2</mn><mo>×</mo><mfrac><mrow><mo>|</mo><mi>ln</mi><mrow><mo>(</mo><mi>P</mi><mrow><mo>(</mo><mi>X</mi><mo>|</mo><msub><mi>λ</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>)</mo></mrow><mo>-</mo><mi>ln</mi><mrow><mo>(</mo><mi>P</mi><mrow><mo>(</mo><mi>X</mi><mo>|</mo><msub><mi>λ</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>)</mo></mrow></mrow><mrow><mi>ln</mi><mrow><mo>(</mo><mi>P</mi><mrow><mo>(</mo><mi>X</mi><mo>|</mo><msub><mi>λ</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>)</mo></mrow><mo>+</mo><mi>ln</mi><mrow><mo>(</mo><mi>P</mi><mrow><mo>(</mo><mi>X</mi><mo>|</mo><msub><mi>λ</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>)</mo></mrow></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>3</mn><mo>)</mo></mrow></mrow>(54)用相關(guān)譯碼的方法來(lái)進(jìn)行判決即每個(gè)兩類分類器的輸出值構(gòu)成列向量C,設(shè)定的情感碼字記為矩陣Im×n,m為分類器的個(gè)數(shù),n為情感類別數(shù)。輸出值與碼字間的距離即為相關(guān)值ri,i=1,2,…n,通過(guò)式(4)得到,RT=CT·Im×n(4)其中,R={r1,r2,…,rn},每個(gè)分量與一種情感對(duì)應(yīng)。最大的相關(guān)值對(duì)應(yīng)的情感類別,即為識(shí)別結(jié)果,i*=argmax{ri}(5)i*表示識(shí)別出的情感類別的標(biāo)號(hào)。FSA00000196124100012.tif,FSA00000196124100013.tif全文摘要本發(fā)明公布了一種基于情感對(duì)特征優(yōu)化的語(yǔ)音情感分類方法,包括如下步驟(1)采集喜、怒、驚、悲,和平靜五種基本情感狀態(tài)的語(yǔ)音數(shù)據(jù);(2)語(yǔ)音情感特征提??;(3)情感對(duì)的配對(duì);(4)特征壓縮與特征選擇(4-1)線性判別分析(LDA)降維;使用每個(gè)情感對(duì)各自的投影向量,分別進(jìn)行各自的LDA變換;(4-2)基于fisher判別準(zhǔn)則的特征選擇方法;(5)基于兩類分類器組的判決融合(5-1)記輸入的情感語(yǔ)音數(shù)據(jù)(5-2)兩類分類器的判決輸出Ci,j;(5-3)每個(gè)兩類分類器的置信度wi,j,用式(3)來(lái)得到(5-4)用相關(guān)譯碼的方法來(lái)進(jìn)行判決最大的相關(guān)值對(duì)應(yīng)的情感類別,即為識(shí)別結(jié)果。文檔編號(hào)G10L15/06GK101894550SQ20101023051公開日2010年11月24日申請(qǐng)日期2010年7月19日優(yōu)先權(quán)日2010年7月19日發(fā)明者余華,王開,趙力,鄒采榮,黃程韋申請(qǐng)人:東南大學(xué)