專利名稱:結(jié)合支持向量機(jī)二次識別的模糊核聚類語音情感識別方法
技術(shù)領(lǐng)域:
本發(fā)明屬于語音處理和人工智能交叉領(lǐng)域,特別涉及智能人機(jī)交互系統(tǒng)中的情感識別方法。
背景技術(shù):
目前,基于傳統(tǒng)的統(tǒng)計方式的語音情感模式識別方法,又或者是諸如神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí),這些傳統(tǒng)經(jīng)典方法只有在樣本數(shù)據(jù)足夠大的時候才會取得理想的識別率,因此當(dāng)實(shí)際中樣本數(shù)據(jù)較少或者有限時,傳統(tǒng)方法的工程應(yīng)用將會受到限制。另外,眾所周知自然情感的表述以及所呈現(xiàn)的狀態(tài)經(jīng)常是比較模棱兩可的或者說是混雜的(見文獻(xiàn)Emotion classification irom speech using evaluator reliability-weightedcombination of ranked—lists,Audhkhasi, K.,Narayanan, S.,In ICASS, Issue July,2011,pp :4956-4959.)。因此在設(shè)計語音情感識別系統(tǒng)是應(yīng)當(dāng)考慮到情感的混雜屬性,所以 以往的識別方法只是賦予未知情感一個單獨(dú)的預(yù)測標(biāo)簽不是最優(yōu)的(見文獻(xiàn)A Frameworkfor Automatic Human Emotion Classification Using Emotion Profiles, Emily M.,Narayanan, S. , IEEE Trans On Audio, Speech and Language Processing, 2011, vol.19,pp.1507-1520)。
發(fā)明內(nèi)容
為解決上述問題,本發(fā)明中,我們利用模糊集理論知識,用模糊隸屬度來表征未知語音情感的模糊屬性,而非ー個單獨(dú)的分類預(yù)測標(biāo)簽,從而更為合理;由于使用了模糊核非線性映射是不同情感的區(qū)分度増大。實(shí)驗結(jié)果也證明本發(fā)明中的提出的方法是有效的。首先利用模糊核聚類算法(見文獻(xiàn)A Kernel Method For Speaker RecognitionWith Little Data, Lin L.,Shuxun ff.,In ICSSP, 2006, vol. I)迭代出姆種情感的碼本,讓后利用平均模糊加權(quán)矢量量化誤差最小準(zhǔn)則來分類未知語音的情感類別?;谀:耸噶苛炕椒〞霈F(xiàn)陷入局部最優(yōu),從而出現(xiàn)識別率下降,針對高興和生氣在這種情況下易混淆,故而經(jīng)過試驗驗證采用支持向量機(jī)(見文獻(xiàn)Chih-Chung C. , Chih-Jen Lin.LIBSV—A Library for Support Vector Machine. http://www. csie. ntu. edu. tw/ cjlin/libsvm/.)方法進(jìn)行二次識別。其具體原理是核方法的基本思想是通過非線性映射將數(shù)據(jù)映射到高維特征空間,但是在高維空間中的計算是非常耗時的,因此實(shí)際中我們使用Mercer核來簡化計算。假設(shè)序列X= {xl,x2,...,xN}作為輸入數(shù)據(jù),在特征空間中輸入數(shù)據(jù)可以表示為O(X1),
i= N,這里①( )Rd — Rq, d << q是非線性映射,它可以用來求特征空間的內(nèi)積,公式如下K(Xi, Xj) = (O (Xi)) ①(Xj)) (I)因為高斯核函數(shù)所對應(yīng)的特征空間是無窮維的,那么有限的樣本在該特征空間中必然是線性可分的;另外,高斯核函數(shù)對噪聲的敏感程度遠(yuǎn)遠(yuǎn)低于其它核函數(shù)。因此,本發(fā)明中使用滿足Mercer條件的高斯核函數(shù)。在高斯核函數(shù)中,其中S 2表征的是離散度,在本文中利用樣本的方差O 2來表示該離散度,當(dāng)特征樣本方差小,表示特征樣本矢量之間比較集中,這時候為了能夠得到好的分類,必須增大特征矢量的可區(qū)分性,由式(2)和(3)知,方差小,特征空間中樣本與各類矢量之間距離將增大,從而使得矢量之間可區(qū)分性增強(qiáng),反之亦然。同時,當(dāng)利用樣本方差O2來表示核函數(shù)中的離散度,無需為得到合適S 2而進(jìn)行大量實(shí)驗,實(shí)現(xiàn)參數(shù)的自適應(yīng)調(diào)整。新高斯核函數(shù)如下
權(quán)利要求
1.結(jié)合支持向量機(jī)二次識別的模糊核聚類語音情感識別方法,包括1,非線性核函數(shù)映射;2,平均模糊加權(quán)最小矢量量化誤差準(zhǔn)則;3,結(jié)合支持向量機(jī)二次識別。
2.根據(jù)權(quán)利要求I所述的結(jié)合支持向量機(jī)二次識別的模糊核聚類語音情感識別方法,其特征是1,使用梅爾倒譜系數(shù),通過非線性核函數(shù)映射到高維特征空間,這樣既可以擴(kuò)展不同情感的差異性而且也適用于不同數(shù)據(jù)分布結(jié)構(gòu)的樣本;2,通過平均模糊加權(quán)最小矢量量化誤差準(zhǔn)則估計樣本類別標(biāo)簽,而非一個硬標(biāo)簽更為合理,3,結(jié)合支持向量機(jī)對高興和生氣用線性預(yù)測系數(shù)進(jìn)行二次識別,從而整體提高了識別率。
全文摘要
結(jié)合支持向量機(jī)二次識別的模糊核聚類語音情感識別方法。它先用梅爾倒譜系數(shù),通過非線性核函數(shù)映射到高維特征空間,利用模糊核聚類得到聚類中心作為矢量量化的碼書,讓后通過平均模糊加權(quán)最小矢量量化誤差準(zhǔn)則估計樣本類別標(biāo)簽,估計完標(biāo)簽后利用支持向量機(jī)法并用線性預(yù)測系數(shù)對高興和生氣進(jìn)行二次識別。它是人機(jī)交互系統(tǒng)中自動識別情感的重要組成部分,它是機(jī)器與人進(jìn)行有感情交互的第一步,對以人為設(shè)計中心的系統(tǒng)具有重要的應(yīng)用前景。
文檔編號G06K9/62GK102663432SQ20121011397
公開日2012年9月12日 申請日期2012年4月18日 優(yōu)先權(quán)日2012年4月18日
發(fā)明者何文洲, 徐斌, 王良翼, 黃杰 申請人:電子科技大學(xué)