本發(fā)明涉及多媒體領(lǐng)域,具體涉及一種具有情感識別功能的多媒體播放器。
背景技術(shù):
:多媒體播放器,一種可以在電視上播放網(wǎng)絡(luò)視頻文件的設(shè)備。多媒體播放器可在電腦里個人享用的電影搬到客廳,在電視機(jī)上直播網(wǎng)絡(luò)電影,實現(xiàn)電視全家人共享精彩歡樂時刻。情感在人們相互交際過程中起著極其重要的作用。借助情感表達(dá)所伴隨著的外在表現(xiàn)信息,如情感化的語音信號或面部表情,人們可以很方便地相互溝通、相互了解。對于人類情感方面的研究,一直是生理學(xué)、神經(jīng)學(xué)、心理學(xué)等領(lǐng)域的重要研究方向,近幾年來倍受工程領(lǐng)域研究者的關(guān)注。當(dāng)前,對于單模態(tài)情感研究較多,但是對于多模態(tài)情感融合的研究較為有限。技術(shù)實現(xiàn)要素:針對上述問題,本發(fā)明提供一種具有情感識別功能的多媒體播放器。本發(fā)明的目的采用以下技術(shù)方案來實現(xiàn):一種具有情感識別功能的多媒體播放器,其特征是,包括多媒體播放器和與多媒體播放器相連的情感控制系統(tǒng),所述多媒體播放器可選擇地運行于第一模式或第二模式,包括:多個多媒體源,用于提供多媒體數(shù)據(jù);通用串行總線集線器接口,連接至外部電子裝置,并在該多媒體播放器運行于該第二模式時與該外部電子裝置通信;處理器,耦接至該多個多媒體源及該通用串行總線集線器接口,當(dāng)該多媒體播放器運行于該第一模式時,該處理器擷取該多個多媒體源其中之一的該多媒體數(shù)據(jù),并譯碼該多媒體數(shù)據(jù),其中該被譯碼的多媒體數(shù)據(jù)被準(zhǔn)備好以用于播放;當(dāng)該多媒體播放器運行于該第二模式時,該處理器透過該通用串行總線集線器接口連接至該外部電子裝置,該多個多媒體源被用作支持該外部電子裝置的通用串行總線裝置。優(yōu)選地,該外部電子裝置為傳統(tǒng)的通用計算機(jī)、特種用途計算機(jī)或互聯(lián)網(wǎng)裝置。優(yōu)選地,該外部電子裝置為包括多媒體播放器代理的通用串行總線主機(jī)。本發(fā)明的有益效果為:可通過通用串行總線集線器接口連接至外部電子裝置,從而可以更有效地利用外部多媒體資源。附圖說明利用附圖對本發(fā)明作進(jìn)一步說明,但附圖中的實施例不構(gòu)成對本發(fā)明的任何限制,對于本領(lǐng)域的普通技術(shù)人員,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)以下附圖獲得其它的附圖。圖1是本發(fā)明多媒體播放器的結(jié)構(gòu)示意圖;圖2是本發(fā)明情感控制系統(tǒng)的結(jié)構(gòu)示意圖。附圖標(biāo)記:語音情感識別處理模塊1、表情情感識別處理模塊2、多模態(tài)情感融合識別處理模塊3、控制模塊4、聲學(xué)特征提取子模塊11、聲學(xué)特征降維子模塊12、語音情感分類處理子模塊13、表情特征提取子模塊21、表情特征降維子模塊22、表情情感分類處理子模塊23。具體實施方式結(jié)合以下實施例對本發(fā)明作進(jìn)一步描述。應(yīng)用場景1參見圖1、圖2,本應(yīng)用場景中的一種具有情感識別功能的多媒體播放器,其特征是,包括多媒體播放器和與多媒體播放器相連的情感控制系統(tǒng),所述多媒體播放器可選擇地運行于第一模式或第二模式,包括:多個多媒體源,用于提供多媒體數(shù)據(jù);通用串行總線集線器接口,連接至外部電子裝置,并在該多媒體播放器運行于該第二模式時與該外部電子裝置通信;處理器,耦接至該多個多媒體源及該通用串行總線集線器接口,當(dāng)該多媒體播放器運行于該第一模式時,該處理器擷取該多個多媒體源其中之一的該多媒體數(shù)據(jù),并譯碼該多媒體數(shù)據(jù),其中該被譯碼的多媒體數(shù)據(jù)被準(zhǔn)備好以用于播放;當(dāng)該多媒體播放器運行于該第二模式時,該處理器透過該通用串行總線集線器接口連接至該外部電子裝置,該多個多媒體源被用作支持該外部電子裝置的通用串行總線裝置。優(yōu)選地,該外部電子裝置為傳統(tǒng)的通用計算機(jī)、特種用途計算機(jī)或互聯(lián)網(wǎng)裝置。本優(yōu)選實施例可通過通用串行總線集線器接口連接至外部電子裝置,從而可以更有效地利用外部多媒體資源。優(yōu)選地,該外部電子裝置為包括多媒體播放器代理的通用串行總線主機(jī)。本優(yōu)選實施例更加方便客戶體驗。優(yōu)選地,所述情感控制系統(tǒng)包括語音情感識別處理模塊1、表情情感識別處理模塊2、多模態(tài)情感融合識別處理模塊3和控制模塊4:(1)語音情感識別處理模塊1,用于獲取用戶的語音信號,并對語音信號進(jìn)行處理,最終輸出語音情感識別結(jié)果,其包括聲學(xué)特征提取子模塊11、聲學(xué)特征降維子模塊12和語音情感分類處理子模塊13;所述聲學(xué)特征提取子模塊11用于提取聲學(xué)特征數(shù)據(jù);所述聲學(xué)特征降維子模塊12用于采用改進(jìn)的局部線性嵌入方法對所述聲學(xué)特征數(shù)據(jù)進(jìn)行降維處理;所述語音情感分類處理子模塊13用于采用已訓(xùn)練好的支持向量機(jī)作為語音情感識別分類器,對降維后的聲學(xué)特征數(shù)據(jù)進(jìn)行情感識別并輸出語音情感識別結(jié)果,支持向量機(jī)的核函數(shù)采用高斯核函數(shù);(2)表情情感識別處理模塊2,用于獲取用戶的表情圖像,并對表情圖像特征進(jìn)行處理,最終生成表情情感識別結(jié)果,其包括表情特征提取子模塊21、表情特征降維子模塊22和表情情感分類處理子模塊23;所述表情特征提取子模塊21用于采用自適應(yīng)二維Gabor小波變換方法對表情圖像中的表情特征進(jìn)行提??;所述表情特征降維子模塊22用于采用所述改進(jìn)的局部線性嵌入方法對所述表情特征數(shù)據(jù)進(jìn)行降維處理,并采用形態(tài)學(xué)處理方法做濾波處理;所述表情情感分類處理子模塊23用于采用已訓(xùn)練好的稀疏分類器作為表情情感識別分類器,對降維、濾波處理后的表情特征數(shù)據(jù)進(jìn)行情感識別并輸出表情情感識別結(jié)果;(3)多模態(tài)情感融合識別處理模塊3,用于基于所述語音情感識別結(jié)果和表情情感識別結(jié)果,根據(jù)預(yù)定的多模態(tài)情感融合策略生成用戶情感識別結(jié)果;(4)控制模塊,用于根據(jù)所述用戶情感識別結(jié)果,在驗證用戶身份的前提下控制多媒體播放器執(zhí)行相應(yīng)的操作。本優(yōu)選實施例設(shè)置多模態(tài)情感融合識別處理模塊3,基于所述語音情感識別結(jié)果和表情情感識別結(jié)果,增強(qiáng)了識別結(jié)果的可靠性。優(yōu)選地,所述用戶情感識別結(jié)果包括高級別和低級別的褒義情感,中性情感以及高級別和低級別的貶義情感組成的5個級別情感類型。所述在驗證用戶身份的前提下控制多媒體播放器執(zhí)行相應(yīng)的操作,具體為:所述控制模塊基于預(yù)先設(shè)置的語音特征數(shù)據(jù)庫,匹配所述用戶的語音信號的語音特征,從而進(jìn)行用戶身份驗證,若驗證通過,控制模塊控制多媒體播放器執(zhí)行相應(yīng)的操作。所述采用改進(jìn)的局部線性嵌入方法對所述聲學(xué)特征數(shù)據(jù)進(jìn)行降維處理,包括:(1)將提取的聲學(xué)特征數(shù)據(jù)中的聲學(xué)特征向量看成是高維空間中的樣本數(shù)據(jù)點,設(shè)M維的N個樣本數(shù)據(jù)點為Xi,Xi∈RM,i∈[1,N],類別號為Ci,嵌入輸出的N個m維的降維數(shù)據(jù)點為Yi,Yi∈Rm,i∈[1,N],m≤M,且m值的范圍為[2,20],對每個樣本數(shù)據(jù)點Xi確定其鄰域點的數(shù)目K,鄰域點的距離公式為:L′=1-e-Lλ,Ci=CjL+δ1max(L)+δ2min(L),Ci≠Cj]]>式中,L′是結(jié)合樣本數(shù)據(jù)點類別信息計算后的距離,L是忽略樣本數(shù)據(jù)點類別信息的原始?xì)W氏距離,參數(shù)λ用來防止L過快增長,max(L)表示最大歐氏距離,min(L)表示最小歐式距離,常數(shù)因子δ1、δ2(0≤δ1、δ2≤1),共同控制距離計算時樣本數(shù)據(jù)點類別信息的結(jié)合數(shù)量程度;(2)利用每個樣本數(shù)據(jù)點Xi的鄰域點計算出樣本數(shù)據(jù)點的局部重建權(quán)值矩陣Wij,要求最小化下列損失函數(shù):s(W)=Σi=1N||Xi-Σj=1KWijXj||2]]>式中,Wij為Xi與Xj之間的權(quán)值,且需滿足對Xi的非鄰域點,Wij=0;(3)計算各樣本數(shù)據(jù)點Xi的K個鄰域點的權(quán)重之和:Qij=Σj=1KZij]]>其中,式中,Zij為各鄰域點之間的加權(quán)矩陣,d(Xi,Xj)表示樣本數(shù)據(jù)點間的Fisher投影距離,ξ為可調(diào)參數(shù);(4)利用該樣本數(shù)據(jù)點的局部重建權(quán)值矩陣Wij以及其鄰域點計算出該樣本數(shù)據(jù)點的輸出值,具體是將所有的樣本數(shù)據(jù)點Xi映射嵌入到低維空間中,并使得低維重構(gòu)的誤差達(dá)到最小,要求最小化下列損失函數(shù):ω(Y)=Σi=1NQij||Yi-ΣXj∈Ω(Xi)WijYj||2=tr(YMYT)]]>式中,需滿足其中構(gòu)建一個稀疏矩陣M=(I-W)T(I-W),通過求解這個稀疏矩陣的前m個最小的非零特征值所對應(yīng)的特征向量作為樣本數(shù)據(jù)點Xi的嵌入輸出值。所述自適應(yīng)二維Gabor小波變換方法中的Gabor濾波器的核函數(shù)定義為:Φα,β=||kα,β||2σ2e-||kα,β||2||z||22σ2[eikα,βz-e-σ22]]]>式中,α、β分別表示核函數(shù)的方向和頻率大小,α、β按照按如下方法設(shè)置:當(dāng)表情圖像質(zhì)量較好時,選取三個中心頻率β={0,1,2}和六個方向α={0,1,…,5}組成的18個Gabor濾波器用于特征提取;當(dāng)表情圖像受到腐蝕、遮擋時,選取四個中心頻率β={0,1…,3}和八個方向α={0,1,…,7}組成的32個Gabor濾波器用于特征提??;σ表示采用高斯函數(shù)窗口的大小,用來決定濾波器的帶寬,σ能夠根據(jù)參數(shù)設(shè)置進(jìn)行自適應(yīng)調(diào)整:將表情圖像分成v×v子塊,根據(jù)每個子塊特征數(shù)目選擇σ,特征數(shù)目大的子塊設(shè)定σ=π,特征數(shù)目少的子塊設(shè)定σ=2π;kα,β為小波矢量,其中,kβ和分別表示Gabor濾波器在頻率和方向空間的采樣方式。所述預(yù)定的多模態(tài)情感融合策略為:設(shè)已經(jīng)計算出一個測試樣本x對于c類的分類情況下,采用n個分類器進(jìn)行分類得到的后驗概率集合為{pij(x),i=1,2,…,n,j=1,2,…,c},對n個分類器取得的后驗概率按照方差規(guī)則集成得到一個新的后驗概率集合{qj(x),j=1,2,…,c},從中按照預(yù)定的挑選規(guī)則挑選出合適的后驗概率值所對應(yīng)的類別作為要輸出的用戶情感識別結(jié)果;對于j類測試樣本,按照方差規(guī)則獲得的新的后驗概率qj(x)可表示為:qj(x)=qj′(x)Σjqj′(x)]]>式中,qj′(x)=1nΣi=1n(pij(x)-1nΣi=1npij(x))2]]>對于j類測試樣本,最終所獲得的識別類別可表示為:ρ(x)=argmaxj(qj(x))其中,所述預(yù)定的挑選規(guī)則為:將所述新的后驗概率集合中的后驗概率值按照從大到小順序進(jìn)行排列的前3個后驗概率值為qj(x)max,qj(x)max-1,qj(x)max-2,若選擇qj(x)max作為合適的后驗概率值,否則選擇qj(x)max-1作為合適的后驗概率值,其中Qq為設(shè)定的后驗概率權(quán)值,取值范圍為[1.4,1.6]。本優(yōu)選實施例設(shè)置改進(jìn)的局部線性嵌入方法,需要確定的參數(shù)比較少,只有鄰域數(shù)k和輸出維數(shù)d,大大減少了運算量,且可以學(xué)習(xí)出任意維數(shù)的低維流形,提高了識別速度;采用自適應(yīng)二維Gabor小波變換方法對表情圖像中的表情特征進(jìn)行提取,具有旋轉(zhuǎn)、平移以及伸縮變換條件下不變的性質(zhì),而且能得到一個解析的全局最優(yōu)解;在聲學(xué)特征降維子模塊12對聲學(xué)特征數(shù)據(jù)進(jìn)行降維處理的過程中,計算各樣本數(shù)據(jù)點Xi的K個鄰域點的權(quán)重之和,并將其考慮到低維重構(gòu)的損失函數(shù)中,降低了噪聲的影響和數(shù)據(jù)樣本外點對降維的干擾,進(jìn)一步提高了情感識別的精度;設(shè)置預(yù)定的多模態(tài)情感融合策略,并根據(jù)多模態(tài)情感融合策略生成用戶情感識別結(jié)果,使識別結(jié)果更加可靠準(zhǔn)確。本應(yīng)用場景設(shè)定后驗概率權(quán)值為Qq=1.4,識別精度相對提高了12%。應(yīng)用場景2參見圖1、圖2,本應(yīng)用場景中的一種具有情感識別功能的多媒體播放器,其特征是,包括多媒體播放器和與多媒體播放器相連的情感控制系統(tǒng),所述多媒體播放器可選擇地運行于第一模式或第二模式,包括:多個多媒體源,用于提供多媒體數(shù)據(jù);通用串行總線集線器接口,連接至外部電子裝置,并在該多媒體播放器運行于該第二模式時與該外部電子裝置通信;處理器,耦接至該多個多媒體源及該通用串行總線集線器接口,當(dāng)該多媒體播放器運行于該第一模式時,該處理器擷取該多個多媒體源其中之一的該多媒體數(shù)據(jù),并譯碼該多媒體數(shù)據(jù),其中該被譯碼的多媒體數(shù)據(jù)被準(zhǔn)備好以用于播放;當(dāng)該多媒體播放器運行于該第二模式時,該處理器透過該通用串行總線集線器接口連接至該外部電子裝置,該多個多媒體源被用作支持該外部電子裝置的通用串行總線裝置。優(yōu)選地,該外部電子裝置為傳統(tǒng)的通用計算機(jī)、特種用途計算機(jī)或互聯(lián)網(wǎng)裝置。本優(yōu)選實施例可通過通用串行總線集線器接口連接至外部電子裝置,從而可以更有效地利用外部多媒體資源。優(yōu)選地,該外部電子裝置為包括多媒體播放器代理的通用串行總線主機(jī)。本優(yōu)選實施例更加方便客戶體驗。優(yōu)選地,所述情感控制系統(tǒng)包括語音情感識別處理模塊1、表情情感識別處理模塊2、多模態(tài)情感融合識別處理模塊3和控制模塊4:(1)語音情感識別處理模塊1,用于獲取用戶的語音信號,并對語音信號進(jìn)行處理,最終輸出語音情感識別結(jié)果,其包括聲學(xué)特征提取子模塊11、聲學(xué)特征降維子模塊12和語音情感分類處理子模塊13;所述聲學(xué)特征提取子模塊11用于提取聲學(xué)特征數(shù)據(jù);所述聲學(xué)特征降維子模塊12用于采用改進(jìn)的局部線性嵌入方法對所述聲學(xué)特征數(shù)據(jù)進(jìn)行降維處理;所述語音情感分類處理子模塊13用于采用已訓(xùn)練好的支持向量機(jī)作為語音情感識別分類器,對降維后的聲學(xué)特征數(shù)據(jù)進(jìn)行情感識別并輸出語音情感識別結(jié)果,支持向量機(jī)的核函數(shù)采用高斯核函數(shù);(2)表情情感識別處理模塊2,用于獲取用戶的表情圖像,并對表情圖像特征進(jìn)行處理,最終生成表情情感識別結(jié)果,其包括表情特征提取子模塊21、表情特征降維子模塊22和表情情感分類處理子模塊23;所述表情特征提取子模塊21用于采用自適應(yīng)二維Gabor小波變換方法對表情圖像中的表情特征進(jìn)行提??;所述表情特征降維子模塊22用于采用所述改進(jìn)的局部線性嵌入方法對所述表情特征數(shù)據(jù)進(jìn)行降維處理,并采用形態(tài)學(xué)處理方法做濾波處理;所述表情情感分類處理子模塊23用于采用已訓(xùn)練好的稀疏分類器作為表情情感識別分類器,對降維、濾波處理后的表情特征數(shù)據(jù)進(jìn)行情感識別并輸出表情情感識別結(jié)果;(3)多模態(tài)情感融合識別處理模塊3,用于基于所述語音情感識別結(jié)果和表情情感識別結(jié)果,根據(jù)預(yù)定的多模態(tài)情感融合策略生成用戶情感識別結(jié)果;(4)控制模塊,用于根據(jù)所述用戶情感識別結(jié)果,在驗證用戶身份的前提下控制多媒體播放器執(zhí)行相應(yīng)的操作。本優(yōu)選實施例設(shè)置多模態(tài)情感融合識別處理模塊3,基于所述語音情感識別結(jié)果和表情情感識別結(jié)果,增強(qiáng)了識別結(jié)果的可靠性。優(yōu)選地,所述用戶情感識別結(jié)果包括高級別和低級別的褒義情感,中性情感以及高級別和低級別的貶義情感組成的5個級別情感類型。所述在驗證用戶身份的前提下控制多媒體播放器執(zhí)行相應(yīng)的操作,具體為:所述控制模塊基于預(yù)先設(shè)置的語音特征數(shù)據(jù)庫,匹配所述用戶的語音信號的語音特征,從而進(jìn)行用戶身份驗證,若驗證通過,控制模塊控制多媒體播放器執(zhí)行相應(yīng)的操作。所述采用改進(jìn)的局部線性嵌入方法對所述聲學(xué)特征數(shù)據(jù)進(jìn)行降維處理,包括:(1)將提取的聲學(xué)特征數(shù)據(jù)中的聲學(xué)特征向量看成是高維空間中的樣本數(shù)據(jù)點,設(shè)M維的N個樣本數(shù)據(jù)點為Xi,Xi∈RM,i∈[1,N],類別號為Ci,嵌入輸出的N個m維的降維數(shù)據(jù)點為Yi,Yi∈Rm,i∈[1,N],m≤M,且m值的范圍為[2,20],對每個樣本數(shù)據(jù)點Xi確定其鄰域點的數(shù)目K,鄰域點的距離公式為:L′=1-e-Lλ,Ci=CjL+δ1max(L)+δ2min(L),Ci≠Cj]]>式中,L′是結(jié)合樣本數(shù)據(jù)點類別信息計算后的距離,L是忽略樣本數(shù)據(jù)點類別信息的原始?xì)W氏距離,參數(shù)λ用來防止L過快增長,max(L)表示最大歐氏距離,min(L)表示最小歐式距離,常數(shù)因子δ1、δ2(0≤δ1、δ2≤1),共同控制距離計算時樣本數(shù)據(jù)點類別信息的結(jié)合數(shù)量程度;(2)利用每個樣本數(shù)據(jù)點Xi的鄰域點計算出樣本數(shù)據(jù)點的局部重建權(quán)值矩陣Wij,要求最小化下列損失函數(shù):s(W)=Σi=1N||Xi-Σj=1KWijXj||2]]>式中,Wij為Xi與Xj之間的權(quán)值,且需滿足對Xi的非鄰域點,Wij=0;(3)計算各樣本數(shù)據(jù)點Xi的K個鄰域點的權(quán)重之和:Qij=Σj=1KZij]]>其中,式中,Zij為各鄰域點之間的加權(quán)矩陣,d(Xi,Xj)表示樣本數(shù)據(jù)點間的Fisher投影距離,ξ為可調(diào)參數(shù);(4)利用該樣本數(shù)據(jù)點的局部重建權(quán)值矩陣Wij以及其鄰域點計算出該樣本數(shù)據(jù)點的輸出值,具體是將所有的樣本數(shù)據(jù)點Xi映射嵌入到低維空間中,并使得低維重構(gòu)的誤差達(dá)到最小,要求最小化下列損失函數(shù):ω(Y)=Σi=1NQij||Yi-ΣXj∈Ω(Xi)WijYj||2=tr(YMYT)]]>式中,需滿足其中構(gòu)建一個稀疏矩陣M=(I-W)T(I-W),通過求解這個稀疏矩陣的前m個最小的非零特征值所對應(yīng)的特征向量作為樣本數(shù)據(jù)點Xi的嵌入輸出值。所述自適應(yīng)二維Gabor小波變換方法中的Gabor濾波器的核函數(shù)定義為:Φα,β=||kα,β||2σ2e-||kα,β||2||z||22σ2[eikα,βz-e-σ22]]]>式中,α、β分別表示核函數(shù)的方向和頻率大小,α、β按照按如下方法設(shè)置:當(dāng)表情圖像質(zhì)量較好時,選取三個中心頻率β={0,1,2}和六個方向α={0,1,…,5}組成的18個Gabor濾波器用于特征提?。划?dāng)表情圖像受到腐蝕、遮擋時,選取四個中心頻率β={0,1…,3}和八個方向α={0,1,…,7}組成的32個Gabor濾波器用于特征提?。沪冶硎静捎酶咚购瘮?shù)窗口的大小,用來決定濾波器的帶寬,σ能夠根據(jù)參數(shù)設(shè)置進(jìn)行自適應(yīng)調(diào)整:將表情圖像分成v×v子塊,根據(jù)每個子塊特征數(shù)目選擇σ,特征數(shù)目大的子塊設(shè)定σ=π,特征數(shù)目少的子塊設(shè)定σ=2π;kα,β為小波矢量,其中,kβ和分別表示Gabor濾波器在頻率和方向空間的采樣方式。所述預(yù)定的多模態(tài)情感融合策略為:設(shè)已經(jīng)計算出一個測試樣本x對于c類的分類情況下,采用n個分類器進(jìn)行分類得到的后驗概率集合為{pij(x),i=1,2,…,n,j=1,2,…,c},對n個分類器取得的后驗概率按照方差規(guī)則集成得到一個新的后驗概率集合{qj(x),j=1,2,…,c},從中按照預(yù)定的挑選規(guī)則挑選出合適的后驗概率值所對應(yīng)的類別作為要輸出的用戶情感識別結(jié)果;對于j類測試樣本,按照方差規(guī)則獲得的新的后驗概率qj(x)可表示為:qj(x)=qj′(x)Σjqj′(x)]]>式中,qj′(x)=1nΣi=1n(pij(x)-1nΣi=1npij(x))2]]>對于j類測試樣本,最終所獲得的識別類別可表示為:ρ(x)=argmaxj(qj(x))其中,所述預(yù)定的挑選規(guī)則為:將所述新的后驗概率集合中的后驗概率值按照從大到小順序進(jìn)行排列的前3個后驗概率值為qj(x)max,qj(x)max-1,qj(x)max-2,若選擇qj(x)max作為合適的后驗概率值,否則選擇qj(x)max-1作為合適的后驗概率值,其中Qq為設(shè)定的后驗概率權(quán)值,取值范圍為[1.4,1.6]。本優(yōu)選實施例設(shè)置改進(jìn)的局部線性嵌入方法,需要確定的參數(shù)比較少,只有鄰域數(shù)k和輸出維數(shù)d,大大減少了運算量,且可以學(xué)習(xí)出任意維數(shù)的低維流形,提高了識別速度;采用自適應(yīng)二維Gabor小波變換方法對表情圖像中的表情特征進(jìn)行提取,具有旋轉(zhuǎn)、平移以及伸縮變換條件下不變的性質(zhì),而且能得到一個解析的全局最優(yōu)解;在聲學(xué)特征降維子模塊12對聲學(xué)特征數(shù)據(jù)進(jìn)行降維處理的過程中,計算各樣本數(shù)據(jù)點Xi的K個鄰域點的權(quán)重之和,并將其考慮到低維重構(gòu)的損失函數(shù)中,降低了噪聲的影響和數(shù)據(jù)樣本外點對降維的干擾,進(jìn)一步提高了情感識別的精度;設(shè)置預(yù)定的多模態(tài)情感融合策略,并根據(jù)多模態(tài)情感融合策略生成用戶情感識別結(jié)果,使識別結(jié)果更加可靠準(zhǔn)確。本應(yīng)用場景設(shè)定后驗概率權(quán)值為Qq=1.45,識別精度相對提高了10%。應(yīng)用場景3參見圖1、圖2,本應(yīng)用場景中的一種具有情感識別功能的多媒體播放器,其特征是,包括多媒體播放器和與多媒體播放器相連的情感控制系統(tǒng),所述多媒體播放器可選擇地運行于第一模式或第二模式,包括:多個多媒體源,用于提供多媒體數(shù)據(jù);通用串行總線集線器接口,連接至外部電子裝置,并在該多媒體播放器運行于該第二模式時與該外部電子裝置通信;處理器,耦接至該多個多媒體源及該通用串行總線集線器接口,當(dāng)該多媒體播放器運行于該第一模式時,該處理器擷取該多個多媒體源其中之一的該多媒體數(shù)據(jù),并譯碼該多媒體數(shù)據(jù),其中該被譯碼的多媒體數(shù)據(jù)被準(zhǔn)備好以用于播放;當(dāng)該多媒體播放器運行于該第二模式時,該處理器透過該通用串行總線集線器接口連接至該外部電子裝置,該多個多媒體源被用作支持該外部電子裝置的通用串行總線裝置。優(yōu)選地,該外部電子裝置為傳統(tǒng)的通用計算機(jī)、特種用途計算機(jī)或互聯(lián)網(wǎng)裝置。本優(yōu)選實施例可通過通用串行總線集線器接口連接至外部電子裝置,從而可以更有效地利用外部多媒體資源。優(yōu)選地,該外部電子裝置為包括多媒體播放器代理的通用串行總線主機(jī)。本優(yōu)選實施例更加方便客戶體驗。優(yōu)選地,所述情感控制系統(tǒng)包括語音情感識別處理模塊1、表情情感識別處理模塊2、多模態(tài)情感融合識別處理模塊3和控制模塊4:(1)語音情感識別處理模塊1,用于獲取用戶的語音信號,并對語音信號進(jìn)行處理,最終輸出語音情感識別結(jié)果,其包括聲學(xué)特征提取子模塊11、聲學(xué)特征降維子模塊12和語音情感分類處理子模塊13;所述聲學(xué)特征提取子模塊11用于提取聲學(xué)特征數(shù)據(jù);所述聲學(xué)特征降維子模塊12用于采用改進(jìn)的局部線性嵌入方法對所述聲學(xué)特征數(shù)據(jù)進(jìn)行降維處理;所述語音情感分類處理子模塊13用于采用已訓(xùn)練好的支持向量機(jī)作為語音情感識別分類器,對降維后的聲學(xué)特征數(shù)據(jù)進(jìn)行情感識別并輸出語音情感識別結(jié)果,支持向量機(jī)的核函數(shù)采用高斯核函數(shù);(2)表情情感識別處理模塊2,用于獲取用戶的表情圖像,并對表情圖像特征進(jìn)行處理,最終生成表情情感識別結(jié)果,其包括表情特征提取子模塊21、表情特征降維子模塊22和表情情感分類處理子模塊23;所述表情特征提取子模塊21用于采用自適應(yīng)二維Gabor小波變換方法對表情圖像中的表情特征進(jìn)行提?。凰霰砬樘卣鹘稻S子模塊22用于采用所述改進(jìn)的局部線性嵌入方法對所述表情特征數(shù)據(jù)進(jìn)行降維處理,并采用形態(tài)學(xué)處理方法做濾波處理;所述表情情感分類處理子模塊23用于采用已訓(xùn)練好的稀疏分類器作為表情情感識別分類器,對降維、濾波處理后的表情特征數(shù)據(jù)進(jìn)行情感識別并輸出表情情感識別結(jié)果;(3)多模態(tài)情感融合識別處理模塊3,用于基于所述語音情感識別結(jié)果和表情情感識別結(jié)果,根據(jù)預(yù)定的多模態(tài)情感融合策略生成用戶情感識別結(jié)果;(4)控制模塊,用于根據(jù)所述用戶情感識別結(jié)果,在驗證用戶身份的前提下控制多媒體播放器執(zhí)行相應(yīng)的操作。本優(yōu)選實施例設(shè)置多模態(tài)情感融合識別處理模塊3,基于所述語音情感識別結(jié)果和表情情感識別結(jié)果,增強(qiáng)了識別結(jié)果的可靠性。優(yōu)選地,所述用戶情感識別結(jié)果包括高級別和低級別的褒義情感,中性情感以及高級別和低級別的貶義情感組成的5個級別情感類型。所述在驗證用戶身份的前提下控制多媒體播放器執(zhí)行相應(yīng)的操作,具體為:所述控制模塊基于預(yù)先設(shè)置的語音特征數(shù)據(jù)庫,匹配所述用戶的語音信號的語音特征,從而進(jìn)行用戶身份驗證,若驗證通過,控制模塊控制多媒體播放器執(zhí)行相應(yīng)的操作。所述采用改進(jìn)的局部線性嵌入方法對所述聲學(xué)特征數(shù)據(jù)進(jìn)行降維處理,包括:(1)將提取的聲學(xué)特征數(shù)據(jù)中的聲學(xué)特征向量看成是高維空間中的樣本數(shù)據(jù)點,設(shè)M維的N個樣本數(shù)據(jù)點為Xi,Xi∈RM,i∈[1,N],類別號為Ci,嵌入輸出的N個m維的降維數(shù)據(jù)點為Yi,Yi∈Rm,i∈[1,N],m≤M,且m值的范圍為[2,20],對每個樣本數(shù)據(jù)點Xi確定其鄰域點的數(shù)目K,鄰域點的距離公式為:L′=1-e-Lλ,Ci=CjL+δ1max(L)+δ2min(L),Ci≠Cj]]>式中,L′是結(jié)合樣本數(shù)據(jù)點類別信息計算后的距離,L是忽略樣本數(shù)據(jù)點類別信息的原始?xì)W氏距離,參數(shù)λ用來防止L過快增長,max(L)表示最大歐氏距離,min(L)表示最小歐式距離,常數(shù)因子δ1、δ2(0≤δ1、δ2≤1),共同控制距離計算時樣本數(shù)據(jù)點類別信息的結(jié)合數(shù)量程度;(2)利用每個樣本數(shù)據(jù)點Xi的鄰域點計算出樣本數(shù)據(jù)點的局部重建權(quán)值矩陣Wij,要求最小化下列損失函數(shù):s(W)=Σi=1N||Xi-Σj=1KWijXj||2]]>式中,Wij為Xi與Xj之間的權(quán)值,且需滿足對Xi的非鄰域點,Wij=0;(3)計算各樣本數(shù)據(jù)點Xi的K個鄰域點的權(quán)重之和:Qij=Σj=1KZij]]>其中,式中,Zij為各鄰域點之間的加權(quán)矩陣,d(Xi,Xj)表示樣本數(shù)據(jù)點間的Fisher投影距離,ξ為可調(diào)參數(shù);(4)利用該樣本數(shù)據(jù)點的局部重建權(quán)值矩陣Wij以及其鄰域點計算出該樣本數(shù)據(jù)點的輸出值,具體是將所有的樣本數(shù)據(jù)點Xi映射嵌入到低維空間中,并使得低維重構(gòu)的誤差達(dá)到最小,要求最小化下列損失函數(shù):ω(Y)=Σi=1NQij||Yi-ΣXj∈Ω(Xi)WijYj||2=tr(YMYT)]]>式中,需滿足其中構(gòu)建一個稀疏矩陣M=(I-W)T(I-W),通過求解這個稀疏矩陣的前m個最小的非零特征值所對應(yīng)的特征向量作為樣本數(shù)據(jù)點Xi的嵌入輸出值。所述自適應(yīng)二維Gabor小波變換方法中的Gabor濾波器的核函數(shù)定義為:Φα,β=||kα,β||2σ2e-||kα,β||2||z||22σ2[eikα,βz-e-σ22]]]>式中,α、β分別表示核函數(shù)的方向和頻率大小,α、β按照按如下方法設(shè)置:當(dāng)表情圖像質(zhì)量較好時,選取三個中心頻率β={0,1,2}和六個方向α={0,1,…,5}組成的18個Gabor濾波器用于特征提?。划?dāng)表情圖像受到腐蝕、遮擋時,選取四個中心頻率β={0,1…,3}和八個方向α={0,1,…,7}組成的32個Gabor濾波器用于特征提?。沪冶硎静捎酶咚购瘮?shù)窗口的大小,用來決定濾波器的帶寬,σ能夠根據(jù)參數(shù)設(shè)置進(jìn)行自適應(yīng)調(diào)整:將表情圖像分成v×v子塊,根據(jù)每個子塊特征數(shù)目選擇σ,特征數(shù)目大的子塊設(shè)定σ=π,特征數(shù)目少的子塊設(shè)定σ=2π;kα,β為小波矢量,其中,kβ和分別表示Gabor濾波器在頻率和方向空間的采樣方式。所述預(yù)定的多模態(tài)情感融合策略為:設(shè)已經(jīng)計算出一個測試樣本x對于c類的分類情況下,采用n個分類器進(jìn)行分類得到的后驗概率集合為{pij(x),i=1,2,…,n,j=1,2,…,c},對n個分類器取得的后驗概率按照方差規(guī)則集成得到一個新的后驗概率集合{qj(x),j=1,2,…,c},從中按照預(yù)定的挑選規(guī)則挑選出合適的后驗概率值所對應(yīng)的類別作為要輸出的用戶情感識別結(jié)果;對于j類測試樣本,按照方差規(guī)則獲得的新的后驗概率qj(x)可表示為:qj(x)=qj′(x)Σjqj′(x)]]>式中,qj′(x)=1nΣi=1n(pij(x)-1nΣi=1npij(x))2]]>對于j類測試樣本,最終所獲得的識別類別可表示為:ρ(x)=argmaxj(qj(x))其中,所述預(yù)定的挑選規(guī)則為:將所述新的后驗概率集合中的后驗概率值按照從大到小順序進(jìn)行排列的前3個后驗概率值為qj(x)max,qj(x)max-1,qj(x)max-2,若選擇qj(x)max作為合適的后驗概率值,否則選擇qj(x)max-1作為合適的后驗概率值,其中Qq為設(shè)定的后驗概率權(quán)值,取值范圍為[1.4,1.6]。本優(yōu)選實施例設(shè)置改進(jìn)的局部線性嵌入方法,需要確定的參數(shù)比較少,只有鄰域數(shù)k和輸出維數(shù)d,大大減少了運算量,且可以學(xué)習(xí)出任意維數(shù)的低維流形,提高了識別速度;采用自適應(yīng)二維Gabor小波變換方法對表情圖像中的表情特征進(jìn)行提取,具有旋轉(zhuǎn)、平移以及伸縮變換條件下不變的性質(zhì),而且能得到一個解析的全局最優(yōu)解;在聲學(xué)特征降維子模塊12對聲學(xué)特征數(shù)據(jù)進(jìn)行降維處理的過程中,計算各樣本數(shù)據(jù)點Xi的K個鄰域點的權(quán)重之和,并將其考慮到低維重構(gòu)的損失函數(shù)中,降低了噪聲的影響和數(shù)據(jù)樣本外點對降維的干擾,進(jìn)一步提高了情感識別的精度;設(shè)置預(yù)定的多模態(tài)情感融合策略,并根據(jù)多模態(tài)情感融合策略生成用戶情感識別結(jié)果,使識別結(jié)果更加可靠準(zhǔn)確。本應(yīng)用場景設(shè)定后驗概率權(quán)值為Qq=1.5,識別精度相對提高了15%。應(yīng)用場景4參見圖1、圖2,本應(yīng)用場景中的一種具有情感識別功能的多媒體播放器,其特征是,包括多媒體播放器和與多媒體播放器相連的情感控制系統(tǒng),所述多媒體播放器可選擇地運行于第一模式或第二模式,包括:多個多媒體源,用于提供多媒體數(shù)據(jù);通用串行總線集線器接口,連接至外部電子裝置,并在該多媒體播放器運行于該第二模式時與該外部電子裝置通信;處理器,耦接至該多個多媒體源及該通用串行總線集線器接口,當(dāng)該多媒體播放器運行于該第一模式時,該處理器擷取該多個多媒體源其中之一的該多媒體數(shù)據(jù),并譯碼該多媒體數(shù)據(jù),其中該被譯碼的多媒體數(shù)據(jù)被準(zhǔn)備好以用于播放;當(dāng)該多媒體播放器運行于該第二模式時,該處理器透過該通用串行總線集線器接口連接至該外部電子裝置,該多個多媒體源被用作支持該外部電子裝置的通用串行總線裝置。優(yōu)選地,該外部電子裝置為傳統(tǒng)的通用計算機(jī)、特種用途計算機(jī)或互聯(lián)網(wǎng)裝置。本優(yōu)選實施例可通過通用串行總線集線器接口連接至外部電子裝置,從而可以更有效地利用外部多媒體資源。優(yōu)選地,該外部電子裝置為包括多媒體播放器代理的通用串行總線主機(jī)。本優(yōu)選實施例更加方便客戶體驗。優(yōu)選地,所述情感控制系統(tǒng)包括語音情感識別處理模塊1、表情情感識別處理模塊2、多模態(tài)情感融合識別處理模塊3和控制模塊4:(1)語音情感識別處理模塊1,用于獲取用戶的語音信號,并對語音信號進(jìn)行處理,最終輸出語音情感識別結(jié)果,其包括聲學(xué)特征提取子模塊11、聲學(xué)特征降維子模塊12和語音情感分類處理子模塊13;所述聲學(xué)特征提取子模塊11用于提取聲學(xué)特征數(shù)據(jù);所述聲學(xué)特征降維子模塊12用于采用改進(jìn)的局部線性嵌入方法對所述聲學(xué)特征數(shù)據(jù)進(jìn)行降維處理;所述語音情感分類處理子模塊13用于采用已訓(xùn)練好的支持向量機(jī)作為語音情感識別分類器,對降維后的聲學(xué)特征數(shù)據(jù)進(jìn)行情感識別并輸出語音情感識別結(jié)果,支持向量機(jī)的核函數(shù)采用高斯核函數(shù);(2)表情情感識別處理模塊2,用于獲取用戶的表情圖像,并對表情圖像特征進(jìn)行處理,最終生成表情情感識別結(jié)果,其包括表情特征提取子模塊21、表情特征降維子模塊22和表情情感分類處理子模塊23;所述表情特征提取子模塊21用于采用自適應(yīng)二維Gabor小波變換方法對表情圖像中的表情特征進(jìn)行提取;所述表情特征降維子模塊22用于采用所述改進(jìn)的局部線性嵌入方法對所述表情特征數(shù)據(jù)進(jìn)行降維處理,并采用形態(tài)學(xué)處理方法做濾波處理;所述表情情感分類處理子模塊23用于采用已訓(xùn)練好的稀疏分類器作為表情情感識別分類器,對降維、濾波處理后的表情特征數(shù)據(jù)進(jìn)行情感識別并輸出表情情感識別結(jié)果;(3)多模態(tài)情感融合識別處理模塊3,用于基于所述語音情感識別結(jié)果和表情情感識別結(jié)果,根據(jù)預(yù)定的多模態(tài)情感融合策略生成用戶情感識別結(jié)果;(4)控制模塊,用于根據(jù)所述用戶情感識別結(jié)果,在驗證用戶身份的前提下控制多媒體播放器執(zhí)行相應(yīng)的操作。本優(yōu)選實施例設(shè)置多模態(tài)情感融合識別處理模塊3,基于所述語音情感識別結(jié)果和表情情感識別結(jié)果,增強(qiáng)了識別結(jié)果的可靠性。優(yōu)選地,所述用戶情感識別結(jié)果包括高級別和低級別的褒義情感,中性情感以及高級別和低級別的貶義情感組成的5個級別情感類型。所述在驗證用戶身份的前提下控制多媒體播放器執(zhí)行相應(yīng)的操作,具體為:所述控制模塊基于預(yù)先設(shè)置的語音特征數(shù)據(jù)庫,匹配所述用戶的語音信號的語音特征,從而進(jìn)行用戶身份驗證,若驗證通過,控制模塊控制多媒體播放器執(zhí)行相應(yīng)的操作。所述采用改進(jìn)的局部線性嵌入方法對所述聲學(xué)特征數(shù)據(jù)進(jìn)行降維處理,包括:(1)將提取的聲學(xué)特征數(shù)據(jù)中的聲學(xué)特征向量看成是高維空間中的樣本數(shù)據(jù)點,設(shè)M維的N個樣本數(shù)據(jù)點為Xi,Xi∈RM,i∈[1,N],類別號為Ci,嵌入輸出的N個m維的降維數(shù)據(jù)點為Yi,Yi∈Rm,i∈[1,N],m≤M,且m值的范圍為[2,20],對每個樣本數(shù)據(jù)點Xi確定其鄰域點的數(shù)目K,鄰域點的距離公式為:L′=1-e-Lλ,Ci=CjL+δ1max(L)+δ2min(L),Ci≠Cj]]>式中,L′是結(jié)合樣本數(shù)據(jù)點類別信息計算后的距離,L是忽略樣本數(shù)據(jù)點類別信息的原始?xì)W氏距離,參數(shù)λ用來防止L過快增長,max(L)表示最大歐氏距離,min(L)表示最小歐式距離,常數(shù)因子δ1、δ2(0≤δ1、δ2≤1),共同控制距離計算時樣本數(shù)據(jù)點類別信息的結(jié)合數(shù)量程度;(2)利用每個樣本數(shù)據(jù)點Xi的鄰域點計算出樣本數(shù)據(jù)點的局部重建權(quán)值矩陣Wij,要求最小化下列損失函數(shù):s(W)=Σi=1N||Xi-Σj=1KWijXj||2]]>式中,Wij為Xi與Xj之間的權(quán)值,且需滿足對Xi的非鄰域點,Wij=0;(3)計算各樣本數(shù)據(jù)點Xi的K個鄰域點的權(quán)重之和:Qij=Σj=1KZij]]>其中,式中,Zij為各鄰域點之間的加權(quán)矩陣,d(Xi,Xj)表示樣本數(shù)據(jù)點間的Fisher投影距離,ξ為可調(diào)參數(shù);(4)利用該樣本數(shù)據(jù)點的局部重建權(quán)值矩陣Wij以及其鄰域點計算出該樣本數(shù)據(jù)點的輸出值,具體是將所有的樣本數(shù)據(jù)點Xi映射嵌入到低維空間中,并使得低維重構(gòu)的誤差達(dá)到最小,要求最小化下列損失函數(shù):ω(Y)=Σi=1NQij||Yi-ΣXj∈Ω(Xi)WijYj||2=tr(YMYT)]]>式中,需滿足其中構(gòu)建一個稀疏矩陣M=(I-W)T(I-W),通過求解這個稀疏矩陣的前m個最小的非零特征值所對應(yīng)的特征向量作為樣本數(shù)據(jù)點Xi的嵌入輸出值。所述自適應(yīng)二維Gabor小波變換方法中的Gabor濾波器的核函數(shù)定義為:Φα,β=||kα,β||2σ2e-||kα,β||2||z||22σ2[eikα,βz-e-σ22]]]>式中,α、β分別表示核函數(shù)的方向和頻率大小,α、β按照按如下方法設(shè)置:當(dāng)表情圖像質(zhì)量較好時,選取三個中心頻率β={0,1,2}和六個方向α={0,1,…,5}組成的18個Gabor濾波器用于特征提取;當(dāng)表情圖像受到腐蝕、遮擋時,選取四個中心頻率β={0,1…,3}和八個方向α={0,1,…,7}組成的32個Gabor濾波器用于特征提??;σ表示采用高斯函數(shù)窗口的大小,用來決定濾波器的帶寬,σ能夠根據(jù)參數(shù)設(shè)置進(jìn)行自適應(yīng)調(diào)整:將表情圖像分成v×v子塊,根據(jù)每個子塊特征數(shù)目選擇σ,特征數(shù)目大的子塊設(shè)定σ=π,特征數(shù)目少的子塊設(shè)定σ=2π;kα,β為小波矢量,其中,kβ和分別表示Gabor濾波器在頻率和方向空間的采樣方式。所述預(yù)定的多模態(tài)情感融合策略為:設(shè)已經(jīng)計算出一個測試樣本x對于c類的分類情況下,采用n個分類器進(jìn)行分類得到的后驗概率集合為{pij(x),i=1,2,…,n,j=1,2,…,c},對n個分類器取得的后驗概率按照方差規(guī)則集成得到一個新的后驗概率集合{qj(x),j=1,2,…,c},從中按照預(yù)定的挑選規(guī)則挑選出合適的后驗概率值所對應(yīng)的類別作為要輸出的用戶情感識別結(jié)果;對于j類測試樣本,按照方差規(guī)則獲得的新的后驗概率qj(x)可表示為:qj(x)=qj′(x)Σjqj′(x)]]>式中,qj′(x)=1nΣi=1n(pij(x)-1nΣi=1npij(x))2]]>對于j類測試樣本,最終所獲得的識別類別可表示為:ρ(x)=argmaxj(qj(x))其中,所述預(yù)定的挑選規(guī)則為:將所述新的后驗概率集合中的后驗概率值按照從大到小順序進(jìn)行排列的前3個后驗概率值為qj(x)max,qj(x)max-1,qj(x)max-2,若選擇qj(x)max作為合適的后驗概率值,否則選擇qj(x)max-1作為合適的后驗概率值,其中Qq為設(shè)定的后驗概率權(quán)值,取值范圍為[1.4,1.6]。本優(yōu)選實施例設(shè)置改進(jìn)的局部線性嵌入方法,需要確定的參數(shù)比較少,只有鄰域數(shù)k和輸出維數(shù)d,大大減少了運算量,且可以學(xué)習(xí)出任意維數(shù)的低維流形,提高了識別速度;采用自適應(yīng)二維Gabor小波變換方法對表情圖像中的表情特征進(jìn)行提取,具有旋轉(zhuǎn)、平移以及伸縮變換條件下不變的性質(zhì),而且能得到一個解析的全局最優(yōu)解;在聲學(xué)特征降維子模塊12對聲學(xué)特征數(shù)據(jù)進(jìn)行降維處理的過程中,計算各樣本數(shù)據(jù)點Xi的K個鄰域點的權(quán)重之和,并將其考慮到低維重構(gòu)的損失函數(shù)中,降低了噪聲的影響和數(shù)據(jù)樣本外點對降維的干擾,進(jìn)一步提高了情感識別的精度;設(shè)置預(yù)定的多模態(tài)情感融合策略,并根據(jù)多模態(tài)情感融合策略生成用戶情感識別結(jié)果,使識別結(jié)果更加可靠準(zhǔn)確。本應(yīng)用場景設(shè)定后驗概率權(quán)值為Qq=1.55,識別精度相對提高了10%。應(yīng)用場景5參見圖1、圖2,本應(yīng)用場景中的一種具有情感識別功能的多媒體播放器,其特征是,包括多媒體播放器和與多媒體播放器相連的情感控制系統(tǒng),所述多媒體播放器可選擇地運行于第一模式或第二模式,包括:多個多媒體源,用于提供多媒體數(shù)據(jù);通用串行總線集線器接口,連接至外部電子裝置,并在該多媒體播放器運行于該第二模式時與該外部電子裝置通信;處理器,耦接至該多個多媒體源及該通用串行總線集線器接口,當(dāng)該多媒體播放器運行于該第一模式時,該處理器擷取該多個多媒體源其中之一的該多媒體數(shù)據(jù),并譯碼該多媒體數(shù)據(jù),其中該被譯碼的多媒體數(shù)據(jù)被準(zhǔn)備好以用于播放;當(dāng)該多媒體播放器運行于該第二模式時,該處理器透過該通用串行總線集線器接口連接至該外部電子裝置,該多個多媒體源被用作支持該外部電子裝置的通用串行總線裝置。優(yōu)選地,該外部電子裝置為傳統(tǒng)的通用計算機(jī)、特種用途計算機(jī)或互聯(lián)網(wǎng)裝置。本優(yōu)選實施例可通過通用串行總線集線器接口連接至外部電子裝置,從而可以更有效地利用外部多媒體資源。優(yōu)選地,該外部電子裝置為包括多媒體播放器代理的通用串行總線主機(jī)。本優(yōu)選實施例更加方便客戶體驗。優(yōu)選地,所述情感控制系統(tǒng)包括語音情感識別處理模塊1、表情情感識別處理模塊2、多模態(tài)情感融合識別處理模塊3和控制模塊4:(1)語音情感識別處理模塊1,用于獲取用戶的語音信號,并對語音信號進(jìn)行處理,最終輸出語音情感識別結(jié)果,其包括聲學(xué)特征提取子模塊11、聲學(xué)特征降維子模塊12和語音情感分類處理子模塊13;所述聲學(xué)特征提取子模塊11用于提取聲學(xué)特征數(shù)據(jù);所述聲學(xué)特征降維子模塊12用于采用改進(jìn)的局部線性嵌入方法對所述聲學(xué)特征數(shù)據(jù)進(jìn)行降維處理;所述語音情感分類處理子模塊13用于采用已訓(xùn)練好的支持向量機(jī)作為語音情感識別分類器,對降維后的聲學(xué)特征數(shù)據(jù)進(jìn)行情感識別并輸出語音情感識別結(jié)果,支持向量機(jī)的核函數(shù)采用高斯核函數(shù);(2)表情情感識別處理模塊2,用于獲取用戶的表情圖像,并對表情圖像特征進(jìn)行處理,最終生成表情情感識別結(jié)果,其包括表情特征提取子模塊21、表情特征降維子模塊22和表情情感分類處理子模塊23;所述表情特征提取子模塊21用于采用自適應(yīng)二維Gabor小波變換方法對表情圖像中的表情特征進(jìn)行提??;所述表情特征降維子模塊22用于采用所述改進(jìn)的局部線性嵌入方法對所述表情特征數(shù)據(jù)進(jìn)行降維處理,并采用形態(tài)學(xué)處理方法做濾波處理;所述表情情感分類處理子模塊23用于采用已訓(xùn)練好的稀疏分類器作為表情情感識別分類器,對降維、濾波處理后的表情特征數(shù)據(jù)進(jìn)行情感識別并輸出表情情感識別結(jié)果;(3)多模態(tài)情感融合識別處理模塊3,用于基于所述語音情感識別結(jié)果和表情情感識別結(jié)果,根據(jù)預(yù)定的多模態(tài)情感融合策略生成用戶情感識別結(jié)果;(4)控制模塊,用于根據(jù)所述用戶情感識別結(jié)果,在驗證用戶身份的前提下控制多媒體播放器執(zhí)行相應(yīng)的操作。本優(yōu)選實施例設(shè)置多模態(tài)情感融合識別處理模塊3,基于所述語音情感識別結(jié)果和表情情感識別結(jié)果,增強(qiáng)了識別結(jié)果的可靠性。優(yōu)選地,所述用戶情感識別結(jié)果包括高級別和低級別的褒義情感,中性情感以及高級別和低級別的貶義情感組成的5個級別情感類型。所述在驗證用戶身份的前提下控制多媒體播放器執(zhí)行相應(yīng)的操作,具體為:所述控制模塊基于預(yù)先設(shè)置的語音特征數(shù)據(jù)庫,匹配所述用戶的語音信號的語音特征,從而進(jìn)行用戶身份驗證,若驗證通過,控制模塊控制多媒體播放器執(zhí)行相應(yīng)的操作。所述采用改進(jìn)的局部線性嵌入方法對所述聲學(xué)特征數(shù)據(jù)進(jìn)行降維處理,包括:(1)將提取的聲學(xué)特征數(shù)據(jù)中的聲學(xué)特征向量看成是高維空間中的樣本數(shù)據(jù)點,設(shè)M維的N個樣本數(shù)據(jù)點為Xi,Xi∈RM,i∈[1,N],類別號為Ci,嵌入輸出的N個m維的降維數(shù)據(jù)點為Yi,Yi∈Rm,i∈[1,N],m≤M,且m值的范圍為[2,20],對每個樣本數(shù)據(jù)點Xi確定其鄰域點的數(shù)目K,鄰域點的距離公式為:L′=1-e-Lλ,Ci=CjL+δ1max(L)+δ2min(L),Ci≠Cj]]>式中,L′是結(jié)合樣本數(shù)據(jù)點類別信息計算后的距離,L是忽略樣本數(shù)據(jù)點類別信息的原始?xì)W氏距離,參數(shù)λ用來防止L過快增長,max(L)表示最大歐氏距離,min(L)表示最小歐式距離,常數(shù)因子δ1、δ2(0≤δ1、δ2≤1),共同控制距離計算時樣本數(shù)據(jù)點類別信息的結(jié)合數(shù)量程度;(2)利用每個樣本數(shù)據(jù)點Xi的鄰域點計算出樣本數(shù)據(jù)點的局部重建權(quán)值矩陣Wij,要求最小化下列損失函數(shù):s(W)=Σi=1N||Xi-Σj=1KWijXj||2]]>式中,Wij為Xi與Xj之間的權(quán)值,且需滿足對Xi的非鄰域點,Wij=0;(3)計算各樣本數(shù)據(jù)點Xi的K個鄰域點的權(quán)重之和:Qij=Σj=1KZij]]>其中,式中,Zij為各鄰域點之間的加權(quán)矩陣,d(Xi,Xj)表示樣本數(shù)據(jù)點間的Fisher投影距離,ξ為可調(diào)參數(shù);(4)利用該樣本數(shù)據(jù)點的局部重建權(quán)值矩陣Wij以及其鄰域點計算出該樣本數(shù)據(jù)點的輸出值,具體是將所有的樣本數(shù)據(jù)點Xi映射嵌入到低維空間中,并使得低維重構(gòu)的誤差達(dá)到最小,要求最小化下列損失函數(shù):ω(Y)=Σi=1NQij||Yi-ΣXj∈Ω(Xi)WijYj||2=tr(YMYT)]]>式中,需滿足其中構(gòu)建一個稀疏矩陣M=(I-W)T(I-W),通過求解這個稀疏矩陣的前m個最小的非零特征值所對應(yīng)的特征向量作為樣本數(shù)據(jù)點Xi的嵌入輸出值。所述自適應(yīng)二維Gabor小波變換方法中的Gabor濾波器的核函數(shù)定義為:Φα,β=||kα,β||2σ2e-||kα,β||2||z||22σ2[eikα,βz-e-σ22]]]>式中,α、β分別表示核函數(shù)的方向和頻率大小,α、β按照按如下方法設(shè)置:當(dāng)表情圖像質(zhì)量較好時,選取三個中心頻率β={0,1,2}和六個方向α={0,1,…,5}組成的18個Gabor濾波器用于特征提取;當(dāng)表情圖像受到腐蝕、遮擋時,選取四個中心頻率β={0,1…,3}和八個方向α={0,1,…,7}組成的32個Gabor濾波器用于特征提?。沪冶硎静捎酶咚购瘮?shù)窗口的大小,用來決定濾波器的帶寬,σ能夠根據(jù)參數(shù)設(shè)置進(jìn)行自適應(yīng)調(diào)整:將表情圖像分成v×v子塊,根據(jù)每個子塊特征數(shù)目選擇σ,特征數(shù)目大的子塊設(shè)定σ=π,特征數(shù)目少的子塊設(shè)定σ=2π;kα,β為小波矢量,其中,kβ和分別表示Gabor濾波器在頻率和方向空間的采樣方式。所述預(yù)定的多模態(tài)情感融合策略為:設(shè)已經(jīng)計算出一個測試樣本x對于c類的分類情況下,采用n個分類器進(jìn)行分類得到的后驗概率集合為{pij(x),i=1,2,…,n,j=1,2,…,c},對n個分類器取得的后驗概率按照方差規(guī)則集成得到一個新的后驗概率集合{qj(x),j=1,2,…,c},從中按照預(yù)定的挑選規(guī)則挑選出合適的后驗概率值所對應(yīng)的類別作為要輸出的用戶情感識別結(jié)果;對于j類測試樣本,按照方差規(guī)則獲得的新的后驗概率qj(x)可表示為:qj(x)=qj′(x)Σjqj′(x)]]>式中,qj′(x)=1nΣi=1n(pij(x)-1nΣi=1npij(x))2]]>對于j類測試樣本,最終所獲得的識別類別可表示為:ρ(x)=argmaxj(qj(x))其中,所述預(yù)定的挑選規(guī)則為:將所述新的后驗概率集合中的后驗概率值按照從大到小順序進(jìn)行排列的前3個后驗概率值為qj(x)max,qj(x)max-1,qj(x)max-2,若選擇qj(x)max作為合適的后驗概率值,否則選擇qj(x)max-1作為合適的后驗概率值,其中Qq為設(shè)定的后驗概率權(quán)值,取值范圍為[1.4,1.6]。本優(yōu)選實施例設(shè)置改進(jìn)的局部線性嵌入方法,需要確定的參數(shù)比較少,只有鄰域數(shù)k和輸出維數(shù)d,大大減少了運算量,且可以學(xué)習(xí)出任意維數(shù)的低維流形,提高了識別速度;采用自適應(yīng)二維Gabor小波變換方法對表情圖像中的表情特征進(jìn)行提取,具有旋轉(zhuǎn)、平移以及伸縮變換條件下不變的性質(zhì),而且能得到一個解析的全局最優(yōu)解;在聲學(xué)特征降維子模塊12對聲學(xué)特征數(shù)據(jù)進(jìn)行降維處理的過程中,計算各樣本數(shù)據(jù)點Xi的K個鄰域點的權(quán)重之和,并將其考慮到低維重構(gòu)的損失函數(shù)中,降低了噪聲的影響和數(shù)據(jù)樣本外點對降維的干擾,進(jìn)一步提高了情感識別的精度;設(shè)置預(yù)定的多模態(tài)情感融合策略,并根據(jù)多模態(tài)情感融合策略生成用戶情感識別結(jié)果,使識別結(jié)果更加可靠準(zhǔn)確。本應(yīng)用場景設(shè)定后驗概率權(quán)值為Qq=1.6,識別精度相對提高了8%。最后應(yīng)當(dāng)說明的是,以上實施例僅用以說明本發(fā)明的技術(shù)方案,而非對本發(fā)明保護(hù)范圍的限制,盡管參照較佳實施例對本發(fā)明作了詳細(xì)地說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解,可以對本發(fā)明的技術(shù)方案進(jìn)行修改或者等同替換,而不脫離本發(fā)明技術(shù)方案的實質(zhì)和范圍。當(dāng)前第1頁1 2 3