本發(fā)明具體涉及一種基于多特征二維卷積的多模態(tài)情緒識別評價方法。
背景技術(shù):
1、人臉情緒識別和表情生成在計算機視覺和人工智能領(lǐng)域具有重要的應(yīng)用價值?;诰矸e神經(jīng)網(wǎng)絡(luò)的人臉情緒識別和表情生成技術(shù)已經(jīng)取得了顯著的進展,并在多個領(lǐng)域得到了廣泛應(yīng)用。
2、人臉情緒識別是指通過分析人臉圖像或視頻,準確識別出人的情緒狀態(tài),例如高興、悲傷、憤怒等。而表情生成則是指根據(jù)給定的情緒標簽或描述,生成相應(yīng)的表情圖像或動畫。這兩個技術(shù)的結(jié)合,能夠在虛擬人物設(shè)計、人機交互、自動駕駛等領(lǐng)域發(fā)揮重要作用。
3、卷積法的原理是根據(jù)線性定常電路的性質(zhì)(齊次性、疊加性、時不變性、積分性等),借助電路的單位沖激響應(yīng)h(t),求解系統(tǒng)響應(yīng)的工具,系統(tǒng)的激勵一般都可以表示為沖擊函數(shù)和激勵的函數(shù)的卷積,概念中沖擊函數(shù)的幅度是由每個矩形微元的面積決定的。總的說來卷積就是用沖擊函數(shù)表示激勵函數(shù),然后根據(jù)沖擊響應(yīng)求解系統(tǒng)的零狀態(tài)響應(yīng)。卷積實質(zhì)上是對信號進行濾波。
4、基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional?neural?network,cnn)的人臉情緒識別已經(jīng)取得了較好的結(jié)果。cnn是一種專門用于圖像處理的神經(jīng)網(wǎng)絡(luò)模型,通過堆疊多層卷積層、池化層和全連接層,能夠從圖像中提取出高級特征。在人臉情緒識別中,我們可以使用cnn模型對人臉圖像進行分類,將其劃分為不同的情緒類別。
5、我們需要建立一個適合于人臉情緒識別的數(shù)據(jù)集。這個數(shù)據(jù)集應(yīng)包含多個人的人臉圖像,每張圖像都要有對應(yīng)的情緒標簽。我們可以通過手動標注或者從互聯(lián)網(wǎng)上搜索公開可用的數(shù)據(jù)集來得到這些數(shù)據(jù)。然后,我們可以將這些圖像按照一定比例分為訓(xùn)練集、驗證集和測試集,用于模型的訓(xùn)練和評估。
6、接下來,可以使用基于cnn的人臉情緒識別算法對訓(xùn)練集進行訓(xùn)練。訓(xùn)練過程中,我們會使用到反向傳播算法來更新網(wǎng)絡(luò)中的參數(shù),使得模型能夠逐漸學(xué)習(xí)到圖像中的情緒特征。在訓(xùn)練過程中,我們可以使用一些優(yōu)化技術(shù),如學(xué)習(xí)率調(diào)整、正則化等,以提高模型的性能和泛化能力。
7、在模型訓(xùn)練完成后,我們可以使用驗證集來評估模型的性能,并進行調(diào)優(yōu)。通過調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)、超參數(shù)等,我們可以進一步提高模型在驗證集上的準確率。一旦我們獲得了滿意的模型,我們就可以使用測試集來評估模型在未見過的數(shù)據(jù)上的表現(xiàn)。
8、除了人臉情緒識別,基于cnn的技術(shù)還可以用于表情生成。表情生成可以通過將情緒標簽作為輸入,生成與該情緒對應(yīng)的人臉圖像。這種生成式模型通常使用生成對抗網(wǎng)絡(luò)(generative?adversarial?network,gan)或變分自編碼器(variational?autoencoder,vae)等模型來實現(xiàn)。這些模型可以根據(jù)訓(xùn)練數(shù)據(jù)學(xué)習(xí)到人臉圖像的分布特征,并能夠生成具有相似情緒的新圖像。
9、在表情生成中,我們可以使用訓(xùn)練好的生成模型,根據(jù)給定的情緒標簽或描述,通過隨機噪聲向量生成對應(yīng)的表情圖像。為了提高生成圖像的質(zhì)量和多樣性,我們可以采用一些技巧,如條件生成、逆時空卷積等。同時,我們還可以使用一些評價指標,如多樣性度量、真實度評估等來衡量生成圖像的質(zhì)量。
10、基于卷積神經(jīng)網(wǎng)絡(luò)的人臉情緒識別和表情生成技術(shù)在計算機視覺和人工智能領(lǐng)域具有廣泛的應(yīng)用前景。通過訓(xùn)練深度學(xué)習(xí)模型,我們可以有效地識別人臉圖像中的情緒,并生成具有相應(yīng)情緒的新圖像。這項技術(shù)有望在虛擬人物設(shè)計、人機交互等領(lǐng)域?qū)崿F(xiàn)突破和創(chuàng)新。然而,仍然需要進一步的研究和實踐來提高算法的性能和可靠性,以滿足實際應(yīng)用的需求。
11、隨著可穿戴計算設(shè)備的快速發(fā)展和對沉浸式人機交互環(huán)境的需求,情緒識別已經(jīng)成為全球性的研究熱點,但基于腦電信號的多模態(tài)識別方法有待擴充。目前在腦電情緒識別領(lǐng)域常用的深度學(xué)習(xí)方法包括卷積神經(jīng)網(wǎng)絡(luò)(cnn)、循環(huán)神經(jīng)網(wǎng)絡(luò)(rnn)、深度信念網(wǎng)絡(luò)(dbn)或其他神經(jīng)網(wǎng)絡(luò)。深度神經(jīng)網(wǎng)絡(luò)能夠?qū)δX電信號的預(yù)處理、特征圖提取和分類進行端到端的自動學(xué)習(xí),基于深度學(xué)習(xí)算法的腦電情緒識別比人工設(shè)計的特征維度更高,識別用時更短。
12、但目前對情緒腦電進行多模態(tài)深度學(xué)習(xí)識別分類的精準程度未有詳盡統(tǒng)一的研究過程,缺少對大腦情緒的精準分類,多分類的效率和準確率都有待提升。
技術(shù)實現(xiàn)思路
1、本發(fā)明提供了一種基于多特征二維卷積的多模態(tài)情緒識別評價方法,以解決上述問題。
2、本發(fā)明提供如下技術(shù)方案:
3、一種基于多特征二維卷積的多模態(tài)情緒識別評價方法,其特征在于:多模態(tài)情緒識別評價方法為將基于音頻刺激情緒試驗獲取的腦電信號進行剔除去噪的預(yù)處理后形成純凈腦電信息,再對純凈腦電信息進行特征提取構(gòu)建多模態(tài)數(shù)據(jù)集,對多模態(tài)數(shù)據(jù)集通過卷積神經(jīng)網(wǎng)絡(luò)方式進行分類、識別以及評價過程。
4、作為優(yōu)選方案:音頻刺激情緒試驗獲取腦電信號的過程為:
5、試驗準備:將符合相關(guān)要求的預(yù)定數(shù)量的人員做為被試人員,將被試人員處于室溫控制在25~26℃之間,室內(nèi)噪音小于30db的測試環(huán)境下,對頭部經(jīng)過降阻抗操作后的被試人員進行音頻刺激狀態(tài)下的腦電信號采集;
6、腦電信號采集準備:確定頭皮部位的通道個數(shù),將每種情緒的調(diào)動程度分為0~10分,記錄每個被試經(jīng)過一次試驗產(chǎn)生的情緒并記錄下產(chǎn)生該情緒時對應(yīng)的情緒分數(shù)值,對每個人員采用非侵入式濕電極連接方式,通過國際標準10-20系統(tǒng)電極連接法進行腦電信號采集;
7、音頻刺激過程:確保每個被試人員完成至少五組試驗,每組試驗包括至少六個試次,形成m次試驗過程,每次試驗過程中在0秒時確保被試人員閉眼狀態(tài)下啟動腦電波采集,在10秒時打開音頻,確保音頻持續(xù)播放時間至70秒時關(guān)閉音頻,腦電波采集結(jié)束,確保每個試次包含不低于60秒時間序列,關(guān)閉音頻后需要被試人員口頭匯報主觀評分并在固定時間內(nèi)完成休息從而完成一個試次,依據(jù)上述過程以此類推,完成下一個試次;
8、音頻刺激過程結(jié)束后,獲取初級腦電信號。
9、作為優(yōu)選方案:將音頻刺激情緒試驗獲取腦電信號進行預(yù)處理的過程為:
10、第一步:將采集好的edf數(shù)據(jù)文件導(dǎo)入腦電數(shù)據(jù)預(yù)處理軟件eeglab中,根據(jù)國際標準10-20系統(tǒng)電極連接法進行電極定位,確定通道數(shù)n、時間時長s、采樣率sr、采樣點sp的采集信息數(shù)據(jù),截選每組試驗獲取的初級腦電信號中受到音頻刺激的時間序列腦電波,即全長70秒中的后60秒的初級腦電信號進行數(shù)據(jù)預(yù)處理;
11、第二步:根據(jù)不同腦電信號頻帶對應(yīng)的人腦狀態(tài)中的五種頻段的波頻大小進行排序,通過數(shù)字濾波器在頻域的空間上將其他雜波過濾掉,雜波過濾包括對每組試驗獲取的初級腦電信號過濾掉頻率在30hz~100hz的低通濾波、頻率在48~52hz的帶阻濾波以及頻率在0.1hz~1hz的高通濾波形成一級凈化腦電數(shù)據(jù);
12、第三步:一級凈化腦電數(shù)據(jù)通過采集條件的限定下通過nyquist采樣定理形成二級凈化腦電數(shù)據(jù):根據(jù)nyquist采樣定理將一級凈化腦電數(shù)據(jù)進行采樣形成二級凈化腦電數(shù)據(jù),采樣條件為采樣率高于感興趣頻段的4倍以上且同時低于感興趣頻段的6倍,采樣率在400~600hz之間;
13、第四步:進行ica去除偽跡處理:將二級凈化腦電數(shù)據(jù)通過ica分解并剔除二級凈化腦電數(shù)據(jù)中被標記為偽跡的相關(guān)頻段,剔除后將剩余腦電數(shù)據(jù)進行重新組合形成三級凈化腦電數(shù)據(jù),即為真實腦電數(shù)據(jù);
14、第五步:偏離篩除處理:對三級凈化腦電數(shù)據(jù)進行剔除壞段的終輪篩查,觀察每組數(shù)據(jù)的具體波形,當(dāng)三級凈化腦電數(shù)據(jù)中出現(xiàn)幅值集體偏離正常值時的異常情況時,剔除偏離的腦電數(shù)據(jù),形成四級凈化腦電數(shù)據(jù),其中,正常值取值范圍為0μv-150μv;
15、第六步:將四級凈化腦電數(shù)據(jù)導(dǎo)出形成edf數(shù)據(jù)文件并保存為set文件,將每位被試人員的數(shù)據(jù)集封裝形成為一個m×n×s×sr的三維矩陣,其中,m為試驗次數(shù)、n為通道數(shù)n,s×sr為時長何采樣率的乘積;
16、第七步:在m×n×s×sr的三維矩陣中采集記錄被試的主觀情緒分數(shù),將記錄的數(shù)據(jù)先進行歸一化再進行二值化,篩選出有效情緒刺激試次形成m×p數(shù)據(jù)格式做為終極腦電數(shù)據(jù),其中,p為情緒類別個數(shù)。
17、作為優(yōu)選方案:將數(shù)據(jù)預(yù)處理后形成的終極腦電數(shù)據(jù)進行多模態(tài)數(shù)據(jù)集的建立,多模態(tài)數(shù)據(jù)集為構(gòu)建腦電信號特征和腦網(wǎng)絡(luò)特征的多模態(tài)數(shù)據(jù)集,具體建立過程為:
18、利用特征提取方法對終極腦電數(shù)據(jù)進行分析,特征提取方法為連續(xù)小波變換和腦網(wǎng)絡(luò)特征對終極腦電數(shù)據(jù)進行提取,從而獲取終極腦電數(shù)據(jù)中不同情緒的時頻尺度圖和pil腦網(wǎng)絡(luò)特征值;
19、連續(xù)小波變換過程:
20、在終極腦電數(shù)據(jù)中移動基小波的位置以及不同頻率的信號段用不同寬度的基小波時窗函數(shù)進行約束,從而對終極腦電數(shù)據(jù)中時頻域特征進行分析形成小波變換過程,小波變換有兩種基本類型:連續(xù)小波變換和離散小波變換,通過對參數(shù)a、τ進行不同取值形成連續(xù)小波變換和離散小波變換的轉(zhuǎn)換過程,小波變換定義式為:
21、
22、上式中,a是縮放因子,當(dāng)∣a∣<1時,基小波被壓縮,對應(yīng)到高頻;反之,當(dāng)∣a∣>1時,對應(yīng)到低頻;τ是平移參數(shù),用來移動基小波的位置,不同頻率的信號段,用不同寬度的基小波時窗函數(shù)進行約束,時頻域特征都能夠進行準確高效的分析;f(t)為輸入信號,為基本小波經(jīng)不同尺度的膨脹或伸縮、再平移到不同位置處所形成的小波系數(shù)。當(dāng)式中參數(shù)a、τ取連續(xù)值時,稱為連續(xù)小波變換,當(dāng)參數(shù)a、τ取離散值時,稱為離散小波變換;
23、對終極腦電數(shù)據(jù)中pil腦網(wǎng)絡(luò)特征值的提取過程:
24、提取終極腦電數(shù)據(jù)中節(jié)點度、局部效率的pil腦網(wǎng)絡(luò)特征值,pil腦網(wǎng)絡(luò)特征值的提取公式為:
25、
26、上式中:sign為符號函數(shù),δφrel(t)為信號在t時的相位差;n為腦電數(shù)據(jù)中的節(jié)點個數(shù),n為1,2,3…n,當(dāng)函數(shù)的自變量大于0時,sign的值等于1,當(dāng)自變量為負值時其輸出為-1,當(dāng)自變量等于0時sign的值等于0;pli的值域為[0,1],當(dāng)pli的值等于0時,說明兩個腦電信號的相位差分布完全對稱,否則,pli的值越大,對應(yīng)的兩組腦電信號的相位差分布越不對稱;
27、最后通過公式二計算pli得到pli連接矩陣,以此來量化節(jié)點之間的連接強度;對pli連接矩陣設(shè)置閾值t,進行二值化處理,得到二值化矩陣,再將二值化矩陣映射為pli腦網(wǎng)絡(luò),在完成pli腦功能網(wǎng)絡(luò)構(gòu)建之后,通過計算網(wǎng)絡(luò)的節(jié)點度和局部效率,得到了各節(jié)點的網(wǎng)絡(luò)特征序列,將網(wǎng)絡(luò)特征序列與連續(xù)小波進行組合,從而完成構(gòu)建多模態(tài)數(shù)據(jù)集的過程,通過多模態(tài)數(shù)據(jù)集搭建得到卷積網(wǎng)絡(luò)模型。
28、作為優(yōu)選方案:所述卷積網(wǎng)絡(luò)模型為多模態(tài)情緒網(wǎng)絡(luò)模型,通過分類準確率對所搭建的卷積網(wǎng)絡(luò)模型進行評價,當(dāng)分類準確率達到90%以上,則無需修改卷積網(wǎng)絡(luò)模型,當(dāng)分類準確率低于90%,則需修改并調(diào)整卷積網(wǎng)絡(luò)模型直至分類準確率達到90%。
29、作為優(yōu)選方案:采樣率在400~600hz為五種頻段的波頻中最大頻帶值的四到六倍。
30、與現(xiàn)有技術(shù)相比,本發(fā)明提供了一種基于多特征二維卷積的多模態(tài)情緒識別評價方法,具備以下有益效果:
31、本發(fā)明為基于音頻刺激大腦情緒的試驗?zāi)P停ㄟ^采集不同音頻刺激下的情緒腦電信號,觀察靜息態(tài)和任務(wù)態(tài)情緒腦電信號的相位幅值變化,實現(xiàn)有效且規(guī)范可控的音頻刺激。通過腦電數(shù)據(jù)經(jīng)過剔除噪聲、濾波、剔除壞段、插值壞導(dǎo)、獨立成分分析的多重預(yù)處理后,再對腦電數(shù)據(jù)進行多模態(tài)數(shù)據(jù)集的建立,構(gòu)建腦電信號特征和腦網(wǎng)絡(luò)特征的多模態(tài)數(shù)據(jù)集,利用多模態(tài)深度學(xué)習(xí)網(wǎng)絡(luò)模型實現(xiàn)對大腦情緒的精準分類,從而有效提高多分類的效率和準確率。