本技術(shù)涉及微表情識(shí)別,具體的說是一種基于au引導(dǎo)的微表情識(shí)別方法及裝置。
背景技術(shù):
1、微表情(me)是人臉面部表情的一種,以持續(xù)時(shí)間短暫、發(fā)生強(qiáng)度低為特點(diǎn)。與我們所熟知的普通面部表情即宏表情相比,微表情無法偽造,能反映人最真實(shí)的心理情緒。因此,微表情多用于測謊,在過去數(shù)年中,微表情識(shí)別(mer)任務(wù)因在諸多領(lǐng)域比如刑偵審訊、金融投資、心理診斷、教育等都有重要的應(yīng)用價(jià)值而飽受關(guān)注。具體來說,一個(gè)微表情識(shí)別模型要對一張微表情圖片或一段微表情視頻進(jìn)行分類,得到它的離散情緒標(biāo)簽。然而,由于微表情運(yùn)動(dòng)十分微弱,且存在著類內(nèi)差異大、類間差異小的問題,在微表情識(shí)別任務(wù)中,如何準(zhǔn)確地捕捉和區(qū)分微小且快速的面部肌肉運(yùn)動(dòng)并建模其與情緒之間的關(guān)系,是非常重要且棘手的挑戰(zhàn)。
2、基于面部運(yùn)動(dòng)的解剖學(xué)基礎(chǔ),建立了面部動(dòng)作編碼系統(tǒng)(facs)。它可以基于觀察到的肌肉或肌肉群激活的面部動(dòng)作單元(au)來編碼任何面部表情。在過去的數(shù)十年中,facs在人臉表情分析的各個(gè)方面都起到了重要作用。由于au提供了對面部局部區(qū)域細(xì)微運(yùn)動(dòng)的描述,所以對于捕捉微表情中的微小變化至關(guān)重要。因此,大多數(shù)微表情數(shù)據(jù)集為了促進(jìn)微表情相關(guān)分析,也都依據(jù)facs提供了相對可靠的人工標(biāo)注au標(biāo)簽。目前為止,也有一些mer工作試圖引入au來輔助微表情運(yùn)動(dòng)特征的學(xué)習(xí),這些方法通常只局限于根據(jù)常見au自定義一些面部興趣區(qū)域(roi),再對這些區(qū)域特別地提取傳統(tǒng)手工特征或深度學(xué)習(xí)特征來用于后續(xù)微表情運(yùn)動(dòng)的表征學(xué)習(xí)。需要注意的是,這些方法性能往往受先驗(yàn)信息的影響較大,且計(jì)算復(fù)雜度較高。此外,還有一些研究者將au引入圖結(jié)構(gòu),利用圖卷積神經(jīng)網(wǎng)絡(luò)gcn進(jìn)行微表情識(shí)別,但往往由于圖網(wǎng)絡(luò)的復(fù)雜性很容易過擬合,泛化性較差。因此,如何充分有效地利用微表情數(shù)據(jù)的au標(biāo)簽來輔助細(xì)粒度運(yùn)動(dòng)特征的學(xué)習(xí)仍舊是一個(gè)很大的挑戰(zhàn)。
技術(shù)實(shí)現(xiàn)思路
1、在本實(shí)施例中提供了一種基于au引導(dǎo)的微表情識(shí)別方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì),以解決相關(guān)技術(shù)中由于圖網(wǎng)絡(luò)的復(fù)雜性很容易過擬合,泛化性較差的問題。
2、第一方面,本發(fā)明實(shí)施例提供一種基于au引導(dǎo)的微表情識(shí)別方法,所述微表情識(shí)別方法包括:
3、獲取微表情樣本視頻,對所述微表情樣本視頻預(yù)處理,得到微表情序列;
4、通過公開數(shù)據(jù)集的au編碼標(biāo)簽以及面部動(dòng)作編碼系統(tǒng),為每個(gè)微表情樣本生成面部肌肉運(yùn)動(dòng)文本描述;
5、將處理好的微表情序列送入視覺編碼器,得到編碼好的視覺運(yùn)動(dòng)特征;將運(yùn)動(dòng)文本描述送入文本編碼器,得到文本運(yùn)動(dòng)特征;
6、將視覺運(yùn)動(dòng)特征和文本運(yùn)動(dòng)特征經(jīng)過兩個(gè)可學(xué)習(xí)的投影頭映射到聯(lián)合的多模態(tài)空間,得到視覺運(yùn)動(dòng)向量和文本嵌入向量;利用文本編碼器對比損失函數(shù)進(jìn)行視覺嵌入向量和文本嵌入向量的對齊,用于增強(qiáng)模型對于微表情細(xì)節(jié)的理解能力;
7、通過將視覺運(yùn)動(dòng)特征送入模型情緒推理模塊進(jìn)行情緒分類,以focal?loss作為目標(biāo)分類損失函數(shù);
8、對模型訓(xùn)練,動(dòng)態(tài)調(diào)節(jié)所述文本編碼器對比損失函數(shù)和目標(biāo)分類損失函數(shù)的權(quán)重,訓(xùn)練后的模型用于微表情識(shí)別任務(wù)。
9、在一個(gè)可選的實(shí)施例中,獲取原始微表情視頻,對所述原始微表情視頻預(yù)處理,得到微表情序列,包括:
10、獲取原始微表情視頻,將每個(gè)微表情視頻統(tǒng)一降采樣,形成微表情圖片序列,并對所述微表情圖片序列進(jìn)行人臉對齊和裁剪,得到微表情序列;
11、所述微表情序列經(jīng)過基礎(chǔ)數(shù)據(jù)增強(qiáng)以及局部人臉混合處理。
12、在一個(gè)可選的實(shí)施例中,將處理好的微表情序列送入視覺編碼器,得到編碼好的視覺運(yùn)動(dòng)特征,包括:
13、將所述微表情序列經(jīng)過視覺編碼器一層3d卷積,進(jìn)行時(shí)間和空間上的降采樣,得到時(shí)空圖像塊;
14、對所述時(shí)空圖像塊進(jìn)行特征提取,得到全局特征和局部特征;
15、采用多級融合的方法得到整個(gè)微表情序列的顯著的視覺運(yùn)動(dòng)特征。
16、在一個(gè)可選的實(shí)施例中,將運(yùn)動(dòng)文本描述送入文本編碼器,得到文本運(yùn)動(dòng)特征,包括:
17、將所述運(yùn)動(dòng)文本描述送入主體架構(gòu)為transformer的預(yù)訓(xùn)練好的文本編碼器中,得到每個(gè)微表情樣本視頻對應(yīng)的文本運(yùn)動(dòng)特征。
18、在一個(gè)可選的實(shí)施例中,將視覺運(yùn)動(dòng)特征和文本運(yùn)動(dòng)特征經(jīng)過兩個(gè)可學(xué)習(xí)的投影頭映射到聯(lián)合的多模態(tài)空間,得到視覺運(yùn)動(dòng)向量和文本嵌入向量;利用文本編碼器對比損失函數(shù)進(jìn)行視覺嵌入向量和文本嵌入向量的語義對齊,包括:
19、定義兩個(gè)可學(xué)習(xí)的投影頭,利用兩個(gè)所述可學(xué)習(xí)的投影頭將所述視覺運(yùn)動(dòng)特征和所述文本運(yùn)動(dòng)特征映射至聯(lián)合的多模態(tài)空間,得到視覺嵌入向量和文本嵌入向量,所述視覺嵌入向量和所述文本嵌入向量可直接比較;
20、通過文本編碼器對比損失使所述視覺嵌入向量和所述文本嵌入向量對齊。
21、在一個(gè)可選的實(shí)施例中,通過將視覺運(yùn)動(dòng)特征送入模型情緒推理模塊進(jìn)行情緒分類,包括:
22、在所述視覺編碼器中加入transformer頭,所述transformer頭包括兩個(gè)寬度為512的transformer塊和一個(gè)全連接線性分類層;
23、通過transformer塊從視覺運(yùn)動(dòng)特征中學(xué)習(xí)情緒特征并進(jìn)行情緒分類。
24、在一個(gè)可選的實(shí)施例中,對模型訓(xùn)練,動(dòng)態(tài)調(diào)節(jié)所述文本編碼器對比損失函數(shù)和目標(biāo)分類損失函數(shù)的權(quán)重,訓(xùn)練后的模型用于微表情識(shí)別任務(wù),包括:
25、先以au引導(dǎo)的跨模態(tài)對齊為主,學(xué)習(xí)微表情細(xì)粒度的運(yùn)動(dòng)特征;
26、逐漸增加目標(biāo)分類損失函數(shù)的權(quán)重,減少所述文本編碼器對比損失函數(shù)的權(quán)重。
27、與現(xiàn)有技術(shù)相比,本發(fā)明的基于au引導(dǎo)的微表情識(shí)別方法的有益效果如下:
28、通過生成au引導(dǎo)的細(xì)粒度的微表情面部肌肉運(yùn)動(dòng)文本描述,并利用clip對比損失進(jìn)行跨模態(tài)的語義對齊,可以提升模型對微弱局部的微表情運(yùn)動(dòng)的感知與捕捉,學(xué)習(xí)到顯著的時(shí)空微表情運(yùn)動(dòng)特征。此外,通過引入情緒推理模塊,將運(yùn)動(dòng)特征有效轉(zhuǎn)化為情緒特征,并使用focal?loss分類損失來解決微表情數(shù)據(jù)類不平衡的問題,大幅提升了模型的識(shí)別性能。同時(shí),使用本發(fā)明提出的局部人臉混合數(shù)據(jù)增強(qiáng)操作,可以在不破壞微表情細(xì)微運(yùn)動(dòng)特征的同時(shí),增加人臉的多樣性,有效緩解了數(shù)據(jù)量稀缺帶來的模型過擬合問題,提升了模型的泛化能力。
29、第二方面,本發(fā)明實(shí)施例提供一種基于au引導(dǎo)的微表情識(shí)別裝置,包括:
30、預(yù)處理模塊,用于獲取微表情樣本視頻,對所述微表情樣本視頻預(yù)處理,得到微表情序列;
31、編碼模塊,用于通過公開數(shù)據(jù)集的au編碼標(biāo)簽以及面部動(dòng)作編碼系統(tǒng),為每個(gè)微表情樣本生成面部肌肉運(yùn)動(dòng)文本描述;
32、特征提取模塊,用于將處理好的微表情序列送入視覺編碼器,得到編碼好的視覺運(yùn)動(dòng)特征;將運(yùn)動(dòng)文本描述送入文本編碼器,得到文本運(yùn)動(dòng)特征;
33、多模態(tài)對齊模塊,用于將視覺運(yùn)動(dòng)特征和文本運(yùn)動(dòng)特征經(jīng)過兩個(gè)可學(xué)習(xí)的投影頭映射到聯(lián)合的多模態(tài)空間,得到視覺運(yùn)動(dòng)向量和文本嵌入向量;利用文本編碼器對比損失函數(shù)進(jìn)行視覺嵌入向量和文本嵌入向量的對齊,用于增強(qiáng)模型對于微表情細(xì)節(jié)的理解能力;通過將視覺運(yùn)動(dòng)特征送入模型情緒推理模塊進(jìn)行情緒分類,以focal?loss作為目標(biāo)分類損失函數(shù);
34、訓(xùn)練識(shí)別模塊,用于對模型訓(xùn)練,動(dòng)態(tài)調(diào)節(jié)所述文本編碼器對比損失函數(shù)和目標(biāo)分類損失函數(shù)的權(quán)重,訓(xùn)練后的模型用于微表情識(shí)別任務(wù)。
35、第三方面,本發(fā)明實(shí)施例提供一種電子設(shè)備,包括處理器、通信接口、存儲(chǔ)器和總線,其中,處理器,通信接口,存儲(chǔ)器通過總線完成相互間的通信,處理器可以調(diào)用存儲(chǔ)器中的邏輯指令,以執(zhí)行如第一方面所提供的方法的步驟。
36、第四方面,本發(fā)明實(shí)施例提供一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如第一方面所述的基于au引導(dǎo)的微表情識(shí)別方法的步驟。
37、與現(xiàn)有技術(shù)相比,本發(fā)明的基于au引導(dǎo)的微表情識(shí)別裝置、電子設(shè)備及存儲(chǔ)介質(zhì)的有益效果與第一方面所述的基于au引導(dǎo)的微表情識(shí)別方法相同,故此處不再贅述。