本發(fā)明屬于面部表情識(shí)別,涉及一種基于多流注意力交互的面部表情識(shí)別方法。
背景技術(shù):
1、面部表情識(shí)別(facial?expression?recognition,fer)通常采用端到端的監(jiān)督學(xué)習(xí)方法,這種方法的有效性依賴于大規(guī)模且精確標(biāo)注的數(shù)據(jù)集,但面部表情的模糊性、圖像質(zhì)量低以及標(biāo)注者的主觀性等原因,都會(huì)使得從互聯(lián)網(wǎng)獲取的數(shù)據(jù)集難以實(shí)現(xiàn)高精度標(biāo)注。因此,現(xiàn)有的大多數(shù)面部表情識(shí)別方法,將標(biāo)注不準(zhǔn)確的標(biāo)簽稱為噪聲標(biāo)簽,并通過標(biāo)簽校正來改善數(shù)據(jù)質(zhì)量,以便后續(xù)訓(xùn)練過程能夠使用更精確的數(shù)據(jù)集標(biāo)簽。此外面部各種表情之間的相似性很高,例如對(duì)于一張眉頭緊鎖的面部表情,將其解讀為難過或憤怒都可能是恰當(dāng)?shù)摹?/p>
2、而現(xiàn)有的噪聲標(biāo)簽處理方法難以捕捉這些細(xì)微的差別。因此,開發(fā)出更加魯棒的面部表情識(shí)別技術(shù),在理論和實(shí)際應(yīng)用中都具有重要意義。借助大規(guī)模數(shù)據(jù)集進(jìn)行端到端的監(jiān)督學(xué)習(xí),面部表情識(shí)別技術(shù)已取得了顯著成就。然而,噪聲標(biāo)簽的存在成為一大挑戰(zhàn),可能引發(fā)模型過擬合并削弱其泛化能力,進(jìn)而影響模型識(shí)別精度。
3、針對(duì)含噪聲標(biāo)簽的端到端的監(jiān)督學(xué)習(xí)方法,目前的研究主要采用兩大策略:一是通過估算潛在真實(shí)標(biāo)簽并重新調(diào)整訓(xùn)練樣本的權(quán)重;二是實(shí)施樣本選擇,即從含噪聲數(shù)據(jù)集中挑選出正確標(biāo)注的樣本,以增強(qiáng)模型的穩(wěn)健性,然而,這種樣本選擇方法在丟棄帶有噪聲的樣本時(shí),可能會(huì)錯(cuò)誤地丟棄一些干凈的樣本,并因此丟失數(shù)據(jù)的有用信息。
4、面部表情的微妙變化足以將其歸入不同的表達(dá)類別之中,例如,在整體外貌維持原樣的前提下,僅僅是嘴巴的輕微上揚(yáng)或下拉,就足以界定為兩種截然不同的情緒表達(dá)。
5、然而,當(dāng)前的噪聲標(biāo)簽面部表情識(shí)別技術(shù)無法很好的應(yīng)對(duì)表情之間的細(xì)粒度差異,這不僅會(huì)阻礙模型的訓(xùn)練進(jìn)程,還會(huì)降低面部表情識(shí)別的精確度。此外,現(xiàn)有的樣本選擇方法在處理含有噪聲的樣本時(shí),存在誤刪干凈樣本的風(fēng)險(xiǎn),并因此丟失數(shù)據(jù)的有用信息。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提出一種基于多流注意力交互的面部表情識(shí)別方法,該方法中提出了一種全局特征交互和通道交互策略,以確保面部圖像分支與面部關(guān)鍵點(diǎn)分支之間能夠產(chǎn)生有效的相互作用,并通過巧妙的權(quán)重分配機(jī)制,引導(dǎo)噪聲標(biāo)簽的動(dòng)態(tài)更新過程,從而進(jìn)一步提升模型識(shí)別的準(zhǔn)確性和魯棒性,進(jìn)而利于提升面部表情識(shí)別的準(zhǔn)確性和魯棒性。
2、本發(fā)明為了實(shí)現(xiàn)上述目的,采用如下技術(shù)方案:一種多流注意力交互的面部表情識(shí)別方法,包括如下步驟:步驟1.?獲取面部圖像數(shù)據(jù),并調(diào)整至預(yù)設(shè)大小。
3、步驟2.?搭建基于多流注意力交互的面部表情識(shí)別模型,其包括多分支神經(jīng)網(wǎng)絡(luò)模塊、全局特征交互模塊、通道交互模塊、以及動(dòng)態(tài)標(biāo)簽調(diào)整模塊。
4、多分支神經(jīng)網(wǎng)絡(luò)模塊用于對(duì)獲取的面部圖像數(shù)據(jù)進(jìn)行特征提取,包括使用主干網(wǎng)絡(luò)提取面部特征,以及使用人臉關(guān)鍵點(diǎn)檢測(cè)器提取面部關(guān)鍵點(diǎn)特征。
5、全局特征交互模塊用于對(duì)提取的特征進(jìn)行全局信息融合;其中,提取的面部特征、以及面部關(guān)鍵點(diǎn)特征分別經(jīng)過線性變換,映射為查詢向量、鍵向量以及值向量。
6、查詢向量在提取的面部特征以及面部關(guān)鍵點(diǎn)特征之間進(jìn)行交換,得到雙分支特征。
7、通道交互模塊用于對(duì)所述雙分支特征進(jìn)行通道層面信息融合,得到最終特征。
8、具體而言,首先將雙分支特征進(jìn)行級(jí)聯(lián)操作,得到融合后的特征。
9、同時(shí)引入一個(gè)多層感知機(jī)并結(jié)合softmax函數(shù),共同學(xué)習(xí)權(quán)重向量,用于在通道上重新加權(quán)面部特征和面部關(guān)鍵點(diǎn)特征,運(yùn)用兩個(gè)通道自適應(yīng)權(quán)值來融合特征,得到最終特征。
10、動(dòng)態(tài)標(biāo)簽調(diào)整模塊用于對(duì)最終特征重加權(quán)并對(duì)噪聲標(biāo)簽進(jìn)行更新。
11、通過對(duì)最終的特征圖進(jìn)行全連接和softmax歸一化操作,得到表情類別概率并輸出。
12、步驟3.?利用步驟1獲取的面部圖像數(shù)據(jù),對(duì)步驟2中搭建的基于多流注意力交互的面部表情識(shí)別模型進(jìn)行訓(xùn)練,并利用訓(xùn)練好的面部表情識(shí)別模型,進(jìn)行面部表情識(shí)別。
13、本發(fā)明具有以下優(yōu)點(diǎn):如上所述,本發(fā)明述及了一種多流注意力交互的面部表情識(shí)別方法,用于處理噪聲標(biāo)簽下的面部表情識(shí)別任務(wù),具體而言,本發(fā)明搭建了基于多流注意力交互的面部表情識(shí)別模型,其包括全局特征交互模塊、通道交互模塊、以及動(dòng)態(tài)標(biāo)簽調(diào)整模塊等模塊,本發(fā)明提供的全局特征交互模塊和通道交互模塊,能夠全面融合面部圖像分支與面部關(guān)鍵點(diǎn)分支之間的特征,實(shí)現(xiàn)高效的信息交互,有效降低了類別間的相似性,進(jìn)一步提高識(shí)別準(zhǔn)確率。本發(fā)明提供的動(dòng)態(tài)標(biāo)簽調(diào)整模塊,用于監(jiān)督網(wǎng)絡(luò)學(xué)習(xí)有意義的權(quán)重,每個(gè)樣本對(duì)訓(xùn)練的貢獻(xiàn)程度評(píng)估基于樣本的可靠性、重要性和噪聲程度,進(jìn)而對(duì)每個(gè)樣本進(jìn)行權(quán)重分配,為后續(xù)的標(biāo)簽更新提供了有力的參考,動(dòng)態(tài)標(biāo)簽調(diào)整模塊借助權(quán)重分配的引導(dǎo),實(shí)現(xiàn)了噪聲標(biāo)簽的有效迭代更新,確保了所有樣本數(shù)據(jù)的充分利用。本發(fā)明通過設(shè)計(jì)的全局特征交互模塊、通道交互模塊以及動(dòng)態(tài)標(biāo)簽調(diào)整模塊,可抑制噪聲標(biāo)簽的影響,提升了面部表情識(shí)別的準(zhǔn)確性和魯棒性。
1.一種多流注意力交互的面部表情識(shí)別方法,其特征在于,包括如下步驟:
2.根據(jù)權(quán)利要求1所述的多流注意力交互的面部表情識(shí)別方法,其特征在于,
3.根據(jù)權(quán)利要求1所述的多流注意力交互的面部表情識(shí)別方法,其特征在于,
4.根據(jù)權(quán)利要求1所述的多流注意力交互的面部表情識(shí)別方法,其特征在于,
5.根據(jù)權(quán)利要求1所述的多流注意力交互的面部表情識(shí)別方法,其特征在于,
6.根據(jù)權(quán)利要求1所述的多流注意力交互的面部表情識(shí)別方法,其特征在于,
7.根據(jù)權(quán)利要求6所述的多流注意力交互的面部表情識(shí)別方法,其特征在于,
8.根據(jù)權(quán)利要求7所述的多流注意力交互的面部表情識(shí)別方法,其特征在于,
9.根據(jù)權(quán)利要求8所述的多流注意力交互的面部表情識(shí)別方法,其特征在于,
10.根據(jù)權(quán)利要求9所述的多流注意力交互的面部表情識(shí)別方法,其特征在于,