本技術(shù)涉及面部情感識別,尤其是數(shù)據(jù)增廣方法、面部情感識別方法和裝置。
背景技術(shù):
1、面部表情和面部動作單元分別表征了不同粒度級別的人類面部情感,面部動作單元可以通過各方式組合構(gòu)成面部表情。在過往的研究中,面部表情識別和面部動作單元檢測通常被視為兩個獨立的任務(wù)。隨著深度學(xué)習(xí)和計算機視覺的發(fā)展,有一些方法嘗試探索面部表情和面部動作單元之間的相關(guān)性,但是這些方法往往僅使用一者的知識信息來輔助識別另一者,例如使用面部動作單元來輔助識別面部表情,目前鮮少有針對面部表情識別任務(wù)和面部動作單元檢測任務(wù)進行聯(lián)合訓(xùn)練和同步識別的方式。此外,aff-wild2數(shù)據(jù)集同時具有fe和au的標注,其適用于訓(xùn)練針對面部表情識別任務(wù)和面部動作單元檢測任務(wù)的神經(jīng)網(wǎng)絡(luò)模型。然而,由于標注面部表情和面部動作單元的過程耗時耗力,依賴于連續(xù)視頻幀標注的aff-wild2數(shù)據(jù)集所涵蓋的主體和場景有限,且aff-wild2數(shù)據(jù)集中的視頻分辨率較低,這些因素不可避免地限制了神經(jīng)網(wǎng)絡(luò)模型的零樣本能力和泛化能力。
技術(shù)實現(xiàn)思路
1、本技術(shù)實施例提出數(shù)據(jù)增廣方法、面部情感識別方法和裝置,用于提高神經(jīng)網(wǎng)絡(luò)模型的零樣本能力和泛化能力,以及實現(xiàn)對面部表情識別任務(wù)和面部單元檢測任務(wù)的聯(lián)合訓(xùn)練和對面部單元和面部表情的同步識別。
2、一方面,本技術(shù)實施例提供了數(shù)據(jù)增廣方法,該方法包括以下步驟:
3、獲取若干個面部樣本圖像和若干個面部無標簽圖像,每個所述面部樣本圖像均標注有對應(yīng)的面部單元標簽和面部表情標簽;
4、利用若干個所述面部樣本圖像對預(yù)先構(gòu)建的基礎(chǔ)模型進行訓(xùn)練,得到第一神經(jīng)網(wǎng)絡(luò)模型和置信度閾值集,所述置信度閾值集包括每個所述面部單元標簽的置信度閾值和每個所述面部表情標簽的置信度閾值;
5、將若干個所述面部無標簽圖像輸入至所述第一神經(jīng)網(wǎng)絡(luò)模型,得到若干個面部偽標簽圖像,并根據(jù)所述置信度閾值集從若干個所述面部偽標簽圖像當中篩選出多個面部增廣圖像,每個所述面部偽標簽圖像均標注有對應(yīng)的面部單元偽標簽和面部表情偽標簽;
6、根據(jù)多個所述面部增廣圖像、若干個所述面部樣本圖像和文本樣本集,得到面部數(shù)據(jù)集,所述文本樣本集包括多個經(jīng)掩碼處理且與面部單元相關(guān)聯(lián)的文本樣本和多個與面部表情相關(guān)聯(lián)的文本樣本。
7、另一方面,本技術(shù)實施例提供了面部情感識別方法,該方法包括以下步驟:
8、獲取待測面部圖像和文本數(shù)據(jù)作為第二神經(jīng)網(wǎng)絡(luò)模型的輸入,所述文本數(shù)據(jù)包括經(jīng)掩碼處理且與面部單元相關(guān)聯(lián)的文本數(shù)據(jù)和與面部表情相關(guān)聯(lián)的文本數(shù)據(jù);
9、通過所述第二神經(jīng)網(wǎng)絡(luò)模型對所述待測面部圖像進行面部識別,得到面部單元識別結(jié)果和面部表情識別結(jié)果;
10、其中,所述第二神經(jīng)網(wǎng)絡(luò)模型通過面部數(shù)據(jù)集訓(xùn)練得到,所述面部數(shù)據(jù)集通過上述數(shù)據(jù)增廣方法來獲得,所述第二神經(jīng)網(wǎng)絡(luò)模型包括:
11、基礎(chǔ)模型,用于對所述待測面部圖像進行編碼處理和線性處理,得到面部單元視覺特征和面部表情視覺特征;
12、補全模塊,用于對所述與面部單元相關(guān)聯(lián)的文本數(shù)據(jù)進行編碼處理,得到面部單元編碼特征,并根據(jù)所述面部單元編碼特征和所述面部單元視覺特征,得到面部單元文本特征,以及對所述與面部表情相關(guān)聯(lián)的文本數(shù)據(jù)進行編碼處理,得到面部表情文本特征;
13、感知模塊,用于根據(jù)所述面部單元視覺特征和所述面部單元文本特征,得到所述面部單元識別結(jié)果,以及根據(jù)所述面部單元視覺特征、所述面部表情視覺特征、所述面部單元文本特征和所述面部表情文本特征,得到所述面部表情識別結(jié)果。
14、又一方面,本技術(shù)實施例提供了數(shù)據(jù)增廣裝置,該裝置包括:
15、第一獲取模塊,用于獲取若干個面部樣本圖像和若干個面部無標簽圖像,每個所述面部樣本圖像均標注有對應(yīng)的面部單元標簽和面部表情標簽;
16、第一處理模塊,用于利用若干個所述面部樣本圖像對預(yù)先構(gòu)建的基礎(chǔ)模型進行訓(xùn)練,得到第一神經(jīng)網(wǎng)絡(luò)模型和置信度閾值集,所述置信度閾值集包括每個所述面部單元標簽的置信度閾值和每個所述面部表情標簽的置信度閾值;
17、第二處理模塊,用于將若干個所述面部無標簽圖像輸入至所述第一神經(jīng)網(wǎng)絡(luò)模型,得到若干個面部偽標簽圖像,并根據(jù)所述置信度閾值集從若干個所述面部偽標簽圖像當中篩選出多個面部增廣圖像,每個所述面部偽標簽圖像均標注有對應(yīng)的面部單元偽標簽和面部表情偽標簽;
18、第三處理模塊,用于根據(jù)多個所述面部增廣圖像、若干個所述面部樣本圖像和文本樣本集,得到面部數(shù)據(jù)集,所述文本樣本集包括多個經(jīng)掩碼處理且與面部單元相關(guān)聯(lián)的文本樣本和多個與面部表情相關(guān)聯(lián)的文本樣本。
19、又一方面,本技術(shù)實施例提供了面部情感識別裝置,該裝置包括:
20、第二獲取模塊,用于獲取待測面部圖像和文本數(shù)據(jù)作為第二神經(jīng)網(wǎng)絡(luò)模型的輸入,所述文本數(shù)據(jù)包括經(jīng)掩碼處理且與面部單元相關(guān)聯(lián)的文本數(shù)據(jù)和與面部表情相關(guān)聯(lián)的文本數(shù)據(jù);
21、第四處理模塊,用于通過所述第二神經(jīng)網(wǎng)絡(luò)模型對所述待測面部圖像進行面部識別,得到面部單元識別結(jié)果和面部表情識別結(jié)果;其中,所述第二神經(jīng)網(wǎng)絡(luò)模型通過面部數(shù)據(jù)集訓(xùn)練得到,所述面部數(shù)據(jù)集通過上述數(shù)據(jù)增廣方法來獲得,所述第二神經(jīng)網(wǎng)絡(luò)模型包括:
22、基礎(chǔ)模型,用于對所述待測面部圖像進行編碼處理和線性處理,得到面部單元視覺特征和面部表情視覺特征;
23、補全模塊,用于對所述與面部單元相關(guān)聯(lián)的文本數(shù)據(jù)進行編碼處理,得到面部單元編碼特征,并根據(jù)所述面部單元編碼特征和所述面部單元視覺特征,得到面部單元文本特征,以及對所述與面部表情相關(guān)聯(lián)的文本數(shù)據(jù)進行編碼處理,得到面部表情文本特征;
24、感知模塊,用于根據(jù)所述面部單元視覺特征和所述面部單元文本特征,得到所述面部單元識別結(jié)果,以及根據(jù)所述面部單元視覺特征、所述面部表情視覺特征、所述面部單元文本特征和所述面部表情文本特征,得到所述面部表情識別結(jié)果。
25、本技術(shù)的有益效果是:提供數(shù)據(jù)增廣方法、面部情感識別方法和裝置,首先利用由有標簽的面部樣本圖像訓(xùn)練得到的第一神經(jīng)網(wǎng)絡(luò)模型對大規(guī)模的面部無標簽圖像進行偽標簽生成處理,得到大量面部偽標簽圖像,面部偽標簽圖像均標注有對應(yīng)的偽標簽,并基于特定于類別的置信度閾值來對這些面部偽標簽圖像進行篩選,得到多個高可信度的面部增廣圖像,以確保偽標簽的可信度并減少偽標簽的噪聲,然后通過若干個面部樣本圖像、多個面部增廣圖像及用于描述面部表情和面部單元的文本樣本集來構(gòu)建面部數(shù)據(jù)集,并通過面部數(shù)據(jù)集訓(xùn)練得到第二神經(jīng)網(wǎng)絡(luò)模型,之后通過第二神經(jīng)網(wǎng)絡(luò)模型實現(xiàn)對面部表情和面部單元的同步識別。本技術(shù)提高神經(jīng)網(wǎng)絡(luò)模型的零樣本能力和泛化能力,以及實現(xiàn)對面部表情識別任務(wù)和面部單元檢測任務(wù)的聯(lián)合訓(xùn)練和對面部單元和面部表情的同步識別。
26、本技術(shù)的其它特征和優(yōu)點將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實施本技術(shù)而了解。本技術(shù)的目的和其他優(yōu)點可通過在說明書、權(quán)利要求書以及附圖中所特別指出的結(jié)構(gòu)來實現(xiàn)和獲得。