本公開涉及情緒識別方法、電子設備、存儲介質和程序產(chǎn)品等。
背景技術:
1、目前,智能眼鏡適用場合越來越多,其基本都有音頻采集功能,其中部分智能眼鏡帶有攝像頭功能,可以把對面交流的人的面部拍下來。因此期望能在交流中實時識別出對面人的情緒,這可以為進行更多有趣的交互提供了可能性,例如根據(jù)不同的情緒選擇不同的交談題材、更準確地與交談者共情等。
技術實現(xiàn)思路
1、本公開實施例提供了情緒識別方法以及相應的執(zhí)行這些方法的電子設備、非暫時性機器可讀存儲介質和計算機程序產(chǎn)品。
2、根據(jù)本公開實施例的第一個方面,提供了一種情緒識別方法,包括:獲得目標說話人的從第一時刻到在所述第一時刻之后的第二時刻的說話音頻、以及所述說話音頻劃分而成的每幀的特征;從所述每幀的特征中提取音頻情緒特征;將所述音頻情緒特征與面部表情差異特征融合得到融合情緒特征,其中所述面部表情差異特征是根據(jù)從所述目標說話人的第一面部圖片中提取的第一面部表情特征與從所述目標說話人的第二面部圖片中提取的第二面部表情特征之間的差別而確定的,并且所述第一面部圖片和所述第二面部圖片是分別在所述第一時刻和所述第二時刻采集得到的;以及根據(jù)所述融合情緒特征獲得所述目標說話人的情緒類別。
3、可選地,所述面部表情差異特征是根據(jù)第一面部表情特征與第二面部表情特征之間的差別而確定的,包括:將所述第二面部表情特征與所述第一面部表情特征按位相減得到差值特征;在所述差值特征的全部元素的絕對值中的最大值小于預設的門限值的情況下,將預設的固定數(shù)值的特征作為所述面部表情差異特征;在所述差值特征的全部元素的絕對值中的最大值不小于所述門限值的情況下,將所述差值特征作為所述面部表情差異特征。
4、可選地,從所述目標說話人的第一面部圖片中提取第一面部表情特征以及從所述目標說話人的第二面部圖片中提取第二面部表情特征,包括:利用人臉目標檢測模型,分別確定所述第一面部圖片和所述第二面部圖片中的人臉區(qū)域;以及利用人臉情緒識別神經(jīng)網(wǎng)絡模型,分別根據(jù)所述第一面部圖片和所述第二面部圖片中的人臉區(qū)域內的圖片信息,獲得所述第一面部表情特征和所述第二面部表情特征;或者,利用基于人臉特征點的面部特征提取模型,分別從所述第一面部圖片和所述第二面部圖片中的人臉區(qū)域內的圖片信息中提取所述第一面部表情特征和所述第二面部表情特征。
5、可選地,將所述音頻情緒特征與面部表情差異特征融合得到融合情緒特征,包括:在所述音頻情緒特征與所述面部表情差異特征中的至少一個為非一維向量的情況下,將所述非一維向量展平為一維向量;以及在展平后將所述音頻情緒特征與所述面部表情差異特征拼接成為所述融合情緒特征。
6、可選地,從所述每幀的特征中提取音頻情緒特征,包括:利用第一神經(jīng)網(wǎng)絡模塊,從所述每幀的特征中提取音頻情緒特征,其中所述第一神經(jīng)網(wǎng)絡模塊包括一個或串聯(lián)的多個具有保存歷史信息功能的神經(jīng)網(wǎng)絡單元。
7、可選地,根據(jù)所述融合情緒特征獲得所述目標說話人的情緒類別,包括:將所述融合情緒特征輸入第二神經(jīng)網(wǎng)絡模塊,其中所述第二神經(jīng)網(wǎng)絡模塊包括一個或串聯(lián)的多個處理單元以及連接在所述處理單元之后的輸出層,所述處理單元包括卷積單元和/或全連接單元,所述卷積單元包括卷積層、歸一化層和激活層,所述全連接單元包括全連接層、歸一化層和激活層;以及從所述第二神經(jīng)網(wǎng)絡模塊的輸出層輸出全部情緒類別的置信度分數(shù),根據(jù)所述置信度分數(shù)確定所述目標說話人的情緒類別。
8、可選地,所述第一神經(jīng)網(wǎng)絡模塊和所述第二神經(jīng)網(wǎng)絡模塊作為同一個神經(jīng)網(wǎng)絡模型中的模塊被一起進行訓練。
9、可選地,在訓練時在所述第二神經(jīng)網(wǎng)絡模塊中的一個所述處理單元之后還連接有丟棄層。
10、可選地,所述方法是采用流式推理方式執(zhí)行的,并且所述方法還包括:對所獲得的所述目標說話人的情緒類別進行后處理,其中所述后處理包括:對預定多個順序獲得的情緒類別進行低通濾波;或者在所述目標說話人的情緒類別是通過選取全部情緒類別的置信度分數(shù)中的最高值對應的情緒類別而確定的情況下,針對全部情緒類別中的每個情緒類別計算預定時間內獲得的多個置信度分數(shù)的平均值,并且選取所述平均值最高的情緒類別作為所述目標說話人的情緒類別。
11、根據(jù)本公開實施例的第二個方面,提供了一種電子設備,包括:麥克風,被配置為采集目標說話人的說話音頻;攝像頭,被配置為采集所述目標說話人的面部圖片;處理器;以及存儲器,其上存儲有可執(zhí)行代碼,當所述可執(zhí)行代碼被所述處理器執(zhí)行時,使所述處理器執(zhí)行如上述第一個方面中的任一方案所述的方法。
12、根據(jù)本公開實施例的第三個方面,提供了一種電子設備,包括:處理器;以及存儲器,其上存儲有可執(zhí)行代碼,當可執(zhí)行代碼被處理器執(zhí)行時,使處理器執(zhí)行如上述第一個方面中的任一方案所述的方法。
13、根據(jù)本公開實施例的第四個方面,提供了一種非暫時性機器可讀存儲介質,其上存儲有可執(zhí)行代碼,當可執(zhí)行代碼被電子設備的處理器執(zhí)行時,使處理器執(zhí)行如上述第一個方面中的任一方案所述的方法。
14、根據(jù)本公開實施例的第五個方面,提供了一種計算機程序產(chǎn)品,包括可執(zhí)行代碼,當所述可執(zhí)行代碼被電子設備的處理器執(zhí)行時,使所述處理器執(zhí)行如上述第一個方面中的任一方案所述的方法。
1.一種情緒識別方法,包括:
2.根據(jù)權利要求1所述的方法,其中,所述面部表情差異特征是根據(jù)第一面部表情特征與第二面部表情特征之間的差別而確定的,包括:
3.根據(jù)權利要求1所述的方法,其中,從所述目標說話人的第一面部圖片中提取第一面部表情特征以及從所述目標說話人的第二面部圖片中提取第二面部表情特征,包括:
4.根據(jù)權利要求1所述的方法,其中,將所述音頻情緒特征與面部表情差異特征融合得到融合情緒特征,包括:
5.根據(jù)權利要求1所述的方法,其中,從所述每幀的特征中提取音頻情緒特征,包括:
6.根據(jù)權利要求5所述的方法,其中,根據(jù)所述融合情緒特征獲得所述目標說話人的情緒類別,包括:
7.根據(jù)權利要求6所述的方法,其中,
8.根據(jù)權利要求1所述的方法,其中,所述方法是采用流式推理方式執(zhí)行的,并且所述方法還包括:
9.一種電子設備,包括:
10.一種計算機程序產(chǎn)品,包括可執(zhí)行代碼,當所述可執(zhí)行代碼被電子設備的處理器執(zhí)行時,使所述處理器執(zhí)行如權利要求1-8中任一項所述的方法。