本發(fā)明涉及深度學(xué)習(xí),尤其涉及一種促進(jìn)多模態(tài)信息融合的情感分析方法及裝置。
背景技術(shù):
1、人類通過(guò)語(yǔ)言文字、視覺(jué)和音頻等多模態(tài)信號(hào)自然地進(jìn)行交流。隨著以人為中心的在線視頻數(shù)量的激增,利用語(yǔ)言文本信息,非語(yǔ)言文本信息(視頻圖像信息和音頻信息)來(lái)識(shí)別視頻中人類情感的多模態(tài)情感分析近年來(lái)引起了廣泛關(guān)注。多模態(tài)情感分析利用包括口頭語(yǔ)言(語(yǔ)言文本)、面部手勢(shì)(視覺(jué))和聲音行為等在內(nèi)的多模態(tài)信號(hào)來(lái)識(shí)別視頻中的情緒。就對(duì)情感分析的準(zhǔn)確度而言,語(yǔ)言文本模態(tài)通常優(yōu)于非語(yǔ)言模態(tài),但是考慮到句子的含義在不同的非語(yǔ)言上下文中通常有所不同,將非語(yǔ)言信息與語(yǔ)言文本信息表示相結(jié)合有助于理解話語(yǔ)所傳達(dá)的確切情感,所以對(duì)各個(gè)模態(tài)的信息進(jìn)行特征提取,結(jié)合多個(gè)模態(tài)的信息數(shù)據(jù)的多模態(tài)方法成為當(dāng)前多模態(tài)情感分析的主要方法。
2、然而,這種結(jié)合多模態(tài)信息對(duì)人類進(jìn)行情感分析的方法面臨兩個(gè)主要問(wèn)題:(1)經(jīng)特征提取的初始語(yǔ)言文本的特征表示是來(lái)自詞匯表的單詞索引序列,然而,視覺(jué)和聽覺(jué)模態(tài)特征的表示是真實(shí)的向量序列,語(yǔ)言和非語(yǔ)言特征的分布差距較大,不利于語(yǔ)言文本表示和非語(yǔ)言情感背景的整合;(2)在特征融合的過(guò)程中如何加強(qiáng)語(yǔ)言文本模態(tài)特征的權(quán)重從而提高情感分析的準(zhǔn)確性。
3、因此,現(xiàn)有基于多模態(tài)信息的情感分析方法存在多模態(tài)信息差異大且文本模態(tài)在融合過(guò)程占比較低等問(wèn)題,導(dǎo)致多模態(tài)信息的情感分析方法的準(zhǔn)確性較低。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提供了一種促進(jìn)多模態(tài)信息融合的情感分析方法及裝置,用于解決現(xiàn)有基于多模態(tài)信息的情感分析方法存在多模態(tài)信息差異大且文本模態(tài)在融合過(guò)程占比較低等問(wèn)題,導(dǎo)致多模態(tài)信息的情感分析方法的準(zhǔn)確性較低的技術(shù)問(wèn)題。
2、本發(fā)明第一方面提供了一種促進(jìn)多模態(tài)信息融合的情感分析方法,所述方法包括:
3、獲取多模態(tài)數(shù)據(jù),對(duì)各模態(tài)數(shù)據(jù)進(jìn)行預(yù)處理,得到各模態(tài)的初始特征;多模態(tài)包括文本/語(yǔ)言文本模態(tài)、音頻模態(tài)和視頻模態(tài);
4、獲取訓(xùn)練集,基于k-means算法對(duì)訓(xùn)練集進(jìn)行聚類以學(xué)習(xí)聲學(xué)詞匯和視覺(jué)詞匯,分別建立聲學(xué)詞匯表和視覺(jué)詞匯表;
5、通過(guò)聲學(xué)詞匯表和視覺(jué)詞匯表分別對(duì)音頻模態(tài)的初始特征和視頻模態(tài)的初始特征進(jìn)行查詢,得到非文本模態(tài)的單詞索引序列;
6、將非文本模態(tài)的單詞索引序列嵌入至文本模態(tài)的初始特征中建立非語(yǔ)言位移向量,并將所述非語(yǔ)言位移向量添加至文本模態(tài)的初始特征中進(jìn)行移位操作,得到多模態(tài)向量;
7、將所述多模態(tài)向量輸入至transformer模型進(jìn)行上下文感知,輸出多模態(tài)感知信息;將所述多模態(tài)感知信息輸入至情感分析模塊進(jìn)行情感分析,得到并輸出情感分析結(jié)果。
8、進(jìn)一步的,所述獲取多模態(tài)數(shù)據(jù),分別對(duì)各模態(tài)數(shù)據(jù)進(jìn)行預(yù)處理,得到各模態(tài)的初始特征的步驟,包括:
9、通過(guò)sentilare模型對(duì)所述文本模態(tài)的數(shù)據(jù)進(jìn)行預(yù)處理,得到文本模態(tài)的初始特征;
10、通過(guò)covarep提取庫(kù)對(duì)所述音頻模態(tài)的數(shù)據(jù)進(jìn)行預(yù)處理,得到音頻模態(tài)的初始特征;
11、通過(guò)py-feat工具包或facet系統(tǒng)對(duì)所述視頻模態(tài)的數(shù)據(jù)進(jìn)行預(yù)處理,得到視頻模態(tài)的初始特征。
12、進(jìn)一步的,所述獲取訓(xùn)練集,基于k-means算法對(duì)訓(xùn)練集進(jìn)行聚類以學(xué)習(xí)聲學(xué)詞匯和視覺(jué)詞匯,分別建立聲學(xué)詞匯表和視覺(jué)詞匯表的步驟,包括:
13、獲取訓(xùn)練集并從所述訓(xùn)練集中提取出聲音片段和視覺(jué)片段,分別得到音頻模態(tài)幀集合和視頻模態(tài)幀集合;
14、采用k-means算法分別將音頻模態(tài)幀集合和視頻模態(tài)幀集合進(jìn)行聚類分組,學(xué)習(xí)得到音頻簇中心集合和視頻簇中心集合;
15、基于所述音頻簇中心集合和所述視頻簇中心集合,分別建立聲學(xué)詞匯表和視覺(jué)詞匯表。
16、進(jìn)一步的,通過(guò)聲學(xué)詞匯表和視覺(jué)詞匯表分別對(duì)音頻模態(tài)的初始特征和視頻模態(tài)的初始特征進(jìn)行查詢的計(jì)算公式如下:
17、
18、式中:表示第i幀的索引標(biāo)簽,表示序列的第i幀的特征,是模態(tài)m的第j個(gè)簇中心。
19、進(jìn)一步的,所述將非文本模態(tài)的單詞索引序列嵌入至文本模態(tài)的初始特征中建立非語(yǔ)言位移向量,并將所述非語(yǔ)言位移向量添加至文本模態(tài)的初始特征中進(jìn)行移位操作,輸出多模態(tài)向量的步驟,包括:
20、將非文本模態(tài)的單詞索引序列與文本模態(tài)的初始特征相拼接,得到音頻拼接向量和視頻拼接向量;
21、將所述音頻拼接向量和所述視頻拼接向量分別進(jìn)行權(quán)重計(jì)算,得到音頻門向量和視頻門向量;
22、通過(guò)音頻拼接向量和視頻拼接向量分別乘以關(guān)聯(lián)的門向量,得到非語(yǔ)言位移向量;
23、將所述非語(yǔ)言位移向量添加至文本模態(tài)的初始特征中進(jìn)行移位操作,得到多模態(tài)向量。
24、進(jìn)一步的,
25、所述音頻門向量的計(jì)算方式表示為:
26、
27、式中:表示非線性激活函數(shù),表示聽覺(jué)通道的權(quán)重矩陣,表示音頻模態(tài)的標(biāo)量偏差;表示音頻拼接向量,表示文本模態(tài)的初始特征的序列,表示音頻模態(tài)的單詞索引序列;
28、所述視頻門向量的計(jì)算方式表示為:
29、
30、式中:表示視覺(jué)通道的權(quán)重矩陣,表示視頻模態(tài)的標(biāo)量偏差;表示視頻拼接向量,表示視頻模態(tài)的單詞索引序列;
31、所述非語(yǔ)言位移向量的計(jì)算方式表示為:
32、
33、式中:和分別表示聲學(xué)信息和視覺(jué)信息的權(quán)重矩陣,表示偏差向量;
34、所述多模態(tài)向量的計(jì)算方式表示為:
35、
36、式中:表示縮放因子。
37、進(jìn)一步的,所述transformer模型由多頭注意力機(jī)制、一個(gè)前向網(wǎng)絡(luò)、殘差連接層與層歸一化模塊組成。
38、本發(fā)明第二方面提供了一種促進(jìn)多模態(tài)信息融合的情感分析裝置,所述裝置包括:
39、初始特征獲取模塊,用于獲取多模態(tài)數(shù)據(jù),對(duì)各模態(tài)數(shù)據(jù)進(jìn)行預(yù)處理,得到各模態(tài)的初始特征;多模態(tài)包括文本模態(tài)、音頻模態(tài)和視頻模態(tài);
40、詞匯表建立模塊,用于獲取訓(xùn)練集,基于k-means算法對(duì)訓(xùn)練集進(jìn)行聚類以學(xué)習(xí)聲學(xué)詞匯和視覺(jué)詞匯,分別建立聲學(xué)詞匯表和視覺(jué)詞匯表;
41、非文本模態(tài)的單詞索引序列生成模塊,用于通過(guò)聲學(xué)詞匯表和視覺(jué)詞匯表分別對(duì)音頻模態(tài)的初始特征和視頻模態(tài)的初始特征進(jìn)行查詢,得到非文本模態(tài)的單詞索引序列;
42、特征融合模塊,用于多模態(tài)向量將非文本模態(tài)的單詞索引序列嵌入至文本模態(tài)的初始特征中建立非語(yǔ)言位移向量,并將所述非語(yǔ)言位移向量添加至文本模態(tài)的初始特征中進(jìn)行移位操作,得到多模態(tài)向量;
43、情感結(jié)果輸出模塊,用于將所述多模態(tài)向量輸入至transformer模型進(jìn)行上下文感知,輸出多模態(tài)感知信息;將所述多模態(tài)感知信息輸入至情感分析模塊進(jìn)行情感分析,得到并輸出情感分析結(jié)果。
44、本發(fā)明第三方面提供了一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如上任一所述的情感分析方法的步驟。
45、本發(fā)明第四方面提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上任一所述的情感分析方法的步驟。
46、從以上技術(shù)方案可以看出,本發(fā)明具有以下優(yōu)點(diǎn):
47、本發(fā)明提供了一種促進(jìn)多模態(tài)信息融合的情感分析方法及裝置,方法包括:獲取多模態(tài)數(shù)據(jù),對(duì)各模態(tài)數(shù)據(jù)進(jìn)行預(yù)處理,得到各模態(tài)的初始特征;多模態(tài)包括文本模態(tài)、音頻模態(tài)和視頻模態(tài);獲取訓(xùn)練集,基于k-means算法對(duì)訓(xùn)練集進(jìn)行聚類以學(xué)習(xí)聲學(xué)詞匯和視覺(jué)詞匯,分別建立聲學(xué)詞匯表和視覺(jué)詞匯表;通過(guò)聲學(xué)詞匯表和視覺(jué)詞匯表分別對(duì)音頻模態(tài)的初始特征和視頻模態(tài)的初始特征進(jìn)行查詢,得到非文本模態(tài)的單詞索引序列;將非文本模態(tài)的單詞索引序列嵌入至文本模態(tài)的初始特征中建立非語(yǔ)言位移向量,并將非語(yǔ)言位移向量添加至文本模態(tài)的初始特征中進(jìn)行移位操作,得到多模態(tài)向量;將多模態(tài)向量輸入至transformer模型進(jìn)行上下文感知,輸出多模態(tài)感知信息;將多模態(tài)感知信息輸入至情感分析模塊進(jìn)行情感分析,得到并輸出情感分析結(jié)果。
48、在本發(fā)明中,通過(guò)k-means算法將非文本模態(tài)的初始特征序列轉(zhuǎn)換為與語(yǔ)言文本模態(tài)一樣的單詞索引序列,從而減少異質(zhì)模態(tài)之間的初始分布差異,進(jìn)一步縮小融合時(shí)語(yǔ)言文本模態(tài)和非語(yǔ)言文本模態(tài)特征的分布差距,便于后續(xù)的特征融合;同時(shí),在多模態(tài)特征融合時(shí)通過(guò)結(jié)合視頻模態(tài)和音頻模態(tài)的非語(yǔ)言位移向量來(lái)增強(qiáng)語(yǔ)言文本模態(tài)的表示,從而提升多模態(tài)數(shù)據(jù)的情感分析的準(zhǔn)確性,進(jìn)而解決了現(xiàn)有基于多模態(tài)信息的情感分析方法存在多模態(tài)信息差異大且文本模態(tài)在融合過(guò)程占比較低等問(wèn)題,導(dǎo)致多模態(tài)信息的情感分析方法的準(zhǔn)確性較低的技術(shù)問(wèn)題。