本發(fā)明屬于假新聞檢測(cè)的,具體涉及一種多模態(tài)假新聞檢測(cè)方法、裝置及設(shè)備。
背景技術(shù):
1、迄今為止,大多數(shù)關(guān)于假新聞檢測(cè)的研究都集中在純文本這種單模態(tài)上,從人工檢測(cè)方法、機(jī)器學(xué)習(xí)方法到深度學(xué)習(xí)方法,這導(dǎo)致人們過(guò)度關(guān)注從文本中提取語(yǔ)義特征來(lái)檢測(cè)假新聞。雖然傳統(tǒng)的基于文本的單模態(tài)方法在提取語(yǔ)義特征方面表現(xiàn)出色,但隨著多媒體技術(shù)的發(fā)展,這種方法已顯示出局限性。
2、跨模態(tài)融合的概念是解決這些問(wèn)題的一種有前途的方法,它通過(guò)整合多模態(tài)的信息特征來(lái)提高檢測(cè)性能。如將文本內(nèi)容與所附圖片并列,可以揭示潛在假新聞的不同信號(hào),這強(qiáng)調(diào)了模式協(xié)作在提高檢測(cè)準(zhǔn)確性方面的重要性。然而,不加區(qū)分的跨模態(tài)融合可能會(huì)帶來(lái)噪聲,影響檢測(cè)精度。因此,有必要采取細(xì)致的方法進(jìn)行跨模態(tài)融合。現(xiàn)有方法往往忽略了單模態(tài)特征和多模態(tài)特征之間的內(nèi)在關(guān)系,導(dǎo)致算法復(fù)雜度增加,檢測(cè)結(jié)果不盡人意。例如,僅根據(jù)文字或圖片就可以表明是假新聞,因?yàn)樗鼈冞`背了常識(shí)。但是在多模態(tài)檢測(cè)時(shí),往往會(huì)忽略該點(diǎn),導(dǎo)致檢測(cè)繁瑣,結(jié)果有誤差。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明要解決的技術(shù)問(wèn)題是提供一種能夠更高效、更準(zhǔn)確地進(jìn)行多模態(tài)假新聞檢測(cè)的方法、裝置及設(shè)備。
2、本發(fā)明的內(nèi)容包括提供一種多模態(tài)假新聞檢測(cè)方法,包括:
3、對(duì)多模態(tài)新聞數(shù)據(jù)進(jìn)行特征提取,并對(duì)提取的特征進(jìn)行語(yǔ)義對(duì)齊,得到單模態(tài)特征向量,所述多模態(tài)新聞數(shù)據(jù)包括文本數(shù)據(jù)和圖像數(shù)據(jù);
4、基于長(zhǎng)效短期記憶神經(jīng)網(wǎng)絡(luò)處理所述單模態(tài)特征向量得到隱藏狀態(tài)上下文向量;
5、基于低秩張量算法處理所述隱藏狀態(tài)上下文向量得到跨模態(tài)融合特征向量;
6、基于變分編碼器捕捉所述單模態(tài)特征向量的特征分布;
7、基于所述特征分布計(jì)算確定kl散度,所述kl散度用于量化不同單模態(tài)特征向量之間的適配度,所述不同單模態(tài)特征向量之間的適配度為對(duì)應(yīng)文本數(shù)據(jù)的第一單模態(tài)特征向量和對(duì)應(yīng)圖像數(shù)據(jù)的第二單模態(tài)特征向量之間的適配度;
8、基于所述適配度自適應(yīng)調(diào)整單模態(tài)特征向量與跨模態(tài)融合特征向量的權(quán)重,并基于調(diào)整后的權(quán)重及單模態(tài)特征向量與跨模態(tài)融合特征向量形成目標(biāo)輸入數(shù)據(jù);
9、將所述目標(biāo)輸入數(shù)據(jù)輸入至檢測(cè)模型中,得到對(duì)應(yīng)所述多模態(tài)新聞數(shù)據(jù)為真新聞或假新聞的檢測(cè)結(jié)果。
10、在一些實(shí)施例中,所述對(duì)多模態(tài)新聞數(shù)據(jù)進(jìn)行特征提取,并對(duì)提取的特征進(jìn)行語(yǔ)義對(duì)齊,包括:
11、提取所述多模態(tài)新聞數(shù)據(jù)中的文本數(shù)據(jù)和圖像數(shù)據(jù);
12、基于文本編碼器對(duì)所述文本數(shù)據(jù)進(jìn)行特征提取,得到文本特征向量;
13、基于圖像編碼器對(duì)所述圖像數(shù)據(jù)進(jìn)行特征提取,得到圖像特征向量;
14、將所述文本特征向量與圖像特征向量映射至共享語(yǔ)義空間中,得到多個(gè)不同的所述單模態(tài)特征向量。
15、在一些實(shí)施例中,所述方法還包括:
16、獲得訓(xùn)練用多模態(tài)新聞數(shù)據(jù)的多個(gè)文本特征和多個(gè)圖像特征;
17、預(yù)測(cè)不同文本特征和圖像特征的正相關(guān)性和負(fù)相關(guān)性;
18、基于正相關(guān)的文本特征和圖像特征、負(fù)相關(guān)的文本特征和圖像特征構(gòu)建訓(xùn)練集;
19、基于多任務(wù)學(xué)習(xí)模型、特定模態(tài)多層任務(wù)感知器以及模態(tài)共享層構(gòu)建對(duì)比學(xué)習(xí)框架;
20、利用所述訓(xùn)練集訓(xùn)練所述對(duì)比學(xué)習(xí)框架,以使訓(xùn)練后的所述對(duì)比學(xué)習(xí)框架能夠執(zhí)行多模態(tài)新聞數(shù)據(jù)的特征提取及語(yǔ)義對(duì)齊,得到單模態(tài)特征向量;
21、基于所述單模態(tài)特征向量、余弦損失、裕度值計(jì)算得到所述對(duì)比學(xué)習(xí)框架在進(jìn)行語(yǔ)義對(duì)齊時(shí)的特征損失量;
22、將所述特征損失量正反饋至所述對(duì)比學(xué)習(xí)框架,以優(yōu)化所述對(duì)比學(xué)習(xí)框架。
23、在一些實(shí)施例中,所述基于低秩張量算法處理所述隱藏狀態(tài)上下文向量得到跨模態(tài)融合特征向量,包括:
24、將每個(gè)所述隱藏狀態(tài)上下文向量均增加一維數(shù)值;
25、將增加一維數(shù)值的隱藏狀態(tài)上下文向量進(jìn)行外積計(jì)算,得到跨模態(tài)融合隱藏上下文向量;
26、基于低秩特定模態(tài)因子和附加模態(tài)表征的批量矩陣乘法對(duì)跨模態(tài)融合隱藏上下文向量進(jìn)行計(jì)算,得到跨模態(tài)融合特征向量。
27、在一些實(shí)施例中,所述基于變分編碼器捕捉所述單模態(tài)特征向量的特征分布,包括:
28、在指定空間內(nèi)以各向同性的高斯先驗(yàn)算法對(duì)單模態(tài)特征向量進(jìn)行采樣,得到對(duì)應(yīng)所述單模態(tài)特征向量的變分后驗(yàn)概率分布;
29、基于所述變分后驗(yàn)概率分布計(jì)算得到所述單模態(tài)特征向量的特征分布。
30、在一些實(shí)施例中,不同的所述單模態(tài)特征向量對(duì)應(yīng)有不同的特征分布,所述基于所述特征分布計(jì)算確定kl散度,包括:
31、基于所述第一單模態(tài)特征向量的特征分布,計(jì)算確定第一kl散度;基于所述第二單模態(tài)特征向量的特征分布,計(jì)算確定第二kl散度,所述第一kl散度和第二kl散度在計(jì)算式中涉及參數(shù)的運(yùn)算位置不同。
32、在一些實(shí)施例中,所述方法還包括:
33、基于第一kl散度和第二kl散度計(jì)算散度平均值,并利用激活函數(shù)將所述散度平均值映射在(0,1)的范圍內(nèi),得到所述適配度。
34、在一些實(shí)施例中,所述基于調(diào)整后的權(quán)重及單模態(tài)特征向量與跨模態(tài)融合特征向量形成目標(biāo)輸入數(shù)據(jù),包括:
35、將所述單模態(tài)特征向量與跨模態(tài)融合特征向量分別與對(duì)應(yīng)的權(quán)重相乘,得到單模態(tài)表征式及多模態(tài)表征式;
36、對(duì)所述單模態(tài)表征式及多模態(tài)表征式進(jìn)行級(jí)聯(lián)操作,得到所述目標(biāo)輸入數(shù)據(jù)。
37、本發(fā)明同時(shí)公開(kāi)一種多模態(tài)假新聞檢測(cè)裝置,包括:
38、特征提取模塊,用于對(duì)多模態(tài)新聞數(shù)據(jù)進(jìn)行特征提取,并對(duì)提取的特征進(jìn)行語(yǔ)義對(duì)齊,得到單模態(tài)特征向量,所述多模態(tài)新聞數(shù)據(jù)包括文本數(shù)據(jù)和圖像數(shù)據(jù);
39、第一處理模塊,用于根據(jù)長(zhǎng)效短期記憶神經(jīng)網(wǎng)絡(luò)處理所述單模態(tài)特征向量得到隱藏狀態(tài)上下文向量;
40、第二處理模塊,用于根據(jù)低秩張量算法處理所述隱藏狀態(tài)上下文向量得到跨模態(tài)融合特征向量;
41、捕捉模塊,用于利用變分編碼器捕捉所述單模態(tài)特征向量的特征分布;
42、第一計(jì)算模塊,用于根據(jù)所述特征分布計(jì)算確定kl散度,所述kl散度用于量化不同單模態(tài)特征向量之間的適配度,所述不同單模態(tài)特征向量之間的適配度為對(duì)應(yīng)文本數(shù)據(jù)的第一單模態(tài)特征向量和對(duì)應(yīng)圖像數(shù)據(jù)的第二單模態(tài)特征向量之間的適配度;
43、調(diào)整模塊,用于根據(jù)所述適配度自適應(yīng)調(diào)整單模態(tài)特征向量與跨模態(tài)融合特征向量的權(quán)重,并基于調(diào)整后的權(quán)重及單模態(tài)特征向量與跨模態(tài)融合特征向量形成目標(biāo)輸入數(shù)據(jù);
44、檢測(cè)模塊,用于將所述目標(biāo)輸入數(shù)據(jù)輸入至檢測(cè)模型中,得到對(duì)應(yīng)所述多模態(tài)新聞數(shù)據(jù)為真新聞或假新聞的檢測(cè)結(jié)果。
45、本發(fā)明另一實(shí)施例還提供一種電子設(shè)備,包括
46、至少一個(gè)處理器;以及,
47、與所述至少一個(gè)處理器通信連接的存儲(chǔ)器;其中,
48、所述存儲(chǔ)器存儲(chǔ)有可被所述至少一個(gè)處理器執(zhí)行的指令,所述指令被所述至少一個(gè)處理器執(zhí)行以實(shí)現(xiàn)如上文中任一項(xiàng)實(shí)施例所述的多模態(tài)假新聞檢測(cè)方法。
49、本發(fā)明的有益效果是通過(guò)引入模態(tài)適配度,利用單模態(tài)特征分布之間的一致性關(guān)系,即kl散度,來(lái)量化模態(tài)適配度,并以此為基礎(chǔ)進(jìn)行單模態(tài)特征和多模態(tài)特征的權(quán)重進(jìn)行自適應(yīng)調(diào)整,使得調(diào)整后的權(quán)重與對(duì)應(yīng)的模態(tài)特征組合后再由目標(biāo)檢測(cè)器進(jìn)行分析檢測(cè)時(shí),能夠有效提高多模態(tài)假新聞的分類檢測(cè)結(jié)果,而且減少了參與檢測(cè)的參數(shù)數(shù)量,降低了計(jì)算負(fù)荷,同時(shí)能夠有效實(shí)現(xiàn)跨模態(tài)特征融合。