本發(fā)明涉及網(wǎng)絡(luò)內(nèi)容安全、網(wǎng)絡(luò)空間安全技術(shù)等領(lǐng)域,具體的說(shuō),是一種基于雙重特征的自適應(yīng)多模態(tài)虛假消息檢測(cè)方法及模型。
背景技術(shù):
1、在移動(dòng)互聯(lián)網(wǎng)時(shí)代,信息傳播的速度和規(guī)模遠(yuǎn)遠(yuǎn)超過(guò)了傳統(tǒng)媒體時(shí)代。微博、抖音等平臺(tái)成為消息傳播的主要渠道。民眾能夠快速獲取消息的同時(shí),往往遭受虛假消息影響。虛假消息作為一種誤導(dǎo)性信息,憑借在線社交平臺(tái)發(fā)布門檻低、傳播速度快、影響范圍廣的特點(diǎn)迅速滋生和蔓延,會(huì)對(duì)個(gè)人、組織甚至整個(gè)社會(huì)造成嚴(yán)重的影響。為了減少虛假消息可能帶來(lái)的危害,虛假消息檢測(cè)技術(shù)成為了一項(xiàng)亟需發(fā)展的技術(shù),其在社交平臺(tái)管理、網(wǎng)絡(luò)空間輿情治理等多方面都具有廣泛的應(yīng)用前景。
2、傳統(tǒng)上,辨別虛假信息主要依靠分析推文中的文本本身,這種方法側(cè)重于挖掘文本的統(tǒng)計(jì)特性和深層語(yǔ)義。例如,通過(guò)計(jì)算詞頻、檢測(cè)特定符號(hào)使用模式、深度神經(jīng)網(wǎng)絡(luò)提取語(yǔ)義等手段,判斷推文的真實(shí)性。然而,隨著社交網(wǎng)絡(luò)中的圖片、視頻等視覺(jué)內(nèi)容的豐富,僅僅依賴文本分析已難以應(yīng)對(duì)日益復(fù)雜的虛假信息。如今,融合圖像、視頻等視覺(jué)內(nèi)容與文本信息的多模態(tài)方法,成為社交平臺(tái)虛假消息檢測(cè)的主要趨勢(shì)。視覺(jué)內(nèi)容由于其直接可視性和高度吸引力,在很多情況下能更直觀地揭露虛假信息的本質(zhì),與文本分析技術(shù)結(jié)合,有效提升了虛假信息識(shí)別的準(zhǔn)確性。這類方法不僅考慮了推文中的文本內(nèi)容,還深入挖掘了其視覺(jué)表達(dá)的潛在含義,充分利用了推文的多模態(tài)特性,為社交網(wǎng)絡(luò)中錯(cuò)綜復(fù)雜的虛假消息檢測(cè)提供了一個(gè)全面的解決方法。但是,針對(duì)于現(xiàn)有的社交平臺(tái)多模態(tài)虛假消息檢測(cè)方法,仍然會(huì)存在以下問(wèn)題:
3、1、現(xiàn)有的多模態(tài)方法無(wú)法有效捕獲代表推文內(nèi)容的信息。在模型訓(xùn)練或檢測(cè)期間,假設(shè)推文僅包含文本和圖像。這一假設(shè)與微博中分享的推文有很大不同。推文有多種類型,例如純文本、純圖像、視頻、圖文對(duì)和帶有多幅圖像的文本。在模型開(kāi)發(fā)中只關(guān)注圖文對(duì)推文而忽略其他推文格式將導(dǎo)致檢測(cè)模型無(wú)法在現(xiàn)實(shí)中有效應(yīng)用。
4、2、目前的方法主要側(cè)重于揭示虛假信息中圖像和文本的深層語(yǔ)義特征之間的錯(cuò)綜復(fù)雜關(guān)系,但往往忽略了虛假信息中蘊(yùn)含的淺層特征的重要性,例如句法、詞匯和表層視覺(jué)語(yǔ)義。通過(guò)預(yù)訓(xùn)練模型提高虛假信息檢測(cè)能力,導(dǎo)致使用參數(shù)凍結(jié)的文本模型和視覺(jué)模型的最終層輸出特征來(lái)表示推文成為一種普遍趨勢(shì)。然而,這些方法通常忽略了淺層的輸出,導(dǎo)致多模態(tài)推文表示不準(zhǔn)確,跨模態(tài)融合效果不佳。
5、3、現(xiàn)有方法忽視了推文中事實(shí)細(xì)節(jié)的重要性,例如時(shí)間參考、位置和個(gè)人身份,而這些是推文真實(shí)性的關(guān)鍵指標(biāo)。僅依靠預(yù)先訓(xùn)練的文本和圖像模型進(jìn)行特征提取可能無(wú)法有效捕捉這些事實(shí)元素。雖然研究使用命名實(shí)體識(shí)別(ner)從文本中提取事實(shí)實(shí)體,但在解決圖像中存在的事實(shí)特征方面仍存在差距。部分方法側(cè)重于從圖像中提取視覺(jué)實(shí)體以改進(jìn)對(duì)多模態(tài)線索的搜索。然而,僅從圖像中提取實(shí)體可能會(huì)導(dǎo)致實(shí)體之間關(guān)系上下文的丟失,從而阻礙圖像中事實(shí)特征的全面表示,進(jìn)而影響模型的檢測(cè)性能。
6、4、隨著大語(yǔ)言模型的快速發(fā)展,出現(xiàn)了由大語(yǔ)言模型生成的虛假消息,這些推文風(fēng)格多樣,同時(shí)更具迷惑性。但是,現(xiàn)有的多模態(tài)虛假信息數(shù)據(jù)集是從社交平臺(tái)收集的人工生成的推文,缺乏大型語(yǔ)言模型生成的推文,因此現(xiàn)有方法難以捕捉大語(yǔ)言模型生成的虛假信息的獨(dú)特特征,從而導(dǎo)致檢測(cè)結(jié)果有偏差。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于解決現(xiàn)有技術(shù)的不足,提供一種基于雙重特征的自適應(yīng)多模態(tài)虛假消息檢測(cè)方法及模型,解決在社交媒體環(huán)境中應(yīng)用的多模態(tài)虛假信息檢測(cè)方法存在的問(wèn)題,包括無(wú)法處理推文的多樣化組織結(jié)構(gòu)、多模態(tài)推文表示不準(zhǔn)確、忽視多模態(tài)虛假信息中的事實(shí)特征以及訓(xùn)練數(shù)據(jù)集缺乏大型語(yǔ)言模型生成的虛假信息。同時(shí),本方法旨在改善現(xiàn)有的虛假信息檢測(cè)方法在現(xiàn)實(shí)場(chǎng)景中的準(zhǔn)確性。
2、本發(fā)明通過(guò)下述技術(shù)方案實(shí)現(xiàn):一種基于雙重特征的自適應(yīng)多模態(tài)虛假消息檢測(cè)方法,采用自適應(yīng)推文處理模塊、數(shù)據(jù)增強(qiáng)模塊、多模態(tài)特征構(gòu)建模塊和虛假消息檢測(cè)模塊所構(gòu)成的基于雙重特征的自適應(yīng)多模態(tài)虛假消息檢測(cè)模型實(shí)現(xiàn),包括下述步驟:
3、1)自適應(yīng)推文處理模塊收集權(quán)威平臺(tái)、辟謠網(wǎng)站和其它網(wǎng)站三類網(wǎng)絡(luò)平臺(tái)中的推文,并將進(jìn)行了真實(shí)性標(biāo)記的推文構(gòu)成訓(xùn)練數(shù)據(jù)集,未進(jìn)行真實(shí)性標(biāo)記的推文形成待檢測(cè)的測(cè)試數(shù)據(jù)集,并對(duì)收集到的推文進(jìn)行處理得到推文的自然語(yǔ)言內(nèi)容、視覺(jué)內(nèi)容和標(biāo)記信息;即在自適應(yīng)推文處理模塊中,本發(fā)明首先通過(guò)對(duì)推文中的自然語(yǔ)言內(nèi)容和視覺(jué)內(nèi)容進(jìn)行提??;其次,利用自適應(yīng)算法去除自然語(yǔ)言內(nèi)容和視覺(jué)內(nèi)容中的冗余和噪聲部分;最后為對(duì)推文的模態(tài)類型(只存在自然語(yǔ)言內(nèi)容、只存在視覺(jué)內(nèi)容和自然語(yǔ)言視覺(jué)內(nèi)容并存)進(jìn)行標(biāo)記,獲得推文的自然語(yǔ)言內(nèi)容、視覺(jué)內(nèi)容和標(biāo)記信息。
4、2)數(shù)據(jù)增強(qiáng)模塊對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng):獲取訓(xùn)練數(shù)據(jù)集中推文的自然語(yǔ)言內(nèi)容,將推文的自然語(yǔ)言內(nèi)容輸入到數(shù)據(jù)增強(qiáng)模塊的大語(yǔ)言模型內(nèi)對(duì)文本進(jìn)行改寫,與推文的視覺(jué)內(nèi)容和標(biāo)記信息組成新推文,擴(kuò)充訓(xùn)練數(shù)據(jù)集;即在數(shù)據(jù)增強(qiáng)模塊中,本發(fā)明首先獲取訓(xùn)練數(shù)據(jù)集中的推文的自然語(yǔ)言內(nèi)容,將其輸入到數(shù)據(jù)增強(qiáng)模塊的大語(yǔ)言模型,對(duì)文本進(jìn)行改寫,在保持內(nèi)容一致性的同時(shí)改變文本樣式;為反映現(xiàn)實(shí),數(shù)據(jù)增強(qiáng)模塊針對(duì)真假推文使用兩種不同的提示。
5、3)多模態(tài)特征構(gòu)建模塊通過(guò)多模態(tài)雙重特征提取方法提取出自然語(yǔ)言內(nèi)容和視覺(jué)內(nèi)容中的多模態(tài)模式特征,以及自然語(yǔ)言內(nèi)容和視覺(jué)內(nèi)容中的事實(shí)特征;即在多模態(tài)特征構(gòu)建模塊中,本發(fā)明提出了一個(gè)多模態(tài)雙重特征提取方法,該方法包括模式特征提取和事實(shí)特征提取兩個(gè)部分,提取原始推文中自然語(yǔ)言內(nèi)容和視覺(jué)內(nèi)容中的多模態(tài)模式特征和事實(shí)特征。
6、4)虛假消息檢測(cè)模塊結(jié)合一個(gè)包含門控網(wǎng)絡(luò)的混合專家網(wǎng)絡(luò)聚合推文特征實(shí)現(xiàn)虛假消息的分類。即在虛假消息檢驗(yàn)?zāi)K中,本發(fā)明提出了一個(gè)多專家網(wǎng)絡(luò)虛假消息檢測(cè)方法,該方法包含一個(gè)包含門控網(wǎng)絡(luò)的混合專家網(wǎng)絡(luò),通過(guò)自適應(yīng)推文處理模塊獲得推文的標(biāo)記信息和門控網(wǎng)絡(luò)可以靈活地處理所有類型的推文,從而將推文分類為真實(shí)消息和虛假消息的最終目標(biāo)。在混合專家網(wǎng)絡(luò)后添加分類器,以實(shí)現(xiàn)對(duì)推文的真實(shí)性檢驗(yàn)。全局損失設(shè)置為分類器的損失,以在梯度反向傳播階段回傳一些約束從而協(xié)調(diào)每個(gè)專家的表示。
7、進(jìn)一步為更好地實(shí)現(xiàn)本發(fā)明所述的一種基于雙重特征的自適應(yīng)多模態(tài)虛假消息檢測(cè)方法,本發(fā)明提出的一種自適應(yīng)的虛假消息處理方法,社交平臺(tái)中的推文組織形式不同,本方法針對(duì)存在的不同組織形式,自適應(yīng)提取自然語(yǔ)言內(nèi)容和視覺(jué)內(nèi)容,使得后續(xù)模塊能夠根據(jù)推文的組織類型采用不同的檢測(cè)策略,有效提升方法在模態(tài)缺失場(chǎng)景的準(zhǔn)確性。同時(shí),通過(guò)語(yǔ)義相似度算法去除噪聲內(nèi)容,保持圖像語(yǔ)義的完整性,進(jìn)而提升檢測(cè)的效果。特別采用下述設(shè)置方式:所述步驟1)包括下述步驟:
8、1.1)自適應(yīng)推文處理模塊收集網(wǎng)絡(luò)平臺(tái)中的推文,其中權(quán)威平臺(tái)發(fā)布的推文標(biāo)記為真實(shí),辟謠網(wǎng)站發(fā)布的推文標(biāo)記為虛假,將標(biāo)記了真實(shí)和虛假的推文作為訓(xùn)練數(shù)據(jù)集,其他網(wǎng)站發(fā)布的推文作為待檢測(cè)的測(cè)試數(shù)據(jù)集;
9、1.2)對(duì)于推文中的帶有自然語(yǔ)言信息的圖片,將提取出圖片中的自然語(yǔ)言信息,與推文中的文本組合,作為推文的自然語(yǔ)言信息內(nèi)容;對(duì)于推文中經(jīng)提取后的圖片和純圖片作為推文的視覺(jué)內(nèi)容;
10、1.3)對(duì)獲得的自然語(yǔ)言信息內(nèi)容和視覺(jué)內(nèi)容采用自適應(yīng)算法進(jìn)行語(yǔ)義相似度計(jì)算,過(guò)濾掉自然語(yǔ)言內(nèi)容和視覺(jué)內(nèi)容中的冗余和噪聲部分;
11、1.4)經(jīng)步驟1.3)后,對(duì)過(guò)濾后的推文進(jìn)行分類標(biāo)記,標(biāo)記信息為只存在自然語(yǔ)言內(nèi)容、只存在視覺(jué)內(nèi)容或自然語(yǔ)言視覺(jué)內(nèi)容并存;
12、1.5)保存推文的自然語(yǔ)言內(nèi)容、視覺(jué)內(nèi)容和標(biāo)記信息。
13、進(jìn)一步為更好地實(shí)現(xiàn)本發(fā)明所述的一種基于雙重特征的自適應(yīng)多模態(tài)虛假消息檢測(cè)方法,本發(fā)明提出了一個(gè)基于大語(yǔ)言模型的虛假消息數(shù)據(jù)增強(qiáng)方法,該方法利用大語(yǔ)言模型對(duì)推文進(jìn)行風(fēng)格變換,豐富單一的訓(xùn)練集內(nèi)容,提升模型對(duì)不同風(fēng)格的推文的檢測(cè)能力。特別采用下述設(shè)置方式:所述步驟2)包括下述步驟:
14、2.1)在基于雙重特征的自適應(yīng)多模態(tài)虛假消息檢測(cè)模型訓(xùn)練階段對(duì)訓(xùn)練數(shù)據(jù)集中標(biāo)記為真實(shí)的推文,獲得該推文的自然語(yǔ)言內(nèi)容,將風(fēng)格遷移提示與該推文中的自然語(yǔ)言內(nèi)容共同輸入大語(yǔ)言模型,獲得風(fēng)格遷移改寫后的自然語(yǔ)言內(nèi)容;將該推文的視覺(jué)內(nèi)容和標(biāo)記信息,與風(fēng)格遷移改寫后的自然語(yǔ)言內(nèi)容組成新推文,添加進(jìn)入訓(xùn)練數(shù)據(jù)集;
15、2.2)在基于雙重特征的自適應(yīng)多模態(tài)虛假消息檢測(cè)模型訓(xùn)練階段對(duì)訓(xùn)練數(shù)據(jù)集中標(biāo)記為虛假的推文,獲得該推文的自然語(yǔ)言內(nèi)容,將風(fēng)格正式化提示與該推文中的自然語(yǔ)言內(nèi)容共同輸入大語(yǔ)言模型,獲得風(fēng)格正式化改寫后的自然語(yǔ)言內(nèi)容;將該推文的視覺(jué)內(nèi)容和標(biāo)記信息,與風(fēng)格遷移改寫后的自然語(yǔ)言內(nèi)容組成新推文,添加進(jìn)入訓(xùn)練數(shù)據(jù)集。
16、進(jìn)一步為更好地實(shí)現(xiàn)本發(fā)明所述的一種基于雙重特征的自適應(yīng)多模態(tài)虛假消息檢測(cè)方法,本發(fā)明提出了一種雙重虛假消息特征提取方法,對(duì)虛假消息中的多模態(tài)模式特征和多模態(tài)事實(shí)特征進(jìn)行提取。對(duì)于多模態(tài)模式特征,本發(fā)明融合了不同層次的單模態(tài)表示。對(duì)于多模態(tài)事實(shí)特征,本發(fā)明首先利用大語(yǔ)言模型生成文本摘要,然后利用文本摘要引導(dǎo)視覺(jué)語(yǔ)言模型生成精確的圖片描述,最后融合文本摘要和圖片描述作為多模態(tài)事實(shí)特征。方法從模式和事實(shí)層面有效提取多模態(tài)虛假消息特征,進(jìn)一步提高了預(yù)測(cè)性能和泛化能力。特別采用下述設(shè)置方式:所述步驟3)包括下述步驟:
17、3.1)構(gòu)建模式特征提取網(wǎng)絡(luò):本發(fā)明提出了一個(gè)模式融合方法進(jìn)行多模態(tài)模式特征提取。對(duì)于自然語(yǔ)言內(nèi)容,采用bert模型獲得各個(gè)層次的輸出;對(duì)于視覺(jué)內(nèi)容,采用vit模型獲得各個(gè)層次的輸出;
18、然后,本發(fā)明對(duì)于標(biāo)記信息為自然語(yǔ)言視覺(jué)內(nèi)容并存的推文采用可學(xué)習(xí)的橋接層連接自然語(yǔ)言內(nèi)容的各個(gè)層次輸出和視覺(jué)內(nèi)容的各個(gè)層次輸出,獲得融合的多模態(tài)模式特征;
19、對(duì)于標(biāo)記信息為只存在自然語(yǔ)言內(nèi)容、只存在視覺(jué)內(nèi)容的推文,本發(fā)明將不融合特征,將各個(gè)層次的輸出直接作為模式特征;
20、3.2)事實(shí)提?。?/p>
21、對(duì)于標(biāo)記信息為自然語(yǔ)言視覺(jué)內(nèi)容并存的推文,多模態(tài)特征構(gòu)建模塊首先采用大語(yǔ)言模型獲得自然語(yǔ)言內(nèi)容的文本摘要;然后通過(guò)視覺(jué)語(yǔ)言大模型blip的相似度模塊計(jì)算獲得文本摘要和視覺(jué)內(nèi)容的相似度,利用gradcam定位視覺(jué)內(nèi)容和文本摘要相關(guān)的圖片區(qū)域,最后使用視覺(jué)語(yǔ)言大模型blip生成這些圖片區(qū)域的圖片描述;
22、對(duì)于標(biāo)記信息為只存在自然語(yǔ)言內(nèi)容的推文,多模態(tài)特征構(gòu)建模塊只提取文本摘要;
23、對(duì)于標(biāo)記信息為只存在視覺(jué)內(nèi)容的推文,多模態(tài)特征構(gòu)建模塊將直接采用視覺(jué)語(yǔ)言大模型blip獲得圖片描述;
24、3.3)構(gòu)建事實(shí)特征提取網(wǎng)絡(luò):
25、本發(fā)明提出了一個(gè)事實(shí)融合方法進(jìn)行多模態(tài)事實(shí)特征提取。對(duì)于標(biāo)記信息為自然語(yǔ)言視覺(jué)內(nèi)容并存的推文中所獲得的文本摘要,多模態(tài)特征構(gòu)建模塊采用bert模型獲得各個(gè)層次的輸出,對(duì)于標(biāo)記信息為自然語(yǔ)言視覺(jué)內(nèi)容并存的推文中所獲得的圖片描述,多模態(tài)特征構(gòu)建模塊采用bert模型獲得各個(gè)層次的輸出;本發(fā)明采用可學(xué)習(xí)的橋接層連接文本摘要和圖片描述的各個(gè)層次輸出,獲得融合的多模態(tài)事實(shí)特征;
26、對(duì)于標(biāo)記信息為只存在自然語(yǔ)言內(nèi)容的推文,所述基于雙重特征的自適應(yīng)多模態(tài)虛假消息檢測(cè)模型將文本摘要的各個(gè)層次輸出直接作為事實(shí)特征;
27、對(duì)于標(biāo)記信息為只存在視覺(jué)內(nèi)容的推文,所述基于雙重特征的自適應(yīng)多模態(tài)虛假消息檢測(cè)模型將圖片描述的各個(gè)層次輸出直接作為事實(shí)特征。
28、進(jìn)一步為更好地實(shí)現(xiàn)本發(fā)明所述的一種基于雙重特征的自適應(yīng)多模態(tài)虛假消息檢測(cè)方法,本發(fā)明提出了一個(gè)多專家網(wǎng)絡(luò)虛假消息檢測(cè)方法,利用門控網(wǎng)絡(luò)引導(dǎo)多專家網(wǎng)絡(luò)針對(duì)不同類型的虛假消息內(nèi)容學(xué)習(xí)對(duì)應(yīng)的表示,從而提升模型對(duì)不同組織類型的虛假消息的檢測(cè)能力。特別采用下述設(shè)置方式:所述步驟4)包括下述具體步驟:
29、4.1)構(gòu)建混合專家網(wǎng)絡(luò):首先拼接模式特征和事實(shí)特征獲得多模態(tài)聯(lián)合特征,然后將多模態(tài)聯(lián)合特征輸入多個(gè)由bi-lstm網(wǎng)絡(luò)組成專家網(wǎng)絡(luò),獲得多個(gè)序列融合特征;同時(shí),多模態(tài)聯(lián)合特征輸入門控網(wǎng)絡(luò),門控網(wǎng)絡(luò)首先對(duì)多模態(tài)聯(lián)合特征進(jìn)行平均池化,并與推文的標(biāo)記信息構(gòu)造的向量拼接,通過(guò)一個(gè)全連接層后使用softmax函數(shù)將輸出歸一化,最終獲得每個(gè)bi-lstm網(wǎng)絡(luò)輸出的權(quán)重比向量;多個(gè)序列融合特征與權(quán)重比加權(quán)相加獲得最終的推文表示,最后加入一個(gè)全連接層作為分類器,完成混合專家網(wǎng)絡(luò)的構(gòu)建。
30、4.2)模型訓(xùn)練與檢測(cè):如果目前處于模型訓(xùn)練階段,作為分類器的全連接層的輸出先經(jīng)過(guò)sigmoid激活函數(shù)處理,得到一個(gè)預(yù)測(cè)結(jié)果,針對(duì)預(yù)測(cè)結(jié)果進(jìn)行bce損失的計(jì)算;如果目前處于推斷階段,得到的預(yù)測(cè)結(jié)果將作為基于雙重特征的自適應(yīng)多模態(tài)虛假消息檢測(cè)模型的推斷結(jié)果。
31、一種基于雙重特征的自適應(yīng)多模態(tài)虛假消息檢測(cè)模型,包括
32、自適應(yīng)推文處理模塊,收集權(quán)威平臺(tái)、辟謠網(wǎng)站和其它網(wǎng)站三類網(wǎng)絡(luò)平臺(tái)中的推文,其中權(quán)威平臺(tái)發(fā)布的推文標(biāo)記為真實(shí),辟謠網(wǎng)站發(fā)布的推文標(biāo)記為虛假,將標(biāo)記了真實(shí)和虛假的推文作為訓(xùn)練數(shù)據(jù)集,其他網(wǎng)站發(fā)布的推文作為待檢測(cè)的測(cè)試數(shù)據(jù)集;并對(duì)推文不同載體中的信息進(jìn)行提取獲得自然語(yǔ)言內(nèi)容和視覺(jué)內(nèi)容,并利用基于相似度的自適應(yīng)算法將內(nèi)容進(jìn)行去噪分類,獲得標(biāo)記信息為只存在自然語(yǔ)言內(nèi)容、只存在視覺(jué)內(nèi)容和自然語(yǔ)言視覺(jué)內(nèi)容并存的三類推文;
33、數(shù)據(jù)增強(qiáng)模塊,將訓(xùn)練數(shù)據(jù)集中推文的自然語(yǔ)言內(nèi)容作為原始輸入,利用兩種真假推文提示使用大語(yǔ)言模型重寫和重構(gòu)文本,在保持內(nèi)容一致性的同時(shí)改變文本樣式,隨后將數(shù)據(jù)增強(qiáng)后的新推文加入訓(xùn)練數(shù)據(jù)集;
34、多模態(tài)特征構(gòu)建模塊,設(shè)置有模式特征模塊和事實(shí)特征模塊,用于獲取推文并提取模式和事實(shí)兩類特征;
35、虛假消息檢測(cè)模塊,采用包含一個(gè)門控網(wǎng)絡(luò)聚合推文特征的混合專家網(wǎng)絡(luò)的虛假消息檢測(cè)方法,實(shí)現(xiàn)虛假消息的分類。
36、進(jìn)一步為更好地實(shí)現(xiàn)本發(fā)明所述的一種基于雙重特征的自適應(yīng)多模態(tài)虛假消息檢測(cè)模型,特別采用下述設(shè)置方式:所述模式特征模塊通過(guò)預(yù)訓(xùn)練模型提取單模態(tài)各個(gè)層次特征,并利用帶權(quán)重的全跨模態(tài)橋接層(可學(xué)習(xí)的橋接層)將各層次單模態(tài)融合,獲得模式特征;所述事實(shí)特征模塊,首先利用圖文大模型對(duì)自然語(yǔ)言內(nèi)容中的事實(shí)內(nèi)容進(jìn)行提取獲得事實(shí)內(nèi)容摘要,然后利用事實(shí)內(nèi)容摘要引導(dǎo)圖文大模型的生成視覺(jué)內(nèi)容描述,最后采用模式特征的方法獲得事實(shí)特征。
37、本發(fā)明與現(xiàn)有技術(shù)相比,具有以下優(yōu)點(diǎn)及有益效果:
38、(1)現(xiàn)有的多模態(tài)虛假信息檢測(cè)方法無(wú)法處理推文的多樣化組織結(jié)構(gòu),因此不太適合在社交媒體環(huán)境中應(yīng)用,本發(fā)明針對(duì)這些缺陷提出了一種自適應(yīng)推文處理方法。所提出的方法包括從推文中提取自然語(yǔ)言和視覺(jué)內(nèi)容,從而將各種推文格式標(biāo)準(zhǔn)化為統(tǒng)一的結(jié)構(gòu)。隨后,采用基于相似性的算法來(lái)解決與噪聲內(nèi)容相關(guān)的問(wèn)題,以及自然語(yǔ)言或視覺(jué)內(nèi)容可能缺失的情況,從而提高檢測(cè)模型的整體有效性。此外,本發(fā)明還提出了一種多專家網(wǎng)絡(luò),通過(guò)標(biāo)簽幫助專家網(wǎng)絡(luò)學(xué)習(xí)有效的特征,從而提高對(duì)各類虛假信息的檢測(cè)率。
39、(2)考慮到當(dāng)前的虛假信息檢測(cè)方法優(yōu)先考慮深層語(yǔ)義特征而非淺層特征,導(dǎo)致多模態(tài)推文表示不準(zhǔn)確,本發(fā)明設(shè)計(jì)了一個(gè)基于共同注意機(jī)制的加權(quán)橋接層(即可學(xué)習(xí)的橋接層,亦為帶權(quán)重的全跨模態(tài)橋接層),以融合預(yù)訓(xùn)練圖像和文本模型提取的不同級(jí)別的特征。通過(guò)在文本和視覺(jué)模型之間引入多個(gè)可學(xué)習(xí)的橋接層,可以將單模態(tài)模型的不同級(jí)別連接到跨模態(tài)模塊。這實(shí)現(xiàn)了不同級(jí)別的視覺(jué)和文本表示之間的有效跨模態(tài)對(duì)齊和融合。結(jié)合可學(xué)習(xí)的權(quán)重,該模塊改進(jìn)了多模態(tài)虛假信息的模式表示,并增強(qiáng)了虛假消息檢測(cè)能力。
40、(3)針對(duì)當(dāng)前方法在多模態(tài)虛假信息中忽視事實(shí)特征的問(wèn)題,本發(fā)明提出一種基于大型視覺(jué)語(yǔ)言模型的零樣本多模態(tài)事實(shí)特征提取方法(一種事實(shí)融合方法)。首先,利用視覺(jué)大型語(yǔ)言模型的理解能力提取文本中的事實(shí)內(nèi)容,得到文本摘要;然后以文本摘要作為提示詞,引導(dǎo)視覺(jué)大語(yǔ)言模型生成圖片關(guān)鍵部分的標(biāo)題;最后,將文本摘要和圖片標(biāo)題結(jié)合起來(lái),得到事實(shí)特征,并利用事實(shí)特征,增強(qiáng)虛假消息檢測(cè)能力。
41、(4)針對(duì)當(dāng)前數(shù)據(jù)集缺乏大型語(yǔ)言模型生成的虛假信息,導(dǎo)致檢測(cè)準(zhǔn)確率下降的問(wèn)題,本發(fā)明提出了基于大語(yǔ)言模型的多模態(tài)虛假信息數(shù)據(jù)增強(qiáng)方案,獲得與現(xiàn)實(shí)世界的場(chǎng)景相似的數(shù)據(jù)集。方案利用大型語(yǔ)言模型模仿真實(shí)推文的寫作風(fēng)格,并通過(guò)集成圖像描述使虛假推文更加復(fù)雜。
42、(5)本發(fā)明所述方法將虛假消息檢測(cè)任務(wù)分為自適應(yīng)推文處理任務(wù)、數(shù)據(jù)增強(qiáng)任務(wù)、多模態(tài)特征構(gòu)建任務(wù)和虛假消息檢測(cè)分類任務(wù)四個(gè)模塊。該方法自適應(yīng)處理社交平臺(tái)上出現(xiàn)的推文,避免模態(tài)缺失或噪聲內(nèi)容對(duì)虛假消息檢測(cè)帶來(lái)的影響,同時(shí)將通過(guò)數(shù)據(jù)增強(qiáng)提升方法對(duì)風(fēng)格多樣的消息的檢測(cè)能力,又能準(zhǔn)確捕獲虛假消息的模式和事實(shí)特點(diǎn),實(shí)現(xiàn)準(zhǔn)確的虛假消息檢測(cè)。所述模型將將虛假消息檢測(cè)任務(wù)分為自適應(yīng)推文處理模塊、數(shù)據(jù)增強(qiáng)模塊、多模態(tài)特征構(gòu)建模塊和虛假消息檢測(cè)模塊四個(gè)模塊。該模型自適應(yīng)處理社交平臺(tái)上出現(xiàn)的推文,避免模態(tài)缺失或噪聲內(nèi)容對(duì)虛假消息檢測(cè)帶來(lái)的影響,同時(shí)將通過(guò)數(shù)據(jù)增強(qiáng)提升方法對(duì)風(fēng)格多樣的消息的檢測(cè)能力,又能準(zhǔn)確捕獲虛假消息的模式和事實(shí)特點(diǎn),實(shí)現(xiàn)準(zhǔn)確的虛假消息檢測(cè)。