本發(fā)明涉及偽造人臉檢測方法,尤其涉及一種基于多域視覺語言重建的擴(kuò)散偽造人臉檢測和定位方法。
背景技術(shù):
1、擴(kuò)散偽造人臉是利用最新的基于擴(kuò)散模型的深度學(xué)習(xí)技術(shù)生成極度逼真的虛假人臉圖像或視頻,目前為止,已經(jīng)有大量人類肉眼無法辨別真假的擴(kuò)散偽造人臉視頻在網(wǎng)上流傳,極大損害個(gè)人名譽(yù),威脅社會穩(wěn)定;
2、目前人臉偽造檢測和定位模型利用圖像模態(tài)在空間和頻域中捕獲人臉偽造模式方面取得了巨大進(jìn)展,但細(xì)粒度類別感知文本等其他模態(tài)尚未得到全面研究,這限制了模型的泛化能力,此外,當(dāng)前人臉偽造檢測和定位方法傾向于分析由?gan?創(chuàng)建的面部圖像,但難以識別和定位基于擴(kuò)散模型合成的面部圖像。
3、因此,本發(fā)明提供一種基于多域視覺語言重建的擴(kuò)散偽造人臉檢測和定位方法。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明針對現(xiàn)有技術(shù)的不足,研制一種基于多域視覺語言重建的擴(kuò)散偽造人臉檢測和定位方法,主要目的在于提高偽造檢測與定位效率和跨模態(tài)檢測能力。
2、本發(fā)明解決技術(shù)問題的技術(shù)方案為一種基于多域視覺語言重建的擴(kuò)散偽造人臉檢測和定位方法,具體步驟如下:
3、s1、構(gòu)建分層細(xì)粒度人臉數(shù)據(jù)集,數(shù)據(jù)集中包含若干張人臉圖像,每張人臉圖像有對應(yīng)的細(xì)粒度類感知文本和真實(shí)掩模圖像,對人臉圖像、對應(yīng)的細(xì)粒度類感知文本和真實(shí)掩模圖像分別進(jìn)行預(yù)處理,得到預(yù)處理后的人臉圖像、對應(yīng)的細(xì)粒度類感知文本張量和真實(shí)掩膜圖像張量;
4、s2、利用多域視覺編碼器模塊分別得到人臉圖像局部特征與全局圖像殘差融合的視覺操縱特征;
5、s3、將多域視覺編碼器模塊提取的人臉的局部圖像特征分別輸入至視覺解碼器模塊和掩膜解碼器模塊中,分別得到預(yù)測人臉外觀圖像與預(yù)測掩膜圖像;
6、s4、在文本張量加入位置信息后輸入至語言編碼器中,在文本張量的基礎(chǔ)上得到新的文本張量后計(jì)入位置信息,再輸入至語言解碼器中,得到該文本的細(xì)粒度類語言特征、細(xì)粒度源語言特征與預(yù)測的目標(biāo)語言特征;
7、s5、將步驟s2得到的人臉全局圖像殘差視覺操縱特征分別輸入到適應(yīng)器與多層感知機(jī)中,分別得到預(yù)測語言特征和預(yù)測圖像類別特征;
8、s6、將步驟s3得到的預(yù)測人臉外觀圖像與人臉圖像的張量利用外觀重建損失函數(shù)優(yōu)化,將步驟s3得到的預(yù)測掩膜圖像與真實(shí)掩膜圖像的張量利用操縱定位損失函數(shù)優(yōu)化,將步驟s4得到的細(xì)粒度類語言特征與步驟s2得到的全局圖像殘差融合的視覺操縱特征和步驟s5得到的預(yù)測語言特征分別利用跨模態(tài)對比損失函數(shù)與散度損失函數(shù)優(yōu)化,將s5得到的預(yù)測圖像類別特征與真實(shí)圖像標(biāo)簽利用操縱檢測損失函數(shù)優(yōu)化,將文本的預(yù)測標(biāo)簽向量與文本中單詞的真實(shí)標(biāo)簽利用語言重建損失函數(shù)優(yōu)化,對適應(yīng)器和多層感知機(jī)的訓(xùn)練,得到多域細(xì)粒度視覺語言重建模型;
9、s7、利用訓(xùn)練好的模型中的多域視覺編碼器與視覺解碼器及多層感知機(jī)對人臉圖像進(jìn)行二分類真假檢測,并生成預(yù)測掩模圖像來對操縱定位。
10、s1具體如下:
11、s1.1、將分層細(xì)粒度人臉數(shù)據(jù)集里的每張人臉圖像的寬×高調(diào)整,利用均值為[0.4718,0.3467,0.3154]、方差為?[0.1656,0.1432,0.1364]的維度對人臉圖像進(jìn)行歸一化,兩組數(shù)據(jù)中三個(gè)數(shù)值分別對應(yīng)人臉圖像的rgb通道中紅色、綠色、藍(lán)色通道的均值和方差,將歸一化后的人臉圖像封裝為的張量,表示向量空間,表示分層細(xì)粒度人臉數(shù)據(jù)集中任意一張人臉圖像的張量,3表示人臉圖像張量的通道數(shù)為3,人臉圖像對應(yīng)的標(biāo)簽記作或,表示每批次圖像的個(gè)數(shù),0表示真圖像,1表示假圖像;
12、s1.2、通過分詞器對人臉圖像對應(yīng)的細(xì)粒度類感知文本進(jìn)行處理,得到詞標(biāo)記序列,并利用詞嵌入層將詞標(biāo)記映射為詞嵌入張量,表示每批次文本的個(gè)數(shù),表示詞標(biāo)記的個(gè)數(shù),表示詞嵌入的特征維度;
13、s1.3、將真實(shí)掩膜圖像封裝為的張量,表示每批次圖像的個(gè)數(shù)。
14、s2具體如下:
15、s2.1、構(gòu)建多域視覺編碼器模塊,多域視覺編碼器模塊包括一個(gè)編碼器和一個(gè)圖像編碼器,其中圖像編碼器由個(gè)連續(xù)的模塊組成,每個(gè)模塊由多頭自注意力模塊和模塊組成,多頭自注意力模塊和模塊的上一層均為層,下一層均為殘差層;
16、s2.2、將人臉圖像的張量輸入至多域視覺編碼器模塊,首先經(jīng)過編碼器,輸出維度為的人臉圖像局部特征圖,具體過程如下:
17、,
18、其中,,表示編碼器的參數(shù),表示人臉圖像局部特征圖的通道數(shù),表示人臉圖像局部特征圖的高,表示人臉圖像局部特征圖的寬;
19、s2.3、將人臉圖像局部特征圖沿著通道利用庫里的重塑函數(shù)拉平為二維圖像塊序列,,表示補(bǔ)丁的數(shù)量,,表示第個(gè)二維圖像塊,表示二維圖像塊大?。?/p>
20、計(jì)算帶有位置信息的二維圖像塊序列,具體計(jì)算如下:
21、,
22、其中,表示自動生成的可學(xué)習(xí)的類張量,表示映射隱向量,,表示映射隱向量維度,維度等于維數(shù),,表示第個(gè)二維圖像塊的映射隱向量,表示自動生成的二維圖像塊序列的位置,;
23、s2.4、將輸入至圖像編碼器中,首先經(jīng)過第一層模塊,在第一層模塊中依次經(jīng)過多頭自注意力模塊和模塊,最后第一層模塊輸出,表示第一層的二維空間特征圖,具體過程如下:
24、首先經(jīng)過歸一化操作后被輸入至第一層多頭自注意力模塊進(jìn)行全局多頭注意力計(jì)算,再經(jīng)過殘差層得到二維全局空間特征,將再進(jìn)行歸一化操作后輸入至第一層模塊,再經(jīng)過殘差層后,最終得到第一層模塊的輸出,計(jì)算過程如下:
25、,
26、,
27、其中,表示歸一化層的操作,表示多頭自注意力模塊的操作,表示模塊的操作;
28、然后將第一層模塊的輸出作為第二層模塊的輸入,將第二層模塊的輸出作為第三層模塊的輸入,多次迭代后直至得到第層模塊的輸出,表示第層的二維空間特征圖;
29、s2.5、將輸入外觀解碼器模塊得到預(yù)測人臉外觀圖像,計(jì)算過程如下:
30、,
31、其中,表示預(yù)測人臉外觀圖像,,表示外觀解碼器ad的參數(shù);
32、在通過殘差生成模塊得到殘差圖像,計(jì)算過程如下:
33、,
34、其中,表示殘差圖像,表示輸入的人臉圖像,;
35、s2.6、建立與圖像編碼器結(jié)構(gòu)相同且參數(shù)共享的殘差編碼器,將殘差圖像輸入殘差編碼器得到全局殘差圖像特征,計(jì)算過程如下:
36、,
37、其中,表示全局殘差圖像特征,,表示殘差編碼器的參數(shù);
38、將和進(jìn)行融合再經(jīng)過操作得到全局圖像殘差融合的視覺操縱特征,具體過程如下:
39、,
40、其中,,表示重塑操作。
41、s3具體如下:
42、s3.1、構(gòu)建一個(gè)視覺解碼器模塊,視覺解碼器模塊包括unet解碼器和外觀重建層,外觀重建層包括一個(gè)卷積上采樣層;構(gòu)建一個(gè)掩膜解碼器模塊,掩膜解碼器模塊包括unet解碼器和操縱定位層,操縱定位層由一個(gè)卷積上采樣層構(gòu)成,視覺解碼器和掩膜解碼器中的unet解碼器共享權(quán)重;
43、s3.2、將輸入視覺解碼器模塊得到預(yù)測人臉外觀圖像,,將輸入掩膜解碼器模塊得到預(yù)測掩膜圖像,計(jì)算過程如下:
44、,
45、其中,,為檢測類別數(shù),表示掩膜解碼器模塊的操作。
46、s4具體如下:
47、s4.1、根據(jù)詞嵌入張量和自動生成的詞嵌入張量的位置得到帶有位置信息的細(xì)粒度類感知文本序列向量,計(jì)算過程如下:
48、;
49、s4.2、構(gòu)建語言編碼器,語言編碼器包括個(gè)連續(xù)的模塊,每個(gè)模塊包括多頭注意力模塊、視覺注入模塊和模塊,其中多頭注意力模塊、視覺注入模塊和模塊的上一層均為層,下一層均為殘差層;
50、s4.3、將帶有位置信息的細(xì)粒度類感知文本序列向量輸入至語言編碼器中,首先經(jīng)過歸一化操作后被輸入至第一層多頭注意力模塊進(jìn)行全局多頭注意力計(jì)算,再經(jīng)過殘差層得到文本全局語義特征,計(jì)算過程如下:
51、,
52、其中,表示歸一化操作,表示多頭注意力模塊的操作;
53、再將進(jìn)行歸一化操作后與全局圖像殘差融合的視覺操縱特征輸入至視覺注意力模塊,再經(jīng)過殘差層通過交叉注意力計(jì)算得到全局視覺語言特征,具體過程如下:
54、將輸入至查詢線性層得到查詢張量,計(jì)算過程如下:
55、,
56、其中,,表示第一層多頭注意力模塊中查詢線性層參數(shù);
57、將全局圖像殘差融合的視覺操縱特征輸入至鍵映射層得到鍵張量,計(jì)算過程如下:
58、,
59、其中,,表示第一層多頭注意力模塊中鍵映射層參數(shù);
60、再將輸入至值映射層得到值張量,計(jì)算過程如下:
61、,
62、其中,,表示第一層多頭注意力模塊中值映射層參數(shù);
63、再通過交叉注意力計(jì)算得到全局視覺語言特征,計(jì)算過程如下:
64、,
65、其中,表示函數(shù)的操作,;
66、再將進(jìn)行層歸一化后輸入至模塊中,再經(jīng)過殘差模塊得到精煉的全局視覺語言融合特征,計(jì)算過程如下:
67、;
68、然后將語言編碼器第一層模塊的輸出作為第一層模塊的輸入,將第二層模塊的輸出作為第三層模塊的輸入,多次迭代直至得到第層模塊的輸出,語言編碼器的最終輸出即為細(xì)粒度源語言特征,從細(xì)粒度源語言特征中取最后一個(gè)文本片段得到細(xì)粒度類語言特征;
69、s4.4、在詞嵌入張量的開始附上一個(gè)并移除最后一個(gè)得到新的詞嵌入張量,通過和的位置得到帶有位置信息的細(xì)粒度類感知目標(biāo)文本序列向量,計(jì)算過程如下:
70、;
71、s4.5、構(gòu)建語言解碼器,語言解碼器由個(gè)連續(xù)的模塊組成,每個(gè)模塊包括掩膜多頭注意力模塊、多頭注意力模塊、視覺注入模塊和模塊,掩膜多頭注意力模塊、多頭注意力模塊、視覺注入模塊和模塊的上一層均為層,下一層均為殘差層;
72、s4.6、將帶有位置信息的細(xì)粒度類感知目標(biāo)文本序列向量輸入至語言解碼器中,首先經(jīng)過歸一化操作后被輸入至第一層掩膜多頭注意力模塊,再經(jīng)過殘差層得到目標(biāo)文本語義特征,計(jì)算過程如下:
73、,
74、其中,表示歸一化操作,表示掩膜多頭注意力模塊的操作;
75、再將進(jìn)行歸一化操作后與一同輸入至多頭注意力模塊進(jìn)行交叉注意力計(jì)算,再經(jīng)過殘差層得到源與目標(biāo)融合語義特征,計(jì)算過程如下:
76、,
77、其中,表示多頭注意力模塊的操作;
78、將進(jìn)行歸一化操作后與全局圖像殘差融合的視覺操縱特征輸入至視覺注入模塊,再經(jīng)過殘差層得到全局視覺語言融合特征,計(jì)算過程如下:
79、,
80、其中,表示視覺注入模塊的操作;
81、將進(jìn)行歸一化操作后輸入至模塊,再經(jīng)過殘差層得到精煉的全局視覺語言融合特征,計(jì)算過程如下:
82、,
83、其中,表示模塊的操作;
84、然后將語言解碼器第一層模塊的輸出作為第二層模塊的輸入,將第二層模塊的輸出作為第三層模塊的輸入,多次迭代后直至得到第層模塊的輸出,語言解碼器的最終輸出即為預(yù)測的目標(biāo)語言特征。
85、s5具體如下:
86、將輸入至一個(gè)由全連接層組成的適應(yīng)器,得到預(yù)測語言特征,計(jì)算過程如下:
87、,
88、其中,,表示適應(yīng)器參數(shù),;
89、再將輸入至一個(gè)由全連接層組成的多層感知機(jī),得到預(yù)測圖像類別特征,計(jì)算過程如下:
90、,
91、其中,,表示多層感知機(jī)參數(shù),。
92、s6具體如下:
93、s6.1、總損失函數(shù):
94、,
95、;
96、,
97、;
98、,
99、,
100、,
101、,
102、;
103、;
104、;
105、;
106、其中,表示轉(zhuǎn)置,表示外觀重建損失函數(shù),表示預(yù)測人臉外觀圖像,表示圖像數(shù)量的索引,表示操縱定位損失函數(shù),表示預(yù)測掩膜圖像,表示真實(shí)掩膜圖像的張量,表示跨模態(tài)對比損失函數(shù),表示細(xì)粒度類語言特征,表示第個(gè)圖像視覺特征與第個(gè)圖像文本語言特征的相似性得分,表示第個(gè)圖像文本語言特征與第個(gè)圖像視覺特征的相似性得分,表示視覺到語言的對比損失函數(shù),表示語言到視覺的對比損失函數(shù),表示圖像數(shù)量的索引,表示樣本對one-hot標(biāo)簽,表示余弦相似函數(shù),表示可訓(xùn)練的溫度參數(shù),表示散度損失函數(shù),表示語言重建損失函數(shù),表示詞標(biāo)記個(gè)數(shù)的索引,表示文本的預(yù)測標(biāo)簽向量,表示第個(gè)圖像文本的第個(gè)單詞的預(yù)測標(biāo)簽向量,表示第個(gè)圖像文本的第個(gè)單詞的的真實(shí)one-hot標(biāo)簽,表示第個(gè)圖像的真實(shí)one-hot標(biāo)簽,表示第個(gè)圖像預(yù)測圖像類別特征,表示詞匯表,,表示詞匯個(gè)數(shù),表示操縱檢測損失函數(shù),表示真實(shí)圖像t標(biāo)簽;
107、s6.2、利用adam優(yōu)化器優(yōu)化總損失函數(shù),完成對適應(yīng)器和多層感知機(jī)的訓(xùn)練,得到多域細(xì)粒度視覺語言重建模型。
108、s7具體如下:
109、將圖像輸入多域細(xì)粒度視覺語言重建模型的視覺編碼器分別得到局部圖像特征,再通過視覺解碼器計(jì)算得到殘差圖像,計(jì)算過程如下:
110、,
111、再將與輸入至視覺編碼器得到視覺操縱特征,通過多層感知機(jī)計(jì)算得到最終的預(yù)測圖像真假類別,計(jì)算過程如下:
112、,
113、最后通過計(jì)算得到最終的預(yù)測掩膜圖像,計(jì)算過程如下:
114、,
115、其中,表示視覺編碼器,表示視覺解碼器,表示多層感知機(jī)。
116、
技術(shù)實(shí)現(xiàn)要素:
中提供的效果僅僅是實(shí)施例的效果,而不是發(fā)明所有的全部效果,上述技術(shù)方案具有如下優(yōu)點(diǎn)或有益效果:
117、(1)高效的偽造檢測與定位:本發(fā)明能夠提高對擴(kuò)散模型生成的偽造人臉圖像的檢測精度,尤其是在細(xì)粒度的識別和定位方面,通過多模態(tài)信息的融合,本發(fā)明能有效提高模型的泛化能力,使其不僅能夠處理傳統(tǒng)的gan生成偽造人臉,也能應(yīng)對擴(kuò)散模型生成的圖像;
118、(2)跨模態(tài)檢測能力:通過結(jié)合圖像、文本等模態(tài),本發(fā)明能夠利用多維度的上下文信息來提高檢測和定位的準(zhǔn)確性,這種跨模態(tài)的檢測方法有助于克服僅依賴單一模態(tài)帶來的局限性;
119、(3)改進(jìn)的擴(kuò)散模型分析:與現(xiàn)有方法不同,本發(fā)明能夠針對擴(kuò)散模型生成的偽造圖像特有的生成過程和特征進(jìn)行分析和識別,從而提升對這類圖像的檢測能力。