本發(fā)明涉及人臉超分辨率重建領(lǐng)域,具體是基于變換域和內(nèi)容引導(dǎo)通道注意力融合的人臉超分辨率網(wǎng)絡(luò)。
背景技術(shù):
1、人臉超分辨率重建(fsr)的目的是從低分辨率(lr)的輸入圖像中重建出高分辨率(hr)人臉圖像,其在安全監(jiān)控、社交媒體和娛樂、歷史照片恢復(fù)、法醫(yī)學(xué)等領(lǐng)域發(fā)揮著非常重要的作用,隨著社會的快速發(fā)展,各類下游任務(wù)如人臉識別,對人臉清晰度的要求越來越高,這給人臉超分辨率重建帶來了巨大的挑戰(zhàn)。
2、目前,現(xiàn)有的人臉超分辨率重建大都存在著一定的局限性,例如:
3、基于卷積神經(jīng)網(wǎng)絡(luò)(cnn)的方法在捕捉圖像中的長距離依賴關(guān)系方面存在局限,這是因為卷積操作的局部性導(dǎo)致難以有效恢復(fù)高分辨率圖像中的細(xì)節(jié);
4、其次,多任務(wù)學(xué)習(xí)方法雖然通過聯(lián)合訓(xùn)練額外任務(wù)(如人臉解析和地標(biāo)預(yù)測)來增強人臉超分辨重建性能,但它們需要額外的手動標(biāo)注數(shù)據(jù),而且從低分辨率輸入中預(yù)測人臉先驗信息本身也頗具難度;
5、此外,大多數(shù)現(xiàn)有方法只能生成較低分辨率的圖像,這限制了它們在實際應(yīng)用中的廣泛性。真實世界中的人臉圖像常常受到未知的退化過程的影響,如模糊、噪聲等,這些因素使得人臉超分辨重建任務(wù)變得更加復(fù)雜。盡管深度學(xué)習(xí)模型在理論上能夠提高人臉超分辨重建性能,但它們可能需要大量的計算資源和模型參數(shù),這在資源受限的環(huán)境中可能成為一個問題。
6、而在保持人臉身份信息方面,一些方法在生成高分辨率圖像時無法準(zhǔn)確恢復(fù)人臉的關(guān)鍵特征,這對于后續(xù)的人臉識別等任務(wù)至關(guān)重要。此外,現(xiàn)有方法在處理真實世界低質(zhì)量人臉圖像時的泛化能力和魯棒性仍有待提高,而使用生成對抗網(wǎng)絡(luò)的方法在平衡生成圖像的真實感和細(xì)節(jié)清晰度方面也面臨挑戰(zhàn)。另一方面,現(xiàn)有方法在評估和測試時通常依賴于合成數(shù)據(jù)集,可能無法充分代表真實世界中人臉圖像的多樣性和復(fù)雜性。
7、因此,如何使模型在真實世界的應(yīng)用中表現(xiàn)出良好的性能,尤其是在不同的光照條件、姿態(tài)變化和表情變化下,是一個重要的研究問題。隨著技術(shù)的不斷發(fā)展,設(shè)計出既高效又準(zhǔn)確的人臉超分辨重建方法以滿足日益增長的實時處理需求,也是該領(lǐng)域亟待解決的問題。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的在于解決現(xiàn)有技術(shù)中存在的問題,提供基于變換域和內(nèi)容引導(dǎo)通道注意力融合的人臉超分辨率網(wǎng)絡(luò),可以清晰地重建模糊的人臉,并且不用做人臉對齊。
2、本發(fā)明為實現(xiàn)上述目的,通過以下技術(shù)方案實現(xiàn):
3、基于變換域和內(nèi)容引導(dǎo)通道注意力融合的人臉超分辨率網(wǎng)絡(luò),包括步驟:
4、s1、收集人臉圖像數(shù)據(jù)集,并將數(shù)據(jù)集劃分為訓(xùn)練集、驗證集和測試集;
5、s2、根據(jù)中心點裁剪圖像,并將圖像大小調(diào)整為統(tǒng)一像素,用作高分辨率圖像,然后使用雙三次插值操作將這些高分辨率圖像下采樣到統(tǒng)一像素,并將其視為低分辨率輸入;
6、s3、構(gòu)建一個基于變換域和內(nèi)容引導(dǎo)通道注意力融合的人臉超分辨率網(wǎng)絡(luò)架構(gòu),其采用了一個三階段的u形結(jié)構(gòu),包括編碼、過渡和解碼;其中,在編碼階段,網(wǎng)絡(luò)專注于捕捉多尺度的局部和全局特征;在解碼階段,重點轉(zhuǎn)移到了特征的整合和圖像的重建上;
7、s4、利用訓(xùn)練集,依據(jù)基于變換域和內(nèi)容引導(dǎo)通道注意力融合的人臉超分辨率網(wǎng)絡(luò)架構(gòu),通過訓(xùn)練得到基于變換域和內(nèi)容引導(dǎo)通道注意力融合的人臉超分辨率模型并通過反向傳播算法調(diào)整模型參數(shù),同時利用驗證集驗證訓(xùn)練效果并保存最好的模型;
8、s5、對保存的最好模型,使用測試集進(jìn)行測試,得到該測試圖像的人臉超分辨率重建結(jié)果。
9、優(yōu)選的,步驟s2中,根據(jù)中心點裁剪圖像,并將圖像大小調(diào)整為128×128像素,用作高分辨率圖像;然后使用雙三次插值操作將這些高分辨率圖像下采樣到16×16像素,并將其視為低分辨率輸入。
10、優(yōu)選的,步驟s3中:在編碼階段,輸入為低分辨率圖像ilr;
11、首先利用一個3×3的卷積核進(jìn)行初步特征提?。?/p>
12、隨后,這些特征將經(jīng)歷三個連續(xù)的特征提取階段,在每個特征提取階段中均部署了一個局部-全局特征協(xié)同模塊,局部-全局特征協(xié)同模塊由面部結(jié)構(gòu)感知單元和自注意力模塊構(gòu)成;
13、緊接著,特征通過一個下采樣過程,下采樣過程由一個3×3卷積層、激活函數(shù)和另一個3×3卷積層組成,其中第一個卷積層具有2的步長。
14、優(yōu)選的,步驟s3中:在過渡階段采用了一個特征精煉模塊。
15、優(yōu)選的,步驟s3中:在解碼階段,解碼器接收低分辨率圖像的深層特征,并通過內(nèi)容引導(dǎo)的通道注意力融合模塊逐步整合這些特征,以構(gòu)建超分辨率圖像;
16、解碼器由上采樣模塊、內(nèi)容引導(dǎo)的通道注意力融合模塊和一個局部-全局特征協(xié)同模塊組成;上采樣模塊包含一個步長為2的6×6轉(zhuǎn)置卷積層,后接激活函數(shù)和一個3×3卷積層,轉(zhuǎn)置卷積層用于擴(kuò)展特征圖尺寸并提取信息;內(nèi)容引導(dǎo)的通道注意力融合模塊在此過程中融合編碼階段提取的特征,確保編碼與解碼階段的局部和全局特征得到充分利用,以生成高質(zhì)量的面部圖像;解碼階段結(jié)束時,使用一個3×3卷積層將整合后的特征映射為最終的超分辨率輸出iout;
17、最終,通過結(jié)合低分辨率圖像ilr和超分辨率輸出iout得到增強的面部圖像。
18、優(yōu)選的,步驟s4中:在訓(xùn)練過程中,給定一個數(shù)據(jù)集通過最小化像素級的損失函數(shù)來調(diào)整基于變換域和內(nèi)容引導(dǎo)通道注意力融合的人臉超分辨率網(wǎng)絡(luò)的模型參數(shù):
19、
20、其中,n表示訓(xùn)練圖像的數(shù)量;是第i張圖像的低分辨率圖像;是第i張圖像的低分辨率圖像對應(yīng)的真實高分辨率圖像;ftcctnet(·)表示基于變換域和內(nèi)容引導(dǎo)通道注意力融合的人臉超分辨率網(wǎng)絡(luò);θ表示基于變換域和內(nèi)容引導(dǎo)通道注意力融合的人臉超分辨率網(wǎng)絡(luò)參數(shù)。
21、優(yōu)選的,在內(nèi)容引導(dǎo)的通道注意力融合模塊中,首先通過全局平均池化和全局最大池化操作,以及1x1和7x7的卷積層來計算通道注意力和空間注意力;然后通過加法操作將通道注意力和空間注意力獲取的特征fc和fs融合,得到粗略的空間重要性圖,記為fcos=fc+fs;接著,利用輸入特征的內(nèi)容來指導(dǎo)生成最終的通道特定的空間重要性圖,這通過將fcos的每個通道與輸入特征x的通道通過通道洗牌操作交替排列,然后通過組卷積和激活函數(shù)來完成。
22、優(yōu)選的,將編碼與編碼過程中的同一級特征進(jìn)行加權(quán)求和,具體公式如下:
23、x=fen+fde,
24、
25、fcos=fc+fs,
26、f=σ(gc7×7(cs([x,fcoa]))),
27、其中,max(0,x)表示激活函數(shù);ck×k(·)表示k×k核大小的卷積;[·]表示通道級連接操作;fc,gap,以及分別表示通過空間維度上的全局平均池化操作處理的特征,通過通道維度上的全局平均池化操作處理的特征,以及通過通道維度上的全局最大池化操作處理的特征;σ表示激活函數(shù);cs(·)表示通道洗牌操作,gck×k(·)表示具有k×k核大小的分組卷積層,在實現(xiàn)中,組數(shù)被設(shè)置為c;之后通過添加跳躍連接,將輸入特征直接添加到融合過程中;接著再用一個1x1卷積將通道與后續(xù)網(wǎng)絡(luò)進(jìn)行匹配。
28、優(yōu)選的,將編碼解碼階段獲取的兩個特征圖以及經(jīng)過加權(quán)求和獲取的特征圖進(jìn)行拼接操作,添加通道注意力模塊,通道注意力模塊由自適應(yīng)平均池化、兩個1x1卷積、兩種激活函數(shù)以及殘差連接組成,內(nèi)容引導(dǎo)的通道注意力融合模塊整體數(shù)學(xué)表達(dá)式如下:
29、fout=ca(c1×1(concat(fen,fde,c1×1(fp)))),
30、fp=fen+fde+fen×f+fde×(1-f),
31、其中,ca表示通道注意力,f為上文中提到的空間重要性圖。
32、優(yōu)選的,步驟s3中:基于變換域和內(nèi)容引導(dǎo)通道注意力融合的人臉超分辨率網(wǎng)絡(luò)架構(gòu)包括變換域和反射卷積特征增強模塊,變換域和反射卷積特征增強模塊包括頻域分支和重參數(shù)化聚焦卷積,頻域分支先將輸入特征用二維實數(shù)快速傅里葉變換轉(zhuǎn)換到頻域,在頻率域中,特征圖與一組可學(xué)習(xí)的復(fù)數(shù)濾波器進(jìn)行乘法操作,隨后,特征圖經(jīng)過逆快速傅里葉變換回到空間域;給定一個預(yù)訓(xùn)練的模型,重參數(shù)化聚焦卷積應(yīng)用一種可訓(xùn)練的重聚焦變換到從預(yù)訓(xùn)練模型繼承的基礎(chǔ)卷積核上,以建立參數(shù)之間的聯(lián)系,在深度卷積的情況下,重參數(shù)化聚焦卷積將凍結(jié)的預(yù)訓(xùn)練卷積核作為基礎(chǔ)權(quán)重,并應(yīng)用重聚焦變換生成新的深度卷積核。
33、對比現(xiàn)有技術(shù),本發(fā)明的有益效果在于:
34、1、本發(fā)明提出了一種基于變換域和內(nèi)容引導(dǎo)通道注意力融合的人臉超分辨率網(wǎng)絡(luò)用于人臉超分辨率重建,可以清晰地重建模糊的人臉,并且不用做人臉對齊。
35、2、本發(fā)明提出了一個新穎的變換域和反射卷積特征增強模塊,由頻域變換支路和重參數(shù)化聚焦卷積組成,在頻域中對特征進(jìn)行變換和增強,以捕捉更全面的面部結(jié)構(gòu)信息,同時細(xì)化和增強局部細(xì)節(jié)。
36、3、本發(fā)明提出了一種新的內(nèi)容引導(dǎo)的通道注意力融合模塊,用于有效地聚合編碼器與解碼器豐富的特征,以更好地重建高質(zhì)量的圖像。
37、4、本發(fā)明提出了一個新穎的卷積-自注意力聚合網(wǎng)絡(luò)架構(gòu)用于面部超分辨率,它在各種指標(biāo)方面都獲得了最先進(jìn)的性能。