本發(fā)明屬于計(jì)算機(jī)視覺、深度學(xué)習(xí)等,具體涉及一種基于混合注意力編碼器的圖像去霧方法。
背景技術(shù):
1、在霧霾環(huán)境中拍攝的圖像,很容易存在色彩和信息上的失真。在圖像修復(fù)問題中,如何揭開圖像中的霧,得到其背后隱藏的信息是一項(xiàng)重要的工作。通過去霧工作,提升圖像的清晰度和可視性,對應(yīng)對霧霾問題具有積極的實(shí)用意義。
2、傳統(tǒng)的基于先驗(yàn)的去霧方法以及基于深度學(xué)習(xí)的去霧方法是圖像去霧領(lǐng)域的兩大基本方法?;谙闰?yàn)的去霧方法通過估計(jì)物理散射模型中的參數(shù)來進(jìn)行去霧,其中比較著名的有暗通道去霧算法,在圖像去霧上取得了不錯(cuò)的效果。而基于深度學(xué)習(xí)的方法有的通過應(yīng)用神經(jīng)網(wǎng)絡(luò)估計(jì)物理參數(shù)來進(jìn)行去霧,有的不再估計(jì)物理參數(shù),直接學(xué)習(xí)從霧圖到清晰圖像的映射關(guān)系進(jìn)行去霧。
3、基于深度學(xué)習(xí)的去霧方法已經(jīng)逐步在圖像去霧領(lǐng)域占據(jù)前沿地位。其中,transformer在圖像去霧中的表現(xiàn)非常優(yōu)異。例如,dehamer通過傳輸感知3d位置嵌入模塊將與霧霾密度相關(guān)的先驗(yàn)引入transformer進(jìn)行去霧。transra提出一種融合transformer和殘差注意力的雙分支神經(jīng)網(wǎng)絡(luò)用于單幅遙感圖像去霧。然而,盡管transformer在處理全局信息方面表現(xiàn)出色,但它們?nèi)匀淮嬖谝恍┕逃械膯栴},其中最顯著的是缺乏局部擬合能力。直接將其應(yīng)用于圖像去霧任務(wù)時(shí)仍然面臨挑戰(zhàn)。在圖像去霧中,局部擬合能力在處理某些區(qū)域的非均勻霧霾方面起著至關(guān)重要的作用。
技術(shù)實(shí)現(xiàn)思路
1、考慮transforme能夠通過級聯(lián)自注意提供長距離特征依賴,實(shí)現(xiàn)圖像去霧任務(wù),但是,由于其缺乏局部擬合能力,基于transformer的去霧方法在圖像局部細(xì)節(jié)表達(dá)能力不足。
2、本發(fā)明針對以上問題,提出基于transformer和通道注意力機(jī)制的混合注意力編碼器,以增強(qiáng)網(wǎng)絡(luò)對于局部信息的表達(dá)能力。同時(shí),引入離散碼本先驗(yàn)進(jìn)一步增強(qiáng)去霧結(jié)果的紋理細(xì)節(jié),提出二元調(diào)制機(jī)制bmm來引導(dǎo)先驗(yàn)的匹配過程。
3、其中,提出一種基于標(biāo)準(zhǔn)swin?transformer結(jié)構(gòu)的混合注意力編碼器(hae),結(jié)合了自注意力和通道注意力機(jī)制,前者能夠處理全局信息,后者則具備局部擬合能力。引入的重疊塊式空間注意力機(jī)制,以增強(qiáng)相鄰窗口特征之間的交互。
4、得益于以上改進(jìn),本發(fā)明提供的去霧框架能夠進(jìn)一步提升transformer結(jié)構(gòu)在去霧任務(wù)中的表現(xiàn),并在復(fù)雜的現(xiàn)實(shí)霧霾場景中表現(xiàn)出高度的魯棒性。
5、本發(fā)明解決其技術(shù)問題具體采用的技術(shù)方案是:
6、一種基于混合注意力編碼器的圖像去霧方法:采用混合注意力編碼器對輸入的霧圖進(jìn)行特征提?。蝗缓髮μ崛〉撵F圖特征與離散碼本先驗(yàn)進(jìn)行匹配;之后,對匹配后的特征進(jìn)行解碼;最后,對解碼器特征進(jìn)行特征嵌入,逐步解碼獲得無霧結(jié)果。
7、進(jìn)一步地,所述混合注意力編碼器基于transformer和通道注意力機(jī)制,在swin-transformer的基礎(chǔ)結(jié)構(gòu)上引入channel?attention,采用由通道注意力模塊和窗口多頭自注意力模塊組成的并聯(lián)注意力模塊pab,以替換窗口多頭自注意力模塊。
8、進(jìn)一步地,獲取圖像后,使用所述混合注意力編碼器進(jìn)行多尺度的特征提取以得到最終的編碼器特征:對于給定的圖像輸入h、w、ch分別表示輸入的長、寬、通道數(shù);首先利用一個(gè)卷積層和若干殘差層進(jìn)行淺層特征提取,得到cs表示中間特征的通道數(shù);然后,經(jīng)過由四個(gè)殘差混合注意力組模塊rhag組成的深層特征提取模塊,得到編碼器特征其中,每個(gè)殘差混合注意力組模塊rhag都包含六個(gè)混合注意力基本模塊hab、一個(gè)重疊交叉注意力機(jī)制,一個(gè)卷積層。
9、進(jìn)一步地,所述混合注意力基本模塊hab的結(jié)構(gòu)具體為;
10、在第一個(gè)layernorm層之后的swin?transformer模塊中,應(yīng)用channel?attention模塊和w-msa模塊組成的并聯(lián)注意力模塊pab,如下式所示:
11、fln=ln(fin)
12、fpa=(s)w-msa(fln)+γca(conv(gelu(conv(fln))))
13、其中,fin、fln分別表示輸入特征,以及l(fā)ayernorm層輸出的中間特征;fpa表示并聯(lián)注意力模塊pab的輸出特征,γ為常數(shù),用于調(diào)制channel?attention模塊的輸出特征,以避免與w-msa模塊的輸出產(chǎn)生沖突;
14、所述混合注意力基本模塊的計(jì)算過程為:
15、f=fpa+fin
16、f=mlp(ln(f))+f。
17、進(jìn)一步地,在每個(gè)所述殘差混合注意力組模塊中引入一個(gè)重疊交叉注意力機(jī)制。
18、進(jìn)一步地,得到編碼器特征之后,采用二元匹配機(jī)制使特征與離散碼本先驗(yàn)進(jìn)行匹配,通過調(diào)整具有二次特性的調(diào)制曲線的參數(shù),賦予匹配機(jī)制在不同去霧場景下更大的可變性。
19、進(jìn)一步地,所述匹配機(jī)制基于vqgan中的最近鄰匹配擴(kuò)展獲得;對于最近鄰匹配機(jī)制,其計(jì)算公式如下:
20、
21、其中,是潛在特征中的一個(gè)像素,是與碼本zk上最近的code匹配之后得到的離散化表示;
22、將一定數(shù)量的高質(zhì)量的干凈圖像作為預(yù)訓(xùn)練vqgan的輸入,計(jì)算每個(gè)code的激活頻率fc;然后將相同數(shù)量的真實(shí)的霧圖作為輸入,計(jì)算每個(gè)code的激活頻率fh。
23、進(jìn)一步地,所述二元匹配機(jī)制為采用二次函數(shù)曲線進(jìn)行調(diào)制的匹配機(jī)制,通過調(diào)整讓該曲線在的取值范圍內(nèi)的弧線變換,具體如下:
24、
25、進(jìn)一步地,在特征提取和二元匹配之后,獲得編碼器特征fh以及對應(yīng)的與codebook匹配后的特征f'h;之后,將fh、f'h分別輸入解碼器d和vqgan的解碼器dc中,分別得到對應(yīng)的解碼器特征f1和f2;采用帶有可變形卷積的特征嵌入模塊fem將解碼器特征f2嵌入f1,以恢復(fù)無霧的清晰結(jié)果。
26、由于本發(fā)明方法及模型一般以計(jì)算機(jī)程序的形式通過計(jì)算機(jī)系統(tǒng)進(jìn)行實(shí)現(xiàn),因此,本發(fā)明還提供一種基于混合注意力編碼器的圖像去霧系統(tǒng):包括存儲器、處理器及存儲在存儲器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如上所述的方法。
27、相比于現(xiàn)有技術(shù),本發(fā)明及其優(yōu)選方案主要體現(xiàn)在以下兩個(gè)方面:
28、考慮transformer缺乏局部擬合能力,直接將其應(yīng)用于圖像去霧任務(wù)仍然會導(dǎo)致圖像重建中的細(xì)節(jié)粗糙。
29、本發(fā)明引入混合注意力編碼器hae,將基于通道注意力的卷積塊集成到swin-transformer架構(gòu)中,通過通道注意力計(jì)算增強(qiáng)每個(gè)位置的局部特征,同時(shí)利用transformer的全局信息處理優(yōu)勢來增強(qiáng)網(wǎng)絡(luò)的表示能力。
30、考慮現(xiàn)有的離散碼本匹配采用最近鄰匹配方法,與離散碼本先驗(yàn)的匹配仍然存在著提升的空間。
31、本發(fā)明在原有最近鄰匹配方法的基礎(chǔ)上,通過調(diào)整具有二次特性的調(diào)制曲線的參數(shù),賦予匹配機(jī)制在不同去霧場景下更大的可變性,使其能夠更好地適應(yīng)碼本先驗(yàn)。
32、其中:
33、1.混合注意力編碼器中采用一系列殘差層進(jìn)行淺層特征提取,采用混合注意力模塊進(jìn)行深度特征提取。在swin-transformer的基礎(chǔ)結(jié)構(gòu)之上引入由通道注意力模塊和窗口多頭自注意力模塊組成的并行注意力塊,替換了原來的窗口多頭自注意力模塊。通過引入并行通道注意力模塊,網(wǎng)絡(luò)可以通過通道方向的注意力計(jì)算來增強(qiáng)每個(gè)位置的局部特征。這改善了圖像中細(xì)節(jié)特征的保留,如紋理、邊緣和顏色。因此,模型在應(yīng)對不同場景變化(如光照和顏色變化)時(shí)表現(xiàn)出更強(qiáng)的魯棒性。這意味著模型可以更有效地處理各種不確定性,減少在不同場景下的性能波動(dòng)。在去霧任務(wù)中,這轉(zhuǎn)化為在不同類型的霧霾條件下保持一致的去霧性能,減少效果大幅下降的情況。
34、2.采用二元匹配機(jī)制通過調(diào)整具有二次特性的調(diào)制曲線的參數(shù),賦予匹配機(jī)制在不同去霧場景下更大的可變性,使其能夠更好地適應(yīng)碼本先驗(yàn),實(shí)現(xiàn)編碼器特征與離散碼本先驗(yàn)的靈活匹配。