本發(fā)明涉及多聚焦圖像融合,特別是涉及基于多層語義和多尺度自注意力的多聚焦圖像融合方法。
背景技術(shù):
1、傳統(tǒng)的多聚焦圖像融合方法可大致分為兩類:基于變化域的融合方法和基于空域的融合方法。雖然基于變化域的方法具有較強(qiáng)的適應(yīng)性,但容易清晰與模糊區(qū)域之間的界限處理不當(dāng),進(jìn)而在融合圖像中產(chǎn)生邊緣偽影或邊緣模糊現(xiàn)象,導(dǎo)致融合后的圖像質(zhì)量不佳。雖然基于空域的方法計算效率較高,對于實時處理場景更為適用。但直接在像素級別進(jìn)行操作可能會忽略像素之間的空間關(guān)系,導(dǎo)致融合圖像中出現(xiàn)塊狀效應(yīng)或邊緣不連續(xù)等問題。
2、隨著深度學(xué)習(xí)模型的發(fā)展,圖像融合領(lǐng)域下的解決方法逐漸由統(tǒng)計法向深度學(xué)習(xí)轉(zhuǎn)換。雖然基于深度學(xué)習(xí)的方法能自動提取圖像中的語義信息,但目前仍存在訓(xùn)練數(shù)據(jù)需求量大,模型復(fù)雜度高,計算資源需求大等問題。為解決上述問題,本發(fā)明提出了基于多層語義和多尺度自注意力的多聚焦圖像融合方法。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的是提供基于多層語義和多尺度自注意力的多聚焦圖像融合方法,有效地避免了圖像失真并達(dá)到了較好的視覺效果。
2、為實現(xiàn)上述目的,本發(fā)明提供了如下方案:
3、基于多層語義和多尺度自注意力的多聚焦圖像融合方法,包括:
4、獲取源圖像;
5、將所述源圖像輸入msi-dtrans模型,利用haar小波變換對所述源圖像進(jìn)行特征提取,獲取不同尺度的特征信息,將所述不同尺度的特征信息輸入動態(tài)transformer進(jìn)行處理,獲取初始焦點圖;其中,所述msi-dtrans模型的網(wǎng)絡(luò)架構(gòu)采用u型網(wǎng)絡(luò)的多級上下采樣結(jié)構(gòu),通過訓(xùn)練集訓(xùn)練獲得,所述訓(xùn)練集包括基于不同程度的模糊圖像與訓(xùn)練標(biāo)簽生成的多幅圖像對;
6、將所述初始焦點圖與所述源圖像進(jìn)行融合,獲取最終融合圖像。
7、可選的,利用haar小波變換對所述源圖像進(jìn)行特征提取包括:
8、s1、通過多尺度語義提取模塊對所述源圖像進(jìn)行初步特征提取,獲取中間低頻特征圖和中間高頻特征圖;
9、s2、將所述中間低頻特征圖和所述中間高頻特征圖輸入語義拆分模塊,利用所述haar小波變換對所述中間低頻特征圖和所述中間高頻特征圖進(jìn)行高低頻拆分,獲取低頻子帶和高頻子帶;
10、s3、利用粗糙語義增強(qiáng)模塊對所述低頻子帶進(jìn)行多層語義交互,獲取低頻特征;
11、s4、利用精細(xì)語義提取模塊對所述高頻子帶進(jìn)行多層語義交互,獲取高頻特征,其中所述精細(xì)語義提取模塊引入了殘差連接和mish激活函數(shù);
12、s5、將所述低頻特征和所述高頻特征作為所述中間低頻特征圖和所述中間高頻特征,返回步驟s2,重復(fù)至預(yù)設(shè)次數(shù),輸出不同尺度的特征信息。
13、可選的,利用粗糙語義增強(qiáng)rse模塊對所述低頻子帶進(jìn)行多層語義交互,獲取低頻特征包括:對所述低頻子帶的差異特性進(jìn)行計算,將差異特征根據(jù)通道數(shù)進(jìn)行拼接,并進(jìn)行信息提取,將提取的信息與所述低頻子帶進(jìn)行殘差連接,輸出低頻特征圖。
14、可選的,輸出所述低頻特征圖的計算方法為:
15、
16、其中,p和p’分別代表通過經(jīng)過卷積核大小為3和1的卷積后得到的特征表示,h代表并行路徑1或2,j代表粗糙語義增強(qiáng)模塊在整體結(jié)構(gòu)中的相對位置,μ代表relu激活函數(shù),*代表卷積操作,b代表輸出特征圖的偏置值,d代表經(jīng)過差異計算后得到的特征表示,f代表低頻特征圖,tn×n代表經(jīng)過卷積核大小為n的卷積操作,x為輸入特征圖。
17、可選的,將所述不同尺度的特征信息輸入動態(tài)transformer進(jìn)行優(yōu)化,獲取初始焦點圖包括:
18、利用深度可分離卷積代替transformer模型中的全連接層,對所述不同尺度的特征信息進(jìn)行整合,其中每個所述深度可分離卷積設(shè)置有不同的膨脹率和卷積步長;
19、將整合后的所述不同尺度的特征信息輸入多頭注意力模塊,進(jìn)行多尺度聯(lián)合注意力計算,獲取所述初始焦點圖。
20、可選的,所述多尺度聯(lián)合注意力計算為:
21、
22、multi_scale_joint_attention
23、=concat(att1,att2,...,attn)w0
24、i∈(1,2,3,...,n)
25、其中,convdia和conv1×1代表深度可分離卷積和逐點卷積,dia代表膨脹卷積dilated?convolution,fi,pi,si,di分別代表對應(yīng)的卷積核大小,邊緣填充大小,卷積步長和擴(kuò)張卷積率,atti表示第i個特征尺度的注意力特征,w為生成不同query、value和key序列所使用到的可學(xué)習(xí)權(quán)重矩陣,w0為在多尺度注意力計算時所使用到的可學(xué)習(xí)權(quán)重矩陣,qi,vi,ki分別是第i個尺度生成的query、value和key序列,x是輸入特征圖,q,v,k分別是經(jīng)過concat操作整合后生成的query、value和key序列,qm,vm,km分別是輸入第m個多頭注意力機(jī)制進(jìn)行計算的query、value和key序列,n是具有n個尺度的深度可分離卷積個數(shù)。
26、可選的,獲取最終融合圖像包括:
27、獲取初始焦點圖,對所述初始焦點圖進(jìn)行二值化,獲取初始決策圖,對所述初始決策圖進(jìn)行小區(qū)域濾波,獲取最終決策圖;
28、根據(jù)像素加權(quán)平均策略,將最終決策圖與所述源圖像進(jìn)行融合,獲取所述最終融合圖像。
29、可選的,所述方法還包括:利用損失函數(shù)通過反向傳播同時進(jìn)行模型訓(xùn)練;
30、所述損失函數(shù)為:
31、losssum=λlossl1+μlossssim+σlossdice
32、其中,losssum為網(wǎng)絡(luò)的聯(lián)合訓(xùn)練損失函數(shù),lossl1、lossssim和lossdice分別代表l1損失函數(shù)、ssim損失函數(shù)和dice損失函數(shù),λ,μ,σ為平衡三項損失函數(shù)比例的超參數(shù)。
33、本發(fā)明的有益效果為:
34、本發(fā)明一方面充分利用源圖像帶有的所有有效信息,將haar小波融入網(wǎng)絡(luò)特征提取中提出采用多層語義交互策略,增強(qiáng)高頻和低頻信息的交互,逐步挖掘更抽象的語義信息,引導(dǎo)特征圖由粗向細(xì)的生成。另一方面,采用動態(tài)感受野和動態(tài)token嵌入,克服了處理多尺度對象時的性能下降問題,使自注意力能夠整合不同尺度對象間的長程依賴,并降低計算開銷。大量實驗結(jié)果表明,所提出方法有效地避免了圖像失真并達(dá)到了較好的視覺效果,與許多最先進(jìn)方法相比,它在定性、定量分析以及效率比較上具有不錯的競爭力。
1.基于多層語義和多尺度自注意力的多聚焦圖像融合方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的基于多層語義和多尺度自注意力的多聚焦圖像融合方法,其特征在于,利用haar小波變換對所述源圖像進(jìn)行特征提取包括:
3.根據(jù)權(quán)利要求2所述的基于多層語義和多尺度自注意力的多聚焦圖像融合方法,其特征在于,利用粗糙語義增強(qiáng)rse模塊對所述低頻子帶進(jìn)行多層語義交互,獲取低頻特征包括:對所述低頻子帶的差異特性進(jìn)行計算,將差異特征根據(jù)通道數(shù)進(jìn)行拼接,并進(jìn)行信息提取,將提取的信息與所述低頻子帶進(jìn)行殘差連接,輸出低頻特征圖。
4.根據(jù)權(quán)利要求2所述的基于多層語義和多尺度自注意力的多聚焦圖像融合方法,其特征在于,輸出所述低頻特征圖的計算方法為:
5.根據(jù)權(quán)利要求1所述的基于多層語義和多尺度自注意力的多聚焦圖像融合方法,其特征在于,將所述不同尺度的特征信息輸入動態(tài)transformer進(jìn)行優(yōu)化,獲取初始焦點圖包括:
6.根據(jù)權(quán)利要求5所述的基于多層語義和多尺度自注意力的多聚焦圖像融合方法,其特征在于,所述多尺度聯(lián)合注意力計算為:
7.根據(jù)權(quán)利要求1所述的基于多層語義和多尺度自注意力的多聚焦圖像融合方法,其特征在于,獲取最終融合圖像包括:
8.根據(jù)權(quán)利要求1所述的基于多層語義和多尺度自注意力的多聚焦圖像融合方法,其特征在于,所述方法還包括:利用損失函數(shù)通過反向傳播同時進(jìn)行模型訓(xùn)練;