本發(fā)明涉及一種基于邊緣先驗(yàn)引導(dǎo)像素級掩碼輔助偽裝目標(biāo)檢測的方法,屬于計(jì)算機(jī)視覺。
背景技術(shù):
1、偽裝目標(biāo)是指采用各種手段和技術(shù),使目標(biāo)在其周圍環(huán)境中難以被察覺或辨別的對象。這種偽裝可以涉及多個(gè)方面,包括顏色、形狀、紋理等,以使目標(biāo)融入其所在的環(huán)境,難以被肉眼或傳感器系統(tǒng)檢測到。偽裝目標(biāo)的設(shè)計(jì)和實(shí)現(xiàn)可能是為了實(shí)現(xiàn)隱蔽、欺騙、安全等目的。具體來說:在軍事領(lǐng)域,偽裝目標(biāo)可以是軍事裝備、車輛、飛行器等,通過采用特殊的涂裝、材料或結(jié)構(gòu)設(shè)計(jì),使其在戰(zhàn)場環(huán)境中更難被敵方偵察或監(jiān)測,從而提高生存和執(zhí)行任務(wù)的機(jī)會;在生物學(xué)領(lǐng)域,一些動(dòng)物也采用偽裝來逃避捕食者或更有效地捕食獵物,如有的動(dòng)物利用身體顏色和紋理能夠與周圍的環(huán)境相似的特點(diǎn),使其在植被中難以察覺,避免被天敵發(fā)現(xiàn)。
2、偽裝目標(biāo)檢測與分割是計(jì)算機(jī)視覺、圖像處理領(lǐng)域的重要研究課題,這是一種新興的視覺檢測任務(wù)。近年來,基于深度學(xué)習(xí)的偽裝目標(biāo)檢測是近年來在計(jì)算機(jī)視覺領(lǐng)域取得顯著進(jìn)展的研究方向。深度學(xué)習(xí)方法通過使用深度神經(jīng)網(wǎng)絡(luò),特別是卷積神經(jīng)網(wǎng)絡(luò)(cnn),能夠從大規(guī)模數(shù)據(jù)中學(xué)習(xí)復(fù)雜的特征表示,從而更好地解決偽裝目標(biāo)檢測面臨的挑戰(zhàn)。基于深度學(xué)習(xí)方法的目標(biāo)檢測的任務(wù)是在圖像或視頻中定位并標(biāo)識出圖像中存在的物體,通常用邊界框來描述目標(biāo)的位置。基于深度學(xué)習(xí)方法的語義分割的任務(wù)是將圖像中的每個(gè)像素分配給預(yù)定義的語義類別,從而實(shí)現(xiàn)對圖像的像素級別理解。憑借深度學(xué)習(xí)強(qiáng)大的學(xué)習(xí)能力,基于深度學(xué)習(xí)對偽裝目標(biāo)檢測與分割的研究,在計(jì)算機(jī)視覺領(lǐng)域也受到越來越多的關(guān)注。
3、但目前針對偽裝目標(biāo)檢測的相關(guān)技術(shù)仍在快速發(fā)展階段,相關(guān)技術(shù)并未成熟。為了解決偽裝目標(biāo)與周圍環(huán)境具有相似的顏色、紋理或形狀,導(dǎo)致傳統(tǒng)的基于手工設(shè)計(jì)特征的目標(biāo)檢測方法、傳統(tǒng)的目標(biāo)檢測方法不能有效檢測出偽裝目標(biāo)的問題,很多研究者都針對此問題從仿生學(xué)、大模型等方法中提供了許多解決思路。但在基于目標(biāo)檢測與分割多任務(wù)協(xié)同進(jìn)行偽裝目標(biāo)檢測的領(lǐng)域中還缺少實(shí)踐,本發(fā)明主要針對多任務(wù)在偽裝目標(biāo)檢測中如何進(jìn)行優(yōu)勢互補(bǔ),利用分割信息輔助目標(biāo)檢測主任務(wù)以挖掘更充分的偽裝目標(biāo)信息來開展工作。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明要解決的技術(shù)問題是提供一種基于邊緣先驗(yàn)引導(dǎo)像素級掩碼輔助偽裝目標(biāo)檢測的方法,在目標(biāo)與背景具有高度視覺相似性或目標(biāo)被遮擋情況下,傳統(tǒng)目標(biāo)檢測網(wǎng)絡(luò)存在對偽裝或遮擋目標(biāo)特征提取不確定、不充分的問題。
2、本發(fā)明的技術(shù)方案是:一種基于邊緣先驗(yàn)引導(dǎo)像素級掩碼輔助偽裝目標(biāo)檢測的方法,具體步驟為:
3、step1:將resnet骨干網(wǎng)絡(luò)提取到的5層不同尺度特征圖中的第2層和第5層特征圖進(jìn)行融合,利用邊緣提取模塊提取具有全局語義信息的目標(biāo)邊緣特征;
4、step2:將提取到的目標(biāo)邊緣特征作為特征提取模塊的輸入,引導(dǎo)提取第2層到第5層不同大小和尺度特征圖中的目標(biāo)關(guān)鍵特征;
5、step3:通過三個(gè)上下文信息聚合模塊從目標(biāo)關(guān)鍵特征中的高層級到低層級依次融合得到三種不同大小和尺度的目標(biāo)特征,同時(shí)得到三種不同大小和尺度的像素級掩碼;
6、step4:用與第2層特征圖大小和尺度相同的像素級掩碼增強(qiáng)該層級的目標(biāo)特征,輸出目標(biāo)的類別和檢測框的坐標(biāo),同時(shí)優(yōu)化模型訓(xùn)練,實(shí)現(xiàn)偽裝目標(biāo)檢測。
7、所述step1具體為:
8、利用resnet骨干網(wǎng)絡(luò)提取得到5層不同尺度的特征圖fi(i=1,2,3,4,5),將第5層特征圖f5經(jīng)過1×1卷積和上采樣操作得到和f2特征圖大小尺度相同的特征圖并與f2進(jìn)行拼接融合,將拼接融合后的特征圖再依次經(jīng)過3×3卷積、1×1卷積和sigmoid函數(shù)得到具有全局語義信息的目標(biāo)邊緣特征fe。
9、所述step2具體為:
10、step2.1:將提取到的目標(biāo)邊緣特征fe經(jīng)過下采樣和sigmoid函數(shù)后與f5特征圖逐元素相乘再相加,利用3×3卷積操作提取目標(biāo)初級特征;
11、step2.2:通過本地通道注意機(jī)制來跨通道交互和挖掘目標(biāo)初級特征中通道之間的目標(biāo)關(guān)鍵特征f5a;
12、step2.3:將目標(biāo)關(guān)鍵特征圖f5a上采樣后與第4層特征圖逐元素相乘再相加,依次經(jīng)過3×3卷積操作和本地通道注意機(jī)制得到f4a,重復(fù)此過程分別得到第i層特征圖對應(yīng)的目標(biāo)關(guān)鍵特征fia(i=2,3,4,5)。
13、所述step2.2具體為:
14、step2.2.1:將目標(biāo)初級特征依次經(jīng)過全局平均池化、一維卷積和sigmoid函數(shù)得到本地注意力權(quán)重;
15、step2.2.2:本地注意力權(quán)重與目標(biāo)初級特征逐元素相乘后經(jīng)過3×3卷積操作得到目標(biāo)關(guān)鍵特征fia(i=2,3,4,5)。
16、所述step3中上下文信息聚合模塊具體為:
17、s1:拼接融合兩個(gè)輸入的特征圖,經(jīng)過1×1卷積得到特征圖w,并將其按通道分成四部分特征圖nj(j=1,2,3,4)。
18、s2:將n1與n2逐元素相加后經(jīng)過擴(kuò)張率為1的擴(kuò)張卷積得到特征圖n1d;
19、s3:將n2、n1d與n3逐元素相加后經(jīng)過擴(kuò)張率為2的擴(kuò)張卷積得到特征圖n2d;
20、s4:將n3、n2d與n4逐元素相加后經(jīng)過擴(kuò)張率為3的擴(kuò)張卷積得到特征圖n3d;
21、s5:將n4與n3d逐元素相加后經(jīng)過擴(kuò)張率為4的擴(kuò)張卷積得到特征圖n4d;
22、s6:將n1d、n2d、n3d、n4d依次經(jīng)過拼接融合和1×1卷積后與特征圖w逐元素相加并通過3×3卷積得到特征圖fic(i=2,3,4)。
23、所述step3具體為:
24、step3.1:將f5a與f4a經(jīng)過上下文信息聚合模塊得到f4c特征圖,將f4c與f3a經(jīng)過上下文信息聚合模塊得到f3c特征圖,將f3c與f2a經(jīng)過上下文信息聚合模塊得到f2c特征圖;
25、step3.2:將fic(i=2,3,4)特征圖經(jīng)過sigmoid函數(shù)得到三種不同大小和尺度的像素級掩碼。
26、所述step4中用與第2層特征圖大小和尺度相同的像素級掩碼增強(qiáng)該層級的目標(biāo)特征具體為:
27、將f2c特征圖對應(yīng)的像素級掩碼與f2a特征圖逐元素相乘相加后經(jīng)過由3×3卷積、池化層、全連接層構(gòu)成的檢測頭輸出目標(biāo)的類別和檢測框的坐標(biāo)。
28、所述step4中優(yōu)化模型訓(xùn)練具體為:
29、將step1中的目標(biāo)邊緣特征經(jīng)過sigmoid函數(shù)后與邊緣標(biāo)簽計(jì)算損失le,將step3中的三種不同大小和尺度的像素級掩碼與掩碼標(biāo)簽計(jì)算損失lm,將step4中的目標(biāo)的類別和檢測框坐標(biāo)與目標(biāo)位置標(biāo)簽計(jì)算損失ldet,總損失l為:
30、l=λle+lm+ldet
31、其中,le,lm,ldet分別代表邊緣、掩碼和目標(biāo)檢測損失,λ為權(quán)值參數(shù),具體地,使用二值交叉熵?fù)p失和smoothl1損失作為目標(biāo)檢測的分類損失和邊界框回歸損失,使用加權(quán)二值交叉熵?fù)p失和交并比損失作為三種不同大小和尺度的像素級掩碼的語義分割損失,使用dice系數(shù)損失計(jì)算邊緣損失,三種損失函數(shù)具體為:
32、ldet=lbce(pc,gc)+lsmoothl1(pb,gb)
33、
34、le=ldice(fe,ge)
35、其中,pc和gc分別代表預(yù)測類別和真實(shí)類別,pb和gb分別代表預(yù)測邊界框和目標(biāo)真實(shí)邊界框,代表三種不同大小和尺度的像素級掩碼的語義分割結(jié)果,gc代表目標(biāo)真實(shí)語義分割標(biāo)簽,fe和ge分別代表目標(biāo)預(yù)測邊緣分割結(jié)果和目標(biāo)真實(shí)邊緣分割標(biāo)簽,另外,lbce,lsmoothl1,liou和ldice分別表示二值交叉熵?fù)p失、smoothl1損失、交并比損失、dice系數(shù)損失。
36、傳統(tǒng)的目標(biāo)檢測網(wǎng)絡(luò)在提取偽裝目標(biāo)時(shí)難以將其從背景中有效分離出來,導(dǎo)致模型學(xué)習(xí)不到偽裝目標(biāo)的有效視覺特征,從而導(dǎo)致模型的檢測率低,會出現(xiàn)漏檢、誤檢等情況。本發(fā)明從目標(biāo)特征出發(fā),利用目標(biāo)邊緣信息引導(dǎo)提取目標(biāo)的有效信息,強(qiáng)化模型對目標(biāo)邊緣的感知能力,并利用具有全局語義信息的分割掩碼注意力得到用于目標(biāo)檢測的有效特征。
37、本發(fā)明的有益效果是:本發(fā)明與現(xiàn)有技術(shù)相比,主要解決了傳統(tǒng)目標(biāo)檢測方法在目標(biāo)與背景具有高度視覺相似性或目標(biāo)被遮擋情況下,對目標(biāo)特征提取不確定、不充分的問題,能夠?yàn)檐娛骂I(lǐng)域?qū)窝b士兵識別、生物學(xué)領(lǐng)域?qū)σ吧鷦?dòng)植物識別提供較高的檢測結(jié)果,為城市安防、生態(tài)保護(hù)提供一種高效檢測方法。