本發(fā)明涉及偽裝目標檢測,尤其涉及一種多模態(tài)引導特征增強的偽裝目標檢測方法。
背景技術:
1、偽裝目標檢測(camouflaged?object?detection,cod)是與顯著目標檢測(salient?object?detection,sod)對立的一種隱性目標檢測,其目的是檢測出與周圍環(huán)境高度融合的偽裝形態(tài)物體。
2、偽裝現(xiàn)象普遍存在于各領域;例如,生物醫(yī)療領域的病變細胞定位檢測,工藝制造領域的透明物體缺陷檢測,生態(tài)農(nóng)業(yè)領域的擬態(tài)害蟲入侵檢測,藝術設計領域的圖畫拼接效果檢測,軍事工業(yè)領域的偽裝設施檢測,以及隱性物體顯著性轉換等。
3、目前偽裝檢測方法有yolo目標檢測,信息搜索識別網(wǎng)絡、邊緣特征提取算法、注意力機制融合等;例如:公開號為cn202311356780.9、cn202211548176.1;均采用yolo進行偽裝目標檢測和識別;但是yolo模型需要將輸入圖像劃分為多個網(wǎng)格,需要對每一個網(wǎng)格預測多個邊界框,面對偽裝目標具有復雜紋理特征時,yolo模型一定程度上會破壞偽裝目標紋理邊緣的完整性,并且在訓練模型時候也需要花費較長的時間。
4、又如公開號cn202311348228.5、cn202310316598.4;采用邊緣引導特征增強和邊緣信息引導方法,但該方法多數(shù)情況下只針偽裝目標的邊緣做相應的處理,很大程度上會忽視偽裝目標的其他信息。
5、綜合來看,上述現(xiàn)有檢測技術面對更多分類和隱蔽性更高的物體很難做到面面俱到;因此,亟需一種更高效率和更高精度的檢測方法解決偽裝目標的檢測與定位問題。
技術實現(xiàn)思路
1、針對現(xiàn)有方法的不足,本發(fā)明解決現(xiàn)有yolo模型破壞偽裝目標紋理邊緣的完整性,導致識別精度降低及耗時長的問題。
2、本發(fā)明所采用的技術方案是:一種多模態(tài)引導特征增強的偽裝目標檢測方法包括以下步驟:
3、步驟一、采集偽裝目標圖像,制作訓練集和測試集,并對偽裝目標圖像進行預處理;
4、作為本發(fā)明的一種優(yōu)選實施方式,利用iff模塊對偽裝目標圖像進行預處理。
5、步驟二、將預處理后的特征圖像輸入res2net50主干網(wǎng)絡,輸出5個階段特征信息,對5個階段的特征信息進行交叉融合,得到交叉融合后的特征;
6、作為本發(fā)明的一種優(yōu)選實施方式,步驟二具體包括:
7、步驟21、將x1階段和x2階段的特征信息進行2倍下采樣得到特征
8、步驟22、x2階段的特征信息進行2倍下采樣并與x3階段的特征信息拼接得到特征
9、步驟23、將x3階段、x4階段的特征信息進行2倍上采樣以及x5階段的特征信息進行4倍上采樣拼接后得到特征
10、步驟24、將x4階段的特征信息進行2倍上采樣、x5階段的特征信息進行4倍上采樣拼接后得到特征
11、步驟25、將x5階段的特征信息進行4倍上采樣后得到特征
12、步驟三、將交叉融合后的特征連接到5個rfb-s模塊中,得到5個新的特征;
13、作為本發(fā)明的一種優(yōu)選實施方式,步驟三具體包括:
14、將特征輸入第一rfb-s模塊得到特征r1f1;將特征輸入第二rfb-s模塊得到特征r2f2;將特征輸入第三rfb-s模塊得到特征r3f3;將特征輸入第四rfb-s模塊得到特征r4f4;將特征輸入第五rfb-s模塊得到特征r5f5。
15、步驟四、融合偽裝目標的文本信息、形態(tài)特征和紅外圖譜的多模態(tài)特征,利用文本嵌入和圖像嵌入對多模態(tài)特征進行處理,并對嵌入后的多模態(tài)特征進行模式轉換;
16、作為本發(fā)明的一種優(yōu)選實施方式,步驟四具體包括:
17、步驟41、將文本信息、形態(tài)特征圖像、紅外圖譜圖像轉為序列;
18、步驟42、將文本信息序列生成特征向量ti;
19、步驟43、將形態(tài)特征和紅外圖譜序列分別生成特征向量ai和bi,并生成特征矩陣ipr=aitbi;
20、步驟44、提取矩陣ipr的對角線元素生成矩陣ine;
21、步驟45、提取ine對角線元素生成特征向量ii;
22、步驟46、特征向量ii與特征向量ti的轉置tit相乘生成特征矩陣i,i對角線元素組成特征向量tiii。
23、步驟五、利用ncd模塊對第三至五rfb-s模塊的輸出特征進行融合,得到初始偽裝圖;將初始偽裝圖與第二rfb-s模塊輸出特征進行拼接操作,拼接后的特征圖再與第一rfb-s模塊輸出特征信息進行融合,融合后的特征圖與多模態(tài)特征信息拼接,通過激活函數(shù)操作輸出預測圖像,完成預測模型構建。
24、作為本發(fā)明的一種優(yōu)選實施方式,步驟五具體包括:
25、步驟51、特征信息r3f3、r4f4、r5f5通過ncd獲得初始偽裝圖pq;
26、步驟52、特征信息r2f2與初始偽裝圖pq拼接后進行8倍上采樣獲得特征圖pr;
27、步驟53、特征信息r1f1進行8倍上采樣與特征圖pr拼接后獲得特征圖pt;
28、步驟54、利用模式轉換器將特征gt、gs、gis融合得到特征信息gc;
29、步驟55、對特征信息gc進行8倍上采樣與特征圖pt拼接后,再通過激活sigmoid函數(shù)獲得預測圖像po。
30、作為本發(fā)明的一種優(yōu)選實施方式,使用加權交叉熵損失函數(shù)對預測模型進行訓練。
31、作為本發(fā)明的一種優(yōu)選實施方式,加權交叉熵損失函數(shù)的公式為:
32、
33、其中,標簽的真實分布用yi表示,預測分布用pi表示,w表示權重,n表示步長。
34、作為本發(fā)明的一種優(yōu)選實施方式,還包括:對預測圖像進行目標定位和矯正。
35、作為本發(fā)明的一種優(yōu)選實施方式,目標定位和矯正包括:
36、首先,獲得預測圖像po的完整邊緣輪廓f_edge;
37、其次,將邊緣輪廓f_edge的坐標融合到預測圖像po中,生成新的圖像pn;
38、再其次,根據(jù)f_edge的像素坐標的最高點、最低點、最左點和最右點設置最小外接矩形;對最小外接矩形進行中心化處理生成圖像pon;
39、再其次,將圖像pon分割生成n個單元pk,對pk按閾值比例拉伸和收縮,生成新的單元pj;
40、最后,將所有單元pj按分割后的順序重新拼接,得到矯正圖像pco。
41、本發(fā)明的有益效果:
42、1、本發(fā)明使用推理感知過濾模塊有效解決輸入圖像中參雜的光斑污染和噪聲污染,有益于提高偽裝目標檢測的準確度;
43、2、本發(fā)明將淺層特征信息、中間特征信息、深層特征信息逐層拼接可以有效增強偽裝目標的語義形態(tài)和邊緣細節(jié);
44、3、本發(fā)明利用多模態(tài)特征增強的方式可以進一步增強偽裝目標特征;
45、4、本發(fā)明利用目標定位可以清晰定位偽裝目標在圖像中的具體位置;并使用目標矯正,使預測圖像中不明顯或者比較抽象的偽裝目標轉換成相對明顯又不失去細節(jié)信息的偽裝目標。