本發(fā)明屬于計(jì)算機(jī)視覺(jué)領(lǐng)域,具體涉及一種基于跨階段特征交互網(wǎng)絡(luò)的偽裝目標(biāo)檢測(cè)方法。
背景技術(shù):
1、偽裝目標(biāo)檢測(cè)旨在識(shí)別隱藏在環(huán)境中的目標(biāo),廣泛應(yīng)用于軍事目標(biāo)檢測(cè)、工業(yè)缺陷檢測(cè)、醫(yī)學(xué)息肉檢測(cè)和農(nóng)業(yè)蝗蟲(chóng)檢測(cè)等領(lǐng)域。過(guò)去十幾年間,深度學(xué)習(xí)技術(shù)的迅猛發(fā)展使基于深度學(xué)習(xí)的偽裝目標(biāo)檢測(cè)逐漸成為主流。這些方法通常通過(guò)三個(gè)步驟實(shí)現(xiàn):骨干特征提取、特征轉(zhuǎn)換和特征解碼。偽裝目標(biāo)與其周圍環(huán)境高度相似,這使得檢測(cè)難度大大增加。因此,大多數(shù)深度學(xué)習(xí)方法傾向于采用大規(guī)模的骨干網(wǎng)絡(luò)和復(fù)雜的解碼器,以提高檢測(cè)的準(zhǔn)確率。然而,這些方法往往忽略了特征轉(zhuǎn)換對(duì)模型性能的影響。在偽裝目標(biāo)檢測(cè)中,特征轉(zhuǎn)換是承上啟下的關(guān)鍵步驟,它決定了從骨干特征中提取的信息有多少能用于特征解碼。由于目前大多數(shù)方法通常只通過(guò)簡(jiǎn)單的卷積層獨(dú)立地處理每個(gè)階段的骨干特征,而未考慮各階段骨干特征之間的相關(guān)性,這在一定程度上限制了模型的特征表達(dá)能力。此外,由于采用了大規(guī)模的骨干網(wǎng)絡(luò)和復(fù)雜的解碼器,這些方法引入了大量的參數(shù)和高計(jì)算負(fù)擔(dān),從而限制了它們?cè)趯?shí)際應(yīng)用中的部署。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明充分考慮了現(xiàn)有技術(shù)存在的缺點(diǎn),其目的在于提供一種基于跨階段特征交互網(wǎng)絡(luò)的偽裝目標(biāo)檢測(cè)方法,能以較少的參數(shù)和較低的計(jì)算復(fù)雜度獲得較高的目標(biāo)檢測(cè)準(zhǔn)確率。
2、一、技術(shù)原理
3、目前,大多數(shù)偽裝目標(biāo)檢測(cè)方法通過(guò)采用簡(jiǎn)單的1×1或者3×3卷積層來(lái)實(shí)現(xiàn)骨干特征的通道維度調(diào)整。然而,由于這些方法僅單獨(dú)處理每個(gè)階段的特征,導(dǎo)致其不能很好地檢測(cè)不同尺度的目標(biāo)。為了更好地在提升網(wǎng)絡(luò)特征表達(dá)能力的同時(shí),進(jìn)行特征通道維度的調(diào)整,本發(fā)明開(kāi)發(fā)了一個(gè)跨階段感知頸部模塊。該模塊通過(guò)利用相鄰階段提供的豐富空間或者語(yǔ)義信息作為指導(dǎo),來(lái)有效完善每個(gè)骨干特征的信息。作為跨階段感知頸部模塊的核心,雙向特征交互模塊被插入在每?jī)蓚€(gè)相鄰階段之間去實(shí)現(xiàn)雙向信息交互。在雙向特征交互模塊中,本發(fā)明設(shè)計(jì)了一個(gè)多尺度跨注意力調(diào)制模塊去充分探索兩個(gè)輸入特征之間的多尺度長(zhǎng)距離依賴關(guān)系,從而準(zhǔn)確地學(xué)習(xí)仿射變換的縮放和偏移參數(shù),實(shí)現(xiàn)有效的特征融合。
4、二、根據(jù)上述原理,本發(fā)明通過(guò)以下方案實(shí)現(xiàn):
5、一種基于跨階段特征交互網(wǎng)絡(luò)的偽裝目標(biāo)檢測(cè)方法,包括以下步驟:
6、(1)獲取偽裝目標(biāo)檢測(cè)訓(xùn)練數(shù)據(jù)集:從公共數(shù)據(jù)庫(kù)中獲取偽裝目標(biāo)圖像和對(duì)應(yīng)的檢測(cè)標(biāo)簽。
7、(2)構(gòu)建偽裝目標(biāo)檢測(cè)模型:該模型由骨干模塊、跨階段特征感知頸部模塊、預(yù)測(cè)頭模塊構(gòu)成;輸入圖像ximg經(jīng)過(guò)骨干模塊后,得到中間特征圖和將和輸入到跨階段特征感知頸部模塊后,得到中間特征圖和將和輸入到預(yù)測(cè)頭模塊后,得到最終檢測(cè)結(jié)果xmap,完成偽裝目標(biāo)檢測(cè)模型的構(gòu)建。
8、(3)構(gòu)建損失函數(shù):
9、構(gòu)建以下聯(lián)合損失函數(shù):
10、
11、其中表示加權(quán)二元交叉熵?fù)p失函數(shù);表示加權(quán)交并比損失函數(shù);xmap為步驟(2)得到的最終檢測(cè)結(jié)果;xgt表示xmap所對(duì)應(yīng)的標(biāo)簽圖像。
12、(4)訓(xùn)練檢測(cè)模型:利用步驟(1)得到的偽裝目標(biāo)檢測(cè)訓(xùn)練數(shù)據(jù)集訓(xùn)練步驟(2)構(gòu)建完成的偽裝目標(biāo)檢測(cè)模型,根據(jù)步驟(3)構(gòu)建的損失函數(shù)得到損失值,并使用adam優(yōu)化器更新模型參數(shù),直到損失不再下降,得到訓(xùn)練好的模型。
13、(5)偽裝目標(biāo)檢測(cè):用步驟(4)中訓(xùn)練好的偽裝目標(biāo)檢測(cè)模型對(duì)測(cè)試集中的圖像進(jìn)行偽裝目標(biāo)檢測(cè),得到最終檢測(cè)結(jié)果。
14、步驟(2)中的骨干模塊采用的是smt,即scale-aware?modulation?transformer。
15、步驟(2)中的跨階段特征感知頸部模塊,由卷積層1、卷積層2、卷積層3、卷積層4、卷積層5、卷積層6、卷積層7、卷積層8、特征切分層1、特征切分層2、特征切分層3、特征切分層4、雙向特征交互模塊bfim1、雙向特征交互模塊bfim2、雙向特征交互模塊bfim3、拼接層1、拼接層2、拼接層3和拼接層4構(gòu)成。
16、將中間特征圖輸入到卷積層1進(jìn)行維度調(diào)整后,得到的結(jié)果輸入到特征切分層1進(jìn)行切分,得到兩個(gè)子特征圖和將中間特征圖輸入卷積層2進(jìn)行維度調(diào)整后,得到的結(jié)果輸入到特征切分層2進(jìn)行切分,得到兩個(gè)子特征圖和將中間特征圖輸入到卷積層3進(jìn)行維度調(diào)整后,得到的結(jié)果輸入到特征切分層3進(jìn)行切分,得到兩個(gè)子特征圖和將中間特征圖輸入到卷積層4進(jìn)行維度調(diào)整后,得到的結(jié)果輸入到特征切分層4進(jìn)行切分,得到兩個(gè)子特征圖和
17、不經(jīng)任何變換得到中間特征圖即與相等;將和輸入到雙向特征交互模塊bfim1,得到兩個(gè)中間特征圖和將和輸入到雙向特征交互模塊bfim2,得到兩個(gè)中間特征圖和將和輸入到雙向特征交互模塊bfim3,得到兩個(gè)中間特征圖和不經(jīng)任何變換得到中間特征圖即與相等。
18、將得到的中間特征圖和輸入到拼接層1進(jìn)行拼接后,輸入到卷積層5,得到中間特征圖將得到的中間特征圖和
19、輸入到拼接層2進(jìn)行拼接后,輸入到卷積層6,得到中間特征圖將得到的中間特征圖和
20、輸入到拼接層3進(jìn)行拼接后,輸入到卷積層7,得到中間特征圖將得到的中間特征圖和輸入到拼接層4進(jìn)行拼接后,輸入到卷積層8,得到中間特征圖
21、所述雙向特征交互模塊bfimi,i=1,2,3,具有相同的結(jié)構(gòu),都由卷積層9、卷積層10、卷積層11、卷積層12、多尺度跨注意力調(diào)制模塊mcmb1、多尺度跨注意力調(diào)制模塊mcmb2、門控深度卷積前饋模塊gdfn1、門控深度卷積前饋模塊gdfn2、逐像素相加操作、下采樣操作和上采樣操作構(gòu)成。
22、將中間特征圖輸入到卷積層9,得到中間特征圖將中間特征圖輸入到卷積層10,得到中間特征圖經(jīng)下采樣操作后,得到中間特征圖經(jīng)上采樣操作后,得到中間特征圖和共同輸入到多尺度跨注意力調(diào)制模塊mcmb1,得到中間特征圖輸入到門控深度卷積前饋模塊gdfn1,得到中間特征圖輸入到卷積層11后,得到的結(jié)果與進(jìn)行逐像素相加操作,得到中間特征圖和共同輸入到多尺度跨注意力調(diào)制模塊mcmb2,得到中間特征圖輸入到門控深度卷積前饋模塊gdfn2,得到中間特征圖輸入到卷積層12后,得到結(jié)果與進(jìn)行逐像素相加,得到中間特征圖和即為雙向特征交互模塊bfimi的輸出。
23、所述多尺度跨注意力調(diào)制模塊mcmbn,n=1,2,具有相同的結(jié)構(gòu),都由層歸一化層1、層歸一化層2、卷積層13、卷積層14、卷積層15、卷積層16、卷積層17、卷積層18、多尺度特征生成模塊1、多尺度特征生成模塊2、多尺度特征生成模塊3、拼接層5、拼接層6、拼接層7、softmax層、深度卷積層1、深度卷積層2、逐像素相加操作、矩陣相乘操作、矩陣重塑操作和逐像素相乘操作構(gòu)成。
24、依次經(jīng)過(guò)層歸一化層1、卷積層13、多尺度特征生成模塊1、拼接層5、卷積層16后,通過(guò)矩陣重塑操作得到特征圖q,i=1,2,3;輸入到層歸一化層2,得到特征圖z;z依次經(jīng)過(guò)卷積層14、多尺度特征生成模塊2、拼接層6、卷積層17后,通過(guò)矩陣重塑操作得到特征圖k;z依次經(jīng)過(guò)卷積層15、多尺度特征生成模塊3后,得到三個(gè)特征圖s1、s2、s3,將這三個(gè)特征圖分別進(jìn)行矩陣重塑操作,得到特征圖v1、v2、v3;將k和q進(jìn)行矩陣相乘,得到的結(jié)果經(jīng)softmax層后再分別與v1、v2、v3進(jìn)行矩陣相乘,得到三個(gè)中間特征圖a1、a2、a3;a1、a2、a3分別進(jìn)行矩陣重塑操作后,一起輸入到拼接層7進(jìn)行拼接后,再輸入卷積層18,得到的結(jié)果分別輸入到深度卷積層1和深度卷積層2,得到中間特征圖η1和η2;將η1與進(jìn)行逐像素相乘,得到的結(jié)果與η2和進(jìn)行逐像素相加,得到中間特征圖即為多尺度跨注意力調(diào)制模塊mcmbn的輸出。
25、所述門控深度卷積前饋模塊gdfnn,n=1,2,具有相同的結(jié)構(gòu),都由層歸一化層3、卷積層19、卷積層20、卷積層21、深度卷積層3、深度卷積層4、gelu層、逐像素相乘操作、逐像素相加操作構(gòu)成;輸入到層歸一化層3,得到中間特征圖xp;xp依次經(jīng)過(guò)卷積層19、深度卷積層3,得到中間特征圖xp依次經(jīng)過(guò)卷積層20、深度卷積層4、gelu層,得到中間特征圖與進(jìn)行逐像素相乘,得到的結(jié)果經(jīng)卷積層21后,與逐像素相加,得到中間特征圖即為門控深度卷積前饋模塊gdfnn的輸出。
26、所述多尺度特征生成模塊1、多尺度特征生成模塊2、多尺度特征生成模塊3具有相同的結(jié)構(gòu),都由深度空洞卷積層1、深度空洞卷積層2、深度空洞卷積層3構(gòu)成;多尺度特征生成模塊的輸入特征圖分別輸入到深度空洞卷積層1、深度空洞卷積層2、深度空洞卷積層3后,得到多尺度特征生成模塊的三個(gè)輸出;所述的預(yù)測(cè)頭模塊由卷積層22、上采樣操作和逐像素相加操作構(gòu)成;該模塊以中間特征圖和作為輸入;經(jīng)過(guò)上采樣操作后,得到中間特征圖o2;經(jīng)過(guò)上采樣操作后,得到中間特征圖o3;經(jīng)過(guò)上采樣操作后,得到中間特征圖o4;將o2、o3、o4進(jìn)行逐像素相加,得到的結(jié)果依次經(jīng)過(guò)到卷積層22和上采樣操作,得到最終檢測(cè)結(jié)果xmap。
27、步驟(3)中的損失函數(shù)采用的是sinet-v2算法原有的加權(quán)二元交叉熵?fù)p失函數(shù)。
28、步驟(3)中的損失函數(shù)采用的是sinet-v2算法原有的加權(quán)交并比損失函數(shù)。
29、本發(fā)明具有如下優(yōu)點(diǎn):
30、第一,本發(fā)明構(gòu)建一種高效的跨階段特征交互網(wǎng)絡(luò),該網(wǎng)絡(luò)能以較少參數(shù)和較低的計(jì)算復(fù)雜度,實(shí)現(xiàn)較高的目標(biāo)檢測(cè)準(zhǔn)確率。
31、第二,本發(fā)明構(gòu)建的跨階段特征感知頸部模塊,通過(guò)利用相鄰骨干特征的相關(guān)性,來(lái)對(duì)每個(gè)骨干特征進(jìn)行細(xì)化,改善了模型對(duì)不同尺度目標(biāo)的感知能力,提高模型的檢測(cè)性能。
32、第三,本發(fā)明構(gòu)建的雙向特征交互模塊,通過(guò)采用雙向連接結(jié)構(gòu),使相鄰的兩個(gè)階段特征能互相補(bǔ)充,從而改善了每個(gè)階段特征的表達(dá)能力。
33、第四,本發(fā)明引入了一個(gè)多尺度跨注意力調(diào)制模塊,其主要通過(guò)探索輸入特征和外部指導(dǎo)特征之間的多尺度長(zhǎng)范圍的依賴關(guān)系,從而實(shí)現(xiàn)特征的充分交互。