本發(fā)明屬于圖像處理,具體涉及到對圖像進(jìn)行目標(biāo)檢測。
背景技術(shù):
1、目標(biāo)檢測主要包括目標(biāo)分類和位置回歸兩部分,在目標(biāo)跟蹤、行人重識別、視頻理解技術(shù)領(lǐng)域,目標(biāo)檢測是影響性能的核心。由于各類物體有不同的外觀、形狀和姿態(tài),加上成像時光照、遮擋等因素的干擾,目標(biāo)檢測在計算機(jī)視覺技術(shù)領(lǐng)域仍然是有待解決的技術(shù)問題之一。究其問題核心,主要包括確定圖像中某區(qū)域的類別、目標(biāo)準(zhǔn)確定位、解決目標(biāo)尺寸多樣性目標(biāo)存在的形狀差異問題。
2、在卷積神經(jīng)網(wǎng)絡(luò)中,卷積運算通常采用提取局部特征,在捕獲全局特征表示方面有一定局限性。transformer通過級聯(lián)注意力模塊可以反映復(fù)雜的空間變換和長距離特征依賴性,從而獲得更全面的全局特征表示。在目標(biāo)檢測過程中,需要模型有效地區(qū)分前景和背景,需考慮前景間的語義聯(lián)系,全局特征可增大模型視野,有效地改善目標(biāo)檢測性能。
技術(shù)實現(xiàn)思路
1、本發(fā)明所要解決的技術(shù)問題在于克服上述現(xiàn)有技術(shù)缺點,提供一種目標(biāo)檢測精度高、魯棒性強(qiáng)的基于圖注意力加權(quán)增強(qiáng)的conditional?detr圖像檢測方法。
2、解決上述技術(shù)問題所應(yīng)用的技術(shù)方案是由下述步驟組成:
3、(1)數(shù)據(jù)集預(yù)處理
4、取coco?2017圖像數(shù)據(jù)集按9:1劃分為訓(xùn)練集和測試集,訓(xùn)練集和測試集均有80種目標(biāo)類別。對圖像進(jìn)行紅綠藍(lán)三通道歸一化處理,并隨機(jī)裁剪和放縮變換,約束圖像最長邊不大于1333像素,最短邊不小于800像素。
5、(2)構(gòu)建conditional?detr網(wǎng)絡(luò)
6、conditional?detr網(wǎng)絡(luò)由骨干網(wǎng)絡(luò)、編碼器、解碼器、預(yù)測網(wǎng)絡(luò)依次串聯(lián)構(gòu)成。
7、所述的骨干網(wǎng)絡(luò)為resnet50。
8、所述的編碼器由自注意力機(jī)制模塊1、自注意力機(jī)制模塊2、自注意力機(jī)制模塊3、自注意力機(jī)制模塊4、圖注意力機(jī)制模塊構(gòu)成;自注意力機(jī)制模塊1與自注意力機(jī)制模塊2、自注意力機(jī)制模塊3、自注意力機(jī)制模塊4依次串聯(lián),自注意力機(jī)制模塊1、自注意力機(jī)制模塊2、自注意力機(jī)制模塊3、自注意力機(jī)制模塊4的另一輸出端與圖注意力機(jī)制模塊相連。
9、所述的解碼器由解碼器層1、解碼器層2、解碼器層3、解碼器層4、解碼器層5、解碼器層6依次串聯(lián)構(gòu)成。
10、所述的解碼器層1由自注意力機(jī)制模塊5、參考點生成模塊1、語義變換模塊1、位置變換模塊1、交叉注意力機(jī)制模塊1、全連接層3構(gòu)成;自注意力機(jī)制模塊1、參考點生成模塊1、語義變換模塊1、位置變換模塊1的輸出端通過交叉注意力機(jī)制模塊1與全連接層3相連。
11、所述的解碼器層2由自注意力機(jī)制模塊6、參考點生成模塊2、語義變換模塊2、位置變換模塊2、交叉注意力機(jī)制模塊2、全連接層4構(gòu)成;自注意力機(jī)制模塊2、參考點生成模塊2、語義變換模塊2、位置變換模塊2的輸出端通過交叉注意力機(jī)制模塊2與全連接層4相連,交叉注意力機(jī)制模塊2的輸入端與交叉注意力機(jī)制模塊1的輸出端相連。
12、所述的解碼器層3和解碼器層5的結(jié)構(gòu)與解碼器層1的結(jié)構(gòu)相同,解碼器層4和解碼器層6的結(jié)構(gòu)與解碼器層2的結(jié)構(gòu)相同。
13、(3)訓(xùn)練conditional?detr網(wǎng)絡(luò)
14、1)確定目標(biāo)損失函數(shù)
15、按式(1)確定目標(biāo)損失函數(shù)loss:
16、目標(biāo)損失函數(shù)loss包含分類損失函數(shù)lcls和回歸損失函數(shù)lbox;
17、loss=lcls+lbox?(1)
18、按式(2)確定分類損失函數(shù)lcls:
19、
20、其中,n為目標(biāo)數(shù),m為類別數(shù),n和m為有限正整數(shù);yic為類別c目標(biāo)i的標(biāo)簽;pic為觀測樣本i屬于類別c的預(yù)測概率,pic∈(0,1)。
21、按式(3)確定回歸損失函數(shù)lbox:
22、
23、其中,bi表示目標(biāo)i的真實標(biāo)注框坐標(biāo),為四維向量,分別表示左上角橫坐標(biāo)、左上角縱坐標(biāo)、右下角橫坐標(biāo)、右下角縱坐標(biāo),為目標(biāo)i的預(yù)測標(biāo)注框坐標(biāo),形式與bi同;||·||表示l1范數(shù),giou(·)表示兩框的泛化交并比值的函數(shù)運算。
24、2)確定評價指標(biāo)map
25、具體步驟如下:
26、①設(shè)置交并比閾值t,t取值為0.5~0.75,將類別c的預(yù)測框按預(yù)測置信度降序排列,取前k個預(yù)測框,比較預(yù)測類別與真實類別的一致性、預(yù)測框與真實框的交并比,統(tǒng)計精度pc和召回率rc。
27、按式(4)確定精度pc:
28、
29、按式(5)確定召回率rc:
30、
31、其中,tpc是真陽性,fpc是假陽性,fnc是假陰性,tpc、fpc、fnc均為有限正整數(shù),且pc、rc、tpc、fpc、fnc不同時為0;
32、②采用精度pc和召回率rc繪制prc曲線,按式(6)確定作為類別c的平均精度apc;
33、
34、其中,i表示屬于類別c的正類樣本索引,k表示正類樣本數(shù)量,ri表示按預(yù)測概率從小到大排序后,正類樣本i的位次,l表示負(fù)類樣本數(shù)量,k和l為有限正整數(shù),k、l之和與k相等。
35、③按式(7)確定所有類別apc的均值map:
36、
37、3)訓(xùn)練conditional?detr網(wǎng)絡(luò)
38、將訓(xùn)練集輸入到conditional?detr網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,訓(xùn)練參數(shù):每批次圖像數(shù)為2,訓(xùn)練輪次為50,學(xué)習(xí)率為γ,γ取值為10-5或10-4,采用adamw優(yōu)化器,迭代至目標(biāo)損失函數(shù)收斂。
39、(4)保存模型
40、在訓(xùn)練conditional?detr網(wǎng)絡(luò)過程中,用深度學(xué)習(xí)框架不斷更新權(quán)重,保存權(quán)重文件。
41、(5)測試conditional?detr網(wǎng)絡(luò)
42、將測試集輸入到訓(xùn)練好的conditional?detr網(wǎng)絡(luò)中進(jìn)行測試,加載保存的權(quán)重文件,得到conditional?detr圖像目標(biāo)檢測結(jié)果。
43、在本發(fā)明的步驟(2)構(gòu)建conditional?detr網(wǎng)絡(luò)中,本發(fā)明的自注意力機(jī)制模塊1由自注意力計算層1與歸一化層1、全連接層1、relu激活函數(shù)層1、dropout層1、全連接層2、dropout層2、歸一化層2依次串聯(lián)構(gòu)成。
44、本發(fā)明的自注意力機(jī)制模塊2、自注意力機(jī)制模塊3、自注意力機(jī)制模塊4、自注意力機(jī)制模塊5、自注意力機(jī)制模塊6的結(jié)構(gòu)與自注意力機(jī)制模塊1的結(jié)構(gòu)相同。
45、在本發(fā)明的步驟(2)構(gòu)建conditional?detr網(wǎng)絡(luò)中,所述的解碼器的參考點生成模塊1由全連接層5與全連接層6串聯(lián)構(gòu)成;所述的參考點生成模塊2、參考點生成模塊3、參考點生成模塊4、參考點生成模塊5、參考點生成模塊6的結(jié)構(gòu)與參考點生成模塊1的結(jié)構(gòu)相同。
46、在本發(fā)明的步驟(2)構(gòu)建conditional?detr網(wǎng)絡(luò)中,所述的解碼器中交叉注意力機(jī)制模塊1由查詢向量語義變換模塊1與查詢向量位置變換模塊1、查詢向量位置嵌入變換模塊1、關(guān)鍵向量語義變化模塊1、關(guān)鍵向量位置變換模塊1,值向量變換模塊1、交叉注意力計算層1構(gòu)成;其中,查詢向量語義變換模塊1、查詢向量位置變換模塊1、查詢向量位置嵌入變換模塊1、關(guān)鍵向量語義變化模塊1、關(guān)鍵向量位置變換模塊1,值向量變換模塊1的輸出端與交叉注意力計算層1相連。
47、查詢向量語義變換模塊1、查詢向量位置變換模塊1、查詢向量位置嵌入映射模塊1、關(guān)鍵向量語義1、關(guān)鍵向量位置變換模塊1,值向量變換模塊1的結(jié)構(gòu)均為單層全連接層。
48、解碼器中交叉注意力機(jī)制模塊2、交叉注意力機(jī)制模塊3、交叉注意力機(jī)制模塊4、交叉注意力機(jī)制模塊5、交叉注意力機(jī)制模塊6的結(jié)構(gòu)與交叉注意力機(jī)制模塊1的結(jié)構(gòu)相同。
49、在本發(fā)明的步驟(3)訓(xùn)練conditional?detr網(wǎng)絡(luò)的1)確定目標(biāo)損失函數(shù)的式(6)中,i表示屬于類別c的正類樣本索引,k表示正類樣本數(shù)量,ri表示按預(yù)測概率從小到大排序后,正類樣本i的位次,l表示負(fù)類樣本數(shù)量,k和l取值為25~27。
50、本發(fā)明以conditional?detr為基線模型,將解碼器中交叉注意力計算解耦,分別提出編碼器輸出特征自適應(yīng)增強(qiáng)方法和解碼器動態(tài)學(xué)習(xí)方法。指導(dǎo)編碼器各層分治提取區(qū)域特征,使不同層關(guān)注不同區(qū)域特征提取,豐富值向量語義;有效地規(guī)避了解碼器第一層粗粒度學(xué)習(xí)對其余層注意力權(quán)重計算的干擾,提高了其余層注意力計算穩(wěn)定性,同時提升預(yù)測框參考點靈活性。本發(fā)明提出的方法編碼器和解碼器組合后,提升了conditional?detr網(wǎng)絡(luò)小目標(biāo)識別性能,使預(yù)測框更精細(xì)。本發(fā)明與現(xiàn)有技術(shù)相比,具有目標(biāo)檢測精度高、魯棒性強(qiáng)等優(yōu)點。