本發(fā)明屬于顯著物體檢測方法,具體涉及基于生成深度圖與rgb圖融合邊界指導(dǎo)的顯著目標(biāo)檢測方法。
背景技術(shù):
1、顯著目標(biāo)檢測是指在圖像中識別出視覺突出的對象,這些對象通常與周圍環(huán)境有明顯區(qū)別,能夠吸引觀察者的注意力。隨著計算機視覺技術(shù)的發(fā)展,顯著目標(biāo)檢測在多個領(lǐng)域內(nèi)的重要性日益增加,它不僅推動了圖像處理技術(shù)的進(jìn)步,還為許多下游任務(wù)如圖像分割、物體識別和場景理解提供了基礎(chǔ)。此外,顯著目標(biāo)檢測技術(shù)在醫(yī)學(xué)圖像分析、視頻監(jiān)控、內(nèi)容基于圖像檢索等應(yīng)用中也發(fā)揮著關(guān)鍵作用。
2、傳統(tǒng)的顯著目標(biāo)檢測方法主要依賴于從rgb圖像中提取的外觀信息,這限制了它們在低對比度、照明條件差或復(fù)雜遮擋場景中準(zhǔn)確檢測顯著對象的能力。為了克服這些限制,研究人員近年來越來越多地關(guān)注多模態(tài)顯著目標(biāo)檢測方法。深度圖像可以提供獨特的3d幾何信息,作為rgb線索的補充。盡管已有多種先進(jìn)的檢測方法被提出用于深度圖像輔助的顯著目標(biāo)檢測或者熱成像圖像輔助的顯著目標(biāo)檢測,但這些方法依賴于使用物理設(shè)備捕獲的額外的輔助數(shù)據(jù),這無疑增加了成本和使用的復(fù)雜性。就目前現(xiàn)有的技術(shù)而言,當(dāng)只有單個rgb圖像可用,并且使用生成的深度圖時,這些方法都無法充分解決由生成深度圖引入的噪聲干擾。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的是提供基于生成深度圖與rgb圖融合邊界指導(dǎo)的顯著目標(biāo)檢測方法,解決了現(xiàn)有檢測方法在輸入僅有rgb圖像條件下復(fù)雜環(huán)境受到干擾的問題。
2、本發(fā)明所采用的技術(shù)方案是,基于生成深度圖與rgb圖融合邊界指導(dǎo)的顯著目標(biāo)檢測方法,具體按照以下步驟實施:
3、步驟1,構(gòu)建數(shù)據(jù)集和編碼器;
4、步驟2,構(gòu)建基于注意力機制的生成深度圖與rgb融合模塊;
5、步驟3,構(gòu)建基于自監(jiān)督方式的邊界特征指導(dǎo)模塊;
6、步驟4,構(gòu)建基于漸進(jìn)式融合的雙分支特征融合模塊。
7、本發(fā)明的特點還在于,
8、步驟1具體按照以下步驟實施:
9、步驟1.1,搜集包含顯著物體的樣本圖像;
10、步驟1.2,將步驟1.1搜集到的樣本圖像,在labelme中進(jìn)行標(biāo)注,生成真值圖像,其中顯著物體為白色像素,背景為黑色像素;同時將樣本圖像輸入到depth?anything模型生成輔助深度圖像;
11、步驟1.3,按比例將所有樣本圖像,生成深度圖像與真值圖像,劃分為訓(xùn)練集和測試集;
12、步驟1.4,采用雙分支的特征提取的主干,pvtv2提取transformer特征,res2net提取cnn特征,并加載預(yù)先訓(xùn)練權(quán)重,構(gòu)建編碼器;
13、步驟1.5,將數(shù)據(jù)集圖像和生成深度圖像分辨率調(diào)整為224×224,并輸入編碼器中的res2net主干,得到卷積多尺度特征ci和深度卷積多尺度特征dci,i∈{1,2,3},分辨率分別為224/2i+1×224/2i+1,i∈{1,2,3};輸入到編碼器中的pvtv2主干,得到transformer多尺度特征ti和深度transformer多尺度特征dti,i∈{0,1,2,3},分辨率分別為224/2i+2×224/2i+2,i∈{0,1,2,3}。
14、步驟2具體按照以下步驟實施:
15、步驟2.1,對于cnn分支,構(gòu)建3個漸進(jìn)三模態(tài)交互單元模塊,每個模塊的輸入分別為經(jīng)過通道下采樣模塊的卷積多尺度特征ci,深度卷積多尺度特征dci,i∈{1,2,3},以及通過自監(jiān)督方式得到的卷積邊界特征cei,i∈{1,2,3};輸出為邊界增強過的卷積特征eci,i∈{1,2,3},每個cnn分支的特征融合模塊公式如下式所示:
16、eci=stiui[cdm(i(ci),cdm(i(dci),cei]?????????(1)
17、其中,eci,i∈{1,2,3}為3條漸進(jìn)三模態(tài)交互單元模塊的輸出,cdm為通道下采樣模塊;
18、步驟2.1具體按照以下步驟實施:
19、步驟2.1.1,構(gòu)建通道下采樣模塊,包含2個卷積核大小為3×3的卷積,1個通道注意力模塊,一個卷積核大小為3×3,采用批歸一化操作和relu激活函數(shù);
20、步驟2.1.1具體按以下步驟實施:
21、步驟2.1.1.1,構(gòu)建卷積核大小為3×3的卷積,輸出的特征輸入到通道注意力模塊中去,與原來的特征進(jìn)行矩陣點乘;
22、步驟2.1.1.2,將點乘的結(jié)果一個3×3的卷積,一個批歸一化操作,剛relu激活函數(shù),一個3×3的卷積得到通道下采樣后的特征;
23、步驟2.1.2,構(gòu)建cnn分支中漸進(jìn)三模態(tài)交互單元模塊,包含3個通道注意力模塊,1個空間注意力模塊,3個雙分支融合模塊;
24、步驟2.1.2具體按照以下步驟實施:
25、步驟2.1.2.1,構(gòu)建三分支初步融合模塊,將邊界特征輸入到通道注意力模塊后與原始特征進(jìn)行矩陣點乘再相加,加得到的特征進(jìn)行concat操作,結(jié)果一個卷積核大小為3×3的卷積,一個批歸一化操作,一個relu激活函數(shù)后輸入到空間注意力模塊后輸出特征;
26、步驟2.1.2.2,構(gòu)建雙分支融合模塊,包含2來個通道注意力模塊和1個空間注意力模塊,將兩個分支的特征輸入到通道注意力模塊后得到的輸出與原來的特征進(jìn)行交叉矩陣乘法,再將得到的輸出通過concat操作在通道維度上拼接輸入到空間注意力模塊,進(jìn)行交叉融合后經(jīng)過一個卷積核大小為3×3的卷積,一個批歸一化操作,一個relu激活函數(shù)后輸出特征;
27、步驟2.1.2.3,構(gòu)建漸進(jìn)雙分支融合模塊,先將邊界特征與深度特征輸入到雙分支融合模塊得到邊界深度融合特征,再將邊界深度融合特征和rgb特征輸入到雙分支融合模塊得到rgb邊界深度融合特征,最后將rgb邊界深度融合特征與三分支初步融合模塊得到的輸出進(jìn)行concat操作后經(jīng)過一個卷積核大小為3×3的卷積,一個批歸一化操作,一個relu激活函數(shù)后得到cnn分支的邊界增強過的特征;
28、步驟2.2,對于transformer分支構(gòu)建每個自注意力交叉注意力融合模塊,每個模塊的輸入分別為經(jīng)過通道下采樣模塊的transformer多尺度特征ti,深度transformer多尺度特征dti,i∈{0,1,2,3},以及通過自監(jiān)督方式得到的transformer邊界特征tei,i∈{0,1,2,3};輸出為邊界增強過的卷積特征eti,i∈{0,1,2,3},每個transformer分支的特征融合模塊公式如下式所示:
29、eti=scfi[ti,dti,tei]?????????????????(2)
30、其中,scf為自注意力交叉注意力融合模塊;
31、步驟2.2具體按照以下步驟實施:
32、步驟2.2.1,構(gòu)建transformer分支中自注意力交叉注意力融合模塊,包含2個自注意力模塊和2個前向傳播模塊;
33、步驟2.2.1具體按照以下步驟實施:
34、步驟2.2.1.1,構(gòu)建自注意力模塊,將rgb特征與邊界特征進(jìn)行矩陣點乘操作后與rgb特征進(jìn)行矩陣加法操作,將得到的特征輸入到注意力模塊得到自注意力權(quán)重,將權(quán)重與深度特征進(jìn)行矩陣點乘得到邊界增強的深度特征;將深度特征與邊界特征進(jìn)行矩陣點乘操作后與深度特征進(jìn)行矩陣加法操作,將得到的特征輸入到注意力模塊得到自注意力權(quán)重,將權(quán)重與rgb特征進(jìn)行矩陣點乘得到邊界增強的rgb特征;
35、步驟2.2.1.2,構(gòu)建前向傳播融合模塊,將得到的邊界增強的rgb特征和邊界增強的深度特征經(jīng)過前向傳播網(wǎng)絡(luò)分別記為eri和edi,i∈{0,1,2,3};
36、步驟2.2.2,構(gòu)建邊界增強過的特征eti,i∈{0,1,2,3},將得到的eri和edi進(jìn)行concat特征拼接操作,再將拼接后的特征輸入前向傳播網(wǎng)絡(luò),得到transformer分支的邊界增強過的特征。
37、步驟3具體按照以下步驟實施:
38、步驟3.1,構(gòu)建粗粒度預(yù)測特征圖p1i,i∈{0,1,2,3},并且生成粗粒度的邊界特征ge1i,i∈{0,1,2,3}用于細(xì)化輸入的特征,輸入來自上一階段的漸進(jìn)式融合的雙分支特征融合模塊的輸出zi,如下式所示:
39、fi=cbr(cbr(cbr(reshape(zi))))?(3)
40、p1i=c3*3(fi)?(4)
41、ge1i=dialate(s(p1i))-erode(s(p1i))?(5)
42、其中,cbr表示結(jié)果經(jīng)過卷積核大小為3×3的卷積,一個批歸一化操作,一個relu激活函數(shù),reshape操作表示將形狀為(b,n,c)的transformer特征改變?yōu)樾螤顬?b,c,h,w)的cnn特征,s表示sigmoid操作,dialate表示了特征膨脹操作,erode表示了特征腐蝕操作;
43、步驟3.2,構(gòu)建細(xì)粒度預(yù)測特征圖p2i,i∈{0,1,2,3},以及邊界細(xì)化后的特征rfi+1,i∈{0,1,2,3},并構(gòu)建細(xì)粒度的邊界特征gei,i∈{0,1,2,3}用于自監(jiān)督的邊界特征訓(xùn)練;利用步驟3.1得到的粗粒度邊界特征ge1i與fi進(jìn)行特征融合fi′,將fi′輸入到一個transformer結(jié)果得到邊界細(xì)化后的特征rfi+1,rfi+1經(jīng)過一個3×3的卷積得到細(xì)粒度預(yù)測特征圖p2i,將p2i進(jìn)行特征膨脹與特征腐蝕操作并相減,得到細(xì)粒度的邊界特征gei,如下式所示:
44、
45、rfi+1=tf(reshape(fi′))?(7)
46、p2i=c3*3(reshape(rfi+1))?(8)
47、gei=dialate(s(p2i))-erode(s(p2i))?(9)
48、其中,代表矩陣點乘,tf表示經(jīng)過一個transformer模塊,reshape操作表示將形狀為(b,c,h,w)的cnn特征改變?yōu)樾螤顬?b,n,c)的transformer特征,s表示sigmoid操作,dialate表示了特征膨脹操作,erode表示了特征腐蝕操作;
49、步驟3.3,構(gòu)建自監(jiān)督邊緣特征ei,i∈{0,1,2},利用步驟3.2得到的細(xì)粒度邊界特征gei,將cnn分支中的rgb特征ci,i∈{0,1,2}作同樣的卷積膨脹與卷積腐蝕操作的結(jié)果與gei作cosine?embedding損失得到ei,如下式所示:
50、ei=dialate(s(ci))-erode(s(ci))?(10)
51、其中,s表示sigmoid操作,dialate表示了特征膨脹操作,erode表示了特征腐蝕操作。
52、步驟3.2具體按照以下步驟實施:
53、步驟3.2.1,構(gòu)建transformer塊,將形狀為(b,c,h,w)的特征轉(zhuǎn)化為形狀為(b,n,c)的特征;
54、步驟3.2.2,構(gòu)建細(xì)粒度預(yù)測特征圖和細(xì)粒度的邊界特征,包含一個sigmoid操作,一個dialate特征膨脹操作,一個erode特征腐蝕操作,將結(jié)果進(jìn)行矩陣減法運算得到細(xì)粒度的邊界特征;
55、步驟3.3具體按照以下步驟實施;
56、步驟3.3.1,構(gòu)建自監(jiān)督邊緣特征,包含一個sigmoid操作,一個dialate特征膨脹操作,一個erode特征腐蝕操作,將結(jié)果進(jìn)行矩陣減法運算得到自監(jiān)督邊緣特征;
57、步驟3.3.2,構(gòu)建cosine?embedding損失,計算自監(jiān)督邊緣特征與細(xì)粒度邊界特征的損失值。
58、步驟4具體按以下步驟實施:
59、步驟4.1,構(gòu)建交叉融合模塊,將輸入的兩個特征在通道維度上進(jìn)行交替拼接,豐富特征的語義細(xì)節(jié)與細(xì)節(jié)捕捉能力;
60、步驟4.2,構(gòu)建雙分支空間通道融合模塊,將從步驟3.2中得到的邊界細(xì)化后的transformer特征rfi與cnn分支的邊界增強特征eci進(jìn)行初步融合得到融合特征fi′;
61、步驟4.3,構(gòu)建漸進(jìn)融合塊,將fic與transformer分支的邊界增強特征eti進(jìn)行漸進(jìn)式融合,得到最終雙分支融合特征zi。
62、步驟4.1具體按照以下步驟實施:
63、步驟4.1.1,將輸入的兩個特征進(jìn)行view操作,將兩個的張量形狀從(b,c,h,w)改變?yōu)?b,c//2,2,h,w);
64、步驟4.1.2,將改變后的特征張量進(jìn)行stack操作,將兩個的張量合并,形狀從(b,c//2,2,h,w)改變?yōu)?b,c//2,2,2,h,w):
65、步驟4.1.3,將合并后的特征張量進(jìn)行view操作,將特征張量形狀從(b,c//2,2,2,h,w)改變?yōu)?b,2*c,2,h,w),完成兩個特征在通道維度上的交替拼接。
66、步驟4.2具體按照以下步驟實施:
67、步驟4.2.1,構(gòu)建1個空間注意力塊,1個通道注意力塊,1個特征上采樣塊和1個交叉融合模塊,通過交叉融合模塊得到fi;
68、步驟4.2.2,構(gòu)建3個交叉融合模塊,首先將fi分別與步驟4.2.1得到的rfi′和eci′輸入到2個交叉融合模塊,再將兩者的結(jié)果輸入到1個新的交叉融合模塊得到初步融合得到融合特征fi′。
69、步驟4.2.1具體按照以下步驟實施:
70、步驟4.2.1.1,將得到的邊界細(xì)化后的transformer特征rfi輸入上采用塊,經(jīng)過3×3的卷積,一個批歸一化操作,一個relu激活函數(shù)后與經(jīng)過通道注意力塊的cnn邊界增強特征eci作矩陣點乘運算得到rf′i,將經(jīng)過上采用塊的rfi輸入給空間注意力塊并與經(jīng)過一個3×3的卷積,一個批歸一化操作,一個relu激活函數(shù)的cnn邊界增強特征eci作矩陣點乘運算,得到ec′i,如下式所示:
71、
72、
73、其中,up表示上采樣塊,cbr表示一個3×3的卷積,一個批歸一化操作和一個relu激活函數(shù),表示矩陣點乘運算,ca表示通道注意力塊,sa表示空間注意力塊;
74、步驟4.2.1.2,將得到的rf′i和ec′i輸入到交叉融合模塊,經(jīng)過一個3×3的卷積,一個批歸一化操作,一個relu激活函數(shù)后得到fi,如下式所示:
75、fi=cbr(if(rf′i,ec′i))???(13)
76、其中,if表示交叉融合模塊,cbr表示一個3×3的卷積,一個批歸一化操作和一個relu激活函數(shù);
77、步驟4.2.2具體按照以下步驟實施:
78、步驟4.2.2.1,將步驟4.2.1.2中的fi與rf′i輸入給交叉融合模塊得到rf″i,將fi與ec′i輸入給交叉融合模塊得到ec″i,如下式所示:
79、rf″i=if(rf′i,fi)??(14)
80、ec″i=if(ec″i,fi)??(15)
81、步驟4.2.2.2,將rf″i和ec″i分別經(jīng)過一個3×3的卷積,一個批歸一化操作和一個relu激活函數(shù)后再次經(jīng)過一個交叉融合模塊得到f′i,如下式所示:
82、f′i=if(cbr(ec′i),cbr(fi))???(16)。
83、步驟4.3具體按照以下步驟實施:
84、步驟4.3.1,將步驟4.2得到的f′i利通過一個3×3的卷積,一個批歸一化操作,一個relu激活函數(shù),一個unflod操作后將形狀從(b,c,h,w)變?yōu)?b,n,c);
85、步驟4.3.2,將步驟4.3.1的結(jié)果與transformer分支的邊界增強特征eti進(jìn)行融合得到最終雙分支融合特征zi,如下式所示:
86、zi=selfatt(concat(eti,unflod(cbr(f′i))))???(17)
87、其中,selfatt表示自注意力塊,cbr表示一個3×3的卷積,一個批歸一化操作和一個relu激活函數(shù),concat表示通道維度上的拼接操作,unflod表示將形狀從(b,c,h,w)變化為(b,n,c)。
88、本發(fā)明的有益效果是:
89、本發(fā)明基于生成深度圖與rgb圖融合邊界指導(dǎo)的顯著目標(biāo)檢測方法,以res2net和pvt雙主干為基礎(chǔ),利用depth?anything大模型生成的深度圖作為輔助信息,通過自注意力交叉注意力融合、漸進(jìn)三模態(tài)交互單元模塊、漸進(jìn)式融合的雙分支特征融合、自監(jiān)督方式的邊界特征指導(dǎo)的實現(xiàn),共同完成顯著物體檢測的任務(wù),克服了現(xiàn)有在輸入僅有rgb圖像條件下的復(fù)雜環(huán)境的干擾問題,消除了又大模型生成深度圖引入的噪聲干擾問題,豐富了人工智能和計算機視覺的方法體系,為顯著體檢測領(lǐng)域提供了一種新選擇。