本發(fā)明涉及多模態(tài)學(xué)習(xí),特別是指一種雙重模態(tài)增強(qiáng)機(jī)制的rgb-t跟蹤方法及裝置。
背景技術(shù):
1、單目標(biāo)跟蹤是計(jì)算機(jī)視覺中的一個(gè)基本問題,旨在基于目標(biāo)對(duì)象在第一幀中的初始狀態(tài),在后續(xù)幀中穩(wěn)健地檢測(cè)該目標(biāo)對(duì)象。目前,使用純可見光(rgb)數(shù)據(jù)的目標(biāo)跟蹤已顯示出令人鼓舞的結(jié)果,但在極端和復(fù)雜的場(chǎng)景下,例如光照變化、惡劣天氣、物體遮擋和運(yùn)動(dòng)模糊等情況下仍然存在困難。相比提供詳細(xì)顏色信息的rgb數(shù)據(jù),熱紅外(tir或t)圖像在低光和遮擋條件下的物體識(shí)別和場(chǎng)景理解方面表現(xiàn)出色。因此,憑借可見光-紅外(rgb-t)的互補(bǔ)優(yōu)勢(shì),rgb-t跟蹤在各種具有挑戰(zhàn)性的應(yīng)用中,如自動(dòng)駕駛和視頻監(jiān)控,獲得了越來越多的關(guān)注。
2、傳統(tǒng)的單目標(biāo)跟蹤(sot)方法基于可見光模式,難以應(yīng)對(duì)極端成像條件,例如黑暗、雨天、霧天等。相比之下,熱紅外對(duì)光照變化不敏感,可以作為跟蹤過程中一種有意義的補(bǔ)充表示。因此,rgb-t跟蹤作為跟蹤任務(wù)的一個(gè)分支,已成為在惡劣天氣和光照條件下實(shí)現(xiàn)可靠語義場(chǎng)景理解的熱門解決方案?,F(xiàn)有方法主要將跨模態(tài)交互視為關(guān)鍵組成部分。最近,rgb-t跟蹤器集中于利用多重融合策略,以充分利用不同融合方法的優(yōu)勢(shì)。然而,這些方法忽視了使用大規(guī)模rgb數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練的網(wǎng)絡(luò)對(duì)紅外模態(tài)的影響,并未解決rgb和紅外分支響應(yīng)之間的差異。
3、另外,由于缺乏大規(guī)模紅外數(shù)據(jù)和專門為tir模式設(shè)計(jì)的骨干網(wǎng)絡(luò),現(xiàn)有的大多數(shù)rgb-t跟蹤模型通常依賴于在大規(guī)模rgb數(shù)據(jù)集(如imagenet和sot)上預(yù)訓(xùn)練的骨干網(wǎng)絡(luò),遵循基于rgb的視覺任務(wù)。然而,這種對(duì)rgb預(yù)訓(xùn)練骨干網(wǎng)絡(luò)的依賴引入了對(duì)tir模式的固有偏差,這些偏差可以分為兩個(gè)層次:(1)特征級(jí)偏差。在rgb數(shù)據(jù)上預(yù)訓(xùn)練的模型無法充分提取和理解tir數(shù)據(jù),因?yàn)閠ir的成像機(jī)制不同于rgb。因此,在學(xué)習(xí)rgb數(shù)據(jù)特定模式后,處理tir模式數(shù)據(jù)時(shí)會(huì)引入特征偏差。這種偏差可能會(huì)削弱模型的性能,使其難以充分捕捉tir模式特有的關(guān)鍵模式和特征信息。(2)決策級(jí)偏差。在目標(biāo)定位過程中,不同模式的跟蹤器對(duì)具有不同屬性的區(qū)域表現(xiàn)出不一致的響應(yīng),導(dǎo)致跟蹤決策中的不平衡。例如,tir模式在低光或遮擋條件下表現(xiàn)更好,而rgb模式在光線充足、色彩鮮艷、紋理和形狀豐富的區(qū)域更為敏感?,F(xiàn)有方法通常依賴于簡(jiǎn)單的跨模態(tài)響應(yīng)融合,忽視了rgb和tir跟蹤器響應(yīng)之間的分布差異,這可能導(dǎo)致跟蹤過程中顯著的決策偏差。
技術(shù)實(shí)現(xiàn)思路
1、為了解決現(xiàn)有技術(shù)存在的目標(biāo)跟蹤決策偏差的技術(shù)問題,本發(fā)明實(shí)施例提供了一種雙重模態(tài)增強(qiáng)機(jī)制的rgb-t跟蹤方法及裝置。所述技術(shù)方案如下:
2、一方面,提供了一種雙重模態(tài)增強(qiáng)機(jī)制的rgb-t跟蹤方法,該方法由雙重模態(tài)增強(qiáng)機(jī)制的rgb-t跟蹤設(shè)備實(shí)現(xiàn),該方法包括:
3、s1、構(gòu)建初始多模態(tài)目標(biāo)跟蹤模型,所述初始多模態(tài)目標(biāo)跟蹤模型包括兩個(gè)并行的預(yù)訓(xùn)練的vit骨干網(wǎng)絡(luò)、初始紅外感知適配器、初始跨模態(tài)融合適配器、rgb預(yù)測(cè)頭、紅外預(yù)測(cè)頭以及響應(yīng)圖解耦蒸餾響應(yīng)模塊,所述兩個(gè)并行的預(yù)訓(xùn)練的vit骨干網(wǎng)絡(luò)分別為第一vit骨干網(wǎng)絡(luò)和第二vit骨干網(wǎng)絡(luò);
4、s2、根據(jù)rgb訓(xùn)練樣本、紅外訓(xùn)練樣本以及預(yù)設(shè)的損失函數(shù),對(duì)初始紅外感知適配器和初始跨模態(tài)融合適配器進(jìn)行訓(xùn)練優(yōu)化,得到訓(xùn)練好的多模態(tài)目標(biāo)跟蹤模型,所述多模態(tài)目標(biāo)跟蹤模型包括transformer骨干網(wǎng)絡(luò)、紅外感知適配器、跨模態(tài)融合適配器、rgb預(yù)測(cè)頭以及紅外預(yù)測(cè)頭;
5、s3、獲取待識(shí)別數(shù)據(jù),所述待識(shí)別數(shù)據(jù)包括待識(shí)別rgb圖像以及待識(shí)別紅外圖像;
6、s4、將所述待識(shí)別rgb圖像以及待識(shí)別紅外圖像輸入到所述多模態(tài)目標(biāo)跟蹤模型,得到所述待識(shí)別數(shù)據(jù)對(duì)應(yīng)的跟蹤結(jié)果。
7、另一方面,提供了一種雙重模態(tài)增強(qiáng)機(jī)制的rgb-t跟蹤裝置,該裝置應(yīng)用于雙重模態(tài)增強(qiáng)機(jī)制的rgb-t跟蹤方法,該裝置包括:
8、構(gòu)建單元,用于構(gòu)建初始多模態(tài)目標(biāo)跟蹤模型,所述初始多模態(tài)目標(biāo)跟蹤模型包括兩個(gè)并行的預(yù)訓(xùn)練的vit骨干網(wǎng)絡(luò)、初始紅外感知適配器、初始跨模態(tài)融合適配器、rgb預(yù)測(cè)頭、紅外預(yù)測(cè)頭以及響應(yīng)圖解耦蒸餾響應(yīng)模塊,所述兩個(gè)并行的預(yù)訓(xùn)練的vit骨干網(wǎng)絡(luò)分別為第一vit骨干網(wǎng)絡(luò)和第二vit骨干網(wǎng)絡(luò);
9、訓(xùn)練單元,用于根據(jù)rgb訓(xùn)練樣本、紅外訓(xùn)練樣本以及預(yù)設(shè)的損失函數(shù),對(duì)初始紅外感知適配器和初始跨模態(tài)融合適配器進(jìn)行訓(xùn)練優(yōu)化,得到訓(xùn)練好的多模態(tài)目標(biāo)跟蹤模型,所述多模態(tài)目標(biāo)跟蹤模型包括transformer骨干網(wǎng)絡(luò)、紅外感知適配器、跨模態(tài)融合適配器、rgb預(yù)測(cè)頭以及紅外預(yù)測(cè)頭;
10、獲取單元,用于獲取待識(shí)別數(shù)據(jù),所述待識(shí)別數(shù)據(jù)包括待識(shí)別rgb圖像以及待識(shí)別紅外圖像;
11、跟蹤單元,用于將所述待識(shí)別rgb圖像以及待識(shí)別紅外圖像輸入到所述多模態(tài)目標(biāo)跟蹤模型,得到所述待識(shí)別數(shù)據(jù)對(duì)應(yīng)的跟蹤結(jié)果。
12、另一方面,提供一種雙重模態(tài)增強(qiáng)機(jī)制的rgb-t跟蹤設(shè)備,所述雙重模態(tài)增強(qiáng)機(jī)制的rgb-t跟蹤設(shè)備包括:處理器;存儲(chǔ)器,所述存儲(chǔ)器上存儲(chǔ)有計(jì)算機(jī)可讀指令,所述計(jì)算機(jī)可讀指令被所述處理器執(zhí)行時(shí),實(shí)現(xiàn)如上述雙重模態(tài)增強(qiáng)機(jī)制的rgb-t跟蹤方法中的任一項(xiàng)方法。
13、另一方面,提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)中存儲(chǔ)有至少一條指令,所述至少一條指令由處理器加載并執(zhí)行以實(shí)現(xiàn)上述雙重模態(tài)增強(qiáng)機(jī)制的rgb-t跟蹤方法中的任一項(xiàng)方法。
14、本發(fā)明實(shí)施例提供的技術(shù)方案帶來的有益效果至少包括:
15、本發(fā)明實(shí)施例中,對(duì)于特征級(jí)別的偏差,本發(fā)明實(shí)施例提出了一個(gè)聯(lián)合紅外融合適配器模塊,以捕捉去偏的tir和跨模態(tài)表示,包括紅外感知適配器(ia)和跨模態(tài)融合適配器(cfa)。具體而言,與rgb模態(tài)相比,由于tir模態(tài)依賴于熱輻射特性,在對(duì)比度低時(shí)區(qū)分目標(biāo)和背景變得困難。為解決這一問題,本發(fā)明實(shí)施例采用紅外感知適配器,引入了目標(biāo)相關(guān)選擇器機(jī)制,以過濾無關(guān)的模態(tài)內(nèi)信息。為進(jìn)一步增強(qiáng)紅外分支的能力,本發(fā)明實(shí)施例提出了一個(gè)跨模態(tài)融合適配器,以利用兩個(gè)模態(tài)之間的互補(bǔ)信息。具體來說,本發(fā)明實(shí)施例實(shí)現(xiàn)了一個(gè)模態(tài)相關(guān)引導(dǎo),利用tir和rgb區(qū)域特征作為查詢,以學(xué)習(xí)tir引導(dǎo)和rgb引導(dǎo)的互補(bǔ)模態(tài)信息。值得注意的是,跨模態(tài)融合適配器還可以相互增強(qiáng)rgb模態(tài)的特征學(xué)習(xí),從而彌合它與紅外模態(tài)之間的差距。為處理決策級(jí)別的偏差,本發(fā)明實(shí)施例提出了一種知識(shí)蒸餾策略,以確保tir和融合分支的響應(yīng)分布一致。然而,在跟蹤任務(wù)中,搜索區(qū)域中只有一小部分是目標(biāo)區(qū)域,大部分是非目標(biāo)(背景),導(dǎo)致響應(yīng)分布不平衡。為解決這一問題,本發(fā)明實(shí)施例將響應(yīng)圖解耦為正面和負(fù)面部分,正面部分代表與目標(biāo)最相關(guān)的區(qū)域。然后本發(fā)明實(shí)施例設(shè)計(jì)了一個(gè)響應(yīng)圖解耦蒸餾損失函數(shù),以確保模型更多地關(guān)注目標(biāo)區(qū)域,并實(shí)現(xiàn)一致的響應(yīng)圖分布,提高目標(biāo)跟蹤的精準(zhǔn)度。
1.一種雙重模態(tài)增強(qiáng)機(jī)制的rgb-t跟蹤方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的雙重模態(tài)增強(qiáng)機(jī)制的rgb-t跟蹤方法,其特征在于,所述rgb訓(xùn)練樣本包括rgb訓(xùn)練樣本圖像以及rgb訓(xùn)練樣本真實(shí)標(biāo)簽,所述紅外訓(xùn)練樣本包括紅外訓(xùn)練樣本圖像以及紅外訓(xùn)練樣本真實(shí)標(biāo)簽;
3.根據(jù)權(quán)利要求2所述的雙重模態(tài)增強(qiáng)機(jī)制的rgb-t跟蹤方法,其特征在于,所述第一vit骨干網(wǎng)絡(luò)與所述第二vit骨干網(wǎng)絡(luò)的結(jié)構(gòu)相同;
4.根據(jù)權(quán)利要求3所述的雙重模態(tài)增強(qiáng)機(jī)制的rgb-t跟蹤方法,其特征在于,所述s21的將紅外訓(xùn)練樣本圖像輸入第一vit骨干網(wǎng)絡(luò)以及初始紅外感知適配器,將初始紅外感知適配器的輸出與第一vit骨干網(wǎng)絡(luò)的輸出進(jìn)行累加,包括:
5.根據(jù)權(quán)利要求4所述的雙重模態(tài)增強(qiáng)機(jī)制的rgb-t跟蹤方法,其特征在于,所述初始紅外感知適配器包括多個(gè)卷積層、高斯誤差線性單元和通道選擇器;
6.根據(jù)權(quán)利要求2所述的雙重模態(tài)增強(qiáng)機(jī)制的rgb-t跟蹤方法,其特征在于,所述初始跨模態(tài)融合適配器包括t引導(dǎo)模塊、r引導(dǎo)模塊、第一注意力偏差學(xué)習(xí)模塊、第二注意力偏差學(xué)習(xí)模塊、線性投影函數(shù)、焦點(diǎn)操作模塊、多通道注意力機(jī)制以及1×1卷積模塊;
7.根據(jù)權(quán)利要求1所述的雙重模態(tài)增強(qiáng)機(jī)制的rgb-t跟蹤方法,其特征在于,所述預(yù)設(shè)的損失函數(shù),如下述公式(1):
8.一種雙重模態(tài)增強(qiáng)機(jī)制的rgb-t跟蹤裝置,所述雙重模態(tài)增強(qiáng)機(jī)制的rgb-t跟蹤裝置用于實(shí)現(xiàn)如權(quán)利要求1-7任一項(xiàng)所述雙重模態(tài)增強(qiáng)機(jī)制的rgb-t跟蹤方法,其特征在于,所述裝置包括:
9.一種雙重模態(tài)增強(qiáng)機(jī)制的rgb-t跟蹤設(shè)備,其特征在于,所述雙重模態(tài)增強(qiáng)機(jī)制的rgb-t跟蹤設(shè)備包括:
10.一種計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中存儲(chǔ)有程序代碼,所述程序代碼可被處理器調(diào)用執(zhí)行如權(quán)利要求1至7任一項(xiàng)所述的方法。