一種雙重模態(tài)增強(qiáng)機(jī)制的RGB-T跟蹤方法及裝置

文檔序號(hào)：40434467發(fā)布日期：2024-12-24 15:08閱讀：19來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及多模態(tài)學(xué)習(xí)，特別是指一種雙重模態(tài)增強(qiáng)機(jī)制的rgb-t跟蹤方法及裝置。

背景技術(shù)：

1、單目標(biāo)跟蹤是計(jì)算機(jī)視覺中的一個(gè)基本問題，旨在基于目標(biāo)對(duì)象在第一幀中的初始狀態(tài)，在后續(xù)幀中穩(wěn)健地檢測(cè)該目標(biāo)對(duì)象。目前，使用純可見光(rgb)數(shù)據(jù)的目標(biāo)跟蹤已顯示出令人鼓舞的結(jié)果，但在極端和復(fù)雜的場(chǎng)景下，例如光照變化、惡劣天氣、物體遮擋和運(yùn)動(dòng)模糊等情況下仍然存在困難。相比提供詳細(xì)顏色信息的rgb數(shù)據(jù)，熱紅外(tir或t)圖像在低光和遮擋條件下的物體識(shí)別和場(chǎng)景理解方面表現(xiàn)出色。因此，憑借可見光-紅外(rgb-t)的互補(bǔ)優(yōu)勢(shì)，rgb-t跟蹤在各種具有挑戰(zhàn)性的應(yīng)用中，如自動(dòng)駕駛和視頻監(jiān)控，獲得了越來越多的關(guān)注。

2、傳統(tǒng)的單目標(biāo)跟蹤(sot)方法基于可見光模式，難以應(yīng)對(duì)極端成像條件，例如黑暗、雨天、霧天等。相比之下，熱紅外對(duì)光照變化不敏感，可以作為跟蹤過程中一種有意義的補(bǔ)充表示。因此，rgb-t跟蹤作為跟蹤任務(wù)的一個(gè)分支，已成為在惡劣天氣和光照條件下實(shí)現(xiàn)可靠語義場(chǎng)景理解的熱門解決方案?，F(xiàn)有方法主要將跨模態(tài)交互視為關(guān)鍵組成部分。最近，rgb-t跟蹤器集中于利用多重融合策略，以充分利用不同融合方法的優(yōu)勢(shì)。然而，這些方法忽視了使用大規(guī)模rgb數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練的網(wǎng)絡(luò)對(duì)紅外模態(tài)的影響，并未解決rgb和紅外分支響應(yīng)之間的差異。

3、另外，由于缺乏大規(guī)模紅外數(shù)據(jù)和專門為tir模式設(shè)計(jì)的骨干網(wǎng)絡(luò)，現(xiàn)有的大多數(shù)rgb-t跟蹤模型通常依賴于在大規(guī)模rgb數(shù)據(jù)集(如imagenet和sot)上預(yù)訓(xùn)練的骨干網(wǎng)絡(luò)，遵循基于rgb的視覺任務(wù)。然而，這種對(duì)rgb預(yù)訓(xùn)練骨干網(wǎng)絡(luò)的依賴引入了對(duì)tir模式的固有偏差，這些偏差可以分為兩個(gè)層次：(1)特征級(jí)偏差。在rgb數(shù)據(jù)上預(yù)訓(xùn)練的模型無法充分提取和理解tir數(shù)據(jù)，因?yàn)閠ir的成像機(jī)制不同于rgb。因此，在學(xué)習(xí)rgb數(shù)據(jù)特定模式后，處理tir模式數(shù)據(jù)時(shí)會(huì)引入特征偏差。這種偏差可能會(huì)削弱模型的性能，使其難以充分捕捉tir模式特有的關(guān)鍵模式和特征信息。(2)決策級(jí)偏差。在目標(biāo)定位過程中，不同模式的跟蹤器對(duì)具有不同屬性的區(qū)域表現(xiàn)出不一致的響應(yīng)，導(dǎo)致跟蹤決策中的不平衡。例如，tir模式在低光或遮擋條件下表現(xiàn)更好，而rgb模式在光線充足、色彩鮮艷、紋理和形狀豐富的區(qū)域更為敏感?，F(xiàn)有方法通常依賴于簡(jiǎn)單的跨模態(tài)響應(yīng)融合，忽視了rgb和tir跟蹤器響應(yīng)之間的分布差異，這可能導(dǎo)致跟蹤過程中顯著的決策偏差。

技術(shù)實(shí)現(xiàn)思路

1、為了解決現(xiàn)有技術(shù)存在的目標(biāo)跟蹤決策偏差的技術(shù)問題，本發(fā)明實(shí)施例提供了一種雙重模態(tài)增強(qiáng)機(jī)制的rgb-t跟蹤方法及裝置。所述技術(shù)方案如下：

2、一方面，提供了一種雙重模態(tài)增強(qiáng)機(jī)制的rgb-t跟蹤方法，該方法由雙重模態(tài)增強(qiáng)機(jī)制的rgb-t跟蹤設(shè)備實(shí)現(xiàn)，該方法包括：

3、s1、構(gòu)建初始多模態(tài)目標(biāo)跟蹤模型，所述初始多模態(tài)目標(biāo)跟蹤模型包括兩個(gè)并行的預(yù)訓(xùn)練的vit骨干網(wǎng)絡(luò)、初始紅外感知適配器、初始跨模態(tài)融合適配器、rgb預(yù)測(cè)頭、紅外預(yù)測(cè)頭以及響應(yīng)圖解耦蒸餾響應(yīng)模塊，所述兩個(gè)并行的預(yù)訓(xùn)練的vit骨干網(wǎng)絡(luò)分別為第一vit骨干網(wǎng)絡(luò)和第二vit骨干網(wǎng)絡(luò)；

4、s2、根據(jù)rgb訓(xùn)練樣本、紅外訓(xùn)練樣本以及預(yù)設(shè)的損失函數(shù)，對(duì)初始紅外感知適配器和初始跨模態(tài)融合適配器進(jìn)行訓(xùn)練優(yōu)化，得到訓(xùn)練好的多模態(tài)目標(biāo)跟蹤模型，所述多模態(tài)目標(biāo)跟蹤模型包括transformer骨干網(wǎng)絡(luò)、紅外感知適配器、跨模態(tài)融合適配器、rgb預(yù)測(cè)頭以及紅外預(yù)測(cè)頭；

5、s3、獲取待識(shí)別數(shù)據(jù)，所述待識(shí)別數(shù)據(jù)包括待識(shí)別rgb圖像以及待識(shí)別紅外圖像；

6、s4、將所述待識(shí)別rgb圖像以及待識(shí)別紅外圖像輸入到所述多模態(tài)目標(biāo)跟蹤模型，得到所述待識(shí)別數(shù)據(jù)對(duì)應(yīng)的跟蹤結(jié)果。

7、另一方面，提供了一種雙重模態(tài)增強(qiáng)機(jī)制的rgb-t跟蹤裝置，該裝置應(yīng)用于雙重模態(tài)增強(qiáng)機(jī)制的rgb-t跟蹤方法，該裝置包括：

8、構(gòu)建單元，用于構(gòu)建初始多模態(tài)目標(biāo)跟蹤模型，所述初始多模態(tài)目標(biāo)跟蹤模型包括兩個(gè)并行的預(yù)訓(xùn)練的vit骨干網(wǎng)絡(luò)、初始紅外感知適配器、初始跨模態(tài)融合適配器、rgb預(yù)測(cè)頭、紅外預(yù)測(cè)頭以及響應(yīng)圖解耦蒸餾響應(yīng)模塊，所述兩個(gè)并行的預(yù)訓(xùn)練的vit骨干網(wǎng)絡(luò)分別為第一vit骨干網(wǎng)絡(luò)和第二vit骨干網(wǎng)絡(luò)；

9、訓(xùn)練單元，用于根據(jù)rgb訓(xùn)練樣本、紅外訓(xùn)練樣本以及預(yù)設(shè)的損失函數(shù)，對(duì)初始紅外感知適配器和初始跨模態(tài)融合適配器進(jìn)行訓(xùn)練優(yōu)化，得到訓(xùn)練好的多模態(tài)目標(biāo)跟蹤模型，所述多模態(tài)目標(biāo)跟蹤模型包括transformer骨干網(wǎng)絡(luò)、紅外感知適配器、跨模態(tài)融合適配器、rgb預(yù)測(cè)頭以及紅外預(yù)測(cè)頭；

10、獲取單元，用于獲取待識(shí)別數(shù)據(jù)，所述待識(shí)別數(shù)據(jù)包括待識(shí)別rgb圖像以及待識(shí)別紅外圖像；

11、跟蹤單元，用于將所述待識(shí)別rgb圖像以及待識(shí)別紅外圖像輸入到所述多模態(tài)目標(biāo)跟蹤模型，得到所述待識(shí)別數(shù)據(jù)對(duì)應(yīng)的跟蹤結(jié)果。

12、另一方面，提供一種雙重模態(tài)增強(qiáng)機(jī)制的rgb-t跟蹤設(shè)備，所述雙重模態(tài)增強(qiáng)機(jī)制的rgb-t跟蹤設(shè)備包括：處理器；存儲(chǔ)器，所述存儲(chǔ)器上存儲(chǔ)有計(jì)算機(jī)可讀指令，所述計(jì)算機(jī)可讀指令被所述處理器執(zhí)行時(shí)，實(shí)現(xiàn)如上述雙重模態(tài)增強(qiáng)機(jī)制的rgb-t跟蹤方法中的任一項(xiàng)方法。

13、另一方面，提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，所述存儲(chǔ)介質(zhì)中存儲(chǔ)有至少一條指令，所述至少一條指令由處理器加載并執(zhí)行以實(shí)現(xiàn)上述雙重模態(tài)增強(qiáng)機(jī)制的rgb-t跟蹤方法中的任一項(xiàng)方法。

14、本發(fā)明實(shí)施例提供的技術(shù)方案帶來的有益效果至少包括：

15、本發(fā)明實(shí)施例中，對(duì)于特征級(jí)別的偏差，本發(fā)明實(shí)施例提出了一個(gè)聯(lián)合紅外融合適配器模塊，以捕捉去偏的tir和跨模態(tài)表示，包括紅外感知適配器(ia)和跨模態(tài)融合適配器(cfa)。具體而言，與rgb模態(tài)相比，由于tir模態(tài)依賴于熱輻射特性，在對(duì)比度低時(shí)區(qū)分目標(biāo)和背景變得困難。為解決這一問題，本發(fā)明實(shí)施例采用紅外感知適配器，引入了目標(biāo)相關(guān)選擇器機(jī)制，以過濾無關(guān)的模態(tài)內(nèi)信息。為進(jìn)一步增強(qiáng)紅外分支的能力，本發(fā)明實(shí)施例提出了一個(gè)跨模態(tài)融合適配器，以利用兩個(gè)模態(tài)之間的互補(bǔ)信息。具體來說，本發(fā)明實(shí)施例實(shí)現(xiàn)了一個(gè)模態(tài)相關(guān)引導(dǎo)，利用tir和rgb區(qū)域特征作為查詢，以學(xué)習(xí)tir引導(dǎo)和rgb引導(dǎo)的互補(bǔ)模態(tài)信息。值得注意的是，跨模態(tài)融合適配器還可以相互增強(qiáng)rgb模態(tài)的特征學(xué)習(xí)，從而彌合它與紅外模態(tài)之間的差距。為處理決策級(jí)別的偏差，本發(fā)明實(shí)施例提出了一種知識(shí)蒸餾策略，以確保tir和融合分支的響應(yīng)分布一致。然而，在跟蹤任務(wù)中，搜索區(qū)域中只有一小部分是目標(biāo)區(qū)域，大部分是非目標(biāo)(背景)，導(dǎo)致響應(yīng)分布不平衡。為解決這一問題，本發(fā)明實(shí)施例將響應(yīng)圖解耦為正面和負(fù)面部分，正面部分代表與目標(biāo)最相關(guān)的區(qū)域。然后本發(fā)明實(shí)施例設(shè)計(jì)了一個(gè)響應(yīng)圖解耦蒸餾損失函數(shù)，以確保模型更多地關(guān)注目標(biāo)區(qū)域，并實(shí)現(xiàn)一致的響應(yīng)圖分布，提高目標(biāo)跟蹤的精準(zhǔn)度。

技術(shù)特征：

1.一種雙重模態(tài)增強(qiáng)機(jī)制的rgb-t跟蹤方法，其特征在于，所述方法包括：

2.根據(jù)權(quán)利要求1所述的雙重模態(tài)增強(qiáng)機(jī)制的rgb-t跟蹤方法，其特征在于，所述rgb訓(xùn)練樣本包括rgb訓(xùn)練樣本圖像以及rgb訓(xùn)練樣本真實(shí)標(biāo)簽，所述紅外訓(xùn)練樣本包括紅外訓(xùn)練樣本圖像以及紅外訓(xùn)練樣本真實(shí)標(biāo)簽；

3.根據(jù)權(quán)利要求2所述的雙重模態(tài)增強(qiáng)機(jī)制的rgb-t跟蹤方法，其特征在于，所述第一vit骨干網(wǎng)絡(luò)與所述第二vit骨干網(wǎng)絡(luò)的結(jié)構(gòu)相同；

4.根據(jù)權(quán)利要求3所述的雙重模態(tài)增強(qiáng)機(jī)制的rgb-t跟蹤方法，其特征在于，所述s21的將紅外訓(xùn)練樣本圖像輸入第一vit骨干網(wǎng)絡(luò)以及初始紅外感知適配器，將初始紅外感知適配器的輸出與第一vit骨干網(wǎng)絡(luò)的輸出進(jìn)行累加，包括：

5.根據(jù)權(quán)利要求4所述的雙重模態(tài)增強(qiáng)機(jī)制的rgb-t跟蹤方法，其特征在于，所述初始紅外感知適配器包括多個(gè)卷積層、高斯誤差線性單元和通道選擇器；

6.根據(jù)權(quán)利要求2所述的雙重模態(tài)增強(qiáng)機(jī)制的rgb-t跟蹤方法，其特征在于，所述初始跨模態(tài)融合適配器包括t引導(dǎo)模塊、r引導(dǎo)模塊、第一注意力偏差學(xué)習(xí)模塊、第二注意力偏差學(xué)習(xí)模塊、線性投影函數(shù)、焦點(diǎn)操作模塊、多通道注意力機(jī)制以及1×1卷積模塊；

7.根據(jù)權(quán)利要求1所述的雙重模態(tài)增強(qiáng)機(jī)制的rgb-t跟蹤方法，其特征在于，所述預(yù)設(shè)的損失函數(shù)，如下述公式(1)：

8.一種雙重模態(tài)增強(qiáng)機(jī)制的rgb-t跟蹤裝置，所述雙重模態(tài)增強(qiáng)機(jī)制的rgb-t跟蹤裝置用于實(shí)現(xiàn)如權(quán)利要求1-7任一項(xiàng)所述雙重模態(tài)增強(qiáng)機(jī)制的rgb-t跟蹤方法，其特征在于，所述裝置包括：

9.一種雙重模態(tài)增強(qiáng)機(jī)制的rgb-t跟蹤設(shè)備，其特征在于，所述雙重模態(tài)增強(qiáng)機(jī)制的rgb-t跟蹤設(shè)備包括：

10.一種計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)，其特征在于，所述計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中存儲(chǔ)有程序代碼，所述程序代碼可被處理器調(diào)用執(zhí)行如權(quán)利要求1至7任一項(xiàng)所述的方法。

技術(shù)總結(jié)
本發(fā)明涉及多模態(tài)學(xué)習(xí)技術(shù)領(lǐng)域，特別是指一種雙重模態(tài)增強(qiáng)機(jī)制的RGB?T跟蹤方法及裝置，方法包括：構(gòu)建初始多模態(tài)目標(biāo)跟蹤模型，初始多模態(tài)目標(biāo)跟蹤模型包括兩個(gè)并行的ViT骨干網(wǎng)絡(luò)、初始紅外感知適配器、初始跨模態(tài)融合適配器、RGB預(yù)測(cè)頭、紅外預(yù)測(cè)頭以及響應(yīng)圖解耦蒸餾響應(yīng)模塊；根據(jù)訓(xùn)練樣本以及預(yù)設(shè)的損失函數(shù)，對(duì)初始多模態(tài)目標(biāo)跟蹤模型進(jìn)行訓(xùn)練優(yōu)化，得到訓(xùn)練好的多模態(tài)目標(biāo)跟蹤模型，包括Transformer骨干網(wǎng)絡(luò)、紅外感知適配器、跨模態(tài)融合適配器、RGB預(yù)測(cè)頭以及紅外預(yù)測(cè)頭；獲取待識(shí)別數(shù)據(jù)，將待識(shí)別RGB圖像以及待識(shí)別紅外圖像輸入到多模態(tài)目標(biāo)跟蹤模型，得到待識(shí)別數(shù)據(jù)對(duì)應(yīng)的跟蹤結(jié)果。采用本發(fā)明，可以提高目標(biāo)跟蹤的精準(zhǔn)度。

技術(shù)研發(fā)人員：胡雨凡,邵澤楷,劉紅敏,樊彬
受保護(hù)的技術(shù)使用者：北京科技大學(xué)
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/23

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：胡雨凡,邵澤楷,劉紅敏,樊彬
技術(shù)所有人：北京科技大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種雙重模態(tài)增強(qiáng)機(jī)制的RGB-T跟蹤方法及裝置