欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種雙重模態(tài)增強(qiáng)機(jī)制的RGB-T跟蹤方法及裝置

文檔序號(hào):40434467發(fā)布日期:2024-12-24 15:08閱讀:19來源:國(guó)知局
一種雙重模態(tài)增強(qiáng)機(jī)制的RGB-T跟蹤方法及裝置

本發(fā)明涉及多模態(tài)學(xué)習(xí),特別是指一種雙重模態(tài)增強(qiáng)機(jī)制的rgb-t跟蹤方法及裝置。


背景技術(shù):

1、單目標(biāo)跟蹤是計(jì)算機(jī)視覺中的一個(gè)基本問題,旨在基于目標(biāo)對(duì)象在第一幀中的初始狀態(tài),在后續(xù)幀中穩(wěn)健地檢測(cè)該目標(biāo)對(duì)象。目前,使用純可見光(rgb)數(shù)據(jù)的目標(biāo)跟蹤已顯示出令人鼓舞的結(jié)果,但在極端和復(fù)雜的場(chǎng)景下,例如光照變化、惡劣天氣、物體遮擋和運(yùn)動(dòng)模糊等情況下仍然存在困難。相比提供詳細(xì)顏色信息的rgb數(shù)據(jù),熱紅外(tir或t)圖像在低光和遮擋條件下的物體識(shí)別和場(chǎng)景理解方面表現(xiàn)出色。因此,憑借可見光-紅外(rgb-t)的互補(bǔ)優(yōu)勢(shì),rgb-t跟蹤在各種具有挑戰(zhàn)性的應(yīng)用中,如自動(dòng)駕駛和視頻監(jiān)控,獲得了越來越多的關(guān)注。

2、傳統(tǒng)的單目標(biāo)跟蹤(sot)方法基于可見光模式,難以應(yīng)對(duì)極端成像條件,例如黑暗、雨天、霧天等。相比之下,熱紅外對(duì)光照變化不敏感,可以作為跟蹤過程中一種有意義的補(bǔ)充表示。因此,rgb-t跟蹤作為跟蹤任務(wù)的一個(gè)分支,已成為在惡劣天氣和光照條件下實(shí)現(xiàn)可靠語義場(chǎng)景理解的熱門解決方案?,F(xiàn)有方法主要將跨模態(tài)交互視為關(guān)鍵組成部分。最近,rgb-t跟蹤器集中于利用多重融合策略,以充分利用不同融合方法的優(yōu)勢(shì)。然而,這些方法忽視了使用大規(guī)模rgb數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練的網(wǎng)絡(luò)對(duì)紅外模態(tài)的影響,并未解決rgb和紅外分支響應(yīng)之間的差異。

3、另外,由于缺乏大規(guī)模紅外數(shù)據(jù)和專門為tir模式設(shè)計(jì)的骨干網(wǎng)絡(luò),現(xiàn)有的大多數(shù)rgb-t跟蹤模型通常依賴于在大規(guī)模rgb數(shù)據(jù)集(如imagenet和sot)上預(yù)訓(xùn)練的骨干網(wǎng)絡(luò),遵循基于rgb的視覺任務(wù)。然而,這種對(duì)rgb預(yù)訓(xùn)練骨干網(wǎng)絡(luò)的依賴引入了對(duì)tir模式的固有偏差,這些偏差可以分為兩個(gè)層次:(1)特征級(jí)偏差。在rgb數(shù)據(jù)上預(yù)訓(xùn)練的模型無法充分提取和理解tir數(shù)據(jù),因?yàn)閠ir的成像機(jī)制不同于rgb。因此,在學(xué)習(xí)rgb數(shù)據(jù)特定模式后,處理tir模式數(shù)據(jù)時(shí)會(huì)引入特征偏差。這種偏差可能會(huì)削弱模型的性能,使其難以充分捕捉tir模式特有的關(guān)鍵模式和特征信息。(2)決策級(jí)偏差。在目標(biāo)定位過程中,不同模式的跟蹤器對(duì)具有不同屬性的區(qū)域表現(xiàn)出不一致的響應(yīng),導(dǎo)致跟蹤決策中的不平衡。例如,tir模式在低光或遮擋條件下表現(xiàn)更好,而rgb模式在光線充足、色彩鮮艷、紋理和形狀豐富的區(qū)域更為敏感?,F(xiàn)有方法通常依賴于簡(jiǎn)單的跨模態(tài)響應(yīng)融合,忽視了rgb和tir跟蹤器響應(yīng)之間的分布差異,這可能導(dǎo)致跟蹤過程中顯著的決策偏差。


技術(shù)實(shí)現(xiàn)思路

1、為了解決現(xiàn)有技術(shù)存在的目標(biāo)跟蹤決策偏差的技術(shù)問題,本發(fā)明實(shí)施例提供了一種雙重模態(tài)增強(qiáng)機(jī)制的rgb-t跟蹤方法及裝置。所述技術(shù)方案如下:

2、一方面,提供了一種雙重模態(tài)增強(qiáng)機(jī)制的rgb-t跟蹤方法,該方法由雙重模態(tài)增強(qiáng)機(jī)制的rgb-t跟蹤設(shè)備實(shí)現(xiàn),該方法包括:

3、s1、構(gòu)建初始多模態(tài)目標(biāo)跟蹤模型,所述初始多模態(tài)目標(biāo)跟蹤模型包括兩個(gè)并行的預(yù)訓(xùn)練的vit骨干網(wǎng)絡(luò)、初始紅外感知適配器、初始跨模態(tài)融合適配器、rgb預(yù)測(cè)頭、紅外預(yù)測(cè)頭以及響應(yīng)圖解耦蒸餾響應(yīng)模塊,所述兩個(gè)并行的預(yù)訓(xùn)練的vit骨干網(wǎng)絡(luò)分別為第一vit骨干網(wǎng)絡(luò)和第二vit骨干網(wǎng)絡(luò);

4、s2、根據(jù)rgb訓(xùn)練樣本、紅外訓(xùn)練樣本以及預(yù)設(shè)的損失函數(shù),對(duì)初始紅外感知適配器和初始跨模態(tài)融合適配器進(jìn)行訓(xùn)練優(yōu)化,得到訓(xùn)練好的多模態(tài)目標(biāo)跟蹤模型,所述多模態(tài)目標(biāo)跟蹤模型包括transformer骨干網(wǎng)絡(luò)、紅外感知適配器、跨模態(tài)融合適配器、rgb預(yù)測(cè)頭以及紅外預(yù)測(cè)頭;

5、s3、獲取待識(shí)別數(shù)據(jù),所述待識(shí)別數(shù)據(jù)包括待識(shí)別rgb圖像以及待識(shí)別紅外圖像;

6、s4、將所述待識(shí)別rgb圖像以及待識(shí)別紅外圖像輸入到所述多模態(tài)目標(biāo)跟蹤模型,得到所述待識(shí)別數(shù)據(jù)對(duì)應(yīng)的跟蹤結(jié)果。

7、另一方面,提供了一種雙重模態(tài)增強(qiáng)機(jī)制的rgb-t跟蹤裝置,該裝置應(yīng)用于雙重模態(tài)增強(qiáng)機(jī)制的rgb-t跟蹤方法,該裝置包括:

8、構(gòu)建單元,用于構(gòu)建初始多模態(tài)目標(biāo)跟蹤模型,所述初始多模態(tài)目標(biāo)跟蹤模型包括兩個(gè)并行的預(yù)訓(xùn)練的vit骨干網(wǎng)絡(luò)、初始紅外感知適配器、初始跨模態(tài)融合適配器、rgb預(yù)測(cè)頭、紅外預(yù)測(cè)頭以及響應(yīng)圖解耦蒸餾響應(yīng)模塊,所述兩個(gè)并行的預(yù)訓(xùn)練的vit骨干網(wǎng)絡(luò)分別為第一vit骨干網(wǎng)絡(luò)和第二vit骨干網(wǎng)絡(luò);

9、訓(xùn)練單元,用于根據(jù)rgb訓(xùn)練樣本、紅外訓(xùn)練樣本以及預(yù)設(shè)的損失函數(shù),對(duì)初始紅外感知適配器和初始跨模態(tài)融合適配器進(jìn)行訓(xùn)練優(yōu)化,得到訓(xùn)練好的多模態(tài)目標(biāo)跟蹤模型,所述多模態(tài)目標(biāo)跟蹤模型包括transformer骨干網(wǎng)絡(luò)、紅外感知適配器、跨模態(tài)融合適配器、rgb預(yù)測(cè)頭以及紅外預(yù)測(cè)頭;

10、獲取單元,用于獲取待識(shí)別數(shù)據(jù),所述待識(shí)別數(shù)據(jù)包括待識(shí)別rgb圖像以及待識(shí)別紅外圖像;

11、跟蹤單元,用于將所述待識(shí)別rgb圖像以及待識(shí)別紅外圖像輸入到所述多模態(tài)目標(biāo)跟蹤模型,得到所述待識(shí)別數(shù)據(jù)對(duì)應(yīng)的跟蹤結(jié)果。

12、另一方面,提供一種雙重模態(tài)增強(qiáng)機(jī)制的rgb-t跟蹤設(shè)備,所述雙重模態(tài)增強(qiáng)機(jī)制的rgb-t跟蹤設(shè)備包括:處理器;存儲(chǔ)器,所述存儲(chǔ)器上存儲(chǔ)有計(jì)算機(jī)可讀指令,所述計(jì)算機(jī)可讀指令被所述處理器執(zhí)行時(shí),實(shí)現(xiàn)如上述雙重模態(tài)增強(qiáng)機(jī)制的rgb-t跟蹤方法中的任一項(xiàng)方法。

13、另一方面,提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)中存儲(chǔ)有至少一條指令,所述至少一條指令由處理器加載并執(zhí)行以實(shí)現(xiàn)上述雙重模態(tài)增強(qiáng)機(jī)制的rgb-t跟蹤方法中的任一項(xiàng)方法。

14、本發(fā)明實(shí)施例提供的技術(shù)方案帶來的有益效果至少包括:

15、本發(fā)明實(shí)施例中,對(duì)于特征級(jí)別的偏差,本發(fā)明實(shí)施例提出了一個(gè)聯(lián)合紅外融合適配器模塊,以捕捉去偏的tir和跨模態(tài)表示,包括紅外感知適配器(ia)和跨模態(tài)融合適配器(cfa)。具體而言,與rgb模態(tài)相比,由于tir模態(tài)依賴于熱輻射特性,在對(duì)比度低時(shí)區(qū)分目標(biāo)和背景變得困難。為解決這一問題,本發(fā)明實(shí)施例采用紅外感知適配器,引入了目標(biāo)相關(guān)選擇器機(jī)制,以過濾無關(guān)的模態(tài)內(nèi)信息。為進(jìn)一步增強(qiáng)紅外分支的能力,本發(fā)明實(shí)施例提出了一個(gè)跨模態(tài)融合適配器,以利用兩個(gè)模態(tài)之間的互補(bǔ)信息。具體來說,本發(fā)明實(shí)施例實(shí)現(xiàn)了一個(gè)模態(tài)相關(guān)引導(dǎo),利用tir和rgb區(qū)域特征作為查詢,以學(xué)習(xí)tir引導(dǎo)和rgb引導(dǎo)的互補(bǔ)模態(tài)信息。值得注意的是,跨模態(tài)融合適配器還可以相互增強(qiáng)rgb模態(tài)的特征學(xué)習(xí),從而彌合它與紅外模態(tài)之間的差距。為處理決策級(jí)別的偏差,本發(fā)明實(shí)施例提出了一種知識(shí)蒸餾策略,以確保tir和融合分支的響應(yīng)分布一致。然而,在跟蹤任務(wù)中,搜索區(qū)域中只有一小部分是目標(biāo)區(qū)域,大部分是非目標(biāo)(背景),導(dǎo)致響應(yīng)分布不平衡。為解決這一問題,本發(fā)明實(shí)施例將響應(yīng)圖解耦為正面和負(fù)面部分,正面部分代表與目標(biāo)最相關(guān)的區(qū)域。然后本發(fā)明實(shí)施例設(shè)計(jì)了一個(gè)響應(yīng)圖解耦蒸餾損失函數(shù),以確保模型更多地關(guān)注目標(biāo)區(qū)域,并實(shí)現(xiàn)一致的響應(yīng)圖分布,提高目標(biāo)跟蹤的精準(zhǔn)度。



技術(shù)特征:

1.一種雙重模態(tài)增強(qiáng)機(jī)制的rgb-t跟蹤方法,其特征在于,所述方法包括:

2.根據(jù)權(quán)利要求1所述的雙重模態(tài)增強(qiáng)機(jī)制的rgb-t跟蹤方法,其特征在于,所述rgb訓(xùn)練樣本包括rgb訓(xùn)練樣本圖像以及rgb訓(xùn)練樣本真實(shí)標(biāo)簽,所述紅外訓(xùn)練樣本包括紅外訓(xùn)練樣本圖像以及紅外訓(xùn)練樣本真實(shí)標(biāo)簽;

3.根據(jù)權(quán)利要求2所述的雙重模態(tài)增強(qiáng)機(jī)制的rgb-t跟蹤方法,其特征在于,所述第一vit骨干網(wǎng)絡(luò)與所述第二vit骨干網(wǎng)絡(luò)的結(jié)構(gòu)相同;

4.根據(jù)權(quán)利要求3所述的雙重模態(tài)增強(qiáng)機(jī)制的rgb-t跟蹤方法,其特征在于,所述s21的將紅外訓(xùn)練樣本圖像輸入第一vit骨干網(wǎng)絡(luò)以及初始紅外感知適配器,將初始紅外感知適配器的輸出與第一vit骨干網(wǎng)絡(luò)的輸出進(jìn)行累加,包括:

5.根據(jù)權(quán)利要求4所述的雙重模態(tài)增強(qiáng)機(jī)制的rgb-t跟蹤方法,其特征在于,所述初始紅外感知適配器包括多個(gè)卷積層、高斯誤差線性單元和通道選擇器;

6.根據(jù)權(quán)利要求2所述的雙重模態(tài)增強(qiáng)機(jī)制的rgb-t跟蹤方法,其特征在于,所述初始跨模態(tài)融合適配器包括t引導(dǎo)模塊、r引導(dǎo)模塊、第一注意力偏差學(xué)習(xí)模塊、第二注意力偏差學(xué)習(xí)模塊、線性投影函數(shù)、焦點(diǎn)操作模塊、多通道注意力機(jī)制以及1×1卷積模塊;

7.根據(jù)權(quán)利要求1所述的雙重模態(tài)增強(qiáng)機(jī)制的rgb-t跟蹤方法,其特征在于,所述預(yù)設(shè)的損失函數(shù),如下述公式(1):

8.一種雙重模態(tài)增強(qiáng)機(jī)制的rgb-t跟蹤裝置,所述雙重模態(tài)增強(qiáng)機(jī)制的rgb-t跟蹤裝置用于實(shí)現(xiàn)如權(quán)利要求1-7任一項(xiàng)所述雙重模態(tài)增強(qiáng)機(jī)制的rgb-t跟蹤方法,其特征在于,所述裝置包括:

9.一種雙重模態(tài)增強(qiáng)機(jī)制的rgb-t跟蹤設(shè)備,其特征在于,所述雙重模態(tài)增強(qiáng)機(jī)制的rgb-t跟蹤設(shè)備包括:

10.一種計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中存儲(chǔ)有程序代碼,所述程序代碼可被處理器調(diào)用執(zhí)行如權(quán)利要求1至7任一項(xiàng)所述的方法。


技術(shù)總結(jié)
本發(fā)明涉及多模態(tài)學(xué)習(xí)技術(shù)領(lǐng)域,特別是指一種雙重模態(tài)增強(qiáng)機(jī)制的RGB?T跟蹤方法及裝置,方法包括:構(gòu)建初始多模態(tài)目標(biāo)跟蹤模型,初始多模態(tài)目標(biāo)跟蹤模型包括兩個(gè)并行的ViT骨干網(wǎng)絡(luò)、初始紅外感知適配器、初始跨模態(tài)融合適配器、RGB預(yù)測(cè)頭、紅外預(yù)測(cè)頭以及響應(yīng)圖解耦蒸餾響應(yīng)模塊;根據(jù)訓(xùn)練樣本以及預(yù)設(shè)的損失函數(shù),對(duì)初始多模態(tài)目標(biāo)跟蹤模型進(jìn)行訓(xùn)練優(yōu)化,得到訓(xùn)練好的多模態(tài)目標(biāo)跟蹤模型,包括Transformer骨干網(wǎng)絡(luò)、紅外感知適配器、跨模態(tài)融合適配器、RGB預(yù)測(cè)頭以及紅外預(yù)測(cè)頭;獲取待識(shí)別數(shù)據(jù),將待識(shí)別RGB圖像以及待識(shí)別紅外圖像輸入到多模態(tài)目標(biāo)跟蹤模型,得到待識(shí)別數(shù)據(jù)對(duì)應(yīng)的跟蹤結(jié)果。采用本發(fā)明,可以提高目標(biāo)跟蹤的精準(zhǔn)度。

技術(shù)研發(fā)人員:胡雨凡,邵澤楷,劉紅敏,樊彬
受保護(hù)的技術(shù)使用者:北京科技大學(xué)
技術(shù)研發(fā)日:
技術(shù)公布日:2024/12/23
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
湛江市| 兴安县| 莱西市| 始兴县| 宜丰县| 南投市| 闽清县| 平遥县| 韶山市| 横山县| 大方县| 鄢陵县| 正镶白旗| 仁布县| 万安县| 合肥市| 博白县| 澄迈县| 巫山县| 铜鼓县| 格尔木市| 延川县| 德化县| 彰武县| 新源县| 聊城市| 万盛区| 西青区| 临朐县| 三明市| 屏南县| 江永县| 赤水市| 凤翔县| 平舆县| 台湾省| 诸城市| 高碑店市| 安丘市| 云霄县| 土默特左旗|