本發(fā)明屬于圖像處理,具體涉及基于選擇性狀態(tài)空間的目標跟蹤方法、系統(tǒng)、裝置、介質(zhì)。
背景技術(shù):
1、目標跟蹤是一種計算機視覺任務(wù),旨在實時檢測和跟蹤視頻序列中的特定目標。該技術(shù)廣泛應(yīng)用于自動駕駛、視頻監(jiān)控、人機交互和增強現(xiàn)實等領(lǐng)域。通過有效的目標跟蹤,系統(tǒng)能夠獲取目標的運動軌跡和行為模式,從而做出更為智能的決策。
2、盡管近年來目標跟蹤技術(shù)取得了一定的進展,但在實際應(yīng)用中仍面臨一些瓶頸?,F(xiàn)有的跟蹤算法往往側(cè)重于優(yōu)化骨干網(wǎng)絡(luò)或特征處理,主要關(guān)注單幀內(nèi)的特征提取,而忽視了目標在時間序列中的動態(tài)變化。這導(dǎo)致模型難以充分利用時間信息,從而影響跟蹤的連續(xù)性和準確性。
3、除此之外,現(xiàn)有的跟蹤方法通常采用分治策略,將跟蹤問題分解為多個子任務(wù),如目標尺度估計和中心點定位,每個子任務(wù)由特定的頭網(wǎng)絡(luò)尋址。這種分而治之的策略在跟蹤基準上表現(xiàn)出上級性能,從而成為現(xiàn)有模型中的主流設(shè)計。然而,仍然存在兩個不足。首先,每個子任務(wù)都需要一個定制的頭部網(wǎng)絡(luò),這導(dǎo)致了復(fù)雜的跟蹤框架。其次,每個頭部網(wǎng)絡(luò)需要一個或多個學(xué)習損失函數(shù)。
技術(shù)實現(xiàn)思路
1、本發(fā)明提供基于選擇性狀態(tài)空間的目標跟蹤方法、系統(tǒng)、裝置、介質(zhì)。
2、本發(fā)明的技術(shù)方案如下:
3、本發(fā)明提供一種基于選擇性狀態(tài)空間的目標跟蹤方法,包括以下步驟:
4、s1:獲取模板區(qū)域圖像和搜索區(qū)域圖像,分別提取特征后,進行拼接,得到待處理特征;
5、待處理特征經(jīng)線性變換生成第一查詢矩陣、第一鍵矩陣和第一值矩陣,第一查詢矩陣進行池化操作后,生成代理令牌;
6、利用代理令牌與第一鍵矩陣的點積及位置偏置,計算代理注意力權(quán)重,代理注意力權(quán)重對第一值矩陣進行加權(quán),得到代理特征;
7、利用第一查詢矩陣與代理令牌的點積及代理偏置,計算交互特征注意力權(quán)重,交互特征注意力權(quán)重與代理特征進行點積操作,得到交互特征;
8、s2:獲取當前幀前一幀的狀態(tài),結(jié)合交互特征和當前幀的可學(xué)習矩陣,構(gòu)建選擇性狀態(tài)空間并得到當前幀的狀態(tài);
9、s3:當前幀的狀態(tài)與投影矩陣進行結(jié)合,生成目標特征;
10、目標特征經(jīng)自注意力機制處理后,得到融合特征;
11、融合特征經(jīng)線性變換,得到邊界框坐標,進行目標跟蹤。
12、步驟s2中,所述獲取當前幀前一幀的狀態(tài),結(jié)合交互特征和當前幀的可學(xué)習矩陣,構(gòu)建選擇性狀態(tài)空間并得到當前幀的狀態(tài),具體為:
13、根據(jù)公式:,構(gòu)建選擇性狀態(tài)空間并得到當前幀的狀態(tài);
14、式中,為當前幀的狀態(tài);為當前幀前一幀的狀態(tài);為交互特征;為當前幀的可學(xué)習矩陣;為狀態(tài)轉(zhuǎn)移矩陣。
15、步驟s3中,所述當前幀的狀態(tài)與投影矩陣進行結(jié)合,生成目標特征,具體為:
16、根據(jù)公式:,生成目標特征;
17、式中,為目標特征;為投影矩陣;為當前幀的狀態(tài)。
18、步驟s3中,所述融合特征經(jīng)線性變換,得到邊界框坐標,具體為:
19、根據(jù)公式:,得到邊界框坐標;
20、式中,為邊界框坐標;為權(quán)重矩陣;為融合特征;為偏置項。
21、步驟s3中,所述目標特征經(jīng)自注意力機制處理后,得到融合特征,具體為:
22、目標特征經(jīng)線性變換生成第二查詢矩陣、第二鍵矩陣和第二值矩陣,第二查詢矩陣和第二鍵矩陣進行點積操作,得到注意力權(quán)重,注意力權(quán)重對第二值矩陣進行加權(quán)求和,得到融合特征。
23、步驟s3中,得到邊界框坐標后,還包括對邊界框坐標進行非極大值抑制處理。
24、本發(fā)明還提供一種基于選擇性狀態(tài)空間的目標跟蹤系統(tǒng),包括:
25、特征處理模塊:用于獲取模板區(qū)域圖像和搜索區(qū)域圖像,分別提取特征后,進行拼接,得到待處理特征;
26、待處理特征經(jīng)線性變換生成第一查詢矩陣、第一鍵矩陣和第一值矩陣,第一查詢矩陣進行池化操作后,生成代理令牌;
27、利用代理令牌與第一鍵矩陣的點積及位置偏置,計算代理注意力權(quán)重,代理注意力權(quán)重對第一值矩陣進行加權(quán),得到代理特征;
28、利用第一查詢矩陣與代理令牌的點積及代理偏置,計算交互特征注意力權(quán)重,交互特征注意力權(quán)重與代理特征進行點積操作,得到交互特征;
29、選擇性狀態(tài)空間構(gòu)建模塊:用于獲取當前幀前一幀的狀態(tài),結(jié)合交互特征和當前幀的可學(xué)習矩陣,構(gòu)建選擇性狀態(tài)空間并得到當前幀的狀態(tài);
30、目標跟蹤模塊:用于當前幀的狀態(tài)與投影矩陣進行結(jié)合,生成目標特征;
31、目標特征經(jīng)自注意力機制處理后,得到融合特征;
32、融合特征經(jīng)線性變換,得到邊界框坐標,進行目標跟蹤。
33、本發(fā)明還提供一種基于選擇性狀態(tài)空間的目標跟蹤裝置,包括處理器和存儲器,其中,所述處理器執(zhí)行所述存儲器中保存的計算機程序時實現(xiàn)所述的基于選擇性狀態(tài)空間的目標跟蹤方法。
34、本發(fā)明還提供一種基于選擇性狀態(tài)空間的目標跟蹤介質(zhì),用于存儲計算機程序,其中,所述計算機程序被處理器執(zhí)行時實現(xiàn)所述的基于選擇性狀態(tài)空間的目標跟蹤方法。
35、有益效果:本發(fā)明先引入代理令牌,對待處理特征進行交互,來捕捉上下文信息,更好地聚焦于當前幀目標相關(guān)的特征,提升目標辨識能力;然后構(gòu)建選擇性狀態(tài)空間,對當前幀的狀態(tài)進行動態(tài)更新,有效地將歷史信息與當前幀特征相結(jié)合,并動態(tài)調(diào)整當前狀態(tài)的表達;最后當前幀的狀態(tài)通過自注意力機制和線性變換,預(yù)測邊界框,進行目標跟蹤,提高了對視頻序列中特定目標的跟蹤精度和連續(xù)性,增強了在復(fù)雜場景中的適應(yīng)能力。
1.一種基于選擇性狀態(tài)空間的目標跟蹤方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的基于選擇性狀態(tài)空間的目標跟蹤方法,其特征在于,步驟s2中,所述獲取當前幀前一幀的狀態(tài),結(jié)合交互特征和當前幀的可學(xué)習矩陣,構(gòu)建選擇性狀態(tài)空間并得到當前幀的狀態(tài),具體為:
3.根據(jù)權(quán)利要求1所述的基于選擇性狀態(tài)空間的目標跟蹤方法,其特征在于,步驟s3中,所述當前幀的狀態(tài)與投影矩陣進行結(jié)合,生成目標特征,具體為:
4.根據(jù)權(quán)利要求1所述的基于選擇性狀態(tài)空間的目標跟蹤方法,其特征在于,步驟s3中,所述融合特征經(jīng)線性變換,得到邊界框坐標,具體為:
5.根據(jù)權(quán)利要求1所述的基于選擇性狀態(tài)空間的目標跟蹤方法,其特征在于,步驟s3中,所述目標特征經(jīng)自注意力機制處理后,得到融合特征,具體為:
6.根據(jù)權(quán)利要求1所述的基于選擇性狀態(tài)空間的目標跟蹤方法,其特征在于,步驟s3中,得到邊界框坐標后,還包括對邊界框坐標進行非極大值抑制處理。
7.一種基于選擇性狀態(tài)空間的目標跟蹤系統(tǒng),其特征在于,包括:
8.一種基于選擇性狀態(tài)空間的目標跟蹤裝置,其特征在于,包括處理器和存儲器,其中,所述處理器執(zhí)行所述存儲器中保存的計算機程序時實現(xiàn)如權(quán)利要求1-6中任一項所述的基于選擇性狀態(tài)空間的目標跟蹤方法。
9.一種基于選擇性狀態(tài)空間的目標跟蹤介質(zhì),其特征在于,用于存儲計算機程序,其中,所述計算機程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1-6中任一項所述的基于選擇性狀態(tài)空間的目標跟蹤方法。