欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種廣視角特征融合記憶網絡的多目標跟蹤算法

文檔序號:40623588發(fā)布日期:2025-01-10 18:29閱讀:4來源:國知局
一種廣視角特征融合記憶網絡的多目標跟蹤算法

本發(fā)明涉及計算機視覺與人工智能,適用于廣視角場景中的多目標跟蹤,尤其涉及一種廣視角特征融合記憶網絡的多目標跟蹤算法。


背景技術:

1、隨著無人機和人工智能技術的快速發(fā)展,兩者的融合在多目標跟蹤領域展現(xiàn)出巨大的潛力。無人機憑借靈活的飛行能力和廣闊的視角,成為捕獲高質量視頻信息的理想平臺;與此同時,人工智能的先進算法和視覺處理技術為實現(xiàn)多目標跟蹤提供了更精準的支持。無人機多目標跟蹤技術在當前社會發(fā)展中發(fā)揮著重要而有意義的作用。此外,基于無人機的多目標跟蹤技術在交通管理和城市規(guī)劃中也具有重要意義,它通過準確監(jiān)測和分析車輛、行人及交通流,為交通優(yōu)化和城市設計提供數(shù)據(jù)支持。同時,該技術還廣泛應用于山地、峽谷和森林等復雜環(huán)境中的行人搜救、軍事監(jiān)察,以及在體育賽事中精準跟蹤特定運動員的動作與狀態(tài),以支持賽事管理與安全等多個領域。近年來,基于無人機的多目標跟蹤領域取得了許多重要的研究成果,為無人機視角下的目標跟蹤問題提供了有效的解決方案。例如,uavmot通過引入id特征更新模塊來增強目標特征的關聯(lián)性;flot結合光流技術和空間匹配方案,提高了跟蹤的準確性和效率;jde算法通過聯(lián)合訓練目標檢測與特征嵌入網絡,實現(xiàn)了精確的目標定位和魯棒的跟蹤性能;motr通過隱式地關聯(lián)多個幀中的時間信息,實現(xiàn)了一種端到端的多目標跟蹤方法。

2、端到端目標檢測:transformer模型是近年來出現(xiàn)的一種新型深度神經網絡。其結構僅由注意力機制和前饋神經網絡組成,完全避免了傳統(tǒng)卷積神經網絡cnn結構的限制。與cnn相比,transformer能夠利用自注意力機制捕獲全局上下文信息。vit作為transformer在圖像識別領域的典范,依賴于自注意力機制,使得其圖像識別率顯著高于基于cnn的模型。detr首次將transformer引入目標檢測,采用基于transfromer的編碼算法和解碼算法架構,繞過了錨點生成和非極大值抑制等傳統(tǒng)手工組件,將檢測視為集合預測問題。由于傳統(tǒng)transformer模型計算量較大,劉等人提出了swin?transformer,以解決計算量大和對密集物體檢測效果差的問題。

3、多目標跟蹤:目前的多目標跟蹤的主流趨勢是利用檢測算法對每一幀中的目標進行檢測,然后利用數(shù)據(jù)關聯(lián)方法將檢測結果與前一幀中的跟蹤目標相關聯(lián),以獲得目標的運動軌跡。其中,數(shù)據(jù)關聯(lián)方法是mot研究的重點。sort算法通過結合卡爾曼濾波和匈牙利算法,實現(xiàn)了實時多目標跟蹤和數(shù)據(jù)關聯(lián)。motdt算法創(chuàng)新性的引入了軌跡評分機制,軌跡越長,可靠性越高。fairmot通過兩個獨立的分支來預測像素級的目標度分數(shù)和reid特征,實現(xiàn)了任務之間的公平性。bytetrack提出了一種簡單高效的數(shù)據(jù)關聯(lián)方法,將高分框和低分框分開,并從低分框中挖掘出更真實的對象。從上述跟蹤算法可以看出,當前的研究方向主要集中在如何設計更好的數(shù)據(jù)關聯(lián)方法。受到這些研究的啟發(fā),


技術實現(xiàn)思路

1、本發(fā)明的目的在于提供一種廣視角特征融合記憶網絡的多目標跟蹤算法,該技術致力于克服現(xiàn)有技術在無人機視角下的局限性,特別是在目標分布廣泛、遠距離小尺寸目標難以捕捉以及目標運動速度較快的情況下,所面臨的跟蹤挑戰(zhàn),通過創(chuàng)新的方法,本發(fā)明旨在實現(xiàn)更精確、更可靠的多目標跟蹤性能。

2、本發(fā)明的發(fā)明思路為:本發(fā)明提出的方法針對無人機在廣視角下的多目標跟蹤進行了改進,由于無人機獲取的視頻分辨率較高且視角較廣,在檢測算法中引入適用于廣視角場景的廣視角特征融合記憶網絡,結合transformer的優(yōu)勢提取輸入特征的長距離依賴特征;在數(shù)據(jù)關聯(lián)方面集成了運動特征提取模型,并利用wiou匹配方法融合空間信息,進一步提高跟蹤精度;該算法旨在增強無人機在監(jiān)控行人和車輛等目標時的精確追蹤能力。通過融合先進的深度學習和計算機視覺技術,本算法能夠精確提取目標特征并實現(xiàn)穩(wěn)定跟蹤,為公共安全、交通管理、城市規(guī)劃和自動駕駛等領域提供了更可靠的技術支持。

3、為了實現(xiàn)上述發(fā)明目的,本發(fā)明采用技術方案具體為:一種廣視角特征融合記憶網絡的多目標跟蹤算法,包括以下步驟:

4、s1、視頻幀預處理與目標檢測:對于由無人機捕獲的視頻序列{vt∈rw×h×3}tt=1,首先將每一幀圖片vt按順序送入基于卷積神經網絡cnn構建的主干網絡中,以提取初步特征。

5、s2、圖片特征信息在廣視角融合記憶網絡(wide-view?feature?memory?network,wvfmn)中進行深度融合。wvfmn的每一層都集成了一個基于transformer架構的廣視角融合記憶模塊(wvfmb)。這些模塊能夠智能地對不同尺度的特征進行加權,構建出一個高效的特征融合機制。通過這種方式,wvfmn能夠捕捉并整合多尺度目標信息,從而顯著提升檢測性能。

6、s3、自適應運動濾波(amf)在濾波過程中引入了軌跡置信度建模,使得amf能夠準確預測目標在下一幀的軌跡,并與目標檢測算法得到的位置框信息相結合。通過其精細的預測和更新步驟,amf實現(xiàn)了對目標的精確跟蹤。以提升系統(tǒng)對無人機運動特性的適應能力,優(yōu)化跟蹤性能。

7、s4、在第一步關聯(lián)中,通過運動特征提取模型(mfem)進行首次關聯(lián),增強對不同目標的識別能力。在第二步關聯(lián)中,基于空間信息的wiou匹配算法進一步優(yōu)化數(shù)據(jù)關聯(lián),同時處理殘余軌跡。通過跟蹤算法的動態(tài)更新,逐步實現(xiàn)對目標位置的調整和優(yōu)化,最終獲得目標的所有軌跡的信息。

8、進一步地,所述s1步驟包括以下步驟:

9、s11、將給定的無人機捕獲的視頻序列{vt∈rw×h×3}tt=1,首先對視頻幀進行預處理,主要包括數(shù)據(jù)增強操作。數(shù)據(jù)增強通過旋轉、縮放、翻轉和亮度調整等方式,豐富數(shù)據(jù)的多樣性,并增強模型在不同視角、光照條件和尺度變化下的適應性。提升模型在無人機多目標跟蹤場景中的檢測和跟蹤表現(xiàn)。

10、s12、接著,將預處理后的視頻幀傳輸至基于卷積神經網絡cnn的主干網絡中,以逐層提取初步特征。特征提取過程通過卷積操作獲取圖像的邊緣、紋理和局部形狀等信息,為后續(xù)的特征融合和目標檢測奠定基礎。這些初步特征隨后被用于識別、分類和定位多個目標,提升在無人機廣視角場景中的多目標跟蹤精度。

11、進一步地,所述s2步驟包括以下步驟:

12、s21、在特征層通過wvfmn模塊的過程中,初始輸入階段將經歷一系列預處理操作,使得網絡能夠學習更深層次和更豐富的特征表示。計算公式如下:

13、xl-2=silu(bn(conv2d(xl-3)))??????????????????????????????(1)

14、s22、隨后,經過預處理后的預測特征層將被送入到局部特征提取塊(lfe?block),以捕獲特征的局部細節(jié)。在編碼結構中,多頭注意力機制逐步累積關鍵特征間的關系信息,確保模型在逐層計算中保留關鍵的上下文關聯(lián),強化了對復雜目標交互的整體感知。這一機制有效結合了全局和局部信息,從而提升模型的表征能力。

15、

16、其中,pe表示將圖像映射到高維度特征的圖像塊嵌入表示。lef和ns分別代表lfeblock和非線性時空塊(ns?block)。fe表示對特征層進行特征編碼。xl-1代表經過transformer編碼后的狀態(tài)。在transformer編碼階段,考慮到多個特征圖輸入的位置信息,在特征層的計算過程中引入了位置偏置,其計算方式如下:

17、

18、其中,b是位置偏置。通過結合transformer模塊的特性與深度卷積算法,wvfmb在逐層信息傳遞中保留了關鍵特征的上下文關聯(lián),從而更有效地提取廣視角下的目標特征。

19、s23、特征層通過ns?block進行非線性建模,以適應多變的環(huán)境和復雜的目標交互。計算公式如下:

20、xl=ln(ns(xl-1)+xl-1)?????????????????????????????????(4)

21、其中,ns代表和ns?block,通過對輸入特征的非線性變換,可以有效地增強特征的表達能力,為后續(xù)的分析和處理提供更為豐富和精確的信息。

22、進一步地,所述s22步驟包括以下步驟:

23、s221、對于給定的輸入特征fl-2∈rc×h×w,首先通過深度可分離卷積(dwconv)對每個輸入通道進行單獨操作,而不混合通道信息。這一過程有效提取了輸入特征圖的局部空間信息,同時減少計算成本和參數(shù)數(shù)量。接著通過1×1卷積操作混合通道信息,得到中間狀態(tài)fl-1定義為:

24、fl-1=conv1×1(dwconv3×3(fl-2))??????????????????????????????(5)

25、s222、中間狀態(tài)fl-1進行歸一化處理,以減少過擬合,同時提供正則化效果。gelu激活函數(shù)的應用有助于更好地保留信息分布,使模型能夠學習更復雜的特征表示,從而提取輸入特征層中的豐富多尺度上下文信息。隨后,通過線性層linear整合為與原始特征層相同的維度。最后,殘差連接將原始輸入與處理后的特征融合,允許模型理解并整合圖像中不同維度的特征,以增強對尺度變化的魯棒性。

26、

27、其中,fl是輸出特征。lfe?block能夠高效捕獲和表示輸入特征圖的局部空間信息,并將其與原始輸入融合以增強特征的表征能力。

28、進一步地,所述s23步驟包括以下步驟:

29、s231、ns?block通過創(chuàng)建z1和z2兩個分支來處理輸入,并在每個分支上以1×1卷積的形式實現(xiàn)全連接層。

30、z1l-1=conv1×1(z1l-2)????????????????????????????????????(7)

31、z2l-1=conv1×1(z2l-2)????????????????????????????????????(8)

32、其中,z2l-1分支上采用深度可分離卷積作為位置編碼模塊,通過殘差級聯(lián)的方式在訓練過程中更有效地回流梯度,從而在訓練過程中提升性能,并保留和利用圖像的空間結構信息。

33、s232、ns?block采用非線性激活函數(shù)gelu來控制每個層次的信息流,然后通過元素乘法與z1l-1的分支合并,以混合通道信息。最后通過殘差連接將原始輸入z2l-1與隱藏層中的特征相加。以捕獲更多的全局特征,生成的輸出特征zl定義為:

34、

35、ns?block通過集成卷積運算來保留空間信息,使得模型對圖像中的細粒度特征更加敏感。同時,將全局依賴關系和全局特征轉移到每個像素,以捕獲臨近特征之間的依賴關系,使上下文信息更加豐富,進一步增強模型的表達能力。

36、進一步地,所述s3步驟包括以下步驟:

37、s31、在標準的卡爾曼濾波算法中,其狀態(tài)表示為物體中心u和v,尺度s和比例r,以及速度分量和公式如下:

38、

39、通過引入兩個新的狀態(tài)置信度c及其速度分量amf的完整狀態(tài)如以下公式所示:

40、

41、s32、為了增強高置信度的影響,使用非線性函數(shù)對檢測和跟蹤的置信度進行映射。將置信度分數(shù)壓縮到[0,1]區(qū)間內,所使用的非線性映射函數(shù)如下:

42、

43、其中,s'(x)表示非線性函數(shù)處理后的置信度分數(shù),x表示原始的置信度分數(shù),γ是控制曲線陡峭程度的參數(shù),這里面取值為5。通過該函數(shù),置信度接近0.5的檢測框得到平滑的調整,高于0.5的檢測框被映射到1.0的范圍內。這樣,高置信度的檢測框和跟蹤框對跟蹤算法的影響被增強,低置信度的權重則會被進一步削弱,從而提升多目標跟蹤中目標匹配的準確性。

44、s33、當使用amf進行預測時,置信度成本增量表示為估計軌跡置信度strack和檢測對象的置信度分數(shù)sdet之間的絕對差,如下公式:

45、cnew=c+|strack-sdet|???????????????????????????????????(13)

46、其中,cnew是調整后的成本矩陣。

47、進一步地,所述s4步驟包括以下步驟:

48、s41、采用分步級聯(lián)匹配策略:第一步中,利用高置信度檢測框與現(xiàn)有軌跡進行匹配,借助運動特征提取模型(mfem)完成初次關聯(lián),從而提升對不同目標的識別與區(qū)分能力。

49、s42、第二步關聯(lián)中,低置信度檢測框通過基于空間信息的wiou算法進行匹配。

50、s43、wiou算法處理殘余軌跡,跟蹤算法進行動態(tài)更新,逐步實現(xiàn)對目標位置的調整和優(yōu)化,獲得目標的所有軌跡的信息。

51、進一步地,所述s41步驟包括以下步驟:

52、s411、將對象的運動特征圖像輸入到mfem中,以提取目標的運動外觀特征。

53、進一步地,所述s411步驟包括以下步驟:

54、s4111、輸入對象的運動特征經由卷積核大小為7×7、步長為2的卷積提取粗粒度的全局特征,降低分辨率并減少計算量。然后,通過平均池化降低特征圖尺寸,進一步壓縮計算開銷。

55、s4112、隨后,特征圖經過1×1卷積進行維度變換后,進入包含四個局部特征分支的特征提取網絡,每個分支通過不同數(shù)量的conv1×1-conv3×3-bn-relu模塊,以捕獲對象在不同空間尺度下的運動信息。這些局部特征在經過共享權值的多層感知機(mlp)處理后,生成具有復雜非線性關系的特征表示,以增強模型在非線性運動中的適應性。

56、s4113、各分支輸出的特征圖拼接為一個高維度的特征列向量,隨后通過全局平均池化生成統(tǒng)一的特征向量:

57、

58、其中,h和w分別表示特征圖的高度和寬度,f(h,w)是特征圖在位置(h,w)上的值。

59、s4114、特征向量被映射id類別空間,通過全連接層的softmax操作輸出類別的概率分布可以表示為:

60、y=softmax(wf+b)????????????????????????????????????(15)

61、其中,w是全連接層的權重,b是偏置項,softmax將輸出特征類別的概率分布。通過上述步驟,模型能夠從檢測框對象中提取運動特征,并生成特征向量表示。該模型為每個物體在不同幀中創(chuàng)建一組外觀特征向量集合,為后續(xù)幀間的目標匹配和跟蹤奠定基礎。

62、進一步地,所述s42步驟包括以下步驟:

63、s421、使用wiou匹配算法計算不同邊界框之間的真實空間距離,而不是僅僅依賴于它們的重疊面積,從而能夠更穩(wěn)健地跟蹤小目標。兩個不同邊界框之間的距離的計算公式可以表示為:

64、

65、其中,bi和bj分別代表兩個邊界框,x,y,w,h分別代表邊界框的中心坐標和寬高。

66、s422、隨后,通過指數(shù)函數(shù)將這一距離轉換為相似性度量wass(di,dj),用于評估兩個小區(qū)域邊界框之間的空間關系:

67、

68、其中,c是一個用于調整相似性敏感度的常數(shù)。通過引入wiou距離,算法為多目標跟蹤領域提供了一種新的、更魯棒的相似性度量方法,適用于處理小目標。

69、與現(xiàn)有技術相比,本發(fā)明的有益效果為:

70、1、本發(fā)明提出了一種基于廣視角特征融合記憶網絡的多目標跟蹤算法,專為應對無人機在廣視角場景下的多目標跟蹤挑戰(zhàn)而設計,具備優(yōu)良的跟蹤效果和魯棒性。

71、2、本發(fā)明提出了一種專為無人機廣視角場景設計的多目標跟蹤算法,稱為widetrack。該算法在確保跟蹤精度的同時,兼顧了計算效率,適用于無人機的實時應用場景。針對廣視角下遠距離目標特征提取困難、目標尺寸較小等問題。

72、3、本發(fā)明設計了廣視角特征融合記憶網絡(wide-view?feature?memorynetwork,wvfmn)。該網絡結合了卷積神經網絡(cnn)和transformer的優(yōu)點,分別提取輸入特征的局部空間信息和長距離依賴特征,從而能夠有效地捕捉遠距離目標的細節(jié),同時增強對無人機視頻中小尺度物體的辨識能力。

73、4、為了應對無人機視角下目標運動速度快、軌跡復雜等問題,widetrack設計了關聯(lián)匹配算法(association?matching?algorithm,ama)。ama通過集成運動特征提取模型和基于空間信息的wiou匹配算法,實現(xiàn)了精準的數(shù)據(jù)關聯(lián)。自適應運動濾波進一步增強了ama的魯棒性,在濾波過程中引入了軌跡置信度建模,確保了跟蹤算法在無人機運動引起的視角變化下能夠穩(wěn)健地更新目標軌跡位置。通過這些創(chuàng)新,widetrack能夠高效識別并準確跟蹤廣視角下無人機拍攝的行人和車輛等多種目標,為無人機在復雜動態(tài)場景中的多目標跟蹤提供了可靠的解決方案。

當前第1頁1 2 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
宾川县| 温泉县| 清远市| 长海县| 扶余县| 定西市| 上林县| 寿光市| 日土县| 封开县| 仙桃市| 彝良县| 莒南县| 阜新市| 黎川县| 策勒县| 柳州市| 长治县| 大渡口区| 彰武县| 景洪市| 杭锦旗| 平舆县| 镇远县| 琼结县| 雅安市| 富宁县| 雷波县| 溆浦县| 芦溪县| 池州市| 柘荣县| 辽源市| 苍梧县| 彰化市| 札达县| 区。| 通渭县| 修水县| 永福县| 南皮县|