本發(fā)明涉及具身智能、多模態(tài)、導航領域,尤其涉及一種基于視覺目標參照引導的無人機視覺語言導航方法。
背景技術:
1、在視覺語言導航領域,具身代理的主要任務是依據接收到的自然語言指令,以實現(xiàn)從起點到目標地點的有效導航。隨著人工智能技術的飛速發(fā)展,視覺語言導航已經迅速成為研究的熱點,這得益于其在科學探索上的深遠意義以及在多個行業(yè)中的應用潛力。視覺語言導航技術的應用前景廣闊,尤其在無人機領域,它可以使無人機更加自主地執(zhí)行復雜任務,如搜索和救援、環(huán)境監(jiān)測或農業(yè)調查。未來,隨著技術的進一步成熟,我們可以預見視覺語言導航將在更多領域發(fā)揮關鍵作用,為人類社會帶來更多便利和創(chuàng)新解決方案。
2、在視覺語言導航的研究前沿,導航行為決策環(huán)節(jié)對于智能體的自主導航至關重要,它要求智能體能夠綜合視覺輸入所揭示的環(huán)境信息與自然語言導航指令進行決策。智能體根據接收到的自然語言指令和視覺觀測信息生成一系列準確的導航動作是實現(xiàn)高效導航的關鍵。對于不同的視覺語言導航任務,研究者利用長短期記憶網絡lstm、圖神經網絡gnn和transformer等網絡結構,提出了特征到動作空間的映射方法。lstm因其在處理序列數(shù)據方面的優(yōu)勢而在視覺語言導航任務中被廣泛使用,這些方法通過有效捕捉歷史觀測與動作間的長期依賴,支持智能體在離散環(huán)境中的決策?;趃raph和transformer的視覺語言導航方法則通過構建環(huán)境的圖表示或利用自注意力機制,實現(xiàn)對場景中實體間的復雜關系的有效捕獲。這些方法共同推進了視覺語言導航任務的發(fā)展。
3、在無人機視覺語言導航的行為決策方面,由于無人機在空中的行動范圍更加寬廣,動作決策的維度也更高,因此執(zhí)行視覺語言導航任務時導航指令中的行為復雜度也更高。目前大部分方法在執(zhí)行動作決策時主要依賴當前時刻視覺觀測特征與全局上下文的文本特征之間相似性,忽視了文本中關鍵參照物對應的視覺目標在每個導航行為中的動態(tài)變化,這種視覺引導信息可以使得模型對導航行為具備邏輯推理的能力。
技術實現(xiàn)思路
1、針對大范圍動作維度更多導致的導航動作難自主的問題,以視覺信息引導模型實現(xiàn)導航行為的邏輯推理為目標,本發(fā)明提供一種基于視覺目標參照引導的無人機視覺語言導航方法。
2、為達到上述目的,本發(fā)明采用如下的技術方案:
3、一種基于視覺目標參照引導的無人機視覺語言導航方法,包括如下步驟:
4、s1、利用導航任務解析模塊將導航指令劃分為多個子任務,并為每個子任務建立不同階段的參照,在經過文本編碼器以后通過子任務切換模塊獲取當前執(zhí)行子任務的文本特征;
5、s2、通過目標定位模塊中的目標檢測網絡識別當前時刻導航場景中的各類目標對象,并利用視覺編碼器獲取前視圖像的視覺特征;
6、s3、將參照的導航文本通過目標解析模塊轉化為一階邏輯程序,結合當前時刻的前視圖像輸入到目標定位模塊實現(xiàn)關鍵目標的定位;
7、s4、利用視覺引導模塊學習當前導航行為,并將更新后的視覺文本特征輸入多模態(tài)編碼器引導當前子任務各個時刻導航動作的輸出,訓練時引入一種自適應加權機制來最小化損失。
8、進一步地,所述s4中,所述視覺引導模塊實現(xiàn):
9、通過將之前視覺定位模塊捕獲到的各個參照物在場景中的具體位置信息編碼為絕對位置特征,再結合目標的視覺特征共同構成這些參照物的視覺目標tokens,接著為了充分利用參照物的視覺信息,使得當前導航子任務中的導航行為對應的文本tokens能夠充分感知到參照物在場景中空間位置的變化,從而邏輯推理出對應的導航決策,我們采用了雙流的transformer結構對導航行為的文本tokens和視覺目標tokens進行跨模態(tài)的交互與對齊,使得生成的導航行為決策的可靠性進一步提升。
10、進一步地,所述s4中,所述自適應加權機制具體為:
11、在導航文本分析和場景解析的基礎上,首先針對每個子任務的導航行為進行難度系數(shù)評定,通過基于視覺觀測的復雜度估計以及基于導航行為的復雜度估計實現(xiàn)對當前導航行為的綜合難度認知,然后設計損失函數(shù)對應的權重系數(shù),最后結合模型的模擬與強化學習進行訓練。
12、本發(fā)明提供的技術方案通過基于雙流transformer網絡結構的視覺引導模塊以及自適應加權機制增強了導航決策的邏輯性和可解釋性,顯著提高了無人機的自主導航能力和任務執(zhí)行效率。以下是詳細闡述的有益效果:
13、1、增強空間感知能力:視覺引導模塊通過編碼參照物的絕對位置特征,使得無人機能夠精確感知環(huán)境中的關鍵目標位置的動態(tài)變化,從而提高了無人機在復雜環(huán)境中決策的可靠性。
14、2、個性化的導航策略:自適應加權機制根據每個子任務的難度和視覺觀測的復雜度動態(tài)調整訓練權重,使得無人機能夠針對不同任務制定個性化的導航策略,提高導航的靈活性和適應性。
1.一種基于視覺目標參照引導的無人機視覺語言導航方法,其特征在于,包括如下步驟:
2.根據權利要求1所述的一種基于視覺目標參照引導的無人機視覺語言導航方法,其特征在于,所述s4中,所述視覺引導模塊實現(xiàn):
3.根據權利要求1所述的一種基于視覺目標參照引導的無人機視覺語言導航方法,其特征在于,所述s4中,所述自適應加權機制具體為: