基于深度強化學習的無人機兩階段目標搜索與跟蹤方法

文檔序號：40431186發(fā)布日期：2024-12-24 15:04閱讀：7來源：國知局

本發(fā)明涉及無人機救援，尤其是一種基于深度強化學習的無人機兩階段目標搜索與跟蹤方法。

背景技術(shù)：

1、隨著技術(shù)的不斷進步，無人機在智能化、續(xù)航能力、載荷能力、抗干擾性等方面均取得了顯著的提升，使其能夠適應更多樣化的應用場景。

2、然而，在災難救援任務中，如地震、洪水或泥石流等發(fā)生后，災區(qū)往往地形復雜、通訊中斷，無人機可能面臨基礎(chǔ)設(shè)施損毀、自然環(huán)境惡劣、人為因素干擾等問題，使得無人機處于通信拒止的環(huán)境。這時，無人機的感知能力可能會受到嚴重影響，導致無人機難以發(fā)現(xiàn)被困人員或重要線索，降低搜救的成功率。其次，在通信拒止環(huán)境下，無人機可能無法實時接收地面控制指令，這對無人機的自主控制決策能力提出了很大的要求。

3、近年來，一些先進的技術(shù)如模型預測控制、基于優(yōu)化的方法和智能優(yōu)化算法已被成功應用于無人機的決策過程中。這些方法為無人機提供了在復雜環(huán)境中進行高效導航和任務執(zhí)行的能力。但這些方法存在明顯的局限性。一方面，很多方法依賴于精確的數(shù)學模型，但這些模型很難完全適用于實際、復雜多變的環(huán)境。另一方面，這些方法嚴重依賴于傳感器信息，而傳感器的準確性和可靠性往往會受到環(huán)境因素的干擾。

技術(shù)實現(xiàn)思路

1、針對現(xiàn)有技術(shù)的不足，本發(fā)明提供一種基于深度強化學習的無人機兩階段目標搜索與跟蹤方法，本發(fā)明通過將搜索和救援任務分成搜索階段和跟蹤階段，以提高無人機在災后救援環(huán)境中發(fā)現(xiàn)目標并跟蹤目標的能力。

2、本發(fā)明的技術(shù)方案為：一種基于深度強化學習的無人機兩階段目標搜索與跟蹤方法，包括以下步驟：

3、步驟1：將搜索與救援任務分為搜索階段和跟蹤階段；

4、步驟2：構(gòu)建深度確定性策略梯度決策模型ddpg-3c，并根據(jù)搜索階段和跟蹤階段對決策模型ddpg-3c進行相應的訓練；

5、步驟3：將訓練好的相應的深度確定性策略梯度決策模型ddpg-3c分別載入搜索階段和跟蹤階段的無人機控制器；

6、步驟4：通過判定檢測目標是否在無人機的雷達探測范圍內(nèi)，以進行搜索階段和跟蹤階段的切換。

7、作為優(yōu)選的，所述的深度確定性策略梯度決策模型ddpg-3c包括actor模塊和critic模塊；其中，所述的actor模塊包括actor網(wǎng)絡(luò)和目標actor網(wǎng)絡(luò)；所述的critic模塊包括三個critic網(wǎng)絡(luò)和三個目標critic網(wǎng)絡(luò)；在無人機與環(huán)境的交互過程中，所述的無人機被視為一個搭載了決策模型ddpg-3c的智能體，當智能體從環(huán)境中接收到狀態(tài)信息si時，所述的actor網(wǎng)絡(luò)根據(jù)狀態(tài)信息si輸出相應的動作ai；智能體隨后執(zhí)行動作ai；執(zhí)行動作后，環(huán)境會對此做出響應si′并返回相應的獎勵ri給智能體；隨后智能體將狀態(tài)信息si、動作ai、響應si′、獎勵ri存儲到經(jīng)驗回放緩沖區(qū)中；智能體會定期從經(jīng)驗回放緩沖區(qū)中隨機抽取一個小批量的數(shù)據(jù)樣本來更新actor網(wǎng)絡(luò)和critic網(wǎng)絡(luò)的參數(shù)。

8、作為優(yōu)選的，所述的深度確定性策略梯度決策模型ddpg-3c采用經(jīng)驗回放緩沖機制，通過去除三個估計q值中的最大值，以剩余兩個估計q值的平均值作為目標估計q值。

9、作為優(yōu)選的，所述的actor網(wǎng)絡(luò)負責將環(huán)境狀態(tài)轉(zhuǎn)換為動作，其目標為學習一個策略以最大化未來的預期回報，即：

10、

11、式中，r1表示從狀態(tài)s0開始獲得的獎勵值；τμ表示在策略μ下的狀態(tài)分布；θμ為actor網(wǎng)絡(luò)的參數(shù)；j(θμ)表示在策略μ下從狀態(tài)s0開始得到的平均獎勵值；表示數(shù)學期望；

12、通過策略梯度定理算得到以下的更新梯度公式：

13、

14、式中，表示策略相對于actor網(wǎng)絡(luò)參數(shù)θμ的梯度；

15、表示動作值函數(shù)相對于動作a的梯度；n表示批大小，即每次訓練迭代期間從回放緩沖區(qū)中采樣的經(jīng)驗數(shù)據(jù)量；在計算actor網(wǎng)絡(luò)的損失時，只使用第一個critic網(wǎng)絡(luò)來預測q值；表示critic網(wǎng)絡(luò)的參數(shù)，q表示critic網(wǎng)絡(luò)的輸出值。

16、作為優(yōu)選的，所述的目標actor網(wǎng)絡(luò)的參數(shù)通過軟更新策略進行更新：

17、θμ′＝τθμ+(1-τ)θμ′；

18、式中，θμ′表示目標actor網(wǎng)絡(luò)的參數(shù)；τ為軟更新系數(shù)；θμ為actor網(wǎng)絡(luò)的參數(shù)。

19、作為優(yōu)選的，通過三個所述的critic網(wǎng)絡(luò)和三個所述的目標critic網(wǎng)絡(luò)來獨立估計q值，三個所述的critic網(wǎng)絡(luò)結(jié)構(gòu)相同，且每個所述的critic網(wǎng)絡(luò)據(jù)給定狀態(tài)和動作對(狀態(tài)信息s、動作a)估計q值；每一次迭代去除最大的q值，再將另外兩個q值取平均作為當前的目標q值；即：

20、

21、式中，yt是critic網(wǎng)絡(luò)的更新目標；rt表示從環(huán)境中得到的獎勵值；γ表示折扣因子，用于計算未來獎勵的現(xiàn)值，有助于確定長期的優(yōu)化策略；a′表示目標critic網(wǎng)絡(luò)根據(jù)下一狀態(tài)s′輸出的動作；表示三目標critic網(wǎng)絡(luò)輸出的較低的兩個目標q值。

22、作為優(yōu)選的，所述的critic網(wǎng)絡(luò)的損失函數(shù)的表達式為：

23、

24、式中，mse表示均方根誤差，表示相應critic網(wǎng)絡(luò)輸出的q值；

25、通過損失函數(shù)計算得到損失值后，通過以下的更新梯度公式來更新critic網(wǎng)絡(luò)的參數(shù)

26、

27、式中，表示損失值相對于critic網(wǎng)絡(luò)參數(shù)的梯度；n表示批大?。?/p>

28、所述的目標critic網(wǎng)絡(luò)的參數(shù)通過軟更新策略進行更新：

29、

30、τ為軟更新系數(shù)。

31、作為優(yōu)選的，所述的actor網(wǎng)絡(luò)和critic網(wǎng)絡(luò)均包括相應的輸入層、第一dense層、第二dense層、第三dense層、輸出層。

32、作為優(yōu)選的，在所述的搜索階段，無人機控制器的優(yōu)化目標是使無人機覆蓋到整個環(huán)境，并迅速定位目標；如果目標被無人機的雷達探測到，無人機將切換到跟蹤模式；在跟蹤階段，無人機控制器的目標是持續(xù)地跟蹤動態(tài)目標。

33、作為優(yōu)選的，在所述的搜索階段，無人機的強化學習的狀態(tài)空間為：

34、s＝[dronex,droney,dronevx,dronevy,obstacledx,obstacledy]

35、如果障礙物不在無人機的雷達范圍內(nèi)，則障礙物的距離標記為1，

36、式中，dronex表示無人機在二維平面x軸方向的位置，歸一化范圍為[-1,1]；

37、droney表示無人機在二維平面y軸方向的位置，歸一化范圍為[-1,1]；

38、dronevx表示無人機在二維平面x軸方向的速度，歸一化范圍為[-1,1]；

39、dronevy表示無人機在二維平面y軸方向的速度，歸一化范圍為[-1,1]；

40、obstacledx表示無人機檢測到的障礙物在二維平面x軸方向的距離，歸一化范圍為[0,1]；

41、obstacledy表示無人機檢測到的障礙物在二維平面y軸方向的距離，歸一化范圍為[0,1]。

42、作為優(yōu)選的，在搜索場景中的獎勵函數(shù)包括過程獎勵和終端獎勵，每一步都會產(chǎn)生一個過程獎勵rstep，以鼓勵智能體快速完成覆蓋任務，同時，當智能體覆蓋新的區(qū)域時，會獲得過程獎勵rcoverage；如果無人機(智能體)覆蓋的范圍達到了整個救援區(qū)域的95％，則給予終端獎勵rcomplete；如果無人機與障礙物相撞或者離開了救援區(qū)域，智能體將會受到負的終端獎勵rcollosion，在搜索場景獎勵函數(shù)r如下所示：

43、r＝∑rstep+p∑rcoverage+rcomplete+rcollosion；

44、式中，p為獎勵比例；

45、作為優(yōu)選的，在跟蹤階段，所述的無人機的強化學習的狀態(tài)空間為：

46、s＝[dronex,droney,dronevx,dronevy,targetdx,targetdy,targetvx,targetvy,obstacledx,obstacledy]

47、式中，targetdx,targetdy分別表示無人機檢測到的目標在二維平面x軸和y軸方向的距離；targetvx,targetvy分別表示無人機檢測到的目標在二維平面x軸和y軸方向的速度；其歸一化后的范圍為[0,1]；如果目標不在無人機的雷達范圍內(nèi)，則目標的距離標記為1，速度標記為0。

48、作為優(yōu)選的，在跟蹤階段，所述的無人機的每一步都會收到一個接近目標的獎勵rpro；所述的接近目標的獎勵rpro用無人機和目標之間的歐幾里德距離表示：

49、

50、式中，分母的0.5用于避免在距離非常近或為零時分母變?yōu)榱愕那闆r，確保公式的穩(wěn)定性，如果無人機與障礙物相撞或者離開了救援區(qū)域，智能體將會受到負的終端獎勵rcollosion；因此，跟蹤階段的獎勵函數(shù)如下所示：

51、r＝∑rpro+rcollosion。

52、本發(fā)明的有益效果為：

53、1、本發(fā)明通過將搜救任務劃分為目標搜索和目標跟蹤兩個階段，每個階段都能針對性地優(yōu)化其控制策略和算法，這種分階段的方法允許在搜索階段擴大搜索范圍和提高發(fā)現(xiàn)速度，在跟蹤階段則專注于提高對動態(tài)目標的追蹤精度和響應速度，不僅提高了各階段的效率，也使得整個系統(tǒng)更加靈活，能夠針對不同的操作需求調(diào)整策略；

54、2、本發(fā)明通過優(yōu)化獎勵設(shè)計，減少了復雜獎勵函數(shù)的依賴，簡化了模型的訓練過程，降低了計算復雜性；

55、3、本發(fā)明的ddpg-3c模型不依賴于精確的數(shù)學模型來進行決策，使得本發(fā)明在面對復雜和動態(tài)變化的環(huán)境時能夠展現(xiàn)出更強的適應性，通過與環(huán)境的交互來學習和優(yōu)化策略，而不是依賴預先定義的模型參數(shù)，從而能夠更好地應對未知或變化的條件；

56、4、本發(fā)明ddpg-3c通過引入三個critic網(wǎng)絡(luò)并去除三個q值中的最大值，使用剩余兩個的平均值作為目標q值，顯著減少了過估計問題，提高了價值估計的準確性，從而使策略學習過程更穩(wěn)定，加快了收斂速度，提高了決策的可靠性。

完整全部詳細技術(shù)資料下載

當前第1頁1 2

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉昆,劉美
技術(shù)所有人：中山大學
我是此專利的發(fā)明人

上一篇：一種無塵開槽裝置的制作方法
上一篇：一種Tray盤的放料設(shè)備的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、唐老師：1.高效節(jié)能裝備 2.流動穩(wěn)定性 3.汽車流場分析和淀粉糖工藝技術(shù)。
2、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設(shè)計 2.汽車檢測系統(tǒng)設(shè)計 3.汽車電子控制系統(tǒng)設(shè)計
3、王老師：電子信息處理、先進檢測方法和智能化儀表
4、周老師：1.智能電網(wǎng) 2.新能源利用 3.泛在電力物聯(lián)網(wǎng)
5、趙老師：檢測與控制技術(shù)、機器人技術(shù)、機電一體化技術(shù)
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于深度強化學習的無人機兩階段目標搜索與跟蹤方法