欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于深度強化學習的無人機兩階段目標搜索與跟蹤方法

文檔序號:40431186發(fā)布日期:2024-12-24 15:04閱讀:7來源:國知局
基于深度強化學習的無人機兩階段目標搜索與跟蹤方法

本發(fā)明涉及無人機救援,尤其是一種基于深度強化學習的無人機兩階段目標搜索與跟蹤方法。


背景技術(shù):

1、隨著技術(shù)的不斷進步,無人機在智能化、續(xù)航能力、載荷能力、抗干擾性等方面均取得了顯著的提升,使其能夠適應更多樣化的應用場景。

2、然而,在災難救援任務中,如地震、洪水或泥石流等發(fā)生后,災區(qū)往往地形復雜、通訊中斷,無人機可能面臨基礎(chǔ)設(shè)施損毀、自然環(huán)境惡劣、人為因素干擾等問題,使得無人機處于通信拒止的環(huán)境。這時,無人機的感知能力可能會受到嚴重影響,導致無人機難以發(fā)現(xiàn)被困人員或重要線索,降低搜救的成功率。其次,在通信拒止環(huán)境下,無人機可能無法實時接收地面控制指令,這對無人機的自主控制決策能力提出了很大的要求。

3、近年來,一些先進的技術(shù)如模型預測控制、基于優(yōu)化的方法和智能優(yōu)化算法已被成功應用于無人機的決策過程中。這些方法為無人機提供了在復雜環(huán)境中進行高效導航和任務執(zhí)行的能力。但這些方法存在明顯的局限性。一方面,很多方法依賴于精確的數(shù)學模型,但這些模型很難完全適用于實際、復雜多變的環(huán)境。另一方面,這些方法嚴重依賴于傳感器信息,而傳感器的準確性和可靠性往往會受到環(huán)境因素的干擾。


技術(shù)實現(xiàn)思路

1、針對現(xiàn)有技術(shù)的不足,本發(fā)明提供一種基于深度強化學習的無人機兩階段目標搜索與跟蹤方法,本發(fā)明通過將搜索和救援任務分成搜索階段和跟蹤階段,以提高無人機在災后救援環(huán)境中發(fā)現(xiàn)目標并跟蹤目標的能力。

2、本發(fā)明的技術(shù)方案為:一種基于深度強化學習的無人機兩階段目標搜索與跟蹤方法,包括以下步驟:

3、步驟1:將搜索與救援任務分為搜索階段和跟蹤階段;

4、步驟2:構(gòu)建深度確定性策略梯度決策模型ddpg-3c,并根據(jù)搜索階段和跟蹤階段對決策模型ddpg-3c進行相應的訓練;

5、步驟3:將訓練好的相應的深度確定性策略梯度決策模型ddpg-3c分別載入搜索階段和跟蹤階段的無人機控制器;

6、步驟4:通過判定檢測目標是否在無人機的雷達探測范圍內(nèi),以進行搜索階段和跟蹤階段的切換。

7、作為優(yōu)選的,所述的深度確定性策略梯度決策模型ddpg-3c包括actor模塊和critic模塊;其中,所述的actor模塊包括actor網(wǎng)絡(luò)和目標actor網(wǎng)絡(luò);所述的critic模塊包括三個critic網(wǎng)絡(luò)和三個目標critic網(wǎng)絡(luò);在無人機與環(huán)境的交互過程中,所述的無人機被視為一個搭載了決策模型ddpg-3c的智能體,當智能體從環(huán)境中接收到狀態(tài)信息si時,所述的actor網(wǎng)絡(luò)根據(jù)狀態(tài)信息si輸出相應的動作ai;智能體隨后執(zhí)行動作ai;執(zhí)行動作后,環(huán)境會對此做出響應si′并返回相應的獎勵ri給智能體;隨后智能體將狀態(tài)信息si、動作ai、響應si′、獎勵ri存儲到經(jīng)驗回放緩沖區(qū)中;智能體會定期從經(jīng)驗回放緩沖區(qū)中隨機抽取一個小批量的數(shù)據(jù)樣本來更新actor網(wǎng)絡(luò)和critic網(wǎng)絡(luò)的參數(shù)。

8、作為優(yōu)選的,所述的深度確定性策略梯度決策模型ddpg-3c采用經(jīng)驗回放緩沖機制,通過去除三個估計q值中的最大值,以剩余兩個估計q值的平均值作為目標估計q值。

9、作為優(yōu)選的,所述的actor網(wǎng)絡(luò)負責將環(huán)境狀態(tài)轉(zhuǎn)換為動作,其目標為學習一個策略以最大化未來的預期回報,即:

10、

11、式中,r1表示從狀態(tài)s0開始獲得的獎勵值;τμ表示在策略μ下的狀態(tài)分布;θμ為actor網(wǎng)絡(luò)的參數(shù);j(θμ)表示在策略μ下從狀態(tài)s0開始得到的平均獎勵值;表示數(shù)學期望;

12、通過策略梯度定理算得到以下的更新梯度公式:

13、

14、式中,表示策略相對于actor網(wǎng)絡(luò)參數(shù)θμ的梯度;

15、表示動作值函數(shù)相對于動作a的梯度;n表示批大小,即每次訓練迭代期間從回放緩沖區(qū)中采樣的經(jīng)驗數(shù)據(jù)量;在計算actor網(wǎng)絡(luò)的損失時,只使用第一個critic網(wǎng)絡(luò)來預測q值;表示critic網(wǎng)絡(luò)的參數(shù),q表示critic網(wǎng)絡(luò)的輸出值。

16、作為優(yōu)選的,所述的目標actor網(wǎng)絡(luò)的參數(shù)通過軟更新策略進行更新:

17、θμ′=τθμ+(1-τ)θμ′;

18、式中,θμ′表示目標actor網(wǎng)絡(luò)的參數(shù);τ為軟更新系數(shù);θμ為actor網(wǎng)絡(luò)的參數(shù)。

19、作為優(yōu)選的,通過三個所述的critic網(wǎng)絡(luò)和三個所述的目標critic網(wǎng)絡(luò)來獨立估計q值,三個所述的critic網(wǎng)絡(luò)結(jié)構(gòu)相同,且每個所述的critic網(wǎng)絡(luò)據(jù)給定狀態(tài)和動作對(狀態(tài)信息s、動作a)估計q值;每一次迭代去除最大的q值,再將另外兩個q值取平均作為當前的目標q值;即:

20、

21、式中,yt是critic網(wǎng)絡(luò)的更新目標;rt表示從環(huán)境中得到的獎勵值;γ表示折扣因子,用于計算未來獎勵的現(xiàn)值,有助于確定長期的優(yōu)化策略;a′表示目標critic網(wǎng)絡(luò)根據(jù)下一狀態(tài)s′輸出的動作;表示三目標critic網(wǎng)絡(luò)輸出的較低的兩個目標q值。

22、作為優(yōu)選的,所述的critic網(wǎng)絡(luò)的損失函數(shù)的表達式為:

23、

24、式中,mse表示均方根誤差,表示相應critic網(wǎng)絡(luò)輸出的q值;

25、通過損失函數(shù)計算得到損失值后,通過以下的更新梯度公式來更新critic網(wǎng)絡(luò)的參數(shù)

26、

27、式中,表示損失值相對于critic網(wǎng)絡(luò)參數(shù)的梯度;n表示批大?。?/p>

28、所述的目標critic網(wǎng)絡(luò)的參數(shù)通過軟更新策略進行更新:

29、

30、τ為軟更新系數(shù)。

31、作為優(yōu)選的,所述的actor網(wǎng)絡(luò)和critic網(wǎng)絡(luò)均包括相應的輸入層、第一dense層、第二dense層、第三dense層、輸出層。

32、作為優(yōu)選的,在所述的搜索階段,無人機控制器的優(yōu)化目標是使無人機覆蓋到整個環(huán)境,并迅速定位目標;如果目標被無人機的雷達探測到,無人機將切換到跟蹤模式;在跟蹤階段,無人機控制器的目標是持續(xù)地跟蹤動態(tài)目標。

33、作為優(yōu)選的,在所述的搜索階段,無人機的強化學習的狀態(tài)空間為:

34、s=[dronex,droney,dronevx,dronevy,obstacledx,obstacledy]

35、如果障礙物不在無人機的雷達范圍內(nèi),則障礙物的距離標記為1,

36、式中,dronex表示無人機在二維平面x軸方向的位置,歸一化范圍為[-1,1];

37、droney表示無人機在二維平面y軸方向的位置,歸一化范圍為[-1,1];

38、dronevx表示無人機在二維平面x軸方向的速度,歸一化范圍為[-1,1];

39、dronevy表示無人機在二維平面y軸方向的速度,歸一化范圍為[-1,1];

40、obstacledx表示無人機檢測到的障礙物在二維平面x軸方向的距離,歸一化范圍為[0,1];

41、obstacledy表示無人機檢測到的障礙物在二維平面y軸方向的距離,歸一化范圍為[0,1]。

42、作為優(yōu)選的,在搜索場景中的獎勵函數(shù)包括過程獎勵和終端獎勵,每一步都會產(chǎn)生一個過程獎勵rstep,以鼓勵智能體快速完成覆蓋任務,同時,當智能體覆蓋新的區(qū)域時,會獲得過程獎勵rcoverage;如果無人機(智能體)覆蓋的范圍達到了整個救援區(qū)域的95%,則給予終端獎勵rcomplete;如果無人機與障礙物相撞或者離開了救援區(qū)域,智能體將會受到負的終端獎勵rcollosion,在搜索場景獎勵函數(shù)r如下所示:

43、r=∑rstep+p∑rcoverage+rcomplete+rcollosion;

44、式中,p為獎勵比例;

45、作為優(yōu)選的,在跟蹤階段,所述的無人機的強化學習的狀態(tài)空間為:

46、s=[dronex,droney,dronevx,dronevy,targetdx,targetdy,targetvx,targetvy,obstacledx,obstacledy]

47、式中,targetdx,targetdy分別表示無人機檢測到的目標在二維平面x軸和y軸方向的距離;targetvx,targetvy分別表示無人機檢測到的目標在二維平面x軸和y軸方向的速度;其歸一化后的范圍為[0,1];如果目標不在無人機的雷達范圍內(nèi),則目標的距離標記為1,速度標記為0。

48、作為優(yōu)選的,在跟蹤階段,所述的無人機的每一步都會收到一個接近目標的獎勵rpro;所述的接近目標的獎勵rpro用無人機和目標之間的歐幾里德距離表示:

49、

50、式中,分母的0.5用于避免在距離非常近或為零時分母變?yōu)榱愕那闆r,確保公式的穩(wěn)定性,如果無人機與障礙物相撞或者離開了救援區(qū)域,智能體將會受到負的終端獎勵rcollosion;因此,跟蹤階段的獎勵函數(shù)如下所示:

51、r=∑rpro+rcollosion。

52、本發(fā)明的有益效果為:

53、1、本發(fā)明通過將搜救任務劃分為目標搜索和目標跟蹤兩個階段,每個階段都能針對性地優(yōu)化其控制策略和算法,這種分階段的方法允許在搜索階段擴大搜索范圍和提高發(fā)現(xiàn)速度,在跟蹤階段則專注于提高對動態(tài)目標的追蹤精度和響應速度,不僅提高了各階段的效率,也使得整個系統(tǒng)更加靈活,能夠針對不同的操作需求調(diào)整策略;

54、2、本發(fā)明通過優(yōu)化獎勵設(shè)計,減少了復雜獎勵函數(shù)的依賴,簡化了模型的訓練過程,降低了計算復雜性;

55、3、本發(fā)明的ddpg-3c模型不依賴于精確的數(shù)學模型來進行決策,使得本發(fā)明在面對復雜和動態(tài)變化的環(huán)境時能夠展現(xiàn)出更強的適應性,通過與環(huán)境的交互來學習和優(yōu)化策略,而不是依賴預先定義的模型參數(shù),從而能夠更好地應對未知或變化的條件;

56、4、本發(fā)明ddpg-3c通過引入三個critic網(wǎng)絡(luò)并去除三個q值中的最大值,使用剩余兩個的平均值作為目標q值,顯著減少了過估計問題,提高了價值估計的準確性,從而使策略學習過程更穩(wěn)定,加快了收斂速度,提高了決策的可靠性。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
芜湖县| 格尔木市| 新田县| 海城市| 太康县| 平江县| 嘉鱼县| 乌恰县| 镇宁| 麻栗坡县| 洛南县| 江阴市| 朔州市| 鹰潭市| 页游| 葫芦岛市| 丹棱县| 凤凰县| 泾川县| 克山县| 武夷山市| 鄱阳县| 社旗县| 托克托县| 定陶县| 龙泉市| 页游| 修水县| 平武县| 拉萨市| 龙南县| 宣恩县| 丘北县| 鹤庆县| 株洲县| 农安县| 垣曲县| 湘潭市| 赣州市| 阿拉善右旗| 余庆县|