本發(fā)明涉及無人機救援,尤其是一種基于深度強化學習的無人機兩階段目標搜索與跟蹤方法。
背景技術(shù):
1、隨著技術(shù)的不斷進步,無人機在智能化、續(xù)航能力、載荷能力、抗干擾性等方面均取得了顯著的提升,使其能夠適應更多樣化的應用場景。
2、然而,在災難救援任務中,如地震、洪水或泥石流等發(fā)生后,災區(qū)往往地形復雜、通訊中斷,無人機可能面臨基礎(chǔ)設(shè)施損毀、自然環(huán)境惡劣、人為因素干擾等問題,使得無人機處于通信拒止的環(huán)境。這時,無人機的感知能力可能會受到嚴重影響,導致無人機難以發(fā)現(xiàn)被困人員或重要線索,降低搜救的成功率。其次,在通信拒止環(huán)境下,無人機可能無法實時接收地面控制指令,這對無人機的自主控制決策能力提出了很大的要求。
3、近年來,一些先進的技術(shù)如模型預測控制、基于優(yōu)化的方法和智能優(yōu)化算法已被成功應用于無人機的決策過程中。這些方法為無人機提供了在復雜環(huán)境中進行高效導航和任務執(zhí)行的能力。但這些方法存在明顯的局限性。一方面,很多方法依賴于精確的數(shù)學模型,但這些模型很難完全適用于實際、復雜多變的環(huán)境。另一方面,這些方法嚴重依賴于傳感器信息,而傳感器的準確性和可靠性往往會受到環(huán)境因素的干擾。
技術(shù)實現(xiàn)思路
1、針對現(xiàn)有技術(shù)的不足,本發(fā)明提供一種基于深度強化學習的無人機兩階段目標搜索與跟蹤方法,本發(fā)明通過將搜索和救援任務分成搜索階段和跟蹤階段,以提高無人機在災后救援環(huán)境中發(fā)現(xiàn)目標并跟蹤目標的能力。
2、本發(fā)明的技術(shù)方案為:一種基于深度強化學習的無人機兩階段目標搜索與跟蹤方法,包括以下步驟:
3、步驟1:將搜索與救援任務分為搜索階段和跟蹤階段;
4、步驟2:構(gòu)建深度確定性策略梯度決策模型ddpg-3c,并根據(jù)搜索階段和跟蹤階段對決策模型ddpg-3c進行相應的訓練;
5、步驟3:將訓練好的相應的深度確定性策略梯度決策模型ddpg-3c分別載入搜索階段和跟蹤階段的無人機控制器;
6、步驟4:通過判定檢測目標是否在無人機的雷達探測范圍內(nèi),以進行搜索階段和跟蹤階段的切換。
7、作為優(yōu)選的,所述的深度確定性策略梯度決策模型ddpg-3c包括actor模塊和critic模塊;其中,所述的actor模塊包括actor網(wǎng)絡(luò)和目標actor網(wǎng)絡(luò);所述的critic模塊包括三個critic網(wǎng)絡(luò)和三個目標critic網(wǎng)絡(luò);在無人機與環(huán)境的交互過程中,所述的無人機被視為一個搭載了決策模型ddpg-3c的智能體,當智能體從環(huán)境中接收到狀態(tài)信息si時,所述的actor網(wǎng)絡(luò)根據(jù)狀態(tài)信息si輸出相應的動作ai;智能體隨后執(zhí)行動作ai;執(zhí)行動作后,環(huán)境會對此做出響應si′并返回相應的獎勵ri給智能體;隨后智能體將狀態(tài)信息si、動作ai、響應si′、獎勵ri存儲到經(jīng)驗回放緩沖區(qū)中;智能體會定期從經(jīng)驗回放緩沖區(qū)中隨機抽取一個小批量的數(shù)據(jù)樣本來更新actor網(wǎng)絡(luò)和critic網(wǎng)絡(luò)的參數(shù)。
8、作為優(yōu)選的,所述的深度確定性策略梯度決策模型ddpg-3c采用經(jīng)驗回放緩沖機制,通過去除三個估計q值中的最大值,以剩余兩個估計q值的平均值作為目標估計q值。
9、作為優(yōu)選的,所述的actor網(wǎng)絡(luò)負責將環(huán)境狀態(tài)轉(zhuǎn)換為動作,其目標為學習一個策略以最大化未來的預期回報,即:
10、
11、式中,r1表示從狀態(tài)s0開始獲得的獎勵值;τμ表示在策略μ下的狀態(tài)分布;θμ為actor網(wǎng)絡(luò)的參數(shù);j(θμ)表示在策略μ下從狀態(tài)s0開始得到的平均獎勵值;表示數(shù)學期望;
12、通過策略梯度定理算得到以下的更新梯度公式:
13、
14、式中,表示策略相對于actor網(wǎng)絡(luò)參數(shù)θμ的梯度;
15、表示動作值函數(shù)相對于動作a的梯度;n表示批大小,即每次訓練迭代期間從回放緩沖區(qū)中采樣的經(jīng)驗數(shù)據(jù)量;在計算actor網(wǎng)絡(luò)的損失時,只使用第一個critic網(wǎng)絡(luò)來預測q值;表示critic網(wǎng)絡(luò)的參數(shù),q表示critic網(wǎng)絡(luò)的輸出值。
16、作為優(yōu)選的,所述的目標actor網(wǎng)絡(luò)的參數(shù)通過軟更新策略進行更新:
17、θμ′=τθμ+(1-τ)θμ′;
18、式中,θμ′表示目標actor網(wǎng)絡(luò)的參數(shù);τ為軟更新系數(shù);θμ為actor網(wǎng)絡(luò)的參數(shù)。
19、作為優(yōu)選的,通過三個所述的critic網(wǎng)絡(luò)和三個所述的目標critic網(wǎng)絡(luò)來獨立估計q值,三個所述的critic網(wǎng)絡(luò)結(jié)構(gòu)相同,且每個所述的critic網(wǎng)絡(luò)據(jù)給定狀態(tài)和動作對(狀態(tài)信息s、動作a)估計q值;每一次迭代去除最大的q值,再將另外兩個q值取平均作為當前的目標q值;即:
20、
21、式中,yt是critic網(wǎng)絡(luò)的更新目標;rt表示從環(huán)境中得到的獎勵值;γ表示折扣因子,用于計算未來獎勵的現(xiàn)值,有助于確定長期的優(yōu)化策略;a′表示目標critic網(wǎng)絡(luò)根據(jù)下一狀態(tài)s′輸出的動作;表示三目標critic網(wǎng)絡(luò)輸出的較低的兩個目標q值。
22、作為優(yōu)選的,所述的critic網(wǎng)絡(luò)的損失函數(shù)的表達式為:
23、
24、式中,mse表示均方根誤差,表示相應critic網(wǎng)絡(luò)輸出的q值;
25、通過損失函數(shù)計算得到損失值后,通過以下的更新梯度公式來更新critic網(wǎng)絡(luò)的參數(shù)
26、
27、式中,表示損失值相對于critic網(wǎng)絡(luò)參數(shù)的梯度;n表示批大?。?/p>
28、所述的目標critic網(wǎng)絡(luò)的參數(shù)通過軟更新策略進行更新:
29、
30、τ為軟更新系數(shù)。
31、作為優(yōu)選的,所述的actor網(wǎng)絡(luò)和critic網(wǎng)絡(luò)均包括相應的輸入層、第一dense層、第二dense層、第三dense層、輸出層。
32、作為優(yōu)選的,在所述的搜索階段,無人機控制器的優(yōu)化目標是使無人機覆蓋到整個環(huán)境,并迅速定位目標;如果目標被無人機的雷達探測到,無人機將切換到跟蹤模式;在跟蹤階段,無人機控制器的目標是持續(xù)地跟蹤動態(tài)目標。
33、作為優(yōu)選的,在所述的搜索階段,無人機的強化學習的狀態(tài)空間為:
34、s=[dronex,droney,dronevx,dronevy,obstacledx,obstacledy]
35、如果障礙物不在無人機的雷達范圍內(nèi),則障礙物的距離標記為1,
36、式中,dronex表示無人機在二維平面x軸方向的位置,歸一化范圍為[-1,1];
37、droney表示無人機在二維平面y軸方向的位置,歸一化范圍為[-1,1];
38、dronevx表示無人機在二維平面x軸方向的速度,歸一化范圍為[-1,1];
39、dronevy表示無人機在二維平面y軸方向的速度,歸一化范圍為[-1,1];
40、obstacledx表示無人機檢測到的障礙物在二維平面x軸方向的距離,歸一化范圍為[0,1];
41、obstacledy表示無人機檢測到的障礙物在二維平面y軸方向的距離,歸一化范圍為[0,1]。
42、作為優(yōu)選的,在搜索場景中的獎勵函數(shù)包括過程獎勵和終端獎勵,每一步都會產(chǎn)生一個過程獎勵rstep,以鼓勵智能體快速完成覆蓋任務,同時,當智能體覆蓋新的區(qū)域時,會獲得過程獎勵rcoverage;如果無人機(智能體)覆蓋的范圍達到了整個救援區(qū)域的95%,則給予終端獎勵rcomplete;如果無人機與障礙物相撞或者離開了救援區(qū)域,智能體將會受到負的終端獎勵rcollosion,在搜索場景獎勵函數(shù)r如下所示:
43、r=∑rstep+p∑rcoverage+rcomplete+rcollosion;
44、式中,p為獎勵比例;
45、作為優(yōu)選的,在跟蹤階段,所述的無人機的強化學習的狀態(tài)空間為:
46、s=[dronex,droney,dronevx,dronevy,targetdx,targetdy,targetvx,targetvy,obstacledx,obstacledy]
47、式中,targetdx,targetdy分別表示無人機檢測到的目標在二維平面x軸和y軸方向的距離;targetvx,targetvy分別表示無人機檢測到的目標在二維平面x軸和y軸方向的速度;其歸一化后的范圍為[0,1];如果目標不在無人機的雷達范圍內(nèi),則目標的距離標記為1,速度標記為0。
48、作為優(yōu)選的,在跟蹤階段,所述的無人機的每一步都會收到一個接近目標的獎勵rpro;所述的接近目標的獎勵rpro用無人機和目標之間的歐幾里德距離表示:
49、
50、式中,分母的0.5用于避免在距離非常近或為零時分母變?yōu)榱愕那闆r,確保公式的穩(wěn)定性,如果無人機與障礙物相撞或者離開了救援區(qū)域,智能體將會受到負的終端獎勵rcollosion;因此,跟蹤階段的獎勵函數(shù)如下所示:
51、r=∑rpro+rcollosion。
52、本發(fā)明的有益效果為:
53、1、本發(fā)明通過將搜救任務劃分為目標搜索和目標跟蹤兩個階段,每個階段都能針對性地優(yōu)化其控制策略和算法,這種分階段的方法允許在搜索階段擴大搜索范圍和提高發(fā)現(xiàn)速度,在跟蹤階段則專注于提高對動態(tài)目標的追蹤精度和響應速度,不僅提高了各階段的效率,也使得整個系統(tǒng)更加靈活,能夠針對不同的操作需求調(diào)整策略;
54、2、本發(fā)明通過優(yōu)化獎勵設(shè)計,減少了復雜獎勵函數(shù)的依賴,簡化了模型的訓練過程,降低了計算復雜性;
55、3、本發(fā)明的ddpg-3c模型不依賴于精確的數(shù)學模型來進行決策,使得本發(fā)明在面對復雜和動態(tài)變化的環(huán)境時能夠展現(xiàn)出更強的適應性,通過與環(huán)境的交互來學習和優(yōu)化策略,而不是依賴預先定義的模型參數(shù),從而能夠更好地應對未知或變化的條件;
56、4、本發(fā)明ddpg-3c通過引入三個critic網(wǎng)絡(luò)并去除三個q值中的最大值,使用剩余兩個的平均值作為目標q值,顯著減少了過估計問題,提高了價值估計的準確性,從而使策略學習過程更穩(wěn)定,加快了收斂速度,提高了決策的可靠性。