欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于強化學習的無人機集群協(xié)同搜索救援算法及虛擬仿真驗證方法

文檔序號:40572171發(fā)布日期:2025-01-03 11:33閱讀:26來源:國知局
基于強化學習的無人機集群協(xié)同搜索救援算法及虛擬仿真驗證方法

本發(fā)明屬于人工智能,具體涉及基于強化學習的無人機集群協(xié)同搜索救援算法及虛擬仿真驗證方法。


背景技術(shù):

1、無人機(uav)是指無人駕駛航空器,與有人機相比,無人機具有成本低、尺寸小、機動性高、隱蔽性好以及生存能力較強等優(yōu)勢,被廣泛應用于戰(zhàn)場偵察、物資運輸、氣象監(jiān)測、資源勘探等軍用和民用領(lǐng)域。四旋翼無人機因為其結(jié)構(gòu)簡單、生產(chǎn)成本低、可垂直起降、定點懸停等特點,能夠勝任各式各樣的低空任務,在復雜環(huán)境的探索任務中得到了廣泛的應用。已成為國際研究熱點。

2、隨著任務環(huán)境的復雜性和任務種類的多樣性不斷提高,單架無人機由于載荷、續(xù)航能力有限,難以完成大規(guī)模的復雜任務。為了解決單架無人機存在的種種問題,提出了無人機集群的概念。無人機集群部署靈活,可以將昂貴的高級無人機的各項功能化整為零,分散到多個低成本的結(jié)構(gòu)簡單的無人機上,根據(jù)不同的任務特點,組建不同的模塊化的無人機集群,通過各型無人機間的配合靈活解決各類問題。無人機集群的每架無人機都以完成總?cè)蝿諡樽罡邇?yōu)先級,同時盡可能完成自身任務,通過無人機個體間的協(xié)同配合,可以完成單獨個體完成不了的復雜任務。因此,針對無人機集群協(xié)同控制算法研究具有重要的現(xiàn)實意義。

3、然而,由于大規(guī)模無人機集群造價昂貴、組織無人機集群飛行試驗需消耗大量人力物力且存在一定危險性,因此開發(fā)出的集群協(xié)同控制算法不能直接進行實機測試,為了驗證算法的有效性,就需要一套行之有效的仿真驗證技術(shù)。傳統(tǒng)的數(shù)字仿真技術(shù)通常是采用matlab提供的仿真模塊,實現(xiàn)對無人機運動學模型及控制算法的模擬驗證。然而,傳統(tǒng)仿真平臺只能進行離線仿真,且無法與算法端進行實時仿真交互,研究人員不能直觀判斷出算法的實際執(zhí)行效果。


技術(shù)實現(xiàn)思路

1、本發(fā)明的目的是提供基于強化學習的無人機集群協(xié)同搜索救援算法及虛擬仿真驗證方法,能夠借助unity、虛幻引擎等現(xiàn)代游戲開發(fā)工具,通過外部通信與算法端交互控制指令并采用平臺物理引擎自動解算無人機運動,實現(xiàn)無人機集群在算法驅(qū)動下與仿真環(huán)境的交互。

2、本發(fā)明采取的技術(shù)方案具體如下:

3、基于強化學習的無人機集群協(xié)同搜索救援算法,所述算法包括以下步驟:

4、s1:通過對強化學習的無人機集群協(xié)同搜索救援路徑規(guī)劃算法進行研究,基于馬爾可夫決策過程建立無人機集群協(xié)同搜索救援博弈模型,并考慮搜索救援任務特點設置約束條件;通過模型建立—迭代訓練—在線決策的過程,優(yōu)化無人機集群路徑規(guī)劃策略,基于無人機集群內(nèi)部信息共享,對未知環(huán)境下進行協(xié)同探索;

5、所述s1中,考慮到無人機集群在不同環(huán)境下執(zhí)行搜索救援任務的條件存在差異,需要明確任務場景,對無人機集群協(xié)同搜索救援的任務場景設置,包括以下步驟:

6、s11:假設任務區(qū)域內(nèi)存在若干靜態(tài)障礙物、若干架己方無人機與一個待救援目標,己方無人機以避開障礙物并到達待救援目標地點為任務目標;

7、s12:無人機需要探索的環(huán)境為四周存在邊界的長方形城市環(huán)境,環(huán)境中分布著建筑物,無人機飛行過程中不能與建筑物和其它無人機發(fā)生碰撞,無人機只在高度固定的二維平面內(nèi)飛行,將高度大于等于飛行平面的建筑物視為障礙物;

8、s13:在任務開始時,數(shù)架無人機被隨機拋灑到環(huán)境的不同區(qū)域,保證初始狀態(tài)不會與建筑物發(fā)生撞擊;

9、s14:每架無人機都裝有傳感器和通信裝置,用于感知自身周圍的局部環(huán)境障礙物信息,并在無人機集群內(nèi)部進行信息共享;

10、s15:在環(huán)境中存在一個目標物體,目標的位置在初始時已知,且不會隨時間改變;

11、s16:若在規(guī)定時間內(nèi),有80%以上無人機到達待救援目標地點,并同時在地點上空懸停3個時間步以上,則任務成功,否則時間耗盡后任務失?。?/p>

12、s17:當任務結(jié)束時,到達目標地點所花費時間越少,收益越大。

13、無人機在執(zhí)行任務的過程中,受自身設備及安全限制,無人機需滿足約束條件,約束條件包含速度約束、避障約束、避碰約束及邊界約束;

14、速度約束:

15、在探索任務中,受自身機動能力的限制,無人機存在最大速度限制,即:

16、||vi||≤vmax?(1)

17、其中,i為無人機的編號,i∈[1,n],n為無人機的數(shù)量;vi為無人機當前時刻的速度,vmax為無人機的最大速度;

18、避障約束:

19、由于區(qū)域內(nèi)存在若干靜態(tài)障礙物,出于安全考慮,無人機在飛行過程中不能與障礙物碰撞,即兩者的相對距離須保持在安全范圍,即:

20、δdik>dmin?(2)

21、其中,δdik=||pi-pk||,表示第i個無人機相對其周圍第k個障礙物之間的距離,pi和pk分別表示第i個無人機的位置以及第k個障礙物中心點的位置;dmin表示無人機的最大安全半徑;

22、避碰約束:

23、出于安全考慮,己方無人機之間不能互相碰撞,兩者的相對距離也需要保持在安全范圍內(nèi),即:

24、δdij>dmin?(3)

25、其中,δdij=||pi-pj||表示第i個無人機相對第j個無人機的距離,i,j∈[1,n],i≠j;

26、邊界約束:

27、確保探索任務的順利進行,無人機在飛行過程中不能超過給定任務區(qū)域,即:

28、0≤pi,ξ≤dbound,ξ?(4)

29、其中,ξ∈[1,ξmax]表示無人機的運動維度,用于二維探索環(huán)境,ξmax=2。dbound,ξ表示ξ維度上的區(qū)域邊界。pi,ξ表示ξ維度上無人機的位置。

30、所述s1中,無人機集群搜索救援任務隨機博弈模型包括狀態(tài)集s、觀測狀態(tài)集o、動作集a、獎勵函數(shù)r;

31、狀態(tài)集s:

32、根據(jù)任務的具體情況,將t時刻障礙物位置柵格地圖gb,已發(fā)現(xiàn)路徑柵格地圖gr,已探測區(qū)域柵格地圖ga,目標位置pt,己方無人機的位置pi、速度vi和方向di,作為狀態(tài)量s,即:

33、s=(gb,gr,ga,pt,pi,vi,di)∈s?(5)

34、其中,i∈[1,n],n為無人機的數(shù)量;

35、觀測狀態(tài)集o:

36、對第i個己方無人機,i∈[1,n],將t時刻已發(fā)現(xiàn)路徑柵格地圖gr,已探測區(qū)域柵格地圖ga,目標位置pt,自身的位置pi、速度vi和方向di、與己方其它無人機之間的相對位置δpij作為觀測狀態(tài),即:

37、oi=(gr,ga,pt,pi,vi,di,δpij)?(6)

38、動作集a:

39、將連續(xù)的環(huán)境離散化為柵格地圖,動作空間進而可以從連續(xù)的速度控制量離散化為在柵格地圖的格子間移動,采用以無人機自身坐標系為基準的離散動作空間;

40、獎勵函數(shù)r:

41、在規(guī)定時間內(nèi)點亮地圖與到達目標地點為最終目標,建立獎懲機制,確定單步?jīng)Q策獲得的收益值,對于單架無人機,收益值主要包括探索收益和目標收益兩部分;

42、探索收益:

43、無人機到達救援目標地點之前,由于地圖障礙物信息是未知的,需要先對地圖進行探索才能找到一條通往目標地點的通路,探索過程以目標為導向,考慮到障礙物分布更加復雜的獎勵函數(shù),即通過廣度優(yōu)先搜索的方式,計算到達目標的最短路徑,并根據(jù)無人機是否按照最短路徑移動,對無人機的行為進行獎勵或懲罰,使智能體學習到路徑規(guī)劃的能力;

44、廣度優(yōu)先搜索算法返回的結(jié)果是一個矩陣,若某一柵格值為-1,則表示該柵格不能通過任何一條路徑到達目標點,否則表示該柵格到目標點的最短移動距離,探索獎勵為:

45、rexplore=dist[i,j]-dist[i′,j′]?(7)

46、其中,dist為廣度優(yōu)先搜索算法返回的二維矩陣,i,j為無人機原坐標,i′,j′為無人機執(zhí)行動作后的新坐標;

47、目標收益:

48、當無人機所在位置不能找到一條通往救援目標的通路時,采用負的無人機與目標的距離作為獎勵函數(shù),當無人機與目標距離較遠時,施加大的懲罰,當無人機與目標距離較近時,施加小的懲罰,目標獎勵為:

49、

50、其中,itarget和jtarget表示目標在柵格地圖中的位置;

51、綜合式(7)和式(8),無人機的任務總獎勵設計為:

52、r=rexplore+rtarget?(9)。

53、所述s1中,無人機集群協(xié)同搜索救援采用masac算法,masac算法的應用分為迭代訓練和在線決策兩部分;

54、迭代訓練:

55、采用中心式訓練-分布式?jīng)Q策的強化學習算法,建立決策網(wǎng)絡和評價網(wǎng)絡,決策網(wǎng)絡根據(jù)仿真平臺所提供的無人機自身狀態(tài)信息、探索過程中收集到的柵格地圖信息和已知待救援目標位置信息,決策無人機當前時刻的離散動作序號;評價網(wǎng)絡根據(jù)狀態(tài)信息及決策信息評估決策結(jié)果的好壞,并將新的交互經(jīng)驗補充到經(jīng)驗數(shù)據(jù)庫中,通過隨機經(jīng)驗回放機制,隨機抽取數(shù)據(jù)庫中的經(jīng)驗逐步訓練評價網(wǎng)絡和決策網(wǎng)絡,通過多次迭代的方式獲取無人機策略;

56、在線決策:

57、在仿真平臺中隨機給出己方無人機和待救援目標的初始位置,隨機初始化地圖障礙物分布,采用訓練好的決策網(wǎng)絡實時產(chǎn)生無人機決策結(jié)果,完成面向搜索任務的無人機集群運動規(guī)劃。

58、s2:基于unity游戲引擎開發(fā)無人機集群協(xié)同搜索救援虛擬仿真環(huán)境,用于對算法的訓練和驗證提供支持,并建立一組平行的訓練場景與測試場景,常規(guī)場景模塊相同,對于特殊場景則需要定制模塊。

59、所述s2中,常規(guī)場景模塊包括物體模型、相機模塊、柵格地圖模塊、隨機地圖模塊和地圖點亮模塊;

60、物體模型:unity支持導入3ds和fbx格式的通用三維模型,利用3d建模工具創(chuàng)建并導出3d模型;構(gòu)建大規(guī)模城市場景時,利用unity的city?generator插件,其以街區(qū)為最小單位,通過街區(qū)間的拼接生成不同規(guī)模的城市場景,通過正則表達式從模型庫中定向找到對應建筑物的網(wǎng)格模型,將其附加到網(wǎng)格碰撞體組件;

61、相機模塊:unity的場景通過在三維空間中放置并移動對象進行創(chuàng)建,存在多個相機時,通過設置不同相機的偏移量進行多機位顯示;

62、柵格地圖模塊:在訓練場景或測試場景中,采用格柵地圖進行環(huán)境信息表達,將環(huán)境看成二維平面,將平面分割成若干個等面積大小具有數(shù)值信息的柵格,每個柵格中存儲著周圍環(huán)境信息值,將環(huán)境中的障礙物信息簡化為一個二維數(shù)組,數(shù)組每個元素代表一個柵格區(qū)域的狀態(tài),值為0代表空地,值為1代表障礙物;

63、unity場景中物體的位置由世界坐標系確定,使用(x,y,z)形式的三元組表示物體在世界坐標系中的位置,x,y,z的值為實數(shù),柵格地圖的位置是由柵格坐標系確定的,使用(i,j)形式的二元組表示柵格地圖中的位置,i,j的值為自然數(shù);

64、由于上述坐標系表示方法的不同,需要通過計算才能將世界坐標系與柵格坐標系進行相互變換,將世界坐標系變換到柵格坐標系為:

65、

66、其中,(iobj,jobj)為變換后物體在柵格地圖中的位置,(xobj,zobj)為物體在世界坐標系中的位置,(xref,zref)為參考點在世界坐標系中的位置,(iref,jref)為參考點在柵格地圖中的位置,l為柵格地圖的柵格長度;

67、反之,可以通過下式將柵格坐標系變換到世界坐標系:

68、

69、其中,(xobj,yobj,zobj)為變換后物體在世界坐標系中的位置,(iobj,jobj)為物體在柵格地圖中的位置,(xref,zref)為參考點在世界坐標系中的位置,(iref,jref)為參考點在柵格地圖中的位置,l為柵格地圖的柵格長度;

70、上述變換過程中均涉及到了參考點,選擇的參考點不同,坐標變換得到的結(jié)果也不同,應用中,選擇地圖的中心坐標(x,y,z)=(0,0,0),(i,j)=(imax/2,jmax/2)作為參考點,將世界地圖的中心與柵格地圖的中心相對應;

71、隨機地圖模塊:在強化學習迭代訓練過程中,需要隨機生成地圖,使智能體在每次迭代中能學習到新的環(huán)境信息;

72、地圖點亮模塊:用于展示無人機飛行過程中所經(jīng)過的歷史軌跡,在地圖上標記無人機飛行經(jīng)過的點位。

73、基于強化學習的無人機集群協(xié)同搜索虛擬仿真驗證方法,通過實時仿真架構(gòu)對s1中協(xié)同搜索救援算法設計和s2中虛擬仿真環(huán)境開發(fā)進行整體仿真訓練與驗證,并構(gòu)建整體仿真架構(gòu)及配置基于ml-agents的實時數(shù)據(jù)接口。

74、所述構(gòu)建整體仿真架構(gòu)通過unity渲染和物理仿真,模擬無人機飛行場景,訓練中,環(huán)境生成多樣化的隨機場景,并提供無人機的觀測信息,觀測信息包括位置、速度、姿態(tài)以及周圍環(huán)境的感知數(shù)據(jù);無人機根據(jù)接收到的觀測信息,執(zhí)行由強化學習算法生成的相應動作;環(huán)境根據(jù)無人機的動作和當前狀態(tài)計算獎勵信號,用于指導算法的學習過程;該過程持續(xù)循環(huán)進行,直到滿足預定的訓練收斂條件;

75、在python強化學習算法端,系統(tǒng)從unity仿真環(huán)境中接收無人機的實時觀測數(shù)據(jù),數(shù)據(jù)通過ml-agents框架進行傳輸,接收到觀測信息后,數(shù)據(jù)被輸入到預先設計的深度神經(jīng)網(wǎng)絡中,該網(wǎng)絡即為策略網(wǎng)絡,經(jīng)過訓練從復雜的觀測數(shù)據(jù)中提取特征,并輸出最優(yōu)的動作決策,以最大化累積獎勵;基于從環(huán)境中獲得的獎勵信號和檢測機制的反饋,策略網(wǎng)絡的參數(shù)通過反向傳播算法進行更新,更新后的網(wǎng)絡參數(shù)被重新加載,用于在下一次決策過程中使用最新的模型。

76、所述ml-agents框架使游戲和虛擬仿真平臺成為訓練智能體的環(huán)境,由學習環(huán)境、python接口、對外通信構(gòu)成;

77、學習環(huán)境對于場景中智能體的操作包括收集觀察信息、執(zhí)行給定動作、獲得獎勵,學習環(huán)境組件又可分為不同層次的組件,位于最高層級的是academy組件,在一個場景中只能存在一個academy組件,用于管理整個學習環(huán)境,同時也負責判斷環(huán)境是否到達終止狀態(tài),并開始新的一輪學習;位于中間層級的是brain組件,一個academy組件下可以存在多個brain組件,用于管理某一種類的智能體,同時也負責處理下層智能體傳入的觀察信息并給出動作指令;位于最底層的是agent組件,一個brain組件下可以存在多個agent組件,對應于場景中每一個智能體,用于控制單個智能體的行為。

78、本發(fā)明取得的技術(shù)效果為:

79、傳統(tǒng)的無人機路徑規(guī)劃算法需要根據(jù)先驗地圖信息規(guī)劃前往目標地點的路徑,而本方案提出的基于強化學習的路徑規(guī)劃算法,通過與環(huán)境交互逐步收集地圖信息,能夠在未知環(huán)境中探索到有效路徑。

80、傳統(tǒng)的仿真環(huán)境多通過建立和解算數(shù)學模型來表示無人機集群和環(huán)境的狀態(tài),不便于直觀地分析仿真結(jié)果,而本方案利用unity引擎開發(fā)虛擬仿真環(huán)境,通過游戲開發(fā)工具的物理引擎自動實現(xiàn)無人機模型與環(huán)境的交互,并通過相機模塊在屏幕上直觀地演示無人機集群飛行狀態(tài)。

81、傳統(tǒng)的算法模型訓練多采用離線數(shù)據(jù)集,無法適應動態(tài)多變的環(huán)境,而本發(fā)明采用算法計算機-實時數(shù)據(jù)接口-仿真計算機的架構(gòu)搭建仿真平臺,實現(xiàn)了算法端與仿真端的雙向高速數(shù)據(jù)交互,提升了訓練速度與模型最終性能。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
康保县| 思茅市| 白朗县| 三明市| 团风县| 镇坪县| 上虞市| 博兴县| 青铜峡市| 林州市| 天峻县| 沙雅县| 西华县| 东乡族自治县| 青神县| 绥棱县| 丹棱县| 南郑县| 临城县| 禹州市| 华池县| 驻马店市| 五寨县| 融水| 乌兰县| 大埔县| 章丘市| 临安市| 环江| 丘北县| 衡山县| 曲阳县| 湖北省| 绵阳市| 万全县| 全州县| 监利县| 营口市| 漯河市| 甘肃省| 濮阳市|