1.基于強(qiáng)化學(xué)習(xí)的無(wú)人機(jī)集群協(xié)同搜索救援算法,其特征在于:所述算法包括以下步驟:
2.根據(jù)權(quán)利要求1所述的基于強(qiáng)化學(xué)習(xí)的無(wú)人機(jī)集群協(xié)同搜索救援算法,其特征在于:所述s1中,考慮到無(wú)人機(jī)集群在不同環(huán)境下執(zhí)行搜索救援任務(wù)的條件存在差異,需要明確任務(wù)場(chǎng)景,對(duì)無(wú)人機(jī)集群協(xié)同搜索救援的任務(wù)場(chǎng)景設(shè)置,包括以下步驟:
3.根據(jù)權(quán)利要求2所述的基于強(qiáng)化學(xué)習(xí)的無(wú)人機(jī)集群協(xié)同搜索救援算法,其特征在于:無(wú)人機(jī)在執(zhí)行任務(wù)的過(guò)程中,受自身設(shè)備及安全限制,無(wú)人機(jī)需滿足約束條件,約束條件包含速度約束、避障約束、避碰約束及邊界約束;
4.根據(jù)權(quán)利要求1所述的基于強(qiáng)化學(xué)習(xí)的無(wú)人機(jī)集群協(xié)同搜索救援算法,其特征在于:所述s1中,無(wú)人機(jī)集群搜索救援任務(wù)隨機(jī)博弈模型包括狀態(tài)集s、觀測(cè)狀態(tài)集o、動(dòng)作集a、獎(jiǎng)勵(lì)函數(shù)r;
5.根據(jù)權(quán)利要求1所述的基于強(qiáng)化學(xué)習(xí)的無(wú)人機(jī)集群協(xié)同搜索救援算法,其特征在于:所述s1中,無(wú)人機(jī)集群協(xié)同搜索救援采用masac算法,masac算法的應(yīng)用分為迭代訓(xùn)練和在線決策兩部分;
6.根據(jù)權(quán)利要求1所述的基于強(qiáng)化學(xué)習(xí)的無(wú)人機(jī)集群協(xié)同搜索救援算法,其特征在于:所述s2中,常規(guī)場(chǎng)景模塊包括物體模型、相機(jī)模塊、柵格地圖模塊、隨機(jī)地圖模塊和地圖點(diǎn)亮模塊;
7.基于強(qiáng)化學(xué)習(xí)的無(wú)人機(jī)集群協(xié)同搜索虛擬仿真驗(yàn)證方法,其特征在于:用于權(quán)利要求1-6任意一項(xiàng)所述的基于強(qiáng)化學(xué)習(xí)的無(wú)人機(jī)集群協(xié)同搜索救援算法,通過(guò)實(shí)時(shí)仿真架構(gòu)對(duì)s1中協(xié)同搜索救援算法設(shè)計(jì)和s2中虛擬仿真環(huán)境開(kāi)發(fā)進(jìn)行整體仿真訓(xùn)練與驗(yàn)證,并構(gòu)建整體仿真架構(gòu)及配置基于ml-agents的實(shí)時(shí)數(shù)據(jù)接口。
8.根據(jù)權(quán)利要求7所述的基于強(qiáng)化學(xué)習(xí)的無(wú)人機(jī)集群協(xié)同搜索虛擬仿真驗(yàn)證方法,其特征在于:所述構(gòu)建整體仿真架構(gòu)通過(guò)unity渲染和物理仿真,模擬無(wú)人機(jī)飛行場(chǎng)景,訓(xùn)練中,環(huán)境生成多樣化的隨機(jī)場(chǎng)景,并提供無(wú)人機(jī)的觀測(cè)信息,觀測(cè)信息包括位置、速度、姿態(tài)以及周圍環(huán)境的感知數(shù)據(jù);無(wú)人機(jī)根據(jù)接收到的觀測(cè)信息,執(zhí)行由強(qiáng)化學(xué)習(xí)算法生成的相應(yīng)動(dòng)作;環(huán)境根據(jù)無(wú)人機(jī)的動(dòng)作和當(dāng)前狀態(tài)計(jì)算獎(jiǎng)勵(lì)信號(hào),用于指導(dǎo)算法的學(xué)習(xí)過(guò)程;該過(guò)程持續(xù)循環(huán)進(jìn)行,直到滿足預(yù)定的訓(xùn)練收斂條件;
9.根據(jù)權(quán)利要求8所述的基于強(qiáng)化學(xué)習(xí)的無(wú)人機(jī)集群協(xié)同搜索虛擬仿真驗(yàn)證方法,其特征在于:所述ml-agents框架使游戲和虛擬仿真平臺(tái)成為訓(xùn)練智能體的環(huán)境,由學(xué)習(xí)環(huán)境、python接口、對(duì)外通信構(gòu)成;