本技術(shù)涉及無人機通信,特別涉及一種無人機控制方法、系統(tǒng)、電子設(shè)備及存儲介質(zhì)。
背景技術(shù):
1、為了充分發(fā)揮無人機輔助通信技術(shù)的優(yōu)勢,有關(guān)無人機軌跡與通信聯(lián)合優(yōu)化的研究在學(xué)術(shù)界受到了廣泛關(guān)注。在無人機對地通信服務(wù)場景中,地面節(jié)點的通信服務(wù)質(zhì)量受無人機軌跡和通信策略的共同影響。無人機軌跡決定了無人機與地面節(jié)點間的相對位置和距離,進(jìn)而影響空地信道質(zhì)量。通信策略則通過合理調(diào)整通信資源分配、地面節(jié)點與無人機之間的關(guān)聯(lián)以及無人機對地面節(jié)點的通信調(diào)度順序等因素,進(jìn)一步影響無人機與地面節(jié)點間的通信傳輸質(zhì)量。這些因素之間相互依賴、緊密耦合,共同決定了系統(tǒng)的整體通信性能。因此,研究無人機軌跡與通信的聯(lián)合優(yōu)化,對于提升無人機對地通信系統(tǒng)的性能具有重要意義。
2、在不同場景中的無人機軌跡與通信聯(lián)合優(yōu)化問題在具體表現(xiàn)形式上有所差異,但這些問題本質(zhì)上都屬于包含復(fù)雜優(yōu)化目標(biāo)和約束條件的多變量非凸優(yōu)化問題,難以通過常規(guī)的凸優(yōu)化工具進(jìn)行求解。為此,大量研究提出了以傳統(tǒng)數(shù)學(xué)工具為基礎(chǔ)的優(yōu)化方法,這些方法根據(jù)靜態(tài)優(yōu)化模型和環(huán)境先驗信息離線求解優(yōu)化問題,為無人機軌跡與通信聯(lián)合優(yōu)化提供理論上的最優(yōu)或近似最優(yōu)解。然而,這些方法在實際應(yīng)用中面臨一系列局限。首先,在無人機對地通信系統(tǒng)中,通信節(jié)點的部署位置和數(shù)量等環(huán)境因素具有時變特性,導(dǎo)致離線設(shè)計的無人機軌跡與通信策略難以滿足動態(tài)環(huán)境下的性能需求。其次,傳統(tǒng)優(yōu)化方法通常具有較高的計算復(fù)雜度,給動態(tài)環(huán)境下優(yōu)化變量的實時更新帶來了極大困難。這些方法大多依賴于全局環(huán)境信息進(jìn)行集中式求解,忽略了多無人機場景中的分布式控制需求。
3、因此,如何實現(xiàn)適應(yīng)動態(tài)特性和分布式控制需求的無人機控制是本領(lǐng)域技術(shù)人員目前需要解決的技術(shù)問題。
技術(shù)實現(xiàn)思路
1、本技術(shù)的目的是提供一種無人機控制方法、系統(tǒng)、電子設(shè)備及存儲介質(zhì),能夠?qū)崿F(xiàn)適應(yīng)動態(tài)特性和分布式控制需求的無人機控制。
2、為解決上述技術(shù)問題,本技術(shù)提供一種無人機控制方法,包括:
3、建立問題模型,并基于所述問題模型構(gòu)建約束馬爾科夫決策問題;其中,所述問題模型用于表示多個無人機從多個地面節(jié)點中收集數(shù)據(jù)并將收集的數(shù)據(jù)卸載給一個地面數(shù)據(jù)中心;
4、將所述約束馬爾科夫決策問題建模為目標(biāo)模型;其中,所述目標(biāo)模型為分布式局部可觀馬爾科夫決策過程模型;
5、通過將第一網(wǎng)絡(luò)層和第二網(wǎng)絡(luò)層引入多智能體強化學(xué)習(xí)算法得到目標(biāo)算法;其中,所述目標(biāo)算法為基于目標(biāo)模型設(shè)計的算法,用于求解適應(yīng)實體數(shù)量變化的智能體策略;所述第一網(wǎng)絡(luò)層為基于全連接層且具有置換不變性的網(wǎng)絡(luò)層,所述第二網(wǎng)絡(luò)層為基于全連接層且具有置換等變性的網(wǎng)絡(luò)層;
6、利用所述目標(biāo)算法對多個所述無人機的智能體進(jìn)行訓(xùn)練,利用訓(xùn)練后的智能體對所述無人機進(jìn)行軌跡規(guī)劃和/或通信調(diào)度。
7、可選的,基于所述問題模型構(gòu)建約束馬爾科夫決策問題包括:
8、根據(jù)所述問題模型確定環(huán)境狀態(tài)特征;其中,所述環(huán)境狀態(tài)特征包括無人機的當(dāng)前位置信息、當(dāng)前地面節(jié)點的位置信息、當(dāng)前地面數(shù)據(jù)中心的位置信息、當(dāng)前地面節(jié)點的待上傳數(shù)據(jù)量和無人機的存儲數(shù)據(jù)總量;
9、根據(jù)所述問題模型確定概率視距模型;其中,所述概率視距模型包含視距傳播路徑和非視距傳播路徑;
10、根據(jù)所述問題模型確定所述無人機的軌跡變量和二元調(diào)度變量;其中,所述二元調(diào)度變量用于描述地面節(jié)點與地面數(shù)據(jù)中心的通信狀態(tài);
11、根據(jù)所述問題模型確定所述地面節(jié)點的平均信息年齡函數(shù);
12、基于所述環(huán)境狀態(tài)特征、所述概率視距模型、所述無人機的軌跡變量、所述二元調(diào)度變量、所述平均信息年齡函數(shù)構(gòu)建所述約束馬爾科夫決策問題。
13、可選的,將所述約束馬爾科夫決策問題建模為目標(biāo)模型,包括:
14、對所述約束馬爾科夫決策問題進(jìn)行實體分解,得到作為智能體實體的無人機實體和作為非智能實體的地面節(jié)點實體;其中,所述無人機實體的特征向量包含與無人機相關(guān)的環(huán)境信息,所述地面節(jié)點實體的特征向量包含與地面節(jié)點相關(guān)的環(huán)境信息;
15、利用所述無人機實體的特征向量和所述地面節(jié)點實體的特征向量定義關(guān)鍵要素,并基于所述關(guān)鍵要素搭建所述目標(biāo)模型;其中,所述關(guān)鍵要素包括狀態(tài)、觀測、動作和獎勵。
16、可選的,在通過將第一網(wǎng)絡(luò)層和第二網(wǎng)絡(luò)層引入多智能體強化學(xué)習(xí)算法得到目標(biāo)算法之前,還包括:
17、在單個全連接層中引入所有輸入元素共享的第一超網(wǎng)絡(luò)形成所述第一網(wǎng)絡(luò)層;其中,所述第一超網(wǎng)絡(luò)以單個輸入元素為輸入產(chǎn)生每個輸入元素對應(yīng)的第一權(quán)重矩陣,所述第一權(quán)重矩陣用于對單個輸入元素進(jìn)行特征提取并求和得到網(wǎng)絡(luò)輸出;
18、在單個全連接層中引入所有輸出元素共享的第二超網(wǎng)絡(luò)以及一個用于處理輸出元素整體輸入的第一網(wǎng)絡(luò)層,形成第二網(wǎng)絡(luò)層;其中,所述第二超網(wǎng)絡(luò)以單個輸出元素對應(yīng)的輸入元素為輸入產(chǎn)生每個輸出元素對應(yīng)的第二權(quán)重矩陣,所述第二權(quán)重矩陣用于與所述第一網(wǎng)絡(luò)層的輸出相乘得到網(wǎng)絡(luò)輸出。
19、可選的,所述通過將第一網(wǎng)絡(luò)層和第二網(wǎng)絡(luò)層引入多智能體強化學(xué)習(xí)算法得到目標(biāo)算法,包括:
20、基于一個全連接層和兩個第一網(wǎng)絡(luò)層搭建輸入層;其中,所述輸入層的輸入為無人機局部觀測中的所有特征,所述輸入層的輸出為通過求和運算合并成的單個嵌入特征;
21、基于多智能體強化學(xué)習(xí)算法中的門控循環(huán)單元搭建中間層;其中,所述中間層的輸入為所述輸入層輸出的單個嵌入特征和上一時隙的隱層狀態(tài),所述中間層的輸出為當(dāng)前時隙的隱層狀態(tài);
22、基于一個全連接層和一個第二網(wǎng)絡(luò)層搭建輸出層;其中,所述輸出層的輸入為所述中間層的輸出,所述輸出層的輸出為動作空間中所有動作的回報值及最大回報值對應(yīng)的最優(yōu)動作;
23、搭建包含所述輸入層、所述中間層和所述輸出層的超局部價值網(wǎng)絡(luò);其中,所述超局部價值網(wǎng)絡(luò)用于擬合無人機的智能體的局部價值函數(shù);
24、搭建用于將所有所述智能體的局部回報值結(jié)合為全局回報值的超混合網(wǎng)絡(luò);
25、將每個智能體的超局部價值網(wǎng)絡(luò)和所述超混合網(wǎng)絡(luò)組成得到所述目標(biāo)算法。
26、可選的,所述搭建用于將所有所述智能體的局部回報值結(jié)合為全局回報值的超混合網(wǎng)絡(luò),包括:
27、利用一個全連接輸入層和一個全連接輸出層搭建所述超混合網(wǎng)絡(luò);其中,所述超混合網(wǎng)絡(luò)用于將所有所述智能體的局部回報值結(jié)合為全局回報值;
28、其中,所述全連接輸入層的輸入為所有智能體的局部回報值,所述全連接輸入層的輸出為單個嵌入特征;所述全連接輸出層的輸入為所述輸入層輸出的單個嵌入特征,所述全連接輸出層的輸出為全局回報值。
29、可選的,還包括:
30、確定所述全連接輸入層的權(quán)重矩陣和偏置向量;
31、確定所述全連接輸出層的權(quán)重矩陣和偏置向量。
32、可選的,利用所述目標(biāo)算法對多個所述無人機的智能體進(jìn)行訓(xùn)練,包括:
33、利用所述目標(biāo)算法對多個所述無人機的智能體進(jìn)行集中式離線訓(xùn)練,以便所述無人機的智能體利用經(jīng)驗樣本更新所述超局部價值網(wǎng)絡(luò)的參數(shù);其中,經(jīng)驗樣本為所述無人機的智能體通過與環(huán)境交互收集的經(jīng)驗樣本。
34、可選的,在利用所述目標(biāo)算法對多個所述無人機的智能體進(jìn)行集中式離線訓(xùn)練之后,還包括:
35、將訓(xùn)練后的智能體部署至對應(yīng)的所述無人機;其中,訓(xùn)練后的智能體中包含更新參數(shù)后的超局部價值網(wǎng)絡(luò);
36、通過模型重載的方式對所述無人機中的智能體進(jìn)行策略遷移操作。
37、本技術(shù)還提供了一種無人機控制系統(tǒng),該系統(tǒng)包括:
38、問題構(gòu)建模塊,用于建立問題模型,并基于所述問題模型構(gòu)建約束馬爾科夫決策問題;其中,所述問題模型用于表示多個無人機從多個地面節(jié)點中收集數(shù)據(jù)并將收集的數(shù)據(jù)卸載給一個地面數(shù)據(jù)中心;
39、模型搭建模塊,用于將所述約束馬爾科夫決策問題建模為目標(biāo)模型;其中,所述目標(biāo)模型為分布式局部可觀馬爾科夫決策過程模型;
40、算法構(gòu)建模塊,用于通過將第一網(wǎng)絡(luò)層和第二網(wǎng)絡(luò)層引入多智能體強化學(xué)習(xí)算法得到目標(biāo)算法;其中,所述目標(biāo)算法為基于目標(biāo)模型設(shè)計的算法,用于求解適應(yīng)實體數(shù)量變化的智能體策略;所述第一網(wǎng)絡(luò)層為基于全連接層且具有置換不變性的網(wǎng)絡(luò)層,所述第二網(wǎng)絡(luò)層為基于全連接層且具有置換等變性的網(wǎng)絡(luò)層;
41、控制模塊,用于利用所述目標(biāo)算法對多個所述無人機的智能體進(jìn)行訓(xùn)練,利用訓(xùn)練后的智能體對所述無人機進(jìn)行軌跡規(guī)劃和/或通信調(diào)度。
42、本技術(shù)還提供了一種電子設(shè)備,包括存儲器和處理器,所述存儲器中存儲有計算機程序,所述處理器調(diào)用所述存儲器中的計算機程序時實現(xiàn)上述無人機控制方法的步驟。
43、本技術(shù)還提供了一種存儲介質(zhì),所述存儲介質(zhì)中存儲有計算機可執(zhí)行指令,所述計算機可執(zhí)行指令被處理器加載并執(zhí)行時,實現(xiàn)上述無人機控制方法的步驟。
44、本技術(shù)提供了一種無人機控制方法,本方法先建立用于表示多個無人機從多個地面節(jié)點中收集數(shù)據(jù)并將收集的數(shù)據(jù)卸載給一個地面數(shù)據(jù)中心的問題模型,并基于問題模型構(gòu)建約束馬爾科夫決策問題,將約束馬爾科夫決策問題建模為分布式局部可觀馬爾科夫決策過程模型dec-pomdp。dec-pomdp模型允許每個無人機智能體基于局部信息做出決策,同時考慮到其他智能體的存在和活動,助于處理多智能體系統(tǒng)中的不確定性并實現(xiàn)分布式控制。本技術(shù)將第一網(wǎng)絡(luò)層hpi和第二網(wǎng)絡(luò)層hpe引入多智能體強化學(xué)習(xí)算法qmix得到目標(biāo)算法,由于第一網(wǎng)絡(luò)層hpi為基于全連接層且具有置換不變性的網(wǎng)絡(luò)層,第二網(wǎng)絡(luò)層hpe為基于全連接層且具有置換等變性的網(wǎng)絡(luò)層,因此本技術(shù)得到的目標(biāo)算法能夠求解適應(yīng)實體數(shù)量變化的智能體策略。本技術(shù)利用目標(biāo)算法訓(xùn)練多個無人機的智能體,以便利用訓(xùn)練后的智能體基于局部信息做出決策,以適應(yīng)動態(tài)特性和分布式控制需求。本技術(shù)通過使用dec-pomdp模型和目標(biāo)算法,使得訓(xùn)練后的智能體在控制無人機的過程中能夠適應(yīng)各種動態(tài)環(huán)境因素和分布式控制需求。本技術(shù)同時還提供了一種無人機控制系統(tǒng)、電子設(shè)備及存儲介質(zhì),具有上述有益效果,在此不再贅述。