本發(fā)明屬于無(wú)人機(jī),涉及一種無(wú)人機(jī)輔助的環(huán)境狀態(tài)感知及數(shù)據(jù)收集方法。
背景技術(shù):
1、無(wú)人機(jī)是指由遠(yuǎn)程控制或計(jì)算機(jī)程序控制的動(dòng)力飛行器,可重復(fù)使用且無(wú)需載人。因具有機(jī)動(dòng)性高、成本低、隱蔽性強(qiáng)及易部署等優(yōu)點(diǎn),無(wú)人機(jī)在軍事及民用領(lǐng)域均得到廣泛應(yīng)用。為了克服頻譜資源的限制和硬件依賴性,可采用感知與通信融合(isac)技術(shù),通過(guò)在無(wú)人機(jī)上部署通信和傳感模塊,無(wú)人機(jī)可以在與其他用戶進(jìn)行通信的同時(shí)執(zhí)行目標(biāo)感知。在無(wú)人機(jī)輔助的通信感知場(chǎng)景中,如何綜合考慮多樣化的服務(wù)需求和復(fù)雜的網(wǎng)絡(luò)特性,設(shè)計(jì)合理且高效的通信感知調(diào)度和軌跡規(guī)劃策略是亟需解決的重要課題。
2、已有研究設(shè)計(jì)了無(wú)人機(jī)通信感知調(diào)度及軌跡規(guī)劃策略。然而,現(xiàn)有研究大多專注于優(yōu)化單一性能指標(biāo),較少考慮目標(biāo)感知及數(shù)據(jù)傳輸性能的聯(lián)合優(yōu)化。此外,現(xiàn)有研究多針對(duì)靜態(tài)場(chǎng)景開展研究,較少考慮系統(tǒng)長(zhǎng)期性能優(yōu)化。
技術(shù)實(shí)現(xiàn)思路
1、有鑒于此,本發(fā)明的目的在于提供一種無(wú)人機(jī)輔助的環(huán)境狀態(tài)感知及數(shù)據(jù)收集方法,針對(duì)包含多個(gè)無(wú)人機(jī)、一個(gè)地面基站及多個(gè)地面興趣點(diǎn)(poi),建模與興趣點(diǎn)的檢測(cè)概率和、系統(tǒng)信息年齡、無(wú)人機(jī)總能耗相關(guān)的獎(jiǎng)勵(lì)函數(shù)為優(yōu)化目標(biāo),確定無(wú)人機(jī)的飛行策略、感知調(diào)度及收集收集策略。
2、為達(dá)到上述目的,本發(fā)明提供如下技術(shù)方案:
3、一種無(wú)人機(jī)輔助的環(huán)境狀態(tài)感知及數(shù)據(jù)收集方法,該方法包括以下步驟:
4、s1、構(gòu)建無(wú)人機(jī)輔助的環(huán)境狀態(tài)感知及數(shù)據(jù)收集場(chǎng)景,并建模系統(tǒng)模型;
5、s2、在無(wú)人機(jī)輔助的環(huán)境狀態(tài)感知及數(shù)據(jù)收集場(chǎng)景中建立無(wú)人機(jī)信道模型、建模數(shù)據(jù)收集速率;
6、s3、建模興趣點(diǎn)檢測(cè)概率和;
7、s4、建模系統(tǒng)信息年齡;
8、s5、建模無(wú)人機(jī)總能耗;
9、s6、建模無(wú)人機(jī)感知及數(shù)據(jù)收集限制條件;
10、s7、建模系統(tǒng)狀態(tài)空間、動(dòng)作空間及獎(jiǎng)勵(lì)函數(shù)
11、s8、建模并訓(xùn)練結(jié)合長(zhǎng)短期記憶及注意力機(jī)制的多代理深度確定性策略梯度模型;
12、s9、基于訓(xùn)練的模型確定無(wú)人機(jī)的飛行軌跡、感知調(diào)度及數(shù)據(jù)收集策略;
13、進(jìn)一步,在步驟s1中,無(wú)人機(jī)輔助的環(huán)境狀態(tài)感知及數(shù)據(jù)收集場(chǎng)景包括多個(gè)無(wú)人機(jī)、一個(gè)地面基站及多個(gè)地面興趣點(diǎn)(pois);pois收集環(huán)境狀態(tài)信息,無(wú)人機(jī)檢測(cè)pois的狀態(tài),若檢測(cè)成功,則收集pois的數(shù)據(jù);
14、令un表示第n架無(wú)人機(jī),1≤n≤n;將系統(tǒng)時(shí)間劃分為長(zhǎng)度相等的t個(gè)時(shí)隙,時(shí)隙長(zhǎng)度為τ;令θn,t表示第t個(gè)時(shí)隙un的飛行角度,θn,t∈[0,2π];令表示第t個(gè)時(shí)隙un的位置,h為un的飛行高度;無(wú)人機(jī)的位置更新公式表示為:其中v為無(wú)人機(jī)的飛行速度;
15、令表示第m個(gè)poi的位置,1≤m≤m,m為poi的總數(shù);假設(shè)場(chǎng)景中的poi通過(guò)頻分多址接入ofdma技術(shù)傳輸數(shù)據(jù)至無(wú)人機(jī),每個(gè)子信道的帶寬為b。
16、進(jìn)一步,在步驟s2中,無(wú)人機(jī)信道模型定義為:
17、無(wú)人機(jī)與poi之間信道建模為概率視距l(xiāng)os信道,令表示第t個(gè)時(shí)隙un和第m個(gè)poi之間的信道為los信道的概率,其表示為:
18、
19、其中a和a′是與環(huán)境相關(guān)的常數(shù),θn,m,t為第t個(gè)時(shí)隙un和第m個(gè)poi之間的仰角,表示為:dn,m,t為第t個(gè)時(shí)隙un和第m個(gè)poi之間的距離,其表示為:
20、
21、令為第t個(gè)時(shí)隙un和第m個(gè)poi之間los信道的路徑損耗,其表示為:
22、
23、其中αf為取決于信道頻率和光速的常數(shù),αlos是來(lái)自環(huán)境的平均附加視距路徑損耗;
24、令為第t個(gè)時(shí)隙un和第m個(gè)poi之間nlos信道的路徑損耗,其表示為:
25、
26、其中αnlos是來(lái)自環(huán)境的平均附加非視距路徑損耗;
27、令hn,m,t為第t個(gè)時(shí)隙un和第m個(gè)poi之間的平均路徑損耗,其表示為:
28、
29、在步驟s2中,數(shù)據(jù)收集速率定義為:
30、令γn,m,t為第t個(gè)時(shí)隙un和第m個(gè)poi之間的信噪比,其表示為:
31、
32、其中pm表示第m個(gè)poi的發(fā)送功率,n0表示無(wú)人機(jī)接收機(jī)處的噪聲功率譜密度;
33、令rn,m,t為第t個(gè)時(shí)隙un和第m個(gè)poi之間的數(shù)據(jù)傳輸速率,其表示為:
34、rn,m,t=blog2(1+γn,m,t)。
35、在步驟s3中,興趣點(diǎn)檢測(cè)概率和定義為:
36、令為un在第t個(gè)時(shí)隙檢測(cè)第m個(gè)poi時(shí)對(duì)應(yīng)的接收功率,其表示為:
37、
38、其中ps表示無(wú)人機(jī)檢測(cè)目標(biāo)時(shí)采用的發(fā)射功率,gt表示無(wú)人機(jī)雷達(dá)發(fā)射天線增益,gr表示雷達(dá)接收天線增益,σm表示第m個(gè)poi的雷達(dá)截面積,λ表示雷達(dá)信號(hào)的波長(zhǎng),lrt表示損耗系數(shù);
39、令表示第t個(gè)時(shí)隙un檢測(cè)第m個(gè)poi時(shí)對(duì)應(yīng)的檢測(cè)概率,表示為:
40、
41、其中i0(·)表示零階貝塞爾函數(shù),σ2表示無(wú)人機(jī)感知目標(biāo)時(shí)的噪聲功率;vt表示信號(hào)幅度門限值,令pfa表示雷達(dá)虛警概率給定常數(shù),可得:
42、
43、令μn,m,t∈{0,1}為poi感知關(guān)聯(lián)變量,μn,m,t=1表示un在第t個(gè)時(shí)隙對(duì)第m個(gè)poi進(jìn)行感知,反之μn,m,t=0;截止第t個(gè)時(shí)隙第m個(gè)poi至少被un成功檢測(cè)一次的檢測(cè)概率表示為:
44、
45、所有poi的檢測(cè)概率和psum表示為:
46、
47、進(jìn)一步,在步驟s4中,系統(tǒng)信息年齡定義為:
48、令βn,m,t∈{0,1}為poi的數(shù)據(jù)收集變量,βn,m,t=1表示un在第t個(gè)時(shí)隙收集第m個(gè)poi的數(shù)據(jù),否則βn,m,t=0;
49、令為第t個(gè)時(shí)隙第m個(gè)poi傳輸數(shù)據(jù)至un的時(shí)長(zhǎng),其表示為:
50、
51、其中dm,t為截止第t個(gè)時(shí)隙第m個(gè)poi待傳輸至無(wú)人機(jī)的剩余數(shù)據(jù)量,其表示為:
52、
53、dm表示第m個(gè)poi的初始數(shù)據(jù)量;
54、令am,t為第t個(gè)時(shí)隙第m個(gè)poi的信息年齡,其表示為:
55、am,t=(t-sm)+
56、其中,(x)+=max{0,x},sm為第m個(gè)poi開始傳輸數(shù)據(jù)的時(shí)隙,其表示為:
57、
58、令a表示系統(tǒng)的總信息年齡,其表示為:
59、
60、進(jìn)一步,在步驟s5中,無(wú)人機(jī)總能耗建模為:
61、令pf為無(wú)人機(jī)的飛行功率,其表示為:
62、
63、其中,vtip表示無(wú)人機(jī)轉(zhuǎn)子葉片的葉尖速度,v0表示無(wú)人機(jī)轉(zhuǎn)子引起的平均速度;常數(shù)c1、c2、c3取決于無(wú)人機(jī)的功率、旋翼和空氣密度;
64、令ph為無(wú)人機(jī)單位時(shí)隙的懸停功率,其表示為:
65、ph=c1+c2
66、令為無(wú)人機(jī)un飛行狀態(tài)變量指示變量,表示un在第t個(gè)時(shí)隙處于飛行狀態(tài),反之處于懸停狀態(tài)
67、令en,t為un在第t個(gè)時(shí)隙的能耗,具體表示為:
68、
69、令en為無(wú)人機(jī)un的總能耗,具體表示為:
70、
71、令e為無(wú)人機(jī)收集數(shù)據(jù)的總能耗,具體表示為:
72、
73、進(jìn)一步,在步驟s6中,無(wú)人機(jī)感知及數(shù)據(jù)收集的限制條件包括uav-poi關(guān)聯(lián)限制條件、感知限制條件、數(shù)據(jù)傳輸限制條件、無(wú)人機(jī)飛行限制條件,其中,
74、1)uav-poi關(guān)聯(lián)限制條件包括:
75、
76、
77、2)目標(biāo)感知限制條件包括:
78、
79、其中re為有效檢測(cè)半徑;
80、
81、其中pth為開始數(shù)據(jù)傳輸時(shí)的檢測(cè)概率閾值;
82、3)數(shù)據(jù)傳輸限制條件包括:
83、
84、4)無(wú)人機(jī)軌跡限制條件包括:
85、a)無(wú)人機(jī)飛行位置限制條件為:
86、
87、其中,lth為兩個(gè)無(wú)人機(jī)之間的最小安全距離;
88、b)無(wú)人機(jī)能耗限制條件為:
89、
90、其中,表示無(wú)人機(jī)un的初始能量,表示un的剩余能量門限值。
91、進(jìn)一步,在步驟s7中,建模系統(tǒng)狀態(tài)空間、動(dòng)作空間及獎(jiǎng)勵(lì)函數(shù),具體包括:
92、(1)令st∈s表示第t個(gè)時(shí)隙的系統(tǒng)狀態(tài)空間,建模為:
93、
94、其中表示第t個(gè)時(shí)隙無(wú)人機(jī)un的狀態(tài),為截止第t個(gè)時(shí)隙un的剩余能量,可表示為:
95、
96、表示第t個(gè)時(shí)隙第m個(gè)poi的狀態(tài),pm,t為截止第t個(gè)時(shí)隙第m個(gè)poi的檢測(cè)概率,其表示為:
97、
98、(2)令at∈a表示第t個(gè)時(shí)隙的動(dòng)作空間,則:at={a1,t,…,an,t,…,an,t},其中an,t表示第t個(gè)時(shí)隙無(wú)人機(jī)un的動(dòng)作空間
99、(3)令rt∈r表示第t個(gè)時(shí)隙的獎(jiǎng)勵(lì)函數(shù),則rt={r1,t,…,rn,t,…,rn,t},rn,t表示第t個(gè)時(shí)隙無(wú)人機(jī)un在狀態(tài)sn,t時(shí)選擇動(dòng)作an,t獲得的獎(jiǎng)勵(lì),具體建模為:
100、
101、其中ω1,ω2,ω3,ω4表示權(quán)重因子,表示第t個(gè)時(shí)隙無(wú)人機(jī)un的數(shù)據(jù)收集獎(jiǎng)勵(lì),有
102、
103、表示第t個(gè)時(shí)隙無(wú)人機(jī)un的感知獎(jiǎng)勵(lì):
104、
105、表示第t個(gè)時(shí)隙無(wú)人機(jī)un關(guān)聯(lián)的數(shù)據(jù)收集任務(wù)信息年齡懲罰項(xiàng),有:
106、
107、c1,c2是正數(shù),分別表示無(wú)人機(jī)在未收集完數(shù)據(jù)情況下返回起點(diǎn)的懲罰,以及無(wú)人機(jī)剩余電量低于閾值時(shí)未返回起點(diǎn)的懲罰。
108、進(jìn)一步,在步驟s8中,建模并訓(xùn)練結(jié)合長(zhǎng)短期記憶(lstm)及注意力機(jī)制的多代理深度確定性策略梯度(maddpg),具體包括:
109、(1)構(gòu)建基于lstm及注意力機(jī)制的maddpg網(wǎng)絡(luò):所構(gòu)建的網(wǎng)絡(luò)包含一個(gè)參數(shù)為ω的現(xiàn)實(shí)actor網(wǎng)絡(luò)、一個(gè)參數(shù)為ω′的現(xiàn)實(shí)critic網(wǎng)絡(luò)、一個(gè)參數(shù)為θ的目標(biāo)actor網(wǎng)絡(luò)、一個(gè)參數(shù)為θ′的目標(biāo)critic網(wǎng)絡(luò);四個(gè)網(wǎng)絡(luò)中的全連接層fcn由級(jí)聯(lián)lstm層和軟注意力層組成;
110、在級(jí)聯(lián)lstm層中,令ft表示第t個(gè)時(shí)隙的遺忘門、ct表示第t個(gè)時(shí)隙的單元狀態(tài)、ht表示第t個(gè)時(shí)隙的隱藏狀態(tài),具體表示為:
111、ft=σl(wf·[xt+ht-1]+bf)
112、ct=tanh(wc·[xt+ht-1]+bc)*it+ft*ct-1ht=ot*tanh(ct)
113、其中,it表示第t個(gè)時(shí)隙的輸入門;ot表示第t個(gè)時(shí)隙的輸出門;wf、wc、bf、bc表示網(wǎng)絡(luò)參數(shù);ht-1第t-1個(gè)時(shí)隙的隱藏狀態(tài);ct-1表示第t-1個(gè)時(shí)隙的單元狀態(tài);*表示矩陣的哈達(dá)瑪積;σl表示sigmoid激活函數(shù);
114、在軟注意力層中,令表示第t個(gè)時(shí)隙與時(shí)隙之間的注意力權(quán)重,其表示為:
115、
116、其中,表示第t個(gè)時(shí)隙ht和ct的狀態(tài)總結(jié)向量ut的轉(zhuǎn)置;
117、令h′t表示第t個(gè)時(shí)隙更新后的隱藏狀態(tài),其表示為:
118、
119、(2)初始化網(wǎng)絡(luò)參數(shù):當(dāng)前actor網(wǎng)絡(luò)與環(huán)境交互,輸入狀態(tài)s至現(xiàn)實(shí)actor網(wǎng)絡(luò)得到動(dòng)作a,對(duì)環(huán)境施加動(dòng)作a,轉(zhuǎn)至下一時(shí)刻的狀態(tài)s′,得到獎(jiǎng)勵(lì)r;將四元組(s,a,r,s′)存入經(jīng)驗(yàn)池中;
120、(3)采樣及參數(shù)訓(xùn)練:從經(jīng)驗(yàn)池中取出樣本進(jìn)行訓(xùn)練,將第t個(gè)時(shí)隙的狀態(tài)st和動(dòng)作at輸入到現(xiàn)實(shí)critic網(wǎng)絡(luò)中計(jì)算出當(dāng)前q(st,at;θ)值;將下一時(shí)刻的狀態(tài)st+1輸入到目標(biāo)actor網(wǎng)絡(luò)得到動(dòng)作at+1;將狀態(tài)st+1和動(dòng)作at+1輸入到目標(biāo)critic網(wǎng)絡(luò)中計(jì)算出目標(biāo)值;令表示兩個(gè)q值之間的損失函數(shù),通過(guò)最小化損失函數(shù),更新現(xiàn)實(shí)critic網(wǎng)絡(luò)的參數(shù)ω′;
121、(4)基于策略梯度法更新現(xiàn)實(shí)actor網(wǎng)絡(luò)參數(shù)ω:
122、
123、其中j為代理的目標(biāo)函數(shù),表示對(duì)f(x)求關(guān)于x的梯度;μ(st,at;ω)表示現(xiàn)實(shí)actor網(wǎng)絡(luò)從狀態(tài)到動(dòng)作映射的策略;α是梯度下降算法的學(xué)習(xí)率,0≤α≤1;
124、(5)基于軟更新方式對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行更新:分別用現(xiàn)實(shí)actor網(wǎng)絡(luò)的參數(shù)ω及現(xiàn)實(shí)critic網(wǎng)絡(luò)的參數(shù)ω′,更新目標(biāo)actor網(wǎng)絡(luò)的參數(shù)θ和目標(biāo)critic網(wǎng)絡(luò)的參數(shù)θ′,其表示為:
125、ω′←ρω+(1-ρ)ω′
126、θ′←ρθ+(1-ρ)θ′
127、其中ρ表示學(xué)習(xí)率,ρ∈(0,1)且ρ<<1;
128、(6)重復(fù)執(zhí)行訓(xùn)練過(guò)程:先判斷是否到達(dá)終止條件,若未終止則返回步驟(2)用現(xiàn)實(shí)actor網(wǎng)絡(luò)采樣,依此循環(huán)下去,直至滿足終止條件;訓(xùn)練結(jié)束后,算法得到的結(jié)果是現(xiàn)實(shí)actor網(wǎng)絡(luò),在實(shí)際決策中輸入一個(gè)狀態(tài),actor網(wǎng)絡(luò)會(huì)輸出一個(gè)最優(yōu)的動(dòng)作;其它的三個(gè)網(wǎng)絡(luò),是訓(xùn)練得到的最優(yōu)的輔助網(wǎng)絡(luò)。
129、進(jìn)一步,在步驟s9中,利用訓(xùn)練得到的結(jié)合lstm及注意力機(jī)制的maddpg網(wǎng)絡(luò),在滿足無(wú)人機(jī)感知及數(shù)據(jù)收集限制條件下,以獎(jiǎng)勵(lì)函數(shù)優(yōu)化為目標(biāo)確定無(wú)人機(jī)的飛行策略、感知調(diào)度及收集收集策略。
130、本發(fā)明的有益效果在于:
131、本發(fā)明通過(guò)聯(lián)合優(yōu)化無(wú)無(wú)人機(jī)的飛行策略、感知調(diào)度及收集收集策略,實(shí)現(xiàn)與興趣點(diǎn)的檢測(cè)概率和、系統(tǒng)信息年齡、無(wú)人機(jī)總能耗相關(guān)的獎(jiǎng)勵(lì)函數(shù)最大化。
132、本發(fā)明的其他優(yōu)點(diǎn)、目標(biāo)和特征在某種程度上將在隨后的說(shuō)明書中進(jìn)行闡述,并且在某種程度上,基于對(duì)下文的考察研究對(duì)本領(lǐng)域技術(shù)人員而言將是顯而易見的,或者可以從本發(fā)明的實(shí)踐中得到教導(dǎo)。本發(fā)明的目標(biāo)和其他優(yōu)點(diǎn)可以通過(guò)下面的說(shuō)明書來(lái)實(shí)現(xiàn)和獲得。