本發(fā)明屬于無(wú)線通信與無(wú)人機(jī)網(wǎng)絡(luò),具體涉及一種多irs無(wú)人機(jī)通感算一體化系統(tǒng)資源配置優(yōu)化方法。
背景技術(shù):
1、近年來(lái),無(wú)人機(jī)邊緣計(jì)算網(wǎng)絡(luò)的發(fā)展前景廣闊,成為數(shù)據(jù)處理和通信任務(wù)的重要解決方案。無(wú)人機(jī)憑借其卓越的靈活性與快速部署能力,逐漸成為增強(qiáng)傳統(tǒng)無(wú)線通信基礎(chǔ)設(shè)施的關(guān)鍵組成部分。其在智能交通、環(huán)境監(jiān)測(cè)和災(zāi)難響應(yīng)等領(lǐng)域展現(xiàn)出廣泛的應(yīng)用潛力。無(wú)人機(jī)具有靈活部署和快速響應(yīng)的優(yōu)勢(shì),使其能夠在多種物聯(lián)網(wǎng)場(chǎng)景中發(fā)揮重要作用。如在環(huán)境監(jiān)測(cè)中,無(wú)人機(jī)能夠?qū)崟r(shí)收集和分析數(shù)據(jù),提供高效的監(jiān)測(cè)手段;在交通監(jiān)控中,無(wú)人機(jī)可實(shí)現(xiàn)對(duì)交通流量的動(dòng)態(tài)觀察和管理;而在空中成像領(lǐng)域,則能夠獲取高分辨率的圖像數(shù)據(jù),為城市規(guī)劃和資源管理提供支持。特別是在無(wú)人機(jī)與地面用戶之間的空對(duì)地/地對(duì)空信道中,視距(los)鏈路的主導(dǎo)特性極大地提高了無(wú)線通信的效率。這種直接的視線傳播方式減小了信號(hào)衰減,提高了通信質(zhì)量。在相關(guān)研究文獻(xiàn)中,無(wú)人機(jī)通常被定義為空中用戶或多種空中通信平臺(tái),包括移動(dòng)基站(bs)和空中中繼,顯示出其在網(wǎng)絡(luò)架構(gòu)中的靈活角色。盡管無(wú)人機(jī)具備諸多優(yōu)勢(shì),但因?yàn)槠錂C(jī)載算力和記載能量的不足,使其不能部署大規(guī)模密集算力任務(wù)。然而邊緣計(jì)算網(wǎng)絡(luò)通過(guò)計(jì)算任務(wù)卸載將算?應(yīng)用與發(fā)展。為了提升無(wú)人機(jī)邊緣計(jì)算系統(tǒng)的安全性,通信感知一體化(isac)技術(shù)被引入。isac預(yù)計(jì)能夠?qū)崿F(xiàn)更高的頻譜和能量效率,但最重要的是,它們將推動(dòng)一種新型的整合范式,從共同設(shè)計(jì)的角度實(shí)現(xiàn)互利共贏,即感知與通信功能可以相互協(xié)助。得益于這兩大優(yōu)勢(shì),isac的應(yīng)用已擴(kuò)展到眾多新興領(lǐng)域,包括智能制造、室內(nèi)服務(wù),如人類活動(dòng)識(shí)別以及環(huán)境監(jiān)測(cè)、車載網(wǎng)絡(luò)等。isac通過(guò)將信息傳輸與環(huán)境感知相結(jié)合,為無(wú)人機(jī)提供了更強(qiáng)的抗干擾能力和更高的數(shù)據(jù)安全性。然而,isac的引入并未有效解決視距遮擋問(wèn)題,這可能會(huì)導(dǎo)致信號(hào)衰減和通信不穩(wěn)定。
技術(shù)實(shí)現(xiàn)思路
1、為解決上述問(wèn)題,本發(fā)明公開(kāi)了一種多irs無(wú)人機(jī)通感算一體化系統(tǒng)資源配置優(yōu)化方法,通過(guò)利用多個(gè)智能反射表面(irs)輔助感知和通信波束,結(jié)合人工噪聲技術(shù),共同優(yōu)化數(shù)據(jù)無(wú)人機(jī)(d-uav)和信息無(wú)人機(jī)(i-uav)的布置點(diǎn)、卸載比、人工噪聲功率及irs相移,以最大化系統(tǒng)安全速率()。該方案能夠有效提升無(wú)人機(jī)網(wǎng)絡(luò)的安全性和抗干擾能力,且在不同發(fā)射功率和irs陣列數(shù)量下均展現(xiàn)出優(yōu)越的性能,相較于其他方案具有更好的優(yōu)化效果。
2、為達(dá)到上述目的,本發(fā)明的技術(shù)方案如下:
3、一種多irs無(wú)人機(jī)通感算一體化系統(tǒng)資源配置優(yōu)化方法,包括如下步驟:
4、步驟1:建立多智能反射面增強(qiáng)的通感一體化無(wú)人機(jī)邊緣計(jì)算系統(tǒng)模型;
5、步驟1-1:系統(tǒng)模型構(gòu)建:系統(tǒng)包括兩個(gè)無(wú)人機(jī):i-uav?和?d-uav;d-uav負(fù)責(zé)收集地面數(shù)據(jù),i-uav配備irs,輔助d-uav的數(shù)據(jù)卸載和bs-mec的通信與感知;定義i-uav和d-uav的多個(gè)決策點(diǎn)dps,用向量表示和;初始位置分別為和?;
6、步驟1-2:建立飛行延遲模型:定義i-uav和d-uav在時(shí)隙?中的飛行延遲和;得到公式和;其中為無(wú)人機(jī)的速度,為限制無(wú)人機(jī)的飛行時(shí)間,確保能按時(shí)到達(dá)指定的決策點(diǎn);而和分別代表i-uav和d-uav在下一時(shí)隙的決策點(diǎn),和分別代表i-uav和d-uav在當(dāng)前時(shí)隙的決策點(diǎn);
7、步驟1-3:建立等待時(shí)間模型:定義等待時(shí)間為兩無(wú)人機(jī)的飛行時(shí)間差;通過(guò)設(shè)置標(biāo)志變量,判斷哪架無(wú)人機(jī)首先到達(dá)決策點(diǎn);
8、步驟1-4:建立能量消耗模型:i-uav和d-uav的能量消耗模型,包含飛行能量消耗和懸停能量消耗為?,能量約束條件為,;其中,,分別代表了i-uav的飛行功率和懸停功率;,分別代表了d-uav的飛行功率和懸停功率;,分別代表了i-uav和d-uav的最大飛行和懸停能量消耗;
9、步驟1-5:建立信號(hào)模型:在物理層中加入人工噪聲an以增強(qiáng)安全性;bs-mec的信號(hào)模型為;其中,是bs-mec的波束成形矩陣,是傳輸信號(hào),是人工噪聲。
10、步驟2:建立多智能反射面增強(qiáng)的通感一體化無(wú)人機(jī)邊緣計(jì)算系統(tǒng)的信道模型;
11、步驟2-1:系統(tǒng)參數(shù)初始化:定義系統(tǒng)中不同節(jié)點(diǎn)的坐標(biāo),包括bs-mec、eav、用戶和無(wú)人機(jī)的位置;bs-mec的位置??,eav的位置??,用戶位置?;i-uav和d-uav在各個(gè)時(shí)隙的位置為??和?,其中??和??是固定的無(wú)人機(jī)飛行高度;
12、步驟2-2:定義距離計(jì)算模型:其中,bs-mec與i-uav的距離為
13、;
14、①i-uav與用戶?的距離為;
15、②bs-mec與eav的距離為;
16、③d-uav與i-uav的距離為;
17、④d-uav與用戶?的距離為;
18、⑤d-uav與eav的距離為;
19、其中,、為irs的橫坐標(biāo)值、縱坐標(biāo)值;、為bs的橫坐標(biāo)值、縱坐標(biāo)值;、為用戶的橫坐標(biāo)值、縱坐標(biāo)值;、為eav的橫坐標(biāo)值、縱坐標(biāo)值;、為d_uav的橫坐標(biāo)值、縱坐標(biāo)值;
20、步驟2-3:定義信道增益模型:由于使用了視距l(xiāng)os通信,因此信道增益模型遵循自由空間路徑損耗模型;bs-mec到i-uav的信道增益為;i-uav與用戶的信道增益為;d-uav與i-uav的信道增益為;d-uav與用戶的信道增益為;d-uav與eav的信道增益為;
21、步驟2-4:定義irs反射模型:系統(tǒng)中多個(gè)irs用于輔助通信和感知,每個(gè)irs的反射矩陣表示為;其中,為第個(gè)反射單元在時(shí)隙的反射系數(shù),而是信號(hào)的反射系數(shù)。
22、步驟3:建立多智能反射面增強(qiáng)的通感一體化無(wú)人機(jī)邊緣計(jì)算系統(tǒng)的部分卸載模型與計(jì)算模型;
23、步驟3-1:系統(tǒng)參數(shù)初始化:初始化卸載和計(jì)算相關(guān)的參數(shù),包括d-uav?收集的數(shù)據(jù)量;數(shù)據(jù)的部分卸載比例,其中;信道帶寬;d-uav?的傳輸功率;i-uav和?d-uav?的懸停功率和?;d-uav?的計(jì)算功率;bs-mec?的計(jì)算能力;d-uav的計(jì)算能力;執(zhí)行每個(gè)比特?cái)?shù)據(jù)所需的?cpu?周期數(shù);噪聲功率;信道增益矩陣和?;irs?的反射矩陣;
24、步驟3-2:建立卸載傳輸速率計(jì)算模型:d-uav?到?bs-mec?的傳輸速率為
25、;其中,和是d-uav到i-uav和i-uav到bs-mec的信道增益矩陣,通過(guò)irs的反射矩陣來(lái)實(shí)現(xiàn)數(shù)據(jù)傳輸;
26、步驟3-3:建立卸載時(shí)延計(jì)算模型:基于傳輸速率,部分卸載的時(shí)延計(jì)算為?;該公式表示在第??個(gè)時(shí)隙內(nèi),部分卸載數(shù)據(jù)的時(shí)延由卸載的數(shù)據(jù)量?和傳輸速率??決定;其中,bs-mec?的計(jì)算時(shí)延表示為?;其中,是每比特?cái)?shù)據(jù)的?cpu?周期數(shù),是bs-mec的計(jì)算能力;d-uav?本地計(jì)算時(shí)延為;其中,是d-uav的計(jì)算能力,是在d-uav上處理的數(shù)據(jù)量;
27、步驟3-4:建立能量消耗計(jì)算模型:其中,d-uav?的計(jì)算能耗為;,?分別是?i-uav?和?d-uav?的功率;i-uav?的計(jì)算能耗為;這里假設(shè)i-uav僅懸停,不執(zhí)行計(jì)算任務(wù),因此其能耗僅由懸停時(shí)間決定。
28、步驟4:建立多智能反射面增強(qiáng)的通感一體化無(wú)人機(jī)邊緣計(jì)算系統(tǒng)的能量模型;
29、步驟4-1:定義相關(guān)參數(shù):d-uav?收集的數(shù)據(jù)大??;執(zhí)行每比特任務(wù)所需的?cpu周期數(shù);卸載數(shù)據(jù)的比例;bs-mec?的計(jì)算能力;d-uav?的計(jì)算能力;d-uav?計(jì)算時(shí)的功率;d-uav?和?i-uav?的懸停功率和;
30、步驟4-2:建立時(shí)間計(jì)算模型:其中,在?bs-mec?上計(jì)算部分卸載的數(shù)據(jù),bs-mec計(jì)算時(shí)間為,在?d-uav?上計(jì)算未卸載的數(shù)據(jù),計(jì)算時(shí)間為;
31、步驟4-3:建立能量消耗模型:d-uav?計(jì)算剩余數(shù)據(jù)時(shí)的能量消耗為,在計(jì)算過(guò)程中,i-uav?的懸停能耗為。
32、步驟5:建立多智能反射面增強(qiáng)的通感一體化無(wú)人機(jī)邊緣計(jì)算系統(tǒng)的竊聽(tīng)模型;
33、步驟5-1:d-uav?或?bs-mec?向用戶傳輸數(shù)據(jù)的速率:用戶的信噪比;用戶的信道增益;竊聽(tīng)者對(duì)用戶的可達(dá)傳輸速率;竊聽(tīng)者的信噪比?;包含信道、相位調(diào)整和其他系統(tǒng)參數(shù)的矩陣?;用戶的安全傳輸速率;噪聲功率;
34、步驟5-2:建立用戶數(shù)據(jù)傳輸速率模型:定義從?d-uav?或?bs-mec?向用戶傳輸數(shù)據(jù)的速率;其中,是帶寬,是用戶的信噪比?sinr;
35、步驟5-3:建立用戶信噪比sinr計(jì)算模型:用戶的?sinr表示為;其中,包含?i-uav?和?d-uav?的信道信息,代表基站發(fā)給第k個(gè)用戶的信號(hào);
36、步驟5-4:建立竊聽(tīng)者速率與信噪比計(jì)算模型:定義竊聽(tīng)者對(duì)用戶的可達(dá)傳輸速率;其中,是竊聽(tīng)者的信噪比sinr;竊聽(tīng)者的表示為;其中,包含信道、相位調(diào)整和其他系統(tǒng)矩陣;,分別代表了bs的波束賦形矩陣和bs的波束賦形矩陣的轉(zhuǎn)置,和分別代表了bs向第i個(gè)用戶發(fā)射的波束賦形矩陣和bs向第i個(gè)用戶發(fā)射的波束賦形矩陣的轉(zhuǎn)置,是人工噪聲的協(xié)方差矩陣;
37、步驟5-5:建立安全傳輸速率模型:定義用戶的可達(dá)安全傳輸速率為;該公式計(jì)算用戶的安全速率,其中表示取正值,即當(dāng)差值為負(fù)時(shí),取0。
38、步驟6:提出資源分配和軌跡優(yōu)化問(wèn)題和約束條件,以最大化所有用戶的和安全速率;
39、步驟7:在此馬爾科夫決策過(guò)程(mdp)框架中,多irs輔助的安全isac-mec系統(tǒng)構(gòu)成了動(dòng)態(tài)環(huán)境,而無(wú)人機(jī)的控制中心充當(dāng)智能代理。除了環(huán)境和智能代理之外,mdp問(wèn)題還包括各種組件,如狀態(tài)空間、動(dòng)作空間、狀態(tài)轉(zhuǎn)移概率和獎(jiǎng)勵(lì)函數(shù)。這些元素對(duì)于建模和解決mdp問(wèn)題至關(guān)重要,其具體定義如下:
40、設(shè)表示網(wǎng)絡(luò)的狀態(tài)空間:在時(shí)間步??時(shí),網(wǎng)絡(luò)狀態(tài)包括多種組件,如信道信息、所選擇的動(dòng)作以及獲得的獎(jiǎng)勵(lì);因此,狀態(tài)定義為??;其中,和分別表示在時(shí)間步時(shí)i-uav和d-uav的數(shù)據(jù)收集信道狀態(tài),表示在時(shí)間步選擇的動(dòng)作,表示在時(shí)間步獲得的獎(jiǎng)勵(lì);
41、設(shè)表示網(wǎng)絡(luò)的動(dòng)作空間:在時(shí)間步時(shí),智能代理的動(dòng)作??包括無(wú)人機(jī)的位置、irs的反射系數(shù);因此,動(dòng)作定義為??;其中,?表示i-uav的部署位置,表示d-uav的部署位置,表示時(shí)間步?時(shí)irs的反射系數(shù);
42、設(shè)??表示環(huán)境的狀態(tài)轉(zhuǎn)移概率,表示在狀態(tài)下執(zhí)行動(dòng)作時(shí),轉(zhuǎn)移到新?tīng)顟B(tài)??的概率;
43、獎(jiǎng)勵(lì)函數(shù)是智能系統(tǒng)評(píng)估其行為有效性的一種度量方法;通過(guò)將智能代理的當(dāng)前狀態(tài)和動(dòng)作空間映射到獎(jiǎng)勵(lì)函數(shù),獎(jiǎng)勵(lì)函數(shù)提供了對(duì)智能代理表現(xiàn)的定量評(píng)估;由此產(chǎn)生的獎(jiǎng)勵(lì)值反映了代理動(dòng)作選擇策略的質(zhì)量,作為評(píng)估代理決策能力的標(biāo)準(zhǔn);;其中,是給定的常數(shù),是懲罰項(xiàng),是安全速率。
44、步驟8:基于步驟7強(qiáng)化學(xué)習(xí)建模,本發(fā)明提出基于hybrid?sac的智能資源分配算法,聯(lián)合優(yōu)化數(shù)據(jù)無(wú)人機(jī)(d-uav)和信息無(wú)人機(jī)(i-uav)的布置點(diǎn)、卸載比、人工噪聲功率及irs相移,以最大化系統(tǒng)安全速率(rsec)。
45、在?sac?算法中,為兩個(gè)動(dòng)作價(jià)值函數(shù)?q?(參數(shù)分別為??和??)和一個(gè)策略函數(shù)??(參數(shù)為??)建模;基于?double?dqn?的思想,?sac?使用兩個(gè)?q?網(wǎng)絡(luò),但每次用q?網(wǎng)絡(luò)時(shí)會(huì)挑選一個(gè)?q值小的網(wǎng)絡(luò),從而緩解q值過(guò)高估計(jì)的問(wèn)題;任意一個(gè)函數(shù)q的損失函數(shù)為:
46、;
47、其中,r是策略過(guò)去收集的數(shù)據(jù),因?yàn)?sac?是一種離線策略算法;是期望求解,是第t個(gè)步內(nèi)取得的回報(bào),是一個(gè)正則化的系數(shù);為了讓訓(xùn)練更加穩(wěn)定,這里使用了目標(biāo)網(wǎng)絡(luò)q,同樣是兩個(gè)目標(biāo)q網(wǎng)絡(luò),與兩個(gè)q網(wǎng)絡(luò)一一對(duì)應(yīng);sac?中目標(biāo)q網(wǎng)絡(luò)的更新方式與?ddpg?中的更新方式一樣;
48、策略的損失函數(shù)由?kl?散度得到,化簡(jiǎn)后為
49、,
50、其中,表示求期望,表示策略在狀態(tài)下采取動(dòng)作,表示其價(jià)值網(wǎng)絡(luò),上述過(guò)程理解為最大化函數(shù)v,因?yàn)橛?/p>
51、;
52、對(duì)連續(xù)動(dòng)作空間的環(huán)境,sac?算法的策略輸出高斯分布的均值和標(biāo)準(zhǔn)差,但是根據(jù)高斯分布來(lái)采樣動(dòng)作的過(guò)程是不可導(dǎo)的;因此需要用到重參數(shù)化技巧;重參數(shù)化的做法是先從一個(gè)單位高斯分布,再把采樣值乘以標(biāo)準(zhǔn)差后加上均值;這樣就認(rèn)為是從策略高斯分布采樣,并且這樣對(duì)于策略函數(shù)是可導(dǎo)的;將其表示為,其中是一個(gè)噪聲隨機(jī)變量;同時(shí)考慮到兩個(gè)函數(shù)q,?重寫(xiě)策略的損失函數(shù):
53、;
54、其中,是求期望,是一個(gè)策略,代表最小化其價(jià)值函數(shù),是和間的一種映射關(guān)系,對(duì)是一種噪聲隨機(jī)變量,對(duì)于處理離散動(dòng)作的sac算法,策略網(wǎng)絡(luò)的輸出修改為在離散動(dòng)作空間上的?softmax?分布;價(jià)值網(wǎng)絡(luò)直接接收狀態(tài)和離散動(dòng)作空間的分布作為輸入;該策略網(wǎng)絡(luò)輸出一個(gè)離散的動(dòng)作分布,所以在價(jià)值網(wǎng)絡(luò)的學(xué)習(xí)過(guò)程中,不需要再對(duì)下一個(gè)動(dòng)作進(jìn)行采樣,而是直接通過(guò)概率計(jì)算來(lái)得到下一個(gè)狀態(tài)的價(jià)值;同理,在的損失函數(shù)計(jì)算中,也不需要再對(duì)動(dòng)作進(jìn)行采樣;
55、智能體與系統(tǒng)交互,獲得訓(xùn)練經(jīng)驗(yàn);
56、步驟8-1:智能體通過(guò)hybrid?sac優(yōu)化數(shù)據(jù)無(wú)人機(jī)d-uav和信息無(wú)人機(jī)i-uav的布置點(diǎn)、卸載比、人工噪聲功率及irs相移,并輸入,以進(jìn)入新系統(tǒng)狀態(tài),同時(shí)通過(guò)獎(jiǎng)勵(lì)函數(shù)獲得當(dāng)前獎(jiǎng)勵(lì)值;在每步迭代中,智能體能夠?qū)⑴c環(huán)境交互得到的新舊系統(tǒng)狀態(tài)、動(dòng)作選擇、獎(jiǎng)勵(lì)值存入經(jīng)驗(yàn)池,為網(wǎng)絡(luò)訓(xùn)練提供訓(xùn)練樣本;
57、步驟8-2:算法參數(shù)更新:當(dāng)智能體與環(huán)境交互滿足設(shè)定次數(shù)后,通過(guò)回放存儲(chǔ)在經(jīng)驗(yàn)池的經(jīng)驗(yàn),智能體以最小化損失函數(shù)為目標(biāo)進(jìn)行學(xué)習(xí),通過(guò)反向梯度對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行更新;
58、當(dāng)智能體與環(huán)境交互滿足設(shè)定次數(shù)后,智能體從經(jīng)驗(yàn)池隨機(jī)取出大小為的元祖,以最小損失函數(shù)為目標(biāo),計(jì)算損失函數(shù)反向梯度,對(duì)sac網(wǎng)絡(luò)參數(shù)進(jìn)行更新;
59、若訓(xùn)練次數(shù)未達(dá)到設(shè)定次數(shù),回到智能體與系統(tǒng)交互步驟;
60、步驟8-3:算法收斂,將各網(wǎng)絡(luò)參數(shù)本地保存。
61、步驟9:利用基于sac的智能資源分配方法聯(lián)合優(yōu)化d-uav和i-uav的部署點(diǎn)、任務(wù)卸載比率、人工噪聲功率以及多個(gè)irs的相位移,以最大化系統(tǒng)的安全速率()。
62、本發(fā)明的有益效果為:
63、本發(fā)明提出了hybrid?sac算法,共同優(yōu)化了優(yōu)化數(shù)據(jù)無(wú)人機(jī)(d-uav)和信息無(wú)人機(jī)(i-uav)的布置點(diǎn)、卸載比、人工噪聲功率及irs相移,以最大化系統(tǒng)安全速率()。通過(guò)應(yīng)用hybrid?sac算法,本發(fā)明提出的系統(tǒng)表現(xiàn)出顯著更高的任務(wù)成功概率,驗(yàn)證了其在增強(qiáng)整體性能方面的有效性。