本技術(shù)涉及無人機(jī)網(wǎng)絡(luò)通信能效,尤其涉及基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)通信保密能效優(yōu)化方法及系統(tǒng)。
背景技術(shù):
1、無人機(jī)通信系統(tǒng)相對于傳統(tǒng)的地面通信系統(tǒng)具有獨(dú)特的優(yōu)勢,利用無人機(jī)的機(jī)動(dòng)性、靈活性和視距連接等特點(diǎn),能夠提升通信系統(tǒng)中的網(wǎng)絡(luò)覆蓋、連通性和傳輸速率,同時(shí)降低傳輸延遲。因此,無人機(jī)通信系統(tǒng)為現(xiàn)有通信網(wǎng)絡(luò)帶來了新的可能性和解決方案。相關(guān)技術(shù)研究包括無人機(jī)機(jī)載能源的有限性和通信安全問題與結(jié)合非正交多址接入(noma)技術(shù)與可重配置智能表面(ri?s),但是,在無線通信網(wǎng)絡(luò)優(yōu)化領(lǐng)域,傳統(tǒng)優(yōu)化技術(shù)往往需要經(jīng)歷復(fù)雜的數(shù)學(xué)推導(dǎo)和重復(fù)的迭代過程,才能獲得最優(yōu)解。特別當(dāng)涉及到無人機(jī)等移動(dòng)元素時(shí),由于其帶來的環(huán)境動(dòng)態(tài)性,問題解決的難度更是成倍增加,因此研究相關(guān)技術(shù)在處理關(guān)于無人機(jī)保密能效問題時(shí)采用傳統(tǒng)的凸優(yōu)化方法,需要經(jīng)過復(fù)雜的公式推導(dǎo)以及迭代才能解決問題,且在ri?s輔助無人機(jī)的通信系統(tǒng)中,研究大多只停留在解決保密率最大化的問題上,而忽略了無人機(jī)的能量消耗,因此缺乏對ri?s輔助無人機(jī)與用戶通信系統(tǒng)的保密能源效率研究。
2、綜上,相關(guān)技術(shù)中存在的技術(shù)問題有待得到改善。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)實(shí)施例的主要目的在于提出一種基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)通信保密能效優(yōu)化方法及系統(tǒng),能夠結(jié)合深度強(qiáng)化學(xué)習(xí)以及考慮無人機(jī)飛行軌跡能量損耗,提高無人機(jī)通信系統(tǒng)中的保密能源效率。
2、為實(shí)現(xiàn)上述目的,本技術(shù)實(shí)施例的一方面提出了一種基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)通信保密能效優(yōu)化方法,所述方法包括:
3、構(gòu)建智能反射面輔助noma無人機(jī)通信網(wǎng)絡(luò)安全保密能效優(yōu)化模型;
4、對所述智能反射面輔助noma無人機(jī)通信網(wǎng)絡(luò)安全保密能效優(yōu)化模型進(jìn)行迭代優(yōu)化求解,得到無人機(jī)通信網(wǎng)絡(luò)安全保密參數(shù);
5、設(shè)定深度強(qiáng)化學(xué)習(xí)算法的狀態(tài)向量、動(dòng)作空間和獎(jiǎng)勵(lì)函數(shù),構(gòu)建深度強(qiáng)化學(xué)習(xí)優(yōu)化算法;
6、基于所述深度強(qiáng)化學(xué)習(xí)優(yōu)化算法對所述無人機(jī)通信網(wǎng)絡(luò)安全保密參數(shù)進(jìn)行迭代優(yōu)化,得到最優(yōu)無人機(jī)noma保密通信能效。
7、在一些實(shí)施例中,所述構(gòu)建智能反射面輔助noma無人機(jī)通信網(wǎng)絡(luò)安全保密能效優(yōu)化模型,包括:
8、定義所述智能反射面輔助noma無人機(jī)通信網(wǎng)絡(luò)安全保密能效優(yōu)化模型包括若干合法用戶、竊聽者、智能反射面和無人機(jī);
9、基于三維笛卡爾坐標(biāo)系,確定若干所述合法用戶的位置、所述竊聽者的位置、所述智能反射面的位置和所述無人機(jī)的位置;
10、定義所述智能反射面的信道矩陣和所述無人機(jī)的信道矩陣,確定無人機(jī)通信網(wǎng)絡(luò)的信道增益,所述無人機(jī)通信網(wǎng)絡(luò)的信道增益包括所述無人機(jī)與所述合法用戶的信道增益、所述無人機(jī)與所述竊聽者的信道增益、所述智能反射面與所述合法用戶的信道增益以及所述智能反射面與所述竊聽者的信道增益;
11、根據(jù)連續(xù)干擾抵消方法,確定所述合法用戶的解碼順序以及第l個(gè)用戶解碼第k個(gè)用戶信號時(shí)的信號干噪比;
12、根據(jù)所述解碼順序與所述信號干噪比,確定所述合法用戶的可實(shí)現(xiàn)速率與所述竊聽者的可實(shí)現(xiàn)竊聽速率,得到無人機(jī)到第k個(gè)用戶的保密率;
13、根據(jù)所述無人機(jī)的推進(jìn)能量與所述無人機(jī)在水平方向的飛行速度,確定所述無人機(jī)與所述合法用戶的可實(shí)現(xiàn)保密能效;
14、整合所述合法用戶的位置、所述竊聽者的位置、所述智能反射面的位置、所述無人機(jī)的位置、所述無人機(jī)通信網(wǎng)絡(luò)的信道增益、所述保密率以及所述可實(shí)現(xiàn)保密能效,構(gòu)建所述智能反射面輔助noma無人機(jī)通信網(wǎng)絡(luò)安全保密能效優(yōu)化模型。
15、在一些實(shí)施例中,所述智能反射面輔助noma無人機(jī)通信網(wǎng)絡(luò)安全保密能效優(yōu)化模型的表達(dá)式具體如下所示:
16、
17、上式中,公式(a)和公式(c)表示無人機(jī)的移動(dòng)約束,公式(b)表示無人機(jī)的最大飛行距離,公式(d)表示連續(xù)干擾抵消方法被成功執(zhí)行,公式(e)表示智能反射面的相移約束,公式(f)表示總功率約束,n表示無人機(jī)的飛行時(shí)隙,n表示第n個(gè)時(shí)隙,wk表示合法用戶的坐標(biāo),see[n]表示可實(shí)現(xiàn)保密能效,x[n]、y[n]、h[n]表示無人機(jī)的三維空間坐標(biāo)的坐標(biāo)系值,q[n]表示無人機(jī)的三維空間坐標(biāo),q[n-1]表示無人機(jī)上一時(shí)隙的坐標(biāo),表示合法用戶的解碼順序,q表示無人機(jī)運(yùn)動(dòng)軌跡,b表示無人機(jī)運(yùn)動(dòng)邊界,rj→k表示在第j個(gè)用戶處解碼用戶k信號的速率,rk→k表示在第k個(gè)用戶解碼自身信號速率,k、j分別表示第k個(gè)用戶和第j個(gè)用戶,θm表示ris第m個(gè)元件的相移,m表示ris第m個(gè)元件,m表示ris元件數(shù),pmax表示最大發(fā)射功率。
18、在一些實(shí)施例中,所述無人機(jī)通信網(wǎng)絡(luò)安全保密參數(shù)包括無人機(jī)發(fā)射功率、合法用戶最小速率門限、無人機(jī)飛行周期大小和無人機(jī)飛行時(shí)隙長度。
19、在一些實(shí)施例中,所述設(shè)定深度強(qiáng)化學(xué)習(xí)算法的狀態(tài)向量、動(dòng)作空間和獎(jiǎng)勵(lì)函數(shù),構(gòu)建深度強(qiáng)化學(xué)習(xí)優(yōu)化算法,包括:
20、根據(jù)所述無人機(jī)的位置、所述無人機(jī)與所述合法用戶的信道增益以及所述無人機(jī)與所述竊聽者的信道增益,確定所述深度強(qiáng)化學(xué)習(xí)算法的狀態(tài)向量;
21、根據(jù)所述智能反射面的無源波束形成矩陣、所述智能反射面的有源波束形成矩陣以及所述無人機(jī)的移動(dòng)動(dòng)作,確定所述深度強(qiáng)化學(xué)習(xí)算法的動(dòng)作空間;
22、根據(jù)所述無人機(jī)到第k個(gè)用戶的保密率以及所述無人機(jī)與所述合法用戶的可實(shí)現(xiàn)保密能效,確定所述深度強(qiáng)化學(xué)習(xí)算法的獎(jiǎng)勵(lì)函數(shù);
23、結(jié)合所述狀態(tài)向量、所述動(dòng)作空間和所述獎(jiǎng)勵(lì)函數(shù),構(gòu)建所述深度強(qiáng)化學(xué)習(xí)優(yōu)化算法。
24、在一些實(shí)施例中,所述基于所述深度強(qiáng)化學(xué)習(xí)優(yōu)化算法對所述無人機(jī)通信網(wǎng)絡(luò)安全保密參數(shù)進(jìn)行迭代優(yōu)化,得到最優(yōu)無人機(jī)noma保密通信能效,包括:
25、對所述深度強(qiáng)化學(xué)習(xí)優(yōu)化算法進(jìn)行預(yù)處理,得到預(yù)處理后的深度強(qiáng)化學(xué)習(xí)優(yōu)化算法,所述預(yù)處理后的深度強(qiáng)化學(xué)習(xí)優(yōu)化算法包括行動(dòng)者目標(biāo)網(wǎng)絡(luò)、行動(dòng)者訓(xùn)練網(wǎng)絡(luò)、評論者目標(biāo)網(wǎng)絡(luò)和評論者訓(xùn)練網(wǎng)絡(luò);
26、構(gòu)建經(jīng)驗(yàn)重放池,所述經(jīng)驗(yàn)重放池包括行動(dòng)者訓(xùn)練網(wǎng)絡(luò)的狀態(tài)、行動(dòng)者訓(xùn)練網(wǎng)絡(luò)的動(dòng)作、行動(dòng)者訓(xùn)練網(wǎng)絡(luò)采取動(dòng)作后獲得的獎(jiǎng)勵(lì)和行動(dòng)者訓(xùn)練網(wǎng)絡(luò)下一時(shí)刻的狀態(tài);
27、根據(jù)所述預(yù)處理后的深度強(qiáng)化學(xué)習(xí)優(yōu)化算法與所述經(jīng)驗(yàn)重放池,對所述無人機(jī)通信網(wǎng)絡(luò)安全保密參數(shù)進(jìn)行迭代優(yōu)化,得到最優(yōu)無人機(jī)noma保密通信能效。
28、在一些實(shí)施例中,所述對所述深度強(qiáng)化學(xué)習(xí)優(yōu)化算法進(jìn)行預(yù)處理,得到預(yù)處理后的深度強(qiáng)化學(xué)習(xí)優(yōu)化算法,包括:
29、對所述深度強(qiáng)化學(xué)習(xí)優(yōu)化算法的狀態(tài)向量進(jìn)行引入復(fù)數(shù)處理,得到含有復(fù)數(shù)的狀態(tài)向量;
30、根據(jù)所述總功率約束,對所述深度強(qiáng)化學(xué)習(xí)優(yōu)化算法的動(dòng)作空間進(jìn)行調(diào)整處理,得到調(diào)整后的動(dòng)作空間;
31、對所述深度強(qiáng)化學(xué)習(xí)優(yōu)化算法的獎(jiǎng)勵(lì)函數(shù)進(jìn)行添加懲罰項(xiàng),得到添加后的獎(jiǎng)勵(lì)函數(shù);
32、整合所述含有復(fù)數(shù)的狀態(tài)向量、所述調(diào)整后的動(dòng)作空間和所述添加后的獎(jiǎng)勵(lì)函數(shù),得到所述預(yù)處理后的深度強(qiáng)化學(xué)習(xí)優(yōu)化算法。
33、在一些實(shí)施例中,所述根據(jù)所述預(yù)處理后的深度強(qiáng)化學(xué)習(xí)優(yōu)化算法與所述經(jīng)驗(yàn)重放池,對所述無人機(jī)通信網(wǎng)絡(luò)安全保密參數(shù)進(jìn)行迭代優(yōu)化,得到最優(yōu)無人機(jī)noma保密通信能效,包括:
34、基于所述預(yù)處理后的深度強(qiáng)化學(xué)習(xí)優(yōu)化算法,獲取所述無人機(jī)通信網(wǎng)絡(luò)的信道增益以及所述無人機(jī)的當(dāng)前位置;
35、基于所述無人機(jī)通信網(wǎng)絡(luò)的信道增益以及所述無人機(jī)的當(dāng)前位置,所述行動(dòng)者訓(xùn)練網(wǎng)絡(luò)根據(jù)狀態(tài)采取對應(yīng)的動(dòng)作,獲取所述行動(dòng)者訓(xùn)練網(wǎng)絡(luò)的當(dāng)前獎(jiǎng)勵(lì)與所述行動(dòng)者訓(xùn)練網(wǎng)絡(luò)的下一個(gè)狀態(tài),并放入所述經(jīng)驗(yàn)重放池;
36、將所述行動(dòng)者訓(xùn)練網(wǎng)絡(luò)的當(dāng)前獎(jiǎng)勵(lì)與所述行動(dòng)者訓(xùn)練網(wǎng)絡(luò)的下一個(gè)狀態(tài)代入至所述評論者訓(xùn)練網(wǎng)絡(luò),獲取所述評論者訓(xùn)練網(wǎng)絡(luò)的目標(biāo)q值;
37、基于所述目標(biāo)q值,通過隨機(jī)梯度下降法對所述評論者訓(xùn)練網(wǎng)絡(luò)和所述行動(dòng)者訓(xùn)練網(wǎng)絡(luò)進(jìn)行更新,獲取所述評論者訓(xùn)練網(wǎng)絡(luò)的梯度和所述行動(dòng)者訓(xùn)練網(wǎng)絡(luò)的梯度;
38、根據(jù)所述評論者訓(xùn)練網(wǎng)絡(luò)的梯度和所述行動(dòng)者訓(xùn)練網(wǎng)絡(luò)的梯度,對所述行動(dòng)者目標(biāo)網(wǎng)絡(luò)和所述評論者目標(biāo)網(wǎng)絡(luò)進(jìn)行更新,得到更新后的深度強(qiáng)化學(xué)習(xí)優(yōu)化算法;
39、基于所述更新后的深度強(qiáng)化學(xué)習(xí)優(yōu)化算法對所述無人機(jī)通信網(wǎng)絡(luò)安全保密參數(shù)進(jìn)行迭代優(yōu)化,直至滿足預(yù)設(shè)迭代條件,輸出所述最優(yōu)無人機(jī)noma保密通信能效。
40、在一些實(shí)施例中,所述隨機(jī)梯度下降法的表達(dá)式具體如下所示:
41、
42、上式中,nb表示小批次經(jīng)驗(yàn)的大小,γμ表示行動(dòng)者網(wǎng)絡(luò)參數(shù),θq表示評價(jià)者網(wǎng)絡(luò)參數(shù),表示隨機(jī)梯度下降法,sj表示第j個(gè)狀態(tài),表示評論網(wǎng)絡(luò)對動(dòng)作a求的梯度,表示策略網(wǎng)絡(luò)參數(shù)梯度。
43、為實(shí)現(xiàn)上述目的,本技術(shù)實(shí)施例的另一方面提出了一種基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)通信保密能效優(yōu)化系統(tǒng),所述系統(tǒng)包括:
44、第一模塊,用于構(gòu)建智能反射面輔助noma無人機(jī)通信網(wǎng)絡(luò)安全保密能效優(yōu)化模型;
45、第二模塊,用于對所述智能反射面輔助noma無人機(jī)通信網(wǎng)絡(luò)安全保密能效優(yōu)化模型進(jìn)行迭代優(yōu)化求解,得到無人機(jī)通信網(wǎng)絡(luò)安全保密參數(shù);
46、第三模塊,用于設(shè)定深度強(qiáng)化學(xué)習(xí)算法的狀態(tài)向量、動(dòng)作空間和獎(jiǎng)勵(lì)函數(shù),構(gòu)建深度強(qiáng)化學(xué)習(xí)優(yōu)化算法;
47、第四模塊,用于基于所述深度強(qiáng)化學(xué)習(xí)優(yōu)化算法對所述無人機(jī)通信網(wǎng)絡(luò)安全保密參數(shù)進(jìn)行迭代優(yōu)化,得到最優(yōu)無人機(jī)noma保密通信能效。
48、本技術(shù)實(shí)施例至少包括以下有益效果:本技術(shù)提供一種基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)通信保密能效優(yōu)化方法及系統(tǒng),該方案通過構(gòu)建智能反射面輔助noma無人機(jī)通信網(wǎng)絡(luò)安全保密能效優(yōu)化模型,獲取無人機(jī)通信網(wǎng)絡(luò)安全保密參數(shù),進(jìn)而通過深度強(qiáng)化學(xué)習(xí)優(yōu)化算法對無人機(jī)通信網(wǎng)絡(luò)安全保密參數(shù)進(jìn)行迭代優(yōu)化,將優(yōu)化問題轉(zhuǎn)化為基于馬爾可夫決策過程(mdp)的問題,通過聯(lián)合優(yōu)化無人機(jī)空中基站有源和ris無源波束成型矩陣以及無人機(jī)的飛行軌跡提高無人機(jī)通信系統(tǒng)中的保密能源效率。