1.基于深度強(qiáng)化學(xué)習(xí)的無(wú)人機(jī)通信保密能效優(yōu)化方法,其特征在于,所述方法包括以下步驟:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述構(gòu)建智能反射面輔助noma無(wú)人機(jī)通信網(wǎng)絡(luò)安全保密能效優(yōu)化模型,包括:
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述智能反射面輔助noma無(wú)人機(jī)通信網(wǎng)絡(luò)安全保密能效優(yōu)化模型的表達(dá)式具體如下所示:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述無(wú)人機(jī)通信網(wǎng)絡(luò)安全保密參數(shù)包括無(wú)人機(jī)發(fā)射功率、合法用戶(hù)最小速率門(mén)限、無(wú)人機(jī)飛行周期大小和無(wú)人機(jī)飛行時(shí)隙長(zhǎng)度。
5.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述設(shè)定深度強(qiáng)化學(xué)習(xí)算法的狀態(tài)向量、動(dòng)作空間和獎(jiǎng)勵(lì)函數(shù),構(gòu)建深度強(qiáng)化學(xué)習(xí)優(yōu)化算法,包括:
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述基于所述深度強(qiáng)化學(xué)習(xí)優(yōu)化算法對(duì)所述無(wú)人機(jī)通信網(wǎng)絡(luò)安全保密參數(shù)進(jìn)行迭代優(yōu)化,得到最優(yōu)無(wú)人機(jī)noma保密通信能效,包括:
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述對(duì)所述深度強(qiáng)化學(xué)習(xí)優(yōu)化算法進(jìn)行預(yù)處理,得到預(yù)處理后的深度強(qiáng)化學(xué)習(xí)優(yōu)化算法,包括:
8.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述根據(jù)所述預(yù)處理后的深度強(qiáng)化學(xué)習(xí)優(yōu)化算法與所述經(jīng)驗(yàn)重放池,對(duì)所述無(wú)人機(jī)通信網(wǎng)絡(luò)安全保密參數(shù)進(jìn)行迭代優(yōu)化,得到最優(yōu)無(wú)人機(jī)noma保密通信能效,包括:
9.根據(jù)權(quán)利要求8所述的方法,其特征在于,所述隨機(jī)梯度下降法的表達(dá)式具體如下所示:
10.基于深度強(qiáng)化學(xué)習(xí)的無(wú)人機(jī)通信保密能效優(yōu)化系統(tǒng),其特征在于,所述系統(tǒng)包括: