1.一種基于強化學(xué)習(xí)的空基雷達時域波形自適應(yīng)方法,其特征在于,包括如下步驟:
2.根據(jù)權(quán)利要求1所述的一種基于強化學(xué)習(xí)的空基雷達時域波形自適應(yīng)方法,其特征在于,所述雷達信號回波模型的構(gòu)建方法為:
3.根據(jù)權(quán)利要求2所述的一種基于強化學(xué)習(xí)的空基雷達時域波形自適應(yīng)方法,其特征在于,通過所述雷達信號回波模型發(fā)射并接收n個脈沖后得到雷達信號回波的行向量為x=[x1,x2,...,xn]。
4.根據(jù)權(quán)利要求3所述的一種基于強化學(xué)習(xí)的空基雷達時域波形自適應(yīng)方法,其特征在于,所述雷達雜波回波模型的構(gòu)建方法:
5.根據(jù)權(quán)利要求4所述的一種基于強化學(xué)習(xí)的空基雷達時域波形自適應(yīng)方法,其特征在于,所述rmax選取的值:需要大于目標(biāo)距離,最大值為在處地雜波的回波功率小于處地雜波回波功率特定值。
6.根據(jù)權(quán)利要求4所述的一種基于強化學(xué)習(xí)的空基雷達時域波形自適應(yīng)方法,其特征在于,在距離范圍[rmin,rmax]內(nèi)以雷達的距離分辨率δr為間隔進行網(wǎng)格劃分,其中,δr=cτ/2,τ為雷達發(fā)射脈沖的寬度。
7.根據(jù)權(quán)利要求4所述的一種基于強化學(xué)習(xí)的空基雷達時域波形自適應(yīng)方法,其特征在于,所述方位角間隔的選取準(zhǔn)則為:使每個方位角間隔對應(yīng)的雜波單元內(nèi)的多普勒變化量不超過雷達的多普勒分辨率δfd,其中δfd=1/(tn)。
8.根據(jù)權(quán)利要求4所述的一種基于強化學(xué)習(xí)的空基雷達時域波形自適應(yīng)方法,其特征在于,所述步驟2中,信號雜波回波距離多普勒矩陣的計算方法為:根據(jù)目標(biāo)所在距離將雷達信號回波的行向量x疊加到雜波回波矩陣y對應(yīng)的行,得到信號雜波矩陣z;再根據(jù)雷達最大不模糊距離單元數(shù)對信號雜波矩陣z進行按行折疊并疊加得到l′行n列信號雜波矩陣z′;最后對z′的每行進行快速傅里葉變換得到信號雜波回波距離多普勒矩陣z′f。
9.根據(jù)權(quán)利要求8所述的一種基于強化學(xué)習(xí)的空基雷達時域波形自適應(yīng)方法,其特征在于,所述強化學(xué)習(xí)環(huán)境的建立方法為:設(shè)定環(huán)境的狀態(tài)s為信號雜波距離多普勒矩陣z′f,智能體動作值a為脈間調(diào)頻率p;所述智能體根據(jù)當(dāng)前環(huán)境的狀態(tài)s,即生成動作a;下一幀雷達波形的第n個發(fā)射脈沖根據(jù)脈間調(diào)頻率p變化為sn(t)=exp(j2π(f0+npt)t),環(huán)境根據(jù)信號雜波回波距離多普勒矩陣計算出新的狀態(tài)s’,即雷達幀的信號雜波距離多普勒矩陣z′f,new,并給出獎勵值r,重復(fù)上述步驟,從而得到大量數(shù)據(jù)對{s,a,s’,r}。
10.根據(jù)權(quán)利要求9所述的一種基于強化學(xué)習(xí)的空基雷達時域波形自適應(yīng)方法,其特征在于,所述獎勵值r的計算方法為:
11.根據(jù)權(quán)利要求9所述的一種基于強化學(xué)習(xí)的空基雷達時域波形自適應(yīng)方法,其特征在于,所述環(huán)境的狀態(tài)s中添加有雷達的位置信息、目標(biāo)相對于雷達的角度。
12.根據(jù)權(quán)利要求1所述的一種基于強化學(xué)習(xí)的空基雷達時域波形自適應(yīng)方法,其特征在于,所述強化學(xué)習(xí)方法為近鄰策略優(yōu)化算法或軟演員-評論家算法。