本發(fā)明涉及電子信息,尤其是雷達(dá)信號(hào)處理,特別涉及利用人工智能方法提高雷達(dá)信號(hào)處理性能的手段,具體指一種基于強(qiáng)化學(xué)習(xí)的空基雷達(dá)時(shí)域波形自適應(yīng)方法。
背景技術(shù):
1、強(qiáng)化學(xué)習(xí)是訓(xùn)練一個(gè)智能體,使其具備根據(jù)當(dāng)前環(huán)境進(jìn)行自主決策的能力。該智能體通過不斷與環(huán)境互動(dòng),根據(jù)環(huán)境的狀態(tài)輸出動(dòng)作,并獲得環(huán)境反饋的獎(jiǎng)勵(lì)和懲罰,建立經(jīng)驗(yàn)庫。經(jīng)過對(duì)經(jīng)驗(yàn)庫進(jìn)行不斷的迭代學(xué)習(xí),最終實(shí)現(xiàn)在所有環(huán)境下能夠輸出最大獎(jiǎng)勵(lì)的動(dòng)作,并避免具有懲罰項(xiàng)的動(dòng)作。與深度學(xué)習(xí)中的監(jiān)督類學(xué)習(xí)不同,強(qiáng)化學(xué)習(xí)不需要預(yù)先提供大量帶標(biāo)簽數(shù)據(jù)。
2、空基雷達(dá)是指雷達(dá)裝載在空中平臺(tái),如機(jī)載雷達(dá)、彈載雷達(dá)等??栈走_(dá)在民用的環(huán)境監(jiān)測(cè)、交通管理和軍用的防空反導(dǎo)等領(lǐng)域有著重要應(yīng)用。尤其是隨著我國低空經(jīng)濟(jì)的發(fā)展,以無人機(jī)為首的空中飛行器的日益增多為高效的低空交通管控帶來迫切需求。鑒于空基平臺(tái)的開闊視野和快速行動(dòng)能力,空基雷達(dá)對(duì)此類任務(wù)具有天然優(yōu)勢(shì)。
3、空基雷達(dá)一般工作于脈沖多普勒模式,即通過發(fā)送多個(gè)相同脈沖,獲取脈間的相位變化值,并轉(zhuǎn)化為目標(biāo)多普勒信息。但空基雷達(dá)在對(duì)低空目標(biāo)進(jìn)行下視觀測(cè)時(shí)容易受地雜波影響。地雜波主要包含主瓣雜波、副瓣雜波和高度線雜波。主瓣雜波主要是主瓣照射地面引發(fā),副瓣雜波是地雜波信號(hào)從天線副瓣進(jìn)入導(dǎo)致,高度線雜波則是由于高度線處的大擦地角引起的強(qiáng)地雜波鏡面反射導(dǎo)致。當(dāng)目標(biāo)一旦進(jìn)入雜波區(qū)域,便會(huì)被雜波掩蓋,導(dǎo)致目標(biāo)的跟蹤丟失。當(dāng)脈沖多普勒雷達(dá)工作于高重頻時(shí),由于距離模糊導(dǎo)致的雜波折疊將進(jìn)一步擴(kuò)大雜波區(qū)域,為雷達(dá)的目標(biāo)檢測(cè)與跟蹤帶來挑戰(zhàn)。傳統(tǒng)運(yùn)動(dòng)觀測(cè)平臺(tái)處理地雜波的方法包括偏置相位中心天線(dpca)和空時(shí)自適應(yīng)處理技術(shù)(stap)。偏置相位中心天線技術(shù)也可視為一種空時(shí)域聯(lián)合處理的方法。但實(shí)現(xiàn)偏置相位中心天線的挑戰(zhàn)在于,天線陣列存在幅相和互耦等誤差,導(dǎo)致相位中心偏置的兩個(gè)或多個(gè)子孔徑很難保證具有相同的幅相響應(yīng)??諘r(shí)自適應(yīng)處理技術(shù)通過在時(shí)域和空域同時(shí)設(shè)置波形權(quán)重,使回波在雜波處形成凹陷響應(yīng),進(jìn)而實(shí)現(xiàn)雜波抑制。但空時(shí)自適應(yīng)處理技術(shù)的性能發(fā)揮以獲取雜波協(xié)方差矩陣為前提,但實(shí)際應(yīng)用條件下可用于估計(jì)協(xié)方差矩陣的脈沖數(shù)受限。此外,偏置相位中心天線和空時(shí)自適應(yīng)處理技術(shù)都屬于后處理或被動(dòng)處理技術(shù),即在雷達(dá)波形固定的情形下進(jìn)行的處理。如何對(duì)波形進(jìn)行自適應(yīng)設(shè)計(jì),以實(shí)現(xiàn)雜波的主動(dòng)調(diào)控,使其避開目標(biāo)則是一種具有應(yīng)用前景的方案。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于針對(duì)上述現(xiàn)有技術(shù)的不足,提出一種基于強(qiáng)化學(xué)習(xí)的空基雷達(dá)時(shí)域波形自適應(yīng)方法,以實(shí)現(xiàn)雜波的主動(dòng)調(diào)控。
2、為了解決上述技術(shù)問題,本發(fā)明的技術(shù)方案為:
3、一種基于強(qiáng)化學(xué)習(xí)的空基雷達(dá)時(shí)域波形自適應(yīng)方法,包括如下步驟:
4、步驟1、分別根據(jù)脈間調(diào)頻脈沖多普勒雷達(dá)構(gòu)建雷達(dá)信號(hào)回波模型和雷達(dá)雜波回波模型;
5、步驟2、根據(jù)雷達(dá)信號(hào)回波模型和雷達(dá)雜波回波模型,計(jì)算信號(hào)雜波回波距離多普勒矩陣;
6、步驟3、建立強(qiáng)化學(xué)習(xí)環(huán)境并引入獎(jiǎng)勵(lì)函數(shù),從而得到大量強(qiáng)化學(xué)習(xí)數(shù)據(jù)對(duì);
7、步驟4、將大量強(qiáng)化學(xué)習(xí)數(shù)據(jù)對(duì)作為輸入,結(jié)合強(qiáng)化學(xué)習(xí)算法,即可對(duì)智能體進(jìn)行訓(xùn)練;
8、步驟5、應(yīng)用完成訓(xùn)練后的智能體輸出優(yōu)化后的脈間調(diào)頻脈沖多普勒波形,實(shí)現(xiàn)雜波位置的調(diào)控。
9、作為優(yōu)選,所述雷達(dá)信號(hào)回波模型的構(gòu)建方法為:
10、假設(shè)脈間頻率調(diào)制的起始頻率為f0,則第n個(gè)發(fā)射脈沖可表示為sn(t)=exp(j2π(f0+nδf)t),n=1,2,...,n,其中,j為復(fù)數(shù)虛部單位,t為快時(shí)間,δf為脈間頻率步進(jìn);
11、設(shè)脈沖重復(fù)間隔為t,則p=δf/t定義為脈間調(diào)頻率;
12、距離雷達(dá)r0處的目標(biāo)的第n個(gè)脈沖回波信號(hào)經(jīng)下變頻并采用后可寫為其中,σ為目標(biāo)雷達(dá)散射截面積經(jīng)過雷達(dá)方程衰減后的回波幅度值,c為光速,fd為回波信號(hào)多普勒頻率;
13、在脈間調(diào)頻體制下有其中v為目標(biāo)相對(duì)于雷達(dá)的速度。
14、作為優(yōu)選,通過所述雷達(dá)信號(hào)回波模型發(fā)射并接收n個(gè)脈沖后得到雷達(dá)信號(hào)回波的行向量為x=[x1,x2,...,xn]。
15、作為優(yōu)選,所述雷達(dá)雜波回波模型的構(gòu)建方法:
16、設(shè)定觀測(cè)距離范圍[rmin,rmax],其中rmin=h為雷達(dá)高度,rmax為最遠(yuǎn)敏感距離;
17、在距離范圍[rmin,rmax]內(nèi)進(jìn)行網(wǎng)格劃分,劃分后的l個(gè)距離網(wǎng)格設(shè)為r1,r2,...,rl;
18、遍歷這l個(gè)網(wǎng)格:對(duì)于第l個(gè)距離網(wǎng)格rl,將其對(duì)應(yīng)的地面圓環(huán)以方位角間隔在[0,2π]內(nèi)等間隔劃分方位角網(wǎng)格;
19、假設(shè)第l個(gè)距離環(huán)通過方位角網(wǎng)格劃分得到m個(gè)方位角網(wǎng)格,設(shè)為每個(gè)多普勒網(wǎng)格對(duì)應(yīng)一個(gè)雜波單元,共有m個(gè)雜波單元,雜波單元的面積
20、由雜波單元面積得到雜波單元的雷達(dá)散射截面積σl=σ0δa,其中σ0為地表的電磁波后向散射系數(shù);對(duì)于第m個(gè)雜波單元,可由其相對(duì)雷達(dá)的幾何關(guān)系,得到其相對(duì)雷達(dá)的速度vm,結(jié)合脈間調(diào)頻率p,進(jìn)而得到多普勒頻率
21、于是第n個(gè)脈沖、第l個(gè)距離單元、第m個(gè)雜波單元的回波為其中,σl′為根據(jù)雷達(dá)方程由σl經(jīng)過衰減后的雜波幅度值,φ0為模擬雜波的隨機(jī)性加入的隨機(jī)相位;
22、將對(duì)應(yīng)于第l個(gè)距離單元的所有m個(gè)雜波單元的回波進(jìn)行疊加得到由yl,n,l=1,2,...,l,n=1,2,...,n可得到l行n列雜波回波矩陣y,其中矩陣y的第l行,第n列的元素為yl,n。
23、作為優(yōu)選,所述rmax選取的值:需要大于目標(biāo)距離,最大值為在處地雜波的回波功率小于處地雜波回波功率特定值。
24、作為優(yōu)選,在距離范圍[rmin,rmax]內(nèi)以雷達(dá)的距離分辨率δr為間隔進(jìn)行網(wǎng)格劃分,其中,δr=cτ/2,τ為雷達(dá)發(fā)射脈沖的寬度。
25、作為優(yōu)選,所述方位角間隔的選取準(zhǔn)則為:使每個(gè)方位角間隔對(duì)應(yīng)的雜波單元內(nèi)的多普勒變化量不超過雷達(dá)的多普勒分辨率δfd,其中δfd=1/(tn)。
26、作為優(yōu)選,所述步驟2中,信號(hào)雜波回波距離多普勒矩陣的計(jì)算方法為:根據(jù)目標(biāo)所在距離將雷達(dá)信號(hào)回波的行向量x疊加到雜波回波矩陣y對(duì)應(yīng)的行,得到信號(hào)雜波矩陣z;再根據(jù)雷達(dá)最大不模糊距離單元數(shù)對(duì)信號(hào)雜波矩陣z進(jìn)行按行折疊并疊加得到l′行n列信號(hào)雜波矩陣z′;最后對(duì)z′的每行進(jìn)行快速傅里葉變換得到信號(hào)雜波回波距離多普勒矩陣z′f。
27、作為優(yōu)選,所述強(qiáng)化學(xué)習(xí)環(huán)境的建立方法為:設(shè)定環(huán)境的狀態(tài)s為信號(hào)雜波距離多普勒矩陣z′f,智能體動(dòng)作值a為脈間調(diào)頻率p;所述智能體根據(jù)當(dāng)前環(huán)境的狀態(tài)s,即生成動(dòng)作a;下一幀雷達(dá)波形的第n個(gè)發(fā)射脈沖根據(jù)脈間調(diào)頻率p變化為sn(t)=exp(j2π(f0+npt)t),環(huán)境根據(jù)信號(hào)雜波回波距離多普勒矩陣計(jì)算出新的狀態(tài)s’,即雷達(dá)幀的信號(hào)雜波距離多普勒矩陣z′f,new,并給出獎(jiǎng)勵(lì)值r,重復(fù)上述步驟,從而得到大量數(shù)據(jù)對(duì){s,a,s’,r}。
28、作為優(yōu)選,所述獎(jiǎng)勵(lì)值r的計(jì)算方法為:
29、設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù):r=ε+c1scr-c2abs(p),其中,abs(·)表示取絕對(duì)值,scr為目標(biāo)的信噪比,當(dāng)scr大于用戶設(shè)定的雷達(dá)回波信號(hào)信雜比門限值,設(shè)定ε=1,否則ε=0,c1與c2為權(quán)重系數(shù)。
30、作為優(yōu)選,所述環(huán)境的狀態(tài)s中添加有雷達(dá)的位置信息、目標(biāo)相對(duì)于雷達(dá)的角度。
31、作為優(yōu)選,所述強(qiáng)化學(xué)習(xí)方法為近鄰策略優(yōu)化算法或軟演員-評(píng)論家算法。
32、本發(fā)明具有以下的特點(diǎn)和有益效果:
33、采用上述技術(shù)方案,通過提出脈間調(diào)頻的脈沖多普勒波形,使得雷達(dá)具備主動(dòng)調(diào)控雜波位置的能力;結(jié)合強(qiáng)化學(xué)習(xí)處理框架與算法,使得雷達(dá)成為一個(gè)智能體,具備根據(jù)雷達(dá)回波自適應(yīng)優(yōu)化雷達(dá)時(shí)域波形,進(jìn)而規(guī)避雜波,提高目標(biāo)信雜比。