本發(fā)明涉及制導(dǎo)控制,特別是涉及一種基于強(qiáng)化學(xué)習(xí)的火箭動(dòng)力著陸段制導(dǎo)控制協(xié)作方法及系統(tǒng)。
背景技術(shù):
1、可重復(fù)使用火箭是指全部箭體或部分子級(jí)可重復(fù)使用的火箭飛行器。與傳統(tǒng)火箭相比,可重復(fù)使用火箭可以實(shí)現(xiàn)發(fā)動(dòng)機(jī)等關(guān)鍵部件的重復(fù)使用,大幅降低單次發(fā)射成本,成為未來(lái)新一代航天運(yùn)輸系統(tǒng)的重要組成部分。動(dòng)力著陸段是可重復(fù)使用火箭回收過程中的關(guān)鍵階段。該飛行階段具有模型不確定性及干擾顯著、姿態(tài)軌跡耦合嚴(yán)重、終端約束及燃料最優(yōu)性要求嚴(yán)苛的特點(diǎn)。
2、現(xiàn)有設(shè)計(jì)方法采用制導(dǎo)與控制分立設(shè)計(jì)的思想,在制導(dǎo)設(shè)計(jì)中忽略姿控對(duì)制導(dǎo)指令的跟蹤動(dòng)態(tài)、在姿控設(shè)計(jì)中忽略發(fā)動(dòng)機(jī)擺角對(duì)質(zhì)心運(yùn)動(dòng)產(chǎn)生的影響。當(dāng)模型不確定性和干擾顯著時(shí),制導(dǎo)律可能產(chǎn)生劇烈變化的姿態(tài)指令并使姿態(tài)控制律的跟蹤誤差增大,同時(shí)姿態(tài)控制律可能產(chǎn)生較大的發(fā)動(dòng)機(jī)擺角并對(duì)火箭質(zhì)心運(yùn)動(dòng)造成附加干擾力,從而給動(dòng)力著陸段的終端約束滿足精度、燃料消耗最優(yōu)性和姿態(tài)控制品質(zhì)均帶來(lái)?yè)p失。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的是提供一種基于強(qiáng)化學(xué)習(xí)的火箭動(dòng)力著陸段制導(dǎo)控制協(xié)作方法及系統(tǒng),以提高火箭動(dòng)力著陸段制導(dǎo)控制的精度。
2、為實(shí)現(xiàn)上述目的,本發(fā)明提供了如下方案:
3、本發(fā)明提供一種基于強(qiáng)化學(xué)習(xí)的火箭動(dòng)力著陸段制導(dǎo)控制協(xié)作方法,所述方法包括如下步驟:
4、建立火箭動(dòng)力著陸段的運(yùn)動(dòng)方程;
5、確定火箭動(dòng)力著陸段的制導(dǎo)控制綜合目標(biāo);
6、基于所述運(yùn)動(dòng)方程和所述制導(dǎo)控制綜合目標(biāo),建立制導(dǎo)控制協(xié)作馬爾可夫決策過程模型,所述制導(dǎo)控制協(xié)作馬爾可夫決策過程模型包括參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò)、參數(shù)調(diào)節(jié)價(jià)值網(wǎng)絡(luò)、制導(dǎo)模塊仿真模型、姿控模塊仿真模型及運(yùn)動(dòng)方程;參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò)、參數(shù)調(diào)節(jié)價(jià)值網(wǎng)絡(luò)與制導(dǎo)模塊仿真模型、姿控模塊仿真模型及運(yùn)動(dòng)方程形成閉環(huán)系統(tǒng),所述制導(dǎo)控制協(xié)作馬爾可夫決策過程模型的獎(jiǎng)勵(lì)函數(shù)基于所述制導(dǎo)控制綜合目標(biāo)建立;
7、根據(jù)制導(dǎo)控制協(xié)作馬爾可夫決策過程模型,采用鄰近策略優(yōu)化算法訓(xùn)練參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò)的參數(shù),得到參數(shù)優(yōu)化的參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò);
8、基于參數(shù)優(yōu)化后的參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò)生成的行為量進(jìn)行火箭動(dòng)力著陸段制導(dǎo)控制,所述行為量為控制參數(shù)。
9、可選的,所述運(yùn)動(dòng)方程為:
10、
11、其中,r為火箭位置;v為火箭速度;g為重力加速度;m為火箭質(zhì)量;t為火箭發(fā)動(dòng)機(jī)推力的幅值;vex指火箭發(fā)動(dòng)機(jī)排氣速度;faero和ftvc分別為火箭氣動(dòng)力與火箭發(fā)動(dòng)機(jī)推力;ωb指三軸角速度;ψ和γ分別為火箭俯仰角、偏航角和滾轉(zhuǎn)角;rx(γ)為火箭滾轉(zhuǎn)角繞x軸的基元旋轉(zhuǎn)矩陣、ry(ψ)為火箭偏航角繞y軸的基元旋轉(zhuǎn)矩陣;j為火箭轉(zhuǎn)動(dòng)慣量矩陣;maero和mtvc分別為火箭氣動(dòng)力力矩與發(fā)動(dòng)機(jī)推力力矩。
12、可選的,所述獎(jiǎng)勵(lì)函數(shù)為:
13、
14、其中,r(st,at)為獎(jiǎng)勵(lì)函數(shù),st為t時(shí)刻的狀態(tài)量,at為t時(shí)刻的行為量,t為火箭動(dòng)力著陸段內(nèi)的時(shí)刻,tf為終端著陸時(shí)間,k1、k2、k3、k4、k5、k6為制導(dǎo)控制綜合目標(biāo)中不同目標(biāo)的加權(quán)系數(shù),jr為終端位置誤差、jv為速度誤差,jm為動(dòng)力著陸段飛行初末時(shí)刻質(zhì)量之差,為終端著陸時(shí)刻火箭縱軸指向單位向量的水平分量,jδ為平均姿態(tài)跟蹤誤差,jerror為平均發(fā)動(dòng)機(jī)擺角。
15、可選的,所述根據(jù)制導(dǎo)控制協(xié)作馬爾可夫決策過程模型,采用鄰近策略優(yōu)化算法訓(xùn)練參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò)的參數(shù),得到參數(shù)優(yōu)化的參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò),具體包括:
16、基于制導(dǎo)控制協(xié)作馬爾可夫決策過程模型進(jìn)行n次閉環(huán)仿真,獲得采樣序列;所述采樣序列中包括n組仿真序列,所述仿真序列包括仿真得到的火箭動(dòng)力著陸段內(nèi)不同時(shí)刻的狀態(tài)量和行為量;
17、基于所述采樣序列計(jì)算參數(shù)調(diào)節(jié)價(jià)值網(wǎng)絡(luò)的參數(shù)更新梯度,并對(duì)參數(shù)調(diào)節(jié)價(jià)值網(wǎng)絡(luò)進(jìn)行參數(shù)更新,獲得更新后的參數(shù)調(diào)節(jié)價(jià)值網(wǎng)絡(luò);
18、基于所述采樣序列和更新后的參數(shù)調(diào)節(jié)價(jià)值網(wǎng)絡(luò),計(jì)算參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò)的參數(shù)更新梯度,并對(duì)參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò)進(jìn)行參數(shù)更新,獲得更新后的參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò);
19、判斷是否達(dá)到最大采樣步數(shù),獲得判斷結(jié)果;
20、若所述判斷結(jié)果表示否,則返回基于制導(dǎo)控制協(xié)作馬爾可夫決策過程模型進(jìn)行n次閉環(huán)仿真,獲得采樣序列的步驟;
21、若所述判斷結(jié)果表示是,則輸出更新后的參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò),作為參數(shù)優(yōu)化后的參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò)。
22、可選的,所述基于制導(dǎo)控制協(xié)作馬爾可夫決策過程模型進(jìn)行n次閉環(huán)仿真,獲得采樣序列,具體包括:
23、基于狀態(tài)轉(zhuǎn)移的不確定性,將初始的狀態(tài)量設(shè)置為s0~p0(·);其中,s0為初始的狀態(tài)量,p0(·)為考慮狀態(tài)轉(zhuǎn)移的不確定性的狀態(tài)量初始化函數(shù);
24、將當(dāng)前迭代時(shí)刻的狀態(tài)量輸入?yún)?shù)調(diào)節(jié)策略網(wǎng)絡(luò),獲得當(dāng)前迭代時(shí)刻的行為量;
25、將當(dāng)前迭代時(shí)刻的行為量輸入至所述制導(dǎo)模塊仿真模型和所述姿控模塊仿真模型進(jìn)行仿真,獲得當(dāng)前迭代時(shí)刻的火箭發(fā)動(dòng)機(jī)推力和火箭發(fā)動(dòng)機(jī)擺角;
26、將當(dāng)前迭代時(shí)刻的火箭發(fā)動(dòng)機(jī)推力和火箭發(fā)動(dòng)機(jī)擺角輸入至所述運(yùn)動(dòng)方程,獲得下一迭代時(shí)刻的狀態(tài)量,返回將當(dāng)前迭代時(shí)刻的狀態(tài)量輸入?yún)?shù)調(diào)節(jié)策略網(wǎng)絡(luò),獲得當(dāng)前迭代時(shí)刻的行為量的步驟,直到到達(dá)終端著陸時(shí)間,獲得當(dāng)前次閉環(huán)仿真的仿真序列。
27、可選的,計(jì)算參數(shù)調(diào)節(jié)價(jià)值網(wǎng)絡(luò)的參數(shù)更新梯度的公式為:
28、
29、其中,gtd為參數(shù)調(diào)節(jié)價(jià)值網(wǎng)絡(luò)的參數(shù)更新梯度,st和st+1分別為t時(shí)刻和t+1時(shí)刻的狀態(tài)量,θv為參數(shù)調(diào)節(jié)價(jià)值網(wǎng)絡(luò)的參數(shù),為使用算數(shù)平均近似期望,st為t時(shí)刻的狀態(tài)量,at為t時(shí)刻的行為量,為采樣序列,r(st,at)為獎(jiǎng)勵(lì)函數(shù)。
30、可選的,計(jì)算參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò)的參數(shù)更新梯度的公式為:
31、
32、
33、其中,gppo為參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò)的參數(shù)更新梯度,為使用算數(shù)平均近似期望,st為t時(shí)刻的狀態(tài)量,at為t時(shí)刻的行為量,為采樣序列,θ為參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò)的參數(shù),為關(guān)于參數(shù)θ的梯度,ρθ(st,at)為策略輸出行為概率比,πθ(at|st)為待訓(xùn)練的參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò),為上一次梯度更新后的參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò),為使用廣義優(yōu)勢(shì)估計(jì)估計(jì)得到的優(yōu)勢(shì)函數(shù),δ(sτ,aτ)為價(jià)值網(wǎng)絡(luò)的時(shí)序差分增量,r(sτ,aτ)為獎(jiǎng)勵(lì)函數(shù),λ為加權(quán)系數(shù),vθv(sτ+1)為更新后的參數(shù)調(diào)節(jié)價(jià)值網(wǎng)絡(luò),sτ和sτ+1分別為τ時(shí)刻和τ+1時(shí)刻的狀態(tài)量,θv為參數(shù)調(diào)節(jié)價(jià)值網(wǎng)絡(luò)的參數(shù),clip(x,∈)為限幅函數(shù),x為指代函數(shù),x=ρθ(st,at),∈為策略梯度更新的信賴域半徑。
34、一種基于強(qiáng)化學(xué)習(xí)的火箭動(dòng)力著陸段制導(dǎo)控制協(xié)作系統(tǒng),所述系統(tǒng)應(yīng)用于上述的方法,所述系統(tǒng)包括:
35、運(yùn)動(dòng)方程建立模塊,用于建立火箭動(dòng)力著陸段的運(yùn)動(dòng)方程;
36、制導(dǎo)控制綜合目標(biāo)確定模塊,用于確定火箭動(dòng)力著陸段的制導(dǎo)控制綜合目標(biāo);
37、制導(dǎo)控制協(xié)作馬爾可夫決策過程模型建立模塊,用于基于所述運(yùn)動(dòng)方程和所述制導(dǎo)控制綜合目標(biāo),建立制導(dǎo)控制協(xié)作馬爾可夫決策過程模型,所述制導(dǎo)控制協(xié)作馬爾可夫決策過程模型包括參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò)、參數(shù)調(diào)節(jié)價(jià)值網(wǎng)絡(luò)、制導(dǎo)模塊仿真模型、姿控模塊仿真模型及運(yùn)動(dòng)方程;參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò)、參數(shù)調(diào)節(jié)價(jià)值網(wǎng)絡(luò)與制導(dǎo)模塊仿真模型、姿控模塊仿真模型及運(yùn)動(dòng)方程形成閉環(huán)系統(tǒng),所述制導(dǎo)控制協(xié)作馬爾可夫決策過程模型的獎(jiǎng)勵(lì)函數(shù)基于所述制導(dǎo)控制綜合目標(biāo)建立;
38、優(yōu)化求解模塊,用于根據(jù)制導(dǎo)控制協(xié)作馬爾可夫決策過程模型,采用鄰近策略優(yōu)化算法訓(xùn)練參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò)的參數(shù),得到參數(shù)優(yōu)化的參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò);
39、控制模塊,用于基于參數(shù)優(yōu)化后的參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò)生成的行為量進(jìn)行火箭動(dòng)力著陸段制導(dǎo)控制,所述行為量為控制參數(shù)。
40、一種電子設(shè)備,包括存儲(chǔ)器、處理器以及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述的方法。
41、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被執(zhí)行時(shí)實(shí)現(xiàn)上述的方法。
42、根據(jù)本發(fā)明提供的具體實(shí)施例,本發(fā)明公開了以下技術(shù)效果:
43、本發(fā)明實(shí)施例提供一種基于強(qiáng)化學(xué)習(xí)的火箭動(dòng)力著陸段制導(dǎo)控制協(xié)作方法及系統(tǒng),所述方法包括:建立火箭動(dòng)力著陸段的運(yùn)動(dòng)方程;確定火箭動(dòng)力著陸段的制導(dǎo)控制綜合目標(biāo);基于所述運(yùn)動(dòng)方程和所述制導(dǎo)控制綜合目標(biāo),建立制導(dǎo)控制協(xié)作馬爾可夫決策過程模型;根據(jù)制導(dǎo)控制協(xié)作馬爾可夫決策過程模型,采用鄰近策略優(yōu)化算法訓(xùn)練參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò)的參數(shù),得到參數(shù)優(yōu)化的參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò);基于參數(shù)優(yōu)化后的參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò)生成的行為量進(jìn)行火箭動(dòng)力著陸段制導(dǎo)控制。綜上所述,本發(fā)明提出一種基于強(qiáng)化學(xué)習(xí)的制導(dǎo)控制參數(shù)調(diào)節(jié)方法,將參數(shù)調(diào)節(jié)過程建模為馬爾可夫決策過程,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練參數(shù)調(diào)節(jié)參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò),實(shí)現(xiàn)模型不確定性和干擾作用下制導(dǎo)控制綜合目標(biāo)的期望最優(yōu),提高了火箭動(dòng)力著陸段制導(dǎo)控制的精度,減少了著陸損耗。