基于強(qiáng)化學(xué)習(xí)的火箭動(dòng)力著陸段制導(dǎo)控制協(xié)作方法及系統(tǒng)

文檔序號(hào)：40584341發(fā)布日期：2025-01-07 20:24閱讀：5來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>其他產(chǎn)品的制造及其應(yīng)用技術(shù)

本發(fā)明涉及制導(dǎo)控制，特別是涉及一種基于強(qiáng)化學(xué)習(xí)的火箭動(dòng)力著陸段制導(dǎo)控制協(xié)作方法及系統(tǒng)。

背景技術(shù)：

1、可重復(fù)使用火箭是指全部箭體或部分子級(jí)可重復(fù)使用的火箭飛行器。與傳統(tǒng)火箭相比，可重復(fù)使用火箭可以實(shí)現(xiàn)發(fā)動(dòng)機(jī)等關(guān)鍵部件的重復(fù)使用，大幅降低單次發(fā)射成本，成為未來(lái)新一代航天運(yùn)輸系統(tǒng)的重要組成部分。動(dòng)力著陸段是可重復(fù)使用火箭回收過程中的關(guān)鍵階段。該飛行階段具有模型不確定性及干擾顯著、姿態(tài)軌跡耦合嚴(yán)重、終端約束及燃料最優(yōu)性要求嚴(yán)苛的特點(diǎn)。

2、現(xiàn)有設(shè)計(jì)方法采用制導(dǎo)與控制分立設(shè)計(jì)的思想，在制導(dǎo)設(shè)計(jì)中忽略姿控對(duì)制導(dǎo)指令的跟蹤動(dòng)態(tài)、在姿控設(shè)計(jì)中忽略發(fā)動(dòng)機(jī)擺角對(duì)質(zhì)心運(yùn)動(dòng)產(chǎn)生的影響。當(dāng)模型不確定性和干擾顯著時(shí)，制導(dǎo)律可能產(chǎn)生劇烈變化的姿態(tài)指令并使姿態(tài)控制律的跟蹤誤差增大，同時(shí)姿態(tài)控制律可能產(chǎn)生較大的發(fā)動(dòng)機(jī)擺角并對(duì)火箭質(zhì)心運(yùn)動(dòng)造成附加干擾力，從而給動(dòng)力著陸段的終端約束滿足精度、燃料消耗最優(yōu)性和姿態(tài)控制品質(zhì)均帶來(lái)?yè)p失。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的是提供一種基于強(qiáng)化學(xué)習(xí)的火箭動(dòng)力著陸段制導(dǎo)控制協(xié)作方法及系統(tǒng)，以提高火箭動(dòng)力著陸段制導(dǎo)控制的精度。

2、為實(shí)現(xiàn)上述目的，本發(fā)明提供了如下方案：

3、本發(fā)明提供一種基于強(qiáng)化學(xué)習(xí)的火箭動(dòng)力著陸段制導(dǎo)控制協(xié)作方法，所述方法包括如下步驟：

4、建立火箭動(dòng)力著陸段的運(yùn)動(dòng)方程；

5、確定火箭動(dòng)力著陸段的制導(dǎo)控制綜合目標(biāo)；

6、基于所述運(yùn)動(dòng)方程和所述制導(dǎo)控制綜合目標(biāo)，建立制導(dǎo)控制協(xié)作馬爾可夫決策過程模型，所述制導(dǎo)控制協(xié)作馬爾可夫決策過程模型包括參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò)、參數(shù)調(diào)節(jié)價(jià)值網(wǎng)絡(luò)、制導(dǎo)模塊仿真模型、姿控模塊仿真模型及運(yùn)動(dòng)方程；參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò)、參數(shù)調(diào)節(jié)價(jià)值網(wǎng)絡(luò)與制導(dǎo)模塊仿真模型、姿控模塊仿真模型及運(yùn)動(dòng)方程形成閉環(huán)系統(tǒng)，所述制導(dǎo)控制協(xié)作馬爾可夫決策過程模型的獎(jiǎng)勵(lì)函數(shù)基于所述制導(dǎo)控制綜合目標(biāo)建立；

7、根據(jù)制導(dǎo)控制協(xié)作馬爾可夫決策過程模型，采用鄰近策略優(yōu)化算法訓(xùn)練參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò)的參數(shù)，得到參數(shù)優(yōu)化的參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò)；

8、基于參數(shù)優(yōu)化后的參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò)生成的行為量進(jìn)行火箭動(dòng)力著陸段制導(dǎo)控制，所述行為量為控制參數(shù)。

9、可選的，所述運(yùn)動(dòng)方程為：

10、

11、其中，r為火箭位置；v為火箭速度；g為重力加速度；m為火箭質(zhì)量；t為火箭發(fā)動(dòng)機(jī)推力的幅值；vex指火箭發(fā)動(dòng)機(jī)排氣速度；faero和ftvc分別為火箭氣動(dòng)力與火箭發(fā)動(dòng)機(jī)推力；ωb指三軸角速度；ψ和γ分別為火箭俯仰角、偏航角和滾轉(zhuǎn)角；rx(γ)為火箭滾轉(zhuǎn)角繞x軸的基元旋轉(zhuǎn)矩陣、ry(ψ)為火箭偏航角繞y軸的基元旋轉(zhuǎn)矩陣；j為火箭轉(zhuǎn)動(dòng)慣量矩陣；maero和mtvc分別為火箭氣動(dòng)力力矩與發(fā)動(dòng)機(jī)推力力矩。

12、可選的，所述獎(jiǎng)勵(lì)函數(shù)為：

13、

14、其中，r(st,at)為獎(jiǎng)勵(lì)函數(shù)，st為t時(shí)刻的狀態(tài)量，at為t時(shí)刻的行為量，t為火箭動(dòng)力著陸段內(nèi)的時(shí)刻，tf為終端著陸時(shí)間，k1、k2、k3、k4、k5、k6為制導(dǎo)控制綜合目標(biāo)中不同目標(biāo)的加權(quán)系數(shù)，jr為終端位置誤差、jv為速度誤差，jm為動(dòng)力著陸段飛行初末時(shí)刻質(zhì)量之差，為終端著陸時(shí)刻火箭縱軸指向單位向量的水平分量，jδ為平均姿態(tài)跟蹤誤差，jerror為平均發(fā)動(dòng)機(jī)擺角。

15、可選的，所述根據(jù)制導(dǎo)控制協(xié)作馬爾可夫決策過程模型，采用鄰近策略優(yōu)化算法訓(xùn)練參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò)的參數(shù)，得到參數(shù)優(yōu)化的參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò)，具體包括：

16、基于制導(dǎo)控制協(xié)作馬爾可夫決策過程模型進(jìn)行n次閉環(huán)仿真，獲得采樣序列；所述采樣序列中包括n組仿真序列，所述仿真序列包括仿真得到的火箭動(dòng)力著陸段內(nèi)不同時(shí)刻的狀態(tài)量和行為量；

17、基于所述采樣序列計(jì)算參數(shù)調(diào)節(jié)價(jià)值網(wǎng)絡(luò)的參數(shù)更新梯度，并對(duì)參數(shù)調(diào)節(jié)價(jià)值網(wǎng)絡(luò)進(jìn)行參數(shù)更新，獲得更新后的參數(shù)調(diào)節(jié)價(jià)值網(wǎng)絡(luò)；

18、基于所述采樣序列和更新后的參數(shù)調(diào)節(jié)價(jià)值網(wǎng)絡(luò)，計(jì)算參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò)的參數(shù)更新梯度，并對(duì)參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò)進(jìn)行參數(shù)更新，獲得更新后的參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò)；

19、判斷是否達(dá)到最大采樣步數(shù)，獲得判斷結(jié)果；

20、若所述判斷結(jié)果表示否，則返回基于制導(dǎo)控制協(xié)作馬爾可夫決策過程模型進(jìn)行n次閉環(huán)仿真，獲得采樣序列的步驟；

21、若所述判斷結(jié)果表示是，則輸出更新后的參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò)，作為參數(shù)優(yōu)化后的參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò)。

22、可選的，所述基于制導(dǎo)控制協(xié)作馬爾可夫決策過程模型進(jìn)行n次閉環(huán)仿真，獲得采樣序列，具體包括：

23、基于狀態(tài)轉(zhuǎn)移的不確定性，將初始的狀態(tài)量設(shè)置為s0～p0(·)；其中，s0為初始的狀態(tài)量，p0(·)為考慮狀態(tài)轉(zhuǎn)移的不確定性的狀態(tài)量初始化函數(shù)；

24、將當(dāng)前迭代時(shí)刻的狀態(tài)量輸入?yún)?shù)調(diào)節(jié)策略網(wǎng)絡(luò)，獲得當(dāng)前迭代時(shí)刻的行為量；

25、將當(dāng)前迭代時(shí)刻的行為量輸入至所述制導(dǎo)模塊仿真模型和所述姿控模塊仿真模型進(jìn)行仿真，獲得當(dāng)前迭代時(shí)刻的火箭發(fā)動(dòng)機(jī)推力和火箭發(fā)動(dòng)機(jī)擺角；

26、將當(dāng)前迭代時(shí)刻的火箭發(fā)動(dòng)機(jī)推力和火箭發(fā)動(dòng)機(jī)擺角輸入至所述運(yùn)動(dòng)方程，獲得下一迭代時(shí)刻的狀態(tài)量，返回將當(dāng)前迭代時(shí)刻的狀態(tài)量輸入?yún)?shù)調(diào)節(jié)策略網(wǎng)絡(luò)，獲得當(dāng)前迭代時(shí)刻的行為量的步驟，直到到達(dá)終端著陸時(shí)間，獲得當(dāng)前次閉環(huán)仿真的仿真序列。

27、可選的，計(jì)算參數(shù)調(diào)節(jié)價(jià)值網(wǎng)絡(luò)的參數(shù)更新梯度的公式為：

28、

29、其中，gtd為參數(shù)調(diào)節(jié)價(jià)值網(wǎng)絡(luò)的參數(shù)更新梯度，st和st+1分別為t時(shí)刻和t+1時(shí)刻的狀態(tài)量，θv為參數(shù)調(diào)節(jié)價(jià)值網(wǎng)絡(luò)的參數(shù)，為使用算數(shù)平均近似期望，st為t時(shí)刻的狀態(tài)量，at為t時(shí)刻的行為量，為采樣序列，r(st,at)為獎(jiǎng)勵(lì)函數(shù)。

30、可選的，計(jì)算參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò)的參數(shù)更新梯度的公式為：

31、

32、

33、其中，gppo為參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò)的參數(shù)更新梯度，為使用算數(shù)平均近似期望，st為t時(shí)刻的狀態(tài)量，at為t時(shí)刻的行為量，為采樣序列，θ為參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò)的參數(shù)，為關(guān)于參數(shù)θ的梯度，ρθ(st,at)為策略輸出行為概率比，πθ(at|st)為待訓(xùn)練的參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò)，為上一次梯度更新后的參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò)，為使用廣義優(yōu)勢(shì)估計(jì)估計(jì)得到的優(yōu)勢(shì)函數(shù)，δ(sτ,aτ)為價(jià)值網(wǎng)絡(luò)的時(shí)序差分增量，r(sτ,aτ)為獎(jiǎng)勵(lì)函數(shù)，λ為加權(quán)系數(shù)，vθv(sτ+1)為更新后的參數(shù)調(diào)節(jié)價(jià)值網(wǎng)絡(luò)，sτ和sτ+1分別為τ時(shí)刻和τ+1時(shí)刻的狀態(tài)量，θv為參數(shù)調(diào)節(jié)價(jià)值網(wǎng)絡(luò)的參數(shù)，clip(x,∈)為限幅函數(shù)，x為指代函數(shù)，x＝ρθ(st,at)，∈為策略梯度更新的信賴域半徑。

34、一種基于強(qiáng)化學(xué)習(xí)的火箭動(dòng)力著陸段制導(dǎo)控制協(xié)作系統(tǒng)，所述系統(tǒng)應(yīng)用于上述的方法，所述系統(tǒng)包括：

35、運(yùn)動(dòng)方程建立模塊，用于建立火箭動(dòng)力著陸段的運(yùn)動(dòng)方程；

36、制導(dǎo)控制綜合目標(biāo)確定模塊，用于確定火箭動(dòng)力著陸段的制導(dǎo)控制綜合目標(biāo)；

37、制導(dǎo)控制協(xié)作馬爾可夫決策過程模型建立模塊，用于基于所述運(yùn)動(dòng)方程和所述制導(dǎo)控制綜合目標(biāo)，建立制導(dǎo)控制協(xié)作馬爾可夫決策過程模型，所述制導(dǎo)控制協(xié)作馬爾可夫決策過程模型包括參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò)、參數(shù)調(diào)節(jié)價(jià)值網(wǎng)絡(luò)、制導(dǎo)模塊仿真模型、姿控模塊仿真模型及運(yùn)動(dòng)方程；參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò)、參數(shù)調(diào)節(jié)價(jià)值網(wǎng)絡(luò)與制導(dǎo)模塊仿真模型、姿控模塊仿真模型及運(yùn)動(dòng)方程形成閉環(huán)系統(tǒng)，所述制導(dǎo)控制協(xié)作馬爾可夫決策過程模型的獎(jiǎng)勵(lì)函數(shù)基于所述制導(dǎo)控制綜合目標(biāo)建立；

38、優(yōu)化求解模塊，用于根據(jù)制導(dǎo)控制協(xié)作馬爾可夫決策過程模型，采用鄰近策略優(yōu)化算法訓(xùn)練參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò)的參數(shù)，得到參數(shù)優(yōu)化的參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò)；

39、控制模塊，用于基于參數(shù)優(yōu)化后的參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò)生成的行為量進(jìn)行火箭動(dòng)力著陸段制導(dǎo)控制，所述行為量為控制參數(shù)。

40、一種電子設(shè)備，包括存儲(chǔ)器、處理器以及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序，所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述的方法。

41、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，所述存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序，所述計(jì)算機(jī)程序被執(zhí)行時(shí)實(shí)現(xiàn)上述的方法。

42、根據(jù)本發(fā)明提供的具體實(shí)施例，本發(fā)明公開了以下技術(shù)效果：

43、本發(fā)明實(shí)施例提供一種基于強(qiáng)化學(xué)習(xí)的火箭動(dòng)力著陸段制導(dǎo)控制協(xié)作方法及系統(tǒng)，所述方法包括：建立火箭動(dòng)力著陸段的運(yùn)動(dòng)方程；確定火箭動(dòng)力著陸段的制導(dǎo)控制綜合目標(biāo)；基于所述運(yùn)動(dòng)方程和所述制導(dǎo)控制綜合目標(biāo)，建立制導(dǎo)控制協(xié)作馬爾可夫決策過程模型；根據(jù)制導(dǎo)控制協(xié)作馬爾可夫決策過程模型，采用鄰近策略優(yōu)化算法訓(xùn)練參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò)的參數(shù)，得到參數(shù)優(yōu)化的參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò)；基于參數(shù)優(yōu)化后的參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò)生成的行為量進(jìn)行火箭動(dòng)力著陸段制導(dǎo)控制。綜上所述，本發(fā)明提出一種基于強(qiáng)化學(xué)習(xí)的制導(dǎo)控制參數(shù)調(diào)節(jié)方法，將參數(shù)調(diào)節(jié)過程建模為馬爾可夫決策過程，使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練參數(shù)調(diào)節(jié)參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò)，實(shí)現(xiàn)模型不確定性和干擾作用下制導(dǎo)控制綜合目標(biāo)的期望最優(yōu)，提高了火箭動(dòng)力著陸段制導(dǎo)控制的精度，減少了著陸損耗。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張冉,何林坤,李惠峰,薛文超
技術(shù)所有人：北京航空航天大學(xué)
我是此專利的發(fā)明人

上一篇：一種經(jīng)期褲復(fù)合芯體的制作方法
上一篇：一種卷軸式旅游管理教學(xué)展示裝置

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、霍老師：1. 木質(zhì)纖維組分高效分離及高值化轉(zhuǎn)化 2.(納米)纖維素功能材料
2、楊老師：生物質(zhì)資源利用與制漿技術(shù)
3、崔老師：1. 印刷電子 2. 仿生圖案化功能結(jié)構(gòu)
4、劉老師：1.生物質(zhì)纖維及其功能材料 2.紙基功能材料
5、劉老師：1. 納米基復(fù)合功能膠體油墨的設(shè)計(jì)制備 2. 可穿戴功能(光電、電子、傳感、儲(chǔ)能等)器件的設(shè)計(jì)構(gòu)建 3. 基于3D打印的功能器件的構(gòu)建及集成
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于強(qiáng)化學(xué)習(xí)的火箭動(dòng)力著陸段制導(dǎo)控制協(xié)作方法及系統(tǒng)