欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于強(qiáng)化學(xué)習(xí)的火箭動(dòng)力著陸段制導(dǎo)控制協(xié)作方法及系統(tǒng)

文檔序號(hào):40584341發(fā)布日期:2025-01-07 20:24閱讀:5來(lái)源:國(guó)知局
基于強(qiáng)化學(xué)習(xí)的火箭動(dòng)力著陸段制導(dǎo)控制協(xié)作方法及系統(tǒng)

本發(fā)明涉及制導(dǎo)控制,特別是涉及一種基于強(qiáng)化學(xué)習(xí)的火箭動(dòng)力著陸段制導(dǎo)控制協(xié)作方法及系統(tǒng)。


背景技術(shù):

1、可重復(fù)使用火箭是指全部箭體或部分子級(jí)可重復(fù)使用的火箭飛行器。與傳統(tǒng)火箭相比,可重復(fù)使用火箭可以實(shí)現(xiàn)發(fā)動(dòng)機(jī)等關(guān)鍵部件的重復(fù)使用,大幅降低單次發(fā)射成本,成為未來(lái)新一代航天運(yùn)輸系統(tǒng)的重要組成部分。動(dòng)力著陸段是可重復(fù)使用火箭回收過程中的關(guān)鍵階段。該飛行階段具有模型不確定性及干擾顯著、姿態(tài)軌跡耦合嚴(yán)重、終端約束及燃料最優(yōu)性要求嚴(yán)苛的特點(diǎn)。

2、現(xiàn)有設(shè)計(jì)方法采用制導(dǎo)與控制分立設(shè)計(jì)的思想,在制導(dǎo)設(shè)計(jì)中忽略姿控對(duì)制導(dǎo)指令的跟蹤動(dòng)態(tài)、在姿控設(shè)計(jì)中忽略發(fā)動(dòng)機(jī)擺角對(duì)質(zhì)心運(yùn)動(dòng)產(chǎn)生的影響。當(dāng)模型不確定性和干擾顯著時(shí),制導(dǎo)律可能產(chǎn)生劇烈變化的姿態(tài)指令并使姿態(tài)控制律的跟蹤誤差增大,同時(shí)姿態(tài)控制律可能產(chǎn)生較大的發(fā)動(dòng)機(jī)擺角并對(duì)火箭質(zhì)心運(yùn)動(dòng)造成附加干擾力,從而給動(dòng)力著陸段的終端約束滿足精度、燃料消耗最優(yōu)性和姿態(tài)控制品質(zhì)均帶來(lái)?yè)p失。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的是提供一種基于強(qiáng)化學(xué)習(xí)的火箭動(dòng)力著陸段制導(dǎo)控制協(xié)作方法及系統(tǒng),以提高火箭動(dòng)力著陸段制導(dǎo)控制的精度。

2、為實(shí)現(xiàn)上述目的,本發(fā)明提供了如下方案:

3、本發(fā)明提供一種基于強(qiáng)化學(xué)習(xí)的火箭動(dòng)力著陸段制導(dǎo)控制協(xié)作方法,所述方法包括如下步驟:

4、建立火箭動(dòng)力著陸段的運(yùn)動(dòng)方程;

5、確定火箭動(dòng)力著陸段的制導(dǎo)控制綜合目標(biāo);

6、基于所述運(yùn)動(dòng)方程和所述制導(dǎo)控制綜合目標(biāo),建立制導(dǎo)控制協(xié)作馬爾可夫決策過程模型,所述制導(dǎo)控制協(xié)作馬爾可夫決策過程模型包括參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò)、參數(shù)調(diào)節(jié)價(jià)值網(wǎng)絡(luò)、制導(dǎo)模塊仿真模型、姿控模塊仿真模型及運(yùn)動(dòng)方程;參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò)、參數(shù)調(diào)節(jié)價(jià)值網(wǎng)絡(luò)與制導(dǎo)模塊仿真模型、姿控模塊仿真模型及運(yùn)動(dòng)方程形成閉環(huán)系統(tǒng),所述制導(dǎo)控制協(xié)作馬爾可夫決策過程模型的獎(jiǎng)勵(lì)函數(shù)基于所述制導(dǎo)控制綜合目標(biāo)建立;

7、根據(jù)制導(dǎo)控制協(xié)作馬爾可夫決策過程模型,采用鄰近策略優(yōu)化算法訓(xùn)練參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò)的參數(shù),得到參數(shù)優(yōu)化的參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò);

8、基于參數(shù)優(yōu)化后的參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò)生成的行為量進(jìn)行火箭動(dòng)力著陸段制導(dǎo)控制,所述行為量為控制參數(shù)。

9、可選的,所述運(yùn)動(dòng)方程為:

10、

11、其中,r為火箭位置;v為火箭速度;g為重力加速度;m為火箭質(zhì)量;t為火箭發(fā)動(dòng)機(jī)推力的幅值;vex指火箭發(fā)動(dòng)機(jī)排氣速度;faero和ftvc分別為火箭氣動(dòng)力與火箭發(fā)動(dòng)機(jī)推力;ωb指三軸角速度;ψ和γ分別為火箭俯仰角、偏航角和滾轉(zhuǎn)角;rx(γ)為火箭滾轉(zhuǎn)角繞x軸的基元旋轉(zhuǎn)矩陣、ry(ψ)為火箭偏航角繞y軸的基元旋轉(zhuǎn)矩陣;j為火箭轉(zhuǎn)動(dòng)慣量矩陣;maero和mtvc分別為火箭氣動(dòng)力力矩與發(fā)動(dòng)機(jī)推力力矩。

12、可選的,所述獎(jiǎng)勵(lì)函數(shù)為:

13、

14、其中,r(st,at)為獎(jiǎng)勵(lì)函數(shù),st為t時(shí)刻的狀態(tài)量,at為t時(shí)刻的行為量,t為火箭動(dòng)力著陸段內(nèi)的時(shí)刻,tf為終端著陸時(shí)間,k1、k2、k3、k4、k5、k6為制導(dǎo)控制綜合目標(biāo)中不同目標(biāo)的加權(quán)系數(shù),jr為終端位置誤差、jv為速度誤差,jm為動(dòng)力著陸段飛行初末時(shí)刻質(zhì)量之差,為終端著陸時(shí)刻火箭縱軸指向單位向量的水平分量,jδ為平均姿態(tài)跟蹤誤差,jerror為平均發(fā)動(dòng)機(jī)擺角。

15、可選的,所述根據(jù)制導(dǎo)控制協(xié)作馬爾可夫決策過程模型,采用鄰近策略優(yōu)化算法訓(xùn)練參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò)的參數(shù),得到參數(shù)優(yōu)化的參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò),具體包括:

16、基于制導(dǎo)控制協(xié)作馬爾可夫決策過程模型進(jìn)行n次閉環(huán)仿真,獲得采樣序列;所述采樣序列中包括n組仿真序列,所述仿真序列包括仿真得到的火箭動(dòng)力著陸段內(nèi)不同時(shí)刻的狀態(tài)量和行為量;

17、基于所述采樣序列計(jì)算參數(shù)調(diào)節(jié)價(jià)值網(wǎng)絡(luò)的參數(shù)更新梯度,并對(duì)參數(shù)調(diào)節(jié)價(jià)值網(wǎng)絡(luò)進(jìn)行參數(shù)更新,獲得更新后的參數(shù)調(diào)節(jié)價(jià)值網(wǎng)絡(luò);

18、基于所述采樣序列和更新后的參數(shù)調(diào)節(jié)價(jià)值網(wǎng)絡(luò),計(jì)算參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò)的參數(shù)更新梯度,并對(duì)參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò)進(jìn)行參數(shù)更新,獲得更新后的參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò);

19、判斷是否達(dá)到最大采樣步數(shù),獲得判斷結(jié)果;

20、若所述判斷結(jié)果表示否,則返回基于制導(dǎo)控制協(xié)作馬爾可夫決策過程模型進(jìn)行n次閉環(huán)仿真,獲得采樣序列的步驟;

21、若所述判斷結(jié)果表示是,則輸出更新后的參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò),作為參數(shù)優(yōu)化后的參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò)。

22、可選的,所述基于制導(dǎo)控制協(xié)作馬爾可夫決策過程模型進(jìn)行n次閉環(huán)仿真,獲得采樣序列,具體包括:

23、基于狀態(tài)轉(zhuǎn)移的不確定性,將初始的狀態(tài)量設(shè)置為s0~p0(·);其中,s0為初始的狀態(tài)量,p0(·)為考慮狀態(tài)轉(zhuǎn)移的不確定性的狀態(tài)量初始化函數(shù);

24、將當(dāng)前迭代時(shí)刻的狀態(tài)量輸入?yún)?shù)調(diào)節(jié)策略網(wǎng)絡(luò),獲得當(dāng)前迭代時(shí)刻的行為量;

25、將當(dāng)前迭代時(shí)刻的行為量輸入至所述制導(dǎo)模塊仿真模型和所述姿控模塊仿真模型進(jìn)行仿真,獲得當(dāng)前迭代時(shí)刻的火箭發(fā)動(dòng)機(jī)推力和火箭發(fā)動(dòng)機(jī)擺角;

26、將當(dāng)前迭代時(shí)刻的火箭發(fā)動(dòng)機(jī)推力和火箭發(fā)動(dòng)機(jī)擺角輸入至所述運(yùn)動(dòng)方程,獲得下一迭代時(shí)刻的狀態(tài)量,返回將當(dāng)前迭代時(shí)刻的狀態(tài)量輸入?yún)?shù)調(diào)節(jié)策略網(wǎng)絡(luò),獲得當(dāng)前迭代時(shí)刻的行為量的步驟,直到到達(dá)終端著陸時(shí)間,獲得當(dāng)前次閉環(huán)仿真的仿真序列。

27、可選的,計(jì)算參數(shù)調(diào)節(jié)價(jià)值網(wǎng)絡(luò)的參數(shù)更新梯度的公式為:

28、

29、其中,gtd為參數(shù)調(diào)節(jié)價(jià)值網(wǎng)絡(luò)的參數(shù)更新梯度,st和st+1分別為t時(shí)刻和t+1時(shí)刻的狀態(tài)量,θv為參數(shù)調(diào)節(jié)價(jià)值網(wǎng)絡(luò)的參數(shù),為使用算數(shù)平均近似期望,st為t時(shí)刻的狀態(tài)量,at為t時(shí)刻的行為量,為采樣序列,r(st,at)為獎(jiǎng)勵(lì)函數(shù)。

30、可選的,計(jì)算參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò)的參數(shù)更新梯度的公式為:

31、

32、

33、其中,gppo為參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò)的參數(shù)更新梯度,為使用算數(shù)平均近似期望,st為t時(shí)刻的狀態(tài)量,at為t時(shí)刻的行為量,為采樣序列,θ為參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò)的參數(shù),為關(guān)于參數(shù)θ的梯度,ρθ(st,at)為策略輸出行為概率比,πθ(at|st)為待訓(xùn)練的參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò),為上一次梯度更新后的參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò),為使用廣義優(yōu)勢(shì)估計(jì)估計(jì)得到的優(yōu)勢(shì)函數(shù),δ(sτ,aτ)為價(jià)值網(wǎng)絡(luò)的時(shí)序差分增量,r(sτ,aτ)為獎(jiǎng)勵(lì)函數(shù),λ為加權(quán)系數(shù),vθv(sτ+1)為更新后的參數(shù)調(diào)節(jié)價(jià)值網(wǎng)絡(luò),sτ和sτ+1分別為τ時(shí)刻和τ+1時(shí)刻的狀態(tài)量,θv為參數(shù)調(diào)節(jié)價(jià)值網(wǎng)絡(luò)的參數(shù),clip(x,∈)為限幅函數(shù),x為指代函數(shù),x=ρθ(st,at),∈為策略梯度更新的信賴域半徑。

34、一種基于強(qiáng)化學(xué)習(xí)的火箭動(dòng)力著陸段制導(dǎo)控制協(xié)作系統(tǒng),所述系統(tǒng)應(yīng)用于上述的方法,所述系統(tǒng)包括:

35、運(yùn)動(dòng)方程建立模塊,用于建立火箭動(dòng)力著陸段的運(yùn)動(dòng)方程;

36、制導(dǎo)控制綜合目標(biāo)確定模塊,用于確定火箭動(dòng)力著陸段的制導(dǎo)控制綜合目標(biāo);

37、制導(dǎo)控制協(xié)作馬爾可夫決策過程模型建立模塊,用于基于所述運(yùn)動(dòng)方程和所述制導(dǎo)控制綜合目標(biāo),建立制導(dǎo)控制協(xié)作馬爾可夫決策過程模型,所述制導(dǎo)控制協(xié)作馬爾可夫決策過程模型包括參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò)、參數(shù)調(diào)節(jié)價(jià)值網(wǎng)絡(luò)、制導(dǎo)模塊仿真模型、姿控模塊仿真模型及運(yùn)動(dòng)方程;參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò)、參數(shù)調(diào)節(jié)價(jià)值網(wǎng)絡(luò)與制導(dǎo)模塊仿真模型、姿控模塊仿真模型及運(yùn)動(dòng)方程形成閉環(huán)系統(tǒng),所述制導(dǎo)控制協(xié)作馬爾可夫決策過程模型的獎(jiǎng)勵(lì)函數(shù)基于所述制導(dǎo)控制綜合目標(biāo)建立;

38、優(yōu)化求解模塊,用于根據(jù)制導(dǎo)控制協(xié)作馬爾可夫決策過程模型,采用鄰近策略優(yōu)化算法訓(xùn)練參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò)的參數(shù),得到參數(shù)優(yōu)化的參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò);

39、控制模塊,用于基于參數(shù)優(yōu)化后的參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò)生成的行為量進(jìn)行火箭動(dòng)力著陸段制導(dǎo)控制,所述行為量為控制參數(shù)。

40、一種電子設(shè)備,包括存儲(chǔ)器、處理器以及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述的方法。

41、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被執(zhí)行時(shí)實(shí)現(xiàn)上述的方法。

42、根據(jù)本發(fā)明提供的具體實(shí)施例,本發(fā)明公開了以下技術(shù)效果:

43、本發(fā)明實(shí)施例提供一種基于強(qiáng)化學(xué)習(xí)的火箭動(dòng)力著陸段制導(dǎo)控制協(xié)作方法及系統(tǒng),所述方法包括:建立火箭動(dòng)力著陸段的運(yùn)動(dòng)方程;確定火箭動(dòng)力著陸段的制導(dǎo)控制綜合目標(biāo);基于所述運(yùn)動(dòng)方程和所述制導(dǎo)控制綜合目標(biāo),建立制導(dǎo)控制協(xié)作馬爾可夫決策過程模型;根據(jù)制導(dǎo)控制協(xié)作馬爾可夫決策過程模型,采用鄰近策略優(yōu)化算法訓(xùn)練參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò)的參數(shù),得到參數(shù)優(yōu)化的參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò);基于參數(shù)優(yōu)化后的參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò)生成的行為量進(jìn)行火箭動(dòng)力著陸段制導(dǎo)控制。綜上所述,本發(fā)明提出一種基于強(qiáng)化學(xué)習(xí)的制導(dǎo)控制參數(shù)調(diào)節(jié)方法,將參數(shù)調(diào)節(jié)過程建模為馬爾可夫決策過程,使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練參數(shù)調(diào)節(jié)參數(shù)調(diào)節(jié)策略網(wǎng)絡(luò),實(shí)現(xiàn)模型不確定性和干擾作用下制導(dǎo)控制綜合目標(biāo)的期望最優(yōu),提高了火箭動(dòng)力著陸段制導(dǎo)控制的精度,減少了著陸損耗。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
黑河市| 浮梁县| 平舆县| 灵石县| 钟山县| 通榆县| 旌德县| 长汀县| 马公市| 顺义区| 渝北区| 桦川县| 沅江市| 太康县| 长汀县| 秦皇岛市| 武定县| 隆林| 泽州县| 平顶山市| 长武县| 沁阳市| 米泉市| 南雄市| 江油市| 社会| 廊坊市| 鸡泽县| 温泉县| 菏泽市| 深州市| 渝中区| 福鼎市| 雅江县| 安丘市| 攀枝花市| 库车县| 砚山县| 察哈| 磐安县| 公主岭市|