本發(fā)明涉及航空航天,具體為一種基于確定性策略梯度與pid的微納衛(wèi)星姿態(tài)控制方法。
背景技術(shù):
1、隨著現(xiàn)代航天技術(shù)的發(fā)展,衛(wèi)星承擔(dān)的任務(wù)越來越多樣化,衛(wèi)星姿態(tài)控制系統(tǒng)的性能要求也越來越高,目前,在衛(wèi)星姿態(tài)控制方向的技術(shù)研究,特別是人工智能和衛(wèi)星姿態(tài)控制算法的研究越來越多,目前在衛(wèi)星姿態(tài)領(lǐng)域的控制方法主要采用pid控制、滑??刂频确椒ǎ槍?duì)pid控制,pid控制具有簡(jiǎn)單的結(jié)構(gòu),對(duì)模型誤差具有魯棒性及易于操作等優(yōu)點(diǎn),強(qiáng)化學(xué)習(xí)是一種分為有模型和無模型,有模型rl中可以使用動(dòng)態(tài)規(guī)劃算法求解每個(gè)狀態(tài)的價(jià)值并導(dǎo)出策略,無模型通過試錯(cuò)找出在初始狀態(tài)下收益最大的策略,確定性策略梯度它通過建立一個(gè)動(dòng)態(tài)策略網(wǎng)絡(luò)來學(xué)習(xí)最優(yōu)控制策略,ddpg算法采用雙神經(jīng)網(wǎng)絡(luò)架構(gòu),其中一個(gè)網(wǎng)絡(luò)用于估計(jì)狀態(tài)值函數(shù),另一個(gè)網(wǎng)絡(luò)用于學(xué)習(xí)控制策略,通過不斷地與環(huán)境進(jìn)行交互,ddpg算法可以逐漸逼近最優(yōu)控制策略,從而對(duì)pid控制參數(shù)進(jìn)行優(yōu)化,從而實(shí)現(xiàn)對(duì)微納衛(wèi)星姿態(tài)控制。
2、pid控制在工業(yè)過程控制中有著廣泛應(yīng)用,pid控制的難點(diǎn)不是編程實(shí)現(xiàn),而是控制器參數(shù)設(shè)置,控制器參數(shù)直接影響pid控制器的性能,且由于被控對(duì)象衛(wèi)星的運(yùn)動(dòng)系統(tǒng)復(fù)雜程度和環(huán)境的攝動(dòng),傳統(tǒng)pid控制需要靠人工經(jīng)驗(yàn)對(duì)pid參數(shù)進(jìn)行整定,一般需要根據(jù)對(duì)象慢慢進(jìn)行。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提供一種基于確定性策略梯度與pid的微納衛(wèi)星姿態(tài)控制方法,以解決上述背景技術(shù)中提出由于被控對(duì)象衛(wèi)星的運(yùn)動(dòng)系統(tǒng)復(fù)雜程度和環(huán)境的攝動(dòng),傳統(tǒng)pid控制需要靠人工經(jīng)驗(yàn)對(duì)pid參數(shù)進(jìn)行整定的問題。
2、為實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:一種基于確定性策略梯度與pid的微納衛(wèi)星姿態(tài)控制方法,包括以下步驟:
3、步驟1:通過敏傳感器獲得衛(wèi)星的俯仰θ、滾轉(zhuǎn)ψ、偏航角
4、步驟2:通過衛(wèi)星姿態(tài)動(dòng)力學(xué)模型,根據(jù)所需的控制力矩轉(zhuǎn)化為姿態(tài)角角速度
5、步驟3:根據(jù)姿態(tài)運(yùn)動(dòng)學(xué)模型,獲得衛(wèi)星在目前狀態(tài)的角度θt,ψt,通過敏傳感器確定的衛(wèi)星姿態(tài)角的差異確定衛(wèi)星姿態(tài)四元數(shù)誤差qe,反饋到衛(wèi)星姿態(tài)控制模型中;
6、步驟4:通過在控制器中加入一個(gè)pid控制器,給定初始增益kp,kd;
7、步驟5:在pid控制器中加入深度強(qiáng)化學(xué)習(xí)模型,通過強(qiáng)化學(xué)習(xí)自適應(yīng)整定pid控制器增益kp,ki,kd,來實(shí)現(xiàn)對(duì)某一個(gè)姿態(tài)角控制的優(yōu)化控制,使其能實(shí)現(xiàn)比初始增益更快更穩(wěn)的調(diào)整姿態(tài)角。
8、采用上述技術(shù)方案,經(jīng)過深度強(qiáng)化學(xué)習(xí)模型與pid控制器的聯(lián)合學(xué)習(xí),為微納衛(wèi)星動(dòng)態(tài)姿態(tài)規(guī)劃算法。
9、優(yōu)選的,所述微納衛(wèi)星姿態(tài)根據(jù)公式解算出衛(wèi)星在星體坐標(biāo)系b系下相對(duì)于軌道坐標(biāo)系o系的姿態(tài)四元數(shù)投影
10、采用上述技術(shù)方案,為衛(wèi)星在星體坐標(biāo)系b系下相對(duì)于軌道坐標(biāo)系進(jìn)行解算。
11、優(yōu)選的,所述為衛(wèi)星姿態(tài)現(xiàn)狀態(tài)四元數(shù),目標(biāo)姿態(tài)角的四元數(shù)qt,計(jì)算出誤差姿態(tài)四元數(shù)qe。
12、采用上述技術(shù)方案,為不同姿態(tài)數(shù)據(jù)提供對(duì)應(yīng)標(biāo)。
13、優(yōu)選的,所述動(dòng)力學(xué)方程輸出衛(wèi)星在慣性坐標(biāo)系下的角速度ωib。
14、采用上述技術(shù)方案,為動(dòng)力學(xué)方程輸出慣性坐標(biāo)系。
15、優(yōu)選的,對(duì)所述姿態(tài)矩陣進(jìn)行矩陣運(yùn)算后,采用以下公式:
16、
17、為歐拉軸衛(wèi)星轉(zhuǎn)動(dòng)角度與四元數(shù)表示。
18、采用上述技術(shù)方案,采用公式為歐拉軸衛(wèi)星轉(zhuǎn)動(dòng)角度姿態(tài)矩陣進(jìn)行矩陣運(yùn)算。
19、優(yōu)選的,所述pid的參數(shù)kp,ki,kd作為動(dòng)作a儲(chǔ)存,且將衛(wèi)星的姿態(tài)誤差四元數(shù)qe按折現(xiàn)系數(shù)折現(xiàn)成常數(shù),并且規(guī)定qe越小獎(jiǎng)勵(lì)系數(shù)越高儲(chǔ)存。
20、采用上述技術(shù)方案,為深度強(qiáng)化學(xué)習(xí)模型的工作規(guī)劃對(duì)應(yīng)的數(shù)據(jù)進(jìn)行演算。
21、優(yōu)選的,所述步驟5中的深度強(qiáng)化學(xué)習(xí)模型進(jìn)行如下的循環(huán)訓(xùn)練:
22、(1)選擇動(dòng)作at=μ(s|θμ);
23、(2)與環(huán)境進(jìn)行交互,得到狀態(tài)與收益st+1,rt=env.step(a);
24、(3)儲(chǔ)存到記憶r中r=(s,a,r,st+1,at+1);
25、(4)從記憶r中抽樣;
26、(5)利用評(píng)估網(wǎng)絡(luò)對(duì)動(dòng)進(jìn)行估值;
27、(6)最小化目標(biāo)損失以此更新當(dāng)前critic網(wǎng)絡(luò)qω(s,a);
28、(7)采用公式:
29、
30、計(jì)算采樣的策略梯度,以此更新當(dāng)前actor網(wǎng)絡(luò)μθ(s);
31、(8)更新目標(biāo)網(wǎng)絡(luò)。
32、采用上述技術(shù)方案,深度強(qiáng)化學(xué)習(xí)模型為衛(wèi)星姿態(tài)控制前進(jìn)行學(xué)習(xí)與模擬,降低調(diào)整控制錯(cuò)誤狀態(tài)。
33、優(yōu)選的,所述利用評(píng)估網(wǎng)絡(luò)的估值采用以下公式:
34、yi=ri+γqω-(si+1,μθ-(si+1))
35、對(duì)動(dòng)進(jìn)行估值。
36、采用上述技術(shù)方案,用于對(duì)2個(gè)網(wǎng)絡(luò)在使用過程中進(jìn)行估值。
37、優(yōu)選的,所述模型訓(xùn)練的微納衛(wèi)星姿態(tài)實(shí)時(shí)采樣時(shí)間間隔為δt=0.01s。
38、采用上述技術(shù)方案,為模型訓(xùn)練提供對(duì)應(yīng)微納衛(wèi)星姿態(tài)實(shí)時(shí)采樣。
39、優(yōu)選的,所述pid參數(shù)的動(dòng)態(tài)范圍為[0,1],學(xué)習(xí)率為10-3,折現(xiàn)系數(shù)為γ=0.9,episodes=200。
40、采用上述技術(shù)方案,通過調(diào)節(jié)pid參數(shù)為深度強(qiáng)化學(xué)習(xí)模型提供循環(huán)訓(xùn)練的標(biāo)準(zhǔn)。
41、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:該基于確定性策略梯度與pid的微納衛(wèi)星姿態(tài)控制方法:
42、由于被控對(duì)象衛(wèi)星的運(yùn)動(dòng)系統(tǒng)復(fù)雜程度和環(huán)境的攝動(dòng),傳統(tǒng)pid控制需要靠人工經(jīng)驗(yàn)對(duì)pid參數(shù)進(jìn)行整定
43、1.采用確定性策略梯度算法能夠?qū)W習(xí)到更優(yōu)的控制策略,與傳統(tǒng)pid相結(jié)合,可以針對(duì)微納衛(wèi)星的復(fù)雜姿態(tài)變化進(jìn)行更精準(zhǔn)的調(diào)整,減少姿態(tài)偏差,提高衛(wèi)星在空間中的指向精度,也可以實(shí)時(shí)適應(yīng)不同的工作環(huán)境和任務(wù)需求,對(duì)微納衛(wèi)星在各種情況下的姿態(tài)進(jìn)行精確控制,確保衛(wèi)星的功能正常發(fā)揮;
44、經(jīng)過深度強(qiáng)化學(xué)習(xí)模型循環(huán)訓(xùn)練,使得衛(wèi)星姿態(tài)調(diào)整精確控制,確定性策略梯度算法可以通過不斷地學(xué)習(xí)和優(yōu)化,自動(dòng)適應(yīng)微納衛(wèi)星的動(dòng)態(tài)特性變化,無需手動(dòng)調(diào)整控制參數(shù),降低了對(duì)專業(yè)人員的依賴,有效減少衛(wèi)星為調(diào)整姿態(tài)而消耗的能量,提高能源利用效率,對(duì)于微納衛(wèi)星這種能源有限的空間飛行器來說,具有重要意義;
45、2.結(jié)合了成熟的pid控制和先進(jìn)的確定性策略梯度算法,在現(xiàn)有技術(shù)基礎(chǔ)上進(jìn)行創(chuàng)新,其中pid控制具有一定的穩(wěn)定性基礎(chǔ),而確定性策略梯度的引入可以進(jìn)一步優(yōu)化控制性能,使微納衛(wèi)星在受到外部干擾,例如空間輻射、微小隕石撞擊等狀態(tài)時(shí),能夠更快地恢復(fù)穩(wěn)定姿態(tài),當(dāng)衛(wèi)星的質(zhì)量分布、慣性特性等發(fā)生變化時(shí),該控制方法能夠自動(dòng)調(diào)整策略,保持良好的控制效果,提高了衛(wèi)星系統(tǒng)的靈活性和適應(yīng)性,提高衛(wèi)星的可靠性,有效降低系統(tǒng)的振蕩,使衛(wèi)星的姿態(tài)變化更加平滑,減少對(duì)衛(wèi)星內(nèi)部設(shè)備的機(jī)械應(yīng)力,延長(zhǎng)衛(wèi)星的使用壽命。
1.一種基于確定性策略梯度與pid的微納衛(wèi)星姿態(tài)控制方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的一種基于確定性策略梯度與pid的微納衛(wèi)星姿態(tài)控制方法,其特征在于:所述微納衛(wèi)星姿態(tài)根據(jù)公式解算出衛(wèi)星在星體坐標(biāo)系b系下相對(duì)于軌道坐標(biāo)系o系的姿態(tài)四元數(shù)投影
3.根據(jù)權(quán)利要求1所述的一種基于確定性策略梯度與pid的微納衛(wèi)星姿態(tài)控制方法,其特征在于:所述為衛(wèi)星姿態(tài)現(xiàn)狀態(tài)四元數(shù),目標(biāo)姿態(tài)角的四元數(shù)qt,計(jì)算出誤差姿態(tài)四元數(shù)qe。
4.根據(jù)權(quán)利要求1所述的一種基于確定性策略梯度與pid的微納衛(wèi)星姿態(tài)控制方法,其特征在于:所述動(dòng)力學(xué)方程輸出衛(wèi)星在慣性坐標(biāo)系下的角速度ωib。
5.根據(jù)權(quán)利要求1所述的一種基于確定性策略梯度與pid的微納衛(wèi)星姿態(tài)控制方法,其特征在于:對(duì)所述姿態(tài)矩陣進(jìn)行矩陣運(yùn)算后,采用以下公式:
6.根據(jù)權(quán)利要求1所述的一種基于確定性策略梯度與pid的微納衛(wèi)星姿態(tài)控制方法,其特征在于:所述pid的參數(shù)kp,ki,kd作為動(dòng)作a儲(chǔ)存,且將衛(wèi)星的姿態(tài)誤差四元數(shù)qe按折現(xiàn)系數(shù)折現(xiàn)成常數(shù),并且規(guī)定qe越小獎(jiǎng)勵(lì)系數(shù)越高儲(chǔ)存。
7.根據(jù)權(quán)利要求1所述的一種基于確定性策略梯度與pid的微納衛(wèi)星姿態(tài)控制方法,其特征在于:所述步驟5中的深度強(qiáng)化學(xué)習(xí)模型進(jìn)行如下的循環(huán)訓(xùn)練:
8.根據(jù)權(quán)利要求7所述的一種基于確定性策略梯度與pid的微納衛(wèi)星姿態(tài)控制方法,其特征在于:所述利用評(píng)估網(wǎng)絡(luò)的估值采用以下公式:
9.根據(jù)權(quán)利要求7所述的一種基于確定性策略梯度與pid的微納衛(wèi)星姿態(tài)控制方法,其特征在于:所述模型訓(xùn)練的微納衛(wèi)星姿態(tài)實(shí)時(shí)采樣時(shí)間間隔為δt=0.01s。
10.根據(jù)權(quán)利要求7所述的一種基于確定性策略梯度與pid的微納衛(wèi)星姿態(tài)控制方法,其特征在于:所述pid參數(shù)的動(dòng)態(tài)范圍為[0,1],學(xué)習(xí)率為10-3,折現(xiàn)系數(shù)為γ=0.9,episodes=200。