本發(fā)明屬于車輛懸架系統(tǒng)控制,具體涉及一種基于transformer架構(gòu)的半主動(dòng)懸架控制系統(tǒng)。
背景技術(shù):
1、車輛懸架系統(tǒng)作為汽車工程中的核心構(gòu)成,承擔(dān)著緩沖行駛中車輛振動(dòng)與沖擊的重任,對(duì)提升乘坐舒適性和行駛穩(wěn)定性至關(guān)重要。在控制懸架可控阻尼以優(yōu)化上述性能方面,采用先進(jìn)策略顯得尤為重要。當(dāng)前,車輛懸架系統(tǒng)的控制策略正經(jīng)歷從傳統(tǒng)基于規(guī)則的方法向智能控制的轉(zhuǎn)型。被動(dòng)式、半主動(dòng)式和主動(dòng)式懸架系統(tǒng)各具特色,但各有局限。被動(dòng)式懸架雖構(gòu)造簡(jiǎn)單,卻難以適應(yīng)復(fù)雜路況,提供靈活的減振效果;半主動(dòng)懸架雖能通過調(diào)節(jié)減震器阻尼力實(shí)現(xiàn)一定程度的調(diào)控,但仍缺乏主動(dòng)施力的能力;而主動(dòng)式懸架盡管在控制性能上表現(xiàn)出眾,卻因其高昂的成本和復(fù)雜的結(jié)構(gòu),難以在普通車輛中廣泛推廣。
2、智能控制技術(shù)的融入,特別是模糊控制、自適應(yīng)控制、神經(jīng)網(wǎng)絡(luò)和遺傳算法等,為懸架系統(tǒng)控制帶來了新的活力,提升了效果和靈活性。在智能車輛聯(lián)網(wǎng)過程中,通過can總線注入虛假傳感器數(shù)據(jù)對(duì)汽車的安全構(gòu)成威脅。然而,這些方法在應(yīng)對(duì)復(fù)雜實(shí)際工況時(shí),仍面臨可擴(kuò)展性和實(shí)時(shí)性方面的挑戰(zhàn),特別是對(duì)傳感器數(shù)據(jù)異常的處理能力不足。同時(shí),盡管強(qiáng)化學(xué)習(xí)在控制領(lǐng)域展現(xiàn)出巨大潛力,能夠通過與環(huán)境持續(xù)交互優(yōu)化控制策略,但在懸架系統(tǒng)中,其訓(xùn)練過程的不穩(wěn)定性、對(duì)fd?i攻擊不敏感、樣本效率低下以及策略泛化能力有限等問題,限制了其實(shí)際應(yīng)用。transformer模型憑借卓越的序列建模能力,在自然語言處理等領(lǐng)域取得了顯著成就。其核心的自注意力機(jī)制能夠有效捕捉長短期依賴關(guān)系,這一特性在處理時(shí)序傳感器數(shù)據(jù)時(shí)具有巨大潛力。然而,將transformer模型應(yīng)用于懸架系統(tǒng)控制仍屬創(chuàng)新嘗試,需克服諸多技術(shù)難題,如計(jì)算復(fù)雜度較高、需優(yōu)化以滿足實(shí)時(shí)控制要求,以及需設(shè)計(jì)適用于控制任務(wù)的transformer變體等。因而提出一種基于transformer架構(gòu)的半主動(dòng)懸架控制系統(tǒng),用以解決上述問題。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提供一種基于transformer架構(gòu)的半主動(dòng)懸架控制系統(tǒng),以解決上述背景技術(shù)中提出的問題。
2、為實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:一種基于transformer架構(gòu)的半主動(dòng)懸架控制系統(tǒng),包括如下步驟:
3、s1:布置傳感器網(wǎng)絡(luò),采集車輛動(dòng)態(tài)數(shù)據(jù);
4、s2:使用預(yù)設(shè)算法對(duì)來自不同傳感器的異步數(shù)據(jù)進(jìn)行對(duì)齊,保持異構(gòu)數(shù)據(jù)的時(shí)序一致性;
5、傳感器i在時(shí)間t的測(cè)量值為xi(t),將所有傳感器數(shù)據(jù)對(duì)齊到統(tǒng)一的時(shí)間點(diǎn)tk:其中tj≤tk<tj+1;
6、s3:建立四分之一車輛二自由度模型
7、
8、其中ms為車身質(zhì)量,mu為簧下質(zhì)量,f為磁流變阻尼器阻尼力,xs為車身位移,xu為簧下位移,xr為車輪位移,c為阻尼器不可控阻尼,ks為彈簧剛度,kt為車輪剛度;
9、s4:通過神經(jīng)網(wǎng)絡(luò)對(duì)磁流變阻尼器進(jìn)行建模:
10、
11、通過預(yù)設(shè)設(shè)備獲取阻尼器實(shí)驗(yàn)數(shù)據(jù),通過神經(jīng)網(wǎng)絡(luò)對(duì)數(shù)據(jù)進(jìn)行擬合,得出權(quán)重矩陣wi,wh和wo;
12、將阻尼器神經(jīng)網(wǎng)絡(luò)模型與車輛懸架動(dòng)力學(xué)模型結(jié)合,得出一體化模型;
13、將強(qiáng)化學(xué)習(xí)結(jié)構(gòu)與該一體化模型進(jìn)行交互,訓(xùn)練神經(jīng)網(wǎng)絡(luò)參數(shù);
14、s5:對(duì)狀態(tài)量應(yīng)用ddpg強(qiáng)化學(xué)習(xí)算法進(jìn)行控制量計(jì)算,ddpg網(wǎng)絡(luò)結(jié)構(gòu)為actor-crit?ic結(jié)構(gòu),其中actor網(wǎng)絡(luò)生成動(dòng)作:at=μ(s|θμ),cr?itic網(wǎng)絡(luò)評(píng)估狀態(tài)-動(dòng)作值q(s,a|θq);
15、s6:將狀態(tài)量傳入transformer架構(gòu)中,替代傳統(tǒng)actor網(wǎng)絡(luò),對(duì)狀態(tài)量的關(guān)聯(lián)性分析,區(qū)分有效信息及狀態(tài)量誤差,將數(shù)據(jù)xi(tk)傳入ddpg的transformer架構(gòu)中;
16、s7:將帶編碼高維數(shù)據(jù)x分別與權(quán)重點(diǎn)乘,得出帶權(quán)重矩陣v每一行代表傳感器數(shù)據(jù)的高維表達(dá);
17、s8:對(duì)其中q與k矩陣進(jìn)行轉(zhuǎn)置點(diǎn)乘,得出qkt矩陣;
18、s9:對(duì)已獲得的注意力權(quán)重結(jié)果除k矩陣維度進(jìn)行縮放,對(duì)計(jì)算得出的注意力權(quán)重矩陣進(jìn)行softmax激活函數(shù)變換,將結(jié)果轉(zhuǎn)化成百分比;
19、s10:將經(jīng)過變換的注意力權(quán)重與矩陣v相乘,得出結(jié)果中每一個(gè)元素為每一個(gè)樣本數(shù)據(jù)對(duì)應(yīng)其他所有樣本數(shù)據(jù)在q,k矩陣64維度下的關(guān)注度權(quán)重的總和,通過注意力權(quán)重調(diào)整v矩陣權(quán)重得出結(jié)果attention(q,k,v);
20、s11:對(duì)自注意力矩陣headi=attention(q,k,v)進(jìn)行多組并行訓(xùn)練,得出多頭注意力機(jī)制結(jié)果concat(head1,…,headh),將該多頭注意力機(jī)制結(jié)果與多頭權(quán)重矩陣wo相乘,得出多頭注意力結(jié)果multihead(q,k,v)=concat(head1,…,headh)wo,每個(gè)頭headi是不同空間的注意力機(jī)制結(jié)果;
21、s12:將transformer架構(gòu)替換傳統(tǒng)強(qiáng)化學(xué)習(xí)actor網(wǎng)絡(luò)架構(gòu),通過transformer架構(gòu)生成參數(shù)化策略μ(s|θμ)來輸出給定狀態(tài)下的最優(yōu)動(dòng)作at=μ(s|θμ),其目標(biāo)是最大化累積獎(jiǎng)勵(lì)的期望:cr?i?t?i?c網(wǎng)絡(luò)用于評(píng)估狀態(tài)-動(dòng)作值函數(shù)q(s,a∣θq),通過最小化以下?lián)p失函數(shù)來優(yōu)化其參數(shù):l(θq)=e(s,a,r,s′)~d[(r+γq(s′,μ(s′∣θμ)∣θq)-q(s,a∣θq))2]其中,r為即時(shí)獎(jiǎng)勵(lì),γ為折扣因子,d為經(jīng)驗(yàn)回放緩沖區(qū)中的數(shù)據(jù);
22、s13:設(shè)計(jì)強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù);
23、s14:采用雙網(wǎng)絡(luò)架構(gòu),包括兩個(gè)獨(dú)立的actor網(wǎng)絡(luò)和與兩個(gè)獨(dú)立的cr?it?i?c網(wǎng)絡(luò)和通過以下公式計(jì)算最小的動(dòng)作量與狀態(tài)-動(dòng)作值:定義損失函數(shù)為:
24、
25、s15:將與環(huán)境交互過程獲得的數(shù)據(jù)存儲(chǔ)到回放緩沖區(qū)d中,從緩沖區(qū)中隨機(jī)采樣批次數(shù)據(jù)用于訓(xùn)練,提升樣本利用率,對(duì)于雙actor和cr?it?ic網(wǎng)絡(luò)更新機(jī)制,采用分別維護(hù)延遲更新的目標(biāo)網(wǎng)絡(luò)參數(shù)θμ'和θq',每次更新網(wǎng)絡(luò)參數(shù)時(shí),目標(biāo)網(wǎng)絡(luò)使用軟更新規(guī)則:actor網(wǎng)絡(luò)更新規(guī)則:θμ'←τθμ+(1-τ)θμ',cr?it?ic網(wǎng)絡(luò)更新規(guī)則:θq'←τθq+(1-τ)θq',其中,τ是軟更新參數(shù),平衡當(dāng)前網(wǎng)絡(luò)參數(shù)與待更新參數(shù),調(diào)整網(wǎng)絡(luò)參數(shù),獲取控制信號(hào)i。
26、優(yōu)選地,所述s1中,所述傳感器網(wǎng)絡(luò)包括加速度計(jì)、陀螺儀、位移傳感器和壓力傳感器。
27、優(yōu)選地,所述s1中,所述車輛動(dòng)態(tài)數(shù)據(jù)包括車身加速度、懸架行程、輪胎形變量。
28、優(yōu)選地,所述s4中,所述預(yù)設(shè)設(shè)備包括懸架試驗(yàn)臺(tái)。
29、優(yōu)選地,所述s4中,所述神經(jīng)網(wǎng)絡(luò)的輸出值為磁流變阻尼器可控阻尼力f。
30、優(yōu)選地,所述的將狀態(tài)量傳入transformer架構(gòu)中,替代傳統(tǒng)actor網(wǎng)絡(luò),對(duì)狀態(tài)量的關(guān)聯(lián)性分析,區(qū)分有效信息及狀態(tài)量誤差,將數(shù)據(jù)xi(tk)傳入ddpg的transformer架構(gòu)中之后包括步驟:
31、首先將數(shù)據(jù)xi(tk)升維至64維st,采用可學(xué)習(xí)的傅里葉特征對(duì)st位置編碼:pe(pos,2i)=sin(pos·wi),pe(pos,2i+1)=cos(pos·wi),其中,wi為可學(xué)習(xí)的參數(shù)
32、優(yōu)選地,所述s4中,所述一體化模型為:
33、
34、式中,其中ms為車身質(zhì)量,mu為簧下質(zhì)量,f為磁流變阻尼器阻尼力,xs為車身位移,xu為簧下位移,xr為車輪位移,c為阻尼器不可控阻尼,ks為彈簧剛度,kt為車輪剛度。
35、優(yōu)選地,所述s2中,所述預(yù)設(shè)算法包括插值算法。
36、優(yōu)選地,所述s13中,所述強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)為通過車身加速度、懸架動(dòng)行程,輪胎形變量、懸架耗散性約束四部分組成獎(jiǎng)勵(lì)函數(shù),對(duì)車身加速度和懸架動(dòng)行程分別乘權(quán)重系數(shù)a1,a2進(jìn)行權(quán)重分配,另外加入障礙函數(shù)p,q,n,其中障礙函數(shù)p對(duì)懸架動(dòng)行程進(jìn)行約束,保持懸架動(dòng)行程在限位區(qū)間內(nèi),使(xs-xu)在懸架最大動(dòng)行程χmax范圍內(nèi),障礙函數(shù)q對(duì)懸架車輪形變量進(jìn)行約束,障礙函數(shù)n對(duì)磁流變半主動(dòng)懸架輸入量進(jìn)行約束。
37、優(yōu)選地,所述障礙函數(shù)所述障礙函數(shù)所述障礙函數(shù)
38、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:
39、在本發(fā)明中,通過transformer機(jī)制降低了對(duì)狀態(tài)量進(jìn)行權(quán)重分配,避免了傳感器誤差帶來的錯(cuò)誤控制量,提高了懸架控制系統(tǒng)對(duì)數(shù)據(jù)異常的魯棒性,能夠在傳感器故障、受到外部攻擊注入虛假傳感器數(shù)據(jù)或極端路況下保持穩(wěn)定控制。
40、通過ddpg強(qiáng)化學(xué)習(xí)控制算法,增強(qiáng)了系統(tǒng)在復(fù)雜多變環(huán)境下的適應(yīng)能力,可以快速適應(yīng)不同路況、載重和駕駛風(fēng)格,在保證計(jì)算效率的同時(shí)提高了控制效果。
41、相比傳統(tǒng)方法,本發(fā)明在各類路況下平均改善了36.7%的乘坐舒適性和30.45%的操控穩(wěn)定性,通過輕量化設(shè)計(jì)和優(yōu)化算法,確保了控制系統(tǒng)的實(shí)時(shí)性,提高了系統(tǒng)的可解釋性,可以通過分析transformer的注意力權(quán)重理解控制決策的依據(jù),降低了系統(tǒng)對(duì)精確物理模型的依賴,增強(qiáng)了在實(shí)際應(yīng)用中的泛化能力。
42、本發(fā)明不同于現(xiàn)有傳統(tǒng)控制方法及傳統(tǒng)智能算法,傳統(tǒng)算法無法針對(duì)傳感器出現(xiàn)誤差情況準(zhǔn)確表征當(dāng)前狀態(tài),進(jìn)而影響車身精準(zhǔn)平穩(wěn)控制,本發(fā)明所述的方法是一種基于數(shù)據(jù)驅(qū)動(dòng)的transformer架構(gòu)的深度確定性策略梯度(ddpg)強(qiáng)化學(xué)習(xí)控制方法,通過transformer架構(gòu)對(duì)異常數(shù)據(jù)進(jìn)行關(guān)聯(lián)性分析,得出數(shù)據(jù)之間的重要性權(quán)重,通過較小的權(quán)重系數(shù)降低異常數(shù)據(jù)對(duì)控制量的影響,將含權(quán)重?cái)?shù)據(jù)進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練,得出滿足控制要求的控制方法,對(duì)傳感器故障、受到外部攻擊注入虛假傳感器數(shù)據(jù)或極端路況具有魯棒性。