本發(fā)明屬于智能交通信息處理,具體地說是一種基于深度q網(wǎng)絡(luò)的長大下坡路段行車速度控制方法。
背景技術(shù):
1、受地貌、地形等因素的制約,公路建設(shè)中不可避免地出現(xiàn)了長大下坡等高風(fēng)險路段,尤其在崎嶇高原和山嶺重丘區(qū)。在長大下坡路段,駕駛?cè)藶楸3周囁傩桀l繁踩踏剎車,這自然導(dǎo)致車輛制動性能持續(xù)衰退甚至制動失效。針對此類風(fēng)險防控,現(xiàn)有研究多側(cè)重于制定道路和車輛管控舉措。在道路方面,涉及降溫池、交安標志等固定位置的服務(wù)設(shè)施設(shè)置,以及坡度、坡長匹配設(shè)計;在車輛方面,多聚焦于實施動態(tài)限速、客貨分離、超載限制等宏觀路域管理措施。雖然上述舉措一定程度上提升了長大下坡路段的行車安全水平,但是交通事故仍時有發(fā)生。其根本原因在于:規(guī)則驅(qū)動的、定點、均態(tài)、無差的干預(yù)模式難以有效規(guī)避行車過程中不良駕駛行為(如超速、高強度制動)的發(fā)生。
2、本質(zhì)上,不良駕駛行為的發(fā)生受自身特征(駕駛經(jīng)驗、生理和心理等)和外部環(huán)境的共同影響。公路長大下坡路段通常采用“陡坡+緩坡+陡坡”的設(shè)計模式,駕駛?cè)藢ζ露燃暗缆翻h(huán)境的改變帶來的風(fēng)險感知不同,其駕駛行為則相應(yīng)表現(xiàn)出異質(zhì)性。另外,由于駕駛?cè)恕岸嗬炫堋钡男睦碜饔靡约皩ζ露鹊拿舾行圆蛔?,極易導(dǎo)致實際車速和駕駛?cè)烁兄俣却嬖谳^大差異,進而誘發(fā)不良駕駛行為,降低駕駛舒適性,并加速行車風(fēng)險累計過程。
3、因此,如何實現(xiàn)安全、高效和舒適的行車速度控制成為進一步提升長大下坡路段交通安全主動防控水平的可探索之路。
技術(shù)實現(xiàn)思路
1、本發(fā)明為了克服上述現(xiàn)有技術(shù)的不足,提出一種基于深度q網(wǎng)絡(luò)的長大下坡路段行車速度控制方法。本方法把長大下坡行車速度控制視為序貫決策過程,而強化學(xué)習(xí)為解決該類問題提供了范式。綜合考慮行駛安全性、高效性和舒適性構(gòu)建獎勵函數(shù),通過行車速度-風(fēng)險狀態(tài)的迭代交互映射,以最大化累計獎勵實現(xiàn)對行車速度的優(yōu)化。
2、一種基于深度q網(wǎng)絡(luò)的長大下坡路段行車速度控制方法,包括如下步驟:
3、步驟1:基于長大下坡路段場景,構(gòu)建與深度q網(wǎng)絡(luò)交互的環(huán)境模型,定義狀況空間、動作空間和獎勵函數(shù);
4、步驟2:構(gòu)建深度q網(wǎng)絡(luò)模型,并與環(huán)境模型迭代交互,得到數(shù)據(jù)集,同時計算獲得預(yù)測q值和目標q值;
5、步驟3:基于預(yù)測q值、目標q值和獎勵函數(shù),構(gòu)建損失函數(shù),并使用梯度下降方式對其進行優(yōu)化,實現(xiàn)深度q網(wǎng)絡(luò)模型的訓(xùn)練;
6、步驟4:多次迭代后,基于訓(xùn)練后的深度q網(wǎng)絡(luò)模型實現(xiàn)對長大下坡行車速度的控制。
7、進一步地,所述步驟1中狀況空間包括行車速度v、路段坡度i、下坡距離l、下坡時間t、輪轂初始溫度tmp,則對于當前時間周期t,狀況空間記為s(t)=(v,i,l,t,tmp)。
8、進一步地,所述步驟1中動作空間僅包括加速度a,則當前時間周期t的動作空間用a(t)表示。
9、進一步地,所述步驟1中獎勵函數(shù)綜合考慮行駛安全性指標fsafe、高效性指標feff和舒適性指標fcmf,則獎勵函數(shù)r計算公式為:
10、
11、其中,ω1、ω2和ω3為三個指標對應(yīng)的自定義權(quán)重,取值范圍為(0,1];fsafe反應(yīng)車輛制動轂熱衰退性能,使用車輛輪轂溫度與溫度閾值的接近程度進行量化;feff由平均行駛速度表征,使用行駛速度與安全速度閾值vs的接近程度進行量化;fcmf基于加速度的導(dǎo)數(shù)進行量化表征。
12、進一步地,所述步驟2中數(shù)據(jù)集d′的構(gòu)建過程為:
13、步驟21:根據(jù)環(huán)境模型初始狀態(tài)s(0),隨機選擇動作空間a(0),進而得到下一周期狀態(tài)s(1),通過狀況空間-動作空間的迭代映射,得到數(shù)據(jù)序列d={<s(0),a(0)>,<s(1),a(1)>,...,<s(t),a(t)>,(s(t+1),a(t+1)),...};
14、步驟22:按照<s(t),a(t),s(t+1)>的結(jié)構(gòu)對數(shù)據(jù)序列d進行重構(gòu),得d′={<s(0),a(0),s(1)>,(s(1),a(1),s(2)),...,<s(t),a(t),s(t+1)),...}。
15、進一步地,所述步驟3的具體實現(xiàn)方法為:
16、步驟31:基于預(yù)測q值、目標q值和來自數(shù)據(jù)樣本的計算的獎勵函數(shù)r構(gòu)建損失函數(shù)loss,表示為:
17、loss=(r+γ*maxa(t+1)q(s(t+1),a(t+1);θ′)-q(s(t),a(t);θ))2?(2)
18、其中,maxa(t+1)q(·)表示表示在下一狀態(tài)s(t+1)下,通過選擇不同a(t+1),獲得最大的q(·)輸出;γ∈(0,1]為折扣因子,用于衡量對未來時間周期所得獎勵的影響;
19、步驟32:使用梯度下降方式優(yōu)化損失函數(shù)loss,并更新q網(wǎng)絡(luò)的參數(shù)θ和目標q網(wǎng)絡(luò)中的參數(shù)θ′,經(jīng)過多次迭代實現(xiàn)速度控制的優(yōu)化;其中,對于單次訓(xùn)練過程,以fsafe>1或下坡距離l達到長大下坡路段總長度為作為停止訓(xùn)練的判斷條件
20、本發(fā)明的優(yōu)點在于:
21、(1)本發(fā)明的最大特點就是以數(shù)據(jù)驅(qū)動為理念,把長大下坡路段行車速度控制視為序貫決策過程,從而借助深度q網(wǎng)絡(luò)建模優(yōu)化行車過程,從而打破以規(guī)則約束的傳統(tǒng)行車要求。
22、(2)本發(fā)明的主要目的是構(gòu)建綜合考慮安全性、高效性和舒適性評價指標的獎勵函數(shù),使得行車速度控制更逼近于優(yōu)秀駕駛?cè)恕?/p>
技術(shù)特征:
1.一種基于深度q網(wǎng)絡(luò)的長大下坡路段行車速度控制方法,其特征在于,包括如下步驟:
2.根據(jù)權(quán)利要求1所述的一種基于深度q網(wǎng)絡(luò)的長大下坡路段行車速度控制方法,其特征在于,所述步驟1中狀況空間包括行車速度v、路段坡度i、下坡距離l、下坡時間t、輪轂初始溫度tmp,則對于當前時間周期t,狀況空間記為s(t)=(v,i,l,t,tmp)。
3.根據(jù)權(quán)利要求2所述的一種基于深度q網(wǎng)絡(luò)的長大下坡路段行車速度控制方法,其特征在于,所述步驟1中動作空間僅包括加速度a,則當前時間周期t的動作空間用a(t)表示。
4.根據(jù)權(quán)利要求3所述的一種基于深度q網(wǎng)絡(luò)的長大下坡路段行車速度控制方法,其特征在于,所述步驟1中獎勵函數(shù)綜合考慮行駛安全性指標fsafe、高效性指標feff和舒適性指標fcmf,則獎勵函數(shù)r計算公式為:
5.根據(jù)權(quán)利要求4所述的一種基于深度q網(wǎng)絡(luò)的長大下坡路段行車速度控制方法,其特征在于,所述步驟2中數(shù)據(jù)集d'的構(gòu)建過程為:
6.根據(jù)權(quán)利要求5所述的一種基于深度q網(wǎng)絡(luò)的長大下坡路段行車速度控制方法,其特征在于,所述步驟3的具體實現(xiàn)方法為: