本發(fā)明屬于智能交通和交通控制技術(shù)領(lǐng)域,具體涉及一種快速道路孤立瓶頸路段的可變限速控制方法。
背景技術(shù):
可變限速控制作為一種越來越被廣泛用于改善快速道路交通安全的交通控制方法,其控制效果與可變限速值確定過程所采用的算法密切相關(guān)。強化學(xué)習(xí)作為一種閉環(huán)結(jié)構(gòu),通過控制效果對控制方法的反饋調(diào)節(jié)使智能體不斷學(xué)習(xí)不同交通流狀態(tài)下對應(yīng)的最優(yōu)限速值,有效提升了可變限速控制的效果和可變限速控制限速值的合理性。因此,基于強化學(xué)習(xí)算法的快速道路孤立瓶頸路段的可變限速控制方法,通過強化學(xué)習(xí)使智能體掌握不同交通流運行狀態(tài)下的最優(yōu)限速值。
目前的可變限速控制方法中不同交通流狀態(tài)下對應(yīng)的限速值的確定依賴于工程師經(jīng)驗主觀確定,同時可變限速控制對交通流運行的影響與期望有差異,可能導(dǎo)致控制方法無法達到最優(yōu)控制效果。本發(fā)明提出基于強化學(xué)習(xí)的快速道路孤立瓶頸路段的可變限速控制方法,相比于以往的可變限速控制算法,本發(fā)明提出的控制算法具有依據(jù)新的交通環(huán)境與數(shù)據(jù)持續(xù)學(xué)習(xí)的能力,通過實際道路交通環(huán)境下的最優(yōu)控制方法的持續(xù)更新有效提升可變限速控制效果。
技術(shù)實現(xiàn)要素:
本發(fā)明要解決的問題是:以往針對孤立瓶頸路段的可變限速控制方法中交通流狀態(tài)和限速值之間的對應(yīng)關(guān)系主要由工程師主觀確定,缺乏對不同交通流狀態(tài)下不同可變限速值控制效果的客觀分析,缺乏不同交通流狀態(tài)下不同限速值與其控制效果之間的數(shù)據(jù)信息的挖掘,導(dǎo)致可變限速控制中限速值的確定過程缺乏理論性,具有一定主觀隨意性。本發(fā)明提出一種基于強化學(xué)習(xí)的快速道路孤立瓶頸路段的可變限速控制方法,通過計算機智能體學(xué)習(xí)可變限速控制方法對交通安全與通行效率改善的影響規(guī)律,確定不同交通流狀態(tài)下具有最優(yōu)控制效果的可變限速控制方法??朔翱勺兿匏倏刂浦邢匏僦荡_定過程的主觀隨意性,實現(xiàn)根據(jù)實際效果和交通流數(shù)據(jù)對最優(yōu)可變限速控制方法進行反饋調(diào)節(jié)。
本發(fā)明技術(shù)方案為:
本發(fā)明提出一種快速道路孤立瓶頸路段的可變限速控制方法,基于實測交通流數(shù)據(jù)訓(xùn)練智能體掌握不同交通流運行狀態(tài)下的最優(yōu)限速值,據(jù)此在孤立瓶頸路段上游發(fā)布當(dāng)前交通流狀態(tài)下的最優(yōu)限速值,采集可變限速控制后的限速值與交通流數(shù)據(jù)使智能體依據(jù)新的交通環(huán)境與數(shù)據(jù)持續(xù)學(xué)習(xí),本方法對實際中通過可變限速控制方法有效降低孤立瓶頸路段內(nèi)事故風(fēng)險具有重要意義。實例顯示,本發(fā)明提出的可變限速控制方法有很好的控制效果,能有效降低快速道路孤立瓶頸路段的安全隱患,還能不斷依據(jù)實際應(yīng)用后的限速值與交通流數(shù)據(jù)持續(xù)學(xué)習(xí)最優(yōu)方法。
附圖說明
圖1為快速道路孤立瓶頸路段的可變限速控制方法流程圖。
圖2為可變限速控制影響范圍示意圖。
圖3為強化學(xué)習(xí)算法中交通流狀態(tài)劃分示意圖。
圖4為算例中孤立瓶頸路段示意圖。
圖5為算例中流量-速度分布圖。
圖6為無控及可變限速控制下交通流速度變化圖。
具體實施方式
本發(fā)明是基于強化學(xué)習(xí)Q學(xué)習(xí)算法的基本原理和可變限速控制方法的基本流程提出針對孤立瓶頸路段上游進行可變限速控制的方法,通過交通流檢測器檢測孤立瓶頸路段及其上下游的交通流運行情況生成訓(xùn)練數(shù)據(jù)庫,智能體通過離線學(xué)習(xí)掌握不同交通流狀態(tài)下的最優(yōu)可變限速值,在實際控制中智能體通過快速道路上實測交通流數(shù)據(jù)感知實時交通流狀態(tài),從知識庫中選擇當(dāng)前狀態(tài)對應(yīng)的最優(yōu)限速值對交通流進行動態(tài)調(diào)節(jié),用控制實施后的交通流數(shù)據(jù)和限速值對智能體進行持續(xù)訓(xùn)練,基于強化學(xué)習(xí)的快速道路孤立瓶頸路段的可變限速控制方法的流程圖如圖1所示。
第一步是確定快速道路孤立瓶頸路段及其上下游范圍,以合理間距設(shè)置交通流檢測器,在孤立瓶頸路段上游交通流檢測器位置處設(shè)置可變限速指示牌,具體獲取快速道路瓶頸路段及其上下游一段時間內(nèi)的真實交通流數(shù)據(jù)及可變限速控制狀態(tài)數(shù)據(jù),確定強化學(xué)習(xí)算法中的交通流狀態(tài)集和動作集。由于需要了解孤立瓶頸路段及其上下游交通流信息,所以狀態(tài)集應(yīng)包括可變限速控制路段及其上下游三個部分,如圖2中路段B、C、D所示?;谡鎸嵔煌鲾?shù)據(jù)繪制流量-速度分布圖尋找瓶頸路段交通流的關(guān)鍵密度,在自由流、擁堵狀態(tài)和關(guān)鍵密度附近分別對交通流狀態(tài)進行劃分獲取交通流狀態(tài)。由于交通流運行狀態(tài)在關(guān)鍵密度附近變化較為敏感,故在關(guān)鍵密度附近1.25-2.5veh/m/ln劃分交通流狀態(tài),在自由流和擁堵流中每隔5veh/m/ln劃分交通流狀態(tài)。強化學(xué)習(xí)算法中的交通流狀態(tài)劃分如圖3所示,連續(xù)的交通流密度被劃分為若干離散密度區(qū)間。
可變限速控制的強化學(xué)習(xí)中動作集為不同的可變限速值,限速值應(yīng)在路段允許的最高和最低限速值之間,即VSL∈{Vmin,Vmax},同時考慮到駕駛員對限速值的接受情況,發(fā)布的限速值取為5或10的整數(shù)倍。大量測試可知動作集中限速值的取值范圍為20mph至65mph,選取步長定為5mph,因此動作集中元素為{20mph,25mph,30mph,35mph,40mph,45mph,50mph,55mph,60mph,65mph}。
第二步是基于可變限速控制降低追尾事故風(fēng)險的效果設(shè)置強化學(xué)習(xí)中的回報函數(shù),與無控情況相比,某限速值降低路段內(nèi)事故風(fēng)險比例越高回報值越大;若限速值增加了路段內(nèi)事故風(fēng)險則在回報值中增加額外懲罰項。
首先,需要構(gòu)建事故預(yù)測模型計算路段i在t時刻的事故風(fēng)險R(i,t)。基于瓶頸處交通流檢測器檢測到的交通流數(shù)據(jù),依據(jù)如下公式計算追尾事故風(fēng)險指數(shù)RCRI:
其中,
為時間Δt內(nèi)上游檢測器位置平均速度,
為時間Δt內(nèi)下游檢測器位置平均速度,
為時間Δt內(nèi)上游檢測器位置平均占有率,
和分別為第j個時間Δt內(nèi)上下游檢測器位置車道m(xù)平均速度和上游檢測器位置車道m(xù)的平均占有率;
J為一個時間段內(nèi)集計交通流數(shù)據(jù)個數(shù)(J=ΔT/Δt,Δt=30s);
M為路段斷面車道數(shù)。
基于公式(1)中RCRI的結(jié)果計算瓶頸所處路段i內(nèi)當(dāng)前時刻t的實時追尾事故風(fēng)險Ri(t),計算公式如下:
其中,
P(Y=1)為追尾事故發(fā)生概率;
σ(OU)為上游檢測器占有率標(biāo)準(zhǔn)差,
σ(OD)為下游檢測器占有率標(biāo)準(zhǔn)差,
基于公式(2)中的實時追尾事故風(fēng)險計算方法,構(gòu)建如下式所示的強化學(xué)習(xí)算法的回報函數(shù):
其中,
Reward為回報值;
PC為事故風(fēng)險變化比例;
CRVSL和CRNo分別為可變限速控制和無控制下的事故風(fēng)險;
R(i,k)為路段i在k時刻的事故風(fēng)險;
I為路段個數(shù);
K為仿真時間。
第三步是基于第一步中采集到的交通流和可變限速控制狀態(tài)數(shù)據(jù)庫訓(xùn)練智能體。
首先,初始化所有“狀態(tài)-行為”對應(yīng)的Q值為零,集計可變限速控制前后5分鐘的交通流數(shù)據(jù)用于判斷交通流狀態(tài)轉(zhuǎn)移。在Q學(xué)習(xí)每一個時間步中,基于集計的交通流數(shù)據(jù)觀察當(dāng)前環(huán)境狀態(tài),判斷當(dāng)前狀態(tài)是否已執(zhí)行20次動作選擇,若不是,則強制智能體對每個狀態(tài)嘗試不同動作;若是,則采用softmax動作選擇方法根據(jù)Q值確定當(dāng)前狀態(tài)下選擇各動作的概率,方法為Q值越高動作選擇中所占權(quán)重越大,該動作被選中的概率越大,具體計算公式如下:
其中,
Ps(a)為在狀態(tài)s下選擇行動a的概率;
T為退火溫度;
Qt(s,a)為當(dāng)前時刻“狀態(tài)-行為”對應(yīng)的Q值。
其次,做出動作選擇后,基于由第二步中公式(3)計算得到的“狀態(tài)-行為”的回報值,需要對各“狀態(tài)-行為”組合的回報值Q進行更新,Q學(xué)習(xí)算法中按照下式調(diào)整Q值:
Qt+1(st,at)=Qt(st,at)+λt(st,at)×[Rt+1+γmaxQt(st,at)-Qt(st,at)] (7)
其中,Qt+1(st,at)為t+1時刻對應(yīng)的Q值,Qt(st,at)為t時刻對應(yīng)的Q值,λt(st,at)(0<λ<1)是學(xué)習(xí)速率,γ為折扣因子(0<γ<1),折衷馬上獲得的與延遲獲得的獎勵。
本專利中對公式(7)進行簡化,不考慮延遲獲得的獎勵,綜合考慮模型運行效率和仿真準(zhǔn)確性后,本專利采用下式更新Q值:
Qt+1(st,at)=Rt+1+0.8×max Qt(st+1,at+1) (8)
其中,
Qt+1(st,at)為t+1時刻對應(yīng)的Q值;
Qt(st+1,at+1)為t時刻對應(yīng)的Q值;
Rt+1為t+1時刻對應(yīng)的回報函數(shù)值。
更新Q值后進入下一個學(xué)習(xí)時間步,循環(huán)上述過程直到Q值收斂,則每個狀態(tài)下最大Q值對應(yīng)的動作即為最優(yōu)控制方法。
第四步是采用第三步中得到的各狀態(tài)及其最大Q值對應(yīng)的動作組進行可變限速控制,基于當(dāng)前交通流檢測器采集到的5分鐘的平均交通流密度判斷單簽交通流狀態(tài),采用智能體實時選擇當(dāng)前交通流狀態(tài)下的最優(yōu)限速值,將最優(yōu)限速值傳遞至瓶頸上游可變限速控制指示牌發(fā)布限速值。
第五步是繼續(xù)實時采集發(fā)布最優(yōu)限速值后的交通流數(shù)據(jù)和限速值并傳回控制系統(tǒng),智能體依據(jù)新的交通流數(shù)據(jù)和限速值重復(fù)上述第二步到第四步持續(xù)學(xué)習(xí)最優(yōu)控制方法。
下面結(jié)合附圖對發(fā)明的可變限速控制方法進行了實例演示:
假設(shè)某一快速道路孤立瓶頸路段如圖4所示,圖中檢測器2處為一處孤立瓶頸,瓶頸路段下游、上游和上上游分別設(shè)置了檢測器1、3和4,在瓶頸路段檢測器3處設(shè)置了可變限速控制指示牌。假設(shè)該路段一周內(nèi)交通流檢測器檢測到的歷史交通流數(shù)據(jù)如圖5所示,則關(guān)鍵密度為30veh/m/ln左右。狀態(tài)集中元素為包含路段2、3、4上交通流狀態(tài)的狀態(tài)向量,記為S(s2,s3,s4),動作集中元素為{20mph,25mph,30mph,35mph,40mph,45mph,50mph,55mph,60mph,65mph}。
將圖5中的歷史交通流數(shù)據(jù)庫用于訓(xùn)練智能體,通過強化學(xué)習(xí)得到路段2、3、4上不同交通流狀態(tài)排列組合得到的所有狀態(tài)向量S對應(yīng)的動作集中的最佳限速值。判斷檢測器2、3、4實時檢測到的交通流數(shù)據(jù)對應(yīng)的交通流狀態(tài)s2,s3和s4,找到狀態(tài)向量S(s2,s3,s4)對應(yīng)的最優(yōu)限速值為v,將v值傳遞至檢測器2處的可變限速控制指示牌并發(fā)布信息“當(dāng)前限速值為v,請小心駕駛”。同時,將當(dāng)前時刻的最優(yōu)可變限速值v和交通流狀態(tài)S傳回控制系統(tǒng)添加至訓(xùn)練數(shù)據(jù)庫中。
在高交通需求條件下,無控制狀態(tài)和采用上述基于強化學(xué)習(xí)算法的可變限速控制下的交通流速度變化如圖6所示。由圖可以看出,無控條件下在孤立瓶頸路段生成擁堵后,隊尾車輛需從自由流速度速降至擁堵車速;而基于強化學(xué)習(xí)算法的可變限速控制使擁堵尾部的交通流速度逐步下降,平滑了交通流運行,有效降低了追尾事故的發(fā)生。