本發(fā)明涉及一種單交叉口信號燈時間控制方法及系統(tǒng),屬于交通運輸控制
技術領域:
。
背景技術:
:目前,很多城市深受交通擁堵的困擾,如何構建一個高效率的交通運輸系統(tǒng)成為城市建設的頭等大事。許多已充分開發(fā)的城市幾乎不能拓展交通道路,即在空間上已經(jīng)沒有可發(fā)展的空間,故交通理論很多方法都從時間上進行了研究,即提出了很多交通信號控制理論算法。文獻《Trafficlightcontrolinnon-stationaryenvironmentbasedonmultiagentQ-learning》(下文簡稱Adboosd的方法)提供了一種單交叉口信號燈時間控制方法,該控制方法將單交叉口的四個來車方向分為24種不同的車輛排隊狀態(tài),如表1所示,但是,表中24種狀態(tài)并沒有區(qū)分l1>l2>l3>l4、l1=l2=l3=l4和l1=l2=l3>l4等情況,而這些情況可能對交通網(wǎng)絡造成不同的影響。另外,每種車輛排隊狀態(tài)中不同的排隊車輛數(shù)也會對交通網(wǎng)絡造成不同的影響,例如,若li(i=1,2,3,4)表示第i個車道車輛排隊長度,則(l1:4,l2:5,l3:2,l4:3)和(l1:40,l2:50,l3:20,l4:30)同屬于l2≥l1≥l4≥l3交通狀態(tài),顯然這種狀態(tài)不能選擇相同的綠燈時間。表1顯然這種方式?jīng)]有考慮到每種車輛排隊狀態(tài)中不同的排隊車輛數(shù)也會對交通網(wǎng)絡造成不同的影響,導致的信號燈時間段控制與實際交通狀況不符合,綠燈時間分配不科學,影響通行效率。技術實現(xiàn)要素:本發(fā)明的目的是提供一種單交叉口信號燈時間控制方法,以解決目前信號燈時間控制中沒有考慮排隊車輛數(shù)導致對信號燈控制不科學的問題。同時,本發(fā)明還提供了一種單交叉口信號燈時間控制系統(tǒng)。本發(fā)明為解決上述技術問題而提供一種單交叉口信號燈時間控制方法,該控制方法的步驟如下:1)按照單交叉口四個來車方向和每種車輛排隊狀態(tài)中不同的排隊車輛數(shù)將車輛排隊狀態(tài)分為nk種,n為車輛排隊長度的種類,k為單交叉口的車道數(shù);2)以交通信號相位個數(shù)、每個相位的最小時間、綠燈增加的時間段數(shù)和每段時間的長度作為交通行為;3)根據(jù)所劃分的車輛排隊狀態(tài)和確定的交通行為采用Q學習法進行學習,Q(s,a)←Q(s,a)+α[μ+γmaxa'Q(s',a')-Q(s,a)]s←s′其中α為學習速率,γ為折扣因子,s為目前的交通狀態(tài)即車輛排隊狀態(tài),a為某一交通行為,μ為補償值,s'為下一個狀態(tài),a'為下一個交通行為。進一步地,所述的補償值μ是當前信號周期通過交叉口車輛數(shù)與周期結束時交叉口排隊的車輛數(shù)的差值,當通過交叉口的車輛數(shù)大于排隊的車輛數(shù)時,補償值為正值;當通過交叉口的車輛數(shù)大于排隊的車輛數(shù)時補償值為負值。進一步地,交叉口的周期長度δ為:δ=nph×tmin+nex×hex其中nph表示交通信號相位的個數(shù),tmin表示每個相位的最小時間,nex表示綠燈增加的時間段數(shù),hex表示每段時間的長度。進一步地,所述交叉口的周期長度δ可調(diào),周期長度δ通過調(diào)整綠燈增加的時間段數(shù)nex和每段時間長度hex來實現(xiàn)調(diào)整。本發(fā)明還提供了一種單交叉口信號燈時間控制系統(tǒng),該控制系統(tǒng)包括車輛排隊狀態(tài)劃分模塊、交通行為構建模塊和Q學習迭代模塊,所述的車輛排隊狀態(tài)劃分模塊用于按照單交叉口四個來車方向和每種車輛排隊狀態(tài)中不同的排隊車輛數(shù)將車輛排隊狀態(tài)分為nk種,n為車輛排隊長度的種類,k為單交叉口的車道數(shù);所述的交通行為構建模塊用于以交通信號相位個數(shù)、每個相位的最小時間、綠燈增加的時間段數(shù)和每段時間的長度作為交通行為;所述的Q學習迭代模塊用于根據(jù)所劃分的車輛排隊狀態(tài)和確定的交通行為采用Q學習法進行學習,Q(s,a)←Q(s,a)+α[μ+γmaxa'Q(s',a')-Q(s,a)]s←s′其中α為學習速率,γ為折扣因子,s為目前的交通狀態(tài)即車輛排隊狀態(tài),a為某一交通行為,μ為補償值,s'為下一個狀態(tài),a'為下一個交通行為。進一步地,所述的補償值μ是當前信號周期通過交叉口車輛數(shù)與周期結束時交叉口排隊的車輛數(shù)的差值,當通過交叉口的車輛數(shù)大于排隊的車輛數(shù)時,補償值為正值;當通過交叉口的車輛數(shù)大于排隊的車輛數(shù)時補償值為負值。進一步地,交叉口的周期長度δ為:δ=nph×tmin+nex×hex其中nph表示交通信號相位的個數(shù),tmin表示每個相位的最小時間,nex表示綠燈增加的時間段數(shù),hex表示每段時間的長度。進一步地,所述交叉口的周期長度δ可調(diào),周期長度δ通過調(diào)整綠燈增加的時間段數(shù)nex和每段時間長度hex來實現(xiàn)調(diào)整。本發(fā)明的有益效果是:本發(fā)明按照單交叉口四個來車方向和每種車輛排隊狀態(tài)中不同的排隊車輛數(shù)將車輛排隊狀態(tài)分為nk種,n為車輛排隊長度的種類,k為單交叉口的車道數(shù);以交通信號相位個數(shù)、每個相位的最小時間、綠燈增加的時間段數(shù)和每段時間的長度作為交通行為;根據(jù)所劃分的車輛排隊狀態(tài)和確定的交通行為采用Q學習法進行學習。本發(fā)明通過改變狀態(tài)空間的定義,將車輛排隊狀態(tài)劃分的與交叉口的實際情況更加吻合,使得綠燈時間的分配更加科學。此外,本發(fā)明根據(jù)某一交通信息的正面和負面影響,對綠燈時間進行補償,當通過交叉口的車輛數(shù)大于排隊的車輛數(shù)時,補償值為正值;當通過交叉口的車輛數(shù)大于排隊的車輛數(shù)時補償值為負值;此外本發(fā)明還避免了固定周期的限制,使得單交叉口信號時間的控制更加靈活。附圖說明圖1是具有四個相位的單交叉口示意圖;圖2是仿真試驗的結果比較圖。具體實施方式下面結合附圖對本發(fā)明的具體實施方式做進一步的說明。本發(fā)明一種單交叉口信號燈時間控制方法的實施例本發(fā)明針對單交叉口交通擁堵的情況,提出一種單交叉口信號燈時間控制方法,以解決目前信號燈時間控制中沒有考慮排隊車輛數(shù)導致對信號燈控制不科學的問題。1.按照單交叉口四個來車方向和每種車輛排隊狀態(tài)中不同的排隊車輛數(shù)將車輛排隊狀態(tài)分為nk種,n為車輛排隊長度的種類,k為單交叉口的車道數(shù)。本實施例中的針對的單交叉口如圖1所示,Z1、Z2、Z3和Z4是車輛進入并通過交叉口的區(qū)域,A、B、C和D是一個信號周期內(nèi)的四個相位,將不同的排隊長度分為較小,中等和較大三類,若單交叉口有k個車道,則理論上將有3k種不同的車輛排隊狀態(tài),當k=4時,共有81種狀態(tài),遠遠多于表1中的24種狀態(tài),與實際的交通狀況更加符合。2.以交通信號相位個數(shù)、每個相位的最小時間、綠燈增加的時間段數(shù)和每段時間的長度作為交通行為。交通行為包括<nph,tmin,nex,hex>,其中nph表示交通信號相位個數(shù),本實施例中的交通信號相位個數(shù)為4,tmin表示每個相位的最小時間,nex表示綠燈增加的時間段數(shù),hex表示每段時間的長度,交叉口的一個周期長度δ為:δ=nph×tmin+nex×hex3.采用Q學習法對信號燈時間進行控制Q學習算法是動態(tài)規(guī)劃的有關理論及動物學習心理學的有力相互結合,以求解具有延遲回報的序貫優(yōu)化決策問題為目標,該法是根據(jù)TD算法對Markov決策過程的行為值函數(shù)進行迭代運算,具體的公式如下:Q(s,a)←Q(s,a)+α[μ+γmaxa'Q(s',a')-Q(s,a)]s←s′其中s表示狀態(tài),a表示動作,Q(s,a)表示對狀態(tài)s下動作a得到的總體回報的一個估計,α為學習速率,μ為補償值,s'為下一個狀態(tài),a'為下一個動作。該算法的迭代過程如下:1.對每個s,a初始化表項Q(s,a)為0;2.觀察當前狀態(tài)s;3.一直重復做:選擇一個動作a并執(zhí)行它,該動作為使Q(s,a)最大的a,接收到立即回報r,觀察新狀態(tài)s',對Q(s′,a′)按照下式更新表項:Q(s,a)對于本發(fā)明而言,這里的動作a表示一個交通行為,s為目前的交通狀態(tài)即車輛排隊狀態(tài),a為某一交通行為,μ為補償值,s'為下一個交通狀態(tài),a'為下一個交通行為。通過上述算法,本發(fā)明能夠快速、精準的實現(xiàn)對單交叉口信號燈時間的控制。在Q學習迭代過程中,現(xiàn)有方法中的補償值μ與車輛排隊長度成反比,μ歸一化后的范圍為[0,1],故每次補償值都為正值,在迭代的過程中,時延將會累計增大??紤]車輛數(shù)在整個信號周期中的分布情況,本發(fā)明根據(jù)到達交叉口的車輛數(shù)設置迭代的補償值μ,該補償值是當前信號周期通過交叉口車輛數(shù)與周期結束時交叉口排隊的車輛數(shù)的差值,當通過交叉口的車輛數(shù)大于排隊的車輛數(shù)時,補償值為正值;當通過交叉口的車輛數(shù)大于排隊的車輛數(shù)時補償值為負值,即交叉口的綠燈時間不足以讓一個信號周期的到達車輛通過該交叉口。為了避免固定周期的限制,使得單交叉口信號時間的控制更加靈活,本發(fā)明中的交叉口的一個周期長度δ可自主調(diào)整,具體地,周期長度δ通過調(diào)整綠燈增加的時間段數(shù)nex和每段時間長度hex來實現(xiàn)調(diào)整。本發(fā)明一種單交叉口信號燈時間控制系統(tǒng)的實施例本實施例中的控制系統(tǒng)包括車輛排隊狀態(tài)劃分模塊、交通行為構建模塊和Q學習迭代模塊,車輛排隊狀態(tài)劃分模塊用于按照單交叉口四個來車方向和每種車輛排隊狀態(tài)中不同的排隊車輛數(shù)將車輛排隊狀態(tài)分為nk種,n為車輛排隊長度的種類,k為單交叉口的車道數(shù);交通行為構建模塊用于以交通信號相位個數(shù)、每個相位的最小時間、綠燈增加的時間段數(shù)和每段時間的長度作為交通行為;Q學習迭代模塊用于根據(jù)所劃分的車輛排隊狀態(tài)和確定的交通行為采用Q學習法進行學習,Q(s,a)←Q(s,a)+α[μ+γmaxa'Q(s',a')-Q(s,a)]s←s′其中α為學習速率,γ為折扣因子,s為目前的交通狀態(tài)即車輛排隊狀態(tài),a為某一交通行為,μ為補償值,s'為下一個狀態(tài),a'為下一個交通行為。各模塊的具體實現(xiàn)手段已在方法的實施例中進行了詳細說明,這里不再贅述。為了進一步證明本發(fā)明的效果,下面進行仿真實驗,本次仿真實驗采用ParamicsV6和MATLAB軟件進行仿真,仿真條件如表2所示,通過交叉口的車輛總數(shù)為4800輛,共計時間為10個小時,每個相位的綠燈時間設定{15,25,35},各相位根據(jù)車流量情況選擇不同的綠燈時間,設定信號的周期長度是可變的,信號周期長度即為所有相位綠燈時間之和再加8秒,8秒是四個相位的黃燈時間。表2Z1Z2Z3Z4TotalZ1120080002000Z23000200500Z3010002001200Z450006001100Total800220014004004800仿真結果如圖2所示,Abdoos的方法和本發(fā)明方法累計的平均延誤時間分別為48655秒和35235秒,圖2中結果表明,本發(fā)明比Abdoos的方法的單交叉口通行效率提高了27.6%,具有更好的信號控制效果。本發(fā)明使用人工智能學習模式來模擬單交叉口的車輛通行狀況,利用實時的車流量信息計算各個路口的綠燈時間,相比之前的單交叉口信號控制算法,本發(fā)明中交通狀態(tài)的劃分更加符合實際交通狀況,本發(fā)明對綠燈方向進入交叉口的車輛和紅燈方向排隊車輛的平均誤差進行了補償和反饋,從而最小化交叉口信號周期的車輛延誤時間,最大程度地增大單交叉口的通行效率。當前第1頁1 2 3