本技術(shù)涉及機器學(xué)習(xí)技術(shù),具體地,涉及利用基于基于分層強化學(xué)習(xí)的城市交通狀態(tài)建模方法、交通信號控制方法及其信息處理設(shè)備。
背景技術(shù):
1、隨著交通需求的不斷增加,提高現(xiàn)有交通基礎(chǔ)設(shè)施的效率以減少城市擁堵和廢氣排放是至關(guān)重要的。其中,實時自適應(yīng)交通信號就是提高我國城市交通網(wǎng)絡(luò)效率的主要工具之一。然而,由于交通系統(tǒng)的復(fù)雜性和隨機性,交通信號控制(tsc,traffic?signalcontrol)仍然是一項具有挑戰(zhàn)性的任務(wù)。
2、傳統(tǒng)的交通信號控制tsc方法,如韋伯斯特在1958年引入的固定時間信號控制[https://trid.trb.org/view/113579],已經(jīng)表明在適應(yīng)動態(tài)交通條件的限制。因此,研究人員提出了各種自適應(yīng)交通信號控制tsc方法,如scoot[https://trid.trb.org/view/179439]、scats[https://trid.trb.org/vie?w/488852]和自組織交通燈(sotl)[https://arxiv.org/abs/nlin/0411066]。基于最大壓力(mp)[https://www.sciencedirect.com/science/article/abs/pii/s0968090x13001782]和有效壓力(efficient?pressure,ep)[https://arxiv.org/abs/2112.02336]的tsc方法分別針對車輛排隊長度和排壓。近年來,基于強化學(xué)習(xí)(reinforcement?learning,rl)的方法已經(jīng)成為tsc應(yīng)用的一個有前途的趨勢。強化學(xué)習(xí)中,將交通信號優(yōu)化問題表述為馬爾可夫決策過程(markov?decisionprocess,mdp),其中,s代表道路狀態(tài)集合,a代表交通信號控制動作集合,r代表獎勵。交通信號控制智能體決定在給定狀態(tài)s∈s,采取的對交通信號的控制行為a∈a,以實現(xiàn)預(yù)期獎勵最大。交通信號控制智能體是例如交通紅綠燈控制設(shè)備或控制系統(tǒng)。而frap[https://dl.acm.org/doi/10.1145/3357384.3357900]采用相位競爭原則,preslight[https://dl.acm.org/doi/10.1145/3292500.3330949]通過利用基于mp的狀態(tài)表示和獎勵函數(shù)實現(xiàn)吞吐量最大化。colight[https://dl.acm.org/doi/10.1145/3357384.3357902]利用圖形注意神經(jīng)網(wǎng)絡(luò),metalight通過元強化學(xué)習(xí)技術(shù)提高學(xué)習(xí)效率。優(yōu)化獎勵函數(shù)和狀態(tài)表示是tsc應(yīng)用中rl模型的關(guān)鍵。advance?d-mp[https://proceedings.mlr.press/v162/zhang22ah.html]算法考慮了運動車輛和排隊車輛之間的競爭,dynamiclight[https://arxiv.org/abs/2211.01025]利用最大隊列長度進行相位選擇,并實現(xiàn)了深度q學(xué)習(xí)來確定相位持續(xù)時間。
3、復(fù)雜系統(tǒng)普遍存在于自然界和社會中,其特征在于組件之間存在非線性和動態(tài)的相互作用,從而導(dǎo)致涌現(xiàn)現(xiàn)象(emergent?phenomenon)。理解復(fù)雜系統(tǒng)提出了一個跨越多個學(xué)科的基礎(chǔ)挑戰(zhàn),包括物理學(xué)、生物學(xué)、經(jīng)濟學(xué)和社會科學(xué)。wolfram引入了一種通過元胞自動機(cellular?automata,ca)理解復(fù)雜系統(tǒng)的新范式[https://www.wolfram-media.com/products/nks/],在不同的科學(xué)領(lǐng)域貢獻了大量的發(fā)現(xiàn)和見解。米切爾提供了復(fù)雜性科學(xué)的概述[https://www.researchgate.net/publication/258447899_complexity_a_guided_tour],包括各種主題,如進化、計算和人工智能。tsc是一個受交通需求、信號配時、駕駛員行為等多種因素影響的復(fù)雜系統(tǒng)。為了解決tsc的復(fù)雜性,研究人員提出了基于復(fù)雜性科學(xué)的各種建模和優(yōu)化技術(shù),如網(wǎng)絡(luò)理論、細胞自動機和群體智能。
4、分層強化學(xué)習(xí)(hierarchical?rl,hrl)旨在通過將復(fù)雜問題組織成分層結(jié)構(gòu)來簡化它們。它有廣泛的應(yīng)用,例如教機器人學(xué)復(fù)雜的任務(wù),如對象操作和通過可管理的子任務(wù)導(dǎo)航[https://proceedings.neur?ips.cc/paper/2016/file/f442d33fa06832082290ad8544a8da27-paper.pdf]。hrl還通過分層地組織諸如變道、避障和路徑規(guī)劃等任務(wù)來改善車輛的自主決策。在視頻游戲中,hrl用于開發(fā)通過學(xué)習(xí)諸如導(dǎo)航、資源管理和戰(zhàn)斗策略等子任務(wù)來掌控游戲的智能代理。它還通過在例如句子解析和文檔摘要的語言任務(wù)中建立層次結(jié)構(gòu)來增強自然語言處理。
技術(shù)實現(xiàn)思路
1、本發(fā)明介紹了一種用于建模復(fù)雜系統(tǒng)的“rules-data-ml”范式,并在此范式和hrl的基礎(chǔ)上,提出了精確建模用于基于rl的tsc的道路交叉口狀態(tài)的方法。本發(fā)明提供的方法揭示了管理城市交通運行的特殊規(guī)則和狀態(tài),從而提高了tsc方法的性能,特別是基于rl的最先進(sota)成果的性能。此外,本發(fā)明的范例展示了在其他基于rl的任務(wù)中泛化的潛力。
2、本發(fā)明引入了一個新的“rules-data-ml”范式到交通信號控制領(lǐng)域,解決了如何建?,F(xiàn)實世界交通系統(tǒng)中道路交叉口的復(fù)雜且動態(tài)的狀態(tài)的問題。本發(fā)明的方法結(jié)合了機器學(xué)習(xí),特別是經(jīng)典的強化學(xué)習(xí)方法,來精確地建模交通路口的狀態(tài)。這種方法不僅改善了現(xiàn)有的交通信號控制(tsc)方法的性能,而且增強了最先進的(sota)強化學(xué)習(xí)模型。本技術(shù)的優(yōu)勢在于可量化的道路交叉口的狀態(tài)模型。本發(fā)明的實施例中已經(jīng)通過實驗數(shù)據(jù)證明這是有效的和健壯的。本發(fā)明的模式有潛力應(yīng)用于交通控制系統(tǒng)之外的其他領(lǐng)域,為涉及強化學(xué)習(xí)的復(fù)雜任務(wù)處理提供通用的技術(shù)方案。本技術(shù)的實施例,加上有希望的數(shù)值結(jié)果,有希望優(yōu)化交通信號控制系統(tǒng)和更廣泛的機器學(xué)習(xí)應(yīng)用。期望本發(fā)明提出的范例、代碼和數(shù)據(jù)可以用于這些領(lǐng)域和其他領(lǐng)域的進一步探索。
3、本發(fā)明還進一步發(fā)展了基于“rules-data-ml”范式的可量化交通狀態(tài)(quantizable?traffic?stat?e,qts)表示的分層強化學(xué)習(xí)(hrl)框架。最后,本發(fā)明還提供了一種交通信號控制方法,它利用qts來實現(xiàn)性能改進。
4、根據(jù)本技術(shù)的第一方面,提供了第一基于分層強化學(xué)習(xí)hrl的道路交叉口交通信號控制方法,包括:獲取道路交叉口的第一交通狀態(tài),其中第一交通狀態(tài)包括多個元素;根據(jù)所述第一交通狀態(tài)生成第一多個權(quán)重,每個權(quán)重與所述第一交通狀態(tài)的多個元素的每個對應(yīng);根據(jù)所述第一多個權(quán)重與所述多個元素生成第一可量化交通狀態(tài)qts;
5、根據(jù)所述第一可量化交通狀態(tài)qts生成用于所述道路交叉口的交通信號相位;其中包括深度q網(wǎng)絡(luò)的狀態(tài)智能體用于根據(jù)所述第一交通狀態(tài)生成第一多個權(quán)重以及第一可量化交通狀態(tài)qts;包括強化學(xué)習(xí)模塊的交通智能體用于根據(jù)所述第一可量化交通狀態(tài)qts生成用于所述道路交叉口的第一交通信號相位;所述狀態(tài)智能體和所述交通智能體分別是分層強化學(xué)習(xí)hrl中的相對高層級代理和相對低層級代理;其中,為訓(xùn)練所述深度q網(wǎng)絡(luò),執(zhí)行下列步驟s1到步驟s7;步驟s1,從交通環(huán)境獲取代表第二交通狀態(tài)的多個元素作為所述深度q網(wǎng)絡(luò)的狀態(tài)s;基于使所述深度q網(wǎng)絡(luò)的q值最大化來根據(jù)狀態(tài)s產(chǎn)生第二多個權(quán)重作為所述深度q網(wǎng)絡(luò)的行為a:步驟s2,根據(jù)第二交通狀態(tài)的多個元素與所述第二多個權(quán)重生成第二可量化交通狀態(tài)qts提供給交通智能體;步驟s3,交通智能體根據(jù)第二可量化交通狀態(tài)qts實施交通信號控制;步驟s4,收集交通智能體控制下交通環(huán)境的平均通行時間att,根據(jù)平均通行時間att計算用于訓(xùn)練所述深度q網(wǎng)絡(luò)的獎勵r;步驟s5,收集交通智能體控制下交通環(huán)境中代表第二交通狀態(tài)的新值的多個元素作為所述深度q網(wǎng)絡(luò)更新后的狀態(tài)s’;步驟s6,使用所述狀態(tài)s、所述行為a、所述獎勵r和所述狀態(tài)s’生成訓(xùn)練數(shù)據(jù);以及步驟s7,從所述訓(xùn)練數(shù)據(jù)來訓(xùn)練所述深度q網(wǎng)絡(luò)。
6、根據(jù)本技術(shù)的第一方面,提供了第二基于分層強化學(xué)習(xí)hrl的道路交叉口交通信號控制方法,其中,所述步驟s3中,交通智能體利用多種交通信號控制方法在多個交通環(huán)境中生成交通信號相位,其中所述多種交通信號控制方法與所述多個交通環(huán)境一一對應(yīng),所述多種交通信號控制方法各自都根據(jù)所述第二可量化交通狀態(tài)qts生成交通信號相位;以及所述步驟s4中,累積根據(jù)所述多個交通環(huán)境的每個中的平均通行時間att得到的獎勵,作為用于訓(xùn)練所述深度q網(wǎng)絡(luò)的獎勵r。
7、根據(jù)本技術(shù)的第一方面,提供了第三基于分層強化學(xué)習(xí)hrl的道路交叉口交通信號控制方法,還包括:對經(jīng)過訓(xùn)練的所述深度q網(wǎng)絡(luò)再次進行訓(xùn)練;其中其中,為再次訓(xùn)練所述深度q網(wǎng)絡(luò),再次執(zhí)行所述步驟s1到所述步驟s7;再次執(zhí)行所述步驟s3時,交通智能體利用第一交通信號控制方法在對應(yīng)的交通環(huán)境中生成交通信號相位,所述第一交通信號控制方法根據(jù)包括經(jīng)過訓(xùn)練的所述深度q網(wǎng)絡(luò)的狀態(tài)智能體生成的所述第二可量化交通狀態(tài)qts生成交通信號相位;以及再次執(zhí)行所述步驟s4時,收集與所述第一交通信號控制方法對應(yīng)的交通環(huán)境中的平均通行時間(att),計算用于訓(xùn)練所述深度q網(wǎng)絡(luò)的獎勵r。
8、根據(jù)本技術(shù)的第一方面,提供了第四基于分層強化學(xué)習(xí)hrl的道路交叉口交通信號控制方法,其中,所述第一交通狀態(tài)的所述多個元素包括有效壓力ep、通過需求pd和局部范圍pr。
9、根據(jù)本技術(shù)的第一方面,提供了第五基于分層強化學(xué)習(xí)hrl的道路交叉口交通信號控制方法,其中,根據(jù)qts=f(αep,βpd)γpr計算所述第一可量化交通狀態(tài)qts與所述第二可量化交通狀態(tài)qts;其中α表示對應(yīng)有效壓力ep的權(quán)重,β表示對應(yīng)通過需求pd的權(quán)重,γ表示對應(yīng)局部范圍pr的權(quán)重;f表示嵌入函數(shù),用于對由αep、βpd、γpr表達的道路交叉口狀態(tài)進行狀態(tài)嵌入;在所述步驟s4,根據(jù)計算所述獎勵r,其中表示作為對比的基準(zhǔn)平均通行時間。
10、根據(jù)本技術(shù)的第一方面,提供了第六基于分層強化學(xué)習(xí)hrl的道路交叉口交通信號控制方法,其中,所述第一交通狀態(tài)的所述多個元素包括有效壓力ep、通過需求pd和局部范圍pr;根據(jù)qts=f(αep,βpd)γpr計算所述第一可量化交通狀態(tài)qts與所述第二可量化交通狀態(tài)qts;其中α表示對應(yīng)有效壓力ep的權(quán)重,β表示對應(yīng)通過需求pd的權(quán)重,γ表示對應(yīng)局部范圍pr的權(quán)重;f表示嵌入函數(shù),用于對由αep、βpd、γpr表達的道路交叉口狀態(tài)進行狀態(tài)嵌入;在所述步驟s4,根據(jù)r=∑rj,以及計算所述獎勵r,其中j代表所述多種交通信號控制方法中的第j種交通控制方法,n代表所述多種交通信號控制方法的種類數(shù),表示作為對比的第j種交通控制方法的基準(zhǔn)平均通行時間。
11、根據(jù)本技術(shù)的第一方面,提供了第七基于分層強化學(xué)習(xí)hrl的道路交叉口交通信號控制方法,其中,所述多種交通信號控制方法包括基于強化學(xué)習(xí)的交通信號控制方法。
12、根據(jù)本技術(shù)的第一方面,提供了第八基于分層強化學(xué)習(xí)hrl的道路交叉口交通信號控制方法,其中所述步驟s3到所述步驟s6被重復(fù)執(zhí)行多次,以得到多個四元組(s,a,r,s’)來生成訓(xùn)練數(shù)據(jù);以及所述步驟s1到所述步驟s7被重復(fù)執(zhí)行多次,以多次訓(xùn)練所述深度q網(wǎng)絡(luò)。
13、根據(jù)本技術(shù)的第二方面,提供了根據(jù)本技術(shù)第二方面的信息處理設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的程序,其特征在于,所述處理器執(zhí)行所述程序時實現(xiàn)根據(jù)本技術(shù)第一方面的道路交叉口交通信號控制方法。