HierarchicalLight:基于分層強化學(xué)習(xí)的城市交通狀態(tài)建模方法以及交通信號控制方法與流程

文檔序號：40604351發(fā)布日期：2025-01-07 20:45閱讀：9來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>信號裝置的制造及其應(yīng)用技術(shù)

HierarchicalLight:基于分層強化學(xué)習(xí)的城市交通狀態(tài)建模方法以及交通信號控制方法與流程

本技術(shù)涉及機器學(xué)習(xí)技術(shù)，具體地，涉及利用基于基于分層強化學(xué)習(xí)的城市交通狀態(tài)建模方法、交通信號控制方法及其信息處理設(shè)備。

背景技術(shù)：

1、隨著交通需求的不斷增加，提高現(xiàn)有交通基礎(chǔ)設(shè)施的效率以減少城市擁堵和廢氣排放是至關(guān)重要的。其中，實時自適應(yīng)交通信號就是提高我國城市交通網(wǎng)絡(luò)效率的主要工具之一。然而，由于交通系統(tǒng)的復(fù)雜性和隨機性，交通信號控制(tsc，traffic?signalcontrol)仍然是一項具有挑戰(zhàn)性的任務(wù)。

2、傳統(tǒng)的交通信號控制tsc方法，如韋伯斯特在1958年引入的固定時間信號控制[https：//trid.trb.org/view/113579]，已經(jīng)表明在適應(yīng)動態(tài)交通條件的限制。因此，研究人員提出了各種自適應(yīng)交通信號控制tsc方法，如scoot[https：//trid.trb.org/view/179439]、scats[https：//trid.trb.org/vie?w/488852]和自組織交通燈(sotl)[https：//arxiv.org/abs/nlin/0411066]。基于最大壓力(mp)[https：//www.sciencedirect.com/science/article/abs/pii/s0968090x13001782]和有效壓力(efficient?pressure，ep)[https：//arxiv.org/abs/2112.02336]的tsc方法分別針對車輛排隊長度和排壓。近年來，基于強化學(xué)習(xí)(reinforcement?learning，rl)的方法已經(jīng)成為tsc應(yīng)用的一個有前途的趨勢。強化學(xué)習(xí)中，將交通信號優(yōu)化問題表述為馬爾可夫決策過程(markov?decisionprocess，mdp)，其中，s代表道路狀態(tài)集合，a代表交通信號控制動作集合，r代表獎勵。交通信號控制智能體決定在給定狀態(tài)s∈s，采取的對交通信號的控制行為a∈a，以實現(xiàn)預(yù)期獎勵最大。交通信號控制智能體是例如交通紅綠燈控制設(shè)備或控制系統(tǒng)。而frap[https：//dl.acm.org/doi/10.1145/3357384.3357900]采用相位競爭原則，preslight[https：//dl.acm.org/doi/10.1145/3292500.3330949]通過利用基于mp的狀態(tài)表示和獎勵函數(shù)實現(xiàn)吞吐量最大化。colight[https：//dl.acm.org/doi/10.1145/3357384.3357902]利用圖形注意神經(jīng)網(wǎng)絡(luò)，metalight通過元強化學(xué)習(xí)技術(shù)提高學(xué)習(xí)效率。優(yōu)化獎勵函數(shù)和狀態(tài)表示是tsc應(yīng)用中rl模型的關(guān)鍵。advance?d-mp[https：//proceedings.mlr.press/v162/zhang22ah.html]算法考慮了運動車輛和排隊車輛之間的競爭，dynamiclight[https：//arxiv.org/abs/2211.01025]利用最大隊列長度進行相位選擇，并實現(xiàn)了深度q學(xué)習(xí)來確定相位持續(xù)時間。

3、復(fù)雜系統(tǒng)普遍存在于自然界和社會中，其特征在于組件之間存在非線性和動態(tài)的相互作用，從而導(dǎo)致涌現(xiàn)現(xiàn)象(emergent?phenomenon)。理解復(fù)雜系統(tǒng)提出了一個跨越多個學(xué)科的基礎(chǔ)挑戰(zhàn)，包括物理學(xué)、生物學(xué)、經(jīng)濟學(xué)和社會科學(xué)。wolfram引入了一種通過元胞自動機(cellular?automata，ca)理解復(fù)雜系統(tǒng)的新范式[https：//www.wolfram-media.com/products/nks/]，在不同的科學(xué)領(lǐng)域貢獻了大量的發(fā)現(xiàn)和見解。米切爾提供了復(fù)雜性科學(xué)的概述[https：//www.researchgate.net/publication/258447899_complexity_a_guided_tour]，包括各種主題，如進化、計算和人工智能。tsc是一個受交通需求、信號配時、駕駛員行為等多種因素影響的復(fù)雜系統(tǒng)。為了解決tsc的復(fù)雜性，研究人員提出了基于復(fù)雜性科學(xué)的各種建模和優(yōu)化技術(shù)，如網(wǎng)絡(luò)理論、細胞自動機和群體智能。

4、分層強化學(xué)習(xí)(hierarchical?rl，hrl)旨在通過將復(fù)雜問題組織成分層結(jié)構(gòu)來簡化它們。它有廣泛的應(yīng)用，例如教機器人學(xué)復(fù)雜的任務(wù)，如對象操作和通過可管理的子任務(wù)導(dǎo)航[https：//proceedings.neur?ips.cc/paper/2016/file/f442d33fa06832082290ad8544a8da27-paper.pdf]。hrl還通過分層地組織諸如變道、避障和路徑規(guī)劃等任務(wù)來改善車輛的自主決策。在視頻游戲中，hrl用于開發(fā)通過學(xué)習(xí)諸如導(dǎo)航、資源管理和戰(zhàn)斗策略等子任務(wù)來掌控游戲的智能代理。它還通過在例如句子解析和文檔摘要的語言任務(wù)中建立層次結(jié)構(gòu)來增強自然語言處理。

技術(shù)實現(xiàn)思路

1、本發(fā)明介紹了一種用于建模復(fù)雜系統(tǒng)的“rules-data-ml”范式，并在此范式和hrl的基礎(chǔ)上，提出了精確建模用于基于rl的tsc的道路交叉口狀態(tài)的方法。本發(fā)明提供的方法揭示了管理城市交通運行的特殊規(guī)則和狀態(tài)，從而提高了tsc方法的性能，特別是基于rl的最先進(sota)成果的性能。此外，本發(fā)明的范例展示了在其他基于rl的任務(wù)中泛化的潛力。

2、本發(fā)明引入了一個新的“rules-data-ml”范式到交通信號控制領(lǐng)域，解決了如何建?，F(xiàn)實世界交通系統(tǒng)中道路交叉口的復(fù)雜且動態(tài)的狀態(tài)的問題。本發(fā)明的方法結(jié)合了機器學(xué)習(xí)，特別是經(jīng)典的強化學(xué)習(xí)方法，來精確地建模交通路口的狀態(tài)。這種方法不僅改善了現(xiàn)有的交通信號控制(tsc)方法的性能，而且增強了最先進的(sota)強化學(xué)習(xí)模型。本技術(shù)的優(yōu)勢在于可量化的道路交叉口的狀態(tài)模型。本發(fā)明的實施例中已經(jīng)通過實驗數(shù)據(jù)證明這是有效的和健壯的。本發(fā)明的模式有潛力應(yīng)用于交通控制系統(tǒng)之外的其他領(lǐng)域，為涉及強化學(xué)習(xí)的復(fù)雜任務(wù)處理提供通用的技術(shù)方案。本技術(shù)的實施例，加上有希望的數(shù)值結(jié)果，有希望優(yōu)化交通信號控制系統(tǒng)和更廣泛的機器學(xué)習(xí)應(yīng)用。期望本發(fā)明提出的范例、代碼和數(shù)據(jù)可以用于這些領(lǐng)域和其他領(lǐng)域的進一步探索。

3、本發(fā)明還進一步發(fā)展了基于“rules-data-ml”范式的可量化交通狀態(tài)(quantizable?traffic?stat?e，qts)表示的分層強化學(xué)習(xí)(hrl)框架。最后，本發(fā)明還提供了一種交通信號控制方法，它利用qts來實現(xiàn)性能改進。

4、根據(jù)本技術(shù)的第一方面，提供了第一基于分層強化學(xué)習(xí)hrl的道路交叉口交通信號控制方法，包括：獲取道路交叉口的第一交通狀態(tài)，其中第一交通狀態(tài)包括多個元素；根據(jù)所述第一交通狀態(tài)生成第一多個權(quán)重，每個權(quán)重與所述第一交通狀態(tài)的多個元素的每個對應(yīng)；根據(jù)所述第一多個權(quán)重與所述多個元素生成第一可量化交通狀態(tài)qts；

5、根據(jù)所述第一可量化交通狀態(tài)qts生成用于所述道路交叉口的交通信號相位；其中包括深度q網(wǎng)絡(luò)的狀態(tài)智能體用于根據(jù)所述第一交通狀態(tài)生成第一多個權(quán)重以及第一可量化交通狀態(tài)qts；包括強化學(xué)習(xí)模塊的交通智能體用于根據(jù)所述第一可量化交通狀態(tài)qts生成用于所述道路交叉口的第一交通信號相位；所述狀態(tài)智能體和所述交通智能體分別是分層強化學(xué)習(xí)hrl中的相對高層級代理和相對低層級代理；其中，為訓(xùn)練所述深度q網(wǎng)絡(luò)，執(zhí)行下列步驟s1到步驟s7；步驟s1，從交通環(huán)境獲取代表第二交通狀態(tài)的多個元素作為所述深度q網(wǎng)絡(luò)的狀態(tài)s；基于使所述深度q網(wǎng)絡(luò)的q值最大化來根據(jù)狀態(tài)s產(chǎn)生第二多個權(quán)重作為所述深度q網(wǎng)絡(luò)的行為a：步驟s2，根據(jù)第二交通狀態(tài)的多個元素與所述第二多個權(quán)重生成第二可量化交通狀態(tài)qts提供給交通智能體；步驟s3，交通智能體根據(jù)第二可量化交通狀態(tài)qts實施交通信號控制；步驟s4，收集交通智能體控制下交通環(huán)境的平均通行時間att，根據(jù)平均通行時間att計算用于訓(xùn)練所述深度q網(wǎng)絡(luò)的獎勵r；步驟s5，收集交通智能體控制下交通環(huán)境中代表第二交通狀態(tài)的新值的多個元素作為所述深度q網(wǎng)絡(luò)更新后的狀態(tài)s’；步驟s6，使用所述狀態(tài)s、所述行為a、所述獎勵r和所述狀態(tài)s’生成訓(xùn)練數(shù)據(jù)；以及步驟s7，從所述訓(xùn)練數(shù)據(jù)來訓(xùn)練所述深度q網(wǎng)絡(luò)。

6、根據(jù)本技術(shù)的第一方面，提供了第二基于分層強化學(xué)習(xí)hrl的道路交叉口交通信號控制方法，其中，所述步驟s3中，交通智能體利用多種交通信號控制方法在多個交通環(huán)境中生成交通信號相位，其中所述多種交通信號控制方法與所述多個交通環(huán)境一一對應(yīng)，所述多種交通信號控制方法各自都根據(jù)所述第二可量化交通狀態(tài)qts生成交通信號相位；以及所述步驟s4中，累積根據(jù)所述多個交通環(huán)境的每個中的平均通行時間att得到的獎勵，作為用于訓(xùn)練所述深度q網(wǎng)絡(luò)的獎勵r。

7、根據(jù)本技術(shù)的第一方面，提供了第三基于分層強化學(xué)習(xí)hrl的道路交叉口交通信號控制方法，還包括：對經(jīng)過訓(xùn)練的所述深度q網(wǎng)絡(luò)再次進行訓(xùn)練；其中其中，為再次訓(xùn)練所述深度q網(wǎng)絡(luò)，再次執(zhí)行所述步驟s1到所述步驟s7；再次執(zhí)行所述步驟s3時，交通智能體利用第一交通信號控制方法在對應(yīng)的交通環(huán)境中生成交通信號相位，所述第一交通信號控制方法根據(jù)包括經(jīng)過訓(xùn)練的所述深度q網(wǎng)絡(luò)的狀態(tài)智能體生成的所述第二可量化交通狀態(tài)qts生成交通信號相位；以及再次執(zhí)行所述步驟s4時，收集與所述第一交通信號控制方法對應(yīng)的交通環(huán)境中的平均通行時間(att)，計算用于訓(xùn)練所述深度q網(wǎng)絡(luò)的獎勵r。

8、根據(jù)本技術(shù)的第一方面，提供了第四基于分層強化學(xué)習(xí)hrl的道路交叉口交通信號控制方法，其中，所述第一交通狀態(tài)的所述多個元素包括有效壓力ep、通過需求pd和局部范圍pr。

9、根據(jù)本技術(shù)的第一方面，提供了第五基于分層強化學(xué)習(xí)hrl的道路交叉口交通信號控制方法，其中，根據(jù)qts＝f(αep,βpd)γpr計算所述第一可量化交通狀態(tài)qts與所述第二可量化交通狀態(tài)qts；其中α表示對應(yīng)有效壓力ep的權(quán)重，β表示對應(yīng)通過需求pd的權(quán)重，γ表示對應(yīng)局部范圍pr的權(quán)重；f表示嵌入函數(shù)，用于對由αep、βpd、γpr表達的道路交叉口狀態(tài)進行狀態(tài)嵌入；在所述步驟s4，根據(jù)計算所述獎勵r，其中表示作為對比的基準(zhǔn)平均通行時間。

10、根據(jù)本技術(shù)的第一方面，提供了第六基于分層強化學(xué)習(xí)hrl的道路交叉口交通信號控制方法，其中，所述第一交通狀態(tài)的所述多個元素包括有效壓力ep、通過需求pd和局部范圍pr；根據(jù)qts＝f(αep,βpd)γpr計算所述第一可量化交通狀態(tài)qts與所述第二可量化交通狀態(tài)qts；其中α表示對應(yīng)有效壓力ep的權(quán)重，β表示對應(yīng)通過需求pd的權(quán)重，γ表示對應(yīng)局部范圍pr的權(quán)重；f表示嵌入函數(shù)，用于對由αep、βpd、γpr表達的道路交叉口狀態(tài)進行狀態(tài)嵌入；在所述步驟s4，根據(jù)r＝∑rj，以及計算所述獎勵r，其中j代表所述多種交通信號控制方法中的第j種交通控制方法，n代表所述多種交通信號控制方法的種類數(shù)，表示作為對比的第j種交通控制方法的基準(zhǔn)平均通行時間。

11、根據(jù)本技術(shù)的第一方面，提供了第七基于分層強化學(xué)習(xí)hrl的道路交叉口交通信號控制方法，其中，所述多種交通信號控制方法包括基于強化學(xué)習(xí)的交通信號控制方法。

12、根據(jù)本技術(shù)的第一方面，提供了第八基于分層強化學(xué)習(xí)hrl的道路交叉口交通信號控制方法，其中所述步驟s3到所述步驟s6被重復(fù)執(zhí)行多次，以得到多個四元組(s，a，r，s’)來生成訓(xùn)練數(shù)據(jù)；以及所述步驟s1到所述步驟s7被重復(fù)執(zhí)行多次，以多次訓(xùn)練所述深度q網(wǎng)絡(luò)。

13、根據(jù)本技術(shù)的第二方面，提供了根據(jù)本技術(shù)第二方面的信息處理設(shè)備，包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的程序，其特征在于，所述處理器執(zhí)行所述程序時實現(xiàn)根據(jù)本技術(shù)第一方面的道路交叉口交通信號控制方法。

完整全部詳細技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：武強
技術(shù)所有人：北京小橙智算科技有限責(zé)任公司
我是此專利的發(fā)明人

上一篇：一種高密度干冰顆粒制造機的制作方法
上一篇：一種改良結(jié)構(gòu)的RCA座的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、王老師：1.機器人 2.嵌入式控制系統(tǒng)開發(fā)
2、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設(shè)計 2.汽車檢測系統(tǒng)設(shè)計 3.汽車電子控制系統(tǒng)設(shè)計
3、畢老師：機構(gòu)動力學(xué)與控制
4、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
5、周老師：1.智能機器人技術(shù) 2.智能檢測與控制技術(shù) 3.機構(gòu)運動學(xué)與動力學(xué) 4.機電一體化技術(shù)
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

HierarchicalLight:基于分層強化學(xué)習(xí)的城市交通狀態(tài)建模方法以及交通信號控制方法與流程