基于多智能體深度強化學(xué)習(xí)的交通信號控制方法

文檔序號：40582501發(fā)布日期：2025-01-07 20:22閱讀：8來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>信號裝置的制造及其應(yīng)用技術(shù)

本發(fā)明屬于智能交通，尤其涉及基于多智能體深度強化學(xué)習(xí)的交通信號控制方法。

背景技術(shù)：

1、隨著機動車數(shù)量逐年增加，超過了道路的承載能力，引起的交通擁堵已經(jīng)成為一個普遍存在且難以整治的問題。交通擁堵會降低人們的出行效率，造成環(huán)境污染和經(jīng)濟損失，還會影響駕駛員身體健康。如何有效緩解交通擁堵，提升道路通行能力，成為亟待解決的問題。

2、通過擴建基礎(chǔ)道路設(shè)施來應(yīng)對不斷增長的交通量需要消耗大量時間與資源，長遠來看，無法解決交通需求和交通供給之間的矛盾。通過建設(shè)智能交通系統(tǒng)對交通流進行合理的管理和控制，提高交通設(shè)施的利用率可以有效緩解交通擁堵。

3、對于智能交通系統(tǒng)來說，實時獲取交通信息是不可或缺的一部分，只有在獲取當前路網(wǎng)的交通狀況和路網(wǎng)結(jié)構(gòu)后才能有效控制城市交通。但如果只根據(jù)實時檢測到的數(shù)據(jù)進行調(diào)控，那么調(diào)控結(jié)果總是會滯后于真實的交通流變化，無法達到信號控制效果。

技術(shù)實現(xiàn)思路

1、為解決上述技術(shù)問題，本發(fā)明提出了基于多智能體深度強化學(xué)習(xí)的交通信號控制方法，該方法通過預(yù)測未來短期的交通流信息，并結(jié)合路口的實時交通狀態(tài)作為強化學(xué)習(xí)模型的狀態(tài)輸入，通過智能體和環(huán)境交互來學(xué)習(xí)交通信號控制策略，實現(xiàn)多路口交通信號智能控制與協(xié)調(diào)控制。

2、本發(fā)明提出了基于多智能體深度強化學(xué)習(xí)的交通信號控制方法，為目標區(qū)域的各路口設(shè)置智能體，在云端或服務(wù)器部署擬合網(wǎng)絡(luò)，各個智能體分別與目標區(qū)域的交通路網(wǎng)環(huán)境、擬合網(wǎng)絡(luò)進行實時交互，該方法具體包括：

3、獲取目標區(qū)域的交通路網(wǎng)結(jié)構(gòu)和歷史交通流數(shù)據(jù)，經(jīng)過預(yù)處理后輸入預(yù)訓(xùn)練的短時交通流預(yù)測網(wǎng)絡(luò)進行預(yù)測，得到交通流預(yù)測結(jié)果y；

4、利用交通流預(yù)測結(jié)果y和隨機獲取的各個路口實時交通信息，對各個智能體和擬合網(wǎng)絡(luò)進行訓(xùn)練，得到各個優(yōu)化后的智能體和優(yōu)化后的擬合網(wǎng)絡(luò)；

5、各個優(yōu)化后的智能體根據(jù)交通流預(yù)測結(jié)果y和各自當前的實時交通信息進行獨立觀測，將其獨立觀測結(jié)果全部傳輸給優(yōu)化后的擬合網(wǎng)絡(luò)進行學(xué)習(xí)并計算全局獎勵；

6、各個優(yōu)化后的智能體根據(jù)各自的貢獻值從全局獎勵中獲取各自的獎勵，結(jié)合各自當前觀測結(jié)果以及各自的獎勵，執(zhí)行下一個動作，形成目標區(qū)域當前最優(yōu)的交通信號控制策略。

7、進一步的，對所述目標區(qū)域的交通路網(wǎng)結(jié)構(gòu)和歷史交通流數(shù)據(jù)，進行預(yù)處理的具體過程包括：根據(jù)目標區(qū)域的交通路網(wǎng)結(jié)構(gòu)，得到目標區(qū)域交通網(wǎng)絡(luò)的圖鄰接矩陣a；根據(jù)目標區(qū)域的歷史交通流數(shù)據(jù)，得到歷史交通流數(shù)據(jù)信息矩陣x。

8、進一步的，所述短時交通流預(yù)測網(wǎng)絡(luò)包括圖卷積神經(jīng)網(wǎng)絡(luò)gcn和長短期記憶網(wǎng)絡(luò)lstm，通過gcn提取所述歷史交通流數(shù)據(jù)信息矩陣x的空間特征，通過lstm提取所述歷史交通流數(shù)據(jù)信息矩陣x的時間特征。

9、本發(fā)明的有益效果：

10、首先，本發(fā)明采用預(yù)訓(xùn)練的短時交通流預(yù)測網(wǎng)絡(luò)，根據(jù)目標區(qū)域的歷史交通流數(shù)據(jù)和交通路網(wǎng)結(jié)構(gòu)來準確預(yù)測短期未來的交通流信息y。各個智能體結(jié)合預(yù)測的短期未來交通流信息y和當前路口的實時交通信息進行獨立觀測和學(xué)習(xí)，將其觀測和學(xué)習(xí)結(jié)果全部傳輸給擬合網(wǎng)絡(luò)進行學(xué)習(xí)和計算，擬合網(wǎng)絡(luò)給各個智能體反饋信息，通過智能體分別與環(huán)境(即整個交通路網(wǎng))、擬合網(wǎng)絡(luò)交互來自動學(xué)習(xí)和調(diào)整交通信號控制策略，可以實現(xiàn)多路口協(xié)調(diào)控制與智能控制，能夠有效緩解交通擁堵，提高通行效率，提升道路吞吐量。

11、其次，所述短時交通流預(yù)測網(wǎng)絡(luò)包括圖卷積網(wǎng)絡(luò)gcn和lstm網(wǎng)絡(luò)，gcn能有效提取交通網(wǎng)絡(luò)的空間特征，lstm網(wǎng)絡(luò)能有效提取交通流序列數(shù)據(jù)的時間特征，結(jié)合gcn和lstm網(wǎng)絡(luò)可以處理大規(guī)模的交通路網(wǎng)，綜合考慮交通流數(shù)據(jù)的時間特征和空間特征，明顯提升預(yù)測短期未來交通流信息的準確性。

技術(shù)特征：

1.基于多智能體深度強化學(xué)習(xí)的交通信號控制方法，其特征在于，為目標區(qū)域的各路口設(shè)置智能體，在云端或服務(wù)器部署擬合網(wǎng)絡(luò)，各個智能體分別與目標區(qū)域的交通路網(wǎng)環(huán)境、擬合網(wǎng)絡(luò)進行實時交互，該方法具體包括：

2.根據(jù)權(quán)利要求1所述的基于多智能體深度強化學(xué)習(xí)的交通信號控制方法，其特征在于，各個智能體通過與目標區(qū)域交通路網(wǎng)環(huán)境實時交互獲取各自的實時交通信息，其包括當前各路口實時的車輛位置矩陣p和車輛速度矩陣v；各個智能體獨立觀測的結(jié)果包括各自的狀態(tài)和動作，定義各個智能體的狀態(tài)具體表示為：

3.根據(jù)權(quán)利要求1或2所述的基于多智能體深度強化學(xué)習(xí)的交通信號控制方法，其特征在于，利用交通流預(yù)測結(jié)果y和各路口隨機獲取的實時交通信息訓(xùn)練各個智能體和擬合網(wǎng)絡(luò)，其具體包括：

4.根據(jù)權(quán)利要求3所述的基于多智能體深度強化學(xué)習(xí)的交通信號控制方法，其特征在于，在各個智能體和擬合網(wǎng)絡(luò)的訓(xùn)練過程中，采用的損失函數(shù)l具體為：

5.根據(jù)權(quán)利要求1所述的基于多智能體深度強化學(xué)習(xí)的交通信號控制方法，其特征在于，各個優(yōu)化后的智能體根據(jù)各自的貢獻值從全局獎勵中獲取各自的獎勵，所述貢獻值是各個優(yōu)化后的智能體根據(jù)各自優(yōu)化后網(wǎng)絡(luò)參數(shù)形成的獎勵分配權(quán)重。

6.根據(jù)權(quán)利要求1或3所述的基于多智能體深度強化學(xué)習(xí)的交通信號控制方法，其特征在于，對所述目標區(qū)域的交通路網(wǎng)結(jié)構(gòu)和歷史交通流數(shù)據(jù)，進行預(yù)處理的具體過程包括：根據(jù)目標區(qū)域的交通路網(wǎng)結(jié)構(gòu)，得到目標區(qū)域交通網(wǎng)絡(luò)的圖鄰接矩陣a；根據(jù)目標區(qū)域的歷史交通流數(shù)據(jù)，得到歷史交通流數(shù)據(jù)信息矩陣x。

7.根據(jù)權(quán)利要求6所述的基于多智能體深度強化學(xué)習(xí)的交通信號控制方法，其特征在于，所述短時交通流預(yù)測網(wǎng)絡(luò)包括圖卷積神經(jīng)網(wǎng)絡(luò)gcn和長短期記憶網(wǎng)絡(luò)lstm，通過gcn提取所述歷史交通流數(shù)據(jù)信息矩陣x的空間特征，通過lstm提取所述歷史交通流數(shù)據(jù)信息矩陣x的時間特征。

8.根據(jù)權(quán)利要求1所述的所述短時交通流預(yù)測網(wǎng)絡(luò)在預(yù)訓(xùn)練過程中采用均方誤差作為損失函數(shù)，其具體計算公式為:

9.根據(jù)權(quán)利要求1或3所述的基于多智能體深度強化學(xué)習(xí)的交通信號控制方法，其特征在于，所述交通流預(yù)測結(jié)果y包括目標區(qū)域交通路網(wǎng)中未來h個時間步所有路口的車流量和車輛平均速度。

技術(shù)總結(jié)
本發(fā)明涉及基于多智能體深度強化學(xué)習(xí)的交通信號控制方法。該方法包括：為路口設(shè)置智能體，在云端或服務(wù)器部署擬合網(wǎng)絡(luò)，根據(jù)交通路網(wǎng)結(jié)構(gòu)和歷史交通流數(shù)據(jù)進行預(yù)測并得到交通流預(yù)測結(jié)果Y；利用該交通流預(yù)測結(jié)果和隨機獲取的各個路口實時交通信息，對各個智能體和擬合網(wǎng)絡(luò)進行訓(xùn)練，得到各個優(yōu)化后的智能體和優(yōu)化后的擬合網(wǎng)絡(luò)；各個優(yōu)化后的智能體根據(jù)交通流預(yù)測結(jié)果Y和各自當前的實時交通信息進行獨立觀測并將其結(jié)果傳輸給優(yōu)化后的擬合網(wǎng)絡(luò)，計算全局獎勵并反饋給各個智能體，各個智能體根據(jù)當前各自觀測結(jié)果和獎勵，執(zhí)行下一個動作，形成目標區(qū)域當前最優(yōu)的交通信號控制策略。本發(fā)明實現(xiàn)了多路口的交通信號協(xié)調(diào)控制，明顯提升出行效率。

技術(shù)研發(fā)人員：林峰,何帥,邵瑯,蔣建春
受保護的技術(shù)使用者：重慶郵電大學(xué)
技術(shù)研發(fā)日：
技術(shù)公布日：2025/1/6

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：林峰,何帥,邵瑯,蔣建春
技術(shù)所有人：重慶郵電大學(xué)
我是此專利的發(fā)明人

上一篇：轉(zhuǎn)子組件和電機的制作方法
上一篇：一種低成本天線罩開孔工裝的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、王老師：1.機器人 2.嵌入式控制系統(tǒng)開發(fā)
2、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設(shè)計 2.汽車檢測系統(tǒng)設(shè)計 3.汽車電子控制系統(tǒng)設(shè)計
3、畢老師：機構(gòu)動力學(xué)與控制
4、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
5、周老師：1.智能機器人技術(shù) 2.智能檢測與控制技術(shù) 3.機構(gòu)運動學(xué)與動力學(xué) 4.機電一體化技術(shù)
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于多智能體深度強化學(xué)習(xí)的交通信號控制方法