欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于多智能體深度強化學(xué)習(xí)的交通信號控制方法

文檔序號:40582501發(fā)布日期:2025-01-07 20:22閱讀:8來源:國知局
基于多智能體深度強化學(xué)習(xí)的交通信號控制方法

本發(fā)明屬于智能交通,尤其涉及基于多智能體深度強化學(xué)習(xí)的交通信號控制方法。


背景技術(shù):

1、隨著機動車數(shù)量逐年增加,超過了道路的承載能力,引起的交通擁堵已經(jīng)成為一個普遍存在且難以整治的問題。交通擁堵會降低人們的出行效率,造成環(huán)境污染和經(jīng)濟損失,還會影響駕駛員身體健康。如何有效緩解交通擁堵,提升道路通行能力,成為亟待解決的問題。

2、通過擴建基礎(chǔ)道路設(shè)施來應(yīng)對不斷增長的交通量需要消耗大量時間與資源,長遠來看,無法解決交通需求和交通供給之間的矛盾。通過建設(shè)智能交通系統(tǒng)對交通流進行合理的管理和控制,提高交通設(shè)施的利用率可以有效緩解交通擁堵。

3、對于智能交通系統(tǒng)來說,實時獲取交通信息是不可或缺的一部分,只有在獲取當前路網(wǎng)的交通狀況和路網(wǎng)結(jié)構(gòu)后才能有效控制城市交通。但如果只根據(jù)實時檢測到的數(shù)據(jù)進行調(diào)控,那么調(diào)控結(jié)果總是會滯后于真實的交通流變化,無法達到信號控制效果。


技術(shù)實現(xiàn)思路

1、為解決上述技術(shù)問題,本發(fā)明提出了基于多智能體深度強化學(xué)習(xí)的交通信號控制方法,該方法通過預(yù)測未來短期的交通流信息,并結(jié)合路口的實時交通狀態(tài)作為強化學(xué)習(xí)模型的狀態(tài)輸入,通過智能體和環(huán)境交互來學(xué)習(xí)交通信號控制策略,實現(xiàn)多路口交通信號智能控制與協(xié)調(diào)控制。

2、本發(fā)明提出了基于多智能體深度強化學(xué)習(xí)的交通信號控制方法,為目標區(qū)域的各路口設(shè)置智能體,在云端或服務(wù)器部署擬合網(wǎng)絡(luò),各個智能體分別與目標區(qū)域的交通路網(wǎng)環(huán)境、擬合網(wǎng)絡(luò)進行實時交互,該方法具體包括:

3、獲取目標區(qū)域的交通路網(wǎng)結(jié)構(gòu)和歷史交通流數(shù)據(jù),經(jīng)過預(yù)處理后輸入預(yù)訓(xùn)練的短時交通流預(yù)測網(wǎng)絡(luò)進行預(yù)測,得到交通流預(yù)測結(jié)果y;

4、利用交通流預(yù)測結(jié)果y和隨機獲取的各個路口實時交通信息,對各個智能體和擬合網(wǎng)絡(luò)進行訓(xùn)練,得到各個優(yōu)化后的智能體和優(yōu)化后的擬合網(wǎng)絡(luò);

5、各個優(yōu)化后的智能體根據(jù)交通流預(yù)測結(jié)果y和各自當前的實時交通信息進行獨立觀測,將其獨立觀測結(jié)果全部傳輸給優(yōu)化后的擬合網(wǎng)絡(luò)進行學(xué)習(xí)并計算全局獎勵;

6、各個優(yōu)化后的智能體根據(jù)各自的貢獻值從全局獎勵中獲取各自的獎勵,結(jié)合各自當前觀測結(jié)果以及各自的獎勵,執(zhí)行下一個動作,形成目標區(qū)域當前最優(yōu)的交通信號控制策略。

7、進一步的,對所述目標區(qū)域的交通路網(wǎng)結(jié)構(gòu)和歷史交通流數(shù)據(jù),進行預(yù)處理的具體過程包括:根據(jù)目標區(qū)域的交通路網(wǎng)結(jié)構(gòu),得到目標區(qū)域交通網(wǎng)絡(luò)的圖鄰接矩陣a;根據(jù)目標區(qū)域的歷史交通流數(shù)據(jù),得到歷史交通流數(shù)據(jù)信息矩陣x。

8、進一步的,所述短時交通流預(yù)測網(wǎng)絡(luò)包括圖卷積神經(jīng)網(wǎng)絡(luò)gcn和長短期記憶網(wǎng)絡(luò)lstm,通過gcn提取所述歷史交通流數(shù)據(jù)信息矩陣x的空間特征,通過lstm提取所述歷史交通流數(shù)據(jù)信息矩陣x的時間特征。

9、本發(fā)明的有益效果:

10、首先,本發(fā)明采用預(yù)訓(xùn)練的短時交通流預(yù)測網(wǎng)絡(luò),根據(jù)目標區(qū)域的歷史交通流數(shù)據(jù)和交通路網(wǎng)結(jié)構(gòu)來準確預(yù)測短期未來的交通流信息y。各個智能體結(jié)合預(yù)測的短期未來交通流信息y和當前路口的實時交通信息進行獨立觀測和學(xué)習(xí),將其觀測和學(xué)習(xí)結(jié)果全部傳輸給擬合網(wǎng)絡(luò)進行學(xué)習(xí)和計算,擬合網(wǎng)絡(luò)給各個智能體反饋信息,通過智能體分別與環(huán)境(即整個交通路網(wǎng))、擬合網(wǎng)絡(luò)交互來自動學(xué)習(xí)和調(diào)整交通信號控制策略,可以實現(xiàn)多路口協(xié)調(diào)控制與智能控制,能夠有效緩解交通擁堵,提高通行效率,提升道路吞吐量。

11、其次,所述短時交通流預(yù)測網(wǎng)絡(luò)包括圖卷積網(wǎng)絡(luò)gcn和lstm網(wǎng)絡(luò),gcn能有效提取交通網(wǎng)絡(luò)的空間特征,lstm網(wǎng)絡(luò)能有效提取交通流序列數(shù)據(jù)的時間特征,結(jié)合gcn和lstm網(wǎng)絡(luò)可以處理大規(guī)模的交通路網(wǎng),綜合考慮交通流數(shù)據(jù)的時間特征和空間特征,明顯提升預(yù)測短期未來交通流信息的準確性。



技術(shù)特征:

1.基于多智能體深度強化學(xué)習(xí)的交通信號控制方法,其特征在于,為目標區(qū)域的各路口設(shè)置智能體,在云端或服務(wù)器部署擬合網(wǎng)絡(luò),各個智能體分別與目標區(qū)域的交通路網(wǎng)環(huán)境、擬合網(wǎng)絡(luò)進行實時交互,該方法具體包括:

2.根據(jù)權(quán)利要求1所述的基于多智能體深度強化學(xué)習(xí)的交通信號控制方法,其特征在于,各個智能體通過與目標區(qū)域交通路網(wǎng)環(huán)境實時交互獲取各自的實時交通信息,其包括當前各路口實時的車輛位置矩陣p和車輛速度矩陣v;各個智能體獨立觀測的結(jié)果包括各自的狀態(tài)和動作,定義各個智能體的狀態(tài)具體表示為:

3.根據(jù)權(quán)利要求1或2所述的基于多智能體深度強化學(xué)習(xí)的交通信號控制方法,其特征在于,利用交通流預(yù)測結(jié)果y和各路口隨機獲取的實時交通信息訓(xùn)練各個智能體和擬合網(wǎng)絡(luò),其具體包括:

4.根據(jù)權(quán)利要求3所述的基于多智能體深度強化學(xué)習(xí)的交通信號控制方法,其特征在于,在各個智能體和擬合網(wǎng)絡(luò)的訓(xùn)練過程中,采用的損失函數(shù)l具體為:

5.根據(jù)權(quán)利要求1所述的基于多智能體深度強化學(xué)習(xí)的交通信號控制方法,其特征在于,各個優(yōu)化后的智能體根據(jù)各自的貢獻值從全局獎勵中獲取各自的獎勵,所述貢獻值是各個優(yōu)化后的智能體根據(jù)各自優(yōu)化后網(wǎng)絡(luò)參數(shù)形成的獎勵分配權(quán)重。

6.根據(jù)權(quán)利要求1或3所述的基于多智能體深度強化學(xué)習(xí)的交通信號控制方法,其特征在于,對所述目標區(qū)域的交通路網(wǎng)結(jié)構(gòu)和歷史交通流數(shù)據(jù),進行預(yù)處理的具體過程包括:根據(jù)目標區(qū)域的交通路網(wǎng)結(jié)構(gòu),得到目標區(qū)域交通網(wǎng)絡(luò)的圖鄰接矩陣a;根據(jù)目標區(qū)域的歷史交通流數(shù)據(jù),得到歷史交通流數(shù)據(jù)信息矩陣x。

7.根據(jù)權(quán)利要求6所述的基于多智能體深度強化學(xué)習(xí)的交通信號控制方法,其特征在于,所述短時交通流預(yù)測網(wǎng)絡(luò)包括圖卷積神經(jīng)網(wǎng)絡(luò)gcn和長短期記憶網(wǎng)絡(luò)lstm,通過gcn提取所述歷史交通流數(shù)據(jù)信息矩陣x的空間特征,通過lstm提取所述歷史交通流數(shù)據(jù)信息矩陣x的時間特征。

8.根據(jù)權(quán)利要求1所述的所述短時交通流預(yù)測網(wǎng)絡(luò)在預(yù)訓(xùn)練過程中采用均方誤差作為損失函數(shù),其具體計算公式為:

9.根據(jù)權(quán)利要求1或3所述的基于多智能體深度強化學(xué)習(xí)的交通信號控制方法,其特征在于,所述交通流預(yù)測結(jié)果y包括目標區(qū)域交通路網(wǎng)中未來h個時間步所有路口的車流量和車輛平均速度。


技術(shù)總結(jié)
本發(fā)明涉及基于多智能體深度強化學(xué)習(xí)的交通信號控制方法。該方法包括:為路口設(shè)置智能體,在云端或服務(wù)器部署擬合網(wǎng)絡(luò),根據(jù)交通路網(wǎng)結(jié)構(gòu)和歷史交通流數(shù)據(jù)進行預(yù)測并得到交通流預(yù)測結(jié)果Y;利用該交通流預(yù)測結(jié)果和隨機獲取的各個路口實時交通信息,對各個智能體和擬合網(wǎng)絡(luò)進行訓(xùn)練,得到各個優(yōu)化后的智能體和優(yōu)化后的擬合網(wǎng)絡(luò);各個優(yōu)化后的智能體根據(jù)交通流預(yù)測結(jié)果Y和各自當前的實時交通信息進行獨立觀測并將其結(jié)果傳輸給優(yōu)化后的擬合網(wǎng)絡(luò),計算全局獎勵并反饋給各個智能體,各個智能體根據(jù)當前各自觀測結(jié)果和獎勵,執(zhí)行下一個動作,形成目標區(qū)域當前最優(yōu)的交通信號控制策略。本發(fā)明實現(xiàn)了多路口的交通信號協(xié)調(diào)控制,明顯提升出行效率。

技術(shù)研發(fā)人員:林峰,何帥,邵瑯,蔣建春
受保護的技術(shù)使用者:重慶郵電大學(xué)
技術(shù)研發(fā)日:
技術(shù)公布日:2025/1/6
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
呼和浩特市| 赤城县| 来宾市| 武威市| 宾川县| 临安市| 吉安县| 偏关县| 军事| 卢湾区| 临夏县| 垣曲县| 建宁县| 贵港市| 江门市| 铜鼓县| 大新县| 吴桥县| 和田县| 兰考县| 玛纳斯县| 黎川县| 松滋市| 兴隆县| 昌邑市| 长岭县| 保山市| 玉环县| 文山县| 昭觉县| 本溪市| 班戈县| 龙里县| 偃师市| 弥勒县| 原平市| 太原市| 大连市| 通渭县| 大姚县| 沈丘县|