本發(fā)明屬于智能交通,尤其涉及基于多智能體深度強化學(xué)習(xí)的交通信號控制方法。
背景技術(shù):
1、隨著機動車數(shù)量逐年增加,超過了道路的承載能力,引起的交通擁堵已經(jīng)成為一個普遍存在且難以整治的問題。交通擁堵會降低人們的出行效率,造成環(huán)境污染和經(jīng)濟損失,還會影響駕駛員身體健康。如何有效緩解交通擁堵,提升道路通行能力,成為亟待解決的問題。
2、通過擴建基礎(chǔ)道路設(shè)施來應(yīng)對不斷增長的交通量需要消耗大量時間與資源,長遠來看,無法解決交通需求和交通供給之間的矛盾。通過建設(shè)智能交通系統(tǒng)對交通流進行合理的管理和控制,提高交通設(shè)施的利用率可以有效緩解交通擁堵。
3、對于智能交通系統(tǒng)來說,實時獲取交通信息是不可或缺的一部分,只有在獲取當前路網(wǎng)的交通狀況和路網(wǎng)結(jié)構(gòu)后才能有效控制城市交通。但如果只根據(jù)實時檢測到的數(shù)據(jù)進行調(diào)控,那么調(diào)控結(jié)果總是會滯后于真實的交通流變化,無法達到信號控制效果。
技術(shù)實現(xiàn)思路
1、為解決上述技術(shù)問題,本發(fā)明提出了基于多智能體深度強化學(xué)習(xí)的交通信號控制方法,該方法通過預(yù)測未來短期的交通流信息,并結(jié)合路口的實時交通狀態(tài)作為強化學(xué)習(xí)模型的狀態(tài)輸入,通過智能體和環(huán)境交互來學(xué)習(xí)交通信號控制策略,實現(xiàn)多路口交通信號智能控制與協(xié)調(diào)控制。
2、本發(fā)明提出了基于多智能體深度強化學(xué)習(xí)的交通信號控制方法,為目標區(qū)域的各路口設(shè)置智能體,在云端或服務(wù)器部署擬合網(wǎng)絡(luò),各個智能體分別與目標區(qū)域的交通路網(wǎng)環(huán)境、擬合網(wǎng)絡(luò)進行實時交互,該方法具體包括:
3、獲取目標區(qū)域的交通路網(wǎng)結(jié)構(gòu)和歷史交通流數(shù)據(jù),經(jīng)過預(yù)處理后輸入預(yù)訓(xùn)練的短時交通流預(yù)測網(wǎng)絡(luò)進行預(yù)測,得到交通流預(yù)測結(jié)果y;
4、利用交通流預(yù)測結(jié)果y和隨機獲取的各個路口實時交通信息,對各個智能體和擬合網(wǎng)絡(luò)進行訓(xùn)練,得到各個優(yōu)化后的智能體和優(yōu)化后的擬合網(wǎng)絡(luò);
5、各個優(yōu)化后的智能體根據(jù)交通流預(yù)測結(jié)果y和各自當前的實時交通信息進行獨立觀測,將其獨立觀測結(jié)果全部傳輸給優(yōu)化后的擬合網(wǎng)絡(luò)進行學(xué)習(xí)并計算全局獎勵;
6、各個優(yōu)化后的智能體根據(jù)各自的貢獻值從全局獎勵中獲取各自的獎勵,結(jié)合各自當前觀測結(jié)果以及各自的獎勵,執(zhí)行下一個動作,形成目標區(qū)域當前最優(yōu)的交通信號控制策略。
7、進一步的,對所述目標區(qū)域的交通路網(wǎng)結(jié)構(gòu)和歷史交通流數(shù)據(jù),進行預(yù)處理的具體過程包括:根據(jù)目標區(qū)域的交通路網(wǎng)結(jié)構(gòu),得到目標區(qū)域交通網(wǎng)絡(luò)的圖鄰接矩陣a;根據(jù)目標區(qū)域的歷史交通流數(shù)據(jù),得到歷史交通流數(shù)據(jù)信息矩陣x。
8、進一步的,所述短時交通流預(yù)測網(wǎng)絡(luò)包括圖卷積神經(jīng)網(wǎng)絡(luò)gcn和長短期記憶網(wǎng)絡(luò)lstm,通過gcn提取所述歷史交通流數(shù)據(jù)信息矩陣x的空間特征,通過lstm提取所述歷史交通流數(shù)據(jù)信息矩陣x的時間特征。
9、本發(fā)明的有益效果:
10、首先,本發(fā)明采用預(yù)訓(xùn)練的短時交通流預(yù)測網(wǎng)絡(luò),根據(jù)目標區(qū)域的歷史交通流數(shù)據(jù)和交通路網(wǎng)結(jié)構(gòu)來準確預(yù)測短期未來的交通流信息y。各個智能體結(jié)合預(yù)測的短期未來交通流信息y和當前路口的實時交通信息進行獨立觀測和學(xué)習(xí),將其觀測和學(xué)習(xí)結(jié)果全部傳輸給擬合網(wǎng)絡(luò)進行學(xué)習(xí)和計算,擬合網(wǎng)絡(luò)給各個智能體反饋信息,通過智能體分別與環(huán)境(即整個交通路網(wǎng))、擬合網(wǎng)絡(luò)交互來自動學(xué)習(xí)和調(diào)整交通信號控制策略,可以實現(xiàn)多路口協(xié)調(diào)控制與智能控制,能夠有效緩解交通擁堵,提高通行效率,提升道路吞吐量。
11、其次,所述短時交通流預(yù)測網(wǎng)絡(luò)包括圖卷積網(wǎng)絡(luò)gcn和lstm網(wǎng)絡(luò),gcn能有效提取交通網(wǎng)絡(luò)的空間特征,lstm網(wǎng)絡(luò)能有效提取交通流序列數(shù)據(jù)的時間特征,結(jié)合gcn和lstm網(wǎng)絡(luò)可以處理大規(guī)模的交通路網(wǎng),綜合考慮交通流數(shù)據(jù)的時間特征和空間特征,明顯提升預(yù)測短期未來交通流信息的準確性。
1.基于多智能體深度強化學(xué)習(xí)的交通信號控制方法,其特征在于,為目標區(qū)域的各路口設(shè)置智能體,在云端或服務(wù)器部署擬合網(wǎng)絡(luò),各個智能體分別與目標區(qū)域的交通路網(wǎng)環(huán)境、擬合網(wǎng)絡(luò)進行實時交互,該方法具體包括:
2.根據(jù)權(quán)利要求1所述的基于多智能體深度強化學(xué)習(xí)的交通信號控制方法,其特征在于,各個智能體通過與目標區(qū)域交通路網(wǎng)環(huán)境實時交互獲取各自的實時交通信息,其包括當前各路口實時的車輛位置矩陣p和車輛速度矩陣v;各個智能體獨立觀測的結(jié)果包括各自的狀態(tài)和動作,定義各個智能體的狀態(tài)具體表示為:
3.根據(jù)權(quán)利要求1或2所述的基于多智能體深度強化學(xué)習(xí)的交通信號控制方法,其特征在于,利用交通流預(yù)測結(jié)果y和各路口隨機獲取的實時交通信息訓(xùn)練各個智能體和擬合網(wǎng)絡(luò),其具體包括:
4.根據(jù)權(quán)利要求3所述的基于多智能體深度強化學(xué)習(xí)的交通信號控制方法,其特征在于,在各個智能體和擬合網(wǎng)絡(luò)的訓(xùn)練過程中,采用的損失函數(shù)l具體為:
5.根據(jù)權(quán)利要求1所述的基于多智能體深度強化學(xué)習(xí)的交通信號控制方法,其特征在于,各個優(yōu)化后的智能體根據(jù)各自的貢獻值從全局獎勵中獲取各自的獎勵,所述貢獻值是各個優(yōu)化后的智能體根據(jù)各自優(yōu)化后網(wǎng)絡(luò)參數(shù)形成的獎勵分配權(quán)重。
6.根據(jù)權(quán)利要求1或3所述的基于多智能體深度強化學(xué)習(xí)的交通信號控制方法,其特征在于,對所述目標區(qū)域的交通路網(wǎng)結(jié)構(gòu)和歷史交通流數(shù)據(jù),進行預(yù)處理的具體過程包括:根據(jù)目標區(qū)域的交通路網(wǎng)結(jié)構(gòu),得到目標區(qū)域交通網(wǎng)絡(luò)的圖鄰接矩陣a;根據(jù)目標區(qū)域的歷史交通流數(shù)據(jù),得到歷史交通流數(shù)據(jù)信息矩陣x。
7.根據(jù)權(quán)利要求6所述的基于多智能體深度強化學(xué)習(xí)的交通信號控制方法,其特征在于,所述短時交通流預(yù)測網(wǎng)絡(luò)包括圖卷積神經(jīng)網(wǎng)絡(luò)gcn和長短期記憶網(wǎng)絡(luò)lstm,通過gcn提取所述歷史交通流數(shù)據(jù)信息矩陣x的空間特征,通過lstm提取所述歷史交通流數(shù)據(jù)信息矩陣x的時間特征。
8.根據(jù)權(quán)利要求1所述的所述短時交通流預(yù)測網(wǎng)絡(luò)在預(yù)訓(xùn)練過程中采用均方誤差作為損失函數(shù),其具體計算公式為:
9.根據(jù)權(quán)利要求1或3所述的基于多智能體深度強化學(xué)習(xí)的交通信號控制方法,其特征在于,所述交通流預(yù)測結(jié)果y包括目標區(qū)域交通路網(wǎng)中未來h個時間步所有路口的車流量和車輛平均速度。