基于空域圖卷積和近端策略優(yōu)化的公交資源動(dòng)態(tài)調(diào)度方法

文檔序號：40424177發(fā)布日期：2024-12-24 14:57閱讀：20來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>信號裝置的制造及其應(yīng)用技術(shù)

本發(fā)明涉及公交資源調(diào)度，具體為基于空域圖卷積和近端策略優(yōu)化的公交資源動(dòng)態(tài)調(diào)度方法。

背景技術(shù)：

1、城市公交資源調(diào)度效果受到路況信息、交通流量和乘客出行需求等因素的影響，這會要求公交資源調(diào)度方法要能夠適應(yīng)復(fù)雜的動(dòng)態(tài)環(huán)境變化，實(shí)時(shí)調(diào)整調(diào)度策略。而構(gòu)建設(shè)計(jì)公交資源調(diào)度方法和模型需要大量數(shù)據(jù)做支撐，如何針對數(shù)據(jù)波動(dòng)性較大、異質(zhì)性較強(qiáng)、實(shí)時(shí)性要求較高等特點(diǎn)，充分挖掘數(shù)據(jù)中的路網(wǎng)結(jié)構(gòu)、車輛運(yùn)營狀態(tài)和乘客行為等特征，來設(shè)計(jì)合理的調(diào)度方案生成方法是一個(gè)難題。另一方面，在實(shí)際場景中，乘客的公交出行需求是變化的，現(xiàn)有的主流技術(shù)方案（隨機(jī)策略random、深度確定性策略梯度deepdeterministic?policy?gradient，ddpg、優(yōu)勢動(dòng)作評論算法advantage?actor-critic，a2c）。

2、?1）隨機(jī)策略（random）：該方法無論交通狀況、乘客需求等外界環(huán)境因素如何，隨機(jī)模型會執(zhí)行隨機(jī)性決策選擇，在每個(gè)決策點(diǎn)都會隨機(jī)選擇一個(gè)動(dòng)作，在每個(gè)時(shí)刻隨機(jī)選擇公交車的停靠站點(diǎn)和行駛路線，沒有考慮實(shí)際情況和優(yōu)化目標(biāo)；該模型不考慮車輛之間的協(xié)調(diào)調(diào)度和交通環(huán)境的變化，只根據(jù)隨機(jī)生成的決策進(jìn)行操作，導(dǎo)致調(diào)度結(jié)果不穩(wěn)定，在決策過程中差異較大。

3、2）深度確定性策略梯度（deep?deterministic?policy?gradient，ddpg）：該方法是一種基于深度強(qiáng)化學(xué)習(xí)的方法，使用確定性策略，可以在給定的交通環(huán)境下，輸出一個(gè)確定的動(dòng)作，用于解決連續(xù)動(dòng)作空間的問題，使用神經(jīng)網(wǎng)絡(luò)近似值函數(shù)，通過經(jīng)驗(yàn)回放和目標(biāo)網(wǎng)絡(luò)的方法來學(xué)習(xí)策略，使用經(jīng)驗(yàn)回放進(jìn)行訓(xùn)練，因此在訓(xùn)練效率上會存在一定劣勢；

4、3）優(yōu)勢動(dòng)作評論算法（advantage?actor-critic，a2c）：該方法是一種基于策略梯度的強(qiáng)化學(xué)習(xí)方法，結(jié)合了梯度策略和價(jià)值函數(shù)的方法，使用概率策略，輸出的動(dòng)作用概率分布來表示，在處理公交車動(dòng)態(tài)調(diào)度這種大規(guī)模連續(xù)控制問題，可以顯著體現(xiàn)出訓(xùn)練速度的優(yōu)勢。可以直接與環(huán)境進(jìn)行交互更新參數(shù)，在多個(gè)環(huán)境實(shí)例上訓(xùn)練多個(gè)智能體，從而提高訓(xùn)練效率。但是由于是一種基于策略梯度的方法，訓(xùn)練的過程中可能伴隨著較高的增量，導(dǎo)致模型出現(xiàn)不穩(wěn)定的情況，而且a2c自身沒有專門合理的探索策略，這是該模型最大的一個(gè)弊端。

5、綜上，這些算法很難應(yīng)對乘客出行需求的波動(dòng)、交通流量的變化、路況的不確定性等復(fù)雜的環(huán)境，另外對于獲取準(zhǔn)確和高質(zhì)量的數(shù)據(jù)，以及對圖結(jié)構(gòu)數(shù)據(jù)的特征進(jìn)行充分提取都存在著難題。

技術(shù)實(shí)現(xiàn)思路

1、本部分的目的在于概述本發(fā)明的實(shí)施方式的一些方面以及簡要介紹一些較佳實(shí)施方式。在本部分以及本技術(shù)的說明書摘要和發(fā)明名稱中可能會做些簡化或省略以避免使本部分、說明書摘要和發(fā)明名稱的目的模糊，而這種簡化或省略不能用于限制本發(fā)明的范圍。

2、因此，本發(fā)明的目的是提供基于空域圖卷積和近端策略優(yōu)化的公交資源動(dòng)態(tài)調(diào)度方法，以解決上述背景技術(shù)中提出的問題。

3、為解決上述技術(shù)問題，根據(jù)本發(fā)明的一個(gè)方面，本發(fā)明提供了如下技術(shù)方案：

4、基于空域圖卷積和近端策略優(yōu)化的公交資源動(dòng)態(tài)調(diào)度方法，其特征在于，步驟如下：

5、s1、采用權(quán)重圖和aggregate對道路網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行建模，通過帶權(quán)graphsage模型進(jìn)行采樣和聚合操作，實(shí)現(xiàn)車輛和站點(diǎn)的節(jié)點(diǎn)之間的關(guān)聯(lián)性和邊特征捕捉；

6、s2、通過強(qiáng)化學(xué)習(xí)近端策略優(yōu)化算法，利用其多輸出策略網(wǎng)絡(luò)架構(gòu)和獎(jiǎng)勵(lì)機(jī)制的目標(biāo)函數(shù)與環(huán)境進(jìn)行交互，實(shí)現(xiàn)動(dòng)態(tài)、多線路的發(fā)車間隔調(diào)整和乘客出行路線規(guī)劃；

7、s3、利用迪杰斯特拉算法來計(jì)算公交車從當(dāng)前位置到乘客起始站點(diǎn)的初始路徑，之后通過帶權(quán)graphsage模型學(xué)習(xí)到的節(jié)點(diǎn)和邊特征表示，結(jié)合強(qiáng)化學(xué)習(xí)近端策略優(yōu)化算法，調(diào)整路徑中的站點(diǎn)選擇和乘客上下車順序，通過不斷迭代優(yōu)化路徑，直到達(dá)到預(yù)定的停止條件，以最大化乘客的滿意度和減少乘客整體的通行時(shí)間。

8、作為本發(fā)明所述的基于空域圖卷積和近端策略優(yōu)化的公交資源動(dòng)態(tài)調(diào)度方法的一種優(yōu)選方案，其中，步驟s1中，graphsage模型采用均勻采樣法來采樣固定的鄰域節(jié)點(diǎn)，采樣公式如下：

9、

10、其中，為節(jié)點(diǎn)，代表節(jié)點(diǎn)的集合。

11、作為本發(fā)明所述的基于空域圖卷積和近端策略優(yōu)化的公交資源動(dòng)態(tài)調(diào)度方法的一種優(yōu)選方案，其中，步驟s1中，使用聚合函數(shù)來聚合鄰居節(jié)點(diǎn)的信息，獲得目標(biāo)節(jié)點(diǎn)的嵌入，然后利用節(jié)點(diǎn)上聚合得到的信息，預(yù)測節(jié)點(diǎn)的標(biāo)簽，聚合函數(shù)公式如下：

12、

13、其中，和分別表示當(dāng)前節(jié)點(diǎn)和鄰居節(jié)點(diǎn)的特征，均為神經(jīng)網(wǎng)絡(luò)的權(quán)重矩陣，e指的是給邊賦予的權(quán)重，mean表示將鄰居節(jié)點(diǎn)的特征取平均值，指經(jīng)過聚合操作后目標(biāo)節(jié)點(diǎn)的特征信息，表示當(dāng)前節(jié)點(diǎn)的特征信息，表示當(dāng)前節(jié)點(diǎn)的鄰居節(jié)點(diǎn)的特征信息，表示當(dāng)前節(jié)點(diǎn)i的鄰域集合；

14、經(jīng)過聚合操作之后，將中心節(jié)點(diǎn)與領(lǐng)域節(jié)點(diǎn)的特征信息結(jié)合在一起，公示如下：

15、

16、其中，σ為非線性激活函數(shù)，k為神經(jīng)網(wǎng)絡(luò)的深度，為第k層線性變換的參數(shù)，concat指將中心節(jié)點(diǎn)與鄰域節(jié)點(diǎn)進(jìn)行特征聚合，表示第k層中心節(jié)點(diǎn)的特征向量，表示第k-1層中心節(jié)點(diǎn)的特征向量，表示第k層該中心節(jié)點(diǎn)的鄰域節(jié)點(diǎn)的特征向量；

17、最后進(jìn)行歸一化操作，公式如下：

18、；

19、其中，表示第k層中心節(jié)點(diǎn)的特征向量進(jìn)行取模操作，進(jìn)而將該向量歸化為單位向量。

20、作為本發(fā)明所述的基于空域圖卷積和近端策略優(yōu)化的公交資源動(dòng)態(tài)調(diào)度方法的一種優(yōu)選方案，其中，步驟s2中，多輸出策略網(wǎng)絡(luò)架構(gòu)為actor-critic架構(gòu)。

21、作為本發(fā)明所述的基于空域圖卷積和近端策略優(yōu)化的公交資源動(dòng)態(tài)調(diào)度方法的一種優(yōu)選方案，其中，步驟s2中，actor-critic架構(gòu)的目標(biāo)函數(shù)具體如下：

22、

23、

24、其中，表示經(jīng)驗(yàn)期望值，用于確定actor網(wǎng)絡(luò)的更新方向，表示當(dāng)前策略函數(shù)的參數(shù)，，和分別對應(yīng)于智能體某一時(shí)刻的狀態(tài)，執(zhí)行的動(dòng)作以及獲得的獎(jiǎng)勵(lì)，ε是一個(gè)可調(diào)參數(shù)，表示策略的參數(shù)，通過優(yōu)化改進(jìn)策略的性能，是優(yōu)勢函數(shù)，用于評估動(dòng)作的好壞，指導(dǎo)策略的更新方向，是一個(gè)剪切函數(shù)，確保了策略更新的穩(wěn)定性，是新策略和舊策略在給定狀態(tài)下采取動(dòng)作的概率之比，反映了策略更新的幅度，、指將策略更新的幅度限制在一個(gè)給定的范圍內(nèi)，其中是一個(gè)可調(diào)的超參數(shù)。

25、作為本發(fā)明所述的基于空域圖卷積和近端策略優(yōu)化的公交資源動(dòng)態(tài)調(diào)度方法的一種優(yōu)選方案，其中，近端策略優(yōu)化算法對目標(biāo)函數(shù)進(jìn)行修改更新，具體更新公式如下：

26、；

27、其中，表示舊策略的參數(shù)化策略網(wǎng)絡(luò)。

28、作為本發(fā)明所述的基于空域圖卷積和近端策略優(yōu)化的公交資源動(dòng)態(tài)調(diào)度方法的一種優(yōu)選方案，其中，步驟s2中，在強(qiáng)化學(xué)習(xí)近端策略優(yōu)化算法中，智能體將這些與環(huán)境進(jìn)行交互得到的數(shù)據(jù)存儲在數(shù)據(jù)容器buffer中，其中是狀態(tài)集合，是動(dòng)作集合，是獎(jiǎng)勵(lì)函數(shù)，p是狀態(tài)轉(zhuǎn)移概率，是折扣因子，當(dāng)buffer儲存滿后，使用gae計(jì)算每個(gè)時(shí)間步的優(yōu)勢值，以及計(jì)算critic的優(yōu)化目標(biāo)，然后將容器中的數(shù)據(jù)按照batch?size依次取出，計(jì)算每個(gè)批次的熵?fù)p失、策略損失和價(jià)值損失，然后采用梯度下降更新輸出策略網(wǎng)絡(luò)架構(gòu)中actor和critic的參數(shù)。

29、與現(xiàn)有技術(shù)相比，本發(fā)明具有的有益效果是：本發(fā)明采用權(quán)重圖和aggregate對道路網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行建模，通過采樣和聚合操作，進(jìn)行多層次信息傳播，實(shí)現(xiàn)車輛、站點(diǎn)等節(jié)點(diǎn)之間的關(guān)聯(lián)性和邊特征捕捉，并獲取覆蓋范圍廣泛的公交資源狀態(tài)，此外，通過近端策略優(yōu)化算法，利用多輸出策略網(wǎng)絡(luò)架構(gòu)和合理的獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)，實(shí)現(xiàn)動(dòng)態(tài)、多線路的發(fā)車間隔調(diào)整和乘客出行路線規(guī)劃。本發(fā)明中充分挖掘交通運(yùn)行過程中車輛位置、交通狀況、乘客數(shù)量等信息的依賴關(guān)系和特征，適應(yīng)交通狀況的變化，生成更加動(dòng)態(tài)和靈活的調(diào)度決策。這種方法的應(yīng)用為智慧城市建設(shè)、交通流量的變化、路況的不確定性、滿足乘客出行需求以及乘客良好體驗(yàn)度提供了良好的方案。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：周超然,王海艦,張昕,胡佳豪,楊凱程,郭健輝,藺小龍,李澤睿,程千勝,楊嘉鑫
技術(shù)所有人：長春理工大學(xué)
我是此專利的發(fā)明人

上一篇：一種摩托車用碟剎外殼的制作方法
上一篇：一種具有自校準(zhǔn)和溯源功能的微流量校準(zhǔn)裝置的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開發(fā)
2、孫老師：1.振動(dòng)信號時(shí)頻分析理論與測試系統(tǒng)設(shè)計(jì) 2.汽車檢測系統(tǒng)設(shè)計(jì) 3.汽車電子控制系統(tǒng)設(shè)計(jì)
3、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
4、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
5、周老師：1.智能機(jī)器人技術(shù) 2.智能檢測與控制技術(shù) 3.機(jī)構(gòu)運(yùn)動(dòng)學(xué)與動(dòng)力學(xué) 4.機(jī)電一體化技術(shù)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于空域圖卷積和近端策略優(yōu)化的公交資源動(dòng)態(tài)調(diào)度方法