本發(fā)明涉及公交資源調(diào)度,具體為基于空域圖卷積和近端策略優(yōu)化的公交資源動(dòng)態(tài)調(diào)度方法。
背景技術(shù):
1、城市公交資源調(diào)度效果受到路況信息、交通流量和乘客出行需求等因素的影響,這會要求公交資源調(diào)度方法要能夠適應(yīng)復(fù)雜的動(dòng)態(tài)環(huán)境變化,實(shí)時(shí)調(diào)整調(diào)度策略。而構(gòu)建設(shè)計(jì)公交資源調(diào)度方法和模型需要大量數(shù)據(jù)做支撐,如何針對數(shù)據(jù)波動(dòng)性較大、異質(zhì)性較強(qiáng)、實(shí)時(shí)性要求較高等特點(diǎn),充分挖掘數(shù)據(jù)中的路網(wǎng)結(jié)構(gòu)、車輛運(yùn)營狀態(tài)和乘客行為等特征,來設(shè)計(jì)合理的調(diào)度方案生成方法是一個(gè)難題。另一方面,在實(shí)際場景中,乘客的公交出行需求是變化的,現(xiàn)有的主流技術(shù)方案(隨機(jī)策略random、深度確定性策略梯度deepdeterministic?policy?gradient,ddpg、優(yōu)勢動(dòng)作評論算法advantage?actor-critic,a2c)。
2、?1)隨機(jī)策略(random):該方法無論交通狀況、乘客需求等外界環(huán)境因素如何,隨機(jī)模型會執(zhí)行隨機(jī)性決策選擇,在每個(gè)決策點(diǎn)都會隨機(jī)選擇一個(gè)動(dòng)作,在每個(gè)時(shí)刻隨機(jī)選擇公交車的停靠站點(diǎn)和行駛路線,沒有考慮實(shí)際情況和優(yōu)化目標(biāo);該模型不考慮車輛之間的協(xié)調(diào)調(diào)度和交通環(huán)境的變化,只根據(jù)隨機(jī)生成的決策進(jìn)行操作,導(dǎo)致調(diào)度結(jié)果不穩(wěn)定,在決策過程中差異較大。
3、2)深度確定性策略梯度(deep?deterministic?policy?gradient,ddpg):該方法是一種基于深度強(qiáng)化學(xué)習(xí)的方法,使用確定性策略,可以在給定的交通環(huán)境下,輸出一個(gè)確定的動(dòng)作,用于解決連續(xù)動(dòng)作空間的問題,使用神經(jīng)網(wǎng)絡(luò)近似值函數(shù),通過經(jīng)驗(yàn)回放和目標(biāo)網(wǎng)絡(luò)的方法來學(xué)習(xí)策略,使用經(jīng)驗(yàn)回放進(jìn)行訓(xùn)練,因此在訓(xùn)練效率上會存在一定劣勢;
4、3)優(yōu)勢動(dòng)作評論算法(advantage?actor-critic,a2c):該方法是一種基于策略梯度的強(qiáng)化學(xué)習(xí)方法,結(jié)合了梯度策略和價(jià)值函數(shù)的方法,使用概率策略,輸出的動(dòng)作用概率分布來表示,在處理公交車動(dòng)態(tài)調(diào)度這種大規(guī)模連續(xù)控制問題,可以顯著體現(xiàn)出訓(xùn)練速度的優(yōu)勢。可以直接與環(huán)境進(jìn)行交互更新參數(shù),在多個(gè)環(huán)境實(shí)例上訓(xùn)練多個(gè)智能體,從而提高訓(xùn)練效率。但是由于是一種基于策略梯度的方法,訓(xùn)練的過程中可能伴隨著較高的增量,導(dǎo)致模型出現(xiàn)不穩(wěn)定的情況,而且a2c自身沒有專門合理的探索策略,這是該模型最大的一個(gè)弊端。
5、綜上,這些算法很難應(yīng)對乘客出行需求的波動(dòng)、交通流量的變化、路況的不確定性等復(fù)雜的環(huán)境,另外對于獲取準(zhǔn)確和高質(zhì)量的數(shù)據(jù),以及對圖結(jié)構(gòu)數(shù)據(jù)的特征進(jìn)行充分提取都存在著難題。
技術(shù)實(shí)現(xiàn)思路
1、本部分的目的在于概述本發(fā)明的實(shí)施方式的一些方面以及簡要介紹一些較佳實(shí)施方式。在本部分以及本技術(shù)的說明書摘要和發(fā)明名稱中可能會做些簡化或省略以避免使本部分、說明書摘要和發(fā)明名稱的目的模糊,而這種簡化或省略不能用于限制本發(fā)明的范圍。
2、因此,本發(fā)明的目的是提供基于空域圖卷積和近端策略優(yōu)化的公交資源動(dòng)態(tài)調(diào)度方法,以解決上述背景技術(shù)中提出的問題。
3、為解決上述技術(shù)問題,根據(jù)本發(fā)明的一個(gè)方面,本發(fā)明提供了如下技術(shù)方案:
4、基于空域圖卷積和近端策略優(yōu)化的公交資源動(dòng)態(tài)調(diào)度方法,其特征在于,步驟如下:
5、s1、采用權(quán)重圖和aggregate對道路網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行建模,通過帶權(quán)graphsage模型進(jìn)行采樣和聚合操作,實(shí)現(xiàn)車輛和站點(diǎn)的節(jié)點(diǎn)之間的關(guān)聯(lián)性和邊特征捕捉;
6、s2、通過強(qiáng)化學(xué)習(xí)近端策略優(yōu)化算法,利用其多輸出策略網(wǎng)絡(luò)架構(gòu)和獎(jiǎng)勵(lì)機(jī)制的目標(biāo)函數(shù)與環(huán)境進(jìn)行交互,實(shí)現(xiàn)動(dòng)態(tài)、多線路的發(fā)車間隔調(diào)整和乘客出行路線規(guī)劃;
7、s3、利用迪杰斯特拉算法來計(jì)算公交車從當(dāng)前位置到乘客起始站點(diǎn)的初始路徑,之后通過帶權(quán)graphsage模型學(xué)習(xí)到的節(jié)點(diǎn)和邊特征表示,結(jié)合強(qiáng)化學(xué)習(xí)近端策略優(yōu)化算法,調(diào)整路徑中的站點(diǎn)選擇和乘客上下車順序,通過不斷迭代優(yōu)化路徑,直到達(dá)到預(yù)定的停止條件,以最大化乘客的滿意度和減少乘客整體的通行時(shí)間。
8、作為本發(fā)明所述的基于空域圖卷積和近端策略優(yōu)化的公交資源動(dòng)態(tài)調(diào)度方法的一種優(yōu)選方案,其中,步驟s1中,graphsage模型采用均勻采樣法來采樣固定的鄰域節(jié)點(diǎn),采樣公式如下:
9、
10、其中,為節(jié)點(diǎn),代表節(jié)點(diǎn)的集合。
11、作為本發(fā)明所述的基于空域圖卷積和近端策略優(yōu)化的公交資源動(dòng)態(tài)調(diào)度方法的一種優(yōu)選方案,其中,步驟s1中,使用聚合函數(shù)來聚合鄰居節(jié)點(diǎn)的信息,獲得目標(biāo)節(jié)點(diǎn)的嵌入,然后利用節(jié)點(diǎn)上聚合得到的信息,預(yù)測節(jié)點(diǎn)的標(biāo)簽,聚合函數(shù)公式如下:
12、
13、其中,和分別表示當(dāng)前節(jié)點(diǎn)和鄰居節(jié)點(diǎn)的特征,均為神經(jīng)網(wǎng)絡(luò)的權(quán)重矩陣,e指的是給邊賦予的權(quán)重,mean表示將鄰居節(jié)點(diǎn)的特征取平均值,指經(jīng)過聚合操作后目標(biāo)節(jié)點(diǎn)的特征信息,表示當(dāng)前節(jié)點(diǎn)的特征信息,表示當(dāng)前節(jié)點(diǎn)的鄰居節(jié)點(diǎn)的特征信息,表示當(dāng)前節(jié)點(diǎn)i的鄰域集合;
14、經(jīng)過聚合操作之后,將中心節(jié)點(diǎn)與領(lǐng)域節(jié)點(diǎn)的特征信息結(jié)合在一起,公示如下:
15、
16、其中,σ為非線性激活函數(shù),k為神經(jīng)網(wǎng)絡(luò)的深度,為第k層線性變換的參數(shù),concat指將中心節(jié)點(diǎn)與鄰域節(jié)點(diǎn)進(jìn)行特征聚合,表示第k層中心節(jié)點(diǎn)的特征向量,表示第k-1層中心節(jié)點(diǎn)的特征向量,表示第k層該中心節(jié)點(diǎn)的鄰域節(jié)點(diǎn)的特征向量;
17、最后進(jìn)行歸一化操作,公式如下:
18、;
19、其中,表示第k層中心節(jié)點(diǎn)的特征向量進(jìn)行取模操作,進(jìn)而將該向量歸化為單位向量。
20、作為本發(fā)明所述的基于空域圖卷積和近端策略優(yōu)化的公交資源動(dòng)態(tài)調(diào)度方法的一種優(yōu)選方案,其中,步驟s2中,多輸出策略網(wǎng)絡(luò)架構(gòu)為actor-critic架構(gòu)。
21、作為本發(fā)明所述的基于空域圖卷積和近端策略優(yōu)化的公交資源動(dòng)態(tài)調(diào)度方法的一種優(yōu)選方案,其中,步驟s2中,actor-critic架構(gòu)的目標(biāo)函數(shù)具體如下:
22、
23、
24、其中,表示經(jīng)驗(yàn)期望值,用于確定actor網(wǎng)絡(luò)的更新方向,表示當(dāng)前策略函數(shù)的參數(shù),,和分別對應(yīng)于智能體某一時(shí)刻的狀態(tài),執(zhí)行的動(dòng)作以及獲得的獎(jiǎng)勵(lì),ε是一個(gè)可調(diào)參數(shù),表示策略的參數(shù),通過優(yōu)化改進(jìn)策略的性能,是優(yōu)勢函數(shù),用于評估動(dòng)作的好壞,指導(dǎo)策略的更新方向,是一個(gè)剪切函數(shù),確保了策略更新的穩(wěn)定性,是新策略和舊策略在給定狀態(tài)下采取動(dòng)作的概率之比,反映了策略更新的幅度,、指將策略更新的幅度限制在一個(gè)給定的范圍內(nèi),其中是一個(gè)可調(diào)的超參數(shù)。
25、作為本發(fā)明所述的基于空域圖卷積和近端策略優(yōu)化的公交資源動(dòng)態(tài)調(diào)度方法的一種優(yōu)選方案,其中,近端策略優(yōu)化算法對目標(biāo)函數(shù)進(jìn)行修改更新,具體更新公式如下:
26、;
27、其中,表示舊策略的參數(shù)化策略網(wǎng)絡(luò)。
28、作為本發(fā)明所述的基于空域圖卷積和近端策略優(yōu)化的公交資源動(dòng)態(tài)調(diào)度方法的一種優(yōu)選方案,其中,步驟s2中,在強(qiáng)化學(xué)習(xí)近端策略優(yōu)化算法中,智能體將這些與環(huán)境進(jìn)行交互得到的數(shù)據(jù)存儲在數(shù)據(jù)容器buffer中,其中是狀態(tài)集合,是動(dòng)作集合,是獎(jiǎng)勵(lì)函數(shù),p是狀態(tài)轉(zhuǎn)移概率,是折扣因子,當(dāng)buffer儲存滿后,使用gae計(jì)算每個(gè)時(shí)間步的優(yōu)勢值,以及計(jì)算critic的優(yōu)化目標(biāo),然后將容器中的數(shù)據(jù)按照batch?size依次取出,計(jì)算每個(gè)批次的熵?fù)p失、策略損失和價(jià)值損失,然后采用梯度下降更新輸出策略網(wǎng)絡(luò)架構(gòu)中actor和critic的參數(shù)。
29、與現(xiàn)有技術(shù)相比,本發(fā)明具有的有益效果是:本發(fā)明采用權(quán)重圖和aggregate對道路網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行建模,通過采樣和聚合操作,進(jìn)行多層次信息傳播,實(shí)現(xiàn)車輛、站點(diǎn)等節(jié)點(diǎn)之間的關(guān)聯(lián)性和邊特征捕捉,并獲取覆蓋范圍廣泛的公交資源狀態(tài),此外,通過近端策略優(yōu)化算法,利用多輸出策略網(wǎng)絡(luò)架構(gòu)和合理的獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì),實(shí)現(xiàn)動(dòng)態(tài)、多線路的發(fā)車間隔調(diào)整和乘客出行路線規(guī)劃。本發(fā)明中充分挖掘交通運(yùn)行過程中車輛位置、交通狀況、乘客數(shù)量等信息的依賴關(guān)系和特征,適應(yīng)交通狀況的變化,生成更加動(dòng)態(tài)和靈活的調(diào)度決策。這種方法的應(yīng)用為智慧城市建設(shè)、交通流量的變化、路況的不確定性、滿足乘客出行需求以及乘客良好體驗(yàn)度提供了良好的方案。