本發(fā)明涉及鐵路調(diào)度指揮,具體涉及一種基于強化學(xué)習(xí)的普速鐵路列車運行調(diào)整方法及系統(tǒng)。
背景技術(shù):
1、鐵路調(diào)度指揮系統(tǒng)應(yīng)對各類風(fēng)險和事故的能力一直是鐵路運營部門所關(guān)注的重點。由于惡劣天氣、臨時限速、自然災(zāi)害甚至列車事故等原因,會擾亂原始的運行計劃,因此需要實時制定列車運行調(diào)整方案。然而在鐵路實際運營過程中,調(diào)度指揮人員只能憑借自己的歷史經(jīng)驗調(diào)整列車運行圖,這種方法容易導(dǎo)致調(diào)整的結(jié)果誤差大、穩(wěn)定性低、主觀性強。在客貨物混跑的線路上,由于客運列車的運行等級高于貨物列車,調(diào)度調(diào)整時通常優(yōu)先考慮客運列車。當(dāng)客運列車的到發(fā)時間受到影響時,往往會導(dǎo)致貨物列車的到發(fā)時間大幅度延誤。同時,由于貨物列車在各區(qū)間的區(qū)間運行時分存在較大的不確定性,使得貨物列車的運行對客運列車的安全構(gòu)成潛在威脅。因此,如何在復(fù)雜多變的運行環(huán)境中有效協(xié)調(diào)客運和貨物列車的運行計劃,以確保列車運行的安全性和效率,是鐵路調(diào)度指揮系統(tǒng)面臨的重大挑戰(zhàn)。
2、列車運行調(diào)整問題或運行動態(tài)調(diào)整是一個np完全問題,隨著人工智能的發(fā)展,機器學(xué)習(xí)、強化學(xué)習(xí)等技術(shù)被廣泛地應(yīng)用于鐵路運輸中,但在普速鐵路運營領(lǐng)域的相關(guān)研究較少。尤其是利用強化學(xué)習(xí)對普速鐵路列車運行調(diào)整的相關(guān)研究并不多見。綜上所述,亟需一種能夠為行車調(diào)度員實時制定普速鐵路列車運行調(diào)整方案提供決策支持的方法。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的在于提供一種基于強化學(xué)習(xí)的普速鐵路列車運行調(diào)整方法及系統(tǒng),以解決上述背景技術(shù)中存在的至少一項技術(shù)問題。
2、為了實現(xiàn)上述目的,本發(fā)明采取了如下技術(shù)方案:
3、第一方面,本發(fā)明提供一種基于強化學(xué)習(xí)的普速鐵路列車運行調(diào)整方法,包括:
4、考慮列車運行過程中的動態(tài)性和隨機性,以列車在各車站的總延誤最小以及貨物列車停站次數(shù)最小為目標(biāo),構(gòu)建普速鐵路列車運行調(diào)整模型;
5、基于強化學(xué)習(xí)dqn求解算法對普速鐵路列車運行調(diào)整模型分兩階段求解,實現(xiàn)普速列車運行調(diào)整;其中,首先根據(jù)dqn算法,調(diào)整客運列車的運行時間、到發(fā)線運用;然后,固定客運列車運行調(diào)整結(jié)果,根據(jù)歷史數(shù)據(jù)統(tǒng)計分析得到貨物列車區(qū)間運行時分,調(diào)整貨物列車的運行時間、到發(fā)線運用。
6、進(jìn)一步的,所述普速鐵路列車調(diào)度調(diào)整模型如下:
7、目標(biāo)函數(shù)為列車的總延誤時間以及貨物列車的在各站的停站次數(shù)兩部分:
8、
9、式中:f為列車,f為所有列車的集合,s為車站,為決策變量,代表調(diào)整后的列車出發(fā)時間,為圖定的列車出發(fā)時間,fh為貨物列車,為0-1決策變量,代表貨物列車在各車站是否停站。
10、進(jìn)一步的,所述dqn算法包括:在列車運行調(diào)整過程中,首先獲取當(dāng)前路網(wǎng)狀態(tài)st,并根據(jù)ε-greedy策略,從所有可行的動作中選擇一個動作at,引導(dǎo)列車進(jìn)入新的狀態(tài)st+1,并給出一個可反映新狀態(tài)優(yōu)劣的獎勵值rt;然后,智能體根據(jù)新的狀態(tài)和獎勵值再次進(jìn)行決策選擇動作,隨著時間推移,直到所有列車到達(dá)終到站。
11、進(jìn)一步的,智能體包括目標(biāo)網(wǎng)絡(luò)和評價網(wǎng)絡(luò),使用經(jīng)驗池存儲列車調(diào)度過程中決策前后的列車狀態(tài)信息、具體的決策信息以及相應(yīng)的獎勵信息;從經(jīng)驗池中隨機抽取一批狀態(tài)信息,分別輸入到目標(biāo)網(wǎng)絡(luò)和評價網(wǎng)絡(luò)中;評價網(wǎng)絡(luò)根據(jù)這兩個決策執(zhí)行策略迭代,兩個決策之間的差異構(gòu)成損失值;通過神經(jīng)網(wǎng)絡(luò)優(yōu)化器最小化損失值,從而訓(xùn)練評價網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù);經(jīng)過一定的時間間隔后,將評價網(wǎng)絡(luò)的參數(shù)同步到目標(biāo)網(wǎng)絡(luò)中。
12、進(jìn)一步的,ε-greedy的策略如下:
13、
14、其中,在學(xué)習(xí)過程中產(chǎn)生一個隨機數(shù)rand∈(0,1),如果隨機數(shù)大于1-ε,則在st狀態(tài)下隨機選擇一個可行動作,其他情況則在st狀態(tài)下選擇一個q值最大的動作;式中,a*(st)表示在st狀態(tài)下q值最大的可行動作,a(st)表示在st狀態(tài)下所有可行動作的集合。
15、進(jìn)一步的,q值更新公式如下:
16、q(st,at;θt)←q(st,at;θt)+α[rt+γmax(st+1,at+1;θ-)-q(st,at;θt)]
17、式中,q(st,at;θt)是當(dāng)前狀態(tài)st和動作at對應(yīng)的q值,θt為計算q值的神經(jīng)網(wǎng)絡(luò)的參數(shù),α是學(xué)習(xí)率,控制q值更新的步長;rt是在狀態(tài)st采取動作at后得到的即時獎勵;γ是折扣因子,表示未來獎勵的折扣率;max(st+1,at+1;θ-)是在下一狀態(tài)st+1下,選擇最優(yōu)動作at+1所對應(yīng)的最大q值。
18、第二方面,本發(fā)明提供一種基于強化學(xué)習(xí)的普速鐵路列車運行調(diào)整系統(tǒng),包括:
19、構(gòu)建模塊,用于考慮列車運行過程中的動態(tài)性和隨機性,以列車在各車站的總延誤最小以及貨物列車停站次數(shù)最小為目標(biāo),構(gòu)建普速鐵路列車運行調(diào)整模型;
20、求解模塊,用于基于強化學(xué)習(xí)dqn求解算法對普速鐵路列車運行調(diào)整模型分兩階段求解,實現(xiàn)普速列車運行調(diào)整;其中,首先根據(jù)dqn算法,調(diào)整客運列車的運行時間、到發(fā)線運用;然后,固定客運列車運行調(diào)整結(jié)果,根據(jù)歷史數(shù)據(jù)統(tǒng)計分析得到貨物列車區(qū)間運行時分,調(diào)整貨物列車的運行時間、到發(fā)線運用。
21、第三方面,本發(fā)明提供一種非暫態(tài)計算機可讀存儲介質(zhì),所述非暫態(tài)計算機可讀存儲介質(zhì)用于存儲計算機指令,所述計算機指令被處理器執(zhí)行時,實現(xiàn)如第一方面所述的基于強化學(xué)習(xí)的普速鐵路列車運行調(diào)整方法。
22、第四方面,本發(fā)明提供一種計算機設(shè)備,包括存儲器和處理器,所述處理器和所述存儲器相互通信,所述存儲器存儲有可被所述處理器執(zhí)行的程序指令,所述處理器調(diào)用所述程序指令執(zhí)行如第一方面所述的基于強化學(xué)習(xí)的普速鐵路列車運行調(diào)整方法。
23、第五方面,本發(fā)明提供一種電子設(shè)備,包括:處理器、存儲器以及計算機程序;其中,處理器與存儲器連接,計算機程序被存儲在存儲器中,當(dāng)電子設(shè)備運行時,所述處理器執(zhí)行所述存儲器存儲的計算機程序,以使電子設(shè)備執(zhí)行實現(xiàn)如第一方面所述的基于強化學(xué)習(xí)的普速鐵路列車運行調(diào)整方法的指令。
24、本發(fā)明有益效果:考慮到貨物列車在區(qū)間運行時分的不確定性,并在調(diào)整時優(yōu)先考慮貨物列車與客運列車之間的優(yōu)先級關(guān)系,以盡量減少對客運列車的延誤。并通過運用強化學(xué)習(xí)技術(shù),結(jié)合現(xiàn)場實際的調(diào)度措施,使智能體探索并實現(xiàn)更優(yōu)的調(diào)度方案。
25、本發(fā)明附加方面的優(yōu)點,將在下述的描述部分中更加明顯的給出,或通過本發(fā)明的實踐了解到。
1.一種基于強化學(xué)習(xí)的普速鐵路列車運行調(diào)整方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的基于強化學(xué)習(xí)的普速鐵路列車運行調(diào)整方法,其特征在于,所述普速鐵路列車調(diào)度調(diào)整模型如下:
3.根據(jù)權(quán)利要求1所述的基于強化學(xué)習(xí)的普速鐵路列車運行調(diào)整方法,其特征在于,所述dqn算法包括:在列車運行調(diào)整過程中,首先獲取當(dāng)前路網(wǎng)狀態(tài)st,并根據(jù)ε-greedy策略,從所有可行的動作中選擇一個動作at,引導(dǎo)列車進(jìn)入新的狀態(tài)st+1,并給出一個可反映新狀態(tài)優(yōu)劣的獎勵值rt;然后,智能體根據(jù)新的狀態(tài)和獎勵值再次進(jìn)行決策選擇動作,隨著時間推移,直到所有列車到達(dá)調(diào)度區(qū)段終到站。
4.根據(jù)權(quán)利要求3所述的基于強化學(xué)習(xí)的普速鐵路列車運行調(diào)整方法,其特征在于,智能體包括目標(biāo)網(wǎng)絡(luò)和評價網(wǎng)絡(luò),使用經(jīng)驗池存儲列車調(diào)度過程中決策前后的列車狀態(tài)信息、具體的決策信息以及相應(yīng)的獎勵信息;從經(jīng)驗池中隨機抽取一批狀態(tài)信息,分別輸入到目標(biāo)網(wǎng)絡(luò)和評價網(wǎng)絡(luò)中;評價網(wǎng)絡(luò)根據(jù)這兩個決策執(zhí)行策略迭代,兩個決策之間的差異構(gòu)成損失值;通過神經(jīng)網(wǎng)絡(luò)優(yōu)化器最小化損失值,從而訓(xùn)練評價網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù);經(jīng)過一定的時間間隔后,將評價網(wǎng)絡(luò)的參數(shù)同步到目標(biāo)網(wǎng)絡(luò)中。
5.根據(jù)權(quán)利要求3所述的基于強化學(xué)習(xí)的普速鐵路列車運行調(diào)整方法,其特征在于,ε-greedy的策略如下:
6.根據(jù)權(quán)利要求3所述的基于強化學(xué)習(xí)的普速鐵路列車運行調(diào)整方法,其特征在于,q值更新公式如下:
7.一種基于強化學(xué)習(xí)的普速鐵路列車運行調(diào)整系統(tǒng),其特征在于,包括:
8.一種非暫態(tài)計算機可讀存儲介質(zhì),其特征在于,所述非暫態(tài)計算機可讀存儲介質(zhì)用于存儲計算機指令,所述計算機指令被處理器執(zhí)行時,實現(xiàn)如權(quán)利要求1-6任一項所述的基于強化學(xué)習(xí)的普速鐵路列車運行調(diào)整方法。
9.一種計算機設(shè)備,其特征在于,包括存儲器和處理器,所述處理器和所述存儲器相互通信,所述存儲器存儲有可被所述處理器執(zhí)行的程序指令,所述處理器調(diào)用所述程序指令執(zhí)行如權(quán)利要求1-6任一項所述的基于強化學(xué)習(xí)的普速鐵路列車運行調(diào)整方法。
10.一種電子設(shè)備,其特征在于,包括:處理器、存儲器以及計算機程序;其中,處理器與存儲器連接,計算機程序被存儲在存儲器中,當(dāng)電子設(shè)備運行時,所述處理器執(zhí)行所述存儲器存儲的計算機程序,以使電子設(shè)備執(zhí)行實現(xiàn)如權(quán)利要求1-6任一項所述的基于強化學(xué)習(xí)的普速鐵路列車運行調(diào)整方法的指令。