基于強化學(xué)習(xí)的普速鐵路列車運行調(diào)整方法及系統(tǒng)與流程

文檔序號：40652856發(fā)布日期：2025-01-10 19:00閱讀：7來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>鐵路車輛輔助裝置的制造及其改造技術(shù)

基于強化學(xué)習(xí)的普速鐵路列車運行調(diào)整方法及系統(tǒng)與流程

本發(fā)明涉及鐵路調(diào)度指揮，具體涉及一種基于強化學(xué)習(xí)的普速鐵路列車運行調(diào)整方法及系統(tǒng)。

背景技術(shù)：

1、鐵路調(diào)度指揮系統(tǒng)應(yīng)對各類風(fēng)險和事故的能力一直是鐵路運營部門所關(guān)注的重點。由于惡劣天氣、臨時限速、自然災(zāi)害甚至列車事故等原因，會擾亂原始的運行計劃，因此需要實時制定列車運行調(diào)整方案。然而在鐵路實際運營過程中，調(diào)度指揮人員只能憑借自己的歷史經(jīng)驗調(diào)整列車運行圖，這種方法容易導(dǎo)致調(diào)整的結(jié)果誤差大、穩(wěn)定性低、主觀性強。在客貨物混跑的線路上，由于客運列車的運行等級高于貨物列車，調(diào)度調(diào)整時通常優(yōu)先考慮客運列車。當(dāng)客運列車的到發(fā)時間受到影響時，往往會導(dǎo)致貨物列車的到發(fā)時間大幅度延誤。同時，由于貨物列車在各區(qū)間的區(qū)間運行時分存在較大的不確定性，使得貨物列車的運行對客運列車的安全構(gòu)成潛在威脅。因此，如何在復(fù)雜多變的運行環(huán)境中有效協(xié)調(diào)客運和貨物列車的運行計劃，以確保列車運行的安全性和效率，是鐵路調(diào)度指揮系統(tǒng)面臨的重大挑戰(zhàn)。

2、列車運行調(diào)整問題或運行動態(tài)調(diào)整是一個np完全問題，隨著人工智能的發(fā)展，機器學(xué)習(xí)、強化學(xué)習(xí)等技術(shù)被廣泛地應(yīng)用于鐵路運輸中，但在普速鐵路運營領(lǐng)域的相關(guān)研究較少。尤其是利用強化學(xué)習(xí)對普速鐵路列車運行調(diào)整的相關(guān)研究并不多見。綜上所述，亟需一種能夠為行車調(diào)度員實時制定普速鐵路列車運行調(diào)整方案提供決策支持的方法。

技術(shù)實現(xiàn)思路

1、本發(fā)明的目的在于提供一種基于強化學(xué)習(xí)的普速鐵路列車運行調(diào)整方法及系統(tǒng)，以解決上述背景技術(shù)中存在的至少一項技術(shù)問題。

2、為了實現(xiàn)上述目的，本發(fā)明采取了如下技術(shù)方案：

3、第一方面，本發(fā)明提供一種基于強化學(xué)習(xí)的普速鐵路列車運行調(diào)整方法，包括：

4、考慮列車運行過程中的動態(tài)性和隨機性，以列車在各車站的總延誤最小以及貨物列車停站次數(shù)最小為目標(biāo)，構(gòu)建普速鐵路列車運行調(diào)整模型；

5、基于強化學(xué)習(xí)dqn求解算法對普速鐵路列車運行調(diào)整模型分兩階段求解，實現(xiàn)普速列車運行調(diào)整；其中，首先根據(jù)dqn算法，調(diào)整客運列車的運行時間、到發(fā)線運用；然后，固定客運列車運行調(diào)整結(jié)果，根據(jù)歷史數(shù)據(jù)統(tǒng)計分析得到貨物列車區(qū)間運行時分，調(diào)整貨物列車的運行時間、到發(fā)線運用。

6、進(jìn)一步的，所述普速鐵路列車調(diào)度調(diào)整模型如下：

7、目標(biāo)函數(shù)為列車的總延誤時間以及貨物列車的在各站的停站次數(shù)兩部分：

8、

9、式中：f為列車，f為所有列車的集合，s為車站，為決策變量，代表調(diào)整后的列車出發(fā)時間，為圖定的列車出發(fā)時間，fh為貨物列車，為0-1決策變量，代表貨物列車在各車站是否停站。

10、進(jìn)一步的，所述dqn算法包括：在列車運行調(diào)整過程中，首先獲取當(dāng)前路網(wǎng)狀態(tài)st，并根據(jù)ε-greedy策略，從所有可行的動作中選擇一個動作at，引導(dǎo)列車進(jìn)入新的狀態(tài)st+1，并給出一個可反映新狀態(tài)優(yōu)劣的獎勵值rt；然后，智能體根據(jù)新的狀態(tài)和獎勵值再次進(jìn)行決策選擇動作，隨著時間推移，直到所有列車到達(dá)終到站。

11、進(jìn)一步的，智能體包括目標(biāo)網(wǎng)絡(luò)和評價網(wǎng)絡(luò)，使用經(jīng)驗池存儲列車調(diào)度過程中決策前后的列車狀態(tài)信息、具體的決策信息以及相應(yīng)的獎勵信息；從經(jīng)驗池中隨機抽取一批狀態(tài)信息，分別輸入到目標(biāo)網(wǎng)絡(luò)和評價網(wǎng)絡(luò)中；評價網(wǎng)絡(luò)根據(jù)這兩個決策執(zhí)行策略迭代，兩個決策之間的差異構(gòu)成損失值；通過神經(jīng)網(wǎng)絡(luò)優(yōu)化器最小化損失值，從而訓(xùn)練評價網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)；經(jīng)過一定的時間間隔后，將評價網(wǎng)絡(luò)的參數(shù)同步到目標(biāo)網(wǎng)絡(luò)中。

12、進(jìn)一步的，ε-greedy的策略如下：

13、

14、其中，在學(xué)習(xí)過程中產(chǎn)生一個隨機數(shù)rand∈(0,1)，如果隨機數(shù)大于1-ε，則在st狀態(tài)下隨機選擇一個可行動作，其他情況則在st狀態(tài)下選擇一個q值最大的動作；式中，a*(st)表示在st狀態(tài)下q值最大的可行動作，a(st)表示在st狀態(tài)下所有可行動作的集合。

15、進(jìn)一步的，q值更新公式如下：

16、q(st,at；θt)←q(st,at；θt)+α[rt+γmax(st+1,at+1；θ-)-q(st,at；θt)]

17、式中，q(st,at；θt)是當(dāng)前狀態(tài)st和動作at對應(yīng)的q值，θt為計算q值的神經(jīng)網(wǎng)絡(luò)的參數(shù)，α是學(xué)習(xí)率，控制q值更新的步長；rt是在狀態(tài)st采取動作at后得到的即時獎勵；γ是折扣因子，表示未來獎勵的折扣率；max(st+1,at+1；θ-)是在下一狀態(tài)st+1下，選擇最優(yōu)動作at+1所對應(yīng)的最大q值。

18、第二方面，本發(fā)明提供一種基于強化學(xué)習(xí)的普速鐵路列車運行調(diào)整系統(tǒng)，包括：

19、構(gòu)建模塊，用于考慮列車運行過程中的動態(tài)性和隨機性，以列車在各車站的總延誤最小以及貨物列車停站次數(shù)最小為目標(biāo)，構(gòu)建普速鐵路列車運行調(diào)整模型；

20、求解模塊，用于基于強化學(xué)習(xí)dqn求解算法對普速鐵路列車運行調(diào)整模型分兩階段求解，實現(xiàn)普速列車運行調(diào)整；其中，首先根據(jù)dqn算法，調(diào)整客運列車的運行時間、到發(fā)線運用；然后，固定客運列車運行調(diào)整結(jié)果，根據(jù)歷史數(shù)據(jù)統(tǒng)計分析得到貨物列車區(qū)間運行時分，調(diào)整貨物列車的運行時間、到發(fā)線運用。

21、第三方面，本發(fā)明提供一種非暫態(tài)計算機可讀存儲介質(zhì)，所述非暫態(tài)計算機可讀存儲介質(zhì)用于存儲計算機指令，所述計算機指令被處理器執(zhí)行時，實現(xiàn)如第一方面所述的基于強化學(xué)習(xí)的普速鐵路列車運行調(diào)整方法。

22、第四方面，本發(fā)明提供一種計算機設(shè)備，包括存儲器和處理器，所述處理器和所述存儲器相互通信，所述存儲器存儲有可被所述處理器執(zhí)行的程序指令，所述處理器調(diào)用所述程序指令執(zhí)行如第一方面所述的基于強化學(xué)習(xí)的普速鐵路列車運行調(diào)整方法。

23、第五方面，本發(fā)明提供一種電子設(shè)備，包括：處理器、存儲器以及計算機程序；其中，處理器與存儲器連接，計算機程序被存儲在存儲器中，當(dāng)電子設(shè)備運行時，所述處理器執(zhí)行所述存儲器存儲的計算機程序，以使電子設(shè)備執(zhí)行實現(xiàn)如第一方面所述的基于強化學(xué)習(xí)的普速鐵路列車運行調(diào)整方法的指令。

24、本發(fā)明有益效果：考慮到貨物列車在區(qū)間運行時分的不確定性，并在調(diào)整時優(yōu)先考慮貨物列車與客運列車之間的優(yōu)先級關(guān)系，以盡量減少對客運列車的延誤。并通過運用強化學(xué)習(xí)技術(shù)，結(jié)合現(xiàn)場實際的調(diào)度措施，使智能體探索并實現(xiàn)更優(yōu)的調(diào)度方案。

25、本發(fā)明附加方面的優(yōu)點，將在下述的描述部分中更加明顯的給出，或通過本發(fā)明的實踐了解到。

技術(shù)特征：

1.一種基于強化學(xué)習(xí)的普速鐵路列車運行調(diào)整方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的基于強化學(xué)習(xí)的普速鐵路列車運行調(diào)整方法，其特征在于，所述普速鐵路列車調(diào)度調(diào)整模型如下：

3.根據(jù)權(quán)利要求1所述的基于強化學(xué)習(xí)的普速鐵路列車運行調(diào)整方法，其特征在于，所述dqn算法包括：在列車運行調(diào)整過程中，首先獲取當(dāng)前路網(wǎng)狀態(tài)st，并根據(jù)ε-greedy策略，從所有可行的動作中選擇一個動作at，引導(dǎo)列車進(jìn)入新的狀態(tài)st+1，并給出一個可反映新狀態(tài)優(yōu)劣的獎勵值rt；然后，智能體根據(jù)新的狀態(tài)和獎勵值再次進(jìn)行決策選擇動作，隨著時間推移，直到所有列車到達(dá)調(diào)度區(qū)段終到站。

4.根據(jù)權(quán)利要求3所述的基于強化學(xué)習(xí)的普速鐵路列車運行調(diào)整方法，其特征在于，智能體包括目標(biāo)網(wǎng)絡(luò)和評價網(wǎng)絡(luò)，使用經(jīng)驗池存儲列車調(diào)度過程中決策前后的列車狀態(tài)信息、具體的決策信息以及相應(yīng)的獎勵信息；從經(jīng)驗池中隨機抽取一批狀態(tài)信息，分別輸入到目標(biāo)網(wǎng)絡(luò)和評價網(wǎng)絡(luò)中；評價網(wǎng)絡(luò)根據(jù)這兩個決策執(zhí)行策略迭代，兩個決策之間的差異構(gòu)成損失值；通過神經(jīng)網(wǎng)絡(luò)優(yōu)化器最小化損失值，從而訓(xùn)練評價網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)；經(jīng)過一定的時間間隔后，將評價網(wǎng)絡(luò)的參數(shù)同步到目標(biāo)網(wǎng)絡(luò)中。

5.根據(jù)權(quán)利要求3所述的基于強化學(xué)習(xí)的普速鐵路列車運行調(diào)整方法，其特征在于，ε-greedy的策略如下：

6.根據(jù)權(quán)利要求3所述的基于強化學(xué)習(xí)的普速鐵路列車運行調(diào)整方法，其特征在于，q值更新公式如下：

7.一種基于強化學(xué)習(xí)的普速鐵路列車運行調(diào)整系統(tǒng)，其特征在于，包括：

8.一種非暫態(tài)計算機可讀存儲介質(zhì)，其特征在于，所述非暫態(tài)計算機可讀存儲介質(zhì)用于存儲計算機指令，所述計算機指令被處理器執(zhí)行時，實現(xiàn)如權(quán)利要求1-6任一項所述的基于強化學(xué)習(xí)的普速鐵路列車運行調(diào)整方法。

9.一種計算機設(shè)備，其特征在于，包括存儲器和處理器，所述處理器和所述存儲器相互通信，所述存儲器存儲有可被所述處理器執(zhí)行的程序指令，所述處理器調(diào)用所述程序指令執(zhí)行如權(quán)利要求1-6任一項所述的基于強化學(xué)習(xí)的普速鐵路列車運行調(diào)整方法。

10.一種電子設(shè)備，其特征在于，包括：處理器、存儲器以及計算機程序；其中，處理器與存儲器連接，計算機程序被存儲在存儲器中，當(dāng)電子設(shè)備運行時，所述處理器執(zhí)行所述存儲器存儲的計算機程序，以使電子設(shè)備執(zhí)行實現(xiàn)如權(quán)利要求1-6任一項所述的基于強化學(xué)習(xí)的普速鐵路列車運行調(diào)整方法的指令。

技術(shù)總結(jié)
本發(fā)明提供一種基于強化學(xué)習(xí)的普速鐵路列車運行調(diào)整方法及系統(tǒng)，屬于鐵路調(diào)度指揮技術(shù)領(lǐng)域，考慮列車運行過程中的動態(tài)性和隨機性，以列車在各車站的總延誤最小以及貨物列車停站次數(shù)最小為目標(biāo)，構(gòu)建普速鐵路列車運行調(diào)整模型；基于強化學(xué)習(xí)DQN求解算法對普速鐵路列車運行調(diào)整模型分兩階段求解，實現(xiàn)普速列車運行調(diào)整。本發(fā)明考慮到貨物列車在區(qū)間運行時分的不確定性，并在調(diào)整時優(yōu)先考慮貨物列車與客運列車之間的優(yōu)先級關(guān)系，以盡量減少對客運列車的延誤。并通過運用強化學(xué)習(xí)技術(shù)，結(jié)合現(xiàn)場實際的調(diào)度措施，使智能體探索并實現(xiàn)更優(yōu)的調(diào)度方案。

技術(shù)研發(fā)人員：方立海,張璞,王春雨,雷滿紅,王國鋒,苗建瑞,潘鈺雯,趙如月,郭志新
受保護(hù)的技術(shù)使用者：中國鐵路蘭州局集團(tuán)有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2025/1/9

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：方立海,張璞,王春雨,雷滿紅,王國鋒,苗建瑞,潘鈺雯,趙如月,郭志新
技術(shù)所有人：中國鐵路蘭州局集團(tuán)有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、楊老師：工程電磁場與磁技術(shù)，無線電能傳輸技術(shù)
2、高老師：1.電力電子及應(yīng)用 2.嵌入式系統(tǒng)應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于強化學(xué)習(xí)的普速鐵路列車運行調(diào)整方法及系統(tǒng)與流程