欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于強化學(xué)習(xí)的普速鐵路列車運行調(diào)整方法及系統(tǒng)與流程

文檔序號:40652856發(fā)布日期:2025-01-10 19:00閱讀:7來源:國知局
基于強化學(xué)習(xí)的普速鐵路列車運行調(diào)整方法及系統(tǒng)與流程

本發(fā)明涉及鐵路調(diào)度指揮,具體涉及一種基于強化學(xué)習(xí)的普速鐵路列車運行調(diào)整方法及系統(tǒng)。


背景技術(shù):

1、鐵路調(diào)度指揮系統(tǒng)應(yīng)對各類風(fēng)險和事故的能力一直是鐵路運營部門所關(guān)注的重點。由于惡劣天氣、臨時限速、自然災(zāi)害甚至列車事故等原因,會擾亂原始的運行計劃,因此需要實時制定列車運行調(diào)整方案。然而在鐵路實際運營過程中,調(diào)度指揮人員只能憑借自己的歷史經(jīng)驗調(diào)整列車運行圖,這種方法容易導(dǎo)致調(diào)整的結(jié)果誤差大、穩(wěn)定性低、主觀性強。在客貨物混跑的線路上,由于客運列車的運行等級高于貨物列車,調(diào)度調(diào)整時通常優(yōu)先考慮客運列車。當(dāng)客運列車的到發(fā)時間受到影響時,往往會導(dǎo)致貨物列車的到發(fā)時間大幅度延誤。同時,由于貨物列車在各區(qū)間的區(qū)間運行時分存在較大的不確定性,使得貨物列車的運行對客運列車的安全構(gòu)成潛在威脅。因此,如何在復(fù)雜多變的運行環(huán)境中有效協(xié)調(diào)客運和貨物列車的運行計劃,以確保列車運行的安全性和效率,是鐵路調(diào)度指揮系統(tǒng)面臨的重大挑戰(zhàn)。

2、列車運行調(diào)整問題或運行動態(tài)調(diào)整是一個np完全問題,隨著人工智能的發(fā)展,機器學(xué)習(xí)、強化學(xué)習(xí)等技術(shù)被廣泛地應(yīng)用于鐵路運輸中,但在普速鐵路運營領(lǐng)域的相關(guān)研究較少。尤其是利用強化學(xué)習(xí)對普速鐵路列車運行調(diào)整的相關(guān)研究并不多見。綜上所述,亟需一種能夠為行車調(diào)度員實時制定普速鐵路列車運行調(diào)整方案提供決策支持的方法。


技術(shù)實現(xiàn)思路

1、本發(fā)明的目的在于提供一種基于強化學(xué)習(xí)的普速鐵路列車運行調(diào)整方法及系統(tǒng),以解決上述背景技術(shù)中存在的至少一項技術(shù)問題。

2、為了實現(xiàn)上述目的,本發(fā)明采取了如下技術(shù)方案:

3、第一方面,本發(fā)明提供一種基于強化學(xué)習(xí)的普速鐵路列車運行調(diào)整方法,包括:

4、考慮列車運行過程中的動態(tài)性和隨機性,以列車在各車站的總延誤最小以及貨物列車停站次數(shù)最小為目標(biāo),構(gòu)建普速鐵路列車運行調(diào)整模型;

5、基于強化學(xué)習(xí)dqn求解算法對普速鐵路列車運行調(diào)整模型分兩階段求解,實現(xiàn)普速列車運行調(diào)整;其中,首先根據(jù)dqn算法,調(diào)整客運列車的運行時間、到發(fā)線運用;然后,固定客運列車運行調(diào)整結(jié)果,根據(jù)歷史數(shù)據(jù)統(tǒng)計分析得到貨物列車區(qū)間運行時分,調(diào)整貨物列車的運行時間、到發(fā)線運用。

6、進(jìn)一步的,所述普速鐵路列車調(diào)度調(diào)整模型如下:

7、目標(biāo)函數(shù)為列車的總延誤時間以及貨物列車的在各站的停站次數(shù)兩部分:

8、

9、式中:f為列車,f為所有列車的集合,s為車站,為決策變量,代表調(diào)整后的列車出發(fā)時間,為圖定的列車出發(fā)時間,fh為貨物列車,為0-1決策變量,代表貨物列車在各車站是否停站。

10、進(jìn)一步的,所述dqn算法包括:在列車運行調(diào)整過程中,首先獲取當(dāng)前路網(wǎng)狀態(tài)st,并根據(jù)ε-greedy策略,從所有可行的動作中選擇一個動作at,引導(dǎo)列車進(jìn)入新的狀態(tài)st+1,并給出一個可反映新狀態(tài)優(yōu)劣的獎勵值rt;然后,智能體根據(jù)新的狀態(tài)和獎勵值再次進(jìn)行決策選擇動作,隨著時間推移,直到所有列車到達(dá)終到站。

11、進(jìn)一步的,智能體包括目標(biāo)網(wǎng)絡(luò)和評價網(wǎng)絡(luò),使用經(jīng)驗池存儲列車調(diào)度過程中決策前后的列車狀態(tài)信息、具體的決策信息以及相應(yīng)的獎勵信息;從經(jīng)驗池中隨機抽取一批狀態(tài)信息,分別輸入到目標(biāo)網(wǎng)絡(luò)和評價網(wǎng)絡(luò)中;評價網(wǎng)絡(luò)根據(jù)這兩個決策執(zhí)行策略迭代,兩個決策之間的差異構(gòu)成損失值;通過神經(jīng)網(wǎng)絡(luò)優(yōu)化器最小化損失值,從而訓(xùn)練評價網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù);經(jīng)過一定的時間間隔后,將評價網(wǎng)絡(luò)的參數(shù)同步到目標(biāo)網(wǎng)絡(luò)中。

12、進(jìn)一步的,ε-greedy的策略如下:

13、

14、其中,在學(xué)習(xí)過程中產(chǎn)生一個隨機數(shù)rand∈(0,1),如果隨機數(shù)大于1-ε,則在st狀態(tài)下隨機選擇一個可行動作,其他情況則在st狀態(tài)下選擇一個q值最大的動作;式中,a*(st)表示在st狀態(tài)下q值最大的可行動作,a(st)表示在st狀態(tài)下所有可行動作的集合。

15、進(jìn)一步的,q值更新公式如下:

16、q(st,at;θt)←q(st,at;θt)+α[rt+γmax(st+1,at+1;θ-)-q(st,at;θt)]

17、式中,q(st,at;θt)是當(dāng)前狀態(tài)st和動作at對應(yīng)的q值,θt為計算q值的神經(jīng)網(wǎng)絡(luò)的參數(shù),α是學(xué)習(xí)率,控制q值更新的步長;rt是在狀態(tài)st采取動作at后得到的即時獎勵;γ是折扣因子,表示未來獎勵的折扣率;max(st+1,at+1;θ-)是在下一狀態(tài)st+1下,選擇最優(yōu)動作at+1所對應(yīng)的最大q值。

18、第二方面,本發(fā)明提供一種基于強化學(xué)習(xí)的普速鐵路列車運行調(diào)整系統(tǒng),包括:

19、構(gòu)建模塊,用于考慮列車運行過程中的動態(tài)性和隨機性,以列車在各車站的總延誤最小以及貨物列車停站次數(shù)最小為目標(biāo),構(gòu)建普速鐵路列車運行調(diào)整模型;

20、求解模塊,用于基于強化學(xué)習(xí)dqn求解算法對普速鐵路列車運行調(diào)整模型分兩階段求解,實現(xiàn)普速列車運行調(diào)整;其中,首先根據(jù)dqn算法,調(diào)整客運列車的運行時間、到發(fā)線運用;然后,固定客運列車運行調(diào)整結(jié)果,根據(jù)歷史數(shù)據(jù)統(tǒng)計分析得到貨物列車區(qū)間運行時分,調(diào)整貨物列車的運行時間、到發(fā)線運用。

21、第三方面,本發(fā)明提供一種非暫態(tài)計算機可讀存儲介質(zhì),所述非暫態(tài)計算機可讀存儲介質(zhì)用于存儲計算機指令,所述計算機指令被處理器執(zhí)行時,實現(xiàn)如第一方面所述的基于強化學(xué)習(xí)的普速鐵路列車運行調(diào)整方法。

22、第四方面,本發(fā)明提供一種計算機設(shè)備,包括存儲器和處理器,所述處理器和所述存儲器相互通信,所述存儲器存儲有可被所述處理器執(zhí)行的程序指令,所述處理器調(diào)用所述程序指令執(zhí)行如第一方面所述的基于強化學(xué)習(xí)的普速鐵路列車運行調(diào)整方法。

23、第五方面,本發(fā)明提供一種電子設(shè)備,包括:處理器、存儲器以及計算機程序;其中,處理器與存儲器連接,計算機程序被存儲在存儲器中,當(dāng)電子設(shè)備運行時,所述處理器執(zhí)行所述存儲器存儲的計算機程序,以使電子設(shè)備執(zhí)行實現(xiàn)如第一方面所述的基于強化學(xué)習(xí)的普速鐵路列車運行調(diào)整方法的指令。

24、本發(fā)明有益效果:考慮到貨物列車在區(qū)間運行時分的不確定性,并在調(diào)整時優(yōu)先考慮貨物列車與客運列車之間的優(yōu)先級關(guān)系,以盡量減少對客運列車的延誤。并通過運用強化學(xué)習(xí)技術(shù),結(jié)合現(xiàn)場實際的調(diào)度措施,使智能體探索并實現(xiàn)更優(yōu)的調(diào)度方案。

25、本發(fā)明附加方面的優(yōu)點,將在下述的描述部分中更加明顯的給出,或通過本發(fā)明的實踐了解到。



技術(shù)特征:

1.一種基于強化學(xué)習(xí)的普速鐵路列車運行調(diào)整方法,其特征在于,包括:

2.根據(jù)權(quán)利要求1所述的基于強化學(xué)習(xí)的普速鐵路列車運行調(diào)整方法,其特征在于,所述普速鐵路列車調(diào)度調(diào)整模型如下:

3.根據(jù)權(quán)利要求1所述的基于強化學(xué)習(xí)的普速鐵路列車運行調(diào)整方法,其特征在于,所述dqn算法包括:在列車運行調(diào)整過程中,首先獲取當(dāng)前路網(wǎng)狀態(tài)st,并根據(jù)ε-greedy策略,從所有可行的動作中選擇一個動作at,引導(dǎo)列車進(jìn)入新的狀態(tài)st+1,并給出一個可反映新狀態(tài)優(yōu)劣的獎勵值rt;然后,智能體根據(jù)新的狀態(tài)和獎勵值再次進(jìn)行決策選擇動作,隨著時間推移,直到所有列車到達(dá)調(diào)度區(qū)段終到站。

4.根據(jù)權(quán)利要求3所述的基于強化學(xué)習(xí)的普速鐵路列車運行調(diào)整方法,其特征在于,智能體包括目標(biāo)網(wǎng)絡(luò)和評價網(wǎng)絡(luò),使用經(jīng)驗池存儲列車調(diào)度過程中決策前后的列車狀態(tài)信息、具體的決策信息以及相應(yīng)的獎勵信息;從經(jīng)驗池中隨機抽取一批狀態(tài)信息,分別輸入到目標(biāo)網(wǎng)絡(luò)和評價網(wǎng)絡(luò)中;評價網(wǎng)絡(luò)根據(jù)這兩個決策執(zhí)行策略迭代,兩個決策之間的差異構(gòu)成損失值;通過神經(jīng)網(wǎng)絡(luò)優(yōu)化器最小化損失值,從而訓(xùn)練評價網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù);經(jīng)過一定的時間間隔后,將評價網(wǎng)絡(luò)的參數(shù)同步到目標(biāo)網(wǎng)絡(luò)中。

5.根據(jù)權(quán)利要求3所述的基于強化學(xué)習(xí)的普速鐵路列車運行調(diào)整方法,其特征在于,ε-greedy的策略如下:

6.根據(jù)權(quán)利要求3所述的基于強化學(xué)習(xí)的普速鐵路列車運行調(diào)整方法,其特征在于,q值更新公式如下:

7.一種基于強化學(xué)習(xí)的普速鐵路列車運行調(diào)整系統(tǒng),其特征在于,包括:

8.一種非暫態(tài)計算機可讀存儲介質(zhì),其特征在于,所述非暫態(tài)計算機可讀存儲介質(zhì)用于存儲計算機指令,所述計算機指令被處理器執(zhí)行時,實現(xiàn)如權(quán)利要求1-6任一項所述的基于強化學(xué)習(xí)的普速鐵路列車運行調(diào)整方法。

9.一種計算機設(shè)備,其特征在于,包括存儲器和處理器,所述處理器和所述存儲器相互通信,所述存儲器存儲有可被所述處理器執(zhí)行的程序指令,所述處理器調(diào)用所述程序指令執(zhí)行如權(quán)利要求1-6任一項所述的基于強化學(xué)習(xí)的普速鐵路列車運行調(diào)整方法。

10.一種電子設(shè)備,其特征在于,包括:處理器、存儲器以及計算機程序;其中,處理器與存儲器連接,計算機程序被存儲在存儲器中,當(dāng)電子設(shè)備運行時,所述處理器執(zhí)行所述存儲器存儲的計算機程序,以使電子設(shè)備執(zhí)行實現(xiàn)如權(quán)利要求1-6任一項所述的基于強化學(xué)習(xí)的普速鐵路列車運行調(diào)整方法的指令。


技術(shù)總結(jié)
本發(fā)明提供一種基于強化學(xué)習(xí)的普速鐵路列車運行調(diào)整方法及系統(tǒng),屬于鐵路調(diào)度指揮技術(shù)領(lǐng)域,考慮列車運行過程中的動態(tài)性和隨機性,以列車在各車站的總延誤最小以及貨物列車停站次數(shù)最小為目標(biāo),構(gòu)建普速鐵路列車運行調(diào)整模型;基于強化學(xué)習(xí)DQN求解算法對普速鐵路列車運行調(diào)整模型分兩階段求解,實現(xiàn)普速列車運行調(diào)整。本發(fā)明考慮到貨物列車在區(qū)間運行時分的不確定性,并在調(diào)整時優(yōu)先考慮貨物列車與客運列車之間的優(yōu)先級關(guān)系,以盡量減少對客運列車的延誤。并通過運用強化學(xué)習(xí)技術(shù),結(jié)合現(xiàn)場實際的調(diào)度措施,使智能體探索并實現(xiàn)更優(yōu)的調(diào)度方案。

技術(shù)研發(fā)人員:方立海,張璞,王春雨,雷滿紅,王國鋒,苗建瑞,潘鈺雯,趙如月,郭志新
受保護(hù)的技術(shù)使用者:中國鐵路蘭州局集團(tuán)有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/1/9
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
临桂县| 运城市| 台东市| 珲春市| 仁怀市| 大兴区| 错那县| 浦北县| 沛县| 高清| 西峡县| 磐石市| 康乐县| 溧阳市| 伊宁市| 微山县| 台山市| 昌都县| 治多县| 陆丰市| 米泉市| 平顶山市| 阳信县| 辛集市| 麻栗坡县| 兰考县| 景泰县| 延长县| 浦东新区| 易门县| 特克斯县| 鞍山市| 高雄市| 宜章县| 泌阳县| 哈巴河县| 聂拉木县| 绥化市| 奈曼旗| 华池县| 清远市|