一種基于改進(jìn)PPO算法的多AGV調(diào)度系統(tǒng)及其方法與流程

文檔序號(hào)：39899450發(fā)布日期：2024-11-05 17:02閱讀：37來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>控制;調(diào)節(jié)裝置的制造及其應(yīng)用技術(shù)

一種基于改進(jìn)PPO算法的多AGV調(diào)度系統(tǒng)及其方法與流程

本發(fā)明涉及agv調(diào)度，具體涉及一種基于改進(jìn)ppo算法的多agv調(diào)度系統(tǒng)及其方法。

背景技術(shù)：

1、自動(dòng)引導(dǎo)車(chē)(agv)系統(tǒng)在制造和倉(cāng)庫(kù)環(huán)境中進(jìn)行路徑規(guī)劃時(shí)面臨著重大挑戰(zhàn)，這些環(huán)境通常具有高度的動(dòng)態(tài)性和復(fù)雜性，需求包括避免碰撞和在有限空間內(nèi)有效管理多個(gè)agv的運(yùn)作。現(xiàn)有的agv調(diào)度系統(tǒng)大多依賴預(yù)設(shè)的路徑和固定的操作規(guī)則，這在不斷變化的環(huán)境中常常導(dǎo)致效率低下。此外，工廠和倉(cāng)庫(kù)的布局可能根據(jù)生產(chǎn)需求調(diào)整，需要調(diào)度系統(tǒng)能夠?qū)崟r(shí)響應(yīng)這些變化，并有效地管理agv車(chē)輛以避免擁堵和碰撞。

2、深度神經(jīng)網(wǎng)絡(luò)，特別是通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的網(wǎng)絡(luò)，為處理復(fù)雜的決策問(wèn)題提供了強(qiáng)大的工具。在眾多強(qiáng)化學(xué)習(xí)算法中，ppo(proximal?policy?optimization)算法特別適合于實(shí)時(shí)、動(dòng)態(tài)的決策環(huán)境，如多agv調(diào)度系統(tǒng)。這種算法能夠在保證學(xué)習(xí)穩(wěn)定性的同時(shí)，優(yōu)化長(zhǎng)期獎(jiǎng)勵(lì)，使得模型能夠在接收到環(huán)境反饋的基礎(chǔ)上不斷自我改進(jìn)，適應(yīng)多變的任務(wù)和環(huán)境要求。此外，深度學(xué)習(xí)模型能夠從大量數(shù)據(jù)中學(xué)習(xí)到復(fù)雜的模式和策略，提高調(diào)度策略的效率和精確性。但是市面上還沒(méi)有一種將ppo算法、深度神經(jīng)網(wǎng)絡(luò)同時(shí)應(yīng)用在工廠及倉(cāng)庫(kù)agv調(diào)度領(lǐng)域上。

3、因此，現(xiàn)有的調(diào)度系統(tǒng)在需求和環(huán)境條件頻繁變化的情況下，無(wú)法有效處理復(fù)雜環(huán)境下的動(dòng)態(tài)調(diào)度問(wèn)題。

技術(shù)實(shí)現(xiàn)思路

1、為了解決現(xiàn)有技術(shù)中普遍存在的各種問(wèn)題，本發(fā)明的目的在于提供一種基于改進(jìn)ppo算法的多agv調(diào)度系統(tǒng)及其方法，該發(fā)明可以實(shí)現(xiàn)不同場(chǎng)景中agv調(diào)度策略網(wǎng)絡(luò)的訓(xùn)練，訓(xùn)練速度快且調(diào)度策略網(wǎng)絡(luò)高效、靈活。

2、本發(fā)明通過(guò)以下技術(shù)方案來(lái)實(shí)現(xiàn)上述目的：

3、一種基于改進(jìn)ppo算法的多agv調(diào)度系統(tǒng)，包括：

4、多agv調(diào)度仿真環(huán)境環(huán)境、改進(jìn)的ppo強(qiáng)化學(xué)習(xí)算法模型和深度神經(jīng)網(wǎng)絡(luò)；

5、其中，改進(jìn)的ppo強(qiáng)化學(xué)習(xí)算法模型包括：計(jì)算樣本中觀測(cè)狀態(tài)的g值時(shí)，區(qū)分結(jié)束狀態(tài)terminated和truncated；當(dāng)結(jié)束狀態(tài)為terminated時(shí)，設(shè)置該結(jié)束狀態(tài)的g值為0，而當(dāng)結(jié)束狀態(tài)為truncated時(shí)，該結(jié)束狀態(tài)的g值使用critic估計(jì)，即vθ(s)。

6、根據(jù)本發(fā)明提供的一種基于改進(jìn)ppo算法的多agv調(diào)度系統(tǒng)，所述深度神經(jīng)網(wǎng)絡(luò)為調(diào)度策略網(wǎng)絡(luò)actor和價(jià)值函數(shù)critic的載體，所述調(diào)度策略網(wǎng)絡(luò)actor包括特征提取模塊和策略模塊，所述價(jià)值函數(shù)critic包括特征提取模塊和價(jià)值函數(shù)模塊，兩者共用一個(gè)特征提取模塊。

7、根據(jù)本發(fā)明提供的一種基于改進(jìn)ppo算法的多agv調(diào)度系統(tǒng)，所述特征提取模塊為觀測(cè)狀態(tài)輸入的第一塊網(wǎng)絡(luò)，使用多層卷積神經(jīng)網(wǎng)絡(luò)和池化層以及一個(gè)展平層和若干個(gè)全連接層構(gòu)成，輸出一維特征向量；所述策略模塊連接在所述特征提取模塊后，使用特征提取模塊輸出的特征向量作為輸入，由若干個(gè)全連接層構(gòu)成，輸出動(dòng)作；所述價(jià)值函數(shù)模塊同樣連接在特征提取模塊后，使用特征提取模塊輸出的特征向量作為輸入，由若干個(gè)全連接層構(gòu)成，輸出狀態(tài)價(jià)值的預(yù)測(cè)值。

8、一種基于改進(jìn)ppo算法的多agv調(diào)度方法，該方法用于實(shí)施上述的基于改進(jìn)ppo算法的多agv調(diào)度系統(tǒng)，該方法包括以下步驟：

9、創(chuàng)建多agv調(diào)度仿真環(huán)境，用于模擬真實(shí)場(chǎng)景中多agv運(yùn)作的虛擬環(huán)境；

10、創(chuàng)建并初始化調(diào)度策略網(wǎng)絡(luò)，用于根據(jù)當(dāng)前狀態(tài)生成調(diào)度決策；

11、創(chuàng)建價(jià)值函數(shù)網(wǎng)絡(luò)，用于對(duì)當(dāng)前狀態(tài)的價(jià)值進(jìn)行評(píng)估，并指導(dǎo)調(diào)度策略網(wǎng)絡(luò)的優(yōu)化方向，以幫助實(shí)現(xiàn)穩(wěn)定高效的策略更新過(guò)程；

12、使用調(diào)度策略網(wǎng)絡(luò)與agv調(diào)度仿真環(huán)境進(jìn)行交互，即策略網(wǎng)絡(luò)根據(jù)當(dāng)前環(huán)境狀態(tài)生成調(diào)度決策，agv調(diào)度仿真環(huán)境根據(jù)該調(diào)度決策執(zhí)行相應(yīng)的物理模擬，并在agv調(diào)度仿真環(huán)境中執(zhí)行調(diào)度任務(wù)，計(jì)算所有agv每一仿真步的狀態(tài)、動(dòng)作、獎(jiǎng)勵(lì)以及其他信息，記錄調(diào)度樣本數(shù)據(jù)到樣本數(shù)據(jù)池中；

13、當(dāng)樣本數(shù)據(jù)池填滿后，使用樣本池中的調(diào)度樣本數(shù)據(jù)，對(duì)策略網(wǎng)絡(luò)和價(jià)值函數(shù)網(wǎng)絡(luò)進(jìn)行更新，調(diào)整網(wǎng)絡(luò)參數(shù)；

14、將訓(xùn)練好的調(diào)度策略網(wǎng)絡(luò)包裝為agv的實(shí)時(shí)在線調(diào)度系統(tǒng)，對(duì)多個(gè)agv進(jìn)行實(shí)時(shí)、高效任務(wù)調(diào)度。

15、根據(jù)本發(fā)明提供的一種基于改進(jìn)ppo算法的多agv調(diào)度方法，所述多agv調(diào)度仿真環(huán)境基于馬爾可夫決策過(guò)程模型搭建，所述馬爾可夫決策過(guò)程模型包括：

16、觀測(cè)狀態(tài)的設(shè)置，其包含agv當(dāng)前所處狀態(tài)信息；

17、動(dòng)作的設(shè)置，即為調(diào)度指令，包括系統(tǒng)可以執(zhí)行的所有動(dòng)作的集合；

18、結(jié)束條件，所述馬爾可夫決策過(guò)程模型包括三種結(jié)束條件，分別是：完成所有搬運(yùn)任務(wù)、超過(guò)設(shè)定的最大仿真時(shí)間、仿真過(guò)程中發(fā)生碰撞；

19、獎(jiǎng)勵(lì)函數(shù)的設(shè)置，根據(jù)訓(xùn)練目標(biāo)進(jìn)行設(shè)置。

20、根據(jù)本發(fā)明提供的一種基于改進(jìn)ppo算法的多agv調(diào)度方法，在設(shè)置觀測(cè)狀態(tài)時(shí)，觀測(cè)狀態(tài)由5個(gè)二維矩陣構(gòu)成，分別表示地圖信息、agv所在位置、agv目標(biāo)位置，其他agv當(dāng)前位置和其他agv的目標(biāo)位置；其中，這些矩陣表示的是由拓?fù)涞貓D轉(zhuǎn)換后的柵格地圖，矩陣的尺寸根據(jù)實(shí)際地圖尺寸和分辨率計(jì)算得到；

21、其中，地圖信息矩陣表示了整個(gè)工作區(qū)域的靜態(tài)環(huán)境信息；agv所在位置矩陣標(biāo)記了當(dāng)前所有agv在柵格地圖中的具體位置；gv目標(biāo)位置矩陣標(biāo)記了每個(gè)agv的目標(biāo)位置；其他agv當(dāng)前位置矩陣標(biāo)記了除了當(dāng)前關(guān)注的agv之外，其他所有agv在柵格地圖中的當(dāng)前位置；其他agv的目標(biāo)位置矩陣標(biāo)記了除了當(dāng)前關(guān)注的agv之外，其他所有agv的目標(biāo)位置。

22、根據(jù)本發(fā)明提供的一種基于改進(jìn)ppo算法的多agv調(diào)度方法，在設(shè)置動(dòng)作時(shí)，調(diào)度指令被設(shè)計(jì)為當(dāng)前agv應(yīng)該前往的下一個(gè)節(jié)點(diǎn)的id，當(dāng)agv調(diào)度仿真環(huán)境接收到動(dòng)作后使用a*路徑搜索算法搜索agv前往該節(jié)點(diǎn)的路徑，并執(zhí)行該路徑。

23、根據(jù)本發(fā)明提供的一種基于改進(jìn)ppo算法的多agv調(diào)度方法，在設(shè)置結(jié)束條件時(shí)，在一個(gè)調(diào)度仿真episode中，設(shè)置有若干個(gè)搬運(yùn)任務(wù)；在一個(gè)調(diào)度仿真episode中，所有agv需要共同完成設(shè)定的搬運(yùn)任務(wù)，因而具有相同的結(jié)束狀態(tài)；

24、在完成所有搬運(yùn)任務(wù)和發(fā)生碰撞這兩種結(jié)束狀態(tài)被稱為終止，而達(dá)到最大仿真時(shí)間的技術(shù)狀態(tài)被稱為截?cái)唷?/p>

25、其中，獎(jiǎng)勵(lì)由密集獎(jiǎng)勵(lì)和稀疏獎(jiǎng)勵(lì)兩部分組成，密集獎(jiǎng)勵(lì)在每一個(gè)仿真步都會(huì)獲得，表示agv執(zhí)行該步動(dòng)作所消耗的能量，為負(fù)值；稀疏獎(jiǎng)勵(lì)只有在agv完成一個(gè)搬運(yùn)任務(wù)或達(dá)到結(jié)束條件時(shí)獲得。

26、根據(jù)本發(fā)明提供的一種基于改進(jìn)ppo算法的多agv調(diào)度方法，agv調(diào)度仿真環(huán)境在與調(diào)度策略網(wǎng)絡(luò)交互的過(guò)程中，首先輸出觀測(cè)狀態(tài)；在調(diào)度策略網(wǎng)絡(luò)輸入觀測(cè)狀態(tài)并輸出動(dòng)作后，仿真環(huán)境輸入并執(zhí)行該動(dòng)作來(lái)進(jìn)行仿真；

27、其中，仿真環(huán)境中包含有向圖表示的拓?fù)涞貓D和若干臺(tái)agv小車(chē)，以及任務(wù)生成器、任務(wù)分配器和a*路徑規(guī)劃算法；

28、在拓?fù)涞貓D中，節(jié)點(diǎn)表示agv可以停留的位置，邊表示節(jié)點(diǎn)之間可通行的路徑，對(duì)每一臺(tái)agv，仿真環(huán)境會(huì)分別為其計(jì)算觀測(cè)狀態(tài)、接收動(dòng)作并規(guī)劃路徑。

29、根據(jù)本發(fā)明提供的一種基于改進(jìn)ppo算法的多agv調(diào)度方法，在調(diào)度策略網(wǎng)絡(luò)對(duì)agv調(diào)度仿真環(huán)境中多個(gè)agv進(jìn)行調(diào)度時(shí)，采用異步調(diào)度的方式，當(dāng)agv調(diào)度仿真環(huán)境中存在agv請(qǐng)求路徑時(shí)，agv調(diào)度仿真環(huán)境返回當(dāng)前agv的觀測(cè)狀態(tài)、獎(jiǎng)勵(lì)、結(jié)束狀態(tài)，并接受動(dòng)作；

30、當(dāng)agv調(diào)度仿真環(huán)境中沒(méi)有agv請(qǐng)求路徑時(shí)，仿真才會(huì)繼續(xù)進(jìn)行；

31、當(dāng)一個(gè)agv觸發(fā)結(jié)束狀態(tài)時(shí)，需要依次返回所有agv的觀測(cè)狀態(tài)、獎(jiǎng)勵(lì)、結(jié)束狀態(tài)，并保存這些仿真樣本數(shù)據(jù)到樣本數(shù)據(jù)池中。。

32、由此可見(jiàn)，相比于現(xiàn)有技術(shù)，本發(fā)明具有以下有益效果：

33、1、提高調(diào)度效率：本發(fā)明通過(guò)引入改進(jìn)的ppo(proximal?policy?optimization，近端策略優(yōu)化)算法，系統(tǒng)能夠更快速地學(xué)習(xí)和適應(yīng)復(fù)雜的調(diào)度環(huán)境。ppo算法在保持策略穩(wěn)定性的同時(shí)，允許較大的策略更新步長(zhǎng)，從而加速了學(xué)習(xí)過(guò)程，提高了調(diào)度效率。

34、2、增強(qiáng)魯棒性：本發(fā)明在改進(jìn)的ppo算法中，通過(guò)區(qū)分結(jié)束狀態(tài)terminated和truncated，并分別處理其g值(累積回報(bào))，使得算法能夠更準(zhǔn)確地評(píng)估不同情況下的策略效果，這種處理方式增強(qiáng)了算法對(duì)噪聲和不確定性的容忍度，提高了系統(tǒng)的魯棒性。

35、3、實(shí)現(xiàn)高效策略更新：本發(fā)明利用深度神經(jīng)網(wǎng)絡(luò)構(gòu)建的價(jià)值函數(shù)網(wǎng)絡(luò)(critic)對(duì)狀態(tài)價(jià)值進(jìn)行評(píng)估，并指導(dǎo)調(diào)度策略網(wǎng)絡(luò)(actor)的優(yōu)化方向，這種結(jié)構(gòu)不僅有助于實(shí)現(xiàn)穩(wěn)定高效的策略更新過(guò)程，還能夠在一定程度上減少過(guò)擬合的風(fēng)險(xiǎn)，提高調(diào)度策略的泛化能力。

36、4、仿真環(huán)境支持：本發(fā)明通過(guò)創(chuàng)建多agv調(diào)度仿真環(huán)境，系統(tǒng)能夠在虛擬環(huán)境中模擬真實(shí)場(chǎng)景中的多agv運(yùn)作，為算法的訓(xùn)練和測(cè)試提供了便利。仿真環(huán)境能夠復(fù)現(xiàn)各種復(fù)雜場(chǎng)景和突發(fā)事件，使得調(diào)度策略能夠在實(shí)際應(yīng)用前得到充分驗(yàn)證和優(yōu)化。

37、5、實(shí)時(shí)在線調(diào)度能力：本發(fā)明訓(xùn)練好的調(diào)度策略網(wǎng)絡(luò)可以被包裝為agv的實(shí)時(shí)在線調(diào)度系統(tǒng)，對(duì)多個(gè)agv進(jìn)行實(shí)時(shí)、高效的任務(wù)調(diào)度，這種實(shí)時(shí)調(diào)度能力對(duì)于提高生產(chǎn)效率、降低運(yùn)營(yíng)成本具有重要意義。

38、6、可擴(kuò)展性和靈活性：本發(fā)明基于深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的調(diào)度系統(tǒng)具有較高的可擴(kuò)展性和靈活性。隨著生產(chǎn)環(huán)境和需求的變化，可以通過(guò)調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)和算法參數(shù)來(lái)適應(yīng)新的場(chǎng)景和任務(wù)要求，無(wú)需對(duì)系統(tǒng)進(jìn)行大規(guī)模的重構(gòu)或修改。

39、7、減少人工干預(yù)：本發(fā)明自動(dòng)化調(diào)度系統(tǒng)能夠減少人工干預(yù)和錯(cuò)誤，提高調(diào)度的準(zhǔn)確性和一致性。同時(shí)，自動(dòng)化調(diào)度還能夠降低人力成本，提高生產(chǎn)效益。

40、綜上所述，本發(fā)明基于改進(jìn)ppo算法的多agv調(diào)度系統(tǒng)及其方法在提高調(diào)度效率、增強(qiáng)魯棒性、實(shí)現(xiàn)高效策略更新、支持仿真環(huán)境驗(yàn)證、實(shí)現(xiàn)實(shí)時(shí)在線調(diào)度、可擴(kuò)展性和靈活性以及減少人工干預(yù)等方面具有顯著優(yōu)勢(shì)。

41、下面結(jié)合附圖和具體實(shí)施方式對(duì)本發(fā)明作進(jìn)一步詳細(xì)說(shuō)明。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：邱凱,昝學(xué)彥,李鵬程,蔡積超,王元偉,李道龍,蔣干勝,徐波,盧忠柏
技術(shù)所有人：珠海創(chuàng)智科技有限公司
我是此專(zhuān)利的發(fā)明人

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、唐老師：1.高效節(jié)能裝備 2.流動(dòng)穩(wěn)定性 3.汽車(chē)流場(chǎng)分析和淀粉糖工藝技術(shù)。
2、孫老師：1.振動(dòng)信號(hào)時(shí)頻分析理論與測(cè)試系統(tǒng)設(shè)計(jì) 2.汽車(chē)檢測(cè)系統(tǒng)設(shè)計(jì) 3.汽車(chē)電子控制系統(tǒng)設(shè)計(jì)
3、王老師：電子信息處理、先進(jìn)檢測(cè)方法和智能化儀表
4、周老師：1.智能電網(wǎng) 2.新能源利用 3.泛在電力物聯(lián)網(wǎng)
5、趙老師：檢測(cè)與控制技術(shù)、機(jī)器人技術(shù)、機(jī)電一體化技術(shù)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于改進(jìn)PPO算法的多AGV調(diào)度系統(tǒng)及其方法與流程