本發(fā)明涉及agv調(diào)度,具體涉及一種基于改進(jìn)ppo算法的多agv調(diào)度系統(tǒng)及其方法。
背景技術(shù):
1、自動(dòng)引導(dǎo)車(chē)(agv)系統(tǒng)在制造和倉(cāng)庫(kù)環(huán)境中進(jìn)行路徑規(guī)劃時(shí)面臨著重大挑戰(zhàn),這些環(huán)境通常具有高度的動(dòng)態(tài)性和復(fù)雜性,需求包括避免碰撞和在有限空間內(nèi)有效管理多個(gè)agv的運(yùn)作。現(xiàn)有的agv調(diào)度系統(tǒng)大多依賴預(yù)設(shè)的路徑和固定的操作規(guī)則,這在不斷變化的環(huán)境中常常導(dǎo)致效率低下。此外,工廠和倉(cāng)庫(kù)的布局可能根據(jù)生產(chǎn)需求調(diào)整,需要調(diào)度系統(tǒng)能夠?qū)崟r(shí)響應(yīng)這些變化,并有效地管理agv車(chē)輛以避免擁堵和碰撞。
2、深度神經(jīng)網(wǎng)絡(luò),特別是通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的網(wǎng)絡(luò),為處理復(fù)雜的決策問(wèn)題提供了強(qiáng)大的工具。在眾多強(qiáng)化學(xué)習(xí)算法中,ppo(proximal?policy?optimization)算法特別適合于實(shí)時(shí)、動(dòng)態(tài)的決策環(huán)境,如多agv調(diào)度系統(tǒng)。這種算法能夠在保證學(xué)習(xí)穩(wěn)定性的同時(shí),優(yōu)化長(zhǎng)期獎(jiǎng)勵(lì),使得模型能夠在接收到環(huán)境反饋的基礎(chǔ)上不斷自我改進(jìn),適應(yīng)多變的任務(wù)和環(huán)境要求。此外,深度學(xué)習(xí)模型能夠從大量數(shù)據(jù)中學(xué)習(xí)到復(fù)雜的模式和策略,提高調(diào)度策略的效率和精確性。但是市面上還沒(méi)有一種將ppo算法、深度神經(jīng)網(wǎng)絡(luò)同時(shí)應(yīng)用在工廠及倉(cāng)庫(kù)agv調(diào)度領(lǐng)域上。
3、因此,現(xiàn)有的調(diào)度系統(tǒng)在需求和環(huán)境條件頻繁變化的情況下,無(wú)法有效處理復(fù)雜環(huán)境下的動(dòng)態(tài)調(diào)度問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、為了解決現(xiàn)有技術(shù)中普遍存在的各種問(wèn)題,本發(fā)明的目的在于提供一種基于改進(jìn)ppo算法的多agv調(diào)度系統(tǒng)及其方法,該發(fā)明可以實(shí)現(xiàn)不同場(chǎng)景中agv調(diào)度策略網(wǎng)絡(luò)的訓(xùn)練,訓(xùn)練速度快且調(diào)度策略網(wǎng)絡(luò)高效、靈活。
2、本發(fā)明通過(guò)以下技術(shù)方案來(lái)實(shí)現(xiàn)上述目的:
3、一種基于改進(jìn)ppo算法的多agv調(diào)度系統(tǒng),包括:
4、多agv調(diào)度仿真環(huán)境環(huán)境、改進(jìn)的ppo強(qiáng)化學(xué)習(xí)算法模型和深度神經(jīng)網(wǎng)絡(luò);
5、其中,改進(jìn)的ppo強(qiáng)化學(xué)習(xí)算法模型包括:計(jì)算樣本中觀測(cè)狀態(tài)的g值時(shí),區(qū)分結(jié)束狀態(tài)terminated和truncated;當(dāng)結(jié)束狀態(tài)為terminated時(shí),設(shè)置該結(jié)束狀態(tài)的g值為0,而當(dāng)結(jié)束狀態(tài)為truncated時(shí),該結(jié)束狀態(tài)的g值使用critic估計(jì),即vθ(s)。
6、根據(jù)本發(fā)明提供的一種基于改進(jìn)ppo算法的多agv調(diào)度系統(tǒng),所述深度神經(jīng)網(wǎng)絡(luò)為調(diào)度策略網(wǎng)絡(luò)actor和價(jià)值函數(shù)critic的載體,所述調(diào)度策略網(wǎng)絡(luò)actor包括特征提取模塊和策略模塊,所述價(jià)值函數(shù)critic包括特征提取模塊和價(jià)值函數(shù)模塊,兩者共用一個(gè)特征提取模塊。
7、根據(jù)本發(fā)明提供的一種基于改進(jìn)ppo算法的多agv調(diào)度系統(tǒng),所述特征提取模塊為觀測(cè)狀態(tài)輸入的第一塊網(wǎng)絡(luò),使用多層卷積神經(jīng)網(wǎng)絡(luò)和池化層以及一個(gè)展平層和若干個(gè)全連接層構(gòu)成,輸出一維特征向量;所述策略模塊連接在所述特征提取模塊后,使用特征提取模塊輸出的特征向量作為輸入,由若干個(gè)全連接層構(gòu)成,輸出動(dòng)作;所述價(jià)值函數(shù)模塊同樣連接在特征提取模塊后,使用特征提取模塊輸出的特征向量作為輸入,由若干個(gè)全連接層構(gòu)成,輸出狀態(tài)價(jià)值的預(yù)測(cè)值。
8、一種基于改進(jìn)ppo算法的多agv調(diào)度方法,該方法用于實(shí)施上述的基于改進(jìn)ppo算法的多agv調(diào)度系統(tǒng),該方法包括以下步驟:
9、創(chuàng)建多agv調(diào)度仿真環(huán)境,用于模擬真實(shí)場(chǎng)景中多agv運(yùn)作的虛擬環(huán)境;
10、創(chuàng)建并初始化調(diào)度策略網(wǎng)絡(luò),用于根據(jù)當(dāng)前狀態(tài)生成調(diào)度決策;
11、創(chuàng)建價(jià)值函數(shù)網(wǎng)絡(luò),用于對(duì)當(dāng)前狀態(tài)的價(jià)值進(jìn)行評(píng)估,并指導(dǎo)調(diào)度策略網(wǎng)絡(luò)的優(yōu)化方向,以幫助實(shí)現(xiàn)穩(wěn)定高效的策略更新過(guò)程;
12、使用調(diào)度策略網(wǎng)絡(luò)與agv調(diào)度仿真環(huán)境進(jìn)行交互,即策略網(wǎng)絡(luò)根據(jù)當(dāng)前環(huán)境狀態(tài)生成調(diào)度決策,agv調(diào)度仿真環(huán)境根據(jù)該調(diào)度決策執(zhí)行相應(yīng)的物理模擬,并在agv調(diào)度仿真環(huán)境中執(zhí)行調(diào)度任務(wù),計(jì)算所有agv每一仿真步的狀態(tài)、動(dòng)作、獎(jiǎng)勵(lì)以及其他信息,記錄調(diào)度樣本數(shù)據(jù)到樣本數(shù)據(jù)池中;
13、當(dāng)樣本數(shù)據(jù)池填滿后,使用樣本池中的調(diào)度樣本數(shù)據(jù),對(duì)策略網(wǎng)絡(luò)和價(jià)值函數(shù)網(wǎng)絡(luò)進(jìn)行更新,調(diào)整網(wǎng)絡(luò)參數(shù);
14、將訓(xùn)練好的調(diào)度策略網(wǎng)絡(luò)包裝為agv的實(shí)時(shí)在線調(diào)度系統(tǒng),對(duì)多個(gè)agv進(jìn)行實(shí)時(shí)、高效任務(wù)調(diào)度。
15、根據(jù)本發(fā)明提供的一種基于改進(jìn)ppo算法的多agv調(diào)度方法,所述多agv調(diào)度仿真環(huán)境基于馬爾可夫決策過(guò)程模型搭建,所述馬爾可夫決策過(guò)程模型包括:
16、觀測(cè)狀態(tài)的設(shè)置,其包含agv當(dāng)前所處狀態(tài)信息;
17、動(dòng)作的設(shè)置,即為調(diào)度指令,包括系統(tǒng)可以執(zhí)行的所有動(dòng)作的集合;
18、結(jié)束條件,所述馬爾可夫決策過(guò)程模型包括三種結(jié)束條件,分別是:完成所有搬運(yùn)任務(wù)、超過(guò)設(shè)定的最大仿真時(shí)間、仿真過(guò)程中發(fā)生碰撞;
19、獎(jiǎng)勵(lì)函數(shù)的設(shè)置,根據(jù)訓(xùn)練目標(biāo)進(jìn)行設(shè)置。
20、根據(jù)本發(fā)明提供的一種基于改進(jìn)ppo算法的多agv調(diào)度方法,在設(shè)置觀測(cè)狀態(tài)時(shí),觀測(cè)狀態(tài)由5個(gè)二維矩陣構(gòu)成,分別表示地圖信息、agv所在位置、agv目標(biāo)位置,其他agv當(dāng)前位置和其他agv的目標(biāo)位置;其中,這些矩陣表示的是由拓?fù)涞貓D轉(zhuǎn)換后的柵格地圖,矩陣的尺寸根據(jù)實(shí)際地圖尺寸和分辨率計(jì)算得到;
21、其中,地圖信息矩陣表示了整個(gè)工作區(qū)域的靜態(tài)環(huán)境信息;agv所在位置矩陣標(biāo)記了當(dāng)前所有agv在柵格地圖中的具體位置;gv目標(biāo)位置矩陣標(biāo)記了每個(gè)agv的目標(biāo)位置;其他agv當(dāng)前位置矩陣標(biāo)記了除了當(dāng)前關(guān)注的agv之外,其他所有agv在柵格地圖中的當(dāng)前位置;其他agv的目標(biāo)位置矩陣標(biāo)記了除了當(dāng)前關(guān)注的agv之外,其他所有agv的目標(biāo)位置。
22、根據(jù)本發(fā)明提供的一種基于改進(jìn)ppo算法的多agv調(diào)度方法,在設(shè)置動(dòng)作時(shí),調(diào)度指令被設(shè)計(jì)為當(dāng)前agv應(yīng)該前往的下一個(gè)節(jié)點(diǎn)的id,當(dāng)agv調(diào)度仿真環(huán)境接收到動(dòng)作后使用a*路徑搜索算法搜索agv前往該節(jié)點(diǎn)的路徑,并執(zhí)行該路徑。
23、根據(jù)本發(fā)明提供的一種基于改進(jìn)ppo算法的多agv調(diào)度方法,在設(shè)置結(jié)束條件時(shí),在一個(gè)調(diào)度仿真episode中,設(shè)置有若干個(gè)搬運(yùn)任務(wù);在一個(gè)調(diào)度仿真episode中,所有agv需要共同完成設(shè)定的搬運(yùn)任務(wù),因而具有相同的結(jié)束狀態(tài);
24、在完成所有搬運(yùn)任務(wù)和發(fā)生碰撞這兩種結(jié)束狀態(tài)被稱為終止,而達(dá)到最大仿真時(shí)間的技術(shù)狀態(tài)被稱為截?cái)唷?/p>
25、其中,獎(jiǎng)勵(lì)由密集獎(jiǎng)勵(lì)和稀疏獎(jiǎng)勵(lì)兩部分組成,密集獎(jiǎng)勵(lì)在每一個(gè)仿真步都會(huì)獲得,表示agv執(zhí)行該步動(dòng)作所消耗的能量,為負(fù)值;稀疏獎(jiǎng)勵(lì)只有在agv完成一個(gè)搬運(yùn)任務(wù)或達(dá)到結(jié)束條件時(shí)獲得。
26、根據(jù)本發(fā)明提供的一種基于改進(jìn)ppo算法的多agv調(diào)度方法,agv調(diào)度仿真環(huán)境在與調(diào)度策略網(wǎng)絡(luò)交互的過(guò)程中,首先輸出觀測(cè)狀態(tài);在調(diào)度策略網(wǎng)絡(luò)輸入觀測(cè)狀態(tài)并輸出動(dòng)作后,仿真環(huán)境輸入并執(zhí)行該動(dòng)作來(lái)進(jìn)行仿真;
27、其中,仿真環(huán)境中包含有向圖表示的拓?fù)涞貓D和若干臺(tái)agv小車(chē),以及任務(wù)生成器、任務(wù)分配器和a*路徑規(guī)劃算法;
28、在拓?fù)涞貓D中,節(jié)點(diǎn)表示agv可以停留的位置,邊表示節(jié)點(diǎn)之間可通行的路徑,對(duì)每一臺(tái)agv,仿真環(huán)境會(huì)分別為其計(jì)算觀測(cè)狀態(tài)、接收動(dòng)作并規(guī)劃路徑。
29、根據(jù)本發(fā)明提供的一種基于改進(jìn)ppo算法的多agv調(diào)度方法,在調(diào)度策略網(wǎng)絡(luò)對(duì)agv調(diào)度仿真環(huán)境中多個(gè)agv進(jìn)行調(diào)度時(shí),采用異步調(diào)度的方式,當(dāng)agv調(diào)度仿真環(huán)境中存在agv請(qǐng)求路徑時(shí),agv調(diào)度仿真環(huán)境返回當(dāng)前agv的觀測(cè)狀態(tài)、獎(jiǎng)勵(lì)、結(jié)束狀態(tài),并接受動(dòng)作;
30、當(dāng)agv調(diào)度仿真環(huán)境中沒(méi)有agv請(qǐng)求路徑時(shí),仿真才會(huì)繼續(xù)進(jìn)行;
31、當(dāng)一個(gè)agv觸發(fā)結(jié)束狀態(tài)時(shí),需要依次返回所有agv的觀測(cè)狀態(tài)、獎(jiǎng)勵(lì)、結(jié)束狀態(tài),并保存這些仿真樣本數(shù)據(jù)到樣本數(shù)據(jù)池中。。
32、由此可見(jiàn),相比于現(xiàn)有技術(shù),本發(fā)明具有以下有益效果:
33、1、提高調(diào)度效率:本發(fā)明通過(guò)引入改進(jìn)的ppo(proximal?policy?optimization,近端策略優(yōu)化)算法,系統(tǒng)能夠更快速地學(xué)習(xí)和適應(yīng)復(fù)雜的調(diào)度環(huán)境。ppo算法在保持策略穩(wěn)定性的同時(shí),允許較大的策略更新步長(zhǎng),從而加速了學(xué)習(xí)過(guò)程,提高了調(diào)度效率。
34、2、增強(qiáng)魯棒性:本發(fā)明在改進(jìn)的ppo算法中,通過(guò)區(qū)分結(jié)束狀態(tài)terminated和truncated,并分別處理其g值(累積回報(bào)),使得算法能夠更準(zhǔn)確地評(píng)估不同情況下的策略效果,這種處理方式增強(qiáng)了算法對(duì)噪聲和不確定性的容忍度,提高了系統(tǒng)的魯棒性。
35、3、實(shí)現(xiàn)高效策略更新:本發(fā)明利用深度神經(jīng)網(wǎng)絡(luò)構(gòu)建的價(jià)值函數(shù)網(wǎng)絡(luò)(critic)對(duì)狀態(tài)價(jià)值進(jìn)行評(píng)估,并指導(dǎo)調(diào)度策略網(wǎng)絡(luò)(actor)的優(yōu)化方向,這種結(jié)構(gòu)不僅有助于實(shí)現(xiàn)穩(wěn)定高效的策略更新過(guò)程,還能夠在一定程度上減少過(guò)擬合的風(fēng)險(xiǎn),提高調(diào)度策略的泛化能力。
36、4、仿真環(huán)境支持:本發(fā)明通過(guò)創(chuàng)建多agv調(diào)度仿真環(huán)境,系統(tǒng)能夠在虛擬環(huán)境中模擬真實(shí)場(chǎng)景中的多agv運(yùn)作,為算法的訓(xùn)練和測(cè)試提供了便利。仿真環(huán)境能夠復(fù)現(xiàn)各種復(fù)雜場(chǎng)景和突發(fā)事件,使得調(diào)度策略能夠在實(shí)際應(yīng)用前得到充分驗(yàn)證和優(yōu)化。
37、5、實(shí)時(shí)在線調(diào)度能力:本發(fā)明訓(xùn)練好的調(diào)度策略網(wǎng)絡(luò)可以被包裝為agv的實(shí)時(shí)在線調(diào)度系統(tǒng),對(duì)多個(gè)agv進(jìn)行實(shí)時(shí)、高效的任務(wù)調(diào)度,這種實(shí)時(shí)調(diào)度能力對(duì)于提高生產(chǎn)效率、降低運(yùn)營(yíng)成本具有重要意義。
38、6、可擴(kuò)展性和靈活性:本發(fā)明基于深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的調(diào)度系統(tǒng)具有較高的可擴(kuò)展性和靈活性。隨著生產(chǎn)環(huán)境和需求的變化,可以通過(guò)調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)和算法參數(shù)來(lái)適應(yīng)新的場(chǎng)景和任務(wù)要求,無(wú)需對(duì)系統(tǒng)進(jìn)行大規(guī)模的重構(gòu)或修改。
39、7、減少人工干預(yù):本發(fā)明自動(dòng)化調(diào)度系統(tǒng)能夠減少人工干預(yù)和錯(cuò)誤,提高調(diào)度的準(zhǔn)確性和一致性。同時(shí),自動(dòng)化調(diào)度還能夠降低人力成本,提高生產(chǎn)效益。
40、綜上所述,本發(fā)明基于改進(jìn)ppo算法的多agv調(diào)度系統(tǒng)及其方法在提高調(diào)度效率、增強(qiáng)魯棒性、實(shí)現(xiàn)高效策略更新、支持仿真環(huán)境驗(yàn)證、實(shí)現(xiàn)實(shí)時(shí)在線調(diào)度、可擴(kuò)展性和靈活性以及減少人工干預(yù)等方面具有顯著優(yōu)勢(shì)。
41、下面結(jié)合附圖和具體實(shí)施方式對(duì)本發(fā)明作進(jìn)一步詳細(xì)說(shuō)明。