1.一種基于qmix算法的自動(dòng)化倉庫多agv多周期路徑規(guī)劃方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的一種基于qmix算法的自動(dòng)化倉庫多agv多周期路徑規(guī)劃方法,其特征在于,所述步驟s1中agv的部分觀測(cè)信息具體為:
3.根據(jù)權(quán)利要求2所述的一種基于qmix算法的自動(dòng)化倉庫多agv多周期路徑規(guī)劃方法,其特征在于,所述狀態(tài)空間具體為:s=(s小車,s目的地,s障礙物)其中,agv的狀態(tài)即位置坐標(biāo)由表示,它由n個(gè)位置坐標(biāo)元組構(gòu)成,n為agv的數(shù)量;
4.根據(jù)權(quán)利要求2所述的一種基于qmix算法的自動(dòng)化倉庫多agv多周期路徑規(guī)劃方法,其特征在于,所述觀測(cè)空間具體為:o=(o障礙物,o小車,o目的地),將其分解為三個(gè)矩陣,即障礙矩陣、其他agv矩陣以及目標(biāo)投影矩陣,障礙矩陣o障礙物包含了agv可觀測(cè)距離內(nèi)的障礙物信息,當(dāng)觀測(cè)范圍內(nèi)有障礙物時(shí),矩陣中該部分會(huì)被置1,否則為0;
5.根據(jù)權(quán)利要求2所述的一種基于qmix算法的自動(dòng)化倉庫多agv多周期路徑規(guī)劃方法,其特征在于,所述步驟s2中路徑規(guī)劃模型包括多個(gè)rnn神經(jīng)網(wǎng)絡(luò),多個(gè)rnn神經(jīng)網(wǎng)絡(luò)分別連接至混合網(wǎng)絡(luò),多個(gè)rnn神經(jīng)網(wǎng)絡(luò)分別對(duì)應(yīng)于不同的agv,各rnn神經(jīng)網(wǎng)絡(luò)均包括輸入層mlp、中間層gru和輸出層mlp,所述rnn神經(jīng)網(wǎng)絡(luò)的輸入為每輛agv的觀測(cè)空間、agv的動(dòng)作編碼以及agv的id,輸出為該agv的q值;
6.根據(jù)權(quán)利要求5所述的一種基于qmix算法的自動(dòng)化倉庫多agv多周期路徑規(guī)劃方法,其特征在于,所述步驟s3中rnn神經(jīng)網(wǎng)絡(luò)的工作過程包括:將每個(gè)agv的當(dāng)前觀測(cè)值、上一步的動(dòng)作、以向量形式表示的每個(gè)agv的id的one-hot編碼輸入給輸入層mlp、通過中間層gru接受第一層的輸入和隱藏的歷史信息,通過輸出層mlp輸出預(yù)測(cè)的q值。
7.根據(jù)權(quán)利要求5所述的一種基于qmix算法的自動(dòng)化倉庫多agv多周期路徑規(guī)劃方法,其特征在于,所述步驟s3中ε-greedy策略的計(jì)算公式為:
8.根據(jù)權(quán)利要求5所述的一種基于qmix算法的自動(dòng)化倉庫多agv多周期路徑規(guī)劃方法,其特征在于,所述步驟s4中agv的獎(jiǎng)勵(lì)值通過獎(jiǎng)勵(lì)函數(shù)計(jì)算得到:
9.根據(jù)權(quán)利要求8所述的一種基于qmix算法的自動(dòng)化倉庫多agv多周期路徑規(guī)劃方法,其特征在于,所述沖突包括節(jié)點(diǎn)沖突、跟隨沖突、換位沖突和循環(huán)沖突。
10.根據(jù)權(quán)利要求9所述的一種基于qmix算法的自動(dòng)化倉庫多agv多周期路徑規(guī)劃方法,其特征在于,所述節(jié)點(diǎn)沖突具體是指:agv計(jì)劃在同一時(shí)間步長占據(jù)同一節(jié)點(diǎn);