1.一種基于改進(jìn)長(zhǎng)短期記憶網(wǎng)絡(luò)的移動(dòng)機(jī)器人路徑規(guī)劃方法,其特征在于,所述方法包括以下步驟;
2.如權(quán)利要求1所述的一種基于改進(jìn)長(zhǎng)短期記憶網(wǎng)絡(luò)的移動(dòng)機(jī)器人路徑規(guī)劃方法,其特征在于,所述步驟1中,部分可觀測(cè)馬爾科夫決策過(guò)程pomdp對(duì)移動(dòng)機(jī)器人進(jìn)行建模時(shí)的狀態(tài)描述,定義復(fù)雜的交互系統(tǒng),包括狀態(tài)空間、行動(dòng)空間、觀測(cè)空間以及相應(yīng)的轉(zhuǎn)移、觀測(cè)和獎(jiǎng)勵(lì)函數(shù),該模型通過(guò)一個(gè)六元組(s,o,a,t,o,r)來(lái)描述,如下:
3.如權(quán)利要求1或2所述的一種基于改進(jìn)長(zhǎng)短期記憶網(wǎng)絡(luò)的移動(dòng)機(jī)器人路徑規(guī)劃方法,其特征在于,所述步驟2中,強(qiáng)化學(xué)習(xí)算法以執(zhí)行者-評(píng)論家sac算法中,sac算法的損失函數(shù)和價(jià)值網(wǎng)絡(luò)定義如下:
4.如權(quán)利要求3所述的一種基于改進(jìn)長(zhǎng)短期記憶網(wǎng)絡(luò)的移動(dòng)機(jī)器人路徑規(guī)劃方法,其特征在于,所述步驟2中,向sac算法中添加長(zhǎng)短期記憶網(wǎng)絡(luò),考慮到輸入狀態(tài)序列以及輸出信息都是時(shí)序的,因此先針對(duì)q值網(wǎng)絡(luò)的狀態(tài)動(dòng)作進(jìn)行優(yōu)化,將傳統(tǒng)的全連接網(wǎng)絡(luò)替換為lstm網(wǎng)絡(luò),以處理時(shí)間序列數(shù)據(jù),過(guò)程如下:
5.如權(quán)利要求1或2所述的一種基于改進(jìn)長(zhǎng)短期記憶網(wǎng)絡(luò)的移動(dòng)機(jī)器人路徑規(guī)劃方法,其特征在于,所述步驟3中,概率補(bǔ)償機(jī)制解釋如下:
6.如權(quán)利要求1或2所述的一種基于改進(jìn)長(zhǎng)短期記憶網(wǎng)絡(luò)的移動(dòng)機(jī)器人路徑規(guī)劃方法,其特征在于,所述步驟4中,將概率補(bǔ)償機(jī)制代入算法如下:
7.如權(quán)利要求1或2所述的一種基于改進(jìn)長(zhǎng)短期記憶網(wǎng)絡(luò)的移動(dòng)機(jī)器人路徑規(guī)劃方法,其特征在于,所述步驟5中,將模型進(jìn)行訓(xùn)練的步驟如下:
8.如權(quán)利要求7所述的一種基于改進(jìn)長(zhǎng)短期記憶網(wǎng)絡(luò)的移動(dòng)機(jī)器人路徑規(guī)劃方法,其特征在于,所述步驟5中,將模型部署到移動(dòng)機(jī)器人完成路徑規(guī)劃的過(guò)程為:將訓(xùn)練好的模型打包封裝于一個(gè)模塊裝置內(nèi),配置于移動(dòng)機(jī)器人中,當(dāng)驅(qū)動(dòng)機(jī)器人時(shí)首先需要訪問(wèn)該裝置進(jìn)行路徑規(guī)劃,裝置將輸出的結(jié)果用于驅(qū)動(dòng)移動(dòng)機(jī)器人,即可完成最終的移動(dòng)機(jī)器人的路徑規(guī)劃。