一種基于改進(jìn)長(zhǎng)短期記憶網(wǎng)絡(luò)的移動(dòng)機(jī)器人路徑規(guī)劃方法與流程

文檔序號(hào)：40572092發(fā)布日期：2025-01-03 11:33閱讀：來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>控制;調(diào)節(jié)裝置的制造及其應(yīng)用技術(shù)>一種基于改進(jìn)長(zhǎng)短期記憶網(wǎng)絡(luò)的移動(dòng)機(jī)器人路徑規(guī)劃方法與流程

技術(shù)特征：

1.一種基于改進(jìn)長(zhǎng)短期記憶網(wǎng)絡(luò)的移動(dòng)機(jī)器人路徑規(guī)劃方法，其特征在于，所述方法包括以下步驟；

2.如權(quán)利要求1所述的一種基于改進(jìn)長(zhǎng)短期記憶網(wǎng)絡(luò)的移動(dòng)機(jī)器人路徑規(guī)劃方法，其特征在于，所述步驟1中，部分可觀測(cè)馬爾科夫決策過(guò)程pomdp對(duì)移動(dòng)機(jī)器人進(jìn)行建模時(shí)的狀態(tài)描述，定義復(fù)雜的交互系統(tǒng)，包括狀態(tài)空間、行動(dòng)空間、觀測(cè)空間以及相應(yīng)的轉(zhuǎn)移、觀測(cè)和獎(jiǎng)勵(lì)函數(shù)，該模型通過(guò)一個(gè)六元組(s，o，a，t，o，r)來(lái)描述，如下：

3.如權(quán)利要求1或2所述的一種基于改進(jìn)長(zhǎng)短期記憶網(wǎng)絡(luò)的移動(dòng)機(jī)器人路徑規(guī)劃方法，其特征在于，所述步驟2中，強(qiáng)化學(xué)習(xí)算法以執(zhí)行者-評(píng)論家sac算法中，sac算法的損失函數(shù)和價(jià)值網(wǎng)絡(luò)定義如下：

4.如權(quán)利要求3所述的一種基于改進(jìn)長(zhǎng)短期記憶網(wǎng)絡(luò)的移動(dòng)機(jī)器人路徑規(guī)劃方法，其特征在于，所述步驟2中，向sac算法中添加長(zhǎng)短期記憶網(wǎng)絡(luò)，考慮到輸入狀態(tài)序列以及輸出信息都是時(shí)序的，因此先針對(duì)q值網(wǎng)絡(luò)的狀態(tài)動(dòng)作進(jìn)行優(yōu)化，將傳統(tǒng)的全連接網(wǎng)絡(luò)替換為lstm網(wǎng)絡(luò)，以處理時(shí)間序列數(shù)據(jù)，過(guò)程如下：

5.如權(quán)利要求1或2所述的一種基于改進(jìn)長(zhǎng)短期記憶網(wǎng)絡(luò)的移動(dòng)機(jī)器人路徑規(guī)劃方法，其特征在于，所述步驟3中，概率補(bǔ)償機(jī)制解釋如下：

6.如權(quán)利要求1或2所述的一種基于改進(jìn)長(zhǎng)短期記憶網(wǎng)絡(luò)的移動(dòng)機(jī)器人路徑規(guī)劃方法，其特征在于，所述步驟4中，將概率補(bǔ)償機(jī)制代入算法如下：

7.如權(quán)利要求1或2所述的一種基于改進(jìn)長(zhǎng)短期記憶網(wǎng)絡(luò)的移動(dòng)機(jī)器人路徑規(guī)劃方法，其特征在于，所述步驟5中，將模型進(jìn)行訓(xùn)練的步驟如下：

8.如權(quán)利要求7所述的一種基于改進(jìn)長(zhǎng)短期記憶網(wǎng)絡(luò)的移動(dòng)機(jī)器人路徑規(guī)劃方法，其特征在于，所述步驟5中，將模型部署到移動(dòng)機(jī)器人完成路徑規(guī)劃的過(guò)程為：將訓(xùn)練好的模型打包封裝于一個(gè)模塊裝置內(nèi)，配置于移動(dòng)機(jī)器人中，當(dāng)驅(qū)動(dòng)機(jī)器人時(shí)首先需要訪問(wèn)該裝置進(jìn)行路徑規(guī)劃，裝置將輸出的結(jié)果用于驅(qū)動(dòng)移動(dòng)機(jī)器人，即可完成最終的移動(dòng)機(jī)器人的路徑規(guī)劃。

技術(shù)總結(jié)
一種基于改進(jìn)長(zhǎng)短期記憶網(wǎng)絡(luò)的移動(dòng)機(jī)器人路徑規(guī)劃方法，包括步驟1：對(duì)時(shí)間狀態(tài)下的移動(dòng)機(jī)器人進(jìn)行部分可觀馬爾科夫決策過(guò)程建模；步驟2：添加長(zhǎng)短期記憶網(wǎng)絡(luò)優(yōu)化強(qiáng)化學(xué)習(xí)路徑規(guī)劃算法，初步優(yōu)化算法，完成基礎(chǔ)的導(dǎo)航路徑規(guī)劃，步驟3：針對(duì)長(zhǎng)短期記憶網(wǎng)絡(luò)提出概率補(bǔ)償；步驟4：針對(duì)策略函數(shù)應(yīng)用自適應(yīng)補(bǔ)償函數(shù)，使得在多變的環(huán)境下，模型能夠更有效地利用現(xiàn)有信息，提高機(jī)器人在復(fù)雜環(huán)境中的決策和導(dǎo)航能力，步驟5:訓(xùn)練修改好的SAC算法模型，并將最終訓(xùn)練好的模型部署到移動(dòng)機(jī)器人中，使其能夠更好的完成路徑規(guī)劃。本發(fā)明引入了長(zhǎng)短期記憶網(wǎng)絡(luò)于強(qiáng)化學(xué)習(xí)算法中，有效提升路徑規(guī)劃的性能。

技術(shù)研發(fā)人員：張建明,彭昊龍,張?jiān)诩?夏鈺婷
受保護(hù)的技術(shù)使用者：浙江潤(rùn)琛科技有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2025/1/2

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁(yè)1 2

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于改進(jìn)長(zhǎng)短期記憶網(wǎng)絡(luò)的移動(dòng)機(jī)器人路徑規(guī)劃方法與流程