一種基于改進(jìn)長(zhǎng)短期記憶網(wǎng)絡(luò)的移動(dòng)機(jī)器人路徑規(guī)劃方法與流程

文檔序號(hào)：40572092發(fā)布日期：2025-01-03 11:33閱讀：15來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>控制;調(diào)節(jié)裝置的制造及其應(yīng)用技術(shù)

一種基于改進(jìn)長(zhǎng)短期記憶網(wǎng)絡(luò)的移動(dòng)機(jī)器人路徑規(guī)劃方法與流程

本發(fā)明屬于移動(dòng)機(jī)器人、計(jì)算機(jī)處理領(lǐng)域，尤其涉及一種基于改進(jìn)長(zhǎng)短期記憶網(wǎng)絡(luò)的移動(dòng)機(jī)器人路徑規(guī)劃方法。

背景技術(shù)：

1、隨著人工智能技術(shù)的迅猛發(fā)展，強(qiáng)化學(xué)習(xí)(reinforcement?learning,rl)在復(fù)雜任務(wù)中的應(yīng)用越來(lái)越廣泛，尤其在自動(dòng)駕駛、機(jī)器人導(dǎo)航和智能控制等領(lǐng)域展現(xiàn)出了巨大的潛力。強(qiáng)化學(xué)習(xí)通過(guò)與環(huán)境的交互不斷學(xué)習(xí)最優(yōu)策略，從而實(shí)現(xiàn)預(yù)定目標(biāo)。然而，在實(shí)際應(yīng)用中，傳統(tǒng)的強(qiáng)化學(xué)習(xí)算法面臨許多挑戰(zhàn)，包括高維狀態(tài)空間、長(zhǎng)期依賴問(wèn)題以及訓(xùn)練穩(wěn)定性等。

2、長(zhǎng)短期記憶網(wǎng)絡(luò)(long?short-term?memory,lstm)是一種特殊的遞歸神經(jīng)網(wǎng)絡(luò)(recurrent?neural?network,rnn)，因其能夠有效捕捉和處理序列數(shù)據(jù)中的長(zhǎng)時(shí)依賴關(guān)系而廣受關(guān)注。lstm通過(guò)引入記憶單元和門(mén)機(jī)制，解決了傳統(tǒng)rnn在處理長(zhǎng)序列數(shù)據(jù)時(shí)容易出現(xiàn)的梯度消失和梯度爆炸問(wèn)題，從而能夠更好地建模時(shí)間序列數(shù)據(jù)中的依賴關(guān)系。在強(qiáng)化學(xué)習(xí)中，價(jià)值網(wǎng)絡(luò)和策略網(wǎng)絡(luò)的訓(xùn)練往往依賴于大量的環(huán)境交互數(shù)據(jù)，這些數(shù)據(jù)不僅包含即時(shí)反饋，還包含長(zhǎng)期回報(bào)的估計(jì)。因此，引入lstm能夠幫助強(qiáng)化學(xué)習(xí)算法更好地捕捉時(shí)間序列中的長(zhǎng)時(shí)依賴性，提高策略的穩(wěn)定性和效率。

技術(shù)實(shí)現(xiàn)思路

1、為了克服已有技術(shù)的不足，本發(fā)明提供了一種基于改進(jìn)長(zhǎng)短期記憶網(wǎng)絡(luò)的移動(dòng)機(jī)器人路徑規(guī)劃方法，旨在解決傳統(tǒng)強(qiáng)化學(xué)習(xí)算法在復(fù)雜環(huán)境中面臨的挑戰(zhàn)。通過(guò)在sac(soft?actor-critic)算法中引入概率補(bǔ)償機(jī)制，本發(fā)明的方法能夠有效增強(qiáng)價(jià)值網(wǎng)絡(luò)的魯棒性和穩(wěn)定性。具體來(lái)說(shuō)，概率補(bǔ)償機(jī)制通過(guò)調(diào)整策略的概率分布來(lái)補(bǔ)償價(jià)值網(wǎng)絡(luò)的更新，從而提高價(jià)值估計(jì)的準(zhǔn)確性和穩(wěn)定性。此外，本發(fā)明的方法還通過(guò)引入lstm網(wǎng)絡(luò)，進(jìn)一步增強(qiáng)了策略網(wǎng)絡(luò)對(duì)時(shí)間序列數(shù)據(jù)的處理能力。

2、本發(fā)明解決其技術(shù)問(wèn)題所采用的技術(shù)方案是：

3、一種基于改進(jìn)長(zhǎng)短期記憶網(wǎng)絡(luò)的移動(dòng)機(jī)器人路徑規(guī)劃方法，包括以下步驟；

4、步驟1：對(duì)時(shí)間狀態(tài)下的移動(dòng)機(jī)器人進(jìn)行部分可觀馬爾科夫決策過(guò)程建模；

5、步驟2：添加長(zhǎng)短期記憶網(wǎng)絡(luò)優(yōu)化強(qiáng)化學(xué)習(xí)路徑規(guī)劃算法，初步優(yōu)化算法，完成基礎(chǔ)的導(dǎo)航路徑規(guī)劃；

6、步驟3：針對(duì)長(zhǎng)短期記憶網(wǎng)絡(luò)提出概率補(bǔ)償；

7、步驟4：針對(duì)策略函數(shù)應(yīng)用自適應(yīng)補(bǔ)償函數(shù)，使得在多變的環(huán)境下，模型能夠更有效地利用現(xiàn)有信息，提高機(jī)器人在復(fù)雜環(huán)境中的決策和導(dǎo)航能力；

8、步驟5:訓(xùn)練修改好的sac算法模型，并將最終訓(xùn)練好的模型部署到移動(dòng)機(jī)器人中，使其能夠更好的完成路徑規(guī)劃。

9、進(jìn)一步，所述步驟1中，部分可觀測(cè)馬爾科夫決策過(guò)程pomdp對(duì)移動(dòng)機(jī)器人進(jìn)行建模時(shí)的狀態(tài)描述，定義復(fù)雜的交互系統(tǒng)，包括狀態(tài)空間、行動(dòng)空間、觀測(cè)空間以及相應(yīng)的轉(zhuǎn)移、觀測(cè)和獎(jiǎng)勵(lì)函數(shù)，該模型通過(guò)一個(gè)六元組(s,o,a,t,o,r)來(lái)描述，如下：

10、1.1)狀態(tài)空間s＝{s1,s2,…,sn}：此空間包含系統(tǒng)可能處于的所有狀態(tài)。對(duì)于移動(dòng)機(jī)器人，每個(gè)狀態(tài)st＝{ot,ht}包括可觀測(cè)部分ot和不可觀測(cè)部分ht，可觀測(cè)部分是機(jī)器人當(dāng)前的傳感器讀數(shù)，不可觀測(cè)部分包括動(dòng)態(tài)障礙物的速度和外部環(huán)境變化因素；

11、1.2)觀測(cè)空間o＝{o1,o2,…,on}：此空間描述機(jī)器人獲取的所有可能觀測(cè)數(shù)據(jù)，在移動(dòng)機(jī)器人建模中，觀測(cè)空間由三個(gè)部分組成，表示在t時(shí)刻由激光雷達(dá)生成的實(shí)時(shí)局部地圖，包括以機(jī)器人為中心的網(wǎng)格地圖信息；表示通過(guò)點(diǎn)云目標(biāo)檢測(cè)算法獲取的障礙物信息及其在全局地圖下的坐標(biāo)；則包括了機(jī)器人的姿態(tài)信息如速度和加速度；移動(dòng)機(jī)器人姿態(tài)信息其中dt表示當(dāng)前t時(shí)刻機(jī)器人與障礙物之間的距離，at表示當(dāng)前機(jī)器人與障礙物之間的角度；

12、

13、行動(dòng)空間a＝{α1,α2,…,αn}：定義了移動(dòng)機(jī)器人可采取的所有可能行動(dòng)的集合，由于移動(dòng)機(jī)器人采用差分驅(qū)動(dòng)方式，需滿足其在動(dòng)作空間下的速度指令αt＝{vt,ωt}，其中vt表示移動(dòng)機(jī)器人在t時(shí)刻的線速度，ωt表示移動(dòng)機(jī)器人在t時(shí)刻的角速度，為了限制機(jī)器人的方向及視野狀態(tài)，設(shè)定vt范圍為[0,0.9]m/s，ωt范圍為[-0.9,0.9]rad/s；

14、狀態(tài)轉(zhuǎn)移函數(shù)t＝t(s′|s,a)：t定義了在給定當(dāng)前狀態(tài)s和采取的行動(dòng)a的情況下，系統(tǒng)轉(zhuǎn)移到下一個(gè)狀態(tài)s′的概率分布；

15、觀測(cè)函數(shù)ω＝ω(z|s,a)：定義了在給定當(dāng)前狀態(tài)s和采取的行動(dòng)a的情況下，觀察到的信息z的概率分布；

16、獎(jiǎng)勵(lì)函數(shù)r＝r(s,a,z)：定義了移動(dòng)機(jī)器人在特定狀態(tài)s、采取行動(dòng)a后并根據(jù)觀測(cè)信息z后獲得的即時(shí)獎(jiǎng)勵(lì)或成本，獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)直接關(guān)系到學(xué)習(xí)過(guò)程的效率、模型的訓(xùn)練速度以及最終策略的收斂性，在移動(dòng)機(jī)器人的路徑規(guī)劃任務(wù)中，設(shè)計(jì)一個(gè)有效的獎(jiǎng)勵(lì)函數(shù)尤為關(guān)鍵，因?yàn)樗枰瑫r(shí)滿足多個(gè)條件：確保機(jī)器人的安全性、任務(wù)的時(shí)效性，并避免策略陷入局部最優(yōu)解。

17、再進(jìn)一步，所述步驟2中，強(qiáng)化學(xué)習(xí)算法以執(zhí)行者-評(píng)論家sac算法中，sac算法的損失函數(shù)和價(jià)值網(wǎng)絡(luò)定義如下：

18、actor和critic的網(wǎng)絡(luò)結(jié)構(gòu)均從當(dāng)前序列的第一個(gè)狀態(tài)st開(kāi)始初始化，將st輸入actor網(wǎng)絡(luò)后，輸出動(dòng)作at并得到回報(bào)rt，隨后轉(zhuǎn)移到下一個(gè)狀態(tài)st+1；

19、對(duì)于critic網(wǎng)絡(luò)，critic網(wǎng)絡(luò)的目標(biāo)是最小化實(shí)際q值和目標(biāo)q值之間的均方誤差，將actor網(wǎng)絡(luò)輸出的st+1與初始狀態(tài)st一起作為輸入，目前q值計(jì)算如下：

20、yt＝rt+γ(minqφ(s,a)-αlogπθ(a∣s))

21、其中γ表示衰減系數(shù)，rt表示回報(bào)，α為熵正則化系數(shù)，πθ(a∣s)表示策略網(wǎng)絡(luò),qφ(s,a)表示估計(jì)狀態(tài)；

22、因此critic的損失函數(shù)定義為：

23、

24、價(jià)值網(wǎng)絡(luò)定義為：

25、

26、對(duì)于actor網(wǎng)絡(luò)的損失函數(shù)，actor網(wǎng)絡(luò)的目標(biāo)是最大化預(yù)期獎(jiǎng)勵(lì)和熵值，損失函數(shù)定義為：

27、

28、完成損失函數(shù)和價(jià)值網(wǎng)絡(luò)的定義后即可訓(xùn)練sac算法，使得移動(dòng)機(jī)器人能夠完成基礎(chǔ)的路徑規(guī)劃步驟。

29、所述步驟2中，向sac算法中添加長(zhǎng)短期記憶網(wǎng)絡(luò)，考慮到輸入狀態(tài)序列以及輸出信息都是時(shí)序的，因此先針對(duì)q值網(wǎng)絡(luò)的狀態(tài)動(dòng)作進(jìn)行優(yōu)化，將傳統(tǒng)的全連接網(wǎng)絡(luò)替換為lstm網(wǎng)絡(luò)，以處理時(shí)間序列數(shù)據(jù)，過(guò)程如下：

30、2.1)對(duì)于actor網(wǎng)絡(luò)：lstm用于處理輸入狀態(tài)序列，輸出動(dòng)作；

31、首先給定狀態(tài)序列s＝{s1,s2,…,st}，lstm層的輸出為隱藏狀態(tài)序列h＝{h1,h2,…,ht}，最終通過(guò)全連接層輸出動(dòng)作a＝{a1,a2,…,at}；

32、ht,ct＝lstm(s,ht-1,ct-1)

33、at＝fc(ht)

34、其中，ht和ct分別為lstm的隱藏狀態(tài)和細(xì)胞狀態(tài)，fc表示全連接層；

35、2)對(duì)于critic網(wǎng)絡(luò)：lstm用于處理狀態(tài)-動(dòng)作序列，輸出q值；

36、給定狀態(tài)-動(dòng)作序列(s,a)＝{(s1,a1),(s2,a2),…,(st,at)}，lstm層的輸出為隱藏狀態(tài)序列h＝{h1,h2,…,ht}，通過(guò)全連接層輸出q值q＝{q1,q2,…,qt}；

37、ht,ct＝lstm((s,a),ht-1,ct-1)

38、qt＝fc(ht)

39、在訓(xùn)練過(guò)程中，需要處理序列數(shù)據(jù)。將每個(gè)訓(xùn)練樣本擴(kuò)展為包含多個(gè)時(shí)間步的序列，更新網(wǎng)絡(luò)參數(shù)時(shí)，確保lstm的狀態(tài)能夠正確傳遞；

40、對(duì)于損失函數(shù)：與傳統(tǒng)的sac類似，依照序列數(shù)據(jù)的特性進(jìn)行優(yōu)化；

41、critic網(wǎng)絡(luò)的目標(biāo)仍然是最小化實(shí)際q值和目標(biāo)q值之間的均方誤差，但現(xiàn)在的q值是由lstm網(wǎng)絡(luò)生成的，假設(shè)lstm的隱藏狀態(tài)為h，序列長(zhǎng)度為t；

42、yt＝rt+γ(minqφ(st+1,at+1)-αlogπθ(at+1∣st+1))

43、critic的損失函數(shù)變?yōu)椋?/p>

44、

45、actor的損失函數(shù)變?yōu)椋?/p>

46、

47、原來(lái)的損失函數(shù)是針對(duì)單步狀態(tài)-動(dòng)作對(duì)的，現(xiàn)在變成了針對(duì)整個(gè)時(shí)間序列計(jì)算平均損失，同時(shí)，q值的計(jì)算依賴于lstm的隱藏狀態(tài)ht。

48、更進(jìn)一步，所述步驟3中，概率補(bǔ)償機(jī)制解釋如下：

49、在強(qiáng)化學(xué)習(xí)中，價(jià)值網(wǎng)絡(luò)用于估計(jì)某一狀態(tài)的價(jià)值，即該狀態(tài)在未來(lái)所能獲得的累計(jì)獎(jiǎng)勵(lì)，為了提升價(jià)值估計(jì)的準(zhǔn)確性和穩(wěn)定性，在軟演員評(píng)論sac算法中引入了一種概率補(bǔ)償機(jī)制，該機(jī)制通過(guò)調(diào)整策略的概率分布來(lái)補(bǔ)償價(jià)值網(wǎng)絡(luò)的更新，從而增強(qiáng)其魯棒性和穩(wěn)定性；

50、概率補(bǔ)償機(jī)制在價(jià)值網(wǎng)絡(luò)的目標(biāo)函數(shù)中引入一個(gè)與策略概率相關(guān)的補(bǔ)償項(xiàng)，以調(diào)整策略概率對(duì)價(jià)值估計(jì)的影響，從而提高其準(zhǔn)確性和穩(wěn)定性，根據(jù)sac算法中的策略網(wǎng)絡(luò)πθ，定義了補(bǔ)償項(xiàng)如下

51、c(s,a)＝βlogπθ(a∣s)

52、其中，β是權(quán)重系數(shù)，用于平衡補(bǔ)償項(xiàng)的影響。

53、所述步驟4中，將概率補(bǔ)償機(jī)制代入算法如下：

54、在sac算法中，已知價(jià)值網(wǎng)絡(luò)vψ(s)的目標(biāo)是估計(jì)狀態(tài)s的價(jià)值，sac使用雙q值網(wǎng)絡(luò)來(lái)減少值得估計(jì)偏差，在此前公式的基礎(chǔ)上，進(jìn)一步引入設(shè)計(jì)補(bǔ)償項(xiàng)c(s,a)，價(jià)值網(wǎng)絡(luò)的目標(biāo)函數(shù)既可以修改為：

55、

56、代入補(bǔ)償項(xiàng)c(s,a)并化解最終得到：

57、

58、其中，β是權(quán)重系數(shù)，用于平衡補(bǔ)償項(xiàng)的影響。

59、所述步驟5中，將模型進(jìn)行訓(xùn)練的步驟如下：

60、5.1)狀態(tài)建模，初始化環(huán)境和狀態(tài)空間，并設(shè)置sac算法的超參數(shù)；

61、5.2)替換狀態(tài)網(wǎng)絡(luò)和觀測(cè)網(wǎng)絡(luò)為長(zhǎng)短期記憶力網(wǎng)絡(luò)；

62、5.3)初始化策略網(wǎng)絡(luò)和q值網(wǎng)絡(luò)，以及目標(biāo)q值網(wǎng)絡(luò)，同時(shí)初始化經(jīng)驗(yàn)回放緩沖區(qū)，在訓(xùn)練循環(huán)中，基于當(dāng)前策略網(wǎng)絡(luò)采樣動(dòng)作，并在環(huán)境中執(zhí)行這些動(dòng)作，記錄下一個(gè)狀態(tài)、獎(jiǎng)勵(lì)和終止標(biāo)志，將這些經(jīng)驗(yàn)存儲(chǔ)到經(jīng)驗(yàn)回放緩沖區(qū)中；

63、5.4)從緩沖區(qū)隨機(jī)采樣一個(gè)批次的經(jīng)驗(yàn)，使用目標(biāo)q值網(wǎng)絡(luò)計(jì)算q值目標(biāo)，并利用這些目標(biāo)值更新q值網(wǎng)絡(luò)；

64、5.5)基于當(dāng)前的q值網(wǎng)絡(luò)更新策略網(wǎng)絡(luò)，并進(jìn)行目標(biāo)q值網(wǎng)絡(luò)的軟更新，在整個(gè)訓(xùn)練過(guò)程中，定期在評(píng)估環(huán)境中評(píng)估策略的性能，并記錄結(jié)果；

65、5.6)保存訓(xùn)練好的策略網(wǎng)絡(luò)和q值網(wǎng)絡(luò)的參數(shù)。

66、優(yōu)選的，所述步驟5中，將模型部署到移動(dòng)機(jī)器人完成路徑規(guī)劃的過(guò)程為：將訓(xùn)練好的模型打包封裝于一個(gè)模塊裝置內(nèi)，配置于移動(dòng)機(jī)器人中，當(dāng)驅(qū)動(dòng)機(jī)器人時(shí)首先需要訪問(wèn)該裝置進(jìn)行路徑規(guī)劃，裝置將輸出的結(jié)果用于驅(qū)動(dòng)移動(dòng)機(jī)器人，即可完成最終的移動(dòng)機(jī)器人的路徑規(guī)劃。

67、本發(fā)明的有益效果主要表現(xiàn)在：引入了長(zhǎng)短期記憶網(wǎng)絡(luò)于強(qiáng)化學(xué)習(xí)算法中，有效提升路徑規(guī)劃的性能。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張建明,彭昊龍,張?jiān)诩?夏鈺婷
技術(shù)所有人：浙江潤(rùn)琛科技有限公司
我是此專利的發(fā)明人

上一篇：一種預(yù)處理裝置和AI芯片的制作方法
上一篇：隧道四電預(yù)埋管道模型生成方法、裝置及系統(tǒng)與流程

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、唐老師：1.高效節(jié)能裝備 2.流動(dòng)穩(wěn)定性 3.汽車(chē)流場(chǎng)分析和淀粉糖工藝技術(shù)。
2、孫老師：1.振動(dòng)信號(hào)時(shí)頻分析理論與測(cè)試系統(tǒng)設(shè)計(jì) 2.汽車(chē)檢測(cè)系統(tǒng)設(shè)計(jì) 3.汽車(chē)電子控制系統(tǒng)設(shè)計(jì)
3、王老師：電子信息處理、先進(jìn)檢測(cè)方法和智能化儀表
4、周老師：1.智能電網(wǎng) 2.新能源利用 3.泛在電力物聯(lián)網(wǎng)
5、趙老師：檢測(cè)與控制技術(shù)、機(jī)器人技術(shù)、機(jī)電一體化技術(shù)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于改進(jìn)長(zhǎng)短期記憶網(wǎng)絡(luò)的移動(dòng)機(jī)器人路徑規(guī)劃方法與流程