欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于改進(jìn)長(zhǎng)短期記憶網(wǎng)絡(luò)的移動(dòng)機(jī)器人路徑規(guī)劃方法與流程

文檔序號(hào):40572092發(fā)布日期:2025-01-03 11:33閱讀:15來(lái)源:國(guó)知局
一種基于改進(jìn)長(zhǎng)短期記憶網(wǎng)絡(luò)的移動(dòng)機(jī)器人路徑規(guī)劃方法與流程

本發(fā)明屬于移動(dòng)機(jī)器人、計(jì)算機(jī)處理領(lǐng)域,尤其涉及一種基于改進(jìn)長(zhǎng)短期記憶網(wǎng)絡(luò)的移動(dòng)機(jī)器人路徑規(guī)劃方法。


背景技術(shù):

1、隨著人工智能技術(shù)的迅猛發(fā)展,強(qiáng)化學(xué)習(xí)(reinforcement?learning,rl)在復(fù)雜任務(wù)中的應(yīng)用越來(lái)越廣泛,尤其在自動(dòng)駕駛、機(jī)器人導(dǎo)航和智能控制等領(lǐng)域展現(xiàn)出了巨大的潛力。強(qiáng)化學(xué)習(xí)通過(guò)與環(huán)境的交互不斷學(xué)習(xí)最優(yōu)策略,從而實(shí)現(xiàn)預(yù)定目標(biāo)。然而,在實(shí)際應(yīng)用中,傳統(tǒng)的強(qiáng)化學(xué)習(xí)算法面臨許多挑戰(zhàn),包括高維狀態(tài)空間、長(zhǎng)期依賴問(wèn)題以及訓(xùn)練穩(wěn)定性等。

2、長(zhǎng)短期記憶網(wǎng)絡(luò)(long?short-term?memory,lstm)是一種特殊的遞歸神經(jīng)網(wǎng)絡(luò)(recurrent?neural?network,rnn),因其能夠有效捕捉和處理序列數(shù)據(jù)中的長(zhǎng)時(shí)依賴關(guān)系而廣受關(guān)注。lstm通過(guò)引入記憶單元和門(mén)機(jī)制,解決了傳統(tǒng)rnn在處理長(zhǎng)序列數(shù)據(jù)時(shí)容易出現(xiàn)的梯度消失和梯度爆炸問(wèn)題,從而能夠更好地建模時(shí)間序列數(shù)據(jù)中的依賴關(guān)系。在強(qiáng)化學(xué)習(xí)中,價(jià)值網(wǎng)絡(luò)和策略網(wǎng)絡(luò)的訓(xùn)練往往依賴于大量的環(huán)境交互數(shù)據(jù),這些數(shù)據(jù)不僅包含即時(shí)反饋,還包含長(zhǎng)期回報(bào)的估計(jì)。因此,引入lstm能夠幫助強(qiáng)化學(xué)習(xí)算法更好地捕捉時(shí)間序列中的長(zhǎng)時(shí)依賴性,提高策略的穩(wěn)定性和效率。


技術(shù)實(shí)現(xiàn)思路

1、為了克服已有技術(shù)的不足,本發(fā)明提供了一種基于改進(jìn)長(zhǎng)短期記憶網(wǎng)絡(luò)的移動(dòng)機(jī)器人路徑規(guī)劃方法,旨在解決傳統(tǒng)強(qiáng)化學(xué)習(xí)算法在復(fù)雜環(huán)境中面臨的挑戰(zhàn)。通過(guò)在sac(soft?actor-critic)算法中引入概率補(bǔ)償機(jī)制,本發(fā)明的方法能夠有效增強(qiáng)價(jià)值網(wǎng)絡(luò)的魯棒性和穩(wěn)定性。具體來(lái)說(shuō),概率補(bǔ)償機(jī)制通過(guò)調(diào)整策略的概率分布來(lái)補(bǔ)償價(jià)值網(wǎng)絡(luò)的更新,從而提高價(jià)值估計(jì)的準(zhǔn)確性和穩(wěn)定性。此外,本發(fā)明的方法還通過(guò)引入lstm網(wǎng)絡(luò),進(jìn)一步增強(qiáng)了策略網(wǎng)絡(luò)對(duì)時(shí)間序列數(shù)據(jù)的處理能力。

2、本發(fā)明解決其技術(shù)問(wèn)題所采用的技術(shù)方案是:

3、一種基于改進(jìn)長(zhǎng)短期記憶網(wǎng)絡(luò)的移動(dòng)機(jī)器人路徑規(guī)劃方法,包括以下步驟;

4、步驟1:對(duì)時(shí)間狀態(tài)下的移動(dòng)機(jī)器人進(jìn)行部分可觀馬爾科夫決策過(guò)程建模;

5、步驟2:添加長(zhǎng)短期記憶網(wǎng)絡(luò)優(yōu)化強(qiáng)化學(xué)習(xí)路徑規(guī)劃算法,初步優(yōu)化算法,完成基礎(chǔ)的導(dǎo)航路徑規(guī)劃;

6、步驟3:針對(duì)長(zhǎng)短期記憶網(wǎng)絡(luò)提出概率補(bǔ)償;

7、步驟4:針對(duì)策略函數(shù)應(yīng)用自適應(yīng)補(bǔ)償函數(shù),使得在多變的環(huán)境下,模型能夠更有效地利用現(xiàn)有信息,提高機(jī)器人在復(fù)雜環(huán)境中的決策和導(dǎo)航能力;

8、步驟5:訓(xùn)練修改好的sac算法模型,并將最終訓(xùn)練好的模型部署到移動(dòng)機(jī)器人中,使其能夠更好的完成路徑規(guī)劃。

9、進(jìn)一步,所述步驟1中,部分可觀測(cè)馬爾科夫決策過(guò)程pomdp對(duì)移動(dòng)機(jī)器人進(jìn)行建模時(shí)的狀態(tài)描述,定義復(fù)雜的交互系統(tǒng),包括狀態(tài)空間、行動(dòng)空間、觀測(cè)空間以及相應(yīng)的轉(zhuǎn)移、觀測(cè)和獎(jiǎng)勵(lì)函數(shù),該模型通過(guò)一個(gè)六元組(s,o,a,t,o,r)來(lái)描述,如下:

10、1.1)狀態(tài)空間s={s1,s2,…,sn}:此空間包含系統(tǒng)可能處于的所有狀態(tài)。對(duì)于移動(dòng)機(jī)器人,每個(gè)狀態(tài)st={ot,ht}包括可觀測(cè)部分ot和不可觀測(cè)部分ht,可觀測(cè)部分是機(jī)器人當(dāng)前的傳感器讀數(shù),不可觀測(cè)部分包括動(dòng)態(tài)障礙物的速度和外部環(huán)境變化因素;

11、1.2)觀測(cè)空間o={o1,o2,…,on}:此空間描述機(jī)器人獲取的所有可能觀測(cè)數(shù)據(jù),在移動(dòng)機(jī)器人建模中,觀測(cè)空間由三個(gè)部分組成,表示在t時(shí)刻由激光雷達(dá)生成的實(shí)時(shí)局部地圖,包括以機(jī)器人為中心的網(wǎng)格地圖信息;表示通過(guò)點(diǎn)云目標(biāo)檢測(cè)算法獲取的障礙物信息及其在全局地圖下的坐標(biāo);則包括了機(jī)器人的姿態(tài)信息如速度和加速度;移動(dòng)機(jī)器人姿態(tài)信息其中dt表示當(dāng)前t時(shí)刻機(jī)器人與障礙物之間的距離,at表示當(dāng)前機(jī)器人與障礙物之間的角度;

12、

13、行動(dòng)空間a={α1,α2,…,αn}:定義了移動(dòng)機(jī)器人可采取的所有可能行動(dòng)的集合,由于移動(dòng)機(jī)器人采用差分驅(qū)動(dòng)方式,需滿足其在動(dòng)作空間下的速度指令αt={vt,ωt},其中vt表示移動(dòng)機(jī)器人在t時(shí)刻的線速度,ωt表示移動(dòng)機(jī)器人在t時(shí)刻的角速度,為了限制機(jī)器人的方向及視野狀態(tài),設(shè)定vt范圍為[0,0.9]m/s,ωt范圍為[-0.9,0.9]rad/s;

14、狀態(tài)轉(zhuǎn)移函數(shù)t=t(s′|s,a):t定義了在給定當(dāng)前狀態(tài)s和采取的行動(dòng)a的情況下,系統(tǒng)轉(zhuǎn)移到下一個(gè)狀態(tài)s′的概率分布;

15、觀測(cè)函數(shù)ω=ω(z|s,a):定義了在給定當(dāng)前狀態(tài)s和采取的行動(dòng)a的情況下,觀察到的信息z的概率分布;

16、獎(jiǎng)勵(lì)函數(shù)r=r(s,a,z):定義了移動(dòng)機(jī)器人在特定狀態(tài)s、采取行動(dòng)a后并根據(jù)觀測(cè)信息z后獲得的即時(shí)獎(jiǎng)勵(lì)或成本,獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)直接關(guān)系到學(xué)習(xí)過(guò)程的效率、模型的訓(xùn)練速度以及最終策略的收斂性,在移動(dòng)機(jī)器人的路徑規(guī)劃任務(wù)中,設(shè)計(jì)一個(gè)有效的獎(jiǎng)勵(lì)函數(shù)尤為關(guān)鍵,因?yàn)樗枰瑫r(shí)滿足多個(gè)條件:確保機(jī)器人的安全性、任務(wù)的時(shí)效性,并避免策略陷入局部最優(yōu)解。

17、再進(jìn)一步,所述步驟2中,強(qiáng)化學(xué)習(xí)算法以執(zhí)行者-評(píng)論家sac算法中,sac算法的損失函數(shù)和價(jià)值網(wǎng)絡(luò)定義如下:

18、actor和critic的網(wǎng)絡(luò)結(jié)構(gòu)均從當(dāng)前序列的第一個(gè)狀態(tài)st開(kāi)始初始化,將st輸入actor網(wǎng)絡(luò)后,輸出動(dòng)作at并得到回報(bào)rt,隨后轉(zhuǎn)移到下一個(gè)狀態(tài)st+1;

19、對(duì)于critic網(wǎng)絡(luò),critic網(wǎng)絡(luò)的目標(biāo)是最小化實(shí)際q值和目標(biāo)q值之間的均方誤差,將actor網(wǎng)絡(luò)輸出的st+1與初始狀態(tài)st一起作為輸入,目前q值計(jì)算如下:

20、yt=rt+γ(minqφ(s,a)-αlogπθ(a∣s))

21、其中γ表示衰減系數(shù),rt表示回報(bào),α為熵正則化系數(shù),πθ(a∣s)表示策略網(wǎng)絡(luò),qφ(s,a)表示估計(jì)狀態(tài);

22、因此critic的損失函數(shù)定義為:

23、

24、價(jià)值網(wǎng)絡(luò)定義為:

25、

26、對(duì)于actor網(wǎng)絡(luò)的損失函數(shù),actor網(wǎng)絡(luò)的目標(biāo)是最大化預(yù)期獎(jiǎng)勵(lì)和熵值,損失函數(shù)定義為:

27、

28、完成損失函數(shù)和價(jià)值網(wǎng)絡(luò)的定義后即可訓(xùn)練sac算法,使得移動(dòng)機(jī)器人能夠完成基礎(chǔ)的路徑規(guī)劃步驟。

29、所述步驟2中,向sac算法中添加長(zhǎng)短期記憶網(wǎng)絡(luò),考慮到輸入狀態(tài)序列以及輸出信息都是時(shí)序的,因此先針對(duì)q值網(wǎng)絡(luò)的狀態(tài)動(dòng)作進(jìn)行優(yōu)化,將傳統(tǒng)的全連接網(wǎng)絡(luò)替換為lstm網(wǎng)絡(luò),以處理時(shí)間序列數(shù)據(jù),過(guò)程如下:

30、2.1)對(duì)于actor網(wǎng)絡(luò):lstm用于處理輸入狀態(tài)序列,輸出動(dòng)作;

31、首先給定狀態(tài)序列s={s1,s2,…,st},lstm層的輸出為隱藏狀態(tài)序列h={h1,h2,…,ht},最終通過(guò)全連接層輸出動(dòng)作a={a1,a2,…,at};

32、ht,ct=lstm(s,ht-1,ct-1)

33、at=fc(ht)

34、其中,ht和ct分別為lstm的隱藏狀態(tài)和細(xì)胞狀態(tài),fc表示全連接層;

35、2)對(duì)于critic網(wǎng)絡(luò):lstm用于處理狀態(tài)-動(dòng)作序列,輸出q值;

36、給定狀態(tài)-動(dòng)作序列(s,a)={(s1,a1),(s2,a2),…,(st,at)},lstm層的輸出為隱藏狀態(tài)序列h={h1,h2,…,ht},通過(guò)全連接層輸出q值q={q1,q2,…,qt};

37、ht,ct=lstm((s,a),ht-1,ct-1)

38、qt=fc(ht)

39、在訓(xùn)練過(guò)程中,需要處理序列數(shù)據(jù)。將每個(gè)訓(xùn)練樣本擴(kuò)展為包含多個(gè)時(shí)間步的序列,更新網(wǎng)絡(luò)參數(shù)時(shí),確保lstm的狀態(tài)能夠正確傳遞;

40、對(duì)于損失函數(shù):與傳統(tǒng)的sac類似,依照序列數(shù)據(jù)的特性進(jìn)行優(yōu)化;

41、critic網(wǎng)絡(luò)的目標(biāo)仍然是最小化實(shí)際q值和目標(biāo)q值之間的均方誤差,但現(xiàn)在的q值是由lstm網(wǎng)絡(luò)生成的,假設(shè)lstm的隱藏狀態(tài)為h,序列長(zhǎng)度為t;

42、yt=rt+γ(minqφ(st+1,at+1)-αlogπθ(at+1∣st+1))

43、critic的損失函數(shù)變?yōu)椋?/p>

44、

45、actor的損失函數(shù)變?yōu)椋?/p>

46、

47、原來(lái)的損失函數(shù)是針對(duì)單步狀態(tài)-動(dòng)作對(duì)的,現(xiàn)在變成了針對(duì)整個(gè)時(shí)間序列計(jì)算平均損失,同時(shí),q值的計(jì)算依賴于lstm的隱藏狀態(tài)ht。

48、更進(jìn)一步,所述步驟3中,概率補(bǔ)償機(jī)制解釋如下:

49、在強(qiáng)化學(xué)習(xí)中,價(jià)值網(wǎng)絡(luò)用于估計(jì)某一狀態(tài)的價(jià)值,即該狀態(tài)在未來(lái)所能獲得的累計(jì)獎(jiǎng)勵(lì),為了提升價(jià)值估計(jì)的準(zhǔn)確性和穩(wěn)定性,在軟演員評(píng)論sac算法中引入了一種概率補(bǔ)償機(jī)制,該機(jī)制通過(guò)調(diào)整策略的概率分布來(lái)補(bǔ)償價(jià)值網(wǎng)絡(luò)的更新,從而增強(qiáng)其魯棒性和穩(wěn)定性;

50、概率補(bǔ)償機(jī)制在價(jià)值網(wǎng)絡(luò)的目標(biāo)函數(shù)中引入一個(gè)與策略概率相關(guān)的補(bǔ)償項(xiàng),以調(diào)整策略概率對(duì)價(jià)值估計(jì)的影響,從而提高其準(zhǔn)確性和穩(wěn)定性,根據(jù)sac算法中的策略網(wǎng)絡(luò)πθ,定義了補(bǔ)償項(xiàng)如下

51、c(s,a)=βlogπθ(a∣s)

52、其中,β是權(quán)重系數(shù),用于平衡補(bǔ)償項(xiàng)的影響。

53、所述步驟4中,將概率補(bǔ)償機(jī)制代入算法如下:

54、在sac算法中,已知價(jià)值網(wǎng)絡(luò)vψ(s)的目標(biāo)是估計(jì)狀態(tài)s的價(jià)值,sac使用雙q值網(wǎng)絡(luò)來(lái)減少值得估計(jì)偏差,在此前公式的基礎(chǔ)上,進(jìn)一步引入設(shè)計(jì)補(bǔ)償項(xiàng)c(s,a),價(jià)值網(wǎng)絡(luò)的目標(biāo)函數(shù)既可以修改為:

55、

56、代入補(bǔ)償項(xiàng)c(s,a)并化解最終得到:

57、

58、其中,β是權(quán)重系數(shù),用于平衡補(bǔ)償項(xiàng)的影響。

59、所述步驟5中,將模型進(jìn)行訓(xùn)練的步驟如下:

60、5.1)狀態(tài)建模,初始化環(huán)境和狀態(tài)空間,并設(shè)置sac算法的超參數(shù);

61、5.2)替換狀態(tài)網(wǎng)絡(luò)和觀測(cè)網(wǎng)絡(luò)為長(zhǎng)短期記憶力網(wǎng)絡(luò);

62、5.3)初始化策略網(wǎng)絡(luò)和q值網(wǎng)絡(luò),以及目標(biāo)q值網(wǎng)絡(luò),同時(shí)初始化經(jīng)驗(yàn)回放緩沖區(qū),在訓(xùn)練循環(huán)中,基于當(dāng)前策略網(wǎng)絡(luò)采樣動(dòng)作,并在環(huán)境中執(zhí)行這些動(dòng)作,記錄下一個(gè)狀態(tài)、獎(jiǎng)勵(lì)和終止標(biāo)志,將這些經(jīng)驗(yàn)存儲(chǔ)到經(jīng)驗(yàn)回放緩沖區(qū)中;

63、5.4)從緩沖區(qū)隨機(jī)采樣一個(gè)批次的經(jīng)驗(yàn),使用目標(biāo)q值網(wǎng)絡(luò)計(jì)算q值目標(biāo),并利用這些目標(biāo)值更新q值網(wǎng)絡(luò);

64、5.5)基于當(dāng)前的q值網(wǎng)絡(luò)更新策略網(wǎng)絡(luò),并進(jìn)行目標(biāo)q值網(wǎng)絡(luò)的軟更新,在整個(gè)訓(xùn)練過(guò)程中,定期在評(píng)估環(huán)境中評(píng)估策略的性能,并記錄結(jié)果;

65、5.6)保存訓(xùn)練好的策略網(wǎng)絡(luò)和q值網(wǎng)絡(luò)的參數(shù)。

66、優(yōu)選的,所述步驟5中,將模型部署到移動(dòng)機(jī)器人完成路徑規(guī)劃的過(guò)程為:將訓(xùn)練好的模型打包封裝于一個(gè)模塊裝置內(nèi),配置于移動(dòng)機(jī)器人中,當(dāng)驅(qū)動(dòng)機(jī)器人時(shí)首先需要訪問(wèn)該裝置進(jìn)行路徑規(guī)劃,裝置將輸出的結(jié)果用于驅(qū)動(dòng)移動(dòng)機(jī)器人,即可完成最終的移動(dòng)機(jī)器人的路徑規(guī)劃。

67、本發(fā)明的有益效果主要表現(xiàn)在:引入了長(zhǎng)短期記憶網(wǎng)絡(luò)于強(qiáng)化學(xué)習(xí)算法中,有效提升路徑規(guī)劃的性能。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
法库县| 呈贡县| 福海县| 郴州市| 西充县| 新沂市| 井研县| 娱乐| 龙海市| 屏东市| 松江区| 成武县| 河津市| 公主岭市| 沙洋县| 关岭| 简阳市| 云阳县| 柘荣县| 东宁县| 麻阳| 手机| 奉新县| 玉龙| 长兴县| 民权县| 英超| 隆林| 桂林市| 晴隆县| 喀什市| 五大连池市| 扎赉特旗| 湘潭县| 辽源市| 天峻县| 壶关县| 金山区| 高阳县| 右玉县| 武隆县|