一種建筑機器人路徑規(guī)劃方法及相關(guān)裝置

文檔序號：40531262發(fā)布日期：2024-12-31 13:45閱讀：19來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>測量裝置的制造及其應(yīng)用技術(shù)

本發(fā)明屬于機器人路徑規(guī)劃，特別涉及一種建筑機器人路徑規(guī)劃方法及相關(guān)裝置。

背景技術(shù)：

1、建筑機器人指用于建筑生命全周期，例如設(shè)計、施工、運維及破拆工序的機器人設(shè)備，其被認(rèn)為是提高施工效率、質(zhì)量和安全的有效方法之一；在建筑施工現(xiàn)場，建筑機器人工作環(huán)境通常為非結(jié)構(gòu)化未知環(huán)境，需要機器人自主感知、自主路徑規(guī)劃以及自主避障，路徑規(guī)劃作為建筑機器人自主導(dǎo)航的關(guān)鍵，其準(zhǔn)確性影響著建筑機器人后續(xù)工作的效率。

2、目前，關(guān)于建筑機器人路徑規(guī)劃研究，多采用傳統(tǒng)的路徑規(guī)劃算法；然而，隨著建筑機器人應(yīng)用場景的不斷擴(kuò)大，其面臨的環(huán)境也越來越復(fù)雜；但傳統(tǒng)的路徑規(guī)劃算法嚴(yán)重依賴數(shù)學(xué)模型和專家經(jīng)驗，在面對動態(tài)復(fù)雜的建筑施工環(huán)境時，算法缺陷明顯，不足以生成可靠的建筑機器人施工路徑；其次，建筑施工現(xiàn)場通常存在復(fù)雜多變的地形和環(huán)境，包括不平整的地面、動態(tài)施工機械、施工材料的堆放等；建筑機器人的路徑規(guī)劃算法需要具備足夠的適應(yīng)性，才能夠在復(fù)雜環(huán)境中穩(wěn)定行駛和執(zhí)行任務(wù)；研究發(fā)現(xiàn)，深度強化學(xué)習(xí)以其可以處理高維狀態(tài)和動作空間、適合處理非線性和復(fù)雜的關(guān)系等優(yōu)勢，近年來開始被應(yīng)用于建筑機器人路徑規(guī)劃。

3、但是傳統(tǒng)的深度強化學(xué)習(xí)算法應(yīng)用于建筑施工環(huán)境時，對于建筑機器人的路徑規(guī)劃仍存在許多問題，例如：復(fù)雜動態(tài)施工環(huán)境下，高維數(shù)據(jù)輸入容易引起維數(shù)爆炸；其次，傳統(tǒng)的深度強化學(xué)習(xí)算法模型，存在動作空間、狀態(tài)空間單一及獎勵函數(shù)稀疏的缺陷，導(dǎo)致訓(xùn)練時間長、收斂速度慢。

技術(shù)實現(xiàn)思路

1、針對現(xiàn)有技術(shù)中存在的技術(shù)問題，本發(fā)明提供了一種建筑機器人路徑規(guī)劃方法及相關(guān)裝置，以解決現(xiàn)有的建筑機器人路徑規(guī)劃過程易引起維數(shù)爆炸，訓(xùn)練時間長及收斂速度慢的技術(shù)問題。

2、為達(dá)到上述目的，本發(fā)明采用的技術(shù)方案為：

3、本發(fā)明提供了一種建筑機器人路徑規(guī)劃方法，包括：

4、構(gòu)建改進(jìn)的雙延遲深度確定性策略梯度模型；其中，所述改進(jìn)的雙延遲深度確定性策略梯度模型為lstm算法與雙延遲深度確定性策略梯度算法的融合模型；

5、將建筑機器人的當(dāng)前狀態(tài)輸入至所述改進(jìn)的雙延遲深度確定性策略梯度模型中獲得規(guī)劃動作，執(zhí)行規(guī)劃動作獲取下一時刻的狀態(tài)并獲得計算規(guī)劃動作的獎勵；

6、基于當(dāng)前時刻的狀態(tài)、獎勵和動作以及下一時刻的狀態(tài)，通過采樣優(yōu)先級經(jīng)驗回放機制形成經(jīng)驗數(shù)據(jù)并存儲至經(jīng)驗池；

7、基于采樣優(yōu)先級經(jīng)驗回放機制從經(jīng)驗池中采樣，并對所述改進(jìn)的雙延遲深度確定性策略梯度模型進(jìn)行訓(xùn)練，獲得路徑規(guī)劃模型；

8、利用所述路徑規(guī)劃模型進(jìn)行路徑規(guī)劃，得到建筑機器人路徑規(guī)劃結(jié)果。

9、進(jìn)一步的，所述改進(jìn)的雙延遲深度確定性策略梯度模型包括actor網(wǎng)絡(luò)模塊和critic網(wǎng)絡(luò)模塊；

10、所述actor網(wǎng)絡(luò)模塊包括actor當(dāng)前網(wǎng)絡(luò)和actor目標(biāo)網(wǎng)絡(luò)，所述critic網(wǎng)絡(luò)模塊包括critic當(dāng)前網(wǎng)絡(luò)1、critic當(dāng)前網(wǎng)絡(luò)2、critic目標(biāo)網(wǎng)絡(luò)1及critic目標(biāo)網(wǎng)絡(luò)2；其中，所述actor當(dāng)前網(wǎng)絡(luò)、所述actor目標(biāo)網(wǎng)絡(luò)、所述critic當(dāng)前網(wǎng)絡(luò)1、critic當(dāng)前網(wǎng)絡(luò)2、critic目標(biāo)網(wǎng)絡(luò)1及critic目標(biāo)網(wǎng)絡(luò)2的結(jié)構(gòu)均相同，包括輸入層、第一lstm層、第二lstm層、全連接層及輸出層。

11、進(jìn)一步的，基于采樣優(yōu)先級經(jīng)驗回放機制從經(jīng)驗池中采樣，并對所述改進(jìn)的雙延遲深度確定性策略梯度模型進(jìn)行訓(xùn)練，獲得路徑規(guī)劃模型的過程中，通過引入軟更新機制的延遲更新策略，對actor網(wǎng)絡(luò)模塊的網(wǎng)絡(luò)參數(shù)和critic網(wǎng)絡(luò)模塊的網(wǎng)絡(luò)參數(shù)進(jìn)行更新。

12、進(jìn)一步的，在所述actor目標(biāo)網(wǎng)絡(luò)中加入有隨機噪聲；其中，所述隨機噪聲，具體為：

13、

14、ε～clip(n(0,σ),-c,c)

15、其中，y為目標(biāo)q值得累計獎勵；r為時刻即時獎勵；γ為折扣因子；為critic當(dāng)前網(wǎng)絡(luò)1的輸出值；為critic當(dāng)前網(wǎng)絡(luò)2的輸出值；s′為時刻狀態(tài)；πφ′(s′)為critic當(dāng)前網(wǎng)絡(luò)輸出的動作；ε為添加的基于正態(tài)分布的噪聲；c為噪聲的上邊界；-c為噪聲的下邊界；clip(*)為截斷函數(shù)。

16、進(jìn)一步的，建筑機器人的當(dāng)前狀態(tài)的狀態(tài)空間包括運動狀態(tài)、碰撞狀態(tài)及成功到達(dá)目標(biāo)狀態(tài)；其中，建筑機器人的當(dāng)前狀態(tài)的狀態(tài)空間，具體為：

17、

18、其中，continue為運動狀態(tài)；collision為碰撞狀態(tài)；goal為成功到達(dá)目標(biāo)狀態(tài)；dt為建筑機器人在時間t時刻激光雷達(dá)感知的距離數(shù)據(jù)；dg為建筑機器人與目標(biāo)點之間的距離。

19、進(jìn)一步的，執(zhí)行規(guī)劃動作獲取下一時刻的狀態(tài)并獲得計算規(guī)劃動作的獎勵的過程中，利用強化學(xué)習(xí)獎勵函數(shù)計算規(guī)劃動作的獎勵；

20、其中，所述強化學(xué)習(xí)獎勵函數(shù)，具體為：

21、

22、rr＝100+λ1(d-d0)+λ2(t-t0)

23、rc＝-100

24、rg＝α·v-β·w+γ·dis

25、其中，r(st,at)為獎勵值函數(shù)；rr為到達(dá)目標(biāo)點獎勵值；rc為碰撞狀態(tài)獎勵值；rg為稀疏獎勵；λ1為軌跡長度調(diào)節(jié)因子；d為目標(biāo)點距離；d0為移動軌跡長度；λ2為規(guī)劃時間的調(diào)節(jié)因子；t為當(dāng)前時間；t0為起始時間；α為線速度權(quán)重；v為線速度；β為角速度權(quán)重；w為角速度；γ為激光雷達(dá)c測距權(quán)重；dis為激光雷達(dá)測距后經(jīng)函數(shù)規(guī)范計算出的值。

26、進(jìn)一步的，所述采樣優(yōu)先級經(jīng)驗回放機制中采樣概率為：

27、

28、其中，p(i)為第i個經(jīng)驗被選中的概率；為第i個經(jīng)驗的優(yōu)先級；α為超參數(shù)；為取樣時調(diào)整權(quán)重的參數(shù)；k為經(jīng)驗池中的樣本總數(shù)；

29、所述采樣優(yōu)先級經(jīng)驗回放機制中，引入有重要性采樣權(quán)重的優(yōu)先級采樣方法對樣本進(jìn)行校正，并將重要性采樣權(quán)重應(yīng)用到經(jīng)驗優(yōu)先級的經(jīng)驗更新公式中；

30、其中，所述重要性采樣權(quán)重，具體為：

31、

32、其中，wi為第i個經(jīng)驗的重要性采樣權(quán)重；n為經(jīng)驗回放緩沖區(qū)中樣本的總數(shù)量；β′為用于控制重要性采樣程度的超參數(shù)。

33、本發(fā)明還提供了一種建筑機器人路徑規(guī)劃系統(tǒng)，包括：

34、建模模塊，用于構(gòu)建改進(jìn)的雙延遲深度確定性策略梯度模型；其中，所述改進(jìn)的雙延遲深度確定性策略梯度模型為lstm算法與雙延遲深度確定性策略梯度算法的融合模型；

35、模型訓(xùn)練模塊，用于將建筑機器人的當(dāng)前狀態(tài)輸入至所述改進(jìn)的雙延遲深度確定性策略梯度模型中獲得規(guī)劃動作，執(zhí)行規(guī)劃動作獲取下一時刻的狀態(tài)并獲得計算規(guī)劃動作的獎勵；基于當(dāng)前時刻的狀態(tài)、獎勵和動作以及下一時刻的狀態(tài)，通過優(yōu)先級經(jīng)驗回放機制形成經(jīng)驗數(shù)據(jù)并存儲至經(jīng)驗池；基于優(yōu)先級經(jīng)驗回放機制從經(jīng)驗池中采樣，并對所述改進(jìn)的雙延遲深度確定性策略梯度模型進(jìn)行訓(xùn)練，獲得路徑規(guī)劃模型；

36、路徑規(guī)劃模塊，用于利用所述路徑規(guī)劃模型進(jìn)行路徑規(guī)劃，得到建筑機器人路徑規(guī)劃結(jié)果。

37、本發(fā)明還提供了一種建筑機器人路徑規(guī)劃設(shè)備，包括：

38、存儲器，用于存儲計算機程序；

39、處理器，用于執(zhí)行所述計算機程序時實現(xiàn)所述的建筑機器人路徑規(guī)劃方法的步驟。

40、本發(fā)明還提供了一種計算機可讀存儲介質(zhì)，所述計算機可讀存儲介質(zhì)存儲有計算機程序，所述計算機程序被處理器執(zhí)行時實現(xiàn)所述的建筑機器人路徑規(guī)劃方法的步驟。

41、與現(xiàn)有技術(shù)相比，本發(fā)明的有益效果為：

42、本發(fā)明提供的建筑機器人路徑規(guī)劃方法，利用lstm算法與雙延遲深度確定性策略梯度算法構(gòu)建融合模型，通過lstm控制網(wǎng)絡(luò)對于經(jīng)驗的記憶和遺忘程度，自循環(huán)動態(tài)修改網(wǎng)絡(luò)權(quán)重來調(diào)節(jié)信息流，有效解決rnn等傳統(tǒng)模型梯度消失和梯度爆炸問題；其次，在雙延遲深度確定性策略梯度算法中通過引入雙critic網(wǎng)絡(luò)和延遲更新機制，有效解決了傳統(tǒng)ddpg算法中存在的q值高估和訓(xùn)練不穩(wěn)定等問題，使得td3算法在連續(xù)控制任務(wù)中表現(xiàn)出更好的性能和穩(wěn)定性；在構(gòu)建經(jīng)驗數(shù)據(jù)及采樣過程中引入采樣優(yōu)先級經(jīng)驗回放機制，采樣優(yōu)先級經(jīng)驗回放機制以時序差分誤差作為衡量優(yōu)先級的指標(biāo)，貪心選擇價值最高的經(jīng)驗數(shù)據(jù)，提高了算法效率和訓(xùn)練效果，大大降低了模型訓(xùn)練時間，提高了收斂速度。

43、進(jìn)一步的，根據(jù)建筑施工環(huán)境特點設(shè)計了全新的動作空間和狀態(tài)空間，對雷達(dá)數(shù)據(jù)進(jìn)行屏蔽和劃分，將建筑機器人運動狀態(tài)重新設(shè)定，劃分為運動狀態(tài)、碰撞狀態(tài)和到達(dá)目標(biāo)點狀態(tài)，以提高建筑機器人在復(fù)雜施工環(huán)境中路徑規(guī)劃的適應(yīng)性。

44、進(jìn)一步的，基于獎勵函數(shù)現(xiàn)有的設(shè)計方法，通過規(guī)避稀疏獎勵設(shè)計和形式化獎勵設(shè)計的問題，吸取獎勵系數(shù)變化獎勵設(shè)計方法的優(yōu)點，同時考慮建筑機器人在尋找目標(biāo)時，機器人與目標(biāo)點的距離、運動速度、運動時間、運行狀態(tài)、目標(biāo)點是否到達(dá)以及是否發(fā)生碰撞等因素，并根據(jù)可能出現(xiàn)的其它狀態(tài)，設(shè)置負(fù)獎勵機制，能夠有效適用于復(fù)雜建筑施工環(huán)境，保證建筑機器人在安全路徑規(guī)劃的前提下提高訓(xùn)練效率。

45、本發(fā)明提供的建筑機器人路徑規(guī)劃系統(tǒng)、建筑機器人路徑規(guī)劃設(shè)備及計算機可讀存儲介質(zhì)，具備上述建筑機器人路徑規(guī)劃方法的全部優(yōu)勢。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：于軍琪,陳易圣,馮春勇,郭聚剛,王凱,李經(jīng)丹
技術(shù)所有人：西安建筑科技大學(xué)
我是此專利的發(fā)明人

上一篇：一種大模型推理加速方法、設(shè)備及介質(zhì)與流程
上一篇：紙品、紙漿、造紙機械漿及其處理方法與流程

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、邢老師：1.機械設(shè)計及理論 2.生物醫(yī)學(xué)材料及器械 3.聲發(fā)射檢測技術(shù)。
2、王老師：1.數(shù)字信號處理 2.傳感器技術(shù)及應(yīng)用 3.機電一體化產(chǎn)品開發(fā) 4.機械工程測試技術(shù) 5.逆向工程技術(shù)研究
3、王老師：1.機器人 2.嵌入式控制系統(tǒng)開發(fā)
4、張老師：1.機械設(shè)計的應(yīng)力分析、強度校核的計算機仿真 2.生物反應(yīng)器研制 3.生物力學(xué)
5、趙老師：檢測與控制技術(shù)、機器人技術(shù)、機電一體化技術(shù)
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種建筑機器人路徑規(guī)劃方法及相關(guān)裝置