本發(fā)明屬于機器人路徑規(guī)劃,特別涉及一種建筑機器人路徑規(guī)劃方法及相關(guān)裝置。
背景技術(shù):
1、建筑機器人指用于建筑生命全周期,例如設(shè)計、施工、運維及破拆工序的機器人設(shè)備,其被認(rèn)為是提高施工效率、質(zhì)量和安全的有效方法之一;在建筑施工現(xiàn)場,建筑機器人工作環(huán)境通常為非結(jié)構(gòu)化未知環(huán)境,需要機器人自主感知、自主路徑規(guī)劃以及自主避障,路徑規(guī)劃作為建筑機器人自主導(dǎo)航的關(guān)鍵,其準(zhǔn)確性影響著建筑機器人后續(xù)工作的效率。
2、目前,關(guān)于建筑機器人路徑規(guī)劃研究,多采用傳統(tǒng)的路徑規(guī)劃算法;然而,隨著建筑機器人應(yīng)用場景的不斷擴(kuò)大,其面臨的環(huán)境也越來越復(fù)雜;但傳統(tǒng)的路徑規(guī)劃算法嚴(yán)重依賴數(shù)學(xué)模型和專家經(jīng)驗,在面對動態(tài)復(fù)雜的建筑施工環(huán)境時,算法缺陷明顯,不足以生成可靠的建筑機器人施工路徑;其次,建筑施工現(xiàn)場通常存在復(fù)雜多變的地形和環(huán)境,包括不平整的地面、動態(tài)施工機械、施工材料的堆放等;建筑機器人的路徑規(guī)劃算法需要具備足夠的適應(yīng)性,才能夠在復(fù)雜環(huán)境中穩(wěn)定行駛和執(zhí)行任務(wù);研究發(fā)現(xiàn),深度強化學(xué)習(xí)以其可以處理高維狀態(tài)和動作空間、適合處理非線性和復(fù)雜的關(guān)系等優(yōu)勢,近年來開始被應(yīng)用于建筑機器人路徑規(guī)劃。
3、但是傳統(tǒng)的深度強化學(xué)習(xí)算法應(yīng)用于建筑施工環(huán)境時,對于建筑機器人的路徑規(guī)劃仍存在許多問題,例如:復(fù)雜動態(tài)施工環(huán)境下,高維數(shù)據(jù)輸入容易引起維數(shù)爆炸;其次,傳統(tǒng)的深度強化學(xué)習(xí)算法模型,存在動作空間、狀態(tài)空間單一及獎勵函數(shù)稀疏的缺陷,導(dǎo)致訓(xùn)練時間長、收斂速度慢。
技術(shù)實現(xiàn)思路
1、針對現(xiàn)有技術(shù)中存在的技術(shù)問題,本發(fā)明提供了一種建筑機器人路徑規(guī)劃方法及相關(guān)裝置,以解決現(xiàn)有的建筑機器人路徑規(guī)劃過程易引起維數(shù)爆炸,訓(xùn)練時間長及收斂速度慢的技術(shù)問題。
2、為達(dá)到上述目的,本發(fā)明采用的技術(shù)方案為:
3、本發(fā)明提供了一種建筑機器人路徑規(guī)劃方法,包括:
4、構(gòu)建改進(jìn)的雙延遲深度確定性策略梯度模型;其中,所述改進(jìn)的雙延遲深度確定性策略梯度模型為lstm算法與雙延遲深度確定性策略梯度算法的融合模型;
5、將建筑機器人的當(dāng)前狀態(tài)輸入至所述改進(jìn)的雙延遲深度確定性策略梯度模型中獲得規(guī)劃動作,執(zhí)行規(guī)劃動作獲取下一時刻的狀態(tài)并獲得計算規(guī)劃動作的獎勵;
6、基于當(dāng)前時刻的狀態(tài)、獎勵和動作以及下一時刻的狀態(tài),通過采樣優(yōu)先級經(jīng)驗回放機制形成經(jīng)驗數(shù)據(jù)并存儲至經(jīng)驗池;
7、基于采樣優(yōu)先級經(jīng)驗回放機制從經(jīng)驗池中采樣,并對所述改進(jìn)的雙延遲深度確定性策略梯度模型進(jìn)行訓(xùn)練,獲得路徑規(guī)劃模型;
8、利用所述路徑規(guī)劃模型進(jìn)行路徑規(guī)劃,得到建筑機器人路徑規(guī)劃結(jié)果。
9、進(jìn)一步的,所述改進(jìn)的雙延遲深度確定性策略梯度模型包括actor網(wǎng)絡(luò)模塊和critic網(wǎng)絡(luò)模塊;
10、所述actor網(wǎng)絡(luò)模塊包括actor當(dāng)前網(wǎng)絡(luò)和actor目標(biāo)網(wǎng)絡(luò),所述critic網(wǎng)絡(luò)模塊包括critic當(dāng)前網(wǎng)絡(luò)1、critic當(dāng)前網(wǎng)絡(luò)2、critic目標(biāo)網(wǎng)絡(luò)1及critic目標(biāo)網(wǎng)絡(luò)2;其中,所述actor當(dāng)前網(wǎng)絡(luò)、所述actor目標(biāo)網(wǎng)絡(luò)、所述critic當(dāng)前網(wǎng)絡(luò)1、critic當(dāng)前網(wǎng)絡(luò)2、critic目標(biāo)網(wǎng)絡(luò)1及critic目標(biāo)網(wǎng)絡(luò)2的結(jié)構(gòu)均相同,包括輸入層、第一lstm層、第二lstm層、全連接層及輸出層。
11、進(jìn)一步的,基于采樣優(yōu)先級經(jīng)驗回放機制從經(jīng)驗池中采樣,并對所述改進(jìn)的雙延遲深度確定性策略梯度模型進(jìn)行訓(xùn)練,獲得路徑規(guī)劃模型的過程中,通過引入軟更新機制的延遲更新策略,對actor網(wǎng)絡(luò)模塊的網(wǎng)絡(luò)參數(shù)和critic網(wǎng)絡(luò)模塊的網(wǎng)絡(luò)參數(shù)進(jìn)行更新。
12、進(jìn)一步的,在所述actor目標(biāo)網(wǎng)絡(luò)中加入有隨機噪聲;其中,所述隨機噪聲,具體為:
13、
14、ε~clip(n(0,σ),-c,c)
15、其中,y為目標(biāo)q值得累計獎勵;r為時刻即時獎勵;γ為折扣因子;為critic當(dāng)前網(wǎng)絡(luò)1的輸出值;為critic當(dāng)前網(wǎng)絡(luò)2的輸出值;s′為時刻狀態(tài);πφ′(s′)為critic當(dāng)前網(wǎng)絡(luò)輸出的動作;ε為添加的基于正態(tài)分布的噪聲;c為噪聲的上邊界;-c為噪聲的下邊界;clip(*)為截斷函數(shù)。
16、進(jìn)一步的,建筑機器人的當(dāng)前狀態(tài)的狀態(tài)空間包括運動狀態(tài)、碰撞狀態(tài)及成功到達(dá)目標(biāo)狀態(tài);其中,建筑機器人的當(dāng)前狀態(tài)的狀態(tài)空間,具體為:
17、
18、其中,continue為運動狀態(tài);collision為碰撞狀態(tài);goal為成功到達(dá)目標(biāo)狀態(tài);dt為建筑機器人在時間t時刻激光雷達(dá)感知的距離數(shù)據(jù);dg為建筑機器人與目標(biāo)點之間的距離。
19、進(jìn)一步的,執(zhí)行規(guī)劃動作獲取下一時刻的狀態(tài)并獲得計算規(guī)劃動作的獎勵的過程中,利用強化學(xué)習(xí)獎勵函數(shù)計算規(guī)劃動作的獎勵;
20、其中,所述強化學(xué)習(xí)獎勵函數(shù),具體為:
21、
22、rr=100+λ1(d-d0)+λ2(t-t0)
23、rc=-100
24、rg=α·v-β·w+γ·dis
25、其中,r(st,at)為獎勵值函數(shù);rr為到達(dá)目標(biāo)點獎勵值;rc為碰撞狀態(tài)獎勵值;rg為稀疏獎勵;λ1為軌跡長度調(diào)節(jié)因子;d為目標(biāo)點距離;d0為移動軌跡長度;λ2為規(guī)劃時間的調(diào)節(jié)因子;t為當(dāng)前時間;t0為起始時間;α為線速度權(quán)重;v為線速度;β為角速度權(quán)重;w為角速度;γ為激光雷達(dá)c測距權(quán)重;dis為激光雷達(dá)測距后經(jīng)函數(shù)規(guī)范計算出的值。
26、進(jìn)一步的,所述采樣優(yōu)先級經(jīng)驗回放機制中采樣概率為:
27、
28、其中,p(i)為第i個經(jīng)驗被選中的概率;為第i個經(jīng)驗的優(yōu)先級;α為超參數(shù);為取樣時調(diào)整權(quán)重的參數(shù);k為經(jīng)驗池中的樣本總數(shù);
29、所述采樣優(yōu)先級經(jīng)驗回放機制中,引入有重要性采樣權(quán)重的優(yōu)先級采樣方法對樣本進(jìn)行校正,并將重要性采樣權(quán)重應(yīng)用到經(jīng)驗優(yōu)先級的經(jīng)驗更新公式中;
30、其中,所述重要性采樣權(quán)重,具體為:
31、
32、其中,wi為第i個經(jīng)驗的重要性采樣權(quán)重;n為經(jīng)驗回放緩沖區(qū)中樣本的總數(shù)量;β′為用于控制重要性采樣程度的超參數(shù)。
33、本發(fā)明還提供了一種建筑機器人路徑規(guī)劃系統(tǒng),包括:
34、建模模塊,用于構(gòu)建改進(jìn)的雙延遲深度確定性策略梯度模型;其中,所述改進(jìn)的雙延遲深度確定性策略梯度模型為lstm算法與雙延遲深度確定性策略梯度算法的融合模型;
35、模型訓(xùn)練模塊,用于將建筑機器人的當(dāng)前狀態(tài)輸入至所述改進(jìn)的雙延遲深度確定性策略梯度模型中獲得規(guī)劃動作,執(zhí)行規(guī)劃動作獲取下一時刻的狀態(tài)并獲得計算規(guī)劃動作的獎勵;基于當(dāng)前時刻的狀態(tài)、獎勵和動作以及下一時刻的狀態(tài),通過優(yōu)先級經(jīng)驗回放機制形成經(jīng)驗數(shù)據(jù)并存儲至經(jīng)驗池;基于優(yōu)先級經(jīng)驗回放機制從經(jīng)驗池中采樣,并對所述改進(jìn)的雙延遲深度確定性策略梯度模型進(jìn)行訓(xùn)練,獲得路徑規(guī)劃模型;
36、路徑規(guī)劃模塊,用于利用所述路徑規(guī)劃模型進(jìn)行路徑規(guī)劃,得到建筑機器人路徑規(guī)劃結(jié)果。
37、本發(fā)明還提供了一種建筑機器人路徑規(guī)劃設(shè)備,包括:
38、存儲器,用于存儲計算機程序;
39、處理器,用于執(zhí)行所述計算機程序時實現(xiàn)所述的建筑機器人路徑規(guī)劃方法的步驟。
40、本發(fā)明還提供了一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)所述的建筑機器人路徑規(guī)劃方法的步驟。
41、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果為:
42、本發(fā)明提供的建筑機器人路徑規(guī)劃方法,利用lstm算法與雙延遲深度確定性策略梯度算法構(gòu)建融合模型,通過lstm控制網(wǎng)絡(luò)對于經(jīng)驗的記憶和遺忘程度,自循環(huán)動態(tài)修改網(wǎng)絡(luò)權(quán)重來調(diào)節(jié)信息流,有效解決rnn等傳統(tǒng)模型梯度消失和梯度爆炸問題;其次,在雙延遲深度確定性策略梯度算法中通過引入雙critic網(wǎng)絡(luò)和延遲更新機制,有效解決了傳統(tǒng)ddpg算法中存在的q值高估和訓(xùn)練不穩(wěn)定等問題,使得td3算法在連續(xù)控制任務(wù)中表現(xiàn)出更好的性能和穩(wěn)定性;在構(gòu)建經(jīng)驗數(shù)據(jù)及采樣過程中引入采樣優(yōu)先級經(jīng)驗回放機制,采樣優(yōu)先級經(jīng)驗回放機制以時序差分誤差作為衡量優(yōu)先級的指標(biāo),貪心選擇價值最高的經(jīng)驗數(shù)據(jù),提高了算法效率和訓(xùn)練效果,大大降低了模型訓(xùn)練時間,提高了收斂速度。
43、進(jìn)一步的,根據(jù)建筑施工環(huán)境特點設(shè)計了全新的動作空間和狀態(tài)空間,對雷達(dá)數(shù)據(jù)進(jìn)行屏蔽和劃分,將建筑機器人運動狀態(tài)重新設(shè)定,劃分為運動狀態(tài)、碰撞狀態(tài)和到達(dá)目標(biāo)點狀態(tài),以提高建筑機器人在復(fù)雜施工環(huán)境中路徑規(guī)劃的適應(yīng)性。
44、進(jìn)一步的,基于獎勵函數(shù)現(xiàn)有的設(shè)計方法,通過規(guī)避稀疏獎勵設(shè)計和形式化獎勵設(shè)計的問題,吸取獎勵系數(shù)變化獎勵設(shè)計方法的優(yōu)點,同時考慮建筑機器人在尋找目標(biāo)時,機器人與目標(biāo)點的距離、運動速度、運動時間、運行狀態(tài)、目標(biāo)點是否到達(dá)以及是否發(fā)生碰撞等因素,并根據(jù)可能出現(xiàn)的其它狀態(tài),設(shè)置負(fù)獎勵機制,能夠有效適用于復(fù)雜建筑施工環(huán)境,保證建筑機器人在安全路徑規(guī)劃的前提下提高訓(xùn)練效率。
45、本發(fā)明提供的建筑機器人路徑規(guī)劃系統(tǒng)、建筑機器人路徑規(guī)劃設(shè)備及計算機可讀存儲介質(zhì),具備上述建筑機器人路徑規(guī)劃方法的全部優(yōu)勢。