1.一種建筑機(jī)器人路徑規(guī)劃方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的一種建筑機(jī)器人路徑規(guī)劃方法,其特征在于,所述改進(jìn)的雙延遲深度確定性策略梯度模型包括actor網(wǎng)絡(luò)模塊和critic網(wǎng)絡(luò)模塊;
3.根據(jù)權(quán)利要求2所述的一種建筑機(jī)器人路徑規(guī)劃方法,其特征在于,基于采樣優(yōu)先級(jí)經(jīng)驗(yàn)回放機(jī)制從經(jīng)驗(yàn)池中采樣,并對(duì)所述改進(jìn)的雙延遲深度確定性策略梯度模型進(jìn)行訓(xùn)練,獲得路徑規(guī)劃模型的過(guò)程中,通過(guò)引入軟更新機(jī)制的延遲更新策略,對(duì)actor網(wǎng)絡(luò)模塊的網(wǎng)絡(luò)參數(shù)和critic網(wǎng)絡(luò)模塊的網(wǎng)絡(luò)參數(shù)進(jìn)行更新。
4.根據(jù)權(quán)利要求2所述的一種建筑機(jī)器人路徑規(guī)劃方法,其特征在于,在所述actor目標(biāo)網(wǎng)絡(luò)中加入有隨機(jī)噪聲;其中,所述隨機(jī)噪聲,具體為:
5.根據(jù)權(quán)利要求1所述的一種建筑機(jī)器人路徑規(guī)劃方法,其特征在于,建筑機(jī)器人的當(dāng)前狀態(tài)的狀態(tài)空間包括運(yùn)動(dòng)狀態(tài)、碰撞狀態(tài)及成功到達(dá)目標(biāo)狀態(tài);其中,建筑機(jī)器人的當(dāng)前狀態(tài)的狀態(tài)空間,具體為:
6.根據(jù)權(quán)利要求1所述的一種建筑機(jī)器人路徑規(guī)劃方法,其特征在于,執(zhí)行規(guī)劃動(dòng)作獲取下一時(shí)刻的狀態(tài)并獲得計(jì)算規(guī)劃動(dòng)作的獎(jiǎng)勵(lì)的過(guò)程中,利用強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)計(jì)算規(guī)劃動(dòng)作的獎(jiǎng)勵(lì);
7.根據(jù)權(quán)利要求1所述的一種建筑機(jī)器人路徑規(guī)劃方法,其特征在于,所述采樣優(yōu)先級(jí)經(jīng)驗(yàn)回放機(jī)制中采樣概率為:
8.一種建筑機(jī)器人路徑規(guī)劃系統(tǒng),其特征在于,包括:
9.一種建筑機(jī)器人路徑規(guī)劃設(shè)備,其特征在于,包括:
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1-7任一項(xiàng)所述的建筑機(jī)器人路徑規(guī)劃方法的步驟。