本發(fā)明涉及agv機(jī)器人,特別是一種agv機(jī)器人作業(yè)控制方法及系統(tǒng)。
背景技術(shù):
1、agv機(jī)器人系統(tǒng)是基于agv機(jī)器人的通過預(yù)設(shè)路徑進(jìn)行物料搬運(yùn)和物品分揀的生產(chǎn)系統(tǒng),基于agv機(jī)器人的使用有效提高了生產(chǎn)和物流過程中的效率與準(zhǔn)確性,在現(xiàn)有的agv機(jī)器人控制方法中,通常采用預(yù)先設(shè)定的固定路徑或簡(jiǎn)單的規(guī)則來實(shí)現(xiàn)路徑規(guī)劃和避障;
2、現(xiàn)有的agv機(jī)器人控制方法在全局最優(yōu)路徑的搜索上具有較好的效果,但在動(dòng)態(tài)環(huán)境中容易陷入局部最優(yōu)解,缺乏全局優(yōu)化能力,同時(shí)通過群體智能優(yōu)化方法可以通過全局搜索提升路徑規(guī)劃的最優(yōu)性,但這些方法在處理多維復(fù)雜路徑優(yōu)化時(shí)計(jì)算量大,收斂速度較慢,尤其是在障礙物密集或環(huán)境變化頻繁的場(chǎng)景中,容易出現(xiàn)路徑規(guī)劃效率低下的問題,造成了agv機(jī)器人作業(yè)過程中路徑移動(dòng)效率的下降,影響整體生產(chǎn)或物流流程的效率。
技術(shù)實(shí)現(xiàn)思路
1、鑒于上述現(xiàn)有的agv機(jī)器人作業(yè)控制方法及系統(tǒng)中存在的問題,提出了本發(fā)明。
2、因此,本發(fā)明所要解決的問題在于現(xiàn)有的agv機(jī)器人控制方法在全局最優(yōu)路徑的搜索上具有較好的效果,但在動(dòng)態(tài)環(huán)境中容易陷入局部最優(yōu)解,缺乏全局優(yōu)化能力,同時(shí)通過群體智能優(yōu)化方法可以通過全局搜索提升路徑規(guī)劃的最優(yōu)性,但這些方法在處理多維復(fù)雜路徑優(yōu)化時(shí)計(jì)算量大,收斂速度較慢,尤其是在障礙物密集或環(huán)境變化頻繁的場(chǎng)景中,容易出現(xiàn)路徑規(guī)劃效率低下的問題,造成了agv機(jī)器人作業(yè)過程中路徑移動(dòng)效率的下降,影響整體生產(chǎn)或物流流程的效率。
3、為解決上述技術(shù)問題,本發(fā)明提供如下技術(shù)方案:一種agv機(jī)器人作業(yè)控制方法,其包括,
4、基于傳感器采集環(huán)境數(shù)據(jù),通過agv機(jī)器人獲取狀態(tài)數(shù)據(jù),基于地圖數(shù)據(jù)使用a*算法構(gòu)建初始路徑;
5、使用灰狼優(yōu)化算法生成候選路徑,調(diào)整路徑進(jìn)行位置更新輸出最優(yōu)路徑;
6、構(gòu)建agv機(jī)器人狀態(tài)向量并設(shè)定agv機(jī)器人動(dòng)作,基于dqn模型通過貝爾曼方程更新迭代計(jì)算q值,并訓(xùn)練dqn模型;
7、對(duì)dqn模型進(jìn)行場(chǎng)景測(cè)試并部署至agv機(jī)器人,對(duì)agv機(jī)器人數(shù)據(jù)的采集、傳輸和存儲(chǔ)進(jìn)行安全加密傳輸,備份agv機(jī)器人數(shù)據(jù)。
8、作為本發(fā)明所述agv機(jī)器人作業(yè)控制方法的一種優(yōu)選方案,其中:所述基于傳感器采集環(huán)境數(shù)據(jù),通過agv機(jī)器人獲取狀態(tài)數(shù)據(jù),包括,
9、通過激光雷達(dá)、攝像頭和超聲波傳感器獲取agv機(jī)器人所在環(huán)境的靜態(tài)數(shù)據(jù)和動(dòng)態(tài)數(shù)據(jù);
10、其中靜態(tài)數(shù)據(jù)包括激光雷達(dá)傳感器獲取的環(huán)境中固定障礙物的位置數(shù)據(jù)并構(gòu)建二維格柵地圖數(shù)據(jù),且在地圖數(shù)據(jù)中標(biāo)記固定障礙物的坐標(biāo);
11、動(dòng)態(tài)數(shù)據(jù)包括通過攝像頭和激光雷達(dá)檢測(cè)環(huán)境中動(dòng)態(tài)物體的實(shí)時(shí)更新物體的相對(duì)位置和速度;
12、基于agv機(jī)器人內(nèi)部的傳感器獲取自身的狀態(tài)數(shù)據(jù),包括當(dāng)前坐標(biāo)位置、速度、加速度和方向角;
13、定義agv機(jī)器人的起點(diǎn)坐標(biāo)和目標(biāo)點(diǎn)坐標(biāo),并在格柵地圖數(shù)據(jù)中表示。
14、作為本發(fā)明所述agv機(jī)器人作業(yè)控制方法的一種優(yōu)選方案,其中:所述基于地圖數(shù)據(jù)使用a*算法構(gòu)建初始路徑,包括,
15、基于二維格柵地圖數(shù)據(jù),根據(jù)固定障礙物坐標(biāo)和檢測(cè)環(huán)境中動(dòng)態(tài)物體坐標(biāo),對(duì)二維格柵地圖數(shù)據(jù)進(jìn)行可通行標(biāo)記與不可通行標(biāo)記;
16、使用a*算法,并根據(jù)agv機(jī)器人當(dāng)前位置坐標(biāo)和目標(biāo)點(diǎn)坐標(biāo),計(jì)算歐幾里得距離h(x,y);
17、基于agv機(jī)器人的起點(diǎn)坐標(biāo),定義從起點(diǎn)坐標(biāo)移動(dòng)至當(dāng)前節(jié)點(diǎn)的移動(dòng)距離,根據(jù)agv機(jī)器人的當(dāng)前位置坐標(biāo)距離起點(diǎn)坐標(biāo)的距離表示為g(x,y);
18、計(jì)算h(x,y)與g(x,y)的和表示a*算法的綜合代價(jià)f(x,y);
19、基于a*算法創(chuàng)建開放列表和關(guān)閉列表,所述開放列表存儲(chǔ)的待擴(kuò)展節(jié)點(diǎn)的集合,每個(gè)節(jié)點(diǎn)記錄當(dāng)前坐標(biāo)、當(dāng)前的g(x,y)值、h(x,y)值和f(x,y)綜合代價(jià)值,所述關(guān)閉列表記錄已被擴(kuò)展過的節(jié)點(diǎn)坐標(biāo);
20、選取綜合代價(jià)f(x,y)最小的節(jié)點(diǎn)坐標(biāo)作為當(dāng)前位置坐標(biāo)c,并將該節(jié)點(diǎn)坐標(biāo)c從開放列表移至關(guān)閉列表;
21、若當(dāng)前位置坐標(biāo)c不是目標(biāo)點(diǎn)坐標(biāo),則繼續(xù)擴(kuò)展相鄰的節(jié)點(diǎn),對(duì)當(dāng)前位置坐標(biāo)c的四個(gè)相鄰節(jié)點(diǎn)注意檢查,計(jì)算相鄰節(jié)點(diǎn)g(x,y)值、h(x,y)值和f(x,y)綜合代價(jià)值,并將已被擴(kuò)展的節(jié)點(diǎn)坐標(biāo)移至關(guān)閉列表;
22、若當(dāng)前位置坐標(biāo)c是目標(biāo)點(diǎn)坐標(biāo),則追溯節(jié)點(diǎn)的擴(kuò)展前節(jié)點(diǎn)直至追溯至起點(diǎn)坐標(biāo),將追溯過程中的節(jié)點(diǎn)坐標(biāo)標(biāo)記為agv機(jī)器人的初始路徑。
23、作為本發(fā)明所述agv機(jī)器人作業(yè)控制方法的一種優(yōu)選方案,其中:所述使用灰狼優(yōu)化算法生成候選路徑,調(diào)整路徑進(jìn)行位置更新輸出最優(yōu)路徑,包括,
24、使用灰狼優(yōu)化算法設(shè)定狼群的數(shù)量n,根據(jù)狼群數(shù)量n-1選取大于綜合代價(jià)f(x,y)最小值的前n-1節(jié)點(diǎn)坐標(biāo)作為當(dāng)前位置坐標(biāo)d,并重復(fù)執(zhí)行擴(kuò)展相鄰節(jié)點(diǎn),形成agv機(jī)器人的候選路徑,并將候選路徑和agv機(jī)器人的初始路徑組合為候選解集;
25、基于候選解路徑的路徑總長(zhǎng)度和經(jīng)過障礙物數(shù)量,計(jì)算每個(gè)候選解的適應(yīng)度,表示為:
26、
27、x={(x1,y1),(x2,y2),λ,(xε,yε)};
28、式中,f(xi)表示候選解集的第i個(gè)路徑適應(yīng)值,l(xi)表示第i個(gè)路徑的總長(zhǎng)度,c(xi)表示第i個(gè)路徑的經(jīng)過障礙物數(shù)量,x表示路徑的向量,包括路徑的所有節(jié)點(diǎn)坐標(biāo),xε和yε分別表示路徑x的第ε個(gè)節(jié)點(diǎn)的x坐標(biāo)和y坐標(biāo);
29、基于計(jì)算的不同路徑的適應(yīng)度進(jìn)行排序,并選取排名前三的路徑作為參照路徑,選取其余的路徑作為調(diào)整路徑進(jìn)行位置更新,表示為:
30、
31、d(xα,xi)={(d1,x,d1,y),(d2,x,d2,y),λ,(dε,x,dε,y)};
32、式中,xi(t+1)表示迭代次數(shù)t+1的第i個(gè)路徑,xα(t)、xβ(t)和xδ(t)分別表示迭代次數(shù)t的最優(yōu)路徑α、次優(yōu)路徑β和第三優(yōu)路徑δ,a表示基于迭代次數(shù)的調(diào)整系數(shù),d(xα,xi)表示最優(yōu)路徑α和第i個(gè)路徑的每個(gè)節(jié)點(diǎn)坐標(biāo)的差異方向,t表示最大迭代次數(shù),dε,x和dε,y分別表示路徑xi和路徑xα的第ε個(gè)節(jié)點(diǎn)x坐標(biāo)與y坐標(biāo)的差值;
33、每次迭代重新計(jì)算路徑的適應(yīng)度值,并基于當(dāng)前迭代的最優(yōu)、次優(yōu)和第三優(yōu)適應(yīng)度值的路徑作為參照路徑,對(duì)調(diào)整路徑進(jìn)行位置更新;
34、基于當(dāng)前迭代t和前一迭代t-1的最優(yōu)、次優(yōu)和第三優(yōu)適應(yīng)度的變化分別計(jì)算變化率,并計(jì)算最優(yōu)、次優(yōu)和第三優(yōu)適應(yīng)度變化率的平均值作為綜合變化率,統(tǒng)計(jì)前s次迭代的綜合變化率,并計(jì)算前s次迭代綜合變化率的平均值作為自適應(yīng)閾值;
35、若每次迭代后的綜合變化率大于等于自適應(yīng)閾值,則停止迭代,將當(dāng)前迭代的最優(yōu)適應(yīng)度路徑作為最優(yōu)路徑輸出。
36、作為本發(fā)明所述agv機(jī)器人作業(yè)控制方法的一種優(yōu)選方案,其中:所述構(gòu)建agv機(jī)器人狀態(tài)向量并設(shè)定agv機(jī)器人動(dòng)作,基于dqn模型通過貝爾曼方程更新迭代計(jì)算q值,并訓(xùn)練dqn模型,包括,
37、基于灰狼優(yōu)化算法使用最優(yōu)適應(yīng)度路徑作為最優(yōu)路徑,通過agv機(jī)器人的狀態(tài)數(shù)據(jù)構(gòu)建狀態(tài)向量st,設(shè)定agv機(jī)器人動(dòng)作包括前進(jìn)θ1、左轉(zhuǎn)θ2、右轉(zhuǎn)θ3、減速θ4和停止θ5,并定義動(dòng)作的即時(shí)獎(jiǎng)勵(lì)rw包括使agv機(jī)器人接近目標(biāo)點(diǎn)坐標(biāo)、避開障礙物、碰撞障礙物和到達(dá)目標(biāo)點(diǎn)坐標(biāo);
38、基于dqn模型計(jì)算每個(gè)可能動(dòng)作的q值,并選擇q值最大的動(dòng)作進(jìn)行執(zhí)行,表示為:
39、
40、式中,q(sw,θw)表示當(dāng)前時(shí)間w的狀態(tài)s下的執(zhí)行動(dòng)作θ的q值,rw表示時(shí)間w的動(dòng)作的即時(shí)獎(jiǎng)勵(lì),表示時(shí)間w的折扣因子,q(sw+1,θ'w+1)表示時(shí)間w+1時(shí)狀態(tài)s的各個(gè)動(dòng)作中任一動(dòng)作θ'w+1對(duì)應(yīng)的q值,表示最大折扣因子,dw表示時(shí)間w的agv機(jī)器人距離目標(biāo)點(diǎn)坐標(biāo)的距離,dmax表示agv機(jī)器人起點(diǎn)坐標(biāo)至目標(biāo)點(diǎn)坐標(biāo)的距離;
41、通過貝爾曼方程,更新迭代計(jì)算q值,迭代更新過程中,記錄當(dāng)前的狀態(tài)向量、動(dòng)作、獎(jiǎng)勵(lì)和下一狀態(tài)向量,并記錄存儲(chǔ)至經(jīng)驗(yàn)回放池中;
42、基于經(jīng)驗(yàn)回放池中的存儲(chǔ)數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),通過均方誤差訓(xùn)練dqn網(wǎng)絡(luò),通過adam優(yōu)化器并通過梯度下降法進(jìn)行模型參數(shù)迭代優(yōu)化,當(dāng)在連續(xù)迭代過程中計(jì)算的誤差值不再明顯下降則停止迭代輸出模型參數(shù)更新dqn模型。
43、作為本發(fā)明所述agv機(jī)器人作業(yè)控制方法的一種優(yōu)選方案,其中:所述對(duì)dqn模型進(jìn)行場(chǎng)景測(cè)試并部署至agv機(jī)器人,包括,
44、基于完成訓(xùn)練的dqn模型部署在模擬環(huán)境下進(jìn)行場(chǎng)景測(cè)試,通過人為干預(yù)修改傳感器參數(shù),檢測(cè)并識(shí)別agv機(jī)器人的執(zhí)行動(dòng)作,同時(shí)調(diào)節(jié)模擬環(huán)境的環(huán)境參數(shù)包括溫度、濕度和光照強(qiáng)度,測(cè)試不同環(huán)境下agv機(jī)器人的執(zhí)行動(dòng)作,為agv機(jī)器人設(shè)置安全策略,包括剎車和停車并部署dqn模型至agv機(jī)器人。
45、作為本發(fā)明所述agv機(jī)器人作業(yè)控制方法的一種優(yōu)選方案,其中:所述對(duì)agv機(jī)器人數(shù)據(jù)的采集、傳輸和存儲(chǔ)進(jìn)行安全加密傳輸,備份agv機(jī)器人數(shù)據(jù),包括,
46、使用aes加密接口對(duì)agv機(jī)器人進(jìn)行數(shù)據(jù)采集,采用時(shí)間戳機(jī)制記錄數(shù)據(jù)生成和傳輸?shù)臅r(shí)間信息;
47、使用tls協(xié)議進(jìn)行數(shù)據(jù)傳輸加密,對(duì)傳輸?shù)臄?shù)據(jù)使用aes-256進(jìn)行對(duì)稱加密,并備份存儲(chǔ)至云服務(wù)器和存儲(chǔ)硬盤。
48、本發(fā)明的另外一個(gè)目的是提供一種agv機(jī)器人作業(yè)控制方法的系統(tǒng),其包括,
49、數(shù)據(jù)采集模塊,采集agv機(jī)器人所在環(huán)境的靜態(tài)和動(dòng)態(tài)數(shù)據(jù),并獲取agv機(jī)器人的狀態(tài)數(shù)據(jù);
50、路徑生成模塊,基于環(huán)境數(shù)據(jù)和地圖數(shù)據(jù),使用a*算法構(gòu)建初始路徑,確定從起點(diǎn)到目標(biāo)點(diǎn)的全局路徑;
51、路徑優(yōu)化模塊,使用灰狼優(yōu)化算法在初始路徑的基礎(chǔ)上生成多個(gè)候選路徑,并通過位置更新策略選擇最優(yōu)路徑;
52、動(dòng)作策略模塊,使用dqn模型對(duì)agv機(jī)器人的動(dòng)作策略進(jìn)行訓(xùn)練,通過貝爾曼方程更新q值,并通過均方誤差和adam優(yōu)化器進(jìn)行模型參數(shù)更新;
53、場(chǎng)景測(cè)試模塊,將訓(xùn)練完成的dqn模型部署至agv機(jī)器人,并在模擬環(huán)境下進(jìn)行場(chǎng)景測(cè)試;
54、數(shù)據(jù)安全加密模塊,對(duì)agv機(jī)器人的數(shù)據(jù)采集、傳輸和存儲(chǔ)進(jìn)行安全加密處理。
55、一種計(jì)算機(jī)設(shè)備,包括:存儲(chǔ)器和處理器;所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述agv機(jī)器人作業(yè)控制方法的步驟。
56、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述agv機(jī)器人作業(yè)控制方法的步驟。
57、本發(fā)明有益效果為:通過a*算法生成初始路徑,并在此基礎(chǔ)上利用灰狼優(yōu)化算法生成多個(gè)候選路徑,形成多樣化的路徑選擇,提高了路徑規(guī)劃的靈活性,聯(lián)合使用兩者能夠在初步路徑的基礎(chǔ)上,通過灰狼優(yōu)化對(duì)路徑進(jìn)行全局搜索和局部調(diào)整,避免路徑陷入局部最優(yōu),提高路徑規(guī)劃的全局最優(yōu)性,通過灰狼優(yōu)化算法和dqn模型的聯(lián)合使用,agv機(jī)器人能夠在復(fù)雜動(dòng)態(tài)環(huán)境中實(shí)現(xiàn)實(shí)時(shí)響應(yīng)和自主學(xué)習(xí),灰狼優(yōu)化算法在全局上對(duì)路徑進(jìn)行動(dòng)態(tài)調(diào)整,dqn模型則在局部上實(shí)現(xiàn)智能避障和路徑微調(diào),使得agv機(jī)器人能夠靈活應(yīng)對(duì)環(huán)境中的各種變化,提高路徑規(guī)劃的實(shí)時(shí)性和自主學(xué)習(xí)能力。