本發(fā)明涉及路徑規(guī)劃方案設(shè)計(jì),具體涉及一種基于深度強(qiáng)化學(xué)習(xí)的路徑規(guī)劃方法及系統(tǒng)、電子設(shè)備。
背景技術(shù):
1、生產(chǎn)線環(huán)境之中,環(huán)境復(fù)雜且多變,隨著生產(chǎn)線中agv搬運(yùn)機(jī)器人的數(shù)量的增加,同時(shí)處于移動(dòng)狀態(tài)的agv搬運(yùn)機(jī)器人越來越多,可能會(huì)產(chǎn)生擁堵情況,很可能會(huì)導(dǎo)致運(yùn)輸癱瘓,大大影響生產(chǎn)效率,甚至存在發(fā)生碰撞的可能,造成生產(chǎn)設(shè)備損壞,甚至位于附近的生產(chǎn)人員的安全造成威脅,如何有效的、安全的進(jìn)行無人車路徑的規(guī)劃,同時(shí)能最大限度的提高各agv搬運(yùn)機(jī)器人在搬運(yùn)過程中的運(yùn)行流暢性,減少停車次數(shù),是現(xiàn)有技術(shù)亟待解決的問題。
2、因此,現(xiàn)有技術(shù)還有待進(jìn)一步發(fā)展。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于克服上述技術(shù)不足,提供一種基于深度強(qiáng)化學(xué)習(xí)的路徑規(guī)劃方法及系統(tǒng)、電子設(shè)備,以解決現(xiàn)有技術(shù)存在的問題。
2、為達(dá)到上述技術(shù)目的,根據(jù)本發(fā)明的第一方面,本發(fā)明提供了一種基于深度強(qiáng)化學(xué)習(xí)的路徑規(guī)劃方法,包括:
3、s100、在mes系統(tǒng)中,按照預(yù)設(shè)優(yōu)先級(jí)列表賦予各agv搬運(yùn)機(jī)器人預(yù)設(shè)優(yōu)先級(jí),利用設(shè)置于各agv搬運(yùn)機(jī)器人上的gps傳感器獲取各agv搬運(yùn)機(jī)器人的位置數(shù)據(jù),根據(jù)各agv搬運(yùn)機(jī)器人的位置數(shù)據(jù)判斷是否存在擁堵區(qū)域,若存在,首先控制位于擁堵區(qū)域的各agv搬運(yùn)機(jī)器人停車,獲取位于擁堵區(qū)域的各agv搬運(yùn)機(jī)器人的預(yù)設(shè)優(yōu)先級(jí),控制各agv搬運(yùn)機(jī)器人按照預(yù)設(shè)優(yōu)先級(jí)從高到低依次啟動(dòng)并通過擁堵區(qū)域,記錄該擁堵區(qū)域?qū)?yīng)的各agv搬運(yùn)機(jī)器人的預(yù)設(shè)優(yōu)先級(jí)、預(yù)設(shè)搬運(yùn)路徑、搬運(yùn)開始時(shí)間、實(shí)際移動(dòng)路徑、停車時(shí)長、停車地點(diǎn),形成擁堵耦合數(shù)據(jù)集合,獲取預(yù)設(shè)數(shù)量的擁堵耦合數(shù)據(jù)集合,將所采集的擁堵耦合數(shù)據(jù)集合按照第一預(yù)設(shè)比例分為訓(xùn)練數(shù)據(jù)集和驗(yàn)證數(shù)據(jù)集;
4、s200、利用所采集的訓(xùn)練數(shù)據(jù)集訓(xùn)練移動(dòng)策略自動(dòng)規(guī)劃模型,利用驗(yàn)證數(shù)據(jù)集對(duì)移動(dòng)策略自動(dòng)規(guī)劃模型進(jìn)行模型優(yōu)化,優(yōu)化模型參數(shù),完成移動(dòng)策略自動(dòng)規(guī)劃模型訓(xùn)練;
5、s300、當(dāng)模型訓(xùn)練完成后,獲取將要執(zhí)行搬運(yùn)任務(wù)的各agv搬運(yùn)機(jī)器人的預(yù)設(shè)搬運(yùn)路徑、預(yù)設(shè)優(yōu)先級(jí)、搬運(yùn)開始時(shí)間,將所獲取輸入到移動(dòng)策略自動(dòng)規(guī)劃模型中,將模型輸出的預(yù)測(cè)實(shí)際移動(dòng)路徑作為最優(yōu)路徑,并得到模型輸出的預(yù)測(cè)停車時(shí)長和預(yù)測(cè)停車地點(diǎn),根據(jù)模型輸出的預(yù)測(cè)停車時(shí)長、預(yù)測(cè)停車地點(diǎn),調(diào)整當(dāng)前各agv搬運(yùn)機(jī)器人的預(yù)設(shè)移動(dòng)速度,進(jìn)而使各agv搬運(yùn)機(jī)器人在經(jīng)過預(yù)測(cè)停車地點(diǎn)時(shí),不需要停車。
6、具體的,所述按照預(yù)設(shè)優(yōu)先級(jí)列表賦予各agv搬運(yùn)機(jī)器人預(yù)設(shè)優(yōu)先級(jí),包括:
7、將各agv搬運(yùn)機(jī)器人按照優(yōu)先級(jí)從高到低劃分為一級(jí)、二級(jí)、三級(jí)、四級(jí)。
8、具體的,所述根據(jù)各agv搬運(yùn)機(jī)器人的位置數(shù)據(jù)判斷是否存在擁堵區(qū)域,包括:
9、判斷任意兩個(gè)agv機(jī)器人的距離是否大于或等于第一預(yù)設(shè)閾值;
10、若是,判定存在擁堵區(qū)域;
11、若否,判定不存在擁堵區(qū)域。
12、具體的,所述根據(jù)模型輸出的預(yù)測(cè)停車時(shí)長、預(yù)測(cè)停車地點(diǎn),調(diào)整當(dāng)前各agv搬運(yùn)機(jī)器人的預(yù)設(shè)移動(dòng)速度,進(jìn)而使各agv搬運(yùn)機(jī)器人在經(jīng)過預(yù)測(cè)停車地點(diǎn)時(shí),不需要停車,包括:
13、獲取各agv搬運(yùn)機(jī)器人的預(yù)設(shè)搬運(yùn)路徑,進(jìn)而計(jì)算得到各agv搬運(yùn)機(jī)器人的預(yù)設(shè)搬運(yùn)路徑的長度,進(jìn)而計(jì)算得到各agv搬運(yùn)機(jī)器人的預(yù)設(shè)搬運(yùn)路徑的起始點(diǎn)和預(yù)測(cè)停車地點(diǎn)的第一距離,獲取各agv搬運(yùn)機(jī)器人的預(yù)設(shè)移動(dòng)速度,根據(jù)預(yù)設(shè)移動(dòng)速度和第一距離,計(jì)算各agv搬運(yùn)機(jī)器人抵達(dá)各自的預(yù)測(cè)停車地點(diǎn)的第一時(shí)間,計(jì)算第一時(shí)間和預(yù)測(cè)停車的時(shí)間的和,記為第二時(shí)間,計(jì)算第一距離和第二時(shí)間的商,計(jì)算所述商和第一速度調(diào)整量的差值,將所述差值記為調(diào)整后速度,控制各agv搬運(yùn)機(jī)器人按照調(diào)整后速度移動(dòng)。
14、具體的,所述利用所采集的訓(xùn)練數(shù)據(jù)集訓(xùn)練移動(dòng)策略自動(dòng)規(guī)劃模型,利用驗(yàn)證數(shù)據(jù)集對(duì)移動(dòng)策略自動(dòng)規(guī)劃模型進(jìn)行模型優(yōu)化,優(yōu)化模型參數(shù),完成移動(dòng)策略自動(dòng)規(guī)劃模型訓(xùn)練,包括:
15、將訓(xùn)練數(shù)據(jù)集分批次輸入預(yù)設(shè)網(wǎng)絡(luò)層中進(jìn)行訓(xùn)練,所述預(yù)設(shè)網(wǎng)絡(luò)層包括transformer網(wǎng)絡(luò)層,所述transformer網(wǎng)絡(luò)層則用于根據(jù)當(dāng)前次擁堵耦合數(shù)據(jù)集合前向傳播預(yù)測(cè)下一次的擁堵耦合數(shù)據(jù)集合,進(jìn)而獲取預(yù)測(cè)的損失值;計(jì)算預(yù)設(shè)網(wǎng)絡(luò)層的損失值并輸入優(yōu)化器進(jìn)行優(yōu)化,確定移動(dòng)策略自動(dòng)規(guī)劃模型的參數(shù)梯度下降最快的方向;所述移動(dòng)策略自動(dòng)規(guī)劃模型根據(jù)損失值和模型的參數(shù)梯度進(jìn)行反向傳播,優(yōu)化移動(dòng)策略自動(dòng)規(guī)劃模型的參數(shù)。
16、具體的,所述利用所采集的訓(xùn)練數(shù)據(jù)集訓(xùn)練移動(dòng)策略自動(dòng)規(guī)劃模型,利用驗(yàn)證數(shù)據(jù)集對(duì)移動(dòng)策略自動(dòng)規(guī)劃模型進(jìn)行模型優(yōu)化,優(yōu)化模型參數(shù),完成移動(dòng)策略自動(dòng)規(guī)劃模型訓(xùn)練,還包括:
17、每次訓(xùn)練后將驗(yàn)證數(shù)據(jù)集分批次輸入前一次訓(xùn)練的預(yù)設(shè)網(wǎng)絡(luò)層中進(jìn)行模型參數(shù)驗(yàn)證,進(jìn)行循環(huán)訓(xùn)練,總的訓(xùn)練輪次設(shè)置為第一預(yù)設(shè)輪次;記錄所述預(yù)設(shè)網(wǎng)絡(luò)層的損失值,判斷損失值是否滿足第一預(yù)設(shè)條件,并根據(jù)判斷結(jié)果判斷是否結(jié)束訓(xùn)練并輸出模型參數(shù)。
18、具體的,所述判斷損失值是否滿足第一預(yù)設(shè)條件,并根據(jù)判斷結(jié)果判斷是否結(jié)束訓(xùn)練并輸出模型參數(shù),包括:
19、若損失值滿足第一預(yù)設(shè)條件,則結(jié)束訓(xùn)練并輸出當(dāng)前移動(dòng)策略自動(dòng)規(guī)劃模型的參數(shù);若損失值不滿足第一預(yù)設(shè)條件,則繼續(xù)進(jìn)行訓(xùn)練。
20、具體的,所述第一預(yù)設(shè)條件包括:
21、在進(jìn)行了第二預(yù)設(shè)輪次的訓(xùn)練后,下一輪次訓(xùn)練所得到的損失值均大于或者等于在進(jìn)行第二預(yù)設(shè)輪次的訓(xùn)練過程中出現(xiàn)過的損失值。
22、根據(jù)本發(fā)明的第二方面,提供一種基于深度強(qiáng)化學(xué)習(xí)的路徑規(guī)劃系統(tǒng),包括:
23、獲取模塊,包括各agv搬運(yùn)機(jī)器人上的gps傳感器,用于獲取各agv搬運(yùn)機(jī)器人的位置數(shù)據(jù);
24、控制模塊,用于在mes系統(tǒng)中,按照預(yù)設(shè)優(yōu)先級(jí)列表賦予各agv搬運(yùn)機(jī)器人預(yù)設(shè)優(yōu)先級(jí);用于根據(jù)各agv搬運(yùn)機(jī)器人的位置數(shù)據(jù)判斷是否存在擁堵區(qū)域,若存在,首先控制位于擁堵區(qū)域的各agv搬運(yùn)機(jī)器人停車,獲取位于擁堵區(qū)域的各agv搬運(yùn)機(jī)器人的預(yù)設(shè)優(yōu)先級(jí),控制各agv搬運(yùn)機(jī)器人按照預(yù)設(shè)優(yōu)先級(jí)從高到低依次啟動(dòng)并通過擁堵區(qū)域,記錄該擁堵區(qū)域?qū)?yīng)的各agv搬運(yùn)機(jī)器人的預(yù)設(shè)優(yōu)先級(jí)、預(yù)設(shè)搬運(yùn)路徑、搬運(yùn)開始時(shí)間、實(shí)際移動(dòng)路徑、停車時(shí)長、停車地點(diǎn),形成擁堵耦合數(shù)據(jù)集合,獲取預(yù)設(shè)數(shù)量的擁堵耦合數(shù)據(jù)集合,將所采集的擁堵耦合數(shù)據(jù)集合按照第一預(yù)設(shè)比例分為訓(xùn)練數(shù)據(jù)集和驗(yàn)證數(shù)據(jù)集;用于利用所采集的訓(xùn)練數(shù)據(jù)集訓(xùn)練移動(dòng)策略自動(dòng)規(guī)劃模型,利用驗(yàn)證數(shù)據(jù)集對(duì)移動(dòng)策略自動(dòng)規(guī)劃模型進(jìn)行模型優(yōu)化,優(yōu)化模型參數(shù),完成移動(dòng)策略自動(dòng)規(guī)劃模型訓(xùn)練;用于當(dāng)模型訓(xùn)練完成后,獲取將要執(zhí)行搬運(yùn)任務(wù)的各agv搬運(yùn)機(jī)器人的預(yù)設(shè)搬運(yùn)路徑、預(yù)設(shè)優(yōu)先級(jí)、搬運(yùn)開始時(shí)間,將所獲取輸入到移動(dòng)策略自動(dòng)規(guī)劃模型中,將模型輸出的預(yù)測(cè)實(shí)際移動(dòng)路徑作為最優(yōu)路徑,并得到模型輸出的預(yù)測(cè)停車時(shí)長和預(yù)測(cè)停車地點(diǎn),根據(jù)模型輸出的預(yù)測(cè)停車時(shí)長、預(yù)測(cè)停車地點(diǎn),調(diào)整當(dāng)前各agv搬運(yùn)機(jī)器人的預(yù)設(shè)移動(dòng)速度,進(jìn)而使各agv搬運(yùn)機(jī)器人在經(jīng)過預(yù)測(cè)停車地點(diǎn)時(shí),不需要停車。
25、根據(jù)本發(fā)明的第三方面,提供一種電子設(shè)備,包括:存儲(chǔ)器;以及處理器,所述存儲(chǔ)器上存儲(chǔ)有計(jì)算機(jī)可讀指令,所述計(jì)算機(jī)可讀指令被所述處理器執(zhí)行時(shí)實(shí)現(xiàn)上述的基于深度強(qiáng)化學(xué)習(xí)的路徑規(guī)劃方法。
26、有益效果:
27、本發(fā)明通過在mes系統(tǒng)中,按照預(yù)設(shè)優(yōu)先級(jí)列表賦予各agv搬運(yùn)機(jī)器人預(yù)設(shè)優(yōu)先級(jí),利用設(shè)置于各agv搬運(yùn)機(jī)器人上的gps傳感器獲取各agv搬運(yùn)機(jī)器人的位置數(shù)據(jù),根據(jù)各agv搬運(yùn)機(jī)器人的位置數(shù)據(jù)判斷是否存在擁堵區(qū)域,若存在,首先控制位于擁堵區(qū)域的各agv搬運(yùn)機(jī)器人停車,獲取位于擁堵區(qū)域的各agv搬運(yùn)機(jī)器人的預(yù)設(shè)優(yōu)先級(jí),控制各agv搬運(yùn)機(jī)器人按照預(yù)設(shè)優(yōu)先級(jí)從高到低依次啟動(dòng)并通過擁堵區(qū)域,記錄該擁堵區(qū)域?qū)?yīng)的相關(guān)擁堵耦合數(shù)據(jù),進(jìn)而訓(xùn)練移動(dòng)策略自動(dòng)規(guī)劃模型,后續(xù)將模型輸出的預(yù)測(cè)實(shí)際移動(dòng)路徑作為最優(yōu)路徑,并得到模型輸出的預(yù)測(cè)停車時(shí)長和預(yù)測(cè)停車地點(diǎn),根據(jù)模型輸出的預(yù)測(cè)停車時(shí)長、預(yù)測(cè)停車地點(diǎn),調(diào)整當(dāng)前各agv搬運(yùn)機(jī)器人的預(yù)設(shè)移動(dòng)速度,進(jìn)而使各agv搬運(yùn)機(jī)器人在經(jīng)過預(yù)測(cè)停車地點(diǎn)時(shí),不需要停車,實(shí)現(xiàn)了有效的、安全的進(jìn)行無人車路徑的規(guī)劃,同時(shí)能最大限度的提高各agv搬運(yùn)機(jī)器人在搬運(yùn)過程中的運(yùn)行流暢性,避免不必要的停車,很大程度上提高了路徑規(guī)劃的安全性、可靠性和智能化程度。