本技術(shù)涉及強化學(xué)習(xí)和模仿學(xué)習(xí),尤其涉及一種基于機械臂的物體放置方法和裝置、電子設(shè)備及存儲介質(zhì)。
背景技術(shù):
1、機械臂是一種能夠根據(jù)接受的指令精確定位到三維(或二維)空間上的某一點,以執(zhí)行特定任務(wù)的自動化機械裝置。為了能夠使機械臂更好地應(yīng)用到執(zhí)行裝配、堆疊等涉及多個動作序列的復(fù)雜任務(wù)中,相關(guān)技術(shù)通常是從專家教學(xué)任務(wù)中學(xué)習(xí)動作軌跡特征,通過神經(jīng)網(wǎng)絡(luò)構(gòu)建抓取、分類、組裝等多序列動作的策略學(xué)習(xí)模型,并根據(jù)訓(xùn)練好的模型控制機械臂執(zhí)行復(fù)雜任務(wù)中的物體放置。
2、然而,相關(guān)技術(shù)對動作策略學(xué)習(xí)模型進行訓(xùn)練的過程中,收集大量高精度的專家教學(xué)任務(wù)數(shù)據(jù)是相當困難的,且如果采用較少的專家教學(xué)任務(wù)數(shù)據(jù)進行模型訓(xùn)練,會使得策略模型的泛化程度低,導(dǎo)致機械臂抓取和放置的準確性不高,執(zhí)行多序列任務(wù)的成功率較低。
技術(shù)實現(xiàn)思路
1、本技術(shù)實施例的主要目的在于提出一種基于機械臂的物體放置方法和裝置、電子設(shè)備及存儲介質(zhì),能夠在獲取少量樣本的專家教學(xué)任務(wù)數(shù)據(jù)時,也實現(xiàn)對多序列任務(wù)的動作軌跡特征的高效學(xué)習(xí),提升機械臂對物體放置的準確性,從而提高執(zhí)行多序列任務(wù)的成功率。
2、為實現(xiàn)上述目的,本技術(shù)實施例的第一方面提出了一種基于機械臂的物體放置方法,所述方法包括:
3、獲取用于執(zhí)行目標任務(wù)的目標專家示教數(shù)據(jù),所述目標專家示教數(shù)據(jù)包括環(huán)境狀態(tài)圖像,所述環(huán)境狀態(tài)圖像包括執(zhí)行所述目標任務(wù)所需的目標物體;
4、基于預(yù)設(shè)的抓取動作生成網(wǎng)絡(luò)對所述環(huán)境狀態(tài)圖像進行抓取動作信息生成,得到所述目標物體的抓取動作信息;
5、基于預(yù)設(shè)的放置動作生成網(wǎng)絡(luò)對所述環(huán)境狀態(tài)圖像和所述抓取動作信息進行放置動作信息生成,得到第一放置動作信息,所述放置動作生成網(wǎng)絡(luò)是基于孿生網(wǎng)絡(luò)構(gòu)建的網(wǎng)絡(luò);
6、將所述第一放置動作信息和所述抓取動作信息輸入預(yù)設(shè)的局部結(jié)構(gòu)學(xué)習(xí)網(wǎng)絡(luò)進行位置優(yōu)化,得到第二放置動作信息;
7、基于所述第一放置動作信息和所述第二放置動作信息確定目標放置動作信息,以根據(jù)所述目標放置動作信息控制機械臂對所述目標物體進行放置。
8、在一些實施例中,所述放置動作生成網(wǎng)絡(luò)包括第一特征提取子網(wǎng)絡(luò)、第二特征提取子網(wǎng)絡(luò)和第一相關(guān)濾波子網(wǎng)絡(luò),所述基于預(yù)設(shè)的放置動作生成網(wǎng)絡(luò)對所述環(huán)境狀態(tài)圖像和所述抓取動作信息進行放置動作信息生成,得到第一放置動作信息,包括:
9、基于所述第一特征提取子網(wǎng)絡(luò)對所述環(huán)境狀態(tài)圖像進行特征提取,得到第一特征信息;
10、基于所述第二特征提取子網(wǎng)絡(luò)對所述抓取動作信息進行特征提取,得到第二特征信息;
11、基于所述第一相關(guān)濾波子網(wǎng)絡(luò)對所述第一特征信息、所述第二特征信息進行特征匹配,得到第一特征匹配結(jié)果;
12、基于所述第一特征匹配結(jié)果和所述抓取動作信息進行放置動作信息生成,得到第一放置動作信息。
13、在一些實施例中,所述第一放置動作信息包括第一放置像素坐標,所述抓取動作信息包括抓取目標物體圖像,所述局部結(jié)構(gòu)學(xué)習(xí)網(wǎng)絡(luò)包括第三特征提取子網(wǎng)絡(luò)和第二相關(guān)濾波子網(wǎng)絡(luò),所述將所述第一放置動作信息和所述抓取動作信息輸入預(yù)設(shè)的局部結(jié)構(gòu)學(xué)習(xí)網(wǎng)絡(luò)進行位置優(yōu)化,得到第二放置動作信息,包括:
14、根據(jù)第一放置像素坐標進行圖像提取,確定局部放置位置圖像;
15、基于所述第三特征提取子網(wǎng)絡(luò)對所述抓取目標物體圖像進行特征提取,得到抓取目標物體圖像特征;
16、基于所述第三特征提取子網(wǎng)絡(luò)所述局部放置位置圖像進行特征提取,得到局部放置位置圖像特征;
17、基于第二相關(guān)濾波子網(wǎng)絡(luò)對所述抓取目標物體圖像特征和所述局部放置位置圖像特征進行特征匹配,得到第二特征匹配結(jié)果;
18、基于所述第二特征匹配結(jié)果進行位置優(yōu)化,得到第二放置動作信息。
19、在一些實施例中,所述抓取動作生成網(wǎng)絡(luò)包括全卷積層,所述抓取動作生成網(wǎng)絡(luò)的訓(xùn)練方法包括:
20、獲取專家示教訓(xùn)練數(shù)據(jù),所述專家示教訓(xùn)練數(shù)據(jù)包括示教環(huán)境狀態(tài)圖像和示教抓取動作位姿;
21、對所述示教抓取動作位姿進行坐標系轉(zhuǎn)換,得到示教抓取動作像素坐標;
22、基于所述全卷積層對所述示教環(huán)境狀態(tài)圖像進行特征提取,得到示教環(huán)境狀態(tài)圖像特征;
23、根據(jù)所述示教環(huán)境狀態(tài)圖像特征和所述示教抓取動作像素坐標進行抓取動作預(yù)測,得到多個預(yù)測抓取動作;
24、基于預(yù)設(shè)的抓取動作價值函數(shù),獲取執(zhí)行每一所述預(yù)測抓取動作對應(yīng)的抓取動作價值,得到每一像素坐標對應(yīng)的抓取動作價值;
25、基于預(yù)設(shè)的概率分布函數(shù)和所述抓取動作價值,計算每一像素坐標對應(yīng)的抓取成功率,得到與所述抓取成功率相關(guān)的概率分布特征圖;
26、基于與所述抓取成功率相關(guān)的概率分布特征圖中抓取成功率最大值對應(yīng)的像素坐標,確定在所述示教環(huán)境狀態(tài)圖像中的示教抓取動作信息。
27、在一些實施例中,所述放置動作生成網(wǎng)絡(luò)的訓(xùn)練方法包括:
28、獲取所述抓取動作生成網(wǎng)絡(luò)生成的所述示教抓取動作信息和所述示教環(huán)境狀態(tài)圖像;
29、根據(jù)所述示教抓取動作信息進行圖像提取,得到目標物體圖像;
30、對所述目標物體圖像進行特征提取得到目標物體圖像特征;
31、對所述示教環(huán)境狀態(tài)圖像進行融合特征提取,得到示教環(huán)境狀態(tài)圖像融合特征;
32、根據(jù)所述目標物體圖像特征和所述示教環(huán)境狀態(tài)圖像融合特征進行放置動作預(yù)測,得到多個預(yù)測放置動作;
33、基于預(yù)設(shè)的放置動作價值函數(shù),獲取執(zhí)行每一所述預(yù)測放置動作對應(yīng)的放置動作價值,得到每一像素坐標對應(yīng)的放置動作價值;
34、基于所述概率分布函數(shù)和所述放置動作價值,計算每一像素坐標對應(yīng)的放置成功率,得到與所述放置成功率相關(guān)的概率分布特征圖;
35、基于與所述放置成功率相關(guān)的概率分布特征圖中放置成功率最大值對應(yīng)的像素坐標,確定在所述示教環(huán)境狀態(tài)圖像中的示教放置動作信息,所述示教放置動作信息包括示教放置動作像素坐標和示教放置動作角度。
36、在一些實施例中,所述示教環(huán)境狀態(tài)圖像包括當前示教環(huán)境狀態(tài)圖像和目標示教環(huán)境狀態(tài)圖像,所述目標示教環(huán)境狀態(tài)圖像表征執(zhí)行每一動作后的環(huán)境狀態(tài)圖像,所述對所述示教環(huán)境狀態(tài)圖像進行融合特征提取,得到示教環(huán)境狀態(tài)圖像融合特征,包括:
37、對所述當前示教環(huán)境狀態(tài)圖像進行特征提取,得到當前示教環(huán)境狀態(tài)圖像特征;
38、對所述目標示教環(huán)境狀態(tài)圖像進行特征提取,得到目標示教環(huán)境狀態(tài)圖像特征;
39、將所述當前示教環(huán)境狀態(tài)圖像特征和所述目標示教環(huán)境狀態(tài)圖像特征進行特征融合,得到所述示教環(huán)境狀態(tài)圖像融合特征。
40、在一些實施例中,所述專家示教訓(xùn)練數(shù)據(jù)包括執(zhí)行所述目標任務(wù)所需的多個動作序列,每一所述動作序列對應(yīng)執(zhí)行所述目標任務(wù)的過程中采取該動作序列對應(yīng)的獎勵值,所述獲取專家示教訓(xùn)練數(shù)據(jù)的方法,包括:
41、基于所述專家示教訓(xùn)練數(shù)據(jù)對所述抓取動作生成網(wǎng)絡(luò)和所述放置動作生成網(wǎng)絡(luò)進行訓(xùn)練,得到目標訓(xùn)練損失;
42、根據(jù)所述目標訓(xùn)練損失和每一動作序列對應(yīng)的獎勵值計算在執(zhí)行所述目標任務(wù)中每一所述動作序列的抽樣概率;
43、基于所述抽樣概率在所述專家示教訓(xùn)練數(shù)據(jù)中進行動作序列抽樣,根據(jù)抽樣得到的動作序列對所述抓取動作生成網(wǎng)絡(luò)和所述放置動作生成網(wǎng)絡(luò)進行訓(xùn)練。
44、為實現(xiàn)上述目的,本技術(shù)實施例的第二方面提出了一種基于機械臂的物體放置裝置,應(yīng)用于如第一方面所述的方法。
45、為實現(xiàn)上述目的,本技術(shù)實施例的第三方面提出了一種電子設(shè)備,所述電子設(shè)備包括存儲器和處理器,所述存儲器存儲有計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)上述第一方面所述的方法。
46、為實現(xiàn)上述目的,本技術(shù)實施例的第四方面提出了一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)上述第一方面所述的方法。
47、本技術(shù)提出的基于機械臂的物體放置方法和裝置、電子設(shè)備及存儲介質(zhì),其通過獲取用于執(zhí)行目標任務(wù)的目標專家示教數(shù)據(jù),目標專家示教數(shù)據(jù)包括環(huán)境狀態(tài)圖像,環(huán)境狀態(tài)圖像包括執(zhí)行目標任務(wù)所需的目標物體;基于預(yù)設(shè)的抓取動作生成網(wǎng)絡(luò)對環(huán)境狀態(tài)圖像進行抓取動作信息生成,得到目標物體的抓取動作信息。基于預(yù)設(shè)的放置動作生成網(wǎng)絡(luò)對環(huán)境狀態(tài)圖像和抓取動作信息進行放置動作信息生成,得到第一放置動作信息。由于機械臂執(zhí)行目標任務(wù)時,當前動作的執(zhí)行成功率會影響后續(xù)動作的執(zhí)行,最終影響整個任務(wù)的執(zhí)行成功率。因此,第一放置動作信息的生成以成功確定需要抓取的目標物體以及成功執(zhí)行抓取動作為前提。本技術(shù)中的放置動作生成網(wǎng)絡(luò)以抓取動作信息為輸入來生成第一放置動作信息,保證放置動作的準確性以及提高執(zhí)行目標任務(wù)的成功率。其中,本技術(shù)的放置動作生成網(wǎng)絡(luò)是基于孿生網(wǎng)絡(luò)構(gòu)建的網(wǎng)絡(luò),能夠?qū)⒆ト〉哪繕宋矬w的特征與環(huán)境狀態(tài)圖像的特征進行匹配,能夠基于目標專家示教數(shù)據(jù)更高效地學(xué)習(xí)專家執(zhí)行目標任務(wù)時的軌跡特征,提高動作策略學(xué)習(xí)效率。進一步地,將生成第一放置動作信息和抓取動作信息輸入預(yù)設(shè)的局部結(jié)構(gòu)學(xué)習(xí)網(wǎng)絡(luò)進行進一步的局部位置優(yōu)化。在第一放置動作信息的基礎(chǔ)上,根據(jù)初步確定的第一放置動作信息與抓取動作信息進行放置動作的局部優(yōu)化,得到第二放置動作信息,提高放置動作的準確性。最終基于第一放置動作信息和第二放置動作信息確定目標放置動作信息,以根據(jù)目標放置動作信息控制機械臂對目標物體進行放置。因此,本技術(shù)可以在提高放置動作的準確性的前提下,進一步提高機械臂執(zhí)行多序列任務(wù)的成功率。