本發(fā)明屬于機器人訓練,具體涉及一種機器人數(shù)據(jù)生成方法、裝置、設備及存儲介質。
背景技術:
1、在雙臂機器人控制中,基于模仿學習的算法需要采集大量的演示數(shù)據(jù)用于雙臂機器人的動作訓練。然而,現(xiàn)有的數(shù)據(jù)采集方式和方法費時費力,嚴重影響了雙臂機器人的發(fā)展和進步,現(xiàn)有的方法主要可以分為以下幾類:
2、基于示教器的數(shù)據(jù)采集方法:該方法需要搭建一套完全相同的示教器模型,并保證示教器的機械臂控制能精確反饋到機器人端;數(shù)據(jù)采集人員需要操作示教器完成相應的動作,比如疊衣服,倒咖啡等,在機器人端接收到示教器的動作控制的過程中,不同視角的相機完成圖像數(shù)據(jù)的采集。
3、該方法存在以下缺點:這種數(shù)據(jù)采集方法比較直觀,但是對硬件的成本較高,需要搭建一套示教器,并且采集的過程費時費力。
4、基于仿真器的數(shù)據(jù)生成方法:該方法需要在仿真器中搭建相應的場景,并對目標對象進行建模;由于在仿真場景中目標對象以及機械臂都可以精確控制,因此可以通過預設軌跡進行相應數(shù)據(jù)的生成。
5、該方法存在以下缺點:這種方法對不同目標進行建模會花費大量的精力,并且仿真生成的數(shù)據(jù)跟真實場景的數(shù)據(jù)之間有一定的差距,往往導致對真實的機械臂訓練效果不佳。
6、基于vr(虛擬現(xiàn)實)/ar(增強現(xiàn)實)的數(shù)據(jù)采集方法:該方法基于日常生活中常見的帶有陀螺儀的設備比如vr頭盔和手機等搭建采集設備,并裝配在數(shù)據(jù)采集人員的相應身體部位,由數(shù)據(jù)采集人員在完成動作的同時收集這些設備的實時圖像數(shù)據(jù)和陀螺儀數(shù)據(jù)。
7、該方法存在以下缺點:需要額外的硬件設備,且不同設備間的數(shù)據(jù)同步對數(shù)據(jù)質量的影響很大,同時采集的過程耗費時間。
8、綜上,現(xiàn)有的數(shù)據(jù)生成方法至少存在著以下問題:
9、1、數(shù)據(jù)采集費時費力,導致數(shù)據(jù)采集效率低;
10、2、仿真生成的數(shù)據(jù)的準確度較低,與真實場景的數(shù)據(jù)之間有一定的差距,導致對真實的機械臂訓練效果不佳。
技術實現(xiàn)思路
1、本發(fā)明的目的是提供一種機器人數(shù)據(jù)生成方法、裝置、設備及存儲介質,用以解決現(xiàn)有數(shù)據(jù)生成方法存在著數(shù)據(jù)采集效率低以及數(shù)據(jù)準確度較低的問題。
2、為了實現(xiàn)上述目的,本發(fā)明采用以下技術方案:
3、第一方面,本發(fā)明提供了一種機器人數(shù)據(jù)生成方法,所述方法包括:
4、獲取機器人執(zhí)行預設動作任務的多視角視頻,基于預設的軌跡提取算法對多視角視頻進行軌跡提取,得到多視角樣本軌跡;
5、對多視角樣本軌跡進行編碼,得到多視角樣本軌跡特征;
6、獲取機器人動作的模擬視頻,對機器人動作的模擬視頻進行預處理,得到多幀動作模擬圖像;
7、對多幀動作模擬圖像進行編碼,得到模擬圖像特征;
8、將多視角樣本軌跡特征與模擬圖像特征進行拼接融合,得到融合數(shù)據(jù);
9、將融合數(shù)據(jù)作為預訓練的注意力機制神經網絡模型輸入,所述注意力機制神經網絡模型輸出多視角樣本視頻。
10、優(yōu)選地,所述多視角視頻包括:頭部視角視頻、胸部視角視頻、左手腕視角視頻和右手腕視角視頻。
11、優(yōu)選地,所述頭部視角視頻由部署在機器人的頭部上的第一圖像采集裝置進行采集;
12、所述胸部視角視頻由部署在機器人的胸部上的第二圖像采集裝置進行采集;
13、所述左手腕視角視頻由部署在機器人的左手腕上的第三圖像采集裝置進行采集;
14、所述右手腕視角視頻由部署在機器人的右手腕上的第四圖像采集裝置進行采集。
15、優(yōu)選地,所述多視角樣本視頻包括:頭部視角樣本視頻、胸部視角樣本視頻、左手腕視角樣本視頻和右手腕視角樣本視頻。
16、優(yōu)選地,所述機器人動作的模擬視頻至少包括:第三方設備對機器人執(zhí)行預設動作任務時所拍攝到的視頻、互聯(lián)網上的機器人動作視頻和抓取任務的演示視頻。
17、優(yōu)選地,所述預設動作任務包括:機器人將預設初始位置上的目標對象抓取至預設目標位置。
18、優(yōu)選地,所述方法還包括:構建融合數(shù)據(jù)的文本約束,所述文本約束用于擴展機器人抓取目標對象的類型;
19、構建融合數(shù)據(jù)的文本約束,包括:
20、基于大語言模型,為目標對象創(chuàng)建文本提示詞;
21、基于本文編碼器對文本提示詞進行編碼,得到文本特征;
22、基于文本特征,生成約束圖像特征;
23、將約束圖像特征加入到融合數(shù)據(jù)中。
24、第二方面,本發(fā)明提供了一種機器人數(shù)據(jù)生成裝置,所述裝置用于實現(xiàn)上述的機器人數(shù)據(jù)生成方法,其特征在于,所述裝置包括:
25、軌跡提取模塊,用于獲取機器人執(zhí)行預設動作任務的多視角視頻,基于預設的軌跡提取算法對多視角視頻進行軌跡提取,得到多視角樣本軌跡;
26、軌跡編碼模塊,用于對多視角樣本軌跡進行編碼,得到多視角樣本軌跡特征;
27、圖像模擬模塊,用于獲取機器人動作的模擬視頻,對機器人動作的模擬視頻進行預處理,得到多幀動作模擬圖像;
28、圖像編碼模塊,用于對多幀動作模擬圖像進行編碼,得到模擬圖像特征;
29、數(shù)據(jù)融合模塊,用于將多視角樣本軌跡特征與模擬圖像特征進行拼接融合,得到融合數(shù)據(jù);
30、樣本輸出模塊,用于將融合數(shù)據(jù)作為預訓練的注意力機制神經網絡模型輸入,所述注意力機制神經網絡模型輸出多視角樣本視頻。
31、第三方面,本發(fā)明提供了一種電子設備,包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)上述的機器人數(shù)據(jù)生成方法。
32、第四方面,本發(fā)明提供了一種計算機可讀存儲介質,其上存儲有計算機程序,該程序被處理器執(zhí)行時實現(xiàn)上述的機器人數(shù)據(jù)生成方法。
33、有益效果:
34、1、本發(fā)明的數(shù)據(jù)采集過程簡單方便,不需要額外的硬件和特定的硬件支持,采集過程可以做到無感采集;
35、2、本發(fā)明只需要采集少量的機器人執(zhí)行預設動作任務的多視角視頻,再結合大量的機器人動作的模擬視頻,并將多視角樣本軌跡特征與模擬圖像特征進行拼接融合,再以深度學習算法完成多種所需的視角變換,可生成大量的能夠直接用于機器人模仿學習的樣本數(shù)據(jù)(即多視角樣本視頻),降低了樣本數(shù)據(jù)的采集難度;
36、3、本發(fā)明收集了大量的模擬視頻,因此,生成的樣本數(shù)據(jù)更加接近真實環(huán)境中的真實數(shù)據(jù),可以有效避免樣本數(shù)據(jù)和真實環(huán)境之間的差異。
1.一種機器人數(shù)據(jù)生成方法,其特征在于,所述方法包括:
2.根據(jù)權利要求1所述的機器人數(shù)據(jù)生成方法,其特征在于,所述多視角視頻包括:頭部視角視頻、胸部視角視頻、左手腕視角視頻和右手腕視角視頻。
3.根據(jù)權利要求2所述的機器人數(shù)據(jù)生成方法,其特征在于,所述頭部視角視頻由部署在機器人的頭部上的第一圖像采集裝置進行采集;
4.根據(jù)權利要求2或3所述的機器人數(shù)據(jù)生成方法,其特征在于,所述多視角樣本視頻包括:頭部視角樣本視頻、胸部視角樣本視頻、左手腕視角樣本視頻和右手腕視角樣本視頻。
5.根據(jù)權利要求1所述的機器人數(shù)據(jù)生成方法,其特征在于,所述機器人動作的模擬視頻至少包括:第三方設備對機器人執(zhí)行預設動作任務時所拍攝到的視頻、互聯(lián)網上的機器人動作視頻和抓取任務的演示視頻。
6.根據(jù)權利要求1所述的機器人數(shù)據(jù)生成方法,其特征在于,所述預設動作任務包括:機器人將預設初始位置上的目標對象抓取至預設目標位置。
7.根據(jù)權利要求6所述的機器人數(shù)據(jù)生成方法,其特征在于,所述方法還包括:構建融合數(shù)據(jù)的文本約束,所述文本約束用于擴展機器人抓取目標對象的類型;
8.一種機器人數(shù)據(jù)生成裝置,所述裝置用于實現(xiàn)權利要求1-7中任一項所述的機器人數(shù)據(jù)生成方法,其特征在于,所述裝置包括:
9.一種電子設備,包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,其特征在于,所述處理器執(zhí)行所述計算機程序時實現(xiàn)權利要求1-7中任一項所述的機器人數(shù)據(jù)生成方法。
10.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,該程序被處理器執(zhí)行時實現(xiàn)權利要求1-7中任一項所述的機器人數(shù)據(jù)生成方法。