本發(fā)明涉及機(jī)器人的操作和深度學(xué)習(xí)的模型算法設(shè)計(jì)領(lǐng)域,更具體地,涉及一種基于航點(diǎn)感知世界模型的機(jī)器人操作方法和系統(tǒng)。
背景技術(shù):
1、語言引導(dǎo)的機(jī)器人操控這是一個在體現(xiàn)人工智能領(lǐng)域中長期存在的研究領(lǐng)域。近年來,由于其在促進(jìn)人機(jī)交互方面的靈活性和實(shí)用性,語言引導(dǎo)的機(jī)器人操控獲得了廣泛的研究關(guān)注。為此建立了許多基準(zhǔn)測試,如rlbench、calvin和vlmbench等。早期方法通過引入強(qiáng)大的表示、精心設(shè)計(jì)的網(wǎng)絡(luò)架構(gòu)或有效的訓(xùn)練機(jī)制來提高操控性能。隨著視覺-語言模型(vlms)的快速發(fā)展,近期研究嘗試引入vlms來提高操控準(zhǔn)確性和對未見場景/對象的泛化能力。然而,大多數(shù)先前的方法傾向于從多模態(tài)輸入直接學(xué)習(xí)到低級動作的映射,忽略了環(huán)境動態(tài)的顯式建模,這可能導(dǎo)致在復(fù)雜環(huán)境中執(zhí)行動作或計(jì)劃失敗,泛化能力不強(qiáng)。
2、世界模型旨在生成其周圍環(huán)境的預(yù)測模型,考慮不確定性和動態(tài)變化。它們已在視頻生成、導(dǎo)航和自動駕駛等領(lǐng)域得到廣泛研究。例如,genie引入了時空視頻分詞器和動態(tài)模型以自回歸方式預(yù)測下一視頻幀;drivedreamer構(gòu)建了來自真實(shí)駕駛場景的世界模型,以實(shí)現(xiàn)合理的駕駛策略生成。一些研究還引入了世界模型用于機(jī)器人操控任務(wù),如daydreamer和swim。然而,這些模型通常交替執(zhí)行世界建模和決策制定,這給模型訓(xùn)練帶來了巨大困難,效率也不高。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明為克服上述現(xiàn)有技術(shù)所述的至少一種缺陷,提供一種基于航點(diǎn)感知世界模型的機(jī)器人操作方法和系統(tǒng)。
2、本發(fā)明旨在至少在一定程度上解決上述技術(shù)問題。
3、為解決上述技術(shù)問題,本發(fā)明的技術(shù)方案如下:
4、一種基于航點(diǎn)感知世界模型的機(jī)器人操作方法,包括以下步驟:
5、s1:獲取機(jī)器人操作信息,所述機(jī)器人操作信息包括觀測圖像、機(jī)器人狀態(tài)信息和用戶指令;
6、s2:將觀測圖像和用戶指令輸入到預(yù)設(shè)的航點(diǎn)感知世界模型,所述航點(diǎn)感知世界模型得到機(jī)器人路徑點(diǎn)信息;
7、s3:根據(jù)機(jī)器人路徑點(diǎn)信息和機(jī)器人狀態(tài)信息通過預(yù)設(shè)的動作預(yù)測模塊得到機(jī)器人動作信息;
8、s4:將所述機(jī)器人動作信息和機(jī)器人路徑點(diǎn)信息合并,得到操作機(jī)器人的動作軌跡。
9、進(jìn)一步,所述航點(diǎn)感知世界模型包括預(yù)訓(xùn)練的視覺語言模型和場景預(yù)測模塊,所述預(yù)訓(xùn)練的視覺語言模型和場景預(yù)測模塊連接。
10、進(jìn)一步,步驟s2,所述將觀測圖像和用戶指令輸入到預(yù)設(shè)的航點(diǎn)感知世界模型,所述航點(diǎn)感知世界模型得到機(jī)器人路徑點(diǎn)信息,包括;
11、s2.1:將機(jī)器人當(dāng)前的觀測圖像和用戶指令合并作為第一輸入,將第一輸入輸入到預(yù)訓(xùn)練的視覺語言模型,得到機(jī)器人的路徑點(diǎn)提示;
12、s2.2:對所述機(jī)器人的路徑點(diǎn)提示進(jìn)行文本編碼,得到編碼后的路徑點(diǎn)提示;
13、s2.3:將機(jī)器人的歷史觀測圖像經(jīng)過圖像編碼作為第二輸入;
14、s2.4:將編碼后的路徑點(diǎn)提示和第二輸入輸入至場景預(yù)測模塊,得到機(jī)器人路徑點(diǎn)信息。
15、進(jìn)一步,步驟s3中,根據(jù)機(jī)器人路徑點(diǎn)信息和機(jī)器人狀態(tài)信息通過預(yù)設(shè)的動作預(yù)測模塊得到機(jī)器人的動作信息,包括:
16、將機(jī)器人狀態(tài)信息輸入至預(yù)設(shè)的多層感知機(jī),得到輸出結(jié)果,所述輸出結(jié)果與所述第二輸入合并作為第三輸入并輸入到預(yù)設(shè)的動作預(yù)測模塊,通過動作預(yù)測模塊得到機(jī)器人的動作信息。
17、進(jìn)一步,所述第一輸入和第二輸入輸入航點(diǎn)感知世界模型或動作預(yù)測模塊前,還經(jīng)過所述異步分層執(zhí)行器。
18、進(jìn)一步,所述場景預(yù)測模塊包括第一自注意力模塊、第一交叉注意力模塊和第一前饋網(wǎng)絡(luò),所述第一自注意力模塊、第一交叉注意力模塊和第一前饋網(wǎng)絡(luò)依次相連,所述歷史觀測圖像的路徑點(diǎn)特征輸入到第一自注意力模塊中,得到第一自注意力模塊的輸出,將路徑點(diǎn)提示和第一自注意力模塊的輸出輸入到第一交叉注意力模塊,得到第一交叉注意力模塊的輸出,將第一交叉注意力模塊的輸出輸入第一前饋網(wǎng)絡(luò),得到所述機(jī)器人路徑點(diǎn)信息。
19、進(jìn)一步,所述動作預(yù)測模塊包括第二自注意力模塊、第二交叉注意力模塊和第二前饋網(wǎng)絡(luò),所述第二自注意力模塊、第二交叉注意力模塊和第二前饋網(wǎng)絡(luò)依次相連,將多層感知機(jī)處理后的機(jī)器人操作信息和歷史觀測圖像的路徑點(diǎn)特征輸入第二自注意力模塊,得到第二自注意力模塊的輸出,將第二自注意力模塊的輸出和路徑點(diǎn)特征輸入第二交叉注意力模塊,得到第二交叉注意力模塊的輸出,將第二交叉注意力模塊的輸出輸入到第二前饋網(wǎng)絡(luò),得到操作機(jī)器人的動作軌跡。
20、進(jìn)一步,所述異步分層執(zhí)行器分別執(zhí)行視覺語言模型、場景預(yù)測模塊、動作預(yù)測模塊的輸入信息和用戶指令解析,在執(zhí)行過程中,所述異步分層執(zhí)行器返回上一輪的用戶指令解析、場景預(yù)測模塊和動作預(yù)測模塊的執(zhí)行結(jié)果,在執(zhí)行結(jié)束后,所述異步分層執(zhí)行器返回當(dāng)前的用戶指令解析、場景預(yù)測模塊和動作預(yù)測模塊的執(zhí)行結(jié)果。
21、進(jìn)一步,步驟s4中,所述操作機(jī)器人的動作軌跡包括:
22、tra={l,[o1,s1,a1,m1],...,[ot,st,at,mt]}
23、式中,tra為操作機(jī)器人的動作軌跡,l為用戶指令,o1,...,ot為歷史觀測圖像,s1,...,st為機(jī)器人狀態(tài)信息,a1,...,at為機(jī)器人的動作信息,m1,...,mt為機(jī)器人路徑點(diǎn)信息,t為時間步長度。
24、一種基于航點(diǎn)感知世界模型的機(jī)器人操作系統(tǒng),應(yīng)用于所述的機(jī)器人操作方法,包括:
25、機(jī)器人操作信息獲取模塊,用于獲取機(jī)器人操作信息,所述機(jī)器人操作信息包括觀測圖像、機(jī)器人狀態(tài)信息和用戶指令;
26、機(jī)器人路徑點(diǎn)信息獲取模塊,用于將觀測圖像和用戶指令輸入到預(yù)設(shè)的航點(diǎn)感知世界模型,所述航點(diǎn)感知世界模型得到機(jī)器人路徑點(diǎn)信息;
27、機(jī)器人動作信息獲得模塊,用于根據(jù)機(jī)器人路徑點(diǎn)信息和機(jī)器人狀態(tài)信息通過預(yù)設(shè)的動作預(yù)測模塊得到機(jī)器人動作信息;
28、機(jī)器人的動作軌跡獲取模塊,用于將所述機(jī)器人動作信息和機(jī)器人路徑點(diǎn)信息合并,得到操作機(jī)器人的動作軌跡。
29、與現(xiàn)有技術(shù)相比,本發(fā)明技術(shù)方案的有益效果是:
30、本發(fā)明首先收集機(jī)器人的操作信息,包括觀測到的圖像、機(jī)器人的當(dāng)前狀態(tài)信息以及用戶給出的指令,操作信息被輸入到一個預(yù)設(shè)的航點(diǎn)感知世界模型中,得到機(jī)器人的路徑點(diǎn)信息,路徑點(diǎn)信息和機(jī)器人的狀態(tài)信息通過一個預(yù)設(shè)的動作預(yù)測模塊計(jì)算出機(jī)器人應(yīng)采取的動作信息。最后,將計(jì)算得到的機(jī)器人動作信息與路徑點(diǎn)信息合并,生成并輸出操作機(jī)器人的完整動作軌跡。本發(fā)明基于航點(diǎn)感知世界模型顯著提升機(jī)器人的操控能力,能夠更好地理解和預(yù)測動態(tài)環(huán)境。
1.一種基于航點(diǎn)感知世界模型的機(jī)器人操作方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的基于航點(diǎn)感知世界模型的機(jī)器人操作方法,其特征在于,所述航點(diǎn)感知世界模型包括預(yù)訓(xùn)練的視覺語言模型和場景預(yù)測模塊,所述預(yù)訓(xùn)練的視覺語言模型和場景預(yù)測模塊連接。
3.根據(jù)權(quán)利要求2所述的基于航點(diǎn)感知世界模型的機(jī)器人操作方法,其特征在于,步驟s2,所述將觀測圖像和用戶指令輸入到預(yù)設(shè)的航點(diǎn)感知世界模型,所述航點(diǎn)感知世界模型得到機(jī)器人路徑點(diǎn)信息,包括;
4.根據(jù)權(quán)利要求3所述的基于航點(diǎn)感知世界模型的機(jī)器人操作方法,其特征在于,步驟s3中,根據(jù)機(jī)器人路徑點(diǎn)信息和機(jī)器人狀態(tài)信息通過預(yù)設(shè)的動作預(yù)測模塊得到機(jī)器人的動作信息,包括:
5.根據(jù)權(quán)利要求4所述的基于航點(diǎn)感知世界模型的機(jī)器人操作方法,其特征在于,所述第一輸入和第二輸入輸入航點(diǎn)感知世界模型或動作預(yù)測模塊前,還經(jīng)過所述異步分層執(zhí)行器。
6.根據(jù)權(quán)利要求3所述的基于航點(diǎn)感知世界模型的機(jī)器人操作方法,其特征在于,所述場景預(yù)測模塊包括第一自注意力模塊、第一交叉注意力模塊和第一前饋網(wǎng)絡(luò),所述第一自注意力模塊、第一交叉注意力模塊和第一前饋網(wǎng)絡(luò)依次相連,所述歷史觀測圖像的路徑點(diǎn)特征輸入到第一自注意力模塊中,得到第一自注意力模塊的輸出,將路徑點(diǎn)提示和第一自注意力模塊的輸出輸入到第一交叉注意力模塊,得到第一交叉注意力模塊的輸出,將第一交叉注意力模塊的輸出輸入第一前饋網(wǎng)絡(luò),得到所述機(jī)器人路徑點(diǎn)信息。
7.根據(jù)權(quán)利要求6所述的基于航點(diǎn)感知世界模型的機(jī)器人操作方法,其特征在于,所述動作預(yù)測模塊包括第二自注意力模塊、第二交叉注意力模塊和第二前饋網(wǎng)絡(luò),所述第二自注意力模塊、第二交叉注意力模塊和第二前饋網(wǎng)絡(luò)依次相連,將多層感知機(jī)處理后的機(jī)器人操作信息和歷史觀測圖像的路徑點(diǎn)特征輸入第二自注意力模塊,得到第二自注意力模塊的輸出,將第二自注意力模塊的輸出和路徑點(diǎn)特征輸入第二交叉注意力模塊,得到第二交叉注意力模塊的輸出,將第二交叉注意力模塊的輸出輸入到第二前饋網(wǎng)絡(luò),得到操作機(jī)器人的動作軌跡。
8.根據(jù)權(quán)利要求5所述的基于航點(diǎn)感知世界模型的機(jī)器人操作方法,其特征在于,所述異步分層執(zhí)行器分別執(zhí)行視覺語言模型、場景預(yù)測模塊、動作預(yù)測模塊的輸入信息和用戶指令解析,在執(zhí)行過程中,所述異步分層執(zhí)行器返回上一輪的用戶指令解析、場景預(yù)測模塊和動作預(yù)測模塊的執(zhí)行結(jié)果,在執(zhí)行結(jié)束后,所述異步分層執(zhí)行器返回當(dāng)前的用戶指令解析、場景預(yù)測模塊和動作預(yù)測模塊的執(zhí)行結(jié)果。
9.根據(jù)權(quán)利要求7所述的基于航點(diǎn)感知世界模型的機(jī)器人操作方法,其特征在于,步驟s4中,所述操作機(jī)器人的動作軌跡包括:
10.一種基于航點(diǎn)感知世界模型的機(jī)器人操作系統(tǒng),其特征在于,應(yīng)用于如權(quán)利要求1至9任一項(xiàng)所述的機(jī)器人操作方法,包括: