欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于航點(diǎn)感知世界模型的機(jī)器人操作方法和系統(tǒng)

文檔序號:40612499發(fā)布日期:2025-01-07 20:57閱讀:9來源:國知局
一種基于航點(diǎn)感知世界模型的機(jī)器人操作方法和系統(tǒng)

本發(fā)明涉及機(jī)器人的操作和深度學(xué)習(xí)的模型算法設(shè)計(jì)領(lǐng)域,更具體地,涉及一種基于航點(diǎn)感知世界模型的機(jī)器人操作方法和系統(tǒng)。


背景技術(shù):

1、語言引導(dǎo)的機(jī)器人操控這是一個在體現(xiàn)人工智能領(lǐng)域中長期存在的研究領(lǐng)域。近年來,由于其在促進(jìn)人機(jī)交互方面的靈活性和實(shí)用性,語言引導(dǎo)的機(jī)器人操控獲得了廣泛的研究關(guān)注。為此建立了許多基準(zhǔn)測試,如rlbench、calvin和vlmbench等。早期方法通過引入強(qiáng)大的表示、精心設(shè)計(jì)的網(wǎng)絡(luò)架構(gòu)或有效的訓(xùn)練機(jī)制來提高操控性能。隨著視覺-語言模型(vlms)的快速發(fā)展,近期研究嘗試引入vlms來提高操控準(zhǔn)確性和對未見場景/對象的泛化能力。然而,大多數(shù)先前的方法傾向于從多模態(tài)輸入直接學(xué)習(xí)到低級動作的映射,忽略了環(huán)境動態(tài)的顯式建模,這可能導(dǎo)致在復(fù)雜環(huán)境中執(zhí)行動作或計(jì)劃失敗,泛化能力不強(qiáng)。

2、世界模型旨在生成其周圍環(huán)境的預(yù)測模型,考慮不確定性和動態(tài)變化。它們已在視頻生成、導(dǎo)航和自動駕駛等領(lǐng)域得到廣泛研究。例如,genie引入了時空視頻分詞器和動態(tài)模型以自回歸方式預(yù)測下一視頻幀;drivedreamer構(gòu)建了來自真實(shí)駕駛場景的世界模型,以實(shí)現(xiàn)合理的駕駛策略生成。一些研究還引入了世界模型用于機(jī)器人操控任務(wù),如daydreamer和swim。然而,這些模型通常交替執(zhí)行世界建模和決策制定,這給模型訓(xùn)練帶來了巨大困難,效率也不高。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明為克服上述現(xiàn)有技術(shù)所述的至少一種缺陷,提供一種基于航點(diǎn)感知世界模型的機(jī)器人操作方法和系統(tǒng)。

2、本發(fā)明旨在至少在一定程度上解決上述技術(shù)問題。

3、為解決上述技術(shù)問題,本發(fā)明的技術(shù)方案如下:

4、一種基于航點(diǎn)感知世界模型的機(jī)器人操作方法,包括以下步驟:

5、s1:獲取機(jī)器人操作信息,所述機(jī)器人操作信息包括觀測圖像、機(jī)器人狀態(tài)信息和用戶指令;

6、s2:將觀測圖像和用戶指令輸入到預(yù)設(shè)的航點(diǎn)感知世界模型,所述航點(diǎn)感知世界模型得到機(jī)器人路徑點(diǎn)信息;

7、s3:根據(jù)機(jī)器人路徑點(diǎn)信息和機(jī)器人狀態(tài)信息通過預(yù)設(shè)的動作預(yù)測模塊得到機(jī)器人動作信息;

8、s4:將所述機(jī)器人動作信息和機(jī)器人路徑點(diǎn)信息合并,得到操作機(jī)器人的動作軌跡。

9、進(jìn)一步,所述航點(diǎn)感知世界模型包括預(yù)訓(xùn)練的視覺語言模型和場景預(yù)測模塊,所述預(yù)訓(xùn)練的視覺語言模型和場景預(yù)測模塊連接。

10、進(jìn)一步,步驟s2,所述將觀測圖像和用戶指令輸入到預(yù)設(shè)的航點(diǎn)感知世界模型,所述航點(diǎn)感知世界模型得到機(jī)器人路徑點(diǎn)信息,包括;

11、s2.1:將機(jī)器人當(dāng)前的觀測圖像和用戶指令合并作為第一輸入,將第一輸入輸入到預(yù)訓(xùn)練的視覺語言模型,得到機(jī)器人的路徑點(diǎn)提示;

12、s2.2:對所述機(jī)器人的路徑點(diǎn)提示進(jìn)行文本編碼,得到編碼后的路徑點(diǎn)提示;

13、s2.3:將機(jī)器人的歷史觀測圖像經(jīng)過圖像編碼作為第二輸入;

14、s2.4:將編碼后的路徑點(diǎn)提示和第二輸入輸入至場景預(yù)測模塊,得到機(jī)器人路徑點(diǎn)信息。

15、進(jìn)一步,步驟s3中,根據(jù)機(jī)器人路徑點(diǎn)信息和機(jī)器人狀態(tài)信息通過預(yù)設(shè)的動作預(yù)測模塊得到機(jī)器人的動作信息,包括:

16、將機(jī)器人狀態(tài)信息輸入至預(yù)設(shè)的多層感知機(jī),得到輸出結(jié)果,所述輸出結(jié)果與所述第二輸入合并作為第三輸入并輸入到預(yù)設(shè)的動作預(yù)測模塊,通過動作預(yù)測模塊得到機(jī)器人的動作信息。

17、進(jìn)一步,所述第一輸入和第二輸入輸入航點(diǎn)感知世界模型或動作預(yù)測模塊前,還經(jīng)過所述異步分層執(zhí)行器。

18、進(jìn)一步,所述場景預(yù)測模塊包括第一自注意力模塊、第一交叉注意力模塊和第一前饋網(wǎng)絡(luò),所述第一自注意力模塊、第一交叉注意力模塊和第一前饋網(wǎng)絡(luò)依次相連,所述歷史觀測圖像的路徑點(diǎn)特征輸入到第一自注意力模塊中,得到第一自注意力模塊的輸出,將路徑點(diǎn)提示和第一自注意力模塊的輸出輸入到第一交叉注意力模塊,得到第一交叉注意力模塊的輸出,將第一交叉注意力模塊的輸出輸入第一前饋網(wǎng)絡(luò),得到所述機(jī)器人路徑點(diǎn)信息。

19、進(jìn)一步,所述動作預(yù)測模塊包括第二自注意力模塊、第二交叉注意力模塊和第二前饋網(wǎng)絡(luò),所述第二自注意力模塊、第二交叉注意力模塊和第二前饋網(wǎng)絡(luò)依次相連,將多層感知機(jī)處理后的機(jī)器人操作信息和歷史觀測圖像的路徑點(diǎn)特征輸入第二自注意力模塊,得到第二自注意力模塊的輸出,將第二自注意力模塊的輸出和路徑點(diǎn)特征輸入第二交叉注意力模塊,得到第二交叉注意力模塊的輸出,將第二交叉注意力模塊的輸出輸入到第二前饋網(wǎng)絡(luò),得到操作機(jī)器人的動作軌跡。

20、進(jìn)一步,所述異步分層執(zhí)行器分別執(zhí)行視覺語言模型、場景預(yù)測模塊、動作預(yù)測模塊的輸入信息和用戶指令解析,在執(zhí)行過程中,所述異步分層執(zhí)行器返回上一輪的用戶指令解析、場景預(yù)測模塊和動作預(yù)測模塊的執(zhí)行結(jié)果,在執(zhí)行結(jié)束后,所述異步分層執(zhí)行器返回當(dāng)前的用戶指令解析、場景預(yù)測模塊和動作預(yù)測模塊的執(zhí)行結(jié)果。

21、進(jìn)一步,步驟s4中,所述操作機(jī)器人的動作軌跡包括:

22、tra={l,[o1,s1,a1,m1],...,[ot,st,at,mt]}

23、式中,tra為操作機(jī)器人的動作軌跡,l為用戶指令,o1,...,ot為歷史觀測圖像,s1,...,st為機(jī)器人狀態(tài)信息,a1,...,at為機(jī)器人的動作信息,m1,...,mt為機(jī)器人路徑點(diǎn)信息,t為時間步長度。

24、一種基于航點(diǎn)感知世界模型的機(jī)器人操作系統(tǒng),應(yīng)用于所述的機(jī)器人操作方法,包括:

25、機(jī)器人操作信息獲取模塊,用于獲取機(jī)器人操作信息,所述機(jī)器人操作信息包括觀測圖像、機(jī)器人狀態(tài)信息和用戶指令;

26、機(jī)器人路徑點(diǎn)信息獲取模塊,用于將觀測圖像和用戶指令輸入到預(yù)設(shè)的航點(diǎn)感知世界模型,所述航點(diǎn)感知世界模型得到機(jī)器人路徑點(diǎn)信息;

27、機(jī)器人動作信息獲得模塊,用于根據(jù)機(jī)器人路徑點(diǎn)信息和機(jī)器人狀態(tài)信息通過預(yù)設(shè)的動作預(yù)測模塊得到機(jī)器人動作信息;

28、機(jī)器人的動作軌跡獲取模塊,用于將所述機(jī)器人動作信息和機(jī)器人路徑點(diǎn)信息合并,得到操作機(jī)器人的動作軌跡。

29、與現(xiàn)有技術(shù)相比,本發(fā)明技術(shù)方案的有益效果是:

30、本發(fā)明首先收集機(jī)器人的操作信息,包括觀測到的圖像、機(jī)器人的當(dāng)前狀態(tài)信息以及用戶給出的指令,操作信息被輸入到一個預(yù)設(shè)的航點(diǎn)感知世界模型中,得到機(jī)器人的路徑點(diǎn)信息,路徑點(diǎn)信息和機(jī)器人的狀態(tài)信息通過一個預(yù)設(shè)的動作預(yù)測模塊計(jì)算出機(jī)器人應(yīng)采取的動作信息。最后,將計(jì)算得到的機(jī)器人動作信息與路徑點(diǎn)信息合并,生成并輸出操作機(jī)器人的完整動作軌跡。本發(fā)明基于航點(diǎn)感知世界模型顯著提升機(jī)器人的操控能力,能夠更好地理解和預(yù)測動態(tài)環(huán)境。



技術(shù)特征:

1.一種基于航點(diǎn)感知世界模型的機(jī)器人操作方法,其特征在于,包括以下步驟:

2.根據(jù)權(quán)利要求1所述的基于航點(diǎn)感知世界模型的機(jī)器人操作方法,其特征在于,所述航點(diǎn)感知世界模型包括預(yù)訓(xùn)練的視覺語言模型和場景預(yù)測模塊,所述預(yù)訓(xùn)練的視覺語言模型和場景預(yù)測模塊連接。

3.根據(jù)權(quán)利要求2所述的基于航點(diǎn)感知世界模型的機(jī)器人操作方法,其特征在于,步驟s2,所述將觀測圖像和用戶指令輸入到預(yù)設(shè)的航點(diǎn)感知世界模型,所述航點(diǎn)感知世界模型得到機(jī)器人路徑點(diǎn)信息,包括;

4.根據(jù)權(quán)利要求3所述的基于航點(diǎn)感知世界模型的機(jī)器人操作方法,其特征在于,步驟s3中,根據(jù)機(jī)器人路徑點(diǎn)信息和機(jī)器人狀態(tài)信息通過預(yù)設(shè)的動作預(yù)測模塊得到機(jī)器人的動作信息,包括:

5.根據(jù)權(quán)利要求4所述的基于航點(diǎn)感知世界模型的機(jī)器人操作方法,其特征在于,所述第一輸入和第二輸入輸入航點(diǎn)感知世界模型或動作預(yù)測模塊前,還經(jīng)過所述異步分層執(zhí)行器。

6.根據(jù)權(quán)利要求3所述的基于航點(diǎn)感知世界模型的機(jī)器人操作方法,其特征在于,所述場景預(yù)測模塊包括第一自注意力模塊、第一交叉注意力模塊和第一前饋網(wǎng)絡(luò),所述第一自注意力模塊、第一交叉注意力模塊和第一前饋網(wǎng)絡(luò)依次相連,所述歷史觀測圖像的路徑點(diǎn)特征輸入到第一自注意力模塊中,得到第一自注意力模塊的輸出,將路徑點(diǎn)提示和第一自注意力模塊的輸出輸入到第一交叉注意力模塊,得到第一交叉注意力模塊的輸出,將第一交叉注意力模塊的輸出輸入第一前饋網(wǎng)絡(luò),得到所述機(jī)器人路徑點(diǎn)信息。

7.根據(jù)權(quán)利要求6所述的基于航點(diǎn)感知世界模型的機(jī)器人操作方法,其特征在于,所述動作預(yù)測模塊包括第二自注意力模塊、第二交叉注意力模塊和第二前饋網(wǎng)絡(luò),所述第二自注意力模塊、第二交叉注意力模塊和第二前饋網(wǎng)絡(luò)依次相連,將多層感知機(jī)處理后的機(jī)器人操作信息和歷史觀測圖像的路徑點(diǎn)特征輸入第二自注意力模塊,得到第二自注意力模塊的輸出,將第二自注意力模塊的輸出和路徑點(diǎn)特征輸入第二交叉注意力模塊,得到第二交叉注意力模塊的輸出,將第二交叉注意力模塊的輸出輸入到第二前饋網(wǎng)絡(luò),得到操作機(jī)器人的動作軌跡。

8.根據(jù)權(quán)利要求5所述的基于航點(diǎn)感知世界模型的機(jī)器人操作方法,其特征在于,所述異步分層執(zhí)行器分別執(zhí)行視覺語言模型、場景預(yù)測模塊、動作預(yù)測模塊的輸入信息和用戶指令解析,在執(zhí)行過程中,所述異步分層執(zhí)行器返回上一輪的用戶指令解析、場景預(yù)測模塊和動作預(yù)測模塊的執(zhí)行結(jié)果,在執(zhí)行結(jié)束后,所述異步分層執(zhí)行器返回當(dāng)前的用戶指令解析、場景預(yù)測模塊和動作預(yù)測模塊的執(zhí)行結(jié)果。

9.根據(jù)權(quán)利要求7所述的基于航點(diǎn)感知世界模型的機(jī)器人操作方法,其特征在于,步驟s4中,所述操作機(jī)器人的動作軌跡包括:

10.一種基于航點(diǎn)感知世界模型的機(jī)器人操作系統(tǒng),其特征在于,應(yīng)用于如權(quán)利要求1至9任一項(xiàng)所述的機(jī)器人操作方法,包括:


技術(shù)總結(jié)
本發(fā)明涉及機(jī)器人的操作和深度學(xué)習(xí)的模型算法設(shè)計(jì)領(lǐng)域,具體地,涉及一種基于航點(diǎn)感知世界模型的機(jī)器人操作方法和系統(tǒng),本發(fā)明首先收集機(jī)器人的操作信息,包括觀測圖像、機(jī)器人的當(dāng)前狀態(tài)信息以及用戶給出的指令,操作信息輸入到預(yù)設(shè)的航點(diǎn)感知世界模型中,該模型基于輸入生成機(jī)器人的路徑點(diǎn)信息,將路徑點(diǎn)信息和機(jī)器人的狀態(tài)信息通過預(yù)設(shè)的動作預(yù)測模塊計(jì)算出機(jī)器人的動作信息,將計(jì)算得到的機(jī)器人動作信息與路徑點(diǎn)信息合并,生成并輸出操作機(jī)器人的完整動作軌跡,本發(fā)明中的航點(diǎn)感知世界模型捕獲關(guān)鍵信息,并在變化的場景中保持了良好的泛化能力。

技術(shù)研發(fā)人員:梁小丹,張凱東,任鵬真
受保護(hù)的技術(shù)使用者:中山大學(xué)
技術(shù)研發(fā)日:
技術(shù)公布日:2025/1/6
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
长沙县| 青河县| 班玛县| 丹东市| 长春市| 青海省| 冷水江市| 合肥市| 金川县| 朝阳区| 南充市| 乐安县| 清新县| 富锦市| 华坪县| 聂拉木县| 澄城县| 商水县| 家居| 海门市| 赞皇县| 朝阳市| 抚松县| 法库县| 安多县| 漳浦县| 商城县| 香格里拉县| 册亨县| 巢湖市| 昌江| 彭泽县| 海口市| 洛扎县| 和政县| 乌鲁木齐市| 柳林县| 松原市| 南阳市| 崇义县| 南岸区|