一種基于航點(diǎn)感知世界模型的機(jī)器人操作方法和系統(tǒng)

文檔序號：40612499發(fā)布日期：2025-01-07 20:57閱讀：9來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>控制;調(diào)節(jié)裝置的制造及其應(yīng)用技術(shù)

本發(fā)明涉及機(jī)器人的操作和深度學(xué)習(xí)的模型算法設(shè)計(jì)領(lǐng)域，更具體地，涉及一種基于航點(diǎn)感知世界模型的機(jī)器人操作方法和系統(tǒng)。

背景技術(shù)：

1、語言引導(dǎo)的機(jī)器人操控這是一個在體現(xiàn)人工智能領(lǐng)域中長期存在的研究領(lǐng)域。近年來，由于其在促進(jìn)人機(jī)交互方面的靈活性和實(shí)用性，語言引導(dǎo)的機(jī)器人操控獲得了廣泛的研究關(guān)注。為此建立了許多基準(zhǔn)測試，如rlbench、calvin和vlmbench等。早期方法通過引入強(qiáng)大的表示、精心設(shè)計(jì)的網(wǎng)絡(luò)架構(gòu)或有效的訓(xùn)練機(jī)制來提高操控性能。隨著視覺-語言模型(vlms)的快速發(fā)展，近期研究嘗試引入vlms來提高操控準(zhǔn)確性和對未見場景/對象的泛化能力。然而，大多數(shù)先前的方法傾向于從多模態(tài)輸入直接學(xué)習(xí)到低級動作的映射，忽略了環(huán)境動態(tài)的顯式建模，這可能導(dǎo)致在復(fù)雜環(huán)境中執(zhí)行動作或計(jì)劃失敗，泛化能力不強(qiáng)。

2、世界模型旨在生成其周圍環(huán)境的預(yù)測模型，考慮不確定性和動態(tài)變化。它們已在視頻生成、導(dǎo)航和自動駕駛等領(lǐng)域得到廣泛研究。例如，genie引入了時空視頻分詞器和動態(tài)模型以自回歸方式預(yù)測下一視頻幀；drivedreamer構(gòu)建了來自真實(shí)駕駛場景的世界模型，以實(shí)現(xiàn)合理的駕駛策略生成。一些研究還引入了世界模型用于機(jī)器人操控任務(wù)，如daydreamer和swim。然而，這些模型通常交替執(zhí)行世界建模和決策制定，這給模型訓(xùn)練帶來了巨大困難，效率也不高。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明為克服上述現(xiàn)有技術(shù)所述的至少一種缺陷，提供一種基于航點(diǎn)感知世界模型的機(jī)器人操作方法和系統(tǒng)。

2、本發(fā)明旨在至少在一定程度上解決上述技術(shù)問題。

3、為解決上述技術(shù)問題，本發(fā)明的技術(shù)方案如下：

4、一種基于航點(diǎn)感知世界模型的機(jī)器人操作方法，包括以下步驟：

5、s1：獲取機(jī)器人操作信息，所述機(jī)器人操作信息包括觀測圖像、機(jī)器人狀態(tài)信息和用戶指令；

6、s2：將觀測圖像和用戶指令輸入到預(yù)設(shè)的航點(diǎn)感知世界模型，所述航點(diǎn)感知世界模型得到機(jī)器人路徑點(diǎn)信息；

7、s3：根據(jù)機(jī)器人路徑點(diǎn)信息和機(jī)器人狀態(tài)信息通過預(yù)設(shè)的動作預(yù)測模塊得到機(jī)器人動作信息；

8、s4：將所述機(jī)器人動作信息和機(jī)器人路徑點(diǎn)信息合并，得到操作機(jī)器人的動作軌跡。

9、進(jìn)一步，所述航點(diǎn)感知世界模型包括預(yù)訓(xùn)練的視覺語言模型和場景預(yù)測模塊，所述預(yù)訓(xùn)練的視覺語言模型和場景預(yù)測模塊連接。

10、進(jìn)一步，步驟s2，所述將觀測圖像和用戶指令輸入到預(yù)設(shè)的航點(diǎn)感知世界模型，所述航點(diǎn)感知世界模型得到機(jī)器人路徑點(diǎn)信息，包括；

11、s2.1：將機(jī)器人當(dāng)前的觀測圖像和用戶指令合并作為第一輸入，將第一輸入輸入到預(yù)訓(xùn)練的視覺語言模型，得到機(jī)器人的路徑點(diǎn)提示；

12、s2.2：對所述機(jī)器人的路徑點(diǎn)提示進(jìn)行文本編碼，得到編碼后的路徑點(diǎn)提示；

13、s2.3：將機(jī)器人的歷史觀測圖像經(jīng)過圖像編碼作為第二輸入；

14、s2.4：將編碼后的路徑點(diǎn)提示和第二輸入輸入至場景預(yù)測模塊，得到機(jī)器人路徑點(diǎn)信息。

15、進(jìn)一步，步驟s3中，根據(jù)機(jī)器人路徑點(diǎn)信息和機(jī)器人狀態(tài)信息通過預(yù)設(shè)的動作預(yù)測模塊得到機(jī)器人的動作信息，包括：

16、將機(jī)器人狀態(tài)信息輸入至預(yù)設(shè)的多層感知機(jī)，得到輸出結(jié)果，所述輸出結(jié)果與所述第二輸入合并作為第三輸入并輸入到預(yù)設(shè)的動作預(yù)測模塊，通過動作預(yù)測模塊得到機(jī)器人的動作信息。

17、進(jìn)一步，所述第一輸入和第二輸入輸入航點(diǎn)感知世界模型或動作預(yù)測模塊前，還經(jīng)過所述異步分層執(zhí)行器。

18、進(jìn)一步，所述場景預(yù)測模塊包括第一自注意力模塊、第一交叉注意力模塊和第一前饋網(wǎng)絡(luò)，所述第一自注意力模塊、第一交叉注意力模塊和第一前饋網(wǎng)絡(luò)依次相連，所述歷史觀測圖像的路徑點(diǎn)特征輸入到第一自注意力模塊中，得到第一自注意力模塊的輸出，將路徑點(diǎn)提示和第一自注意力模塊的輸出輸入到第一交叉注意力模塊，得到第一交叉注意力模塊的輸出，將第一交叉注意力模塊的輸出輸入第一前饋網(wǎng)絡(luò)，得到所述機(jī)器人路徑點(diǎn)信息。

19、進(jìn)一步，所述動作預(yù)測模塊包括第二自注意力模塊、第二交叉注意力模塊和第二前饋網(wǎng)絡(luò)，所述第二自注意力模塊、第二交叉注意力模塊和第二前饋網(wǎng)絡(luò)依次相連，將多層感知機(jī)處理后的機(jī)器人操作信息和歷史觀測圖像的路徑點(diǎn)特征輸入第二自注意力模塊，得到第二自注意力模塊的輸出，將第二自注意力模塊的輸出和路徑點(diǎn)特征輸入第二交叉注意力模塊，得到第二交叉注意力模塊的輸出，將第二交叉注意力模塊的輸出輸入到第二前饋網(wǎng)絡(luò)，得到操作機(jī)器人的動作軌跡。

20、進(jìn)一步，所述異步分層執(zhí)行器分別執(zhí)行視覺語言模型、場景預(yù)測模塊、動作預(yù)測模塊的輸入信息和用戶指令解析，在執(zhí)行過程中，所述異步分層執(zhí)行器返回上一輪的用戶指令解析、場景預(yù)測模塊和動作預(yù)測模塊的執(zhí)行結(jié)果，在執(zhí)行結(jié)束后，所述異步分層執(zhí)行器返回當(dāng)前的用戶指令解析、場景預(yù)測模塊和動作預(yù)測模塊的執(zhí)行結(jié)果。

21、進(jìn)一步，步驟s4中，所述操作機(jī)器人的動作軌跡包括：

22、tra＝{l,[o1,s1,a1,m1],...,[ot,st,at,mt]}

23、式中，tra為操作機(jī)器人的動作軌跡，l為用戶指令，o1,...,ot為歷史觀測圖像，s1,...,st為機(jī)器人狀態(tài)信息，a1,...,at為機(jī)器人的動作信息，m1,...,mt為機(jī)器人路徑點(diǎn)信息，t為時間步長度。

24、一種基于航點(diǎn)感知世界模型的機(jī)器人操作系統(tǒng)，應(yīng)用于所述的機(jī)器人操作方法，包括：

25、機(jī)器人操作信息獲取模塊，用于獲取機(jī)器人操作信息，所述機(jī)器人操作信息包括觀測圖像、機(jī)器人狀態(tài)信息和用戶指令；

26、機(jī)器人路徑點(diǎn)信息獲取模塊，用于將觀測圖像和用戶指令輸入到預(yù)設(shè)的航點(diǎn)感知世界模型，所述航點(diǎn)感知世界模型得到機(jī)器人路徑點(diǎn)信息；

27、機(jī)器人動作信息獲得模塊，用于根據(jù)機(jī)器人路徑點(diǎn)信息和機(jī)器人狀態(tài)信息通過預(yù)設(shè)的動作預(yù)測模塊得到機(jī)器人動作信息；

28、機(jī)器人的動作軌跡獲取模塊，用于將所述機(jī)器人動作信息和機(jī)器人路徑點(diǎn)信息合并，得到操作機(jī)器人的動作軌跡。

29、與現(xiàn)有技術(shù)相比，本發(fā)明技術(shù)方案的有益效果是：

30、本發(fā)明首先收集機(jī)器人的操作信息，包括觀測到的圖像、機(jī)器人的當(dāng)前狀態(tài)信息以及用戶給出的指令，操作信息被輸入到一個預(yù)設(shè)的航點(diǎn)感知世界模型中，得到機(jī)器人的路徑點(diǎn)信息，路徑點(diǎn)信息和機(jī)器人的狀態(tài)信息通過一個預(yù)設(shè)的動作預(yù)測模塊計(jì)算出機(jī)器人應(yīng)采取的動作信息。最后，將計(jì)算得到的機(jī)器人動作信息與路徑點(diǎn)信息合并，生成并輸出操作機(jī)器人的完整動作軌跡。本發(fā)明基于航點(diǎn)感知世界模型顯著提升機(jī)器人的操控能力，能夠更好地理解和預(yù)測動態(tài)環(huán)境。

技術(shù)特征：

1.一種基于航點(diǎn)感知世界模型的機(jī)器人操作方法，其特征在于，包括以下步驟：

2.根據(jù)權(quán)利要求1所述的基于航點(diǎn)感知世界模型的機(jī)器人操作方法，其特征在于，所述航點(diǎn)感知世界模型包括預(yù)訓(xùn)練的視覺語言模型和場景預(yù)測模塊，所述預(yù)訓(xùn)練的視覺語言模型和場景預(yù)測模塊連接。

3.根據(jù)權(quán)利要求2所述的基于航點(diǎn)感知世界模型的機(jī)器人操作方法，其特征在于，步驟s2，所述將觀測圖像和用戶指令輸入到預(yù)設(shè)的航點(diǎn)感知世界模型，所述航點(diǎn)感知世界模型得到機(jī)器人路徑點(diǎn)信息，包括；

4.根據(jù)權(quán)利要求3所述的基于航點(diǎn)感知世界模型的機(jī)器人操作方法，其特征在于，步驟s3中，根據(jù)機(jī)器人路徑點(diǎn)信息和機(jī)器人狀態(tài)信息通過預(yù)設(shè)的動作預(yù)測模塊得到機(jī)器人的動作信息，包括：

5.根據(jù)權(quán)利要求4所述的基于航點(diǎn)感知世界模型的機(jī)器人操作方法，其特征在于，所述第一輸入和第二輸入輸入航點(diǎn)感知世界模型或動作預(yù)測模塊前，還經(jīng)過所述異步分層執(zhí)行器。

6.根據(jù)權(quán)利要求3所述的基于航點(diǎn)感知世界模型的機(jī)器人操作方法，其特征在于，所述場景預(yù)測模塊包括第一自注意力模塊、第一交叉注意力模塊和第一前饋網(wǎng)絡(luò)，所述第一自注意力模塊、第一交叉注意力模塊和第一前饋網(wǎng)絡(luò)依次相連，所述歷史觀測圖像的路徑點(diǎn)特征輸入到第一自注意力模塊中，得到第一自注意力模塊的輸出，將路徑點(diǎn)提示和第一自注意力模塊的輸出輸入到第一交叉注意力模塊，得到第一交叉注意力模塊的輸出，將第一交叉注意力模塊的輸出輸入第一前饋網(wǎng)絡(luò)，得到所述機(jī)器人路徑點(diǎn)信息。

7.根據(jù)權(quán)利要求6所述的基于航點(diǎn)感知世界模型的機(jī)器人操作方法，其特征在于，所述動作預(yù)測模塊包括第二自注意力模塊、第二交叉注意力模塊和第二前饋網(wǎng)絡(luò)，所述第二自注意力模塊、第二交叉注意力模塊和第二前饋網(wǎng)絡(luò)依次相連，將多層感知機(jī)處理后的機(jī)器人操作信息和歷史觀測圖像的路徑點(diǎn)特征輸入第二自注意力模塊，得到第二自注意力模塊的輸出，將第二自注意力模塊的輸出和路徑點(diǎn)特征輸入第二交叉注意力模塊，得到第二交叉注意力模塊的輸出，將第二交叉注意力模塊的輸出輸入到第二前饋網(wǎng)絡(luò)，得到操作機(jī)器人的動作軌跡。

8.根據(jù)權(quán)利要求5所述的基于航點(diǎn)感知世界模型的機(jī)器人操作方法，其特征在于，所述異步分層執(zhí)行器分別執(zhí)行視覺語言模型、場景預(yù)測模塊、動作預(yù)測模塊的輸入信息和用戶指令解析，在執(zhí)行過程中，所述異步分層執(zhí)行器返回上一輪的用戶指令解析、場景預(yù)測模塊和動作預(yù)測模塊的執(zhí)行結(jié)果，在執(zhí)行結(jié)束后，所述異步分層執(zhí)行器返回當(dāng)前的用戶指令解析、場景預(yù)測模塊和動作預(yù)測模塊的執(zhí)行結(jié)果。

9.根據(jù)權(quán)利要求7所述的基于航點(diǎn)感知世界模型的機(jī)器人操作方法，其特征在于，步驟s4中，所述操作機(jī)器人的動作軌跡包括：

10.一種基于航點(diǎn)感知世界模型的機(jī)器人操作系統(tǒng)，其特征在于，應(yīng)用于如權(quán)利要求1至9任一項(xiàng)所述的機(jī)器人操作方法，包括：

技術(shù)總結(jié)
本發(fā)明涉及機(jī)器人的操作和深度學(xué)習(xí)的模型算法設(shè)計(jì)領(lǐng)域，具體地，涉及一種基于航點(diǎn)感知世界模型的機(jī)器人操作方法和系統(tǒng)，本發(fā)明首先收集機(jī)器人的操作信息，包括觀測圖像、機(jī)器人的當(dāng)前狀態(tài)信息以及用戶給出的指令，操作信息輸入到預(yù)設(shè)的航點(diǎn)感知世界模型中，該模型基于輸入生成機(jī)器人的路徑點(diǎn)信息，將路徑點(diǎn)信息和機(jī)器人的狀態(tài)信息通過預(yù)設(shè)的動作預(yù)測模塊計(jì)算出機(jī)器人的動作信息，將計(jì)算得到的機(jī)器人動作信息與路徑點(diǎn)信息合并，生成并輸出操作機(jī)器人的完整動作軌跡，本發(fā)明中的航點(diǎn)感知世界模型捕獲關(guān)鍵信息，并在變化的場景中保持了良好的泛化能力。

技術(shù)研發(fā)人員：梁小丹,張凱東,任鵬真
受保護(hù)的技術(shù)使用者：中山大學(xué)
技術(shù)研發(fā)日：
技術(shù)公布日：2025/1/6

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：梁小丹,張凱東,任鵬真
技術(shù)所有人：中山大學(xué)
我是此專利的發(fā)明人

上一篇：止血夾縮減長度的部署機(jī)構(gòu)的制作方法
上一篇：一種商品采購管理系統(tǒng)的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、唐老師：1.高效節(jié)能裝備 2.流動穩(wěn)定性 3.汽車流場分析和淀粉糖工藝技術(shù)。
2、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設(shè)計(jì) 2.汽車檢測系統(tǒng)設(shè)計(jì) 3.汽車電子控制系統(tǒng)設(shè)計(jì)
3、王老師：電子信息處理、先進(jìn)檢測方法和智能化儀表
4、周老師：1.智能電網(wǎng) 2.新能源利用 3.泛在電力物聯(lián)網(wǎng)
5、趙老師：檢測與控制技術(shù)、機(jī)器人技術(shù)、機(jī)電一體化技術(shù)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于航點(diǎn)感知世界模型的機(jī)器人操作方法和系統(tǒng)