基于Transformer構(gòu)建樣本高效世界模型的方法及裝置與流程

文檔序號：40655373發(fā)布日期：2025-01-10 19:05閱讀：5來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于人工智能領(lǐng)域，尤其是一種基于transformer構(gòu)建樣本高效世界模型的方法及裝置。

背景技術(shù)：

1、在復(fù)雜環(huán)境下的智能控制領(lǐng)域，構(gòu)建準(zhǔn)確高效的世界模型對于實現(xiàn)長期規(guī)劃和決策優(yōu)化具有重要意義。世界模型通過學(xué)習(xí)環(huán)境動態(tài)特性，可以預(yù)測智能體動作的長期后果，為策略優(yōu)化提供可靠的仿真環(huán)境，從而減少與實際環(huán)境的交互成本。特別是在工業(yè)控制、機器人操作等實際場景中，由于實物實驗成本高昂且存在安全風(fēng)險，基于世界模型的離線策略優(yōu)化方法顯得尤為重要。同時，世界模型還能夠通過對環(huán)境動態(tài)的建模，幫助智能體理解環(huán)境中的因果關(guān)系和長期依賴特性，為實現(xiàn)可解釋的決策控制提供重要支持。

2、目前，研究人員提出了多種世界模型構(gòu)建方法?；谘h(huán)神經(jīng)網(wǎng)絡(luò)(rnn)的方法通過循環(huán)結(jié)構(gòu)建模時序依賴，但在處理長期依賴關(guān)系時存在梯度消失問題?；谧兎肿跃幋a器(vae)的方法通過隱變量空間實現(xiàn)狀態(tài)表征的壓縮，但難以保持狀態(tài)空間的拓撲結(jié)構(gòu)特性。基于生成對抗網(wǎng)絡(luò)(gan)的方法能夠生成高質(zhì)量的狀態(tài)預(yù)測，但訓(xùn)練過程不穩(wěn)定且容易出現(xiàn)模式崩塌。傳統(tǒng)的基于高斯過程的概率世界模型雖然能夠評估預(yù)測的不確定性，但計算復(fù)雜度隨數(shù)據(jù)量增長呈平方關(guān)系，難以應(yīng)用于大規(guī)模問題。

3、現(xiàn)有的世界模型構(gòu)建方法存在以下具體技術(shù)問題：在狀態(tài)表征方面，現(xiàn)有方法往往采用單一尺度的特征提取策略，難以同時捕獲狀態(tài)空間中的局部細節(jié)特征和全局結(jié)構(gòu)特征，導(dǎo)致狀態(tài)表征的信息不完整。在動態(tài)建模層面，現(xiàn)有方法主要關(guān)注變量間的相關(guān)性，忽視了因果關(guān)系的建模，難以準(zhǔn)確識別環(huán)境中的因果結(jié)構(gòu)，影響預(yù)測的可靠性和可解釋性。在預(yù)測方面，現(xiàn)有方法往往采用單一的預(yù)測模型，缺乏對預(yù)測不確定性的系統(tǒng)評估，難以為策略優(yōu)化提供可靠的風(fēng)險評估信息。在樣本利用方面，現(xiàn)有方法通常簡單地將所有歷史數(shù)據(jù)等權(quán)重處理，沒有考慮樣本的重要性差異，導(dǎo)致學(xué)習(xí)效率低下。在模型優(yōu)化方面，缺乏有效的參數(shù)調(diào)優(yōu)機制，難以根據(jù)性能評估結(jié)果自適應(yīng)地調(diào)整學(xué)習(xí)策略，影響模型的持續(xù)優(yōu)化能力。這些技術(shù)問題嚴重制約了世界模型在實際應(yīng)用中的性能和效果。

技術(shù)實現(xiàn)思路

1、發(fā)明目的，提供一種基于transformer構(gòu)建樣本高效世界模型的方法及裝置，以解決現(xiàn)有技術(shù)存在的上述問題。

2、技術(shù)方案，基于transformer構(gòu)建樣本高效世界模型的方法，包括如下步驟：

3、s0、從預(yù)設(shè)的經(jīng)驗回放存儲器中讀取按時間戳排序的歷史交互數(shù)據(jù)，將歷史交互數(shù)據(jù)分離得到歷史動作序列數(shù)據(jù)和歷史原始狀態(tài)數(shù)據(jù)；其中歷史交互數(shù)據(jù)包括物體狀態(tài)信息、物體相對位置以及離散的動作空間；

4、s1、采集當(dāng)前時刻的原始狀態(tài)數(shù)據(jù)，將當(dāng)前時刻的原始狀態(tài)數(shù)據(jù)和歷史原始狀態(tài)數(shù)據(jù)分別轉(zhuǎn)換為多尺度特征數(shù)據(jù)；對多尺度特征數(shù)據(jù)進行去噪增強處理，生成增強狀態(tài)數(shù)據(jù)；將增強狀態(tài)數(shù)據(jù)進行自適應(yīng)量化編碼，分別得到當(dāng)前離散潛變量數(shù)據(jù)和歷史離散潛變量數(shù)據(jù)；

5、s2、基于當(dāng)前離散潛變量數(shù)據(jù)、歷史離散潛變量數(shù)據(jù)和歷史動作序列數(shù)據(jù)，構(gòu)建因果結(jié)構(gòu)數(shù)據(jù)；基于因果結(jié)構(gòu)數(shù)據(jù)，構(gòu)建注意力權(quán)重，生成因果增強表征數(shù)據(jù)；基于因果增強表征數(shù)據(jù)，預(yù)測環(huán)境動態(tài)，輸出狀態(tài)預(yù)測數(shù)據(jù)；

6、s3、基于狀態(tài)預(yù)測數(shù)據(jù)和歷史離散潛變量數(shù)據(jù)，構(gòu)建時序關(guān)聯(lián)數(shù)據(jù)；基于時序關(guān)聯(lián)數(shù)據(jù)，計算不確定性數(shù)據(jù)；基于狀態(tài)預(yù)測數(shù)據(jù)和不確定性數(shù)據(jù)，生成多步預(yù)測序列數(shù)據(jù)；

7、s4、基于多步預(yù)測序列數(shù)據(jù)和歷史動作序列數(shù)據(jù)，將預(yù)設(shè)長期預(yù)測目標(biāo)分解得到分層價值數(shù)據(jù)；基于分層價值數(shù)據(jù)，計算策略梯度數(shù)據(jù)；基于策略梯度數(shù)據(jù)，更新當(dāng)前策略，得到優(yōu)化策略數(shù)據(jù)；

8、s5、獲取當(dāng)前動作數(shù)據(jù)和當(dāng)前狀態(tài)數(shù)據(jù)，將當(dāng)前動作數(shù)據(jù)和當(dāng)前狀態(tài)數(shù)據(jù)組合，形成新交互數(shù)據(jù)；基于優(yōu)化策略數(shù)據(jù)，對新交互數(shù)據(jù)進行篩選，得到優(yōu)質(zhì)樣本數(shù)據(jù)；基于優(yōu)質(zhì)樣本數(shù)據(jù)，生成更新模型數(shù)據(jù)；對更新模型數(shù)據(jù)進行性能評估，輸出模型調(diào)優(yōu)數(shù)據(jù)。

9、基于transformer構(gòu)建樣本高效世界模型的裝置，包括：

10、至少一個處理器；以及，

11、與至少一個所述處理器通信連接的存儲器；其中，

12、所述存儲器存儲有可被所述處理器執(zhí)行的指令，所述指令用于被所述處理器執(zhí)行以實現(xiàn)所述的基于transformer構(gòu)建樣本高效世界模型的方法。

13、有益效果，本發(fā)明確保了狀態(tài)表示的完整性和高效性，提高了狀態(tài)預(yù)測的準(zhǔn)確性和可解釋性，實現(xiàn)了穩(wěn)定且高效的策略學(xué)習(xí)；通過自適應(yīng)的模型調(diào)優(yōu)機制，能夠持續(xù)優(yōu)化性能并適應(yīng)環(huán)境變化，不僅提升了樣本利用效率，還增強了模型的泛化能力和魯棒性，為復(fù)雜環(huán)境下的決策控制提供了可靠的技術(shù)支持。

技術(shù)特征：

1.基于transformer構(gòu)建樣本高效世界模型的方法，其特征在于，包括如下步驟：

2.根據(jù)權(quán)利要求1所述的基于transformer構(gòu)建樣本高效世界模型的方法，其特征在于，步驟s1進一步為：

3.根據(jù)權(quán)利要求2所述的基于transformer構(gòu)建樣本高效世界模型的方法，其特征在于，步驟s2進一步為：

4.根據(jù)權(quán)利要求3所述的基于transformer構(gòu)建樣本高效世界模型的方法，其特征在于，步驟s3進一步為：

5.根據(jù)權(quán)利要求4所述的基于transformer構(gòu)建樣本高效世界模型的方法，其特征在于，步驟s4進一步為：

6.根據(jù)權(quán)利要求5所述的基于transformer構(gòu)建樣本高效世界模型的方法，其特征在于，步驟s5進一步為：

7.根據(jù)權(quán)利要求6所述的基于transformer構(gòu)建樣本高效世界模型的方法，其特征在于，步驟s11進一步為：

8.根據(jù)權(quán)利要求6所述的基于transformer構(gòu)建樣本高效世界模型的方法，其特征在于，步驟s21進一步為：

9.根據(jù)權(quán)利要求6所述的基于transformer構(gòu)建樣本高效世界模型的方法，其特征在于，步驟s32進一步為：

10.基于transformer構(gòu)建樣本高效世界模型的裝置，其特征在于，包括：

技術(shù)總結(jié)
本發(fā)明公開了一種基于Transformer構(gòu)建樣本高效世界模型的方法及裝置，該方法包括將歷史交互數(shù)據(jù)分離得到歷史動作序列數(shù)據(jù)和歷史原始狀態(tài)數(shù)據(jù)；將原始狀態(tài)數(shù)據(jù)轉(zhuǎn)換為多尺度特征數(shù)據(jù)并進行去噪增強處理，生成增強狀態(tài)數(shù)據(jù)；對增強狀態(tài)數(shù)據(jù)進行自適應(yīng)量化編碼得到離散潛變量數(shù)據(jù)；基于歷史數(shù)據(jù)構(gòu)建因果結(jié)構(gòu)數(shù)據(jù)并設(shè)計注意力權(quán)重，生成因果增強表征數(shù)據(jù)；基于時序關(guān)聯(lián)數(shù)據(jù)計算不確定性數(shù)據(jù)并生成多步預(yù)測序列數(shù)據(jù)；將長期預(yù)測目標(biāo)分解得到分層價值數(shù)據(jù)并計算策略梯度數(shù)據(jù)；對新交互數(shù)據(jù)進行篩選并更新模型參數(shù)。本發(fā)明通過多尺度特征提取、因果結(jié)構(gòu)學(xué)習(xí)和分層價值評估等方法，提高了世界模型的預(yù)測準(zhǔn)確性和樣本利用效率。

技術(shù)研發(fā)人員：蘇雙,張希,吳瀚鵬,安泉
受保護的技術(shù)使用者：中科南京人工智能創(chuàng)新研究院
技術(shù)研發(fā)日：
技術(shù)公布日：2025/1/9

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：蘇雙,張希,吳瀚鵬,安泉
技術(shù)所有人：中科南京人工智能創(chuàng)新研究院
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于Transformer構(gòu)建樣本高效世界模型的方法及裝置與流程