本發(fā)明屬于人工智能領(lǐng)域,尤其是一種基于transformer構(gòu)建樣本高效世界模型的方法及裝置。
背景技術(shù):
1、在復(fù)雜環(huán)境下的智能控制領(lǐng)域,構(gòu)建準(zhǔn)確高效的世界模型對于實現(xiàn)長期規(guī)劃和決策優(yōu)化具有重要意義。世界模型通過學(xué)習(xí)環(huán)境動態(tài)特性,可以預(yù)測智能體動作的長期后果,為策略優(yōu)化提供可靠的仿真環(huán)境,從而減少與實際環(huán)境的交互成本。特別是在工業(yè)控制、機器人操作等實際場景中,由于實物實驗成本高昂且存在安全風(fēng)險,基于世界模型的離線策略優(yōu)化方法顯得尤為重要。同時,世界模型還能夠通過對環(huán)境動態(tài)的建模,幫助智能體理解環(huán)境中的因果關(guān)系和長期依賴特性,為實現(xiàn)可解釋的決策控制提供重要支持。
2、目前,研究人員提出了多種世界模型構(gòu)建方法?;谘h(huán)神經(jīng)網(wǎng)絡(luò)(rnn)的方法通過循環(huán)結(jié)構(gòu)建模時序依賴,但在處理長期依賴關(guān)系時存在梯度消失問題?;谧兎肿跃幋a器(vae)的方法通過隱變量空間實現(xiàn)狀態(tài)表征的壓縮,但難以保持狀態(tài)空間的拓撲結(jié)構(gòu)特性。基于生成對抗網(wǎng)絡(luò)(gan)的方法能夠生成高質(zhì)量的狀態(tài)預(yù)測,但訓(xùn)練過程不穩(wěn)定且容易出現(xiàn)模式崩塌。傳統(tǒng)的基于高斯過程的概率世界模型雖然能夠評估預(yù)測的不確定性,但計算復(fù)雜度隨數(shù)據(jù)量增長呈平方關(guān)系,難以應(yīng)用于大規(guī)模問題。
3、現(xiàn)有的世界模型構(gòu)建方法存在以下具體技術(shù)問題:在狀態(tài)表征方面,現(xiàn)有方法往往采用單一尺度的特征提取策略,難以同時捕獲狀態(tài)空間中的局部細節(jié)特征和全局結(jié)構(gòu)特征,導(dǎo)致狀態(tài)表征的信息不完整。在動態(tài)建模層面,現(xiàn)有方法主要關(guān)注變量間的相關(guān)性,忽視了因果關(guān)系的建模,難以準(zhǔn)確識別環(huán)境中的因果結(jié)構(gòu),影響預(yù)測的可靠性和可解釋性。在預(yù)測方面,現(xiàn)有方法往往采用單一的預(yù)測模型,缺乏對預(yù)測不確定性的系統(tǒng)評估,難以為策略優(yōu)化提供可靠的風(fēng)險評估信息。在樣本利用方面,現(xiàn)有方法通常簡單地將所有歷史數(shù)據(jù)等權(quán)重處理,沒有考慮樣本的重要性差異,導(dǎo)致學(xué)習(xí)效率低下。在模型優(yōu)化方面,缺乏有效的參數(shù)調(diào)優(yōu)機制,難以根據(jù)性能評估結(jié)果自適應(yīng)地調(diào)整學(xué)習(xí)策略,影響模型的持續(xù)優(yōu)化能力。這些技術(shù)問題嚴重制約了世界模型在實際應(yīng)用中的性能和效果。
技術(shù)實現(xiàn)思路
1、發(fā)明目的,提供一種基于transformer構(gòu)建樣本高效世界模型的方法及裝置,以解決現(xiàn)有技術(shù)存在的上述問題。
2、技術(shù)方案,基于transformer構(gòu)建樣本高效世界模型的方法,包括如下步驟:
3、s0、從預(yù)設(shè)的經(jīng)驗回放存儲器中讀取按時間戳排序的歷史交互數(shù)據(jù),將歷史交互數(shù)據(jù)分離得到歷史動作序列數(shù)據(jù)和歷史原始狀態(tài)數(shù)據(jù);其中歷史交互數(shù)據(jù)包括物體狀態(tài)信息、物體相對位置以及離散的動作空間;
4、s1、采集當(dāng)前時刻的原始狀態(tài)數(shù)據(jù),將當(dāng)前時刻的原始狀態(tài)數(shù)據(jù)和歷史原始狀態(tài)數(shù)據(jù)分別轉(zhuǎn)換為多尺度特征數(shù)據(jù);對多尺度特征數(shù)據(jù)進行去噪增強處理,生成增強狀態(tài)數(shù)據(jù);將增強狀態(tài)數(shù)據(jù)進行自適應(yīng)量化編碼,分別得到當(dāng)前離散潛變量數(shù)據(jù)和歷史離散潛變量數(shù)據(jù);
5、s2、基于當(dāng)前離散潛變量數(shù)據(jù)、歷史離散潛變量數(shù)據(jù)和歷史動作序列數(shù)據(jù),構(gòu)建因果結(jié)構(gòu)數(shù)據(jù);基于因果結(jié)構(gòu)數(shù)據(jù),構(gòu)建注意力權(quán)重,生成因果增強表征數(shù)據(jù);基于因果增強表征數(shù)據(jù),預(yù)測環(huán)境動態(tài),輸出狀態(tài)預(yù)測數(shù)據(jù);
6、s3、基于狀態(tài)預(yù)測數(shù)據(jù)和歷史離散潛變量數(shù)據(jù),構(gòu)建時序關(guān)聯(lián)數(shù)據(jù);基于時序關(guān)聯(lián)數(shù)據(jù),計算不確定性數(shù)據(jù);基于狀態(tài)預(yù)測數(shù)據(jù)和不確定性數(shù)據(jù),生成多步預(yù)測序列數(shù)據(jù);
7、s4、基于多步預(yù)測序列數(shù)據(jù)和歷史動作序列數(shù)據(jù),將預(yù)設(shè)長期預(yù)測目標(biāo)分解得到分層價值數(shù)據(jù);基于分層價值數(shù)據(jù),計算策略梯度數(shù)據(jù);基于策略梯度數(shù)據(jù),更新當(dāng)前策略,得到優(yōu)化策略數(shù)據(jù);
8、s5、獲取當(dāng)前動作數(shù)據(jù)和當(dāng)前狀態(tài)數(shù)據(jù),將當(dāng)前動作數(shù)據(jù)和當(dāng)前狀態(tài)數(shù)據(jù)組合,形成新交互數(shù)據(jù);基于優(yōu)化策略數(shù)據(jù),對新交互數(shù)據(jù)進行篩選,得到優(yōu)質(zhì)樣本數(shù)據(jù);基于優(yōu)質(zhì)樣本數(shù)據(jù),生成更新模型數(shù)據(jù);對更新模型數(shù)據(jù)進行性能評估,輸出模型調(diào)優(yōu)數(shù)據(jù)。
9、基于transformer構(gòu)建樣本高效世界模型的裝置,包括:
10、至少一個處理器;以及,
11、與至少一個所述處理器通信連接的存儲器;其中,
12、所述存儲器存儲有可被所述處理器執(zhí)行的指令,所述指令用于被所述處理器執(zhí)行以實現(xiàn)所述的基于transformer構(gòu)建樣本高效世界模型的方法。
13、有益效果,本發(fā)明確保了狀態(tài)表示的完整性和高效性,提高了狀態(tài)預(yù)測的準(zhǔn)確性和可解釋性,實現(xiàn)了穩(wěn)定且高效的策略學(xué)習(xí);通過自適應(yīng)的模型調(diào)優(yōu)機制,能夠持續(xù)優(yōu)化性能并適應(yīng)環(huán)境變化,不僅提升了樣本利用效率,還增強了模型的泛化能力和魯棒性,為復(fù)雜環(huán)境下的決策控制提供了可靠的技術(shù)支持。
1.基于transformer構(gòu)建樣本高效世界模型的方法,其特征在于,包括如下步驟:
2.根據(jù)權(quán)利要求1所述的基于transformer構(gòu)建樣本高效世界模型的方法,其特征在于,步驟s1進一步為:
3.根據(jù)權(quán)利要求2所述的基于transformer構(gòu)建樣本高效世界模型的方法,其特征在于,步驟s2進一步為:
4.根據(jù)權(quán)利要求3所述的基于transformer構(gòu)建樣本高效世界模型的方法,其特征在于,步驟s3進一步為:
5.根據(jù)權(quán)利要求4所述的基于transformer構(gòu)建樣本高效世界模型的方法,其特征在于,步驟s4進一步為:
6.根據(jù)權(quán)利要求5所述的基于transformer構(gòu)建樣本高效世界模型的方法,其特征在于,步驟s5進一步為:
7.根據(jù)權(quán)利要求6所述的基于transformer構(gòu)建樣本高效世界模型的方法,其特征在于,步驟s11進一步為:
8.根據(jù)權(quán)利要求6所述的基于transformer構(gòu)建樣本高效世界模型的方法,其特征在于,步驟s21進一步為:
9.根據(jù)權(quán)利要求6所述的基于transformer構(gòu)建樣本高效世界模型的方法,其特征在于,步驟s32進一步為:
10.基于transformer構(gòu)建樣本高效世界模型的裝置,其特征在于,包括: