離線元強化學(xué)習(xí)模型訓(xùn)練方法、裝置、設(shè)備、介質(zhì)及產(chǎn)品

文檔序號：40583435發(fā)布日期：2025-01-07 20:23閱讀：8來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及人工智能，尤其涉及一種離線元強化學(xué)習(xí)模型訓(xùn)練方法、裝置、設(shè)備、介質(zhì)及產(chǎn)品。

背景技術(shù)：

1、離線元強化學(xué)習(xí)（offline?meta-reinforcement?learning，omrl）模型通過使用離線數(shù)據(jù)集降低了訓(xùn)練期間與環(huán)境數(shù)據(jù)交互的成本，同時具有泛化到新任務(wù)的能力，因此，在需要收集足夠多且不易獲取的探索性交互數(shù)據(jù)的領(lǐng)域（例如醫(yī)療保健、自動駕駛、智能機器人等），具有重要的實用價值。

2、然而，當(dāng)前omrl模型仍面臨上下文轉(zhuǎn)移問題，即用于生成離線數(shù)據(jù)集的行為策略上下文與當(dāng)前訓(xùn)練過程中的策略生成上下文之間的分布差異。一方面，上下文轉(zhuǎn)移會導(dǎo)致對q函數(shù)的過高估計，進而損害策略學(xué)習(xí)的質(zhì)量和泛化到新任務(wù)的效果。另一方面，上下文轉(zhuǎn)移影響策略進行任務(wù)推斷的能力。

3、現(xiàn)有的omrl模型對轉(zhuǎn)換元組進行編碼以獲得嵌入向量，旨在通過最小化相同任務(wù)的嵌入向量之間的距離，同時最大化不同任務(wù)的嵌入向量之間的距離來區(qū)分任務(wù)。然而，這種方法往往忽略了任務(wù)間相似性的異質(zhì)性，阻礙了元策略對共性知識的有效提取，進而影響了任務(wù)推理的魯棒性。

技術(shù)實現(xiàn)思路

1、本發(fā)明提供一種離線元強化學(xué)習(xí)模型訓(xùn)練方法、裝置、設(shè)備、介質(zhì)及產(chǎn)品，用以解決現(xiàn)有技術(shù)中離線元強化學(xué)習(xí)模型的性能表現(xiàn)、魯棒性差和泛化能力差的缺陷，實現(xiàn)增強離線元強化學(xué)習(xí)模型的性能表現(xiàn)、魯棒性和泛化能力。

2、本發(fā)明提供一種離線元強化學(xué)習(xí)模型訓(xùn)練方法，包括：

3、基于不同訓(xùn)練任務(wù)之間的相似度，對上下文編碼器進行訓(xùn)練，以最小化相似度高于閾值的訓(xùn)練任務(wù)對應(yīng)的表示向量之間的距離，最大化相似度低于所述閾值的訓(xùn)練任務(wù)對應(yīng)的表示向量之間的距離；

4、基于保守q學(xué)習(xí)，對q函數(shù)網(wǎng)絡(luò)進行訓(xùn)練，以在最小化標(biāo)準(zhǔn)貝爾曼誤差的同時，最小化訓(xùn)練策略對應(yīng)的q值與行為策略對應(yīng)的q值之間的差距；

5、基于行為正則化演員評判家brac，對策略網(wǎng)絡(luò)進行訓(xùn)練，以限制訓(xùn)練策略與行為策略之間的差異；

6、根據(jù)訓(xùn)練好的所述上下文編碼器、訓(xùn)練好的所述q函數(shù)網(wǎng)絡(luò)和訓(xùn)練好的所述策略網(wǎng)絡(luò)，得到訓(xùn)練好的離線元強化學(xué)習(xí)模型。

7、在一些實施例中，所述基于不同訓(xùn)練任務(wù)之間的相似度，對上下文編碼器進行訓(xùn)練，包括：

8、在距離度量學(xué)習(xí)損失函數(shù)的基礎(chǔ)上，融入不同訓(xùn)練任務(wù)之間的相似度，構(gòu)建第一損失函數(shù)；

9、基于所述第一損失函數(shù)，對所述上下文編碼器進行訓(xùn)練。

10、在一些實施例中，所述在距離度量學(xué)習(xí)損失函數(shù)的基礎(chǔ)上，融入不同訓(xùn)練任務(wù)之間的相似度，構(gòu)建第一損失函數(shù)之前，還包括：

11、從離線數(shù)據(jù)集中采樣包含任務(wù)信息的訓(xùn)練任務(wù)，并提取各訓(xùn)練任務(wù)的屬性特征；

12、根據(jù)各訓(xùn)練任務(wù)的屬性特征，計算不同訓(xùn)練任務(wù)之間的屬性距離；

13、將不同訓(xùn)練任務(wù)之間的屬性距離，確定為不同訓(xùn)練任務(wù)之間的相似度。

14、在一些實施例中，所述基于保守q學(xué)習(xí)，對q函數(shù)網(wǎng)絡(luò)進行訓(xùn)練，包括：

15、在標(biāo)準(zhǔn)貝爾曼誤差函數(shù)的基礎(chǔ)上，結(jié)合訓(xùn)練策略對應(yīng)的q值與行為策略對應(yīng)的q值之間的差距，構(gòu)建第二損失函數(shù)；所述保守q學(xué)習(xí)對所述訓(xùn)練策略對應(yīng)的q值進行最小化，對所述行為策略對應(yīng)的q值進行最大化；

16、基于所述第二損失函數(shù)，對所述q函數(shù)網(wǎng)絡(luò)進行訓(xùn)練。

17、在一些實施例中，所述基于brac，對策略網(wǎng)絡(luò)進行訓(xùn)練，包括：

18、基于狀態(tài)價值函數(shù)對狀態(tài)的期望，結(jié)合訓(xùn)練策略與行為策略之間的kl散度，構(gòu)建第三損失函數(shù)；

19、基于所述第三損失函數(shù)，對所述策略網(wǎng)絡(luò)進行訓(xùn)練。

20、本發(fā)明還提供一種離線元強化學(xué)習(xí)模型訓(xùn)練裝置，包括：

21、第一訓(xùn)練模塊，用于基于不同訓(xùn)練任務(wù)之間的相似度，對上下文編碼器進行訓(xùn)練，以最小化相似度高于閾值的訓(xùn)練任務(wù)對應(yīng)的表示向量之間的距離，最大化相似度低于所述閾值的訓(xùn)練任務(wù)對應(yīng)的表示向量之間的距離；

22、第二訓(xùn)練模塊，用于基于保守q學(xué)習(xí)，對q函數(shù)網(wǎng)絡(luò)進行訓(xùn)練，在最小化標(biāo)準(zhǔn)貝爾曼誤差的同時，最小化訓(xùn)練策略對應(yīng)的q值與行為策略對應(yīng)的q值之間的差距；

23、第三訓(xùn)練模塊，用于基于brac，對策略網(wǎng)絡(luò)進行訓(xùn)練，以限制訓(xùn)練策略與行為策略之間的差異；

24、獲取模塊，用于根據(jù)訓(xùn)練好的所述上下文編碼器、訓(xùn)練好的所述q函數(shù)網(wǎng)絡(luò)和訓(xùn)練好的所述策略網(wǎng)絡(luò)，得到訓(xùn)練好的離線元強化學(xué)習(xí)模型。

25、在一些實施例中，所述第一訓(xùn)練模塊包括：

26、第一構(gòu)建單元，用于在距離度量學(xué)習(xí)損失函數(shù)的基礎(chǔ)上，融入不同訓(xùn)練任務(wù)之間的相似度，構(gòu)建第一損失函數(shù)；

27、第一訓(xùn)練單元，用于基于所述第一損失函數(shù)，對所述上下文編碼器進行訓(xùn)練。

28、本發(fā)明還提供一種電子設(shè)備，包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序，所述處理器執(zhí)行所述計算機程序時實現(xiàn)如上述任一種所述離線元強化學(xué)習(xí)模型訓(xùn)練方法。

29、本發(fā)明還提供一種非暫態(tài)計算機可讀存儲介質(zhì)，其上存儲有計算機程序，該計算機程序被處理器執(zhí)行時實現(xiàn)如上述任一種所述離線元強化學(xué)習(xí)模型訓(xùn)練方法。

30、本發(fā)明還提供一種計算機程序產(chǎn)品，包括計算機程序，所述計算機程序被處理器執(zhí)行時實現(xiàn)如上述任一種所述離線元強化學(xué)習(xí)模型訓(xùn)練方法。

31、本發(fā)明提供的離線元強化學(xué)習(xí)模型訓(xùn)練方法、裝置、設(shè)備、介質(zhì)及產(chǎn)品，通過不同訓(xùn)練任務(wù)之間的相似度，增強了上下文編碼器的魯棒性和泛化能力，通過引入保守q學(xué)習(xí)，緩解q值函數(shù)高估的問題，通過行為正則化，對訓(xùn)練策略的偏移進行控制，從而實現(xiàn)增強離線元強化學(xué)習(xí)模型的性能表現(xiàn)、魯棒性和泛化能力。

技術(shù)特征：

1.一種離線元強化學(xué)習(xí)模型訓(xùn)練方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的離線元強化學(xué)習(xí)模型訓(xùn)練方法，其特征在于，所述基于不同訓(xùn)練任務(wù)之間的相似度，對上下文編碼器進行訓(xùn)練，包括：

3.根據(jù)權(quán)利要求2所述的離線元強化學(xué)習(xí)模型訓(xùn)練方法，其特征在于，所述在距離度量學(xué)習(xí)損失函數(shù)的基礎(chǔ)上，融入不同訓(xùn)練任務(wù)之間的相似度，構(gòu)建第一損失函數(shù)之前，還包括：

4.根據(jù)權(quán)利要求1所述的離線元強化學(xué)習(xí)模型訓(xùn)練方法，其特征在于，所述基于保守q學(xué)習(xí)，對q函數(shù)網(wǎng)絡(luò)進行訓(xùn)練，包括：

5.根據(jù)權(quán)利要求1所述的離線元強化學(xué)習(xí)模型訓(xùn)練方法，其特征在于，所述基于行為正則化演員評判家brac，對策略網(wǎng)絡(luò)進行訓(xùn)練，包括：

6.一種離線元強化學(xué)習(xí)模型訓(xùn)練裝置，其特征在于，包括：

7.根據(jù)權(quán)利要求6所述的離線元強化學(xué)習(xí)模型訓(xùn)練裝置，其特征在于，所述第一訓(xùn)練模塊包括：

8.一種電子設(shè)備，包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序，其特征在于，所述處理器執(zhí)行所述計算機程序時實現(xiàn)如權(quán)利要求1至5任一項所述離線元強化學(xué)習(xí)模型訓(xùn)練方法。

9.一種非暫態(tài)計算機可讀存儲介質(zhì)，其上存儲有計算機程序，其特征在于，所述計算機程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至5任一項所述離線元強化學(xué)習(xí)模型訓(xùn)練方法。

10.一種計算機程序產(chǎn)品，包括計算機程序，其特征在于，所述計算機程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至5任一項所述離線元強化學(xué)習(xí)模型訓(xùn)練方法。

技術(shù)總結(jié)
本發(fā)明提供一種離線元強化學(xué)習(xí)模型訓(xùn)練方法、裝置、設(shè)備、介質(zhì)及產(chǎn)品，涉及人工智能技術(shù)領(lǐng)域，方法包括：基于不同訓(xùn)練任務(wù)之間的相似度對上下文編碼器進行訓(xùn)練，以最小化相似度高于閾值的訓(xùn)練任務(wù)的表示向量之間的距離，最大化相似度低于閾值的訓(xùn)練任務(wù)的表示向量之間的距離；基于保守Q學(xué)習(xí)對Q函數(shù)網(wǎng)絡(luò)進行訓(xùn)練，以最小化標(biāo)準(zhǔn)貝爾曼誤差，和最小化訓(xùn)練策略對應(yīng)的Q值與行為策略對應(yīng)的Q值之間的差距；基于行為正則化演員評判家對策略網(wǎng)絡(luò)進行訓(xùn)練，以限制訓(xùn)練策略與行為策略之間的差異；根據(jù)訓(xùn)練好的上下文編碼器、Q函數(shù)網(wǎng)絡(luò)和策略網(wǎng)絡(luò)，得到訓(xùn)練好的離線元強化學(xué)習(xí)模型。本發(fā)明實現(xiàn)增強離線元強化學(xué)習(xí)模型的性能表現(xiàn)、魯棒性和泛化能力。

技術(shù)研發(fā)人員：李浩銳,梁嘉琦,李林靜,白潔,曾大軍
受保護的技術(shù)使用者：中國科學(xué)院自動化研究所
技術(shù)研發(fā)日：
技術(shù)公布日：2025/1/6

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李浩銳,梁嘉琦,李林靜,白潔,曾大軍
技術(shù)所有人：中國科學(xué)院自動化研究所
我是此專利的發(fā)明人

上一篇：一種安全帶的切割設(shè)備的制作方法
上一篇：一種防銹型輪輞的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

離線元強化學(xué)習(xí)模型訓(xùn)練方法、裝置、設(shè)備、介質(zhì)及產(chǎn)品

離線元強化學(xué)習(xí)模型訓(xùn)練方法、裝置、設(shè)備、介質(zhì)及產(chǎn)品