策略探索模型訓練方法、裝置、計算機設備及存儲介質(zhì)與流程

文檔序號：40513087發(fā)布日期：2024-12-31 13:22閱讀：10來源：國知局

本技術(shù)涉及人工智能，具體涉及一種策略探索模型訓練方法、裝置、計算機設備及存儲介質(zhì)。

背景技術(shù)：

1、隨著人工智能技術(shù)的發(fā)展，目前人類反饋強化學習(reinforcement?learningfrom?human?feedback，rlhf)成為了一種新的人工智能模型訓練方式，即可以根據(jù)人類反饋的數(shù)據(jù)來進一步訓練人工智能模型，使得人工智能模型能夠?qū)W習到人類的喜好。

2、相關(guān)技術(shù)中，需要采集標注數(shù)據(jù)集，該標注據(jù)集為人類標注后的數(shù)據(jù)集，然后通過該標注據(jù)集來訓練獎勵模型，還需要采用探索策略來獲取非標注數(shù)據(jù)繼續(xù)強化獎勵模型。最后通過訓練好的獎勵模型提供獎勵信號來幫助強化人工智能模型的學習。

3、但是，相關(guān)技術(shù)中受到探索策略的限制，無法有效地探索復雜的狀態(tài)空間或應對環(huán)境中的變化，進而無法產(chǎn)生新的數(shù)據(jù)來繼續(xù)優(yōu)化獎勵模型，最終導致獎勵模型無法根據(jù)新的數(shù)據(jù)來生成獎勵信號來強化學習人工智能模型。這樣就導致了人工智能模型無法適應于新的環(huán)境。

技術(shù)實現(xiàn)思路

1、本技術(shù)實施例提供一種策略探索模型訓練方法、裝置、計算機設備及存儲介質(zhì)，能夠使得訓練后的策略探索模型能夠基于原有探索策略來生成新的探索策略，從而提升探索策略的豐富度。

2、為了實現(xiàn)上述目的，根據(jù)本技術(shù)的一方面，本技術(shù)實施例提供了一種策略探索模型訓練方法，包括：

3、獲取標注數(shù)據(jù)集和未標注數(shù)據(jù)集，根據(jù)所述標注數(shù)據(jù)集確定出人類偏好獎勵和人類非偏好獎勵，并根據(jù)人類偏好獎勵和人類非偏好獎勵構(gòu)建獎勵模型；

4、在所述非標注數(shù)據(jù)集中確定出目標非標注數(shù)據(jù)的預設狀態(tài)，并確定所述預設狀態(tài)對應的第一探索策略；

5、獲取智能體根據(jù)所述第一探索策略以及所述預設狀態(tài)與環(huán)境交互輸出動作狀態(tài)數(shù)據(jù)集和執(zhí)行結(jié)果，并將所述執(zhí)行結(jié)果輸入到所述獎勵模型中輸出獎勵值，將所述獎勵值設置在所述動作狀態(tài)數(shù)據(jù)集中；

6、確定所述動作狀態(tài)數(shù)據(jù)集中每個動作狀態(tài)組對應的動作價值，并確定所述每個動作狀態(tài)組對應的標簽值；

7、根據(jù)所述動作價值和所述標簽值確定出所述每個動作狀態(tài)組對應的評價值，并根據(jù)預設探索策略和所述評價值對所述第一探索策略進行更新，得到更新后的第一探索策略，以實現(xiàn)所述策略探索模型的迭代訓練，重復執(zhí)行在所述非標注數(shù)據(jù)集中確定出目標非標注數(shù)據(jù)的預設狀態(tài)，直至所述策略探索模型的迭代次數(shù)滿足預設迭代次數(shù)，則所述策略探索模型訓練完成，得到訓練后的策略探索模型。

8、為了實現(xiàn)上述目的，根據(jù)本技術(shù)的一方面，本技術(shù)實施例提供了一種策略探索模型訓練裝置，包括：

9、第一獲取模塊，用于獲取標注數(shù)據(jù)集和未標注數(shù)據(jù)集，根據(jù)所述標注數(shù)據(jù)集確定出人類偏好獎勵和人類非偏好獎勵，并根據(jù)人類偏好獎勵和人類非偏好獎勵構(gòu)建獎勵模型；

10、第一確定模塊，用于在所述非標注數(shù)據(jù)集中確定出目標非標注數(shù)據(jù)的預設狀態(tài)，并確定所述預設狀態(tài)對應的第一探索策略；

11、第二獲取模塊，用于獲取智能體根據(jù)所述第一探索策略以及所述預設狀態(tài)與環(huán)境交互輸出動作狀態(tài)數(shù)據(jù)集和執(zhí)行結(jié)果，并將所述執(zhí)行結(jié)果輸入到所述獎勵模型中輸出獎勵值，將所述獎勵值設置在所述動作狀態(tài)數(shù)據(jù)集中；

12、第二確定模塊，用于確定所述動作狀態(tài)數(shù)據(jù)集中每個動作狀態(tài)組對應的動作價值，并確定所述每個動作狀態(tài)組對應的標簽值；

13、迭代模塊，用于根據(jù)所述動作價值和所述標簽值確定出所述每個動作狀態(tài)組對應的評價值，并根據(jù)預設探索策略和所述評價值對所述第一探索策略進行更新，得到更新后的第一探索策略，以實現(xiàn)所述策略探索模型的迭代訓練，重復執(zhí)行在所述非標注數(shù)據(jù)集中確定出目標非標注數(shù)據(jù)的預設狀態(tài)，直至所述策略探索模型的迭代次數(shù)滿足預設迭代次數(shù)，則所述策略探索模型訓練完成，得到訓練后的策略探索模型。

14、在一些實施方式中，第一獲取模塊，用于：

15、根據(jù)所述標注數(shù)據(jù)集確定出人類偏好的第一標注數(shù)據(jù)，并確定每個所述第一標注數(shù)據(jù)對應的總獎勵值；

16、根據(jù)每個所述第一標注數(shù)據(jù)對應的總獎勵值確定出人類偏好獎勵；

17、根據(jù)所述標注數(shù)據(jù)集確定出人類非偏好的第二標注數(shù)據(jù)，并確定每個所述第二標注數(shù)據(jù)對應的總獎勵值；

18、根據(jù)每個所述第二標注數(shù)據(jù)對應的總獎勵值確定出人類非偏好獎勵。

19、在一些實施方式中，第一獲取模塊，用于：

20、根據(jù)人類偏好獎勵和人類非偏好獎勵構(gòu)建人類偏好模型；

21、基于所述人類偏好模型構(gòu)建獎勵模型。

22、在一些實施方式中，第二獲取模塊，用于：

23、獲取智能體在所述預設狀態(tài)下根據(jù)所述第一探索策略確定出的執(zhí)行動作；

24、獲取所述智能體在所述預設狀態(tài)下根據(jù)所述執(zhí)行動作與環(huán)境交互生成的動作狀態(tài)數(shù)據(jù)集和執(zhí)行結(jié)果。

25、在一些實施方式中，第二確定模塊，用于：

26、確定所述動作狀態(tài)數(shù)據(jù)集中每個動作狀態(tài)組對應的動作、狀態(tài)和獎勵值；

27、根據(jù)所述動作和狀態(tài)確定出優(yōu)勢值和狀態(tài)值，并根據(jù)所述獎勵值、所述優(yōu)勢值和所述狀態(tài)值確定出每個動作狀態(tài)組對應的動作價值。

28、在一些實施方式中，迭代模塊，用于：

29、確定所述每個動作狀態(tài)組對應的動作價值和標簽值之差的平方值；

30、累加所述每個動作狀態(tài)組對應的平方值，得到平方值之和；

31、根據(jù)所述平方值之和以及所述動作狀態(tài)組的總數(shù)量，確定出所述每個動作狀態(tài)組對應的評價值。

32、在一些實施方式中，迭代模塊，用于：

33、確定所述每個動作狀態(tài)組對應的動作概率分布；

34、確定所述動作概率分布和預設探索策略對應的動作概率分布之間的第一kl散度；

35、確定所述動作概率分布和所述第一探索策略對應的動作概率分布之間的第二kl散度；

36、根據(jù)所述第一kl散度、所述第二kl散度和所述評價值對所述第一探索策略進行更新，得到更新后的第一探索策略。

37、在一些實施方式中，迭代模塊，用于：

38、確定所述第一kl散度對應的預設正則化參數(shù)，將所述正則化參數(shù)乘以所述第一kl散度得到第一結(jié)果；

39、確定所述第二kl散度對應的預設學習率參數(shù)，將所述第二kl散度除以所述預設學習率參數(shù)得到第二結(jié)果；

40、根據(jù)所述第一結(jié)果、所述第二結(jié)果和所述評價值實現(xiàn)對所述第一探索策略進行更新，得到更新后的第一探索策略。

41、在一些實施方式中，策略探索模型還包括更新模塊，在所述策略探索模型訓練完成之后，用于：

42、根據(jù)所述預設探索策略、所述預設學習率參數(shù)和所述預設正則化參數(shù)生成目標第一結(jié)果；

43、根據(jù)當前探索策略、所述預設學習率參數(shù)和所述預設正則化參數(shù)生成目標第二結(jié)果；

44、確定所述訓練后的策略探索模型中輸入的狀態(tài)動作組對應的目標評價值，根據(jù)所述目標評價值、所述預設學習率參數(shù)和所述預設正則化參數(shù)生成目標第三結(jié)果；

45、將所述第一結(jié)果、第二結(jié)果和第三結(jié)果相乘，確定出對所述當前探索策略進行更新后的目標探索策略。

46、在一些實施方式中，策略探索模型還包括輸入模塊，在所述將所述第一結(jié)果、第二結(jié)果和第三結(jié)果相乘，確定出對所述當前探索策略進行更新后的目標探索策略之后，用于：

47、將所述智能體的探索策略更新為所述目標探索策略；

48、根據(jù)所述目標探索策略指導所述智能體和環(huán)境進行交互，以執(zhí)行對應的目標動作。

49、為了實現(xiàn)上述目的，根據(jù)本技術(shù)的一方面，本技術(shù)實施例提供了一種計算機可讀存儲介質(zhì)，所述計算機可讀存儲介質(zhì)存儲有多條指令，所述指令適于處理器進行加載，以執(zhí)行本技術(shù)實施例提供的策略探索模型訓練方法。

50、為了實現(xiàn)上述目的，根據(jù)本技術(shù)的一方面，本技術(shù)實施例提供了一種計算機設備，包括存儲器、處理器以及存儲在所述存儲器中并可以在所述處理器上運行的計算機程序，所述處理器執(zhí)行所述計算機程序時實現(xiàn)本技術(shù)實施例提供的策略探索模型訓練方法。

51、在本技術(shù)實施例中，通過獲取標注數(shù)據(jù)集和未標注數(shù)據(jù)集，根據(jù)標注數(shù)據(jù)集確定出人類偏好獎勵和人類非偏好獎勵，并根據(jù)人類偏好獎勵和人類非偏好獎勵構(gòu)建獎勵模型；在非標注數(shù)據(jù)集中確定出目標非標注數(shù)據(jù)的預設狀態(tài)，并確定預設狀態(tài)對應的第一探索策略；獲取智能體根據(jù)第一探索策略以及預設狀態(tài)與環(huán)境交互輸出動作狀態(tài)數(shù)據(jù)集和執(zhí)行結(jié)果，并將執(zhí)行結(jié)果輸入到獎勵模型中輸出獎勵值，將獎勵值設置在動作狀態(tài)數(shù)據(jù)集中；確定動作狀態(tài)數(shù)據(jù)集中每個動作狀態(tài)組對應的動作價值，并確定每個動作狀態(tài)組對應的標簽值；根據(jù)動作價值和標簽值確定出每個動作狀態(tài)組對應的評價值，并根據(jù)預設探索策略和評價值對第一探索策略進行更新，得到更新后的第一探索策略，以實現(xiàn)策略探索模型的迭代訓練，重復執(zhí)行在非標注數(shù)據(jù)集中確定出目標非標注數(shù)據(jù)的預設狀態(tài)，直至策略探索模型的迭代次數(shù)滿足預設迭代次數(shù)，則策略探索模型訓練完成，得到訓練后的策略探索模型。以此，通過訓練后的策略探索模型，可以優(yōu)化和豐富探索策略，從而解決了相關(guān)技術(shù)中的探索策略單一的問題，本技術(shù)中通過更多的探索策略來實現(xiàn)智能體的強化學習，能夠提高智能體的強化學習的效率。

52、本技術(shù)的其他特征和優(yōu)點將在隨后的說明書中闡述，并且，部分地從說明書中變得顯而易見，或者通過實施本技術(shù)而了解。本技術(shù)的目的和其他優(yōu)點可通過在說明書、權(quán)利要求書以及附圖中所特別指出的結(jié)構(gòu)來實現(xiàn)和獲得。

完整全部詳細技術(shù)資料下載

當前第1頁1 2

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：聶建政,李論通,彭佩璽,田永鴻
技術(shù)所有人：鵬城實驗室
我是此專利的發(fā)明人

上一篇：一種廂式車防撞結(jié)構(gòu)的制作方法
上一篇：一種電力施工照明裝置的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

策略探索模型訓練方法、裝置、計算機設備及存儲介質(zhì)與流程

策略探索模型訓練方法、裝置、計算機設備及存儲介質(zhì)與流程