本技術(shù)涉及人工智能,具體涉及一種策略探索模型訓練方法、裝置、計算機設備及存儲介質(zhì)。
背景技術(shù):
1、隨著人工智能技術(shù)的發(fā)展,目前人類反饋強化學習(reinforcement?learningfrom?human?feedback,rlhf)成為了一種新的人工智能模型訓練方式,即可以根據(jù)人類反饋的數(shù)據(jù)來進一步訓練人工智能模型,使得人工智能模型能夠?qū)W習到人類的喜好。
2、相關(guān)技術(shù)中,需要采集標注數(shù)據(jù)集,該標注據(jù)集為人類標注后的數(shù)據(jù)集,然后通過該標注據(jù)集來訓練獎勵模型,還需要采用探索策略來獲取非標注數(shù)據(jù)繼續(xù)強化獎勵模型。最后通過訓練好的獎勵模型提供獎勵信號來幫助強化人工智能模型的學習。
3、但是,相關(guān)技術(shù)中受到探索策略的限制,無法有效地探索復雜的狀態(tài)空間或應對環(huán)境中的變化,進而無法產(chǎn)生新的數(shù)據(jù)來繼續(xù)優(yōu)化獎勵模型,最終導致獎勵模型無法根據(jù)新的數(shù)據(jù)來生成獎勵信號來強化學習人工智能模型。這樣就導致了人工智能模型無法適應于新的環(huán)境。
技術(shù)實現(xiàn)思路
1、本技術(shù)實施例提供一種策略探索模型訓練方法、裝置、計算機設備及存儲介質(zhì),能夠使得訓練后的策略探索模型能夠基于原有探索策略來生成新的探索策略,從而提升探索策略的豐富度。
2、為了實現(xiàn)上述目的,根據(jù)本技術(shù)的一方面,本技術(shù)實施例提供了一種策略探索模型訓練方法,包括:
3、獲取標注數(shù)據(jù)集和未標注數(shù)據(jù)集,根據(jù)所述標注數(shù)據(jù)集確定出人類偏好獎勵和人類非偏好獎勵,并根據(jù)人類偏好獎勵和人類非偏好獎勵構(gòu)建獎勵模型;
4、在所述非標注數(shù)據(jù)集中確定出目標非標注數(shù)據(jù)的預設狀態(tài),并確定所述預設狀態(tài)對應的第一探索策略;
5、獲取智能體根據(jù)所述第一探索策略以及所述預設狀態(tài)與環(huán)境交互輸出動作狀態(tài)數(shù)據(jù)集和執(zhí)行結(jié)果,并將所述執(zhí)行結(jié)果輸入到所述獎勵模型中輸出獎勵值,將所述獎勵值設置在所述動作狀態(tài)數(shù)據(jù)集中;
6、確定所述動作狀態(tài)數(shù)據(jù)集中每個動作狀態(tài)組對應的動作價值,并確定所述每個動作狀態(tài)組對應的標簽值;
7、根據(jù)所述動作價值和所述標簽值確定出所述每個動作狀態(tài)組對應的評價值,并根據(jù)預設探索策略和所述評價值對所述第一探索策略進行更新,得到更新后的第一探索策略,以實現(xiàn)所述策略探索模型的迭代訓練,重復執(zhí)行在所述非標注數(shù)據(jù)集中確定出目標非標注數(shù)據(jù)的預設狀態(tài),直至所述策略探索模型的迭代次數(shù)滿足預設迭代次數(shù),則所述策略探索模型訓練完成,得到訓練后的策略探索模型。
8、為了實現(xiàn)上述目的,根據(jù)本技術(shù)的一方面,本技術(shù)實施例提供了一種策略探索模型訓練裝置,包括:
9、第一獲取模塊,用于獲取標注數(shù)據(jù)集和未標注數(shù)據(jù)集,根據(jù)所述標注數(shù)據(jù)集確定出人類偏好獎勵和人類非偏好獎勵,并根據(jù)人類偏好獎勵和人類非偏好獎勵構(gòu)建獎勵模型;
10、第一確定模塊,用于在所述非標注數(shù)據(jù)集中確定出目標非標注數(shù)據(jù)的預設狀態(tài),并確定所述預設狀態(tài)對應的第一探索策略;
11、第二獲取模塊,用于獲取智能體根據(jù)所述第一探索策略以及所述預設狀態(tài)與環(huán)境交互輸出動作狀態(tài)數(shù)據(jù)集和執(zhí)行結(jié)果,并將所述執(zhí)行結(jié)果輸入到所述獎勵模型中輸出獎勵值,將所述獎勵值設置在所述動作狀態(tài)數(shù)據(jù)集中;
12、第二確定模塊,用于確定所述動作狀態(tài)數(shù)據(jù)集中每個動作狀態(tài)組對應的動作價值,并確定所述每個動作狀態(tài)組對應的標簽值;
13、迭代模塊,用于根據(jù)所述動作價值和所述標簽值確定出所述每個動作狀態(tài)組對應的評價值,并根據(jù)預設探索策略和所述評價值對所述第一探索策略進行更新,得到更新后的第一探索策略,以實現(xiàn)所述策略探索模型的迭代訓練,重復執(zhí)行在所述非標注數(shù)據(jù)集中確定出目標非標注數(shù)據(jù)的預設狀態(tài),直至所述策略探索模型的迭代次數(shù)滿足預設迭代次數(shù),則所述策略探索模型訓練完成,得到訓練后的策略探索模型。
14、在一些實施方式中,第一獲取模塊,用于:
15、根據(jù)所述標注數(shù)據(jù)集確定出人類偏好的第一標注數(shù)據(jù),并確定每個所述第一標注數(shù)據(jù)對應的總獎勵值;
16、根據(jù)每個所述第一標注數(shù)據(jù)對應的總獎勵值確定出人類偏好獎勵;
17、根據(jù)所述標注數(shù)據(jù)集確定出人類非偏好的第二標注數(shù)據(jù),并確定每個所述第二標注數(shù)據(jù)對應的總獎勵值;
18、根據(jù)每個所述第二標注數(shù)據(jù)對應的總獎勵值確定出人類非偏好獎勵。
19、在一些實施方式中,第一獲取模塊,用于:
20、根據(jù)人類偏好獎勵和人類非偏好獎勵構(gòu)建人類偏好模型;
21、基于所述人類偏好模型構(gòu)建獎勵模型。
22、在一些實施方式中,第二獲取模塊,用于:
23、獲取智能體在所述預設狀態(tài)下根據(jù)所述第一探索策略確定出的執(zhí)行動作;
24、獲取所述智能體在所述預設狀態(tài)下根據(jù)所述執(zhí)行動作與環(huán)境交互生成的動作狀態(tài)數(shù)據(jù)集和執(zhí)行結(jié)果。
25、在一些實施方式中,第二確定模塊,用于:
26、確定所述動作狀態(tài)數(shù)據(jù)集中每個動作狀態(tài)組對應的動作、狀態(tài)和獎勵值;
27、根據(jù)所述動作和狀態(tài)確定出優(yōu)勢值和狀態(tài)值,并根據(jù)所述獎勵值、所述優(yōu)勢值和所述狀態(tài)值確定出每個動作狀態(tài)組對應的動作價值。
28、在一些實施方式中,迭代模塊,用于:
29、確定所述每個動作狀態(tài)組對應的動作價值和標簽值之差的平方值;
30、累加所述每個動作狀態(tài)組對應的平方值,得到平方值之和;
31、根據(jù)所述平方值之和以及所述動作狀態(tài)組的總數(shù)量,確定出所述每個動作狀態(tài)組對應的評價值。
32、在一些實施方式中,迭代模塊,用于:
33、確定所述每個動作狀態(tài)組對應的動作概率分布;
34、確定所述動作概率分布和預設探索策略對應的動作概率分布之間的第一kl散度;
35、確定所述動作概率分布和所述第一探索策略對應的動作概率分布之間的第二kl散度;
36、根據(jù)所述第一kl散度、所述第二kl散度和所述評價值對所述第一探索策略進行更新,得到更新后的第一探索策略。
37、在一些實施方式中,迭代模塊,用于:
38、確定所述第一kl散度對應的預設正則化參數(shù),將所述正則化參數(shù)乘以所述第一kl散度得到第一結(jié)果;
39、確定所述第二kl散度對應的預設學習率參數(shù),將所述第二kl散度除以所述預設學習率參數(shù)得到第二結(jié)果;
40、根據(jù)所述第一結(jié)果、所述第二結(jié)果和所述評價值實現(xiàn)對所述第一探索策略進行更新,得到更新后的第一探索策略。
41、在一些實施方式中,策略探索模型還包括更新模塊,在所述策略探索模型訓練完成之后,用于:
42、根據(jù)所述預設探索策略、所述預設學習率參數(shù)和所述預設正則化參數(shù)生成目標第一結(jié)果;
43、根據(jù)當前探索策略、所述預設學習率參數(shù)和所述預設正則化參數(shù)生成目標第二結(jié)果;
44、確定所述訓練后的策略探索模型中輸入的狀態(tài)動作組對應的目標評價值,根據(jù)所述目標評價值、所述預設學習率參數(shù)和所述預設正則化參數(shù)生成目標第三結(jié)果;
45、將所述第一結(jié)果、第二結(jié)果和第三結(jié)果相乘,確定出對所述當前探索策略進行更新后的目標探索策略。
46、在一些實施方式中,策略探索模型還包括輸入模塊,在所述將所述第一結(jié)果、第二結(jié)果和第三結(jié)果相乘,確定出對所述當前探索策略進行更新后的目標探索策略之后,用于:
47、將所述智能體的探索策略更新為所述目標探索策略;
48、根據(jù)所述目標探索策略指導所述智能體和環(huán)境進行交互,以執(zhí)行對應的目標動作。
49、為了實現(xiàn)上述目的,根據(jù)本技術(shù)的一方面,本技術(shù)實施例提供了一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)存儲有多條指令,所述指令適于處理器進行加載,以執(zhí)行本技術(shù)實施例提供的策略探索模型訓練方法。
50、為了實現(xiàn)上述目的,根據(jù)本技術(shù)的一方面,本技術(shù)實施例提供了一種計算機設備,包括存儲器、處理器以及存儲在所述存儲器中并可以在所述處理器上運行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)本技術(shù)實施例提供的策略探索模型訓練方法。
51、在本技術(shù)實施例中,通過獲取標注數(shù)據(jù)集和未標注數(shù)據(jù)集,根據(jù)標注數(shù)據(jù)集確定出人類偏好獎勵和人類非偏好獎勵,并根據(jù)人類偏好獎勵和人類非偏好獎勵構(gòu)建獎勵模型;在非標注數(shù)據(jù)集中確定出目標非標注數(shù)據(jù)的預設狀態(tài),并確定預設狀態(tài)對應的第一探索策略;獲取智能體根據(jù)第一探索策略以及預設狀態(tài)與環(huán)境交互輸出動作狀態(tài)數(shù)據(jù)集和執(zhí)行結(jié)果,并將執(zhí)行結(jié)果輸入到獎勵模型中輸出獎勵值,將獎勵值設置在動作狀態(tài)數(shù)據(jù)集中;確定動作狀態(tài)數(shù)據(jù)集中每個動作狀態(tài)組對應的動作價值,并確定每個動作狀態(tài)組對應的標簽值;根據(jù)動作價值和標簽值確定出每個動作狀態(tài)組對應的評價值,并根據(jù)預設探索策略和評價值對第一探索策略進行更新,得到更新后的第一探索策略,以實現(xiàn)策略探索模型的迭代訓練,重復執(zhí)行在非標注數(shù)據(jù)集中確定出目標非標注數(shù)據(jù)的預設狀態(tài),直至策略探索模型的迭代次數(shù)滿足預設迭代次數(shù),則策略探索模型訓練完成,得到訓練后的策略探索模型。以此,通過訓練后的策略探索模型,可以優(yōu)化和豐富探索策略,從而解決了相關(guān)技術(shù)中的探索策略單一的問題,本技術(shù)中通過更多的探索策略來實現(xiàn)智能體的強化學習,能夠提高智能體的強化學習的效率。
52、本技術(shù)的其他特征和優(yōu)點將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實施本技術(shù)而了解。本技術(shù)的目的和其他優(yōu)點可通過在說明書、權(quán)利要求書以及附圖中所特別指出的結(jié)構(gòu)來實現(xiàn)和獲得。