本發(fā)明涉及人工智能,尤其涉及一種離線元強化學(xué)習(xí)模型訓(xùn)練方法、裝置、設(shè)備、介質(zhì)及產(chǎn)品。
背景技術(shù):
1、離線元強化學(xué)習(xí)(offline?meta-reinforcement?learning,omrl)模型通過使用離線數(shù)據(jù)集降低了訓(xùn)練期間與環(huán)境數(shù)據(jù)交互的成本,同時具有泛化到新任務(wù)的能力,因此,在需要收集足夠多且不易獲取的探索性交互數(shù)據(jù)的領(lǐng)域(例如醫(yī)療保健、自動駕駛、智能機器人等),具有重要的實用價值。
2、然而,當(dāng)前omrl模型仍面臨上下文轉(zhuǎn)移問題,即用于生成離線數(shù)據(jù)集的行為策略上下文與當(dāng)前訓(xùn)練過程中的策略生成上下文之間的分布差異。一方面,上下文轉(zhuǎn)移會導(dǎo)致對q函數(shù)的過高估計,進而損害策略學(xué)習(xí)的質(zhì)量和泛化到新任務(wù)的效果。另一方面,上下文轉(zhuǎn)移影響策略進行任務(wù)推斷的能力。
3、現(xiàn)有的omrl模型對轉(zhuǎn)換元組進行編碼以獲得嵌入向量,旨在通過最小化相同任務(wù)的嵌入向量之間的距離,同時最大化不同任務(wù)的嵌入向量之間的距離來區(qū)分任務(wù)。然而,這種方法往往忽略了任務(wù)間相似性的異質(zhì)性,阻礙了元策略對共性知識的有效提取,進而影響了任務(wù)推理的魯棒性。
技術(shù)實現(xiàn)思路
1、本發(fā)明提供一種離線元強化學(xué)習(xí)模型訓(xùn)練方法、裝置、設(shè)備、介質(zhì)及產(chǎn)品,用以解決現(xiàn)有技術(shù)中離線元強化學(xué)習(xí)模型的性能表現(xiàn)、魯棒性差和泛化能力差的缺陷,實現(xiàn)增強離線元強化學(xué)習(xí)模型的性能表現(xiàn)、魯棒性和泛化能力。
2、本發(fā)明提供一種離線元強化學(xué)習(xí)模型訓(xùn)練方法,包括:
3、基于不同訓(xùn)練任務(wù)之間的相似度,對上下文編碼器進行訓(xùn)練,以最小化相似度高于閾值的訓(xùn)練任務(wù)對應(yīng)的表示向量之間的距離,最大化相似度低于所述閾值的訓(xùn)練任務(wù)對應(yīng)的表示向量之間的距離;
4、基于保守q學(xué)習(xí),對q函數(shù)網(wǎng)絡(luò)進行訓(xùn)練,以在最小化標(biāo)準(zhǔn)貝爾曼誤差的同時,最小化訓(xùn)練策略對應(yīng)的q值與行為策略對應(yīng)的q值之間的差距;
5、基于行為正則化演員評判家brac,對策略網(wǎng)絡(luò)進行訓(xùn)練,以限制訓(xùn)練策略與行為策略之間的差異;
6、根據(jù)訓(xùn)練好的所述上下文編碼器、訓(xùn)練好的所述q函數(shù)網(wǎng)絡(luò)和訓(xùn)練好的所述策略網(wǎng)絡(luò),得到訓(xùn)練好的離線元強化學(xué)習(xí)模型。
7、在一些實施例中,所述基于不同訓(xùn)練任務(wù)之間的相似度,對上下文編碼器進行訓(xùn)練,包括:
8、在距離度量學(xué)習(xí)損失函數(shù)的基礎(chǔ)上,融入不同訓(xùn)練任務(wù)之間的相似度,構(gòu)建第一損失函數(shù);
9、基于所述第一損失函數(shù),對所述上下文編碼器進行訓(xùn)練。
10、在一些實施例中,所述在距離度量學(xué)習(xí)損失函數(shù)的基礎(chǔ)上,融入不同訓(xùn)練任務(wù)之間的相似度,構(gòu)建第一損失函數(shù)之前,還包括:
11、從離線數(shù)據(jù)集中采樣包含任務(wù)信息的訓(xùn)練任務(wù),并提取各訓(xùn)練任務(wù)的屬性特征;
12、根據(jù)各訓(xùn)練任務(wù)的屬性特征,計算不同訓(xùn)練任務(wù)之間的屬性距離;
13、將不同訓(xùn)練任務(wù)之間的屬性距離,確定為不同訓(xùn)練任務(wù)之間的相似度。
14、在一些實施例中,所述基于保守q學(xué)習(xí),對q函數(shù)網(wǎng)絡(luò)進行訓(xùn)練,包括:
15、在標(biāo)準(zhǔn)貝爾曼誤差函數(shù)的基礎(chǔ)上,結(jié)合訓(xùn)練策略對應(yīng)的q值與行為策略對應(yīng)的q值之間的差距,構(gòu)建第二損失函數(shù);所述保守q學(xué)習(xí)對所述訓(xùn)練策略對應(yīng)的q值進行最小化,對所述行為策略對應(yīng)的q值進行最大化;
16、基于所述第二損失函數(shù),對所述q函數(shù)網(wǎng)絡(luò)進行訓(xùn)練。
17、在一些實施例中,所述基于brac,對策略網(wǎng)絡(luò)進行訓(xùn)練,包括:
18、基于狀態(tài)價值函數(shù)對狀態(tài)的期望,結(jié)合訓(xùn)練策略與行為策略之間的kl散度,構(gòu)建第三損失函數(shù);
19、基于所述第三損失函數(shù),對所述策略網(wǎng)絡(luò)進行訓(xùn)練。
20、本發(fā)明還提供一種離線元強化學(xué)習(xí)模型訓(xùn)練裝置,包括:
21、第一訓(xùn)練模塊,用于基于不同訓(xùn)練任務(wù)之間的相似度,對上下文編碼器進行訓(xùn)練,以最小化相似度高于閾值的訓(xùn)練任務(wù)對應(yīng)的表示向量之間的距離,最大化相似度低于所述閾值的訓(xùn)練任務(wù)對應(yīng)的表示向量之間的距離;
22、第二訓(xùn)練模塊,用于基于保守q學(xué)習(xí),對q函數(shù)網(wǎng)絡(luò)進行訓(xùn)練,在最小化標(biāo)準(zhǔn)貝爾曼誤差的同時,最小化訓(xùn)練策略對應(yīng)的q值與行為策略對應(yīng)的q值之間的差距;
23、第三訓(xùn)練模塊,用于基于brac,對策略網(wǎng)絡(luò)進行訓(xùn)練,以限制訓(xùn)練策略與行為策略之間的差異;
24、獲取模塊,用于根據(jù)訓(xùn)練好的所述上下文編碼器、訓(xùn)練好的所述q函數(shù)網(wǎng)絡(luò)和訓(xùn)練好的所述策略網(wǎng)絡(luò),得到訓(xùn)練好的離線元強化學(xué)習(xí)模型。
25、在一些實施例中,所述第一訓(xùn)練模塊包括:
26、第一構(gòu)建單元,用于在距離度量學(xué)習(xí)損失函數(shù)的基礎(chǔ)上,融入不同訓(xùn)練任務(wù)之間的相似度,構(gòu)建第一損失函數(shù);
27、第一訓(xùn)練單元,用于基于所述第一損失函數(shù),對所述上下文編碼器進行訓(xùn)練。
28、本發(fā)明還提供一種電子設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)如上述任一種所述離線元強化學(xué)習(xí)模型訓(xùn)練方法。
29、本發(fā)明還提供一種非暫態(tài)計算機可讀存儲介質(zhì),其上存儲有計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)如上述任一種所述離線元強化學(xué)習(xí)模型訓(xùn)練方法。
30、本發(fā)明還提供一種計算機程序產(chǎn)品,包括計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)如上述任一種所述離線元強化學(xué)習(xí)模型訓(xùn)練方法。
31、本發(fā)明提供的離線元強化學(xué)習(xí)模型訓(xùn)練方法、裝置、設(shè)備、介質(zhì)及產(chǎn)品,通過不同訓(xùn)練任務(wù)之間的相似度,增強了上下文編碼器的魯棒性和泛化能力,通過引入保守q學(xué)習(xí),緩解q值函數(shù)高估的問題,通過行為正則化,對訓(xùn)練策略的偏移進行控制,從而實現(xiàn)增強離線元強化學(xué)習(xí)模型的性能表現(xiàn)、魯棒性和泛化能力。
1.一種離線元強化學(xué)習(xí)模型訓(xùn)練方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的離線元強化學(xué)習(xí)模型訓(xùn)練方法,其特征在于,所述基于不同訓(xùn)練任務(wù)之間的相似度,對上下文編碼器進行訓(xùn)練,包括:
3.根據(jù)權(quán)利要求2所述的離線元強化學(xué)習(xí)模型訓(xùn)練方法,其特征在于,所述在距離度量學(xué)習(xí)損失函數(shù)的基礎(chǔ)上,融入不同訓(xùn)練任務(wù)之間的相似度,構(gòu)建第一損失函數(shù)之前,還包括:
4.根據(jù)權(quán)利要求1所述的離線元強化學(xué)習(xí)模型訓(xùn)練方法,其特征在于,所述基于保守q學(xué)習(xí),對q函數(shù)網(wǎng)絡(luò)進行訓(xùn)練,包括:
5.根據(jù)權(quán)利要求1所述的離線元強化學(xué)習(xí)模型訓(xùn)練方法,其特征在于,所述基于行為正則化演員評判家brac,對策略網(wǎng)絡(luò)進行訓(xùn)練,包括:
6.一種離線元強化學(xué)習(xí)模型訓(xùn)練裝置,其特征在于,包括:
7.根據(jù)權(quán)利要求6所述的離線元強化學(xué)習(xí)模型訓(xùn)練裝置,其特征在于,所述第一訓(xùn)練模塊包括:
8.一種電子設(shè)備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,其特征在于,所述處理器執(zhí)行所述計算機程序時實現(xiàn)如權(quán)利要求1至5任一項所述離線元強化學(xué)習(xí)模型訓(xùn)練方法。
9.一種非暫態(tài)計算機可讀存儲介質(zhì),其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至5任一項所述離線元強化學(xué)習(xí)模型訓(xùn)練方法。
10.一種計算機程序產(chǎn)品,包括計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至5任一項所述離線元強化學(xué)習(xí)模型訓(xùn)練方法。