本申請涉及游戲,具體而言,涉及一種智能體模型訓(xùn)練方法、智能體控制方法、裝置和介質(zhì)。
背景技術(shù):
1、在游戲開發(fā)中,群體智能技術(shù)通常用于創(chuàng)建具有復(fù)雜交互行為的非玩家角色(non-player?character,npc)群體,這些npc群體能夠根據(jù)游戲環(huán)境和玩家的行為自主地做出決策和反應(yīng),從而為玩家提供更加真實和沉浸式的游戲體驗。
2、目前,群體智能實現(xiàn)主要依賴于預(yù)定義的規(guī)則,這些規(guī)則指導(dǎo)npc在特定情境下的行為,其中,行為樹是一種常見的規(guī)則表示方法,通過樹狀結(jié)構(gòu)定義了npc可能的行為序列。
3、然而,基于規(guī)則的方法可能導(dǎo)致npc行為模式過于刻板,難以展現(xiàn)出真正自然和多樣化的行為。
技術(shù)實現(xiàn)思路
1、有鑒于此,本申請實施例提供了一種智能體模型訓(xùn)練方法、智能體控制方法、裝置和介質(zhì),以解決npc行為模式過于刻板,難以展現(xiàn)出真正自然和多樣化的行為。
2、第一方面,本申請實施例提供了一種智能體模型訓(xùn)練方法,包括:
3、獲取游戲場景中智能體在當(dāng)前時刻的當(dāng)前狀態(tài)信息;
4、根據(jù)所述智能體的初始決策模型對所述當(dāng)前狀態(tài)信息進行處理,預(yù)測所述智能體在下一時刻的下一行為決策;
5、獲取所述智能體在所述下一時刻執(zhí)行所述下一行為決策時的下一狀態(tài)信息,所述下一狀態(tài)信息包括:所述智能體和其他智能體的交互狀態(tài);
6、根據(jù)所述交互狀態(tài),獲取所述智能體執(zhí)行所述下一行為決策時的實際獎勵反饋;
7、根據(jù)所述實際獎勵反饋,對所述初始決策模型進行訓(xùn)練,得到所述智能體的目標(biāo)決策模型。
8、第二方面,本申請實施例提供了一種智能體控制方法,包括:
9、獲取游戲場景中智能體在目標(biāo)時刻的狀態(tài)信息;
10、根據(jù)所述智能體的目標(biāo)決策模型對所述目標(biāo)時刻的狀態(tài)信息進行處理,得到所述智能體在所述目標(biāo)時刻的下一時刻的下一行為決策;
11、根據(jù)所述下一行為決策,控制所述智能體在所述目標(biāo)時刻的下一時刻執(zhí)行對應(yīng)的行為動作。
12、第三方面,本申請實施例還提供了一種智能體模型訓(xùn)練裝置,包括:
13、獲取模塊,用于獲取游戲場景中智能體在當(dāng)前時刻的當(dāng)前狀態(tài)信息;
14、處理模塊,用于根據(jù)所述智能體的初始決策模型對所述當(dāng)前狀態(tài)信息進行處理,預(yù)測所述智能體在下一時刻的下一行為決策;
15、所述獲取模塊,還用于獲取所述智能體在所述下一時刻執(zhí)行所述下一行為決策時的下一狀態(tài)信息,所述下一狀態(tài)信息包括:所述智能體和其他智能體的交互狀態(tài);
16、所述獲取模塊,還用于根據(jù)所述交互狀態(tài),獲取所述智能體執(zhí)行所述下一行為決策時的實際獎勵反饋;
17、所述處理模塊,還用于根據(jù)所述實際獎勵反饋,對所述初始決策模型進行訓(xùn)練,得到所述智能體的目標(biāo)決策模型。
18、第四方面,本申請實施例還提供了一種智能體控制裝置,包括:
19、獲取模塊,用于獲取游戲場景中智能體在目標(biāo)時刻的狀態(tài)信息;
20、處理模塊,用于根據(jù)智能體控制模型對所述目標(biāo)時刻的狀態(tài)信息進行處理,得到所述智能體在所述目標(biāo)時刻的下一時刻的下一行為決策;
21、處理模塊,用于根據(jù)所述下一行為決策,控制所述智能體在所述游戲場景執(zhí)行對應(yīng)的行為動作。
22、第五方面,本申請實施例還提供了一種電子設(shè)備,包括:處理器、存儲器和總線,所述存儲器存儲有所述處理器可執(zhí)行的機器可讀指令,當(dāng)電子設(shè)備運行時,所述處理器與所述存儲器之間通過總線通信,所述處理器執(zhí)行所述機器可讀指令,以執(zhí)行第一方面任一項所述的方法。
23、第六方面,本申請實施例還提供了一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)上存儲有計算機程序,所述計算機程序被處理器運行時執(zhí)行第一方面任一項所述的方法。
24、本申請?zhí)峁┝艘环N智能體模型訓(xùn)練方法、智能體控制方法、裝置和介質(zhì),其中,該訓(xùn)練方法包括:獲取游戲場景中智能體在當(dāng)前時刻的當(dāng)前狀態(tài)信息,根據(jù)智能體的初始決策模型對當(dāng)前狀態(tài)信息進行處理,預(yù)測游戲場景中智能體在下一時刻的下一行為決策,獲取游戲場景中智能體在下一時刻執(zhí)行下一行為決策時的下一狀態(tài)信息,下一狀態(tài)信息包括:智能體和其他智能體的交互狀態(tài),根據(jù)交互狀態(tài),獲取智能體執(zhí)行下一行為決策時的實際獎勵反饋,根據(jù)實際獎勵反饋,對初始決策模型進行訓(xùn)練,得到智能體的目標(biāo)決策模型。結(jié)合強化學(xué)習(xí)中的獎勵反饋對決策模型進行訓(xùn)練,自動生成智能體的決策模型,從而提高了游戲群體環(huán)境中智能體行為的真實性和多樣性。
1.一種智能體模型訓(xùn)練方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述交互狀態(tài),獲取所述智能體執(zhí)行所述下一行為決策時的實際獎勵反饋,包括:
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述方法還包括:
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述初始決策模型包括:初始結(jié)構(gòu)化模型和第二預(yù)設(shè)大語言模型;所述根據(jù)所述智能體的初始決策模型對所述當(dāng)前狀態(tài)信息進行處理,預(yù)測所述智能體在下一時刻的下一行為決策,包括:
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述智能體的初始決策模型對所述當(dāng)前狀態(tài)信息進行處理,預(yù)測所述智能體在下一時刻的下一行為決策,包括:
7.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述根據(jù)所述智能體的初始價值模型對所述交互狀態(tài)進行處理,得到所述智能體在所述下一時刻的預(yù)測獎勵反饋,包括:
8.一種智能體控制方法,其特征在于,包括:
9.一種智能體控制模型訓(xùn)練裝置,其特征在于,包括:
10.一種智能體控制裝置,其特征在于,包括:
11.一種電子設(shè)備,其特征在于,包括:處理器、存儲器和總線,所述存儲器存儲有所述處理器可執(zhí)行的機器可讀指令,當(dāng)電子設(shè)備運行時,所述處理器與所述存儲器之間通過總線通信,所述處理器執(zhí)行所述機器可讀指令,以執(zhí)行權(quán)利要求1至8任一項所述的方法。
12.一種計算機可讀存儲介質(zhì),其特征在于,所述計算機可讀存儲介質(zhì)上存儲有計算機程序,所述計算機程序被處理器運行時執(zhí)行權(quán)利要求1至8任一項所述的方法。