智能體模型訓(xùn)練方法、智能體控制方法、裝置和介質(zhì)與流程

文檔序號：40550704發(fā)布日期：2025-01-03 11:10閱讀：12來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>休閑,運動,玩具,娛樂用品的裝置及其制品制造技術(shù)

本申請涉及游戲，具體而言，涉及一種智能體模型訓(xùn)練方法、智能體控制方法、裝置和介質(zhì)。

背景技術(shù)：

1、在游戲開發(fā)中，群體智能技術(shù)通常用于創(chuàng)建具有復(fù)雜交互行為的非玩家角色(non-player?character，npc)群體，這些npc群體能夠根據(jù)游戲環(huán)境和玩家的行為自主地做出決策和反應(yīng)，從而為玩家提供更加真實和沉浸式的游戲體驗。

2、目前，群體智能實現(xiàn)主要依賴于預(yù)定義的規(guī)則，這些規(guī)則指導(dǎo)npc在特定情境下的行為，其中，行為樹是一種常見的規(guī)則表示方法，通過樹狀結(jié)構(gòu)定義了npc可能的行為序列。

3、然而，基于規(guī)則的方法可能導(dǎo)致npc行為模式過于刻板，難以展現(xiàn)出真正自然和多樣化的行為。

技術(shù)實現(xiàn)思路

1、有鑒于此，本申請實施例提供了一種智能體模型訓(xùn)練方法、智能體控制方法、裝置和介質(zhì)，以解決npc行為模式過于刻板，難以展現(xiàn)出真正自然和多樣化的行為。

2、第一方面，本申請實施例提供了一種智能體模型訓(xùn)練方法，包括：

3、獲取游戲場景中智能體在當(dāng)前時刻的當(dāng)前狀態(tài)信息；

4、根據(jù)所述智能體的初始決策模型對所述當(dāng)前狀態(tài)信息進行處理，預(yù)測所述智能體在下一時刻的下一行為決策；

5、獲取所述智能體在所述下一時刻執(zhí)行所述下一行為決策時的下一狀態(tài)信息，所述下一狀態(tài)信息包括：所述智能體和其他智能體的交互狀態(tài)；

6、根據(jù)所述交互狀態(tài)，獲取所述智能體執(zhí)行所述下一行為決策時的實際獎勵反饋；

7、根據(jù)所述實際獎勵反饋，對所述初始決策模型進行訓(xùn)練，得到所述智能體的目標(biāo)決策模型。

8、第二方面，本申請實施例提供了一種智能體控制方法，包括：

9、獲取游戲場景中智能體在目標(biāo)時刻的狀態(tài)信息；

10、根據(jù)所述智能體的目標(biāo)決策模型對所述目標(biāo)時刻的狀態(tài)信息進行處理，得到所述智能體在所述目標(biāo)時刻的下一時刻的下一行為決策；

11、根據(jù)所述下一行為決策，控制所述智能體在所述目標(biāo)時刻的下一時刻執(zhí)行對應(yīng)的行為動作。

12、第三方面，本申請實施例還提供了一種智能體模型訓(xùn)練裝置，包括：

13、獲取模塊，用于獲取游戲場景中智能體在當(dāng)前時刻的當(dāng)前狀態(tài)信息；

14、處理模塊，用于根據(jù)所述智能體的初始決策模型對所述當(dāng)前狀態(tài)信息進行處理，預(yù)測所述智能體在下一時刻的下一行為決策；

15、所述獲取模塊，還用于獲取所述智能體在所述下一時刻執(zhí)行所述下一行為決策時的下一狀態(tài)信息，所述下一狀態(tài)信息包括：所述智能體和其他智能體的交互狀態(tài)；

16、所述獲取模塊，還用于根據(jù)所述交互狀態(tài)，獲取所述智能體執(zhí)行所述下一行為決策時的實際獎勵反饋；

17、所述處理模塊，還用于根據(jù)所述實際獎勵反饋，對所述初始決策模型進行訓(xùn)練，得到所述智能體的目標(biāo)決策模型。

18、第四方面，本申請實施例還提供了一種智能體控制裝置，包括：

19、獲取模塊，用于獲取游戲場景中智能體在目標(biāo)時刻的狀態(tài)信息；

20、處理模塊，用于根據(jù)智能體控制模型對所述目標(biāo)時刻的狀態(tài)信息進行處理，得到所述智能體在所述目標(biāo)時刻的下一時刻的下一行為決策；

21、處理模塊，用于根據(jù)所述下一行為決策，控制所述智能體在所述游戲場景執(zhí)行對應(yīng)的行為動作。

22、第五方面，本申請實施例還提供了一種電子設(shè)備，包括：處理器、存儲器和總線，所述存儲器存儲有所述處理器可執(zhí)行的機器可讀指令，當(dāng)電子設(shè)備運行時，所述處理器與所述存儲器之間通過總線通信，所述處理器執(zhí)行所述機器可讀指令，以執(zhí)行第一方面任一項所述的方法。

23、第六方面，本申請實施例還提供了一種計算機可讀存儲介質(zhì)，所述計算機可讀存儲介質(zhì)上存儲有計算機程序，所述計算機程序被處理器運行時執(zhí)行第一方面任一項所述的方法。

24、本申請?zhí)峁┝艘环N智能體模型訓(xùn)練方法、智能體控制方法、裝置和介質(zhì)，其中，該訓(xùn)練方法包括：獲取游戲場景中智能體在當(dāng)前時刻的當(dāng)前狀態(tài)信息，根據(jù)智能體的初始決策模型對當(dāng)前狀態(tài)信息進行處理，預(yù)測游戲場景中智能體在下一時刻的下一行為決策，獲取游戲場景中智能體在下一時刻執(zhí)行下一行為決策時的下一狀態(tài)信息，下一狀態(tài)信息包括：智能體和其他智能體的交互狀態(tài)，根據(jù)交互狀態(tài)，獲取智能體執(zhí)行下一行為決策時的實際獎勵反饋，根據(jù)實際獎勵反饋，對初始決策模型進行訓(xùn)練，得到智能體的目標(biāo)決策模型。結(jié)合強化學(xué)習(xí)中的獎勵反饋對決策模型進行訓(xùn)練，自動生成智能體的決策模型，從而提高了游戲群體環(huán)境中智能體行為的真實性和多樣性。

技術(shù)特征：

1.一種智能體模型訓(xùn)練方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述根據(jù)所述交互狀態(tài)，獲取所述智能體執(zhí)行所述下一行為決策時的實際獎勵反饋，包括：

3.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述方法還包括：

4.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述方法還包括：

5.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述初始決策模型包括：初始結(jié)構(gòu)化模型和第二預(yù)設(shè)大語言模型；所述根據(jù)所述智能體的初始決策模型對所述當(dāng)前狀態(tài)信息進行處理，預(yù)測所述智能體在下一時刻的下一行為決策，包括：

6.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述根據(jù)所述智能體的初始決策模型對所述當(dāng)前狀態(tài)信息進行處理，預(yù)測所述智能體在下一時刻的下一行為決策，包括：

7.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述根據(jù)所述智能體的初始價值模型對所述交互狀態(tài)進行處理，得到所述智能體在所述下一時刻的預(yù)測獎勵反饋，包括：

8.一種智能體控制方法，其特征在于，包括：

9.一種智能體控制模型訓(xùn)練裝置，其特征在于，包括：

10.一種智能體控制裝置，其特征在于，包括：

11.一種電子設(shè)備，其特征在于，包括：處理器、存儲器和總線，所述存儲器存儲有所述處理器可執(zhí)行的機器可讀指令，當(dāng)電子設(shè)備運行時，所述處理器與所述存儲器之間通過總線通信，所述處理器執(zhí)行所述機器可讀指令，以執(zhí)行權(quán)利要求1至8任一項所述的方法。

12.一種計算機可讀存儲介質(zhì)，其特征在于，所述計算機可讀存儲介質(zhì)上存儲有計算機程序，所述計算機程序被處理器運行時執(zhí)行權(quán)利要求1至8任一項所述的方法。

技術(shù)總結(jié)
本申請?zhí)峁┝艘环N智能體模型訓(xùn)練方法、智能體控制方法、裝置和介質(zhì)，其中，該訓(xùn)練方法包括：獲取游戲場景中智能體在當(dāng)前時刻的當(dāng)前狀態(tài)信息，根據(jù)智能體的初始決策模型對當(dāng)前狀態(tài)信息進行處理，預(yù)測游戲場景中智能體在下一時刻的下一行為決策，獲取智能體在下一時刻執(zhí)行下一行為決策時的下一狀態(tài)信息，下一狀態(tài)信息包括：智能體和其他智能體的交互狀態(tài)，根據(jù)交互狀態(tài)，獲取智能體執(zhí)行下一行為決策時的實際獎勵反饋，根據(jù)實際獎勵反饋，對初始決策模型進行訓(xùn)練，得到智能體的目標(biāo)決策模型。結(jié)合強化學(xué)習(xí)中的獎勵反饋對決策模型進行訓(xùn)練，自動生成智能體的決策模型，從而提高了游戲群體環(huán)境中智能體行為的真實性和多樣性。

技術(shù)研發(fā)人員：蔡康
受保護的技術(shù)使用者：網(wǎng)易（杭州）網(wǎng)絡(luò)有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2025/1/2

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：蔡康
技術(shù)所有人：網(wǎng)易（杭州）網(wǎng)絡(luò)有限公司
我是此專利的發(fā)明人

上一篇：一種電路板焊接的清潔裝置的制作方法
上一篇：顯示設(shè)備的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

智能體模型訓(xùn)練方法、智能體控制方法、裝置和介質(zhì)與流程

智能體模型訓(xùn)練方法、智能體控制方法、裝置和介質(zhì)與流程