一種基于簇間對抗的智能體訓(xùn)練方法和裝置與流程

文檔序號：40524569發(fā)布日期：2024-12-31 13:34閱讀：來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>一種基于簇間對抗的智能體訓(xùn)練方法和裝置與流程

技術(shù)特征：

1.一種基于簇間對抗的智能體訓(xùn)練方法，其特征在于，所述方法包括：

2.根據(jù)權(quán)利要求1所述的一種基于簇間對抗的智能體訓(xùn)練方法，其特征在于，控制所述目標(biāo)方擴展智能體簇和所述對手方擴展智能體簇中的智能體進行對抗訓(xùn)練，以更新所述目標(biāo)方擴展智能體簇和所述對手方擴展智能體簇中的智能體的步驟，包括：

3.根據(jù)權(quán)利要求2所述的一種基于簇間對抗的智能體訓(xùn)練方法，其特征在于，將所述智能體從所述目標(biāo)方擴展智能體簇或者所述對手方擴展智能體簇中刪除的步驟之后，所述方法還包括：

4.根據(jù)權(quán)利要求2所述的一種基于簇間對抗的智能體訓(xùn)練方法，其特征在于，控制所述目標(biāo)方擴展智能體簇中的智能體與所述對手方擴展智能體簇中的智能體進行預(yù)設(shè)輪次的仿真對抗，以得到每個智能體的仿真對抗結(jié)果的步驟，包括：

5.根據(jù)權(quán)利要求4所述的一種基于簇間對抗的智能體訓(xùn)練方法，其特征在于，所述方法還包括：

6.根據(jù)權(quán)利要求1所述的一種基于簇間對抗的智能體訓(xùn)練方法，其特征在于，針對任一目標(biāo)方智能體簇，控制所述目標(biāo)方智能體簇分別與多個所述對手池中的對手方智能體簇進行對抗訓(xùn)練，以訓(xùn)練得到所述目標(biāo)方智能體簇中的每個初始目標(biāo)方智能體各自對應(yīng)的多個個性化智能體的步驟，包括：

7.根據(jù)權(quán)利要求1所述的一種基于簇間對抗的智能體訓(xùn)練方法，其特征在于，基于多個所述個性化智能體的智能體參數(shù)，得到所述初始目標(biāo)方智能體對應(yīng)的個性化目標(biāo)方智能體的步驟，包括：

8.根據(jù)權(quán)利要求1所述的一種基于簇間對抗的智能體訓(xùn)練方法，其特征在于，得到每個初始目標(biāo)方智能體各自對應(yīng)的目標(biāo)方均衡化智能體的步驟之后，所述方法還包括：

9.根據(jù)權(quán)利要求2所述的一種基于簇間對抗的智能體訓(xùn)練方法，其特征在于，所述方法還包括：

10.一種基于簇間對抗的智能體訓(xùn)練裝置，其特征在于，所述裝置包括：

技術(shù)總結(jié)
本申請?zhí)峁┝艘环N基于簇間對抗的智能體訓(xùn)練方法和裝置，屬于智能體技術(shù)領(lǐng)域。本申請實施例首先利用多個對手池對多個目標(biāo)方智能體簇中進行個性化訓(xùn)練，能夠訓(xùn)練得到目標(biāo)方擴展智能體簇和對手方擴展智能體簇；然后通過控制目標(biāo)方擴展智能體簇和對手方擴展智能體簇中的智能體進行對抗訓(xùn)練，并控制訓(xùn)練后的對抗雙方的智能體進行仿真對抗，能夠得到每個智能體的仿真對抗評分，進而根據(jù)仿真對抗評分靠前的智能體的智能體參數(shù)，能夠最終得到不同目標(biāo)方優(yōu)化目標(biāo)和不同目標(biāo)方約束條件下的目標(biāo)方均衡化智能體。如此，能夠有效提高目標(biāo)方均衡化智能體的泛化能力，即使在完全不了解對手的情況下，目標(biāo)方均衡化智能體也能取得較好的對抗效果。

技術(shù)研發(fā)人員：曹揚,趙思聰,李冬雪,趙若帆,賈帥楠,賈思雨,薛源
受保護的技術(shù)使用者：北京航天晨信科技有限責(zé)任公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/30

完整全部詳細技術(shù)資料下載

當(dāng)前第2頁1 2

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于簇間對抗的智能體訓(xùn)練方法和裝置與流程