一種基于簇間對抗的智能體訓練方法和裝置與流程

文檔序號：40524569發(fā)布日期：2024-12-31 13:34閱讀：12來源：國知局

本技術涉及智能體，特別是涉及一種基于簇間對抗的智能體訓練方法和裝置。

背景技術：

1、智能體之間的博弈對抗是指在人工智能領域中，兩個或多個智能體之間進行基于策略和決策的對抗性行為。在博弈對抗中，每個智能體都試圖通過制定最佳策略，來最大化其自身的利益，同時也必須對其對手的行為進行預測和回應。

2、隨著人工智能技術的不斷涌現(xiàn)，研究人員將人工智能技術應用于智能體的訓練中，特別是采用基于強化學習的智能體訓練方法，在決策問題中取得了比較好的運行效果。

3、在博弈對抗過程中，需考慮對手的各方面情況，例如對手的智能化水平、可用招數(shù)、對抗風格及傾向等。然而，目前基于強化學習的智能體訓練方法中，對手的對抗手段通常都是基于固定規(guī)則的，并且僅具有單一風格/傾向。

4、基于固定規(guī)則或者單一風格/傾向對手的仿真訓練環(huán)境，訓練出的智能體，只能應對該規(guī)則對手或單一風格/傾向對手，導致智能體的泛化能力有限，難以應對復雜多變的對抗任務，尤其是在完全不了解對手的情況下，操作人員難以選擇合適的智能體執(zhí)行相應的對抗任務，進而導致智能體的對抗效果較差。

技術實現(xiàn)思路

1、本技術提供一種基于簇間對抗的智能體訓練方法和裝置，以解決相關技術中訓練出的智能體的泛化能力有限，難以在完全不了解對手的情況下應對復雜多變的對抗任務的問題。

2、為了解決上述問題，本技術采用了以下的技術方案：

3、第一方面，本技術實施例提供了一種基于簇間對抗的智能體訓練方法，所述方法包括：

4、將對抗雙方中的任一方確定為目標方，基于所述目標方在目標任務邊界下的多個目標方優(yōu)化目標和多個目標方約束條件，構建得到所述目標方的多個目標方智能體簇；所述目標方智能體簇包括多個初始目標方智能體，不同的初始目標方智能體具有不同的目標方優(yōu)化目標和/或不同的目標方約束條件；

5、將所述對抗雙方中相對于所述目標方的另一方確定為對手方，對所述對手方的多個對手方智能體簇進行組合，得到所述目標方智能體簇的多個對手池；其中，不同的對手池由不同的對手方智能體簇組成，每個所述對手方智能體簇包括多個初始對手方智能體；

6、針對任一目標方智能體簇，控制所述目標方智能體簇分別與多個所述對手池中的對手方智能體簇進行對抗訓練，以訓練得到所述目標方智能體簇中的每個初始目標方智能體各自對應的多個個性化智能體，并基于多個所述個性化智能體的智能體參數(shù)，得到所述初始目標方智能體對應的個性化目標方智能體；

7、將每個初始目標方智能體各自對應的個性化目標方智能體和多個個性化智能體存入所述目標方的目標方擴展智能體簇，將每個初始對手方智能體各自對應的個性化對手方智能體和多個個性化智能體存入所述對手方的對手方擴展智能體簇；

8、控制所述目標方擴展智能體簇和所述對手方擴展智能體簇中的智能體進行對抗訓練，以更新所述目標方擴展智能體簇和所述對手方擴展智能體簇中的智能體；

9、針對更新后的目標方擴展智能體簇中的任一智能體，控制所述智能體與更新后的對手方擴展智能體簇中的智能體進行仿真對抗，以得到所述目標方擴展智能體簇中的每個智能體的仿真對抗評分；

10、針對所述目標方擴展智能體簇中具有相同的目標方優(yōu)化目標和目標方約束條件的多個智能體，基于多個智能體中仿真對抗評分靠前的預設比例的智能體的智能體參數(shù)，得到具有所述目標方優(yōu)化目標和所述目標方約束條件的目標方均衡化智能體，以得到每個初始目標方智能體各自對應的目標方均衡化智能體。

11、在本技術一實施例中，控制所述目標方擴展智能體簇和所述對手方擴展智能體簇中的智能體進行對抗訓練，以更新所述目標方擴展智能體簇和所述對手方擴展智能體簇中的智能體的步驟，包括：

12、按照預設的重復次數(shù)，重復以下的訓練步驟：

13、控制所述目標方擴展智能體簇中的智能體與所述對手方擴展智能體簇中的智能體進行預設輪次的仿真對抗，以得到每個智能體的仿真對抗結果；

14、針對任一智能體，在所述智能體的仿真對抗結果滿足優(yōu)勝條件的情況下，增大所述智能體的優(yōu)勝指標；在所述仿真對抗結果滿足普通條件的情況下，保持所述智能體的優(yōu)勝指標不變；在所述仿真對抗結果滿足失敗條件的情況下，減小所述智能體的優(yōu)勝指標，并在所述智能體的優(yōu)勝指標減小至預設值的情況下，將所述智能體從所述目標方擴展智能體簇或者所述對手方擴展智能體簇中刪除；

15、控制所述目標方擴展智能體簇中的智能體與所述對手方擴展智能體簇中的智能體進行對抗訓練，以更新所述目標方擴展智能體簇和所述對手方擴展智能體簇中的智能體的智能體參數(shù)。

16、在本技術一實施例中，將所述智能體從所述目標方擴展智能體簇或者所述對手方擴展智能體簇中刪除的步驟之后，所述方法還包括：

17、在所述目標方擴展智能體簇或者所述對手方擴展智能體簇中，獲取與已刪除的智能體具有相同的優(yōu)化目標和約束條件的多個智能體；

18、復制多個智能體中優(yōu)勝指標最大的智能體，得到第一孿生智能體，以補充已刪除的智能體；或者，

19、基于多個智能體的智能體參數(shù)，構建得到第二孿生智能體，以補充已刪除的智能體。

20、在本技術一實施例中，控制所述目標方擴展智能體簇中的智能體與所述對手方擴展智能體簇中的智能體進行預設輪次的仿真對抗，以得到每個智能體的仿真對抗結果的步驟，包括：

21、針對所述目標方擴展智能體簇中的任一智能體，控制所述智能體分別與所述對手方擴展智能體簇中的智能體進行預設輪次的仿真對抗，以得到每個智能體的仿真對抗結果；

22、其中，所述仿真對抗結果包括所述智能體針對所述對手方擴展智能體簇中的每個智能體的單體勝率以及針對所述對手方擴展智能體簇中的所有智能體的平均勝率。

23、在本技術一實施例中，所述方法還包括：

24、確定所述智能體的單體勝率大于勝率閾值的優(yōu)勝數(shù)量；

25、基于所述對手方擴展智能體簇中的智能體總數(shù)和第一比例，確定第一優(yōu)勝數(shù)量閾值；在所述優(yōu)勝數(shù)量大于或者等于所述第一優(yōu)勝數(shù)量閾值的情況下，確定所述智能體的仿真對抗結果滿足所述優(yōu)勝條件；

26、基于所述對手方擴展智能體簇中的智能體總數(shù)和第二比例，確定第二優(yōu)勝數(shù)量閾值；在所述優(yōu)勝數(shù)量大于或者等于所述第二優(yōu)勝數(shù)量閾值且小于所述第一優(yōu)勝數(shù)量閾值，且所述平均勝率大于或者等于平均勝率閾值的情況下，確定所述智能體的仿真對抗結果滿足所述普通條件；

27、在所述優(yōu)勝數(shù)量小于所述第二優(yōu)勝數(shù)量閾值，或者所述平均勝率小于所述平均勝率閾值的情況下，確定所述智能體的仿真對抗結果滿足所述失敗條件。

28、在本技術一實施例中，針對任一目標方智能體簇，控制所述目標方智能體簇分別與多個所述對手池中的對手方智能體簇進行對抗訓練，以訓練得到所述目標方智能體簇中的每個初始目標方智能體各自對應的多個個性化智能體的步驟，包括：

29、復制所述目標方智能體簇，得到與多個所述對手池一一對應的多個個性化智能體簇；每個所述個性化智能體簇均包括所述目標方智能體簇中的多個初始目標方智能體；

30、針對任一所述個性化智能體簇中的任一所述初始目標方智能體，重復以下步驟：在所述個性化智能體簇對應的對手池中的對手方智能體簇中隨機選取一個初始對手方智能體與所述初始目標方智能體進行對抗訓練，以更新所述初始目標方智能體的智能體參數(shù)；

31、在確定所述初始目標方智能體滿足預設的訓練截止條件的情況下，得到所述初始目標方智能體基于所述對手池訓練得到的個性化智能體。

32、在本技術一實施例中，基于多個所述個性化智能體的智能體參數(shù)，得到所述初始目標方智能體對應的個性化目標方智能體的步驟，包括：

33、將所述初始目標方智能體對應的多個所述個性化智能體的智能體參數(shù)的平均值，確定為所述初始目標方智能體對應的個性化目標方智能體的智能體參數(shù)；或者，

34、針對所述初始目標方智能體對應的任一所述個性化智能體，基于所述個性化智能體對應的對手池中的對手方智能體簇的數(shù)量與所有對手池中的對手方智能體簇的總數(shù)之間的比值，確定所述個性化智能體的權重參數(shù)；并基于多個所述個性化智能體各自對應的權重參數(shù)和智能體參數(shù)，確定所述初始目標方智能體對應的個性化目標方智能體的智能體參數(shù)。

35、在本技術一實施例中，得到每個初始目標方智能體各自對應的目標方均衡化智能體的步驟之后，所述方法還包括：

36、獲取用戶輸入的目標方信息；其中，所述目標方信息包括針對目標方輸入的目標方優(yōu)化目標和/或目標方約束條件；

37、基于所述目標方信息，在多個目標方均衡化智能體中確定至少一個目標均衡化智能體；其中，至少一個所述目標均衡化智能體用于生成針對所述目標方的對手方的對抗方案。

38、在本技術一實施例中，所述方法還包括：

39、針對目標方擴展智能體簇中的任一智能體，每當所述智能體完成所述訓練步驟，令所述智能體的訓練次數(shù)加1；

40、得到每個初始目標方智能體各自對應的目標方均衡化智能體的步驟之后，所述方法還包括：

41、獲取用戶輸入的目標方信息和對手方信息；其中，所述目標方信息包括針對目標方輸入的目標方優(yōu)化目標和/或目標方約束條件，所述對手方信息包括針對對手方輸入的對手方優(yōu)化目標和/或對手方約束條件；

42、基于所述目標方信息，在多個目標方均衡化智能體中確定至少一個目標均衡化智能體，并在更新后的目標方擴展智能體簇中確定所述訓練次數(shù)最大的至少一個目標智能體；

43、基于所述對手方信息，在更新后的對手方擴展智能體簇中確定至少一個目標對手方智能體；

44、控制至少一個所述目標智能體和至少一個所述目標均衡化智能體分別與至少一個所述目標對手方智能體在目標仿真對抗環(huán)境中進行仿真對抗，并按照預設格式生成對抗評價表；

45、輸出所述對抗評價表。

46、第二方面，基于相同發(fā)明構思，本技術實施例提供了一種基于簇間對抗的智能體訓練裝置，所述裝置包括：

47、智能體簇構建模塊，用于將對抗雙方中的任一方確定為目標方，基于所述目標方在目標任務邊界下的多個目標方優(yōu)化目標和多個目標方約束條件，構建得到所述目標方的多個目標方智能體簇；所述目標方智能體簇包括多個初始目標方智能體，不同的初始目標方智能體具有不同的目標方優(yōu)化目標和/或不同的目標方約束條件；

48、對手池構建模塊，用于將所述對抗雙方中相對于所述目標方的另一方確定為對手方，對所述對手方的多個對手方智能體簇進行組合，得到所述目標方智能體簇的多個對手池；其中，不同的對手池由不同的對手方智能體簇組成，每個所述對手方智能體簇包括多個初始對手方智能體；

49、第一訓練模塊，用于針對任一目標方智能體簇，控制所述目標方智能體簇分別與多個所述對手池中的對手方智能體簇進行對抗訓練，以訓練得到所述目標方智能體簇中的每個初始目標方智能體各自對應的多個個性化智能體，并基于多個所述個性化智能體的智能體參數(shù)，得到所述初始目標方智能體對應的個性化目標方智能體；

50、智能體存儲模塊，用于將每個初始目標方智能體各自對應的個性化目標方智能體和多個個性化智能體存入所述目標方的目標方擴展智能體簇，將每個初始對手方智能體各自對應的個性化對手方智能體和多個個性化智能體存入所述對手方的對手方擴展智能體簇；

51、第二訓練模塊，用于控制所述目標方擴展智能體簇和所述對手方擴展智能體簇中的智能體進行對抗訓練，以更新所述目標方擴展智能體簇和所述對手方擴展智能體簇中的智能體；

52、仿真對抗模塊，用于針對更新后的目標方擴展智能體簇中的任一智能體，控制所述智能體與更新后的對手方擴展智能體簇中的智能體進行仿真對抗，以得到所述目標方擴展智能體簇中的每個智能體的仿真對抗評分；

53、參數(shù)確定模塊，用于針對所述目標方擴展智能體簇中具有相同的目標方優(yōu)化目標和目標方約束條件的多個智能體，基于多個智能體中仿真對抗評分靠前的預設比例的智能體的智能體參數(shù)，得到具有所述目標方優(yōu)化目標和所述目標方約束條件的目標方均衡化智能體，以得到每個初始目標方智能體各自對應的目標方均衡化智能體。

54、與現(xiàn)有技術相比，本技術包括以下優(yōu)點：

55、本技術實施例提供的一種基于簇間對抗的智能體訓練方法，首先根據(jù)對抗雙方各自對應的優(yōu)化目標和約束條件，構建得到對抗雙方的智能體簇；然后，針對目標方的任一目標方智能體簇，構建其對應的多個對手池，由于每個對手池中的對手方智能體簇包括多個具有不同對手方優(yōu)化目標和不同對手方約束條件的對手方智能體，因此，通過將目標方智能體簇分別與多個對手池中的對手方智能體簇進行對抗訓練，可訓練得到能夠適應不同對手風格的個性化智能體以及綜合能力較強的個性化目標方智能體，進而得到目標方的目標方擴展智能體簇和對手方的對手方擴展智能體簇；通過控制目標方擴展智能體簇和對手方擴展智能體簇中的能夠適應不同風格的智能體進行對抗訓練，并控制訓練后的對抗雙方的智能體進行仿真對抗，能夠得到每個智能體的仿真對抗評分，進而根據(jù)仿真對抗評分靠前的智能體的智能體參數(shù)，能夠最終得到不同目標方優(yōu)化目標和不同目標方約束條件下的目標方均衡化智能體。如此，能夠有效提高目標方均衡化智能體的泛化能力，使得目標方均衡化智能體可以更好地適應各種具有不同風格和傾向的對手，在面臨復雜多變的對抗任務時，即使在完全不了解對手的情況下，目標方均衡化智能體也能取得較好的對抗效果。

完整全部詳細技術資料下載

當前第1頁1 2

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：曹揚,趙思聰,李冬雪,趙若帆,賈帥楠,賈思雨,薛源
技術所有人：北京航天晨信科技有限責任公司
我是此專利的發(fā)明人

上一篇：汽輪機汽缸找平工具的制作方法
上一篇：一種可防止噴射頭甩動的消防滅火器的制作方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于簇間對抗的智能體訓練方法和裝置與流程