多機器人博弈仿真方法、仿真平臺、電子設備及存儲介質

文檔序號：40561507發(fā)布日期：2025-01-03 11:21閱讀：12來源：國知局

本發(fā)明涉及人工智能，尤其涉及一種多機器人博弈仿真方法、仿真平臺、電子設備及存儲介質。

背景技術：

1、近年來，多智能體博弈成為人工智能領域的重要研究方向，為開展各類實驗提供了可控和可復現的環(huán)境，通過模擬多個智能體在動態(tài)環(huán)境中的對抗與協(xié)作，研究人員可以更好地理解復雜系統(tǒng)的行為，并推動智能化決策系統(tǒng)的發(fā)展。

2、現有多智能體博弈仿真平臺通常通過強化學習生成博弈策略，強化學習通常只考慮智能體與環(huán)境的交互，生成的策略具有一定的局限性。

技術實現思路

1、本發(fā)明提供一種多機器人博弈仿真方法、仿真平臺、電子設備及存儲介質，解決多智能體博弈仿真平臺通過強化學習生成博弈策略，強化學習通常只考慮智能體與環(huán)境的交互，生成的策略具有一定的局限性的缺陷。

2、本發(fā)明提供一種多機器人博弈仿真方法，包括：

3、運行至少一環(huán)境實例，各所述環(huán)境實例中設有至少一己方機器人以及至少一對手機器人；

4、在當前訓練輪中，確定各所述環(huán)境實例共享的訓練策略以及與各所述對手機器人對應的對手策略，將所述訓練策略對應的第一控制指令發(fā)送至所述己方機器人并將所述對手策略對應的第二控制指令發(fā)送至所述對手機器人，以便所述己方機器人和所述對手機器人在所述環(huán)境實例中執(zhí)行博弈任務。

5、作為一個實施例，還包括：獲取各所述環(huán)境實例中的所述己方機器人在執(zhí)行博弈任務過程后的狀態(tài)空間、動作空間和博弈勝率，根據所述狀態(tài)空間和所述動作空間更新所述訓練策略，根據所述博弈勝率判斷是否更新所述對手策略，基于更新后的訓練策略以及所述對手策略/更新后的對手策略進入下一訓練輪直至達到預設訓練停止條件。

6、作為一個實施例，所述確定各所述環(huán)境實例共享的訓練策略以及與各所述對手機器人對應的對手策略，包括：

7、獲取各所述環(huán)境實例中的所述己方機器人的當前對抗態(tài)勢，根據所述當前對抗態(tài)勢確定各所述環(huán)境實例中所述己方機器人的當前動作空間，將所述當前動作空間作為所述己方機器人的目標點；

8、將所述目標點輸入至預設的路徑規(guī)劃器，得到所述己方機器人移動至所述目標點的規(guī)劃路徑，根據所述目標點和所述規(guī)劃路徑得到所述訓練策略；

9、基于自博弈算法從預設策略池中抽取策略，將抽取的策略作為所述對手策略。

10、作為一個實施例，所述當前對抗態(tài)勢包括當前狀態(tài)空間，對應的，所述根據所述當前對抗態(tài)勢確定各所述環(huán)境實例中所述己方機器人的當前動作空間，包括：

11、將各所述環(huán)境實例對應的所述當前狀態(tài)空間輸入至預設的強化學習網絡，得到各所述環(huán)境實例中所述己方機器人的目標點。

12、作為一個實施例，所述根據所述博弈勝率判斷是否更新所述對手策略，基于更新后的訓練策略以及所述對手策略/更新后的對手策略進入下一訓練輪直至達到預設訓練停止條件，包括：

13、若所述博弈勝率不大于預設閾值，基于更新后的訓練策略以及所述對手策略進入下一訓練輪直至達到預設訓練停止條件；

14、若所述博弈勝率大于預設閾值，將所述訓練策略添加至所述策略池；基于自博弈算法分別為各所述對手機器人從所述策略池中抽取策略，將抽取的策略作為更新后的對手策略，基于更新后的訓練策略以及更新后的對手策略進入下一訓練輪直至達到預設訓練停止條件。

15、作為一個實施例，各所述環(huán)境實例中的所述對手策略不同。

16、作為一個實施例，所述己方機器人和對手機器人均包括底盤、云臺、設在所述底盤上的車輪和激光雷達，所述底盤和所述車輪之間設有用于驅動所述車輪旋轉的第一關節(jié)，所述底盤與所述云臺之間設有用于驅動所述云臺旋轉的第二關節(jié)，對應的，在所述運行至少一環(huán)境實例，各所述環(huán)境實例中設有至少一己方機器人以及至少一對手機器人之前，還包括：

17、對所述己方機器人或對手機器人的每個所述車輪進行單獨建模，得到精細化建模的所述己方機器人或對手機器人。

18、本發(fā)明還提供一種多機器人博弈仿真平臺，包括：

19、運行模塊，用于運行至少一環(huán)境實例，各所述環(huán)境實例中設有至少一己方機器人以及至少一對手機器人；

20、訓練模塊，用于在當前訓練輪中，確定各所述環(huán)境實例共享的訓練策略以及與各所述對手機器人對應的對手策略，將所述訓練策略對應的第一控制指令發(fā)送至所述己方機器人并將所述對手策略對應的第二控制指令發(fā)送至所述對手機器人，以便所述己方機器人和所述對手機器人在所述環(huán)境實例中執(zhí)行博弈任務。

21、本發(fā)明還提供一種電子設備，包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序，所述處理器執(zhí)行所述計算機程序時實現如上述任一種所述多機器人博弈仿真方法。

22、本發(fā)明還提供一種非暫態(tài)計算機可讀存儲介質，其上存儲有計算機程序，該計算機程序被處理器執(zhí)行時實現如上述任一種所述多機器人博弈仿真方法。

23、本發(fā)明提供的多機器人博弈仿真方法、仿真平臺、電子設備及存儲介質，通過并行運行環(huán)境實例，在各環(huán)境實例中為己方機器人配置對手機器人，提高對抗訓練經驗多樣性，實現對環(huán)境實例的充分探索，且各環(huán)境實例中的對手機器人均根據對手策略與共享策略的己方機器人進行對抗博弈，有助于制定更加穩(wěn)健和通用的策略。

技術特征：

1.一種多機器人博弈仿真方法，其特征在于，包括：

2.根據權利要求1所述的多機器人博弈仿真方法，其特征在于，還包括：

3.根據權利要求1所述的多機器人博弈仿真方法，其特征在于，所述確定各所述環(huán)境實例共享的訓練策略以及與各所述對手機器人對應的對手策略，包括：

4.根據權利要求3所述的多機器人博弈仿真方法，其特征在于，所述當前對抗態(tài)勢包括當前狀態(tài)空間，對應的，所述根據所述當前對抗態(tài)勢確定各所述環(huán)境實例中所述己方機器人的當前動作空間，包括：

5.根據權利要求2所述的多機器人博弈仿真方法，其特征在于，所述根據所述博弈勝率判斷是否更新所述對手策略，基于更新后的訓練策略以及所述對手策略/更新后的對手策略進入下一訓練輪直至達到預設訓練停止條件，包括：

6.根據權利要求1-5任一項所述的多機器人博弈仿真方法，其特征在于，各所述環(huán)境實例中的所述對手策略不同。

7.根據權利要求1-5任一項所述的多機器人博弈仿真方法，其特征在于，所述己方機器人和對手機器人均包括底盤、云臺、設在所述底盤上的車輪和激光雷達，所述底盤和所述車輪之間設有用于驅動所述車輪旋轉的第一關節(jié)，所述底盤與所述云臺之間設有用于驅動所述云臺旋轉的第二關節(jié)，對應的，在所述運行至少一環(huán)境實例，各所述環(huán)境實例中設有至少一己方機器人以及至少一對手機器人之前，還包括：

8.一種多機器人博弈仿真平臺，其特征在于，包括：

9.一種電子設備，包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序，其特征在于，所述處理器執(zhí)行所述計算機程序時實現如權利要求1至7任一項所述多機器人博弈仿真方法。

10.一種非暫態(tài)計算機可讀存儲介質，其上存儲有計算機程序，其特征在于，所述計算機程序被處理器執(zhí)行時實現如權利要求1至7任一項所述多機器人博弈仿真方法。

技術總結
本發(fā)明提供一種多機器人博弈仿真方法、仿真平臺、電子設備及存儲介質，屬于人工智能技術領域，方法包括運行至少一環(huán)境實例，各環(huán)境實例中設有至少一己方機器人以及至少一對手機器人；在當前訓練輪中，確定各環(huán)境實例共享的訓練策略以及與各對手機器人對應的對手策略，將訓練策略對應的第一控制指令發(fā)送至己方機器人并將對手策略對應的第二控制指令發(fā)送至對手機器人，以便己方機器人和對手機器人在環(huán)境實例中執(zhí)行博弈任務。本發(fā)明在各環(huán)境實例中為己方機器人配置對手機器人，提高對抗訓練經驗多樣性，實現對環(huán)境實例的充分探索，且各環(huán)境實例中的對手機器人均根據對手策略與共享策略的己方機器人進行對抗博弈，有助于制定更加穩(wěn)健和通用的策略。

技術研發(fā)人員：何友,劉瑜,柯宇新,李劭輝,李徵,姜智卓,李耀文
受保護的技術使用者：清華大學深圳國際研究生院
技術研發(fā)日：
技術公布日：2025/1/2

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯系技術所有人。
技術研發(fā)人員：何友,劉瑜,柯宇新,李劭輝,李徵,姜智卓,李耀文
技術所有人：清華大學深圳國際研究生院
我是此專利的發(fā)明人

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網絡及物聯網
4、王老師：1.計算機網絡安全 2.計算機仿真技術
5、王老師：1.網絡安全；物聯網安全、大數據安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯系我們加入專家?guī)臁?/a>

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

多機器人博弈仿真方法、仿真平臺、電子設備及存儲介質

多機器人博弈仿真方法、仿真平臺、電子設備及存儲介質