本發(fā)明涉及人工智能,尤其涉及一種多機器人博弈仿真方法、仿真平臺、電子設備及存儲介質。
背景技術:
1、近年來,多智能體博弈成為人工智能領域的重要研究方向,為開展各類實驗提供了可控和可復現的環(huán)境,通過模擬多個智能體在動態(tài)環(huán)境中的對抗與協(xié)作,研究人員可以更好地理解復雜系統(tǒng)的行為,并推動智能化決策系統(tǒng)的發(fā)展。
2、現有多智能體博弈仿真平臺通常通過強化學習生成博弈策略,強化學習通常只考慮智能體與環(huán)境的交互,生成的策略具有一定的局限性。
技術實現思路
1、本發(fā)明提供一種多機器人博弈仿真方法、仿真平臺、電子設備及存儲介質,解決多智能體博弈仿真平臺通過強化學習生成博弈策略,強化學習通常只考慮智能體與環(huán)境的交互,生成的策略具有一定的局限性的缺陷。
2、本發(fā)明提供一種多機器人博弈仿真方法,包括:
3、運行至少一環(huán)境實例,各所述環(huán)境實例中設有至少一己方機器人以及至少一對手機器人;
4、在當前訓練輪中,確定各所述環(huán)境實例共享的訓練策略以及與各所述對手機器人對應的對手策略,將所述訓練策略對應的第一控制指令發(fā)送至所述己方機器人并將所述對手策略對應的第二控制指令發(fā)送至所述對手機器人,以便所述己方機器人和所述對手機器人在所述環(huán)境實例中執(zhí)行博弈任務。
5、作為一個實施例,還包括:獲取各所述環(huán)境實例中的所述己方機器人在執(zhí)行博弈任務過程后的狀態(tài)空間、動作空間和博弈勝率,根據所述狀態(tài)空間和所述動作空間更新所述訓練策略,根據所述博弈勝率判斷是否更新所述對手策略,基于更新后的訓練策略以及所述對手策略/更新后的對手策略進入下一訓練輪直至達到預設訓練停止條件。
6、作為一個實施例,所述確定各所述環(huán)境實例共享的訓練策略以及與各所述對手機器人對應的對手策略,包括:
7、獲取各所述環(huán)境實例中的所述己方機器人的當前對抗態(tài)勢,根據所述當前對抗態(tài)勢確定各所述環(huán)境實例中所述己方機器人的當前動作空間,將所述當前動作空間作為所述己方機器人的目標點;
8、將所述目標點輸入至預設的路徑規(guī)劃器,得到所述己方機器人移動至所述目標點的規(guī)劃路徑,根據所述目標點和所述規(guī)劃路徑得到所述訓練策略;
9、基于自博弈算法從預設策略池中抽取策略,將抽取的策略作為所述對手策略。
10、作為一個實施例,所述當前對抗態(tài)勢包括當前狀態(tài)空間,對應的,所述根據所述當前對抗態(tài)勢確定各所述環(huán)境實例中所述己方機器人的當前動作空間,包括:
11、將各所述環(huán)境實例對應的所述當前狀態(tài)空間輸入至預設的強化學習網絡,得到各所述環(huán)境實例中所述己方機器人的目標點。
12、作為一個實施例,所述根據所述博弈勝率判斷是否更新所述對手策略,基于更新后的訓練策略以及所述對手策略/更新后的對手策略進入下一訓練輪直至達到預設訓練停止條件,包括:
13、若所述博弈勝率不大于預設閾值,基于更新后的訓練策略以及所述對手策略進入下一訓練輪直至達到預設訓練停止條件;
14、若所述博弈勝率大于預設閾值,將所述訓練策略添加至所述策略池;基于自博弈算法分別為各所述對手機器人從所述策略池中抽取策略,將抽取的策略作為更新后的對手策略,基于更新后的訓練策略以及更新后的對手策略進入下一訓練輪直至達到預設訓練停止條件。
15、作為一個實施例,各所述環(huán)境實例中的所述對手策略不同。
16、作為一個實施例,所述己方機器人和對手機器人均包括底盤、云臺、設在所述底盤上的車輪和激光雷達,所述底盤和所述車輪之間設有用于驅動所述車輪旋轉的第一關節(jié),所述底盤與所述云臺之間設有用于驅動所述云臺旋轉的第二關節(jié),對應的,在所述運行至少一環(huán)境實例,各所述環(huán)境實例中設有至少一己方機器人以及至少一對手機器人之前,還包括:
17、對所述己方機器人或對手機器人的每個所述車輪進行單獨建模,得到精細化建模的所述己方機器人或對手機器人。
18、本發(fā)明還提供一種多機器人博弈仿真平臺,包括:
19、運行模塊,用于運行至少一環(huán)境實例,各所述環(huán)境實例中設有至少一己方機器人以及至少一對手機器人;
20、訓練模塊,用于在當前訓練輪中,確定各所述環(huán)境實例共享的訓練策略以及與各所述對手機器人對應的對手策略,將所述訓練策略對應的第一控制指令發(fā)送至所述己方機器人并將所述對手策略對應的第二控制指令發(fā)送至所述對手機器人,以便所述己方機器人和所述對手機器人在所述環(huán)境實例中執(zhí)行博弈任務。
21、本發(fā)明還提供一種電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現如上述任一種所述多機器人博弈仿真方法。
22、本發(fā)明還提供一種非暫態(tài)計算機可讀存儲介質,其上存儲有計算機程序,該計算機程序被處理器執(zhí)行時實現如上述任一種所述多機器人博弈仿真方法。
23、本發(fā)明提供的多機器人博弈仿真方法、仿真平臺、電子設備及存儲介質,通過并行運行環(huán)境實例,在各環(huán)境實例中為己方機器人配置對手機器人,提高對抗訓練經驗多樣性,實現對環(huán)境實例的充分探索,且各環(huán)境實例中的對手機器人均根據對手策略與共享策略的己方機器人進行對抗博弈,有助于制定更加穩(wěn)健和通用的策略。
1.一種多機器人博弈仿真方法,其特征在于,包括:
2.根據權利要求1所述的多機器人博弈仿真方法,其特征在于,還包括:
3.根據權利要求1所述的多機器人博弈仿真方法,其特征在于,所述確定各所述環(huán)境實例共享的訓練策略以及與各所述對手機器人對應的對手策略,包括:
4.根據權利要求3所述的多機器人博弈仿真方法,其特征在于,所述當前對抗態(tài)勢包括當前狀態(tài)空間,對應的,所述根據所述當前對抗態(tài)勢確定各所述環(huán)境實例中所述己方機器人的當前動作空間,包括:
5.根據權利要求2所述的多機器人博弈仿真方法,其特征在于,所述根據所述博弈勝率判斷是否更新所述對手策略,基于更新后的訓練策略以及所述對手策略/更新后的對手策略進入下一訓練輪直至達到預設訓練停止條件,包括:
6.根據權利要求1-5任一項所述的多機器人博弈仿真方法,其特征在于,各所述環(huán)境實例中的所述對手策略不同。
7.根據權利要求1-5任一項所述的多機器人博弈仿真方法,其特征在于,所述己方機器人和對手機器人均包括底盤、云臺、設在所述底盤上的車輪和激光雷達,所述底盤和所述車輪之間設有用于驅動所述車輪旋轉的第一關節(jié),所述底盤與所述云臺之間設有用于驅動所述云臺旋轉的第二關節(jié),對應的,在所述運行至少一環(huán)境實例,各所述環(huán)境實例中設有至少一己方機器人以及至少一對手機器人之前,還包括:
8.一種多機器人博弈仿真平臺,其特征在于,包括:
9.一種電子設備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,其特征在于,所述處理器執(zhí)行所述計算機程序時實現如權利要求1至7任一項所述多機器人博弈仿真方法。
10.一種非暫態(tài)計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現如權利要求1至7任一項所述多機器人博弈仿真方法。