一種非完備信息的博弈策略生成方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種完備信息博弈下的策略生成方法,特別涉及具有完美回憶特征的 非完備信息博弈的策略生成方法。
【背景技術(shù)】
[0002] 博弈大致可以分為兩種:完備信息下的博弈和非完備信息下的博弈。前者指雙方 都可以完全獲得當(dāng)前的信息,例如在圍棋、象棋和五子棋的對(duì)弈過程中,雙方對(duì)棋盤上的所 有棋子分布、對(duì)手的動(dòng)作都可以完全地獲得;后者指雙方無法獲得全盤的信息,例如在大量 撲克游戲中(德州撲克、橋牌等),任何玩家都無法在游戲過程中直接觀看其它玩家的手 牌。博弈問題的求解是人工智能領(lǐng)域的重要問題。
[0003] 在完備信息的博弈中,極大極小值算法獲得了巨大成功。該算法以當(dāng)前狀態(tài)作為 根節(jié)點(diǎn)構(gòu)造博弈樹,并從當(dāng)前狀態(tài)出發(fā),遍歷往后若干(k)步內(nèi)的所有情況。假設(shè)對(duì)手也 是以最優(yōu)的策略進(jìn)行博弈,則算法可以得出一條從當(dāng)前節(jié)點(diǎn)(根節(jié)點(diǎn))出發(fā)到k步之后的 一條路徑。算法將這條路徑的第一步選作最優(yōu)策略進(jìn)行博弈。該算法的最主要局限在于時(shí) 間復(fù)雜度為〇(xk),是一個(gè)指數(shù)形式。其中X是每一個(gè)狀態(tài)下,可能的決策數(shù)量,k為算法往 后推測(cè)算的步數(shù)。為了降低時(shí)間復(fù)雜度以及實(shí)際等待時(shí)間,出現(xiàn)了α-β剪枝、搜索順序優(yōu) 化、直接進(jìn)行狀態(tài)查找匹配、利用對(duì)手思考時(shí)間計(jì)算等優(yōu)化方法。這些方法有效地提高了算 法的運(yùn)行效率,尤其在一些特殊情況下,例如:1)設(shè)計(jì)了開局庫(kù)的象棋博弈程序,可以在開 局若干步內(nèi)直接檢索事先存儲(chǔ)的開局庫(kù)并給出最優(yōu)策略(比如是象棋大師實(shí)戰(zhàn)的,或者是 程序長(zhǎng)時(shí)間計(jì)算得出的著法);2)經(jīng)過了搜索順序優(yōu)化和α_β剪枝優(yōu)化的象棋算法,在對(duì) 方將軍時(shí)優(yōu)先搜索應(yīng)將的著法(應(yīng)將的著法一般不多),則可以顯著加快得到最優(yōu)解的速 度。
[0004] 在非完備信息的博弈中,由于無法得知全部的信息,也無法推測(cè)我們?cè)谶M(jìn)行一步 行動(dòng)之后,對(duì)手會(huì)以怎樣的動(dòng)作和我們進(jìn)行對(duì)抗。這使得原有的優(yōu)化算法難以直接應(yīng)用在 非完備信息的博弈中。因此出現(xiàn)了利用機(jī)器學(xué)習(xí)技術(shù)學(xué)習(xí)職業(yè)選手的對(duì)局的方法。該方法 的缺點(diǎn)在于數(shù)據(jù)量的需求過大。部分博弈游戲的特殊性,并沒有過多的文本化的記錄信息, 甚至不存在職業(yè)選手。另一種方法是進(jìn)行納什均衡點(diǎn)的搜索。影響該方法普遍使用的最大 障礙在于理論非常艱深,實(shí)現(xiàn)過于復(fù)雜。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明針對(duì)非完備信息的博弈中所存在的對(duì)手信息無法確定、決策期望值無法計(jì) 算的問題,提供了一種根據(jù)對(duì)手行動(dòng)推測(cè)對(duì)手信息,從而計(jì)算最終決策期望值的方法,并作 出最終決策的方法。
[0006] 為實(shí)現(xiàn)上述目的,本發(fā)明可采取下述技術(shù)方案:
[0007] -種非完備信息博弈的策略生成方法,所述非完備信息的博弈特指具有以下特征 的博弈:博弈過程中,對(duì)手的行為對(duì)自己而言可見;博弈過程中,對(duì)手的行為對(duì)自己而言可 以完美回憶;對(duì)手的行為依賴其信息,即對(duì)手的行為可以體現(xiàn)對(duì)手的信息;包括以下步驟:
[0008] 步驟一,對(duì)手行為建模:在博弈進(jìn)行之前,根據(jù)該博弈的特定規(guī)則,對(duì)對(duì)手的每一 種行為建立模型,所述模型用于將對(duì)手的行為與對(duì)手信息的概率分布進(jìn)行映射;
[0009] 步驟二,行為收集與信息預(yù)測(cè):在博弈過程中,記錄對(duì)手每一次行為的信息,并將 這些信息與步驟一中的模型進(jìn)行匹配和映射,得到對(duì)手信息的概率分布;
[0010] 步驟三,勝率計(jì)算:根據(jù)步驟二中映射得到的概率分布,通過蒙特卡洛方法進(jìn)行模 擬得到自身的勝率;
[0011] 步驟四,得到行動(dòng):根據(jù)步驟三中得到的勝率,通過計(jì)算期望值得到相應(yīng)的行動(dòng)。
[0012] 進(jìn)一步的,所述步驟一中的模型以對(duì)手的行為作為輸入,以對(duì)手信息的概率分布 作為輸出;
[0013]具體的,假設(shè)對(duì)手的信息有k種可能性,記為{ai,a2,…,aj,對(duì)于每一種可能性&1, i= 1,2, 一,k,首先根據(jù)對(duì)手行為與%的匹配程度得到一個(gè)匹配值mi,然后計(jì)算每一種可 能性的概率值Ρρ
[0014] Pi= m i/Oi^+n^+m+mJ
[0015] 從而得到所有可能性的概率分布,也就是一個(gè)k維向量{Pl,p2,…,pk},其中?1是 對(duì)手的信息?。サ母怕?。如果對(duì)手的行為已經(jīng)不止一次(即博弈進(jìn)行了多個(gè)階段),則對(duì) 手的信息實(shí)際上是一個(gè)列表,包括了以往的歷史行為。這個(gè)時(shí)候,我們需要將對(duì)手信息%多 次地與對(duì)手不同階段的行為進(jìn)行匹配,然后將多個(gè)匹配值的乘積作為上式中的叫的值。
[0016] 進(jìn)一步的,如果一次博弈包括多次對(duì)手行為,則所述步驟二中對(duì)手信息包括本次 博弈中對(duì)手的所有歷史行為;所述的所有歷史行為組成一個(gè)列表,所述列表通過步驟一中 的模型映射成一個(gè)k維概率分布。該k維概率分布不僅反映了對(duì)手本次的行為,也反映了 對(duì)手的歷史行為,從而使概率分布可以更加準(zhǔn)確。
[0017] 進(jìn)一步的,所述步驟三中,通過蒙特卡洛方法隨機(jī)選擇對(duì)手的一個(gè)信息,假設(shè)為 %,服從步驟二中產(chǎn)生的概率分布;以ai作為對(duì)手信息(相當(dāng)于我們已經(jīng)知道了本來只 有對(duì)手可見的信息),并判斷博弈的勝負(fù);將蒙特卡洛方法循環(huán)若干次,即多次選?。?,多次 比較判斷博弈勝負(fù),從而得到博弈的勝率Pwin:
[0018]pwin=countwin/countlose
[0019] 其中,countwin是獲勝的次數(shù);count丨^是失敗的次數(shù)。
[0020] 使用蒙特卡洛方法隨機(jī)選擇對(duì)手信息的時(shí)候,對(duì)于任何兩個(gè)信息%和a2,由于 是按照對(duì)應(yīng)的概率分布進(jìn)行選?。ㄒ愿怕剩?選ai,概率?2選a2),如果產(chǎn)生的概率分布中 ρ2>Ρι,則我們選取32的可能也會(huì)大于a1<3
[0021] 進(jìn)一步的,所述步驟四中,將步驟三中得到的勝率作為基礎(chǔ)進(jìn)行決策;在非完備信 息博弈中,因?yàn)闊o法得知對(duì)手的信息,也就無從知道博弈的最終勝負(fù)。但本發(fā)明的方法通過 合理的預(yù)測(cè),在得到對(duì)手信息的概率分布的前提下,預(yù)測(cè)比賽的勝率(方便起見,假設(shè)該博 弈沒有平局)。
[0022] 具體的,假設(shè)勝率為pwin,在當(dāng)前狀態(tài)下有m種行動(dòng)可供選擇:{action^action2, …actionj,對(duì)于行動(dòng)action;,如果博弈勝利的收益為payoffiiWin,失敗的收益為 payoffiiklse,則選擇收益期望值最高的行動(dòng)作為最終決策actionrasult,即:
[0023]Actionresult=actionr,使Vx#Γ且XG[0,η],有Ex<Er,
[0024] 其中,Ex、Er分別是決策actionjPactionr的收益期望;對(duì)于任何決策action; 的收益期望Ei,用如下方法計(jì)算:
[0025] Ei=pwinXpayoffliWin+(l-pwin)Xpayoffljlose
[0026] 本發(fā)明的非完備信息的博弈策略生成方法,邏輯清晰、實(shí)現(xiàn)簡(jiǎn)單、對(duì)手信息和勝率 計(jì)算準(zhǔn)確,實(shí)戰(zhàn)效果顯著。在非完備信息的博弈中,可以準(zhǔn)確的推測(cè)對(duì)手的信息,從而計(jì)算 自己在選擇不同策略時(shí)的期望,進(jìn)而幫助自己進(jìn)行博弈。本發(fā)明為非完備信息博弈提供了 全新的思路。無論是在人-機(jī)博弈,還是機(jī)-機(jī)博弈中,均能有效地解決非完備信息博弈中 的瓶頸問題:對(duì)不可見信息的評(píng)估。甚至在對(duì)手有意進(jìn)行欺騙(即對(duì)手所選擇的行動(dòng)完全 不體現(xiàn)其信息)的情況下,只要本方法與對(duì)手博弈足夠長(zhǎng)的時(shí)間,便可以對(duì)其行為進(jìn)行建 模。之后如果對(duì)手再次采取類似的欺騙手段,本發(fā)明仍然可以有效地進(jìn)行判斷。由于現(xiàn)實(shí) 生活中的大量情況可以抽象成非完全信息博弈(比如工程招投標(biāo)過程、股市等大量經(jīng)濟(jì)活 動(dòng)),因此該方法在現(xiàn)實(shí)活動(dòng)及工業(yè)生產(chǎn)中具有重要的指導(dǎo)意義,可以提高具體情境下的決 策能力,最大化決策利益,提高工業(yè)生產(chǎn)效率。
【附圖說明】
[0027] 圖1為本發(fā)明的非完備信息博弈的策略生成方法的流程示意圖。
【具體實(shí)施方式】
[0028] 本發(fā)明提供了一種非完備信息的博弈策略生成方法,包括以下具體步驟:
[0029] 對(duì)手行為建模步驟:在博弈進(jìn)行之前,根據(jù)該博弈的特定規(guī)則,對(duì)對(duì)手的每一種行 為進(jìn)行建模。該模型可以將對(duì)手的行為與對(duì)手的信息(僅對(duì)手可見)的概率分布進(jìn)行映射。
[0030] 行為收集與信息預(yù)測(cè):在博弈過程中,記錄對(duì)手每一次行動(dòng)的信息,并將這些信息 與模型進(jìn)行匹配和映射,得到對(duì)手的信息的概率分布;
[0031] 根據(jù)預(yù)測(cè)進(jìn)行勝率計(jì)算:根據(jù)上一步中映射得到的概率分布,通過蒙特卡洛方法 進(jìn)行模擬得到自己的勝率。
[0032] 根據(jù)勝率得到行動(dòng):根據(jù)上一步中得到的勝率,通過計(jì)算期望值得到相應(yīng)的行動(dòng)。
[0033] 于本發(fā)明的一個(gè)實(shí)施例中,對(duì)手行為建模步驟中的模型以對(duì)手的行為作為輸入, 以對(duì)手信息的概率分布作為輸出。例如對(duì)手的信息有k中可能性,記為{ai,a2,…,ak}。對(duì) 手信息的概率分布指的是k維向量{Pl,p2,…,pj,其中?1是對(duì)手的信息取a^勺概率。 [0034] 于本發(fā)明的一個(gè)實(shí)施例中,如果一次博弈包括多次對(duì)手行為,則行為收集與信息 預(yù)測(cè)步驟中的對(duì)手信息包括本次博弈中對(duì)手的所有歷史行為。這些歷史行為組成一個(gè)列 表。該列表通過行為建模步驟中的模型映射成一個(gè)k維概率分布。該k維概率分布不僅反 映了對(duì)手本次的行為,也反映了對(duì)手的歷史行為,
[0035] 從而使概率分布可以更加準(zhǔn)確。
[0036] 于本發(fā)明的一個(gè)實(shí)施例中,在勝率計(jì)算時(shí),通過蒙特卡洛方法隨機(jī)選擇對(duì)手的一 個(gè)信息,假設(shè)為%。 &1服從步驟(200)中產(chǎn)生的概率分布。以ai作為對(duì)手信息(相當(dāng)于我 們已經(jīng)知道了本來只有對(duì)手可見的信息),并判斷博弈的勝負(fù)。我們將蒙特卡洛方法循環(huán)若 干次,即多次選?。?,多次比較判斷博弈勝負(fù),便可以得到本次博弈的勝率。
[0037] pwin=countwin/countlose
[003