一種非完備信息的博弈策略生成方法

文檔序號(hào)：9667836閱讀：950來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種非完備信息的博弈策略生成方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種完備信息博弈下的策略生成方法，特別涉及具有完美回憶特征的非完備信息博弈的策略生成方法。
【背景技術(shù)】
[0002] 博弈大致可以分為兩種：完備信息下的博弈和非完備信息下的博弈。前者指雙方都可以完全獲得當(dāng)前的信息，例如在圍棋、象棋和五子棋的對(duì)弈過程中，雙方對(duì)棋盤上的所有棋子分布、對(duì)手的動(dòng)作都可以完全地獲得；后者指雙方無法獲得全盤的信息，例如在大量撲克游戲中（德州撲克、橋牌等），任何玩家都無法在游戲過程中直接觀看其它玩家的手牌。博弈問題的求解是人工智能領(lǐng)域的重要問題。
[0003] 在完備信息的博弈中，極大極小值算法獲得了巨大成功。該算法以當(dāng)前狀態(tài)作為根節(jié)點(diǎn)構(gòu)造博弈樹，并從當(dāng)前狀態(tài)出發(fā)，遍歷往后若干（k)步內(nèi)的所有情況。假設(shè)對(duì)手也是以最優(yōu)的策略進(jìn)行博弈，則算法可以得出一條從當(dāng)前節(jié)點(diǎn)（根節(jié)點(diǎn)）出發(fā)到k步之后的一條路徑。算法將這條路徑的第一步選作最優(yōu)策略進(jìn)行博弈。該算法的最主要局限在于時(shí) 間復(fù)雜度為〇(xk)，是一個(gè)指數(shù)形式。其中X是每一個(gè)狀態(tài)下，可能的決策數(shù)量，k為算法往后推測(cè)算的步數(shù)。為了降低時(shí)間復(fù)雜度以及實(shí)際等待時(shí)間，出現(xiàn)了α-β剪枝、搜索順序優(yōu) 化、直接進(jìn)行狀態(tài)查找匹配、利用對(duì)手思考時(shí)間計(jì)算等優(yōu)化方法。這些方法有效地提高了算法的運(yùn)行效率，尤其在一些特殊情況下，例如：1)設(shè)計(jì)了開局庫(kù)的象棋博弈程序，可以在開局若干步內(nèi)直接檢索事先存儲(chǔ)的開局庫(kù)并給出最優(yōu)策略（比如是象棋大師實(shí)戰(zhàn)的，或者是程序長(zhǎng)時(shí)間計(jì)算得出的著法）；2)經(jīng)過了搜索順序優(yōu)化和α_β剪枝優(yōu)化的象棋算法，在對(duì) 方將軍時(shí)優(yōu)先搜索應(yīng)將的著法（應(yīng)將的著法一般不多），則可以顯著加快得到最優(yōu)解的速度。
[0004] 在非完備信息的博弈中，由于無法得知全部的信息，也無法推測(cè)我們?cè)谶M(jìn)行一步行動(dòng)之后，對(duì)手會(huì)以怎樣的動(dòng)作和我們進(jìn)行對(duì)抗。這使得原有的優(yōu)化算法難以直接應(yīng)用在非完備信息的博弈中。因此出現(xiàn)了利用機(jī)器學(xué)習(xí)技術(shù)學(xué)習(xí)職業(yè)選手的對(duì)局的方法。該方法的缺點(diǎn)在于數(shù)據(jù)量的需求過大。部分博弈游戲的特殊性，并沒有過多的文本化的記錄信息，甚至不存在職業(yè)選手。另一種方法是進(jìn)行納什均衡點(diǎn)的搜索。影響該方法普遍使用的最大障礙在于理論非常艱深，實(shí)現(xiàn)過于復(fù)雜。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明針對(duì)非完備信息的博弈中所存在的對(duì)手信息無法確定、決策期望值無法計(jì) 算的問題，提供了一種根據(jù)對(duì)手行動(dòng)推測(cè)對(duì)手信息，從而計(jì)算最終決策期望值的方法，并作出最終決策的方法。
[0006] 為實(shí)現(xiàn)上述目的，本發(fā)明可采取下述技術(shù)方案：
[0007] -種非完備信息博弈的策略生成方法，所述非完備信息的博弈特指具有以下特征的博弈：博弈過程中，對(duì)手的行為對(duì)自己而言可見；博弈過程中，對(duì)手的行為對(duì)自己而言可以完美回憶；對(duì)手的行為依賴其信息，即對(duì)手的行為可以體現(xiàn)對(duì)手的信息；包括以下步驟：
[0008] 步驟一，對(duì)手行為建模：在博弈進(jìn)行之前，根據(jù)該博弈的特定規(guī)則，對(duì)對(duì)手的每一種行為建立模型，所述模型用于將對(duì)手的行為與對(duì)手信息的概率分布進(jìn)行映射；
[0009] 步驟二，行為收集與信息預(yù)測(cè)：在博弈過程中，記錄對(duì)手每一次行為的信息，并將這些信息與步驟一中的模型進(jìn)行匹配和映射，得到對(duì)手信息的概率分布；
[0010] 步驟三，勝率計(jì)算：根據(jù)步驟二中映射得到的概率分布，通過蒙特卡洛方法進(jìn)行模擬得到自身的勝率；
[0011] 步驟四，得到行動(dòng)：根據(jù)步驟三中得到的勝率，通過計(jì)算期望值得到相應(yīng)的行動(dòng)。
[0012] 進(jìn)一步的，所述步驟一中的模型以對(duì)手的行為作為輸入，以對(duì)手信息的概率分布作為輸出；
[0013]具體的，假設(shè)對(duì)手的信息有k種可能性，記為{ai，a2，…，aj，對(duì)于每一種可能性&1， i= 1，2, 一，k，首先根據(jù)對(duì)手行為與％的匹配程度得到一個(gè)匹配值mi，然后計(jì)算每一種可能性的概率值Ρρ
[0014] Pi= m i/Oi^+n^+m+mJ
[0015] 從而得到所有可能性的概率分布，也就是一個(gè)k維向量{Pl，p2，…，pk}，其中？1是對(duì)手的信息?。サ母怕?。如果對(duì)手的行為已經(jīng)不止一次（即博弈進(jìn)行了多個(gè)階段），則對(duì) 手的信息實(shí)際上是一個(gè)列表，包括了以往的歷史行為。這個(gè)時(shí)候，我們需要將對(duì)手信息％多次地與對(duì)手不同階段的行為進(jìn)行匹配，然后將多個(gè)匹配值的乘積作為上式中的叫的值。
[0016] 進(jìn)一步的，如果一次博弈包括多次對(duì)手行為，則所述步驟二中對(duì)手信息包括本次博弈中對(duì)手的所有歷史行為；所述的所有歷史行為組成一個(gè)列表，所述列表通過步驟一中的模型映射成一個(gè)k維概率分布。該k維概率分布不僅反映了對(duì)手本次的行為，也反映了對(duì)手的歷史行為，從而使概率分布可以更加準(zhǔn)確。
[0017] 進(jìn)一步的，所述步驟三中，通過蒙特卡洛方法隨機(jī)選擇對(duì)手的一個(gè)信息，假設(shè)為 %，服從步驟二中產(chǎn)生的概率分布；以ai作為對(duì)手信息（相當(dāng)于我們已經(jīng)知道了本來只有對(duì)手可見的信息），并判斷博弈的勝負(fù)；將蒙特卡洛方法循環(huán)若干次，即多次選?。?，多次比較判斷博弈勝負(fù)，從而得到博弈的勝率Pwin:
[0018]pwin=countwin/countlose
[0019] 其中，countwin是獲勝的次數(shù)；count丨^是失敗的次數(shù)。
[0020] 使用蒙特卡洛方法隨機(jī)選擇對(duì)手信息的時(shí)候，對(duì)于任何兩個(gè)信息％和a2，由于是按照對(duì)應(yīng)的概率分布進(jìn)行選?。ㄒ愿怕剩?選ai，概率？2選a2)，如果產(chǎn)生的概率分布中 ρ2>Ρι，則我們選取32的可能也會(huì)大于a1<3
[0021] 進(jìn)一步的，所述步驟四中，將步驟三中得到的勝率作為基礎(chǔ)進(jìn)行決策；在非完備信息博弈中，因?yàn)闊o法得知對(duì)手的信息，也就無從知道博弈的最終勝負(fù)。但本發(fā)明的方法通過合理的預(yù)測(cè)，在得到對(duì)手信息的概率分布的前提下，預(yù)測(cè)比賽的勝率（方便起見，假設(shè)該博弈沒有平局）。
[0022] 具體的，假設(shè)勝率為pwin，在當(dāng)前狀態(tài)下有m種行動(dòng)可供選擇：{action^action2, …actionj，對(duì)于行動(dòng)action;，如果博弈勝利的收益為payoffiiWin，失敗的收益為 payoffiiklse，則選擇收益期望值最高的行動(dòng)作為最終決策actionrasult，即：
[0023]Actionresult=actionr，使Vx#Γ且XG[0,η]，有Ex<Er，
[0024] 其中，Ex、Er分別是決策actionjPactionr的收益期望；對(duì)于任何決策action; 的收益期望Ei，用如下方法計(jì)算：
[0025] Ei=pwinXpayoffliWin+(l-pwin)Xpayoffljlose
[0026] 本發(fā)明的非完備信息的博弈策略生成方法，邏輯清晰、實(shí)現(xiàn)簡(jiǎn)單、對(duì)手信息和勝率計(jì)算準(zhǔn)確，實(shí)戰(zhàn)效果顯著。在非完備信息的博弈中，可以準(zhǔn)確的推測(cè)對(duì)手的信息，從而計(jì)算自己在選擇不同策略時(shí)的期望，進(jìn)而幫助自己進(jìn)行博弈。本發(fā)明為非完備信息博弈提供了全新的思路。無論是在人-機(jī)博弈，還是機(jī)-機(jī)博弈中，均能有效地解決非完備信息博弈中的瓶頸問題：對(duì)不可見信息的評(píng)估。甚至在對(duì)手有意進(jìn)行欺騙（即對(duì)手所選擇的行動(dòng)完全不體現(xiàn)其信息）的情況下，只要本方法與對(duì)手博弈足夠長(zhǎng)的時(shí)間，便可以對(duì)其行為進(jìn)行建模。之后如果對(duì)手再次采取類似的欺騙手段，本發(fā)明仍然可以有效地進(jìn)行判斷。由于現(xiàn)實(shí) 生活中的大量情況可以抽象成非完全信息博弈（比如工程招投標(biāo)過程、股市等大量經(jīng)濟(jì)活動(dòng)），因此該方法在現(xiàn)實(shí)活動(dòng)及工業(yè)生產(chǎn)中具有重要的指導(dǎo)意義，可以提高具體情境下的決策能力，最大化決策利益，提高工業(yè)生產(chǎn)效率。
【附圖說明】
[0027] 圖1為本發(fā)明的非完備信息博弈的策略生成方法的流程示意圖。
【具體實(shí)施方式】
[0028] 本發(fā)明提供了一種非完備信息的博弈策略生成方法，包括以下具體步驟：
[0029] 對(duì)手行為建模步驟：在博弈進(jìn)行之前，根據(jù)該博弈的特定規(guī)則，對(duì)對(duì)手的每一種行為進(jìn)行建模。該模型可以將對(duì)手的行為與對(duì)手的信息（僅對(duì)手可見）的概率分布進(jìn)行映射。
[0030] 行為收集與信息預(yù)測(cè)：在博弈過程中，記錄對(duì)手每一次行動(dòng)的信息，并將這些信息與模型進(jìn)行匹配和映射，得到對(duì)手的信息的概率分布；
[0031] 根據(jù)預(yù)測(cè)進(jìn)行勝率計(jì)算：根據(jù)上一步中映射得到的概率分布，通過蒙特卡洛方法進(jìn)行模擬得到自己的勝率。
[0032] 根據(jù)勝率得到行動(dòng)：根據(jù)上一步中得到的勝率，通過計(jì)算期望值得到相應(yīng)的行動(dòng)。
[0033] 于本發(fā)明的一個(gè)實(shí)施例中，對(duì)手行為建模步驟中的模型以對(duì)手的行為作為輸入，以對(duì)手信息的概率分布作為輸出。例如對(duì)手的信息有k中可能性，記為{ai，a2，…，ak}。對(duì) 手信息的概率分布指的是k維向量{Pl，p2，…，pj，其中？1是對(duì)手的信息取a^勺概率。 [0034] 于本發(fā)明的一個(gè)實(shí)施例中，如果一次博弈包括多次對(duì)手行為，則行為收集與信息預(yù)測(cè)步驟中的對(duì)手信息包括本次博弈中對(duì)手的所有歷史行為。這些歷史行為組成一個(gè)列表。該列表通過行為建模步驟中的模型映射成一個(gè)k維概率分布。該k維概率分布不僅反映了對(duì)手本次的行為，也反映了對(duì)手的歷史行為，
[0035] 從而使概率分布可以更加準(zhǔn)確。
[0036] 于本發(fā)明的一個(gè)實(shí)施例中，在勝率計(jì)算時(shí)，通過蒙特卡洛方法隨機(jī)選擇對(duì)手的一個(gè)信息，假設(shè)為％。 &1服從步驟（200)中產(chǎn)生的概率分布。以ai作為對(duì)手信息（相當(dāng)于我們已經(jīng)知道了本來只有對(duì)手可見的信息），并判斷博弈的勝負(fù)。我們將蒙特卡洛方法循環(huán)若干次，即多次選?。?，多次比較判斷博弈勝負(fù)，便可以得到本次博弈的勝率。
[0037] pwin=countwin/countlose
[003

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李翔;吳朝暉;姜曉紅;包友軍;陳英芝;
技術(shù)所有人：浙江大學(xué);
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種非完備信息的博弈策略生成方法