欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于擬合強化學(xué)習(xí)的空戰(zhàn)行為建模方法

文檔序號:6635037閱讀:876來源:國知局
一種基于擬合強化學(xué)習(xí)的空戰(zhàn)行為建模方法
【專利摘要】本發(fā)明提出了一種基于擬合強化學(xué)習(xí)的空戰(zhàn)行為建模方法,解決了虛擬空戰(zhàn)仿真中戰(zhàn)術(shù)動作的智能決策問題。本方法包含:對飛機作戰(zhàn)過程的軌跡進行采樣;在狀態(tài)空間中對效用函數(shù)進行擬合,通過貝爾曼迭代和最小二乘法擬合對效用函數(shù)進行近似計算;作戰(zhàn)決策,通過前瞻測試,在預(yù)測過程中采用所擬合的效用函數(shù)進行動作決策,根據(jù)預(yù)測的執(zhí)行結(jié)果確定最終執(zhí)行的動作。本發(fā)明方法可有效提高效用函數(shù)的擬合效率以及獲取效率,相對傳統(tǒng)方法,本發(fā)明方法能更快地獲取最優(yōu)行動策略。
【專利說明】一種基于擬合強化學(xué)習(xí)的空戰(zhàn)行為建模方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于計算機仿真【技術(shù)領(lǐng)域】,具體涉及一種用于飛機的空戰(zhàn)智能決策任務(wù)的 實現(xiàn)方法。

【背景技術(shù)】
[0002] 隨著無人機系統(tǒng)在現(xiàn)代戰(zhàn)場中承擔(dān)的任務(wù)越來越復(fù)雜,對無人機的智能決策水 平的要求也越來越高;空戰(zhàn)決策無疑是其中難度水平最高的任務(wù)之一。
[0003] 強化學(xué)習(xí)技術(shù)是由學(xué)習(xí)對象通過"試錯"的方式與行為環(huán)境進行交互,通過即時 回報的累積來獲取自身最優(yōu)行動策略的一種方法。但在傳統(tǒng)的強化學(xué)習(xí)過程中,為了使行 動策略能夠有效收斂,一種常用的處理方式是對狀態(tài)空間各維度進行離散化,從而獲取"有 限"的基本狀態(tài)單元;行動策略就是基于這些基本單元進行不斷嘗試,從而找到叢初始單元 到目標(biāo)單元的軌跡;最優(yōu)策略是其中最短的。
[0004] 但是,如果狀態(tài)空間的維度較高,即時基本單元的數(shù)量是有限的,其數(shù)量規(guī)模也將 達到很可觀的水平;在這樣的環(huán)境中,尋找最優(yōu)策略的收斂過程將及其漫長。


【發(fā)明內(nèi)容】

[0005] 針對現(xiàn)有問題,本發(fā)明提供了一種基于擬合強化學(xué)習(xí)的空戰(zhàn)行為建模方法,采用 近似擬合的方法對空戰(zhàn)決策問題求解,將近似的擬合方法應(yīng)用到空戰(zhàn)決策問題,以快速獲 得最優(yōu)策略。
[0006] 設(shè)紅方飛機和藍方飛機進行作戰(zhàn),本發(fā)明的基于擬合強化學(xué)習(xí)的空戰(zhàn)行為建模方 法,用于紅方飛機,具體實現(xiàn)步驟如下:
[0007] 步驟1 :數(shù)據(jù)采樣;
[0008] 采用軌跡采樣法,對飛機作戰(zhàn)過程的軌跡進行記錄,獲取采樣點集合X;
[0009] 步驟2:效用函數(shù)擬合;
[0010] 采用適于連續(xù)狀態(tài)空間函數(shù)的擬合方法擬合效用函數(shù)J(X),X為態(tài)勢(或稱狀 態(tài));具體擬合方法為:首先,選取特征量描述空戰(zhàn)狀態(tài)空間,所有選取的特征量組成一個 特征向量,用特征向量表示集合X中的每個狀態(tài)X;然后,基于采樣點集合X,使用貝爾曼迭 代以及最小二乘法,進行效用函數(shù)的擬合;
[0011] 步驟3:作戰(zhàn)決策;
[0012] 對當(dāng)前的狀態(tài)X,采用前瞻測試對紅方飛機的所有動作的執(zhí)行后果進行預(yù)測,選取 預(yù)測結(jié)果最好的動作執(zhí)行。所述的前瞻測試是一種虛擬執(zhí)行的方法,以指定的動作開始虛 擬推進作戰(zhàn)過程,直到完成指定的回合數(shù)。前瞻測試的每個回合中紅方飛機均采用步驟2 得到的效用函數(shù)進行動作決策。
[0013] 所述的步驟1進行數(shù)據(jù)采樣的具體過程為:
[0014] ?建立紅方、藍方飛機,給定紅、藍雙方的初始態(tài)勢;
[0015] 魯雙方均采用式(1)定義的即時回報函數(shù)S(X),進行動作決策,展開空戰(zhàn)。動作 決策時,選取在當(dāng)前態(tài)勢下,使己方即時回報函數(shù)值最大、同時使對方即時回報函數(shù)值最小 的動作。
[0016]

【權(quán)利要求】
1. 一種基于擬合強化學(xué)習(xí)的空戰(zhàn)行為建模方法,用于作戰(zhàn)的紅方飛機,其特征在于,該 空戰(zhàn)行為建模方法包括如下三個步驟: 步驟1:數(shù)據(jù)采樣; 采用軌跡采樣法,對飛機作戰(zhàn)過程的軌跡進行記錄,獲取采樣點集合X; 步驟2:效用函數(shù)擬合; 首先,選取特征量描述空戰(zhàn)狀態(tài)空間,所有選取的特征量組成一個特征向量,用特征向 量表示集合X中的每個狀態(tài)x;然后,基于采樣點集合X,使用貝爾曼迭代以及最小二乘法, 進行效用函數(shù)的擬合; 設(shè)效用函數(shù)擬合時的循環(huán)次數(shù)為N,在第k輪循環(huán)中執(zhí)行下面(2.1)和(2.2),k= 1,2,…,N; (2. 1)獲得藍方飛機對于集合X決策的動作向量Ab; (2. 2)獲得紅方飛機的動作向量Ar,以及當(dāng)前循環(huán)下的優(yōu)化效用嚴,
對應(yīng)得到的最大F值為/fc;A為折扣因子,〇〈A〈1 ;嚴-1表示第k-1次循環(huán)得到的效用函 數(shù):
為根據(jù)集合X得到的即時回報函數(shù)值向量;f(X,A,Ab)表示在狀態(tài)X 下,紅方飛機動作向量為A、藍方飛機動作向量為Ab的情況下到達的下一個狀態(tài)向量;k表 示第k次循環(huán)中特征向量〇的擬和系數(shù);根據(jù)式(3)得到當(dāng)前循環(huán)下的優(yōu)化效用尸; 第N次循環(huán)輸出的/w為擬合得到的效用函數(shù); 步驟3 :作戰(zhàn)決策; 對當(dāng)前的狀態(tài)X,采用前瞻測試對紅方飛機的所有待選動作的執(zhí)行后果進行預(yù)測,選取 預(yù)測結(jié)果最好的動作執(zhí)行;所述的前瞻測試是一種虛擬執(zhí)行的方法,以指定的動作開始虛 擬推進作戰(zhàn)過程,直到完成指定的回合數(shù);前瞻測試的每個回合中紅方飛機均采用步驟2 得到的效用函數(shù)進行動作決策。
2. 根據(jù)權(quán)利要求1所述的一種基于擬合強化學(xué)習(xí)的空戰(zhàn)行為建模方法,其特征在于, 所述的數(shù)據(jù)采樣,具體過程為: (1) 首先,建立紅方、藍方飛機,給定紅、藍雙方的初始狀態(tài); (2) 然后,雙方均采用下面定義的即時回報函數(shù)S(x),進行動作決策,展開空戰(zhàn);在動 作決策時,選取在當(dāng)前狀態(tài)x下,使己方即時回報函數(shù)值最大、同時使對方即時回報函數(shù)值 最小的動作;
其中,AA表示脫離角,ATA表示進入角;R表示兩架飛機之間的距離,Rd表示兩架飛機 之間的相對最佳距離;k為影響因子,用來調(diào)整距離和角度的相對影響; (3)對飛機交戰(zhàn)的軌跡采樣,形成采樣點集合X。
3. 根據(jù)權(quán)利要求1所述的一種基于擬合強化學(xué)習(xí)的空戰(zhàn)行為建模方法,其特征在于, 所述的步驟2中選取的特征量包括:兩機之間的歐式距離R,脫離角AA,脫離角的變化率 尤4,脫離角的絕對值IAA|,進入角ATA,進入角的變化率4九4,進入角的絕對值|ATA|,偏航 角的偏差HCA,以及偏航角偏差的絕對值|HCA|。
4. 根據(jù)權(quán)利要求1或3所述的一種基于擬合強化學(xué)習(xí)的空戰(zhàn)行為建模方法,其特征在 于,步驟3中所述的前瞻測試,對紅方飛機的每個待選動作根據(jù)當(dāng)前的狀態(tài)x和藍方飛 機的決策動作,獲得下一狀態(tài)?,然后從狀態(tài)?開始,預(yù)測NMll個決策步長之后的未來狀 態(tài);cWroH〇
5. 根據(jù)權(quán)利要求4所述的一種基于擬合強化學(xué)習(xí)的空戰(zhàn)行為建模方法,其特征在于, 步驟3中所述的前瞻測試,對紅方飛機的每個待選動作預(yù)測NMll個決策步長之后的未來 狀態(tài)選取使下式J值最大對應(yīng)的動作作為最佳動作;
【文檔編號】G06F17/50GK104484500SQ201410665956
【公開日】2015年4月1日 申請日期:2014年11月19日 優(yōu)先權(quán)日:2014年9月3日
【發(fā)明者】馬耀飛, 馬小樂, 宋曉, 龔光紅 申請人:北京航空航天大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
黔东| 松桃| 海宁市| 天气| 文昌市| 锡林郭勒盟| 玛多县| 云霄县| 开化县| 德庆县| 深泽县| 满洲里市| 博兴县| 和平区| 抚州市| 海口市| 通海县| 四川省| 丽江市| 拜城县| 慈溪市| 筠连县| 临高县| 都江堰市| 延边| 四平市| 科技| 长武县| 措美县| 郑州市| 镇安县| 洛隆县| 乐至县| 金坛市| 利津县| 江华| 永兴县| 景宁| 蚌埠市| 二连浩特市| 仙游县|