本發(fā)明屬于計算機與人工智能領(lǐng)域。
背景技術(shù):
1、深度強化學(xué)習(xí)作為一種智能決策方法具有搜索能力強,決策性能好的特點,可以解決復(fù)雜問題的最優(yōu)決策難題。但在實際使用中,由于深度強化學(xué)習(xí)中用于策略表征的神經(jīng)網(wǎng)絡(luò)不具有可解釋性而難以對智能體做出的決策進(jìn)行有效分析和判斷,因此難以達(dá)到良好的人機互信;同時,由于神經(jīng)網(wǎng)絡(luò)的全連接特性,當(dāng)決策出現(xiàn)異常時難以對異常參數(shù)進(jìn)行定位和修改。這極大地限制了深度強化學(xué)習(xí)方法在飛行器控制、自動駕駛和工業(yè)機器人等對人機互信和策略可調(diào)試性有極高要求的應(yīng)用領(lǐng)域中的實際部署。
2、雙機追逃博弈智能決策是指利用人工智能和決策系統(tǒng)等技術(shù),實現(xiàn)逃逸方輔助或自主地做出決策,進(jìn)而規(guī)避追逐方的過程。它涉及到追逐方、逃逸方、假目標(biāo)誘餌、感知系統(tǒng)以及和其他要素之間的交互過程,并且可以應(yīng)用于各種追逃博弈環(huán)境。追逃博弈智能決策是一個復(fù)雜的系統(tǒng),涉及數(shù)據(jù)感知、數(shù)據(jù)分析、決策生成、評估和執(zhí)行等多個方面。通過綜合利用人工智能、決策支持系統(tǒng)和其他相關(guān)技術(shù),可以實現(xiàn)逃逸方智能自主決策,提高追逃博弈中逃逸方規(guī)避追逐方的成功率。
3、目前主流的基于強化學(xué)習(xí)的追逃博弈智能決策均通過強化學(xué)習(xí)算法訓(xùn)練得到的策略網(wǎng)絡(luò)直接生成控制指令并由執(zhí)行機構(gòu)執(zhí)行,其最優(yōu)策略由神經(jīng)網(wǎng)絡(luò)表征,不具備可解釋性。在實際部署中,尤其是在有人機上部署時,一般要求決策和控制機構(gòu)生成的任何控制指令都要具備可解釋性,且生成決策指令的算法必須有確定的邊界,而強化學(xué)習(xí)訓(xùn)練得到的、通過神經(jīng)網(wǎng)絡(luò)表征的最優(yōu)策略不具備以上兩點。此外,當(dāng)某一狀態(tài)下的決策輸出發(fā)生錯誤時,無法在神經(jīng)網(wǎng)絡(luò)中定位出錯的參數(shù),且由于神經(jīng)網(wǎng)絡(luò)的全連接特性,對網(wǎng)絡(luò)中的任意一個參數(shù)進(jìn)行修改后,所有輸入值對應(yīng)的輸出值都會改變,因此即使定位并修復(fù)了某一個狀態(tài)下的決策錯誤,也無法保證該修正不會帶來新的錯誤,這使得神經(jīng)網(wǎng)絡(luò)的可調(diào)試性極差。
技術(shù)實現(xiàn)思路
1、為了解決當(dāng)前追逃博弈智能決策中使用深度強化學(xué)習(xí)算法得到的神經(jīng)網(wǎng)絡(luò)可解釋性和可調(diào)試性差,難以滿足實際部署要求的技術(shù)問題,本發(fā)明提出了一種基于模糊推理樹的深度強化學(xué)習(xí)策略遷移方法。
2、本發(fā)明的技術(shù)方案是:
3、一種基于模糊推理樹的深度強化學(xué)習(xí)策略遷移方法,其特殊之處在于,包括步驟:
4、步驟1:使用深度強化學(xué)習(xí)算法訓(xùn)練待遷移網(wǎng)絡(luò),所述待遷移網(wǎng)絡(luò)為所述深度強化學(xué)習(xí)算法的策略網(wǎng)絡(luò)或用于表征策略的價值網(wǎng)絡(luò);
5、步驟2:對需要進(jìn)行決策優(yōu)化的追逃博弈智能決策任務(wù)的狀態(tài)空間進(jìn)行等間隔分割并均勻采樣,得到符合均勻分布的狀態(tài)數(shù)據(jù)的樣本;
6、步驟3:構(gòu)建最優(yōu)決策數(shù)據(jù)集,并將其劃分為訓(xùn)練集和測試集;所述最優(yōu)決策數(shù)據(jù)集由數(shù)據(jù)和標(biāo)簽構(gòu)成,所述數(shù)據(jù)為步驟2得到的狀態(tài)數(shù)據(jù)的樣本,標(biāo)簽為與所述樣本一一對應(yīng)的最優(yōu)動作,所述最優(yōu)動作基于步驟1訓(xùn)練好的待遷移網(wǎng)絡(luò)生成的、用于描述最優(yōu)動作分布的參數(shù)獲??;
7、步驟4:根據(jù)所述追逃博弈智能決策任務(wù)構(gòu)建模糊推理樹,所述模糊推理樹包括多個模糊推理單元,各模糊推理單元的連接關(guān)系根據(jù)所述追逃博弈智能決策任務(wù)中追逐方運動狀態(tài)、逃逸方運動狀態(tài)、逃逸方內(nèi)部狀態(tài)和追逃雙方相對運動狀態(tài)與決策指令之間的關(guān)系構(gòu)建;所述模糊推理樹的輸入為狀態(tài)信號,輸出為決策指令;所述狀態(tài)信號包括追逐方運動狀態(tài)、逃逸方運動狀態(tài)和逃逸方內(nèi)部狀態(tài);所述決策指令包括逃逸方的機動參數(shù)、假目標(biāo)誘餌投放決策和假目標(biāo)誘餌投放參數(shù);
8、步驟5:使用智能優(yōu)化算法并利用所述訓(xùn)練集對所述模糊推理樹進(jìn)行遷移訓(xùn)練,利用所述測試集對所述模糊推理樹的擬合性能進(jìn)行驗證;
9、步驟6:利用至少50輪次完整決策后的平均折扣累計回報,評估步驟5訓(xùn)練好的模糊推理樹的決策性能,若模糊推理樹的平均折扣累計回報大于等于步驟1訓(xùn)練好的待遷移網(wǎng)絡(luò)的平均折扣累計回報的90%,則模糊推理樹的決策性能評估合格,策略遷移完成,利用當(dāng)前模糊推理樹替代步驟1訓(xùn)練好的待遷移網(wǎng)絡(luò),流程結(jié)束;否則,返回步驟5;若經(jīng)10次及以上遷移訓(xùn)練后模糊推理樹的決策性能仍不合格,則進(jìn)入步驟7;
10、步驟7:對步驟4構(gòu)建的模糊推理樹的結(jié)構(gòu)進(jìn)行優(yōu)化,增加其復(fù)雜度以提高其決策性能的上限,再返回步驟5。
11、進(jìn)一步地,步驟1中所述的深度強化學(xué)習(xí)算法為dqn、ddpg、sac、td3、ppo、maddpg或mappo。
12、進(jìn)一步地,步驟3中所述的最優(yōu)決策數(shù)據(jù)集的構(gòu)建方法為:
13、首先,將步驟2得到的樣本輸入至步驟1訓(xùn)練好的待遷移網(wǎng)絡(luò)中,待遷移網(wǎng)絡(luò)輸出用于描述最優(yōu)動作分布的參數(shù),使用該參數(shù)構(gòu)建滿足高斯分布、均勻分布或伯努利分布的動作并進(jìn)行采樣,即可得到最優(yōu)動作,將該最優(yōu)動作作為標(biāo)簽;
14、然后,將所述標(biāo)簽與步驟2得到的樣本一一對應(yīng),構(gòu)建成最優(yōu)決策數(shù)據(jù)集;
15、最后,使用kl散度檢查并調(diào)整所述標(biāo)簽分布的均勻性。
16、進(jìn)一步地,步驟4構(gòu)建的模糊推理樹包括逃逸方狀態(tài)處理單元fis-1、追逐方運動狀態(tài)處理單元fis-2、相對運動狀態(tài)處理單元fis-3、第一中間信號轉(zhuǎn)換單元fis-4、第二中間信號轉(zhuǎn)換單元fis-5、機動規(guī)劃決策單元fis-6、假目標(biāo)誘餌投放決策單元fis-7和機動參數(shù)解算單元fis-8共8個模糊推理單元;
17、逃逸方狀態(tài)處理單元fis-1的輸入為逃逸方的位置、速度、姿態(tài)、剩余假目標(biāo)誘餌數(shù)量和控制面狀態(tài),輸出為逃逸方空間朝向、逃逸方的控制裕量、逃逸方剩余假目標(biāo)誘餌是否充足;
18、追逐方運動狀態(tài)處理單元fis-2的輸入為追逐方的位置、速度和姿態(tài),輸出為追逐方空間朝向;
19、相對運動狀態(tài)處理單元fis-3的輸入為追逃雙方相對距離、視線偏角和視線傾角,輸出為追逃雙方相對高度優(yōu)勢、相對能量優(yōu)勢和相對方位;
20、第一中間信號轉(zhuǎn)換單元fis-4的輸入為逃逸方的控制裕量、逃逸方剩余假目標(biāo)誘餌是否充足,輸出為逃逸方假目標(biāo)誘餌投放意愿和逃逸方機動動作更改意愿;
21、第二中間信號轉(zhuǎn)換單元fis-5的輸入為追逐方空間朝向,追逃雙方相對高度優(yōu)勢、相對能量優(yōu)勢和相對方位,輸出為追逐方對逃逸方的威脅程度;
22、機動規(guī)劃決策單元fis-6的輸入為逃逸方機動動作更改意愿,逃逸方空間朝向,追逐方空間朝向,追逃雙方相對高度優(yōu)勢、相對能量優(yōu)勢、相對方位,以及追逐方對逃逸方的威脅程度,輸出為逃逸方的機動類型;
23、假目標(biāo)誘餌投放決策單元fis-7的輸入為追逐方對逃逸方的威脅程度、逃逸方假目標(biāo)誘餌投放意愿和逃逸方的機動類型,輸出為逃逸方是否投放假目標(biāo)誘餌以及假目標(biāo)誘餌的投放參數(shù);
24、機動參數(shù)解算單元fis-8的輸入為逃逸方的機動類型和逃逸方空間朝向,輸出為逃逸方的機動參數(shù)。
25、進(jìn)一步地,步驟5中所述的智能優(yōu)化算法為遺傳算法、粒子群算法、蟻群算法或模擬退火算法。
26、進(jìn)一步地,步驟5中對所述模糊推理樹進(jìn)行遷移訓(xùn)練是指將模糊推理樹的參數(shù)按照任意參數(shù)順序規(guī)整為一個參數(shù)序列,對該參數(shù)序列進(jìn)行二進(jìn)制編碼后采用遺傳算法、粒子群算法、蟻群算法或模擬退火算法進(jìn)行優(yōu)化。
27、進(jìn)一步地,步驟7中對步驟4構(gòu)建的模糊推理樹的結(jié)構(gòu)進(jìn)行優(yōu)化的方法為:增加劃分的模糊集的數(shù)量,根據(jù)當(dāng)前模糊集重新構(gòu)建模糊推理樹中每個模糊推理單元內(nèi)的模糊化單元,并相應(yīng)增加每個模糊推理單元內(nèi)的模糊規(guī)則推理單元所需的模糊規(guī)則數(shù)量,和/或?qū)⒛:评順渲械闹辽僖粋€模糊推理單元依據(jù)輸入信號分解為多個不同的模糊推理單元。
28、本發(fā)明的有益效果:
29、模糊推理樹基于模糊規(guī)則進(jìn)行推理,每一個輸入與輸出之間的對應(yīng)關(guān)系都對應(yīng)有一條完整的模糊規(guī)則鏈,推理過程可以被完整地解釋和跟蹤,其決策具有較好的可解釋性,能夠生成清晰易懂的規(guī)則集,描述了輸入變量和輸出之間的關(guān)系,使得人們能夠理解決策的過程和原因,因此,當(dāng)發(fā)生錯誤時可以快捷地定位出錯的模糊規(guī)則并加以修正。同時,由于模糊規(guī)則是條件式觸發(fā)的,改變單一的規(guī)則不會對全局的輸入輸出關(guān)系造成影響,因此模糊推理樹也具備較好的可調(diào)試性。此外,與一些復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型相比,模糊推理樹具有較低的計算復(fù)雜度,易于實現(xiàn)和快速訓(xùn)練。本發(fā)明充分利用深度強化學(xué)習(xí)算法對復(fù)雜決策問題的求解和探索能力以及模糊推理樹算法的可解釋性和可調(diào)試性,構(gòu)建了一種性能和實用性兼具的策略遷移方法。具體的,本發(fā)明以經(jīng)過充分訓(xùn)練的待遷移網(wǎng)絡(luò)為指導(dǎo),通過遺傳算法、粒子群算法或其他優(yōu)化算法對模糊推理樹進(jìn)行訓(xùn)練以調(diào)整模糊推理樹的參數(shù),使模糊推理樹與訓(xùn)練好的待遷移網(wǎng)絡(luò)在相同的輸入下具有相同的輸出,即使得模糊推理樹學(xué)習(xí)到了狀態(tài)到動作的映射關(guān)系,具有與深度強化學(xué)習(xí)的待遷移網(wǎng)絡(luò)(策略網(wǎng)絡(luò)或者用于表征策略的價值網(wǎng)絡(luò))相同的決策能力,從而達(dá)到將深度強化學(xué)習(xí)算法中蘊含在神經(jīng)網(wǎng)絡(luò)內(nèi)的規(guī)則抽取并遷移到模糊推理樹的目的。遷移完成后,即可用模糊推理樹替代訓(xùn)練好的深度強化學(xué)習(xí)的待遷移網(wǎng)絡(luò)。利用模糊推理樹在追逃博弈智能決策問題中做出決策,既利用了深度強化學(xué)習(xí)的搜索求解能力,又通過規(guī)則提取將強化學(xué)習(xí)得到的最優(yōu)策略遷移到模糊推理樹中,在不改變決策效能的前提下,不但提升了決策指令的生成速度,還能夠很好地解決追逃博弈信息不完全可知、決策方法的可調(diào)試性和可解釋性差的問題,最終能夠?qū)崿F(xiàn)由傳感層面數(shù)據(jù)到機動動作輸出的最優(yōu)映射,使深度強化學(xué)習(xí)訓(xùn)練得到的待遷移網(wǎng)絡(luò)可以滿足實際部署的要求,能更有效地在有人機等平臺上部署。