基于馬爾科夫決策過(guò)程的飛行員操作行為引導(dǎo)方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及飛機(jī)駕駛艙自動(dòng)化系統(tǒng)設(shè)計(jì)領(lǐng)域。
【背景技術(shù)】
[0002] 自動(dòng)化技術(shù)(AutomationTechnology)在很多領(lǐng)域的成功應(yīng)用,為工業(yè)生產(chǎn)和日 常生活帶來(lái)很多便利。當(dāng)前自動(dòng)化和智能化技術(shù)大量應(yīng)用于飛機(jī)駕駛艙當(dāng)中,各種各樣的 高自動(dòng)化、高智能化的技術(shù)應(yīng)用,推動(dòng)了航空產(chǎn)業(yè)的飛速發(fā)展。駕駛艙自動(dòng)化在很大程度 上提高了飛行員操作的準(zhǔn)確性和可靠性,給燃料經(jīng)濟(jì)性W及飛行安全等方面帶來(lái)了許多好 處,但與此同時(shí),也引起了飛行員的態(tài)勢(shì)感知(SituationAwareness)水平下降、自動(dòng)化系 統(tǒng)與人之間不能相互理解W及對(duì)系統(tǒng)的過(guò)渡依賴(lài)等諸多問(wèn)題,給駕駛艙人機(jī)界面、飛行操 作等帶來(lái)了人機(jī)功效學(xué)方面新的挑戰(zhàn)。駕駛艙自動(dòng)化雖然在一定程度上減輕了飛行員的工 作負(fù)荷,但同時(shí)不合理的自動(dòng)化設(shè)計(jì)必然會(huì)對(duì)整個(gè)飛行安全造成嚴(yán)重的威脅。
[0003] 馬爾科夫過(guò)程(MarkovProcesses)是具有一類(lèi)普遍共性的過(guò)程,其原始模型是 1907年由俄羅斯數(shù)學(xué)家Markov提出的馬爾科夫鏈。馬爾科夫過(guò)程具有如下特性:某階段的 狀態(tài)一旦確定,則此后過(guò)程的演變不再受到此前各狀態(tài)的影響。馬爾科夫決策過(guò)程(Markov DecisionProcess,MD巧是在馬爾科夫過(guò)程的基礎(chǔ)上增加了決策者的概念,是一種應(yīng)用廣 泛的隨機(jī)決策過(guò)程。
[0004] 自適應(yīng)自動(dòng)化技術(shù)(AdaptiveAutomationTechnology)是一種更加靈活的能夠 使得特定的用戶(hù)在特定的情況下得到最佳的自動(dòng)化援助的自動(dòng)化技術(shù),是人機(jī)協(xié)同過(guò)程的 控制方法,飛機(jī)駕駛艙內(nèi)的自適應(yīng)自動(dòng)化技術(shù)發(fā)展已久。自適應(yīng)自動(dòng)化的目的是監(jiān)測(cè)人機(jī) 系統(tǒng)控制環(huán)內(nèi)人的狀態(tài),觸發(fā)自動(dòng)化援助,將人為差錯(cuò)率降到最低。目前駕駛艙內(nèi)使用的飛 行指引儀是將飛機(jī)的實(shí)際飛行線(xiàn)路與目標(biāo)線(xiàn)路進(jìn)行比較,并計(jì)算出進(jìn)入目標(biāo)線(xiàn)路所需要的 操縱量,W目視的形式在指示器上給出,最終會(huì)在顯示界面上出現(xiàn)向上、向下、向左和向右。 駕駛員看到后,根據(jù)提示操縱飛機(jī),調(diào)整飛行線(xiàn)路使其與目標(biāo)線(xiàn)路重合。運(yùn)種方法在巡航階 段對(duì)飛行員幫助較大,但在起飛爬升段或進(jìn)近著陸階段,完全比對(duì)航線(xiàn)的方法就無(wú)法滿(mǎn)足 飛行安全的要求。飛行控制計(jì)算機(jī)計(jì)算得出副翼、升降艙等需要的位置量,并將相關(guān)信息反 饋給飛行員,但其本身缺乏對(duì)任務(wù)需要的推斷,計(jì)算過(guò)程也不考慮當(dāng)前任務(wù)所處的狀態(tài)和 飛行員的操作習(xí)慣。
【發(fā)明內(nèi)容】
[0005] 為了克服現(xiàn)有技術(shù)的不足,本發(fā)明提供一種基于馬爾科夫決策過(guò)程的飛行員操作 行為引導(dǎo)方法,根據(jù)當(dāng)前飛行狀態(tài)和飛行員的操作習(xí)慣得到一組行為操作序列,此序列得 到的結(jié)果符合飛行員的行為習(xí)慣且能調(diào)整當(dāng)前的飛行狀態(tài)。
[0006] 本發(fā)明解決其技術(shù)問(wèn)題所采用的技術(shù)方案包括W下步驟:
[0007] 步驟1,對(duì)飛機(jī)駕駛艙內(nèi)飛行員的操作行為進(jìn)行編碼并描述,對(duì)飛機(jī)在任務(wù)過(guò)程中 存在的狀態(tài)進(jìn)行描述;
[0008] 步驟2,構(gòu)建某一飛行任務(wù)下機(jī)組行為預(yù)測(cè)的馬爾可夫模型,步驟如下:
[0009] 設(shè)時(shí)刻集合T= (1,2, 3,…;
[0010] 設(shè)飛機(jī)的狀態(tài)空間S= ??一"'},包含了系統(tǒng)所有可能出現(xiàn)的狀態(tài),其中n苯 示飛機(jī)的最大狀態(tài)數(shù);S中任意一個(gè)元素si表示第i個(gè)狀態(tài),包含在當(dāng)前狀態(tài)S1下的任務(wù) 目標(biāo)集合G\插入目標(biāo)集合F和歷史行動(dòng)集合Ai;i=l,2,...,n,;
[0011] 設(shè)狀態(tài)si下的任務(wù)目標(biāo)集G'' =(沾括…,各U,包含了Dg個(gè)任務(wù)目標(biāo),其中Dg表 示在當(dāng)前狀態(tài)下最大的任務(wù)目標(biāo)數(shù),G1中的元素度表示在狀態(tài)si下的第k個(gè)任務(wù)目標(biāo),k= (1,…,ng},當(dāng)任務(wù)目標(biāo)已經(jīng)完成,公=1,否則挺=0 ;
[001引設(shè)狀態(tài)si下的插入任務(wù)目標(biāo)集合護(hù)={./T,足…,,包含了叫個(gè)任務(wù)目標(biāo),其中 rif表示在當(dāng)前狀態(tài)下最大的插入任務(wù)目標(biāo)數(shù),元素義表示在狀態(tài)si下的第k個(gè)插入任務(wù)目 標(biāo),k= {1,…,地,當(dāng)插入任務(wù)目標(biāo)已經(jīng)完成,若=1,否則成=0 ;
[001引設(shè)狀態(tài)si下采取的歷史行動(dòng)集合乂 ,…,<},叫為集合元素的個(gè)數(shù),表示 歷史時(shí)刻的操作序列數(shù);元素為表示在狀態(tài)s'下的第k個(gè)操作行動(dòng),k= {1,…,nJ; [0014] 設(shè)1'扭,曰,,3')表示所有狀態(tài)轉(zhuǎn)移概率的集合,其任意元素口(3'|31,曰,)表示在狀 態(tài)si下,執(zhí)行可用行動(dòng)ak,系統(tǒng)狀態(tài)變化到S'的概率,j= 1,2,...,nS
[001引設(shè)報(bào)酬集合R(si)的任意元素r(si,ak)表示在狀態(tài)si下執(zhí)行行動(dòng)a,的報(bào)酬,當(dāng) r(si,ak) > 0時(shí)表示收益,r(si,ak) < 0表示費(fèi)用,
r(s\a,,s')表示在狀態(tài)si下執(zhí)行行動(dòng)ak得到狀態(tài)S'的報(bào)酬;
[0016] 設(shè)飛機(jī)的行動(dòng)空間A=(曰1,曰2,…,a。},包含了所有可執(zhí)行并能夠改變系統(tǒng)狀態(tài)的 行動(dòng),元素3k表示第k個(gè)操作行動(dòng),n為行動(dòng)空間中元素的個(gè)數(shù),k= 1,2,…,n;
[0017] 給出某一飛行任務(wù)下機(jī)組行為預(yù)測(cè)的馬爾可夫模型如下:
[0018]
[0019] 其中,31為策略,表示從狀態(tài)集合到行動(dòng)集合的映射,JT(si)表示從狀態(tài)si到行 動(dòng)集合的映射,nt(si)表示在t時(shí)刻從狀態(tài)si到行動(dòng)集合的映射;
[0020] 步驟3,確定步驟2所述任務(wù)下飛行操作狀態(tài)轉(zhuǎn)移概率集合T(s\a,,si),并根據(jù)飛 行任務(wù)要求確定轉(zhuǎn)移過(guò)程中行為操作的報(bào)酬集合R(si);
[002。 用行動(dòng)a,影響到的狀態(tài)參數(shù)a與其期望區(qū)間d。的偏差來(lái)計(jì)算報(bào)酬,貝U
[0022]
[0023] 步驟4,用MDP折扣模型計(jì)算報(bào)酬效用函數(shù)時(shí),折扣因子P有0 <P< 1;折扣模 型的報(bào)酬效用函i
表示在開(kāi)始時(shí)刻0從狀態(tài)si觸發(fā)的條件下, 使用策略n后系統(tǒng)的折扣期望總報(bào)酬;
[0024] 根據(jù)MDP折扣模型的最優(yōu)方程,建立在狀態(tài)si下該飛行任務(wù)中機(jī)組行為操作的收 益的最優(yōu)方程
[0025] 步驟5,計(jì)算飛機(jī)的狀態(tài)參數(shù)0在t時(shí)刻的任務(wù)緊迫度
其中0 °為目標(biāo)參數(shù)初始值,0T為期望到達(dá)值,0t為當(dāng)前值, 初始時(shí)間為0,T為任務(wù)要求時(shí)間;
[0026] 步驟6,任取v°為有界集,給定折扣因子P和誤差界e,令迭代次數(shù)n=0 ;
[0027] 步驟7,對(duì)每個(gè)狀態(tài)siGS,計(jì)算
;
[002引步驟8,如勇
,則跳到步驟7,否則迭代次數(shù)n增加1,返回步 驟5;
[0029] 9.對(duì)每個(gè)狀態(tài)siGS,取
從 而得到在當(dāng)前時(shí)刻下,收益最大的行動(dòng)策略。
[0030] 本發(fā)明的有益效果是:采用上述方法對(duì)駕駛艙內(nèi)機(jī)組成員的操作行為進(jìn)行引導(dǎo), 能夠克服W往如飛行指引儀等傳統(tǒng)定性分析方法缺乏對(duì)任務(wù)需要的判斷W及不考慮飛行 員的操作習(xí)慣而導(dǎo)致提供的援助侵入性較大的缺點(diǎn)。
【附圖說(shuō)明】
[0031] 圖1是水平轉(zhuǎn)彎任務(wù)下操作程序示意圖;
[0032] 圖2是水平轉(zhuǎn)彎任務(wù)下仿真流程圖。
【具體實(shí)施方式】
[0033] 本發(fā)明包括W下幾個(gè)步驟:
[0034] 1.對(duì)飛機(jī)駕駛艙內(nèi)飛行員的操作行為進(jìn)行編碼并描述,并對(duì)飛機(jī)在任務(wù)過(guò)程中存 在的狀態(tài)進(jìn)行描述。
[0035] 2.構(gòu)建某一飛行任務(wù)下機(jī)組行為預(yù)測(cè)的馬爾可夫模型。在該步驟中,需要用到如 下定義。
[003引定義1 :設(shè)T= {1,2, 3,…},T表示時(shí)刻集合。
[0037] 定義2:設(shè)S= ?一"'},S表示飛機(jī)的狀態(tài)空間,包含了系統(tǒng)所有可能出現(xiàn)的 狀態(tài),其中n,表示飛機(jī)的最大狀態(tài)數(shù)。S中任意一個(gè)元素si(i= 1,2,...,r〇表示第i個(gè) 狀態(tài),包含=個(gè)部分:G\F和A1,它們分別表示在當(dāng)前狀態(tài)si下的任務(wù)目標(biāo)集合、插入目標(biāo) 集合W及歷史行動(dòng)集合。
[00測(cè)定義3 :設(shè)伊={如挺,…,各,G1表示在狀態(tài)S1下的任務(wù)目標(biāo)集,包含了rig個(gè)任 務(wù)目標(biāo),其中rig表示在當(dāng)前狀態(tài)下最大的任務(wù)目標(biāo)數(shù),它隨系統(tǒng)狀態(tài)的變化而變化。G1中的 元素封表示在狀態(tài)si下的第k個(gè)任務(wù)目標(biāo)化={1,…,nJ),當(dāng)任務(wù)目標(biāo)已經(jīng)完成,茲=1, 否則結(jié)=0。
[0039]定義4 :設(shè)戶(hù)'居,…,尤4,F表示在狀態(tài)S1下的插入任務(wù)目標(biāo)集合,包含了 rif個(gè)任務(wù)目標(biāo),其中Hf表示在當(dāng)前狀態(tài)下最大的插入任務(wù)目標(biāo)數(shù),它隨系統(tǒng)狀態(tài)的變化而 變化。其元素/;'表示在狀態(tài)si下的第k個(gè)插入任務(wù)目標(biāo)化={1,…,Hf}),當(dāng)插入任務(wù)目 標(biāo)已經(jīng)完成,炭=1,否則發(fā)=〇。
[0040] 定義5:設(shè),。;,...,<},心表示在狀態(tài)si下采取的歷史行動(dòng)集合,rih為集 合元素的個(gè)數(shù),表示歷史時(shí)刻的操作序列數(shù)。其元素< 表示在狀態(tài)si下的第k個(gè)操作行動(dòng) 化=(1,…,nj)。
[0041] 定義6:設(shè)1'扭,曰,,3')表示所有狀態(tài)轉(zhuǎn)移概率的集合,其任意元素口(3'|31,曰,)表 示在狀態(tài)si下,執(zhí)行可用行動(dòng)ak,系統(tǒng)狀態(tài)變化到si(j= 1,2,...,r〇的概率,并假設(shè)
[004引
(1)
[0043] 定義7:設(shè)R(si)表示報(bào)酬集合,其任意元素r(si,ak)表示在狀態(tài)si下執(zhí)行行動(dòng)ak 的報(bào)酬,假設(shè)當(dāng)HsUk) >0時(shí)表示收益,HsUk) <0表示費(fèi)用。且
[0044]
煤
[004引r(si,a,,s')表示在狀態(tài)si下執(zhí)行行動(dòng)a,得到狀態(tài)S'的報(bào)酬。
[004引定義8 :設(shè)A= {日1,日2,…,a。},A表示飛機(jī)的行動(dòng)空間,包含了所有可執(zhí)行并能夠改 變系統(tǒng)狀態(tài)的行動(dòng),運(yùn)里描述為人的可改變飛機(jī)狀態(tài)的操作行動(dòng),其元素3k化=1,2,…,n) 表示第k個(gè)操作行動(dòng),n為行動(dòng)空間中元素的個(gè)數(shù)。
[0047] 在W上定義基礎(chǔ)上,給出某一飛行任務(wù)下機(jī)組行為預(yù)測(cè)的馬爾可夫模型,其表達(dá) 式如下:
[004引
巧.
[0049] 其中的n稱(chēng)為策略,表示從狀態(tài)集合到行動(dòng)集合的映射,JT(si)表示從狀態(tài)si到 行動(dòng)集合的映射,Kt(si)表示在t時(shí)刻從狀態(tài)si到行動(dòng)集合的映射。
[0050] 3.確定該任務(wù)下飛行操作狀態(tài)轉(zhuǎn)移概率集合T(s\ak,s'),并根據(jù)飛行任務(wù)要求確 定轉(zhuǎn)移過(guò)程中行為操作的報(bào)酬集合R(si)。其中轉(zhuǎn)移概率是與歷史操作序列心相關(guān)的概率 函數(shù),