專(zhuān)利名稱(chēng):用于以計(jì)算機(jī)輔助方式探索技術(shù)系統(tǒng)的狀態(tài)的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種用于以計(jì)算機(jī)輔助方式探索技術(shù)系統(tǒng)的狀態(tài)的方法以及一種相對(duì)應(yīng)的計(jì)算機(jī)程序產(chǎn)品。
背景技術(shù):
從現(xiàn)有技術(shù)中公知各種方法,其中在考慮預(yù)先確定的準(zhǔn)則的情況下以計(jì)算機(jī)輔助 方式使技術(shù)系統(tǒng)的動(dòng)態(tài)時(shí)間特性最優(yōu)。這些方法的例子是基于技術(shù)系統(tǒng)的已知數(shù)據(jù)學(xué)習(xí)該 系統(tǒng)的最優(yōu)調(diào)節(jié)的學(xué)習(xí)方法。該技術(shù)系統(tǒng)在這種情況下通過(guò)表示技術(shù)系統(tǒng)的可測(cè)量的狀態(tài) 量、諸如如壓力、溫度、功率等等的物理量的狀態(tài)來(lái)描述。此外,在該技術(shù)系統(tǒng)中定義了如下 動(dòng)作,所述動(dòng)作描述了技術(shù)系統(tǒng)上的確定的調(diào)節(jié)量的變化,諸如閥門(mén)位置的變化、壓力的提 高等等。通過(guò)動(dòng)作將技術(shù)系統(tǒng)的狀態(tài)轉(zhuǎn)移到新的后繼狀態(tài)。已知的學(xué)習(xí)方法在此學(xué)習(xí)最優(yōu) 的動(dòng)作選擇規(guī)則,該最優(yōu)的動(dòng)作選擇規(guī)則針對(duì)技術(shù)系統(tǒng)的每個(gè)狀態(tài)確定最優(yōu)的動(dòng)作,用于 將系統(tǒng)轉(zhuǎn)移到新的狀態(tài)。每個(gè)動(dòng)作在這種情況下例如通過(guò)回報(bào)或者懲罰、尤其是在包括成 本函數(shù)在內(nèi)的情況下被評(píng)估,其中借助評(píng)分(Bewertimg)可以實(shí)現(xiàn)技術(shù)系統(tǒng)的最優(yōu)的動(dòng)態(tài) 特性。適當(dāng)?shù)卮_定技術(shù)系統(tǒng)的最優(yōu)特性的基礎(chǔ)在這種情況下是技術(shù)系統(tǒng)的良好探測(cè)的 狀態(tài)空間形式的良好的數(shù)據(jù)庫(kù)。因此必須存在狀態(tài)、動(dòng)作和后繼狀態(tài)形式的關(guān)于技術(shù)系統(tǒng) 的多個(gè)合適的數(shù)據(jù)。在這種情況下存在如下問(wèn)題在探索狀態(tài)空間時(shí),為了確定合適的數(shù)據(jù) 庫(kù)可以采取要被分級(jí)為不安全的狀態(tài),即該狀態(tài)可能直接地或間接地引起對(duì)技術(shù)系統(tǒng)的損 害或引起其故障工作。
發(fā)明內(nèi)容
因此,本發(fā)明的任務(wù)是提出一種用于以計(jì)算機(jī)輔助方式探索技術(shù)系統(tǒng)的狀態(tài)的方 法,利用該方法避免采取不安全的狀態(tài)并且同時(shí)經(jīng)歷狀態(tài)空間使得提供了良好的數(shù)據(jù)庫(kù)用 于執(zhí)行接下來(lái)的用于確定技術(shù)系統(tǒng)的最優(yōu)的調(diào)節(jié)的方法。該任務(wù)通過(guò)獨(dú)立權(quán)利要求來(lái)解決。本發(fā)明的擴(kuò)展方案在從屬權(quán)利要求中被限定。在根據(jù)本發(fā)明的方法中,相繼地經(jīng)歷技術(shù)系統(tǒng)的狀態(tài),其方式是在技術(shù)系統(tǒng)的相 應(yīng)狀態(tài)中執(zhí)行引起新?tīng)顟B(tài)的動(dòng)作。在此,使用了安全函數(shù)(Sicherheitsfimktion)和反饋 規(guī)則(Rueckfuehrungsregel)。借助安全函數(shù),在執(zhí)行引起未知的、從前還未經(jīng)歷的狀態(tài)的 動(dòng)作之前確定相應(yīng)的動(dòng)作是技術(shù)系統(tǒng)中的允許的還是不允許的動(dòng)作,其中只有當(dāng)所述動(dòng)作 是允許的時(shí)才執(zhí)行所述動(dòng)作。因此,安全函數(shù)保證只有當(dāng)未知的狀態(tài)根據(jù)預(yù)先給定的準(zhǔn)則 被分級(jí)為安全的時(shí)候,才探索所述未知的狀態(tài)。除了安全函數(shù)以外,此外還在根據(jù)本發(fā)明的 方法中使用反饋規(guī)則,其中在達(dá)到技術(shù)系統(tǒng)的未知的、從前還未經(jīng)歷的狀態(tài)時(shí)基于該反饋 規(guī)則選擇隨后的動(dòng)作。該反饋規(guī)則用于將技術(shù)系統(tǒng)的狀態(tài)引回到已知的狀態(tài)。利用該反饋 規(guī)則保證,技術(shù)系統(tǒng)的狀態(tài)從新的未知的狀態(tài)再次返回到已知的狀態(tài)區(qū)域中。由此避免技 術(shù)系統(tǒng)的狀態(tài)通過(guò)動(dòng)作移動(dòng)到可引起對(duì)技術(shù)系統(tǒng)的損害的狀態(tài)區(qū)中。
根據(jù)本發(fā)明的方法具有如下優(yōu)點(diǎn)通過(guò)使用安全函數(shù)和反饋規(guī)則提供了合適的機(jī)制,利用這些合適的機(jī)制實(shí)現(xiàn)了對(duì)狀態(tài)空間的全面的探索,其中盡可能避免了執(zhí)行不允許 的動(dòng)作的危險(xiǎn)。在根據(jù)本發(fā)明的方法的優(yōu)選的實(shí)施形式中,不允許的動(dòng)作被表征為使得在執(zhí)行不 允許的動(dòng)作時(shí)技術(shù)系統(tǒng)以為一的概率或者以大于零的概率到達(dá)如下?tīng)顟B(tài)該狀態(tài)直接在執(zhí) 行不允許的動(dòng)作之后或者間接地在執(zhí)行另外的動(dòng)作之后引起技術(shù)系統(tǒng)的不希望的或有故 障的工作狀態(tài)。不希望的或有故障的工作狀態(tài)在此尤其是導(dǎo)致對(duì)技術(shù)系統(tǒng)的損害或損毀的 狀態(tài)。在根據(jù)本發(fā)明的方法的另一實(shí)施形式中,即使在該技術(shù)系統(tǒng)中達(dá)到其中要執(zhí)行的 動(dòng)作根據(jù)安全函數(shù)被分級(jí)為不允許的狀態(tài)時(shí),才應(yīng)用反饋規(guī)則。由此,進(jìn)一步改進(jìn)了對(duì)狀態(tài) 空間的安全探索。在另一實(shí)施形式中,所執(zhí)行的動(dòng)作分別根據(jù)其中執(zhí)行動(dòng)作的狀態(tài)并且根據(jù)通過(guò)動(dòng) 作所達(dá)到的新?tīng)顟B(tài)以評(píng)分來(lái)進(jìn)行評(píng)估,其中這些評(píng)分尤其是也用于在對(duì)狀態(tài)進(jìn)行探索之后 學(xué)習(xí)用于基于所經(jīng)歷的狀態(tài)和所評(píng)估的動(dòng)作調(diào)節(jié)或控制技術(shù)系統(tǒng)的方法。優(yōu)選地,借助評(píng) 分也將動(dòng)作分類(lèi)為不允許的,其中其評(píng)分小于預(yù)先確定的值的動(dòng)作被分級(jí)為不允許。在根據(jù)本發(fā)明的方法的另一改進(jìn)方案中,也基于對(duì)動(dòng)作的所確定的評(píng)分來(lái)學(xué)習(xí)安 全函數(shù)。優(yōu)選地,給所經(jīng)歷的包含狀態(tài)和在該狀態(tài)下執(zhí)行的動(dòng)作的對(duì)分別分配有最小評(píng)分, 該最小評(píng)分出現(xiàn)在執(zhí)行動(dòng)作之后和出現(xiàn)在接著經(jīng)歷針對(duì)動(dòng)作的反饋規(guī)則時(shí),其中基于最小 評(píng)分確定安全函數(shù),并且其中當(dāng)最小評(píng)分小于預(yù)先確定的值時(shí),該安全函數(shù)接著確定不允 許的動(dòng)作。由此以合適的方式保證了在狀態(tài)下執(zhí)行的動(dòng)作既不直接地也不間接地引起技術(shù) 系統(tǒng)的不希望的或有故障的工作狀態(tài)。在本發(fā)明的優(yōu)選的變形方案中,安全函數(shù)利用函數(shù)逼近器來(lái)確定,該函數(shù)逼近器 基于圍繞恰好要隨著動(dòng)作改變的狀態(tài)的局部外插來(lái)逼近最小評(píng)分。尤其是,函數(shù)逼近器執(zhí) 行局部線(xiàn)性的和/或局部二次的外插。在實(shí)施形式中,根據(jù)本發(fā)明所使用的反饋規(guī)則可以是針對(duì)該技術(shù)系統(tǒng)預(yù)先給定的 規(guī)則。尤其是,反饋規(guī)則可以基于技術(shù)系統(tǒng)的已經(jīng)現(xiàn)有的調(diào)節(jié)器。代替預(yù)先給定的規(guī)則或除了預(yù)先給定的規(guī)則之外,也可以利用強(qiáng)化的、考慮動(dòng)作 的評(píng)分的學(xué)習(xí)方法來(lái)確定反饋規(guī)則。強(qiáng)化的學(xué)習(xí)方法在此優(yōu)選地基于最優(yōu)性準(zhǔn)則,根據(jù)該 最優(yōu)性準(zhǔn)則使所有將來(lái)的評(píng)分的期望值的最小值最大化。以這種方式保證了利用反饋規(guī)則 快速地返回到已知且安全的狀態(tài)。為了通過(guò)執(zhí)行狀態(tài)中的所有可能的動(dòng)作來(lái)實(shí)現(xiàn)對(duì)狀態(tài)的基本上完整的探索,在特 別優(yōu)選的實(shí)施形式中,在經(jīng)歷這些狀態(tài)時(shí),給這些狀態(tài)如下地分配相繼的類(lèi)別i)如果狀態(tài)基于反饋規(guī)則被改變,則給通過(guò)動(dòng)作達(dá)到的未知的、從前還未經(jīng)歷的 狀態(tài)分配有在執(zhí)行該動(dòng)作之前分配給該狀態(tài)的類(lèi)別。ii)在所有其它情況下,給通過(guò)動(dòng)作達(dá)到的未知的、從前還未經(jīng)歷的狀態(tài)分配有跟 隨在執(zhí)行該動(dòng)作之前分配給該狀態(tài)的類(lèi)別的類(lèi)別。狀態(tài)優(yōu)選地按類(lèi)別來(lái)經(jīng)歷,使得在一個(gè)類(lèi)別中首先探索所有可能的要執(zhí)行的動(dòng)作 并且接著轉(zhuǎn)變到下一類(lèi)別。概念“動(dòng)作的探索”在這種情況下意味著該動(dòng)作被執(zhí)行或者被 分級(jí)為不允許的。
在優(yōu)選的實(shí)施形式中,在使用類(lèi)別的情況下使用基于圖形的路徑發(fā)現(xiàn)方法,用于 經(jīng)歷狀態(tài)和可能的動(dòng)作。在該方法中,在經(jīng)歷狀態(tài)期間建立圖形,該圖形的節(jié)點(diǎn)對(duì)應(yīng)于所經(jīng) 歷的狀態(tài)而其棱邊對(duì)應(yīng)于所執(zhí)行的動(dòng)作,并且在該圖形中為每個(gè)節(jié)點(diǎn)存儲(chǔ)了相對(duì)應(yīng)的狀態(tài) 的類(lèi)別,其中在達(dá)到其中已經(jīng)探索、即執(zhí)行所有可能的動(dòng)作和/或利用安全函數(shù)將所有可 能的動(dòng)作分級(jí)為不允許的動(dòng)作的狀態(tài)時(shí),在該圖形中搜索至相同類(lèi)別中的其中還可以探索 動(dòng)作的狀態(tài)的路徑,并且在找到這種路徑時(shí)通過(guò)該路徑到達(dá)該狀態(tài)。在沒(méi)有發(fā)現(xiàn)至相同類(lèi) 別中的其中還可探索動(dòng)作的狀態(tài)的路徑的情況下,經(jīng)歷后續(xù)類(lèi)別的狀態(tài)。
可替換于基于圖形的路徑發(fā)現(xiàn)方法或除了基于圖形的路徑發(fā)現(xiàn)方法之外,也可以 使用強(qiáng)化的學(xué)習(xí)方法來(lái)發(fā)現(xiàn)路徑。在此,一個(gè)類(lèi)別的狀態(tài)利用強(qiáng)化的學(xué)習(xí)方法基于回報(bào)函 數(shù)(Belohnugsfimktion)來(lái)經(jīng)歷,其中當(dāng)動(dòng)作引起在恰好經(jīng)歷的類(lèi)別中的其中還可能探索 至少一個(gè)動(dòng)作的狀態(tài)時(shí),根據(jù)回報(bào)函數(shù)為該動(dòng)作分配回報(bào)。優(yōu)選地,在強(qiáng)化的學(xué)習(xí)方法中, 動(dòng)作選擇規(guī)則在經(jīng)歷預(yù)先確定數(shù)目的狀態(tài)之后被更新,其中在更新時(shí)考慮新添加的動(dòng)作和 其中執(zhí)行相應(yīng)的新添加的動(dòng)作的相應(yīng)的狀態(tài)以及通過(guò)動(dòng)作所達(dá)到的新?tīng)顟B(tài)。也為了利用根據(jù)本發(fā)明的方法來(lái)處理大的狀態(tài)空間,在優(yōu)選的實(shí)施形式中,在基 于圖形的學(xué)習(xí)方法中和/或在強(qiáng)化的學(xué)習(xí)方法中將技術(shù)系統(tǒng)的相似的狀態(tài)匯總成共同的 群集。在使用類(lèi)別的情況下,優(yōu)選地不僅在達(dá)到未知的狀態(tài)時(shí)應(yīng)用反饋規(guī)則,而且在達(dá) 到跟隨恰好要經(jīng)歷的類(lèi)別之后的類(lèi)別的狀態(tài)時(shí)應(yīng)用反饋規(guī)則。在另一改進(jìn)方案中,經(jīng)歷根 據(jù)反饋規(guī)則的狀態(tài)直至達(dá)到恰好要經(jīng)歷的類(lèi)別的狀態(tài)。在使用類(lèi)別的情況下,該方法優(yōu)選地被啟動(dòng)來(lái)使得首先在不考慮安全函數(shù)的情況 下經(jīng)歷根據(jù)反饋規(guī)則的狀態(tài)并且在此給這些狀態(tài)分配相同的類(lèi)別,其中經(jīng)歷這些狀態(tài)直至 不再拋棄確定數(shù)量的狀態(tài),并且其中接著在考慮安全函數(shù)的情況下到達(dá)未知的、從前還未 經(jīng)歷的狀態(tài),其中給該狀態(tài)分配隨后的類(lèi)別。根據(jù)本發(fā)明的方法尤其是在技術(shù)系統(tǒng)的真實(shí)工作中被采用。必要時(shí),該方法也可 以在對(duì)技術(shù)系統(tǒng)的工作的仿真中被使用。在特別優(yōu)選的實(shí)施形式中,該方法被用于探索燃?xì)廨啓C(jī)的狀態(tài)。燃?xì)廨啓C(jī)的狀態(tài) 和/或分配給這些狀態(tài)的動(dòng)作優(yōu)選地包括一個(gè)或多個(gè)如下的量燃?xì)廨啓C(jī)的總功率;對(duì)燃?xì)廨啓C(jī)的燃料供給;燃?xì)廨啓C(jī)中的或者在燃?xì)廨啓C(jī)的環(huán) 境中的一個(gè)或多個(gè)壓力和/或溫度;燃?xì)廨啓C(jī)的蜂鳴音(Brummen);燃?xì)廨啓C(jī)中的燃燒室加 速;燃?xì)廨啓C(jī)上的一個(gè)或多個(gè)調(diào)整參數(shù)、尤其是閥門(mén)調(diào)整和/或燃料比和/或進(jìn)口導(dǎo)向葉片 的調(diào)整。除了上面所描述的方法之外,本發(fā)明此外還包括計(jì)算機(jī)程序產(chǎn)品,其具有存儲(chǔ)在 機(jī)器可讀的載體上的程序代碼,用于當(dāng)程序運(yùn)行在計(jì)算機(jī)上時(shí)執(zhí)行根據(jù)本發(fā)明的方法。
以下參照所附的附圖詳細(xì)地描述了本發(fā)明的實(shí)施例。其中圖1示出了闡述了根據(jù)本發(fā)明的方法的實(shí)施形式的可能組合的示意圖;圖2示出了用于基于基準(zhǔn)問(wèn)題(Benchmark-Problem)測(cè)試根據(jù)本發(fā)明的方法的實(shí)施形式的評(píng)估函數(shù)(Bewertungs-Funktion)的三維圖;圖3示出了闡述了按照根據(jù)本發(fā)明的方法的實(shí)施形式的備份策略 (Backup-Policy)的學(xué)習(xí)的圖形;以及圖4示出了闡述了基于基準(zhǔn)問(wèn)題的根據(jù)本發(fā)明的方法的結(jié)果的圖形。
具體實(shí)施例方式以下所描述的根據(jù)本發(fā)明的方法的實(shí)施形式涉及對(duì)包含技術(shù)系統(tǒng)的多個(gè)狀態(tài)的狀態(tài)空間進(jìn)行探索,其中應(yīng)基于所謂的強(qiáng)化學(xué)習(xí)(Reinforcement-Learning)根據(jù)預(yù)先給 定的狀態(tài)來(lái)學(xué)習(xí)最優(yōu)的動(dòng)作選擇規(guī)則。根據(jù)該規(guī)則,在對(duì)技術(shù)系統(tǒng)的工作進(jìn)行仿真時(shí)或者 在真實(shí)工作中以適當(dāng)?shù)姆绞綇募夹g(shù)系統(tǒng)的狀態(tài)出發(fā)來(lái)選擇最優(yōu)動(dòng)作,該最優(yōu)動(dòng)作引起技術(shù) 系統(tǒng)的接下來(lái)的狀態(tài)。利用該動(dòng)作選擇規(guī)則,根據(jù)預(yù)先給定的準(zhǔn)則最優(yōu)地選擇技術(shù)系統(tǒng)的 工作狀態(tài),例如這些狀態(tài)可被選擇為使得出現(xiàn)技術(shù)系統(tǒng)的最好的效率或者技術(shù)系統(tǒng)的最低 的磨損。在這里所描述的實(shí)施形式中,借助所謂的回報(bào)函數(shù)(Reward-Fimktion)來(lái)描述最 優(yōu)的動(dòng)作選擇規(guī)則,該回報(bào)函數(shù)根據(jù)其中執(zhí)行動(dòng)作的狀態(tài)以及由此得到的后繼狀態(tài)來(lái)將回 報(bào)Rs,s, 3分配給所執(zhí)行的動(dòng)作,該回報(bào)Rs, s, a對(duì)應(yīng)于權(quán)利要求意義上的評(píng)分。強(qiáng)化學(xué)習(xí)在現(xiàn)有技術(shù)中已充分公知并且是一種用于解決最優(yōu)控制問(wèn)題的機(jī)器學(xué) 習(xí)的方法。如上面已解釋的那樣,利用強(qiáng)化學(xué)習(xí)(下面也稱(chēng)作RL方法)來(lái)識(shí)別動(dòng)作選 擇規(guī)則(以下也稱(chēng)作策略(Policy)),該動(dòng)作選擇規(guī)則最優(yōu)地在預(yù)先給定的環(huán)境之內(nèi)控 制執(zhí)行這些動(dòng)作的所謂的主體(Agent)。在這里所描述的實(shí)施形式中,該策略被限定成 馬爾可夫(Markov)決策過(guò)程,該馬爾可夫決策過(guò)程包括狀態(tài)空間S、大量動(dòng)作A和動(dòng)態(tài) 性。后者由從當(dāng)前狀態(tài)s至新的后繼狀態(tài)s'以及引起后繼狀態(tài)s'的動(dòng)作a的轉(zhuǎn)移概率 得到。在每個(gè)相對(duì)應(yīng)的轉(zhuǎn)移中,主體獲得上面已提及的回報(bào)。
該回報(bào)同樣遵循分布并且僅僅在特定情況下是確定性的,使得R表示函數(shù)。通常,感興趣的 是在策略空間π en, π —A上使折扣值函數(shù)(diskontierende ValueFunction) 最大化,其中針對(duì)所有狀態(tài)s的折扣因子O < Y < 1。作為中間步驟使用所謂的 Q函數(shù)該Q函數(shù)與狀態(tài)和動(dòng)作有關(guān)。在這種情況下,V* =Vπopt被限定為最優(yōu)的值函數(shù) 并且相對(duì)應(yīng)地 被限定為最優(yōu)的Q函數(shù)。上述方程表示本領(lǐng)域技術(shù)人員公知的貝爾曼(Bellman) 最優(yōu)性方程,該貝爾曼最優(yōu)性方程的解提供了最優(yōu)策略η (s) = argmax, Q*(s,a)。上面所描述的RL方法能夠根據(jù)合理數(shù)目的相互作用來(lái)使諸如燃?xì)廨啓C(jī)的復(fù)雜的技術(shù)設(shè)備最優(yōu)化。為了實(shí)現(xiàn)上述RL方法所需的是為了學(xué)習(xí)該方法已經(jīng)存在以包括狀態(tài)、 動(dòng)作、后繼狀態(tài)和評(píng)分的元組為形式的、預(yù)先確定數(shù)量的數(shù)據(jù)記錄,以便基于這些數(shù)據(jù)記錄 來(lái)執(zhí)行學(xué)習(xí)。根據(jù)本發(fā)明的方法關(guān)注的是以適當(dāng)?shù)姆绞缴捎糜趯W(xué)習(xí)的數(shù)據(jù)記錄,其中該 生成借助通過(guò)執(zhí)行相對(duì)應(yīng)的動(dòng)作對(duì)技術(shù)系統(tǒng)的狀態(tài)的狀態(tài)空間進(jìn)行探索來(lái)實(shí)現(xiàn)。由于在對(duì) 狀態(tài)空間進(jìn)行探索時(shí)尚未已知技術(shù)系統(tǒng)的特征,所以能保證的是不執(zhí)行不允許的動(dòng)作,這 些不允許的動(dòng)作在技術(shù)系統(tǒng)中是不希望的并且尤其是可引起對(duì)系統(tǒng)的損害。此外,利用探 索方法應(yīng)能夠?qū)崿F(xiàn)經(jīng)歷如下?tīng)顟B(tài)空間,在該狀態(tài)空間中大數(shù)目的不會(huì)引起對(duì)技術(shù)系統(tǒng)的損 害的安全狀態(tài)被采用。以下所描述的實(shí)施形式能夠?qū)崿F(xiàn)這種對(duì)技術(shù)系統(tǒng)的狀態(tài)空間的安全 探索。以下所描述的方法的兩個(gè)主要組成部分是安全函數(shù)和備用策略。安全函數(shù)具有確 定狀態(tài)-動(dòng)作對(duì)是否安全的任務(wù),而備用策略應(yīng)將臨界的或者未知的狀態(tài)引回到安全的并 且已經(jīng)已知的狀態(tài)。為了將這兩個(gè)組分相聯(lián)系,在以下所描述的根據(jù)本發(fā)明的方法的實(shí)施 形式中使用了所謂的基于水平的探索方案,該探索方案將狀態(tài)劃分成彼此相繼的水平的序 列的水平。在該方法中使用的安全函數(shù)必須針對(duì)狀態(tài)_動(dòng)作對(duì)發(fā)表關(guān)于其安全狀態(tài)的觀點(diǎn), 該安全狀態(tài)能被劃分成“安全的”、“臨界的”和“超臨界的”類(lèi)別。此外,動(dòng)作可以被劃分成 “致命的”和“非致命的”類(lèi)別。如果適用其中τ是預(yù)先確定的邊界值),則存
在用于從狀態(tài)S過(guò)渡至狀態(tài)S'的非致命動(dòng)作。而如果適用,則動(dòng)作是致命的。如果針對(duì)所有在一個(gè)狀態(tài)下能被執(zhí)行的動(dòng)作a存在策略P(對(duì)于其適用
R≥T),則狀態(tài)被分類(lèi)為安全W。臨界狀態(tài)是其中存在云力作使得以概率
Psas‘ > ο達(dá)到超臨界的后繼狀態(tài)S'的狀態(tài)。超臨界狀態(tài)在這種情況下是如下?tīng)顟B(tài)在該狀
態(tài)中,對(duì)于所有在該狀態(tài)下被執(zhí)行的動(dòng)作,所有隨后的策略也在任何位置引起致命轉(zhuǎn)移,以 所述所有隨后的策略可以經(jīng)歷這些狀態(tài)。也就是說(shuō),對(duì)于在超臨界狀態(tài)下的所有動(dòng)作a適 用 從上述對(duì)安全的、臨界的和超臨界的定義得到主體從臨界狀態(tài)(在安全地執(zhí)行 隨后的動(dòng)作的情況下)又可轉(zhuǎn)化成安全狀態(tài)。此外,分級(jí)為安全的動(dòng)作(即其后繼狀態(tài)是 安全的)可以在狀態(tài)空間的探索中始終被執(zhí)行,因?yàn)樵搫?dòng)作始終具有大于τ的回報(bào)。如果 出現(xiàn)值在邊界值τ之下的回報(bào),則這在通常情況下引起對(duì)技術(shù)系統(tǒng)的損害或者引起技術(shù) 系統(tǒng)的有故障的工作。安全函數(shù)的問(wèn)題的不重要的解決方案在于預(yù)先定義該安全函數(shù)。然而,這以關(guān)于 RL環(huán)境的詳細(xì)了解為前提,然而詳細(xì)了解大多不存在。因而需要的是從已經(jīng)存在的探索 數(shù)據(jù)、即從對(duì)(s,a, r, s')元組形式的狀態(tài)過(guò)渡的觀察中學(xué)習(xí)安全函數(shù)。在此,r標(biāo)明針 對(duì)動(dòng)作a被給予的回報(bào),該動(dòng)作a將狀態(tài)s轉(zhuǎn)化成狀態(tài)s ’。在以下所描述的本發(fā)明的實(shí)施形式中,使用安全函數(shù),該安全函數(shù)避免了不安全的動(dòng)作,所述不安全的動(dòng)作直接地或間接地在其執(zhí)行之后引向致命狀態(tài)。對(duì)此,考慮了下面 還將進(jìn)一步描述的備用策略。當(dāng)在探索狀態(tài)空間時(shí)達(dá)到了技術(shù)系統(tǒng)的未知的、從前還未經(jīng) 歷的狀態(tài)時(shí),始終采用該策略。在這種情況下,基于在權(quán)利要求中通常稱(chēng)作反饋規(guī)則的備用 策略執(zhí)行動(dòng)作,使得又返回至已知的、從前經(jīng)歷過(guò)的狀態(tài)。安全函數(shù)在以下所描述的實(shí)施形式中被實(shí)現(xiàn)為回報(bào)的最小估計(jì)(最小回報(bào)估 計(jì))。該估計(jì)在于估計(jì)在狀態(tài)s下執(zhí)行動(dòng)作a并且遵循該備用策略之后獲得的最小回報(bào)。 尤其是,安全函數(shù)基于以下兩個(gè)步驟來(lái)確定1.在探索期間,收集(s,a,rmin)形式的最小回報(bào)樣本。在此,(s,a)標(biāo)明在狀態(tài)s 下執(zhí)行動(dòng)作a并且rmin標(biāo)明在備用軌跡(Backup-Trajektorie)上的所觀察的最小回報(bào),該 備用軌跡緊接著轉(zhuǎn)移由備用策略生成。2.基于在探索期間所收集的樣本來(lái)學(xué)習(xí)函數(shù)逼近器,該函數(shù)逼近器從狀態(tài)-動(dòng)作 對(duì)映射到期望的最小回報(bào)—最小回報(bào)樣本與所使用的備用策略有關(guān)。類(lèi)似地,當(dāng)在狀態(tài)s下執(zhí)行動(dòng)作a并且 接著遵循策略η時(shí)Q函數(shù)(T (s,a)的值如何提供將來(lái)的回報(bào)的期望的(已打折扣的)總 和,當(dāng)在狀態(tài)s下執(zhí)行動(dòng)作a并且此后遵循備用策略時(shí),Rfflin(s, a)提供了期望的最小回報(bào)。備用策略具有如下任務(wù)當(dāng)在執(zhí)行該方法時(shí)所使用的主體因?yàn)槠涮幱谛聽(tīng)顟B(tài)而不 再可以做出安全決策時(shí)將該主體引回到已知的區(qū)域中,在所述新?tīng)顟B(tài)下,該主體不能足夠 良好地估計(jì)各個(gè)動(dòng)作的安全性。在此,備用策略本身不允許引導(dǎo)至臨界狀態(tài)。這例如通過(guò) 如下方式來(lái)實(shí)現(xiàn)備用策略接近可能的固定點(diǎn)或者嘗試停留在狀態(tài)空間的確定的區(qū)域中。對(duì)于在真實(shí)工作中的已經(jīng)在沒(méi)有強(qiáng)化學(xué)習(xí)的情況下被驅(qū)動(dòng)的技術(shù)系統(tǒng),常常已經(jīng) 存在如下調(diào)節(jié)器只要該調(diào)節(jié)器處于安全的情況并且不引起致命轉(zhuǎn)移,該調(diào)節(jié)器就可以被 用作預(yù)先詳細(xì)說(shuō)明的備用策略。如果還不存在這種調(diào)節(jié)器,則需要從已經(jīng)存在的探索數(shù)據(jù)、 即從已經(jīng)存在的(s,a,r, s')元組中學(xué)習(xí)備用策略。如上面所闡明的那樣,動(dòng)作的安全性通過(guò)相對(duì)應(yīng)的回報(bào)來(lái)表達(dá),其中回報(bào)小于邊 界值τ的動(dòng)作對(duì)應(yīng)于致命的轉(zhuǎn)移。在從探索數(shù)據(jù)中學(xué)習(xí)備用策略時(shí),備用策略因此必須考 率回報(bào)。在本發(fā)明的可能的變形方案中,備用策略借助通用的RL方法來(lái)確定,其中然而現(xiàn) 在并不使用開(kāi)頭所定義的值函數(shù),因?yàn)橛纱舜_定的最優(yōu)策略通常也不是同時(shí)安全的。此外, 主觀想像上最優(yōu)的并且安全的策略可能由于生成中的錯(cuò)誤而是不安全的。為了使這一點(diǎn)得 到保障,使回報(bào)的最小值的期望值而不是回報(bào)的總和的期望值最大化。相對(duì)應(yīng)的貝爾曼最 優(yōu)性方程內(nèi)容如下 在此省去了折扣因子Y,因?yàn)橥ㄟ^(guò)目標(biāo)函數(shù)的變形不再存在發(fā)散和的問(wèn)題。當(dāng)針對(duì)給定的RL問(wèn)題確定適當(dāng)?shù)貪M(mǎn)足該方程的時(shí),由此能確定關(guān)于ρ-的貪
婪策略;Twk,該貪婪策略力求避免低的回報(bào)。如果策略在任何狀態(tài)下都執(zhí)行具有最大 的Q值的動(dòng)作,則該策略在此是貪婪的(greedy)。類(lèi)似于也可以確定最優(yōu)策略的Q函數(shù)那樣,這種滿(mǎn)足上述方程(1)的最大-最小Q 函數(shù)例如能夠利用在現(xiàn)有技術(shù)中公知的動(dòng)態(tài)編程來(lái)確定。然而,在此不存在唯一的檢驗(yàn)點(diǎn),因?yàn)榇蠹sQ =-⑴是盡管不希望但是允許的解。利用Q =⑴進(jìn)行初始化保證了達(dá)到正確的 解,因?yàn)樵诘谝坏襟E中使用最小值的回報(bào)而不使用最初的Q值。為了確定上面所描述的備用策略,可以使用任意的在現(xiàn)有技術(shù)中公知的RL方法, 尤其是上面已提及的動(dòng)態(tài)編程、神經(jīng)適配的Q迭代(NFQ,Neural Fitted Q-Iteration)以 及基于遞歸神經(jīng)網(wǎng)絡(luò)的方法,這些方法例如被描述在專(zhuān)利申請(qǐng)DE 10 2007 001 025.9中。
為了創(chuàng)建一種多個(gè)探索數(shù)據(jù)形式的盡可能廣泛的數(shù)據(jù)庫(kù),采用了所謂的基于水平 的探索。在這種情況下涉及逐步探索,所述逐步探索緩慢地從狀態(tài)空間的已知為安全的區(qū) 域中去除執(zhí)行的主體并且首先嘗試收集盡可能多的局部觀察。對(duì)此,給每個(gè)狀態(tài)s分配水 平1 e N(N =自然數(shù)的數(shù)量)。從探索在安全區(qū)域中開(kāi)始出發(fā),針對(duì)開(kāi)始狀態(tài)Stl設(shè)置水平 Ks0) =O0如果在探索期間進(jìn)入迄今未知的狀態(tài)Si,則其水平被設(shè)置為I(Si) =1(8^+1, 其中I(Sg)對(duì)應(yīng)于前任狀態(tài)的水平。如果在遵循備用策略時(shí)進(jìn)入新的狀態(tài)Si,則其水平 1 (Si)被前任狀態(tài)的水平接管,也就是說(shuō)適用1 (Si) = 1 (Si^1)。這通過(guò)對(duì)備用策略的遵 循不引起安全性的惡化來(lái)激發(fā)?;谠撍礁拍?,探索如下進(jìn)行-以水平I(Stl)= 0開(kāi)始,為每個(gè)在技術(shù)系統(tǒng)中已知的狀態(tài)都分配水平。-維持當(dāng)前要探索的水平1。,其中1。=0在開(kāi)始時(shí)被初始化。探索的目標(biāo)是分別 針對(duì)水平1。,在水平1。所對(duì)應(yīng)的所有狀態(tài)下,只要?jiǎng)幼鞯膱?zhí)行被估計(jì)為是安全的,就執(zhí)行所 有在那里可能的動(dòng)作。如果完整探索當(dāng)前水平的所有狀態(tài),則提高1。。-探索繼續(xù)直至滿(mǎn)足中斷準(zhǔn)則為止,所述中斷準(zhǔn)則諸如是對(duì)全部可安全探索的區(qū) 域的完整探索。然而,在實(shí)踐中,這常常幾乎不能被實(shí)現(xiàn),因此達(dá)到所希望的最小性能是更 合乎目的的。為了可以以這種方式和方法來(lái)進(jìn)行探索,需要有針對(duì)性地接近狀態(tài)的可能性。在 執(zhí)行該方法的主體在達(dá)到具有提高的水平的新?tīng)顟B(tài)之后遵循該備用策略之后,該主體遲早 又到達(dá)已知狀態(tài)。從那里開(kāi)始,必須存在達(dá)到當(dāng)前水平的狀態(tài)的可能性。以下描述了兩種方法如何可以以合適的方式達(dá)到一個(gè)水平的所有已知的狀態(tài)并 且因此可以執(zhí)行一個(gè)水平中的所有可能的動(dòng)作。第一方法是基于圖形的路徑發(fā)現(xiàn),該基于圖形的路徑發(fā)現(xiàn)可以在確定性的RL問(wèn) 題中找到任意的已知的狀態(tài)。該方法基于如下構(gòu)思在探索期間建立其節(jié)點(diǎn)表示狀態(tài)而其 棱邊表示所執(zhí)行的動(dòng)作的圖形。除了狀態(tài)之外,在節(jié)點(diǎn)上注明狀態(tài)的水平。該方法的特征 在于如下步驟-當(dāng)在當(dāng)前狀態(tài)下不再探索動(dòng)作時(shí),在圖形中搜索如下?tīng)顟B(tài)該狀態(tài)的水平對(duì)應(yīng) 于當(dāng)前要探索的狀態(tài)并且針對(duì)該狀態(tài)存在尚可安全探索的動(dòng)作。如果未發(fā)現(xiàn)這種狀態(tài),則 提高當(dāng)前要探索的水平并且使該探索停止。_為了發(fā)現(xiàn)從當(dāng)前狀態(tài)至要探索的狀態(tài)的路徑,執(zhí)行該圖形上的廣度優(yōu)先搜索 (Bereitensuche)。通過(guò)執(zhí)行利用其沿著所發(fā)現(xiàn)的路徑的棱邊被標(biāo)記的動(dòng)作從當(dāng)前狀態(tài)到 達(dá)目的地狀態(tài)。上述方法不適于包括多余數(shù)千個(gè)狀態(tài)的技術(shù)系統(tǒng)。在合理的計(jì)算時(shí)間內(nèi),僅可以 完整探索低的二位水平。因此,在基于圖形的路徑發(fā)現(xiàn)的優(yōu)選的實(shí)施形式中將相鄰的狀態(tài) 適當(dāng)?shù)貐R合成群集。在該基于圖形的方法的上下文中,群集因此對(duì)應(yīng)于圖形中的節(jié)點(diǎn)。通 常,馬爾科夫條件在此被違反,使得依據(jù)應(yīng)用情況必須發(fā)現(xiàn)在計(jì)算開(kāi)銷(xiāo)與問(wèn)題的可解決性之間的合適的折衷。用于探索一個(gè)水平的狀態(tài)的第二方法在于借助強(qiáng)化學(xué)習(xí)的路徑發(fā)現(xiàn)。該方法也可以在隨機(jī)情況下被采用,并且在這種情況下可以使用通用的RL方法,例如相對(duì)于備用 策略的學(xué)習(xí)所述的方法之一。對(duì)此,定義了馬爾科夫決策過(guò)程,該馬爾科夫決策過(guò)程的狀 態(tài)對(duì)應(yīng)于預(yù)先定義的群集?,F(xiàn)在,如果R'是所追求的狀態(tài),則定義回報(bào)函數(shù)乂。= 1,否則
= 0。對(duì)于這樣定義的RL問(wèn)題確定了最優(yōu)策略并且遵循該最優(yōu)策略直至達(dá)到所希望 的群集。也可能的是,將多個(gè)群集定義為目標(biāo)。在這種情況下,所述策略會(huì)嘗試達(dá)到最接近 當(dāng)前群集的群集。下面描述了算法的實(shí)施形式,該算法的實(shí)施形式再現(xiàn)了借助強(qiáng)化學(xué)習(xí)的路徑發(fā)現(xiàn) 的整個(gè)方法。在這種情況下學(xué)習(xí)并且更新強(qiáng)化學(xué)習(xí)的策略,其中對(duì)策略的更新在執(zhí)行確定 數(shù)目的動(dòng)作之后進(jìn)行。用于強(qiáng)化學(xué)習(xí)的算法包括如下步驟默認(rèn)設(shè)置在開(kāi)始存在(s,a, s')元組形式的觀察列表0。Z標(biāo)明目標(biāo)群集的集合,也就是 通過(guò)路徑發(fā)現(xiàn)達(dá)到的并且包含其中還可以執(zhí)行可能的動(dòng)作的狀態(tài)的那些群集。N標(biāo)明其后 要更新用于進(jìn)行路徑發(fā)現(xiàn)的策略的動(dòng)作的數(shù)目。m是其后必須達(dá)到目標(biāo)群集(中斷準(zhǔn)則) 的動(dòng)作的最大數(shù)目。首先如下初始化該方法確定回報(bào)函數(shù), 根據(jù)ο確定轉(zhuǎn)移概率的估計(jì)τ。求解通過(guò)T和R定義的RL問(wèn)題,由此獲得策略JI ω。接著基于如下步驟進(jìn)行用于進(jìn)行路徑發(fā)現(xiàn)的策略應(yīng)用設(shè)置c:=0以重復(fù)循環(huán)執(zhí)行如下步驟重復(fù)如果 c > 0 Λ c mod η = 0,貝Ij基于0更新估計(jì)T ;求解通過(guò)T和R定義的RL問(wèn)題并且由此獲得更新過(guò)的策略π ω結(jié)束該假設(shè)條件(利用上述假設(shè)條件來(lái)更新策略。)確定如下定義S:=當(dāng)前狀態(tài);a = π ω (s);執(zhí)行動(dòng)作s并且如下來(lái)更新s':=當(dāng)前狀態(tài);將(s,a,s')附加于0;c = c+1 ;
檢查是否達(dá)到最大數(shù)目的動(dòng)作,更確切地說(shuō)如下如果c = m,則返回“假”(即路徑發(fā)現(xiàn)不成功);
結(jié)束假設(shè)條件重復(fù)所述重復(fù)循環(huán)的上述步驟,直至適用s' e Z如果滿(mǎn)足條件s' e Z,則路徑發(fā)現(xiàn)成功并且返回值“真”。上面所描述的用于執(zhí)行根據(jù)本發(fā)明的探索方法的可能變形方案在根據(jù)圖1的圖 中再一次被闡述。該方法通過(guò)主體AG來(lái)執(zhí)行并且不僅使用安全函數(shù)SF、探索策略ES而且 使用備用策略BP來(lái)執(zhí)行該方法。安全函數(shù)在此利用上面所描述的最小_回報(bào)估計(jì)來(lái)逼近, 其中尤其是使用局部二次逼近。必要時(shí),該逼近也會(huì)利用神經(jīng)網(wǎng)絡(luò)(例如多層-感知器)來(lái) 執(zhí)行。探索策略ES嘗試在一個(gè)水平之內(nèi)執(zhí)行所有可能的動(dòng)作。在此可以使用上面所描述 的基于圖形的路徑發(fā)現(xiàn)或借助強(qiáng)化學(xué)習(xí)的路徑發(fā)現(xiàn)。作為備用策略BP可以采用現(xiàn)有的調(diào) 節(jié)器,或者備用策略可以利用強(qiáng)化學(xué)習(xí)方法來(lái)學(xué)習(xí)。根據(jù)本發(fā)明的方法的實(shí)施形式由本發(fā) 明人來(lái)實(shí)施并且在以已知的基準(zhǔn)問(wèn)題BurnSim為形式的示例性的測(cè)試環(huán)境上來(lái)測(cè)試。環(huán)境 BurnSim在圖1中通過(guò)附圖標(biāo)記BS來(lái)說(shuō)明。示例性地,在此,BurnSim問(wèn)題的狀態(tài)被標(biāo)明為 s、s'而所執(zhí)行的動(dòng)作被標(biāo)明為a。s'在此是在執(zhí)行動(dòng)作a時(shí)源于狀態(tài)s的后繼狀態(tài)。以下闡述了用于測(cè)試根據(jù)本發(fā)明的方法的基準(zhǔn)問(wèn)題BurnSim。根據(jù)本發(fā)明的方 法的實(shí)施形式針對(duì)該問(wèn)題被實(shí)施并且用實(shí)驗(yàn)方法來(lái)調(diào)查。BurnSim問(wèn)題通過(guò)在調(diào)節(jié)燃?xì)?輪機(jī)時(shí)真實(shí)出現(xiàn)的問(wèn)題來(lái)激發(fā)。最優(yōu)地驅(qū)動(dòng)汽輪機(jī)指的是,該汽輪機(jī)以盡可能高的功率行 駛。然而,在汽輪機(jī)的高功率區(qū)域中,在燃燒室中出現(xiàn)了不希望的動(dòng)態(tài)性,其也被稱(chēng)為“蜂鳴 音”(英語(yǔ)humming)。當(dāng)該蜂鳴音變得過(guò)強(qiáng)時(shí),會(huì)引起對(duì)汽輪機(jī)的損害。基于該原因,目標(biāo) 是以盡可能高的功率驅(qū)動(dòng)燃?xì)廨啓C(jī)并且同時(shí)注意蜂鳴音不變得過(guò)強(qiáng)。在BurnSim問(wèn)題中的 技術(shù)系統(tǒng)的狀態(tài)空間是二維的并且內(nèi)容如下S = {(f, h) |f e
遵循備用策略直至該備用策略達(dá)到并且不再拋棄固定點(diǎn)或者狀態(tài)空間的確定區(qū) 域。只要備用策略并非已經(jīng)執(zhí)行了一個(gè)狀態(tài)中的所有可能的動(dòng)作,所有在此所訪(fǎng)問(wèn)的狀態(tài) 就獲得水平0并且被記入具有還要探索的動(dòng)作的狀態(tài)的列表中。3.探索步驟探索策略選擇要探索的動(dòng)作。如果在當(dāng)前狀態(tài)下沒(méi)有動(dòng)作要探索(或者因?yàn)橐呀?jīng) 全部被探索,或者當(dāng)前狀態(tài)的水平并不對(duì)應(yīng)于當(dāng)前要探索的水平),則該探索策略生成需要 的動(dòng)作,通過(guò)這些需要的動(dòng)作,主體到達(dá)具有當(dāng)前要探索的動(dòng)作的狀態(tài)中,以 便接著選擇在 那里要探索的動(dòng)作。在執(zhí)行動(dòng)作之前,主體借助安全函數(shù)檢驗(yàn)其安全性。如果動(dòng)作被估計(jì) 為是安全的,則執(zhí)行該動(dòng)作。否則,該動(dòng)作被標(biāo)記為是不安全的并且使用備用策略來(lái)返回到 安全區(qū)域中。對(duì)于在執(zhí)行探索步驟時(shí)達(dá)到新的、迄今未知的狀態(tài)或者達(dá)到水平比當(dāng)前要探 索的更高的已知的狀態(tài)的情況,同樣使用備用策略。4.借助備用策略來(lái)返回如果進(jìn)入新?tīng)顟B(tài)或者水平比當(dāng)前要探索的更高的狀態(tài),則使用備用策略來(lái)返回到 已知的區(qū)域中。在最簡(jiǎn)單的情況下,在此使用備用策略直至達(dá)到水平為0的狀態(tài)。5.水平提高當(dāng)在當(dāng)前水平的所有狀態(tài)下的所有安全動(dòng)作都被探索時(shí),提高水平并且探索以步 驟3來(lái)繼續(xù)。6.探索結(jié)束當(dāng)執(zhí)行了所有狀態(tài)下的全部安全動(dòng)作時(shí)或者當(dāng)滿(mǎn)足中斷準(zhǔn)則時(shí),探索結(jié)束。這可 以是達(dá)到最大水平。同樣可能的是,基于已經(jīng)收集到的觀察來(lái)確定最優(yōu)策略并且確定其性 能。當(dāng)該策略已達(dá)到所希望的質(zhì)量或者該策略隨著進(jìn)一步的觀察基本上不再改變時(shí),可以 結(jié)束探索。以下描述了對(duì)于BurnSim問(wèn)題如何確定安全函數(shù)。為了實(shí)現(xiàn)安全函數(shù),局部二次 地逼近最小回報(bào)函數(shù)。由于此原因,最小回報(bào)函數(shù)的估計(jì)線(xiàn)性地被實(shí)現(xiàn)在特征空間 中,其中&作為燃料供給而、作為相應(yīng)的轉(zhuǎn)移i的蜂鳴音。在此形成的特征矩陣 最后利用最小二乘方w = (Xlrfy的方法來(lái)逼近所觀察的最小回報(bào)
默認(rèn)情況下,考慮十個(gè)最近的近鄰。如果特征空間不完全張開(kāi),即xTx不是正則的, 則包括其它近鄰。在超過(guò)COnd(XTX) > 1000時(shí),呈現(xiàn)X的奇異性。
在BurnSim問(wèn)題中,在一個(gè)實(shí)施形式中,事先已知的標(biāo)準(zhǔn)調(diào)節(jié)器被用作備用策略。該調(diào)節(jié)器提供以下備用策略 該調(diào)節(jié)器力求關(guān)于燃料供給的固定區(qū)域之下的狀態(tài)并且因此引起蜂鳴音的持續(xù) 降低。如果備用策略事先是未知的,則該備用策略必須在使用在過(guò)去描述的RL方法的 情況下從已經(jīng)存在的觀察中進(jìn)行學(xué)習(xí),該RL方法代替回報(bào)的總和的期望值使回報(bào)的最小 值的期望值最大化。在針對(duì)BurnSim問(wèn)題實(shí)施的實(shí)施形式中,在此受所謂的學(xué)徒式學(xué)習(xí)的 構(gòu)思鼓動(dòng)地從如下軌跡中獲得觀察,該軌跡已預(yù)先給定了所謂的教師。教師軌跡因此是(s, a,r, s')元組構(gòu)成的初始數(shù)據(jù)集,利用該初始數(shù)據(jù)集通過(guò)RL方法來(lái)學(xué)習(xí)備用策略。圖3示出了一圖形,在該圖形上沿著橫坐標(biāo)繪制燃料供給f而沿著縱坐標(biāo)繪制蜂 鳴音h。在該圖形中,再現(xiàn)了教師軌跡T。該軌跡包括所有對(duì)于安全備用策略所需的觀察。 尤其是,在f = 0. 5的右邊的區(qū)域中的觀察是重要的,以便可以學(xué)習(xí)在那里燃料供給降低 (decrease)是安全的動(dòng)作。此外,在圖3中也通過(guò)相對(duì)應(yīng)的在相應(yīng)的狀態(tài)下要執(zhí)行的動(dòng)作 表示所學(xué)習(xí)的備用策略。在這種情況下,朝向左邊的三角性D代表降低燃料,圓形K代表保 持燃料而指向右邊的三角形I代表提高燃料。由于在教師軌跡中僅僅存在數(shù)目一目了然的狀態(tài),所以可能的是將這些狀態(tài)理解 為是離散的并且基于表格地在應(yīng)用貝爾曼最優(yōu)性方程(參見(jiàn)方程(1))的變形方案的情況 下確定Q函數(shù)。此外,其轉(zhuǎn)移并不由教師執(zhí)行的非確定性的Q值事后被設(shè)置到-⑴,使得基 于得到的Q函數(shù)的策略也可以從不執(zhí)行該動(dòng)作。這是需要的,以便可以保證安全性。Q函數(shù)僅針對(duì)狀態(tài)空間的數(shù)個(gè)狀態(tài)包含條目。然而,備用策略必須可為整個(gè)狀態(tài)空 間的所有狀態(tài)提供動(dòng)作。這通過(guò)簡(jiǎn)單的最近近鄰生成來(lái)實(shí)現(xiàn),對(duì)于該最近近鄰生成,在給定 的狀態(tài)s,在Q中搜尋其距s的歐幾里得的距離最小的狀態(tài)§。如已經(jīng)提及的那樣,圖3示出了所使用的教師軌跡以及得到的策略。僅僅對(duì)于軌 跡的點(diǎn),Q函數(shù)包含條目,針對(duì)所有其它點(diǎn),根據(jù)最近的近鄰的Q值來(lái)選擇動(dòng)作。認(rèn)識(shí)到的 是在幾乎所有情況下,選擇將燃料供給朝著0. 5方向改變的動(dòng)作。當(dāng)教師軌跡針對(duì)一個(gè) 狀態(tài)僅包含一個(gè)動(dòng)作時(shí),所學(xué)習(xí)的策略也針對(duì)該狀態(tài)和其近鄰選擇該動(dòng)作,即使該動(dòng)作在 使最小回報(bào)最大化的意義上并非是最優(yōu)的。該效應(yīng)尤其是在f < 0. 3并且h 0. 4 (動(dòng)作 “保持”)的區(qū)域中以及在0. 65≤f≤0. 85并且h≤0.1 (動(dòng)作“提高”)的區(qū)域中可以觀 察到。然而在這兩種情況下,錯(cuò)誤特性是非臨界的在f < 0. 5的區(qū)域中執(zhí)行“保持”引起 蜂鳴音的降低;在其它所述區(qū)域中的期望的“提高”是毫無(wú)問(wèn)題的,因?yàn)榻^不會(huì)進(jìn)入狀態(tài)空 間的該區(qū)域。在實(shí)施根據(jù)本發(fā)明的針對(duì)BurnSim問(wèn)題的方法時(shí),采用了對(duì)于探索策略所需的路 徑發(fā)現(xiàn)的兩個(gè)實(shí)現(xiàn)方案。一方面,使用了基于圖形的通過(guò)在圖形中廣度優(yōu)先搜索的路徑搜 索,而另一方面,執(zhí)行了通過(guò)對(duì)路徑發(fā)現(xiàn)RL問(wèn)題的定義和求解的搜索。對(duì)于基于圖形的方法,狀態(tài)空間通過(guò)以下方式人為地被縮小在BurnSim實(shí)施方 案中,在每個(gè)步驟之后,蜂鳴音被四舍五入到1/50的精度。因此,RL問(wèn)題本身改變。在真
16實(shí)的問(wèn)題中,縮小這種形式的狀態(tài)空間是不可能的。替換于基于圖形的路徑搜索,借助強(qiáng)化學(xué)習(xí)的路徑發(fā)現(xiàn)方法被遵循,其中狀態(tài)被 聚集成群集。該聚集在此如下地進(jìn)行-由于燃料供給可以提高和降低僅僅0.05并且始終保持在[0,1)區(qū)間中,所以燃 料供給的狀態(tài)可以采取僅僅20個(gè)離散值。-而蜂鳴音采取連續(xù)值。為了聚集狀態(tài),蜂鳴音被四舍五入到1/50的精度。在 此,不涉及RL問(wèn)題的改變,即BurnSim問(wèn)題本身保持不變。例如狀態(tài)Sl = (f = 0. 25 ;h = 0. 1239)和s2 = (f = 0. 25 ;h = 0. 1277)是BurnSim中的兩個(gè)不同的狀態(tài)。然而,兩者屬 于所聚集的狀態(tài)§丨=(f = 0. 25; h= o. 12)。根據(jù)與基于圖形的變形方案相同的原理在這樣聚集的狀態(tài)上執(zhí)行探索。圖4示出了基于BurnSim執(zhí)行的對(duì)狀態(tài)空間的探索的仿真的結(jié)果。在此,在圖4中 沿著橫坐標(biāo)再現(xiàn)了燃料供給f而沿著縱坐標(biāo)再現(xiàn)了蜂鳴音h。通過(guò)線(xiàn)LI1再現(xiàn)了基于強(qiáng)化 學(xué)習(xí)的路徑發(fā)現(xiàn)的探索界限,通過(guò)線(xiàn)LI2再現(xiàn)了以基于圖形的路徑發(fā)現(xiàn)為基礎(chǔ)的探索界限 并且通過(guò)線(xiàn)L3再現(xiàn)了回報(bào)t =-1的界限。在線(xiàn)LI1和LI2之下的狀態(tài)是利用相對(duì)應(yīng)的 路徑發(fā)現(xiàn)方法來(lái)達(dá)到的狀態(tài)。在根據(jù)線(xiàn)LI3的界限之下的狀態(tài)是最大可安全探索的狀態(tài)。 此外,可達(dá)到界限被再現(xiàn)為虛線(xiàn)LI4,即在該線(xiàn)右邊的所有狀態(tài)在BurnSim問(wèn)題中是不可達(dá) 到的。線(xiàn)LI4在這種情況下是圖2的線(xiàn)L1在通過(guò)軸線(xiàn)f和h張開(kāi)的平面中的投影。在使用基于圖形的探索的情況下,使用局部二次逼近,并且作為備用策略可以采 用上面所描述的標(biāo)準(zhǔn)調(diào)節(jié)器nbac;kup。如從圖4中得到的那樣,在探索期間不超過(guò)t =-1 的界限,使得探索滿(mǎn)足安全探索的準(zhǔn)則。在具有狀態(tài)聚集和RL路徑發(fā)現(xiàn)的探索中,如在基于圖形的探索中那樣將局部二 次逼近用作安全函數(shù)。備用策略是如下策略這些策略如上面所描述的那樣根據(jù)圖3的教 師軌跡T被確定。在路徑發(fā)現(xiàn)中所探索的區(qū)域小于通過(guò)基于圖形的探索所覆蓋的區(qū)域,因 為線(xiàn)LI1在線(xiàn)LI2之下。在狀態(tài)空間的有些區(qū)域中,用于學(xué)習(xí)的教師軌跡不包含可替換的動(dòng)作,而是僅僅 包含非最優(yōu)的動(dòng)作。因缺少訓(xùn)練數(shù)據(jù)中的替換物,所得到的策略也選擇該動(dòng)作。結(jié)果是比 標(biāo)準(zhǔn)調(diào)節(jié)器更慢地降低蜂鳴音的備用策略。由此在該策略的備用軌跡上觀察到比在標(biāo)準(zhǔn)調(diào) 節(jié)器的這些軌跡上更小的回報(bào)。結(jié)果,安全函數(shù)將動(dòng)作更早地分級(jí)為不安全的。盡管有相對(duì)于基于圖形的探索更小的覆蓋區(qū)域,從最優(yōu)策略的軌跡進(jìn)入的狀態(tài)空 間的整個(gè)區(qū)域中仍獲得了信息。因此,在這種情況下,觀察足以由此導(dǎo)出最優(yōu)策略。該最優(yōu) 策略在這種情況下是平均提供最高回報(bào)的那個(gè)動(dòng)作選擇規(guī)則。該策略對(duì)于BurnSim問(wèn)題是 已知的?;趫D形的探索需要大約52000個(gè)步驟,直至不再可能進(jìn)行進(jìn)一步的探索。而在 利用RL路徑發(fā)現(xiàn)對(duì)所聚集的狀態(tài)進(jìn)行探索的情況下,需要大約98000個(gè)步驟。較大數(shù)目的 探索步驟的原因在于對(duì)于探索不怎么適合的所學(xué)習(xí)的備用策略以及在路徑發(fā)現(xiàn)中由于狀 態(tài)聚集而違背馬爾科夫條件引起的不安全性。為了證明該方法的性能,利用上面所描述的探索方法確定的數(shù)據(jù)被用于學(xué)習(xí)最優(yōu) 策略。采用了不同的RL方法來(lái)學(xué)習(xí)。尤其是,比較了神經(jīng)適配的Q迭代、具有最近近鄰生 成的動(dòng)態(tài)編程和已知的最優(yōu)策略。根據(jù)下面的表1得到了與最優(yōu)策略相比的兩個(gè)RL方法的所達(dá)到的平均回報(bào),其中兩個(gè)RL方法不僅利用基于圖形的路徑發(fā)現(xiàn)而且利用RL路徑發(fā) 現(xiàn)來(lái)執(zhí)行。表 1平均回報(bào)RL方法基于圖形的路徑發(fā)現(xiàn) RL路徑發(fā)現(xiàn)動(dòng)態(tài)編程1. 1641. 132神經(jīng)適配的Q迭代1.1661.166最優(yōu)策略1. 166從表1中可認(rèn)識(shí)到的是,不僅利用基于圖形的路徑發(fā)現(xiàn)進(jìn)行探索而且利用RL路徑 發(fā)現(xiàn)進(jìn)行探索都引起具有接近最優(yōu)策略的回報(bào)或甚至對(duì)應(yīng)于該回報(bào)的回報(bào)的策略。尤其 是,利用神經(jīng)適配的Q迭代不僅針對(duì)基于圖形的路徑發(fā)現(xiàn)而且針對(duì)RL路徑發(fā)現(xiàn)都確定了最 優(yōu)策略。從上述實(shí)施方案中得到的是,利用根據(jù)本發(fā)明的方法的不同的實(shí)施形式可以非常 良好地如下探索技術(shù)系統(tǒng)的狀態(tài)實(shí)現(xiàn)良好的數(shù)據(jù)庫(kù),利用該數(shù)據(jù)庫(kù)可以學(xué)習(xí)針對(duì)該技術(shù) 系統(tǒng)的相對(duì)應(yīng)的控制方法或調(diào)節(jié)方法。在此,在探索時(shí)尤其是避免達(dá)到可直接地或間接地 引起對(duì)技術(shù)系統(tǒng)的損害的狀態(tài)。
18
權(quán)利要求
一種用于以計(jì)算機(jī)輔助方式對(duì)技術(shù)系統(tǒng)的狀態(tài)(s,s′)進(jìn)行探索的方法,其中-通過(guò)在技術(shù)系統(tǒng)的相應(yīng)狀態(tài)(s,s′)中執(zhí)行引起新?tīng)顟B(tài)(s,s′)的動(dòng)作(a)來(lái)相繼經(jīng)歷技術(shù)系統(tǒng)的狀態(tài)(s,s′);-在執(zhí)行引起未知的、從前還未經(jīng)歷的狀態(tài)(s,s′)的動(dòng)作(a)之前,借助安全函數(shù)(SF)來(lái)確定相應(yīng)的動(dòng)作(a)是技術(shù)系統(tǒng)中的允許的動(dòng)作(a)還是不允許的動(dòng)作(a),其中只有當(dāng)所述動(dòng)作(a)是允許的動(dòng)作時(shí)才執(zhí)行所述動(dòng)作(a);-在達(dá)到未知的狀態(tài)(s,s′)時(shí),基于反饋規(guī)則(BP)來(lái)選擇隨后的動(dòng)作(a),用于將狀態(tài)(s,s′)引回到已知的狀態(tài)(s,s′)。
2.根據(jù)權(quán)利要求1所述的方法,其中,不允許的動(dòng)作(a)被表征為使得在執(zhí)行不允許的 動(dòng)作(a)時(shí)該技術(shù)系統(tǒng)以為1的概率或者以大于零的概率到達(dá)如下?tīng)顟B(tài)(s,s')所述狀 態(tài)(s,s')直接在執(zhí)行不允許的動(dòng)作(a)之后或者間接地在執(zhí)行其它動(dòng)作(a)之后引起 技術(shù)系統(tǒng)的不希望的和/或有故障的工作狀態(tài)。
3.根據(jù)權(quán)利要求1或2所述的方法,其中,此外在達(dá)到技術(shù)系統(tǒng)的根據(jù)安全函數(shù)(SF) 將要執(zhí)行的動(dòng)作(a)分級(jí)為不允許的動(dòng)作的狀態(tài)(s,s')的情況下,基于反饋規(guī)則(BP)來(lái) 選擇隨后的動(dòng)作(a)。
4.根據(jù)上述權(quán)利要求之一所述的方法,其中,分別根據(jù)執(zhí)行動(dòng)作(a)的狀態(tài)(s)和根據(jù) 通過(guò)所述動(dòng)作達(dá)到的新?tīng)顟B(tài)(s')給所執(zhí)行的動(dòng)作(a)分配評(píng)分(r)。
5.根據(jù)權(quán)利要求4所述的方法,其中,不允許的動(dòng)作(a)具有小于預(yù)先確定的值的評(píng)分(r)。
6.根據(jù)權(quán)利要求4或5所述的方法,其中,安全函數(shù)(SF)基于動(dòng)作(a)的評(píng)分(r)而 被學(xué)習(xí)。
7.根據(jù)權(quán)利要求6所述的方法,其中,給所經(jīng)歷的包含狀態(tài)(s)和在所述狀態(tài)(s)下 執(zhí)行的動(dòng)作(a)的對(duì)分別分配最小評(píng)分(rmin),該最小評(píng)分(rmin)在執(zhí)行動(dòng)作(a)之后并且 在接著經(jīng)歷動(dòng)作(a)的反饋規(guī)則(BF)時(shí)出現(xiàn),其中基于最小評(píng)分(rmin)確定安全函數(shù)(SF) 并且其中當(dāng)最小評(píng)分(rmin)小于預(yù)先給定的值時(shí),安全函數(shù)(SF)接著確定不允許的動(dòng)作。
8.根據(jù)權(quán)利要求7所述的方法,其中,安全函數(shù)(SF)利用函數(shù)逼近器來(lái)確定,該函數(shù)逼 近器基于圍繞恰好要隨著動(dòng)作(a)改變的狀態(tài)(s,s')的局部外插來(lái)逼近最小評(píng)分(rmin)。
9.根據(jù)權(quán)利要求8所述的方法,其中,函數(shù)逼近器執(zhí)行局部線(xiàn)性的和/或局部二次的外插。
10.根據(jù)上述權(quán)利要求之一所述的方法,其中,反饋規(guī)則(BP)是針對(duì)技術(shù)系統(tǒng)預(yù)先給 定的規(guī)則。
11.根據(jù)權(quán)利要求10所述的方法,其中,反饋規(guī)則(BP)通過(guò)技術(shù)系統(tǒng)的現(xiàn)有調(diào)節(jié)器來(lái) 實(shí)現(xiàn)。
12.根據(jù)權(quán)利要求4至9之一或根據(jù)與權(quán)利要求4相結(jié)合的權(quán)利要求10或11所述的 方法,其中,反饋規(guī)則(BP)利用強(qiáng)化的、考慮動(dòng)作(a)的評(píng)分(r)的學(xué)習(xí)方法來(lái)確定。
13.根據(jù)權(quán)利要求12所述的方法,其中,強(qiáng)化的學(xué)習(xí)方法基于最優(yōu)性準(zhǔn)則,根據(jù)該最優(yōu) 性準(zhǔn)則使所有將來(lái)的評(píng)分(r)的期望值的最小值最大化。
14.根據(jù)上述權(quán)利要求之一所述的方法,其中,在經(jīng)歷技術(shù)系統(tǒng)的狀態(tài)(s,s')時(shí),給 狀態(tài)(s,s')分配相繼的類(lèi)別來(lái)使得i)如果狀態(tài)(S,s')基于反饋規(guī)則(BP)被改變,則給通過(guò)動(dòng)作(a)達(dá)到的未知的、從 前還未經(jīng)歷的狀態(tài)(s,s')分配在執(zhí)行動(dòng)作(a)之前分配給狀態(tài)(s,s')的類(lèi)別; )在所有其它情況下,給通過(guò)動(dòng)作達(dá)到的未知的、從前還未經(jīng)歷的狀態(tài)(s,s')分配 跟隨在執(zhí)行動(dòng)作(a)之前分配給狀態(tài)(s,s')的類(lèi)別的類(lèi)別。
15.根據(jù)權(quán)利要求14所述的方法,其中,狀態(tài)(s,s')根據(jù)類(lèi)別而被經(jīng)歷來(lái)使得在一 個(gè)類(lèi)別中首先對(duì)所有可能的要執(zhí)行的動(dòng)作(a)進(jìn)行探索并且接著轉(zhuǎn)移到接下來(lái)的類(lèi)別。
16.根據(jù)權(quán)利要求15所述的方法,其中,一個(gè)類(lèi)別的狀態(tài)(s,s')利用基于圖形的路 徑發(fā)現(xiàn)方法而被經(jīng)歷,其中在經(jīng)歷狀態(tài)(s,s')期間建立圖形,該圖形的節(jié)點(diǎn)對(duì)應(yīng)于所經(jīng) 歷的狀態(tài)(s,s')并且該圖形的棱邊對(duì)應(yīng)于所執(zhí)行的動(dòng)作(a),而且在該圖形中對(duì)于每個(gè) 節(jié)點(diǎn)存儲(chǔ)相對(duì)應(yīng)的狀態(tài)(s,s')的類(lèi)別,其中在達(dá)到已經(jīng)探索了所有可能的動(dòng)作(a)的狀 態(tài)(s,s')時(shí)在該圖形中搜索至相同類(lèi)別中的還能探索動(dòng)作(a)的狀態(tài)(s,s')的路徑, 并且在找到這種路徑時(shí)通過(guò)該路徑到達(dá)該狀態(tài)(s,s')。
17.根據(jù)權(quán)利要求16所述的方法,其中,在未發(fā)現(xiàn)至相同類(lèi)別中的還能執(zhí)行動(dòng)作(a)的 狀態(tài)(s,s')的路徑的情況下,經(jīng)歷后繼類(lèi)別的狀態(tài)(s,s')。
18.根據(jù)權(quán)利要求15至17之一所述的方法,其中,一個(gè)類(lèi)別的狀態(tài)(s,s')利用基于 回報(bào)函數(shù)的強(qiáng)化學(xué)習(xí)方法而被經(jīng)歷,其中當(dāng)動(dòng)作(a)引起在剛剛經(jīng)歷的類(lèi)別中的可能對(duì)至 少一個(gè)動(dòng)作(a)進(jìn)行探索的狀態(tài)(s,S’ )時(shí),根據(jù)動(dòng)作(a)的回報(bào)函數(shù)來(lái)分配回報(bào)。
19.根據(jù)權(quán)利要求18所述的方法,其中,在強(qiáng)化學(xué)習(xí)方法中,在經(jīng)歷了預(yù)先確定的數(shù)目 的狀態(tài)(s,s')之后更新動(dòng)作選擇規(guī)則,其中在更新時(shí)考慮新添加的動(dòng)作和執(zhí)行相應(yīng)的新 添加的動(dòng)作的相應(yīng)的狀態(tài)(S)以及通過(guò)動(dòng)作(a)達(dá)到的新?tīng)顟B(tài)(S')。
20.根據(jù)權(quán)利要求14至19之一所述的方法,其中,在基于圖形的學(xué)習(xí)方法中和/或在 強(qiáng)化學(xué)習(xí)方法中,技術(shù)系統(tǒng)的相似狀態(tài)被匯總成共同的群集。
21.根據(jù)權(quán)利要求14至20之一所述的方法,其中,此外在達(dá)到在剛剛要經(jīng)歷的類(lèi)別之 后的類(lèi)別的狀態(tài)(s,S’ )時(shí),基于反饋規(guī)則來(lái)選擇隨后的動(dòng)作(a)。
22.根據(jù)權(quán)利要求14至21之一所述的方法,其中,狀態(tài)(s,s')根據(jù)反饋規(guī)則而被經(jīng) 歷,直至達(dá)到剛剛要經(jīng)歷的類(lèi)別的狀態(tài)。
23.根據(jù)權(quán)利要求14至22之一所述的方法,其中,該方法被啟動(dòng)為使得首先在不考慮 安全函數(shù)(SF)的情況下根據(jù)反饋規(guī)則(BP)經(jīng)歷狀態(tài)(s,s')并且在此給狀態(tài)(s,s') 分配相同的類(lèi)別,其中經(jīng)歷狀態(tài)(s,s')直至不再拋棄確定數(shù)量的狀態(tài),并且接著在考慮 安全函數(shù)(SF)的情況下到達(dá)未知的、從前還未經(jīng)歷的狀態(tài)(s,s'),其中給所述狀態(tài)(s, s')分配后續(xù)的類(lèi)別。
24.根據(jù)上述權(quán)利要求之一所述的方法,其中,該方法在技術(shù)系統(tǒng)的真實(shí)工作中被采用。
25.根據(jù)權(quán)利要求1至23之一所述的方法,其中,該方法在對(duì)技術(shù)系統(tǒng)的工作的仿真中 被采用。
26.根據(jù)上述權(quán)利要求之一所述的方法,其中,利用該方法對(duì)燃?xì)廨啓C(jī)的狀態(tài)(s,s') 進(jìn)行探索。
27.根據(jù)權(quán)利要求26所述的方法,其中,燃?xì)廨啓C(jī)的狀態(tài)和/或分配給所述狀態(tài)(s, s')的動(dòng)作(a)包括如下量中的一個(gè)或者多個(gè)燃?xì)廨啓C(jī)的整個(gè)功率;對(duì)燃?xì)廨啓C(jī)的燃料供給;燃?xì)廨啓C(jī)中的或者在燃?xì)廨啓C(jī)的環(huán)境中的一個(gè)或多個(gè)壓力和/或溫度;燃?xì)廨啓C(jī)的 蜂鳴音;燃?xì)廨啓C(jī)中的燃燒室加速;燃?xì)廨啓C(jī)上的一個(gè)或多個(gè)調(diào)整參數(shù)、尤其是閥門(mén)調(diào)整 和/或燃料比和/或進(jìn)口導(dǎo)向葉片的調(diào)整。
28. 一種計(jì)算機(jī)程序產(chǎn)品,其具有存儲(chǔ)在機(jī)器可讀的載體上的程序代碼,用于當(dāng)程序運(yùn) 行在計(jì)算機(jī)上時(shí)執(zhí)行根據(jù)上述權(quán)利要求之一所述的方法。
全文摘要
本發(fā)明涉及一種用于以計(jì)算機(jī)輔助方式探索技術(shù)系統(tǒng)的狀態(tài)的方法。在所述方法中,通過(guò)在技術(shù)系統(tǒng)的相應(yīng)狀態(tài)中執(zhí)行引起新?tīng)顟B(tài)的動(dòng)作來(lái)經(jīng)歷技術(shù)系統(tǒng)的狀態(tài)。在此,在使用安全函數(shù)和反饋規(guī)則的情況下保證在探索期間經(jīng)歷大數(shù)據(jù)量的狀態(tài)和動(dòng)作并且同時(shí)不出現(xiàn)不允許的動(dòng)作,所述不允許的動(dòng)作例如可直接地或者間接地引起對(duì)技術(shù)系統(tǒng)的損害或有故障的工作狀態(tài)。根據(jù)本發(fā)明的方法具有以下優(yōu)點(diǎn)收集關(guān)于技術(shù)系統(tǒng)的大量狀態(tài)和動(dòng)作,所述狀態(tài)和動(dòng)作接著可被用于確定適當(dāng)調(diào)節(jié)技術(shù)系統(tǒng)的學(xué)習(xí)方法中。根據(jù)本發(fā)明的方法可針對(duì)任意技術(shù)系統(tǒng)被采用,一種優(yōu)選的應(yīng)用情況是探索燃?xì)廨啓C(jī)中的狀態(tài)。該方法不僅可在技術(shù)系統(tǒng)的真實(shí)工作中而且可在對(duì)技術(shù)系統(tǒng)的工作的仿真中被使用。
文檔編號(hào)G06N99/00GK101842754SQ200880113934
公開(kāi)日2010年9月22日 申請(qǐng)日期2008年9月29日 優(yōu)先權(quán)日2007年10月31日
發(fā)明者A·M·沙弗, A·漢斯, D·施尼加斯, S·尤德盧夫特, V·斯特津格 申請(qǐng)人:西門(mén)子公司