用于以計(jì)算機(jī)輔助方式探索技術(shù)系統(tǒng)的狀態(tài)的方法

文檔序號(hào)：6478811閱讀：324來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專(zhuān)利名稱(chēng)：用于以計(jì)算機(jī)輔助方式探索技術(shù)系統(tǒng)的狀態(tài)的方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種用于以計(jì)算機(jī)輔助方式探索技術(shù)系統(tǒng)的狀態(tài)的方法以及一種相對(duì)應(yīng)的計(jì)算機(jī)程序產(chǎn)品。
背景技術(shù)：
從現(xiàn)有技術(shù)中公知各種方法，其中在考慮預(yù)先確定的準(zhǔn)則的情況下以計(jì)算機(jī)輔助方式使技術(shù)系統(tǒng)的動(dòng)態(tài)時(shí)間特性最優(yōu)。這些方法的例子是基于技術(shù)系統(tǒng)的已知數(shù)據(jù)學(xué)習(xí)該系統(tǒng)的最優(yōu)調(diào)節(jié)的學(xué)習(xí)方法。該技術(shù)系統(tǒng)在這種情況下通過(guò)表示技術(shù)系統(tǒng)的可測(cè)量的狀態(tài) 量、諸如如壓力、溫度、功率等等的物理量的狀態(tài)來(lái)描述。此外，在該技術(shù)系統(tǒng)中定義了如下動(dòng)作，所述動(dòng)作描述了技術(shù)系統(tǒng)上的確定的調(diào)節(jié)量的變化，諸如閥門(mén)位置的變化、壓力的提高等等。通過(guò)動(dòng)作將技術(shù)系統(tǒng)的狀態(tài)轉(zhuǎn)移到新的后繼狀態(tài)。已知的學(xué)習(xí)方法在此學(xué)習(xí)最優(yōu) 的動(dòng)作選擇規(guī)則，該最優(yōu)的動(dòng)作選擇規(guī)則針對(duì)技術(shù)系統(tǒng)的每個(gè)狀態(tài)確定最優(yōu)的動(dòng)作，用于將系統(tǒng)轉(zhuǎn)移到新的狀態(tài)。每個(gè)動(dòng)作在這種情況下例如通過(guò)回報(bào)或者懲罰、尤其是在包括成本函數(shù)在內(nèi)的情況下被評(píng)估，其中借助評(píng)分(Bewertimg)可以實(shí)現(xiàn)技術(shù)系統(tǒng)的最優(yōu)的動(dòng)態(tài) 特性。適當(dāng)?shù)卮_定技術(shù)系統(tǒng)的最優(yōu)特性的基礎(chǔ)在這種情況下是技術(shù)系統(tǒng)的良好探測(cè)的狀態(tài)空間形式的良好的數(shù)據(jù)庫(kù)。因此必須存在狀態(tài)、動(dòng)作和后繼狀態(tài)形式的關(guān)于技術(shù)系統(tǒng) 的多個(gè)合適的數(shù)據(jù)。在這種情況下存在如下問(wèn)題在探索狀態(tài)空間時(shí)，為了確定合適的數(shù)據(jù) 庫(kù)可以采取要被分級(jí)為不安全的狀態(tài)，即該狀態(tài)可能直接地或間接地引起對(duì)技術(shù)系統(tǒng)的損害或引起其故障工作。

發(fā)明內(nèi)容
因此，本發(fā)明的任務(wù)是提出一種用于以計(jì)算機(jī)輔助方式探索技術(shù)系統(tǒng)的狀態(tài)的方法，利用該方法避免采取不安全的狀態(tài)并且同時(shí)經(jīng)歷狀態(tài)空間使得提供了良好的數(shù)據(jù)庫(kù)用于執(zhí)行接下來(lái)的用于確定技術(shù)系統(tǒng)的最優(yōu)的調(diào)節(jié)的方法。該任務(wù)通過(guò)獨(dú)立權(quán)利要求來(lái)解決。本發(fā)明的擴(kuò)展方案在從屬權(quán)利要求中被限定。在根據(jù)本發(fā)明的方法中，相繼地經(jīng)歷技術(shù)系統(tǒng)的狀態(tài)，其方式是在技術(shù)系統(tǒng)的相應(yīng)狀態(tài)中執(zhí)行引起新?tīng)顟B(tài)的動(dòng)作。在此，使用了安全函數(shù)(Sicherheitsfimktion)和反饋規(guī)則(Rueckfuehrungsregel)。借助安全函數(shù)，在執(zhí)行引起未知的、從前還未經(jīng)歷的狀態(tài)的動(dòng)作之前確定相應(yīng)的動(dòng)作是技術(shù)系統(tǒng)中的允許的還是不允許的動(dòng)作，其中只有當(dāng)所述動(dòng)作是允許的時(shí)才執(zhí)行所述動(dòng)作。因此，安全函數(shù)保證只有當(dāng)未知的狀態(tài)根據(jù)預(yù)先給定的準(zhǔn)則被分級(jí)為安全的時(shí)候，才探索所述未知的狀態(tài)。除了安全函數(shù)以外，此外還在根據(jù)本發(fā)明的方法中使用反饋規(guī)則，其中在達(dá)到技術(shù)系統(tǒng)的未知的、從前還未經(jīng)歷的狀態(tài)時(shí)基于該反饋規(guī)則選擇隨后的動(dòng)作。該反饋規(guī)則用于將技術(shù)系統(tǒng)的狀態(tài)引回到已知的狀態(tài)。利用該反饋規(guī)則保證，技術(shù)系統(tǒng)的狀態(tài)從新的未知的狀態(tài)再次返回到已知的狀態(tài)區(qū)域中。由此避免技術(shù)系統(tǒng)的狀態(tài)通過(guò)動(dòng)作移動(dòng)到可引起對(duì)技術(shù)系統(tǒng)的損害的狀態(tài)區(qū)中。
根據(jù)本發(fā)明的方法具有如下優(yōu)點(diǎn)通過(guò)使用安全函數(shù)和反饋規(guī)則提供了合適的機(jī)制，利用這些合適的機(jī)制實(shí)現(xiàn)了對(duì)狀態(tài)空間的全面的探索，其中盡可能避免了執(zhí)行不允許的動(dòng)作的危險(xiǎn)。在根據(jù)本發(fā)明的方法的優(yōu)選的實(shí)施形式中，不允許的動(dòng)作被表征為使得在執(zhí)行不允許的動(dòng)作時(shí)技術(shù)系統(tǒng)以為一的概率或者以大于零的概率到達(dá)如下?tīng)顟B(tài)該狀態(tài)直接在執(zhí) 行不允許的動(dòng)作之后或者間接地在執(zhí)行另外的動(dòng)作之后引起技術(shù)系統(tǒng)的不希望的或有故障的工作狀態(tài)。不希望的或有故障的工作狀態(tài)在此尤其是導(dǎo)致對(duì)技術(shù)系統(tǒng)的損害或損毀的狀態(tài)。在根據(jù)本發(fā)明的方法的另一實(shí)施形式中，即使在該技術(shù)系統(tǒng)中達(dá)到其中要執(zhí)行的動(dòng)作根據(jù)安全函數(shù)被分級(jí)為不允許的狀態(tài)時(shí)，才應(yīng)用反饋規(guī)則。由此，進(jìn)一步改進(jìn)了對(duì)狀態(tài) 空間的安全探索。在另一實(shí)施形式中，所執(zhí)行的動(dòng)作分別根據(jù)其中執(zhí)行動(dòng)作的狀態(tài)并且根據(jù)通過(guò)動(dòng) 作所達(dá)到的新?tīng)顟B(tài)以評(píng)分來(lái)進(jìn)行評(píng)估，其中這些評(píng)分尤其是也用于在對(duì)狀態(tài)進(jìn)行探索之后學(xué)習(xí)用于基于所經(jīng)歷的狀態(tài)和所評(píng)估的動(dòng)作調(diào)節(jié)或控制技術(shù)系統(tǒng)的方法。優(yōu)選地，借助評(píng) 分也將動(dòng)作分類(lèi)為不允許的，其中其評(píng)分小于預(yù)先確定的值的動(dòng)作被分級(jí)為不允許。在根據(jù)本發(fā)明的方法的另一改進(jìn)方案中，也基于對(duì)動(dòng)作的所確定的評(píng)分來(lái)學(xué)習(xí)安全函數(shù)。優(yōu)選地，給所經(jīng)歷的包含狀態(tài)和在該狀態(tài)下執(zhí)行的動(dòng)作的對(duì)分別分配有最小評(píng)分，該最小評(píng)分出現(xiàn)在執(zhí)行動(dòng)作之后和出現(xiàn)在接著經(jīng)歷針對(duì)動(dòng)作的反饋規(guī)則時(shí)，其中基于最小評(píng)分確定安全函數(shù)，并且其中當(dāng)最小評(píng)分小于預(yù)先確定的值時(shí)，該安全函數(shù)接著確定不允許的動(dòng)作。由此以合適的方式保證了在狀態(tài)下執(zhí)行的動(dòng)作既不直接地也不間接地引起技術(shù) 系統(tǒng)的不希望的或有故障的工作狀態(tài)。在本發(fā)明的優(yōu)選的變形方案中，安全函數(shù)利用函數(shù)逼近器來(lái)確定，該函數(shù)逼近器基于圍繞恰好要隨著動(dòng)作改變的狀態(tài)的局部外插來(lái)逼近最小評(píng)分。尤其是，函數(shù)逼近器執(zhí) 行局部線(xiàn)性的和/或局部二次的外插。在實(shí)施形式中，根據(jù)本發(fā)明所使用的反饋規(guī)則可以是針對(duì)該技術(shù)系統(tǒng)預(yù)先給定的規(guī)則。尤其是，反饋規(guī)則可以基于技術(shù)系統(tǒng)的已經(jīng)現(xiàn)有的調(diào)節(jié)器。代替預(yù)先給定的規(guī)則或除了預(yù)先給定的規(guī)則之外，也可以利用強(qiáng)化的、考慮動(dòng)作的評(píng)分的學(xué)習(xí)方法來(lái)確定反饋規(guī)則。強(qiáng)化的學(xué)習(xí)方法在此優(yōu)選地基于最優(yōu)性準(zhǔn)則，根據(jù)該最優(yōu)性準(zhǔn)則使所有將來(lái)的評(píng)分的期望值的最小值最大化。以這種方式保證了利用反饋規(guī)則快速地返回到已知且安全的狀態(tài)。為了通過(guò)執(zhí)行狀態(tài)中的所有可能的動(dòng)作來(lái)實(shí)現(xiàn)對(duì)狀態(tài)的基本上完整的探索，在特別優(yōu)選的實(shí)施形式中，在經(jīng)歷這些狀態(tài)時(shí)，給這些狀態(tài)如下地分配相繼的類(lèi)別i)如果狀態(tài)基于反饋規(guī)則被改變，則給通過(guò)動(dòng)作達(dá)到的未知的、從前還未經(jīng)歷的狀態(tài)分配有在執(zhí)行該動(dòng)作之前分配給該狀態(tài)的類(lèi)別。ii)在所有其它情況下，給通過(guò)動(dòng)作達(dá)到的未知的、從前還未經(jīng)歷的狀態(tài)分配有跟隨在執(zhí)行該動(dòng)作之前分配給該狀態(tài)的類(lèi)別的類(lèi)別。狀態(tài)優(yōu)選地按類(lèi)別來(lái)經(jīng)歷，使得在一個(gè)類(lèi)別中首先探索所有可能的要執(zhí)行的動(dòng)作并且接著轉(zhuǎn)變到下一類(lèi)別。概念“動(dòng)作的探索”在這種情況下意味著該動(dòng)作被執(zhí)行或者被分級(jí)為不允許的。
在優(yōu)選的實(shí)施形式中，在使用類(lèi)別的情況下使用基于圖形的路徑發(fā)現(xiàn)方法，用于經(jīng)歷狀態(tài)和可能的動(dòng)作。在該方法中，在經(jīng)歷狀態(tài)期間建立圖形，該圖形的節(jié)點(diǎn)對(duì)應(yīng)于所經(jīng) 歷的狀態(tài)而其棱邊對(duì)應(yīng)于所執(zhí)行的動(dòng)作，并且在該圖形中為每個(gè)節(jié)點(diǎn)存儲(chǔ)了相對(duì)應(yīng)的狀態(tài) 的類(lèi)別，其中在達(dá)到其中已經(jīng)探索、即執(zhí)行所有可能的動(dòng)作和/或利用安全函數(shù)將所有可能的動(dòng)作分級(jí)為不允許的動(dòng)作的狀態(tài)時(shí)，在該圖形中搜索至相同類(lèi)別中的其中還可以探索動(dòng)作的狀態(tài)的路徑，并且在找到這種路徑時(shí)通過(guò)該路徑到達(dá)該狀態(tài)。在沒(méi)有發(fā)現(xiàn)至相同類(lèi) 別中的其中還可探索動(dòng)作的狀態(tài)的路徑的情況下，經(jīng)歷后續(xù)類(lèi)別的狀態(tài)。
可替換于基于圖形的路徑發(fā)現(xiàn)方法或除了基于圖形的路徑發(fā)現(xiàn)方法之外，也可以使用強(qiáng)化的學(xué)習(xí)方法來(lái)發(fā)現(xiàn)路徑。在此，一個(gè)類(lèi)別的狀態(tài)利用強(qiáng)化的學(xué)習(xí)方法基于回報(bào)函數(shù)(Belohnugsfimktion)來(lái)經(jīng)歷，其中當(dāng)動(dòng)作引起在恰好經(jīng)歷的類(lèi)別中的其中還可能探索至少一個(gè)動(dòng)作的狀態(tài)時(shí)，根據(jù)回報(bào)函數(shù)為該動(dòng)作分配回報(bào)。優(yōu)選地，在強(qiáng)化的學(xué)習(xí)方法中，動(dòng)作選擇規(guī)則在經(jīng)歷預(yù)先確定數(shù)目的狀態(tài)之后被更新，其中在更新時(shí)考慮新添加的動(dòng)作和其中執(zhí)行相應(yīng)的新添加的動(dòng)作的相應(yīng)的狀態(tài)以及通過(guò)動(dòng)作所達(dá)到的新?tīng)顟B(tài)。也為了利用根據(jù)本發(fā)明的方法來(lái)處理大的狀態(tài)空間，在優(yōu)選的實(shí)施形式中，在基于圖形的學(xué)習(xí)方法中和/或在強(qiáng)化的學(xué)習(xí)方法中將技術(shù)系統(tǒng)的相似的狀態(tài)匯總成共同的群集。在使用類(lèi)別的情況下，優(yōu)選地不僅在達(dá)到未知的狀態(tài)時(shí)應(yīng)用反饋規(guī)則，而且在達(dá) 到跟隨恰好要經(jīng)歷的類(lèi)別之后的類(lèi)別的狀態(tài)時(shí)應(yīng)用反饋規(guī)則。在另一改進(jìn)方案中，經(jīng)歷根據(jù)反饋規(guī)則的狀態(tài)直至達(dá)到恰好要經(jīng)歷的類(lèi)別的狀態(tài)。在使用類(lèi)別的情況下，該方法優(yōu)選地被啟動(dòng)來(lái)使得首先在不考慮安全函數(shù)的情況下經(jīng)歷根據(jù)反饋規(guī)則的狀態(tài)并且在此給這些狀態(tài)分配相同的類(lèi)別，其中經(jīng)歷這些狀態(tài)直至不再拋棄確定數(shù)量的狀態(tài)，并且其中接著在考慮安全函數(shù)的情況下到達(dá)未知的、從前還未經(jīng)歷的狀態(tài)，其中給該狀態(tài)分配隨后的類(lèi)別。根據(jù)本發(fā)明的方法尤其是在技術(shù)系統(tǒng)的真實(shí)工作中被采用。必要時(shí)，該方法也可以在對(duì)技術(shù)系統(tǒng)的工作的仿真中被使用。在特別優(yōu)選的實(shí)施形式中，該方法被用于探索燃?xì)廨啓C(jī)的狀態(tài)。燃?xì)廨啓C(jī)的狀態(tài) 和/或分配給這些狀態(tài)的動(dòng)作優(yōu)選地包括一個(gè)或多個(gè)如下的量燃?xì)廨啓C(jī)的總功率；對(duì)燃?xì)廨啓C(jī)的燃料供給；燃?xì)廨啓C(jī)中的或者在燃?xì)廨啓C(jī)的環(huán) 境中的一個(gè)或多個(gè)壓力和/或溫度；燃?xì)廨啓C(jī)的蜂鳴音(Brummen)；燃?xì)廨啓C(jī)中的燃燒室加速；燃?xì)廨啓C(jī)上的一個(gè)或多個(gè)調(diào)整參數(shù)、尤其是閥門(mén)調(diào)整和/或燃料比和/或進(jìn)口導(dǎo)向葉片的調(diào)整。除了上面所描述的方法之外，本發(fā)明此外還包括計(jì)算機(jī)程序產(chǎn)品，其具有存儲(chǔ)在機(jī)器可讀的載體上的程序代碼，用于當(dāng)程序運(yùn)行在計(jì)算機(jī)上時(shí)執(zhí)行根據(jù)本發(fā)明的方法。

以下參照所附的附圖詳細(xì)地描述了本發(fā)明的實(shí)施例。其中圖1示出了闡述了根據(jù)本發(fā)明的方法的實(shí)施形式的可能組合的示意圖；圖2示出了用于基于基準(zhǔn)問(wèn)題(Benchmark-Problem)測(cè)試根據(jù)本發(fā)明的方法的實(shí)施形式的評(píng)估函數(shù)(Bewertungs-Funktion)的三維圖；圖3示出了闡述了按照根據(jù)本發(fā)明的方法的實(shí)施形式的備份策略 (Backup-Policy)的學(xué)習(xí)的圖形；以及圖4示出了闡述了基于基準(zhǔn)問(wèn)題的根據(jù)本發(fā)明的方法的結(jié)果的圖形。
具體實(shí)施例方式以下所描述的根據(jù)本發(fā)明的方法的實(shí)施形式涉及對(duì)包含技術(shù)系統(tǒng)的多個(gè)狀態(tài)的狀態(tài)空間進(jìn)行探索，其中應(yīng)基于所謂的強(qiáng)化學(xué)習(xí)(Reinforcement-Learning)根據(jù)預(yù)先給定的狀態(tài)來(lái)學(xué)習(xí)最優(yōu)的動(dòng)作選擇規(guī)則。根據(jù)該規(guī)則，在對(duì)技術(shù)系統(tǒng)的工作進(jìn)行仿真時(shí)或者在真實(shí)工作中以適當(dāng)?shù)姆绞綇募夹g(shù)系統(tǒng)的狀態(tài)出發(fā)來(lái)選擇最優(yōu)動(dòng)作，該最優(yōu)動(dòng)作引起技術(shù) 系統(tǒng)的接下來(lái)的狀態(tài)。利用該動(dòng)作選擇規(guī)則，根據(jù)預(yù)先給定的準(zhǔn)則最優(yōu)地選擇技術(shù)系統(tǒng)的工作狀態(tài)，例如這些狀態(tài)可被選擇為使得出現(xiàn)技術(shù)系統(tǒng)的最好的效率或者技術(shù)系統(tǒng)的最低的磨損。在這里所描述的實(shí)施形式中，借助所謂的回報(bào)函數(shù)(Reward-Fimktion)來(lái)描述最優(yōu)的動(dòng)作選擇規(guī)則，該回報(bào)函數(shù)根據(jù)其中執(zhí)行動(dòng)作的狀態(tài)以及由此得到的后繼狀態(tài)來(lái)將回報(bào)Rs,s, 3分配給所執(zhí)行的動(dòng)作，該回報(bào)Rs, s, a對(duì)應(yīng)于權(quán)利要求意義上的評(píng)分。強(qiáng)化學(xué)習(xí)在現(xiàn)有技術(shù)中已充分公知并且是一種用于解決最優(yōu)控制問(wèn)題的機(jī)器學(xué) 習(xí)的方法。如上面已解釋的那樣，利用強(qiáng)化學(xué)習(xí)(下面也稱(chēng)作RL方法)來(lái)識(shí)別動(dòng)作選擇規(guī)則(以下也稱(chēng)作策略(Policy))，該動(dòng)作選擇規(guī)則最優(yōu)地在預(yù)先給定的環(huán)境之內(nèi)控制執(zhí)行這些動(dòng)作的所謂的主體(Agent)。在這里所描述的實(shí)施形式中，該策略被限定成馬爾可夫(Markov)決策過(guò)程，該馬爾可夫決策過(guò)程包括狀態(tài)空間S、大量動(dòng)作A和動(dòng)態(tài) 性。后者由從當(dāng)前狀態(tài)s至新的后繼狀態(tài)s'以及引起后繼狀態(tài)s'的動(dòng)作a的轉(zhuǎn)移概率得到。在每個(gè)相對(duì)應(yīng)的轉(zhuǎn)移中，主體獲得上面已提及的回報(bào)。
該回報(bào)同樣遵循分布并且僅僅在特定情況下是確定性的，使得R表示函數(shù)。通常，感興趣的是在策略空間π en, π —A上使折扣值函數(shù)(diskontierende ValueFunction) 最大化，其中針對(duì)所有狀態(tài)s的折扣因子O < Y < 1。作為中間步驟使用所謂的 Q函數(shù)該Q函數(shù)與狀態(tài)和動(dòng)作有關(guān)。在這種情況下，V* =Vπopt被限定為最優(yōu)的值函數(shù) 并且相對(duì)應(yīng)地被限定為最優(yōu)的Q函數(shù)。上述方程表示本領(lǐng)域技術(shù)人員公知的貝爾曼(Bellman) 最優(yōu)性方程，該貝爾曼最優(yōu)性方程的解提供了最優(yōu)策略η (s) = argmax, Q*(s，a)。上面所描述的RL方法能夠根據(jù)合理數(shù)目的相互作用來(lái)使諸如燃?xì)廨啓C(jī)的復(fù)雜的技術(shù)設(shè)備最優(yōu)化。為了實(shí)現(xiàn)上述RL方法所需的是為了學(xué)習(xí)該方法已經(jīng)存在以包括狀態(tài)、動(dòng)作、后繼狀態(tài)和評(píng)分的元組為形式的、預(yù)先確定數(shù)量的數(shù)據(jù)記錄，以便基于這些數(shù)據(jù)記錄來(lái)執(zhí)行學(xué)習(xí)。根據(jù)本發(fā)明的方法關(guān)注的是以適當(dāng)?shù)姆绞缴捎糜趯W(xué)習(xí)的數(shù)據(jù)記錄，其中該生成借助通過(guò)執(zhí)行相對(duì)應(yīng)的動(dòng)作對(duì)技術(shù)系統(tǒng)的狀態(tài)的狀態(tài)空間進(jìn)行探索來(lái)實(shí)現(xiàn)。由于在對(duì) 狀態(tài)空間進(jìn)行探索時(shí)尚未已知技術(shù)系統(tǒng)的特征，所以能保證的是不執(zhí)行不允許的動(dòng)作，這些不允許的動(dòng)作在技術(shù)系統(tǒng)中是不希望的并且尤其是可引起對(duì)系統(tǒng)的損害。此外，利用探索方法應(yīng)能夠?qū)崿F(xiàn)經(jīng)歷如下?tīng)顟B(tài)空間，在該狀態(tài)空間中大數(shù)目的不會(huì)引起對(duì)技術(shù)系統(tǒng)的損害的安全狀態(tài)被采用。以下所描述的實(shí)施形式能夠?qū)崿F(xiàn)這種對(duì)技術(shù)系統(tǒng)的狀態(tài)空間的安全探索。以下所描述的方法的兩個(gè)主要組成部分是安全函數(shù)和備用策略。安全函數(shù)具有確定狀態(tài)-動(dòng)作對(duì)是否安全的任務(wù)，而備用策略應(yīng)將臨界的或者未知的狀態(tài)引回到安全的并且已經(jīng)已知的狀態(tài)。為了將這兩個(gè)組分相聯(lián)系，在以下所描述的根據(jù)本發(fā)明的方法的實(shí)施形式中使用了所謂的基于水平的探索方案，該探索方案將狀態(tài)劃分成彼此相繼的水平的序列的水平。在該方法中使用的安全函數(shù)必須針對(duì)狀態(tài)_動(dòng)作對(duì)發(fā)表關(guān)于其安全狀態(tài)的觀點(diǎn)，該安全狀態(tài)能被劃分成“安全的”、“臨界的”和“超臨界的”類(lèi)別。此外，動(dòng)作可以被劃分成 “致命的”和“非致命的”類(lèi)別。如果適用其中τ是預(yù)先確定的邊界值)，則存
在用于從狀態(tài)S過(guò)渡至狀態(tài)S'的非致命動(dòng)作。而如果適用，則動(dòng)作是致命的。如果針對(duì)所有在一個(gè)狀態(tài)下能被執(zhí)行的動(dòng)作a存在策略P(對(duì)于其適用
R≥T)，則狀態(tài)被分類(lèi)為安全W。臨界狀態(tài)是其中存在云力作使得以概率
Psas‘ > ο達(dá)到超臨界的后繼狀態(tài)S'的狀態(tài)。超臨界狀態(tài)在這種情況下是如下?tīng)顟B(tài)在該狀
態(tài)中，對(duì)于所有在該狀態(tài)下被執(zhí)行的動(dòng)作，所有隨后的策略也在任何位置引起致命轉(zhuǎn)移，以所述所有隨后的策略可以經(jīng)歷這些狀態(tài)。也就是說(shuō)，對(duì)于在超臨界狀態(tài)下的所有動(dòng)作a適用從上述對(duì)安全的、臨界的和超臨界的定義得到主體從臨界狀態(tài)(在安全地執(zhí)行隨后的動(dòng)作的情況下)又可轉(zhuǎn)化成安全狀態(tài)。此外，分級(jí)為安全的動(dòng)作(即其后繼狀態(tài)是安全的)可以在狀態(tài)空間的探索中始終被執(zhí)行，因?yàn)樵搫?dòng)作始終具有大于τ的回報(bào)。如果出現(xiàn)值在邊界值τ之下的回報(bào)，則這在通常情況下引起對(duì)技術(shù)系統(tǒng)的損害或者引起技術(shù) 系統(tǒng)的有故障的工作。安全函數(shù)的問(wèn)題的不重要的解決方案在于預(yù)先定義該安全函數(shù)。然而，這以關(guān)于 RL環(huán)境的詳細(xì)了解為前提，然而詳細(xì)了解大多不存在。因而需要的是從已經(jīng)存在的探索數(shù)據(jù)、即從對(duì)(s，a, r, s')元組形式的狀態(tài)過(guò)渡的觀察中學(xué)習(xí)安全函數(shù)。在此，r標(biāo)明針對(duì)動(dòng)作a被給予的回報(bào)，該動(dòng)作a將狀態(tài)s轉(zhuǎn)化成狀態(tài)s ’。在以下所描述的本發(fā)明的實(shí)施形式中，使用安全函數(shù)，該安全函數(shù)避免了不安全的動(dòng)作，所述不安全的動(dòng)作直接地或間接地在其執(zhí)行之后引向致命狀態(tài)。對(duì)此，考慮了下面還將進(jìn)一步描述的備用策略。當(dāng)在探索狀態(tài)空間時(shí)達(dá)到了技術(shù)系統(tǒng)的未知的、從前還未經(jīng) 歷的狀態(tài)時(shí)，始終采用該策略。在這種情況下，基于在權(quán)利要求中通常稱(chēng)作反饋規(guī)則的備用策略執(zhí)行動(dòng)作，使得又返回至已知的、從前經(jīng)歷過(guò)的狀態(tài)。安全函數(shù)在以下所描述的實(shí)施形式中被實(shí)現(xiàn)為回報(bào)的最小估計(jì)(最小回報(bào)估計(jì))。該估計(jì)在于估計(jì)在狀態(tài)s下執(zhí)行動(dòng)作a并且遵循該備用策略之后獲得的最小回報(bào)。尤其是，安全函數(shù)基于以下兩個(gè)步驟來(lái)確定1.在探索期間，收集(s，a，rmin)形式的最小回報(bào)樣本。在此，(s,a)標(biāo)明在狀態(tài)s 下執(zhí)行動(dòng)作a并且rmin標(biāo)明在備用軌跡(Backup-Trajektorie)上的所觀察的最小回報(bào)，該備用軌跡緊接著轉(zhuǎn)移由備用策略生成。2.基于在探索期間所收集的樣本來(lái)學(xué)習(xí)函數(shù)逼近器，該函數(shù)逼近器從狀態(tài)-動(dòng)作對(duì)映射到期望的最小回報(bào)—最小回報(bào)樣本與所使用的備用策略有關(guān)。類(lèi)似地，當(dāng)在狀態(tài)s下執(zhí)行動(dòng)作a并且接著遵循策略η時(shí)Q函數(shù)(T (s，a)的值如何提供將來(lái)的回報(bào)的期望的(已打折扣的)總和，當(dāng)在狀態(tài)s下執(zhí)行動(dòng)作a并且此后遵循備用策略時(shí)，Rfflin(s, a)提供了期望的最小回報(bào)。備用策略具有如下任務(wù)當(dāng)在執(zhí)行該方法時(shí)所使用的主體因?yàn)槠涮幱谛聽(tīng)顟B(tài)而不再可以做出安全決策時(shí)將該主體引回到已知的區(qū)域中，在所述新?tīng)顟B(tài)下，該主體不能足夠良好地估計(jì)各個(gè)動(dòng)作的安全性。在此，備用策略本身不允許引導(dǎo)至臨界狀態(tài)。這例如通過(guò) 如下方式來(lái)實(shí)現(xiàn)備用策略接近可能的固定點(diǎn)或者嘗試停留在狀態(tài)空間的確定的區(qū)域中。對(duì)于在真實(shí)工作中的已經(jīng)在沒(méi)有強(qiáng)化學(xué)習(xí)的情況下被驅(qū)動(dòng)的技術(shù)系統(tǒng)，常常已經(jīng) 存在如下調(diào)節(jié)器只要該調(diào)節(jié)器處于安全的情況并且不引起致命轉(zhuǎn)移，該調(diào)節(jié)器就可以被用作預(yù)先詳細(xì)說(shuō)明的備用策略。如果還不存在這種調(diào)節(jié)器，則需要從已經(jīng)存在的探索數(shù)據(jù)、即從已經(jīng)存在的(s，a,r, s')元組中學(xué)習(xí)備用策略。如上面所闡明的那樣，動(dòng)作的安全性通過(guò)相對(duì)應(yīng)的回報(bào)來(lái)表達(dá)，其中回報(bào)小于邊界值τ的動(dòng)作對(duì)應(yīng)于致命的轉(zhuǎn)移。在從探索數(shù)據(jù)中學(xué)習(xí)備用策略時(shí)，備用策略因此必須考率回報(bào)。在本發(fā)明的可能的變形方案中，備用策略借助通用的RL方法來(lái)確定，其中然而現(xiàn) 在并不使用開(kāi)頭所定義的值函數(shù)，因?yàn)橛纱舜_定的最優(yōu)策略通常也不是同時(shí)安全的。此外，主觀想像上最優(yōu)的并且安全的策略可能由于生成中的錯(cuò)誤而是不安全的。為了使這一點(diǎn)得到保障，使回報(bào)的最小值的期望值而不是回報(bào)的總和的期望值最大化。相對(duì)應(yīng)的貝爾曼最優(yōu)性方程內(nèi)容如下在此省去了折扣因子Y，因?yàn)橥ㄟ^(guò)目標(biāo)函數(shù)的變形不再存在發(fā)散和的問(wèn)題。當(dāng)針對(duì)給定的RL問(wèn)題確定適當(dāng)?shù)貪M(mǎn)足該方程的時(shí)，由此能確定關(guān)于ρ-的貪
婪策略;Twk，該貪婪策略力求避免低的回報(bào)。如果策略在任何狀態(tài)下都執(zhí)行具有最大的Q值的動(dòng)作，則該策略在此是貪婪的(greedy)。類(lèi)似于也可以確定最優(yōu)策略的Q函數(shù)那樣，這種滿(mǎn)足上述方程(1)的最大-最小Q 函數(shù)例如能夠利用在現(xiàn)有技術(shù)中公知的動(dòng)態(tài)編程來(lái)確定。然而，在此不存在唯一的檢驗(yàn)點(diǎn)，因?yàn)榇蠹sQ =-⑴是盡管不希望但是允許的解。利用Q =⑴進(jìn)行初始化保證了達(dá)到正確的解，因?yàn)樵诘谝坏襟E中使用最小值的回報(bào)而不使用最初的Q值。為了確定上面所描述的備用策略，可以使用任意的在現(xiàn)有技術(shù)中公知的RL方法，尤其是上面已提及的動(dòng)態(tài)編程、神經(jīng)適配的Q迭代(NFQ，Neural Fitted Q-Iteration)以及基于遞歸神經(jīng)網(wǎng)絡(luò)的方法，這些方法例如被描述在專(zhuān)利申請(qǐng)DE 10 2007 001 025.9中。
為了創(chuàng)建一種多個(gè)探索數(shù)據(jù)形式的盡可能廣泛的數(shù)據(jù)庫(kù)，采用了所謂的基于水平的探索。在這種情況下涉及逐步探索，所述逐步探索緩慢地從狀態(tài)空間的已知為安全的區(qū) 域中去除執(zhí)行的主體并且首先嘗試收集盡可能多的局部觀察。對(duì)此，給每個(gè)狀態(tài)s分配水平1 e N(N =自然數(shù)的數(shù)量)。從探索在安全區(qū)域中開(kāi)始出發(fā)，針對(duì)開(kāi)始狀態(tài)Stl設(shè)置水平 Ks0) =O0如果在探索期間進(jìn)入迄今未知的狀態(tài)Si，則其水平被設(shè)置為I(Si) =1(8^+1, 其中I(Sg)對(duì)應(yīng)于前任狀態(tài)的水平。如果在遵循備用策略時(shí)進(jìn)入新的狀態(tài)Si,則其水平 1 (Si)被前任狀態(tài)的水平接管，也就是說(shuō)適用1 (Si) = 1 (Si^1)。這通過(guò)對(duì)備用策略的遵循不引起安全性的惡化來(lái)激發(fā)?；谠撍礁拍?，探索如下進(jìn)行-以水平I(Stl)= 0開(kāi)始，為每個(gè)在技術(shù)系統(tǒng)中已知的狀態(tài)都分配水平。-維持當(dāng)前要探索的水平1。，其中1。=0在開(kāi)始時(shí)被初始化。探索的目標(biāo)是分別針對(duì)水平1。，在水平1。所對(duì)應(yīng)的所有狀態(tài)下，只要?jiǎng)幼鞯膱?zhí)行被估計(jì)為是安全的，就執(zhí)行所有在那里可能的動(dòng)作。如果完整探索當(dāng)前水平的所有狀態(tài)，則提高1。。-探索繼續(xù)直至滿(mǎn)足中斷準(zhǔn)則為止，所述中斷準(zhǔn)則諸如是對(duì)全部可安全探索的區(qū) 域的完整探索。然而，在實(shí)踐中，這常常幾乎不能被實(shí)現(xiàn)，因此達(dá)到所希望的最小性能是更合乎目的的。為了可以以這種方式和方法來(lái)進(jìn)行探索，需要有針對(duì)性地接近狀態(tài)的可能性。在執(zhí)行該方法的主體在達(dá)到具有提高的水平的新?tīng)顟B(tài)之后遵循該備用策略之后，該主體遲早又到達(dá)已知狀態(tài)。從那里開(kāi)始，必須存在達(dá)到當(dāng)前水平的狀態(tài)的可能性。以下描述了兩種方法如何可以以合適的方式達(dá)到一個(gè)水平的所有已知的狀態(tài)并且因此可以執(zhí)行一個(gè)水平中的所有可能的動(dòng)作。第一方法是基于圖形的路徑發(fā)現(xiàn)，該基于圖形的路徑發(fā)現(xiàn)可以在確定性的RL問(wèn) 題中找到任意的已知的狀態(tài)。該方法基于如下構(gòu)思在探索期間建立其節(jié)點(diǎn)表示狀態(tài)而其棱邊表示所執(zhí)行的動(dòng)作的圖形。除了狀態(tài)之外，在節(jié)點(diǎn)上注明狀態(tài)的水平。該方法的特征在于如下步驟-當(dāng)在當(dāng)前狀態(tài)下不再探索動(dòng)作時(shí)，在圖形中搜索如下?tīng)顟B(tài)該狀態(tài)的水平對(duì)應(yīng) 于當(dāng)前要探索的狀態(tài)并且針對(duì)該狀態(tài)存在尚可安全探索的動(dòng)作。如果未發(fā)現(xiàn)這種狀態(tài)，則提高當(dāng)前要探索的水平并且使該探索停止。_為了發(fā)現(xiàn)從當(dāng)前狀態(tài)至要探索的狀態(tài)的路徑，執(zhí)行該圖形上的廣度優(yōu)先搜索 (Bereitensuche)。通過(guò)執(zhí)行利用其沿著所發(fā)現(xiàn)的路徑的棱邊被標(biāo)記的動(dòng)作從當(dāng)前狀態(tài)到達(dá)目的地狀態(tài)。上述方法不適于包括多余數(shù)千個(gè)狀態(tài)的技術(shù)系統(tǒng)。在合理的計(jì)算時(shí)間內(nèi)，僅可以完整探索低的二位水平。因此，在基于圖形的路徑發(fā)現(xiàn)的優(yōu)選的實(shí)施形式中將相鄰的狀態(tài) 適當(dāng)?shù)貐R合成群集。在該基于圖形的方法的上下文中，群集因此對(duì)應(yīng)于圖形中的節(jié)點(diǎn)。通常，馬爾科夫條件在此被違反，使得依據(jù)應(yīng)用情況必須發(fā)現(xiàn)在計(jì)算開(kāi)銷(xiāo)與問(wèn)題的可解決性之間的合適的折衷。用于探索一個(gè)水平的狀態(tài)的第二方法在于借助強(qiáng)化學(xué)習(xí)的路徑發(fā)現(xiàn)。該方法也可以在隨機(jī)情況下被采用，并且在這種情況下可以使用通用的RL方法，例如相對(duì)于備用策略的學(xué)習(xí)所述的方法之一。對(duì)此，定義了馬爾科夫決策過(guò)程，該馬爾科夫決策過(guò)程的狀態(tài)對(duì)應(yīng)于預(yù)先定義的群集?，F(xiàn)在，如果R'是所追求的狀態(tài)，則定義回報(bào)函數(shù)乂。= 1，否則
= 0。對(duì)于這樣定義的RL問(wèn)題確定了最優(yōu)策略并且遵循該最優(yōu)策略直至達(dá)到所希望的群集。也可能的是，將多個(gè)群集定義為目標(biāo)。在這種情況下，所述策略會(huì)嘗試達(dá)到最接近當(dāng)前群集的群集。下面描述了算法的實(shí)施形式，該算法的實(shí)施形式再現(xiàn)了借助強(qiáng)化學(xué)習(xí)的路徑發(fā)現(xiàn) 的整個(gè)方法。在這種情況下學(xué)習(xí)并且更新強(qiáng)化學(xué)習(xí)的策略，其中對(duì)策略的更新在執(zhí)行確定數(shù)目的動(dòng)作之后進(jìn)行。用于強(qiáng)化學(xué)習(xí)的算法包括如下步驟默認(rèn)設(shè)置在開(kāi)始存在(s，a, s')元組形式的觀察列表0。Z標(biāo)明目標(biāo)群集的集合，也就是通過(guò)路徑發(fā)現(xiàn)達(dá)到的并且包含其中還可以執(zhí)行可能的動(dòng)作的狀態(tài)的那些群集。N標(biāo)明其后要更新用于進(jìn)行路徑發(fā)現(xiàn)的策略的動(dòng)作的數(shù)目。m是其后必須達(dá)到目標(biāo)群集(中斷準(zhǔn)則) 的動(dòng)作的最大數(shù)目。首先如下初始化該方法確定回報(bào)函數(shù), 根據(jù)ο確定轉(zhuǎn)移概率的估計(jì)τ。求解通過(guò)T和R定義的RL問(wèn)題，由此獲得策略JI ω。接著基于如下步驟進(jìn)行用于進(jìn)行路徑發(fā)現(xiàn)的策略應(yīng)用設(shè)置c:=0以重復(fù)循環(huán)執(zhí)行如下步驟重復(fù)如果 c > 0 Λ c mod η = 0，貝Ij基于0更新估計(jì)T ；求解通過(guò)T和R定義的RL問(wèn)題并且由此獲得更新過(guò)的策略π ω結(jié)束該假設(shè)條件(利用上述假設(shè)條件來(lái)更新策略。)確定如下定義S:=當(dāng)前狀態(tài)；a = π ω (s)；執(zhí)行動(dòng)作s并且如下來(lái)更新s':=當(dāng)前狀態(tài)；將(s，a，s')附加于0;c = c+1 ；
檢查是否達(dá)到最大數(shù)目的動(dòng)作，更確切地說(shuō)如下如果c = m，則返回“假”(即路徑發(fā)現(xiàn)不成功)；
結(jié)束假設(shè)條件重復(fù)所述重復(fù)循環(huán)的上述步驟，直至適用s' e Z如果滿(mǎn)足條件s' e Z，則路徑發(fā)現(xiàn)成功并且返回值“真”。上面所描述的用于執(zhí)行根據(jù)本發(fā)明的探索方法的可能變形方案在根據(jù)圖1的圖中再一次被闡述。該方法通過(guò)主體AG來(lái)執(zhí)行并且不僅使用安全函數(shù)SF、探索策略ES而且使用備用策略BP來(lái)執(zhí)行該方法。安全函數(shù)在此利用上面所描述的最小_回報(bào)估計(jì)來(lái)逼近，其中尤其是使用局部二次逼近。必要時(shí)，該逼近也會(huì)利用神經(jīng)網(wǎng)絡(luò)(例如多層-感知器)來(lái) 執(zhí)行。探索策略ES嘗試在一個(gè)水平之內(nèi)執(zhí)行所有可能的動(dòng)作。在此可以使用上面所描述的基于圖形的路徑發(fā)現(xiàn)或借助強(qiáng)化學(xué)習(xí)的路徑發(fā)現(xiàn)。作為備用策略BP可以采用現(xiàn)有的調(diào) 節(jié)器，或者備用策略可以利用強(qiáng)化學(xué)習(xí)方法來(lái)學(xué)習(xí)。根據(jù)本發(fā)明的方法的實(shí)施形式由本發(fā) 明人來(lái)實(shí)施并且在以已知的基準(zhǔn)問(wèn)題BurnSim為形式的示例性的測(cè)試環(huán)境上來(lái)測(cè)試。環(huán)境 BurnSim在圖1中通過(guò)附圖標(biāo)記BS來(lái)說(shuō)明。示例性地，在此，BurnSim問(wèn)題的狀態(tài)被標(biāo)明為 s、s'而所執(zhí)行的動(dòng)作被標(biāo)明為a。s'在此是在執(zhí)行動(dòng)作a時(shí)源于狀態(tài)s的后繼狀態(tài)。以下闡述了用于測(cè)試根據(jù)本發(fā)明的方法的基準(zhǔn)問(wèn)題BurnSim。根據(jù)本發(fā)明的方法的實(shí)施形式針對(duì)該問(wèn)題被實(shí)施并且用實(shí)驗(yàn)方法來(lái)調(diào)查。BurnSim問(wèn)題通過(guò)在調(diào)節(jié)燃?xì)?輪機(jī)時(shí)真實(shí)出現(xiàn)的問(wèn)題來(lái)激發(fā)。最優(yōu)地驅(qū)動(dòng)汽輪機(jī)指的是，該汽輪機(jī)以盡可能高的功率行駛。然而，在汽輪機(jī)的高功率區(qū)域中，在燃燒室中出現(xiàn)了不希望的動(dòng)態(tài)性，其也被稱(chēng)為“蜂鳴音”(英語(yǔ)humming)。當(dāng)該蜂鳴音變得過(guò)強(qiáng)時(shí)，會(huì)引起對(duì)汽輪機(jī)的損害。基于該原因，目標(biāo) 是以盡可能高的功率驅(qū)動(dòng)燃?xì)廨啓C(jī)并且同時(shí)注意蜂鳴音不變得過(guò)強(qiáng)。在BurnSim問(wèn)題中的技術(shù)系統(tǒng)的狀態(tài)空間是二維的并且內(nèi)容如下S = {(f, h) |f e
遵循備用策略直至該備用策略達(dá)到并且不再拋棄固定點(diǎn)或者狀態(tài)空間的確定區(qū) 域。只要備用策略并非已經(jīng)執(zhí)行了一個(gè)狀態(tài)中的所有可能的動(dòng)作，所有在此所訪(fǎng)問(wèn)的狀態(tài) 就獲得水平0并且被記入具有還要探索的動(dòng)作的狀態(tài)的列表中。3.探索步驟探索策略選擇要探索的動(dòng)作。如果在當(dāng)前狀態(tài)下沒(méi)有動(dòng)作要探索(或者因?yàn)橐呀?jīng) 全部被探索，或者當(dāng)前狀態(tài)的水平并不對(duì)應(yīng)于當(dāng)前要探索的水平)，則該探索策略生成需要的動(dòng)作，通過(guò)這些需要的動(dòng)作，主體到達(dá)具有當(dāng)前要探索的動(dòng)作的狀態(tài)中，以便接著選擇在那里要探索的動(dòng)作。在執(zhí)行動(dòng)作之前，主體借助安全函數(shù)檢驗(yàn)其安全性。如果動(dòng)作被估計(jì) 為是安全的，則執(zhí)行該動(dòng)作。否則，該動(dòng)作被標(biāo)記為是不安全的并且使用備用策略來(lái)返回到安全區(qū)域中。對(duì)于在執(zhí)行探索步驟時(shí)達(dá)到新的、迄今未知的狀態(tài)或者達(dá)到水平比當(dāng)前要探索的更高的已知的狀態(tài)的情況，同樣使用備用策略。4.借助備用策略來(lái)返回如果進(jìn)入新?tīng)顟B(tài)或者水平比當(dāng)前要探索的更高的狀態(tài)，則使用備用策略來(lái)返回到已知的區(qū)域中。在最簡(jiǎn)單的情況下，在此使用備用策略直至達(dá)到水平為0的狀態(tài)。5.水平提高當(dāng)在當(dāng)前水平的所有狀態(tài)下的所有安全動(dòng)作都被探索時(shí)，提高水平并且探索以步驟3來(lái)繼續(xù)。6.探索結(jié)束當(dāng)執(zhí)行了所有狀態(tài)下的全部安全動(dòng)作時(shí)或者當(dāng)滿(mǎn)足中斷準(zhǔn)則時(shí)，探索結(jié)束。這可以是達(dá)到最大水平。同樣可能的是，基于已經(jīng)收集到的觀察來(lái)確定最優(yōu)策略并且確定其性能。當(dāng)該策略已達(dá)到所希望的質(zhì)量或者該策略隨著進(jìn)一步的觀察基本上不再改變時(shí)，可以結(jié)束探索。以下描述了對(duì)于BurnSim問(wèn)題如何確定安全函數(shù)。為了實(shí)現(xiàn)安全函數(shù)，局部二次地逼近最小回報(bào)函數(shù)。由于此原因，最小回報(bào)函數(shù)的估計(jì)線(xiàn)性地被實(shí)現(xiàn)在特征空間中，其中&作為燃料供給而、作為相應(yīng)的轉(zhuǎn)移i的蜂鳴音。在此形成的特征矩陣最后利用最小二乘方w = (Xlrfy的方法來(lái)逼近所觀察的最小回報(bào)
默認(rèn)情況下，考慮十個(gè)最近的近鄰。如果特征空間不完全張開(kāi)，即xTx不是正則的，則包括其它近鄰。在超過(guò)COnd(XTX) > 1000時(shí)，呈現(xiàn)X的奇異性。
在BurnSim問(wèn)題中，在一個(gè)實(shí)施形式中，事先已知的標(biāo)準(zhǔn)調(diào)節(jié)器被用作備用策略。該調(diào)節(jié)器提供以下備用策略該調(diào)節(jié)器力求關(guān)于燃料供給的固定區(qū)域之下的狀態(tài)并且因此引起蜂鳴音的持續(xù) 降低。如果備用策略事先是未知的，則該備用策略必須在使用在過(guò)去描述的RL方法的情況下從已經(jīng)存在的觀察中進(jìn)行學(xué)習(xí)，該RL方法代替回報(bào)的總和的期望值使回報(bào)的最小值的期望值最大化。在針對(duì)BurnSim問(wèn)題實(shí)施的實(shí)施形式中，在此受所謂的學(xué)徒式學(xué)習(xí)的構(gòu)思鼓動(dòng)地從如下軌跡中獲得觀察，該軌跡已預(yù)先給定了所謂的教師。教師軌跡因此是(s， a,r, s')元組構(gòu)成的初始數(shù)據(jù)集，利用該初始數(shù)據(jù)集通過(guò)RL方法來(lái)學(xué)習(xí)備用策略。圖3示出了一圖形，在該圖形上沿著橫坐標(biāo)繪制燃料供給f而沿著縱坐標(biāo)繪制蜂鳴音h。在該圖形中，再現(xiàn)了教師軌跡T。該軌跡包括所有對(duì)于安全備用策略所需的觀察。尤其是，在f = 0. 5的右邊的區(qū)域中的觀察是重要的，以便可以學(xué)習(xí)在那里燃料供給降低 (decrease)是安全的動(dòng)作。此外，在圖3中也通過(guò)相對(duì)應(yīng)的在相應(yīng)的狀態(tài)下要執(zhí)行的動(dòng)作表示所學(xué)習(xí)的備用策略。在這種情況下，朝向左邊的三角性D代表降低燃料，圓形K代表保持燃料而指向右邊的三角形I代表提高燃料。由于在教師軌跡中僅僅存在數(shù)目一目了然的狀態(tài)，所以可能的是將這些狀態(tài)理解為是離散的并且基于表格地在應(yīng)用貝爾曼最優(yōu)性方程(參見(jiàn)方程(1))的變形方案的情況下確定Q函數(shù)。此外，其轉(zhuǎn)移并不由教師執(zhí)行的非確定性的Q值事后被設(shè)置到-⑴，使得基于得到的Q函數(shù)的策略也可以從不執(zhí)行該動(dòng)作。這是需要的，以便可以保證安全性。Q函數(shù)僅針對(duì)狀態(tài)空間的數(shù)個(gè)狀態(tài)包含條目。然而，備用策略必須可為整個(gè)狀態(tài)空間的所有狀態(tài)提供動(dòng)作。這通過(guò)簡(jiǎn)單的最近近鄰生成來(lái)實(shí)現(xiàn)，對(duì)于該最近近鄰生成，在給定的狀態(tài)s，在Q中搜尋其距s的歐幾里得的距離最小的狀態(tài)§。如已經(jīng)提及的那樣，圖3示出了所使用的教師軌跡以及得到的策略。僅僅對(duì)于軌跡的點(diǎn)，Q函數(shù)包含條目，針對(duì)所有其它點(diǎn)，根據(jù)最近的近鄰的Q值來(lái)選擇動(dòng)作。認(rèn)識(shí)到的是在幾乎所有情況下，選擇將燃料供給朝著0. 5方向改變的動(dòng)作。當(dāng)教師軌跡針對(duì)一個(gè) 狀態(tài)僅包含一個(gè)動(dòng)作時(shí)，所學(xué)習(xí)的策略也針對(duì)該狀態(tài)和其近鄰選擇該動(dòng)作，即使該動(dòng)作在使最小回報(bào)最大化的意義上并非是最優(yōu)的。該效應(yīng)尤其是在f < 0. 3并且h 0. 4 (動(dòng)作 “保持”)的區(qū)域中以及在0. 65≤f≤0. 85并且h≤0.1 (動(dòng)作“提高”)的區(qū)域中可以觀察到。然而在這兩種情況下，錯(cuò)誤特性是非臨界的在f < 0. 5的區(qū)域中執(zhí)行“保持”引起蜂鳴音的降低；在其它所述區(qū)域中的期望的“提高”是毫無(wú)問(wèn)題的，因?yàn)榻^不會(huì)進(jìn)入狀態(tài)空間的該區(qū)域。在實(shí)施根據(jù)本發(fā)明的針對(duì)BurnSim問(wèn)題的方法時(shí)，采用了對(duì)于探索策略所需的路徑發(fā)現(xiàn)的兩個(gè)實(shí)現(xiàn)方案。一方面，使用了基于圖形的通過(guò)在圖形中廣度優(yōu)先搜索的路徑搜索，而另一方面，執(zhí)行了通過(guò)對(duì)路徑發(fā)現(xiàn)RL問(wèn)題的定義和求解的搜索。對(duì)于基于圖形的方法，狀態(tài)空間通過(guò)以下方式人為地被縮小在BurnSim實(shí)施方案中，在每個(gè)步驟之后，蜂鳴音被四舍五入到1/50的精度。因此，RL問(wèn)題本身改變。在真
16實(shí)的問(wèn)題中，縮小這種形式的狀態(tài)空間是不可能的。替換于基于圖形的路徑搜索，借助強(qiáng)化學(xué)習(xí)的路徑發(fā)現(xiàn)方法被遵循，其中狀態(tài)被聚集成群集。該聚集在此如下地進(jìn)行-由于燃料供給可以提高和降低僅僅0.05并且始終保持在[0，1)區(qū)間中，所以燃料供給的狀態(tài)可以采取僅僅20個(gè)離散值。-而蜂鳴音采取連續(xù)值。為了聚集狀態(tài)，蜂鳴音被四舍五入到1/50的精度。在此，不涉及RL問(wèn)題的改變，即BurnSim問(wèn)題本身保持不變。例如狀態(tài)Sl = (f = 0. 25 ；h = 0. 1239)和s2 = (f = 0. 25 ；h = 0. 1277)是BurnSim中的兩個(gè)不同的狀態(tài)。然而，兩者屬于所聚集的狀態(tài)§丨=(f = 0. 25; h= o. 12)。根據(jù)與基于圖形的變形方案相同的原理在這樣聚集的狀態(tài)上執(zhí)行探索。圖4示出了基于BurnSim執(zhí)行的對(duì)狀態(tài)空間的探索的仿真的結(jié)果。在此，在圖4中沿著橫坐標(biāo)再現(xiàn)了燃料供給f而沿著縱坐標(biāo)再現(xiàn)了蜂鳴音h。通過(guò)線(xiàn)LI1再現(xiàn)了基于強(qiáng)化學(xué)習(xí)的路徑發(fā)現(xiàn)的探索界限，通過(guò)線(xiàn)LI2再現(xiàn)了以基于圖形的路徑發(fā)現(xiàn)為基礎(chǔ)的探索界限并且通過(guò)線(xiàn)L3再現(xiàn)了回報(bào)t =-1的界限。在線(xiàn)LI1和LI2之下的狀態(tài)是利用相對(duì)應(yīng)的路徑發(fā)現(xiàn)方法來(lái)達(dá)到的狀態(tài)。在根據(jù)線(xiàn)LI3的界限之下的狀態(tài)是最大可安全探索的狀態(tài)。此外，可達(dá)到界限被再現(xiàn)為虛線(xiàn)LI4，即在該線(xiàn)右邊的所有狀態(tài)在BurnSim問(wèn)題中是不可達(dá) 到的。線(xiàn)LI4在這種情況下是圖2的線(xiàn)L1在通過(guò)軸線(xiàn)f和h張開(kāi)的平面中的投影。在使用基于圖形的探索的情況下，使用局部二次逼近，并且作為備用策略可以采用上面所描述的標(biāo)準(zhǔn)調(diào)節(jié)器nbac;kup。如從圖4中得到的那樣，在探索期間不超過(guò)t =-1 的界限，使得探索滿(mǎn)足安全探索的準(zhǔn)則。在具有狀態(tài)聚集和RL路徑發(fā)現(xiàn)的探索中，如在基于圖形的探索中那樣將局部二次逼近用作安全函數(shù)。備用策略是如下策略這些策略如上面所描述的那樣根據(jù)圖3的教師軌跡T被確定。在路徑發(fā)現(xiàn)中所探索的區(qū)域小于通過(guò)基于圖形的探索所覆蓋的區(qū)域，因為線(xiàn)LI1在線(xiàn)LI2之下。在狀態(tài)空間的有些區(qū)域中，用于學(xué)習(xí)的教師軌跡不包含可替換的動(dòng)作，而是僅僅包含非最優(yōu)的動(dòng)作。因缺少訓(xùn)練數(shù)據(jù)中的替換物，所得到的策略也選擇該動(dòng)作。結(jié)果是比標(biāo)準(zhǔn)調(diào)節(jié)器更慢地降低蜂鳴音的備用策略。由此在該策略的備用軌跡上觀察到比在標(biāo)準(zhǔn)調(diào) 節(jié)器的這些軌跡上更小的回報(bào)。結(jié)果，安全函數(shù)將動(dòng)作更早地分級(jí)為不安全的。盡管有相對(duì)于基于圖形的探索更小的覆蓋區(qū)域，從最優(yōu)策略的軌跡進(jìn)入的狀態(tài)空間的整個(gè)區(qū)域中仍獲得了信息。因此，在這種情況下，觀察足以由此導(dǎo)出最優(yōu)策略。該最優(yōu) 策略在這種情況下是平均提供最高回報(bào)的那個(gè)動(dòng)作選擇規(guī)則。該策略對(duì)于BurnSim問(wèn)題是已知的?；趫D形的探索需要大約52000個(gè)步驟，直至不再可能進(jìn)行進(jìn)一步的探索。而在利用RL路徑發(fā)現(xiàn)對(duì)所聚集的狀態(tài)進(jìn)行探索的情況下，需要大約98000個(gè)步驟。較大數(shù)目的探索步驟的原因在于對(duì)于探索不怎么適合的所學(xué)習(xí)的備用策略以及在路徑發(fā)現(xiàn)中由于狀態(tài)聚集而違背馬爾科夫條件引起的不安全性。為了證明該方法的性能，利用上面所描述的探索方法確定的數(shù)據(jù)被用于學(xué)習(xí)最優(yōu) 策略。采用了不同的RL方法來(lái)學(xué)習(xí)。尤其是，比較了神經(jīng)適配的Q迭代、具有最近近鄰生成的動(dòng)態(tài)編程和已知的最優(yōu)策略。根據(jù)下面的表1得到了與最優(yōu)策略相比的兩個(gè)RL方法的所達(dá)到的平均回報(bào)，其中兩個(gè)RL方法不僅利用基于圖形的路徑發(fā)現(xiàn)而且利用RL路徑發(fā) 現(xiàn)來(lái)執(zhí)行。表 1平均回報(bào)RL方法基于圖形的路徑發(fā)現(xiàn) RL路徑發(fā)現(xiàn)動(dòng)態(tài)編程1. 1641. 132神經(jīng)適配的Q迭代1.1661.166最優(yōu)策略1. 166從表1中可認(rèn)識(shí)到的是，不僅利用基于圖形的路徑發(fā)現(xiàn)進(jìn)行探索而且利用RL路徑發(fā)現(xiàn)進(jìn)行探索都引起具有接近最優(yōu)策略的回報(bào)或甚至對(duì)應(yīng)于該回報(bào)的回報(bào)的策略。尤其是，利用神經(jīng)適配的Q迭代不僅針對(duì)基于圖形的路徑發(fā)現(xiàn)而且針對(duì)RL路徑發(fā)現(xiàn)都確定了最優(yōu)策略。從上述實(shí)施方案中得到的是，利用根據(jù)本發(fā)明的方法的不同的實(shí)施形式可以非常良好地如下探索技術(shù)系統(tǒng)的狀態(tài)實(shí)現(xiàn)良好的數(shù)據(jù)庫(kù)，利用該數(shù)據(jù)庫(kù)可以學(xué)習(xí)針對(duì)該技術(shù) 系統(tǒng)的相對(duì)應(yīng)的控制方法或調(diào)節(jié)方法。在此，在探索時(shí)尤其是避免達(dá)到可直接地或間接地引起對(duì)技術(shù)系統(tǒng)的損害的狀態(tài)。
18
權(quán)利要求
一種用于以計(jì)算機(jī)輔助方式對(duì)技術(shù)系統(tǒng)的狀態(tài)(s，s′)進(jìn)行探索的方法，其中-通過(guò)在技術(shù)系統(tǒng)的相應(yīng)狀態(tài)(s，s′)中執(zhí)行引起新?tīng)顟B(tài)(s，s′)的動(dòng)作(a)來(lái)相繼經(jīng)歷技術(shù)系統(tǒng)的狀態(tài)(s，s′)；-在執(zhí)行引起未知的、從前還未經(jīng)歷的狀態(tài)(s，s′)的動(dòng)作(a)之前，借助安全函數(shù)(SF)來(lái)確定相應(yīng)的動(dòng)作(a)是技術(shù)系統(tǒng)中的允許的動(dòng)作(a)還是不允許的動(dòng)作(a)，其中只有當(dāng)所述動(dòng)作(a)是允許的動(dòng)作時(shí)才執(zhí)行所述動(dòng)作(a)；-在達(dá)到未知的狀態(tài)(s，s′)時(shí)，基于反饋規(guī)則(BP)來(lái)選擇隨后的動(dòng)作(a)，用于將狀態(tài)(s，s′)引回到已知的狀態(tài)(s，s′)。
2.根據(jù)權(quán)利要求1所述的方法，其中，不允許的動(dòng)作(a)被表征為使得在執(zhí)行不允許的動(dòng)作(a)時(shí)該技術(shù)系統(tǒng)以為1的概率或者以大于零的概率到達(dá)如下?tīng)顟B(tài)(s，s')所述狀態(tài)(s，s')直接在執(zhí)行不允許的動(dòng)作(a)之后或者間接地在執(zhí)行其它動(dòng)作(a)之后引起技術(shù)系統(tǒng)的不希望的和/或有故障的工作狀態(tài)。
3.根據(jù)權(quán)利要求1或2所述的方法，其中，此外在達(dá)到技術(shù)系統(tǒng)的根據(jù)安全函數(shù)(SF) 將要執(zhí)行的動(dòng)作(a)分級(jí)為不允許的動(dòng)作的狀態(tài)(s，s')的情況下，基于反饋規(guī)則(BP)來(lái) 選擇隨后的動(dòng)作(a)。
4.根據(jù)上述權(quán)利要求之一所述的方法，其中，分別根據(jù)執(zhí)行動(dòng)作(a)的狀態(tài)(s)和根據(jù) 通過(guò)所述動(dòng)作達(dá)到的新?tīng)顟B(tài)(s')給所執(zhí)行的動(dòng)作(a)分配評(píng)分(r)。
5.根據(jù)權(quán)利要求4所述的方法，其中，不允許的動(dòng)作(a)具有小于預(yù)先確定的值的評(píng)分(r)。
6.根據(jù)權(quán)利要求4或5所述的方法，其中，安全函數(shù)(SF)基于動(dòng)作(a)的評(píng)分(r)而被學(xué)習(xí)。
7.根據(jù)權(quán)利要求6所述的方法，其中，給所經(jīng)歷的包含狀態(tài)(s)和在所述狀態(tài)(s)下執(zhí)行的動(dòng)作(a)的對(duì)分別分配最小評(píng)分(rmin)，該最小評(píng)分(rmin)在執(zhí)行動(dòng)作(a)之后并且在接著經(jīng)歷動(dòng)作(a)的反饋規(guī)則(BF)時(shí)出現(xiàn)，其中基于最小評(píng)分(rmin)確定安全函數(shù)(SF) 并且其中當(dāng)最小評(píng)分(rmin)小于預(yù)先給定的值時(shí)，安全函數(shù)(SF)接著確定不允許的動(dòng)作。
8.根據(jù)權(quán)利要求7所述的方法，其中，安全函數(shù)(SF)利用函數(shù)逼近器來(lái)確定，該函數(shù)逼近器基于圍繞恰好要隨著動(dòng)作(a)改變的狀態(tài)(s，s')的局部外插來(lái)逼近最小評(píng)分(rmin)。
9.根據(jù)權(quán)利要求8所述的方法，其中，函數(shù)逼近器執(zhí)行局部線(xiàn)性的和/或局部二次的外插。
10.根據(jù)上述權(quán)利要求之一所述的方法，其中，反饋規(guī)則(BP)是針對(duì)技術(shù)系統(tǒng)預(yù)先給定的規(guī)則。
11.根據(jù)權(quán)利要求10所述的方法，其中，反饋規(guī)則(BP)通過(guò)技術(shù)系統(tǒng)的現(xiàn)有調(diào)節(jié)器來(lái) 實(shí)現(xiàn)。
12.根據(jù)權(quán)利要求4至9之一或根據(jù)與權(quán)利要求4相結(jié)合的權(quán)利要求10或11所述的方法，其中，反饋規(guī)則(BP)利用強(qiáng)化的、考慮動(dòng)作(a)的評(píng)分(r)的學(xué)習(xí)方法來(lái)確定。
13.根據(jù)權(quán)利要求12所述的方法，其中，強(qiáng)化的學(xué)習(xí)方法基于最優(yōu)性準(zhǔn)則，根據(jù)該最優(yōu) 性準(zhǔn)則使所有將來(lái)的評(píng)分(r)的期望值的最小值最大化。
14.根據(jù)上述權(quán)利要求之一所述的方法，其中，在經(jīng)歷技術(shù)系統(tǒng)的狀態(tài)(s，s')時(shí)，給狀態(tài)(s，s')分配相繼的類(lèi)別來(lái)使得i)如果狀態(tài)(S，s')基于反饋規(guī)則(BP)被改變，則給通過(guò)動(dòng)作(a)達(dá)到的未知的、從前還未經(jīng)歷的狀態(tài)(s，s')分配在執(zhí)行動(dòng)作(a)之前分配給狀態(tài)(s，s')的類(lèi)別； )在所有其它情況下，給通過(guò)動(dòng)作達(dá)到的未知的、從前還未經(jīng)歷的狀態(tài)(s，s')分配跟隨在執(zhí)行動(dòng)作(a)之前分配給狀態(tài)(s，s')的類(lèi)別的類(lèi)別。
15.根據(jù)權(quán)利要求14所述的方法，其中，狀態(tài)(s，s')根據(jù)類(lèi)別而被經(jīng)歷來(lái)使得在一個(gè)類(lèi)別中首先對(duì)所有可能的要執(zhí)行的動(dòng)作(a)進(jìn)行探索并且接著轉(zhuǎn)移到接下來(lái)的類(lèi)別。
16.根據(jù)權(quán)利要求15所述的方法，其中，一個(gè)類(lèi)別的狀態(tài)(s，s')利用基于圖形的路徑發(fā)現(xiàn)方法而被經(jīng)歷，其中在經(jīng)歷狀態(tài)(s，s')期間建立圖形，該圖形的節(jié)點(diǎn)對(duì)應(yīng)于所經(jīng) 歷的狀態(tài)(s，s')并且該圖形的棱邊對(duì)應(yīng)于所執(zhí)行的動(dòng)作(a)，而且在該圖形中對(duì)于每個(gè) 節(jié)點(diǎn)存儲(chǔ)相對(duì)應(yīng)的狀態(tài)(s，s')的類(lèi)別，其中在達(dá)到已經(jīng)探索了所有可能的動(dòng)作(a)的狀態(tài)(s，s')時(shí)在該圖形中搜索至相同類(lèi)別中的還能探索動(dòng)作(a)的狀態(tài)(s，s')的路徑，并且在找到這種路徑時(shí)通過(guò)該路徑到達(dá)該狀態(tài)(s，s')。
17.根據(jù)權(quán)利要求16所述的方法，其中，在未發(fā)現(xiàn)至相同類(lèi)別中的還能執(zhí)行動(dòng)作(a)的狀態(tài)(s，s')的路徑的情況下，經(jīng)歷后繼類(lèi)別的狀態(tài)(s，s')。
18.根據(jù)權(quán)利要求15至17之一所述的方法，其中，一個(gè)類(lèi)別的狀態(tài)(s，s')利用基于回報(bào)函數(shù)的強(qiáng)化學(xué)習(xí)方法而被經(jīng)歷，其中當(dāng)動(dòng)作(a)引起在剛剛經(jīng)歷的類(lèi)別中的可能對(duì)至少一個(gè)動(dòng)作(a)進(jìn)行探索的狀態(tài)(s，S’ )時(shí)，根據(jù)動(dòng)作(a)的回報(bào)函數(shù)來(lái)分配回報(bào)。
19.根據(jù)權(quán)利要求18所述的方法，其中，在強(qiáng)化學(xué)習(xí)方法中，在經(jīng)歷了預(yù)先確定的數(shù)目的狀態(tài)(s，s')之后更新動(dòng)作選擇規(guī)則，其中在更新時(shí)考慮新添加的動(dòng)作和執(zhí)行相應(yīng)的新添加的動(dòng)作的相應(yīng)的狀態(tài)(S)以及通過(guò)動(dòng)作(a)達(dá)到的新?tīng)顟B(tài)(S')。
20.根據(jù)權(quán)利要求14至19之一所述的方法，其中，在基于圖形的學(xué)習(xí)方法中和/或在強(qiáng)化學(xué)習(xí)方法中，技術(shù)系統(tǒng)的相似狀態(tài)被匯總成共同的群集。
21.根據(jù)權(quán)利要求14至20之一所述的方法，其中，此外在達(dá)到在剛剛要經(jīng)歷的類(lèi)別之后的類(lèi)別的狀態(tài)(s，S’ )時(shí)，基于反饋規(guī)則來(lái)選擇隨后的動(dòng)作(a)。
22.根據(jù)權(quán)利要求14至21之一所述的方法，其中，狀態(tài)(s，s')根據(jù)反饋規(guī)則而被經(jīng) 歷，直至達(dá)到剛剛要經(jīng)歷的類(lèi)別的狀態(tài)。
23.根據(jù)權(quán)利要求14至22之一所述的方法，其中，該方法被啟動(dòng)為使得首先在不考慮安全函數(shù)(SF)的情況下根據(jù)反饋規(guī)則(BP)經(jīng)歷狀態(tài)(s，s')并且在此給狀態(tài)(s，s') 分配相同的類(lèi)別，其中經(jīng)歷狀態(tài)(s，s')直至不再拋棄確定數(shù)量的狀態(tài)，并且接著在考慮安全函數(shù)(SF)的情況下到達(dá)未知的、從前還未經(jīng)歷的狀態(tài)(s，s')，其中給所述狀態(tài)(s， s')分配后續(xù)的類(lèi)別。
24.根據(jù)上述權(quán)利要求之一所述的方法，其中，該方法在技術(shù)系統(tǒng)的真實(shí)工作中被采用。
25.根據(jù)權(quán)利要求1至23之一所述的方法，其中，該方法在對(duì)技術(shù)系統(tǒng)的工作的仿真中被采用。
26.根據(jù)上述權(quán)利要求之一所述的方法，其中，利用該方法對(duì)燃?xì)廨啓C(jī)的狀態(tài)(s，s') 進(jìn)行探索。
27.根據(jù)權(quán)利要求26所述的方法，其中，燃?xì)廨啓C(jī)的狀態(tài)和/或分配給所述狀態(tài)(s， s')的動(dòng)作(a)包括如下量中的一個(gè)或者多個(gè)燃?xì)廨啓C(jī)的整個(gè)功率；對(duì)燃?xì)廨啓C(jī)的燃料供給；燃?xì)廨啓C(jī)中的或者在燃?xì)廨啓C(jī)的環(huán)境中的一個(gè)或多個(gè)壓力和/或溫度；燃?xì)廨啓C(jī)的蜂鳴音；燃?xì)廨啓C(jī)中的燃燒室加速；燃?xì)廨啓C(jī)上的一個(gè)或多個(gè)調(diào)整參數(shù)、尤其是閥門(mén)調(diào)整和/或燃料比和/或進(jìn)口導(dǎo)向葉片的調(diào)整。
28. 一種計(jì)算機(jī)程序產(chǎn)品，其具有存儲(chǔ)在機(jī)器可讀的載體上的程序代碼，用于當(dāng)程序運(yùn) 行在計(jì)算機(jī)上時(shí)執(zhí)行根據(jù)上述權(quán)利要求之一所述的方法。
全文摘要
本發(fā)明涉及一種用于以計(jì)算機(jī)輔助方式探索技術(shù)系統(tǒng)的狀態(tài)的方法。在所述方法中，通過(guò)在技術(shù)系統(tǒng)的相應(yīng)狀態(tài)中執(zhí)行引起新?tīng)顟B(tài)的動(dòng)作來(lái)經(jīng)歷技術(shù)系統(tǒng)的狀態(tài)。在此，在使用安全函數(shù)和反饋規(guī)則的情況下保證在探索期間經(jīng)歷大數(shù)據(jù)量的狀態(tài)和動(dòng)作并且同時(shí)不出現(xiàn)不允許的動(dòng)作，所述不允許的動(dòng)作例如可直接地或者間接地引起對(duì)技術(shù)系統(tǒng)的損害或有故障的工作狀態(tài)。根據(jù)本發(fā)明的方法具有以下優(yōu)點(diǎn)收集關(guān)于技術(shù)系統(tǒng)的大量狀態(tài)和動(dòng)作，所述狀態(tài)和動(dòng)作接著可被用于確定適當(dāng)調(diào)節(jié)技術(shù)系統(tǒng)的學(xué)習(xí)方法中。根據(jù)本發(fā)明的方法可針對(duì)任意技術(shù)系統(tǒng)被采用，一種優(yōu)選的應(yīng)用情況是探索燃?xì)廨啓C(jī)中的狀態(tài)。該方法不僅可在技術(shù)系統(tǒng)的真實(shí)工作中而且可在對(duì)技術(shù)系統(tǒng)的工作的仿真中被使用。
文檔編號(hào)G06N99/00GK101842754SQ200880113934
公開(kāi)日2010年9月22日申請(qǐng)日期2008年9月29日優(yōu)先權(quán)日2007年10月31日
發(fā)明者A·M·沙弗, A·漢斯, D·施尼加斯, S·尤德盧夫特, V·斯特津格申請(qǐng)人:西門(mén)子公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：Ａ.漢斯;Ｓ.尤德盧夫特;Ｄ.施尼加斯;Ａ.Ｍ.沙弗;Ｖ.斯特津格
技術(shù)所有人：西門(mén)子公司
我是此專(zhuān)利的發(fā)明人

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話(huà)進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線(xiàn)網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

計(jì)算機(jī)輔助編程適用于相關(guān)技術(shù)

計(jì)算機(jī)睡眠狀態(tài)相關(guān)技術(shù)

使計(jì)算機(jī)進(jìn)入睡眠狀態(tài)相關(guān)技術(shù)

計(jì)算機(jī)處于離線(xiàn)狀態(tài)相關(guān)技術(shù)

計(jì)算機(jī)處于掛起狀態(tài)相關(guān)技術(shù)

計(jì)算機(jī)脫機(jī)狀態(tài)相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

用于以計(jì)算機(jī)輔助方式探索技術(shù)系統(tǒng)的狀態(tài)的方法