專利名稱:運轉(zhuǎn)控制方法、運轉(zhuǎn)控制裝置和運轉(zhuǎn)控制系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及應(yīng)用無教師學(xué)習(xí)的運轉(zhuǎn)控制裝置和運轉(zhuǎn)控制方法。
背景技術(shù):
近年,在無教師學(xué)習(xí)領(lǐng)域中,盛行研究被稱為強(qiáng)化學(xué)習(xí)的方法。眾所 周知強(qiáng)化學(xué)習(xí),是通過與控制對象等環(huán)境的試行錯誤的相互作用,生成對 環(huán)境的操作信號的學(xué)習(xí)控制的框架,以使從環(huán)境得到的測量信號是合乎需 要的。在強(qiáng)化學(xué)習(xí)中,使用從環(huán)境得到的測量信號而計算的標(biāo)量的評價值 (在強(qiáng)化學(xué)習(xí)中被稱為報酬)需要時間,為了使從現(xiàn)狀態(tài)到將來得到的評 價值的期待值變?yōu)樽畲?,具有生成對環(huán)境的操作信號的學(xué)習(xí)功能。作為執(zhí)
行這樣的學(xué)習(xí)功能的方法,例如有Actor—Critic、 Q學(xué)習(xí)、實時Dynamic Programming等算法。
另外,作為發(fā)展上述方法的強(qiáng)化學(xué)習(xí)的框架,有被稱為Dyna—體系 結(jié)構(gòu)的框架。這是事先學(xué)習(xí)將模擬控制對象的模型為對象而生成哪種操作 信號好,使用該學(xué)習(xí)結(jié)果確定對控制對象施加的操作信號的方法。另外, 具有減小控制對象與模型的誤差的模型調(diào)整功能。
另外,作為應(yīng)用強(qiáng)化學(xué)習(xí)的技術(shù),列舉專利文獻(xiàn)1中所述的技術(shù)。這 是,具有多個強(qiáng)化學(xué)習(xí)模塊,其為模型和具有學(xué)習(xí)功能的系統(tǒng)組,求出各 強(qiáng)化學(xué)習(xí)模塊中的模型和控制對象的預(yù)測誤差越小越取大的值的責(zé)任信 號,與該責(zé)任信號成比例,加權(quán)由各強(qiáng)化學(xué)習(xí)模塊生成的對控制對象的操 作信號,確定對控制對象施加的操作信號的技術(shù)。
專利文獻(xiàn)1:特開2000 — 35956號公報
在控制對象的特性復(fù)雜,難以使用能夠完全模擬該特性的模型時,構(gòu) 成上述Dyna—體系結(jié)構(gòu)的模型與控制對象的特性有可能不同。此時,使 用專利文獻(xiàn)l的技術(shù),對于模型即使學(xué)習(xí)有效的操作方法,該操作方法對 控制對象而言有可能變得無效。另外,由于將基于學(xué)習(xí)的操作方法的操作
信號施加到控制對象,也有可能使控制對象的運轉(zhuǎn)狀態(tài)惡化。
發(fā)明內(nèi)容
本發(fā)明目的在于提供,即使模型和實機(jī)之間產(chǎn)生偏差(模型誤差)時, 也可以運轉(zhuǎn)而不會對控制對象的運轉(zhuǎn)狀態(tài)帶來壞影響的運轉(zhuǎn)控制裝置,和 運轉(zhuǎn)控制方法。
一種控制裝置的運轉(zhuǎn)控制方法,導(dǎo)出并控制使基于控制對象的控制量 與其目標(biāo)值之間的偏差即控制偏差的評價值取最大或者最小的操作量,其 特征在于,具有模擬上述控制對象的特性的模型,以上述模型為對象,計 算使基于模型的控制偏差的評價值取最大或者最小的操作量,根據(jù)由上述 操作量對上述控制對象進(jìn)行了控制時的控制偏差來計算評價值,根據(jù)上述 模型的控制偏差的評價值與上述控制對象的控制偏差的評價值的偏差,確 定當(dāng)前步驟的操作量和由下一步驟確定的操作量之差即操作量的變化幅 度。
本發(fā)明,能夠在即使產(chǎn)生模型誤差時,也可以運轉(zhuǎn)而不會對控制對象 的運轉(zhuǎn)狀態(tài)帶來壞影響。
圖1是說明將對本發(fā)明的控制裝置應(yīng)用為控制對象的例子的圖。
圖2是說明保存在操作信號生成參數(shù)存儲部中的數(shù)據(jù)形式的圖。
圖3是說明圖像顯示裝置中顯示的畫面的圖。
圖4是說明操作信號生成參數(shù)更新部的處理的圖。
圖5是說明模型特性的圖。
圖6是說明每個步驟的到達(dá)點的圖。
圖7是說明控制對象和模型特性的不同點的圖。
圖8是說明本發(fā)明的操作方法的圖。
圖9是說明修正后模型特性的圖。
圖10是說明的圖。
圖11是說明步驟數(shù)和操作量變化幅度關(guān)系的圖。 圖12是評價值計算的一個例子。
圖13是用于確定操作量的表格的一個例子。
圖14是表示在畫面上顯示操作量的空間和評價值的關(guān)系的例子。
圖中
10 —圖像顯示裝置,20 —外部輸入裝置,30 —鍵盤,40—鼠標(biāo),100 一控制對象,200 —控制裝置,300 —操作信號生成部,400 —模型部,500、 510 —評價值計算部,600 —操作信號生成參數(shù)存儲部,700 —操作信號生 成參數(shù)更新部,800—模型參數(shù)存儲部,900 —模型參數(shù)更新部。
具體實施例方式
以下,參照附圖對用于實施發(fā)明的一個例子進(jìn)行說明。圖l是對將本 發(fā)明中的控制裝置200應(yīng)用于控制對象100的例子進(jìn)行說明的圖。
控制裝置200中配備的操作信號生成部300,生成對控制對象施加的 操作信號201。另外,在評價值計算部500中,使用來自控制對象的測量 信號202計算評價值信號203。操作信號生成部300,接收該評價值信號 203。
在操作信號生成部300中,具有以從現(xiàn)狀態(tài)到將來的評價值信號203 的期待值總和變?yōu)樽畲?,或者最小的方式,生成操作信?01的功能。以 下,對操作信號生成部300中,使評價值信號203的期待值總和變?yōu)樽畲螅?生成操作信號201的情況進(jìn)行說明。
在評價值計算部500中,生成與測量信號202及其目標(biāo)值之間的偏差 相對應(yīng)的評價值信號203。例如,測量信號202與目標(biāo)值一致時,評價值 信號203設(shè)為"1",不一致時設(shè)定為"0"?;蛘撸O(shè)定評價值信號203, 以使測量信號202及其目標(biāo)值的之間的偏差成反比例。即,如后面所述的 圖5所述,評價值如+30那樣數(shù)值越大越接近目標(biāo),如一30那樣數(shù)值越 小越遠(yuǎn)離目標(biāo)。此時的評價值的計算能夠采取多種方法。圖12表示評價 值計算的一個例子。具有控制量和目標(biāo)值之差與評價值相對應(yīng)的表格,能 夠參照其生成評價值。另外,還能夠設(shè)定作為控制量和目標(biāo)值之差的函數(shù) 并計算評價值。
列舉使用強(qiáng)化學(xué)習(xí)的方法,作為裝備操作信號生成部300的方法。在 強(qiáng)化學(xué)習(xí)中,在學(xué)習(xí)的初始階段中,試行錯誤地生成操作信號201。然后,
隨著學(xué)習(xí)進(jìn)行,生成評價值信號203變大這樣的操作信號201。
這樣的學(xué)習(xí)算法,能夠使用例如Actor—Critic、 Q學(xué)習(xí)等算法。
圖1的控制裝置,使用被稱為Dyna—體系結(jié)構(gòu)的框架。這是,具有 模擬控制對象100的模型部400,學(xué)習(xí)在操作信號生成部300中事先以模 型部400為對象生成操作信號1201的生成方法,使用其學(xué)習(xí)結(jié)果生成操 作信號201的框架。
操作信號生成部300,具有生成向模型部400輸入的操作信號204, 接收來自模型部400的測量信號205和評價值信號206的功能。該評價值 信號206,在評價值計算部510中,使用測量信號205計算。評價值計算 部510,具有與評價值計算部500 —樣的功能。
操作信號生成部300,參照操作信號生成參數(shù)存儲部600中保存的數(shù) 據(jù),確定對控制對象100施加的操作信號201。
圖2是說明保存在操作信號生成參數(shù)存儲部600中的數(shù)據(jù)形式的圖。 如圖2所示,操作信號生成參數(shù)存儲部600中保存對控制對象100設(shè)置的 操作端的名稱、其操作量每1周期的變化幅度和與單位相關(guān)的數(shù)據(jù)。操作 端,能夠在操作量變化幅度范圍內(nèi)增加或者減少操作量。
并且,圖2記載了操作端的數(shù)量為多個的情況,操作端的數(shù)量也可以 為1個。另外,圖2中對每個操作端記載操作變化幅度,也可以將多個操 作端總括為一個,限制其操作端的變化幅度之和。
圖2的操作量變化幅度的限制值,在操作信號生成參數(shù)更新部700中 確定。
參數(shù)更新處理中需要的設(shè)定值,能夠從由鍵盤30和鼠標(biāo)40構(gòu)成的外 部輸入裝置20輸入。這些信息,能夠在CRT等圖像顯示裝置10上顯示。 控制對象IOO的操作員,使用圖像顯示裝置10和外部輸入裝置20,輸入 設(shè)定值214。
圖3是圖像顯示裝置10中顯示的畫面的例子。通過該畫面,操作員 能夠設(shè)定操作端的操作量變化幅度的初始值,上限、下限,和更新率。使 用圖4對這里設(shè)定的設(shè)定值的使用方法進(jìn)行說明。圖4是說明操作信號生 成參數(shù)更新部700中的處理的圖。以下,對圖4的各種處理內(nèi)容進(jìn)行說明。
在處理710中,判斷步驟數(shù)t是否比O大,為O時(否時)實施處理
720,比0大時(是時)實施處理740。這里步驟數(shù)是指變更施加到控制對 象100的操作信號的次數(shù),是初始值為0,每次操作增加1的值。 在處理720中,獲得圖3中設(shè)定的初始值。
在處理730中,將由處理720獲得的初始值,作為數(shù)據(jù)209發(fā)送到操 作信號生成參數(shù)存儲部600。
在處理740中,獲得操作信號生成參數(shù)存儲部600中保存的前次的操 作信號生成參數(shù)作為數(shù)據(jù)208。
在處理750中,獲得評價值信號203和評價值信號206。 在處理760中,使用式l變更操作量變化幅度。其中,t為步驟數(shù),G (t)為步驟t中的操作量,r, (t)為評價值信號203的值,r2 (t)為評價 值信號206的值,f (ri (t), r2 (t))是以n (t)和i"2 (t)為變量的函數(shù)。 (式1)
G (t十1) =G (t) +f (r, (t), r2 (t))
作為式l中的函數(shù)f (r, (t), r2 (t))的例子,列舉式2所示的函數(shù)。 (式2)
f (n (t), r2 (t)) 二『戶(I (n (t) —r2 (t) I)
在處理770中,使用式l和式2計算的G(t+l),在超過圖3中設(shè)定 的上限時,作為設(shè)定G (t十l)的上限值,比下限小時,作為設(shè)定G (t + 1)的下限值。
最后,在處理780中,將由處理770求出的G (t+l)作為數(shù)據(jù)209 發(fā)送到操作信號生成參數(shù)存儲部600。
并且,也可以以如式2函數(shù)的形式計算操作量變化幅度,如圖13那 樣,將評價值信號203、 206之差和操作量變化幅度G (t+l) —G (t)相 對應(yīng)并作為表格存儲,參照其確定操作量。
這樣,由于可以使用基于模型的控制偏差的評價值206和基于控制控 制對象時的控制偏差的評價值203之差計算操作量變化幅度,因此可以運 轉(zhuǎn)而不會對控制對象的運轉(zhuǎn)狀態(tài)帶來壞影響。另外,能夠根據(jù)模型和實機(jī) 的偏差靈活地控制。
另外,由于評價值之差大時,減小變化幅度,評價值之差小時,增大 變化幅度,從而模型的偏差大時能夠安全地變更操作量,與模型的偏差小
時,能夠提前變更操作量。
另外,通過設(shè)定操作量變化幅度的上限,增大操作量變化幅度時,實 機(jī)和模型的偏差影響變大,因此如果提前變更操作量,能夠取得平衡而不 會對控制對象的運轉(zhuǎn)狀態(tài)產(chǎn)生壞影響。
模型參數(shù)存儲部800中保存了構(gòu)成模型部400需要的參數(shù)。模型部400 為物理模型時,模型參數(shù)存儲部800中保存構(gòu)成物理模型需要的物理常數(shù)。 例如,控制對象100為火力發(fā)電設(shè)備時,保存熱傳導(dǎo)率等值。
在模型參數(shù)更新部900中,讀出模型參數(shù)存儲部800中存儲的參數(shù)212 并修正參數(shù),發(fā)送修正后的參數(shù)213,更新模型參數(shù),以使控制對象和模 型的特性一致。例如,控制對象100為火力發(fā)電設(shè)備時,使用日本特開IO 一214112號公報、日本特開2001 — 154705號公報等所述的技術(shù),對模型 部400設(shè)定模型參數(shù)211,更新模型的參數(shù)。
圖5 圖7是對考慮將以往的控制裝置應(yīng)用于控制對象100時產(chǎn)生的 問題進(jìn)行說明的圖。
圖5是操作量的空間和得到的評價值的關(guān)系。例如操作量A的值為 AP操作量B的值為BJ寸,將此操作量輸入到模型部400時得到的評價 值為一30。另外,A2、 B2時的評價值為+ 10。
使評價值的期待值的總和變?yōu)樽畲筮@樣的行為,如圖5的虛線,變?yōu)?避開評價值為負(fù)的區(qū)域,朝向為正的區(qū)域的行動。
圖6為用箭頭表示在一次行動中次可以移動的操作量的變化幅度的 圖。在該圖中,操作量的變化幅度取一定。這樣,從開始地點到評價值變 為+ 30的地點,用6步到達(dá)。
這里,考慮了模型和控制對象的特性不同的情況。圖7為表示模型和 控制對象的特性不同的例子的圖。如圖7,評價值為負(fù)的操作量的條件, 因模型和控制對象而不同。此時,如果探索用模型學(xué)習(xí)的操作方法并執(zhí)行 操作,1步后的評價值變?yōu)橐?0,不是想要的狀態(tài)。
圖8 圖10是說明將本發(fā)明的控制裝置應(yīng)用于設(shè)備100時的效果的 圖。在本發(fā)明的控制裝置中,操作量變化幅度不固定,通過圖3的處理確 定操作量的變化幅度。
通過設(shè)定初始值為變小,能夠減小1步的操作量變化幅度。其結(jié)果,
如圖8所示,1步后的評價值變?yōu)橐籌O。這與由以往方法在1步后得到的 一30相比是好的值。
這樣,通過減小操作的最初階段中的操作量變化幅度,轉(zhuǎn)移到與初始 狀態(tài)近似的運轉(zhuǎn)狀態(tài),因此能夠保證控制對象的安全性。
通過這1步驟的操作,控制裝置200得到控制對象100和模型部400 的特性不同這樣的信息。使用來自控制對象100的測量信號202和來自模 型部400的輸出信號205,更新保存在模型參數(shù)存儲部800中的參數(shù),以 使在模型參數(shù)更新部900中模型部400和控制對象100的特性一致。模型 和控制對象的特性不同時,為了恢復(fù)到初始狀態(tài)(圖8中的Start),恢復(fù) 操作信號201。這樣,能夠在評價值的差比規(guī)定值大時,通過修正模型, 模型和實機(jī)的偏差比規(guī)定值小時,按照模型安全地控制。
圖9是說明操作量的空間和由修正后的模型得到的評價值的關(guān)系的 圖。以該模型為對象,使評價值的期待值的總和變?yōu)樽畲蟮男袆樱侨鐖D 9的虛線所示,避開評價值變?yōu)樨?fù)的區(qū)域,朝向為正的區(qū)域的行動。該操 作路徑,在使用修正前的模型時和使用修正后的模型時不同。
圖10是使用修正后操作途徑,控制控制對象100時的路徑。
在本發(fā)明中,由實施操作得到的評價值,與以模型為對象時得到的評 價值一致時,增大操作量變化幅度。其結(jié)果,如圖10所示,箭頭的大小 逐漸變大。
圖11是說明圖10的操作執(zhí)行時的步驟數(shù)和操作量變化幅度關(guān)系的圖。
由于模型的評價值,和來自控制對象的評價值同時為O,因此式2中 的第2項變?yōu)?。因此,操作量變化幅度,每l步增大a。
操作信號201被顯示在圖1的CRT10中。另外,也能夠顯示作為存 儲在操作信號生成參數(shù)存儲部600中的數(shù)據(jù)210即操作量變化幅度等的數(shù) 據(jù)。也能夠顯示控制對象100的控制量202。 CRT10能夠?qū)D5 圖10的 操作量空間和評價值關(guān)系顯示在畫面上。
圖14表示將操作量的空間和評價值的關(guān)系顯示在畫面上時的一個例 子??刂蒲b置100,將對控制對象應(yīng)用的多個操作的操作量分別設(shè)定在多 個軸,表示對控制對象應(yīng)用的各操作的始點和到達(dá)點,生成連接并顯示1
步前操作的到達(dá)點與下一步驟的操作的始點的圖像信息,并由CRT10顯 示。由此,由與操作全體的對比能夠容易掌握各操作的變化量。并且,用 箭頭表示從始點到到達(dá)點。
另外,控制裝置100,具有模擬控制對象的特性的模型400、根據(jù)以 模型為對象控制時的控制偏差計算評價值的模型的評價值計算部510和根 據(jù)控制控制對象時的控制偏差計算評價值的控制對象的評價值計算部 500,計算進(jìn)行各操作時的模型的評價值和來自控制對象的評價值之差, 生成對應(yīng)各操作的顯示而顯示的顯示數(shù)據(jù),向CRTIO。這樣,由于將進(jìn)行 各操作時的模型的評價值和來自控制對象的評價值之差,對應(yīng)該各操作顯 示而顯示,從而能夠一邊進(jìn)行操作, 一邊掌握模型誤差。
如上所述,通過將本發(fā)明的運轉(zhuǎn)控制裝置應(yīng)用于控制對象,來確認(rèn)在 操作開始之后減小操作量的變化幅度并以模型為對象學(xué)習(xí)的操作方法是 否對控制對象也有效。然后,明確控制對象和模型的特性接近,以模型為 對象學(xué)習(xí)的操作方法,對于控制對象也有效后,逐漸增大操作量的變化幅 度。
因此,即使模型和控制對象的特性不同時,也能夠減輕控制對象的運 轉(zhuǎn)惡化的風(fēng)險。
另外,即使產(chǎn)生模型誤差時,也可以運轉(zhuǎn)而不會對控制對象的運轉(zhuǎn)狀 態(tài)帶來壞影響。
權(quán)利要求
1、一種控制裝置的運轉(zhuǎn)控制方法,導(dǎo)出并控制使基于控制對象的控制量與其目標(biāo)值之間的偏差即控制偏差的評價值取最大或者最小的操作量,其特征在于,具有模擬上述控制對象的特性的模型,以上述模型為對象,計算使基于模型的控制偏差的評價值取最大或者最小的操作量,根據(jù)由上述操作量對上述控制對象進(jìn)行了控制時的控制偏差來計算評價值,根據(jù)上述模型的控制偏差的評價值與上述控制對象的控制偏差的評價值的偏差,確定當(dāng)前步驟的操作量和由下一步驟確定的操作量之差即操作量的變化幅度。
2、 根據(jù)權(quán)利要求1所述的運轉(zhuǎn)控制方法,其特征在于, 確定上述操作量的變化幅度時,上述評價值的偏差大時,減小變化幅度,上述評價值的偏差小時,增大變化幅度。
3、 根據(jù)權(quán)利要求l所述的運轉(zhuǎn)控制方法,其特征在于, 設(shè)定上述操作量的變化幅度的上限。
4、 根據(jù)權(quán)利要求1所述的運轉(zhuǎn)控制方法,其特征在于, 上述評價值的偏差比規(guī)定值大時,修正上述模型。
5、 一種運轉(zhuǎn)控制裝置,導(dǎo)出并控制使基于控制對象的控制量與其目 標(biāo)值之間的偏差即控制偏差的評價值取最大或者最小的操作量,其特征在 于,具備模擬上述控制對象的特性的模型,具有模型的評價值計算部,其根據(jù)以上述模型為對象并進(jìn)行了控制 時的控制偏差來計算評價值;操作信號生成部,其計算使上述模型的評價值取最大或者最小的操作控制對象的評價值計算部,其根據(jù)用上述操作量對上述控制對象進(jìn)行 了控制時的控制偏差來計算評價值;和操作信號更新部,其根據(jù)上述模型的控制偏差的評價值和上述控制對 象的控制偏差的評價值,確定當(dāng)前步驟的操作量和由下一步驟確定的操作 量之差即操作量的變化幅度。
6、 根據(jù)權(quán)利要求5所述的運轉(zhuǎn)控制裝置,其特征在于, 上述操作信號生成部,在上述評價值的偏差大時,減小變化幅度,在上述評價值的偏差小時,增大變化幅度。
7、 根據(jù)權(quán)利要求5所述的運轉(zhuǎn)控制裝置,其特征在于, 上述操作信號更新部,具有上述操作量變化幅度的上限。
8、 根據(jù)權(quán)利要求5所述的運轉(zhuǎn)控制裝置,其特征在于,具有 模型參數(shù)更新部,其在上述評價值的偏差比規(guī)定值大時,修正模型。
9、 一種運轉(zhuǎn)控制系統(tǒng),具有對控制對象進(jìn)行并控制多個操作的控制 裝置和顯示裝置,其特征在于,上述控制裝置,將對上述控制對象的多個操作的操作量分別設(shè)定在多 個軸,顯示對控制對象應(yīng)用的各操作的始點和到達(dá)點,生成連接并顯示1 步驟前的操作的到達(dá)點和下一步驟的操作的始點的圖像信息,并向上述顯 示裝置發(fā)送。
10、 根據(jù)權(quán)利要求9所述的運轉(zhuǎn)控制系統(tǒng),,其特征在于, 上述控制裝置,具有模擬上述控制對象的特性的模型,具備模型的評價值計算部,其根據(jù)以上述模型為對象并進(jìn)行了控制 時的控制偏差來計算評價值;和控制對象的評價值計算部,其根據(jù)對上述 控制對象進(jìn)行了控制時的控制偏差來計算評價值,計算進(jìn)行了上述各操作時的模型的評價值和來自控制對象的評價值 之差,生成與上述各操作的顯示相對應(yīng)地顯示的顯示數(shù)據(jù),并向上述顯示 裝置發(fā)送。
全文摘要
本發(fā)明的目的在于提供即使模型和實機(jī)之間的偏差(模型誤差)產(chǎn)生時,也可以運轉(zhuǎn)而不會對控制對象的運轉(zhuǎn)狀態(tài)產(chǎn)生壞影響的運轉(zhuǎn)控制裝置和運轉(zhuǎn)控制方法。一種運轉(zhuǎn)控制方法,導(dǎo)出并控制使基于控制對象的控制量與其目標(biāo)值之間的偏差即控制偏差的評價值取最大或者最小的操作量,其特征在于,具有模擬上述控制對象的特性的模型,以上述模型為對象,計算使基于模型的控制偏差的評價值取最大或者最小的操作量,根據(jù)由上述操作量對上述控制對象進(jìn)行了控制時的控制偏差來計算評價值,根據(jù)上述模型的控制偏差的評價值與上述控制對象的控制偏差的評價值的偏差,確定當(dāng)前步驟的操作量和由下一步驟確定的操作量之差即操作量的變化幅度。
文檔編號G05B13/02GK101390024SQ200780006110
公開日2009年3月18日 申請日期2007年1月18日 優(yōu)先權(quán)日2006年3月31日
發(fā)明者關(guān)合孝朗, 山田昭彥, 清水悟 申請人:株式會社日立制作所