技術特征:1.基于BP網(wǎng)絡的HDP分子蒸餾系統(tǒng)的最優(yōu)控制方法,其特征在于,該方法包括如下步驟:
步驟一:采用梯度下降法訓練模型網(wǎng)絡:模型網(wǎng)絡的輸入包括分子蒸餾系統(tǒng)在k時刻的控制向量u(k)、狀態(tài)向量x(k),輸出為k+1時刻的狀態(tài)向量x(k+1),模型網(wǎng)絡的結構為輸入層包含7個節(jié)點、隱含層包含14個節(jié)點、輸出層包含2個節(jié)點;具體方法如下:
步驟1.1、隨機初始化模型網(wǎng)絡的權值wm1,wm2,其中,wm1為輸入層到隱含層的權值,wm2為隱含層到輸出層的權值,設置訓練次數(shù)c,允許誤差ε,學習效率lm;
步驟1.2、以多組真實實驗數(shù)據(jù)建立實驗樣本庫,即,將分子蒸餾系統(tǒng)在k時刻的控制向量u(k)、狀態(tài)向量x(k)作為模型網(wǎng)絡的輸入向量M(k)=[u(k) x(k)]T,將k+1時刻的狀態(tài)向量x(k+1)作為模型網(wǎng)絡的輸出向量為x(k+1),建立具有映射對應關系的多組實驗數(shù)據(jù)組作為實驗樣本;從實驗樣本庫中選擇N個樣本訓練模型網(wǎng)絡;
步驟1.3、模型網(wǎng)絡的正向計算,如下:
步驟1.4、計算誤差
式中,x(k+1)是模型網(wǎng)絡k+1時刻的期望輸出,是模型網(wǎng)絡的預測輸出;
步驟1.5、判斷誤差是否小于ε,若誤差大于ε且訓練次數(shù)小于c,則轉(zhuǎn)到步驟1.6;若誤差小于ε或訓練次數(shù)大于等于c,則轉(zhuǎn)到步驟1.8;
步驟1.6、更新權值wm1和wm2,如下:
①wm2更新:
②wm1更新:
wm1(k+1)=wm1(k)+Δwm1(k) (8)
步驟1.7、返回步驟1.3;
步驟1.8、模型網(wǎng)絡訓練完成;
步驟二:定義效用函數(shù)U(k)=U[x(k),u(k),k],對于分子蒸餾系統(tǒng),效用函數(shù)定義為U(k)=xT(k)Ax(k)+uT(k)Bu(k),其中A為5階單位陣、B為2階單位陣;
步驟三:確定執(zhí)行網(wǎng)絡與評價網(wǎng)絡的結構并初始化神經(jīng)網(wǎng)絡:執(zhí)行網(wǎng)絡的結構為輸入層包含2個節(jié)點、隱含層包含8個節(jié)點、輸出層包含5個節(jié)點,輸入層到隱含層的權值為wa1,隱含層到輸出層的權值為wa2,學習效率為la;評價網(wǎng)絡的結構為輸入層包含2個節(jié)點、隱含層包含5個節(jié)點、輸出層包含1個節(jié)點,輸入層到隱含層的權值為wc1,隱含層到輸出層的權值為wc2,學習效率為lc,允許誤差為εc,設定訓練次數(shù)為nc,已訓練次數(shù)為c(初始值c=0);
步驟四:從已有的實驗數(shù)據(jù)中,選擇N組數(shù)據(jù)作為訓練樣本,并設定分子蒸餾系統(tǒng)的初始狀態(tài)x(k);
步驟五:將x(k)作為執(zhí)行網(wǎng)絡的輸入,產(chǎn)生控制向量u(k),得到u(k)的計算過程如下:
步驟六:求解效用函數(shù)U(k)的值:
U(k)=xT(k)Ax(k)+uT(k)Bu(k)
步驟七:將x(k)輸入到評價網(wǎng)絡,得到k時刻的計算過程如下:
步驟八:將當前階段的狀態(tài)x(k)與執(zhí)行網(wǎng)絡輸出的控制向量u(k)作為輸入向量M(k)輸入到模型網(wǎng)絡得到k+1時刻狀態(tài)向量x(k+1),得到x(k+1)的計算過程如下:
步驟九:將狀態(tài)x(k+1)輸入到評價網(wǎng)絡獲得的計算過程如下:
步驟十:計算評價網(wǎng)絡誤差Ec(k),并判斷Ec(k)與εc的大小;如果Ec(k)大于εc,則轉(zhuǎn)到步驟十一,如果Ec(k)<=εc則轉(zhuǎn)到步驟十二;誤差Ec(k)的計算如下:
其中,
步驟十一:更新評價網(wǎng)絡的權值wc1和wc2,評價網(wǎng)絡的訓練也采用梯度下降法,權值更新過程如下:
步驟11.1、wc2的更新:
wc2(k+1)=wc2(k)+Δwc2(k)
步驟11.2、wc1的更新:
wc1(k+1)=wc1(k)+Δwc1(k)
步驟十二:計算執(zhí)行網(wǎng)絡的誤差Ea,如下:
步驟十三:更新執(zhí)行網(wǎng)絡的權值wa2和wa1,執(zhí)行網(wǎng)絡的訓練以最小化為目標,訓練也采用梯度下降法,權值更新過程如下:
步驟13.1、wa2的更新:
式中,共m個,wm1u=wm1(1:m,:)即wm1的前m行,wa2(k+1)=wa2(k)+Δwa2(k);
步驟13.2、wa1的更新:
式中共m個,wa2(k+1)=wa2(k)+Δwa2(k);
步驟十四:判斷訓練是否失敗,如果失敗(即Ec(k+1)>εc),則返回步驟五,否則轉(zhuǎn)到步驟十五;
步驟十五:判斷是否達到最大訓練次數(shù),如果達到即c>nc,則轉(zhuǎn)到步驟十六,否則,令c=c+1,k=k+1;如果c<=na,則轉(zhuǎn)到步驟五,進行下一次訓練;
步驟十六:訓練結束,此時HDP的執(zhí)行網(wǎng)絡產(chǎn)生的u(k)能夠使目標函數(shù)J(k)最小,即此時的u(k)是分子蒸餾系統(tǒng)的最優(yōu)控制向量。