1.一種基于強(qiáng)化學(xué)習(xí)優(yōu)化的電網(wǎng)信息系統(tǒng)時(shí)間序列數(shù)據(jù)收集方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,神經(jīng)網(wǎng)絡(luò)根據(jù)三個(gè)連接處訓(xùn)練后反應(yīng)的整體預(yù)測(cè)誤差來(lái)調(diào)整隱層節(jié)點(diǎn)數(shù),具體如下:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,根據(jù)et反應(yīng)的最優(yōu)節(jié)點(diǎn)數(shù)落在nmin,nmax定義的區(qū)間的位置分情況來(lái)進(jìn)行調(diào)整,具體包括:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,grurl網(wǎng)絡(luò)模型中,grurl層包括兩層r-gru層和一個(gè)隨機(jī)層,在隨機(jī)層中有兩個(gè)神經(jīng)元,其輸出分別為μ,σ,網(wǎng)絡(luò)中參數(shù)的分布服從高斯分布,隨機(jī)層的兩個(gè)輸出計(jì)算如下:
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,在grurl模型的輸出層中,引入了強(qiáng)化學(xué)習(xí)以學(xué)習(xí)隨機(jī)策略,在這一層上,使用一維高斯函數(shù)來(lái)預(yù)測(cè)時(shí)間序列數(shù)據(jù),定義如下:
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,參數(shù)wμi和wσi更新方式如下:
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,獎(jiǎng)勵(lì)值的計(jì)算方法如下:
8.一種基于強(qiáng)化學(xué)習(xí)優(yōu)化的電網(wǎng)信息系統(tǒng)時(shí)間序列數(shù)據(jù)收集裝置,其特征在于,包括:
9.一種計(jì)算機(jī)設(shè)備,其特征在于,包括:一個(gè)或多個(gè)處理器;存儲(chǔ)器;以及一個(gè)或多個(gè)程序,其中所述一個(gè)或多個(gè)程序被存儲(chǔ)在所述存儲(chǔ)器中,并且被配置為由所述一個(gè)或多個(gè)處理器執(zhí)行,所述程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1-7中任一項(xiàng)所述的一種基于強(qiáng)化學(xué)習(xí)優(yōu)化的電網(wǎng)信息系統(tǒng)時(shí)間序列數(shù)據(jù)收集方法的步驟。
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1-7中任一項(xiàng)所述的一種基于強(qiáng)化學(xué)習(xí)優(yōu)化的電網(wǎng)信息系統(tǒng)時(shí)間序列數(shù)據(jù)收集方法的步驟。