本發(fā)明屬于電力系統(tǒng),具體涉及一種電網(wǎng)運(yùn)行風(fēng)險(xiǎn)控制策略生成系統(tǒng)及方法,還涉及一種基于深度強(qiáng)化學(xué)習(xí)與邊界知識(shí)混合增強(qiáng)的電網(wǎng)運(yùn)行風(fēng)險(xiǎn)控制策略生成系統(tǒng)及方法。
背景技術(shù):
1、隨著電力系統(tǒng)運(yùn)行特性和控制模式的日益復(fù)雜,電網(wǎng)運(yùn)行方式愈加多變,調(diào)度控制對(duì)象呈指數(shù)級(jí)增長(zhǎng),源荷雙側(cè)不確定性增強(qiáng),使得調(diào)控人員對(duì)電網(wǎng)故障處置變得更加困難,需要更加自動(dòng)化與智能化的方式對(duì)電網(wǎng)故障進(jìn)行處置。
2、目前在如專(zhuān)利公開(kāi)號(hào)為“cn110502604b”所提及的電網(wǎng)調(diào)控業(yè)務(wù)上,普遍還是基于人工的常規(guī)處置,而基于人工的常規(guī)處置方法存在誤判、漏判和處置效率低下等缺點(diǎn)。
3、因此,為適應(yīng)復(fù)雜不確定性強(qiáng)的電網(wǎng)環(huán)境,尋求最優(yōu)化長(zhǎng)期控制目標(biāo),實(shí)現(xiàn)電網(wǎng)運(yùn)行的安全性與經(jīng)濟(jì)性,能夠在電網(wǎng)故障發(fā)生后實(shí)時(shí)處置決策,就要提出一種基于強(qiáng)化學(xué)習(xí)的電網(wǎng)越限自適應(yīng)決策方法,構(gòu)建決策智能體,在離線(xiàn)電網(wǎng)仿真環(huán)境中學(xué)習(xí)最優(yōu)決策,并于電網(wǎng)真實(shí)環(huán)境中應(yīng)用學(xué)習(xí)到的策略,以此來(lái)解決基于人工的常規(guī)處置方法存在誤判、漏判和處置效率低下等缺點(diǎn)。
技術(shù)實(shí)現(xiàn)思路
1、為解決現(xiàn)有技術(shù)中存在的缺陷,本發(fā)明提出一種電網(wǎng)運(yùn)行風(fēng)險(xiǎn)控制策略生成系統(tǒng)及方法,基于越限獎(jiǎng)勵(lì)函數(shù)與負(fù)荷平衡后處理引導(dǎo)訓(xùn)練的電網(wǎng)潮流越限自適應(yīng)調(diào)整智能體可學(xué)會(huì)保障電網(wǎng)安全穩(wěn)定經(jīng)濟(jì)性運(yùn)行的機(jī)組出力決策,改善傳統(tǒng)依靠人工經(jīng)驗(yàn)調(diào)節(jié)的低效與不足現(xiàn)象。通過(guò)實(shí)現(xiàn)對(duì)電網(wǎng)真實(shí)環(huán)境的高度仿真模擬,使得電網(wǎng)越限自適應(yīng)調(diào)整智能體訓(xùn)練效果得到進(jìn)一步提升,在后期通過(guò)不斷迭代學(xué)習(xí)與訓(xùn)練,可逐步替代人工經(jīng)驗(yàn)的調(diào)節(jié)處置,直接應(yīng)用到電網(wǎng)實(shí)際生產(chǎn)環(huán)境中。
2、本發(fā)明運(yùn)用如下的技術(shù)方案。
3、一種電網(wǎng)運(yùn)行風(fēng)險(xiǎn)控制策略生成方法,包括:
4、步驟1:構(gòu)造基于深度強(qiáng)化學(xué)習(xí)的電網(wǎng)潮流越限自適應(yīng)調(diào)整模型;
5、步驟2:構(gòu)建離線(xiàn)訓(xùn)練與在線(xiàn)應(yīng)用一體化框架。
6、優(yōu)選地,步驟1具體包括:
7、步驟1-1:構(gòu)建潮流越限消除智能體的動(dòng)作空間與狀態(tài)空間;
8、步驟1-2:構(gòu)造潮流越限獎(jiǎng)勵(lì)函數(shù);
9、步驟1-3:出力與負(fù)荷平衡后執(zhí)行處理;
10、步驟1-4:構(gòu)建電網(wǎng)仿真運(yùn)行強(qiáng)化學(xué)習(xí)環(huán)境。
11、優(yōu)選地,在步驟1-1中,構(gòu)建潮流越限消除智能體的動(dòng)作空間,也就是確定智能體的動(dòng)作空間如下公式(1)所示:
12、a={punits}?(1)
13、其中,punits是基于當(dāng)前時(shí)刻電網(wǎng)狀態(tài)生成的下一時(shí)刻各機(jī)組有功出力。
14、優(yōu)選地,在步驟1-1中,構(gòu)建潮流越限消除智能體的狀態(tài)空間,也就是為智能體構(gòu)建如下公式(2)所示的狀態(tài)空間:
15、s={punits,qunits,ulines,ilines,ploads}?(2)
16、其中,punits是當(dāng)前時(shí)刻電網(wǎng)中的各機(jī)組有功出力,qunits是當(dāng)前時(shí)刻電網(wǎng)中的各機(jī)組無(wú)功出力,ulines是當(dāng)前時(shí)刻電網(wǎng)中的各線(xiàn)路的電壓值,ilines是當(dāng)前時(shí)刻電網(wǎng)中的各線(xiàn)路的電流值,ploads是下一時(shí)刻電網(wǎng)中的負(fù)荷預(yù)測(cè)值。
17、優(yōu)選地,在步驟1-2中,構(gòu)建如下公式(3)所示的潮流越限獎(jiǎng)勵(lì)函數(shù):
18、
19、其中,為第n條線(xiàn)路在當(dāng)前時(shí)刻電網(wǎng)潮流中的載流量實(shí)際值,為第n條線(xiàn)路在電網(wǎng)潮流中的載流量上限值,為第n條線(xiàn)路在電網(wǎng)潮流中的載流量下限值,n為電網(wǎng)線(xiàn)路的總數(shù)量,max()為求取最大值函數(shù),r為安全性目標(biāo)的獎(jiǎng)勵(lì)值。
20、優(yōu)選地,在步驟1-3中,智能體在經(jīng)過(guò)深度神經(jīng)網(wǎng)絡(luò)生成決策之后,屬于歸一化之后范圍在[-1,1]的數(shù)值,需要結(jié)合機(jī)組的可調(diào)范圍,再將其映射為具體的機(jī)組出力值。
21、優(yōu)選地,在后處理過(guò)程中,以下一時(shí)刻預(yù)測(cè)負(fù)荷值之和為調(diào)節(jié)目標(biāo),即作為各機(jī)組出力之和,并且根據(jù)每臺(tái)機(jī)組在此時(shí)刻的可調(diào)節(jié)范圍,按設(shè)定比例分配調(diào)節(jié)量,最終實(shí)現(xiàn)機(jī)組出力之和等于預(yù)測(cè)負(fù)荷值之和。
22、優(yōu)選地,步驟1-4具體包括對(duì)電網(wǎng)運(yùn)行仿真環(huán)境進(jìn)行潮流計(jì)算,以確定電力系統(tǒng)中各個(gè)節(jié)點(diǎn)的電壓和相角以及各條輸電線(xiàn)路的潮流,而在進(jìn)行潮流計(jì)算時(shí),交互服務(wù)模塊實(shí)現(xiàn)交互環(huán)境與潮流計(jì)算模塊的集成,交互服務(wù)模塊是一個(gè)基于java的軟件程序,它負(fù)責(zé)與強(qiáng)化學(xué)習(xí)智能體進(jìn)行數(shù)據(jù)通信和控制指令的傳遞。
23、優(yōu)選地,交互服務(wù)模塊的功能如下:
24、接收并解析智能體的動(dòng)作請(qǐng)求,根據(jù)請(qǐng)求中的控制變量,更新電力系統(tǒng)模型中的機(jī)組、負(fù)荷數(shù)據(jù);
25、調(diào)用潮流計(jì)算模塊,根據(jù)電力系統(tǒng)模型中的結(jié)構(gòu)參數(shù)和負(fù)荷情況,求解各個(gè)節(jié)點(diǎn)的電壓和各條線(xiàn)路的潮流,并判斷電力系統(tǒng)是否滿(mǎn)足約束條件;
26、生成新的qs文件,將潮流計(jì)算結(jié)果保存在qs文件中;
27、從qs文件中提取機(jī)組、線(xiàn)路、母線(xiàn)設(shè)備的相關(guān)數(shù)據(jù),作為電網(wǎng)狀態(tài)返回給智能體,供智能體進(jìn)行學(xué)習(xí)和決策。
28、優(yōu)選地,步驟2具體包括:
29、步驟2-1:仿真環(huán)境在讀取此時(shí)的網(wǎng)架信息后將智能體狀態(tài)空間與動(dòng)作空間進(jìn)行初始化,以適應(yīng)網(wǎng)架結(jié)構(gòu),同時(shí)構(gòu)造基于深度神經(jīng)網(wǎng)絡(luò)的actor與critic網(wǎng)絡(luò);
30、步驟2-2:確定好訓(xùn)練數(shù)據(jù)的時(shí)間段、訓(xùn)練總步數(shù)、訓(xùn)練回合數(shù)、回合包含步數(shù)智能體訓(xùn)練條件參數(shù);
31、步驟2-3:在前1000步訓(xùn)練中,屬于探索階段,每個(gè)回合開(kāi)始時(shí)智能體向交互環(huán)境服務(wù)程序請(qǐng)求隨機(jī)時(shí)刻的狀態(tài)信息;
32、步驟2-4:交互環(huán)境服務(wù)程序讀取當(dāng)前時(shí)刻的qs文件,以及下一時(shí)刻的qs文件,解析其中的數(shù)據(jù)并返回智能體需要的觀(guān)測(cè)狀態(tài)數(shù)據(jù);
33、步驟2-5:智能體收到觀(guān)測(cè)狀態(tài)數(shù)據(jù)后,將其作為輸入,使用actor網(wǎng)絡(luò)得到[-1,1]區(qū)間的機(jī)組調(diào)節(jié)輸出值;
34、步驟2-6:對(duì)步驟2-5中獲得的輸出值進(jìn)行后處理,在訓(xùn)練過(guò)程中,直接使用下一時(shí)刻的實(shí)際負(fù)荷值作為下一時(shí)刻的負(fù)荷預(yù)測(cè)值,實(shí)現(xiàn)機(jī)組出力與預(yù)測(cè)負(fù)荷值的平衡調(diào)節(jié),得到機(jī)組的實(shí)際出力值;
35、步驟2-7:智能體將機(jī)組的實(shí)際出力值返回交互環(huán)境服務(wù)程序,交互環(huán)境服務(wù)程序收到機(jī)組的實(shí)際出力值后,將其直接替換下一時(shí)刻qs文件中對(duì)應(yīng)機(jī)組的出力值,并進(jìn)行潮流計(jì)算,再將潮流計(jì)算后生成的qs文件,以及再下一時(shí)刻的qs文件中提取的數(shù)據(jù)作為下一時(shí)刻的觀(guān)測(cè)狀態(tài)返回智能體,同時(shí)返回潮流計(jì)算后的越限信息;
36、步驟2-8:智能體收到數(shù)據(jù)后,首先根據(jù)越限信息,計(jì)算此次動(dòng)作的獎(jiǎng)勵(lì)值,并將其與此次動(dòng)作的當(dāng)前時(shí)刻觀(guān)測(cè)狀態(tài)、當(dāng)前動(dòng)作、下一時(shí)刻觀(guān)測(cè)狀態(tài)作為一條數(shù)據(jù)一起存入訓(xùn)練數(shù)據(jù)緩存中,以供后續(xù)學(xué)習(xí)使用;
37、步驟2-9:此時(shí)智能體次回合的訓(xùn)練步數(shù)加1,總訓(xùn)練步數(shù)加1,回到步驟2-5的操作;當(dāng)回合步數(shù)達(dá)到12時(shí)則結(jié)束此回合,總回合數(shù)加1,并開(kāi)始新回合的訓(xùn)練。當(dāng)總訓(xùn)練數(shù)達(dá)到步驟2-2中設(shè)定的參數(shù)時(shí),智能體訓(xùn)練完成,保存訓(xùn)練參數(shù),退出程序結(jié)束訓(xùn)練;
38、步驟2-10:當(dāng)1000步訓(xùn)練完成后,屬于應(yīng)用階段,除了每回合開(kāi)始時(shí)按步驟2-3到步驟2-9的流程執(zhí)行外,初始時(shí)刻的選擇盡量挑選歷史越限數(shù)據(jù)的時(shí)刻,并且此時(shí)在每個(gè)訓(xùn)練步交互后,還需要從訓(xùn)練數(shù)據(jù)緩存中隨機(jī)讀取n條數(shù)據(jù),利用梯度下降的方式,更新critic網(wǎng)絡(luò)參數(shù)與actor網(wǎng)絡(luò)參數(shù),以?xún)?yōu)化智能體的參數(shù),生成最佳策略。
39、在模型完成基于實(shí)際歷史電網(wǎng)數(shù)據(jù)的離線(xiàn)訓(xùn)練后,智能體此時(shí)已掌握生成安全不越限、供電與預(yù)測(cè)負(fù)荷平衡的機(jī)組出力調(diào)節(jié)策略。
40、優(yōu)選地,電網(wǎng)運(yùn)行風(fēng)險(xiǎn)控制策略生成方法,還包括:將訓(xùn)練好的智能體置于在線(xiàn)應(yīng)用,其在線(xiàn)決策流程如下:
41、智能體讀取訓(xùn)練完保存好的參數(shù),用其對(duì)自身初始化,處于準(zhǔn)備決策的狀態(tài);
42、如果操作人員發(fā)現(xiàn)此時(shí)電網(wǎng)存在越限情況,采取相應(yīng)操作后,生產(chǎn)環(huán)境將生成新的qs文件,此時(shí)部署在應(yīng)用環(huán)境中的交互環(huán)境服務(wù)程序?qū)⑶耙粫r(shí)刻的越限qs文件以及最新的qs文件數(shù)據(jù)提取出來(lái)返回智能體作為觀(guān)測(cè)狀態(tài);
43、智能體收到觀(guān)測(cè)狀態(tài)數(shù)據(jù)后,將其作為輸入,使用actor網(wǎng)絡(luò)得到[-1,1]區(qū)間的機(jī)組調(diào)節(jié)輸出值,經(jīng)過(guò)后處理得到機(jī)組實(shí)際調(diào)節(jié)值并返回交互環(huán)境服務(wù)程序,此為針對(duì)越限情況生成的調(diào)節(jié)策略;
44、交互環(huán)境服務(wù)程序收到機(jī)組的實(shí)際出力值后,將其直接替換下一時(shí)刻qs文件中對(duì)應(yīng)機(jī)組的出力值,并進(jìn)行潮流計(jì)算,即可得到采用智能體決策后的電網(wǎng)狀態(tài)qs文件,與生產(chǎn)環(huán)境中人為操作后形成的qs文件進(jìn)行比較,在效果上可以看出智能體調(diào)節(jié)后的電網(wǎng)處于安全不越限狀態(tài)。
45、一種電網(wǎng)運(yùn)行風(fēng)險(xiǎn)控制策略生成系統(tǒng),包括:
46、構(gòu)造模塊,其用于構(gòu)造基于深度強(qiáng)化學(xué)習(xí)的電網(wǎng)潮流越限自適應(yīng)調(diào)整模型;
47、構(gòu)建模塊,其用于構(gòu)建離線(xiàn)訓(xùn)練與在線(xiàn)應(yīng)用一體化框架。
48、本發(fā)明的有益效果在于,和現(xiàn)有技術(shù)相比,本發(fā)明的技術(shù)效果包括:
49、基于越限獎(jiǎng)勵(lì)函數(shù)與負(fù)荷平衡后處理引導(dǎo)訓(xùn)練的電網(wǎng)潮流越限自適應(yīng)調(diào)整智能體可學(xué)會(huì)保障電網(wǎng)安全穩(wěn)定經(jīng)濟(jì)性運(yùn)行的機(jī)組出力決策,改善傳統(tǒng)依靠人工經(jīng)驗(yàn)調(diào)節(jié)的低效與不足現(xiàn)象。通過(guò)實(shí)現(xiàn)對(duì)電網(wǎng)真實(shí)環(huán)境的高度仿真模擬,使得電網(wǎng)越限自適應(yīng)調(diào)整智能體訓(xùn)練效果得到進(jìn)一步提升,在后期通過(guò)不斷迭代學(xué)習(xí)與訓(xùn)練,可逐步替代人工經(jīng)驗(yàn)的調(diào)節(jié)處置,直接應(yīng)用到電網(wǎng)實(shí)際生產(chǎn)環(huán)境中。