本發(fā)明涉及微電網(wǎng)故障恢復(fù),特別涉及一種基于dasac的微電網(wǎng)故障恢復(fù)方法。
背景技術(shù):
1、隨著經(jīng)濟(jì)社會的快速發(fā)展,人們的用電需求越來越大。與此同時,以風(fēng)機(jī)、光伏為代表的分布式發(fā)電技術(shù)日益成熟,配電網(wǎng)中新能源滲透率越來越高。微電網(wǎng)作為整合和管理各種分布式電源(distributedgeneration,dg)的平臺,其運行的穩(wěn)定性直接關(guān)系著用戶的正常生產(chǎn)生活。然而,受dg和負(fù)荷用電需求時變的影響,微電網(wǎng)結(jié)構(gòu)和潮流復(fù)雜程度急劇增加,這對微電網(wǎng)故障管理工作提出了更高的要求。如何應(yīng)對dg出力和負(fù)荷需求時變對微電網(wǎng)故障后恢復(fù)的影響,保證微電網(wǎng)迅速恢復(fù)正常運行,是一個值得深入研究的問題。
2、現(xiàn)有技術(shù)中,文獻(xiàn)[1]:《基于多代理系統(tǒng)的主動配電網(wǎng)多故障動態(tài)修復(fù)策略研究》(楊麗君,呂雪姣,李丹,等.基于多代理系統(tǒng)的主動配電網(wǎng)多故障動態(tài)修復(fù)策略研究[j].中國電機(jī)工程學(xué)報,2017,37(23):6855-6865+7076.)針對含dg主動配電網(wǎng)提出一種分區(qū)域、分場景的多故障快速恢復(fù)供電策略,根據(jù)故障后各子區(qū)域內(nèi)dg調(diào)節(jié)能力以綜合經(jīng)濟(jì)損失最小為目標(biāo)函數(shù),采用細(xì)菌算法求解最優(yōu)故障恢復(fù)策略。然而,該文獻(xiàn)僅考慮供電側(cè)的出力不確定性,沒有構(gòu)建考慮不同時刻負(fù)荷用電偏好的負(fù)荷需求時變模型,實際應(yīng)用性較差。
3、文獻(xiàn)[2]:《計及不確定性的配電網(wǎng)故障恢復(fù)兩階段優(yōu)化》(蔣天元,郝麗麗,王輝,等.計及不確定性的配電網(wǎng)故障恢復(fù)兩階段優(yōu)化[j].電力電容器與無功補(bǔ)償,2020,41(05):150-157.)在考慮dg輸出和負(fù)荷需求時變性的基礎(chǔ)上,提出一種兩階段配電網(wǎng)故障恢復(fù)控制模型,以期求故障損失最小。然而,該研究方法計算量大且效率低,針對復(fù)雜程度較高的配電系統(tǒng)適應(yīng)性較弱。
4、文獻(xiàn)[3]:《基于變異粒子群算法的主動配電網(wǎng)故障恢復(fù)策略》(徐巖,張薈,孫易洲.基于變異粒子群算法的主動配電網(wǎng)故障恢復(fù)策略[j].電力自動化設(shè)備,2021,41(12):45-53.)對粒子群算法進(jìn)行離散和變異并將其引入故障恢復(fù)策略求解,以得到全局最優(yōu)恢復(fù)策略。
5、文獻(xiàn)[4]:《基于粒子群混合灰狼算法的配電網(wǎng)故障恢復(fù)策略》(劉青,董浩然,胡紫琪,等.基于粒子群混合灰狼算法的配電網(wǎng)故障恢復(fù)策略[j/ol].華北電力大學(xué)學(xué)報(自然科學(xué)版),1-10[2023-12-22].)將粒子群算法的強(qiáng)收斂性能和灰狼優(yōu)化算法良好的全局搜索能力相結(jié)合,提出一種粒子群混合灰狼算法對配電網(wǎng)故障恢復(fù)策略求解。
6、上述文獻(xiàn)[3]、文獻(xiàn)[4]通過對智能算法進(jìn)行改進(jìn)或結(jié)合一定程度上提高了算法收斂的速度和精度,在故障恢復(fù)求解上取得了一定成果,但仍存在一些問題:a:面對大規(guī)模dg接入的微電網(wǎng),算法計算速度慢,無法滿足故障恢復(fù)實時的控制需求;b:處理復(fù)雜系統(tǒng)時,算法精度無法滿足要求。
技術(shù)實現(xiàn)思路
1、為解決上述技術(shù)問題,本發(fā)明提供一種基于雙智能體柔性動作-評價方法(double-agent?soft?actor-critic,dasac)的微電網(wǎng)故障恢復(fù)方法,該方法綜合考慮源-荷不確定性的同時實現(xiàn)微電網(wǎng)故障的最優(yōu)恢復(fù),該方法計及dg出力和負(fù)荷需求時變,建立了微電網(wǎng)故障恢復(fù)模型。針對微電網(wǎng)中高比例分布式電源受自然因素影響后具有強(qiáng)隨機(jī)性的問題,將微電網(wǎng)的故障恢復(fù)問題轉(zhuǎn)化為帶約束的非線性規(guī)劃問題,并以微電網(wǎng)故障恢復(fù)成本最小為目標(biāo)構(gòu)建雙智能體強(qiáng)化學(xué)習(xí)(double-agent?reinforcement?learning,darl)模型,為動作空間中不同的動作類型分配離散和連續(xù)的雙智能體進(jìn)行控制。針對傳統(tǒng)故障恢復(fù)方法計算速度慢,無法實現(xiàn)故障恢復(fù)實時控制的問題,提出一種dasac方法對darl模型進(jìn)行高效地自適應(yīng)訓(xùn)練學(xué)習(xí)以獲得最優(yōu)的故障恢復(fù)策略。本發(fā)明所提微電網(wǎng)故障恢復(fù)模型能夠有效降低故障恢復(fù)損失,所提dasac方法能顯著降低決策時間,可靠學(xué)習(xí)到最優(yōu)故障恢復(fù)策略,且相較于其他方法,本發(fā)明所提故障恢復(fù)方法的恢復(fù)性能更加優(yōu)異。
2、本發(fā)明采取的技術(shù)方案為:
3、基于dasac的微電網(wǎng)故障恢復(fù)方法,包括以下步驟:
4、步驟1:建立計及dg出力和負(fù)荷需求時變的微電網(wǎng)故障恢復(fù)模型;
5、步驟2:將微電網(wǎng)的故障恢復(fù)問題轉(zhuǎn)化為帶約束的非線性規(guī)劃問題,并以微電網(wǎng)故障恢復(fù)成本最小為目標(biāo),構(gòu)建雙智能體強(qiáng)化學(xué)習(xí)(double-agent?reinforcementlearning,darl)模型,為動作空間中不同的動作類型分配離散和連續(xù)的雙智能體進(jìn)行控制;
6、步驟3:提出一種dasac方法,對雙智能體強(qiáng)化學(xué)習(xí)模型進(jìn)行高效地自適應(yīng)訓(xùn)練學(xué)習(xí),提高故障恢復(fù)效率以滿足微電網(wǎng)運行的需求。
7、所述步驟1中,為了綜合考慮源-荷不確定性的同時實現(xiàn)微電網(wǎng)故障恢復(fù)過程成本最小化,計及dg出力和負(fù)荷需求時變,建立微電網(wǎng)故障恢復(fù)模型,具體包括:
8、(1)構(gòu)建源荷時變模型:
9、1)風(fēng)機(jī)模型:風(fēng)力發(fā)電機(jī)(wind?turbine,wt)的出力主要受風(fēng)速影響,wt輸出功率與風(fēng)速間的關(guān)系可表示如下:
10、
11、式中:pwt表示wt輸出功率;pr表示wt額定容量;v表示風(fēng)速;vr表示額定風(fēng)速;vci、vco分別表示切入風(fēng)速和切除風(fēng)速。
12、由于不同時刻風(fēng)速波動較大,wt的出力也存在一定的不確定性。因此,本發(fā)明中采用威布爾分布函數(shù)擬合wt出力。風(fēng)速的威布爾概率密度分布表示為:
13、
14、式中:f1(v)表示風(fēng)速的概率密度函數(shù);k1、c表示風(fēng)速概率密度函數(shù)的形狀參數(shù);
15、表示風(fēng)速v在形狀參數(shù)c和k1作用下的衰減特性。
16、2)光伏模型:光伏(photovoltaic,pv)出力大小主要受太陽光輻射強(qiáng)度的影響,pv輸出功率與太陽光輻射強(qiáng)度間的關(guān)系可表示如下:
17、ppv=ηag1
18、式中:ppv表示pv輸出功率;η表示光伏板的光電轉(zhuǎn)換效率;a表示光伏板的面積;g1表示太陽光輻射強(qiáng)度。
19、pv出力受太陽光輻射強(qiáng)度變化影響具有較大隨機(jī)性,利用貝塔分布函數(shù)近似表示太陽光輻射情況:
20、
21、式中:f2(g1)表示太陽光輻射的概率密度函數(shù);g1,max表示太陽光最大輻射強(qiáng)度;γ(i)表示伽馬分布;α、β表示貝塔分布函數(shù)的形狀參數(shù)。
22、3)儲能模型:wt和pv屬于不可控電源,受環(huán)境影響具有較大的波動性和時變性,無法向負(fù)荷高質(zhì)量持續(xù)供電。但如果將wt或pv與儲能裝置構(gòu)成聯(lián)合發(fā)電系統(tǒng),利用儲能裝置適時的充、放電,則能有效解決wt和pv出力具有隨機(jī)性的問題。儲能裝置的充、放電模型具體如下:
23、
24、式中:pc,t和pd,t分別表示t時段儲能的充、放電功率;pcmax和pdmax分別表示儲能的最大充、放電功率;soct表示t時段儲能剩余容量;socmax和socmin分別表示儲能允許的最大、最小電量;pfc,t、pgc,t分別表示t時刻風(fēng)儲系統(tǒng)和光儲系統(tǒng)的出力。
25、4)負(fù)荷模型:
26、a)負(fù)荷時變模型:按照用途的不同可將微電網(wǎng)負(fù)荷分為3類,即商業(yè)、居民和工業(yè)負(fù)荷。對于負(fù)荷,在相鄰時間段內(nèi)執(zhí)行定積分計算,可以得到不同種類負(fù)荷在該時段的用電需求。
27、
28、式中:li,t表示節(jié)點i上的負(fù)荷在t到t+1時段的負(fù)荷需求;fi(x)表示節(jié)點i上的負(fù)荷曲線函數(shù)。
29、b)負(fù)荷需求模型:微電網(wǎng)故障恢復(fù)的過程中,應(yīng)當(dāng)首先考慮重要負(fù)荷的優(yōu)先供電。一般的,負(fù)荷被分為一級負(fù)荷、二級負(fù)荷和三級負(fù)荷三類。然而,這種分類方式忽略了負(fù)荷時間尺度上的差異。對此,本發(fā)明利用一種考慮負(fù)荷需求時變的優(yōu)先恢復(fù)系數(shù)wi,t來衡量不同時段各節(jié)點負(fù)荷的恢復(fù)優(yōu)先級。
30、wi,t=di,tω
31、式中:di,t表示節(jié)點i上的負(fù)荷在t時刻的時間需求度,一級負(fù)荷的需求度設(shè)定恒為10,其余負(fù)荷按照不同時刻的負(fù)荷需求比值得到負(fù)荷在對應(yīng)時刻的需求度值;ω表示負(fù)荷等級系數(shù),按照負(fù)荷等級分類依此取100、10、1。
32、(2)構(gòu)建故障恢復(fù)模型:
33、構(gòu)建故障恢復(fù)模型的目標(biāo)函數(shù):
34、在微電網(wǎng)故障恢復(fù)過程中,大量失電負(fù)荷需要恢復(fù)供電。故障恢復(fù)的主要目的是希望在恢復(fù)更多失電負(fù)荷的情況下,盡量減少開關(guān)操作次數(shù)和網(wǎng)絡(luò)損耗。在負(fù)荷固定的情況下,有更多的負(fù)荷恢復(fù)供電意味著失電負(fù)荷量要更小。因此,設(shè)定目標(biāo)函數(shù)f為:
35、minf=(f1+f2+f3)△t
36、
37、式中:△t表示單位時間長度,本發(fā)明主要考慮微電網(wǎng)故障后1h內(nèi)功率損失,即△t=1h;f表示故障恢復(fù)成本;f1、f2、f3分別表示系統(tǒng)失電負(fù)荷損失成本、系統(tǒng)網(wǎng)絡(luò)損耗成本以及系統(tǒng)開關(guān)操作等效損失成本;c1、c2、c3分別表示失負(fù)荷損失系數(shù)、系統(tǒng)網(wǎng)絡(luò)損耗損失系數(shù)以及開關(guān)操作等效損失系數(shù);n、m、o、l分別表示微電網(wǎng)節(jié)點的集合、支路的集合、分段開關(guān)的集合及聯(lián)絡(luò)線的集合;xi是0-1二進(jìn)制量,用于表示節(jié)點i的接入狀態(tài),xi=0表示節(jié)點負(fù)荷未被切除,xi=1表示節(jié)點負(fù)荷被切除;picut表示節(jié)點i上的負(fù)荷失電量;ks是0-1二進(jìn)制量,用于表示支路s的接入狀態(tài),ks=0表示支路未接入主網(wǎng),ks=1表示支路接入主網(wǎng);ps和qs分別表示支路s上的有功和無功功率;us表示支路s末端節(jié)點電壓;rs表示支路s的電抗;kp和kq是0-1二進(jìn)制量,分別用于表示分段開關(guān)和聯(lián)絡(luò)開關(guān)的開合狀態(tài),0表示開關(guān)斷開,1表示開關(guān)閉合。
38、構(gòu)建故障恢復(fù)模型的約束條件:
39、a)孤島功率約束:
40、
41、式中:d表示孤島內(nèi)節(jié)點集合;pi,t表示孤島內(nèi)節(jié)點i在t時段的有功功率大小;ploss,t表示t時段孤島網(wǎng)絡(luò)損耗。
42、b)支路功率約束:
43、ps,t≤psmax
44、式中:ps,t表示支路s的有功功率值;psmax表示支路s上允許流過的最大有功功率。
45、c)節(jié)點電壓約束:
46、
47、式中:ui,t表示t時刻節(jié)點i的電壓值;表示節(jié)點i上允許的最大、最小電壓。
48、d)潮流約束:
49、
50、式中:pi,t、qi,t分別表示t時刻節(jié)點i處負(fù)荷的有功功率和無功功率;ui,t、uj,t分別表示t時刻節(jié)點i和節(jié)點j的電壓幅值;θij表示節(jié)點i、j之間的電壓相位差;gij、bij分別表示節(jié)點i、j之間的電導(dǎo)和電納。
51、e)輻射狀運行約束:
52、g2,t∈g
53、式中:g表示輻射狀拓?fù)浣Y(jié)構(gòu)的集合;g2,t表示微電網(wǎng)的拓?fù)浣Y(jié)構(gòu)。
54、f)負(fù)荷約束:
55、微電網(wǎng)中的負(fù)荷可分為可控負(fù)荷和不可控負(fù)荷。當(dāng)微電網(wǎng)遭遇故障時,可對可控負(fù)荷進(jìn)行部分切除以保證其功率平衡及重要負(fù)荷的穩(wěn)定供電。對于故障時負(fù)荷的切除量,有如下約束:
56、
57、式中:表示t時段節(jié)點i處負(fù)荷切除量;表示節(jié)點i處最大切負(fù)荷系數(shù)。
58、所述步驟2中,darl是兩個智能體在與環(huán)境的感知和交互過程中通過動作學(xué)習(xí)以期獲得各自最大回報、實現(xiàn)特定目標(biāo)的過程。darl一般根據(jù)實際待求問題多被建模為馬爾可夫博弈模型,可用(s,oi,ai,pi,ri,γi)表示。其中:s表示所有的環(huán)境狀態(tài)空間;oi表示智能體i所能感知的局部狀態(tài)空間;ai表示智能體i的動作空間;pi:s×ai×s→[0,1]表示智能體i的狀態(tài)轉(zhuǎn)移概率;ri:s×ai→ri表示智能體動作后獲得的獎勵;γi∈[0,1)表示折扣因子,用來調(diào)節(jié)近、遠(yuǎn)期獎勵對不同智能體當(dāng)下決策的影響程度。
59、微電網(wǎng)恢復(fù)過程包括網(wǎng)絡(luò)拓?fù)渲貥?gòu)及節(jié)點切負(fù)荷兩個問題,其中,網(wǎng)絡(luò)拓?fù)渲貥?gòu)可以用開關(guān)狀態(tài)來表示,屬于離散動作求解問題;而節(jié)點切負(fù)荷問題屬于連續(xù)動作求解問題。然而,一般darl的待訓(xùn)練智能體動作空間只能是離散或連續(xù)中的一種。因此,為應(yīng)對連續(xù)和離散動作均存在的情況,將微電網(wǎng)故障恢復(fù)問題建模為一個雙智能體學(xué)習(xí)任務(wù),利用兩個智能體分別負(fù)責(zé)離散動作和連續(xù)動作的控制,兩個智能體有各自的經(jīng)驗緩沖區(qū)d1和d2,通過迭代學(xué)習(xí)進(jìn)行更新,并將輸出動作共同作用于微電網(wǎng)故障恢復(fù)場景。
60、考慮微電網(wǎng)故障恢復(fù)問題映射的馬爾可夫決策過程公式化如下:
61、(1)離散智能體:
62、1)環(huán)境狀態(tài)空間:離散智能體感知的環(huán)境狀態(tài)o1,t包括:t時刻微dg出力、負(fù)荷用電需求、線路故障狀態(tài)、負(fù)荷時變的綜合權(quán)重系數(shù)、孤島內(nèi)功率差、支路功率、節(jié)點電壓和拓?fù)浣Y(jié)構(gòu),可表示為:
63、o1,t={pfc,t,pgc,t,li,t,zt,wi,t,△pd,t,ps,t,ui,t,g2,t}
64、式中:zt表示t時刻故障支路;△pd,t表示t時刻孤島d內(nèi)的功率差。
65、2)動作空間:離散智能體主要是用于控制微電網(wǎng)分段開關(guān)和聯(lián)絡(luò)開關(guān)的開斷,因此離散智能體的動作空間a1,t為:
66、a1,t={kp,t,kq,t}
67、式中:kp,t表示第p個分段開關(guān)在t時刻的開斷;kq,t表示第q個聯(lián)絡(luò)開關(guān)在t時刻的開斷。
68、3)獎勵函數(shù):強(qiáng)化學(xué)習(xí)通過智能體試錯的方式進(jìn)行自適應(yīng)學(xué)習(xí),每當(dāng)智能體采取一個動作之后都會獲得相應(yīng)的獎勵以指導(dǎo)模型的更新。為解決微電網(wǎng)故障恢復(fù)成本最小問題,需在獎勵函數(shù)中體現(xiàn)目標(biāo)函數(shù)。同時,為保證離散和連續(xù)智能體訓(xùn)練的一致性,離散智能體的獎勵中還應(yīng)包含連續(xù)智能體獲得的獎勵。因此,離散智能體在t時刻獲得的獎勵函數(shù)r1,t設(shè)定為:
69、r1,t=r2,t-f2,t-f3,t
70、式中:r2,t表示連續(xù)動作智能體在t時刻獲得的獎勵;f2,t表示離散智能體在t時刻的網(wǎng)絡(luò)損耗成本;f3,t表示離散智能體在t時刻的開關(guān)操作等效損失成本。
71、(2)連續(xù)動作智能體:
72、①、環(huán)境狀態(tài)空間:連續(xù)智能體所能感知的環(huán)境狀態(tài)o2,t與離散智能體的相同,此處不再贅述。
73、②、動作空間:連續(xù)動作智能體主要用于控制節(jié)點負(fù)荷的切除情況,因此連續(xù)動作智能體的動作空間a2,t為:
74、
75、③、獎勵函數(shù):連續(xù)動作智能體的獎勵函數(shù)r2,t包括負(fù)的連續(xù)智能體動作成本以及動作約束越限懲罰。因此,獎勵函數(shù)設(shè)定為:
76、r2,t=-f1,t-φ
77、式中:f1,t表示連續(xù)動作智能體在t時刻的失電負(fù)荷損失成本;φ代表約束越限懲罰項,當(dāng)任一約束不滿足時,懲罰值為-1000,否則為0。
78、所述步驟3中,不同于其他以最大化智能體動作累計獎勵最大為目標(biāo)的darl,本發(fā)明采用的dasac同時以最大化累計獎勵和策略熵為目標(biāo),從而提升智能體訓(xùn)練過程的探索性能和魯棒性,進(jìn)而避免智能體策略過早收斂于局部最優(yōu)解。由sac-d(soft?actor-criticfor?discrete?action?spaces)和sac(soft?actor-critic)訓(xùn)練離散智能體和連續(xù)動作智能體的目標(biāo)函數(shù)分別為:
79、
80、y∈{1,2}
81、式中:表示智能體y的最優(yōu)策略;表示在策略πy下,所有狀態(tài)sy,t和動作ay,t的分布的期望值;sy,t表示智能體y在t時刻的狀態(tài)空間;ay,t表示智能體y在t時刻的動作空間;ry,t(sy,t,ay,t)表示智能體y在t時刻和sy,t狀態(tài)下,采取動作ay,t所獲得的即時獎勵。
82、表示數(shù)學(xué)期望;y表示智能體編號,當(dāng)y取1時代表離散動作智能體,當(dāng)y取2時代表連續(xù)動作智能體;πy表示智能體y的策略;表示策略πy下軌跡(sy,ay)的分布;hy(·)表示智能體y的策略熵;νy表示策略πy的熵系數(shù),用于平衡獎勵大小和熵的影響程度,值得注意的是當(dāng)νy→0時,sac就退化為傳統(tǒng)最大化回報期望的方法。
83、在傳統(tǒng)的強(qiáng)化學(xué)習(xí)中,最大化期望回報的方法通常是指在沒有考慮策略熵的情況下,通過優(yōu)化策略來最大化累積獎勵。這種方法的目標(biāo)是找到一個最優(yōu)策略,使得在給定狀態(tài)下,智能體能夠采取最優(yōu)動作,從而最大化累積獎勵。對于一個策略π,在給定狀態(tài)st下,傳統(tǒng)強(qiáng)化學(xué)習(xí)的目標(biāo)是最大化從當(dāng)前狀態(tài)開始的期望累積獎勵,即回報。
84、
85、式中:π*表示最優(yōu)策略;表示在策略π下的期望值;表示累積獎勵(回報);γt是t時刻的折扣因子。
86、在本發(fā)明sac中,策略熵項νyhy(πy(i|sy,t))引入了一種激勵,使策略在選擇動作時保持一定的隨機(jī)性,有助于探索未知的狀態(tài)空間。當(dāng)νy→0時,熵項的影響逐漸減小,sac算法就退化為只關(guān)注獎勵最大化的方法,即傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法。
87、離散智能體和連續(xù)動作智能體在sac-d和sac的框架下分別進(jìn)行訓(xùn)練,二者均包含各自的經(jīng)驗池,訓(xùn)練流程包括:
88、首先,定義神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),初始化策略網(wǎng)絡(luò)和q網(wǎng)絡(luò)參數(shù);
89、在sac算法中,策略被表示為一個神經(jīng)網(wǎng)絡(luò),它通過接收當(dāng)前狀態(tài)作為輸入,輸出動作的概率分布。q值函數(shù)也被表示為一個神經(jīng)網(wǎng)絡(luò),它接收當(dāng)前狀態(tài)和動作作為輸入,輸出一個q值。為了減少過估計的風(fēng)險,sac算法使用了兩個q值函數(shù)。因此,sac算法有5個網(wǎng)絡(luò)結(jié)構(gòu),即1個actor網(wǎng)絡(luò)(策略網(wǎng)絡(luò))、2個v?critic網(wǎng)絡(luò)(狀態(tài)價值估計v和target?v網(wǎng)絡(luò))、2個q?critic網(wǎng)絡(luò)(動作-狀態(tài)價值估計q0和q1網(wǎng)絡(luò))。
90、sac-d算法與sac算法在網(wǎng)絡(luò)結(jié)構(gòu)上是一致的,只是策略輸出的動作分別是離散型和連續(xù)型的。因此以sac算法為例,其網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。
91、接著,策略網(wǎng)絡(luò)執(zhí)行當(dāng)前策略,記錄下當(dāng)前狀態(tài)、動作、獎勵和下一狀態(tài)等經(jīng)驗并存入經(jīng)驗池中;
92、然后,更新價值網(wǎng)絡(luò)和策略網(wǎng)絡(luò),繼續(xù)根據(jù)當(dāng)前狀態(tài)和學(xué)習(xí)的策略選擇動作;
93、最后,重復(fù)上述步驟直至收斂。
94、本發(fā)明一種基于dasac的微電網(wǎng)故障恢復(fù)方法,技術(shù)效果如下:
95、1)本發(fā)明提出了一種基于dasac的微電網(wǎng)故障恢復(fù)方法。為了綜合考慮源-荷不確定性的同時實現(xiàn)微電網(wǎng)故障的最優(yōu)恢復(fù),該方法計及dg出力和負(fù)荷需求時變,建立了微電網(wǎng)故障恢復(fù)模型。針對微電網(wǎng)中高比例分布式電源受自然因素影響后具有強(qiáng)隨機(jī)性的問題,將微電網(wǎng)的故障恢復(fù)問題轉(zhuǎn)化為帶約束的非線性規(guī)劃問題,并以微電網(wǎng)故障恢復(fù)成本最小為目標(biāo)構(gòu)建darl模型,為動作空間中不同的動作類型分配離散和連續(xù)的雙智能體進(jìn)行控制。本發(fā)明創(chuàng)新性地提出了一種基于雙智能體柔性動作-評價方法(dasac)的微電網(wǎng)故障恢復(fù)策略,通過分別處理離散和連續(xù)動作,提高了故障恢復(fù)效率,簡化了訓(xùn)練過程,增強(qiáng)了系統(tǒng)的魯棒性和適應(yīng)性。
96、2)針對傳統(tǒng)故障恢復(fù)方法計算速度慢,無法實現(xiàn)故障恢復(fù)實時控制的問題,本發(fā)明提出一種dasac方法對darl模型進(jìn)行高效地自適應(yīng)訓(xùn)練學(xué)習(xí),提高故障恢復(fù)效率以滿足微電網(wǎng)運行的需求。
97、3)本發(fā)明所提微電網(wǎng)故障恢復(fù)模型能夠有效降低故障恢復(fù)損失,所提dasac算法能顯著降低決策時間,可靠學(xué)習(xí)到最優(yōu)故障恢復(fù)策略,且相較于其他方法,本發(fā)明所提故障恢復(fù)方法的恢復(fù)性能更加優(yōu)異。