1.基于dasac的微電網(wǎng)故障恢復(fù)方法,其特征在于包括以下步驟:
2.根據(jù)權(quán)利要求1所述基于dasac的微電網(wǎng)故障恢復(fù)方法,其特征在于:所述步驟1中,為了綜合考慮源-荷不確定性的同時實現(xiàn)微電網(wǎng)故障恢復(fù)過程成本最小化,計及dg出力和負(fù)荷需求時變,建立微電網(wǎng)故障恢復(fù)模型,具體包括:
3.根據(jù)權(quán)利要求2所述基于dasac的微電網(wǎng)故障恢復(fù)方法,其特征在于:構(gòu)建故障恢復(fù)模型約束條件:
4.根據(jù)權(quán)利要求1所述基于dasac的微電網(wǎng)故障恢復(fù)方法,其特征在于:所述步驟2中,darl是兩個智能體在與環(huán)境的感知和交互過程中通過動作學(xué)習(xí)以期獲得各自最大回報、實現(xiàn)特定目標(biāo)的過程,用(s,oi,ai,pi,ri,γi)表示;其中:s表示所有的環(huán)境狀態(tài)空間;oi表示智能體i所能感知的局部狀態(tài)空間;ai表示智能體i的動作空間;pi:s×ai×s→[0,1]表示智能體i的狀態(tài)轉(zhuǎn)移概率;ri:s×ai→ri表示智能體動作后獲得的獎勵;γi∈[0,1)表示折扣因子,用來調(diào)節(jié)近、遠期獎勵對不同智能體當(dāng)下決策的影響程度。
5.根據(jù)權(quán)利要求4所述基于dasac的微電網(wǎng)故障恢復(fù)方法,其特征在于:微電網(wǎng)恢復(fù)過程包括網(wǎng)絡(luò)拓?fù)渲貥?gòu)及節(jié)點切負(fù)荷兩個問題;其中,網(wǎng)絡(luò)拓?fù)渲貥?gòu)用開關(guān)狀態(tài)來表示,屬于離散動作求解問題;而節(jié)點切負(fù)荷問題屬于連續(xù)動作求解問題;
6.根據(jù)權(quán)利要求1所述基于dasac的微電網(wǎng)故障恢復(fù)方法,其特征在于:所述步驟3中,采用的dasac同時以最大化累計獎勵和策略熵為目標(biāo),訓(xùn)練離散智能體和連續(xù)動作智能體的目標(biāo)函數(shù)分別為:
7.根據(jù)權(quán)利要求6所述基于dasac的微電網(wǎng)故障恢復(fù)方法,其特征在于:離散智能體和連續(xù)動作智能體在sac-d和sac的框架下分別進行訓(xùn)練,二者均包含各自的經(jīng)驗池,訓(xùn)練流程包括: