本發(fā)明提出了一種面向配電網(wǎng)與微網(wǎng)群運(yùn)行優(yōu)化方法、系統(tǒng)及相關(guān)裝置,屬于電網(wǎng)優(yōu)化。
背景技術(shù):
1、隨著高比例可再生能源持續(xù)接入電網(wǎng),受電網(wǎng)容量的限制以及能源需求不匹配的影響,棄風(fēng)棄光現(xiàn)象常有發(fā)生。為提高系統(tǒng)運(yùn)行的經(jīng)濟(jì)性,微網(wǎng)技術(shù)應(yīng)運(yùn)而生。作為促進(jìn)可再生能源消納和提升電力系統(tǒng)可靠性的有效手段,近年來(lái)微電網(wǎng)日益發(fā)展,其內(nèi)部通常為新能源發(fā)電設(shè)備、儲(chǔ)能、負(fù)荷和熱電聯(lián)產(chǎn)等多種能源耦合,能實(shí)現(xiàn)對(duì)能源的綜合調(diào)控和互補(bǔ)利用。大量分布式能源以微網(wǎng)形式接入配電網(wǎng)使得配網(wǎng)潮流不再是單一的從首端流向末端,而是隨著源荷情況變化,這可能引起功率反向流動(dòng),從而造成電壓波動(dòng)甚至越限問(wèn)題。因此,充分發(fā)揮多微網(wǎng)-配電網(wǎng)內(nèi)的各種靈活性調(diào)控資源,實(shí)現(xiàn)有功-無(wú)功的協(xié)調(diào)優(yōu)化對(duì)于系統(tǒng)的經(jīng)濟(jì)可靠運(yùn)行至關(guān)重要。
2、隨著越來(lái)越多的微電網(wǎng)接入配電網(wǎng),其調(diào)度優(yōu)化也面臨著諸多挑戰(zhàn)。含多微網(wǎng)的配電網(wǎng)有功無(wú)功協(xié)調(diào)優(yōu)化問(wèn)題本質(zhì)上屬于大規(guī)?;旌险麛?shù)非線性規(guī)劃問(wèn)題,面臨模型非凸,維數(shù)高,求解復(fù)雜等挑戰(zhàn)。傳統(tǒng)集中式優(yōu)化方法依賴于精確的分布系統(tǒng)建模以及完全的信息交互,而配電網(wǎng)與微網(wǎng)隸屬于不同的利益主體,它們之間難以實(shí)現(xiàn)信息的完全共享,難以實(shí)施集中式調(diào)控。含多微網(wǎng)的配電網(wǎng)呈現(xiàn)出多區(qū)域、多利益主體的特點(diǎn),與分布式優(yōu)化的機(jī)理契合,然而由于離散變量設(shè)備的存在,傳統(tǒng)分布式方法對(duì)于非凸模型難以有效收斂,并且隨著問(wèn)題規(guī)模的擴(kuò)大,自治運(yùn)行主體顯著增多,求解時(shí)間長(zhǎng)難以在線應(yīng)用且算法收斂性差。因此如何提高含多微網(wǎng)的配電網(wǎng)分布式優(yōu)化計(jì)算的實(shí)時(shí)性和解的最優(yōu)性成為亟需解決的熱點(diǎn)問(wèn)題。
3、近年來(lái),有學(xué)者開始嘗試依靠無(wú)模型的數(shù)據(jù)驅(qū)動(dòng)方法來(lái)解決上述問(wèn)題?;跀?shù)據(jù)驅(qū)動(dòng)的多智能體深度方法能夠用于解決多主體信息不完全交互以及模型非凸等問(wèn)題,具有較好的自適應(yīng)能力解決解決可再生能源波動(dòng)問(wèn)題,并利用可量測(cè)數(shù)據(jù)訓(xùn)練多智能體模型,實(shí)現(xiàn)在線最優(yōu)決策。然而,含多微網(wǎng)的配電網(wǎng)由于主體規(guī)模較大且微網(wǎng)內(nèi)設(shè)備復(fù)雜,導(dǎo)致變量繁多,智能體的輸入維度會(huì)隨著各智能體的動(dòng)作、觀測(cè)量以及智能體數(shù)量等呈指數(shù)增長(zhǎng),造成多智能體算法在訓(xùn)練過(guò)程中的收斂速度緩慢甚至不收斂等問(wèn)題。如何在智能體高維輸入的情況下加速智能體的收斂是目前值得研究的問(wèn)題。
4、此外,針對(duì)有功-無(wú)功的協(xié)調(diào)優(yōu)化,通常會(huì)采用網(wǎng)絡(luò)重構(gòu)以及投切設(shè)備以改善系統(tǒng)的潮流分布,這會(huì)使得配電網(wǎng)的運(yùn)行工況不再一成不變,而是處于動(dòng)態(tài)變化之中。然而,神經(jīng)網(wǎng)絡(luò)的泛化能力有限,無(wú)法僅訓(xùn)練一種多智能體模型,以滿足不同配電網(wǎng)運(yùn)行工況下的決策需求。通過(guò)試錯(cuò)機(jī)制重新訓(xùn)練智能體模型是非常耗時(shí)的,在訓(xùn)練期間智能體難以進(jìn)行最優(yōu)決策。因此如何在現(xiàn)有多智能體模型的基礎(chǔ)上快速訓(xùn)練出適用新場(chǎng)景的模型并用于實(shí)時(shí)決策是值得思考的方向。
5、綜上所述,多微網(wǎng)群運(yùn)行優(yōu)化研究涉及混合整數(shù)規(guī)劃模型的非凸求解困難、規(guī)?;悄荏w場(chǎng)景下算法收斂性差以及運(yùn)行工況發(fā)生改變泛化性差等問(wèn)題,使模型的高效求解遇到巨大挑戰(zhàn)。
技術(shù)實(shí)現(xiàn)思路
1、為了解決現(xiàn)有技術(shù)中存在的問(wèn)題,本發(fā)明提出一種面向配電網(wǎng)與微網(wǎng)群運(yùn)行優(yōu)化方法、系統(tǒng)及相關(guān)裝置,該方法實(shí)現(xiàn)面向配電網(wǎng)與微網(wǎng)群的智能體加速訓(xùn)練以及優(yōu)化運(yùn)行決策。
2、為了解決上述技術(shù)問(wèn)題,本發(fā)明采用的技術(shù)方案為:
3、第一方面,本發(fā)明提供一種面向配電網(wǎng)與微網(wǎng)群運(yùn)行優(yōu)化方法,包括:
4、將預(yù)先訓(xùn)練的多智能體優(yōu)化模型部署于電網(wǎng)環(huán)境中,并作用于電網(wǎng)環(huán)境,將電網(wǎng)環(huán)境反饋的狀態(tài)空間和獎(jiǎng)勵(lì)輸入至預(yù)先訓(xùn)練的多智能體優(yōu)化模型中,輸出對(duì)應(yīng)智能體的動(dòng)作空間,將所述動(dòng)作空間作為配電網(wǎng)與微網(wǎng)群運(yùn)行優(yōu)化調(diào)度結(jié)果;所述預(yù)先訓(xùn)練的多智能體模型的訓(xùn)練過(guò)程包括:
5、微網(wǎng)智能體和配電網(wǎng)智能體根據(jù)狀態(tài)空間通過(guò)試錯(cuò)機(jī)制進(jìn)行隨機(jī)動(dòng)作,并作用于電網(wǎng)環(huán)境,獲取電網(wǎng)環(huán)境通過(guò)計(jì)算潮流反饋的相應(yīng)的獎(jiǎng)勵(lì),基于多智能體模型強(qiáng)化學(xué)習(xí)方法進(jìn)行訓(xùn)練,得到基于策略強(qiáng)化的多智能體模型,并輸出當(dāng)前時(shí)刻狀態(tài);
6、以當(dāng)前時(shí)刻狀態(tài)和動(dòng)作作為輸入,通過(guò)深度神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)模型進(jìn)行訓(xùn)練,得到基于模型算法的智能體模型,并輸出下一時(shí)刻電網(wǎng)運(yùn)行狀態(tài)和獎(jiǎng)勵(lì)作;
7、將下一時(shí)刻電網(wǎng)運(yùn)行狀態(tài)和獎(jiǎng)勵(lì)輸入至所述基于策略強(qiáng)化的多智能體模型,指導(dǎo)策略強(qiáng)化的多智能體模型進(jìn)行參數(shù)的更新;循環(huán)往復(fù)訓(xùn)練,直到指導(dǎo)策略強(qiáng)化的多智能體模型收斂,將最終得到基于策略強(qiáng)化的多智能體模型作為所述預(yù)先訓(xùn)練的多智能體優(yōu)化模型。
8、作為本發(fā)明進(jìn)一步改進(jìn),所述微網(wǎng)智能體包括新能源設(shè)備、燃?xì)廨啓C(jī)、燃?xì)忮仩t、電轉(zhuǎn)氣設(shè)備和電儲(chǔ)能;
9、所述微網(wǎng)智能體的狀態(tài)空間用于表征環(huán)境的狀態(tài)信息,包含智能體決策所需的信息,狀態(tài)信息包括當(dāng)前時(shí)間可再生能源發(fā)電功率、有功負(fù)荷、無(wú)功負(fù)荷、熱負(fù)荷、分時(shí)購(gòu)電電價(jià)、分時(shí)售電電價(jià)、氣價(jià)、公共耦合節(jié)點(diǎn)電壓,燃?xì)廨啓C(jī)的輸出的有功功率、無(wú)功功率以及熱功率,燃?xì)忮仩t輸出的熱功率,電轉(zhuǎn)氣產(chǎn)出的天然氣能量,電儲(chǔ)能的儲(chǔ)能容量,及當(dāng)前時(shí)段的設(shè)備運(yùn)行狀況;
10、微網(wǎng)智能體的動(dòng)作包括:從上層配電網(wǎng)的購(gòu)售電量,購(gòu)氣量,燃?xì)廨啓C(jī)的輸出的有功功率、無(wú)功功率以及熱功率,燃?xì)忮仩t輸出的熱功率,電轉(zhuǎn)氣產(chǎn)出的天然氣能量,電儲(chǔ)能的充放電功率,及新能源輸出的無(wú)功功率。
11、作為本發(fā)明進(jìn)一步改進(jìn),所述微網(wǎng)智能體的優(yōu)化目標(biāo)是各微網(wǎng)為實(shí)現(xiàn)自身利益的最大化,控制從上層電網(wǎng)的購(gòu)售電量以及內(nèi)部設(shè)備的動(dòng)作,使得微網(wǎng)在滿足內(nèi)部負(fù)荷需求的情況下,運(yùn)行成本最低;
12、所述微網(wǎng)智能體的優(yōu)化目標(biāo)的約束條件包括:微型燃?xì)廨啓C(jī)約束,燃?xì)忮仩t約束,電轉(zhuǎn)氣設(shè)備約束,電儲(chǔ)能設(shè)備約束,可再生能源約束,功率平衡約束,節(jié)點(diǎn)電壓約束。
13、作為本發(fā)明進(jìn)一步改進(jìn),所述配電網(wǎng)智能體包括:靜止無(wú)功補(bǔ)償智能體與電容器智能體,狀態(tài)空間包括可觀測(cè)全網(wǎng)的電壓狀況以及設(shè)備工況;
14、所述配電網(wǎng)智能體的動(dòng)作空間包括靜止無(wú)功補(bǔ)償智能體動(dòng)作為輸出的無(wú)功功率,電容器智能體動(dòng)作為投切電容器組的數(shù)量。
15、作為本發(fā)明進(jìn)一步改進(jìn),所述配電網(wǎng)智能體的優(yōu)化目標(biāo)以無(wú)功設(shè)備運(yùn)行成本以及配電網(wǎng)網(wǎng)損最小化為目標(biāo)進(jìn)行建模,
16、所述配電網(wǎng)智能體的優(yōu)化目標(biāo)的約束條件包括:靜止無(wú)功補(bǔ)償器約束,電容器約束;節(jié)點(diǎn)功率平衡約束;線路功率約束,及電壓約束。
17、作為本發(fā)明進(jìn)一步改進(jìn),所述循環(huán)往復(fù)訓(xùn)練,直到指導(dǎo)策略強(qiáng)化的多智能體模型收斂,具體包括:
18、s101,構(gòu)建行動(dòng)者和評(píng)論家神經(jīng)網(wǎng)絡(luò),并初始化神經(jīng)網(wǎng)絡(luò)參數(shù):構(gòu)建配電網(wǎng)及微網(wǎng)群協(xié)同優(yōu)化多智能體;初始化狀態(tài)空間、動(dòng)作空間以及獎(jiǎng)勵(lì)函數(shù),并從狀態(tài)空間初始化含多微網(wǎng)的配電網(wǎng)系統(tǒng)的狀態(tài);
19、s102,訓(xùn)練循環(huán)開始,各智能體基于當(dāng)前的狀態(tài)給出當(dāng)前時(shí)間斷面的調(diào)度動(dòng)作,并下發(fā)至配電網(wǎng)環(huán)境;
20、s103,將每一輪的經(jīng)驗(yàn)數(shù)據(jù)存儲(chǔ)至經(jīng)驗(yàn)回放單元;
21、s104,從經(jīng)驗(yàn)回放單元中批量抽取多組樣本進(jìn)行訓(xùn)練,樣本經(jīng)過(guò)深度學(xué)習(xí)構(gòu)建電網(wǎng)環(huán)境模塊中電網(wǎng)環(huán)境模型,直接輸出下一時(shí)刻狀態(tài)和對(duì)應(yīng)獎(jiǎng)勵(lì),然后再結(jié)合多智能體強(qiáng)化學(xué)習(xí)算法,分別更新估值評(píng)論家網(wǎng)絡(luò)和估值行動(dòng)者網(wǎng)絡(luò)的參數(shù),目標(biāo)評(píng)論家網(wǎng)絡(luò)和目標(biāo)行動(dòng)者網(wǎng)絡(luò)均采取軟更新方式定期從估值網(wǎng)絡(luò)拷貝參數(shù),進(jìn)行訓(xùn)練;
22、s105,判斷指導(dǎo)策略強(qiáng)化的多智能體模型收斂是否收斂,若不收斂,則返回s102;若收斂,則將最終得到基于策略強(qiáng)化的多智能體模型作為所述預(yù)先訓(xùn)練的多智能體優(yōu)化模型。
23、作為本發(fā)明進(jìn)一步改進(jìn),所述將預(yù)先訓(xùn)練的多智能體優(yōu)化模型部署于電網(wǎng)環(huán)境中,還包括當(dāng)電網(wǎng)的運(yùn)行工況發(fā)生變化時(shí),采用遷移學(xué)習(xí)方法遷移預(yù)先訓(xùn)練的多智能體優(yōu)化模型的參數(shù),遷移完成,進(jìn)行自主隨機(jī)訓(xùn)練。
24、作為本發(fā)明進(jìn)一步改進(jìn),所述采用遷移學(xué)習(xí)方法遷移預(yù)先訓(xùn)練的多智能體優(yōu)化模型的參數(shù),遷移完成,進(jìn)行自主隨機(jī)訓(xùn)練,包括:
25、根據(jù)節(jié)點(diǎn)導(dǎo)納矩陣表征網(wǎng)絡(luò)的拓?fù)溥B接關(guān)系,利用節(jié)點(diǎn)導(dǎo)納矩陣的相似度判斷是否進(jìn)行遷移;
26、若相似度滿足預(yù)設(shè)條件,則執(zhí)行下一步;否則不遷移,直接采用隨機(jī)方式進(jìn)行訓(xùn)練;
27、采用遷移學(xué)習(xí)方法,遷移多智能體模型的參數(shù),使得新運(yùn)行工況下智能體策略分布會(huì)越來(lái)越接近源智能體;
28、遷移完成,采用隨機(jī)方式進(jìn)行訓(xùn)練。
29、作為本發(fā)明進(jìn)一步改進(jìn),所述根據(jù)節(jié)點(diǎn)導(dǎo)納矩陣表征網(wǎng)絡(luò)的拓?fù)溥B接關(guān)系,利用節(jié)點(diǎn)導(dǎo)納矩陣的相似度判斷是否進(jìn)行遷移,具體包括:
30、根據(jù)源網(wǎng)絡(luò)參數(shù)與目標(biāo)網(wǎng)絡(luò)參數(shù)生成兩個(gè)節(jié)點(diǎn)導(dǎo)納矩陣;
31、計(jì)算兩個(gè)節(jié)點(diǎn)導(dǎo)納矩陣的特征值;
32、利用余弦相似性作為判據(jù),判斷是否進(jìn)行策略遷移:余弦值越接近1,夾角越接近0度,則源網(wǎng)絡(luò)與目標(biāo)網(wǎng)絡(luò)的工況變化相似度越高。
33、作為本發(fā)明進(jìn)一步改進(jìn),判斷是否進(jìn)行策略遷移之后還包括:
34、將隨機(jī)訓(xùn)練的智能體初始獎(jiǎng)勵(lì)值與遷移后的初始獎(jiǎng)勵(lì)值之差作為量化指標(biāo),結(jié)合余弦相似性進(jìn)行雙重判斷是否遷移成功。
35、作為本發(fā)明進(jìn)一步改進(jìn),所述微網(wǎng)智能體包括新能源設(shè)備、燃?xì)廨啓C(jī)、燃?xì)忮仩t、電轉(zhuǎn)氣設(shè)備和電儲(chǔ)能;
36、所述微網(wǎng)智能體的狀態(tài)空間用于表征環(huán)境的狀態(tài)信息,包含智能體決策所需的信息,狀態(tài)信息包括當(dāng)前時(shí)間可再生能源發(fā)電功率、有功負(fù)荷、無(wú)功負(fù)荷、熱負(fù)荷、分時(shí)購(gòu)電電價(jià)、分時(shí)售電電價(jià)、氣價(jià)、公共耦合節(jié)點(diǎn)電壓,燃?xì)廨啓C(jī)的輸出的有功功率、無(wú)功功率以及熱功率,燃?xì)忮仩t輸出的熱功率,電轉(zhuǎn)氣產(chǎn)出的天然氣能量,電儲(chǔ)能的儲(chǔ)能容量,及當(dāng)前時(shí)段的設(shè)備運(yùn)行狀況;
37、微網(wǎng)智能體的動(dòng)作包括:從上層配電網(wǎng)的購(gòu)售電量,購(gòu)氣量,燃?xì)廨啓C(jī)的輸出的有功功率、無(wú)功功率以及熱功率,燃?xì)忮仩t輸出的熱功率,電轉(zhuǎn)氣產(chǎn)出的天然氣能量,電儲(chǔ)能的充放電功率,及新能源輸出的無(wú)功功率。
38、作為本發(fā)明進(jìn)一步改進(jìn),所述微網(wǎng)智能體的優(yōu)化目標(biāo)是各微網(wǎng)為實(shí)現(xiàn)自身利益的最大化,控制從上層電網(wǎng)的購(gòu)售電量以及內(nèi)部設(shè)備的動(dòng)作,使得微網(wǎng)在滿足內(nèi)部負(fù)荷需求的情況下,運(yùn)行成本最低;優(yōu)化目標(biāo)的約束條件包括:微型燃?xì)廨啓C(jī)約束,燃?xì)忮仩t約束,電轉(zhuǎn)氣設(shè)備約束,電儲(chǔ)能設(shè)備約束,可再生能源約束,功率平衡約束,節(jié)點(diǎn)電壓約束。
39、作為本發(fā)明進(jìn)一步改進(jìn),所述配電網(wǎng)智能體包括:靜止無(wú)功補(bǔ)償智能體與電容器智能體,狀態(tài)空間包括可觀測(cè)全網(wǎng)的電壓狀況以及設(shè)備工況;
40、所述配電網(wǎng)智能體的動(dòng)作空間包括靜止無(wú)功補(bǔ)償智能體動(dòng)作為輸出的無(wú)功功率,電容器智能體動(dòng)作為投切電容器組的數(shù)量。
41、作為本發(fā)明進(jìn)一步改進(jìn),所述配電網(wǎng)智能體的優(yōu)化目標(biāo)以無(wú)功設(shè)備運(yùn)行成本以及配電網(wǎng)網(wǎng)損最小化為目標(biāo)進(jìn)行建模,約束條件包括:靜止無(wú)功補(bǔ)償器約束,電容器約束;節(jié)點(diǎn)功率平衡約束;線路功率約束,及電壓約束。
42、作為本發(fā)明進(jìn)一步改進(jìn),所述循環(huán)往復(fù)訓(xùn)練,直到指導(dǎo)策略強(qiáng)化的多智能體模型收斂,具體包括:
43、s101,構(gòu)建行動(dòng)者和評(píng)論家神經(jīng)網(wǎng)絡(luò),并初始化神經(jīng)網(wǎng)絡(luò)參數(shù):構(gòu)建配電網(wǎng)及微網(wǎng)群協(xié)同優(yōu)化多智能體;初始化狀態(tài)空間、動(dòng)作空間以及獎(jiǎng)勵(lì)函數(shù),并從狀態(tài)空間初始化含多微網(wǎng)的配電網(wǎng)系統(tǒng)的狀態(tài);
44、s102,訓(xùn)練循環(huán)開始,各智能體基于當(dāng)前的狀態(tài)給出當(dāng)前時(shí)間斷面的調(diào)度動(dòng)作,并下發(fā)至配電網(wǎng)環(huán)境;
45、s103,將每一輪的經(jīng)驗(yàn)數(shù)據(jù)存儲(chǔ)至經(jīng)驗(yàn)回放單元;
46、s104,從經(jīng)驗(yàn)回放單元中批量抽取多組樣本進(jìn)行訓(xùn)練,樣本經(jīng)過(guò)深度學(xué)習(xí)構(gòu)建電網(wǎng)環(huán)境模塊中電網(wǎng)環(huán)境模型,直接輸出下一時(shí)刻狀態(tài)和對(duì)應(yīng)獎(jiǎng)勵(lì),然后再結(jié)合多智能體強(qiáng)化學(xué)習(xí)算法,分別更新估值評(píng)論家網(wǎng)絡(luò)和估值行動(dòng)者網(wǎng)絡(luò)的參數(shù),目標(biāo)評(píng)論家網(wǎng)絡(luò)和目標(biāo)行動(dòng)者網(wǎng)絡(luò)均采取軟更新方式定期從估值網(wǎng)絡(luò)拷貝參數(shù),進(jìn)行訓(xùn)練;
47、s105,判斷指導(dǎo)策略強(qiáng)化的多智能體模型收斂是否收斂,若不收斂,則返回s102;若收斂,則將最終得到基于策略強(qiáng)化的多智能體模型作為所述預(yù)先訓(xùn)練的多智能體優(yōu)化模型。
48、作為本發(fā)明進(jìn)一步改進(jìn),所述將預(yù)先訓(xùn)練的多智能體優(yōu)化模型部署于電網(wǎng)環(huán)境中,還包括當(dāng)電網(wǎng)的運(yùn)行工況發(fā)生變化時(shí),采用遷移學(xué)習(xí)方法遷移預(yù)先訓(xùn)練的多智能體優(yōu)化模型的參數(shù),遷移完成,進(jìn)行自主隨機(jī)訓(xùn)練。
49、作為本發(fā)明進(jìn)一步改進(jìn),所述采用遷移學(xué)習(xí)方法遷移預(yù)先訓(xùn)練的多智能體優(yōu)化模型的參數(shù),遷移完成,進(jìn)行自主隨機(jī)訓(xùn)練,包括:
50、根據(jù)節(jié)點(diǎn)導(dǎo)納矩陣表征網(wǎng)絡(luò)的拓?fù)溥B接關(guān)系,利用節(jié)點(diǎn)導(dǎo)納矩陣的相似度判斷是否進(jìn)行遷移;
51、若相似度較高,則執(zhí)行下一步;否則不遷移,直接采用隨機(jī)方式進(jìn)行訓(xùn)練;
52、采用遷移學(xué)習(xí)方法,遷移多智能體模型的參數(shù),使得新運(yùn)行工況下智能體策略分布會(huì)越來(lái)越接近源智能體;
53、遷移完成,采用隨機(jī)方式進(jìn)行訓(xùn)練。
54、作為本發(fā)明進(jìn)一步改進(jìn),所述節(jié)點(diǎn)導(dǎo)納矩陣能表征網(wǎng)絡(luò)的拓?fù)溥B接關(guān)系,利用節(jié)點(diǎn)導(dǎo)納矩陣的相似度判斷是否進(jìn)行遷移,具體包括:
55、根據(jù)源網(wǎng)絡(luò)參數(shù)與目標(biāo)網(wǎng)絡(luò)參數(shù)生成兩個(gè)節(jié)點(diǎn)導(dǎo)納矩陣;
56、計(jì)算兩個(gè)節(jié)點(diǎn)導(dǎo)納矩陣的特征值;
57、利用余弦相似性作為判據(jù),判斷是否進(jìn)行策略遷移:余弦值越接近1,夾角越接近0度,則源網(wǎng)絡(luò)與目標(biāo)網(wǎng)絡(luò)的工況變化相似度越高。
58、作為本發(fā)明進(jìn)一步改進(jìn),判斷是否進(jìn)行策略遷移之后還包括:
59、將隨機(jī)訓(xùn)練的智能體初始獎(jiǎng)勵(lì)值與遷移后的初始獎(jiǎng)勵(lì)值之差作為量化指標(biāo),結(jié)合余弦相似性進(jìn)行雙重判斷是否遷移成功。
60、第二方面,本發(fā)明提供一種面向配電網(wǎng)與微網(wǎng)群運(yùn)行優(yōu)化系統(tǒng),包括:
61、部署調(diào)度模塊,用于將預(yù)先訓(xùn)練的多智能體優(yōu)化模型部署于電網(wǎng)環(huán)境中,并作用于電網(wǎng)環(huán)境,將電網(wǎng)環(huán)境反饋的狀態(tài)空間和獎(jiǎng)勵(lì)輸入至預(yù)先訓(xùn)練的多智能體優(yōu)化模型中,輸出對(duì)應(yīng)智能體的動(dòng)作空間,將所述動(dòng)作空間作為配電網(wǎng)與微網(wǎng)群運(yùn)行優(yōu)化調(diào)度結(jié)果;
62、多智能體訓(xùn)練模塊,用于訓(xùn)練所述預(yù)先訓(xùn)練的多智能體模型,訓(xùn)練過(guò)程包括:
63、微網(wǎng)智能體和配電網(wǎng)智能體根據(jù)狀態(tài)空間通過(guò)試錯(cuò)機(jī)制進(jìn)行隨機(jī)動(dòng)作,并作用于電網(wǎng)環(huán)境,獲取電網(wǎng)環(huán)境通過(guò)計(jì)算潮流反饋的相應(yīng)的獎(jiǎng)勵(lì),基于多智能體模型強(qiáng)化學(xué)習(xí)方法進(jìn)行訓(xùn)練,得到基于策略強(qiáng)化的多智能體模型,并輸出當(dāng)前時(shí)刻狀態(tài);
64、以當(dāng)前時(shí)刻狀態(tài)和動(dòng)作作為輸入,通過(guò)深度神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)模型進(jìn)行訓(xùn)練,得到基于模型算法的智能體模型,并輸出下一時(shí)刻電網(wǎng)運(yùn)行狀態(tài)和獎(jiǎng)勵(lì)作;
65、將下一時(shí)刻電網(wǎng)運(yùn)行狀態(tài)和獎(jiǎng)勵(lì)輸入至所述基于策略強(qiáng)化的多智能體模型,指導(dǎo)策略強(qiáng)化的多智能體模型進(jìn)行參數(shù)的更新;循環(huán)往復(fù)訓(xùn)練,直到指導(dǎo)策略強(qiáng)化的多智能體模型收斂,將最終得到基于策略強(qiáng)化的多智能體模型作為所述預(yù)先訓(xùn)練的多智能體優(yōu)化模型。
66、第三方面,本發(fā)明提供一種電子設(shè)備,包括存儲(chǔ)器、處理器以及存儲(chǔ)在所述存儲(chǔ)器中并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)所述面向配電網(wǎng)與微網(wǎng)群運(yùn)行優(yōu)化方法。
67、第四方面,本發(fā)明提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)所述面向配電網(wǎng)與微網(wǎng)群運(yùn)行優(yōu)化方法。
68、第五方面,本發(fā)明提供一種計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)程序產(chǎn)品包括計(jì)算機(jī)指令,所述計(jì)算機(jī)指令指示計(jì)算機(jī)執(zhí)行所述面向配電網(wǎng)與微網(wǎng)群運(yùn)行優(yōu)化方法。
69、本發(fā)明相對(duì)于現(xiàn)有技術(shù)具備的有益效果為:
70、本發(fā)明提出一種面向多微網(wǎng)群運(yùn)行優(yōu)化的深度強(qiáng)化學(xué)習(xí)加速方法,充分發(fā)揮機(jī)器學(xué)習(xí)人工智能算法在多主體優(yōu)化運(yùn)行方面的優(yōu)勢(shì),實(shí)現(xiàn)在大規(guī)模、變工況情況下智能體的加速訓(xùn)練以及在線最優(yōu)決策。提出了基于多智能體深度強(qiáng)化學(xué)習(xí)的含多微網(wǎng)的配電網(wǎng)有功無(wú)功協(xié)同優(yōu)化加速方法。在多智能體深度強(qiáng)化學(xué)習(xí)框架中引入模型學(xué)習(xí),有效緩解了高維狀態(tài)-動(dòng)作場(chǎng)景下,因維數(shù)爆炸導(dǎo)致的模型難以收斂的問(wèn)題,加速了智能體的訓(xùn)練過(guò)程。提出了基于遷移學(xué)習(xí)方法的配電網(wǎng)與微網(wǎng)群變工況加速訓(xùn)練方法。針對(duì)源網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)相似度較高的場(chǎng)景下,基于離線訓(xùn)練的多智能體模型,通過(guò)采用策略遷移的方式加速了多智能體的收斂過(guò)程。本發(fā)明可以廣泛應(yīng)用于含多微網(wǎng)的配電網(wǎng)系統(tǒng),利用多智能體強(qiáng)化學(xué)習(xí)的自適應(yīng)能力、可遷移能力以及決策能力,有效促進(jìn)可再生能源的消納,在抑制電壓越限的同時(shí),提高系統(tǒng)運(yùn)行效率。