本公開實施例涉及人工智能和電力電網(wǎng)調(diào)度,尤其涉及基于pso和ddpg算法并行訓(xùn)練的電力網(wǎng)絡(luò)經(jīng)濟(jì)調(diào)度方法。
背景技術(shù):
1、在社會經(jīng)濟(jì)蓬勃發(fā)展的大環(huán)境下,電力系統(tǒng)作為基礎(chǔ)設(shè)施的核心構(gòu)成之一,對推動可持續(xù)發(fā)展起著至關(guān)重要的作用。隨著現(xiàn)代工業(yè)電力需求激增和新能源并網(wǎng)比例提升,電力網(wǎng)絡(luò)的不穩(wěn)定性和復(fù)雜性不斷攀升,傳統(tǒng)電力能源調(diào)度方法難以滿足當(dāng)前電力系統(tǒng)的對穩(wěn)定性、經(jīng)濟(jì)性的需求。特別是電力市場逐步開放、電力交易日漸頻繁的背景下引發(fā)的較大市場化變動,如何在保證輸電網(wǎng)穩(wěn)定、安全的同時,優(yōu)化發(fā)電資源配置、減少發(fā)電端經(jīng)濟(jì)支出、提升發(fā)電輸電經(jīng)濟(jì)效益,成為了亟待攻克的難關(guān)。
2、目前,對于大電網(wǎng)的電力網(wǎng)絡(luò)經(jīng)濟(jì)調(diào)度研究主要遇到的問題是數(shù)據(jù)量大,采集運算的時間周期長,難以實時反映電網(wǎng)運行情況從而使實現(xiàn)經(jīng)濟(jì)調(diào)度變得困難。電力系統(tǒng)經(jīng)濟(jì)調(diào)度是一個高維、非凸、非線性的有約束優(yōu)化問題,因此對該問題的求解尤其困難。我國電力系統(tǒng)長期堅持集中調(diào)度,集中調(diào)度將使電力系統(tǒng)經(jīng)濟(jì)調(diào)度的求解更加困難,亟需找出一種大電網(wǎng)經(jīng)濟(jì)調(diào)度求解的有效方法。
技術(shù)實現(xiàn)思路
1、為了避免現(xiàn)有技術(shù)的不足之處,本技術(shù)提供一種基于pso和ddpg算法并行訓(xùn)練的電力網(wǎng)絡(luò)經(jīng)濟(jì)調(diào)度方法,用以解決現(xiàn)有技術(shù)中存在智能電網(wǎng)面臨著非線性優(yōu)化難題,受多種不確定性因素制約,求解復(fù)雜度高的問題。
2、根據(jù)本公開實施例,提供一種基于pso和ddpg算法并行訓(xùn)練的電力網(wǎng)絡(luò)經(jīng)濟(jì)調(diào)度方法,該方法包括:
3、利用電力網(wǎng)絡(luò)拓?fù)淠P头謩e獲取鏈接拓?fù)湫畔ⅰ⒕€路參數(shù)信息和線性及非線性約束,并基于所述鏈接拓?fù)湫畔?、所述線路參數(shù)信息和所述線性及非線性約束,構(gòu)建電網(wǎng)拓?fù)洵h(huán)境;
4、分別獲取所述電網(wǎng)拓?fù)洵h(huán)境中的動作空間和狀態(tài)空間;
5、構(gòu)建整體的獎勵函數(shù);其中,所述整體的電力網(wǎng)絡(luò)系統(tǒng)環(huán)境獎勵包括電力網(wǎng)絡(luò)系統(tǒng)的環(huán)境獎勵和經(jīng)濟(jì)負(fù)獎勵;
6、利用所述獎勵函數(shù)、所述動作空間和所述狀態(tài)空間初始化初始ddpg智能體,并初始定義初始超參數(shù);
7、利用pso算法優(yōu)化ddpg算法中策略網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò)層數(shù)和每層神經(jīng)元個數(shù),以得到策略網(wǎng)絡(luò)模型;
8、利用所述pso算法優(yōu)化所述初始超參數(shù),以得到適應(yīng)所述策略網(wǎng)絡(luò)模型的目標(biāo)超參數(shù);
9、以所述策略網(wǎng)絡(luò)模型作為所述初始ddpg智能體的策略網(wǎng)絡(luò),并利用所述目標(biāo)超參數(shù)并行訓(xùn)練所述初始ddpg智能體,以得到訓(xùn)練好的目標(biāo)ddpg智能體;
10、輸入當(dāng)前電力網(wǎng)絡(luò)環(huán)境狀態(tài)至訓(xùn)練好的所述目標(biāo)ddpg智能體中,以得到調(diào)度結(jié)果。
11、進(jìn)一步的,該方法還包括:
12、獲取基準(zhǔn)容量basemva,并以所述基準(zhǔn)容量basemva作為電力網(wǎng)絡(luò)調(diào)度的計量基準(zhǔn),以標(biāo)幺化數(shù)據(jù)。
13、進(jìn)一步的,利用電力網(wǎng)絡(luò)拓?fù)淠P头謩e獲取鏈接拓?fù)湫畔?、線路參數(shù)信息和線性及非線性約束,并基于所述鏈接拓?fù)湫畔?、所述線路參數(shù)信息和所述線性及非線性約束,構(gòu)建電網(wǎng)拓?fù)洵h(huán)境的步驟中,包括:
14、從所述電力網(wǎng)絡(luò)拓?fù)淠P椭蝎@取各網(wǎng)絡(luò)節(jié)點間的所述鏈接拓?fù)湫畔⒑退鼍€路參數(shù)信息;
15、利用所述電力網(wǎng)絡(luò)拓?fù)淠P瞳@取電力網(wǎng)絡(luò)中各設(shè)備的所述線性及非線性約束;
16、將所述鏈接拓?fù)湫畔?、所述線路參數(shù)信息和所述線性及非線性約束進(jìn)行組合,以得到所述電網(wǎng)拓?fù)洵h(huán)境。
17、進(jìn)一步的,分別獲取所述電網(wǎng)拓?fù)洵h(huán)境中的動作空間和狀態(tài)空間的步驟中,包括:
18、對所述電網(wǎng)拓?fù)洵h(huán)境中各設(shè)備的所述線性及非線性約束進(jìn)行讀取,以得到na個可調(diào)度設(shè)備信息;其中,na個所述可調(diào)度設(shè)備信息包括個發(fā)電設(shè)備、個可調(diào)負(fù)荷設(shè)備、個儲能設(shè)備和個無功補(bǔ)償設(shè)備;
19、分別從各個所述發(fā)電設(shè)備、所述可調(diào)負(fù)荷設(shè)備、所述儲能設(shè)備和所述無功補(bǔ)償設(shè)備中獲取ngen個可調(diào)節(jié)動作維度、nl個可調(diào)節(jié)動作維度、nsto個可調(diào)節(jié)動作維度和nq個可調(diào)節(jié)動作維度;
20、根據(jù)所述ngen個可調(diào)節(jié)動作維度、所述nl個可調(diào)節(jié)動作維度、所述nsto個可調(diào)節(jié)動作維度和所述nq個可調(diào)節(jié)動作維度,構(gòu)建所述初始ddpg智能體的動作空間a*;
21、對所述電網(wǎng)拓?fù)洵h(huán)境中的所述鏈接拓?fù)湫畔⒑退鼍€路參數(shù)信息進(jìn)行讀取,以得到ns個運行狀態(tài)設(shè)備信息;其中,所述運行狀態(tài)設(shè)備信息包括個線路節(jié)點和個輸電支路;
22、分別從各個所述線路節(jié)點和所述輸電支路中獲取nbus個可觀察狀態(tài)維度和nbru個可觀察狀態(tài)維度;
23、根據(jù)所述nbus個可觀察狀態(tài)維度和所述nbru個可觀察狀態(tài)維度,構(gòu)建所述初始ddpg智能體的狀態(tài)空間s*。
24、進(jìn)一步的,構(gòu)建整體的獎勵函數(shù)的步驟中,包括:
25、利用電力網(wǎng)絡(luò)系統(tǒng)仿真環(huán)境計算時間t下的電力網(wǎng)絡(luò)潮流狀態(tài),并得到各個設(shè)備、節(jié)點、支路在時間t的狀態(tài)st;
26、以電力網(wǎng)絡(luò)系統(tǒng)中所述線性及非線性約束為基準(zhǔn)進(jìn)行檢驗當(dāng)前狀態(tài)是否違所述線性及非線性約束,并以是否違反約束作為所述環(huán)境獎勵r1;
27、計算時間t下網(wǎng)絡(luò)的整體運行費用mt,并加權(quán)計算得到所述經(jīng)濟(jì)負(fù)獎勵r2;
28、根據(jù)所述環(huán)境獎勵r1和所述經(jīng)濟(jì)負(fù)獎勵r2得到最終的整體的所述獎勵函數(shù)r;其中,r=r1+r2。
29、進(jìn)一步的,所述pso算法包括:
30、定義所述粒子群優(yōu)化算法中的參數(shù),具體包括:粒子初始速度vi、粒子初始位置xi、粒子自身學(xué)習(xí)因子c1、全局學(xué)習(xí)因子c2、粒子自身隨機(jī)因子r1、全局隨機(jī)因子r2、慣性權(quán)重最大值ωmax、慣性權(quán)重最小值ωmin和迭代次數(shù)k;
31、對粒子每個經(jīng)過的位置的適應(yīng)度進(jìn)行計算,以得到適應(yīng)度值f(xi);
32、將所述適應(yīng)度值f(xi)與此粒子的歷史最佳適應(yīng)度值fi,best進(jìn)行比較,若所述適應(yīng)度值f(xi)大于所述歷史最佳適應(yīng)度fi,best,則將所述適應(yīng)度值f(xi)賦值給所述歷史最佳適應(yīng)度fi,best,并將該粒子的最優(yōu)適應(yīng)度位置pi,best修改為當(dāng)前位置;
33、遍歷所有粒子的所述最佳適應(yīng)度fj,best,并將所述最佳適應(yīng)度fj,best與全局最優(yōu)適應(yīng)度值fg,best進(jìn)行比較,若第k個粒子的所述最佳適應(yīng)度fk,best大于全局最優(yōu)適應(yīng)度值fg,best,則:
34、fg,best=fk,best
35、pg,best=pk,best
36、其中,pg,best為全局最優(yōu)適應(yīng)度位置坐標(biāo);
37、根據(jù)當(dāng)前速度vi、該粒子歷史的所述最優(yōu)適應(yīng)度位置pi,best和所述全局最優(yōu)適應(yīng)度位置坐標(biāo)pg,best,更新所有粒子的行進(jìn)方向和速度信息。
38、進(jìn)一步的,利用pso算法優(yōu)化ddpg算法中策略網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò)層數(shù)和每層神經(jīng)元個數(shù),以得到優(yōu)化后的策略網(wǎng)絡(luò)模型的步驟中,包括:
39、以當(dāng)前粒子對應(yīng)位置坐標(biāo)所對應(yīng)的輸入神經(jīng)網(wǎng)絡(luò)層數(shù)l和每層神經(jīng)元個數(shù)nl作為策略網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,將預(yù)設(shè)回合內(nèi)獲得的獎勵總量作為適應(yīng)度對粒子當(dāng)前位置進(jìn)行評估,以得到優(yōu)化后的所述策略網(wǎng)絡(luò)模型;其中,獎勵和適應(yīng)度呈線性正比關(guān)系。
40、進(jìn)一步的,利用所述pso算法優(yōu)化所述初始超參數(shù),以得到適應(yīng)所述策略網(wǎng)絡(luò)模型的目標(biāo)超參數(shù)的步驟中,包括:
41、以所述策略網(wǎng)絡(luò)模型為基礎(chǔ)模型,利用所述pso算法優(yōu)化所述初始超參數(shù),以得到適應(yīng)所述策略網(wǎng)絡(luò)模型的所述目標(biāo)超參數(shù);其中,所述超參數(shù)p*包括訓(xùn)練回合數(shù)episode、每回合最大步數(shù)step、學(xué)習(xí)率lr、折扣因子gamma、軟更新系數(shù)tau和經(jīng)驗回放池容量buffercapacity。
42、進(jìn)一步的,以所述策略網(wǎng)絡(luò)模型作為所述初始ddpg智能體的策略網(wǎng)絡(luò),并利用所述目標(biāo)超參數(shù)并行訓(xùn)練所述初始ddpg智能體,以得到訓(xùn)練好的目標(biāo)ddpg智能體的步驟中,包括:
43、利用同一個所述初始ddpg智能體對不同的獨立電力網(wǎng)絡(luò)仿真環(huán)境進(jìn)行調(diào)度;
44、對各個獨立環(huán)境動作得到的經(jīng)驗分別進(jìn)行收集,達(dá)到預(yù)設(shè)數(shù)量后基于所述策略網(wǎng)絡(luò)模型和所述目標(biāo)超參數(shù),按照所述ddpg算法訓(xùn)練所述初始ddpg智能體;
45、對每個訓(xùn)練后的所述初始ddpg智能體進(jìn)行測試,并進(jìn)行軟更新整合以得到所述目標(biāo)ddpg智能體。
46、本公開的實施例提供的技術(shù)方案可以包括以下有益效果:
47、本公開的實施例中,通過上述基于pso和ddpg算法并行訓(xùn)練的電力網(wǎng)絡(luò)經(jīng)濟(jì)調(diào)度方法,一方面,采用ddpg算法對電力系統(tǒng)網(wǎng)絡(luò)進(jìn)行調(diào)度,采用pso算法對ddpg算法中的模型和訓(xùn)練參數(shù)進(jìn)行尋優(yōu),采用最優(yōu)網(wǎng)絡(luò)模型和最優(yōu)參數(shù)對ddpg智能體進(jìn)行訓(xùn)練,增強(qiáng)智能體對于電力網(wǎng)絡(luò)系統(tǒng)調(diào)度任務(wù)的適應(yīng)性,具有更低的計算復(fù)雜度和對于高維數(shù)據(jù)避免了維度災(zāi)難。智能體并行訓(xùn)練由于其具有隨機(jī)性,因此有益于保證最終智能體的魯棒性。另一方面,在面對高維度和非凸問題時,無需大量的迭代計算,在實時系統(tǒng)應(yīng)用場景中的實用性較高。通過粒子群優(yōu)化算法避免使智能體策略網(wǎng)絡(luò)陷入局部最優(yōu)解,以保證良好的全局收斂性。使用強(qiáng)化學(xué)習(xí)算法尋找全局最優(yōu)策略,相較于經(jīng)典數(shù)學(xué)方法在非凸環(huán)境中有較大優(yōu)勢。智能體深度神經(jīng)網(wǎng)絡(luò)具有強(qiáng)大的擬合適應(yīng)能力。