本發(fā)明涉及一種虛擬電廠在線優(yōu)化調(diào)度方法,該利用深度強(qiáng)化學(xué)習(xí)算法與傳統(tǒng)優(yōu)化模型相結(jié)合,并計(jì)及排隊(duì)論中的李雅普諾夫優(yōu)化方法,實(shí)現(xiàn)對(duì)虛擬電廠內(nèi)部各資源的實(shí)時(shí)最優(yōu)調(diào)度。本發(fā)明屬于一種針對(duì)虛擬電廠優(yōu)化調(diào)度領(lǐng)域的新方法。
背景技術(shù):
1、隨著傳統(tǒng)能源的枯竭和環(huán)境保護(hù)的迫切需要,再加上國(guó)民經(jīng)濟(jì)對(duì)電力需求的不斷升級(jí),近年來(lái),對(duì)可再生能源開(kāi)發(fā)利用的研究正不斷深入。然而,傳統(tǒng)電力系統(tǒng)正面臨諸多考驗(yàn)。一方面,隨著可再生能源發(fā)電的廣泛接入,其嚴(yán)重的不確定性給電力系統(tǒng)的優(yōu)化調(diào)度帶來(lái)了巨大壓力。另一方面,日趨多樣的用電需求使如何繼續(xù)保證電源質(zhì)量、安全供電,成為電力系統(tǒng)建設(shè)中的重要目標(biāo)。
2、虛擬電廠(vpp)作為一種區(qū)域分布式資源的整合管理方法,其可通過(guò)先進(jìn)的測(cè)量、通信和控制技術(shù),聚合不同類(lèi)型和位置的分布式電源進(jìn)行虛擬發(fā)電。同時(shí),vpp通過(guò)對(duì)其內(nèi)部的各種資源進(jìn)行優(yōu)化調(diào)度,實(shí)現(xiàn)源荷側(cè)的協(xié)調(diào)運(yùn)行,使新能源發(fā)電資源得到合理配置和高效利用。
3、然而,vpp內(nèi)部各資源的復(fù)雜性為其優(yōu)化調(diào)度過(guò)程帶來(lái)了巨大壓力,源荷協(xié)同的高效優(yōu)化調(diào)度方法具有重要的現(xiàn)實(shí)意義與應(yīng)用價(jià)值。目前對(duì)vpp優(yōu)化調(diào)度的方法主要有兩類(lèi)。一類(lèi)是基于完全信息條件下的離線調(diào)度,通常包括在歷史經(jīng)驗(yàn)數(shù)據(jù)的基礎(chǔ)上,利用優(yōu)化模型進(jìn)行日內(nèi)優(yōu)化,或采用模型預(yù)測(cè)控制(mpc)進(jìn)行滾動(dòng)預(yù)測(cè)優(yōu)化。另一類(lèi)則是基于實(shí)時(shí)信息的在線優(yōu)化調(diào)度,例如利用深度強(qiáng)化學(xué)習(xí)算法進(jìn)行在線調(diào)度等。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明要克服現(xiàn)有技術(shù)的上述缺點(diǎn),提供一種考慮vpp內(nèi)部各資源時(shí)序性解耦的在線優(yōu)化調(diào)度方法。本發(fā)明將傳統(tǒng)優(yōu)化模型與深度強(qiáng)化學(xué)習(xí)方法相結(jié)合,具體來(lái)說(shuō),將具有時(shí)序性的有關(guān)資源利用深度強(qiáng)化學(xué)習(xí)中的ddpg算法進(jìn)行在線調(diào)度,而將與時(shí)序性關(guān)聯(lián)性較小、調(diào)度靈活的資源利用優(yōu)化模型進(jìn)行直接優(yōu)化。該方法旨在降低在線優(yōu)化的計(jì)算復(fù)雜度,并提高在線優(yōu)化調(diào)度效率。
2、為實(shí)現(xiàn)上述目的,本發(fā)明提出一種基于深度強(qiáng)化學(xué)習(xí)的在線優(yōu)化調(diào)度方法,其步驟包括:
3、步驟一:采集虛擬電廠歷史運(yùn)行數(shù)據(jù),包括虛擬電廠歷史用電量、電價(jià)、風(fēng)電光伏出力。為了訓(xùn)練深度強(qiáng)化學(xué)習(xí)的ddpg算法,需對(duì)虛擬電廠歷史運(yùn)行數(shù)據(jù)進(jìn)行收集,主要包括六項(xiàng)數(shù)據(jù):虛擬電廠區(qū)域的平均風(fēng)速、光照強(qiáng)度、可控負(fù)荷量、基礎(chǔ)負(fù)荷量、與外電網(wǎng)交互的購(gòu)電電價(jià)、售電電價(jià)。后續(xù)將基于歷史數(shù)據(jù)對(duì)ddpg算法的智能體展開(kāi)訓(xùn)練。
4、步驟二:建立內(nèi)外雙層綜合優(yōu)化調(diào)度模型。首先,在模型外層定義深度強(qiáng)化學(xué)習(xí)算法的動(dòng)作集與動(dòng)作空間、狀態(tài)集與狀態(tài)空間、獎(jiǎng)勵(lì)、折扣率。其次,在智能體的獎(jiǎng)勵(lì)中加入李雅普諾夫漂移量,保持在線調(diào)度的長(zhǎng)期穩(wěn)定。最后,在模型內(nèi)層定義優(yōu)化模型,并定義目標(biāo)函數(shù)、決策變量、約束條件;
5、步驟三:采集虛擬電廠實(shí)時(shí)運(yùn)行數(shù)據(jù),包括當(dāng)前時(shí)段的用電量、電價(jià)、風(fēng)電光伏出力。與s1步驟中采集信息類(lèi)似,在進(jìn)行深度強(qiáng)化學(xué)習(xí)智能調(diào)度前,需提前采集虛擬電廠實(shí)時(shí)運(yùn)行數(shù)據(jù),經(jīng)由步驟s2中訓(xùn)練成熟的模型進(jìn)行決策。
6、步驟四:利用ddpg算法對(duì)具有高度時(shí)序性的資源進(jìn)行優(yōu)化,包括儲(chǔ)能設(shè)備、火電機(jī)組的充放電動(dòng)作。
7、步驟五:基于ddpg算法的優(yōu)化結(jié)果,建立傳統(tǒng)優(yōu)化模型,對(duì)剩余的風(fēng)電光伏、可控負(fù)荷等資源進(jìn)行調(diào)度。
8、步驟六:整合ddpg算法的動(dòng)作與優(yōu)化模型的結(jié)果,得到最終調(diào)度方案,并獲得最優(yōu)經(jīng)濟(jì)收益。
9、進(jìn)一步,在步驟二中的智能體獎(jiǎng)勵(lì),包含成本一和成本二;優(yōu)化模型的目標(biāo)函數(shù)包含成本三、成本四、成本五,以及成本六;
10、成本一:火電調(diào)度成本
11、火電機(jī)組的調(diào)度成本ctd由3部分組成:
12、
13、為火電機(jī)組發(fā)電成本,at、bt、ct分別為發(fā)電成本的常數(shù)項(xiàng)、一次項(xiàng)、二次項(xiàng)系數(shù)。為火電機(jī)組的啟動(dòng)成本,kd1為啟動(dòng)成本系數(shù),δtstop為距上一次停機(jī)的間隔時(shí)間。為火電機(jī)組的停機(jī)成本,kd2為停機(jī)成本系數(shù),δtstart為距上一次啟動(dòng)的間隔時(shí)間,即火電機(jī)組已運(yùn)行的時(shí)長(zhǎng)。
14、成本二:儲(chǔ)能調(diào)度成本
15、考慮到儲(chǔ)能設(shè)備的壽命與折舊等因素,需考慮儲(chǔ)能設(shè)備的調(diào)度成本其與儲(chǔ)能設(shè)備的充放電功率呈線性關(guān)系,可表示為:
16、
17、其中,kess是儲(chǔ)能設(shè)備的度電成本。
18、成本三:風(fēng)力發(fā)電成本
19、風(fēng)力發(fā)電成本包括風(fēng)機(jī)的折舊成本調(diào)度成本棄風(fēng)懲罰成本
20、
21、其中,其中r為年利率,為風(fēng)電機(jī)組單位容量的安裝成本,kw為風(fēng)電機(jī)組的容量系數(shù),nw為風(fēng)電機(jī)組的運(yùn)行壽命,kwom是風(fēng)電機(jī)組的維護(hù)運(yùn)行成本系數(shù)。λw,1與λw,2分別為棄風(fēng)懲罰的一次項(xiàng)、二次項(xiàng)系數(shù)。
22、成本四:光伏發(fā)電成本
23、光伏發(fā)電成本ctp包括風(fēng)機(jī)的折舊成本調(diào)度成本棄光懲罰成本
24、
25、其中,其中r為年利率,為光伏電池的單位容量安裝成本,kp為光伏容量系數(shù),np為光伏的運(yùn)行壽命,kpom是光伏的維護(hù)運(yùn)行成本系數(shù)。λp,1與λp,2分別為棄光懲罰的一次項(xiàng)、二次項(xiàng)系數(shù)。
26、成本五:外電網(wǎng)交互成本
27、在vpp調(diào)度過(guò)程中,可與外電網(wǎng)進(jìn)行交互。當(dāng)vpp內(nèi)部負(fù)荷需求量過(guò)大時(shí),可選擇向外部電網(wǎng)購(gòu)電;當(dāng)vpp內(nèi)部發(fā)電量過(guò)剩時(shí),可選擇向外電網(wǎng)售電獲取收益。vpp與外電網(wǎng)交互的成本可表示為:
28、
29、其中,是t時(shí)刻的購(gòu)電電價(jià),是t時(shí)刻的售電電價(jià),是交互電量。當(dāng)時(shí)表示vpp向外電網(wǎng)購(gòu)電,當(dāng)時(shí)表示vpp向外電網(wǎng)售電。
30、成本六:負(fù)荷削減成本
31、vpp運(yùn)營(yíng)商可對(duì)部分負(fù)荷需求量進(jìn)行削減,但同時(shí)需要給予用戶相應(yīng)的補(bǔ)償。負(fù)荷削減成本的計(jì)算可表示為:
32、
33、其中,β為單位削減量的補(bǔ)償成本,為負(fù)荷削減量。
34、進(jìn)一步,在步驟二中定義ddpg算法智能體的動(dòng)作集與動(dòng)作空間。
35、考慮具有時(shí)序性的決策,智能體的動(dòng)作為:
36、
37、其中,為t時(shí)刻火電機(jī)組的發(fā)電量。為t時(shí)刻儲(chǔ)能設(shè)備的充放電量,當(dāng)時(shí)儲(chǔ)能設(shè)備充電,當(dāng)時(shí)儲(chǔ)能設(shè)備放電。為了便于后續(xù)分析,定義火電機(jī)組的啟停變量:
38、
39、用代表t時(shí)刻火電機(jī)組的啟停狀態(tài),當(dāng)時(shí)火電機(jī)組為啟動(dòng)狀態(tài),當(dāng)時(shí)火電機(jī)組停機(jī)。
40、定義上述動(dòng)作中儲(chǔ)能設(shè)備的動(dòng)作空間:
41、
42、其中,為儲(chǔ)能設(shè)備充放電功率的上限。
43、進(jìn)一步考慮火電機(jī)組的動(dòng)作空間:
44、
45、其中,與分別為火電機(jī)組發(fā)電功率的下限與上限,drd為火電機(jī)組的緩降下限,urd為火電機(jī)組的爬坡上限。在算法求解過(guò)程中,火電機(jī)組的動(dòng)作空間將隨t-1時(shí)刻的發(fā)電功率而動(dòng)態(tài)變化,即智能體由于前一時(shí)刻動(dòng)作的不同,智能體在采取動(dòng)作時(shí)具有不同的動(dòng)作空間。
46、同時(shí),定義步驟三中ddpg算法智能體的狀態(tài)集與狀態(tài)轉(zhuǎn)移。
47、智能體狀態(tài)集
48、智能體的狀態(tài)將對(duì)其決策產(chǎn)生重要影響,根據(jù)本問(wèn)題研究的具體場(chǎng)景,由于智能體的動(dòng)作僅為二維變量,因此可在狀態(tài)集中充分考慮各種物理量的動(dòng)態(tài)變化。定義智能體在t時(shí)刻的狀態(tài)為:
49、
50、其中,為t時(shí)刻的最大風(fēng)電功率,為t時(shí)刻的最大光伏功率,為t時(shí)刻的最大可控負(fù)荷量,為t時(shí)刻的基礎(chǔ)負(fù)荷量,soct為t時(shí)刻儲(chǔ)能設(shè)備的荷電狀態(tài),為t時(shí)刻的購(gòu)電價(jià)格,為t時(shí)刻的售電價(jià)格
51、智能體將基于狀態(tài)集中的7個(gè)狀態(tài)進(jìn)行決策。在狀態(tài)集中,除soct外的其他狀態(tài)均會(huì)傳遞至模型內(nèi)層部分,利用優(yōu)化模型進(jìn)一步?jīng)Q策,決定可靈活調(diào)度設(shè)備的動(dòng)作。
52、儲(chǔ)能設(shè)備狀態(tài)轉(zhuǎn)移
53、儲(chǔ)能設(shè)備soct的狀態(tài)轉(zhuǎn)移過(guò)程為:
54、
55、其中,ηch和ηdis分別為充放電效率,c為vpp內(nèi)儲(chǔ)能設(shè)備容量。
56、風(fēng)電、光伏狀態(tài)轉(zhuǎn)移
57、在源側(cè),風(fēng)電、光伏的最大發(fā)電量均與具體的風(fēng)光數(shù)據(jù)有關(guān)。因此,采用公開(kāi)的歷史數(shù)據(jù)集,基于風(fēng)速與光照強(qiáng)度對(duì)風(fēng)電與光伏的最大發(fā)電量進(jìn)行預(yù)測(cè)。
58、對(duì)于風(fēng)力發(fā)電,利用t時(shí)刻的風(fēng)速vt,計(jì)算得風(fēng)力發(fā)電功率上限
59、
60、其中,為風(fēng)機(jī)額定功率,νci為風(fēng)機(jī)切入風(fēng)速,νco為風(fēng)機(jī)切出風(fēng)速,νn為風(fēng)機(jī)額定風(fēng)速。
61、對(duì)于光伏發(fā)電,利用t時(shí)刻的光照強(qiáng)度θt,可以計(jì)算得到光伏發(fā)電功率上限
62、
63、其中,ηpv為光伏轉(zhuǎn)化效率,spv為光伏設(shè)備面積。
64、在訓(xùn)練drl算法時(shí),將隨機(jī)抽取日內(nèi)風(fēng)光數(shù)據(jù)模擬真實(shí)的環(huán)境。
65、此外,定義步驟三中ddpg算法智能體的獎(jiǎng)勵(lì)函數(shù)。
66、智能體的獎(jiǎng)勵(lì)包括在步驟一中定義的成本一與成本二的負(fù)數(shù),同時(shí),由于本發(fā)明屬于一種在線調(diào)度方法,還需要考慮長(zhǎng)期調(diào)度的序列穩(wěn)定性問(wèn)題。為此,在智能體的獎(jiǎng)勵(lì)函數(shù)中還需要引入李雅普諾夫漂移量指標(biāo),用來(lái)保證在長(zhǎng)期調(diào)度過(guò)程中序列的穩(wěn)定性。
67、本文在儲(chǔ)能設(shè)備的荷電狀態(tài)soc上定義虛擬隊(duì)列,通過(guò)引入隊(duì)列長(zhǎng)度的漂移量指標(biāo)并使其最小化,達(dá)到長(zhǎng)期荷電狀態(tài)穩(wěn)定的約束。
68、依據(jù)儲(chǔ)能設(shè)備狀態(tài)轉(zhuǎn)移計(jì)算式,假設(shè)儲(chǔ)能設(shè)備的初始荷電狀態(tài)為soco,同時(shí)為方便后續(xù)推導(dǎo),定義soc變化量計(jì)算式為:
69、
70、則對(duì)充放電變化量式進(jìn)行長(zhǎng)期累加,可得:
71、
72、由于soct需滿足soct∈[socmin,socmax]的約束,則對(duì)t求極限可得:
73、
74、上式表示儲(chǔ)能設(shè)備的長(zhǎng)期總充電量等于長(zhǎng)期總放電量時(shí),soc才能穩(wěn)定在約束的范圍內(nèi),因此,可進(jìn)一步定義虛擬隊(duì)列:
75、qt=soct-ξ
76、定常數(shù)ξ為:
77、
78、其中,是儲(chǔ)能設(shè)備的最大充放電功率,v是權(quán)重系數(shù)。基于該虛擬隊(duì)列,可定義儲(chǔ)能設(shè)備長(zhǎng)期穩(wěn)定的條件為:
79、
80、定義隊(duì)列長(zhǎng)度的李雅普諾夫函數(shù)為:
81、
82、則可以引入李雅普諾夫漂移指標(biāo)為:
83、
84、將該漂移量最小作為目標(biāo)函數(shù)時(shí),可實(shí)現(xiàn)隊(duì)列的長(zhǎng)期穩(wěn)定條件,因此在智能體的獎(jiǎng)勵(lì)函數(shù)中,加入李雅普諾夫漂移量,即可實(shí)現(xiàn)在線調(diào)度的長(zhǎng)期穩(wěn)定性。
85、最后,在步驟二中,還需要定義ddpg算法智能體的獎(jiǎng)勵(lì)折扣率。本發(fā)明在計(jì)算時(shí)取折扣率γ=0.98。
86、進(jìn)一步,在步驟二中需定義優(yōu)化模型的決策變量、目標(biāo)函數(shù)、約束條件項(xiàng)。
87、目標(biāo)函數(shù)
88、內(nèi)層優(yōu)化部分的目標(biāo)函數(shù)為剩余調(diào)度資源的調(diào)度成本最?。?/p>
89、
90、其中,為風(fēng)力發(fā)電成本,為光伏發(fā)電成本,為與外電網(wǎng)交互的成本,為削減負(fù)荷的成本。這四項(xiàng)成本均已經(jīng)在步驟一的詳細(xì)步驟中定義。
91、約束條件
92、功率平衡約束
93、考慮vpp內(nèi)部各種資源的功率平衡,vpp運(yùn)營(yíng)商在實(shí)際調(diào)度時(shí)需滿足如下約束:
94、
95、等式左邊為電能產(chǎn)生部分,等式右邊為電能消耗部分,其中,與是外層部分的動(dòng)作,是外層部分的狀態(tài)之一,對(duì)內(nèi)層進(jìn)行優(yōu)化決策時(shí),三者都是給定常數(shù)。則是內(nèi)層優(yōu)化的決策變量。
96、新能源發(fā)電上限約束
97、考慮到風(fēng)電、光伏發(fā)電都受到風(fēng)速、光照強(qiáng)度等因素的限制,因此其發(fā)電量需滿足如下的上限約束:
98、
99、其中,與分別為風(fēng)電、光伏的發(fā)電上限,即外層傳遞給內(nèi)層的當(dāng)前狀態(tài)。
100、可控負(fù)荷削減上限
101、可控負(fù)荷的削減上限滿足下式:
102、
103、其中,同樣是外層傳遞給內(nèi)層的當(dāng)前狀態(tài)。
104、棄風(fēng)棄光功率上限
105、棄風(fēng)棄光功率上限滿足下式:
106、
107、其中,與分別是風(fēng)電與光伏發(fā)電的最大廢棄比例。
108、交互電量上限
109、與外電網(wǎng)交互電量需滿足如下約束:
110、
111、其中,是向外電網(wǎng)售電的最大值,是向外電網(wǎng)購(gòu)電的最大值。
112、本發(fā)明利用深度強(qiáng)化學(xué)習(xí)中的ddpg算法,結(jié)合傳統(tǒng)優(yōu)化模型與排隊(duì)論中的李雅普諾夫優(yōu)化,提出了一種內(nèi)外雙層的在線綜合優(yōu)化調(diào)度方法,旨在對(duì)vpp內(nèi)部各資源進(jìn)行高效調(diào)度。
113、本發(fā)明的優(yōu)點(diǎn)是:通過(guò)對(duì)虛擬電廠中的可調(diào)度資源進(jìn)行時(shí)序性解耦,結(jié)合深度強(qiáng)化學(xué)習(xí)算法與優(yōu)化模型,提高了虛擬電廠在線優(yōu)化調(diào)度效率。