本發(fā)明涉及電力資源調(diào)度優(yōu)化,尤其是涉及一種電動(dòng)汽車充電調(diào)度優(yōu)化方法。
背景技術(shù):
1、在電動(dòng)汽車(ev)蓬勃發(fā)展的時(shí)代,開(kāi)發(fā)高效的充電解決方案以優(yōu)化電動(dòng)汽車運(yùn)營(yíng)已成為關(guān)鍵挑戰(zhàn),特別是針對(duì)集成可再生能源的電動(dòng)汽車充電場(chǎng)站。這種自適應(yīng)充電問(wèn)題因可再生能源發(fā)電和人類行為帶來(lái)的不確定性而變得更加復(fù)雜。例如,工作場(chǎng)所充電站廣泛安裝的屋頂光伏(pv)太陽(yáng)能系統(tǒng)提高了可持續(xù)性,但也為太陽(yáng)能賦能的電動(dòng)汽車充電系統(tǒng)的運(yùn)營(yíng)引入了變數(shù)。非商用電動(dòng)汽車因人類駕駛員行為和電池規(guī)格決定的異質(zhì)充電特性,進(jìn)一步加劇了充電動(dòng)態(tài)的不確定性。
2、為了應(yīng)對(duì)由此產(chǎn)生的不確定性,近年來(lái)人們?cè)絹?lái)越關(guān)注利用數(shù)據(jù)驅(qū)動(dòng)和機(jī)器學(xué)習(xí)方法來(lái)開(kāi)發(fā)先進(jìn)的充電方案。在仿真場(chǎng)景中,這些技術(shù)相比傳統(tǒng)調(diào)度算法(如最早截止時(shí)間優(yōu)先(edf)、最小松弛度優(yōu)先(llf)和預(yù)測(cè)性調(diào)度)展現(xiàn)出了優(yōu)越的性能,特別是當(dāng)這些傳統(tǒng)方法難以學(xué)習(xí)可再生能源發(fā)電和人類行為統(tǒng)計(jì)數(shù)據(jù)時(shí)。然而,現(xiàn)有的基于學(xué)習(xí)的充電策略需要高質(zhì)量的訓(xùn)練數(shù)據(jù),并且當(dāng)數(shù)據(jù)分布隨時(shí)間變化時(shí)可能會(huì)失效。這突出了統(tǒng)計(jì)分布偏移(out-of-distribution/ood)的概念,這是機(jī)器學(xué)習(xí)中的一個(gè)關(guān)鍵問(wèn)題,模型面臨的數(shù)據(jù)與其訓(xùn)練集明顯不同。
3、總的來(lái)說(shuō),無(wú)論是先進(jìn)的基于學(xué)習(xí)的算法還是基于控制的算法,在實(shí)際的電動(dòng)汽車充電任務(wù)中都離最優(yōu)解還有一定距離,具體表現(xiàn)在以下方面:(1)基于學(xué)習(xí)的算法平均來(lái)說(shuō)能達(dá)到更高的調(diào)度效率,但由于分布偏移無(wú)法保證最壞情況下的性能;(2)模型預(yù)測(cè)控制(mpc)調(diào)度在非平穩(wěn)環(huán)境中更為穩(wěn)健,但仍是次優(yōu)的。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提出了一種電動(dòng)汽車充電調(diào)度優(yōu)化方法以解決上述背景技術(shù)中提到的問(wèn)題。
2、為實(shí)現(xiàn)上述目的,本發(fā)明提供了一種電動(dòng)汽車充電調(diào)度優(yōu)化方法,包括以下步驟:
3、s1、構(gòu)建電動(dòng)汽車充電問(wèn)題模型,定義狀態(tài)向量表示系統(tǒng)在t時(shí)刻狀態(tài)、動(dòng)作向量表示系統(tǒng)在t時(shí)刻的調(diào)度動(dòng)作和調(diào)度策略π;
4、s2、初始化狀態(tài)、基于mpc(model?predictive?control?模型預(yù)測(cè)控制)的策略和基于nn(neural?network?神經(jīng)網(wǎng)絡(luò))的策略到重放緩沖區(qū)d,收集系統(tǒng)和用戶輸入的預(yù)數(shù)據(jù);
5、s3、獲得基于mpc的策略并更新和基于nn的策略并更新;
6、s4、基于mpc的策略和系統(tǒng)狀態(tài)得到基線動(dòng)作,基于nn的策略和系統(tǒng)狀態(tài)得到機(jī)器學(xué)習(xí)生成的動(dòng)作,計(jì)算得到感知半徑;
7、s5、將基于學(xué)習(xí)得到的投影到以基線動(dòng)作為中心,半徑的球體上,獲得新的調(diào)度動(dòng)作,采樣得到下一個(gè)狀態(tài);
8、s6、存儲(chǔ)信息到重放緩沖區(qū)d,根據(jù)調(diào)度動(dòng)作更新充電環(huán)境。
9、優(yōu)選的,s1的具體步驟包括:
10、s11、定義問(wèn)題和參數(shù):定義充電樁的數(shù)量為m,每個(gè)離散時(shí)間步;每輛新到的電動(dòng)汽車j會(huì)引發(fā)一次充電任務(wù),表示為一個(gè)元組,其中在時(shí)間,電動(dòng)汽車j到達(dá)充電樁,電池容量為,并在時(shí)間離開(kāi),用表示所有充電任務(wù)的集合,集合是隨機(jī)的且非平穩(wěn)的,定義表示m個(gè)充電樁的電池充電狀態(tài),表示在時(shí)間時(shí)分配給m個(gè)充電樁的電能,定義狀態(tài)向量和動(dòng)作向量,符號(hào)表示兩個(gè)向量的拼接,狀態(tài)空間為,動(dòng)作空間為;
11、s12、狀態(tài)空間和動(dòng)作空間用來(lái)定義電池容量和充電速率的約束,約束公式如下所示:
12、;
13、;
14、充電狀態(tài)根據(jù)電池的動(dòng)態(tài)變化更新;
15、s13、構(gòu)建ood(out?of?distribution?分布外)問(wèn)題的電動(dòng)汽車充電問(wèn)題模型,充電的動(dòng)態(tài)方程如下所示:
16、;
17、其中,表示電池動(dòng)態(tài),表示用戶行為/太陽(yáng)能擾動(dòng),是一個(gè)安全函數(shù),當(dāng)且時(shí),,否則,函數(shù)用于將狀態(tài)投影到狀態(tài)空間上,事件表示當(dāng)前活躍的充電記錄結(jié)束,電動(dòng)汽車將離開(kāi);因此的第i個(gè)條目被重置為?0;為動(dòng)作投影函數(shù),代表兩個(gè)充電控制之間的時(shí)間間隔,,為充電動(dòng)態(tài)的矩陣,用于建模非理想電池隨時(shí)間變化行為的系統(tǒng)矩陣,,為分塊矩陣,定義如下:
18、;
19、;
20、其中,m為矩陣的行數(shù),和分別表示充電效率和控制效率系數(shù),為一個(gè)元素均為0的矩陣,是由人為充電行為引起的隨機(jī)擾動(dòng),使得當(dāng)是一個(gè)充電記錄且時(shí),即新的充電會(huì)話開(kāi)始時(shí),,是由太陽(yáng)能引起的擾動(dòng),表示時(shí)間時(shí)第i個(gè)充電樁的太陽(yáng)能輸入;表示m行m列對(duì)角線為1,其余元素為0的矩陣。
21、s14、設(shè)計(jì)二次充電成本函數(shù),用于優(yōu)化整體充電策略,其形式如下所示:
22、;
23、其中,為充電成本,和是隨時(shí)間變化的充電成本的正定矩陣;
24、該總成本對(duì)過(guò)度使用已安裝的電池進(jìn)行懲罰,同時(shí)鼓勵(lì)利用太陽(yáng)能發(fā)電。通過(guò)這種二次形式的成本函數(shù),能夠有效平衡電池的使用與太陽(yáng)能輸入,優(yōu)化整體充電策略。
25、優(yōu)選的,s3的具體步驟如下所示:
26、s31、獲得基于mpc的策略:假設(shè)預(yù)測(cè)的長(zhǎng)度為k,表示根據(jù)用戶輸入預(yù)測(cè)的最長(zhǎng)離開(kāi)時(shí)間,為min{t+k,t-1},收到狀態(tài)參數(shù),通過(guò)求解mpc優(yōu)化問(wèn)題得到基于mpc的策略,即給定狀態(tài)能得到動(dòng)作,將相應(yīng)的策略記為;
27、這種方法在實(shí)踐中通過(guò)動(dòng)態(tài)預(yù)測(cè)和優(yōu)化,能夠有效地應(yīng)對(duì)電動(dòng)汽車充電中的不確定性和擾動(dòng)因素,并為充電過(guò)程提供優(yōu)化調(diào)度策略;
28、s32、獲得基于nn的策略:
29、首先定義t時(shí)刻估計(jì)的q值函數(shù),ε為q值函數(shù)之間的度量誤差,使用范數(shù)來(lái)衡量訓(xùn)練得到的q值函數(shù)與最優(yōu)q值函數(shù)之間的差異,形式如下所示:
30、;
31、為最優(yōu)q值函數(shù),其定義如下所示:
32、;
33、初始化超級(jí)參數(shù)和學(xué)習(xí)率η,從數(shù)據(jù)集d中隨機(jī)選取一個(gè)小批次的數(shù)據(jù)b,利用在批次b中的軌跡記錄h和梯度,通過(guò)梯度下降法更新估計(jì)的q值函數(shù),
34、其中,這里面s代表狀態(tài),a代表動(dòng)作,代表下一個(gè)時(shí)刻的狀態(tài),c代表成本用于量化動(dòng)作a在狀態(tài)s下的代價(jià)或收益,代表一個(gè)軌跡/歷史,它記錄了系統(tǒng)在特定時(shí)間步的狀態(tài)、所采取的動(dòng)作、隨后的狀態(tài)以及獲得的成本或獎(jiǎng)勵(lì),這里描述了一個(gè)完整的交互片段,有助于分析狀態(tài)轉(zhuǎn)移和策略效果;
35、梯度如下所示:
36、,
37、更新超參數(shù);
38、更新得到基于nn的策略;
39、s33、獲得。
40、優(yōu)選的,s31中基于mpc的策略具體如下所示:
41、首先定義為在時(shí)間時(shí)接收到的關(guān)于隨機(jī)充電行為擾動(dòng)的一系列預(yù)測(cè),定義為在時(shí)間t時(shí)收到的對(duì)于未來(lái)太陽(yáng)能發(fā)電量的預(yù)測(cè),預(yù)測(cè)時(shí)域?yàn)閗,且;在每個(gè)時(shí)間t,定義預(yù)測(cè)擾動(dòng),其中和分別表示對(duì)充電行為擾動(dòng)和太陽(yáng)能發(fā)電量的預(yù)測(cè)值,是兩個(gè)充電控制之間的時(shí)間間隔;
42、mpc在時(shí)間t對(duì)當(dāng)前狀態(tài)的估計(jì)如下所示:
43、;
44、描述了系統(tǒng)如何從前一狀態(tài)通過(guò)執(zhí)行動(dòng)作并受預(yù)測(cè)擾動(dòng)的影響,轉(zhuǎn)移到當(dāng)前狀態(tài)。
45、其中,輸入的離開(kāi)時(shí)間和電池容量可能與充電記錄元祖中的真實(shí)值不同,為基于輸入的離開(kāi)時(shí)間對(duì)安全投影函數(shù)的估計(jì)。
46、mpc優(yōu)化問(wèn)題如下所示:
47、;
48、;
49、;
50、其中,(:)為從時(shí)間t到的未來(lái)擾動(dòng)預(yù)測(cè),為一個(gè)定制的終端成本,用于正則化最后的預(yù)測(cè)狀態(tài),為終端矩陣,為當(dāng)前狀態(tài)的估計(jì)值;
51、該優(yōu)化問(wèn)題的目標(biāo)是在給定未來(lái)擾動(dòng)預(yù)測(cè)和終端成本的情況下,通過(guò)調(diào)整從時(shí)間t到t'-1的動(dòng)作序列,最小化系統(tǒng)的累積成本。
52、優(yōu)選的,s4的具體步驟如下所示:
53、s41、通過(guò)執(zhí)行基于mpc的策略得到基線動(dòng)作;
54、s42、通過(guò)執(zhí)行基于nn的策略的最小化q值函數(shù)得到機(jī)器學(xué)習(xí)生成的動(dòng)作;
55、s43、計(jì)算得到感知半徑;
56、;
57、根據(jù)重放緩沖區(qū)d中的歷史軌跡估計(jì)時(shí)間差分(td:temporal?difference)誤差:
58、;
59、其中,是一個(gè)調(diào)節(jié)參數(shù),用于調(diào)整估計(jì)的時(shí)間差分誤差對(duì)整體更新的影響。
60、優(yōu)選的,s5的具體內(nèi)容如下所示:
61、獲得的新的調(diào)度動(dòng)作的公式如下所示:
62、;
63、其中,,定義了一個(gè)以為中心,為半徑的歐幾里得球;
64、采樣得到下一個(gè)狀態(tài);
65、優(yōu)選的,s6存儲(chǔ)的信息為。
66、因此,本發(fā)明采用上述的一種電動(dòng)汽車充電調(diào)度優(yōu)化方法,具有以下有益效果:
67、(1)引入了一種ood感知策略,不僅可以在不穩(wěn)定條件下實(shí)現(xiàn)接近最優(yōu)的平均性能,而且還可以確保在分布發(fā)生變化時(shí)具有穩(wěn)健的性能,相比于基于mpc的調(diào)度有性能提升;
68、(2)拓展了學(xué)習(xí)增強(qiáng)策略的應(yīng)用范圍,以解決太陽(yáng)能電動(dòng)汽車充電特定環(huán)境下的電動(dòng)汽車調(diào)度復(fù)雜性,相比于mpc更適合真實(shí)場(chǎng)景的調(diào)度策略。
69、下面通過(guò)附圖和實(shí)施例,對(duì)本發(fā)明的技術(shù)方案做進(jìn)一步的詳細(xì)描述。