本發(fā)明涉及一種電力系統(tǒng)短期負荷預(yù)測方法,對電力系統(tǒng)負荷進行預(yù)測,屬于電力系統(tǒng)技術(shù)領(lǐng)域。
背景技術(shù):
提高電力系統(tǒng)負荷預(yù)測精度是有效保障電力系統(tǒng)安全、穩(wěn)定、經(jīng)濟運行的技術(shù)措施之一,不同時間尺度的負荷預(yù)測對安排電力生產(chǎn)調(diào)度、設(shè)備檢修計劃及中長期電網(wǎng)規(guī)劃都具有極其重要的意義。實際系統(tǒng)運行積累海量的歷史負荷、氣象等數(shù)據(jù),充分挖掘這些數(shù)據(jù)蘊含的信息,為提高電力負荷預(yù)測精度提供了新的途徑。
高斯過程回歸(gaussianprocessregression,gpr)以貝葉斯理論和統(tǒng)計學(xué)習(xí)理論為基礎(chǔ),在處理高維數(shù)、非線性等復(fù)雜回歸問題時具有易編程實現(xiàn)、超參數(shù)自適應(yīng)獲取以及輸出具有概率分布等優(yōu)點,在時間序列分析、動態(tài)系統(tǒng)模型辨識、系統(tǒng)控制等多領(lǐng)域獲得了廣泛應(yīng)用。基于以上優(yōu)點,本發(fā)明采用高斯過程回歸建立短期負荷預(yù)測模型。常用共軛梯度(conjugategradient,cg)方法求解高斯過程回歸模型超參數(shù),但該方法存在易陷入局部最優(yōu)解、優(yōu)化性能受初值選取影響大、迭代次數(shù)難以確定等缺點。因此,在建立高斯過程回歸短期負荷預(yù)測模型過程中,需要采取措施對模型參數(shù)進行優(yōu)化處理。
短期負荷預(yù)測建模過程中,輸入變量的選取對模型預(yù)測結(jié)果有很大影響。常通過經(jīng)驗選取輸入變量,但該做法依賴技術(shù)人員主觀經(jīng)驗,缺乏理論依據(jù)。同時,人工選擇的輸入變量維數(shù)過高,容易引入冗余變量,增加模型訓(xùn)練復(fù)雜度,降低了預(yù)測性能。選擇少量輸入變量時,又難以獲得足夠的信息表征輸出特性。因此,在訓(xùn)練模型前需要建立最優(yōu)變量集合以克服人工經(jīng)驗選取的不足。
技術(shù)實現(xiàn)要素:
發(fā)明目的:本發(fā)明針對現(xiàn)有電力系統(tǒng)負荷預(yù)測技術(shù)中存在的問題,如應(yīng)用高斯過程回歸建立負荷預(yù)測模型時,傳統(tǒng)的共軛梯度方法求解模型超參數(shù)存在易陷入局部最優(yōu)解、優(yōu)化性能受初值選取影響大、迭代次數(shù)難以確定等缺點,導(dǎo)致預(yù)測結(jié)果準確度不高的缺陷,提供一種基于改進粒子群優(yōu)化高斯過程回歸的短期負荷預(yù)測方法,即pso-gpr負荷預(yù)測方法。同時,利用隨機森林算法給出輸入變量重要性評分,結(jié)合高斯過程回歸模型選擇最優(yōu)變量集合,提高了預(yù)測精度。
技術(shù)方案:一種基于變量選擇與高斯過程回歸的短期負荷預(yù)測方法,包括以下步驟:
1)獲取電力系統(tǒng)短期負荷預(yù)測所需的基本數(shù)據(jù):歷史負荷數(shù)據(jù)和原始氣象數(shù)據(jù);其中歷史負荷數(shù)據(jù)為歷史日每日間隔1h的整點時刻負荷數(shù)據(jù),原始氣象數(shù)據(jù)包括整點時刻環(huán)境溫度、濕度、預(yù)測日日期類型等影響因素;
2)數(shù)據(jù)預(yù)處理:對訓(xùn)練和測試樣本集數(shù)據(jù)中壞數(shù)據(jù)進行剔除和補充,并對數(shù)據(jù)進行歸一化處理,將樣本數(shù)據(jù)尺度變換到區(qū)間[0,1]內(nèi);
3)考慮歷史負荷值、溫度、濕度因素及其累積效應(yīng)對預(yù)測日負荷大小的影響,選取一定數(shù)量的備選輸入變量,利用隨機森林算法計算各輸入變量重要性評分并進行排序;
4)設(shè)置初始最優(yōu)變量集合為空集,利用序列前向搜索策略逐一添加重要性評分最高的輸入變量并利用高斯過程回歸模型計算其預(yù)測準確率,直至遍歷所有輸入變量,由預(yù)測誤差最小可確定最優(yōu)變量集合。
5)基于確定的最優(yōu)變量集合訓(xùn)練高斯過程回歸模型,并利用改進粒子群算法優(yōu)化模型參數(shù);
6)在測試集中驗證模型的預(yù)測性能。
有益效果:本發(fā)明的電力系統(tǒng)短期負荷預(yù)測方法利用隨機森林方法給出各輸入變量重要性評分并排序,采用序列前向搜索策略結(jié)合高斯過程回歸模型確定最優(yōu)變量集合,避免人工經(jīng)驗選取輸入變量的不足,提高了模型預(yù)測性能。同時,采用改進粒子群算法優(yōu)化高斯過程回歸模型參數(shù),進而改善預(yù)測模型的精度和泛化能力。
附圖說明
圖1為利用隨機森林算法選取最優(yōu)變量集合流程圖;
圖2為變量重要性評分及其預(yù)測誤差曲線;
圖3為高斯過程回歸模型對數(shù)似然函數(shù)迭代曲線;
圖4為測試的pso-gpr預(yù)測模型連續(xù)7日負荷預(yù)測曲線與實際曲線。
具體實施方式
下面結(jié)合具體實施例,進一步闡明本發(fā)明,應(yīng)理解這些實施例僅用于說明本發(fā)明而不用于限制本發(fā)明的范圍,在閱讀了本發(fā)明之后,本領(lǐng)域技術(shù)人員對本發(fā)明的各種等價形式的修改均落于本申請所附權(quán)利要求所限定的范圍。
本發(fā)明的思路是將隨機森林算法用于電力系統(tǒng)短期負荷預(yù)測建模輸入變量選擇中,利用隨機森林算法給出各輸入變量重要性評分并排序,由此結(jié)合高斯過程回歸模型并基于序列前向搜索策略確定最優(yōu)輸入變量集合,其預(yù)測誤差最小即對應(yīng)著最優(yōu)變量集合。同時,采用改進粒子群(particleswarmoptimization,pso)算法優(yōu)化高斯過程回歸模型參數(shù),進一步增強了模型預(yù)測性能,避免傳統(tǒng)共軛梯度方法易陷入局部最優(yōu)解的缺點。
短期負荷預(yù)測建模過程中,輸入變量的選取對模型預(yù)測結(jié)果有很大影響。本發(fā)明采用隨機森林算法選取最優(yōu)變量集合并建立高斯過程回歸短期負荷預(yù)測模型。隨機森林(randomforest,rf)利用隨機重采樣技術(shù)bootstrap構(gòu)建多個子樣本數(shù)據(jù)集,在每個子樣本集中隨機選取部分輸入變量并通過分支優(yōu)度準則選取最佳分裂點,由各回歸樹構(gòu)建魯棒性能強的集成模型。
假定電力負荷數(shù)據(jù)訓(xùn)練集(x,y)含n個觀測值,輸入變量維數(shù)為m,利用bootstrap方法有放回的從原始訓(xùn)練數(shù)據(jù)集合中重復(fù)抽取b個子樣本集,每個子集樣本數(shù)為n,由此可構(gòu)建b顆回歸樹;抽取第bi個子集時,未被選擇的觀測值構(gòu)成袋外數(shù)據(jù)(out-of-bag,oob);構(gòu)造第bi顆回歸樹時,從m維輸入變量中隨機選取固定數(shù)量為mtry(可取mtry=m/3)的輸入變量集作為該顆回歸樹的特征空間。對于回歸問題,分裂過程采用方差最小作為分支優(yōu)度準則來選取分裂變量,即
式中,n為訓(xùn)練樣本數(shù),xk為變量k的樣本值,
每棵回歸樹采用無剪枝策略從根節(jié)點自頂向下遞歸分支,設(shè)定葉節(jié)點最小尺寸作為回歸樹生長終止條件。b顆回歸樹生長完成后,即可構(gòu)建完整的rf回歸模型。最后,通過袋外數(shù)據(jù)預(yù)測準確度評價模型的預(yù)測性能,即
式中,noob為袋外數(shù)據(jù)樣本數(shù)量,yi為真實負荷值,
rf模型以變量重要性評分評價各輸入變量對負荷的影響程度,通過均方殘差減小量計量各輸入變量重要性評分并排序。利用袋外數(shù)據(jù)對b顆回歸樹進行測試,得到均方殘差分別為:mse1,mse2,l,mseb。變量xk在b個袋外數(shù)據(jù)集中使用隨機擾動方法置換,形成新袋外測試集。利用新的袋外數(shù)據(jù)對b顆回歸樹重新進行測試,構(gòu)成隨機置換后的均方誤差矩陣為
第k個輸入變量重要性評分即為:將mse1,mse2,l,mseb與均方誤差矩陣第k行對應(yīng)相減并取b顆回歸樹平均值,最后除以b顆回歸樹標準誤差se,得到變量xk的均方殘差平均減小量。由此得到各輸入變量重要性評分公式為
gpr用于短期負荷預(yù)測建模時,訓(xùn)練集合為d={(xi,yi)|i=1,2,3,…,n}=(x,y),其中:xi∈rm為m維輸入向量,m×n維輸入矩陣則可表示為x=[x1,x2,…,xn],n表示訓(xùn)練樣本點數(shù)量,yi∈r為對應(yīng)于xi的輸出標量。
用數(shù)學(xué)語言描述gpr負荷預(yù)測過程為:定義函數(shù)空間f(x)=φ(x)tω,f(x(1))、f(x(2))、…、f(x(n))構(gòu)成隨機變量的一個集合,且服從聯(lián)合高斯分布,高斯過程模型就可以表示為
式中:獨立高斯白噪聲服從均值為0,方差為
為簡化推導(dǎo),負荷均值m(x)進行數(shù)據(jù)預(yù)處理使之為0。gpr預(yù)測模型在n維訓(xùn)練集d內(nèi)建立先驗分布,在n*維測試集d*={(xi,yi)|i=n+1,l,n+n*}=(x*,f*)下轉(zhuǎn)變?yōu)楹篁灧植?,則訓(xùn)練樣本觀測值y和測試數(shù)據(jù)的輸出向量f*之間構(gòu)成聯(lián)合高斯分布
其中,k(x,x)=kn表示n×n的核矩陣,其元素kij=k(xi,xj);k(x,x*)=k(x*,x)t為測試數(shù)據(jù)x*與訓(xùn)練集的輸入x之間的協(xié)方差矩陣;k(x*,x*)為x*自身的協(xié)方差,i為單位矩陣。
由此得出預(yù)測值f*后驗分布為
其中
均值向量
本發(fā)明選取平方指數(shù)協(xié)方差函數(shù)(squaredexponentialcovariancefunction,se)計算核矩陣元素,其公式為
上式中包含未知超參數(shù):m=diag(l-2),l為方差尺度;
其中:
gpr模型通過極大化似然函數(shù)自適應(yīng)獲得協(xié)方差函數(shù)中的最優(yōu)超參數(shù),獲得超參數(shù)最優(yōu)值后,即可以用確定的協(xié)方差函數(shù)得到預(yù)測點的預(yù)測均值和方差。本發(fā)明采用改進粒子群算法求解超參數(shù),有效避免了共軛梯度方法的缺點。
粒子群優(yōu)化算法是源于模擬鳥群覓食行為的啟發(fā)式優(yōu)化算法,被廣泛用于非線性優(yōu)化問題。標準pso進化公式如下
式中:w為慣性權(quán)重;c1,c2為加速因子;r1,r2∈rand[0,1];
標準pso算法中慣性權(quán)重w和加速因子c1,c2為常數(shù),在搜索過程中易導(dǎo)致群體多樣性喪失、早熟、陷入局部最優(yōu)等問題。改進粒子群算法采用式(14)使得在進化后期增強局部尋優(yōu)能力,式(15)可以發(fā)揮粒子自身搜索能力及所有粒子群體認知能力。
w=wmax-(wmax-wmin)kt(14)
式中:wmax、wmin分別為初始慣性權(quán)重最大值和最小值;cmax、cmin分別為初始加速因子最大值、最小值,w、c1、c2分別為第k次迭代的慣性權(quán)重、加速因子值;t為迭代次數(shù)。
利用改進粒子群算法優(yōu)化gpr超參數(shù)流程如下:
1)初始化算法參數(shù)。包括粒子規(guī)模、迭代次數(shù)、慣性權(quán)重、加速因子初始值。
2)超參數(shù)初始化。對超參數(shù)向量中的每個參數(shù)初始化,并確定各參數(shù)變化范圍。
3)更新慣性權(quán)重和加速因子取值。
4)適應(yīng)度計算。每個粒子位置對應(yīng)著一個超參數(shù)解,計算此位置時的訓(xùn)練樣本對數(shù)似然函數(shù)即為適應(yīng)度值,并確定個體極值點和全局極值點。
5)最優(yōu)解更新。若粒子目前位置優(yōu)于自身記憶的最優(yōu)位置,則用當前位置替換;若此次迭代全局最優(yōu)位置優(yōu)于到目前為止搜索到的全局最優(yōu)位置,則用此次迭代的全局最優(yōu)位置替換。
6)粒子狀態(tài)更新與變異操作。由式(14)、(15)更新粒子速度與位置。若粒子位置超出參數(shù)變化范圍,則用參數(shù)相應(yīng)邊界值代替。設(shè)定粒子變異概率并進行變異操作。
7)循環(huán)計算。返回步驟3)循環(huán)計算,直至滿足收斂條件或達到最大迭代次數(shù)。
本發(fā)明在選取最優(yōu)變量集合基礎(chǔ)上,建立改進粒子群算法優(yōu)化的高斯過程回歸短期負荷預(yù)測模型,即pso-gpr模型。首先根據(jù)負荷特征,從歷史負荷、氣象因素等角度選取模型輸入變量并構(gòu)建訓(xùn)練集和驗證集,在訓(xùn)練集中利用隨機森林算法給出各輸入變量重要性評分并進行排序。設(shè)置最優(yōu)變量集合為空集,基于序列前向搜索策略將重要性評分最高的輸入變量依次加入最優(yōu)變量集合,在驗證集上利用優(yōu)化的高斯過程回歸模型進行測試,得到此時輸入變量集合的預(yù)測誤差。在遍歷所有輸入變量后,最優(yōu)變量集合即對應(yīng)著預(yù)測誤差最低的變量集合。
電力負荷是多種因素共同作用的結(jié)果,本發(fā)明主要從氣象因素、歷史負荷值及預(yù)測日日期類型三個方面考慮短期負荷預(yù)測建模輸入變量的選取。電力負荷每日、每周負荷曲線的形狀揭示負荷具有明顯的周期性,同時年負荷曲線也具有一定的相似性。從歷史負荷值可以發(fā)現(xiàn)負荷的變化趨勢,是短期負荷預(yù)測重要的影響因素。同時,溫度、濕度因素對日負荷大小具有直接影響,氣象因素的累積效應(yīng),如前一天溫度也會對預(yù)測日負荷產(chǎn)生作用。工作日及休息日由于人們的工作、休息習(xí)慣不同導(dǎo)致用電行為發(fā)生很大改變,負荷值具有明顯差異。綜合以上分析,本發(fā)明選取的輸入變量如表1所示。
表1變量符號及其物理意義
為消除物理量綱的不同,在進行訓(xùn)練模型前需要對數(shù)據(jù)進行歸一化處理,歸一化公式為
式中:
為量化預(yù)測值接近真實值的程度,本發(fā)明選擇平均絕對百分比誤差(meanabsolutepercentageerror,mape)和均方根誤差(rootmeansquareerror,rmse)作為模型預(yù)測效果評價指標,計算公式分別為:
式中:n為預(yù)測點個數(shù),yi為第i個預(yù)測點負荷真實值,
為驗證本發(fā)明方法的有效性,進行以下實驗:采用某電網(wǎng)負荷2015年6月15日4時至8月24日23時共1700個實測負荷值作為訓(xùn)練樣本序列,數(shù)據(jù)采樣時間間隔為1h,建立pso-gpr負荷預(yù)測模型,對8月25日0時至8月31日23時的168個負荷值做提前一天的預(yù)測。
利用隨機森林模型在訓(xùn)練集對24個輸入變量重要性進行排序,設(shè)置隨機森林參數(shù)為:回歸樹數(shù)目為500,節(jié)點最小尺寸為5,mtry=8。變量重要性序列如圖2所示,重要性評分由高到低排序依次為:預(yù)測日前一日負荷、預(yù)測日溫度、前七日負荷、前十四日負荷、前一日溫度、前兩日負荷、前三日負荷、預(yù)測日期類型、預(yù)測日濕度、前八日負荷、前兩日溫度、前一日濕度、去年同期濕度、前八日濕度、前八日溫度、前十四日濕度、去年同期負荷、前三日溫度、前三日濕度、前七日溫度、前兩日濕度、前七日濕度、前十四日溫度、去年同期溫度??梢钥闯觯跉v史負荷值對預(yù)測日負荷具有很大影響,決定了負荷變化趨勢,同時預(yù)測日溫度、濕度、日期類型也具有較高重要性評分。由變量重要性評分結(jié)合高斯過程回歸模型,得到不同輸入變量個數(shù)時負荷預(yù)測誤差如圖2所示。從圖中可以看出,較少輸入變量難以獲得足夠信息表征負荷特征,預(yù)測精度較低。隨著輸入變量個數(shù)的增加,進一步豐富了信息,預(yù)測精度有所提高。當輸入變量個數(shù)達到16個時,由誤差曲線可看出此時預(yù)測誤差最小。但隨著輸入變量的進一步增加,使得最優(yōu)輸入變量集合中混入了冗余信息,增加模型訓(xùn)練復(fù)雜度,降低了泛化能力,因此預(yù)測精度又會呈現(xiàn)下降趨勢。由此,選擇變量重要性序列前16個變量構(gòu)成最優(yōu)輸入變量集合。另外,在變量相同情況下,改進粒子群算法相對共軛梯度法進行高斯過程回歸預(yù)測時具有更好的預(yù)測效果。
圖3為輸入變量個數(shù)為16時,分別采用改進粒子群算法和共軛梯度算法求解模型超參數(shù)的適應(yīng)度曲線。相對共軛梯度算法,改進粒子群迭代次數(shù)更少,獲得更好的適應(yīng)度值。
為驗證pso-gpr模型預(yù)測性能,分別采用bp神經(jīng)網(wǎng)絡(luò)、svm(supportvectormachines)、cg-gpr建立短期負荷預(yù)測模型。圖4為四種預(yù)測模型預(yù)測結(jié)果與實際負荷曲線。從圖中可以看出,四種模型都能給出較精確的預(yù)測結(jié)果,svm和gpr模型性能優(yōu)于神經(jīng)網(wǎng)絡(luò)模型。經(jīng)改進粒子群算法優(yōu)化的高斯過程回歸模型更接近真實值,滿足一定的工程精度需求。預(yù)測模型定量評價指標結(jié)果如表2所示,從不同日的預(yù)測結(jié)果可以看出,pso-gpr相對cg-gpr模型預(yù)測精度都有不同程度的提高,驗證了改進粒子群算法的有效性。
表2負荷預(yù)測結(jié)果比較
綜上所述,本發(fā)明基于變量選擇與高斯過程回歸的短期負荷預(yù)測方法具有如下優(yōu)勢:采用隨機森林算法并基于序列前向搜索策略選取最優(yōu)變量集合,避免人工選取輸入變量的不足,提高了模型預(yù)測精度;同時,采用改進粒子群算法優(yōu)化高斯過程回歸模型參數(shù),避免傳統(tǒng)共軛梯度方法易陷入局部最優(yōu)解缺點,優(yōu)化后的高斯過程回歸模型增強了預(yù)測性能,提高了負荷預(yù)測精度。對于電力系統(tǒng)安排日前調(diào)度計劃及保證電網(wǎng)安全穩(wěn)定運行具有一定的參考價值。