本發(fā)明涉及電力系統(tǒng)大數(shù)據(jù)挖掘領(lǐng)域,特別是一種基于特性指標(biāo)的電力輸變電設(shè)備負荷壞數(shù)據(jù)檢測算法。
背景技術(shù):
隨著電力系統(tǒng)信息化程度的不斷提高和電力大數(shù)據(jù)量的迅速增長,研究適用于電力大數(shù)據(jù)挖掘的算法并建立有效的知識發(fā)現(xiàn)模型,對智能電網(wǎng)業(yè)務(wù)模式創(chuàng)新和發(fā)展具有重要意義。
電力系統(tǒng)中,各類數(shù)據(jù)采集與監(jiān)控系統(tǒng)采集的輸變電主設(shè)備負荷數(shù)據(jù)是電力系統(tǒng)調(diào)度運行、安全穩(wěn)定分析、設(shè)備狀態(tài)與風(fēng)險評估基礎(chǔ)。然而,在電力系統(tǒng)的實際運行中,一方面由于數(shù)據(jù)采集通道錯誤、遠程終端單元故障等原因會導(dǎo)致觀測數(shù)據(jù)出現(xiàn)反常態(tài)勢,以致與大多數(shù)觀測值不一致;另一方面,由于特殊事件(如線路檢修、切負荷停電、大事件沖擊等)引起負荷的異常變化,也會導(dǎo)致觀測數(shù)據(jù)違背常規(guī)。此外,數(shù)據(jù)計量裝置或存儲設(shè)備故障也可能導(dǎo)致部分負荷數(shù)據(jù)缺失。因此,在進行負荷數(shù)據(jù)分析與建模之前,必須對原始負荷數(shù)據(jù)中的異常數(shù)據(jù)進行有效的檢測和辨識。
這里所說的負荷缺壞數(shù)據(jù)的識別與處理基于以下兩個前提條件:(1)負荷數(shù)據(jù)具有規(guī)律性和隨機性兩個特點。規(guī)律性是負荷壞數(shù)據(jù)辨識與修正的基礎(chǔ),而隨機性確定了負荷修正值在統(tǒng)計學(xué)意義下的置信度與置信區(qū)間。(2)負荷曲線具有縱向平滑性及橫向相似性。平滑性是指電力系統(tǒng)相近時刻負荷變化較小,相似性是指相鄰且類型相同的負荷曲線形狀非常相似。
目前國內(nèi)外對電力負荷數(shù)據(jù)異常辨識的研究存在一些普遍性的問題。首先,文獻中的方法都是針對小規(guī)模數(shù)據(jù)集,對于大規(guī)模數(shù)據(jù)集的計算效率較低;其次,大多數(shù)方法沒有將負荷曲線的平滑性與相似性綜合考慮,從而導(dǎo)致辨識與修正的準(zhǔn)確率較低;最后,這些方法對單個離散壞數(shù)據(jù)的處理效果較好,而對于大片連續(xù)壞數(shù)據(jù)的處理效果一般。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的是為了解決上述問題,設(shè)計了一種基于特性指標(biāo)的電力輸變電設(shè)備負荷壞數(shù)據(jù)檢測算法。具體設(shè)計方案為:
一種基于特性指標(biāo)的電力輸變電設(shè)備負荷壞數(shù)據(jù)檢測算法,其特征在于,步驟為:
令迭代次數(shù)為r,用戶總數(shù)為M,且用戶的數(shù)量為至少一個,
步驟一、令r=1,
步驟二、計算聚類有效性指標(biāo),確定最佳聚類數(shù)k,
步驟三、用集成聚類算法對負荷曲線聚類,得到每一類的特征曲線Cp。
步驟四、計算每一類中各負荷曲線在各時刻時,實際負荷曲線與特征曲線的差異程度zscore。
步驟五、用移動中值平滑算法對每一條負荷曲線進行平滑處理,
步驟六、將原始負荷曲線和平滑負荷曲線作差得到誤差序列en,
步驟七、計算各時刻的平滑性指標(biāo)mscore,
步驟八、檢測壞數(shù)據(jù),
步驟九、令迭代次數(shù)r=r+1,若r>M,重復(fù)步驟二至步驟九,若r<M,則完成檢測。
步驟二中,得到K個類簇{Xp,p=1,2,…,K},步驟三中,得到特征曲線,其中p為迭代聚類數(shù),h為時刻值。
步驟四中,計算第p類各條曲線在t時刻的相似性指標(biāo),
重復(fù)步驟四,直至每條負荷曲線都被處理過,該指標(biāo)表示負荷曲線上某點與特征曲線上對應(yīng)點的偏離程度,zscore的值越大表明該點的異常度越大。
步驟五中,對每一條負荷曲線進行平滑處理的流程為:
輸入:時間序列x={x1,x2,…,xn};參數(shù)k
輸出:平滑處理后的時間序列yn,
令迭代次數(shù)r=1
取窗口寬度為2k+1,則xi的平滑值yi為xi-k,xi-k+1,…,xi+k-1,xi+k的中值:
yi=median{xi-k,xi-k+1,…,xi+k-1,xi+k}
令窗口寬度取3,即k=1。
則邊界點的平滑值為:
y1=median{y2,y3,…,3y2-2y3}
yn=median{yn,yn-1,…,3yn-1-2yn}
重復(fù)以上步驟,直至序列值不再變化,
移動中值平滑法由于采用的是中位數(shù),
對每條負荷曲線用3點移動中值平滑法計算其平滑曲線,得到
步驟六中,誤差序列en的獲得方法為:
步驟七中,計算xn各時刻的平滑性指標(biāo)mscore,其計算公式為:
該指標(biāo)表示負荷曲線上某點與平滑曲線上對應(yīng)點的偏離程度,zscore的值越大表明該點的異常度越大。
步驟八中,壞數(shù)據(jù)檢測公式為:
|zscore|>thr1,|mscore|>thr2
所述thr1為zscore的閥值,所述thr2為所述mscore的閥值。
通過本發(fā)明的上述技術(shù)方案得到的基于特性指標(biāo)的電力輸變電設(shè)備負荷壞數(shù)據(jù)檢測算法,其有益效果是:
移動中值平滑法由于采用的是中位數(shù)而不是平均值,因此可以有效消除離群點對其鄰近點平滑值的影響,具有較好的穩(wěn)定性。
對于大規(guī)模數(shù)據(jù)集的計算效率較高,辨識與修正的準(zhǔn)確率較高能夠有效處理連續(xù)壞數(shù)據(jù)。
附圖說明
圖1是本發(fā)明所述基于特性指標(biāo)的電力輸變電設(shè)備負荷壞數(shù)據(jù)檢測算法的步驟流程圖;
圖2是本發(fā)明所述zscore的各時刻箱線圖;
圖3是本發(fā)明所述mscore的各時刻箱線圖;
圖4是本發(fā)明所述輸變電主設(shè)備負荷數(shù)據(jù)的zscore散點圖;
圖5是本發(fā)明所述輸變電主設(shè)備負荷數(shù)據(jù)的mscore散點圖。
具體實施方式
下面結(jié)合附圖對本發(fā)明進行具體描述。
圖1是本發(fā)明所述基于特性指標(biāo)的電力輸變電設(shè)備負荷壞數(shù)據(jù)檢測算法的
步驟流程圖,如圖1所示,一種基于特性指標(biāo)的電力輸變電設(shè)備負荷壞數(shù)據(jù)檢測算法,其特征在于,步驟為:
令迭代次數(shù)為r,設(shè)備負荷曲線總數(shù)為M,且設(shè)備負荷曲線的數(shù)量為至少一個,
步驟一、令r=1,
步驟二、計算聚類有效性指標(biāo),確定最佳聚類數(shù)k,
步驟三、用集成聚類算法對負荷曲線聚類,得到每一類的特征曲線Cp。
步驟四、計算每一類中各負荷曲線在各時刻時,實際負荷曲線與特征曲線的差異程度zscore。
步驟五、用移動中值平滑算法對每一條負荷曲線進行平滑處理,
步驟六、將原始負荷曲線和平滑負荷曲線作差得到誤差序列en,
步驟七、計算各時刻的平滑性指標(biāo)mscore,
步驟八、檢測壞數(shù)據(jù),
步驟九、令迭代次數(shù)r=r+1,若r>M,重復(fù)步驟二至步驟九,若r<M,則完成檢測。
步驟二中,得到K個類簇{Xp,p=1,2,…,K},步驟三中,得到特征曲線,其中p為迭代聚類數(shù),h為時刻值。
步驟四中,計算第p類各條曲線在t時刻的相似性指標(biāo),
重復(fù)步驟四,直至每條負荷曲線都被處理過,該指標(biāo)表示負荷曲線上某點與特征曲線上對應(yīng)點的偏離程度,zscore的值越大表明該點的異常度越大。
步驟五中,對每一條負荷曲線進行平滑處理的流程為:
輸入:時間序列x={x1,x2,…,xn};參數(shù)k
輸出:平滑處理后的時間序列yn,
令迭代次數(shù)r=1
取窗口寬度為2k+1,則xi的平滑值yi為xi-k,xi-k+1,…,xi+k-1,xi+k的中值:
yi=median{xi-k,xi-k+1,…,xi+k-1,xi+k}
令窗口寬度取3,即k=1。
則邊界點的平滑值為:
y1=median{y2,y3,…,3y2-2y3}
yn=median{yn,yn-1,…,3yn-1-2yn}
重復(fù)以上步驟,直至序列值不再變化,
移動中值平滑法由于采用的是中位數(shù),
對每條負荷曲線用3點移動中值平滑法計算其平滑曲線,得到
步驟六中,誤差序列en的獲得方法為:
步驟七中,計算xn各時刻的平滑性指標(biāo)mscore,其計算公式為:
該指標(biāo)表示負荷曲線上某點與平滑曲線上對應(yīng)點的偏離程度,zscore的值越大表明該點的異常度越大。
步驟八中,壞數(shù)據(jù)檢測公式為:
|zscore|>thr1,|mscore|>thr2
所述thr1為zscore的閥值,所述thr2為所述mscore的閥值。
取某省級電網(wǎng)185個電力用戶一年365天的負荷數(shù)據(jù),共67525條負荷曲線。每條負荷曲線記錄全天的48點,共3241200個數(shù)據(jù)點。人為制造離散壞數(shù)據(jù)點675個,連續(xù)壞數(shù)據(jù)點125個,壞數(shù)據(jù)占比為0.025%。
實施例一
通過集成聚類法對67525條負荷曲線進行聚類,本實施例中得到K個類簇{Xp,p=1,2,…,K}及每一類的特征曲線本例中,H=48,且其中每個族類的曲線個數(shù)為n1,n2,…,nk,易知n1+n1+…+nk=67525。
實施例二
計算第一個類簇X1中n1條曲線與特征曲線C1在每個時刻的相似性指標(biāo)zscore
式中,i=1,2,…,n1,t=1,2,…,48.
重復(fù)本實施例的上述計算過程,分別計算剩余k-1個類簇中剩余的負荷曲線的相似性指標(biāo)zscore。
實施例三
取第一條負荷曲線x1,根據(jù)參數(shù)k設(shè)置窗口寬度,
本實時例中取k=3,
窗口寬度為2k+1,
x1(t)的平滑值y1(i)為x1(t-k),x1(t-k+1),…,x1(t+k-1),x1(t+k)的中值:
y1(t)=median{x1(t-k),x1(t-k+1),…,x1(t+k-1),x1(t+k)}
重復(fù)本實施例的上述計算過程,直至序列值不再變化。
根據(jù)本實施例的上述計算過程,對67525條負荷曲線xi都得出對應(yīng)的yi。
實施例四
計算每條負荷曲線的誤差序列ei:
ei=y(tǒng)i-xi={yi(t)-xi(t),t=1,2,…,48}
計算各條曲線各個時刻的平滑性指標(biāo)mscore:
mscorei(t)=ei(t)/yi(t),h=1,2,…,48
實施例五
圖2是本發(fā)明所述zscore的各時刻箱線圖;圖3是本發(fā)明所述mscore的各時刻箱線圖,圖2與圖3的指標(biāo)統(tǒng)計結(jié)果為根據(jù)實施例一至四獲得,如圖2、圖3所示,由箱線圖可見各時刻zscore和mscore的值都以0為中心;若用Q3表示上四分位數(shù),Q1表示下四分位數(shù),四分位間距IQR=Q3-Q1,則大多數(shù)點都位于偏離中位線±3IQR的范圍內(nèi)(即圖中的上下邊緣內(nèi));偏離箱線圖中位線越遠的點是壞數(shù)據(jù)的可能性越大。
實施例六
為了確定閾值thr1和thr2的取值,根據(jù)實施例一至五的計算指標(biāo)統(tǒng)計結(jié)果,作出zscore和mscore的散點圖。圖4是本發(fā)明所述負荷數(shù)據(jù)的zscore散點圖;圖5是本發(fā)明所述負荷數(shù)據(jù)的mscore散點圖,如圖4圖5所示,圖4和圖5中的離群點表示負荷曲線的壞數(shù)據(jù)??梢妟score比mscore的波動性更大。
根據(jù)zscore和mscore的散點圖,本算例中thr1取0.65,thr2取0.3。獲得檢測結(jié)果:
其中漏檢數(shù)表示把壞數(shù)據(jù)檢測為正常數(shù)據(jù),錯檢表示把正常數(shù)據(jù)檢測為壞數(shù)據(jù),檢測錯誤率為漏檢數(shù)與誤檢數(shù)之和與壞數(shù)據(jù)總量的比值。
由上表可見,本文提出的負荷曲線壞數(shù)據(jù)檢測算法具有較高的準(zhǔn)確率。隨著壞數(shù)據(jù)數(shù)量的增大,漏檢數(shù)逐漸增大,誤檢數(shù)變化較小,算法的檢測錯誤率逐漸減小。
實施例八
在實施例七的檢測結(jié)果中,取壞數(shù)據(jù)數(shù)量為800,研究閾值thr1=0.65與thr2=0.3對檢測結(jié)果的影響。
由計算結(jié)果可見,閾值thr1和thr2的取值對于檢測結(jié)果具有重要的影響,檢測錯誤率與thr1和thr2的關(guān)系曲線基本都呈U形,即存在最優(yōu)的閾值thr1和thr2組合,使得檢測錯誤率最小。選取合理的thr1和thr2對于負荷曲線壞數(shù)據(jù)檢測非常重要,閾值的選取可以借助于zscore和mscore的散點圖。
上述技術(shù)方案僅體現(xiàn)了本發(fā)明技術(shù)方案的優(yōu)選技術(shù)方案,本技術(shù)領(lǐng)域的技術(shù)人員對其中某些部分所可能做出的一些變動均體現(xiàn)了本發(fā)明的原理,屬于本發(fā)明的保護范圍之內(nèi)。