一種基于電力大數(shù)據(jù)的負(fù)荷曲線并行聚類方法
【專利摘要】本發(fā)明公開了一種基于用電大數(shù)據(jù)的負(fù)荷曲線并行聚類方法,通過dbN小波系對(duì)所有負(fù)荷曲線進(jìn)行小波去噪,以降低曲線中的小波動(dòng)對(duì)聚類結(jié)果產(chǎn)生的影響,并采用了基于多核并行技術(shù)的K均值聚類算法進(jìn)行負(fù)荷曲線聚類,篩選出特征明顯的聚類結(jié)果,整合分析得到了最終的負(fù)荷曲線分類。本發(fā)明實(shí)現(xiàn)了海量負(fù)荷曲線的并行聚類算法,有效地提高了負(fù)荷曲線聚類的速度,為研究電力用戶負(fù)荷特性,進(jìn)行負(fù)荷、電量預(yù)測(cè)打下了基礎(chǔ)。
【專利說明】一種基于電力大數(shù)據(jù)的負(fù)荷曲線并行聚類方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種基于電力大數(shù)據(jù)的負(fù)荷曲線并行聚類方法,屬于電力營(yíng)銷智能應(yīng) 用【技術(shù)領(lǐng)域】。
【背景技術(shù)】
[0002] 電力營(yíng)銷、生產(chǎn)、調(diào)度等信息系統(tǒng)產(chǎn)生了海量的電力信息數(shù)據(jù),僅江蘇用采系統(tǒng), 每日需采集全省3000余萬居民用戶日負(fù)荷電量和20余萬負(fù)控大用戶的96點(diǎn)用電量數(shù)據(jù), 共計(jì)30多GB,自2006年以來積累的用電信息數(shù)據(jù)達(dá)39TB之多。江蘇電力大數(shù)據(jù)時(shí)代已然 來臨,但如何駕馭如此海量的數(shù)據(jù)信息,從中獲取有用的信息,挖掘潛在的價(jià)值,是江蘇電 力面臨的挑戰(zhàn)和機(jī)遇。
[0003] 電力系統(tǒng)負(fù)荷建模是電力系統(tǒng)仿真分析的重要基礎(chǔ),負(fù)荷建模的準(zhǔn)確性直接關(guān)系 到仿真計(jì)算的可信度和精確性。負(fù)荷建模需要建立在對(duì)電力負(fù)荷特性充分分析的基礎(chǔ)之 上,而面對(duì)江蘇省用電采集系統(tǒng)中海量的負(fù)荷數(shù)據(jù),對(duì)每一個(gè)用戶的負(fù)荷特性進(jìn)行分析是 不可能的,因此有必要對(duì)用戶進(jìn)行負(fù)荷聚類,根據(jù)聚類結(jié)果分析不同用戶群的負(fù)荷特性。
[0004] κ-means聚類算法簡(jiǎn)單易行,操作簡(jiǎn)便,是目前使用最為廣泛的聚類方法之一。它 首先選定一組初始聚類中心,通過迭代使得類間保持獨(dú)立、類內(nèi)保持緊密,迭代期間將聚類 子集中所有數(shù)據(jù)樣本的均值作為類的中心。目前K-means聚類算法在圖形分割、客戶分類、 負(fù)荷聚類等領(lǐng)域得到了廣泛的應(yīng)用。
[0005] 但在用電信息大數(shù)據(jù)的背景下,數(shù)以萬億的日負(fù)荷曲線需要進(jìn)行聚類分析,傳統(tǒng) 的K-means聚類算法計(jì)算難以應(yīng)付。目前主流的臺(tái)式電腦、筆記本電腦cpu中均包含多個(gè) 核心,因此可以充分利用現(xiàn)有的硬件資源,開發(fā)基于多核并行技術(shù)的K-means聚類算法,以 加快負(fù)荷聚類的速度,提高負(fù)荷聚類的效率。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明所要解決的技術(shù)問題是針對(duì)用電大數(shù)據(jù)背景下的負(fù)荷特性分析,提供一種 基于多核并行技術(shù)的K-means聚類算法,用于提高負(fù)荷聚類的速度。
[0007] 本發(fā)明為實(shí)現(xiàn)上述目的,采用如下技術(shù)方案:
[0008] -種基于電力大數(shù)據(jù)的負(fù)荷曲線并行聚類方法,包括如下步驟:
[0009] 1)收集負(fù)荷曲線并進(jìn)行篩選;
[0010] 2)對(duì)負(fù)荷曲線進(jìn)行歸一化;
[0011] 3)對(duì)負(fù)荷曲線進(jìn)行去噪;
[0012] 4)對(duì)負(fù)荷進(jìn)行聚類分析;
[0013] 5)對(duì)所述步驟4) K均值聚類得到的K類負(fù)荷聚類結(jié)果進(jìn)行特征分析,摘取用電特 征明顯的聚類結(jié)果,計(jì)算所得各類曲線的聚類中心,對(duì)各類曲線的聚類中心進(jìn)行二次分類, 得到幾種典型的負(fù)荷聚類結(jié)果。
[0014] 前述的步驟1)中,數(shù)據(jù)收集與篩選是指從省用電采集系統(tǒng)庫中抽取企業(yè)客戶的 96點(diǎn)負(fù)荷曲線,刪除其中負(fù)荷數(shù)據(jù)不全和負(fù)荷容量為0的曲線,得到數(shù)據(jù)完整且情況正常 的大客戶負(fù)荷曲線。
[0015] 前述的步驟2)中,負(fù)荷曲線歸一化是指對(duì)所述步驟1)的每條負(fù)荷曲線進(jìn)行遍歷, 找出96點(diǎn)中負(fù)荷最大的點(diǎn),作為基準(zhǔn)容量,進(jìn)行曲線歸一化,歸一化公式如下:
[0016] .. = ρ/ρ.μχ
[0017] 其中:下標(biāo)i表示負(fù)荷曲線編號(hào),j表示每條負(fù)荷曲線中的負(fù)荷采集序號(hào),Pu表示 第i個(gè)用戶在第j個(gè)采集點(diǎn)的負(fù)荷值,p iimax表示第i個(gè)用戶日負(fù)荷96點(diǎn)中的負(fù)荷最大值。
[0018] 前述的步驟3)中,負(fù)荷去噪包括以下步驟:
[0019] 3-1)選擇小波函數(shù)并確定分解的層數(shù),然后進(jìn)行小波分解;
[0020] 3-2)對(duì)各個(gè)分解尺度下的高頻系數(shù)選擇一個(gè)閾值進(jìn)行軟閾值量化處理;
[0021] 3-3)根據(jù)小波分解的各層頻域系數(shù)進(jìn)行負(fù)荷曲線的小波重構(gòu),得到去噪后的負(fù)荷 曲線。
[0022] 前述的步驟3-1)中,小波函數(shù)選定Daubechies小波系中的'dN4',分解層數(shù)為3 層。
[0023] 前述的步驟4)中,采用基于多核并行技術(shù)的K均值聚類算法進(jìn)行負(fù)荷曲線的聚類 分析,包括以下步驟:
[0024] 4-1)檢測(cè)當(dāng)前電腦CPU的核心數(shù)n,激活所有核心,準(zhǔn)備進(jìn)行計(jì)算;
[0025] 4-2)對(duì)所述步驟3)的去噪后的負(fù)荷曲線進(jìn)行相異度分析,找出相異度最大的K條 負(fù)荷曲線,作為并行K-means聚類算法的初始聚類中心;
[0026] 4-3)將所有負(fù)荷曲線等分成η份,交給當(dāng)前電腦的η個(gè)核心,分別與K個(gè)聚類中心 進(jìn)行相似度計(jì)算,并將負(fù)荷曲線歸入相似度最高的作為聚類中心的負(fù)荷曲線那一類中;
[0027] 4-4)所有負(fù)荷曲線全部分類完成后,計(jì)算并更新各類別當(dāng)前的聚類中心,檢查當(dāng) 前所有聚類中心與上一次迭代得到的聚類中心差值是否均小于預(yù)設(shè)閥值,若是,則進(jìn)入步 驟4-5),否則,轉(zhuǎn)入步驟4-3);
[0028] 4-5)聚類結(jié)束,關(guān)閉并行計(jì)算進(jìn)程,釋放內(nèi)存,顯示聚類結(jié)果。
[0029] 前述的步驟5)中,典型的負(fù)荷聚類結(jié)果包括:短時(shí)出現(xiàn)高負(fù)荷;全天負(fù)荷均衡;白 天負(fù)荷較1? ;白天負(fù)荷較1?,但中午略降;夜間負(fù)荷較
[0030] 本發(fā)明無需建立分布式計(jì)算系統(tǒng),僅僅利用現(xiàn)有臺(tái)式電腦或筆記本電腦的多核 CPU,即可實(shí)現(xiàn)負(fù)荷曲線聚類的并行計(jì)算,且該算法可獲取當(dāng)前電腦的CPU核心數(shù),并自動(dòng) 開啟所有核心參與聚類,充分利用了當(dāng)前電腦的計(jì)算性能,極大地提高了海量負(fù)荷曲線聚 類的速度。本發(fā)明相較于傳統(tǒng)的K均值聚類方法,充分利用了計(jì)算機(jī)的多核CPU,有效提高 了大數(shù)據(jù)背景下的負(fù)荷聚類效率,因此值得推廣和應(yīng)用。
【專利附圖】
【附圖說明】
[0031] 圖1是本發(fā)明方法的主體流程圖;
[0032] 圖2是基于多核并行技術(shù)的K均值聚類方法的流程圖;
[0033] 圖3是江蘇某用電大客戶日負(fù)荷曲線小波軟、硬閾值去噪效果比較示意圖;
[0034] 圖4是江蘇部分用電大客戶日負(fù)荷曲線K均值聚類得到的曲線聚類結(jié)果;
[0035] 圖5是圖4聚類后得到的曲線條數(shù)分布情況。
【具體實(shí)施方式】
[0036] 下面結(jié)合附圖和【具體實(shí)施方式】詳細(xì)說明本發(fā)明。
[0037] 如圖1所示,本發(fā)明的基于電力大數(shù)據(jù)的負(fù)荷曲線并行聚類方法包括以下步驟:
[0038] 一、收集負(fù)荷曲線并進(jìn)行篩選
[0039] 具體方法為:從省用電采集系統(tǒng)庫中抽取企業(yè)客戶的96點(diǎn)負(fù)荷曲線,企業(yè)客戶指 的是安裝有負(fù)荷控制終端的企業(yè)用戶,刪除其中負(fù)荷數(shù)據(jù)不全和負(fù)荷容量為〇的曲線,得 到數(shù)據(jù)完整且情況正常的大客戶負(fù)荷曲線。96點(diǎn)負(fù)荷曲線是指用戶一般15分鐘采集1個(gè) 點(diǎn),一天96點(diǎn),構(gòu)成1個(gè)客戶的96點(diǎn)負(fù)荷曲線。
[0040] 二、對(duì)負(fù)荷曲線進(jìn)行歸一化
[0041] 電力系統(tǒng)中各用戶的負(fù)荷電量、負(fù)荷容量千差萬別,用電量高的日均用電量高達(dá) 數(shù)十萬千瓦時(shí),負(fù)荷容量高達(dá)十?dāng)?shù)萬千瓦,而用電量低的日均用電量低至幾十個(gè)千瓦時(shí),負(fù) 荷容量?jī)H幾個(gè)千瓦。因此需要對(duì)所有負(fù)荷曲線進(jìn)行歸一化處理。歸一化是指對(duì)第一步中的 每條負(fù)荷曲線進(jìn)行遍歷,找出96點(diǎn)中負(fù)荷最大的點(diǎn),作為基準(zhǔn)容量,進(jìn)行曲線歸一化,歸一 化公式如下:
[0042] i,j = Pi,j/Pi,max
[0043] 其中:下標(biāo)i表不負(fù)荷曲線編號(hào),j表不每條負(fù)荷曲線中的負(fù)荷米集序號(hào),一般15 分鐘1個(gè)點(diǎn),一天96點(diǎn),Pu表示第i個(gè)用戶在第j個(gè)采集點(diǎn)的負(fù)荷值,P i niax表示第i個(gè)用 戶日負(fù)荷96點(diǎn)中的負(fù)荷最大值。
[0044] 三、對(duì)負(fù)荷曲線進(jìn)行去噪
[0045] 由于目前多數(shù)曲線聚類算法均通過曲線的數(shù)值相似度進(jìn)行聚類,而大數(shù)據(jù)聚類背 景下,曲線中存在的小波動(dòng)并不能代表用戶的用電趨勢(shì),而且會(huì)導(dǎo)致聚類結(jié)果不理想、聚類 趨勢(shì)不明朗的問題。因此本發(fā)明首先利用Daubechies小波系對(duì)每條負(fù)荷曲線進(jìn)行小波分 解,通過自定義軟閾值小波去噪對(duì)負(fù)荷曲線進(jìn)行平滑處理,然后進(jìn)行小波重構(gòu)得到去噪后 的負(fù)荷曲線。進(jìn)行去噪處理的具體步驟如下:
[0046] Stepl選擇小波函數(shù)并確定分解的層數(shù),然后進(jìn)行小波分解,本發(fā)明的小波函數(shù) 選定Daubechies小波系中的'dN4',分解層數(shù)為3層;
[0047] Step2對(duì)各個(gè)分解尺度下的高頻系數(shù)選擇一個(gè)閾值進(jìn)行軟閾值量化處理;
[0048] Step3根據(jù)小波分解的各層頻域系數(shù)進(jìn)行負(fù)荷曲線的小波重構(gòu),得到去噪后的負(fù) 荷曲線。
[0049] 本發(fā)明選定Daubechies小波系中的'dN4'作為小波函數(shù),分解層數(shù)為3層。Matlab 的強(qiáng)制和默認(rèn)閾值去噪會(huì)改變負(fù)荷曲線的走勢(shì),因此本方法采用自定義軟閾值去噪。
[0050] 四、對(duì)負(fù)荷進(jìn)行聚類分析
[0051] 用電大數(shù)據(jù)背景下,用戶負(fù)荷曲線的數(shù)量非常龐大,傳統(tǒng)的K均值聚類方法進(jìn)行 聚類時(shí)速度非常緩慢,本發(fā)明采用基于多核并行技術(shù)的K均值聚類算法進(jìn)行負(fù)荷曲線的聚 類分析,以提高聚類分析的速度。參見圖2,具體步驟如下:
[0052] 4-1)檢測(cè)當(dāng)前電腦CPU的核心數(shù)n,激活所有核心,準(zhǔn)備進(jìn)行計(jì)算;
[0053] 4-2)對(duì)第三步去噪后的負(fù)荷曲線進(jìn)行相異度分析,找出相異度最大的K條負(fù)荷曲 線,作為并行K-means聚類算法的初始聚類中心;
[0054] 4-3)將所有負(fù)荷曲線等分成η份,交給當(dāng)前電腦的η個(gè)核心,分別與K個(gè)聚類中心 進(jìn)行相似度計(jì)算,并將負(fù)荷曲線歸入相似度最高的作為聚類中心的負(fù)荷曲線那一類中;
[0055] 4-4)所有負(fù)荷曲線全部分類完成后,對(duì)各類別下的所有曲線群取平均值,并以此 平均值曲線更新各類別當(dāng)前的聚類中心,檢查當(dāng)前所有聚類中心與上一次迭代得到的聚類 中心差值是否均小于預(yù)設(shè)閥值,若是,則進(jìn)入步驟4-5),否則,轉(zhuǎn)入步驟4-3);
[0056] 4-5)聚類結(jié)束,關(guān)閉并行計(jì)算進(jìn)程,釋放內(nèi)存,顯示聚類結(jié)果。
[0057] 五、對(duì)第四步Κ均值聚類得到的Κ類負(fù)荷聚類結(jié)果進(jìn)行特征分析,摘取用電特征明 顯的聚類結(jié)果,如具有全天負(fù)荷均衡、白天負(fù)荷較高、晚上負(fù)荷較高的特征,計(jì)算所得各類 曲線的聚類中心,辨識(shí)各類曲線的特征,對(duì)各類曲線的聚類中心進(jìn)行二次分類,得到幾種典 型的負(fù)荷聚類結(jié)果。典型的負(fù)荷聚類結(jié)果包括短時(shí)出現(xiàn)高負(fù)荷;全天負(fù)荷均衡;白天負(fù)荷 較1? ;白天負(fù)荷較1?,但中午略降;夜間負(fù)荷較
[0058] 下面通過一個(gè)具體實(shí)施例詳細(xì)說明本發(fā)明。
[0059] 從江蘇省用電采集系統(tǒng)中抽取45, 000個(gè)企業(yè)客戶某一日的96點(diǎn)負(fù)荷曲線,刪除 其中負(fù)荷數(shù)據(jù)不全和負(fù)荷容量為〇的曲線,得到數(shù)據(jù)完整且情況正常的41487條負(fù)荷曲線。 為減少聚類的計(jì)算量,將96點(diǎn)曲線等效為24小時(shí)日負(fù)荷曲線。
[0060] 按照本發(fā)明,進(jìn)行歸一化處理和去噪處理后某用電大客戶日負(fù)荷曲線小波軟、硬 閾值去噪效果比較如圖3所示。
[0061] 可見硬閾值小波降噪后,曲線從雙峰變?yōu)閱畏?,失去了中午?fù)荷降低的特性;而自 定義閾值小波降噪后,曲線變得更為平滑,且基本特性均得以保留。
[0062] 為了提高用電曲線大數(shù)據(jù)聚類的速度,采用基于并行技術(shù)的改進(jìn)K均值聚類方法 將40, 000多條負(fù)荷曲線聚為20類,即對(duì)41487條負(fù)荷曲線進(jìn)行相異度分析,找出相異度最 大的20條負(fù)荷曲線,作為并行K-means聚類算法的初始聚類中心。在處理器為Intel Core i7-2600K,核心數(shù)為4,內(nèi)存4GB的電腦上進(jìn)行聚類,即將41487條負(fù)荷曲線等分成4份,交 給4個(gè)核心分別與20個(gè)聚類中心進(jìn)行相似度計(jì)算,并將曲線歸入相似度最高的作為聚類中 心的負(fù)荷曲線所在的類別。
[0063] 多核并行算法與傳統(tǒng)算法的計(jì)算時(shí)間比較如表1所示。
[0064] 表1并行K均值聚類計(jì)算時(shí)間
[0065]
【權(quán)利要求】
1. 一種基于電力大數(shù)據(jù)的負(fù)荷曲線并行聚類方法,其特征在于,包括如下步驟: 1) 收集負(fù)荷曲線并進(jìn)行篩選; 2) 對(duì)負(fù)荷曲線進(jìn)行歸一化; 3) 對(duì)負(fù)荷曲線進(jìn)行去噪; 4) 對(duì)負(fù)荷進(jìn)行聚類分析; 5) 對(duì)所述步驟4) K均值聚類得到的K類負(fù)荷聚類結(jié)果進(jìn)行特征分析,摘取用電特征明 顯的聚類結(jié)果,計(jì)算所得各類曲線的聚類中心,對(duì)各類曲線的聚類中心進(jìn)行二次分類,得到 幾種典型的負(fù)荷聚類結(jié)果。
2. 根據(jù)權(quán)利要求1所述的一種基于電力大數(shù)據(jù)的負(fù)荷曲線并行聚類方法,其特征在 于,所述步驟1)中,數(shù)據(jù)收集與篩選是指從省用電采集系統(tǒng)庫中抽取企業(yè)客戶的96點(diǎn)負(fù)荷 曲線,刪除其中負(fù)荷數(shù)據(jù)不全和負(fù)荷容量為〇的曲線,得到數(shù)據(jù)完整且情況正常的大客戶 負(fù)荷曲線。
3. 根據(jù)權(quán)利要求1所述的一種基于電力大數(shù)據(jù)的負(fù)荷曲線并行聚類方法,其特征在 于,所述步驟2)中,負(fù)荷曲線歸一化是指對(duì)所述步驟1)的每條負(fù)荷曲線進(jìn)行遍歷,找出96 點(diǎn)中負(fù)荷最大的點(diǎn),作為基準(zhǔn)容量,進(jìn)行曲線歸一化,歸一化公式如下: P,i,j = Pi.j/Pi.max 其中:下標(biāo)i表示負(fù)荷曲線編號(hào),j表示每條負(fù)荷曲線中的負(fù)荷采集序號(hào),Pu表示第i 個(gè)用戶在第j個(gè)采集點(diǎn)的負(fù)荷值,Piimax表示第i個(gè)用戶日負(fù)荷96點(diǎn)中的負(fù)荷最大值。
4. 根據(jù)權(quán)利要求1所述的一種基于電力大數(shù)據(jù)的負(fù)荷曲線并行聚類方法,其特征在 于,所述步驟3)中,負(fù)荷去噪包括以下步驟: 3-1)選擇小波函數(shù)并確定分解的層數(shù),然后進(jìn)行小波分解; 3-2)對(duì)各個(gè)分解尺度下的高頻系數(shù)選擇一個(gè)閾值進(jìn)行軟閾值量化處理; 3- 3)根據(jù)小波分解的各層頻域系數(shù)進(jìn)行負(fù)荷曲線的小波重構(gòu),得到去噪后的負(fù)荷曲 線。
5. 根據(jù)權(quán)利要求4所述的一種基于電力大數(shù)據(jù)的負(fù)荷曲線并行聚類方法,其特征在 于,所述步驟3-1)中,小波函數(shù)選定Daubechies小波系中的'dN4',分解層數(shù)為3層。
6. 根據(jù)權(quán)利要求1所述的一種基于電力大數(shù)據(jù)的負(fù)荷曲線并行聚類方法,其特征在 于,所述步驟4)中,采用基于多核并行技術(shù)的K均值聚類算法進(jìn)行負(fù)荷曲線的聚類分析,包 括以下步驟: 4- 1)檢測(cè)當(dāng)前電腦CPU的核心數(shù)n,激活所有核心,準(zhǔn)備進(jìn)行計(jì)算; 4-2)對(duì)所述步驟3)的去噪后的負(fù)荷曲線進(jìn)行相異度分析,找出相異度最大的K條負(fù)荷 曲線,作為并行K-means聚類算法的初始聚類中心; 4-3)將所有負(fù)荷曲線等分成η份,交給當(dāng)前電腦的η個(gè)核心,分別與K個(gè)聚類中心進(jìn)行 相似度計(jì)算,并將負(fù)荷曲線歸入相似度最高的作為聚類中心的負(fù)荷曲線那一類中; 4-4)所有負(fù)荷曲線全部分類完成后,計(jì)算并更新各類別當(dāng)前的聚類中心,檢查當(dāng)前 所有聚類中心與上一次迭代得到的聚類中心差值是否均小于預(yù)設(shè)閥值,若是,則進(jìn)入步驟 4-5),否則,轉(zhuǎn)入步驟4-3); 4-5)聚類結(jié)束,關(guān)閉并行計(jì)算進(jìn)程,釋放內(nèi)存,顯示聚類結(jié)果。
7. 根據(jù)權(quán)利要求1所述的一種基于電力大數(shù)據(jù)的負(fù)荷曲線并行聚類方法,其特征在 于,所述步驟5)中,典型的負(fù)荷聚類結(jié)果包括:短時(shí)出現(xiàn)高負(fù)荷;全天負(fù)荷均衡;白天負(fù)荷 較尚;白天負(fù)荷較尚,但中午略降;夜間負(fù)荷較尚。
【文檔編號(hào)】G06F17/30GK104063480SQ201410312530
【公開日】2014年9月24日 申請(qǐng)日期:2014年7月2日 優(yōu)先權(quán)日:2014年7月2日
【發(fā)明者】鄭海雁, 金農(nóng), 顧國(guó)棟, 丁曉, 謝林楓, 熊政, 徐金玲, 仲春林, 方超, 李昆明, 季聰 申請(qǐng)人:國(guó)家電網(wǎng)公司, 江蘇省電力公司, 江蘇方天電力技術(shù)有限公司