本發(fā)明涉及數(shù)據(jù)異常監(jiān)測,尤其涉及一種數(shù)據(jù)異常監(jiān)測方法、裝置、設(shè)備以及存儲介質(zhì)。
背景技術(shù):
1、隨著現(xiàn)代科技的不斷發(fā)展和普及,數(shù)據(jù)采集已經(jīng)成為了各個領(lǐng)域中不可或缺的一部分。在海量高維高密數(shù)據(jù)的采集過程中,異常檢測和預(yù)警尤為重要,這些數(shù)據(jù)通常包含著大量的信息和隱藏的異常,而這些異??赡軐茖W(xué)研究、工業(yè)生產(chǎn)、金融投資等領(lǐng)域產(chǎn)生重大影響。尤其是在電網(wǎng)領(lǐng)域,由于電網(wǎng)生產(chǎn)中設(shè)備并不完全可靠,手動記錄的數(shù)據(jù)也易出錯,因此電力負(fù)荷數(shù)據(jù)會產(chǎn)生大量異常數(shù)據(jù)和不完整數(shù)據(jù)。由于數(shù)據(jù)量大,數(shù)據(jù)的不完整和不準(zhǔn)確性容易被放大,進(jìn)而影響后續(xù)的數(shù)據(jù)挖掘和分析。因此,如何對電網(wǎng)海量高維高密數(shù)據(jù)進(jìn)行實(shí)時采集、異常檢測和預(yù)警,成為了迫切需要解決的問題。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提供了一種數(shù)據(jù)異常監(jiān)測方法、裝置、設(shè)備以及存儲介質(zhì),以解決電力負(fù)荷數(shù)據(jù)會產(chǎn)生大量異常數(shù)據(jù)和不完整數(shù)據(jù),由于數(shù)據(jù)量大,數(shù)據(jù)的不完整和不準(zhǔn)確性容易被放大,進(jìn)而影響后續(xù)的數(shù)據(jù)挖掘和分析的技術(shù)問題。
2、為了解決上述技術(shù)問題,本發(fā)明實(shí)施例提供了一種數(shù)據(jù)異常監(jiān)測方法,包括:
3、獲取待監(jiān)測數(shù)據(jù);
4、將所述待監(jiān)測數(shù)據(jù)輸入預(yù)設(shè)的多元高斯分布模型中,以使所述多元高斯分布模型根據(jù)預(yù)設(shè)的均值和協(xié)方差矩陣,對所述待監(jiān)測數(shù)據(jù)的概率密度函數(shù)值進(jìn)行計算,輸出所述待監(jiān)測數(shù)據(jù)的概率密度函數(shù)值;
5、將所述概率密度函數(shù)值和預(yù)設(shè)的異常閾值進(jìn)行比對,當(dāng)所述概率密度函數(shù)值小于所述異常閾值時,判定所述待監(jiān)測數(shù)據(jù)為異常數(shù)據(jù),否則判定所述待監(jiān)測數(shù)據(jù)為正常數(shù)據(jù);
6、當(dāng)判定所述待監(jiān)測數(shù)據(jù)為異常數(shù)據(jù)時,生成對應(yīng)的數(shù)據(jù)異常預(yù)警信息;
7、其中,所述多元高斯分布模型是根據(jù)歷史數(shù)據(jù)對預(yù)設(shè)的多元高斯分布進(jìn)行擬合得到的。
8、作為優(yōu)選方案,在將所述待監(jiān)測數(shù)據(jù)輸入預(yù)設(shè)的多元高斯分布模型中之前,還包括:
9、對所述待監(jiān)測數(shù)據(jù)進(jìn)行預(yù)處理;其中,所述預(yù)處理包括:數(shù)據(jù)清洗和數(shù)據(jù)標(biāo)準(zhǔn)化。
10、作為優(yōu)選方案,所述多元高斯分布模型的生成,包括:
11、獲取歷史數(shù)據(jù),并對所述歷史數(shù)據(jù)進(jìn)行預(yù)處理;
12、提取預(yù)處理后的歷史數(shù)據(jù)對應(yīng)的數(shù)據(jù)特征;
13、獲取預(yù)設(shè)的多元高斯分布的鄰域和形成高密度區(qū)域所需的最小點(diǎn)數(shù),繼而根據(jù)所述鄰域和最小點(diǎn)數(shù),將所述歷史數(shù)據(jù)對應(yīng)的所有歷史數(shù)據(jù)點(diǎn)中,在所述鄰域范圍內(nèi)存在的其余歷史數(shù)據(jù)點(diǎn)的個數(shù)大于或等于所述最小點(diǎn)數(shù)的歷史數(shù)據(jù)點(diǎn)添加至預(yù)設(shè)的集合中,得到對應(yīng)的簇集合;
14、計算所述簇集合中的歷史數(shù)據(jù)點(diǎn)對應(yīng)的數(shù)據(jù)特征的均值和協(xié)方差矩陣,繼而根據(jù)所述均值和協(xié)方差矩陣,對一預(yù)設(shè)的多元高斯分布進(jìn)行擬合,得到所述多元高斯分布模型。
15、作為優(yōu)選方案,所述根據(jù)所述鄰域大小和最小點(diǎn)數(shù),將所述歷史數(shù)據(jù)對應(yīng)的所有歷史數(shù)據(jù)點(diǎn)中,在所述鄰域范圍內(nèi)存在的其余歷史數(shù)據(jù)點(diǎn)的個數(shù)大于或等于所述最小點(diǎn)數(shù)的歷史數(shù)據(jù)點(diǎn)添加至預(yù)設(shè)的集合中,得到對應(yīng)的簇集合,包括:
16、初始化一個空的簇集合和一個空的噪聲點(diǎn)集合,并將所述歷史數(shù)據(jù)對應(yīng)的所有歷史數(shù)據(jù)點(diǎn)標(biāo)記為未訪問狀態(tài);
17、從歷史數(shù)據(jù)點(diǎn)中隨機(jī)選擇一個標(biāo)記為未訪問狀態(tài)的第一歷史數(shù)據(jù)點(diǎn),計算所述第一歷史數(shù)據(jù)點(diǎn)在所述鄰域范圍內(nèi)其余的歷史數(shù)據(jù)點(diǎn)的個數(shù),若所述個數(shù)小于所述最小點(diǎn)數(shù),則將所述第一歷史數(shù)據(jù)點(diǎn)標(biāo)記為已訪問狀態(tài),并將所述第一歷史數(shù)據(jù)點(diǎn)添加到噪聲點(diǎn)集合中,繼而繼續(xù)對下一歷史數(shù)據(jù)點(diǎn)進(jìn)行訪問;
18、若所述個數(shù)大于或等于所述最小點(diǎn)數(shù),則將所述第一歷史數(shù)據(jù)點(diǎn)標(biāo)記為已訪問狀態(tài),并將所述第一歷史數(shù)據(jù)點(diǎn)添加到簇集合中;
19、遞歸訪問所述第一歷史數(shù)據(jù)點(diǎn)在所述鄰域范圍內(nèi)其余的歷史數(shù)據(jù)點(diǎn),將訪問到的歷史數(shù)據(jù)點(diǎn)標(biāo)記為已訪問狀態(tài),并計算訪問到的歷史數(shù)據(jù)點(diǎn)在所述鄰域范圍內(nèi)的其余歷史數(shù)據(jù)點(diǎn)的個數(shù),若所述個數(shù)小于所述最小點(diǎn)數(shù),則將訪問到的歷史數(shù)據(jù)點(diǎn)添加到簇集合中,否則添加到噪聲點(diǎn)集合中,得到對應(yīng)的簇集合和噪聲點(diǎn)集合。
20、作為優(yōu)選方案,所述對所述歷史數(shù)據(jù)進(jìn)行預(yù)處理,包括:
21、判斷所述歷史數(shù)據(jù)中是否存在歷史異常數(shù)據(jù),當(dāng)所述歷史數(shù)據(jù)中存在歷史異常數(shù)據(jù)時,提取所述歷史異常數(shù)據(jù);
22、根據(jù)預(yù)設(shè)的近似符號算法,對所述歷史異常數(shù)據(jù)進(jìn)行時間序列離散處理和符號化處理,得到所述歷史異常數(shù)據(jù)對應(yīng)的符號序列;
23、根據(jù)預(yù)設(shè)的歐氏距離算法,計算各所述符號序列之間的相似度,繼而根據(jù)各所述符號序列之間的相似度得到一數(shù)據(jù)參考曲線;
24、根據(jù)所述數(shù)據(jù)參考曲線,對所述歷史異常數(shù)據(jù)對應(yīng)的時間序列進(jìn)行調(diào)整。
25、作為優(yōu)選方案,所述判斷所述歷史數(shù)據(jù)中是否存在歷史異常數(shù)據(jù),包括:
26、計算所述歷史數(shù)據(jù)的中位數(shù);
27、計算所述歷史數(shù)據(jù)的下四分位數(shù)和上四分位數(shù),繼而根據(jù)所述下四分位數(shù)和上四分位數(shù)計算得到所述歷史數(shù)據(jù)的四分位距;
28、根據(jù)所述中位數(shù)、下四分位數(shù)、上四分位數(shù)和四分位距,計算得到所述歷史數(shù)據(jù)對應(yīng)的下異常值閾值和上異常值閾值;
29、將所述歷史數(shù)據(jù)與所述下異常值閾值和上異常值閾值進(jìn)行比對,將小于所述下閾值或大于所述上閾值的歷史數(shù)據(jù)作為歷史異常數(shù)據(jù)。
30、作為優(yōu)選方案,根據(jù)以下公式對所述待監(jiān)測數(shù)據(jù)的概率密度函數(shù)值進(jìn)行計算:
31、
32、其中,n為待監(jiān)測數(shù)據(jù)的數(shù)據(jù)特征數(shù)量;x為包含當(dāng)前檢測的電力數(shù)據(jù)參數(shù)的特征向量;μ為所述特征均值的向量;σ為所述協(xié)方差矩陣;∣σ∣為所述協(xié)方差矩陣的行列式。
33、在上述實(shí)施例的基礎(chǔ)上,本發(fā)明另一實(shí)施例提供了一種數(shù)據(jù)異常監(jiān)測裝置,包括:待監(jiān)測數(shù)據(jù)獲取模塊、概率密度函數(shù)值計算模塊、異常數(shù)據(jù)識別模塊以及數(shù)據(jù)異常預(yù)警生成模塊;
34、所述待監(jiān)測數(shù)據(jù)獲取模塊,用于獲取待監(jiān)測數(shù)據(jù);
35、所述概率密度函數(shù)值計算模塊,用于將所述待監(jiān)測數(shù)據(jù)輸入預(yù)設(shè)的多元高斯分布模型中,以使所述多元高斯分布模型根據(jù)預(yù)設(shè)的均值和協(xié)方差矩陣,對所述待監(jiān)測數(shù)據(jù)的概率密度函數(shù)值進(jìn)行計算,輸出所述待監(jiān)測數(shù)據(jù)的概率密度函數(shù)值;其中,所述多元高斯分布模型是根據(jù)歷史數(shù)據(jù)對預(yù)設(shè)的多元高斯分布進(jìn)行擬合得到的;
36、所述異常數(shù)據(jù)識別模塊,用于將所述概率密度函數(shù)值和預(yù)設(shè)的異常閾值進(jìn)行比對,當(dāng)所述概率密度函數(shù)值小于所述異常閾值時,判定所述待監(jiān)測數(shù)據(jù)為異常數(shù)據(jù),否則判定所述待監(jiān)測數(shù)據(jù)為正常數(shù)據(jù);
37、所述數(shù)據(jù)異常預(yù)警生成模塊,用于當(dāng)判定所述待監(jiān)測數(shù)據(jù)為異常數(shù)據(jù)時,生成對應(yīng)的數(shù)據(jù)異常預(yù)警信息。
38、在上述實(shí)施例的基礎(chǔ)上,本發(fā)明又一實(shí)施例提供了一種電子設(shè)備,所述設(shè)備包括處理器、存儲器以及存儲在所述存儲器中且被配置為由所述處理器執(zhí)行的計算機(jī)程序,所述處理器執(zhí)行所述計算機(jī)程序時實(shí)現(xiàn)上述發(fā)明實(shí)施例所述的數(shù)據(jù)異常監(jiān)測方法。
39、在上述實(shí)施例的基礎(chǔ)上,本發(fā)明又一實(shí)施例提供了一種存儲介質(zhì),所述存儲介質(zhì)包括存儲的計算機(jī)程序,其中,在所述計算機(jī)程序運(yùn)行時控制所述存儲介質(zhì)所在設(shè)備執(zhí)行上述發(fā)明實(shí)施例所述的數(shù)據(jù)異常監(jiān)測方法。
40、相比于現(xiàn)有技術(shù),本發(fā)明實(shí)施例具有如下有益效果:
41、本發(fā)明提供了一種數(shù)據(jù)異常監(jiān)測方法,獲取待監(jiān)測數(shù)據(jù);將所述待監(jiān)測數(shù)據(jù)輸入預(yù)設(shè)的多元高斯分布模型中,以使所述多元高斯分布模型根據(jù)預(yù)設(shè)的均值和協(xié)方差矩陣,對所述待監(jiān)測數(shù)據(jù)的概率密度函數(shù)值進(jìn)行計算,輸出所述待監(jiān)測數(shù)據(jù)的概率密度函數(shù)值;將所述概率密度函數(shù)值和預(yù)設(shè)的異常閾值進(jìn)行比對,當(dāng)所述概率密度函數(shù)值小于所述異常閾值時,判定所述待監(jiān)測數(shù)據(jù)為異常數(shù)據(jù),否則判定所述待監(jiān)測數(shù)據(jù)為正常數(shù)據(jù);當(dāng)判定所述待監(jiān)測數(shù)據(jù)為異常數(shù)據(jù)時,生成對應(yīng)的數(shù)據(jù)異常預(yù)警信息;其中,所述多元高斯分布模型是根據(jù)歷史數(shù)據(jù)對預(yù)設(shè)的多元高斯分布進(jìn)行擬合得到的。
42、通過本發(fā)明,可以實(shí)現(xiàn)電網(wǎng)海量數(shù)據(jù)的異常監(jiān)測和預(yù)警。本發(fā)明結(jié)合多元高斯分布來實(shí)現(xiàn)電網(wǎng)海量數(shù)據(jù)的異常監(jiān)測,在數(shù)據(jù)異常檢測中,多元高斯分布具有顯著的優(yōu)勢,由于現(xiàn)實(shí)世界中的數(shù)據(jù)通常都具有一定的噪聲和誤差,而多元高斯分布可以通過對待監(jiān)測數(shù)據(jù)的均值和協(xié)方差進(jìn)行建模,來描述待監(jiān)測數(shù)據(jù)的基本統(tǒng)計特性,如果待監(jiān)測數(shù)據(jù)點(diǎn)在分布中的概率密度函數(shù)值較低,即小于預(yù)設(shè)的異常閾值時則可以認(rèn)為該點(diǎn)為異常點(diǎn)。