本發(fā)明涉及水廠數(shù)據(jù)檢測(cè),尤其涉及一種水廠管控平臺(tái)報(bào)表的異常數(shù)據(jù)檢測(cè)及恢復(fù)方法及系統(tǒng)。
背景技術(shù):
1、在現(xiàn)代水廠管控平臺(tái)的運(yùn)營(yíng)中,數(shù)據(jù)質(zhì)量一直是一個(gè)關(guān)鍵問題。然而,由于環(huán)境因素、傳感器故障以及數(shù)據(jù)傳輸?shù)雀鞣N復(fù)雜因素的影響,報(bào)表中可能出現(xiàn)異常數(shù)據(jù)的情況時(shí)有發(fā)生。這些異常數(shù)據(jù)的存在會(huì)極大地影響數(shù)據(jù)的準(zhǔn)確性和可靠性,給水廠的監(jiān)測(cè)和決策帶來困難。因此,針對(duì)這一問題,需要一種高效可靠的方法來檢測(cè)和修復(fù)這些異常數(shù)據(jù)。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)現(xiàn)有技術(shù)中存在的問題,本發(fā)明提供一種水廠管控平臺(tái)報(bào)表的異常數(shù)據(jù)檢測(cè)及恢復(fù)方法,包括:
2、步驟s1,采集水廠管控平臺(tái)的報(bào)表數(shù)據(jù),隨后通過閾值檢測(cè)得到所述報(bào)表數(shù)據(jù)的閾值范圍,將超出所述閾值范圍的各所述報(bào)表數(shù)據(jù)標(biāo)記為潛在異常數(shù)據(jù);
3、步驟s2,采用預(yù)先訓(xùn)練的異常檢測(cè)模型對(duì)所述報(bào)表數(shù)據(jù)中的各所述潛在異常數(shù)據(jù)進(jìn)行異常評(píng)分得到對(duì)應(yīng)的異常評(píng)分結(jié)果,隨后將異常評(píng)分結(jié)果超出設(shè)定的評(píng)分范圍的所述潛在異常數(shù)據(jù)標(biāo)記為毛刺數(shù)據(jù)點(diǎn);
4、步驟s3,將所述報(bào)表數(shù)據(jù)中的各所述毛刺數(shù)據(jù)點(diǎn)刪除,隨后利用被刪除的所述毛刺數(shù)據(jù)點(diǎn)的相鄰數(shù)據(jù)點(diǎn)的線性關(guān)系估算缺失的數(shù)據(jù)點(diǎn)進(jìn)行線性插值,以對(duì)所述報(bào)表數(shù)據(jù)進(jìn)行數(shù)據(jù)恢復(fù)。
5、優(yōu)選的,所述報(bào)表數(shù)據(jù)包括多個(gè)數(shù)據(jù)維度,所述步驟s1包括:
6、步驟s11,計(jì)算每個(gè)數(shù)據(jù)維度的均值和標(biāo)準(zhǔn)差,隨后根據(jù)所述均值和所述標(biāo)準(zhǔn)差得到所述閾值范圍;
7、步驟s12,將所述報(bào)表數(shù)據(jù)中超出所述閾值范圍的數(shù)據(jù)點(diǎn)標(biāo)記為所述潛在異常數(shù)據(jù)。
8、優(yōu)選的,所述孤立森林算法模型的訓(xùn)練過程包括:
9、步驟a1,獲取歷史時(shí)間序列數(shù)據(jù),將所述歷史時(shí)間序列數(shù)據(jù)轉(zhuǎn)換為孤立森林算法格式得到特征數(shù)據(jù)集;
10、步驟a2,對(duì)所述特征數(shù)據(jù)集進(jìn)行特征統(tǒng)計(jì)得到統(tǒng)計(jì)特征,隨后將孤立森林算法的污染率參數(shù)設(shè)置為初始污染率參數(shù)對(duì)所述特征數(shù)據(jù)集進(jìn)行異常檢測(cè)得到對(duì)應(yīng)的初步異常檢測(cè)結(jié)果;
11、步驟a3,根據(jù)所述初步異常檢測(cè)結(jié)果和所述統(tǒng)計(jì)特征調(diào)整所述孤立森林算法的污染率參數(shù)得到所述異常檢測(cè)模型。
12、優(yōu)選的,在對(duì)報(bào)表數(shù)據(jù)進(jìn)行閾值檢測(cè)之前還包括數(shù)據(jù)預(yù)處理過程,所述數(shù)據(jù)預(yù)處理過程包括:
13、對(duì)所述報(bào)表數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,隨后對(duì)清洗后的所述報(bào)表數(shù)據(jù)進(jìn)行缺失值填充,最后對(duì)填充后的所述報(bào)表數(shù)據(jù)進(jìn)行數(shù)據(jù)平滑得到用于閾值檢測(cè)的所述報(bào)表數(shù)據(jù)。
14、優(yōu)選的,執(zhí)行所述步驟s3之后還包括:
15、步驟s4,對(duì)插值恢復(fù)后的所述報(bào)表數(shù)據(jù)進(jìn)行數(shù)據(jù)平滑和移動(dòng)平均處理,隨后采用多項(xiàng)式回歸校正法對(duì)移動(dòng)平均后的所述報(bào)表數(shù)據(jù)進(jìn)行數(shù)據(jù)校正,最后采用多項(xiàng)式回歸模型對(duì)校正后的所述報(bào)表數(shù)據(jù)進(jìn)行數(shù)據(jù)擬合得到修正后的所述報(bào)表數(shù)據(jù)。
16、優(yōu)選的,執(zhí)行所述步驟s3之后還包括模型優(yōu)化過程,包括:
17、將審核人員對(duì)各所述毛刺數(shù)據(jù)點(diǎn)的審核結(jié)果作為反饋數(shù)據(jù)輸入所述異常檢測(cè)模型,對(duì)所述異常檢測(cè)模型進(jìn)行再次訓(xùn)練以調(diào)整所述異常檢測(cè)模型的模型參數(shù)。
18、本發(fā)明還提供一種水廠管控平臺(tái)報(bào)表的異常數(shù)據(jù)檢測(cè)及恢復(fù)系統(tǒng),應(yīng)用如上述的異常數(shù)據(jù)檢測(cè)及恢復(fù)方法,包括:
19、潛在標(biāo)記模塊,用于采集水廠管控平臺(tái)的報(bào)表數(shù)據(jù),隨后通過閾值檢測(cè)得到所述報(bào)表數(shù)據(jù)的閾值范圍,將超出所述閾值范圍的各所述報(bào)表數(shù)據(jù)標(biāo)記為潛在異常數(shù)據(jù);
20、異常檢測(cè)模塊,連接所述潛在標(biāo)記模塊,用于采用預(yù)先訓(xùn)練的異常檢測(cè)模型對(duì)所述報(bào)表數(shù)據(jù)中的各所述潛在異常數(shù)據(jù)進(jìn)行異常評(píng)分得到對(duì)應(yīng)的異常評(píng)分結(jié)果,隨后將異常評(píng)分結(jié)果超出設(shè)定的評(píng)分范圍的所述潛在異常數(shù)據(jù)標(biāo)記為毛刺數(shù)據(jù)點(diǎn);
21、各所述潛在異常數(shù)據(jù)進(jìn)行異常評(píng)分,隨后根據(jù)各所述異常評(píng)分結(jié)果將所述潛在異常數(shù)據(jù)標(biāo)記為毛刺數(shù)據(jù)點(diǎn);
22、數(shù)據(jù)恢復(fù)模塊,連接所述異常檢測(cè)模塊,用于將所述報(bào)表數(shù)據(jù)中的各所述毛刺數(shù)據(jù)點(diǎn)刪除,隨后利用被刪除的所述毛刺數(shù)據(jù)點(diǎn)的相鄰數(shù)據(jù)點(diǎn)的線性關(guān)系估算缺失的數(shù)據(jù)點(diǎn)進(jìn)行線性插值,以對(duì)所述報(bào)表數(shù)據(jù)進(jìn)行數(shù)據(jù)恢復(fù)。
23、優(yōu)選的,所述報(bào)表數(shù)據(jù)包括多個(gè)數(shù)據(jù)維度,所述潛在標(biāo)記模塊包括:
24、范圍計(jì)算單元,用于計(jì)算每個(gè)數(shù)據(jù)維度的均值和標(biāo)準(zhǔn)差,隨后根據(jù)所述均值和所述標(biāo)準(zhǔn)差得到所述閾值范圍;
25、潛在標(biāo)記單元,連接所述范圍計(jì)算模塊,用于將所述報(bào)表數(shù)據(jù)中超出所述閾值范圍的數(shù)據(jù)點(diǎn)標(biāo)記為所述潛在異常數(shù)據(jù)。
26、優(yōu)選的,還包括模型訓(xùn)練模塊,連接所述異常檢測(cè)模塊,包括:
27、數(shù)據(jù)集采集單元,用于獲取歷史時(shí)間序列數(shù)據(jù),將所述歷史時(shí)間序列數(shù)據(jù)轉(zhuǎn)換為孤立森林算法格式得到特征數(shù)據(jù)集;
28、初始檢測(cè)單元,連接所述數(shù)據(jù)集采集單元,用于對(duì)所述特征數(shù)據(jù)集進(jìn)行特征統(tǒng)計(jì)得到統(tǒng)計(jì)特征,隨后將孤立森林算法的污染率參數(shù)設(shè)置為初始污染率參數(shù)對(duì)所述特征數(shù)據(jù)集進(jìn)行異常檢測(cè)得到對(duì)應(yīng)的初步異常檢測(cè)結(jié)果;
29、參數(shù)調(diào)整單元,連接所述初始檢測(cè)單元,用于根據(jù)所述初步異常檢測(cè)結(jié)果和所述統(tǒng)計(jì)特征調(diào)整所述孤立森林算法的污染率參數(shù)得到所述異常檢測(cè)模型。
30、優(yōu)選的,還包括數(shù)據(jù)預(yù)處理模塊,連接所述潛在標(biāo)記模塊,用于對(duì)所述報(bào)表數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,隨后對(duì)清洗后的所述報(bào)表數(shù)據(jù)進(jìn)行缺失值填充,最后對(duì)填充后的所述報(bào)表數(shù)據(jù)進(jìn)行數(shù)據(jù)平滑得到用于閾值檢測(cè)的所述報(bào)表數(shù)據(jù)。
31、上述技術(shù)方案具有如下優(yōu)點(diǎn)或有益效果:以水廠管控平臺(tái)實(shí)際報(bào)表數(shù)據(jù)為核心,通過多級(jí)異常檢測(cè)可以有效地識(shí)別和處理報(bào)表中的異常數(shù)據(jù),從而提高水廠管控平臺(tái)數(shù)據(jù)分析的精確性和穩(wěn)定性,通過結(jié)合統(tǒng)計(jì)分析與機(jī)器學(xué)習(xí)技術(shù),實(shí)現(xiàn)了對(duì)水廠管控平臺(tái)中異常數(shù)據(jù)的高效檢測(cè)和恢復(fù),為水廠管理人員提供可靠的數(shù)據(jù)基礎(chǔ),促進(jìn)水廠運(yùn)營(yíng)的智能化和精細(xì)化管理。
1.一種水廠管控平臺(tái)報(bào)表的異常數(shù)據(jù)檢測(cè)及恢復(fù)方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的異常數(shù)據(jù)檢測(cè)及恢復(fù)方法,其特征在于,所述報(bào)表數(shù)據(jù)包括多個(gè)數(shù)據(jù)維度,所述步驟s1包括:
3.根據(jù)權(quán)利要求1所述的異常數(shù)據(jù)檢測(cè)及恢復(fù)方法,其特征在于,所述孤立森林算法模型的訓(xùn)練過程包括:
4.根據(jù)權(quán)利要求1所述的異常數(shù)據(jù)檢測(cè)及恢復(fù)方法,其特征在于,在對(duì)報(bào)表數(shù)據(jù)進(jìn)行閾值檢測(cè)之前還包括數(shù)據(jù)預(yù)處理過程,所述數(shù)據(jù)預(yù)處理過程包括:
5.根據(jù)權(quán)利要求1所述的異常數(shù)據(jù)檢測(cè)及恢復(fù)方法,其特征在于,執(zhí)行所述步驟s3之后還包括:
6.根據(jù)權(quán)利要求1所述的異常數(shù)據(jù)檢測(cè)及恢復(fù)方法,其特征在于,執(zhí)行所述步驟s3之后還包括模型優(yōu)化過程,包括:
7.一種水廠管控平臺(tái)報(bào)表的異常數(shù)據(jù)檢測(cè)及恢復(fù)系統(tǒng),其特征在于,應(yīng)用如權(quán)利要求1-6中任意一項(xiàng)所述的異常數(shù)據(jù)檢測(cè)及恢復(fù)方法,包括:
8.根據(jù)權(quán)利要求7所述的異常數(shù)據(jù)檢測(cè)及恢復(fù)系統(tǒng),其特征在于,所述報(bào)表數(shù)據(jù)包括多個(gè)數(shù)據(jù)維度,所述潛在標(biāo)記模塊包括:
9.根據(jù)權(quán)利要求7所述的異常數(shù)據(jù)檢測(cè)及恢復(fù)系統(tǒng),還包括模型訓(xùn)練模塊,連接所述異常檢測(cè)模塊,包括:
10.根據(jù)權(quán)利要求7所述的異常數(shù)據(jù)檢測(cè)及恢復(fù)系統(tǒng),還包括數(shù)據(jù)預(yù)處理模塊,連接所述潛在標(biāo)記模塊,用于對(duì)所述報(bào)表數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,隨后對(duì)清洗后的所述報(bào)表數(shù)據(jù)進(jìn)行缺失值填充,最后對(duì)填充后的所述報(bào)表數(shù)據(jù)進(jìn)行數(shù)據(jù)平滑得到用于閾值檢測(cè)的所述報(bào)表數(shù)據(jù)。