本發(fā)明涉及數(shù)據(jù)異常檢測(cè),特別涉及一種基于貝葉斯網(wǎng)絡(luò)的多元時(shí)間序列異常檢測(cè)方法。
背景技術(shù):
1、高維度時(shí)間序列數(shù)據(jù)在無(wú)線通信、工業(yè)應(yīng)用程序和醫(yī)療保健等各個(gè)領(lǐng)域正變得越來(lái)越普遍。然而,由于其復(fù)雜的時(shí)間依賴、高維度和標(biāo)簽稀缺,檢測(cè)這類數(shù)據(jù)中的異常具有挑戰(zhàn)性。在此背景之下,大規(guī)模工業(yè)傳感器數(shù)據(jù)需要有效的數(shù)據(jù)異常檢測(cè)算法,為人工智能等新興數(shù)據(jù)應(yīng)用技術(shù)清除應(yīng)用障礙,這對(duì)提高工業(yè)生產(chǎn)效率、通信產(chǎn)業(yè)安全具有重要意義。
2、在高速發(fā)展的大數(shù)據(jù)時(shí)代,數(shù)據(jù)中往往是時(shí)間序列的,這意味著數(shù)據(jù)中當(dāng)前的值受到早期值的影響,而不是獨(dú)立的。同時(shí),不同屬性元之間潛在的空間因果關(guān)系利用傳統(tǒng)的基于變分自編碼器(vae)使用重構(gòu)誤差作為異常分?jǐn)?shù)、基于深度自編碼高斯混合模型(dagmm)檢測(cè)密度的方法,都不能很好的將數(shù)據(jù)中時(shí)間信息與元間空間因果關(guān)系有效融合,致使異常檢測(cè)誤差率大,不能很好的維護(hù)系統(tǒng)運(yùn)行。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提供一種基于貝葉斯網(wǎng)絡(luò)的多元時(shí)間序列異常檢測(cè)方法,對(duì)比傳統(tǒng)方法,該方法對(duì)于多元時(shí)間序列具有更高的準(zhǔn)確率、普適性廣,采用機(jī)器學(xué)習(xí)的方法能夠?qū)τ诓煌N類的工業(yè)數(shù)據(jù)進(jìn)行檢測(cè),不需要限制數(shù)據(jù)特點(diǎn)、實(shí)時(shí)性強(qiáng),能夠?qū)崟r(shí)檢測(cè)和動(dòng)態(tài)更新數(shù)據(jù)異常情況,及時(shí)發(fā)現(xiàn)網(wǎng)絡(luò)問題。
2、本發(fā)明實(shí)施例提供一種基于貝葉斯網(wǎng)絡(luò)的多元時(shí)間序列異常檢測(cè)方法,包括以下步驟:
3、步驟1,采集原始工業(yè)傳感器時(shí)間序列數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗、標(biāo)準(zhǔn)化,得到多元時(shí)間數(shù)據(jù);
4、步驟2,將每個(gè)原始工業(yè)傳感器的多元時(shí)間數(shù)據(jù)輸入lstm神經(jīng)網(wǎng)絡(luò)中,初步提取原始工業(yè)傳感器數(shù)據(jù)的時(shí)間歷史特征;
5、步驟3,利用融合專家知識(shí)的pc算法與領(lǐng)域?qū)<业南闰?yàn)知識(shí)將多元時(shí)間序列數(shù)據(jù)生成為一個(gè)有向無(wú)環(huán)圖結(jié)構(gòu);
6、步驟4,根據(jù)貝葉斯公式,將時(shí)間歷史特征和有向無(wú)環(huán)圖結(jié)構(gòu)通過(guò)graphormer神經(jīng)網(wǎng)絡(luò)提取出融合數(shù)據(jù)中的時(shí)間信息和空間信息特征向量,作為當(dāng)前時(shí)間節(jié)點(diǎn)數(shù)據(jù)的時(shí)空特征信息;
7、步驟5,將當(dāng)前時(shí)間節(jié)點(diǎn)數(shù)據(jù)的時(shí)空特征信息作為條件,與步驟1中的多元時(shí)間數(shù)據(jù)一同輸入條件歸一化流中,通過(guò)歸一化流的可逆變換,輸出為當(dāng)前時(shí)刻數(shù)據(jù)的條件概率,將所述條件概率作為系統(tǒng)的異常評(píng)分,反映數(shù)據(jù)的異常程度。
8、可選地,在本發(fā)明的一個(gè)實(shí)施例中,步驟2具體包括:
9、將每個(gè)節(jié)點(diǎn)的多元時(shí)間數(shù)據(jù)輸入lstm網(wǎng)絡(luò)當(dāng)中,遞歸提取每個(gè)時(shí)間步驟t的時(shí)間歷史信息,為了參數(shù)化條件密度,將xi的父集pa(xi)i:t建模為建模為表示xi父節(jié)點(diǎn)到t時(shí)刻之前的歷史信息,表示節(jié)點(diǎn)i到t時(shí)刻之前的歷史信息。
10、可選地,在本發(fā)明的一個(gè)實(shí)施例中,步驟3具體包括:
11、根據(jù)領(lǐng)域?qū)<业南闰?yàn)知識(shí)初始化網(wǎng)絡(luò)結(jié)構(gòu),并進(jìn)行條件獨(dú)立性測(cè)試以逐步修正和完善網(wǎng)絡(luò)結(jié)構(gòu),具體為:初始化階段根據(jù)專家提供的先驗(yàn)信息設(shè)置節(jié)點(diǎn)和邊的初始連接狀態(tài),通過(guò)條件獨(dú)立性測(cè)試逐步刪除或保留邊連接,同時(shí)為保留的邊賦予方向,在條件獨(dú)立性測(cè)試過(guò)程中,優(yōu)先考慮專家知識(shí),以確保生成的網(wǎng)絡(luò)結(jié)構(gòu)在統(tǒng)計(jì)學(xué)和領(lǐng)域知識(shí)上的一致性。
12、可選地,在本發(fā)明的一個(gè)實(shí)施例中,步驟4具體包括:
13、采用了graphormer聚合歷史信息,在多頭自注意和前饋塊之前應(yīng)用層歸一化,歷史信息和與圖鄰接矩陣a聚合為固定長(zhǎng)度表示其中
14、
15、其中,表示t時(shí)刻graphormer最終迭代的所有節(jié)點(diǎn)特征,每個(gè)隱藏狀態(tài)對(duì)應(yīng)著節(jié)點(diǎn)i的表示,表示節(jié)點(diǎn)自身信息的聚合參數(shù),表示改進(jìn)依賴關(guān)系特性的參數(shù)。
16、可選地,在本發(fā)明的一個(gè)實(shí)施例中,步驟5具體包括:
17、引入graphormer聚合的被輸入到流歸一化作為密度估計(jì)的條件信息,的條件密度寫為:
18、
19、其中,q(z)選擇為標(biāo)準(zhǔn)正態(tài)分布;
20、多變量時(shí)間序列x的對(duì)數(shù)密度為:
21、
22、為每個(gè)時(shí)間序列xi生成一個(gè)條件密度并用作組成序列的異常度量。
23、本發(fā)明實(shí)施例的基于貝葉斯網(wǎng)絡(luò)的多元時(shí)間序列異常檢測(cè)方法,異常檢測(cè)準(zhǔn)確度高,對(duì)比傳統(tǒng)方法,該方法對(duì)于多元時(shí)間序列具有更高的準(zhǔn)確率、普適性廣。采用機(jī)器學(xué)習(xí)的方法能夠?qū)τ诓煌N類的工業(yè)數(shù)據(jù)進(jìn)行檢測(cè),不需要限制數(shù)據(jù)特點(diǎn)、實(shí)時(shí)性強(qiáng),能夠?qū)崟r(shí)檢測(cè)和動(dòng)態(tài)更新數(shù)據(jù)異常情況,及時(shí)發(fā)現(xiàn)網(wǎng)絡(luò)問題。
24、本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過(guò)本發(fā)明的實(shí)踐了解到。
1.一種基于貝葉斯網(wǎng)絡(luò)的多元時(shí)間序列異常檢測(cè)方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟2具體包括:
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟3具體包括:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟4具體包括:
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟5具體包括: