本發(fā)明實(shí)施例涉及數(shù)據(jù)處理,尤其涉及一種異常數(shù)據(jù)的識別和清洗方法和系統(tǒng)。
背景技術(shù):
1、在大數(shù)據(jù)時代,數(shù)據(jù)已經(jīng)成為企業(yè)決策的重要依據(jù)。無論是金融、醫(yī)療、電子商務(wù)還是社交媒體領(lǐng)域,高質(zhì)量的數(shù)據(jù)都是實(shí)現(xiàn)精準(zhǔn)分析和智能決策的基礎(chǔ)。然而,在實(shí)際應(yīng)用中,由于數(shù)據(jù)采集過程中的錯誤、設(shè)備故障或是人為因素等,常常會產(chǎn)生異常數(shù)據(jù)。這些異常數(shù)據(jù)如果不加以識別和清洗,可能會導(dǎo)致數(shù)據(jù)分析結(jié)果失真,影響業(yè)務(wù)決策的準(zhǔn)確性。因此,對于各種應(yīng)用場景而言,開發(fā)一種高效且準(zhǔn)確的異常數(shù)據(jù)識別和清洗方法變得尤為重要。
2、目前,針對異常數(shù)據(jù)的處理主要采用統(tǒng)計學(xué)方法?,F(xiàn)有統(tǒng)計學(xué)方法通過計算數(shù)據(jù)集的基本統(tǒng)計量來人為設(shè)定閾值,將超出一定范圍的數(shù)據(jù)點(diǎn)視為異常值;統(tǒng)計學(xué)方法依賴于數(shù)據(jù)分布假設(shè),對于非正態(tài)或復(fù)雜分布的數(shù)據(jù)效果不佳;合理閾值的選擇需要操作人員具備豐富的領(lǐng)域知識,并且不同的應(yīng)用場景可能需要不同的閾值設(shè)置,這增加了操作復(fù)雜度;某些統(tǒng)計方法對極端值非常敏感,可能會導(dǎo)致誤判。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明實(shí)施例提供一種異常數(shù)據(jù)的識別和清洗方法和系統(tǒng),用以解決現(xiàn)有技術(shù)中對于非正態(tài)或復(fù)雜分布的數(shù)據(jù)效果不佳、閾值選擇困難以及對極端值敏感性問題容易誤判的問題。
2、第一方面,本發(fā)明實(shí)施例提供一種異常數(shù)據(jù)的識別和清洗方法,包括:
3、接收來自不同源的實(shí)時數(shù)據(jù)流,所述實(shí)時數(shù)據(jù)流包含結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù);
4、獲取待測目標(biāo)的實(shí)時數(shù)據(jù)流,利用經(jīng)訓(xùn)練后的高斯混合模型確定的自適應(yīng)閾值對所述實(shí)時數(shù)據(jù)流進(jìn)行初步異常檢測,檢測出異常數(shù)據(jù)點(diǎn);
5、基于所述異常數(shù)據(jù)點(diǎn),采用深度信念網(wǎng)絡(luò)結(jié)合長短時記憶網(wǎng)絡(luò)的復(fù)合模型進(jìn)行深層次特征學(xué)習(xí)和異常驗(yàn)證,得到高級特征表示和異常程度量化評估結(jié)果;
6、基于所述高級特征表示和異常程度量化評估結(jié)果,利用概率圖模型評估所述異常數(shù)據(jù)點(diǎn)之間的條件依賴關(guān)系,基于所述條件依賴關(guān)系構(gòu)建目標(biāo)概率依賴圖譜,基于所述目標(biāo)概率依賴圖譜生成異常數(shù)據(jù)點(diǎn)識別結(jié)果;
7、基于所述異常數(shù)據(jù)點(diǎn)識別結(jié)果,應(yīng)用定義獎勵機(jī)制激勵算法優(yōu)化調(diào)整已有清洗策略,得到優(yōu)化中清洗策略;
8、識別所述概率圖模型評估過程中的待確定異常區(qū)域,引入多模態(tài)融合技術(shù)對所述待確定異常區(qū)域進(jìn)行相關(guān)性分析,得到相關(guān)性分析結(jié)果,基于所述相關(guān)性分析結(jié)果,對所述待確定異常區(qū)域中的數(shù)據(jù)進(jìn)行異常數(shù)據(jù)判斷和異常數(shù)據(jù)清洗,得到待確定異常數(shù)據(jù)處理結(jié)果,基于所述待確定異常數(shù)據(jù)處理結(jié)果,調(diào)整所述優(yōu)化中清洗策略,得到目標(biāo)清洗策略。
9、可選地,所述識別所述概率圖模型評估過程中的待確定異常區(qū)域,引入多模態(tài)融合技術(shù)對所述待確定異常區(qū)域進(jìn)行相關(guān)性分析,得到相關(guān)性分析結(jié)果,基于所述相關(guān)性分析結(jié)果,對所述待確定異常區(qū)域中的數(shù)據(jù)進(jìn)行異常數(shù)據(jù)判斷和異常數(shù)據(jù)清洗,得到待確定異常數(shù)據(jù)處理結(jié)果,基于所述待確定異常數(shù)據(jù)處理結(jié)果,調(diào)整所述優(yōu)化中清洗策略,得到目標(biāo)清洗策略,包括:
10、分析所述目標(biāo)概率依賴圖譜中的節(jié)點(diǎn)和邊,識別出條件依賴關(guān)系高于預(yù)設(shè)閾值的目標(biāo)節(jié)點(diǎn)和目標(biāo)邊,基于所述目標(biāo)節(jié)點(diǎn)和所述目標(biāo)邊,確定待確定異常區(qū)域;
11、收集所述待確定異常區(qū)域中各個數(shù)據(jù)點(diǎn)對應(yīng)的多模態(tài)數(shù)據(jù),利用多模態(tài)融合技術(shù)將所述多模態(tài)數(shù)據(jù)進(jìn)行融合,生成綜合特征表示,基于所述綜合特征表示,使用互信息方法計算所述待確定異常區(qū)域中各個數(shù)據(jù)點(diǎn)之間的相關(guān)性,得到相關(guān)性分析結(jié)果;
12、基于所述相關(guān)性分析結(jié)果,對所述待確定異常區(qū)域中的數(shù)據(jù)點(diǎn)進(jìn)行異常數(shù)據(jù)判斷和清洗操作,得到待確定異常數(shù)據(jù)處理結(jié)果,基于所述待確定異常數(shù)據(jù)處理結(jié)果,評估和調(diào)整所述優(yōu)化中清洗策略,生成目標(biāo)清洗策略。
13、可選地,所述利用多模態(tài)融合技術(shù)將所述多模態(tài)數(shù)據(jù)進(jìn)行融合,生成綜合特征表示,基于所述綜合特征表示,使用互信息方法計算所述待確定異常區(qū)域中各個數(shù)據(jù)點(diǎn)之間的相關(guān)性,得到相關(guān)性分析結(jié)果,包括:
14、基于所述多模態(tài)數(shù)據(jù),使用卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征,使用循環(huán)神經(jīng)網(wǎng)絡(luò)提取時間序列特征;
15、構(gòu)建多層感知結(jié)構(gòu),基于所述多層感知機(jī)結(jié)構(gòu),將所述圖像特征和所述時間序列特征進(jìn)行融合,生成初步綜合特征表示,基于所述初步融合特征表示,選擇損失函數(shù),并應(yīng)用反向傳播算法使損失函數(shù)的值最小化,得到最小化損失函數(shù),利用所述最小化損失函數(shù)訓(xùn)練所述多層感知結(jié)構(gòu),以進(jìn)行迭代優(yōu)化直至滿足停止條件,得到多層感知機(jī)模型,所述停止條件為達(dá)到損失函數(shù)的預(yù)設(shè)閾值,基于所述多層感知機(jī)模型,將所述圖像特征和所述時間序列特征作為輸入,輸出綜合特征表示;
16、基于所述綜合特征表示,使用互信息方法計算所述待確定異常區(qū)域中的每一對數(shù)據(jù)點(diǎn)的互信息值,整合所述互信息值,生成相關(guān)性矩陣,基于所述相關(guān)性矩陣生成相關(guān)性分析結(jié)果。
17、可選地,所述獲取待測目標(biāo)的實(shí)時數(shù)據(jù)流,利用經(jīng)訓(xùn)練后的高斯混合模型確定的自適應(yīng)閾值對所述實(shí)時數(shù)據(jù)流進(jìn)行初步異常檢測,檢測出異常數(shù)據(jù)點(diǎn),包括:
18、獲取待測目標(biāo)的實(shí)時數(shù)據(jù)流,基于所述實(shí)時數(shù)據(jù)流,構(gòu)建初始高斯混合模型,使用期望最大化算法對所述初始高斯混合模型進(jìn)行訓(xùn)練,通過計算每個數(shù)據(jù)點(diǎn)屬于各個高斯成分的后驗(yàn)概率,并根據(jù)所述后驗(yàn)概率更新所述初始高斯混合模型參數(shù),重復(fù)執(zhí)行計算操作和更新操作,直至高斯混合模型的參數(shù)變化小于預(yù)設(shè)閾值,得到訓(xùn)練后的高斯混合模型;
19、基于所述訓(xùn)練后的高斯混合模型,計算每個數(shù)據(jù)點(diǎn)的似然性得分,基于所述似然性得分、已有歷史數(shù)據(jù)以及所述實(shí)時數(shù)據(jù)流,動態(tài)調(diào)整初始閾值,得到自適應(yīng)閾值,所述初始閾值根據(jù)行業(yè)標(biāo)準(zhǔn)制定;
20、基于所述自適應(yīng)閾值,對所述實(shí)時數(shù)據(jù)流中的每個數(shù)據(jù)點(diǎn)進(jìn)行分析,若待確定數(shù)據(jù)點(diǎn)的似然性得分低于所述自適應(yīng)閾值,則將所述待確定數(shù)據(jù)點(diǎn)標(biāo)記為異常數(shù)據(jù)點(diǎn)。
21、可選地,所述基于所述高級特征表示和異常程度量化評估結(jié)果,利用概率圖模型評估所述異常數(shù)據(jù)點(diǎn)之間的條件依賴關(guān)系,基于所述條件依賴關(guān)系構(gòu)建目標(biāo)概率依賴圖譜,基于所述目標(biāo)概率依賴圖譜生成異常數(shù)據(jù)點(diǎn)識別結(jié)果,包括:
22、基于所述高級特征表示和異常程度量化評估結(jié)果,使用貝葉斯網(wǎng)絡(luò)構(gòu)建概率圖模型,所述概率圖模型中的節(jié)點(diǎn)表示異常數(shù)據(jù)點(diǎn),邊表示所述異常數(shù)據(jù)點(diǎn)之間的條件依賴關(guān)系;
23、基于所述概率圖模型,使用變分推斷方法計算每個節(jié)點(diǎn)的條件概率分布,基于所述條件概率分布,結(jié)合互信息和條件互信息評估節(jié)點(diǎn)間的條件依賴關(guān)系,得到節(jié)點(diǎn)條件依賴關(guān)系結(jié)果;
24、基于所述節(jié)點(diǎn)條件依賴關(guān)系結(jié)果,使用圖嵌入技術(shù)構(gòu)建初始概率依賴圖譜,并對所述初始概率依賴圖譜進(jìn)行優(yōu)化,得到目標(biāo)概率依賴圖譜,基于所述目標(biāo)概率依賴圖譜中節(jié)點(diǎn)的度中心性、介數(shù)中心性以及接近中心性,識別所述目標(biāo)概率依賴圖譜中的關(guān)鍵節(jié)點(diǎn);
25、使用集成學(xué)習(xí)方法,通過結(jié)合多個模型的評估結(jié)果,對關(guān)鍵節(jié)點(diǎn)進(jìn)行綜合評估,得到關(guān)鍵節(jié)點(diǎn)評估結(jié)果,基于所述關(guān)鍵節(jié)點(diǎn)評估結(jié)果,得到異常數(shù)據(jù)點(diǎn)識別結(jié)果,所述多個模型包括決策樹和梯度提升機(jī)。
26、可選地,所述基于所述節(jié)點(diǎn)條件依賴關(guān)系結(jié)果,使用圖嵌入技術(shù)構(gòu)建初始概率依賴圖譜,并對所述初始概率依賴圖譜進(jìn)行優(yōu)化,得到目標(biāo)概率依賴圖譜,基于所述目標(biāo)概率依賴圖譜中節(jié)點(diǎn)的度中心性、介數(shù)中心性以及接近中心性,識別所述目標(biāo)概率依賴圖譜中的關(guān)鍵節(jié)點(diǎn),包括:
27、基于所述節(jié)點(diǎn)條件依賴關(guān)系結(jié)果,利用圖嵌入技術(shù),對所述概率圖模型中的所述異常數(shù)據(jù)點(diǎn)進(jìn)行向量化處理,生成每個節(jié)點(diǎn)在低維空間中的節(jié)點(diǎn)向量表示,基于所述節(jié)點(diǎn)向量表示,構(gòu)建初始概率依賴圖譜;
28、基于所述初始概率依賴圖譜,對所述節(jié)點(diǎn)向量表示進(jìn)行迭代優(yōu)化,直至達(dá)到預(yù)設(shè)的最大迭代次數(shù),得到優(yōu)化節(jié)點(diǎn)向量表示,基于所述優(yōu)化節(jié)點(diǎn)向量表示優(yōu)化所述初始概率依賴圖譜,得到目標(biāo)概率依賴圖譜;
29、計算所述目標(biāo)概率依賴圖譜中所有節(jié)點(diǎn)的度中心性、介數(shù)中心性以及接近中心性,得到每個節(jié)點(diǎn)對應(yīng)的中心性綜合得分;
30、從所述目標(biāo)概率依賴圖譜中選擇所述中心性綜合得分高于預(yù)設(shè)閾值的節(jié)點(diǎn),將所述中心性綜合得分高于預(yù)設(shè)閾值的節(jié)點(diǎn)作為關(guān)鍵節(jié)點(diǎn)。
31、可選地,所述基于所述異常數(shù)據(jù)點(diǎn),采用深度信念網(wǎng)絡(luò)結(jié)合長短時記憶網(wǎng)絡(luò)的復(fù)合模型進(jìn)行深層次特征學(xué)習(xí)和異常驗(yàn)證,得到高級特征表示和異常程度量化評估結(jié)果,包括:
32、利用所述異常數(shù)據(jù)點(diǎn)對多個受限玻爾茲曼機(jī)進(jìn)行無監(jiān)督學(xué)習(xí),得到由學(xué)習(xí)后的多個受限玻爾茲曼機(jī)構(gòu)建的深度信念網(wǎng)絡(luò),利用所述深度信念網(wǎng)絡(luò)提取所述異常數(shù)據(jù)點(diǎn)的深層次特征表示;
33、將所述深層次特征表示作為預(yù)設(shè)的長短時記憶網(wǎng)絡(luò)的輸入,得到復(fù)合模型,利用有監(jiān)督學(xué)習(xí)方法對所述復(fù)合模型進(jìn)行訓(xùn)練,以調(diào)整所述復(fù)合模型的權(quán)重和偏置項(xiàng),得到訓(xùn)練后復(fù)合模型;
34、基于所述訓(xùn)練后復(fù)合模型,對所述異常數(shù)據(jù)點(diǎn)進(jìn)行前向傳播處理,生成每個異常數(shù)據(jù)點(diǎn)的高級特征表示,并計算每個異常數(shù)據(jù)點(diǎn)的異常程度量化評估結(jié)果。
35、第二方面,本發(fā)明實(shí)施例提供一種異常數(shù)據(jù)的識別和清洗系統(tǒng),包括:
36、獲取模塊,用于獲取待測目標(biāo)的實(shí)時數(shù)據(jù)流,利用經(jīng)訓(xùn)練后的高斯混合模型確定的自適應(yīng)閾值對所述實(shí)時數(shù)據(jù)流進(jìn)行初步異常檢測,檢測出異常數(shù)據(jù)點(diǎn);
37、學(xué)習(xí)模塊,用于基于所述異常數(shù)據(jù)點(diǎn),采用深度信念網(wǎng)絡(luò)結(jié)合長短時記憶網(wǎng)絡(luò)的復(fù)合模型進(jìn)行深層次特征學(xué)習(xí)和異常驗(yàn)證,得到高級特征表示和異常程度量化評估結(jié)果;
38、構(gòu)建模塊,用于基于所述高級特征表示和異常程度量化評估結(jié)果,利用概率圖模型評估所述異常數(shù)據(jù)點(diǎn)之間的條件依賴關(guān)系,基于所述條件依賴關(guān)系構(gòu)建目標(biāo)概率依賴圖譜,基于所述目標(biāo)概率依賴圖譜生成異常數(shù)據(jù)點(diǎn)識別結(jié)果;
39、調(diào)整模塊,用于基于所述異常數(shù)據(jù)點(diǎn)識別結(jié)果,應(yīng)用定義獎勵機(jī)制激勵算法優(yōu)化調(diào)整已有清洗策略,得到優(yōu)化中清洗策略;
40、識別模塊,用于識別所述概率圖模型評估過程中的待確定異常區(qū)域,引入多模態(tài)融合技術(shù)對所述待確定異常區(qū)域進(jìn)行相關(guān)性分析,得到相關(guān)性分析結(jié)果,基于所述相關(guān)性分析結(jié)果,對所述待確定異常區(qū)域中的數(shù)據(jù)進(jìn)行異常數(shù)據(jù)判斷和異常數(shù)據(jù)清洗,得到待確定異常數(shù)據(jù)處理結(jié)果,基于所述待確定異常數(shù)據(jù)處理結(jié)果,調(diào)整所述優(yōu)化中清洗策略,得到目標(biāo)清洗策略。
41、第三方面,本發(fā)明實(shí)施例提供一種計算設(shè)備,包括處理器和存儲器,所述存儲器中存儲有計算機(jī)程序,所述處理器被設(shè)置為運(yùn)行所述計算機(jī)程序以執(zhí)行第一方面任一所述的一種異常數(shù)據(jù)的識別和清洗方法。
42、第四方面,本發(fā)明實(shí)施例提供一種計算機(jī)存儲介質(zhì),其上存儲有計算機(jī)程序指令,所述計算機(jī)程序指令被處理器執(zhí)行時實(shí)現(xiàn)第一方面中任意一項(xiàng)所述的一種異常數(shù)據(jù)的識別和清洗方法。
43、本發(fā)明實(shí)施例中,獲取待測目標(biāo)的實(shí)時數(shù)據(jù)流,利用經(jīng)訓(xùn)練后的高斯混合模型確定的自適應(yīng)閾值對所述實(shí)時數(shù)據(jù)流進(jìn)行初步異常檢測,檢測出異常數(shù)據(jù)點(diǎn);基于所述異常數(shù)據(jù)點(diǎn),采用深度信念網(wǎng)絡(luò)結(jié)合長短時記憶網(wǎng)絡(luò)的復(fù)合模型進(jìn)行深層次特征學(xué)習(xí)和異常驗(yàn)證,得到高級特征表示和異常程度量化評估結(jié)果;基于所述高級特征表示和異常程度量化評估結(jié)果,利用概率圖模型評估所述異常數(shù)據(jù)點(diǎn)之間的條件依賴關(guān)系,基于所述條件依賴關(guān)系構(gòu)建目標(biāo)概率依賴圖譜,基于所述目標(biāo)概率依賴圖譜生成異常數(shù)據(jù)點(diǎn)識別結(jié)果;基于所述異常數(shù)據(jù)點(diǎn)識別結(jié)果,應(yīng)用定義獎勵機(jī)制激勵算法優(yōu)化調(diào)整已有清洗策略,得到優(yōu)化中清洗策略;識別所述概率圖模型評估過程中的待確定異常區(qū)域,引入多模態(tài)融合技術(shù)對所述待確定異常區(qū)域進(jìn)行相關(guān)性分析,得到相關(guān)性分析結(jié)果,基于所述相關(guān)性分析結(jié)果,對所述待確定異常區(qū)域中的數(shù)據(jù)進(jìn)行異常數(shù)據(jù)判斷和異常數(shù)據(jù)清洗,得到待確定異常數(shù)據(jù)處理結(jié)果,基于所述待確定異常數(shù)據(jù)處理結(jié)果,調(diào)整所述優(yōu)化中清洗策略,得到目標(biāo)清洗策略。本發(fā)明提供的技術(shù)方案提升了異常數(shù)據(jù)識別與清洗的效率和準(zhǔn)確性,同時具備較強(qiáng)的自適應(yīng)能力和擴(kuò)展性,適用于各種復(fù)雜的數(shù)據(jù)環(huán)境,這對于提高數(shù)據(jù)質(zhì)量、保障業(yè)務(wù)決策準(zhǔn)確性具有重要意義。其中,通過自適應(yīng)閾值的高斯混合模型和深度信念網(wǎng)絡(luò)結(jié)合長短時記憶網(wǎng)絡(luò)的復(fù)合模型,可以更準(zhǔn)確地識別異常數(shù)據(jù)點(diǎn);利用概率圖模型評估異常數(shù)據(jù)點(diǎn)之間的條件依賴關(guān)系,可以發(fā)現(xiàn)潛在的關(guān)聯(lián),提高系統(tǒng)的魯棒性;通過多模態(tài)融合技術(shù)和互信息方法,可以更全面地分析數(shù)據(jù)點(diǎn)之間的相關(guān)性,發(fā)現(xiàn)潛在的異常模式,提高系統(tǒng)的魯棒性;通過評估和調(diào)整優(yōu)化中的清洗策略,可以逐步改進(jìn)清洗效果,減少誤報率和漏報率,提高異常數(shù)據(jù)處理的效率。
44、本發(fā)明的這些方面或其他方面在以下實(shí)施例的描述中會更加簡明易懂。