一種基于模糊距離的不確定離群點檢測方法
【技術領域】
[0001] 本發(fā)明涉及數(shù)據(jù)挖掘技術領域,尤其涉及一種基于模糊距離的不確定離群點檢測 方法。
【背景技術】
[0002] 離群數(shù)據(jù)挖掘技術是目前數(shù)據(jù)挖掘領域的研究熱點之一,目前已有的離群數(shù)據(jù)挖 掘主要基于距離或最近鄰概念進行的確定離群挖掘,隨著互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)的廣泛普 及,大量的不確定數(shù)據(jù)在金融和經(jīng)濟分析、電子通信、現(xiàn)代物流等不同領域廣泛應用,數(shù)據(jù) 本身的不確定性,難以準確判斷數(shù)據(jù)是否異常,導致難以給出確切的離群數(shù)據(jù)。在不確定的 數(shù)據(jù)集,即使一個數(shù)據(jù)點本身并不像是一個離群點,但如果它的不確定程度非常高,這個數(shù) 據(jù)也很可能會被懷疑是異常的。因此基于不確定數(shù)據(jù)集的離群檢測,需要確定每個數(shù)據(jù)的 不確定程度即離群度。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明所要解決的技術問題在于,提供一種基于模糊距離的不確定離群點檢測方 法,可以有效地從不確定數(shù)據(jù)集中發(fā)現(xiàn)隱藏在其中的離群數(shù)據(jù),確定每個數(shù)據(jù)的離群度,可 以廣泛應用于金融和經(jīng)濟分析、電子通信、現(xiàn)代物流等領域。
[0004] 為了解決上述技術問題,本發(fā)明提供了一種基于模糊距離的不確定離群點檢測方 法,包括:
[0005] 計算不確定數(shù)據(jù)集中,各數(shù)據(jù)點到其對應鄰域中的每一數(shù)據(jù)點的模糊距離;
[0006] 對所述各數(shù)據(jù)點到其鄰域中的每一數(shù)據(jù)點的模糊距離進行加權計算,得到各數(shù)據(jù) 點的鄰域平均距離;
[0007] 根據(jù)所述鄰域平均距離計算得到各數(shù)據(jù)點的可達距離;
[0008] 根據(jù)所述可達距離計算各個數(shù)據(jù)點的離群度,并選擇離群度大于預設閾值的數(shù)據(jù) 點為離群點。
[0009] 進一步的,所述計算不確定數(shù)據(jù)集中,各數(shù)據(jù)點到其對應鄰域中的每一數(shù)據(jù)點的 模糊距離,具體包括:
[0010] 將不確定數(shù)據(jù)集形式化;其中,形式化后的不確定數(shù)據(jù)集為D= {Xi,X2,…,Xn},其 中,η表示不確定數(shù)據(jù)集D的大小,&表示數(shù)據(jù)集中的第i個元組,Xi之間相互獨立,且Xi =〈r(\),p(\)〉,r(XJ表示數(shù)據(jù)記錄,p(XJ表示數(shù)據(jù)記錄的概率值;
[0011] 根據(jù)所述不確定數(shù)據(jù)集建立可能世界實例,并計算所述可能世 界實例的概率均值;其中,對不確定數(shù)據(jù)集中的數(shù)據(jù)點〇建立的可能世界 實例為抒7(0) = 011euj,可能世界實例W(〇)的概率均值為
|W(〇)I表示W(wǎng)(〇)中數(shù)據(jù)點的個數(shù); ,
[0012] 根據(jù)建立的可能世界實例計算數(shù)據(jù)點和其鄰域中的每一數(shù)據(jù)點的模糊距離;其 中,數(shù)據(jù)點0到其鄰域中的數(shù)據(jù)點P的模糊距離為ud(P, 〇) =pNWd(〇,p),peN(O),式中, d(〇,p) =Io-pI為數(shù)據(jù)點〇、p之間的距離,Λ7_(ο)=丨/;IVpe妒(〇),且p乒〇}表示數(shù)據(jù)點 〇的鄰域,PNW為數(shù)據(jù)點〇的鄰域N(〇)的概率。
[0013] 進一步的,所述對所述各數(shù)據(jù)點和其鄰域中的每一對象的模糊距離進行加權計 算,得到各數(shù)據(jù)點的鄰域平均距離,具體包括:
[0014] 對所述各數(shù)據(jù)點和其鄰域中的每一對象的模糊距離進行加權計算,得到各數(shù)據(jù)點
的鄰域平均距離,其中,數(shù)據(jù)點0的鄰域平均距離為 式中, |Ν(ο) |表示Ν(ο)數(shù)據(jù)點的個數(shù)。
[0015] 進一步的,所述根據(jù)所述鄰域平均距離計算得到各數(shù)據(jù)點的可達距離,具體包 括:
[0016] 根據(jù)所述鄰域平均距離選取各數(shù)據(jù)點的最小鄰域;其中,數(shù)據(jù)點0的最小鄰域 Ν(〇)咖為Ν(ο)中滿足條件ρΝ(0)彡Θ和Ravg(N(o))最小的鄰域,Θ表示閾值;
[0017] 根據(jù)所述最小鄰域獲取各數(shù)據(jù)點的核心鄰域;其中,數(shù)據(jù)點〇的核心鄰域是
,式中,'表示最小鄰域N(0)_的核心 距離,是在N(o)_中到數(shù)據(jù)點〇的最大距離;
[0018] 根據(jù)所述核心鄰域計算各數(shù)據(jù)點的可達距離;其中,數(shù)據(jù)點〇的可達距離為
[0019] 進一步的,所述根據(jù)所述可達距離計算各個數(shù)據(jù)點的離群度,并選擇離群度大于 預設閾值的數(shù)據(jù)點為離群點,具體包括:
[0020] 根據(jù)所述可達距離計算各個數(shù)據(jù)點的離群度,其中,數(shù)據(jù)點0的離群度為
[0021]
[0022] 選擇離群度大于預設閾值σ的數(shù)據(jù)點為離群點。
[0023]實施本發(fā)明,具有如下有益效果:本發(fā)明是一種基于模糊距離的不確定離群點檢 測方法,可以有效地從不確定數(shù)據(jù)集中發(fā)現(xiàn)隱藏在其中的離群數(shù)據(jù),確定每個數(shù)據(jù)的離群 度,可以廣泛應用于金融和經(jīng)濟分析、電子通信、現(xiàn)代物流等領域。
【附圖說明】
[0024] 為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術中的技術方案,下面將對實施例或現(xiàn) 有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本 發(fā)明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以 根據(jù)這些附圖獲得其他的附圖。
[0025]圖1是本發(fā)明提供的基于模糊距離的不確定離群點檢測方法的一個實施例的流 程不意圖。
【具體實施方式】
[0026] 下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完 整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。基于 本發(fā)明中的實施例,本領域普通技術人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他 實施例,都屬于本發(fā)明保護的范圍。
[0027]圖1是本發(fā)明提供的基于模糊距離的不確定離群點檢測方法的一個實施例的流 程示意圖,如圖1所示,包括:
[0028] S101、計算不確定數(shù)據(jù)集中,各數(shù)據(jù)點到其對應鄰域中的每一數(shù)據(jù)點的模糊距離。
[0029] 具體的,步驟S101包括步驟:
[0030] sum、將不確定數(shù)據(jù)集形式化。
[0031] 其中,形式化后的不確定數(shù)據(jù)集為D= {Xi,X2,…,XJ,其中,η表示不確定數(shù)據(jù)集 D的大小,&表示數(shù)據(jù)集中的第i個元組,Xi之間相互獨立,且Xi由兩部分組成,即X1 = 〈r(\),p(XJ〉,r(XJ表示數(shù)據(jù)記錄,p(XJ表示數(shù)據(jù)記錄的概率值(或可信度)。
[0032]S1012、根據(jù)所述不確定數(shù)據(jù)集建立可能世界實例,并計算所述可能世界實例的概 率均值。
[0033] 其中,對不確定數(shù)據(jù)集中的數(shù)據(jù)點。建立的可能世界實例為鏟(Θ) = {w|爾[εW丨'可 能世界實例W(0)的概率均值)
I表示W(wǎng)(0)中數(shù)據(jù)點的個數(shù)。
[0034]S1013、根據(jù)建立的可能世界實例計算數(shù)據(jù)點和其鄰域中的每一數(shù)據(jù)點的模糊距 離。
[0035] 其中,數(shù)據(jù)點〇到其鄰域中的數(shù)據(jù)點p的模糊距離為ud(p, 〇) =pNW (1(〇,口),?£~(〇),式中,(1(〇,口)= |〇-口|為數(shù)據(jù)點〇、?之間的距離,況(0)=丨]?|沖€,(0),且 p辛〇}表示數(shù)據(jù)點〇的鄰域,ρΝω為數(shù)據(jù)點〇的鄰域N(o)的概率。
[0036]S102、對所述各數(shù)據(jù)點到其鄰域中的每一數(shù)據(jù)點的模糊距離進行加權計算,得到 各數(shù)據(jù)點的鄰域平均距離。
[0037] 具體的,步驟S102具體包括