欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于密度聚類的局部離群點檢測方法

文檔序號:6637881閱讀:441來源:國知局
一種基于密度聚類的局部離群點檢測方法
【專利摘要】本發(fā)明公開了一種基于密度聚類的局部離群點檢測方法,包括以下步驟:(a)獲取被檢測數(shù)據(jù)集的數(shù)據(jù)族個數(shù)及聚類中心;(b)通過計算不同數(shù)據(jù)簇中各個數(shù)據(jù)對象的描述特征的均值和標準差;(c)利用3sigma準則檢測得到每個數(shù)據(jù)簇的離群點。本發(fā)明采用上述方法,能夠使參數(shù)設置容易,適用于任意形狀和具有不同密度區(qū)域分布的數(shù)據(jù)集情況,可以對局部離群點進行檢測,離群點的檢測結(jié)果準確率高,算法對參數(shù)值的選擇不敏感,魯棒性好。
【專利說明】一種基于密度聚類的局部離群點檢測方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及離群點檢測領(lǐng)域,具體涉及一種基于密度聚類的局部離群點檢測方 法。

【背景技術(shù)】
[0002] 離群點檢測是數(shù)據(jù)挖掘中的一個分支,它的任務是識別其數(shù)據(jù)特征顯著不同于其 他數(shù)據(jù)對象的觀測值。離群點檢測在數(shù)據(jù)挖掘中非常重要,因為如果異常是由固有數(shù)據(jù)的 變異造成的,那么對它們進行分析可以發(fā)現(xiàn)蘊藏在其中更深層次的、潛在的、有價值的信 息。因此,離群點檢測是一個非常有意義的研究方向。
[0003] 數(shù)據(jù)挖掘?qū)<襀awkins將離群點定義為:"離群點是數(shù)據(jù)集中與眾不同的數(shù)據(jù)對 象,其表現(xiàn)與其它數(shù)據(jù)對象非常不同,以至于使人懷疑這些數(shù)據(jù)對象并非隨機的偏差,而是 由另外一種完全不同的機制所產(chǎn)生的"。這個定義一定程度上揭示了離群的本質(zhì),被廣泛引 用。但這只是一個并不嚴格的描述型定義。事實上,長期以來學術(shù)界并沒有一個統(tǒng)一的關(guān) 于離群點的形式化定義。研究者們常常根據(jù)不同的應用環(huán)境給出離群點的形式化定義。多 年來,研究者們已經(jīng)針對不同類型的數(shù)據(jù)集提出了不同的數(shù)學方法用于檢測不同情況下所 存在的離群點。
[0004] 總的來說,離群點檢測技術(shù)主要分為:基于統(tǒng)計的技術(shù),基于距離的技術(shù),基于密 度的技術(shù),基于聚類的技術(shù)。
[0005] 1)基于統(tǒng)計的技術(shù)
[0006] 基于統(tǒng)計的離群點檢測技術(shù)假定被檢測的數(shù)據(jù)集符合某個概率分布模型,凡不符 合該分布模型的數(shù)據(jù)對象被視為離群點?;诮y(tǒng)計的技術(shù)不適合高維數(shù)據(jù)集的離群點檢 測。此外,有參的統(tǒng)計方法還需要知道(或能估計出)數(shù)據(jù)的分布參數(shù),但絕大多數(shù)現(xiàn)實數(shù) 據(jù)集其分布規(guī)律都是未知的。事實上,很可能根本就不能用單一的分布來刻畫其特征。這 些難點大大限制了基于統(tǒng)計的離群點檢測方法的應用。
[0007] 2)基于距離的技術(shù)
[0008] 基于距離的技術(shù)其實是對基于統(tǒng)計的離群點檢測技術(shù)做進一步的擴展。與基于統(tǒng) 計的技術(shù)相比,它可以處理多維屬性的數(shù)據(jù)集,也不需要用戶事先知道具體數(shù)據(jù)分布模型。 但該方法只能檢測到全局離群點,無法對局部離群點進行檢測。
[0009] 3)基于密度的技術(shù)
[0010] 為了解決基于距離的離群點檢測技術(shù)無法檢測局部離群點的問題,人們提出了基 于密度的離群點檢測技術(shù):LOF算法及其變體。該技術(shù)解決了局部離群程度的度量及其判 斷問題,能夠檢測出局部離群點,并且對于數(shù)據(jù)對象在不同密度的區(qū)域也能夠很好的處理。 其難點在于算法的參數(shù)選擇比較困難。
[0011] 4)基于聚類的技術(shù)
[0012] 進一步的,人們將很多經(jīng)典的聚類算法擴展到離群點的檢測。例如,有些算法顯式 地定義了離群點,將其看作所謂"背景噪聲";有些算法為了減少離群點對聚類結(jié)果的不良 影響,自身引入了某種機制進行判斷,如CLARANS,DBSCAN,BIRCH,WaveCluster等。還有很 多算法的設計初衷是進行聚類分析,但將聚類結(jié)果進一步擴展到離群點的判斷中。目前, 大部分基于聚類技術(shù)的離群點檢測方法往往不能達到最優(yōu),而且檢測出的離群點很多都是 全局離群點,不能有效檢測出局部離群點。此外,很多聚類算法的參數(shù)設置通常需要依靠經(jīng) 驗,難以確定,同時對參數(shù)值的選擇非常敏感。


【發(fā)明內(nèi)容】

[0013] 本發(fā)明的目的在于提供一種基于密度聚類的局部離群點檢測方法,該方法適用于 任意形狀和具有不同密度區(qū)域分布的數(shù)據(jù)集,可以有效檢測局部離群點,同時所提算法的 參數(shù)設置容易,對參數(shù)的選擇不敏感,算法的魯棒性好。
[0014] 本發(fā)明為實現(xiàn)上述目的,采用以下技術(shù)方案實現(xiàn):一種基于密度聚類的局部離群 點檢測方法,包括以下步驟:
[0015] (a)獲取被檢測數(shù)據(jù)集的數(shù)據(jù)族個數(shù)及聚類中心;
[0016] (b)通過計算不同數(shù)據(jù)簇中各個數(shù)據(jù)對象的描述特征的均值和標準差;
[0017] (c)利用3sigma準則檢測得到每個數(shù)據(jù)簇的離群點。
[0018] 進一步地,作為優(yōu)選方案,所述步驟(a)的具體過程為:
[0019] (al)數(shù)據(jù)集的預處理;
[0020] (a2)計算數(shù)據(jù)集中數(shù)據(jù)對象間的相異度:如果數(shù)據(jù)對象的屬性是數(shù)值型的,可利 用歐氏距離計算數(shù)據(jù)對象間的相異度;如果數(shù)據(jù)對象的屬性是混合類型的,則可以使用如 下公式計算數(shù)據(jù)對象間的相異度:

【權(quán)利要求】
1. 一種基于密度聚類的局部離群點檢測方法,其特征在于:包括以下步驟: (a) 獲取被檢測數(shù)據(jù)集的數(shù)據(jù)族個數(shù)及聚類中心; (b) 通過計算不同數(shù)據(jù)簇中各個數(shù)據(jù)對象的描述特征的均值和標準差; (c) 利用3sigma準則檢測得到每個數(shù)據(jù)簇的離群點。
2. 根據(jù)權(quán)利要求1所述的一種基于密度聚類的局部離群點檢測方法,其特征在于:所 述步驟(a)的具體過程為: (al)數(shù)據(jù)集的預處理; (a2)計算數(shù)據(jù)集中數(shù)據(jù)對象間的相異度:如果數(shù)據(jù)對象的屬性是數(shù)值型的,可利用歐 氏距離計算數(shù)據(jù)對象間的相異度;如果數(shù)據(jù)對象的屬性是混合類型的,則可以使用如下公 式計算數(shù)據(jù)對象間的相異度:
其中,Xi和Xj是兩個數(shù)據(jù)對象;k是數(shù)據(jù)對象的維度,即屬性個數(shù);d(Xi,m,Xj,m)是數(shù)據(jù) 對象Xi和\在第m維上的相異度;δm是第m維的指示項; (a3)選擇數(shù)據(jù)族個數(shù)及聚類中心; (a4)按照密度rho從大到小的順序,將非聚類中心點分配到離該數(shù)據(jù)對象最近且密度 更大的聚類中心所在的數(shù)據(jù)簇。
3. 根據(jù)權(quán)利要求2所述的一種基于密度聚類的局部離群點檢測方法,其特征在于:所 述步驟(al)包括數(shù)據(jù)清理和數(shù)據(jù)規(guī)范化,所述數(shù)據(jù)清理用于刪除噪聲數(shù)據(jù)和具有遺漏值 的數(shù)據(jù),所述數(shù)據(jù)規(guī)范化的方法包括最大最小規(guī)范化、z-score規(guī)范化以及小數(shù)定標規(guī)范 化。
4. 根據(jù)權(quán)利要求2所述的一種基于密度聚類的局部離群點檢測方法,其特征在于:所 述步驟(a3)的具體過程為: (a31)對每個數(shù)據(jù)對象定義兩個描述特征,分別是該數(shù)據(jù)對象的密度rho以及該數(shù)據(jù) 對象到密度更大的數(shù)據(jù)對象的最小距離delta; (a32)定義截斷距離dc,dc的大小設定為使得平均密度占數(shù)據(jù)集的數(shù)據(jù)總數(shù)的2 %,根 據(jù)dc計算每個數(shù)據(jù)對象的密度rho; (a33)得到每個數(shù)據(jù)對象的密度,并將數(shù)據(jù)對象的密度rho按照從大到小的順序進行 排序,密度最大的數(shù)據(jù)對象的最小距離delta為該數(shù)據(jù)對象到其他所有數(shù)據(jù)對象的最大距 離; (a34)計算其余數(shù)據(jù)對象的最小距離delta,選擇密度rho較大且最小距離delta很大 的數(shù)據(jù)對象作為整個數(shù)據(jù)集中不同數(shù)據(jù)簇的聚類中心。
5. 根據(jù)權(quán)利要求1所述的一種基于密度聚類的局部離群點檢測方法,其特征在于:所 述步驟(b)的具體過程為: (bl)找出每個數(shù)據(jù)族的所有數(shù)據(jù)對象; (b2)將各個數(shù)據(jù)族中的數(shù)據(jù)對象按照其密度從大到小的順序進行排序; (b3)計算每個數(shù)據(jù)族中各個數(shù)據(jù)對象的最小距離delta的均值delta_aver和標準差 Sigma0
6. 根據(jù)權(quán)利要求1所述的一種基于密度聚類的局部離群點檢測方法,其特征在于:所 述步驟(c)的具體過程為: (cl)將數(shù)據(jù)族的中心,即每個數(shù)據(jù)族密度最大的數(shù)據(jù)對象,標記為正常數(shù)據(jù); (c2)按照密度從大到小的順序,依次判斷數(shù)據(jù)族中其余數(shù)據(jù)對象是否為離群點。
7. 根據(jù)權(quán)利要求6所述的一種基于密度聚類的局部離群點檢測方法,其特征在于:所 述步驟(c2)的具體判斷過程為: (c21)首先,用3sigma準則進行判斷,即判斷數(shù)據(jù)對象的最小距離delta跟數(shù)據(jù)簇中所 有數(shù)據(jù)對象的最小距離delta的均值delta_aver之差的絕對值是否大于3sigma; (c22)如果數(shù)據(jù)對象的最小距離delta跟數(shù)據(jù)簇中所有數(shù)據(jù)對象的最小距離delta的 均值delta_aver之差的絕對值小于或等于3sigma,則數(shù)據(jù)對象跟密度更大的最近鄰點屬 于同一類型; (c23)如果數(shù)據(jù)對象的最小距離delta跟數(shù)據(jù)簇中所有數(shù)據(jù)對象的最小距離delta的 均值delta_aver之差的絕對值大于3sigma,則需要進一步判斷該數(shù)據(jù)對象跟數(shù)據(jù)簇中心 是否可以3sigma可達; (c24)如果數(shù)據(jù)對象到其數(shù)據(jù)簇中心3sigma不可達或者與該數(shù)據(jù)對象密度更大的最 近鄰點是離群點,則該數(shù)據(jù)對象被判斷為離群點;反之,如果數(shù)據(jù)對象跟數(shù)據(jù)簇中心可以 3sigma可達或者與該數(shù)據(jù)對象密度更大的最近鄰點不是離群點,則該數(shù)據(jù)對象不是離群 點。
【文檔編號】G06F19/00GK104462819SQ201410748848
【公開日】2015年3月25日 申請日期:2014年12月9日 優(yōu)先權(quán)日:2014年12月9日
【發(fā)明者】王電鋼, 黃林, 黃昆, 常健, 陳龍, 潘可佳 申請人:國網(wǎng)四川省電力公司信息通信公司, 國家電網(wǎng)公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
兰考县| 湾仔区| 斗六市| 富锦市| 吴旗县| 西林县| 上蔡县| 陈巴尔虎旗| 韩城市| 北川| 宁津县| 油尖旺区| 黑龙江省| 新和县| 大方县| 古田县| 黎城县| 洪洞县| 马龙县| 杭锦旗| 夏邑县| 临泽县| 炎陵县| 永吉县| 鹤壁市| 马关县| 新和县| 灵山县| 澄江县| 云霄县| 富川| 江门市| 仁寿县| 明光市| 贵南县| 襄汾县| 泗阳县| 浏阳市| 高邮市| 祁东县| 尚义县|