欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于角度的高維數(shù)據(jù)離群檢測方法

文檔序號:9417473閱讀:396來源:國知局
一種基于角度的高維數(shù)據(jù)離群檢測方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種基于角度的高維數(shù)據(jù)離群檢測方法,屬于離群數(shù)據(jù)挖掘技術(shù)領(lǐng) 域。
【背景技術(shù)】
[0002] 離群數(shù)據(jù)挖掘技術(shù)是目前數(shù)據(jù)挖掘領(lǐng)域的研究熱點之一,廣泛應(yīng)用于網(wǎng)絡(luò)流量入 侵檢測、交通事故檢測、科學(xué)數(shù)據(jù)測量異常檢測等領(lǐng)域。目前已有的離群數(shù)據(jù)挖掘主要基于 距離或最近鄰概念進行離群挖掘,在高維數(shù)據(jù)中,高維空間距離和最近鄰已經(jīng)不再具有歐 式空間的特性,就會出現(xiàn)距離維度災(zāi)難的情況。在高維數(shù)據(jù)中,由于離群點遠(yuǎn)離其它數(shù)據(jù) 點,離群點與其它點組成的向量的夾角變化不大,而非離群點被包圍在數(shù)據(jù)點中,非離群點 與其它點組成的向量的夾角變化較大,因此根據(jù)夾角變化的方差可以發(fā)現(xiàn)隱藏在高維數(shù)據(jù) 中的離群數(shù)據(jù)。

【發(fā)明內(nèi)容】

[0003] 為解決現(xiàn)有技術(shù)的不足,本發(fā)明的目的在于,提供一種基于角度的高維數(shù)據(jù)離群 檢測方法,本發(fā)明可以高效快速地從大規(guī)模高維數(shù)據(jù)中發(fā)現(xiàn)隱藏在其中的離群數(shù)據(jù),可以 廣泛應(yīng)用于信用卡欺詐檢測、交通事故檢測、科學(xué)數(shù)據(jù)測量異常檢測等高維數(shù)據(jù)中。
[0004] 本發(fā)明的技術(shù)方案為:一種基于角度的高維數(shù)據(jù)離群檢測方法,其特征在于,包括 以下步驟:
[0005] (1)在數(shù)據(jù)集D中,對于每一個數(shù)據(jù)點A e D,獲取A的k個最近鄰點;
[0006] (2)計算各數(shù)據(jù)點基于角度的離群因子,即對于每個數(shù)據(jù)點A,分別計算A點到其 余所有任意兩個點B和C組成的向量和?芒的夾角的方差;
[0007] (3)按從小到大的順序排序各數(shù)據(jù)點的離群因子,得到離群因子序列L,選取離群 因子最小的點集為數(shù)據(jù)離群度最大的離群點集,選取方法為:劃分平均間距序列L為2類 (;和C b,按照分類算法依次比較平均間距序列L中的前后數(shù)據(jù),如果數(shù)值變化小于某一閾值 ε,則該數(shù)據(jù)及其后面所有的數(shù)據(jù)都劃分為類Ca,其中,ε由用戶確定,BP
[0008] VZi el, Ca= Φ, Cb= L
[0009] 如果 d = I Iw-Ii I〈 ε,則 Ca= C AU {1 J
[0010] 否貝iJ,Cb= CbVU,
[0011] 其中,I1表示平均間距序列L中的第i個數(shù)據(jù),Φ表示空集;
[0012] (4)確定離群數(shù)據(jù),檢查所述步驟(3)中獲得的類別Ca,如果Ca的數(shù)據(jù)個數(shù)大于某 一閾值S,則該大規(guī)模高維數(shù)據(jù)中沒有檢測到離群點,否則C a中所有數(shù)據(jù)對應(yīng)的點為離群 點,其中,S由用戶設(shè)定。
[0013] 前述的一種基于角度的高維數(shù)據(jù)離群檢測方法,其特征在于,所述步驟(1)包括 以下步驟:
[0014] 1-1)形式化數(shù)據(jù)集,高維數(shù)據(jù)形式化為:
[0015] 對于給定的高維數(shù)據(jù)集Dei?'范數(shù)M · 11定義為Rd-R+,內(nèi)積〈·,·>定義為 RdXRd- R,v點A,B e D,1吞表示向量亙一云,其中Rd表示d維實數(shù)空間,R +表示正實數(shù), Rd- R+表示d維實數(shù)空間上的元素到正實數(shù)的一個映射,R dXRd- R表示d維實數(shù)空間上 的兩個向量作內(nèi)積運算;
[0016] 1-2)對于給定的高維數(shù)據(jù)集中的,采用超球搜索法獲取A的k個最近鄰 點,表示為點集N k(A) e D。
[0017] 前述的一種基于角度的高維數(shù)據(jù)離群檢測方法,其特征在于,所述步驟(2)包括 以下步驟:
[0018] 2-1)定義離群因子AOF㈧G D , A的離群因子AOF㈧定義為A點到任意兩 點B和C組成的向量和的角度方差,具體描述為:
[0019] VA e D,Bi?,C 6-0,且 B ε D\ {A}, C ε D\ {A, B}
[0020]
[0021]
[0022]
[0023] 其中Var表示向量通_:和.衣^_的夾角ΦΒΜ方差,<:4爲(wèi)此>表示向量I和無的 內(nèi)積,和iC分別表示向量的范數(shù),ΕΦΒΑ(;表示夾角Φ BAe的數(shù)學(xué)期望;
[0024] 2-2)根據(jù)步驟1-2)獲得A的k近鄰Nk (A) e D,則2-1)中離群因子AOF (A)
[0025] 描述為基于A的k近鄰的離群因子,即:
[0026] V/\ € D, Nk (A) e D, B, C e Nk (A)
[0027]
[0028] *
[0029] 其中Var表示向量和JC的夾角Φ μ;方差,<JC >表示向量和乂C的 內(nèi)積,/IS和』Γ分別表示向量的范數(shù),ΕΦΒΑ(;表示夾角Φ BAe的數(shù)學(xué)期望。
[0030] 本發(fā)明所達到的有益效果:本發(fā)明可以高效快速地從大規(guī)模高維數(shù)據(jù)中發(fā)現(xiàn)隱藏 在其中的離群數(shù)據(jù),基于向量夾角的離群因子,能有效克服基于高維距離和最近鄰等離群 檢測方法的"維度災(zāi)難"問題,利用本發(fā)明可以廣泛應(yīng)用于信用卡欺詐檢測、交通事故檢測、 科學(xué)數(shù)據(jù)測量異常檢測等高維數(shù)據(jù)中。
【附圖說明】
[0031] 圖1為本發(fā)明的一種基于角度的高維數(shù)據(jù)離群檢測方法的流程圖。
【具體實施方式】
[0032] 下面結(jié)合附圖對本發(fā)明作進一步描述。以下實施例僅用于更加清楚地說明本發(fā)明 的技術(shù)方案,而不能以此來限制本發(fā)明的保護范圍。
[0033] 如圖1所示,一種基于角度的高維數(shù)據(jù)離群檢測方法,包括以下步驟:
[0034] 1)在數(shù)據(jù)集D中,對于每一個數(shù)據(jù)點A e D,獲取A的k個最近鄰點;
[0035] 為了得到各數(shù)據(jù)點的k個最近鄰點,需要給出高維數(shù)據(jù)的形式化描述、k個近鄰點 的的計算方法,分別為:
[0036] 1-1)形式化數(shù)據(jù)集,所述高維數(shù)據(jù)形式化為:
[0037] 對于給定的高維數(shù)據(jù)集及e 范數(shù)11 · 11定義為Rd- R+,內(nèi)積〈·,· >定義為 RdXRd-R,¥AA,B e D,i表示向量3-i,其中Rd表示d維實數(shù)空間,R+表示正實數(shù), Rd- R+表示d維實數(shù)空間上的元素到正實數(shù)的一個映射,R dXRd- R表示d維實數(shù)空間上 的兩個向量作內(nèi)積運算;
[0038] 1-2)對于給定的高維數(shù)據(jù)集中的點VJ e D,獲取A的k個最近鄰點,表示為點集 Nk(A) e D,方法為:米用超球搜索法獲取k近鄰點。
[0039] 超球搜索法的基本思想是將高維空間劃分成若干個體積相等的超立方體,也即為 基元超立方體,并依次進行編碼,然后在以A為中心的超球內(nèi)(由若干個基元超立方體覆 蓋)進行搜索,逐漸擴大超球半徑直至超球內(nèi)包含k個樣本為止。該超球內(nèi)的k近鄰即為 整個空間內(nèi)的k近鄰。該方法通過對特征空間的預(yù)組織,使分類在以A為中心的超球內(nèi)進 行。超球半徑由零開始逐漸增大至超球內(nèi)包含k個以上模式樣本為止。超球搜索法分為兩 個階段:第一階段為組織階
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
宕昌县| 三河市| 琼结县| 平顺县| 米林县| 娱乐| 浦北县| 壶关县| 区。| 叙永县| 灵宝市| 财经| 仪陇县| 炎陵县| 阿鲁科尔沁旗| 榆林市| 黄浦区| 信丰县| 靖西县| 清远市| 隆化县| 乐安县| 应用必备| 邵武市| 镇雄县| 巴青县| 兴文县| 商城县| 抚顺市| 新安县| 呼伦贝尔市| 胶州市| 兴山县| 九龙坡区| 五指山市| 聊城市| 哈尔滨市| 顺平县| 沙雅县| 成都市| 南木林县|