欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于雙向抽樣組合的大規(guī)模數(shù)據(jù)異常識別方法

文檔序號:6629932閱讀:361來源:國知局
一種基于雙向抽樣組合的大規(guī)模數(shù)據(jù)異常識別方法
【專利摘要】本發(fā)明提供一種基于雙向抽樣組合的大規(guī)模數(shù)據(jù)異常識別方法,包括以下步驟:對樣本數(shù)據(jù)集進(jìn)行橫向抽樣,得到子樣本數(shù)據(jù)集;對子樣本數(shù)據(jù)集進(jìn)行屬性抽樣,得到條帶數(shù)據(jù)集;對條帶數(shù)據(jù)集進(jìn)行異常程度打分;重復(fù)執(zhí)行上述步驟;組合異常程度分?jǐn)?shù),并計算異常程度分?jǐn)?shù)的期望值。本發(fā)明通過雙向抽樣方法,既解決了樣本量大時間復(fù)雜度高,又解決了維災(zāi)難的問題;利用抽樣方法將數(shù)據(jù)集進(jìn)行切分,提高了本發(fā)明方法的擴(kuò)展性。
【專利說明】一種基于雙向抽樣組合的大規(guī)模數(shù)據(jù)異常識別方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種異常識別方法,具體涉及一種基于雙向抽樣組合的大規(guī)模數(shù)據(jù)異 常識別方法。

【背景技術(shù)】
[0002] 異常識別(Outlier Detection),是一種針對數(shù)據(jù)集中離群樣本點(diǎn)的檢測方法。異 常的內(nèi)涵豐富,可能是噪音、誤差、或是稀有值。在數(shù)據(jù)挖掘領(lǐng)域,其普遍認(rèn)可的定義是,一 種由其它機(jī)制產(chǎn)生,且與大多數(shù)觀測值(Observation)相偏離的點(diǎn)。在本文中,與"異常點(diǎn) (Outlier) "相對的點(diǎn)稱為"正常點(diǎn)(Inlier) "。
[0003] 異常識別作為一種重要的研究方向,已經(jīng)廣泛在信用卡欺詐識別、疾病診斷和預(yù) 防、網(wǎng)絡(luò)入侵檢測、測量誤差檢驗(yàn)、稀有價值識別等現(xiàn)實(shí)應(yīng)用中。
[0004] (1)基于統(tǒng)計的異常識別方法
[0005] 從20世紀(jì)80年代起,異常識別問題就在統(tǒng)計學(xué)領(lǐng)域里得到廣泛研究,通常用戶 用某個統(tǒng)計分布對數(shù)據(jù)點(diǎn)進(jìn)行建模,再以假定的模型,根據(jù)點(diǎn)的分布來確定是否異常。許 許多多針對不同分布的異常測試(Discordancy Test)方法發(fā)展起來,它們分別適用于不 同的情形:①數(shù)據(jù)分布狀況;②數(shù)據(jù)分布參數(shù)是否已知;③異常數(shù)據(jù)數(shù)量;④異常數(shù)據(jù)類型 (高于或低于一般抽樣值)。這方面比較有代表性的有1967年Mikey,Dunn&Clark提出的 基于"均數(shù)漂移"模型的單點(diǎn)診斷量,1970年Gentleman&Wilk提出的群組診斷量,1972年 Tiet jen&Moore提出的單樣本k個離群點(diǎn)的統(tǒng)計量Ek, 1985年Marasinghe提出的改進(jìn)的 Ek統(tǒng)計量Fk, 1989年Rosner提出的單樣本多個離群檢測方法ESD (Generalized Extreme Studentized Deviate)方法,1991年P(guān)aul&Fung改進(jìn)了 ESD方法參數(shù)k選擇的主觀性,提 出了回歸分析的 GESR(Generalized Extreme Studentized DeviateResi2dual)方法。近 年來,多樣本的離群檢測方法也得到了一定的發(fā)展,總的思路是先盡量得到一個不含離群 點(diǎn)的"干凈集",然后在此基礎(chǔ)上對剩余的其他數(shù)據(jù)點(diǎn)進(jìn)行逐步離群檢測。
[0006] 目前利用統(tǒng)計學(xué)研究異常點(diǎn)數(shù)據(jù)有了一些新的方法,如通過分析統(tǒng)計數(shù)據(jù)的散度 情況,即數(shù)據(jù)變異指標(biāo),來對數(shù)據(jù)的總體特征有更進(jìn)一步的了解,對數(shù)據(jù)的分布情況有所了 解,進(jìn)而通過數(shù)據(jù)變異指標(biāo)來發(fā)現(xiàn)數(shù)據(jù)中的異常點(diǎn)數(shù)據(jù)。常用的數(shù)據(jù)變異指標(biāo)有極差、四分 位數(shù)間距、均差、標(biāo)準(zhǔn)差、變異系數(shù)等等,變異指標(biāo)的值大表示變異大、散布廣;值小表示離 差小,較密集。
[0007] 基于統(tǒng)計的方法識別出來的離群點(diǎn)很可能被不同的分布模型檢測出來,可以說產(chǎn) 生這些離群點(diǎn)的機(jī)制可能不唯一,解釋離群點(diǎn)的意義時經(jīng)常發(fā)生多義性,這是基于統(tǒng)計方 法的一個缺陷。其次,基于統(tǒng)計的方法在很大程度上依賴于待挖掘的數(shù)據(jù)集是否滿足某種 概率分布模型,模型的參數(shù)、離群點(diǎn)的數(shù)目等對基于統(tǒng)計的方法都有非常重要的意義,而確 定這些參數(shù)通常都比較困難。為克服這一問題,一些人提出對數(shù)據(jù)集進(jìn)行分布擬合,但分布 擬合存在兩個問題:①給出的分布可能不適合任一標(biāo)準(zhǔn)分布。②即使存在一個標(biāo)準(zhǔn)分布,分 布擬合的過程耗時太長。此外,基于統(tǒng)計的離群識別方法大多只適合于挖掘單變量的數(shù)值 型數(shù)據(jù),目前幾乎沒有多元的不一致檢驗(yàn),對于大多數(shù)的應(yīng)用來說,例如圖像和地理數(shù)據(jù), 數(shù)據(jù)集的維數(shù)卻可能是高維的。實(shí)際生活中,以上缺陷都大大限制了基于統(tǒng)計的方法的應(yīng) 用,使得它主要局限于科研計算,方法的可移植性較差。
[0008] (2)基于距離的異常識別方法
[0009] 用什么標(biāo)準(zhǔn)判定一個數(shù)據(jù)對象是孤立點(diǎn)呢?即便是對給定的距離量度函數(shù),對孤 立點(diǎn)也有不同的定義,以下是使用較多的幾個:
[0010] 1)基于距離的離群點(diǎn)最早是由Knorr和Ng提出的,他們把記錄看作高維空間中的 點(diǎn),離群點(diǎn)被定義為數(shù)據(jù)集中與大多數(shù)點(diǎn)之間的距離都大于某個閾值的點(diǎn),通常被描述為 DB (pet, (Jmin),數(shù)據(jù)集T中一個記錄0稱為離群點(diǎn),當(dāng)且僅當(dāng)數(shù)據(jù)集T中至少有pet部分的 數(shù)據(jù)與〇的距離大于d min。換一種角度考慮,記M = NX (Ι-pet),離群檢測即判斷與點(diǎn)0距 離小于dmin的點(diǎn)是否多于M。若是,則0不是離群點(diǎn),否則0是離群點(diǎn)。
[0011] 2)孤立點(diǎn)是數(shù)據(jù)集中到第k個最近鄰居的距離最大的η個對象;
[0012] 3)孤立點(diǎn)是數(shù)據(jù)集中與其k個最近鄰居的平均距離最大的η個對象。
[0013] 基于距離的離群點(diǎn)定義包含并拓展了基于統(tǒng)計的思想,即使數(shù)據(jù)集不滿足任何特 定分布模型,它仍能有效地發(fā)現(xiàn)離群點(diǎn),特別是當(dāng)空間維數(shù)比較離時,方法的效率比基于密 度的方法要高得多。方法具體實(shí)現(xiàn)時,首先給出記錄間距離的度量,常用的是絕對距離(曼 哈頓距離)、歐氏距離和馬氏距離。在給出了距離的度量并對數(shù)據(jù)進(jìn)行一定的預(yù)處理以后, 任意給定參數(shù)pet和d min就可以根據(jù)離群的定義來識別離群點(diǎn)。Rastogi和Ramaswamy在 上面基于距離的離群點(diǎn)定義的基礎(chǔ)上,提出改進(jìn)的基于距離的k最近鄰(k-NN)離群檢測方 法。
[0014] 基于距離的離群檢測方法中,方法需要事先確定參數(shù)PCt和Clniin,對于不同的數(shù)據(jù) 集這往往是一件比較困難的事情,特別是d min,不同聚類密度的數(shù)據(jù)集dmin會有很大的差異, 而這一般沒有規(guī)律可循,因此,對于給定的不同d min,異常識別結(jié)果通常具有很大的不穩(wěn)定 性。另一方面,基于距離的方法理論上能處理任意維任意類型的數(shù)據(jù),當(dāng)屬性數(shù)據(jù)為區(qū)間標(biāo) 度等非數(shù)值屬性時,記錄之間的距離不能直接確定,通常需要把屬性轉(zhuǎn)換為數(shù)值型,再按定 義計算記錄之間的距離。當(dāng)空間的維數(shù)大于三維時,由于空間的稀疏性,距離不再具有常規(guī) 意義,因此很難為異常給出合理的解釋。針對這個問題,一些人通過將高維空間映射轉(zhuǎn)換到 子空間的辦法來解決數(shù)據(jù)稀疏的問題,此方法在聚類方法中用得比較多,Agarwal R等人曾 試著用這種投影變換的方法來挖掘離群??偟膩碚f,基于距離的離群檢測方法具有比較直 觀的意義,方法比較容易理解,因此在實(shí)際中應(yīng)用得比較多。
[0015] 目前比較成熟的基于距離的異常識別的方法有:
[0016] 1).基于索引的方法(Index-based):給定一個數(shù)據(jù)集合,基于索引的方法采用多 維索引結(jié)構(gòu)R-樹,k-d樹等,來查找每個對象在半徑d范圍內(nèi)的鄰居。假設(shè)M為異常點(diǎn)數(shù) 據(jù)的d領(lǐng)域內(nèi)的最大對象數(shù)目。如果對象0的M+1個鄰居被發(fā)現(xiàn),則對象0就不是異常點(diǎn)。 這個方法在最壞情況下的復(fù)雜度為0 (k*n2),k為維數(shù),η為數(shù)據(jù)集合中對象的數(shù)目。當(dāng)k增 加時,基于索引的方法具有良好的擴(kuò)展性。
[0017] 2).嵌套循環(huán)方法(Nested-loop):嵌套一循環(huán)方法和基于索引的方法有相同的 計算復(fù)雜度,但是它避免了索引結(jié)構(gòu)的構(gòu)建,試圖最小化I/O的次數(shù)。它把內(nèi)存的緩沖空間 分為兩半,把數(shù)據(jù)集合分為若干個邏輯塊。通過精心選擇邏輯塊裝入每個緩沖區(qū)域的順序, I/O效率能夠改善。
[0018] 3).基于單元的方法(cell-based):在該方法中,數(shù)據(jù)空間被劃為邊長等于d/ (2*k 1/2)的單元。每個單元有兩個層圍繞著它。第一層的厚度是一個單元,而第二層的厚度 是[2*k1/2-l]。該方法逐個單元地對異常點(diǎn)計數(shù),而不是逐個對象地進(jìn)行計數(shù)。對于一個給 定的單元,它累計三個計數(shù):單元中對象的數(shù)目(cell_count)、單元和第一層中對象的數(shù) 目(cell_+_l_layer_count)單元和兩個層次中的對象的數(shù)目(cell_+_2_layers_count)。 該方法將對數(shù)據(jù)集的每一個元素進(jìn)行異常點(diǎn)數(shù)據(jù)的檢測改為對每一個單元進(jìn)行異常點(diǎn)數(shù) 據(jù)的檢測,它提高了方法的效率。它的方法復(fù)雜度是〇(c k+n),這里的c是依賴于單元數(shù)目 的常數(shù),k是維數(shù)。它是這樣進(jìn)行異常檢識別的:
[0019] 若cell_+_l_layer_count > M,單元中的所有對象都不是異常;若cell_+_2_ layers_count <= M,單元中的所有對象都是異常;否則,單元中的某一些數(shù)據(jù)可能是異 常。為了識別這些異常點(diǎn),需要逐個對象加入處理?;诰嚯x的異常識別方法要求用戶設(shè) 置參數(shù)P和d,而尋找這些參數(shù)的合活設(shè)置可能涉及多次試探和錯誤。
[0020] 基于距離的方法與基于統(tǒng)計的方法相比,不需要用戶擁有任何領(lǐng)域知識,與序列 異常相比,在概念上更加直觀。更重要的是,距離異常接近Hawkins的異常本質(zhì)定義。然 而,三種類型的基于距離的離群檢測方法中,基于索引的方法和循環(huán)--嵌套方法需要 〇(k*n 2)的時間開銷,因此在大數(shù)據(jù)集中還有待于改進(jìn);而基于單元的方法,雖然與η具有 線性的時間關(guān)系,但是它與k成指數(shù)關(guān)系,這限制了它在高維空間中的應(yīng)用,此外,基于單 元的方法還需要事先確定參數(shù)pct,Cl min以及單元的大小,這使得方法的可行性比較差;高 維空間中,基于索引的方法由于需要事先建立數(shù)據(jù)集的索引,建立與維護(hù)索引也要花大量 的時間。因此三種方法對于高維空間中的大數(shù)據(jù)集,方法的效率都不高。
[0021] (3)基于密度的異常識別方法
[0022] 基于密度的離群檢測方法一般都建立在距離的基礎(chǔ)上,某種意義上可以說基于密 度的方法是基于距離的方法中的一種,但基于密度的異常觀點(diǎn)比基于距離的異常觀點(diǎn)更貼 近Hawkins的異常定義,因此能夠檢測出基于距離的異常方法所不能識別的一類異常數(shù) 據(jù)--局部異常?;诿芏鹊姆椒ㄖ饕枷胧菍⒂涗浿g的距離和某一給定范圍內(nèi)記錄數(shù) 這兩個參數(shù)結(jié)合起來,從而得到"密度"的概念,然后根據(jù)密度判定記錄是否為離群點(diǎn)。
[0023] Breunig等人提出的基于局部離群因子的異常識別方法LOF是基于密度方法的一 個典型例子。它首先產(chǎn)生所有點(diǎn)的MinPts鄰域及MinPts距離,并計算到其中每個點(diǎn)的距 離;對低維數(shù)據(jù),利用網(wǎng)格進(jìn)行k-NN查詢,計算時間為0(n);對中維或中高維數(shù)據(jù),采用如 X2樹等索引結(jié)構(gòu),使得進(jìn)行k2NN查詢的時間為O(Iogn),整個計算時間為O(nlogn);對特 高維數(shù)據(jù),索引結(jié)構(gòu)不再有效,時間復(fù)雜度提高到〇(n 2)。然后計算每個點(diǎn)的局部異常因子, 最后根據(jù)局部異常因子來挖掘離群。LOF方法中,離群點(diǎn)被定義為相對于全局的局部離群 點(diǎn),這與傳統(tǒng)離群的定義不同,離群不再是一個二值屬性(要么是離群點(diǎn),要么是正常點(diǎn)), 它擯棄了以前所有的異常定義中非此即彼的絕對異常觀念,更加符合現(xiàn)實(shí)生活中的應(yīng)用。 LOF方法中充分體現(xiàn)了"局部"的概念,每個點(diǎn)都給出了一個離群程度,離群程度最強(qiáng)的那幾 個點(diǎn)被標(biāo)記為離群點(diǎn)。此外,Aggarwal也提出了一個結(jié)合子空間投影變換的基于密度的高 維離群檢測方法。
[0024] 然而,隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)樣本量呈現(xiàn)爆炸式增長,數(shù)據(jù)的維度也不斷增 大,諸如,銀行每天產(chǎn)生的信用記錄數(shù)量積在TB規(guī)模,且與信用卡記錄相關(guān)聯(lián)的屬性就超 過100個。有些視頻、文本數(shù)據(jù)的維度更高,可以達(dá)到十萬以上。因此,在如此大規(guī)模的數(shù) 據(jù)中進(jìn)行異常識別,往往面臨巨大的挑戰(zhàn)。
[0025] 首先,樣本量的增大增加了計算的時間開銷。傳統(tǒng)的異常識別方法針對小樣本數(shù) 據(jù)集,時間復(fù)雜度多在〇 (η2)或0 (η3)。而大規(guī)模數(shù)據(jù)下,這種時間開銷可能難以接受;其次, 維度的增大也帶來了"維災(zāi)難"(Curse of Dimension)問題,即數(shù)據(jù)在其所占據(jù)的空間中越 來越稀疏,樣本點(diǎn)之間的距離幾乎相等,導(dǎo)致很多基于距離和基于密度的計算指標(biāo)失去了 意義;第三,大規(guī)模數(shù)據(jù)產(chǎn)生的速度往往比較快,在數(shù)據(jù)的采集過程中存在"缺失數(shù)據(jù)",有 些正常點(diǎn)可能因此被誤判為異常點(diǎn)。


【發(fā)明內(nèi)容】

[0026] 為了克服上述現(xiàn)有技術(shù)的不足,本發(fā)明提供一種基于雙向抽樣組合的大規(guī)模數(shù)據(jù) 異常識別方法,通過雙向抽樣方法,既解決了樣本量大時間復(fù)雜度高,又解決了維災(zāi)難的問 題;利用抽樣方法將數(shù)據(jù)集進(jìn)行切分,提高了方法的擴(kuò)展性。
[0027] 為了實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明采取如下技術(shù)方案:
[0028] 本發(fā)明提供一種基于雙向抽樣組合的大規(guī)模數(shù)據(jù)異常識別方法,設(shè)樣本數(shù)據(jù)集D 中樣本點(diǎn)數(shù)量為n,屬性個數(shù)為m,所述方法包括以下步驟:
[0029] 步驟1 :對樣本數(shù)據(jù)集D進(jìn)行橫向抽樣,得到子樣本數(shù)據(jù)集比;
[0030] 步驟2 :對子樣本數(shù)據(jù)集比進(jìn)行縱向抽樣,得到條帶數(shù)據(jù)集比。;
[0031] 步驟3 :對條帶數(shù)據(jù)集。進(jìn)行異常程度打分;
[0032] 步驟4 :重復(fù)執(zhí)行上述步驟1-3 ;
[0033] 步驟5 :組合異常程度分?jǐn)?shù)值,并計算異常程度分?jǐn)?shù)的平均值。
[0034] 所述步驟1中,從樣本數(shù)據(jù)集D的η個樣本點(diǎn)中,以橫向抽樣率λ,按照隨機(jī)方式 抽取η λ個樣本點(diǎn),得到子樣本數(shù)據(jù)集隊(duì),即可完成對樣本數(shù)據(jù)集D的橫向抽樣。
[0035] 對樣本數(shù)據(jù)集D進(jìn)行橫向抽樣時,橫向抽樣率λ取〇. 1。
[0036] 所述步驟2中,從子樣本數(shù)據(jù)集的m個屬性中,以縱向抽樣率A按照隨機(jī)方式 抽取個屬性,得到條帶數(shù)據(jù)集,即可完成對子樣本數(shù)據(jù)集&的縱向抽樣。
[0037] 對子樣本數(shù)據(jù)集比進(jìn)行縱向抽樣時,縱向抽樣率P取0. 1。
[0038] 所述步驟2中,經(jīng)過縱向抽樣所得到的條帶數(shù)據(jù)集Drc的樣本點(diǎn)數(shù)量為ηλ,即 0. In,屬性個數(shù)為/?供,即0. lm。
[0039] 所述步驟3中,利用基于密度的異常識別方法對條帶數(shù)據(jù)集。進(jìn)行異常程度打 分,打分得到的異常程度分?jǐn)?shù)值按照異常程度降低而遞減。
[0040] 基于密度的異常識別方法為基于密度的LOF方法。
[0041] 所述步驟4中,重復(fù)執(zhí)行上述步驟1-3共t次,滿足即t彡100,保證覆 蓋完整的樣本數(shù)據(jù)集D。
[0042] 所述步驟5中,針對每個樣本點(diǎn),取t次的異常程度分?jǐn)?shù)值,計算其平均值作為該 樣本點(diǎn)最終的異常程度得分值。
[0043] 與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果在于:
[0044] 1.本發(fā)明先通過雙向抽樣策略生成不同的基礎(chǔ)識別結(jié)果,后再經(jīng)過組合方法加以 融合;
[0045] 2.在面向大規(guī)模數(shù)據(jù)的異常識別問題時,可以利用基于密度方法的優(yōu)勢,通過抽 樣組合來提高數(shù)據(jù)處理的效率和準(zhǔn)確性;
[0046] 3.通過抽樣的方法不僅可以減小數(shù)據(jù)的規(guī)模,加速并行計算的時間,還能降低數(shù) 據(jù)的維度,克服維災(zāi)難問題;
[0047] 4.組合方法能夠增加識別結(jié)果的多樣性,降低噪音的影響,提高異常識別的效 果;
[0048] 5.利用抽樣方法將數(shù)據(jù)集進(jìn)行切分,提高了本發(fā)明方法的擴(kuò)展性。

【專利附圖】

【附圖說明】
[0049] 圖1是基于雙向抽樣組合的大規(guī)模數(shù)據(jù)異常識別方法示意圖;
[0050] 圖2是本發(fā)明實(shí)施例中樣本數(shù)據(jù)集中樣本點(diǎn)數(shù)量η = 1000時AUC與屬性個數(shù)關(guān) 系不意圖;
[0051] 圖3是本發(fā)明實(shí)施例中樣本數(shù)據(jù)集中樣本點(diǎn)數(shù)量η = 10000時AUC與屬性個數(shù)關(guān) 系不意圖;
[0052] 圖4是本發(fā)明實(shí)施例中樣本數(shù)據(jù)集中樣本點(diǎn)數(shù)量η = 50000時AUC與屬性個數(shù)關(guān) 系不意圖;
[0053] 圖5是本發(fā)明實(shí)施例中屬性個數(shù)m = 20時AUC與樣本點(diǎn)個數(shù)關(guān)系示意圖;
[0054] 圖6是本發(fā)明實(shí)施例中屬性個數(shù)m = 200時AUC與樣本點(diǎn)個數(shù)關(guān)系示意圖;
[0055] 圖7是本發(fā)明實(shí)施例中屬性個數(shù)m = 2000時AUC與樣本點(diǎn)個數(shù)關(guān)系示意圖;
[0056] 圖8是本發(fā)明實(shí)施例中真實(shí)數(shù)據(jù)集AUC變化情況示意圖;
[0057] 圖9是本發(fā)明實(shí)施例中covertype數(shù)據(jù)集穩(wěn)定性分析示意圖;
[0058] 圖10是本發(fā)明實(shí)施例中susy數(shù)據(jù)集穩(wěn)定性分析示意圖。

【具體實(shí)施方式】
[0059] 下面結(jié)合附圖對本發(fā)明作進(jìn)一步詳細(xì)說明。
[0060] 異常識別具有重要的研究價值,并廣泛應(yīng)用在諸多領(lǐng)域。隨著大數(shù)據(jù)時代的到來, 數(shù)據(jù)樣本量和維度呈現(xiàn)爆炸式增長趨勢,傳統(tǒng)的異常識別方法已不足以應(yīng)對如此大規(guī)模數(shù) 據(jù)的異常識別問題。本文以基于密度的異常識別方法為基礎(chǔ),利用無監(jiān)督式的雙向抽樣組 合策略,將大規(guī)模數(shù)據(jù)集異常識別問題轉(zhuǎn)化為任務(wù)獨(dú)立的若干小數(shù)據(jù)集的異常識別問題, 本發(fā)明提出的基于雙向抽樣組合的大規(guī)模數(shù)據(jù)異常識別方法能解決大規(guī)模數(shù)據(jù)樣本量大 和維度高的問題,不僅擴(kuò)展性強(qiáng),還具有重要的理論依據(jù)。通過與其他異常識別方法,分別 在仿真數(shù)據(jù)集和真實(shí)數(shù)據(jù)集上進(jìn)行對比,驗(yàn)證了雙向抽樣組合方法高效性和準(zhǔn)確性。
[0061] 本發(fā)明提供一種基于雙向抽樣組合的大規(guī)模數(shù)據(jù)異常識別方法,設(shè)樣本數(shù)據(jù)集D 中樣本點(diǎn)數(shù)量為n,屬性個數(shù)為m,所述方法包括以下步驟:
[0062] 步驟1 :對樣本數(shù)據(jù)集D進(jìn)行橫向抽樣,得到子樣本數(shù)據(jù)集比;
[0063] 步驟2 :對子樣本數(shù)據(jù)集比進(jìn)行縱向抽樣,得到條帶數(shù)據(jù)集比。;
[0064] 步驟3 :對條帶數(shù)據(jù)集&。進(jìn)行異常程度打分;
[0065] 步驟4 :重復(fù)執(zhí)行上述步驟1-3 ;
[0066] 步驟5 :組合異常程度分?jǐn)?shù)值,并計算異常程度分?jǐn)?shù)的平均值。
[0067] 所述步驟1中,從樣本數(shù)據(jù)集D的η個樣本點(diǎn)中,以橫向抽樣率λ,按照隨機(jī)方式 抽取η λ個樣本點(diǎn),得到子樣本數(shù)據(jù)集隊(duì),即可完成對樣本數(shù)據(jù)集D的橫向抽樣。
[0068] 對樣本數(shù)據(jù)集D進(jìn)行橫向抽樣時,橫向抽樣率λ取〇. 1。
[0069] 所述步驟2中,從子樣本數(shù)據(jù)集的m個屬性中,以縱向抽樣率P,按照隨機(jī)方式 抽取個屬性,得到條帶數(shù)據(jù)集Dm,即可完成對子樣本數(shù)據(jù)集&的縱向抽樣。
[0070] 對子樣本數(shù)據(jù)集比進(jìn)行縱向抽樣時,縱向抽樣率P取0. 1。
[0071] 所述步驟2中,經(jīng)過縱向抽樣所得到的條帶數(shù)據(jù)集Drc的樣本點(diǎn)數(shù)量為ηλ,即 0. In,屬性個數(shù)為叫》,即0. lm。
[0072] 所述步驟3中,利用基于密度的異常識別方法對條帶數(shù)據(jù)集。進(jìn)行異常程度打 分,打分得到的異常程度分?jǐn)?shù)值按照異常程度降低而遞減。
[0073] 基于密度的異常識別方法為基于密度的LOF方法(local outlier factor,L0F,記 載于 Μ· M. Breunig, Η· -P. Kriegel, R. Ng, and J. Sander. LOF :Identifying density-based local outliers//In Proc. ofthe SIGM0D, 2000 :93-104.)〇
[0074] 所述步驟4中,重復(fù)執(zhí)行上述步驟1-3共t次,滿足if hi,即t > 100,保證覆 蓋完整的樣本數(shù)據(jù)集D。
[0075] 所述步驟5中,針對每個樣本點(diǎn),取t次的異常程度分?jǐn)?shù)值,計算其平均值作為該 樣本點(diǎn)最終的異常程度得分值。
[0076] 實(shí)施例1
[0077] 下面以由多元高斯分布模擬生成的仿真數(shù)據(jù)集為例,說明本發(fā)明方法的效果:
[0078] 首先通過多元高斯分布模擬生成仿真數(shù)據(jù)集,每個樣本數(shù)據(jù)集的樣本點(diǎn)數(shù)量η分 別為 1000, 2000, 5000,10000, 50000,100000,樣本的維度 m 分別為 20,100, 200, 500,1000, 2000,共計42個仿真數(shù)據(jù)集。每個樣本數(shù)據(jù)集D由c個聚類組成,聚類的個數(shù)c取值范圍 為5到10之間。假設(shè)在仿真數(shù)據(jù)集中,每個聚類的樣本點(diǎn)D。均服從m-元的高斯分布,即 a : A =(?·.·,/<"),[..=(<廠,且高斯分布中的參數(shù)是由均勻分布隨 機(jī)生成,即A:: "(-10,10),"(0.U)。那么,每個樣本點(diǎn)D。到其聚類中心點(diǎn)的馬氏距 離W =yj(D -μ f Σ,~' (Z) - Ji),同時也服從自由度為m的卡方分布,即Zf : x2(m)。因 此,標(biāo)記每個聚類中馬氏距離在0. 975分位點(diǎn)之后的樣本為異常點(diǎn)。
[0079] 在該實(shí)施例中,參數(shù)設(shè)定為抽樣率λ =〇. 1,¢7=0.1, t = 100。為了與其它方法進(jìn)行 性能對比分析,這里將本發(fā)明方法簡記為"BI-L0F"。特別地,當(dāng)樣本抽樣率λ = 1,ρ = 0·1 時,相當(dāng)于只對屬性進(jìn)行抽樣,該方法可記為"FB-L0F";同理,當(dāng)屬性抽樣率λ =〇. 1,<^ = 1 時,相對對于只對樣本進(jìn)行抽樣,該方法可記為"SUB-L0F";當(dāng)雙向抽樣率λ =1且P = I時, 相當(dāng)于沒有進(jìn)行抽樣,該方法等同于"L0F"。
[0080] 該實(shí)施例利用ROC曲線下方的面積(AUC)來評價不同本發(fā)明方法的效果。
[0081] 圖2-圖4描述了在樣本點(diǎn)數(shù)量不變的條件下,仿真數(shù)據(jù)集的AUC隨屬性數(shù)量的變 化情況。當(dāng)樣本點(diǎn)數(shù)量η固定時,隨著屬性個數(shù)m的增加,F(xiàn)B-LOF方法性能逐漸增加,其它 方法則相對穩(wěn)定,這是由屬性抽樣的性質(zhì)所決定的。當(dāng)屬性個數(shù)達(dá)到最大值2000時,四種 方法的AUC均略有下降,若屬性個數(shù)再有增加,將出現(xiàn)維災(zāi)難現(xiàn)象。圖5-圖7描述了在屬 性數(shù)量不變的條件性,仿真數(shù)據(jù)集的AUC隨樣本點(diǎn)數(shù)量的變化情況。當(dāng)屬性數(shù)量η固定時, 四種方法幾乎不受樣本點(diǎn)數(shù)量變化的影響,相對較為穩(wěn)定。
[0082] 綜合圖2-圖7可以得出,在仿真數(shù)據(jù)集上,雙向抽樣方法BI-LOF和樣本抽樣方法 SUB-LOF效果最優(yōu),LOF次之,屬性抽樣方法FB-LOF效果最差。但由于本發(fā)明方法BI-LOF 可以進(jìn)一步通過屬性抽樣降低數(shù)據(jù)集的計算開銷,因此,更適合于大規(guī)模數(shù)據(jù)的異常識別。
[0083] 實(shí)施例2
[0084] 下面以真實(shí)數(shù)據(jù)集為例,說明本發(fā)明方法的效果:
[0085] 真實(shí)數(shù)據(jù)集全部選自UCI數(shù)據(jù)庫,表1給出了關(guān)于實(shí)驗(yàn)中所涉及全部數(shù)據(jù)集的特 征描述。為了模擬數(shù)據(jù)集中的異常情況,文中隨機(jī)從每個數(shù)據(jù)集的最小類中選取s e [10, 100]個點(diǎn)標(biāo)記為該數(shù)據(jù)集的異常點(diǎn),其余點(diǎn)則標(biāo)記為正常點(diǎn)。由于本發(fā)明方法不適用于離 散屬性的分析,因此需剔除部分真實(shí)數(shù)據(jù)集中的離散屬性。與實(shí)施例1相同,該實(shí)施例利用 ROC曲線下方的面積(AUC)來評價不同本發(fā)明方法的效果。
[0086] 表 1
[0087]

【權(quán)利要求】
1. 一種基于雙向抽樣組合的大規(guī)模數(shù)據(jù)異常識別方法,其特征在于:設(shè)樣本數(shù)據(jù)集D 中樣本點(diǎn)數(shù)量為n,屬性個數(shù)為m,所述方法包括以下步驟: 步驟1 :對樣本數(shù)據(jù)集D進(jìn)行橫向抽樣,得到子樣本數(shù)據(jù)集; 步驟2 :對子樣本數(shù)據(jù)集&進(jìn)行縱向抽樣,得到條帶數(shù)據(jù)集比。; 步驟3 :對條帶數(shù)據(jù)集Drc進(jìn)行異常程度打分; 步驟4 :重復(fù)執(zhí)行上述步驟1-3 ; 步驟5 :組合異常程度分?jǐn)?shù)值,并計算異常程度分?jǐn)?shù)的平均值。
2. 根據(jù)權(quán)利要求1所述的基于雙向抽樣組合的大規(guī)模數(shù)據(jù)異常識別方法,其特征在 于:所述步驟1中,從樣本數(shù)據(jù)集D的η個樣本點(diǎn)中,以橫向抽樣率λ,按照隨機(jī)方式抽取 ηλ個樣本點(diǎn),得到子樣本數(shù)據(jù)集,即可完成對樣本數(shù)據(jù)集D的橫向抽樣。
3. 根據(jù)權(quán)利要求1或2所述的基于雙向抽樣組合的大規(guī)模數(shù)據(jù)異常識別方法,其特征 在于:對樣本數(shù)據(jù)集D進(jìn)行橫向抽樣時,橫向抽樣率λ取〇. 1。
4. 根據(jù)權(quán)利要求1所述的基于雙向抽樣組合的大規(guī)模數(shù)據(jù)異常識別方法,其特征在 于:所述步驟2中,從子樣本數(shù)據(jù)集的!11個屬性中,以縱向抽樣率Ρ,按照隨機(jī)方式抽取 個屬性,得到條帶數(shù)據(jù)集Dm,即可完成對子樣本數(shù)據(jù)集1\,的縱向抽樣。
5. 根據(jù)權(quán)利要求1或4所述的基于雙向抽樣組合的大規(guī)模數(shù)據(jù)異常識別方法,其特征 在于:對子樣本數(shù)據(jù)集比進(jìn)行縱向抽樣時,縱向抽樣率P取0. 1。
6. 根據(jù)權(quán)利要求1所述的基于雙向抽樣組合的大規(guī)模數(shù)據(jù)異常識別方法,其特征在 于:所述步驟2中,經(jīng)過縱向抽樣所得到的條帶數(shù)據(jù)集。的樣本點(diǎn)數(shù)量為ηλ,即〇.In,屬 性個數(shù)為叫9,即0.lm。
7. 根據(jù)權(quán)利要求1所述的基于雙向抽樣組合的大規(guī)模數(shù)據(jù)異常識別方法,其特征在 于:所述步驟3中,利用基于密度的異常識別方法對條帶數(shù)據(jù)集。進(jìn)行異常程度打分,打分 得到的異常程度分?jǐn)?shù)值按照異常程度降低而遞減。
8. 根據(jù)權(quán)利要求7所述的基于雙向抽樣組合的大規(guī)模數(shù)據(jù)異常識別方法,其特征在 于:基于密度的異常識別方法為基于密度的LOF方法。
9. 根據(jù)權(quán)利要求1所述的基于雙向抽樣組合的大規(guī)模數(shù)據(jù)異常識別方法,其特征在 于:所述步驟4中,重復(fù)執(zhí)行上述步驟1-3共t次,滿足?·fA^,即t> 100,保證覆蓋完整 的樣本數(shù)據(jù)集D。
10. 根據(jù)權(quán)利要求1所述的基于雙向抽樣組合的大規(guī)模數(shù)據(jù)異常識別方法,其特征在 于:所述步驟5中,針對每個樣本點(diǎn),取t次的異常程度分?jǐn)?shù)值,計算其平均值作為該樣本點(diǎn) 最終的異常程度得分值。
【文檔編號】G06F17/30GK104462184SQ201410535911
【公開日】2015年3月25日 申請日期:2014年10月13日 優(yōu)先權(quán)日:2014年10月13日
【發(fā)明者】張玉超, 鄧波, 彭甫陽, 李海龍 申請人:北京系統(tǒng)工程研究所
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
尼玛县| 根河市| 治多县| 周口市| 涟水县| 双牌县| 汝阳县| 赤峰市| 威宁| 赫章县| 东方市| 龙州县| 密山市| 昌邑市| 湘潭县| 清水河县| 临潭县| 乐至县| 福鼎市| 米林县| 麻江县| 云阳县| 拜泉县| 连城县| 通化县| 乾安县| 乐至县| 普陀区| 金山区| 绿春县| 宁河县| 朝阳市| 虞城县| 宜兰市| 自贡市| 邢台市| 永吉县| 遵义市| 蚌埠市| 介休市| 拜城县|