欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于知識(shí)熵的異常數(shù)據(jù)檢測(cè)方法

文檔序號(hào):6634413閱讀:303來(lái)源:國(guó)知局
一種基于知識(shí)熵的異常數(shù)據(jù)檢測(cè)方法
【專利摘要】一種基于知識(shí)熵的異常數(shù)據(jù)檢測(cè)方法,其特征在于包括如下步驟:1)樣本集合的屬性分析階段:收集應(yīng)用程序生成的數(shù)據(jù)樣本集合U及其對(duì)應(yīng)的屬性集合A;對(duì)數(shù)據(jù)樣本集U中的屬性值進(jìn)行規(guī)范化預(yù)處理;基于屬性全集A對(duì)數(shù)據(jù)樣本集U的作聚類(lèi)處理,并計(jì)算A的知識(shí)熵;分別計(jì)算各個(gè)屬性的重要度,據(jù)此構(gòu)造屬性集合的序列;結(jié)束。2)樣本集合的數(shù)據(jù)樣本檢測(cè)階段:計(jì)算每個(gè)數(shù)據(jù)樣本的異常因子;根據(jù)異常因子輸出異常數(shù)據(jù)集合;結(jié)束。本發(fā)明在利用聚類(lèi)效果的同時(shí)避免聚類(lèi)的不確定性,可以有效地保證異常數(shù)據(jù)的檢測(cè)準(zhǔn)確率。
【專利說(shuō)明】一種基于知識(shí)熵的異常數(shù)據(jù)檢測(cè)方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及異常數(shù)據(jù)檢測(cè)方法,尤其是在計(jì)算機(jī)信息系統(tǒng)生成的大量數(shù)據(jù)集的基 礎(chǔ)之上探索數(shù)據(jù)中異常信息的方法,更具體的涉及基于聚類(lèi)和知識(shí)熵的異常數(shù)據(jù)檢測(cè)方 法。

【背景技術(shù)】
[0002] 異常數(shù)據(jù)檢測(cè)也稱離群點(diǎn)檢測(cè)和例外挖掘,常見(jiàn)的異常成因是數(shù)據(jù)來(lái)源于不同的 類(lèi)(如欺詐、入侵等)、數(shù)據(jù)變量自然變異(如基因突變,顧客新的購(gòu)買(mǎi)模式等)、以及數(shù)據(jù) 測(cè)量或收集誤差。由于離群點(diǎn)可以發(fā)現(xiàn)與眾不同的新信息,所以廣泛應(yīng)用于入侵檢測(cè)、欺詐 檢測(cè)、公共衛(wèi)生、電商平臺(tái)中顧客購(gòu)買(mǎi)行為分析等眾多領(lǐng)域。
[0003] 異常數(shù)據(jù)檢測(cè)的方法主要包括以下幾種:(1)基于統(tǒng)計(jì)的技術(shù):首先建立一個(gè)數(shù) 據(jù)模型,異常是那些同模型不能完美擬合的對(duì)象;如果模型是簇的集合,則異常是不顯著屬 于任何簇的對(duì)象;在使用回歸模型時(shí),異常是相對(duì)遠(yuǎn)離預(yù)測(cè)值的對(duì)象。(2)基于鄰近度的技 術(shù):通常可以在對(duì)象之間定義鄰近性度量,異常對(duì)象是那些遠(yuǎn)離其他對(duì)象的對(duì)象。(3)基于 密度的技術(shù):僅當(dāng)一個(gè)點(diǎn)的局部密度顯著低于它的大部分近鄰時(shí)將其分類(lèi)為異常點(diǎn)。(4) 基于聚類(lèi)的技術(shù):以遠(yuǎn)離其他簇的小簇作為異常點(diǎn)。
[0004] 異常數(shù)據(jù)檢測(cè)的主要難點(diǎn)在于比較難于處理非數(shù)值類(lèi)型的樣本、高維數(shù)據(jù)的數(shù)據(jù) 維度信息評(píng)價(jià)、非單一維度的數(shù)據(jù)異常等等?;诮y(tǒng)計(jì)的技術(shù)難以處理高維數(shù)據(jù);基于鄰近 度的技術(shù)不能處理具有不同密度區(qū)域的數(shù)據(jù)集;基于密度的技術(shù)難以調(diào)參;基于聚類(lèi)的技 術(shù)難以保證產(chǎn)生的簇的質(zhì)量,對(duì)離群點(diǎn)的質(zhì)量影響非常大。
[0005] 為了提高異常數(shù)據(jù)檢測(cè)的效果,在利用聚類(lèi)效果的同時(shí)避免聚類(lèi)的不確定性,本 發(fā)明提出一種基于知識(shí)熵的異常數(shù)據(jù)檢測(cè)方法,可以有效地保證異常數(shù)據(jù)的檢測(cè)準(zhǔn)確率。


【發(fā)明內(nèi)容】

[0006] 發(fā)明目的:本發(fā)明提供了一種檢測(cè)應(yīng)用收集的大量數(shù)據(jù)樣本集合中異常數(shù)據(jù)的方 法,該方法首先基于知識(shí)熵計(jì)算數(shù)據(jù)樣本集合中各個(gè)屬性的重要程度,然后計(jì)算每個(gè)數(shù)據(jù) 樣本的異常因子,最后輸出異常數(shù)據(jù)集合。
[0007] 本發(fā)明的技術(shù)方案是:基于知識(shí)熵的異常數(shù)據(jù)點(diǎn)檢測(cè)方法包括如下步驟:
[0008] 1)數(shù)據(jù)樣本集合的屬性分析階段:
[0009] a)收集應(yīng)用程序生成的數(shù)據(jù)樣本集合U及其對(duì)應(yīng)的屬性集合A ;
[0010] b)對(duì)數(shù)據(jù)樣本集U中的屬性值進(jìn)行規(guī)范化預(yù)處理;
[0011] C)基于屬性全集A對(duì)數(shù)據(jù)樣本集U的作聚類(lèi)處理,并計(jì)算A的知識(shí)熵;
[0012] d)分別計(jì)算各個(gè)屬性的重要度,據(jù)此構(gòu)造屬性集合的序列;
[0013] e)結(jié)束。
[0014] 2)數(shù)據(jù)樣本集合的數(shù)據(jù)樣本檢測(cè)階段:
[0015] a)計(jì)算每個(gè)數(shù)據(jù)樣本的異常因子;
[0016] b)根據(jù)異常因子輸出異常數(shù)據(jù)集合;
[0017] c)結(jié)束。
[0018] 其中步驟1-b的具體過(guò)程如下:
[0019] 1)遍歷數(shù)據(jù)樣本集U的屬性全集A ;
[0020] 2)對(duì)于屬性值為數(shù)值類(lèi)型的屬性%,根據(jù)所有數(shù)據(jù)樣本該屬性的最小值合最大值 作規(guī)范化處理:規(guī)范化屬性值V' u = (Vu-Vi^in) AVi^x-VuJ,使規(guī)范化后的屬性值在〇 到1. 〇之間;其中Vu是規(guī)范前的屬性值,是規(guī)范前所有數(shù)據(jù)樣本在%屬性上的最小 值,是規(guī)范前所有數(shù)據(jù)樣本在ai屬性上的最大值;
[0021] 3)對(duì)于屬性值不為數(shù)值類(lèi)型的屬性ak,依據(jù)非數(shù)值屬性值出現(xiàn)的頻率賦予0到 I. 〇相應(yīng)的值:V' U =屬性ak取值為Vlu的樣本數(shù)/樣本總數(shù)。
[0022] 步驟I-C的具體過(guò)程如下:
[0023] 1)考慮數(shù)據(jù)樣本集的屬性全集A對(duì)應(yīng)的數(shù)據(jù)集合U ;
[0024] 2)計(jì)算集合U的直徑L,

【權(quán)利要求】
1. 一種基于知識(shí)熵的異常數(shù)據(jù)檢測(cè)方法,其特征在于包括如下步驟: 1) 數(shù)據(jù)樣本集合的屬性分析階段: a) 收集應(yīng)用程序生成的數(shù)據(jù)樣本集合U及其對(duì)應(yīng)的屬性集合A ; b) 對(duì)數(shù)據(jù)樣本集U中的屬性值進(jìn)行規(guī)范化預(yù)處理; c) 基于屬性全集A對(duì)數(shù)據(jù)樣本集U的作聚類(lèi)處理,并計(jì)算A的知識(shí)熵; d) 分別計(jì)算各個(gè)屬性的重要度,據(jù)此構(gòu)造屬性集合的序列; e) 結(jié)束。 2) 數(shù)據(jù)樣本集合的數(shù)據(jù)樣本檢測(cè)階段: a) 計(jì)算每個(gè)數(shù)據(jù)樣本的異常因子; b) 根據(jù)異常因子輸出異常數(shù)據(jù)集合; c) 結(jié)束。 其中步驟Ι-b的所述的規(guī)范化預(yù)處理具體過(guò)程如下: 1) 遍歷數(shù)據(jù)樣本集U的屬性全集A ; 2) 對(duì)于屬性值為數(shù)值類(lèi)型的屬性%,根據(jù)所有數(shù)據(jù)樣本在該屬性上的最小值和最大值 作規(guī)范化處理:規(guī)范化屬性值V' u = (Vu-Vi^in) AVi^x-VuJ,使規(guī)范化后的屬性值在O 到1. 〇之間;其中Vu是規(guī)范前的屬性值,\min是規(guī)范前所有數(shù)據(jù)樣本在%屬性上的最小 值,是規(guī)范前所有數(shù)據(jù)樣本在 ai屬性上的最大值; 3) 對(duì)于屬性值不為數(shù)值類(lèi)型的屬性ak,依據(jù)非數(shù)值屬性值出現(xiàn)的頻率賦予O到I. O相 應(yīng)的值u =屬性ak取值為Vlu的樣本數(shù)/樣本總數(shù); 4) 結(jié)束。
2. 根據(jù)權(quán)利要求1所述的基于知識(shí)熵的異常數(shù)據(jù)檢測(cè)方法,其特征在于基于Ι-c所述 的基于聚類(lèi)的知識(shí)熵計(jì)算方法; 1) 考慮數(shù)據(jù)樣本集的屬性全集A對(duì)應(yīng)的數(shù)據(jù)集合U ; 2) 計(jì)算集合U的直徑:
,設(shè)閾值S = L/10 ; 3) 對(duì)U基于參數(shù)δ作完全鏈接聚類(lèi),得到聚類(lèi)結(jié)果(E1, E2, E3,…,Ek),其中E1是一個(gè) 數(shù)據(jù)樣本集合聚類(lèi)后的集合,滿 fl=l
4) 計(jì)算屬性全集A的知識(shí)熵
5) 結(jié)束。 步驟Ι-d的具體過(guò)程如下: 1) 對(duì)屬性全集A中每一個(gè)屬性叫,計(jì)算其屬性重要度:sig(ai) =E㈧-E(A-{ai}); 2) 對(duì)屬性全集A根據(jù)屬性重要度排序得到屬性序列S =〈a、a'2,……,a'|A|>,其中 滿足 sig(a' D 彡 sig(a' i+1); 3) 構(gòu)造屬性集合序列AS =〈A" A2,......,Am>,其中對(duì)1彡i彡m,為G A A1 = A, Am = {a' J ,并且滿足 Ai+1 = Ai- {a' J。
3. 根據(jù)權(quán)利要求1所述的基于知識(shí)熵的異常數(shù)據(jù)檢測(cè)方法,其特征在于基于2-a所述 的數(shù)據(jù)樣本異常因子計(jì)算算法: 1) 對(duì)S中每個(gè)屬性a' i作步驟I-C的聚類(lèi)得到>; 2) 對(duì)AS中每個(gè)屬性集合Ai也作步驟1-c的聚類(lèi)得到<.4 ……,罵.*,. h 3) 對(duì)U中每個(gè)數(shù)據(jù)樣本X,計(jì)算其權(quán)重w(x),
其中IXLi i表示義在81 聚類(lèi)結(jié)果中所屬于的聚類(lèi);
4) 計(jì)算X的異常因子d(x), 其中表示X在 Aj聚類(lèi)結(jié)果中所屬于的聚類(lèi); 5) 結(jié)束; 步驟2-b的具體過(guò)程如下: 1) /) - 0: 2) 對(duì)U中每個(gè)數(shù)據(jù)樣本X,若d (X) >0. 85,則D = D U {x}; 3) 輸出D ; 4) 結(jié)束。
【文檔編號(hào)】G06F17/30GK104376078SQ201410650726
【公開(kāi)日】2015年2月25日 申請(qǐng)日期:2014年11月14日 優(yōu)先權(quán)日:2014年11月14日
【發(fā)明者】劉峰, 劉欽, 楊瑞, 呂傳耀 申請(qǐng)人:南京大學(xué)
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
梅河口市| 宜兰市| 朝阳县| 甘肃省| 阜南县| 博乐市| 江口县| 胶州市| 比如县| 饶河县| 开平市| 曲水县| 台东市| 铜川市| 志丹县| 湘乡市| 高邮市| 靖州| 衡东县| 彭阳县| 林甸县| 元谋县| 淅川县| 措勤县| 新田县| 汉阴县| 龙州县| 思茅市| 依兰县| 新干县| 冷水江市| 抚州市| 电白县| 娄烦县| 海宁市| 蒙自县| 浦城县| 勐海县| 嵩明县| 大城县| 三明市|