欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于特征選擇與密度峰值聚類的異常流量檢測方法

文檔序號(hào):9814239閱讀:673來源:國知局
一種基于特征選擇與密度峰值聚類的異常流量檢測方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于數(shù)據(jù)挖掘W及異常檢測的交叉領(lǐng)域,特別設(shè)及一種基于特征選擇與密 度峰值聚類的異常流量檢測方法。
【背景技術(shù)】
[0002] 當(dāng)窺探、入侵等惡意行為發(fā)生時(shí),網(wǎng)絡(luò)上傳輸?shù)牧髁吭谀承┨匦?,如流量大小、?shù) 據(jù)包長W及數(shù)據(jù)包特定區(qū)域的內(nèi)容等特性會(huì)表現(xiàn)出與正常流量的相異性,若能夠盡早檢測 運(yùn)些異常流量,就可W提前采取行動(dòng)來保護(hù)網(wǎng)絡(luò)安全。研究對(duì)運(yùn)些異常流量的檢測、定位造 成異常的主機(jī),進(jìn)而對(duì)異常主機(jī)進(jìn)行處理,對(duì)于避免網(wǎng)絡(luò)擁塞、保證網(wǎng)絡(luò)性能、避免網(wǎng)絡(luò)資 源的濫用W及保護(hù)網(wǎng)絡(luò)信息安全,具有重要意義。
[0003] 數(shù)據(jù)挖掘方法的易用性與自動(dòng)性使其近年來成為異常檢測領(lǐng)域的熱點(diǎn),受到許多 研究機(jī)構(gòu)的重視。當(dāng)前基于數(shù)據(jù)挖掘的異常流量檢測所面臨的挑戰(zhàn)主要有:
[0004] 1.由于數(shù)據(jù)量往往較為龐大,提取的特征維度較高且存在無關(guān)特征,使得異常流 量檢測占用的計(jì)算資源高,分析時(shí)間長,因此需要有效的方法提取最合適的特征。
[000引2.當(dāng)前有監(jiān)督的分類方法需要對(duì)未知的流量進(jìn)行大量的人工標(biāo)記,顯然無法應(yīng)用 于大規(guī)模的數(shù)據(jù)量,而一些無監(jiān)督的聚類方法盡管不需要標(biāo)記,然而聚類精確度W及所需 時(shí)間對(duì)一些參數(shù),如聚類中屯、的個(gè)數(shù)敏感,難W達(dá)到滿意的結(jié)果。
[0006] 特征選擇是一種較為常見的對(duì)提取的特征進(jìn)行選擇,使之具有更強(qiáng)的信息代表與 相關(guān)性,并減少冗余的技術(shù)。然而大量的數(shù)據(jù)挖掘方法需要基于樣本的標(biāo)記,在沒有標(biāo)記的 情況下對(duì)特征之間的互信息進(jìn)行估計(jì)存在局限;此外,提取的特征不僅包含離散類型的特 征,還包含連續(xù)特征。離散化的效果對(duì)結(jié)果影響較大。本文采用的基于最大信息系數(shù)的無監(jiān) 督特征選擇,從而不僅確保在無標(biāo)記情況下,信息之間的相關(guān)性能夠得到較為準(zhǔn)確的測量, 且能夠在不降低聚類精度的情況下,有效減少冗余的特征數(shù)量。
[0007] 聚類是一種普遍的無監(jiān)督學(xué)習(xí)方法,旨在將物體分類的有意義的組別。同一個(gè)簇 中的成員看作相似的,而不同組別中的成員看作不同的。因此產(chǎn)生于不同機(jī)制的網(wǎng)絡(luò)數(shù)據(jù) 會(huì)被分到不同的組別中去。現(xiàn)有的一種聚類方法,基于密度峰值的聚類算法,盡管結(jié)合了基 于距離W及基于密度兩類聚類方法的優(yōu)勢,然而在其聚類中屯、的選擇階段需要對(duì)所有數(shù)據(jù) 記錄建立二維矩陣,W求記錄其二者之間的距離,在單機(jī)上,所能處理的數(shù)據(jù)十分有限。本 文根據(jù)其密度峰值特性,采用改進(jìn)的基于抽樣機(jī)制的密度峰值聚類算法,對(duì)其聚類中屯、選 擇階段進(jìn)行了一定比例抽樣,使得可處理的數(shù)據(jù)量得到較大提高且僅帶來微量誤差下降。
[0008] 本發(fā)明的目的在于克服現(xiàn)有技術(shù)的缺點(diǎn)與不足,提供一種基于無監(jiān)督特征選擇W 及聚類的異常流量檢測方法,在繼承了無監(jiān)督特征選擇W及聚類無需標(biāo)記的優(yōu)勢的同時(shí), 也具備處理更多數(shù)據(jù)的能力。

【發(fā)明內(nèi)容】

[0009] 本發(fā)明提出了一種基于特征選擇W及密度峰值聚類的網(wǎng)絡(luò)流量異常檢測方法,包 括如下階段:
[0010] 流量采集階段:通過網(wǎng)絡(luò)分析工具監(jiān)聽網(wǎng)絡(luò),并將監(jiān)聽到的數(shù)據(jù)包采集到本地;
[0011] 特征提取階段:從所述數(shù)據(jù)包中提取屬于同一個(gè)流的數(shù)據(jù)包,對(duì)所述數(shù)據(jù)包進(jìn)行 特征抽取,并將提取的特征進(jìn)行歸一化;
[0012] 特征選擇階段:利用最大信息系數(shù)評(píng)估每個(gè)特征對(duì)分類決策的重要性,再根據(jù)特 征之間的冗余度對(duì)特征進(jìn)行簡單聚類,在相互之間存在冗余的特征中選擇出重要性最高的 一個(gè)特征加入特征子集;
[0013] 聚類分析階段:對(duì)所述特征子集的特征,采用改進(jìn)的基于密度峰值的聚類方法對(duì) 特征進(jìn)行聚類,將其分為多個(gè)流量類型簇,對(duì)每一個(gè)所述流量類型簇進(jìn)行少量抽樣,通過已 有的入侵?jǐn)?shù)據(jù)庫、網(wǎng)絡(luò)流量和日志文件進(jìn)行分析來對(duì)抽樣的流量數(shù)據(jù)進(jìn)行分辨并標(biāo)記,利 用抽樣樣本眾數(shù)類別的流量類型來覆蓋整個(gè)流量類型簇的流量類型,W檢測出異常流量。
[0014] 本發(fā)明提出的所述基于特征選擇W及密度峰值聚類的網(wǎng)絡(luò)流量異常檢測方法中, 所述流量采集階段包括下述步驟:
[001引步驟la:初始化Linux系統(tǒng);
[0016] 步驟Ib:使用yum命令來安裝tcpdump;
[0017] 步驟Ic:采集通過系統(tǒng)的網(wǎng)卡的流量抓取tcp數(shù)據(jù)包,將數(shù)據(jù)包保存到本地的.cap 文件中。
[0018] 本發(fā)明提出的所述基于特征選擇W及密度峰值聚類的網(wǎng)絡(luò)流量異常檢測方法中, 所述特征提取階段包括下述步驟:
[0019] 步驟2a:從所述數(shù)據(jù)包的IP包頭中提取五元組,所述五元組為源地址、源端口、目 的地址、目的端口 W及協(xié)議類型;
[0020] 步驟化:從所述數(shù)據(jù)包的TCP報(bào)頭中提取flag字段的特征,包括基本特征、時(shí)間戳、 從源主機(jī)到目標(biāo)主機(jī)數(shù)據(jù)的字節(jié)數(shù)、從目標(biāo)主機(jī)到源主機(jī)的數(shù)據(jù)字節(jié)數(shù);
[0021 ]步驟2c:將連續(xù)的特征進(jìn)行歸一化,使之落在[0.0,1.0 ]的區(qū)間內(nèi)。
[0022] 本發(fā)明提出的所述基于特征選擇W及密度峰值聚類的網(wǎng)絡(luò)流量異常檢測方法中, 所述特征選擇階段包括下述步驟:
[0023] 步驟3a:將所述數(shù)據(jù)的特征分為離散型與連續(xù)型,其中離散型的特征直接使用互 信息公式計(jì)算兩個(gè)特征之間的相關(guān)度;對(duì)于連續(xù)型的特征,使用最大信息系數(shù)來評(píng)估兩個(gè) 特征之間的相關(guān)度;
[0024] 步驟3b:將每一個(gè)特征與其他特征之間的關(guān)聯(lián)度進(jìn)行求和,得到求和變量數(shù)值;
[0025] 步驟3c:移除所述求和變量數(shù)值小于特定闊值的特征;
[0026] 步驟3d:對(duì)于剩余的特征,將兩者之間相關(guān)度大于特定闊值的特征進(jìn)行聚類,形成 簇,同一簇內(nèi)的特征存在冗余,
[0027] 步驟3e:對(duì)每一個(gè)簇,選取簇內(nèi)與其他特征之間相關(guān)度最大的一個(gè)特征,加入并獲 得特征子集。
[0028] 本發(fā)明提出的所述基于特征選擇W及密度峰值聚類的網(wǎng)絡(luò)流量異常檢測方法中, 所述方法的聚類分析階段包括下述步驟:
[0029] 步驟4a:將經(jīng)過重要度W及冗余度篩選的特征所形成的子集導(dǎo)入系統(tǒng)用于聚類分 析;
[0030] 步驟4b:加入抽樣機(jī)制,對(duì)每一個(gè)所述流量類型簇進(jìn)行少量抽樣,計(jì)算抽樣樣本在 高維空間的密度W及距離,并確定聚類中屯、;
[0031] 步驟4c:為高維空間中的每一個(gè)點(diǎn)選擇距離最近的一個(gè)聚類中屯、;
[0032] 步驟4d:通過對(duì)簇進(jìn)行抽樣W及樣本進(jìn)行鑒別,確定各數(shù)據(jù)的類型,W甄別出異常 流量。
[0033] 本發(fā)明的有益效果在于:
[0034] 本發(fā)明通過數(shù)據(jù)挖掘方法進(jìn)行異常流量檢測,可W檢測出W往未知的、潛在的異 常流量,從而避免將運(yùn)些流量數(shù)據(jù)劃分到已知的類別中去;通過應(yīng)用最大信息系數(shù)對(duì)特征 之間的相關(guān)性進(jìn)行估計(jì),避免了對(duì)連續(xù)型特征進(jìn)行離散化而造成的結(jié)果不精確;再利用特 征之間的相關(guān)度,對(duì)特征進(jìn)行聚類,將存在冗余的特征聚到一個(gè)簇中,并最后取簇中相關(guān)度 最高的一個(gè)特征,加入到最終特征子集;通過對(duì)聚類中屯、選擇階段進(jìn)行抽樣優(yōu)化,避免對(duì)所 有的數(shù)據(jù)記錄進(jìn)行歐式距離的兩兩運(yùn)算與保存,極大地降低了運(yùn)個(gè)過程用到的數(shù)據(jù)量,且 僅帶來微量檢測準(zhǔn)確率的下降。
【附圖說明】
[0035] 圖1是本發(fā)明基于特征選擇與密度峰值聚類的異常流量檢測方法的流程圖。
【具體實(shí)施方式】
[0036] 結(jié)合W下具體實(shí)施例和附圖,對(duì)本發(fā)明作進(jìn)一步的詳細(xì)說明。實(shí)施本發(fā)明的過程、 條件、實(shí)驗(yàn)方法等,除W下??谔峒暗膬?nèi)容之外,均為本領(lǐng)域的普遍知識(shí)和公知
當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
苗栗县| 辉南县| 乌鲁木齐市| 安化县| 治多县| 肃南| 深水埗区| 海丰县| 上高县| 岳西县| 鱼台县| 周至县| 三穗县| 汉川市| 英吉沙县| 宣城市| 晋中市| 读书| 蓝田县| 沁阳市| 南通市| 手机| 南江县| 内乡县| 靖西县| 唐山市| 正安县| 裕民县| 盘锦市| 弋阳县| 姜堰市| 尤溪县| 鄂州市| 广丰县| 乌兰浩特市| 绍兴县| 贵阳市| 南溪县| 宣汉县| 平潭县| 通渭县|