專利名稱:一種基于整合相關(guān)性分析與分級聚類的入侵檢測方法
一種基于整合相關(guān)性分析與分級聚類的入侵檢測方法技術(shù)領(lǐng)域
本發(fā)明屬于信息安全技術(shù)領(lǐng)域,尤其涉及一種整合相關(guān)性分析與分級聚類 (hierarchical clustering)的入侵檢測方法,主要應(yīng)用于信息安全管理系統(tǒng)。
背景技術(shù):
隨著計算機網(wǎng)絡(luò)的普及,網(wǎng)絡(luò)信息安全問題日益突出。入侵檢測系統(tǒng)(IDS)作為 信息安全保障中的一個重要環(huán)節(jié),采用主動防御策略,在不影響網(wǎng)絡(luò)性能的前提下對網(wǎng)絡(luò) 進(jìn)行監(jiān)測,通過對從計算機網(wǎng)絡(luò)或計算機系統(tǒng)中的若干關(guān)鍵點收集的信息進(jìn)行分析,從中 發(fā)現(xiàn)網(wǎng)絡(luò)或系統(tǒng)中是否有違反安全策略的行為和被攻擊的跡象。入侵檢測從技術(shù)上分為誤 用檢測和異常檢測兩類,前者通過特征匹配檢測是否發(fā)生入侵,對已知入侵的檢測準(zhǔn)確、快 速,但不能檢測未知入侵類型;后者則是在建立正常模型的基礎(chǔ)上,將實際行為與之比較, 通過分析是否存在偏離來判斷入侵行為,該方法不僅能檢測出已知入侵,還能檢測未知入 侵。目前異常檢測已成為當(dāng)前入侵檢測系統(tǒng)研究的熱點之一。
聚類分析又稱群分析,是研究(樣品或指標(biāo))分類問題的一種多元統(tǒng)計方法,所謂 類足指相似元素的集合。而聚類就是按照一定的要求和規(guī)律對事物進(jìn)行區(qū)分和分類的過 程,在這一過程中沒有任何關(guān)于類分的先驗知識,沒有教師指導(dǎo),僅靠事物間的相似性作為 類屬劃分的準(zhǔn)則,即同一聚類之間最小化,而不同聚類之間數(shù)據(jù)最大化。分層聚類方法將數(shù) 據(jù)集按不同層次逐層分割。在此,入侵檢測模型能否高效、準(zhǔn)確地辨析海量的用戶行為數(shù) 據(jù),是判斷一個入侵檢測系統(tǒng)成功與否的標(biāo)志,因此,如何使分層聚類方法能高效地從存儲 在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其它信息庫中的大量數(shù)據(jù)中發(fā)現(xiàn)有用知識的過程,減小聚類處理時 間是一個亟待解決的問題。
分級聚類算法突破了非系統(tǒng)聚類法的很多限制,比如說生物學(xué)家用系統(tǒng)分類法 來劃分?jǐn)?shù)據(jù),動物和植物首先被分成種species,進(jìn)一步的聚合成屬classe,科order,目 family,綱genera,門phyla。每一個分類水平都聚合了前一個水平的幾個成員,如
圖1所 示,屬 classell22 聚合了種 speciesll221 和 11222 等,科 orderll2 聚合了屬 classell21 和 1122 等,目 family 11 聚合了 orderlll 和 112,綱 general 聚合了 目 family 11 和 12,綱 genera2聚合了 family21和22,門phyla聚合了綱general和2,系統(tǒng)聚類法就是從這個思 想上發(fā)展而來的。發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種能解決入侵檢測聚類分析中海量運算和有效實施數(shù) 據(jù)聚類的入侵檢測方法。
本發(fā)明采用的技術(shù)方案為一種基于整合相關(guān)性分析與分級聚類的入侵檢測方 法,包括以下步驟
步驟1建立入侵檢測數(shù)據(jù)庫的特征數(shù)據(jù)向量;
步驟2 進(jìn)行相關(guān)性分析計算計算機網(wǎng)絡(luò)上的用戶行為數(shù)據(jù)向量集中的每個特征數(shù)據(jù)向量和其余特征數(shù)據(jù)向量間的最大相關(guān)系數(shù),排除與其余特征向量的最大相關(guān)系數(shù) 小于一相關(guān)系數(shù)閾值的特征數(shù)據(jù)向量;
步驟3 對經(jīng)相關(guān)系數(shù)閾值選取后保留下來的特征數(shù)據(jù)向量進(jìn)行分級聚類,分級聚類中采用的兩個特征數(shù)據(jù)向量之間的距離量度
權(quán)利要求
1.一種基于整合相關(guān)性分析與分級聚類的入侵檢測方法,其特征在于,包括以下步驟, 步驟1建立入侵檢測數(shù)據(jù)庫的特征數(shù)據(jù)向量;步驟2 進(jìn)行相關(guān)性分析計算計算機網(wǎng)絡(luò)上的用戶行為數(shù)據(jù)向量集中的每個特征數(shù) 據(jù)向量和其余特征數(shù)據(jù)向量間的最大相關(guān)系數(shù),排除與其余特征向量的最大相關(guān)系數(shù)小于 一相關(guān)系數(shù)閾值的特征數(shù)據(jù)向量;步驟3 對經(jīng)相關(guān)系數(shù)閾值選取后保留下來的特征數(shù)據(jù)向量進(jìn)行分級聚類,分級聚類中采用的兩個特征數(shù)據(jù)向量之間的距離量度
2.根據(jù)權(quán)利要求1所述的入侵檢測方法,其特征在于,步驟2在確定相關(guān)系數(shù)閾值的方 法為首先通過bootstrap自助統(tǒng)計法擬合出所有特征數(shù)據(jù)向量的最大相關(guān)系數(shù)的正態(tài)分 布,并獲得得到的正態(tài)分布的平均值mean和標(biāo)準(zhǔn)差std ;再通過正態(tài)累積分布的求逆函數(shù) 求出對應(yīng)于統(tǒng)計檢驗值的相關(guān)系數(shù)閾值。
3.根據(jù)權(quán)利要求2所述的入侵檢測方法,其特征在于,所述統(tǒng)計檢驗值小于等于0.05。
4.根據(jù)權(quán)利要求2所述的入侵檢測方法,其特征在于,所述特征數(shù)據(jù)向量包括一個時 間窗口內(nèi)目標(biāo)主機是與當(dāng)前連接相同的連接次數(shù)、出現(xiàn)SYN錯誤的連接在所述一個時間窗 口內(nèi)目標(biāo)主機是與當(dāng)前連接相同的連接次數(shù)中所占的百分比、目標(biāo)端口相同的連接所占的 百分比、目標(biāo)端口不同的連接所占的百分比、目標(biāo)端口與當(dāng)前連接相同的連接次數(shù)、出現(xiàn) SYN錯誤的連接在所述目標(biāo)端口與當(dāng)前連接相同的連接次數(shù)中所占的百分比和目標(biāo)主機不 同的連接所占的百分比中的至少一個數(shù)據(jù)。
5.根據(jù)權(quán)利要求1至4中任一項所述的入侵檢測方法,其特征在于,步驟3中進(jìn)行分級 聚類的方法為用距離量度dST指定的方法計算用戶行為數(shù)據(jù)向量集中的各特征數(shù)據(jù)向量 之間的距離向量;再利用最短距離法計算所述距離向量的系統(tǒng)聚類樹;最后,根據(jù)系統(tǒng)聚 類樹創(chuàng)建分類。
全文摘要
本發(fā)明公開了一種基于整合相關(guān)性分析與分級聚類的入侵檢測方法,屬于信息安全技術(shù)領(lǐng)域,該方法首先建立入侵檢測數(shù)據(jù)庫的特征數(shù)據(jù)向量;步驟2再計算計算機網(wǎng)絡(luò)上的用戶行為數(shù)據(jù)向量集中的每個特征數(shù)據(jù)向量和其余特征數(shù)據(jù)向量間的最大相關(guān)系數(shù),排除與其余特征向量的最大相關(guān)系數(shù)小于一相關(guān)系數(shù)閾值的特征數(shù)據(jù)向量;最后,對經(jīng)相關(guān)系數(shù)閾值選取后保留下來的特征數(shù)據(jù)向量進(jìn)行分級聚類,分級聚類中采用的兩個特征數(shù)據(jù)向量之間的距離量度其中,corr(vi,vj)是特征數(shù)據(jù)向量vi和vj間的相關(guān)系數(shù),‖vi-vj‖為特征數(shù)據(jù)向量vi和vj間的歐拉距離。本發(fā)明的方法能降低入侵檢測聚類分析中的海量運算,有效提高入侵檢測數(shù)據(jù)的聚類分析的有效性。
文檔編號H04L29/06GK102045358SQ20101061117
公開日2011年5月4日 申請日期2010年12月29日 優(yōu)先權(quán)日2010年12月29日
發(fā)明者張江, 戚建淮 申請人:深圳市永達(dá)電子股份有限公司