專利名稱:半監(jiān)督異常入侵檢測方法
技術(shù)領(lǐng)域:
本發(fā)明屬于網(wǎng)絡(luò)安全技術(shù)領(lǐng)域,涉及入侵檢測方法,具體的說是一種基于模糊聚 類和支撐矢量域描述的半監(jiān)督異常入侵檢測方法,可用于網(wǎng)絡(luò)環(huán)境中對數(shù)據(jù)的檢測。
背景技術(shù):
隨著全球信息化技術(shù)的飛速發(fā)展,網(wǎng)絡(luò)已廣泛應(yīng)用于社會生活的各個領(lǐng)域,伴隨 而來的網(wǎng)絡(luò)信息安全問題也不斷增多。已被廣泛應(yīng)用的傳統(tǒng)網(wǎng)絡(luò)安全技術(shù)包括數(shù)據(jù)加密技 術(shù)、認證技術(shù)、防火墻技術(shù)和入侵檢測系統(tǒng)。其中入侵檢測系統(tǒng)因具有檢測性強、應(yīng)用范圍 廣泛、響應(yīng)及時的特點而成為網(wǎng)絡(luò)安全領(lǐng)域的研究熱點。按檢測數(shù)據(jù)來源不同,入侵檢測系統(tǒng)可以分為兩類基于主機的入侵檢測系統(tǒng)和 基于網(wǎng)絡(luò)的入侵檢測系統(tǒng)?;谥鳈C的入侵檢測系統(tǒng)主要以主機的審計記錄作為檢測數(shù)據(jù) 來源,來完成對入侵行為的檢測?;诰W(wǎng)絡(luò)的入侵檢測系統(tǒng)通過分析網(wǎng)絡(luò)數(shù)據(jù)包,檢測其中 隱藏的入侵行為。按檢測方法不同,入侵檢測方法又可以分為誤用入侵檢測方法和異常入 侵檢測方法。誤用入侵檢測方法通過分析各種入侵行為,提取出相應(yīng)的入侵行為特征庫,采 用該檢測方法的入侵檢測系統(tǒng)的性能優(yōu)劣完全取決于它是否具備一個及時更新的特征庫。 異常入侵檢測方法首先為正常行為建立一個的狀態(tài)模型,異于該狀態(tài)模型的行為都被懷疑 為攻擊行為,采用該檢測方法的入侵檢測系統(tǒng)對未知入侵行為的發(fā)現(xiàn)能力較強,其設(shè)計難 點在于如何正確構(gòu)造正常行為的狀態(tài)模型。異常入侵檢測可看作單值分類問題,即將檢測數(shù)據(jù)中的目標類與離群類分離開 來,其中目標類是檢測數(shù)據(jù)中的正常數(shù)據(jù),離群類是檢測數(shù)據(jù)中的各種入侵數(shù)據(jù)。支撐矢量 域描述SVDD是由支撐矢量機發(fā)展而來的一種數(shù)據(jù)域描述方法,可用于單值分類問題?;?SVDD的異常入侵檢測方法的優(yōu)點在于1、它是一種無監(jiān)督學(xué)習(xí)方法,不需要為訓(xùn)練數(shù)據(jù)標 記類別;2、適用于僅由正常數(shù)據(jù)組成的或者包含噪聲的訓(xùn)練集,使得模型的實時更新成為 可能;3、通用性強,可用于實現(xiàn)基于網(wǎng)絡(luò)或主機的異常入侵檢測。異常入侵檢測的本質(zhì)是一個模式分類問題,即將檢測數(shù)據(jù)正確地分為正常類和異 常類,其中正常類包含檢測數(shù)據(jù)中的正常數(shù)據(jù),異常類包含檢測數(shù)據(jù)中的各種入侵數(shù)據(jù),因 此各種模式識別和機器學(xué)習(xí)技術(shù)越來越多的被應(yīng)用到入侵檢測領(lǐng)域中。傳統(tǒng)的入侵檢測方 法是基于監(jiān)督學(xué)習(xí)的,雖然檢測率較高,且虛警率較低,但是無法有效地檢測到未知入侵行 為。因此,無監(jiān)督學(xué)習(xí)方法被應(yīng)用到入侵檢測中,基于聚類的入侵檢測方法不用對網(wǎng)絡(luò)數(shù)據(jù) 進行標記就可以檢測到未知入侵行為,所以該檢測方法的檢測率較高,但是如果有入侵行 為被錯誤標記為正常類,將導(dǎo)致該類入侵行為及其變種都被視作正常數(shù)據(jù),所以虛警率也 較高。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服上述已有技術(shù)的不足,針對訓(xùn)練數(shù)據(jù)中僅包含少量正常數(shù) 據(jù)的情況,提出一種基于模糊聚類和支撐矢量域描述的半監(jiān)督異常入侵檢測方法,以實現(xiàn)在保證較高檢測率的同時,最大程度的降低虛警率。實現(xiàn)本發(fā)明目的的技術(shù)思路是提取訓(xùn)練數(shù)據(jù)中的正常數(shù)據(jù)作為有標記樣本集, 通過模糊聚類和基于支撐矢量域描述SVDD的自訓(xùn)練不斷標記利用無標記的檢測數(shù)據(jù)樣 本,為檢測器提供更多有效的樣本分布信息,從而提高檢測率。其技術(shù)方案包括以下步驟(1)在進行入侵檢測時,將正常行為對應(yīng)的檢測數(shù)據(jù)定義為正常數(shù)據(jù),將各種入侵 行為對應(yīng)的檢測數(shù)據(jù)定義為異常數(shù)據(jù),提取訓(xùn)練數(shù)據(jù)中的一部分正常數(shù)據(jù)作為初始有標記 樣本集IxJ,將檢測數(shù)據(jù)作為初始未標記樣本集{Xj};(2)對當前有標記和未標記樣本實施模糊C均值聚類,得到初始聚類中心M= {m+, m_},其中m+是檢測數(shù)據(jù)中正常類樣本的初始聚類中心,m_是檢測數(shù)據(jù)中異常類樣本的初始 聚類中心,正常類包含檢測數(shù)據(jù)中的正常數(shù)據(jù),異常類包含檢測數(shù)據(jù)中的異常數(shù)據(jù);(3)基于初始聚類中心M,對當前有標記和未標記樣本再次實施模糊C均值聚類, 得到聚類中心M* = {<,《},其中 < 是正常類樣本的聚類中心,屹是異常類樣本的聚類中 心,并將當前所有未標記樣本到各聚類中心的隸屬度集合記作U= IucJj e (1,2,...,u), c e (+,-)},其中Uc;j是第j個未標記樣本到標記為c的聚類中心的隸屬度,u是當前未標 記樣本集的樣本數(shù)目;(4)依據(jù)得到的隸屬度集合U,從當前未標記樣本集{Xj}中選取聚類標記為正且 對應(yīng)隸屬度最大的H個樣本進行標記,即H = pXN+,將當前有標記樣本集和未標記樣本集 分別聚類更新為和{<},式中N+是當前未標記樣本集中聚類標記為正的樣本數(shù)目,ρ是 從未標記樣本中選取出并進行標記的比例;(5)對上述聚類更新后的數(shù)據(jù)集{<}和{<},進行基于支撐矢量域描述SVDD的自訓(xùn) 練;(6)從聚類更新后的未標記樣本集{<}中選取判別函數(shù)值最大的H*個樣本進行標 記,即礦=pxN,將當前有標記樣本集和未標記樣本集分別自訓(xùn)練更新為{<}和{<},式 中<是聚類更新后的未標記樣本集{<}中預(yù)測標記為正的樣本數(shù)目,P是從未標記樣本中 選取出并進行標記的比例;(7)對上述自訓(xùn)練更新后的數(shù)據(jù)集{χ*}和,進行基于支撐矢量域描述SVDD的 分類;(8)利用上述基于支撐矢量域描述SVDD的檢測數(shù)據(jù)分類結(jié)果,統(tǒng)計此次入侵檢測 的檢測率和虛警率,并計算相應(yīng)幾何均值Gm ;(9)根據(jù)獲得的幾何均值是否達到最優(yōu)作為終止條件,若滿足則停止迭代,返回步 驟(8),輸出本次入侵檢測的結(jié)果,否則返回步驟(2),直到滿足終止條件為止。本發(fā)明與現(xiàn)有技術(shù)相比具有如下優(yōu)點(1)本發(fā)明使用模糊C均值聚類挖掘大量無標記的檢測數(shù)據(jù)中隱含的數(shù)據(jù)分布信 息,并結(jié)合支撐矢量域描述SVDD的優(yōu)點,在保證較高檢測率的同時,最大程度的降低了虛 警率,從而在實際應(yīng)用中不但可以更準確的檢測出威脅,并能夠減少誤檢給用戶帶來的不 必要的麻煩;(2)本發(fā)明綜合考慮了實際應(yīng)用中經(jīng)常會遇到訓(xùn)練數(shù)據(jù)較少或很難獲取,且僅包 含正常數(shù)據(jù)的情況,為入侵檢測方法引入半監(jiān)督學(xué)習(xí)的思想,通過迭代執(zhí)行模糊C均值聚類和基于支撐矢量域描述SVDD的自訓(xùn)練過程,不斷標記利用大量未標記的檢測數(shù)據(jù)樣本, 為檢測器的訓(xùn)練提供了更多有效的樣本分布信息,從而提高了檢測率。
圖1是本發(fā)明的流程圖;圖2是用本發(fā)明對KDD cupl999數(shù)據(jù)的30組檢測數(shù)據(jù)統(tǒng)計的檢測率對比圖;圖3是用本發(fā)明對KDD cupl999數(shù)據(jù)的30組檢測數(shù)據(jù)統(tǒng)計的虛警率對比圖。
具體實施例方式參照圖1,本發(fā)明的具體實現(xiàn)步驟如下步驟1,選定初始有標記樣本集和初始未標記樣本集。在進行入侵檢測時,將正常行為對應(yīng)的檢測數(shù)據(jù)定義為正常數(shù)據(jù),將各種入侵行 為對應(yīng)的檢測數(shù)據(jù)定義為異常數(shù)據(jù),提取訓(xùn)練數(shù)據(jù)中的一部分正常數(shù)據(jù)作為初始有標記樣 本集IxJ,將檢測數(shù)據(jù)作為初始未標記樣本集{Xj}。步驟2,對所述檢測數(shù)據(jù)的聚類中心進行初始化。對當前有標記和未標記樣本實施模糊C均值算法,重復(fù)下面的運算步驟,直到有 標記和未標記樣本的隸屬度值穩(wěn)定(2a)計算隸屬度
權(quán)利要求
一種半監(jiān)督異常入侵檢測方法,包括如下步驟(1)在進行入侵檢測時,將正常行為對應(yīng)的檢測數(shù)據(jù)定義為正常數(shù)據(jù),將各種入侵行為對應(yīng)的檢測數(shù)據(jù)定義為異常數(shù)據(jù),提取訓(xùn)練數(shù)據(jù)中的一部分正常數(shù)據(jù)作為初始有標記樣本集{xi},將檢測數(shù)據(jù)作為初始未標記樣本集{xj};(2)對當前有標記和未標記樣本實施模糊C均值聚類,得到初始聚類中心M={m+,m },其中m+是檢測數(shù)據(jù)中正常類樣本的初始聚類中心,m 是檢測數(shù)據(jù)中異常類樣本的初始聚類中心,正常類包含檢測數(shù)據(jù)中的正常數(shù)據(jù),異常類包含檢測數(shù)據(jù)中的異常數(shù)據(jù);(3)基于初始聚類中心M,對當前有標記和未標記樣本再次實施模糊C均值聚類,得到聚類中心其中是正常類樣本的聚類中心,是異常類樣本的聚類中心,并將當前所有未標記樣本到各聚類中心的隸屬度集合記作U={ucj|j∈(1,2,...,u),c∈(+, )},其中ucj是第j個未標記樣本到標記為c的聚類中心的隸屬度,u是當前未標記樣本集的樣本數(shù)目;(4)依據(jù)得到的隸屬度集合U,從當前未標記樣本集{xj}中選取聚類標記為正且對應(yīng)隸屬度最大的H個樣本進行標記,即H=p×N+,將當前有標記樣本集和未標記樣本集分別聚類更新為和式中N+是當前未標記樣本集中聚類標記為正的樣本數(shù)目,p是從未標記樣本中選取出并進行標記的比例;(5)對上述聚類更新后的數(shù)據(jù)集和進行基于支撐矢量域描述SVDD的自訓(xùn)練;(6)從聚類更新后的未標記樣本集中選取判別函數(shù)值最大的H*個樣本進行標記,即將當前有標記樣本集和未標記樣本集分別自訓(xùn)練更新為和式中是聚類更新后的未標記樣本集中預(yù)測標記為正的樣本數(shù)目,p是從未標記樣本中選取出并進行標記的比例;(7)對上述自訓(xùn)練更新后的數(shù)據(jù)集和進行基于支撐矢量域描述SVDD的分類;(8)利用上述基于支撐矢量域描述SVDD的檢測數(shù)據(jù)分類結(jié)果,統(tǒng)計此次入侵檢測的檢測率和虛警率,并計算相應(yīng)幾何均值Gm;(9)根據(jù)獲得的幾何均值是否達到最優(yōu)作為終止條件,若滿足則停止迭代,返回步驟(8),輸出本次入侵檢測的結(jié)果,否則返回步驟(2),直到滿足終止條件為止。FDA0000030756970000011.tif,FDA0000030756970000012.tif,FDA0000030756970000013.tif,FDA0000030756970000014.tif,FDA0000030756970000015.tif,FDA0000030756970000016.tif,FDA0000030756970000017.tif,FDA0000030756970000018.tif,FDA0000030756970000019.tif,FDA00000307569700000110.tif,FDA00000307569700000111.tif,FDA00000307569700000112.tif,FDA00000307569700000113.tif,FDA00000307569700000114.tif,FDA00000307569700000115.tif
2.根據(jù)權(quán)利要求1的半監(jiān)督異常入侵檢測方法,其中步驟(5)所述的對聚類更新后的 數(shù)據(jù)集{<}和{<},進行基于支撐矢量域描述SVDD的自訓(xùn)練,按如下步驟進行(5a)使用支撐矢量域描述SVDD方法對聚類更新后的有標記樣本集{<}進行訓(xùn)練;(5b)利用支撐矢量域描述SVDD方法的判別函數(shù)/(χ;) = sgn(i 2-||0(x;)-a||2),得到聚 類更新后的未標記樣本集{<}中各樣本的預(yù)測標記,其中a為利用支撐矢量域描述SVDD方 法訓(xùn)練得到的超球中心,R為對應(yīng)超球半徑,Φ 0是非線性映射函數(shù),sgnO是符號函數(shù),< 是用于預(yù)測的未標記樣本。
3.根據(jù)權(quán)利要求1的半監(jiān)督異常入侵檢測方法,其中步驟(7)所述的對自訓(xùn)練更新后 的數(shù)據(jù)集和,進行基于支撐矢量域描述SVDD的分類,按如下步驟進行(7a)使用支撐矢量域描述SVDD方法對自訓(xùn)練更新后的有標記樣本集進行訓(xùn)練; (7b)利用支撐矢量域描述SVDD方法的判別函數(shù)f (Xj) = sgn (R2-I | Φ (Xj)-a I |2),得到 初始未標記樣本集{xj中各樣本的預(yù)測標記,其中a為利用支撐矢量域描述SVDD方法訓(xùn) 練得到的超球中心,R為對應(yīng)超球半徑,Φ0是非線性映射函數(shù),sgn()是符號函數(shù),Xj是 用于預(yù)測的未標記樣本。
4.根據(jù)權(quán)利要求1的半監(jiān)督異常入侵檢測方法,其中步驟(8)所述的利用基于支撐矢 量域描述SVDD的檢測數(shù)據(jù)分類結(jié)果,統(tǒng)計本發(fā)明對此次入侵檢測的檢測率和虛警率,并計 算相應(yīng)幾何均值Gm,按如下步驟進行 (8a)分別計算本發(fā)明對此次入侵檢測的檢測率
全文摘要
本發(fā)明公開了一種基于模糊聚類和支撐適量域描述的半監(jiān)督異常入侵檢測方法,主要用于解決現(xiàn)有技術(shù)對入侵檢測數(shù)據(jù)檢測率低且虛警率高的問題。其實現(xiàn)步驟為(1)初始有標記樣本集和未標記樣本集;(2)初始聚類中心;(3)實施模糊C均值聚類;(4)依據(jù)聚類結(jié)果更新有標記樣本集和未標記樣本集;(5)實施基于支撐矢量域描述SVDD的自訓(xùn)練;(6)依據(jù)自訓(xùn)練結(jié)果更新有標記樣本集和未標記樣本集;(7)實施基于支撐矢量域描述SVDD的分類;(8)評估入侵檢測結(jié)果并輸出。本發(fā)明在提高檢測率的同時,降低了虛警率,可用于訓(xùn)練數(shù)據(jù)僅包含極少正常數(shù)據(jù)的實時入侵檢測系統(tǒng)。
文檔編號H04L29/06GK101980480SQ20101053089
公開日2011年2月23日 申請日期2010年11月4日 優(yōu)先權(quán)日2010年11月4日
發(fā)明者侯彪, 馮吭雨, 張青, 焦李成, 王爽, 緱水平, 鐘樺, 馬文萍 申請人:西安電子科技大學(xué)