專利名稱:基于改進的自適應提升算法的互聯(lián)網(wǎng)入侵檢測方法
技術領域:
本發(fā)明涉及計算機網(wǎng)絡安全領域,特別涉及互聯(lián)網(wǎng)入侵檢測。
背景技術:
入侵檢測一直是計算機科學領域里的熱點問題。自1987年由Denning創(chuàng)始,已經(jīng)有很多方法被提出。一般認為,入侵檢測技術可做如下分類。
一、入侵不外乎經(jīng)歷兩個環(huán)節(jié),一是數(shù)據(jù)包在網(wǎng)絡上的傳遞,另一個是數(shù)據(jù)包到達目的主機,引起主機操作系統(tǒng)一系列的系統(tǒng)調(diào)用。因此從網(wǎng)絡控制環(huán)節(jié)來看,可分為“基于主機的入侵檢測”(host-based)和“基于網(wǎng)絡的入侵檢測”(network-based)兩類。
基于主機的入侵檢測以單個主機上的各類審計日志為數(shù)據(jù)來源,試圖通過對審計日志的分析來完成對正常行為或者入侵行為的描述。它具有檢測效率高,分析代價小,分析速度快的特點,而且可同時檢測來自內(nèi)部和外部的攻擊。而它的問題是在數(shù)據(jù)提取的實時性、充分性、可靠性方面比較弱。
基于網(wǎng)絡的入侵檢測利用安裝在網(wǎng)絡不同節(jié)點上的包分析儀提取數(shù)據(jù)包的靜態(tài)、動態(tài)及統(tǒng)計特征,建立區(qū)分正常行為或入侵行為的規(guī)則或分類器。它具有采集數(shù)據(jù)全面、準確的優(yōu)勢,但面臨著數(shù)據(jù)量過于龐大并且無法結合操作系統(tǒng)特征來判斷的弱點。
二、從算法實現(xiàn)方式上來劃分,可分為兩個大類“誤用檢測”(misusedetection)和“異常檢測”(anomaly detection)。
誤用檢測試圖建立起入侵或攻擊的行為模式描述,之后將新來的數(shù)據(jù)于之比較,符合此模式的即判斷為入侵行為,不符合的則判斷為正常行為。這種描述通常以規(guī)則的形式出現(xiàn)。一般來說,誤用檢測因針對入侵行為建模,其對已知入侵行為的檢測率會比較高,但無法抵御新出現(xiàn)的攻擊。
異常檢測試圖描述系統(tǒng)的正常行為,偏離正常行為較大的行為被稱為“異?!?,而異常則極有可能是入侵。異常檢測雖然從理論上說比較優(yōu)越,但由于“正常行為”難以具體描述,因此面臨虛警率過高致使系統(tǒng)效率大幅下降、過多耗費系統(tǒng)管理員精力的難題。
不論是基于主機的還是基于網(wǎng)絡的入侵檢測,都已出現(xiàn)了相當多的方法,如基于統(tǒng)計度量的方法、基于數(shù)據(jù)挖掘的方法、基于信號處理的方法、基于人工智能的方法等等。近年來,將模式識別和機器學習的基本理論和方法引入入侵檢測成為熱點。和一般的模式識別問題類似,必須先對網(wǎng)絡連接行為提取特征,然后根據(jù)一系列的數(shù)據(jù)樣本構造分類器或者產(chǎn)生數(shù)據(jù)樣本分布的描述。在這一領域也已經(jīng)有人做過大量的工作,如基于支持向量機的方法、基于自組織映射的方法、基于人工神經(jīng)網(wǎng)絡的方法等。
雖然已經(jīng)存在上述大量研究,入侵檢測技術仍然不能全面走向?qū)嵱?。其中有兩個極其重要的原因。一是入侵檢測算法速度慢,達不到在線實時處理的要求;二是在較高檢測率的前提下,虛警率往往也較高。高虛警率會大大浪費網(wǎng)絡管理員的精力,造成不必要的管理負擔。
發(fā)明內(nèi)容
為了解決上述傳統(tǒng)入侵檢測方法計算復雜度高從而難以在線重訓練且達不到實時處理要求的問題、虛警率高的問題,以及經(jīng)典自適應提升(Adaboost)算法存在的過學習問題,本發(fā)明提供一種計算復雜度低、虛警率低、較好的解決了過學習問題、基于改進的Adaboost算法的互聯(lián)網(wǎng)入侵檢測方法。
為了實現(xiàn)上述目的,本發(fā)明提供基于改進的Adaboost算法的互聯(lián)網(wǎng)入侵檢測方法步驟如下在互聯(lián)網(wǎng)上的一些關鍵節(jié)點處設置數(shù)據(jù)采集裝置(如簡單的包、流量分析儀),獲取網(wǎng)絡連接的原始數(shù)據(jù);根據(jù)本發(fā)明,網(wǎng)絡連接數(shù)據(jù)預處理步驟利用原始網(wǎng)絡連接數(shù)據(jù),提取網(wǎng)絡連接行為特征,在訓練階段需標記大量訓練樣本,標記正常行為樣本為“+1”,入侵行為樣本為“-1”;生成弱分類器步驟根據(jù)網(wǎng)絡連接數(shù)據(jù)預處理結果,為改進的Adaboost算法提供一組弱分類器;
生成強分類器步驟在生成弱分類器步驟的基礎上,利用改進的Adaboost算法從弱分類器組中挑選出一部分弱分類器并計算弱分類器權值,整合出強分類器。
檢測步驟對一次新的未知網(wǎng)絡連接,提取網(wǎng)絡連接行為特征輸入給強分類器,根據(jù)強分類器的輸出判斷其網(wǎng)絡連接行為為“入侵行為”或為“正常行為”。
本發(fā)明的主要特點在于本發(fā)明采用了不同于經(jīng)典Adaboost算法的訓練樣本初始權值設定方式,使得檢測率和虛警率達到較好的平衡。
本發(fā)明采用了避免過學習策略和不同于經(jīng)典Adaboost算法的訓練樣本初始權值設定方式,使得本發(fā)明在保持較高的檢測率的情況下,能夠得到非常低的虛警率。例如,當檢測率為90.477%時,虛警率僅為0.665%。
本發(fā)明構造簡單的弱分類器組,并采用改進的Adaboost算法從中選取一系列弱分類器構造強分類器,這使得本發(fā)明能夠解決了現(xiàn)有入侵檢測技術計算復雜度高、不適于在線重訓練的問題。
綜上,本發(fā)明具有計算復雜度低、耗時短、易于在線重訓練、虛警率低、且可以調(diào)節(jié)檢測率與虛警率之間平衡的優(yōu)點,對構筑強大實用的網(wǎng)絡信息安全系統(tǒng)、促進其它網(wǎng)絡技術研究、整體提升互聯(lián)網(wǎng)的使用效率,提供技術上的基本保證。
通過以下結合附圖的詳細描述,本發(fā)明的上述和其它方面、特征和優(yōu)點將變得更加顯而易見。附圖中圖1是本發(fā)明基于改進的自適應提升算法的互聯(lián)網(wǎng)入侵檢測系統(tǒng)訓練過程框圖。
圖2是本發(fā)明基于改進的自適應提升算法的互聯(lián)網(wǎng)入侵檢測系統(tǒng)檢測過程框圖。
圖3是基于經(jīng)典Adaboost算法在1999年國際知識發(fā)現(xiàn)和數(shù)據(jù)挖掘競賽(KDD CUP 99)入侵檢測數(shù)據(jù)庫上的檢測結果。
圖4是在經(jīng)典Adaboost算法基礎上加入本發(fā)明避免過學習策略,在KDD CUP 99數(shù)據(jù)庫上的檢測結果。
圖5是在經(jīng)典Adaboost算法基礎上加入本發(fā)明可調(diào)初始權值設定,在KDD CUP 99數(shù)據(jù)庫上的檢測結果。
圖6是利用本發(fā)明基于改進的Adaboost算法的互聯(lián)網(wǎng)入侵檢測系統(tǒng)在KDD CUP 99數(shù)據(jù)庫上的檢測結果。
圖7是本發(fā)明基于改進的自適應提升算法的互聯(lián)網(wǎng)入侵檢測系統(tǒng)與其它已有算法在KDD CUP 99數(shù)據(jù)庫上的檢測結果的比較。
圖8是本發(fā)明基于改進的Adaboost算法的互聯(lián)網(wǎng)入侵檢測方法中改進的Adaboost算法的流程圖。
具體實施例方式
下面結合附圖對本發(fā)明作具體說明。應該指出,所描述的施例僅僅視為說明的目的,而不是對本發(fā)明的限制。
圖1是本發(fā)明基于改進的自適應提升算法的互聯(lián)網(wǎng)入侵檢測系統(tǒng)訓練過程框圖。
圖2是本發(fā)明基于改進的自適應提升算法的互聯(lián)網(wǎng)入侵檢測系統(tǒng)檢測過程框圖。
結合圖1和圖2對本發(fā)明作進一步的說明,給出本發(fā)明技術方案中所涉及的各個細節(jié)問題的詳細解釋。
根據(jù)本發(fā)明,所述網(wǎng)絡連接數(shù)據(jù)預處理步驟具體地,是在互聯(lián)網(wǎng)拓撲結構的一些關鍵節(jié)點處,設置簡單的數(shù)據(jù)包捕獲及分析儀器,收集到大量的原始網(wǎng)絡連接數(shù)據(jù)。對這些原始數(shù)據(jù)采用Wenke Lee和Salvatore J.Stolfo提出的數(shù)據(jù)挖掘方法進行分析,可以抽取出三大組網(wǎng)絡連接行為特征來描述一個網(wǎng)絡連接行為。于是,一個網(wǎng)絡連接行為就可以用一個特征向量來表示,稱為樣本。
具體地,網(wǎng)絡連接行為特征,第一組稱為“基本特征”,如一次網(wǎng)絡連接的持續(xù)時間、協(xié)議類型、從源地址到目的地址的數(shù)據(jù)量等。
具體地,網(wǎng)絡連接行為特征,第二組稱為“內(nèi)容特征”,如嘗試登陸的失敗次數(shù)、創(chuàng)建文件操作的次數(shù)等。
具體地,網(wǎng)絡連接行為特征,第三組稱為“流量特征”,如兩秒鐘內(nèi)連接到同一源地址的網(wǎng)絡連接數(shù)目、兩秒鐘內(nèi)請求同一服務的網(wǎng)絡連接數(shù)、連接到不同主機的連接數(shù)百分比等。
這三大組共41維特征大部分是連續(xù)型特征,即該特征維度取值連續(xù);小部分特征是離散型特征,即該特征維度取值離散,如“協(xié)議類型”特征就只能取“tcp”、“http”和“icmp”三個離散值。
根據(jù)本發(fā)明,所述生成弱分類器步驟根據(jù)網(wǎng)絡連接行為特征和訓練樣本的標記來構造弱分類器。
用不同的特征組合采取不同的分類算法構造一組弱分類器,這里給出三個實例。
實施例1也即在本發(fā)明的入侵檢測系統(tǒng)中實際應用。對每一個特征維度用所有的訓練樣本,根據(jù)貝葉斯規(guī)則來構造弱分類器。這樣,一共可以得到41個弱分類器,即生成的弱分類器組的大小是41。
由于不同的特征維度性質(zhì)不同,有的是連續(xù)型特征,有的是離散型特征,在應用貝葉斯規(guī)則時應采用不同的處理方式,下面分別敘述之。
1)對連續(xù)型特征設計弱分類器設訓練樣本xi的標記為yi∈{+1,-1},在某連續(xù)型特征f上的取值為xif。我們要在該特征的值域中找到一個值θ*來對值域進行最優(yōu)分割,即θ*=argminθ(min(ϵθ1,ϵθ2))]]>其中ϵθ1=|i:yi=+1,xif>θ|n++|i:yi=-1,xif≤θ|n-]]>代表將小于等于閾值的樣本判斷為正樣本且將大于閾值的樣本判斷為負樣本的總錯誤率。而ϵθ2=|i:yi=+1,xif≤θ|n++|i:yi=-1,xif>θ|n-]]>代表將大于閾值的樣本判斷為正樣本且將小于等于閾值的樣本判斷為負樣本的總錯誤率。n+和n-分別代表訓練樣本集中正樣本及負樣本的數(shù)目,|·|代表集合的大小。
若最終結果是ϵθ*1<ϵθ*2,]]>則我們構造弱分類器如下hf(x)=+1xf≤θ*-1xf>θ*]]>反之,則我們構造弱分類器如下hf(x)=+1xf>θ*-1xf≤θ*]]>2)對離散型特征設計弱分類器對于某一離散型特征f,它的值域是有限個離散點,可以將這些離散點劃分為兩個集合CPf和CNf。對其中的任意一種劃分(CPf,CNf),都可以得到一個弱分類器hf(x)=+1xf∈CPf-1xf∈CNf]]>但我們只讓這些弱分類器當中的最優(yōu)弱分類器進入最終的弱分類器組中,即我們要找到一個最優(yōu)劃分(CPf*,CNf*),使得在這個劃分下的分類錯誤率最小,即(CPf*,CNf*)=argmin(CPf,CNf)(ϵ(CPf,CNf))]]>與這個劃分對應的弱分類器就是我們在離散型特征f上設計的弱分類器。
實施例2從41個特征中任意挑選3個特征組合在一起,對每一個組合從訓練樣本集中隨機選取一個子集,利用支持向量機算法都可以得到一個弱分類器,那么,一共可以得到C413=21320]]>個弱分類器。即所生成的弱分類器組的大小是21320。
實施例3弱分類器組可以不必事先生成,而是可以在改進的Adaboost算法中的每一次循環(huán)中生成。將改進的Adaboost算法當前循環(huán)的樣本權值作為對樣本出現(xiàn)概率的估計,根據(jù)決策樹的C4.5算法,考察所有41維特征下每一個特征的所有取值,找到最優(yōu)分裂點,以生成下一層樹節(jié)點。一般來說,我們對于決策樹的分裂不超過三層。
根據(jù)本發(fā)明,所述生成強分類器步驟在生成弱分類器步驟的基礎上,利用改進的Adaboost算法從弱分類器組中挑選出一部分弱分類器并計算弱分類器權值,整合出強分類器。
用改進的Adaboost算法,即在每次循環(huán)中,從已生成的弱分類器組中自動挑選出當前最優(yōu)的弱分類器并賦予權值,最后將所有挑選出來的弱分類器組合起來生成強分類器。
本發(fā)明對經(jīng)典的Adaboost算法進行的改進,修改了經(jīng)典Adaboost算法的初始權值,并加入了避免過學習步驟。下面詳述每個步驟。
根據(jù)本發(fā)明所述采用可調(diào)初始權值策略包括基于經(jīng)典Adaboost算法,利用改進的Adaboost算法即采用不同于經(jīng)典Adaboost算法的方式來設定訓練樣本的初始權值,通過調(diào)整初始權值中的調(diào)節(jié)參數(shù)r來達到檢測率和虛警率之間的平衡。
根據(jù)本發(fā)明所述采用避免過學習策略包括基于經(jīng)典Adaboost算法,利用改進的Adaboost算法即在每次循環(huán)中對弱分類器組中的所有弱分類器按加權錯誤率降序排列,對于前五次循環(huán),選擇加權錯誤率大于某一閾值θl的第一個弱分類器,而對于第五次之后的循環(huán),直接選擇第一個弱分類器。
具體地在圖8本發(fā)明基于改進的Adaboost算法的互聯(lián)網(wǎng)入侵檢測方法中改進的Adaboost算法的流程圖中算法的S1步驟,按下式來設定訓練樣本的初始權值ω(1)(i)=rn+yi=+1rn-yi=-1,(i=1,···,n)]]>其中n+和n-分別代表訓練樣本集中正樣本的數(shù)目和負樣本的數(shù)目。我們稱這種初始權值的設定方式為“可調(diào)權值”。而經(jīng)典Adaboost算法的初始權值這樣設定ω(1)(i)=1n(i=1,···,n),]]>我們稱之為均勻權值。與均勻權值不同,可調(diào)權值引入了一個調(diào)節(jié)參數(shù)r來調(diào)節(jié)檢測率和虛警率之間的矛盾。根據(jù)不同的網(wǎng)絡狀況,我們可以選取不同的r值來使檢測率和虛警率取得最佳的平衡。
具體地,將運行T次循環(huán),每次循環(huán)都要從弱分類器組中選取一個弱分類器出來。為此,在算法的S2步驟,計算某一個弱分類器hj的加權錯誤率ϵj=Σi=1nω(t)(i)I[yi≠hj(xi)]]]>其中ω(t)(i)代表在當前第t次循環(huán)中第i個訓練樣本的權值, 為示性函數(shù),即 然后將弱分類器組中的弱分類器按加權錯誤率降序排列。
具體地,為解決過學習問題,采用了簡單的避免過學習策略步驟S3,步驟S3包括步驟S3.1、S3.2、S3.3,步驟S3.1判斷當前循環(huán)是否是前五次循環(huán),如果否,則執(zhí)行步驟S3.2;如果是,則執(zhí)行步驟S3.3。步驟S3.2設定閾值θl,然后從排好序的弱分類器中選出第一個加權錯誤率大于θl的弱分類器;步驟S3.3直接選擇排好序的第一個弱分類器。步驟S3.2和步驟S3.3選出的弱分類器,我們均把其標記為h(t),其對應的加權錯誤率為ε(t)。
具體地,步驟S4判斷加權錯誤率ε(t)是否大于0.5,如果是,則執(zhí)行步驟S7;如果否,則執(zhí)行步驟S5。
具體地,步驟S5按下式計算該弱分類器的權值α(t)=12log(1-ϵ(t)ϵ(t))]]>具體地,步驟S6按下式更新訓練樣本的權值ω(t+1)(i)=ω(t)(i)exp(-α(t)yih(t)(xi))Z(t)(i=1,...,n)]]>具體地,當循環(huán)終止,步驟S7輸出強分類器為H(x)=sign(Σt=1Tα(t)h(t)(x))]]>根據(jù)本發(fā)明圖2,是本發(fā)明基于改進的自適應提升算法的互聯(lián)網(wǎng)入侵檢測系統(tǒng)檢測過程框圖。
根據(jù)本發(fā)明所述檢測步驟對一次新的未知網(wǎng)絡連接,提取網(wǎng)絡連接行為特征輸入給強分類器,根據(jù)強分類器的輸出判斷其網(wǎng)絡連接行為為“入侵行為”或為“正常行為”。
具體地,根據(jù)圖2獲取未知網(wǎng)絡連接的原始連接數(shù)據(jù),并提取其網(wǎng)絡連接行為特征,形成一個特征向量。然后將此特征向量作為強分類器的輸入,由強分類器的輸出結果來判斷此未知網(wǎng)絡連接行為是否入侵行為。如果強分類器輸出結果為“+1”,則此未知網(wǎng)絡連接為正常行為,如果輸出結果為“-1”,則此未知網(wǎng)絡連接行為為入侵。
為了體現(xiàn)本發(fā)明的具體思想,我們實現(xiàn)了基于改進的Adaboost算法的互聯(lián)網(wǎng)入侵檢測系統(tǒng),并在KDD CUP99入侵檢測數(shù)據(jù)庫上做了對比實驗。
圖3顯示了基于經(jīng)典Adaboost算法在1999年國際知識發(fā)現(xiàn)和數(shù)據(jù)挖掘競賽(KDD CUP 99)入侵檢測數(shù)據(jù)庫上的檢測結果。
圖4顯示了在經(jīng)典Adaboost算法基礎上加入本發(fā)明避免過學習策略,在KDD CUP 99數(shù)據(jù)庫上的檢測結果。
圖5顯示了在經(jīng)典Adaboost算法基礎上加入本發(fā)明修改初始權值為平衡權值,在KDD CUP 99數(shù)據(jù)庫上的檢測結果。
圖6顯示了利用本發(fā)明基于改進的自適應提升算法的互聯(lián)網(wǎng)入侵檢測系統(tǒng)在KDD CUP 99數(shù)據(jù)庫上的檢測結果。
圖7是本發(fā)明基于改進的自適應提升算法的互聯(lián)網(wǎng)入侵檢測系統(tǒng)與其它已有算法在KDD CUP 99數(shù)據(jù)庫上的檢測結果的比較。
檢測率和虛警率是一對矛盾,通常檢測率高會導致虛警率也比較高。這兩個指標是衡量一個入侵檢測算法是否優(yōu)秀的最直接且最重要指標。顯然檢測率越高越好而虛警率越低越好。我們的比較實驗就集中在檢測率和虛警率的比較上。
圖3和圖4對應算法的初始權值設定方式相同,只是前者對應算法存在過學習,而后者對應算法采用了避免過學習策略??梢钥吹?,圖4中在訓練集和測試集上的虛警率分別為2.755%和3.143%,均低于圖3中的對應數(shù)值2.766%和3.428%,而圖4中在訓練集和測試集上的檢測率分別為99.166%和91.207%,均高于圖3中的對應數(shù)值99.159%和90.738%。圖5和圖6對應算法的初始權值設定方式也相同,區(qū)別也只在于是否采用的避免過學習策略。我們也可以看到圖6的結果要明顯優(yōu)于圖5的結果。例如當調(diào)節(jié)參數(shù)r取0.5時,圖5顯示存在過學習的算法在訓練集和測試集的虛警率分別為0.851%和2.200%,而圖6顯示本發(fā)明采用了避免過學習算法,在訓練集和測試集上的虛警率分別為0.844%和0.665%,比上面兩個數(shù)值都要低;圖5顯示存在過學習的算法在訓練集和測試集的檢測率分別為98.519%和90.140%,而圖6顯示本發(fā)明采用了避免過學習算法,在訓練集和測試集上的檢測率分別為98.791%和90.477%,要比上面數(shù)值都要高。以上兩組數(shù)據(jù)比較都說明了我們采取的避免過學習策略在提高檢測率和降低虛警率方面是非常有效的。
下面再來比較圖3和圖5、圖4和圖6。圖3和圖5均是存在過學習的算法,只是初始權值設定方式不同??梢钥吹?,當用可調(diào)權值時,我們可以調(diào)整調(diào)節(jié)參數(shù)r,以使得虛警率和檢測率達到較好的平衡。在圖5中,取調(diào)節(jié)參數(shù)r為0.5,在訓練集和測試集上的檢測率分別為98.519%和90.140%,雖然這比圖3顯示用平均權值的算法所得的檢測率99.159%和90.738%要小一些,然而虛警率0.851%和2.200%卻要比圖3顯示的虛警率2.766%和3.428%要小得多。這表明引入了調(diào)節(jié)參數(shù)r,可以使系統(tǒng)在虛警率和檢測率之間取得更好的平衡。比較圖4和圖6可以得到同樣的結論。
圖7是本發(fā)明基于改進的自適應提升算法的互聯(lián)網(wǎng)入侵檢測系統(tǒng)與其它已有算法在KDD CUP 99數(shù)據(jù)庫上的檢測結果的比較。例如,基于遺傳算法入侵檢測可獲得的虛警率為0.3%,與本發(fā)明獲得的虛警率0.31%-1.79%大致相當,但它的檢測率79%卻比本發(fā)明的檢測率90.04%-90.88%要小得多。層次自組織映射可獲得的檢測率為90.94%-93.46,與本發(fā)明的檢測率90.04%-90.88%相當,但它的虛警率2.19%-3.99%要比本發(fā)明的虛警率0.31%-1.79%高得多。從圖7中可以明顯的看出,本發(fā)明能夠在較高的檢測率下得到很低的虛警率,使檢測率和虛警率達到很好的平衡。
綜合以上比較,我們可以得出結論,我們看出,本發(fā)明基于改進的Adaboost算法的入侵檢測方法修改初始權值設定方式,引入調(diào)節(jié)參數(shù)r,并且采用避免過學習策略,使得本發(fā)明較好的解決了經(jīng)典Adaboost算法存在的問題,能夠在較高的檢測率下獲得較低的虛警率,使檢測率和虛警率達到很好的平衡。
上面描述是用于實現(xiàn)本發(fā)明及其實施例,各個步驟均為示例,本領域普通技術人員可以根據(jù)實際情況確定要使用的實際步驟,而且各個步驟有多種實現(xiàn)方法,均應屬于本發(fā)明的范圍之內(nèi)。因此,本發(fā)明的范圍不應由該描述來限定。本領域的技術人員應該理解,在不脫離本發(fā)明的范圍的任何修改或局部替換,均屬于本發(fā)明權利要求來限定的范圍。
權利要求
1.一種基于改進的自適應提升算法的互聯(lián)網(wǎng)入侵檢測方法,其特征在于實現(xiàn)的方法步驟如下網(wǎng)絡連接數(shù)據(jù)預處理步驟利用原始網(wǎng)絡連接數(shù)據(jù),提取網(wǎng)絡連接行為特征,在訓練階段標記大量訓練樣本,標記正常行為樣本為“+1”,入侵行為樣本為“-1”;生成弱分類器步驟根據(jù)網(wǎng)絡連接數(shù)據(jù)預處理結果,為改進的Adaboost算法提供一組弱分類器;生成強分類器步驟利用改進的Adaboost算法訓練強分類器;檢測步驟提取網(wǎng)絡連接行為特征之后,將網(wǎng)絡連接行為特征輸入訓練好的強分類器,由強分類器的輸出結果來判斷網(wǎng)絡連接是否為入侵。
2.根據(jù)權利要求1所述基于改進的自適應提升算法的互聯(lián)網(wǎng)入侵檢測方法,其特征在于生成弱分類器步驟包括根據(jù)網(wǎng)絡連接行為特征和訓練樣本的標記來構造弱分類器。
3.根據(jù)權利要求1所述基于改進的自適應提升算法的互聯(lián)網(wǎng)入侵檢測方法,其特征在于,生成強分類器步驟包括在生成弱分類器步驟的基礎上,利用改進的Adaboost算法從弱分類器組中挑選出一部分弱分類器并計算弱分類器權值,整合出強分類器。
4.根據(jù)權利要求1所述基于改進的Adaboost算法的互聯(lián)網(wǎng)入侵檢測方法,其特征在于,檢測步驟包括對一次新的未知網(wǎng)絡連接,提取網(wǎng)絡連接行為特征輸入給強分類器,根據(jù)強分類器的輸出判斷其網(wǎng)絡連接行為為“入侵行為”或為“正常行為”。
5.根據(jù)權利要求1所述基于改進的Adaboost算法的互聯(lián)網(wǎng)入侵檢測方法,其特征在于,生成強分類器步驟包括采用調(diào)節(jié)初始權值策略包括基于經(jīng)典Adaboost算法,利用改進的Adaboost算法即設定訓練樣本的初始權值,通過調(diào)整初始權值中的調(diào)節(jié)參數(shù)r來達到檢測率和虛警率之間的平衡。
6.根據(jù)權利要求1所述基于改進的自適應提升算法的互聯(lián)網(wǎng)入侵檢測方法,其特征在于,生成強分類器步驟包括采用避免過學習策略包括基于經(jīng)典Adaboost算法,利用改進的Adaboost算法即在每次循環(huán)中對弱分類器組中的所有弱分類器按加權錯誤率降序排列,對于前五次循環(huán),選擇加權錯誤率大于某一閾值θl的第一個弱分類器,而對于第五次之后的循環(huán),直接選擇第一個弱分類器。
全文摘要
本發(fā)明公開一種基于改進的自適應提升算法的互聯(lián)網(wǎng)入侵檢測方法,涉及計算機網(wǎng)絡安全領域。步驟包括利用原始網(wǎng)絡連接數(shù)據(jù),提取網(wǎng)絡連接行為特征,在訓練階段需標記大量訓練樣本;根據(jù)網(wǎng)絡連接數(shù)據(jù)預處理結果,為改進的Adaboost算法提供一組弱分類器;利用改進的Adaboost算法訓練強分類器;提取網(wǎng)絡連接行為特征之后,將其輸入訓練好的強分類器,根據(jù)強分類器的輸出結果來判斷網(wǎng)絡連接是否為入侵。本發(fā)明具有計算復雜度低、耗時短、易于在線重訓練、虛警率低、且可以調(diào)節(jié)檢測率與虛警率之間平衡的優(yōu)點,對構筑強大實用的網(wǎng)絡信息安全系統(tǒng)、促進其它網(wǎng)絡技術研究、整體提升互聯(lián)網(wǎng)的使用效率,提供技術上的基本保證。
文檔編號H04L12/24GK101060443SQ200610075649
公開日2007年10月24日 申請日期2006年4月17日 優(yōu)先權日2006年4月17日
發(fā)明者胡衛(wèi)明, 胡衛(wèi) 申請人:中國科學院自動化研究所