一種基于非廣延熵的網(wǎng)絡(luò)異常檢測(cè)方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種網(wǎng)絡(luò)異常檢測(cè)方法,特別是一種基于非廣延熵的網(wǎng)絡(luò)異常檢測(cè)方 法。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)的普及和業(yè)務(wù)量的不斷增長(zhǎng),大規(guī)模通信網(wǎng)絡(luò)正在向高速化,多樣化, 復(fù)雜化方向發(fā)展,網(wǎng)絡(luò)中交換的數(shù)據(jù)量越來(lái)越大,網(wǎng)絡(luò)異常流量的危害也越來(lái)越大。
[0003] 網(wǎng)絡(luò)流量異常的特點(diǎn)是發(fā)作突然,先兆特征未知,大量消耗網(wǎng)絡(luò)資源,導(dǎo)致網(wǎng)絡(luò)擁 塞、網(wǎng)絡(luò)鏈路利用率下降、顯著降低網(wǎng)絡(luò)服務(wù)質(zhì)量,有可能在短時(shí)間內(nèi)給網(wǎng)絡(luò)運(yùn)營(yíng)商和客戶 都產(chǎn)生極大的危害,因此實(shí)時(shí)檢測(cè)和響應(yīng)流量異常是防范攻擊、制定網(wǎng)絡(luò)配置策略以實(shí)現(xiàn) 合理利用網(wǎng)絡(luò)資源的重要手段。
[0004] 網(wǎng)絡(luò)流量異常檢測(cè)根據(jù)使用者行為或資源使用情況的正常程度來(lái)判斷是否網(wǎng)絡(luò) 流量異常,而不依賴于具體行為,有助于網(wǎng)絡(luò)管理人員及時(shí)發(fā)現(xiàn)問(wèn)題,采取相應(yīng)措施,減輕 異常流量的危害。然而,在大型網(wǎng)絡(luò)中,要進(jìn)行實(shí)時(shí)統(tǒng)計(jì)的數(shù)據(jù)量是巨大的,由于測(cè)量、分析 和存儲(chǔ)等計(jì)算機(jī)資源的限制,無(wú)法實(shí)現(xiàn)全部網(wǎng)絡(luò)流量的分析。異常檢測(cè)算法的最終目標(biāo)是 要從巨大且處于不斷變化的正常流量中,檢測(cè)到相對(duì)嬌小的異常流量,而且要滿足實(shí)時(shí)性 的要求,因而系統(tǒng)設(shè)計(jì)和實(shí)現(xiàn)的難度很大。
[0005]網(wǎng)絡(luò)流量異常檢測(cè)技術(shù)自提出以來(lái),經(jīng)過(guò)了幾十年的不斷發(fā)展,從最初的簡(jiǎn)單方 法迅速發(fā)展成種類繁多的各種算法,成為保證網(wǎng)絡(luò)安全不可或缺的方法。近年來(lái),常用的異 常檢測(cè)方法主要有統(tǒng)計(jì)分析、神經(jīng)網(wǎng)絡(luò)、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等多種方法。
[0006] (1)基于統(tǒng)計(jì)學(xué)方法異常檢測(cè)
[0007]統(tǒng)計(jì)分析方法:按一定的時(shí)間間隔對(duì)系統(tǒng)或用戶的行為進(jìn)行采樣,對(duì)每次采集到 的樣本得出的參數(shù)變量來(lái)對(duì)這些行為進(jìn)行描述,產(chǎn)生行為輪廓,將每次采樣后得到的行為 輪廓與已有輪廓進(jìn)行合并,最終得到正常的行為輪廓。異常檢測(cè)系統(tǒng)通過(guò)將當(dāng)前采集到的 行為輪廓與正常行為輪廓相比較,來(lái)監(jiān)測(cè)是否存在異常行為。
[0008] 該方法的優(yōu)勢(shì)在于所應(yīng)用的技術(shù)方法在統(tǒng)計(jì)學(xué)中已經(jīng)比較成熟且維護(hù)方便,其不 足在于門限值的確定是統(tǒng)計(jì)分析所面臨的棘手問(wèn)題,以及事件發(fā)生的順序通常不能作為分 析引擎所考察的系統(tǒng)屬性。
[0009] (2)機(jī)器學(xué)習(xí)異常檢測(cè)
[0010]該方法通過(guò)機(jī)器學(xué)習(xí)實(shí)現(xiàn)異常檢測(cè),將異常檢測(cè)歸結(jié)為對(duì)離散數(shù)據(jù)臨時(shí)序列進(jìn)行 學(xué)習(xí)來(lái)獲得個(gè)體、系統(tǒng)和網(wǎng)絡(luò)的行為特征。主要學(xué)習(xí)方法包括原樣記錄、監(jiān)督學(xué)習(xí)、歸納學(xué) 習(xí)、類比學(xué)習(xí)等。機(jī)器學(xué)習(xí)異常檢測(cè)方法的檢測(cè)速度快,且誤報(bào)率低。然而,此方法對(duì)于用 戶動(dòng)態(tài)行為變化以及單獨(dú)異常檢測(cè)還有待改善。
[0011] (3)神經(jīng)網(wǎng)絡(luò)異常檢測(cè)
[0012] 神經(jīng)網(wǎng)絡(luò)的處理包括兩個(gè)階段。第一階段的目的是構(gòu)造異常分析模型的檢測(cè)器, 使用代表用戶行為的歷史數(shù)據(jù)進(jìn)行訓(xùn)練,完成網(wǎng)絡(luò)的構(gòu)建和組裝。第二階段則是入侵分析 模型的實(shí)際運(yùn)作階段,網(wǎng)絡(luò)接收輸入的事件數(shù)據(jù),與參考的歷史行為相比較,判斷出兩者的 相似度或偏離度。神經(jīng)網(wǎng)絡(luò)方法的優(yōu)點(diǎn)在于神經(jīng)網(wǎng)絡(luò)對(duì)所選擇的系統(tǒng)度量不要求滿足某種 統(tǒng)計(jì)分布條件,但用于異常檢測(cè)中也存在一些問(wèn)題,在很多情況下,系統(tǒng)趨向于形成某種不 穩(wěn)定的網(wǎng)絡(luò)結(jié)構(gòu),不能從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到特定的知識(shí),另外神經(jīng)網(wǎng)絡(luò)對(duì)判斷為異常的事 件不會(huì)提供任何解釋或說(shuō)明信息,這導(dǎo)致了用戶無(wú)法確定入侵的責(zé)任人,也無(wú)法判定宄竟 是系統(tǒng)哪方面存在的問(wèn)題導(dǎo)致了攻擊者得以成功的入侵。
[0013] (4)數(shù)據(jù)挖掘異常檢測(cè)
[0014]數(shù)據(jù)發(fā)掘異常檢測(cè)技術(shù)從各種審計(jì)數(shù)據(jù)或網(wǎng)絡(luò)數(shù)據(jù)流中提取相關(guān)的知識(shí)信息,這 些知識(shí)信息是蘊(yùn)涵在數(shù)據(jù)之中的,對(duì)它們進(jìn)行歸納總結(jié)成規(guī)則、模式等。該檢測(cè)方法的優(yōu)點(diǎn) 在于只需收集相關(guān)的數(shù)據(jù)集合,處理數(shù)據(jù)能力很強(qiáng),缺點(diǎn)是系統(tǒng)整體運(yùn)行效率較低、誤警率 較高。
[0015] 上述方法有的可直接適用于網(wǎng)絡(luò)流量異常檢測(cè),有的并非是針對(duì)網(wǎng)絡(luò)流量異常, 但是對(duì)于研宄網(wǎng)絡(luò)流量異常檢測(cè)同樣具有指導(dǎo)意義。
[0016] 熵是熱力學(xué)中微觀狀態(tài)多樣性或均勻性的一種度量,反映了系統(tǒng)微觀狀態(tài)的分布 幾率。從通信角度來(lái)看,出于隨機(jī)性的干擾是無(wú)法避免的,因此,通信系統(tǒng)具有統(tǒng)計(jì)的特征, 信息源可視為一組隨機(jī)事件的集合,該集合所具有的隨機(jī)性不確定度與熱力學(xué)中微觀態(tài)的 混亂度是類同的。將熱力學(xué)幾率擴(kuò)展到系統(tǒng)各個(gè)信息源信號(hào)出現(xiàn)的幾率就形成了信息熵。 信息熵標(biāo)志著所含信息量的多少,是對(duì)系統(tǒng)不確定性程度的描述。因此信息的分散與集中 程度可以通過(guò)熵的變化趨勢(shì)來(lái)反映。相比于傳統(tǒng)使用幅值的流量異常檢測(cè)方法,使用熵來(lái) 進(jìn)行流量異常檢測(cè)可以提高異常檢測(cè)的實(shí)時(shí)性,精確性,使得報(bào)警意義更加明確。所以可以 采用熵值作為網(wǎng)絡(luò)流量異常檢測(cè)的量度。
[0017] 大規(guī)模網(wǎng)絡(luò)流量異常會(huì)對(duì)源/目的IP、源/目的端口號(hào)這4個(gè)屬性產(chǎn)生較為明顯 的影響,所以把測(cè)量數(shù)據(jù)當(dāng)作離散信息源,把測(cè)量數(shù)據(jù)中的各個(gè)屬性看作是一組隨機(jī)事件, 就可以對(duì)它的信息熵進(jìn)行分析,X= {叫,i= 1,…,N},表示在測(cè)量數(shù)據(jù)中屬性i發(fā)生了叫 次。那么,香農(nóng)熵公式如1-1,2, 3所示。
【主權(quán)項(xiàng)】
1. 一種基于非廣延熵的網(wǎng)絡(luò)異常檢測(cè)方法,其特征在于:包括以下步驟: a、 存儲(chǔ)9屬性網(wǎng)絡(luò)數(shù)據(jù)信息:將骨干網(wǎng)節(jié)點(diǎn)的Netflow數(shù)據(jù)轉(zhuǎn)換為9個(gè)屬性網(wǎng)絡(luò)數(shù)據(jù) 信息; b、 對(duì)其中的源IP地址、目的IP地址、源端口號(hào)和目的端口號(hào),這4個(gè)屬性以及數(shù)據(jù)包 的字節(jié)數(shù)進(jìn)行非廣延熵的計(jì)算及歸一化處理,得到非廣延熵值; c、 搭建非廣延熵值圖譜;對(duì)骨干網(wǎng)節(jié)點(diǎn)的流量進(jìn)行采樣,縱坐標(biāo)為經(jīng)過(guò)歸一化處理之 后的非廣延熵值,得到流量非廣延熵值隨時(shí)間變化的折線圖; d、 非廣延熵符號(hào)化處理:從第一個(gè)采樣點(diǎn)開始,依次對(duì)前后兩個(gè)采樣點(diǎn)進(jìn)行非廣延熵 值大小的對(duì)比,判斷采樣點(diǎn)非廣延熵值是發(fā)生了增加還是減小,直到最后一個(gè)采樣點(diǎn)為止, 將采樣點(diǎn)非廣延熵值變化進(jìn)行符號(hào)化的處理:符號(hào)1代表非廣延熵值增加,符號(hào)〇代表非廣 延熵值減少,得到非廣延熵符號(hào)表; e、 非廣延熵模式匹配:根據(jù)4個(gè)屬性的非廣延熵符號(hào)表的數(shù)據(jù)變化,對(duì)各種網(wǎng)絡(luò)異常 進(jìn)行匹配; f、 輸出異常檢測(cè)結(jié)果:根據(jù)匹配結(jié)果得到疑似異常攻擊。
2. 根據(jù)權(quán)利要求1所述的基于非廣延熵的網(wǎng)絡(luò)異常檢測(cè)方法,其特征在于:步驟b中 的非廣延熵的計(jì)算公式為:
其中,P (Xi)為測(cè)量數(shù)據(jù)中某種屬性發(fā)生的概率,公式中q是非廣延熵參數(shù); 歸一化處理公式為:
通過(guò)歸一化處理,將所有q值情況下的所有測(cè)量數(shù)據(jù)的非廣延熵轉(zhuǎn)換為〇到1之間的 值。
3. 根據(jù)權(quán)利要求1所述的基于非廣延熵的網(wǎng)絡(luò)異常檢測(cè)方法,其特征在于:非廣延熵 模式匹配中,常見網(wǎng)絡(luò)異常事件對(duì)非廣延熵符號(hào)表熵值的影響: 分布式拒絕服務(wù)攻擊:源IP地址為1、熵值增大,目的IP地址為0、熵值減小,目的端口 號(hào)為〇、摘值減??; 端口掃描:源IP地址為0、熵值減小,目的IP地址為0、熵值減小,目的端口號(hào)為1、熵 值增大; 網(wǎng)絡(luò)掃描:目的IP地址為1、熵值增大,目的端口號(hào)為0、熵值減?。? 蠕蟲病毒:目的IP地址為1、熵值增大,目的端口號(hào)為0、熵值減小。
4. 根據(jù)權(quán)利要求1所述的基于非廣延熵的網(wǎng)絡(luò)異常檢測(cè)方法,其特征在于:歸一化處 理包括以下步驟:bl、對(duì)骨干網(wǎng)節(jié)點(diǎn)的Netflow數(shù)據(jù)文件的讀取與存儲(chǔ):以升序形式讀取文 件中的數(shù)據(jù),并將九個(gè)屬性網(wǎng)絡(luò)數(shù)據(jù)信息依次存放于arr[0]-arr[8]數(shù)組中; b2、如果包數(shù)量==0,跳到下一組數(shù)據(jù),否則求每個(gè)包的字節(jié)數(shù); b3、針對(duì)字節(jié)數(shù)、源IP地址、目的IP地址、源端口號(hào)和目的端口號(hào),執(zhí)行hash運(yùn)算,將 擁有相同關(guān)鍵字的包數(shù)量記錄下來(lái),然后計(jì)算字節(jié)數(shù)、源IP地址、目的IP地址、源端口號(hào)和 目的端口號(hào)的熵值,并記錄下來(lái); b4、用歸一化公式處理熵值,將歸一化后的非廣延熵值進(jìn)行保存,建立一個(gè)文本文件, 將得到的字節(jié)數(shù)、源IP地址、目的IP地址、源端口號(hào)和目的端口號(hào),五組非廣延熵存儲(chǔ)下 來(lái)。
【專利摘要】本發(fā)明公開了一種基于非廣延熵的網(wǎng)絡(luò)異常檢測(cè)方法,通過(guò)存儲(chǔ)9屬性網(wǎng)絡(luò)數(shù)據(jù)信息,對(duì)其中的源IP地址、目的IP地址、源端口號(hào)和目的端口號(hào),這4個(gè)屬性以及數(shù)據(jù)包的字節(jié)數(shù)進(jìn)行非廣延熵的計(jì)算及歸一化處理,得到非廣延熵值;然后搭建非廣延熵值圖譜;進(jìn)行非廣延熵符號(hào)化處理;通過(guò)非廣延熵模式匹配;輸出異常檢測(cè)結(jié)果。本發(fā)明基于非廣延熵的網(wǎng)絡(luò)異常檢測(cè)算法通過(guò)非廣延熵的引入,能夠直接地表示網(wǎng)絡(luò)流量的變化,能夠明顯地得到疑似異常產(chǎn)生的時(shí)刻和程度,能夠較為準(zhǔn)確地得到異常攻擊的數(shù)量。
【IPC分類】H04L12-26
【公開號(hào)】CN104660464
【申請(qǐng)?zhí)枴緾N201510032422
【發(fā)明人】任陽(yáng)陽(yáng), 張煥娜, 周令輝, 吳忠, 陳利民, 陸飆, 王瑋, 熊誠(chéng), 李由, 龍諾亞, 胡航宇, 于富財(cái), 張曉 , 楊耀, 張猛, 撒興杰, 張菡, 鄭元偉, 劉毅
【申請(qǐng)人】貴州電網(wǎng)公司信息通信分公司, 電子科技大學(xué)
【公開日】2015年5月27日
【申請(qǐng)日】2015年1月22日