欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于網(wǎng)絡(luò)流量分析的異常檢測方法

文檔序號:7868882閱讀:319來源:國知局
專利名稱:一種基于網(wǎng)絡(luò)流量分析的異常檢測方法
技術(shù)領(lǐng)域
本發(fā)明涉及ー種基于網(wǎng)絡(luò)流量分析的異常檢測方法,屬于信息安全領(lǐng)域。
背景技術(shù)
隨著計算機和互聯(lián)網(wǎng)絡(luò)技術(shù)的快速發(fā)展與廣泛應(yīng)用,計算機網(wǎng)絡(luò)系統(tǒng)的安全受到嚴重的挑戰(zhàn),來自計算機病毒和黑客攻擊及其他方面的威脅越來越大,因此在用戶上網(wǎng)時檢測異常是困難的。首先,網(wǎng)絡(luò)中存在各種各樣的異常。異??赡軄碜跃哂袗阂馄髨D的網(wǎng)絡(luò)活動,如端ロ掃描,分布式拒絕服務(wù)攻擊,也可能是用戶誤操作和網(wǎng)絡(luò)故障,如鏈路故障,路由問題,測量設(shè)備的緩沖溢出等。其次,存在 高維流量特征異常的現(xiàn)象。在檢測過程中,如果所選特征子集是低維的,則不足以描述網(wǎng)絡(luò)流量及其含有異常的特性;如果所選特征子集是高維的,則增加了檢測和分類模塊的計算復(fù)雜度。因此如何根據(jù)實際流量動態(tài)選擇合適的流量特征來檢測異常是研究人員面臨的挑戰(zhàn)。國內(nèi)外現(xiàn)有的異常檢測方法主要有統(tǒng)計分析,數(shù)據(jù)挖掘,機器學(xué)習(xí)等多種方法,但是這些方法已經(jīng)研究了很多年,技術(shù)已經(jīng)基本成熟,對于各種方法本身存在的缺陷仍然無法克服。所以需要ー種新的異常檢測方法來完善異常檢測領(lǐng)域的不足。已有方法的不足主要體現(xiàn)在檢測復(fù)雜度高,檢測準確率不理想等方面。為了改善這方面的不足,快速準確的檢測用戶上網(wǎng)過程中出現(xiàn)的異常,發(fā)明人通過對各種網(wǎng)絡(luò)流量進行深入分析,提出一個比較完備的網(wǎng)絡(luò)流量初始特征集,并根據(jù)具體的異常類型動態(tài)選擇出最優(yōu)的異常檢測特征集,最后利用貝葉斯分類算法根據(jù)異常檢測特征子集對未知樣本進行類別預(yù)測。采用這種方法,有助于降低用于檢測異常的流量特征維數(shù),提高異常檢測的準確率。

發(fā)明內(nèi)容
針對上述問題,本發(fā)明提出了一種通過對網(wǎng)絡(luò)流量進行分析來檢測異常的方法,旨在建立ー個完善的檢測系統(tǒng),實現(xiàn)對網(wǎng)絡(luò)異常的檢測,檢測系統(tǒng)分為三個模塊數(shù)據(jù)預(yù)處理模塊、特征選擇模塊和異常檢測模塊。本發(fā)明的特征在于依次包括以下步驟I)首先進行數(shù)據(jù)預(yù)處理獲取主機上網(wǎng)流量,然后根據(jù)初始特征集和預(yù)先設(shè)定的時間窗ロ(時間間隔)長度對主機上網(wǎng)流量進行數(shù)據(jù)預(yù)處理,提取主機上網(wǎng)流量在各個時間窗口內(nèi)的初始特征值(相同時間間隔內(nèi)特征的取值),形成樣本集(樣本集由多個樣本組成,每個樣本包含110個網(wǎng)絡(luò)流量初始特征的值),本發(fā)明提出的網(wǎng)絡(luò)流量初始特征集合如下表所示,它是主機在一定時間間隔(如2S)內(nèi)產(chǎn)生的網(wǎng)絡(luò)流量的110個統(tǒng)計量表I網(wǎng)絡(luò)流量初始特征集
權(quán)利要求
1.一種基于網(wǎng)絡(luò)流量分析的異常檢測方法,其特征在于包括以下步驟 (I).首先進行數(shù)據(jù)預(yù)處理獲取主機上網(wǎng)流量,然后根據(jù)初始特征集和預(yù)先設(shè)定的時間間隔長度對主機上網(wǎng)流量進行數(shù)據(jù)預(yù)處理,提取主機上網(wǎng)流量在各個時間間隔內(nèi)的初始特征值,即一定時間間隔內(nèi)各個初始特征的取值,形成樣本集,樣本集由多個樣本組成,每個樣本包含110個網(wǎng)絡(luò)流量初始特征的值,提出的網(wǎng)絡(luò)流量初始特征集合如下所示,它是主機在一定時間間隔內(nèi)產(chǎn)生的有關(guān)網(wǎng)絡(luò)流量的110個統(tǒng)計量 1-4 上傳的IP數(shù)據(jù)包,ICMP包,TCP包,UDP包個數(shù) 5-8 上傳的IP數(shù)據(jù)包,ICMP包,TCP包,UDP字節(jié)數(shù) 9-12下載的IP數(shù)據(jù)包,ICMP包,TCP包,UDP包個數(shù) 13-16下載的IP數(shù)據(jù)包,ICMP包,TCP包,UDP字節(jié)數(shù) 17-22上傳的IP包,ICMP包,TCP包,UDP包以及IP包首部,TCP包首部平均包長 23-28上傳的IP包,ICMP包,TCP包,UDP包以及IP包首部,TCP包首部包長方差 29-34下載的IP包,ICMP包,TCP包,UDP包以及IP包首部,TCP包首部平均長度 35-40下載的IP包,ICMP包,TCP包,UDP包以及IP包首部,TCP包首部包長方差 41-44 IP數(shù)據(jù)包,ICMP包,TCP包,UDP包的上傳與下載數(shù)據(jù)包個數(shù)之比 45-48 IP數(shù)據(jù)包,ICMP包,TCP包,UDP包的上傳與下載流量大小之比 49-51 ICMP包,TCP包,UDP包各自所占的數(shù)據(jù)包個數(shù)比例 52-54 ICMP包,TCP包,UDP包各自所占的流量大小比例 55與TCP 80端口通信的數(shù)據(jù)包個數(shù)所占的比例 56與TCP 80端口通信的流量字節(jié)數(shù)所占的比例 57-59使用ICMP通信,TCP通信,UDP通信的不重復(fù)的目的IP數(shù) 60-61使用UDP通信不重復(fù)的源端口數(shù),目的端口數(shù) 62-63使用TCP通信不重復(fù)的源端口數(shù),目的端口數(shù) 64-66請求的連接數(shù),新建立的連接數(shù),保持的連接數(shù) 67-68 ICMP包中回送請求報文數(shù),回送回答報文數(shù) 69IP首部大于20字節(jié)的數(shù)據(jù)包個數(shù) 70TCP首部大于20字節(jié)的數(shù)據(jù)包個數(shù) 71-73接收的ICMP,TCP, UDP數(shù)據(jù)包中小于100字節(jié)的數(shù)據(jù)包個數(shù) 74-76發(fā)送的ICMP,TCP, UDP數(shù)據(jù)包中大于1000字節(jié)的數(shù)據(jù)包個數(shù) 77-78與每個IP地址建立的TCP連接數(shù)的平均值,最大值 79-80與每個IP地址上傳的數(shù)據(jù)包個數(shù)的平均值,最大值 81-82與每個IP地址下載的數(shù)據(jù)包個數(shù)的平均值,最大值 83-84與每個IP地址上傳的流量大小的平均值,最大值 85-86與每個IP地址下載的流量大小的平均值,最大值 87-88與每個IP地址通信發(fā)送的大包數(shù)的平均值,最大值 89-90與每個IP地址通信下載的小包數(shù)的平均值,最大值 91-94與每個IP地址通信不重復(fù)的TCP, UDP的源端口數(shù)的平均值,最大值 95-98與每個IP地址通信不重復(fù)的TCP, UDP的目的端口數(shù)的平均值,最大值 99-100各個連接中上傳的數(shù)據(jù)包個數(shù)的平均值,最大值101-102各個連接中下載的數(shù)據(jù)包個數(shù)的平均值,最大值 103-104各個連接中上傳的流量大小的平均值,最大值 105-106各個連接中下載的流量大小的平均值,最大值 107-108各個連接中發(fā)送大包數(shù)的最大值,平均值 109-110各個連接中接收小包數(shù)的最大值,平均值 (2).然后進行特征選擇在特征選擇之前,先給出相關(guān)的定義 定義I正常樣本集是正常的網(wǎng)絡(luò)流量經(jīng)過步驟I中的數(shù)據(jù)預(yù)處理之后產(chǎn)生的正常樣本的集合;每個樣本包含一定時間間隔內(nèi)110個網(wǎng)絡(luò)流量初始特征的值; 定義2異常樣本集是異常的網(wǎng)絡(luò)流量經(jīng)過步驟I中的數(shù)據(jù)預(yù)處理之后產(chǎn)生的異常樣本的集合;每個樣本包含一定時間間隔內(nèi)110個網(wǎng)絡(luò)流量初始特征的值;異常網(wǎng)絡(luò)流量包括網(wǎng)絡(luò)故障產(chǎn)生的網(wǎng)絡(luò)流量以及惡意代碼產(chǎn)生的網(wǎng)絡(luò)流量; 定義3定義偏離度計算公式,用于計算一個未知樣本的110個特征與已知 rraxi—/t樣本集對應(yīng)特征的偏離程度;其中μ i為已知樣本集的Iio個特征中的一個特征i的平均值,即已知樣本集中特征i取值大于零的樣本在特征i上的取值的算術(shù)平均值!Hiaxi是已知樣本集中所有樣本在特征i上的取值的最大值,Xi是新出現(xiàn)的一個未知樣本中特征i的值,i是特征編號,1=1,2, -,110 ; 定義4定義threshold為特征集偏離度之比門限值,即選擇出的特征子集中所有特征的偏離度之和占初始特征集中所有特征偏離度之和的比重的門限值,若果選擇出的特征子集達到此門限值,則該特征子集可以用來進行異常檢測;設(shè)定該門限值的取值范圍為[O. 5,I),門限值取值越大,選擇出的特征子集的特征個數(shù)越多,后續(xù)的計算復(fù)雜度也會越聞; 定義5定義compression_ratio為特征壓縮率門限值,即選擇出的特征子集的特征個數(shù)占初始特征集特征個數(shù)比重的門限值,如果選擇出的特征子集低于該門限值,則該特征子集可以用來進行異常檢測;設(shè)定該門限值的取值范圍為(0.01,0.5),門限值取值越大,選擇出的特征子集的特征個數(shù)越多,后續(xù)的計算復(fù)雜度也會越高; 定義6定義數(shù)據(jù)結(jié)構(gòu)ATTR(index, offset),其中index為特征在初始特征集中的位置,offset為該特征的偏尚程度; 利用動態(tài)特征選擇算法,選擇出適合于分類的最優(yōu)特征子集,動態(tài)特征選擇算法步驟如下 I)從i=l開始一直到i=110,使用定義3中的偏離度計算公式計算Vli, V2i,其中Vli是正常樣本集2與正常樣本集I對比后,特征i的平均偏離程度,即正常樣本集2中每個樣本的特征i相對正常樣本集I的特征i的偏離程度的平均值;V2i是異常樣本集與正常樣本集I對比后,特征i的平均偏離程度,即異常樣本集中每個樣本的特征i相對正常樣本集I的特征i的偏離程度的平均值;使用定義6中的數(shù)據(jù)結(jié)構(gòu)ATTR定義長度為110的數(shù)組W,令 IfliW1.1ndex=i,= 7^,令 total—offset= SW1. offset 來統(tǒng)計 110 個特征的偏離度之和 V I/并對數(shù)組W按字段offset由大到小進行排序,i=l, 2,…,110 ;2)計算令
全文摘要
本發(fā)明是一種基于網(wǎng)絡(luò)流量分析的異常檢測方法。本發(fā)明通過對IP數(shù)據(jù)包的深入分析提出了一個比較完備的網(wǎng)絡(luò)流量初始特征集,有利于從根本上提高異常檢測系統(tǒng)的性能。并根據(jù)不同類型的網(wǎng)絡(luò)異常動態(tài)選擇用于異常檢測的特征子集,最后利用貝葉斯分類器根據(jù)特征子集對未知樣本進行類別預(yù)測,如果預(yù)測結(jié)果為異常,則進行異常提示。軟件三個模塊數(shù)據(jù)預(yù)處理模塊負責(zé)前期數(shù)據(jù)的處理;特征選擇模塊根據(jù)異常的類型選擇用于檢測異常的合適的特征子集;異常檢測模塊在發(fā)現(xiàn)異常后進行異常提示。本發(fā)明提出的動態(tài)特征選擇算法可以針對不同類型的異常動態(tài)的選擇出用于檢測該異常的最優(yōu)特征子集,有助于降低用于檢測異常的流量特征維數(shù),提高異常檢測的準確率。
文檔編號H04L12/26GK103023725SQ20121056097
公開日2013年4月3日 申請日期2012年12月20日 優(yōu)先權(quán)日2012年12月20日
發(fā)明者賴英旭, 李秀龍, 楊震, 劉靜, 李健 申請人:北京工業(yè)大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
双鸭山市| 梁河县| 泸溪县| 都昌县| 依安县| 锡林浩特市| 陇川县| 秀山| 分宜县| 琼结县| 康保县| 富川| 甘德县| 乐山市| 吉安县| 奉新县| 鞍山市| 乌兰察布市| 五华县| 遂溪县| 南投县| 连云港市| 安泽县| 上饶县| 呈贡县| 江山市| 资中县| 兴业县| 晋江市| 白沙| 道孚县| 阿城市| 静乐县| 阿鲁科尔沁旗| 卢湾区| 五峰| 霞浦县| 大足县| 博湖县| 喀喇沁旗| 安乡县|