欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于超統(tǒng)計(jì)理論的網(wǎng)絡(luò)流量異常檢測(cè)方法

文檔序號(hào):7686445閱讀:215來源:國(guó)知局
專利名稱:一種基于超統(tǒng)計(jì)理論的網(wǎng)絡(luò)流量異常檢測(cè)方法
技術(shù)領(lǐng)域
本發(fā)明涉及網(wǎng)絡(luò)信息安全和數(shù)理統(tǒng)計(jì)相關(guān)技術(shù),具體涉及一種基于超 統(tǒng)計(jì)的網(wǎng)絡(luò)流量異常檢測(cè)方法,該方法可以及時(shí)發(fā)現(xiàn)網(wǎng)絡(luò)故障和性能問題, 對(duì)提高網(wǎng)絡(luò)的可用性,可靠性,保證網(wǎng)絡(luò)服務(wù)質(zhì)量具有重要意義。
背景技術(shù)
隨著Internet的不斷發(fā)展,網(wǎng)絡(luò)攻擊大量出現(xiàn),由此導(dǎo)致網(wǎng)絡(luò)流量異 常,網(wǎng)絡(luò)服務(wù)質(zhì)量明顯降低的可能性大大增加。通過檢測(cè)網(wǎng)絡(luò)流量異???以快速發(fā)現(xiàn)網(wǎng)絡(luò)故障和性能問題,及時(shí)采取措施,其實(shí)時(shí)性強(qiáng),對(duì)提高網(wǎng) 絡(luò)的可用性,可靠性,保證網(wǎng)絡(luò)服務(wù)質(zhì)量具有重要意義。
網(wǎng)絡(luò)流量的分析與建模一直是刻畫網(wǎng)絡(luò)性能,進(jìn)行網(wǎng)絡(luò)流量異常檢測(cè) 的重要內(nèi)容。而網(wǎng)絡(luò)流量的精確分析,對(duì)于網(wǎng)絡(luò)的建模、理解網(wǎng)絡(luò)的動(dòng)態(tài) 行為,以及網(wǎng)絡(luò)異常檢測(cè)方法的提出均有重要意義。
傳統(tǒng)的電信網(wǎng)絡(luò),由于業(yè)務(wù)的單一性,基于泊松過程(連續(xù)時(shí)間)或貝 努利過程(離散時(shí)間)的短相關(guān)的數(shù)學(xué)模型能較準(zhǔn)確地描述其特性。但隨著 網(wǎng)絡(luò)業(yè)務(wù)種類的增多,業(yè)務(wù)流特性日趨復(fù)雜。在過去十年的研究中,對(duì)實(shí) 際流量新的分析發(fā)現(xiàn),無論是局域網(wǎng)還是廣域網(wǎng),網(wǎng)絡(luò)流量在很大的時(shí)間 尺度上呈現(xiàn)高可變性并且其自相關(guān)系數(shù)表現(xiàn)出不可累加性。統(tǒng)計(jì)學(xué)上,這 些特性可以用長(zhǎng)相關(guān)性(LRD)來描述。短相關(guān)的網(wǎng)絡(luò)流量模型的自相關(guān)呈 指數(shù)衰減,其速度比實(shí)際觀測(cè)到的要快很多,從而使得使用它們進(jìn)行性能 估計(jì)與實(shí)際有相當(dāng)差距。因此,近年來,大量新的長(zhǎng)相關(guān)性流量分析模型 被提了出來。在目前對(duì)網(wǎng)絡(luò)流量進(jìn)行分析的方法中,基于統(tǒng)計(jì)的方法要對(duì)網(wǎng)絡(luò)流量
建立合適的統(tǒng)計(jì)模型來進(jìn)行分析,時(shí)間序列模型AR (自回歸)、ARMA (自回 歸滑動(dòng)平均)、ARIMA (自回歸求和滑動(dòng)平均)均是短相關(guān)模型,顯然不適 宜將其用于分析具有長(zhǎng)相關(guān)性的網(wǎng)絡(luò)流量時(shí)間序列。長(zhǎng)相關(guān)的時(shí)間序列模 型FARIMA(p,d,q)(分式求和ARMA)屬于平穩(wěn)參數(shù)模型,也不適宜將其用于 分析非平穩(wěn)的網(wǎng)絡(luò)流量時(shí)間序列;基于網(wǎng)絡(luò)流量特征量的方法是根據(jù)表征 網(wǎng)絡(luò)流量自相似特性的Hurst參數(shù)的突增程度,對(duì)網(wǎng)絡(luò)流量異常進(jìn)行檢測(cè), 它必須假定在所感興趣的時(shí)間范圍內(nèi),網(wǎng)絡(luò)流量時(shí)間序列的統(tǒng)計(jì)特征保持 不變(即平穩(wěn)性假設(shè)),否則會(huì)顯著降低其檢測(cè)的準(zhǔn)確性和穩(wěn)定性。
傳統(tǒng)的短相關(guān)模型很難準(zhǔn)確描述網(wǎng)絡(luò)流量的長(zhǎng)相關(guān)以及重尾特性,但是
這些經(jīng)典的模型都有著完善的理論基礎(chǔ),并且模型的參數(shù)計(jì)算簡(jiǎn)單。長(zhǎng)相
關(guān)模型更好的描述了網(wǎng)絡(luò)流量的長(zhǎng)相關(guān)以及重尾特性,但是這種優(yōu)勢(shì)只局
限于長(zhǎng)相關(guān)性。對(duì)于網(wǎng)絡(luò)流量中的短相關(guān)特性,長(zhǎng)相關(guān)模型則很難描述,
并且由于長(zhǎng)相關(guān)模型的參數(shù)通常很難估計(jì),這也局限了長(zhǎng)相關(guān)模型的使用。
超統(tǒng)計(jì)理論屬于物理學(xué)的前沿領(lǐng)域并彌補(bǔ)了傳統(tǒng)統(tǒng)計(jì)方法的不足。超 統(tǒng)計(jì)的含義是指"統(tǒng)計(jì)之統(tǒng)計(jì)",用于描述多個(gè)動(dòng)力學(xué)子系統(tǒng)的復(fù)合。這 種系統(tǒng)在較長(zhǎng)的時(shí)間尺度上存在某種強(qiáng)度量的大幅度波動(dòng),這種強(qiáng)度量在 超統(tǒng)計(jì)理論中被稱為慢變量(相對(duì)于快速變化的系統(tǒng)狀態(tài)變量,例如本文 中的網(wǎng)絡(luò)流量)。

發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種基于超統(tǒng)計(jì)的網(wǎng)絡(luò)流量異常檢測(cè)方法,該 方法中的超統(tǒng)計(jì)模型可以描述實(shí)際的網(wǎng)絡(luò)流量時(shí)間序列,實(shí)際的網(wǎng)絡(luò)流量 通常表現(xiàn)出非平穩(wěn)性、突發(fā)性、長(zhǎng)相關(guān)性以及重尾性,通過對(duì)該方法計(jì)算 出的慢變量序列進(jìn)行網(wǎng)絡(luò)流量異常檢測(cè)具有明顯的優(yōu)越性。本發(fā)明提供的基于超統(tǒng)計(jì)理論的網(wǎng)絡(luò)流量異常檢測(cè)方法,其步驟包括
(1) 根據(jù)網(wǎng)絡(luò)流量的實(shí)際特性選擇一種分布模型,并且該分布符合網(wǎng)絡(luò)
流量的分布擬合檢驗(yàn)要求;
(2) 根據(jù)此分布模型計(jì)算網(wǎng)絡(luò)流量時(shí)間序列的慢變量序列,即分布參數(shù) 序列;
(3) 根據(jù)慢變量序列的異常波動(dòng)來檢測(cè)網(wǎng)絡(luò)流量異常。
本發(fā)明通過建立基于超統(tǒng)計(jì)(即統(tǒng)計(jì)之統(tǒng)計(jì))的網(wǎng)絡(luò)流量模型,可以 描述表現(xiàn)出突發(fā)性、非平穩(wěn)、長(zhǎng)相關(guān)性以及重尾性的網(wǎng)絡(luò)流量時(shí)間序列并 對(duì)網(wǎng)絡(luò)流量進(jìn)行異常檢測(cè)。具體而言,本發(fā)明具有以下特點(diǎn)
(1)網(wǎng)絡(luò)流量時(shí)間序列的復(fù)雜性表現(xiàn)在非平穩(wěn)性、突發(fā)性、重尾性
和長(zhǎng)相關(guān)性,傳統(tǒng)的短相關(guān)模型以及長(zhǎng)相關(guān)模型都不能滿足網(wǎng)絡(luò)流量時(shí)間 序列的上述四個(gè)特性。而基于超統(tǒng)計(jì)理論的網(wǎng)絡(luò)流量模型可以滿足網(wǎng)絡(luò)流
量時(shí)間序列的全部特性;
(2)根據(jù)超統(tǒng)計(jì)理論,慢變量序列含有系統(tǒng)的全部信息,因此通過分析 慢變量序列可以達(dá)到分析整個(gè)系統(tǒng)的目的。并且由于慢變量的個(gè)數(shù)一般遠(yuǎn) 小于原始序列,因此將大大加快計(jì)算速度。從慢變量的含義不難得知,慢 變量變現(xiàn)的是較大時(shí)間尺度下的系統(tǒng)行為,準(zhǔn)確說慢變量的變化比原始序 列的變化更具有分析價(jià)值。因?yàn)樵夹蛄兄邪嗽S多隨機(jī)波動(dòng)的因素, 在一定的時(shí)間范圍內(nèi)認(rèn)為原始序列服從相應(yīng)慢變量的分布模型,原始序列 的波動(dòng)并不是系統(tǒng)的本質(zhì)屬性,慢變量的波動(dòng)變化才能表現(xiàn)系統(tǒng)的特征。


圖1為基于超統(tǒng)計(jì)理論的網(wǎng)絡(luò)流量異常檢測(cè)方法流程圖; 圖2為一段平穩(wěn)化的網(wǎng)絡(luò)流量時(shí)間序列;
圖3為用窗口劃分算法進(jìn)行窗口劃分后的網(wǎng)絡(luò)流量時(shí)間序列; (其中橫線段為窗口區(qū)間)圖4為慢變量A的序列;
圖5為補(bǔ)償算法流程圖。
具體實(shí)施例方式
如圖1所示,本發(fā)明方法包括以下步驟
(1) 根據(jù)網(wǎng)絡(luò)流量的實(shí)際特性選擇一種分布模型,并且該分布符合網(wǎng)絡(luò) 流量的分布擬合檢驗(yàn)要求;
針對(duì)網(wǎng)絡(luò)流量的具體特征均可以選取一種合適的分布模型擬合局部網(wǎng) 絡(luò)流量,該分布模型必須能夠描述局部網(wǎng)絡(luò)流量時(shí)間序列的特征并且分布 模型必須通過局部網(wǎng)絡(luò)流量的分布擬合檢驗(yàn),比如通用的皮爾遜擬合檢驗(yàn)
法、Kolmogorov-Smirnov檢驗(yàn)以及針對(duì)特定分布模型的檢驗(yàn)方法,例如正 態(tài)分布的W檢驗(yàn)、D檢驗(yàn)等。早期的網(wǎng)絡(luò)流量由于網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單,網(wǎng)絡(luò)業(yè)務(wù) 較少, 一些常用的分布模型例如Poisson分布模型、正態(tài)分布模型等都可 以用來對(duì)局部網(wǎng)絡(luò)流量進(jìn)行擬合;廣義Pareto分布模型,伽馬分布模型等 則可以用來擬合晚期的網(wǎng)路流量。
(2) 根據(jù)此分布模型計(jì)算網(wǎng)絡(luò)流量時(shí)間序列的慢變量序列,即分布參數(shù) 序列;
實(shí)際的網(wǎng)絡(luò)流量表現(xiàn)出很強(qiáng)的非平穩(wěn)性,非平穩(wěn)的網(wǎng)絡(luò)流量時(shí)間序列 不利于慢變量的計(jì)算,因此對(duì)非平穩(wěn)的網(wǎng)絡(luò)流量時(shí)間序列進(jìn)行平穩(wěn)化處理, 通常采用的平穩(wěn)化方法有基于平穩(wěn)性的分段算法以及差分平穩(wěn)化方法。 為了計(jì)算慢變量序列,必須找到慢變量變化點(diǎn)對(duì)應(yīng)的網(wǎng)絡(luò)流量在網(wǎng)絡(luò)流量 時(shí)間序列中的位置,因此要對(duì)平穩(wěn)化的網(wǎng)絡(luò)流量時(shí)間序列進(jìn)行基于分布參 數(shù)的窗口劃分。通常采用的窗口劃分算法有滑動(dòng)窗口方法、自下向上的 以及自上而下的窗口劃分算法;對(duì)每個(gè)窗口內(nèi)的網(wǎng)絡(luò)流量時(shí)間序列進(jìn)行分
布參數(shù)估計(jì),所得到的分布參數(shù)既為慢變量。下面舉例一種計(jì)算慢變量序
列的方法
(Al)將非平穩(wěn)的網(wǎng)絡(luò)流量時(shí)間序列劃分為寬平穩(wěn)的子序列,或者對(duì)整個(gè)網(wǎng)絡(luò)流量時(shí)間序列進(jìn)行差分平穩(wěn)化,對(duì)原始網(wǎng)絡(luò)流量時(shí)間序列進(jìn)行平穩(wěn) 化處理,得到平穩(wěn)網(wǎng)絡(luò)流量序列;
(A2)設(shè)選取的分布模型的分布參數(shù)為入y, i=l,2,…K偽分布參數(shù)的 個(gè)數(shù),再分別根據(jù)參數(shù)入j的變化趨勢(shì)和設(shè)定的規(guī)則,將步驟(A1)得到的平 穩(wěn)網(wǎng)絡(luò)流量序列劃分為多個(gè)窗口,設(shè)窗口的總個(gè)數(shù)為W 7V為正整數(shù);
(A3)計(jì)算每個(gè)窗口的分布參數(shù)A," 1《J《vV,該序列即為慢變量序列。 (3)根據(jù)慢變量序列的異常波動(dòng)來檢測(cè)網(wǎng)絡(luò)流量異常。 根據(jù)超統(tǒng)計(jì)理論,網(wǎng)絡(luò)流量時(shí)間序列的慢變量序列也服從某種分布模 型,當(dāng)網(wǎng)絡(luò)發(fā)生異常時(shí),網(wǎng)絡(luò)流量的慢變量序列將偏離網(wǎng)絡(luò)正常時(shí)的慢變 量分布模型,通過檢測(cè)異常慢變量對(duì)正常慢變量分布模型的偏離可以達(dá)到 網(wǎng)絡(luò)流量異常檢測(cè)的目的;網(wǎng)絡(luò)流量時(shí)間序列的慢變量是網(wǎng)絡(luò)流量的重要 特征,網(wǎng)絡(luò)流量異常發(fā)生時(shí)慢變量的統(tǒng)計(jì)特征會(huì)發(fā)生變化,例如慢變量的 均質(zhì)、方差或者其他高階統(tǒng)計(jì)量的顯著異常,因此通過檢測(cè)慢變量序列的 統(tǒng)計(jì)特性的變化也可以達(dá)到網(wǎng)絡(luò)流量異常檢測(cè)的目的。
下面結(jié)合一個(gè)實(shí)例對(duì)本發(fā)明方法作進(jìn)一步詳細(xì)的說明。 (1)研究數(shù)據(jù)的獲取
麻省理工林肯實(shí)驗(yàn)室的信息系統(tǒng)技術(shù)組在美國(guó)國(guó)防部高級(jí)研究項(xiàng)目署 (DARPA)及空軍研究室贊助下,為計(jì)算機(jī)網(wǎng)絡(luò)入侵檢測(cè)系統(tǒng)評(píng)估提供了測(cè) 試用數(shù)據(jù)集合。該數(shù)據(jù)集合包含了豐富的數(shù)據(jù)包流量和許多不同類型的入 侵攻擊(主要有拒絕服務(wù)攻擊DoS;分布式拒絕服務(wù)攻擊DDoS;遠(yuǎn)程攻擊R2L; 本地用戶非法提升權(quán)限的攻擊U2R和非法監(jiān)聽和探測(cè)等四類)。每一數(shù)據(jù)項(xiàng) 包括數(shù)據(jù)包編號(hào)、數(shù)據(jù)包的頭件和正文。其中數(shù)據(jù)包的頭文件里記錄了這 個(gè)包的起始時(shí)間、與第一個(gè)包的時(shí)間間隔、源地址、目標(biāo)地址、數(shù)據(jù)包長(zhǎng) 度、網(wǎng)絡(luò)協(xié)議等信息。數(shù)據(jù)包主要由以下幾種類型組成IP, arp, netbeui。 其中IP包的長(zhǎng)度(bytes)為括號(hào)中的字節(jié)數(shù)加上40 (IP包頭長(zhǎng)),netbeui 為局域網(wǎng)的協(xié)議,符合該協(xié)議的數(shù)據(jù)包長(zhǎng)度為14字節(jié),arp(地址解析協(xié)議)數(shù)據(jù)包的長(zhǎng)度28字節(jié)。
(2) 網(wǎng)絡(luò)流量時(shí)間序列的產(chǎn)生
周期采樣方法指的是以固定頻率尺度對(duì)網(wǎng)絡(luò)流量進(jìn)行周期性采樣的方 法,它表示每單位時(shí)間到達(dá)的數(shù)據(jù)包數(shù)量。該方法按照固定的時(shí)間間隔對(duì) 數(shù)據(jù)包進(jìn)行分組,然后對(duì)該組數(shù)據(jù)包中的包數(shù)量進(jìn)行累積,每組累積的包 數(shù)量組成一個(gè)時(shí)間序列。
周期采樣時(shí)間序列雖然所體現(xiàn)的網(wǎng)絡(luò)流量的信息較小,但是表示方法 簡(jiǎn)單,計(jì)算復(fù)雜度和所需的存儲(chǔ)空間都較小,能有效提高網(wǎng)絡(luò)流量攻擊檢
測(cè)的實(shí)時(shí)性、準(zhǔn)確性,降低時(shí)間、空間復(fù)雜度。
(3) 網(wǎng)絡(luò)流量時(shí)間平穩(wěn)化處理
將非平穩(wěn)的網(wǎng)絡(luò)流量時(shí)間序列進(jìn)行平穩(wěn)化處理,通常使用的方法有 將非平穩(wěn)的網(wǎng)絡(luò)流量時(shí)間序列劃分為寬平穩(wěn)的子序列,或者對(duì)整個(gè)網(wǎng)絡(luò)流
量時(shí)間序列進(jìn)行差分平穩(wěn)化。在本例中采用差分平穩(wěn)化方法。圖2即為一段 平穩(wěn)化的DARPA網(wǎng)絡(luò)流量時(shí)間序列。
(4) 分布模型的選取
從圖l中可以看出,實(shí)際網(wǎng)絡(luò)流量在局部表現(xiàn)出很強(qiáng)的突發(fā)性,并且從 直方圖中可以看出實(shí)際網(wǎng)絡(luò)表現(xiàn)出明顯的重尾特性。因此基于實(shí)際網(wǎng)絡(luò)流 量的上述特點(diǎn),在本例中選擇離散廣義Pareto分布對(duì)局部網(wǎng)絡(luò)流量進(jìn)行分 析。因此離散廣義Pareto分布的分布參數(shù)即為慢變量。
(5) 離散廣義Pareto的參數(shù)估計(jì)方法 傳統(tǒng)的GPD模型參數(shù)估計(jì)方法主要有下列幾種最大似然估計(jì)(ML),矩
估計(jì)(醒)以及概率權(quán)重矩估計(jì)(PWM) 。 2001年Rasmussen提出了一種新的GPD 參數(shù)估計(jì)方法廣義概率權(quán)重矩估計(jì)(GP麗)。
為了估計(jì)離散GPD模型的參數(shù)本文提出了一種基于GP麗的參數(shù)估計(jì)方 法。首先簡(jiǎn)要回顧GPWM方法(X,:^^^…《X^)是經(jīng)過排序的樣本,v可以取任意實(shí)數(shù),GPWM方法通常取
Vl=l, v2=1.5。 ^"是樣本累計(jì)分布函數(shù)的Kaplan-Meier估計(jì),即經(jīng)驗(yàn)累計(jì) 分布函數(shù)。尺度參數(shù)b和形狀參數(shù)k可以通過(4)式和(5)式計(jì)算。
乂2(V2+1)-^0,+1)
6 =《202+1)02+1 + "
由于GP麗方法不能很好的估計(jì)離散GPD模型,因此在使用GP麗方法進(jìn)行 參數(shù)估計(jì)之前需要對(duì)樣本進(jìn)行預(yù)處理。本文提出了一種樣本補(bǔ)償算法試圖 將離散的樣本恢復(fù)成在統(tǒng)計(jì)意義上與離散化前相似的樣本。
圖5描述了補(bǔ)償算法的計(jì)算流程。算法假設(shè)輸入的原始樣本(網(wǎng)絡(luò)流量序 列)是一個(gè)經(jīng)過離散化處理的樣本,并且該樣本服從GPD分布。因此在對(duì)原 始樣本進(jìn)行參數(shù)估計(jì)前需要恢復(fù)原始流量的小數(shù)部分。首先假設(shè)原始樣本 的小數(shù)部分服從一個(gè)均勻分布,將原始樣本+產(chǎn)生的小數(shù)部分后用GP麗方法 進(jìn)行參數(shù)估計(jì)。然后用得到的參數(shù)產(chǎn)生一個(gè)與原始樣本同樣長(zhǎng)度的樣本序 列,并用原始樣本減去該樣本得到第二個(gè)小數(shù)序列。用這個(gè)小數(shù)序列加上 原始本后再用GP麗方法進(jìn)行參數(shù)估計(jì)。算法到此完成一次循環(huán)。通常4到5 次循環(huán)就足以估計(jì)離散GPD模型的參數(shù)。 (6)網(wǎng)絡(luò)流量時(shí)間序列窗口的劃分
本文所采用的基于分布參數(shù)的窗口劃分算法由兩個(gè)步驟組成第一步, 按照滑動(dòng)窗口的思路提取分布參數(shù)的變化趨勢(shì),由于滑動(dòng)窗口的限制第一 步所提取的分布參數(shù)表現(xiàn)的局部窗口內(nèi)的分布特征。第二步,通過一種基 于均值變化的分段算法確定具體的分布變化點(diǎn)。分段算法描述如下
選取滑動(dòng)窗口大小固定為200, GP麗方法要求進(jìn)行參數(shù)參數(shù)估計(jì)的樣本 序列的最小長(zhǎng)度為50,考慮到GPWM方法的這一要求考慮到的是對(duì)實(shí)數(shù)序列 的參數(shù)估計(jì),本文所討論的是對(duì)整數(shù)樣本的估計(jì),因此應(yīng)該適當(dāng)放大窗口 限制?;瑒?dòng)窗口每次移動(dòng)的距離可以根據(jù)實(shí)際要求調(diào)整,較大的移動(dòng)距離 可以加快計(jì)算速度,但精度有所下降。較小移動(dòng)距離則需要更多的計(jì)算時(shí)間。對(duì)每個(gè)滑動(dòng)窗口前面介紹的方法進(jìn)行參數(shù)估計(jì)得到參數(shù)序列Xt然后通 過均值分段算法計(jì)算參數(shù)序列xt的均值突變點(diǎn),該點(diǎn)所對(duì)應(yīng)滑動(dòng)窗口的起 始位置即為流量序列的分布變化點(diǎn)。
滑動(dòng)窗口計(jì)算的是局部窗口的分布特征,為了彌補(bǔ)局部窗口所帶來的弊 端,本文選用了一種自上而下的均值分段算法。自上而下的分段算法注重 序列的整體趨勢(shì),可以確定序列的全局最優(yōu)分段點(diǎn)。
啟發(fā)式分割算法(BG算法)即是一種能將非平穩(wěn)時(shí)間序列按照均值劃分 為平穩(wěn)子序列的有效方法。由Galvan在2001年提出,其主要思想介紹如下
對(duì)于一個(gè)由N個(gè)點(diǎn)構(gòu)成的時(shí)間序列x(t),從左到右分別計(jì)算每個(gè)點(diǎn)左邊 部分和右邊部分的平均值"1 (i)和"2 (i)及標(biāo)準(zhǔn)偏差sl (i)和s2 (i),貝Ui點(diǎn) 的合并偏差SD(i)為
<formula>formula see original document page 12</formula>
其中,Nl, N2分別為i點(diǎn)左邊和右邊部分的點(diǎn)數(shù)。我們用t檢驗(yàn)的統(tǒng)計(jì)值 T(i)來量化表示i點(diǎn)左右兩部份均值的差異<formula>formula see original document page 12</formula>
對(duì)x (t)中的每一個(gè)點(diǎn)重復(fù)上述計(jì)算過程,得到與x (t) —一對(duì)應(yīng)的檢驗(yàn)統(tǒng)計(jì) 值序列T(t), T越大,表示該點(diǎn)左右兩部份的均值相差越大。計(jì)算T(t)中 的最大值Tmax的統(tǒng)計(jì)顯著性P(Tmax):<formula>formula see original document page 12</formula>
P(Tmax)表示在隨機(jī)過程中取到T值小于等于Tmax的概率( P(Tmax)可近似表示為<formula>formula see original document page 12</formula>
-般情況下由蒙特卡洛模擬可以得到il=4. 191nN-11.54, S 二O. 40, N是時(shí)間序列 x(t)的長(zhǎng)度,fN — 2, Ix(a,b)為不完全P函數(shù).我們?cè)O(shè)定一個(gè)臨界值PO, 如果P(Tmax)》P0,則于該點(diǎn)將x (t)分割成兩段均值有一定差異的子序 列,否則不分割。對(duì)新得到的兩個(gè)子序列分別重復(fù)上述操作,如果子序列 有P(Tmax) ^P0,并且子序列與其左、右相鄰的子序列間均值的差異程度 均滿足上述條件,則對(duì)子序列進(jìn)行分割,否則不分割。如此重復(fù)直至所有 的子序列都不可分割為止。
對(duì)圖2平穩(wěn)化的網(wǎng)絡(luò)流量時(shí)間序列進(jìn)行窗口劃分,其結(jié)果如圖3所示。 (7)基于慢變量分布模型的網(wǎng)絡(luò)流量異常檢測(cè)
對(duì)于劃分好的待分析網(wǎng)絡(luò)流量窗口 ,由每個(gè)窗口的分布參數(shù)A可構(gòu)成 參數(shù)序列入j (Kj《N)。參數(shù)序列入"A 2 入w即是超統(tǒng)計(jì)理論中的慢
變量序列。根據(jù)超統(tǒng)計(jì)理論,慢變量序列服從同一種分布模型,通過K-近 鄰算法檢測(cè)每一參數(shù)值入j是否符合這種分布,即可得出此參數(shù)所對(duì)應(yīng)的窗 口中是否存在網(wǎng)絡(luò)流量異常窗口。圖4為慢變量A的序列。
K-近鄰算法是一種基于分布的異常檢測(cè)技術(shù)。該算法最突出優(yōu)點(diǎn)在于 無需知道特征向量的分布,我們可以假設(shè)向量屬于任何一種分布函數(shù);其 次,因?yàn)闄z測(cè)是通過比較最近的數(shù)據(jù)采樣和歷史數(shù)據(jù)做出的,所以檢測(cè)是 實(shí)時(shí)的,并能夠自動(dòng)適應(yīng)于特定的目標(biāo)系統(tǒng);此外,此算法的多維性保證 了它有檢測(cè)未知攻擊的能力?;贙-近鄰算法的簡(jiǎn)單描述如下
假定歷史數(shù)據(jù)為R"中的m-l個(gè)點(diǎn),加上實(shí)時(shí)處理的點(diǎn),在R"中一共有m 個(gè)點(diǎn),對(duì)于向量x, yER" , d(x, y)表示從x到y(tǒng)的距離。如果用Xj(j^, 2,……, n)表示向量xelT的第j維,那么最常用的定義就是歐拉距離
本發(fā)明方法實(shí)例在實(shí)際中也使用了歐拉距離。
在實(shí)際中接收到一個(gè)隨機(jī)向量l,然后做出判斷它是否是一個(gè)異常。 判斷標(biāo)準(zhǔn)為若點(diǎn)X^相對(duì)已經(jīng)觀察到的所有歷史數(shù)據(jù)都太遠(yuǎn),則認(rèn)為異常是很合理的。因此,可以找出點(diǎn)X^到其他m-l個(gè)點(diǎn)中的最近鄰的距離。這個(gè)
距離就能夠度量出點(diǎn)l距離以前觀察到的所有歷史數(shù)據(jù)有多遠(yuǎn)。而對(duì)于"太
遠(yuǎn)"的定義,本發(fā)明方法實(shí)例使用了數(shù)據(jù)本身。除了從點(diǎn)L到其他m-l個(gè)點(diǎn) 中找到它的最近鄰?fù)猓瑢?duì)其他的m-l個(gè)點(diǎn)也做同樣的工作。最后,對(duì)于1=1, 2,……,m,都能夠得到點(diǎn)Xi到它的最近鄰的距離。通過這種方法可以得 到m個(gè)最近鄰距離。如果找到的點(diǎn)l的最近鄰距離處于上限,如位于m個(gè)最 近鄰距離中最大的1%,那就能夠判定點(diǎn)l是"太遠(yuǎn)"了。以上實(shí)際上是一 種假設(shè)檢驗(yàn),1%就是定義的誤報(bào)率(概率論中的第一類錯(cuò)誤).論述該方法的 文獻(xiàn)已給出了這一點(diǎn)的嚴(yán)格數(shù)學(xué)證明。這種假設(shè)檢驗(yàn)對(duì)于數(shù)據(jù)分布并沒有 作任何假設(shè),這正式該方法的優(yōu)越性所在。
用K-近鄰算法對(duì)慢變量A的序列進(jìn)行分析,共有160個(gè)窗口,其中攻擊 窗口為16個(gè),最后檢測(cè)出15個(gè)攻擊,窗口檢測(cè)率為93.75%。 (8)基于慢變量統(tǒng)計(jì)特性的網(wǎng)絡(luò)流量異常檢測(cè)
步驟(7)用KN方法檢測(cè)網(wǎng)絡(luò)流量異常,該方法基于慢變量服從同一種 分布模型。慢變量除了具有上述特點(diǎn)外,慢變量序列是網(wǎng)絡(luò)流量時(shí)間序列 的重要特征,因此可以基于慢變量的統(tǒng)計(jì)特征的顯著異常來進(jìn)行網(wǎng)絡(luò)流量 異常檢領(lǐng)!K
廣義最大似然比(Generalized likelihood Ratio, GLR)的具體做法是 先考慮檢測(cè)序列中兩個(gè)相鄰的時(shí)間窗R(t)和S(t)。在實(shí)時(shí)檢測(cè)過程中,這 兩個(gè)時(shí)間窗一步一個(gè)地向前移動(dòng),所以稱它們?yōu)榛瑒?dòng)窗口。應(yīng)用似然比檢 驗(yàn)方法,可檢驗(yàn)兩個(gè)窗口 R(t)和S(t)之間發(fā)生的異常變化。該方法假定每 個(gè)時(shí)間滑動(dòng)窗口內(nèi)的序列(觀測(cè)值序列的局部)是平穩(wěn)的,那么每個(gè)時(shí)間 滑動(dòng)窗口可以應(yīng)用時(shí)間序列理論中的自回歸模型(AR)擬合。AR(2)模型的形
式是<formula>formula see original document page 14</formula>
其中""=1,1 }表示時(shí)間序列,A和A是兩個(gè)待定系數(shù),^是殘差項(xiàng),是獨(dú) 立正態(tài)分布隨機(jī)變量。然后計(jì)算出兩個(gè)窗口序列中殘差的聯(lián)合似然比,得到一個(gè)統(tǒng)計(jì)量,
再取其對(duì)數(shù),得到對(duì)數(shù)似然比,再應(yīng)用似然比檢驗(yàn)方法,檢驗(yàn)兩個(gè)窗口 R(t) 和S(t)之間是否發(fā)生了異常變化。即在與一個(gè)預(yù)先設(shè)定的閾值T相比較, 當(dāng)該統(tǒng)計(jì)量超過閾值T時(shí),就認(rèn)為兩個(gè)窗口 R(t)和S(t)之間發(fā)生了異常變 化。兩個(gè)窗口 R(t)和S(t)的邊界就被認(rèn)定為異常點(diǎn),反之,就不是異常點(diǎn)。 采用廣義最大似然比方法對(duì)圖4所示的慢變量序列進(jìn)行異常檢測(cè),檢 測(cè)率達(dá)到87%,誤檢率只有8%。
權(quán)利要求
1. 一種基于超統(tǒng)計(jì)理論的網(wǎng)絡(luò)流量異常檢測(cè)方法,其步驟包括(1)根據(jù)網(wǎng)絡(luò)流量的特性選擇一種分布模型,并且該分布符合網(wǎng)絡(luò)流量的分布擬合檢驗(yàn)要求;(2)根據(jù)此分布模型計(jì)算網(wǎng)絡(luò)流量時(shí)間序列的慢變量序列,即分布參數(shù)序列;(3)根據(jù)慢變量序列的異常波動(dòng)來檢測(cè)網(wǎng)絡(luò)流量異常。
2、 根據(jù)權(quán)利要求l所述的基于超統(tǒng)計(jì)理論的網(wǎng)絡(luò)流量異常檢測(cè)方 法,其特征在于步驟(2)中慢變量序列的計(jì)算包拮下述步驟(Al)將非平穩(wěn)的網(wǎng)絡(luò)流量時(shí)間序列劃分為寬平穩(wěn)的子序列,或者對(duì)整 個(gè)網(wǎng)絡(luò)流量時(shí)間序列進(jìn)行差分平穩(wěn)化,對(duì)原始網(wǎng)絡(luò)流量時(shí)間序列進(jìn)行平穩(wěn) 化處理,得到平穩(wěn)網(wǎng)絡(luò)流量序列;(A2)設(shè)選取的分布模型的分布參數(shù)為A" i=l,2,…K偽分布參數(shù)的 個(gè)數(shù),再分別根據(jù)參數(shù)、的變化趨勢(shì)和設(shè)定的規(guī)則,將步驟(A1)得到的平 穩(wěn)網(wǎng)絡(luò)流量序列劃分為多個(gè)窗口,設(shè)窗口的總個(gè)數(shù)為#,劾正整數(shù);(A3)計(jì)算每個(gè)窗口的分布參數(shù)A,", 1《J《見該序列即為慢變量序列。
3、 根據(jù)權(quán)利要求l所述的基于超統(tǒng)計(jì)理論的網(wǎng)絡(luò)流量異常檢測(cè)方法, 其特征在于步驟(3)通過檢測(cè)偏離所述慢變量序列所服從的分布模型的慢 變量進(jìn)行網(wǎng)絡(luò)流量異常。
4、 根據(jù)權(quán)利要求l所述的基于超統(tǒng)計(jì)理論的網(wǎng)絡(luò)流量異常檢測(cè)方法, 其特征在于步驟(3)采用傳統(tǒng)的異常檢測(cè)方法檢測(cè)在統(tǒng)計(jì)特征上異常的慢 變量進(jìn)行網(wǎng)絡(luò)流量異常。
5、 根據(jù)權(quán)利要求l所述的基于超統(tǒng)計(jì)理論的網(wǎng)絡(luò)流量異常檢測(cè)方法, 其特征在于;步驟(3)采用基于離散廣義Pareto超統(tǒng)計(jì)進(jìn)行網(wǎng)絡(luò)流量異常檢 測(cè),其過程為(Cl)對(duì)非平穩(wěn)的網(wǎng)絡(luò)流量時(shí)間序列進(jìn)行平穩(wěn)化處理; (C2)將平穩(wěn)化的網(wǎng)絡(luò)流量時(shí)間序列根據(jù)離散廣義Pareto分布的參數(shù)劃 分成^h子窗口;(C3)計(jì)算每個(gè)窗口的離散廣義Pareto分布參數(shù),得到網(wǎng)絡(luò)流量時(shí)間序 列的慢變量序列;(C4)用K-近鄰算法方法檢測(cè)慢變量序列中的異常慢變量,異常慢變量 對(duì)應(yīng)的窗口中的網(wǎng)絡(luò)流量即為異常網(wǎng)絡(luò)流量;(C5)用廣義最大似然比方法檢測(cè)慢變量序列,異常慢變量對(duì)應(yīng)的窗口 中的網(wǎng)絡(luò)流量即為異常網(wǎng)絡(luò)流量。
6、 根據(jù)權(quán)利要求5所述的基于超統(tǒng)計(jì)理論的網(wǎng)絡(luò)流量異常檢測(cè)方法, 其特征在于步驟(C2)中,進(jìn)行離散廣義Pareto分布的參數(shù)估計(jì)時(shí),利用 下述補(bǔ)償算法對(duì)網(wǎng)絡(luò)流量時(shí)間序列進(jìn)行預(yù)處理(Dl)假設(shè)原始網(wǎng)絡(luò)流量時(shí)間序列的小數(shù)部分服從一個(gè)均勻分布,將原 始網(wǎng)絡(luò)流量時(shí)間序列加上均勻分布產(chǎn)生的小數(shù)部分后用廣義概率權(quán)重矩方 法估計(jì)進(jìn)行參數(shù)估計(jì);(D2)根據(jù)(Dl)步驟中得到分布參數(shù)產(chǎn)生于原始網(wǎng)絡(luò)流量時(shí)間序列個(gè)數(shù)相同的樣本序列,計(jì)算樣本序列與原始網(wǎng)絡(luò)流量時(shí)間序列的差值,用該差 值加上原始網(wǎng)絡(luò)流量時(shí)間序列并用GPWM方法進(jìn)行參數(shù)估計(jì);(D3)重復(fù)上述步驟(Dl) - (D2),估計(jì)出離散GPD模型的參數(shù)。
7、根據(jù)權(quán)利要求5所述的基于超統(tǒng)計(jì)理論的網(wǎng)絡(luò)流量異常檢測(cè)方法,其 特征在于步驟(C2)中,步驟(C2)中的窗口劃分方法步驟如下(El)采用滑動(dòng)窗口方法,對(duì)每個(gè)滑動(dòng)窗口估計(jì)離散廣義Pareto分布的 分布參數(shù),得到分布參數(shù)序列,該序列反映了網(wǎng)絡(luò)流量時(shí)間序列的分布參 數(shù)的變化趨勢(shì);(E2)采用BG算法計(jì)算出分布參數(shù)序列的均值突變點(diǎn),并通過該突變點(diǎn) 對(duì)應(yīng)網(wǎng)絡(luò)流量即為窗口劃分點(diǎn)。
全文摘要
本發(fā)明公開了一種基于超統(tǒng)計(jì)理論的網(wǎng)絡(luò)流量異常檢測(cè)方法,包括①根據(jù)網(wǎng)絡(luò)流量的實(shí)際特性選擇一種分布模型,并且該分布符合網(wǎng)絡(luò)流量的分布擬合檢驗(yàn)要求;②根據(jù)此分布模型計(jì)算網(wǎng)絡(luò)流量時(shí)間序列的慢變量序列,即分布參數(shù)序列;③根據(jù)慢變量序列的異常波動(dòng)來檢測(cè)網(wǎng)絡(luò)流量異常。本發(fā)明通過建立基于超統(tǒng)計(jì)(即統(tǒng)計(jì)之統(tǒng)計(jì))的網(wǎng)絡(luò)流量模型,可以描述表現(xiàn)出突發(fā)性、非平穩(wěn)、長(zhǎng)相關(guān)性以及重尾性的網(wǎng)絡(luò)流量時(shí)間序列并對(duì)網(wǎng)絡(luò)流量進(jìn)行異常檢測(cè)。通過本發(fā)明所計(jì)算的網(wǎng)絡(luò)流量時(shí)間序列的慢變量序列準(zhǔn)確描述了網(wǎng)絡(luò)流量的特征,通過分析慢變量序列可以準(zhǔn)確分析網(wǎng)絡(luò)流量,并大大減少了計(jì)算量,實(shí)驗(yàn)說明基于慢變量的網(wǎng)絡(luò)流量異常檢測(cè)明顯優(yōu)于傳統(tǒng)檢測(cè)方法。
文檔編號(hào)H04L12/56GK101286897SQ200810047728
公開日2008年10月15日 申請(qǐng)日期2008年5月16日 優(yōu)先權(quán)日2008年5月16日
發(fā)明者帆 丁, 越 楊, 偉 熊, 一 王, 王祖喜, 胡漢平, 冬 陳, 陳江航 申請(qǐng)人:華中科技大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
绥中县| 宁远县| 罗甸县| 高唐县| 镇赉县| 宜春市| 德安县| 潼南县| 无锡市| 沙坪坝区| 黑山县| 侯马市| 瓦房店市| 偏关县| 九江县| 淮滨县| 岳普湖县| 合江县| 都安| 秦皇岛市| 潢川县| 临汾市| 理塘县| 襄垣县| 志丹县| 八宿县| 天全县| 兴文县| 社旗县| 财经| 蒲江县| 壶关县| 盈江县| 荣昌县| 建平县| 九江县| 北宁市| 蒲江县| 吉水县| 湟中县| 平利县|