一種基于時(shí)間滑動(dòng)窗口的互聯(lián)網(wǎng)流量建模方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)流量建模技術(shù)領(lǐng)域,具體涉及一種基于時(shí)間滑動(dòng)窗口的互聯(lián)網(wǎng)流量建模方法。
【背景技術(shù)】
[0002]隨著近年來(lái)網(wǎng)絡(luò)技術(shù)、規(guī)模和業(yè)務(wù)的發(fā)展,互聯(lián)網(wǎng)已經(jīng)成為人類社會(huì)的重要基礎(chǔ)設(shè)施,它從根本上改變了人們以前的交流方式和生活方式?;ヂ?lián)網(wǎng)的繁榮帶來(lái)了許多新的挑戰(zhàn),網(wǎng)絡(luò)流量爆炸式增長(zhǎng),應(yīng)用變化發(fā)展和推陳出新的速度非常迅速,用戶行為趨于復(fù)雜化?;ヂ?lián)網(wǎng)流量建模有助于把握應(yīng)用流量特征,為流量預(yù)測(cè)、網(wǎng)絡(luò)維護(hù)、網(wǎng)絡(luò)設(shè)施升級(jí)、網(wǎng)絡(luò)安全防御等提供基礎(chǔ)的數(shù)據(jù)支撐能力,具有明顯的現(xiàn)實(shí)意義。
[0003]流量建模是網(wǎng)絡(luò)測(cè)量領(lǐng)域的一個(gè)重要方面,產(chǎn)生了種類繁多的網(wǎng)絡(luò)流量模型。傳統(tǒng)的流量模型包括泊松模型、馬爾可夫模型、自回歸模型等。最早的泊松模型是根據(jù)電話業(yè)務(wù)流量的特征提出來(lái)的,是指在時(shí)間序列t內(nèi),呼叫或數(shù)據(jù)包到達(dá)的數(shù)量符合參數(shù)為t的泊松分布,其相應(yīng)的呼叫或包到達(dá)的時(shí)間間隔序列呈負(fù)指數(shù)分布。馬爾可夫模型針對(duì)分組交換網(wǎng)絡(luò)流量,每次狀態(tài)轉(zhuǎn)換代表一個(gè)新的到達(dá),未來(lái)狀態(tài)只依賴于當(dāng)前狀態(tài),而描述一個(gè)狀態(tài)持續(xù)時(shí)間的隨機(jī)變量的分布呈指數(shù)分布(連續(xù)時(shí)間)或幾何分布(離散時(shí)間)。自回歸模型采用自動(dòng)回歸法,強(qiáng)調(diào)時(shí)間序列未來(lái)的點(diǎn)數(shù)由同一時(shí)間序列過(guò)去的值來(lái)決定。上述流量模型只存在短相關(guān)性,即在不同的時(shí)間尺度上有不同特性,并且大量源疊加會(huì)平緩?fù)话l(fā)性,與實(shí)際數(shù)據(jù)網(wǎng)絡(luò)流量特征存在較大的偏差。
[0004]互聯(lián)網(wǎng)研究人員隨后發(fā)現(xiàn)實(shí)際業(yè)務(wù)流在各個(gè)時(shí)間尺度下表現(xiàn)出自相似的突發(fā)特性,在相關(guān)函數(shù)上表現(xiàn)為長(zhǎng)相關(guān)特性,又相繼提出了若干長(zhǎng)相關(guān)模型,包括重尾分布的0N/OFF模型、分形布朗運(yùn)動(dòng)模型、FARIMA模型等。重尾分布的0N/0FF模型首先疊加大量的0N/OFF源,每個(gè)源都有兩個(gè)狀態(tài),即周期交替的0N和0FF,在0N狀態(tài)中,數(shù)據(jù)源連續(xù)地發(fā)送數(shù)據(jù)包;在OFF狀態(tài)中,數(shù)據(jù)源不發(fā)送任何數(shù)據(jù)包。每個(gè)發(fā)送源的0N狀態(tài)和OFF狀態(tài)的時(shí)長(zhǎng)獨(dú)立地符合重尾分布(如Pareto分布)。分形布朗運(yùn)動(dòng)模型是一種統(tǒng)計(jì)自相似過(guò)程的數(shù)學(xué)模型,它是一個(gè)均值為0的連續(xù)高斯過(guò)程,其平穩(wěn)增量過(guò)程是分形高斯噪聲。FARIMA模型是一個(gè)時(shí)間序列模型,它是一個(gè)二階漸進(jìn)自相似過(guò)程,通過(guò)3個(gè)參數(shù)來(lái)控制自相關(guān)結(jié)構(gòu)。上述流量模型可以描述流量的突發(fā)性和長(zhǎng)相關(guān)性,刻畫(huà)了業(yè)務(wù)流量的自相似特性。
[0005]以上流量模型大多從純粹的數(shù)學(xué)角度對(duì)網(wǎng)絡(luò)流量的性質(zhì)進(jìn)行挖掘,通過(guò)包長(zhǎng)、包到達(dá)時(shí)亥IJ、包到達(dá)時(shí)間間隔、包突發(fā)數(shù)量等微觀性質(zhì)的數(shù)學(xué)描述,試圖找出最有效的建模方式,但卻忽略了網(wǎng)絡(luò)流量的現(xiàn)實(shí)意義,即流量是為網(wǎng)絡(luò)交互而產(chǎn)生,天然具有多個(gè)參與者的特性,而不僅僅是通信單方或雙方的問(wèn)題。此外,現(xiàn)有的一些長(zhǎng)相關(guān)流量模型存在較高的計(jì)算復(fù)雜度,由于其結(jié)構(gòu)復(fù)雜、參數(shù)眾多,導(dǎo)致算法收斂速度慢,已無(wú)法實(shí)際應(yīng)用于網(wǎng)絡(luò)流量管理和預(yù)測(cè)中。
【發(fā)明內(nèi)容】
[0006]針對(duì)現(xiàn)有技術(shù)存在的不足,本發(fā)明目的是提供一種基于時(shí)間滑動(dòng)窗口的互聯(lián)網(wǎng)流量建模方法,引入時(shí)間滑動(dòng)窗口,既表征了網(wǎng)絡(luò)流量的動(dòng)態(tài)變化特性,又避免了流量的時(shí)間累積效應(yīng),降低了模型的分析處理復(fù)雜度。
[0007]為了實(shí)現(xiàn)上述目的,本發(fā)明是通過(guò)如下的技術(shù)方案來(lái)實(shí)現(xiàn):
[0008]本發(fā)明的一種基于時(shí)間滑動(dòng)窗口的互聯(lián)網(wǎng)流量建模方法,具體包括以下幾個(gè)步驟:
[0009](1)通過(guò)網(wǎng)絡(luò)中的流量監(jiān)控設(shè)備對(duì)不同時(shí)刻產(chǎn)生的流信息進(jìn)行采集,采集到的每個(gè)流信息對(duì)應(yīng)一條流記錄;
[0010](2)根據(jù)步驟⑴采集到的流信息建立流量圖,流量圖的建圖方法如下:
[0011 ] 將流記錄中的源主機(jī)和目的主機(jī)作為節(jié)點(diǎn),將源主機(jī)和目的主機(jī)之間的流量交互作為邊,將邊上的流量交互總和設(shè)為邊的權(quán)值,節(jié)點(diǎn)的強(qiáng)度為與它相連的所有邊的權(quán)值總和;
[0012](3)利用時(shí)間窗口的滑動(dòng)對(duì)流量圖進(jìn)行迭代更新,時(shí)間窗口包含窗口大小W和滑動(dòng)時(shí)間間隔τ兩個(gè)參數(shù),具體迭代更新方法如下:
[0013](la)在時(shí)間窗口 W1中,通過(guò)步驟⑵的建圖方法建立一個(gè)流量圖G1 ;
[0014](2a)將時(shí)間窗口 W1往后滑動(dòng)τ,從而形成時(shí)間窗口 W2,并對(duì)流量圖G1進(jìn)行更新,具體更新方法如下:
[0015]若時(shí)間窗口 W2包含了新的流記錄,則在流量圖G1上增加新的節(jié)點(diǎn)和邊;
[0016]對(duì)每條在時(shí)間窗口 W1中已經(jīng)存在的舊邊(即W1中有一條流記錄,但是W2中無(wú)相同節(jié)點(diǎn)對(duì)之間的流記錄,或者W2中的一條流記錄具有相同的節(jié)點(diǎn)對(duì)),僅對(duì)該邊的權(quán)值進(jìn)行更新,即減去W1中流記錄的流量大小,再加上W2中流記錄的流量大小(可能為0);若舊邊的權(quán)值已減為0,則刪除該舊邊;若舊節(jié)點(diǎn)已無(wú)邊相連,則刪除該節(jié)點(diǎn),從而形成流量圖G2 ;
[0017](4)通過(guò)步驟(3)中時(shí)間窗口的滑動(dòng),從而生成一系列的流量圖,通過(guò)對(duì)流量圖的統(tǒng)計(jì)特性如度分布進(jìn)行對(duì)比分析(對(duì)比分析的方法為現(xiàn)有技術(shù)),可得出網(wǎng)絡(luò)流量的動(dòng)態(tài)變化特性。
[0018]步驟⑴中,每條流記錄的內(nèi)容包括發(fā)生時(shí)間、源和目的IP地址、源和目的端口、包數(shù)及字節(jié)數(shù)和應(yīng)用類型。
[0019]步驟(1)中,在固定網(wǎng)絡(luò)中,流量監(jiān)控設(shè)備可安裝在接入網(wǎng)和骨干網(wǎng)之間的鏈路上;
[0020]在移動(dòng)網(wǎng)絡(luò)中,流量監(jiān)控設(shè)備可安裝在GPRS網(wǎng)絡(luò)中SGSN和GGSN之間的鏈路上;
[0021]通過(guò)這些鏈路的所有流信息均被流量監(jiān)控設(shè)備記錄和分析。
[0022]步驟(3)中,可通過(guò)流量圖的度分布和強(qiáng)度分布的冪指數(shù)來(lái)確定窗口大小W。
[0023]在P2P流量測(cè)試中,窗口大小W設(shè)為60分鐘。
[0024]步驟(3)中,通過(guò)流持續(xù)時(shí)間的經(jīng)驗(yàn)值或流量圖的重邊比例來(lái)確定滑動(dòng)時(shí)間間隔τ ο
[0025]在P2P流量測(cè)試中,滑動(dòng)時(shí)間間隔τ設(shè)為10分鐘。
[0026]本發(fā)明的有益效果如下:
[0027](1)從宏觀層面而非微觀層面考慮流量建模問(wèn)題,涉及到網(wǎng)絡(luò)多個(gè)用戶的多維通信,而忽略一個(gè)流或一個(gè)包的微觀特征,便于大規(guī)模網(wǎng)絡(luò)流量建模;
[0028](2)從實(shí)際流量數(shù)據(jù)出發(fā)建立流量圖模型,準(zhǔn)確表征了網(wǎng)絡(luò)用戶的交互行為,通過(guò)圖結(jié)構(gòu)統(tǒng)計(jì)特性易于挖掘全局流量特征;
[0029](3)引入時(shí)間滑動(dòng)窗口,既表征了網(wǎng)絡(luò)流量的動(dòng)態(tài)變化特性,又避免了流量的時(shí)間累積效應(yīng),降低了模型的分析處理復(fù)雜度。
【附圖