基于多層聚類的網(wǎng)絡(luò)視頻流分類方法
【專利摘要】本發(fā)明公開了基于多層聚類的網(wǎng)絡(luò)視頻流分類方法,該方法包括如下步驟:步驟1:在開放的網(wǎng)絡(luò)環(huán)境中獲取所需的視頻業(yè)務(wù)數(shù)據(jù),對原始的視頻數(shù)據(jù)流進(jìn)行基本的流量統(tǒng)計特征計算;步驟2:對上述的基本流統(tǒng)計特征進(jìn)行深入地統(tǒng)計分析,選取具有實際意義的QoS相關(guān)的統(tǒng)計特征;步驟3:將獲得的特征進(jìn)行適當(dāng)?shù)慕M合來標(biāo)識原始的網(wǎng)絡(luò)數(shù)據(jù)流,通過多層聚類分類器的多層聚類識別,得到最后的分類結(jié)果。本發(fā)明方法是一種基于視頻流統(tǒng)計特征的業(yè)務(wù)流分類方法,采用分層聚類的方法,配合有效的特征組合,能取得較好的分類效果。
【專利說明】基于多層聚類的網(wǎng)絡(luò)視頻流分類方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種基于多層聚類的網(wǎng)絡(luò)視頻流分類方法,屬于模式識別與分類【技術(shù)領(lǐng)域】。
【背景技術(shù)】
[0002]隨著因特網(wǎng)的迅速發(fā)展,網(wǎng)絡(luò)被廣泛地應(yīng)用于人們生活的各個領(lǐng)域。網(wǎng)絡(luò)中的視頻業(yè)務(wù)的增長尤為迅速,與此同時,各種新的復(fù)雜應(yīng)用和未知協(xié)議使得我們的網(wǎng)絡(luò)環(huán)境日趨復(fù)雜,一系列的問題如有效的網(wǎng)管、不同業(yè)務(wù)的QoS保證等也隨之產(chǎn)生。對于網(wǎng)絡(luò)服務(wù)提供商(ISP)和網(wǎng)絡(luò)環(huán)境監(jiān)管者來說,快速準(zhǔn)確地識別不同的網(wǎng)絡(luò)業(yè)務(wù)流是一種行之有效的解決方法。
[0003]常用的識別和分類方法主要有基于端口的方法、基于深度包檢測的和基于統(tǒng)計特征的方法?;诙丝诘淖R別方法是根據(jù)國際互聯(lián)網(wǎng)代理成員管理局(IANA)建議的非強(qiáng)制端口號來區(qū)分不同的應(yīng)用類型,隨著P2P和被動FTP的新型網(wǎng)絡(luò)應(yīng)用的日益流行,數(shù)據(jù)傳輸中使用大量的隨機(jī)端口,使得這種方法識別效率很低,分類準(zhǔn)確度不高。為了突破基于端口的方法的限制,有大量文獻(xiàn)嘗試對應(yīng)用層、載荷等進(jìn)行深度包檢測,該方法通過網(wǎng)絡(luò)應(yīng)用在傳輸過程中的特征來區(qū)分不同的應(yīng)用。它需要解析數(shù)據(jù)包并獲得特征字段,準(zhǔn)確性很高,但隨著應(yīng)用負(fù)載加密和新型應(yīng)用的不斷涌現(xiàn),該方法的有效性逐步下降。因此很多研究人員嘗試借助業(yè)務(wù)流的統(tǒng)計特征識別業(yè)務(wù)流。該方法不需要獲取分組的負(fù)載,僅通過流的統(tǒng)計特征就能夠識別不同的網(wǎng)絡(luò)業(yè)務(wù)。然而,如何找到確實有效的業(yè)務(wù)流統(tǒng)計特征,是一個巨大的挑戰(zhàn)。
[0004]目前網(wǎng)絡(luò)業(yè)務(wù)流分類研究主要集中在基于流統(tǒng)計特征的機(jī)器學(xué)習(xí)的方法。這種方法可以避免基于端口和基于負(fù)載檢測的方法在應(yīng)對動態(tài)端口、加密流和用戶隱私方面的不足。通過深入的研究證明包到達(dá)時間間隔業(yè)務(wù)流分類過程中的重要作用。Mujtaba,G等利用各類業(yè)務(wù)流的包長分布,對加密通道中的的網(wǎng)絡(luò)流量進(jìn)行業(yè)務(wù)識別和區(qū)分,取得了良好的效果。Ibrahim H A H, Mohd Nor S,Ahmed A采用平均包大小和平均包到達(dá)時間間隔這兩個特征識別在線游戲,同樣取得了不錯的效果。Erman等提出了一種半監(jiān)督的方法,使用K均值方法分類業(yè)務(wù)流數(shù)據(jù)集,但只強(qiáng)調(diào)對方法的改進(jìn)。上述的工作要么針對某種特定的業(yè)務(wù)類型,要么只強(qiáng)調(diào)對方法的改進(jìn)而忽略問題的關(guān)鍵,即,如何從原始流的屬性中提取有意義的特征組合來標(biāo)識原始流,進(jìn)而提高流量分類模型的分類有效性。而本發(fā)明能夠很好地解決上面的問題。
【發(fā)明內(nèi)容】
[0005]本發(fā)明目的在于針對網(wǎng)絡(luò)視頻業(yè)務(wù)進(jìn)行識別分類的問題,提出一種多層聚類網(wǎng)絡(luò)視頻流分類方法,該方法基于網(wǎng)絡(luò)視頻流的統(tǒng)計特征,通過采用QoS相關(guān)的統(tǒng)計特征組合標(biāo)識不同的原始視頻業(yè)務(wù)流,在不同層次的聚類中采用不同的分類特征或分類特征組合標(biāo)識業(yè)務(wù)流數(shù)據(jù)作為分類器的輸入,經(jīng)過多層聚類后,得到最終的聚類結(jié)果,將該方法用于分析非對稱(如在線播放視頻)標(biāo)清、非對稱高清、HTTP下載、QQ、Xunle1、Sopcast六種網(wǎng)絡(luò)視頻流應(yīng)用,實驗結(jié)果表明,與現(xiàn)有同類方法相比,本方法對上述六種應(yīng)用能夠獲得更高的分類準(zhǔn)確性。
[0006]本發(fā)明解決其技術(shù)問題所采取的技術(shù)方案是:本發(fā)明提出了一種基于多層聚類的網(wǎng)絡(luò)視頻流分類方法,該方法通過大量的特征計算和統(tǒng)計分析,找到了一些典型視頻業(yè)務(wù)流的QoS相關(guān)統(tǒng)計特征,并驗證了這些統(tǒng)計特征組合用于分類的有效性。在基本FCM聚類方法的基礎(chǔ)上采用分層聚類的新思路,搭配有效的特征組合設(shè)計一種新的網(wǎng)絡(luò)視頻流分類方法。
[0007]方法流程:
[0008]步驟1:在開放的網(wǎng)絡(luò)環(huán)境中獲取所需的視頻業(yè)務(wù)數(shù)據(jù),對原始的視頻數(shù)據(jù)流進(jìn)行基本的流量統(tǒng)計特征計算,具體步驟為:
[0009]步驟1-1:在開放的網(wǎng)絡(luò)環(huán)境中,通過WireShark網(wǎng)絡(luò)分析工具抓取所需的網(wǎng)絡(luò)視頻數(shù)據(jù)流,然后將抓取的原始數(shù)據(jù)流保存成包含五列數(shù)據(jù)的標(biāo)準(zhǔn)文本格式,其中包括包到達(dá)時間(s)、源IP地址、目的IP地址、協(xié)議、包尺寸五列原始信息。
[0010]步驟1-2:對原始的視頻數(shù)據(jù)流進(jìn)行基本的流量統(tǒng)計特征計算,這些特征包括:包尺寸、包到達(dá)時間間隔、字節(jié)速率、分組速率、包大小的信息熵、包到達(dá)時間間隔的概率密度函數(shù),包到達(dá)時間間隔的累積密度函數(shù)等。
[0011]步驟2:對上述的基本流統(tǒng)計特征進(jìn)行深入地統(tǒng)計分析,選取具有實際意義的QoS相關(guān)的統(tǒng)計特征,具體步驟為:
[0012]步驟2-1:通過對基本的流統(tǒng)計特征進(jìn)行大量的統(tǒng)計分析和實驗驗證,得出具有一定區(qū)分效果的QoS相關(guān)的統(tǒng)計特征;
[0013]步驟2-2:對于區(qū)分實際分析的網(wǎng)絡(luò)視頻流所選取的QoS相關(guān)特征有四個,其特征包括:
[0014]I)下上行字節(jié)數(shù)之比
[0015]下上行字節(jié)數(shù)之比即一條流中去除開銷之后剩余的數(shù)據(jù)中下行字節(jié)數(shù)與上行字節(jié)數(shù)的比值。該特征能夠有效地避免網(wǎng)絡(luò)環(huán)境變化對識別結(jié)果的影響,具有較好的穩(wěn)定性。在區(qū)分對稱(如P2P流)和非對稱業(yè)務(wù)時具有較好的區(qū)分效果,結(jié)合下面介紹的下行包大小的信息熵或下行子流片段數(shù)目能夠有效地區(qū)分對稱和非對稱視頻業(yè)務(wù)。
[0016]2)下行包大小的信息熵
[0017]下行包大小的信息熵可用來衡量一條流下行包大小的分布均勻程度。該值越大,說明某種業(yè)務(wù)的包大小分布越均勻。大量的實驗證明該參數(shù)對于區(qū)分對稱業(yè)務(wù)中的QQ、Xunlei和Sopcast具有較好的效果。下行子流片段數(shù)目連續(xù)的出現(xiàn)相同源IP的數(shù)據(jù)包稱為子流片段,這些IP地址可以重復(fù)。研究表明對稱業(yè)務(wù)中經(jīng)常出現(xiàn)不同IP地址與本地IP交互的情況,因而對稱業(yè)務(wù)流中的子流片段數(shù)目較多。
[0018]3)下行子流片段數(shù)目
[0019]連續(xù)的出現(xiàn)相同源IP的數(shù)據(jù)包稱為子流片段,這些IP地址可以重復(fù)。研究表明對稱業(yè)務(wù)中經(jīng)常出現(xiàn)不同IP地址與本地IP交互的情況,因而對稱業(yè)務(wù)流中的子流片段數(shù)目較多。
[0020]4)下行有效IP數(shù)目
[0021]在數(shù)據(jù)流抓取的過程中會出現(xiàn)不同的IP地址與本地IP信息交互的情況,由于在運(yùn)行過程中避免不了會有一些后臺應(yīng)用,因而可能出現(xiàn)一些與該流無關(guān)的IP地址。在這種情況下,定義持續(xù)持續(xù)時間大于0.5秒的IP地址為有效IP地址。下行有效IP數(shù)目也就是指下行數(shù)據(jù)中總的持續(xù)時間大于0.5秒的源IP地址數(shù)目的總和。
[0022]步驟3:將獲得的特征進(jìn)行適當(dāng)?shù)慕M合來標(biāo)識原始的網(wǎng)絡(luò)數(shù)據(jù)流,通過多層聚類分類器(即FCM)的多層聚類識別,得到最后的分類結(jié)果,具體步驟為:
[0023]步驟3-1:經(jīng)分析發(fā)現(xiàn)對稱業(yè)務(wù)和非對稱業(yè)務(wù)在下上行字節(jié)數(shù)之比和下行子流片段數(shù)目這兩個特征上有很大的差異,因此選取該二維特征空間作為區(qū)分對稱視頻業(yè)務(wù)和非對稱視頻業(yè)務(wù)的特征組合;
[0024]步驟3-2:對稱視頻業(yè)務(wù)中的QQ、Xunlei和Sopcast這三種業(yè)務(wù):QQ的下行包大小的信息熵較后兩者明顯偏大,而Sopcast的下行包大小的信息熵比其余兩種都要小,Xunlei的下行包大小的信息熵跨度較大,但與其余兩者也都有一定的區(qū)分度,并且在下行子流片段數(shù)目這維特征空間上QQ與Xunle1、Sopcast也有明顯的區(qū)別。因此,選取下行包大小的信息熵和下行子流片段數(shù)目作為區(qū)分對稱業(yè)務(wù)的有效特征組合;
[0025]步驟3-3:非對稱標(biāo)清、非對稱高清和HTTP下載這三種業(yè)務(wù):HTTP下載是一種傳統(tǒng)的應(yīng)用類型,它類似于FTP服務(wù),只是兩個IP之間的交互,因而該業(yè)務(wù)的有效IP數(shù)目必然較少。而對于非對稱的高清和標(biāo)清業(yè)務(wù),雖然某一時刻也同樣是兩個IP之間的信息交互,但是本發(fā)明所要獲取的資源不僅僅存在于一個視頻服務(wù)器中,可能由于網(wǎng)絡(luò)環(huán)境的影響,與當(dāng)前連接的服務(wù)器斷掉了,這樣本地IP就要重新獲取其他服務(wù)器上的資源,因而這兩種業(yè)務(wù)的下行有效IP數(shù)目必然偏多。采用這個特征基本上能將HTTP下載和非對稱的標(biāo)清、高清區(qū)分開。對于非對稱的標(biāo)清和高清而言,從現(xiàn)有的特征空間看,只有下上行字節(jié)數(shù)之比能將他們近似分開。
[0026]步驟3-4:采用上面所述的特征組合表示原始的網(wǎng)絡(luò)視頻流,采用基于(線性和高斯)核函數(shù)的FCM進(jìn)行多層聚類,多層聚類方法的步驟包括:
[0027]步驟1:將所有的原始數(shù)據(jù)流使用二維特征矢量(Ti,Tj)標(biāo)識進(jìn)行第一層聚類,得到兩大類聚類結(jié)果Cl,C2;
[0028]步驟2:對一層聚類結(jié)果C1,C2的數(shù)據(jù)流分別使用特征矢量Vi,Vj進(jìn)行標(biāo)識,進(jìn)行第三次聚類得到聚類結(jié)果C21,C22,...;
[0029]步驟3:對上層聚類結(jié)果采用同樣的方法再次進(jìn)行聚類,直到最終的聚類結(jié)果等于給定的類別數(shù)就停止;
[0030]步驟4:統(tǒng)計聚類輸出結(jié)果。
[0031]有益效果:
[0032]1、本發(fā)明與現(xiàn)有的采用基本流統(tǒng)計特征的視頻業(yè)務(wù)識別分類技術(shù)相比,采用的是具有較好區(qū)分度的特征組合標(biāo)識原始視頻數(shù)據(jù),能夠取得更高的分類準(zhǔn)確性。
[0033]2、本發(fā)明是一種基于視頻流統(tǒng)計特征的業(yè)務(wù)流分類方法,采用分層聚類的方法,配合有效的特征組合,能取得較好的分類效果。
【專利附圖】
【附圖說明】
[0034]圖1為本發(fā)明視頻業(yè)務(wù)特征分析與分類方法的流程框圖。
[0035]圖2為本發(fā)明所選特征組合有效性驗證圖。
[0036]標(biāo)識說明:(a)表示三維特征組合(下上行字節(jié)數(shù)之比、下行子流片段數(shù)目和下行包大小的信息熵)的整體區(qū)分效果圖;(b)表示二維特征組合(下上行字節(jié)數(shù)之比和下行包大小的信息熵)區(qū)分對稱業(yè)務(wù)和非對稱業(yè)務(wù)的效果圖;(C)表示二維特征組合(下行包大小的信息熵和下行子流片段數(shù)目的對數(shù))區(qū)分對稱業(yè)務(wù)的效果圖;(d)表示二維特征組合(下上行字節(jié)數(shù)之比和下行有效IP數(shù)目)區(qū)分非對稱業(yè)務(wù)的效果圖。
[0037]圖3為本發(fā)明與現(xiàn)有技術(shù)F-measure性能上的對比效果圖,現(xiàn)有技術(shù)采用基本的流統(tǒng)計特征(平均包大小和平均包到達(dá)時間間隔)。
【具體實施方式】
[0038]以下結(jié)合說明書附圖對本發(fā)明創(chuàng)造作進(jìn)一步的詳細(xì)說明。
[0039]如圖1所示,本發(fā)明提出的一種基于多層聚類的網(wǎng)絡(luò)視頻流分類方法,該方法包括:流量的獲取及統(tǒng)計特征的計算、統(tǒng)計特征分析及選擇、多層FCM聚類輸出結(jié)果統(tǒng)計等。主要具體步驟為:
[0040]步驟1,流量的獲取及統(tǒng)計特征的計算:通過網(wǎng)絡(luò)分析工具WireShark在開放的網(wǎng)絡(luò)環(huán)境中獲取待分析的網(wǎng)絡(luò)視頻數(shù)據(jù),其中包括非對稱標(biāo)清(以youku標(biāo)清為例)、非對稱高清(以youku高清為例)、HTTP下載、交互式視頻通信類(以QQ為例)、P2P文件共享類(以Xunlei為例)、網(wǎng)絡(luò)在線直播類(以Sopcast為例)六類視頻應(yīng)用。將獲取的網(wǎng)絡(luò)視頻流數(shù)據(jù)保存成TXT文檔格式(即為一條流),其中包含5列,從左至右依次是包到達(dá)時間、源IP地址、目的IP地址、協(xié)議、分組大小。流是指同種業(yè)務(wù)在30分鐘時間內(nèi)所抓取的數(shù)據(jù)包序列,在次稱其為一條流,每種業(yè)務(wù)都抓取60條流來分析問題。然后,將原始的視頻流輸入到網(wǎng)絡(luò)數(shù)據(jù)流處理平臺,進(jìn)行統(tǒng)計特征計算,最后得到一些列的網(wǎng)絡(luò)視頻流的QoS相關(guān)的統(tǒng)計特征。
[0041]步驟2,統(tǒng)計特征分析及選擇:通過大量的統(tǒng)計實驗和分析驗證,發(fā)現(xiàn)采用下上行字節(jié)數(shù)之比、下行包大小的信息熵、下行子流片段數(shù)目和下行有效IP數(shù)目四個特征對所選取的典型網(wǎng)絡(luò)視頻流進(jìn)行分類識別。
[0042]在實驗中,本發(fā)明首先采用三維特征向量V = (Vi,Vj,Vk)來標(biāo)識原始的網(wǎng)絡(luò)視頻流,其中Vi是下上行字節(jié)數(shù)之比,Vj是下行包大小的信息熵,Vk是下行子流片段數(shù)目。具體的區(qū)分效果如圖2的(a)所示。從圖中可以看出不同的網(wǎng)絡(luò)視頻流業(yè)務(wù)在上述三個統(tǒng)計特征上具有明顯的差異。特別地,對于對稱的QQ、Xunle1、Sopcast三種業(yè)務(wù)和非對稱的高清、標(biāo)清、HTTP三種業(yè)務(wù)在下上行字節(jié)數(shù)之比這一維度上有明顯的區(qū)別。對稱業(yè)務(wù)的下上行字節(jié)數(shù)之比較非對稱業(yè)務(wù)明顯偏少;而其中的QQ、Xunlei這兩種業(yè)務(wù)的下行包大小的信息熵與非對稱業(yè)務(wù)區(qū)別也相當(dāng)明顯,Sopcast應(yīng)用在這一維度上卻與非對稱的幾種業(yè)務(wù)區(qū)分并不明顯。如圖2的(b)所示,在二維空間上使用下行包大小的信息熵和下上行字節(jié)數(shù)之比可以將對稱和非對稱業(yè)務(wù)區(qū)分。而從任意單維特征都無法將兩大類業(yè)務(wù)區(qū)分開,從這個意義上講文中選取的這對特征組合是有效的。
[0043]接著從更細(xì)的角度劃分兩大類業(yè)務(wù)流,如圖2的(C)所示,對于對稱的三種視頻業(yè)務(wù),同樣的從任何一個單維特征空間都無法將三種業(yè)務(wù)流分開,而在本發(fā)明的二維特征空間中就可以將三種業(yè)務(wù)基本分開,也可以看出QQ和Xunlei之間在包大小的信息熵上有交疊的情況。但從整體上看,這兩個特征對于區(qū)分對稱的三種業(yè)務(wù)也是有效的。強(qiáng)調(diào)一點,在本發(fā)明的實驗過程中發(fā)現(xiàn),采用下行子流片段數(shù)目的對數(shù)形式要比直接采用下行子流片段數(shù)目具有更佳的分類效果。
[0044]對于非對稱業(yè)務(wù)而言,如圖2的(d)所示,僅使用上述的三個統(tǒng)計特征無法將它們分開,因而,本發(fā)明又引入一維新的特征即下行有效IP數(shù)目。HTTP下載是一種傳統(tǒng)的應(yīng)用類型,它類似于FTP服務(wù),只是兩個IP之間的交互,因而該業(yè)務(wù)的有效IP數(shù)目必然較少。而對于非對稱的高清和標(biāo)清業(yè)務(wù),雖然某一時刻也同樣是兩個IP之間的信息交互,但是,本發(fā)明所要獲取的資源不僅僅存在于一個視頻服務(wù)器中,可能由于網(wǎng)絡(luò)環(huán)境的影響,與當(dāng)前連接的服務(wù)器斷掉了,這樣本地IP就要重新獲取其他服務(wù)器上的資源,因而這兩種業(yè)務(wù)的下行有效IP數(shù)目必然偏多。采用這個特征基本上能將HTTP下載和另外兩種業(yè)務(wù)區(qū)分開,但也不可避免的存在一些交疊的情況。
[0045]因此,可以選擇上述三組二維特征矢量作為本發(fā)明的特征組合。
[0046]步驟3,多層FCM聚類輸出結(jié)果統(tǒng)計,其實現(xiàn)方法為:采用上述的QoS相關(guān)統(tǒng)計特征組合,標(biāo)識原始的網(wǎng)絡(luò)視頻業(yè)務(wù)流,實施多層FCM聚類分類方法。
[0047]本發(fā)明的多層聚類方法步驟包括:
[0048]步驟:將所有的原始數(shù)據(jù)流使用二維特征矢量(Ti,Tj)標(biāo)識進(jìn)行第一層聚類,得到兩大類聚類結(jié)果Cl,C2;
[0049]步驟2:對一層聚類結(jié)果C1,C2的數(shù)據(jù)流分別使用特征矢量Vi,Vj進(jìn)行標(biāo)識,進(jìn)行第三次聚類得到聚類結(jié)果C21,C22,...;
[0050]步驟3:對上層聚類結(jié)果采用同樣的方法再次進(jìn)行聚類,直到最終的聚類結(jié)果等于給定的類別數(shù)就停止;
[0051]步驟4:統(tǒng)計聚類輸出結(jié)果。
[0052]本發(fā)明的實驗結(jié)果:
[0053]為了進(jìn)一步驗證本發(fā)明選取的統(tǒng)計特征的有效性,本發(fā)明采用上述的特征組合標(biāo)識六種網(wǎng)絡(luò)視頻流數(shù)據(jù),利用本發(fā)明中提出的多層聚類方法進(jìn)行聚類識別。主要從衡量網(wǎng)絡(luò)流分類性能的綜合指標(biāo)F測度(F-measure)進(jìn)行對比驗證。
[0054]在圖3中展示了兩種方法對于六種網(wǎng)絡(luò)視頻業(yè)務(wù)的F-測度值。其中Original是采用平均包大小和平均包到達(dá)時間間隔兩個特征進(jìn)行網(wǎng)絡(luò)流量分類的分類結(jié)果,Improved是采用本發(fā)明提出的統(tǒng)計特征組合利用基于徑向基核函數(shù)的多層聚類方法的分類結(jié)果。從整體上觀察,對于F-measure值來說,本方法對六種網(wǎng)絡(luò)視頻流的識別結(jié)果都有較明顯的改善。
【權(quán)利要求】
1.基于多層聚類的網(wǎng)絡(luò)視頻流分類方法,其特征在于,所述方法步驟包括: 步驟1:在開放的網(wǎng)絡(luò)環(huán)境中獲取所需的視頻業(yè)務(wù)數(shù)據(jù),對原始的視頻數(shù)據(jù)流進(jìn)行基本的流量統(tǒng)計特征計算; 步驟2:對上述的基本流統(tǒng)計特征進(jìn)行深入地統(tǒng)計分析,選取具有實際意義的QoS相關(guān)的統(tǒng)計特征; 步驟3:將獲得的特征進(jìn)行適當(dāng)?shù)慕M合來標(biāo)識原始的網(wǎng)絡(luò)數(shù)據(jù)流,通過多層聚類分類器的多層聚類識別,得到最后的分類結(jié)果。
2.根據(jù)權(quán)利要求1所述的基于多層聚類的網(wǎng)絡(luò)視頻流分類方法,其特征在于,所述方法的步驟I中包括如下步驟: 步驟1-1:在開放的網(wǎng)絡(luò)環(huán)境中,通過WireShark網(wǎng)絡(luò)分析工具抓取所需的網(wǎng)絡(luò)視頻數(shù)據(jù)流,然后將抓取的原始數(shù)據(jù)流保存成包含五列數(shù)據(jù)的標(biāo)準(zhǔn)文本格式,其中包括包到達(dá)時間、源IP地址、目的IP地址、協(xié)議、包尺寸五列原始信息; 步驟1-2:對原始的視頻數(shù)據(jù)流進(jìn)行基本的流量統(tǒng)計特征計算,這些特征包括:包尺寸、包到達(dá)時間間隔、字節(jié)速率、分組速率、包大小的信息熵、包到達(dá)時間間隔的概率密度函數(shù),包到達(dá)時間間隔的累積密度函數(shù)。
3.根據(jù)權(quán)利要求1所述的基于多層FCM的視頻業(yè)務(wù)特征分析與分類方法,其特征在于,所述方法的步驟2中包括如下步驟: 步驟2-1:通過對基本的流統(tǒng)計特征進(jìn)行大量的統(tǒng)計分析和實驗驗證,得出具有一定區(qū)分效果的QoS相關(guān)的統(tǒng)計特征; 步驟2-2:對于區(qū)分實際分析的網(wǎng)絡(luò)視頻流所選取的QoS相關(guān)特征有四個。
4.根據(jù)權(quán)利要求3所述的基于多層FCM的視頻業(yè)務(wù)特征分析與分類方法,其特征在于,上述步驟2-2中的QoS特征包括: 1)下上行字節(jié)數(shù)之比; 下上行字節(jié)數(shù)之比即一條流中去除開銷之后剩余的數(shù)據(jù)中下行字節(jié)數(shù)與上行字節(jié)數(shù)的比值; 2)下行包大小的信息熵; 下行包大小的信息熵可用來衡量一條流下行包大小的分布均勻程度;該值越大,說明某種業(yè)務(wù)的包大小分布越均勻; 3)下行子流片段數(shù)目; 連續(xù)的出現(xiàn)相同源IP的數(shù)據(jù)包稱為子流片段,這些IP地址能重復(fù);對稱業(yè)務(wù)流中的子流片段數(shù)目較多; 4)下行有效IP數(shù)目; 定義持續(xù)時間大于0.5秒的IP地址為有效IP地址;下行有效IP數(shù)目是指下行數(shù)據(jù)中總的持續(xù)時間大于0.5秒的源IP地址數(shù)目的總和。
5.根據(jù)權(quán)利要求1所述的基于多層聚類的網(wǎng)絡(luò)視頻流分類方法,其特征在于,所述方法的步驟3中包括如下步驟: 步驟3-1:經(jīng)分析發(fā)現(xiàn)對稱業(yè)務(wù)和非對稱業(yè)務(wù)在下上行字節(jié)數(shù)之比和下行子流片段數(shù)目這兩個特征上有很大的差異,因此選取該二維特征空間作為區(qū)分對稱視頻業(yè)務(wù)和非對稱視頻業(yè)務(wù)的特征組合; 步驟3-2:對稱視頻業(yè)務(wù)中的QQ、Xunlei和Sopcast這三種業(yè)務(wù):QQ的下行包大小的信息熵較后兩者明顯偏大,而Sopcast的下行包大小的信息熵比其余兩種都要小,Xunlei的下行包大小的信息熵跨度較大,但與其余兩者也都有一定的區(qū)分度,并且在下行子流片段數(shù)目這維特征空間上QQ與Xunle1、Sopcast也有明顯的區(qū)別;選取下行包大小的信息熵和下行子流片段數(shù)目作為區(qū)分對稱業(yè)務(wù)的有效特征組合; 步驟3-3:非對稱標(biāo)清、非對稱高清和HTTP下載這三種業(yè)務(wù):HTTP下載是一種傳統(tǒng)的應(yīng)用類型,它類似于FTP服務(wù),只是兩個IP之間的交互,因而該業(yè)務(wù)的有效IP數(shù)目必然較少;而對于非對稱的高清和標(biāo)清業(yè)務(wù),雖然某一時刻也同樣是兩個IP之間的信息交互,但是本發(fā)明所要獲取的資源不僅僅存在于一個視頻服務(wù)器中,可能由于網(wǎng)絡(luò)環(huán)境的影響,與當(dāng)前連接的服務(wù)器斷掉了,這樣本地IP就要重新獲取其他服務(wù)器上的資源,因而這兩種業(yè)務(wù)的下行有效IP數(shù)目必然偏多;采用這個特征基本上能將HTTP下載和非對稱的標(biāo)清、高清區(qū)分開;對于非對稱的標(biāo)清和高清而言,從現(xiàn)有的特征空間看,只有下上行字節(jié)數(shù)之比能將他們近似分開; 步驟3-4:采用所述的特征組合表示原始的網(wǎng)絡(luò)視頻流,采用核函數(shù)的FCM進(jìn)行多層聚類。
6.根據(jù)權(quán)利要求5所述的基于多層聚類的網(wǎng)絡(luò)視頻流分類方法,其特征在于,上述步驟3-4中多層聚類的方法,包括如下步驟: 步驟1:將所有的原始數(shù)據(jù)流使用二維特征矢量(Ti,Tj)標(biāo)識進(jìn)行第一層聚類,得到兩大類聚類結(jié)果Cl,C2; 步驟2:對一層聚類結(jié)果C1,C2的數(shù)據(jù)流分別使用特征矢量Vi,Vj進(jìn)行標(biāo)識,進(jìn)行第三次聚類得到聚類結(jié)果C21,C22,...; 步驟3:對上層聚類結(jié)果采用同樣的方法再次進(jìn)行聚類,直到最終的聚類結(jié)果等于給定的類別數(shù)就停止; 步驟4:統(tǒng)計聚類輸出結(jié)果。
【文檔編號】H04N21/24GK104244035SQ201410432130
【公開日】2014年12月24日 申請日期:2014年8月27日 優(yōu)先權(quán)日:2014年8月27日
【發(fā)明者】董育寧, 姚利濤 申請人:南京郵電大學(xué)