本發(fā)明屬于流識別與分類技術(shù)領(lǐng)域,具體涉及一種使用視頻業(yè)務(wù)的平均意見分均值特征的流分類方法。
背景技術(shù):
近年來,隨著wifi、lte、4g和wimax等無線通信技術(shù)的飛速發(fā)展,流媒體視頻業(yè)務(wù)流量急劇增加,同時智能手機、筆記本電腦和平板電腦在人們?nèi)粘I钪械钠占耙布铀倭艘曨l業(yè)務(wù)的增長。根據(jù)中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告,截至2016年6月,我國網(wǎng)絡(luò)視頻用戶規(guī)模達(dá)到了5.14億,較2015年底增加了1000萬。互聯(lián)網(wǎng)視頻觀看的人數(shù)占所有網(wǎng)民總數(shù)的比例為72.4%,而且這一數(shù)值一直在增長。與此同時,web視頻等多媒體視頻業(yè)務(wù)對傳輸帶寬、延遲以及抖動的要求很高,這勢必對視頻業(yè)務(wù)在未來移動通信網(wǎng)中的傳輸和網(wǎng)絡(luò)流量的管理方面帶來嚴(yán)峻的挑戰(zhàn)。因此,為保障用戶體驗質(zhì)量(qoe),如何根據(jù)所提供的服務(wù)來預(yù)測終端客戶的體驗質(zhì)量是多媒體服務(wù)提供商目前迫切需要解決的問題。另一方面,為了更好地控制和管理網(wǎng)絡(luò)流量以及保障網(wǎng)絡(luò)視頻的服務(wù)質(zhì)量(qos),迫切需要對網(wǎng)絡(luò)視頻業(yè)務(wù)進(jìn)行有效地識別和分類。
用戶體驗質(zhì)量是描述用戶在與服務(wù)或者應(yīng)用交互的過程中,由用戶產(chǎn)生的對服務(wù)的一種主觀感受,用戶在一定的客觀環(huán)境中對所使用的服務(wù)或者業(yè)務(wù)的整體認(rèn)可程度,在業(yè)界被用來評價視頻業(yè)務(wù)的服務(wù)質(zhì)量。平均意見分(mos,meanopinionscore)是一種常用于表示用戶對實時多媒體服務(wù)尤其是視頻應(yīng)用的感知質(zhì)量的參數(shù),它能夠較好地反映出用戶對視頻應(yīng)用質(zhì)量的感覺。mos值取值范圍是1~5,值越大表明用戶對視頻質(zhì)量越滿意,反之越小則表明用戶對視頻質(zhì)量越不滿意。概率密度函數(shù)(pdf,probabilitydensityfunction)是一個描述某個隨機變量的輸出值,在某個確定的取值點附近的可能性的函數(shù)。
對視頻等網(wǎng)絡(luò)業(yè)務(wù)流如何進(jìn)行有效的分類一直是學(xué)術(shù)界研究的重點。目前,視頻等網(wǎng)絡(luò)業(yè)務(wù)流分類主要使用的是基于統(tǒng)計特征結(jié)合機器學(xué)習(xí)。基于流量統(tǒng)計特征的分類方法是通過提取網(wǎng)絡(luò)流的統(tǒng)計特征,將網(wǎng)絡(luò)流抽象為由一組統(tǒng)計特征值構(gòu)成的屬性向量,實現(xiàn)流量分類。比如rand等人通過提取360p、480p、720p三種視頻業(yè)務(wù)m個下行速率峰值,并構(gòu)成m維屬性向量,使用經(jīng)典的k-means方法進(jìn)行視頻流分類。使用該方法的優(yōu)勢是模型簡單,計算過程相對高效,但是該方法的缺點是考慮的特征只有下行速率峰值,選擇的特征比較單一,且對未進(jìn)行訓(xùn)練的樣本識別率較低。
技術(shù)實現(xiàn)要素:
本發(fā)明目的在于針對上述網(wǎng)絡(luò)視頻流進(jìn)行有效分類的問題,提出一種有效的視頻流分類方法,稱為一種使用視頻業(yè)務(wù)的平均意見分均值特征的流分類方法。該方法綜合考慮了視頻業(yè)務(wù)mos值pdf的均值和基于con-gr(consistencyfeatureselection-gainratio)特征選擇方法選出的下行字節(jié)速率,采用支持向量機分類器(svm,supportvectormachine)實現(xiàn)了標(biāo)清、高清和超清三類視頻業(yè)務(wù)的識別與分類。實驗結(jié)果表明,與現(xiàn)有的視頻流分類方法比較,本發(fā)明提出的方法獲得了較高的分類準(zhǔn)確率。為實現(xiàn)上述目的,本發(fā)明采取的技術(shù)方案是一種使用視頻業(yè)務(wù)的平均意見分均值特征的流分類方法,包括如下步驟:
步驟1:數(shù)據(jù)集預(yù)處理和特征提取:
1.1)通過網(wǎng)絡(luò)封包分析軟件抓取所需網(wǎng)絡(luò)中的視頻數(shù)據(jù)流,將抓取的原始數(shù)據(jù)流保存成標(biāo)準(zhǔn)文本格式;
1.2)對原始的視頻數(shù)據(jù)流進(jìn)行大量的流量統(tǒng)計特征計算,使用con-gr特征選擇方法選出信息增益率最大的特征,即下行字節(jié)速率;
步驟2:計算三種視頻業(yè)務(wù)mos的pdf均值特征:
2.1)將預(yù)處理之后的原始數(shù)據(jù)集截斷;
2.2)模擬視頻播放原理,將截斷之后的數(shù)據(jù)集作為模擬播放的輸入,統(tǒng)計每一條流的特定參數(shù);
2.3)根據(jù)步驟2.2中統(tǒng)計出來的參數(shù)計算截斷數(shù)據(jù)集中每條視頻流基于itu-tp.1201標(biāo)準(zhǔn)下的mos值;
2.4)將mos值進(jìn)行等份,統(tǒng)計落在每個等份中mos值的個數(shù),得到原始視頻數(shù)據(jù)集每條視頻流的mos值pdf,計算均值特征;
步驟3:svm分類:
3.1)將每條視頻流的均值特征結(jié)合下行字節(jié)速率,定義為最優(yōu)特征子集;
3.2)將特征子集有監(jiān)督離散化,使用基于svm十折交叉驗證法進(jìn)行流識別與分類。
進(jìn)一步,上述con-gr特征選擇方法的基本步驟是先用con特征選擇方法剔除無關(guān)特征,然后計算剩余特征和類別之間的信息增益率gr,并降序排列。
作為優(yōu)選,上述標(biāo)準(zhǔn)文本格式包括包到達(dá)時間、源ip地址、目的ip地址、協(xié)議類型、數(shù)據(jù)包大小五列原始信息。
步驟2.2中的所述特定參數(shù)可以包括播放中斷次數(shù),平均播放中斷時間,初始緩沖時間,視頻碼率。
作為優(yōu)選,上述步驟2.4中所述等份是將mos值進(jìn)行20等份。
上述網(wǎng)絡(luò)封包分析軟件優(yōu)選為wireshark。
與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果:
1、本發(fā)明能夠根據(jù)現(xiàn)有的itu-tp.1201用戶感知的媒體流qoe預(yù)測模型,計算每條視頻流的mos值,不但可以保證客戶端觀看視頻的體驗質(zhì)量,分析三種視頻業(yè)務(wù)mos值分布情況,也可以配合有效的特征組合,對三種視頻進(jìn)行識別與分類,并能取得較好的分類效果。
2、本發(fā)明方法使用視頻業(yè)務(wù)的mos值pdf均值特征結(jié)合支持向量機分類器的視頻業(yè)務(wù)識別分類技術(shù),與現(xiàn)有的視頻流分類技術(shù)相比,采用了新的具有較好區(qū)分度的特征組合標(biāo)識原始視頻數(shù)據(jù),能夠取得更高的分類準(zhǔn)確性。
附圖說明
圖1是本發(fā)明視頻業(yè)務(wù)特征分析與分類方法的流程框圖。
圖2是本發(fā)明下行字節(jié)速率分析圖。
圖3是本發(fā)明視頻業(yè)務(wù)的pdf分析圖。
圖4是本發(fā)明用到的itu-tp.1201標(biāo)準(zhǔn)qoe整體架構(gòu)。
具體實施方式
下面結(jié)合說明書附圖對本發(fā)明作進(jìn)一步的詳細(xì)說明。
現(xiàn)提供一個實施例,包括如下步驟:
步驟1,數(shù)據(jù)集與數(shù)據(jù)預(yù)處理:1)通過網(wǎng)絡(luò)封包分析軟件,比如wireshark,在特定的網(wǎng)絡(luò),比如校園網(wǎng)環(huán)境中,抓取所需的視頻數(shù)據(jù)流,然后將抓取的原始數(shù)據(jù)流保存成包含五列數(shù)據(jù)的標(biāo)準(zhǔn)文本格式,其中包括包到達(dá)時間(s)、源ip地址、目的ip地址、協(xié)議類型、數(shù)據(jù)包大小五列,定義為原始數(shù)據(jù)集。2)將原始數(shù)據(jù)集濾除每條視頻流的前5min的數(shù)據(jù)包,濾除上行數(shù)據(jù)包,定義為數(shù)據(jù)集dataset1。3)將dataset1每一條視頻流按5000個數(shù)據(jù)包截斷,其中標(biāo)清得到1446個樣本流,高清得到2665個樣本流,超清得到8324個樣本流,定義為數(shù)據(jù)集dataset2。
步驟2,計算三種視頻業(yè)務(wù)mos的pdf的均值特征:1)模擬視頻播放原理,將dataset2作為模擬播放的輸入,統(tǒng)計每一條流的播放中斷次數(shù),平均播放中斷時間,初始緩沖時間,視頻碼率等qos參數(shù)。2)將dataset2中視頻流統(tǒng)計出的qos參數(shù)按照itu-tp.1201標(biāo)準(zhǔn)計算標(biāo)清1446個樣本流、高清2665個樣本流、超清得到8324個樣本流的mos值。3)將mos值以間隔為0.2平均分成20個等分,統(tǒng)計步驟2)中標(biāo)清、高清和超清mos值落在20個等分中的概率,得到三種視頻業(yè)務(wù)的pdf,并計算其均值定義為feature1{視頻業(yè)務(wù)pdf均值特征}。
步驟3,特征提?。簩τ谠紨?shù)據(jù)集,我們計算出三種視頻業(yè)務(wù)的大量的qos相關(guān)統(tǒng)計特征,用于特征選擇和最終的分類。對于特征選擇,本文采用的是con-gr方法。我們選取信息增益率最高的特征形成最優(yōu)特征,定義為feature2{下行字節(jié)速率},將視頻業(yè)務(wù)流特征feature1和特征feature2定義為最優(yōu)特征子集featureset。
步驟4,svm分類:1)將原始數(shù)據(jù)集中每個樣本的featureset有監(jiān)督離散化。2)使用基于svm十折交叉驗證法進(jìn)行流識別與分類。
如圖1所示,本發(fā)明提出的一種使用平均意見分均值特征的網(wǎng)絡(luò)視頻流分類方法,該方法包括:視頻流的獲取及統(tǒng)計特征的計算、統(tǒng)計特征分析和選擇、模擬視頻播放和計算pdf均值特征、基于svm分類器進(jìn)行分類并輸出統(tǒng)計結(jié)果等。主要具體步驟為:
步驟1,視頻流的獲取及統(tǒng)計特征的計算:通過網(wǎng)絡(luò)分析工具wireshark在校園網(wǎng)環(huán)境中獲取待分析的網(wǎng)絡(luò)視頻數(shù)據(jù),其中包括youku標(biāo)清、youku高清、youku超清、iqiyi標(biāo)清、iqiyi高清和iqiyi超清六類視頻應(yīng)用,定義為dataset1。將獲取的網(wǎng)絡(luò)視頻流數(shù)據(jù)保存成txt文檔格式(即為一條流),其中包含5列,從左至右依次是包到達(dá)時間、源ip地址、目的ip地址、協(xié)議類型、數(shù)據(jù)包大小。流是指同種業(yè)務(wù)在30分鐘時間內(nèi)所抓取的數(shù)據(jù)包序列,在次稱其為一條流,每種業(yè)務(wù)都抓取60條流來分析問題,總共360條。然后,將原始的視頻流輸入到我們的網(wǎng)絡(luò)數(shù)據(jù)流處理平臺,進(jìn)行統(tǒng)計特征計算,最后得到一些列的網(wǎng)絡(luò)視頻流的qos相關(guān)的統(tǒng)計特征。
步驟2,統(tǒng)計特征分析和選擇:對dataset1本發(fā)明選擇con-gr特征選擇方法,基本思路是先用con特征選擇方法剔除無關(guān)特征,然后計算剩余特征和類別之間的信息增益率gr并降序排列,如表1。選擇信息增一律最大的特征定義為feature1{下行字節(jié)速率}。
表1
實驗中,本發(fā)明對三種視頻業(yè)務(wù)的下行字節(jié)速率進(jìn)行了分析,如圖(2)所示,從圖中可以觀察到超清和高清視頻下行字節(jié)速率明顯高于標(biāo)清視頻,即超清和高清視頻平均下行字節(jié)速率是大于標(biāo)清。另外,可以觀察到超清視頻下行字節(jié)速率的峰值個數(shù)比高清視頻下行字節(jié)速率峰值明顯要多。
步驟3,將原始數(shù)據(jù)集濾除每條視頻流的前5min的數(shù)據(jù)包,濾除上行數(shù)據(jù)包,定義為dataset1。將dataset1每一條視頻流按5000個數(shù)據(jù)包截斷,其中標(biāo)清得到1446個樣本流,高清得到2665個樣本流,超清得到8324個樣本流,定義為數(shù)據(jù)集dataset2。
步驟4,將dataset2作為模擬視頻播放策略的輸入,統(tǒng)計播放中斷次數(shù),平均播放中斷時間、初始緩沖時間和視頻碼率四個qos參數(shù)。將dataset2中每條視頻流的四個qos參數(shù)計算其基于itu-t標(biāo)準(zhǔn)下的mos值。之后將mos值以間隔為0.2平均分成20個等分,統(tǒng)計標(biāo)清、高清和超清mos值落在20個等份每個等份中的個數(shù),得到三種視頻業(yè)務(wù)的pdf,計算每條視頻業(yè)務(wù)pdf的均值,定義為特征feature2{視頻業(yè)務(wù)pdf均值}。
試驗中,本發(fā)明對視頻業(yè)務(wù)的pdf進(jìn)行了分析。如圖3所示,三種分辨率視頻業(yè)務(wù)mos值在1~2區(qū)間的概率都非常小,標(biāo)清的mos值主要分布在2.6~3.4之間,高清主要分布在3.2~4.2之間,超清主要分布在3.8~4.8之間。那么,標(biāo)清、高清、超清三類網(wǎng)絡(luò)視頻業(yè)務(wù)的mos值pdf基本可以代表這類視頻mos值分布情況。這種比較mos值有區(qū)分度分布的特點,為流識別提供了依據(jù)。
itu-tp.1201流媒體質(zhì)量預(yù)測模型具體描述如下:
在itu-tp.1201提出的標(biāo)準(zhǔn)中,如圖4所示,我們需要計算單獨音頻評分o.21、單獨視頻評分o.23、音視頻評分o.32、播放中斷和初始緩沖評分o.24和整體視頻評分o.41這些基本模型的值。
定義綜合的mos值o.41由如下得到:
o.41=max(min((o.32-5o.24),5),1)(1)
公式(1)中,o.24是由緩沖區(qū)數(shù)據(jù)包太少造成的播放中斷和視頻開始播放的初始緩沖帶來的體驗質(zhì)量損傷評分,計算公式如(2):
o.24=5-max(min((degstall+degt0),4),0)(2)
為了計算o.24,我們需要得到視頻播放中斷所引起的體驗質(zhì)量損傷評分degstall和初始緩沖帶來的視頻體驗質(zhì)量損傷評分degt0。
degstall=max(min(s4+s1×exp((s2×l+s3)×n),4),0)(3)
其中,l是視頻平均播放中斷持續(xù)時間,它不包括初始緩沖時間,單位是s,n是視頻播放中斷次數(shù),它不包括初始緩沖。
我們用t0表示視頻播放初始緩沖時間,如果t0>1-(-3.29)=4.29,則:
degt0=max(min(d1×lg(t0+d2),4),0)(4)
如果t0≤1-(-3.29)=4.29,則:
degt0=0(5)
公式(1)中,o.32是由音頻單獨評分o.21和視頻單獨評分o.23加權(quán)平均而得到的。由于我們沒有用到音頻,所以這里不需要計算o.21。則:
o.32=avmosc=vmosc(6)
其中:
vdc是由于視頻壓縮而產(chǎn)生的視頻失真度,計算公式如(8):
vnbr是視頻的歸一化碼率,計算公式如(9):
其中,vbr是視頻碼率,單位是kbit/s,videoframerate是視頻播放幀率。
vccf是視頻內(nèi)容復(fù)雜度影響因子,表明視頻內(nèi)容的時空復(fù)雜度,它的最大值為1.0,初始值為0.5,計算公式如(10):
公式中參數(shù)vabif是平均i幀字節(jié)數(shù)。為計算方便,這里平均i幀字節(jié)數(shù)我們根據(jù)經(jīng)驗選取合適的值。
視頻模擬播放策略具體描述如下:
模擬客戶端視頻播放過程可以分為播放準(zhǔn)備階段、視頻初始緩沖階段、視頻播放階段和播放中斷階段。在播放準(zhǔn)備階段,我們將視頻開始播放的閾值bc設(shè)定為視頻播放1s所需數(shù)據(jù)包大小,視頻播放速率設(shè)定為平均視頻碼率的0.75倍,視頻中斷閾值bi設(shè)定為平均視頻碼率的0.1倍。在視頻初始緩沖階段,開始緩沖區(qū)的數(shù)據(jù)包為空,該算法在當(dāng)前時間間隔內(nèi)讀取其對應(yīng)的數(shù)據(jù)包源源不斷地加入緩沖區(qū),當(dāng)緩沖區(qū)數(shù)據(jù)包大小小于視頻播放的閾值bc,不執(zhí)行任何操作,當(dāng)緩沖區(qū)數(shù)據(jù)包大小大于視頻播放閾值bc,開始執(zhí)行播放視頻的功能,并記錄下當(dāng)前數(shù)據(jù)包到達(dá)時間作為初始緩沖時間。在視頻播放階段,一旦視頻開始播放,緩沖區(qū)數(shù)據(jù)包以平均視頻碼率的0.75倍的速率離開緩沖區(qū),同時算法讀取文件中的數(shù)據(jù)加入緩沖區(qū)。當(dāng)緩沖區(qū)數(shù)據(jù)包大小小于視頻中斷閾值bi時,此時視頻播放中斷,記錄下播放中斷次數(shù)+1,并記錄當(dāng)前數(shù)據(jù)包到達(dá)時間間隔作為播放中斷時間,與總的播放中斷時間相加。在視頻播放中斷階段,此時視頻播放停止,而算法繼續(xù)從文件中讀取數(shù)據(jù)包加入緩沖區(qū),緩沖區(qū)數(shù)據(jù)包必須大于bc才能重新開始播放。當(dāng)當(dāng)前視頻流數(shù)據(jù)包全部讀取完畢統(tǒng)計該視頻流初始緩沖時間、播放中斷次數(shù)和播放中斷時間。等待下一個視頻流執(zhí)行同樣的操作,對于每一條要模擬播放的視頻流都執(zhí)行該算法
步驟4,將視頻業(yè)務(wù)流特征feature1和特征feature2定義為最優(yōu)特征子集featureset。將featureset有監(jiān)督離散化,將featureset1作為svm分類器的輸入數(shù)據(jù),采取十折交叉驗證法進(jìn)行流識別與分類。
本發(fā)明的實驗結(jié)果:
為了進(jìn)一步驗證本發(fā)明選取的統(tǒng)計特征的有效性,我們使用上述三種清晰度網(wǎng)絡(luò)視頻流數(shù)據(jù),利用本發(fā)明中提出的使用視頻業(yè)務(wù)的mos值pdf特征進(jìn)行識別與分類。主要從衡量網(wǎng)絡(luò)流分類性能的查準(zhǔn)率、查全率和f測度(f-measure)進(jìn)行對比驗證。
其中original是采用三種視頻分辨率下行速率峰值,使用k-means方法進(jìn)行網(wǎng)絡(luò)流量分類的分類結(jié)果,improved是采用本發(fā)明提出的使用視頻業(yè)務(wù)mos值pdf均值特征和基于con-gr特征選擇方法選出的下行字節(jié)速率特征組合的分類結(jié)果。表2展示了兩種算法對于三種網(wǎng)絡(luò)視頻業(yè)務(wù)的分類效果比較。從表2可以看出本文提出的流分類方法在準(zhǔn)確率、召回率、f-測度和整體識別效果較original提出的流分類方法都有提高。從查準(zhǔn)率看,三種視頻業(yè)務(wù)的查準(zhǔn)率在95%以上,標(biāo)清的準(zhǔn)確率達(dá)到了97.6%,超清準(zhǔn)確率達(dá)到了96.6%,高清的準(zhǔn)確率最低,只有95.8%,這有可能是高清與標(biāo)清,高清與超清的pdf有部分重疊造成下行字節(jié)速率和均值特征無法將高清正確分類。從查全率和f-測度來看,標(biāo)清的分類結(jié)果比高清和超清要好,原因可能是網(wǎng)絡(luò)狀況不夠理想,造成視頻業(yè)務(wù)的下行字節(jié)速率變小,標(biāo)清依然能夠正確識別,而高清和超清的識別效果受到了影響。
表2
original使用三種視頻業(yè)務(wù)的m個下行速率峰值,并構(gòu)成m維屬性向量,使用經(jīng)典的k-means方法進(jìn)行視頻流分類。使用k-means方法的優(yōu)勢是模型簡單,計算過程相對高效,但是original考慮的特征只有下行速率峰值,選擇的特征比較單一,且對未進(jìn)行訓(xùn)練的樣本識別率較低。本發(fā)明提出的improved流識別技術(shù)通過對三種分辨率視頻業(yè)務(wù)進(jìn)行con-gr特征選擇,選出信息增益率最大特征進(jìn)行視頻業(yè)務(wù)分類,針對只使用con-gr選出的下行字節(jié)速率無法正確識別的視頻業(yè)務(wù),加入mos值pdf均值特征可以更好的區(qū)分三種視頻業(yè)務(wù)。因此,相比于original,本發(fā)明提出的分類方法較好。
需要說明的是,以上所述數(shù)據(jù)僅為本發(fā)明的一個具體實施例所得,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。