本發(fā)明屬于網(wǎng)絡(luò)業(yè)務(wù)技術(shù)領(lǐng)域,尤其涉及一種基于多標(biāo)記學(xué)習(xí)的瀏覽類業(yè)務(wù)感知指標(biāo)預(yù)測方法。
背景技術(shù):
移動網(wǎng)絡(luò)用戶在使用ott業(yè)務(wù)(如網(wǎng)頁瀏覽,視頻播放等)過程中,其業(yè)務(wù)體驗的好壞一般可用一套kqi(關(guān)鍵質(zhì)量指標(biāo))指標(biāo)進(jìn)行評價,比如網(wǎng)頁打開時延、下載速率等。這種體驗的好壞受多種因素的影響,包括終端質(zhì)量、使用業(yè)務(wù)時所處位置的移動網(wǎng)絡(luò)質(zhì)量、app質(zhì)量、sp網(wǎng)站服務(wù)器集群的帶寬和負(fù)荷等。
電信運營商作為各類業(yè)務(wù)的傳輸通道提供方和業(yè)務(wù)體驗保障的關(guān)鍵環(huán)節(jié),需要盡可能保障用戶的業(yè)務(wù)體驗,否則可能導(dǎo)致用戶投訴甚至離網(wǎng)。
目前一般是電信運營商的網(wǎng)絡(luò)運維和優(yōu)化部門通過日常的網(wǎng)絡(luò)優(yōu)化作業(yè)來保障網(wǎng)絡(luò)質(zhì)量,但網(wǎng)絡(luò)質(zhì)量與用戶的業(yè)務(wù)體驗之間仍然存在較大的差異,好的網(wǎng)絡(luò)質(zhì)量并不一定能保障良好的業(yè)務(wù)體驗(由于業(yè)務(wù)體驗是受前述的眾多因素的綜合作用)??头块T只有在接到用戶投訴時才發(fā)現(xiàn)業(yè)務(wù)體驗的問題,再去協(xié)調(diào)網(wǎng)絡(luò)運維和優(yōu)化部門去排查問題和解決,往往很被動。
如果能在日常的網(wǎng)絡(luò)運營中持續(xù)監(jiān)測用戶的業(yè)務(wù)體驗,并根據(jù)海量的用戶業(yè)務(wù)感知歷史數(shù)據(jù)(不同場景下的業(yè)務(wù)感知指標(biāo)的好壞),對用戶在特定場景下的業(yè)務(wù)體驗好壞做出預(yù)測和預(yù)警,則有助于及早發(fā)現(xiàn)業(yè)務(wù)體驗問題并及時采取相關(guān)措施進(jìn)行改善,并有效降低投訴率和離網(wǎng)率。
技術(shù)實現(xiàn)要素:
本發(fā)明要解決的問題是如何根據(jù)用戶所處的場景對用戶的網(wǎng)頁瀏覽類業(yè)務(wù)的kqi指標(biāo)進(jìn)行及時、準(zhǔn)確的預(yù)測,提供一種基于多標(biāo)記學(xué)習(xí)的瀏覽類業(yè)務(wù)感知指標(biāo)預(yù)測方法。
為實現(xiàn)上述目的,本發(fā)明采用如下的技術(shù)方案:
一種基于多標(biāo)記學(xué)習(xí)的瀏覽類業(yè)務(wù)感知指標(biāo)預(yù)測方法,包括以下步驟:
步驟s1、對瀏覽業(yè)務(wù)感知樣本數(shù)據(jù)集構(gòu)造訓(xùn)練樣本集;
步驟s2、構(gòu)造訓(xùn)練樣本的k最近鄰樣本集;
步驟s3:計算先驗概率和歸一化頻數(shù)矩陣
對每個標(biāo)記項yj,j=1~q,按下面的公式(1)計算先驗概率
其中,hj和
按下面的公式(2)(3)計算歸一化頻數(shù)矩陣[fj[r]k×q和
其中,δj(xi)表示的訓(xùn)練樣本xi的近鄰樣本中具有標(biāo)記yj的樣本個數(shù),[·]表示取整,fj[r]表示訓(xùn)練樣本集中具有標(biāo)記yj并且同時有占比為
步驟s4:構(gòu)造未知樣本x的k近鄰樣本集
對未知樣本x,按照步驟s2的方法在訓(xùn)練樣本集中構(gòu)造出該樣本的k近鄰樣本集
步驟s5:計算未知樣本x的同標(biāo)記統(tǒng)計
對每一個標(biāo)記項yj,j=1~q,按照公式(4)統(tǒng)計
步驟s6:計算未知樣本x的似然概率
按公式(5)(6)計算似然概率
其中,
步驟s7:估計未知樣本x的標(biāo)記值
由下式(7)和(8)計算得到未知樣本x的標(biāo)記集y的估計值{y1,y2},即
考慮到首包時延和頁面打開時延兩個指標(biāo)的強相關(guān)性,尤其是首包時延對頁面打開時延的影響,在估計y2也即頁面打開時延的標(biāo)記項是否成立(即標(biāo)記值為1)時,采用如下方式計算:
作為優(yōu)選,步驟s1包括以下步驟:
步驟s1a、訓(xùn)練樣本集的屬性項選擇
從樣本的所有字段中選擇其子集,即{日期,時間,經(jīng)度,緯度,大區(qū)編號,小區(qū)編號,場強,信號質(zhì)量,網(wǎng)站名稱,網(wǎng)站ip,dnsip,用戶標(biāo)識,終端型號},作為訓(xùn)練樣本的屬性集x={x1,x2,...,xd},d為屬性集的維度;其中,屬性字段{日期,時間,經(jīng)度,緯度,場強,信號質(zhì)量}為數(shù)值型數(shù)據(jù),屬性字段{大區(qū)編號,小區(qū)編號,網(wǎng)站名稱,網(wǎng)站ip,dnsip,用戶標(biāo)識,終端型號}為名目型數(shù)據(jù);
步驟s1b、訓(xùn)練樣本集的標(biāo)記項選擇
從樣本所有字段中選擇其子集,即{首包時延,頁面打開時延},作為訓(xùn)練樣本的標(biāo)記集y={y1,y2,...,yq},q為標(biāo)記集的維度,其中,標(biāo)記字段{首包時延,頁面打開時延}為布爾型數(shù)據(jù);
步驟s1c、訓(xùn)練樣本的選取
根據(jù)步驟s1a和步驟s1b中選定的屬性集和標(biāo)記集,從瀏覽業(yè)務(wù)感知樣本集中隨機選擇m個樣本作為訓(xùn)練樣本集d,即d={(xi,yi)|1≤i≤m};
步驟s1d、訓(xùn)練樣本屬性值和標(biāo)記值的轉(zhuǎn)換
如果訓(xùn)練樣本中的日期和時間的原始值不是數(shù)值型數(shù)據(jù),則進(jìn)行轉(zhuǎn)換:以某個日期為基準(zhǔn),將該日期取值定義為0,以距離基準(zhǔn)日期的天數(shù)作為訓(xùn)練樣本中日期值的表示,時間則以零時為基準(zhǔn)點、以分鐘為顆粒度表示,
對訓(xùn)練樣本中的所有數(shù)值型數(shù)據(jù)利用以下公式進(jìn)行歸一化,即:
其中
對于訓(xùn)練樣本中的各標(biāo)記字段{首包時延y1,頁面打開時延y2},其在原始的“瀏覽業(yè)務(wù)感知樣本集”中均為數(shù)值型數(shù)據(jù)(分別記為
其中,函數(shù)[c]表示當(dāng)條件c成立時返回1,否則返回0。
作為優(yōu)選,步驟s2中對訓(xùn)練樣本集中的每個樣本矢量xi,i=1~m,在訓(xùn)練樣本集中尋找該樣本矢量的最多k個最近鄰樣本,構(gòu)成該樣本矢量的k最近鄰樣本集
步驟s2a、對樣本矢量xi={xil,l=1~d},在訓(xùn)練樣本集中根據(jù)日期屬性,尋找所有與xi1的距離小于設(shè)定門限td(默認(rèn)值為10)的樣本,構(gòu)成初始最近鄰樣本集
步驟s2b、在初始最近鄰樣本集
步驟s2c、計算中間最近鄰樣本集
本發(fā)明的有益效果如下:
根據(jù)海量的用戶業(yè)務(wù)感知歷史數(shù)據(jù)(不同場景下的業(yè)務(wù)感知指標(biāo)的好壞),對用戶在特定場景下的業(yè)務(wù)體驗好壞做出預(yù)測和預(yù)警,有助于及早發(fā)現(xiàn)業(yè)務(wù)體驗問題并及時采取相關(guān)措施進(jìn)行改善,并有效降低投訴率和離網(wǎng)率。
附圖說明
圖1為本發(fā)明預(yù)測方法的流程圖;
圖2為構(gòu)造訓(xùn)練樣本集的流程圖。
具體實施方式
如圖1、2所示,本發(fā)明提出了一種基于多標(biāo)記學(xué)習(xí)的瀏覽類業(yè)務(wù)感知指標(biāo)預(yù)測方法,包括以下步驟:
步驟s1:構(gòu)造訓(xùn)練樣本集
已知某城市的本地移動網(wǎng)絡(luò)下(如北京移動的lte網(wǎng)絡(luò)),當(dāng)用戶在智能終端上使用網(wǎng)頁瀏覽類業(yè)務(wù)app(如ucweb、qq瀏覽器等)瀏覽預(yù)定義的目標(biāo)網(wǎng)頁集合(如新浪主頁,搜狐主頁等)中的某個網(wǎng)頁時,通過部署在用戶終端上的數(shù)據(jù)采集app等方式,獲取此時的“網(wǎng)頁瀏覽業(yè)務(wù)感知樣本”;在一定時間范圍內(nèi)、從海量用戶終端上采集的全部樣本構(gòu)成了“瀏覽業(yè)務(wù)感知樣本集”。
網(wǎng)頁瀏覽業(yè)務(wù)感知樣本其所包含的信息(即樣本字段)應(yīng)至少包括:日期,時間,網(wǎng)絡(luò)制式,小區(qū)標(biāo)識,終端當(dāng)前經(jīng)緯度,場強(不同的制式下名稱不同:如gsm網(wǎng)絡(luò)的rxlevel,lte網(wǎng)絡(luò)的rsrp等),信號質(zhì)量(不同的制式下名稱不同:如c/i或sinr或rsrq等),用戶標(biāo)識(imsi),終端標(biāo)識(imei或meid),終端型號,瀏覽器app名稱,瀏覽網(wǎng)站名稱,瀏覽網(wǎng)站url,瀏覽網(wǎng)站ip,dnsip,首包時延,頁面打開時延,dns解析時延,tcp連接時延,get請求時延,接收響應(yīng)時延。
其中:小區(qū)標(biāo)識為唯一確定一個小區(qū)的標(biāo)識參數(shù)的組合,一般由大區(qū)編號+小區(qū)編號組成。對不同網(wǎng)絡(luò)所使用的參數(shù)名稱不同,如gsm、wcdma、td-scdma網(wǎng)絡(luò)為lac+ci,lte為tac+eci。
其中:“首包時延”定義為從用戶發(fā)起網(wǎng)頁瀏覽請求到收到目標(biāo)服務(wù)器響應(yīng)的第一個http200ok報文包之間的所經(jīng)歷的時長。首包時延=dns解析時延+tcp連接響應(yīng)時延+get請求響應(yīng)時延。
其中:“頁面打開時延”定義為從用戶發(fā)起瀏覽請求到整個http頁面下載完畢(僅頁面文本內(nèi)容,不包含資源的二次加載)的時長。頁面打開時延=首包時延+接收響應(yīng)時延。
其中:“dns解析時延”指從終端發(fā)起dns解析請求開始到完成dns解析的時延;“tcp連接時延”指從dns解析結(jié)束到tcp連接(三次握手)建立完成的時延;“get請求時延”指從發(fā)出get請求到收到第一個tcp數(shù)據(jù)包(含http200ok)的時延;“接收響應(yīng)時延”指從收到第一個響應(yīng)數(shù)據(jù)包開始到終端發(fā)出[fin,ack](即接收完成)的時延。
步驟s1a:訓(xùn)練樣本集的屬性項選擇
從上述樣本的所有字段中選擇其子集,即{日期,時間,經(jīng)度,緯度,大區(qū)編號,小區(qū)編號,場強,信號質(zhì)量,網(wǎng)站名稱,網(wǎng)站ip,dnsip,用戶標(biāo)識,終端型號},作為訓(xùn)練樣本的屬性集x={x1,x2,...,xd},d為屬性集的維度,這里d=13;其中,屬性字段{日期,時間,經(jīng)度,緯度,場強,信號質(zhì)量}為數(shù)值型數(shù)據(jù),屬性字段{大區(qū)編號,小區(qū)編號,網(wǎng)站名稱,網(wǎng)站ip,dnsip,用戶標(biāo)識,終端型號}為名目型數(shù)據(jù);
步驟s1b:訓(xùn)練樣本集的標(biāo)記項選擇
從上述樣本的所有字段中選擇其子集,即{首包時延,頁面打開時延},作為訓(xùn)練樣本的標(biāo)記集y={y1,y2,...,yq},q為標(biāo)記集的維度,這里q=2;其中,標(biāo)記字段{首包時延,頁面打開時延}為布爾型數(shù)據(jù);
步驟s1c:訓(xùn)練樣本的選取
根據(jù)步驟s1a和s1b中選定的屬性集和標(biāo)記集,從瀏覽業(yè)務(wù)感知樣本集中隨機選擇m個樣本作為訓(xùn)練樣本集d,即d={(xi,yi)|1≤i≤m};
步驟s1d:訓(xùn)練樣本屬性值和標(biāo)記值的轉(zhuǎn)換
如果訓(xùn)練樣本中的日期和時間的原始值不是數(shù)值型數(shù)據(jù),則進(jìn)行轉(zhuǎn)換:以某個日期為基準(zhǔn)(如2015年1月1日),將該日期取值定義為0,以距離基準(zhǔn)日期的天數(shù)作為訓(xùn)練樣本中日期值的表示。時間則以零時為基準(zhǔn)點、以分鐘為顆粒度表示。
對訓(xùn)練樣本中的所有數(shù)值型數(shù)據(jù)利用公式(1)進(jìn)行歸一化,即:
其中
對于訓(xùn)練樣本中的各標(biāo)記字段{首包時延y1,頁面打開時延y2},其在原始的“瀏覽業(yè)務(wù)感知樣本集”中均為數(shù)值型數(shù)據(jù)(分別記為
其中函數(shù)[c]表示當(dāng)條件c成立時返回1,否則返回0。
步驟s2:構(gòu)造訓(xùn)練樣本的k最近鄰樣本集
對訓(xùn)練樣本集中的每個樣本矢量xi,i=1~m,在訓(xùn)練樣本集中尋找該樣本矢量的最多k個最近鄰樣本,構(gòu)成該樣本矢量的k最近鄰樣本集
步驟2a:對樣本矢量xi={xil,l=1~d},在訓(xùn)練樣本集中根據(jù)日期屬性,尋找(除該樣本自身之外)所有與xi1的距離小于設(shè)定門限td(默認(rèn)值為10)的樣本,構(gòu)成初始最近鄰樣本集
步驟2b:在初始最近鄰樣本集
步驟2c:計算中間最近鄰樣本集
步驟s3:計算先驗概率和歸一化頻數(shù)矩陣
對每個標(biāo)記項yj,j=1~q,按下面的公式(2)計算先驗概率
其中,hj和
然后,按下面的公式(3)(4)計算歸一化頻數(shù)矩陣[fj[r]]k×q和
其中,δj(xi)表示的訓(xùn)練樣本xi的近鄰樣本中具有標(biāo)記yj的樣本個數(shù),[·]表示取整。則fj[r]表示訓(xùn)練樣本集中具有標(biāo)記yj并且同時有占比為
步驟s4:構(gòu)造未知樣本x的k近鄰樣本集
對未知樣本x,按照步驟s2的方法在訓(xùn)練樣本集中構(gòu)造出該樣本的k近鄰樣本集
步驟s5:計算未知樣本x的同標(biāo)記統(tǒng)計
對每一個標(biāo)記項yj,j=1~q,按照公式(5)統(tǒng)計
步驟s6:計算未知樣本x的似然概率
按公式(6)(7)計算似然概率
步驟s7:估計未知樣本x的標(biāo)記值
在前面各步驟計算結(jié)果的基礎(chǔ)上,即可由下式(8)和(9)計算得到未知樣本x的標(biāo)記集y的估計值{y1,y2}。其中:
考慮到首包時延和頁面打開時延兩個指標(biāo)的強相關(guān)性,尤其是首包時延對頁面打開時延的影響,在估計y2也即頁面打開時延的標(biāo)記項是否成立(即標(biāo)記值為1)時,采用如下方式計算: