基于icp活躍度的接入網(wǎng)單個(gè)ip平均流量統(tǒng)計(jì)方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域。更具體的,本發(fā)明涉及一種利用訪問日志來統(tǒng)計(jì)用 戶活躍IP的方法。
【背景技術(shù)】
[0002] 近年來,隨著光纖普及以及互聯(lián)網(wǎng)帶寬的迅猛發(fā)展,各種ICP接入的帶寬也越來越 高,隨之產(chǎn)生的網(wǎng)絡(luò)流量也越來越大,爾后產(chǎn)生的問題就是面對大量的上網(wǎng)流量,如何能快 速發(fā)現(xiàn)哪些IP是活躍的,IP活躍的分布情況,以及出現(xiàn)流量異常時(shí)如何快速準(zhǔn)確的確定出 問題的IP,上述都是接入單位和網(wǎng)絡(luò)接入商共同關(guān)注的焦點(diǎn)問題。
[0003] 對于教育網(wǎng)這個(gè)特定的環(huán)境,原來都是按照單位對其下所有的流量進(jìn)行匯總,或 者針對單個(gè)IP查看其流量情況,沒有從時(shí)間角度看下面IP活躍情況以及對整體IP活躍和平 均流量的變化情況做趨勢分析和統(tǒng)計(jì),這個(gè)從宏觀角度更能對未來IP和流量趨勢做出預(yù)估 和判斷,進(jìn)而為業(yè)務(wù)的開展提供更明確的數(shù)據(jù)支持。
【發(fā)明內(nèi)容】
[0004] 為此,本發(fā)明提出了一種基于流量日志來統(tǒng)計(jì)用戶IP活躍度的方法,以解決上述 技術(shù)問題。
[0005] 根據(jù)本發(fā)明一方面,提供了一種基于流量日志統(tǒng)計(jì)用戶IP活躍度的方法,包括:
[0006] 步驟1、基于教育網(wǎng)骨干主節(jié)點(diǎn)采集IP訪問日志記錄;
[0007] 步驟2、從所獲取的IP訪問日志記錄中過濾異常訪問IP記錄;
[0008] 步驟3、對過濾后的IP訪問日志記錄中的獨(dú)立IP的訪問量進(jìn)行統(tǒng)計(jì),得到用戶IP活 躍度的排名。
[0009] 根據(jù)本發(fā)明另一方面,提供了一種基于流量日志統(tǒng)計(jì)用戶IP活躍度的系統(tǒng),包括:
[0010] 采集模塊,用于基于教育網(wǎng)骨干主節(jié)點(diǎn)采集IP訪問日志記錄;
[0011] 過濾模塊,用于從所獲取的IP訪問日志記錄中過濾異常訪問IP記錄;
[0012] 統(tǒng)計(jì)模塊,用于對過濾后的IP訪問日志記錄中的獨(dú)立IP的訪問量進(jìn)行統(tǒng)計(jì),得到 用戶IP活躍度的排名。
[0013] 本發(fā)明提出的上述方案基于ICP訪問日志文件,對日志中的異常IP訪問流量記錄 進(jìn)行識別,發(fā)明了一種異常訪問流量去重的方法,在日志中去除異常點(diǎn)擊,對日志中的連續(xù) 點(diǎn)擊,單IP多用戶以及單用戶多IP等可能的異常點(diǎn)擊進(jìn)行識別去重,對去重后的流量提取 源和目標(biāo)IP以及產(chǎn)生的流量,來統(tǒng)計(jì)出每天網(wǎng)內(nèi)活躍的IP以及其流量,再根據(jù)IP歸屬標(biāo)示 出IP對應(yīng)單位,根據(jù)每個(gè)IP的活動次數(shù)以及產(chǎn)生的流量綜合分析出IP的平均流量,可以得 到單位下活躍IP的綜合排名。最終還可以以單位為中心,統(tǒng)計(jì)出單位的活躍IP數(shù)量以及IP 的平均流量,按照IP平均流量等對單位進(jìn)行排名。
【附圖說明】
[0014] 圖1是本發(fā)明中基于流量日志來統(tǒng)計(jì)用戶IP活躍度的方法流程圖;
[0015] 圖2是本發(fā)明中并行算法設(shè)計(jì)架構(gòu)框圖。
【具體實(shí)施方式】
[0016] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,以下結(jié)合具體實(shí)施例,并參照 附圖,對本發(fā)明作進(jìn)一步的詳細(xì)說明。
[0017] 本發(fā)明提出了一種基于流量日志來統(tǒng)計(jì)用戶IP活躍度的方法,如圖1所示,其包 括:
[0018] 步驟1、基于教育網(wǎng)骨干主節(jié)點(diǎn)采集IP訪問樣本數(shù)據(jù);
[0019]本發(fā)明優(yōu)選實(shí)施例中基于的ICP訪問日志是教育網(wǎng)38個(gè)骨干網(wǎng)主節(jié)點(diǎn)每個(gè)小時(shí)采 集一次,每次5分鐘的IP訪問采集抽樣數(shù)據(jù),然后匯總起來,這樣就是整個(gè)網(wǎng)絡(luò)每天24個(gè)樣 本文件,其包含每小時(shí)中5分鐘的所有用戶訪問軌跡信息。樣本格式舉例如下:
[0021] 每條訪問IP記錄包括:源IP地址、目的IP地址、源IP地址連接目的IP地址產(chǎn)生的流 量數(shù)據(jù)和服務(wù)器信息即采集點(diǎn);
[0022] 上述舉例樣本數(shù)據(jù)可拆解為以下4個(gè)變量
[0023] 源IP:記錄發(fā)起訪問端的IP信息,如223.252.209.144 [0024]目標(biāo)IP:記錄被訪問端的IP信息,如210 · 46 · 102 · 44 [0025] 流量:源IP連接目標(biāo)IP產(chǎn)生的流量,如552字節(jié)·
[0026]服務(wù)器信息:采集點(diǎn),如nbos38
[0027 ]步驟2、從所獲取的IP訪問信息中過濾異常訪問IP記錄;具體包括:
[0028]教育網(wǎng)骨干38節(jié)點(diǎn)訪問日志記錄了教育網(wǎng)的院校用戶上網(wǎng)瀏覽行為。日志記錄的 內(nèi)容有:用戶IP,序列號,正常情況下,用戶一天內(nèi)在一臺機(jī)器上訪問互聯(lián)網(wǎng),所留下的點(diǎn)擊 記錄里用戶ID是一致的;點(diǎn)擊時(shí)間,點(diǎn)擊發(fā)生的時(shí)間;目的地址,用戶此次點(diǎn)擊要訪問頁面 的URL;源地址,用戶從該URL點(diǎn)擊目的地址。
[0029]下面以2015年10月21日的數(shù)據(jù),共234 786 722條記錄為例說明。
[0030] 在日志分析中,存在一些用戶點(diǎn)擊頻率過高的現(xiàn)象,表現(xiàn)為一秒鐘連續(xù)點(diǎn)擊多次, 這種情況的異常性很明顯。作為自然人的用戶只有在刷新頁面時(shí)才可能一秒鐘點(diǎn)擊兩次以 上,但是用戶刷新頁面的行為不能夠完全解釋一秒連續(xù)點(diǎn)擊多次的現(xiàn)象,通過以下的步驟 21中的兩種方法對重復(fù)訪問IP及異常IP記錄進(jìn)行去重。
[0031] 步驟21、計(jì)算用戶訪問集中度和用戶平均訪問量
[0032]正常的用戶點(diǎn)擊日志,在點(diǎn)擊記錄數(shù)和訪問過的站點(diǎn)數(shù)之間滿足一定的關(guān)系,但 是異常點(diǎn)擊行為的這兩個(gè)數(shù)據(jù)卻可能呈現(xiàn)出不一樣的關(guān)系??赡艹霈F(xiàn)用戶訪問站點(diǎn)過于集 中或過于分散的狀況。訪問集中度即是用來衡量用戶訪問過的站點(diǎn)數(shù)偏離正常情況的程 度。正常情況下,點(diǎn)擊記錄數(shù)和訪問站點(diǎn)數(shù)之間的關(guān)系,不是一個(gè)簡單的數(shù)學(xué)關(guān)系,還和當(dāng) 時(shí)互聯(lián)網(wǎng)上有多少站點(diǎn)有關(guān)。因此本發(fā)明利用這樣的方法來定義訪問集中度,如果待研究 的目標(biāo)記錄有N條,我們從一天的日志中隨機(jī)提取與N相當(dāng)?shù)挠涗洈?shù)rand(N)(可采用的隨機(jī) 提取算法,不能保證精確提取N條,但是是與N相當(dāng)?shù)挠涗洈?shù),即兩者的差值在預(yù)定閾值范圍 內(nèi)),N條記錄訪問的站點(diǎn)集合為site(N),站點(diǎn)數(shù)S#site(N),隨機(jī)提取記錄訪問的站點(diǎn)集 合為site(rand(N)),訪問站點(diǎn)數(shù)S#site(rand(N))。訪問集中度的公式如下:
[0033]訪問集中度=【1^/#8;^6(1^)】/【瓜11(1(1^)/#8;^6(瓜11(1(1^))】
[0034] 正常瀏覽互聯(lián)網(wǎng)的用戶群體,一天的訪問量滿足一個(gè)比較穩(wěn)定的分布,有一個(gè)比 較穩(wěn)定的平均值,如果是有某種異常行為的用戶群體,他們的平均訪問量可能會有一些不 同。假設(shè)目標(biāo)用戶數(shù)為U,他們一天的點(diǎn)擊數(shù)為click(U),用戶平均訪問量的公式如下:
[0035] 用戶平均訪問量= click(U)/U
[0036] 步驟22、根據(jù)訪問集中度和用戶平均訪問量對異常訪問IP記錄做去重過濾;
[0037] 首先,連續(xù)點(diǎn)擊不同次數(shù)的點(diǎn)擊分布如表1所示,可以看出連續(xù)點(diǎn)擊兩次的點(diǎn)擊 數(shù),相對于連續(xù)點(diǎn)擊三次及三次以上的點(diǎn)擊數(shù)異常的高,分別分析這些連續(xù)點(diǎn)擊的特征得 到表1的結(jié)果。
[0038] 表1重復(fù)連續(xù)點(diǎn)擊特征統(tǒng)計(jì)
[0040] 從表1看到,在連續(xù)點(diǎn)擊中完全重復(fù)的比例很高,尤其是兩次連續(xù)點(diǎn)擊,比例高達(dá) 26.29%。對于這些連續(xù)點(diǎn)擊,我們認(rèn)為產(chǎn)生的原因如下:
[0041] 1)用戶偶然的刷新造成的記錄重復(fù),在重復(fù)點(diǎn)擊次數(shù)過多時(shí),這種情況發(fā)生的可 能性不大。
[0042] 2)有一些站點(diǎn)本身設(shè)計(jì)有問題,用戶在點(diǎn)擊這些站點(diǎn)時(shí),會產(chǎn)生等同于雙擊或多 次點(diǎn)擊的效果致使日志上留下了幾次完全一樣的記錄,這種情況的可能性也不大。
[0043] 3)最后一種,就是與其他連續(xù)點(diǎn)擊一樣,是程序點(diǎn)擊而非人為點(diǎn)擊的結(jié)果。
[0044] 對第三中情況不進(jìn)行分析,以下是針對上述1)和2)兩種情況進(jìn)行統(tǒng)計(jì)和去重,具 體見下面的進(jìn)一步分析統(tǒng)計(jì)。
[0045] 由上一節(jié)可知,連續(xù)點(diǎn)擊兩次的情況相對于連續(xù)點(diǎn)擊三次、四次、五次以上的情 況,出現(xiàn)的頻率高很多,所以我們分連續(xù)點(diǎn)擊兩次和三次以上來討論,利用訪問集中度對它 們的特征進(jìn)行統(tǒng)計(jì),得出表2數(shù)據(jù)。
[0046] 表2非重復(fù)連續(xù)點(diǎn)擊特征統(tǒng)計(jì)
[0048] 在用戶一天的點(diǎn)擊記錄中,未發(fā)生連續(xù)點(diǎn)擊的用戶數(shù)為193 528,除了訪問集中度 分析,我們再加入平均訪問量方法,最后發(fā)生連續(xù)點(diǎn)擊的用戶分布數(shù)據(jù)如表3所示。
[0049] 表3多次連續(xù)點(diǎn)擊的用戶點(diǎn)擊特征
[0051] 從表3可以看出,隨著用戶連續(xù)點(diǎn)擊出現(xiàn)次數(shù)的增多,平均訪問量和訪問集中度數(shù) 據(jù)逐漸偏離一天日志的相應(yīng)數(shù)據(jù),但是無源地址比例和目的地址非根目錄比例卻沒有太明 顯的變化,因?yàn)樯弦还?jié)統(tǒng)計(jì)已經(jīng)說明,對于連續(xù)點(diǎn)擊本身這兩項(xiàng)數(shù)據(jù)都會偏離,但是因?yàn)檫@ 里我們統(tǒng)計(jì)的是用戶的所有訪問記錄,所以可能用戶其他的點(diǎn)擊記錄沖淡了連續(xù)點(diǎn)擊記錄 的效果。對于這些用戶訪問過的站點(diǎn)進(jìn)行統(tǒng)計(jì)分析,發(fā)現(xiàn)他們訪問頻率高的站點(diǎn),與所有用 戶一天訪問的情況相比有一定出入。對于出現(xiàn)1~3次連續(xù)點(diǎn)擊的用戶,這種差別很小,可以 忽略,但是對于出現(xiàn)26次以上連續(xù)點(diǎn)擊的用戶,在其訪問頻率最高的前十位站點(diǎn)中,幾乎沒 有太熱門的網(wǎng)站。綜上所述,我們認(rèn)為對于出現(xiàn)1~3次連續(xù)點(diǎn)擊的用戶應(yīng)該是偶然的結(jié)果, 并非用戶的本意,可以不用處理;出現(xiàn)4~25次連續(xù)點(diǎn)擊的用戶,應(yīng)該并非偶然,但基本還可 以相信其除去連續(xù)點(diǎn)擊外的其他點(diǎn)擊;但對于出現(xiàn)26次以上連續(xù)點(diǎn)擊的用戶,可以視情況 濾去其所有點(diǎn)擊。
[0052] 最終通過以上分析,我們對訪問日志的IP記錄進(jìn)行訪問集中度和平均訪問量計(jì)算 后,對于與正常值如一