1.基于域名訪問的用戶離群行為識別與相似行為推薦方法,其特征在于:具體包含如下步驟;
2.根據(jù)權(quán)利要求1所述的基于域名訪問的用戶離群行為識別與相似行為推薦方法,其特征在于:在步驟1中,采集報(bào)文數(shù)據(jù)合并為會話通聯(lián)數(shù)據(jù),基于全域超大規(guī)模網(wǎng)絡(luò)流量中的超文本傳輸協(xié)議http和安全超文本傳輸協(xié)議https應(yīng)用層協(xié)議相關(guān)流量,構(gòu)建域名評價指標(biāo)體系;
3.根據(jù)權(quán)利要求1所述的基于域名訪問的用戶離群行為識別與相似行為推薦方法,其特征在于:在步驟2中,域名評價指標(biāo)體系搭建,具體如下:基于http和https應(yīng)用層協(xié)議會話數(shù)據(jù),從用戶訪問的每個對端出發(fā),考慮任意一個,記在一日內(nèi)與其通聯(lián)的用戶序列集合為,將訪問行為特征按大小形成有序的特征序列,從而構(gòu)建以為對象的15維評價指標(biāo)體系。
4.根據(jù)權(quán)利要求3所述的基于域名訪問的用戶離群行為識別與相似行為推薦方法,其特征在于:在步驟2中,域名評價指標(biāo)體系具體包含如下:
5.根據(jù)權(quán)利要求1所述的基于域名訪問的用戶離群行為識別與相似行為推薦方法,其特征在于:在步驟3中,用戶離群特征矩陣構(gòu)造:基于步驟2中搭建的域名行為指標(biāo)體系及用戶訪問域名特征指標(biāo),采用tukey’s?test離群值識別法量化用戶的離群程度,其原理是通過計(jì)算數(shù)據(jù)集的四分位數(shù)與四分位距iqr即三分位數(shù)與一分位數(shù)之差,來判斷數(shù)據(jù)離群程度;
6.根據(jù)權(quán)利要求5所述的基于域名訪問的用戶離群行為識別與相似行為推薦方法,其特征在于:根據(jù)tukey’s?test離群數(shù)據(jù)檢測方法構(gòu)建的用戶訪問域名離群特征矩陣,當(dāng)用戶訪問域名頻次離群程度值、用戶訪問域名頻繁度離群程度值、用戶訪問域名關(guān)聯(lián)服務(wù)端ip數(shù)離群程度值存在某一維度上大于指定閾值的情況,即,則在這一維度上,該用戶訪問該域名的行為程度高于其他訪問該域名的用戶水平,判定該用戶訪問該域名時存在極端離群行為;本發(fā)明綜合了用戶數(shù)、數(shù)據(jù)分布情況、域名服務(wù)類別多項(xiàng)因素,根據(jù)不同的域名熱門程度,設(shè)定了不同的離群判斷閾值。
7.根據(jù)權(quán)利要求1所述的基于域名訪問的用戶離群行為識別與相似行為推薦方法,其特征在于:在步驟3中,基于構(gòu)建的n*m*3維用戶訪問域名離群特征矩陣,針對饋入用戶,提取其在指定時間范圍內(nèi)訪問的域名集合d及用戶離群特征矩陣a,以為橋梁,關(guān)聯(lián)存在訪問域名集合d行為的用戶及對應(yīng)的用戶離群特征矩陣,采用余弦相似度(cosine?similarity)來作為特征相似度的度量標(biāo)準(zhǔn),通過計(jì)算饋入用戶離群特征矩陣a與關(guān)聯(lián)用戶離群特征矩陣的余弦相似距離,推薦與饋入用戶域名訪問行為相似度高的用戶。