本發(fā)明屬于網(wǎng)絡(luò)安全,尤其涉及一種基于全域域名訪問體系的用戶離群行為識別與相似行為推薦方法。
背景技術(shù):
1、在互聯(lián)網(wǎng)技術(shù)的高速發(fā)展下,網(wǎng)絡(luò)已成為信息傳遞和交流的核心平臺。企業(yè)用戶流量的分析對于維護(hù)網(wǎng)絡(luò)秩序、保障數(shù)據(jù)安全具有重要意義。然而,隨著網(wǎng)絡(luò)技術(shù)的不斷進(jìn)步,用戶流量的加密和匿名化處理越來越普遍,用戶行為的多樣性和復(fù)雜性不斷增加,這使得傳統(tǒng)的基于內(nèi)容分析的流量異常識別方法面臨巨大挑戰(zhàn)。傳統(tǒng)的異常檢測技術(shù),例如依賴固定規(guī)則的系統(tǒng)識別或者流量數(shù)據(jù)有效載荷分析方法,通常會在面對網(wǎng)絡(luò)協(xié)議和加密技術(shù)的更新?lián)Q代時(shí)表現(xiàn)出適應(yīng)性不足。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明所要解決的技術(shù)問題是針對背景技術(shù)的不足提供一種基于全域域名體系的用戶離群行為識別與相似行為推薦方法,其針對用戶上網(wǎng)邊界網(wǎng)關(guān)產(chǎn)生的訪問域名相關(guān)流量進(jìn)行異常行為識別與相似行為推薦。
2、本發(fā)明為解決上述技術(shù)問題采用以下技術(shù)方案:
3、基于域名訪問的用戶離群行為識別與相似行為推薦方法,具體包含如下步驟;
4、步驟1,根據(jù)用戶訪問域名頻次、訪問域名頻繁度行為特征構(gòu)建域名評價(jià)指標(biāo)體系,從多維特征量化全域用戶訪問域名行為的集中程度與離散程度;
5、步驟2,以域名評價(jià)體系為基礎(chǔ),通過tukey's?test離群檢測方法量化用戶訪問域名行為的離群程度,以此搭建用戶訪問域名極端離群行為識別系統(tǒng);其中,tukey's?test為圖基檢驗(yàn);
6、步驟3,以域名為橋梁關(guān)聯(lián)具有共同域名訪問行為的用戶,以離群程度特征矩陣刻畫用戶訪問域名的行為特征,結(jié)合機(jī)器學(xué)習(xí)算法針對用戶行為進(jìn)行深入的相似度分析;從而識別出潛在的異常行為模式和相似行為用戶。
7、作為本發(fā)明基于域名訪問的用戶離群行為識別與相似行為推薦方法的進(jìn)一步優(yōu)選方案,在步驟1中,采集報(bào)文數(shù)據(jù)合并為會話通聯(lián)數(shù)據(jù),基于全域超大規(guī)模網(wǎng)絡(luò)流量中的超文本傳輸協(xié)議http和安全超文本傳輸協(xié)議https應(yīng)用層協(xié)議相關(guān)流量,構(gòu)建域名評價(jià)指標(biāo)體系;
8、對會話通聯(lián)數(shù)據(jù)進(jìn)行過濾,并提取會話域名信息,每一條會話流量表示如下:
9、,其中,為第i條會話流量的用戶序列;為源ip;為宿ip;為源端口;為宿端口;為域名;為會話捕獲時(shí)間。
10、作為本發(fā)明基于域名訪問的用戶離群行為識別與相似行為推薦方法的進(jìn)一步優(yōu)選方案,在步驟2中,域名評價(jià)指標(biāo)體系搭建,具體如下:基于http和https應(yīng)用層協(xié)議會話數(shù)據(jù),從用戶訪問的每個(gè)對端出發(fā),考慮任意一個(gè),記在一日內(nèi)與其通聯(lián)的用戶序列集合為,將訪問行為特征按大小形成有序的特征序列,從而構(gòu)建以為對象的15維評價(jià)指標(biāo)體系。
11、作為本發(fā)明基于域名訪問的用戶離群行為識別與相似行為推薦方法的進(jìn)一步優(yōu)選方案,在步驟2中,域名評價(jià)指標(biāo)體系具體包含如下:
12、1)域名整體屬性:通過計(jì)算指定日期內(nèi)的對端用戶數(shù)來量化域名的用戶訪
13、問量,并基于用戶訪問量設(shè)計(jì)二級派生指標(biāo)——域名熱門程度,即通過累積分布曲線將按用戶訪問量劃分為超冷門域名、冷門域名、大眾域名、熱門域名;通過計(jì)算域名關(guān)聯(lián)的宿ip數(shù)來表示域名的服務(wù)端ip分布數(shù)量;形成域名整體屬性的3維指標(biāo);
14、域名被訪問用戶數(shù):,
15、域名關(guān)聯(lián)服務(wù)端ip數(shù):,
16、域名熱門程度:,
17、其中,為非重復(fù)計(jì)數(shù)函數(shù);
18、2)域名被訪問特征:將指定日期內(nèi)訪問的頻次特征、頻繁度特征、
19、關(guān)聯(lián)服務(wù)端ip數(shù)特征分別按大小形成有序的特征序列,以此量化被用戶訪問時(shí)的會話頻次的第一、三分位數(shù)、平均值、標(biāo)準(zhǔn)差、變異系數(shù)相關(guān)統(tǒng)計(jì)量,刻畫用戶訪會話頻次的總體偏好、集中趨勢和離散趨勢,形成域名被訪問特征的12維指標(biāo);用戶訪問域名的統(tǒng)計(jì)特征與域名指標(biāo)的計(jì)算公式如下:
20、訪問域名頻次:;
21、訪問頻次分位數(shù):;
22、訪問頻次均值:;
23、訪問頻次標(biāo)準(zhǔn)差:;
24、訪問頻次變異系數(shù):;
25、訪問域名頻繁度:;
26、訪問頻繁度分位數(shù):;
27、訪問頻繁度均值:;
28、訪問頻繁度標(biāo)準(zhǔn)差:;
29、訪問頻繁度變異系數(shù):;
30、訪問域名關(guān)聯(lián)ip數(shù):;
31、關(guān)聯(lián)ip數(shù)分位數(shù):;
32、關(guān)聯(lián)ip數(shù)均值:;
33、關(guān)聯(lián)ip數(shù)標(biāo)準(zhǔn)差:;
34、關(guān)聯(lián)ip數(shù)變異系數(shù):;
35、為一分位數(shù)函數(shù),為三分位數(shù)函數(shù);為計(jì)數(shù)函數(shù),為均值函數(shù),為標(biāo)準(zhǔn)差函數(shù),為離散系數(shù)函數(shù)。
36、作為本發(fā)明基于域名訪問的用戶離群行為識別與相似行為推薦方法的進(jìn)一步優(yōu)選方案,在步驟3中,用戶離群特征矩陣構(gòu)造:基于步驟2中搭建的域名行為指標(biāo)體系及用戶訪問域名特征指標(biāo),采用tukey’s?test離群值識別法量化用戶的離群程度,其原理是通過計(jì)算數(shù)據(jù)集的四分位數(shù)與四分位距iqr即三分位數(shù)與一分位數(shù)之差,來判斷數(shù)據(jù)離群程度;
37、結(jié)合tukey離群值識別法和iqr法則,將分布在的數(shù)據(jù)視為正向溫和離群點(diǎn),將的數(shù)據(jù)視為正向極端離群點(diǎn);本發(fā)明側(cè)重于極端離群點(diǎn)的識別;
38、量化用戶訪問行為特征的離群程度值,對于任意域名,計(jì)算一日內(nèi)用戶訪問的行為特征的正向極端離群程度值,當(dāng)時(shí),判定訪問時(shí)具備極端離群行為特征;
39、序列偏態(tài)修正:考慮到非實(shí)驗(yàn)環(huán)境下特征序列存在數(shù)據(jù)分布偏態(tài)問題,對涉及特征序列進(jìn)行以10為底的對數(shù)偏態(tài)修正,記為;結(jié)合域名評價(jià)指標(biāo)體系,修正后的用戶訪問域名頻次、頻繁度、關(guān)聯(lián)服務(wù)端ip數(shù)的離群程度值計(jì)算公式如下:1)用戶訪問域名頻次離群程度值:;2)用戶訪問名頻繁度離群程度值:;3)用戶訪問域名關(guān)聯(lián)服務(wù)端ip數(shù)離群程度值:;對于n個(gè)用戶、m個(gè)域名,本發(fā)明構(gòu)造出n*m*3維用戶離群特征矩陣。
40、作為本發(fā)明基于域名訪問的用戶離群行為識別與相似行為推薦方法的進(jìn)一步優(yōu)選方案,根據(jù)tukey’s?test離群數(shù)據(jù)檢測方法構(gòu)建的用戶訪問域名離群特征矩陣,當(dāng)用戶訪問域名頻次離群程度值、用戶訪問域名頻繁度離群程度值、用戶訪問域名關(guān)聯(lián)服務(wù)端ip數(shù)離群程度值存在某一維度上大于指定閾值的情況,即,則在這一維度上,該用戶訪問該域名的行為程度高于其他訪問該域名的用戶水平,判定該用戶訪問該域名時(shí)存在極端離群行為;本發(fā)明綜合了用戶數(shù)、數(shù)據(jù)分布情況、域名服務(wù)類別多項(xiàng)因素,根據(jù)不同的域名熱門程度,設(shè)定了不同的離群判斷閾值。
41、作為本發(fā)明基于域名訪問的用戶離群行為識別與相似行為推薦方法的進(jìn)一步優(yōu)選方案,在步驟3中,基于構(gòu)建的n*m*3維用戶訪問域名離群特征矩陣,針對饋入用戶,提取其在指定時(shí)間范圍內(nèi)訪問的域名集合d及用戶離群特征矩陣a,以為橋梁,關(guān)聯(lián)存在訪問域名集合d行為的用戶及對應(yīng)的用戶離群特征矩陣,采用余弦相似度(cosine?similarity)來作為特征相似度的度量標(biāo)準(zhǔn),通過計(jì)算饋入用戶離群特征矩陣a與關(guān)聯(lián)用戶離群特征矩陣的余弦相似距離,推薦與饋入用戶域名訪問行為相似度高的用戶。
42、本發(fā)明采用以上技術(shù)方案與現(xiàn)有技術(shù)相比,具有以下技術(shù)效果:
43、本發(fā)明通過深入挖掘邊界網(wǎng)關(guān)用戶流量數(shù)據(jù)中的行為特征,利用先進(jìn)的統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)算法,對用戶行為進(jìn)行細(xì)致的離群分析,通過識別出與大多數(shù)用戶行為顯著不同的離群點(diǎn),本發(fā)明能夠更準(zhǔn)確地發(fā)現(xiàn)潛在的異常行為;
44、本發(fā)明從用戶會話行為的角度搭建基于全域域名的用戶流量行為特征體系,無需對用戶流量數(shù)據(jù)的有效載荷進(jìn)行解密,有效保護(hù)了用戶數(shù)據(jù)的隱私性,同時(shí)解決了安全傳輸協(xié)議報(bào)文無法破解的問題;
45、本發(fā)明能夠有效解決協(xié)議更新導(dǎo)致需要重新訓(xùn)練模型的問題,通過基于全域用戶流量的離群行為相對指標(biāo)計(jì)算,能夠有效適應(yīng)網(wǎng)絡(luò)流量的高速變化,減少對于有標(biāo)簽訓(xùn)練集數(shù)據(jù)的依賴的同時(shí)提高異常用戶行為識別的效率和準(zhǔn)確性;
46、本發(fā)明提出了一種泛化推薦算法,能夠識別并推薦與目標(biāo)用戶流量行為模式相似的用戶,從而大幅簡化了對不同用戶網(wǎng)絡(luò)行為特征的逐一分析過程。通過基于共同訪問域名的離群特征刻畫,系統(tǒng)能夠自動(dòng)計(jì)算共同訪問域名特征的相似度,提供更為精準(zhǔn)的個(gè)性化推薦;此方法不僅提高了推薦系統(tǒng)的效率,還增強(qiáng)了其在多樣化用戶群體中的適用性和準(zhǔn)確性。