域名分類方法和裝置、域名識別方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供了一種域名分類方法和裝置、域名識別方法和系統(tǒng),該分類方法包括:獲取多個客戶端的域名訪問記錄;根據(jù)所述域名訪問記錄生成數(shù)據(jù)類型與預(yù)設(shè)無監(jiān)督特征學(xué)習(xí)算法對應(yīng)的待訓(xùn)練數(shù)據(jù);利用所述預(yù)設(shè)無監(jiān)督特征學(xué)習(xí)算法對所述待訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,獲取所述域名訪問記錄中包括的各個域名的無監(jiān)督特征向量;獲取所述各個域名的無監(jiān)督特征向量的相似度;根據(jù)獲取的各個無監(jiān)督特征向量的相似度對與無監(jiān)督特征向量對應(yīng)的域名進(jìn)行聚類,得到多個域名集合,一個域名集合中所有域名屬于同一分類。本發(fā)明提供的域名分類方法以及利用其進(jìn)行域名識別的方法不需要人工預(yù)先選取大量的樣本數(shù)據(jù),降低了人工工作量。
【專利說明】域名分類方法和裝置、域名識別方法和系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)【技術(shù)領(lǐng)域】,尤其涉及一種域名分類方法和裝置、域名識別方法和系統(tǒng)。
【背景技術(shù)】
[0002]域名是互聯(lián)網(wǎng)的基礎(chǔ)資源,相當(dāng)于互聯(lián)網(wǎng)上的門牌號碼,是網(wǎng)站、電子郵箱等各種互聯(lián)網(wǎng)應(yīng)用的載體。隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,域名技術(shù)已被廣泛應(yīng)用,如何對不同類型的域名進(jìn)行分類并識別成為一個重要的課題。
[0003]隨著每天新出現(xiàn)的注冊的域名的數(shù)量越來越大,人工分類的方式變得不現(xiàn)實。目前一種主流的對域名分類的方式是有監(jiān)督特征學(xué)習(xí)法,該方法中,預(yù)先根據(jù)不同的類別人工選取由大量的相應(yīng)類別的域名組成的樣本數(shù)據(jù),之后由大量的相應(yīng)類別的域名組成的樣本數(shù)據(jù)訓(xùn)練得到一個識別模型,之后根據(jù)該識別模型對各個域名進(jìn)行匹配,根據(jù)匹配結(jié)果進(jìn)行分類。這種方式仍然需要通過人工的方式預(yù)先選取大量的樣本數(shù)據(jù),工作量也非常大。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的目的在于提供一種能夠降低人工工作量的域名分類方法和裝置。
[0005]第一方面,本發(fā)明提供了一種域名分類裝置,包括:
[0006]域名獲取模塊,用于獲取多個客戶端的域名訪問記錄;
[0007]訓(xùn)練數(shù)據(jù)生成模塊,用于根據(jù)所述域名獲取模塊獲取到的所述域名訪問記錄生成預(yù)設(shè)數(shù)據(jù)類型的待訓(xùn)練數(shù)據(jù),所述預(yù)設(shè)數(shù)據(jù)類型與預(yù)設(shè)無監(jiān)督特征學(xué)習(xí)算法對應(yīng);
[0008]第一訓(xùn)練模塊,用于利用所述預(yù)設(shè)無監(jiān)督特征學(xué)習(xí)算法對所述待訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,獲取所述域名訪問記錄中包括的各個域名的無監(jiān)督特征向量;
[0009]相似度獲取模塊,用于獲取所述各個域名的無監(jiān)督特征向量的相似度;
[0010]聚類模塊,用于根據(jù)各個無監(jiān)督特征向量的相似度對與無監(jiān)督特征向量對應(yīng)的域名進(jìn)行聚類,得到多個域名集合,一個域名集合中所有域名屬于同一分類。
[0011]可選的,所述預(yù)設(shè)無監(jiān)督特征學(xué)習(xí)算法為算法;
[0012]所述訓(xùn)練數(shù)據(jù)生成模塊用于根據(jù)每一個客戶端的域名訪問記錄生成一個文本數(shù)據(jù)類型的待訓(xùn)練數(shù)據(jù),一個文本數(shù)據(jù)類型的待訓(xùn)練數(shù)據(jù)中的每一個詞組表示一個域名,且一個文本數(shù)據(jù)類型的待訓(xùn)練數(shù)據(jù)中的各個詞組按照其對應(yīng)的域名被該客戶端訪問的時間排列。
[0013]可選的,所述域名獲取模塊用于獲取域名解析服務(wù)器在預(yù)設(shè)時間段內(nèi)的域名解析數(shù)據(jù);根據(jù)所述域名解析數(shù)據(jù)獲得多個客戶端的域名訪問記錄。
[0014]可選的,還包括:第二訓(xùn)練模塊,用于在所述聚類模塊根據(jù)各個無監(jiān)督特征向量的相似度對與無監(jiān)督特征向量對應(yīng)的域名進(jìn)行聚類之前,根據(jù)預(yù)設(shè)經(jīng)驗特征量化算法對各個域名中的經(jīng)驗特征進(jìn)行運算得到各個域名的經(jīng)驗特征向量;其中,所述經(jīng)驗特征為預(yù)先設(shè)定的特定類型的特征;
[0015]融合模塊,用于將各個域名的經(jīng)驗特征值向量與對應(yīng)的無監(jiān)督特征向量進(jìn)行融合,得到融合后的無監(jiān)督特征向量;
[0016]所述相似度獲取模塊具體用于獲取各個域名對應(yīng)的融合后的無監(jiān)督特征向量的相似度。
[0017]可選的,所述融合模塊用于將各個域名的經(jīng)驗特征值向量與對應(yīng)的無監(jiān)督特征向量進(jìn)行疊加,使用主成分分析算法或深度學(xué)習(xí)算法對疊加后的特征向量進(jìn)行降維,得到融合后的無監(jiān)督特征向量。
[0018]第二方面,本發(fā)明還提供了一種域名識別系統(tǒng),該系統(tǒng)上述任一項所述的域名分類裝置,還包括:
[0019]類別獲取裝置,用于確定所述域名訪問記錄中包括的域名中至少一個域名的類別;
[0020]類別確定模塊,用于根據(jù)所述類別獲取裝置獲取到的至少一個域名的類別確定所述至少一個域名所在的域名集合的類別。
[0021]第三方面,本發(fā)明還提供了一種域名分類方法,包括:
[0022]獲取多個客戶端的域名訪問記錄;
[0023]根據(jù)所述域名訪問記錄生成預(yù)設(shè)數(shù)據(jù)類型的待訓(xùn)練數(shù)據(jù),所述預(yù)設(shè)數(shù)據(jù)類型與預(yù)設(shè)無監(jiān)督特征學(xué)習(xí)算法對應(yīng);
[0024]利用所述預(yù)設(shè)無監(jiān)督特征學(xué)習(xí)算法對所述待訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,獲取所述域名訪問記錄中包括的各個域名的無監(jiān)督特征向量;
[0025]獲取所述各個域名的無監(jiān)督特征向量的相似度;
[0026]根據(jù)獲取到的各個無監(jiān)督特征向量的相似度對與無監(jiān)督特征向量對應(yīng)的域名進(jìn)行聚類,得到多個域名集合,一個域名集合中所有域名屬于同一分類。
[0027]可選的,所述預(yù)設(shè)無監(jiān)督特征學(xué)習(xí)算法為word2vec算法;
[0028]所述根據(jù)所述域名訪問記錄生成預(yù)設(shè)數(shù)據(jù)類型的待訓(xùn)練數(shù)據(jù),包括:
[0029]根據(jù)每一個客戶端的域名訪問記錄生成一個文本數(shù)據(jù)類型的待訓(xùn)練數(shù)據(jù),一個文本數(shù)據(jù)類型的待訓(xùn)練數(shù)據(jù)中的每一個詞組表示一個域名,且一個文本數(shù)據(jù)類型的待訓(xùn)練數(shù)據(jù)中的各個詞組按照其對應(yīng)的域名被該客戶端訪問的時間排列。
[0030]可選的,所述獲取多個客戶端的域名訪問記錄,包括:
[0031]獲取域名解析服務(wù)器在預(yù)設(shè)時間段內(nèi)的域名解析數(shù)據(jù);
[0032]根據(jù)所述域名解析數(shù)據(jù)獲得多個客戶端的域名訪問記錄。
[0033]可選的,在根據(jù)各個無監(jiān)督特征向量的相似度對與無監(jiān)督特征向量對應(yīng)的域名進(jìn)行聚類,得到多個域名集合之前,所述方法還包括:
[0034]根據(jù)預(yù)設(shè)經(jīng)驗特征量化算法對各個域名的經(jīng)驗特征進(jìn)行運算得到各個域名的經(jīng)驗特征向量;其中,所述經(jīng)驗特征為預(yù)先設(shè)定的特定類型的特征;
[0035]將各個域名的經(jīng)驗特征值向量與對應(yīng)的無監(jiān)督特征向量進(jìn)行融合,得到融合后的無監(jiān)督特征向量;
[0036]所述獲取所述各個域名的無監(jiān)督特征向量的相似度,包括:
[0037]獲取各個域名對應(yīng)的融合后的無監(jiān)督特征向量的相似度。
[0038]可選的,所述將各個域名的經(jīng)驗特征值向量與對應(yīng)的無監(jiān)督特征向量進(jìn)行融合,得到融合后的無監(jiān)督特征向量,包括:
[0039]將各個域名的經(jīng)驗特征值向量與對應(yīng)的無監(jiān)督特征向量進(jìn)行疊加,使用主成分分析算法或深度學(xué)習(xí)算法對疊加后的特征向量進(jìn)行降維,得到融合后的無監(jiān)督特征向量。
[0040]第四方面,本發(fā)明還提供了一種域名識別系統(tǒng),包括上述任一項所述的域名分類裝置,還包括:確定所述域名訪問記錄中包括的域名中至少一個域名的類別;
[0041]根據(jù)所述至少一個域名的類別確定所述至少一個域名所在的域名集合的類別。
[0042]本發(fā)明提供的域名分類方法中,獲取多個客戶端的域名訪問記錄;根據(jù)所述域名訪問記錄生成數(shù)據(jù)類型與預(yù)設(shè)無監(jiān)督特征學(xué)習(xí)算法對應(yīng)的待訓(xùn)練數(shù)據(jù);利用所述預(yù)設(shè)無監(jiān)督特征學(xué)習(xí)算法對所述待訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,獲取所述域名訪問記錄中包括的各個域名的無監(jiān)督特征向量;獲取所述各個域名的無監(jiān)督特征向量的相似度;根據(jù)獲取到的各個無監(jiān)督特征向量的相似度對與無監(jiān)督特征向量對應(yīng)的域名進(jìn)行聚類,得到多個域名集合。本發(fā)明提供的域名分類方法不需要人工預(yù)先選取大量的樣本數(shù)據(jù),降低了人工工作量。
【專利附圖】
【附圖說明】
[0043]圖1為本發(fā)明一實施例提供的一種域名分類方法的流程示意圖;
[0044]圖2為本發(fā)明再一實施例提供的一種域名識別方法的流程示意圖;
[0045]圖3為本發(fā)明再一實施例提供的一種域名分類裝置的結(jié)構(gòu)示意圖;
[0046]圖4為本發(fā)明再一實施例提供的一種域名識別系統(tǒng)的結(jié)構(gòu)示意圖。
【具體實施方式】
[0047]下面結(jié)合附圖和實施例,對本發(fā)明的【具體實施方式】作進(jìn)一步詳細(xì)描述。以下實施例用于說明本發(fā)明,但不用來限制本發(fā)明的范圍。
[0048]如圖1所示,為本發(fā)明一實施例提供的一種域名分類方法,該方法可以包括:
[0049]步驟101,獲取多個客戶端的域名訪問記錄。
[0050]步驟102,根據(jù)所述域名訪問記錄生成預(yù)設(shè)數(shù)據(jù)類型的待訓(xùn)練數(shù)據(jù),所述預(yù)設(shè)數(shù)據(jù)類型與預(yù)設(shè)無監(jiān)督特征學(xué)習(xí)算法對應(yīng)。
[0051]步驟103,利用所述預(yù)設(shè)無監(jiān)督特征學(xué)習(xí)算法對所述待訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,獲取所述域名訪問記錄中包括的各個域名的無監(jiān)督特征向量;
[0052]步驟104,獲取所述各個域名的無監(jiān)督特征向量的相似度;
[0053]步驟105,根據(jù)獲取到的各個無監(jiān)督特征向量的相似度對與無監(jiān)督特征向量對應(yīng)的域名進(jìn)行聚類,得到多個域名集合,一個域名集合中所有域名屬于同一分類。
[0054]本發(fā)明提供域名分類方法,能夠在不需要人工預(yù)先選取大量的樣本數(shù)據(jù)的前提下,將類別相同或者相似的域名聚為一類,降低了人工工作量。
[0055]本發(fā)明實施例中所指的客戶端可以是指能夠進(jìn)行訪問網(wǎng)絡(luò)的網(wǎng)絡(luò)終端。具體的,這里的客戶端可以為電腦、手機、平板電腦等??蛻舳说挠蛎L問記錄中的域名可以包括該客戶端所訪問的網(wǎng)頁的域名、游戲端的域名、聊天工具的域名等。
[0056]在具體實施時,這里的步驟101可以具體包括圖中未示出如下步驟:
[0057]步驟1011,獲取域名解析服務(wù)器在預(yù)設(shè)時間段內(nèi)的域名解析數(shù)據(jù);
[0058]步驟1012,根據(jù)獲取到的域名解析數(shù)據(jù)得到多個客戶端的域名訪問記錄。
[0059]通過這種方式,能夠較為簡單的獲取大量的客戶端的域名訪問記錄。并且,能夠使得所選擇的客戶端具有更大的隨機性,相應(yīng)的,能夠使聚類結(jié)果更為準(zhǔn)確,進(jìn)而提高域名識別的準(zhǔn)確性。
[0060]具體的,上述的步驟1012可以具體包括:將獲取到的域名解析請求按照源IP地址進(jìn)行分組;根據(jù)每一個源IP地址發(fā)起的域名解析請求確定具有該源IP地址的客戶端的域名訪問記錄。在實際應(yīng)用中,這里的預(yù)設(shè)時間可以根據(jù)實際需要任意設(shè)置,當(dāng)然就為了提高識別的準(zhǔn)確率,可以使設(shè)置一個較長的預(yù)設(shè)時間。比如兩個周等。
[0061]可選的,在上述的步驟1011中,還可以在獲取域名解析服務(wù)器在預(yù)設(shè)時間段內(nèi)的域名解析數(shù)據(jù)之后,刪除無效的域名解析數(shù)據(jù),之后在步驟1012中,僅根據(jù)剩余的域名解析數(shù)據(jù)得到多個客戶端的域名訪問記錄。這里刪除無效的域名解析數(shù)據(jù)可以包括:刪除重復(fù)的域名解析數(shù)據(jù),和/或,刪除錯誤的域名解析數(shù)據(jù)、和/或刪除所請求解析的域名低于預(yù)設(shè)閾值的域名解析數(shù)據(jù)。進(jìn)一步的,可以按照預(yù)設(shè)的規(guī)則判斷哪些域名解析數(shù)據(jù)為錯誤的域名解析數(shù)據(jù)。
[0062]當(dāng)然在實際應(yīng)用中,也可以通過其他方式獲取多個客戶端的域名訪問記錄;比如可以通過人工導(dǎo)入的方式。具體通過何種方式實現(xiàn)上述的步驟101并不影響本發(fā)明的保護(hù)范圍。
[0063]在具體實施時,可以采用多種無監(jiān)督特征學(xué)習(xí)算法對域名進(jìn)行訓(xùn)練并聚類,相應(yīng)的,在步驟102中,需要針對不同的無監(jiān)督特征學(xué)習(xí)算法生成不同數(shù)據(jù)類型的待訓(xùn)練數(shù)據(jù)。
[0064]word2vec (word to vector)是一個將文本數(shù)據(jù)類型的數(shù)據(jù)轉(zhuǎn)換成向量形式的工具。通過轉(zhuǎn)換,可以把對文本數(shù)據(jù)類型的數(shù)據(jù)的處理簡化為向量空間中的向量運算,計算出向量空間上的相似度。下面以所采用的無監(jiān)督特征學(xué)習(xí)算法為word2VeC進(jìn)行說明。
[0065]當(dāng)所采用的無監(jiān)督特征學(xué)習(xí)算法為word2vec時,步驟102可以具體包括:根據(jù)每一個客戶端的域名訪問記錄生成一個文本數(shù)據(jù)類型的待訓(xùn)練數(shù)據(jù),該文本數(shù)據(jù)類型的待訓(xùn)練數(shù)據(jù)中的每一個詞組表示一個域名,且一個文本數(shù)據(jù)類型的待訓(xùn)練數(shù)據(jù)中的各個詞組按照其對應(yīng)的域名被該客戶端訪問的時間排列。具體的,在上述的步驟102中生成的一個文本數(shù)據(jù)類型的待訓(xùn)練數(shù)據(jù)中各個詞組可以為域名本身,也可以為域名的標(biāo)識。比如,一種可選的實施例中,可以對步驟101中獲取到的多個客戶端的域名訪問記錄中所訪問的全部域名采用對應(yīng)的數(shù)字標(biāo)識進(jìn)行表示。之后針對每一個客戶端的域名訪問記錄,將該域名訪問記錄中所訪問的域名按時間順序進(jìn)行排列,并將域名替換為對應(yīng)的數(shù)字標(biāo)識得到該客戶端的域名訪問記錄得到一個文本數(shù)據(jù)類型的待訓(xùn)練數(shù)據(jù)。舉例來說,如果一個客戶端訪問的域名依次為 WWW.abed, com、www.123abc.com、www.alb2c.com、www.a2b2c4.com,另一客戶端訪問的域名依次為綱1 abed, com、www.alb2c.com、www.a2e5.com、www.123abc.com,其中,www.abed, com對應(yīng)的數(shù)字標(biāo)識為00001、www.123abc.com對應(yīng)的數(shù)字標(biāo)識為00011、www.alb2c.com對應(yīng)的數(shù)字標(biāo)識為00021、www.a2b2c4.comw對應(yīng)的數(shù)字標(biāo)識為00012,www.a2e5.com對應(yīng)的數(shù)字標(biāo)識為10010,則前一客戶端的域名訪問記錄所對應(yīng)的文本數(shù)據(jù)類型的待訓(xùn)練數(shù)據(jù)可以表示為00001000110002100012,后一客戶端的域名訪問記錄所對應(yīng)的文本數(shù)據(jù)類型的待訓(xùn)練數(shù)據(jù)可以表示為00001000211001000011。通過這種方式能夠降低步驟103計算量。
[0066]在步驟105中可以獲取一個人工輸入的相似度的閾值,之后根據(jù)該相似度的閾值對相似度在該閾值范圍之上的多個無監(jiān)督特征向量對應(yīng)的域名聚為一類,或者也可以預(yù)先獲取一個需要聚類的數(shù)目,比如需要聚出100個類,根據(jù)需要聚類的數(shù)目,確定聚類的精度,進(jìn)而聚類出相應(yīng)輸出的域名集合。在具體實施時,通過選擇不同的聚類精度和聚類策略,可以聚類得到惡意域名的域名集合和合法域名的域名集合,也可以聚類得到商業(yè)網(wǎng)站域名集合、導(dǎo)航網(wǎng)站域名集合、社交網(wǎng)站域名集合、論壇網(wǎng)站域名集合、門戶網(wǎng)站域名集合等。
[0067]根據(jù)相似度對向量進(jìn)行聚類的方法可以有多種,本發(fā)明在此不再詳細(xì)說明。
[0068]具體的,在步驟104之前,該方法還可以包括圖中未示出的:
[0069]步驟10如,根據(jù)預(yù)設(shè)經(jīng)驗特征量化算法對各個域名中的經(jīng)驗特征進(jìn)行運算得到各個域名的經(jīng)驗特征向量;其中,所述經(jīng)驗特征為預(yù)先設(shè)定的特定類型的特征;將各個域名的經(jīng)驗特征值向量與對應(yīng)的無監(jiān)督特征向量進(jìn)行融合,得到融合后的無監(jiān)督特征向量;
[0070]此時,這里的步驟104可以具體包括圖中為示出的:
[0071]步驟104’,獲取各個域名對應(yīng)的融合后的無監(jiān)督特征向量的相似度。
[0072]在具體實施時,這里所指的預(yù)設(shè)的經(jīng)驗特征可以是指域名解析系統(tǒng)(1)011121111版11116
響應(yīng)、同于客戶端所請求同一域名的時間間隔、域名字符串的長度等根據(jù)經(jīng)驗選擇的特征,獲取各個域名的上述經(jīng)驗特征,并對相應(yīng)的經(jīng)驗特征按照預(yù)設(shè)的經(jīng)驗特征量化算法進(jìn)行賦值,最終得到由各個權(quán)重值組成的經(jīng)驗特征向量。獲取域名的經(jīng)驗特征向量的方式可以參考現(xiàn)有技術(shù),在此不再詳細(xì)說明。
[0073]通過這種方式,能夠使用經(jīng)驗特征相同對得到的無監(jiān)督特征向量進(jìn)行修正,使聚類更為準(zhǔn)確。
[0074]進(jìn)一步的,這里的步驟10?可以具體包括:針對每一個域名,其經(jīng)驗特征值向量與其無監(jiān)督特征向量進(jìn)行疊加,使用主成分分析001111)0116111: ^17818,
算法或深度學(xué)習(xí)算法對疊加后的特征向量進(jìn)行降維,得到融合后的無監(jiān)督特征向量。比如在實際應(yīng)用中,可以將一個100維度的無監(jiān)督特征向量與一個20維度的經(jīng)驗特征向量進(jìn)行疊加,得到一個120維度的特征向量,之后使用主成分分析?…算法或深度學(xué)習(xí)算法確定相關(guān)性比較大的兩個維度并刪除其中一個維度,另一方面,確定對類別識別影響較小的維度并刪除。這樣做的好處是,降低步驟105的計算的復(fù)雜度,另一方面,由于降低了維度之間的相關(guān)性,能夠使聚類結(jié)果更為準(zhǔn)確。
[0075]本發(fā)明一個實施例還提供了一種域名識別方法,該方法可以包括如圖1所示的域名分類方法,還包括圖中未示出的:
[0076]步驟106,確定所述域名訪問記錄中包括的域名中至少一個域名的類別;
[0077]步驟107,根據(jù)所述至少一個域名的類別確定所述至少一個域名所在的域名集合的類別。
[0078]在具體實施時,上述的步驟106中確定至少一個域名的類別的方式是:記錄用戶針對域名記錄中部分域名所標(biāo)記的類別。比如人工的識別一個商業(yè)網(wǎng)站的域名、一個導(dǎo)航網(wǎng)站的域名、一個社交網(wǎng)站的域名、一個論壇網(wǎng)站的域名、一個門戶網(wǎng)站的域名等并標(biāo)注。按照本發(fā)明提供的識別方法,這些種子域名最終會聚類到相應(yīng)的域名集合中。這樣,在步驟107中,可以根據(jù)種子域名的類別確定種子域名所在的域名集合的類別,并相應(yīng)的標(biāo)記。通過這種方式,能夠快速識別多個未知的域名。
[0079]需要指出的是,在實際應(yīng)用中這里的步驟106可以在圖1中的步驟101之后步驟107之前的任一時刻執(zhí)行,比如在步驟101之后,步驟102之前,選取步驟101獲取到的域名訪問記錄中包含的部分域名并標(biāo)記其類別?;蛘撸部梢栽诓襟E105之后,從各個域名集合或者部分域名集合中選取部分域名并標(biāo)記。
[0080]在具體實施時,如果一個域名集合中的一個域名為特定類別的域名,則可以推斷包含該種子域名的域名集合中的所有域名均為特定類型的域名。當(dāng)然在實際應(yīng)用中,在確定在一個域名集合中的一個域名為特定類別的域名之后,也通過其他優(yōu)化的算法確定歸屬于該域名集合的其他域名是否為特定類別的域名。
[0081]下面對本發(fā)明提供的一種域名識別方法的一個完整實施例進(jìn)行詳細(xì)說明,如圖2所示,該方法可以包括:
[0082]步驟201,從DNS服務(wù)器上獲取該DNS服務(wù)器在預(yù)設(shè)時間段內(nèi)接收到的域名解析請求。
[0083]步驟202,刪除獲取到的域名解析請求中的無效域名解析請求。
[0084]在具體實施時,可以包括刪除錯誤的域名解析請求、所請求的域名的次數(shù)小于預(yù)設(shè)閾值的域名解析請求等。
[0085]步驟203,根據(jù)源IP地址對剩余的各個域名解析請求進(jìn)行分組,得到各個源IP地址發(fā)起的所有域名解析請求。
[0086]步驟204,針對每一個源IP地址發(fā)起的所有域名解析請求,生成一個文本數(shù)據(jù)類型的待訓(xùn)練數(shù)據(jù)。該文本數(shù)據(jù)類型的待訓(xùn)練數(shù)據(jù)中的每一個詞組表示一個給源IP地址請求的域名,且一個文本數(shù)據(jù)中的各個詞組按照其對應(yīng)的域名被該源IP地址請求的時間排列。
[0087]步驟205,采用WOrd2VeC算法對得到的各個待訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,得到域名的無監(jiān)督特征向量。
[0088]步驟206,根據(jù)預(yù)設(shè)經(jīng)驗特征量化算法對各個域名中的經(jīng)驗特征進(jìn)行運算得到各個域名的經(jīng)驗特征向量;其中,所述經(jīng)驗特征為預(yù)先設(shè)定的特定類型的特征。
[0089]步驟207,將步驟205針對每一個域名中得到的無監(jiān)督特征向量和步驟206中得到的經(jīng)驗特征向量進(jìn)行疊加。
[0090]步驟208,使用主成分分析PCA算法或深度學(xué)習(xí)算法對步驟207疊加后的特征向量進(jìn)行降維。
[0091]步驟209,獲取步驟208中得到的各個特征向量的相似度。
[0092]步驟210,根據(jù)步驟209中獲取的相似度對對步驟208各個的域名進(jìn)行聚類,得到多個域名集合,一個域名集合中所有域名屬于同一分類。
[0093]至此,完成了對域名進(jìn)行分類的步驟。在步驟210之后,該方法還可以包括如圖2所示的:
[0094]步驟211,確定所述域名訪問記錄中包括的域名中至少一個域名的類別。
[0095]步驟212,根據(jù)所述至少一個域名的類別確定所述至少一個域名所在的域名集合的類別。
[0096]在實際應(yīng)用中,如果兩個詞組在多個文本數(shù)據(jù)中的上下文關(guān)系都比較接近,則很可能說明這兩個詞組的性質(zhì)比較相近。相應(yīng)的,如果在多個客戶端對應(yīng)的域名訪問記錄中,訪問一個域名之前訪問的若干個域名和之后訪問的若干個域名與訪問另一個域名之前訪問的若干個域名和之后訪問的若干個域名都比較相似,則說明這兩個域名也很可能為相同類別的域名,根據(jù)本發(fā)明提供的方法,這兩個域名會被聚為一類,通過識別其中一個域名,就能夠確定另一個域名的類別。
[0097]需要指出的是,雖然本發(fā)明實施例中,是以10^(12^6(3算法、將域名訪問記錄處理成^1X12^6(3算法所訓(xùn)練的文本類型的數(shù)據(jù)進(jìn)行的說明,但是在實際應(yīng)用中通過其他類型的無監(jiān)督特征學(xué)習(xí)算法也能達(dá)到同樣的效果,本發(fā)明實施例在此不再進(jìn)行詳細(xì)說明。
[0098]基于相同的構(gòu)思,本發(fā)明還提供了一種域名分類裝置,可用于執(zhí)行上述的域名分類方法,如圖3所示,該裝置可以包括:
[0099]域名獲取模塊301,用于獲取多個客戶端的域名訪問記錄;
[0100]域名處理模塊302,用于根據(jù)域名獲取模塊301獲取到的所述域名訪問記錄生成數(shù)據(jù)類型與預(yù)設(shè)無監(jiān)督特征學(xué)習(xí)算法對應(yīng)的待訓(xùn)練數(shù)據(jù);
[0101]第一訓(xùn)練模塊303,用于利用預(yù)設(shè)無監(jiān)督特征學(xué)習(xí)算法對訓(xùn)練數(shù)據(jù)生成模塊302生成的待訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,獲取所述域名訪問記錄中包括的各個域名的無監(jiān)督特征向量;
[0102]相似度獲取模塊304,用于獲取所述各個域名的無監(jiān)督特征向量的相似度;
[0103]聚類模塊305,用于根據(jù)相似度獲取模塊304獲取到的相似度對與無監(jiān)督特征向量對應(yīng)的域名進(jìn)行聚類,得到多個域名集合,一個域名集合中所有域名屬于同一分類。
[0104]本發(fā)明提供的域名分類裝置不需要人工預(yù)先選取大量的樣本數(shù)據(jù),降低了人工工作量。
[0105]可選的,所述預(yù)設(shè)無監(jiān)督特征學(xué)習(xí)算法為算法;
[0106]訓(xùn)練數(shù)據(jù)生成模塊302,用于根據(jù)所述域名獲取模塊301獲取到的所述域名訪問記錄生成數(shù)據(jù)類型與預(yù)設(shè)無監(jiān)督特征學(xué)習(xí)算法對應(yīng)的待訓(xùn)練數(shù)據(jù)。
[0107]可選的,域名獲取模塊301用于獲取域名解析服務(wù)器在預(yù)設(shè)時間段內(nèi)的域名解析數(shù)據(jù),根據(jù)所述域名解析數(shù)據(jù)獲得多個客戶端的域名訪問記錄。
[0108]可選的,該裝置還包括圖中未示出的:第二訓(xùn)練模塊306,用于在所述聚類模塊305根據(jù)各個無監(jiān)督特征向量的相似度對與無監(jiān)督特征向量對應(yīng)的域名進(jìn)行聚類之前,根據(jù)預(yù)設(shè)經(jīng)驗特征量化算法對各個域名中的經(jīng)驗特征進(jìn)行運算得到各個域名的經(jīng)驗特征向量;其中,所述經(jīng)驗特征為預(yù)先設(shè)定的特定類型的特征;
[0109]融合模塊307,用于將所述第二訓(xùn)練模塊306訓(xùn)練得到的各個域名的經(jīng)驗特征值向量與第一訓(xùn)練模塊303訓(xùn)練得到的相應(yīng)域名對應(yīng)的無監(jiān)督特征向量進(jìn)行融合,得到融合后的無監(jiān)督特征向量;
[0110]聚類模塊305具體用于獲取各個域名對應(yīng)的融合后的無監(jiān)督特征向量的相似度。
[0111]可選的,聚類模塊304用于將各個域名的經(jīng)驗特征值向量與對應(yīng)的無監(jiān)督特征向量進(jìn)行疊加,使用主成分分析算法或深度學(xué)習(xí)算法對疊加后的特征向量進(jìn)行降維,得到融合后的無監(jiān)督特征向量。
[0112]在一方面,本發(fā)明還提供了一種域名識別系統(tǒng),可用于執(zhí)行上述的域名識別方法,如圖4所示,該系統(tǒng)可以包括域名識別裝置410,這里域名識別裝置410可以為圖3中所示的域名識別裝置,該系統(tǒng)還可以包括:
[0113]類別獲取裝置420,用于確定所述域名訪問記錄中包括的域名中至少一個域名的類別;
[0114]類別確定模塊430,用于根據(jù)所述類別獲取裝置420獲取到的至少一個域名的類別確定所述至少一個域名所在的域名集合的類別。
[0115]本發(fā)明的說明書中,說明了大量具體細(xì)節(jié)。然而,能夠理解,本發(fā)明的實施例可以在沒有這些具體細(xì)節(jié)的情況下實踐。在一些實例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對本說明書的理解。
[0116]類似地,應(yīng)當(dāng)理解,為了精簡本發(fā)明公開并幫助理解各個發(fā)明方面中的一個或多個,在上面對本發(fā)明的示例性實施例的描述中,本發(fā)明的各個特征有時被一起分組到單個實施例、圖、或者對其的描述中。然而,并不應(yīng)將該公開的方法解釋呈反映如下意圖:即所要求保護(hù)的本發(fā)明要求比在每個權(quán)利要求中所明確記載的特征更多的特征。更確切地說,如下面的權(quán)利要求書所反映的那樣,發(fā)明方面在于少于前面公開的單個實施例的所有特征。因此,遵循【具體實施方式】的權(quán)利要求書由此明確地并入該【具體實施方式】,其中每個權(quán)利要求本身都作為本發(fā)明的單獨實施例。
[0117]本領(lǐng)域技術(shù)人員可以理解,可以對實施例中的設(shè)備中的模塊進(jìn)行自適應(yīng)性地改變并且把它們設(shè)置在于該實施例不同的一個或多個設(shè)備中??梢园褜嵤├械哪K或單元或組件組合成一個模塊或單元或組件,以及此外可以把它們分成多個子模塊或子單元或子組件。除了這樣的特征和/或過程或者單元中的至少一些是互相排斥之處,可以采用任何組合對本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者設(shè)備的所有過程或單元進(jìn)行組合。除非另外明確陳述,本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的每個特征可以由提供相同、等同或相似目的替代特征來代替。
[0118]此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實施例包括其它實施例中所包括的某些特征而不是其它特征,但是不同實施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實施例。例如,在下面的權(quán)利要求書中,所要求保護(hù)的實施例的任意之一都可以以任意的組合方式來使用。
[0119]本發(fā)明的各個部件實施例可以以硬件實現(xiàn),或者以在一個或者多個處理器上運行的軟件模塊實現(xiàn),或者以它們的組合實現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以在實踐中使用微處理器或者數(shù)字信號處理器(039)來實現(xiàn)根據(jù)本發(fā)明實施例的一種瀏覽器終端的設(shè)備中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設(shè)備或者裝置程序(例如,計算機程序和計算機程序產(chǎn)品)。這樣的實現(xiàn)本發(fā)明的程序可以存儲在計算機可讀介質(zhì)上,或者可以具有一個或者多個信號的形式。這樣的信號可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號上提供,或者以任何其他形式提供。
[0120]應(yīng)該注意的是上述實施例對本發(fā)明進(jìn)行說明而不是對本發(fā)明進(jìn)行限制,并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計出替換實施例。在權(quán)利要求中,不應(yīng)將位于括號之間的任何參考符號構(gòu)造成對權(quán)利要求的限制。詞組“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的詞組“一”或“一個”不排除存在多個這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計算機來實現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個可以是通過同一個硬件項來具體體現(xiàn)。詞組第一、第二、以及第三等的使用不表示任何順序??蓪⑦@些詞組解釋為名稱。
[0121]最后應(yīng)說明的是:以上各實施例僅用以說明本發(fā)明的技術(shù)方案,而非對其限制;盡管參照前述各實施例對本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對前述各實施例所記載的技術(shù)方案進(jìn)行修改,或者對其中部分或者全部技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實施例技術(shù)方案的范圍,其均應(yīng)涵蓋在本發(fā)明的權(quán)利要求和說明書的范圍當(dāng)中。
[0122]本發(fā)明實施例還提供了:
[0123]Al,一種域名分類裝置,包括:
[0124]域名獲取模塊,用于獲取多個客戶端的域名訪問記錄;
[0125]訓(xùn)練數(shù)據(jù)生成模塊,用于根據(jù)所述域名獲取模塊獲取到的所述域名訪問記錄生成預(yù)設(shè)數(shù)據(jù)類型的待訓(xùn)練數(shù)據(jù),所述預(yù)設(shè)數(shù)據(jù)類型與預(yù)設(shè)無監(jiān)督特征學(xué)習(xí)算法對應(yīng);
[0126]第一訓(xùn)練模塊,用于利用所述預(yù)設(shè)無監(jiān)督特征學(xué)習(xí)算法對所述訓(xùn)練數(shù)據(jù)生成模塊生成的待訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,獲取所述域名訪問記錄中包括的各個域名的無監(jiān)督特征向量;
[0127]相似度獲取模塊,用于獲取所述各個域名的無監(jiān)督特征向量的相似度;
[0128]聚類模塊,用于根據(jù)各個無監(jiān)督特征向量的相似度對與無監(jiān)督特征向量對應(yīng)的域名進(jìn)行聚類,得到多個域名集合,一個域名集合中所有域名屬于同一分類。
[0129]A2、如Al所述的裝置,所述預(yù)設(shè)無監(jiān)督特征學(xué)習(xí)算法為word2vec算法;
[0130]所述訓(xùn)練數(shù)據(jù)生成模塊用于根據(jù)每一個客戶端的域名訪問記錄生成一個文本數(shù)據(jù)類型的待訓(xùn)練數(shù)據(jù),一個文本數(shù)據(jù)類型的待訓(xùn)練數(shù)據(jù)中的每一個詞組表示一個域名,且一個文本數(shù)據(jù)類型的待訓(xùn)練數(shù)據(jù)中的各個詞組按照其對應(yīng)的域名被該客戶端訪問的時間排列。
[0131]A3、如Al所述的裝置,所述域名獲取模塊用于獲取域名解析服務(wù)器在預(yù)設(shè)時間段內(nèi)的域名解析數(shù)據(jù);根據(jù)所述域名解析數(shù)據(jù)獲得多個客戶端的域名訪問記錄。
[0132]A4、如Al所述的裝置,還包括:第二訓(xùn)練模塊,用于在所述聚類模塊根據(jù)各個無監(jiān)督特征向量的相似度對與無監(jiān)督特征向量對應(yīng)的域名進(jìn)行聚類之前,根據(jù)預(yù)設(shè)經(jīng)驗特征量化算法對各個域名中的經(jīng)驗特征進(jìn)行運算得到各個域名的經(jīng)驗特征向量;其中,所述經(jīng)驗特征為預(yù)先設(shè)定的特定類型的特征;
[0133]融合模塊,用于將各個域名的經(jīng)驗特征值向量與對應(yīng)的無監(jiān)督特征向量進(jìn)行融合,得到融合后的無監(jiān)督特征向量;
[0134]所述相似度獲取模塊具體用于獲取各個域名對應(yīng)的融合后的無監(jiān)督特征向量的相似度。
[0135]A5、如A4所述的裝置,其特征在于,所述融合模塊用于將各個域名的經(jīng)驗特征值向量與對應(yīng)的無監(jiān)督特征向量進(jìn)行疊加,使用主成分分析算法或深度學(xué)習(xí)算法對疊加后的特征向量進(jìn)行降維,得到融合后的無監(jiān)督特征向量。
[0136]B6、一種域名識別系統(tǒng),其特征在于,包括A1-A5任一項所述的域名分類裝置,還包括:
[0137]類別獲取裝置,用于確定所述域名訪問記錄中包括的域名中至少一個域名的類別;
[0138]類別確定裝置,用于根據(jù)所述類別獲取模塊獲取到的至少一個域名的類別確定所述至少一個域名所在的域名集合的類別。
[0139]87、一種域名分類方法,包括:
[0140]獲取多個客戶端的域名訪問記錄;
[0141]根據(jù)所述域名訪問記錄生成預(yù)設(shè)數(shù)據(jù)類型的待訓(xùn)練數(shù)據(jù),所述預(yù)設(shè)數(shù)據(jù)類型與預(yù)設(shè)無監(jiān)督特征學(xué)習(xí)算法對應(yīng);
[0142]利用所述預(yù)設(shè)無監(jiān)督特征學(xué)習(xí)算法對所述待訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,獲取所述域名訪問記錄中包括的各個域名的無監(jiān)督特征向量;
[0143]獲取所述各個域名的無監(jiān)督特征向量的相似度;
[0144]根據(jù)獲取到的各個無監(jiān)督特征向量的相似度對與無監(jiān)督特征向量對應(yīng)的域名進(jìn)行聚類,得到多個域名集合,一個域名集合中所有域名屬于同一分類。
[0145]88、如87所述的方法,所述預(yù)設(shè)無監(jiān)督特征學(xué)習(xí)算法為算法;
[0146]所述根據(jù)所述域名訪問記錄生成預(yù)設(shè)數(shù)據(jù)類型的待訓(xùn)練數(shù)據(jù),包括:
[0147]根據(jù)每一個客戶端的域名訪問記錄生成一個文本數(shù)據(jù)類型的待訓(xùn)練數(shù)據(jù),一個文本數(shù)據(jù)類型的待訓(xùn)練數(shù)據(jù)中的每一個詞組表示一個域名,且一個文本數(shù)據(jù)類型的待訓(xùn)練數(shù)據(jù)中的各個詞組按照其對應(yīng)的域名被該客戶端訪問的時間排列。
[0148]89、如87所述的方法,所述獲取多個客戶端的域名訪問記錄,包括:
[0149]獲取域名解析服務(wù)器在預(yù)設(shè)時間段內(nèi)的域名解析數(shù)據(jù);
[0150]根據(jù)所述域名解析數(shù)據(jù)獲得多個客戶端的域名訪問記錄。
[0151]810、如87所述的方法,在根據(jù)各個無監(jiān)督特征向量的相似度對與無監(jiān)督特征向量對應(yīng)的域名進(jìn)行聚類,得到多個域名集合之前,所述方法還包括:
[0152]根據(jù)預(yù)設(shè)經(jīng)驗特征量化算法對各個域名的經(jīng)驗特征進(jìn)行運算得到各個域名的經(jīng)驗特征向量;其中,所述經(jīng)驗特征為預(yù)先設(shè)定的特定類型的特征;
[0153]將各個域名的經(jīng)驗特征值向量與對應(yīng)的無監(jiān)督特征向量進(jìn)行融合,得到融合后的無監(jiān)督特征向量;
[0154]所述獲取所述各個域名的無監(jiān)督特征向量的相似度,包括:
[0155]獲取各個域名對應(yīng)的融合后的無監(jiān)督特征向量的相似度。
[0156]811、如810所述的方法,所述將各個域名的經(jīng)驗特征值向量與對應(yīng)的無監(jiān)督特征向量進(jìn)行融合,得到融合后的無監(jiān)督特征向量,包括:
[0157]將各個域名的經(jīng)驗特征值向量與對應(yīng)的無監(jiān)督特征向量進(jìn)行疊加,使用主成分分析算法或深度學(xué)習(xí)算法對疊加后的特征向量進(jìn)行降維,得到融合后的無監(jiān)督特征向量。
[0158]812、一種域名識別方法,包括利用如87-811任一項所述的域名分類方法進(jìn)行域名分類,還包括:
[0159]確定所述域名訪問記錄中包括的域名中至少一個域名的類別;
[0160]根據(jù)所述至少一個域名的類別確定所述至少一個域名所在的域名集合的類別。
[0161]本發(fā)明的說明書中,說明了大量具體細(xì)節(jié)。然而,能夠理解,本發(fā)明的實施例可以在沒有這些具體細(xì)節(jié)的情況下實踐。在一些實例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對本說明書的理解。
[0162]類似地,應(yīng)當(dāng)理解,為了精簡本發(fā)明公開并幫助理解各個發(fā)明方面中的一個或多個,在上面對本發(fā)明的示例性實施例的描述中,本發(fā)明的各個特征有時被一起分組到單個實施例、圖、或者對其的描述中。然而,并不應(yīng)將該公開的方法解釋呈反映如下意圖:即所要求保護(hù)的本發(fā)明要求比在每個權(quán)利要求中所明確記載的特征更多的特征。更確切地說,如下面的權(quán)利要求書所反映的那樣,發(fā)明方面在于少于前面公開的單個實施例的所有特征。因此,遵循【具體實施方式】的權(quán)利要求書由此明確地并入該【具體實施方式】,其中每個權(quán)利要求本身都作為本發(fā)明的單獨實施例。
[0163]本領(lǐng)域技術(shù)人員可以理解,可以對實施例中的設(shè)備中的模塊進(jìn)行自適應(yīng)性地改變并且把它們設(shè)置在于該實施例不同的一個或多個設(shè)備中??梢园褜嵤├械哪K或單元或組件組合成一個模塊或單元或組件,以及此外可以把它們分成多個子模塊或子單元或子組件。除了這樣的特征和/或過程或者單元中的至少一些是互相排斥之處,可以采用任何組合對本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者設(shè)備的所有過程或單元進(jìn)行組合。除非另外明確陳述,本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的每個特征可以由提供相同、等同或相似目的替代特征來代替。
[0164]此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實施例包括其它實施例中所包括的某些特征而不是其它特征,但是不同實施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實施例。例如,在下面的權(quán)利要求書中,所要求保護(hù)的實施例的任意之一都可以以任意的組合方式來使用。
[0165]本發(fā)明的各個部件實施例可以以硬件實現(xiàn),或者以在一個或者多個處理器上運行的軟件模塊實現(xiàn),或者以它們的組合實現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以在實踐中使用微處理器或者數(shù)字信號處理器(DSP)來實現(xiàn)根據(jù)本發(fā)明實施例的一種瀏覽器終端的設(shè)備中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設(shè)備或者裝置程序(例如,計算機程序和計算機程序產(chǎn)品)。這樣的實現(xiàn)本發(fā)明的程序可以存儲在計算機可讀介質(zhì)上,或者可以具有一個或者多個信號的形式。這樣的信號可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號上提供,或者以任何其他形式提供。
[0166]應(yīng)該注意的是上述實施例對本發(fā)明進(jìn)行說明而不是對本發(fā)明進(jìn)行限制,并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計出替換實施例。在權(quán)利要求中,不應(yīng)將位于括號之間的任何參考符號構(gòu)造成對權(quán)利要求的限制。詞組“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的詞組“一”或“一個”不排除存在多個這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計算機來實現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個可以是通過同一個硬件項來具體體現(xiàn)。詞組第一、第二、以及第三等的使用不表示任何順序。可將這些詞組解釋為名稱。
[0167]最后應(yīng)說明的是:以上各實施例僅用以說明本發(fā)明的技術(shù)方案,而非對其限制;盡管參照前述各實施例對本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對前述各實施例所記載的技術(shù)方案進(jìn)行修改,或者對其中部分或者全部技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實施例技術(shù)方案的范圍,其均應(yīng)涵蓋在本發(fā)明的權(quán)利要求和說明書的范圍當(dāng)中。
【權(quán)利要求】
1.一種域名分類裝置,其特征在于,包括: 域名獲取模塊,用于獲取多個客戶端的域名訪問記錄; 訓(xùn)練數(shù)據(jù)生成模塊,用于根據(jù)所述域名獲取模塊獲取到的所述域名訪問記錄生成預(yù)設(shè)數(shù)據(jù)類型的待訓(xùn)練數(shù)據(jù),所述預(yù)設(shè)數(shù)據(jù)類型與預(yù)設(shè)無監(jiān)督特征學(xué)習(xí)算法對應(yīng); 第一訓(xùn)練模塊,用于利用所述預(yù)設(shè)無監(jiān)督特征學(xué)習(xí)算法對所述訓(xùn)練數(shù)據(jù)生成模塊生成的待訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,獲取所述域名訪問記錄中包括的各個域名的無監(jiān)督特征向量; 相似度獲取模塊,用于獲取所述各個域名的無監(jiān)督特征向量的相似度; 聚類模塊,用于根據(jù)各個無監(jiān)督特征向量的相似度對與無監(jiān)督特征向量對應(yīng)的域名進(jìn)行聚類,得到多個域名集合,一個域名集合中所有域名屬于同一分類。
2.如權(quán)利要求1所述的裝置,其特征在于,所述預(yù)設(shè)無監(jiān)督特征學(xué)習(xí)算法為Word2vec算法; 所述訓(xùn)練數(shù)據(jù)生成模塊用于根據(jù)每一個客戶端的域名訪問記錄生成一個文本數(shù)據(jù)類型的待訓(xùn)練數(shù)據(jù),一個文本數(shù)據(jù)類型的待訓(xùn)練數(shù)據(jù)中的每一個詞組表示一個域名,且一個文本數(shù)據(jù)類型的待訓(xùn)練數(shù)據(jù)中的各個詞組按照其對應(yīng)的域名被該客戶端訪問的時間排列。
3.如權(quán)利要求1所述的裝置,其特征在于,所述域名獲取模塊用于獲取域名解析服務(wù)器在預(yù)設(shè)時間段內(nèi)的域名解析數(shù)據(jù);根據(jù)所述域名解析數(shù)據(jù)獲得多個客戶端的域名訪問記錄。
4.如權(quán)利要求1所述的裝置,其特征在于,還包括:第二訓(xùn)練模塊,用于在所述聚類模塊根據(jù)各個無監(jiān)督特征向量的相似度對與無監(jiān)督特征向量對應(yīng)的域名進(jìn)行聚類之前,根據(jù)預(yù)設(shè)經(jīng)驗特征量化算法對各個域名中的經(jīng)驗特征進(jìn)行運算得到各個域名的經(jīng)驗特征向量;其中,所述經(jīng)驗特征為預(yù)先設(shè)定的特定類型的特征; 融合模塊,用于將各個域名的經(jīng)驗特征值向量與對應(yīng)的無監(jiān)督特征向量進(jìn)行融合,得到融合后的無監(jiān)督特征向量; 所述相似度獲取模塊具體用于獲取各個域名對應(yīng)的融合后的無監(jiān)督特征向量的相似度。
5.一種域名識別系統(tǒng),其特征在于,包括如權(quán)利要求1-4任一項所述的域名分類裝置,還包括: 類別獲取裝置,用于確定所述域名訪問記錄中包括的域名中至少一個域名的類別;類別確定裝置,用于根據(jù)所述類別獲取模塊獲取到的至少一個域名的類別確定所述至少一個域名所在的域名集合的類別。
6.一種域名分類方法,其特征在于,包括: 獲取多個客戶端的域名訪問記錄; 根據(jù)所述域名訪問記錄生成預(yù)設(shè)數(shù)據(jù)類型的待訓(xùn)練數(shù)據(jù),所述預(yù)設(shè)數(shù)據(jù)類型與預(yù)設(shè)無監(jiān)督特征學(xué)習(xí)算法對應(yīng); 利用所述預(yù)設(shè)無監(jiān)督特征學(xué)習(xí)算法對所述待訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,獲取所述域名訪問記錄中包括的各個域名的無監(jiān)督特征向量; 獲取所述各個域名的無監(jiān)督特征向量的相似度; 根據(jù)獲取到的各個無監(jiān)督特征向量的相似度對與無監(jiān)督特征向量對應(yīng)的域名進(jìn)行聚類,得到多個域名集合,一個域名集合中所有域名屬于同一分類。
7.如權(quán)利要求6所述的方法,其特征在于,所述預(yù)設(shè)無監(jiān)督特征學(xué)習(xí)算法為word2vec算法; 所述根據(jù)所述域名訪問記錄生成預(yù)設(shè)數(shù)據(jù)類型的待訓(xùn)練數(shù)據(jù),包括: 根據(jù)每一個客戶端的域名訪問記錄生成一個文本數(shù)據(jù)類型的待訓(xùn)練數(shù)據(jù),一個文本數(shù)據(jù)類型的待訓(xùn)練數(shù)據(jù)中的每一個詞組表示一個域名,且一個文本數(shù)據(jù)類型的待訓(xùn)練數(shù)據(jù)中的各個詞組按照其對應(yīng)的域名被該客戶端訪問的時間排列。
8.如權(quán)利要求6所述的方法,其特征在于,所述獲取多個客戶端的域名訪問記錄,包括: 獲取域名解析服務(wù)器在預(yù)設(shè)時間段內(nèi)的域名解析數(shù)據(jù); 根據(jù)所述域名解析數(shù)據(jù)獲得多個客戶端的域名訪問記錄。
9.如權(quán)利要求6所述的方法,其特征在于,在根據(jù)各個無監(jiān)督特征向量的相似度對與無監(jiān)督特征向量對應(yīng)的域名進(jìn)行聚類,得到多個域名集合之前,所述方法還包括: 根據(jù)預(yù)設(shè)經(jīng)驗特征量化算法對各個域名的經(jīng)驗特征進(jìn)行運算得到各個域名的經(jīng)驗特征向量;其中,所述經(jīng)驗特征為預(yù)先設(shè)定的特定類型的特征; 將各個域名的經(jīng)驗特征值向量與對應(yīng)的無監(jiān)督特征向量進(jìn)行融合,得到融合后的無監(jiān)督特征向量; 所述獲取所述各個域名的無監(jiān)督特征向量的相似度,包括: 獲取各個域名對應(yīng)的融合后的無監(jiān)督特征向量的相似度。
10.一種域名識別方法,其特征在于,包括利用如權(quán)利要求6-9任一項所述的域名分類方法進(jìn)行域名分類,還包括: 確定所述域名訪問記錄中包括的域名中至少一個域名的類別; 根據(jù)所述至少一個域名的類別確定所述至少一個域名所在的域名集合的類別。
【文檔編號】H04L29/12GK104486461SQ201410838225
【公開日】2015年4月1日 申請日期:2014年12月29日 優(yōu)先權(quán)日:2014年12月29日
【發(fā)明者】王占一, 張卓, 劉博
申請人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司