一種基于多維度特征的不良網(wǎng)站檢測方法與流程

文檔序號(hào)：12748095閱讀：569來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及一種基于多維度特征的不良網(wǎng)站檢測方法，屬于計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)領(lǐng)域。

背景技術(shù)：

針對涉黃、涉賭、涉暴等不良網(wǎng)站，發(fā)現(xiàn)方式主要有人工舉報(bào)和技術(shù)檢測兩種。但是前者由于人工操作的限制，只能發(fā)現(xiàn)很少數(shù)量的不良網(wǎng)站，而后者是主要的處理方法。目前國內(nèi)外針對不良網(wǎng)站的過濾方法主要包括四種：基于因特網(wǎng)內(nèi)容分級平臺(tái)(PICS)過濾、關(guān)鍵詞過濾、數(shù)據(jù)庫過濾以及基于內(nèi)容理解的過濾。其中，PICS過濾指的是，網(wǎng)絡(luò)評估系統(tǒng)按照色情、暴力、賭博等指標(biāo)將網(wǎng)站進(jìn)行分類、分級，從而進(jìn)行網(wǎng)站過濾。但是，基于實(shí)際情況的限制，一些網(wǎng)站通過各種手段，貼上與實(shí)際內(nèi)容并不相符的分級標(biāo)簽，導(dǎo)致這種過濾方式實(shí)際并不能起到良好效果?；陉P(guān)鍵詞的過濾是指建立不良關(guān)鍵詞的詞庫，然后根據(jù)基于規(guī)則的或者機(jī)器學(xué)習(xí)的方式，檢索網(wǎng)站關(guān)鍵詞判斷網(wǎng)站性質(zhì)。這種方式檢索速度快，但是不良網(wǎng)站可以通過將網(wǎng)絡(luò)關(guān)鍵詞改為健康網(wǎng)站關(guān)鍵詞的方式來應(yīng)對搜索引擎，從而逃避搜索。數(shù)據(jù)庫過濾則是通過網(wǎng)站的ip地址、URL、代理商等信息，建立黑、白名單的方式進(jìn)行不良網(wǎng)站過濾。這種過濾方式準(zhǔn)確率高，但是存在滯后性，對于偽造IP地址，更換URL等手段不能很好的處理。而基于網(wǎng)站內(nèi)容的過濾方法，主要是根據(jù)網(wǎng)頁文本內(nèi)容、圖片內(nèi)容，進(jìn)行數(shù)據(jù)處理，然后訓(xùn)練模型，通過新模型來判斷網(wǎng)站性質(zhì)的方法。這種方法準(zhǔn)確率高，能夠達(dá)到較好的效果，是目前最主流的過濾方法。但是不良網(wǎng)站通過技術(shù)手段對搜索引擎隱藏內(nèi)容會(huì)導(dǎo)致這種方法失效，漏檢不良網(wǎng)站。

技術(shù)實(shí)現(xiàn)要素：

針對現(xiàn)有技術(shù)中存在的技術(shù)問題，本發(fā)明目的在于提供一種基于多維度特征的不良網(wǎng)站檢測方法。本發(fā)明結(jié)合基于內(nèi)容理解的過濾方法，提出并分析了解析和注冊等方面的特征，進(jìn)行網(wǎng)站檢測。

本發(fā)明的技術(shù)方案為：

一種基于多維度特征的不良網(wǎng)站檢測方法，其步驟為：

1)對網(wǎng)站訓(xùn)練集中每一網(wǎng)站，獲取該網(wǎng)站的多維度特征數(shù)據(jù)；該多維度特征數(shù)據(jù)包括網(wǎng)站在注冊層面的特征數(shù)據(jù)、解析層面的特征數(shù)據(jù)和內(nèi)容特征數(shù)據(jù)；其中，該網(wǎng)站訓(xùn)練集包括一不良網(wǎng)站訓(xùn)練集和一健康網(wǎng)站訓(xùn)練集；

2)基于步驟1)得到的多維度特征數(shù)據(jù)進(jìn)行模型訓(xùn)練，得到一檢測模型；

3)對于一待識(shí)別網(wǎng)站，該檢測模型根據(jù)該網(wǎng)站的多維度特征數(shù)據(jù)，判斷該網(wǎng)站是否為不良網(wǎng)站。

該解析層面的特征數(shù)據(jù)包括：權(quán)威解析服務(wù)器；該注冊層面的特征數(shù)據(jù)包括：網(wǎng)站的注冊年份以及IP接入地址；該內(nèi)容特征數(shù)據(jù)為網(wǎng)站的title特征詞列表。

該解析層面的特征數(shù)據(jù)還包括：網(wǎng)站日解析次數(shù)；該注冊層面的特征數(shù)據(jù)還包括：網(wǎng)站的存活時(shí)間。

通過whois命令查詢網(wǎng)站的whois信息，然后從whois信息里面提取網(wǎng)站的注冊商、注冊年份、網(wǎng)站到期年份以及權(quán)威解析服務(wù)器；通過dig命令查詢網(wǎng)站對應(yīng)的IP地址，獲取網(wǎng)站IP對應(yīng)的物理接入地址；從日志解析數(shù)據(jù)中爬取網(wǎng)站的title信息，提取網(wǎng)站title信息的高頻詞，得到title特征詞列表。

將每個(gè)網(wǎng)站對應(yīng)的特征數(shù)據(jù)處理成“注冊時(shí)間，注冊商，解析服務(wù)器，IP接入地址，24小時(shí)解析量，日解析總量，title特征詞列表”的數(shù)據(jù)格式，特征之間采用逗號(hào)隔開。

選擇隨機(jī)森林算法對步驟1)得到的多維度特征數(shù)據(jù)進(jìn)行訓(xùn)練，得到該檢測模型。

通過檢測.cn下的網(wǎng)站，然后基于內(nèi)容的檢測模型過濾出疑似不良網(wǎng)站，并對這些網(wǎng)站截圖，篩選并標(biāo)注出不良網(wǎng)站，得到不良網(wǎng)站訓(xùn)練集；爬取DMOZ網(wǎng)站上面列出的健康網(wǎng)站的URL，得到健康網(wǎng)站訓(xùn)練集。

選取一新的網(wǎng)站集合，然后利用該檢測模型對該網(wǎng)站集合中每一網(wǎng)站的所述多維度特征數(shù)據(jù)進(jìn)行預(yù)測，如果出現(xiàn)新的預(yù)測結(jié)果，則將其加入該檢測模型，然后進(jìn)行步驟3)。

本發(fā)明主要內(nèi)容包括：

1)研究并提出網(wǎng)站內(nèi)容以外的有效特征集；

2)將新的特征集應(yīng)用于檢測模型，增強(qiáng)基于網(wǎng)站內(nèi)容的檢測方法；

3)訓(xùn)練更有效的檢測模型，更精準(zhǔn)的檢測不良網(wǎng)站，凈化網(wǎng)絡(luò)環(huán)境。

在中國互聯(lián)網(wǎng)絡(luò)信息中心的網(wǎng)絡(luò)監(jiān)管工作中，經(jīng)常要處理大量的不良網(wǎng)站數(shù)據(jù)。這些不良網(wǎng)站主要是涉及色情、賭博、暴力等內(nèi)容，而且其中部分不良網(wǎng)站也會(huì)采取更換URL、規(guī)避使用常規(guī)關(guān)鍵詞等手段避免檢測。為了對國內(nèi)網(wǎng)站進(jìn)行更好的管理，我們統(tǒng)計(jì)了不良網(wǎng)站在注冊、解析、運(yùn)維等多個(gè)層面的數(shù)據(jù)，并針對各個(gè)層面進(jìn)行了總結(jié)、分析。研究發(fā)現(xiàn)，相對于健康網(wǎng)站，不良網(wǎng)站在注冊、解析等層面的數(shù)據(jù)都有不同之處。將這些不同的數(shù)據(jù)進(jìn)行提取，我們得出了此次研究的特征集。

相對于健康網(wǎng)站希望將網(wǎng)站越做越好，長期經(jīng)營的建站目的，不良網(wǎng)站限于國內(nèi)嚴(yán)格的監(jiān)管環(huán)境，以短期內(nèi)大量吸引網(wǎng)絡(luò)流量為目的，并會(huì)定期更換URL，以逃避監(jiān)管。所以不良網(wǎng)站注冊年限往往比較新?；诖朔治觯瑢ψ阅晗捱M(jìn)行了統(tǒng)計(jì)分析。

如圖1所示，我們可以看到，健康網(wǎng)站注冊年限呈現(xiàn)一個(gè)比較均勻的趨勢。相對于健康網(wǎng)站，90％以上不良網(wǎng)站的注冊年份為2015年，部分在2014年和2013年，呈現(xiàn)出注冊年限普遍比較近的現(xiàn)象?；谝陨戏治?，提出了兩個(gè)注冊方面的特征。注冊年份和網(wǎng)站從注冊到續(xù)費(fèi)截止時(shí)間存在的年份。

經(jīng)過長期監(jiān)管的數(shù)據(jù)分析，不良網(wǎng)站的注冊商相對于一般健康網(wǎng)站的廣泛性，大部分不良網(wǎng)站的注冊商也更加固定，對數(shù)據(jù)集網(wǎng)站的注冊商進(jìn)行統(tǒng)計(jì)分析。

圖2中A～U代表訓(xùn)練集的主要注冊商(具體商家名稱不便公布)，OTHER則代表其他一些注冊商。圖中可以看到，90％以上的不良網(wǎng)站集中在A、B、C三家服務(wù)商進(jìn)行注冊。而相對于不良網(wǎng)站的注冊集中化，一般健康網(wǎng)站的注冊商明顯更為廣泛，分布更加均勻。

用戶瀏覽網(wǎng)站時(shí)，需要權(quán)威服務(wù)器對用戶查詢進(jìn)行解析。統(tǒng)計(jì)訓(xùn)練集網(wǎng)站的解析數(shù)據(jù)，并對權(quán)威服務(wù)器進(jìn)行數(shù)據(jù)統(tǒng)計(jì)分析見圖3。

圖3中a～n代表解析網(wǎng)站域名的權(quán)威服務(wù)器名稱，從圖中可以看出，不良網(wǎng)站的解析服務(wù)器以a、b、c、d為主。這幾大服務(wù)器為訓(xùn)練集中90％以上的不良網(wǎng)站提供解析服務(wù)。而健康網(wǎng)站可以看到雖然也有部分解析商提供大量網(wǎng)站的解析，但是解析商分布明顯更加發(fā)散。此外，統(tǒng)計(jì)數(shù)據(jù)中還有部分?jǐn)?shù)據(jù)沒有在圖表中顯現(xiàn)出來。other項(xiàng)，15個(gè)不良網(wǎng)站由其他服務(wù)商解析，而健康網(wǎng)站有將近500個(gè)，占總數(shù)約30％由其他服務(wù)商解析。更進(jìn)一步體現(xiàn)了健康網(wǎng)站域名解析的分散性，而不良網(wǎng)站會(huì)相對聚簇。

此次訓(xùn)練用的解析日志數(shù)據(jù)為.cn權(quán)威服務(wù)器一天的數(shù)據(jù)，處理解析數(shù)據(jù)，保留A類(從域名信息到ip地址的解析查詢)查詢信息，然后對訓(xùn)練數(shù)據(jù)集進(jìn)行數(shù)據(jù)統(tǒng)計(jì)。分別提取了訓(xùn)練集網(wǎng)站的24小時(shí)的解析量，以及當(dāng)天的解析總量。并按照解析總量對網(wǎng)站數(shù)據(jù)進(jìn)行了分類統(tǒng)計(jì)。

根據(jù)提取日期當(dāng)天的解析數(shù)據(jù)量，對訓(xùn)練集數(shù)據(jù)進(jìn)行分類統(tǒng)計(jì)。從圖4可以看出不良網(wǎng)站的日訪問量相對健康網(wǎng)站偏低(解析日志為某個(gè)周三的數(shù)據(jù))。而且，大部分不良網(wǎng)站的解析次數(shù)在單日100次以內(nèi)。相對于不良網(wǎng)站，健康網(wǎng)站解析次數(shù)更多，單日100次以內(nèi)的網(wǎng)站數(shù)量大概占20％左右。由此可見，雖然不良網(wǎng)站會(huì)通過各種不良手段來吸引網(wǎng)絡(luò)流量，但是限于國內(nèi)嚴(yán)格的網(wǎng)絡(luò)監(jiān)管環(huán)境，不良網(wǎng)站的訪問量還是普遍偏低的。

此外，不良網(wǎng)站相對于健康網(wǎng)站還有很多其他明顯特征。相對于國內(nèi)對網(wǎng)絡(luò)監(jiān)管比較嚴(yán)格的大環(huán)境，大部分不良網(wǎng)站的實(shí)際接入地址一般會(huì)選擇外國。針對網(wǎng)站ip的物理接入地址，進(jìn)行了數(shù)據(jù)統(tǒng)計(jì)。

通過圖5可以觀察到，超過90％的不良網(wǎng)站的接入地位為美國(US)或香港(HK)，而少部分(不到1％)在中國大陸(CN)、法國(FR)等地。而健康網(wǎng)站則大部分在中國大陸接入，一部分在美國、香港接入，非常少的一部分在日本等國家接入(圖中由于部分?jǐn)?shù)據(jù)量非常小，所以柱形圖并不明顯)。可以得出，接入IP地址這一特征也有很大價(jià)值。此外，對于國外接入的網(wǎng)站應(yīng)該進(jìn)行更加嚴(yán)格的監(jiān)管。

在以上分析的基礎(chǔ)上，本文提出了注冊年份、解析商、IP接入地址等獨(dú)有特征。不良網(wǎng)站在這些特征上與健康網(wǎng)站均有不同表現(xiàn)。對于不良網(wǎng)站更改URL，避免不良關(guān)鍵詞使用，隱藏不良圖片等做法，并不會(huì)影響這些特征數(shù)據(jù)。

基于以上提出的特征，結(jié)合目前基于網(wǎng)站內(nèi)容的不良網(wǎng)站過濾方法，將注冊、解析層面的特征(包括“注冊年份、解析商、IP接入地址”等特征)與網(wǎng)頁內(nèi)容特征相結(jié)合，并用最主流的機(jī)器學(xué)習(xí)算法進(jìn)行建模，最終完成訓(xùn)練，得到了新的檢測模型。用實(shí)驗(yàn)數(shù)據(jù)驗(yàn)證，新模型對不良網(wǎng)站的檢測達(dá)到了良好的精準(zhǔn)性。

與現(xiàn)有技術(shù)相比，本發(fā)明的積極效果為：

目前不良網(wǎng)站的過濾主要是以網(wǎng)站的內(nèi)容為特征進(jìn)行過濾，所以當(dāng)網(wǎng)站內(nèi)容對搜索爬蟲隱藏時(shí)，基于內(nèi)容的過濾便會(huì)失效。對于這種狀況，1)本發(fā)明提取了網(wǎng)站集在注冊、解析層面的特征，與將網(wǎng)站內(nèi)容作為特征的過濾方法不同，不會(huì)完全依賴于搜索爬蟲獲取到的網(wǎng)頁內(nèi)容，可以更廣泛的應(yīng)用于不良網(wǎng)站的檢測。2)對新特征進(jìn)行了分析、計(jì)算，這些特征有非常高的區(qū)分度，是有效的訓(xùn)練特征。3)并不完全依賴新特征，而是將這些特征與網(wǎng)頁內(nèi)容特征聯(lián)合使用，這樣確保訓(xùn)練出來的模型在檢測不良網(wǎng)站時(shí)更加精準(zhǔn)，同時(shí)減少漏檢、錯(cuò)檢情況。4)采用了目前最廣為流行的機(jī)器學(xué)習(xí)算法進(jìn)行模型訓(xùn)練，并將訓(xùn)練的各個(gè)模型進(jìn)行比較，最終選取了表現(xiàn)最出色的模型，更進(jìn)一步提升了檢測模型的精準(zhǔn)性。

附圖說明

圖1為注冊年份統(tǒng)計(jì)圖；

圖2為注冊商數(shù)據(jù)統(tǒng)計(jì)圖；

圖3為域名解析服務(wù)器數(shù)據(jù)統(tǒng)計(jì)圖；

圖4為網(wǎng)站單日解析量統(tǒng)計(jì)圖；

圖5為網(wǎng)站接入物理地址分布統(tǒng)計(jì)圖；

圖6為本發(fā)明方法流程圖。

具體實(shí)施方式

下面結(jié)合附圖對本發(fā)明的具體實(shí)施方法進(jìn)行進(jìn)一步詳細(xì)描述。

一般基于內(nèi)容的不良網(wǎng)站檢測方法，首先提取大量網(wǎng)站的內(nèi)容特征，然后進(jìn)行建模訓(xùn)練，最終得出不良網(wǎng)站檢測模型，通過模型對新的網(wǎng)站數(shù)據(jù)進(jìn)行檢測，判斷新數(shù)據(jù)是不是不良網(wǎng)站。

與此方法不同，本發(fā)明提出的基于多維度特征的不良網(wǎng)站檢測方法不僅僅基于網(wǎng)站內(nèi)容，還需要其他各層面的特征數(shù)據(jù)。如圖6所示，其具體過程如下：

1)網(wǎng)站訓(xùn)練集獲取。檢測.cn下的大量網(wǎng)站，通過實(shí)驗(yàn)室基于內(nèi)容的檢測模型過濾出疑似不良網(wǎng)站，同時(shí)對這些網(wǎng)站截圖。人工篩查疑似不良網(wǎng)站截圖，標(biāo)注出不良網(wǎng)站，確定不良網(wǎng)站的訓(xùn)練集。編寫網(wǎng)絡(luò)爬蟲，爬取DMOZ網(wǎng)站(www.chinadmoz.org)上面列出的健康網(wǎng)站的URL，并以此作為健康網(wǎng)站的訓(xùn)練集。

2)特征集獲取。對于網(wǎng)站訓(xùn)練集合中的每一網(wǎng)站，需要獲取該網(wǎng)站在注冊、解析層面的特征數(shù)據(jù)。通過whois命令查詢網(wǎng)站的whois信息；編寫腳本，提取whois信息里面網(wǎng)站的注冊商、注冊年份、網(wǎng)站到期年份以及權(quán)威解析服務(wù)器這些特征數(shù)據(jù)；通過dig命令查詢網(wǎng)站對應(yīng)的IP地址；編寫腳本，查詢出網(wǎng)站IP對應(yīng)的物理接入地；從中國互聯(lián)網(wǎng)絡(luò)信息中心獲取.CN權(quán)威服務(wù)器的日志解析數(shù)據(jù)；通過腳本，爬取網(wǎng)站的title信息；將獲得的網(wǎng)站的title信息進(jìn)行切詞，去停用詞，取高頻詞，得到title的特征詞列表。

3)數(shù)據(jù)處理。將每個(gè)網(wǎng)站對應(yīng)的數(shù)據(jù)處理成“注冊時(shí)間，注冊商，解析服務(wù)器，IP地址接入，24個(gè)小時(shí)解析量，日解析總量，title特征詞列表”的數(shù)據(jù)格式，特征之間逗號(hào)隔開，并將所有數(shù)據(jù)放在一起，保存為“.csv”格式。

4)模型建立。用weka打開.csv格式的數(shù)據(jù)文件，另存為.arff的文件，這樣weka便可以進(jìn)行之后的處理。用weka打開.arff的文件，選擇分類，分類方式選擇隨機(jī)森林算法，進(jìn)行訓(xùn)練，得到檢測模型。

5)新數(shù)據(jù)預(yù)測。對于新的網(wǎng)站集合，通過2)、3)步驟得到新數(shù)據(jù)集數(shù)據(jù)的.arff文件，用weka打開文件，并用4)獲得的檢測模型預(yù)測新數(shù)據(jù)，即可得到預(yù)測結(jié)果。

在以上的執(zhí)行過程中，對于5)得出的新結(jié)果，可以加入到檢測模型中，進(jìn)一步加強(qiáng)模型訓(xùn)練的準(zhǔn)確性。而對于要檢測的新網(wǎng)站，則通過5)進(jìn)行檢測。

結(jié)果表明，運(yùn)用多特征建立的隨機(jī)森林模型可以精準(zhǔn)的檢測出不良網(wǎng)站。這其中既包括一般不良網(wǎng)站，也包括通過更改URL，隱藏關(guān)鍵詞等手段躲避搜索的更加隱蔽的不良網(wǎng)站。證明了方法的有效性。

本發(fā)明建立了新的不良網(wǎng)站檢測模型。使用的算法是目前網(wǎng)絡(luò)的主流算法，與現(xiàn)有技術(shù)最大的不同之處在于，本次研究提出了新的、有效的不良網(wǎng)站的建模特征。這些特征主要包括：

1)解析層面：權(quán)威解析商、網(wǎng)站日解析次數(shù)；

2)注冊層面：網(wǎng)站的注冊年份，網(wǎng)站的存活時(shí)間(自網(wǎng)站注冊到網(wǎng)站購買日期結(jié)束)，網(wǎng)站的注冊商。

3)IP接入國別。

此外，提出了將以上特征和網(wǎng)頁內(nèi)容特征相結(jié)合訓(xùn)練模型，進(jìn)行不良網(wǎng)站檢測的方法。由于模型中添加了這些注冊、解析層面的獨(dú)有特征，使得不良網(wǎng)站通過更換URL，隱藏不良關(guān)鍵詞等做法無法再起作用；而又因?yàn)榻Ｍ瑫r(shí)還使用了基于網(wǎng)站內(nèi)容的特征，所以同樣保證了對一般不良網(wǎng)站的精準(zhǔn)過濾。所以基于以上分析，本次研究最終實(shí)現(xiàn)了對不良網(wǎng)站更精準(zhǔn)、更全面的過濾。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李曉東;田雙柱;陳勇;延志偉;
技術(shù)所有人：中國互聯(lián)網(wǎng)絡(luò)信息中心;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

特征檢測方法相關(guān)技術(shù)

文本不良信息檢測方法相關(guān)技術(shù)

特征維度相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于多維度特征的不良網(wǎng)站檢測方法與流程