本發(fā)明涉及一種基于多維度特征的不良網(wǎng)站檢測方法,屬于計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)領(lǐng)域。
背景技術(shù):
針對涉黃、涉賭、涉暴等不良網(wǎng)站,發(fā)現(xiàn)方式主要有人工舉報(bào)和技術(shù)檢測兩種。但是前者由于人工操作的限制,只能發(fā)現(xiàn)很少數(shù)量的不良網(wǎng)站,而后者是主要的處理方法。目前國內(nèi)外針對不良網(wǎng)站的過濾方法主要包括四種:基于因特網(wǎng)內(nèi)容分級平臺(tái)(PICS)過濾、關(guān)鍵詞過濾、數(shù)據(jù)庫過濾以及基于內(nèi)容理解的過濾。其中,PICS過濾指的是,網(wǎng)絡(luò)評估系統(tǒng)按照色情、暴力、賭博等指標(biāo)將網(wǎng)站進(jìn)行分類、分級,從而進(jìn)行網(wǎng)站過濾。但是,基于實(shí)際情況的限制,一些網(wǎng)站通過各種手段,貼上與實(shí)際內(nèi)容并不相符的分級標(biāo)簽,導(dǎo)致這種過濾方式實(shí)際并不能起到良好效果?;陉P(guān)鍵詞的過濾是指建立不良關(guān)鍵詞的詞庫,然后根據(jù)基于規(guī)則的或者機(jī)器學(xué)習(xí)的方式,檢索網(wǎng)站關(guān)鍵詞判斷網(wǎng)站性質(zhì)。這種方式檢索速度快,但是不良網(wǎng)站可以通過將網(wǎng)絡(luò)關(guān)鍵詞改為健康網(wǎng)站關(guān)鍵詞的方式來應(yīng)對搜索引擎,從而逃避搜索。數(shù)據(jù)庫過濾則是通過網(wǎng)站的ip地址、URL、代理商等信息,建立黑、白名單的方式進(jìn)行不良網(wǎng)站過濾。這種過濾方式準(zhǔn)確率高,但是存在滯后性,對于偽造IP地址,更換URL等手段不能很好的處理。而基于網(wǎng)站內(nèi)容的過濾方法,主要是根據(jù)網(wǎng)頁文本內(nèi)容、圖片內(nèi)容,進(jìn)行數(shù)據(jù)處理,然后訓(xùn)練模型,通過新模型來判斷網(wǎng)站性質(zhì)的方法。這種方法準(zhǔn)確率高,能夠達(dá)到較好的效果,是目前最主流的過濾方法。但是不良網(wǎng)站通過技術(shù)手段對搜索引擎隱藏內(nèi)容會(huì)導(dǎo)致這種方法失效,漏檢不良網(wǎng)站。
技術(shù)實(shí)現(xiàn)要素:
針對現(xiàn)有技術(shù)中存在的技術(shù)問題,本發(fā)明目的在于提供一種基于多維度特征的不良網(wǎng)站檢測方法。本發(fā)明結(jié)合基于內(nèi)容理解的過濾方法,提出并分析了解析和注冊等方面的特征,進(jìn)行網(wǎng)站檢測。
本發(fā)明的技術(shù)方案為:
一種基于多維度特征的不良網(wǎng)站檢測方法,其步驟為:
1)對網(wǎng)站訓(xùn)練集中每一網(wǎng)站,獲取該網(wǎng)站的多維度特征數(shù)據(jù);該多維度特征數(shù)據(jù)包括網(wǎng)站在注冊層面的特征數(shù)據(jù)、解析層面的特征數(shù)據(jù)和內(nèi)容特征數(shù)據(jù);其中,該網(wǎng)站訓(xùn)練集包括一不良網(wǎng)站訓(xùn)練集和一健康網(wǎng)站訓(xùn)練集;
2)基于步驟1)得到的多維度特征數(shù)據(jù)進(jìn)行模型訓(xùn)練,得到一檢測模型;
3)對于一待識(shí)別網(wǎng)站,該檢測模型根據(jù)該網(wǎng)站的多維度特征數(shù)據(jù),判斷該網(wǎng)站是否為不良網(wǎng)站。
該解析層面的特征數(shù)據(jù)包括:權(quán)威解析服務(wù)器;該注冊層面的特征數(shù)據(jù)包括:網(wǎng)站的注冊年份以及IP接入地址;該內(nèi)容特征數(shù)據(jù)為網(wǎng)站的title特征詞列表。
該解析層面的特征數(shù)據(jù)還包括:網(wǎng)站日解析次數(shù);該注冊層面的特征數(shù)據(jù)還包括:網(wǎng)站的存活時(shí)間。
通過whois命令查詢網(wǎng)站的whois信息,然后從whois信息里面提取網(wǎng)站的注冊商、注冊年份、網(wǎng)站到期年份以及權(quán)威解析服務(wù)器;通過dig命令查詢網(wǎng)站對應(yīng)的IP地址,獲取網(wǎng)站IP對應(yīng)的物理接入地址;從日志解析數(shù)據(jù)中爬取網(wǎng)站的title信息,提取網(wǎng)站title信息的高頻詞,得到title特征詞列表。
將每個(gè)網(wǎng)站對應(yīng)的特征數(shù)據(jù)處理成“注冊時(shí)間,注冊商,解析服務(wù)器,IP接入地址,24小時(shí)解析量,日解析總量,title特征詞列表”的數(shù)據(jù)格式,特征之間采用逗號(hào)隔開。
選擇隨機(jī)森林算法對步驟1)得到的多維度特征數(shù)據(jù)進(jìn)行訓(xùn)練,得到該檢測模型。
通過檢測.cn下的網(wǎng)站,然后基于內(nèi)容的檢測模型過濾出疑似不良網(wǎng)站,并對這些網(wǎng)站截圖,篩選并標(biāo)注出不良網(wǎng)站,得到不良網(wǎng)站訓(xùn)練集;爬取DMOZ網(wǎng)站上面列出的健康網(wǎng)站的URL,得到健康網(wǎng)站訓(xùn)練集。
選取一新的網(wǎng)站集合,然后利用該檢測模型對該網(wǎng)站集合中每一網(wǎng)站的所述多維度特征數(shù)據(jù)進(jìn)行預(yù)測,如果出現(xiàn)新的預(yù)測結(jié)果,則將其加入該檢測模型,然后進(jìn)行步驟3)。
本發(fā)明主要內(nèi)容包括:
1)研究并提出網(wǎng)站內(nèi)容以外的有效特征集;
2)將新的特征集應(yīng)用于檢測模型,增強(qiáng)基于網(wǎng)站內(nèi)容的檢測方法;
3)訓(xùn)練更有效的檢測模型,更精準(zhǔn)的檢測不良網(wǎng)站,凈化網(wǎng)絡(luò)環(huán)境。
在中國互聯(lián)網(wǎng)絡(luò)信息中心的網(wǎng)絡(luò)監(jiān)管工作中,經(jīng)常要處理大量的不良網(wǎng)站數(shù)據(jù)。這些不良網(wǎng)站主要是涉及色情、賭博、暴力等內(nèi)容,而且其中部分不良網(wǎng)站也會(huì)采取更換URL、規(guī)避使用常規(guī)關(guān)鍵詞等手段避免檢測。為了對國內(nèi)網(wǎng)站進(jìn)行更好的管理,我們統(tǒng)計(jì)了不良網(wǎng)站在注冊、解析、運(yùn)維等多個(gè)層面的數(shù)據(jù),并針對各個(gè)層面進(jìn)行了總結(jié)、分析。研究發(fā)現(xiàn),相對于健康網(wǎng)站,不良網(wǎng)站在注冊、解析等層面的數(shù)據(jù)都有不同之處。將這些不同的數(shù)據(jù)進(jìn)行提取,我們得出了此次研究的特征集。
相對于健康網(wǎng)站希望將網(wǎng)站越做越好,長期經(jīng)營的建站目的,不良網(wǎng)站限于國內(nèi)嚴(yán)格的監(jiān)管環(huán)境,以短期內(nèi)大量吸引網(wǎng)絡(luò)流量為目的,并會(huì)定期更換URL,以逃避監(jiān)管。所以不良網(wǎng)站注冊年限往往比較新?;诖朔治觯瑢ψ阅晗捱M(jìn)行了統(tǒng)計(jì)分析。
如圖1所示,我們可以看到,健康網(wǎng)站注冊年限呈現(xiàn)一個(gè)比較均勻的趨勢。相對于健康網(wǎng)站,90%以上不良網(wǎng)站的注冊年份為2015年,部分在2014年和2013年,呈現(xiàn)出注冊年限普遍比較近的現(xiàn)象?;谝陨戏治?,提出了兩個(gè)注冊方面的特征。注冊年份和網(wǎng)站從注冊到續(xù)費(fèi)截止時(shí)間存在的年份。
經(jīng)過長期監(jiān)管的數(shù)據(jù)分析,不良網(wǎng)站的注冊商相對于一般健康網(wǎng)站的廣泛性,大部分不良網(wǎng)站的注冊商也更加固定,對數(shù)據(jù)集網(wǎng)站的注冊商進(jìn)行統(tǒng)計(jì)分析。
圖2中A~U代表訓(xùn)練集的主要注冊商(具體商家名稱不便公布),OTHER則代表其他一些注冊商。圖中可以看到,90%以上的不良網(wǎng)站集中在A、B、C三家服務(wù)商進(jìn)行注冊。而相對于不良網(wǎng)站的注冊集中化,一般健康網(wǎng)站的注冊商明顯更為廣泛,分布更加均勻。
用戶瀏覽網(wǎng)站時(shí),需要權(quán)威服務(wù)器對用戶查詢進(jìn)行解析。統(tǒng)計(jì)訓(xùn)練集網(wǎng)站的解析數(shù)據(jù),并對權(quán)威服務(wù)器進(jìn)行數(shù)據(jù)統(tǒng)計(jì)分析見圖3。
圖3中a~n代表解析網(wǎng)站域名的權(quán)威服務(wù)器名稱,從圖中可以看出,不良網(wǎng)站的解析服務(wù)器以a、b、c、d為主。這幾大服務(wù)器為訓(xùn)練集中90%以上的不良網(wǎng)站提供解析服務(wù)。而健康網(wǎng)站可以看到雖然也有部分解析商提供大量網(wǎng)站的解析,但是解析商分布明顯更加發(fā)散。此外,統(tǒng)計(jì)數(shù)據(jù)中還有部分?jǐn)?shù)據(jù)沒有在圖表中顯現(xiàn)出來。other項(xiàng),15個(gè)不良網(wǎng)站由其他服務(wù)商解析,而健康網(wǎng)站有將近500個(gè),占總數(shù)約30%由其他服務(wù)商解析。更進(jìn)一步體現(xiàn)了健康網(wǎng)站域名解析的分散性,而不良網(wǎng)站會(huì)相對聚簇。
此次訓(xùn)練用的解析日志數(shù)據(jù)為.cn權(quán)威服務(wù)器一天的數(shù)據(jù),處理解析數(shù)據(jù),保留A類(從域名信息到ip地址的解析查詢)查詢信息,然后對訓(xùn)練數(shù)據(jù)集進(jìn)行數(shù)據(jù)統(tǒng)計(jì)。分別提取了訓(xùn)練集網(wǎng)站的24小時(shí)的解析量,以及當(dāng)天的解析總量。并按照解析總量對網(wǎng)站數(shù)據(jù)進(jìn)行了分類統(tǒng)計(jì)。
根據(jù)提取日期當(dāng)天的解析數(shù)據(jù)量,對訓(xùn)練集數(shù)據(jù)進(jìn)行分類統(tǒng)計(jì)。從圖4可以看出不良網(wǎng)站的日訪問量相對健康網(wǎng)站偏低(解析日志為某個(gè)周三的數(shù)據(jù))。而且,大部分不良網(wǎng)站的解析次數(shù)在單日100次以內(nèi)。相對于不良網(wǎng)站,健康網(wǎng)站解析次數(shù)更多,單日100次以內(nèi)的網(wǎng)站數(shù)量大概占20%左右。由此可見,雖然不良網(wǎng)站會(huì)通過各種不良手段來吸引網(wǎng)絡(luò)流量,但是限于國內(nèi)嚴(yán)格的網(wǎng)絡(luò)監(jiān)管環(huán)境,不良網(wǎng)站的訪問量還是普遍偏低的。
此外,不良網(wǎng)站相對于健康網(wǎng)站還有很多其他明顯特征。相對于國內(nèi)對網(wǎng)絡(luò)監(jiān)管比較嚴(yán)格的大環(huán)境,大部分不良網(wǎng)站的實(shí)際接入地址一般會(huì)選擇外國。針對網(wǎng)站ip的物理接入地址,進(jìn)行了數(shù)據(jù)統(tǒng)計(jì)。
通過圖5可以觀察到,超過90%的不良網(wǎng)站的接入地位為美國(US)或香港(HK),而少部分(不到1%)在中國大陸(CN)、法國(FR)等地。而健康網(wǎng)站則大部分在中國大陸接入,一部分在美國、香港接入,非常少的一部分在日本等國家接入(圖中由于部分?jǐn)?shù)據(jù)量非常小,所以柱形圖并不明顯)。可以得出,接入IP地址這一特征也有很大價(jià)值。此外,對于國外接入的網(wǎng)站應(yīng)該進(jìn)行更加嚴(yán)格的監(jiān)管。
在以上分析的基礎(chǔ)上,本文提出了注冊年份、解析商、IP接入地址等獨(dú)有特征。不良網(wǎng)站在這些特征上與健康網(wǎng)站均有不同表現(xiàn)。對于不良網(wǎng)站更改URL,避免不良關(guān)鍵詞使用,隱藏不良圖片等做法,并不會(huì)影響這些特征數(shù)據(jù)。
基于以上提出的特征,結(jié)合目前基于網(wǎng)站內(nèi)容的不良網(wǎng)站過濾方法,將注冊、解析層面的特征(包括“注冊年份、解析商、IP接入地址”等特征)與網(wǎng)頁內(nèi)容特征相結(jié)合,并用最主流的機(jī)器學(xué)習(xí)算法進(jìn)行建模,最終完成訓(xùn)練,得到了新的檢測模型。用實(shí)驗(yàn)數(shù)據(jù)驗(yàn)證,新模型對不良網(wǎng)站的檢測達(dá)到了良好的精準(zhǔn)性。
與現(xiàn)有技術(shù)相比,本發(fā)明的積極效果為:
目前不良網(wǎng)站的過濾主要是以網(wǎng)站的內(nèi)容為特征進(jìn)行過濾,所以當(dāng)網(wǎng)站內(nèi)容對搜索爬蟲隱藏時(shí),基于內(nèi)容的過濾便會(huì)失效。對于這種狀況,1)本發(fā)明提取了網(wǎng)站集在注冊、解析層面的特征,與將網(wǎng)站內(nèi)容作為特征的過濾方法不同,不會(huì)完全依賴于搜索爬蟲獲取到的網(wǎng)頁內(nèi)容,可以更廣泛的應(yīng)用于不良網(wǎng)站的檢測。2)對新特征進(jìn)行了分析、計(jì)算,這些特征有非常高的區(qū)分度,是有效的訓(xùn)練特征。3)并不完全依賴新特征,而是將這些特征與網(wǎng)頁內(nèi)容特征聯(lián)合使用,這樣確保訓(xùn)練出來的模型在檢測不良網(wǎng)站時(shí)更加精準(zhǔn),同時(shí)減少漏檢、錯(cuò)檢情況。4)采用了目前最廣為流行的機(jī)器學(xué)習(xí)算法進(jìn)行模型訓(xùn)練,并將訓(xùn)練的各個(gè)模型進(jìn)行比較,最終選取了表現(xiàn)最出色的模型,更進(jìn)一步提升了檢測模型的精準(zhǔn)性。
附圖說明
圖1為注冊年份統(tǒng)計(jì)圖;
圖2為注冊商數(shù)據(jù)統(tǒng)計(jì)圖;
圖3為域名解析服務(wù)器數(shù)據(jù)統(tǒng)計(jì)圖;
圖4為網(wǎng)站單日解析量統(tǒng)計(jì)圖;
圖5為網(wǎng)站接入物理地址分布統(tǒng)計(jì)圖;
圖6為本發(fā)明方法流程圖。
具體實(shí)施方式
下面結(jié)合附圖對本發(fā)明的具體實(shí)施方法進(jìn)行進(jìn)一步詳細(xì)描述。
一般基于內(nèi)容的不良網(wǎng)站檢測方法,首先提取大量網(wǎng)站的內(nèi)容特征,然后進(jìn)行建模訓(xùn)練,最終得出不良網(wǎng)站檢測模型,通過模型對新的網(wǎng)站數(shù)據(jù)進(jìn)行檢測,判斷新數(shù)據(jù)是不是不良網(wǎng)站。
與此方法不同,本發(fā)明提出的基于多維度特征的不良網(wǎng)站檢測方法不僅僅基于網(wǎng)站內(nèi)容,還需要其他各層面的特征數(shù)據(jù)。如圖6所示,其具體過程如下:
1)網(wǎng)站訓(xùn)練集獲取。檢測.cn下的大量網(wǎng)站,通過實(shí)驗(yàn)室基于內(nèi)容的檢測模型過濾出疑似不良網(wǎng)站,同時(shí)對這些網(wǎng)站截圖。人工篩查疑似不良網(wǎng)站截圖,標(biāo)注出不良網(wǎng)站,確定不良網(wǎng)站的訓(xùn)練集。編寫網(wǎng)絡(luò)爬蟲,爬取DMOZ網(wǎng)站(www.chinadmoz.org)上面列出的健康網(wǎng)站的URL,并以此作為健康網(wǎng)站的訓(xùn)練集。
2)特征集獲取。對于網(wǎng)站訓(xùn)練集合中的每一網(wǎng)站,需要獲取該網(wǎng)站在注冊、解析層面的特征數(shù)據(jù)。通過whois命令查詢網(wǎng)站的whois信息;編寫腳本,提取whois信息里面網(wǎng)站的注冊商、注冊年份、網(wǎng)站到期年份以及權(quán)威解析服務(wù)器這些特征數(shù)據(jù);通過dig命令查詢網(wǎng)站對應(yīng)的IP地址;編寫腳本,查詢出網(wǎng)站IP對應(yīng)的物理接入地;從中國互聯(lián)網(wǎng)絡(luò)信息中心獲取.CN權(quán)威服務(wù)器的日志解析數(shù)據(jù);通過腳本,爬取網(wǎng)站的title信息;將獲得的網(wǎng)站的title信息進(jìn)行切詞,去停用詞,取高頻詞,得到title的特征詞列表。
3)數(shù)據(jù)處理。將每個(gè)網(wǎng)站對應(yīng)的數(shù)據(jù)處理成“注冊時(shí)間,注冊商,解析服務(wù)器,IP地址接入,24個(gè)小時(shí)解析量,日解析總量,title特征詞列表”的數(shù)據(jù)格式,特征之間逗號(hào)隔開,并將所有數(shù)據(jù)放在一起,保存為“.csv”格式。
4)模型建立。用weka打開.csv格式的數(shù)據(jù)文件,另存為.arff的文件,這樣weka便可以進(jìn)行之后的處理。用weka打開.arff的文件,選擇分類,分類方式選擇隨機(jī)森林算法,進(jìn)行訓(xùn)練,得到檢測模型。
5)新數(shù)據(jù)預(yù)測。對于新的網(wǎng)站集合,通過2)、3)步驟得到新數(shù)據(jù)集數(shù)據(jù)的.arff文件,用weka打開文件,并用4)獲得的檢測模型預(yù)測新數(shù)據(jù),即可得到預(yù)測結(jié)果。
在以上的執(zhí)行過程中,對于5)得出的新結(jié)果,可以加入到檢測模型中,進(jìn)一步加強(qiáng)模型訓(xùn)練的準(zhǔn)確性。而對于要檢測的新網(wǎng)站,則通過5)進(jìn)行檢測。
結(jié)果表明,運(yùn)用多特征建立的隨機(jī)森林模型可以精準(zhǔn)的檢測出不良網(wǎng)站。這其中既包括一般不良網(wǎng)站,也包括通過更改URL,隱藏關(guān)鍵詞等手段躲避搜索的更加隱蔽的不良網(wǎng)站。證明了方法的有效性。
本發(fā)明建立了新的不良網(wǎng)站檢測模型。使用的算法是目前網(wǎng)絡(luò)的主流算法,與現(xiàn)有技術(shù)最大的不同之處在于,本次研究提出了新的、有效的不良網(wǎng)站的建模特征。這些特征主要包括:
1)解析層面:權(quán)威解析商、網(wǎng)站日解析次數(shù);
2)注冊層面:網(wǎng)站的注冊年份,網(wǎng)站的存活時(shí)間(自網(wǎng)站注冊到網(wǎng)站購買日期結(jié)束),網(wǎng)站的注冊商。
3)IP接入國別。
此外,提出了將以上特征和網(wǎng)頁內(nèi)容特征相結(jié)合訓(xùn)練模型,進(jìn)行不良網(wǎng)站檢測的方法。由于模型中添加了這些注冊、解析層面的獨(dú)有特征,使得不良網(wǎng)站通過更換URL,隱藏不良關(guān)鍵詞等做法無法再起作用;而又因?yàn)榻M瑫r(shí)還使用了基于網(wǎng)站內(nèi)容的特征,所以同樣保證了對一般不良網(wǎng)站的精準(zhǔn)過濾。所以基于以上分析,本次研究最終實(shí)現(xiàn)了對不良網(wǎng)站更精準(zhǔn)、更全面的過濾。