欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

網(wǎng)站的識別方法和裝置與流程

文檔序號:12364046閱讀:309來源:國知局
網(wǎng)站的識別方法和裝置與流程

本發(fā)明實(shí)施例涉及計(jì)算機(jī)處理技術(shù),尤其涉及一種網(wǎng)站的識別方法和裝置。



背景技術(shù):

信息檢索是指從信息資源的集合中查找所需文獻(xiàn)或查找所需文獻(xiàn)中包含的信息內(nèi)容的過程。搜索引擎就是用于查找互聯(lián)網(wǎng)信息的信息檢索工具。搜索引擎的出現(xiàn)讓人們從海量資源中獲取信息變得便捷。搜索引擎出現(xiàn)后,隨之而來的是網(wǎng)頁作弊問題。為了經(jīng)濟(jì)利益或其他利益,作弊網(wǎng)站通過各種方法誤導(dǎo)搜索引擎,以提高其頁面在搜索引擎排序結(jié)果中的位序。由于作弊網(wǎng)站質(zhì)量普遍不高,常常包含廣告尤其是色情、賭博等方面的廣告,會嚴(yán)重影響用戶體驗(yàn),因此作弊網(wǎng)站識別屬于信息檢索中的一個重要問題。作弊網(wǎng)站識別技術(shù)的提升,對提升搜索引擎的效果具有重要意義。

目前,作弊網(wǎng)站的作弊方法變化頻繁,但是一般可以總結(jié)為內(nèi)容作弊以及鏈接作弊兩大類。內(nèi)容作弊一般是通過在頁面中堆砌熱門查詢(也稱為Query)的方式以提高頁面在搜索引擎結(jié)果中的排序;鏈接作弊主要針對的是計(jì)算頁面重要性的頁面評分算法(也稱為PageRank)為原型的圖算法,通過構(gòu)建鏈接關(guān)系以提高網(wǎng)站權(quán)重,鏈接作弊還包括通過頁面重定向的作弊方式。作弊網(wǎng)站識別技術(shù)一直是業(yè)界研究熱點(diǎn)之一,包括樸素貝葉斯、Logistic Regression(也稱邏輯回歸)、SVM(Support Vector Machine,支持向量機(jī))、集成學(xué)習(xí)、深度學(xué)習(xí)等多種機(jī)器學(xué)習(xí)方法都有應(yīng)用,使用的特征包括內(nèi)容特征、鏈接特征等。也有利用用戶點(diǎn)擊行為等外部信息進(jìn)行識別。

現(xiàn)有的作弊網(wǎng)站識別技術(shù)的主要缺陷在于:對于頁面結(jié)構(gòu)特征不顯著、文本內(nèi)容上未進(jìn)行作弊詞語堆砌的作弊頁面,難以及時識別。依賴鏈接關(guān)系特征的圖模型算法復(fù)雜,難以滿足實(shí)時識別的需求;新出現(xiàn)的普通網(wǎng)站以及比較小眾網(wǎng)站,如何與新出現(xiàn)的作弊網(wǎng)站相區(qū)分,也是困難之一;另外,作弊網(wǎng)站識別任務(wù)面臨一大挑戰(zhàn)就是作弊網(wǎng)站更新速度快,現(xiàn)有的作弊識別方案或者識別模型效果隨時間推移逐漸失效。增強(qiáng)學(xué)習(xí)和主動學(xué)習(xí)能夠部分解決這一問題,但是需要引入額外的人工標(biāo)注或者數(shù)據(jù)整理工作。



技術(shù)實(shí)現(xiàn)要素:

有鑒于此,本發(fā)明實(shí)施例提供了一種網(wǎng)站的識別方法和裝置,以優(yōu)化現(xiàn)有的網(wǎng)站識別技術(shù),提高異常網(wǎng)站的識別準(zhǔn)確率。

在第一方面,本發(fā)明實(shí)施例提供了一種網(wǎng)站的識別方法,包括:

在設(shè)定時間段內(nèi),獲取與待驗(yàn)證網(wǎng)站關(guān)聯(lián)的至少兩個歷史更新頁面;

對各所述歷史更新頁面進(jìn)行內(nèi)容解析,獲取與各所述歷史更新頁面對應(yīng)的至少一個內(nèi)容域;

根據(jù)各所述歷史更新頁面中相同內(nèi)容域中的內(nèi)容變化,計(jì)算各所述內(nèi)容域的信息熵;

根據(jù)信息熵計(jì)算結(jié)果,對所述待驗(yàn)證網(wǎng)站進(jìn)行異常識別。

在第二方面,本發(fā)明實(shí)施例還提供了一種網(wǎng)站的識別裝置,包括:

歷史更新頁面獲取模塊,用于在設(shè)定時間段內(nèi),獲取與待驗(yàn)證網(wǎng)站關(guān)聯(lián)的至少兩個歷史更新頁面;

內(nèi)容域獲取模塊,用于對各所述歷史更新頁面進(jìn)行內(nèi)容解析,獲取與各所述歷史更新頁面對應(yīng)的至少一個內(nèi)容域;

內(nèi)容域信息熵計(jì)算模塊,用于根據(jù)各所述歷史更新頁面中相同內(nèi)容域中的內(nèi)容變化,計(jì)算各所述內(nèi)容域的信息熵;

異常識別模塊,用于根據(jù)信息熵計(jì)算結(jié)果,對所述待驗(yàn)證網(wǎng)站進(jìn)行異常識別。

本發(fā)明實(shí)施例在設(shè)定時間段內(nèi),獲取與待驗(yàn)證網(wǎng)站關(guān)聯(lián)的至少兩個歷史更新頁面;對各所述歷史更新頁面進(jìn)行內(nèi)容解析,獲取與各所述歷史更新頁面對應(yīng)的至少一個內(nèi)容域;根據(jù)各所述歷史更新頁面中相同內(nèi)容域中的內(nèi)容變化,計(jì)算各所述內(nèi)容域的信息熵;根據(jù)信息熵計(jì)算結(jié)果,對所述待驗(yàn)證網(wǎng)站進(jìn)行異常識別,由于信息熵特征的區(qū)分度好、計(jì)算簡單、時效性高,可以解決現(xiàn)有作弊網(wǎng)站識別技術(shù)所帶來的識別率不高、實(shí)時性差以及需要引入額外的人工標(biāo)注或者數(shù)據(jù)整理工作的技術(shù)問題,優(yōu)化了現(xiàn)有的網(wǎng)站識別技術(shù),提高了異常網(wǎng)站的識別準(zhǔn)確率。

附圖說明

圖1是本發(fā)明實(shí)施例一提供的一種網(wǎng)站的識別方法的流程圖;

圖2是本發(fā)明實(shí)施例二提供的一種網(wǎng)站的識別方法的流程圖;

圖3是本發(fā)明實(shí)施例三提供的一種網(wǎng)站的識別方法的流程圖;

圖4是本發(fā)明實(shí)施例四提供的一種網(wǎng)站的識別裝置的結(jié)構(gòu)圖。

具體實(shí)施方式

為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖對本發(fā)明具體實(shí)施例作進(jìn)一步的詳細(xì)描述??梢岳斫獾氖?,此處所描述的具體實(shí)施例僅僅用于解釋本發(fā)明,而非對本發(fā)明的限定。

另外還需要說明的是,為了便于描述,附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部內(nèi)容。在更加詳細(xì)地討論示例性實(shí)施例之前應(yīng)當(dāng)提到的是,一些示例性實(shí)施例被描述成作為流程圖描繪的處理或方法。雖然流程圖將各項(xiàng)操作(或步驟)描述成順序的處理,但是其中的許多操作可以被并行地、并發(fā)地或者同時實(shí)施。此外,各項(xiàng)操作的順序可以被重新安排。當(dāng)其操作完成時所述處理可以被終止,但是還可以具有未包括在附圖中的附加步驟。所述處理可以對應(yīng)于方法、函數(shù)、規(guī)程、子例程、子程序等等。

為了后文便于理解,首先將本發(fā)明的發(fā)明構(gòu)思進(jìn)行簡單介紹:

發(fā)明人通過研究發(fā)現(xiàn):從目的上看,作弊網(wǎng)站是為了獲取較高排序,讓網(wǎng)站中內(nèi)嵌的廣告內(nèi)容獲得更高訪問量。其中,作弊網(wǎng)站的廣告類別一般較為集中,多數(shù)為賭博、色情、美容醫(yī)療、槍支器械等。作弊網(wǎng)站的作弊行為是有跡可循的。為了讓搜索引擎收錄并獲得高的排序位置,作弊網(wǎng)站經(jīng)常更新頁面內(nèi)容,在頁面中添加當(dāng)前熱門高頻的查詢;由于成本問題,作弊網(wǎng)站一般會復(fù)制相同頁面內(nèi)容。為了應(yīng)對搜索引擎的反作弊策略,作弊網(wǎng)站的內(nèi)容、樣式、網(wǎng)址也需要頻繁更新。

由上述分析可知:作弊網(wǎng)站更新頻繁,且作弊網(wǎng)站含有廣告信息,而這些廣告信息在某個時段內(nèi),更新并不頻繁。即,作弊網(wǎng)站在一些重要的位置存在不合理的冗余信息,而正常網(wǎng)站尤其是高質(zhì)量網(wǎng)站不需要制作這種冗余信息,因?yàn)槟菢硬⒉荒芏嗵峁┯袃r值的信息。

信息論的創(chuàng)始人香農(nóng)將熵的概念引入信息論,作為對信息量大小的度量。信息量的大小與其不確定性的大小相關(guān),熵值越高,不確定性越高,要描述清楚所需要的其他信息量就越大。

也即:從信息論的角度看,正常網(wǎng)站如果更新頻繁,說明其提供的信息量大,其熵值會較大;如果更新不頻繁,說明網(wǎng)站提供的信息量小,則熵值較小。作弊網(wǎng)站經(jīng)常更新,預(yù)期其熵值較大,但是某些內(nèi)容域或某些對象因包含了廣告信息,這些廣告信息更新速度慢,導(dǎo)致其熵值變小,即某些內(nèi)容域的實(shí)際熵值與預(yù)期熵值直接存在差異。通過計(jì)算作弊網(wǎng)站不同內(nèi)容域的熵值及其差異程度,能幫助有效識別出作弊網(wǎng)站。

通過上述分析,發(fā)明人創(chuàng)造性的提出,將信息熵這一概念引入異常網(wǎng)站的識別過程中,通過計(jì)算一個網(wǎng)站中一個或者多個內(nèi)容域的信息熵,來對該網(wǎng)站進(jìn)行異常識別。

實(shí)施例一

圖1為本發(fā)明實(shí)施例一提供的一種網(wǎng)站的識別方法的流程圖,本實(shí)施例的方法可以由網(wǎng)站的識別裝置來執(zhí)行,該裝置可通過硬件和/或軟件的方式實(shí)現(xiàn),并一般可集成于用于實(shí)現(xiàn)異常網(wǎng)站識別功能的服務(wù)器中。本實(shí)施例的方法具體包括:

110、在設(shè)定時間段內(nèi),獲取與待驗(yàn)證網(wǎng)站關(guān)聯(lián)的至少兩個歷史更新頁面。

在本實(shí)施例中,所述待驗(yàn)證網(wǎng)站具體是指需要進(jìn)行異常識別的網(wǎng)站。其中,可以將搜索引擎中收錄的全部網(wǎng)站均作為待驗(yàn)證網(wǎng)站進(jìn)行異常識別,但是,考慮到異常網(wǎng)站(典型的,作弊網(wǎng)站)為了獲得在搜索引擎中位序更高的排序結(jié)果,會經(jīng)常更新頁面內(nèi)容,因此可以選取有新產(chǎn)生頁面或者有更新頁面的網(wǎng)站作為待驗(yàn)證網(wǎng)站,這也有助于減少計(jì)算量。

如前所述,本發(fā)明的核心即為通過分析一個待驗(yàn)證網(wǎng)站中各個內(nèi)容域的信息熵來對該網(wǎng)站進(jìn)行異常識別,而信息熵主要是衡量內(nèi)容域中出現(xiàn)的內(nèi)容的不確定程度,因此需要獲取設(shè)定時間段內(nèi)(例如,1小時、1天或者1周等),與待驗(yàn)證網(wǎng)站關(guān)聯(lián)的至少兩個歷史更新頁面,通過分析該歷史更新頁面中更新的內(nèi)容,確定所述待驗(yàn)證網(wǎng)站中各個內(nèi)容域的信息熵。

其中,所述與待驗(yàn)證網(wǎng)站關(guān)聯(lián)的至少兩個歷史更新頁面可以包括:與所述待驗(yàn)證網(wǎng)站的網(wǎng)站域名對應(yīng)的至少兩個歷史更新頁面;和/或與所述待驗(yàn)證網(wǎng)站中的同一網(wǎng)頁地址對應(yīng)的至少兩個歷史更新頁面。

在一個具體例子中,一個待驗(yàn)證網(wǎng)站的網(wǎng)站域名為www.A.com,可以獲取設(shè)定時間段內(nèi)與該網(wǎng)站域名對應(yīng)的全部歷史更新頁面作為與所述待驗(yàn)證網(wǎng)站關(guān)聯(lián)的歷史更新頁面;進(jìn)一步的,考慮到一個網(wǎng)站中可以同時包括有多個不同類型的子頁面(例如,一個新聞網(wǎng)站中同時包括了“時事”、“娛樂”以及“體育”等子頁面),為了進(jìn)行更細(xì)粒度的分析,還可以獲取所述待驗(yàn)證網(wǎng)站中與同一網(wǎng)頁地址(例如:www.A.com/B)對應(yīng)的全部歷史更新頁面,作為與所述待驗(yàn)證網(wǎng)站關(guān)聯(lián)的歷史更新頁面。

120、對各所述歷史更新頁面進(jìn)行內(nèi)容解析,獲取與各所述歷史更新頁面對應(yīng)的至少一個內(nèi)容域。

一般來說,一個頁面中包括有不同類型的數(shù)據(jù)內(nèi)容,在本實(shí)施例中,將上述不同類型的數(shù)據(jù)內(nèi)容定義為域。例如:文本標(biāo)題、文本正文、圖片標(biāo)題、圖片以及圖片的精準(zhǔn)描述文本等。通過頁面解析,也即對頁面的HTML(HyperText Markup Language,超文本標(biāo)記語言)文件進(jìn)行分析,可以將一個頁面將頁面分為不同的域并提取這些域中包含的文本、圖片等內(nèi)容。

考慮到后續(xù)信息熵的計(jì)算復(fù)雜度,在本實(shí)施例中,計(jì)算信息熵時選取的所述內(nèi)容域可以包括下述至少一項(xiàng):文本標(biāo)題域、圖片域、圖片標(biāo)題域、圖片描述文本域。

其中,所述文本標(biāo)題域具體是指一個或者多個文本標(biāo)題所在的頁面位置,所述圖片域具體是指一個或者多個圖片所在的頁面位置,所述圖片標(biāo)題域具體是指與圖片對應(yīng)的一個或者多個圖片標(biāo)題所在的頁面位置,所述圖片描述文本域具體是指與圖片對應(yīng)的一個或者多個圖片精準(zhǔn)描述文本所在的頁面位置。

130、根據(jù)各所述歷史更新頁面中相同內(nèi)容域中的內(nèi)容變化,計(jì)算各所述內(nèi)容域的信息熵。

通過信息熵的相關(guān)概念可知,一個內(nèi)容域中的內(nèi)容變化越頻繁,該內(nèi)容域中內(nèi)容的不確定性越大,則該內(nèi)容域的信息熵也就越大;反之,一個內(nèi)容域中的內(nèi)容越固定,該內(nèi)容域中的內(nèi)容的不確定性越小,則該內(nèi)容域的信息熵也就越小。

其中,信息熵的計(jì)算公式具體為:

<mrow> <mi>H</mi> <mrow> <mo>(</mo> <mi>X</mi> <mo>)</mo> </mrow> <mo>=</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mi>I</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <msub> <mi>log</mi> <mn>2</mn> </msub> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

其中,x有n種取值:x1…xi…xn,對應(yīng)概率為:P(x1)…P(xi)…P(xn)。

典型的,可以根據(jù)內(nèi)容域中不同內(nèi)容在各歷史更新頁面中的出現(xiàn)頻次,計(jì)算各內(nèi)容域的信息熵。

140、根據(jù)信息熵計(jì)算結(jié)果,對所述待驗(yàn)證網(wǎng)站進(jìn)行異常識別。

在本實(shí)施例的一個優(yōu)選的實(shí)施方式中,可以將待驗(yàn)證網(wǎng)站中各內(nèi)容域的信息熵計(jì)算結(jié)果與一個可信網(wǎng)站的各內(nèi)容域的信息熵進(jìn)行比對,進(jìn)而對所述待驗(yàn)證網(wǎng)站進(jìn)行異常識別;

在本實(shí)施例的另一個優(yōu)選的實(shí)施方式中,還可以將待驗(yàn)證網(wǎng)站中不同內(nèi)容域的信息熵進(jìn)行比對,進(jìn)而對所述待驗(yàn)證網(wǎng)站進(jìn)行異常識別;

在本實(shí)施例的另一個優(yōu)選的實(shí)施方式中,還可以將所述信息熵計(jì)算結(jié)果作為至少一個信息熵特征值,將所述信息熵特征值與其他異常網(wǎng)站識別特征值進(jìn)行結(jié)合,對所述待驗(yàn)證網(wǎng)站進(jìn)行異常識別。

一般來說,現(xiàn)有技術(shù)主要使用分類器來對一個待驗(yàn)證網(wǎng)站進(jìn)行異常識別,通過在該分類器中加入一個或者多個異常網(wǎng)站識別特征值(典型的,內(nèi)容特征、鏈以及接特征等)完成對異常網(wǎng)站的識別。在本實(shí)施例中,除了可以直接使用信息熵對進(jìn)行異常網(wǎng)站識別之外,還可以在現(xiàn)有的異常網(wǎng)站識別技術(shù)的基礎(chǔ)上,將待驗(yàn)證網(wǎng)站中的各內(nèi)容域的信息熵計(jì)算結(jié)果作為一個或者多個信息熵特征值,將所述信息熵特征值與其他異常網(wǎng)站識別特征值一起輸入至分類器中,與現(xiàn)有的異常網(wǎng)站識別技術(shù)結(jié)合后,對所述待驗(yàn)證網(wǎng)站進(jìn)行異常識別,以進(jìn)一步提高異常網(wǎng)站的識別準(zhǔn)確率。

本發(fā)明實(shí)施例在設(shè)定時間段內(nèi),獲取與待驗(yàn)證網(wǎng)站關(guān)聯(lián)的至少兩個歷史更新頁面;對各所述歷史更新頁面進(jìn)行內(nèi)容解析,獲取與各所述歷史更新頁面對應(yīng)的至少一個內(nèi)容域;根據(jù)各所述歷史更新頁面中相同內(nèi)容域中的內(nèi)容變化,計(jì)算各所述內(nèi)容域的信息熵;根據(jù)信息熵計(jì)算結(jié)果,對所述待驗(yàn)證網(wǎng)站進(jìn)行異常識別,由于信息熵特征的區(qū)分度好,計(jì)算簡單、時效性高,可以解決現(xiàn)有作弊網(wǎng)站識別技術(shù)所帶來的識別率不高、實(shí)時性差以及需要引入額外的人工標(biāo)注或者數(shù)據(jù)整理工作的技術(shù)問題,優(yōu)化了現(xiàn)有的網(wǎng)站識別技術(shù),提高了異常網(wǎng)站的識別準(zhǔn)確率。

實(shí)施例二

圖2是本發(fā)明實(shí)施例二提供的一種網(wǎng)站的識別方法的流程圖。本實(shí)施例以上述實(shí)施例為基礎(chǔ)進(jìn)行優(yōu)化,在本實(shí)施例中,將在設(shè)定時間段內(nèi),獲取與待驗(yàn)證網(wǎng)站關(guān)聯(lián)的至少兩個歷史更新頁面具體優(yōu)化為:在設(shè)定時間段內(nèi),通過網(wǎng)絡(luò)爬蟲抓取網(wǎng)絡(luò)中新產(chǎn)生的,和/或有更新的頁面;將抓取的頁面按照網(wǎng)站域名進(jìn)行聚簇后,將與聚類簇對應(yīng)的網(wǎng)站作為所述待驗(yàn)證網(wǎng)站;根據(jù)所述聚類簇中包括的頁面,獲取與所述待驗(yàn)證網(wǎng)站關(guān)聯(lián)的至少兩個歷史更新頁面;

同時,將根據(jù)各所述歷史更新頁面中相同內(nèi)容域中的內(nèi)容變化,計(jì)算各所述內(nèi)容域的信息熵具體優(yōu)化為:分別在各所述歷史更新頁面的相同目標(biāo)內(nèi)容域中,提取至少一個比對對象;根據(jù)所述比對對象在各所述歷史更新頁面的目標(biāo)內(nèi)容域中的出現(xiàn)頻次,計(jì)算所述比對對象的出現(xiàn)概率;根據(jù)所述比對對象的出現(xiàn)概率,計(jì)算與所述目標(biāo)內(nèi)容域?qū)?yīng)的信息熵。

相應(yīng)的,本實(shí)施例的方法具體包括:

210、在設(shè)定時間段內(nèi),通過網(wǎng)絡(luò)爬蟲抓取網(wǎng)絡(luò)中新產(chǎn)生的,和/或有更新的頁面。

在本實(shí)施例中,考慮到異常網(wǎng)站,尤其是作弊網(wǎng)站一般為更新的比較頻繁的網(wǎng)站。因此,可以首先獲取通過網(wǎng)絡(luò)爬蟲抓取網(wǎng)絡(luò)中新產(chǎn)生的,以及有更新的頁面,通過對這些頁面進(jìn)行合并按照網(wǎng)站聚簇,可以進(jìn)而確定出相應(yīng)的待驗(yàn)證網(wǎng)站。

220、將抓取的頁面按照網(wǎng)站域名進(jìn)行聚簇后,將與聚類簇對應(yīng)的網(wǎng)站作為所述待驗(yàn)證網(wǎng)站。

230、根據(jù)所述聚類簇中包括的頁面,獲取與所述待驗(yàn)證網(wǎng)站關(guān)聯(lián)的至少兩個歷史更新頁面。

其中,如果所述與待驗(yàn)證網(wǎng)站關(guān)聯(lián)的至少兩個歷史更新頁面具體為與所述待驗(yàn)證網(wǎng)站的網(wǎng)站域名對應(yīng)的至少兩個歷史更新頁面,則根據(jù)所述聚類簇中包括的頁面,獲取與所述待驗(yàn)證網(wǎng)站關(guān)聯(lián)的至少兩個歷史更新頁面具體可以包括:

將所述聚類簇中包括的全部頁面,直接作為與所述待驗(yàn)證網(wǎng)站關(guān)聯(lián)的歷史更新頁面;

如果所述與待驗(yàn)證網(wǎng)站關(guān)聯(lián)的至少兩個歷史更新頁面具體為與所述待驗(yàn)證網(wǎng)站中的同一網(wǎng)頁地址對應(yīng)的至少兩個歷史更新頁面,則根據(jù)所述聚類簇中包括的頁面,獲取與所述待驗(yàn)證網(wǎng)站關(guān)聯(lián)的至少兩個歷史更新頁面具體可以包括:

將所述聚類簇中包括的頁面按照URL(Uniform Resource Locator,統(tǒng)一資源定位符)地址進(jìn)行分組,其中,同一分組中的頁面對應(yīng)于一個相同的URL地址;獲取同一分組中包括的頁面作為與所述待驗(yàn)證網(wǎng)站關(guān)聯(lián)的歷史更新頁面。

240、對各所述歷史更新頁面進(jìn)行內(nèi)容解析,獲取與各所述歷史更新頁面對應(yīng)的至少一個內(nèi)容域。

250、分別在各所述歷史更新頁面的相同目標(biāo)內(nèi)容域中,提取至少一個比對對象。

在本實(shí)施例中,如果所述目標(biāo)內(nèi)容域中的內(nèi)容包括文本,則所述比對對象可以包括:原始文本、語義簽名或者語義類別;如果所述目標(biāo)內(nèi)容域中的內(nèi)容包括圖片,則所述比對對象可以包括:原始圖片或者圖片類別。

其中,所述原始文本具體是指某個內(nèi)容域中直接出現(xiàn)的文本內(nèi)容,例如:文本標(biāo)題域中的文本內(nèi)容為:“2016.6.17日,XX公司在美國上市”,則上述文本內(nèi)容即為原始文本;

語義簽名是對原始文本的改進(jìn),即對原始文本進(jìn)行語義識別和處理,保留原始文本中的核心語義內(nèi)容,并表示為若干核心詞語的組合,這種核心詞語的組合,稱之為語義簽名。續(xù)前例,針對“2016.6.17日,XX公司在美國上市”這一原始文本,其所對應(yīng)的語義簽名為“XX公司、美國、上市”;

語義類別指原始文本內(nèi)容的語義類別。續(xù)前例,針對“2016.6.17日,XX公司在美國上市”這一原始文本,其所對應(yīng)的語義類別為“財(cái)經(jīng)”。

可以理解的是,原始文本、語義簽名以及語義類別代表粗細(xì)粒度不同的信息類型,相應(yīng)的,通過計(jì)算這三種信息類型的信息熵,可以得到粗細(xì)粒度不同的信息量度量結(jié)果。在實(shí)際應(yīng)用時,本領(lǐng)域技術(shù)人員可以根據(jù)實(shí)際的異常網(wǎng)站識別精度,選取不同粗細(xì)粒度的信息類型作為所述比對對象。

相類似的,所述原始圖片具體是指某個內(nèi)容域中直接出現(xiàn)的圖片內(nèi)容,所述圖片類別,具體是指圖片在某分類體系下的類別。

當(dāng)前,本領(lǐng)域技術(shù)人員可以理解的是,還可以在內(nèi)容域中獲取其他形式的比對對象,實(shí)際上,凡是能夠清晰界定和識別的頁面版塊或頁面信息類型的數(shù)據(jù)均可以作為所述比對對象,本實(shí)施例對此并不進(jìn)行限制。

260、根據(jù)所述比對對象在各所述歷史更新頁面的目標(biāo)內(nèi)容域中的出現(xiàn)頻次,計(jì)算所述比對對象的出現(xiàn)概率。

在一個具體例子中,在一天之內(nèi),待驗(yàn)證網(wǎng)站對應(yīng)于三個歷史更新頁面,歷史更新頁面1、歷史更新頁面2以及歷史更新頁面3,選取的目標(biāo)內(nèi)容域?yàn)槲谋緲?biāo)題域,選取的比對對象為原始文本。

其中,在歷史更新頁面1的文本標(biāo)題域中出現(xiàn)的原始文本包括:文本標(biāo)題1、文本標(biāo)題2以及文本標(biāo)題3;在歷史更新頁面2中的文本標(biāo)題域中出現(xiàn)的原始文本包括:文本標(biāo)題1、文本標(biāo)題3以及文本標(biāo)題4;在歷史更新頁面3中的文本標(biāo)題域中出現(xiàn)的原始文本包括:文本標(biāo)題3以及文本標(biāo)題5。

相應(yīng)的,在上述三個歷史更新頁面中一共出現(xiàn)了8個文本標(biāo)題,文本標(biāo)題1在上述三個歷史更新頁面中共出現(xiàn)2次,進(jìn)而可以確定與文本標(biāo)題對應(yīng)的出現(xiàn)概率為2/8;文本標(biāo)題2在上述三個歷史更新頁面中共出現(xiàn)1次,進(jìn)而可以確定與文本標(biāo)題對應(yīng)的出現(xiàn)概率為1/8;文本標(biāo)題3在上述三個歷史更新頁面中共出現(xiàn)3次,進(jìn)而可以確定與文本標(biāo)題對應(yīng)的出現(xiàn)概率為3/8;文本標(biāo)題4在上述三個歷史更新頁面中共出現(xiàn)1次,進(jìn)而可以確定與文本標(biāo)題對應(yīng)的出現(xiàn)概率為1/8;文本標(biāo)題5在上述三個歷史更新頁面中共出現(xiàn)1次,進(jìn)而可以確定與文本標(biāo)題5對應(yīng)的出現(xiàn)概率為1/8。

270、根據(jù)所述比對對象的出現(xiàn)概率,計(jì)算與所述目標(biāo)內(nèi)容域?qū)?yīng)的信息熵。

根據(jù)信息熵計(jì)算公式,可以得到上述與所述目標(biāo)內(nèi)容域?qū)?yīng)的信息熵H為:

H=(1/4)log24+(1/8)log28+(3/8)log23/8+(1/8)log28+(1/8)log28。

280、根據(jù)信息熵計(jì)算結(jié)果,對所述待驗(yàn)證網(wǎng)站進(jìn)行異常識別。

發(fā)明人通過分析各種作弊網(wǎng)站的特點(diǎn)后發(fā)現(xiàn):如果在與同一網(wǎng)站對應(yīng)的多個歷史更新頁面中,頁面主要圖片大量重復(fù)(圖片的信息熵小),而圖片描述文本或文本標(biāo)題卻鮮見重復(fù)(圖片描述文本或者文本標(biāo)題的信息熵大),則該網(wǎng)站有較大概率為作弊網(wǎng)站;此外,如果圖片類別的信息熵與圖片標(biāo)題的信息熵存在明顯差異,則該網(wǎng)站也有較大概率為作弊網(wǎng)站。

據(jù)此,在本實(shí)施例的一個優(yōu)選的實(shí)施方式中,根據(jù)信息熵計(jì)算結(jié)果,對所述待驗(yàn)證網(wǎng)站進(jìn)行異常識別可以包括:

如果與所述待驗(yàn)證網(wǎng)站對應(yīng)的各內(nèi)容域的信息熵的總和小于設(shè)定第一門限值,則確定所述待驗(yàn)證網(wǎng)站為異常網(wǎng)站;或者

如果與所述待驗(yàn)證網(wǎng)站對應(yīng)的至少一個目標(biāo)內(nèi)容域的信息熵小于設(shè)定第二門限值,則確定所述待驗(yàn)證網(wǎng)站為異常網(wǎng)站;或者

如果與所述待驗(yàn)證網(wǎng)站對應(yīng)的至少兩個目標(biāo)內(nèi)容域的比值小于設(shè)定第三門限值,則確定所述待驗(yàn)證網(wǎng)站為異常網(wǎng)站。

其中,所述第一門限值、第二門限值以及第三門限值可以根據(jù)實(shí)際情況進(jìn)行預(yù)設(shè),本實(shí)施例對此并不進(jìn)行限制。

本實(shí)施例的技術(shù)方案通過篩選某個時段內(nèi)新產(chǎn)生或者有更新的頁面,將來自相同網(wǎng)站的頁面聚合在一起,并根據(jù)聚合結(jié)果選取待驗(yàn)證網(wǎng)站進(jìn)行異常識別的方式,相比于將搜索引擎收錄的全部網(wǎng)站均進(jìn)行異常識別的方式,在不顯著增加漏檢率的前提下,可以大大減少計(jì)算量;此外,通過根據(jù)一個網(wǎng)站中各個內(nèi)容域的信息熵差異對網(wǎng)站進(jìn)行異常識別的方式,不需要引入任何參考網(wǎng)站,僅僅根據(jù)待驗(yàn)證網(wǎng)站中不同內(nèi)容域的信息熵差異特點(diǎn),即可實(shí)現(xiàn)簡單、準(zhǔn)確的識別出異常網(wǎng)站的技術(shù)效果。

在上述各實(shí)施例的基礎(chǔ)上,在根據(jù)所述比對對象在各所述目標(biāo)內(nèi)容域中的出現(xiàn)頻次,計(jì)算所述比對對象的出現(xiàn)概率之前,還可以包括:

如果確定所述比對對象為時效性簡單重復(fù)文本,則在各所述歷史更新頁面中,分別獲取與所述比對對象關(guān)聯(lián)的正文內(nèi)容;如果在不同歷史更新頁面中,與相同目標(biāo)比對對象對應(yīng)的正文內(nèi)容不相同,則將所述目標(biāo)比對對象標(biāo)記為不同的比對對象。

這樣設(shè)置的原因是:在計(jì)算信息熵時,對具有時效性的形式相同的文本需要特殊處理。例如,像“一周快訊”、“國內(nèi)要聞”這種新聞標(biāo)題,在不同時間對應(yīng)的正文內(nèi)容不同,在計(jì)算信息熵時,需要結(jié)合正文內(nèi)容進(jìn)行判斷。也即:在歷史更新頁面1以及歷史更新頁面2中均出現(xiàn)了“一周快訊”這一比對對象,如果僅統(tǒng)計(jì)“一周快訊”的出現(xiàn)頻次的話,則該比對對象的出現(xiàn)概率為1。但是,考慮到“一周快訊”是一個具有時效性的文本,還要繼續(xù)在歷史更新頁面1以及歷史更新頁面2中比對與“一周快訊”對應(yīng)的正文內(nèi)容,如果二者不同,則會將歷史更新頁面1中的“一周快訊”以及歷史更新頁面2中的“一周快訊”識別為不同的比對對象,進(jìn)而可以確定該比對對象的出現(xiàn)概率為1/2。

通過上述設(shè)置,可以提高信息熵的計(jì)算準(zhǔn)確度,進(jìn)而可以提高異常網(wǎng)站的識別準(zhǔn)確度。

實(shí)施例三

圖3是本發(fā)明實(shí)施例二提供的一種網(wǎng)站的識別方法的流程圖。本實(shí)施例以上述實(shí)施例為基礎(chǔ)進(jìn)行優(yōu)化,在本實(shí)施例中,將根據(jù)信息熵計(jì)算結(jié)果,對所述待驗(yàn)證網(wǎng)站進(jìn)行異常識別具體優(yōu)化為:根據(jù)所述待驗(yàn)證網(wǎng)站的數(shù)據(jù)特征,在可信網(wǎng)站列表中獲取與所述待驗(yàn)證網(wǎng)站關(guān)聯(lián)的參考網(wǎng)站;獲取與所述參考網(wǎng)站對應(yīng)的至少一個內(nèi)容域的信息熵;在所述待驗(yàn)證網(wǎng)站以及所述參考網(wǎng)站中,選取至少一個關(guān)鍵內(nèi)容域;根據(jù)所述待驗(yàn)證網(wǎng)站以及所述參考網(wǎng)站中,與所述關(guān)鍵內(nèi)容域分別對應(yīng)的信息熵,計(jì)算所述待驗(yàn)證網(wǎng)站與所述參考網(wǎng)站之間的差異度因子;如果所述差異度因子滿足設(shè)定閾值條件,則確定所述待驗(yàn)證網(wǎng)站為異常網(wǎng)站。

相應(yīng)的,本實(shí)施例的方法具體包括:

310、在設(shè)定時間段內(nèi),獲取與待驗(yàn)證網(wǎng)站關(guān)聯(lián)的至少兩個歷史更新頁面。

320、對各所述歷史更新頁面進(jìn)行內(nèi)容解析,獲取與各所述歷史更新頁面對應(yīng)的至少一個內(nèi)容域。

330、根據(jù)各所述歷史更新頁面中相同內(nèi)容域中的內(nèi)容變化,計(jì)算各所述內(nèi)容域的信息熵。

340、根據(jù)所述待驗(yàn)證網(wǎng)站的數(shù)據(jù)特征,在可信網(wǎng)站列表中獲取與所述待驗(yàn)證網(wǎng)站關(guān)聯(lián)的參考網(wǎng)站。

在本實(shí)施例中,所述待驗(yàn)證網(wǎng)站的數(shù)據(jù)特征可以包括下述至少一項(xiàng):設(shè)定時間段內(nèi)的網(wǎng)站更新頻率、設(shè)定時間段內(nèi)的新增頁面數(shù)量以及內(nèi)容主題等。

其中,所述可信網(wǎng)站列表具體是指:通過用戶行為日志挖掘或者人工整理等方法,確定出的一批可信網(wǎng)站。

在本實(shí)施例中,考慮到更新頻率相似、設(shè)定時間段內(nèi)的新增頁面數(shù)量相似或者內(nèi)容主題相似的可信網(wǎng)站,其網(wǎng)頁中各個內(nèi)容域的信息熵之間也會具有一定的相似性。因此,通過在可信網(wǎng)站列表中獲取與所述待驗(yàn)證網(wǎng)站在所述數(shù)據(jù)特征上相類似的參考網(wǎng)站,并通過所述參考網(wǎng)站以及所述待驗(yàn)證網(wǎng)站中各個域的信息熵差異,可以對異常網(wǎng)站進(jìn)行識別。

350、獲取與所述參考網(wǎng)站對應(yīng)的至少一個內(nèi)容域的信息熵。

360、在所述待驗(yàn)證網(wǎng)站以及所述參考網(wǎng)站中,選取至少一個關(guān)鍵內(nèi)容域。

其中,可以獲取所述待驗(yàn)證網(wǎng)站以及所述參考網(wǎng)站中均包括的全部內(nèi)容域作為所述關(guān)鍵內(nèi)容域,也可以獲取上述兩者均包括的一個或者多個重要的內(nèi)容域(例如,圖片域以及文本標(biāo)題域等)作為所述關(guān)鍵內(nèi)容域,本實(shí)施例對此并不進(jìn)行限制。

370、根據(jù)所述待驗(yàn)證網(wǎng)站以及所述參考網(wǎng)站中,與所述關(guān)鍵內(nèi)容域分別對應(yīng)的信息熵,計(jì)算所述待驗(yàn)證網(wǎng)站與所述參考網(wǎng)站之間的差異度因子。

在本實(shí)施例的一個優(yōu)選的實(shí)施方式中,根據(jù)所述待驗(yàn)證網(wǎng)站以及所述參考網(wǎng)站中,與所述關(guān)鍵內(nèi)容域分別對應(yīng)的信息熵,計(jì)算所述待驗(yàn)證網(wǎng)站與所述參考網(wǎng)站之間的差異度因子具體可以包括:

在所述待驗(yàn)證網(wǎng)站以及所述參考網(wǎng)站中,獲取與同一關(guān)鍵內(nèi)容域?qū)?yīng)的信息熵差值作為所述差異度因子。

例如,在待驗(yàn)證網(wǎng)站中,與關(guān)鍵內(nèi)容域1對應(yīng)的信息熵為A,與關(guān)鍵內(nèi)容域2對應(yīng)的信息熵為B;在參考網(wǎng)站中,與關(guān)鍵內(nèi)容域1對應(yīng)的信息熵為C,與關(guān)鍵內(nèi)容域2對應(yīng)的信息熵為D;

則可以將|A-C|以及|B-D|作為所述差異度因子。其中,||代表取絕對值符號。

在本實(shí)施例的另一個優(yōu)選的實(shí)施方式中,根據(jù)所述待驗(yàn)證網(wǎng)站以及所述參考網(wǎng)站中,與所述關(guān)鍵內(nèi)容域分別對應(yīng)的信息熵,計(jì)算所述待驗(yàn)證網(wǎng)站與所述參考網(wǎng)站之間的差異度因子具體可以包括:

在所述待驗(yàn)證網(wǎng)站中,將與至少兩個關(guān)鍵內(nèi)容域分別對應(yīng)的信息熵構(gòu)成第一信息向量;

在所述參考網(wǎng)站中,將與所述至少兩個關(guān)鍵內(nèi)容域分別對應(yīng)的信息熵構(gòu)成第二信息向量;

計(jì)算所述第一信息向量與所述第二信息向量之間的距離值作為所述差異度因子。

續(xù)前例,在待驗(yàn)證網(wǎng)站中,與關(guān)鍵內(nèi)容域1對應(yīng)的信息熵為A,與關(guān)鍵內(nèi)容域2對應(yīng)的信息熵為B;在參考網(wǎng)站中,與關(guān)鍵內(nèi)容域1對應(yīng)的信息熵為C,與關(guān)鍵內(nèi)容域2對應(yīng)的信息熵為D;

則與待驗(yàn)證網(wǎng)站對應(yīng)的第一信息向量為[A,B],與參考網(wǎng)站對應(yīng)的第二信息向量為[C,D]。

其中,可以通過各種方式計(jì)算兩個向量之間的距離值,典型的,計(jì)算兩者的余弦夾角的方式,并將計(jì)算得到的距離值作為所述差異度因子。

380、判斷所述差異度因子是否滿足設(shè)定閾值條件,若是,執(zhí)行390。否則,執(zhí)行3100。

其中,如果所述差異度因子為信息熵差值,則所述如果所述差異度因子滿足設(shè)定閾值條件,則確定所述待驗(yàn)證網(wǎng)站為異常網(wǎng)站具體可以包括:

如果設(shè)定數(shù)量的信息熵差值超過設(shè)定閾值,和/或與設(shè)定關(guān)鍵內(nèi)容域?qū)?yīng)的信息熵差值超過設(shè)定閾值,則確定所述待驗(yàn)證網(wǎng)站為異常網(wǎng)站;或者

如果對至少兩個信息熵差值進(jìn)行加權(quán)求和得到的差異累加值超過設(shè)定閾值,則確定所述待驗(yàn)證網(wǎng)站為異常網(wǎng)站。

如果所述差異度因子為所述距離值,則所述如果所述差異度因子滿足設(shè)定閾值條件,則確定所述待驗(yàn)證網(wǎng)站為異常網(wǎng)站具體可以包括:

如果所述距離值超過設(shè)定門限值,則確定所述待驗(yàn)證網(wǎng)站為異常網(wǎng)站。

390、確定所述待驗(yàn)證網(wǎng)站為異常網(wǎng)站。

3100、確定所述待驗(yàn)證網(wǎng)站為正常網(wǎng)站。

本實(shí)施例的技術(shù)方案通過在計(jì)算得到待驗(yàn)證網(wǎng)站中各內(nèi)容域的信息熵之后,獲取與該待驗(yàn)證網(wǎng)站數(shù)據(jù)特征相似的可信網(wǎng)站中各內(nèi)容域的信息熵,基于兩者的信息熵,計(jì)算得到兩者的差異度因子,進(jìn)而對待驗(yàn)證網(wǎng)站進(jìn)行異常識別的技術(shù)手段,可以實(shí)現(xiàn)根據(jù)異常網(wǎng)站與可信網(wǎng)站之間的信息熵差別,簡單、快速的識別出異常網(wǎng)站的技術(shù)效果,識別準(zhǔn)確度高,實(shí)時性好。

實(shí)施例四

圖4是本發(fā)明實(shí)施例四提供的一種網(wǎng)站的識別裝置的結(jié)構(gòu)圖。如圖4所示,所述裝置包括:歷史更新頁面獲取模塊41、內(nèi)容域獲取模塊42、內(nèi)容域信息熵計(jì)算模塊43以及異常識別模塊44,其中:

歷史更新頁面獲取模塊41,用于在設(shè)定時間段內(nèi),獲取與待驗(yàn)證網(wǎng)站關(guān)聯(lián)的至少兩個歷史更新頁面。

內(nèi)容域獲取模塊42,用于對各所述歷史更新頁面進(jìn)行內(nèi)容解析,獲取與各所述歷史更新頁面對應(yīng)的至少一個內(nèi)容域。

內(nèi)容域信息熵計(jì)算模塊43,用于根據(jù)各所述歷史更新頁面中相同內(nèi)容域中的內(nèi)容變化,計(jì)算各所述內(nèi)容域的信息熵。

異常識別模塊44,用于根據(jù)信息熵計(jì)算結(jié)果,對所述待驗(yàn)證網(wǎng)站進(jìn)行異常識別。

本發(fā)明實(shí)施例通過在設(shè)定時間段內(nèi),獲取與待驗(yàn)證網(wǎng)站關(guān)聯(lián)的至少兩個歷史更新頁面;對各所述歷史更新頁面進(jìn)行內(nèi)容解析,獲取與各所述歷史更新頁面對應(yīng)的至少一個內(nèi)容域;根據(jù)各所述歷史更新頁面中相同內(nèi)容域中的內(nèi)容變化,計(jì)算各所述內(nèi)容域的信息熵;根據(jù)信息熵計(jì)算結(jié)果,對所述待驗(yàn)證網(wǎng)站進(jìn)行異常識別的技術(shù)手段,由于信息熵特征的區(qū)分度好,計(jì)算簡單、時效性高,可以解決現(xiàn)有作弊網(wǎng)站識別技術(shù)所帶來的識別率不高、實(shí)時性差以及需要引入額外的人工標(biāo)注或者數(shù)據(jù)整理工作的技術(shù)問題,優(yōu)化了現(xiàn)有的網(wǎng)站識別技術(shù),提高了異常網(wǎng)站的識別準(zhǔn)確率。

在上述各實(shí)施例的基礎(chǔ)上,所述與待驗(yàn)證網(wǎng)站關(guān)聯(lián)的至少兩個歷史更新頁面可以包括:

與所述待驗(yàn)證網(wǎng)站的網(wǎng)站域名對應(yīng)的至少兩個歷史更新頁面;和/或

與所述待驗(yàn)證網(wǎng)站中的同一網(wǎng)頁地址對應(yīng)的至少兩個歷史更新頁面。

在上述各實(shí)施例的基礎(chǔ)上,所述歷史更新頁面獲取模塊,具體可以用于:

在設(shè)定時間段內(nèi),通過網(wǎng)絡(luò)爬蟲抓取網(wǎng)絡(luò)中新產(chǎn)生的,和/或有更新的頁面;

將抓取的頁面按照網(wǎng)站域名進(jìn)行聚簇后,將與聚類簇對應(yīng)的網(wǎng)站作為所述待驗(yàn)證網(wǎng)站;

根據(jù)所述聚類簇中包括的頁面,獲取與所述待驗(yàn)證網(wǎng)站關(guān)聯(lián)的至少兩個歷史更新頁面。

在上述各實(shí)施例的基礎(chǔ)上,所述內(nèi)容域可以包括下述至少一項(xiàng):

文本標(biāo)題域、圖片域、圖片標(biāo)題域、圖片描述文本域。

在上述各實(shí)施例的基礎(chǔ)上,所述內(nèi)容域信息熵計(jì)算模塊,具體可以用于:

分別在各所述歷史更新頁面的相同目標(biāo)內(nèi)容域中,提取至少一個比對對象;

根據(jù)所述比對對象在各所述歷史更新頁面的目標(biāo)內(nèi)容域中的出現(xiàn)頻次,計(jì)算所述比對對象的出現(xiàn)概率;

根據(jù)所述比對對象的出現(xiàn)概率,計(jì)算與所述目標(biāo)內(nèi)容域?qū)?yīng)的信息熵。

在上述各實(shí)施例的基礎(chǔ)上,如果所述目標(biāo)內(nèi)容域中的內(nèi)容包括文本,則所述比對對象可以包括:原始文本、語義簽名或者語義類別;

如果所述目標(biāo)內(nèi)容域中的內(nèi)容包括圖片,則所述比對對象可以包括:原始圖片或者圖片類別。

在上述各實(shí)施例的基礎(chǔ)上,還可以包括:正文內(nèi)容關(guān)聯(lián)比對模塊,用于:

在根據(jù)所述比對對象在各所述目標(biāo)內(nèi)容域中的出現(xiàn)頻次,計(jì)算所述比對對象的出現(xiàn)概率之前,如果確定所述比對對象為時效性簡單重復(fù)文本,則在各所述歷史更新頁面中,分別獲取與所述比對對象關(guān)聯(lián)的正文內(nèi)容;

如果在不同歷史更新頁面中,與相同目標(biāo)比對對象對應(yīng)的正文內(nèi)容不相同,則將所述目標(biāo)比對對象標(biāo)記為不同的比對對象。

在上述各實(shí)施例的基礎(chǔ)上,所述異常識別模塊,具體可以包括:

參考網(wǎng)站獲取單元,用于根據(jù)所述待驗(yàn)證網(wǎng)站的數(shù)據(jù)特征,在可信網(wǎng)站列表中獲取與所述待驗(yàn)證網(wǎng)站關(guān)聯(lián)的參考網(wǎng)站;

參考網(wǎng)站信息熵獲取單元,用于獲取與所述參考網(wǎng)站對應(yīng)的至少一個內(nèi)容域的信息熵;

關(guān)鍵內(nèi)容域選取單元,用于在所述待驗(yàn)證網(wǎng)站以及所述參考網(wǎng)站中,選取至少一個關(guān)鍵內(nèi)容域;

差異度因子計(jì)算單元,用于根據(jù)所述待驗(yàn)證網(wǎng)站以及所述參考網(wǎng)站中,與所述關(guān)鍵內(nèi)容域分別對應(yīng)的信息熵,計(jì)算所述待驗(yàn)證網(wǎng)站與所述參考網(wǎng)站之間的差異度因子;

異常網(wǎng)站識別子單元,用于如果所述差異度因子滿足設(shè)定閾值條件,則確定所述待驗(yàn)證網(wǎng)站為異常網(wǎng)站。

在上述各實(shí)施例的基礎(chǔ)上,差異度因子計(jì)算單元具體可以用于:

在所述待驗(yàn)證網(wǎng)站以及所述參考網(wǎng)站中,獲取與同一關(guān)鍵內(nèi)容域?qū)?yīng)的信息熵差值作為所述差異度因子;

異常網(wǎng)站識別子單元具體可以用于:

如果設(shè)定數(shù)量的信息熵差值超過設(shè)定閾值,和/或與設(shè)定關(guān)鍵內(nèi)容域?qū)?yīng)的信息熵差值超過設(shè)定閾值,則確定所述待驗(yàn)證網(wǎng)站為異常網(wǎng)站;或者

如果對至少兩個信息熵差值進(jìn)行加權(quán)求和得到的差異累加值超過設(shè)定閾值,則確定所述待驗(yàn)證網(wǎng)站為異常網(wǎng)站。

在上述各實(shí)施例的基礎(chǔ)上,差異度因子計(jì)算單元具體可以用于:

在所述待驗(yàn)證網(wǎng)站中,將與至少兩個關(guān)鍵內(nèi)容域分別對應(yīng)的信息熵構(gòu)成第一信息向量;

在所述參考網(wǎng)站中,將與所述至少兩個關(guān)鍵內(nèi)容域分別對應(yīng)的信息熵構(gòu)成第二信息向量;

計(jì)算所述第一信息向量與所述第二信息向量之間的距離值作為所述差異度因子;

所述異常網(wǎng)站識別子單元具體可以用于:

如果所述距離值超過設(shè)定門限值,則確定所述待驗(yàn)證網(wǎng)站為異常網(wǎng)站。

在上述各實(shí)施例的基礎(chǔ)上,所述待驗(yàn)證網(wǎng)站的數(shù)據(jù)特征可以包括下述至少一項(xiàng):

設(shè)定時間段內(nèi)的網(wǎng)站更新頻率、設(shè)定時間段內(nèi)的新增頁面數(shù)量以及內(nèi)容主題。

在上述各實(shí)施例的基礎(chǔ)上,所述異常識別模塊,具體可以包括:

如果與所述待驗(yàn)證網(wǎng)站對應(yīng)的各內(nèi)容域的信息熵的總和小于設(shè)定第一門限值,則確定所述待驗(yàn)證網(wǎng)站為異常網(wǎng)站;或者

如果與所述待驗(yàn)證網(wǎng)站對應(yīng)的至少一個目標(biāo)內(nèi)容域的信息熵小于設(shè)定第二門限值,則確定所述待驗(yàn)證網(wǎng)站為異常網(wǎng)站;或者

如果與所述待驗(yàn)證網(wǎng)站對應(yīng)的至少兩個目標(biāo)內(nèi)容域的比值小于設(shè)定第三門限值,則確定所述待驗(yàn)證網(wǎng)站為異常網(wǎng)站。

在上述各實(shí)施例的基礎(chǔ)上,所述異常識別模塊,具體可以包括:

將所述信息熵計(jì)算結(jié)果作為至少一個信息熵特征值,將所述信息熵特征值與其他異常網(wǎng)站識別特征值進(jìn)行結(jié)合,對所述待驗(yàn)證網(wǎng)站進(jìn)行異常識別。

本發(fā)明實(shí)施例所提供的網(wǎng)站的識別裝置可用于執(zhí)行本發(fā)明任意實(shí)施例提供的網(wǎng)站的識別方法,具備相應(yīng)的功能模塊,實(shí)現(xiàn)相同的有益效果。

顯然,本領(lǐng)域技術(shù)人員應(yīng)該明白,上述的本發(fā)明的各模塊或各步驟可以通過如上所述的服務(wù)器實(shí)施??蛇x地,本發(fā)明實(shí)施例可以用計(jì)算機(jī)裝置可執(zhí)行的程序來實(shí)現(xiàn),從而可以將它們存儲在存儲裝置中由處理器來執(zhí)行,所述的程序可以存儲于一種計(jì)算機(jī)可讀存儲介質(zhì)中,上述提到的存儲介質(zhì)可以是只讀存儲器,磁盤或光盤等;或者將它們分別制作成各個集成電路模塊,或者將它們中的多個模塊或步驟制作成單個集成電路模塊來實(shí)現(xiàn)。這樣,本發(fā)明不限制于任何特定的硬件和軟件的結(jié)合。

以上所述僅為本發(fā)明的優(yōu)選實(shí)施例,并不用于限制本發(fā)明,對于本領(lǐng)域技術(shù)人員而言,本發(fā)明可以有各種改動和變化。凡在本發(fā)明的精神和原理之內(nèi)所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
普安县| 青铜峡市| 天津市| 永济市| 丰城市| 元江| 龙岩市| 麦盖提县| 大安市| 共和县| 巩留县| 靖江市| 金溪县| 盘山县| 通城县| 广安市| 惠来县| 建瓯市| 巴彦淖尔市| 景德镇市| 嘉荫县| 新和县| 农安县| 临西县| 塔河县| 黑水县| 汨罗市| 卓尼县| 黄大仙区| 蒙阴县| 金湖县| 饶河县| 山东| 江永县| 丰县| 沂水县| 衡山县| 营山县| 建昌县| 烟台市| 西充县|