欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

不良網(wǎng)站檢測方法及設(shè)備的制作方法

文檔序號:6367882閱讀:215來源:國知局

專利名稱::不良網(wǎng)站檢測方法及設(shè)備的制作方法
技術(shù)領(lǐng)域
:本發(fā)明涉及信息處理技木,尤其涉及ー種不良網(wǎng)站檢測方法及設(shè)備,屬于網(wǎng)絡(luò)安全
技術(shù)領(lǐng)域
。
背景技術(shù)
:隨著網(wǎng)絡(luò)技術(shù)的逐漸發(fā)展,網(wǎng)頁已成為人們獲取各類信息的重要途徑。然而大量色情網(wǎng)站的出現(xiàn),不僅影響了網(wǎng)絡(luò)環(huán)境,更時刻威脅網(wǎng)民特別是青少年網(wǎng)民的身心健康,所以如何能夠快速、準確的對色情網(wǎng)站進行檢測已成為色情網(wǎng)站檢測領(lǐng)域的ー個重要課題。現(xiàn)有色情網(wǎng)頁檢測技術(shù)主要采取網(wǎng)頁URL黑名單過濾技術(shù)和網(wǎng)頁頁面內(nèi)容檢測技木。網(wǎng)頁URL黑名單過濾技術(shù)主要是根據(jù)色情網(wǎng)頁URL中可能出現(xiàn)的敏感特征詞和已獲知的色情網(wǎng)頁URL建立黑名単,井根據(jù)黑名單對網(wǎng)絡(luò)監(jiān)測、用戶舉報等方式提供的可疑色情網(wǎng)頁的URL進行檢測。網(wǎng)頁頁面內(nèi)容檢測主要是針對網(wǎng)頁內(nèi)面內(nèi)容,如文本、圖片、音頻、視頻等進行全面檢測。在實際應(yīng)用中,網(wǎng)頁URL黑名單過濾技術(shù)因需要預(yù)先建立黑名單,所以對于新產(chǎn)生的色情詞匯、色情網(wǎng)頁的檢測有一定的滯后性,而網(wǎng)頁頁面內(nèi)容檢測技術(shù),由于對圖片、音頻、視頻的識別技木本身還不成熟,所以總體檢測誤差較大,并且由于處理元素較多,導(dǎo)致計算量大,檢測效率較低。因此,基于目前的色情網(wǎng)頁檢測技術(shù),無法實現(xiàn)快速、準確的色情網(wǎng)頁檢測。
發(fā)明內(nèi)容針對現(xiàn)有技術(shù)中的缺陷,本發(fā)明提供ー種不良網(wǎng)頁檢測方法及設(shè)備,用以實現(xiàn)快速、準確的不良網(wǎng)頁檢測。根據(jù)本發(fā)明的一方面,提供ー種不良網(wǎng)頁檢測方法,包括對待檢測網(wǎng)頁進行分詞處理,獲取所述待檢測網(wǎng)頁的分詞數(shù)據(jù);根據(jù)所述分詞數(shù)據(jù)和預(yù)先獲取的至少ー個不良網(wǎng)頁特征詞,獲取所述待檢測網(wǎng)頁的不良網(wǎng)頁特征詞;根據(jù)與所述待檢測網(wǎng)頁的不良網(wǎng)頁特征詞對應(yīng)的不良網(wǎng)頁概率值,獲取所述待檢測網(wǎng)頁的不良網(wǎng)頁判定概率;若所述不良網(wǎng)頁判定概率大于第一預(yù)定閾值,則判定所述待檢測網(wǎng)頁為不良網(wǎng)頁。進ー步地,在上述不良網(wǎng)頁檢測方法中,所述根據(jù)所述分詞數(shù)據(jù)和預(yù)先獲取的至少ー個不良網(wǎng)頁特征詞,獲取所述待檢測網(wǎng)頁的不良網(wǎng)頁特征詞的步驟之前,還包括獲取不良網(wǎng)頁特征詞列表,所述不良網(wǎng)頁特征詞列表包括所述預(yù)先獲取的不良網(wǎng)頁特征詞,以及分別與各預(yù)先獲取的不良網(wǎng)頁特征詞對應(yīng)的不良網(wǎng)頁概率值;相應(yīng)地,所述根據(jù)所述分詞數(shù)據(jù)和預(yù)先獲取的至少ー個不良網(wǎng)頁特征詞,獲取所述待檢測網(wǎng)頁的不良網(wǎng)頁特征詞的步驟具體包括將所述分詞數(shù)據(jù)與預(yù)先獲取的不良網(wǎng)頁特征詞列表進行匹配,獲取所述分詞數(shù)據(jù)包括的不良網(wǎng)頁特征詞。進ー步地,在上述不良網(wǎng)頁檢測方法中,所述獲取不良網(wǎng)頁特征詞列表的步驟具體包括獲取不良網(wǎng)頁樣本集和正常網(wǎng)頁樣本集;對所述正常網(wǎng)頁樣本集中各正常網(wǎng)頁樣本進行分詞處理,獲取各正常網(wǎng)頁樣本的分詞數(shù)據(jù),對所述各正常網(wǎng)頁樣本的分詞數(shù)據(jù)進行詞頻-反文檔頻率統(tǒng)計,并根據(jù)所述詞頻-反文檔頻率的統(tǒng)計值獲取預(yù)定數(shù)量的不良網(wǎng)頁特征詞;對所述不良網(wǎng)頁樣本集中各不良網(wǎng)頁樣本進行分詞處理,獲取各不良網(wǎng)頁樣本的分詞數(shù)據(jù);獲取所述預(yù)定數(shù)量的不良網(wǎng)頁特征詞中,各不良網(wǎng)頁特征詞在所述正常網(wǎng)頁樣本的分詞數(shù)據(jù)中出現(xiàn)的第一概率,以及在所述不良網(wǎng)頁樣本的分詞數(shù)據(jù)中出現(xiàn)的第二概率,井根據(jù)所述第一概率和所述第二概率獲取各不良網(wǎng)頁特征詞對應(yīng)的不良網(wǎng)頁概率值;根據(jù)所述預(yù)定數(shù)量的不良網(wǎng)頁特征詞和與各不良網(wǎng)頁特征詞對應(yīng)的所述不良網(wǎng)頁概率值,生成所述不良網(wǎng)頁特征詞列表。進ー步地,在上述不良網(wǎng)頁檢測方法中,所述若所述不良網(wǎng)頁判定概率大于第一預(yù)定閾值,則判定所述待檢測網(wǎng)頁為不良網(wǎng)頁的步驟具體包括若所述不良網(wǎng)頁判定概率大于第一預(yù)定閾值,獲取各所述待檢測網(wǎng)頁的不良網(wǎng)頁特征詞的總字符長度與所述待檢測網(wǎng)頁的字符長度的比值;若所述比值大于第二預(yù)定閾值,則判定所述待檢測網(wǎng)頁為不良網(wǎng)頁。進ー步地,在上述不良網(wǎng)頁檢測方法中,所述若所述比值大于第二預(yù)定閾值,則判定所述待檢測網(wǎng)頁為不良網(wǎng)頁具體包括若所述比值大于第二預(yù)定閾值,獲取所述待檢測網(wǎng)頁的網(wǎng)頁級別;若所述網(wǎng)頁級別不大于第三預(yù)定閾值,則判定所述待檢測網(wǎng)頁為不良網(wǎng)頁。根據(jù)本發(fā)明的另一方面,提供ー種不良網(wǎng)頁檢測設(shè)備,包括第一處理模塊,用于對待檢測網(wǎng)頁進行分詞處理,獲取所述待檢測網(wǎng)頁的分詞數(shù)據(jù);第二處理模塊,用于根據(jù)所述分詞數(shù)據(jù)和預(yù)先獲取的至少ー個不良網(wǎng)頁特征詞,獲取所述待檢測網(wǎng)頁的不良網(wǎng)頁特征詞;第三處理模塊,用于根據(jù)與所述待檢測網(wǎng)頁的不良網(wǎng)頁特征詞對應(yīng)的不良網(wǎng)頁概率值,獲取所述待檢測網(wǎng)頁的不良網(wǎng)頁判定概率;第四處理模塊,用于若所述不良網(wǎng)頁判定概率大于第一預(yù)定閾值,則判定所述待檢測網(wǎng)頁為不良網(wǎng)頁。進ー步地,在上述不良網(wǎng)頁檢測設(shè)備中,還包括第五處理模塊,用于獲取不良網(wǎng)頁特征詞列表,所述不良網(wǎng)頁特征詞列表包括所述預(yù)先獲取的不良網(wǎng)頁特征詞,以及分別與各預(yù)先獲取的不良網(wǎng)頁特征詞對應(yīng)的不良網(wǎng)頁概率值;相應(yīng)地,所述第二處理模塊還用于將所述分詞數(shù)據(jù)與預(yù)先獲取的不良網(wǎng)頁特征詞列表進行匹配,獲取所述分詞數(shù)據(jù)包括的不良網(wǎng)頁特征詞。進ー步地,在上述不良網(wǎng)頁檢測設(shè)備中,所述第五處理模塊包括第一處理單元,用于獲取不良網(wǎng)頁樣本集和正常網(wǎng)頁樣本集;第二處理單元,用于對所述正常網(wǎng)頁樣本集中各正常網(wǎng)頁樣本進行分詞處理,獲取各正常網(wǎng)頁樣本的分詞數(shù)據(jù),對所述各正常網(wǎng)頁樣本的分詞數(shù)據(jù)進行詞頻-反文檔頻率統(tǒng)計,并根據(jù)所述詞頻-反文檔頻率的統(tǒng)計值獲取預(yù)定數(shù)量的不良網(wǎng)頁特征詞;第三處理單元,用于對所述不良網(wǎng)頁樣本集中各不良網(wǎng)頁樣本進行分詞處理,獲取各不良網(wǎng)頁樣本的分詞數(shù)據(jù);第四處理單元,用于獲取所述預(yù)定數(shù)量的不良網(wǎng)頁特征詞中,各不良網(wǎng)頁特征詞在所述正常網(wǎng)頁樣本的分詞數(shù)據(jù)中出現(xiàn)的第一概率,以及在所述不良網(wǎng)頁樣本的分詞數(shù)據(jù)中出現(xiàn)的第二概率,井根據(jù)所述第一概率和所述第二概率獲取各不良網(wǎng)頁特征詞對應(yīng)的不良網(wǎng)頁概率值;第五處理單元,用于根據(jù)所述預(yù)定數(shù)量的不良網(wǎng)頁特征詞和與各不良網(wǎng)頁特征詞對應(yīng)的所述不良網(wǎng)頁概率值,生成所述不良網(wǎng)頁特征詞列表。進ー步地,在上述不良網(wǎng)頁檢測設(shè)備中,所述第四處理模塊還用于若所述不良網(wǎng)頁判定概率大于第一預(yù)定閾值,獲取各所述待檢測網(wǎng)頁的不良網(wǎng)頁特征詞的總字符長度與所述待檢測網(wǎng)頁的字符長度的比值;若所述比值大于第二預(yù)定閾值,則判定所述待檢測網(wǎng)頁為不良網(wǎng)頁。進ー步地,在上述不良網(wǎng)頁檢測設(shè)備中,所述第四處理模塊還用于若所述比值大于第二預(yù)定閾值,獲取所述待檢測網(wǎng)頁的網(wǎng)頁級別;若所述網(wǎng)頁級別不大于第三預(yù)定閾值,則判定所述待檢測網(wǎng)頁為不良網(wǎng)頁。根據(jù)本發(fā)明提供的不良網(wǎng)頁檢測方法及設(shè)備,一方面,通過將待檢測網(wǎng)頁的文本內(nèi)容與能夠充分表征不良網(wǎng)頁的不良網(wǎng)頁特征詞進行對照,來判定待檢測網(wǎng)頁是否為不良網(wǎng)頁,使得檢測結(jié)果準確可靠;另ー方面,在檢測過程中,無需對待檢測網(wǎng)頁中的圖片、音視頻文件等進行處理,實現(xiàn)方便、計算簡單,因此,實現(xiàn)了快速、準確的不良網(wǎng)頁檢測。圖I為本發(fā)明實施例不良網(wǎng)頁檢測方法的流程示意圖。圖2為本發(fā)明實施例不良網(wǎng)頁檢測設(shè)備的結(jié)構(gòu)示意圖。具體實施例方式本發(fā)明實施例提供的不良網(wǎng)頁檢測方法具體可以應(yīng)用于對不良網(wǎng)站的檢測,不良網(wǎng)站具體可以包括色情、賭博、暴力以及反動等網(wǎng)站??梢酝ㄟ^不良網(wǎng)頁檢測裝置來執(zhí)行,該不良網(wǎng)頁檢測裝置具體可以通過軟和/或硬件的方式來實現(xiàn)。圖I為本發(fā)明實施例不良網(wǎng)頁檢測方法的流程示意圖。如圖I所示,該不良網(wǎng)頁檢測方法包括以下步驟步驟S101,對待檢測網(wǎng)頁進行分詞處理,獲取所述待檢測網(wǎng)頁的分詞數(shù)據(jù);具體地,可以采用常用的任意分詞技術(shù)對待檢測網(wǎng)頁進行分詞處理,例如正向最大匹配法、反向最大匹配法和最短路徑分詞法等。而且,還可以根據(jù)預(yù)設(shè)條件,選擇性地對待檢測網(wǎng)頁的主題名稱、內(nèi)容摘要或網(wǎng)頁的全部文本進行分詞處理,獲取分詞數(shù)據(jù)。所獲取的分詞數(shù)據(jù)例如為m個(m為大于等于2的任意自然數(shù)),形成為ー個分詞數(shù)據(jù)集合{C1,C2,C3,......,Cm},其中Cl,C2,C3,......,Cm均為分詞數(shù)據(jù)。步驟S102,根據(jù)所述分詞數(shù)據(jù)和預(yù)先獲取的至少ー個不良網(wǎng)頁特征詞,獲取所述待檢測網(wǎng)頁的不良網(wǎng)頁特征詞;具體地,預(yù)先獲取的不良網(wǎng)頁特征詞例如通過對已知的不良網(wǎng)站和正常網(wǎng)站進行統(tǒng)計獲得,預(yù)先獲取的不良網(wǎng)頁特征詞的數(shù)量例如為n個(其中n為大于等于2的任意自然數(shù)),表示為tl,t2,t3,......tn。將通過步驟SlOl得到的若干個分詞數(shù)據(jù)與預(yù)先獲取的不良網(wǎng)頁特征詞進行比對,檢測出這些分詞數(shù)據(jù)中哪些分詞數(shù)據(jù)為不良網(wǎng)頁特征詞,從而獲知待檢測網(wǎng)頁所包括的不良網(wǎng)頁特征詞。若檢測獲知待檢測網(wǎng)頁中不存在不良網(wǎng)頁特征詞,則可判定待檢測網(wǎng)頁為正常網(wǎng)頁。若檢測獲知待檢測網(wǎng)頁的分詞數(shù)據(jù)集合中有h個分詞數(shù)據(jù)與預(yù)先獲取的不良網(wǎng)頁特征詞相匹配,例如將這h個數(shù)據(jù)分別記為Tl,T2,T3,......Th,其中h為小于等于m、且小于等于n的自然數(shù),執(zhí)行步驟S103。步驟S103,根據(jù)與所述待檢測網(wǎng)頁的不良網(wǎng)頁特征詞對應(yīng)的不良網(wǎng)頁概率值,獲取所述待檢測網(wǎng)頁的不良網(wǎng)頁判定概率;具體地,通過步驟S102獲取的待檢測網(wǎng)頁的不良網(wǎng)頁特征詞Tl,T2,T3,......Th屬于預(yù)先獲取的不良網(wǎng)頁特征詞tl,t2,t3,......tn中的一部分或全部,從預(yù)先獲取的分別與tl,t2,t3,......tn相對應(yīng)的不良網(wǎng)頁概率值中查找分別與Tl,T2,T3,......Th對應(yīng)的不良網(wǎng)頁概率值,記為P(A|Ti),用于表示在網(wǎng)頁中出現(xiàn)不良特征詞Ti時,該網(wǎng)頁為不良網(wǎng)頁的概率。針對待檢測網(wǎng)頁的h個不良網(wǎng)頁特征詞Tl,T2,T3,......Th,分別獲取h個不良網(wǎng)頁概率值P(AlTl),P(A|T2),......,P(AlTh),例如記為Pl,P2,P3,......,Ph0例如按照下述公式,計算同時存在不良網(wǎng)頁特征詞Tl,T2,T3,......Th時,待檢測網(wǎng)頁中為不良網(wǎng)頁的概率,即不良網(wǎng)頁判定概率P(AlTl,T2,T3,......Th)P(AITl,T2,T3,......Th)=(P1XP2X......Ph)/[P1XP2X......Ph+(I-Pl)X(1-P2)X......(I-Ph)]o步驟S104,若所述不良網(wǎng)頁判定概率大于第一預(yù)定閾值,則判定所述待檢測網(wǎng)頁為不良網(wǎng)頁。其中,第一預(yù)定閾值大于等于0且小于等于1,具體數(shù)值可根據(jù)需要或經(jīng)驗設(shè)定。根據(jù)上述實施例的不良網(wǎng)頁檢測方法,預(yù)先獲取有不良網(wǎng)頁特征詞和對應(yīng)的不良網(wǎng)頁概率值,在對待檢測網(wǎng)頁進行檢測時,通過對待檢測網(wǎng)頁的內(nèi)容進行分詞處理,并通過將得到的分詞數(shù)據(jù)與預(yù)先獲取的不良網(wǎng)頁特征詞相比較,獲知待檢測網(wǎng)頁中是否存在、以及存在哪些不良網(wǎng)頁特征詞,井根據(jù)與這些不良網(wǎng)頁特征詞對應(yīng)的不良網(wǎng)頁概率值計算待檢測網(wǎng)頁的不良網(wǎng)頁判定概率,從而根據(jù)待檢測網(wǎng)頁的不良網(wǎng)頁判定概率完成不良網(wǎng)頁檢測。通過采用上述不良網(wǎng)頁檢測方法,一方面,通過將待檢測網(wǎng)頁的文本內(nèi)容與能夠充分表征不良網(wǎng)頁的特征詞進行對照,來判定待檢測網(wǎng)頁是否為不良網(wǎng)頁,使得檢測結(jié)果準確可靠;另ー方面,在檢測過程中,無需對待檢測網(wǎng)頁中的圖片、音視頻文件等進行處理,實現(xiàn)方便、計算簡單,因此,上述實施例的不良網(wǎng)頁檢測方法實現(xiàn)了快速、準確的不良網(wǎng)頁檢測。進ー步地,在上述實施例的不良網(wǎng)頁檢測方法中,所述根據(jù)所述分詞數(shù)據(jù)和預(yù)先獲取的至少ー個不良網(wǎng)頁特征詞,獲取所述待檢測網(wǎng)頁的不良網(wǎng)頁特征詞的步驟之前,還包括獲取不良網(wǎng)頁特征詞列表,所述不良網(wǎng)頁特征詞列表包括所述預(yù)先獲取的不良網(wǎng)頁特征詞,以及分別與各預(yù)先獲取的不良網(wǎng)頁特征詞對應(yīng)的不良網(wǎng)頁概率值;相應(yīng)地,所述根據(jù)所述分詞數(shù)據(jù)和預(yù)先獲取的至少ー個不良網(wǎng)頁特征詞,獲取所述待檢測網(wǎng)頁的不良網(wǎng)頁特征詞的步驟具體包括將所述分詞數(shù)據(jù)與預(yù)先獲取的不良網(wǎng)頁特征詞列表進行匹配,獲取所述分詞數(shù)據(jù)包括的不良網(wǎng)頁特征詞。進ー步地,在上述實施例的不良網(wǎng)頁檢測方法中,所述獲取不良網(wǎng)頁特征詞列表的步驟具體包括獲取不良網(wǎng)頁樣本集和正常網(wǎng)頁樣本集;對所述正常網(wǎng)頁樣本集中各正常網(wǎng)頁樣本進行分詞處理,獲取各正常網(wǎng)頁樣本的分詞數(shù)據(jù),對所述各正常網(wǎng)頁樣本的分詞數(shù)據(jù)進行詞頻-反文檔頻率統(tǒng)計,并根據(jù)所述詞頻-反文檔頻率的統(tǒng)計值獲取預(yù)定數(shù)量的不良網(wǎng)頁特征詞;對所述不良網(wǎng)頁樣本集中各不良網(wǎng)頁樣本進行分詞處理,獲取各不良網(wǎng)頁樣本的分詞數(shù)據(jù);獲取所述預(yù)定數(shù)量的不良網(wǎng)頁特征詞中,各不良網(wǎng)頁特征詞在所述正常網(wǎng)頁樣本的分詞數(shù)據(jù)中出現(xiàn)的第一概率,以及在所述不良網(wǎng)頁樣本的分詞數(shù)據(jù)中出現(xiàn)的第二概率,井根據(jù)所述第一概率和所述第二概率獲取各不良網(wǎng)頁特征詞對應(yīng)的不良網(wǎng)頁概率值;根據(jù)所述預(yù)定數(shù)量的不良網(wǎng)頁特征詞和與各不良網(wǎng)頁特征詞對應(yīng)的所述不良網(wǎng)頁概率值,生成所述不良網(wǎng)頁特征詞列表。具體地,上述獲取不良網(wǎng)頁特征詞列表的過程例如為生成貝葉斯分類器的訓(xùn)練過程,可離線實現(xiàn)。其中,生成貝葉斯分類器的訓(xùn)練過程例如包括對不良網(wǎng)頁樣本集和正常網(wǎng)頁樣本集進行統(tǒng)計學(xué)習(xí),形成貝葉斯分類模型以及確定第一預(yù)定閾值。具體說明如下首先,對正常網(wǎng)頁樣本集中的所有樣本分別進行分詞處理,并且在處理的同時去掉雜訊,比如HTML標簽、腳本代碼、停用詞等等。對分詞處理后獲得的所有獨立詞組(即分詞數(shù)據(jù))都進行詞頻_反文檔頻率(TermFrequency-InverseDocumentFrequency,TF-IDF)統(tǒng)計,然后將TF-IDF值從大到小排序的前N位的獨立詞組作為貝葉斯分類統(tǒng)計所用的特征詞列表,相當于ー個N維向量空間。這N個獨立詞組即作為不良網(wǎng)頁特征詞。對不良網(wǎng)頁樣本集中的所有樣本也進行分詞處理。對正常網(wǎng)頁樣本集的分詞數(shù)據(jù)和不良網(wǎng)頁樣本集的分詞數(shù)據(jù)進行貝葉斯分類統(tǒng)計學(xué)習(xí),其中向量空間為上述形成的N維向量空間,每ー維向量為ー個不良網(wǎng)頁特征詞。計算每個不良網(wǎng)頁特征詞的貝葉斯概率值,作為該不良網(wǎng)頁特征詞在N維向量空間的特征值,從而將生成的N維特征值作為貝葉斯分類器。具體統(tǒng)計訓(xùn)練過程的算法描述如下步驟S201,通過兩個哈希表來表示特征詞列表構(gòu)成的N維向量空間,其中ー個哈希表對應(yīng)正常網(wǎng)頁樣本集(記為hashtable_good);另一個哈希表對應(yīng)不良網(wǎng)頁樣本集(記為hashtable_bad)。步驟S202,上述兩個哈希表中姆項存儲的是不良網(wǎng)頁特征詞及與該不良網(wǎng)頁特征詞在對應(yīng)的樣本集中出現(xiàn)的概率。具體地,統(tǒng)計各不良網(wǎng)頁特征詞在正常網(wǎng)頁樣本集/不良網(wǎng)頁樣本集中的詞頻(以下簡稱為不良網(wǎng)頁特征詞的詞頻),從而計算每個不良網(wǎng)頁特征詞在對應(yīng)的樣本集中出現(xiàn)的概率P=(該不良網(wǎng)頁特征詞的詞頻)/(對應(yīng)的哈希表中所有不良網(wǎng)頁特征詞的詞頻的總和)。因此,將hashtable_good表,不良網(wǎng)頁特征詞ti在正常樣本集中出現(xiàn)的概率,即第一概率記為Pl(ti),將hashtable_bad表,不良網(wǎng)頁特征詞ti在不良樣本集中出現(xiàn)的概率,即第二概率記為P2(ti)。步驟S203,根據(jù)Pl(ti)和P2(ti)計算當待檢測網(wǎng)頁中出現(xiàn)不良網(wǎng)頁特征詞ti時,該網(wǎng)頁為不良網(wǎng)頁的概率,即該不良網(wǎng)頁特征詞的不良網(wǎng)頁概率值。具體地,例如以A事件表示網(wǎng)頁為不良網(wǎng)頁,則在假設(shè)不良網(wǎng)頁與正常網(wǎng)頁各自出現(xiàn)的先驗概率相等的情況下,P(A|ti)=P2(ti)/[(Pl(ti)+P2(ti)]。此外,也可根據(jù)需要假設(shè)不良網(wǎng)頁與正常網(wǎng)頁各自出現(xiàn)的先驗概率不相等,則可按照常用的貝葉斯概率算法計算P(AIti)。步驟S204,通過上述步驟S203計算得出分別對應(yīng)N個不良網(wǎng)頁特征詞的不良網(wǎng)頁概率值,將N個不良網(wǎng)頁特征詞與不良網(wǎng)頁概率值之間的映射關(guān)系保存在一個新建的哈希表中,該哈希表即為不良網(wǎng)頁特征詞列表,記為(hastable_probability)。至此,整個離線流程中,針對正常網(wǎng)頁樣本集和不良網(wǎng)頁樣本集的訓(xùn)練過程結(jié)束。根據(jù)將哈希表hashtable_probability作為貝葉斯分類器,就可以估計新到的待檢測網(wǎng)頁為不良網(wǎng)頁的可能性,即待檢測網(wǎng)頁的不良網(wǎng)頁判定概率。根據(jù)上述實施例的不良網(wǎng)頁檢測方法,通過將貝葉斯分類算法應(yīng)用于不良網(wǎng)頁的檢測,提供了較好的分類效果和快速的分類處理。進ー步地,還可根據(jù)對待檢測網(wǎng)頁的檢測結(jié)果對正常網(wǎng)頁樣本集或不良網(wǎng)頁樣本集進行更新。進ー步地,在上述實施例的不良網(wǎng)頁檢測方法中,在根據(jù)離線生成的貝葉斯分類器對待檢測網(wǎng)頁進行分類后,還可進一步通過有效測度和/或網(wǎng)頁級別對分類結(jié)果進行優(yōu)化,具體說明如下。所述若所述不良網(wǎng)頁判定概率大于第一預(yù)定閾值,則判定所述待檢測網(wǎng)頁為不良網(wǎng)頁的步驟具體包括若所述不良網(wǎng)頁判定概率大于第一預(yù)定閾值,獲取各所述待檢測網(wǎng)頁的不良網(wǎng)頁特征詞的總字符長度與所述待檢測網(wǎng)頁的字符長度的比值;若所述比值大于第二預(yù)定閾值,則判定所述待檢測網(wǎng)頁為不良網(wǎng)頁。具體地,統(tǒng)計待檢測網(wǎng)頁的各不良網(wǎng)頁特征詞在待檢測網(wǎng)頁中的出現(xiàn)次數(shù),例如針對不良網(wǎng)頁特征詞Tl,T2,T3,......Th,對應(yīng)的出現(xiàn)次數(shù)分別為XI,X2,X3,......Xh;各不良網(wǎng)頁特征詞對應(yīng)的字符長度分別為LI,L2,L3,......Lh,則待檢測網(wǎng)頁的不良網(wǎng)頁特征詞的總字符長度Length_match=XlXL1+X2XL2+......XhXLh。此外還計算進行分詞處理的待檢測網(wǎng)頁的文本長度,例如若僅對待檢測網(wǎng)頁的內(nèi)容摘要進行分詞處理,則計算待檢測網(wǎng)頁的內(nèi)容摘要的字符長度;若對待檢測網(wǎng)頁的全部文本進行分詞處理,則計算待檢測網(wǎng)頁的全部文本的字符長度,記為Length_all,若Length_match/Length_alI大于第二預(yù)定閾值,則判定待檢測網(wǎng)頁為不良網(wǎng)頁,否則,判定待檢測網(wǎng)頁為正常網(wǎng)頁。其中,第二預(yù)定閾值需滿足大小等于0且小于等于1,具體數(shù)值可根據(jù)需要和經(jīng)驗進行設(shè)定。通過上述進ー步判定,能夠避免因正常網(wǎng)頁中偶而出現(xiàn)不良網(wǎng)頁特征詞而將正常網(wǎng)頁誤判為不良網(wǎng)頁,進ー步提高了不良網(wǎng)頁檢測準確性。進ー步地,所述若所述比值大于第二預(yù)定閾值,則判定所述待檢測網(wǎng)頁為不良網(wǎng)頁具體包括若所述比值大于第二預(yù)定閾值,獲取所述待檢測網(wǎng)頁的網(wǎng)頁級別;若所述網(wǎng)頁級別不大于第三預(yù)定閾值,則判定所述待檢測網(wǎng)頁為不良網(wǎng)頁。其中,網(wǎng)頁級別(PageRank,PR)算法是現(xiàn)有技術(shù)中用于對互聯(lián)網(wǎng)上網(wǎng)頁的質(zhì)量進行計算和評分的算法,該算法考慮了多方面的因素,包括頁面鏈接、元數(shù)據(jù)、被引用率等等,然后對該網(wǎng)頁計算后的評分結(jié)果就是網(wǎng)頁級別,PR值。PR值范圍為,如果值越高,則認為網(wǎng)頁品質(zhì)越好。統(tǒng)計結(jié)果表明,超過90%以上的不良網(wǎng)站的PR值是等于0的。因此,通過進ー步檢查網(wǎng)頁PR值是否大于第三預(yù)定閾值(例如為0),可以過濾ー些被誤判為不良網(wǎng)頁的正規(guī)網(wǎng)頁,如正規(guī)的兩性健康網(wǎng)頁、成人用品網(wǎng)頁等等。其中,第二預(yù)定閾值需滿足大小等于0且小于等于1,具體數(shù)值可根據(jù)需要和經(jīng)驗進行設(shè)定。圖2為本發(fā)明實施例不良網(wǎng)頁檢測設(shè)備的結(jié)構(gòu)示意圖。如圖2所示,該不良網(wǎng)頁檢測設(shè)備包括第一處理模塊21,用于對待檢測網(wǎng)頁進行分詞處理,獲取所述待檢測網(wǎng)頁的分詞數(shù)據(jù);第二處理模塊22,用于根據(jù)所述分詞數(shù)據(jù)和預(yù)先獲取的至少ー個不良網(wǎng)頁特征詞,獲取所述待檢測網(wǎng)頁的不良網(wǎng)頁特征詞;第三處理模塊23,用于根據(jù)與所述待檢測網(wǎng)頁的不良網(wǎng)頁特征詞對應(yīng)的不良網(wǎng)頁概率值,獲取所述待檢測網(wǎng)頁的不良網(wǎng)頁判定概率;第四處理模塊24,用于若所述不良網(wǎng)頁判定概率大于第一預(yù)定閾值,則判定所述待檢測網(wǎng)頁為不良網(wǎng)頁。上述實施例的不良網(wǎng)頁檢測設(shè)備執(zhí)行不良網(wǎng)頁檢測的具體流程與前述實施例的不良網(wǎng)頁檢測方法相同,故此處不再贅述。根據(jù)上述實施例的不良網(wǎng)頁檢測設(shè)備,預(yù)先獲取有不良網(wǎng)頁特征詞和對應(yīng)的不良網(wǎng)頁概率值,在對待檢測網(wǎng)頁進行檢測時,通過對待檢測網(wǎng)頁的內(nèi)容進行分詞處理,并通過將得到的分詞數(shù)據(jù)與預(yù)先獲取的不良網(wǎng)頁特征詞相比較,獲知待檢測網(wǎng)頁中是否存在、以及存在哪些不良網(wǎng)頁特征詞,井根據(jù)與這些不良網(wǎng)頁特征詞對應(yīng)的不良網(wǎng)頁概率值計算待檢測網(wǎng)頁的不良網(wǎng)頁判定概率,從而根據(jù)待檢測網(wǎng)頁的不良網(wǎng)頁判定概率完成不良網(wǎng)頁檢測。通過采用上述不良網(wǎng)頁檢測設(shè)備,一方面,通過將待檢測網(wǎng)頁的文本內(nèi)容與能夠充分表征不良網(wǎng)頁的特征詞進行對照,來判定待檢測網(wǎng)頁是否為不良網(wǎng)頁,使得檢測結(jié)果準確可靠;另ー方面,在檢測過程中,無需對待檢測網(wǎng)頁中的圖片、音視頻文件等進行處理,實現(xiàn)方便、計算簡單,因此,上述實施例的不良網(wǎng)頁檢測設(shè)備實現(xiàn)了快速、準確的不良網(wǎng)頁檢測。進ー步地,在上述實施例的不良網(wǎng)頁檢測設(shè)備中,還包括第五處理模塊,用于獲取不良網(wǎng)頁特征詞列表,所述不良網(wǎng)頁特征詞列表包括所述預(yù)先獲取的不良網(wǎng)頁特征詞,以及分別與各預(yù)先獲取的不良網(wǎng)頁特征詞對應(yīng)的不良網(wǎng)頁概率值;相應(yīng)地,所述第二處理模塊還用于將所述分詞數(shù)據(jù)與預(yù)先獲取的不良網(wǎng)頁特征詞列表進行匹配,獲取所述分詞數(shù)據(jù)包括的不良網(wǎng)頁特征詞。進ー步地,在上述實施例的不良網(wǎng)頁檢測設(shè)備中,所述第五處理模塊包括第一處理單元,用于獲取不良網(wǎng)頁樣本集和正常網(wǎng)頁樣本集;第二處理單元,用于對所述正常網(wǎng)頁樣本集中各正常網(wǎng)頁樣本進行分詞處理,獲取各正常網(wǎng)頁樣本的分詞數(shù)據(jù),對所述各正常網(wǎng)頁樣本的分詞數(shù)據(jù)進行詞頻-反文檔頻率統(tǒng)計,并根據(jù)所述詞頻-反文檔頻率的統(tǒng)計值獲取預(yù)定數(shù)量的不良網(wǎng)頁特征詞;第三處理單元,用于對所述不良網(wǎng)頁樣本集中各不良網(wǎng)頁樣本進行分詞處理,獲取各不良網(wǎng)頁樣本的分詞數(shù)據(jù);第四處理單元,用于獲取所述預(yù)定數(shù)量的不良網(wǎng)頁特征詞中,各不良網(wǎng)頁特征詞在所述正常網(wǎng)頁樣本的分詞數(shù)據(jù)中出現(xiàn)的第一概率,以及在所述不良網(wǎng)頁樣本的分詞數(shù)據(jù)中出現(xiàn)的第二概率,井根據(jù)所述第一概率和所述第二概率獲取各不良網(wǎng)頁特征詞對應(yīng)的不良網(wǎng)頁概率值;第五處理單元,用于根據(jù)所述預(yù)定數(shù)量的不良網(wǎng)頁特征詞和與各不良網(wǎng)頁特征詞對應(yīng)的所述不良網(wǎng)頁概率值,生成所述不良網(wǎng)頁特征詞列表。進ー步地,在上述實施例的不良網(wǎng)頁檢測設(shè)備中,所述第四處理模塊還用于若所述不良網(wǎng)頁判定概率大于第一預(yù)定閾值,獲取各所述待檢測網(wǎng)頁的不良網(wǎng)頁特征詞的總字符長度與所述待檢測網(wǎng)頁的字符長度的比值;若所述比值大于第二預(yù)定閾值,則判定所述待檢測網(wǎng)頁為不良網(wǎng)頁。進ー步地,在上述實施例的不良網(wǎng)頁檢測設(shè)備中,所述第四處理模塊還用于若所述比值大于第二預(yù)定閾值,獲取所述待檢測網(wǎng)頁的網(wǎng)頁級別;若所述網(wǎng)頁級別不大于第三預(yù)定閾值,則判定所述待檢測網(wǎng)頁為不良網(wǎng)頁。最后應(yīng)說明的是以上各實施例僅用以說明本發(fā)明的技術(shù)方案,而非對其限制;盡管參照前述各實施例對本發(fā)明進行了詳細的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當理解其依然可以對前述各實施例所記載的技術(shù)方案進行修改,或者對其中部分或者全部技術(shù)特征進行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實施例技術(shù)方案的范圍。權(quán)利要求1.ー種不良網(wǎng)頁檢測方法,其特征在于,包括對待檢測網(wǎng)頁進行分詞處理,獲取所述待檢測網(wǎng)頁的分詞數(shù)據(jù);根據(jù)所述分詞數(shù)據(jù)和預(yù)先獲取的至少ー個不良網(wǎng)頁特征詞,獲取所述待檢測網(wǎng)頁的不良網(wǎng)頁特征詞;根據(jù)與所述待檢測網(wǎng)頁的不良網(wǎng)頁特征詞對應(yīng)的不良網(wǎng)頁概率值,獲取所述待檢測網(wǎng)頁的不良網(wǎng)頁判定概率;若所述不良網(wǎng)頁判定概率大于第一預(yù)定閾值,則判定所述待檢測網(wǎng)頁為不良網(wǎng)頁。2.根據(jù)權(quán)利要求I所述不良網(wǎng)頁檢測方法,其特征在于,所述根據(jù)所述分詞數(shù)據(jù)和預(yù)先獲取的至少ー個不良網(wǎng)頁特征詞,獲取所述待檢測網(wǎng)頁的不良網(wǎng)頁特征詞的步驟之前,還包括獲取不良網(wǎng)頁特征詞列表,所述不良網(wǎng)頁特征詞列表包括所述預(yù)先獲取的不良網(wǎng)頁特征詞,以及分別與各預(yù)先獲取的不良網(wǎng)頁特征詞對應(yīng)的不良網(wǎng)頁概率值;相應(yīng)地,所述根據(jù)所述分詞數(shù)據(jù)和預(yù)先獲取的至少ー個不良網(wǎng)頁特征詞,獲取所述待檢測網(wǎng)頁的不良網(wǎng)頁特征詞的步驟具體包括將所述分詞數(shù)據(jù)與預(yù)先獲取的不良網(wǎng)頁特征詞列表進行匹配,獲取所述分詞數(shù)據(jù)包括的不良網(wǎng)頁特征詞。3.根據(jù)權(quán)利要求2所述不良網(wǎng)頁檢測方法,其特征在干,所述獲取不良網(wǎng)頁特征詞列表的步驟具體包括獲取不良網(wǎng)頁樣本集和正常網(wǎng)頁樣本集;對所述正常網(wǎng)頁樣本集中各正常網(wǎng)頁樣本進行分詞處理,獲取各正常網(wǎng)頁樣本的分詞數(shù)據(jù),對所述各正常網(wǎng)頁樣本的分詞數(shù)據(jù)進行詞頻-反文檔頻率統(tǒng)計,并根據(jù)所述詞頻-反文檔頻率的統(tǒng)計值獲取預(yù)定數(shù)量的不良網(wǎng)頁特征詞;對所述不良網(wǎng)頁樣本集中各不良網(wǎng)頁樣本進行分詞處理,獲取各不良網(wǎng)頁樣本的分詞數(shù)據(jù);獲取所述預(yù)定數(shù)量的不良網(wǎng)頁特征詞中,各不良網(wǎng)頁特征詞在所述正常網(wǎng)頁樣本的分詞數(shù)據(jù)中出現(xiàn)的第一概率,以及在所述不良網(wǎng)頁樣本的分詞數(shù)據(jù)中出現(xiàn)的第二概率,井根據(jù)所述第一概率和所述第二概率獲取各不良網(wǎng)頁特征詞對應(yīng)的不良網(wǎng)頁概率值;根據(jù)所述預(yù)定數(shù)量的不良網(wǎng)頁特征詞和與各不良網(wǎng)頁特征詞對應(yīng)的所述不良網(wǎng)頁概率值,生成所述不良網(wǎng)頁特征詞列表。4.根據(jù)權(quán)利要求1-3任一所述不良網(wǎng)頁檢測方法,其特征在于,所述若所述不良網(wǎng)頁判定概率大于第一預(yù)定閾值,則判定所述待檢測網(wǎng)頁為不良網(wǎng)頁的步驟具體包括若所述不良網(wǎng)頁判定概率大于第一預(yù)定閾值,獲取各所述待檢測網(wǎng)頁的不良網(wǎng)頁特征詞的總字符長度與所述待檢測網(wǎng)頁的字符長度的比值;若所述比值大于第二預(yù)定閾值,則判定所述待檢測網(wǎng)頁為不良網(wǎng)頁。5.根據(jù)權(quán)利要求4所述不良網(wǎng)頁檢測方法,其特征在于,所述若所述比值大于第二預(yù)定閾值,則判定所述待檢測網(wǎng)頁為不良網(wǎng)頁具體包括若所述比值大于第二預(yù)定閾值,獲取所述待檢測網(wǎng)頁的網(wǎng)頁級別;若所述網(wǎng)頁級別不大于第三預(yù)定閾值,則判定所述待檢測網(wǎng)頁為不良網(wǎng)頁。6.ー種不良網(wǎng)頁檢測設(shè)備,其特征在于,包括第一處理模塊,用于對待檢測網(wǎng)頁進行分詞處理,獲取所述待檢測網(wǎng)頁的分詞數(shù)據(jù);第二處理模塊,用于根據(jù)所述分詞數(shù)據(jù)和預(yù)先獲取的至少ー個不良網(wǎng)頁特征詞,獲取所述待檢測網(wǎng)頁的不良網(wǎng)頁特征詞;第三處理模塊,用于根據(jù)與所述待檢測網(wǎng)頁的不良網(wǎng)頁特征詞對應(yīng)的不良網(wǎng)頁概率值,獲取所述待檢測網(wǎng)頁的不良網(wǎng)頁判定概率;第四處理模塊,用于若所述不良網(wǎng)頁判定概率大于第一預(yù)定閾值,則判定所述待檢測網(wǎng)頁為不良網(wǎng)頁。7.根據(jù)權(quán)利要求6所述的不良網(wǎng)頁檢測設(shè)備,其特征在于,還包括第五處理模塊,用于獲取不良網(wǎng)頁特征詞列表,所述不良網(wǎng)頁特征詞列表包括所述預(yù)先獲取的不良網(wǎng)頁特征詞,以及分別與各預(yù)先獲取的不良網(wǎng)頁特征詞對應(yīng)的不良網(wǎng)頁概率值;相應(yīng)地,所述第二處理模塊還用于將所述分詞數(shù)據(jù)與預(yù)先獲取的不良網(wǎng)頁特征詞列表進行匹配,獲取所述分詞數(shù)據(jù)包括的不良網(wǎng)頁特征詞。8.根據(jù)權(quán)利要求7所述的不良網(wǎng)頁檢測設(shè)備,其特征在于,所述第五處理模塊包括第一處理單元,用于獲取不良網(wǎng)頁樣本集和正常網(wǎng)頁樣本集;第二處理單元,用于對所述正常網(wǎng)頁樣本集中各正常網(wǎng)頁樣本進行分詞處理,獲取各正常網(wǎng)頁樣本的分詞數(shù)據(jù),對所述各正常網(wǎng)頁樣本的分詞數(shù)據(jù)進行詞頻-反文檔頻率統(tǒng)計,并根據(jù)所述詞頻-反文檔頻率的統(tǒng)計值獲取預(yù)定數(shù)量的不良網(wǎng)頁特征詞;第三處理單元,用于對所述不良網(wǎng)頁樣本集中各不良網(wǎng)頁樣本進行分詞處理,獲取各不良網(wǎng)頁樣本的分詞數(shù)據(jù);第四處理單元,用于獲取所述預(yù)定數(shù)量的不良網(wǎng)頁特征詞中,各不良網(wǎng)頁特征詞在所述正常網(wǎng)頁樣本的分詞數(shù)據(jù)中出現(xiàn)的第一概率,以及在所述不良網(wǎng)頁樣本的分詞數(shù)據(jù)中出現(xiàn)的第二概率,井根據(jù)所述第一概率和所述第二概率獲取各不良網(wǎng)頁特征詞對應(yīng)的不良網(wǎng)頁概率值;第五處理單元,用于根據(jù)所述預(yù)定數(shù)量的不良網(wǎng)頁特征詞和與各不良網(wǎng)頁特征詞對應(yīng)的所述不良網(wǎng)頁概率值,生成所述不良網(wǎng)頁特征詞列表。9.根據(jù)權(quán)利要求6-8任一所述的不良網(wǎng)頁檢測設(shè)備,其特征在于,所述第四處理模塊還用于若所述不良網(wǎng)頁判定概率大于第一預(yù)定閾值,獲取各所述待檢測網(wǎng)頁的不良網(wǎng)頁特征詞的總字符長度與所述待檢測網(wǎng)頁的字符長度的比值;若所述比值大于第二預(yù)定閾值,則判定所述待檢測網(wǎng)頁為不良網(wǎng)頁。10.根據(jù)權(quán)利要求9所述的不良網(wǎng)頁檢測設(shè)備,其特征在于,所述第四處理模塊還用于若所述比值大于第二預(yù)定閾值,獲取所述待檢測網(wǎng)頁的網(wǎng)頁級別;若所述網(wǎng)頁級別不大于第三預(yù)定閾值,則判定所述待檢測網(wǎng)頁為不良網(wǎng)頁。全文摘要本發(fā)明提供一種不良網(wǎng)頁檢測方法及設(shè)備。該方法包括對待檢測網(wǎng)頁進行分詞處理,獲取所述待檢測網(wǎng)頁的分詞數(shù)據(jù);根據(jù)所述分詞數(shù)據(jù)和預(yù)先獲取的至少一個不良網(wǎng)頁特征詞,獲取所述待檢測網(wǎng)頁的不良網(wǎng)頁特征詞;根據(jù)與所述待檢測網(wǎng)頁的不良網(wǎng)頁特征詞對應(yīng)的不良網(wǎng)頁概率值,獲取所述待檢測網(wǎng)頁的不良網(wǎng)頁判定概率;若所述不良網(wǎng)頁判定概率大于第一預(yù)定閾值,則判定所述待檢測網(wǎng)頁為不良網(wǎng)頁。本發(fā)明提供的不良網(wǎng)頁檢測方法及設(shè)備,能夠?qū)崿F(xiàn)快速、有效的不良網(wǎng)頁檢測。文檔編號G06F17/30GK102663093SQ201210104059公開日2012年9月12日申請日期2012年4月10日優(yōu)先權(quán)日2012年4月10日發(fā)明者洪博,王利明,耿光剛申請人:中國科學(xué)院計算機網(wǎng)絡(luò)信息中心
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
桐梓县| 孝昌县| 浦江县| 广宁县| 桂东县| 松桃| 河北省| 玉溪市| 云浮市| 精河县| 习水县| 平度市| 纳雍县| 乌审旗| 龙口市| 长治县| 曲周县| 盖州市| 牡丹江市| 喀喇沁旗| 嘉黎县| 南通市| 海晏县| 涟源市| 凤城市| 保德县| 香河县| 陆河县| 阿拉尔市| 海晏县| 马边| 临沧市| 山阳县| 岳普湖县| 肥乡县| 东阳市| 蕲春县| 东莞市| 许昌市| 阳春市| 武威市|