專利名稱:一種基于多分類器融合的敏感網(wǎng)頁過濾方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息過濾技術(shù)領(lǐng)域,尤指識(shí)別含有敏感信息的網(wǎng)頁的方法。
背景技術(shù):
由于互聯(lián)網(wǎng)敏感信息對(duì)于互聯(lián)網(wǎng)用戶尤其是青少年造成了極大的危 害,因此引起了研究者和業(yè)界的廣泛關(guān)注。目前有很多種敏感信息過濾方法,包括黑白名單,IP過濾以及關(guān)鍵 詞匹配等等過濾手段??偟膩碚f, 一方面,這些過濾技術(shù)采用一種非常機(jī)械的方式,能夠?qū)σ恍┟舾芯W(wǎng)頁達(dá)到100%的過濾效率,響應(yīng)時(shí)間也非常短,但是過濾參數(shù)更新的周期只能跟隨著實(shí)際敏感網(wǎng)頁的出現(xiàn)而變化, 不能夠應(yīng)對(duì)實(shí)際敏感網(wǎng)站的快速變化。另一方面,由于網(wǎng)頁的內(nèi)容信息基 本上沒有利用或者很少利用,因此造成了很高的誤過濾率,影響了用戶 的正常上網(wǎng)?;趦?nèi)容的敏感信息智能識(shí)別技術(shù)是近年來過濾技術(shù)的一個(gè)發(fā)展方 向。目前已有多種基于內(nèi)容的敏感信息識(shí)別方法。目前的敏感網(wǎng)頁識(shí)別方法一般主要建立敏感文本識(shí)別基礎(chǔ)之上。因此 核心是對(duì)文本的處理,首先提取網(wǎng)頁中的文本,然后提取特征,然后利 用機(jī)器學(xué)習(xí)里面的分類算法來對(duì)特征進(jìn)行訓(xùn)練和分類。其中特征提取的方法通常采用的是(l)人工給定一個(gè)關(guān)鍵詞列表;(2)利用文本匹配的方 法來統(tǒng)計(jì)各關(guān)鍵詞出現(xiàn)的次數(shù);(3)各關(guān)鍵詞出現(xiàn)的次數(shù)組成一個(gè)向量, 經(jīng)過歸一化等處理后,該向量作為該文本的特征向量。 一般給定的關(guān)鍵詞 數(shù)目小于100。然后選取分類器來進(jìn)行訓(xùn)練和預(yù)測(cè)。新加坡Pui Y.Lee等 人利用Kohonen自組織神經(jīng)網(wǎng)絡(luò)作為分類器,取得了較好的實(shí)際效果。 還存在一些敏感圖像識(shí)別方法,中國科學(xué)院自動(dòng)化所楊金鋒等人提出了 一種基于內(nèi)容的敏感圖像識(shí)別方法,在CAMPAQ數(shù)據(jù)庫上取得了超過80%的識(shí)別率。同機(jī)械的過濾方法類似,以上方法沒有很好的利用web特征,目前 還不能夠達(dá)到滿意的效果,例如基于文本的敏感網(wǎng)頁識(shí)別不能夠?qū)εc敏 感主題相關(guān)的正常網(wǎng)頁進(jìn)行很好的識(shí)別,基于圖像的敏感網(wǎng)頁識(shí)別的誤 識(shí)別率很高。已存在的融合算法也僅僅是通過與或操作來融合,不能夠 根本上提高識(shí)別率。發(fā)明內(nèi)容現(xiàn)有技術(shù)基于文本的敏感網(wǎng)頁識(shí)別不能夠?qū)εc敏感主題相關(guān)的正常 網(wǎng)頁進(jìn)行很好的識(shí)別,基于圖像的敏感網(wǎng)頁識(shí)別的誤識(shí)別率高,采用的 融合算法是通過與或操作來融合,不能夠根本上提高識(shí)別率,為了解決 現(xiàn)有技術(shù)的這些問題,本發(fā)明的目的是從web網(wǎng)頁特點(diǎn)出發(fā),提供一種 基于多分類器融合的敏感網(wǎng)頁過濾方法及系統(tǒng)。為了實(shí)現(xiàn)所述的目的,本發(fā)明的一方面,提供基于多分類器融合的 敏感網(wǎng)頁過濾方法,包括如下步驟步驟Sl:獲取目標(biāo)網(wǎng)頁統(tǒng)一資源定位符的源代碼,進(jìn)行預(yù)處理,用于獲取中文文本信息,獲取網(wǎng)頁中有效圖像集合信息;步驟S2:基于預(yù)處理提供信息,利用決策樹學(xué)習(xí)中的C《5算法將輸入網(wǎng)頁中文文本和有效圖像生成文本、圖像及文本與圖像的混合網(wǎng)頁樣式,用于獲得文本流、圖像流和文本與圖像混合流信息;步驟S3:利用多分類器識(shí)別與網(wǎng)頁樣式的指定分配關(guān)系,獲得目標(biāo)網(wǎng)頁;步驟S4:根據(jù)識(shí)別結(jié)果綜合判斷目標(biāo)網(wǎng)頁是否敏感,如果敏感,則 執(zhí)行步驟5,如果不敏感,則執(zhí)行步驟6;步驟S5:將識(shí)別的敏感網(wǎng)頁送入Web瀏覽器,并在瀏覽器中警示用 戶所瀏覽網(wǎng)頁含有敏感內(nèi)容,瀏覽被禁止;步驟S6:在Web瀏覽器中正常顯示原網(wǎng)頁。所述分類器識(shí)別包括利用連續(xù)敏感文本分類器對(duì)以文本為主的網(wǎng)頁樣式進(jìn)行識(shí)別、利用敏感圖像分類器器對(duì)以圖像為主的網(wǎng)頁樣式中的 圖像集合進(jìn)行識(shí)別和對(duì)混合型網(wǎng)頁樣式則利用離散敏感文本分類器和敏感圖像分類器融合進(jìn)行識(shí)別。所述獲取網(wǎng)頁中有效圖像步驟包括步驟11:在預(yù)處理階段通過解析網(wǎng)頁超文本標(biāo)示語言代碼,獲取該 網(wǎng)頁所包含每幅圖像的尺寸和位置信息,用于識(shí)別目標(biāo)網(wǎng)頁的整體內(nèi)容;步驟12:如果尺寸信息和位置信息符合事先統(tǒng)計(jì)好的規(guī)則,則將該圖 像劃分至有效圖像集合中。所述決策樹C4.5算法將輸入網(wǎng)頁生成網(wǎng)頁樣式的步驟包括-步驟21:計(jì)算屬性集中網(wǎng)頁統(tǒng)一資源定位符、網(wǎng)頁中文本長(zhǎng)度和網(wǎng) 頁中圖像基于像素量的分級(jí),得到信息熵和分類前后信息熵的增益變化;步驟22:將信息熵增益作為分類尺度,給出分類依據(jù),即取最大的信息熵增益的屬性集劃分為最終決策;步驟23:重復(fù)步驟22直到所有屬性集都被劃分,從而形成決策樹和分類規(guī)則。所述利用連續(xù)敏感文本分類器對(duì)以文字為主的網(wǎng)頁進(jìn)行識(shí)別步驟包括步驟l):用細(xì)胞神經(jīng)網(wǎng)絡(luò)(CNN)定義N維離散空間上的大型并行計(jì)算網(wǎng)絡(luò),將網(wǎng)絡(luò)上的一個(gè)節(jié)點(diǎn)作為一個(gè)關(guān)鍵詞,將節(jié)點(diǎn)之間的連接描述,用于生成文本中詞匯之間的語義關(guān)系;步驟2):利用文本中詞匯之間的語義關(guān)系,將節(jié)點(diǎn)之間相互的抑制與激活,用于取得節(jié)點(diǎn)的激活次數(shù)作為文本的統(tǒng)計(jì)特征;步驟3):以統(tǒng)計(jì)特征作為輸入,選用支持向量機(jī)(SVM)作為訓(xùn)練以及預(yù)測(cè)的分類器,對(duì)預(yù)處理網(wǎng)頁中得到的文本進(jìn)行分類,得到分類結(jié)果。 所述利用離散敏感文本分類器對(duì)混合型的網(wǎng)頁中文字進(jìn)行識(shí)別 首先利用向量空間模型(VSM)提取離散敏感文本的特征;把離散敏感文本特征輸入到己經(jīng)訓(xùn)練好的貝葉斯網(wǎng)絡(luò)(BayesNetworks,簡(jiǎn)稱BNS)中,輸出的結(jié)果為該文本輸入敏感的概率值,如果該概率值大于閾值,則得到該文本為敏感分類結(jié)果。所述對(duì)混合型網(wǎng)頁的圖像識(shí)別與文字識(shí)別的信息融合步驟包括 首先利用圖像識(shí)別器對(duì)混合型網(wǎng)頁的每幅圖像進(jìn)行識(shí)別,獲得識(shí)別結(jié)果為敏感的圖像數(shù)量M,獲得圖像識(shí)別結(jié)果為正常的圖像數(shù)量A^;離散文本識(shí)別的結(jié)果與上述圖像識(shí)別的結(jié)果融合,如果結(jié)果大于閾 值,則該網(wǎng)頁為敏感,否則為正常網(wǎng)頁。為了實(shí)現(xiàn)所述的目的,本發(fā)明的另一方面,提供一種基于多分類器 融合的敏感網(wǎng)頁過濾系統(tǒng),包括數(shù)據(jù)流的獲取與預(yù)處理單元,生成原 網(wǎng)頁的文本流和圖像流,并以此為依據(jù)將原網(wǎng)頁分為網(wǎng)頁樣式;圖像與 文本流過濾單元,針對(duì)不同網(wǎng)頁樣式,使用相應(yīng)的分類器對(duì)文本和圖像 進(jìn)行識(shí)別;圖像過濾器與文本過濾器的信息融合單元,針對(duì)混合型網(wǎng)頁 樣式,通過融合結(jié)合圖像過濾器與文本過濾器,得到最終是否為敏感類 的識(shí)別結(jié)果。本發(fā)明利用了微軟提供的基于正內(nèi)核的瀏覽器核心控件完成了數(shù)據(jù) 分流傳遞,利用多分類器協(xié)作完成智能識(shí)別,利用網(wǎng)絡(luò)導(dǎo)航技術(shù)完成了 過濾器與瀏覽器的數(shù)據(jù)交互,解決了對(duì)網(wǎng)絡(luò)上敏感信息訪問的嚴(yán)格控制 問題。本發(fā)明系統(tǒng)處理時(shí)間較快,單幅網(wǎng)頁處理時(shí)間小于10秒,處理結(jié) 果的準(zhǔn)確率也可以達(dá)到80%以上。因而在網(wǎng)絡(luò)信息安全領(lǐng)域有很好的應(yīng)用 前景。
圖1示出三種網(wǎng)頁樣式與分類器的分配關(guān)系圖2(a)gif訓(xùn)練集有效/無效圖像尺寸分布,圖2 (b) jpg訓(xùn)練集有效/無效圖像分布圖3是本發(fā)明多分類器敏感網(wǎng)頁識(shí)別方法總體框4是本發(fā)明多分類器敏感網(wǎng)頁識(shí)別系統(tǒng)框圖具體實(shí)施方式
下面將結(jié)合附圖對(duì)本發(fā)明加以詳細(xì)說明,應(yīng)指出的是,所描述的實(shí) 施例僅旨在便于對(duì)本發(fā)明的理解,而對(duì)其不起任何限定作用。如圖4本發(fā)明基于多分類器融合的敏感網(wǎng)頁過濾系統(tǒng)所示,包括數(shù) 據(jù)流的獲取與預(yù)處理單元1,生竭原網(wǎng)頁的文本流和圖像流,并以此為依 據(jù)將原網(wǎng)頁分為網(wǎng)頁樣式;圖像與文本流過濾單元2,針對(duì)不同網(wǎng)頁樣式, 使用相應(yīng)的分類器對(duì)文本和圖像進(jìn)行識(shí)別;圖像過濾器與文本過濾器的信息融合單元3,針對(duì)混合型網(wǎng)頁樣式,通過融合公式結(jié)合圖像過濾器與 文本過濾器,得到最終是否為敏感類的識(shí)別結(jié)果。綜上所述,數(shù)據(jù)流的獲取與預(yù)處理單元1將網(wǎng)頁解析得到文本與圖像流,利用C4. 5算法將網(wǎng) 頁歸為網(wǎng)頁樣式;圖像與文本流過濾單元2針對(duì)數(shù)據(jù)流的獲取與預(yù)處理 單元1劃分的不同網(wǎng)頁樣式,使用相對(duì)應(yīng)的分類器識(shí)別處理數(shù)據(jù)流的獲 取與預(yù)處理單元1中解析產(chǎn)生的文本和圖像流;圖像過濾器與文本過濾 器的信息融合單元3針對(duì)處理圖像與文本流過濾單元2中處理的混合型 網(wǎng)頁,將圖像與文本流過濾單元2產(chǎn)生的文本與圖像分類結(jié)果代入融合 公式,得到綜合識(shí)別結(jié)果。識(shí)別完畢。本發(fā)明已于微軟windows XP平臺(tái),VC6.0, VC.Net編程環(huán)境下以微 軟正瀏覽器插件的方式實(shí)現(xiàn),經(jīng)實(shí)驗(yàn)可正確運(yùn)行于個(gè)人電腦及電腦終端 上。在本發(fā)明方法中,基于對(duì)web的分析,把web網(wǎng)頁分為三類。如圖 1示出三種網(wǎng)頁樣式與分類器的分配關(guān)系所示第一類為以文本為主的網(wǎng) 頁,其中文本多為文章性質(zhì)的文本,例如小說,新聞,人物傳記等,其特 點(diǎn)是上下文之間有較強(qiáng)的語義關(guān)聯(lián),有豐富的語義信息可以利用。該類 型網(wǎng)頁通常包含有一篇或者幾篇文章。第二類是指以圖像為主的網(wǎng)頁, 網(wǎng)頁里主要呈現(xiàn)的是圖像信息,附加有少量的分散文本,起輔助說明作 用。這類型的網(wǎng)頁主要以圖庫的形式呈現(xiàn)。第三類也是最普遍的網(wǎng)頁樣 式是文字和圖像混合的網(wǎng)頁,其中的文本也是分塊分散出現(xiàn)的,主要起 著鏈接或者說明作用,,此外網(wǎng)頁中包含多幅圖像以豐富網(wǎng)頁的內(nèi)容,這 種樣式的網(wǎng)頁主要有一些著名門戶網(wǎng)站的首頁和電子公告牌(BBS)?;陬A(yù)處理提供信息,包括網(wǎng)頁URL,網(wǎng)頁中文本長(zhǎng)度,網(wǎng)頁中圖 像基于像素量的分級(jí)等作為屬性集合,利用決策樹學(xué)習(xí)中的C4.5算法將 輸入網(wǎng)頁分為如上定義的三種樣式。然后對(duì)三種類型的網(wǎng)頁使用相對(duì)應(yīng) 的分類器實(shí)行分而治之的策略。 .對(duì)于第一種樣式的網(wǎng)頁(以文本為主),運(yùn)用細(xì)胞神經(jīng)網(wǎng)絡(luò)C麗處理, C,與其他神經(jīng)網(wǎng)絡(luò)最大的區(qū)別在于信息只在相鄰單元之間交換,而全局 信息的處理則通過局部信息的交互來實(shí)現(xiàn)。細(xì)胞神經(jīng)網(wǎng)絡(luò)可以是任意維 的,但最常見的是一維或者二維。在一維細(xì)胞神經(jīng)網(wǎng)絡(luò)中,最常見的連接方式是每個(gè)細(xì)胞與周圍2r+l個(gè)細(xì)胞(包括它自己)相連。在二維網(wǎng)絡(luò)中 最常見的連接方式是Von Neumann連接與Moore連接,其每個(gè)細(xì)胞只與 其Von Neumann和Moore鄰域中的細(xì)胞相連。對(duì)一個(gè)細(xì)胞單元狀態(tài)的形 式化描述為x(/ +1) = g(;c(O) + /(/) + / (,(/)) + /2 = /(柳其中x為細(xì)胞的內(nèi)部狀態(tài),^是它的輸出,"是外部輸入,/是偏差, 乂和/2是兩個(gè)函數(shù)。為了構(gòu)建敏感詞匯網(wǎng)絡(luò),首先把傳統(tǒng)意義上的關(guān)鍵詞分為三類(1)顯式關(guān)鍵字;(2)隱式關(guān)鍵字(3)邏輯關(guān)鍵字;其中,顯式關(guān)鍵字決定了邏輯關(guān)鍵字,同時(shí)顯式關(guān)鍵字和隱式關(guān)鍵 字之間也存在內(nèi)在的聯(lián)系。利用三者之間的關(guān)系,可以構(gòu)造我們的聯(lián)想 反饋網(wǎng)絡(luò)。為了利用細(xì)胞神經(jīng)網(wǎng)絡(luò),我們定義一個(gè)節(jié)點(diǎn)為一個(gè)詞匯,另外這個(gè)詞匯有三個(gè)狀態(tài)沉寂態(tài),隱藏態(tài)和激發(fā)態(tài)。節(jié)點(diǎn)與節(jié)點(diǎn)之間按照語義關(guān) 聯(lián)進(jìn)行連接,計(jì)算規(guī)則是 一旦一個(gè)節(jié)點(diǎn)結(jié)束到一個(gè)刺激或者輸入,那 么根據(jù)該節(jié)點(diǎn)以往的狀態(tài)和周圍節(jié)點(diǎn)的狀態(tài)以及連接所代表的語義規(guī)則 來確定該節(jié)點(diǎn)的下一個(gè)狀態(tài)。沉寂態(tài)定義為節(jié)點(diǎn)還未接受一個(gè)輸入是的狀態(tài);隱藏態(tài)定義為節(jié)點(diǎn) 已經(jīng)接受輸入,但其參數(shù)以及周圍節(jié)點(diǎn)的參數(shù)未能夠達(dá)到其激發(fā)條件; 激發(fā)態(tài)定義為節(jié)點(diǎn)接受了輸入并且收到了激發(fā)。 一旦一個(gè)節(jié)點(diǎn)被激發(fā),那 么我們就統(tǒng)計(jì)該節(jié)點(diǎn)出現(xiàn)的次數(shù),最后所有激發(fā)節(jié)點(diǎn)的次數(shù)作為一個(gè)向量來進(jìn)行訓(xùn)練和預(yù)測(cè)。選用支持向量機(jī)(Support Vector Machine,簡(jiǎn)稱 SVM)作為分類器,對(duì)上述向量形成的特征進(jìn)行訓(xùn)練和分類,根據(jù)SVM輸 出來決定該網(wǎng)頁是否是敏感網(wǎng)頁。對(duì)于第二種樣式的網(wǎng)頁(以圖像為主),則提取網(wǎng)頁中有效圖像集合 利用圖像分類器進(jìn)行集合識(shí)別,如果判別為敏感的圖像數(shù)目超過預(yù)定閾 值,則將該網(wǎng)頁判別為敏感。10對(duì)于第三種樣式的網(wǎng)頁(混合型),首先根據(jù)尺寸來獲取網(wǎng)頁里面的有 效圖像集合,然后利用圖像分類器對(duì)圖像一一進(jìn)行識(shí)別,識(shí)別的結(jié)果為 (TV,, W),其中A^為識(shí)別結(jié)果為敏感的圖像個(gè)數(shù),A^為識(shí)別結(jié)果為正常的 圖像個(gè)數(shù)。同時(shí)把網(wǎng)頁里面的文本當(dāng)成圖像是否為敏感的先驗(yàn),使用針對(duì)離散文本的Bayes分類器對(duì)文本進(jìn)行判別,輸出結(jié)果為P,。然后將各分類器的三個(gè)輸出參數(shù)^, w,《代入融合公式,得到一個(gè)判別因子/;通過該因子,與預(yù)定閾值相比較來判斷該網(wǎng)頁是否是敏感網(wǎng)頁。如圖3是本發(fā)明多分類器敏感網(wǎng)頁識(shí)別方法總體流程圖所示,具體地 包括如下步驟l)獲取給定的目標(biāo)網(wǎng)頁統(tǒng)一資源定位符URL的源代碼,分離 出源碼中的中文文本?;赪3C上關(guān)于Html和XML的相關(guān)文檔,然后針對(duì)解析的難點(diǎn) 對(duì)源解析程序進(jìn)行了改進(jìn)。嚴(yán)格來說,Html文檔是一種完全的樹形結(jié)構(gòu), 但是標(biāo)準(zhǔn)中對(duì)一些標(biāo)記的寬松規(guī)定使得實(shí)際的文檔可以不以嚴(yán)格的層次 結(jié)構(gòu)出現(xiàn)。首先獲取目標(biāo)網(wǎng)頁的超文本標(biāo)示語言Html源代碼,之后對(duì) Html文檔進(jìn)行解析,這個(gè)解析過程分為3個(gè)子步驟(1) 文檔的元素分析,生成節(jié)點(diǎn)序列;(2) 元素序列的結(jié)構(gòu)/語法分析,生成初始的Html樹;(3) Html樹重構(gòu)?;谏傻腍tml樹中各種tag標(biāo)記間包含的文本 內(nèi)容,將其分離出來作為源碼中的中文文本流。步驟2)獲取源代碼中圖像的尺寸大小和位置信息,根據(jù)相關(guān)規(guī)則剔 除掉部分圖像,獲得有效圖像集合。處理圖像的開銷很大,如果網(wǎng)頁中大部分都是無效圖片的話,會(huì)對(duì) 系統(tǒng)性能造成很大影響。我們圖片尺寸放在第一位,因?yàn)镠TML標(biāo)準(zhǔn)支 持網(wǎng)頁中包含圖片時(shí)就指定它的尺寸,因此可以僅從HTML文件本身就 忽略掉無效圖片,而根本不需要另外下載它們。這同時(shí)也減少了網(wǎng)絡(luò)開 銷,總的來說,從網(wǎng)絡(luò)上下載一幅圖片要比分析它更加耗時(shí)。網(wǎng)頁通常都包含了相當(dāng)數(shù)量的圖像。 一般來說, 一個(gè)圖文并茂的網(wǎng) 頁,可能包含幾十甚至上百幅圖像。但憑人的主觀估計(jì),雖然這個(gè)網(wǎng)頁 包含圖片較多,但數(shù)量應(yīng)該在幾十幅左右。實(shí)際統(tǒng)計(jì)的圖片數(shù)和主觀感受差別很大是因?yàn)閳D片中有很多完全是為了網(wǎng)頁框架需要起裝飾作用 的,還有些由于包含信息太少,或是在網(wǎng)頁中的位置問題,根本不會(huì)引 起人的注意。而實(shí)際需要識(shí)別則是里面有效圖像集合,這種有效性表現(xiàn) 在兩個(gè)方面, 一是圖像尺寸,二是圖像位置,用來識(shí)別目標(biāo)網(wǎng)頁的整體 內(nèi)容。如附圖2所示,橫坐標(biāo)和縱坐標(biāo)分別為圖像的寬度和高度,坐標(biāo) 采用對(duì)數(shù)式。在這種狀態(tài)下,很明顯可以看出有效圖像的聚類特征。我 們就根據(jù)這個(gè)特征編制分類策略。圖像出現(xiàn)的位置是另外一個(gè)重要的指 標(biāo),在上文中已經(jīng)詳細(xì)討論過網(wǎng)頁結(jié)構(gòu)特征對(duì)網(wǎng)頁元素的影響。相應(yīng)的, 處于網(wǎng)頁核心位置的圖片其有效性應(yīng)大于處在角落位置的圖片。最后依 據(jù)以上規(guī)則提取出網(wǎng)頁中有效圖像集合作為圖像流。3)依據(jù)步驟l)和步驟2)中提取出的網(wǎng)頁中的中文文本和有效圖像集 合,構(gòu)成屬性集合,以這些屬性集合為基礎(chǔ),將其代入C4.5決策樹算法 的學(xué)習(xí)公式,得到?jīng)Q策規(guī)則。之后只要將目標(biāo)網(wǎng)頁的文本和圖像的屬性 集合參照形成的決策規(guī)則分類,就可以將該網(wǎng)頁自動(dòng)分為三種樣式中的 一種以文本為主的網(wǎng)頁,以圖像為主的網(wǎng)頁,混合型的網(wǎng)頁。C4.5算 法的決策規(guī)則形成公式如下C是分類的數(shù)目(在我們的系統(tǒng)中分類數(shù)為3), ^D,力是在數(shù)據(jù)集o中屬于類別y的那部分的比例。那么可以按照如下公式定義信息熵 /"/o(D):<formula>formula see original document page 12</formula>給定一個(gè)有^個(gè)值的屬性集合r,那么D,就相應(yīng)代表數(shù)據(jù)集D中在屬 性r上取值為/的那部分?jǐn)?shù)據(jù)所形成的子集,之后可以按照如下公式定義出在屬性集T和數(shù)據(jù)集D上依據(jù)T的不同取值而產(chǎn)生的信息增益<formula>formula see original document page 12</formula> (2)C4.5算法依據(jù)信息增益,每次選取帶有最大信息增益的那個(gè)屬性作 為分裂結(jié)點(diǎn)形成決策樹(決策規(guī)則),以后的分類只要按照這個(gè)已經(jīng)形成的 規(guī)則來就可以了。本發(fā)明中利用的網(wǎng)頁屬性集如下表所示網(wǎng)頁URL,網(wǎng)頁中文本長(zhǎng) 度,網(wǎng)頁中圖像基于像素量的分級(jí)。屬性集描述是否為首頁性質(zhì)是否在網(wǎng)頁的URL中包含 有表示首頁性質(zhì)的關(guān)鍵詞 (例如"main " 或者 "index")一般文本的長(zhǎng)度網(wǎng)頁中一般文本的字符數(shù)超文本的長(zhǎng)度網(wǎng)頁中超文本的字符數(shù)大圖像的數(shù)目像素值超過50,000個(gè)像素 的圖像數(shù)目中等圖像數(shù)目像素值在10, 000和50, 000 個(gè)像素之間的圖像數(shù)目小圖像數(shù)目像素值低于10, 000個(gè)像素 的圖像數(shù)目步驟4)利用連續(xù)敏感文本分類器對(duì)按照步驟3)分類為以文本為主的 網(wǎng)頁中的文本進(jìn)行識(shí)別,識(shí)別結(jié)果為l,該網(wǎng)頁為敏感,則退出。并給出了描述性的定義。第一類是顯式關(guān)鍵詞,這類關(guān)鍵詞基本上只 可能出現(xiàn)在敏感文本里面,從統(tǒng)計(jì)上來說就是出現(xiàn)在敏感文本里面的概 率很大(接近于1),而出現(xiàn)在正常文本里面的概率很小(接近于O)。從語義 上來說,這些詞本身就攜帶著敏感信息。第二類是隱式關(guān)鍵詞,這類關(guān) 鍵詞本來不攜帶任何的敏感信息。但由于某種原因,這類詞于敏感文本 產(chǎn)生了固定的聯(lián)系,也就是說,這些詞在敏感文本里面也是以很大的概率出現(xiàn),當(dāng)然也會(huì)在其它文本里面出現(xiàn)。第三類式邏輯關(guān)鍵詞,這類關(guān) 鍵詞分為兩類 一類是多義詞,即這類關(guān)鍵詞在正常文本里面意義正常, 可是在敏感文本里面攜帶敏感信息;另外一類關(guān)鍵詞主要是在于一定的 詞搭配起來之后,共同攜帶著敏感信息。而這種搭配,我們可以分為兩 種, 一種是顯式加邏輯, 一種是邏輯加邏輯?;谏鲜龆x,選取了關(guān) 鍵詞集合,同時(shí)構(gòu)建了語義規(guī)則來描述詞匯之間的語義關(guān)聯(lián),幫助正確 的提取特征信息。提出之后的特征經(jīng)過歸一化之后,作為該連續(xù)文本的特征向量。選用支持向量機(jī)(Support Vector Machine,簡(jiǎn)稱SVM)作為分類 器,對(duì)特征進(jìn)行訓(xùn)練和分類,根據(jù)SVM輸出來決定該網(wǎng)頁是否是敏感網(wǎng)頁。步驟5)利用敏感圖像分類器對(duì)按照步驟3)分類為以圖像為主的網(wǎng)頁 中的有效圖像集合進(jìn)行識(shí)別,將圖像分類器判別為敏感的那部分圖像數(shù) 目和預(yù)定閾值進(jìn)行比較,依據(jù)該項(xiàng)來決定該網(wǎng)頁是否是敏感網(wǎng)頁,如果 判別為敏感的圖像數(shù)目超過了閾值則將該網(wǎng)頁判別為敏感。步驟6)利用離散文本分類器和敏感圖像分類器的融合算法對(duì)按照步 驟3)分類為混合型(即包含大量圖像又包含一定數(shù)量的文本)的網(wǎng)頁中進(jìn) 行融合識(shí)別,首先人工構(gòu)建一個(gè)關(guān)鍵詞列表,對(duì)網(wǎng)頁里的文本統(tǒng)計(jì)關(guān)鍵詞 后,歸一化后作為離散敏感文本的特征向量輸入到訓(xùn)練好的Bayes網(wǎng)絡(luò) 里面,通過離散文本分類器對(duì)中文文本進(jìn)行識(shí)別,并獲得離散文本分類 因子,具體算法描述如下首先定義r = Uj2,..., Vl}作為類別Qi的訓(xùn)練集 ,}作為類別; 作為關(guān)鍵詞集合。此外,定義W(w,f,)作為在文檔《中關(guān)鍵詞W出現(xiàn)的次數(shù),也就是PT的詞 頻。然后計(jì)算出概率P(叫C》,這個(gè)概率表示關(guān)鍵詞W和一個(gè)類別。的相 關(guān)聯(lián)程度的大小<formula>formula see original document page 14</formula>在處理目標(biāo)文本/,時(shí),計(jì)算概率p(。lo作為離散文本分類器因子,這個(gè)概率表示目標(biāo)文本。屬于一個(gè)類別q的可能性到底有多大,其中需要利用上面提到的概率尸(wlC》。這里使用了一個(gè)Bayes獨(dú)立性假設(shè): p(w,,mv..wj。 = ]1p(w,|。。即隱式得表達(dá)了在第三類混合型的網(wǎng)頁中文本 關(guān)鍵詞之間的堪義聯(lián)系并不是很緊密,可以視為獨(dú)立分散存在。p(C卞,)一尸(c臉(喝)D(c》rOic廣'" (4)對(duì)于第三類型的網(wǎng)頁,根據(jù)尺寸來獲取網(wǎng)頁里面的部分符合要求的圖 像,然后利用圖像分類器對(duì)圖像一一進(jìn)行識(shí)別,識(shí)別的結(jié)果為(w,, w),其 中y為識(shí)別結(jié)果為敏感的圖正常的圖像個(gè)數(shù),w為識(shí)別結(jié)果為像個(gè)數(shù)。同 時(shí)把網(wǎng)頁里面的文本當(dāng)成圖像是否為敏感的先驗(yàn),使用針對(duì)離散文本的Bayes分類器對(duì)文本進(jìn)行判別,即上面提到的離散文本分類器因子,記為 《。利用兩個(gè)參數(shù)來描述圖像分類器《表示把一副正常圖像誤分為敏感 圖像的概率,^表示把一副敏感圖像誤分為正常圖像的概率。三個(gè)參數(shù)代 入如下公式7V(1-A,1-尸, ()得到一個(gè)判別因子/;通過該因子,與預(yù)定閾值相比較來判斷該網(wǎng)頁 是否是敏感網(wǎng)頁。步驟7)將最終的敏感判別結(jié)果返回給web瀏覽器,結(jié)果為敏感則在 客戶端阻止該網(wǎng)頁的顯示,結(jié)果為非敏感則正常顯示。以上所述,僅為本發(fā)明中的具體實(shí)施方式
,但本發(fā)明的保護(hù)范圍并 不局限于此,任何熟悉該技術(shù)的人在本發(fā)明所揭露的技術(shù)范圍內(nèi),可理 解想到的變換或替換,都應(yīng)涵蓋在本發(fā)明的包含范圍之內(nèi),因此,本發(fā) 明的保護(hù)范圍應(yīng)該以權(quán)利要求書的保護(hù)范圍為準(zhǔn)。
權(quán)利要求
1. 一種基于多分類器融合的敏感網(wǎng)頁過濾方法,包括步驟步驟S1獲取目標(biāo)網(wǎng)頁統(tǒng)一資源定位符的源代碼,進(jìn)行預(yù)處理,用于獲取中文文本信息,獲取網(wǎng)頁中有效圖像集合信息;步驟S2基于預(yù)處理提供信息,利用決策樹學(xué)習(xí)中的C4.5算法將輸入網(wǎng)頁中文文本和有效圖像生成文本、圖像及文本與圖像的混合網(wǎng)頁樣式,用于獲得文本流、圖像流和文本與圖像混合流信息;步驟S3利用多分類器識(shí)別與網(wǎng)頁樣式的指定分配關(guān)系,獲得目標(biāo)網(wǎng)頁;步驟S4根據(jù)識(shí)別結(jié)果綜合判斷目標(biāo)網(wǎng)頁是否敏感,如果敏感,則執(zhí)行步驟5,如果不敏感,則執(zhí)行步驟6;步驟S5將識(shí)別的敏感網(wǎng)頁送入Web瀏覽器,并在瀏覽器中警示用戶所瀏覽網(wǎng)頁含有敏感內(nèi)容,瀏覽被禁止;步驟S6在Web瀏覽器中正常顯示原網(wǎng)頁。
2、 按權(quán)利要求l所述的方法,其特征在于,所述分類器識(shí)別包括利用連續(xù)敏感文本分類器對(duì)以文本為主的網(wǎng)頁樣式進(jìn)行識(shí)別、利用敏感 圖像分類器器對(duì)以圖像為主的網(wǎng)頁樣式中的圖像集合進(jìn)行識(shí)別和對(duì)混合 型網(wǎng)頁樣式則利用離散敏感文本分類器和敏感圖像分類器融合進(jìn)行識(shí) 別。
3、 按權(quán)利要求l所述的方法,其特征在于,所述獲取網(wǎng)頁中有效圖 像步驟包括步驟11:在預(yù)處理階段通過解析網(wǎng)頁超文本標(biāo)示語言代碼,獲取該 網(wǎng)頁所包含每幅圖像的尺寸和位置信息,用于識(shí)別目標(biāo)網(wǎng)頁的整體內(nèi)容;步驟12:如果尺寸信息和位置信息符合事先統(tǒng)計(jì)好的規(guī)則,則將該圖 像劃分至有效圖像集合中。
4、 按權(quán)利要求l所述的方法,其特征在于,所述決策樹C4.5算法將輸入網(wǎng)頁生成網(wǎng)頁樣式的步驟包括步驟21:計(jì)算屬性集中網(wǎng)頁統(tǒng)一資源定位符、網(wǎng)頁中文本長(zhǎng)度和網(wǎng) 頁中圖像基于像素量的分級(jí),得到信息熵和分類前后信息熵的增益變化;步驟22:將信息熵增益作為分類尺度,給出分類依據(jù),即取最大的 信息熵增益的屬性集劃分為最終決策;步驟23:重復(fù)步驟22直到所有屬性集都被劃分,從而形成決策樹和 分類規(guī)則。
5、 按權(quán)利要求2所述的方法,其特征在于,利用連續(xù)敏感文本分類 器對(duì)以文字為主的網(wǎng)頁進(jìn)行識(shí)別步驟包括步驟1):用細(xì)胞神經(jīng)網(wǎng)絡(luò)定義N維離散空間上的大型并行計(jì)算網(wǎng)絡(luò), 將網(wǎng)絡(luò)上的一個(gè)節(jié)點(diǎn)作為一個(gè)關(guān)鍵詞,將節(jié)點(diǎn)之間的連接描述,用于生 成文本中詞匯之間的語義關(guān)系;步驟2):利用文本中詞匯之間的語義關(guān)系,將節(jié)點(diǎn)之間相互的抑制 與激活,用于取得節(jié)點(diǎn)的激活次數(shù)作為文本的統(tǒng)計(jì)特征;步驟3):以統(tǒng)計(jì)特征作為輸入,選用支持向量機(jī)作為訓(xùn)練以及預(yù)測(cè) 的分類器,對(duì)預(yù)處理網(wǎng)頁中得到的文本進(jìn)行分類,得到分類結(jié)果。
6、 按權(quán)利要求2所述的方法,其特征在于,利用離散敏感文本分類 器對(duì)混合型的網(wǎng)頁中文字進(jìn)行識(shí)別首先利用向量空間模型提取離散敏感文本的特征;把離散敏感文本特征輸入到已經(jīng)訓(xùn)練好的貝葉斯網(wǎng)絡(luò)中,輸出的結(jié) 果為該文本輸入敏感的概率值,如果該概率值大于閾值,則得到該文本為 敏感分類結(jié)果。
7、 按權(quán)利要求1所述的方法,其特征在于,對(duì)混合型網(wǎng)頁的圖像識(shí)別 與文字識(shí)別的信息融合步驟包括-.首先利用圖像識(shí)別器對(duì)混合型網(wǎng)頁的每幅圖像進(jìn)行識(shí)別,獲得識(shí)別 結(jié)果為敏感的圖像數(shù)量W,,獲得圖像識(shí)別結(jié)果為正常的圖像數(shù)量A^;離散文本識(shí)別的結(jié)果與上述圖像識(shí)別的結(jié)果融合,如果結(jié)果大于閾 值,則該網(wǎng)頁為敏感,否則為正常網(wǎng)頁。
8、 一種基于多分類器融合的敏感網(wǎng)頁過濾系統(tǒng),其特征在于 數(shù)據(jù)流的獲取與預(yù)處理單元(1),生成原網(wǎng)頁的文本流和圖像流,并以此為依據(jù)將原網(wǎng)頁分為網(wǎng)頁樣式;圖像與文本流過濾單元(2),針對(duì)不同網(wǎng)頁樣式,使用相應(yīng)的分類 器對(duì)文本和圖像進(jìn)行識(shí)別;圖像過濾器與文本過濾器的信息融合單元(3),針對(duì)混合型網(wǎng)頁樣 式,通過融合結(jié)合圖像過濾器與文本過濾器,得到最終是否為敏感類的 識(shí)別結(jié)果。
全文摘要
本發(fā)明公開基于多分類器融合的敏感網(wǎng)頁過濾系統(tǒng)及方法,處理對(duì)象是一幅網(wǎng)頁,其處理結(jié)果是該網(wǎng)頁是否包含敏感內(nèi)容,此處的敏感可以定義為色情,反動(dòng),暴力等危害社會(huì)的不健康互聯(lián)網(wǎng)內(nèi)容。系統(tǒng)包括數(shù)據(jù)流的獲取與預(yù)處理單元、圖像與文本流過濾單元、圖像過濾器與文本過濾器的信息融合單元,系統(tǒng)基于多個(gè)分類器的協(xié)作,在給定網(wǎng)頁的統(tǒng)一資源定位器的條件下,獲取該網(wǎng)頁的源代碼,在預(yù)處理階段進(jìn)行文本和圖像的分流,獲取文本信息和有效圖像信息;利用決策樹算法將輸入網(wǎng)頁分為三種樣式;利用連續(xù)文本分類器、離散敏感文本分類器和圖像分類器對(duì)網(wǎng)頁進(jìn)行識(shí)別,根據(jù)各分類器識(shí)別的輸出結(jié)果進(jìn)行融合計(jì)算,給出判別因子,將最終結(jié)果返回給瀏覽器。
文檔編號(hào)G06K9/62GK101281521SQ20071006518
公開日2008年10月8日 申請(qǐng)日期2007年4月5日 優(yōu)先權(quán)日2007年4月5日
發(fā)明者偶 吳, 朱明亮, 胡衛(wèi)明, 陳周耀 申請(qǐng)人:中國科學(xué)院自動(dòng)化研究所