一種基于多分類器融合的敏感網(wǎng)頁過濾方法及系統(tǒng)的制作方法

文檔序號(hào)：6573455閱讀：229來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種基于多分類器融合的敏感網(wǎng)頁過濾方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及信息過濾技術(shù)領(lǐng)域，尤指識(shí)別含有敏感信息的網(wǎng)頁的方法。
背景技術(shù)：
由于互聯(lián)網(wǎng)敏感信息對(duì)于互聯(lián)網(wǎng)用戶尤其是青少年造成了極大的危害，因此引起了研究者和業(yè)界的廣泛關(guān)注。目前有很多種敏感信息過濾方法，包括黑白名單，IP過濾以及關(guān)鍵詞匹配等等過濾手段?？偟膩碚f，一方面，這些過濾技術(shù)采用一種非常機(jī)械的方式，能夠?qū)σ恍┟舾芯W(wǎng)頁達(dá)到100%的過濾效率，響應(yīng)時(shí)間也非常短，但是過濾參數(shù)更新的周期只能跟隨著實(shí)際敏感網(wǎng)頁的出現(xiàn)而變化，不能夠應(yīng)對(duì)實(shí)際敏感網(wǎng)站的快速變化。另一方面，由于網(wǎng)頁的內(nèi)容信息基本上沒有利用或者很少利用，因此造成了很高的誤過濾率，影響了用戶的正常上網(wǎng)?；趦?nèi)容的敏感信息智能識(shí)別技術(shù)是近年來過濾技術(shù)的一個(gè)發(fā)展方向。目前已有多種基于內(nèi)容的敏感信息識(shí)別方法。目前的敏感網(wǎng)頁識(shí)別方法一般主要建立敏感文本識(shí)別基礎(chǔ)之上。因此核心是對(duì)文本的處理，首先提取網(wǎng)頁中的文本，然后提取特征，然后利用機(jī)器學(xué)習(xí)里面的分類算法來對(duì)特征進(jìn)行訓(xùn)練和分類。其中特征提取的方法通常采用的是(l)人工給定一個(gè)關(guān)鍵詞列表；(2)利用文本匹配的方法來統(tǒng)計(jì)各關(guān)鍵詞出現(xiàn)的次數(shù)；(3)各關(guān)鍵詞出現(xiàn)的次數(shù)組成一個(gè)向量，經(jīng)過歸一化等處理后，該向量作為該文本的特征向量。一般給定的關(guān)鍵詞數(shù)目小于100。然后選取分類器來進(jìn)行訓(xùn)練和預(yù)測(cè)。新加坡Pui Y.Lee等人利用Kohonen自組織神經(jīng)網(wǎng)絡(luò)作為分類器，取得了較好的實(shí)際效果。還存在一些敏感圖像識(shí)別方法，中國科學(xué)院自動(dòng)化所楊金鋒等人提出了一種基于內(nèi)容的敏感圖像識(shí)別方法，在CAMPAQ數(shù)據(jù)庫上取得了超過80%的識(shí)別率。同機(jī)械的過濾方法類似，以上方法沒有很好的利用web特征，目前還不能夠達(dá)到滿意的效果，例如基于文本的敏感網(wǎng)頁識(shí)別不能夠?qū)εc敏感主題相關(guān)的正常網(wǎng)頁進(jìn)行很好的識(shí)別，基于圖像的敏感網(wǎng)頁識(shí)別的誤識(shí)別率很高。已存在的融合算法也僅僅是通過與或操作來融合，不能夠根本上提高識(shí)別率。發(fā)明內(nèi)容現(xiàn)有技術(shù)基于文本的敏感網(wǎng)頁識(shí)別不能夠?qū)εc敏感主題相關(guān)的正常網(wǎng)頁進(jìn)行很好的識(shí)別，基于圖像的敏感網(wǎng)頁識(shí)別的誤識(shí)別率高，采用的融合算法是通過與或操作來融合，不能夠根本上提高識(shí)別率，為了解決現(xiàn)有技術(shù)的這些問題，本發(fā)明的目的是從web網(wǎng)頁特點(diǎn)出發(fā)，提供一種基于多分類器融合的敏感網(wǎng)頁過濾方法及系統(tǒng)。為了實(shí)現(xiàn)所述的目的，本發(fā)明的一方面，提供基于多分類器融合的敏感網(wǎng)頁過濾方法，包括如下步驟步驟Sl:獲取目標(biāo)網(wǎng)頁統(tǒng)一資源定位符的源代碼，進(jìn)行預(yù)處理，用于獲取中文文本信息，獲取網(wǎng)頁中有效圖像集合信息；步驟S2:基于預(yù)處理提供信息，利用決策樹學(xué)習(xí)中的C《5算法將輸入網(wǎng)頁中文文本和有效圖像生成文本、圖像及文本與圖像的混合網(wǎng)頁樣式，用于獲得文本流、圖像流和文本與圖像混合流信息；步驟S3:利用多分類器識(shí)別與網(wǎng)頁樣式的指定分配關(guān)系，獲得目標(biāo)網(wǎng)頁；步驟S4:根據(jù)識(shí)別結(jié)果綜合判斷目標(biāo)網(wǎng)頁是否敏感，如果敏感，則執(zhí)行步驟5，如果不敏感，則執(zhí)行步驟6;步驟S5:將識(shí)別的敏感網(wǎng)頁送入Web瀏覽器，并在瀏覽器中警示用戶所瀏覽網(wǎng)頁含有敏感內(nèi)容，瀏覽被禁止；步驟S6:在Web瀏覽器中正常顯示原網(wǎng)頁。所述分類器識(shí)別包括利用連續(xù)敏感文本分類器對(duì)以文本為主的網(wǎng)頁樣式進(jìn)行識(shí)別、利用敏感圖像分類器器對(duì)以圖像為主的網(wǎng)頁樣式中的圖像集合進(jìn)行識(shí)別和對(duì)混合型網(wǎng)頁樣式則利用離散敏感文本分類器和敏感圖像分類器融合進(jìn)行識(shí)別。所述獲取網(wǎng)頁中有效圖像步驟包括步驟11:在預(yù)處理階段通過解析網(wǎng)頁超文本標(biāo)示語言代碼，獲取該網(wǎng)頁所包含每幅圖像的尺寸和位置信息，用于識(shí)別目標(biāo)網(wǎng)頁的整體內(nèi)容；步驟12:如果尺寸信息和位置信息符合事先統(tǒng)計(jì)好的規(guī)則，則將該圖像劃分至有效圖像集合中。所述決策樹C4.5算法將輸入網(wǎng)頁生成網(wǎng)頁樣式的步驟包括-步驟21:計(jì)算屬性集中網(wǎng)頁統(tǒng)一資源定位符、網(wǎng)頁中文本長(zhǎng)度和網(wǎng) 頁中圖像基于像素量的分級(jí)，得到信息熵和分類前后信息熵的增益變化；步驟22:將信息熵增益作為分類尺度，給出分類依據(jù)，即取最大的信息熵增益的屬性集劃分為最終決策；步驟23:重復(fù)步驟22直到所有屬性集都被劃分，從而形成決策樹和分類規(guī)則。所述利用連續(xù)敏感文本分類器對(duì)以文字為主的網(wǎng)頁進(jìn)行識(shí)別步驟包括步驟l):用細(xì)胞神經(jīng)網(wǎng)絡(luò)(CNN)定義N維離散空間上的大型并行計(jì)算網(wǎng)絡(luò)，將網(wǎng)絡(luò)上的一個(gè)節(jié)點(diǎn)作為一個(gè)關(guān)鍵詞，將節(jié)點(diǎn)之間的連接描述，用于生成文本中詞匯之間的語義關(guān)系；步驟2):利用文本中詞匯之間的語義關(guān)系，將節(jié)點(diǎn)之間相互的抑制與激活，用于取得節(jié)點(diǎn)的激活次數(shù)作為文本的統(tǒng)計(jì)特征；步驟3):以統(tǒng)計(jì)特征作為輸入，選用支持向量機(jī)(SVM)作為訓(xùn)練以及預(yù)測(cè)的分類器，對(duì)預(yù)處理網(wǎng)頁中得到的文本進(jìn)行分類，得到分類結(jié)果。所述利用離散敏感文本分類器對(duì)混合型的網(wǎng)頁中文字進(jìn)行識(shí)別首先利用向量空間模型(VSM)提取離散敏感文本的特征；把離散敏感文本特征輸入到己經(jīng)訓(xùn)練好的貝葉斯網(wǎng)絡(luò)(BayesNetworks,簡(jiǎn)稱BNS)中,輸出的結(jié)果為該文本輸入敏感的概率值，如果該概率值大于閾值，則得到該文本為敏感分類結(jié)果。所述對(duì)混合型網(wǎng)頁的圖像識(shí)別與文字識(shí)別的信息融合步驟包括首先利用圖像識(shí)別器對(duì)混合型網(wǎng)頁的每幅圖像進(jìn)行識(shí)別，獲得識(shí)別結(jié)果為敏感的圖像數(shù)量M，獲得圖像識(shí)別結(jié)果為正常的圖像數(shù)量A^;離散文本識(shí)別的結(jié)果與上述圖像識(shí)別的結(jié)果融合，如果結(jié)果大于閾值，則該網(wǎng)頁為敏感，否則為正常網(wǎng)頁。為了實(shí)現(xiàn)所述的目的，本發(fā)明的另一方面，提供一種基于多分類器融合的敏感網(wǎng)頁過濾系統(tǒng)，包括數(shù)據(jù)流的獲取與預(yù)處理單元，生成原網(wǎng)頁的文本流和圖像流，并以此為依據(jù)將原網(wǎng)頁分為網(wǎng)頁樣式；圖像與文本流過濾單元，針對(duì)不同網(wǎng)頁樣式，使用相應(yīng)的分類器對(duì)文本和圖像進(jìn)行識(shí)別；圖像過濾器與文本過濾器的信息融合單元，針對(duì)混合型網(wǎng)頁樣式，通過融合結(jié)合圖像過濾器與文本過濾器，得到最終是否為敏感類的識(shí)別結(jié)果。本發(fā)明利用了微軟提供的基于正內(nèi)核的瀏覽器核心控件完成了數(shù)據(jù) 分流傳遞，利用多分類器協(xié)作完成智能識(shí)別，利用網(wǎng)絡(luò)導(dǎo)航技術(shù)完成了過濾器與瀏覽器的數(shù)據(jù)交互，解決了對(duì)網(wǎng)絡(luò)上敏感信息訪問的嚴(yán)格控制問題。本發(fā)明系統(tǒng)處理時(shí)間較快，單幅網(wǎng)頁處理時(shí)間小于10秒，處理結(jié) 果的準(zhǔn)確率也可以達(dá)到80%以上。因而在網(wǎng)絡(luò)信息安全領(lǐng)域有很好的應(yīng)用前景。

圖1示出三種網(wǎng)頁樣式與分類器的分配關(guān)系圖2(a)gif訓(xùn)練集有效/無效圖像尺寸分布，圖2 (b) jpg訓(xùn)練集有效/無效圖像分布圖3是本發(fā)明多分類器敏感網(wǎng)頁識(shí)別方法總體框4是本發(fā)明多分類器敏感網(wǎng)頁識(shí)別系統(tǒng)框圖具體實(shí)施方式
下面將結(jié)合附圖對(duì)本發(fā)明加以詳細(xì)說明，應(yīng)指出的是，所描述的實(shí) 施例僅旨在便于對(duì)本發(fā)明的理解，而對(duì)其不起任何限定作用。如圖4本發(fā)明基于多分類器融合的敏感網(wǎng)頁過濾系統(tǒng)所示，包括數(shù) 據(jù)流的獲取與預(yù)處理單元1，生竭原網(wǎng)頁的文本流和圖像流，并以此為依據(jù)將原網(wǎng)頁分為網(wǎng)頁樣式；圖像與文本流過濾單元2，針對(duì)不同網(wǎng)頁樣式，使用相應(yīng)的分類器對(duì)文本和圖像進(jìn)行識(shí)別；圖像過濾器與文本過濾器的信息融合單元3，針對(duì)混合型網(wǎng)頁樣式，通過融合公式結(jié)合圖像過濾器與文本過濾器，得到最終是否為敏感類的識(shí)別結(jié)果。綜上所述，數(shù)據(jù)流的獲取與預(yù)處理單元1將網(wǎng)頁解析得到文本與圖像流，利用C4. 5算法將網(wǎng) 頁歸為網(wǎng)頁樣式；圖像與文本流過濾單元2針對(duì)數(shù)據(jù)流的獲取與預(yù)處理單元1劃分的不同網(wǎng)頁樣式，使用相對(duì)應(yīng)的分類器識(shí)別處理數(shù)據(jù)流的獲取與預(yù)處理單元1中解析產(chǎn)生的文本和圖像流；圖像過濾器與文本過濾器的信息融合單元3針對(duì)處理圖像與文本流過濾單元2中處理的混合型網(wǎng)頁，將圖像與文本流過濾單元2產(chǎn)生的文本與圖像分類結(jié)果代入融合公式，得到綜合識(shí)別結(jié)果。識(shí)別完畢。本發(fā)明已于微軟windows XP平臺(tái)，VC6.0， VC.Net編程環(huán)境下以微軟正瀏覽器插件的方式實(shí)現(xiàn)，經(jīng)實(shí)驗(yàn)可正確運(yùn)行于個(gè)人電腦及電腦終端上。在本發(fā)明方法中，基于對(duì)web的分析，把web網(wǎng)頁分為三類。如圖 1示出三種網(wǎng)頁樣式與分類器的分配關(guān)系所示第一類為以文本為主的網(wǎng) 頁，其中文本多為文章性質(zhì)的文本，例如小說，新聞，人物傳記等，其特點(diǎn)是上下文之間有較強(qiáng)的語義關(guān)聯(lián)，有豐富的語義信息可以利用。該類型網(wǎng)頁通常包含有一篇或者幾篇文章。第二類是指以圖像為主的網(wǎng)頁，網(wǎng)頁里主要呈現(xiàn)的是圖像信息，附加有少量的分散文本，起輔助說明作用。這類型的網(wǎng)頁主要以圖庫的形式呈現(xiàn)。第三類也是最普遍的網(wǎng)頁樣式是文字和圖像混合的網(wǎng)頁，其中的文本也是分塊分散出現(xiàn)的，主要起著鏈接或者說明作用,，此外網(wǎng)頁中包含多幅圖像以豐富網(wǎng)頁的內(nèi)容，這種樣式的網(wǎng)頁主要有一些著名門戶網(wǎng)站的首頁和電子公告牌(BBS)?；陬A(yù)處理提供信息，包括網(wǎng)頁URL，網(wǎng)頁中文本長(zhǎng)度，網(wǎng)頁中圖像基于像素量的分級(jí)等作為屬性集合，利用決策樹學(xué)習(xí)中的C4.5算法將輸入網(wǎng)頁分為如上定義的三種樣式。然后對(duì)三種類型的網(wǎng)頁使用相對(duì)應(yīng) 的分類器實(shí)行分而治之的策略。 .對(duì)于第一種樣式的網(wǎng)頁(以文本為主)，運(yùn)用細(xì)胞神經(jīng)網(wǎng)絡(luò)C麗處理， C,與其他神經(jīng)網(wǎng)絡(luò)最大的區(qū)別在于信息只在相鄰單元之間交換，而全局信息的處理則通過局部信息的交互來實(shí)現(xiàn)。細(xì)胞神經(jīng)網(wǎng)絡(luò)可以是任意維的，但最常見的是一維或者二維。在一維細(xì)胞神經(jīng)網(wǎng)絡(luò)中，最常見的連接方式是每個(gè)細(xì)胞與周圍2r+l個(gè)細(xì)胞(包括它自己)相連。在二維網(wǎng)絡(luò)中最常見的連接方式是Von Neumann連接與Moore連接，其每個(gè)細(xì)胞只與其Von Neumann和Moore鄰域中的細(xì)胞相連。對(duì)一個(gè)細(xì)胞單元狀態(tài)的形式化描述為x(/ +1) = g(;c(O) + /(/) + / (,(/)) + /2 = /(柳其中x為細(xì)胞的內(nèi)部狀態(tài)，^是它的輸出，"是外部輸入，/是偏差，乂和/2是兩個(gè)函數(shù)。為了構(gòu)建敏感詞匯網(wǎng)絡(luò)，首先把傳統(tǒng)意義上的關(guān)鍵詞分為三類(1)顯式關(guān)鍵字；(2)隱式關(guān)鍵字(3)邏輯關(guān)鍵字；其中，顯式關(guān)鍵字決定了邏輯關(guān)鍵字，同時(shí)顯式關(guān)鍵字和隱式關(guān)鍵字之間也存在內(nèi)在的聯(lián)系。利用三者之間的關(guān)系，可以構(gòu)造我們的聯(lián)想反饋網(wǎng)絡(luò)。為了利用細(xì)胞神經(jīng)網(wǎng)絡(luò)，我們定義一個(gè)節(jié)點(diǎn)為一個(gè)詞匯，另外這個(gè)詞匯有三個(gè)狀態(tài)沉寂態(tài)，隱藏態(tài)和激發(fā)態(tài)。節(jié)點(diǎn)與節(jié)點(diǎn)之間按照語義關(guān) 聯(lián)進(jìn)行連接，計(jì)算規(guī)則是一旦一個(gè)節(jié)點(diǎn)結(jié)束到一個(gè)刺激或者輸入，那么根據(jù)該節(jié)點(diǎn)以往的狀態(tài)和周圍節(jié)點(diǎn)的狀態(tài)以及連接所代表的語義規(guī)則來確定該節(jié)點(diǎn)的下一個(gè)狀態(tài)。沉寂態(tài)定義為節(jié)點(diǎn)還未接受一個(gè)輸入是的狀態(tài)；隱藏態(tài)定義為節(jié)點(diǎn) 已經(jīng)接受輸入，但其參數(shù)以及周圍節(jié)點(diǎn)的參數(shù)未能夠達(dá)到其激發(fā)條件; 激發(fā)態(tài)定義為節(jié)點(diǎn)接受了輸入并且收到了激發(fā)。一旦一個(gè)節(jié)點(diǎn)被激發(fā)，那么我們就統(tǒng)計(jì)該節(jié)點(diǎn)出現(xiàn)的次數(shù)，最后所有激發(fā)節(jié)點(diǎn)的次數(shù)作為一個(gè)向量來進(jìn)行訓(xùn)練和預(yù)測(cè)。選用支持向量機(jī)(Support Vector Machine,簡(jiǎn)稱 SVM)作為分類器，對(duì)上述向量形成的特征進(jìn)行訓(xùn)練和分類，根據(jù)SVM輸出來決定該網(wǎng)頁是否是敏感網(wǎng)頁。對(duì)于第二種樣式的網(wǎng)頁(以圖像為主)，則提取網(wǎng)頁中有效圖像集合利用圖像分類器進(jìn)行集合識(shí)別，如果判別為敏感的圖像數(shù)目超過預(yù)定閾值，則將該網(wǎng)頁判別為敏感。10對(duì)于第三種樣式的網(wǎng)頁(混合型)，首先根據(jù)尺寸來獲取網(wǎng)頁里面的有效圖像集合，然后利用圖像分類器對(duì)圖像一一進(jìn)行識(shí)別，識(shí)別的結(jié)果為 (TV,, W)，其中A^為識(shí)別結(jié)果為敏感的圖像個(gè)數(shù)，A^為識(shí)別結(jié)果為正常的圖像個(gè)數(shù)。同時(shí)把網(wǎng)頁里面的文本當(dāng)成圖像是否為敏感的先驗(yàn),使用針對(duì)離散文本的Bayes分類器對(duì)文本進(jìn)行判別，輸出結(jié)果為P,。然后將各分類器的三個(gè)輸出參數(shù)^， w，《代入融合公式，得到一個(gè)判別因子/;通過該因子,與預(yù)定閾值相比較來判斷該網(wǎng)頁是否是敏感網(wǎng)頁。如圖3是本發(fā)明多分類器敏感網(wǎng)頁識(shí)別方法總體流程圖所示，具體地包括如下步驟l)獲取給定的目標(biāo)網(wǎng)頁統(tǒng)一資源定位符URL的源代碼，分離出源碼中的中文文本?；赪3C上關(guān)于Html和XML的相關(guān)文檔，然后針對(duì)解析的難點(diǎn) 對(duì)源解析程序進(jìn)行了改進(jìn)。嚴(yán)格來說，Html文檔是一種完全的樹形結(jié)構(gòu)，但是標(biāo)準(zhǔn)中對(duì)一些標(biāo)記的寬松規(guī)定使得實(shí)際的文檔可以不以嚴(yán)格的層次結(jié)構(gòu)出現(xiàn)。首先獲取目標(biāo)網(wǎng)頁的超文本標(biāo)示語言Html源代碼，之后對(duì) Html文檔進(jìn)行解析，這個(gè)解析過程分為3個(gè)子步驟(1) 文檔的元素分析，生成節(jié)點(diǎn)序列；(2) 元素序列的結(jié)構(gòu)/語法分析，生成初始的Html樹；(3) Html樹重構(gòu)?；谏傻腍tml樹中各種tag標(biāo)記間包含的文本內(nèi)容，將其分離出來作為源碼中的中文文本流。步驟2)獲取源代碼中圖像的尺寸大小和位置信息，根據(jù)相關(guān)規(guī)則剔除掉部分圖像，獲得有效圖像集合。處理圖像的開銷很大，如果網(wǎng)頁中大部分都是無效圖片的話，會(huì)對(duì) 系統(tǒng)性能造成很大影響。我們圖片尺寸放在第一位，因?yàn)镠TML標(biāo)準(zhǔn)支持網(wǎng)頁中包含圖片時(shí)就指定它的尺寸，因此可以僅從HTML文件本身就忽略掉無效圖片，而根本不需要另外下載它們。這同時(shí)也減少了網(wǎng)絡(luò)開銷，總的來說，從網(wǎng)絡(luò)上下載一幅圖片要比分析它更加耗時(shí)。網(wǎng)頁通常都包含了相當(dāng)數(shù)量的圖像。一般來說，一個(gè)圖文并茂的網(wǎng) 頁，可能包含幾十甚至上百幅圖像。但憑人的主觀估計(jì)，雖然這個(gè)網(wǎng)頁包含圖片較多，但數(shù)量應(yīng)該在幾十幅左右。實(shí)際統(tǒng)計(jì)的圖片數(shù)和主觀感受差別很大是因?yàn)閳D片中有很多完全是為了網(wǎng)頁框架需要起裝飾作用的，還有些由于包含信息太少，或是在網(wǎng)頁中的位置問題，根本不會(huì)引起人的注意。而實(shí)際需要識(shí)別則是里面有效圖像集合，這種有效性表現(xiàn) 在兩個(gè)方面，一是圖像尺寸，二是圖像位置，用來識(shí)別目標(biāo)網(wǎng)頁的整體內(nèi)容。如附圖2所示，橫坐標(biāo)和縱坐標(biāo)分別為圖像的寬度和高度，坐標(biāo) 采用對(duì)數(shù)式。在這種狀態(tài)下，很明顯可以看出有效圖像的聚類特征。我們就根據(jù)這個(gè)特征編制分類策略。圖像出現(xiàn)的位置是另外一個(gè)重要的指標(biāo)，在上文中已經(jīng)詳細(xì)討論過網(wǎng)頁結(jié)構(gòu)特征對(duì)網(wǎng)頁元素的影響。相應(yīng)的，處于網(wǎng)頁核心位置的圖片其有效性應(yīng)大于處在角落位置的圖片。最后依據(jù)以上規(guī)則提取出網(wǎng)頁中有效圖像集合作為圖像流。3)依據(jù)步驟l)和步驟2)中提取出的網(wǎng)頁中的中文文本和有效圖像集合，構(gòu)成屬性集合，以這些屬性集合為基礎(chǔ)，將其代入C4.5決策樹算法的學(xué)習(xí)公式，得到?jīng)Q策規(guī)則。之后只要將目標(biāo)網(wǎng)頁的文本和圖像的屬性集合參照形成的決策規(guī)則分類，就可以將該網(wǎng)頁自動(dòng)分為三種樣式中的一種以文本為主的網(wǎng)頁，以圖像為主的網(wǎng)頁，混合型的網(wǎng)頁。C4.5算法的決策規(guī)則形成公式如下C是分類的數(shù)目(在我們的系統(tǒng)中分類數(shù)為3), ^D，力是在數(shù)據(jù)集o中屬于類別y的那部分的比例。那么可以按照如下公式定義信息熵 /"/o(D):<formula>formula see original document page 12</formula>給定一個(gè)有^個(gè)值的屬性集合r，那么D,就相應(yīng)代表數(shù)據(jù)集D中在屬性r上取值為/的那部分?jǐn)?shù)據(jù)所形成的子集，之后可以按照如下公式定義出在屬性集T和數(shù)據(jù)集D上依據(jù)T的不同取值而產(chǎn)生的信息增益<formula>formula see original document page 12</formula> (2)C4.5算法依據(jù)信息增益，每次選取帶有最大信息增益的那個(gè)屬性作為分裂結(jié)點(diǎn)形成決策樹(決策規(guī)則)，以后的分類只要按照這個(gè)已經(jīng)形成的規(guī)則來就可以了。本發(fā)明中利用的網(wǎng)頁屬性集如下表所示網(wǎng)頁URL,網(wǎng)頁中文本長(zhǎng) 度，網(wǎng)頁中圖像基于像素量的分級(jí)。屬性集描述是否為首頁性質(zhì)是否在網(wǎng)頁的URL中包含有表示首頁性質(zhì)的關(guān)鍵詞 (例如"main " 或者 "index")一般文本的長(zhǎng)度網(wǎng)頁中一般文本的字符數(shù)超文本的長(zhǎng)度網(wǎng)頁中超文本的字符數(shù)大圖像的數(shù)目像素值超過50,000個(gè)像素的圖像數(shù)目中等圖像數(shù)目像素值在10， 000和50， 000 個(gè)像素之間的圖像數(shù)目小圖像數(shù)目像素值低于10， 000個(gè)像素的圖像數(shù)目步驟4)利用連續(xù)敏感文本分類器對(duì)按照步驟3)分類為以文本為主的網(wǎng)頁中的文本進(jìn)行識(shí)別，識(shí)別結(jié)果為l，該網(wǎng)頁為敏感，則退出。并給出了描述性的定義。第一類是顯式關(guān)鍵詞，這類關(guān)鍵詞基本上只可能出現(xiàn)在敏感文本里面，從統(tǒng)計(jì)上來說就是出現(xiàn)在敏感文本里面的概率很大(接近于1)，而出現(xiàn)在正常文本里面的概率很小(接近于O)。從語義上來說，這些詞本身就攜帶著敏感信息。第二類是隱式關(guān)鍵詞，這類關(guān) 鍵詞本來不攜帶任何的敏感信息。但由于某種原因，這類詞于敏感文本產(chǎn)生了固定的聯(lián)系，也就是說，這些詞在敏感文本里面也是以很大的概率出現(xiàn)，當(dāng)然也會(huì)在其它文本里面出現(xiàn)。第三類式邏輯關(guān)鍵詞，這類關(guān) 鍵詞分為兩類一類是多義詞，即這類關(guān)鍵詞在正常文本里面意義正常，可是在敏感文本里面攜帶敏感信息；另外一類關(guān)鍵詞主要是在于一定的詞搭配起來之后，共同攜帶著敏感信息。而這種搭配，我們可以分為兩種，一種是顯式加邏輯，一種是邏輯加邏輯?；谏鲜龆x，選取了關(guān) 鍵詞集合，同時(shí)構(gòu)建了語義規(guī)則來描述詞匯之間的語義關(guān)聯(lián)，幫助正確的提取特征信息。提出之后的特征經(jīng)過歸一化之后，作為該連續(xù)文本的特征向量。選用支持向量機(jī)(Support Vector Machine,簡(jiǎn)稱SVM)作為分類器，對(duì)特征進(jìn)行訓(xùn)練和分類，根據(jù)SVM輸出來決定該網(wǎng)頁是否是敏感網(wǎng)頁。步驟5)利用敏感圖像分類器對(duì)按照步驟3)分類為以圖像為主的網(wǎng)頁中的有效圖像集合進(jìn)行識(shí)別，將圖像分類器判別為敏感的那部分圖像數(shù) 目和預(yù)定閾值進(jìn)行比較，依據(jù)該項(xiàng)來決定該網(wǎng)頁是否是敏感網(wǎng)頁，如果判別為敏感的圖像數(shù)目超過了閾值則將該網(wǎng)頁判別為敏感。步驟6)利用離散文本分類器和敏感圖像分類器的融合算法對(duì)按照步驟3)分類為混合型(即包含大量圖像又包含一定數(shù)量的文本)的網(wǎng)頁中進(jìn) 行融合識(shí)別，首先人工構(gòu)建一個(gè)關(guān)鍵詞列表,對(duì)網(wǎng)頁里的文本統(tǒng)計(jì)關(guān)鍵詞后，歸一化后作為離散敏感文本的特征向量輸入到訓(xùn)練好的Bayes網(wǎng)絡(luò) 里面，通過離散文本分類器對(duì)中文文本進(jìn)行識(shí)別，并獲得離散文本分類因子，具體算法描述如下首先定義r = Uj2,..., Vl}作為類別Qi的訓(xùn)練集，}作為類別；作為關(guān)鍵詞集合。此外，定義W(w,f,)作為在文檔《中關(guān)鍵詞W出現(xiàn)的次數(shù)，也就是PT的詞頻。然后計(jì)算出概率P(叫C》，這個(gè)概率表示關(guān)鍵詞W和一個(gè)類別。的相關(guān)聯(lián)程度的大小<formula>formula see original document page 14</formula>在處理目標(biāo)文本/,時(shí)，計(jì)算概率p(。lo作為離散文本分類器因子，這個(gè)概率表示目標(biāo)文本。屬于一個(gè)類別q的可能性到底有多大，其中需要利用上面提到的概率尸(wlC》。這里使用了一個(gè)Bayes獨(dú)立性假設(shè): p(w,,mv..wj。 = ]1p(w,|。。即隱式得表達(dá)了在第三類混合型的網(wǎng)頁中文本關(guān)鍵詞之間的堪義聯(lián)系并不是很緊密，可以視為獨(dú)立分散存在。p(C卞,)一尸(c臉(喝)D(c》rOic廣'" (4)對(duì)于第三類型的網(wǎng)頁，根據(jù)尺寸來獲取網(wǎng)頁里面的部分符合要求的圖像，然后利用圖像分類器對(duì)圖像一一進(jìn)行識(shí)別,識(shí)別的結(jié)果為(w,， w)，其中y為識(shí)別結(jié)果為敏感的圖正常的圖像個(gè)數(shù)，w為識(shí)別結(jié)果為像個(gè)數(shù)。同時(shí)把網(wǎng)頁里面的文本當(dāng)成圖像是否為敏感的先驗(yàn)，使用針對(duì)離散文本的Bayes分類器對(duì)文本進(jìn)行判別，即上面提到的離散文本分類器因子，記為《。利用兩個(gè)參數(shù)來描述圖像分類器《表示把一副正常圖像誤分為敏感圖像的概率，^表示把一副敏感圖像誤分為正常圖像的概率。三個(gè)參數(shù)代入如下公式7V(1-A,1-尸， ()得到一個(gè)判別因子/;通過該因子,與預(yù)定閾值相比較來判斷該網(wǎng)頁是否是敏感網(wǎng)頁。步驟7)將最終的敏感判別結(jié)果返回給web瀏覽器，結(jié)果為敏感則在客戶端阻止該網(wǎng)頁的顯示，結(jié)果為非敏感則正常顯示。以上所述，僅為本發(fā)明中的具體實(shí)施方式
，但本發(fā)明的保護(hù)范圍并不局限于此，任何熟悉該技術(shù)的人在本發(fā)明所揭露的技術(shù)范圍內(nèi)，可理解想到的變換或替換，都應(yīng)涵蓋在本發(fā)明的包含范圍之內(nèi)，因此，本發(fā) 明的保護(hù)范圍應(yīng)該以權(quán)利要求書的保護(hù)范圍為準(zhǔn)。
權(quán)利要求
1. 一種基于多分類器融合的敏感網(wǎng)頁過濾方法，包括步驟步驟S1獲取目標(biāo)網(wǎng)頁統(tǒng)一資源定位符的源代碼，進(jìn)行預(yù)處理，用于獲取中文文本信息，獲取網(wǎng)頁中有效圖像集合信息；步驟S2基于預(yù)處理提供信息，利用決策樹學(xué)習(xí)中的C4.5算法將輸入網(wǎng)頁中文文本和有效圖像生成文本、圖像及文本與圖像的混合網(wǎng)頁樣式，用于獲得文本流、圖像流和文本與圖像混合流信息；步驟S3利用多分類器識(shí)別與網(wǎng)頁樣式的指定分配關(guān)系，獲得目標(biāo)網(wǎng)頁；步驟S4根據(jù)識(shí)別結(jié)果綜合判斷目標(biāo)網(wǎng)頁是否敏感，如果敏感，則執(zhí)行步驟5，如果不敏感，則執(zhí)行步驟6；步驟S5將識(shí)別的敏感網(wǎng)頁送入Web瀏覽器，并在瀏覽器中警示用戶所瀏覽網(wǎng)頁含有敏感內(nèi)容，瀏覽被禁止；步驟S6在Web瀏覽器中正常顯示原網(wǎng)頁。
2、按權(quán)利要求l所述的方法，其特征在于，所述分類器識(shí)別包括利用連續(xù)敏感文本分類器對(duì)以文本為主的網(wǎng)頁樣式進(jìn)行識(shí)別、利用敏感圖像分類器器對(duì)以圖像為主的網(wǎng)頁樣式中的圖像集合進(jìn)行識(shí)別和對(duì)混合型網(wǎng)頁樣式則利用離散敏感文本分類器和敏感圖像分類器融合進(jìn)行識(shí) 別。
3、按權(quán)利要求l所述的方法，其特征在于，所述獲取網(wǎng)頁中有效圖像步驟包括步驟11:在預(yù)處理階段通過解析網(wǎng)頁超文本標(biāo)示語言代碼，獲取該網(wǎng)頁所包含每幅圖像的尺寸和位置信息，用于識(shí)別目標(biāo)網(wǎng)頁的整體內(nèi)容;步驟12:如果尺寸信息和位置信息符合事先統(tǒng)計(jì)好的規(guī)則,則將該圖像劃分至有效圖像集合中。
4、按權(quán)利要求l所述的方法，其特征在于，所述決策樹C4.5算法將輸入網(wǎng)頁生成網(wǎng)頁樣式的步驟包括步驟21:計(jì)算屬性集中網(wǎng)頁統(tǒng)一資源定位符、網(wǎng)頁中文本長(zhǎng)度和網(wǎng) 頁中圖像基于像素量的分級(jí)，得到信息熵和分類前后信息熵的增益變化;步驟22:將信息熵增益作為分類尺度，給出分類依據(jù)，即取最大的信息熵增益的屬性集劃分為最終決策；步驟23:重復(fù)步驟22直到所有屬性集都被劃分，從而形成決策樹和分類規(guī)則。
5、按權(quán)利要求2所述的方法，其特征在于，利用連續(xù)敏感文本分類器對(duì)以文字為主的網(wǎng)頁進(jìn)行識(shí)別步驟包括步驟1):用細(xì)胞神經(jīng)網(wǎng)絡(luò)定義N維離散空間上的大型并行計(jì)算網(wǎng)絡(luò)，將網(wǎng)絡(luò)上的一個(gè)節(jié)點(diǎn)作為一個(gè)關(guān)鍵詞，將節(jié)點(diǎn)之間的連接描述，用于生成文本中詞匯之間的語義關(guān)系；步驟2):利用文本中詞匯之間的語義關(guān)系，將節(jié)點(diǎn)之間相互的抑制與激活，用于取得節(jié)點(diǎn)的激活次數(shù)作為文本的統(tǒng)計(jì)特征；步驟3):以統(tǒng)計(jì)特征作為輸入，選用支持向量機(jī)作為訓(xùn)練以及預(yù)測(cè) 的分類器，對(duì)預(yù)處理網(wǎng)頁中得到的文本進(jìn)行分類，得到分類結(jié)果。
6、按權(quán)利要求2所述的方法，其特征在于，利用離散敏感文本分類器對(duì)混合型的網(wǎng)頁中文字進(jìn)行識(shí)別首先利用向量空間模型提取離散敏感文本的特征；把離散敏感文本特征輸入到已經(jīng)訓(xùn)練好的貝葉斯網(wǎng)絡(luò)中，輸出的結(jié) 果為該文本輸入敏感的概率值，如果該概率值大于閾值,則得到該文本為敏感分類結(jié)果。
7、按權(quán)利要求1所述的方法，其特征在于，對(duì)混合型網(wǎng)頁的圖像識(shí)別與文字識(shí)別的信息融合步驟包括-.首先利用圖像識(shí)別器對(duì)混合型網(wǎng)頁的每幅圖像進(jìn)行識(shí)別，獲得識(shí)別結(jié)果為敏感的圖像數(shù)量W,,獲得圖像識(shí)別結(jié)果為正常的圖像數(shù)量A^;離散文本識(shí)別的結(jié)果與上述圖像識(shí)別的結(jié)果融合，如果結(jié)果大于閾值，則該網(wǎng)頁為敏感，否則為正常網(wǎng)頁。
8、一種基于多分類器融合的敏感網(wǎng)頁過濾系統(tǒng)，其特征在于數(shù)據(jù)流的獲取與預(yù)處理單元(1)，生成原網(wǎng)頁的文本流和圖像流，并以此為依據(jù)將原網(wǎng)頁分為網(wǎng)頁樣式；圖像與文本流過濾單元(2)，針對(duì)不同網(wǎng)頁樣式，使用相應(yīng)的分類器對(duì)文本和圖像進(jìn)行識(shí)別；圖像過濾器與文本過濾器的信息融合單元(3)，針對(duì)混合型網(wǎng)頁樣式，通過融合結(jié)合圖像過濾器與文本過濾器，得到最終是否為敏感類的識(shí)別結(jié)果。
全文摘要
本發(fā)明公開基于多分類器融合的敏感網(wǎng)頁過濾系統(tǒng)及方法，處理對(duì)象是一幅網(wǎng)頁，其處理結(jié)果是該網(wǎng)頁是否包含敏感內(nèi)容，此處的敏感可以定義為色情，反動(dòng)，暴力等危害社會(huì)的不健康互聯(lián)網(wǎng)內(nèi)容。系統(tǒng)包括數(shù)據(jù)流的獲取與預(yù)處理單元、圖像與文本流過濾單元、圖像過濾器與文本過濾器的信息融合單元，系統(tǒng)基于多個(gè)分類器的協(xié)作，在給定網(wǎng)頁的統(tǒng)一資源定位器的條件下，獲取該網(wǎng)頁的源代碼，在預(yù)處理階段進(jìn)行文本和圖像的分流，獲取文本信息和有效圖像信息；利用決策樹算法將輸入網(wǎng)頁分為三種樣式；利用連續(xù)文本分類器、離散敏感文本分類器和圖像分類器對(duì)網(wǎng)頁進(jìn)行識(shí)別，根據(jù)各分類器識(shí)別的輸出結(jié)果進(jìn)行融合計(jì)算，給出判別因子，將最終結(jié)果返回給瀏覽器。
文檔編號(hào)G06K9/62GK101281521SQ20071006518
公開日2008年10月8日申請(qǐng)日期2007年4月5日優(yōu)先權(quán)日2007年4月5日
發(fā)明者偶吳, 朱明亮, 胡衛(wèi)明, 陳周耀申請(qǐng)人:中國科學(xué)院自動(dòng)化研究所

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：胡衛(wèi)明;陳周耀;吳偶;朱明亮
技術(shù)所有人：中國科學(xué)院自動(dòng)化研究所
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

多分類器融合相關(guān)技術(shù)

分類器融合相關(guān)技術(shù)

敏感詞過濾相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于多分類器融合的敏感網(wǎng)頁過濾方法及系統(tǒng)的制作方法