欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于中文標(biāo)點符號的三重網(wǎng)頁文本內(nèi)容識別及過濾方法

文檔序號:7644473閱讀:528來源:國知局

專利名稱::基于中文標(biāo)點符號的三重網(wǎng)頁文本內(nèi)容識別及過濾方法
技術(shù)領(lǐng)域
:本發(fā)明屬于網(wǎng)絡(luò)信息安全領(lǐng)域,涉及中文網(wǎng)頁不良文本信息的識別和過濾。
背景技術(shù)
:在現(xiàn)有的幾種網(wǎng)頁內(nèi)容安全產(chǎn)品中,如“網(wǎng)絡(luò)保姆”和“網(wǎng)絡(luò)爸爸”等,它們大多采用基于URL地址和關(guān)鍵字的方法來禁止對非法網(wǎng)頁和網(wǎng)站的訪問,相對于網(wǎng)上非法內(nèi)容的多樣性和動態(tài)性而言,這種采用靜態(tài)的地址庫或手動更新網(wǎng)址和關(guān)鍵字的方法遠(yuǎn)不能滿足人們的過濾要求,家長們期待有更加有效而全面的信息過濾產(chǎn)品的出現(xiàn)?,F(xiàn)有的對于網(wǎng)頁文本內(nèi)容的過濾方法主要圍繞著向量空間模型進(jìn)行的。劉培德等利用向量空間模型、TC3分類算法、Rocchio反饋模型等構(gòu)造了一個具有反饋機(jī)制的網(wǎng)絡(luò)信息過濾系統(tǒng)(NIFS),該系統(tǒng)可以實現(xiàn)基于用戶興趣文件的文本過濾。曹毅、賀衛(wèi)紅建立的基于向量空間模型的信息安全過濾系統(tǒng)則將過濾分為模版訓(xùn)練和自適應(yīng)過濾兩個階段進(jìn)行。在訓(xùn)練階段,通過主題處理和特征抽取建立初始的過濾模版,設(shè)置初始閾值;在過濾階段,則根據(jù)用戶的反饋信息自適應(yīng)地調(diào)整模版和閾值,該方法的特點主要體現(xiàn)在過濾模版訓(xùn)練算法的設(shè)計上。Shian-HuaLin和Jan-MingHo于2002年提出了一個去除網(wǎng)頁中噪音內(nèi)容的方法,該方法依據(jù)網(wǎng)頁中<table>標(biāo)簽構(gòu)造網(wǎng)頁的標(biāo)簽樹,將一張網(wǎng)頁規(guī)整為相互嵌套的內(nèi)容塊;然后,對于使用同一個模版生成的網(wǎng)頁集,找出在該網(wǎng)頁集中多次出現(xiàn)的內(nèi)容塊,作為噪音內(nèi)容,而在該網(wǎng)頁集中出現(xiàn)較少的內(nèi)容塊就是有效信息塊。復(fù)旦大學(xué)提出了一種基于內(nèi)容過濾代理(CFA)的互聯(lián)網(wǎng)過濾系統(tǒng)及過濾方法,系統(tǒng)框架包括內(nèi)容過濾代理(CFA)、查詢服務(wù)器(QS)、內(nèi)容分析與管理服務(wù)器(CAMS)三部分。網(wǎng)絡(luò)內(nèi)容過濾系統(tǒng)的過濾流程為當(dāng)用戶發(fā)出對某個URL進(jìn)行訪問的請求時,CFA根據(jù)用戶設(shè)置的黑白名單,允許或禁止該訪問請求。倘若該URL不在CFA的黑白名單中,CFA則向查詢服務(wù)器QS發(fā)出查詢請求。QS將會在自己的URL庫中查詢該URL的分級信息并將結(jié)果返回給CFA。CFA據(jù)此做出反應(yīng)。同時QS會定期從CAMS中下載更新的URL分級信息。而微軟公司的“用于網(wǎng)絡(luò)瀏覽的內(nèi)容過濾技術(shù)”提供了一種控制用戶在使用計算機(jī)時可否訪問某些互聯(lián)網(wǎng)網(wǎng)站的系統(tǒng)和方法。當(dāng)計算機(jī)用戶試圖訪問一個由指定統(tǒng)一資源定位器(URL)指向的互聯(lián)網(wǎng)網(wǎng)站時,過濾器通過允許-阻止列表給URL提供參考,并通過參考——交叉引用年齡組查看年齡組允許觀看的分類內(nèi)容映射表,來相應(yīng)地決定對URL指向的網(wǎng)站的訪問??偨Y(jié)前人的研究成果,可以看到目前互聯(lián)網(wǎng)信息過濾方法尚存在以下不足1.采用URL和關(guān)鍵字的過濾方法,過濾準(zhǔn)確率和濾全率較低,過濾器很容易被繞過;2.單獨(dú)采用基于文本向量空間的內(nèi)容過濾方法過濾速度慢,無法滿足寬帶網(wǎng)絡(luò)數(shù)據(jù)傳輸實時過濾的要求;3.對于網(wǎng)頁的預(yù)處理過程研究較少,尤其關(guān)于通用網(wǎng)頁正文內(nèi)容提取方法的研究尚未見文獻(xiàn)報道,而這方面問題的研究可以有效地提高網(wǎng)頁數(shù)據(jù)處理的速度;4.針對中文網(wǎng)頁特點的內(nèi)容識別和過濾方法還沒有見到報道。
發(fā)明內(nèi)容為了克服已有網(wǎng)頁信息過濾方法濾準(zhǔn)率、濾全率和過濾速度無法滿足網(wǎng)絡(luò)流量的局限性,本發(fā)明提供了一種將已有的基于URL、基于關(guān)鍵字以及基于向量空間的文本過濾方法有機(jī)地融合在一起的三重過濾方法;在URL過濾上,設(shè)置了合法URL和非法URL表,即黑白名單,提高過濾的速度;采用Winsock2SPI直接在應(yīng)用層截獲HTTP數(shù)據(jù)包,省去了在底層截獲數(shù)據(jù)包時要進(jìn)行重組和協(xié)議解析的麻煩;提出了基于中文標(biāo)點符號統(tǒng)計值的中文網(wǎng)頁文本正文識別及去噪聲方法。為達(dá)到上述目標(biāo),本發(fā)明采用如下技術(shù)方案系統(tǒng)采用三級過濾模式,分別是URL過濾、關(guān)鍵字過濾、文本內(nèi)容過濾。系統(tǒng)結(jié)構(gòu)如附圖1所示,其中URL過濾模塊通過預(yù)先設(shè)置的非法URL列表(黑名單)和合法URL列表(白名單),來判斷用戶的請求是否合法。內(nèi)容截獲和提取模塊先截獲從服務(wù)器端返回的可疑請求的響應(yīng)(HTTP數(shù)據(jù)包),然后提取出HTML文檔,最后分析HTML文檔提取鏈接信息和正文內(nèi)容。關(guān)鍵字過濾模塊針對鏈接信息,用關(guān)鍵字來判斷網(wǎng)頁中是否含有非法的鏈接,只要含有非法的鏈接,該網(wǎng)頁也會得到屏蔽。內(nèi)容過濾模塊對含有合法鏈接的可疑網(wǎng)頁正文進(jìn)行分詞、去除停用詞、計算權(quán)重和特征提取,之后表示成向量空間模型,并與訓(xùn)練好的特征向量相匹配,判斷其內(nèi)容是否合法。本發(fā)明系統(tǒng)的操作步驟概括如下1.當(dāng)用戶發(fā)出鏈接請求時,將請求URL地址與黑白名單中的地址列表相比較,并進(jìn)行相應(yīng)的處理。對于既不屬于黑名單也不屬于白名單的請求地址,標(biāo)記為可疑請求。2.截獲可疑請求的響應(yīng),即服務(wù)器端返回的HTTP數(shù)據(jù)包。由于Winsock2SPI在應(yīng)用層進(jìn)行截獲,所以省去了在底層截獲數(shù)據(jù)包時要進(jìn)行數(shù)據(jù)包重組和協(xié)議解析的麻煩,效率高,CPU占用率低。3.從截獲的HTTP數(shù)據(jù)包中提取HTML文件,從中提取鏈接信息,并采用基于中文標(biāo)點符號統(tǒng)計值的網(wǎng)頁正文內(nèi)容識別方法獲取網(wǎng)頁正文文本內(nèi)容。4.采用基于關(guān)鍵字的過濾方法,檢查鏈接信息,如果為非合法鏈接,返回警告信息,否則轉(zhuǎn)內(nèi)容過濾模塊。5.建立中文網(wǎng)頁不良信息文本分類語料庫,作為網(wǎng)頁文本內(nèi)容的樣本訓(xùn)練模版。對網(wǎng)頁正文實施內(nèi)容過濾,檢查其合法性,對于合法的文本內(nèi)容返回給用戶,非法的文本內(nèi)容直接屏蔽,并更新URL列表。本發(fā)明的效果和益處是采用Winsock2SPI函數(shù)直接在應(yīng)用層截獲HTTP數(shù)據(jù)包,省去了在底層截獲數(shù)據(jù)包時要進(jìn)行重組和協(xié)議解析的麻煩。采用基于中文標(biāo)點符號統(tǒng)計值的網(wǎng)頁文本內(nèi)容識別和獲取方法,可以有效去除導(dǎo)航信息、相關(guān)鏈接信息、廣告鏈接信息、版權(quán)信息等噪音信息。本發(fā)明能夠有效地提高網(wǎng)頁信息過濾的速度、準(zhǔn)確率和過濾精度。可以用于中文網(wǎng)頁不良信息的過濾,并可廣泛應(yīng)用于用戶個性化文本分類信息服務(wù)領(lǐng)域。圖1是基于中文標(biāo)點符號的網(wǎng)頁文本內(nèi)容過濾系統(tǒng)總體結(jié)構(gòu)圖。圖2是URL過濾流程圖。圖3是網(wǎng)頁信息HTML嵌套結(jié)構(gòu)及HTML樹知識表示。圖4是內(nèi)容過濾處理流程圖。具體實施例方式以下結(jié)合技術(shù)方案和附圖,詳細(xì)敘述本發(fā)明的具體實施方式。步驟1當(dāng)用戶在瀏覽器的地址欄中輸入某一網(wǎng)址,或點擊網(wǎng)頁中某一鏈接信息時,過濾器將該請求的URL地址與黑白名單中的地址列表相比較(如附圖2所示),對于屬于白名單中的URL請求,系統(tǒng)放行;對于屬于黑名單中的URL請求,系統(tǒng)屏蔽并返回警告信息;對于既不屬于黑名單也不屬于白名單的URL,標(biāo)記為可疑請求,執(zhí)行步驟2。步驟2采用Winsock2SPI技術(shù)截獲可疑請求的服務(wù)器端返回的HTTP數(shù)據(jù)包。步驟3從第2步驟截獲的HTTP數(shù)據(jù)包中提取HTML文件,分析HTML文件提取鏈接信息;并分析HTML樹(如附圖3所示),采用基于中文標(biāo)點符號的網(wǎng)頁正文提取方法,有效地去除導(dǎo)航信息、相關(guān)鏈接信息、廣告鏈接信息、版權(quán)信息等噪聲信息,獲取網(wǎng)頁正文文本內(nèi)容。步驟4對于步驟3提取出的超鏈接信息,用模式匹配的方法查看鏈接中是否含有非法的關(guān)鍵字,如果有,則該鏈接被定義為非法鏈接,系統(tǒng)屏蔽該鏈接并返回警告信息,否則執(zhí)行步驟5,進(jìn)行內(nèi)容過濾,判斷網(wǎng)頁內(nèi)容的合法性。內(nèi)容過濾是本系統(tǒng)的核心,其基本過濾流程如圖4所示,過濾步驟如下步驟5對于由步驟3和步驟4提取出的可疑的網(wǎng)頁正文內(nèi)容,采用基于詞典和正向最大匹配算法進(jìn)行分詞處理。步驟6根據(jù)停用詞表去除分詞結(jié)果中的停用詞,即去除一些無意義的詞,削除這些詞對判斷結(jié)果的影響。步驟7應(yīng)用詞頻統(tǒng)計的方法,進(jìn)行特征詞提取,即提取更能表現(xiàn)文檔特征的詞,以提高程序效率、運(yùn)行速度和分類精度。步驟8采用TF-IDF公式計算特征詞權(quán)重。步驟9生成該文本的特征向量,計算該向量與特征向量庫中樣本向量間夾角余弦,得到相似度值。步驟10將該相似度值與設(shè)置好的閾值進(jìn)行比較,本發(fā)明設(shè)置閾值為0.6-08,確定網(wǎng)頁內(nèi)容性質(zhì)。當(dāng)相似度值高于規(guī)定的閾值,則該網(wǎng)頁被定義為非法,系統(tǒng)拒絕訪問;如相似度低于規(guī)定的閾值,則該文本被定義為合法,系統(tǒng)接受訪問。步驟11更新合法URL和非法URL列表,即將確定為非法文本的URL地址添加到黑名單中,合法文本的URL地址添加到白名單中,以避免對同一網(wǎng)頁內(nèi)容重復(fù)進(jìn)行內(nèi)容過濾,提高過濾效率。上述內(nèi)容過濾方法的執(zhí)行需要特征向量庫中的樣本向量模版,而樣本向量模版是通過非法語料庫中文本訓(xùn)練獲得的,訓(xùn)練過程如附圖4所示,步驟如下1)建立網(wǎng)絡(luò)不良信息語料庫。2)對于非法語料庫中的文本樣本,采用基于詞典和正向最大匹配的方法對訓(xùn)練文檔進(jìn)行中文分詞處理。3)根據(jù)停用詞表去除分詞結(jié)果中的停用詞,得到高維詞集。4)對上述高維詞集用詞頻統(tǒng)計的方法進(jìn)行特征提取。5)采用TF-IDF公式計算特征詞的權(quán)重。6)生成文檔的向量空間模型,存入特征向量庫,生成樣本向量模版。權(quán)利要求1.一種基于中文標(biāo)點符號的三重網(wǎng)頁文本內(nèi)容識別及過濾方法,提供了一種基于URL地址、關(guān)鍵字和內(nèi)容相結(jié)合的三重網(wǎng)頁信息過濾系統(tǒng)體系結(jié)構(gòu),其特征在于,采用Winsock2SPI函數(shù)直接在應(yīng)用層截獲HTTP數(shù)據(jù)包;采用基于中文標(biāo)點符號統(tǒng)計值的通用中文網(wǎng)頁噪聲去除及正文獲取方法;建立中文網(wǎng)頁不良信息文本分類語料庫,作為網(wǎng)頁文本內(nèi)容的樣本訓(xùn)練模版。全文摘要一種基于中文標(biāo)點符號的三重網(wǎng)頁文本內(nèi)容識別及過濾方法。該方法針對現(xiàn)有的基于URL、基于關(guān)鍵字的網(wǎng)頁信息過濾方法中存在的濾準(zhǔn)率和濾全率低的問題,提出了一種復(fù)合型的基于URL、基于關(guān)鍵字、以及基于文本向量空間知識表示方法的網(wǎng)頁文本內(nèi)容過濾方法。采用基于黑白名單的URL地址過濾方法;采用中文標(biāo)點符號的統(tǒng)計特征來有效地去除導(dǎo)航信息、相關(guān)鏈接信息、廣告鏈接信息、版權(quán)信息等網(wǎng)頁內(nèi)容噪聲信息,提取文本內(nèi)容;采用向量空間模型進(jìn)行文本知識表示,通過計算文本向量與不良信息模版中特征向量間的夾角余弦,與設(shè)定的閾值相比較,確定文本所屬類別。該發(fā)明可廣泛地應(yīng)用于網(wǎng)絡(luò)不良信息的過濾及網(wǎng)頁個性化信息服務(wù)領(lǐng)域。文檔編號H04L12/24GK101035128SQ20071001105公開日2007年9月12日申請日期2007年4月18日優(yōu)先權(quán)日2007年4月18日發(fā)明者宋明秋,吳新濤申請人:大連理工大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
珠海市| 彝良县| 黄浦区| 枣强县| 马鞍山市| 巴中市| 涿鹿县| 凤阳县| 商洛市| 盐城市| 巴中市| 阳东县| 凭祥市| 松滋市| SHOW| 新宾| 仁怀市| 重庆市| 安宁市| 云安县| 北流市| 花莲县| 舟山市| 木里| 祥云县| 东源县| 乌鲁木齐市| 常宁市| 舞阳县| 塔河县| 阿城市| 甘肃省| 黔西县| 抚州市| 天峻县| 永城市| 襄樊市| 定兴县| 元氏县| 怀柔区| 富裕县|