欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

面向互聯(lián)網(wǎng)的不良信息過濾系統(tǒng)及其方法

文檔序號(hào):7751546閱讀:261來源:國知局
專利名稱:面向互聯(lián)網(wǎng)的不良信息過濾系統(tǒng)及其方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種不良信息過濾系統(tǒng)及其過濾方法,尤其涉及一種針對(duì)互聯(lián)網(wǎng)社區(qū)的特點(diǎn),可以對(duì)色情、低俗、灌水及商業(yè)廣告等不良信息進(jìn)行準(zhǔn)確標(biāo)引和過濾的過濾系統(tǒng)及其過濾方法,屬于網(wǎng)絡(luò)信息安全技術(shù)領(lǐng)域。
背景技術(shù)
隨著互聯(lián)網(wǎng)的發(fā)展壯大,各個(gè)網(wǎng)站(包括門戶網(wǎng)站、專題網(wǎng)站等)推出了越來越多的社區(qū)頻道,如各類專題論壇、博客、評(píng)論等,這些社區(qū)頻道吸引的互動(dòng)網(wǎng)友日益增多,為網(wǎng)站及網(wǎng)民帶來了利益。但同時(shí)也有一些人員借這些社區(qū)頻道大肆發(fā)布各類商業(yè)廣告信息,甚至發(fā)布大量的色情、低俗、粗口及與其他同行惡意競(jìng)爭(zhēng)的帖子,這些不良信息干擾了網(wǎng)站的正常運(yùn)營,損害了網(wǎng)站的品牌和口碑,同時(shí)也極大地影響了其它網(wǎng)民的正常使用。目前,各個(gè)網(wǎng)站針對(duì)此情況一般都是采用如下的技術(shù)措施>設(shè)置關(guān)鍵詞限制通過維護(hù)一個(gè)巨大的關(guān)鍵詞庫,當(dāng)帖子中含有關(guān)鍵詞,系統(tǒng)予以提醒或直接刪除。>發(fā)帖頻率限制限制同一 IP或同一 ID在單位時(shí)間內(nèi)發(fā)的最大帖子數(shù)量。這兩種方法可以過濾掉部分不良數(shù)據(jù),但也存在著極大的不足對(duì)于關(guān)鍵詞限制而言,很多不良帖不僅僅是通過一兩個(gè)關(guān)鍵詞就能判斷的,而是需要通過對(duì)整段話、整句話、關(guān)鍵詞的前后語義進(jìn)行判斷。對(duì)于發(fā)帖頻率限制而言,缺陷在于限制了一些正常網(wǎng)民的發(fā)帖,同時(shí)很容易被發(fā)帖機(jī)破解,使得此方法難以實(shí)際奏效。在專利號(hào)為200510048576.6的中國發(fā)明專利中,公開了一種在互聯(lián)網(wǎng)上堵截色情圖像與不良信息的系統(tǒng)。該系統(tǒng)含有IP地址過濾、關(guān)鍵字過濾和色情圖像檢測(cè),通過多次判決反饋建立色情圖像數(shù)學(xué)模型;建立色情標(biāo)準(zhǔn)圖像特征庫,作為判決網(wǎng)絡(luò)圖像是否為色情圖像的依據(jù);建立相似性匹配判決模型;對(duì)通過關(guān)鍵字對(duì)比的網(wǎng)絡(luò)信息進(jìn)行基于內(nèi)容的圖像判決。既在應(yīng)用層進(jìn)行信息內(nèi)容過濾,又在IP層采用網(wǎng)址過濾,能直接攔截色情圖像信息,實(shí)時(shí)更新URL數(shù)據(jù)庫,由過去被動(dòng)的網(wǎng)址過濾跳躍到主動(dòng)的內(nèi)容過濾,系統(tǒng)獨(dú)具的多功能管理平臺(tái),整合了操作系統(tǒng)、瀏覽器、因特網(wǎng)協(xié)議和圖像檢測(cè)器之間的復(fù)雜關(guān)系,解決了客戶機(jī)和服務(wù)器之間的進(jìn)程交互和色情圖像檢測(cè)任務(wù)的分工和數(shù)據(jù)重組問題,并實(shí)現(xiàn)了與瀏覽器無關(guān)的特點(diǎn)。另外,在專利申請(qǐng)?zhí)枮?00410053683. 3的中國發(fā)明專利申請(qǐng)中,公開了一種互聯(lián)網(wǎng)內(nèi)容過濾系統(tǒng)及過濾方法。該內(nèi)容過濾系統(tǒng)包括內(nèi)容過濾代理(CFA)、查詢服務(wù)器 OiS)、內(nèi)容分析與管理服務(wù)器(CAMQ三部分。網(wǎng)絡(luò)內(nèi)容過濾系統(tǒng)的過濾流程為當(dāng)用戶發(fā)出對(duì)某個(gè)URL進(jìn)行訪問的請(qǐng)求時(shí),CFA根據(jù)用戶設(shè)置的黑白名單,允許或禁止該訪問請(qǐng)求。 倘若該URL不在CFA的黑白名單中,CFA則向QS發(fā)出查詢請(qǐng)求。QS將會(huì)在自己的URL庫中查詢?cè)揢RL的分級(jí)信息并將結(jié)果返回給CFA。CFA據(jù)此做出反應(yīng)。同時(shí)QS會(huì)定期從CAMS 中下載更新的URL分級(jí)信息。該技術(shù)方案可以識(shí)別網(wǎng)絡(luò)中存在的不良信息,并主動(dòng)地阻止互聯(lián)網(wǎng)用戶訪問這些不良網(wǎng)站。

發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題在于提供一種面向互聯(lián)網(wǎng)的不良信息過濾系統(tǒng)及其方法,可以對(duì)色情、低俗、灌水及商業(yè)廣告等不良信息進(jìn)行準(zhǔn)確標(biāo)引和過濾。為實(shí)現(xiàn)上述的發(fā)明目的,本發(fā)明采用下述的技術(shù)方案一種面向互聯(lián)網(wǎng)的不良信息過濾系統(tǒng),其特征在于所述不良信息過濾系統(tǒng)包括用戶數(shù)據(jù)提交模塊、用戶服務(wù)管理系統(tǒng)、用戶交互信息審核平臺(tái)、凈化服務(wù)運(yùn)營平臺(tái)、知識(shí)庫及至少一個(gè)標(biāo)引引擎;其中,所述用戶數(shù)據(jù)提交模塊與所述用戶服務(wù)管理系統(tǒng)連接,所述用戶服務(wù)管理系統(tǒng)連接所述凈化服務(wù)運(yùn)營平臺(tái);所述凈化服務(wù)運(yùn)營平臺(tái)分別與所述用戶交互信息審核平臺(tái)和各標(biāo)引引擎進(jìn)行連接;所述標(biāo)弓I弓I擎與所述知識(shí)庫進(jìn)行連接。其中,所述標(biāo)引引擎包括廣告標(biāo)引引擎組、水貼標(biāo)引引擎組、個(gè)性化特征標(biāo)引引擎組、行為特征標(biāo)引引擎組、色情標(biāo)引引擎組、低俗標(biāo)引引擎組、敏感信息標(biāo)引引擎組中的一個(gè)或多個(gè)。所述知識(shí)庫包括關(guān)鍵詞詞庫、行為模式庫、規(guī)則庫、實(shí)例庫和訓(xùn)練特征庫中的一個(gè)或多個(gè)。所述不良信息過濾系統(tǒng)中還包括雜質(zhì)特征庫、非雜質(zhì)特征庫和個(gè)性雜質(zhì)特征庫; 所述雜質(zhì)特征庫、非雜質(zhì)特征庫和個(gè)性雜質(zhì)特征庫一方面連接所述知識(shí)庫,另一方面與所述凈化服務(wù)運(yùn)營平臺(tái)進(jìn)行連接。所述用戶交互信息審核平臺(tái)包括發(fā)布數(shù)據(jù)模塊、反饋數(shù)據(jù)模塊和系統(tǒng)效果統(tǒng)計(jì)模塊;其中,所述發(fā)布數(shù)據(jù)模塊接收來自所述凈化服務(wù)運(yùn)營平臺(tái)的數(shù)據(jù),如果是正常標(biāo)記,則作為正常貼對(duì)外發(fā)布;如果是錯(cuò)誤標(biāo)記,則送入所述反饋數(shù)據(jù)模塊作為訓(xùn)練語料使用,并反饋給所述凈化服務(wù)運(yùn)營平臺(tái)。 一種面向互聯(lián)網(wǎng)的不良信息過濾方法,基于上述的不良信息過濾系統(tǒng)實(shí)現(xiàn),其特征在于包括如下的步驟(1)接收網(wǎng)絡(luò)社區(qū)發(fā)布的各種消息;(2)調(diào)用知識(shí)庫中的實(shí)例庫進(jìn)行過濾,判斷是否為不良信息;(3)如果不是,進(jìn)一步調(diào)用包括關(guān)鍵詞、關(guān)鍵詞組合、URL、IP地址、用戶ID在內(nèi)的客戶個(gè)性化“黑白名單”進(jìn)行過濾,判斷是否為不良信息;(4)如果不是,進(jìn)一步進(jìn)行普通行為模式識(shí)別;(5)如果不是,進(jìn)一步進(jìn)行特征行為模式識(shí)別;(6)如果不是,進(jìn)一步調(diào)用各種業(yè)務(wù)規(guī)則進(jìn)行過濾;(7)綜合步驟(2) (6)所獲得的過濾結(jié)果,得到最終的不良信息過濾結(jié)果,并保存入庫;(8)將最終的標(biāo)引結(jié)果返回給客戶端。其中,在不良信息過濾過程中,首先對(duì)消息文本進(jìn)行關(guān)鍵詞匹配;假如沒有命中關(guān)鍵詞,則將預(yù)測(cè)結(jié)果設(shè)為“不需要?jiǎng)h除”,假如命中關(guān)鍵詞,則將文本轉(zhuǎn)換成向量空間模型,對(duì)該向量進(jìn)行預(yù)測(cè),預(yù)測(cè)的結(jié)果為一個(gè)確信度;對(duì)于不同的消息,根據(jù)確信度和預(yù)設(shè)的閾值將其預(yù)測(cè)為“需要?jiǎng)h除”、“疑似需要?jiǎng)h除”、“不需要?jiǎng)h除”這三類,其中對(duì)于“疑似需要?jiǎng)h除” 這一類別的消息,引入人工進(jìn)行進(jìn)一步審核。所述步驟(5)中,所述特征行為模式識(shí)別是指對(duì)網(wǎng)絡(luò)社區(qū)發(fā)布的信息內(nèi)容進(jìn)行整體分析,通過語義識(shí)別提取出其中所有的特征聯(lián)系信息,對(duì)所述特征聯(lián)系信息在一定時(shí)間段內(nèi)的出現(xiàn)頻率進(jìn)行計(jì)算,并與預(yù)設(shè)的閥值進(jìn)行比較,當(dāng)超出所述閥值時(shí),認(rèn)為是不良信肩、ο本發(fā)明所提供的不良信息過濾系統(tǒng)及其方法運(yùn)用多項(xiàng)智能技術(shù)分詞、關(guān)鍵詞匹配、向量模型,以及多個(gè)高性能的處理算法對(duì)數(shù)據(jù)進(jìn)行處理,可以為互聯(lián)網(wǎng)社區(qū)提供敏感、 色情、低俗、灌水及商業(yè)廣告等信息的標(biāo)引服務(wù),從而向客戶提供了高效率的信息管理手段。


下面結(jié)合附圖和具體實(shí)施方式
對(duì)本發(fā)明作進(jìn)一步的詳細(xì)說明。圖1為本發(fā)明所提供的不良信息過濾系統(tǒng)的整體結(jié)構(gòu)示意圖;圖2為本不良信息過濾系統(tǒng)進(jìn)行不良信息過濾的操作流程示意圖;圖3為基于有指導(dǎo)學(xué)習(xí)的統(tǒng)計(jì)模型的示例圖;圖4為使用基于有指導(dǎo)學(xué)習(xí)統(tǒng)計(jì)模型的流程示意圖;圖5為本發(fā)明中將關(guān)鍵詞結(jié)合統(tǒng)計(jì)模型系統(tǒng)框架來解決垃圾貼的流程示意圖。
具體實(shí)施例方式為了提高本發(fā)明對(duì)不良信息的過濾效果,發(fā)明人通過對(duì)大量互聯(lián)網(wǎng)社區(qū)數(shù)據(jù)的分析,分別從業(yè)務(wù)角度、技術(shù)角度對(duì)不良信息作了分類。業(yè)務(wù)角度的分類不良信息可以分為商業(yè)廣告類、色情、低俗、灌水、客戶個(gè)性類。 而各個(gè)類別又進(jìn)行了細(xì)分。如商業(yè)廣告類可分為數(shù)字類OiQ、電話、手機(jī)號(hào)、發(fā)票、報(bào)價(jià)等)、域名類(MSN、網(wǎng)址、E-Mail等)。技術(shù)角度的分類提供剛性識(shí)別、行為模式識(shí)別、柔性識(shí)別、關(guān)鍵詞黑白名單識(shí)別、 各類業(yè)務(wù)規(guī)則(不同業(yè)務(wù)規(guī)則又采用了不同的算法,詳見具體的算法介紹)。其中>剛性識(shí)別本發(fā)明中將客戶反饋的系統(tǒng)誤刪、漏刪數(shù)據(jù)作為剛性數(shù)據(jù),可以對(duì)后續(xù)發(fā)布的內(nèi)容完全相同的數(shù)據(jù)進(jìn)行標(biāo)引。接收客戶反饋的系統(tǒng)誤刪、漏刪數(shù)據(jù),對(duì)整條信息進(jìn)行計(jì)算,生成一個(gè)唯一值,保存入庫(稱為剛性庫)。當(dāng)后續(xù)再接收到需要過濾的各類信息數(shù)據(jù)時(shí),對(duì)每條信息采用相同的算法進(jìn)行計(jì)算,并將生成的結(jié)果值與剛性庫中的值進(jìn)行比較,如匹配上,則能直接判斷該信息是正常信息(或不良信息)。>行為模式識(shí)別通過對(duì)一段時(shí)間內(nèi)的同一 IP、同一 ID、相同關(guān)鍵內(nèi)容出現(xiàn)的次數(shù)進(jìn)行統(tǒng)計(jì),分析數(shù)據(jù)的行為模式。>柔性識(shí)別又稱近似文本檢測(cè)(詳見下述的算法介紹)。通過對(duì)一段時(shí)間內(nèi)的數(shù)據(jù)進(jìn)行訓(xùn)練學(xué)習(xí),可將出現(xiàn)頻率較高且內(nèi)容相似的數(shù)據(jù)識(shí)別出來。>關(guān)鍵詞黑白名單各個(gè)網(wǎng)站可根據(jù)需求設(shè)置黑白名單(提供關(guān)鍵詞、關(guān)鍵詞組合、網(wǎng)民IP、網(wǎng)民ID、內(nèi)容URL等),對(duì)發(fā)布的內(nèi)容進(jìn)行匹配識(shí)別。
>各類業(yè)務(wù)規(guī)則由于各類業(yè)務(wù)數(shù)據(jù)的特征形式不一樣,所以針對(duì)各類業(yè)務(wù)數(shù)據(jù), 可以采取不同的智能識(shí)別方法。包括半自動(dòng)的數(shù)碼柔性識(shí)別、基于模式的域名和email識(shí)別、豎排文字識(shí)別、關(guān)鍵詞結(jié)合統(tǒng)計(jì)模型架構(gòu)等等。如圖1所示,本發(fā)明所提供的不良信息過濾系統(tǒng)包括用戶數(shù)據(jù)提交模塊、用戶服務(wù)管理系統(tǒng)、用戶交互信息審核平臺(tái)、凈化服務(wù)運(yùn)營平臺(tái)、針對(duì)各種情況的標(biāo)引引擎及相應(yīng)的知識(shí)庫等。其中用戶數(shù)據(jù)提交模塊將互動(dòng)文本信息和用戶身份信息提交給用戶服務(wù)管理系統(tǒng),用戶服務(wù)管理系統(tǒng)以UID-xml的方式將相關(guān)的數(shù)據(jù)傳送給凈化服務(wù)運(yùn)營平臺(tái)。凈化服務(wù)運(yùn)營平臺(tái)是本不良信息過濾系統(tǒng)的核心。它連接各個(gè)標(biāo)引引擎,從中獲取反映知識(shí) /規(guī)則的信息,同時(shí)也向雜質(zhì)特征庫、非雜質(zhì)特征庫和個(gè)性雜質(zhì)特征庫反饋關(guān)于知識(shí)/規(guī)則的信息。用戶交互信息審核平臺(tái)包括List (發(fā)布)數(shù)據(jù)模塊、反饋數(shù)據(jù)模塊和系統(tǒng)效果統(tǒng)計(jì)模塊。其中,List(發(fā)布)數(shù)據(jù)模塊接收來自凈化服務(wù)運(yùn)營平臺(tái)的數(shù)據(jù),如果是正常標(biāo)記, 則作為正常貼對(duì)外發(fā)布;如果是錯(cuò)誤標(biāo)記,則送入反饋數(shù)據(jù)模塊作為訓(xùn)練語料使用,并反饋給凈化服務(wù)運(yùn)營平臺(tái)。凈化服務(wù)運(yùn)營平臺(tái)同時(shí)將效果統(tǒng)計(jì)分析結(jié)果傳送給系統(tǒng)效果統(tǒng)計(jì)模塊。本不良信息過濾系統(tǒng)中使用的標(biāo)引引擎包括廣告標(biāo)引引擎組、水貼標(biāo)引引擎組、 個(gè)性化特征標(biāo)引引擎組、行為特征標(biāo)引引擎組、色情標(biāo)引引擎組、低俗標(biāo)引引擎組、敏感信息標(biāo)引引擎組等,分別針對(duì)商業(yè)廣告類、色情、低俗、灌水、客戶個(gè)性類等多種情況。根據(jù)網(wǎng)絡(luò)社區(qū)的實(shí)際需要,上述的引擎組還可以不斷進(jìn)行擴(kuò)展。上述的各標(biāo)引引擎連接知識(shí)庫,從中獲取用于過濾不良信息的知識(shí)/規(guī)則。這些數(shù)據(jù)庫包括關(guān)鍵詞詞庫(邏輯特征庫)、行為模式庫、規(guī)則庫、實(shí)例庫(剛性庫)和訓(xùn)練特征庫等?;谏鲜龅臉?biāo)引引擎和知識(shí)庫,本不良信息過濾系統(tǒng)將多個(gè)維度的規(guī)則統(tǒng)一在一起,根據(jù)客戶的需求為客戶提供不同的組合服務(wù)。這樣,通過多個(gè)規(guī)則的識(shí)別,增加了對(duì)數(shù)據(jù)的識(shí)別效果,解決了單個(gè)規(guī)則效果較低的缺陷。本不良信息過濾系統(tǒng)中包括如下的四類功能接口 一.標(biāo)引接口接收并解析客戶請(qǐng)求數(shù)據(jù)后,凈化服務(wù)運(yùn)營平臺(tái)讀取客戶設(shè)置的過濾規(guī)則以及客戶個(gè)性化設(shè)置內(nèi)容,并調(diào)用對(duì)應(yīng)的過濾算法(與核心算法服務(wù)對(duì)接,支持各項(xiàng)規(guī)則、過濾機(jī)制),得出是否垃圾帖的判斷結(jié)果,并將結(jié)果返回給客戶。二.反饋接口客戶編輯對(duì)本系統(tǒng)漏刪數(shù)據(jù)進(jìn)行“刪除”操作,或?qū)Ρ鞠到y(tǒng)誤刪數(shù)據(jù)進(jìn)行“恢復(fù)”操作后,客戶系統(tǒng)將這些數(shù)據(jù)通過本接口傳輸?shù)椒?wù)器端,并保存入庫。這些數(shù)據(jù)將成為剛性庫數(shù)據(jù),對(duì)后續(xù)的數(shù)據(jù)直接生效。三.設(shè)置接口接收客戶設(shè)置的各項(xiàng)配置數(shù)據(jù)(客戶可設(shè)置個(gè)性化的黑白名單,包括關(guān)鍵詞、 IP、ID、圖片鏈接地址),保存入庫并實(shí)時(shí)生效。四.通知接口本不良信息過濾系統(tǒng)在新增最新過濾詞、加入最新規(guī)則時(shí),將對(duì)保留在系統(tǒng)中的歷史正常數(shù)據(jù)(默認(rèn)保留本月及上月的數(shù)據(jù))再次進(jìn)行一次標(biāo)引,并將此次標(biāo)引結(jié)果為“垃圾”的數(shù)據(jù)進(jìn)行保存,客戶端可以定時(shí)通過“通知接口”訪問獲取此類數(shù)據(jù),并將這些數(shù)據(jù)進(jìn)行刪除。本不良信息過濾系統(tǒng)處理各種不良信息的過程如圖2所示,首先接收網(wǎng)絡(luò)社區(qū)發(fā)布的各種消息,然后調(diào)用知識(shí)庫中的實(shí)例庫(剛性庫)進(jìn)行過濾,判斷是否為不良信息。接著,使用客戶個(gè)性化“黑白名單”進(jìn)行過濾,即通過關(guān)鍵詞、關(guān)鍵詞組合、URL、IP地址、用戶 ID等進(jìn)行過濾。如果不在客戶個(gè)性化“黑白名單”的過濾范圍之中,則進(jìn)一步進(jìn)行普通行為模式識(shí)別和特征行為模式識(shí)別。在上述判斷手段使用完畢之后,進(jìn)一步調(diào)用各種業(yè)務(wù)規(guī)則 (如廣告、低俗等)進(jìn)行過濾,從而得到最終的過濾結(jié)果,保存入庫,然后返回標(biāo)引結(jié)果給客戶端。在本不良信息過濾系統(tǒng)中應(yīng)用了一類新技術(shù)將語義識(shí)別與行為分析結(jié)合,稱為特征行為分析(也稱特征行為模式識(shí)別)。特征行為分析是指對(duì)網(wǎng)絡(luò)社區(qū)發(fā)布的信息內(nèi)容進(jìn)行整體分析,通過語義識(shí)別提取出其中所有的特征聯(lián)系信息,對(duì)這些信息在一定時(shí)間段內(nèi)的出現(xiàn)頻率進(jìn)行計(jì)算,并與預(yù)設(shè)的閥值進(jìn)行比較。當(dāng)超出閥值時(shí),認(rèn)為是不良信息。在本發(fā)明中,特征行為分析的作用主要是來識(shí)別商業(yè)廣告帖。具體的技術(shù)說明如下由于很多互聯(lián)網(wǎng)社區(qū)中允許發(fā)布一些個(gè)人或組織的聯(lián)系方式(如QQ號(hào)、聯(lián)系電話等),以增加用戶的互動(dòng)性,但又不允許那些帶有廣告性質(zhì)的帖子發(fā)布,因此該帖子是否是垃圾貼,其判斷標(biāo)準(zhǔn)不能固定,而帶有較強(qiáng)的主觀性。如果僅僅采用語義識(shí)別的業(yè)務(wù)規(guī)則 (如帶聯(lián)系方式的均刪除)進(jìn)行判斷,勢(shì)必誤刪很多帖子。通過對(duì)大量社區(qū)中發(fā)布的信息(主要指帶聯(lián)系方式的信息,包括正常信息、不良信息)進(jìn)行分析,發(fā)現(xiàn)存在一定的規(guī)律。即正常信息一般只會(huì)在一個(gè)或幾個(gè)版塊中發(fā)布少數(shù)幾次。而不良信息則會(huì)持續(xù)地在多個(gè)版塊高頻率地發(fā)布,而且所包含的聯(lián)系方式通常是一樣的。在此情況下,可以設(shè)定同一信息發(fā)布的板塊數(shù)量閾值和單位時(shí)間出現(xiàn)頻率閾值,當(dāng)超過預(yù)設(shè)的閾值時(shí),認(rèn)定該信息為商業(yè)廣告性質(zhì)的不良信息。因此,通過將語義識(shí)別與行為分析結(jié)合,能很好的解決商業(yè)廣告判斷標(biāo)準(zhǔn)不能固定的問題。另外,本不良信息過濾系統(tǒng)針對(duì)垃圾帖采用了關(guān)鍵詞結(jié)合統(tǒng)計(jì)模型架構(gòu)的技術(shù)方案。具體說明如下目前,基于有指導(dǎo)學(xué)習(xí)的統(tǒng)計(jì)模型已經(jīng)被廣泛應(yīng)用于文本分類、圖像分類等各個(gè)領(lǐng)域?;谟兄笇?dǎo)學(xué)習(xí)的統(tǒng)計(jì)模型指的是圖3所示的一種框架由人工的方式收集或是標(biāo)注出若干類別的數(shù)據(jù),通過統(tǒng)計(jì)模型的學(xué)習(xí)算法,最終得到一個(gè)能夠識(shí)別該若干類別的模型。常用的統(tǒng)計(jì)模型包括SVM(支持向量機(jī))、最大熵模型、Logistic回歸模型、樸素貝葉斯模型等。這些模型的更多信息可參考Mitchell,T.M.所著的《機(jī)器學(xué)習(xí)》(機(jī)械工業(yè)出版社2008年3月版,ISBN :9787111109938) —書,在此就不詳細(xì)贅述了。自動(dòng)識(shí)別垃圾貼可以認(rèn)為是自動(dòng)文本分類的一個(gè)特例。而自動(dòng)文本分類通常使用上面給出的基于統(tǒng)計(jì)模型的框架。這是因?yàn)榻?jīng)過四十多年的發(fā)展,很多研究者發(fā)表論文宣稱使用基于有指導(dǎo)學(xué)習(xí)統(tǒng)計(jì)模型的自動(dòng)文本分類可以得到最好的預(yù)測(cè)結(jié)果。以自動(dòng)識(shí)別垃圾貼為例,使用基于有指導(dǎo)學(xué)習(xí)統(tǒng)計(jì)模型的流程可參見圖4,即首先收集大量是垃圾貼以及非垃圾貼的評(píng)論,然后將評(píng)論文本轉(zhuǎn)換為向量空間模型,通過統(tǒng)計(jì)模型的學(xué)習(xí)算法,最終得到相應(yīng)的預(yù)測(cè)結(jié)果。所謂的向量空間模型(Vector Space Model)是一種非常常用的文本建模方式。 其主要思想是將不同的詞視作不同的維度。對(duì)于一篇特定的文檔,每個(gè)維度的權(quán)重通常采用TFXIDF的方式來計(jì)算。其中TF指的是文檔中該詞的出現(xiàn)次數(shù),IDF指的是該詞的逆文
獻(xiàn)率,通常使用如下公式計(jì)算沖&^一雜‘,公式中的N指的是所有文檔的數(shù)量,DFrad
指的是該詞出現(xiàn)在不同文檔的數(shù)量。該計(jì)算方法可以在Ricardo Baeza-Yates等著的教科書《現(xiàn)代信息檢索》(機(jī)械工業(yè)出版社2005年4月版,ISBN :7-111-15878-4)中找到更多的解釋。在本發(fā)明中,發(fā)明人進(jìn)一步提出了一種關(guān)鍵詞結(jié)合統(tǒng)計(jì)模型系統(tǒng)框架來解決垃圾貼自動(dòng)分類的技術(shù)方案。所謂的關(guān)鍵詞指的是人工總結(jié)的、用以過濾并區(qū)分垃圾貼和正常貼的詞語集合。 例如在時(shí)政類的垃圾貼中,“法輪功”就是一個(gè)關(guān)鍵詞。對(duì)于一條帖子,如果命中該關(guān)鍵詞, 那么該帖子會(huì)被直接歸類為垃圾貼,或者是經(jīng)由人工審核之后歸到相應(yīng)類別。目前,很多網(wǎng)站、論壇使用基于關(guān)鍵詞的方式來篩選評(píng)論或博客正文,然后使用人工審核的方式確定該評(píng)論或博客正文是否屬于該刪除的文本。然而,使用該方式會(huì)得到大量不需要?jiǎng)h除的文本。例如,使用國家領(lǐng)導(dǎo)人的名字作為關(guān)鍵詞就會(huì)得到大量不需要?jiǎng)h除的文本。因此,單純使用關(guān)鍵詞仍然需要耗費(fèi)大量的人工。單純使用統(tǒng)計(jì)模型則存在如下幾個(gè)問題1)不能實(shí)時(shí)響應(yīng)即時(shí)變化的需求。因?yàn)榻y(tǒng)計(jì)模型需要整理收集一定數(shù)量的有標(biāo)簽數(shù)據(jù),因此對(duì)于一個(gè)新的刪除要求需要一段時(shí)間來收集數(shù)據(jù)并訓(xùn)練新的模型。例如,論壇中出現(xiàn)了對(duì)于發(fā)票、槍支等非法物品的廣告貼,假定已有的系統(tǒng)不能夠識(shí)別出這些廣告貼。 如果通過統(tǒng)計(jì)的方式來處理,則需要收集這些廣告貼并打上相應(yīng)的標(biāo)簽。然后構(gòu)建模型并發(fā)布出去。因此,單純使用基于有指導(dǎo)學(xué)習(xí)統(tǒng)計(jì)模型的方式不能夠滿足較短時(shí)間內(nèi)(例如 1分鐘之內(nèi))就要控制發(fā)帖內(nèi)容的需求。2)速度較慢。由于算法的需要,基于統(tǒng)計(jì)的方式比基于關(guān)鍵詞的方式速度上相差幾十倍至上百倍。因此,在很大的數(shù)據(jù)吞吐量的前提下(幾十兆比特每秒),基于統(tǒng)計(jì)的方式難以應(yīng)付實(shí)際需求,或者代價(jià)很大(需要分布式的計(jì)算平臺(tái)或別的解決方案)。如圖5所示,在本發(fā)明中假定已經(jīng)存在人工整理收集的關(guān)鍵詞和統(tǒng)計(jì)模型。對(duì)于一條文本,操作的流程按如下方式進(jìn)行1.對(duì)文本進(jìn)行關(guān)鍵詞匹配。假如沒有命中關(guān)鍵詞,則將預(yù)測(cè)結(jié)果設(shè)為“不需要?jiǎng)h除”。并略過2 5步。假如命中關(guān)鍵詞,則轉(zhuǎn)入第2步。2.將文本按照前面介紹的方式轉(zhuǎn)換成向量空間模型。3.對(duì)該向量進(jìn)行預(yù)測(cè),預(yù)測(cè)的結(jié)果為一個(gè)確信度(不同的統(tǒng)計(jì)模型會(huì)得到不一樣的確信度區(qū)間,但任何一個(gè)模型都能得到一個(gè)確信度的值)。4.對(duì)于不同的消息,根據(jù)確信度和預(yù)設(shè)的閾值將其預(yù)測(cè)為“需要?jiǎng)h除”、“疑似需要?jiǎng)h除”、“不需要?jiǎng)h除”這三類。例如,時(shí)政類需要?jiǎng)h除的尺度往往比較寬泛,因此,判為“需要?jiǎng)h除”的閾值就設(shè)定的較低。而“粗口”類別刪除的尺度比較窄,那么將其判為“需要?jiǎng)h除”的閾值就可以設(shè)定的較高。5.人工審核上一步得到的“疑似需要?jiǎng)h除”這一類別。
具體例子可見下表
權(quán)利要求
1.一種面向互聯(lián)網(wǎng)的不良信息過濾系統(tǒng),其特征在于所述不良信息過濾系統(tǒng)包括用戶數(shù)據(jù)提交模塊、用戶服務(wù)管理系統(tǒng)、用戶交互信息審核平臺(tái)、凈化服務(wù)運(yùn)營平臺(tái)、知識(shí)庫及至少一個(gè)標(biāo)引引擎;其中,所述用戶數(shù)據(jù)提交模塊與所述用戶服務(wù)管理系統(tǒng)連接,所述用戶服務(wù)管理系統(tǒng)連接所述凈化服務(wù)運(yùn)營平臺(tái);所述凈化服務(wù)運(yùn)營平臺(tái)分別與所述用戶交互信息審核平臺(tái)和各標(biāo)引引擎進(jìn)行連接; 所述標(biāo)弓I弓I擎與所述知識(shí)庫進(jìn)行連接。
2.如權(quán)利要求1所述的不良信息過濾系統(tǒng),其特征在于所述標(biāo)引引擎包括廣告標(biāo)引引擎組、水貼標(biāo)引引擎組、個(gè)性化特征標(biāo)引引擎組、行為特征標(biāo)引引擎組、色情標(biāo)引引擎組、低俗標(biāo)引引擎組、敏感信息標(biāo)引引擎組中的一個(gè)或多個(gè)。
3.如權(quán)利要求1所述的不良信息過濾系統(tǒng),其特征在于所述知識(shí)庫包括關(guān)鍵詞詞庫、行為模式庫、規(guī)則庫、實(shí)例庫和訓(xùn)練特征庫中的一個(gè)或多個(gè)。
4.如權(quán)利要求1所述的不良信息過濾系統(tǒng),其特征在于所述不良信息過濾系統(tǒng)中還包括雜質(zhì)特征庫、非雜質(zhì)特征庫和個(gè)性雜質(zhì)特征庫;所述雜質(zhì)特征庫、非雜質(zhì)特征庫和個(gè)性雜質(zhì)特征庫一方面連接所述知識(shí)庫,另一方面與所述凈化服務(wù)運(yùn)營平臺(tái)進(jìn)行連接。
5.如權(quán)利要求1所述的不良信息過濾系統(tǒng),其特征在于所述用戶交互信息審核平臺(tái)包括發(fā)布數(shù)據(jù)模塊、反饋數(shù)據(jù)模塊和系統(tǒng)效果統(tǒng)計(jì)模塊; 其中,所述發(fā)布數(shù)據(jù)模塊接收來自所述凈化服務(wù)運(yùn)營平臺(tái)的數(shù)據(jù),如果是正常標(biāo)記,則作為正常貼對(duì)外發(fā)布;如果是錯(cuò)誤標(biāo)記,則送入所述反饋數(shù)據(jù)模塊作為訓(xùn)練語料使用,并反饋給所述凈化服務(wù)運(yùn)營平臺(tái)。
6.一種面向互聯(lián)網(wǎng)的不良信息過濾方法,基于如權(quán)利要求1所述的不良信息過濾系統(tǒng)實(shí)現(xiàn),其特征在于包括如下的步驟(1)接收網(wǎng)絡(luò)社區(qū)發(fā)布的各種消息;(2)調(diào)用知識(shí)庫中的實(shí)例庫進(jìn)行過濾,判斷是否為不良信息;(3)如果不是,進(jìn)一步調(diào)用包括關(guān)鍵詞、關(guān)鍵詞組合、URL、IP地址、用戶ID在內(nèi)的客戶個(gè)性化“黑白名單”進(jìn)行過濾,判斷是否為不良信息;(4)如果不是,進(jìn)一步進(jìn)行普通行為模式識(shí)別;(5)如果不是,進(jìn)一步進(jìn)行特征行為模式識(shí)別;(6)如果不是,進(jìn)一步調(diào)用各種業(yè)務(wù)規(guī)則進(jìn)行過濾;(7)綜合步驟(2) (6)所獲得的過濾結(jié)果,得到最終的不良信息過濾結(jié)果,并保存入庫;(8)將最終的標(biāo)引結(jié)果返回給客戶端。
7.如權(quán)利要求6所述的不良信息過濾方法,其特征在于在不良信息過濾過程中,首先對(duì)消息文本進(jìn)行關(guān)鍵詞匹配;假如沒有命中關(guān)鍵詞,則將預(yù)測(cè)結(jié)果設(shè)為“不需要?jiǎng)h除”,假如命中關(guān)鍵詞,則將文本轉(zhuǎn)換成向量空間模型,對(duì)該向量進(jìn)行預(yù)測(cè),預(yù)測(cè)的結(jié)果為一個(gè)確信度;對(duì)于不同的消息,根據(jù)確信度和預(yù)設(shè)的閾值將其預(yù)測(cè)為 “需要?jiǎng)h除”、“疑似需要?jiǎng)h除”、“不需要?jiǎng)h除”這三類,其中對(duì)于“疑似需要?jiǎng)h除”這一類別的消息,引入人工進(jìn)行進(jìn)一步審核。
8.如權(quán)利要求6所述的不良信息過濾方法,其特征在于所述步驟(5)中,所述特征行為模式識(shí)別是指對(duì)網(wǎng)絡(luò)社區(qū)發(fā)布的信息內(nèi)容進(jìn)行整體分析,通過語義識(shí)別提取出其中所有的特征聯(lián)系信息,對(duì)所述特征聯(lián)系信息在一定時(shí)間段內(nèi)的出現(xiàn)頻率進(jìn)行計(jì)算,并與預(yù)設(shè)的閥值進(jìn)行比較,當(dāng)超出所述閥值時(shí),認(rèn)為是不良信息。
全文摘要
本發(fā)明公開了一種面向互聯(lián)網(wǎng)的不良信息過濾系統(tǒng)及其過濾方法。該不良信息過濾系統(tǒng)包括用戶數(shù)據(jù)提交模塊、用戶服務(wù)管理系統(tǒng)、用戶交互信息審核平臺(tái)、凈化服務(wù)運(yùn)營平臺(tái)、知識(shí)庫及至少一個(gè)標(biāo)引引擎;其中,用戶數(shù)據(jù)提交模塊與用戶服務(wù)管理系統(tǒng)連接,用戶服務(wù)管理系統(tǒng)連接凈化服務(wù)運(yùn)營平臺(tái);凈化服務(wù)運(yùn)營平臺(tái)分別與用戶交互信息審核平臺(tái)和各標(biāo)引引擎進(jìn)行連接;標(biāo)引引擎與知識(shí)庫進(jìn)行連接。本發(fā)明運(yùn)用多項(xiàng)智能技術(shù)分詞、關(guān)鍵詞匹配、向量模型,以及多個(gè)高性能的處理算法對(duì)數(shù)據(jù)進(jìn)行處理,可以為互聯(lián)網(wǎng)社區(qū)提供敏感、色情、低俗、灌水及商業(yè)廣告等信息的標(biāo)引服務(wù),從而向客戶提供了高效率的信息管理手段。
文檔編號(hào)H04L12/24GK102208992SQ201010200588
公開日2011年10月5日 申請(qǐng)日期2010年6月13日 優(yōu)先權(quán)日2010年6月13日
發(fā)明者宋傳寶, 曹浩, 羅侃, 陶鵬 申請(qǐng)人:天津海量信息技術(shù)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
垫江县| 吴旗县| 祥云县| 洞头县| 化隆| 同仁县| 大埔县| 昌邑市| 南平市| 鹤壁市| 会昌县| 靖远县| 台中市| 凤台县| 宁武县| 芜湖县| 新竹县| 东源县| 安义县| 万全县| 桐柏县| 鹿泉市| 江阴市| 大姚县| 长垣县| 梅州市| 仪陇县| 金华市| 三亚市| 沽源县| 眉山市| 柯坪县| 岳阳市| 浦县| 贵州省| 庆城县| 寻甸| 张家口市| 克东县| 永安市| 聊城市|