一種新聞內(nèi)容敏感詞過濾方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供一種新聞內(nèi)容敏感詞過濾方法及系統(tǒng),所述方法包括:S1、對獲取的新聞文本進(jìn)行預(yù)處理;S2、根據(jù)預(yù)先構(gòu)建的敏感詞庫,使用敏感詞多級過濾算法根據(jù)敏感詞的優(yōu)先級對所述新聞文本進(jìn)行敏感詞過濾;S3、當(dāng)過濾到所述新聞文本中存在預(yù)設(shè)的敏感詞時(shí),通過基于馬爾可夫邏輯網(wǎng)的情感分析模型,對過濾到的敏感詞進(jìn)行判定;S4、當(dāng)判定為過濾到的敏感詞為不良敏感詞時(shí),將所述新聞文本標(biāo)記為負(fù)面新聞,否則標(biāo)記文正面新聞。本發(fā)明通過建立馬爾可夫邏輯網(wǎng)的情感分析模型對過濾的敏感詞進(jìn)行二次判定,以確定過濾到的敏感詞是否具有負(fù)面信息,從而在過濾負(fù)面新聞的同時(shí),不會將打擊負(fù)面信息的正面新聞過濾掉,提高了新聞內(nèi)容敏感詞過濾的可靠性。
【專利說明】
一種新聞內(nèi)容敏感詞過濾方法及系統(tǒng)
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種基于馬爾可夫邏輯網(wǎng)的情感分析的 新聞內(nèi)容敏感詞過濾方法及系統(tǒng)。
【背景技術(shù)】
[0002] 新聞內(nèi)容敏感詞過濾安全管控涉及語言學(xué)、計(jì)算機(jī)科學(xué)、認(rèn)知科學(xué)、數(shù)學(xué)等多學(xué)科 交叉的科學(xué)。新聞內(nèi)容安全管控針對單篇新聞內(nèi)容進(jìn)行管控,提供詞級別的粗粒度的內(nèi)容 過濾。在語義數(shù)據(jù)處理技術(shù)與自然語言處理技術(shù)的基礎(chǔ)上,目的是應(yīng)對新聞輿情的快速反 應(yīng),做到實(shí)時(shí)收集、迅速處理分析輿情信息、撲捉熱點(diǎn),掌握輿論方向,預(yù)測危機(jī)等級,進(jìn)而 輔助管控平臺的管理者和決策者第一時(shí)間作出反饋。
[0003] 目前,新聞內(nèi)容安全管控首先基于關(guān)鍵詞匹配的過濾方法進(jìn)行管控,其原理是:首 先準(zhǔn)備一個關(guān)鍵詞庫,庫中記錄預(yù)選出的一些關(guān)鍵詞。當(dāng)對一個新聞內(nèi)容進(jìn)行判斷時(shí),將這 個新聞內(nèi)容與關(guān)鍵詞庫中的詞逐一進(jìn)行匹配,如果存在著一個或多個關(guān)鍵詞能夠與新聞內(nèi) 容中的文本內(nèi)容匹配上,即有關(guān)鍵詞在文本中出現(xiàn),則判斷這個網(wǎng)頁是否屬于需要管控的 信息,如果是,則對這個新聞內(nèi)容進(jìn)行過濾;否則,則說明這一網(wǎng)頁不是需要過濾的目標(biāo)。
[0004] 基于關(guān)鍵詞匹配方法的優(yōu)點(diǎn)是:算法準(zhǔn)確率高,效率高,運(yùn)行速度快。它的缺點(diǎn)在 于僅依靠簡單詞語的匹配是無法理解新聞文本的語義信息,不能深入把握新聞的內(nèi)涵,因 此很難對新聞的內(nèi)容做出準(zhǔn)確的判斷。包含某一類的詞只能說明文本的內(nèi)容可能會與某一 方面或者某幾個方面有關(guān),但不能反映出文本內(nèi)容真正的含義及其內(nèi)容中的立場和感情色 彩。例如:同樣是"淫穢"一詞,它既可能出現(xiàn)在正面的打擊色情的新聞中,也可能出現(xiàn)在一 些色情新聞內(nèi)容之中,而這兩種新聞在性質(zhì)上是完全不同的。因此,如果簡單的使用關(guān)鍵 詞過濾,很可能錯將很多正面的新聞"冤殺"下去。所以,關(guān)鍵詞過濾不能提供對極端詞的點(diǎn) 到點(diǎn)的精確過濾。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的目的在于克服上述技術(shù)的不足,提供一種基于馬爾可夫邏輯網(wǎng)的情感分 析的新聞內(nèi)容敏感詞過濾方法及系統(tǒng),通過建立馬爾可夫邏輯網(wǎng)的情感分析模型對過濾的 敏感詞進(jìn)行二次判定,以確定過濾到的敏感詞是否具有負(fù)面信息,從而在過濾負(fù)面新聞的 同時(shí),不會將打擊負(fù)面信息的正面新聞過濾掉,提高了新聞內(nèi)容敏感詞過濾的可靠性。
[0006] 基于上述目的,本發(fā)明提供一種新聞內(nèi)容敏感詞過濾方法,其特征在于,所述方法 包括:
[0007] S1、對獲取的新聞文本進(jìn)行預(yù)處理;
[0008] S2、根據(jù)預(yù)先構(gòu)建的敏感詞庫,使用敏感詞多級過濾算法根據(jù)敏感詞的優(yōu)先級對 所述新聞文本進(jìn)行敏感詞過濾;
[0009] S3、當(dāng)過濾到所述新聞文本中存在預(yù)設(shè)的敏感詞時(shí),通過基于馬爾可夫邏輯網(wǎng)的 情感分析模型,對過濾到的敏感詞進(jìn)行判定;
[0010] S4、當(dāng)判定為過濾到的敏感詞為不良敏感詞時(shí),將所述新聞文本標(biāo)記為負(fù)面新聞, 否則標(biāo)記文正面新聞。
[0011] 其中,所述步驟S1中,對所述新聞文本進(jìn)行預(yù)處理具體包括:
[0012] 去除所述新聞文本中的特征字符、繁體字轉(zhuǎn)換成簡體字、停用詞過濾和分詞。
[0013] 其中,所述步驟S1之前還包括:構(gòu)建敏感詞庫,所述敏感詞庫包括第一類敏感詞和 第二類敏感詞,并且所述敏感詞庫中的敏感詞分為三個等級:
[0014] -級敏感詞設(shè)定為具有一級關(guān)鍵詞,即一級敏感詞包括第一類一級和第二類一 級;
[0015] 二級類敏感詞設(shè)定為具有二級關(guān)鍵詞,即二級敏感詞包括第一類二級和第二類二 級;
[0016] 三級敏感詞設(shè)定為具有三級關(guān)鍵詞,即三級敏感詞包括第一類三級和第二類三 級。
[0017] 其中,所述步驟S2中,對敏感詞的優(yōu)先級設(shè)定具體為:
[0018] 第一類一級,第二類一級〉第一類二級,第二類二級〉第一類三級,第二類三級。 [0019] 其中,所述敏感詞多級過濾算法為Wu-Manber算法。
[0020] 其中,所述步驟S3具體包括:
[0021] S31、提取所述新聞文本的特征向量,所述特征向量包括標(biāo)題、正文長度、代表性詞 語;
[0022] S32、使用預(yù)設(shè)的具有人工標(biāo)注的新聞文本為訓(xùn)練集,訓(xùn)練得到基于馬爾可夫邏輯 網(wǎng)的情感分析模型;
[0023] S33、根據(jù)所述基于馬爾可夫邏輯網(wǎng)的情感分析模型,對所述新聞文本進(jìn)行敏感詞 判斷。
[0024] 其中,所述馬爾可夫邏輯網(wǎng)的情感分析模型,具體為:
[0026]其中Y是類別標(biāo)簽,當(dāng)Y=1時(shí)表示該新聞傳播不良信息,為負(fù)面新聞,當(dāng)Y = 0時(shí)表 示是正面新聞,X是特征向量,表示敏感詞的級別,x為在某一個級別中的一個敏感詞,a為權(quán) 重,0為偏置項(xiàng),P(Y=1 |X = xw)表示當(dāng)特征向量X = xw時(shí),新聞傳播不良信息的概率,其中,a 和0通過如下目標(biāo)函數(shù)求解:
[0028] 其中,W表示總的不良信息分類的集合,w表示集合中的某一個元素或一個子集合, y表示對應(yīng)于w是不良信息還是正面信息的取值;0(a,P)表示計(jì)算a和0目標(biāo)函數(shù)。
[0029] 根據(jù)本發(fā)明的另一個方面,提供一種新聞內(nèi)容敏感詞過濾系統(tǒng),其特征在于,所述 系統(tǒng)包括:
[0030] 獲取模塊,用于獲取待過濾的新聞文本;
[0031] 預(yù)處理模塊,用于對獲取的新聞文本進(jìn)行預(yù)處理;
[0032] 過濾模塊,用于根據(jù)預(yù)先構(gòu)建的敏感詞庫,使用敏感詞多級過濾算法根據(jù)敏感詞 的優(yōu)先級對所述新聞文本進(jìn)行敏感詞過濾;
[0033] 敏感詞判斷模塊,用于當(dāng)過濾到所述新聞文本中存在預(yù)設(shè)的敏感詞時(shí),通過基于 馬爾可夫邏輯網(wǎng)的情感分析模型,對過濾到的敏感詞進(jìn)行判定;
[0034] 新聞標(biāo)記模塊,用于當(dāng)判定為過濾到的敏感詞為不良敏感詞時(shí),將所述新聞文本 標(biāo)記為負(fù)面新聞,否則標(biāo)記文正面新聞。
[0035] 其中,所述敏感詞判斷模塊具體包括:
[0036] 特征提取單元,用于提取所述新聞文本的特征向量,所述特征向量包括標(biāo)題、正文 長度、代表性詞語;
[0037] 模型建立單元,用于使用預(yù)設(shè)的具有人工標(biāo)注的新聞文本為訓(xùn)練集,訓(xùn)練得到基 于馬爾可夫邏輯網(wǎng)的情感分析模型;
[0038] 敏感詞判斷單元,用于根據(jù)所述基于馬爾可夫邏輯網(wǎng)的情感分析模型,對所述新 聞文本進(jìn)行敏感詞判斷。
[0039] 其中,所述馬爾可夫邏輯網(wǎng)的情感分析模型,具體為:
[0041]其中Y是類別標(biāo)簽,當(dāng)Y=1時(shí)表示該新聞傳播不良信息,為負(fù)面新聞,當(dāng)Y = 0時(shí)表 示是正面新聞,X是特征向量,a為權(quán)重,0為偏置項(xiàng),P (Y = 11X = xw)表示當(dāng)特征向量X = xw時(shí), 新聞傳播不良信息的概率,其中,a和0通過如下目標(biāo)函數(shù)求解:
[0043] 其中,W表示總的不良信息分類的集合,w表示集合中的某一個元素或一個子集合, y表示對應(yīng)于w是不良信息還是正面信息的取值;0(a,P)表示計(jì)算a和0目標(biāo)函數(shù)。
[0044] 本發(fā)明的新聞敏感詞過濾方法及系統(tǒng),通過建立馬爾可夫邏輯網(wǎng)的情感分析模型 對過濾的敏感詞進(jìn)行二次判定,以確定過濾到的敏感詞是否具有負(fù)面信息,從而在過濾負(fù) 面新聞的同時(shí),不會將打擊負(fù)面信息的正面新聞過濾掉,提高了新聞敏感詞過濾的正確性, 減少新聞敏感詞的過濾的漏檢與錯檢測;并大大地減少大量的人力、物力與財(cái)力,準(zhǔn)確率 高,效率高,運(yùn)行速度快。
【附圖說明】
[0045] 圖1示出了本發(fā)明的新聞內(nèi)容敏感詞過濾方法的流程圖。
[0046] 圖2示出了本發(fā)明的新聞內(nèi)容敏感詞過濾系統(tǒng)的結(jié)構(gòu)框圖。
【具體實(shí)施方式】
[0047] 下面將結(jié)合附圖對本發(fā)明的實(shí)施例進(jìn)行詳細(xì)描述。
[0048] 本發(fā)明的實(shí)施例中,敏感詞是指新聞內(nèi)容中要求禁止或需要控制的詞語,這些詞 語常常是用來傳播不良信息,這類信息常常會給社會帶來極其不利的影響,但同時(shí)新聞也 可能是打擊這些負(fù)面信息的正面新聞,因此需要對新聞的情感傾向進(jìn)行進(jìn)一步的分析,從 而確定是否要對這類信息進(jìn)行禁止或加強(qiáng)管控。
[0049] 本發(fā)明的新聞內(nèi)容敏感詞過濾方法,在進(jìn)行新聞內(nèi)容敏感詞過濾之前,首先建立 敏感詞庫,然后根據(jù)敏感詞庫中的敏感詞進(jìn)行過濾。
[0050] 在本實(shí)施例中,構(gòu)建的敏感詞庫可以由管理員維護(hù),隨著需求不斷更新與增加。
[0051] 敏感詞庫的敏感詞主要分為兩類:第一類和第二類。其中,第一類敏感詞這類信息 所傳播的新聞內(nèi)容可能會直接關(guān)乎社會和國家的穩(wěn)定、人民的生命安全,對這類信息的及 時(shí)過濾和管控可以發(fā)現(xiàn)并預(yù)防某些暴力恐怖事件的發(fā)生,因此這類信息的優(yōu)先級更高。
[0052] 第二類敏感詞對于社會的穩(wěn)定也會造成不良的影響,雖然這種影響不會對人民的 生命財(cái)產(chǎn)安全帶來特別直接的、規(guī)模較大的危害,但若對此類信息管理不好,也會給人們的 正常工作生活帶來很大的影響,如相關(guān)疾病的傳播、社會生活不穩(wěn)定等等,因此,第一類和 第二類在同一級別上的信息都會給社會帶來極不利的影響。
[0053]根據(jù)敏感詞影響的不同,對敏感詞分為三個等級,按照等級順序匹配過濾,并在每 一敏感等級采取不同的管控方式。
[0054] 所述一級敏感詞,這類關(guān)鍵詞直接表述了對國家、社會和人民反對和破壞的思想 和意圖,為了保護(hù)社會、國家和人民的穩(wěn)定和安全,這類信息要提出嚴(yán)重警告,并直接給予 過濾,將信息置為不可讀。
[0055] 所述二級敏感詞,所包含的信息為與社會和人民的利益相違背的,但這類信息并 不意味著一定會帶來直接的社會動蕩和人民安危。需要進(jìn)一步調(diào)用馬爾可夫邏輯網(wǎng)的情感 分析的新聞內(nèi)容有監(jiān)督分類算法對新聞傾向進(jìn)行分類,若是負(fù)面傾向,則不做任何處理;若 是正面傾向,則對于這類信息系統(tǒng)給予提示預(yù)警,并標(biāo)記信息,供管理員審核和操作。
[0056] 所述三級敏感詞,這類關(guān)鍵詞具有共同的特點(diǎn),是關(guān)乎政治、軍事等的特殊詞語, 多為指代性的名詞,所表達(dá)的意思需要根據(jù)上下文進(jìn)行判斷,出現(xiàn)在一段文本中,并不意味 著是對社會和人民帶來危害的信息。因此對于這類信息,需要進(jìn)行標(biāo)記,供管理員根據(jù)上下 文查看文字所表達(dá)的意思是否會帶來不良的影響。
[0057] 本發(fā)明基于上述構(gòu)建的敏感詞庫,對新聞文本的內(nèi)容進(jìn)行敏感詞過濾。
[0058] 圖1示出了本發(fā)明的新聞內(nèi)容敏感詞過濾方法的流程圖。
[0059] 參照圖1,本發(fā)明的新聞內(nèi)容敏感詞過濾方法,具體包括:
[0060] S1、對獲取的新聞文本進(jìn)行預(yù)處理;
[0061] 本實(shí)施例中,對新聞文本的預(yù)處理包括除去特殊字符、繁體字轉(zhuǎn)換簡體字、停用詞 過濾、分詞等,具體處理過程如下:
[0062] 除去特殊字符:網(wǎng)絡(luò)文本所包含一些特殊字符,比如由傳輸中編碼問題引起等。后 續(xù)自然語言處理技術(shù)的噪音定義為殊字符可以看作,不能提供語法或語義的信息;并且增 加了處理的時(shí)間復(fù)雜度,而且大大降低分析的效果,甚至引起分析技術(shù)工具包的bug;因此 首先去除特殊符號。
[0063]繁體字轉(zhuǎn)換簡體字:根據(jù)繁體到簡體詞典與常用繁體字詞到簡體的映射。根據(jù)最 長匹配原則與采用二分trie樹的前綴查詢算法進(jìn)行替換。
[0064] 停用詞過濾:維護(hù)一個停用詞表,直接在分詞的基礎(chǔ)上進(jìn)行停用詞的去除。
[0065] 分詞:采用中科院ICTCLAS提供的API將一句話切分成多個單獨(dú)的詞進(jìn)行分詞操 作。
[0066] S2、根據(jù)預(yù)先構(gòu)建的敏感詞庫,使用敏感詞多級過濾算法根據(jù)敏感詞的優(yōu)先級對 所述新聞文本進(jìn)行敏感詞過濾;
[0067] 本發(fā)明的實(shí)施例中,運(yùn)用敏感詞多級過濾算法對于不同種類信息過濾或關(guān)注的優(yōu) 先級排序?yàn)?第一類一級,第二類一級〉第一類二級,第二類二級〉第一類三級,第二類三級。
[0068]由于敏感詞分為三個等級,為了提高系統(tǒng)對關(guān)鍵詞的過濾處理效率,將匹配分三 步進(jìn)行,按照一級、二級、三級的先后順序加載進(jìn)行掃描過濾。如果存在上一級的敏感詞,則 停止掃描;否則繼續(xù)。
[0069]本發(fā)明的敏感詞多級過濾算法采用了 Wu-Manber算法,將多級過濾思想與BM算法 相結(jié)合,使其運(yùn)用在多個模式串匹配中,具有較高的效率。
[0070] S3、當(dāng)過濾到所述新聞文本中存在預(yù)設(shè)的敏感詞時(shí),通過基于馬爾可夫邏輯網(wǎng)的 情感分析模型,對過濾到的敏感詞進(jìn)行判定;
[0071] 本實(shí)施例中,在過濾到敏感詞,尤其是第二級的敏感詞時(shí),并不能確定具有該敏感 詞的是傳播不良信息的不良新聞,還是打擊負(fù)面信息的正面新聞,因此,通過馬爾可夫邏輯 網(wǎng)的情感分析模型對新聞內(nèi)容的敏感詞進(jìn)行判定,其具體過程為:
[0072] 具體為:
[0073] S31、提取所述新聞文本的特征向量,所述特征向量包括標(biāo)題、正文長度、代表性詞 語(比如tf idf值高的詞語)等內(nèi)容。
[0074] S32、使用預(yù)設(shè)的具有人工標(biāo)注的新聞文本為訓(xùn)練集,訓(xùn)練得到基于馬爾可夫邏輯 網(wǎng)的情感分析模型;
[0075] S33、根據(jù)所述基于馬爾可夫邏輯網(wǎng)的情感分析模型,對所述新聞文本進(jìn)行敏感詞 判斷。
[0076] 上述過程中,馬爾可夫邏輯網(wǎng)的有監(jiān)督的情感分析分類模型定義如下:
[0078]其中Y是類別標(biāo)簽,當(dāng)Y=1時(shí)表示該新聞傳播不良信息,為負(fù)面新聞,當(dāng)Y = 0時(shí)表 示是正面新聞,X是特征向量,表示敏感詞的級別,x為在某一個級別中的一個敏感詞,a為權(quán) 重,0為偏置項(xiàng),P(Y=1 |X = xw)表示當(dāng)特征向量X = xw時(shí),新聞傳播不良信息的概率,其中,a 和0通過如下目標(biāo)函數(shù)求解:
[0080]其中,W表示總的不良信息分類的集合,w表示集合中的某一個元素或一個子集合, y表示對應(yīng)于w是不良信息還是正面信息的取值;0(a,P)表示計(jì)算a和0目標(biāo)函數(shù)。
[0081 ]在本發(fā)明的另一個實(shí)施例中,提供一種新聞內(nèi)容敏感詞過濾系統(tǒng),如圖2所示,該 系統(tǒng)包括:
[0082]獲取模塊10,用于獲取待過濾的新聞文本;
[0083]預(yù)處理模塊20,用于對獲取的新聞文本進(jìn)行預(yù)處理;
[0084] 過濾模塊30,用于根據(jù)預(yù)先構(gòu)建的敏感詞庫,使用敏感詞多級過濾算法根據(jù)敏感 詞的優(yōu)先級對所述新聞文本進(jìn)行敏感詞過濾;
[0085] 敏感詞判斷模塊40,用于當(dāng)過濾到所述新聞文本中存在預(yù)設(shè)的敏感詞時(shí),通過基 于馬爾可夫邏輯網(wǎng)的情感分析模型,對過濾到的敏感詞進(jìn)行判定;
[0086] 新聞標(biāo)記模塊50,用于當(dāng)判定為過濾到的敏感詞為不良敏感詞時(shí),將所述新聞文 本標(biāo)記為負(fù)面新聞,否則標(biāo)記文正面新聞。
[0087] 在上述系統(tǒng)中,所述敏感詞判斷模塊40具體包括:
[0088] 特征提取單元401,用于提取所述新聞文本的特征向量,所述特征向量包括標(biāo)題、 正文長度、代表性詞語;
[0089]模型建立單元402,用于使用預(yù)設(shè)的具有人工標(biāo)注的新聞文本為訓(xùn)練集,訓(xùn)練得到 基于馬爾可夫邏輯網(wǎng)的情感分析模型;
[0090] 敏感詞判斷單元403,用于根據(jù)所述基于馬爾可夫邏輯網(wǎng)的情感分析模型,對所述 新聞文本進(jìn)行敏感詞判斷。
[0091] 本發(fā)明的新聞敏感詞過濾方法及系統(tǒng),通過建立馬爾可夫邏輯網(wǎng)的情感分析模型 對過濾的敏感詞進(jìn)行二次判定,以確定過濾到的敏感詞是否具有負(fù)面信息,從而在過濾負(fù) 面新聞的同時(shí),不會將打擊負(fù)面信息的正面新聞過濾掉,提高了新聞敏感詞過濾的正確性, 減少新聞敏感詞的過濾的漏檢與錯檢測;并大大地減少大量的人力、物力與財(cái)力,準(zhǔn)確率 高,效率高,運(yùn)行速度快。
[0092] 本實(shí)施例為本發(fā)明的系統(tǒng)的實(shí)施例,由于與方法的實(shí)施例基本相似,所以描述的 比較簡單,相關(guān)之處請參見方法實(shí)施例部分的說明。
[0093] 雖然結(jié)合附圖描述了本發(fā)明的實(shí)施方式,但是本領(lǐng)域技術(shù)人員可以在不脫離本發(fā) 明的精神和范圍的情況下做出各種修改和變型,這樣的修改和變型均落入由所附權(quán)利要求 所限定的范圍之內(nèi)。
[0094] 本發(fā)明的說明書中,說明了大量具體細(xì)節(jié)。然而,能夠理解,本發(fā)明的實(shí)施例可以 在沒有這些具體細(xì)節(jié)的情況下實(shí)踐。在一些實(shí)例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu)和技 術(shù),以便不模糊對本說明書的理解。
[0095]類似地,應(yīng)當(dāng)理解,為了精簡本發(fā)明公開并幫助理解各個發(fā)明方面中的一個或多 個,在上面對本發(fā)明的示例性實(shí)施例的描述中,本發(fā)明的各個特征有時(shí)被一起分組到單個 實(shí)施例、圖、或者對其的描述中。然而,并不應(yīng)將該公開的方法解釋呈反映如下意圖:即所要 求保護(hù)的本發(fā)明要求比在每個權(quán)利要求中所明確記載的特征更多的特征。更確切地說,如 下面的權(quán)利要求書所反映的那樣,發(fā)明方面在于少于前面公開的單個實(shí)施例的所有特征。 因此,遵循【具體實(shí)施方式】的權(quán)利要求書由此明確地并入該【具體實(shí)施方式】,其中每個權(quán)利要 求本身都作為本發(fā)明的單獨(dú)實(shí)施例。
[0096]此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實(shí)施例包括其它實(shí)施例 中所包括的某些特征而不是其它特征,但是不同實(shí)施例的特征的組合意味著處于本發(fā)明 的范圍之內(nèi)并且形成不同的實(shí)施例。例如,在下面的權(quán)利要求書中,所要求保護(hù)的實(shí)施例的 任意之一都可以以任意的組合方式來使用。
[0097] 應(yīng)該注意的是上述實(shí)施例對本發(fā)明進(jìn)行說明而不是對本發(fā)明進(jìn)行限制,并且本領(lǐng) 域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計(jì)出替換實(shí)施例。在權(quán)利要求中, 不應(yīng)將位于括號之間的任何參考符號構(gòu)造成對權(quán)利要求的限制。單詞"包含"不排除存在未 列在權(quán)利要求中的元件或步驟。位于元件之前的單詞"一"或"一個"不排除存在多個這樣的 元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計(jì)算機(jī)來實(shí) 現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個可以是通過同一個硬件項(xiàng) 來具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序。可將這些單詞解釋為名 稱。
[0098]最后應(yīng)說明的是:以上各實(shí)施例僅用以說明本發(fā)明的技術(shù)方案,而非對其限制;盡 管參照前述各實(shí)施例對本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依 然可以對前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對其中部分或者全部技術(shù)特征進(jìn) 行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù) 方案的范圍,其均應(yīng)涵蓋在本發(fā)明的權(quán)利要求和說明書的范圍當(dāng)中。
【主權(quán)項(xiàng)】
1. 一種新聞內(nèi)容敏感詞過濾方法,其特征在于,所述方法包括: 51、 對獲取的新聞文本進(jìn)行預(yù)處理; 52、 根據(jù)預(yù)先構(gòu)建的敏感詞庫,使用敏感詞多級過濾算法根據(jù)敏感詞的優(yōu)先級對所述 新聞文本進(jìn)行敏感詞過濾; 53、 當(dāng)過濾到所述新聞文本中存在預(yù)設(shè)的敏感詞時(shí),通過基于馬爾可夫邏輯網(wǎng)的情感 分析模型,對過濾到的敏感詞進(jìn)行判定; 54、 當(dāng)判定為過濾到的敏感詞為不良敏感詞時(shí),將所述新聞文本標(biāo)記為負(fù)面新聞,否則 標(biāo)記文正面新聞。2. 根據(jù)權(quán)利要求1所述的過濾方法,其特征在于,所述步驟S1中,對所述新聞文本進(jìn)行 預(yù)處理具體包括: 去除所述新聞文本中的特征字符、繁體字轉(zhuǎn)換成簡體字、停用詞過濾和分詞。3. 根據(jù)權(quán)利要求1或2所述的過濾方法,其特征在于,所述步驟S1之前還包括:構(gòu)建敏感 詞庫,所述敏感詞庫包括第一類敏感詞和第二類敏感詞,并且所述敏感詞庫中的敏感詞分 為三個等級: 一級敏感詞設(shè)定為具有一級關(guān)鍵詞,即一級敏感詞包括第一類一級和第二類一級; 二級類敏感詞設(shè)定為具有二級關(guān)鍵詞,即二級敏感詞包括第一類二級和第二類二級; 三級敏感詞設(shè)定為具有三級關(guān)鍵詞,即三級敏感詞包括第一類三級和第二類三級。4. 根據(jù)權(quán)利要求3所述的過濾方法,其特征在于,所述步驟S2中,對敏感詞的優(yōu)先級設(shè) 定具體為: 第一類一級,第二類一級〉第一類二級,第二類二級〉第一類三級,第二類三級。5. 根據(jù)權(quán)利要求1所述的過濾方法,其特征在于,所述敏感詞多級過濾算法為Wu-Manber 算法。6. 根據(jù)權(quán)利要求1所述的過濾方法,其特征在于,所述步驟S3具體包括: 531、 提取所述新聞文本的特征向量,所述特征向量包括標(biāo)題、正文長度、代表性詞語; 532、 使用預(yù)設(shè)的具有人工標(biāo)注的新聞文本為訓(xùn)練集,訓(xùn)練得到基于馬爾可夫邏輯網(wǎng)的 情感分析模型; 533、 根據(jù)所述基于馬爾可夫邏輯網(wǎng)的情感分析模型,對所述新聞文本進(jìn)行敏感詞判 斷。7. 根據(jù)權(quán)利要求1或6所述的過濾方法,其特征在于,所述馬爾可夫邏輯網(wǎng)的情感分析 模型,具體為:其中Y是類別標(biāo)簽,當(dāng)Y=1時(shí)表示該新聞傳播不良信息,為負(fù)面新聞,當(dāng)Y = 0時(shí)表示是 正面新聞,X是特征向量,表示敏感詞的級別,x為在某一個級別中的一個敏感詞,a為權(quán)重,0 為偏置項(xiàng),P(Y=l|X = xw)表示當(dāng)特征向量X = xw時(shí),新聞傳播不良信息的概率,其中,a和0通 過如下目標(biāo)函數(shù)求解:其中,W表示總的不良信息分類的集合,w表示集合中的某一個元素或一個子集合,y表 示對應(yīng)于w是不良信息還是正面信息的取值;0(a,e)表示計(jì)算a和0目標(biāo)函數(shù)。8. -種新聞內(nèi)容敏感詞過濾系統(tǒng),其特征在于,所述系統(tǒng)包括: 獲取模塊,用于獲取待過濾的新聞文本; 預(yù)處理模塊,用于對獲取的新聞文本進(jìn)行預(yù)處理; 過濾模塊,用于根據(jù)預(yù)先構(gòu)建的敏感詞庫,使用敏感詞多級過濾算法根據(jù)敏感詞的優(yōu) 先級對所述新聞文本進(jìn)行敏感詞過濾; 敏感詞判斷模塊,用于當(dāng)過濾到所述新聞文本中存在預(yù)設(shè)的敏感詞時(shí),通過基于馬爾 可夫邏輯網(wǎng)的情感分析模型,對過濾到的敏感詞進(jìn)行判定; 新聞標(biāo)記模塊,用于當(dāng)判定為過濾到的敏感詞為不良敏感詞時(shí),將所述新聞文本標(biāo)記 為負(fù)面新聞,否則標(biāo)記文正面新聞。9. 根據(jù)權(quán)利要求8所述的新聞內(nèi)容敏感詞過濾系統(tǒng),其特征在于,所述敏感詞判斷模塊 具體包括: 特征提取單元,用于提取所述新聞文本的特征向量,所述特征向量包括標(biāo)題、正文長 度、代表性詞語; 模型建立單元,用于使用預(yù)設(shè)的具有人工標(biāo)注的新聞文本為訓(xùn)練集,訓(xùn)練得到基于馬 爾可夫邏輯網(wǎng)的情感分析模型; 敏感詞判斷單元,用于根據(jù)所述基于馬爾可夫邏輯網(wǎng)的情感分析模型,對所述新聞文 本進(jìn)行敏感詞判斷。10. 根據(jù)權(quán)利要求8所述的新聞內(nèi)容敏感詞過濾系統(tǒng),其特征在于,所述馬爾可夫邏輯 網(wǎng)的情感分析模型,具體為:其中Y是類別標(biāo)簽,當(dāng)Y=1時(shí)表示該新聞傳播不良信息,為負(fù)面新聞,當(dāng)Y = 0時(shí)表示是 正面新聞,X是特征向量,a為權(quán)重,0為偏置項(xiàng),P(Y=1 |X = xw)表示當(dāng)特征向量X = xw時(shí),新聞 傳播不良信息的概率,其中,a和0通過如下目標(biāo)函數(shù)求解:其中,W表示總的不良信息分類的集合,w表示集合中的某一個元素或一個子集合,y表 示對應(yīng)于w是不良信息還是正面信息的取值;O(a,0)表示計(jì)算a和0目標(biāo)函數(shù)。
【文檔編號】G06F17/27GK106055541SQ201610496504
【公開日】2016年10月26日
【申請日】2016年6月29日
【發(fā)明人】張新鈺, 劉聰, 吳新剛
【申請人】清華大學(xué)