欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于內(nèi)容的恐怖文本識別方法

文檔序號:6544839閱讀:500來源:國知局
一種基于內(nèi)容的恐怖文本識別方法
【專利摘要】本發(fā)明公開了一種基于內(nèi)容的恐怖文本識別方法,該方法包括:首先,對需要識別的文本進行預(yù)處理,以消除錯誤數(shù)據(jù)和冗余數(shù)據(jù)對識別結(jié)果的消極影響;其次,構(gòu)建基于內(nèi)容的文本分類器模型,該模型能夠分別利用文本標題分類器和文本內(nèi)容分類器對文本標題和文本內(nèi)容進行獨立識別,然后將兩種識別結(jié)果進行決策融合,最終得出識別結(jié)果;最后,將格式化后的待識別文本數(shù)據(jù)作為基于文本分類器模型的輸入,該模型的輸出即為文本的識別結(jié)果。該方法在實驗數(shù)據(jù)庫上能夠取得良好的實驗效果,其識別結(jié)果具有較高的可靠性和穩(wěn)定性。
【專利說明】一種基于內(nèi)容的恐怖文本識別方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計算機視覺領(lǐng)域,特別涉及一種基于內(nèi)容的恐怖文本識別方法。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展和廣泛應(yīng)用,網(wǎng)絡(luò)上開始不斷涌現(xiàn)出大量的恐怖信息,如恐怖小說、恐怖圖片和恐怖視頻等,這些對青少年特別是兒童的健康成長環(huán)境構(gòu)成了嚴重地威脅。心理學(xué)家和生理學(xué)家的研究表明:恐怖信息對于兒童青少年恐懼心理的產(chǎn)生和進一步延續(xù)甚至惡化有著主要的促成作用,有88.8%的青少年將他們的恐怖癥的病因歸咎于過多的接觸恐怖信息;過多的恐怖信息可能使人長期處于極度的恐懼和焦慮中,更甚者使人身心受到損害,且非常容易產(chǎn)生心理失衡或障礙,嚴重時出現(xiàn)病理癥狀,導(dǎo)致各種恐怖癥的產(chǎn)生,甚至引發(fā)其它的精神疾?。贿^多的接觸恐怖信息是恐懼癥及其它心理病癥的根源所在,同時,恐怖信息的泛濫導(dǎo)致兒童、青少年的恐懼被泛化,很容易從一個人傳播到另一個人,進而影響他們的社會認知及未來人格的健康發(fā)展;過多的接觸恐怖信息將影響孩子的閱讀取向,影響兒童青少年的審美情趣,可能引發(fā)學(xué)習(xí)不良行為,甚至引發(fā)犯罪。
[0003]恐怖文本分類問題是一種情感分類問題。在情感分類中根據(jù)文本的不同,文本情感分析的對象主要可分為兩大類:基于新聞評論的文本情感分析和基于產(chǎn)品的文本情感分析,而對恐怖文本的分析很少見。
[0004]特征提取是分類的前提,也是情感分類中最為關(guān)鍵的步驟。情感詞(特征)的提取主要分為基于語料庫和基于詞典兩種方法?;谡Z料庫的情感詞語提取主要是利用大語料庫的統(tǒng)計特征,觀察一些現(xiàn)象來挖掘語料庫中的評價詞語并判斷極性。這些特征選擇算法主要有互信息、文檔頻率、信息增益、開方檢驗等等多種?;谡Z料庫的方法最大的優(yōu)點在于簡單易行,缺點則在于可利用的情感語料庫有限,同時情感詞在大語料庫中的分布等現(xiàn)象并不容易歸納?;谵o典的情感詞語的提取方法主要是使用辭典中的詞語之間的詞義聯(lián)系來挖掘情感詞語。這種方法對詞典中詞的準確度依賴很高,并且在構(gòu)建詞典的過程中很容易引入噪聲。基于詞典的方法的優(yōu)點在于獲取的情感詞語的規(guī)模非??捎^,但是由于很多詞存在一詞多義現(xiàn)象,構(gòu)建情感詞典往往含有較多的歧義詞。

【發(fā)明內(nèi)容】

[0005](一 )要解決的技術(shù)問題
[0006]本發(fā)明的目的在于提出一種準確率高的恐怖文本識別方法,解決提取有效的內(nèi)容特征問題、快速高效的識別恐怖文本的問題。
[0007]( 二 )技術(shù)方案
[0008]為實現(xiàn)上述目的,本文提出了一種基于內(nèi)容的恐怖文本識別方法,該方法包括以下主要步驟:
[0009]步驟1:對訓(xùn)練文本集合和待識別的文本進行預(yù)處理;
[0010]步驟2:利用預(yù)處理后的訓(xùn)練文本集合構(gòu)建基于內(nèi)容的文本分類模型;[0011]步驟3:將預(yù)處理后的待識別文本作為文本分類模型的輸入進行識別,文本分類模型的輸出即為識別結(jié)果。
[0012](三)有益效果
[0013]本發(fā)明所提出的基于內(nèi)容的恐怖文本識別方法,利用分布相似度算法提取有效的高可信度的文本內(nèi)容特征證詞,分別針對文本標題和文本內(nèi)容設(shè)計相互獨立的文本標題分類器和文本內(nèi)容分類器構(gòu)建分類模型,能夠快速有效的對待識別文本進行識別。
【專利附圖】

【附圖說明】
[0014]圖1是本發(fā)明中對待分類文本進行分類示意圖。
[0015]圖2是本發(fā)明中分類模型的構(gòu)建示意圖。
【具體實施方式】
[0016]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚明白,以下結(jié)合具體實施例,并參照附圖,對本發(fā)明作進一步的詳細說明。
[0017]本發(fā)明的方法具體運行的硬件和編程語言并不受限制,用任何語言編寫都可以實現(xiàn)本發(fā)明的方法。本發(fā)明采用一臺具有2.53G赫茲中央處理器和4G字節(jié)內(nèi)存的Wind0ws7操作系統(tǒng)的計算機,利用Visual Studio2010集成開發(fā)環(huán)境,結(jié)合C++語言設(shè)計完成了具體算法,實現(xiàn)了本發(fā)明的方法。
[0018]圖1示出了本發(fā)明提出的基于內(nèi)容的恐怖文本識別方法流程圖。如圖1所示,該方法包括以下主要步驟:
[0019]步驟1:對文本數(shù)據(jù)庫中的訓(xùn)練文本及待識別的文本進行預(yù)處理,以消除錯誤數(shù)據(jù)和冗余數(shù)據(jù)對識別結(jié)果的消極影響;
[0020]步驟2:構(gòu)建基于內(nèi)容的文本分類模型;
[0021]步驟3:將待識別的文本格式化后的數(shù)據(jù)作為文本分類模型的輸入進行識別,文本分類模型的輸出即為識別結(jié)果。
[0022]步驟I中對文本的預(yù)處理具體包括以下步驟:
[0023]步驟11:利用分詞程序?qū)ξ谋具M行分詞,詞與詞之間用空格隔開;
[0024]步驟12:利用人工先驗知識和統(tǒng)計的方法構(gòu)建停用詞表(如“的” “了” “啊”等),并對步驟11處理后的文本進行去停用詞處理;停用詞表的具體構(gòu)成為:介詞、助詞、語氣詞、人稱代詞和非常用字詞等。
[0025]步驟13:對步驟12處理后的文本進行去標點符號處理;
[0026]步驟14:對步驟13處理后的文本進行去短詞(一個字的詞)和去長詞(超過四個字的詞)處理,以消除歧義。
[0027]圖2示出了本發(fā)明中基于內(nèi)容的文本分類模型的構(gòu)建示意圖。如圖2所示,步驟2中構(gòu)建基于內(nèi)容的文本分類模型具體包括如下步驟:
[0028]步驟21:利用常規(guī)特征提取方法(如人工標注、信息增益、卡法檢驗、文檔頻率等)對步驟I處理后的訓(xùn)練文本進行少量的精確的特征提取,并將提取出的特征詞作為種子詞;
[0029]步驟22:結(jié)合步驟21提取的種子詞,然后對經(jīng)過步驟I處理后的訓(xùn)練文本進行較大量的特征提取。
[0030]步驟23:根據(jù)所提取的特征利用樸素貝葉斯算法(Native Bayes,NB)構(gòu)建文本標題分類器。
[0031]步驟24:根據(jù)所提取的特征利用支持向量機(Support Vector Machine, SVM)構(gòu)建文本內(nèi)容分類器。
[0032]步驟25:對標題分類結(jié)果Al和內(nèi)容分類結(jié)果A2進行決策融合。
[0033]下面詳細給出本發(fā)明中構(gòu)建基于內(nèi)容的文本分類模型所涉及的各個步驟。
[0034]對于步驟22,具體包括如下步驟:
[0035]步驟221:利用互信息特征提取方法、信息增益特征提取方法、文檔頻率特征提取方法等相結(jié)合,并采用人工標注的方式對步驟I處理后的文本進行少量的可信度高的特征提取。將提取出的特征詞作為種子詞。
[0036]步驟222:度量種子詞庫中每個種子詞的分布與每個訓(xùn)練文本中每個詞的分布的KL距離,即信息熵:
【權(quán)利要求】
1.一種基于內(nèi)容的恐怖文本識別方法,該方法包括以下幾個步驟: 步驟1:對訓(xùn)練文本集合和待識別的文本進行預(yù)處理; 步驟2:利用預(yù)處理后的訓(xùn)練文本集合構(gòu)建基于內(nèi)容的文本分類模型; 步驟3:將預(yù)處理后的待識別文本作為文本分類模型的輸入進行識別,文本分類模型的輸出即為識別結(jié)果。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟I包括: 步驟11:構(gòu)建停用詞表; 步驟12:對訓(xùn)練文本和待識別文本進行分詞處理; 步驟13:對經(jīng)過步驟2b處理的文本進行去停用詞、去標點符號、去短詞、去長詞處理。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟2包括: 步驟21:對經(jīng)過步驟I處理過的訓(xùn)練文文本進行第一次特征提取,并將提取出的特征詞作為種子詞; 步驟22:利用步驟21中的種子詞并結(jié)合期望相似度算法對經(jīng)過步驟I處理過的訓(xùn)練文本進行第二次特征提取,并將步驟2a和該步驟中提取的特征詞作為恐怖文本的特征詞; 步驟23:根據(jù)所提取的特征詞利用SVM構(gòu)建文本內(nèi)容分類器; 步驟24:根據(jù)所提取的特征詞利用樸素貝葉斯算法構(gòu)建文本標題分類器; 步驟25:構(gòu)建基于統(tǒng)計學(xué)的融合策略。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,在所述步驟2c中,利用TF-1DF計算從訓(xùn)練文本集合提取出的每個特征詞在每篇訓(xùn)練文本中的權(quán)重,然后將訓(xùn)練文本定義為Wi ={tn,ti2,...,tim}格式,其中tu表示的是第j個特征詞在第i個文本中的權(quán)重;將訓(xùn)練文本以(Cj,Wi)的形式輸入到SVM中,經(jīng)過SVM訓(xùn)練后的模型即為文本內(nèi)容分類器模型。
5.根據(jù)權(quán)利要求3所述的方法,其特征在于,在所述步驟2d中,標題分類器通過樸素貝葉斯分類器構(gòu)造:
,^ ^(C/) FIi/5Ca1Ic/)
滿…~)=口(( r)n;:p(ai|Cr) 式中Cj表示類別標簽,當j = I時該標簽表示恐怖文本,當j = O時該標簽表示非恐怖文本;(a1;afan)表示訓(xùn)練文本集合中一個文本標題,其中Bi為文本標題中的一個詞,η表示標題中詞的個數(shù)。
6.根據(jù)權(quán)利要求3所述的方法,其特征在于,在所述步驟2e中,將文本標題分類器的識別結(jié)果Al和文本內(nèi)容分類器的識別結(jié)果A2進行融合: ^ P(Qlr)
=P(^Q\r) 其中P(Qlr)表示Al或A2為真的條件下,該文本被識別為恐怖文本的概率,P(-,Q|r)表示Al或A2為真的條件下,該文本被識別為非恐怖文本的概率;ST> I則該文本被識別的最終結(jié)果為恐怖文本,反之,則為非恐怖文本。
【文檔編號】G06F17/27GK103942191SQ201410171360
【公開日】2014年7月23日 申請日期:2014年4月25日 優(yōu)先權(quán)日:2014年4月25日
【發(fā)明者】胡衛(wèi)明, 劉國旗, 李兵 申請人:中國科學(xué)院自動化研究所
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
眉山市| 黄浦区| 林芝县| 永丰县| 河南省| 新竹县| 新和县| 乌苏市| 景德镇市| 绥德县| 平顶山市| 上饶县| 开远市| 交城县| 新野县| 华池县| 留坝县| 神池县| 鹤岗市| 北宁市| 陕西省| 开化县| 墨江| 孝感市| 林州市| 湟中县| 皋兰县| 抚松县| 永州市| 永宁县| 上虞市| 菏泽市| 潼关县| 林芝县| 开封市| 邛崃市| 子洲县| 镇巴县| 襄城县| 博白县| 凭祥市|