欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于貝葉斯模型的文本垃圾識別方法和系統(tǒng)與流程

文檔序號:11990803閱讀:339來源:國知局
基于貝葉斯模型的文本垃圾識別方法和系統(tǒng)與流程
本發(fā)明涉及互聯(lián)網(wǎng)領(lǐng)域,尤其涉及一種基于貝葉斯模型的文本垃圾識別方法和系統(tǒng)。

背景技術(shù):
互聯(lián)網(wǎng)技術(shù)迅猛發(fā)展,網(wǎng)上信息爆炸式增長;隨著生活、工作節(jié)奏的加快,人們越來越傾向于用簡短的文字來溝通交流。以twitter(推特)和新浪微博為代表的以較小的文本來生產(chǎn)、組織和傳播信息的SNS(SocialNetworkService,社會性網(wǎng)絡(luò)服務(wù))網(wǎng)站,獲得網(wǎng)友的青睞。目前,對互聯(lián)網(wǎng)上的文本內(nèi)容進(jìn)行自動垃圾識別的主要方法是,采用基于向量模型的方法,對于某個文本內(nèi)容將其分類為垃圾文本,或非垃圾文本;該方法包括:訓(xùn)練階段和識別階段。在訓(xùn)練階段,根據(jù)訓(xùn)練集中大量的文本進(jìn)行建模的方法,通常如圖1所示,包括如下步驟:S101:對于訓(xùn)練集中已區(qū)分為垃圾文本,或非垃圾文本的各個文本,進(jìn)行分詞得到每個文本的詞語集合。S102:根據(jù)每個文本的詞語集合計算得到每個文本的詞語特征向量。具體地,針對每個文本,根據(jù)該文本的詞語集合中的每個詞語,確定該詞語在該文本中的TF(TermFrequency,詞頻)值,計算該詞語在訓(xùn)練集中的IDF(InverseDocumentFrequency,逆向文件頻率)值,根據(jù)該詞語的TF值和IDF值,如下公式1計算該詞語的特征值:log(TF+1.0)×IDF(公式1)將該文本的詞語集合中各詞語的特征值組成該文本的詞語特征向量。S103:基于訓(xùn)練集中每個文本的詞語特征向量建立向量模型。例如,根據(jù)訓(xùn)練集中每個文本的詞語特征向量,運用SVM分類算法、或最大熵分類算法等建立向量模型。在識別階段,對于待判定文本,進(jìn)行分詞得到該待判定文本的詞語集合后,根據(jù)該待判定文本的詞語集合計算出該待判定文本的詞語特征向量;根據(jù)待判定文本的詞語特征向量與訓(xùn)練階段建立的向量模型來判斷待判定文本是否為垃圾文本。但是,在實際應(yīng)用中,本發(fā)明的發(fā)明人發(fā)現(xiàn),運用現(xiàn)有技術(shù)的建模和文本內(nèi)容的垃圾識別方法的系統(tǒng),魯棒性較差,容易受到攻擊:例如,在訓(xùn)練階段,訓(xùn)練集中某個文本中若大量出現(xiàn)某個關(guān)鍵詞,則會出現(xiàn)分類結(jié)果被該關(guān)鍵詞綁架的情況,導(dǎo)致分類結(jié)果中劃分的垃圾文本超平面、或非垃圾文本超平面因該關(guān)鍵詞的干擾而有較大偏離;因此,有必要提供一種具有更好魯棒性的建模和文本內(nèi)容的垃圾識別的方法和系統(tǒng)。

技術(shù)實現(xiàn)要素:
針對上述現(xiàn)有技術(shù)存在的缺陷,本發(fā)明提供了一種基于貝葉斯模型的文本垃圾識別方法和系統(tǒng),用以提高文本垃圾識別系統(tǒng)的魯棒性。根據(jù)本發(fā)明的一個方面,提供了一種基于貝葉斯模型的文本垃圾識別方法,包括:對待判定文本進(jìn)行分詞,得到所述待判定文本的關(guān)鍵詞;針對所述待判定文本的每個關(guān)鍵詞,計算該關(guān)鍵詞的特征值,并在貝葉斯模型中查找與該關(guān)鍵詞相匹配的特征詞,獲取查找到的特征詞的正向權(quán)重值和負(fù)向權(quán)重值,分別作為該關(guān)鍵詞的正向權(quán)重值和負(fù)向權(quán)重值;其中,所述特征詞的正、負(fù)向權(quán)重值分別指的是所述特征詞屬于非垃圾文本、垃圾文本的概率權(quán)重值;根據(jù)所述待判定文本的每個關(guān)鍵詞的特征值以及正向權(quán)重值,計算所述待判定文本的正向分類值;根據(jù)所述待判定文本的每個關(guān)鍵詞的特征值以及負(fù)向權(quán)重值,計算所述待判定文本的負(fù)向分類值;其中,所述待判定文本的正、負(fù)向分類值分別指的是所述待判定文本為非垃圾文本、垃圾文本的概率權(quán)重值;根據(jù)所述待判定文本的正向分類值和負(fù)向分類值,確定所述待判定文本是否為垃圾文本。其中,所述貝葉斯模型為預(yù)先得到的:對于訓(xùn)練集中已區(qū)分為垃圾文本,或非垃圾文本的每個文本,進(jìn)行分詞后得到該文本的關(guān)鍵詞,并計算該文本的每個關(guān)鍵詞的類別相關(guān)度;從所述訓(xùn)練集的各文本的關(guān)鍵詞中,選取類別相關(guān)度高于設(shè)定值的關(guān)鍵詞作為所述貝葉斯模型的特征詞;針對所述貝葉斯模型的每個特征詞,根據(jù)該特征詞的numg以及所述訓(xùn)練集中非垃圾文本總數(shù),計算出該特征詞的正向權(quán)重值;根據(jù)該特征詞的numb以及所述訓(xùn)練集中垃圾文本總數(shù),計算出該特征詞的負(fù)向權(quán)重值;其中,numg為所述訓(xùn)練集的非垃圾文本中包含有該特征詞的文本的數(shù)量;numb為所述訓(xùn)練集的垃圾文本中包含有該特征詞的文本的數(shù)量。較佳地,所述計算該文本的每個關(guān)鍵詞的類別相關(guān)度具體包括:對于該文本的每個關(guān)鍵詞,根據(jù)如下公式2計算該關(guān)鍵詞的類別相關(guān)度:(公式2)其中,T表示該關(guān)鍵詞,CE(T)表示該關(guān)鍵詞的類別相關(guān)度,P(C1|T)表示包含該關(guān)鍵詞的文本屬于垃圾文本類別的概率,P(C2|T)表示包含該關(guān)鍵詞的文本屬于非垃圾文本類別的概率,P(C1)表示垃圾文本在所述訓(xùn)練集中出現(xiàn)的概率,P(C2)表示非垃圾文本在所述訓(xùn)練集中出現(xiàn)的概率。較佳地,所述根據(jù)該特征詞的numg以及所述訓(xùn)練集中非垃圾文本總數(shù),計算出該特征詞的正向權(quán)重值;根據(jù)該特征詞的numb以及所述訓(xùn)練集中垃圾文本總數(shù),計算出該特征詞的負(fù)向權(quán)重值,具體包括:根據(jù)如下公式3計算出該特征詞的正向權(quán)重值weightg:(公式3)根據(jù)如下公式4計算出該特征詞的負(fù)向權(quán)重值weightb:(公式4)其中,word_numg表示所述訓(xùn)練集的非垃圾文本中包含有該特征詞的文本的數(shù)量;word_numb表示所述訓(xùn)練集的垃圾文本中包含有該特征詞的文本的數(shù)量;total_numg表示所述訓(xùn)練集中非垃圾文本總數(shù);total_numb表示所述訓(xùn)練集中垃圾文本總數(shù)。較佳地,所述根據(jù)所述待判定文本的每個關(guān)鍵詞的特征值以及正向權(quán)重值,計算所述待判定文本的正向分類值;根據(jù)所述待判定文本的每個關(guān)鍵詞的特征值以及負(fù)向權(quán)重值,計算所述待判定文本的負(fù)向分類值,具體包括:根據(jù)如下公式5計算出所述待判定文本的正向分類值Scoreg:(公式5)根據(jù)如下公式6計算出所述待判定文本的負(fù)向分類值Scoreb:(公式6)其中,n表示所述待判定文本的關(guān)鍵詞的總數(shù);word_valuei表示所述待判定文本的n個關(guān)鍵詞中的第i個關(guān)鍵詞的特征值;word_weight_gi表示所述待判定文本的n個關(guān)鍵詞中的第i個關(guān)鍵詞的正向權(quán)重值;word_weight_bi表示所述待判定文本的n個關(guān)鍵詞中的第i個關(guān)鍵詞的負(fù)向權(quán)重值。較佳地,所述根據(jù)所述待判定文本的正向分類值和負(fù)向分類值,確定所述待判定文本是否為垃圾文本,具體包括:根據(jù)如下公式7,計算出所述待判定文本為垃圾文本的概率:(公式7)其中,aprioity表示所述訓(xùn)練集中非垃圾文本的占比;根據(jù)計算出的概率Pbad,確定所述待判定文本是否為垃圾文本。較佳地,所述對待判定文本進(jìn)行分詞,得到所述待判定文本的關(guān)鍵詞,具體包括:對于待判定文本進(jìn)行分詞后得到的每個詞語,確定該詞語的詞性和IDF值;從對待判定文本進(jìn)行分詞后得到的詞語中,選擇IDF值高于設(shè)定閾值、詞性符合預(yù)設(shè)條件的詞語作為所述待判定文本的關(guān)鍵詞。較佳地,所述計算該關(guān)鍵詞的特征值,具體包括:根據(jù)該關(guān)鍵詞的TF值和IDF值,計算該關(guān)鍵詞的特征值。根據(jù)本發(fā)明的另一個方面,還提供了一種建模方法,包括:對于訓(xùn)練集中已區(qū)分為垃圾文本,或非垃圾文本的每個文本,進(jìn)行分詞后得到該文本的關(guān)鍵詞,并計算該文本的每個關(guān)鍵詞的類別相關(guān)度;從所述訓(xùn)練集的各文本的關(guān)鍵詞中,選取類別相關(guān)度高于設(shè)定值的關(guān)鍵詞作為所述貝葉斯模型的特征詞;針對所述貝葉斯模型的每個特征詞,在所述訓(xùn)練集中統(tǒng)計非垃圾文本中包含有該特征詞的文本的數(shù)量numg,統(tǒng)計垃圾文本中包含有該特征詞的文本的數(shù)量numb;根據(jù)該特征詞的numg以及所述訓(xùn)練集中非垃圾文本總數(shù),計算出該特征詞的正向權(quán)重值;根據(jù)該特征詞的numb以及所述訓(xùn)練集中垃圾文本總數(shù),計算出該特征詞的負(fù)向權(quán)重值。較佳地,所述計算該文本的每個關(guān)鍵詞的類別相關(guān)度具體包括:對于該文本的每個關(guān)鍵詞,根據(jù)如下公式2計算該關(guān)鍵詞的類別相關(guān)度:(公式2)其中,T表示該關(guān)鍵詞,CE(T)表示該關(guān)鍵詞的類別相關(guān)度,P(C1|T)表示包含該關(guān)鍵詞的文本屬于垃圾文本類別的概率,P(C2|T)表示包含該關(guān)鍵詞的文本屬于非垃圾文本類別的概率,P(C1)表示垃圾文本在所述訓(xùn)練集中出現(xiàn)的概率,P(C2)表示非垃圾文本在所述訓(xùn)練集中出現(xiàn)的概率。較佳地,所述對于訓(xùn)練集中已區(qū)分為垃圾文本,或非垃圾文本的每個文本,進(jìn)行分詞后得到該文本的關(guān)鍵詞,具體包括:對于訓(xùn)練集中已區(qū)分為垃圾文本,或非垃圾文本的每個文本,進(jìn)行如下操作:對該文本進(jìn)行分詞后得到的每個詞語,確定該詞語的詞性和IDF值;從對該文本進(jìn)行分詞后得到的詞語中,選擇IDF值高于設(shè)定閾值、詞性符合預(yù)設(shè)條件的詞語作為該文本的關(guān)鍵詞。根據(jù)本發(fā)明的另一個方面,還提供了一種基于貝葉斯模型的文本垃圾識別系統(tǒng),包括:關(guān)鍵詞確定模塊,用于對待判定文本進(jìn)行分詞,得到所述待判定文本的關(guān)鍵詞;正負(fù)向權(quán)重值計算模塊,用于針對所述關(guān)鍵詞確定模塊得到的所述待判定文本的每個關(guān)鍵詞,計算該關(guān)鍵詞的特征值,并在貝葉斯模型中查找與該關(guān)鍵詞相匹配的特征詞,獲取查找到的特征詞的正向權(quán)重值和負(fù)向權(quán)重值,分別作為該關(guān)鍵詞的正向權(quán)重值和負(fù)向權(quán)重值;其中,所述特征詞的正、負(fù)向權(quán)重值分別指的是所述特征詞屬于非垃圾文本、垃圾文本的概率權(quán)重值;正負(fù)向分類值計算模塊,用于根據(jù)所述待判定文本的每個關(guān)鍵詞的特征值以及正向權(quán)重值,計算所述待判定文本的正向分類值;根據(jù)所述待判定文本的每個關(guān)鍵詞的特征值以及負(fù)向權(quán)重值,計算所述待判定文本的負(fù)向分類值;其中,所述待判定文本的正、負(fù)向分類值分別指的是所述待判定文本為非垃圾文本、垃圾文本的概率權(quán)重值;判定結(jié)果輸出模塊,用于根據(jù)所述待判定文本的正向分類值和負(fù)向分類值,確定所述待判定文本是否為垃圾文本,并將判定結(jié)果輸出。較佳地,所述關(guān)鍵詞確定模塊、正負(fù)向權(quán)重值計算模塊、正負(fù)向分類值計算模塊、判定結(jié)果輸出模塊包含于所述系統(tǒng)的識別裝置中;以及所述系統(tǒng)還包括:建模裝置;所述建模裝置包括:訓(xùn)練集關(guān)鍵詞確定模塊,用于對于訓(xùn)練集中已區(qū)分為垃圾文本,或非垃圾文本的每個文本,進(jìn)行分詞后得到該文本的關(guān)鍵詞;特征詞選取模塊,用于針對訓(xùn)練集中每個文本,計算該文本的每個關(guān)鍵詞的類別相關(guān)度;從所述訓(xùn)練集的各文本的關(guān)鍵詞中,選取類別相關(guān)度高于設(shè)定值的關(guān)鍵詞作為所述貝葉斯模型的特征詞;統(tǒng)計模塊,用于針對所述貝葉斯模型的每個特征詞,在所述訓(xùn)練集中統(tǒng)計非垃圾文本中包含有該特征詞的文本的數(shù)量numg,統(tǒng)計垃圾文本中包含有該特征詞的文本的數(shù)量numb;特征詞正負(fù)向權(quán)重值計算模塊,用于根據(jù)該特征詞的numg以及所述訓(xùn)練集中非垃圾文本的總數(shù),計算出該特征詞的正向權(quán)重值;根據(jù)該特征詞的numb以及所述訓(xùn)練集中垃圾文本總數(shù),計算出該特征詞的負(fù)向權(quán)重值。根據(jù)本發(fā)明的另一個方面,還提供了一種建模裝置,包括:訓(xùn)練集關(guān)鍵詞確定模塊,用于對于訓(xùn)練集中已區(qū)分為垃圾文本,或非垃圾文本的每個文本,進(jìn)行分詞后得到該文本的關(guān)鍵詞;特征詞選取模塊,用于針對訓(xùn)練集中每個文本,計算該文本的每個關(guān)鍵詞的類別相關(guān)度;從所述訓(xùn)練集的各文本的關(guān)鍵詞中,選取類別相關(guān)度高于設(shè)定值的關(guān)鍵詞作為所述貝葉斯模型的特征詞;統(tǒng)計模塊,用于針對所述貝葉斯模型的每個特征詞,在所述訓(xùn)練集中統(tǒng)計非垃圾文本中包含有該特征詞的文本的數(shù)量numg,統(tǒng)計垃圾文本中包含有該特征詞的文本的數(shù)量numb;特征詞正負(fù)向權(quán)重值計算模塊,用于根據(jù)該特征詞的numg以及所述訓(xùn)練集中非垃圾文本總數(shù),計算出該特征詞的正向權(quán)重值;根據(jù)該特征詞的numb以及所述訓(xùn)練集中垃圾文本總數(shù),計算出該特征詞的負(fù)向權(quán)重值。本發(fā)明的技術(shù)方案中,在訓(xùn)練階段主要是應(yīng)用詞語的IDF值(即包含該詞語的垃圾文本,或非垃圾文本的文本頻率值)來確定貝葉斯模型,避免TF值對貝葉斯模型的綁架;從而在識別階段,依據(jù)該貝葉斯模型進(jìn)行垃圾文本識別的系統(tǒng)可以具有更好的魯棒性。而且,識別階段綜合考慮詞語的TF值和IDF值,根據(jù)TF值和IDF值計算出詞語的特征值進(jìn)行文本的垃圾文本的識別,以有效利用詞語的特征的信息量,以作出較為準(zhǔn)確的垃圾文本判斷。附圖說明圖1為現(xiàn)有技術(shù)的構(gòu)建向量模型的方法流程圖;圖2為本發(fā)明實施例的建立貝葉斯模型的方法流程圖;圖3為本發(fā)明實施例的對待判定的文本進(jìn)行垃圾識別的方法流程圖;圖4為本發(fā)明實施例的基于貝葉斯模型的文本垃圾識別系統(tǒng)的內(nèi)部結(jié)構(gòu)框圖。具體實施方式為使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下參照附圖并舉出優(yōu)選實施例,對本發(fā)明進(jìn)一步詳細(xì)說明。然而,需要說明的是,說明書中列出的許多細(xì)節(jié)僅僅是為了使讀者對本發(fā)明的一個或多個方面有一個透徹的理解,即便沒有這些特定的細(xì)節(jié)也可以實現(xiàn)本發(fā)明的這些方面。本申請使用的“模塊”、“系統(tǒng)”等術(shù)語旨在包括與計算機相關(guān)的實體,例如但不限于硬件、固件、軟硬件組合、軟件或者執(zhí)行中的軟件。例如,模塊可以是,但并不僅限于:處理器上運行的進(jìn)程、處理器、對象、可執(zhí)行程序、執(zhí)行的線程、程序和/或計算機。舉例來說,計算設(shè)備上運行的應(yīng)用程序和此計算設(shè)備都可以是模塊。一個或多個模塊可以位于執(zhí)行中的一個進(jìn)程和/或線程內(nèi),一個模塊也可以位于一臺計算機上和/或分布于兩臺或更多臺計算機之間。本發(fā)明的發(fā)明人對現(xiàn)有技術(shù)的方法導(dǎo)致魯棒性較差的原因進(jìn)行分析,發(fā)現(xiàn)在計算詞語的特征值的過程中,由于考慮了TF值,導(dǎo)致詞語在某個文本中大量出現(xiàn)時,TF值非常高,根據(jù)TF值和IDF值計算出的特征值基本被TF值所影響,從而造成包含該詞語的特征值的詞語特征向量對分類結(jié)果的綁架,使得構(gòu)建的垃圾文本超平面、或非垃圾文本超平面出現(xiàn)偏離?;谏鲜龇治觯景l(fā)明的技術(shù)方案中,在訓(xùn)練階段主要是應(yīng)用詞語的IDF值來確定分類結(jié)果,避免TF值對分類結(jié)果的綁架;在識別階段,則綜合考慮詞語的TF值和IDF值,根據(jù)TF值和IDF值計算出詞語的特征值進(jìn)行文本的垃圾文本的識別,以有效利用詞語的特征的信息量,以作出較為準(zhǔn)確的垃圾文本判斷。下面結(jié)合附圖詳細(xì)說明本發(fā)明的技術(shù)方案。本發(fā)明的實施例提供了一種基于貝葉斯模型的文本垃圾識別方法和系統(tǒng);在訓(xùn)練階段,先建立貝葉斯模型;在識別階段,則利用構(gòu)建的貝葉斯模型,進(jìn)行垃圾文本的判定。訓(xùn)練階段中,根據(jù)訓(xùn)練集中的各文本建立貝葉斯模型的方法,流程如圖2所示,具體步驟包括:S201:對訓(xùn)練集中的每個文本進(jìn)行分詞,得到每個文本的詞語集合。具體地,對于訓(xùn)練集中已區(qū)分為垃圾文本,或非垃圾文本的每個文本,進(jìn)行分詞:將該文本中連續(xù)的字序列劃分為一個個詞語;在劃分出的詞語中,去除掉沒有實際意義的虛詞(如標(biāo)點、組動詞、語氣詞、嘆詞、擬聲詞等);剩余的詞語構(gòu)成該文本的詞語集合。S202:提取出訓(xùn)練集中每個文本的關(guān)鍵詞。具體地,對于訓(xùn)練集中的每個文本進(jìn)行分詞后得到的每個詞語,確定該詞語的詞性和IDF值;從對訓(xùn)練集中的每個文本進(jìn)行分詞后得到的詞語中,選擇IDF值高于設(shè)定閾值、詞性符合預(yù)設(shè)條件的詞語作為所述訓(xùn)練集中的每個文本的關(guān)鍵詞。上述的設(shè)定閾值可以由本領(lǐng)域技術(shù)人員根據(jù)實際情況進(jìn)行設(shè)定;所述詞性符合預(yù)設(shè)條件的詞語具體可以是詞性為名詞、或動詞的詞語。S203:針對訓(xùn)練集中每個文本,計算該文本的每個關(guān)鍵詞的類別相關(guān)度。具體地,針對訓(xùn)練集中每個文本,對于該文本的每個關(guān)鍵詞,可以根據(jù)如下公式2計算該關(guān)鍵詞的類別相關(guān)度:(公式2)其中,T表示該關(guān)鍵詞,CE(T)表示該關(guān)鍵詞的類別相關(guān)度,P(C1|T)表示包含該關(guān)鍵詞的文本屬于垃圾文本類別的概率,即包含該關(guān)鍵詞的文本在訓(xùn)練集中為垃圾文本的概率;P(C2|T)表示包含該關(guān)鍵詞的文本屬于非垃圾文本類別的概率,即包含該關(guān)鍵詞的文本在訓(xùn)練集中為非垃圾文本的概率;P(C1)表示垃圾文本在所述訓(xùn)練集中出現(xiàn)的概率,P(C2)表示非垃圾文本在所述訓(xùn)練集中出現(xiàn)的概率。S204:從訓(xùn)練集的各文本的關(guān)鍵詞中,選取類別相關(guān)度高于設(shè)定值的關(guān)鍵詞作為貝葉斯模型的特征詞。具體地,上述的設(shè)定值可以由本領(lǐng)域技術(shù)人員根據(jù)實際情況進(jìn)行設(shè)定。S205:針對貝葉斯模型的每個特征詞,計算出該特征詞的正向權(quán)重值和負(fù)向權(quán)重值。本步驟中,根據(jù)該特征詞的numg以及訓(xùn)練集中非垃圾文本總數(shù),計算出該特征詞的正向權(quán)重值;其中,numg為所述訓(xùn)練集的非垃圾文本中包含有該特征詞的文本的數(shù)量。特征詞的正向權(quán)重值用以表征該特征詞屬于非垃圾文本的概率,即為該特征詞屬于非垃圾文本的概率權(quán)重值。本步驟中,根據(jù)該特征詞的numb以及所述訓(xùn)練集中垃圾文本總數(shù),計算出該特征詞的負(fù)向權(quán)重值;其中,numb為所述訓(xùn)練集的垃圾文本中包含有該特征詞的文本的數(shù)量。特征詞的負(fù)向權(quán)重值用以表征該特征詞屬于垃圾文本的概率,即該特征詞屬于垃圾文本的概率權(quán)重值。具體地,可以根據(jù)如下公式3計算出該特征詞的正向權(quán)重值weightg:(公式3)上述公式3中,word_numg表示所述訓(xùn)練集的非垃圾文本中包含有該特征詞的文本的數(shù)量;total_numg表示所述訓(xùn)練集中非垃圾文本總數(shù);根據(jù)如下公式4計算出該特征詞的負(fù)向權(quán)重值weightb:(公式4)上述公式4中,word_numb表示所述訓(xùn)練集的垃圾文本中包含有該特征詞的文本的數(shù)量;total_numb表示所述訓(xùn)練集中垃圾文本總數(shù)。將計算出的特征詞的正、負(fù)向權(quán)重值存儲于貝葉斯模型中。在訓(xùn)練階段,采用包含該特征詞的垃圾/非垃圾文本數(shù)量來計算正/負(fù)向權(quán)重值可以很好的反應(yīng)該特征詞的區(qū)分度;相比于現(xiàn)有技術(shù)中采用IDF值來計算詞語的特征值的方法,可以避免在單個文本中某個特征詞大量出現(xiàn)時TF值對分類結(jié)果的綁架、干擾分類模型的區(qū)分度。在訓(xùn)練階段構(gòu)建出貝葉斯模型后,可以在識別階段根據(jù)構(gòu)建出的貝葉斯模型,對待判定的文本進(jìn)行垃圾識別,具體流程圖如圖3所示,具體步驟包括:S301:對待判定文本進(jìn)行分詞,得到該待判定文本的詞語集合。具體地,對于待判定文本進(jìn)行分詞:將該文本中連續(xù)的字序列劃分為一個個詞語;在劃分出的詞語中,去除掉沒有實際意義的虛詞(如標(biāo)點、組動詞、語氣詞、嘆詞、擬聲詞等);剩余的詞語構(gòu)成該文本的詞語集合。S302:提取出待判定文本的關(guān)鍵詞。具體地,對于待判定文本進(jìn)行分詞后得到的每個詞語,確定該詞語的詞性和IDF值;從對待判定文本進(jìn)行分詞后得到的詞語中,選擇IDF值高于設(shè)定閾值、詞性符合預(yù)設(shè)條件的詞語作為所述待判定文本的關(guān)鍵詞。其中,設(shè)定閾值可以由本領(lǐng)域技術(shù)人員根據(jù)實際情況進(jìn)行設(shè)定;所述詞性符合預(yù)設(shè)條件的詞語具體可以是詞性為名詞、或動詞的詞語。S303:針對待判定文本的每個關(guān)鍵詞,計算該關(guān)鍵詞的特征值。具體地,針對所述待判定文本,根據(jù)該文本的每個關(guān)鍵詞的TF值和IDF值,采用上述公式1計算該詞語的特征值。S304:針對待判定文本的每個關(guān)鍵詞,在貝葉斯模型中查找與該關(guān)鍵詞相匹配的特征詞。具體地,針對待判定文本的每個關(guān)鍵詞,從上述方法得到的貝葉斯模型中的特征詞中,查找出與該關(guān)鍵詞相匹配的特征詞。S305:針對待判定文本的每個關(guān)鍵詞,將查找到的與該關(guān)鍵詞相匹配的特征詞的正向權(quán)重值和負(fù)向權(quán)重值,分別作為該關(guān)鍵詞的正向權(quán)重值和負(fù)向權(quán)重值。具體地,對于查找到的特征詞,將該特征詞的正向權(quán)重值和負(fù)向權(quán)重值,分別作為與之匹配的關(guān)鍵詞的正向權(quán)重值和負(fù)向權(quán)重值。S306:根據(jù)待判定文本的每個關(guān)鍵詞的特征值以及正向權(quán)重值,計算待判定文本的正向分類值;根據(jù)待判定文本的每個關(guān)鍵詞的特征值以及負(fù)向權(quán)重值,計算待判定文本的負(fù)向分類值。本步驟中,可以根據(jù)如下公式5計算出待判定文本的正向分類值Scoreg:(公式5)上述公式5中,n表示待判定文本的關(guān)鍵詞的總數(shù);word_valuei表示待判定文本的n個關(guān)鍵詞中的第i個關(guān)鍵詞的特征值;word_weight_gi表示待判定文本的n個關(guān)鍵詞中的第i個關(guān)鍵詞的正向權(quán)重值;本步驟中,可以根據(jù)如下公式6計算出待判定文本的負(fù)向分類值Scoreb:(公式6)上述公式6中,n表示待判定文本的關(guān)鍵詞的總數(shù);word_valuei表示待判定文本的n個關(guān)鍵詞中的第i個關(guān)鍵詞的特征值;word_weight_bi表示待判定文本的n個關(guān)鍵詞中的第i個關(guān)鍵詞的負(fù)向權(quán)重值。上述待判定文本的正向分類值指的是該待判定文本為非垃圾文本的概率權(quán)重值;上述待判定文本的負(fù)向分類值指的是該待判定文本為垃圾文本的概率權(quán)重值。S307:根據(jù)待判定文本的正向分類值和負(fù)向分類值,確定待判定文本是否為垃圾文本。具體地,根據(jù)如下公式7,計算出所述待判定文本為垃圾文本的概率:(公式7)上述公式7中,Scoreg表示該待判定文本的正向分類值;Scoreb表示該待判定文本的負(fù)向分類值;aprioity表示訓(xùn)練集中非垃圾文本的占比,即非垃圾文本數(shù)量與訓(xùn)練集中總文本數(shù)的比例。根據(jù)計算出的概率Pbad,確定所述待判定文本是否為垃圾文本。具體地,當(dāng)計算出該待判定文本的概率Pbad大于某一設(shè)定概率值時,此時判定該待判定文本為垃圾文本。在識別階段,由于待判定文本的可用信息有限;此時,某特征詞在待判定文本中大量出現(xiàn)時,是分類的有效區(qū)分標(biāo)志,所以采用特征詞頻率(IDF值)來計算待判定文本的關(guān)鍵詞的特征值,可充分利用文本信息,強化重要特征信息,提升分類準(zhǔn)確性?;谏鲜龅姆椒ǎ景l(fā)明實施例提供的一種基于貝葉斯模型的文本垃圾識別系統(tǒng),如圖4所示,包括:識別裝置401和建模裝置402。其中,建模裝置402中包括:訓(xùn)練集關(guān)鍵詞確定模塊421、特征詞選取模塊422、統(tǒng)計模塊423和特征詞正負(fù)向權(quán)重值計算模塊424。訓(xùn)練集關(guān)鍵詞確定模塊421用于對于訓(xùn)練集中已區(qū)分為垃圾文本,或非垃圾文本的每個文本,進(jìn)行分詞后得到該文本的關(guān)鍵詞。特征詞選取模塊422用于針對訓(xùn)練集關(guān)鍵詞確定模塊421得到的訓(xùn)練集中每個文本的關(guān)鍵詞,計算每個關(guān)鍵詞的類別相關(guān)度;從訓(xùn)練集關(guān)鍵詞確定模塊421中得到的各文本的關(guān)鍵詞中,選取類別相關(guān)度高于設(shè)定值的關(guān)鍵詞作為所述貝葉斯模型的特征詞。統(tǒng)計模塊423用于針對特征詞選取模塊422得到的貝葉斯模型的每個特征詞,在所述訓(xùn)練集中統(tǒng)計非垃圾文本中包含有該特征詞的文本的數(shù)量numg,統(tǒng)計垃圾文本中包含有該特征詞的文本的數(shù)量numb。特征詞正負(fù)向權(quán)重值計算模塊424用于針對特征詞選取模塊422得到的貝葉斯模型的每個特征詞,根據(jù)統(tǒng)計模塊423得到的該特征詞的numg以及所述訓(xùn)練集中非垃圾文本總數(shù),計算出該特征詞的正向權(quán)重值;根據(jù)統(tǒng)計模塊423得到的該特征詞的numb以及所述訓(xùn)練集中垃圾文本總數(shù),計算出該特征詞的負(fù)向權(quán)重值;并將計算出的特征詞的正、負(fù)向權(quán)重值存儲于所述貝葉斯模型中。其中,識別裝置401中包括:關(guān)鍵詞確定模塊411、正負(fù)向權(quán)重值計算模塊412、正負(fù)向分類值計算模塊413和判定結(jié)果輸出模塊414。關(guān)鍵詞確定模塊411用于對待判定文本進(jìn)行分詞,得到所述待判定文本的關(guān)鍵詞。正負(fù)向權(quán)重值計算模塊412用于針對關(guān)鍵詞確定模塊411得到的所述待判定文本的每個關(guān)鍵詞,計算該關(guān)鍵詞的特征值,并在貝葉斯模型中查找與該關(guān)鍵詞相匹配的特征詞,獲取查找到的特征詞的正向權(quán)重值和負(fù)向權(quán)重值,分別作為該關(guān)鍵詞的正向權(quán)重值和負(fù)向權(quán)重值;其中,所述特征詞的正、負(fù)向權(quán)重值分別指的是所述特征詞屬于非垃圾文本、垃圾文本的概率權(quán)重值。正負(fù)向分類值計算模塊413用于根據(jù)計算出的待判定文本的每個關(guān)鍵詞的特征值以及正負(fù)向權(quán)重值計算模塊412得到的每個關(guān)鍵詞的正向權(quán)重值,計算所述待判定文本的正向分類值;根據(jù)待判定文本的每個關(guān)鍵詞的特征值以及正負(fù)向權(quán)重值計算模塊412得到的每個關(guān)鍵詞的負(fù)向權(quán)重值,計算所述待判定文本的負(fù)向分類值。判定結(jié)果輸出模塊414用于根據(jù)正負(fù)向分類值計算模塊413得到的待判定文本的正向分類值和負(fù)向分類值,確定所述待判定文本是否為垃圾文本,并將判定結(jié)果輸出。本發(fā)明的技術(shù)方案中,在訓(xùn)練階段主要是應(yīng)用詞語的IDF值(即包含該詞語的垃圾文本,或非垃圾文本的文本頻率值)來確定貝葉斯模型,避免TF值對貝葉斯模型的綁架;從而在識別階段,依據(jù)該貝葉斯模型進(jìn)行垃圾文本識別的系統(tǒng)可以具有更好的魯棒性。而且,識別階段綜合考慮詞語的TF值和IDF值,根據(jù)TF值和IDF值計算出詞語的特征值進(jìn)行文本的垃圾文本的識別,以有效利用詞語的特征的信息量,以作出較為準(zhǔn)確的垃圾文本判斷。以上所述僅是本發(fā)明的優(yōu)選實施方式,應(yīng)當(dāng)指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以作出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也應(yīng)視為本發(fā)明的保護范圍。
當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
会东县| 和龙市| 蓝田县| 泽普县| 博野县| 临潭县| 庆元县| 微山县| 阳信县| 天门市| 武陟县| 溧水县| 德江县| 寿宁县| 化德县| 上思县| 集贤县| 绥江县| 贡嘎县| 乡城县| 广汉市| 东乌| 师宗县| 日喀则市| 五莲县| 厦门市| 新野县| 安宁市| 营口市| 弥勒县| 怀柔区| 龙游县| 镇远县| 昂仁县| 祁东县| 黄浦区| 故城县| 当雄县| 根河市| 澎湖县| 富裕县|