一種基于詞相似度的網(wǎng)絡(luò)文本分類方法
【專利摘要】本發(fā)明一種基于詞相似度的網(wǎng)絡(luò)文本分類方法,包括網(wǎng)絡(luò)文本預(yù)處理模塊、文本分詞模塊、詞袋模型模塊、文本空間向量表示模塊、分類結(jié)果計(jì)算模塊五個(gè)模塊。本發(fā)明能夠?qū)崿F(xiàn)對(duì)網(wǎng)絡(luò)文本進(jìn)行規(guī)范化預(yù)處理、去除無(wú)意義停用詞及標(biāo)點(diǎn)符號(hào)、分類類別確定、特征詞-類別相關(guān)度計(jì)算、組成詞袋模型、文本轉(zhuǎn)換為空間向量、計(jì)算文本所屬類別等功能,完成文本類別特征的抽取和量化分析,對(duì)語(yǔ)料庫(kù)處理、自動(dòng)文摘、信息過(guò)濾以及信息檢索等具有重要的作用。
【專利說(shuō)明】一種基于詞相似度的網(wǎng)絡(luò)文本分類方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種基于詞相似度的網(wǎng)絡(luò)文本分類方法,本發(fā)明采用計(jì)算詞與類別相關(guān)度技術(shù)實(shí)現(xiàn)對(duì)文本的分類或文本的主題挖掘,應(yīng)用于語(yǔ)料庫(kù)處理、自動(dòng)文摘、信息過(guò)濾以及信息檢索和數(shù)據(jù)挖掘等領(lǐng)域,屬于信息領(lǐng)域和自然語(yǔ)言處理領(lǐng)域。
【背景技術(shù)】
[0002]隨著萬(wàn)維網(wǎng)上及企業(yè)內(nèi)部的可用信息的不斷增長(zhǎng),人們?cè)絹?lái)越希望能更好的搜索、過(guò)濾、管理這些信息資源。文本分類簡(jiǎn)單來(lái)說(shuō),就是根據(jù)內(nèi)容把自然語(yǔ)言文本劃分到預(yù)先定義的類別中去的過(guò)程。它作為某些信息組織與管理的一個(gè)重要組成部分,也因此引起人們的關(guān)注與研究。
[0003]隨著互聯(lián)網(wǎng)的迅速發(fā)展,面向重要網(wǎng)絡(luò)媒體海量發(fā)布信息實(shí)現(xiàn)智能分類,對(duì)于網(wǎng)絡(luò)信息監(jiān)管、輿論引導(dǎo)工作有著深遠(yuǎn)的意義。那么如何通過(guò)有效的計(jì)算機(jī)輔助手段來(lái)對(duì)網(wǎng)絡(luò)上海量文本信息量按照一定的主題類別進(jìn)行自動(dòng)分類和主題挖掘是我們關(guān)注的焦點(diǎn)。
[0004]目前的文本分類方法大多是基于Salton等人在70年代提出的向量空間模型(VSM),這種方法計(jì)算簡(jiǎn)單有效,因此得到了廣泛應(yīng)用,但這種方法在文本表示時(shí)向量空間維數(shù)會(huì)達(dá)到上千維,大量的計(jì)算使分類器效率難以提高。另外,向量空間模型往往結(jié)合一些機(jī)器學(xué)習(xí)算法來(lái)解決文本自動(dòng)分類問(wèn)題,常用的算法有:決策樹(shù)、人工神經(jīng)網(wǎng)絡(luò)、KNN法、SVM法、Boosting方法、Bayes法和基于規(guī)則的方法等等。但是這些算法需要使用大量語(yǔ)料進(jìn)行訓(xùn)練來(lái)得到分類模型,由于網(wǎng)絡(luò)文本數(shù)據(jù)浩大,結(jié)構(gòu)千差萬(wàn)別,因此該方式往往存在時(shí)間復(fù)雜度和空間復(fù)雜度較大的缺點(diǎn)。針對(duì)上述的問(wèn)題,我們提出了一種基于詞相似度的網(wǎng)絡(luò)文本分類方法,能有效應(yīng)對(duì)海量網(wǎng)絡(luò)文本處理過(guò)程中的效率問(wèn)題。
[0005]本專利提出將計(jì)算詞與類別相關(guān)度技術(shù)應(yīng)用于對(duì)網(wǎng)絡(luò)文本的自動(dòng)分類,我們首先利用詞向量空間模型WVSM理論,將詞表示成空間向量,即將m個(gè)類別組成m維的歐式空間,例如若有m個(gè)類另Ij C1, C2,...,Cm,則每一特征詞Ti可表不成一 m維向量(W1, W2,...,Wm),其中Wj為詞Ti與類別j的相關(guān)度。通過(guò)對(duì)已標(biāo)識(shí)類別樣本進(jìn)行訓(xùn)練生成特征詞-類別相關(guān)度矩陣A,矩陣中每一個(gè)元素au表示特征詞Ti對(duì)類別&的支持度(相關(guān)度),取得最大的支持度ma\ &及其對(duì)應(yīng)類別j,組成詞袋模型。下面以二維向量做詳細(xì)說(shuō)明。
[0006]若類別C= {體育,軍事},訓(xùn)練文本集經(jīng)處理后得到特征詞集T= KT1:足球),(T2:飛機(jī))},VT2的向量分別為(0.9000,0.0200), (0.0100,0.8000),比較后可以看出特征詞T1趨向于類C1, T2趨向于類C2。因此我們將足球和0.9000寫入詞袋模型中的“體育”類別下,將飛機(jī)和0.8000寫入“軍事”類別下。
[0007]下面實(shí)現(xiàn)對(duì)位置類別文本的自動(dòng)分類,我們將所獲取的網(wǎng)絡(luò)文本進(jìn)行過(guò)濾和分詞后,根據(jù)文本中是否出現(xiàn)詞袋模型中的詞項(xiàng)將文本轉(zhuǎn)換為空間向量,用W= Iw1, W2,…,wn}表示,其中η代表該文本可被劃分為η個(gè)類別,Wi代表該文本關(guān)于第i類的特征向量,且
【權(quán)利要求】
1.本發(fā)明涉及應(yīng)用于網(wǎng)絡(luò)文本分類的方法,并基于詞空間向量模型計(jì)算特征詞-類別相關(guān)度,由五個(gè)模塊組成:網(wǎng)絡(luò)文本預(yù)處理模塊、文本分詞模塊、詞袋模型模塊、文本空間向量表示模塊、分類結(jié)果計(jì)算模塊。
2.本發(fā)明的主要特點(diǎn)有: (1)基于詞向量空間模型,特征向量維數(shù)大幅下降且特征向量數(shù)目相對(duì)穩(wěn)定,能夠大大降低時(shí)間復(fù)雜度和空間復(fù)雜度。 (2)基于詞袋模型,將網(wǎng)絡(luò)文本轉(zhuǎn)換為低維空間向量??梢杂行崛【W(wǎng)絡(luò)文本中與類別相關(guān)的特征,能夠大大提高分類結(jié)果的準(zhǔn)確度并降低計(jì)算成本。
【文檔編號(hào)】G06F17/30GK103605702SQ201310552098
【公開(kāi)日】2014年2月26日 申請(qǐng)日期:2013年11月8日 優(yōu)先權(quán)日:2013年11月8日
【發(fā)明者】陸月明, 馬晶, 陳賢 申請(qǐng)人:北京郵電大學(xué)