專利名稱:一種新的面向文本分類的特征向量權(quán)重的方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計算機科學(xué)與技術(shù)領(lǐng)域,特別是一種新的面向文本分類的特征向量權(quán)重的方法及裝置。
背景技術(shù):
隨著科學(xué)技術(shù)尤其是信息技術(shù)的不斷發(fā)展,人與人之間的交流方式已經(jīng)從單純的面對面交流發(fā)展到越來越多的采用“文本”這種語言形式作為信息載體。最為明顯的例子就是數(shù)字圖書館和網(wǎng)頁文本。毫無疑問,對這些語言資源的有效管理可以為用戶獲取信息提供很大的便利。但是隨著網(wǎng)絡(luò)通信的發(fā)展,網(wǎng)上可用文本信息的數(shù)量急劇膨脹,甚至可以說是成指數(shù)級增長,如果再像以前那樣手工對這些文本進行分類不但費時費力,而且準(zhǔn)確率也無法保證,因此自動文本分類技術(shù)應(yīng)運而生。此外,自動文本分類技術(shù)在許多方面都有應(yīng)用,例如文檔索引的建立、不良信息的過濾、不同領(lǐng)域信息的分流、主題識別、自動文摘、詞義消歧、智能信息檢索以及其他需要對文檔進行整理的地方。
從60年代計算機剛剛興起,人們就認(rèn)識到了文本分類技術(shù)重要性,并進行了初步的探索和研究,一直到80年代末基本上都是基于規(guī)則的知識工程的方法。這種方法費時費力,準(zhǔn)確率也不高,尤其對于不常出現(xiàn)的關(guān)鍵詞很難建立規(guī)則,同時還需要一支由語言學(xué)家組成的智囊團的支持。所以隨著90年代基于統(tǒng)計的自然語言技術(shù)的興起,機器學(xué)習(xí)的方法逐漸被應(yīng)用到文本分類技術(shù)中,并迅速成為主流趨勢,出現(xiàn)了各種各樣的基于統(tǒng)計的文本分類方法k近鄰方法、貝葉斯方法、支持向量機、規(guī)則學(xué)習(xí)方法、相關(guān)反饋方法、神經(jīng)網(wǎng)絡(luò)方法、決策樹等等。根據(jù)卡耐基梅隆大學(xué)Yiming Yang報道的結(jié)果,基于向量空間模型的支持向量機方法效果最好,其他幾種方法的基礎(chǔ)多數(shù)也要先建立類和文本的特征向量。特征向量的建立最常用的方法就是TF*IDF(TFTerm Frequency,IDFInverse Document Frequency)方法,以及由它派生的TF*IWF(TermFrequency,IWFInverse Word Frequency)方法。但是從已經(jīng)報道的實驗結(jié)果來看,使用這種方法的分類器的準(zhǔn)確率都不高,最好的F1測度也就是85%?;诖耍疚淖髡邔F*IWF方法進行了深入的分析,引入兩個變量(DBV和TF的n次根)對其進行了改進,實驗證明改進后分類準(zhǔn)確率提高了11.8個百分點,充分證明了這種改進的有效性。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種新的面向文本分類的特征向量權(quán)重的方法和一種新的分類器的設(shè)計思路。
本發(fā)明是以計算機作為工具,根據(jù)改進的特征權(quán)重算法,采取一定的選詞策略和閥值器,建立了包含從文本預(yù)處理到自動分類,再到分類結(jié)果的后優(yōu)化等一整套功能的自動分類裝置。
本發(fā)明為基于統(tǒng)計的文本分類方法提供了一條計算向量權(quán)重的途徑。該方法是在TF*IWF方法中引入了DBV變量,并用TF的n次方根代替了TF,從而得到了改進后的方法,即TF*IWF*DBV(Term Frequency,Inverse Word Frequency,DBVDis-banlance Variable)方法。實驗證明該方法可以大大提高文本分類的正確率、召回率和F1測度。
面向文本分類的特征向量權(quán)重分類器的裝置,由語料收集及前處理裝置、特征抽取裝置、分類器、閥值裝置、后處理裝置組成,其中,語料收集及前處理裝置、特征抽取裝置、分類器、閥值裝置、后處理裝置依次串聯(lián)連接。
發(fā)明技術(shù)方案面向文本分類的特征向量權(quán)重的方法用基于TF*IWF*DBV特征向量權(quán)重方法計算特征向量并進行文本分類的步驟a)按領(lǐng)域收集訓(xùn)練語料和測試語料;b)去除網(wǎng)頁文本的一些“垃圾”、分詞、詞性標(biāo)注;c)從訓(xùn)練語料中提取出每個領(lǐng)域的詞表(詞、詞性、領(lǐng)域內(nèi)詞頻),同時提取出總詞表(詞、詞性、總詞頻);d)根據(jù)總詞表和領(lǐng)域詞表建立用于分類的具有不同關(guān)鍵詞數(shù)目的信息詞表(包括詞、詞性、詞頻、IWF、DBV等);e)使用信息詞表和和特征權(quán)重算法(TF*IWF*DBV)對測試文本進行分類,計算F1測度,同時優(yōu)化得到最優(yōu)閥值;f)根據(jù)分類結(jié)果確定最優(yōu)的關(guān)鍵詞數(shù)目。
步驟e中提到的建立文本和類向量空間模型時采用的TF*IWF*DBV特征向量權(quán)重方法。
步驟e中提到的特征向量權(quán)重方法中表述變量在不同類之間分布差異性的數(shù)學(xué)變量DBV。
步驟e中提到的特征向量權(quán)重方法中TF的n次方根的引入。
步驟f中提到的根據(jù)不同數(shù)目關(guān)鍵詞下分類準(zhǔn)確率變化曲線圖確定最佳關(guān)鍵詞數(shù)目的方法。
下面詳細說明本發(fā)明技術(shù)方案中所涉及的各個細節(jié)問題。
1、語料選擇本實驗采用的語料包括兩部分,一部分是中科院自動化所和Nokia公司為歐盟合作項目(LC-Star)建立的3087萬字的漢語語料庫,分六個領(lǐng)域(體育、娛樂和游戲、財經(jīng)、新聞、個人交流、消費信息),這一部分語料作為訓(xùn)練語料;第二部分語料是1119個從網(wǎng)上隨意收集的文本(共807158個漢字),分屬于這六個領(lǐng)域,各領(lǐng)域文本數(shù)分別為消費信息領(lǐng)域(189)、娛樂和游戲領(lǐng)域(320)、財經(jīng)領(lǐng)域(52)、新聞領(lǐng)域(100)、個人交流領(lǐng)域(101)、體育領(lǐng)域(357),這一部分語料作為開放的測試語料。
2、特征選取常見的文本分類的特征有字、詞、短語、段落、句子、概念以及它們的N-Gram信息。這里我們采用最常用也是被實驗證明為最有效的詞作為文本分類的特征。下面需要確定兩個問題第一,選取什么樣的詞;第二,選取多少詞。具體步驟如下1)提取各類別的總詞表,并去掉頻率在0.0001%以下的詞。這是因為對某個類別來講,出現(xiàn)頻率太低的詞對該類別幾乎沒有什么重要性。
2)從各個詞表中選取分別按照詞頻選取不同數(shù)目(100、200、500、1000、1500、2000、2500、3000、3500、4000)的關(guān)鍵詞,根據(jù)分類準(zhǔn)確率隨關(guān)鍵詞數(shù)目變化的曲線圖,找到最優(yōu)的關(guān)鍵詞數(shù)目。
3、方法的改進基于TF*IDF啟發(fā)式權(quán)重方法是Salton于1973提出的,其定義是特征fi在文本d中的權(quán)重w(fi,d)W(fi,d)=TF(fi,d)*IDF(fi)=N(fid)*log(N/N(fi))其中,N(fi)是出現(xiàn)fi的訓(xùn)練文本數(shù),N是總訓(xùn)練文本數(shù),N(fid)是文本d中出現(xiàn)fi的次數(shù)。
在此基礎(chǔ)上,Roberto Basili 1999提出了TF*IWF方法,他采用詞作為文本分類的特征,與前者的不同體現(xiàn)在兩個方面(1)后者采用關(guān)鍵詞出現(xiàn)的次數(shù)代替了前者中關(guān)鍵詞出現(xiàn)的文本數(shù),訓(xùn)練語料中所有詞出現(xiàn)次數(shù)之和代替了前者的總訓(xùn)練文本數(shù);(2)后者采用對數(shù)平方代替了前者的對數(shù)。
W(fi,d)=TF(fi,d)*IWF(fi)=N(fid)*(log(M/M(fi)))2我們提出的對TF*IWF方法的改進方法主要體現(xiàn)在如下兩個方面一利用TF的n次方根代替TF,從而削弱詞權(quán)重對詞頻的倚重,并通過實驗比較了n取1、2、3、4的效果;二是引入了DBV表述詞在不同類別中分布差異性這一屬性。
關(guān)鍵詞在某類的權(quán)重受三個因素影響一是該詞在當(dāng)前類中的出現(xiàn)頻率,二是該詞在總語料中的出現(xiàn)頻率,三是該詞在不同類別之間出現(xiàn)頻率的差異性。在TF*IWF方法中采用TF來表示第一個因素,原來是指詞次數(shù),這里我們用詞頻,但是我們知道在同一類別中如果詞W1的出現(xiàn)頻率是詞W2的兩倍并不能說W1對該類的重要性是W2的兩倍,直覺上應(yīng)當(dāng)小于兩倍。因此為了消弱頻率對于詞權(quán)重過度的影響,我們采用它的n(n≥1)次方根形式,并對n=1、n=2[P.P.T.M.van Mun]、n=3、n=4等幾種方根情況進行了實驗,通過比較分類效果我們找到了TF比較適當(dāng)?shù)谋硎拘问健?br>
在TF*IWF方法中采用IWF來表示第二個因素,其原理是總訓(xùn)練語料中出現(xiàn)次數(shù)越少的關(guān)鍵詞權(quán)重應(yīng)當(dāng)越高。但TF*IWF忽略了第三個因素,關(guān)鍵詞在總語料中出現(xiàn)次數(shù)多少并不能完全說明該詞在分類中的“重要性”,頻率相同的關(guān)鍵詞在分類中的“重要性”也是不同的在各類別之間分布越均勻,其重要性就越小,反之其重要性就越大。我們又知道方差是體現(xiàn)數(shù)據(jù)分布不均衡性的一個數(shù)學(xué)指標(biāo),但從方差公式中可以看出,方差大小又受到詞頻大小的影響,為了消除這種影響(因為詞頻因素在TF中已經(jīng)表示了,這里需要得到的只是詞頻之間的差異性表示),我們用方差除以該詞在各類中詞頻之和,于是得到式 表示關(guān)鍵詞在不同類之間的分布差異性。于是我們得到下面的詞權(quán)重計算公式W(fi,Cj)=Σj(pij-p‾i)2Σjpij×(log(MM(fi)))3×pijn]]>W(fi,d)=Σj(pij-p‾i)2Σjpij×(log(MM(fi)))3×pidn]]>其中,pij=Tij/Lj,Lj是類Cj含有的所有詞的次數(shù)之和,Tij是詞i在類Cj中出現(xiàn)的次數(shù);pid=Tid/Ld,Ld文本d含有的所有詞的次數(shù)之和,Tid是詞i在文本d中出現(xiàn)的次數(shù);p‾i=Σjpijm,]]>其中m是類別數(shù);理論上n可以取1,2,3,4。
文本特征向量 和類特征向量 C→j=(W(w1,Cj),W(w2,Cj),···W(wk,Cj))]]>
d→=(W(w1,d),W(w2,d),···W(wk,d))]]>其中,W(w1,Cj)、W(w1,d)分別是詞i在類別Cj、文檔d中的權(quán)重。k是總關(guān)鍵詞表中關(guān)鍵詞數(shù)目,kd是文本d中包含的關(guān)鍵詞的數(shù)目。
Cj和d的相似度函數(shù)(這里采用的是線性分類器,嚴(yán)格來講不是二者的相似度函數(shù),這里為了表示方便只是借用這個名稱)S(Cj,d)=C→j·d→]]>=(W(w1,Cj),···W(wk,Cj))·(W(w1,d),W···(wkd,d)))]]>4、評價函數(shù)與閥值的確定目前,國際上比較流行的判斷文本分類器效果的評價函數(shù)主要有兩種micro-F1測度及macro-F1測度[Yang,1997]。相比而言前者的使用更廣泛一些,其定義如下Nc代表被分類的文本數(shù)Nr代表被拒絕分類的文本數(shù)Ncr代表被分類文本中分類正確的文本數(shù)Ns代表應(yīng)該被分類的文本數(shù)總正確率p=NcrNc×100%]]>總召回率r=NcrNs×100%]]>評價函數(shù)F1測度Y=2rp/(r+p)一般來說,文本分類器不大可能保證100%對文件正確分類。尤其是當(dāng)某個文本與不同類別計算出來的相似度差別不大的時候,錯誤分類的概率會比較高,所以有必要設(shè)定一個閥值保證在出現(xiàn)這種情況時拒絕分類,以減小分類的錯誤率。
Saturnine(2003)曾提到利用兩個最大相似分?jǐn)?shù)之間關(guān)系作為閥值即比例閥值,這里根據(jù)文本分類的特點采用兩個最大相似分?jǐn)?shù)之間差的絕對值與最大相似分?jǐn)?shù)的比值X來判斷是否接受分類。X的值是在0-0.1之間以0.001為步進單位,以上面提到的評價函數(shù)F1測度為標(biāo)準(zhǔn)優(yōu)化得到的。對于不同的方法、不同數(shù)目的關(guān)鍵詞,根據(jù)優(yōu)化方法都可以得到一個可以使評價函數(shù)F1測度最優(yōu)的X值,此X值即為該條件下的閥值。于是可以得到下面的公式
X=(maxCjS(Cj,d)-secmaxCjS(Cj,d))maxCjS(Cj,d)]]>其中 分別是最大的和次大的Cj和d相似度分?jǐn)?shù)。
閥值Th的定義Th=argmaxX(Y)]]>5、實驗結(jié)果下表中是本實驗的結(jié)果 從實驗結(jié)果可以看到,在各個不同的關(guān)鍵詞數(shù)目下TF*IWF*DBV算法的分類效果都要好于TF*IWF算法,當(dāng)N=3500時,分類的F1值提高11.8%,充分證明了該方法的有效性。
圖1是本發(fā)明面向文本分類的特征向量權(quán)重方法的流程圖。
圖2是本發(fā)明自動文本分類器的裝置圖。
具體實施例方式
圖1中,面向文本分類的特征向量權(quán)重的方法,其具體步驟如下步驟S1,訓(xùn)練語料和測試語料的收集,一、按照六個領(lǐng)域(消費信息領(lǐng)域、娛樂和游戲領(lǐng)域、財經(jīng)領(lǐng)域、新聞領(lǐng)域、個人交流領(lǐng)域、體育領(lǐng)域)從網(wǎng)上下載訓(xùn)練語料,去除網(wǎng)頁文本的一些“垃圾”、分詞、詞性標(biāo)注,最后得到共3087萬字的訓(xùn)練語料。二、測試語料按照相同的原則從網(wǎng)上下載,整理,共得到1119個測試文本。語料收集以后進行了分詞處理。
步驟S2,1)各類別的總詞表,并去掉頻率在0.0001%以下的詞。這是因為對某個類別來講,出現(xiàn)頻率太低的詞對該類別幾乎沒有什么重要性。
2)個詞表中選取分別按照詞頻選取不同數(shù)目(從各領(lǐng)域中分別選取100、200、500、1000、1500、2000、2500、3000、3500、4000個關(guān)鍵詞)的關(guān)鍵詞,組成10個關(guān)鍵詞表。
步驟S3,構(gòu)造分類器,分別采用TF*IWF和TF*IWF*DBV權(quán)重算法,和分類算法對測試語料進行分類。
步驟S4,采用優(yōu)化的閥值算法,得到不同關(guān)鍵詞數(shù)目的分類詞表在不同權(quán)重算法下的分類結(jié)果。
步驟S5,對比分類的結(jié)果,找到達到最佳分類效果時的關(guān)鍵詞的數(shù)目。
圖2是本發(fā)明自動文本分類器的裝置圖。是實現(xiàn)本發(fā)明面向文本分類的特征向量權(quán)重方法的裝置結(jié)構(gòu)。由語料收集及前處理裝置、特征抽取裝置、分類器、閥值裝置、后處理裝置組成,其中,語料收集及前處理裝置、特征抽取裝置、分類器、閥值裝置、后處理裝置依次串聯(lián)連接。
權(quán)利要求
1.用基于TF*IWF*DBV特征向量權(quán)重方法計算特征向量并進行文本分類的步驟a)按領(lǐng)域收集訓(xùn)練語料和測試語料;b)去除網(wǎng)頁文本的一些“垃圾”、分詞、詞性標(biāo)注;c)從訓(xùn)練語料中提取出每個領(lǐng)域的詞表,同時提取出總詞表;d)根據(jù)總詞表和領(lǐng)域詞表建立用于分類的具有不同關(guān)鍵詞數(shù)目的信息詞表;e)使用信息詞表和特征權(quán)重算法(TF*IWF*DBV)對測試文本進行分類,計算F1測度,同時優(yōu)化得到最優(yōu)閥值;f)根據(jù)分類結(jié)果確定最優(yōu)的關(guān)鍵詞數(shù)目。
2.根據(jù)權(quán)利要求1的方法,其特征在于,步驟e中提到的建立文本和類向量空間模型時采用的TF*IWF*DBV特征向量權(quán)重方法。
3.根據(jù)權(quán)利要求1的方法,其特征在于,步驟e中提到的特征向量權(quán)重方法中表述變量在不同類之間分布差異性的數(shù)學(xué)變量DBV。
4.根據(jù)權(quán)利要求1的方法,其特征在于,步驟e中提到的特征向量權(quán)重方法中TF的n次方根的引入。
5.根據(jù)權(quán)利要求1的方法,其特征在于,步驟f中提到的根據(jù)不同數(shù)目關(guān)鍵詞下分類準(zhǔn)確率變化曲線圖確定最佳關(guān)鍵詞數(shù)目的方法。
6.面向文本分類的特征向量權(quán)重分類器的裝置,由語料收集及前處理裝置、特征抽取裝置、分類器、閥值裝置、后處理裝置組成,其中,語料收集及前處理裝置、特征抽取裝置、分類器、閥值裝置、后處理裝置依次串聯(lián)連接。
7.根據(jù)權(quán)利要求1的方法,其具體步驟如下步驟S1,訓(xùn)練語料和測試語料的收集,一、按照六個領(lǐng)域從網(wǎng)上下載訓(xùn)練語料,去除網(wǎng)頁文本的一些“垃圾”、分詞、詞性標(biāo)注,二、測試語料按照相同的原則從網(wǎng)上下載,整理;步驟S2,1)提取各類別的總詞表,2)從各個詞表中選取分別按照詞頻選取不同數(shù)目的關(guān)鍵詞,組成10個關(guān)鍵詞表;步驟S3,構(gòu)造分類器,分別采用TF*IWF和TF*IWF*DBV權(quán)重算法,和分類算法對測試語料進行分類;步驟S4,采用優(yōu)化的閥值算法,得到不同關(guān)鍵詞數(shù)目的分類詞表在不同權(quán)重算法下的分類結(jié)果;步驟S5,對比分類的結(jié)果,找到達到最佳分類效果時的關(guān)鍵詞的數(shù)目。
全文摘要
本發(fā)明涉及計算機科學(xué)與技術(shù)領(lǐng)域,特別是一種新的面向文本分類的特征向量權(quán)重的方法。文本分類方法中,TF*IDF和TF*IWF被廣泛的用來計算特征向量的權(quán)重。但是這兩種方法都過分的倚重詞頻,同時又無法表示出向量元素在類別之間分布的不均衡性。這里,我們提出了一種新的權(quán)重方法(TF*IWF*DBV)。在TF*IWF方法中引入了DBV和TF的n次方根彌補了方法的不足。實驗證明新方法的采用可以將F1測度提高11.8個百分點,充分證明了它的有效性。
文檔編號G06F17/21GK1719436SQ200410062789
公開日2006年1月11日 申請日期2004年7月9日 優(yōu)先權(quán)日2004年7月9日
發(fā)明者宗成慶, 陳克利 申請人:中國科學(xué)院自動化研究所