基于tf-igm的文本特征向量生成方法和裝置及文本分類方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于文本挖掘與機器學(xué)習(xí)技術(shù)領(lǐng)域,特別涉及一種基于TF-IGM的文本特 征向量生成方法和裝置及文本分類方法和裝置。
【背景技術(shù)】
[0002] 隨著計算機的廣泛應(yīng)用和互聯(lián)網(wǎng)規(guī)模的不斷發(fā)展,電子文本文檔數(shù)量急劇增加, 因此對海量文本數(shù)據(jù)進行有效地組織、檢索和挖掘變得越來越重要。自動文本分類就是應(yīng) 用廣泛的技術(shù)手段之一,它常采用向量空間模型(VSM)來表示文本,再用有監(jiān)督的機器學(xué) 習(xí)方法進行分類。通過從文本中提取一定數(shù)量的特征詞并計算其權(quán)重,VSM模型把文本表 示成由多個特征詞的權(quán)重值所組成的向量,稱為特征向量。在生成文本特征向量時,特征詞 權(quán)重計算方法是否科學(xué)決定了文本分類的性能。
[0003] 傳統(tǒng)的權(quán)重計算方法有二值法(或布爾法,Boolean)、TF(詞頻,TermFrequency) 法和TF-IDF(詞頻-反文檔頻率,TermFrequency&InverseDocumentFrequency)法等, 其中TF-IDF法綜合考慮了特征詞在單個文檔中的局部權(quán)重因子(即詞頻,TF)和在整個文 檔集合中的全局權(quán)重因子(即反文檔頻率,IDF),因此計算更加科學(xué)而被廣泛采用。實際 上,自動文本分類需要在預(yù)先已分類的文本集上進行訓(xùn)練學(xué)習(xí),但是TF-IDF法并沒有考慮 特征詞出現(xiàn)的文本類別,不能充分反映特征詞在文本分類中的重要性。于是,人們又提出 了利用特征詞的類別分布信息來計算權(quán)重的一些新方法,統(tǒng)稱為有監(jiān)督的詞加權(quán),其中典 型代表就是TF-RF(詞頻-相關(guān)性頻率,TermFrequency&RelevanceFrequency)方法,它 利用特征詞在正類文本和反類文本中出現(xiàn)的文檔數(shù)之比來計算權(quán)重。雖然在解決某些兩 類文本分類問題上表現(xiàn)出較好性能,但是TF-RF方法在多類別文本分類中存在一個主要問 題:它把多個類別的文本合并成單個反類來處理,而沒有考慮特征詞在這些文本類別中的 詳細分布信息,導(dǎo)致權(quán)重計算存在偏差。另外,TF-RF等有監(jiān)督詞加權(quán)方法所計算的特征詞 權(quán)重與具體文本的類別有關(guān),而待分類的新文本或測試文本的類別是未知的,當把待分類 文本表示成特征向量時,要么采用TF-IDF等傳統(tǒng)方法計算權(quán)重,要么針對所有類別逐一用 TF-RF方法計算權(quán)重,前者需要在訓(xùn)練學(xué)習(xí)時增加額外的統(tǒng)計信息,后者則在分類或測試時 增加了計算量和多種變數(shù)。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明提供了一種基于TF-IGM(詞頻-反重力矩,TermFrequency&Inverse GravityMoment)的文本特征向量生成方法和裝置及文本分類方法和裝置,通過充分利用 特征詞在不同類別文本中出現(xiàn)的詳細分布信息,并建立一種稱為反重力矩(IGM)的模型來 度量特征詞的類間分布集中度,使得權(quán)重計算更加合理有效,從而提高文本分類器的性能, 以克服現(xiàn)有技術(shù)中特征詞權(quán)重計算偏差大的問題;所提供的上述方法和裝置具備多個可調(diào) 節(jié)的選項參數(shù),能根據(jù)文本分類性能測試結(jié)果進行優(yōu)化調(diào)節(jié),從而獲得最優(yōu)的文本分類效 果。
[0005] -種用于文本分類的特征向量生成方法,包括以下步驟:
[0006] 步驟1 :將已分類的訓(xùn)練文本集和待分類的文本集進行預(yù)處理;
[0007] 所述已分類的訓(xùn)練文本集簡稱為訓(xùn)練集,其中每個文檔都帶有類別標簽;
[0008] 所述待分類的文本集為無類別標簽的文本集或帶有類別標簽的測試文本集;
[0009] 所述預(yù)處理是指對文本進行分詞和去噪處理,所述去噪包括去除標點符號、數(shù)字 及停用詞;
[0010] 步驟2 :從預(yù)處理后的訓(xùn)練集中提取不同的詞條,構(gòu)建由不同的詞條組成的初始 詞表;
[0011] 并且統(tǒng)計訓(xùn)練集中的每個文本類別的文檔數(shù)目、每個詞條的類別文檔頻率;所述 詞條類別文檔頻率是指包含某詞條的屬于某個文本類別的訓(xùn)練文檔數(shù)目;
[0012] 同時,統(tǒng)計訓(xùn)練集與待分類的文本集中每個文檔包含的每個詞條的詞頻,所述每 個文檔包括訓(xùn)練文檔和待分類文檔,所述詞頻是指某詞條在一篇文檔中的出現(xiàn)頻次;
[0013] 步驟3 :根據(jù)特征選擇指標對初始詞表進行篩選,保留指標計算值大的詞條作為 文本的特征詞,構(gòu)建新的特征詞表;
[0014] 待分類的文本集和訓(xùn)練集使用相同的特征詞表;
[0015] 所述特征選擇指標包括卡方統(tǒng)計量或信息增益;
[0016] 所述篩選方法是先計算每個詞條的特征選擇指標,將所有詞條的特征選擇指標計 算值按照從大到小排序,選擇排列在前面的600~6000個詞條作為特征詞;
[0017] 根據(jù)需要,選擇的特征詞數(shù)量范圍也可進一步擴大,以便在分類準確度和分類速 度之間進行權(quán)衡。
[0018] 步驟4 :用TF-IGM方法計算每個特征詞在文檔中的權(quán)重,并生成文檔特征向量;
[0019] 所述TF-IGM權(quán)重計算方法是先按照以下公式計算特征詞tk在文檔d的權(quán)重 W(tk,cQ,再按照以下公式對特征詞權(quán)重進行歸一化處理;最后用每個特征詞的歸一化權(quán)重 值疋(匕,<)組成文檔屯的特征向|
【主權(quán)項】
1. 一種用于文本分類的特征向量生成方法,其特征在于,包括以下步驟: 步驟1 :將已分類的訓(xùn)練文本集和待分類的文本集進行預(yù)處理; 所述已分類的訓(xùn)練文本集簡稱為訓(xùn)練集,其中每個文檔都帶有類別標簽; 所述待分類的文本集為無類別標簽的文本集或帶有類別標簽的測試文本集; 所述預(yù)處理是指對文本進行分詞和去噪處理,所述去噪包括去除標點符號、數(shù)字及停 用詞; 步驟2 :從預(yù)處理后的訓(xùn)練集中提取不同的詞條,構(gòu)建由不同的詞條組成的初始詞表; 并且統(tǒng)計訓(xùn)練集中的每個文本類別的文檔數(shù)目、每個詞條的類別文檔頻率;所述詞條 類別文檔頻率是指包含某詞條的屬于某個文本類別的訓(xùn)練文檔數(shù)目; 同時,統(tǒng)計訓(xùn)練集與待分類的文本集中每個文檔包含的每個詞條的詞頻,所述每個文 檔包括訓(xùn)練文檔和待分類文檔,所述詞頻是指某詞條在一篇文檔中的出現(xiàn)頻次; 步驟3 :根據(jù)特征選擇指標對初始詞表進行篩選,保留指標計算值大的詞條作為文本 的特征詞,構(gòu)建新的特征詞表; 待分類的文本集和訓(xùn)練集使用相同的特征詞表; 所述特征選擇指標包括卡方統(tǒng)計量或信息增益; 所述篩選方法是先計算每個詞條的特征選擇指標,將所有詞條的特征選擇指標計算值 按照從大到小排序,選擇排列在前面的600~6000個詞條作為特征詞; 步驟4 :用TF-IGM方法計算每個特征詞在文檔中的權(quán)重,并生成文檔特征向量; 所述TF-IGM權(quán)重計算方法是先按照以下公式計算特征詞tk在文檔d 的權(quán)重 W(tk,(Ii);再按照以下公式對特征詞權(quán)重進行歸一化處理;最后用每個特征詞的歸一化權(quán) 重值拓(4,4)組成文檔Cli的特征向量
其中,k,j = 1,2,…,η,η為經(jīng)過步驟3篩選后保留的不同特征詞的數(shù)量;%fwbX) 為基于詞頻的局部權(quán)重因子,為基于類間分布集中度的全局權(quán)重因子;
,tfki為特征詞t k在文檔d沖的原始詞頻, l〇g(tfki+l)是對數(shù)詞頻,I是開方詞頻,%匕取三者中的任意一個值; 所述基于類間分布集中度的全局權(quán)重因子%;itfo)采用類間分布集中度、類間分布集 中度與類內(nèi)分布均勻度結(jié)合、類間分布集中度與反文檔頻率結(jié)合、或者類間分布集中度與 反詞頻結(jié)合進行計算獲得。
2. 根據(jù)權(quán)利要求1所述的一種用于文本分類的特征向量生成方法,其特征在于,所述 基于類間分布集中度的全局權(quán)重因子采用以下公式計算獲得:
λ為可調(diào)節(jié)系數(shù),取6~7, Cic;d(tk)為特征詞tk的類間分布集中度。
3. 根據(jù)權(quán)利要求2所述的一種用于文本分類的特征向量生成方法,其特征在于,所述 特征詞tk的類間分布集中度C ic;d(tk)采用以下的反重力矩模型公式計算獲得:
特征詞tk在各個文本類別中的出現(xiàn)頻次按從大到小排序為F i多F2多......多F表示 文本類別數(shù),F(xiàn)r (r = 1,2, ...,m)為排序后特征詞tk在第r個文本類別中的出現(xiàn)頻次,取值 為詞條類別文檔頻率DFr或詞條類別平均詞頻avgTF y (F^r)是第r個文本類別對應(yīng)的重 力矩; 所述詞條類別文檔頻率是指包含某詞條的屬于某個文本類別的訓(xùn)練文檔數(shù)目; 所述詞條類別平均詞頻是指某詞條在訓(xùn)練集某個文本類別的任一訓(xùn)練文檔中出現(xiàn)的 平均次數(shù),等于該詞條在某個文本類別的所有訓(xùn)練文檔中的詞頻之和除以這個類別的文檔 數(shù)目。
4. 一種基于TF-IGM權(quán)重的文本分類方法,其特征在于,基于權(quán)利要求1-3任一項所述 的一種用于文本分類的特征向量生成方法,首先,計算已知類別的每個訓(xùn)練文檔和待分類 的每個文檔中所有特征詞的TF-IGM權(quán)重,得到對應(yīng)的文檔特征向量;然后,將已知類別的 文本訓(xùn)練集對應(yīng)的文檔特征向量集輸入分類器,進行分類訓(xùn)練,得到已訓(xùn)練好的分類器;最 后,再將待分類的文本集對應(yīng)的文檔特征向量集輸入已訓(xùn)練好的分類器,完成對文檔的分 類。
5. 根據(jù)權(quán)利要求4所述的一種基于TF-IGM權(quán)重的文本分類方法,其特征在于,對測試 文檔分類結(jié)果進行評估,得到分類性能指標,基于分類性能指標對初始特征詞表篩選方法 和保留的特征詞數(shù)目進行更改、改變局部權(quán)重因子類型、調(diào)節(jié)全局權(quán)重因子的可調(diào)節(jié)系數(shù) λ或優(yōu)化分類器參數(shù),直到測試文本集分類結(jié)果的宏平均Fl值和微平均Fl值達到最優(yōu); 所述分類性能指標包括每個類別的準確率、召回率、綜合性能Fl值,以及所有類別的 宏平均Fl值和微平均Fl值; 微平均 Fl 值=2P*IV(P+R) 宏平均 Fl 值=sum (Flj)/m 其中,P為整個測試文本集分類結(jié)果的準確率,R為整個測試文本集被正確分類的召回 率;Flj= 2P」*?ν(Ρ」+Κ」)為第j個文本類別(j = 1,2,…,m)的分類性能指標Fl值,m為 類別數(shù),P#P L為第j類文本分類的準確率和召回率,sum()是求和函數(shù)。
6. -種用于文本分類的特征向量生成裝置,其特征在于,基于權(quán)利要求1-3任一項所 述的一種用于文本分類的特征向量生成方法,包括按順序依次串接的文本預(yù)處理模塊、訓(xùn) 練集詞表構(gòu)建與統(tǒng)計模塊、特征選擇模塊及特征詞的TF-IGM權(quán)重計算模塊。
7. -種基于TF-IGM權(quán)重的文本分類裝置,其特征在于,利用權(quán)利要求6所述的用于文 本分類的特征向量生成裝置與任何一種分類器和相應(yīng)的性能評估器組成文本分類裝置; 所述特征向量生成裝置將從輸入的文本集生成的特征向量輸出到分類器進行訓(xùn)練和 分類,并可根據(jù)性能評估結(jié)果反饋調(diào)節(jié)它的各選項參數(shù)輸入值,從而獲得最優(yōu)的文本分類 性能。
【專利摘要】本發(fā)明公開了一種基于TF-IGM的文本特征向量生成方法和裝置及文本分類方法和裝置,通過建立反重力矩(IGM)模型來計算特征詞在不同類別文本中分布的集中度,并在此基礎(chǔ)上計算特征詞的權(quán)重。計算所得權(quán)重更能逼真地反映特征詞在文本分類中的重要性,提高了文本分類器的性能?;赥F-IGM方法的文本特征向量生成裝置具備多個選項,可根據(jù)文本分類性能測試結(jié)果進行優(yōu)化調(diào)節(jié),適應(yīng)具有不同特性的文本數(shù)據(jù)集。在公共的英文語料庫和中文語料庫上的實驗表明,TF-IGM方法比TF-IDF、TF-RF等現(xiàn)有方法更加優(yōu)越,尤其適合兩類以上的多類別文本分類應(yīng)用。
【IPC分類】G06F17-30
【公開號】CN104750844
【申請?zhí)枴緾N201510165395
【發(fā)明人】龍軍, 陳科文, 張祖平, 楊柳
【申請人】中南大學(xué)
【公開日】2015年7月1日
【申請日】2015年4月9日