專利名稱:一種計算機中文文本分類方法
技術領域:
本發(fā)明涉及一種計算機文本處理領域,特別是一種計算機中文文本分類方法。
背景技術:
隨著當今世界信息量的急劇增加,以及計算機網絡技術迅速普及和發(fā)展,大量的文檔以電子的形式出現。為了更好的管理越來越多的文檔,人們對計算機進行自動文本分類的需求越來越大。文本分類就是根據文本的內容,利用計算機把ー個文本分成事先給定的某個類別。對于ー個文本分類任務,首先把每ー個文本都映射到一個高維歐幾里得空間,然后使用特征選擇方法或特征抽取方法選出一部分對分類有用的特征。利用機器學習里的分類器,從大量的訓練數據中學習出分類器模型,最后用這個分類器模型對未知類標的文本進行分類。近年來,隨著機器學習技術的發(fā)展,文本分類方法取得了一系列重要的進展。而在中文文本分類中,中文分詞是ー個重要的預處理步驟,因為中文文本的字與字之間不像英文單詞那樣有空格隔開。想要從文本中提取出特征,就必須首先對中文文本進行分詞。 分詞質量的優(yōu)劣,直接影響到分類結果的好壞。首先,分詞中產生的錯誤會影響分類器的性能,尤其是在網絡越來越發(fā)達的今天,新鮮的詞語層出不窮,這對分詞的精度是ー個很大的挑戰(zhàn)。其次,即使分詞結果全部正確,分詞也會帶來ー些關鍵信息的丟失。表I表示了兩個文本的分詞表示,其中ー個文本來自經濟類,另ー個來自計算機類。表I文本預處理的分詞示例
權利要求
1.一種計算機中文文本分類方法,其特征在于,包括以下步驟 步驟一,使用N-gram方法處理中文文本使用N-gram的方法把中文文本的表示為一個由一組特征組成的特征向量; 步驟二,使用詞頻逆向文件頻率法為特征向量中每一個特征賦予一個權重; 步驟三,利用L1-正則化邏輯回歸分類器模型為中文文本分類。
2.根據權利要求1中所述的方法,其特征在于,步驟一包括以下步驟 對于中文文本d = c1;c2,…cf,ck,其中Cj為中文文本d中的第j個字,j = I, 2,…k,k表示中文文本d的總字數,用N-gram的方法把中文文本d的表示為一個由一組特征組成的特征向量,表示為
3.根據權利要求2所述的方法,其特征在于,步驟二包括以下步驟 根據詞頻逆向文件頻率的計算公式計算特征向量中特征的權重
4.根據權利要求3中所述方法,其特征在于,步驟三包括以下步驟 根據L1-正則化邏輯回歸分類器的目標函數minpHpHi + C ΣΓ=1 log(l + β^Τχ'), 其中β是學習的參數,K是訓練數據集中作為訓練樣例的中文文本的總數,C是調節(jié)懲罰項和損失函數之間關系的常數,Yi是中文文本的類標,Xi是中文文本的向量形式; 根據中文文本訓練樣例得到一組分類器模型I = βτχ ;χ為中文文本的向量形式。
5.根據權利要求4中所述的方法,其特征在于,步驟三后包括以下步驟 對于一個輸入中文文本d,根據步驟一和步驟二轉化為向量形式X后,根據分類器模型y = β τχ判斷中文文本d的類別; 如果y > O,則為正類; 如果y〈 O,則為負類。
全文摘要
本發(fā)明提出了一種計算機中文文本分類方法,包括以下步驟使用N-gram方法處理中文文本使用N-gram的方法把中文文本的表示為一個由一組特征組成的特征向量;使用詞頻逆向文件頻率法為特征向量中每一個特征賦予一個權重;利用L1-正則化邏輯回歸分類器模型為中文文本分類。本發(fā)明對現有的基于分詞的中文文本分類方法進行改善和提高,能夠避免分詞對分類精度產生的不良影響。通過使用N-gram的形式來表達文本,可以很好地避免上述的兩方面問題。同時L1-正則化邏輯回歸分類器可以很好地解決N-gram帶來的數據稀疏性問題,從而提高文本分類的精度。
文檔編號G06F17/30GK103020167SQ20121048913
公開日2013年4月3日 申請日期2012年11月26日 優(yōu)先權日2012年11月26日
發(fā)明者戴新宇, 付強, 陳家駿, 黃書劍, 張建兵 申請人:南京大學