一種文本特征提取方法和裝置制造方法
【專利摘要】本申請(qǐng)公開了一種文本特征提取方法和裝置。該方法包括:對(duì)于特征詞庫中的特征詞Fi,根據(jù)樣本庫中包含所述特征詞Fi的樣本中該特征詞Fi的出現(xiàn)次數(shù)以及包含該特征詞Fi的樣本所具有的標(biāo)簽,確定該特征詞Fi與標(biāo)簽庫中的每個(gè)標(biāo)簽之間的互信息;對(duì)目標(biāo)文檔進(jìn)行分詞,獲得所述目標(biāo)文檔中出現(xiàn)的所有特征詞;基于目標(biāo)文檔中的每個(gè)特征詞與每個(gè)標(biāo)簽之間的互信息,確定所述目標(biāo)文檔中的每個(gè)特征詞對(duì)每個(gè)標(biāo)簽的權(quán)重,將所述目標(biāo)文檔中的所有特征詞對(duì)同一個(gè)標(biāo)簽的權(quán)重進(jìn)行加權(quán),得到所述目標(biāo)文檔中的所有特征詞對(duì)同一個(gè)標(biāo)簽的總權(quán)重;根據(jù)各個(gè)標(biāo)簽的所述總權(quán)重,從所述各個(gè)標(biāo)簽中確定出目標(biāo)標(biāo)簽作為所述目標(biāo)文檔的文本特征。應(yīng)用本申請(qǐng)能夠提高提取文本特征的準(zhǔn)確度。
【專利說明】一種文本特征提取方法和裝置
【技術(shù)領(lǐng)域】
[0001]本申請(qǐng)涉及信息【技術(shù)領(lǐng)域】,尤其涉及一種文本特征提取方法和裝置。
【背景技術(shù)】
[0002]在文本分類領(lǐng)域中,因?yàn)橐黄臋n里出現(xiàn)的特征詞的個(gè)數(shù)太多,如何從一篇文檔中提取到關(guān)鍵的特征詞,即如何從一篇文檔中提取文本特征,成為文本分類的重要技術(shù)問題。
[0003]常用的基于概率模型的文本分類因?yàn)閷?shí)現(xiàn)原理簡單、準(zhǔn)確率高的特點(diǎn),成為應(yīng)用最廣泛的文本分類方法之一。其中,基于互信息(Mutual Information, Ml)的文本特征提取就是一種典型的基于概率模型的文本分類方法。
[0004]互信息,是指兩個(gè)事件集合之間的相關(guān)性。
[0005]具體地,兩個(gè)事件X和Y的互信息定義為公式1:
[0006]
【權(quán)利要求】
1.一種文本特征提取方法,其特征在于,該方法包括: 對(duì)于特征詞庫中的特征詞Fi,根據(jù)預(yù)先建立的樣本庫中包含所述特征詞Fi的樣本中該特征詞Fi的出現(xiàn)次數(shù)以及包含該特征詞Fi的樣本所具有的標(biāo)簽,確定該特征詞Fi與標(biāo)簽庫中的每個(gè)標(biāo)簽之間的互信息; 對(duì)目標(biāo)文檔進(jìn)行分詞,獲得所述目標(biāo)文檔中出現(xiàn)的所有特征詞; 基于目標(biāo)文檔中的每個(gè)特征詞與每個(gè)標(biāo)簽之間的互信息,確定所述目標(biāo)文檔中的每個(gè)特征詞對(duì)每個(gè)標(biāo)簽的權(quán)重,將所述目標(biāo)文檔中的所有特征詞對(duì)同一個(gè)標(biāo)簽的權(quán)重進(jìn)行加權(quán),得到所述目標(biāo)文檔中的所有特征詞對(duì)同一個(gè)標(biāo)簽的總權(quán)重; 根據(jù)各個(gè)標(biāo)簽的所述總權(quán)重,從所述各個(gè)標(biāo)簽中確定出目標(biāo)標(biāo)簽作為所述目標(biāo)文檔的文本特征。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,確定該特征詞Fi與標(biāo)簽庫中的每個(gè)標(biāo)簽之間的互信息包括: 將特征詞Fi與標(biāo)簽庫中的標(biāo)簽L的互信息確定為:
3.一種文本特征提取方法,其特征在于,該方法包括: 對(duì)目標(biāo)文檔進(jìn)行分詞,獲得所述目標(biāo)文檔中出現(xiàn)的所有特征詞; 確定所述目標(biāo)文檔中的每個(gè)特征詞對(duì)每個(gè)標(biāo)簽的權(quán)重,將所述目標(biāo)文檔中的所有特征詞對(duì)同一個(gè)標(biāo)簽的權(quán)重進(jìn)行加權(quán),得到所述目標(biāo)文檔中的所有特征詞對(duì)同一個(gè)標(biāo)簽的總權(quán)重; 根據(jù)各個(gè)標(biāo)簽的所述總權(quán)重,從所述各個(gè)標(biāo)簽中確定出目標(biāo)標(biāo)簽作為所述目標(biāo)文檔的文本特征; 其中,確定所述目標(biāo)文檔中的每個(gè)特征詞對(duì)每個(gè)標(biāo)簽的權(quán)重包括: 根據(jù)特征詞Fi與標(biāo)簽Tj的互信息MI (Fi, Tj)、該特征詞Fi在所述目標(biāo)文檔中出現(xiàn)的次數(shù)TF (Fi)、以及該特征詞的重要程度IDF (Fi)確定該特征詞Fi對(duì)標(biāo)簽Tj的權(quán)重,其中,預(yù)先建立的樣本庫中包含該特征詞Fi的樣本個(gè)數(shù)越多,該特征詞Fi的重要程度IDF(Fi)越低。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,根據(jù)特征詞Fi與標(biāo)簽L的互信息MI (Fi, Tj)、該特征詞Fi在所述目標(biāo)文檔中出現(xiàn)的次數(shù)TF(Fi)、以及該特征詞Fi的重要度IDF(Fi)確定該特征詞Fi對(duì)標(biāo)簽L的權(quán)重包括: 將特征詞Fi對(duì)標(biāo)簽L的權(quán)重P (Fi, Tj)確定為:
P (Fi, Tj) =MI (Fi, Tj) X TF (Fi) X IDF (Fi); 將所述目標(biāo)文檔中的所有特征詞對(duì)同一個(gè)標(biāo)簽的權(quán)重進(jìn)行加權(quán),得到所述目標(biāo)文檔中的所有特征詞對(duì)所述標(biāo)簽的總權(quán)重包括:將目標(biāo)文檔中的所有特征詞的集合F對(duì)標(biāo)簽L的總權(quán)重ρ (F,Tj)確定為:
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,特征詞Fi的重要度IDF(Fi)為:
6.根據(jù)權(quán)利要求3或4或5所述的方法,其特征在于,特征詞Fi與標(biāo)簽Tj的互信息MI (Fi, Tj)為:
7.一種文本特征提取裝置,其特征在于,該裝置包括互信息確定模塊和文本特征提取模塊; 所述互信息確定模塊,對(duì)于特征詞庫中的特征詞Fi,根據(jù)預(yù)先建立的樣本庫中包含所述特征詞Fi的樣本中該特征詞Fi的出現(xiàn)次數(shù)以及包含該特征詞Fi的樣本所具有的標(biāo)簽,確定該特征詞Fi與標(biāo)簽庫中的每個(gè)標(biāo)簽之間的互信息; 所述文本特征提取模塊,用于對(duì)目標(biāo)文檔進(jìn)行分詞,獲得所述目標(biāo)文檔中出現(xiàn)的所有特征詞,基于目標(biāo)文檔中的每個(gè)特征詞與每個(gè)標(biāo)簽之間的互信息,確定所述目標(biāo)文檔中的每個(gè)特征詞對(duì)每個(gè)標(biāo)簽的權(quán)重,將所述目標(biāo)文檔中的所有特征詞對(duì)同一個(gè)標(biāo)簽的權(quán)重進(jìn)行加權(quán),得到所述目標(biāo)文檔中的所有特征詞對(duì)同一個(gè)標(biāo)簽的總權(quán)重,根據(jù)各個(gè)標(biāo)簽的所述總權(quán)重,從所述各個(gè)標(biāo)簽中確定出目標(biāo)標(biāo)簽作為所述目標(biāo)文檔的文本特征。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于, 所述互信息確定模塊,用于將特征詞Fi與標(biāo)簽L的互信息MI (Fi, Tj)確定為:
9.一種文本特征提取裝置,其特征在于,該裝置包括分詞模塊、權(quán)重確定模塊和文本特征提取1?塊; 所述分詞模塊,用于對(duì)目標(biāo)文檔進(jìn)行分詞,獲得所述目標(biāo)文檔中出現(xiàn)的所有特征詞;所述權(quán)重確定模塊,用于確定所述目標(biāo)文檔中的每個(gè)特征詞對(duì)每個(gè)標(biāo)簽的權(quán)重,將所述目標(biāo)文檔中的所有特征詞對(duì)同一個(gè)標(biāo)簽的權(quán)重進(jìn)行加權(quán),得到所述目標(biāo)文檔中的所有特征詞對(duì)同一個(gè)標(biāo)簽的總權(quán)重; 所述文本特征提取模塊,用于根據(jù)各個(gè)標(biāo)簽的所述總權(quán)重,從所述各個(gè)標(biāo)簽中確定出目標(biāo)標(biāo)簽作為所述目標(biāo)文檔的文本特征; 其中,所述權(quán)重確定模塊,用于根據(jù)特征詞Fi與標(biāo)簽L的互信息MI (Fi, Tp、該特征詞Fi在所述目標(biāo)文檔中出現(xiàn)的次數(shù)TF(Fi)、以及該特征詞的重要度IDF(Fi)確定該特征詞Fi對(duì)標(biāo)簽L的權(quán)重,其中,預(yù)先建立的樣本庫中包含該特征詞Fi的樣本個(gè)數(shù)越多,該特征詞Fi的重要度IDF(Fi)越低。
10.根據(jù)權(quán)利要求9所述的裝置,其特征在于, 所述權(quán)重確定模塊,用于根據(jù)P (Fi, Tj) =MI (Fi, Tj) X TF (Fi) X IDF (Fi)確定特征詞Fi對(duì)標(biāo)簽Tj的權(quán)重P (Fi, Tj),根據(jù)
11.根據(jù)權(quán)利要求10所述的裝置,其特征在于,特征詞Fi的重要度IDF(Fi)為:
12.根據(jù)權(quán)利要求9或10或11所述的裝置,其特征在于, 所述權(quán)重確定模塊,用于將特征詞Fi與標(biāo)簽L的互信息MI (Fi, Tj)為:
【文檔編號(hào)】G06F17/30GK103793385SQ201210419624
【公開日】2014年5月14日 申請(qǐng)日期:2012年10月29日 優(yōu)先權(quán)日:2012年10月29日
【發(fā)明者】鄒維, 尹華彬, 周暢, 楊俊松, 宮建濤, 吳振宇, 寧合軍 申請(qǐng)人:深圳市世紀(jì)光速信息技術(shù)有限公司