一種文本分類方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計算機技術(shù)領(lǐng)域,特別涉及一種文本分類方法及裝置。
【背景技術(shù)】
[0002] 隨著計算機技術(shù)的不斷發(fā)展,文本分類技術(shù)的應(yīng)用領(lǐng)域也越來越廣。傳統(tǒng)的文本 分類技術(shù)是通過人工的方式,按照每一個文本的具體內(nèi)容將其歸納為某一類別,這種方式 在文本的數(shù)量極大時,文本分類效率就會降低。
[0003] 目前,可以使用Mahout貝葉斯算法實現(xiàn)對海量文本的分類,該分類過程可以包括 如下兩個步驟:1、自動分詞;2自動分類。
[0004] 然而,Mahout貝葉斯算法針對文本的自動分詞,只能實現(xiàn)單個中文文字的分詞,例 如,"核磁共振",Mahout貝葉斯算法所實現(xiàn)的分詞結(jié)果包括:"核""磁""共""振",由于對 文本的分類可以通過每個文本所分詞的含義實現(xiàn)分類,如果將每個文本所分詞后的結(jié)果包 括多個單個文字,無法利用單個文字的含義實現(xiàn)分類,因此,文本分類的準(zhǔn)確性較低。
【發(fā)明內(nèi)容】
[0005] 有鑒于此,本發(fā)明提供一種文本分類方法及裝置,以解決現(xiàn)有技術(shù)方案中文本分 類的準(zhǔn)確性較低的問題。
[0006] 本發(fā)明提供了一種文本分類方法,將用于實現(xiàn)文本詞組分詞的分詞算法對Mahout 貝葉斯算法中的分詞算法進行替換,以使Mahout貝葉斯算法實現(xiàn)文本詞組的分詞,學(xué)習(xí)與 各個行業(yè)分別相關(guān)的專業(yè)詞匯,并將與每個行業(yè)相關(guān)的專業(yè)詞匯分別存入相應(yīng)的詞庫中, 還包括:
[0007] 獲取待分類的文本;
[0008] 針對所述待分類的文本中的每一個文本,利用Mahout貝葉斯算法中所述用于實 現(xiàn)文本詞組分詞的分詞算法遍歷文本中的每句文字,并將遍歷到的每句文字分別與每個詞 庫所存儲的專業(yè)詞匯進行匹配;
[0009] 根據(jù)與遍歷到的每句文字最匹配的詞庫,對相應(yīng)的那一句文字進行分詞處理;
[0010] 針對分詞處理后的每一個文本,計算所劃分的每一個詞組的詞頻反詞頻統(tǒng)計值;
[0011] 根據(jù)每一個詞組的詞頻反詞頻統(tǒng)計值,對所述待分類的文本進行分類操作。
[0012] 優(yōu)選地,
[0013] 進一步包括:存儲每一個詞組的詞頻反詞頻統(tǒng)計值;
[0014] 進一步包括:在所述待分類的文本中發(fā)生文本刪除操作或文本增加操作時,根據(jù) 文本刪除操作或文本增加操作所對應(yīng)的文本,對存儲的每一詞組的詞頻反詞頻統(tǒng)計值進行 更新。
[0015] 優(yōu)選地,
[0016] 進一步包括:預(yù)先設(shè)定維度閾值;
[0017] 所述對所述待分類的文本進行分類操作,包括:
[0018] 確定每個文本分別對應(yīng)的多維向量;
[0019] 根據(jù)預(yù)先設(shè)定的所述維度閾值,和,每個文本分別對應(yīng)的多維向量,獲取每個文本 分別對應(yīng)的第一維度向量,其中,每個文本分別對應(yīng)的第一維度向量的維度均等于所述維 度閾值;
[0020] 根據(jù)預(yù)先設(shè)定的所述維度閾值以及所述待分類的文本,分析得到所述待分類的文 本所對應(yīng)的多類主題,其中,每類主題分別對應(yīng)一個維度與所述維度閾值相等的第二維度 向量;
[0021] 在所述待分類的文本中選擇一個尚未被進行分類的文本,將該選擇的文本所對應(yīng) 的第一維度向量,分別與每一個第二維度向量計算余弦相似度,將余弦相似度的最大值所 對應(yīng)的分類主題作為該選擇的文本的主題,繼續(xù)執(zhí)行本步驟,直到所述待分類的文本均被 分類完畢。
[0022] 優(yōu)選地,
[0023] 進一步包括:設(shè)定統(tǒng)計個數(shù)閾值;
[0024] 所述確定每個文本分別對應(yīng)的多維向量,包括:在文本中獲取與所述統(tǒng)計個數(shù)閾 值相等個數(shù)的值最大的詞頻反詞頻統(tǒng)計值;將獲取的值最大的詞頻反詞頻統(tǒng)計值作為該文 本的多維向量,其中,該文本的多維向量的維度個數(shù)與所述統(tǒng)計個數(shù)閾值相等;
[0025]或,
[0026] 所述獲取每個文本分別對應(yīng)的第一維度向量,包括:針對所述待分類的文本中每 個文本分別對應(yīng)的多維向量進行維度拼接,以將所述待分類的文本均統(tǒng)一到一個多維空 間中;將統(tǒng)一到的該多維空間進行主成分分析降維,得到每個文本分別對應(yīng)的第一維度向 量;
[0027]或,
[0028] 通過下式計算所述余弦相似度:
[0029]
【主權(quán)項】
1. 一種文本分類方法,其特征在于,將用于實現(xiàn)文本詞組分詞的分詞算法對Mahout貝 葉斯算法中的分詞算法進行替換,以使Mahout貝葉斯算法實現(xiàn)文本詞組的分詞,學(xué)習(xí)與各 個行業(yè)分別相關(guān)的專業(yè)詞匯,并將與每個行業(yè)相關(guān)的專業(yè)詞匯分別存入相應(yīng)的詞庫中,還 包括: 獲取待分類的文本; 針對所述待分類的文本中的每一個文本,利用Mahout貝葉斯算法中所述用于實現(xiàn)文 本詞組分詞的分詞算法遍歷文本中的每句文字,并將遍歷到的每句文字分別與每個詞庫所 存儲的專業(yè)詞匯進行匹配; 根據(jù)與遍歷到的每句文字最匹配的詞庫,對相應(yīng)的那一句文字進行分詞處理; 針對分詞處理后的每一個文本,計算所劃分的每一個詞組的詞頻反詞頻統(tǒng)計值; 根據(jù)每一個詞組的詞頻反詞頻統(tǒng)計值,對所述待分類的文本進行分類操作。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于, 進一步包括:存儲每一個詞組的詞頻反詞頻統(tǒng)計值; 進一步包括:在所述待分類的文本中發(fā)生文本刪除操作或文本增加操作時,根據(jù)文本 刪除操作或文本增加操作所對應(yīng)的文本,對存儲的每一詞組的詞頻反詞頻統(tǒng)計值進行更 新。
3. 根據(jù)權(quán)利要求1所述的方法,其特征在于, 進一步包括:預(yù)先設(shè)定維度閾值; 所述對所述待分類的文本進行分類操作,包括: 確定每個文本分別對應(yīng)的多維向量; 根據(jù)預(yù)先設(shè)定的所述維度閾值,和,每個文本分別對應(yīng)的多維向量,獲取每個文本分別 對應(yīng)的第一維度向量,其中,每個文本分別對應(yīng)的第一維度向量的維度均等于所述維度閾 值; 根據(jù)預(yù)先設(shè)定的所述維度閾值以及所述待分類的文本,分析得到所述待分類的文本 所對應(yīng)的多類主題,其中,每類主題分別對應(yīng)一個維度與所述維度閾值相等的第二維度向 量; 在所述待分類的文本中選擇一個尚未被進行分類的文本,將該選擇的文本所對應(yīng)的第 一維度向量,分別與每一個第二維度向量計算余弦相似度,將余弦相似度的最大值所對應(yīng) 的分類主題作為該選擇