一種文本分類方法及裝置的制造方法

文檔序號：8430864閱讀：218來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種文本分類方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計算機技術(shù)領(lǐng)域，特別涉及一種文本分類方法及裝置。
【背景技術(shù)】
[0002] 隨著計算機技術(shù)的不斷發(fā)展，文本分類技術(shù)的應(yīng)用領(lǐng)域也越來越廣。傳統(tǒng)的文本分類技術(shù)是通過人工的方式，按照每一個文本的具體內(nèi)容將其歸納為某一類別，這種方式在文本的數(shù)量極大時，文本分類效率就會降低。
[0003] 目前，可以使用Mahout貝葉斯算法實現(xiàn)對海量文本的分類，該分類過程可以包括如下兩個步驟：1、自動分詞；2自動分類。
[0004] 然而，Mahout貝葉斯算法針對文本的自動分詞，只能實現(xiàn)單個中文文字的分詞，例如，"核磁共振"，Mahout貝葉斯算法所實現(xiàn)的分詞結(jié)果包括："核""磁""共""振"，由于對文本的分類可以通過每個文本所分詞的含義實現(xiàn)分類，如果將每個文本所分詞后的結(jié)果包括多個單個文字，無法利用單個文字的含義實現(xiàn)分類，因此，文本分類的準(zhǔn)確性較低。

【發(fā)明內(nèi)容】

[0005] 有鑒于此，本發(fā)明提供一種文本分類方法及裝置，以解決現(xiàn)有技術(shù)方案中文本分類的準(zhǔn)確性較低的問題。
[0006] 本發(fā)明提供了一種文本分類方法，將用于實現(xiàn)文本詞組分詞的分詞算法對Mahout 貝葉斯算法中的分詞算法進行替換，以使Mahout貝葉斯算法實現(xiàn)文本詞組的分詞，學(xué)習(xí)與各個行業(yè)分別相關(guān)的專業(yè)詞匯，并將與每個行業(yè)相關(guān)的專業(yè)詞匯分別存入相應(yīng)的詞庫中，還包括：
[0007] 獲取待分類的文本；
[0008] 針對所述待分類的文本中的每一個文本，利用Mahout貝葉斯算法中所述用于實現(xiàn)文本詞組分詞的分詞算法遍歷文本中的每句文字，并將遍歷到的每句文字分別與每個詞庫所存儲的專業(yè)詞匯進行匹配；
[0009] 根據(jù)與遍歷到的每句文字最匹配的詞庫，對相應(yīng)的那一句文字進行分詞處理；
[0010] 針對分詞處理后的每一個文本，計算所劃分的每一個詞組的詞頻反詞頻統(tǒng)計值；
[0011] 根據(jù)每一個詞組的詞頻反詞頻統(tǒng)計值，對所述待分類的文本進行分類操作。
[0012] 優(yōu)選地，
[0013] 進一步包括：存儲每一個詞組的詞頻反詞頻統(tǒng)計值；
[0014] 進一步包括：在所述待分類的文本中發(fā)生文本刪除操作或文本增加操作時，根據(jù) 文本刪除操作或文本增加操作所對應(yīng)的文本，對存儲的每一詞組的詞頻反詞頻統(tǒng)計值進行更新。
[0015] 優(yōu)選地，
[0016] 進一步包括：預(yù)先設(shè)定維度閾值；
[0017] 所述對所述待分類的文本進行分類操作，包括：
[0018] 確定每個文本分別對應(yīng)的多維向量；
[0019] 根據(jù)預(yù)先設(shè)定的所述維度閾值，和，每個文本分別對應(yīng)的多維向量，獲取每個文本分別對應(yīng)的第一維度向量，其中，每個文本分別對應(yīng)的第一維度向量的維度均等于所述維度閾值；
[0020] 根據(jù)預(yù)先設(shè)定的所述維度閾值以及所述待分類的文本，分析得到所述待分類的文本所對應(yīng)的多類主題，其中，每類主題分別對應(yīng)一個維度與所述維度閾值相等的第二維度向量；
[0021] 在所述待分類的文本中選擇一個尚未被進行分類的文本，將該選擇的文本所對應(yīng) 的第一維度向量，分別與每一個第二維度向量計算余弦相似度，將余弦相似度的最大值所對應(yīng)的分類主題作為該選擇的文本的主題，繼續(xù)執(zhí)行本步驟，直到所述待分類的文本均被分類完畢。
[0022] 優(yōu)選地，
[0023] 進一步包括：設(shè)定統(tǒng)計個數(shù)閾值；
[0024] 所述確定每個文本分別對應(yīng)的多維向量，包括：在文本中獲取與所述統(tǒng)計個數(shù)閾值相等個數(shù)的值最大的詞頻反詞頻統(tǒng)計值；將獲取的值最大的詞頻反詞頻統(tǒng)計值作為該文本的多維向量，其中，該文本的多維向量的維度個數(shù)與所述統(tǒng)計個數(shù)閾值相等；
[0025]或，
[0026] 所述獲取每個文本分別對應(yīng)的第一維度向量，包括：針對所述待分類的文本中每個文本分別對應(yīng)的多維向量進行維度拼接，以將所述待分類的文本均統(tǒng)一到一個多維空間中；將統(tǒng)一到的該多維空間進行主成分分析降維，得到每個文本分別對應(yīng)的第一維度向量；
[0027]或，
[0028] 通過下式計算所述余弦相似度：
[0029]
【主權(quán)項】
1. 一種文本分類方法，其特征在于，將用于實現(xiàn)文本詞組分詞的分詞算法對Mahout貝葉斯算法中的分詞算法進行替換，以使Mahout貝葉斯算法實現(xiàn)文本詞組的分詞，學(xué)習(xí)與各個行業(yè)分別相關(guān)的專業(yè)詞匯，并將與每個行業(yè)相關(guān)的專業(yè)詞匯分別存入相應(yīng)的詞庫中，還包括：獲取待分類的文本；針對所述待分類的文本中的每一個文本，利用Mahout貝葉斯算法中所述用于實現(xiàn)文本詞組分詞的分詞算法遍歷文本中的每句文字，并將遍歷到的每句文字分別與每個詞庫所存儲的專業(yè)詞匯進行匹配；根據(jù)與遍歷到的每句文字最匹配的詞庫，對相應(yīng)的那一句文字進行分詞處理；針對分詞處理后的每一個文本，計算所劃分的每一個詞組的詞頻反詞頻統(tǒng)計值；根據(jù)每一個詞組的詞頻反詞頻統(tǒng)計值，對所述待分類的文本進行分類操作。
2. 根據(jù)權(quán)利要求1所述的方法，其特征在于，進一步包括：存儲每一個詞組的詞頻反詞頻統(tǒng)計值；進一步包括：在所述待分類的文本中發(fā)生文本刪除操作或文本增加操作時，根據(jù)文本刪除操作或文本增加操作所對應(yīng)的文本，對存儲的每一詞組的詞頻反詞頻統(tǒng)計值進行更新。
3. 根據(jù)權(quán)利要求1所述的方法，其特征在于，進一步包括：預(yù)先設(shè)定維度閾值；所述對所述待分類的文本進行分類操作，包括：確定每個文本分別對應(yīng)的多維向量；根據(jù)預(yù)先設(shè)定的所述維度閾值，和，每個文本分別對應(yīng)的多維向量，獲取每個文本分別對應(yīng)的第一維度向量，其中，每個文本分別對應(yīng)的第一維度向量的維度均等于所述維度閾值；根據(jù)預(yù)先設(shè)定的所述維度閾值以及所述待分類的文本，分析得到所述待分類的文本所對應(yīng)的多類主題，其中，每類主題分別對應(yīng)一個維度與所述維度閾值相等的第二維度向量；在所述待分類的文本中選擇一個尚未被進行分類的文本，將該選擇的文本所對應(yīng)的第一維度向量，分別與每一個第二維度向量計算余弦相似度，將余弦相似度的最大值所對應(yīng) 的分類主題作為該選擇

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：孫鏡濤;甄教明;
技術(shù)所有人：浪潮集團有限公司;
我是此專利的發(fā)明人

上一篇：一種規(guī)則的存儲方法、匹配方法及裝置的制造方法
上一篇：信息投放方法、裝置和系統(tǒng)的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

文本分類方法相關(guān)技術(shù)

文本分類特征選擇方法相關(guān)技術(shù)

文本分類的方法相關(guān)技術(shù)

射線裝置分類辦法相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種文本分類方法及裝置的制造方法