一種文本分類校正方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及文本挖掘技術(shù)領(lǐng)域,尤其涉及一種文本分類校正方法及裝置。
【背景技術(shù)】
[0002] 文本分類是對文本按照一定的分類體系或標(biāo)準(zhǔn)進(jìn)行分類,將文本劃分到預(yù)先給定 的類別中。目前,在進(jìn)行文本分類時(shí),需要確定各種類別的特點(diǎn),選取一定數(shù)量的文本作為 訓(xùn)練樣本,通過對訓(xùn)練樣本進(jìn)行訓(xùn)練構(gòu)建分類模型,采用訓(xùn)練好的分類模型對待分類文本 進(jìn)行分類。
[0003] 在通過對訓(xùn)練樣本進(jìn)行訓(xùn)練并構(gòu)建分類模型時(shí),需要大量的訓(xùn)練樣本集,并且要 求訓(xùn)練樣本集相對待分類文本具有較好的代表性,即訓(xùn)練樣本集足夠準(zhǔn)確,然而,在文本分 類的實(shí)際需求中,制作準(zhǔn)確的樣本集非常困難,造成很多情況下文本分類仍然依賴于人工 進(jìn)行分類,使得對待分類文本分類出現(xiàn)錯(cuò)誤,因此,為了提高文本分類的準(zhǔn)確性,需要對分 類結(jié)果進(jìn)行校正,到目前為止,還沒有對文本分類結(jié)果進(jìn)行校正的方案。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明實(shí)施例提供一種文本分類校正方法及裝置,用以解決現(xiàn)有技術(shù)中存在的文 本分類不準(zhǔn)確的問題。
[0005] 本發(fā)明實(shí)施例提供一種文本分類校正方法,包括:
[0006] 獲取各文本類別包括的文本,組成文本集合;
[0007] 對所述文本集合中的文本進(jìn)行特征詞提取處理,得到所述文本集合包括的特征詞 語;
[0008] 針對所述文本集合包括的每一個(gè)特征詞語,根據(jù)該特征詞語在每一個(gè)類別包括的 文本中出現(xiàn)的次數(shù)與所述文本集合中包含該特征詞語的類別數(shù)量的比值,確定該特征詞語 在該類別中的權(quán)重,該權(quán)重與該比值正相關(guān);
[0009] 針對所述文本集合中各類別包括的每一個(gè)文本,將該文本包括的各特征詞語在該 文本中的出現(xiàn)次數(shù)與各特征詞語在該文本所屬類別中的權(quán)重的乘積和,確定為該文本在其 所屬類別中的分類校正值;
[0010] 從每一類別包括的文本中,選擇分類校正值不大于預(yù)設(shè)校正閾值的文本,作為待 校正文本;
[0011] 從所述待校正文本在除其所屬類別以外的其他類別中,將所述待校正文本的分類 校正值最大的類別,確定為所述待校正文本的新的類別。
[0012] 采用上述實(shí)施例提供的方法,由于通過各類別的每個(gè)文本包括的特征詞語與各特 征詞語在該文本中對應(yīng)的權(quán)值的乘積和確定的該文本的分類校正值,能夠表征該文本與該 文本所在類別的相關(guān)程度,因此可以通過分類校正值識(shí)別已經(jīng)分類文本中的錯(cuò)誤分類文 本,對分類錯(cuò)誤的文本進(jìn)行校正,從而重新劃分到相關(guān)程度最大的類別中,進(jìn)而能夠提高文 本分類的準(zhǔn)確性。
[0013] 進(jìn)一步的,對所述文本集合中的文本進(jìn)行特征詞提取處理,得到所述文本集合包 括的特征詞語,具體包括:
[0014] 對所述文本集合中的文本進(jìn)行分詞,將分詞后得到的所有詞語作為所述文本集合 包括的特征詞語。
[0015] 進(jìn)一步的,對所述文本集合中的文本進(jìn)行特征詞提取處理,得到所述文本集合包 括的特征詞語,具體包括:
[0016] 對所述文本集合中的文本進(jìn)行分詞;
[0017] 從分詞后得到的詞語中,選擇所述詞語在所述文本集合中出現(xiàn)次數(shù)在預(yù)設(shè)次數(shù)范 圍內(nèi)對應(yīng)的詞語,作為所述文本集合包括的特征詞語。
[0018] 在從分詞后得到的詞語中,選擇所述詞語在所述文本集合中出現(xiàn)次數(shù)在預(yù)設(shè)次數(shù) 范圍內(nèi)對應(yīng)的詞語之前,還包括:
[0019] 將分詞后得到的詞語與預(yù)設(shè)停用詞表中的停用詞進(jìn)行匹配;
[0020] 在分詞后得到的詞語中,刪除匹配成功對應(yīng)的詞語,得到剩余的詞語集;
[0021] 從分詞后得到的詞語中,選擇所述詞語在所述文本集合中出現(xiàn)次數(shù)在預(yù)設(shè)次數(shù)范 圍內(nèi)對應(yīng)的詞語,具體包括:
[0022] 從剩余的詞語集中,選擇所述詞語在所述文本集合中出現(xiàn)次數(shù)在預(yù)設(shè)次數(shù)范圍內(nèi) 對應(yīng)的詞語。
[0023] 進(jìn)一步的,上述方法,還包括:
[0024] 當(dāng)有未分類的文本需要分類時(shí),確定待分類文本在各類別中的分類校正值;
[0025] 將所述待分類文本劃分到該待分類文本的分類校正值最大的類別中。
[0026] 這樣,通過確定待分類文本在各類別中的分類校正值,還可以實(shí)現(xiàn)對未分類的文 本進(jìn)行分類。
[0027] 本發(fā)明實(shí)施例還提供了一種文本分類校正裝置,包括:
[0028] 獲取單元,用于獲取各文本類別包括的文本,組成文本集合;
[0029] 處理單元,用于對所述文本集合中的文本進(jìn)行特征詞提取處理,得到所述文本集 合包括的特征詞語;
[0030] 第一確定單元,用于針對所述文本集合包括的每一個(gè)特征詞語,根據(jù)該特征詞語 在每一個(gè)類別包括的文本中出現(xiàn)的次數(shù)與所述文本集合中包含該特征詞語的類別數(shù)量的 比值,確定該特征詞語在該類別中的權(quán)重,該權(quán)重與該比值正相關(guān);
[0031] 第二確定單元,用于針對所述文本集合中各類別包括的每一個(gè)文本,將該文本包 括的各特征詞語在該文本中的出現(xiàn)次數(shù)與各特征詞語在該文本所屬類別中的權(quán)重的乘積 和,確定為該文本在其所屬類別中的分類校正值;
[0032] 選擇單元,用于從每一類別包括的文本中,選擇分類校正值不大于預(yù)設(shè)校正閾值 的文本,作為待校正文本;
[0033] 第三確定單元,用于從所述待校正文本在除其所屬類別以外的其他類別中,將所 述待校正文本的分類校正值最大的類別,確定為所述待校正文本的新的類別。
[0034] 采用上述實(shí)施例提供的裝置,由于通過各類別的每個(gè)文本包括的特征詞語與各特 征詞語在該文本中對應(yīng)的權(quán)值的乘積和確定的該文本的分類校正值,能夠表征該文本與該 文本所在類別的相關(guān)程度,因此可以通過分類校正值識(shí)別已經(jīng)分類文本中的錯(cuò)誤分類文 本,對分類錯(cuò)誤的文本進(jìn)行校正,從而重新劃分到相關(guān)程度最大的類別中,進(jìn)而能夠提高文 本分類的準(zhǔn)確性。
[0035] 進(jìn)一步的,所述處理單元,具體用于對所述文本集合中的文本進(jìn)行分詞,將分詞后 得到的所有詞語作為所述文本集合包括的特征詞語。
[0036] 進(jìn)一步的,所述處理單元,具體用于對所述文本集合中的文本進(jìn)行分詞;從分詞后 得到的詞語中,選擇所述詞語在所述文本集合中出現(xiàn)次數(shù)在預(yù)設(shè)次數(shù)范圍內(nèi)對應(yīng)的詞語, 作為所述文本集合包括的特征詞語。
[0037] 進(jìn)一步的,所述處理單元,還用于在從分詞后得到的詞語中,選擇所述詞語在所述 文本集合中出現(xiàn)次數(shù)在預(yù)設(shè)次數(shù)范圍內(nèi)對應(yīng)的詞語之前,將分詞后得到的詞語與預(yù)設(shè)停用 詞表中的停用詞進(jìn)行匹配;在分詞后得到的詞語中,刪除匹配成功對應(yīng)的詞語,得到剩余的 詞語集;從剩余的詞語集中,選擇所述詞語在所述文本集合中出現(xiàn)次數(shù)在預(yù)設(shè)次數(shù)范圍內(nèi) 對應(yīng)的詞語。
[0038] 進(jìn)一步的,上述裝置,還包括:
[0039] 第四確定單元,用于當(dāng)有未分類的文本需要分類時(shí),確定待分類文本在各類別中 的分類校正值;
[0040] 劃分單元,用于將所述待分類文本劃分到該待分類文本的分類校正值最大的類別 中。
[0041] 這樣,通過確定待分類文本在各類別中的分類校正值,還可以實(shí)現(xiàn)對未分類的文 本進(jìn)行分類。
[0042] 本申請的其它特征和優(yōu)點(diǎn)將在隨后的說明書中闡述,并且,部分地從說明書中變 得顯而易見,或者通過實(shí)施本申請而了解。本申請的目的和其他優(yōu)點(diǎn)可通過在所寫的說明 書、權(quán)利要求書、以及附圖中所特別指出的結(jié)構(gòu)來實(shí)現(xiàn)和獲得。
【附圖說明】
[0043] 附圖用來提供對本發(fā)明的進(jìn)一步理解,并且構(gòu)成說明書的一部分,與本發(fā)明實(shí)施 例一起用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的限制。在附圖中:
[0044] 圖1為本發(fā)明實(shí)施例提供的文本分類校正方法的流程圖;
[0045] 圖2為本發(fā)明實(shí)施例1提供的文本分類校正方法的流程圖;
[0046] 圖3為本發(fā)明實(shí)施例2提供的文本分類校正裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0047] 為了給出提高文本分類的準(zhǔn)確性的實(shí)現(xiàn)方案,本發(fā)明實(shí)施例提供了一種文本分類 校正方法及裝置,以下結(jié)合說明書附圖對本發(fā)明的優(yōu)選實(shí)施例進(jìn)行說明,應(yīng)當(dāng)理解,此處所 描述的優(yōu)選實(shí)施例僅用于說明和解釋本發(fā)明,并不用于限定本發(fā)明。并且在不沖突的情況 下,本申請中的實(shí)施例及實(shí)施例中的特征可以相互組合。
[0048] 本發(fā)明實(shí)施例提供一種文本分類校正方法,如圖1所示,包括:
[0049] 步驟101、獲取各文本類別包括的文本,組成文本集合。
[0050] 步驟102、對該文本集合中的文本進(jìn)行特