一種文本分類(lèi)的方法及文本分類(lèi)系統(tǒng)的制作方法
【專(zhuān)利摘要】本發(fā)明實(shí)施例公開(kāi)了一種文本分類(lèi)的方法及文本分類(lèi)系統(tǒng),用于根據(jù)訓(xùn)練語(yǔ)料進(jìn)行分類(lèi)器訓(xùn)練生成分類(lèi)模型,在進(jìn)行預(yù)測(cè)文本分類(lèi)之前,對(duì)分類(lèi)模型的準(zhǔn)確率進(jìn)行驗(yàn)證,從而提高了對(duì)預(yù)測(cè)文本的文本分類(lèi)的準(zhǔn)確率。本發(fā)明實(shí)施例方法包括:建立類(lèi)別詞庫(kù)及訓(xùn)練語(yǔ)料庫(kù),訓(xùn)練語(yǔ)料庫(kù)中包含訓(xùn)練語(yǔ)料,訓(xùn)練語(yǔ)料的文本類(lèi)別已知;根據(jù)訓(xùn)練語(yǔ)料庫(kù)中的訓(xùn)練語(yǔ)料進(jìn)行分類(lèi)器訓(xùn)練,生成分類(lèi)模型;驗(yàn)證分類(lèi)模型的準(zhǔn)確率是否達(dá)到預(yù)置條件;若是,則獲取預(yù)測(cè)文本,根據(jù)分類(lèi)模型得到預(yù)測(cè)文本的文本類(lèi)別。
【專(zhuān)利說(shuō)明】
-種文本分類(lèi)的方法及文本分類(lèi)系統(tǒng)
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及計(jì)算機(jī)技術(shù)領(lǐng)域,尤其設(shè)及一種文本分類(lèi)的方法及文本分類(lèi)系統(tǒng)。
【背景技術(shù)】
[0002] 隨著計(jì)算機(jī)與通訊技術(shù)的快速發(fā)展,互聯(lián)網(wǎng)迅速普及應(yīng)用,人們可用的電子信息 越來(lái)越多,通過(guò)計(jì)算機(jī)和網(wǎng)絡(luò)來(lái)獲取資料和信息已經(jīng)成為人們獲取信息的主要方式之一。 現(xiàn)在,人們面對(duì)的是互聯(lián)網(wǎng)的海量信息,而且增長(zhǎng)速度非常之快,因此,迫切需要解決的問(wèn) 題是:如何使用戶盡快找到想要的信息,如何對(duì)運(yùn)些海量電子信息進(jìn)行有效的組織和分類(lèi)。 文本自動(dòng)分類(lèi)(Text Classification ,TC)技術(shù)就是為解決運(yùn)一問(wèn)題而提出的。TC技術(shù)W計(jì) 算機(jī)作為工具,通過(guò)機(jī)器自動(dòng)學(xué)習(xí),使計(jì)算機(jī)具有對(duì)文本的自動(dòng)分類(lèi)功能;當(dāng)任意輸入一篇 文本時(shí),計(jì)算機(jī)能夠根據(jù)已經(jīng)掌握的知識(shí),自動(dòng)將文本分類(lèi)到某一類(lèi)別中。
[0003] 從二十世紀(jì)八十年代末九十年代初開(kāi)始,國(guó)內(nèi)外學(xué)者開(kāi)始對(duì)TC技術(shù)進(jìn)行深入研 究,許多機(jī)器學(xué)習(xí)技術(shù)和統(tǒng)計(jì)分類(lèi)方法被應(yīng)用到運(yùn)一領(lǐng)域,支持向量機(jī)(Suppod Vector Machine,SVM)就是應(yīng)用于TC中的一種分類(lèi)算法,SVM能較好地解決小樣本、非線性、維數(shù)災(zāi) 難和局部極小等問(wèn)題,具有很強(qiáng)的泛化能力,因此,基于SVM訓(xùn)練得到的分類(lèi)器可W實(shí)現(xiàn)文 本分類(lèi)。
[0004] 現(xiàn)有的基于SVM的文本分類(lèi)方法為:接收未分類(lèi)文本;對(duì)未分類(lèi)文本進(jìn)行特征提取 后,得到歸一化的LIBSVM格式數(shù)據(jù),最后訓(xùn)練得到分類(lèi)器,通過(guò)分類(lèi)器判斷待分類(lèi)文本的文 本類(lèi)別。
[0005] 但是,文本分類(lèi)系統(tǒng)訓(xùn)練分類(lèi)器一般是很長(zhǎng)時(shí)間訓(xùn)練一次的,通常都是半年至一 年訓(xùn)練一次,如果兩次訓(xùn)練的間隔期間,出現(xiàn)了一些新詞,例如,國(guó)家新頒發(fā)關(guān)于房地產(chǎn)的 新政策中出現(xiàn)的從未記載的房地產(chǎn)新詞,將會(huì)導(dǎo)致所有文本特征權(quán)重出現(xiàn)錯(cuò)誤,從而使得 文本分類(lèi)出現(xiàn)偏差;或者,在訓(xùn)練分類(lèi)器時(shí),某些文本特征權(quán)重計(jì)算錯(cuò)誤,將會(huì)導(dǎo)致包含運(yùn) 些文本特征的文本的分類(lèi)出現(xiàn)錯(cuò)誤。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明實(shí)施例提供了一種文本分類(lèi)的方法及文本分類(lèi)系統(tǒng),用于根據(jù)訓(xùn)練語(yǔ)料進(jìn) 行分類(lèi)器訓(xùn)練生成分類(lèi)模型,在進(jìn)行預(yù)測(cè)文本分類(lèi)之前,對(duì)分類(lèi)模型的準(zhǔn)確率進(jìn)行驗(yàn)證,從 而提高了對(duì)預(yù)測(cè)文本的文本分類(lèi)的準(zhǔn)確率。
[0007] 本發(fā)明第一方面提供一種文本分類(lèi)的方法,包括:
[000引建立類(lèi)別詞庫(kù)及訓(xùn)練語(yǔ)料庫(kù),所述訓(xùn)練語(yǔ)料庫(kù)中包含訓(xùn)練語(yǔ)料,所述訓(xùn)練語(yǔ)料的 文本類(lèi)別已知;
[0009] 根據(jù)所述訓(xùn)練語(yǔ)料庫(kù)中的所述訓(xùn)練語(yǔ)料進(jìn)行分類(lèi)器訓(xùn)練,生成分類(lèi)模型;
[0010] 驗(yàn)證所述分類(lèi)模型的準(zhǔn)確率是否達(dá)到預(yù)置條件;
[0011] 若是,則獲取預(yù)測(cè)文本,根據(jù)所述分類(lèi)模型得到所述預(yù)測(cè)文本的文本類(lèi)別。
[0012] 結(jié)合本發(fā)明第一方面,本發(fā)明第一方面第一實(shí)施方式中,所述建立類(lèi)別詞庫(kù)及訓(xùn) 練語(yǔ)料庫(kù),包括:
[0013] 獲取類(lèi)別詞,根據(jù)所述類(lèi)別詞建立類(lèi)別詞庫(kù),所述類(lèi)別詞用于表示文本類(lèi)別;
[0014] 獲取已知文本類(lèi)別的訓(xùn)練語(yǔ)料,生成訓(xùn)練語(yǔ)料列表,根據(jù)所述訓(xùn)練語(yǔ)料列表建立 訓(xùn)練語(yǔ)料庫(kù)。
[0015] 結(jié)合本發(fā)明第一方面第一實(shí)施方式,本發(fā)明第一方面第二實(shí)施方式中,所述根據(jù) 所述類(lèi)別詞庫(kù)及所述訓(xùn)練語(yǔ)料庫(kù)中的所述訓(xùn)練語(yǔ)料進(jìn)行分類(lèi)器訓(xùn)練,生成分類(lèi)模型,包括:
[0016] 對(duì)所述訓(xùn)練語(yǔ)料列表中每一條訓(xùn)練語(yǔ)料進(jìn)行特征提取,得到文本特征;
[0017] 計(jì)算得到所述文本特征的權(quán)重;
[0018] 對(duì)所述文本特征及所述文本特征的權(quán)重進(jìn)行降維,并轉(zhuǎn)化為L(zhǎng)IBSVM格式數(shù)據(jù);
[0019] 對(duì)所述LIBSVM格式數(shù)據(jù)進(jìn)行歸一化處理,得到訓(xùn)練語(yǔ)料數(shù)據(jù);
[0020] 根據(jù)所述訓(xùn)練語(yǔ)料數(shù)據(jù)進(jìn)行分類(lèi)器訓(xùn)練,得到分類(lèi)模型。
[0021] 結(jié)合本發(fā)明第一方面第二實(shí)施方式,本發(fā)明第一方面第=實(shí)施方式中,所述驗(yàn)證 所述分類(lèi)模型的準(zhǔn)確率是否達(dá)到預(yù)置條件,包括:
[0022] 獲取測(cè)試語(yǔ)料列表,所述測(cè)試語(yǔ)料列表包含至少一個(gè)測(cè)試語(yǔ)料,所述測(cè)試語(yǔ)料的 文本類(lèi)別已知;
[0023] 從所述測(cè)試語(yǔ)料列表中選取一個(gè)測(cè)試語(yǔ)料,并根據(jù)所述測(cè)試語(yǔ)料得到測(cè)試語(yǔ)料數(shù) 據(jù)及所述測(cè)試語(yǔ)料的已知文本類(lèi)別;
[0024] 根據(jù)分類(lèi)模型及所述測(cè)試語(yǔ)料數(shù)據(jù)得到所述測(cè)試語(yǔ)料的測(cè)試文本類(lèi)別;
[0025] 判斷所述已知文本類(lèi)別與所述測(cè)試文本類(lèi)別是否一致;
[0026] 若所述已知文本類(lèi)別與所述測(cè)試文本類(lèi)別一致,則所述分類(lèi)模型的準(zhǔn)確次數(shù)加一 次;
[0027] 若所述已知文本類(lèi)別與所述測(cè)試文本類(lèi)別不一致,則所述分類(lèi)模型的錯(cuò)誤次數(shù)加 一次;
[0028] 當(dāng)所述測(cè)試語(yǔ)料列表中所有的測(cè)試語(yǔ)料都判斷完成時(shí),根據(jù)所述準(zhǔn)確次數(shù)和所述 錯(cuò)誤次數(shù)計(jì)算得到所述分類(lèi)模型的準(zhǔn)確率;
[0029] 判斷所述分類(lèi)模型的準(zhǔn)確率是否達(dá)到預(yù)置條件。
[0030] 結(jié)合本發(fā)明第一方面、第一方面第一實(shí)施方式、第一方面第二實(shí)施方式或第一方 面第=實(shí)施方式,本發(fā)明第一方面第四實(shí)施方式中,所述方法還包括:
[0031] 若所述分類(lèi)模型的準(zhǔn)確率未達(dá)到預(yù)置條件,則不使用所述分類(lèi)模型,并重新生成 新的分類(lèi)模型。
[0032] 本發(fā)明第二方面提供一種文本分類(lèi)系統(tǒng),包括:
[0033] 建立模塊,用于建立類(lèi)別詞庫(kù)及訓(xùn)練語(yǔ)料庫(kù),所述訓(xùn)練語(yǔ)料庫(kù)中包含訓(xùn)練語(yǔ)料,所 述訓(xùn)練語(yǔ)料的文本類(lèi)別已知;
[0034] 分類(lèi)器訓(xùn)練模塊,用于根據(jù)所述訓(xùn)練語(yǔ)料庫(kù)中的所述訓(xùn)練語(yǔ)料進(jìn)行分類(lèi)器訓(xùn)練, 生成分類(lèi)模型;
[0035] 分類(lèi)器,用于驗(yàn)證所述分類(lèi)模型的準(zhǔn)確率是否達(dá)到預(yù)置條件;
[0036] 所述分類(lèi)器,還用于當(dāng)所述分類(lèi)模型的準(zhǔn)確率達(dá)到預(yù)置條件時(shí),獲取預(yù)測(cè)文本,根 據(jù)所述分類(lèi)模型得到所述預(yù)測(cè)文本的文本類(lèi)別。
[0037] 結(jié)合本發(fā)明第二方面,本發(fā)明第二方面第一實(shí)施方式中,所述建立模塊包括:類(lèi)別 詞庫(kù)建立單元及訓(xùn)練語(yǔ)料庫(kù)建立單元;
[0038] 所述類(lèi)別詞庫(kù)建立單元,用于獲取類(lèi)別詞,根據(jù)所述類(lèi)別詞建立類(lèi)別詞庫(kù),所述類(lèi) 別詞用于表示文本類(lèi)別;
[0039] 所述訓(xùn)練語(yǔ)料庫(kù)建立單元,用于獲取已知文本類(lèi)別的訓(xùn)練語(yǔ)料,生成訓(xùn)練語(yǔ)料列 表,根據(jù)所述訓(xùn)練語(yǔ)料列表建立訓(xùn)練語(yǔ)料庫(kù)。
[0040] 結(jié)合本發(fā)明第二方面第一實(shí)施方式,本發(fā)明第二方面第二實(shí)施方式中,所述分類(lèi) 器訓(xùn)練模塊包括:特征提取單元、權(quán)重計(jì)算單元、格式轉(zhuǎn)換單元、歸一化處理單元及訓(xùn)練單 元;
[0041] 所述特征提取單元,用于對(duì)所述訓(xùn)練語(yǔ)料列表中每一條訓(xùn)練語(yǔ)料進(jìn)行特征提取, 得到文本特征;
[0042] 所述權(quán)重計(jì)算單元,用于計(jì)算得到所述文本特征的權(quán)重;
[0043] 所述格式轉(zhuǎn)換單元,用于對(duì)所述文本特征及所述文本特征的權(quán)重進(jìn)行降維,并轉(zhuǎn) 化為L(zhǎng)IBSVM格式數(shù)據(jù);
[0044] 所述歸一化處理單元,用于對(duì)所述LIBSVM格式數(shù)據(jù)進(jìn)行歸一化處理,得到訓(xùn)練語(yǔ) 料數(shù)據(jù);
[0045] 所述訓(xùn)練單元,用于根據(jù)所述訓(xùn)練語(yǔ)料數(shù)據(jù)進(jìn)行分類(lèi)器訓(xùn)練,得到分類(lèi)模型。
[0046] 結(jié)合本發(fā)明第二方面第二實(shí)施方式,本發(fā)明第二方面第=實(shí)施方式中,所述分類(lèi) 器包括:語(yǔ)料獲取單元、語(yǔ)料處理單元及判斷單元;
[0047] 所述語(yǔ)料獲取單元,用于獲取測(cè)試語(yǔ)料列表,所述測(cè)試語(yǔ)料列表包含至少一個(gè)測(cè) 試語(yǔ)料,所述測(cè)試語(yǔ)料的文本類(lèi)別已知;
[0048] 所述語(yǔ)料處理單元,用于從所述測(cè)試語(yǔ)料列表中選取一個(gè)測(cè)試語(yǔ)料,并根據(jù)所述 測(cè)試語(yǔ)料得到測(cè)試語(yǔ)料數(shù)據(jù)及所述測(cè)試語(yǔ)料的已知文本類(lèi)別;
[0049] 所述語(yǔ)料處理單元,用于根據(jù)分類(lèi)模型及所述測(cè)試語(yǔ)料數(shù)據(jù)得到所述測(cè)試語(yǔ)料的 測(cè)試文本類(lèi)別;
[0050] 所述判斷單元,用于判斷所述已知文本類(lèi)別與所述測(cè)試文本類(lèi)別是否一致;
[0051] 所述語(yǔ)料處理單元,還用于當(dāng)所述已知文本類(lèi)別與所述測(cè)試文本類(lèi)別一致時(shí),所 述分類(lèi)模型的準(zhǔn)確次數(shù)加一次;
[0052] 所述語(yǔ)料處理單元,還用于當(dāng)所述已知文本類(lèi)別與所述測(cè)試文本類(lèi)別不一致時(shí), 所述分類(lèi)模型的錯(cuò)誤次數(shù)加一次;
[0053] 所述語(yǔ)料處理單元,還用于當(dāng)所述測(cè)試語(yǔ)料列表中所有的測(cè)試語(yǔ)料都判斷完成 時(shí),根據(jù)所述準(zhǔn)確次數(shù)和所述錯(cuò)誤次數(shù)計(jì)算得到所述分類(lèi)模型的準(zhǔn)確率;
[0054] 所述判斷單元,還用于判斷所述分類(lèi)模型的準(zhǔn)確率是否達(dá)到預(yù)置條件。
[0055] 結(jié)合本發(fā)明第二方面、第二方面第一實(shí)施方式、第二方面第二實(shí)施方式或第二方 面第=實(shí)施方式,本發(fā)明第二方面第四實(shí)施方式中,
[0056] 所述分類(lèi)器訓(xùn)練模塊,還用于當(dāng)所述分類(lèi)模型的準(zhǔn)確率未達(dá)到預(yù)置條件時(shí),不使 用所述分類(lèi)模型,并重新生成新的分類(lèi)模型。
[0057] 綜上所述,本發(fā)明實(shí)施例具有W下優(yōu)點(diǎn):
[0058] 文本分類(lèi)系統(tǒng)建立類(lèi)別詞庫(kù)及訓(xùn)練語(yǔ)料庫(kù),根據(jù)訓(xùn)練語(yǔ)料庫(kù)中的訓(xùn)練語(yǔ)料進(jìn)行分 類(lèi)器訓(xùn)練,生成分類(lèi)模型,驗(yàn)證分類(lèi)模型的準(zhǔn)確率是否達(dá)到預(yù)置條件,若是,則獲取預(yù)測(cè)文 本,根據(jù)分類(lèi)模型得到預(yù)測(cè)文本的文本類(lèi)別,由于在進(jìn)行預(yù)測(cè)文本的文本分類(lèi)操作之前,對(duì) 分類(lèi)模型進(jìn)行校驗(yàn),只有當(dāng)分類(lèi)模型的準(zhǔn)確率達(dá)到預(yù)置條件時(shí),才能進(jìn)行預(yù)測(cè)文本的文本 分類(lèi),與現(xiàn)有技術(shù)相比,降低了預(yù)測(cè)文本分類(lèi)錯(cuò)誤的概率,從而提高了對(duì)預(yù)測(cè)文本的文本分 類(lèi)的準(zhǔn)確率。
【附圖說(shuō)明】
[0059] 為了更清楚地說(shuō)明本發(fā)明實(shí)施例技術(shù)方案,下面將對(duì)實(shí)施例和現(xiàn)有技術(shù)描述中所 需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施 例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可W根據(jù)運(yùn)些附圖獲 得其它的附圖。
[0060] 圖1為本發(fā)明實(shí)施例中文本分類(lèi)的方法一個(gè)實(shí)施例的流程示意圖;
[0061 ]圖2為本發(fā)明實(shí)施例中生成分類(lèi)模型的流程示意圖;
[0062] 圖3為本發(fā)明實(shí)施例中驗(yàn)證分類(lèi)模型的準(zhǔn)確率的流程示意圖;
[0063] 圖4為本發(fā)明實(shí)施例中文本分類(lèi)系統(tǒng)的一個(gè)實(shí)施例的結(jié)構(gòu)示意圖;
[0064] 圖5為本發(fā)明實(shí)施例中文本分類(lèi)系統(tǒng)的另一個(gè)實(shí)施例的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0065] 本發(fā)明實(shí)施例提供了一種文本分類(lèi)的方法及文本分類(lèi)系統(tǒng),用于根據(jù)訓(xùn)練語(yǔ)料進(jìn) 行分類(lèi)器訓(xùn)練生成分類(lèi)模型,在進(jìn)行預(yù)測(cè)文本分類(lèi)之前,對(duì)分類(lèi)模型的準(zhǔn)確率進(jìn)行驗(yàn)證,從 而提高了預(yù)測(cè)文本的文本分類(lèi)的準(zhǔn)確率。
[0066] 為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明方案,下面將結(jié)合本發(fā)明實(shí)施例中的 附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是 本發(fā)明一部分的實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人 員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都應(yīng)當(dāng)屬于本發(fā)明保護(hù)的范 圍。
[0067] 請(qǐng)參閱圖1,本發(fā)明實(shí)施例提供一種文本分類(lèi)的方法,包括:
[0068] 101、建立類(lèi)別詞庫(kù)及訓(xùn)練語(yǔ)料庫(kù);
[0069] 本實(shí)施例中,在進(jìn)行分類(lèi)器訓(xùn)練之前,需要建立類(lèi)別詞庫(kù)和訓(xùn)練語(yǔ)料庫(kù),其中訓(xùn)練 語(yǔ)料庫(kù)中包含訓(xùn)練語(yǔ)料,訓(xùn)練語(yǔ)料即為已知文本類(lèi)別的文本。
[0070] 102、根據(jù)訓(xùn)練語(yǔ)料庫(kù)中的訓(xùn)練語(yǔ)料進(jìn)行分類(lèi)器訓(xùn)練,生成分類(lèi)模型;
[0071] 本實(shí)施例中,建立訓(xùn)練語(yǔ)料庫(kù)之后,根據(jù)訓(xùn)練語(yǔ)料庫(kù)中的訓(xùn)練語(yǔ)料進(jìn)行分類(lèi)器訓(xùn) 練,生成分類(lèi)模型。
[0072] 103、驗(yàn)證分類(lèi)模型的準(zhǔn)確率是否達(dá)到預(yù)置條件,若是,則執(zhí)行步驟104;
[0073] 本實(shí)施例中,在生成分類(lèi)模型后,對(duì)分類(lèi)模型的準(zhǔn)確率進(jìn)行驗(yàn)證,達(dá)到預(yù)置條件 后,執(zhí)行步驟104,例如分類(lèi)模型的準(zhǔn)確率達(dá)到96% W上,才能使用該分類(lèi)模型進(jìn)行文本分 類(lèi)。
[0074] 104、獲取預(yù)測(cè)文本,根據(jù)分類(lèi)模型得到預(yù)測(cè)文本的文本類(lèi)別。
[0075] 本實(shí)施例中,在分類(lèi)模型的準(zhǔn)確率達(dá)到預(yù)置條件后,獲取預(yù)測(cè)文本,預(yù)測(cè)文本的文 本分類(lèi)是未知的,根據(jù)分類(lèi)模型對(duì)預(yù)測(cè)文本進(jìn)行文本分類(lèi),得到預(yù)測(cè)文本的文本類(lèi)別。
[0076] 本發(fā)明實(shí)施例中,文本分類(lèi)系統(tǒng)建立類(lèi)別詞庫(kù)及訓(xùn)練語(yǔ)料庫(kù),根據(jù)訓(xùn)練語(yǔ)料庫(kù)中 的訓(xùn)練語(yǔ)料進(jìn)行分類(lèi)器訓(xùn)練,生成分類(lèi)模型,驗(yàn)證分類(lèi)模型的準(zhǔn)確率是否達(dá)到預(yù)置條件,若 是,則獲取預(yù)測(cè)文本,根據(jù)分類(lèi)模型得到預(yù)測(cè)文本的文本類(lèi)別,由于在進(jìn)行預(yù)測(cè)文本的文本 分類(lèi)操作之前,對(duì)分類(lèi)模型進(jìn)行校驗(yàn),只有當(dāng)分類(lèi)模型的準(zhǔn)確率達(dá)到預(yù)置條件時(shí),才能進(jìn)行 預(yù)測(cè)文本的文本分類(lèi),與現(xiàn)有技術(shù)相比,降低了預(yù)測(cè)文本分類(lèi)錯(cuò)誤的概率,從而提高了對(duì)預(yù) 測(cè)文本的文本分類(lèi)的準(zhǔn)確率。
[0077] 可選的,本發(fā)明的一些實(shí)施例中,建立類(lèi)別詞庫(kù)及訓(xùn)練語(yǔ)料庫(kù),包括:
[0078] 獲取類(lèi)別詞,根據(jù)類(lèi)別詞建立類(lèi)別詞庫(kù),類(lèi)別詞用于表示文本類(lèi)別;
[0079] 獲取已知文本類(lèi)別的訓(xùn)練語(yǔ)料,生成訓(xùn)練語(yǔ)料列表,根據(jù)訓(xùn)練語(yǔ)料列表建立訓(xùn)練 語(yǔ)料庫(kù)。
[0080] 本實(shí)施例中,用戶可W根據(jù)需求在文本分類(lèi)系統(tǒng)建立類(lèi)別代碼,類(lèi)別代碼即為類(lèi) 別詞,類(lèi)別詞包括汽車(chē)類(lèi)、時(shí)尚/運(yùn)動(dòng)、科技、家電、汽車(chē)、奢侈品、醫(yī)藥、通信、金融、媒體、零 售、工業(yè)品、煙草及公共事務(wù)等,如果用戶需要將大量的文本分類(lèi)為通信類(lèi)、金融類(lèi)及工業(yè) 品類(lèi),那么輸入類(lèi)別詞"通信"、"金融"及"工業(yè)品",根據(jù)獲取到類(lèi)別詞(通信、金融及工業(yè) 品)建立類(lèi)別詞庫(kù),由于進(jìn)行分類(lèi)器訓(xùn)練是需要通過(guò)大量語(yǔ)料來(lái)實(shí)現(xiàn)的,因此需要建立訓(xùn)練 語(yǔ)料庫(kù),獲取大量的已知文本類(lèi)別的訓(xùn)練語(yǔ)料,將訓(xùn)練語(yǔ)料生成訓(xùn)練語(yǔ)料列表,根據(jù)訓(xùn)練語(yǔ) 料列表建立訓(xùn)練語(yǔ)料庫(kù)。
[0081] 可選的,本發(fā)明的一些實(shí)施例中,根據(jù)類(lèi)別詞庫(kù)及訓(xùn)練語(yǔ)料庫(kù)中的訓(xùn)練語(yǔ)料進(jìn)行 分類(lèi)器訓(xùn)練,生成分類(lèi)模型,包括:
[0082] 201、對(duì)訓(xùn)練語(yǔ)料列表中每一條訓(xùn)練語(yǔ)料進(jìn)行特征提取,得到文本特征;
[0083] 本實(shí)施例中,W訓(xùn)練語(yǔ)料列表中的一條訓(xùn)練語(yǔ)料的特征提取進(jìn)行舉例說(shuō)明,假設(shè) 訓(xùn)練語(yǔ)料列表中的一條訓(xùn)練語(yǔ)料的語(yǔ)料內(nèi)容為:【隨著經(jīng)濟(jì)的發(fā)展,越來(lái)越多的企業(yè)更加重 視閑置資金的利用,通過(guò)投資股票等方式,提高閑置資金的使用效率。但企業(yè)往往忽略了股 票轉(zhuǎn)讓收入應(yīng)當(dāng)繳納營(yíng)業(yè)稅的問(wèn)題。2014年第一季度,稽查局在檢查中就已發(fā)現(xiàn)3戶企業(yè)股 票轉(zhuǎn)讓收入未申報(bào)繳納營(yíng)業(yè)稅,共計(jì)查處稅款317萬(wàn)元。由此可見(jiàn)納稅人股票轉(zhuǎn)讓收入未申 報(bào)繳納營(yíng)業(yè)稅的問(wèn)題較為普遍?!吨腥A人民共和國(guó)營(yíng)業(yè)稅暫行條例》第五條第四款規(guī)定:外 匯、有價(jià)證券、期貨等金融商品買(mǎi)賣(mài)業(yè)務(wù),W賣(mài)出價(jià)減去買(mǎi)入價(jià)后的余額為營(yíng)業(yè)額。自2013 年12月1日起,納稅人從事金融商品轉(zhuǎn)讓業(yè)務(wù),不再按股票、債券、外匯、其他四大類(lèi)來(lái)劃分, 統(tǒng)一歸為"金融商品",不同品種金融商品買(mǎi)賣(mài)出現(xiàn)的正負(fù)差,在同一個(gè)納稅期內(nèi)可W相抵, 按盈虧相抵后的余額為營(yíng)業(yè)額計(jì)算繳納營(yíng)業(yè)稅。若相抵后仍出現(xiàn)負(fù)差的,可結(jié)轉(zhuǎn)下一個(gè)納 稅期相抵,但在年末時(shí)仍出現(xiàn)負(fù)差的,不得轉(zhuǎn)入下一個(gè)會(huì)計(jì)年度。因此納稅人買(mǎi)賣(mài)股票等有 價(jià)證券取得收益時(shí),應(yīng)按賣(mài)出價(jià)減去買(mǎi)入價(jià)后的余額正確計(jì)算營(yíng)業(yè)額。按"金融保險(xiǎn)業(yè)"稅 目申報(bào)繳納營(yíng)業(yè)稅?!?br>[0084] 對(duì)此訓(xùn)練語(yǔ)料進(jìn)行特征提取,特征提取即自然語(yǔ)言分詞,自然語(yǔ)言分詞具有數(shù)字 發(fā)現(xiàn)、詞性標(biāo)注、條件隨機(jī)場(chǎng)(Condi tiona 1 Random Fi e 1 dS,CRF)分詞、用戶自定義詞典的 識(shí)別、進(jìn)行新詞發(fā)現(xiàn)及修復(fù)人名左右連接等功能,特征提取結(jié)果如下:
[0085] 【隨著/p,經(jīng)濟(jì)/n,的/u j,發(fā)展/Vn,,/w,越來(lái)越/d,多/m,的/u j,企業(yè)/n,更加/d,重 視A,閑置A,資金/n,的Aij,利用A,,/W,通過(guò)/p,投資An,股票/n,等Al,方式/n,,/W,提 高/V,閑置/V,資金/n,的Aij,使用/V,效率/n,"/w,但/c,企業(yè)/n,往往/d,忽略/V,了M,股 票/]1,轉(zhuǎn)讓八,收入/]1,應(yīng)當(dāng)八,繳納八,營(yíng)業(yè)稅/]1,的/化問(wèn)題/]1,。/\¥,/]11',2014年/111,第一 季度/nz,,/w,稽查局/nis,在/p,檢查An,中A?,就/d,已/d,發(fā)現(xiàn)/v,3戶/m,企業(yè)/n,股票/ n,轉(zhuǎn)讓/v,收入/n,未Al,申報(bào)/v,繳納/v,營(yíng)業(yè)稅/n,,/w,共計(jì)/v,查處/v,稅款/n,317萬(wàn)元/ m,。/*,由此可見(jiàn)/c,納稅人/n,股票/n,轉(zhuǎn)讓A,收入/n,未/d,申報(bào)A,繳納/V,營(yíng)業(yè)稅/n, 的/u j,問(wèn)題/n,較為/d,普遍/ad,d/w,《/w,中華人民共和國(guó)營(yíng)業(yè)稅/nw,暫行條例/nz,》/w, 第五條/m,第四款/m,規(guī)定/n, :/w,外匯/n,、/w,有價(jià)證券/I,、/w,期貨/n,等/u,金融/n,商 品/n,買(mǎi)賣(mài)A,業(yè)務(wù)/n,,W/nw,賣(mài)出價(jià)/n,減去/v,買(mǎi)入價(jià)/n,后處,的Al j,余額/n,為/p,營(yíng) 業(yè)額/n, d/w,自/p,2013年/m, 12月/m, 1日/m,起/V,,/w,納稅人/n,從事/V,金融/n,商品/n, 轉(zhuǎn)讓/V,業(yè)務(wù)/n,,/w,不再/d,按/p,股票/n,、/w,債券/n,、/w,外匯/n,、/w,其他/r,四大/n, 類(lèi)/q,來(lái)/v,劃分/v,,/V,統(tǒng)一/Vn,歸/v,為/p,Vw,金融/n,商品/n,",/nw,不同/a,品種/n, 金融/n,商品/n,買(mǎi)賣(mài)/V,出現(xiàn)/V,的Aij,正負(fù)/n,差,/nw,在/p,同一個(gè)/b,納稅/V,期內(nèi)處, 可WA,相抵A,,/W,按/p,盈虧/n,相抵A,后處,的Al j,余額/n,為/p,營(yíng)業(yè)額/n,計(jì)算A, 繳納/v,營(yíng)業(yè)稅/n,d/w,若/c,相抵/v,后A,仍/d,出現(xiàn)/v,負(fù)差/nw,的/u j,,/w,可/v,結(jié)轉(zhuǎn)/ V,下處,一個(gè)/m,納稅期/nw,相抵A,,/w,但/c,在/p,年末/t,時(shí)/ng,仍/d,出現(xiàn)A,負(fù)差/ nw,的/u j,,/w,不得/v,轉(zhuǎn)入/v,下處,一個(gè)/m,會(huì)計(jì)年度/nz,。/w,/nr,因此/c,納稅人/n,買(mǎi) 賣(mài)A,股票/n,等/u,有價(jià)證券/n,取得/v,收益/n,時(shí)/ng,,/w,應(yīng)/v,按/p,賣(mài)出價(jià)/n,減去/ V,買(mǎi)入價(jià)/n,后處,的/u j,余額/n,正確/a,計(jì)算A,營(yíng)業(yè)額/n,。/w,按/p,Vw,金融/n,保險(xiǎn) 業(yè)/n," /W,稅目/n,申報(bào)A,繳納A,營(yíng)業(yè)稅/n,。/V】
[0086] 其中,字母代表詞性標(biāo)記,例如"營(yíng)業(yè)稅/n",表示"營(yíng)業(yè)稅"運(yùn)個(gè)詞的詞性為名詞。
[0087] 需要說(shuō)明的是,在進(jìn)行特征提取時(shí),還需要導(dǎo)入標(biāo)準(zhǔn)停止詞,根據(jù)標(biāo)準(zhǔn)停止詞建立 停止詞庫(kù),標(biāo)準(zhǔn)停止詞一般是使用頻率很多的字或詞,例如"在"、"里面"、"也"、"的"、"它" 及"為"等等,運(yùn)些詞都是標(biāo)準(zhǔn)停止詞,沒(méi)有具體的含義。
[0088] 需要說(shuō)明的是,在進(jìn)行特征提取時(shí),用戶還可W自定義詞庫(kù),例如用戶自定義新詞 "創(chuàng)新工場(chǎng)"。根據(jù)原特征提取結(jié)果"創(chuàng)新工場(chǎng)官網(wǎng)"為"創(chuàng)新,工場(chǎng),官網(wǎng)",自定義新詞后特 征提取結(jié)果是"創(chuàng)新工場(chǎng),官網(wǎng)"。
[0089] 202、計(jì)算得到文本特征的權(quán)重;
[0090] 本實(shí)施例中,根據(jù)特征權(quán)重公式計(jì)算得到文本特征的權(quán)重,特征權(quán)重公式如下:
[0091] 權(quán)重=(總文本長(zhǎng)度-偏移量)*詞性分?jǐn)?shù)/總文本長(zhǎng)度
[0092] 其中,總文本長(zhǎng)度為訓(xùn)練語(yǔ)料的內(nèi)容總長(zhǎng)度,偏移量為預(yù)設(shè)值,詞性分?jǐn)?shù)按照表1 得到,W "隨著/V'為例進(jìn)行說(shuō)明,總文本長(zhǎng)度為449,詞性分?jǐn)?shù)為0,偏移量為0,則得到的權(quán) 重值為1。
[0093] 表 1 r00941
[OOM] 203、對(duì)文本特征及文本特征的權(quán)重進(jìn)行降維,并轉(zhuǎn)化為L(zhǎng)IBSVM格式數(shù)據(jù);
[0096] 本實(shí)施例中,對(duì)文本特征進(jìn)行降維,例如提取出文本特征前20個(gè)權(quán)重,如下:
[0097] 【股票/54.62616401094127,營(yíng)業(yè)稅/44.67735081330457,
[009引 金融/41.990145599097545,繳納/38.416783057092005,
[0099] 商品/32.73877497614054,轉(zhuǎn)讓/29.231052892116672,
[0100] 相抵/28.197196705616545,企業(yè)/27.36436454772649,
[0101 ]收入/26.379739736413995,納稅人/24.82075045183587,
[0102] 余額/23.15919608274603,營(yíng)業(yè)額/23.097657032039002,
[0103] 第一季度/22.33931550407563,申報(bào)/19.79916649226036,
[0104] 買(mǎi)賣(mài)/19.4340:34743853566,出現(xiàn)/19.056595183702726,
[0105] 中華人民共和國(guó)營(yíng)業(yè)稅/18.374969046575433,資金/17.98991582335542,暫行條 例/16.985264680784777,問(wèn)題/16.964264978238237】
[0106] 降維之后,將提取出的文本特征及權(quán)重轉(zhuǎn)化成LIBSVM格式數(shù)據(jù),LIBSVM格式如下 (index代表文本特征中特征詞順序):
[0107] 類(lèi)別空格indexl: valuel空格index2: value2......
[0108] 金融 1:54. 62616401094127 2:44.67735081330457 3: 41.990145599097545......
[0109] indexl為股票,index2營(yíng)業(yè)稅,依此類(lèi)推。
[0110] 204、對(duì)LIBSVM格式數(shù)據(jù)進(jìn)行歸一化處理,得到訓(xùn)練語(yǔ)料數(shù)據(jù);
[0111] 本實(shí)施例中,LIBSVM格式數(shù)據(jù)進(jìn)行縮放即歸一化處理,是為了避免一些權(quán)重值范 圍過(guò)大而另一些權(quán)重值范圍過(guò)小,會(huì)對(duì)訓(xùn)練精度產(chǎn)生誤差,歸一化就是將權(quán)重值縮放到0至 1范圍,權(quán)重值最大為1,最小為0,例如,歸一化LIBSVM格式數(shù)據(jù),得到訓(xùn)練語(yǔ)料數(shù)據(jù),如下:
[0112] 金融 1:0.33092215627381105 2:0.48276373123433286......
[0113] 205、根據(jù)訓(xùn)練語(yǔ)料數(shù)據(jù)進(jìn)行分類(lèi)器訓(xùn)練,得到分類(lèi)模型。
[0114] 本實(shí)施例中,根據(jù)訓(xùn)練語(yǔ)料數(shù)據(jù)進(jìn)行分類(lèi)器訓(xùn)練,得到分類(lèi)模型,例如分類(lèi)模型可 W從一個(gè)未知分類(lèi)的文本的數(shù)據(jù)" 1:0. 33092215627381105 2: 0.48276373123433286......",得到該文本的類(lèi)型為"金融"。
[0115] 在上述實(shí)施例分類(lèi)器訓(xùn)練得到分類(lèi)模型之后,還需要對(duì)分類(lèi)模型的準(zhǔn)確率進(jìn)行驗(yàn) 證。
[0116] 可選的,本發(fā)明的一些實(shí)施例中,驗(yàn)證分類(lèi)模型的準(zhǔn)確率是否達(dá)到預(yù)置條件,包 括:
[0117] 301、獲取測(cè)試語(yǔ)料列表,測(cè)試語(yǔ)料列表包含至少一個(gè)測(cè)試語(yǔ)料,測(cè)試語(yǔ)料的文本 類(lèi)別已知;
[0118] 本實(shí)施例中,由于在分類(lèi)模型的準(zhǔn)確率計(jì)算中是需要通過(guò)大量的語(yǔ)料測(cè)試之后才 能得到的,那么需要獲取測(cè)試語(yǔ)料列表,列表中包含至少一個(gè)測(cè)試語(yǔ)料,測(cè)試語(yǔ)料的文本類(lèi) 別是已知的。
[0119] 302、從測(cè)試語(yǔ)料列表中選取一個(gè)測(cè)試語(yǔ)料,并根據(jù)測(cè)試語(yǔ)料得到測(cè)試語(yǔ)料數(shù)據(jù)及 測(cè)試語(yǔ)料的已知文本類(lèi)別;
[0120]本實(shí)施例中,從測(cè)試語(yǔ)料列表中選取一個(gè)測(cè)試語(yǔ)料,由于測(cè)試語(yǔ)料的文本類(lèi)別是 已知的,那么可W直接得到已知文本類(lèi)別(通信),根據(jù)測(cè)試語(yǔ)料得到測(cè)試語(yǔ)料數(shù)據(jù)的具體 操作方式如步驟201至204所述。
[0121 ] 303、根據(jù)分類(lèi)模型及測(cè)試語(yǔ)料數(shù)據(jù)得到測(cè)試語(yǔ)料的測(cè)試文本類(lèi)別;
[0122] 本實(shí)施例中,根據(jù)生成的分類(lèi)模型和測(cè)試語(yǔ)料數(shù)據(jù)得到測(cè)試語(yǔ)料的測(cè)試文本類(lèi) 別。
[0123] 304、判斷已知文本類(lèi)別與測(cè)試文本類(lèi)別是否一致,若一致,執(zhí)行步驟305,若不一 致,執(zhí)行步驟306;
[0124] 本實(shí)施例中,判斷已知文本類(lèi)別與測(cè)試文本類(lèi)別是否一致,例如測(cè)試文本類(lèi)別為 媒體,而已知文本類(lèi)別為通信,那么不一致,執(zhí)行步驟305,如果測(cè)試文本類(lèi)別為通信,那么 執(zhí)行步驟306。
[0125] 305、分類(lèi)模型的準(zhǔn)確次數(shù)加一次;
[01%]本實(shí)施例中,為分類(lèi)模型的準(zhǔn)確次數(shù)疊加一次。
[0127] 306、分類(lèi)模型的錯(cuò)誤次數(shù)加一次;
[0128] 本實(shí)施例中,為分類(lèi)模型的錯(cuò)誤次數(shù)疊加一次。
[0129] 307、當(dāng)測(cè)試語(yǔ)料列表中所有的測(cè)試語(yǔ)料都判斷完成時(shí),根據(jù)準(zhǔn)確次數(shù)和錯(cuò)誤次數(shù) 計(jì)算得到分類(lèi)模型的準(zhǔn)確率;
[0130] 本實(shí)施例中,當(dāng)測(cè)試語(yǔ)料列表中所有的測(cè)試語(yǔ)料都判斷完成時(shí),根據(jù)準(zhǔn)確次數(shù)和 錯(cuò)誤次數(shù)計(jì)算得到分類(lèi)模型的準(zhǔn)確率。
[0131] 308、判斷分類(lèi)模型的準(zhǔn)確率是否達(dá)到預(yù)置條件。
[0132] 本實(shí)施例中,判斷分類(lèi)模型的準(zhǔn)確率是否達(dá)到預(yù)置條件,為了保證文本分類(lèi)的準(zhǔn) 確性,需要分類(lèi)模型的準(zhǔn)確率達(dá)到96% W上,那么預(yù)置條件即為96%。
[0133] 本發(fā)明實(shí)施例中,對(duì)分類(lèi)模型的準(zhǔn)確率進(jìn)行驗(yàn)證的細(xì)化使得方案更加詳細(xì)。
[0134] 可選的,本發(fā)明的一些實(shí)施例中,還包括:
[0135] 若分類(lèi)模型的準(zhǔn)確率未達(dá)到預(yù)置條件,則不使用分類(lèi)模型,并重新生成新的分類(lèi) 模型。
[0136] 本發(fā)明實(shí)施例中,在分類(lèi)模型的準(zhǔn)確率未達(dá)到預(yù)置條件時(shí),文本分類(lèi)的準(zhǔn)確度達(dá) 不到要求,不使用分類(lèi)模型,并且重新進(jìn)行分類(lèi)器訓(xùn)練,生成新的分類(lèi)模型。
[0137] 上述實(shí)施例中介紹本發(fā)明中文本分類(lèi)的方法,下面通過(guò)實(shí)施例對(duì)文本分類(lèi)系統(tǒng)進(jìn) 行說(shuō)明。
[0138] 請(qǐng)參閱圖4,本發(fā)明實(shí)施例提供一種文本分類(lèi)系統(tǒng),包括:
[0139] 建立模塊401,用于建立類(lèi)別詞庫(kù)及訓(xùn)練語(yǔ)料庫(kù),訓(xùn)練語(yǔ)料庫(kù)中包含訓(xùn)練語(yǔ)料,訓(xùn) 練語(yǔ)料的文本類(lèi)別已知;
[0140] 分類(lèi)器訓(xùn)練模塊402,用于根據(jù)訓(xùn)練語(yǔ)料庫(kù)中的訓(xùn)練語(yǔ)料進(jìn)行分類(lèi)器訓(xùn)練,生成分 類(lèi)模型;
[0141] 分類(lèi)器403,用于驗(yàn)證分類(lèi)模型的準(zhǔn)確率是否達(dá)到預(yù)置條件;
[0142] 分類(lèi)器403,還用于當(dāng)分類(lèi)模型的準(zhǔn)確率達(dá)到預(yù)置條件時(shí),獲取預(yù)測(cè)文本,根據(jù)分 類(lèi)模型得到預(yù)測(cè)文本的文本類(lèi)別。
[0143] 本發(fā)明實(shí)施例中,文本分類(lèi)系統(tǒng)中的建立模塊401建立類(lèi)別詞庫(kù)及訓(xùn)練語(yǔ)料庫(kù),分 類(lèi)器訓(xùn)練模塊402根據(jù)訓(xùn)練語(yǔ)料庫(kù)中的訓(xùn)練語(yǔ)料進(jìn)行分類(lèi)器訓(xùn)練,生成分類(lèi)模型,分類(lèi)器 403驗(yàn)證分類(lèi)模型的準(zhǔn)確率是否達(dá)到預(yù)置條件,若是,則分類(lèi)器403獲取預(yù)測(cè)文本,根據(jù)分類(lèi) 模型得到預(yù)測(cè)文本的文本類(lèi)別,由于在進(jìn)行預(yù)測(cè)文本的文本分類(lèi)操作之前,對(duì)分類(lèi)模型進(jìn) 行校驗(yàn),只有當(dāng)分類(lèi)模型的準(zhǔn)確率達(dá)到預(yù)置條件時(shí),才能進(jìn)行預(yù)測(cè)文本的文本分類(lèi),與現(xiàn)有 技術(shù)相比,降低了預(yù)測(cè)文本分類(lèi)錯(cuò)誤的概率,從而提高了預(yù)測(cè)文本的文本分類(lèi)的準(zhǔn)確率。
[0144] 可選的,如圖5所示,本發(fā)明的一些實(shí)施例中,建立模塊401包括:類(lèi)別詞庫(kù)建立單 元501及訓(xùn)練語(yǔ)料庫(kù)建立單元502;
[0145] 類(lèi)別詞庫(kù)建立單元501,用于獲取類(lèi)別詞,根據(jù)類(lèi)別詞建立類(lèi)別詞庫(kù),類(lèi)別詞用于 表示文本類(lèi)別;
[0146] 訓(xùn)練語(yǔ)料庫(kù)建立單元502,用于獲取已知文本類(lèi)別的訓(xùn)練語(yǔ)料,生成訓(xùn)練語(yǔ)料列 表,根據(jù)訓(xùn)練語(yǔ)料列表建立訓(xùn)練語(yǔ)料庫(kù)。
[0147] 本實(shí)施例中,用戶可W根據(jù)需求在文本分類(lèi)系統(tǒng)建立類(lèi)別代碼,類(lèi)別代碼即為類(lèi) 別詞,類(lèi)別詞包括汽車(chē)類(lèi)、時(shí)尚/運(yùn)動(dòng)、科技、家電、汽車(chē)、奢侈品、醫(yī)藥、通信、金融、媒體、零 售、工業(yè)品、煙草及公共事務(wù)等,如果用戶需要將大量的文本分類(lèi)為通信類(lèi)、金融類(lèi)及工業(yè) 品類(lèi),那么輸入類(lèi)別詞"通信"、"金融"及"工業(yè)品",類(lèi)別詞庫(kù)建立單元501根據(jù)獲取到類(lèi)別 詞(通信、金融及工業(yè)品)建立類(lèi)別詞庫(kù),由于進(jìn)行分類(lèi)器訓(xùn)練是需要通過(guò)大量語(yǔ)料來(lái)實(shí)現(xiàn) 的,因此需要建立訓(xùn)練語(yǔ)料庫(kù),訓(xùn)練語(yǔ)料庫(kù)建立單元502獲取大量的已知文本類(lèi)別的訓(xùn)練語(yǔ) 料,將訓(xùn)練語(yǔ)料生成訓(xùn)練語(yǔ)料列表,根據(jù)訓(xùn)練語(yǔ)料列表建立訓(xùn)練語(yǔ)料庫(kù)。
[0148] 可選的,如圖5所示,本發(fā)明的一些實(shí)施例中,分類(lèi)器訓(xùn)練模塊402包括:特征提取 單元503、權(quán)重計(jì)算單元504、格式轉(zhuǎn)換單元505、歸一化處理單元506及訓(xùn)練單元507;
[0149] 特征提取單元503,用于對(duì)訓(xùn)練語(yǔ)料列表中每一條訓(xùn)練語(yǔ)料進(jìn)行特征提取,得到文 本特征;
[0150] 權(quán)重計(jì)算單元504,用于計(jì)算得到文本特征的權(quán)重;
[0151] 格式轉(zhuǎn)換單元505,用于對(duì)文本特征及文本特征的權(quán)重進(jìn)行降維,并轉(zhuǎn)化為L(zhǎng)IBSVM 格式數(shù)據(jù);
[0152] 歸一化處理單元506,用于對(duì)LIBSVM格式數(shù)據(jù)進(jìn)行歸一化處理,得到訓(xùn)練語(yǔ)料數(shù) 據(jù);
[0153] 訓(xùn)練單元507,用于根據(jù)訓(xùn)練語(yǔ)料數(shù)據(jù)進(jìn)行分類(lèi)器訓(xùn)練,得到分類(lèi)模型。
[0154] 本發(fā)明實(shí)施例中,詳情請(qǐng)參閱步驟201至205。
[01 W]可選的,本發(fā)明的一些實(shí)施例中,分類(lèi)器403包括:語(yǔ)料獲取單元508、語(yǔ)料處理單 元509及判斷單元510;
[0156] 語(yǔ)料獲取單元508,用于獲取測(cè)試語(yǔ)料列表,測(cè)試語(yǔ)料列表包含至少一個(gè)測(cè)試語(yǔ) 料,測(cè)試語(yǔ)料的文本類(lèi)別已知;
[0157] 語(yǔ)料處理單元509,用于從測(cè)試語(yǔ)料列表中選取一個(gè)測(cè)試語(yǔ)料,并根據(jù)測(cè)試語(yǔ)料得 到測(cè)試語(yǔ)料數(shù)據(jù)及測(cè)試語(yǔ)料的已知文本類(lèi)別;
[0158] 語(yǔ)料處理單元509,用于根據(jù)分類(lèi)模型及測(cè)試語(yǔ)料數(shù)據(jù)得到測(cè)試語(yǔ)料的測(cè)試文本 類(lèi)別;
[0159] 判斷單元510,用于判斷已知文本類(lèi)別與測(cè)試文本類(lèi)別是否一致;
[0160] 語(yǔ)料處理單元509,還用于當(dāng)已知文本類(lèi)別與測(cè)試文本類(lèi)別一致時(shí),分類(lèi)模型的準(zhǔn) 確次數(shù)加一次;
[0161] 語(yǔ)料處理單元509,還用于當(dāng)已知文本類(lèi)別與測(cè)試文本類(lèi)別不一致時(shí),分類(lèi)模型的 錯(cuò)誤次數(shù)加一次;
[0162] 語(yǔ)料處理單元509,還用于當(dāng)測(cè)試語(yǔ)料列表中所有的測(cè)試語(yǔ)料都判斷完成時(shí),根據(jù) 準(zhǔn)確次數(shù)和錯(cuò)誤次數(shù)計(jì)算得到分類(lèi)模型的準(zhǔn)確率;
[0163] 判斷單元510,還用于判斷分類(lèi)模型的準(zhǔn)確率是否達(dá)到預(yù)置條件。
[0164] 本發(fā)明實(shí)施例中,詳情請(qǐng)參閱步驟301至308。
[01化]可選的,本發(fā)明的一些實(shí)施例中,
[0166] 分類(lèi)器訓(xùn)練模塊402,還用于當(dāng)分類(lèi)模型的準(zhǔn)確率未達(dá)到預(yù)置條件時(shí),不使用分類(lèi) 模型,并重新生成新的分類(lèi)模型。
[0167] 本發(fā)明實(shí)施例中,在分類(lèi)模型的準(zhǔn)確率未達(dá)到預(yù)置條件時(shí),文本分類(lèi)的準(zhǔn)確度達(dá) 不到要求,不使用分類(lèi)模型,并且分類(lèi)器訓(xùn)練模塊402重新進(jìn)行分類(lèi)器訓(xùn)練,生成新的分類(lèi) 模型。
[0168] 所屬領(lǐng)域的技術(shù)人員可W清楚地了解到,為描述的方便和簡(jiǎn)潔,上述描述的系統(tǒng), 設(shè)備和單元的具體工作過(guò)程,可W參考前述方法實(shí)施例中的對(duì)應(yīng)過(guò)程,在此不再寶述。
[0169] 在本申請(qǐng)所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所掲露的系統(tǒng),設(shè)備和方法,可W 通過(guò)其它的方式實(shí)現(xiàn)。例如,W上所描述的設(shè)備實(shí)施例僅僅是示意性的,例如,所述單元的 劃分,僅僅為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可W有另外的劃分方式,例如多個(gè)單元或組件 可W結(jié)合或者可W集成到另一個(gè)系統(tǒng),或一些特征可W忽略,或不執(zhí)行。另一點(diǎn),所顯示或 討論的相互之間的禪合或直接禪合或通信連接可W是通過(guò)一些接口,設(shè)備或單元的間接禪 合或通信連接,可W是電性,機(jī)械或其它的形式。
[0170] 所述作為分離部件說(shuō)明的單元可W是或者也可W不是物理上分開(kāi)的,作為單元顯 示的部件可W是或者也可W不是物理單元,即可W位于一個(gè)地方,或者也可W分布到多個(gè) 網(wǎng)絡(luò)單元上。可W根據(jù)實(shí)際的需要選擇其中的部分或者全部單元來(lái)實(shí)現(xiàn)本實(shí)施例方案的目 的。
[0171] 另外,在本發(fā)明各個(gè)實(shí)施例中的各功能單元可W集成在一個(gè)處理單元中,也可W 是各個(gè)單元單獨(dú)物理存在,也可W兩個(gè)或兩個(gè)W上單元集成在一個(gè)單元中。上述集成的單 元既可W采用硬件的形式實(shí)現(xiàn),也可W采用軟件功能單元的形式實(shí)現(xiàn)。
[0172] 所述集成的單元如果W軟件功能單元的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷(xiāo)售或使用 時(shí),可W存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中?;谶\(yùn)樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上 或者說(shuō)對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的全部或部分可WW軟件產(chǎn)品的形式 體現(xiàn)出來(lái),該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用W使得一臺(tái)計(jì)算機(jī) 設(shè)備(可W是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述方法的全 部或部分步驟。而前述的存儲(chǔ)介質(zhì)包括:U盤(pán)、移動(dòng)硬盤(pán)、只讀存儲(chǔ)器(ROM,Read-Only Memo巧)、隨機(jī)存取存儲(chǔ)器(RAM,Random Access Memcxry)、磁碟或者光盤(pán)等各種可W存儲(chǔ)程 序代碼的介質(zhì)。
[0173] W上所述,W上實(shí)施例僅用W說(shuō)明本發(fā)明的技術(shù)方案,而非對(duì)其限制;盡管參照前 述實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)的說(shuō)明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可W對(duì)前 述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對(duì)其中部分技術(shù)特征進(jìn)行等同替換;而運(yùn)些
【主權(quán)項(xiàng)】
1. 一種文本分類(lèi)的方法,其特征在于,包括: 建立類(lèi)別詞庫(kù)及訓(xùn)練語(yǔ)料庫(kù),所述訓(xùn)練語(yǔ)料庫(kù)中包含訓(xùn)練語(yǔ)料,所述訓(xùn)練語(yǔ)料的文本 類(lèi)別已知; 根據(jù)所述訓(xùn)練語(yǔ)料庫(kù)中的所述訓(xùn)練語(yǔ)料進(jìn)行分類(lèi)器訓(xùn)練,生成分類(lèi)模型; 驗(yàn)證所述分類(lèi)模型的準(zhǔn)確率是否達(dá)到預(yù)置條件; 若是,則獲取預(yù)測(cè)文本,根據(jù)所述分類(lèi)模型得到所述預(yù)測(cè)文本的文本類(lèi)別。2. 根據(jù)權(quán)利要求1所述的文本分類(lèi)的方法,其特征在于,所述建立類(lèi)別詞庫(kù)及訓(xùn)練語(yǔ)料 庫(kù),包括: 獲取類(lèi)別詞,根據(jù)所述類(lèi)別詞建立類(lèi)別詞庫(kù),所述類(lèi)別詞用于表示文本類(lèi)別; 獲取已知文本類(lèi)別的訓(xùn)練語(yǔ)料,生成訓(xùn)練語(yǔ)料列表,根據(jù)所述訓(xùn)練語(yǔ)料列表建立訓(xùn)練 語(yǔ)料庫(kù)。3. 根據(jù)權(quán)利要求2所述的文本分類(lèi)的方法,其特征在于,所述根據(jù)所述訓(xùn)練語(yǔ)料庫(kù)中的 所述訓(xùn)練語(yǔ)料進(jìn)行分類(lèi)器訓(xùn)練,生成分類(lèi)模型,包括: 對(duì)所述訓(xùn)練語(yǔ)料列表中每一條訓(xùn)練語(yǔ)料進(jìn)行特征提取,得到文本特征; 計(jì)算得到所述文本特征的權(quán)重; 對(duì)所述文本特征及所述文本特征的權(quán)重進(jìn)行降維,并轉(zhuǎn)化為L(zhǎng)IBSVM格式數(shù)據(jù); 對(duì)所述LIBSVM格式數(shù)據(jù)進(jìn)行歸一化處理,得到訓(xùn)練語(yǔ)料數(shù)據(jù); 根據(jù)所述訓(xùn)練語(yǔ)料數(shù)據(jù)進(jìn)行分類(lèi)器訓(xùn)練,得到分類(lèi)模型。4. 根據(jù)權(quán)利要求3所述的文本分類(lèi)的方法,其特征在于,所述驗(yàn)證所述分類(lèi)模型的準(zhǔn)確 率是否達(dá)到預(yù)置條件,包括: 獲取測(cè)試語(yǔ)料列表,所述測(cè)試語(yǔ)料列表包含至少一個(gè)測(cè)試語(yǔ)料,所述測(cè)試語(yǔ)料的文本 類(lèi)別已知; 從所述測(cè)試語(yǔ)料列表中選取一個(gè)測(cè)試語(yǔ)料,并根據(jù)所述測(cè)試語(yǔ)料得到測(cè)試語(yǔ)料數(shù)據(jù)及 所述測(cè)試語(yǔ)料的已知文本類(lèi)別; 根據(jù)分類(lèi)模型及所述測(cè)試語(yǔ)料數(shù)據(jù)得到所述測(cè)試語(yǔ)料的測(cè)試文本類(lèi)別; 判斷所述已知文本類(lèi)別與所述測(cè)試文本類(lèi)別是否一致; 若所述已知文本類(lèi)別與所述測(cè)試文本類(lèi)別一致,則所述分類(lèi)模型的準(zhǔn)確次數(shù)加一次; 若所述已知文本類(lèi)別與所述測(cè)試文本類(lèi)別不一致,則所述分類(lèi)模型的錯(cuò)誤次數(shù)加一 次; 當(dāng)所述測(cè)試語(yǔ)料列表中所有的測(cè)試語(yǔ)料都判斷完成時(shí),根據(jù)所述準(zhǔn)確次數(shù)和所述錯(cuò)誤 次數(shù)計(jì)算得到所述分類(lèi)模型的準(zhǔn)確率; 判斷所述分類(lèi)模型的準(zhǔn)確率是否達(dá)到預(yù)置條件。5. 根據(jù)權(quán)利要求1至4中任一項(xiàng)所述的文本分類(lèi)的方法,其特征在于,所述方法還包括: 若所述分類(lèi)模型的準(zhǔn)確率未達(dá)到預(yù)置條件,則不使用所述分類(lèi)模型,并重新生成新的 分類(lèi)模型。6. -種文本分類(lèi)系統(tǒng),其特征在于,包括: 建立模塊,用于建立類(lèi)別詞庫(kù)及訓(xùn)練語(yǔ)料庫(kù),所述訓(xùn)練語(yǔ)料庫(kù)中包含訓(xùn)練語(yǔ)料,所述訓(xùn) 練語(yǔ)料的文本類(lèi)別已知; 分類(lèi)器訓(xùn)練模塊,用于根據(jù)所述訓(xùn)練語(yǔ)料庫(kù)中的所述訓(xùn)練語(yǔ)料進(jìn)行分類(lèi)器訓(xùn)練,生成 分類(lèi)模型; 分類(lèi)器,用于驗(yàn)證所述分類(lèi)模型的準(zhǔn)確率是否達(dá)到預(yù)置條件; 所述分類(lèi)器,還用于當(dāng)所述分類(lèi)模型的準(zhǔn)確率達(dá)到預(yù)置條件時(shí),獲取預(yù)測(cè)文本,根據(jù)所 述分類(lèi)模型得到所述預(yù)測(cè)文本的文本類(lèi)別。7. 根據(jù)權(quán)利要求6所述的文本分類(lèi)系統(tǒng),其特征在于,所述建立模塊包括:類(lèi)別詞庫(kù)建 立單元及訓(xùn)練語(yǔ)料庫(kù)建立單元; 所述類(lèi)別詞庫(kù)建立單元,用于獲取類(lèi)別詞,根據(jù)所述類(lèi)別詞建立類(lèi)別詞庫(kù),所述類(lèi)別詞 用于表示文本類(lèi)別; 所述訓(xùn)練語(yǔ)料庫(kù)建立單元,用于獲取已知文本類(lèi)別的訓(xùn)練語(yǔ)料,生成訓(xùn)練語(yǔ)料列表,根 據(jù)所述訓(xùn)練語(yǔ)料列表建立訓(xùn)練語(yǔ)料庫(kù)。8. 根據(jù)權(quán)利要求7所述的文本分類(lèi)系統(tǒng),其特征在于,所述分類(lèi)器訓(xùn)練模塊包括:特征 提取單元、權(quán)重計(jì)算單元、格式轉(zhuǎn)換單元、歸一化處理單元及訓(xùn)練單元; 所述特征提取單元,用于對(duì)所述訓(xùn)練語(yǔ)料列表中每一條訓(xùn)練語(yǔ)料進(jìn)行特征提取,得到 文本特征; 所述權(quán)重計(jì)算單元,用于計(jì)算得到所述文本特征的權(quán)重; 所述格式轉(zhuǎn)換單元,用于對(duì)所述文本特征及所述文本特征的權(quán)重進(jìn)行降維,并轉(zhuǎn)化為 LIBSVM格式數(shù)據(jù); 所述歸一化處理單元,用于對(duì)所述LIBSVM格式數(shù)據(jù)進(jìn)行歸一化處理,得到訓(xùn)練語(yǔ)料數(shù) 據(jù); 所述訓(xùn)練單元,用于根據(jù)所述訓(xùn)練語(yǔ)料數(shù)據(jù)進(jìn)行分類(lèi)器訓(xùn)練,得到分類(lèi)模型。9. 根據(jù)權(quán)利要求8所述的文本分類(lèi)系統(tǒng),其特征在于,所述分類(lèi)器包括:語(yǔ)料獲取單元、 語(yǔ)料處理單元及判斷單元; 所述語(yǔ)料獲取單元,用于獲取測(cè)試語(yǔ)料列表,所述測(cè)試語(yǔ)料列表包含至少一個(gè)測(cè)試語(yǔ) 料,所述測(cè)試語(yǔ)料的文本類(lèi)別已知; 所述語(yǔ)料處理單元,用于從所述測(cè)試語(yǔ)料列表中選取一個(gè)測(cè)試語(yǔ)料,并根據(jù)所述測(cè)試 語(yǔ)料得到測(cè)試語(yǔ)料數(shù)據(jù)及所述測(cè)試語(yǔ)料的已知文本類(lèi)別; 所述語(yǔ)料處理單元,用于根據(jù)分類(lèi)模型及所述測(cè)試語(yǔ)料數(shù)據(jù)得到所述測(cè)試語(yǔ)料的測(cè)試 文本類(lèi)別; 所述判斷單元,用于判斷所述已知文本類(lèi)別與所述測(cè)試文本類(lèi)別是否一致; 所述語(yǔ)料處理單元,還用于當(dāng)所述已知文本類(lèi)別與所述測(cè)試文本類(lèi)別一致時(shí),所述分 類(lèi)模型的準(zhǔn)確次數(shù)加一次; 所述語(yǔ)料處理單元,還用于當(dāng)所述已知文本類(lèi)別與所述測(cè)試文本類(lèi)別不一致時(shí),所述 分類(lèi)模型的錯(cuò)誤次數(shù)加一次; 所述語(yǔ)料處理單元,還用于當(dāng)所述測(cè)試語(yǔ)料列表中所有的測(cè)試語(yǔ)料都判斷完成時(shí),根 據(jù)所述準(zhǔn)確次數(shù)和所述錯(cuò)誤次數(shù)計(jì)算得到所述分類(lèi)模型的準(zhǔn)確率; 所述判斷單元,還用于判斷所述分類(lèi)模型的準(zhǔn)確率是否達(dá)到預(yù)置條件。10. 根據(jù)權(quán)利要求6至9中任一項(xiàng)所述的文本分類(lèi)系統(tǒng),其特征在于, 所述分類(lèi)器訓(xùn)練模塊,還用于當(dāng)所述分類(lèi)模型的準(zhǔn)確率未達(dá)到預(yù)置條件時(shí),不使用所 述分類(lèi)模型,并重新生成新的分類(lèi)模型。
【文檔編號(hào)】G06K9/62GK106021461SQ201610327131
【公開(kāi)日】2016年10月12日
【申請(qǐng)日】2016年5月17日
【發(fā)明人】李奕錦, 劉祥濤, 趙彥暉, 孫淏添
【申請(qǐng)人】深圳市中潤(rùn)四方信息技術(shù)有限公司