專利名稱:文檔分類、支持向量機(jī)模型生成的方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計(jì)算機(jī)處理技術(shù),尤其涉及文檔分類、支持向量機(jī)模型生成的方法和
>J-U裝直。
背景技術(shù):
近年來(lái),隨著互聯(lián)網(wǎng)Internet的快速發(fā)展,使得Web (網(wǎng)絡(luò))上的文檔資源呈現(xiàn)爆炸式的增長(zhǎng),這些文檔信息數(shù)據(jù)量大,內(nèi)容繁雜。與數(shù)據(jù)庫(kù)中結(jié)構(gòu)化的信息相比,非結(jié)構(gòu)化或半結(jié)構(gòu)化的web文檔信息更加豐富和繁雜。為了充分有效地利用這些文檔資源,是用戶能夠快速有效的找到需要的 信息,并且提取其中潛在的有價(jià)值的信息,則需要對(duì)這些文檔進(jìn)行分類。目前,對(duì)文檔進(jìn)行自動(dòng)分類的方法通常采用基于支持向量機(jī)模型的方法進(jìn)行分類;該方法包括:訓(xùn)練階段和分類階段。目前,現(xiàn)有技術(shù)中有多種基于支持向量機(jī)模型的文檔自動(dòng)分類方法,下面較為詳細(xì)的介紹了一種。訓(xùn)練階段得到支持向量機(jī)模型的方法為:根據(jù)訓(xùn)練集中劃分了類別的文檔,得到類別特征向量;根據(jù)類別特征向量集,可以得到支持向量機(jī)模型以及有效詞語(yǔ)集(或稱詞典);為便于描述,本文中將訓(xùn)練集中的樣本稱為訓(xùn)練樣本。其中,根據(jù)訓(xùn)練集中劃分了類別的訓(xùn)練樣本,得到類別特征向量的一種具體方法,流程如
圖1所示,包括如下步驟:SlOl:對(duì)訓(xùn)練集中的每個(gè)訓(xùn)練樣本進(jìn)行分詞,得到每個(gè)訓(xùn)練樣本的詞語(yǔ)集合,刪除其中的停用詞。訓(xùn)練集中收集了各種已經(jīng)劃分了類別的文檔,通常,訓(xùn)練集采用人工分類的語(yǔ)料庫(kù)。為了保證訓(xùn)練階段得到的支持向量機(jī)模型的穩(wěn)定性和收斂性,通常訓(xùn)練集中的文檔數(shù)
量要大于一定數(shù)值。文檔(訓(xùn)練樣本)由一串連續(xù)的字序列組成,詞語(yǔ)是文檔中的基本單位;分詞就是將文檔中連續(xù)的字序列劃分為一個(gè)個(gè)詞語(yǔ)的過(guò)程,劃分出的詞語(yǔ)構(gòu)成該文檔的詞語(yǔ)集合。S102:針對(duì)每個(gè)類別,統(tǒng)計(jì)該類別的訓(xùn)練樣本的詞語(yǔ)集合中,各詞語(yǔ)出現(xiàn)的頻次。例如,訓(xùn)練集中的訓(xùn)練樣本共有q個(gè)類別,分別記為:C1、c2......Cq ;其中,q為大于
2的自然數(shù);訓(xùn)練集中所有的訓(xùn)練樣本的詞語(yǔ)集合中共有n個(gè)詞語(yǔ),分別記為t2……tn;其中,n為大于2的自然數(shù);針對(duì)其中第i個(gè)類別,統(tǒng)計(jì)出第i個(gè)類別的訓(xùn)練樣本的詞語(yǔ)集合中第j個(gè)詞語(yǔ)出現(xiàn)的頻次(次數(shù)),記為HlijtjS103:構(gòu)建類別詞語(yǔ)矩陣。根據(jù)統(tǒng)計(jì)出的每個(gè)類別中各詞語(yǔ)出現(xiàn)的頻次,得到每個(gè)類別的詞語(yǔ)頻次向量;例如,第i個(gè)類別的詞語(yǔ)頻次向量c, = {mn,mn, ,min)。構(gòu)建的qXn的類別詞語(yǔ)矩陣Q,,。
亦即類別詞語(yǔ)矩陣Cqxn為:
權(quán)利要求
1.一種文檔分類方法,其特征在于,包括: 對(duì)待分類文檔進(jìn)行分詞后,確定該待分類文檔的特征向量; 根據(jù)該待分類文檔的特征向量、以及根據(jù)經(jīng)過(guò)類別扁平化處理的訓(xùn)練集生成的支持向量機(jī)模型,確定該待分類文檔所屬類別,其中, 所述訓(xùn)練集的類別扁平化處理過(guò)程,包括:針對(duì)所述訓(xùn)練集中的每個(gè)訓(xùn)練樣本,對(duì)該訓(xùn)練樣本預(yù)先設(shè)置的所屬類別,按類別的層級(jí)高低進(jìn)行排序;針對(duì)該訓(xùn)練樣本所屬的每個(gè)類另IJ,從層級(jí)較高的類別開(kāi)始,判斷該訓(xùn)練樣本所屬類別中是否有該類別的子類類別;若有,則將該類別從該訓(xùn)練樣本所屬類別中剔除。
2.如權(quán)利要求1所述的方法,其特征在于,所述類別被分配了唯一的標(biāo)識(shí),以及所述類別的標(biāo)識(shí)中包含了該類別的層級(jí)路徑信息。
3.如權(quán)利要求2所述的方法,其特征在于,最高層級(jí)以下的類別的標(biāo)識(shí)由其父類類別的標(biāo)識(shí)和該類別的子類識(shí)別碼組成;其中,所述子類識(shí)別碼是針對(duì)屬于同一父類的一組子類,為組內(nèi)每個(gè)子類分配的唯一的識(shí)別碼。
4.如權(quán)利要求1-3任一所述的方法,其特征在于,所述支持向量機(jī)模型是根據(jù)訓(xùn)練集生成的具體包括: 根據(jù)所述訓(xùn)練集構(gòu)建類別詞語(yǔ)矩陣; 根據(jù)所述類別詞語(yǔ)矩陣生成各類別的特征向量,根據(jù)各類別的特征向量構(gòu)建所述支持向量機(jī)模型;以及 所述根據(jù)該待分類文檔的特征向量以及支持向量機(jī)模型,確定該待分類文檔所屬類別具體包括:` 計(jì)算該待分類文檔的特征向量與所述支持向量機(jī)模型中分別對(duì)應(yīng)各類別的超平面之間的距離; 根據(jù)計(jì)算的距離確定該待分類文檔所屬類別。
5.一種支持向量機(jī)模型生成方法,其特征在于,包括: 對(duì)訓(xùn)練集進(jìn)行類別扁平化處理:針對(duì)所述訓(xùn)練集中的每個(gè)訓(xùn)練樣本,對(duì)該訓(xùn)練樣本預(yù)先設(shè)置的所屬類別,按類別的層級(jí)高低進(jìn)行排序;針對(duì)該訓(xùn)練樣本所屬的每個(gè)類別,從層級(jí)較高的類別開(kāi)始,判斷該訓(xùn)練樣本所屬類別中是否有該類別的子類類別;若有,則將該類別從該訓(xùn)練樣本所屬類別中剔除; 根據(jù)經(jīng)過(guò)類別扁平化處理的訓(xùn)練集生成所述支持向量機(jī)模型。
6.如權(quán)利要求5所述的方法,其特征在于,所述類別被分配了唯一的標(biāo)識(shí),以及所述類別的標(biāo)識(shí)中包含了該類別的層級(jí)路徑信息。
7.如權(quán)利要求6所述的方法,其特征在于,最高層級(jí)以下的類別的標(biāo)識(shí)由其父類類別的標(biāo)識(shí)和該類別的子類識(shí)別碼組成;其中,所述子類識(shí)別碼是針對(duì)屬于同一父類的一組子類,為組內(nèi)每個(gè)子類分配的唯一的識(shí)別碼。
8.一種支持向量機(jī)模型生成裝置,其特征在于,包括: 訓(xùn)練集扁平化處理模塊,用于對(duì)訓(xùn)練集進(jìn)行類別扁平化處理:針對(duì)所述訓(xùn)練集中的每個(gè)訓(xùn)練樣本,對(duì)該訓(xùn)練樣本預(yù)先設(shè)置的所屬類別,按類別的層級(jí)高低進(jìn)行排序;針對(duì)該訓(xùn)練樣本所屬的每個(gè)類別,從層級(jí)較高的類別開(kāi)始,判斷該訓(xùn)練樣本所屬類別中是否有該類別的子類類別;若有,則將該類別從該訓(xùn)練樣本所屬類別中剔除;將經(jīng)過(guò)類別扁平化處理的訓(xùn)練集輸出; 支持向量機(jī)模型生成模塊,用于接收所述訓(xùn)練集扁平化處理模塊輸出的訓(xùn)練集,并根據(jù)接收的訓(xùn)練集生成所述支持向量機(jī)模型。
9.如權(quán)利要求8所述的裝置,其特征在于,所述類別被分配了唯一的標(biāo)識(shí),以及所述類別的標(biāo)識(shí)中包含了該類別的層級(jí)路徑信息。
10.如權(quán)利要求9所述的裝置,其特征在于,最高層級(jí)以下的類別的標(biāo)識(shí)由其父類類別的標(biāo)識(shí)和該類別的子類識(shí)別碼組成;其中,所述子類識(shí)別碼是針對(duì)屬于同一父類的一組子類,為組內(nèi)每個(gè)子類分 配的唯一的識(shí)別碼。
全文摘要
本發(fā)明公開(kāi)了一種文檔分類、支持向量機(jī)模型生成的方法和裝置,所述方法包括根據(jù)待分類文檔的特征向量、以及根據(jù)經(jīng)過(guò)類別扁平化處理的訓(xùn)練集生成的支持向量機(jī)模型,確定該待分類文檔所屬類別,其中,訓(xùn)練集的類別扁平化處理過(guò)程包括針對(duì)訓(xùn)練集中的每個(gè)訓(xùn)練樣本,對(duì)該訓(xùn)練樣本預(yù)先設(shè)置的所屬類別,按類別的層級(jí)高低進(jìn)行排序;針對(duì)該訓(xùn)練樣本所屬的每個(gè)類別,從層級(jí)較高的類別開(kāi)始,判斷該訓(xùn)練樣本所屬類別中是否有該類別的子類類別;若有,則將該類別從該訓(xùn)練樣本所屬類別中剔除。由于根據(jù)類別之間的層級(jí)關(guān)系先對(duì)訓(xùn)練集進(jìn)行類別扁平化處理,從而使得得到的支持向量機(jī)模型可適用于對(duì)多層級(jí)類別的文檔進(jìn)行分類,使得分類結(jié)果具有較好的精確性。
文檔編號(hào)G06K9/62GK103106262SQ20131003312
公開(kāi)日2013年5月15日 申請(qǐng)日期2013年1月28日 優(yōu)先權(quán)日2013年1月28日
發(fā)明者戴明洋 申請(qǐng)人:新浪網(wǎng)技術(shù)(中國(guó))有限公司