一種基于信息增益率的屬性選擇方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種基于信息增益率的屬性選擇方法,屬于人工智能數(shù)據(jù)挖掘分類技 術(shù)領(lǐng)域。
【背景技術(shù)】
[0002] 樸素貝葉斯文本分類器因?yàn)槠浜?jiǎn)單性和高效性經(jīng)常被用來(lái)處理文本分類問(wèn)題,但 是它的屬性獨(dú)立假設(shè)在使它變得高效的同時(shí)在一定程度上影響了它的分類性能。給定一篇 文檔d,該文檔被表示成單詞向量的形式<Wl,w2,…,w,,多項(xiàng)式樸素貝葉斯(MNB),補(bǔ)集樸 素貝葉斯(CNB)和兩者的結(jié)合模型(0VA)分別用公式1,2和3來(lái)分類文檔d。
【主權(quán)項(xiàng)】
1. 一種基于信息增益率的屬性選擇方法,用于從一個(gè)訓(xùn)練文檔集中得到最好的屬性子 集,其特征在于包括以下步驟: (1) 對(duì)于一個(gè)已知的訓(xùn)練文檔集D,訓(xùn)練文檔集D中的任意一篇文檔d表示為單詞向量 形式d =〈w。W2, ... wm>,其中Wi為文檔d中的第i個(gè)單詞,m為文檔d中單詞的數(shù)目; 利用以下公式計(jì)算該訓(xùn)練文檔集D中的各個(gè)屬性的信息增益率:
其中,GainRatio (D, Wi)表示單詞力劃分訓(xùn)練文檔集D的信息增益率,Gain(D^i)表示 單詞力劃分訓(xùn)練文檔集D的信息增益,SplitInfo (D, w D表示訓(xùn)練文檔集D關(guān)于單詞力的 分裂信息; Gain(Dji)通過(guò)以下公式計(jì)算:
其中,IDvI是訓(xùn)練文檔集D中單詞力的取值為V的文檔數(shù)目,V e {〇, 〇} ;Entropy (D) 是訓(xùn)練文檔集D的熵,通過(guò)以下公式計(jì)算:
其中,C是類標(biāo)記的集合,c是C中的一個(gè)類標(biāo)記,p(C)是訓(xùn)練文檔集D中類別為c的 概率;P (c)通過(guò)以下公式計(jì)算得到:
其中,η是訓(xùn)練文檔集D中的文檔數(shù)目,s是文檔的類別的數(shù)目,(^是第j篇文檔的類 標(biāo)記,δ (h c)表示一個(gè)二元函數(shù),當(dāng)它的兩個(gè)參數(shù)相同時(shí)值為1否則為〇 ; SplitInfo(Dji)通過(guò)以下公式計(jì)算得到:
(2) 根據(jù)訓(xùn)練文檔集D中的各個(gè)單詞的信息增益率對(duì)各屬性進(jìn)行從大到小排序,一個(gè) 單詞各自對(duì)應(yīng)一個(gè)屬性; (3) 初始化一個(gè)空集為最好的屬性子集,利用最好的屬性子集構(gòu)建最好的分類器,則最 好的分類器的分類精度為0 ; (4) 重復(fù)步驟(4-1)到步驟(4-4) k次,k為大于5且小于10的整數(shù): (4-1)按照信息增益率排序后,選擇位于排序前百分之q的屬性組成當(dāng)前的屬性子集, 0〈q〈100 ; (4-2)利用當(dāng)前的屬性子集構(gòu)建當(dāng)前的分類器,并利用5折交叉驗(yàn)證法評(píng)估當(dāng)前的分 類器的分類精度; (4-3)如果當(dāng)前的分類器的分類精度高于最好的分類器,則更新當(dāng)前最好的分類器和 最好的屬性子集,以當(dāng)前的分類器為最好的分類器,同時(shí)以當(dāng)前的屬性子集為最好的屬性 子集; (4-4)增加 q的數(shù)值,更新后的q小于100 ; (5)返回最好的屬性子集。
2.根據(jù)權(quán)利要求1所述的基于信息增益率的屬性選擇方法,其特征在于:步驟⑷所 述的k為9,步驟(4-1)所述的q為10,步驟(4-4) q的增量為q。
【專利摘要】本發(fā)明提供了一種基于信息增益率的屬性選擇方法,首先根據(jù)每個(gè)屬性的信息增益率大小對(duì)屬性進(jìn)行排序,然后通過(guò)9次執(zhí)行5折交叉驗(yàn)證的方法來(lái)確定選擇屬性的數(shù)目即百分比,最后在所選擇的屬性子集上構(gòu)建樸素貝葉斯文本分類器。本發(fā)明提出的基于信息增益率的屬性選擇方法集成了過(guò)濾法和包裝法兩類方法的優(yōu)點(diǎn),是一種混合的屬性選擇方法,在大量標(biāo)準(zhǔn)的文本分類數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本發(fā)明提出的基于信息增益率的屬性選擇方法在大多數(shù)情況下可以提高樸素貝葉斯文本分類器的分類精度,同時(shí)沒(méi)有招致太大的時(shí)間開(kāi)銷。
【IPC分類】G06F17-30
【公開(kāi)號(hào)】CN104750850
【申請(qǐng)?zhí)枴緾N201510173354
【發(fā)明人】蔣良孝, 張倫干, 李超群
【申請(qǐng)人】中國(guó)地質(zhì)大學(xué)(武漢)
【公開(kāi)日】2015年7月1日
【申請(qǐng)日】2015年4月14日