欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于信息增益率的屬性選擇方法

文檔序號(hào):8430881閱讀:565來(lái)源:國(guó)知局
一種基于信息增益率的屬性選擇方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種基于信息增益率的屬性選擇方法,屬于人工智能數(shù)據(jù)挖掘分類技 術(shù)領(lǐng)域。
【背景技術(shù)】
[0002] 樸素貝葉斯文本分類器因?yàn)槠浜?jiǎn)單性和高效性經(jīng)常被用來(lái)處理文本分類問(wèn)題,但 是它的屬性獨(dú)立假設(shè)在使它變得高效的同時(shí)在一定程度上影響了它的分類性能。給定一篇 文檔d,該文檔被表示成單詞向量的形式<Wl,w2,…,w,,多項(xiàng)式樸素貝葉斯(MNB),補(bǔ)集樸 素貝葉斯(CNB)和兩者的結(jié)合模型(0VA)分別用公式1,2和3來(lái)分類文檔d。
【主權(quán)項(xiàng)】
1. 一種基于信息增益率的屬性選擇方法,用于從一個(gè)訓(xùn)練文檔集中得到最好的屬性子 集,其特征在于包括以下步驟: (1) 對(duì)于一個(gè)已知的訓(xùn)練文檔集D,訓(xùn)練文檔集D中的任意一篇文檔d表示為單詞向量 形式d =〈w。W2, ... wm>,其中Wi為文檔d中的第i個(gè)單詞,m為文檔d中單詞的數(shù)目; 利用以下公式計(jì)算該訓(xùn)練文檔集D中的各個(gè)屬性的信息增益率:
其中,GainRatio (D, Wi)表示單詞力劃分訓(xùn)練文檔集D的信息增益率,Gain(D^i)表示 單詞力劃分訓(xùn)練文檔集D的信息增益,SplitInfo (D, w D表示訓(xùn)練文檔集D關(guān)于單詞力的 分裂信息; Gain(Dji)通過(guò)以下公式計(jì)算:
其中,IDvI是訓(xùn)練文檔集D中單詞力的取值為V的文檔數(shù)目,V e {〇, 〇} ;Entropy (D) 是訓(xùn)練文檔集D的熵,通過(guò)以下公式計(jì)算:
其中,C是類標(biāo)記的集合,c是C中的一個(gè)類標(biāo)記,p(C)是訓(xùn)練文檔集D中類別為c的 概率;P (c)通過(guò)以下公式計(jì)算得到:
其中,η是訓(xùn)練文檔集D中的文檔數(shù)目,s是文檔的類別的數(shù)目,(^是第j篇文檔的類 標(biāo)記,δ (h c)表示一個(gè)二元函數(shù),當(dāng)它的兩個(gè)參數(shù)相同時(shí)值為1否則為〇 ; SplitInfo(Dji)通過(guò)以下公式計(jì)算得到:
(2) 根據(jù)訓(xùn)練文檔集D中的各個(gè)單詞的信息增益率對(duì)各屬性進(jìn)行從大到小排序,一個(gè) 單詞各自對(duì)應(yīng)一個(gè)屬性; (3) 初始化一個(gè)空集為最好的屬性子集,利用最好的屬性子集構(gòu)建最好的分類器,則最 好的分類器的分類精度為0 ; (4) 重復(fù)步驟(4-1)到步驟(4-4) k次,k為大于5且小于10的整數(shù): (4-1)按照信息增益率排序后,選擇位于排序前百分之q的屬性組成當(dāng)前的屬性子集, 0〈q〈100 ; (4-2)利用當(dāng)前的屬性子集構(gòu)建當(dāng)前的分類器,并利用5折交叉驗(yàn)證法評(píng)估當(dāng)前的分 類器的分類精度; (4-3)如果當(dāng)前的分類器的分類精度高于最好的分類器,則更新當(dāng)前最好的分類器和 最好的屬性子集,以當(dāng)前的分類器為最好的分類器,同時(shí)以當(dāng)前的屬性子集為最好的屬性 子集; (4-4)增加 q的數(shù)值,更新后的q小于100 ; (5)返回最好的屬性子集。
2.根據(jù)權(quán)利要求1所述的基于信息增益率的屬性選擇方法,其特征在于:步驟⑷所 述的k為9,步驟(4-1)所述的q為10,步驟(4-4) q的增量為q。
【專利摘要】本發(fā)明提供了一種基于信息增益率的屬性選擇方法,首先根據(jù)每個(gè)屬性的信息增益率大小對(duì)屬性進(jìn)行排序,然后通過(guò)9次執(zhí)行5折交叉驗(yàn)證的方法來(lái)確定選擇屬性的數(shù)目即百分比,最后在所選擇的屬性子集上構(gòu)建樸素貝葉斯文本分類器。本發(fā)明提出的基于信息增益率的屬性選擇方法集成了過(guò)濾法和包裝法兩類方法的優(yōu)點(diǎn),是一種混合的屬性選擇方法,在大量標(biāo)準(zhǔn)的文本分類數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本發(fā)明提出的基于信息增益率的屬性選擇方法在大多數(shù)情況下可以提高樸素貝葉斯文本分類器的分類精度,同時(shí)沒(méi)有招致太大的時(shí)間開(kāi)銷。
【IPC分類】G06F17-30
【公開(kāi)號(hào)】CN104750850
【申請(qǐng)?zhí)枴緾N201510173354
【發(fā)明人】蔣良孝, 張倫干, 李超群
【申請(qǐng)人】中國(guó)地質(zhì)大學(xué)(武漢)
【公開(kāi)日】2015年7月1日
【申請(qǐng)日】2015年4月14日
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
江阴市| 长垣县| 修水县| 盐亭县| 莲花县| 延川县| 汉寿县| 米易县| 墨脱县| 克拉玛依市| 龙海市| 扬州市| 遂昌县| 西吉县| 万源市| 岳阳市| 平谷区| 宜宾市| 桂东县| 泊头市| 滁州市| 彭州市| 青海省| 宁河县| 仁化县| 凤凰县| 永吉县| 且末县| 靖西县| 平邑县| 江陵县| 长汀县| 东平县| 二连浩特市| 肥东县| 博兴县| 寿阳县| 灵川县| 固镇县| 黄骅市| 樟树市|