欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于rlid3的增量集成學(xué)習(xí)的數(shù)據(jù)分類方法

文檔序號(hào):10489096閱讀:305來源:國知局
一種基于rlid3的增量集成學(xué)習(xí)的數(shù)據(jù)分類方法
【專利摘要】一種基于RLID3的增量集成學(xué)習(xí)的數(shù)據(jù)分類方法,屬于數(shù)據(jù)分類領(lǐng)域,尤其涉及一種基于RLID3的增量集成學(xué)習(xí)的數(shù)據(jù)分類方法。本發(fā)明要為解決現(xiàn)有分類方法中存在準(zhǔn)確率不高的問題。本發(fā)明所述方法按以下步驟進(jìn)行:1、初始階段:①第1階段包括訓(xùn)練基分類器以及計(jì)算基分類器的權(quán)重;②第2個(gè)階段是組合所有基分類器的預(yù)測(cè)結(jié)果,對(duì)預(yù)分類樣本數(shù)據(jù)進(jìn)行分類結(jié)果的預(yù)測(cè);2、增量階段:①第1階段輸入增量數(shù)據(jù)集和初始階段的所有基分類器,輸出調(diào)整后的基分類器;②第2個(gè)階段組合所有調(diào)整后的基分類器的預(yù)測(cè)結(jié)果,對(duì)預(yù)分類樣本數(shù)據(jù)進(jìn)行分類結(jié)果的預(yù)測(cè)?;赗LID3的增量集成方法具有較好的分類準(zhǔn)確率。本發(fā)明所述方法可應(yīng)用于數(shù)據(jù)分類領(lǐng)域。
【專利說明】
一種基于RLID3的増量集成學(xué)習(xí)的數(shù)據(jù)分類方法
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及數(shù)據(jù)分類領(lǐng)域,尤其涉及一種基于RLID3的增量集成學(xué)習(xí)的數(shù)據(jù)分類 方法。
【背景技術(shù)】
[0002] 關(guān)于增量集成方法的研究,近年來相對(duì)火熱。已經(jīng)出現(xiàn)了一些具有基奠性意義的 增量集成方法。如,比較典型的Learn++算法和選擇性集成方法。這些方法對(duì)于增量集成的 研究起到了方向性的引導(dǎo)作用,這些方法的有效性也被很多實(shí)驗(yàn)和應(yīng)用所驗(yàn)證。
[0003] 在實(shí)際生產(chǎn)生活中,通常數(shù)據(jù)是不定時(shí)產(chǎn)生的,這種情況就要求數(shù)據(jù)分析系統(tǒng)能 夠增量地學(xué)習(xí)信息,從新數(shù)據(jù)中學(xué)習(xí)并且不忘記以前學(xué)到的模型,這種學(xué)習(xí)方式稱為增量 學(xué)習(xí)。增量學(xué)習(xí)是可以增量地分批次地對(duì)模型進(jìn)行訓(xùn)練的學(xué)習(xí)算法,增量學(xué)習(xí)能夠應(yīng)用在 新數(shù)據(jù)到來的時(shí)間不確定的情況下。
[0004] 目前,對(duì)增量算法的研究,一方面是針對(duì)現(xiàn)有的經(jīng)典的分類器進(jìn)行改進(jìn)與改造,使 其變成具有增量功能的分類器。例如,ID4算法就是在ID3算法上改進(jìn)的。ID4算法能夠在增 量數(shù)據(jù)到來時(shí),對(duì)ID3算法生成的決策樹進(jìn)行調(diào)整。本申請(qǐng)根據(jù)ID4算法的基本思想,基于決 策樹優(yōu)化率得到具有增量學(xué)習(xí)功能的增量RLID3算法。
[0005] 集成學(xué)習(xí)經(jīng)過多年的實(shí)驗(yàn)和應(yīng)用驗(yàn)證,證實(shí)是一種很好的值得深入研究的機(jī)器學(xué) 習(xí)方法。集成學(xué)習(xí)方式能夠彌補(bǔ)利用數(shù)據(jù)集訓(xùn)練出的單一分類器很難很好地?cái)M合實(shí)際數(shù)據(jù) 規(guī)律的缺點(diǎn)。集成學(xué)習(xí)利用多個(gè)分類器以某種方式訓(xùn)練數(shù)據(jù)集合,綜合這些分類器的分類 結(jié)果作為最終的分類結(jié)果。
[0006] Bagging集成學(xué)習(xí)方式,可以選用增量式的分類器作為基分類器,集成這些增量式 的分類器可以得到一種增量集成算法。這種增量集成算法具有較好準(zhǔn)確率同時(shí)具有增量學(xué) 習(xí)能力。

【發(fā)明內(nèi)容】

[0007] 本申請(qǐng)涉及的相關(guān)理論知識(shí)
[0008] 1、增量 RLID3 算法
[0009] RLID3算法根據(jù)數(shù)據(jù)集選取具有最大決策樹優(yōu)化率的屬性,將該屬性作為分裂節(jié) 點(diǎn)的屬性。然后,根據(jù)該屬性的取值個(gè)數(shù)劃分出數(shù)據(jù)子集,遞歸計(jì)算各數(shù)據(jù)子集的決策樹優(yōu) 化率。
[0010] 其中,決策樹優(yōu)化率是當(dāng)前屬性的信息增益與以當(dāng)前節(jié)點(diǎn)為根生成決策樹的葉子 節(jié)點(diǎn)數(shù)目的比值。公式(1)如下:
[0011]

[0012]式中,DT0R(S,A)表示決策樹優(yōu)化率,Gain(S,A)表示A屬性在數(shù)據(jù)集S上的信息增 益,LeafNum(S,A)表示以A為選擇的屬性,使用數(shù)據(jù)集S形成的決策樹的葉子節(jié)點(diǎn)個(gè)數(shù)。
[0013] 樣本特征碼是一個(gè)用于存儲(chǔ)數(shù)據(jù)集的字符串,這個(gè)字符串代表一條樣本數(shù)據(jù)。它 可以從Weka中.arff文件中獲取各屬性的取值個(gè)數(shù),并將各屬性的取值進(jìn)行標(biāo)號(hào)為0,1,…, (n-1)的形式。其中,η為屬性的取值個(gè)數(shù),每一列代表一個(gè)屬性,屬性的順序與Weka中.arff 文件中的屬性順序相同。
[0014] 將表1中的數(shù)據(jù)集存儲(chǔ)成樣本特征碼集的形式如下所示:
[0015] 000,000,101,201
[0016] 其中,將outlook屬性中取值sunny編號(hào)為0,取值overcast編號(hào)為1,取值rainy編 號(hào)為2,其他屬性編號(hào)方式與outlook屬性相同。
[0017] 表1數(shù)據(jù)集合實(shí)例如下所示:
[0018] 表1數(shù)據(jù)集合實(shí)例
[0019]
[0020] 將數(shù)據(jù)集合加入到樣本特征碼集的過程是讀取數(shù)據(jù)集合中的每一條樣本數(shù)據(jù),轉(zhuǎn) 化為樣本特征碼的形式后,加入到樣本特征碼集中。
[0021] 2、增量RLID3算法的計(jì)算過程
[0022]增量RLID3算法的核心思想是利用增量數(shù)據(jù)對(duì)RLID3算法生成的決策樹進(jìn)行動(dòng)態(tài) 調(diào)整,增量RLID3算法的計(jì)算過程分為如下兩個(gè)階段:
[0023] (1)初始階段
[0024] 初始階段是第一次得到訓(xùn)練數(shù)據(jù)集合的階段,該階段開始前,還沒有進(jìn)行分類器 的訓(xùn)練;在該階段過程中,需要使用RLID3算法對(duì)訓(xùn)練集合進(jìn)行訓(xùn)練,進(jìn)而得到?jīng)Q策樹模型; 該階段結(jié)束后,得到訓(xùn)練好的決策樹模型。
[0025] (2)增量階段
[0026]增量階段是初始階段完成后并且經(jīng)過一段時(shí)間,得到了能夠利用的增量數(shù)據(jù)的階 段。該階段開始前,已經(jīng)有初始階段訓(xùn)練好的分類器;在該階段過程中,需要使用增量RLID3 算法根據(jù)增量數(shù)據(jù)集合對(duì)初始階段訓(xùn)練好的決策樹模型進(jìn)行調(diào)整;該階段結(jié)束后,得到根 據(jù)增量數(shù)據(jù)集合調(diào)整后的決策樹模型。
[0027] 3、并行加權(quán)算法
[0028]并行加權(quán)算法是一種組合多個(gè)基分類器的算法,歸屬于集成學(xué)習(xí)方法。并行加權(quán) 算法同時(shí)訓(xùn)練多個(gè)基分類器,保留訓(xùn)練出的基分類器及其分類準(zhǔn)確率,利用分類準(zhǔn)確率和
得到基分類器的權(quán)重;
[0029] 公式中,weight表示基分類器的權(quán)重,precision表示分類準(zhǔn)確率。
[0030]權(quán)重記錄器用一個(gè)二維矩陣表示,它用于表示基分類器與分類種類之間的關(guān)系, 其中,二維矩陣的行表示基分類器,列表示數(shù)據(jù)集合的分類取值;二維矩陣的行數(shù)為基分類 器的個(gè)數(shù)設(shè)為m,列數(shù)為數(shù)據(jù)集合中樣本類別屬性的取值個(gè)數(shù)設(shè)為n,用B表示該二維矩陣, aij表不第i個(gè)基分類器將某一樣本分類成第j類別的權(quán)重,二維矩陣的結(jié)構(gòu)可表不如下:
[0031]
[0032] 4、并行加權(quán)算法的計(jì)算過程
[0033] 并行加權(quán)算法的計(jì)算過程分為兩個(gè)階段:
[0034] 第1個(gè)階段包括訓(xùn)練基分類器以及計(jì)算基分類器的權(quán)重;
[0035] 第2個(gè)階段是組合所有基分類器的預(yù)測(cè)結(jié)果,對(duì)預(yù)分類樣本數(shù)據(jù)進(jìn)行分類結(jié)果的 預(yù)測(cè)。此處選用非增量式算法RLID3算法訓(xùn)練基分類器。
[0036] 其中第1個(gè)階段包計(jì)算每個(gè)基分類器的權(quán)重的部分
[0037] 分別訓(xùn)練多個(gè)基分類器,得到分類準(zhǔn)確率;
[0038]分類準(zhǔn)確率如公式(2)所示:
[0039]
(2)
[0040] 式中,precision表示分類準(zhǔn)確率,correct表示基分類器能正確分類的樣本個(gè)數(shù), all表示整個(gè)數(shù)據(jù)集的樣本個(gè)數(shù)。
[0041] 利用分類準(zhǔn)確率公式計(jì)算基分類器的權(quán)重,基分類器的權(quán)重的計(jì)算公式如公式 (3)所示
[0042] .(3>
[0043] 式中,weight表示基分類器的權(quán)重,precision表示分類準(zhǔn)確率。
[0044] 第2個(gè)階段利用權(quán)重weight以及基分類器集成分類結(jié)果的部分
[0045] a、使用將要用于測(cè)試的測(cè)試集以及第1個(gè)階段中得到的基分類器以及基分類器對(duì) 應(yīng)的權(quán)重weight對(duì)權(quán)值記錄器進(jìn)行賦值;
[0046] b、計(jì)算出二維矩陣中每一列之和,將每一列之和中的最大值對(duì)應(yīng)的分類種類作為 組合分類器對(duì)該樣本的分類,如果最大值存在多個(gè),任選其中一個(gè)分類結(jié)果作為分類器共 同的分類結(jié)果。
[0047]在集成學(xué)習(xí)的集成方式中,Bagging是一種常見的方式。Bagging方式能夠并行地 訓(xùn)練多個(gè)基分類器,但它簡(jiǎn)單地用投票法綜合基分類的投票結(jié)果,并將該結(jié)果作為分類器 的預(yù)測(cè)結(jié)果;本申請(qǐng)的并行加權(quán)算法將利用公式y(tǒng)
辱到權(quán)重,利用 權(quán)重來綜合分類器的分類結(jié)果,將得到的分類結(jié)果作為分類器的最終分類結(jié)果,式中, weight表示基分類器的權(quán)重,precision表示分類準(zhǔn)確率。
[0048]本發(fā)明為解決現(xiàn)有的數(shù)據(jù)分類方法中存在準(zhǔn)確率不高的問題,而提出一種基于 RLID3的增量集成學(xué)習(xí)的數(shù)據(jù)分類方法。
[0049] 一種基于RLID3的增量集成學(xué)習(xí)的數(shù)據(jù)分類方法,將增量RLID3算法和并行加權(quán)算 法相結(jié)合,按以下步驟進(jìn)行:
[0050] 一、初始階段
[0051] 這個(gè)階段將RLID3算法作為訓(xùn)練基分類器的算法,初始階段分為2個(gè)階段,分別為 第1個(gè)階段和第2個(gè)階段:
[0052] 第1階段包括訓(xùn)練基分類器以及計(jì)算基分類器的權(quán)重;
[0053] 第2個(gè)階段是組合所有基分類器的預(yù)測(cè)結(jié)果,對(duì)預(yù)分類樣本數(shù)據(jù)進(jìn)行分類結(jié)果的 預(yù)測(cè);
[0054] 二、增量階段
[0055] 增量階段也分為兩個(gè)階段,分別為第1個(gè)階段和第2個(gè)階段,
[0056] 第1個(gè)階段:輸入增量數(shù)據(jù)集和初始階段的所有基分類器,輸出調(diào)整后的基分類 器;
[0057]第2個(gè)階段:組合所有調(diào)整后的基分類器的預(yù)測(cè)結(jié)果,對(duì)預(yù)分類樣本數(shù)據(jù)進(jìn)行分類 結(jié)果的預(yù)測(cè)。
[0058]本發(fā)明包括以下有益效果:
[0059] 1、本發(fā)明方法能夠?qū)Φ絹淼臅r(shí)間不確定的新數(shù)據(jù)進(jìn)行有效地處理,而且與現(xiàn)有的 分類方法相比,顯著提高了準(zhǔn)確率;
[0060] 2、本發(fā)明方法將增量RLID3算法和并行加權(quán)算法結(jié)合在一起,克服了原有算法的 局限性,不僅實(shí)用性強(qiáng),進(jìn)一步提高算法的預(yù)測(cè)能力;
[0061] 3、本發(fā)明方法利用多個(gè)分類器以某種方式訓(xùn)練數(shù)據(jù)集合,克服了利用數(shù)據(jù)集訓(xùn)練 出的單一分類器很難很好地?cái)M合實(shí)際數(shù)據(jù)規(guī)律的缺點(diǎn)。
【附圖說明】
[0062]圖1為增量RLID3算法的準(zhǔn)確率柱狀圖;
[0063]圖2為并行加權(quán)算法的分類準(zhǔn)確率柱狀圖;
[0064]圖3為增量集成各階段分類準(zhǔn)確率柱狀圖;
【具體實(shí)施方式】
[0065]為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合【具體實(shí)施方式】 對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說明。
[0066]【具體實(shí)施方式】一、本實(shí)施方式所述的一種基于RLID3的增量集成學(xué)習(xí)的數(shù)據(jù)分類 方法,按以下步驟進(jìn)行:
[0067] 一、初始階段
[0068]這個(gè)階段將RLID3算法作為訓(xùn)練基分類器的算法,初始階段分為2個(gè)階段,分別為 第1個(gè)階段和第2個(gè)階段:
[0069] 第1階段包括訓(xùn)練基分類器以及計(jì)算基分類器的權(quán)重;
[0070] 第2個(gè)階段是組合所有基分類器的預(yù)測(cè)結(jié)果,對(duì)預(yù)分類樣本數(shù)據(jù)進(jìn)行分類結(jié)果的 預(yù)測(cè);
[0071] 二、增量階段
[0072] 增量階段也分為兩個(gè)階段,分別為第1個(gè)階段和第2個(gè)階段,
[0073] 第1個(gè)階段:輸入增量數(shù)據(jù)集和初始階段的所有基分類器,輸出調(diào)整后的基分類 器;
[0074] 第2個(gè)階段:組合所有調(diào)整后的基分類器的預(yù)測(cè)結(jié)果,對(duì)預(yù)分類樣本數(shù)據(jù)進(jìn)行分類 結(jié)果的預(yù)測(cè)。
[0075] 本實(shí)施方式包括以下有益效果:
[0076] 1、本實(shí)施方式能夠?qū)Φ絹淼臅r(shí)間不確定的新數(shù)據(jù)進(jìn)行有效地處理,而且與現(xiàn)有的 分類方法相比,顯著提高了準(zhǔn)確率;
[0077] 2、本實(shí)施方式將增量RLID3算法和并行加權(quán)算法結(jié)合在一起,克服了原有算法的 局限性,不僅實(shí)用性強(qiáng),進(jìn)一步提高算法的預(yù)測(cè)能力;
[0078] 3、本實(shí)施方式利用多個(gè)分類器以某種方式訓(xùn)練數(shù)據(jù)集合,克服了利用數(shù)據(jù)集訓(xùn)練 出的單一分類器很難很好地?cái)M合實(shí)際數(shù)據(jù)規(guī)律的缺點(diǎn)。
[0079]【具體實(shí)施方式】二、本實(shí)施方式是對(duì)【具體實(shí)施方式】一所述的一種基于RLID3的增量 集成學(xué)習(xí)的數(shù)據(jù)分類方法的進(jìn)一步說明,步驟一初始階段中所述RLID3算法的增量階段的 具體步驟如下:
[0080] 輸入:一棵RLID3決策樹的根節(jié)點(diǎn),增量數(shù)據(jù)集合
[0081] 輸出:調(diào)整后的決策樹 [0082]由輸入實(shí)現(xiàn)輸出的過程:
[0083 ] (1)聲明一個(gè)變量為CUrNode,表示算法中正在遍歷的決策樹節(jié)點(diǎn);
[0084] (2)將curNode設(shè)置為輸入的RLID3決策樹的根節(jié)點(diǎn);
[0085] (3)將增量數(shù)據(jù)集合加入到curNode的樣本特征碼集中;
[0086] (4)如果curNode的樣本特征碼集中各個(gè)樣本的分類情況相同,即所有樣本分成同 類,則執(zhí)行步驟(5);
[0087] (5)將curNode設(shè)置為葉節(jié)點(diǎn),即將curNode的屬性設(shè)為null;
[0088] (6)將curNode的類別屬性值設(shè)置為curNode樣本特征碼集中樣本的分類;
[0089] (7)如果curNode的樣本特征碼集中各個(gè)樣本的分類情況不相同,即所有樣本分成 同類樣本所屬類別不完全相同,則執(zhí)行步驟(8);
[0090] (8)如果curNode是葉子節(jié)點(diǎn),即curNode的屬性為null,則執(zhí)行步驟(9);
[0091] (9)使用curNode的樣本特征碼集,根據(jù)公式(1),選擇出具有最高決策樹優(yōu)比率的 屬性,將curNode的屬性設(shè)置為該屬性;
[0092] (10)如果curNode屬性的決策樹優(yōu)比率為0,即最高的決策樹優(yōu)比率為0,即均為0, 則執(zhí)行步驟(11);
[0093] (11)將curNode設(shè)置為葉子節(jié)點(diǎn),即將curNode的屬性設(shè)為nul 1;
[0094] (12)將curNode的類別屬性值設(shè)置為curNode的樣本特征碼集中出現(xiàn)最多的類別 值;
[0095] (13)如果curNode屬性的決策樹優(yōu)比率不為0,即最高決策樹優(yōu)比率不為0,則執(zhí)行 步驟(14);
[0096] (14)以curNode的屬性為子樹根結(jié)點(diǎn)屬性,調(diào)用RLID3算法makeRLID3Tree (curNode的樣本特征碼集,curNode的屬性)建RLID3樹;
[0097] (15)如果curNode是分支節(jié)點(diǎn),執(zhí)行步驟(17);
[0098] (16)使用curNode的樣本特征碼集,根據(jù)公式(1),選擇出最高決策樹優(yōu)比率的屬 性,記為A;
[0099] (17)如果屬性A的決策樹優(yōu)比率為0,即最高決策樹優(yōu)比率為0,則執(zhí)行步驟(19);
[0100] (18)將curNode設(shè)置為葉子節(jié)點(diǎn)
[0101] (19)將curNode的類別屬性值設(shè)置為curNode的樣本特征碼集中出現(xiàn)最多的類別 值;
[0102] (20)如果屬性A的決策樹優(yōu)比率不為0,則執(zhí)行步驟(21);
[0103] (21)如果CUrNode的屬性與A相同,則執(zhí)行步驟(22);
[0104] (22)遍歷curNode的樣本特征碼集中的每一個(gè)樣本,執(zhí)行步驟(23);
[0105] (23)將樣本加入到chi IdrenTrainData數(shù)組中,chi IdrenTrainData即樣本中 curNode屬性的取值編號(hào);
[0106] (24)遍歷curNode屬性的可取值個(gè)數(shù),執(zhí)行步驟(25);
[0107] (25)將第j個(gè)取值對(duì)應(yīng)的節(jié)點(diǎn)作為子樹根結(jié)點(diǎn),調(diào)用RLID3算法updateRLID3Tree (第j個(gè)取值對(duì)應(yīng)的節(jié)點(diǎn),chi ldrenTrainData[j])遍歷子樹;
[0108] (26)如果curNode的屬性與A不相同,則執(zhí)行步驟(27);
[0109] (27)以curNode的屬性為子樹根結(jié)點(diǎn)屬性,調(diào)用RLID3算法makeRLID3Tree (curNode的樣本特征碼集,curNode的屬性)建RLID3樹;
[0110]其中公式(1)為 式中,DT0R(S,A)表示決策樹優(yōu)
化率,Gain(S,A)表示A屬性在數(shù)據(jù)集S上的信息增 益,LeafNum(S,A)表示以A為選擇的屬性,使用數(shù)據(jù)集S形成的決策樹的葉子節(jié)點(diǎn)個(gè)數(shù)。 [0112]【具體實(shí)施方式】三、本實(shí)施方式是對(duì)【具體實(shí)施方式】一或二所述的一種基于RLID3的 增量集成學(xué)習(xí)的數(shù)據(jù)分類方法的進(jìn)一步說明,步驟一初始階段中所述第1個(gè)階段的具體步 驟如下:
[0113] 輸入:數(shù)據(jù)集,基分類器的個(gè)數(shù)
[0114] 輸出:基分類器及其權(quán)重
[0115] 由輸入實(shí)現(xiàn)輸出的過程:
[0116] (1)并行執(zhí)行下述過程T次,其中T為基分類器的個(gè)數(shù);
[0117] (2)將數(shù)據(jù)集隨機(jī)分成10份;
[0118] (3)取出數(shù)據(jù)集其中9份作為第i個(gè)基分類器的訓(xùn)練集,其中I < i < T;
[0119] (4)取出數(shù)據(jù)集其中1份作為第i個(gè)基分類器的測(cè)試集;
[0120] (5)訓(xùn)練出第i個(gè)基分類器;
[0121] (6)使用公式(2),計(jì)算出第i個(gè)基分類器的分類準(zhǔn)確率;
[0122] (7)使用公式(W·彳+曾.屮笛彳+其公*器的權(quán)重;
[0123] 其中公式(2)>
[0124] 式中,precision表示分類準(zhǔn)確率,correct表示基分類器能正確分類的樣本個(gè)數(shù), all表示整個(gè)數(shù)據(jù)集的樣本個(gè)數(shù);
[0125] 公式(3)〉
[0126] 式中,weight表示基分類器的權(quán)重,precision表示分類準(zhǔn)確率。
[0127]
【具體實(shí)施方式】四、本實(shí)施方式是對(duì)【具體實(shí)施方式】一至三之一所述的一種基于 RLID3的增量集成學(xué)習(xí)的數(shù)據(jù)分類方法的進(jìn)一步說明,步驟一初始階段中所述第2個(gè)階段的 具體步驟如下:
[0128] 輸入:預(yù)分類樣本數(shù)據(jù)
[0129] 輸出:分類結(jié)果
[0130] 由輸入實(shí)現(xiàn)輸出的過程:
[0?31 ] (1)初始化權(quán)重記錄器,使得aij = 0;
[0132] (2)定義classifier表示第i個(gè)分類器;
[0133] (3)基分類器classifier對(duì)預(yù)分類數(shù)據(jù)進(jìn)行分類,分類結(jié)果用j表示;
[0134] (4)au加上第i個(gè)分類器權(quán)重;
[0135] (5)計(jì)算出權(quán)重記錄器中每一列的和;
[0136] (6)將每一列之和中最大值對(duì)應(yīng)的分類種類作為分類器對(duì)預(yù)分類數(shù)據(jù)的分類結(jié) 果。

【具體實(shí)施方式】 [0137] 五、本實(shí)施方式是對(duì)四所述的一種基于RLID3的增量 集成學(xué)習(xí)的數(shù)據(jù)分類方法的進(jìn)一步說明,所述的權(quán)重記錄器用一個(gè)二維矩陣表示,其中,二 維矩陣的行表示基分類器,列表示數(shù)據(jù)集合的分類取值;二維矩陣的行數(shù)為基分類器的個(gè) 數(shù)設(shè)為m,列數(shù)為數(shù)據(jù)集合中樣本類別屬性的取值個(gè)數(shù)設(shè)為n,用B表示該二維矩陣,表示 第i個(gè)基#第j類別的權(quán)重;二維矩陣的結(jié)構(gòu)可表示如下:
[0138]
【具體實(shí)施方式】 [0139] 六、本實(shí)施方式是對(duì)一至五之一所述的一種基于 RLID3的增量集成學(xué)習(xí)的數(shù)據(jù)分類方法的進(jìn)一步說明,步驟二增量階段中所述第1個(gè)階段的 具體步驟如下:
[0140] 輸入:增量數(shù)據(jù)集,初始階段的所有基分類器
[0141] 輸出:調(diào)整后的基分類器
[0142] 由輸入實(shí)現(xiàn)輸出的過程:
[0143] (1)并行執(zhí)行下述過程T次,其中T為基分類器的個(gè)數(shù);
[0144] (2)利用增量數(shù)據(jù)集對(duì)第i個(gè)基分類器進(jìn)行調(diào)整,得到調(diào)整后的第i個(gè)基分類器;
[0145] (3)使用初始階段第i個(gè)基分類器的測(cè)試集作為調(diào)整后的第i個(gè)基分類器的測(cè)試 集;
[0146] (4)使用公式(2),計(jì)算出第i個(gè)基分類器的分類準(zhǔn)確率;
[0147] (5)使用公式(3),計(jì)算出第i個(gè)基分類器的權(quán)重。
[0148] 為驗(yàn)證本發(fā)明的有益效果作如下實(shí)驗(yàn):
[0149] 本實(shí)驗(yàn)研究分類方面的問題,選用UCI數(shù)據(jù)庫中與分類相關(guān)的10個(gè)數(shù)據(jù)集進(jìn)行實(shí) 驗(yàn);
[0150] 選用數(shù)據(jù)集包含的領(lǐng)域比較廣泛,有生活類的,計(jì)算機(jī)類的,社會(huì)類的以及游戲類 的,數(shù)據(jù)集的基本信息如表2所示:
[0151] 表2數(shù)據(jù)集的基本信息表
[0?53]因?yàn)楸旧暾?qǐng)中的算法能夠處理的樣本要求是非缺值的,所以本文對(duì)Mushroom和 Breast-w數(shù)據(jù)集進(jìn)行了處理。
[0154]對(duì)存在缺值樣本的數(shù)據(jù)集進(jìn)行預(yù)處理有兩種方法。第一種是將stalk-root從數(shù)據(jù) 集中清除;第二種是將缺值的樣例從數(shù)據(jù)集中去掉。在Mushroom數(shù)據(jù)集中,只有staIk-root (莖-根)屬性存在缺值現(xiàn)象,并且缺值的數(shù)據(jù)在數(shù)據(jù)集中的比例較大,所以對(duì)Mushroom數(shù)據(jù) 集采用去掉stalk-root屬性的方式進(jìn)行實(shí)驗(yàn)。在Breast-w數(shù)據(jù)集中,存在缺值現(xiàn)象的樣本 較少,僅有16條,所以對(duì)Breast-w數(shù)據(jù)集采用去掉缺值樣本的方式進(jìn)行實(shí)驗(yàn)。
[0155] 數(shù)據(jù)集經(jīng)過上述處理后,數(shù)據(jù)集中不存在樣本缺值,沒有分類屬性,屬性過少,屬 性取值不可枚舉的現(xiàn)象。
[0156] 本申請(qǐng)采用的實(shí)驗(yàn)方式是將數(shù)據(jù)集分成4個(gè)部分。一部分作為初始訓(xùn)練集,占總數(shù) 據(jù)集樣本容量的40 % ; -部分作為測(cè)試集,占總數(shù)據(jù)集樣本容量的10 % ; -部分作為第一次 增量的數(shù)據(jù)集,占總數(shù)據(jù)集樣本容量的30 % ;-部分作為第二次增量的數(shù)據(jù)集,占總數(shù)據(jù)集 樣本容量的20 %。
[0157] 實(shí)驗(yàn)步驟如下:
[0158] (1)用初始訓(xùn)練集作為參數(shù)調(diào)用初始階段的增量RLID3算法訓(xùn)練分類器,使用測(cè)試 集計(jì)算出該分類器的準(zhǔn)確率;
[0159] (2)用第一次增量數(shù)據(jù)集以及初始階段得到的分類器作為參數(shù)調(diào)用增量階段的增 量RLID3算法進(jìn)行增量訓(xùn)練,使用測(cè)試集計(jì)算出分類器的準(zhǔn)確率;
[0160] (3)用第二次增量數(shù)據(jù)集以及上一階段得到的分類器作為參數(shù)調(diào)用增量階段的增 量RLID3算法進(jìn)行增量訓(xùn)練,使用測(cè)試集計(jì)算出分類器的準(zhǔn)確率。
[0161] 為了直觀地表現(xiàn)增量RLID3算法的實(shí)驗(yàn)結(jié)果,用圖1對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行展示。
[0162] 從實(shí)現(xiàn)結(jié)果發(fā)現(xiàn)增量RLID3算法下一階段的分類準(zhǔn)確率不一定會(huì)比上一階段的分 類準(zhǔn)確率高,并且各個(gè)階段的準(zhǔn)確率不一定會(huì)比直接使用整個(gè)數(shù)據(jù)集訓(xùn)練與測(cè)試RLID3算 法的分類準(zhǔn)確率高,使用增量RLID3算法的優(yōu)點(diǎn)是能夠增量地訓(xùn)練數(shù)據(jù)。
[0163] 從并行加權(quán)可以看出,并行加權(quán)實(shí)驗(yàn)需要確定基分類器選用什么分類算法以及確 定基分類器的個(gè)數(shù),在本實(shí)驗(yàn)中,使用3個(gè)基分類器,基分類器均采用RLID3算法。
[0164] 對(duì)于本實(shí)驗(yàn)中使用的10個(gè)數(shù)據(jù)集來說,進(jìn)行集成學(xué)習(xí)需要考慮如何對(duì)數(shù)據(jù)集進(jìn)行 有效且合理的拆分。
[0165] 本實(shí)驗(yàn)對(duì)數(shù)據(jù)集合處理的方式如下所示:
[0166] (1)將數(shù)據(jù)集不相交地按照9:1的比例分成數(shù)據(jù)集1和數(shù)據(jù)集2;
[0167] (2)并行執(zhí)行下述過程3次;
[0168] (3)將數(shù)據(jù)集1隨機(jī)抽取出9/10的樣本,作為基分類器i的訓(xùn)練集;
[0169] (4)將數(shù)據(jù)集1剩下的1/10樣本,作為基分類器i的測(cè)試集;
[0170] (5)將數(shù)據(jù)集2作為集成后的分類器的測(cè)試集。
[0171]采用上述方式處理數(shù)據(jù)集,可以保證測(cè)試集與訓(xùn)練集無交集,并且基分類器能夠 使用較多的數(shù)據(jù)進(jìn)行訓(xùn)練。由于訓(xùn)練集是被隨機(jī)抽取的,一般情況下3個(gè)基分類得到的訓(xùn)練 集不會(huì)完全相同。
[0172] 為了直觀地表現(xiàn)基分類器1、基分類器2、基分類器3與集成上述3個(gè)基分類器的分 類準(zhǔn)確率,用圖2展示。
[0173]從實(shí)驗(yàn)結(jié)果看出,經(jīng)過并行加權(quán)算法處理后,得到的集成后的RLID3算法的分類準(zhǔn) 確率均高于或等于基分類器的分類準(zhǔn)確率。這說明,集成基分類器的預(yù)測(cè)結(jié)果進(jìn)行預(yù)測(cè)會(huì) 優(yōu)于單一分類器的預(yù)測(cè)。
[0174] 增量集成實(shí)驗(yàn)是增量和集成學(xué)習(xí)結(jié)合起來的實(shí)驗(yàn),實(shí)驗(yàn)中會(huì)將數(shù)據(jù)集分成初始數(shù) 據(jù)集、用于第一次增量實(shí)驗(yàn)的增量數(shù)據(jù)集、用于第二次增量實(shí)驗(yàn)的增量數(shù)據(jù)集以及測(cè)試集4 個(gè)不相交的數(shù)據(jù)集。在本實(shí)驗(yàn)中,使用3個(gè)基分類器,基分類器均采用增量RLID3算法。
[0175] 使用數(shù)據(jù)集進(jìn)行本小節(jié)的實(shí)驗(yàn)步驟如下所示:
[0176] (1)無放回地隨機(jī)抽取數(shù)據(jù)集,40%作為初始數(shù)據(jù)集,30%作為第一次增量實(shí)驗(yàn)的 增量數(shù)據(jù)集,20 %作為第二次增量實(shí)驗(yàn)的增量數(shù)據(jù)集,10 %作為測(cè)試每一階段算法準(zhǔn)確率 的測(cè)試集;
[0177] (2)將初始數(shù)據(jù)集并行處理3次,每次都將初始數(shù)據(jù)集隨機(jī)抽取出9/10的樣本,作 為第i個(gè)基分類器的訓(xùn)練集;將初始數(shù)據(jù)集剩下的1/10樣本,作為第i個(gè)基分類器的測(cè)試集;
[0178] (3)將第(2)步驟得到的3個(gè)測(cè)試集作為第一次增量實(shí)驗(yàn)以及第二次增量實(shí)驗(yàn)對(duì)應(yīng) 基分類器的測(cè)試集,根據(jù)公式(3)用于計(jì)算3個(gè)基分類器的權(quán)重。
[0179] 為了更直觀地展示實(shí)驗(yàn)結(jié)果,以圖的方式展示實(shí)驗(yàn)結(jié)果,圖3展示了初始階段,第 一次增量階段以及第二次增量階段的集成分類器的分類結(jié)果。
[0180] 從實(shí)驗(yàn)結(jié)果可以看出,本申請(qǐng)?zhí)岢龅脑隽考煞椒ň哂休^好的分類準(zhǔn)確率,同時(shí) 該方法能夠?qū)υ隽繑?shù)據(jù)進(jìn)行處理。
【主權(quán)項(xiàng)】
1. 一種基于化ID3的增量集成學(xué)習(xí)的數(shù)據(jù)分類方法,其特征在于它按w下步驟進(jìn)行的: 一、 初始階段 運(yùn)個(gè)階段將化ID3算法作為訓(xùn)練基分類器的算法,初始階段分為2個(gè)階段,分別為第1個(gè) 階段和第2個(gè)階段: 第1階段包括訓(xùn)練基分類器W及計(jì)算基分類器的權(quán)重; 第2個(gè)階段是組合所有基分類器的預(yù)測(cè)結(jié)果,對(duì)預(yù)分類樣本數(shù)據(jù)進(jìn)行分類結(jié)果的預(yù)測(cè); 二、 增量階段 增量階段也分為兩個(gè)階段,分別為第1個(gè)階段和第2個(gè)階段, 第1個(gè)階段:輸入增量數(shù)據(jù)集和初始階段的所有基分類器,輸出調(diào)整后的基分類器; 第2個(gè)階段:組合所有調(diào)整后的基分類器的預(yù)測(cè)結(jié)果,對(duì)預(yù)分類樣本數(shù)據(jù)進(jìn)行分類結(jié)果 的預(yù)測(cè)。2. 如權(quán)利要求1所述的一種基于化ID3的增量集成學(xué)習(xí)的數(shù)據(jù)分類方法,其特征在于步 驟一初始階段中所述化ID3算法的增量階段的具體步驟如下: 輸入:一棵化ID3決策樹的根節(jié)點(diǎn),增量數(shù)據(jù)集合 輸出:調(diào)整后的決策樹 由輸入實(shí)現(xiàn)輸出的過程: (1) 聲明一個(gè)變量為curNode,表示算法中正在遍歷的決策樹節(jié)點(diǎn); (2) 將curNode設(shè)置為輸入的化ID3決策樹的根節(jié)點(diǎn); (3) 將增量數(shù)據(jù)集合加入到curNode的樣本特征碼集中; (4) 如果curNode的樣本特征碼集中各個(gè)樣本的分類情況相同,即所有樣本分成同類, 則執(zhí)行步驟(5); (5) 將curNode設(shè)置為葉節(jié)點(diǎn),即將curNode的屬性設(shè)為null; (6) 將curNode的類別屬性值設(shè)置為curNode樣本特征碼集中樣本的分類; (7) 如果curNode的樣本特征碼集中各個(gè)樣本的分類情況不相同,即所有樣本分成同類 樣本所屬類別不完全相同,則執(zhí)行步驟(8); (8) 如果curNode是葉子節(jié)點(diǎn),即州rNode的屬性為null,則執(zhí)行步驟(9); (9) 使用curNode的樣本特征碼集,根據(jù)公式(1),選擇出具有最高決策樹優(yōu)比率的屬 性,將curNode的屬性設(shè)置為該屬性; (10) 如果curNode屬性的決策樹優(yōu)比率為0,即最高的決策樹優(yōu)比率為0,即均為0,則執(zhí) 行步驟(11); (11) 將curNode設(shè)置為葉子節(jié)點(diǎn),即將curNode的屬性設(shè)為null; (12) 將curNode的類別屬性值設(shè)置為curNode的樣本特征碼集中出現(xiàn)最多的類別值; (13) 如果curNode屬性的決策樹優(yōu)比率不為0,即最高決策樹優(yōu)比率不為0,則執(zhí)行步驟 (14); (14) ^。腳齡(1日的屬性為子樹根結(jié)點(diǎn)屬性,調(diào)用化103算法111日1?5化103化日日建化103樹; (15) 如果curNode是分支節(jié)點(diǎn),執(zhí)行步驟(17); (16) 使用curNode的樣本特征碼集,根據(jù)公式(1),選擇出最高決策樹優(yōu)比率的屬性,記 為A; (17) 如果屬性A的決策樹優(yōu)比率為0,即最高決策樹優(yōu)比率為0,則執(zhí)行步驟(19); (18) 將curNode設(shè)置為葉子節(jié)點(diǎn) (19) 將curNode的類別屬性值設(shè)置為curNode的樣本特征碼集中出現(xiàn)最多的類別值; (20) 如果屬性A的決策樹優(yōu)比率不為0,則執(zhí)行步驟(21); (21) 如果curNode的屬性與A相同,則執(zhí)行步驟(22); (22) 遍歷curNode的樣本特征碼集中的每一個(gè)樣本,執(zhí)行步驟(23); (23) 將樣本加入到chil化enlYainData數(shù)組中,chil化enTrainData即樣本中curNode 屬性的取值編號(hào); (24) 遍歷curNode屬性的可取值個(gè)數(shù),執(zhí)行步驟(25); (25) 將第j個(gè)取值對(duì)應(yīng)的節(jié)點(diǎn)作為子樹根結(jié)點(diǎn),調(diào)用化ID3算法update化ID3Tree遍歷 子樹; (26) 如果curNode的屬性與A不相同,則執(zhí)行步驟(27); (27) WcurNode的屬性為子樹根結(jié)點(diǎn)屬性,調(diào)用化ID3算法make化ID3Tree建化ID3樹; 其中公式(1)呆式中,DT0R(S,A)表示決策樹優(yōu)化率,Gain(S,A)表示A屬性在數(shù)據(jù)集S上的信息增益, LeafNum(S,A)表示W(wǎng)A為選擇的屬性,使用數(shù)據(jù)集S形成的決策樹的葉子節(jié)點(diǎn)個(gè)數(shù)。3. 如權(quán)利要求1或2所述的一種基于化ID3的增量集成學(xué)習(xí)的數(shù)據(jù)分類方法,其特征在 于步驟一初始階段中所述第1個(gè)階段的具體步驟如下: 輸入:數(shù)據(jù)集,基分類器的個(gè)數(shù) 輸出:基分類器及其權(quán)重 由輸入實(shí)現(xiàn)輸出的過程: (1) 并行執(zhí)行下述過程T次,其中T為基分類器的個(gè)數(shù); (2) 將數(shù)據(jù)集隨機(jī)分成10份; (3) 取出數(shù)據(jù)集其中9份作為第i個(gè)基分類器的訓(xùn)練集,其中1含i < T; (4) 取出數(shù)據(jù)集其中1份作為第i個(gè)基分類器的測(cè)試集; (5) 訓(xùn)練出第i個(gè)基分類器; (6) 使用公式(2),計(jì)算出第i個(gè)基分類器的分類準(zhǔn)確率; (7) 使用公式(3),計(jì)算出第i個(gè)基分類器的權(quán)重; 其中公式(2)呆式中,precision表示分類準(zhǔn)確率,correct表示基分類器能正確分類的樣本個(gè)數(shù),all 表示整個(gè)數(shù)據(jù)集的樣本個(gè)數(shù); 公式(3巧式中,wei曲t表示基分類器的權(quán)重,precision表示分類準(zhǔn)確率。4. 如權(quán)利要求3所述的一種基于化ID3的增量集成學(xué)習(xí)的數(shù)據(jù)分類方法,其特征在于步 驟一初始階段中所述第2個(gè)階段的具體步驟如下: 輸入:預(yù)分類樣本數(shù)據(jù) 輸出:分類結(jié)果 由輸入實(shí)現(xiàn)輸出的過程: (1) 初始化權(quán)重記錄器,使得au = 0; (2) 定義classifier表示第i個(gè)分類器; (3) 基分類器classifier對(duì)預(yù)分類數(shù)據(jù)進(jìn)行分類,分類結(jié)果用j表示; (4) au加上第i個(gè)分類器權(quán)重; (5) 計(jì)算出權(quán)重記錄器中每一列的和; (6) 將每一列之和中最大值對(duì)應(yīng)的分類種類作為分類器對(duì)預(yù)分類數(shù)據(jù)的分類結(jié)果。5. 如權(quán)利要求4所述的一種基于化ID3的增量集成學(xué)習(xí)的數(shù)據(jù)分類方法,其特征在于所 述的權(quán)重記錄器用一個(gè)二維矩陣表示,其中,二維矩陣的行表示基分類器,列表示數(shù)據(jù)集合 的分類取值;二維矩陣的行數(shù)為基分類器的個(gè)數(shù)設(shè)為m,列數(shù)為數(shù)據(jù)集合中樣本類別屬性的 取值個(gè)數(shù)設(shè)為n,用B表示該二維矩陣,au表示第i個(gè)基分類器將某一樣本分類成第j類別的 權(quán)重;二維矩陣的結(jié)構(gòu)可表示如下:6. 如權(quán)利要求5所述的一種基于化ID3的增量集成學(xué)習(xí)的數(shù)據(jù)分類方法,其特征在于步 驟二增量階段中所述第1個(gè)階段的具體步驟如下: 輸入:增量數(shù)據(jù)集,初始階段的所有基分類器 輸出:調(diào)整后的基分類器 由輸入實(shí)現(xiàn)輸出的過程: (1) 并行執(zhí)行下述過程T次,其中T為基分類器的個(gè)數(shù); (2) 利用增量數(shù)據(jù)集對(duì)第i個(gè)基分類器進(jìn)行調(diào)整,得到調(diào)整后的第i個(gè)基分類器; (3) 使用初始階段第i個(gè)基分類器的測(cè)試集作為調(diào)整后的第i個(gè)基分類器的測(cè)試集; (4) 使用公式(2),計(jì)算出第i個(gè)基分類器的分類準(zhǔn)確率; (5) 使用公式(3),計(jì)算出第i個(gè)基分類器的權(quán)重。
【文檔編號(hào)】G06F17/30GK105843971SQ201610416291
【公開日】2016年8月10日
【申請(qǐng)日】2016年6月8日
【發(fā)明人】王紅濱, 李華峰, 劉紅麗, 王世鵬, 馮夢(mèng)園, 張玉鵬, 楊楠, 劉廣強(qiáng), 劉天宇, 徐琳
【申請(qǐng)人】哈爾濱工程大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
和平县| 闻喜县| 德格县| 四川省| 铁力市| 乐昌市| 姜堰市| 永吉县| 江川县| 张家川| 临江市| 政和县| 高安市| 深州市| 德保县| 承德市| 宜都市| 鸡泽县| 修水县| 邯郸县| 大田县| 平昌县| 永宁县| 吉林省| 浮山县| 宁阳县| 石景山区| 百色市| 泽库县| 金秀| 临高县| 封开县| 枣庄市| 来凤县| 柳州市| 漳浦县| 绥棱县| 盘锦市| 扎兰屯市| 富蕴县| 青海省|