一種認知計算中基于cart的決策樹構建方法
【專利摘要】本發(fā)明公開一種認知計算中基于CART的決策樹構建方法,包括:根據(jù)決策樹的制定規(guī)則,初始化決策樹的根節(jié)點和對應的特征屬性集;對訓練集的數(shù)據(jù)進行排序操作;判斷節(jié)點中的所有樣本數(shù)據(jù)是否屬于同一類,計算待分裂的節(jié)點的最優(yōu)和次優(yōu)特征屬性,判斷是否滿足選擇最優(yōu)分裂屬性和中斷機制的分裂條件,若滿足,則使用最優(yōu)分裂屬性進行分裂,根據(jù)使用最優(yōu)分裂屬性分裂,然后使用特征屬性分裂后的節(jié)點迭代替換當前節(jié)點,從左右兩個分支中添加一個新的葉子節(jié)點,達到決策樹的自動分裂;否則等待數(shù)據(jù)流輸入,進行樣本更新,繼續(xù)對節(jié)點分裂進行計算。本發(fā)明進一步提高了處理數(shù)據(jù)流的準確度,降低了系統(tǒng)阻塞的可能性。
【專利說明】
一種認知計算中基于CART的決策樹構建方法
技術領域
[0001] 本發(fā)明涉及大數(shù)據(jù)處理技術領域,尤其涉及認知計算中基于CART的決策樹構建方 法。
【背景技術】
[0002] 云計算、物聯(lián)網等新興技術的快速發(fā)展促使數(shù)據(jù)的規(guī)模正以前所未有的速度增 長,大數(shù)據(jù)時代已經開始到來。決策樹是數(shù)據(jù)挖掘中的一種常用數(shù)據(jù)處理模型,常見的決策 樹構建算法包括ID3,C4.5以及CART等,然而,ID3,C4.5和CART等決策樹構建算法都是為靜 態(tài)數(shù)據(jù)集設計的,它們無法直接應用于數(shù)據(jù)流的處理,因為數(shù)據(jù)流是無窮無盡的。除此之 外,數(shù)據(jù)流將以很快的速度源源不斷的流入系統(tǒng),這也給決策樹的訓練帶來了極大的挑戰(zhàn)。 現(xiàn)有的研究對數(shù)據(jù)流的處理也有一些解決方案,近十年使用最多的工具是增量學習,增量 學習技術能夠從數(shù)據(jù)中學習新的知識并且保留原有知識,并且整個過程不用重復處理已經 學習過的數(shù)據(jù)。根據(jù)這一特性,可以使用增量學習技術來獲取特征屬性。但由于無法使用無 窮多的數(shù)據(jù)集來計算最優(yōu)特征的選擇,因此只能使用已知數(shù)據(jù)來構成樣本集來訓練決策 樹,已經遠遠不能滿足當前數(shù)據(jù)處理的需要。
【發(fā)明內容】
[0003] 鑒于上述現(xiàn)有技術的不足之處,本發(fā)明提出一種認知計算中基于CART的決策樹構 建方法,在一定概率下,通過樣本訓練所得的最優(yōu)特征與整個數(shù)據(jù)流應該選擇的最優(yōu)特征 是一致的,可在較短的訓練時間內得到較高準確性的決策樹模型。
[0004] -種認知計算中基于CART的決策樹構建方法,包括以下步驟:
[0005] 步驟1、初始化決策樹的根節(jié)點和對應的特征屬性集;
[0006] 步驟2、根據(jù)此時決策樹的特征屬性,對訓練集的數(shù)據(jù)進行排序操作;
[0007] 步驟3、判斷節(jié)點中的所有樣本數(shù)據(jù)是否具有相同類別的數(shù)據(jù)標簽,如果是,則執(zhí) 行步驟4,否則結束;
[0008] 步驟4、將節(jié)點設置為待分裂的節(jié)點,同時計算節(jié)點的最優(yōu)和次優(yōu)特征屬性;
[0009] 步驟5、判斷節(jié)點是否滿足最優(yōu)特征屬性和中斷機制的分裂條件,如果滿足,則使 用最優(yōu)特征屬性進行分裂,將分裂后的節(jié)點替換當前節(jié)點,并從分支中添加一個新的葉子 節(jié)點,達到決策樹的自動分裂;否則等待數(shù)據(jù)流輸入,進行樣本更新,然后執(zhí)行步驟4。
[0010]所述決策樹的特征屬性是Gini增益。
[0011]所述最優(yōu)特征屬性為Gini增益最大的特征屬性。
[0012] 所述中斷機制的分裂條件是滿足f > A,其中r為尾-ΦΤ), i為X或y,L、R代表不同的訓練子集;中斷參·
其中Z(K)是指標準正態(tài) 分布N(0,1)的l-α分位數(shù),Q(K)則表示5K2-8K+4,在這種情況下,gx比g y大的概率是l-α。
[0013] 本發(fā)明通過對海量數(shù)據(jù)流訓練來處理數(shù)據(jù)流數(shù)據(jù),使用已知數(shù)據(jù)來構成樣本集來 訓練決策樹,提高了處理數(shù)據(jù)流的準確度,降低了系統(tǒng)阻塞的可能性。
【附圖說明】
[0014] 圖1為本發(fā)明實施例基于CART的決策樹構建方法的流程圖;
[0015] 圖2為本發(fā)明實施例與MDT和GDT算法準確性性能對比;
[0016] 圖3為本發(fā)明實施例與McDiarmid Tree算法性能對比;
[0017] 圖4為本發(fā)明實施例準確性與干擾數(shù)據(jù)比例的關系;
[0018] 圖5為本發(fā)明實施例與Gauss Decision Tree訓練時間對比。
【具體實施方式】
[0019] 為了使本發(fā)明的目的、技術方案及優(yōu)點更加清楚明白,以下結合附圖及實施例,對 本發(fā)明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并 不用于限定本發(fā)明。
[0020] CART首先創(chuàng)建一個根節(jié)點No,在學習的過程中,對于每一個指定的節(jié)點1都有一個 指定的訓練集S的子集33與之對應。對于根節(jié)點,對應的就是訓練集S。當一個節(jié)點對應的子 集都屬于同一個分類的時候,該節(jié)點就被設置為葉子節(jié)點,代表該節(jié)點的訓練已經完成。如 果一個節(jié)點對應的子集不都屬于同一個分類的時候,算法將繼續(xù)迭代進行,直至所有的訓 練子集都對應相應的葉子節(jié)點。
[0021] 對于每個可以獲取的屬性b1,該屬性的取值B1將分成為兩個區(qū)間的子集g和碟。 這兩種子集將訓練子集3 3分成兩個部分Lq和Rq。在CART中,常用的雜質度量方法是Gini指 數(shù),對于一個子訓練集S a,其Gini指數(shù)表示方法如下:
[0022] (1)
[0023]其中,
P表示訓練集中屬于該分類的概率,k代表分類數(shù)值,a代表訓練子集編號。從 公式1容易看出,Gini指數(shù)的最小值是0,當所有樣本都正確分類的時候取得最小值。換句話 說,Gini指數(shù)反映了分類結果的純度,數(shù)值越小,分類越純,結果也就越準確。當前節(jié)點中訓 練集的分類通概率出現(xiàn)時,Gini指數(shù)出現(xiàn)最大值。
[0024]根據(jù)概率關系,可以得到加權Gini指數(shù):
[0025]
(:2>
[0026]在CART中,根據(jù)Gini指數(shù)或者加權Gini指數(shù)的增益來對節(jié)點進行分裂操作,這類 似于ID3算法中根據(jù)信息熵增益進行分裂操作。
[0027] 所有的計算和分析都是基于整個數(shù)據(jù)集進行分析的。下面將討論針對流數(shù)據(jù)的分 析。由于流數(shù)據(jù)是無限的,不可能做到像CART-樣來計算樣本中屬于某一分類的概率,而只 能根據(jù)已知的數(shù)據(jù)樣本對其概率進行估計。
[0028] 考慮到一個固定的節(jié)點的情況,在前面的分析中使用53表示,根據(jù)前面的分析,可 以得到如下結論:
[0029] ii) κΑ)
[0031] 這樣,相當于是考慮了 K個特征中的K-I個來進行計算。根據(jù)這一規(guī)則,概率Pk可以 類似的計算出來,計算方法如下:
[0032]
(5,)
[0033]從公式5可以看出,K個特征屬性中的K-I一個是重要的。注意,概率Pj不是根據(jù)選 定的特征屬性來決定的,而是可以根據(jù)G(A)、&(€)以及。(R)來計算,結算公式如 下: Γλλο? ?
(6)
[0035] 對于任意的數(shù)據(jù)集,數(shù)據(jù)集的每一個組成元素都屬于K個類別的某一個。Gini指數(shù) 可以使用如下公式計算。
[0036]
(7)
[0037] 其中Pj表示數(shù)據(jù)集中屬于第j個分類的概率。這樣一來,Gini指數(shù)可以使用K-I個 變量的函數(shù)來表示。同樣,Gini增益也可以使用以上提及的參數(shù)來表示:
[0038] Gini_g = Gini(Pi,P2. . . , Ρκ-ι )-PLGini (Pu, P2L. . . ,P(k-i)l)-( l-PL)Gini (Pir, P2R. . . ,P(k-i)r) (8)
[0039] 因此,最優(yōu)的分裂選擇特征屬性可以根據(jù)如下公式求出:
[0040]
(9)
[0041] 使用符號g1表示特征屬性b1的Gini增益。使用符號芎表示if的估計量,后面出現(xiàn)預 估量的地方,采用相同的表示方法。這些預估值在符合二項分布的隨機變量中可以當作是 算術平均值來對待。假設s是數(shù)據(jù)集S的一個變量,定義一個變量δ,當s屬于L 1時候為1,不屬 于L1時候為0。這時候,δ是服從二項分布的變量,且平均值為巧,方差為g(l- P/類似的, 定義SkL和SkR,k屬于{1,2,…,K-I}。當左節(jié)點數(shù)據(jù)子集Im屬于第k個分類的時候,S klj變量值 為1,當右節(jié)點數(shù)據(jù)子集rJl于第k個分類的時候,SkR變量值為1。
[0042] 如果根據(jù)兩個不同的特征屬性和樣本集計算出的Gini增益數(shù)值大于一個給定的 特殊值,則該值一定概率上反映真實的Gini增益值。根據(jù)這一依據(jù),可以根據(jù)最近得到的數(shù) 據(jù)集決定最佳特征屬性進行決策樹分裂建樹操作。
[0043]為了方便描述,將以,思,,..,盡_郵)記作穿。然后考慮兩個特 征屬性bx和by,然后計算它們的Gini增益值。如果它們的差值滿足最優(yōu)分裂屬性的方法,即 如下公式10的關系:
(IQ)
[0045] 其中引入中斷參數(shù)γκ如公式11所示:
[0046]
(Ii)
[0047] 公式(11)中的Ζ(1-α)是指標準正態(tài)分布Ν(0,1)的l-α分位數(shù)。Q(K)則表示5Κ 2-8Κ+4。 在這種情況下,gx比gy大的概率是l-α。也就是說,如果g x和gy的Gini增益的預估值的關系滿 足公式10,則gx和g y的真實值滿足gx>gy的概率是l-α。中斷參數(shù)的引入是引入中斷機制,BP γκ>〇,它可以一定程度上防止程序堵塞,較少程序的計算量。
[0048] 根據(jù)之前的結論可以知道,當bx和by是具有最大Gini增益的特征屬性的時候,那 么,b x可以選擇作為分裂屬性。而這種情況出現(xiàn)的可信度為l-c^1。也就是說,可以在一定可 信度下確定分裂所應該選擇的最優(yōu)特征屬性。
[0049] 在圖 2 中,通過實驗分析CART_DS算法與McDiarmid Tree (MDT)和Gaussian Decision Tree(⑶T)算法進行性能對比。設置中斷因子參數(shù)Θ為0.05,設置固定概率值α為 10-7。固定這些參數(shù)不變,從104到109改變訓練數(shù)據(jù)集的數(shù)量,比較算法分類的準確性上的 表現(xiàn)。三種算法在準確性性能方面的表現(xiàn)基本一致,本章提出的CART_DS算法稍微領先。這 種結果出現(xiàn)的原因是因為三種算法實質上都是基于CART生成決策樹算法所作出的改進。也 就是說,對于相同的數(shù)據(jù)集,三種算法可能生成一致的決策樹。但是從總體趨勢我們可以看 出,算法的準確性都隨著數(shù)據(jù)集的數(shù)量的增加表現(xiàn)為上升趨勢,當數(shù)據(jù)集數(shù)量在IO 9數(shù)量級 的時候,算法的準確性可以接近95%。
[0050] 在圖3中,分析CART_DS算法與McDiarmid Tree算法的性能。設置中斷因子參數(shù)Θ為 〇,設置固定概率值α為0.1。在使用CART生成決策樹的過程中,最重要的分裂(也就是具有最 大增益的分裂)通常就是第一次分裂,即根節(jié)點的分裂。由于生成樹的最終結果是類似的, 算法最終的準確率趨于相同。同時從圖中可以看出,CART_DS算法比McDiarmid Tree算法做 分裂的時候所需要的數(shù)據(jù)樣本數(shù)量更少,因此,CART_DS算法在于一個分裂操作中需要更少 的訓練數(shù)據(jù)集,根節(jié)點的分裂操作總是比McDiarmid Tree算法更快。
[0051] 在圖4中,在樣本數(shù)據(jù)中加入一定比例的噪聲(干擾數(shù)據(jù))。使用如下機制來生成干 擾數(shù)據(jù)。在每一次數(shù)據(jù)生成的過程中,按照一個固定的概率Φ來改變樣本數(shù)據(jù)中的特征屬性 和標簽值,改變后的值是所有可能值,并且每一種數(shù)值的取值可能性是一致的。Φ的取值從 0 %到50 %之間(包含)逐漸變化。本實驗的仿真實驗結果表明,隨著噪聲比例的增加,準確 率隨之下降。
[0052] 在圖5中,分析CART_DS算法與Gaussian Decision Tree算法在訓練時間上的性能 對比。設置中斷因子參數(shù)Θ為0,設置固定概率值α為0.1,改變訓練樣本集的數(shù)量η。從實驗結 果可以看出,隨著訓練數(shù)據(jù)集規(guī)模的增加,CART_DS算法在訓練時間上的表現(xiàn)比Gaussian Decision Tree算法在訓練時間上的表現(xiàn)所體現(xiàn)出的優(yōu)勢越發(fā)明顯,換句話說,CART_DS算 法在大數(shù)據(jù)規(guī)模下使用,優(yōu)勢更加明顯。
[0053]本發(fā)明方案所公開的技術手段不僅限于上述實施方式所公開的技術手段,還包括 由以上技術特征任意組合所組成的技術方案。
【主權項】
1. 一種認知計算中基于CART的決策樹構建方法,其特征是,包括w下步驟: 步驟1、初始化決策樹的根節(jié)點和對應的特征屬性集; 步驟2、根據(jù)此時決策樹的特征屬性,對訓練集的數(shù)據(jù)進行排序操作; 步驟3、判斷節(jié)點中的所有樣本數(shù)據(jù)是否具有相同類別的數(shù)據(jù)標簽,如果是,則執(zhí)行步 驟4,否則結束; 步驟4、將節(jié)點設置為待分裂的節(jié)點,同時計算節(jié)點的最優(yōu)和次優(yōu)特征屬性; 步驟5、判斷節(jié)點是否滿足最優(yōu)特征屬性和中斷機制的分裂條件,如果滿足,則使用最 優(yōu)特征屬性進行分裂,將分裂后的節(jié)點替換當前節(jié)點,并從分支中添加一個新的葉子節(jié)點, 達到決策樹的自動分裂;否則等待數(shù)據(jù)流輸入,進行樣本更新,然后執(zhí)行步驟4。2. 根據(jù)權利要求1所述的決策樹構建方法,其特征是,步驟2中所述決策樹的特征屬性 是Gini增益。3. 根據(jù)權利要求2所述的決策樹構建方法,其特征是,所述最優(yōu)特征屬性為Gini增益最 大的特征屬性。4. 根據(jù)權利要求1所述的決策樹構建方法,其特征是,所述中斷機制的分裂條件是滿足 r-r >心其中r為傷'化'_各(巧,思,.·馬雌,瑪,,..,語_峭),功X或y,L、R代表不同的訓練子 集;中斷參數(shù)其中Ζ(ι-α)是指標準正態(tài)分布N(0,1)的1-α分位數(shù),Q化)貝。 表示5Κ2-8Κ+4,在運種情況下,gx比gy大的概率是1-α。
【文檔編號】G06F17/30GK105843924SQ201610179487
【公開日】2016年8月10日
【申請日】2016年3月25日
【發(fā)明人】王堃, 陸恒, 張明翔, 岳東, 孫雁飛, 吳蒙, 亓晉, 陳思光
【申請人】南京郵電大學