一種認知計算中基于cart的決策樹構建方法

文檔序號：10489049閱讀：251來源：國知局

一種認知計算中基于cart的決策樹構建方法
【專利摘要】本發(fā)明公開一種認知計算中基于CART的決策樹構建方法，包括：根據(jù)決策樹的制定規(guī)則，初始化決策樹的根節(jié)點和對應的特征屬性集；對訓練集的數(shù)據(jù)進行排序操作；判斷節(jié)點中的所有樣本數(shù)據(jù)是否屬于同一類，計算待分裂的節(jié)點的最優(yōu)和次優(yōu)特征屬性，判斷是否滿足選擇最優(yōu)分裂屬性和中斷機制的分裂條件，若滿足，則使用最優(yōu)分裂屬性進行分裂，根據(jù)使用最優(yōu)分裂屬性分裂，然后使用特征屬性分裂后的節(jié)點迭代替換當前節(jié)點，從左右兩個分支中添加一個新的葉子節(jié)點，達到決策樹的自動分裂；否則等待數(shù)據(jù)流輸入，進行樣本更新，繼續(xù)對節(jié)點分裂進行計算。本發(fā)明進一步提高了處理數(shù)據(jù)流的準確度，降低了系統(tǒng)阻塞的可能性。
【專利說明】
一種認知計算中基于CART的決策樹構建方法
技術領域
[0001] 本發(fā)明涉及大數(shù)據(jù)處理技術領域，尤其涉及認知計算中基于CART的決策樹構建方法。
【背景技術】
[0002] 云計算、物聯(lián)網等新興技術的快速發(fā)展促使數(shù)據(jù)的規(guī)模正以前所未有的速度增長，大數(shù)據(jù)時代已經開始到來。決策樹是數(shù)據(jù)挖掘中的一種常用數(shù)據(jù)處理模型，常見的決策樹構建算法包括ID3，C4.5以及CART等，然而，ID3，C4.5和CART等決策樹構建算法都是為靜態(tài)數(shù)據(jù)集設計的，它們無法直接應用于數(shù)據(jù)流的處理，因為數(shù)據(jù)流是無窮無盡的。除此之外，數(shù)據(jù)流將以很快的速度源源不斷的流入系統(tǒng)，這也給決策樹的訓練帶來了極大的挑戰(zhàn)。現(xiàn)有的研究對數(shù)據(jù)流的處理也有一些解決方案，近十年使用最多的工具是增量學習，增量學習技術能夠從數(shù)據(jù)中學習新的知識并且保留原有知識，并且整個過程不用重復處理已經學習過的數(shù)據(jù)。根據(jù)這一特性，可以使用增量學習技術來獲取特征屬性。但由于無法使用無窮多的數(shù)據(jù)集來計算最優(yōu)特征的選擇，因此只能使用已知數(shù)據(jù)來構成樣本集來訓練決策樹，已經遠遠不能滿足當前數(shù)據(jù)處理的需要。

【發(fā)明內容】

[0003] 鑒于上述現(xiàn)有技術的不足之處，本發(fā)明提出一種認知計算中基于CART的決策樹構建方法，在一定概率下，通過樣本訓練所得的最優(yōu)特征與整個數(shù)據(jù)流應該選擇的最優(yōu)特征是一致的，可在較短的訓練時間內得到較高準確性的決策樹模型。
[0004] -種認知計算中基于CART的決策樹構建方法，包括以下步驟：
[0005] 步驟1、初始化決策樹的根節(jié)點和對應的特征屬性集；
[0006] 步驟2、根據(jù)此時決策樹的特征屬性，對訓練集的數(shù)據(jù)進行排序操作；
[0007] 步驟3、判斷節(jié)點中的所有樣本數(shù)據(jù)是否具有相同類別的數(shù)據(jù)標簽，如果是，則執(zhí) 行步驟4,否則結束；
[0008] 步驟4、將節(jié)點設置為待分裂的節(jié)點，同時計算節(jié)點的最優(yōu)和次優(yōu)特征屬性；
[0009] 步驟5、判斷節(jié)點是否滿足最優(yōu)特征屬性和中斷機制的分裂條件，如果滿足，則使用最優(yōu)特征屬性進行分裂，將分裂后的節(jié)點替換當前節(jié)點，并從分支中添加一個新的葉子節(jié)點，達到決策樹的自動分裂;否則等待數(shù)據(jù)流輸入，進行樣本更新，然后執(zhí)行步驟4。
[0010]所述決策樹的特征屬性是Gini增益。
[0011]所述最優(yōu)特征屬性為Gini增益最大的特征屬性。
[0012] 所述中斷機制的分裂條件是滿足f > A，其中r為尾-ΦΤ)， i為X或y，L、R代表不同的訓練子集；中斷參·
其中Z(K)是指標準正態(tài) 分布N(0，1)的l-α分位數(shù)，Q(K)則表示5K2-8K+4，在這種情況下，gx比g y大的概率是l-α。
[0013] 本發(fā)明通過對海量數(shù)據(jù)流訓練來處理數(shù)據(jù)流數(shù)據(jù)，使用已知數(shù)據(jù)來構成樣本集來訓練決策樹，提高了處理數(shù)據(jù)流的準確度，降低了系統(tǒng)阻塞的可能性。
【附圖說明】
[0014] 圖1為本發(fā)明實施例基于CART的決策樹構建方法的流程圖；
[0015] 圖2為本發(fā)明實施例與MDT和GDT算法準確性性能對比；
[0016] 圖3為本發(fā)明實施例與McDiarmid Tree算法性能對比；
[0017] 圖4為本發(fā)明實施例準確性與干擾數(shù)據(jù)比例的關系；
[0018] 圖5為本發(fā)明實施例與Gauss Decision Tree訓練時間對比。
【具體實施方式】
[0019] 為了使本發(fā)明的目的、技術方案及優(yōu)點更加清楚明白，以下結合附圖及實施例，對本發(fā)明進行進一步詳細說明。應當理解，此處所描述的具體實施例僅僅用以解釋本發(fā)明，并不用于限定本發(fā)明。
[0020] CART首先創(chuàng)建一個根節(jié)點No,在學習的過程中，對于每一個指定的節(jié)點1都有一個指定的訓練集S的子集33與之對應。對于根節(jié)點，對應的就是訓練集S。當一個節(jié)點對應的子集都屬于同一個分類的時候，該節(jié)點就被設置為葉子節(jié)點，代表該節(jié)點的訓練已經完成。如果一個節(jié)點對應的子集不都屬于同一個分類的時候，算法將繼續(xù)迭代進行，直至所有的訓練子集都對應相應的葉子節(jié)點。
[0021] 對于每個可以獲取的屬性b1，該屬性的取值B1將分成為兩個區(qū)間的子集g和碟。這兩種子集將訓練子集3 3分成兩個部分Lq和Rq。在CART中，常用的雜質度量方法是Gini指數(shù)，對于一個子訓練集S a，其Gini指數(shù)表示方法如下：
[0022] (1)
[0023]其中，
P表示訓練集中屬于該分類的概率，k代表分類數(shù)值，a代表訓練子集編號。從公式1容易看出，Gini指數(shù)的最小值是0,當所有樣本都正確分類的時候取得最小值。換句話說，Gini指數(shù)反映了分類結果的純度，數(shù)值越小，分類越純，結果也就越準確。當前節(jié)點中訓練集的分類通概率出現(xiàn)時，Gini指數(shù)出現(xiàn)最大值。
[0024]根據(jù)概率關系，可以得到加權Gini指數(shù)：
[0025]
(:2>
[0026]在CART中，根據(jù)Gini指數(shù)或者加權Gini指數(shù)的增益來對節(jié)點進行分裂操作，這類似于ID3算法中根據(jù)信息熵增益進行分裂操作。
[0027] 所有的計算和分析都是基于整個數(shù)據(jù)集進行分析的。下面將討論針對流數(shù)據(jù)的分析。由于流數(shù)據(jù)是無限的，不可能做到像CART-樣來計算樣本中屬于某一分類的概率，而只能根據(jù)已知的數(shù)據(jù)樣本對其概率進行估計。
[0028] 考慮到一個固定的節(jié)點的情況，在前面的分析中使用53表示，根據(jù)前面的分析，可以得到如下結論：
[0029] ii) κΑ)
[0031] 這樣，相當于是考慮了 K個特征中的K-I個來進行計算。根據(jù)這一規(guī)則，概率Pk可以類似的計算出來，計算方法如下：
[0032]
(5,)
[0033]從公式5可以看出，K個特征屬性中的K-I一個是重要的。注意，概率Pj不是根據(jù)選定的特征屬性來決定的，而是可以根據(jù)G(A)、&(€)以及。(R)來計算，結算公式如下： Γλλο? ?
(6)
[0035] 對于任意的數(shù)據(jù)集，數(shù)據(jù)集的每一個組成元素都屬于K個類別的某一個。Gini指數(shù) 可以使用如下公式計算。
[0036]
(7)
[0037] 其中Pj表示數(shù)據(jù)集中屬于第j個分類的概率。這樣一來，Gini指數(shù)可以使用K-I個變量的函數(shù)來表示。同樣，Gini增益也可以使用以上提及的參數(shù)來表示：
[0038] Gini_g = Gini(Pi,P2. . . , Ρκ-ι )-PLGini (Pu, P2L. . . ,P(k-i)l)-( l-PL)Gini (Pir, P2R. . . ,P(k-i)r) (8)
[0039] 因此，最優(yōu)的分裂選擇特征屬性可以根據(jù)如下公式求出：
[0040]
(9)
[0041] 使用符號g1表示特征屬性b1的Gini增益。使用符號芎表示if的估計量，后面出現(xiàn)預估量的地方，采用相同的表示方法。這些預估值在符合二項分布的隨機變量中可以當作是算術平均值來對待。假設s是數(shù)據(jù)集S的一個變量，定義一個變量δ，當s屬于L 1時候為1，不屬于L1時候為0。這時候，δ是服從二項分布的變量，且平均值為巧，方差為g(l- P/類似的，定義SkL和SkR，k屬于{1，2，…，K-I}。當左節(jié)點數(shù)據(jù)子集Im屬于第k個分類的時候，S klj變量值為1，當右節(jié)點數(shù)據(jù)子集rJl于第k個分類的時候，SkR變量值為1。
[0042] 如果根據(jù)兩個不同的特征屬性和樣本集計算出的Gini增益數(shù)值大于一個給定的特殊值，則該值一定概率上反映真實的Gini增益值。根據(jù)這一依據(jù)，可以根據(jù)最近得到的數(shù) 據(jù)集決定最佳特征屬性進行決策樹分裂建樹操作。
[0043]為了方便描述，將以,思，,..,盡_郵)記作穿。然后考慮兩個特征屬性bx和by，然后計算它們的Gini增益值。如果它們的差值滿足最優(yōu)分裂屬性的方法，即如下公式10的關系：
(IQ)
[0045] 其中引入中斷參數(shù)γκ如公式11所示：
[0046]
(Ii)
[0047] 公式（11)中的Ζ(1-α)是指標準正態(tài)分布Ν(0，1)的l-α分位數(shù)。Q(K)則表示5Κ 2-8Κ+4。在這種情況下，gx比gy大的概率是l-α。也就是說，如果g x和gy的Gini增益的預估值的關系滿足公式10,則gx和g y的真實值滿足gx>gy的概率是l-α。中斷參數(shù)的引入是引入中斷機制，BP γκ>〇,它可以一定程度上防止程序堵塞，較少程序的計算量。
[0048] 根據(jù)之前的結論可以知道，當bx和by是具有最大Gini增益的特征屬性的時候，那么，b x可以選擇作為分裂屬性。而這種情況出現(xiàn)的可信度為l-c^1。也就是說，可以在一定可信度下確定分裂所應該選擇的最優(yōu)特征屬性。
[0049] 在圖 2 中，通過實驗分析CART_DS算法與McDiarmid Tree (MDT)和Gaussian Decision Tree(⑶T)算法進行性能對比。設置中斷因子參數(shù)Θ為0.05,設置固定概率值α為 10-7。固定這些參數(shù)不變，從104到109改變訓練數(shù)據(jù)集的數(shù)量，比較算法分類的準確性上的表現(xiàn)。三種算法在準確性性能方面的表現(xiàn)基本一致，本章提出的CART_DS算法稍微領先。這種結果出現(xiàn)的原因是因為三種算法實質上都是基于CART生成決策樹算法所作出的改進。也就是說，對于相同的數(shù)據(jù)集，三種算法可能生成一致的決策樹。但是從總體趨勢我們可以看出，算法的準確性都隨著數(shù)據(jù)集的數(shù)量的增加表現(xiàn)為上升趨勢，當數(shù)據(jù)集數(shù)量在IO 9數(shù)量級的時候，算法的準確性可以接近95%。
[0050] 在圖3中，分析CART_DS算法與McDiarmid Tree算法的性能。設置中斷因子參數(shù)Θ為〇,設置固定概率值α為0.1。在使用CART生成決策樹的過程中，最重要的分裂(也就是具有最大增益的分裂)通常就是第一次分裂，即根節(jié)點的分裂。由于生成樹的最終結果是類似的，算法最終的準確率趨于相同。同時從圖中可以看出，CART_DS算法比McDiarmid Tree算法做分裂的時候所需要的數(shù)據(jù)樣本數(shù)量更少，因此，CART_DS算法在于一個分裂操作中需要更少的訓練數(shù)據(jù)集，根節(jié)點的分裂操作總是比McDiarmid Tree算法更快。
[0051] 在圖4中，在樣本數(shù)據(jù)中加入一定比例的噪聲(干擾數(shù)據(jù)）。使用如下機制來生成干擾數(shù)據(jù)。在每一次數(shù)據(jù)生成的過程中，按照一個固定的概率Φ來改變樣本數(shù)據(jù)中的特征屬性和標簽值，改變后的值是所有可能值，并且每一種數(shù)值的取值可能性是一致的。Φ的取值從 0 %到50 %之間（包含)逐漸變化。本實驗的仿真實驗結果表明，隨著噪聲比例的增加，準確率隨之下降。
[0052] 在圖5中，分析CART_DS算法與Gaussian Decision Tree算法在訓練時間上的性能對比。設置中斷因子參數(shù)Θ為0,設置固定概率值α為0.1，改變訓練樣本集的數(shù)量η。從實驗結果可以看出，隨著訓練數(shù)據(jù)集規(guī)模的增加，CART_DS算法在訓練時間上的表現(xiàn)比Gaussian Decision Tree算法在訓練時間上的表現(xiàn)所體現(xiàn)出的優(yōu)勢越發(fā)明顯，換句話說，CART_DS算法在大數(shù)據(jù)規(guī)模下使用，優(yōu)勢更加明顯。
[0053]本發(fā)明方案所公開的技術手段不僅限于上述實施方式所公開的技術手段，還包括由以上技術特征任意組合所組成的技術方案。
【主權項】
1. 一種認知計算中基于CART的決策樹構建方法，其特征是，包括w下步驟：步驟1、初始化決策樹的根節(jié)點和對應的特征屬性集；步驟2、根據(jù)此時決策樹的特征屬性，對訓練集的數(shù)據(jù)進行排序操作；步驟3、判斷節(jié)點中的所有樣本數(shù)據(jù)是否具有相同類別的數(shù)據(jù)標簽，如果是，則執(zhí)行步驟4,否則結束；步驟4、將節(jié)點設置為待分裂的節(jié)點，同時計算節(jié)點的最優(yōu)和次優(yōu)特征屬性；步驟5、判斷節(jié)點是否滿足最優(yōu)特征屬性和中斷機制的分裂條件，如果滿足，則使用最優(yōu)特征屬性進行分裂，將分裂后的節(jié)點替換當前節(jié)點，并從分支中添加一個新的葉子節(jié)點，達到決策樹的自動分裂;否則等待數(shù)據(jù)流輸入，進行樣本更新，然后執(zhí)行步驟4。2. 根據(jù)權利要求1所述的決策樹構建方法，其特征是，步驟2中所述決策樹的特征屬性是Gini增益。3. 根據(jù)權利要求2所述的決策樹構建方法，其特征是，所述最優(yōu)特征屬性為Gini增益最大的特征屬性。4. 根據(jù)權利要求1所述的決策樹構建方法，其特征是，所述中斷機制的分裂條件是滿足 r-r >心其中r為傷'化'_各(巧，思，.·馬雌，瑪，,..，語_峭)，功X或y，L、R代表不同的訓練子集；中斷參數(shù)其中Ζ(ι-α)是指標準正態(tài)分布N(0，1)的1-α分位數(shù)，Q化)貝。表示5Κ2-8Κ+4，在運種情況下，gx比gy大的概率是1-α。
【文檔編號】G06F17/30GK105843924SQ201610179487
【公開日】2016年8月10日
【申請日】2016年3月25日
【發(fā)明人】王堃, 陸恒, 張明翔, 岳東, 孫雁飛, 吳蒙, 亓晉, 陳思光
【申請人】南京郵電大學

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：王堃;陸恒;張明翔;岳東;孫雁飛;吳蒙;亓晉;陳思光;
技術所有人：南京郵電大學;
我是此專利的發(fā)明人

上一篇：一種基于改進bow算法的相似圖片搜索方法
上一篇：一種基于戶籍信息數(shù)據(jù)的親屬關系分析方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網絡及物聯(lián)網
4、王老師：1.計算機網絡安全 2.計算機仿真技術
5、王老師：1.網絡安全；物聯(lián)網安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

決策樹構建相關技術

決策樹的構建相關技術

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種認知計算中基于cart的決策樹構建方法