一種基于Hellinger距離的懶惰決策樹(shù)方法與流程

文檔序號(hào)：11831697閱讀：664來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及一種決策樹(shù)方法，具體涉及一種基于Hellinger距離的懶惰決策樹(shù)方法。

背景技術(shù)：

分類算法從學(xué)習(xí)策略上可以分為迫切學(xué)習(xí)和懶惰學(xué)習(xí)。迫切學(xué)習(xí)是利用訓(xùn)練數(shù)據(jù)集在訓(xùn)練階段建立分類模型，在測(cè)試階段利用訓(xùn)練階段已建立的分類模型將待分類樣本分到其預(yù)測(cè)類標(biāo)。也就是說(shuō)，迫切學(xué)習(xí)有訓(xùn)練分類模型和分類待測(cè)樣本兩個(gè)階段。而懶惰學(xué)習(xí)事先不需要利用訓(xùn)練數(shù)據(jù)集建立分類模型，其對(duì)待測(cè)樣本分類過(guò)程就是利用訓(xùn)練數(shù)據(jù)集將待測(cè)樣本與其類標(biāo)匹配起來(lái)的過(guò)程，整個(gè)學(xué)習(xí)和分類的過(guò)程是同時(shí)進(jìn)行的。就時(shí)間效率而言，懶惰學(xué)習(xí)由于事先不需要利用訓(xùn)練數(shù)據(jù)集建立分類模型，因此其分類過(guò)程較迫切學(xué)習(xí)長(zhǎng)且占用的資源開(kāi)銷較大，被認(rèn)為適用于數(shù)據(jù)規(guī)模較小的情況下。但是，懶惰學(xué)習(xí)考慮了每個(gè)待測(cè)樣本的屬性，并在分類過(guò)程中為每個(gè)待測(cè)樣本建立特定的分類模型。因此，其分類準(zhǔn)確率要高于迫切學(xué)習(xí)。雖然K近鄰作為懶惰學(xué)習(xí)的代表得到了廣泛的應(yīng)用，但其不能給出一個(gè)可理解的模型，從而限制了K近鄰的應(yīng)用范圍。決策樹(shù)算法作為迫切學(xué)習(xí)的代表，以其簡(jiǎn)單、有效和便于理解等特點(diǎn)成為普遍使用的分類算法之一。在訓(xùn)練階段，它根據(jù)訓(xùn)練數(shù)據(jù)集采用自頂向下分而治之的策略建立一棵整體上最優(yōu)的樹(shù)，在測(cè)試階段，這棵樹(shù)將被用于預(yù)測(cè)待分類樣本的類標(biāo)。在決策樹(shù)算法中，ID3和C4.5是最經(jīng)典的。ID3選擇信息增益值最大的屬性作為分裂屬性構(gòu)建決策樹(shù)。但信息增益傾向于選擇含有不同值個(gè)數(shù)較多的屬性作為分裂屬性，這會(huì)造成所選擇的屬性無(wú)實(shí)際意義，例如ID字段。而C4.5正是從這方面入手，選擇信息增益率最大的屬性作為分裂屬性構(gòu)建決策樹(shù)，從而避免了上述情況的發(fā)生。但普通的決策樹(shù)算法是根據(jù)訓(xùn)練數(shù)據(jù)集采用自頂向下分而治之的策略建立一棵整體上最優(yōu)的樹(shù)，這在一定程度上存在以下問(wèn)題。(1)子樹(shù)重復(fù)問(wèn)題，即同一棵子樹(shù)出現(xiàn)在不同的分支下。一般來(lái)說(shuō)，當(dāng)規(guī)則前件存在析取概念時(shí)往往會(huì)導(dǎo)致子樹(shù)重復(fù)問(wèn)題。當(dāng)子樹(shù)重復(fù)問(wèn)題產(chǎn)生時(shí)，往往會(huì)導(dǎo)致決策樹(shù)過(guò)于復(fù)雜，加重了數(shù)據(jù)分割問(wèn)題。(2)數(shù)據(jù)分割問(wèn)題，即樹(shù)的子節(jié)點(diǎn)僅覆蓋較少的樣本。這一問(wèn)題會(huì)影響在當(dāng)前節(jié)點(diǎn)選擇分裂屬性，從而產(chǎn)生一條準(zhǔn)確度較低的決策路徑。(3)普通的決策樹(shù)在構(gòu)建過(guò)程中，依據(jù)整個(gè)數(shù)據(jù)集的平均增益選擇屬性，所選的屬性不一定有利于對(duì)測(cè)試樣本的分類，從一定程度上也加劇了數(shù)據(jù)分割問(wèn)題。為了克服上述問(wèn)題，有效地將普通決策樹(shù)可理解性高的特點(diǎn)和懶惰學(xué)習(xí)準(zhǔn)確度高的優(yōu)勢(shì)結(jié)合起來(lái)，懶惰的決策樹(shù)(Lazy Decision Tree,LazyDT)便應(yīng)運(yùn)而生。該算法根據(jù)測(cè)試樣本的屬性值構(gòu)建一條最優(yōu)的決策樹(shù)路徑，最后根據(jù)葉子節(jié)點(diǎn)所包含樣本的類別給出分類結(jié)果。與普通的決策樹(shù)相比，懶惰的決策樹(shù)只針對(duì)單獨(dú)的測(cè)試樣本，因此生成的決策路徑要短于普通的決策樹(shù)，可理解性要高于普通的決策樹(shù)。由于懶惰的決策樹(shù)考慮了測(cè)試樣本的屬性值，從而避免了數(shù)據(jù)分割問(wèn)題的產(chǎn)生。因此，懶惰的決策樹(shù)在性能上要優(yōu)于普通的決策樹(shù)。然而，懶惰的決策樹(shù)在利用測(cè)試樣本屬性值對(duì)訓(xùn)練集數(shù)據(jù)進(jìn)行過(guò)慮時(shí)，可能會(huì)出現(xiàn)過(guò)濾后的訓(xùn)練集數(shù)據(jù)為空即訓(xùn)練集中在給定的屬性上沒(méi)有樣本與測(cè)試樣本具有相同的屬性值。這會(huì)導(dǎo)致懶惰的決策樹(shù)過(guò)早的停止分裂并回溯。這會(huì)不利于對(duì)非均衡問(wèn)題中的少數(shù)類樣本進(jìn)行分類。此外，懶惰的決策樹(shù)采用了信息增益的方法選擇分裂屬性，而信息增益對(duì)非均衡類分布敏感，這也會(huì)進(jìn)一步降低懶惰的決策樹(shù)應(yīng)對(duì)非均衡問(wèn)題的能力。

技術(shù)實(shí)現(xiàn)要素：

為解決上述現(xiàn)有技術(shù)中的不足，本發(fā)明的目的是提供一種基于Hellinger距離的懶惰決策樹(shù)方法(Hellinger Distance Based Lazy Decision Tree,HLazyDT)，該方法既考慮了整個(gè)分裂屬區(qū)分不同類別樣本的能力，又考慮了測(cè)試樣本的分裂屬性值區(qū)分不同類別樣本的能力，以避免懶惰的決策樹(shù)過(guò)早的停止分裂并回溯。

本發(fā)明的目的是采用下述技術(shù)方案實(shí)現(xiàn)的：

本發(fā)明提供一種基于Hellinger距離的懶惰決策樹(shù)方法，其改進(jìn)之處在于，所述方法包括下述步驟：

A、判斷訓(xùn)練數(shù)據(jù)集中的樣本的所屬類別，若屬于同一類，則賦予待測(cè)樣本該類別；否則，判斷訓(xùn)練數(shù)據(jù)集中的樣本是否具有相同的屬性值，若具有相同的屬性值，則將在訓(xùn)練數(shù)據(jù)集中占最大比例的類別作為待測(cè)樣本的類別；

B、若上述兩種情況均不滿足，則采用對(duì)非均衡類分布不敏感的度量指標(biāo)Hellinger距離作為選擇分裂屬性的度量指標(biāo)，選擇使得該指標(biāo)最大化的屬性作為分裂屬性；將訓(xùn)練數(shù)據(jù)集中分裂屬性值等于待測(cè)樣本分裂屬性值的樣本子集作為下一次選擇分裂屬性的訓(xùn)練數(shù)據(jù)集，并從屬性集中移除分裂屬性；

C、重復(fù)上述兩個(gè)步驟，直到滿足第一步中的兩個(gè)情況或者訓(xùn)練數(shù)據(jù)集中分裂屬性值等于待測(cè)樣本分裂屬性值的樣本子集為空時(shí)，算法終止；最終形成一條為待測(cè)樣本分類的決策路徑。

進(jìn)一步地，所述步驟A中，待測(cè)樣本的類別與懶惰決策樹(shù)的處理能力相關(guān)，所述懶惰決策樹(shù)的處理能力包括：

1)對(duì)缺失值進(jìn)行處理；

2)對(duì)所選屬性的最大Hellinger距離為零的處理；

3)對(duì)訓(xùn)練數(shù)據(jù)集中分裂屬性值等于待測(cè)樣本分裂屬性值的樣本子集為空的處理。

進(jìn)一步地，所述1)包括：①待測(cè)樣本的分裂屬性對(duì)應(yīng)值缺失時(shí)，則同時(shí)刪除訓(xùn)練數(shù)據(jù)集和待測(cè)樣本的當(dāng)前分裂屬性，再重新選擇分裂屬性；②當(dāng)訓(xùn)練數(shù)據(jù)集的分裂屬性含有缺失值時(shí)，則將待測(cè)樣本分裂屬性的對(duì)應(yīng)值賦給訓(xùn)練數(shù)據(jù)集中缺失分裂屬性值的樣本；

所述2)包括：當(dāng)所選屬性的最大Hellinger距離為零時(shí)，選擇在訓(xùn)練數(shù)據(jù)集中占最大比例的類別作為待測(cè)樣本的類別；

所述3)包括：當(dāng)出現(xiàn)該種情況時(shí)，進(jìn)行回溯操作，將上一層節(jié)點(diǎn)對(duì)應(yīng)的訓(xùn)練數(shù)據(jù)集中占最大比例的類別作為待測(cè)樣本的類別。

進(jìn)一步地，所述步驟B中，采用對(duì)非均衡類分布不敏感的度量指標(biāo)作為選擇分裂屬性的度量指標(biāo)即Hellinger距離；

在選擇分裂屬性時(shí)，進(jìn)一步考慮待測(cè)樣本在該屬性上的取值區(qū)分不同類別樣本的能力，若待測(cè)樣本在該屬性上的取值未在當(dāng)前訓(xùn)練數(shù)據(jù)集中出現(xiàn)，則表明使用當(dāng)前屬性對(duì)待測(cè)樣本進(jìn)行分類無(wú)實(shí)際意義。

進(jìn)一步地，所述Hellinger距離的計(jì)算如下：

假定在屬性X上，待測(cè)樣本取值為v，則屬性X區(qū)分多數(shù)類與少數(shù)類樣本能力由式(1)計(jì)算，分別對(duì)應(yīng)于屬性X的Hellinger距離；待測(cè)樣本值v區(qū)分多數(shù)類與少數(shù)類樣本能力由式(2)計(jì)算，分別對(duì)應(yīng)于待測(cè)樣本值v的Hellinger距離：

$<mrow> <msub> <mi>D</mi> <mi>H</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>X</mi> <mo>+</mo> </msub> <mo>,</mo> <msub> <mi>X</mi> <mo>-</mo> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msqrt> <mrow> <munderover> <mo>Σ</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>p</mi> </munderover> <msup> <mrow> <mo>(</mo> <mfrac> <mrow> <mo>|</mo> <msub> <mi>X</mi> <mrow> <mo>+</mo> <mi>j</mi> </mrow> </msub> <mo>|</mo> </mrow> <mrow> <mo>|</mo> <msub> <mi>X</mi> <mo>+</mo> </msub> <mo>|</mo> </mrow> </mfrac> <mo>-</mo> <mfrac> <mrow> <mo>|</mo> <msub> <mi>X</mi> <mrow> <mo>-</mo> <mi>j</mi> </mrow> </msub> <mo>|</mo> </mrow> <mrow> <mo>|</mo> <msub> <mi>X</mi> <mo>-</mo> </msub> <mo>|</mo> </mrow> </mfrac> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>$

$<mrow> <msub> <mi>W</mi> <mrow> <mi>H</mi> <mo>-</mo> <mi>v</mi> </mrow> </msub> <mo>=</mo> <mo>|</mo> <msqrt> <mfrac> <mrow> <mo>|</mo> <msub> <mi>X</mi> <mrow> <mo>+</mo> <mi>v</mi> </mrow> </msub> <mo>|</mo> </mrow> <mrow> <mo>|</mo> <msub> <mi>X</mi> <mo>+</mo> </msub> <mo>|</mo> </mrow> </mfrac> </msqrt> <mo>-</mo> <msqrt> <mfrac> <mrow> <mo>|</mo> <msub> <mi>X</mi> <mrow> <mo>-</mo> <mi>v</mi> </mrow> </msub> <mo>|</mo> </mrow> <mrow> <mo>|</mo> <msub> <mi>X</mi> <mo>-</mo> </msub> <mo>|</mo> </mrow> </mfrac> </msqrt> <mo>|</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>$

其中，|X₊|和|X_-|分別表示數(shù)據(jù)集中少數(shù)類樣本和多數(shù)類樣本的個(gè)數(shù)；|X_+j|和|X_-j|分別表示屬性X的值為j且分別屬于少數(shù)類和多數(shù)類的樣本個(gè)數(shù)；p表示屬性X具有不同值的個(gè)數(shù)；|X_+v|、|X_-v|分別表示屬性X的值為v且分別屬于少數(shù)類和多數(shù)類的樣本個(gè)數(shù)；j表示樣本取值；D_H(X₊，X_-)表示屬性X的Hellinger距離；W_H-v表示待測(cè)樣本在屬性X上取值為v時(shí)對(duì)應(yīng)的Hellinger距離。

進(jìn)一步地，通過(guò)上述表述，結(jié)合對(duì)非均衡類分布不敏感的度量指標(biāo)，基于Hellinger距離的懶惰決策樹(shù)的分裂屬性度量指標(biāo)計(jì)算如式(3)所示：

$<mrow> <msub> <mi>Split</mi> <mi>H</mi> </msub> <mo>=</mo> <msqrt> <mrow> <msub> <mi>W</mi> <mrow> <mi>H</mi> <mo>-</mo> <mi>v</mi> </mrow> </msub> <mo>·</mo> <msub> <mi>D</mi> <mi>H</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>X</mi> <mo>+</mo> </msub> <mo>,</mo> <msub> <mi>X</mi> <mo>-</mo> </msub> <mo>)</mo> </mrow> </mrow> </msqrt> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>$

其中：Split_H表示基于Hellinger距離的懶惰決策樹(shù)的分裂屬性度量指標(biāo)值；從式(3)看出，通過(guò)計(jì)算待測(cè)樣本在屬性X上取值v的區(qū)分能力與屬性X的區(qū)分能力兩者的幾何平均保證選擇到最優(yōu)分裂屬性；當(dāng)待測(cè)樣本在屬性X的取值v在訓(xùn)練數(shù)據(jù)集中未出現(xiàn)時(shí)，則式(2)，(3)均為零；表明待測(cè)樣本在屬性X上的值v區(qū)分多數(shù)類與少數(shù)類樣本能力為零，即用屬性X對(duì)待測(cè)樣本進(jìn)行分類無(wú)實(shí)際意義，即使屬性X區(qū)分多數(shù)類與少數(shù)類樣本能力最大；反之，如果式(2)越大，則表明待測(cè)樣本在屬性X上取值v區(qū)分多數(shù)類與少數(shù)類樣本能力也越大。

進(jìn)一步地，所述基于Hellinger距離的懶惰決策樹(shù)HLazyDT描述如下：

其輸入量為：待測(cè)樣本I，訓(xùn)練集T，屬性集F；

<1>：創(chuàng)建根結(jié)點(diǎn)N；

<2>：IF訓(xùn)練集T中樣本均屬于同一個(gè)類別i；THEN返回根結(jié)點(diǎn)N為葉子結(jié)點(diǎn)并標(biāo)記待測(cè)樣本I為類別i；

<3>：IF訓(xùn)練集T中樣本具有相同的屬性值；THEN返回根結(jié)點(diǎn)N為葉子結(jié)點(diǎn)并標(biāo)記待測(cè)樣本I為訓(xùn)練集T中最頻繁類別；

<4>：FOR屬性集F中每個(gè)屬性f DO；

<5>：獲取待測(cè)樣本I在屬性f上的值v；

<6>：根據(jù)公式(1)，(2)和(3)計(jì)算屬性f的Hellinger距離值Df；

<7>：END FOR；

<8>：用b＝MAX(D_f)，選擇距離值最大的屬性b；

<9>：根據(jù)待測(cè)樣本I在屬性b上的值v，從訓(xùn)練集T中選擇屬性b的值等于v的樣本構(gòu)成新的訓(xùn)練集T*；

<10>：從屬性集F中移除屬性b，形成新的屬性集F*；

<11>：基于Hellinger距離的懶惰決策樹(shù)HLazyDT(I，T*，F(xiàn)*)形成遞歸調(diào)用。

為了對(duì)披露的實(shí)施例的一些方面有一個(gè)基本的理解，下面給出了簡(jiǎn)單的概括。該概括部分不是泛泛評(píng)述，也不是要確定關(guān)鍵/重要組成元素或描繪這些實(shí)施例的保護(hù)范圍。其唯一目的是用簡(jiǎn)單的形式呈現(xiàn)一些概念，以此作為后面的詳細(xì)說(shuō)明的序言。

與最接近的現(xiàn)有技術(shù)相比，本發(fā)明提供的技術(shù)方案具有的優(yōu)異效果是：

本發(fā)明提供的方法基于Hellinger距離的懶惰決策樹(shù)，既考慮了整個(gè)分裂屬區(qū)分不同類別樣本的能力，又考慮了測(cè)試樣本的分裂屬性值區(qū)分不同類別樣本的能力，以避免懶惰的決策樹(shù)過(guò)早的停止分裂并回溯。

為了上述以及相關(guān)的目的，一個(gè)或多個(gè)實(shí)施例包括后面將詳細(xì)說(shuō)明并在權(quán)利要求中特別指出的特征。下面的說(shuō)明以及附圖詳細(xì)說(shuō)明某些示例性方面，并且其指示的僅僅是各個(gè)實(shí)施例的原則可以利用的各種方式中的一些方式。其它的益處和新穎性特征將隨著下面的詳細(xì)說(shuō)明結(jié)合附圖考慮而變得明顯，所公開(kāi)的實(shí)施例是要包括所有這些方面以及它們的等同。

附圖說(shuō)明

圖1是本發(fā)明提供的基于Hellinger距離的懶惰決策樹(shù)方法的語(yǔ)言描述流程圖；

圖2是本發(fā)明提供的參與實(shí)驗(yàn)的算法在各類數(shù)據(jù)集上AUC結(jié)果的比較的示意圖。

具體實(shí)施方式

下面結(jié)合附圖對(duì)本發(fā)明的具體實(shí)施方式作進(jìn)一步的詳細(xì)說(shuō)明。

以下描述和附圖充分地顯示出本發(fā)明的具體實(shí)施方案，以使本領(lǐng)域的技術(shù)人員能夠?qū)嵺`它們。其他實(shí)施方案可以包括結(jié)構(gòu)的、邏輯的、電氣的、過(guò)程的以及其他的改變。實(shí)施例僅代表可能的變化。除非明確要求，否則單獨(dú)的組件和功能是可選的，并且操作的順序可以變化。一些實(shí)施方案的部分和特征可以被包括在或替換其他實(shí)施方案的部分和特征。本發(fā)明的實(shí)施方案的范圍包括權(quán)利要求書(shū)的整個(gè)范圍，以及權(quán)利要求書(shū)的所有可獲得的等同物。在本文中，本發(fā)明的這些實(shí)施方案可以被單獨(dú)地或總地用術(shù)語(yǔ)“發(fā)明”來(lái)表示，這僅僅是為了方便，并且如果事實(shí)上公開(kāi)了超過(guò)一個(gè)的發(fā)明，不是要自動(dòng)地限制該應(yīng)用的范圍為任何單個(gè)發(fā)明或發(fā)明構(gòu)思。

基于Hellinger距離的懶惰的決策樹(shù)與其他的懶惰式學(xué)習(xí)算法類似，不存在根據(jù)訓(xùn)練數(shù)據(jù)集建立分類模型的過(guò)程。整個(gè)算法都是在獲得待測(cè)樣本后才開(kāi)始工作。在對(duì)待測(cè)樣本進(jìn)行分類時(shí)，需要為待測(cè)樣本建立一個(gè)最優(yōu)決策樹(shù)，實(shí)際上是為待測(cè)樣本建立一條最優(yōu)決策路徑，而忽略決策樹(shù)的其他分支。本發(fā)明提供的基于Hellinger距離的懶惰決策樹(shù)方法框架，如表1所示，算法具體描述如下：

(1)判斷訓(xùn)練數(shù)據(jù)集中的樣本的所屬類別，若屬于同一類，則賦予待測(cè)樣本該類別；否則，判斷訓(xùn)練數(shù)據(jù)集中的樣本是否具有相同的屬性值，若具有相同的屬性值，則將在訓(xùn)練數(shù)據(jù)集中占最大比例的類別作為待測(cè)樣本的類別。

(2)若上述兩種情況均不滿足，采用對(duì)非均衡類分布不敏感的度量指標(biāo)Hellinger距離作為選擇分裂屬性的度量指標(biāo)，選擇使得該指標(biāo)最大化的屬性作為分裂屬性。將訓(xùn)練數(shù)據(jù)集中分裂屬性值等于待測(cè)樣本分裂屬性值的樣本子集作為下一次選擇分裂屬性的訓(xùn)練數(shù)據(jù)集，并從屬性集中移除分裂屬性。

(3)重復(fù)上述幾步，直到滿足第一步中的兩個(gè)情況或者訓(xùn)練數(shù)據(jù)集中分裂屬性值等于待測(cè)樣本分裂屬性值的樣本子集為空時(shí)，算法終止。這時(shí)，便會(huì)形成一條為待測(cè)樣本分類的決策路徑。

為了有效應(yīng)對(duì)特殊情況，基于Hellinger距離的懶惰決策樹(shù)還具備以下處理能力。

(1)對(duì)缺失值的處理。第一種情況是待測(cè)樣本的分裂屬性對(duì)應(yīng)值缺失時(shí)，則同時(shí)刪除訓(xùn)練數(shù)據(jù)集和待測(cè)樣本的當(dāng)前分裂屬性，再重新選擇分裂屬性。另一種情況是當(dāng)訓(xùn)練數(shù)據(jù)集的分裂屬性含有缺失值時(shí)，則將待測(cè)樣本分裂屬性的對(duì)應(yīng)值賦給訓(xùn)練數(shù)據(jù)集中這部分缺失分裂屬性值的樣本。

(2)對(duì)所選屬性的最大Hellinger距離為零的處理。當(dāng)所選屬性的最大Hellinger距離為零時(shí)，選擇在訓(xùn)練數(shù)據(jù)集中占最大比例的類別作為待測(cè)樣本的類別。

(3)對(duì)訓(xùn)練數(shù)據(jù)集中分裂屬性值等于待測(cè)樣本分裂屬性值的樣本子集為空的處理。當(dāng)出現(xiàn)該種情況時(shí)，進(jìn)行回溯操作，將上一層節(jié)點(diǎn)對(duì)應(yīng)的訓(xùn)練數(shù)據(jù)集中占最大比例的類別作為待測(cè)樣本的類別。

當(dāng)采用Hellinger距離作為為選擇分裂屬性的度量指標(biāo)時(shí)，具體計(jì)算如下：

假定在屬性X上，待測(cè)樣本取值為v，則屬性X區(qū)分多數(shù)類與少數(shù)類樣本能力可由式(1)計(jì)算，分別對(duì)應(yīng)于屬性X的Hellinger距離；而值v區(qū)分多數(shù)類與少數(shù)類樣本能力可由式(2)計(jì)算，分別對(duì)應(yīng)于值v的Hellinger距離。

其中，|X₊|和|X_-|分別表示數(shù)據(jù)集中少數(shù)類樣本和多數(shù)類樣本的個(gè)數(shù)；|X+j|和|X_-j|表示屬性X的值為j且分別屬于少數(shù)類和多數(shù)類的樣本個(gè)數(shù)；p表示屬性X具有不同值的個(gè)數(shù)；|X_+v|、|X_-v|分別表示屬性X的值為v且分別屬于少數(shù)類和多數(shù)類的樣本個(gè)數(shù)；j表示樣本取值。D_H(X₊，X_-)表示屬性X的Hellinger距離；W_H-v表示待測(cè)樣本在屬性X上取值為v時(shí)對(duì)應(yīng)的Hellinger距離。

通過(guò)上述表述，結(jié)合對(duì)非均衡類分布不敏感的度量指標(biāo)，基于Hellinger距離的懶惰決策樹(shù)的分裂屬性度量指標(biāo)分別計(jì)算如式(3)所示。

從式(3)可以看出，通過(guò)計(jì)算待測(cè)樣本在屬性X上取值v的區(qū)分能力與屬性X的區(qū)分能力兩者的幾何平均保證選擇到最優(yōu)分裂屬性。特別地，當(dāng)待測(cè)樣本在屬性X的取值v在訓(xùn)練數(shù)據(jù)集中未出現(xiàn)時(shí)，那么式(2)，(3)均為零。這表明待測(cè)樣本在屬性X上的值v區(qū)分多數(shù)類與少數(shù)類樣本能力為零，也即用屬性X對(duì)待測(cè)樣本進(jìn)行分類無(wú)實(shí)際意義，即使屬性X區(qū)分多數(shù)類與少數(shù)類樣本能力最大；反之，如果式(2)越大，則表明待測(cè)樣本在屬性X上取值v區(qū)分多數(shù)類與少數(shù)類樣本能力也越大。由此可見(jiàn)，式(3)首先采用了對(duì)非均衡類分布不敏感的度量標(biāo)準(zhǔn)用于克服原有算法中使用信息熵的不足；其次，通過(guò)計(jì)算待測(cè)樣本在屬性X上取值v的區(qū)分能力與屬性X的區(qū)分能力兩者的幾何平均用于防止在利用測(cè)試樣本屬性值對(duì)訓(xùn)練集數(shù)據(jù)進(jìn)行過(guò)慮時(shí)，可能會(huì)出現(xiàn)過(guò)濾后的訓(xùn)練集數(shù)據(jù)為空的情況，有效地避免了懶惰的決策樹(shù)過(guò)早的停止分裂和回溯。整個(gè)算法框架如下表1所示。

表1基于Hellinger距離的懶惰決策樹(shù)

實(shí)施例

在整個(gè)實(shí)驗(yàn)框架中，首先給出了參與實(shí)驗(yàn)的算法；其次，給出了實(shí)驗(yàn)所使用的數(shù)據(jù)集、介紹了實(shí)驗(yàn)所使用的統(tǒng)計(jì)方法；再次，通過(guò)圖表的方式給出了實(shí)驗(yàn)結(jié)果及相關(guān)分析；最后，得出了相關(guān)結(jié)論。具體實(shí)驗(yàn)框架如圖1所示。

一、參與實(shí)驗(yàn)的算法及相關(guān)參數(shù)設(shè)置：

為了有效地評(píng)估所提出的基于Hellinger距離懶惰決策樹(shù)算法的性能，實(shí)驗(yàn)中分別選擇了具有參考意義的C4.5算法和傳統(tǒng)的懶惰決策樹(shù)算法。從選擇的算法來(lái)看，C4.5是決策樹(shù)算法中最為通用的算法，在各類實(shí)驗(yàn)中常被用作基準(zhǔn)算法，同時(shí)C4.5也可作為迫切學(xué)習(xí)類型決策樹(shù)的代表。另一方面，新的懶惰決策樹(shù)算法是在傳統(tǒng)的懶惰決策樹(shù)算法基礎(chǔ)上改進(jìn)而來(lái)，因此有必要比較兩者之間在不同數(shù)據(jù)集上的分類性能差異。具體參與實(shí)驗(yàn)的算法及字母縮寫(xiě)如表2所示。本節(jié)之后參與本實(shí)驗(yàn)的算法名稱描述均采用表2中的縮寫(xiě)其中，帶有底紋的算法即所提出的算法。

表2參與實(shí)驗(yàn)的算法及字母縮寫(xiě)

二、實(shí)驗(yàn)數(shù)據(jù)集

實(shí)驗(yàn)分別選擇了40個(gè)高度非均衡數(shù)據(jù)集和22個(gè)低度非均衡數(shù)據(jù)集，這些數(shù)據(jù)集來(lái)源于KEEL數(shù)據(jù)集庫(kù)。雖然沒(méi)有相關(guān)文獻(xiàn)給出高度非均衡數(shù)據(jù)集的具體定義，但這里僅將數(shù)據(jù)集中多數(shù)類樣本數(shù)量與少數(shù)類樣本數(shù)量的比值即非均衡比率(Imbalanced Ration，IR)大于9的數(shù)據(jù)集視為高度非均衡數(shù)據(jù)集，反之為低度非均衡數(shù)據(jù)集。之所以這樣考慮，是因?yàn)榉诸愃惴ㄈ绻雎匀康纳贁?shù)類樣本，仍能獲得90％以上分類準(zhǔn)確率。非均衡比率(IR)越大，則表示數(shù)據(jù)集中類分布的傾斜程度也越高。實(shí)驗(yàn)所用數(shù)據(jù)集的特征描述分別如表3和4所示。在這兩張表中，標(biāo)題欄Exam、Min、Feat、Cont、Disc和IR分別代表數(shù)據(jù)集中的樣本數(shù)量、少數(shù)類樣本數(shù)量、特征數(shù)量、連續(xù)型特征的數(shù)量、離散型特征的數(shù)量和非均衡比率。所有的實(shí)驗(yàn)數(shù)據(jù)集都是兩分類問(wèn)題且不含缺失值。實(shí)驗(yàn)中采用5×2折交叉驗(yàn)證。另一方面，由于懶惰的決策樹(shù)算法只能處理離散數(shù)據(jù)類型，因此，實(shí)驗(yàn)中需要事先對(duì)數(shù)據(jù)集中的連續(xù)屬性進(jìn)行離散化處理。

表3參與實(shí)驗(yàn)的低度非均衡數(shù)據(jù)集(I R<9)

表4參與實(shí)驗(yàn)的高度非均衡數(shù)據(jù)集(I R≥9)

三、評(píng)價(jià)指標(biāo)

實(shí)驗(yàn)采用受試者工作特征曲線下面積(AUC)度量C4.5、LazyDT和HLazyDT三種決策樹(shù)算法的分類性能。所謂受試者工作特征曲線(receiver operating characteristic curve，簡(jiǎn)稱ROC曲線)是以真正率(靈敏度)為縱坐標(biāo)，假正率(特異度)為橫坐標(biāo)繪制的曲線。ROC曲線可以反映出收益(真正率)和代價(jià)(假正率)之間的平衡關(guān)系。在ROC空間，對(duì)角線代表一個(gè)隨機(jī)分類器，點(diǎn)(0,1)表示一個(gè)理想的最佳分類器。空間中的每個(gè)點(diǎn)表示一個(gè)使用某個(gè)決策閥值的分類器的性能，通過(guò)改變不同的決策閥值就可以得到一個(gè)關(guān)于某個(gè)分類器的ROC曲線。然而，僅憑借ROC曲線并不容易比較出分類算法的性能，除非曲線上的每個(gè)點(diǎn)都位于另一條曲線之上。因此，通常使用曲線下面積(the Area under the ROC Curve，AUC)作為度量指標(biāo)。

四、統(tǒng)計(jì)方法

為了有效地分析實(shí)驗(yàn)結(jié)果，實(shí)驗(yàn)使用了非參數(shù)檢驗(yàn)對(duì)C4.5、LazyDT和HLazyDT三種決策樹(shù)算法的分類性能做出統(tǒng)計(jì)分析。相比較而言，參數(shù)檢驗(yàn)的可靠性往往要建立在滿足參數(shù)條件的基礎(chǔ)上。而非參數(shù)檢驗(yàn)弱化了參數(shù)檢驗(yàn)的相關(guān)條件，因此其可靠性更高。實(shí)驗(yàn)過(guò)程中，采用了1×n比較模式可調(diào)P值的Holm過(guò)程比較參與實(shí)驗(yàn)的各個(gè)分類算法的性能差異。具體過(guò)程如下。

(1)利用基于排名的Friedman過(guò)程獲得不同分類算法在所有數(shù)據(jù)集上的平均排名。在計(jì)算排名的過(guò)程中，如果分類算法的分類性能相同，則取這些分類算法排名的均值作為各個(gè)分類算法的排名。

(2)選擇具有最小平均排名的分類算法作為基分類器，其余的分類算法根據(jù)其平均排名按升序排序。

(3)根據(jù)平均排名構(gòu)造統(tǒng)計(jì)量。構(gòu)造公式由式(4)所示。

$<mrow> <mi>Z</mi> <mo>=</mo> <mfrac> <mrow> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>R</mi> <mi>b</mi> </msub> </mrow> <msqrt> <mfrac> <mrow> <mi>K</mi> <mrow> <mo>(</mo> <mi>K</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow> <mrow> <mn>6</mn> <mi>N</mi> </mrow> </mfrac> </msqrt> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>$

式(4)中，R_i和R_b分別表示第i個(gè)分類器和基分類器的平均排名，K表示參與比較的分類算法個(gè)數(shù)，N表示實(shí)驗(yàn)數(shù)據(jù)集的個(gè)數(shù)。在給定的顯著水平α下，通過(guò)Z值在正態(tài)分布表中查找到相應(yīng)的概率值，繼而可得P值。第i個(gè)分類器的可調(diào)P值(ith adjusted P-value，APV_i)定義如式(5)所示。

APV_i＝min{v；1}，v＝max{(k-j)P_j，1≤j≤i} (5)

如果APV_i﹤α，則拒絕零假設(shè)即第i個(gè)分類器與基分類器在排名上有統(tǒng)計(jì)差異。如果APV_i﹥?chǔ)?，則從第i個(gè)分類器開(kāi)始至最后一個(gè)分類器接受零假設(shè)即這些分類器與基分類器在排名上無(wú)統(tǒng)計(jì)差異。

五、實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)結(jié)果分為兩個(gè)部分闡述，第一個(gè)部分闡述了每個(gè)分類算法在低度非均衡數(shù)據(jù)集上的AUC具體數(shù)值和排名結(jié)果；第二部分闡述了每個(gè)分類算法在高度非均衡數(shù)據(jù)集上的AUC具體數(shù)值和排名結(jié)果。整個(gè)實(shí)驗(yàn)在置信度為95％的水平下分別比較了C4.5、LazyDT和HLazyDT的AUC值及相應(yīng)排名。針對(duì)每個(gè)數(shù)據(jù)集，都給出了分類算法的相應(yīng)AUC值及排名，其中排名對(duì)應(yīng)于每個(gè)AUC數(shù)值后面的圓括號(hào)中。符號(hào)“√”表示該符號(hào)所對(duì)應(yīng)的分類算法與基分類算法(排名最好的算法)之間在平均排名上有統(tǒng)計(jì)差異。

(1)在低度非均衡數(shù)據(jù)集上的AUC結(jié)果比較及分析。

三種決策樹(shù)算法在低度非均衡數(shù)據(jù)集上的具體AUC結(jié)果如表5所示。雖然LazyDT算法獲得了最好的分類性能和平均排名，但在置信度為95％水平下，三種決策樹(shù)算法在平均排名上無(wú)統(tǒng)計(jì)差異。

(2)在高度非均衡數(shù)據(jù)集上的AUC結(jié)果比較及分析。

表6給出了三種決策樹(shù)算法在高度非均衡數(shù)據(jù)集上的具體AUC結(jié)果。如表6所示，HLazyDT算法獲得了最好的分類性能和平均排名。在置信度為95％水平下，HLazyDT與C4.5、LazyDT在平均排名上有統(tǒng)計(jì)差異。

此外，從圖2中也可以看出，三種決策樹(shù)分類算法在高度非均衡數(shù)據(jù)集上的分類性能較在低度非均衡數(shù)據(jù)集上均有所下降，即非均衡比率對(duì)決策樹(shù)分類算法產(chǎn)生了影響。但從下降幅度來(lái)看，可以知道所提出的HLazyDT下降的幅度較小。這一點(diǎn)表明所提出算法是相對(duì)魯棒的。

表5低度非均衡數(shù)據(jù)集上的AUC結(jié)果及排名

表6高度非均衡數(shù)據(jù)集上的AUC結(jié)果及排名

六、總結(jié)

就所提出的算法而言，有以下兩個(gè)值得進(jìn)一步研究的工作方向。

(1)由于所提出的算法僅考慮兩分類問(wèn)題，如何修改所提出的算法使其適用于多分類非均衡問(wèn)題是下一步的工作方向。

(2)所提出的基于Helliinger距離的懶惰決策樹(shù)是建立在懶惰的決策樹(shù)算法基礎(chǔ)之上，而懶惰的決策樹(shù)算法僅能處理離散類型的屬性，如何修改所提出的算法使其支持對(duì)連續(xù)屬性的處理也是另一個(gè)工作方向。

應(yīng)該明白，公開(kāi)的過(guò)程中的步驟的特定順序或?qū)哟问鞘纠苑椒ǖ膶?shí)例?；谠O(shè)計(jì)偏好，應(yīng)該理解，過(guò)程中的步驟的特定順序或?qū)哟慰梢栽诓幻撾x本公開(kāi)的保護(hù)范圍的情況下得到重新安排。所附的方法權(quán)利要求以示例性的順序給出了各種步驟的要素，并且不是要限于所述的特定順序或?qū)哟巍?/p>

在上述的詳細(xì)描述中，各種特征一起組合在單個(gè)的實(shí)施方案中，以簡(jiǎn)化本公開(kāi)。不應(yīng)該將這種公開(kāi)方法解釋為反映了這樣的意圖，即，所要求保護(hù)的主題的實(shí)施方案需要清楚地在每個(gè)權(quán)利要求中所陳述的特征更多的特征。相反，如所附的權(quán)利要求書(shū)所反映的那樣，本發(fā)明處于比所公開(kāi)的單個(gè)實(shí)施方案的全部特征少的狀態(tài)。因此，所附的權(quán)利要求書(shū)特此清楚地被并入詳細(xì)描述中，其中每項(xiàng)權(quán)利要求獨(dú)自作為本發(fā)明單獨(dú)的優(yōu)選實(shí)施方案。

上文的描述包括一個(gè)或多個(gè)實(shí)施例的舉例。當(dāng)然，為了描述上述實(shí)施例而描述部件或方法的所有可能的結(jié)合是不可能的，但是本領(lǐng)域普通技術(shù)人員應(yīng)該認(rèn)識(shí)到，各個(gè)實(shí)施例可以做進(jìn)一步的組合和排列。因此，本文中描述的實(shí)施例旨在涵蓋落入所附權(quán)利要求書(shū)的保護(hù)范圍內(nèi)的所有這樣的改變、修改和變型。此外，就說(shuō)明書(shū)或權(quán)利要求書(shū)中使用的術(shù)語(yǔ)“包含”，該詞的涵蓋方式類似于術(shù)語(yǔ)“包括”，就如同“包括，”在權(quán)利要求中用作銜接詞所解釋的那樣。此外，使用在權(quán)利要求書(shū)的說(shuō)明書(shū)中的任何一個(gè)術(shù)語(yǔ)“或者”是要表示“非排它性的或者”。

最后應(yīng)當(dāng)說(shuō)明的是：以上實(shí)施例僅用以說(shuō)明本發(fā)明的技術(shù)方案而非對(duì)其限制，盡管參照上述實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)的說(shuō)明，所屬領(lǐng)域的普通技術(shù)人員依然可以對(duì)本發(fā)明的具體實(shí)施方式進(jìn)行修改或者等同替換，這些未脫離本發(fā)明精神和范圍的任何修改或者等同替換，均在申請(qǐng)待批的本發(fā)明的權(quán)利要求保護(hù)范圍之內(nèi)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：蘇翀;
技術(shù)所有人：蘇翀;
我是此專利的發(fā)明人

上一篇：片狀物料供料裝置和具有片狀物料供料裝置的手壓機(jī)的制作方法
上一篇：一種瀝青改性劑的制作方法與工藝

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

決策樹(shù)剪枝方法相關(guān)技術(shù)

決策樹(shù)方法相關(guān)技術(shù)

決策樹(shù)分類方法相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于Hellinger距離的懶惰決策樹(shù)方法與流程