本發(fā)明涉及一種決策樹(shù)方法,具體涉及一種基于Hellinger距離的懶惰決策樹(shù)方法。
背景技術(shù):
分類算法從學(xué)習(xí)策略上可以分為迫切學(xué)習(xí)和懶惰學(xué)習(xí)。迫切學(xué)習(xí)是利用訓(xùn)練數(shù)據(jù)集在訓(xùn)練階段建立分類模型,在測(cè)試階段利用訓(xùn)練階段已建立的分類模型將待分類樣本分到其預(yù)測(cè)類標(biāo)。也就是說(shuō),迫切學(xué)習(xí)有訓(xùn)練分類模型和分類待測(cè)樣本兩個(gè)階段。而懶惰學(xué)習(xí)事先不需要利用訓(xùn)練數(shù)據(jù)集建立分類模型,其對(duì)待測(cè)樣本分類過(guò)程就是利用訓(xùn)練數(shù)據(jù)集將待測(cè)樣本與其類標(biāo)匹配起來(lái)的過(guò)程,整個(gè)學(xué)習(xí)和分類的過(guò)程是同時(shí)進(jìn)行的。就時(shí)間效率而言,懶惰學(xué)習(xí)由于事先不需要利用訓(xùn)練數(shù)據(jù)集建立分類模型,因此其分類過(guò)程較迫切學(xué)習(xí)長(zhǎng)且占用的資源開(kāi)銷較大,被認(rèn)為適用于數(shù)據(jù)規(guī)模較小的情況下。但是,懶惰學(xué)習(xí)考慮了每個(gè)待測(cè)樣本的屬性,并在分類過(guò)程中為每個(gè)待測(cè)樣本建立特定的分類模型。因此,其分類準(zhǔn)確率要高于迫切學(xué)習(xí)。雖然K近鄰作為懶惰學(xué)習(xí)的代表得到了廣泛的應(yīng)用,但其不能給出一個(gè)可理解的模型,從而限制了K近鄰的應(yīng)用范圍。決策樹(shù)算法作為迫切學(xué)習(xí)的代表,以其簡(jiǎn)單、有效和便于理解等特點(diǎn)成為普遍使用的分類算法之一。在訓(xùn)練階段,它根據(jù)訓(xùn)練數(shù)據(jù)集采用自頂向下分而治之的策略建立一棵整體上最優(yōu)的樹(shù),在測(cè)試階段,這棵樹(shù)將被用于預(yù)測(cè)待分類樣本的類標(biāo)。在決策樹(shù)算法中,ID3和C4.5是最經(jīng)典的。ID3選擇信息增益值最大的屬性作為分裂屬性構(gòu)建決策樹(shù)。但信息增益傾向于選擇含有不同值個(gè)數(shù)較多的屬性作為分裂屬性,這會(huì)造成所選擇的屬性無(wú)實(shí)際意義,例如ID字段。而C4.5正是從這方面入手,選擇信息增益率最大的屬性作為分裂屬性構(gòu)建決策樹(shù),從而避免了上述情況的發(fā)生。但普通的決策樹(shù)算法是根據(jù)訓(xùn)練數(shù)據(jù)集采用自頂向下分而治之的策略建立一棵整體上最優(yōu)的樹(shù),這在一定程度上存在以下問(wèn)題。(1)子樹(shù)重復(fù)問(wèn)題,即同一棵子樹(shù)出現(xiàn)在不同的分支下。一般來(lái)說(shuō),當(dāng)規(guī)則前件存在析取概念時(shí)往往會(huì)導(dǎo)致子樹(shù)重復(fù)問(wèn)題。當(dāng)子樹(shù)重復(fù)問(wèn)題產(chǎn)生時(shí),往往會(huì)導(dǎo)致決策樹(shù)過(guò)于復(fù)雜,加重了數(shù)據(jù)分割問(wèn)題。(2)數(shù)據(jù)分割問(wèn)題,即樹(shù)的子節(jié)點(diǎn)僅覆蓋較少的樣本。這一問(wèn)題會(huì)影響在當(dāng)前節(jié)點(diǎn)選擇分裂屬性,從而產(chǎn)生一條準(zhǔn)確度較低的決策路徑。(3)普通的決策樹(shù)在構(gòu)建過(guò)程中,依據(jù)整個(gè)數(shù)據(jù)集的平均增益選擇屬性,所選的屬性不一定有利于對(duì)測(cè)試樣本的分類,從一定程度上也加劇了數(shù)據(jù)分割問(wèn)題。為了克服上述問(wèn)題,有效地將普通決策樹(shù)可理解性高的特點(diǎn)和懶惰學(xué)習(xí)準(zhǔn)確度高的優(yōu)勢(shì)結(jié)合起來(lái),懶惰的決策樹(shù)(Lazy Decision Tree,LazyDT)便應(yīng)運(yùn)而生。該算法根據(jù)測(cè)試樣本的屬性值構(gòu)建一條最優(yōu)的決策樹(shù)路徑,最后根據(jù)葉子節(jié)點(diǎn)所包含樣本的類別給出分類結(jié)果。與普通的決策樹(shù)相比,懶惰的決策樹(shù)只針對(duì)單獨(dú)的測(cè)試樣本,因此生成的決策路徑要短于普通的決策樹(shù),可理解性要高于普通的決策樹(shù)。由于懶惰的決策樹(shù)考慮了測(cè)試樣本的屬性值,從而避免了數(shù)據(jù)分割問(wèn)題的產(chǎn)生。因此,懶惰的決策樹(shù)在性能上要優(yōu)于普通的決策樹(shù)。然而,懶惰的決策樹(shù)在利用測(cè)試樣本屬性值對(duì)訓(xùn)練集數(shù)據(jù)進(jìn)行過(guò)慮時(shí),可能會(huì)出現(xiàn)過(guò)濾后的訓(xùn)練集數(shù)據(jù)為空即訓(xùn)練集中在給定的屬性上沒(méi)有樣本與測(cè)試樣本具有相同的屬性值。這會(huì)導(dǎo)致懶惰的決策樹(shù)過(guò)早的停止分裂并回溯。這會(huì)不利于對(duì)非均衡問(wèn)題中的少數(shù)類樣本進(jìn)行分類。此外,懶惰的決策樹(shù)采用了信息增益的方法選擇分裂屬性,而信息增益對(duì)非均衡類分布敏感,這也會(huì)進(jìn)一步降低懶惰的決策樹(shù)應(yīng)對(duì)非均衡問(wèn)題的能力。
技術(shù)實(shí)現(xiàn)要素:
為解決上述現(xiàn)有技術(shù)中的不足,本發(fā)明的目的是提供一種基于Hellinger距離的懶惰決策樹(shù)方法(Hellinger Distance Based Lazy Decision Tree,HLazyDT),該方法既考慮了整個(gè)分裂屬區(qū)分不同類別樣本的能力,又考慮了測(cè)試樣本的分裂屬性值區(qū)分不同類別樣本的能力,以避免懶惰的決策樹(shù)過(guò)早的停止分裂并回溯。
本發(fā)明的目的是采用下述技術(shù)方案實(shí)現(xiàn)的:
本發(fā)明提供一種基于Hellinger距離的懶惰決策樹(shù)方法,其改進(jìn)之處在于,所述方法包括下述步驟:
A、判斷訓(xùn)練數(shù)據(jù)集中的樣本的所屬類別,若屬于同一類,則賦予待測(cè)樣本該類別;否則,判斷訓(xùn)練數(shù)據(jù)集中的樣本是否具有相同的屬性值,若具有相同的屬性值,則將在訓(xùn)練數(shù)據(jù)集中占最大比例的類別作為待測(cè)樣本的類別;
B、若上述兩種情況均不滿足,則采用對(duì)非均衡類分布不敏感的度量指標(biāo)Hellinger距離作為選擇分裂屬性的度量指標(biāo),選擇使得該指標(biāo)最大化的屬性作為分裂屬性;將訓(xùn)練數(shù)據(jù)集中分裂屬性值等于待測(cè)樣本分裂屬性值的樣本子集作為下一次選擇分裂屬性的訓(xùn)練數(shù)據(jù)集,并從屬性集中移除分裂屬性;
C、重復(fù)上述兩個(gè)步驟,直到滿足第一步中的兩個(gè)情況或者訓(xùn)練數(shù)據(jù)集中分裂屬性值等于待測(cè)樣本分裂屬性值的樣本子集為空時(shí),算法終止;最終形成一條為待測(cè)樣本分類的決策路徑。
進(jìn)一步地,所述步驟A中,待測(cè)樣本的類別與懶惰決策樹(shù)的處理能力相關(guān),所述懶惰決策樹(shù)的處理能力包括:
1)對(duì)缺失值進(jìn)行處理;
2)對(duì)所選屬性的最大Hellinger距離為零的處理;
3)對(duì)訓(xùn)練數(shù)據(jù)集中分裂屬性值等于待測(cè)樣本分裂屬性值的樣本子集為空的處理。
進(jìn)一步地,所述1)包括:①待測(cè)樣本的分裂屬性對(duì)應(yīng)值缺失時(shí),則同時(shí)刪除訓(xùn)練數(shù)據(jù)集和待測(cè)樣本的當(dāng)前分裂屬性,再重新選擇分裂屬性;②當(dāng)訓(xùn)練數(shù)據(jù)集的分裂屬性含有缺失值時(shí),則將待測(cè)樣本分裂屬性的對(duì)應(yīng)值賦給訓(xùn)練數(shù)據(jù)集中缺失分裂屬性值的樣本;
所述2)包括:當(dāng)所選屬性的最大Hellinger距離為零時(shí),選擇在訓(xùn)練數(shù)據(jù)集中占最大比例的類別作為待測(cè)樣本的類別;
所述3)包括:當(dāng)出現(xiàn)該種情況時(shí),進(jìn)行回溯操作,將上一層節(jié)點(diǎn)對(duì)應(yīng)的訓(xùn)練數(shù)據(jù)集中占最大比例的類別作為待測(cè)樣本的類別。
進(jìn)一步地,所述步驟B中,采用對(duì)非均衡類分布不敏感的度量指標(biāo)作為選擇分裂屬性的度量指標(biāo)即Hellinger距離;
在選擇分裂屬性時(shí),進(jìn)一步考慮待測(cè)樣本在該屬性上的取值區(qū)分不同類別樣本的能力,若待測(cè)樣本在該屬性上的取值未在當(dāng)前訓(xùn)練數(shù)據(jù)集中出現(xiàn),則表明使用當(dāng)前屬性對(duì)待測(cè)樣本進(jìn)行分類無(wú)實(shí)際意義。
進(jìn)一步地,所述Hellinger距離的計(jì)算如下:
假定在屬性X上,待測(cè)樣本取值為v,則屬性X區(qū)分多數(shù)類與少數(shù)類樣本能力由式(1)計(jì)算,分別對(duì)應(yīng)于屬性X的Hellinger距離;待測(cè)樣本值v區(qū)分多數(shù)類與少數(shù)類樣本能力由式(2)計(jì)算,分別對(duì)應(yīng)于待測(cè)樣本值v的Hellinger距離:
其中,|X+|和|X-|分別表示數(shù)據(jù)集中少數(shù)類樣本和多數(shù)類樣本的個(gè)數(shù);|X+j|和|X-j|分別表示屬性X的值為j且分別屬于少數(shù)類和多數(shù)類的樣本個(gè)數(shù);p表示屬性X具有不同值的個(gè)數(shù);|X+v|、|X-v|分別表示屬性X的值為v且分別屬于少數(shù)類和多數(shù)類的樣本個(gè)數(shù);j表示樣本取值;DH(X+,X-)表示屬性X的Hellinger距離;WH-v表示待測(cè)樣本在屬性X上取值為v時(shí)對(duì)應(yīng)的Hellinger距離。
進(jìn)一步地,通過(guò)上述表述,結(jié)合對(duì)非均衡類分布不敏感的度量指標(biāo),基于Hellinger距離的懶惰決策樹(shù)的分裂屬性度量指標(biāo)計(jì)算如式(3)所示:
其中:SplitH表示基于Hellinger距離的懶惰決策樹(shù)的分裂屬性度量指標(biāo)值;從式(3)看出,通過(guò)計(jì)算待測(cè)樣本在屬性X上取值v的區(qū)分能力與屬性X的區(qū)分能力兩者的幾何平均保證選擇到最優(yōu)分裂屬性;當(dāng)待測(cè)樣本在屬性X的取值v在訓(xùn)練數(shù)據(jù)集中未出現(xiàn)時(shí),則式(2),(3)均為零;表明待測(cè)樣本在屬性X上的值v區(qū)分多數(shù)類與少數(shù)類樣本能力為零,即用屬性X對(duì)待測(cè)樣本進(jìn)行分類無(wú)實(shí)際意義,即使屬性X區(qū)分多數(shù)類與少數(shù)類樣本能力最大;反之,如果式(2)越大,則表明待測(cè)樣本在屬性X上取值v區(qū)分多數(shù)類與少數(shù)類樣本能力也越大。
進(jìn)一步地,所述基于Hellinger距離的懶惰決策樹(shù)HLazyDT描述如下:
其輸入量為:待測(cè)樣本I,訓(xùn)練集T,屬性集F;
<1>:創(chuàng)建根結(jié)點(diǎn)N;
<2>:IF訓(xùn)練集T中樣本均屬于同一個(gè)類別i;THEN返回根結(jié)點(diǎn)N為葉子結(jié)點(diǎn)并標(biāo)記待測(cè)樣本I為類別i;
<3>:IF訓(xùn)練集T中樣本具有相同的屬性值;THEN返回根結(jié)點(diǎn)N為葉子結(jié)點(diǎn)并標(biāo)記待測(cè)樣本I為訓(xùn)練集T中最頻繁類別;
<4>:FOR屬性集F中每個(gè)屬性f DO;
<5>:獲取待測(cè)樣本I在屬性f上的值v;
<6>:根據(jù)公式(1),(2)和(3)計(jì)算屬性f的Hellinger距離值Df;
<7>:END FOR;
<8>:用b=MAX(Df),選擇距離值最大的屬性b;
<9>:根據(jù)待測(cè)樣本I在屬性b上的值v,從訓(xùn)練集T中選擇屬性b的值等于v的樣本構(gòu)成新的訓(xùn)練集T*;
<10>:從屬性集F中移除屬性b,形成新的屬性集F*;
<11>:基于Hellinger距離的懶惰決策樹(shù)HLazyDT(I,T*,F(xiàn)*)形成遞歸調(diào)用。
為了對(duì)披露的實(shí)施例的一些方面有一個(gè)基本的理解,下面給出了簡(jiǎn)單的概括。該概括部分不是泛泛評(píng)述,也不是要確定關(guān)鍵/重要組成元素或描繪這些實(shí)施例的保護(hù)范圍。其唯一目的是用簡(jiǎn)單的形式呈現(xiàn)一些概念,以此作為后面的詳細(xì)說(shuō)明的序言。
與最接近的現(xiàn)有技術(shù)相比,本發(fā)明提供的技術(shù)方案具有的優(yōu)異效果是:
本發(fā)明提供的方法基于Hellinger距離的懶惰決策樹(shù),既考慮了整個(gè)分裂屬區(qū)分不同類別樣本的能力,又考慮了測(cè)試樣本的分裂屬性值區(qū)分不同類別樣本的能力,以避免懶惰的決策樹(shù)過(guò)早的停止分裂并回溯。
為了上述以及相關(guān)的目的,一個(gè)或多個(gè)實(shí)施例包括后面將詳細(xì)說(shuō)明并在權(quán)利要求中特別指出的特征。下面的說(shuō)明以及附圖詳細(xì)說(shuō)明某些示例性方面,并且其指示的僅僅是各個(gè)實(shí)施例的原則可以利用的各種方式中的一些方式。其它的益處和新穎性特征將隨著下面的詳細(xì)說(shuō)明結(jié)合附圖考慮而變得明顯,所公開(kāi)的實(shí)施例是要包括所有這些方面以及它們的等同。
附圖說(shuō)明
圖1是本發(fā)明提供的基于Hellinger距離的懶惰決策樹(shù)方法的語(yǔ)言描述流程圖;
圖2是本發(fā)明提供的參與實(shí)驗(yàn)的算法在各類數(shù)據(jù)集上AUC結(jié)果的比較的示意圖。
具體實(shí)施方式
下面結(jié)合附圖對(duì)本發(fā)明的具體實(shí)施方式作進(jìn)一步的詳細(xì)說(shuō)明。
以下描述和附圖充分地顯示出本發(fā)明的具體實(shí)施方案,以使本領(lǐng)域的技術(shù)人員能夠?qū)嵺`它們。其他實(shí)施方案可以包括結(jié)構(gòu)的、邏輯的、電氣的、過(guò)程的以及其他的改變。實(shí)施例僅代表可能的變化。除非明確要求,否則單獨(dú)的組件和功能是可選的,并且操作的順序可以變化。一些實(shí)施方案的部分和特征可以被包括在或替換其他實(shí)施方案的部分和特征。本發(fā)明的實(shí)施方案的范圍包括權(quán)利要求書(shū)的整個(gè)范圍,以及權(quán)利要求書(shū)的所有可獲得的等同物。在本文中,本發(fā)明的這些實(shí)施方案可以被單獨(dú)地或總地用術(shù)語(yǔ)“發(fā)明”來(lái)表示,這僅僅是為了方便,并且如果事實(shí)上公開(kāi)了超過(guò)一個(gè)的發(fā)明,不是要自動(dòng)地限制該應(yīng)用的范圍為任何單個(gè)發(fā)明或發(fā)明構(gòu)思。
基于Hellinger距離的懶惰的決策樹(shù)與其他的懶惰式學(xué)習(xí)算法類似,不存在根據(jù)訓(xùn)練數(shù)據(jù)集建立分類模型的過(guò)程。整個(gè)算法都是在獲得待測(cè)樣本后才開(kāi)始工作。在對(duì)待測(cè)樣本進(jìn)行分類時(shí),需要為待測(cè)樣本建立一個(gè)最優(yōu)決策樹(shù),實(shí)際上是為待測(cè)樣本建立一條最優(yōu)決策路徑,而忽略決策樹(shù)的其他分支。本發(fā)明提供的基于Hellinger距離的懶惰決策樹(shù)方法框架,如表1所示,算法具體描述如下:
(1)判斷訓(xùn)練數(shù)據(jù)集中的樣本的所屬類別,若屬于同一類,則賦予待測(cè)樣本該類別;否則,判斷訓(xùn)練數(shù)據(jù)集中的樣本是否具有相同的屬性值,若具有相同的屬性值,則將在訓(xùn)練數(shù)據(jù)集中占最大比例的類別作為待測(cè)樣本的類別。
(2)若上述兩種情況均不滿足,采用對(duì)非均衡類分布不敏感的度量指標(biāo)Hellinger距離作為選擇分裂屬性的度量指標(biāo),選擇使得該指標(biāo)最大化的屬性作為分裂屬性。將訓(xùn)練數(shù)據(jù)集中分裂屬性值等于待測(cè)樣本分裂屬性值的樣本子集作為下一次選擇分裂屬性的訓(xùn)練數(shù)據(jù)集,并從屬性集中移除分裂屬性。
(3)重復(fù)上述幾步,直到滿足第一步中的兩個(gè)情況或者訓(xùn)練數(shù)據(jù)集中分裂屬性值等于待測(cè)樣本分裂屬性值的樣本子集為空時(shí),算法終止。這時(shí),便會(huì)形成一條為待測(cè)樣本分類的決策路徑。
為了有效應(yīng)對(duì)特殊情況,基于Hellinger距離的懶惰決策樹(shù)還具備以下處理能力。
(1)對(duì)缺失值的處理。第一種情況是待測(cè)樣本的分裂屬性對(duì)應(yīng)值缺失時(shí),則同時(shí)刪除訓(xùn)練數(shù)據(jù)集和待測(cè)樣本的當(dāng)前分裂屬性,再重新選擇分裂屬性。另一種情況是當(dāng)訓(xùn)練數(shù)據(jù)集的分裂屬性含有缺失值時(shí),則將待測(cè)樣本分裂屬性的對(duì)應(yīng)值賦給訓(xùn)練數(shù)據(jù)集中這部分缺失分裂屬性值的樣本。
(2)對(duì)所選屬性的最大Hellinger距離為零的處理。當(dāng)所選屬性的最大Hellinger距離為零時(shí),選擇在訓(xùn)練數(shù)據(jù)集中占最大比例的類別作為待測(cè)樣本的類別。
(3)對(duì)訓(xùn)練數(shù)據(jù)集中分裂屬性值等于待測(cè)樣本分裂屬性值的樣本子集為空的處理。當(dāng)出現(xiàn)該種情況時(shí),進(jìn)行回溯操作,將上一層節(jié)點(diǎn)對(duì)應(yīng)的訓(xùn)練數(shù)據(jù)集中占最大比例的類別作為待測(cè)樣本的類別。
當(dāng)采用Hellinger距離作為為選擇分裂屬性的度量指標(biāo)時(shí),具體計(jì)算如下:
假定在屬性X上,待測(cè)樣本取值為v,則屬性X區(qū)分多數(shù)類與少數(shù)類樣本能力可由式(1)計(jì)算,分別對(duì)應(yīng)于屬性X的Hellinger距離;而值v區(qū)分多數(shù)類與少數(shù)類樣本能力可由式(2)計(jì)算,分別對(duì)應(yīng)于值v的Hellinger距離。
其中,|X+|和|X-|分別表示數(shù)據(jù)集中少數(shù)類樣本和多數(shù)類樣本的個(gè)數(shù);|X+j|和|X-j|表示屬性X的值為j且分別屬于少數(shù)類和多數(shù)類的樣本個(gè)數(shù);p表示屬性X具有不同值的個(gè)數(shù);|X+v|、|X-v|分別表示屬性X的值為v且分別屬于少數(shù)類和多數(shù)類的樣本個(gè)數(shù);j表示樣本取值。DH(X+,X-)表示屬性X的Hellinger距離;WH-v表示待測(cè)樣本在屬性X上取值為v時(shí)對(duì)應(yīng)的Hellinger距離。
通過(guò)上述表述,結(jié)合對(duì)非均衡類分布不敏感的度量指標(biāo),基于Hellinger距離的懶惰決策樹(shù)的分裂屬性度量指標(biāo)分別計(jì)算如式(3)所示。
從式(3)可以看出,通過(guò)計(jì)算待測(cè)樣本在屬性X上取值v的區(qū)分能力與屬性X的區(qū)分能力兩者的幾何平均保證選擇到最優(yōu)分裂屬性。特別地,當(dāng)待測(cè)樣本在屬性X的取值v在訓(xùn)練數(shù)據(jù)集中未出現(xiàn)時(shí),那么式(2),(3)均為零。這表明待測(cè)樣本在屬性X上的值v區(qū)分多數(shù)類與少數(shù)類樣本能力為零,也即用屬性X對(duì)待測(cè)樣本進(jìn)行分類無(wú)實(shí)際意義,即使屬性X區(qū)分多數(shù)類與少數(shù)類樣本能力最大;反之,如果式(2)越大,則表明待測(cè)樣本在屬性X上取值v區(qū)分多數(shù)類與少數(shù)類樣本能力也越大。由此可見(jiàn),式(3)首先采用了對(duì)非均衡類分布不敏感的度量標(biāo)準(zhǔn)用于克服原有算法中使用信息熵的不足;其次,通過(guò)計(jì)算待測(cè)樣本在屬性X上取值v的區(qū)分能力與屬性X的區(qū)分能力兩者的幾何平均用于防止在利用測(cè)試樣本屬性值對(duì)訓(xùn)練集數(shù)據(jù)進(jìn)行過(guò)慮時(shí),可能會(huì)出現(xiàn)過(guò)濾后的訓(xùn)練集數(shù)據(jù)為空的情況,有效地避免了懶惰的決策樹(shù)過(guò)早的停止分裂和回溯。整個(gè)算法框架如下表1所示。
表1基于Hellinger距離的懶惰決策樹(shù)
實(shí)施例
在整個(gè)實(shí)驗(yàn)框架中,首先給出了參與實(shí)驗(yàn)的算法;其次,給出了實(shí)驗(yàn)所使用的數(shù)據(jù)集、介紹了實(shí)驗(yàn)所使用的統(tǒng)計(jì)方法;再次,通過(guò)圖表的方式給出了實(shí)驗(yàn)結(jié)果及相關(guān)分析;最后,得出了相關(guān)結(jié)論。具體實(shí)驗(yàn)框架如圖1所示。
一、參與實(shí)驗(yàn)的算法及相關(guān)參數(shù)設(shè)置:
為了有效地評(píng)估所提出的基于Hellinger距離懶惰決策樹(shù)算法的性能,實(shí)驗(yàn)中分別選擇了具有參考意義的C4.5算法和傳統(tǒng)的懶惰決策樹(shù)算法。從選擇的算法來(lái)看,C4.5是決策樹(shù)算法中最為通用的算法,在各類實(shí)驗(yàn)中常被用作基準(zhǔn)算法,同時(shí)C4.5也可作為迫切學(xué)習(xí)類型決策樹(shù)的代表。另一方面,新的懶惰決策樹(shù)算法是在傳統(tǒng)的懶惰決策樹(shù)算法基礎(chǔ)上改進(jìn)而來(lái),因此有必要比較兩者之間在不同數(shù)據(jù)集上的分類性能差異。具體參與實(shí)驗(yàn)的算法及字母縮寫(xiě)如表2所示。本節(jié)之后參與本實(shí)驗(yàn)的算法名稱描述均采用表2中的縮寫(xiě)其中,帶有底紋的算法即所提出的算法。
表2參與實(shí)驗(yàn)的算法及字母縮寫(xiě)
二、實(shí)驗(yàn)數(shù)據(jù)集
實(shí)驗(yàn)分別選擇了40個(gè)高度非均衡數(shù)據(jù)集和22個(gè)低度非均衡數(shù)據(jù)集,這些數(shù)據(jù)集來(lái)源于KEEL數(shù)據(jù)集庫(kù)。雖然沒(méi)有相關(guān)文獻(xiàn)給出高度非均衡數(shù)據(jù)集的具體定義,但這里僅將數(shù)據(jù)集中多數(shù)類樣本數(shù)量與少數(shù)類樣本數(shù)量的比值即非均衡比率(Imbalanced Ration,IR)大于9的數(shù)據(jù)集視為高度非均衡數(shù)據(jù)集,反之為低度非均衡數(shù)據(jù)集。之所以這樣考慮,是因?yàn)榉诸愃惴ㄈ绻雎匀康纳贁?shù)類樣本,仍能獲得90%以上分類準(zhǔn)確率。非均衡比率(IR)越大,則表示數(shù)據(jù)集中類分布的傾斜程度也越高。實(shí)驗(yàn)所用數(shù)據(jù)集的特征描述分別如表3和4所示。在這兩張表中,標(biāo)題欄Exam、Min、Feat、Cont、Disc和IR分別代表數(shù)據(jù)集中的樣本數(shù)量、少數(shù)類樣本數(shù)量、特征數(shù)量、連續(xù)型特征的數(shù)量、離散型特征的數(shù)量和非均衡比率。所有的實(shí)驗(yàn)數(shù)據(jù)集都是兩分類問(wèn)題且不含缺失值。實(shí)驗(yàn)中采用5×2折交叉驗(yàn)證。另一方面,由于懶惰的決策樹(shù)算法只能處理離散數(shù)據(jù)類型,因此,實(shí)驗(yàn)中需要事先對(duì)數(shù)據(jù)集中的連續(xù)屬性進(jìn)行離散化處理。
表3參與實(shí)驗(yàn)的低度非均衡數(shù)據(jù)集(I R<9)
表4參與實(shí)驗(yàn)的高度非均衡數(shù)據(jù)集(I R≥9)
三、評(píng)價(jià)指標(biāo)
實(shí)驗(yàn)采用受試者工作特征曲線下面積(AUC)度量C4.5、LazyDT和HLazyDT三種決策樹(shù)算法的分類性能。所謂受試者工作特征曲線(receiver operating characteristic curve,簡(jiǎn)稱ROC曲線)是以真正率(靈敏度)為縱坐標(biāo),假正率(特異度)為橫坐標(biāo)繪制的曲線。ROC曲線可以反映出收益(真正率)和代價(jià)(假正率)之間的平衡關(guān)系。在ROC空間,對(duì)角線代表一個(gè)隨機(jī)分類器,點(diǎn)(0,1)表示一個(gè)理想的最佳分類器。空間中的每個(gè)點(diǎn)表示一個(gè)使用某個(gè)決策閥值的分類器的性能,通過(guò)改變不同的決策閥值就可以得到一個(gè)關(guān)于某個(gè)分類器的ROC曲線。然而,僅憑借ROC曲線并不容易比較出分類算法的性能,除非曲線上的每個(gè)點(diǎn)都位于另一條曲線之上。因此,通常使用曲線下面積(the Area under the ROC Curve,AUC)作為度量指標(biāo)。
四、統(tǒng)計(jì)方法
為了有效地分析實(shí)驗(yàn)結(jié)果,實(shí)驗(yàn)使用了非參數(shù)檢驗(yàn)對(duì)C4.5、LazyDT和HLazyDT三種決策樹(shù)算法的分類性能做出統(tǒng)計(jì)分析。相比較而言,參數(shù)檢驗(yàn)的可靠性往往要建立在滿足參數(shù)條件的基礎(chǔ)上。而非參數(shù)檢驗(yàn)弱化了參數(shù)檢驗(yàn)的相關(guān)條件,因此其可靠性更高。實(shí)驗(yàn)過(guò)程中,采用了1×n比較模式可調(diào)P值的Holm過(guò)程比較參與實(shí)驗(yàn)的各個(gè)分類算法的性能差異。具體過(guò)程如下。
(1)利用基于排名的Friedman過(guò)程獲得不同分類算法在所有數(shù)據(jù)集上的平均排名。在計(jì)算排名的過(guò)程中,如果分類算法的分類性能相同,則取這些分類算法排名的均值作為各個(gè)分類算法的排名。
(2)選擇具有最小平均排名的分類算法作為基分類器,其余的分類算法根據(jù)其平均排名按升序排序。
(3)根據(jù)平均排名構(gòu)造統(tǒng)計(jì)量。構(gòu)造公式由式(4)所示。
式(4)中,Ri和Rb分別表示第i個(gè)分類器和基分類器的平均排名,K表示參與比較的分類算法個(gè)數(shù),N表示實(shí)驗(yàn)數(shù)據(jù)集的個(gè)數(shù)。在給定的顯著水平α下,通過(guò)Z值在正態(tài)分布表中查找到相應(yīng)的概率值,繼而可得P值。第i個(gè)分類器的可調(diào)P值(ith adjusted P-value,APVi)定義如式(5)所示。
APVi=min{v;1},v=max{(k-j)Pj,1≤j≤i} (5)
如果APVi﹤α,則拒絕零假設(shè)即第i個(gè)分類器與基分類器在排名上有統(tǒng)計(jì)差異。如果APVi﹥?chǔ)?,則從第i個(gè)分類器開(kāi)始至最后一個(gè)分類器接受零假設(shè)即這些分類器與基分類器在排名上無(wú)統(tǒng)計(jì)差異。
五、實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)結(jié)果分為兩個(gè)部分闡述,第一個(gè)部分闡述了每個(gè)分類算法在低度非均衡數(shù)據(jù)集上的AUC具體數(shù)值和排名結(jié)果;第二部分闡述了每個(gè)分類算法在高度非均衡數(shù)據(jù)集上的AUC具體數(shù)值和排名結(jié)果。整個(gè)實(shí)驗(yàn)在置信度為95%的水平下分別比較了C4.5、LazyDT和HLazyDT的AUC值及相應(yīng)排名。針對(duì)每個(gè)數(shù)據(jù)集,都給出了分類算法的相應(yīng)AUC值及排名,其中排名對(duì)應(yīng)于每個(gè)AUC數(shù)值后面的圓括號(hào)中。符號(hào)“√”表示該符號(hào)所對(duì)應(yīng)的分類算法與基分類算法(排名最好的算法)之間在平均排名上有統(tǒng)計(jì)差異。
(1)在低度非均衡數(shù)據(jù)集上的AUC結(jié)果比較及分析。
三種決策樹(shù)算法在低度非均衡數(shù)據(jù)集上的具體AUC結(jié)果如表5所示。雖然LazyDT算法獲得了最好的分類性能和平均排名,但在置信度為95%水平下,三種決策樹(shù)算法在平均排名上無(wú)統(tǒng)計(jì)差異。
(2)在高度非均衡數(shù)據(jù)集上的AUC結(jié)果比較及分析。
表6給出了三種決策樹(shù)算法在高度非均衡數(shù)據(jù)集上的具體AUC結(jié)果。如表6所示,HLazyDT算法獲得了最好的分類性能和平均排名。在置信度為95%水平下,HLazyDT與C4.5、LazyDT在平均排名上有統(tǒng)計(jì)差異。
此外,從圖2中也可以看出,三種決策樹(shù)分類算法在高度非均衡數(shù)據(jù)集上的分類性能較在低度非均衡數(shù)據(jù)集上均有所下降,即非均衡比率對(duì)決策樹(shù)分類算法產(chǎn)生了影響。但從下降幅度來(lái)看,可以知道所提出的HLazyDT下降的幅度較小。這一點(diǎn)表明所提出算法是相對(duì)魯棒的。
表5低度非均衡數(shù)據(jù)集上的AUC結(jié)果及排名
表6高度非均衡數(shù)據(jù)集上的AUC結(jié)果及排名
六、總結(jié)
就所提出的算法而言,有以下兩個(gè)值得進(jìn)一步研究的工作方向。
(1)由于所提出的算法僅考慮兩分類問(wèn)題,如何修改所提出的算法使其適用于多分類非均衡問(wèn)題是下一步的工作方向。
(2)所提出的基于Helliinger距離的懶惰決策樹(shù)是建立在懶惰的決策樹(shù)算法基礎(chǔ)之上,而懶惰的決策樹(shù)算法僅能處理離散類型的屬性,如何修改所提出的算法使其支持對(duì)連續(xù)屬性的處理也是另一個(gè)工作方向。
應(yīng)該明白,公開(kāi)的過(guò)程中的步驟的特定順序或?qū)哟问鞘纠苑椒ǖ膶?shí)例?;谠O(shè)計(jì)偏好,應(yīng)該理解,過(guò)程中的步驟的特定順序或?qū)哟慰梢栽诓幻撾x本公開(kāi)的保護(hù)范圍的情況下得到重新安排。所附的方法權(quán)利要求以示例性的順序給出了各種步驟的要素,并且不是要限于所述的特定順序或?qū)哟巍?/p>
在上述的詳細(xì)描述中,各種特征一起組合在單個(gè)的實(shí)施方案中,以簡(jiǎn)化本公開(kāi)。不應(yīng)該將這種公開(kāi)方法解釋為反映了這樣的意圖,即,所要求保護(hù)的主題的實(shí)施方案需要清楚地在每個(gè)權(quán)利要求中所陳述的特征更多的特征。相反,如所附的權(quán)利要求書(shū)所反映的那樣,本發(fā)明處于比所公開(kāi)的單個(gè)實(shí)施方案的全部特征少的狀態(tài)。因此,所附的權(quán)利要求書(shū)特此清楚地被并入詳細(xì)描述中,其中每項(xiàng)權(quán)利要求獨(dú)自作為本發(fā)明單獨(dú)的優(yōu)選實(shí)施方案。
上文的描述包括一個(gè)或多個(gè)實(shí)施例的舉例。當(dāng)然,為了描述上述實(shí)施例而描述部件或方法的所有可能的結(jié)合是不可能的,但是本領(lǐng)域普通技術(shù)人員應(yīng)該認(rèn)識(shí)到,各個(gè)實(shí)施例可以做進(jìn)一步的組合和排列。因此,本文中描述的實(shí)施例旨在涵蓋落入所附權(quán)利要求書(shū)的保護(hù)范圍內(nèi)的所有這樣的改變、修改和變型。此外,就說(shuō)明書(shū)或權(quán)利要求書(shū)中使用的術(shù)語(yǔ)“包含”,該詞的涵蓋方式類似于術(shù)語(yǔ)“包括”,就如同“包括,”在權(quán)利要求中用作銜接詞所解釋的那樣。此外,使用在權(quán)利要求書(shū)的說(shuō)明書(shū)中的任何一個(gè)術(shù)語(yǔ)“或者”是要表示“非排它性的或者”。
最后應(yīng)當(dāng)說(shuō)明的是:以上實(shí)施例僅用以說(shuō)明本發(fā)明的技術(shù)方案而非對(duì)其限制,盡管參照上述實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)的說(shuō)明,所屬領(lǐng)域的普通技術(shù)人員依然可以對(duì)本發(fā)明的具體實(shí)施方式進(jìn)行修改或者等同替換,這些未脫離本發(fā)明精神和范圍的任何修改或者等同替換,均在申請(qǐng)待批的本發(fā)明的權(quán)利要求保護(hù)范圍之內(nèi)。