本發(fā)明涉及機器學(xué)習(xí)、人工智能以及數(shù)據(jù)挖掘領(lǐng)域,具體涉及一種不確定數(shù)據(jù)的決策樹分類器構(gòu)建方法。
背景技術(shù):
決策樹是數(shù)據(jù)挖掘和機器學(xué)習(xí)中的一項重要和積極的研究課題。所提出的算法被廣泛地和成功地應(yīng)用于實際問題中,如ID3,CART和C4.5,決策樹這幾種經(jīng)典學(xué)習(xí)算法主要是研究準(zhǔn)確率的問題,生成的決策樹有更好的準(zhǔn)確率。近些年,信息技術(shù)的不斷進步使得不確定數(shù)據(jù)頻繁的出現(xiàn)在各個研究領(lǐng)域,如在市場分析、醫(yī)療診斷、傳感器網(wǎng)絡(luò)、移動對象跟蹤、環(huán)境監(jiān)視等現(xiàn)實場景中,不確定數(shù)據(jù)廣泛存在,并起著至關(guān)重要的作用。而傳統(tǒng)數(shù)據(jù)挖掘技術(shù)中往往忽略了數(shù)據(jù)中的不確定性,其研究模型與客觀世界不符。所以不確定數(shù)據(jù)挖掘技術(shù)對數(shù)據(jù)挖掘技術(shù)的實際應(yīng)用有著重要意義。如測量儀器受精度的影響,采集的數(shù)據(jù)往往包含一定的誤差,不是完全準(zhǔn)確的,為了提高不確定數(shù)據(jù)的分類準(zhǔn)確率,本發(fā)明提出一種不確定離散數(shù)據(jù)的決策樹分類器構(gòu)建方法。
技術(shù)實現(xiàn)要素:
針對于解決不確定數(shù)據(jù)分類的問題以及提高對其分類的準(zhǔn)確率問題,提出了一種不確定離散數(shù)據(jù)的決策樹分類器構(gòu)建方法。
為解決上述問題,本發(fā)明是通過以下技術(shù)方案實現(xiàn)的:
一種不確定離散數(shù)據(jù)的決策樹分類器構(gòu)建方法,包括如下步驟:
步驟1.設(shè)不確定離散數(shù)據(jù)訓(xùn)練集中有X個樣本,屬性個數(shù)為n,即n=(S1,S2,…Sn),同時分裂屬性Si對應(yīng)了m個類L,其中Lr∈(L1,L2…,Lm),i∈(1,2…,n),r∈(1,2…,m)。Si∈(S1,S2,…Sn),其中屬性值含有不確定性。
步驟2:把不確定性數(shù)據(jù)屬性Si的屬性值Sij合并排序,根據(jù)類對不確定性數(shù)據(jù)屬性Si進行屬性值Sij運算,記為概率和P(Sij),對類進行處理得每一分支屬性值的概率勢P(Sij,Lr)。
步驟3:創(chuàng)建根節(jié)點G。
步驟4:如果訓(xùn)練數(shù)據(jù)集為空,則返回節(jié)點G并標(biāo)記失敗。
步驟5:如果訓(xùn)練數(shù)據(jù)集中所有記錄都屬于同一類別,則該類型標(biāo)記節(jié)點G。
步驟6:如果候選屬性為空,則返回G為葉子結(jié)點,標(biāo)記為訓(xùn)練數(shù)據(jù)集中最普通的類。
步驟7:由于屬性值的不確定性,根據(jù)下面目標(biāo)函數(shù)f(Si)從候選屬性中選擇splitSi。
PL(Sij,Lr)為不確性數(shù)據(jù)屬性值Sij對應(yīng)類為Lr的屬性值,E(Sij,Lr)為不確性數(shù)據(jù)屬性值Sij對應(yīng)類Lr的期望值。
當(dāng)選擇屬性splitSi滿足目標(biāo)函數(shù)f(Si)越大時,則找到標(biāo)記節(jié)G。
步驟8:標(biāo)記節(jié)點G為屬性splitSi。
步驟9:由節(jié)點延伸出滿足條件為splitS=splitSi分支以及splitSi=splitSij子分支,如果滿足以下兩條件之一,就停止建樹。
9.1這里假設(shè)Yi為訓(xùn)練數(shù)據(jù)集中splitS=splitSi的樣本集合,如果Yi為空,加上一個葉子結(jié)點,標(biāo)記為訓(xùn)練數(shù)據(jù)集中最普通的類。
9.2此節(jié)點中所有例子屬于同一類。
步驟10:非9.1與9.2中情況,則遞歸調(diào)用步驟7至步驟9。
步驟11:保存已生成的不確定離散數(shù)據(jù)的決策樹分類器。
本發(fā)明有益效果是:
1,構(gòu)成的決策樹更好的規(guī)避了信息偏置為數(shù)量級大的問題。
2,可以實現(xiàn)對象為離散型不確定數(shù)據(jù)的歸類和預(yù)測功能。
3,此構(gòu)建的決策樹分類準(zhǔn)確度高。
4,此構(gòu)建的決策樹更適用于對實際數(shù)據(jù)挖掘問題的應(yīng)用。
附圖說明
圖1一種不確定離散數(shù)據(jù)的決策樹分類器構(gòu)建流程圖
具體實施方式
為解決不確定數(shù)據(jù)分類的問題以及提高對其分類的準(zhǔn)確率問題,結(jié)合圖1對本發(fā)明進行了詳細說明,其具體實施步驟如下:
步驟1.設(shè)訓(xùn)練集中有X個樣本,屬性個數(shù)為n,即n=(S1,S2,…Sn),同時分 裂屬性Si對應(yīng)了m個類L,其中Lr∈(L1,L2…,Lm),i∈(1,2…,n),r∈(1,2…,m)。Si∈(S1,S2,…Sn),其中屬性值含有不確定性。
步驟2:把不確定性數(shù)據(jù)屬性Si的屬性值Sij合并排序,根據(jù)類對不確定性數(shù)據(jù)屬性Si進行屬性值Sij運算,記為概率和P(Sij),對類進行處理得每一分支屬性值的概率勢P(Sij,Lr)。其具體運算過程如下:
不確定性數(shù)據(jù)屬性Si,其取值P(Sij)為一個概率向量,記為
P(Sij)∈(P(Si1),P(Si2),…,P(Sik)),且所以之前那些確定的離散屬性可以看作為這一特殊情況,即屬性Si中屬性值P(Sij)=1,其他概率為0的情形。
PL(Sij)為屬性值Sij根據(jù)類來取概率和,類L總共為m個。
再者,訓(xùn)練集中類別Lr在屬性值為Sij的概率勢則為:
步驟3:創(chuàng)建根節(jié)點G。
步驟4:如果訓(xùn)練數(shù)據(jù)集為空,則返回節(jié)點G并標(biāo)記失敗。
步驟5:如果訓(xùn)練數(shù)據(jù)集中所有記錄都屬于同一類別,則該類型標(biāo)記節(jié)點G。
步驟6:如果候選屬性為空,則返回G為葉子結(jié)點,標(biāo)記為訓(xùn)練數(shù)據(jù)集中最普通的類。
步驟7:由于屬性值的不確定性,根據(jù)下面目標(biāo)函數(shù)f(Si)從候選屬性中選擇splitSi。
目標(biāo)函數(shù)f(Si):
PL(Sij,Lr)為不確性數(shù)據(jù)屬性值Sij對應(yīng)類為Lr的屬性值,E(Sij,Lr)為不確性數(shù)據(jù)屬性值Sij對應(yīng)類Lr的期望值。
當(dāng)選擇屬性splitSi滿足目標(biāo)函數(shù)f(Si)越大時,則找到標(biāo)記節(jié)G。
1)求解上述步驟7的目標(biāo)函數(shù)f(Si),需先求出PL(Sij,Lr)和E(Sij,Lr)期望值。 PL(Sij,Lr)在步驟2中已經(jīng)求出,則只需求解期望值E(Sij,Lr)。
1.1)期望值E(Sij,Lr)的具體求解步驟如下:
綜上所述,目標(biāo)函數(shù)f(Si)即可求解出來。
步驟8:標(biāo)記節(jié)點G為屬性splitSi。
步驟9:由節(jié)點延伸出滿足條件為splitS=splitSi分支以及splitSi=splitSij子分支,如果滿足以下兩條件之一,就停止建樹。
9.1這里假設(shè)Yi為訓(xùn)練數(shù)據(jù)集中splitS=splitSi的樣本集合,如果Yi為空,加上一個葉子結(jié)點,標(biāo)記為訓(xùn)練數(shù)據(jù)集中最普通的類。
9.2此節(jié)點中所有例子屬于同一類。
步驟10:非9.1與9.2中情況,則遞歸調(diào)用步驟7至步驟9。
步驟11:保存已生成的不確定離散數(shù)據(jù)的決策樹分類器。
一種不確定離散數(shù)據(jù)的決策樹分類器構(gòu)建方法,其偽代碼計算過程如下:
輸入:不確定離散數(shù)據(jù)訓(xùn)練樣本集X
輸出:不確定離散數(shù)據(jù)的決策樹分類器 。