1.一種不確定離散數(shù)據(jù)的決策樹分類器構(gòu)建方法,該方法涉及機(jī)器學(xué)習(xí)、人工智能以及數(shù)據(jù)挖掘領(lǐng)域,其特征是,包括如下步驟:
步驟1.設(shè)不確定離散數(shù)據(jù)訓(xùn)練集中有X個樣本,屬性個數(shù)為n,即,同時分裂屬性對應(yīng)了m個類L,其中, , ,,其中屬性值含有不確定性
步驟2:把不確定性數(shù)據(jù)屬性的屬性值合并排序,根據(jù)類對不確定性數(shù)據(jù)屬性進(jìn)行屬性值運(yùn)算,記為概率和,對類進(jìn)行處理得每一分支屬性值的概率勢
步驟3:創(chuàng)建根節(jié)點(diǎn)G
步驟4:如果訓(xùn)練數(shù)據(jù)集為空,則返回節(jié)點(diǎn)G并標(biāo)記失敗
步驟5:如果訓(xùn)練數(shù)據(jù)集中所有記錄都屬于同一類別,則該類型標(biāo)記節(jié)點(diǎn)G
步驟6:如果候選屬性為空,則返回G為葉子結(jié)點(diǎn),標(biāo)記為訓(xùn)練數(shù)據(jù)集中最普通的類
步驟7:由于屬性值的不確定性,根據(jù)下面目標(biāo)函數(shù)從候選屬性中選擇
為不確性數(shù)據(jù)屬性值對應(yīng)類為的屬性值,為不確性數(shù)據(jù)屬性值對應(yīng)類的期望值
當(dāng)選擇屬性滿足目標(biāo)函數(shù)越大時,則找到標(biāo)記節(jié)G
步驟8:標(biāo)記節(jié)點(diǎn)G為屬性
步驟9:由節(jié)點(diǎn)延伸出滿足條件為分支以及
子分支,如果滿足以下兩條件之一,就停止建樹
9.1這里假設(shè)為訓(xùn)練數(shù)據(jù)集中的樣本集合,如果為空,加上一個葉子結(jié)點(diǎn),標(biāo)記為訓(xùn)練數(shù)據(jù)集中最普通的類
9.2此節(jié)點(diǎn)中所有例子屬于同一類
步驟10:非9.1與9.2中情況,則遞歸調(diào)用步驟7至步驟9
步驟11:保存已生成的不確定離散數(shù)據(jù)的決策樹分類器。
2.根據(jù)權(quán)利要求1中所述的一種不確定離散數(shù)據(jù)的決策樹分類器構(gòu)建方法,其特征是,所述步驟2中涉及概率和、概率勢,其具體運(yùn)算過程如下:
不確定性數(shù)據(jù)屬性,其取值為一個概率向量,記為
,且,所以之前那些確定的離散屬性可以看作為這一特殊情況,即屬性中屬性值,其他概率為0的情形
為屬性值根據(jù)類來取概率和,類L總共為m個
再者,訓(xùn)練集中類別在屬性值為的概率勢則為:
。
3.根據(jù)權(quán)利要求1中所述的一種不確定離散數(shù)據(jù)的決策樹分類器構(gòu)建方法,其特征是,所述步驟7中求解目標(biāo)函數(shù),需先求出和期望值,其具體求解過程如下:
在步驟2中已經(jīng)求出,則只需求解期望值,
期望值的具體求解步驟如下:
綜上所述,目標(biāo)函數(shù)即可求解出來。