一種不確定離散數(shù)據(jù)的決策樹分類器構(gòu)建方法與流程

文檔序號：11063712閱讀：906來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及機器學(xué)習(xí)、人工智能以及數(shù)據(jù)挖掘領(lǐng)域，具體涉及一種不確定數(shù)據(jù)的決策樹分類器構(gòu)建方法。

背景技術(shù)：

決策樹是數(shù)據(jù)挖掘和機器學(xué)習(xí)中的一項重要和積極的研究課題。所提出的算法被廣泛地和成功地應(yīng)用于實際問題中，如ID₃，CART和C4.5，決策樹這幾種經(jīng)典學(xué)習(xí)算法主要是研究準(zhǔn)確率的問題，生成的決策樹有更好的準(zhǔn)確率。近些年，信息技術(shù)的不斷進步使得不確定數(shù)據(jù)頻繁的出現(xiàn)在各個研究領(lǐng)域，如在市場分析、醫(yī)療診斷、傳感器網(wǎng)絡(luò)、移動對象跟蹤、環(huán)境監(jiān)視等現(xiàn)實場景中，不確定數(shù)據(jù)廣泛存在，并起著至關(guān)重要的作用。而傳統(tǒng)數(shù)據(jù)挖掘技術(shù)中往往忽略了數(shù)據(jù)中的不確定性，其研究模型與客觀世界不符。所以不確定數(shù)據(jù)挖掘技術(shù)對數(shù)據(jù)挖掘技術(shù)的實際應(yīng)用有著重要意義。如測量儀器受精度的影響，采集的數(shù)據(jù)往往包含一定的誤差，不是完全準(zhǔn)確的，為了提高不確定數(shù)據(jù)的分類準(zhǔn)確率，本發(fā)明提出一種不確定離散數(shù)據(jù)的決策樹分類器構(gòu)建方法。

技術(shù)實現(xiàn)要素：

針對于解決不確定數(shù)據(jù)分類的問題以及提高對其分類的準(zhǔn)確率問題，提出了一種不確定離散數(shù)據(jù)的決策樹分類器構(gòu)建方法。

為解決上述問題，本發(fā)明是通過以下技術(shù)方案實現(xiàn)的：

一種不確定離散數(shù)據(jù)的決策樹分類器構(gòu)建方法，包括如下步驟：

步驟1.設(shè)不確定離散數(shù)據(jù)訓(xùn)練集中有X個樣本，屬性個數(shù)為n，即n＝（S₁，S₂，…S_n）,同時分裂屬性S_i對應(yīng)了m個類L，其中L_r∈（L₁，Ｌ₂…，L_m）,i∈（1，2…，n），r∈（1，2…，m)。S_i∈(S₁，S₂，…S_n)，其中屬性值含有不確定性。

步驟2：把不確定性數(shù)據(jù)屬性S_i的屬性值S_ij合并排序，根據(jù)類對不確定性數(shù)據(jù)屬性S_i進行屬性值S_ij運算，記為概率和P(S_ij),對類進行處理得每一分支屬性值的概率勢P(S_ij，L_r)。

步驟3：創(chuàng)建根節(jié)點G。

步驟4：如果訓(xùn)練數(shù)據(jù)集為空，則返回節(jié)點G并標(biāo)記失敗。

步驟5：如果訓(xùn)練數(shù)據(jù)集中所有記錄都屬于同一類別，則該類型標(biāo)記節(jié)點G。

步驟6：如果候選屬性為空，則返回G為葉子結(jié)點，標(biāo)記為訓(xùn)練數(shù)據(jù)集中最普通的類。

步驟7：由于屬性值的不確定性，根據(jù)下面目標(biāo)函數(shù)f(S_i)從候選屬性中選擇splitS_i。

PL(S_ij，L_r)為不確性數(shù)據(jù)屬性值S_ij對應(yīng)類為L_r的屬性值，E(S_ij，L_r)為不確性數(shù)據(jù)屬性值S_ij對應(yīng)類L_r的期望值。

當(dāng)選擇屬性splitS_i滿足目標(biāo)函數(shù)f(S_i)越大時，則找到標(biāo)記節(jié)G。

步驟8：標(biāo)記節(jié)點G為屬性splitS_i。

步驟9：由節(jié)點延伸出滿足條件為splitS＝splitS_i分支以及splitS_i＝splitS_ij子分支,如果滿足以下兩條件之一，就停止建樹。

9.1這里假設(shè)Y_i為訓(xùn)練數(shù)據(jù)集中splitS＝splitS_i的樣本集合，如果Y_i為空，加上一個葉子結(jié)點，標(biāo)記為訓(xùn)練數(shù)據(jù)集中最普通的類。

9.2此節(jié)點中所有例子屬于同一類。

步驟10：非9.1與9.2中情況，則遞歸調(diào)用步驟7至步驟9。

步驟11：保存已生成的不確定離散數(shù)據(jù)的決策樹分類器。

本發(fā)明有益效果是：

1，構(gòu)成的決策樹更好的規(guī)避了信息偏置為數(shù)量級大的問題。

2，可以實現(xiàn)對象為離散型不確定數(shù)據(jù)的歸類和預(yù)測功能。

3，此構(gòu)建的決策樹分類準(zhǔn)確度高。

4，此構(gòu)建的決策樹更適用于對實際數(shù)據(jù)挖掘問題的應(yīng)用。

附圖說明

圖1一種不確定離散數(shù)據(jù)的決策樹分類器構(gòu)建流程圖

具體實施方式

為解決不確定數(shù)據(jù)分類的問題以及提高對其分類的準(zhǔn)確率問題，結(jié)合圖1對本發(fā)明進行了詳細說明，其具體實施步驟如下：

步驟1.設(shè)訓(xùn)練集中有X個樣本，屬性個數(shù)為n，即n＝(S₁，S₂，…S_n),同時分裂屬性S_i對應(yīng)了m個類L，其中L_r∈(L₁，L₂…，L_m),i∈(1，2…，n)，r∈(1，2…，m)。S_i∈(S₁，S₂，…S_n)，其中屬性值含有不確定性。

步驟2：把不確定性數(shù)據(jù)屬性S_i的屬性值S_ij合并排序，根據(jù)類對不確定性數(shù)據(jù)屬性S_i進行屬性值S_ij運算，記為概率和P(S_ij),對類進行處理得每一分支屬性值的概率勢P(S_ij，L_r)。其具體運算過程如下：

不確定性數(shù)據(jù)屬性S_i，其取值P(S_ij)為一個概率向量，記為

P(S_ij)∈(P(S_i1)，P(S_i2)，…，P(S_ik))，且所以之前那些確定的離散屬性可以看作為這一特殊情況，即屬性S_i中屬性值P(S_ij)＝1，其他概率為0的情形。

PL(S_ij)為屬性值S_ij根據(jù)類來取概率和，類L總共為m個。

再者，訓(xùn)練集中類別L_r在屬性值為S_ij的概率勢則為：

步驟3：創(chuàng)建根節(jié)點G。

步驟4：如果訓(xùn)練數(shù)據(jù)集為空，則返回節(jié)點G并標(biāo)記失敗。

步驟5：如果訓(xùn)練數(shù)據(jù)集中所有記錄都屬于同一類別，則該類型標(biāo)記節(jié)點G。

步驟6：如果候選屬性為空，則返回G為葉子結(jié)點，標(biāo)記為訓(xùn)練數(shù)據(jù)集中最普通的類。

步驟7：由于屬性值的不確定性，根據(jù)下面目標(biāo)函數(shù)f(S_i)從候選屬性中選擇splitS_i。

目標(biāo)函數(shù)f(S_i)：

PL(S_ij，L_r)為不確性數(shù)據(jù)屬性值S_ij對應(yīng)類為L_r的屬性值，E(S_ij，L_r)為不確性數(shù)據(jù)屬性值S_ij對應(yīng)類L_r的期望值。

當(dāng)選擇屬性splitS_i滿足目標(biāo)函數(shù)f(S_i)越大時，則找到標(biāo)記節(jié)G。

1)求解上述步驟7的目標(biāo)函數(shù)f(S_i)，需先求出PL(S_ij，L_r)和E(S_ij，L_r)期望值。 PL(S_ij，L_r)在步驟2中已經(jīng)求出，則只需求解期望值E(S_ij，L_r)。

1.1)期望值E(S_ij，L_r)的具體求解步驟如下：

綜上所述，目標(biāo)函數(shù)f(S_i)即可求解出來。

步驟8：標(biāo)記節(jié)點G為屬性splitS_i。

步驟9：由節(jié)點延伸出滿足條件為splitS＝splitS_i分支以及splitS_i＝splitS_ij子分支,如果滿足以下兩條件之一，就停止建樹。

9.2此節(jié)點中所有例子屬于同一類。

步驟10：非9.1與9.2中情況，則遞歸調(diào)用步驟7至步驟9。

步驟11：保存已生成的不確定離散數(shù)據(jù)的決策樹分類器。

一種不確定離散數(shù)據(jù)的決策樹分類器構(gòu)建方法，其偽代碼計算過程如下：

輸入：不確定離散數(shù)據(jù)訓(xùn)練樣本集X

輸出：不確定離散數(shù)據(jù)的決策樹分類器。

完整全部詳細技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：金平艷;胡成華;
技術(shù)所有人：四川用聯(lián)信息技術(shù)有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

決策樹id3算法相關(guān)技術(shù)

決策樹算法相關(guān)技術(shù)

決策樹理論相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種不確定離散數(shù)據(jù)的決策樹分類器構(gòu)建方法與流程