技術(shù)總結(jié)
本發(fā)明涉及一種基于Hellinger距離的懶惰決策樹(shù)方法,包括:判斷訓(xùn)練數(shù)據(jù)集中的樣本的所屬類別,屬于同一類則賦予待測(cè)樣本該類別;否則判斷訓(xùn)練數(shù)據(jù)集中的樣本是否具有相同的屬性值,若具有相同的屬性值,則將在訓(xùn)練數(shù)據(jù)集中占最大比例的類別作為待測(cè)樣本的類別;若均不滿足,則采用Hellinger距離作為選擇分裂屬性的度量指標(biāo),選擇使得該指標(biāo)最大化的屬性作為分裂屬性;將訓(xùn)練數(shù)據(jù)集中分裂屬性值等于待測(cè)樣本分裂屬性值的樣本子集作為下一次選擇分裂屬性的訓(xùn)練數(shù)據(jù)集,并從屬性集中移除分裂屬性;重復(fù)上述步驟,直到滿足第一步或訓(xùn)練數(shù)據(jù)集中分裂屬性值等于待測(cè)樣本分裂屬性值的樣本子集為空時(shí),算法終止;形成一條為待測(cè)樣本分類的決策路徑。
技術(shù)研發(fā)人員:蘇翀
受保護(hù)的技術(shù)使用者:蘇翀
文檔號(hào)碼:201610626533
技術(shù)研發(fā)日:2016.08.01
技術(shù)公布日:2016.11.23