專利名稱:一種平均錯分代價最小化的分類器集成方法
技術(shù)領(lǐng)域:
本發(fā)明涉及機器學習和模式識別方法,特別涉及一種平均錯分代價最小化的分類器集成方法,具體涉及到多分類代價敏感學習的分類器集成方法和多標簽分類問題的分類器集成方法。
背景技術(shù):
目前的分類方法一般都追求分類準確率,即分類錯誤率最小,其基于所有類被錯分的代價相等。當不同類被錯分的代價不等時,便引出了代價敏感分類問題,此時要求設(shè)計的分類器滿足錯分代價最小而非分類錯誤率最小。目前已有不少代價敏感學習方法,如 Domingos 等人于 1999 年在文章《MetaCost :A general method for making classifiers cost-sensitive》中采用元代價處理方法把一般的分類模型轉(zhuǎn)換成代價敏感分類模型的方法,Elkan 禾口 Bruka 等人在文章((The foundations of cost-sensitive learning))禾口 《A support for decision making Cost-sensitive learning system》中也指出用錯分代價調(diào)整樣本初始分布來解決代價敏感分類的集成學習方法,以及Ling等人于2006年在文章《Test strategies for cost-sensitive decision trees》中提出的一些最小代價決策分類法等。Ling等人于2007年在文章《A comparative study of cost-sensitive classifiers)),葉志飛等人于2009年在文章《不平衡分類問題研究綜述》中都對目前已有的眾多代價敏感學習算法進行了比較。在眾多代價敏感學習方法中,基于AdaBoost引入錯分代價的代價敏感學習方法,因AdaBoost算法自身具有的顯著性能,在代價敏感學習方法中受到了更多的重視和關(guān)注。目前的代價敏感學習方法主要針對二分類問題,已有的多分類問題的代價敏感學習方法只能區(qū)分錯分代價總和而無法區(qū)分錯分成不同類代價的差異。郝紅衛(wèi)等人在專利CNlOllM^eA中提出了一種分類器動態(tài)選擇與循環(huán)集成方法,高常鑫等人在專利CN100587708C中闡述了一種分類器集成方法,Zhu和Fu等人于2009年分別在 JC M ((Multi-class AdaBoost))禾口〈〈Effictive property and best combination of classifiers linear combination》中考慮了直接用于多分類問題的集成學習方法,但都沒有引入代價。對多分類的代價敏感分類,目前通常做法是把問題轉(zhuǎn)換成多級二分類問題來處理,為此必須進行錯分代價的合并,但只能考慮每一類被錯分的代價總和而無法區(qū)分被錯分成不同類的代價。合并錯分代價完全掩蓋了不同錯分代價的差異,無法獲得真正的錯分代價最小化分類器。多標簽分類問題是一種比較復雜的分類問題,它不同于兩類分類問題,它允許問題中存在多個類別(或稱為標簽);不同于多類分類問題,它允許樣本同時屬于多個類別; 它不同于單標簽分類問題(包括兩類問題和多類問題),在單標簽分類問題中,標簽(類別)與標簽之間都是相互排斥的,每個樣本只能屬于唯一的一個類別,而在多標簽分類問題中,標簽與標簽之間是相瓦關(guān)聯(lián)的,允許問題中的部分樣本同時屬于多個標簽。由于多標簽分類問題的復雜性和廣泛的應(yīng)用價值,引起了越來越多國內(nèi)外研究者的關(guān)注,并取得了一定的成果。目前,對于多標簽分類問題在許多文獻資料中都有相關(guān)的研究,已形成多種解決多標簽分類問題的方法,根據(jù)總體設(shè)計思路不同,一般分為兩種一種是基于數(shù)據(jù)分解的多標簽分類方法;一種是基于單個優(yōu)化問題的多標簽分類方法。其中,基于數(shù)據(jù)分解的多標簽分類方法實質(zhì)上是將多標簽分類問題分解為多個單標簽分類子問題,然后使用現(xiàn)有的單標簽分類方法處理這些子問題,再將所有子問題的解集成,最終得到總的多標簽分類問題的解。再者是基于單個優(yōu)化問題的多標簽分類方法,它通過對一般的分類方法進行改造,只建立一個最優(yōu)化問題直接處理數(shù)據(jù)集中的所有樣本,從而完成能夠直接處理多標簽分類問題的任務(wù)。在多標簽數(shù)據(jù)集中的樣本擁有多個標簽,怎樣建立和求解這樣的最優(yōu)化問題是要解決的重要問題,它沒有改變數(shù)據(jù)集的結(jié)構(gòu),沒有破壞類別之間的關(guān)聯(lián)關(guān)系,反映了多標簽分類的特殊性質(zhì),但該方法的實現(xiàn)有一定的難度。總的來說,構(gòu)造多標簽分類問題的集成學習方法是很難的。
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)存在的問題,本發(fā)明的主要目的在于提供一種平均錯分代價最小化的分類器集成方法,該方法能夠真正實現(xiàn)分類結(jié)果偏向錯分代價較小的類,并在不直接要求各個分類器相互獨立的條件下,確保訓練錯誤率隨著訓練的分類器的個數(shù)增加而降低。為實現(xiàn)上述目的,本發(fā)明的技術(shù)方案構(gòu)思原理如下本發(fā)明采取把用符號函數(shù)表示的錯分代價的極值問題轉(zhuǎn)換成用指數(shù)函數(shù)表示的極值問題,并基于遞推思想,得到了一種平均錯分代價最小化的分類器集成方法。對訓練樣本集S = {(Xl,yi),···,0^^)},考慮1(分類問題^ e {1,2,... ,Kj0 弱分類器ht(x)輸出標簽1的置信度為ht(x,1),1 = 1,...,K. (x,y) e S簡記為χ e S。集成學習方法通常指通過某種方式得到T個弱分類器ht (χ),t = 1,...,T, 然后進行組合得到分類性能更好的組合分類器。線性組合最常用,
權(quán)利要求
1.一種多分類代價敏感學習的分類器集成方法,包括以下步驟.51、獲取訓練樣本集;.52、初始化樣本權(quán)值并賦初值;.53、迭代T次后,訓練得到T個最佳弱分類器;.54、組合T個最佳弱分類器得到最佳組合分類器,其特征在于所述步驟S2給訓練樣本賦初值的方法為Al=(VZ0)(CiyJ)Im),其中,i = 1, ... ,m, 1 = l,...,K,yi e {1,2,..., K}, Z0為咚的歸一化因子,c (Yi, 1)表示yi類被錯分成1類的代價,m為訓練樣本數(shù);所述步驟S3具體包括如下步驟.531、基于有權(quán)值.<的訓練樣本集S訓練弱分類器,t= 1,. . .,T,通過如下步驟實現(xiàn).5311、對應(yīng)樣本集S的劃分
2.根據(jù)權(quán)利要求1所述的方法,其特征在于所述步驟S4得到最佳組合分類器的方法為
3.一種利用權(quán)利要求1所述的方法實現(xiàn)的多分類連續(xù)AdaBoost集成學習方法,包括以下步驟.51、獲取訓練樣本集;.52、初始化樣本權(quán)值并賦初值;.53、迭代T次后,訓練得到T個最佳弱分類器;.54、組合T個最佳弱分類器得到最佳組合分類器,其特征在于所述步驟S2給訓練樣本賦初值的方法為
4.根據(jù)權(quán)利要求3所述的方法,其特征在于所述步驟S4得到最佳組合分類器的方法為F(x) = argmp{/(x’/)},其中= ;^ 力仁/)。
5.一種利用權(quán)利要求1所述的方法實現(xiàn)的過預測標簽最少化Adaboost集成學習方法, 包括以下步驟Si、獲取訓練樣本集;S2a、初始化樣本權(quán)值并賦初值;S3a、迭代T次后,訓練得到T個最佳弱分類器;S4a、組合T個最佳弱分類器得到最佳組合分類器,其特征在于所述步驟Sh給訓練樣本賦初值的方法為<; = (Ce(uV(‘))/z。,其中,i = 1,. . .,m,1 =1,...,K,Z0是歸一化因子,C0 (i,1)表示過預測標簽最少化時,i類被錯分成1類的代價矩陣;所述步驟S3a具體包括如下步驟S31a、基于有權(quán)值<的訓練樣本集S訓練弱分類器,t = 1,. . .,T,通過如下步驟實現(xiàn) S311a、對應(yīng)樣本集S的劃分,S=SU + + + U《,計算<=[,:(,,碎)<,其中j = 1,. . .,nt,1表示多分類問題中的類,Xi表示第i個樣本,ft^表示劃分段^內(nèi)并標簽集包含除標簽1外的標簽的樣本的概率;S312a、定義弱分類器ht(x),當,有蚧,0 = -1+/'),其中,ht(x,l)為弱分類器ht(χ) 輸出標簽1的置信度;S3I3L選取弱分類器ht (χ),使ζ,=^^(11)/4)1"最小,其中,Zt代表樣本權(quán)值調(diào)整后的歸一化因子;S32a、根據(jù)步驟S31a的結(jié)果來調(diào)整樣本權(quán)值,< = ( Α,)ε>Φ(Α,(χ,.,/)-( /Γ)Σ〖=Α( ^); S33a、判斷t是否小于T,若是,則令t = t+Ι,返回步驟S31a,若否,則進入步驟S4a。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于所述步驟S^得到最佳組合分類器的方法為丑⑷={/:/(")》,其中/(χ,ο=Σ『=Α(4),7⑷=(ι/ι)Σ:/(4)。
7.一種利用權(quán)利要求1所述的方法實現(xiàn)的欠預測標簽最少化AdaBoost集成學習方法, 包括以下步驟Si、獲取訓練樣本集;S2b、初始化樣本權(quán)值并賦初值;S3b、迭代T次后,訓練得到T個最佳弱分類器;S4b、組合T個最佳弱分類器得到最佳組合分類器,其特征在于所述步驟S^給訓練樣本賦初值的方法為、=( /ζ。)( (υ)/(‘)),其中i = 1,. . .,m 1 =1,...,K,Z0是歸一化因子,Cy (i,1)表示欠預測標簽最少化時,i類被錯分成1類的代價矩陣;所述步驟S!3b具體包括如下步驟S31b、基于有權(quán)值<的訓練樣本集S訓練弱分類器,t = 1,. . .,T,通過如下步驟實現(xiàn) S311b、對應(yīng)樣本集S的劃分+ + + ,計
8.根據(jù)權(quán)利要求7所述的方法,其特征在于所述步驟S4b得到最佳組合分類器的方法為
9.一種利用權(quán)利要求1所述的方法實現(xiàn)的多標簽分類問題AdaBoost集成學習方法,包括以下步驟Si、獲取訓練樣本集;S2c、初始化樣本權(quán)值并賦初值;S3c、迭代T次后,訓練得到T個最佳弱分類器;S4c、組合T個最佳弱分類器得到最佳組合分類器,其特征在于所述步驟S2c給訓練樣本賦初值的方法為
10.根據(jù)權(quán)利要求9所述的方法,其特征在于所述步驟Sk得到最佳組合分類器的方法為丑⑷={/:/(")》,其中/(χ,ο=Σ『=Α(4),7⑷=(ι/ι)Σ:/(4)。
全文摘要
本發(fā)明公開了一種平均錯分代價最小化的分類器集成方法,該方法包括如下步驟S1、獲取訓練樣本集;S2、初始化樣本權(quán)值并賦初值,S3、迭代T次后,訓練得到T個最佳弱分類器,包括如下步驟S31、基于有權(quán)值的訓練樣本集S訓練弱分類器;S32、根據(jù)步驟S31的結(jié)果來調(diào)整樣本權(quán)值,S33、判斷t是否小于T,若是,則令t=t+1,返回步驟S31,若否,則進入步驟S4;S4、組合T個最佳弱分類器得到最佳組合分類器,本發(fā)明相對于現(xiàn)有技術(shù),可真正實現(xiàn)分類結(jié)果向錯分代價小的類集中,并在不直接要求各個分類器相互獨立的條件下,確保訓練錯誤率隨著訓練的分類器的個數(shù)增加而降低,解決了目前已有的代價敏感學習方法只能向錯分代價總和最小的類集中的問題。
文檔編號G06K9/66GK102184422SQ201110126230
公開日2011年9月14日 申請日期2011年5月15日 優(yōu)先權(quán)日2011年5月15日
發(fā)明者付忠良, 姚宇, 李昕, 趙向輝 申請人:中科院成都信息技術(shù)有限公司