本發(fā)明涉及模式識別方法,特別是涉及一種改善的基于Ransac算法的魯棒AdaBoost分類器構(gòu)建方法。
背景技術(shù):
分類算法就是基于分類器模型為待檢測樣本從可選的分類中選取最佳的類別假設(shè),它屬于人工智能中機器學(xué)習(xí)范疇,已經(jīng)吸引了該領(lǐng)域相關(guān)研究者的極大關(guān)注。人們投入了大量的時間和精力研究諸如C4.5、支持向量機、貝葉斯算法、AdaBoost算法和K-最近鄰分類算法等分類算法,并將它們應(yīng)用于面部識別、筆跡驗證、數(shù)據(jù)分析和醫(yī)學(xué)應(yīng)用等不同領(lǐng)域。
AdaBoost一詞是來源于Adaptive Boosting(自適應(yīng)增強)的縮寫,是由Yoav Freund和Robert Schapire提出的機器學(xué)習(xí)元算法。其設(shè)計的指導(dǎo)原則為確保當(dāng)前訓(xùn)練樣本有最高分類精度。通過將不同的弱分類器(這里所謂的弱分類器是指分類精度稍稍好于隨機猜測)合理的組合起來,形成強分類器,盡管每個弱分類器的分類精度不高,但最終的強分類器在分類性能上得到巨大提升。AdaBoost算法在某種意義上講是自適應(yīng)的,通過調(diào)整之前被弱分類器錯分的樣本權(quán)值,提高后續(xù)弱分類器對錯分樣本的重視程度,實現(xiàn)最終分類器模型的設(shè)計。正是基于此,一組弱分類器的合理設(shè)計可以結(jié)合成強分類器,獲得一個整體上令人滿意的分類精度。但是,像任何事情都具有兩面性一樣,盡管AdaBoost算法優(yōu)點眾多,但其對外點敏感,在一些情況下更容易受此影響而導(dǎo)致分類器整體性能的降級、失效。這是因為不斷對不能正確分類的樣本進(jìn)行加權(quán),尤其是對外點的不斷加權(quán),使得外點的權(quán)值快速增長。過大的外點權(quán)值引起分類器算法不斷向外點偏離,進(jìn)而背離大部分正常樣本,不可避免的造成所設(shè)計分類器模型的降級。
尋找一種有效方式來限制外點權(quán)值的持續(xù)增長是AdaBoost算法設(shè)計分類器模型中亟待解決的問題。近年來人們提出了許多不同的方法用于抑制樣本權(quán)值的無休止擴張,大多數(shù)局限于樣本權(quán)值設(shè)置這一方向,算法或過于簡單,對外點與正常樣本不加區(qū)分;或算法復(fù)雜,使操作難度增大。而且因為閾值設(shè)置的不當(dāng)存在著內(nèi)、外點被誤判斷的情況,這也阻礙了算法的正確分類,不可避免的導(dǎo)致分類器的降級。為此,有必要尋找一種有效方式從分類模板的構(gòu)建中去除外點的不利影響。本專利中,利用Ransac算法與AdaBoost算法相結(jié)合,解決外點引起的分類器模型訓(xùn)練中出現(xiàn)的降級問題。
技術(shù)實現(xiàn)要素:
針對傳統(tǒng)的AdaBoost算法的缺陷和閾值設(shè)置方法的不足,提出一種改善的基于Ransac算法的魯棒AdaBoost分類器構(gòu)建方法。不同于其他AdaBoost算法在弱分類器構(gòu)建過程中單純使用樣本加權(quán)和權(quán)值控制的手段,本算法通過將Ransac算法引入到AdaBoost分類器模型構(gòu)建過程中,并通過迭代建模的過程搜尋正確的樣本,去除潛在外點,有效克服了現(xiàn)有AdaBoost算法中樣本加權(quán)方法的缺點。
同時,借助于Ransac算法去除外點能力強這一優(yōu)勢,在全部基于AdaBoost算法構(gòu)建的分類器模型中選取最佳分類模型,不但無需考慮如何為樣本加權(quán)的問題,而且有效的消除了由外點引起的分類器模型降級。通過上述策略,本文最終實現(xiàn)了基于Ransac算法的魯棒AdaBoost分類器構(gòu)建,獲得的分類器模型的設(shè)計完全不受外點的影響。
一種改善的基于Ransac算法的魯棒AdaBoost分類器構(gòu)建方法,包括如下步驟:
(1)初始參數(shù)設(shè)置
初始化本算法全部參數(shù),包括:設(shè)置分類模型的最大數(shù)為Nmax;設(shè)置當(dāng)前正構(gòu)建分類器模型為ith,最開始時設(shè)置i=1;設(shè)置構(gòu)建每個分類器模型的最大迭代次數(shù)為Tmax;設(shè)置構(gòu)建每個分類器模型的迭代次數(shù)為j,開始時設(shè)置j=1;設(shè)置每次初始構(gòu)建分類器的樣本個數(shù)為M。
(2)一定量樣本隨機選取
從樣本集中隨機的選取M個樣本。
(3)基于AdaBoost分類器初始模型構(gòu)建
基于這些選出的樣本,利用AdaBoost算法訓(xùn)練強分類器,即,使得分類器模型最符合當(dāng)前這M個樣本。
(4)分類器模型更新
于AdaBoost算法用構(gòu)建的分類器模型Ci分類剩余的樣本;用所有被該模型正確分類的樣本重新基于AdaBoost算法構(gòu)建分類器模型Ci;用這個新的分類器再次判斷滿足該新分類器模型的全部樣本,更新j=j(luò)+1;重復(fù)上述步驟4到步驟6直到滿足分類器Ci的樣本數(shù)不再變化或迭代次數(shù)已經(jīng)超過了Tmax;。
(5)構(gòu)建下一個分類器模型
更新i=i+1,判斷建立的分類器模型是否已超過Nmax,如未超過回到步驟(2)。
(6)分類正確率計算
計算全部分類器模型所對應(yīng)的樣本分類精度。
(7)最終分類模型選出
比較全部分類器模型對應(yīng)的正確分類精度,具有最高分類正確率的分類器模型被確定為最終選取的分類器模型。
與現(xiàn)有技術(shù)相比,本發(fā)明具有以下明顯的優(yōu)勢和有益效果:
(1)本發(fā)明一種改善的基于Ransac算法的魯棒AdaBoost分類器構(gòu)建方法,能有效去除外點干擾,不但無需進(jìn)行樣本加權(quán)閾值的設(shè)置,而且避免了樣本加權(quán)閾值設(shè)置的不當(dāng)存在著內(nèi)、外點被誤判斷的情況。
(2)本發(fā)明利用Ransac算法即使在樣本中含有大量外點的情況,仍然可以魯棒的估計分類器模型參數(shù)而不受外點的影響的優(yōu)點,實現(xiàn)了分類模型的準(zhǔn)確構(gòu)建。為驗證本分類算法,運用本發(fā)明方法到筆跡驗證試驗中,對筆跡書寫人身份進(jìn)行判斷,本文算法即使在樣本中出現(xiàn)了15%的外點時,分類精度仍可達(dá)到95.67%。
附圖說明
圖1為本發(fā)明所提出的一種改善的基于Ransac算法的魯棒AdaBoost分類器構(gòu)建方法功能框圖;
圖2為本發(fā)明所涉及方法的流程圖;
具體實施方式
下面結(jié)合附圖和具體實施方式對本發(fā)明做進(jìn)一步的描述。
如圖1、2所示,本發(fā)明公開一種改善的基于Ransac算法的魯棒AdaBoost分類器構(gòu)建方法,包括以下步驟:
步驟1,初始參數(shù)設(shè)置
初始化本算法全部參數(shù),包括:設(shè)置分類模型的最大數(shù)為100;設(shè)置當(dāng)前正構(gòu)建分類器模型為ith,最開始時設(shè)置i=1;設(shè)置構(gòu)建每個分類器模型的最大迭代次數(shù)為100;設(shè)置構(gòu)建每個分類器模型的迭代次數(shù)為j,開始時設(shè)置j=1;設(shè)置每次初始構(gòu)建分類器的樣本個數(shù)為50。本實驗中,根據(jù)實驗需求每次從HIT-MW樣本庫隨機的選取200個不同人的筆跡樣本,并按照一定比例把其中部分筆跡樣本類別標(biāo)錯,人為的產(chǎn)生一定比例的外點。
步驟2,一定量樣本隨機選取
從筆跡樣本集中隨機的選取初始的50個樣本?;谏鲜鰳颖?,利用當(dāng)前筆跡樣本抽取筆跡微結(jié)構(gòu)特征作為AdaBoost算法中弱分類器的樣本特征,并基于SVM構(gòu)建弱分類器。對本文AdaBoost算法和其他AdaBoost算法抗外點干擾能力進(jìn)行驗證,重復(fù)本實驗多次,求取每種算法在不同比例外點作用下的平均分類精度。
步驟3,基于AdaBoost分類器初始模型構(gòu)建
基于這些隨機選出的筆跡樣本及其對應(yīng)的筆跡微結(jié)構(gòu)特征,使用SVM算法構(gòu)建弱分類器,同時利用AdaBoost算法訓(xùn)練獲得強分類器模型,使得該分類器模型最符合當(dāng)前這50個筆跡樣本的判斷。
步驟4,分類器模型更新
基于AdaBoost算法用構(gòu)建的分類器模型Ci分類剩余的樣本;用所有被該模型正確分類的樣本重新基于AdaBoost算法構(gòu)建分類器模型Ci;用這個新的分類器再次判斷滿足該新分類器模型的全部樣本,更新j=j(luò)+1;重復(fù)上述步驟3到步驟4直到滿足分類器Ci的樣本數(shù)不再變化或迭代次數(shù)已經(jīng)超過了100。
步驟5,構(gòu)建下一個分類器模型
更新i=i+1,判斷建立的分類器模型數(shù)是否已超過100,如未超過回到步驟2。
步驟6,分類正確率計算
計算全部基于本專利算法構(gòu)建的分類器模型對該筆跡樣本庫中全部筆跡樣本的樣本分類精度,分類精度Accuracy=(正確分類筆跡樣本數(shù))/(全部筆跡樣本數(shù))。
步驟7,最終分類模型選出
比較全部分類器模型對應(yīng)的正確分類精度,具有最高分類精度Amax的分類器模型被確定為最終選取的分類器模型。
為了驗證本發(fā)明的有效性,將本算法應(yīng)用于筆跡驗證實驗,并與另外兩種方法進(jìn)行比較,三種分類方法的正確率如表1所示。
表1本發(fā)明方法與兩種識別方法的比較結(jié)果
表1數(shù)據(jù)展示了本文提出的改進(jìn)AdaBoost分類方法與另外兩種AdaBoost方法的分類精度,三種方法分別是:本文方法,普通的沒有權(quán)值控制的AdaBoost算法和固定權(quán)值閾值控制的AdaBoost方法。從表1可以看出,當(dāng)樣本中沒有外點或外點較少時,三種方法的分類精度很接近。但隨著外點在樣本中所占比例的增多,另外兩種方法分類精度收到很大負(fù)面影響,分類精度單調(diào)下降。而與這兩種方法相比,本文算法憑借Ransac算法良好的去除外點干擾性能,在外點比例不斷增加后分類精度依然穩(wěn)定,對另外兩種方法優(yōu)勢明顯。對比于另外兩種方法,本文算法即使在樣本中出現(xiàn)了15%的外點時,分類精度仍可達(dá)到95.67%。