面向大規(guī)模訓(xùn)練數(shù)據(jù)的svm主動(dòng)學(xué)習(xí)分類算法
【專利摘要】本發(fā)明涉及遙感分類與圖像形象信息處理技術(shù)的交叉領(lǐng)域,尤其涉及面向大規(guī)模訓(xùn)練數(shù)據(jù)的SVM主動(dòng)學(xué)習(xí)分類算法。本發(fā)明方法基于聚類和不確定性評價(jià)方法,在大量樣本中選取出距離聚類質(zhì)心較遠(yuǎn)、距離兩類分界面又較近的邊界樣本,通過引入主動(dòng)學(xué)習(xí)的方法,進(jìn)行分類器的迭代優(yōu)化。邊界樣本選擇的過程不是盲目的,而是科學(xué)的,通過迭代學(xué)習(xí)系統(tǒng)不斷地比較樣本的不確定性信息和分布信息的差別,并根據(jù)比較結(jié)果,自動(dòng)地控制和調(diào)整壓縮集,反演推導(dǎo)出最優(yōu)的訓(xùn)練樣本集合,完成遙感影像的自動(dòng)分類,提高分類的質(zhì)量。
【專利說明】面向大規(guī)模訓(xùn)練數(shù)據(jù)的SVM主動(dòng)學(xué)習(xí)分類算法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及遙感分類與圖像形象信息處理技術(shù)的交叉領(lǐng)域,尤其涉及面向大規(guī)模訓(xùn)練數(shù)據(jù)的SVM主動(dòng)學(xué)習(xí)分類算法。
【背景技術(shù)】
[0002]遙感影像客觀真實(shí)地記錄和反映了地表物體的電磁輻射的強(qiáng)弱信息,是遙感探測地物信息的一種表現(xiàn)形式。利用遙感影像進(jìn)行地物分類在城市監(jiān)測、農(nóng)業(yè)監(jiān)測、土壤調(diào)查及林業(yè)監(jiān)測等領(lǐng)域都有重要的應(yīng)用?,F(xiàn)有遙感影像地物分類方法主要集中在利用遙感影像像素的波譜信息(或者輔以紋理等空間信息),采用距離、角度、概率等聚類準(zhǔn)則或支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)等方法實(shí)現(xiàn)分類。在構(gòu)筑一個(gè)遙感影像監(jiān)督分類系統(tǒng)時(shí),為了訓(xùn)練分類模型,需要采集樣本數(shù)據(jù)作為分類系統(tǒng)的訓(xùn)練數(shù)據(jù)。訓(xùn)練數(shù)據(jù)是影響遙感影像監(jiān)督分類系統(tǒng)分類精度的一個(gè)重要因素(張華,2012)。隨著遙感信息科技的發(fā)展,遙感信息數(shù)據(jù)日漸呈現(xiàn)出高維和海量的特點(diǎn),如何從這些大規(guī)模遙感數(shù)據(jù)中采集分類系統(tǒng)的訓(xùn)練數(shù)據(jù)成了遙感影像地物分類方法需要研究的問題(宮鵬,2009)。
[0003]傳統(tǒng)的遙感影像地物分類系統(tǒng)往往采用人工標(biāo)注方法來采集訓(xùn)練數(shù)據(jù),這種方法耗時(shí)耗力、成本高昂,并且人工判讀比較困難。因此,在全球或大規(guī)模遙感影像處理過程中要求自動(dòng)化建立訓(xùn)練數(shù)據(jù)樣本庫。多年來,國內(nèi)外學(xué)者一直在探求能夠自動(dòng)地、高效地實(shí)現(xiàn)遙感影像解譯方法。目前討論比較廣泛的是將遙感領(lǐng)域知識引入到機(jī)器學(xué)習(xí)過程中,亦即將專家目視解譯時(shí)用到的知識加入到計(jì)算機(jī)自動(dòng)解譯過程中進(jìn)行綜合分類,提高整個(gè)過程的智能化程度。例如美國馬里蘭大學(xué)John Townshend教授和Chengquan Huang的團(tuán)隊(duì)所研究的全球森林覆蓋變化檢測(Global Forest Cover Change)項(xiàng)目,將地物光譜知識引入到計(jì)算機(jī)解譯算法,研究出了訓(xùn)練樣本的自動(dòng)獲取算法。采用該算法,在一景LandsatETM+影像上自動(dòng)產(chǎn)生的森林-非森林樣本的數(shù)目達(dá)到近“千萬個(gè)”(C.Huang 2008,2009 ;J.R.Townshend 2012 ;J.0.Sexton 2013)。
[0004]目前在大訓(xùn)練樣本集中進(jìn)行樣本選擇通常采用的是簡單的分層等距離抽樣方法,但是由于不采用數(shù)據(jù)的任何信息,這種方法帶有盲目性。一個(gè)好的訓(xùn)練樣本的選擇是一個(gè)試錯(cuò)的工程,而試錯(cuò)工程是一個(gè)迭代的過程,要反復(fù)經(jīng)過樣本選擇、執(zhí)行分類、評價(jià)結(jié)果和更新樣本集四個(gè)步驟,直到達(dá)到滿意的結(jié)果,是一個(gè)非常耗時(shí)的過程。因此,需要引入機(jī)器學(xué)習(xí)領(lǐng)域中樣本選擇優(yōu)化的方法,解決遙感大訓(xùn)練樣本集中樣本選擇的自動(dòng)優(yōu)化問題。
【發(fā)明內(nèi)容】
[0005]為了克服上述不足之處,本發(fā)明提出面向大規(guī)模訓(xùn)練數(shù)據(jù)的SVM主動(dòng)學(xué)習(xí)分類算法,該方法綜合機(jī)器學(xué)習(xí)領(lǐng)域的樣本優(yōu)化選擇方法,分析不同訓(xùn)練樣本對分類的影響,采用聚類方法和主動(dòng)學(xué)習(xí)中的基于不確定性采樣策略選取邊界樣本,研究遙感影像分類器在邊界訓(xùn)練樣本情況下的優(yōu)化算法,提高分類精度和工作的效率。
[0006]本發(fā)明解決上述技術(shù)問題所采用的技術(shù)方案是:面向大規(guī)模訓(xùn)練數(shù)據(jù)的SVM主動(dòng)學(xué)習(xí)分類算法,其不同在于,首先從海量機(jī)器標(biāo)記樣本中使用聚類方法分別選取出初始壓縮集和訓(xùn)練樣本集;然后使用初始壓縮集訓(xùn)練好的SVM分類器對訓(xùn)練樣本子集進(jìn)行分類,統(tǒng)計(jì)分類精度,與機(jī)器標(biāo)記對比,從中選出誤分樣本;根據(jù)分類模型F,對誤分樣本集合的每一個(gè)樣本的類別進(jìn)行預(yù)測,選擇最優(yōu)標(biāo)號概率和次優(yōu)標(biāo)號概率之差值最小的一部分樣本作為邊界樣本,并加入到初始壓縮集中重新訓(xùn)練SVM分類器,迭代使用訓(xùn)練樣本集優(yōu)化分類器,計(jì)算最后三次對訓(xùn)練樣本集迭代分類的分類精度平均值和方差,< 且一O,則停止迭代,輸出優(yōu)化的SVM分類器;否則,持續(xù)進(jìn)行迭代。
[0007]優(yōu)選的,其方法包括以下步驟:步驟I)、對原始機(jī)器標(biāo)記樣本使用基于近鄰規(guī)則的聚類分析方法進(jìn)行分析,得到每類樣本的聚類中心,按照類別分別抽取聚類子集的聚類中心,以聚類中心作為初始壓縮集A ;
步驟2)、計(jì)算各聚類質(zhì)心的聚類半徑r、聚類離散度以及各樣本到所屬聚類質(zhì)心的距離d,設(shè)聚類內(nèi)離散度閾值門限為T,若,則選取的樣本組成訓(xùn)練樣本集B,并將B隨機(jī)均分為
η個(gè)大小相同的子集{bl, b2, b3, b4, b5......bn};
步驟3)、采用初始壓縮集A訓(xùn)練SVM分類器,得到初次分類模型F ;
步驟4)、使用初次分類模型F對訓(xùn)練樣本子集分類;
步驟5)、評價(jià)本次分類的分類精度,并從bl集合中提取出誤分樣本,形成誤分樣本集合;
步驟6)、根據(jù)分類模型F,對誤分樣本集合的每一個(gè)樣本的類別進(jìn)行預(yù)測,得到其屬于各個(gè)可能的類別的概率P (yi I χ),計(jì)算樣本最優(yōu)標(biāo)號的概率與次優(yōu)標(biāo)號的概率之差,選擇兩者差值最小的部分樣本加入到邊界樣本集G ;
步驟7)、將邊界樣本集G加入到初始壓縮集A中,作為新的初始壓縮集;
步驟8)、迭代步驟3-7,并計(jì)算最近三次迭代分類時(shí),分類精度的平均值和方差,若〈且—0,則停止迭代,輸出優(yōu)化的SVM分類器,否則持續(xù)迭代。
[0008]本發(fā)明的有益效果是:本發(fā)明方法基于聚類和不確定性評價(jià)方法,在大量樣本中選取出距離聚類質(zhì)心較遠(yuǎn)、距離兩類分界面又較近的邊界樣本,通過引入主動(dòng)學(xué)習(xí)的方法,進(jìn)行分類器的迭代優(yōu)化。邊界樣本選擇的過程不是盲目的,而是科學(xué)的,通過迭代學(xué)習(xí)系統(tǒng)不斷地比較樣本的不確定性信息和分布信息的差別,并根據(jù)比較結(jié)果,自動(dòng)地控制和調(diào)整壓縮集,反演推導(dǎo)出最優(yōu)的訓(xùn)練樣本集合,完成遙感影像的自動(dòng)分類,提高分類的質(zhì)量。
【專利附圖】
【附圖說明】
[0009]圖1是基于主動(dòng)學(xué)習(xí)選取樣本的改進(jìn)SVM分類器方法示意圖。
[0010]圖2是邊界樣本優(yōu)化擬合最優(yōu)分類面示意圖。
[0011]圖3是邊界樣本在基于近鄰規(guī)則的聚類分析后分布特性圖。
[0012]圖4是邊界樣本在不確定性概率分析中的表現(xiàn)結(jié)果示意圖。
【具體實(shí)施方式】
[0013]為了實(shí)現(xiàn)以上技術(shù)方案,本發(fā)明需要解決以下具體問題:初始壓縮集的設(shè)計(jì),大訓(xùn)練樣本集的分解策略,訓(xùn)練樣本集的產(chǎn)生、迭代學(xué)習(xí)期間樣本選擇策略的設(shè)計(jì)和停止條件的確定,邊界樣本集的選取方法,樣本集分布離散度的計(jì)算等。
[0014]圖1是基于主動(dòng)學(xué)習(xí)選取樣本的改進(jìn)SVM分類器方法示意圖,使用基于近鄰規(guī)則的聚類分析方法對海量機(jī)器標(biāo)記的原始樣本進(jìn)行分析,選取類質(zhì)心部分樣本作為初始壓縮集A,計(jì)算剩下的樣本到聚類質(zhì)心的距離、聚類簇的聚類半徑、每個(gè)聚類簇的離散度,設(shè)置聚類離散度閾值等訓(xùn)練樣本集選取參數(shù),從剩下的大量樣本中選取出訓(xùn)練樣本集;將初始壓縮集A作為訓(xùn)練樣本輸入初始SVM分類器,得到分類模型F,使用分類模型F對訓(xùn)練樣本子集進(jìn)行分類;分析分類結(jié)果,計(jì)算此次分類的分類精度,若分類精度大于期望閾值,輸出優(yōu)化的影像分類器;若分類精度低于期望閾值,則從誤分樣本中進(jìn)一步選出邊界樣本加入到初始壓縮集A中,繼續(xù)優(yōu)化影像分類器。
[0015]支持向量機(jī)分類方法在解決小樣本、非線性及高維模式識別中表現(xiàn)出許多特有的優(yōu)勢,其中初始壓縮集的設(shè)計(jì)與樣本間的相似性度量有關(guān),初始壓縮集的設(shè)計(jì)決定了初始分類超平面的好壞,在后期主動(dòng)學(xué)習(xí)過程中極大的影響了學(xué)習(xí)時(shí)間和最終分類器穩(wěn)定性,而初始壓縮集選取的關(guān)鍵在于選取有類代表性的樣本。本發(fā)明使用基于近鄰規(guī)則的聚類分析方法對海量機(jī)器標(biāo)記原始樣本進(jìn)行分析,靠近聚類中心的樣本能較好的代表該類樣本的特征,因此本發(fā)明選取聚類中心附近的部分樣本作為初始壓縮集。
[0016]訓(xùn)練樣本集質(zhì)量的好壞是迭代系統(tǒng)分類精度與收斂速度的決定性因素,選取訓(xùn)練樣本集不僅與海量機(jī)器標(biāo)記樣本集的分解策略有關(guān),而且與相鄰樣本之間的相似度也有關(guān)。海量原始樣本集太大,不能直接作為支持向量機(jī)的訓(xùn)練樣本集,本發(fā)明篩選位于分類超平面附近的邊界樣本對分類器進(jìn)行優(yōu)化訓(xùn)練。之所以要用邊界樣本來優(yōu)化分類器,是因?yàn)橛?xùn)練樣本中被正確識別的樣本的存在可以使得訓(xùn)練出的類區(qū)域更加緊湊,不同類別區(qū)域間隔更大;但被正確識別的樣本數(shù)目太多,容易使得訓(xùn)練出的類區(qū)域過于狹小,從而增加了邊界樣本和被誤分樣本的誤識風(fēng)險(xiǎn);訓(xùn)練樣本中被誤分樣本的存在可能使得訓(xùn)練出的類區(qū)域盡可能的大,同時(shí)也使得不同類別之間容易產(chǎn)生重疊,增大了分類誤差。
[0017]圖2是邊界樣本在基于近鄰規(guī)則的聚類分析后分布特性圖,選取邊界樣本需要分析邊界樣本的樣本特征:邊界樣本在超平面空間中處于分類面附近,同時(shí)具有兩種類別特征,具有判別模糊性,而且,類特征并不是十分明顯。在基于近鄰規(guī)則的聚類分析結(jié)果中邊界樣本的分布特征表現(xiàn)為:大部分邊界樣本分布于聚類半徑附近,如圖2中空心樣本點(diǎn)所
/Jn ο
[0018]本發(fā)明選取聚類分析中距離聚類質(zhì)心距離d的樣本作為訓(xùn)練樣本集B,d滿足:。
[0019]α是邊界上線參數(shù),β是邊界下線參數(shù)。
[0020]確定了訓(xùn)練樣本集B之后,使用初始壓縮集A訓(xùn)練初始支持向量機(jī)分類器,得到分類模型F,然后使用分類模型F對一部分訓(xùn)練樣本集bi進(jìn)行分類,評價(jià)此次分類的分類精度,若分類精度大于期望閾值T,則輸出該SVM分類器;若分類精度小于期望閾值T,就繼續(xù)從誤分樣本中篩選出邊界樣本,將邊界樣本添加進(jìn)初始壓縮集A重新訓(xùn)練SVM分類器。
[0021]圖3是邊界樣本優(yōu)化擬合最優(yōu)分類面示意圖,三角形和圓形對象表示機(jī)器標(biāo)記的不同類別樣本,在子圖(a)中使用初始壓縮集A訓(xùn)練SVM分類器,得到分類超平面F,圖中紅色標(biāo)記的樣本是被誤分的樣本。
[0022]子圖(b)中的樣本是訓(xùn)練樣本集B的子集bi,使用分類超平面對訓(xùn)練樣本集的子集bi進(jìn)行分類,分類結(jié)果如子圖(C)所示。
[0023]邊界樣本位于分類超平面附近,容易被誤分,因此我們可以從誤分樣本中選取邊界樣本,再用邊界樣本進(jìn)一步改良分類超平面。在子圖(C)中選出分類結(jié)果與機(jī)器標(biāo)記不同的樣本,作為誤分樣本集,如圖紅色標(biāo)記對象。誤分樣本集并不完全是邊界樣本,子圖(C)中H樣本集即為邊界樣本集,而G樣本距離分類超平面距離很遠(yuǎn),卻被誤分了,這種誤分樣本產(chǎn)生的原因是在機(jī)器標(biāo)記的時(shí)候就把樣本標(biāo)簽屬性預(yù)測錯(cuò)了,所以分類后的結(jié)果與機(jī)器預(yù)測標(biāo)簽不符,被認(rèn)為是誤分樣本。
[0024]由于邊界樣本在超平面空間中處于分類面附近,同時(shí)具有兩種類別特征,本發(fā)明通過引入不確定性閾值方法來選取分布在分類超平面附近的邊界樣本。
[0025]圖4是邊界樣本在不確定性概率分析中的表現(xiàn)結(jié)果示意圖,采用不確定性閾值方法,根據(jù)當(dāng)前的分類模型F,對誤分樣本集合的每個(gè)樣本的類別進(jìn)行預(yù)測,得到其屬于各個(gè)可能的類別的概率P (yi Ix),計(jì)算樣本的最優(yōu)標(biāo)號的概率與次優(yōu)標(biāo)號的概率以及兩者的差值,不確定性閾值判斷:概率差值高于閾值的樣本屬于確定程度較高的樣本,將其舍去;反之,低于閾值的樣本屬于不確定性較高的樣本,將其加入邊界樣本集。
[0026]邊界樣本集篩選完畢,將邊界樣本加入初始壓縮集A中,作為新的初始壓縮集訓(xùn)練SVM分類器,迭代步驟4-7,直到分類器分類精度高于期望閾值。
[0027]本發(fā)明提出面向大規(guī)模訓(xùn)練數(shù)據(jù)的SVM主動(dòng)學(xué)習(xí)分類算法,綜合機(jī)器學(xué)習(xí)領(lǐng)域的樣本優(yōu)化選擇方法,主動(dòng)選擇要學(xué)習(xí)的樣例從而有效地降低學(xué)習(xí)算法的樣本復(fù)雜度分析不同訓(xùn)練樣本對分類的影響,在達(dá)到同樣或更好的學(xué)習(xí)效果的前提下,精選訓(xùn)練集,從而有效地減少人工標(biāo)記樣本所耗費(fèi)的代價(jià),然后采用聚類方法和基于不確定性采樣策略選取邊界樣本,研究遙感影像分類器在邊界訓(xùn)練樣本情況下的優(yōu)化算法,有效處理遙感領(lǐng)域數(shù)據(jù)量劇增帶來的樣本優(yōu)選、分類精度下降等實(shí)際問題,而非僅僅以提高分類正確率為檢驗(yàn)分類器好壞的惟一標(biāo)準(zhǔn)。
【權(quán)利要求】
1.一種基于主動(dòng)學(xué)習(xí)方法選取樣本的改進(jìn)SVM分類器,其特征在于,其方法包括以下步驟: 步驟a)、首先對海量機(jī)器標(biāo)記樣本進(jìn)行聚類分析,選取各類別的聚類中心部分樣本作為初始壓縮集A,計(jì)算樣本到聚類質(zhì)心的距離d、聚類半徑r、聚類內(nèi)離散度,選取聚類模糊樣本作為訓(xùn)練樣本集B {bl, b2, b3, b4, b5……bn}; 步驟b)、使用初始壓縮集訓(xùn)練SVM分類器,并用該分類器對訓(xùn)練樣本集(i=l,2…n)進(jìn)行分類,計(jì)算分類器分類精度,并挑選出分類結(jié)果中的誤分樣本,用當(dāng)前分類模型對每個(gè)樣本的類別進(jìn)行預(yù)測,然后使用不確定性閾值判斷法從誤分樣本中進(jìn)一步挑選出靠近分類超平面的邊界樣本; 步驟c)、將邊界樣本加入到初始壓縮集A中,迭代進(jìn)行步驟b),直到分類精度保持在較高的水平停止迭代,輸出優(yōu)化后的SVM分類器。
2.如權(quán)利要求1所述的基于主動(dòng)學(xué)習(xí)方法選取樣本的改進(jìn)SVM分類器,其特征在于,所述步驟a)包括以下具體步驟: 步驟al)、對海量機(jī)器標(biāo)記樣本聚類分析,得到每個(gè)類別的聚類中心,在各類別聚類中心附近選取部分樣本,構(gòu)成初始壓縮集A ; 步驟a2)、計(jì)算各樣本到所屬聚類質(zhì)心的距離d、聚類半徑r、聚類內(nèi)離散度,設(shè)聚類內(nèi)離散度閾值門限為T,若,則選取的樣本組成訓(xùn)練樣本集B,并將B隨機(jī)均分為η個(gè)大小相同的子集{bl, b2, b3, b4, b5......bn}。
3.如權(quán)利要求1所述的基于主動(dòng)學(xué)習(xí)方法選取樣本的改進(jìn)SVM分類器,其特征在于,所述步驟b)包括以下具體步驟: 步驟bl )、采用初始壓縮集A對SVM分類器進(jìn)行訓(xùn)練,得到初次分類模型F,再使用F對子集進(jìn)行分類; 步驟b2)、評價(jià)此次分類的分類精度,并從bl集合中提取出誤分樣本,形成誤分樣本集合; 步驟b3)、根據(jù)分類模型F,對誤分樣本集合的每一個(gè)樣本的類別進(jìn)行預(yù)測,得到其屬于各個(gè)可能的類別的概率P (yi I χ),計(jì)算樣本最優(yōu)標(biāo)號的概率與次優(yōu)標(biāo)號的概率之差,選擇兩者差值最小的一部分樣本,這部分樣本即為邊界樣本集G。
4.如權(quán)利要求1所述的基于主動(dòng)學(xué)習(xí)方法選取樣本的改進(jìn)SVM分類器,其特征在于,所述步驟c)包括以下具體步驟: 步驟Cl)、將邊界樣本G加入到初始壓縮集A中,然后迭代步驟b,使用新的初始壓縮集訓(xùn)練SVM分類器,評價(jià)分類精度,并計(jì)算最后3次迭代分類精度的平均值和方差,若〈且—O,則停止迭代輸出優(yōu)化的SVM分類器;否則持續(xù)迭代步驟b)。
【文檔編號】G06K9/66GK104331716SQ201410665206
【公開日】2015年2月4日 申請日期:2014年11月20日 優(yōu)先權(quán)日:2014年11月20日
【發(fā)明者】劉福江, 林偉華, 徐戰(zhàn)亞, 郭艷, 黃彩春, 郭振輝 申請人:武漢圖歌信息技術(shù)有限責(zé)任公司