一種基于主動(dòng)學(xué)習(xí)的高光譜圖像分類(lèi)方法
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種基于主動(dòng)學(xué)習(xí)的高光譜圖像分類(lèi)方法,它屬于圖像處理【技術(shù)領(lǐng)域】,主要解決基于集成的查詢(xún)方法所獲得的信息量存在重復(fù)的問(wèn)題。其分類(lèi)過(guò)程為:對(duì)高光譜圖像進(jìn)行特征提??;將所有樣本隨機(jī)劃分為已標(biāo)記數(shù)據(jù)集、未標(biāo)記數(shù)據(jù)集和測(cè)試數(shù)據(jù)集;構(gòu)造初始集成分類(lèi)器;每一次迭代,根據(jù)新的信息量度量準(zhǔn)則挑選未標(biāo)記樣本;利用最終得到的集成分類(lèi)器進(jìn)行預(yù)測(cè),得到分類(lèi)結(jié)果。本發(fā)明定義了一種新的信息量度量準(zhǔn)則,相比于基于集成的查詢(xún)準(zhǔn)則,能夠有效降低信息量的重復(fù)程度,獲得更好的分類(lèi)性能,可用于高光譜圖像目標(biāo)識(shí)別。
【專(zhuān)利說(shuō)明】一種基于主動(dòng)學(xué)習(xí)的高光譜圖像分類(lèi)方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于圖像處理領(lǐng)域,特別是一種基于主動(dòng)學(xué)習(xí)的高光譜圖像分類(lèi)方法,可應(yīng)用于目標(biāo)識(shí)別。
【背景技術(shù)】
[0002]伴隨著遙感技術(shù)的不斷進(jìn)步,遙感傳感器能夠提供越來(lái)越多的數(shù)據(jù)。如何處理這些數(shù)據(jù)在遙感領(lǐng)域已經(jīng)產(chǎn)生了巨大的興趣。在遙感應(yīng)用方面,例如環(huán)境檢測(cè)、農(nóng)業(yè)管理和城市繪圖等,地物分類(lèi)是非常重要的。利用這些數(shù)據(jù)所包含的豐富信息來(lái)獲得高的分類(lèi)精度,對(duì)于我們來(lái)說(shuō)是一個(gè)巨大的挑戰(zhàn)。特別地,在高光譜數(shù)據(jù)中光譜信息是極其的豐富。一幅高光譜圖像也許包含有上百萬(wàn)個(gè)像素,每一個(gè)像素包括成百上千個(gè)光譜帶,這使得人工標(biāo)記變得很困難。因此,自動(dòng)地物分類(lèi)與識(shí)別正在成為一個(gè)熱點(diǎn)。
[0003]許多關(guān)于遙感圖像的自動(dòng)分類(lèi)技術(shù)的研究均是建立在監(jiān)督學(xué)習(xí)方法的基礎(chǔ)之上。監(jiān)督學(xué)習(xí)的含義為:在已標(biāo)記數(shù)據(jù)集上訓(xùn)練得到一個(gè)分類(lèi)器,然后該分類(lèi)器被用來(lái)預(yù)測(cè)未標(biāo)記樣本的標(biāo)記。在機(jī)器學(xué)習(xí)領(lǐng)域,大量的分類(lèi)器已經(jīng)被開(kāi)發(fā)出來(lái)。但是,監(jiān)督學(xué)習(xí)器的分類(lèi)性能依賴(lài)于可得到的已標(biāo)記樣本的數(shù)目與質(zhì)量。已標(biāo)記數(shù)據(jù)集的大小和一個(gè)分類(lèi)器的分類(lèi)精度之間通常是正相關(guān)的。換句話說(shuō),為了得到高的分類(lèi)精度,已標(biāo)記樣本的數(shù)目應(yīng)該盡可能的大。然而,對(duì)于高光譜數(shù)據(jù),由于維數(shù)通常很高,該問(wèn)題顯得更加嚴(yán)重。當(dāng)訓(xùn)練樣本的數(shù)目對(duì)特征的數(shù)目的比率較小時(shí),也許會(huì)發(fā)生維數(shù)災(zāi)難。因此,對(duì)于高光譜數(shù)據(jù)來(lái)說(shuō),很容易就發(fā)生過(guò)擬合訓(xùn)練數(shù)據(jù)的現(xiàn)象,這給分類(lèi)器的泛化能力帶來(lái)了不利的影響。
[0004]在現(xiàn)實(shí)生 活中,要獲得遙感數(shù)據(jù)的標(biāo)記是非常昂貴并耗時(shí)的,因?yàn)樾枰獙?zhuān)家人為標(biāo)記或者實(shí)地勘察。因此,如何利用盡可能少的已標(biāo)記樣本來(lái)獲得盡可能高的分類(lèi)精度在遙感數(shù)據(jù)分類(lèi)中起著非常重要的作用。主動(dòng)學(xué)習(xí)剛好就是被設(shè)計(jì)用來(lái)強(qiáng)調(diào)這類(lèi)問(wèn)題。主動(dòng)學(xué)習(xí)的目地在于挑選出最具有信息量的未標(biāo)記樣本用于人工標(biāo)記,這樣一個(gè)分類(lèi)器就能夠利用盡可能少的已標(biāo)記樣本來(lái)獲得盡可能高的分類(lèi)精度。說(shuō)的更具體一點(diǎn),在已標(biāo)記數(shù)據(jù)集上訓(xùn)練得到一個(gè)分類(lèi)器,該分類(lèi)器被用來(lái)預(yù)測(cè)未標(biāo)記樣本的標(biāo)記?;陬A(yù)先定義的查詢(xún)策略,獲得了每一個(gè)未標(biāo)記樣本的信息量。根據(jù)信息量的排序挑選出固定數(shù)目的最高信息量的樣本。分析人員人工地標(biāo)記這部分最高信息量的樣本,該分類(lèi)器在擴(kuò)大的已標(biāo)記數(shù)據(jù)集上重新訓(xùn)練。該過(guò)程重復(fù)進(jìn)行直到一些停止條件被滿(mǎn)足。這個(gè)過(guò)程中最重要的一步是如何度量未標(biāo)記樣本的信息量。如果使用更好的度量方法就能夠期待獲得更好的分類(lèi)性能。在機(jī)器學(xué)習(xí)領(lǐng)域中,有關(guān)主動(dòng)學(xué)習(xí)技術(shù)的研究有很多。近些年,主動(dòng)學(xué)習(xí)在遙感領(lǐng)域已經(jīng)引起了極大的興趣。
[0005]查詢(xún)策略在主動(dòng)學(xué)習(xí)中非常重要,基于集成的查詢(xún)是其中一種查詢(xún)策略之一,它根據(jù)集成的不一致性程度來(lái)評(píng)估未標(biāo)i己樣:Φ:的信息減,MK所不:
1111 f — -wg,-
Y 爾爾
[0006]上式中,Xu為未標(biāo)記樣本,y,取遍所有的可能的標(biāo)記,V(Yi)為所有那些預(yù)測(cè)得到的類(lèi)別標(biāo)記是Yi的分類(lèi)器的數(shù)目,m為集成大小。[0007]然而,通過(guò)該查詢(xún)策略所獲得的信息量也許重復(fù),這就導(dǎo)致了一些未標(biāo)記樣本擁有同樣的信息量并且將被隨機(jī)挑出。這給分類(lèi)性能的提高帶來(lái)了不利的影響。在本發(fā)明中,提供了一種基于主動(dòng)學(xué)習(xí)的高光譜圖像分類(lèi)方法用來(lái)處理這個(gè)問(wèn)題。
【發(fā)明內(nèi)容】
[0008]針對(duì)上述問(wèn)題,本發(fā)明的目的是提供基于主動(dòng)學(xué)習(xí)的高光譜圖像分類(lèi)方法,旨在降低信息量的重復(fù)程度來(lái)獲得它們的一個(gè)更精確的排序,從而提高高光譜圖像的分類(lèi)精度。
[0009]為實(shí)現(xiàn)上述目的,本發(fā)明采取以下技術(shù)方案:一種基于主動(dòng)學(xué)習(xí)的高光譜圖像分類(lèi)方法,包括如下步驟:
[0010](I)對(duì)高光譜圖像的每一個(gè)樣本即像素,提取譜特征與空間特征,將這些特征融合為一個(gè)特征向量;
[0011](2)將所有樣本隨機(jī)劃分為測(cè)試數(shù)據(jù)集與訓(xùn)練數(shù)據(jù)集,訓(xùn)練數(shù)據(jù)集被進(jìn)一步隨機(jī)劃分為已標(biāo)記數(shù)據(jù)集和未標(biāo)記數(shù)據(jù)集;
[0012](3)在已標(biāo)記數(shù)據(jù)集上構(gòu)造初始集成分類(lèi)器;
[0013](4)每一次迭代,根據(jù)新的信息量度量準(zhǔn)則挑選出固定數(shù)目的最高信息量的未標(biāo)記樣本用于人工標(biāo)記;
[0014](5)利用最終得到的集成分類(lèi)器進(jìn)行預(yù)測(cè)。
[0015]所述步驟I)是按以下步驟進(jìn)行的:
[0016](Ia)利用主成分分析PCA算法提取高光譜圖像的譜特征,若干個(gè)主成分能夠包含圖像的大部分信息;
[0017](Ib)在每一個(gè)主成分的基礎(chǔ)上進(jìn)行形態(tài)學(xué)開(kāi)和閉運(yùn)算,提取形態(tài)學(xué)特征;
[0018](Ic)將提取出來(lái)的譜特征和形態(tài)學(xué)特征融入一個(gè)特征向量,形成每一個(gè)樣本即像素的新特征。
[0019]所述步驟4)按如下過(guò)程進(jìn)行:
[0020]4a)對(duì)每一個(gè)未標(biāo)記樣本xu,按照新的信息量度量準(zhǔn)則計(jì)算它的信息量:
[0021]
【權(quán)利要求】
1.一種基于主動(dòng)學(xué)習(xí)的高光譜圖像分類(lèi)方法,其特征在于:包括如下步驟: 1)對(duì)高光譜圖像的每一個(gè)樣本即像素,提取譜特征與空間特征,將提取譜特征與空間特征融合為一個(gè)特征向量; 2)將所有樣本隨機(jī)劃分為測(cè)試數(shù)據(jù)集與訓(xùn)練數(shù)據(jù)集,訓(xùn)練數(shù)據(jù)集被進(jìn)一步隨機(jī)劃分為已標(biāo)記數(shù)據(jù)集和未標(biāo)記數(shù)據(jù)集; 3)在已標(biāo)記數(shù)據(jù)集上構(gòu)造初始集成分類(lèi)器; 4)每一次迭代,根據(jù)新的信息量度量準(zhǔn)則挑選出固定數(shù)目的最高信息量的未標(biāo)記樣本用于人工標(biāo)記; 5)利用最終得到的集成分類(lèi)器進(jìn)行預(yù)測(cè)。
2.據(jù)權(quán)利要求1所述的一種基于主動(dòng)學(xué)習(xí)的高光譜圖像分類(lèi)方法,其特征在于:所述步驟I)是按以下步驟進(jìn)行的: (Ia)利用主成分分析PCA算法提取高光譜圖像的譜特征,若干個(gè)主成分能夠包含圖像的大部分信息; (Ib)在每一個(gè)主成分的基礎(chǔ)上進(jìn)行形態(tài)學(xué)開(kāi)和閉運(yùn)算,提取形態(tài)學(xué)特征; (Ic)將提取出來(lái)的譜特征和形態(tài)學(xué)特征融入一個(gè)特征向量,形成每一個(gè)樣本即像素的新特征。
3.根據(jù)權(quán)利要求1所述的一種基于主動(dòng)學(xué)習(xí)的高光譜圖像分類(lèi)方法,其特征在于:所述步驟4)按如下過(guò)程進(jìn)行: 4a)對(duì)每一個(gè)未標(biāo)記樣本xu,按照新的信息量度量準(zhǔn)則計(jì)算它的信息量:
【文檔編號(hào)】G06K9/62GK103839078SQ201410066856
【公開(kāi)日】2014年6月4日 申請(qǐng)日期:2014年2月26日 優(yōu)先權(quán)日:2014年2月26日
【發(fā)明者】王爽, 焦李成, 吳林生, 侯彪, 馬文萍, 馬晶晶, 牛東 申請(qǐng)人:西安電子科技大學(xué)