專(zhuān)利名稱(chēng):基于特征選擇和半監(jiān)督學(xué)習(xí)的遙感圖像檢索方法
技術(shù)領(lǐng)域:
本發(fā)明涉及圖像檢索方法,尤其涉及一種遙感圖像檢索方法。
背景技術(shù):
隨著遙感技術(shù)的不斷發(fā)展,每天獲得的遙感圖像數(shù)量急劇增加,對(duì)遙感圖像自動(dòng) 查詢(xún)和檢索技術(shù)的研究逐漸成為急需研究的課題。目前,國(guó)內(nèi)外學(xué)者已經(jīng)提出了很多方法 進(jìn)行基于內(nèi)容的遙感圖像的檢索(CBIR),如基于Gabor變換的紋理特征,顏色特征和紋理 特征結(jié)合,紋理特征和空間信息融合,直方圖特征相似性度量法,以及基于GIS空間語(yǔ)義的 方法等。Zhu Bin等提出利用Gabor紋理特征來(lái)進(jìn)行航空?qǐng)D像的檢索[Bin Zhu,Marshall R, Hsinchun C. Creating a large-scale content-based airphoto image digital library IEEE Trans onimage processing, 2000,vol. 9,no. 1 :163-167.];陸麗珍等提出融合Gabor 紋理特征和顏色特征進(jìn)行遙感圖像檢索,并采用紋理和顏色特征歐氏距離的線(xiàn)性加權(quán)來(lái)度 量相似性[陸麗珍,劉仁義,劉南.一種融合顏色和紋理特征的遙感圖像檢索方法,中國(guó)圖 像圖形學(xué)報(bào)(A),2004,9(3) =328-332.];曾志明等利用改進(jìn)的共生矩陣紋理特征來(lái)進(jìn)行大 尺度遙感圖像檢索[曾志明,李峰,傅琨,等.一種大尺寸遙感圖像基于內(nèi)容檢索的紋理特 征提取算法,武漢大學(xué)學(xué)報(bào)(信息科學(xué)版),2005,30 (12) :1080-1083.]。包倩和郭平針對(duì) 單波段遙感圖像檢索,分別研究了基于特征向量的相似性度量和基于概率的相似性度量, 發(fā)現(xiàn)x 2統(tǒng)計(jì)距離和相似夾角余弦度量對(duì)第一種相似性度量較有效,而基于K-近鄰法則的 計(jì)算方法對(duì)第二種相似性度量較有效[包倩,郭平.基于直方圖的遙感圖像相似性檢索方 法比較,遙感學(xué)報(bào),2006,10 (6) :893-900. ]。Ferecatu和Boujemaa提出利用主動(dòng)相關(guān)反饋 W^fe^f^S^S^HIft^^ [Marin Ferecatu, NozhaBoujemaa. Interactive remote sensing image retrieval using active relevance feedback. IEEE Transactionson geoscience and remote sensing,2007, vol. 45, no. 4 :818_826.]。CBIR主要是依靠特征提取和高維索引技術(shù)進(jìn)行檢索,采用的方法是系統(tǒng)從每一 幅圖像中自動(dòng)提取出若干低層視覺(jué)特征(如顏色、紋理、形狀等),以高維向量的形式存入 數(shù)據(jù)庫(kù),然后比較這些特征的相似度來(lái)獲得檢索結(jié)果。上述的現(xiàn)有技術(shù)中針對(duì)基于內(nèi)容的 遙感圖像檢索技術(shù)的研究主要集中在特征的提取和融合方面,但是都沒(méi)有注意到這樣一個(gè) 事實(shí)不同類(lèi)型的檢索目標(biāo),特征應(yīng)該是不同的。對(duì)于同一幅圖像,不同的特征在描述其內(nèi) 容的有效性方面也不一樣,因此如果提取最能表示檢索目標(biāo)內(nèi)容的特征應(yīng)該可以有效提高 檢索性能。相關(guān)反饋(Relevance feedback)是CBIR中最常用的學(xué)習(xí)策略,它依靠人機(jī)交 互過(guò)程,用戶(hù)不斷地進(jìn)行反饋,其性能隨著反饋樣本集增大而提高,但同時(shí)也會(huì)大大增加 用戶(hù)的負(fù)擔(dān)。為了減少用戶(hù)因多次反饋提供大量已標(biāo)記樣本的繁重負(fù)擔(dān),也有學(xué)者提出 利用半監(jiān)督學(xué)習(xí)策略進(jìn)行圖像檢索,該策略主要思想是利用大量的未標(biāo)記示例來(lái)輔助對(duì) 少量有標(biāo)記示例的學(xué)習(xí),整個(gè)學(xué)習(xí)過(guò)程不需人工干預(yù),僅基于學(xué)習(xí)算法自身對(duì)未標(biāo)記示 例進(jìn)行利用,例如,Yao等提出了一種基于半監(jiān)督學(xué)習(xí)的語(yǔ)義錯(cuò)誤糾正輸出編碼的醫(yī)學(xué)MWWMTj^ (SEMI-SECC) [Jian Yao, Zhongfei Zhang, Antani S, et al. Automatic Medical ImageAnnotation and Retrieval using SEMI-SECC[C]. Proceedings of IEEE International Conference onMultimedia and Expo,Piscaaway,NJ,United States :IEEE Press, 2006 :2005_2008.]。由于在基于內(nèi)容的遙感圖像檢索中,通常只有很少的示例樣本 (有時(shí)甚至只有一個(gè)目標(biāo)示例樣本),而且要獲得更多的已標(biāo)記示例樣本也很困難,因此采 用半監(jiān)督學(xué)習(xí)進(jìn)行遙感圖像的檢索是一個(gè)較合理的選擇。
發(fā)明內(nèi)容
我們知道不同類(lèi)型的檢索目標(biāo),特征是不同的,對(duì)于同一個(gè)檢索目標(biāo)內(nèi)容的描 述,不同特征的有效性是不一樣的,如果能夠找出最能表示檢索目標(biāo)內(nèi)容的特征來(lái)進(jìn)行圖 像檢索,那就可以大大提高檢索性能?;谶@樣的思路,本發(fā)明力圖提供一種結(jié)合特征選擇的遙感圖像檢索方法,即針 對(duì)待檢索的圖像,選擇出最能表示檢索目標(biāo)內(nèi)容的特征來(lái)進(jìn)行圖像檢索。本發(fā)明利用聚類(lèi)分析的方法來(lái)進(jìn)行特征選擇。眾所周知,聚類(lèi)是一種典型的無(wú)監(jiān)督學(xué)習(xí)方法,它根據(jù)圖像內(nèi)容把圖像聚類(lèi)到某 些有意義的集合;在聚類(lèi)過(guò)程中,通常由人工來(lái)確定需要預(yù)先給定的聚類(lèi)數(shù)目,這不僅增加 了用戶(hù)的負(fù)擔(dān),而且還可能會(huì)引入人為因素對(duì)聚類(lèi)結(jié)果的干擾;另外,圖像聚類(lèi)的目的根據(jù) 一定的準(zhǔn)則將圖像集分成多個(gè)聚類(lèi),使得位于同一聚類(lèi)簇內(nèi)的圖像相似度盡可能大,而位 于不同簇的圖像相似度盡可能小,因此,為了正確地評(píng)價(jià)聚類(lèi)效果,從而客觀地進(jìn)行特征選 擇,選取合適的聚類(lèi)有效性指數(shù)十分重要。本發(fā)明利用最小描述長(zhǎng)度(MDL)準(zhǔn)則來(lái)確定聚類(lèi)數(shù)目并根據(jù)Davies-Bouldin 指數(shù)(以下均簡(jiǎn)稱(chēng)DB指數(shù))對(duì)聚類(lèi)的有效性進(jìn)行評(píng)價(jià),從而找到最能表示檢索目標(biāo)內(nèi) 容的圖像特征。這里所說(shuō)的最小描述長(zhǎng)度準(zhǔn)則是現(xiàn)有技術(shù),具體內(nèi)容可參考文獻(xiàn)[Horst B,AlesL,Alexander S. MDL principle for robust vector quantisation. Pattern Analysis&Applications,1999,2 :59_72,Springer-Verlag London Limited. ] ;DB 指數(shù)是 衡量聚類(lèi)效果時(shí)常用的一個(gè)指數(shù),由類(lèi)內(nèi)散布和類(lèi)間散布的比值表示,比值越小表示聚類(lèi) 效果子[Davies D. L. , Bouldin D. ff. . A cluster separation measure. 1979. IEEETrans. Pattern Anal. Machine Intell. 1 (4). 224-227]??紤]到遙感圖像檢索不完全是無(wú)監(jiān)督的, 用戶(hù)最初給定的示例可以當(dāng)作弱啟發(fā)信息,圖像特征應(yīng)該有利于該圖像子塊和其他圖像塊 的區(qū)別。因此我們對(duì)現(xiàn)有的DB指數(shù)進(jìn)行了一定的改進(jìn),從而更有利于特征選擇,具體如下 只計(jì)算用戶(hù)示例圖像子塊所在的目標(biāo)子類(lèi)的類(lèi)內(nèi)散布值,而不包括非目標(biāo)子類(lèi)的類(lèi)內(nèi)散布 值,類(lèi)間散布值也只包括非目標(biāo)子類(lèi)與該目標(biāo)子類(lèi)之間的類(lèi)間散布值,而不包括非目標(biāo)子 類(lèi)之間的類(lèi)間散布值,這樣不僅可以突出目標(biāo)子類(lèi)的重要性以及目標(biāo)子類(lèi)與非目標(biāo)子類(lèi)之 間的區(qū)別,而且還可以減少計(jì)算量。通過(guò)以上的特征選擇,選擇出最能表示檢索目標(biāo)內(nèi)容的圖像特征后,就可以使用 現(xiàn)有的各種方法構(gòu)造相應(yīng)的分類(lèi)器進(jìn)行圖像檢索。綜合以上分析,本發(fā)明按照如下方法進(jìn)行遙感圖像檢索一種基于特征選擇和半監(jiān)督學(xué)習(xí)的遙感圖像檢索方法,首先選擇待檢索圖像的特 征,然后根據(jù)選擇出的特征構(gòu)造相應(yīng)的分類(lèi)器進(jìn)行檢索,其特征在于所述選擇待檢索圖像的特征是指根據(jù)MDL準(zhǔn)則和改進(jìn)的DB指數(shù),通過(guò)聚類(lèi)分析的方法選擇待檢索圖像的最優(yōu) 顏色特征和最優(yōu)紋理特征;具體通過(guò)以下各步驟實(shí)現(xiàn)步驟1)將待檢索圖像進(jìn)行分塊;步驟2)分別提取待檢索圖像的各個(gè)顏色特征和紋理特征;步驟3)根據(jù)最小描述長(zhǎng)度準(zhǔn)則確定聚類(lèi)數(shù)目k,具體按照如下各步驟步驟31)根據(jù)最遠(yuǎn)距離準(zhǔn)則初始化m個(gè)聚類(lèi)中心;步驟32)任意設(shè)定某一聚類(lèi)中心Cp根據(jù)下述公式計(jì)算, A/Cy表示假設(shè)將
Cj移除時(shí),移除前后編碼長(zhǎng)度的總變化量 其中,k表示聚類(lèi)簇中心的編碼長(zhǎng)度 nq表示第q簇聚類(lèi)樣本的數(shù)目;表示滿(mǎn)足最近鄰參考點(diǎn)為第j個(gè)聚類(lèi)中心而第 二近鄰參考點(diǎn)為第q個(gè)聚類(lèi)中心的樣本數(shù)目,d表示特征的維數(shù),x是簇q中的樣本成員, Xi是第i個(gè)特征的數(shù)值;ciq表示第q個(gè)聚類(lèi)中心的第i維的值,表示第j個(gè)聚類(lèi)中心的 第i維的值;I I I表示總的樣本數(shù)目;P」表示第G簇聚類(lèi)樣本在總體樣本中所占的比重;o 是樣本數(shù)據(jù)的方差,取值范圍是
;步驟33)判斷步驟33中得到的.是否小于0,如是,則移除聚類(lèi)中心;如否, 則保留聚類(lèi)中心Cj;步驟34)迭代執(zhí)行步驟32-步驟33,直到?jīng)]有冗余的聚類(lèi)中心,此時(shí)保留下來(lái)的聚 類(lèi)中心數(shù)目即為需確定的聚類(lèi)數(shù)目k;步驟4)根據(jù)步驟3確定的聚類(lèi)數(shù)目k利用K-means聚類(lèi)方法分別對(duì)步驟2中提 取的每個(gè)特征進(jìn)行聚類(lèi);步驟5)按照如下公式分別計(jì)算步驟4中得到的每個(gè)特征的改進(jìn)的DB指數(shù),并分 別選出顏色特征中改進(jìn)的DB指數(shù)最小的顏色特征和紋理特征中改進(jìn)的DB指數(shù)最小的紋理 特征,作為最優(yōu)顏色特征和最優(yōu)紋理特征 其中,D(*)是一個(gè)距離算子,對(duì)于顏色特征,D(*)表示直方圖交距離;而對(duì)于紋理特征,D( )表示歐式距離;t是目標(biāo)子類(lèi)的簇編號(hào);St是目標(biāo)子類(lèi)t中所有樣本到聚類(lèi) 中心的平均距離;|Ct|是目標(biāo)子類(lèi)t中的樣本數(shù)目;pt是目標(biāo)子類(lèi)t的聚類(lèi)中心;k表示總 的聚類(lèi)數(shù)目;Pi表示非目標(biāo)子類(lèi)的聚類(lèi)中心;DB。表示顏色特征的改進(jìn)的DB指數(shù);DBt表示 紋理特征的改進(jìn)的DB指數(shù)。由于遙感圖像反映的是地面覆蓋的物理特性,因此表現(xiàn)在圖像中既有顏色信息, 也有紋理信息,因此本發(fā)明選擇一個(gè)最優(yōu)顏色特征和一個(gè)最優(yōu)紋理特征。當(dāng)然,在某些特殊 情況下,例如湖泊,只要一個(gè)特征就足夠了,因此本發(fā)明還考慮到不同特征的權(quán)重,通過(guò)二 值化法將權(quán)重低的特征權(quán)重置為0即可??紤]到在使用常用的相關(guān)反饋的學(xué)習(xí)方法進(jìn)行檢索時(shí),在每次反饋的過(guò)程中需要 用戶(hù)來(lái)標(biāo)記正反例樣本,大大增加了用戶(hù)的負(fù)擔(dān);同時(shí),在基于內(nèi)容的遙感圖像檢索中,通 常只有很少的訓(xùn)練樣本(有時(shí)甚至只有一個(gè)訓(xùn)練樣本),并且要獲得大量已標(biāo)記的訓(xùn)練樣 本也很困難,因此,本發(fā)明優(yōu)選半監(jiān)督的學(xué)習(xí)方法進(jìn)行圖像檢索,特別是其中的協(xié)同訓(xùn)練方 法(Co-training)和自訓(xùn)練學(xué)習(xí)方法。下面對(duì)這兩種半監(jiān)督學(xué)習(xí)方法的基本內(nèi)容作簡(jiǎn)要介 紹協(xié)同訓(xùn)練方法是基于如下假設(shè)特征空間可以自然地分成兩個(gè),兩個(gè)分類(lèi)器在這 兩個(gè)子特征空間中進(jìn)行訓(xùn)練。在協(xié)同訓(xùn)練的過(guò)程中,每個(gè)分類(lèi)器通過(guò)添加由另一個(gè)分類(lèi)器 所確定的高置信度的樣本來(lái)擴(kuò)大自己的訓(xùn)練樣本集,依次迭代,直到?jīng)]有更多的未標(biāo)記樣 本;在自訓(xùn)練學(xué)習(xí)的過(guò)程中,先用已標(biāo)記數(shù)據(jù)樣本構(gòu)造一個(gè)初始的分類(lèi)模型,然后用 這個(gè)模型去估計(jì)未標(biāo)記數(shù)據(jù)的標(biāo)簽,用合適的選擇準(zhǔn)則選出正確的被標(biāo)記數(shù)據(jù)并把它們加 入到訓(xùn)練集中,依次迭代直到滿(mǎn)足一定的終止條件。在自訓(xùn)練學(xué)習(xí)過(guò)程中,需要確定一個(gè)閾 值Th來(lái)作為迭代終止的條件閾值,該閾值能把與目標(biāo)子類(lèi)最相近的非目標(biāo)子類(lèi)區(qū)分開(kāi),該 閾值Th是按照如下方法設(shè)定的Th = ^W2xD^其中,DpD2分別是目標(biāo)簇和最相鄰非目標(biāo)簇的半徑,D12是目標(biāo)簇中心和最相鄰非 目標(biāo)簇中心之間的距離。在求取簇的半徑時(shí),一般選用簇中樣本到中心的最遠(yuǎn)距離,但是考 慮到簇中可能存在少量噪聲樣本,可以采用主元分析法,以距離簇中心最近的前1(%的樣本 中找到的最遠(yuǎn)距離作為簇的半徑,其中K取值為100以下,可根據(jù)實(shí)際需要選擇。由于本發(fā)明方法選擇了最優(yōu)顏色特征和最優(yōu)紋理特征,而這兩個(gè)特征的權(quán)重可能 會(huì)影響到半監(jiān)督學(xué)習(xí)方法的檢索效果,因此,本發(fā)明利用特征選擇中得到的改進(jìn)的DB指數(shù) 確定最優(yōu)顏色特征和最優(yōu)紋理特征的權(quán)重;同時(shí)考慮到對(duì)于顏色特征和紋理特征,不同值 域內(nèi)相同數(shù)值的DB指數(shù)所表示的特征差異是非等價(jià)的,因此需要通過(guò)非均勻量化來(lái)確定 特征權(quán)重,這里采用二值化方法來(lái)確定特征權(quán)重對(duì)于顏色特征,當(dāng)所選最優(yōu)特征改進(jìn)的 DB指數(shù)的倒數(shù)小于閾值時(shí),說(shuō)明目標(biāo)子類(lèi)與非目標(biāo)子類(lèi)在顏色空間中的區(qū)別不是很明 顯,此時(shí)顏色特征的權(quán)重設(shè)為0,否則為1 ;對(duì)于紋理特征,當(dāng)所選最優(yōu)特征改進(jìn)的DB指數(shù)的 倒數(shù)小于閾值T2時(shí),說(shuō)明目標(biāo)子類(lèi)與非目標(biāo)子類(lèi)在紋理特征空間的區(qū)別不是很明顯,此時(shí) 紋理特征的權(quán)重設(shè)為0,否則為1。根據(jù)以上分析,就可以得出本發(fā)明的優(yōu)選方案如下
7
首先,根據(jù)MDL準(zhǔn)則和改進(jìn)的DB指數(shù),通過(guò)聚類(lèi)分析的方法選擇待檢索圖像的最 優(yōu)顏色特征和最優(yōu)紋理特征,即按照上述步驟1-步驟5執(zhí)行;然后,根據(jù)最優(yōu)顏色特征和最優(yōu)紋理特征的權(quán)重選擇合適的半監(jiān)督學(xué)習(xí)方法,并 利用選取的半監(jiān)督學(xué)習(xí)方法進(jìn)行圖像檢索;具體由以下各步驟實(shí)現(xiàn)步驟6)根據(jù)改進(jìn)的DB指數(shù)分別計(jì)算最優(yōu)顏色特征和最優(yōu)紋理特征的二值化權(quán) 重,具體方法如下對(duì)于顏色特征,當(dāng)所選最優(yōu)特征改進(jìn)的DB指數(shù)的倒數(shù)小于預(yù)先設(shè)定的閾值時(shí), 說(shuō)明目標(biāo)子類(lèi)與非目標(biāo)子類(lèi)在顏色空間中的區(qū)別不是很明顯,此時(shí)顏色特征的權(quán)重設(shè)為0, 否則為1 ;對(duì)于紋理特征,當(dāng)所選最優(yōu)特征改進(jìn)的DB指數(shù)的倒數(shù)小于預(yù)先設(shè)定的閾值T2時(shí), 說(shuō)明目標(biāo)子類(lèi)與非目標(biāo)子類(lèi)在紋理特征空間的區(qū)別不是很明顯,此時(shí)紋理特征的權(quán)重設(shè)為 0,否則為1 ;步驟7)選取合適的半監(jiān)督學(xué)習(xí)方法進(jìn)行檢索,具體為當(dāng)最優(yōu)顏色特征和紋理特 征的二值化權(quán)重都為1時(shí),選擇協(xié)同訓(xùn)練方法進(jìn)行檢索;而當(dāng)最優(yōu)顏色特征和紋理特征中 某一特征的權(quán)重為0時(shí),選擇自訓(xùn)練方法單獨(dú)依靠權(quán)重為1的特征進(jìn)行檢索。本發(fā)明首先根據(jù)最小描述長(zhǎng)度準(zhǔn)則和改進(jìn)的Davies-Bouldin指數(shù),利用聚類(lèi)方 法分別選出最優(yōu)的顏色特征和紋理特征;然后根據(jù)最優(yōu)的顏色特征和紋理特征的二值化權(quán) 重選擇合適的半監(jiān)督學(xué)習(xí)方法進(jìn)行遙感圖像的檢索。相比較現(xiàn)有技術(shù),本發(fā)明不僅可以大 大提高檢索質(zhì)量,還能有效減少檢索過(guò)程中計(jì)算量,提高檢索的速度。
圖1是本發(fā)明具體實(shí)施方式
的流程圖。
具體實(shí)施例方式下面結(jié)合附圖對(duì)本發(fā)明的技術(shù)方案進(jìn)行詳細(xì)說(shuō)明使用本發(fā)明的方法對(duì)不同的地表覆蓋(land cover)進(jìn)行了檢索實(shí)驗(yàn),其中既有土 壤侵蝕區(qū)域的檢索,也有居民點(diǎn),林地,湖泊圍養(yǎng)等一般目標(biāo)的檢索;具體檢索按照以下各 步驟步驟1)將待檢索圖像進(jìn)行分塊;在本具體實(shí)施方式
中,為了避免將同一目標(biāo)分入不同的小塊之中,采取了重疊分 塊策略,每塊大小為,長(zhǎng)=min(128,樣本圖像長(zhǎng)),寬=min(128,樣本圖像寬),塊與塊之間 重疊1/2長(zhǎng)乘以1/2寬像素;步驟2)分別提取待檢索圖像的各個(gè)顏色特征和紋理特征;在本具體實(shí)施方式
中,分別提取了 HSI顏色特征、Lab顏色特征、Glcm紋理特征以 及Gabor紋理特征;步驟3)根據(jù)最小描述長(zhǎng)度準(zhǔn)則確定聚類(lèi)數(shù)目k,具體按照如下各步驟步驟31)根據(jù)最遠(yuǎn)距離準(zhǔn)則初始化m個(gè)聚類(lèi)中心;步驟32)任意設(shè)定某一聚類(lèi)中心Cp根據(jù)下述公式計(jì)算A、, A/q表示假設(shè)將
Cj移除時(shí),移除前后編碼長(zhǎng)度的總變化量
2(111 2)<J其中,L0表示聚類(lèi)簇中心的編碼長(zhǎng)度 nq表示第q簇聚類(lèi)樣本的數(shù)目;表示滿(mǎn)足最近鄰參考點(diǎn)為第j個(gè)聚類(lèi)中心而第 二近鄰參考點(diǎn)為第q個(gè)聚類(lèi)中心的樣本數(shù)目,d表示特征的維數(shù),x是簇q中的樣本成員, Xi是第i個(gè)特征的數(shù)值;ciq表示第q個(gè)聚類(lèi)中心的第i維的值,表示第j個(gè)聚類(lèi)中心的 第i維的值;I I I表示總的樣本數(shù)目;P」表示第G簇聚類(lèi)樣本在總體樣本中所占的比重;o 是樣本數(shù)據(jù)的方差,取值范圍是1,0.2],在本具體實(shí)施方式
中,o的取值為0.12;步驟33)判斷步驟33中得到的^、是否小于0,如是,則移除聚類(lèi)中心C」;如否, 則保留聚類(lèi)中心Cj;步驟34)迭代執(zhí)行步驟32-步驟33,直到?jīng)]有冗余的聚類(lèi)中心,此時(shí)保留下來(lái)的聚 類(lèi)中心數(shù)目即為需確定的聚類(lèi)數(shù)目k;步驟4)根據(jù)步驟3確定的聚類(lèi)數(shù)目k利用K-means聚類(lèi)方法分別對(duì)步驟2中提 取的每個(gè)特征進(jìn)行聚類(lèi);步驟5)按照如下公式分別計(jì)算步驟4中得到的每個(gè)特征的改進(jìn)的DB指數(shù),并分 別選出顏色特征中改進(jìn)的DB指數(shù)最小的顏色特征和紋理特征中改進(jìn)的DB指數(shù)最小的紋理 特征,作為最優(yōu)顏色特征和最優(yōu)紋理特征 其中,D(*)是一個(gè)距離算子,對(duì)于顏色特征,D(*)表示直方圖交距離;而對(duì)于紋 理特征,D( )表示歐式距離;t是目標(biāo)子類(lèi)的簇編號(hào);St是目標(biāo)子類(lèi)t中所有樣本到聚類(lèi) 中心的平均距離;|Ct|是目標(biāo)子類(lèi)t中的樣本數(shù)目;pt是目標(biāo)子類(lèi)t的聚類(lèi)中心;k表示總 的聚類(lèi)數(shù)目;Pi表示非目標(biāo)子類(lèi)的聚類(lèi)中心;DB。表示顏色特征的改進(jìn)的DB指數(shù);DBt表示 紋理特征的改進(jìn)的DB指數(shù);步驟6)根據(jù)改進(jìn)的DB指數(shù)分別計(jì)算最優(yōu)顏色特征和最優(yōu)紋理特征的二值化權(quán) 重,具體方法如下對(duì)于顏色特征,當(dāng)所選最優(yōu)特征改進(jìn)的DB指數(shù)的倒數(shù)小于預(yù)先設(shè)定的閾值時(shí), 說(shuō)明目標(biāo)子類(lèi)與非目標(biāo)子類(lèi)在顏色空間中的區(qū)別不是很明顯,此時(shí)顏色特征的權(quán)重設(shè)為0, 否則為1 ;對(duì)于紋理特征,當(dāng)所選最優(yōu)特征改進(jìn)的DB指數(shù)的倒數(shù)小于預(yù)先設(shè)定的閾值T2時(shí), 說(shuō)明目標(biāo)子類(lèi)與非目標(biāo)子類(lèi)在紋理特征空間的區(qū)別不是很明顯,此時(shí)紋理特征的權(quán)重設(shè)為0,否則為1 ;在本具體實(shí)施方式
中,閾值1\、T2的值分別取2和3 ;步驟7)選取合適的半監(jiān)督學(xué)習(xí)方法進(jìn)行檢索,具體為當(dāng)最優(yōu)顏色特征和紋理特 征的二值化權(quán)重都為1時(shí),選擇協(xié)同訓(xùn)練方法進(jìn)行檢索;而當(dāng)最優(yōu)顏色特征和紋理特征中 某一特征的權(quán)重為0時(shí),選擇自訓(xùn)練方法單獨(dú)依靠權(quán)重為1的特征進(jìn)行檢索;如果本步驟中選擇自訓(xùn)練方法進(jìn)行檢索時(shí),按照以下公式確定聚類(lèi)過(guò)程中作為迭
代終止條件的閾值Th =其中,DpD2分別是目標(biāo)簇和最相鄰非目標(biāo)簇中距離該簇中心最近的前1(%的樣本 中找到的最遠(yuǎn)的樣本與該簇中心之間的距離,K《100 ;D12是目標(biāo)簇中心和最相鄰非目標(biāo)簇 中心之間的距離;在本具體實(shí)施方式
中,K取95。本發(fā)明方法完全可以與現(xiàn)有的CBIR系統(tǒng)結(jié)合,從而實(shí)現(xiàn)自動(dòng)化的遙感圖像檢索。通過(guò)將本發(fā)明方法與現(xiàn)有的相關(guān)反饋法進(jìn)行檢索對(duì)比試驗(yàn),可以發(fā)現(xiàn)本發(fā)明方法 在查全率和查準(zhǔn)率的指標(biāo)上與相關(guān)反饋法相當(dāng),但在檢索中所耗費(fèi)的時(shí)間遠(yuǎn)低于相關(guān)反饋 法所需時(shí)間,且相比基于人機(jī)交互的相關(guān)反饋法,本發(fā)明方法不需要多次人機(jī)交互,減輕了 用戶(hù)的負(fù)擔(dān)。
權(quán)利要求
一種基于特征選擇和半監(jiān)督學(xué)習(xí)的遙感圖像檢索方法,首先選擇待檢索圖像的特征,然后根據(jù)選擇出的特征構(gòu)造相應(yīng)的分類(lèi)器進(jìn)行檢索,其特征在于所述選擇待檢索圖像的特征是指根據(jù)最小描述長(zhǎng)度準(zhǔn)則和改進(jìn)的DB指數(shù),通過(guò)聚類(lèi)分析的方法選擇待檢索圖像的最優(yōu)顏色特征和最優(yōu)紋理特征;具體通過(guò)以下各步驟實(shí)現(xiàn)步驟1)將待檢索圖像進(jìn)行分塊;步驟2)分別提取待檢索圖像的各個(gè)顏色特征和紋理特征;步驟3)根據(jù)最小描述長(zhǎng)度準(zhǔn)則確定聚類(lèi)數(shù)目k,具體按照如下各步驟步驟31)根據(jù)最遠(yuǎn)距離準(zhǔn)則初始化m個(gè)聚類(lèi)中心;步驟32)任意設(shè)定某一聚類(lèi)中心Cj,根據(jù)下述公式計(jì)算表示假設(shè)將Cj移除時(shí),移除前后編碼長(zhǎng)度的總變化量 <mrow><msub> <mi>Δl</mi> <msub><mi>C</mi><mi>j</mi> </msub></msub><mo>=</mo><mo>-</mo><msub> <mi>L</mi> <mn>0</mn></msub><mo>-</mo><msub> <mi>n</mi> <mi>j</mi></msub><msub> <mi>log</mi> <mn>2</mn></msub><msub> <mi>p</mi> <mi>j</mi></msub><mo>+</mo><munderover> <mi>Σ</mi> <mrow><mi>q</mi><mo>=</mo><mn>1</mn><mo>,</mo><mi>q</mi><mo>≠</mo><mi>j</mi> </mrow> <mi>m</mi></munderover><msub> <mi>n</mi> <mi>jq</mi></msub><msub> <mi>log</mi> <mn>2</mn></msub><mrow> <mo>(</mo> <mfrac><mrow> <msub><mi>n</mi><mi>q</mi> </msub> <mo>+</mo> <msub><mi>n</mi><mi>jq</mi> </msub></mrow><mrow> <mo>|</mo> <mi>I</mi> <mo>|</mo></mrow> </mfrac> <mo>)</mo></mrow><mo>+</mo><munder> <mi>Σ</mi> <mrow><mi>x</mi><mo>∈</mo><msub> <mi>c</mi> <mi>j</mi></msub> </mrow></munder><munderover> <mi>Σ</mi> <mrow><mi>i</mi><mo>=</mo><mn>1</mn> </mrow> <mi>d</mi></munderover><mfrac> <mrow><msup> <mrow><mo>(</mo><msub> <mi>x</mi> <mi>i</mi></msub><mo>-</mo><msub> <mi>c</mi> <mi>iq</mi></msub><mo>)</mo> </mrow> <mn>2</mn></msup><mo>-</mo><msup> <mrow><mo>(</mo><msub> <mi>x</mi> <mi>i</mi></msub><mo>-</mo><msub> <mi>c</mi> <mi>ij</mi></msub><mo>)</mo> </mrow> <mn>2</mn></msup> </mrow> <mrow><mn>2</mn><mrow> <mo>(</mo> <mi>ln</mi> <mn>2</mn> <mo>)</mo></mrow><msup> <mi>σ</mi> <mn>2</mn></msup> </mrow></mfrac> </mrow>其中,L0表示聚類(lèi)簇中心的編碼長(zhǎng)度 <mrow><msub> <mi>L</mi> <mn>0</mn></msub><mo>=</mo><msqrt> <mn>9</mn> <mo>×</mo> <mi>σ</mi> <mo>×</mo> <munderover><mi>Σ</mi><mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn></mrow><mi>m</mi> </munderover> <mrow><mo>(</mo><mo>-</mo><msub> <mi>n</mi> <mi>j</mi></msub><msub> <mi>log</mi> <mn>2</mn></msub><msub> <mi>p</mi> <mi>j</mi></msub><mo>+</mo><munderover> <mi>Σ</mi> <mrow><mi>q</mi><mo>=</mo><mn>1</mn><mo>,</mo><mi>q</mi><mo>≠</mo><mi>j</mi> </mrow> <mi>m</mi></munderover><msub> <mi>n</mi> <mi>jq</mi></msub><msub> <mi>log</mi> <mn>2</mn></msub><mrow> <mo>(</mo> <mfrac><mrow> <msub><mi>n</mi><mi>q</mi> </msub> <mo>+</mo> <msub><mi>n</mi><mi>jq</mi> </msub></mrow><mrow> <mo>|</mo> <mi>I</mi> <mo>|</mo></mrow> </mfrac> <mo>)</mo></mrow><mo>+</mo><munder> <mi>Σ</mi> <mrow><mi>x</mi><mo>∈</mo><msub> <mi>c</mi> <mi>j</mi></msub> </mrow></munder><munderover> <mi>Σ</mi> <mrow><mi>i</mi><mo>=</mo><mn>1</mn> </mrow> <mi>d</mi></munderover><mfrac> <mrow><msup> <mrow><mo>(</mo><msub> <mi>x</mi> <mi>i</mi></msub><mo>-</mo><msub> <mi>c</mi> <mi>iq</mi></msub><mo>)</mo> </mrow> <mn>2</mn></msup><mo>-</mo><msup> <mrow><mo>(</mo><msub> <mi>x</mi> <mi>i</mi></msub><mo>-</mo><msub> <mi>c</mi> <mi>ij</mi></msub><mo>)</mo> </mrow> <mn>2</mn></msup> </mrow> <mrow><mn>2</mn><mrow> <mo>(</mo> <mi>ln</mi> <mn>2</mn> <mo>)</mo></mrow><msup> <mi>σ</mi> <mn>2</mn></msup> </mrow></mfrac><mo>)</mo> </mrow> <mo>/</mo> <mi>m</mi></msqrt><mo>;</mo> </mrow>nq表示第q簇聚類(lèi)樣本的數(shù)目;njq表示滿(mǎn)足最近鄰參考點(diǎn)為第j個(gè)聚類(lèi)中心而第二近鄰參考點(diǎn)為第q個(gè)聚類(lèi)中心的樣本數(shù)目,d表示特征的維數(shù),x是簇Cj中的樣本成員,xi是第i個(gè)特征的數(shù)值;ciq表示第q個(gè)聚類(lèi)中心的第i維的值,cij表示第j個(gè)聚類(lèi)中心的第i維的值;|I|表示總的樣本數(shù)目;pj表示第Cj簇聚類(lèi)樣本在總體樣本中所占的比重;σ是樣本數(shù)據(jù)的方差,取值范圍是
;步驟33)判斷步驟33中得到的是否小于0,如是,則移除聚類(lèi)中心Cj;如否,則保留聚類(lèi)中心Cj;步驟34)迭代執(zhí)行步驟32-步驟33,直到?jīng)]有冗余的聚類(lèi)中心,此時(shí)保留下來(lái)的聚類(lèi)中心數(shù)目即為需確定的聚類(lèi)數(shù)目k;步驟4)根據(jù)步驟3確定的聚類(lèi)數(shù)目k利用K-means聚類(lèi)方法分別對(duì)步驟2中提取的每個(gè)特征進(jìn)行聚類(lèi);步驟5)按照如下公式分別計(jì)算步驟4中得到的每個(gè)特征的改進(jìn)的DB指數(shù),并分別選出顏色特征中改進(jìn)的DB指數(shù)最小的顏色特征和紋理特征中改進(jìn)的DB指數(shù)最小的紋理特征,作為最優(yōu)顏色特征和最優(yōu)紋理特征 <mrow><msub> <mi>S</mi> <mi>t</mi></msub><mo>=</mo><mfrac> <mn>1</mn> <mrow><mo>|</mo><msub> <mi>C</mi> <mi>t</mi></msub><mo>|</mo> </mrow></mfrac><munder> <mi>Σ</mi> <mrow><mi>x</mi><mo>∈</mo><msub> <mi>C</mi> <mi>t</mi></msub> </mrow></munder><mi>D</mi><mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <msub><mi>p</mi><mi>t</mi> </msub> <mo>)</mo></mrow> </mrow> <mrow><msub> <mi>DB</mi> <mi>c</mi></msub><mo>=</mo><mfrac> <mn>1</mn> <mrow><mi>k</mi><mo>-</mo><mn>1</mn> </mrow></mfrac><munder> <munder><mi>Σ</mi><mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn></mrow> </munder> <mrow><mi>i</mi><mo>≠</mo><mi>t</mi> </mrow></munder><mfrac> <mrow><mn>1</mn><mo>/</mo><msub> <mi>S</mi> <mi>t</mi></msub> </mrow> <mrow><mn>1</mn><mo>/</mo><mi>D</mi><mrow> <mo>(</mo> <msub><mi>p</mi><mi>i</mi> </msub> <mo>,</mo> <msub><mi>p</mi><mi>t</mi> </msub> <mo>)</mo></mrow> </mrow></mfrac><mo>=</mo><mfrac> <mn>1</mn> <mrow><mi>k</mi><mo>-</mo><mn>1</mn> </mrow></mfrac><munderover> <munder><mi>Σ</mi><mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn></mrow> </munder> <mrow><mi>i</mi><mo>≠</mo><mi>t</mi> </mrow> <mi>k</mi></munderover><mfrac> <mrow><mi>D</mi><mrow> <mo>(</mo> <msub><mi>p</mi><mi>i</mi> </msub> <mo>,</mo> <msub><mi>p</mi><mi>t</mi> </msub> <mo>)</mo></mrow> </mrow> <msub><mi>S</mi><mi>t</mi> </msub></mfrac> </mrow> <mrow><msub> <mi>DB</mi> <mi>t</mi></msub><mo>=</mo><mfrac> <mn>1</mn> <mrow><mi>k</mi><mo>-</mo><mn>1</mn> </mrow></mfrac><munderover> <munder><mi>Σ</mi><mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn></mrow> </munder> <mrow><mi>i</mi><mo>≠</mo><mi>t</mi> </mrow> <mi>k</mi></munderover><mfrac> <msub><mi>S</mi><mi>t</mi> </msub> <mrow><mi>D</mi><mrow> <mo>(</mo> <msub><mi>p</mi><mi>i</mi> </msub> <mo>,</mo> <msub><mi>p</mi><mi>t</mi> </msub> <mo>)</mo></mrow> </mrow></mfrac> </mrow>其中,D(·)是一個(gè)距離算子,對(duì)于顏色特征,D(·)表示直方圖交距離;而對(duì)于紋理特征,D(·)表示歐式距離;t是目標(biāo)子類(lèi)的簇編號(hào);St是目標(biāo)子類(lèi)t中所有樣本到聚類(lèi)中心的平均距離;|Ct|是目標(biāo)子類(lèi)t中的樣本數(shù)目;pt是目標(biāo)子類(lèi)t的聚類(lèi)中心;k表示總的聚類(lèi)數(shù)目;pi表示非目標(biāo)子類(lèi)的聚類(lèi)中心;DBc表示顏色特征的改進(jìn)的DB指數(shù);DBt表示紋理特征的改進(jìn)的DB指數(shù)。FSA00000156084100011.tif,FSA00000156084100014.tif
2.如權(quán)利要求1所述基于特征選擇和半監(jiān)督學(xué)習(xí)的遙感圖像檢索方法,其特征在于 所述根據(jù)選擇出的特征構(gòu)造相應(yīng)的分類(lèi)器進(jìn)行檢索是指根據(jù)最優(yōu)顏色特征和最優(yōu)紋理特 征的權(quán)重選擇合適的半監(jiān)督學(xué)習(xí)方法,并利用選取的半監(jiān)督學(xué)習(xí)方法進(jìn)行圖像檢索;具體 由以下步驟實(shí)現(xiàn)步驟6)根據(jù)改進(jìn)的DB指數(shù)分別計(jì)算最優(yōu)顏色特征和最優(yōu)紋理特征的二值化權(quán)重,具 體方法如下對(duì)于顏色特征,當(dāng)所選最優(yōu)特征改進(jìn)的DB指數(shù)的倒數(shù)小于預(yù)先設(shè)定的閾值T1時(shí),說(shuō)明 目標(biāo)子類(lèi)與非目標(biāo)子類(lèi)在顏色空間中的區(qū)別不是很明顯,此時(shí)顏色特征的權(quán)重設(shè)為0,否則 為1 ;對(duì)于紋理特征,當(dāng)所選最優(yōu)特征改進(jìn)的DB指數(shù)的倒數(shù)小于預(yù)先設(shè)定的閾值T2時(shí),說(shuō)明 目標(biāo)子類(lèi)與非目標(biāo)子類(lèi)在紋理特征空間的區(qū)別不是很明顯,此時(shí)紋理特征的權(quán)重設(shè)為0,否 則為1 ;步驟7)選取合適的半監(jiān)督學(xué)習(xí)方法進(jìn)行檢索,具體為當(dāng)最優(yōu)顏色特征和紋理特征的 二值化權(quán)重都為1時(shí),選擇協(xié)同訓(xùn)練方法進(jìn)行檢索;而當(dāng)最優(yōu)顏色特征和紋理特征中某一 特征的權(quán)重為0時(shí),選擇自訓(xùn)練方法單獨(dú)依靠權(quán)重為1的特征進(jìn)行檢索。
3.如權(quán)利要求2所述基于特征選擇和半監(jiān)督學(xué)習(xí)的遙感圖像檢索方法,其特征在于 步驟6中所述預(yù)先設(shè)定的閾值1\、T2的值分別取2和3。
4.如權(quán)利要求2所述基于特征選擇和半監(jiān)督學(xué)習(xí)的遙感圖像檢索方法,其特征在于 當(dāng)步驟7中選擇自訓(xùn)練方法進(jìn)行檢索時(shí),按照以下公式確定聚類(lèi)過(guò)程中作為迭代終止條件 的閾值Th Th = -^1~XD12 D1 + D2 12其中,DpD2分別是目標(biāo)簇和最相鄰非目標(biāo)簇中距離該簇中心最近的前1(%的樣本中找 到的最遠(yuǎn)的樣本與該簇中心之間的距離,K《100 ;D12是目標(biāo)簇中心和最相鄰非目標(biāo)簇中心 之間的距離。
5.如權(quán)利要求4所述基于特征選擇和半監(jiān)督學(xué)習(xí)的遙感圖像檢索方法,其特征在于 所述K取值為95。
全文摘要
本發(fā)明公開(kāi)了一種基于特征選擇和半監(jiān)督學(xué)習(xí)的遙感圖像檢索方法,首先根據(jù)最小描述長(zhǎng)度準(zhǔn)則和改進(jìn)的Davies-Bouldin指數(shù),利用聚類(lèi)方法分別選出最優(yōu)的顏色特征和紋理特征;然后根據(jù)最優(yōu)的顏色特征和紋理特征的二值化權(quán)重選擇合適的半監(jiān)督學(xué)習(xí)方法進(jìn)行遙感圖像的檢索。相比較現(xiàn)有的遙感圖像檢索方法,本發(fā)明不僅可以大大提高檢索質(zhì)量,還能有效減少檢索過(guò)程中計(jì)算量,提高檢索的速度。
文檔編號(hào)G06F17/30GK101853304SQ201010195139
公開(kāi)日2010年10月6日 申請(qǐng)日期2010年6月8日 優(yōu)先權(quán)日2010年6月8日
發(fā)明者萬(wàn)定生, 余宇峰, 馮鈞, 朱佳麗, 朱躍龍, 李士進(jìn) 申請(qǐng)人:河海大學(xué)