專利名稱:一種基于稀疏編碼的圖像視覺特征提取方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種基于稀疏編碼的圖像視覺特征提取方法,屬于計算機數(shù)字圖像處理技術(shù)領(lǐng)域。
背景技術(shù):
圖像視覺特征是計算機視覺領(lǐng)域為了使機器學(xué)習(xí)、感知圖像而對圖像進行的一種編碼,視覺特征以分為全局特征和局部特征兩種,常用的全局特征有顏色特征、紋理特征等,最常用的局部特征是尺度不變特征(Scale invariant feature transform,以下簡稱SIFT特征)。
稀疏編碼是利用一組超完備的基去盡可能稀疏地表達一個向量的一種編碼技術(shù),現(xiàn)已廣泛應(yīng)用于壓縮感知、圖像修復(fù)、人臉識別等機器學(xué)習(xí)的各個領(lǐng)域,且取得了很好的效果。稀疏編碼在圖像處理領(lǐng)域的成功主要是由于兩個原因(I)自然圖片具有稀疏結(jié)構(gòu)?;谌祟愐曈X,一幅自然圖片一般可以被少數(shù)幾個基本結(jié)構(gòu)描述——比如,邊,線或者其他特征元素。當(dāng)使用一組Iog-Gabor濾波器對圖片過濾,并統(tǒng)計結(jié)果直方圖,可以發(fā)現(xiàn)陡峭的尖峰,這說明圖片具有稀疏結(jié)構(gòu)。(2)稀疏表達對噪聲和其他退化情況具有更魯棒的性質(zhì)。這是因為,對于一組過完備的基,編碼方式有無數(shù)種一而在完備情況下,編碼方式只有一種一很難相信,先驗知識(即詞典)可以完全確定一幅圖像。數(shù)值實驗表明,當(dāng)圖像發(fā)生微小的平移或縮放操作時,稀疏編碼系數(shù)只是在那些非0項附近平滑變動;而在完備編碼的情況下,系數(shù)會發(fā)會很大的變化。由于在圖像處理領(lǐng)域的極大成功,稀疏編碼成為廣泛使用的技術(shù)之一。在學(xué)術(shù)界,對于圖像數(shù)據(jù)具有稀疏結(jié)構(gòu)已達成共識?;ヂ?lián)網(wǎng)圖像一般有三方面的信息圖像的內(nèi)容信息,圖像數(shù)據(jù)分布的結(jié)構(gòu)信息以及圖像周圍的短文本信息。圖像的內(nèi)容信息一般可由底層視覺特征(如SIFT特征)表達,圖像數(shù)據(jù)分布的結(jié)構(gòu)信息一般可以由流形技術(shù)挖掘,圖像周圍的短文本信息最常見的就是標(biāo)簽信息。但是目前缺乏一種將三種信息有效融合的技術(shù)手段。由于短文本蘊含的信息量非常有限,比如不能使用基于長文本廣泛使用的多視覺(MultiView)思想,人們通常的做法是人們在考慮圖像信息與短文本信息融合的時候,通常只會考慮層次模型。比如在圖像檢索中,人們通常使用谷歌的檢索技術(shù)針對圖像的標(biāo)簽進行第一次檢索,然后基于第一次檢索的結(jié)果再利用圖像的視覺特征進行第二次檢索,從而返回更精確的結(jié)果;在圖像分類中,人們通常提取出圖像的視覺特征,比如SIFT特征,再做一次處理,比如利用概率潛藏語義分析(Probabilistic Latent Semantic Analysis)進行主題挖掘,然后利學(xué)支持向量機的多核理論,使用基于圖像數(shù)據(jù)的核和標(biāo)簽的核的凸組合作為分類器的核分類。這上述模型從本質(zhì)上都是將兩個特征分開討論,而實際上它們是互相聯(lián)系的,標(biāo)簽與圖像內(nèi)容必然存在語義的聯(lián)系。
發(fā)明內(nèi)容
本發(fā)明的目的是提出一種基于稀疏編碼的互聯(lián)網(wǎng)圖像特征提取方法,將互聯(lián)網(wǎng)圖像的內(nèi)容信息,圖像數(shù)據(jù)分布的結(jié)構(gòu)信息以及圖像周圍的文本信息有效融合,使提取出的特征能有效地表達圖像語義。本發(fā)明提出的基于稀疏編碼的圖像視覺特征提取方法,包括以下步驟(I)設(shè)圖片集中共有N幅圖片,提取圖片集的底層特征,其中第i幅圖片的底層特
征集為=,其中/p)是第i幅圖片的第h個底層特征,Ici = 1,2,...,內(nèi)|,
|萬|為集合萬中的元素個數(shù),1=1,2,…,N ;(2)設(shè)定Iv圖片集中標(biāo)簽出現(xiàn)頻率的閾值,將圖片集中出現(xiàn)頻率低于設(shè)定出現(xiàn)閾值的標(biāo)簽刪除,圖片集中第i幅圖片的所有標(biāo)簽生成一個標(biāo)簽向量Wi, i=l,2,…,N ;(3)生成一個底層特征相似性矩陣W,具體過程如下(3-1)按下式計算底層特征集中任意兩個底層特征之間的歐式距離
權(quán)利要求
1. 一種基于稀疏編碼的圖像視覺特征提取方法,其特征在于該方法包括以下步驟 (1)設(shè)圖片集中共有N幅圖片,提取圖片集的底層特征,其中第i幅圖片的底層特征集為
全文摘要
本發(fā)明涉及一種基于稀疏編碼的圖像視覺特征提取方法,屬于計算機數(shù)字圖像處理技術(shù)領(lǐng)域。首先提取圖片集的底層特征;除去頻率過低的標(biāo)簽,生成一個標(biāo)簽向量;生成一個底層特征相似性矩陣W作為流形約束的基礎(chǔ),從本質(zhì)上結(jié)合底層視覺特征和高層文本特征;建立一個目標(biāo)函數(shù);對目標(biāo)函數(shù)最小化,得到圖片集底層特征稀疏編碼構(gòu)成的最優(yōu)矩陣。本發(fā)明方法中,采用稀疏編碼,不僅很好地挖掘圖像的底層視覺特征以及高層文本的潛藏類別信息,而且使模型具有良好的魯棒性;本方法采用最大化池方法,得到每一幅圖片的唯一圖像視覺特征向量;該方法保證了最終圖像視覺特征簡單有效。
文檔編號G06K9/46GK102968635SQ20121048559
公開日2013年3月13日 申請日期2012年11月23日 優(yōu)先權(quán)日2012年11月23日
發(fā)明者丁貴廣, 周繼樂 申請人:清華大學(xué)