本發(fā)明涉及稀疏編碼字典學(xué)習(xí)方法,特別涉及一種圖像分類(lèi)中通用的判別性稀疏編碼字典學(xué)習(xí)方法。
技術(shù)背景
人類(lèi)大腦視覺(jué)系統(tǒng)高度發(fā)達(dá),能快速準(zhǔn)確完成圖像處理任務(wù);神經(jīng)科學(xué)研究成果也表明,稀疏編碼是人類(lèi)大腦視覺(jué)系統(tǒng)中圖像表示的主要方式,大腦主視皮層V1區(qū)神經(jīng)元對(duì)視覺(jué)信息的反應(yīng)具有稀疏性?;诖松碚J(rèn)知機(jī)理,視覺(jué)稀疏表示理論與算法近年來(lái)得到快速迅猛發(fā)展,是目前機(jī)器視覺(jué)領(lǐng)域的研究熱點(diǎn),已經(jīng)在圖像表征,圖像識(shí)別、分類(lèi)和標(biāo)注,圖像重構(gòu),視頻檢索,視覺(jué)跟蹤,事件檢測(cè)等方面得到廣泛應(yīng)用。
在圖像表征方面,稀疏表示主要應(yīng)用于BoF(Bag-of-Features)視覺(jué)表征模型的局部特征量化。BoF模型將圖像描述為局部特征的分布或者統(tǒng)計(jì),具有尺度、旋轉(zhuǎn)或光照等不變性,相比較于全局特征,具有更強(qiáng)場(chǎng)景表達(dá)能力;基于BoF模型的空間“金字塔”匹配(Spatial Pyramid Matching)更是能對(duì)圖像場(chǎng)景中目標(biāo)間位置關(guān)系進(jìn)行表達(dá);所有這些優(yōu)勢(shì)保證BoF模型能夠取得優(yōu)異視覺(jué)表征性能,并在圖像標(biāo)注中得到很好應(yīng)用。BoF視覺(jué)表征模型包含兩個(gè)步驟:(a)局部區(qū)域特征選擇和表達(dá),(b)“字典”學(xué)習(xí)和特征量化;其中“字典”學(xué)習(xí)和特征量化尤為重要,很大程度地影響視覺(jué)表達(dá)的性能。所謂“字典”,是用以量化和重構(gòu)視覺(jué)局部特征的一組基本模式(可稱(chēng)之為“基”),最簡(jiǎn)單的“字典”學(xué)習(xí)方法是對(duì)局部特征進(jìn)行聚類(lèi),“字典”由聚類(lèi)中心得到;隨后,特征量化則基于“字典”采用頻次直方圖方法,即用最近鄰法將每個(gè)局部特征與距離最近的“基”相關(guān)聯(lián),為提高魯棒性,也可用近鄰法將每個(gè)局部特征與多個(gè)“基”相關(guān)聯(lián),然后計(jì)算與每個(gè)“基”相關(guān)聯(lián)的局部特征頻次;最后,由“字典”中所有“基”的頻次構(gòu)成圖像特征表達(dá)。然而,基于近鄰的方法仍顯粗糙,存在無(wú)法定義局部特征與“基”的關(guān)聯(lián)權(quán)重的缺點(diǎn),從而導(dǎo)致較大量化誤差?;谙∈杈?Sparse Coding)的局部特征量化模型中,稀疏表示系數(shù)被定義為局部特征賦給“基”的最優(yōu)權(quán)重;該量化方法已被證實(shí)具有較強(qiáng)魯棒性,能獲得很好的圖像視覺(jué)表征效果。同時(shí),該方法中也采取了“字典”和稀疏表示系數(shù)交替學(xué)習(xí)這種稀疏編碼常見(jiàn)優(yōu)化方法。學(xué)習(xí)稀疏編碼“字典”時(shí),假設(shè)稀疏表示系數(shù)已知,使“字典”滿(mǎn)足重構(gòu)損失最小約束;而學(xué)習(xí)稀疏表示系數(shù)時(shí),則假設(shè)“字典”已知,使稀疏表示系數(shù)滿(mǎn)足稀疏約束和重構(gòu)損失最小約束。
稀疏表示應(yīng)用到圖像表征和標(biāo)注中存在的問(wèn)題是:傳統(tǒng)的無(wú)監(jiān)督稀疏編碼忽略了訓(xùn)練樣本的類(lèi)別信息,不是判別性表達(dá),而對(duì)于信號(hào)分類(lèi)而言,特征表示的模式判別能力起相當(dāng)重要作用。解決這個(gè)問(wèn)題的方法是學(xué)習(xí)具有判別性的“字典”,期望將“字典”的判別性傳遞至特征稀疏表示系數(shù)。已有相關(guān)工作假設(shè)一個(gè)線(xiàn)性分類(lèi)器,將“字典”學(xué)習(xí)和分類(lèi)器學(xué)習(xí)統(tǒng)一起來(lái),從而提高稀疏表示判別能力,取得較好分類(lèi)效果,然而,將這種方法擴(kuò)展到許多更復(fù)雜分類(lèi)器如人工神經(jīng)網(wǎng)絡(luò)(ANN)、非線(xiàn)性支持向量機(jī)(SVM)等,將使求解變得非常困難,而且,隨著數(shù)據(jù)特征及其分布特性的變化,合適的分類(lèi)器類(lèi)型也會(huì)發(fā)生改變,因而,這種結(jié)合具體分類(lèi)器的學(xué)習(xí)方法具有一定的應(yīng)用和拓展局限,有必要設(shè)計(jì)獨(dú)立于分類(lèi)器學(xué)習(xí)的通用的判別性“字典”學(xué)習(xí)方法。本發(fā)明提出一種圖像分類(lèi)中通用的判別性稀疏編碼字典學(xué)習(xí)方法。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明提出一種圖像分類(lèi)中通用的判別性稀疏編碼字典學(xué)習(xí)方法,將突破已有方法的局限性,它不僅獨(dú)立于分類(lèi)器學(xué)習(xí),而且對(duì)各種“字典”學(xué)習(xí)算法具有普適性。
本發(fā)明采用的技術(shù)方案是:
一種圖像分類(lèi)中通用的判別性稀疏編碼字典學(xué)習(xí)方法,其具體步驟如下:
(1)提取圖像的SIFT、HOG等局部特征,作為圖像特征集合,并依據(jù)圖像的類(lèi)別標(biāo)簽,獲得圖像集的正類(lèi)特征集X+和負(fù)類(lèi)特征集X-:
(2)圖像分類(lèi)中通用的判別性“字典”學(xué)習(xí)方法:
單幅場(chǎng)景圖像大都對(duì)應(yīng)于多個(gè)“概念”標(biāo)簽,利用“one-vs-all”方法轉(zhuǎn)化為兩類(lèi)問(wèn)題來(lái)解決。假設(shè)“字典”U=[U+,U-],判別性“字典”的特點(diǎn)是“字典”中的“基”與類(lèi)別相關(guān)聯(lián),即正類(lèi)字典U+中的“基”總是傾向表達(dá)正類(lèi)特征,而負(fù)類(lèi)字典U-中的“基”總是傾向表達(dá)負(fù)類(lèi)特征。因而,可依據(jù)正類(lèi)特征集X+和負(fù)類(lèi)特征集X-的重構(gòu)誤差對(duì)U+和U-分別進(jìn)行學(xué)習(xí);若稀疏表示系數(shù)矩陣V=(vij)(i=1,...,k,j=1,...,n,k和n分別是字典U中“基”的個(gè)數(shù)和局部特征的個(gè)數(shù))已知,要使稀疏表達(dá)的重構(gòu)誤差最小,可通過(guò)優(yōu)化如下目標(biāo)函數(shù)來(lái)分別更新U+和U-:
公式(1)和(2)中的優(yōu)化問(wèn)題可通過(guò)共軛梯度法、Lagrange對(duì)偶法或K-SVD等算法求解,得到U=[U+,U-];而其中的分別與“字典”U+和U-相對(duì)應(yīng)和匹配,它們可從V抽取子矩陣獲得,子矩陣和應(yīng)滿(mǎn)足分類(lèi)表征“損失”小的基本原則,即類(lèi)間差異性大,而表征損失小。
其中,按照如下步驟求解稀疏表示系數(shù)矩陣V中的關(guān)鍵行向量作為公式(1)和(2)中的和
1)將V分解為V=[V+,V-],和分別是X+和X-對(duì)應(yīng)的的稀疏表示系數(shù)矩陣,則可計(jì)算:
其中,它們分別表示U中第i個(gè)“基”被用來(lái)表征正類(lèi)和負(fù)類(lèi)特征的使用“頻率”;顯然,值越大表示第i個(gè)“基”更傾向于表達(dá)正類(lèi)特征,對(duì)應(yīng)的稀疏表示系數(shù)項(xiàng)在正類(lèi)特征的表征中占更大的權(quán)重,應(yīng)被選擇到中,反之,則更傾向于表達(dá)負(fù)類(lèi)特征,對(duì)應(yīng)的稀疏表示系數(shù)項(xiàng)在負(fù)類(lèi)特征的表征中占更大的權(quán)重,應(yīng)被選擇到
2)按照各個(gè)“基”對(duì)應(yīng)的元素ai值由大到小的順序重新排列“基”,則前部分更傾向于表達(dá)正類(lèi)特征,而后部分更傾向于表達(dá)負(fù)類(lèi)特征,而按此順序重新排列對(duì)應(yīng)V的各行,得到
3)對(duì)進(jìn)行分割,令
對(duì)于固定大小的特征集X+和X-,的列分割位置的確定方法是:的列寬度大小分別和X+,X-保持一致。而在不同的行位置分割,可得到不同的和查找最優(yōu)分割行的方法是:在列分割位置不變的前提下,針對(duì)不同的分割行位置,將公式(4)中的對(duì)角矩陣和置換為0矩陣,得到矩陣然后計(jì)算中正負(fù)特征稀疏表示系數(shù)間的類(lèi)間距或Fisher判別準(zhǔn)則函數(shù)值,以及將和置換為0矩陣后正負(fù)特征的表征損失或重構(gòu)誤差。權(quán)衡類(lèi)間距和表征損失,依據(jù)對(duì)不同的行分割位置的類(lèi)間距和表征損失來(lái)確定最優(yōu)分割行。
與已有技術(shù)相比,本發(fā)明有益效果體現(xiàn)在:
本發(fā)明不僅獨(dú)立于分類(lèi)器學(xué)習(xí),而且對(duì)各種“字典”學(xué)習(xí)算法具有普適性。
附圖說(shuō)明
圖1為本發(fā)明提出的具體的圖像分類(lèi)和標(biāo)注中通用的判別性稀疏編碼字典學(xué)習(xí)方法流程圖。
具體實(shí)施方式
一種圖像分類(lèi)中通用的判別性稀疏編碼字典學(xué)習(xí)方法,其具體步驟如下:
(1)提取圖像的SIFT、HOG等局部特征,作為圖像特征集合,并依據(jù)圖像的類(lèi)別標(biāo)簽,獲得圖像集的正類(lèi)特征集X+和負(fù)類(lèi)特征集X-;
(2)圖像分類(lèi)中通用的判別性“字典”學(xué)習(xí):
單幅場(chǎng)景圖像大都對(duì)應(yīng)于多個(gè)“概念”標(biāo)簽,利用“one-vs-all”方法轉(zhuǎn)化為兩類(lèi)問(wèn)題來(lái)解決。假設(shè)“字典”U=[U+,U-],依據(jù)正類(lèi)特征集X+和負(fù)類(lèi)特征集X-的重構(gòu)誤差對(duì)U+和U-分別進(jìn)行學(xué)習(xí);若稀疏表示系數(shù)矩陣V=(vij)(i=1,...,k,j=1,...,n,k和n分別是字典U中“基”的個(gè)數(shù)和局部特征的個(gè)數(shù))已知,要使稀疏表達(dá)的重構(gòu)誤差最小,可通過(guò)優(yōu)化如下目標(biāo)函數(shù)來(lái)分別更新U+和U-:
公式(1)和(2)中的優(yōu)化問(wèn)題可通過(guò)共軛梯度法、Lagrange對(duì)偶法或K-SVD等算法求解,得到U=[U+,U-];而其中的分別與“字典”U+和U-相對(duì)應(yīng)和匹配,它們可從V抽取子矩陣獲得,子矩陣和應(yīng)滿(mǎn)足分類(lèi)表征“損失”小的基本原則,即類(lèi)間差異性大,而表征損失小。
其中,按照如下步驟求解稀疏表示系數(shù)矩陣V中的關(guān)鍵行向量作為公式(1)和(2)中的和
1)將V分解為V=[V+,V-],和分別是X+和X-對(duì)應(yīng)的的稀疏表示系數(shù)矩陣,則可計(jì)算:
其中,它們分別表示U中第i個(gè)“基”被用來(lái)表征正類(lèi)和負(fù)類(lèi)特征的使用“頻率”;顯然,值越大表示第i個(gè)“基”更傾向于表達(dá)正類(lèi)特征,對(duì)應(yīng)的稀疏表示系數(shù)項(xiàng)在正類(lèi)特征的表征中占更大的權(quán)重,應(yīng)被選擇到中,反之,則更傾向于表達(dá)負(fù)類(lèi)特征,對(duì)應(yīng)的稀疏表示系數(shù)項(xiàng)在負(fù)類(lèi)特征的表征中占更大的權(quán)重,應(yīng)被選擇到
2)按照各個(gè)“基”對(duì)應(yīng)的元素ai值由大到小的順序重新排列“基”,則前部分更傾向于表達(dá)正類(lèi)特征,而后部分更傾向于表達(dá)負(fù)類(lèi)特征,而按此順序重新排列對(duì)應(yīng)V的各行,得到
3)對(duì)進(jìn)行分割,令
將和置換為0矩陣,得到然后計(jì)算中正負(fù)特征稀疏表示系數(shù)間的類(lèi)間距或Fisher判別準(zhǔn)則函數(shù)值,以及將和置換為0矩陣后正負(fù)特征的表征損失或重構(gòu)誤差;權(quán)衡類(lèi)間距和表征損失,依據(jù)對(duì)不同的行分割位置的類(lèi)間距和表征損失來(lái)確定最優(yōu)分割行;
(3)在求得字典U=[U+,U-]的基礎(chǔ)上,利用BP(Basis Pursuit),BPDN-homotopy等算法求解稀疏表示系數(shù);返回到步驟(2),如此循環(huán)預(yù)先設(shè)定的次數(shù);
(4)利用稀疏編碼系數(shù)對(duì)局部特征進(jìn)行量化,獲得圖像的判別性表達(dá)。