本發(fā)明涉及圖像識別領域,尤其涉及一種基于鑒別性樣本屬性學習的零樣本圖像識別方法。
背景技術:
:所謂的零樣本圖像識別(zeroshotrecognition)就是對沒有標簽數(shù)據(jù)的樣本學習一個識別模型,因此它是模式識別和計算機視覺領域的重要組成部分,受到了研究界廣泛關注并取得了快速的發(fā)展。但大多數(shù)的零樣本圖像識別技術都是:首先從源域上學習一個模型,然后直接把模型應用到目標域來預測圖像的屬性表示。這類學習方法沒有考慮域遷移問題。由于源域和目標域的標簽是不同的,這就對研究人員提出了一個新的挑戰(zhàn)--如何減輕域遷移問題對最終分類性能的影響。傳統(tǒng)的零樣本識別技術包括直接屬性預測dap和間接屬性預測iap。其中dap是在源域學習一個屬性分類器(svm),然后用該屬性分類器預測目標域圖像的屬性表示。iap是在源域上學習一個類別分類器(svm),然后利用類別分類器和貝葉斯概率公式預測目標域圖像的屬性。elyorkodirov等人提出了在目標域上進行字典學習的非監(jiān)督域適應方法。該方法首先在源域上學習一個字典ds,然后在目標域上學習一個無限逼近ds的新的字典dt。與dap和iap方法相比,這個方法考慮到源域和目標域適應性問題,在一定程度上減輕了域遷移問題對識別性能的影響。但是該方法還有些不足。首先,作者考慮用源域知識ds去調(diào)節(jié)目標域字典dt,沒有將模型在每一次迭代得到字典dt反饋到源域字典ds的學習上。這種單方向的學習方式很有可能不是最好的學習方式。然后,作者在字典dt學習過程中加入視覺語意相似性約束(visual--semanticsimilarityconstraint)。該約束項運用了iap方法來獲得目標域圖像-類別概率矩陣,一旦求出,圖像-類別概率矩陣就固定了。因此,模型的最終分類性能會受到iap方法的影響。最后在模型的學習階段,上述方法都采用的是用源域每類的原型來代替該類所有樣本的屬性表示并且作為已知。我們認為這種做法有一定不合理性。因為類原型并不能代表該類所有的樣本的屬性表示。例如:貓的原型為[1,1,1]表示有紅色的毛,有腿,吃魚。如果該類有一種黑色貓,那么該原型就不能用來描述黑色的貓。所有這樣屬性表示并沒有足夠的可區(qū)分性。我們認為源域中所有樣本的屬性表示不能由該類的原型簡單的定義,而是要從數(shù)據(jù)中學出每一個樣本可區(qū)分性的屬性表示。而我們正是這樣做。技術實現(xiàn)要素:本發(fā)明所要解決的技術問題是針對
背景技術:
中所涉及到的缺陷,提供一種基于鑒別性樣本屬性學習的零樣本圖像識別方法,以緩解領域遷移對圖像識別精度影響。本發(fā)明為解決上述技術問題采用以下技術方案:一種基于鑒別性樣本屬性學習的零樣本圖像識別方法,包含以下步驟:步驟1,利用源域圖像特征、目標域圖像特征以及源域和目標域中每類的原型共同學習目標域的投影矩陣w;步驟2,根據(jù)學習到的投影矩陣w將目標域圖像特征映射到屬性空間得到圖像的屬性表示矩陣yt;步驟3,在屬性空間中,利用最近鄰分類器進行識別,得到圖像所屬類別。作為本發(fā)明一種基于鑒別性樣本屬性學習的零樣本圖像識別方法的進一步優(yōu)選方案,在步驟1中,投影矩陣w具體如下:其中,ys和yt分別是源域和目標域中每一幅圖像特征的m維屬性表示,λ1和λ4均是為了確保學習出的投影矩陣更適合目標域而提出的平衡參數(shù),其中,xs和xt分別是源域和目標域圖像特征矩陣,ys和yt分別是源域和目標域圖像屬性表示矩陣,t是轉置運算符,i是單位矩陣,ns和nt分別是源域和目標域的圖像個數(shù),m是所有圖像屬性表示的維數(shù)。作為本發(fā)明一種基于鑒別性樣本屬性學習的零樣本圖像識別方法的進一步優(yōu)選方案,在步驟2中,所述目標域圖像的屬性表示矩陣yt具體表示如下:其中,ct是目標域中類別個數(shù),表示目標域第nt個樣本屬于第j類的概率,表示目標域第j類的原型,λ2和λ6均是為了確保學習出的投影矩陣更適合目標域而提出的平衡參數(shù)。作為本發(fā)明一種基于鑒別性樣本屬性學習的零樣本圖像識別方法的進一步優(yōu)選方案,在步驟3中,所述最近鄰分類器具體表示如下:其中ci是第i個樣本的標簽,表示模型預測目標域中第i個圖像屬性表示。作為本發(fā)明一種基于鑒別性樣本屬性學習的零樣本圖像識別方法的進一步優(yōu)選方案,所述投影矩陣w的具體學習過程如下:步驟1.1,令源域集合s包含cs個類,ns個標記圖像,即s=[xs,ys,zs];目標域集合t包含ct個類,nt個未標記的圖像,即t=[xt,yt,zt];每幅圖像通過d維的特征矢量描述,即,其中,和分別是源域和目標域類標簽矢量,并且有zs∩zt=φ;步驟1.2,把從特征空間到屬性空間的映射看成一種投影的學習,即有如下優(yōu)化模型(1):其中,||·||f是矩陣的frobenius范數(shù),和分別是目標域和源域第i個樣本屬于第j類的概率,和分別是目標域和源域第j類原型,λ3和λ5都是為了確保學習出的投影矩陣更適合目標域而提出的平衡參數(shù);步驟1.3,采用交替優(yōu)化的方式求解模型(1):固定w,yt,更新ys公式(2)的解為:固定w,ys,更新yt公式(3)的解為:固定yt,ys,更新w公式(4)的解為:其中表示源域第ns個樣本屬于第j類的概率,表示源域中第j類的原型。本發(fā)明采用以上技術方案與現(xiàn)有技術相比,具有以下技術效果:1.本發(fā)明采用在源域和目標域上共同學習投影矩陣的方法能夠獲得更適合目標域的投影矩陣,因此域遷移問題能夠被有效的緩解;2.本發(fā)明采用更新圖像--類別概率矩陣方法,解除了算法對iap模型的依賴;3.本發(fā)明模型中源域屬性相似性約束能夠為源域樣本學習具有可區(qū)分性的屬性表示,與傳統(tǒng)的dap、iap和非監(jiān)督域適應等方法相比,本發(fā)明最大的亮點在于我們不是通過原型為源域樣本定義屬性表示,而我們通過模型為源域樣本學習具有可區(qū)分性的屬性表示。附圖說明圖1是本發(fā)明在awa和cub數(shù)據(jù)集識別結果;圖2是本發(fā)明的一種基于鑒別性樣本屬性學習的零樣本圖像識別方法工作流程圖。具體實施方式下面結合附圖對本發(fā)明的技術方案做進一步的詳細說明:本發(fā)明公開了一種基于鑒別性樣本屬性學習的零樣本圖像識別方法:如圖2所示,首先我們假設源域和目標域共用同一個投影矩陣,這樣我們就可以在源域和目標域上共同學習從特征空間到屬性空間的投影矩陣。然后,我們就可以利用投影矩陣將目標域的圖像特征數(shù)據(jù)映射到屬性空間。最后,我們采取最簡單的分類模型--最近鄰來對目標域樣本進行分類。本發(fā)明所述的一種基于鑒別性樣本屬性學習的零樣本圖像識別方法,包括以下步驟:(一)目標域投影矩陣確定:令源域集合s包含cs個類,ns個標記圖像即s=[xs,ys,zs],目標域集t合包含ct個類,nt個未標記的圖像即t=[xt,yt,zt]。每幅圖像通過d維的特征矢量描述。我們有,和是源域和目標域類標簽矢量并且有zs∩zt=φ。ys和yt分別是源域和目標域圖像m維屬性表示。有在研究識別算法前,我們必須先得到目標域投影矩陣。通過投影矩陣將源域知識遷移到了目標域,進而得到目標域圖像屬性表示yt。為了緩解域遷移問題,我們假設源域和目標域共用同一個投影矩陣,這樣我們就可以在源域和目標域上共同學習投影矩陣。同時為了解決
背景技術:
中提出的缺陷,我們也提出兩個約束項,分別是動態(tài)視覺語意相似性約束(dvss)和源域屬性相似性約束(sdas)。我們模型如(1)所示:λ1是為了確保學習出的投影矩陣更適合目標域而提出平衡參數(shù)。最后3項是正則化項,防止模型過度擬合。(1)動態(tài)視覺語意相似性約束(dvss)其中,通過iap模型進行初始化,在以后模型每一次迭代的過程中都被動態(tài)更新,使其每一次都更接近它真實值。該約束項的作用是為了讓目標域的圖像屬性表示更接近它真正的類原型。(2)源域屬性相似性約束(sdas)因為源域圖像帶了標簽,因此很容易的被初始化。該約束項的作用是為源域樣本找到具有區(qū)分性的屬性表示。(二)算法模型及求解需要指出的是,同時對w,ys,yt來說,該模型不是凸優(yōu)化問題。但是對于某個來說,是凸優(yōu)化問題。因此我采用交替優(yōu)化的方式來求解該模型。上述優(yōu)化問題變成如下3個子優(yōu)化問題。(1)固定w,yt,更新ys優(yōu)化問題(2)的解為(2)固定w,ys,更新yt優(yōu)化問題(3)的解為:固定yt,ys,更新w優(yōu)化問題(4)的解為:其中一旦ys和yt確定,對每類所有圖像求均值屬性作為新的類原型,然后通過iap方法繼續(xù)更新使其在每次迭代之后更接近它的真實值。一旦投影矩陣求出,我們就可以利用其預測目標域樣本的屬性表示然后在屬性空間利用最近鄰分類器進行識別。(三)識別當需要識別未標記樣本的圖像的標簽時,將其通過投影矩陣w映射到屬性空間,然后再利用最近鄰分類器進行分類,找到圖像的標簽輸出。將本發(fā)明所述的學習可區(qū)分性樣本屬性的零樣本圖像識別算法在awa數(shù)據(jù)庫和cub數(shù)據(jù)庫上進行實驗,并將實驗結果與相關零樣本識別算法進行對比分析。awa數(shù)據(jù)庫包含50類,總共有30475幅動物圖像,每一類由85維屬性進行描述并提供了類屬性矩陣。我們使用數(shù)據(jù)庫提供40類作為源域,10類作為目標域(24295幅圖像訓練,6180幅圖像測試)。cub數(shù)據(jù)庫是細粒度鳥類數(shù)據(jù)庫,包含200不同的鳥類,總共有11788幅圖像。提供312維類屬性注釋。我們和elyorkodirov等人一樣,采用150/50劃分源域和目標域。在awa數(shù)據(jù)庫和cub數(shù)據(jù)庫實驗結果與相關方法進行比較,如表1所示。表1iap44.519.5dap53.231.4e.kodirov73.239.5rlsda86.141由表1可見,在不同數(shù)據(jù)庫上,相比于其他三種算法,我們的算法能夠獲得更好的識別性能。同時也表明為源域樣本學習具有可區(qū)分性的圖像屬性表示更有助于模型學習更優(yōu)的投影矩陣。我們也研究了在學習階段,目標域樣本的數(shù)量對學習模型的影響。目標域每類分別取20,40,60,80,100幅來訓練模型。在awa和cub數(shù)據(jù)庫上的實驗結果如圖1所示。由圖1可知,該算法對目標域數(shù)量具有一定穩(wěn)定性。本
技術領域:
技術人員可以理解的是,除非另外定義,這里使用的所有術語(包括技術術語和科學術語)具有與本發(fā)明所屬領域中的普通技術人員的一般理解相同的意義。還應該理解的是,諸如通用字典中定義的那些術語應該被理解為具有與現(xiàn)有技術的上下文中的意義一致的意義,并且除非像這里一樣定義,不會用理想化或過于正式的含義來解釋。以上所述的具體實施方式,對本發(fā)明的目的、技術方案和有益效果進行了進一步詳細說明,所應理解的是,以上所述僅為本發(fā)明的具體實施方式而已,并不用于限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內(nèi)。當前第1頁12