本發(fā)明涉及圖像識別領(lǐng)域,特別是一種用于圖像識別的基于鄰域保持和核子空間對齊的方法。
背景技術(shù):
傳統(tǒng)的圖像識別方法通常假設(shè)訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)遵循相同的分布,但是在很多實際應(yīng)用中,這種假設(shè)往往不成立。應(yīng)用傳統(tǒng)的圖像識別方法獲得的模型還遠不能達到人們最初的期望。而領(lǐng)域自適應(yīng)方法(domainadaptation)不要求訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)一定要滿足獨立同分布的條件,它在訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)分布不同的條件下進行知識的遷移和學(xué)習(xí),利用已有的知識經(jīng)驗和任務(wù)之間的聯(lián)系促進新任務(wù)的學(xué)習(xí),最終降低了由于訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)分布的差異帶來的影響。訓(xùn)練數(shù)據(jù)來自的領(lǐng)域稱之為源域,測試數(shù)據(jù)來自的領(lǐng)域稱之為目標域。目前。領(lǐng)域自適應(yīng)學(xué)習(xí)受到了越來越多學(xué)者們的關(guān)注,每年在一些機器學(xué)習(xí)的頂級會議,比如icml、nips、iccv、cvpr等,都有關(guān)于跨領(lǐng)域?qū)W習(xí)的文章發(fā)表。
現(xiàn)有的領(lǐng)域自適應(yīng)方法——測地流方法(gfk)和子空間對齊方法(sa),gfk方法的思想是首先將源域樣本和目標域樣本分別看作格拉斯曼流形上的點,然后沿著兩個點之間的測地線進行采樣獲得“有意義”的中間子空間,接著將源域樣本和目標域樣本都投影到這些中間子空間上,通過利用源域中樣本的標簽尋找投影后樣本之間的關(guān)系訓(xùn)練一個判別分類器,最終利用分類器對投影后的目標域樣本進行分類。雖然gfk方法確實可以有效,但是它存在兩個缺陷:1)gfk方法需要計算大量的子空間導(dǎo)致算法的復(fù)雜度高;2)gfk方法得到的最優(yōu)解是局部最優(yōu)解,并不是全局最優(yōu)解。
為了解決gfk方法的缺陷,fernando等人提出了子空間對齊方法(sa),sa方法將源域和目標域樣本分別投影到各自的子空間中,然后通過尋找一個對齊矩陣m直接對齊源域和目標域子空間,使得對齊后源域樣本和目標域樣本分布間的差異達到最小,即求如下最優(yōu)化模型的解:
其中
相對于gfk方法,sa方法的改進有兩個方面:1)通過調(diào)整子空間的基,sa方法的解是全局的,這使得sa方法訓(xùn)練的分類器可以更加的魯棒,不受局部的擾動;2)通過直接對齊源域子空間和目標域子空間,sa方法的計算復(fù)雜度要低。
sa方法雖然較gfk方法在樣本識別的準確率上有了提高,但是它仍然存在以下兩個方面的不足:(1)sa方法假設(shè)樣本在原始的空間中線性可分,但是在很多實際應(yīng)用中,原始樣本往往并不是線性可分;(2)sa方法中沒有利用源域樣本的標簽信息,這樣可能會導(dǎo)致在原始空間中屬于不同類別的源域樣本在對齊后的空間中聚集在一起,不利于分類器的訓(xùn)練。
技術(shù)實現(xiàn)要素:
本發(fā)明所要解決的技術(shù)問題是克服現(xiàn)有技術(shù)的不足而提供一種用于圖像識別的基于鄰域保持和核子空間對齊的方法,以緩解源域和目標域樣本分布不同對圖像識別精度影響。
本發(fā)明為解決上述技術(shù)問題采用以下技術(shù)方案:
根據(jù)本發(fā)明提出的一種用于圖像識別的基于鄰域保持和核子空間對齊的方法,包括以下步驟:
步驟1、將源域樣本集xs和目標域樣本集xt通過核映射函數(shù)映射到同一個高維空間中,獲得高維空間中的源域樣本集φ(xs)和高維空間中目標域樣本集φ(xt);
步驟2、對高維空間中源域樣本集φ(xs)和高維空間中目標域樣本集φ(xt)分別利用主成分分析法pca處理得到源域子空間ps和目標域子空間pt;
步驟3、利用源域樣本的標簽信息、源域子空間ps和目標域子空間pt計算對齊矩陣m,將源域子空間和目標域子空間對齊;
步驟4、利用步驟2中的ps得到高維空間中降維后的源域樣本集
步驟5、利用步驟2中的pt將高維空間中的目標域樣本集直接投影到目標域子空間中得到目標域數(shù)據(jù)集yt,
步驟6、通過最近鄰分類器,根據(jù)步驟4獲得的源域數(shù)據(jù)集和步驟5獲得的目標域數(shù)據(jù)集,輸出識別結(jié)果。
作為本發(fā)明所述的一種用于圖像識別的基于鄰域保持和核子空間對齊的方法進一步優(yōu)化方案,所述步驟1中的核映射函數(shù)為高斯核函數(shù)。
作為本發(fā)明所述的一種用于圖像識別的基于鄰域保持和核子空間對齊的方法進一步優(yōu)化方案,步驟2中源域子空間ps和目標域子空間pt的具體形式如下:
ps=φ(xs)as(1)
pt=φ(xt)at(2)
其中,as和at分別表示用高維空間中的源域和目標域樣本重構(gòu)源域子空間和目標域子空間的重構(gòu)系數(shù)。
作為本發(fā)明所述的一種用于圖像識別的基于鄰域保持和核子空間對齊的方法進一步優(yōu)化方案,步驟3中的對齊矩陣m的具體學(xué)習(xí)過程如下:
令給定的帶標簽的源域樣本為
讓源域子空間和目標域子空間在對齊的同時保證在原始空間中屬于不同類別的源域樣本在對齊后的空間中分開。即有如下的最優(yōu)化模型:
其中,λ∈[0,+∞)表示正則化常數(shù),
令
其中,d為對角矩陣,d中對角元素為
將公式(1)和公式(2)帶入公式(4)中,最終m可以表示成:
其中
k(a,b)表示將樣本a和樣本b帶入高斯核函數(shù)中計算后得到的值。
作為本發(fā)明所述的一種用于圖像識別的基于鄰域保持和核子空間對齊的方法進一步優(yōu)化方案,c=10。
本發(fā)明采用以上技術(shù)方案與現(xiàn)有技術(shù)相比,具有以下技術(shù)效果:
(1)本發(fā)明放寬在原始空間中樣本線性可分的假設(shè),遵從更一般的情況,處理原始空間中樣本線性不可分的問題;
(2)本發(fā)明充分利用了已知信息,將源域樣本標簽信息考慮其中,使得在對齊源域子空間和目標域子空間的同時保證在原始空間中屬于不同類別的源域樣本在對齊后的空間中盡可能的分開,最終訓(xùn)練出更加魯棒的分類器。
附圖說明
圖1是本發(fā)明的一種用于圖像識別的基于鄰域保持和核子空間對齊的方法工作流程圖。
具體實施方式
下面結(jié)合附圖對本發(fā)明的技術(shù)方案做進一步的詳細說明:
本發(fā)明公開了一種用于圖像識別的基于鄰域保持和核子空間對齊的方法(npksa):首先,利用核映射函數(shù)將源域和目標域圖像都映射到同一個高維空間中,使得在這個高維空間中源域和目標域圖像線性可分。然后,對高維空間中的源域圖像和目標域圖像使用主成分分析法(pca)降維,得到源域子空間和目標域子空間。接著,學(xué)習(xí)一個對齊矩陣將源域子空間和目標域子空間對齊,保證在原始空間中屬于不同類別的源域樣本在對齊后的空間中盡可能的分開。最后,利用學(xué)習(xí)得到的對齊矩陣對新的圖像進行分類。本發(fā)明所述的一種用于圖像識別的基于鄰域保持和核子空間對齊的方法,如圖1所示,是本發(fā)明的一種用于圖像識別的基于鄰域保持和核子空間對齊的方法工作流程圖,包括以下步驟:
(1)對齊矩陣的確定
令給定的帶標簽的源域樣本為
為了解決樣本在原始空間中線性不可分的問題,首先使用高斯核映射函數(shù)將原始空間中的源域樣本和目標域樣本分別映射到一個高維空間中,使得源域和目標域樣本在高維空間中線性可分,然后分別對高維空間中的源域樣本和目標域樣本使用主成分分析法(pca)降維得到源域子空間和目標域子空間,最后學(xué)習(xí)一個對齊矩陣m將源域子空間和目標域子空間對齊,使得對齊后源域和目標域樣本分布的差異達到最小化。具體步驟如下:
1)將原始空間中的源域樣本和目標域樣本通過一個映射函數(shù)映射到高維空間φ:
其中
2)利用源域樣本
ps=φ(xs)as(1)
pt=φ(xt)at(2)
其中
3)學(xué)習(xí)一個對齊矩陣m將源域子空間和目標域子空間對齊,具體的相當于解決如下最優(yōu)化模型:
注意這里的ps和pt與sa方法中的ps和pt并不相同,sa方法中的ps和pt是直接對原始的源域樣本和目標域樣本使用主成分分析法(pca)處理后得到的,可以顯式表達,而模型(3)中的ps和pt沒有不可以顯式表達,因為φ(xs)和φ(xt)的表達式未知。
為了充分利用已知信息,在模型(3)的基礎(chǔ)上加上一個約束項,利用源域樣本的標簽信息使得在原始空間中屬于不同類別的源域樣本在對齊后的子空間中盡可能分的很開。這個約束項可以具體表示成如下最優(yōu)化模型:
其中λ∈[0,+∞)表示正則化常數(shù),gij表示源域中第i個樣本和第j個樣本之間的近鄰關(guān)系,對于原始空間中不同類別的源域樣本,如果源域中第i個樣本
將模型(3)和模型(4)結(jié)合起來得到本發(fā)明所描述的一種用于圖像識別的基于鄰域保持和核子空間對齊的方法最終表達形式如下:
(2)算法的求解
應(yīng)用frobenius范數(shù)和矩陣跡之間的關(guān)系,模型(5)的第一項可以可以重寫成:
將模型(5)的第二項展開:
其中d為對角矩陣,d中對角元素為
因此,最終模型(5)可以表述成:
令
將等式(1)和等式(2)帶入等式(6)中,最終m可以表示成:
其中
k(a,b)表示將樣本a和樣本b帶入高斯核函數(shù)中計算后得到的值。
(3)識別
一旦對齊矩陣m求出,就可以利用其和ps降維后的源域樣本集
將本發(fā)明所述的方法在office+caltech-256數(shù)據(jù)庫上實驗,并將實驗結(jié)果和相關(guān)的領(lǐng)域自適應(yīng)方法進行對比分析。office數(shù)據(jù)庫由三個子數(shù)據(jù)庫組成:亞馬遜數(shù)據(jù)庫(amazon)、網(wǎng)絡(luò)攝像機數(shù)據(jù)庫(webcam)和數(shù)碼單反相機數(shù)據(jù)庫(dslr)。其中amazon中的圖像是從網(wǎng)上下載下來的圖片,webcam中的圖像由網(wǎng)絡(luò)攝像機拍的低分辨率圖像組成,dslr中的圖像是由數(shù)碼單反相機拍的高分辨率圖像組成。caltech-256數(shù)據(jù)庫有256個類別,總共有30607幅圖像。本發(fā)明提取了4個領(lǐng)域共有的10個類別的圖像:背包、長途旅行自行車、計算器、耳機、計算機鍵盤、101系列便攜電腦、電腦顯示器、電腦鼠標、咖啡杯和錄像放映機。這10個類別在每個領(lǐng)域中各有958、295、157、1123幅圖像,總共2533幅圖像。對于所有的圖像,提取它的surf特征,然后使用來自亞馬遜圖像的一部分構(gòu)造一個尺寸是800的密碼本將圖像量化成一個800-bin的直方圖。這是一個標準的用來衡量領(lǐng)域自適應(yīng)算法使用的數(shù)據(jù)庫。將四個數(shù)據(jù)庫中的每一個數(shù)據(jù)庫看作一個領(lǐng)域。通過隨機選擇四個領(lǐng)域中的兩個不同的領(lǐng)域作為源域和目標域可以得到12對的跨領(lǐng)域自適應(yīng)問題,記做a→c,a→d,a→w,…,w→d。
隨機進行30次實驗,訓(xùn)練樣本是隨機的從源域中的10個類別中獲取的,源域樣本和目標域樣本都經(jīng)過歸一化處理。當dslr和webcam選作源域時,每一類隨機選擇8個樣本,當amazon和caltech-256選作源域時,每個類別隨機選擇20個樣本。對于目標域,選擇所有的樣本作為測試樣本。實驗中,選擇使用最近鄰分類器作為識別目標域樣本的分類器,核函數(shù)使用高斯核,子空間的維數(shù)d是通過不斷的實驗獲得,最終每組領(lǐng)域自適應(yīng)問題的子空間的維數(shù)和正則化參數(shù)都與最優(yōu)的識別率相對應(yīng)?;鶞蕦Ρ确椒ㄈ绫?所示,在office+caltech-256數(shù)據(jù)庫實驗結(jié)果與相關(guān)方法進行比較的結(jié)果如表2所示。
表1基準對比方法
表2基于鄰域保持和核子空間對齊的方法和相關(guān)比較方法的識別率
由表2可見,在12組領(lǐng)域自適應(yīng)問題中,本發(fā)明的npksa算法的平均分類準確率有10組都優(yōu)于其他5種對比算法,這高度證明了在圖像識別中同時使用非線性映射和源域樣本的標簽信息相比于使用線性映射更有利于減小域間分布的差異。
本技術(shù)領(lǐng)域技術(shù)人員可以理解的是,除非另外定義,這里使用的所有術(shù)語(包括技術(shù)術(shù)語和科學(xué)術(shù)語)具有與本發(fā)明所屬領(lǐng)域中的普通技術(shù)人員的一般理解相同的意義。還應(yīng)該理解的是,諸如通用字典中定義的那些術(shù)語應(yīng)該被理解為具有與現(xiàn)有技術(shù)的上下文中的意義一致的意義,并且除非像這里一樣定義,不會用理想化或過于正式的含義來解釋。
以上所述的具體實施方式,對本發(fā)明的目的、技術(shù)方案和有益效果進行了進一步詳細說明,所應(yīng)理解的是,以上所述僅為本發(fā)明的具體實施方式而已,并不用于限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。