專利名稱:基于局部線性回歸的半監(jiān)督圖像聚類子空間學(xué)習(xí)算法的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬于半監(jiān)督圖像聚類子空間學(xué)習(xí)算法技術(shù)領(lǐng)域。特別是涉及一種基于局部線性回歸的半監(jiān)督圖像聚類子空間學(xué)習(xí)算法。
背景技術(shù):
隨著數(shù)字相機的普及和信息技術(shù)的發(fā)展,出現(xiàn)了越來越多的大規(guī)模的圖像數(shù)據(jù)庫,其中相當(dāng)比例的圖像是未標(biāo)注、未分類的。一圖勝千言,圖像數(shù)據(jù)所表達的語義信息較為豐富,因此,人工標(biāo)注和分類工作不僅費時費力、成本較高,而且難以做到標(biāo)準(zhǔn)統(tǒng)一和結(jié)果客觀。這就使得對圖像數(shù)據(jù)庫的高效管理和有效利用十分重要且困難重重。 圖像聚類算法可從底層特征中挖掘出潛在的高層語義關(guān)系,從而自動、高效地對圖像數(shù)據(jù)集進行聚類是實現(xiàn)圖像數(shù)據(jù)庫有效管理的重要途徑。同時,圖像數(shù)據(jù)具有顏色、紋理、形狀等多種底層視覺特征,而底層特征和高層語義之間的語義鴻溝問題,又使得對圖像數(shù)據(jù)聚類的研究極具挑戰(zhàn)性。近年來,大量研究探討了如何在圖像聚類過程中縮小語義鴻溝,提出了子空間學(xué)習(xí)、譜分析方法、流形學(xué)習(xí)、張量模型等諸多較為有效的方法。這些方法通過機器學(xué)習(xí)、統(tǒng)計分析等相關(guān)理論和原理,對訓(xùn)練樣本進行學(xué)習(xí),從高維特征中挖掘出圖像語義的有效表達,以提高圖像聚類的效率。根據(jù)訓(xùn)練過程中對標(biāo)記樣本和未標(biāo)記樣本的使用,上述方法可歸納為監(jiān)督式、無監(jiān)督式和半監(jiān)督式學(xué)習(xí)三種類型。監(jiān)督式學(xué)習(xí)要求所有的訓(xùn)練數(shù)據(jù)都是已標(biāo)記樣本,如=Fisher人臉方法在線性鑒別分析(Linear Discriminant Analysis, LDA)的基礎(chǔ)上,對標(biāo)記樣本進行學(xué)習(xí)得到Fisher人臉子空間,并用于人臉圖像的聚類,其結(jié)果超越了傳統(tǒng)的“特征人臉”方法。監(jiān)督式學(xué)習(xí)方法完全依賴于標(biāo)記樣本,且需要有充足的標(biāo)記樣本才能取得較好的學(xué)習(xí)效果。而目前龐大的圖像數(shù)據(jù)庫中大多是未標(biāo)記的數(shù)據(jù),獲得大量標(biāo)記樣本較為困難。因此,無監(jiān)督學(xué)習(xí)被廣泛使用,如主成分分析(Principal Component Analysis)方法、局部保持映射(Locality Preserving Projection)和局部線性嵌入(Locally LinearEmbedding)等方法。然而,無監(jiān)督學(xué)習(xí)完全以未標(biāo)記樣本為學(xué)習(xí)對象,在準(zhǔn)確率方面難以與監(jiān)督式學(xué)習(xí)媲美,但監(jiān)督式學(xué)習(xí)要取得理想的效果,又需要有充足的標(biāo)記樣本。因此,半監(jiān)督學(xué)習(xí)迅速成為機器學(xué)習(xí)領(lǐng)域的研究熱點,例如半監(jiān)督鑒別分析算法(Semi-supervisedDiscriminant Analysis, SDA)利用標(biāo)記樣本和未標(biāo)記樣本,計算最優(yōu)離散度的聚類子空間,取得了較好的學(xué)習(xí)性能?,F(xiàn)有研究大都或多或少地存在一些缺陷和不足,尤其體現(xiàn)在如何挖掘訓(xùn)練數(shù)據(jù)集的幾何近鄰關(guān)系,分析類內(nèi)和類間離散度,求解聚類子空間的最優(yōu)解,從而取得較好的聚類性能
發(fā)明內(nèi)容
本發(fā)明旨在克服現(xiàn)有技術(shù)缺陷,目的在于提供一種基于局部線性回歸的半監(jiān)督圖像聚類子空間學(xué)習(xí)算法,該方法在滿足聚類約束條件的情況下,挖掘圖像訓(xùn)練數(shù)據(jù)集的局部近鄰關(guān)系,得到最優(yōu)坐標(biāo)矩陣,取得較好的聚類性能。為實現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案是第一步、特征向量X的預(yù)測誤差(I)構(gòu)建訓(xùn)練數(shù)據(jù)集,包括標(biāo)記樣本和未標(biāo)記樣本;(2)對訓(xùn)練數(shù)據(jù)集中的每幅圖像,提取底層的顏色、紋理和形狀特征,構(gòu)成特征向
量X ; (3)采用局部線性回歸方法,預(yù)測特征向量X在聚類子空間中的坐標(biāo),得到預(yù)測值z = V1X+ I (I)式⑴中¥表示回歸矩陣;I表不偏向;T表示轉(zhuǎn)置運算。(4)設(shè)特征向量X在聚類子空間中的坐標(biāo)最佳取值為y,則預(yù)測值z與最佳取值y之間的差為特征向量X的預(yù)測誤差q= I I z-y |2= | | ijrTx+ ^ -y | |2 (2)式⑵中I I I I2表示二范式。第二步、基于近鄰關(guān)系的局部預(yù)測誤差之和(I)根據(jù)歐氏距離,從訓(xùn)練數(shù)據(jù)集中找到與特征向量X相鄰的圖像51幅;(2)采用第一步中第(3)和第(4)分步所述方法,得到特征向量X相鄰的圖像中每幅圖像的預(yù)測誤差q,然后對特征向量X相鄰的圖像中每幅圖像的預(yù)測誤差q進行累加,得到基于近鄰關(guān)系的局部預(yù)測誤差之和O。第三步、基于總預(yù)測誤差的優(yōu)化函數(shù)(I)在整個訓(xùn)練數(shù)據(jù)集的范圍內(nèi),對基于近鄰關(guān)系的局部預(yù)測誤差之和O進行累力口,得到全局范圍內(nèi)的總預(yù)測誤差,將總預(yù)測誤差最小化,得到總預(yù)測誤差的優(yōu)化函數(shù)min Yj (||t//! X - j J"H )
I I式(3)中min表示最小化函數(shù);t表示從數(shù)據(jù)集中第I幅圖像到第n幅圖像進行累加;
1=1n表示訓(xùn)練數(shù)據(jù)集中圖像的總個數(shù);I表不偏向;a為權(quán)重參數(shù)(0〈 a〈I);¥表示回歸矩陣;T表示轉(zhuǎn)置運算;X表示特征向量;y表示特征向量X在聚類子空間中的坐標(biāo)的最佳取值;a I I F I I2是加入的正則項,以避免出現(xiàn)過學(xué)習(xí)現(xiàn)象。(2)對式(3)中的參數(shù)V和參數(shù)I求導(dǎo),根據(jù)矩陣運算規(guī)則,式(3)的總預(yù)測誤差的優(yōu)化函數(shù)變形為
mintr(YLYt) (4)式(4)中tr表示矩陣的跡運算;min表示最小化函數(shù);Y表示由所有圖像樣本在聚類子空間中坐標(biāo)的最佳取值構(gòu)成的最優(yōu)坐標(biāo)矩陣,即為待求解的聚類子空間;T表示轉(zhuǎn)置運算;L為相關(guān)性矩陣,記錄了圖像樣本之間的相鄰關(guān)系。第四步、聚類約束條件(I)在聚類過程中,除了需要滿足式(4)之外,還增加兩個聚類約束條件,分別是訓(xùn)練數(shù)據(jù)集的類內(nèi)離散度最小和訓(xùn)練數(shù)據(jù)集的類間離散度最大。(2)訓(xùn)練數(shù)據(jù)集中標(biāo)記樣本的類間離散度 (5)
權(quán)利要求
1. 一種基于局部線性回歸的半監(jiān)督圖像聚類子空間學(xué)習(xí)算法,其特征在于包括如下步驟 第一步、特征向量X的預(yù)測誤差 (1)構(gòu)建訓(xùn)練數(shù)據(jù)集,包括標(biāo)記樣本和未標(biāo)記樣本; (2)對訓(xùn)練數(shù)據(jù)集中的每幅圖像,提取底層的顏色、紋理和形狀特征,構(gòu)成特征向量X; (3)采用局部線性回歸方法,預(yù)測特征向量X在聚類子空間中的坐標(biāo),得到預(yù)測值 Z= ¥Tx+ ^ (I) 式(I)中¥表示回歸矩陣, I表不偏向, T表示轉(zhuǎn)置運算; (4)設(shè)特征向量X在聚類子空間中的坐標(biāo)最佳取值為y,則預(yù)測值z與最佳取值y之間的差為特征向量X的預(yù)測誤差Q= z-y I2=I I VtX+ I -y I2 (2) 式⑵中||||2表示二范式; 第二步、基于近鄰關(guān)系的局部預(yù)測誤差之和 (1)根據(jù)歐氏距離,從訓(xùn)練數(shù)據(jù)集中找到與特征向量X相鄰的圖像51幅; (2)采用第一步中第(3)和第(4)分步所述方法,得到特征向量X相鄰的圖像中每幅圖像的預(yù)測誤差q,然后對特征向量X相鄰的圖像中每幅圖像的預(yù)測誤差q進行累加,得到基于近鄰關(guān)系的局部預(yù)測誤差之和O ; 第三步、基于總預(yù)測誤差的優(yōu)化函數(shù) (1)在整個訓(xùn)練數(shù)據(jù)集的范圍內(nèi),對基于近鄰關(guān)系的局部預(yù)測誤差之和0進行累加,得到全局范圍內(nèi)的總預(yù)測誤差,將總預(yù)測誤差最小化,得到總預(yù)測誤差的優(yōu)化函數(shù) 式(3)中min表示最小化函數(shù), I;表示從數(shù)據(jù)集中第I幅圖像到第n幅圖像進行累加, n表示訓(xùn)練數(shù)據(jù)集中圖像的總個數(shù); I表不偏向, a為權(quán)重參數(shù)(0〈 a〈1), V表示回歸矩陣, T表示轉(zhuǎn)置運算, X表示特征向量, y表示特征向量X在聚類子空間中的坐標(biāo)的最佳取值, a I I ¥ I I2是加入的正則項,以避免出現(xiàn)過學(xué)習(xí)現(xiàn)象; (2)對式(3)中的參數(shù)¥和參數(shù)I求導(dǎo),根據(jù)矩陣運算規(guī)則,式(3)的總預(yù)測誤差的優(yōu)化函數(shù)變形為mintr(YLYt) (4) 式(4)中tr表示矩陣的跡運算,min表示最小化函數(shù), Y表示由所有圖像樣本在聚類子空間中坐標(biāo)的最佳取值構(gòu)成的最優(yōu)坐標(biāo)矩陣,即為待求解的聚類子空間, T表示轉(zhuǎn)置運算, L為相關(guān)性矩陣,記錄了圖像樣本之間的相鄰關(guān)系; 第四步、聚類約束條件 (1)在聚類過程中,除了需要滿足式(4)之外,還增加兩個聚類約束條件,分別是訓(xùn)練數(shù)據(jù)集的類內(nèi)離散度最小和訓(xùn)練數(shù)據(jù)集的類間離散度最大; (2)訓(xùn)練數(shù)據(jù)集中標(biāo)記樣本的類間離散度
全文摘要
本發(fā)明公開了一種基于局部線性回歸的半監(jiān)督圖像聚類子空間學(xué)習(xí)算法。首先采用局部線性回歸模型預(yù)測訓(xùn)練樣本在聚類子空間中的坐標(biāo),得到預(yù)測值與真實值之間的局部預(yù)測誤差,進而得到總預(yù)測誤差最小化的目標(biāo)函數(shù);然后根據(jù)類間離散度最大化和類內(nèi)離散度最小化兩個約束條件,利用標(biāo)記樣本和未標(biāo)記樣本計算類間離散度矩陣和總離散度矩陣;最后,將類間離散度矩陣和總離散度矩陣融入到總預(yù)測誤差最小化的目標(biāo)函數(shù)中,得到求解聚類子空間的目標(biāo)函數(shù),通過廣義特征根進行函數(shù)求解,得到最優(yōu)的聚類子空間。本發(fā)明充分利用了標(biāo)記樣本、未標(biāo)記樣本,以及訓(xùn)練數(shù)據(jù)集中的局部近鄰關(guān)系,得到了較好的聚類結(jié)果。
文檔編號G06K9/62GK102968639SQ201210370179
公開日2013年3月13日 申請日期2012年9月28日 優(yōu)先權(quán)日2012年9月28日
發(fā)明者張鴻, 汪萌 申請人:武漢科技大學(xué)