本發(fā)明涉及模式分類技術(shù)領(lǐng)域,尤其涉及一種對(duì)圖像數(shù)據(jù)集進(jìn)行識(shí)別處理的universum結(jié)合矩陣ho-kashyap算法與系統(tǒng)。
背景技術(shù):
模式識(shí)別是研究利用計(jì)算機(jī)來(lái)模仿或?qū)崿F(xiàn)人類或其它動(dòng)物的識(shí)別能力,以便對(duì)研究對(duì)象完成自動(dòng)識(shí)別的任務(wù)。近年來(lái),模式識(shí)別技術(shù)已被廣泛應(yīng)用在人工智能、機(jī)器學(xué)習(xí)、計(jì)算機(jī)工程、機(jī)器人學(xué)、神經(jīng)生物學(xué)、醫(yī)學(xué)、偵探學(xué)以及考古學(xué)、地質(zhì)勘探、宇航科學(xué)和武器技術(shù)等許多重要領(lǐng)域。模式識(shí)別需要處理經(jīng)典問(wèn)題之一是對(duì)二維數(shù)據(jù),即使用矩陣表示的數(shù)據(jù),進(jìn)行處理。在實(shí)際應(yīng)用中,矩陣表示的數(shù)據(jù)常見于圖像識(shí)別問(wèn)題,例如人臉識(shí)別,指紋識(shí)別,或光譜識(shí)別。
傳統(tǒng)的模式分類方法在處理圖像問(wèn)題時(shí),需要首先將一個(gè)圖像樣本轉(zhuǎn)換為向量表示,再對(duì)向量化的樣本進(jìn)行處理。經(jīng)典的方法包括支持向量機(jī)(supportvectormachine,svm),主成分分析(principalcomponentanalysis),fisher線性判別(fisherlineardiscriminant)等。處理向量化后的圖像存在兩個(gè)主要問(wèn)題:首先,將一個(gè)圖像轉(zhuǎn)換成向量后,向量的維度相對(duì)較高,對(duì)于特征提取領(lǐng)域的許多經(jīng)典方法來(lái)說(shuō),會(huì)出現(xiàn)小樣本問(wèn)題,即數(shù)據(jù)集的規(guī)模遠(yuǎn)小于數(shù)據(jù)集的維度。例如,局保投影算法(locallypreservingprojection,lpp),fld,和pca等。這類算法需要涉及到特征值分解,而維度與樣本數(shù)的差異導(dǎo)致多元一次不定方程組求近似解問(wèn)題。高維樣本也使得運(yùn)算復(fù)雜度增加,且消耗更多的內(nèi)存來(lái)放置權(quán)重向量等參數(shù)。其次,將一個(gè)圖像轉(zhuǎn)換成向量后,圖像本身元素之間的空間結(jié)構(gòu)被破壞。由于圖像樣本的元素不同于向量樣本元素,不是對(duì)應(yīng)獨(dú)立定義的屬性,而是表示整個(gè)樣本在特定位置的像素信息。因此,破壞圖像原本的二維結(jié)構(gòu)在理論上會(huì)對(duì)分類精確度造成一定影響。
為了解決傳統(tǒng)模式識(shí)別方法在二維數(shù)據(jù)集上存在的問(wèn)題,一些特定的方法被設(shè)計(jì)出來(lái)。在這些方法中,直接處理二維樣本的方法取得了較顯著成功。代表性方法有將傳統(tǒng)特征處理方法二維化的二維主成分分析(2dpca)及二維fisher線性判別(2dfld)等。同時(shí),也有將經(jīng)典分類方法二維化的方法,例如支持張量機(jī)(supporttensormachine,stm)等。
目前,兩個(gè)方向的方法各有不足。第一類方法只在特征處理階段對(duì)數(shù)據(jù)集直接處理,主要目的是降維以避免或緩解小樣本問(wèn)題,但在后續(xù)的分類階段仍然使用傳統(tǒng)方法進(jìn)行處理,這樣雖然部分解決了上文所述二維樣本向量化后出現(xiàn)的問(wèn)題一,但無(wú)法解決問(wèn)題二。第二類方法由于大多為非線性方法,往往結(jié)構(gòu)復(fù)雜,需要調(diào)整大量參數(shù)以獲取最優(yōu)值。而矩陣計(jì)算量是階數(shù)的三次方,這類方法在處理許多非線性步驟時(shí)涉及大量矩陣計(jì)算,因此時(shí)間復(fù)雜度極高。若能設(shè)計(jì)出結(jié)構(gòu)簡(jiǎn)潔,參數(shù)較少,且能直接對(duì)二維數(shù)據(jù)進(jìn)行分類的方法,將會(huì)進(jìn)一步提高模式分類技術(shù)在圖像問(wèn)題上的處理能力。
技術(shù)實(shí)現(xiàn)要素:
針對(duì)現(xiàn)有技術(shù)結(jié)構(gòu)復(fù)雜、效率低下且精度不高,無(wú)法滿足精準(zhǔn)、實(shí)時(shí)、或缺少先驗(yàn)知識(shí)的圖像問(wèn)題,本發(fā)明提供了一種基于universum結(jié)合矩陣ho-kashyap算法的分類方法,對(duì)二分類問(wèn)題,首先通過(guò)經(jīng)典的in-between技術(shù)生成類間的universum樣本,然后設(shè)計(jì)了一個(gè)二維化ho-kashyap(hk)算法的模型,之后設(shè)計(jì)一個(gè)表征universum樣本與原始樣本關(guān)聯(lián)的正則化項(xiàng)并將其代入第二步設(shè)計(jì)的模塊中,最后對(duì)整個(gè)模型用梯度下降方法求解最優(yōu)參數(shù),得到的決策邊界在保證圖像數(shù)據(jù)集分類正確率的同時(shí),在模型設(shè)計(jì)和模型運(yùn)算兩方面提高效率。
本發(fā)明解決其技術(shù)問(wèn)題所采用的技術(shù)方案:首先后臺(tái)根據(jù)具體的圖像問(wèn)題描述,將采集到的樣本使用經(jīng)典的lpp、fld或pca方法進(jìn)行降維去噪處理。其次,將以矩陣表示的數(shù)據(jù)集分為訓(xùn)練數(shù)據(jù)集與測(cè)試數(shù)據(jù)集兩部分。在訓(xùn)練步驟中,首先使用基于in-between生成策略生成一定數(shù)量位于兩類樣本之間的第三類樣本點(diǎn),即universum樣本。之后,將universum樣本點(diǎn)代入正則化項(xiàng)runi中。接著將正則化項(xiàng)引入矩陣化之后的hk分類模型,構(gòu)成完整的結(jié)合universum的矩陣化hk模型。最后,對(duì)該模型進(jìn)行訓(xùn)練,得到模型針對(duì)當(dāng)前訓(xùn)練數(shù)據(jù)集的最優(yōu)參數(shù),生成最優(yōu)分類決策面。第三,在測(cè)試階段,將當(dāng)前測(cè)試樣本點(diǎn)代入訓(xùn)練好的決策面函數(shù)進(jìn)行判斷。最后,輸出決定的類標(biāo)號(hào)。
本發(fā)明解決其技術(shù)問(wèn)題所采用的技術(shù)方案還可以進(jìn)一步完善。所述訓(xùn)練模塊的第一個(gè)步驟,生成universum的方法不限于使用in-between,只要使用的方法能迅速生成介于兩類之間的第三類樣本即可。進(jìn)一步,由于向量也是一種特殊的矩陣,該模型也能夠處理向量數(shù)據(jù)集。在處理時(shí),若不考慮引入的universum樣本,且令模型一側(cè)的權(quán)重向量不參與迭代優(yōu)化,則模型退化到傳統(tǒng)的修正hk算法(modifiedho-kashyapalgorithm,mhks)??梢钥闯觯痉椒ㄅcmhks等方法一樣,屬于線性分類方法,因此能夠比非線性方法更快確定分類決策面,從而提高效率。
本發(fā)明有益的效果是:直接處理圖像數(shù)據(jù)的分類方法,不僅克服了小樣本問(wèn)題,提高效率,而且保留了圖像數(shù)據(jù)集結(jié)構(gòu)的完整性,因此有更高的精確度;通過(guò)引入universum樣本,讓原本的兩類樣本的對(duì)比更明顯,進(jìn)一步提高了精確度;由于該方法屬于線性方法,縮短了訓(xùn)練時(shí)間;該方法可以證明在rademacher條件下的推廣風(fēng)險(xiǎn)上界不超過(guò)原始的mhks方法。
附圖說(shuō)明
圖1是本發(fā)明應(yīng)用于圖像模式分類問(wèn)題的系統(tǒng)框架;
圖2是本發(fā)明算法與其他算法的實(shí)驗(yàn)對(duì)比圖;
具體實(shí)施方式
下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作進(jìn)一步介紹:本發(fā)明的方法共分三個(gè)模塊。
第一部分:數(shù)據(jù)采集
本模塊包括兩個(gè)步驟,首先將數(shù)據(jù)數(shù)值化;其次,生成universum樣本。
1)將現(xiàn)實(shí)中的圖像問(wèn)題數(shù)據(jù)化:生成矩陣表示的數(shù)據(jù)集便于后續(xù)模塊進(jìn)行處理。采集后生成的矩陣數(shù)據(jù)可以進(jìn)一步使用經(jīng)典方法進(jìn)行降維處理。一個(gè)矩陣樣本表示為a,矩陣的每一元素對(duì)應(yīng)樣本的一個(gè)像素轉(zhuǎn)換值,即樣本的維度d=m×n。
2)利用in-between方法生成universum樣本:universum樣本被定義為和問(wèn)題數(shù)據(jù)集在同一個(gè)域值范圍內(nèi),卻不屬于任何一類的樣本。例如在字母圖分類問(wèn)題中,使用二分類模型對(duì)數(shù)字“5”與“8”兩類樣本分類,剩下的數(shù)字“0”、“1”、“2”、“3”、“4”、“6”、“7”、“9”就可以被認(rèn)為是universum樣本。在其他問(wèn)題中,如果不存在現(xiàn)成的universum樣本,就需要使用一定的方法生成。這里我們使用了一個(gè)典型的生成算法,即in-between方法。該方法的思想是,首先確定兩類靠近決策邊界的樣本,在不同類的邊界樣本間連線,再在連線上隨機(jī)距離處生成新的樣本。生成的樣本就是universum樣本。在我們的方法中,為簡(jiǎn)化計(jì)算,統(tǒng)一在兩個(gè)樣本連線的中點(diǎn)生成universum樣本。
第二部分:訓(xùn)練分類模型
在這個(gè)模塊中,采集到的數(shù)據(jù)集將代入發(fā)明的核心算法中進(jìn)行訓(xùn)練。主要步驟如下:
1)設(shè)計(jì)正則化項(xiàng)runi:將universum樣本作為第三類樣本代入最初的決策面函數(shù)進(jìn)行處理,生成正則化項(xiàng)的公式如下:
2)對(duì)傳統(tǒng)的mhks矩陣化生成新的模型matmhks:首先,傳統(tǒng)的mhks模型基于最小均方誤差法提出,而mhks是修正的hk算法。hk算法的目標(biāo)方程如下;
js(w,b)=||yw-b||2
其中,y是向量樣本構(gòu)成的矩陣,w是權(quán)重向量,b是人為設(shè)定的不為負(fù)的偏差糾正向量。hk的目標(biāo)就是使得yw-b的誤差盡可能接近0。mhks通過(guò)增加邊界寬度,將該目標(biāo)化為下列不等式:
yw≥1n×1
從而得到新的目標(biāo)方程為:
矩陣化在mhks的基礎(chǔ)上,直接對(duì)矩陣進(jìn)行處理,首先,matmhks通過(guò)將原本的權(quán)重向量w分為控制矩陣行的向量u與控制矩陣列的向量v,得到基礎(chǔ)的決策面方程變?yōu)椋?/p>
進(jìn)而,matmhks的目標(biāo)方程變?yōu)椋?/p>
其中,v=[vt,v0]t,y=[y1,y2,...,yn]t,yi=ψi[utai,1]t。為簡(jiǎn)便,s1與s2為兩個(gè)單位矩陣。
3)將正則化項(xiàng)runi引入matmhks,構(gòu)成結(jié)合universum方法的矩陣化hk分類模型umatmhks:可以看出,hk,mhks和matmhks都遵循同一個(gè)框架設(shè)計(jì),即結(jié)構(gòu)風(fēng)險(xiǎn)最小化框架:
minj=remp+crreg
其中remp是傳統(tǒng)的經(jīng)驗(yàn)風(fēng)險(xiǎn)項(xiàng),即實(shí)驗(yàn)值與理論值的誤差平方和。rreg是推廣風(fēng)險(xiǎn),即對(duì)經(jīng)驗(yàn)風(fēng)險(xiǎn)的泛化,使得模型能夠在不同數(shù)據(jù)集上適用。c是一個(gè)懲罰因子。在這個(gè)傳統(tǒng)框架中,引入上一步驟設(shè)計(jì)好的universum正則化項(xiàng)runi,從而得到新方法的完整框架:
4)生成新框架下的目標(biāo)函數(shù):新模型由于將universum樣本引入了矩陣化hk方法中,
代入具體參數(shù)就得到最終的目標(biāo)方程:
5)利用梯度下降法求解最優(yōu)參數(shù):針對(duì)umatmhks的目標(biāo)方程,使用梯度下降方法,先對(duì)目標(biāo)參數(shù)求導(dǎo):
當(dāng)參數(shù)的微分公式結(jié)果為0時(shí),參數(shù)取得極值,此時(shí)得到每個(gè)參數(shù)獲取極值的計(jì)算公式如下:
而作為停步條件的標(biāo)準(zhǔn),參數(shù)b的求解與u與v不同,是根據(jù)前一步經(jīng)驗(yàn)風(fēng)險(xiǎn)
項(xiàng)得到的誤差方程表示的:
第三部分:測(cè)試未知數(shù)據(jù)
該模塊中,需要檢測(cè)其類標(biāo)號(hào)的未知數(shù)據(jù)代入已經(jīng)訓(xùn)練好的模型,并由模型做出決定。設(shè)未知樣本為ai。決策函數(shù)為:
由決策函數(shù)可知,若決策方程結(jié)果不為0,可進(jìn)行判斷,為0則表示測(cè)試樣本分到兩類的概率相等,分類模型無(wú)法判斷。
實(shí)驗(yàn)設(shè)計(jì)
1)實(shí)驗(yàn)數(shù)據(jù)集選取:該實(shí)驗(yàn)選擇了四個(gè)經(jīng)典圖像數(shù)據(jù)集。選取數(shù)據(jù)集的類數(shù)目、樣本維度、規(guī)模(樣本總數(shù))列在下表中。
所有使用的數(shù)據(jù)集均采用蒙特卡洛十輪交叉迭代方式處理,即將數(shù)據(jù)集各類分為兩份并使樣本順序打亂,一份作為測(cè)試數(shù)據(jù),另一份為訓(xùn)練數(shù)據(jù),重復(fù)十次。抽取方式為有放回抽取。在實(shí)驗(yàn)中,通過(guò)對(duì)比兩份的不同比例,觀察各分類模型在實(shí)際應(yīng)用中的效果。例如用于訓(xùn)練的樣本數(shù)遠(yuǎn)小于用于測(cè)試的樣本數(shù)時(shí),不同分類模型的分類精確度是多少。
2)對(duì)比算法:發(fā)明所使用的核心算法umatmhks。另外,我們選擇matmhks、mhks、svm(linear)、svm(non-linear)為基準(zhǔn)算法。其中svm(non-linear)算法使用徑向基函數(shù)(radialbasisfunction)。參數(shù)具體設(shè)置如下:
對(duì)于umatmhks,matmhks及mhks,向量b初始值設(shè)為10-6,停步參數(shù)ξ設(shè)置為10-4。學(xué)習(xí)率p設(shè)置為0.99。為防止不收斂情況出現(xiàn)而規(guī)定的最大迭代次數(shù)設(shè)置為1000次??刂苧reg項(xiàng)與runi項(xiàng)的懲罰參數(shù)c都從集合{10-2,10-1,100,101,102}中選取。特別地,umatmhks的權(quán)重向量u初始值設(shè)為隨機(jī)大于0小于1的數(shù)。
對(duì)于svm,松弛因子c的選取范圍在{10-2,10-1,100,101,102}中。對(duì)于非線性svm,核參數(shù)計(jì)算公式如下,即兩兩樣本的平均距離:
k(xi,xj)=exp(-||xi-xj||2/σ)
3)性能度量方法:實(shí)驗(yàn)統(tǒng)一使用分類精確度(classificationaccuracy,acc)來(lái)記錄不同方法對(duì)各數(shù)據(jù)集的分類結(jié)果。結(jié)果均為對(duì)應(yīng)算法在該數(shù)據(jù)集上使用最優(yōu)參數(shù)配置時(shí)獲得的結(jié)果,即最優(yōu)結(jié)果。acc值在0到100之間,數(shù)值越高,表明該算法在當(dāng)前數(shù)據(jù)集上分類效果越好。
所有模型在各圖像數(shù)據(jù)集上處理的結(jié)果如圖2所示。四幅圖分別描繪了對(duì)比算法在四個(gè)數(shù)據(jù)集上以不同規(guī)模設(shè)置訓(xùn)練樣本時(shí)的分類精確度。從圖中可以看出,在所有數(shù)據(jù)集上,大部分模型隨著訓(xùn)練樣本數(shù)目的增加提升了精確度。特別地,umatmhks在四個(gè)圖像數(shù)據(jù)集上都取得了模型組中最好的效果。