欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于矩陣變量的高斯分布受限玻爾茲曼機(jī)的圖像識(shí)別方法與流程

文檔序號(hào):12721271閱讀:423來(lái)源:國(guó)知局

本發(fā)明屬于特征提取及神經(jīng)網(wǎng)絡(luò)領(lǐng)域,尤其涉及一種基于高斯分布的矩陣變量的受限玻爾茲曼機(jī)的圖像識(shí)別方法。



背景技術(shù):

人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)是一種通過(guò)模仿生物神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和功能而建立起來(lái)的計(jì)算模型,是很具有代表性的一類機(jī)器學(xué)習(xí)方法。典型的ANN是由大量的簡(jiǎn)單處理節(jié)點(diǎn)(人工神經(jīng)元)構(gòu)成,這些節(jié)點(diǎn)是具有層次結(jié)構(gòu)的,并且以指定方式互相關(guān)聯(lián)。一些節(jié)點(diǎn)對(duì)外部可見(jiàn)而另外一些對(duì)外部隱藏,兩個(gè)節(jié)點(diǎn)間的關(guān)聯(lián)即權(quán)重。訓(xùn)練一個(gè)ANN模型即是要根據(jù)訓(xùn)練數(shù)據(jù)計(jì)算權(quán)重系數(shù)。

玻爾茲曼機(jī)(Boltzmann Machine,BM)是Hinton和Sejnowski于1985年提出的一種根植于統(tǒng)計(jì)力學(xué)的隨機(jī)神經(jīng)網(wǎng)絡(luò)。BM由一個(gè)可見(jiàn)層和一個(gè)隱藏層組成,兩層節(jié)點(diǎn)之間以及隱藏層的節(jié)點(diǎn)間擁有對(duì)稱的雙向連接權(quán)重。在訓(xùn)練時(shí),將訓(xùn)練數(shù)據(jù)集作為可見(jiàn)層的輸入,神經(jīng)元的輸出只有兩種狀態(tài)(未激活、激活),一般用二進(jìn)制的0和1表示,狀態(tài)的取值根據(jù)概率統(tǒng)計(jì)法則決定。

BM具有強(qiáng)大的無(wú)監(jiān)督學(xué)習(xí)能力,能夠?qū)W習(xí)數(shù)據(jù)中復(fù)雜的規(guī)則。但是,BM的同層節(jié)點(diǎn)間具有相互關(guān)聯(lián),所以導(dǎo)致其難以訓(xùn)練。為克服這一問(wèn)題,Smolensky引入了一種限制的波爾茲曼機(jī)(Restricted Boltzmann Machine,RBM)。RBM與BM具有相同的層次結(jié)構(gòu),而不同的是RBM模型的同層節(jié)點(diǎn)間不再具有連接權(quán)重。RBM具有很好的性質(zhì):在給定可見(jiàn)層節(jié)點(diǎn)狀態(tài)(輸入數(shù)據(jù))時(shí),各隱藏層節(jié)點(diǎn)的激活條件獨(dú)立;反之,在給定隱藏層節(jié)點(diǎn)狀態(tài)時(shí),可見(jiàn)層節(jié)點(diǎn)的激活亦條件獨(dú)立。這種修改簡(jiǎn)化了涉及到的公式,并大大加快了算法的學(xué)習(xí)速度。此外,Roux和Bengio從理論上證明,只要隱單元的數(shù)目足夠多,RBM能夠擬合任意離散分布。在求解模型時(shí),可通過(guò)Gibbs采樣得到服從RBM節(jié)點(diǎn)分布的隨機(jī)樣本,但Gibbs采樣迭代次數(shù)較多,而當(dāng)RBM中節(jié)點(diǎn)數(shù)較多時(shí),學(xué)習(xí)速度仍然很慢。為了解決采樣速度慢的問(wèn)題,Hinton提出了RBM的快速學(xué)習(xí)算法——對(duì)比散度(Contrastive Divergence,CD),此方法可以通過(guò)一次迭代得到樣本的近似。還有一些研究者在CD算法的基礎(chǔ)上,對(duì)其作了進(jìn)一步改進(jìn)。例如Tieleman于年提出了持續(xù)對(duì)比散度(Persistent Contrastive Divergence,PCD)算法,Tieleman和Hinton進(jìn)一步改進(jìn)了PCD算法,提出了快速持續(xù)對(duì)比散度(Fast Persistent Contrastive Divergence,F(xiàn)PCD)算法。目前,RBM被應(yīng)用于深度信念網(wǎng)絡(luò)(Deep Belief Nets,DBN)的多層結(jié)構(gòu)的構(gòu)建,以及不同的機(jī)器學(xué)習(xí)問(wèn)題,如數(shù)據(jù)降維、人臉識(shí)別、協(xié)同過(guò)濾等。

原始的BM和RBM的輸入和輸出節(jié)點(diǎn)都是二值的,這就帶來(lái)了兩個(gè)主要的限制:(1)這種模型僅適用于二值數(shù)據(jù)的或近似于二值數(shù)據(jù)的數(shù)據(jù)集,而很多現(xiàn)實(shí)世界中的數(shù)據(jù)不能用二值數(shù)據(jù)近似;(2)二值的隱藏層節(jié)點(diǎn)不能完整地表達(dá)數(shù)據(jù)降維或特征提取后的信息。為了克服這些問(wèn)題,人們改進(jìn)RBM模型,使其接受連續(xù)值作為輸入,例如GBRBM(Gaussian Bernoulli RBM):GBRBM的可見(jiàn)層節(jié)點(diǎn)服從高斯分布,其隱藏層節(jié)點(diǎn)仍然是二進(jìn)制數(shù)據(jù),服從伯努利分布。GBRBM比RBM擁有更好的表達(dá)能力,并且GBRBM能夠適用于更多的領(lǐng)域。Cho等人于2011年提出了IGBRBM(Improved Gaussian Bernoulli RBM),IGBRBM是對(duì)GBRBM進(jìn)行了改進(jìn),應(yīng)用了自適應(yīng)的學(xué)習(xí)率,克服了模型訓(xùn)練難度大、收斂速度慢等問(wèn)題。

經(jīng)典的RBM模型主要用于輸入為一維向量數(shù)據(jù)。然而,現(xiàn)實(shí)世界中的數(shù)據(jù)往往是高維的,并且其內(nèi)部具有相關(guān)結(jié)構(gòu),例如圖像、視頻等。傳統(tǒng)的RBM總是將高維數(shù)據(jù)進(jìn)行向量化,得到一維數(shù)據(jù)。但向量化后,原始數(shù)據(jù)的結(jié)構(gòu)被破壞,并且造成了維度災(zāi)難。因此出現(xiàn)了高階玻爾茲曼機(jī),Nguyen at al.提出了張量數(shù)據(jù)的RBM(Tensor-variate RBM,TvRBM),Qi at al.提出了矩陣數(shù)據(jù)的RBM(Matrix Variate RBM,MVRBM)。但它們的可視層和隱藏層都是滿足Bernoulli分布的二值數(shù)據(jù),并不能很好的擬合現(xiàn)實(shí)中的數(shù)據(jù),因此對(duì)于分布在實(shí)數(shù)域上的圖像的識(shí)別效果較差。

由于IGBRBM模型中,隱藏層節(jié)點(diǎn)取0或1值,服從二項(xiàng)分布,所以由此模型得到的隱藏層輸出損失了原始數(shù)據(jù)的信息。所以本發(fā)明修改IGBRBM模型,假設(shè)RBM的可視層單元和隱藏層單元均不再取單一的0或1值,即不再令模型的可視層和隱藏層節(jié)點(diǎn)服從二項(xiàng)分布。由于Welling指出,RBM中的隱藏層節(jié)點(diǎn)和可見(jiàn)層節(jié)點(diǎn)的分布可以為任意的指數(shù)族分布,所以本發(fā)明假設(shè)RBM的可視層和隱藏層均滿足高斯分布。由于經(jīng)典的RBM模型只能對(duì)一維數(shù)據(jù)進(jìn)行建模,而當(dāng)高維數(shù)據(jù)作為輸入時(shí),需要先對(duì)輸入樣本進(jìn)行向量化,這樣做破壞了樣本的空間內(nèi)部結(jié)構(gòu)。因此借鑒MVRBM的思想,對(duì)二維樣本直接建模。最終形成了本發(fā)明的模型——矩陣變量高斯分布受限玻爾茲曼機(jī)(MVGRBM)。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明提出了一種圖像識(shí)別方法,采用基于高斯分布的受限玻爾茲曼機(jī)模型,用于對(duì)二維圖像進(jìn)行特征提取,記為MVGRBM。此模型能夠直接對(duì)圖像進(jìn)行建模,而不需要向量化,保留了原始樣本的結(jié)構(gòu)信息。由于MVGRBM的可視層和隱藏層服從參數(shù)不同的高斯分布,可視層服從高斯分布能夠更加精確地?cái)M合輸入值為實(shí)數(shù)的樣本,隱藏層服從高斯分布可以使得特征矩陣分布在實(shí)數(shù)域上,故特征矩陣能夠表達(dá)更加豐富的信息。

為實(shí)現(xiàn)上述目的,本發(fā)明采用如下的技術(shù)方案:

一種基于高斯分布的受限玻爾茲曼機(jī)模型的圖像識(shí)別方法,包括以下步驟:

步驟1、建立基于高斯分布的矩陣變量受限玻爾茲曼機(jī)模型

將經(jīng)典的受限玻爾茲曼機(jī)模型擴(kuò)展到高維空間,給出其能量函數(shù)為:

E(X,Y)=∑ijxijaij+∑klyklbkl-∑ijklωijklxijykl

表示一張大小為I×J的原始圖像,表示使用此模型提取的圖像特征矩陣,其大小為K×L;表示圖像的偏移量,表示圖像特征矩陣的偏移量,

假設(shè)圖像的每個(gè)像素點(diǎn)服從高斯分布,即圖像的第(i,j)個(gè)像素點(diǎn)的方差為圖像特征矩陣的每個(gè)元素服從高斯分布,即第(k,l)個(gè)元素的方差為原始圖像與特征矩陣的連接權(quán)重是一個(gè)四階張量此模型的能量函數(shù)為:

令wijkl=ukivlj,用兩個(gè)矩陣和代替張量則需要求解的參數(shù)數(shù)量降低為K×I+L×J,

將能量函數(shù)改寫成矩陣的形式:

其中,

分別計(jì)算出圖像和特征矩陣的條件概率:

步驟2、矩陣變量受限玻爾茲曼機(jī)模型求解

使用極大似然估計(jì)訓(xùn)練MVGRBM模型。

其中,為模型需要求解的參數(shù),表示在參數(shù)給定的情況下,得到原始圖像的概率,要使得到原始圖像的概率最大,需要求這個(gè)函數(shù)的極大值,假設(shè)圖像集共有N張圖片,那么圖像集的對(duì)數(shù)極大似然估計(jì)定義為:

使用梯度上升法求解參數(shù),首先對(duì)參數(shù)求偏導(dǎo),得到參數(shù)偏導(dǎo)數(shù)的通式:

對(duì)于每個(gè)參數(shù),其偏導(dǎo)數(shù)為:

其中,

利用上面求得的偏導(dǎo)數(shù)得到參數(shù)的梯度:

其中,α為學(xué)習(xí)率,λ為控制訓(xùn)練收斂速度的動(dòng)量項(xiàng),β控制權(quán)重參數(shù)在迭代更新時(shí)梯度太大;輸入圖像的訓(xùn)練集,利用參數(shù)梯度更新各參數(shù),迭代多次,得到使似然函數(shù)達(dá)到最大的模型。

步驟3、基于高斯分布的矩陣變量受限玻爾茲曼機(jī)模型進(jìn)行圖像識(shí)別。

作為優(yōu)選,步驟3中利用上文得到的模型,結(jié)合最近鄰方法,對(duì)于圖像的測(cè)試集做識(shí)別,具體方法為:

3.1、將測(cè)試圖像輸入到模型中,得到測(cè)試圖像的特征矩陣;

3.2、此特征矩陣與訓(xùn)練集每一張圖像的特征矩陣求距離,得到距離最小的訓(xùn)練樣本;

3.3、將此訓(xùn)練樣本的標(biāo)簽作為測(cè)試樣本的標(biāo)簽;

3.4、對(duì)每張測(cè)試圖像重復(fù)上述過(guò)程。

附圖說(shuō)明

圖1為本發(fā)明圖像識(shí)別方法的流程圖。

具體實(shí)施方式

如圖1所示,本發(fā)明提供一種基于高斯分布的受限玻爾茲曼機(jī)模型的圖像識(shí)別方法,包括以下步驟:

步驟1、建立基于高斯分布的矩陣變量受限玻爾茲曼機(jī)模型

Qi at al.將經(jīng)典的受限玻爾茲曼機(jī)模型擴(kuò)展到高維空間,給出其能量函數(shù)為:

E(X,Y)=ΣiΣjxijaijkΣlyklbkliΣjΣkΣlwijklxijykl (1)

表示一張大小為I×J的原始圖像,表示使用此模型提取的圖像特征矩陣,其大小為K×L;表示圖像的偏移量,表示圖像特征矩陣的偏移量。

本發(fā)明假設(shè)圖像的每個(gè)像素點(diǎn)服從高斯分布,即圖像的第(i,j)個(gè)像素點(diǎn)的方差為圖像特征矩陣的每個(gè)元素服從高斯分布,即第(k,l)個(gè)元素的方差為原始圖像與特征矩陣的連接權(quán)重是一個(gè)四階張量此模型的能量函數(shù)為:

由于原始圖像與特征矩陣的連接權(quán)重是一個(gè)四階張量,則需要計(jì)算I×J×K×L個(gè)參數(shù),計(jì)算復(fù)雜度高。為了降低參數(shù)求解的復(fù)雜度,本發(fā)明令wijkl=ukivlj,用兩個(gè)矩陣和代替張量則需要求解的參數(shù)數(shù)量降低為K×I+L×J。

將能量函數(shù)改寫成矩陣的形式:

其中

分別計(jì)算出圖像和特征矩陣的條件概率:

步驟2、矩陣變量受限玻爾茲曼機(jī)模型求解

本發(fā)明使用極大似然估計(jì)訓(xùn)練MVGRBM模型。

其中為模型需要求解的參數(shù)。表示在參數(shù)給定的情況下,得到原始圖像的概率。要使得到原始圖像的概率最大,需要求這個(gè)函數(shù)的極大值。為了簡(jiǎn)化計(jì)算復(fù)雜度通常采用對(duì)數(shù)似然函數(shù)。假設(shè)圖像集共有N張圖片,那么圖像集的對(duì)數(shù)極大似然估計(jì)定義為:

使用梯度上升法求解參數(shù)。首先對(duì)參數(shù)求偏導(dǎo),得到參數(shù)偏導(dǎo)數(shù)的通式:

對(duì)于每個(gè)參數(shù),其偏導(dǎo)數(shù)為:

其中

利用上面求得的偏導(dǎo)數(shù)得到參數(shù)的梯度:

其中,α為學(xué)習(xí)率,λ為控制訓(xùn)練收斂速度的動(dòng)量項(xiàng),β控制權(quán)重參數(shù)在迭代更新時(shí)梯度太大。輸入圖像的訓(xùn)練集,利用參數(shù)梯度更新各參數(shù),迭代多次,可以得到使似然函數(shù)達(dá)到最大的模型。

步驟3、基于高斯分布的矩陣變量受限玻爾茲曼機(jī)模型的圖像識(shí)別

利用上文得到的模型,結(jié)合最近鄰方法,對(duì)于圖像的測(cè)試集做識(shí)別,具體方法為:

1)將測(cè)試圖像輸入到模型中,得到測(cè)試圖像的特征矩陣;

2)此特征矩陣與訓(xùn)練集每一張圖像的特征矩陣求距離,得到距離最小的訓(xùn)練樣本;

3)將此訓(xùn)練樣本的標(biāo)簽作為測(cè)試樣本的標(biāo)簽;

4)對(duì)每張測(cè)試圖像重復(fù)上述過(guò)程。

實(shí)施例1

本發(fā)明通過(guò)與同類方法的對(duì)比實(shí)驗(yàn),來(lái)說(shuō)明本發(fā)明對(duì)于圖像識(shí)別的有效性,對(duì)比的方法有傳統(tǒng)RBM,IGBRBM,MVRBM。本發(fā)明的實(shí)驗(yàn)還探索了訓(xùn)練過(guò)程中,迭代次數(shù)對(duì)于識(shí)別準(zhǔn)確度的影響。

本發(fā)明在以下數(shù)據(jù)庫(kù)上進(jìn)行了實(shí)驗(yàn):

MNIST Database:MNIST數(shù)據(jù)庫(kù)為手寫數(shù)字?jǐn)?shù)據(jù)庫(kù),包含0~9十個(gè)數(shù)字的60,000張訓(xùn)練圖片以及10,000張測(cè)試圖片。每張圖片的大小為28*28的灰度圖像。

ETH-80 Database:ETH-80數(shù)據(jù)庫(kù)包含8類物體,每一類包含10個(gè)不同的物體的41個(gè)不同視角的圖片,總共3,280張圖片。將每張圖片下采樣到32*32,并將每張圖片轉(zhuǎn)化為灰度圖像。

Ballet Database:Ballet數(shù)據(jù)庫(kù)包含從芭蕾舞DVD中截取的44段視頻。每段視頻包含107到506幀。整個(gè)數(shù)據(jù)集包含8種復(fù)雜動(dòng)作。將每一幀圖像下采樣為32*32大小,并把圖像轉(zhuǎn)化為灰度圖像。

1手寫數(shù)字圖像識(shí)別實(shí)驗(yàn)

表一MNIST數(shù)據(jù)庫(kù)識(shí)別準(zhǔn)確率

表一展示了在不同的迭代次數(shù)下,RBM、IGBRBM、MVRBM以及本發(fā)明的模型MVGRBM對(duì)于MNIST手寫數(shù)字?jǐn)?shù)據(jù)庫(kù)的測(cè)試集的識(shí)別準(zhǔn)確率??梢钥吹奖景l(fā)明的模型在迭代1000次時(shí)識(shí)別準(zhǔn)確率最高,結(jié)果為0.9700。并且在迭代100次時(shí),結(jié)果好于其他的三種方法,這說(shuō)明本發(fā)明的方法在迭代次數(shù)較少時(shí)可以達(dá)到更好的效果,其效率優(yōu)于其他三種方法。

2物體圖像識(shí)別實(shí)驗(yàn)

本發(fā)明在ETH-80物體庫(kù)上做分類實(shí)驗(yàn)。ETH-80庫(kù)共有8類,每類物體的每個(gè)實(shí)例有41張不同視角的圖片,故隨機(jī)選出21張圖片做訓(xùn)練,剩余的20張做測(cè)試。則訓(xùn)練集共1680張圖片,測(cè)試集共1600張圖片。測(cè)試集的分類準(zhǔn)確率如表二所示。

表二ETH-80數(shù)據(jù)庫(kù)識(shí)別準(zhǔn)確率

從表二中可以看出,本發(fā)明的方法對(duì)于物體圖像的識(shí)別準(zhǔn)確率明顯優(yōu)于其他三種方法,識(shí)別準(zhǔn)確率為0.8894。并且在迭代次數(shù)較少時(shí),其識(shí)別準(zhǔn)確率接近此方法的最好水平。但在迭代次數(shù)增加時(shí),例如2000次,此時(shí)識(shí)別準(zhǔn)確率反而低于迭代1000次時(shí)的值。這說(shuō)明訓(xùn)練次數(shù)過(guò)大,會(huì)造成過(guò)擬合現(xiàn)象。

3芭蕾舞視頻序列識(shí)別實(shí)驗(yàn)

在Ballet視頻數(shù)據(jù)庫(kù)上做分類實(shí)驗(yàn)。Ballet數(shù)據(jù)庫(kù)共包含8種動(dòng)作,每種動(dòng)作隨機(jī)選取200張圖片作為訓(xùn)練集,剩下的圖片作為測(cè)試集。分類準(zhǔn)確率如表三所示。

表三Ballet數(shù)據(jù)庫(kù)識(shí)別準(zhǔn)確率

表三的結(jié)果表明使用本發(fā)明的方法對(duì)于芭蕾舞視頻的識(shí)別效果好于同類方法,其識(shí)別準(zhǔn)確率為0.9357.并且,本發(fā)明的方法在訓(xùn)練的迭代次數(shù)較少的情況下,仍能獲得較好的識(shí)別準(zhǔn)確率。

表一到表三均證明使用本發(fā)明的模型識(shí)別效果較好,這得益于模型假設(shè)輸入圖像與圖像的特征矩陣都服從高斯分布。并且三組實(shí)驗(yàn)均在訓(xùn)練迭代次數(shù)較少的情況下,達(dá)到較高的識(shí)別準(zhǔn)確度,這大大加速了模型的訓(xùn)練過(guò)程。

本發(fā)明提出了一種改進(jìn)的受限玻爾茲曼機(jī)模型,并利用此模型進(jìn)行圖像識(shí)別。其關(guān)鍵點(diǎn)為模型的輸入接受矩陣形式的圖像,而不需要向量化,模型提取的圖像的特征為矩陣形式,并且輸入圖像和特征矩陣均服從高斯分布。相比于經(jīng)典的RBM,此模型能夠直接對(duì)二維數(shù)據(jù)進(jìn)行建模而不破壞其空間內(nèi)部結(jié)構(gòu),并且可以更加精準(zhǔn)的建模非二值數(shù)據(jù),因此在重構(gòu)效果上比傳統(tǒng)RBM更好。此模型的隱藏層為模型提取的特征,也是分布在實(shí)數(shù)域上的,這意味著特征包含了更多的信息,利用此模型提取的信息進(jìn)行作為分類器的輸入,可以得到比同類方法更好的識(shí)別準(zhǔn)確率。

以上所述,僅是本發(fā)明的較佳實(shí)驗(yàn)例,并非對(duì)本發(fā)明作任何形式上的限制,凡是依據(jù)本發(fā)明的技術(shù)實(shí)質(zhì)對(duì)以上實(shí)施例所作的任何簡(jiǎn)單修改、等同變化與修飾,均仍屬本發(fā)明技術(shù)方案的保護(hù)范圍。

當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
黄石市| 桃园县| 安陆市| 平山县| 高安市| 乌审旗| 新宾| 福建省| 涪陵区| 达拉特旗| 九江县| 六安市| 贡山| 昆山市| 天台县| 绥棱县| 嘉荫县| 长葛市| 长宁县| 深水埗区| 利辛县| 特克斯县| 辰溪县| 博乐市| 南澳县| 洛阳市| 惠水县| 广汉市| 开鲁县| 衢州市| 醴陵市| 荔波县| 涟源市| 九江市| 大英县| 赤峰市| 永昌县| 昌黎县| 安平县| 蒙自县| 灵寿县|