專利名稱:基于受限玻爾茲曼機神經(jīng)網(wǎng)絡(luò)的人臉姿態(tài)識別方法
技術(shù)領(lǐng)域:
本發(fā)明涉及的是一種圖像識別技術(shù)領(lǐng)域中的方法,具體是一種用受限玻爾茲曼機神經(jīng)網(wǎng)絡(luò)進行人臉姿態(tài)識別的方法。
背景技術(shù):
隨著全球安全意識的加強,人類對生物特征識別技術(shù)的要求也越來越高,而在眾多生物特征識別技術(shù)中,人臉識別最具有可行性。但傳統(tǒng)的二維人臉識別受到光照、姿態(tài)等因素的影響,不能夠滿足實際應(yīng)用的要求。因此,從二維人臉識別拓展到三維人臉識別是一個趨勢,因為三維空間能夠提供更多的信息用于人臉識別。但是這種從二維識別拓展到三維識別也帶來了新的問題,即如何估計人臉的姿態(tài)以能夠為后續(xù)的人臉特征點定位、識別提供準(zhǔn)確的可用信息。有一些學(xué)者對該問題進行了深入的研究,但該難題到目前為止還尚未得到完全解決。
經(jīng)對現(xiàn)有技術(shù)文獻的檢索發(fā)現(xiàn),Roweis,S.T.等在《Science》(科學(xué))(2000年第290卷第5500期第2323頁)發(fā)表的“Nonlinear Dimensionality Reduction byLocal linear Embedding”(用局部線性嵌入進行非線性降維),該文提出了一種非線性降維方法,該方法可以被用于進行姿態(tài)識別。如果把人臉看成是高維空間的一個點,在該方法中,通過在原始數(shù)據(jù)的高維空間中尋找每個點周圍K個最近鄰并計算它們之間的流行空間的距離來進行分類。但該方法的計算時間與訓(xùn)練樣本的個數(shù)成二次方關(guān)系。最為關(guān)鍵的一點就是對于一個新的待分類的樣本,其不能用已經(jīng)訓(xùn)練好的流行對其進行降維分類。也就是,該方法僅僅學(xué)習(xí)了給定數(shù)據(jù)的潛在的低維結(jié)構(gòu),它不能利用已經(jīng)學(xué)習(xí)好的該低維結(jié)構(gòu)把一個新的高維空間的數(shù)據(jù)影射到低維空間。這就限制了該方法的應(yīng)用,因此也不能直接應(yīng)用到人臉姿態(tài)識別中。
發(fā)明內(nèi)容
本發(fā)明針對局部線性嵌入方法的缺陷,提出了一種利用受限玻爾茲曼機神經(jīng)網(wǎng)絡(luò)進行人臉姿態(tài)識別的方法,使其能直接應(yīng)用到人臉姿態(tài)識別中,從而可以提供人臉姿態(tài)信息以能夠在多角度下進行人臉識別。
本發(fā)明是通過以下技術(shù)方案實現(xiàn)的,本發(fā)明首先利用訓(xùn)練樣本對受限玻爾茲曼機神經(jīng)網(wǎng)絡(luò)進行預(yù)訓(xùn)練學(xué)習(xí),得到預(yù)訓(xùn)練學(xué)習(xí)參數(shù),然后再利用梯度下降方法調(diào)整整個網(wǎng)絡(luò)結(jié)構(gòu)的權(quán)值參數(shù),得到最終訓(xùn)練好的網(wǎng)絡(luò)參數(shù)。最后對于一個新的待進行姿態(tài)識別的人臉圖像,把其送入該學(xué)習(xí)好的神經(jīng)網(wǎng)絡(luò)中進行姿態(tài)識別分類。
本發(fā)明具體包括如下步驟(1)對不同姿態(tài)的人臉圖像訓(xùn)練樣本進行預(yù)處理操作;(2)初始化受限玻爾茲曼機神經(jīng)網(wǎng)絡(luò);(3)預(yù)訓(xùn)練受限玻爾茲曼機神經(jīng)網(wǎng)絡(luò);(4)調(diào)整受限玻爾茲曼機神經(jīng)網(wǎng)絡(luò)參數(shù);(5)對新的人臉圖像進行姿態(tài)識別。
所述的步驟(1),是指對于每個人臉圖像訓(xùn)練樣本,首先從圖像中檢測到人臉區(qū)域,并把其縮放為高為h個像素、寬為w個像素的圖像。然后把該縮放后的人臉圖像變換為灰度圖像,并把該灰度圖像上所有像素的灰度值壓縮到
,最后把該灰度圖像按照行順序拉成一個向量,該向量的長度為h×w。
所述的步驟(2),是指設(shè)定該神經(jīng)網(wǎng)絡(luò)有1層。每一層的結(jié)點數(shù)分別為N1,N2,…,N1。類別個數(shù)為C,預(yù)訓(xùn)練的次數(shù)為Pt,調(diào)整參數(shù)的次數(shù)為Pc。由網(wǎng)絡(luò)層數(shù)和每層結(jié)點的個數(shù)就可以得到網(wǎng)絡(luò)結(jié)構(gòu),同時產(chǎn)生
之間的隨機數(shù)作為網(wǎng)絡(luò)結(jié)點之間連接權(quán)值。
所述的步驟(3),是指對于整個網(wǎng)絡(luò)中第一層受限玻爾茲曼機,其可視層的結(jié)點對應(yīng)于步驟(1)中向量中的每一個值,然后訓(xùn)練該受限玻爾茲曼機可視層結(jié)點與隱層結(jié)點之間的權(quán)值參數(shù),共訓(xùn)練Pt次。然后再以第一層受限玻爾茲曼機隱層作為第二層受限玻爾茲曼機可視層,同樣訓(xùn)練該受限玻爾茲曼機可視層結(jié)點與隱層結(jié)點之間的權(quán)值參數(shù),也訓(xùn)練Pt次。依此類推,即上一層受限玻爾茲曼機的隱層作為下一層受限玻爾茲曼機的可視層以訓(xùn)練下一層受限玻爾茲曼機。這樣就完成了整個網(wǎng)絡(luò)的預(yù)訓(xùn)練,同時也得到了預(yù)訓(xùn)練好的各層受限玻爾茲曼機的參數(shù)。
所述的步驟(4),是指以重建誤差最小為準(zhǔn)則利用梯度下降法反向傳播調(diào)整神經(jīng)網(wǎng)絡(luò)的參數(shù),該步驟共執(zhí)行Pc次。這樣便完成了網(wǎng)絡(luò)參數(shù)的調(diào)整,也得到了網(wǎng)絡(luò)的最終權(quán)值參數(shù)。
所述的步驟(5),是指對于一幅新的待進行姿態(tài)識別的人臉圖像,先檢測到人臉區(qū)域并縮放到高為h,寬為w的圖像,并把該縮放的圖像變換為灰度圖像,并把圖像上所有像素的灰度值壓縮到
,接著把該圖像按照行順序拉成一個向量,該向量的長度為h×w。最后把該向量送入已經(jīng)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)即可得到該人臉圖像的姿態(tài)。
本發(fā)明提出的人臉姿態(tài)識別方法具有非常高的精度。用拍攝的人臉庫做測試,其識別錯誤率為2.5%。與其他姿態(tài)識別方法相比,該方法的錯誤率大大降低。而且該方法計算速度非???,且易于實現(xiàn)。
圖1為同一個人的9個不同的姿態(tài)示意a、b、c、d、e、f、g、h、i表示的人臉圖像的姿態(tài)分別為-90°、-60°、-45°、-30°、0°、30°、45°、60°、90°。
圖2為姿態(tài)識別的結(jié)果。
圖中角度為-60°。
具體實施例方式
下面結(jié)合附圖對本發(fā)明的實施例作詳細(xì)說明本實施例在以本發(fā)明技術(shù)方案為前提下進行實施,給出了詳細(xì)的實施方式和具體過程,但本發(fā)明的保護范圍不限于下述的實施例。
本實施例整個實現(xiàn)過程如下1.在人臉庫(該人臉庫包含有2270個人的不同姿態(tài)的人臉圖像。每個人包含9個姿態(tài)的人臉圖像,如圖1所示,圖a、b、c、d、e、f、g、h、i這9個人臉圖像的姿態(tài)分別為-90°、-60°、-45°、-30°、0°、30°、45°、60°、90°。這樣就可以把人臉庫中的圖像按照其不同的姿態(tài)分為9類,每一類有2270個圖像,每一類中的圖像具有相同的姿態(tài)。)圖像中檢測到人臉區(qū)域,并把其縮放為高為25個像素,寬為25個像素的圖像,然后把該縮放后的人臉圖像變換為灰度圖像,并把該灰度圖像上所有像素的灰度值壓縮到
,最后把該灰度圖像按照行順序拉成一個向量,該向量的長度為625。
2.設(shè)定該神經(jīng)網(wǎng)絡(luò)有3層。每一層的結(jié)點數(shù)分別為500,500,2000。類別個數(shù)為9,預(yù)訓(xùn)練的次數(shù)為50,調(diào)整參數(shù)的次數(shù)為30。由網(wǎng)絡(luò)層數(shù)和每層結(jié)點的個數(shù)就可以得到網(wǎng)絡(luò)結(jié)構(gòu),同時產(chǎn)生
之間的隨機數(shù)作為網(wǎng)絡(luò)結(jié)點之間連接權(quán)值。
3.對于整個網(wǎng)絡(luò)中第一層受限玻爾茲曼機,其可視層的結(jié)點對應(yīng)于步驟(1)中向量中的每一個值,然后訓(xùn)練該受限玻爾茲曼機可視層的625個結(jié)點與隱層的500個結(jié)點之間的權(quán)值參數(shù),共訓(xùn)練50次。然后再以第一層受限玻爾茲曼機隱層作為第二層受限玻爾茲曼機可視層,同樣訓(xùn)練該受限玻爾茲曼機可視層的500個結(jié)點與隱層的500個結(jié)點之間的權(quán)值參數(shù),也訓(xùn)練50次。依此類推,即上一層受限玻爾茲曼機的隱層作為下一層受限玻爾茲曼機的可視層以訓(xùn)練下一層受限玻爾茲曼機。這樣就完成了整個網(wǎng)絡(luò)的預(yù)訓(xùn)練,同時也得到了預(yù)訓(xùn)練好的各層受限玻爾茲曼機的參數(shù)。
4.以重建誤差最小為準(zhǔn)則利用梯度下降法反向傳播調(diào)整神經(jīng)網(wǎng)絡(luò)的參數(shù),該步驟共執(zhí)行30次。這樣便完成了網(wǎng)絡(luò)參數(shù)的調(diào)整,也得到了網(wǎng)絡(luò)的最終權(quán)值參數(shù)。
5.對于一幅新的待進行姿態(tài)識別的人臉圖像,先檢測到人臉區(qū)域并縮放到高為25個像素,寬為25個像素的圖像,并把該縮放的圖像變換為灰度圖像,并把圖像上所有像素的灰度值壓縮到
,接著把該圖像按照行順序拉成一個向量,該向量的長度為625。最后把該向量送入已經(jīng)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)即可得到該人臉圖像的姿態(tài),如圖2所示,該待進行姿態(tài)識別的圖像為一幅-60°的人臉圖像,用本發(fā)明的方法可以正確地識別出該人臉圖像的姿態(tài)。
從以上可以看出,本實施例提出的涉及了人臉檢測、模式分類的人臉姿態(tài)識別方法可以進一步應(yīng)用于三維人臉模型重建、三維人臉識別等方面,其具非常高的精度。
權(quán)利要求
1.一種基于受限玻爾茲曼機神經(jīng)網(wǎng)絡(luò)的人臉姿態(tài)識別方法,其特征在于,包括如下步驟(1)對不同姿態(tài)的人臉圖像訓(xùn)練樣本進行預(yù)處理操作;(2)初始化受限玻爾茲曼機神經(jīng)網(wǎng)絡(luò);(3)預(yù)訓(xùn)練受限玻爾茲曼機神經(jīng)網(wǎng)絡(luò);(4)調(diào)整受限玻爾茲曼機神經(jīng)網(wǎng)絡(luò)參數(shù);(5)對新的人臉圖像進行姿態(tài)識別。
2.根據(jù)權(quán)利要求1所述的基于受限玻爾茲曼機神經(jīng)網(wǎng)絡(luò)的人臉姿態(tài)識別方法,其特征是,所述的步驟(1),是指對于每個人臉圖像訓(xùn)練樣本,首先從圖像中檢測到人臉區(qū)域,并把其縮放為高為h個像素、寬為w個像素的圖像,然后把該縮放后的人臉圖像變換為灰度圖像,并把該灰度圖像上所有像素的灰度值壓縮到
,最后把該灰度圖像按照行順序拉成一個向量,該向量的長度為h×w。
3.根據(jù)權(quán)利要求1所述的基于受限玻爾茲曼機神經(jīng)網(wǎng)絡(luò)的人臉姿態(tài)識別方法,其特征是,所述的步驟(2),是指設(shè)定該神經(jīng)網(wǎng)絡(luò)有一層,每一層的結(jié)點數(shù)分別為N1,N2,…,N1個,類別個數(shù)為C個,預(yù)訓(xùn)練的次數(shù)為Pt次,調(diào)整參數(shù)的次數(shù)為Pc次,由網(wǎng)絡(luò)層數(shù)和每層結(jié)點的個數(shù)得到網(wǎng)絡(luò)結(jié)構(gòu),同時產(chǎn)生
之間的隨機數(shù)作為網(wǎng)絡(luò)結(jié)點之間連接權(quán)值。
4.根據(jù)權(quán)利要求1所述的基于受限玻爾茲曼機神經(jīng)網(wǎng)絡(luò)的人臉姿態(tài)識別方法,其特征是,所述的步驟(3),是指對于整個網(wǎng)絡(luò)中第一層受限玻爾茲曼機,其可視層的結(jié)點對應(yīng)于步驟(1)中向量中的每一個值,然后訓(xùn)練該受限玻爾茲曼機可視層結(jié)點與隱層結(jié)點之間的權(quán)值參數(shù),共訓(xùn)練Pt次;然后再以第一層受限玻爾茲曼機隱層作為第二層受限玻爾茲曼機可視層,同樣訓(xùn)練該受限玻爾茲曼機可視層結(jié)點與隱層結(jié)點之間的權(quán)值參數(shù),也訓(xùn)練Pt次;依此類推,即上一層受限玻爾茲曼機的隱層作為下一層受限玻爾茲曼機的可視層以訓(xùn)練下一層受限玻爾茲曼機,這樣就完成了整個網(wǎng)絡(luò)的預(yù)訓(xùn)練,同時也得到了預(yù)訓(xùn)練好的各層受限玻爾茲曼機的參數(shù)。
5.根據(jù)權(quán)利要求1所述的基于受限玻爾茲曼機神經(jīng)網(wǎng)絡(luò)的人臉姿態(tài)識別方法,其特征是,所述的步驟(4),是指以重建誤差最小為準(zhǔn)則利用梯度下降法反向傳播調(diào)整神經(jīng)網(wǎng)絡(luò)的參數(shù),該步驟共執(zhí)行Pc次,這樣便完成了網(wǎng)絡(luò)參數(shù)的調(diào)整,也得到了網(wǎng)絡(luò)的最終權(quán)值參數(shù)。
6.根據(jù)權(quán)利要求1所述的基于受限玻爾茲曼機神經(jīng)網(wǎng)絡(luò)的人臉姿態(tài)識別方法,其特征是,所述的步驟(5),是指對于一幅新的待進行姿態(tài)識別的人臉圖像,先檢測到人臉區(qū)域并縮放到高為h個像素、寬為w個像素的圖像,并把該縮放的圖像變換為灰度圖像,并把圖像上所有像素的灰度值壓縮到
,接著把該圖像按照行順序拉成一個向量,該向量的長度為h×w,最后把該向量送入已經(jīng)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)即得到該人臉圖像的姿態(tài)。
全文摘要
一種用受限玻爾茲曼機神經(jīng)網(wǎng)絡(luò)進行人臉姿態(tài)識別的方法,屬于圖像識別技術(shù)領(lǐng)域。本發(fā)明包括如下步驟(1)對不同姿態(tài)的人臉圖像訓(xùn)練樣本進行預(yù)處理操作;(2)初始化受限玻爾茲曼機神經(jīng)網(wǎng)絡(luò);(3)預(yù)訓(xùn)練受限玻爾茲曼機神經(jīng)網(wǎng)絡(luò);(4)調(diào)整受限玻爾茲曼機神經(jīng)網(wǎng)絡(luò)參數(shù);(5)對新的人臉圖像進行姿態(tài)識別;本發(fā)明涉及了人臉檢測、模式分類、人臉姿態(tài)識別方法可以進一步應(yīng)用于三維人臉模型重建、三維人臉識別等方面。
文檔編號G06K9/00GK1952953SQ200610118380
公開日2007年4月25日 申請日期2006年11月16日 優(yōu)先權(quán)日2006年11月16日
發(fā)明者杜春華, 楊杰, 張?zhí)镪? 吳證, 袁泉 申請人:上海交通大學(xué)