一種基于rgb-d圖像的手語字母識別方法
【專利摘要】本發(fā)明公開了一種基于RGB-D圖像的手語字母識別方法,屬于計算機視覺的行為識別【技術(shù)領(lǐng)域】。該方法根據(jù)不同的手語字母類型具有不同的手型紋理信息,對RGB-D攝像機獲取的RGB-D圖像視頻幀提取梯度方向直方圖特征和超法向量特征,采用主成分分析與線性判別分析相結(jié)合的方法進行特征屬性優(yōu)化處理,獲取具有顯著性的特征屬性,并進一步對特征進行分組詞典稀疏表示;采用對比數(shù)據(jù)挖掘技術(shù),獲取各個手語字母類別中具有代表性的模板實例;最后采用基于貪婪思想的分層判決策略,先采用非參數(shù)的k最近鄰分類器將易分的手語字母類別快速分類,對于難以區(qū)分的手語字母采用訓(xùn)練的基于模板的支持向量機模型進行判決。相比現(xiàn)有技術(shù),本發(fā)明的識別準確度及識別效率均較高。
【專利說明】一種基于RGB-D圖像的手語字母識別方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種手語字母識別方法,尤其涉及一種基于RGB-D圖像的手語字母識 別方法,屬于計算機視覺的行為識別【技術(shù)領(lǐng)域】。
【背景技術(shù)】
[0002] 聾啞人占人類社會中的很大一部分,然而聾啞人卻很難融入社會生活當中。這是 由于聾啞人采用手語為主要的交流方式,但是實際的情況是絕大部分普通人并不能看懂手 語,這就給聾啞人在與社會的融合中帶來了阻礙。研究手語識別,就是為了在聾啞人和普通 人之間建立交流的橋梁,實現(xiàn)聾啞人和普通人的無障礙信息交流。手語是一項綜合有手勢、 表情、唇動在內(nèi)的多種人類交流方式的人類語言。因此研究手語識別對研究智能人機接口 技術(shù),建立和諧自然的人機交互環(huán)境有著非常良好的借鑒意義。
[0003] 手語的表達主要由手型、手的位置、手的運動方向、手部與其它身體部分交互等幾 部分構(gòu)成。目前比較成熟的手語識別方法分為基于傳感器的識別方法、基于視覺的識別方 法和基于兩者混合的識別方法。
[0004] 基于傳感器的方法一般是采用數(shù)據(jù)手套的方式,數(shù)據(jù)手套可以采集到比較穩(wěn)定的 數(shù)據(jù),而且預(yù)處理比較簡單,可以分開大部分的手勢,缺點是打手語的人要穿戴復(fù)雜的設(shè) 備,并且這些設(shè)備比較昂貴,并不適合推廣采用。
[0005] 基于機器視覺的手語識別利用攝像機采集手勢信息,對于基于視覺的手語識別需 要對數(shù)據(jù)進行大量的預(yù)處理,所以也不太適用于包含大詞匯量的手語識別。
[0006] 基于傳感器和機器視覺的混合方法,比如深度傳感器就是結(jié)合紅外傳感器獲取目 標深度信息,并且利用計算機視覺中的圖像處理方法進行特征的提取。由于深度傳感器能 夠獲取更加豐富的外觀和結(jié)構(gòu)信息,所以深度攝像機在計算機視覺領(lǐng)域越來越受到廣泛的 關(guān)注。近年來,越來越多的公司開發(fā)出了 RGB-D攝像機,該類設(shè)備的特點是能夠?qū)崟r的提 供RGB圖像和深度圖像,比如2010年微軟發(fā)布了能夠?qū)崟r采集RGB-D圖像的攝像頭(即 Kinect) ;2011年華碩發(fā)布了 Xtion PRO ;2013年體感控制器制造公司Leap發(fā)布的Leap Motion。
[0007] 一些研究人員提出了一些利用RGB-D數(shù)據(jù)進行手語識別的方法,例如,一份中國 發(fā)明專利申請公開了一種《基于RGB-D數(shù)據(jù)構(gòu)成的少量訓(xùn)練樣本的手勢識別方法》(申請 日為2013-10-29,
【公開日】為2014-01-22,申請?zhí)枮?01310522370. 7),該方法可利用較少的 RGB-D數(shù)據(jù)樣本實現(xiàn)手勢識別,然而該專利中利用復(fù)雜的光流跟蹤算法檢測人體運動的感 興趣點,計算復(fù)雜度較高;此外,該專利中利用的傳統(tǒng)稀疏編碼方法產(chǎn)生的稀疏特征向量中 非零系數(shù)隨機分布使稀疏特征的類間分離特性降低;最后,該專利中利用最近鄰分類器判 斷最終結(jié)果,該分類器雖然簡單易用,但是對于類內(nèi)差異樣本容易產(chǎn)生誤判。另外一篇中國 發(fā)明專利申請公開了《一種基于Kinect的中國手語識別方法》(申請日為2013-5-28,公開 日為2014-9-5,申請?zhí)枮?01310204961. X),該專利中僅采用PCA降維方法對獲取的特征進 行優(yōu)化,但是在一些情況下PCA降維方法會產(chǎn)生負作用,將不具有類間分離特性的特征屬 性提取出來,從而影響最終的手語識別結(jié)果的準確性。
[0008] 綜上可知,現(xiàn)有基于RGB-D數(shù)據(jù)的手語識別技術(shù)普遍存在計算復(fù)雜度高、識別準 確度低的問題。
【發(fā)明內(nèi)容】
[0009] 本發(fā)明所要解決的技術(shù)問題在于克服現(xiàn)有技術(shù)不足,提供一種基于RGB-D圖像的 手語字母識別方法,可在降低計算復(fù)雜度的同時提高手語識別精度。
[0010] 本發(fā)明的基于RGB-D圖像的手語字母識別方法,包括訓(xùn)練階段和測試階段,
[0011] 所述訓(xùn)練階段包括以下步驟:
[0012] 步驟A、獲取各手語字母類的RGB-D圖像視頻樣本并從各RGB-D圖像視頻樣本中分 別提取若干候選幀;
[0013] 步驟B、對所提取的候選幀進行預(yù)處理;
[0014] 步驟C、對預(yù)處理后的候選幀進行特征提取,所述特征提取具體如下:
[0015] 步驟C1、對預(yù)處理后的每幅候選幀,分別提取其RGB圖像中感興趣區(qū)域的梯度方 向直方圖特征以及其深度圖像中感興趣區(qū)域的超法向量特征;
[0016] 步驟C2、分別從每個手語字母類所對應(yīng)的梯度方向直方圖特征/超法向量特征集 合中選取離各個手語字母類特征集合中心最近的部分梯度方向直方圖特征/超法向量特 征,構(gòu)成一個特征數(shù)據(jù)樣本子集;
[0017] 步驟C3、首先利用主成分分析(Principal Component Analysis,簡稱PCA)方法 對步驟C2中得到的特征數(shù)據(jù)樣本子集中的特征數(shù)據(jù)樣本進行初步降維處理,得到p CA降維 轉(zhuǎn)換矩陣;
[0018] 步驟C4、利用步驟C3得到的PCA降維轉(zhuǎn)換矩陣對步驟C1得到的每幅候選幀的梯 度方向直方圖特征、超法向量特征進行特征降維;
[0019] 步驟C5,、利用線性判別分析(Linear Discriminant Analysis,簡稱LDA)方法對 步驟C4得到的降維結(jié)果進行特征屬性優(yōu)化篩選處理,同時得到LDA降維轉(zhuǎn)換矩陣;
[0020] 步驟C6、對步驟C5得到的特征屬性優(yōu)化后的各候選幀的梯度方向直方圖特征、超 法向量特征進行稀疏表示;
[0021] 步驟D、利用對比數(shù)據(jù)挖掘方法從每個手語字母的候選幀中分別選出類內(nèi)支持率 和類間增長率均較高的若干幀作為該手語字母的模板幀;對每一幅模板幀,以其自身作為 正樣本,其他類中的模板幀作為負樣本,訓(xùn)練一個單獨的SVM(Support Vector Machine,支 持向量機)分類器,訓(xùn)練特征為步驟C最終得到的梯度方向直方圖稀疏表示特征和超法向 量稀疏表示特征;
[0022] 所述測試階段包括以下步驟:
[0023] 步驟E、對測試行為的RGB-D圖像視頻的每一巾貞,首先判斷其相比于上一幀的運動 能量變化是否超過預(yù)設(shè)閾值,如否,則以上一幀的識別結(jié)果作為該幀的識別結(jié)果,并開始下 -幀的識別;如是,則轉(zhuǎn)步驟F ;
[0024] 步驟F、對當前幀進行預(yù)處理,然后分別提取其RGB圖像中感興趣區(qū)域的梯度方向 直方圖特征以及其深度圖像中感興趣區(qū)域的超法向量特征,并利用訓(xùn)練階段得到的PCA降 維轉(zhuǎn)換矩陣和LDA降維轉(zhuǎn)換矩陣對所述梯度方向直方圖特征、超法向量特征進行特征降維 和特征屬性優(yōu)化,最后對特征降維和特征屬性優(yōu)化后的各候選幀的梯度方向直方圖特征、 超法向量特征進行稀疏表不;
[0025] 步驟G、首先,采用在訓(xùn)練階段獲得的各個手語字母的模板幀,利用kNN分類算法 (k-Nearest Neighbor Algorithm)對當前巾貞進行分類,識別出當前巾貞所表示的手語字母; 如kNN分類算法無法對當前幀進行準確分類,則利用以下方法對其進行分類識別:使用訓(xùn) 練階段獲得的一系列SVM分類器分別對當前幀進行判決,然后對各SVM分類器的判決置信 度進行歸一化,綜合各個SVM分類器的判決結(jié)果得到最終判決結(jié)果。
[0026] 上述技術(shù)方案中可采用現(xiàn)有的特征稀疏表示方法,然而考慮到現(xiàn)有稀疏表示方法 存在稀疏編碼中的系數(shù)可能隨機分布從而使區(qū)分度受到損失的問題,為此,本發(fā)明進一步 提出了分組詞典學(xué)習(xí)特征稀疏表示方法,以限制稀疏系數(shù)的分布,從而降低對區(qū)分度的影 響。分組詞典學(xué)習(xí)特征稀疏表示方法通過求解以下優(yōu)化模型得到待稀疏表示特征的稀疏表 示特征:
[0027]
【權(quán)利要求】
1. 一種基于RGB-D圖像的手語字母識別方法,包括訓(xùn)練階段和測試階段,其特征在于, 所述訓(xùn)練階段包括以下步驟: 步驟A、獲取各手語字母類的RGB-D圖像視頻樣本并從各RGB-D圖像視頻樣本中分別提 取若干候選幀; 步驟B、對所提取的候選幀進行預(yù)處理; 步驟C、對預(yù)處理后的候選幀進行特征提取,所述特征提取具體如下: 步驟C1、對預(yù)處理后的每幅候選幀,分別提取其RGB圖像中感興趣區(qū)域的梯度方向直 方圖特征以及其深度圖像中感興趣區(qū)域的超法向量特征; 步驟C2、分別從每個手語字母類所對應(yīng)的梯度方向直方圖特征/超法向量特征集合中 選取離各個手語字母類特征集合中心最近的部分梯度方向直方圖特征/超法向量特征,構(gòu) 成一個特征數(shù)據(jù)樣本子集; 步驟C3、首先利用主成分分析方法對步驟C2中得到的特征數(shù)據(jù)樣本子集中的特征數(shù) 據(jù)樣本進行初步降維處理,得到PCA降維轉(zhuǎn)換矩陣; 步驟C4、利用步驟C3得到的PCA降維轉(zhuǎn)換矩陣對步驟Cl得到的每幅候選幀的梯度方 向直方圖特征、超法向量特征進行特征降維; 步驟C5,、利用線性判別分析方法對步驟C4得到的降維結(jié)果進行特征屬性優(yōu)化篩選處 理,同時得到LDA降維轉(zhuǎn)換矩陣; 步驟C6、對步驟C5得到的特征屬性優(yōu)化后的各候選幀的梯度方向直方圖特征、超法向 量特征進行稀疏表示; 步驟D、利用對比數(shù)據(jù)挖掘方法從每個手語字母的候選幀中分別選出類內(nèi)支持率和類 間增長率均較高的若干幀作為該手語字母的模板幀;對每一幅模板幀,以其自身作為正樣 本,其他類中的模板幀作為負樣本,訓(xùn)練一個單獨的SVM分類器,訓(xùn)練特征為步驟C最終得 到的梯度方向直方圖稀疏表示特征和超法向量稀疏表示特征; 所述測試階段包括以下步驟: 步驟E、對測試行為的RGB-D圖像視頻的每一幀,首先判斷其相比于上一幀的運動能量 變化是否超過預(yù)設(shè)閾值,如否,則以上一幀的識別結(jié)果作為該幀的識別結(jié)果,并開始下一幀 的識別;如是,則轉(zhuǎn)步驟F; 步驟F、對當前幀進行預(yù)處理,然后分別提取其RGB圖像中感興趣區(qū)域的梯度方向直方 圖特征以及其深度圖像中感興趣區(qū)域的超法向量特征,并利用訓(xùn)練階段得到的PCA降維轉(zhuǎn) 換矩陣和LDA降維轉(zhuǎn)換矩陣對所述梯度方向直方圖特征、超法向量特征進行特征降維和特 征屬性優(yōu)化,最后對特征降維和特征屬性優(yōu)化后的各候選幀的梯度方向直方圖特征、超法 向量特征進行稀疏表示; 步驟G、首先,采用在訓(xùn)練階段獲得的各個手語字母的模板幀,利用kNN分類算法對當 前幀進行分類,識別出當前幀所表示的手語字母;如kNN分類算法無法對當前幀進行準確 分類,則利用以下方法對其進行分類識別:使用訓(xùn)練階段獲得的一系列SVM分類器分別對 當前幀進行判決,然后對各SVM分類器的判決置信度進行歸一化,綜合各個SVM分類器的判 決結(jié)果得到最終判決結(jié)果。
2. 如權(quán)利要求1所述基于RGB-D圖像的手語字母識別方法,其特征在于,所述稀疏表示 采用分組詞典學(xué)習(xí)特征稀疏表示方法,該方法通過求解以下優(yōu)化模型得到待稀疏表示特征 的稀疏表示特征:
其中,Y 示待稀疏表示的特征集合,C表示總的類別數(shù)目,YjeRAM 表示第i類待稀疏表示的特征集合,和表示第i類待稀疏表示特征集合中特征的數(shù)目, /表示特征的維度;:〇 =[琿,~,1\]為各分組詞典組成的具有I個詞條數(shù)目的總詞典, 表示第i類對應(yīng)的子分組詞典,巧表示第i類對應(yīng)子分組詞典中的詞條數(shù) 目,其中[ = A= 詞典表示的系數(shù)矩陣即稀疏表示后的特征集合, Xie 表示第y類系數(shù)表示后的特征集合,4eRir就可以表示類/中的第^個特征由 詞典D表示的系數(shù)向量…A,..^表示只有第i'類對應(yīng)分組詞條的詞典,其他 類對應(yīng)分組詞條的列置為O向量,DeieR/xJfSDe=D-Dii表示在總詞典D中第i個分組 詞典詞條對應(yīng)的列置為O向量后的矩陣;IlYi -DXiIf表示采用詞典D中的詞條對Yi進行線 性組合近似表示后的誤差,其中Xi為線性組合系數(shù)向量集合即兄的稀疏表示; 表示采用第i類分組詞典對應(yīng)的詞條對Fi進行線性組合近似表示后的誤 差; ||_表示采用除了第i類分組詞典對應(yīng)詞條對Fi進行線性組合近似后的F范數(shù); I1+ -? £式中Ix/I1表示類i中的第J個特征由詞典D表示的系數(shù)向量的1范數(shù), INII〗表示類i'中第J'個特征由詞典D表示的系數(shù)向量的2范數(shù);為和毛表示優(yōu)化過程中 兩種范數(shù)的比重;為表示計算的稀疏表示向量士相對于理想的稀疏 表示向量士之間的距離,其中Oi表示為:
表示在對X的理想稀疏表示向量中僅 ?類分組詞典詞條對應(yīng)的系數(shù)位置非零,其他類分組詞典詞條對于的系數(shù)位置均置為〇 ;P= 7||y廣+ ^Pl1 +4||pg表示對于待稀疏表示特征向量乃僅使用第歷類對應(yīng)分組 的子詞典獲得的最佳稀疏系數(shù)向量; Wtv = 6即(-||^ / 〇),表示待稀疏特征?/和模板特征yj間的距離權(quán)值。
3. 如權(quán)利要求1或2所述基于RGB-D圖像的手語字母識別方法,其特征在于,所述 RGB-D圖像視頻利用Kinect獲取。
4. 如權(quán)利要求3所述基于RGB-D圖像的手語字母識別方法,其特征在于,所述運動能量 利用Kinect所獲取的人體骨架節(jié)點信息計算得到。
5. 如權(quán)利要求3所述基于RGB-D圖像的手語字母識別方法,其特征在于,所述預(yù)處理包 括去噪處理和尺度歸一化處理。
6. 如權(quán)利要求5所述基于RGB-D圖像的手語字母識別方法,其特征在于,所述去噪處理 采用中值濾波的方法。
7. 如權(quán)利要求5所述基于RGB-D圖像的手語字母識別方法,其特征在于,所述尺度歸一 化處理具體為:利用Kinect提供的人體骨架節(jié)點信息,以人體軀干長度為參考,對原始圖 像進行尺度歸一化處理。
8. 如權(quán)利要求3所述基于RGB-D圖像的手語字母識別方法,其特征在于,所述感興趣區(qū) 域通過Kinect所獲取的人體骨架節(jié)點信息進行定位。
9. 如權(quán)利要求3所述基于RGB-D圖像的手語字母識別方法,其特征在于,所述從各 RGB-D圖像視頻樣本中分別提取若干候選幀,具體如下: 步驟1、通過Kinect獲取視頻樣本中每一幀所對應(yīng)的人體骨架節(jié)點信息,任一人體骨 架節(jié)點可以表示為名=,ie(1,_的,N表示人體骨架節(jié)點總數(shù); 步驟2、按照步驟1的方法獲取視頻樣本所有幀的人體骨架節(jié)點信息,任一人體骨 架節(jié)點可以表示為時間t的函數(shù)灼;分別計算任一人體骨架節(jié)點關(guān)于時 間t的一階導(dǎo)數(shù)和二階導(dǎo)數(shù)奪《和<525(£),最終獲得當前幀的運動能量描述特征向量:X⑴= [F(4a.ff(l),辦2P(I)], 其中,F(xiàn)? = {Pl(4...,PA4)}表示在時刻t處所有身體骨架節(jié)點的集合; = 表示在時刻t處所有身體骨架節(jié)點近似速度的集合; 52P(i) =W2P1(I),..., 52Pir(l)}表示在時刻t處所有身體骨架節(jié)點近似加速度的集合;a和盧 為兩個權(quán)值,其取值范圍均為(〇,1]; 步驟3、計算相鄰幀運動能量特征向量的距離,將該距離與一個預(yù)設(shè)閾值4比較,當大 于該閾值時,將當前t時刻的幀選為候選幀,否則就去除該幀。
10. 如權(quán)利要求9所述基于RGB-D圖像的手語字母識別方法,其特征在于,所述人體骨 架節(jié)點關(guān)于時間(的一階導(dǎo)數(shù)和二階導(dǎo)數(shù)和52p(〇 ,采用以當前幀為中心的連續(xù)5幀 長度的時間窗口中的近似估值。
【文檔編號】G06K9/36GK104268507SQ201410469195
【公開日】2015年1月7日 申請日期:2014年9月15日 優(yōu)先權(quán)日:2014年9月15日
【發(fā)明者】裴啟程, 袁建敏, 陳克虎, 丁菲, 劉天亮, 霍智勇 申請人:南京郵電大學(xué)