基于Kinect傳感器的靜態(tài)手語(yǔ)字母識(shí)別系統(tǒng)及方法
【專(zhuān)利摘要】本發(fā)明涉及計(jì)算機(jī)視覺(jué)及智能人-機(jī)交互領(lǐng)域,具體涉及一種基于機(jī)器視覺(jué)的人-機(jī)交互系統(tǒng)及其交互方法。本發(fā)明結(jié)合Kinect傳感器提出一種基于改進(jìn)的SURF算法進(jìn)行靜態(tài)手語(yǔ)字母識(shí)別的方法。Kinect傳感器采集目標(biāo)區(qū)域的深度圖像進(jìn)行手像素區(qū)域分割可以克服光照變化、復(fù)雜背景帶來(lái)的干擾;改進(jìn)的SURF算法用于提取特征點(diǎn),同時(shí)設(shè)置自適應(yīng)半徑r,在以r為半徑的鄰域內(nèi)通過(guò)比較特征點(diǎn)個(gè)數(shù)、特征點(diǎn)間距2個(gè)指標(biāo)來(lái)對(duì)SURF特征點(diǎn)進(jìn)行逐級(jí)篩選,不僅大大提高了識(shí)別率,而且保證了識(shí)別工作在膚色、光照變化、復(fù)雜背景等環(huán)境因素以及角度變化和尺度變化方面的魯棒性。為了克服SURF特征向量維數(shù)較高的問(wèn)題,采用SVM的“一對(duì)一”分類(lèi)法,對(duì)SURF特征描述符進(jìn)行分類(lèi)訓(xùn)練,得出識(shí)別的結(jié)果。
【專(zhuān)利說(shuō)明】基于Kinect傳感器的靜態(tài)手語(yǔ)字母識(shí)別系統(tǒng)及方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)視覺(jué)及智能人-機(jī)交互領(lǐng)域,具體涉及一種基于機(jī)器視覺(jué)的人-機(jī)交互系統(tǒng)及其交互方法。
【背景技術(shù)】
[0002]隨著計(jì)算機(jī)的廣泛應(yīng)用,人-機(jī)交互(Human Computer Interaction, HCI)已成為人們?nèi)粘I钪械闹匾糠帧H祟?lèi)自然地與自然界溝通的認(rèn)知習(xí)慣和形式是人-機(jī)交互的發(fā)展方向。因此,研究者們也正在努力讓未來(lái)的終端能聽(tīng)、能看、能說(shuō)、能感覺(jué)。簡(jiǎn)單來(lái)說(shuō),人-機(jī)交互就是人類(lèi)與計(jì)算機(jī)交流互動(dòng)。從鍵盤(pán)到鼠標(biāo)控制,再?gòu)恼Z(yǔ)音到觸摸,再到多點(diǎn)觸控,隨著人-機(jī)交互模式使用人群的擴(kuò)大,并且不斷向非專(zhuān)業(yè)人群滲透,人-機(jī)交互方式也越來(lái)越回歸“自然”。在科技技術(shù)的變革中,人-機(jī)交互技術(shù)也有了質(zhì)的進(jìn)展,近年來(lái)人們對(duì)人-機(jī)交互方式的需求也更加擬人化、自然化。根據(jù)人們的需求,研究者在人-機(jī)交互領(lǐng)域做了更多的研究,因此,設(shè)計(jì)出來(lái)一種廣泛的能夠被大眾接受的人-機(jī)交互方式,會(huì)更好的提高人與機(jī)器之間的密切交流,同時(shí)也能夠提高交互效率。
[0003]手語(yǔ)識(shí)別的研究順應(yīng)了人-機(jī)交互技術(shù)的發(fā)展需要。然而由于手語(yǔ)本身具有多樣性、多義性以及時(shí)間和空間上的差異性等特點(diǎn),加之人手是復(fù)雜變形體以及視覺(jué)本身的不適定性,所以手語(yǔ)識(shí)別成為多學(xué)科交叉的研究課題。再者由于文化背景和應(yīng)用環(huán)境的不同,使得手語(yǔ)識(shí)別研究無(wú)法整合到一個(gè)完整的框架當(dāng)中,理論及技術(shù)未形成一個(gè)完整的體系。研究者多是根據(jù)特定的項(xiàng)目要求實(shí)現(xiàn)某些特定的功能,而不能將其應(yīng)用到普遍的系統(tǒng)或研究當(dāng)中。因此迫切需要對(duì)手語(yǔ)識(shí)別研究領(lǐng)域中的一些普遍難題進(jìn)行解決,使其更具通用性。
[0004]目前,手語(yǔ)識(shí)別已被廣泛研究,尤其是基于視覺(jué)的識(shí)別方法。韓國(guó)Inda大學(xué)和Korea Polytechnic大學(xué)的JongShill Lee、YoungJ00 Lee等人用熵分析法從背景復(fù)雜的視頻流中分割出手勢(shì)區(qū)域并進(jìn)行手勢(shì)識(shí)別。使用鏈碼的方法檢測(cè)手勢(shì)區(qū)域的輪廓,最后計(jì)算出從手勢(shì)區(qū)域的質(zhì)心到輪廓邊界的距離。該系統(tǒng)可識(shí)別6種手勢(shì),平均識(shí)別率超過(guò)95% ;6個(gè)人分別做每個(gè)手勢(shì)的識(shí)別率平均達(dá)到90% -100%。印度研究者M(jìn)eenakshi Panwar在視覺(jué)手勢(shì)識(shí)別的基礎(chǔ)上提出了一種基于結(jié)構(gòu)特征的手勢(shì)識(shí)別算法,通過(guò)背景去除、方向檢測(cè)、拇指檢測(cè)和手指數(shù)量檢測(cè),來(lái)最終識(shí)別手勢(shì)。清華大學(xué)的Shin-Han Yu, Chung-Lin Huang采用并行馬爾可夫(PHMM)方法對(duì)40個(gè)臺(tái)灣手語(yǔ)符號(hào)進(jìn)行識(shí)別,準(zhǔn)確率為94.04% ;RiniAkmeliawatil, Melanie Po-Leen Ooi等人采用指間帶有高亮標(biāo)記的視覺(jué)手套作為輸入,用膚色分割結(jié)合神經(jīng)網(wǎng)絡(luò)的方法對(duì)馬來(lái)西亞手語(yǔ)字母進(jìn)行識(shí)別,正確率為95%。這些方法都獲得了很好的識(shí)別率,但是大多數(shù)都未考慮到對(duì)光照、復(fù)雜背景、角度變化這些環(huán)境因素的魯棒性。重慶郵電大學(xué)信息無(wú)障礙工程研發(fā)中心的科研人員采用Kinect傳感器結(jié)合HU不變矩算法實(shí)現(xiàn)了基于靜態(tài)手勢(shì)的智能輪椅的人-機(jī)交互,該方法通過(guò)識(shí)別預(yù)先設(shè)定的手勢(shì)來(lái)控制智能輪椅的運(yùn)動(dòng),深度信息的應(yīng)用有效的克服了光照、復(fù)雜背景、角度變化這些環(huán)境因素帶來(lái)的干擾。
[0005]在《重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版)》第25卷第4期刊載的《一種基于改進(jìn)的SURF算法的靜態(tài)手語(yǔ)字母識(shí)別方法》中公開(kāi)了一種基于最近鄰匹配算法的改進(jìn)的SURF算法,結(jié)合Kinect傳感器進(jìn)行靜態(tài)手語(yǔ)字母的識(shí)別,以及該方法在以智能輪椅為平臺(tái)的實(shí)驗(yàn)結(jié)果及分析。但是該方法為了克服復(fù)雜背景和光照變化對(duì)識(shí)別工作帶來(lái)的干擾,采用了深度圖像作為待檢測(cè)圖像,而深度圖像的像素值信息是由距離值信息轉(zhuǎn)化而來(lái),在二值化獲得手像素區(qū)域分割結(jié)果后,掌心部分由于像素值信息極為相似,容易計(jì)算出錯(cuò)誤的特征點(diǎn),從而對(duì)下一步的識(shí)別工作帶來(lái)干擾。同時(shí)SURF特征向量是64維的,維數(shù)過(guò)高的特征向量也會(huì)對(duì)識(shí)別工作帶來(lái)一定的干擾。
【發(fā)明內(nèi)容】
[0006]有鑒于此,為了解決上述問(wèn)題,本發(fā)明公開(kāi)了一種識(shí)別率高,魯棒性好的基于Kinect傳感器的靜態(tài)手語(yǔ)字母識(shí)別系統(tǒng)及方法。
[0007]本發(fā)明的目的是這樣實(shí)現(xiàn)的:
[0008]基于Kinect傳感器的靜態(tài)手語(yǔ)字母識(shí)別系統(tǒng),包括:
[0009]I)攝像模塊,采用Kinect傳感器獲取深度圖像;
[0010]2)靜態(tài)手語(yǔ)特征提取模塊,采用SURF算法提取特征點(diǎn);同時(shí)采用特征點(diǎn)篩選算法對(duì)SURF算法的計(jì)算結(jié)果進(jìn)行優(yōu)化,剔除錯(cuò)誤特征點(diǎn);
[0011]3)靜態(tài)手語(yǔ)識(shí)別模塊,對(duì)生成的64維的SURF特征點(diǎn)描述符,采用“一對(duì)一”SVM分類(lèi)法,進(jìn)行分類(lèi)訓(xùn)練及識(shí)別,得出識(shí)別的結(jié)果。
[0012]進(jìn)一步,所述系統(tǒng)還包括圖像預(yù)處理模塊用于將攝像裝置獲取的深度圖像進(jìn)行一個(gè)初步的降噪處理;以及手像素區(qū)域分割模塊,用二值化方法來(lái)進(jìn)行手像素區(qū)域分割。這樣整個(gè)系統(tǒng)不會(huì)受到光照變化、復(fù)雜背景的干擾。
[0013]本發(fā)明還提供一種識(shí)別率高,魯棒性好的基于Kinect傳感器的靜態(tài)手語(yǔ)字母識(shí)別方法,包括如下步驟:
[0014]I)利用攝像模塊的Kinect傳感器獲取深度圖像;
[0015]2)利用圖像預(yù)處理模塊,將攝像裝置獲取的深度圖像進(jìn)行一個(gè)初步的降噪處理;利用手像素區(qū)域分割模塊,通過(guò)二值化方法對(duì)獲得的深度圖像進(jìn)行手像素區(qū)域分割,使得手部區(qū)域成為感興趣區(qū)域;
[0016]3)利用靜態(tài)手語(yǔ)特征提取模塊,采用SURF算法提取特征點(diǎn);同時(shí)采用特征點(diǎn)篩選算法對(duì)SURF算法的計(jì)算結(jié)果進(jìn)行優(yōu)化,剔除錯(cuò)誤特征點(diǎn);
[0017]4)利用靜態(tài)手語(yǔ)識(shí)別模塊,對(duì)生成的64維的SURF特征點(diǎn)描述符,采用“一對(duì)一” SVM分類(lèi)法,進(jìn)行分類(lèi)訓(xùn)練及識(shí)別,得出識(shí)別的結(jié)果。
[0018]所述方法中,SURF算法的Hessian矩陣為:
【權(quán)利要求】
1.基于Kinect傳感器的靜態(tài)手語(yǔ)字母識(shí)別系統(tǒng),其特征在于:包括 攝像模塊,采用Kinect傳感器采集目標(biāo)區(qū)域深度圖像; 靜態(tài)手語(yǔ)特征提取模塊,用于提取靜態(tài)手語(yǔ)的特征點(diǎn)并生成相應(yīng)的特征描述符,同時(shí)采用特征點(diǎn)篩選算法對(duì)SURF的特征點(diǎn)提取結(jié)果進(jìn)行改進(jìn); 靜態(tài)手語(yǔ)識(shí)別模塊,采用“一對(duì)一” SVM分類(lèi)法,以SURF算法生成64維的SURF特征描述符為基準(zhǔn),進(jìn)行分類(lèi)訓(xùn)練及識(shí)別,得出識(shí)別的結(jié)果。
2.如權(quán)利要求1所述的基于Kinect傳感器的靜態(tài)手語(yǔ)字母識(shí)別系統(tǒng),其特征在于:還包括圖像預(yù)處理模塊以及手像素區(qū)域分割模塊,圖像預(yù)處理模塊用于將攝像裝置獲取的深度圖像進(jìn)行初步降噪處理,手像素區(qū)域分割模塊通過(guò)灰度直方圖中灰度值由大到小的變化趨勢(shì),尋找像素點(diǎn)劇變較大處的灰度值作為手像素區(qū)域分割的閾值,再通過(guò)二值化方法來(lái)完成手像素區(qū)域分割。
3.基于Kinect傳感器的靜態(tài)手語(yǔ)字母識(shí)別方法,其特征在于:包括如下步驟: 1)利用攝像模塊的Kinect傳感器獲取深度圖像; 2)利用圖像預(yù)處理模塊,將攝像裝置獲取的深度圖像進(jìn)行初步的降噪處理;利用手像素區(qū)域分割模塊,通過(guò)二值化方法對(duì)獲得的深度圖像進(jìn)行手像素區(qū)域分割,使得手部區(qū)域成為感興趣區(qū)域; 3)利用靜態(tài)手語(yǔ)特征提取模塊,采用SURF算法提取特征點(diǎn);同時(shí)采用特征點(diǎn)篩選算法對(duì)SURF算法的計(jì)算結(jié)果進(jìn)行優(yōu)化,剔除錯(cuò)誤特征點(diǎn); 4)利用靜態(tài)手語(yǔ)識(shí)別模塊,對(duì)生成的64維的SURF特征點(diǎn)描述符,采用“一對(duì)一”SVM分類(lèi)法,進(jìn)行分類(lèi)訓(xùn)練,得出識(shí)別的結(jié)果。
4.如權(quán)利要求3所述的基于Kinect傳感器的靜態(tài)手語(yǔ)字母識(shí)別方法,其特征在于:所述SURF算法的Hessian矩陣為:
5.如權(quán)利要求4所述的基于Kinect傳感器的靜態(tài)手語(yǔ)字母識(shí)別方法,其特征在于:所述SURF特征點(diǎn)提取為: 在Hessian矩陣與箱式濾波器進(jìn)行卷積操作后,可以得到H(x,y,σ)的近似矩陣Happrox,其行列式為:
6.如權(quán)利要求3中所述的基于Kinect傳感器的靜態(tài)手語(yǔ)字母識(shí)別方法,其特征在于:所述特征點(diǎn)篩選算法為: 設(shè)實(shí)時(shí)圖像和模板圖像分別為1、1,其特征點(diǎn)集分別為C= IC1, C2,…CJ、C'={(V,c2',…Cn' },其對(duì)應(yīng)的一對(duì)匹配特征點(diǎn)對(duì)為P、P',其中pec,p' e C,在半徑為r的鄰域內(nèi),若兩幅圖像只存在平移和旋轉(zhuǎn),則應(yīng)該滿足以下結(jié)論: 1)鄰域特征點(diǎn)總個(gè)數(shù)相同,即以P為中心,以r為半徑的鄰域內(nèi)特征點(diǎn)總個(gè)數(shù),應(yīng)等于以P'為中心,以r為半徑的領(lǐng)域內(nèi)特征點(diǎn)總個(gè)數(shù); 2)對(duì)應(yīng)特征點(diǎn)的間距相同;設(shè)Ci,Cj e C,Ci' ,C/ e C ,Ci^C/是對(duì)應(yīng)的一對(duì)特征點(diǎn),C」、C/也是對(duì)應(yīng)的特征點(diǎn),則Ci與Cj的距離值應(yīng)當(dāng)和Ci'與C/的距離值應(yīng)相等,即(!(Ci, Cj) = d((V , C/ ); 基于以上原理,根據(jù)以下步驟來(lái)剔除錯(cuò)誤的特征點(diǎn): 1)定義一個(gè)自適應(yīng)半徑r,若在以當(dāng)前r為半徑的鄰域內(nèi),特征點(diǎn)個(gè)數(shù)少于2個(gè),則將r的值提高一倍后再計(jì)算特征點(diǎn)個(gè)數(shù);若在以當(dāng)前r為半徑的鄰域內(nèi),特征點(diǎn)個(gè)數(shù)大于2個(gè),則進(jìn)行下面兩個(gè)步驟; 2)計(jì)算以匹配點(diǎn)對(duì)P、P,為中心,半徑為r的鄰域內(nèi)特征點(diǎn)的個(gè)數(shù),若特征點(diǎn)的個(gè)數(shù)相同,則P是正確的特征點(diǎn),否則,P是錯(cuò)誤的特征點(diǎn),需要進(jìn)行剔除; 3)計(jì)算該特征點(diǎn)與其鄰域內(nèi)其他特征點(diǎn)的距離,通過(guò)這一參數(shù)限制進(jìn)一步剔除錯(cuò)誤特征點(diǎn):設(shè)P、P'是已滿足鄰域特征點(diǎn)總數(shù)相等這個(gè)條件,假設(shè)在以r半徑的鄰域內(nèi)特征點(diǎn)個(gè)數(shù)為n,則將P、Pi到其鄰域內(nèi)其他特征點(diǎn)的距離按照降序排列統(tǒng)計(jì)后分別記為D1 =Id1, d2,...dj和D2 = {d2, d2,...dn},若D1與D2的偏差在允許的范圍內(nèi),則認(rèn)為P是正確的特征點(diǎn),否則不匹配。
7.如權(quán)利要求3中所述的基于Kinect傳感器的靜態(tài)手語(yǔ)字母識(shí)別方法,其特征在于:所述SURF特征描述符為: 關(guān)鍵點(diǎn)描述分為兩部分,首先,確定關(guān)鍵點(diǎn)的主方向,然后生成相應(yīng)的關(guān)鍵點(diǎn)描述符; 在以關(guān)鍵點(diǎn)為圓心,半徑為6σ的圓內(nèi),σ為尺度,計(jì)算尺寸為4σ的Harr小波響應(yīng)dx,dy,對(duì)之進(jìn)行高斯加權(quán),記為K Wiy ; 對(duì)床,用直方圖統(tǒng)計(jì),將一個(gè)圓的360°分成72組60°大小的扇形區(qū)域,分別統(tǒng)計(jì)這些扇形區(qū)域內(nèi)的K、,H 同時(shí)計(jì)算該區(qū)域的梯度值,梯度值最大的扇形區(qū)域所在方向?yàn)殛P(guān)鍵點(diǎn)的主方向,根據(jù)FTdx,Pdv的反正切值可求出關(guān)鍵點(diǎn)主方向的度數(shù);確定主方向后,以關(guān)鍵點(diǎn)為核心,構(gòu)建一個(gè)大小為20 σ的正方形窗,與關(guān)鍵點(diǎn)對(duì)齊,將這個(gè)正方形窗劃分為4X4共16個(gè)小正方形區(qū)域,計(jì)算每個(gè)小區(qū)域內(nèi)Harr小波響應(yīng)dx,dy,并用高斯函數(shù)進(jìn)行加權(quán)。每一個(gè)小區(qū)域內(nèi)的Harr小波響應(yīng)對(duì)應(yīng)的大于零和小于零的dx、dy分別累加,得到的描述符如下:
8.如權(quán)利要求3中所述的基于Kinect傳感器的靜態(tài)手語(yǔ)字母識(shí)別方法,其特征在于:所述SVM “一對(duì)一”模型為: 對(duì)于m個(gè)類(lèi)別則將訓(xùn)練出m(m-l) /2個(gè)SVM模型,分類(lèi)時(shí)將待分類(lèi)樣本x輸入到每個(gè)SVM模型,若該樣本X屬于第i類(lèi),則第i類(lèi)的得分加1,最后得票最多的類(lèi)別則判為該未知樣本的類(lèi)別,采用以下公式:
【文檔編號(hào)】G06K9/62GK103927555SQ201410191394
【公開(kāi)日】2014年7月16日 申請(qǐng)日期:2014年5月7日 優(yōu)先權(quán)日:2014年5月7日
【發(fā)明者】胡章芳, 羅元, 張毅, 楊麟, 席兵 申請(qǐng)人:重慶郵電大學(xué)