專利名稱:非穿戴指勢(shì)視覺(jué)識(shí)別方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種非穿戴指勢(shì)視覺(jué)識(shí)別方法,用于視頻數(shù)字圖像分析與理解。屬于 智能信息處理技術(shù)領(lǐng)域。
背景技術(shù):
指勢(shì)是人們?nèi)粘I钪杏檬种笇?duì)空間感興趣目標(biāo)的反映,是人類語(yǔ)系發(fā)展和個(gè)體 發(fā)生學(xué)的重要先驅(qū),可揭示人類社會(huì)智力,是一種理想的自然人機(jī)交互模式。應(yīng)用指勢(shì)進(jìn)行 人機(jī)交互,則可充分利用人類的日常技能,擺脫目前使用常規(guī)輸入設(shè)備(如鍵盤(pán)、鼠標(biāo)器和 觸摸屏等)進(jìn)行輸入的束縛,其中,有效進(jìn)行指勢(shì)人機(jī)交互的關(guān)鍵是指勢(shì)識(shí)別。指勢(shì)識(shí)別分為穿戴式和非穿戴式兩類。前者基于數(shù)據(jù)頭盔、數(shù)據(jù)手套和身體標(biāo)記 等,這類方法雖可獲得較準(zhǔn)確的用戶位置和用戶行動(dòng),但該類方法為侵入式,用戶需專門(mén)訓(xùn) 練,操作不便;后者基于非接觸傳感器(如攝像機(jī))進(jìn)行指勢(shì)識(shí)別,支持自然的人機(jī)交互。由 于在人類的日常生活中,人類習(xí)慣并大量使用非精確的信息交流,允許使用模糊的表達(dá)手 段,避免不必要的認(rèn)識(shí)負(fù)荷,以提高交互活動(dòng)的自然性和高效性,且在人類信息的獲取中, 80%以上來(lái)自于視覺(jué),因此,非穿戴的指勢(shì)視覺(jué)識(shí)別方法倍受青睞。有效的非穿戴指勢(shì)視覺(jué) 識(shí)別,在教育、影視、娛樂(lè)、制造、醫(yī)學(xué)、商業(yè)、軍事等領(lǐng)域,具有重要的實(shí)用意義和價(jià)值。雖然人類在日常生活中頻繁地使用指勢(shì)進(jìn)行信息交流,且可以很容易地識(shí)別出所 指目標(biāo),但對(duì)計(jì)算機(jī)而言,卻是一個(gè)難題。目前,已經(jīng)提出了許多非穿戴指勢(shì)視覺(jué)識(shí)別方法。 主要有基于立體匹配方法和基于特征分析方法。前者通過(guò)二個(gè)或二個(gè)以上攝像機(jī)獲取圖 像,采用立體匹配方法,進(jìn)行指勢(shì)視覺(jué)識(shí)別,確定所指目標(biāo)。但由于立體匹配存在歧義性,且 計(jì)算量大、運(yùn)算復(fù)雜,需特定的硬件支持以實(shí)現(xiàn)實(shí)時(shí)處理。后者通過(guò)指勢(shì)對(duì)象特征提取,進(jìn) 行指勢(shì)視覺(jué)識(shí)別,確定所指目標(biāo)。但這類方法要求用戶站立于事先指定的范圍內(nèi),用戶周圍 無(wú)遮擋或障礙物,且要求背景簡(jiǎn)單、單一。該類方法在很大程度上制約了用戶活動(dòng)的自由 性,不符合人類自然交流習(xí)慣。
發(fā)明內(nèi)容
本發(fā)明的目的在于針對(duì)現(xiàn)有非穿戴指勢(shì)視覺(jué)識(shí)別方法要求用戶站立于事先指定 的范圍,其周圍無(wú)遮擋或障礙物,背景簡(jiǎn)單、單一等假設(shè)信息,以及對(duì)動(dòng)態(tài)場(chǎng)景變化敏感、噪 聲干擾大、運(yùn)算復(fù)雜,提供一種非穿戴指勢(shì)視覺(jué)識(shí)別方法,根據(jù)指勢(shì)視覺(jué)特征與所指目標(biāo)存 在對(duì)應(yīng)關(guān)系,基于指勢(shì)特征與指向目標(biāo)的樣本學(xué)習(xí)與訓(xùn)練的機(jī)器學(xué)習(xí)方法進(jìn)行指勢(shì)視覺(jué)識(shí) 別,可在多種條件下,實(shí)現(xiàn)指向目標(biāo)的確定。為達(dá)到上述目的,本發(fā)明的構(gòu)思是基于小波變換在時(shí)域和空域均具有優(yōu)異的局 部化特征,采用背景差分法,利用小波多尺度特性,提取指勢(shì)用戶對(duì)象,根據(jù)指勢(shì)手指空間 幾何位置關(guān)系與人眼分布特征,提取手指與人眼等指勢(shì)視覺(jué)特征,基于指勢(shì)視覺(jué)特征與所 指目標(biāo)的樣本學(xué)習(xí)與訓(xùn)練,對(duì)指勢(shì)視覺(jué)特征進(jìn)行模式分類,確定所指目標(biāo)。根據(jù)上述發(fā)明構(gòu)思,本發(fā)明采用下述技術(shù)方案(4)人眼定位基于步驟(3)所得區(qū)域進(jìn)行Haar人眼特征檢測(cè),確定人眼位置;
(5)指勢(shì)手部區(qū)域提取根據(jù)指勢(shì)過(guò)程中,指勢(shì)手部區(qū)域高于非指勢(shì)手部區(qū)域,從經(jīng)步
一種非穿戴指勢(shì)視覺(jué)識(shí)別方法,其特征在于具體步驟如下
1)啟動(dòng)指勢(shì)圖像采集系統(tǒng)采集視頻圖像;
2)獲取背景圖像
連續(xù)采集不包含指勢(shì)用戶的場(chǎng)景圖像,當(dāng)某設(shè)定時(shí)間間隔內(nèi)兩圖像差小于某個(gè)設(shè)定閾 值時(shí),則將該時(shí)間間隔內(nèi)的某一幅圖像作為背景圖像,否則重新采集,直到滿足設(shè)定的時(shí)間 間隔內(nèi)的兩圖像差小于某個(gè)設(shè)定閾值;
3)指勢(shì)用戶對(duì)象分割
由攝像機(jī)采集的當(dāng)前幀圖像與步驟2)獲取的背景圖像相減,采用小波變換方法分割出 指勢(shì)用戶對(duì)象區(qū)域;
4)確定指勢(shì)用戶對(duì)象的人眼位置與指勢(shì)手指尖位置;
5)樣本學(xué)習(xí)與訓(xùn)練;
6)指向目標(biāo)確定。上述步驟3)的具體操作步驟如下
(1)當(dāng)前幀圖像J1Cr^)與背景圖像/2Cr,_F)相減,得到差分圖像々Cr,_F) D (x, y) =I1 (χ, y) -I2 (χ, y);
(2)差分圖像多尺度小波變換
E=^(Em)2+(£Mvf ;
其中,々為差分圖像,力,r分別為水平、垂直方向上的濾波算子 力卷積;
(3)指勢(shì)用戶對(duì)象區(qū)域的確定確定差分圖像多尺度小波變換A的閾值Λ將A值高于 r的所有像素組成的區(qū)域,確定為指勢(shì)用戶對(duì)象區(qū)域。上述步驟4)的具體操作步驟如下
(1)膚色區(qū)域提取根據(jù)RGB色彩空間中的R/G、R/B的比值具有較好的膚色聚類特性, 分別確定R/G以及R/B的閾值/;,T2, T,, 7\,將滿足下式的所有像素組成的區(qū)域,確定為膚 色區(qū)域S:
S = {R/G > ΓΛ R/G < Tz) η {R/B > T^rs R/B <7;)
其中, 為“邏輯與”操作符;
(2)候選人臉區(qū)域與手部區(qū)域提取將同時(shí)滿足步驟3)與步驟(1)的圖像區(qū)域,作為候 選的指勢(shì)用戶的膚色區(qū)域;
(3)人臉區(qū)域提取對(duì)步驟(2)的二值圖像進(jìn)行連通區(qū)域搜索,計(jì)算連通區(qū)域高&與寬 5;的比值,以及連通區(qū)域中的孔洞數(shù)//和連通區(qū)域大小r,將滿足下式的所有像素組成的區(qū) 域視為人臉區(qū)域驟(2)所得的膚色區(qū)域中,剔除人臉區(qū)域以及因噪聲引起的面積較小的膚色區(qū)域,確定指勢(shì) 手部區(qū)域;
(6)指勢(shì)手指尖定位計(jì)算經(jīng)步驟(5)所得的指勢(shì)手部區(qū)域的曲率,根據(jù)手指尖具有大 的曲率變化特性,確定手指尖位置。上述步驟5)的具體操作步驟如下
(1)按照步驟4),通過(guò)采集不同指勢(shì)用戶對(duì)象在指向不同目標(biāo)Ti時(shí)的人眼位置盡和指 勢(shì)手指尖位置祐,構(gòu)成訓(xùn)練樣本的數(shù)據(jù)集合代=怳,祐}和指向目標(biāo)的標(biāo)記集合G= (T1i)5
(2)選擇分類器,對(duì)上述數(shù)據(jù)集合代和標(biāo)記集合G構(gòu)成的樣本集合(代,C)進(jìn)行監(jiān)督 學(xué)習(xí),并調(diào)整分類器中參數(shù),使分類效果達(dá)到最佳。上述步驟6)的具體操作步驟如下
(1)按照步驟4),采集指勢(shì)用戶對(duì)象在指向目標(biāo)時(shí)的人眼位置JA和指勢(shì)手指尖位置 AHi,構(gòu)成測(cè)試數(shù)據(jù)集合ADi= [AEi,AHi};
(2)根據(jù)步驟5)所確定的分類器及其參數(shù),對(duì)測(cè)試數(shù)據(jù)集合進(jìn)行分類判別,根據(jù)判 別函數(shù)的最大值確定指向目標(biāo)。本發(fā)明的原理如下在本發(fā)明的技術(shù)方案中,基于指勢(shì)進(jìn)行人機(jī)交互時(shí),所指目 標(biāo)由指勢(shì)手指尖與人眼視線的連線與所指目標(biāo)所在平面的交點(diǎn)確定,根據(jù)背景差分法能提 供較完全的特征數(shù)據(jù),基于場(chǎng)景中任何可察覺(jué)的目標(biāo)運(yùn)動(dòng)都會(huì)體現(xiàn)在場(chǎng)景圖像序列的變化 中,利用當(dāng)前圖像與背景圖像之間的差分,根據(jù)小波變換在時(shí)域和頻域均具有局部化特征, 從視頻圖像中分割出指勢(shì)用戶對(duì)象,并提取相應(yīng)的手指尖和人眼等指勢(shì)視覺(jué)特征。根據(jù)指 勢(shì)視覺(jué)特征與所指目標(biāo)存在對(duì)應(yīng)關(guān)系,基于指勢(shì)視覺(jué)特征與指向目標(biāo)的樣本學(xué)習(xí)與訓(xùn)練的 機(jī)器學(xué)習(xí)方法,確定指向目標(biāo)。設(shè)時(shí)間間隔Di內(nèi),分別獲得I1與tn兩時(shí)刻的兩幀圖像f、tn_x, χ, y),f{tn, χ, _7),將兩幅圖像逐象素求差值,得差分圖像Diff(x,y)
權(quán)利要求
1.一種非穿戴指勢(shì)視覺(jué)識(shí)別方法,其特征在于具體步驟如下1)啟動(dòng)指勢(shì)圖像采集系統(tǒng),采集視頻圖像;2)獲取背景圖像連續(xù)采集不包含指勢(shì)用戶的場(chǎng)景圖像,當(dāng)某設(shè)定時(shí)間間隔內(nèi)兩圖像 差小于某個(gè)設(shè)定閾值時(shí),則將該時(shí)間間隔內(nèi)的某一幅圖像作為背景圖像,否則重新采集,直 到滿足設(shè)定的時(shí)間間隔內(nèi)的兩圖像差小于某個(gè)設(shè)定閾值;3)指勢(shì)用戶對(duì)象分割由攝像機(jī)采集的當(dāng)前幀圖像與步驟幻獲取的背景圖像相減,采 用小波變換方法分割出指勢(shì)用戶對(duì)象區(qū)域;4)確定指勢(shì)用戶對(duì)象的人眼位置與指勢(shì)手指尖位置;5)樣本學(xué)習(xí)與訓(xùn)練;6)指向目標(biāo)確定。
2.根據(jù)權(quán)利要求1所述的非穿戴指勢(shì)視覺(jué)識(shí)別方法,其特征在于所述步驟3)指勢(shì)用戶 對(duì)象分割的具體操作步驟如下(1)當(dāng)前幀圖像J1Cr^)與背景圖像/2Cr,_F)相減,得到差分圖像々Cr,_F)D (x, y) =I1 (χ, y) -I2 (χ, y);(2)差分圖像多尺度小波變換
3.根據(jù)權(quán)利要求1所述的非穿戴指勢(shì)視覺(jué)識(shí)別方法,其特征在于所述步驟4)確定指勢(shì) 用戶對(duì)象的人眼位置與指勢(shì)手指尖位置的具體操作步驟如下(1)膚色區(qū)域提取根據(jù)RGB色彩空間中的R/G、R/B的比值具有較好的膚色聚類特性, 分別確定R/G以及R/B的閾值/;,T2, T,, 7\,將滿足下式的所有像素組成的區(qū)域,確定為膚 色區(qū)域S:S 二 (R/G > T1 μ R/G < T2)門(mén) iR/B > T3 γλ R/B <Td其中,n為“邏輯與”操作符;(2)候選人臉區(qū)域與手部區(qū)域提取將同時(shí)滿足步驟3)與步驟(1)的圖像區(qū)域,作為候 選的指勢(shì)用戶的膚色區(qū)域;(3)人臉區(qū)域提取對(duì)步驟(2)的二值圖像進(jìn)行連通區(qū)域搜索,計(jì)算連通區(qū)域高&與寬 5;的比值,以及連通區(qū)域中的孔洞數(shù)//和連通區(qū)域大小r,將滿足下式的所有像素組成的區(qū) 域視為人臉區(qū)域F = (..S1/Sv _ hh ) r , (H >1) W >Τ 其中,Τ;,/;,/;為閾值;(4)人眼定位基于步驟(3)所得區(qū)域進(jìn)行Haar人眼特征檢測(cè),確定人眼位置;(5)指勢(shì)手部區(qū)域提取根據(jù)指勢(shì)過(guò)程中,指勢(shì)手部區(qū)域高于非指勢(shì)手部區(qū)域,從經(jīng)步驟(2)所得的膚色區(qū)域中,剔除人臉區(qū)域以及因噪聲引起的面積較小的膚色區(qū)域,確定指勢(shì) 手部區(qū)域;(6)指勢(shì)手指尖定位計(jì)算經(jīng)步驟(5)所得的指勢(shì)手部區(qū)域的曲率,根據(jù)手指尖具有大 的曲率變化特性,確定手指尖位置。
4.根據(jù)權(quán)利要求1所述的非穿戴指勢(shì)視覺(jué)識(shí)別方法,其特征在于所述步驟5)樣本學(xué)習(xí) 與訓(xùn)練的具體操作步驟如下(1)按照步驟4),通過(guò)采集不同指勢(shì)用戶對(duì)象在指向不同目標(biāo)Ti時(shí)的人眼位置盡和指 勢(shì)手指尖位置祐,構(gòu)成訓(xùn)練樣本的數(shù)據(jù)集合代=怳,祐}和指向目標(biāo)的標(biāo)記集合G= (T1i)5(2)選擇分類器,對(duì)上述數(shù)據(jù)集合代和標(biāo)記集合G構(gòu)成的樣本集合(代,C)進(jìn)行監(jiān)督 學(xué)習(xí),并調(diào)整分類器中參數(shù),使分類效果達(dá)到最佳。
5.根據(jù)權(quán)利要求1所述的非穿戴指勢(shì)視覺(jué)識(shí)別方法,其特征在于所述步驟6)指向目標(biāo) 確定的具體操作步驟如下(1)按照步驟4),采集指勢(shì)用戶對(duì)象在指向目標(biāo)時(shí)的人眼位置JA和指勢(shì)手指尖位置 AHi,構(gòu)成測(cè)試數(shù)據(jù)集合ADi= [AEi,AHi};(2)根據(jù)步驟5)所確定的分類器及其參數(shù),對(duì)測(cè)試數(shù)據(jù)集合進(jìn)行分類判別,根據(jù)判 別函數(shù)的最大值確定指向目標(biāo)。
全文摘要
本發(fā)明涉及一種非穿戴指勢(shì)視覺(jué)識(shí)別方法。本方法是根據(jù)小波變換在時(shí)域和空域均具有優(yōu)異的局部化特征,采用背景差分法,利用小波多尺度特性,提取指勢(shì)用戶對(duì)象,根據(jù)指勢(shì)手指空間幾何特征與人眼特征,確定手指尖與人眼的位置,通過(guò)對(duì)不同指勢(shì)用戶手指不同目標(biāo)的樣本學(xué)習(xí)與訓(xùn)練,對(duì)指勢(shì)用戶在指向不同目標(biāo)時(shí)的指勢(shì)視覺(jué)特征進(jìn)行分類,確定所指目標(biāo)。本發(fā)明方法不需要特定的硬件支持以及限定用戶活動(dòng)范圍等約束,方法簡(jiǎn)便、靈活、易實(shí)現(xiàn)。
文檔編號(hào)G06K9/66GK102073878SQ201010543788
公開(kāi)日2011年5月25日 申請(qǐng)日期2010年11月15日 優(yōu)先權(quán)日2010年11月15日
發(fā)明者管業(yè)鵬 申請(qǐng)人:上海大學(xué)