手形手勢識別裝置、識別方法及含該方法程序的記錄媒體的制作方法

文檔序號：2607485閱讀：219來源：國知局

專利名稱：手形手勢識別裝置、識別方法及含該方法程序的記錄媒體的制作方法
技術領域：
本發(fā)明涉及手形手勢識別裝置和手形手勢識別方法以及記錄有執(zhí)行該方法程序的記錄媒體，具體來說，涉及不用數(shù)據(jù)手套等帶有電纜等的手套，能夠對人類手形和手勢推定進行識別，根據(jù)該識別結果用于人機之間界面裝置或手語識別裝置等的手形手勢識別裝置及其方法以及記錄有執(zhí)行該方法程序的記錄媒體。
當前，對于新的人類界面手段，人們正熱衷于研究開發(fā)識別人類手形、取得人類用手提示的信息的裝置。而且，著眼于增進聽覺障礙者和健康人之間的交流，也熱衷于對手語動作中提示的手形和手勢進行識別的研究。
通常，作為取得人類手形的方法，公知的有手上加上數(shù)據(jù)手套等傳感器測定各狀態(tài)的方法，例如電氣學會計量研究會資料(1994第49頁～第56頁)(以下稱為第一文獻)。該第一文獻討論的是沿手指設置手套光纖，利用光纖伸展時和彎曲時的光量變化，對手指關節(jié)的角度進行推定的方法。
而對于如上述第一文獻所述不用帶傳感器手套的方法，則有用攝像機識別手形的方法，例如渡邊、巖井、八木、谷內(nèi)田的論文“用彩色手套的手指文字識別”(電子信息通信學會雜志vol.J80-D-2，No.10，第2713頁～第2722頁)(以下稱為第二文獻)。該第二文獻討論的是手上裝上加有多種彩色的手套(標識器)，根據(jù)該手套圖像識別手形的方法。
另一方面，對于手未裝上手套等標識器而用攝像機進行手形和手勢識別的方法，例如有日本專利申請?zhí)亻_平8-263629號公報“物體形狀·姿勢檢測裝置”(以下稱為第三文獻)所揭示的方案。該第三文獻記載的是至少用3臺攝像機對手進行攝影，將手視為平面，判別該手與哪一攝像機相對，并根據(jù)朝向正面的攝像機的圖像識別形狀，對姿勢進行推定的方法。
此外，作為根據(jù)朝向正面的攝像機的圖像對形狀進行識別的方法，存在石淵、巖崎、竹村、岸野的論文“用圖像處理的實時手勢推定和對人類界面的應用”(電子信息通信學會論文雜志vol.J79-D-2，No.7，第1218頁～第1229頁)(以下稱為第四文獻)。該第四文獻說明的是根據(jù)多個攝像機得到的手的圖像求出手腕-中指方向
(以下稱為掌主軸)，同時求得伸展的指尖位置，并識別伸展的手指有幾根這一方法。
通常為了識別面容、車等物體的姿勢和種類，近年來將利用外觀圖像的方法同本征空間法組合的圖像識別法受到關注。這里，所說的基于外觀圖像的方法，是指僅僅用預先取得的3維物體的2維外觀圖像對物體姿勢、種類進行識別的方法。而所說的本征空間法，是指從古至今進行的方法，采用圖像集合的協(xié)方差矩陣(或自相關矩陣)本征向量所構成的本征空間的方法，公知的是采用主成分分析或KL展開的方法。
以下簡單說明就圖像應用上述主成分分析的方法。
為了更加容易地了解或處理多維空間的特點，在設法利用本征空間用較少的維數(shù)表現(xiàn)的統(tǒng)計方法中，作為多變量解析中一方法常常利用主成分分析。就原理來說，將多維空間上的特點線形映射為分散大的少數(shù)低維正交部分空間。
該主成分分析方法應用于圖像時，首先將n×m像素的圖像經(jīng)光柵掃描得到的列向量作為U，用{U1，U2，U3，…，Up}表現(xiàn)p個圖像屬于的圖像群。
接著，從該圖像分組各個要素當中減去圖像集合平均圖像c要素的列向量分組成的nm×p矩陣設定為A，由矩陣AA＝[U1-c，U2-c，U3-c，…，Up-c]圖像集合的協(xié)方差矩陣Q用下列式(1)計算。另外，矩陣AT表示矩陣A的轉置矩陣。
Q＝AAT(1)而且用該協(xié)方差矩陣Q解下述式(2)的本征方程式。
λi＝Qei(2)這里，應求得的部分空間，若其維數(shù)為k，便成為通過以k個大的本征值所對應的本征向量e1，e2，…，ek(λ1≥λ2≥…≥λk≥…≥λp)為基底向量所得到的部分空間。
因而，通過將某個像素x按下述式(3)線形映射為本征向量的部分空間，可以將n×m維圖像維數(shù)壓縮為k維特征向量y。
y＝[e1，e2，…，ek]Tx (3)
另一方面，用主成分分析或KL展開、因人類面容模樣復雜而對多種多樣實體進行檢出識別的方法來說，有例如日本專利申請?zhí)亻_平8-339445號公報“用幾率本征空間解析的復雜對象物的檢測、識別、以及編碼方法和裝置”(以下稱為第五文獻)所揭示的方案。該第五文獻其特征在于，以往所采取的上述辦法對復雜對象物、尤其是對面容適用。上述第五文獻按復雜對象物例子給出應用于手形識別的實施例，以下說明其方法。
首先，相對于黑色背景對手勢所用的手的圖像集合進行攝影。接下來用Canny的邊緣操作器提取手的2維輪廓。接著，對得到的邊緣圖像集合進行KL展開求得部分空間的方案仍按原樣利用2值邊緣圖，圖像間幾乎相互無關，因此部分空間的維數(shù)必須非常大。因此，上述第五文獻中記載的實施例，提出通過在2值邊緣圖上經(jīng)擴散處理將邊緣除外求部分空間、來壓縮部分空間維數(shù)這一方案。而且，為了從輸入圖像當中求得手的位置，通過按某種一定的大小搜索整個圖像來求得手的位置，進行識別。
但要識別人手形狀時，象上述第一文獻所討論的那樣手戴上數(shù)據(jù)手套進行手形識別時，由于手帶有電纜，因而動作受到牽制，或在穿戴感覺方面成問題。
即便用攝像機對手形進行識別時，象上述第二文獻所討論的那樣以裝上手套等標識器為前提時，沒有手套時不僅無法進行手形識別，而且戴上時的親和感成問題。
此外，象上述第三文獻討論的那樣在不戴手套或標識器的情況下利用多個攝像機對手形和手勢進行識別時，將手視為平面，根據(jù)該手與哪一攝像機相向來判別手勢，但實際上手可能表現(xiàn)為種種形狀，這當中還有很多是無法近似成平面的形狀。因而，可以作為識別對象應對伸展手指根數(shù)等單純形狀，但不適用更復雜形狀(例如拇指和食指接觸形成孔的形狀)等。
而象上述第四文獻那樣，對基于更普遍的本征空間解析方法來說，不清楚如何取得僅僅是手經(jīng)歸一化的圖像。對基于本征空間解析的方法來說，重要的是如何截取所識別的對象物體其圖像區(qū)域進行歸一化。通常，按剛體識別的對象物體有明顯不同時，該歸一化只要是大小和亮度歸一化便足夠了，但是手或容貌這種復雜物體情況下，將其所包含部分截取的處理是極為重要的。
例如，將此方法用于容貌識別時，使眼睛、鼻子位置移動至某個一定的位置上，可以利用將顎部或毛發(fā)消除的方法。而對于手時，需要用某種方法將腕部區(qū)域消除，將手移動至一定位置進行歸一化，不進行這種處理，對多種手形和手勢的識別，就存在即使利用基于本征空間解析的方法但識別率差這種問題。
而且，象上述第五文獻所討論的那樣，實際將本征空間解析應用于手的圖像時，還需要根據(jù)手的圖像中的邊緣求得輪廓，進而將邊緣除外。因此，1根手指伸展的圖像和2根手指以接觸的形式伸展的圖像，在圖像上無法區(qū)別其差異，結果是不可能用于更加復雜的形狀等。
因此，本發(fā)明目的在于，提供一種通過預先對應識別的手形，從給出種種手勢的圖像當中消除手腕區(qū)域進行歸一化，并對經(jīng)歸一化的圖像應用基于本征空間解析的方法，從而對更為復雜的手形圖像也識別其形狀和姿勢的手形和手勢識別裝置及手形和手勢識別方法以及記錄有執(zhí)行該方法程序的記錄媒體。
為了達到上述目的，本發(fā)明具有如下所述特征。
第一方面為對光學讀取手段所取得的手的圖像(以下稱為輸入手圖像)進行手形和手勢識別的裝置，其中包括輸入預先對種種形狀和姿勢的手進行攝像得到的多個圖像，并分別生成該圖像消除手腕區(qū)域后預先確定的圖像形態(tài)(手的方向、圖像的大小、圖像的亮度)經(jīng)過歸一化的手形圖像的第一手圖像歸一化部；將手形圖像和與該手形圖像相關的形狀信息和姿勢信息一起分別存儲的手形圖像信息存儲部；進行本征空間法的解析，根據(jù)手形圖像分別計算本征值和本征向量的本征空間計算部；存儲本征向量集合的本征向量存儲部；將手形圖像投影至以本征向量為基底的本征空間，分別求得該本征空間內(nèi)投影座標，并存儲于手形圖像信息存儲部的第一本征空間投影部；將輸入手圖像輸入，生成該輸入圖像消除手腕區(qū)域后按與手形圖像為同類圖像形態(tài)那樣經(jīng)過歸一化的輸入手形圖像的第二手圖像歸一化部；將輸入手形圖像投影至以本征向量為基底的本征空間，求得該本征空間內(nèi)投影座標的第二本征空間投影部；分別比較第二本征空間投影部求得的投影座標和手形圖像信息存儲部存儲的投影座標，求得與輸入手形圖像最為接近的手形圖像的手形圖像選擇部；以及從手形圖像信息存儲部當中取得并輸出最為接近的手形圖像的形狀信息和姿勢信息的形狀·姿勢輸出部。
如上所述，按照第一方面，從具有種種手形和手勢的多幅手圖像和為識別對象的輸入手圖像兩者當中消除手腕區(qū)域，因而可以比單純的大小和亮度歸一化更為精密地對手圖像進行歸一化。因此，將基于本征空間的方法用于手形和手勢識別，也能夠得到精度足夠高的結果。
而且，將基于本征空間的方法用于手形和手勢識別，并利用對伸展手指個數(shù)計數(shù)等幾何特征的方法，對幾何特征難以處理的更為復雜的手形也能夠識別。
第二方面為對光學讀取手段所取得的手的圖像進行手形和手勢識別的裝置，其特征在于，包括輸入預先對種種形狀和姿勢的手進行攝像得到的多個圖像，并分別生成該圖像消除手腕區(qū)域后預先確定的圖像形態(tài)經(jīng)過歸一化的手形圖像的第一手圖像歸一化部；將手形圖像和與該手形圖像相關的形狀信息和姿勢信息一起分別存儲的手形圖像信息存儲部；進行本征空間法的解析，根據(jù)手形圖像分別計算本征值和本征向量的本征空間計算部；存儲本征向量集合的本征向量存儲部；將手形圖像投影至以所述本征向量為基底的本征空間，分別求得該本征空間內(nèi)投影座標，并存儲于手形圖像信息存儲部的第一本征空間投影部；通過群集分析分別將投影座標分組，求得各手形圖像屬于哪一群集并存儲于手形圖像信息存儲部，并求得與各群集相關的統(tǒng)計信息的群集分析部；將統(tǒng)計信息與相應的群集一起分別存儲的群集信息存儲部；將輸入手圖像輸入，生成該輸入圖像消除手腕區(qū)域后按與手形圖像為同類圖像形態(tài)那樣經(jīng)過歸一化的輸入手形圖像的第二手圖像歸一化部；將輸入手形圖像投影至以本征向量為基底的本征空間，求得該本征空間內(nèi)投影座標的第二本征空間投影部；分別比較第二本征空間投影部求得的投影座標和群集信息存儲部存儲的統(tǒng)計信息，求得最為接近的群集的最近似群集判別部；分別比較屬于最近似群集的手形圖像和輸入手形圖像，求得與該輸入手形圖像最為接近的手形圖像的圖像比較部；以及從手形圖像信息存儲部當中取得并輸出最為接近的手形圖像的形狀信息和姿勢信息的形狀·姿勢輸出部。
如上所述，按照第二方面，通過本征空間內(nèi)的群集分析對手形圖像信息存儲部存儲的多個手形圖像分組，識別輸入手圖像時，先求得屬于哪一分組，再求得與該分組內(nèi)的哪一手形圖像最為接近。因此，可以減少圖像比較次數(shù)，從而更為高速地進行處理。存在不同形狀但近似的圖像時也能夠正確地求得手形和手勢。
第三方面為從屬于第二方面的手形手勢識別裝置，其特征在于，圖像比較部包括下列構成比較屬于最近似群集判別部求得的群集的所述手形圖像和所述第二手圖像歸一化部生成的輸入手形圖像時，按同一群集內(nèi)的同一形狀對手形圖像進行分組的同一形狀分類部；求得表現(xiàn)分組的統(tǒng)計量的形狀分組統(tǒng)計量計算部；以及計算輸入手形圖像和統(tǒng)計量之間距離，輸出屬于最為接近分組的形狀的最近似形狀判別部。
如上所述，按照第三方面，在第二方面中不需要輸出到姿勢的場合，能夠比識別姿勢和形狀兩者的場合更為正確地求得手形。
第四方面為從屬于第二方面的手形手勢識別裝置，其特征在于，群集分析部從手形圖像信息存儲部當中取得針對各群集的手形圖像和形狀信息，分別計算用以判別各手形圖像的部分區(qū)域，存儲于群集信息存儲部，圖像比較部，比較屬于最近似群集判別部求得的群集的手形圖像和第二手圖像歸一化部生成的輸入手形圖像時，僅對與群集相對應的部分區(qū)域內(nèi)進行比較。
如上所述，按照第四方面，在第二方面中預先確定用以判別圖像的部分區(qū)域，僅在該部分區(qū)域內(nèi)比較手形圖像和輸入手形圖像。因此，與第二方面相比，可以減少圖像比較次數(shù)，并且在對為識別對象的手的圖像進行識別時，即便存在不同形狀但近似的圖像場合，也能夠正確且高速地求得手形和手勢。
第五方面為從屬于第二方面的手形手勢識別裝置，其特征在于，輸入手圖像為從多個視點對識別對象手進行攝像得到的多個圖像時，第二手圖像歸一化部分別就多個輸入手圖像生成輸入手形圖像，第二本征空間投影部對于第二手圖像歸一化部生成的多個輸入手形圖像，分別求得本征空間內(nèi)的投影座標，最近似群集判別部比較第二本征空間投影部求得的各投影座標和統(tǒng)計信息，來分別求得最為接近的群集，圖像比較部綜合最近似群集判別部求得的多個最為接近的群集，根據(jù)屬于各群集的手形圖像的形狀信息和姿勢信息推定不矛盾的形狀·姿勢。
如上所述，按照第五方面，在第二方面中根據(jù)從多個視點攝像得到的輸入手圖像求得的群集，綜合最為接近的群集，求得輸入手圖像的形狀和姿勢。因此，即便是形狀和姿勢無法僅憑1方向上的圖像確定的場合(例如橫向手圖像等)，也能夠正確求得手形和手勢。
第六方面為對光學讀取手段所取得的進行一系列具有含義動作的連續(xù)的手的圖像(以下稱為手勢動作圖像)其含義進行識別的裝置，其特征在于，包括輸入預先對種種形狀和姿勢的手進行攝像得到的多個圖像，并分別生成該圖像消除手腕區(qū)域后預先確定的圖像形態(tài)經(jīng)過歸一化的手形圖像的第一手圖像歸一化部；將手形圖像和與該手形圖像相關的形狀信息和姿勢信息一起分別存儲的手形圖像信息存儲部；進行本征空間法的解析，根據(jù)手形圖像分別計算本征值和本征向量的本征空間計算部；存儲本征向量集合的本征向量存儲部；將手形圖像投影至以本征向量為基底的本征空間，分別求得該本征空間內(nèi)投影座標，并存儲于手形圖像信息存儲部的第一本征空間投影部；通過群集分析分別將投影座標分組，求得各手形圖像屬于哪一群集并存儲于手形圖像信息存儲部，并求得與各群集相關的統(tǒng)計信息的群集分析部；將統(tǒng)計信息與相應的群集一起分別存儲的群集信息存儲部；將手勢動作圖像輸入，從該手勢動作圖像的各個圖像當中分別檢出手區(qū)域的手區(qū)域檢出部；在檢出的手區(qū)域中分別求得手勢動作圖像的手活動，按照手活動求得手動作分節(jié)節(jié)點的手動作分節(jié)部；根據(jù)手勢動作圖像中為手動作分節(jié)節(jié)點的圖像，將檢出的手區(qū)域部分截取的手圖像截取部；對手圖像截取部從手勢動作圖像當中截取的1幅以上的手圖像(以下稱為手圖像序列)，分別生成該手圖像消除手腕區(qū)域后按與手形圖像為同類圖像形態(tài)那樣經(jīng)過歸一化的輸入手形圖像的第二手圖像歸一化部；將輸入手形圖像投影至以本征向量為基底的本征空間，分別求得該本征空間內(nèi)投影座標的第二本征空間投影部；
分別比較第二本征空間投影部求得的投影座標和群集信息存儲部存儲的統(tǒng)計信息，求得最為接近的群集，分別輸出規(guī)定該群集的符號的最近似群集判別部；將最近似群集判別部輸出的手圖像序列對應的符號(以下稱為符號序列)與該手圖像序列之源的手勢動作圖像的含義一起登錄于序列識別詞典部的序列登錄部；存儲手勢動作圖像含義和相應的符號序列的序列識別詞典部；以及從序列識別詞典部當中取得并輸出最近似群集判別部所輸出的符號序列相應含義的識別運算部。
如上所述，按照第六方面，對于手勢詞語或手語詞語等這種具有一系列含義的手勢動作圖像，預先將為手動作分節(jié)點的圖像其群集序列與其含義一起存儲，識別手勢動作圖像時，根據(jù)所求得的群集序列輸出所存儲的含義。因此，對于手勢詞語或手語詞語等這種具有一系列含義的動作，能夠進一步減少誤識別，正確地求得含義。
第七方面為從屬于第六方面的手形手勢識別裝置，其特征在于，還包括將手勢動作圖像輸入，根據(jù)該圖像動作主體的活動和位置輸出候選含義的總體動作認識部；以及根據(jù)具有一系列含義的動作，預先存儲約束條件以限制所輸入的手勢動作圖像含義的約束條件存儲部，識別運算部按照約束條件，從序列識別詞典部當中取得并輸出最近似群集判別部所輸出的符號序列相應的含義。
如上所述，按照第七方面，在第六方面中根據(jù)手總體動作特征，并進一步增加約束條件，導出手勢動作圖像的含義。因此可以減少手勢動作圖像的誤識別。
第八和第九方面為從屬于第六、第七方面的手形手勢識別裝置，其特征在于，手區(qū)域檢出部包括以下構成從所輸入的手勢動作圖像的各個圖像當中分別截取作為候選手區(qū)域的區(qū)域的候選區(qū)域截取部；存儲屏蔽區(qū)域以便從矩形區(qū)域當中取出為候選手圖像的區(qū)域的屏蔽區(qū)存儲部；從手勢動作圖像當中截取的候選手區(qū)域這一區(qū)域，增加屏蔽區(qū)域，接下來分別生成與計算本征向量時所用的手圖像為同類圖像形態(tài)那樣經(jīng)過歸一化的圖像的手區(qū)域圖像歸一化部；將候選手區(qū)域的區(qū)域經(jīng)歸一化的圖像投影至以本征向量為基底的本征空間，分別求得該本征空間內(nèi)投影座標的手區(qū)域本征空間投影部；
分別比較手區(qū)域本征空間投影部求得的投影座標和群集信息存儲部存儲的統(tǒng)計信息，求得最為接近的群集，分別輸出一評價值以表明規(guī)定該群集的符號和比較對象群集之間接近度的手區(qū)域最近似群集判別部；以及根據(jù)評價值，輸出評價值最高的候選手區(qū)域其位置信息和其群集的區(qū)域確定部。
如上所述，按照第八和第九方面，在第六、第七方面中檢出手區(qū)域時將手區(qū)域候選區(qū)域投影至本征空間，通過求得相應群集來檢出手區(qū)域。因此，檢出手區(qū)域的同時可以求得該手區(qū)域的相應群集，因而能夠將手區(qū)域和手形手勢識別，或者將手區(qū)域和手勢動作識別處理綜合成為一項處理。
第十至第十二方面為從屬于第一、第二、第六方面的手形手勢識別裝置，其特征在于，第一手圖像歸一化部和第二手圖像歸一化部分別包括以下構成預先按色分布存儲所輸入的手圖像中應提取的手區(qū)域的色分布存儲部；按照色分布，從所輸入的手圖像當中提取手區(qū)域的手區(qū)域提取部；求得手腕方向，按照該手腕方向從手區(qū)域當中消除手腕區(qū)域的手腕區(qū)域消除部；使消除手腕區(qū)域的手區(qū)域移動至圖像上預先定義的位置的區(qū)域移動部；求得旋轉角使手區(qū)域內(nèi)的手朝向預定的一定方向的旋轉角計算部；按照旋轉角，旋轉手區(qū)域使手朝向一定方向的區(qū)域旋轉部；以及將旋轉的手區(qū)域的大小歸一化為預定的一定大小的大小歸一化部。
如上所述，按照第十至第十二方面，在第一、第二、第六方面中對手圖像歸一化時，不僅消除手腕區(qū)域，還按膚色提取手區(qū)域。因此，可以從通常自然背景下攝像得到的手圖像當中提取手區(qū)域，進而能夠正確識別手形和手勢。
第十三方面為從屬于第一方面的手形手勢識別裝置，其特征在于，還包括分別存儲形狀信息和姿勢信息所對應的命令的命令存儲部；以及將形狀·姿勢輸出部所輸出的形狀信息和姿勢信息輸入，從命令存儲部取得并輸出該形狀信息和該姿勢信息所對應的命令的命令輸出部。
如上所述，按照第十三方面，可以使第一方面的識別裝置起到一控制界面的作用，以按照所求得的手形和手勢對其他設備進行控制。
第十四方面為對光學讀取手段所取得的手的圖像進行手形和手勢識別的方法，其特征在于，包括輸入預先對種種形狀和姿勢的手進行攝像得到的多個圖像，并分別生成該圖像消除手腕區(qū)域后預先確定的圖像形態(tài)經(jīng)過歸一化的手形圖像的第一歸一化步驟；進行本征空間法的解析，根據(jù)手形圖像分別計算本征值和本征向量的解析步驟；將手形圖像投影至以本征向量為基底的本征空間，分別求得該本征空間內(nèi)投影座標的第一投影步驟；將輸入手圖像輸入，生成該輸入圖像消除手腕區(qū)域后按與手形圖像為同類圖像形態(tài)那樣經(jīng)過歸一化的輸入手形圖像的第二歸一化步驟；將輸入手形圖像投影至以本征向量為基底的本征空間，求得該本征空間內(nèi)投影座標的第二投影步驟；分別比較就手形圖像求得的投影座標和就輸入手形圖像求得的投影座標，求得與輸入手形圖像最為接近的手形圖像的比較步驟；以及輸出最為接近的手形圖像的形狀信息和所述姿勢信息的步驟。
如上所述，按照第十四方面，從具有種種手形和手勢的多幅手圖像和為識別對象的輸入手圖像兩者當中消除手腕區(qū)域，因而可以比單純的大小和亮度歸一化更為精密地對手圖像進行歸一化。因此，將基于本征空間的方法用于手形和手勢識別，也能夠得到精度足夠高的結果。
而且，將基于本征空間的方法用于手形和手勢識別，并利用對伸展手指個數(shù)計數(shù)等幾何特征的方法，對幾何特征難以處理的更為復雜的手形也能夠識別。
第十五方面為對光學讀取手段所取得的手的圖像進行手形和手勢識別的方法，其特征在于，包括輸入預先對種種形狀和姿勢的手進行攝像得到的多個圖像，并分別生成該圖像消除手腕區(qū)域后預先確定的圖像形態(tài)經(jīng)過歸一化的手形圖像的第一歸一化步驟；進行本征空間法的解析，根據(jù)手形圖像分別計算本征值和本征向量的解析步驟；將手形圖像投影至以本征向量為基底的本征空間，分別求得該本征空間內(nèi)投影座標的第一投影步驟；通過群集分析分別將投影座標分組，求得各手形圖像屬于哪一群集和與各群集相關的統(tǒng)計信息的分析步驟；將輸入手圖像輸入，生成該輸入圖像消除手腕區(qū)域后按與手形圖像為同類圖像形態(tài)那樣經(jīng)過歸一化的輸入手形圖像的第二歸一化步驟；將輸入手形圖像投影至以本征向量為基底的本征空間，求得該本征空間內(nèi)投影座標的第二投影步驟；分別比較就輸入手形圖像求得的投影座標和統(tǒng)計信息，求得最為接近的群集的判別步驟；分別比較屬于最近似群集的手形圖像和輸入手形圖像，求得與該輸入手形圖像最為接近的手形圖像的比較步驟；以及輸出最為接近的手形圖像的形狀信息和姿勢信息的步驟。
如上所述，按照第十五方面，通過本征空間內(nèi)的群集分析對多個手形圖像分組，識別輸入手圖像時，先求得屬于哪一分組，再求得與該分組內(nèi)的哪一手形圖像最為接近。因此，可以減少圖像比較次數(shù)，從而更為高速地進行處理。存在不同形狀但近似的圖像時也能夠正確地求得手形和手勢。
第十六方面為從屬于第十五方面的手形手勢識別方法，其特征在于，比較步驟包括下列步驟比較屬于判別步驟求得的群集的手形圖像和第二歸一化步驟生成的輸入手形圖像時，按同一群集內(nèi)的同一形狀對手形圖像進行分組的步驟；求得表現(xiàn)分組的統(tǒng)計量的步驟；以及計算輸入手形圖像和統(tǒng)計量之間距離，輸出屬于最為接近分組的形狀的步驟。
如上所述，按照第十六方面，在第十五方面中不需要輸出到姿勢的場合，能夠比識別姿勢和形狀兩者的場合更為正確地求得手形。
第十七方面為從屬于第十五方面的手形手勢識別方法，其特征在于，分析步驟根據(jù)針對各群集的手形圖像和形狀信息，分別計算用以判別各手形圖像的部分區(qū)域，比較步驟，比較屬于判別步驟求得的群集的手形圖像和第二歸一化步驟生成的輸入手形圖像時，僅對與群集相對應的部分區(qū)域內(nèi)進行比較。
如上所述，按照第十七方面，在第十五方面中預先確定用以判別圖像的部分區(qū)域，僅在該部分區(qū)域內(nèi)比較手形圖像和輸入手形圖像。因此，與第十五方面相比，可以減少圖像比較次數(shù)，并且在對為識別對象的手的圖像進行識別時，即便存在不同形狀但近似的圖像場合，也能夠正確且高速地求得手形和手勢。
第十八方面為從屬于第十五方面的手形手勢識別方法，其特征在于，輸入手圖像為從多個視點對識別對象手進行攝像得到的多個圖像時，第二歸一化步驟分別就多個輸入手圖像生成輸入手形圖像，第二投影步驟所述第二歸一化步驟生成的多個輸入手形圖像，分別求得本征空間內(nèi)的投影座標，判別步驟比較第二投影步驟求得的各投影座標和統(tǒng)計信息，來分別求得最為接近的群集，比較步驟綜合判別步驟求得的多個最為接近的群集，根據(jù)屬于各群集的手形圖像的形狀信息和姿勢信息推定不矛盾的形狀·姿勢。
如上所述，按照第十八方面，在第十五方面中根據(jù)從多個視點攝像得到的輸入手圖像求得的群集，綜合最為接近的群集，求得輸入手圖像的形狀和姿勢。因此，即便是形狀和姿勢無法僅憑1方向上的圖像確定的場合，也能夠正確求得手形和手勢。
第十九方面為對光學讀取手段所取得的進行一系列具有含義動作的連續(xù)的手的圖像其含義進行識別的方法，其特征在于，包括輸入預先對種種形狀和姿勢的手進行攝像得到的多個圖像，并分別生成該圖像消除手腕區(qū)域后預先確定的圖像形態(tài)經(jīng)過歸一化的手形圖像的第一歸一化步驟；進行本征空間法的解析，根據(jù)手形圖像分別計算本征值和本征向量的解析步驟；將手形圖像投影至以本征向量為基底的本征空間，分別求得該本征空間內(nèi)投影座標的第一投影步驟；通過群集分析分別將投影座標分組，求得各手形圖像屬于哪一群集和與各群集相關的統(tǒng)計信息的分析步驟；將手勢動作圖像輸入，從該手勢動作圖像的各個圖像當中分別檢出手區(qū)域的檢出步驟；在所述檢出的手區(qū)域中分別求得手勢動作圖像的手活動，按照手活動求得手動作分節(jié)節(jié)點的分節(jié)步驟；根據(jù)手勢動作圖像中為手動作分節(jié)節(jié)點的圖像，將檢出的手區(qū)域部分截取的截取步驟；對從手勢動作圖像當中截取的手圖像序列，分別生成該手圖像消除手腕區(qū)域后按與手形圖像為同類圖像形態(tài)那樣經(jīng)過歸一化的輸入手形圖像的第二歸一化步驟；將輸入手形圖像投影至以本征向量為基底的本征空間，分別求得該本征空間內(nèi)投影座標的第二投影步驟；分別比較就輸入手形圖像求得的投影座標和統(tǒng)計信息，求得最為接近的群集，分別輸出規(guī)定該群集的符號的判別步驟；
將所判別的所述手圖像序列對應的符號序列與該手圖像序列之源的手勢動作圖像的含義一起存儲的步驟；以及識別所輸入的手勢動作圖像時，根據(jù)所存儲的符號序列及其含義，輸出所判別的符號序列相應含義的識別步驟。
如上所述，按照第十九方面，對于手勢詞語或手語詞語等這種具有一系列含義的手勢動作圖像，預先將為手動作分節(jié)點的圖像其群集序列與其含義一起存儲，識別手勢動作圖像時，根據(jù)所求得的群集序列輸出所存儲的含義。因此，對于手勢詞語或手語詞語等這種具有一系列含義的動作，能夠進一步減少誤識別，正確地求得含義。
第二十方面為從屬于第十九方面的手形手勢識別方法，其特征在于，還包括將手勢動作圖像輸入，根據(jù)該圖像動作主體的活動和位置輸出候選含義的認識步驟；以及根據(jù)具有一系列含義的動作，預先存儲約束條件以限制所輸入的手勢動作圖像含義的存儲步驟，識別步驟按照約束條件，并根據(jù)所存儲的符號序列及其含義輸出所判別的符號序列相應的含義。
如上所述，按照第二十方面，在第十九方面中根據(jù)手總體動作特征，并進一步增加約束條件，導出手勢動作圖像的含義。因此可以減少手勢動作圖像的誤識別。
第二十一和第二十二方面為從屬于第十九、第二十方面的手形手勢識別方法，其特征在于，檢出步驟包括以下步驟從所輸入的手勢動作圖像的各個圖像當中分別截取作為候選手區(qū)域的區(qū)域的截取步驟；存儲屏蔽區(qū)域以便從矩形區(qū)域當中取出為候選手圖像的區(qū)域的存儲步驟；從手勢動作圖像當中截取的候選手區(qū)域這一區(qū)域，增加屏蔽區(qū)域，接下來分別生成與計算本征向量時所用的手圖像為同類圖像形態(tài)那樣經(jīng)過歸一化的圖像的歸一化步驟；將候選手區(qū)域的區(qū)域經(jīng)歸一化的圖像投影至以本征向量為基底的本征空間，分別求得該本征空間內(nèi)投影座標的投影步驟；分別比較投影座標和統(tǒng)計信息，求得最為接近的群集，分別輸出一評價值以表明規(guī)定該群集的符號和比較對象群集之間接近度的判別步驟；以及根據(jù)評價值，輸出評價值最高的候選手區(qū)域其位置信息和其群集的確定步驟。
如上所述，按照第二十一和第二十二方面，在第十九、第二十方面中檢出手區(qū)域時將手區(qū)域候選區(qū)域投影至本征空間，通過求得相應群集來檢出手區(qū)域。因此，檢出手區(qū)域的同時可以求得該手區(qū)域的相應群集，因而能夠將手區(qū)域和手形手勢識別，或者將手區(qū)域和手勢動作識別處理綜合成為一項處理。
第二十三至第二十五方面為從屬于第十四、第十五、第十九方面的手形手勢識別方法，其特征在于，第一歸一化步驟和第二歸一化步驟分別包括以下步驟預先按色分布存儲所輸入的手圖像中應提取的手區(qū)域的色存儲步驟；按照色分布，從所輸入的手圖像當中提取手區(qū)域的步驟；求得手腕方向，按照該手腕方向從手區(qū)域當中消除手腕區(qū)域的步驟；使消除手腕區(qū)域的手區(qū)域移動至圖像上預先定義的位置的步驟；求得旋轉角使手區(qū)域內(nèi)的手朝向預定的一定方向的步驟；按照旋轉角，旋轉手區(qū)域使手朝向一定方向的步驟；以及將旋轉的手區(qū)域的大小歸一化為預定的一定大小的步驟。
如上所述，按照第二十三至第二十五方面，在第十四、第十五、第十九方面中對手圖像歸一化時，不僅消除手腕區(qū)域，還按膚色提取手區(qū)域。因此，可以從通常自然背景下攝像得到的手圖像當中提取手區(qū)域，進而能夠正確識別手形和手勢。
第二十六方面為從屬于第十四方面的手形手勢識別方法，其特征在于，還包括分別存儲形狀信息和姿勢信息所對應的命令的命令存儲步驟；以及將輸出步驟所輸出的形狀信息和姿勢信息輸入，從命令存儲步驟取得并輸出該形狀信息和該姿勢信息所對應的命令的步驟。
如上所述，按照第二十六方面，可以使第十四方面的方法起到一控制界面的作用，以按照所求得的手形和手勢對其他設備進行控制。
第二十七方面為一種記錄媒體，所記錄的程序用以在計算機裝置中執(zhí)行對光學讀取手段所取得的手的圖像進行手形和手勢識別的方法，其特征在于，所記錄的程序用以在計算機裝置上實現(xiàn)一工作環(huán)境，它包括下列步驟輸入預先對種種形狀和姿勢的手進行攝像得到的多個圖像，并分別生成該圖像消除手腕區(qū)域后預先確定的圖像形態(tài)經(jīng)過歸一化的手形圖像的第一歸一化步驟；進行本征空間法的解析，根據(jù)手形圖像分別計算本征值和本征向量的解析步驟；將手形圖像投影至以本征向量為基底的本征空間，分別求得該本征空間內(nèi)投影座標的第一投影步驟；將輸入手圖像輸入，生成該輸入圖像消除手腕區(qū)域后按與手形圖像為同類圖像形態(tài)那樣經(jīng)過歸一化的輸入手形圖像的第二歸一化步驟；將輸入手形圖像投影至以本征向量為基底的本征空間，求得該本征空間內(nèi)投影座標的第二投影步驟；分別比較就手形圖像求得的投影座標和就輸入手形圖像求得的投影座標，求得與輸入手形圖像最為接近的手形圖像的比較步驟；以及輸出最為接近的手形圖像的形狀信息和姿勢信息的步驟。
第二十八方面為一種記錄媒體，所記錄的程序用以在計算機裝置中執(zhí)行對光學讀取手段所取得的手的圖像進行手形和手勢識別的方法，其特征在于，所記錄的程序用以在計算機裝置上實現(xiàn)一工作環(huán)境，它包括下列步驟輸入預先對種種形狀和姿勢的手進行攝像得到的多個圖像，并分別生成該圖像消除手腕區(qū)域后預先確定的圖像形態(tài)經(jīng)過歸一化的手形圖像的第一歸一化步驟；進行本征空間法的解析，根據(jù)手形圖像分別計算本征值和本征向量的解析步驟；將手形圖像投影至以本征向量為基底的本征空間，分別求得該本征空間內(nèi)投影座標的第一投影步驟；通過群集分析分別將投影座標分組，求得各手形圖像屬于哪一群集和與各群集相關的統(tǒng)計信息的分析步驟；將輸入手圖像輸入，生成該輸入圖像消除手腕區(qū)域后按與手形圖像為同類圖像形態(tài)那樣經(jīng)過歸一化的輸入手形圖像的第二歸一化步驟；將輸入手形圖像投影至以本征向量為基底的本征空間，求得該本征空間內(nèi)投影座標的第二投影步驟；分別比較就輸入手形圖像求得的投影座標和統(tǒng)計信息，求得最為接近的群集的判別步驟；分別比較屬于最近似群集的手形圖像和輸入手形圖像，求得與該輸入手形圖像最為接近的手形圖像的比較步驟；以及輸出最為接近的手形圖像的形狀信息和姿勢信息的步驟。
第二十九方面為從屬于第二十八方面的記錄媒體，其特征在于，比較步驟包括下列步驟比較屬于判別步驟求得的群集的手形圖像和第二歸一化步驟生成的輸入手形圖像時，按同一群集內(nèi)的同一形狀對手形圖像進行分組的步驟；求得表現(xiàn)分組的統(tǒng)計量的步驟；以及計算輸入手形圖像和統(tǒng)計量之間距離，輸出屬于最為接近分組的形狀的步驟。
第三十方面為從屬于第二十八方面的記錄媒體，其特征在于，分析步驟根據(jù)針對各群集的手形圖像和形狀信息，分別計算用以判別各手形圖像的部分區(qū)域，比較步驟，比較屬于判別步驟求得的群集的手形圖像和第二歸一化步驟生成的輸入手形圖像時，僅對與群集相對應的部分區(qū)域內(nèi)進行比較。
第三十一方面為從屬于第二十八方面的記錄媒體，其特征在于，輸入手圖像為從多個視點對識別對象手進行攝像得到的多個圖像時，第二歸一化步驟分別就多個輸入手圖像生成輸入手形圖像，第二投影步驟對于第二歸一化步驟生成的多個輸入手形圖像，分別求得本征空間內(nèi)的投影座標，判別步驟比較第二投影步驟求得的各投影座標和統(tǒng)計信息，來分別求得最為接近的群集，比較步驟綜合判別步驟求得的多個最為接近的群集，根據(jù)屬于各群集的手形圖像的形狀信息和姿勢信息推定不矛盾的形狀·姿勢。
第三十二方面為一種記錄媒體，所記錄的程序用以在計算機裝置中執(zhí)行對光學讀取手段所取得的進行一連串有含義動作的連續(xù)手圖像進行手形和手勢識別的方法，其特征在于，所記錄的程序用以在計算機裝置上實現(xiàn)一工作環(huán)境，它包括下列步驟輸入預先對種種形狀和姿勢的手進行攝像得到的多個圖像，并分別生成該圖像消除手腕區(qū)域后預先確定的圖像形態(tài)經(jīng)過歸一化的手形圖像的第一歸一化步驟；進行本征空間法的解析，根據(jù)手形圖像分別計算本征值和本征向量的解析步驟；將手形圖像投影至以本征向量為基底的本征空間，分別求得該本征空間內(nèi)投影座標的第一投影步驟；通過群集分析分別將投影座標分組，求得各手形圖像屬于哪一群集和與各群集相關的統(tǒng)計信息的分析步驟；將手勢動作圖像輸入，從該手勢動作圖像的各個圖像當中分別檢出手區(qū)域的檢出步驟；在檢出的手區(qū)域中分別求得手勢動作圖像的手活動，按照手活動求得手動作分節(jié)節(jié)點的分節(jié)步驟；根據(jù)手勢動作圖像中為手動作分節(jié)節(jié)點的圖像，將檢出的手區(qū)域部分截取的截取步驟；對從手勢動作圖像當中截取的手圖像序列，分別生成該手圖像消除手腕區(qū)域后按與手形圖像為同類圖像形態(tài)那樣經(jīng)過歸一化的輸入手形圖像的第二歸一化步驟；將輸入手形圖像投影至以本征向量為基底的本征空間，分別求得該本征空間內(nèi)投影座標的第二投影步驟；分別比較就輸入手形圖像求得的投影座標和統(tǒng)計信息，求得最為接近的群集，分別輸出規(guī)定該群集的符號的判別步驟；將所判別的手圖像序列對應的符號序列與該手圖像序列之源的手勢動作圖像的含義一起存儲的步驟；以及識別所輸入的手勢動作圖像時，根據(jù)所存儲的符號序列及其含義，輸出所判別的符號序列相應含義的識別步驟。
第三十三方面為從屬于第三十二方面的記錄媒體，其特征在于，還包括將手勢動作圖像輸入，根據(jù)該圖像動作主體的活動和位置輸出候選含義的認識步驟；以及根據(jù)具有一系列含義的動作，預先存儲約束條件以限制所輸入的手勢動作圖像含義的存儲步驟，識別步驟按照約束條件，并根據(jù)所存儲的符號序列及其含義輸出所判別的符號序列相應的含義。
第三十四和第三十五方面為從屬于第三十二、第三十三方面的記錄媒體，其特征在于，檢出步驟包括以下步驟從所輸入的手勢動作圖像的各個圖像當中分別截取作為候選手區(qū)域的區(qū)域的截取步驟；存儲屏蔽區(qū)域以便從矩形區(qū)域當中取出為候選手圖像的區(qū)域的存儲步驟；從手勢動作圖像當中截取的候選手區(qū)域這一區(qū)域，增加屏蔽區(qū)域，接下來分別生成與計算本征向量時所用的手圖像為同類圖像形態(tài)那樣經(jīng)過歸一化的圖像的歸一化步驟；將候選手區(qū)域的區(qū)域經(jīng)歸一化的圖像投影至以本征向量為基底的本征空間，分別求得該本征空間內(nèi)投影座標的投影步驟；分別比較投影座標和統(tǒng)計信息，求得最為接近的群集，分別輸出一評價值以表明規(guī)定該群集的符號和比較對象群集之間接近度的判別步驟；以及根據(jù)評價值，輸出評價值最高的候選手區(qū)域其位置信息和其群集的確定步驟。
第三十六至第三十八方面為從屬于第二十七、第二十八、第三十二方面的記錄媒體，其特征在于，第一歸一化步驟和第二歸一化步驟分別包括以下步驟預先按色分布存儲所輸入的手圖像中應提取的手區(qū)域的色存儲步驟；按照色分布，從所輸入的手圖像當中提取手區(qū)域的步驟；求得手腕方向，按照該手腕方向從手區(qū)域當中消除手腕區(qū)域的步驟；使消除手腕區(qū)域的手區(qū)域移動至圖像上預先定義的位置的步驟；求得旋轉角使手區(qū)域內(nèi)的手朝向預定的一定方向的步驟；按照旋轉角，旋轉手區(qū)域使手朝向一定方向的步驟；以及將旋轉的手區(qū)域的大小歸一化為預定的一定大小的步驟。
第三十九方面為從屬于第三十方面的記錄媒體，其特征在于，還包括分別存儲形狀信息和姿勢信息所對應的命令的命令存儲步驟；以及將輸出步驟所輸出的形狀信息和姿勢信息輸入，從命令存儲步驟取得并輸出該形狀信息和該姿勢信息所對應的命令的步驟。
綜上所述，第二十七至第三十九方面，為記錄用以執(zhí)行上述第十四至第二十六方面手形手勢識別方法的程序的記錄媒體。對于現(xiàn)有裝置，這適應用軟件形式提供上述第十四至第二十六方面的手形手勢識別方法。
附圖簡要說明

圖1是表示本發(fā)明第一實施例手形手勢識別裝置構成的框圖。
圖2是圖1中手圖像歸一化部11所進行處理的概要說明圖。
圖3示出的是一例圖1中手形圖像信息存儲部12A所具有的存儲表。
圖4是一例在本征空間計算部13中求本征空間的方法的概要說明圖。
圖5是圖1中本征空間投影部15所進行處理的概要說明圖。
圖6示出的是一例用以實現(xiàn)本發(fā)明第一實施例手形手勢識別裝置的硬件構成。
圖7示出的是一例在存儲針對形狀信息和姿勢信息的命令的命令存儲部中存儲針對音頻設備的命令的情形。
圖8是表示本發(fā)明第二實施例手形手勢識別裝置構成的框圖。
圖9示出的是一例圖8中手形圖像信息存儲部12B所具有的存儲表。
圖10是示出一例圖8中群集分析部16所進行處理的流程圖。
圖11示出的是一例圖8中圖像比較部26所進行的比較方法的概念。
圖12是表示本發(fā)明第三實施例手形手勢識別裝置構成的框圖。
圖13示出的是一例由圖8中群集分析部16分類為同一分組的近似圖像。
圖14示出的是一例圖12中群集分析/框判別部18所進行的處理概念。
圖15是本發(fā)明第四實施例手形手勢識別裝置一例根據(jù)多臺攝像機的輸入手圖像求得手形圖像這一概念的說明圖。
圖16是表示本發(fā)明第五實施例手形手勢識別裝置構成的框圖。
圖17示出的是圖16中手區(qū)域檢出部28、手動作分節(jié)部29和手圖像截取部30所進行的處理概念。
圖18示出的是一例圖16中手圖像序列和根據(jù)該手圖像序列求得的群集序列。
圖19示出的是一例圖16中序列識別詞典32所具有的存儲形式。
圖20示出的是一例圖16中序列識別詞典32所具有的存儲形式。
圖21是表示本發(fā)明第六實施例手形手勢識別裝置構成的框圖。
圖22示出的是一例圖21中手形圖像信息存儲部12C所具有的存儲表。
圖23是一例手勢定義方法的概要說明圖。
圖24是表示本發(fā)明第七實施例手形手勢識別裝置構成的框圖。
圖25是表示本發(fā)明第八實施例手形手勢識別裝置其手區(qū)域檢出部具體構成的框圖。
圖26示出的是一例圖25中候選區(qū)域截取部39的處理。
圖27示出的是圖25中圖像歸一化部41的處理概要。
圖28示出的是一例圖25中屏蔽區(qū)域存儲部40所存儲的屏蔽區(qū)域。
圖29是表示本發(fā)明第九實施例手形手勢識別裝置其手區(qū)域檢出部具體構成的框圖。
圖30示出的是一例圖29中群集變遷信息存儲部43所存儲的群集變遷信息。
圖31示出的是一例圖29中屏蔽區(qū)域存儲部45所存儲的屏蔽區(qū)域。
圖32是表示本發(fā)明第十實施例手形手勢識別裝置其手圖像歸一化部11、12更具體構成的框圖。
圖33示出的是一例圖32中色分布存儲部61所具有的存儲表結構。
圖34是圖32中旋轉角計算部65所進行處理的概要說明圖。
圖35是一例圖32中手指特征強化部68所進行處理的說明圖。
圖36示出的是本發(fā)明第十一實施例手形手勢識別裝置中一例根據(jù)多臺攝像機的輸入手圖像求得手方向進行歸一化的概念。
圖37是一例手勢定義方法的概要說明圖。
較佳實施例的說明在說明本發(fā)明各實施例之前，下面先就說明過程中用到的“手形”和“手勢”這類用語進行定義。
人們按手勢或手語等讓手具有某些含義進行提示時，包含由手指與手掌的關節(jié)曲角所確定的手形態(tài)(例如“石頭(グ-)”、“剪刀(チヨキ)”、“布(パ-)”等)；以及手腕和腕關節(jié)所確定的手方向(例如手指指示方向等)這2種含義。因此，本發(fā)明各實施例說明中，將手指與手掌的關節(jié)曲角所確定的手形態(tài)稱為“手形”，手腕和腕關節(jié)所確定的手方向稱為“手勢”。
這里，嚴格定義手勢時，可按例如圖37那樣定義。
首先，在具有表示某種形狀的手的3維空間中，定義一局部座標系i，以手的手腕剖面中心延伸至中指尖端中心的方向為Xi軸(掌主軸)，以與Xi軸正交并相對于手平面垂直的方向為Yi軸，以與Xi軸和Yi軸兩者正交的方向為Zi軸(圖37(a))。另一方面預先設定攝像機中攝取手圖像進行投影的攝像機座標系c(Xc軸、Yc軸、Zc軸；另外各軸相互正交)(圖37(b))。另外，下面將攝像機座標系c中Zc軸表現(xiàn)為光軸。
而且，對于攝像機座標系c上投影的手圖像，將手局部座標系i各軸和攝像機座標系c各軸之間的差定義如下(圖37(c))θ以Xc軸為中心的旋轉角度φXc軸-Zc軸平面上的旋轉角度ΨXc軸-Yc軸平面上的旋轉角度利用這些旋轉角度θ、φ、Ψ定義手勢。
另外，手勢的表現(xiàn)能夠這樣嚴格定義，但例如也能利用“相對于攝像機朝向正面、相對于攝像機朝向左面”等定性表現(xiàn)來定義手平面相對于攝像機如何傾斜。本發(fā)明無論哪一種情形都能適應，下面所示各實施例中為了清楚和便于說明，舉例說明用定性表現(xiàn)定義姿勢的情形。
下面參照附圖具體說明本發(fā)明各實施例。
(第一實施例)本發(fā)明第一實施例提供的是，依據(jù)本征空間法對具有預先存儲的種種手形和手勢的多個圖像和作為所輸入的識別對象的手圖像進行識別時，通過從所準備的手圖像當中消除手腕區(qū)域進行歸一化，對形狀更為復雜的手圖像也進行手形和手勢識別的裝置和方法。
圖1是示意本發(fā)明第一實施例手形手勢識別裝置構成的框圖。圖1中，第一實施例的手形手勢識別裝置由存儲部架構體系1和姿勢·形狀識別體系2構成。
存儲部架構體系1預先架構根據(jù)顯示種種手形和手勢的多個手形圖像及其形狀信息和姿勢信息進行識別所需的信息。姿勢·形狀識別體系2對所輸入的為識別對象的手的圖像(以下稱為輸入手圖像)，利用存儲部架構體系1所架構的存儲部存儲的信息求得該輸入手圖像的手形和手勢。
先分別說明存儲部架構體系1和姿勢·形狀識別體系2的各個構成。圖1中，存儲部架構體系1包括手圖像歸一化部11、手形圖像信息存儲部12A、本征空間計算部13、本征向量存儲部14以及本征空間投影部15。姿勢·形狀識別體系2包括手圖像歸一化部21、本征空間投影部22、手形圖像選擇部23以及形狀·姿勢輸出部24。
手圖像歸一化部11，輸入具有種種手形和手勢的多個手圖像，分別生成該手圖像消除手腕區(qū)域并實行預定的歸一化的手形圖像。手形圖像信息存儲部12A將手圖像歸一化部11生成的多個手形圖像與另外提供的該手形圖像的形狀信息和姿勢信息、將手形圖像投影到本征空間的本征空間投影座標一起分別存儲。本征空間計算部13根據(jù)手形圖像信息存儲部12A存儲的手形圖像進行本征空間法解析，求得本征值和本征向量。這里，對于本征空間計算部13進行的本征空間解析方法，可考慮例如根據(jù)手形圖像信息存儲部12A存儲的手形圖像進行主成分分析求得本征空間的方法，根據(jù)手形圖像信息存儲部12A存儲的手形圖像和形狀信息進行判別分析、再根據(jù)其分析結果求得手形判別空間的方法等各種方法，第一實施例中用前面的方法說明以下動作。本征向量存儲部14存儲本征空間計算部13求得的本征向量。本征空間投影部15將手形圖像信息存儲部12A存儲的手形圖像投影到以本征向量存儲部14存儲的本征向量為基底的本征空間，求得該本征空間內(nèi)的投影座標，存儲于手形圖像信息存儲部12A。
手圖像歸一化部21將輸入手圖像輸入，生成從該輸入手圖像當中消除手腕區(qū)域并實行預定的歸一化使得該輸入圖像與手形圖像信息存儲部12A預先存儲的手形圖像為同等的輸入手形圖像。本征空間投影部22將手圖像歸一化部21生成的輸入手形圖像投影到以本征向量存儲部14存儲的本征向量為基底的本征空間，求得該本征空間內(nèi)的投影座標。手形圖像選擇部23比較本征空間投影部22求得的投影座標和手形圖像信息存儲部12A預先存儲的本征空間投影座標，求得與輸入手形圖像最為接近的手形圖像。形狀·姿勢輸出部24輸出手形圖像選擇部23求得的最為接近的手形圖像的形狀信息和姿勢信息。
接著，利用圖2～圖5按處理順序說明第一實施例手形手勢識別裝置進行的手形/手勢識別方法。圖2是圖1中手圖像歸一化部11所進行處理的概要說明圖。圖3示出的是圖1中手形圖像信息存儲部12A所具有的一例存儲表。圖4是圖1中本征空間計算部13中一例求得本征空間的方法的概要說明圖。另外，圖4中記載為一例用上述主成分分析辦法的情形。圖5是圖1中本征空間投影部15中求得本征空間投影座標的辦法的概要說明圖。
首先說明存儲部架構體系1所進行的處理。
存儲部架構體系1如上所述，用具有種種手形和手勢的多個手圖像，預先架構用來與輸入至姿勢·形狀識別體系2的輸入手圖像相比較的手形圖像。這里，存儲部架構體系1對手圖像進行歸一化，以求得對手形圖像的本征空間。
參照圖2，手圖像歸一化部11先根據(jù)所給的手圖像求得手腕方向(圖2(b))。接下來，手圖像歸一化部11從手腕一側端部向手掌一側沿手腕與背景之間的邊界線拉一直線，求得與該直線距離達到預定的閾值以上的位置點作為手腕區(qū)域的終點(手腕截取點)(圖2(c))。接著，手圖像歸一化部11從手圖像當中消除一直到手腕截取點的手腕區(qū)域(圖2(d))。接下來，手圖像歸一化部11從消除手腕區(qū)域的圖像當中只取出手部分，并旋轉使手腕—中指方向朝向某一一定方向(圖2(e))。另外，本實施例中，其一定方向假定為正下方。接著，手圖像歸一化部11通過將經(jīng)過旋轉的手圖像其大小和整體亮度歸一化為預定值來生成手形圖像(圖2(f))，將表示該手形圖像手指狀態(tài)的形狀信息(圖2例子中有3根伸展手指)和表示手形圖像手掌朝向的姿勢信息(圖2例子中手掌方向朝向后方)，存儲于手形圖像信息存儲部12A。另外，圖2例子中，采用的是用語言表現(xiàn)姿勢信息的方式，但其他均用相對于光軸的角度來表現(xiàn)也行。手圖像歸一化部11對具有種種手形和手勢的多個手圖像分別進行上述歸一化處理，并如圖3所示將多個手形圖像存儲于手形圖像信息存儲部12A。另外，手形圖像信息存儲部12A中的本征空間投影座標，存儲的是本征空間投影部15求得的結果，因而此時什么也不存儲。
接下來，本征空間計算部13求得手形圖像信息存儲部12A存儲的各個手形圖像的本征空間。
參照圖4，本征空間計算部13先求得手形圖像信息存儲部12A存儲的全部手形圖像的平均圖像c(步驟S1)。接下來，本征空間計算部13就每一手形圖像，對由手形圖像減去平均圖像c得到的圖像進行光柵掃描，用1維向量表現(xiàn)(步驟S2)，求得將全部圖像的1維向量排列成列向量的矩陣A(步驟S3)。接著，本征空間計算部13根據(jù)矩陣A求得圖像集合的協(xié)方差矩陣Q(步驟S4)，求得該協(xié)方差矩陣Q的本征值和本征向量(步驟S5)。最后，本征空間計算部13求得以預先另行定義的k個大小本征值所對應的本征向量(e1，e2，…，ek)為基底向量的本征空間(步驟S6)。
本征空間計算部13通過以上處理計算本征空間基底向量，并在本征向量存儲部14中存儲本征向量的集合。
接下來，本征空間投影部15對手形圖像信息存儲部12A存儲的各個手形圖像，求得將各個手形圖像投影到本征空間得到的本征空間投影座標。
參照圖5，本征空間投影部15就手形圖像信息存儲部12A存儲的每一手形圖像，對圖像進行光柵掃描，求得1維向量，將該1維向量與本征向量存儲部14存儲的本征向量相乘求得本征空間投影座標。而且，本征空間投影部15將這樣求得的各本征空間投影座標分別存儲于手形圖像信息存儲部12A。
通過以上處理，存儲部架構體系1中預先進行的處理結束，手形圖像信息存儲部12A和本征向量存儲部14A存儲有全部信息。
接著說明姿勢·形狀識別體系2進行的處理。
為識別對象的輸入手圖像，輸入至手圖像歸一化部21。手圖像歸一化部21對輸入手圖像，生成按照與手圖像歸一化部11相同辦法歸一化的輸入手形圖像。本征空間投影部22對手圖像歸一化部21生成的輸入手形圖像，與本征空間投影部15相同，利用本征向量存儲部14存儲的本征向量求得本征空間投影座標。接著，手形圖像選擇部23分別求得與本征空間投影部22求得的輸入手形圖像有關的本征空間投影座標同手形圖像信息存儲部12A預先存儲的各手形圖像其本征空間投影座標之間的距離(例如歐幾里德距離)，求得與輸入手形圖像最為接近的手形圖像。接下來，形狀·姿勢輸出部24輸出所求得的最為接近的手形圖像的形狀信息和姿勢信息。
以上結果，可同時求得輸入手圖像的手形和手勢。
另外，在典型的硬件環(huán)境中，上述第一實施例的手形手勢識別裝置可由存儲規(guī)定程序數(shù)據(jù)的存儲裝置(ROM、RAM、硬盤等)和CPU(中央處理單元)以及輸入輸出裝置所構成。圖6示出一例實現(xiàn)本第一實施例手形手勢識別裝置的硬件構成。
圖6中，存儲裝置50例如是硬盤等，具有手形圖像信息存儲部12A和本征向量存儲部14這種功能。CPU51是控制各部分動作的中央運算裝置。存儲器52在各部分動作時暫時保存數(shù)據(jù)。圖像輸入裝置53例如為視頻俘獲卡，輸入作為識別對象的輸入手圖像。輸入裝置54輸入具有種種手形和手勢的多個手形圖像及其形狀信息和姿勢信息。輸出裝置55則輸出表示所識別的手形和手勢的數(shù)據(jù)?？赏ㄟ^采取這些硬件構成來實現(xiàn)第一實施例的手形手勢識別裝置。另外，這種場合第一實施例手形手勢識別裝置所進行的各項處理，可按獨立的程序數(shù)據(jù)形式提供。該程序數(shù)據(jù)也可以通過CD-ROM或軟盤等記錄媒體導入。
而且，將上述第一實施例手形手勢識別裝置用作其他設備界面時，還可以增加具有以下功能的構成。這種構成是指存儲針對形狀信息和姿勢信息的命令的命令存儲部和輸出該命令的命令輸出部。命令存儲部存儲的是例如圖7所示的給形狀信息和姿勢信息所對應的其他設備的命令。圖7示出一例存儲針對音頻設備的命令的情形。而且，命令輸出部按照形狀·姿勢輸出部24求得的形狀信息·姿勢信息，從命令存儲部將形狀信息·姿勢信息所對應的命令輸出給其他設備。例如，圖7中形狀·姿勢輸出部24求得“伸展5根手指”這一形狀信息和“全姿勢”這一姿勢信息時，命令輸出部便輸出“啟動”音頻設備的命令。這樣，便能夠將上述第一實施例的手形手勢識別裝置用作其他設備的界面。
如上所述，利用本發(fā)明第一實施例的手形手勢識別裝置和識別方法的話，便從具有種種手形和手勢的多個手圖像和作為識別對象的輸入手圖像兩者當中消除手腕區(qū)域，因而與單純對大小和亮度進行歸一化相比，可以對手圖像進行更精細的歸一化。因此，即便將基于本征空間的辦法用于手形和手勢識別，也能夠獲得精度足夠高的結果。
而且，將基于本征空間的方法用于手形和手勢識別，并利用對伸展手指個數(shù)計數(shù)等幾何特征的方法，對幾何特征難以處理的更為復雜的手形也能夠識別。
此外還考慮到，比較多個手形圖像和輸入手形圖像時，對全部手形圖像進行比對的話，圖像數(shù)目較為龐大。但如本第一實施例那樣，通過對手圖像歸一化并投影至本征空間內(nèi)預先求得其投影座標，在其本征空間內(nèi)比較輸入手形圖像，與比較圖像本身相比，可以減少計算量，進行高速處理。因此，象顯示種種手形和手勢的多幅手形圖像那樣考慮龐大數(shù)量的手形圖像時，為非常實用的辦法。
另外，上述第一實施例中假定，存儲實際手圖像作為具有種種手形和手勢的多幅手形圖像，但還考慮由于某些原因無法攝取多個視點圖像的場合。例如識別手形時，手采取種種姿勢，因而需要預先準備按種種手勢提示的手圖像。將實際的手放在轉臺上進行攝像是不可能的，而且命令時要保持人所具有的姿勢，對其姿勢攝像時，對人們所展示姿勢的精度來說有限制，因而實際考慮需要準備在包圍手的形式下進行攝像的特殊器材。因此，通過預先準備手模型作為CAD或CG等用到的三維模型，存儲該模型的多個視點投影像，可以定義更高精度的手形圖像和此時手形手勢之間的關系。而且，用人體模型等所用的那種實際手模型等，也能夠進行同樣的定義。另外，本第一實施例中，不論準備三維模型投影像還是準備實際手圖像，均能夠利用完全相同的構成和方法來實現(xiàn)。
而且，上述第一實施例基本上是輸出一種手形手勢的，但由于圖像分辨率等關系、而無法區(qū)別格外近似等場合，有時不會集中為一種。此時，還可考慮輸出多個候選手形和候選手勢。此時，也能夠利用與上述第一實施例完全相同的構成和方法來實現(xiàn)。此外，上述第一實施例對手形圖像和輸入手形圖像兩者均假定是濃淡圖像，但這些圖像無論是輪廓圖像還是彩色圖像，均能夠利用與上述第一實施例完全相同的構成和方法來實現(xiàn)。
(第二實施例)一般對給定手形和手勢的多幅手圖像進行分類時，可考慮按手形或按手勢分類。但為手圖像時可考慮“手形不同但近似的圖像(例如橫向觀察伸出1根或2根手指形狀的情形)”、“手勢不同但近似的圖像(例如握著的形狀)”。因此，若按照手形或手勢分類，大多數(shù)時候是不適合識別手形和手勢場合的。
因此，本發(fā)明第二實施例提供一種裝置和方法，在基于上述第一實施例中說明的本征空間法的手形手勢識別裝置和方法中，靠群集分析將手形圖像信息存儲部12A存儲的全部手形圖像的本征空間投影座標自動分組，提供作為識別對象的輸入手圖像時，通過先求得屬于哪一分組，再求得與該分組內(nèi)的哪一手形圖像接近，來減少比較次數(shù)進行高速處理。
圖8是表示本發(fā)明第二實施例手形手勢識別裝置構成的框圖。圖8中，第二實施例的手形手勢識別裝置與上述第一實施例的手形手勢識別裝置相同，由存儲部架構體系1和姿勢·形狀識別體系2所構成。
圖8中，存儲部架構體系1包括手圖像歸一化部11，手形圖像信息存儲部12B，本征空間計算部13，本征向量存儲部14，本征空間投影部15，群集分析部16和群集信息存儲部17A。姿勢·形狀識別體系2包括手圖像歸一化部21，本征空間投影部22，最近似群集判別部25，圖像比較部26和形狀·姿勢輸出部24。
如圖8所示，第二實施例的手形手勢識別裝置，與上述第一實施例的手形手勢識別裝置相比，存儲部架構體系1為用手形圖像信息存儲部12B替代手形圖像信息存儲部12A，再增加群集分析部16和群集信息存儲部17A的構成，姿勢·形狀識別體系2為用最近似群集判別部25和圖像比較部26替代手形圖像選擇部23的構成。
另外，第二實施例手形手勢識別裝置中的其他構成，與上述第一實施例手形手勢識別裝置的構成相同，對該構成加上相同標號，并省略其說明。
首先，圍繞與上述第一實施例不同的部分說明第二實施例中存儲部架構體系1和姿勢·形狀識別體系2各自構成。
手形圖像信息存儲部12B將手圖像歸一化部11生成的多個手形圖像與其形狀信息和姿勢信息以及手形圖像投影至本征空間的本征空間投影座標一起分別存儲。這里，手形圖像信息存儲部12B與上述第一實施例中說明的手形圖像信息存儲部12A不同，存儲的是對多個手形圖像自動群集化時的群集索引(以下稱為群集ID)。群集分析部16靠群集分析使手形圖像信息存儲部12B存儲的本征空間投影座標實現(xiàn)群集化，求得各手形圖像屬于哪一群集，在手形圖像信息存儲部12B中存儲定義群集的群集ID，同時求得與各群集有關的統(tǒng)計信息。群集信息存儲部17A存儲的是群集分析部16所求得的群集ID和統(tǒng)計信息。
最近似群集判別部25取得在本征空間投影部22所求得的本征空間投影座標中具有最為接近的投影座標的群集。圖像比較部26從屬于最近似群集判別部25所取得群集的、手形圖像信息存儲部12B存儲的手形圖像當中，求得與手圖像歸一化部21生成的輸入手形圖像最為接近的手形圖像。
接著，用圖9至圖11按處理順序說明第二實施例手形手勢識別裝置所進行的手形/手勢識別方法。圖9示出的是一例圖8中手形圖像信息存儲部12B具有的存儲表。圖10是表示一例圖8中群集分析部16所進行的處理步驟的流程圖。另外，圖10中舉例說明用群集分析之一方法的ISODATA法的情形。圖11示出的是一例圖8中圖像比較部26所進行的比較方法的概念。另外，圖11中舉例說明用單純的圖案比對的比較方法的情形。
先說明存儲部架構體系1所進行的處理。
手圖像歸一化部11與上述第一實施例相同，通過從給出種種姿勢的多個手圖像當中消除手腕區(qū)域進行歸一化，分別生成手形圖像，如圖9所示，在手形圖像信息存儲部12B中存儲多個手形圖像、形狀信息和姿勢信息。另外，對于手形圖像信息存儲部12B中本征空間投影座標和群集ID來說，存儲的是由本征空間投影部15和群集分析部16所求得的投影座標和群集ID，因而此時什么也沒有存儲。
接著，本征空間計算部13、本征向量存儲部14和本征空間投影部15與上述第一實施例相同，基于本征空間法求得本征空間，將手形圖像信息存儲部12B存儲的手形圖像投影至本征空間，在手形圖像信息存儲部12B中分別存儲靠投影求得的本征空間投影座標。
接下來，群集分析部16對手形圖像信息存儲部12B存儲的本征空間投影座標進行群集分析，并進行分組使手形圖像接近的本征空間投影座標分類為同一組。這種群集分析部16所進行的群集分析方法有單純的重置法(k-平均法)和ISODATA法等種種方法，這里舉例說明一例基于ISODATA法的群集化方法。
ISODATA法為非分層群集化中代表性方法，除了基于重置法的群集化以外，由群集分割和綜合手續(xù)組成。
參照圖10，群集分析部16先設定初始參數(shù)(步驟S101)。就初始參數(shù)來說，具有例如所說的最終群集數(shù)、重置收斂條件、微群集·孤立數(shù)據(jù)的判定條件、分裂·融合分支條件、重復計算的結束條件。接著，群集分析部16確定初始群集的中心(步驟S102)。該初始群集可以對手形圖像投影座標集合，適當選擇確定以初始群集為中心的圖像來替代。
接下來，群集分析部16靠重置法進行群集化。群集分析部16先計算本征空間內(nèi)各手形圖像和群集之間的距離，將各個圖像配置于距離最小的群集(步驟S103)。接著，群集分析部16按照重置的圖像的本征空間投影座標，再次計算各群集的中心(步驟S104)。接下來，群集分析部16判斷所屬群集改變的圖像數(shù)是否低于預先確定的閾值(收斂)(步驟S105)。該步驟S105的判斷中，若所屬群集改變的圖像數(shù)低于某一閾值的話，群集分析部16便結束基于重置法的群集化處理，否則返回上述步驟S103重復處理。
上述步驟S105判斷中，判定收斂時，群集分析部16便將個體數(shù)目明顯較少的群集和明顯偏離其他個體的個體從以后群集化當中除外(步驟S106)。接著，群集分析部16判斷群集數(shù)是否處于以最終群集數(shù)為中心的一定范圍內(nèi)，群集中心間距最小值是否低于預先確定的閾值(步驟S107)。該步驟S107判斷中，群集中心間距最小值低于預先確定的閾值時，群集分析部16便在群集信息存儲部17A中存儲各群集信息(群集ID、本征空間中群集的平均值、分散等統(tǒng)計信息)作為群集化是收斂的，在手形圖像信息存儲部12B中存儲表明各手形圖像屬于哪一群集的群集ID(步驟S108)。而上述步驟S107判斷中，群集中心間距最小值不低于預先確定的閾值時，群集分析部16對群集進行分裂或融合(步驟S109)。該步驟S109中，當群集數(shù)相對最終群集大得超過一定范圍時，群集分析部16便對群集進行分裂，而小得超過一定范圍時則進行融合。群集數(shù)處于一定范圍時，便重復次數(shù)為偶數(shù)時進行融合，而為奇數(shù)時則進行分裂。
群集分析部16在群集融合中，群集中心間距的最小值一旦低于預先確定的閾值，便將該群集對融合求得新的群集中心。接著，群集分析部16再度計算中心間距，繼續(xù)融合直到最小值超過閾值為止。
而群集分析部16在群集分裂中，群集分散的最大值一旦高于預先確定的閾值，便將該群集按第一主成分一分為二，計算新的群集中心和分散。重復分裂直到分散的最大值低于閾值為止。
接著，上述步驟S109的分裂或融合一旦結束，群集分析部16就再度返回步驟S103重復處理。
通過進行上述處理，群集分析便結束，在群集信息存儲部17A中存儲為各群集信息的群集ID、本征空間中群集的平均值、分散等統(tǒng)計信息，在手形圖像信息存儲部12B中存儲表明各手形圖像屬于哪一群集的群集ID。另外，對上述參數(shù)還可考慮根據(jù)試驗等隨時選擇最佳參數(shù)，但除此以外，還能夠按照某種信息量基準(例如AIC、MDL等)，指定最終群集數(shù)、群集的分割·綜合基準。另外，本實施例中說明的是基于ISODATA法的群集分析，但即便是單純的基于重置法的群集分析，通過適當設定閾值等參數(shù)也達到與ISODATA法相同的效果。
通過以上處理，存儲部架構體系1預先所進行的處理便結束，手形圖像信息存儲部12B、本征向量存儲部14和群集信息存儲部17A存儲全部信息。
接下來說明姿勢·形狀識別體系2所進行的處理。
為識別對象的輸入手圖像輸入至手圖像歸一化部21。手圖像歸一化部21和本征空間投影部22與上述第一實施例相同，求得歸一化的輸入手形圖像和本征空間投影座標。最近似群集判別部25求得本征空間投影部22所求得的本征空間投影座標和群集信息存儲部17A所存儲的群集信息之間距離，求得與輸入手形圖像最為接近的手形圖像屬于的群集。另外，對于求得最為接近的群集的方法來說，可考慮基于各群集平均的歐幾里德距離的方法，基于各群集的馬哈拉諾微絲(マハラノビス)距離的方法，靠最近似法求得與各群集近似度并將近似度最高的群集當作較近群集的方法等，但這里舉例說明靠最近似法求最近群集的方法。
最近似群集判別部25根據(jù)屬于群集信息存儲部17A中群集的圖像的本征空間投影座標u求得平均μ成為群集中心座標，作為群集的統(tǒng)計信息。此外，最近似群集判別部25根據(jù)各圖像的本征空間投影座標u和群集中心座標求得協(xié)方差矩陣∑，由這些數(shù)值按照下面式(4)定義與群集i有關的近似度函數(shù)Gi(u)。另外，下面式(4)中x2表示圖像的本征空間投影座標u和群集i之間的馬哈拉諾維絲距離。
Gi(u)＝-(1/2)ln|∑i|-(1/2)x2(u；μi，∑i)(4)可根據(jù)該近似度函數(shù)Gi(u)求得近似度最高的群集。
另外，除此以外的上述方法(基于歐幾里德距離的方法、基于馬哈拉諾維絲距離的方法)當中，在所登錄的形狀數(shù)較少的場合下可以達到相同效果。
接著，圖像比較部26參照手形圖像信息存儲部12B存儲的群集ID，將僅僅是屬于最近似群集判別部25所求得群集的手形圖像與手圖像歸一化部21生成的輸入手形圖像相比較，求得與輸入手形圖像最為接近的手形圖像。另外，圖像比較部26中所進行的輸入手形圖像和手形圖像之間的比較方法可有各種考慮，但用例如單純的圖像比對方法來比較即可。接著，形狀·姿勢輸出部24輸出圖像比較部26所求得的手形圖像的形狀信息和姿勢信息。
綜上所述，按照本發(fā)明第二實施例手形手勢識別裝置和識別方法，存儲部架構體系1中靠本征空間內(nèi)的群集分析使手形圖像信息存儲部12B存儲的多個手形圖像分組，姿勢·形狀識別體系2在識別輸入手圖像時，首先求得最初屬于哪一分組，接著求得與該分組內(nèi)哪一手形圖像最為接近，可以減少圖像比較次數(shù)，此外還能夠高速處理。
而在本征空間內(nèi)分組時，不是按手形或按手勢這樣分組，而是群集為在本征空間內(nèi)接近的圖像即近似的圖像為同一分組，因而即便存在形狀不同但近似的圖像的場合，也能夠正確地求得其手形和手勢。
另外，上述第二實施例中假定存儲實際手圖像作為給出種種手形和手勢的多個手形圖像，但與上述第一實施例相同，也可考慮預先準備手模型作為CAD或CG等所用到的三維模型，存儲該模型的多個視點的投影像。此時，可以高精度地定義取得投影像時模型的手勢。而且，即便采用人體模型等所用的那種實際的手模型，也能夠同樣定義。
此外，上述第二實施例基本上只輸出1種手形手勢，但由于圖像分辨率等關系，在沒有區(qū)別格外近似等情況下，很可能無法集中為1種。此時，也可考慮輸出多個候選手形和候選手勢。這時，也能利用與上述第二實施例完全相同的構成和方法來實現(xiàn)。此外，上述第二實施例為了對近似圖像分類而采用圖像比較部26，但也很可能有的足以根據(jù)情形輸出至手形為止。這時，也可通過按屬于群集的手形根據(jù)平均圖像或分散圖像等統(tǒng)計量求得手形圖像，并比較這些圖像和輸入手形圖像，只求得手形。而且利用硬件實現(xiàn)第二實施例手形手勢識別裝置時，用與上述圖6中所示的相同構成即可。
而且，上述第二實施例手形手勢識別裝置的圖像比較部26也可替換為具有如下組成部分的構成，包括將屬于最近似群集判別部25求得的群集的、手形圖像信息存儲部12B存儲的手形圖像與手形圖像歸一化部21生成的輸入手形圖像比較時，按同一群集內(nèi)同一手形對手形圖像分組的同一形狀分類部；求得表現(xiàn)分類的各個分組的統(tǒng)計量的形狀分組統(tǒng)計量計算部；以及計算輸入手形圖像和形狀分組統(tǒng)計量計算部求得的統(tǒng)計量之間距離，并輸出屬于最為接近分組的手形的最近似形狀判別部。這樣的話，便可以進一步減少圖像比較次數(shù)，能夠更加高速地處理。
(第三實施例)如上述第二實施例所述，所分析的各群集中不是將按手形或手勢分類的圖像，而是將近似圖像分類為同一群集。因而，例如圖13所示的食指和中指這2根手指并排豎立的手圖像同食指和中指這2根手指重疊豎立的手圖像分類為同一群集。這種手形差異存在例如實際區(qū)分手語中手指文字的情形。判別這些手形時，不是象上述第二實施例所述那樣判別圖像整體差異，而需要僅僅提取不同部分進行判別。
這里，本發(fā)明第三實施例所提供的不是上述第二實施例中圖像比較部26靠圖案比對直接整體地比較輸入手形圖形和手形圖像信息存儲部12B存儲的手形圖像，而是預先求得各群集中的判別框，在該判別框內(nèi)對手形進行判別的方法。
圖12是示出本發(fā)明第三實施例手形手勢識別裝置構成的框圖。圖12中，第三實施例的手形手勢識別裝置，與上述第二實施例的手形手勢識別裝置相同，由存儲部架構體系1和姿勢·形狀識別體系2構成。
圖12中，存儲部架構體系1包括手圖像歸一化部11、手形圖像信息存儲部12B、本征空間計算部13、本征向量存儲部14、本征空間投影部15、群集分析/框判別部18以及群集信息存儲部17B。姿勢·形狀識別體系2包括手圖像歸一化部21、本征空間投影部22、最近似群集判別部25、圖像比較部27以及形狀·姿勢輸出部24。
如圖12所示，第三實施例的手形手勢識別裝置與上述第二實施例的手形手勢識別裝置相比，為存儲部架構體系1中群集分析部16用群集分析/框判別部18替代，群集信息存儲部17A用群集信息存儲部17B替代，姿勢·形狀識別體系2中圖像比較部26用圖像比較部27替代的構成。
另外，第三實施例手形手勢識別裝置中其他構成與上述第二實施例手形手勢識別裝置的構成相同，對該構成加上相同標號，并省略其說明。
下面參照圖12和圖14，圍繞與上述第二實施例不同的部分說明第三實施例中存儲部架構體系1和姿勢·形狀識別體系2各自的構成和處理動作。圖14示出的是一例圖12中群集分析/框判別部18所進行的形狀判別框位置的算法。
群集分析/框判別部18先對手形圖像信息存儲部12B存儲的本征空間投影座標進行群集分析，對手形圖像相近的進行分組，使之分類為同一分組。這種處理與上述第一實施例中說明的群集分析部16相同。
接著，群集分析/框判別部18對各群集計算出形狀判別框的位置。參照圖14，群集分析/框判別部18先提取1個群集內(nèi)存在的同一手形的多個手形圖像并取平均，再求得各個手形的平均圖像。接著，群集分析/框判別部18利用預先確定的一定的框(框的形狀可任意確定。另外，圖14中用的是方框)，使框在各自的平均圖像上移動，同時依次求得框內(nèi)兩者平均圖像間之差，將最大差值的位置設定為形狀判別框的位置。接下來，群集分析/框判別部18在群集信息存儲部17B中存儲這樣求得的形狀判別框的位置。
圖像比較部27先參照手形圖像信息存儲部12B存儲的群集ID，取得僅僅是屬于最近似群集判別部25所求得群集的手形圖像和手圖像歸一化部21生成的輸入手形圖像。而圖像比較部27從群集信息存儲部17B則取得最近似群集判別部25所求得的群集對應的形狀判別框的位置。接著，圖像比較部27僅在形狀判別框的位置內(nèi)比較所取得的手形圖像和輸入手形圖像，求得與輸入手形圖像最為接近的手形圖像。
綜上所述，按照本發(fā)明第三實施例的手形手勢識別裝置和識別方法，預先確定形狀判別框位置，僅在該形狀判別框內(nèi)比較手形圖像和輸入手形圖像。因此，與上述第二實施例相比，可以減少圖像比較次數(shù)，能夠更加高速地進行正確處理。
(第四實施例)本發(fā)明第四實施例所提供的是，與上述第二實施例中根據(jù)最近似群集判別部25求得的群集求手形和手勢時靠圖像比較部26直接比較手形圖像信息存儲部12B存儲的手形圖像和輸入手形圖像有所不同，通過用多臺攝像機從多個視點對給出某一手形手勢的手進行攝像，根據(jù)各個攝像機攝取的手圖像綜合最近似群集判別部25求得群集中的形狀信息，來求得手形和手勢的方法。
另外，本發(fā)明第四實施例手形手勢識別裝置其構成與上述第二實施例手形手勢識別裝置的構成相同，因而省略附圖。而參照圖8和圖15，圍繞與上述第二實施例不同的部分說明第四實施例的姿勢·形狀識別體系2的各個構成和處理動作。圖15是本發(fā)明第四實施例手形手勢識別裝置中一例根據(jù)多臺攝像機輸入手圖像求得手形圖像的概念說明圖。另外，圖15中舉例說明一例利用3臺攝像機的場合。
首先，作為前提，如圖15所示利用3臺攝像機從不同的3個方向對給出某一手形手勢的手進行攝像，獲得3幅輸入手圖像。從該3個方向攝取的3幅輸入手圖像，由手圖像歸一化部21、本征空間投影部22和最近似群集判別部25分別處理，并分別求出相應的最為接近的群集。為此，圖像比較部26根據(jù)3臺攝像機獲得的3個群集和屬于該3個群集的3幅手形圖像的形狀信息和姿勢信息，按照以下條件(1)、(2)求得對于3幅輸入手圖像來說最為接近的手形圖像。
(1)為同一手形(2)攝像機的位置關系和姿勢不矛盾具體來說，圖像比較部26首先按照上述條件(1)，在屬于3個群集的手形當中提取屬于全部群集的手形(圖15所示例子中，為伸展1根手指)。接著，圖像比較部26按照上述條件(2)，根據(jù)分別提取的手形所對應的手勢，按照各攝像機的位置關系導出(綜合)不矛盾的手形圖像。圖15所示例子中，第一攝像機選取的是手左側圖像時，第二攝像機選取手掌向下圖像，而第三攝像機選取手朝向前方的圖像的話，便沒有矛盾。
可通過進行上述處理，按照各個攝像機的輸入手圖像，選擇最符合條件的手形圖像，對作為識別對象的輸入手圖像導出手形和手勢。
綜上所述，按照本發(fā)明第四實施例的手形手勢識別裝置和識別方法，基于根據(jù)多個攝像機的輸入手圖像所求得的群集，利用攝像機位置關系綜合屬于各群集的手形圖像的形狀信息和姿勢信息，求得輸入手圖像的手形和手勢。因此，僅僅依據(jù)1個方向的圖像無法確定手形和手勢時(例如橫向手圖像等)，也能夠正確求得手形和手勢。
另外，上述第四實施例中說明為，對于根據(jù)各攝像機圖像求得的群集加以綜合使之完全不矛盾，但也可根據(jù)各攝像機的結果，通過按多數(shù)票表決等選擇部分攝像機的群集，來輸出可能性最高的手形和手勢。而且，上述第四實施例說明的是一例用3臺攝像機的情形，但用其他數(shù)目的多臺攝像機，也可與上面所述一樣實施。
(第五實施例)上述第二實施例中，是以識別對象手圖像為靜止圖像(例如僅伸出1根食指只表達數(shù)字“1”的場合)這一情況為前提，來說明輸出與輸入手圖像相應的手形和手勢的手形手勢識別裝置。但手勢和手語等進行的手勢動作，有時利用作為活動圖像的一系列動作的結束來表達1種含義(例如有告知他人去向時常用的伸出1根食指并改變手指指示方向的那種情形)。對于這種活動圖像的手勢動作，上述第二實施例的手形手勢識別裝置無法求得手勢動作的含義。
因此，本發(fā)明第五實施例的手形手勢識別裝置所提供的是，適應識別對象的手圖像為對進行一系列具有含義的手勢動作的手攝取的活動圖像(以下稱為手勢動作圖像)這種情形，對種種手勢動作提取各自特征點并預先與其含義一起存儲，通過比較所輸入的手勢動作圖像特征點和所存儲的特征點來求得手勢動作含義的方法。
下面第五實施例的說明假定所輸入的手勢動作圖像對打手勢的人物的上半身或全身攝像。另外，對于人物攝像的方向來說，可考慮正面、斜上、橫向等種種方向，但第五實施例中對于從其中任一方向攝取的圖像，均能夠達到有益的效果。
圖16是表示本發(fā)明第五實施例手形手勢識別裝置構成的框圖。圖16中，第五實施例的手形手勢識別裝置與上述第二實施例的手形手勢識別裝置相同，由存儲部架構體系1和姿勢·形狀識別體系2所構成。
圖16中，存儲部架構體系1包括手圖像歸一化部11、本征向量存儲部14、本征空間計算部13、手形圖像信息存儲部12B、本征空間投影部15、群集信息存儲部17A和群集分析部16。而姿勢·形狀識別體系2包括手區(qū)域檢出部28、手動作分節(jié)部29、手圖像截取部30、手圖像歸一化部21、本征空間投影部22、最近似群集判別部25、識別運算部33A、序列登錄部31、序列識別詞典32和數(shù)據(jù)路徑控制部34A。
如圖16所示，第五實施例的手形手勢識別裝置與上述第二實施例的手形手勢識別裝置相比，為在姿勢·形狀識別體系2中在手圖像歸一化部21前一級增加手區(qū)域檢出部28、手動作分節(jié)部29和手圖像截取部30，并用序列登錄部31、序列識別詞典32、識別運算部33A和數(shù)據(jù)路徑控制部34A替代圖像比較部26的構成。
另外，第五實施例手形手勢識別裝置中的其他構成與上述第二實施例手形手勢識別裝置的構成相同，對該構成加上相同標號，并省略其說明。
這里，第五實施例中所說的存儲部架構體系1，是指與上述第二實施例手形手勢識別裝置有關的存儲部架構體系1，按存儲部架構體系1一側不包含序列識別詞典32的形式構成。但第五實施例中用的“存儲部架構體系1”和“姿勢·形狀識別體系2”這種體系名稱，畢竟只是為了表明與上述第二實施例的連續(xù)性，因而在此指出，對于實際的內(nèi)部處理，例如在姿勢·形狀識別體系2中制作詞典(序列識別詞典32)并不存在約束。
先圍繞與上述第二實施例不同的部分說明第五實施例中姿勢·形狀識別體系2中的各個構成。
手區(qū)域檢出部28輸入手勢動作圖像，并從各個圖像當中分別檢出手區(qū)域。手動作分節(jié)部29根據(jù)手勢動作圖像求手形手勢變化點，生成由1幅或2幅以上包含變化點的圖像所構成的手勢動作圖像序列。手圖像截取部30從動作分節(jié)部29生成的手勢動作圖像序列當中分別截取包含手的周邊區(qū)域以生成手圖像序列，輸出至手圖像歸一化部21。序列登錄部31登錄手勢動作圖像(手勢動作圖像序列)時，將最近似群集判別部25輸出的手圖像序列所對應的群集序列與該手勢動作圖像的含義一起登錄于序列識別詞典32。序列識別詞典32將序列登錄部31輸出的群集序列與相應提供的手勢動作圖像含義一起存儲。識別運算部33A在識別手勢動作圖像時，通過比較最近似群集判別部25輸出的群集序列和序列識別詞典32登錄的群集序列，來識別手勢動作圖像的含義。數(shù)據(jù)路徑控制部34A對最近似群集判別部25輸出的群集序列進行控制，以便登錄時輸出至序列登錄部31，識別時輸出至識別運算部33A。
接著，用圖17至圖20按處理順序說明第五實施例手形手勢識別裝置所進行的識別方法。圖17示出的是圖16中手區(qū)域檢出部28、手動作分節(jié)部29和手圖像截取部30所進行處理的概念。圖18示出的是一例根據(jù)圖16中手圖像序列和該手圖像序列求得的群集序列。圖19和圖20示出的是圖16中序列識別詞典32所具有的一例存儲形態(tài)。另外，圖19中示出的是單純數(shù)據(jù)表形式的存儲形態(tài)例，圖20中示出的是基于隱含馬爾可夫模型的存儲形態(tài)例。
第五實施例中，存儲部架構體系1進行與上述第二實施例手形手勢識別裝置相同的處理，因而這里省略說明。
姿勢·形狀識別體系2進行下述2個模式的處理。
1.登錄模式(第一登錄模式)為將所輸入的手勢動作圖像獲得的群集序列和其含義一起登錄至序列識別詞典32中的模式。
2.識別模式為基于所輸入的手勢動作圖像獲得的群集序列來識別其含義的模式。該識別模式，是上述第二實施例所進行的姿勢·形狀識別相應的處理，利用本征向量存儲部14和群集信息存儲部17A和序列識別詞典32識別手勢動作含義。
上述各個模式可通過向數(shù)據(jù)路徑控制部34A輸入選擇哪一模式進行切換。下面按照各自模式依次說明。
先說明各個模式中共同進行的手區(qū)域檢出部28、手動作分節(jié)部29、手圖像截取部30和手圖像歸一化部21的動作。
多個圖像構成的手勢動作圖像(圖17(a))輸入手區(qū)域檢出部28。手區(qū)域檢出部28對所輸入的手勢動作圖像分別檢出圖像中手所在區(qū)域(手區(qū)域)。這里，假定所攝取的手勢動作圖像為容易從背景當中分離手區(qū)域的圖像，單純對圖像取二進制值，并將具有接近于手區(qū)域面積的區(qū)域檢出作為手區(qū)域。
手動作分節(jié)部29對于手區(qū)域檢出部28輸出的手勢動作圖像，求得對于手形手勢較為關鍵的圖像(以下稱為關鍵幀)。這里所說的關鍵幀，是指人們可以識別手形手勢的圖像。通常為手勢動作時，手活動期間由于余像等影響，人們無法識別手形手勢。因此，手動作分節(jié)部29求手活動相對較小的圖像(幀)，將該圖像設定為關鍵幀。手動作分節(jié)部29所求得的1幅或2幅以上關鍵幀，作為手勢動作圖像序列(圖17(b))輸出至手圖像截取部30。
另外，對于求上述相對手活動的方法來說，還可考慮例如求手區(qū)域檢出部28所獲得的手區(qū)域在手勢動作圖像中的位移量或手區(qū)域內(nèi)部變動的方法，或是從手區(qū)域開始跟隨手勢動作圖像中手的位置、并根據(jù)手的軌跡求手相對停頓的點(這當中還包含手動作軌跡當中曲率相對較大的幀)的方法，或是根據(jù)手勢動作圖像求時間微分圖像，并根據(jù)該時間微分圖像信息求得相對停頓點的方法。此外，還有將手勢動作圖像的全部圖像當作關鍵幀的場合。
手圖像截取部30從手動作分節(jié)部29求得的手勢動作圖像序列各關鍵幀當中分別截取手區(qū)域檢出部28求得的手區(qū)域部分，生成包含手部位在內(nèi)的手圖像序列(圖17(c)、圖18(a))。構成該手圖像序列的各個手圖像為上述第二實施例中與所輸入的手圖像為同類圖像。該手圖像截取部30所生成的手圖像序列輸出至手圖像歸一化部21。
接著，手圖像歸一化部21、本征空間投影部22和最近似群集判別部25，對構成手圖像序列的各個關鍵幀，進行上述第二實施例中說明的各項處理，分別求關鍵幀所對應的最為接近的群集，輸出作為群集序列(圖18(b))。
以上處理是作為各模式預處理部所共同進行，根據(jù)手勢動作圖像求相應的群集序列。
下面說明各模式個別的處理。
先說明登錄模式的處理。
該登錄模式中，最近似群集判別部25輸出的群集序列將手勢動作定義為帶特征序列，并進行與手勢動作所給出的含義一起登錄(存儲)于序列識別詞典32這種處理。
登錄模式中，數(shù)據(jù)路徑控制部34A切換路徑，以便最近似群集判別部25輸出的群集序列輸入至序列登錄部31。
序列登錄部31將最近似群集判別部25輸入的群集序列與另外提供的該群集所對應的手勢動作含義一起登錄于序列識別詞典32。對于序列識別詞典32中登錄數(shù)據(jù)時的存儲形式來說，存在幾種方法，但舉例說明一例圖19和圖20情形下這2種存儲形式。
圖19對于最近似群集判別部25所獲得的群集序列，是按原樣將該群集序列與含義一起登錄的例子。另外，如圖19所示，之所以對1種含義存在多個群集序列，是因為即便為相同含義的手勢動作，也隨打手勢的人在速度、形狀等方面存在細微差異，對相同含義的手勢動作可通過進行多次登錄處理來生成。
圖20是作為一例狀態(tài)變遷模型按隱含馬爾可夫模型(HMM)形式登錄的例子。該隱含馬爾可夫模型是指，為聲音識別領域等所公知的技術，按1個狀態(tài)變遷模型中綜合的形式表示圖19所示的那種對1個含義存在多個的群集序列。關于隱含馬爾可夫模型的具體技術內(nèi)容，記載于技術文獻“中川著《確立模型的聲音識別》korona公司，電子信息通信學會編”，圖20以該文獻為基準所繪制。另外，圖20中，標量值表示至S1～S3的狀態(tài)變遷幾率，而向量值表示附加群集1～5狀態(tài)變遷條件的輸出幾率。
另外，作為序列識別詞典32的架構方法，一般是將從圖像得到的手形和手勢按原樣登錄。但這時，如上述第二實施例所述，手圖像中有“手形不同但近似的圖像”，“手勢不同但近似的圖像”，所以，象上述第三和第四實施例那樣比較圖像或采用多個攝像機圖像的話，便容易發(fā)生誤識別。
因此，第五實施例與這種方法不同，通過將觀察的眼睛較近的圖像作為同一群集的群集序列登錄在序列識別詞典32中，以便能夠以誤識別更少的形式識別。
接下來說明識別模式的處理。
該識別模式中，對所輸入的手勢動作圖像進行處理，以便用序列識別詞典32實際求得其含義。
識別模式中，數(shù)據(jù)路徑控制部34A切換路徑，以便最近似群集判別部25所輸出的群集序列輸入識別運算部33A。
識別運算部33A比較最近似群集識別部25所輸入的群集序列和序列識別詞典32所登錄的多個群集序列，判斷同一或最為接近的群集序列。接著，識別運算部33A從序列識別詞典32當中提取并輸出判斷為同一或最為接近的群集序列的含義。
綜上所述，按照本發(fā)明第五實施例的手形手勢識別裝置和識別方法，當采用與上述第二實施例相同的群集信息，對手勢單詞或手語單詞這種一系列具有含義的手勢動作圖像，將作為手動作分節(jié)點的圖像的群集序列與其含義一起預先存儲，識別手勢動作圖像時，根據(jù)所求得的群集序列輸出所存儲的含義。
因此，能夠對手勢單詞或手語單詞等這種一系列具有含義的動作，進一步減少誤識別，求得正確的含義。
另外，上述第五實施例中，記載的是對關鍵幀中手圖像進行識別的方法。但本發(fā)明第五實施例，除此以外，將全部幀設定為關鍵幀場合，按一定間隔將采樣的幀設定為關鍵幀場合，僅將手勢動作開始時和結束時的幀設定為關鍵幀等場合，通過進行上述處理均可達到相同效果。
(第六實施例)本發(fā)明第六實施例，與上述第五實施例的存儲部架構體系1中在手形圖像信息存儲部12B中預先存儲種種姿勢形狀的手圖像不同，而是存儲根據(jù)手勢動作圖像獲得的手圖像序列的各幅圖像及其含義。
圖21是表示本發(fā)明第六實施例手形手勢識別裝置構成的框圖。圖21中，第六實施例的手形手勢識別裝置，不是象上述第五實施例手形手勢識別裝置那樣將存儲部架構體系1和姿勢·形狀識別體系2相區(qū)別，而以1個綜合形式構成。
圖21中，第六實施例的手形手勢識別裝置包括手區(qū)域檢出部28，手動作分節(jié)部29，手圖像截取部30，手圖像歸一化部21，本征空間投影部22，最近似群集判別部25，識別運算部33A，序列識別詞典32，數(shù)據(jù)路徑控制部34B，手圖像登錄部35，序列重組部36，本征空間計算部13，本征向量存儲部14，手形圖像信息存儲部12C，群集分析部16和群集信息存儲部17A。
如圖21所示，第六實施例的手形手勢識別裝置，對于上述第5實施例的手形手勢識別裝置，對存儲部架構體系1和姿勢·形狀識別體系2進行綜合，因而圖16中分別將手圖像歸一化部11和手圖像歸一化部21、本征空間投影部15和本征空間投影部22合并，為分別用手形圖像信息存儲部12C替代手形圖像信息存儲部12B，用數(shù)據(jù)路徑控制部34B替代數(shù)據(jù)路徑控制部34A，并用手圖像登錄部35和序列重組部36替代序列登錄部31的構成。
另外，第六實施例手形手勢識別裝置中的其他構成，與上述第五實施例手形手勢識別裝置構成相同，對該構成加上相同標號，并省略其說明。
先圍繞與上述第五實施例不同的部分說明第六實施例手形手勢識別裝置的各個構成。
手圖像登錄部35將手圖像歸一化部21所提供的手勢動作圖像相應的手圖像序列與該序列含義一起登錄于手形圖像信息存儲部12C。手形圖像信息存儲部12C將所登錄的手勢動作圖像所對應的手形圖像序列(手圖像序列)與該序列含義一起分別存儲。而且手形圖像信息存儲部12C與上述第五實施例中手形圖像信息存儲部12B相同，還分別存儲各個手形圖像投影至本征空間的投影座標和群集ID。序列重組部36根據(jù)手形圖像信息存儲部12C存儲的信息，將所存儲的各個手形圖像序列所對應的群集序列和其含義登錄于序列識別詞典32。數(shù)據(jù)路徑控制部34B對手圖像歸一化部21輸出的手圖像序列進行控制，以便登錄時輸出至手圖像登錄部35，識別時輸出至本征空間投影部22。
接著，用圖22按處理順序說明第六實施例手形手勢識別裝置所進行的識別方法。圖22示出的是圖21中手形圖像信息存儲部12C所具有的一例存儲表。
第六實施例的手形手勢識別裝置進行下述2種模式的處理。
1.登錄模式(第二登錄模式)為將根據(jù)所輸入的手勢動作圖像得到的群集序列與其含義一起登錄至序列識別詞典32的模式。該登錄模式為構筑手形圖像信息存儲部12C、本征向量存儲部14和群集信息存儲部17A的模式，屬于與上述第二實施例中存儲部架構體系1相應的處理。具體來說，將根據(jù)所輸入的手勢動作圖像得到的手圖像序列(手形圖像序列)與其含義一起存儲于手形圖像信息存儲部12C，依據(jù)所存儲的手形圖像進行本征空間計算和群集分析。接著，將所求得的群集序列和其含義登錄至序列識別詞典32。
2.識別模式手勢動作識別為根據(jù)由所輸入手勢動作圖像得到的群集序列，識別其含義的模式。該識別模式與上述第五實施例中說明的識別模式相同，屬于與上述第二實施例所進行的姿勢·形狀識別相應的處理，利用本征向量存儲部14和群集信息存儲部17A和序列識別詞典32來識別手勢動作的含義。
上述各個模式可通過輸入選擇哪一模式，對數(shù)據(jù)路徑控制部34B進行切換。下面按照各個模式依次說明。
先說明登錄模式中的處理。
如上所述，手區(qū)域檢出部28、手動作分節(jié)部29、手圖像截取部30和手圖像歸一化部21求得與上述第五實施例同樣處理輸入的手勢動作圖像所對應的手圖像序列。而數(shù)據(jù)路徑控制部34B則切換路徑，以便手圖像歸一化部21輸出的手圖像序列輸入手圖像登錄部35。
接下來，手圖像登錄部35將手圖像歸一化部21輸入的手圖像序列與另外提供的該手圖像序列所對應的手勢動作含義一起存儲至手形圖像信息存儲部12C中。圖22示出的是手形圖像信息存儲部12C所具有的一例存儲表。如圖22所示，手形圖像信息存儲部12C中，與上述第二實施例中手形圖像信息存儲部12B的形狀信息和姿勢信息有所不同，分別存儲的是手圖像序列序號、手圖像序列所對應的手勢動作圖像的含義、序列中手形圖像為位于第幾號圖像這種信息(步驟)。另外，為兩手接觸這種圖像時，將兩手接觸的圖像登錄作為1個手形圖像。
本征空間計算部13、本征向量存儲部14、本征空間投影部22和群集分析部16，對手形圖像信息存儲部12C存儲的各個手形圖像進行上述第二實施例中所述的處理，存儲本征向量存儲部14和群集信息存儲部17A所對應的信息的同時，還在手形圖像信息存儲部12C中存儲本征空間投影座標和群集ID。
序列重組部36一旦向手形圖像信息存儲部12C進行信息存儲，便按照所存儲的手圖像序列在序列識別詞典32中登錄群集序列和其含義。
接下來說明識別模式的處理。
識別模式中，識別運算部33A比較最近似群集判別部25輸入的群集序列和序列識別詞典32中登錄的多個群集序列，判斷為同一或最為接近的群集序列。接著，識別運算部33A從序列識別詞典32當中提取輸出判斷為同一或最為接近的群集序列的含義。
綜上所述，按照本發(fā)明第六實施例的手形手勢識別裝置和識別方法，可對手形圖像信息存儲部12C所存儲的圖像利用與實際識別時相同的圖像，因而也不需要特意取得別的圖像，而且保證在同一環(huán)境下取得圖像，因而可以減少圖像誤識別。
另外，上述第六實施例的手形手勢識別裝置，還可以進一步增加上述第五實施例中說明的序列登錄部31和數(shù)據(jù)路徑控制部34A的構成，以便不論用第一登錄模式還是第二登錄模式，都可以將群集序列和其含義登錄至序列識別詞典32。
通過這樣構成，即便是手形圖像信息存儲部12C用作固定數(shù)據(jù)庫這種場合，也能夠靠第一登錄模式進行有關新的手勢動作圖像的數(shù)據(jù)登錄(序列識別詞典32的更新)。
(第七實施例)本發(fā)明第七實施例提供的是，在上述第五或第六實施例中，識別對象的手圖像為對進行手勢或手語等一系列具有含義的動作的手所攝取的手圖像時，通過將第五或第六實施例的識別裝置用作識別手勢或手語所用裝置的1個模塊，來求得動作含義的方法。
考慮例如將本發(fā)明用于手語識別的場合。對手語來說，除了手的形狀以外，還由手空間位置、手的活動、手形、手勢這樣幾方面構成要素所組成，這樣其含義才成立。此外，手形還可舉出手語單詞開始時的形狀和結束時的形狀(僅僅右手、僅僅左手、左手右手兩者)作為構成要素。圖23中示出的是用構成要素記述幾個手語單詞的例子。圖23中，“說”這種含義的手語單詞，是利用用右手先在嘴邊或口的前方形成伸出食指的手形，然后保持該手形向前方送出這種動作來表達的。而“喜歡”這種含義的手語單詞，則是利用用右手先在顎部保持伸出拇指和食指的手形，接著邊閉合手指邊拉至下方這種動作來表達。
這里，第七實施例的手形手勢識別裝置，是通過對手語、手勢這種動作增加有關手空間位置、活動這種手大局動作特征的識別部約束條件，來減少手圖像誤識別的。
圖24是表示本發(fā)明第七實施例手形手勢識別裝置構成的框圖。圖24中，第七實施例手形手勢識別裝置包括手圖像登錄部35，本征向量存儲部14，本征空間計算部13，手形圖像信息存儲部12C，群集信息存儲部17A，群集分析部16，序列重組部36，手區(qū)域檢出部28，手動作分節(jié)部29，手圖像截取部30，手圖像歸一化部21，本征空間投影部22，最近似群集判別部25，識別運算部33B，序列識別詞典32，數(shù)據(jù)路徑控制部34B，大局動作識別部37和約束條件存儲部38。
圖24所示的第七實施例的手形手勢識別裝置，為上述第六實施例的手形手勢識別裝置增加大局動作識別部37和約束條件存儲部38，用識別運算部33B替代識別運算部33A的構成。另外，第七實施例手形手勢識別裝置中的其他構成，與上述第六實施例手形手勢識別裝置的構成相同，對該構成加上相同標號，省略其說明。
首先，約束條件存儲部38中預先存儲有根據(jù)手語單詞這種具有含義的動作對手形和手勢進行約束的約束條件。對這種約束條件來說，例如為圖23所示的手語單詞“說”的情形，便將開始手形和結束手形兩者存儲為伸出食指的形狀，而手勢、位置以及動作均按上述內(nèi)容存儲。另外，手語單詞“說”這種動作，僅用右手進行，因而圖23例中未記載有關左手的條件。
手勢動作圖像分別輸入大局動作識別部37和手區(qū)域檢出部28。大局動作識別部37對所輸入的手勢動作圖像，與手區(qū)域檢出部28相同提取手區(qū)域，求得該手區(qū)域的手軌跡和手相對身體的位置，將手軌跡和手位置信息輸出至識別運算部33B。該大局動作識別部37按例如本申請發(fā)明人先前申請的“手動作識別裝置”(日本專利申請?zhí)亻_平11-174948號公報)中記載的方法，求手軌跡和手位置。
另一方面，對于輸入手區(qū)域檢出部28的手勢動作圖像，上述第六實施例說明的處理在手動作分節(jié)部29、手圖像截取部30、手圖像歸一化部21、本征空間投影部22和最近似群集判別部25中分別進行，手勢動作圖像所對應的群集序列從最近似群集判別部25輸出至識別運算部33B。
識別運算部33B先檢索約束條件存儲部38存儲的數(shù)據(jù)，并提取1個以上的與大局動作識別部37所提供的手勢識別結果(手軌跡和手位置信息)為同一動作數(shù)據(jù)的手語/手勢單詞。接著，識別運算部33B比較最近似群集判別部25輸入的群集序列和序列識別詞典32中登錄的多個群集序列，判斷為同一或最為接近的群集序列，并從序列識別詞典32當中提取1個以上經(jīng)過該判斷的群集序列的含義。接下來，識別運算部33B根據(jù)1個以上提取出的手語/手勢單詞和1個以上提取出的含義，對輸入的手勢動作圖像輸出最為接近的含義。
綜上所述，按照本發(fā)明第七實施例的手形手勢識別裝置和識別方法，可進一步增加基于手大局動作特征的約束條件，導出手勢動作圖像的含義。
因此，可以減少手勢動作圖像的誤識別。
另外，上述第七實施例中說明的是相對于上述第六實施例手形手勢識別裝置構成大局動作識別部37、約束條件存儲部38和識別運算部33B的情況，但相對于上述第五實施例手形手勢識別裝置構成也行，相對于如上述第六實施例另外說明的那樣第五實施例和第六實施例相結合的手形手勢識別裝置來構成也行。
(第八實施例)本發(fā)明第八實施例提供的是，上述第五～第七實施例手區(qū)域檢出部28中，通過對于手區(qū)域也利用群集信息，來高精度檢出圖像中手區(qū)域的方法。
圖25是表示本發(fā)明第八實施例手形手勢識別裝置其組成手區(qū)域檢出部具體構成的框圖。圖25中，構成第八實施例手形手勢識別裝置的手區(qū)域檢出部48包括候選區(qū)域截取部39，屏蔽區(qū)域存儲部40，圖像歸一化部41，本征空間投影部22，最近似群集判別部25和區(qū)域確定部42。
另外，第八實施例手形手勢識別裝置中的其他構成與上述第五～第七實施例手形手勢識別裝置的構成分別相同，對該構成加上相同標號，省略其說明。
先說明構成第八實施例手形手勢識別裝置的手區(qū)域檢出部48各個構成。
候選區(qū)域截取部39從所輸入的手勢動作圖像當中分別截取為候選手區(qū)域的圖像范圍。接著，候選區(qū)域截取部39將所截取的手區(qū)域位置信息輸出至區(qū)域確定部42。屏蔽區(qū)域存儲部40所存儲的屏蔽用以從候選區(qū)域截取部39所截取的候選手區(qū)域當中僅提取預定區(qū)域。圖像歸一化部41通過對候選區(qū)域截取部39截取的候選手區(qū)域進行大小歸一化并增加屏蔽區(qū)域存儲部40存儲的屏蔽區(qū)域之后，再進行亮度歸一化，來獲得手區(qū)域候選圖像。本征空間投影部22如上述第五～第七實施例所述，將圖像歸一化部41得到的候選手區(qū)域圖像展開至本征空間。最近似群集判別部25如上述第五～第七實施例所述，取得具有與本征空間投影部22所求得的本征空間投影座標最為接近的投影座標的群集。區(qū)域確定部42將最近似群集判別部25取得群集時的近似度，對整個候選手區(qū)域圖像進行比較，輸出具有最高近似度的候選手區(qū)域圖像位置和此時的群集索引。
接下來，用圖26～圖28按處理順序說明第八實施例手形手勢識別裝置其組成手區(qū)域檢出部48所進行的手區(qū)域檢出方法。圖26是一例圖25中候選區(qū)域截取部39所進行的求候選手區(qū)域方法的說明圖。另外，圖26中說明單純進行掃描的方法，根據(jù)色信息以外知識截取候選手區(qū)域的方法，和按照前一時刻手區(qū)域檢測結果預測當前時刻手區(qū)域位置的方法這3種方法。圖27示出的是圖25中圖像歸一化部41的處理概要。圖28示出的是圖25中屏蔽區(qū)域存儲部40所存儲的一例屏蔽區(qū)域。
候選區(qū)域截取部39求候選手區(qū)域，截取根據(jù)所輸入的手勢動作圖像求得的候選手區(qū)域所對應的矩形區(qū)域。作為求該候選手區(qū)域的方法來說，可考慮例如圖26所示的3個方法。
第一方法為最單純方法，為一預先確定作為候選手區(qū)域截取的區(qū)域的大小，在手勢動作圖像上掃描所截取的矩形區(qū)域，將經(jīng)掃描依次獲得的全部區(qū)域作為候選手區(qū)域的方法(圖26(a))。另外，該方法場合，也可以使掃描大小隨手勢動作圖像上手的距離可變。
第二方法為通過用色信息(例如膚色信息)等，僅將該色彩所對應區(qū)域的前后作為掃描對象，從手勢動作圖像當中截取候選手區(qū)域這種矩形區(qū)的方法。該方法場合，可以通過采用膚色，而僅僅將手和容貌的周邊區(qū)域圖像當作候選手區(qū)域(圖26(b))。
第三方法為根據(jù)前一時刻手區(qū)域的位置信息(從區(qū)域確定部42反饋的信息)預測當前時刻手區(qū)域位置，通過掃描所預測的手區(qū)域位置的周邊來截取候選手區(qū)域的方法。該方法場合，例如有通過使前一時刻手速度滿足前一時刻手的位置來預測當前時刻手區(qū)域的方法，還有在預測時利用卡爾曼濾波器求得手位置的方法等(圖26(c))。
接著，圖像歸一化部41如圖27所示，對候選區(qū)域截取部39所截取的候選手區(qū)域進行大小歸一化，并疊加屏蔽區(qū)域存儲部40存儲的屏蔽手區(qū)域，進行亮度歸一化。之所以對候選手區(qū)域進行屏蔽處理，是因為處理對象為沒有手掌或容貌這種矩形區(qū)域的部位。因此，作為一例屏蔽區(qū)域存儲部40所存儲的屏蔽手區(qū)域，最好是圖28(a)所示的幾何形狀屏蔽(采用單純幾何形狀(圓、橢圓等)的屏蔽)和根據(jù)圖28(b)所示的學習圖像制作的屏蔽(疊加過去所得到的圖像群進行OR運算的屏蔽)。
這樣，圖像歸一化部41通過疊加上述屏蔽手區(qū)域和候選手區(qū)域這種圖像，進行亮度歸一化，來生成手區(qū)域候選圖像。
然后，與上述第五～第七實施例相同，本征空間投影部22按照本征向量存儲部14將圖像歸一化部41所輸出的各手區(qū)域候選圖像投影至本征空間，分別求投影座標。接著，最近似群集判別部25判斷本征空間投影部22所求得的投影座標屬于群集信息存儲部17A所存儲的哪一群集，按照各手區(qū)域候選圖像將相應群集和此時近似度輸出至區(qū)域確定部42。
接著，區(qū)域確定部42根據(jù)最近似群集判別部25所輸出的各手區(qū)域候選圖像所對應的近似度，求近似度最高時的候選手區(qū)域，將此時手區(qū)域位置(由候選區(qū)域截取部39所提供)和大小作為手區(qū)域檢出結果，輸出至手動作分節(jié)部29。
綜上所述，按照本發(fā)明第八實施例手形手勢識別裝置和識別方法，檢出手區(qū)域時將候選手區(qū)域這一區(qū)域投影至本征空間，通過求相應群集來檢出手區(qū)域。
因此，檢出手區(qū)域的同時，可以求該手區(qū)域的相應群集，因而能夠將手區(qū)域檢出和手形手勢識別，或手區(qū)域檢出和手勢動作識別處理合并為1項處理。
另外，第八實施例中，上述方法適用于手勢動作圖像，但通過對通常的動作圖像也用上述方法，便能夠檢出動作主體，可起到同樣效果。
(第九實施例)本發(fā)明第九實施例提供的是，在上述第八實施例手形手勢識別裝置其組成手區(qū)域檢出部48的圖像歸一化部41和區(qū)域確定部42中，通過利用前一時刻的群集信息，更高精度地檢出當前時刻手區(qū)域的方法。
圖29是表示本發(fā)明第九實施例手形手勢識別裝置其組成手區(qū)域檢出部具體構成的框圖。圖29中，第九實施例手形手勢識別裝置其組成手區(qū)域檢出部58包括候選區(qū)域截取部39，屏蔽區(qū)域存儲部45，圖像歸一化部41，本征空間投影部22，最近似群集判別部25，區(qū)域確定部42，群集變遷信息存儲部43和群集變遷信息登錄部44。
如圖29所示，第九實施例手形手勢識別裝置其組成手區(qū)域檢出部58，為上述第八實施例手形手勢識別裝置其組成手區(qū)域檢出部48增加群集變遷信息存儲部43和群集變遷信息登錄部44，用屏蔽區(qū)域存儲部45替代屏蔽區(qū)域存儲部40的構成。
另外，第九實施例手形手勢識別裝置中其他構成與上述第八實施例手形手勢識別裝置構成相同，對該構成加上相同標號，省略其說明。
下面，用圖30～圖31按處理順序說明第九實施例手形手勢識別裝置其組成手區(qū)域檢出部58所進行的手區(qū)域檢出方法。圖30示出的是圖29中群集變遷信息存儲部43存儲的一例群集變遷信息。如圖30所示，群集變遷信息存儲部43中存儲的變遷度圖，記載一表明提供某一時刻t的群集時是否容易在下一時刻t+1變遷至某一群集的群集變遷頻度。另外，這里將群集變遷程度稱為群集變遷度。圖31示出的是圖29中屏蔽區(qū)域存儲部45存儲的一例屏蔽區(qū)域。如圖31所示，屏蔽區(qū)域存儲部45分別就各群集登錄預先根據(jù)學習圖像生成的屏蔽。
首先，候選區(qū)域截取部39與上述第八實施例相同，根據(jù)所輸入的手勢動作圖像求候選手區(qū)域，并截取與所求得的候選相對應的矩形區(qū)域。
接著，圖像歸一化部41對候選區(qū)域截取部39得到的候選手區(qū)域進行大小歸一化，并疊加屏蔽區(qū)域存儲部45存儲的屏蔽手區(qū)域進行亮度歸一化。這時，圖像歸一化部41根據(jù)前一時刻的相應群集，參照群集變遷信息存儲部43，選擇多個變遷度高的群集，從屏蔽區(qū)域存儲部45當中取出各個群集相應的屏蔽。接下來，圖像歸一化部41通過疊加所取出的多個屏蔽并進行OR運算，來生成新屏蔽，將該生成的屏蔽與所得到的候選手區(qū)域疊加，并進行亮度歸一化，來生成手區(qū)域候選圖像。
然后，與上述第八實施例相同，本征空間投影部22按照本征向量存儲部14將圖像歸一化部41所輸出的各手區(qū)域候選圖像投影至本征空間，分別求投影座標。接著，最近似群集判別部25判斷本征空間投影部22所求得的投影座標屬于群集信息存儲部17A所存儲的哪一群集，按照各手區(qū)域候選圖像將相應群集和此時近似度輸出至區(qū)域確定部42。
接下來，區(qū)域確定部42參照群集變遷信息存儲部43存儲的變遷度圖，根據(jù)最近似群集判別部25輸出的各手區(qū)域候選圖像所對應的群集和近似度，在變遷度高于某一數(shù)值的群集當中，求具有最高近似度的群集的候選手區(qū)域，將此時手區(qū)域位置(由候選區(qū)域截取部39所提供)和大小作為手區(qū)域檢出結果，輸出至手動作分節(jié)部29。而區(qū)域確定部42將所檢出的手區(qū)域群集輸出至群集變遷信息登錄部44。
群集變遷信息登錄部44按照區(qū)域確定部42中手區(qū)域檢出結果，僅在有指令要求更新群集變遷信息存儲部43時才動作。該指令由利用該系統(tǒng)的用戶或建立該系統(tǒng)的管理者輸入。接下來，有指令要求更新時，群集變遷信息登錄部44按照所檢出的群集和前一時刻的群集，對群集變遷信息存儲部43的群集變遷信息進行更新。例如，可通過單純使變遷度圖相應位置的數(shù)值增加某一數(shù)值來更新。
綜上所述，按照本發(fā)明第九實施例手形手勢識別裝置和識別方法，對上述第八實施例的手形手勢識別裝置，在手區(qū)域確定時利用群集變遷信息。因此，可更為正確地進行手區(qū)域的確定。
另外，第九實施例中將上述方法應用于手勢動作圖像，但通過對通常的動作圖像也利用上述方法，便能夠檢出動作主體，可起到同樣效果。
(第十實施例)本發(fā)明第十實施例提供的是，上述第一～第七實施例的手圖像歸一化部11、21中，在對手圖像歸一化時，不僅消除手腕區(qū)域，還增加根據(jù)膚色提取手區(qū)域，或根據(jù)經(jīng)歸一化的手圖像進一步強化手指特征這種方法，從而能夠從通常自然背景當中所攝取的手圖像當中提取手區(qū)域，還能更為正確地對手形手勢進行識別的方法。
圖32是表示本發(fā)明第十實施例手形手勢識別裝置其組成手圖像歸一化部11、21更為具體構成的框圖。
圖32中，第十實施例手形手勢識別裝置其組成手圖像歸一化部11、21包括色分布存儲部61，手區(qū)域提取部62，手腕區(qū)域消除部63，區(qū)域移動部64，旋轉角計算部65，區(qū)域旋轉部66，大小歸一化部67和手指特征強化部68。
另外，第十實施例手形手勢識別裝置中的其他構成，與上述第一～第七實施例手形手勢識別裝置的構成分別相同，對該構成加上相同標號，省略其說明。
首先，說明第十實施例手形手勢識別裝置其組成手圖像歸一化部11、21的各個構成。
色分布存儲部61按色分布預先存儲應從輸入手圖像當中提取的手區(qū)域。手區(qū)域提取部62按照色分布存儲部61所存儲的色分布，提取手區(qū)域。手腕區(qū)域消除部63根據(jù)手區(qū)域提取部62所提取的區(qū)域求手腕方向，按照所求得的手腕方向從該提取的區(qū)域當中消除手腕區(qū)域。區(qū)域移動部64將手腕區(qū)域消除部63消除手腕區(qū)域的手區(qū)域移動至圖像上預先定義的位置上。旋轉角計算部65根據(jù)手區(qū)域求相對于光軸垂直的手的旋轉角。區(qū)域旋轉部66按旋轉角進行旋轉變換以便手朝向一定方向。大小歸一化部67按預先確定的一定大小對旋轉手區(qū)域大小進行歸一化。手指特征強化部68從經(jīng)過歸一化的手圖像當中消除手指以外的一定區(qū)域，強化手指特征。
接著，用圖33～圖35按處理順序說明第十實施例手形手勢識別裝置其組成手圖像歸一化部11、12所進行的手圖像歸一化方法。圖33示出的是圖32中色分布存儲部61所具有的一例存儲表結構。另外，圖33中舉出一例存儲表為RGB色空間三維查詢表(LUT)的情形。圖34是圖32中旋轉角計算部65所進行處理的概要說明圖。圖35是圖32中手指特征強化部68所進行的一例處理的說明圖。
最初，色分布存儲部61對從自然背景當中取出手區(qū)域所需的膚色區(qū)域進行設定。色分布存儲部61如圖33所示，具有RGB色空間的三維LUT。該三維LUT，是以各個色為軸，對于各個軸按d1、d2、d3寬度對分別取離散值的3種色數(shù)值R、G、B所構成的三維色空間CS進行分割，保持該分割結果所得到的各個分割空間DS的重心位置(格點)色所對應的數(shù)據(jù)值而得到的數(shù)據(jù)表。換言之，三維LUT存儲的是以各格點三維座標(r，g，b)為參數(shù)的函數(shù)值c{＝f(r，g，b)}。
第十實施例中說明的例子，將該色分布存儲部61中手的色區(qū)域即膚色區(qū)域部分設定為正值，其他色區(qū)域部分為“0”值。
首先，手區(qū)域提取部62對所輸入的圖像進行掃描，在所得到的像素色和色分布存儲部61存儲的三維LUT格點色之間，求處于最近距離的格點的數(shù)據(jù)值。因此，像素色為膚色則輸出正值，其他色則輸出“0”，因而能夠提取膚色區(qū)域。另外，將作為處于最近距離的格點所得到的像素色附近的6個格點的插補運算值，定義為上述函數(shù)f，也起到同樣效果。
接著，手區(qū)域提取部62在所提取的膚色區(qū)域當中將最為接近手大小的區(qū)域當作手區(qū)域，將其他區(qū)域視為噪聲消除后的手圖像輸出至手區(qū)域消除部63。
另外，對于色分布存儲部61中設定膚色區(qū)域的方法來說，除了上述方法以外，還能夠采用例如將膚色區(qū)域全部設定為一定數(shù)值(例如255位)的方法(此場合，手區(qū)域提取部62輸出的圖像為輪廓圖像)，設定三維LUT以便在膚色區(qū)域當中將影子區(qū)域設定為暗的數(shù)值、強反射區(qū)域設定為明的數(shù)值這種方法，按原樣在三維LUT中設定具有手圖像的色度分布這種方法等。
接下來，手腕區(qū)域消除部63根據(jù)手區(qū)域提取部62所提取的手圖像求手腕方向，按照所求得的手腕方向消除手腕區(qū)域。該手腕區(qū)域的消除能夠用圖2所示方法實現(xiàn)。區(qū)域移動部64輸入經(jīng)過手腕區(qū)域消除部63消除手腕區(qū)域之后的手圖像，并進行移動變換以便所留下的手區(qū)域重心處于手圖像中心。接著，旋轉角計算部65如圖34所示，計算手區(qū)域轉動慣量主軸(手這種圖形所延伸的方向，即手腕-中指方向)和圖像上某一軸(例如x軸)之間角度。
現(xiàn)令手圖像為f(x，y)，手重心座標為(xg，yg)，可按下面式(5)求得M11、M20、M02。Mpq=ΣxΣy(x-xg)p(y-yg)qf(x,y)---(5)]]>因此，轉動慣量主軸和x軸所成角度θ可按下面式(6)求出。θ=12tan-1[2M11M20-M02]---(6)]]>上述角度計算后，區(qū)域旋轉部66進行旋轉變換，以便轉動慣量主軸指向與y軸相同的方向。最后，大小歸一化部67對手圖像進行歸一化，以便施加了旋轉變換的手區(qū)域成為預定的一定大小。
該手腕區(qū)域消除部63、區(qū)域移動部64、旋轉角計算部65、區(qū)域旋轉部66和大小歸一化部67是具體說明上述第一～第七實施例手圖像歸一化部11、21的典型構成例的，但第十實施例中，為了更為正確地進行圖像識別，最后由手指特征強化部68從歸一化后的手圖像當中消除手指以外的一定區(qū)域，進行手指特征的強化處理。下面參照圖35說明一例手指特征強化部68所進行的處理。
圖35中，[例1]通過從手圖像當中消除從手區(qū)域重心點(即圖像中心點)開始在-y軸方向(轉動慣量主軸的手腕方向)上呈±A度角度的扇形形狀，來強化手指區(qū)域。[例2]通過從手圖像當中消除從手區(qū)域重心點開始相對于-y方向處于距離D以外的手腕一側，來強化手指區(qū)域。[例3]則通過較為簡單地消除一定距離的手圖像手腕一側，來強化手指區(qū)域。[例4]通過對手圖像進行極座標變換，來強化手指區(qū)域。
綜上所述，按照本發(fā)明第十實施例的手形手勢識別裝置和識別方法，在對手圖像歸一化時，不僅消除手腕區(qū)域，還根據(jù)膚色提取手區(qū)域，或根據(jù)經(jīng)歸一化的手圖像進一步強化手指特征。因此，能夠從通常自然背景當中所攝取的手圖像當中提取手區(qū)域，還能夠更為正確地對手形手勢進行識別。
(第十一實施例)本發(fā)明第十一實施例提供的是，上述第一～第十實施例中，手形圖像信息存儲部12A～12C存儲的手形圖像只存儲對于繞手掌主軸旋轉的手形圖像時，通過從多個視點的攝像機攝取作為識別對象的手，根據(jù)這樣攝取的輸入手圖像求手方向，對手方向也進行歸一化，從而對于實際上未作為手形圖像存儲的手方向圖像，也進行手形和手勢識別的方法。
該第十一實施例，可通過在上述第一～第十實施例中的手圖像歸一化部21中，對多臺攝像機提供的各個輸入手圖像，靠求轉動慣量主軸來求手方向，并增加對該方向進行歸一化的方法來實現(xiàn)。
另外，本發(fā)明第十一實施例的手形手勢識別裝置其組成手圖像歸一化部21，與上述第一～第十實施例中說明的手圖像歸一化部21具有相同構成，因而省略其附圖。圖36示出一例由多臺攝像機求手方向并進行歸一化的方法的概念。另外，圖36中舉例說明一例用3臺攝像機的場合。
現(xiàn)假定3臺攝像機在圖36所示位置上對手進行攝影。
首先，手圖像歸一化部21用與上述各實施例中所說明的相同方法消除各輸入手圖像的手腕區(qū)域。接著，手圖像歸一化部21使消除了手腕區(qū)域的輸入手圖像的手區(qū)域移動至圖像中心，求手區(qū)域轉動慣量主軸方向(與上述第十實施例區(qū)域移動部64和旋轉角計算部65中說明的方法相同)。接著，手圖像歸一化部21根據(jù)所求的轉動慣量主軸求三維空間主軸方向作為向量值，求所求得的主軸方向相對于各攝像機朝向與光軸垂直的一定方向的變換矩陣。接下來，手圖像歸一化部21按照所求得的變換矩陣，使各攝像機攝像輸入的輸入手圖像變形。另外，對于輸入手圖像的變形，可采取利用一般進行的仿射變換的變形方法。
綜上所述，按照本發(fā)明第十一實施例的手形手勢識別裝置和識別方法，手形圖像信息存儲部12A～12C只存儲對于繞手掌主軸旋轉的手形圖像時，也能對實際上不作為手形圖像存儲的手方向圖像進行手形和手勢的識別。
權利要求
1.一種手形手勢識別裝置，為對光學讀取手段所取得的手的圖像(以下稱為輸入手圖像)進行手形和手勢識別的裝置，其特征在于，包括輸入預先對種種形狀和姿勢的手進行攝像得到的多個圖像，并分別生成該圖像消除手腕區(qū)域后預先確定的圖像形態(tài)(手的方向、圖像的大小、圖像的亮度)經(jīng)過歸一化的手形圖像的第一手圖像歸一化手段(11)；將上述手形圖像和與該手形圖像相關的形狀信息和姿勢信息一起分別存儲的手形圖像信息存儲手段(12A)；進行本征空間法的解析，根據(jù)所述手形圖像分別計算本征值和本征向量的本征空間計算手段(13)；存儲所述本征向量集合的本征向量存儲手段(14)；將所述手形圖像投影至以所述本征向量為基底的本征空間，分別求得該本征空間內(nèi)投影座標，并存儲于所述手形圖像信息存儲手段(12A)的第一本征空間投影手段(15)；將所述輸入手圖像輸入，生成該輸入圖像消除手腕區(qū)域后按與所述手形圖像為同類圖像形態(tài)那樣經(jīng)過歸一化的輸入手形圖像的第二手圖像歸一化手段(21)；將所述輸入手形圖像投影至以所述本征向量為基底的本征空間，求得該本征空間內(nèi)投影座標的第二本征空間投影手段(22)；分別比較所述第二本征空間投影手段(22)求得的所述投影座標和所述手形圖像信息存儲手段(12A)存儲的所述投影座標，求得與所述輸入手形圖像最為接近的所述手形圖像的手形圖像選擇手段(23)；以及從所述手形圖像信息存儲手段(12A)當中取得并輸出所述最為接近的手形圖像的所述形狀信息和所述姿勢信息的形狀·姿勢輸出手段(24)。
2.一種手形手勢識別裝置，為對光學讀取手段所取得的手的圖像(以下稱為輸入手圖像)進行手形和手勢識別的裝置，其特征在于，包括輸入預先對種種形狀和姿勢的手進行攝像得到的多個圖像，并分別生成該圖像消除手腕區(qū)域后預先確定的圖像形態(tài)(手的方向、圖像的大小、圖像的亮度)經(jīng)過歸一化的手形圖像的第一手圖像歸一化手段(11)；將上述手形圖像和與該手形圖像相關的形狀信息和姿勢信息一起分別存儲的手形圖像信息存儲手段(12B)；進行本征空間法的解析，根據(jù)所述手形圖像分別計算本征值和本征向量的本征空間計算手段(13)；存儲所述本征向量集合的本征向量存儲手段(14)；將所述手形圖像投影至以所述本征向量為基底的本征空間，分別求得該本征空間內(nèi)投影座標，并存儲于所述手形圖像信息存儲手段(12B)的第一本征空間投影手段(15)；通過群集分析分別將所述投影座標分組，求得各所述手形圖像屬于哪一群集并存儲于所述手形圖像信息存儲手段(12B)，并求得與各群集相關的統(tǒng)計信息的群集分析手段(16、18)；將所述統(tǒng)計信息與相應的群集一起分別存儲的群集信息存儲手段(17A、17B)；將所述輸入手圖像輸入，生成該輸入圖像消除手腕區(qū)域后按與所述手形圖像為同類圖像形態(tài)那樣經(jīng)過歸一化的輸入手形圖像的第二手圖像歸一化手段(21)；將所述輸入手形圖像投影至以所述本征向量為基底的本征空間，求得該本征空間內(nèi)投影座標的第二本征空間投影手段(22)；分別比較所述第二本征空間投影手段(22)求得的所述投影座標和所述群集信息存儲手段(17A、17B)存儲的所述統(tǒng)計信息，求得最為接近的群集的最近似群集判別手段(25)；分別比較屬于所述最近似群集的所述手形圖像和所述輸入手形圖像，求得與該輸入手形圖像最為接近的所述手形圖像的圖像比較手段(26、27)；以及從所述手形圖像信息存儲手段(12B)當中取得并輸出所述最為接近的手形圖像的所述形狀信息和所述姿勢信息的形狀·姿勢輸出手段(24)。
3.如權利要求2所述的手形手勢識別裝置，其特征在于，圖像比較手段(26、27)包括下列構成比較屬于所述最近似群集判別手段(25)求得的群集的所述手形圖像和所述第二手圖像歸一化手段(21)生成的所述輸入手形圖像時，按同一群集內(nèi)的同一形狀對所述手形圖像進行分組的同一形狀分類手段；求得表現(xiàn)所述分組的統(tǒng)計量的形狀分組統(tǒng)計量計算手段；以及計算所述輸入手形圖像和所述統(tǒng)計量之間距離，輸出屬于最為接近分組的形狀的最近似形狀判別手段。
4.如權利要求2所述的手形手勢識別裝置，其特征在于，所述群集分析手段(18)從所述手形圖像信息存儲手段(12B)當中取得針對各群集的所述手形圖像和所述形狀信息，分別計算用以判別各所述手形圖像的部分區(qū)域，存儲于所述群集信息存儲手段(17B)，所述圖像比較手段(27)，比較屬于所述最近似群集判別手段(25)求得的群集的所述手形圖像和所述第二手圖像歸一化手段(21)生成的輸入手形圖像時，僅對與所述群集相對應的所述部分區(qū)域內(nèi)進行比較。
5.如權利要求2所述的手形手勢識別裝置，其特征在于，所述輸入手圖像為從多個視點對識別對象手進行攝像得到的多個圖像時，所述第二手圖像歸一化手段(21)分別就多個所述輸入手圖像生成所述輸入手形圖像，所述第二本征空間投影手段(22)對于所述第二手圖像歸一化手段(21)生成的多個所述輸入手形圖像，分別求得本征空間內(nèi)的投影座標，所述最近似群集判別手段(25)比較所述第二本征空間投影手段(22)求得的各所述投影座標和所述統(tǒng)計信息，來分別求得最為接近的群集，所述圖像比較手段(26、27)綜合所述最近似群集判別手段(25)求得的多個所述最為接近的群集，根據(jù)屬于各群集的所述手形圖像的所述形狀信息和所述姿勢信息推定不矛盾的形狀·姿勢。
6.一種手形手勢識別裝置，為對光學讀取手段所取得的進行一系列具有含義動作的連續(xù)的手的圖像(以下稱為手勢動作圖像)其含義進行識別的裝置，其特征在于，包括輸入預先對種種形狀和姿勢的手進行攝像得到的多個圖像，并分別生成該圖像消除手腕區(qū)域后預先確定的圖像形態(tài)(手的方向、圖像的大小、圖像的亮度)經(jīng)過歸一化的手形圖像的第一手圖像歸一化手段(11)；將上述手形圖像和與該手形圖像相關的形狀信息和姿勢信息一起分別存儲的手形圖像信息存儲手段(12B、12C)；進行本征空間法的解析，根據(jù)所述手形圖像分別計算本征值和本征向量的本征空間計算手段(13)；存儲所述本征向量集合的本征向量存儲手段(14)；將所述手形圖像投影至以所述本征向量為基底的本征空間，分別求得該本征空間內(nèi)投影座標，并存儲于所述手形圖像信息存儲手段(12B、12C)的第一本征空間投影手段(15)；通過群集分析分別將所述投影座標分組，求得各所述手形圖像屬于哪一群集并存儲于所述手形圖像信息存儲手段(12B、12C)，并求得與各群集相關的統(tǒng)計信息的群集分析手段(16)；將所述統(tǒng)計信息與相應的群集一起分別存儲的群集信息存儲手段(17A)；將所述手勢動作圖像輸入，從該手勢動作圖像的各個圖像當中分別檢出手區(qū)域的手區(qū)域檢出手段(28、48、58)在所述檢出的手區(qū)域中分別求得所述手勢動作圖像的手活動，按照手活動求得手動作分節(jié)節(jié)點的手動作分節(jié)手段(29)；根據(jù)所述手勢動作圖像中為手動作分節(jié)節(jié)點的圖像，將所述檢出的手區(qū)域部分截取的手圖像截取手段(30)；對所述手圖像截取手段(30)從所述手勢動作圖像當中截取的1幅以上的手圖像(以下稱為手圖像序列)，分別生成該手圖像消除手腕區(qū)域后按與所述手形圖像為同類圖像形態(tài)那樣經(jīng)過歸一化的輸入手形圖像的第二手圖像歸一化手段(21)；將所述輸入手形圖像投影至以所述本征向量為基底的本征空間，分別求得該本征空間內(nèi)投影座標的第二本征空間投影手段(22)；分別比較所述第二本征空間投影手段22求得的所述投影座標和所述群集信息存儲手段(17A)存儲的所述統(tǒng)計信息，求得最為接近的群集，分別輸出規(guī)定該群集的符號的最近似群集判別手段(25)；將所述最近似群集判別手段(25)輸出的所述手圖像序列對應的符號(以下稱為符號序列)與該手圖像序列之源的所述手勢動作圖像的含義一起登錄于序列識別詞典手段的序列登錄手段(31)；存儲所述手勢動作圖像含義和相應的所述符號序列的所述序列識別詞典手段(32)；以及從所述序列識別詞典手段(32)當中取得并輸出所述最近似群集判別手段(25)所輸出的所述符號序列相應含義的識別運算手段(33A、33B)。
7.如權利要求6所述的手形手勢識別裝置，其特征在于，還包括將所述手勢動作圖像輸入，根據(jù)該圖像動作主體的活動和位置輸出候選含義的總體動作認識手段(37)；以及根據(jù)具有一系列含義的動作，預先存儲約束條件以限制所輸入的所述手勢動作圖像含義的約束條件存儲手段(38)，所述識別運算手段(33B)按照所述約束條件，從所述序列識別詞典手段(32)當中取得并輸出所述最近似群集判別手段(25)所輸出的所述符號序列相應的含義。
8.如權利要求6所述的手形手勢識別裝置，其特征在于，所述手區(qū)域檢出手段(48)包括以下構成從所輸入的所述手勢動作圖像的各個圖像當中分別截取作為候選手區(qū)域的區(qū)域的候選區(qū)域截取手段(39)；存儲屏蔽區(qū)域以便從矩形區(qū)域當中取出為候選手圖像的區(qū)域的屏蔽區(qū)存儲手段(40)；從所述手勢動作圖像當中截取的候選手區(qū)域這一區(qū)域，增加所述屏蔽區(qū)域，接下來分別生成與計算所述本征向量時所用的手圖像為同類圖像形態(tài)那樣經(jīng)過歸一化的圖像的手區(qū)域圖像歸一化手段(41)；將所述候選手區(qū)域的區(qū)域經(jīng)歸一化的圖像投影至以所述本征向量為基底的本征空間，分別求得該本征空間內(nèi)投影座標的手區(qū)域本征空間投影手段(22)；分別比較所述手區(qū)域本征空間投影手段(22)求得的所述投影座標和所述群集信息存儲手段(17A)存儲的所述統(tǒng)計信息，求得最為接近的群集，分別輸出一評價值以表明規(guī)定該群集的符號和比較對象群集之間接近度的手區(qū)域最近似群集判別手段(25)；以及根據(jù)所述評價值，輸出所述評價值最高的所述候選手區(qū)域其位置信息和其群集的區(qū)域確定手段(42)。
9.如權利要求7所述的手形手勢識別裝置，其特征在于，所述手區(qū)域檢出手段(48)包括以下構成從所輸入的所述手勢動作圖像的各個圖像當中分別截取作為候選手區(qū)域的區(qū)域的候選區(qū)域截取手段(39)；存儲屏蔽區(qū)域以便從矩形區(qū)域當中取出為候選手圖像的區(qū)域的屏蔽區(qū)存儲手段(40)；從所述手勢動作圖像當中截取的候選手區(qū)域這一區(qū)域，增加所述屏蔽區(qū)域，接下來分別生成與計算所述本征向量時所用的手圖像為同類圖像形態(tài)那樣經(jīng)過歸一化的圖像的手區(qū)域圖像歸一化手段(41)；將所述候選手區(qū)域的區(qū)域經(jīng)歸一化的圖像投影至以所述本征向量為基底的本征空間，分別求得該本征空間內(nèi)投影座標的手區(qū)域本征空間投影手段(22)；分別比較所述手區(qū)域本征空間投影手段(22)求得的所述投影座標和所述群集信息存儲手段(17A)存儲的所述統(tǒng)計信息，求得最為接近的群集，分別輸出一評價值以表明規(guī)定該群集的符號和比較對象群集之間接近度的手區(qū)域最近似群集判別手段(25)；以及根據(jù)所述評價值，輸出所述評價值最高的所述候選手區(qū)域其位置信息和其群集的區(qū)域確定手段(42)。
10.如權利要求1所述的手形手勢識別裝置，其特征在于，所述第一手圖像歸一化手段(11)和所述第二手圖像歸一化手段(21)分別包括以下構成預先按色分布存儲所輸入的手圖像中應提取的所述手區(qū)域的色分布存儲手段(61)；按照所述色分布，從所輸入的手圖像當中提取手區(qū)域的手區(qū)域提取手段(62)；求得手腕方向，按照該手腕方向從所述手區(qū)域當中消除手腕區(qū)域的手腕區(qū)域消除手段(63)；使消除所述手腕區(qū)域的所述手區(qū)域移動至圖像上預先定義的位置的區(qū)域移動手段(64)；求得旋轉角使所述手區(qū)域內(nèi)的手朝向預定的一定方向的旋轉角計算手段(65)；按照所述旋轉角，旋轉所述手區(qū)域使手朝向一定方向的區(qū)域旋轉手段(66)；以及將旋轉的所述手區(qū)域的大小歸一化為預定的一定大小的大小歸一化手段(67)。
11.如權利要求2所述的手形手勢識別裝置，其特征在于，所述第一手圖像歸一化手段(11)和所述第二手圖像歸一化手段(21)分別包括以下構成預先按色分布存儲所輸入的手圖像中應提取的所述手區(qū)域的色分布存儲手段(61)；按照所述色分布，從所輸入的手圖像當中提取手區(qū)域的手區(qū)域提取手段(62)；求得手腕方向，按照該手腕方向從所述手區(qū)域當中消除手腕區(qū)域的手腕區(qū)域消除手段(63)；使消除所述手腕區(qū)域的所述手區(qū)域移動至圖像上預先定義的位置的區(qū)域移動手段(64)；求得旋轉角使所述手區(qū)域內(nèi)的手朝向預定的一定方向的旋轉角計算手段(65)；按照所述旋轉角，旋轉所述手區(qū)域使手朝向一定方向的區(qū)域旋轉手段(66)；以及將旋轉的所述手區(qū)域的大小歸一化為預定的一定大小的大小歸一化手段(67)。
12.如權利要求6所述的手形手勢識別裝置，其特征在于，所述第一手圖像歸一化手段(11)和所述第二手圖像歸一化手段(21)分別包括以下構成預先按色分布存儲所輸入的手圖像中應提取的所述手區(qū)域的色分布存儲手段(61)；按照所述色分布，從所輸入的手圖像當中提取手區(qū)域的手區(qū)域提取手段(62)；求得手腕方向，按照該手腕方向從所述手區(qū)域當中消除手腕區(qū)域的手腕區(qū)域消除手段(63)；使消除所述手腕區(qū)域的所述手區(qū)域移動至圖像上預先定義的位置的區(qū)域移動手段(64)；求得旋轉角使所述手區(qū)域內(nèi)的手朝向預定的一定方向的旋轉角計算手段(65)；按照所述旋轉角，旋轉所述手區(qū)域使手朝向一定方向的區(qū)域旋轉手段(66)；以及將旋轉的所述手區(qū)域的大小歸一化為預定的一定大小的大小歸一化手段(67)。
13.如權利要求1所述的手形手勢識別裝置，其特征在于，還包括分別存儲所述形狀信息和所述姿勢信息所對應的命令的命令存儲手段；以及將所述形狀·姿勢輸出手段所輸出的所述形狀信息和所述姿勢信息輸入，從所述命令存儲手段取得并輸出該形狀信息和該姿勢信息所對應的命令的命令輸出手段。
14.一種手形手勢識別方法，為對光學讀取手段所取得的手的圖像(以下稱為輸入手圖像)進行手形和手勢識別的方法，其特征在于，包括輸入預先對種種形狀和姿勢的手進行攝像得到的多個圖像，并分別生成該圖像消除手腕區(qū)域后預先確定的圖像形態(tài)(手的方向、圖像的大小、圖像的亮度)經(jīng)過歸一化的手形圖像的第一歸一化步驟；進行本征空間法的解析，根據(jù)所述手形圖像分別計算本征值和本征向量的解析步驟；將所述手形圖像投影至以所述本征向量為基底的本征空間，分別求得該本征空間內(nèi)投影座標的第一投影步驟；將所述輸入手圖像輸入，生成該輸入圖像消除手腕區(qū)域后按與所述手形圖像為同類圖像形態(tài)那樣經(jīng)過歸一化的輸入手形圖像的第二歸一化步驟；將所述輸入手形圖像投影至以所述本征向量為基底的本征空間，求得該本征空間內(nèi)投影座標的第二投影步驟；分別比較就所述手形圖像求得的所述投影座標和就所述輸入手形圖像求得的所述投影座標，求得與所述輸入手形圖像最為接近的所述手形圖像的比較步驟；以及輸出所述最為接近的手形圖像的所述形狀信息和所述姿勢信息的步驟。
15.一種手形手勢識別方法，為對光學讀取手段所取得的手的圖像(以下稱為輸入手圖像)進行手形和手勢識別的方法，其特征在于，包括輸入預先對種種形狀和姿勢的手進行攝像得到的多個圖像，并分別生成該圖像消除手腕區(qū)域后預先確定的圖像形態(tài)(手的方向、圖像的大小、圖像的亮度)經(jīng)過歸一化的手形圖像的第一歸一化步驟；進行本征空間法的解析，根據(jù)所述手形圖像分別計算本征值和本征向量的解析步驟；將所述手形圖像投影至以所述本征向量為基底的本征空間，分別求得該本征空間內(nèi)投影座標的第一投影步驟；通過群集分析分別將所述投影座標分組，求得各所述手形圖像屬于哪一群集和與各群集相關的統(tǒng)計信息的分析步驟；將所述輸入手圖像輸入，生成該輸入圖像消除手腕區(qū)域后按與所述手形圖像為同類圖像形態(tài)那樣經(jīng)過歸一化的輸入手形圖像的第二歸一化步驟；將所述輸入手形圖像投影至以所述本征向量為基底的本征空間，求得該本征空間內(nèi)投影座標的第二投影步驟；分別比較就所述輸入手形圖像求得的所述投影座標和所述統(tǒng)計信息，求得最為接近的群集的判別步驟；分別比較屬于所述最近似群集的所述手形圖像和所述輸入手形圖像，求得與該輸入手形圖像最為接近的所述手形圖像的比較步驟；以及輸出所述最為接近的手形圖像的所述形狀信息和所述姿勢信息的步驟。
16.如權利要求15所述的手形手勢識別方法，其特征在于，所述比較步驟包括下列步驟比較屬于所述判別步驟求得的群集的所述手形圖像和所述第二歸一化步驟生成的所述輸入手形圖像時，按同一群集內(nèi)的同一形狀對所述手形圖像進行分組的步驟；求得表現(xiàn)所述分組的統(tǒng)計量的步驟；以及計算所述輸入手形圖像和所述統(tǒng)計量之間距離，輸出屬于最為接近分組的形狀的步驟。
17.如權利要求15所述的手形手勢識別方法，其特征在于，所述分析步驟根據(jù)針對各群集的所述手形圖像和所述形狀信息，分別計算用以判別各所述手形圖像的部分區(qū)域，所述比較步驟，比較屬于所述判別步驟求得的群集的所述手形圖像和所述第二歸一化步驟生成的輸入手形圖像時，僅對與所述群集相對應的所述部分區(qū)域內(nèi)進行比較。
18.如權利要求15所述的手形手勢識別方法，其特征在于，所述輸入手圖像為從多個視點對識別對象手進行攝像得到的多個圖像時，所述第二歸一化步驟分別就多個所述輸入手圖像生成所述輸入手形圖像，所述第二投影步驟對于所述第二歸一化步驟生成的多個所述輸入手形圖像，分別求得本征空間內(nèi)的投影座標，所述判別步驟比較所述第二投影步驟求得的各所述投影座標和所述統(tǒng)計信息，來分別求得最為接近的群集，所述比較步驟綜合所述判別步驟求得的多個所述最為接近的群集，根據(jù)屬于各群集的所述手形圖像的所述形狀信息和所述姿勢信息推定不矛盾的形狀·姿勢。
19.一種手形手勢識別方法，為對光學讀取手段所取得的進行一系列具有含義動作的連續(xù)的手的圖像(以下稱為手勢動作圖像)其含義進行識別的方法，其特征在于，包括輸入預先對種種形狀和姿勢的手進行攝像得到的多個圖像，并分別生成該圖像消除手腕區(qū)域后預先確定的圖像形態(tài)(手的方向、圖像的大小、圖像的亮度)經(jīng)過歸一化的手形圖像的第一歸一化步驟；進行本征空間法的解析，根據(jù)所述手形圖像分別計算本征值和本征向量的解析步驟；將所述手形圖像投影至以所述本征向量為基底的本征空間，分別求得該本征空間內(nèi)投影座標的第一投影步驟；通過群集分析分別將所述投影座標分組，求得各所述手形圖像屬于哪一群集和與各群集相關的統(tǒng)計信息的分析步驟；將所述手勢動作圖像輸入，從該手勢動作圖像的各個圖像當中分別檢出手區(qū)域的檢出步驟；在所述檢出的手區(qū)域中分別求得所述手勢動作圖像的手活動，按照手活動求得手動作分節(jié)節(jié)點的分節(jié)步驟；根據(jù)所述手勢動作圖像中為手動作分節(jié)節(jié)點的圖像，將所述檢出的手區(qū)域部分截取的截取步驟；對從所述手勢動作圖像當中截取的1幅以上的手圖像(以下稱為手圖像序列)，分別生成該手圖像消除手腕區(qū)域后按與所述手形圖像為同類圖像形態(tài)那樣經(jīng)過歸一化的輸入手形圖像的第二歸一化步驟；將所述輸入手形圖像投影至以所述本征向量為基底的本征空間，分別求得該本征空間內(nèi)投影座標的第二投影步驟；分別比較就所述輸入手形圖像求得的所述投影座標和所述統(tǒng)計信息，求得最為接近的群集，分別輸出規(guī)定該群集的符號的判別步驟；將所判別的所述手圖像序列對應的符號(以下稱為符號序列)與該手圖像序列之源的所述手勢動作圖像的含義一起存儲的步驟；以及識別所輸入的所述手勢動作圖像時，根據(jù)所存儲的所述符號序列及其含義，輸出所判別的所述符號序列相應含義的識別步驟。
20.如權利要求19所述的手形手勢識別方法，其特征在于，還包括將所述手勢動作圖像輸入，根據(jù)該圖像動作主體的活動和位置輸出候選含義的認識步驟；以及根據(jù)具有一系列含義的動作，預先存儲約束條件以限制所輸入的所述手勢動作圖像含義的存儲步驟，所述識別步驟按照所述約束條件，并根據(jù)所存儲的所述符號序列及其含義輸出所判別的所述符號序列相應的含義。
21.如權利要求19所述的手形手勢識別方法，其特征在于，所述檢出步驟包括以下步驟從所輸入的所述手勢動作圖像的各個圖像當中分別截取作為候選手區(qū)域的區(qū)域的截取步驟；存儲屏蔽區(qū)域以便從矩形區(qū)域當中取出為候選手圖像的區(qū)域的存儲步驟；從所述手勢動作圖像當中截取的候選手區(qū)域這一區(qū)域，增加所述屏蔽區(qū)域，接下來分別生成與計算所述本征向量時所用的手圖像為同類圖像形態(tài)那樣經(jīng)過歸一化的圖像的歸一化步驟；將所述候選手區(qū)域的區(qū)域經(jīng)歸一化的圖像投影至以所述本征向量為基底的本征空間，分別求得該本征空間內(nèi)投影座標的投影步驟；分別比較所述投影座標和所述統(tǒng)計信息，求得最為接近的群集，分別輸出一評價值以表明規(guī)定該群集的符號和比較對象群集之間接近度的判別步驟；以及根據(jù)所述評價值，輸出所述評價值最高的所述候選手區(qū)域其位置信息和其群集的確定步驟。
22.如權利要求20所述的手形手勢識別方法，其特征在于，所述檢出步驟包括以下步驟從所輸入的所述手勢動作圖像的各個圖像當中分別截取作為候選手區(qū)域的區(qū)域的截取步驟；存儲屏蔽區(qū)域以便從矩形區(qū)域當中取出為候選手圖像的區(qū)域的存儲步驟；從所述手勢動作圖像當中截取的候選手區(qū)域這一區(qū)域，增加所述屏蔽區(qū)域，接下來分別生成與計算所述本征向量時所用的手圖像為同類圖像形態(tài)那樣經(jīng)過歸一化的圖像的歸一化步驟；將所述候選手區(qū)域的區(qū)域經(jīng)歸一化的圖像投影至以所述本征向量為基底的本征空間，分別求得該本征空間內(nèi)投影座標的投影步驟；分別比較所述投影座標和所述統(tǒng)計信息，求得最為接近的群集，分別輸出一評價值以表明規(guī)定該群集的符號和比較對象群集之間接近度的判別步驟；以及根據(jù)所述評價值，輸出所述評價值最高的所述候選手區(qū)域其位置信息和其群集的確定步驟。
23.如權利要求15所述的手形手勢識別方法，其特征在于，所述第一歸一化步驟和所述第二歸一化步驟分別包括以下步驟預先按色分布存儲所輸入的手圖像中應提取的所述手區(qū)域的色存儲步驟；按照所述色分布，從所輸入的手圖像當中提取手區(qū)域的步驟；求得手腕方向，按照該手腕方向從所述手區(qū)域當中消除手腕區(qū)域的步驟；使消除所述手腕區(qū)域的所述手區(qū)域移動至圖像上預先定義的位置的步驟；求得旋轉角使所述手區(qū)域內(nèi)的手朝向預定的一定方向的步驟；按照所述旋轉角，旋轉所述手區(qū)域使手朝向一定方向的步驟；以及將旋轉的所述手區(qū)域的大小歸一化為預定的一定大小的步驟。
24.如權利要求16所述的手形手勢識別方法，其特征在于，所述第一歸一化步驟和所述第二歸一化步驟分別包括以下步驟預先按色分布存儲所輸入的手圖像中應提取的所述手區(qū)域的色存儲步驟；按照所述色分布，從所輸入的手圖像當中提取手區(qū)域的步驟；求得手腕方向，按照該手腕方向從所述手區(qū)域當中消除手腕區(qū)域的步驟；使消除所述手腕區(qū)域的所述手區(qū)域移動至圖像上預先定義的位置的步驟；求得旋轉角使所述手區(qū)域內(nèi)的手朝向預定的一定方向的步驟；按照所述旋轉角，旋轉所述手區(qū)域使手朝向一定方向的步驟；以及將旋轉的所述手區(qū)域的大小歸一化為預定的一定大小的步驟。
25.如權利要求20所述的手形手勢識別方法，其特征在于，所述第一歸一化步驟和所述第二歸一化步驟分別包括以下步驟預先按色分布存儲所輸入的手圖像中應提取的所述手區(qū)域的色存儲步驟；按照所述色分布，從所輸入的手圖像當中提取手區(qū)域的步驟；求得手腕方向，按照該手腕方向從所述手區(qū)域當中消除手腕區(qū)域的步驟；使消除所述手腕區(qū)域的所述手區(qū)域移動至圖像上預先定義的位置的步驟；求得旋轉角使所述手區(qū)域內(nèi)的手朝向預定的一定方向的步驟；按照所述旋轉角，旋轉所述手區(qū)域使手朝向一定方向的步驟；以及將旋轉的所述手區(qū)域的大小歸一化為預定的一定大小的步驟。
26.如權利要求15所述的手形手勢識別方法，其特征在于，還包括分別存儲所述形狀信息和所述姿勢信息所對應的命令的命令存儲步驟；以及將所述輸出步驟所輸出的所述形狀信息和所述姿勢信息輸入，從所述命令存儲步驟取得并輸出該形狀信息和該姿勢信息所對應的命令的步驟。
27.一種記錄媒體，所記錄的程序用以在計算機裝置中執(zhí)行對光學讀取手段所取得的手的圖像(以下稱為輸入手圖像)進行手形和手勢識別的方法，其特征在于，所記錄的程序用以在所述計算機裝置上實現(xiàn)一工作環(huán)境，它包括下列步驟輸入預先對種種形狀和姿勢的手進行攝像得到的多個圖像，并分別生成該圖像消除手腕區(qū)域后預先確定的圖像形態(tài)(手的方向、圖像的大小、圖像的亮度)經(jīng)過歸一化的手形圖像的第一歸一化步驟；進行本征空間法的解析，根據(jù)所述手形圖像分別計算本征值和本征向量的解析步驟；將所述手形圖像投影至以所述本征向量為基底的本征空間，分別求得該本征空間內(nèi)投影座標的第一投影步驟；將所述輸入手圖像輸入，生成該輸入圖像消除手腕區(qū)域后按與所述手形圖像為同類圖像形態(tài)那樣經(jīng)過歸一化的輸入手形圖像的第二歸一化步驟；將所述輸入手形圖像投影至以所述本征向量為基底的本征空間，求得該本征空間內(nèi)投影座標的第二投影步驟；分別比較就所述手形圖像求得的所述投影座標和就所述輸入手形圖像求得的所述投影座標，求得與所述輸入手形圖像最為接近的所述手形圖像的比較步驟；以及輸出所述最為接近的手形圖像的所述形狀信息和所述姿勢信息的步驟。
28.一種記錄媒體，所記錄的程序用以在計算機裝置中執(zhí)行對光學讀取手段所取得的手的圖像(以下稱為輸入手圖像)進行手形和手勢識別的方法，其特征在于，所記錄的程序用以在所述計算機裝置上實現(xiàn)一工作環(huán)境，它包括下列步驟輸入預先對種種形狀和姿勢的手進行攝像得到的多個圖像，并分別生成該圖像消除手腕區(qū)域后預先確定的圖像形態(tài)(手的方向、圖像的大小、圖像的亮度)經(jīng)過歸一化的手形圖像的第一歸一化步驟；進行本征空間法的解析，根據(jù)所述手形圖像分別計算本征值和本征向量的解析步驟；將所述手形圖像投影至以所述本征向量為基底的本征空間，分別求得該本征空間內(nèi)投影座標的第一投影步驟；通過群集分析分別將所述投影座標分組，求得各所述手形圖像屬于哪一群集和與各群集相關的統(tǒng)計信息的分析步驟；將所述輸入手圖像輸入，生成該輸入圖像消除手腕區(qū)域后按與所述手形圖像為同類圖像形態(tài)那樣經(jīng)過歸一化的輸入手形圖像的第二歸一化步驟；將所述輸入手形圖像投影至以所述本征向量為基底的本征空間，求得該本征空間內(nèi)投影座標的第二投影步驟；分別比較就所述輸入手形圖像求得的所述投影座標和所述統(tǒng)計信息，求得最為接近的群集的判別步驟；分別比較屬于所述最近似群集的所述手形圖像和所述輸入手形圖像，求得與該輸入手形圖像最為接近的所述手形圖像的比較步驟；以及輸出所述最為接近的手形圖像的所述形狀信息和所述姿勢信息的步驟。
29.如權利要求28所述的記錄媒體，其特征在于，所述比較步驟包括下列步驟比較屬于所述判別步驟求得的群集的所述手形圖像和所述第二歸一化步驟生成的所述輸入手形圖像時，按同一群集內(nèi)的同一形狀對所述手形圖像進行分組的步驟；求得表現(xiàn)所述分組的統(tǒng)計量的步驟；以及計算所述輸入手形圖像和所述統(tǒng)計量之間距離，輸出屬于最為接近分組的形狀的步驟。
30.如權利要求28所述的記錄媒體，其特征在于，所述分析步驟根據(jù)針對各群集的所述手形圖像和所述形狀信息，分別計算用以判別各所述手形圖像的部分區(qū)域，所述比較步驟，比較屬于所述判別步驟求得的群集的所述手形圖像和所述第二歸一化步驟生成的輸入手形圖像時，僅對與所述群集相對應的所述部分區(qū)域內(nèi)進行比較。
31.如權利要求28所述的記錄媒體，其特征在于，所述輸入手圖像為從多個視點對識別對象手進行攝像得到的多個圖像時，所述第二歸一化步驟分別就多個所述輸入手圖像生成所述輸入手形圖像，所述第二投影步驟對于所述第二歸一化步驟生成的多個所述輸入手形圖像，分別求得本征空間內(nèi)的投影座標，所述判別步驟比較所述第二投影步驟求得的各所述投影座標和所述統(tǒng)計信息，來分別求得最為接近的群集，所述比較步驟綜合所述判別步驟求得的多個所述最為接近的群集，根據(jù)屬于各群集的所述手形圖像的所述形狀信息和所述姿勢信息推定不矛盾的形狀·姿勢。
32.一種記錄媒體，所記錄的程序用以在計算機裝置中執(zhí)行對光學讀取手段所取得的進行一連串有含義動作的連續(xù)手圖像(以下稱為輸入手圖像)進行手形和手勢識別的方法，其特征在于，所記錄的程序用以在所述計算機裝置上實現(xiàn)一工作環(huán)境，它包括下列步驟輸入預先對種種形狀和姿勢的手進行攝像得到的多個圖像，并分別生成該圖像消除手腕區(qū)域后預先確定的圖像形態(tài)(手的方向、圖像的大小、圖像的亮度)經(jīng)過歸一化的手形圖像的第一歸一化步驟；進行本征空間法的解析，根據(jù)所述手形圖像分別計算本征值和本征向量的解析步驟；將所述手形圖像投影至以所述本征向量為基底的本征空間，分別求得該本征空間內(nèi)投影座標的第一投影步驟；通過群集分析分別將所述投影座標分組，求得各所述手形圖像屬于哪一群集和與各群集相關的統(tǒng)計信息的分析步驟；將所述手勢動作圖像輸入，從該手勢動作圖像的各個圖像當中分別檢出手區(qū)域的檢出步驟；在所述檢出的手區(qū)域中分別求得所述手勢動作圖像的手活動，按照手活動求得手動作分節(jié)節(jié)點的分節(jié)步驟；根據(jù)所述手勢動作圖像中為手動作分節(jié)節(jié)點的圖像，將所述檢出的手區(qū)域部分截取的截取步驟；對從所述手勢動作圖像當中截取的1幅以上的手圖像(以下稱為手圖像序列)，分別生成該手圖像消除手腕區(qū)域后按與所述手形圖像為同類圖像形態(tài)那樣經(jīng)過歸一化的輸入手形圖像的第二歸一化步驟；將所述輸入手形圖像投影至以所述本征向量為基底的本征空間，分別求得該本征空間內(nèi)投影座標的第二投影步驟；分別比較就所述輸入手形圖像求得的所述投影座標和所述統(tǒng)計信息，求得最為接近的群集，分別輸出規(guī)定該群集的符號的判別步驟；將所判別的所述手圖像序列對應的符號(以下稱為符號序列)與該手圖像序列之源的所述手勢動作圖像的含義一起存儲的步驟；以及識別所輸入的所述手勢動作圖像時，根據(jù)所存儲的所述符號序列及其含義，輸出所判別的所述符號序列相應含義的識別步驟。
33.如權利要求32所述的記錄媒體，其特征在于，還包括將所述手勢動作圖像輸入，根據(jù)該圖像動作主體的活動和位置輸出候選含義的認識步驟；以及根據(jù)具有一系列含義的動作，預先存儲約束條件以限制所輸入的所述手勢動作圖像含義的存儲步驟，所述識別步驟按照所述約束條件，并根據(jù)所存儲的所述符號序列及其含義輸出所判別的所述符號序列相應的含義。
34.如權利要求32所述的記錄媒體，其特征在于，所述檢出步驟包括以下步驟從所輸入的所述手勢動作圖像的各個圖像當中分別截取作為候選手區(qū)域的區(qū)域的截取步驟；存儲屏蔽區(qū)域以便從矩形區(qū)域當中取出為候選手圖像的區(qū)域的存儲步驟；從所述手勢動作圖像當中截取的候選手區(qū)域這一區(qū)域，增加所述屏蔽區(qū)域，接下來分別生成與計算所述本征向量時所用的手圖像為同類圖像形態(tài)那樣經(jīng)過歸一化的圖像的歸一化步驟；將所述候選手區(qū)域的區(qū)域經(jīng)歸一化的圖像投影至以所述本征向量為基底的本征空間，分別求得該本征空間內(nèi)投影座標的投影步驟；分別比較所述投影座標和所述統(tǒng)計信息，求得最為接近的群集，分別輸出一評價值以表明規(guī)定該群集的符號和比較對象群集之間接近度的判別步驟；以及根據(jù)所述評價值，輸出所述評價值最高的所述候選手區(qū)域其位置信息和其群集的確定步驟。
35.如權利要求33所述的記錄媒體，其特征在于，所述檢出步驟包括以下步驟從所輸入的所述手勢動作圖像的各個圖像當中分別截取作為候選手區(qū)域的區(qū)域的截取步驟；存儲屏蔽區(qū)域以便從矩形區(qū)域當中取出為候選手圖像的區(qū)域的存儲步驟；從所述手勢動作圖像當中截取的候選手區(qū)域這一區(qū)域，增加所述屏蔽區(qū)域，接下來分別生成與計算所述本征向量時所用的手圖像為同類圖像形態(tài)那樣經(jīng)過歸一化的圖像的歸一化步驟；將所述候選手區(qū)域的區(qū)域經(jīng)歸一化的圖像投影至以所述本征向量為基底的本征空間，分別求得該本征空間內(nèi)投影座標的投影步驟；分別比較所述投影座標和所述統(tǒng)計信息，求得最為接近的群集，分別輸出一評價值以表明規(guī)定該群集的符號和比較對象群集之間接近度的判別步驟；以及根據(jù)所述評價值，輸出所述評價值最高的所述候選手區(qū)域其位置信息和其群集的確定步驟。
36.如權利要求28所述的記錄媒體，其特征在于，所述第一歸一化步驟和所述第二歸一化步驟分別包括以下步驟預先按色分布存儲所輸入的手圖像中應提取的所述手區(qū)域的色存儲步驟；按照所述色分布，從所輸入的手圖像當中提取手區(qū)域的步驟；求得手腕方向，按照該手腕方向從所述手區(qū)域當中消除手腕區(qū)域的步驟；使消除所述手腕區(qū)域的所述手區(qū)域移動至圖像上預先定義的位置的步驟；求得旋轉角使所述手區(qū)域內(nèi)的手朝向預定的一定方向的步驟；按照所述旋轉角，旋轉所述手區(qū)域使手朝向一定方向的步驟；以及將旋轉的所述手區(qū)域的大小歸一化為預定的一定大小的步驟。
37.如權利要求29所述的記錄媒體，其特征在于，所述第一歸一化步驟和所述第二歸一化步驟分別包括以下步驟預先按色分布存儲所輸入的手圖像中應提取的所述手區(qū)域的色存儲步驟；按照所述色分布，從所輸入的手圖像當中提取手區(qū)域的步驟；求得手腕方向，按照該手腕方向從所述手區(qū)域當中消除手腕區(qū)域的步驟；使消除所述手腕區(qū)域的所述手區(qū)域移動至圖像上預先定義的位置的步驟；求得旋轉角使所述手區(qū)域內(nèi)的手朝向預定的一定方向的步驟；按照所述旋轉角，旋轉所述手區(qū)域使手朝向一定方向的步驟；以及將旋轉的所述手區(qū)域的大小歸一化為預定的一定大小的步驟。
38.如權利要求33所述的記錄媒體，其特征在于，所述第一歸一化步驟和所述第二歸一化步驟分別包括以下步驟預先按色分布存儲所輸入的手圖像中應提取的所述手區(qū)域的色存儲步驟；按照所述色分布，從所輸入的手圖像當中提取手區(qū)域的步驟；求得手腕方向，按照該手腕方向從所述手區(qū)域當中消除手腕區(qū)域的步驟；使消除所述手腕區(qū)域的所述手區(qū)域移動至圖像上預先定義的位置的步驟；求得旋轉角使所述手區(qū)域內(nèi)的手朝向預定的一定方向的步驟；按照所述旋轉角，旋轉所述手區(qū)域使手朝向一定方向的步驟；以及將旋轉的所述手區(qū)域的大小歸一化為預定的一定大小的步驟。
39.如權利要求27所述的記錄媒體，其特征在于，還包括分別存儲所述形狀信息和所述姿勢信息所對應的命令的命令存儲步驟；以及將所述輸出步驟所輸出的所述形狀信息和所述姿勢信息輸入，從所述命令存儲步驟取得并輸出該形狀信息和該姿勢信息所對應的命令的步驟。
全文摘要
本發(fā)明提供一種對復雜手形圖像也進行手形手勢識別的手形手勢識別裝置和識別方法以及程序記錄媒體。手圖像歸一化部11從種種形狀/姿勢的圖像當中消除手腕區(qū)域,生成對手方向和大小歸一化的手形圖像。本征空間計算部13進行本征空間法的解析,根據(jù)手形圖像求得本征值和本征向量。本征空間投影部15將手形圖像投影到以本征向量為基底的本征空間,求得本征空間內(nèi)的投影坐標。手圖像歸一化部21從輸入手圖像當中消除手腕區(qū)域,生成將大小或亮度歸一化為與手形圖像同等的輸入手形圖像。
文檔編號G09B21/00GK1276572SQ00118340
公開日2000年12月13日申請日期2000年6月8日優(yōu)先權日1999年6月8日
發(fā)明者今川和幸, 松尾英明, 豬木誠二, 呂山申請人:松下電器產(chǎn)業(yè)株式會社, 郵政省通信總合研究所

完整全部詳細技術資料下載