專利名稱:一種基于動作識別的人機互動方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及人機互動領(lǐng)域,特別涉及一種基于動作識別的人機互動方法及裝置。
背景技術(shù):
人機互動是一種系統(tǒng)與用戶之間互動的過程,系統(tǒng)可以是各種各樣的機器,也可以是計算機化的裝置或軟件。目前常見的人機互動,一般是通過人機交互界面進行互動,人機交互界面通常是指用戶可見的部分,用戶通過人機交互界面提供的指令輸入設(shè)備與系統(tǒng)交流,并進行操作,例如收音機的播放按鍵,飛機上的儀表板、或發(fā)電廠的控制室。
根據(jù)現(xiàn)有人機互動的方式所開發(fā)的智能玩具能支持簡單人機互動,包括通過按鈕來選擇和播放預(yù)存的故事或音樂,通過感應(yīng)器來感應(yīng)用戶的觸摸或搖動,通過語音識別來識別語音指令。但是,對于智能玩具的應(yīng)用來說,目前的人機互動方式過于單一,沒有將視覺這一人類獲取外界信息最主要的渠道應(yīng)用到智能玩具的人機互動中。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的主要目的在于提供一種基于動作識別的人機互動方法及裝置以實現(xiàn)從視覺角度進行人機互動的目的。本發(fā)明提供了一種基于動作識別的人機互動方法,該方法包括利用視頻設(shè)備獲取互動對象的視頻圖像;對所述互動對象的視頻圖像進行運動估計,獲得所述互動對象的運動向量;根據(jù)預(yù)先設(shè)置的匹配條件,利用所述互動對象的運動向量,在動作樣本庫中查詢出最匹配的動作樣本類,在所述動作樣本庫中所述動作樣本類具體通過對動作樣本的運動向量分類獲得;查詢出所述最匹配的動作樣本類在預(yù)先設(shè)置的規(guī)則中對應(yīng)的指令;執(zhí)行所述指令。 優(yōu)選地,該方法還包括在利用視頻設(shè)備獲取互動對象的視頻圖像前和/或執(zhí)行所述指令后,利用音頻發(fā)出相關(guān)語音提示。優(yōu)選地,該方法還包括根據(jù)所述互動對象的運動向量獲得所述互動對象的位置;根據(jù)所述互動對象的位置,按照所述互動對象的各個區(qū)域的比例,獲得所述互動對象的一個或多個區(qū)域的位置;根據(jù)所述互動對象的一個或多個區(qū)域的位置和所述互動對象的運動向量,獲得所述互動對象的一個或多個區(qū)域的運動向量;在所述動作樣本庫中所述動作樣本類還通過對動作樣本的位置分類獲得;所述預(yù)先設(shè)置的匹配條件具體為所述互動對象的一個或多個區(qū)域的運動向量與所述動作樣本類的運動向量最匹配,且所述互動對象的一個或多個區(qū)域的位置與所述動作樣本類的位置最匹配。優(yōu)選地,所述在動作樣本庫中查詢出最匹配的動作樣本類,具體通過采用支持向量機算法的樣本分類器進行查詢,返回最匹配的動作樣本類,所述樣本分類器具體通過采用支持向量機算法對動作樣本的運動向量分類學(xué)習(xí)獲得。優(yōu)選地,在所述動作樣本庫中的動作樣本類具體通過對動作樣本的運動向量采用樹狀結(jié)構(gòu)分類獲得;所述樹狀結(jié)構(gòu)按照動作樣本類的語義邏輯分層;所述樹狀結(jié)構(gòu)的每個葉子節(jié)點對應(yīng)一個或多個動作樣本的運動向量;所述樹狀結(jié)構(gòu)的每個非葉子節(jié)點根據(jù)其包括的葉子節(jié)點對應(yīng)到一個或多個動作樣本的運動向量;
所述樹狀結(jié)構(gòu)的每個節(jié)點對應(yīng)一個動作樣本類;所述樹狀結(jié)構(gòu)的每個節(jié)點對應(yīng)一個采用支持向量機算法的樣本分類器,所述樣本分類器具體通過采用支持向量機算法對該節(jié)點對應(yīng)的動作樣本的運動向量分類學(xué)習(xí)獲得;所述動作樣本類由唯一動作分類代號標(biāo)識。本發(fā)明還提供一種基于動作識別的人機互動裝置,該裝置包括視頻圖像采集單元用于利用視頻設(shè)備獲取互動對象的視頻圖像,將所述互動對象的視頻圖像發(fā)送至運動估計單元;運動估計單元用于對所述互動對象的視頻圖像進行運動估計,獲得所述互動對象的運動向量,將所述互動對象的運動向量發(fā)送至識別單元;識別單元用于根據(jù)預(yù)先設(shè)置的匹配條件,利用所述互動對象的運動向量,在動作樣本庫中查詢出最匹配的動作樣本類,在所述動作樣本庫中所述動作樣本類具體通過對動作樣本的運動向量分類獲得,將所述最匹配的動作樣本類發(fā)送至指令查詢單元;指令查詢單元用于查詢出所述最匹配的動作樣本類在預(yù)先設(shè)置的規(guī)則中對應(yīng)的指令,將所述指令發(fā)送至執(zhí)行單元;指令執(zhí)行單元執(zhí)行所述指令。可見本發(fā)明具有如下有益效果由于本發(fā)明利用視頻設(shè)備獲取互動對象的視頻圖像,對互動對象的視頻圖像進行運動估計,獲得所述互動對象的運動向量,又根據(jù)預(yù)先設(shè)置的匹配條件,利用所述互動對象的運動向量,在動作樣本庫中查詢出最匹配的動作樣本類,查詢出所述最匹配的動作樣本類在預(yù)先設(shè)置的規(guī)則中對應(yīng)的指令,執(zhí)行所述指令,使得機器從類似于人眼的視覺角度出發(fā),以互動對象的動作作為輸入,執(zhí)行相應(yīng)的指令,提高了人機互動的智能化程度;而且本發(fā)明還包括語音提示互動過程,增加互動效果;本發(fā)明還以互動對象的一個或多個區(qū)域的動作作為輸入,執(zhí)行相應(yīng)的指令,提高了人機互動的靈活性;另外,本發(fā)明還采用樹狀結(jié)構(gòu)分類動作樣本的運動向量,將動作樣本類與樹狀結(jié)構(gòu)的節(jié)點相對應(yīng),且一個節(jié)點與一個采用支持向量機算法的動作樣本分類器相對應(yīng),使得本發(fā)明的動作樣本類的查詢只對樹狀結(jié)構(gòu)的每一層中最匹配的動作樣本類對應(yīng)的節(jié)點進行下一級查詢,節(jié)省了查詢時間,提高了基于動作識別的人機互動的效率。
圖I是本發(fā)明一種基于動作識別的人機互動方法步驟圖例;圖2是本發(fā)明動作樣本庫的樹狀結(jié)構(gòu)圖例;圖3是本發(fā)明在動作樣本庫中查詢出最匹配的動作樣本類的步驟圖例;圖4是本發(fā)明一種基于動作識別的人機互動裝置組成圖例。
具體實施例方式為使本發(fā)明的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結(jié)合附圖和具體實施方式
對本發(fā)明實施例作進一步詳細的說明。參見圖1,本發(fā)明提供了一種基于動作識別的人機互動方法,包括以下步驟·S101、利用視頻設(shè)備獲取互動對象的視頻圖像;S102、對所述互動對象的視頻圖像進行運動估計,獲得所述互動對象的運動向量;S103、根據(jù)預(yù)先設(shè)置的匹配條件,利用所述互動對象的運動向量,在動作樣本庫中查詢出最匹配的動作樣本類,在所述動作樣本庫中所述動作樣本類具體通過對動作樣本的運動向量分類獲得;S104、查詢出所述最匹配的動作樣本類在預(yù)先設(shè)置的規(guī)則中對應(yīng)的指令;S105、執(zhí)行所述指令。可見,通過以上步驟實現(xiàn)了機器從類似于人眼的視覺角度出發(fā),以互動對象的動作作為輸入,執(zhí)行相應(yīng)的指令,提高了人機互動的智能化程度。現(xiàn)有的運動估計方法其運動向量估計的準確度和速度受視頻圖像的噪聲、光照條件變化、動態(tài)環(huán)境等等的影響,而本發(fā)明所提出的運動估計,采用將視頻圖像從低分辨率到高分辨率逐級分析的方法來降低噪聲影響,提高運動估計的準確度和運算速度,具體包括以下步驟將視頻圖像處理為從低分辨率到高分辨率的不同級別的視頻圖像;具體地,例如將同一視頻圖像處理成從低分辨率到高分辨率三個級別分辨率的視頻圖像第一級分辨率的視頻圖像、第二級分辨率的視頻圖像和第三級分辨率的視頻圖像;按照從低分辨率到高分辨率的順序,將不同級別的視頻圖像,逐個進行以下步驟的處理判斷當(dāng)前級別的視頻圖像是否為最高分辨率的視頻圖像,如果是,則在當(dāng)前級別的視頻圖像上進行運動估計,獲得互動對象最終的運動向量;如果不是,則對當(dāng)前級別的視頻圖像進行以下處理在當(dāng)前級別的視頻圖像上進行運動估計,獲得互動對象的運動向量;根據(jù)互動對象的運動向量,確定互動對象在當(dāng)前級別的視頻圖像上的位置;將所述互動對象的運動向量和在當(dāng)前級別的視頻圖像上的位置,作為下一級視頻圖像進行運動估計的初始數(shù)據(jù)。從以上步驟可見,由于在低分辨率的視頻圖像上,背景干擾不明顯,互動對象的運動較為明顯,先由低分辨率的視頻圖像開始進行運動估計,可以一定程度上排除視頻圖像的噪聲等干擾,將當(dāng)前級別視頻圖像運動估計的結(jié)果作為下一級視頻圖像運動估計的初始數(shù)據(jù),從而逐步精確互動對象的運動向量;其次,由于低分辨率的視頻圖像像素低,其運動估計的運算量比高分辨率的視頻圖像運動估計的運算量小,利用低分辨率視頻圖像運動估計的結(jié)果作為下一級視頻圖像運動估計的初始數(shù)據(jù),減少了運動估計的運算量,提高了運動估計的運算速度,從而快速獲得準確的運動估計結(jié)果和跟蹤。本發(fā)明還包括在利用視頻設(shè)備獲取互動對象的視頻圖像前和/或執(zhí)行所述指令后,利用音頻發(fā)出相關(guān)語音提示;例如,在獲取互動對象的視頻圖像前,可語音提示互動對象執(zhí)行動作以準確獲取互動對象的視頻圖像;在執(zhí)行所述指令后,可語音提示互動對象指令執(zhí)行結(jié)果以增加互動效果、或者提示互動對象進入下一互動環(huán)節(jié);語音提示內(nèi)容具體可以存儲在存儲介質(zhì)中,可設(shè)置為多種語言,具體由依據(jù)本發(fā)明方法實現(xiàn)的具體場景提供選擇語言的相關(guān)設(shè)置。需要說明的是,依據(jù)步驟S103中的所述預(yù)先設(shè)置的匹配條件,利用所述互動對象 的運動向量作為人機互動的輸入可以有多種實施方式,下面進行詳細闡述(一)在本發(fā)明的一個實施例中,所述預(yù)先設(shè)置的匹配條件具體為所述互動對象的運動向量與所述動作樣本類的運動向量最匹配;在該方式中,所述互動對象的整體作為跟蹤對象,以所述互動對象整體的動作作為人機互動的輸入。( 二)在本發(fā)明的又一實施例中,所述預(yù)先設(shè)置的匹配條件具體為所述互動對象的運動向量與所述動作樣本類的運動向量最匹配,且所述互動對象的位置與所述動作樣本類的位置最匹配;在該實施方式中,不僅以互動對象的動作,即互動對象的運動向量作為人機互動的輸入,還以互動對象執(zhí)行動作后處于的狀態(tài),即互動對象的位置作為人機互動的輸入,例如,舉右手是一個動作,而舉起右手不僅是動作,而且在舉右手之后右手應(yīng)處于一個舉起的位置,可作為兩種輸入。作為該實施方式的前提,本發(fā)明還包括根據(jù)所述互動對象的運動向量,獲得所述互動對象的位置。在所述動作樣本庫中所述動作樣本類還通過對動作樣本的位置分類獲得。(三)在本發(fā)明的再一實施例中,所述預(yù)先設(shè)置的匹配條件具體為所述互動對象的一個或多個區(qū)域的運動向量與所述動作樣本類的運動向量最匹配;作為該實施方式的前提,本發(fā)明還包括按照所述互動對象的各個區(qū)域的比例,獲得所述互動對象的一個或多個區(qū)域的位置;根據(jù)所述互動對象的一個或多個區(qū)域的位置和所述互動對象的運動向量,獲得所述互動對象的一個或多個區(qū)域的運動向量;例如基于大量的人體實際樣本數(shù)據(jù)聚類分析,找出人體和軀干的分割比例,在確定人體位置后,根據(jù)人體的頭部和軀干的比例,對人體圖像區(qū)域進行上下分割,下面部分為肢體圖像區(qū)域,上面部分為頭部圖像區(qū)域,根據(jù)肢體圖像區(qū)域、頭部圖像區(qū)域的位置,分別獲得肢體的運動向量、頭部的運動向量。
在獲得所述互動對象的一個或多個區(qū)域的運動向量之后,進而可以實現(xiàn)以所述互動對象的一個或多個區(qū)域的運動向量作為人機互動的輸入,例如,所述互動對象是人體,人體的某一個或多個肢體動作、或者某一個或多個面部表情均可作為本發(fā)明人機互動的輸入。(四)結(jié)合以上實施例方法,在本發(fā)明的另一個實施例中,所述預(yù)先設(shè)置的匹配條件具體為所述互動對象的一個或多個區(qū)域的運動向量與所述動作樣本類的運動向量最匹配,且所述互動對象的一個或多個區(qū)域的位置與所述動作樣本類的位置最匹配。下面對步驟S103中的查詢、動作樣本庫、和動作樣本類之間的關(guān)系做詳細闡述在本發(fā)明的一個實施例中,所述在動作樣本中查詢出最匹配的動作樣本類,具體通過采用支持向量機算法的樣本分類器進行查詢,返回最匹配的動作樣本類,所述樣本分類器具體通過采用支持向量機算法對動作樣本的運動向量分類學(xué)習(xí)獲得;支持向量機算法是一種基于統(tǒng)計學(xué)的分類技術(shù),應(yīng)用于模糊識別領(lǐng)域,可通過對 大量動作樣本的運動向量的數(shù)據(jù)進行分類學(xué)習(xí),利用支持向量機算法訓(xùn)練出樣本分類器。在該實施例中,所述動作樣本庫以樹狀結(jié)構(gòu)組織分類動作樣本的運動向量,參見圖2:具體地,滿足以下條件條件I :所述動作樣本庫中的動作樣本類具體通過對動作樣本的運動向量采用樹狀結(jié)構(gòu)分類獲得;按照該條件,所述動作樣本類具體表達動作樣本的運動向量的類型,具體按照動作樣本的運動向量的語義含義以樹狀結(jié)構(gòu)分類、命名,例如,參見圖2,人體動作為一個動作樣本類、肢體動作為一個動作樣本類、臉部動作為一個動作樣本類、眼部動作為一個動作樣本類等等。條件2 :所述樹狀結(jié)構(gòu)按照動作樣本類的語義邏輯分層;例如,參見圖2,人體動作分為臉部動作和肢體動作;臉部動作分為眼部動作、嘴部動作、和頭部動作;眼部動作分為左眼動作和右眼動作;肢體動作分為上半身肢體動作和下半身肢體動作;上半身肢體動作分為左手動作和右手動作;條件3 :所述樹狀結(jié)構(gòu)的每個葉子節(jié)點對應(yīng)一個或多個動作樣本的運動向量;例如,參見圖2,葉子節(jié)點左眼動作,該葉子節(jié)點對應(yīng)多個關(guān)于左眼的動作樣本的運動向量;條件4 :所述樹狀結(jié)構(gòu)的每個非葉子節(jié)點根據(jù)其包括的葉子節(jié)點對應(yīng)到一個或多個動作樣本的運動向量;例如,參見圖2,非葉子節(jié)點眼部動作,該非葉子節(jié)點根據(jù)其包括的左眼動作和右眼動作兩個葉子節(jié)點對應(yīng)到多個關(guān)于左眼和右眼的動作樣本的運動向量;條件5 :所述樹狀結(jié)構(gòu)的每個節(jié)點對應(yīng)一個動作樣本類;條件6 :所述樹狀結(jié)構(gòu)的每個節(jié)點對應(yīng)一個采用支持向量機算法的樣本分類器,所述樣本分類器具體通過采用支持向量機算法對該節(jié)點所對應(yīng)的動作樣本的運動向量分類學(xué)習(xí)獲得;例如,參見圖2,節(jié)點右眼動作,該節(jié)點對應(yīng)一個采用支持向量機算法的動作樣本分類器,該動作樣本分類器具體通過對右眼動作這個節(jié)點所對應(yīng)的動作樣本的運動向量分類學(xué)習(xí)獲得;節(jié)點左眼動作,該節(jié)點對應(yīng)一個采用支持向量機算法的動作樣本分類器,該動作樣本分類器具體通過對左眼這個節(jié)點所對應(yīng)的動作樣本的運動向量分類學(xué)習(xí)獲得;條件7 :所述動作樣本類由唯一動作分類代號標(biāo)識。利用該唯一動作分類代號標(biāo)識,動作樣本分類器查詢返回的結(jié)果為動作樣本類的唯一動作分類代號標(biāo)識。滿足以上條件的動作樣本庫,樣本分類器,具體通過以下步驟實現(xiàn)在動作樣本庫中查詢出最匹配的動作樣本類,參見圖3
S301、將所述樹狀結(jié)構(gòu)的根結(jié)點作為當(dāng)前處理節(jié)點;S302、重復(fù)以下步驟,直到所述當(dāng)前處理節(jié)點沒有子節(jié)點,返回所述當(dāng)前處理節(jié)點對應(yīng)的動作樣本類的唯一動作分類代號標(biāo)識利用所述當(dāng)前處理節(jié)點對應(yīng)的動作樣本分類器進行查詢,查詢出所述當(dāng)前處理節(jié)點的子節(jié)點中最匹配的動作樣本類,將該最匹配的動作樣本類對應(yīng)的節(jié)點作為當(dāng)前處理節(jié)點。另外,針對采用支持向量機算法的動作樣本分類器可能具有一定誤差的情況,如在查詢過程中,當(dāng)前處理節(jié)點的子節(jié)點中最匹配的動作樣本類的匹配度為51%,而次匹配的動作樣本類的匹配度為49%,而實際上,次匹配的動作樣本類有可能是真正最匹配的動作樣本類,因此本發(fā)明采取以下方法降低誤差在上述步驟302中,所述利用當(dāng)前處理節(jié)點對應(yīng)的動作樣本分類器進行查詢,查詢出所述當(dāng)前處理節(jié)點的子節(jié)點中最匹配的動作樣本類之后,還包括查詢出所述當(dāng)前處理節(jié)點的子節(jié)點中次匹配的動作樣本類;判斷所述最匹配的動作樣本類與所述次匹配的動作樣本類的匹配度的差值是否小于標(biāo)準值;如果是,則將所述最匹配的動作樣本類對應(yīng)的節(jié)點作為第一當(dāng)前處理節(jié)點,所述次匹配的動作樣本類對應(yīng)的節(jié)點作為第二當(dāng)前處理節(jié)點;判斷所述第一當(dāng)前處理節(jié)點是否有子節(jié)點,如果有,則利用所述第一當(dāng)前處理節(jié)點對應(yīng)的動作樣本分類器進行查詢,查詢出所述第一當(dāng)前處理節(jié)點的子節(jié)點中最匹配的動作樣本類,將該第一當(dāng)前處理節(jié)點的子節(jié)點中最匹配的動作樣本類作為第一最匹配動作樣本類,如果沒有,則將所述第一當(dāng)前處理節(jié)點對應(yīng)的動作樣本類作為第一最匹配動作樣本類;判斷所述第二當(dāng)前處理節(jié)點是否有子節(jié)點,如果有,則利用所述第二當(dāng)前處理節(jié)點對應(yīng)的動作樣本分類器進行查詢,查詢出所述第二當(dāng)前處理節(jié)點的子節(jié)點中最匹配的動作樣本類,將該第二當(dāng)前處理節(jié)點的子節(jié)點中最匹配的動作樣本類作為第二最匹配動作樣本類,如果沒有,則將所述第二當(dāng)前處理節(jié)點對應(yīng)的動作樣本類作為第二最匹配動作樣本類;比較所述第一最匹配動作樣本類與第二最匹配動作樣本類的匹配度,選擇匹配度最高的動作樣本類作為最匹配的動作樣本類,將該最匹配的動作樣本類對應(yīng)的節(jié)點作為當(dāng)前處理節(jié)點??梢姡靡陨蠗l件實現(xiàn)的動作樣本庫、樣本分類器在樹狀結(jié)構(gòu)的每一層,只對最匹配的動作樣本類對應(yīng)的節(jié)點進行下一級查詢,節(jié)省了查詢時間;而且在最匹配與次匹配的動作樣本類的匹配度差值不大的情況下,通過比較兩者子節(jié)點中最匹配的動作樣本類的匹配度,選擇匹配度最高的作為最匹配的動作樣本類,提高了本發(fā)明基于動作識別的人機互動的效率、精度。下面對步驟S104 :查詢出所述最匹配的動作樣本類在預(yù)先設(shè)置的規(guī)則中對應(yīng)的指令做詳細闡述在本發(fā)明中,所述預(yù)先設(shè)置的規(guī)則,可以根據(jù)具體實施的需要進行設(shè)置,例如一個具體的實施場景依據(jù)本發(fā)明實現(xiàn)的一種智能玩具,該智能玩具有一套游戲流程語音提示用戶做指定動作,判斷用戶做了指定動作,發(fā)出鼓掌贊揚的語音提示,判斷用戶沒做出指定動作,發(fā)出動作不正確的語音提示;依據(jù)本發(fā)明的方法,該具體實施場景的預(yù)先設(shè)置的規(guī)則是指定動作的動作樣本類對應(yīng)指令發(fā)出鼓掌贊揚的語音提示;非指定動作的動作樣本類對應(yīng)指令發(fā)出動作不正確的語音提示; 或者指定動作的動作樣本類對應(yīng)指令向智能玩具控制系統(tǒng)發(fā)出執(zhí)行鼓掌動作的命令;非指定動作的動作樣本類對應(yīng)指令向智能玩具控制系統(tǒng)發(fā)出執(zhí)行搖頭動作的命令。當(dāng)然,在本發(fā)明具體實施到不同場景中,預(yù)先設(shè)置的規(guī)則按照實際需要可進行相應(yīng)修改、潤飾,都在本發(fā)明保護范圍之內(nèi)。本發(fā)明還提供一種基于動作識別的人機互動裝置,參見圖4,該裝置包括視頻圖像采集單元401 :用于利用視頻設(shè)備獲取互動對象的視頻圖像,將所述互動對象的視頻圖像發(fā)送至運動估計單元;運動估計單元402:用于對所述互動對象的視頻圖像進行運動估計,獲得所述互動對象的運動向量,將所述互動對象的運動向量發(fā)送至識別單元;識別單元403 :用于根據(jù)預(yù)先設(shè)置的匹配條件,利用所述互動對象的運動向量,在動作樣本庫中查詢出最匹配的動作樣本類,在所述動作樣本庫中所述動作樣本類具體通過對動作樣本的運動向量分類獲得,將所述最匹配的動作樣本類發(fā)送至指令查詢單元;指令查詢單元404:用于查詢出所述最匹配的動作樣本類在預(yù)先設(shè)置的規(guī)則中對應(yīng)的指令,將所述指令發(fā)送至執(zhí)行單元;指令執(zhí)行單元405 :執(zhí)行所述指令。需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個實體或者操作與另一個實體或操作區(qū)分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備
所固有的要素。在沒有更多限制的情況下,由語句“包括一個......”限定的要素,并不排
除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。以上所述僅為本發(fā)明的較佳實施例而已,并非用于限定本發(fā)明的保護范圍。凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換、改進等,均包含在本發(fā)明的保護范圍內(nèi)。
權(quán)利要求
1.一種基于動作識別的人機互動方法,其特征在于,包括 利用視頻設(shè)備獲取互動對象的視頻圖像; 對所述互動對象的視頻圖像進行運動估計,獲得所述互動對象的運動向量; 根據(jù)預(yù)先設(shè)置的匹配條件,利用所述互動對象的運動向量,在動作樣本庫中查詢出最匹配的動作樣本類,在所述動作樣本庫中所述動作樣本類具體通過對動作樣本的運動向量分類獲得; 查詢出所述最匹配的動作樣本類在預(yù)先設(shè)置的規(guī)則中對應(yīng)的指令; 執(zhí)行所述指令。
2.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述運動估計具體包括以下步驟 將視頻圖像處理為從低分辨率到高分辨率的不同級別的視頻圖像; 按照從低分辨率到高分辨率的順序,將不同級別的視頻圖像,逐個進行以下步驟的處理 判斷當(dāng)前級別的視頻圖像是否為最高分辨率的視頻圖像, 如果是,則在當(dāng)前級別的視頻圖像上進行運動估計,獲得互動對象最終的運動向量; 如果不是,則對當(dāng)前級別的視頻圖像進行以下處理 在當(dāng)前級別的視頻圖像上進行運動估計,獲得互動對象的運動向量; 根據(jù)互動對象的運動向量,確定互動對象在當(dāng)前級別的視頻圖像上的位置; 將所述互動對象的運動向量和在當(dāng)前級別的視頻圖像上的位置,作為下ー級視頻圖像進行運動估計的初始數(shù)據(jù)。
3.根據(jù)權(quán)利要求I所述的方法,其特征在于,還包括 在利用視頻設(shè)備獲取互動對象的視頻圖像前和/或執(zhí)行所述指令后,利用音頻發(fā)出相關(guān)語首提不。
4.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述預(yù)先設(shè)置的匹配條件具體為所述互動對象的運動向量與所述動作樣本類的運動向量最匹配。
5.根據(jù)權(quán)利要求I所述的方法,其特征在于,還包括 根據(jù)所述互動對象的運動向量獲得所述互動對象的位置。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,在所述動作樣本庫中所述動作樣本類還通過對動作樣本的位置分類獲得; 所述預(yù)先設(shè)置的匹配條件具體為所述互動對象的運動向量與所述動作樣本類的運動向量最匹配,且所述互動對象的位置與所述動作樣本類的位置最匹配。
7.根據(jù)權(quán)利要求5所述的方法,其特征在于,還包括 根據(jù)所述互動對象的位置,按照所述互動對象的各個區(qū)域的比例,獲得所述互動對象的ー個或多個區(qū)域的位置; 根據(jù)所述互動對象的ー個或多個區(qū)域的位置和所述互動對象的運動向量,獲得所述互動對象的ー個或多個區(qū)域的運動向量。
8.根據(jù)權(quán)利要求7所述的方法,其特征在干, 所述預(yù)先設(shè)置的匹配條件具體為所述互動對象的ー個或多個區(qū)域的運動向量與所述動作樣本類的運動向量最匹配。
9.根據(jù)權(quán)利要求7所述的方法,其特征在于,在所述動作樣本庫中所述動作樣本類還通過對動作樣本的位置分類獲得; 所述預(yù)先設(shè)置的匹配條件具體為所述互動對象的ー個或多個區(qū)域的運動向量與所述動作樣本類的運動向量最匹配,且所述互動對象的ー個或多個區(qū)域的位置與所述動作樣本類的位置最匹配。
10.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述在動作樣本庫中查詢出最匹配的動作樣本類,具體通過采用支持向量機算法的樣本分類器進行查詢,返回最匹配的動作樣本類,所述樣本分類器具體通過采用支持向量機算法對動作樣本的運動向量分類學(xué)習(xí)獲得。
11.根據(jù)權(quán)利要求10所述的方法,其特征在干, 在所述動作樣本庫中的動作樣本類具體通過對動作樣本的運動向量采用樹狀結(jié)構(gòu)分類獲得; 所述樹狀結(jié)構(gòu)按照動作樣本類的語義邏輯分層; 所述樹狀結(jié)構(gòu)的姆個葉子節(jié)點對應(yīng)ー個或多個動作樣本的運動向量; 所述樹狀結(jié)構(gòu)的姆個非葉子節(jié)點根據(jù)其包括的葉子節(jié)點對應(yīng)到ー個或多個動作樣本的運動向量; 所述樹狀結(jié)構(gòu)的每個節(jié)點對應(yīng)ー個動作樣本類; 所述樹狀結(jié)構(gòu)的每個節(jié)點對應(yīng)ー個采用支持向量機算法的樣本分類器,所述樣本分類器具體通過采用支持向量機算法對該節(jié)點對應(yīng)的動作樣本的運動向量分類學(xué)習(xí)獲得; 所述動作樣本類由唯一動作分類代號標(biāo)識。
12.根據(jù)權(quán)利要求11所述的方法,其特征在于,在動作樣本庫中查詢出最匹配的動作樣本類具體包括以下步驟 將所述樹狀結(jié)構(gòu)的根結(jié)點作為當(dāng)前處理節(jié)點; 重復(fù)以下步驟,直到所述當(dāng)前處理節(jié)點沒有子節(jié)點,返回所述當(dāng)前處理節(jié)點對應(yīng)的動作樣本類 利用所述當(dāng)前處理節(jié)點對應(yīng)的動作樣本分類器進行查詢,查詢出所述當(dāng)前處理節(jié)點的子節(jié)點中最匹配的動作樣本類,將該最匹配的動作樣本類對應(yīng)的節(jié)點作為當(dāng)前處理節(jié)點。
13.一種基于動作識別的人機互動裝置,其特征在于,包括 視頻圖像采集單元用于利用視頻設(shè)備獲取互動對象的視頻圖像,將所述互動對象的視頻圖像發(fā)送至運動估計單元; 運動估計單元用于對所述互動對象的視頻圖像進行運動估計,獲得所述互動對象的運動向量,將所述互動對象的運動向量發(fā)送至識別單元; 識別單元用于根據(jù)預(yù)先設(shè)置的匹配條件,利用所述互動對象的運動向量,在動作樣本庫中查詢出最匹配的動作樣本類,在所述動作樣本庫中所述動作樣本類具體通過對動作樣本的運動向量分類獲得,將所述最匹配的動作樣本類發(fā)送至指令查詢單元; 指令查詢單元用于查詢出所述最匹配的動作樣本類在預(yù)先設(shè)置的規(guī)則中對應(yīng)的指令,將所述指令發(fā)送至執(zhí)行單元; 指令執(zhí)行單元執(zhí)行所述指令。
全文摘要
本發(fā)明公開了一種基于動作識別的人機互動方法及裝置以實現(xiàn)從視覺角度進行人機互動的目的,由于本發(fā)明利用視頻設(shè)備獲取互動對象的視頻圖像,對互動對象的視頻圖像進行運動估計,獲得所述互動對象的運動向量,實現(xiàn)對互動對象的跟蹤,又根據(jù)預(yù)先設(shè)置的匹配條件,利用所述互動對象的運動向量,在動作樣本庫中查詢出最匹配的動作樣本類,查詢出所述最匹配的動作樣本類在預(yù)先設(shè)置的規(guī)則中對應(yīng)的指令,執(zhí)行所述指令,使得機器從類似于人眼的視覺角度出發(fā),以互動對象的動作作為輸入,執(zhí)行相應(yīng)的指令,提高了人機互動的智能化程度。
文檔編號G06K9/62GK102819751SQ20121029903
公開日2012年12月12日 申請日期2012年8月21日 優(yōu)先權(quán)日2012年8月21日
發(fā)明者周晨 申請人:長沙納特微視網(wǎng)絡(luò)科技有限公司