本發(fā)明的實施方式涉及通信與計算機技術(shù)領(lǐng)域,更具體地,本發(fā)明的實施方式涉及一種基于深度學(xué)習(xí)的手部姿態(tài)估計方法及裝置。
背景技術(shù):
本部分旨在為權(quán)利要求書中陳述的本發(fā)明的實施方式提供背景或上下文。此處的描述不因為包括在本部分中就承認是現(xiàn)有技術(shù)。
人機交互是指專門研究系統(tǒng)和用戶之間交互關(guān)系的領(lǐng)域,其在日常生活中起著越來越重要的作用,可以很大程度上提升用戶體驗。傳統(tǒng)的人機交互方式,如鼠標(biāo)和鍵盤等,雖能夠滿足一定程度的交互,但是其便利性受到了很大限制。手勢識別技術(shù)是人機交互中一項比較重要的技術(shù),屬于當(dāng)前研究的熱門,其通過對手勢進行靜態(tài)或動態(tài)識別,發(fā)出識別指令,讓系統(tǒng)執(zhí)行相關(guān)指令,從而達到交互的目的。
本公開討論的是手勢識別技術(shù)中的三維手部姿態(tài)估計,由于人機交互技術(shù)的大熱,該技術(shù)也在近幾年得到了學(xué)術(shù)界和工業(yè)界的重視。三維手部姿態(tài)估計技術(shù)分為兩大類:1)基于判別式模型(discrimitivemodel);2)基于生成式模型(generativemodel)。判別式模型是基于學(xué)習(xí)的方法,其先對手部區(qū)域圖像進行特征提取操作,然后通過構(gòu)建分類器對手部姿態(tài)進行識別。其中生成式模型在當(dāng)手部跟蹤失敗后,很難再恢復(fù)姿態(tài),且速度較慢,實用性較低。生成式方法計算量大,精確性往往較低,判別式速度較快,但是估計的結(jié)果有一定的誤差,且姿態(tài)受限。
中國專利cn201510670919.6于2016年3月09日公開了一種基于深度數(shù)據(jù)的三維手勢姿態(tài)估計方法及系統(tǒng),該方法包括以下步驟:1.提取深度數(shù)據(jù),提取手部的roi區(qū)域;(1)利用sdk來獲取骨骼點的信息,通過手部某個骨骼點來檢測手部roi區(qū)域;(2)如果無法獲取手部的骨骼點的信息,則采用基于膚色的方式來檢測手部roi區(qū)域;2.手部三維全局方向初步估計,先進行特征提取,然后根據(jù)訓(xùn)練出來的分類器來實現(xiàn)手部全局方向的回歸;3.三維手勢的關(guān)節(jié)姿態(tài)估計:根據(jù)訓(xùn)練出來的分類器實現(xiàn)手部姿態(tài)估計,最后進行姿態(tài)校正。該方法先采用兩種方式相互配合完成對手部roi數(shù)據(jù)的分割,接著在此基礎(chǔ)上采用回歸算法完成手部全局方向估計,最后以此數(shù)據(jù)為輔助再次利用回歸算法實現(xiàn)三維手勢姿態(tài)估計。
中國專利cn201610321710.3于2016年10月26日公開了一種基于深度信息和校正方式的手部姿態(tài)估計方法,包括以下步驟:1.獲取手部的深度數(shù)據(jù),并從手部深度數(shù)據(jù)中分割手部區(qū)域;2.根據(jù)手部區(qū)域檢測手掌姿態(tài);3.結(jié)合手掌姿態(tài)和手部標(biāo)準骨骼模型計算手部各個關(guān)節(jié)點的位置;4.計算手部各關(guān)節(jié)點的投影特征;5.根據(jù)手部各關(guān)節(jié)點的投影特征進行手指姿態(tài)校正。本發(fā)明直接用深度數(shù)據(jù)為基礎(chǔ),通過分割手部區(qū)域并計算出手掌姿態(tài),然后由深度圖像與姿態(tài)校正的方式估計出手指姿態(tài)。
技術(shù)實現(xiàn)要素:
但是,前述專利cn201510670919.6和cn201610321710.3存在如下幾個問題:
1.在對姿態(tài)進行估計的過程中,前者使用回歸的方法,后者使用隨機森林的方法,都需要手工設(shè)計特征,并進行手部特征提取操作,而且特征設(shè)計的過程繁瑣,同時所設(shè)計出來的特征并不一定能夠完全表征手部的特征,其對最終的姿態(tài)估計效果起著很大的影響。
2.手部roi區(qū)域檢測:其直接利用kinectv2傳感器相關(guān)的sdk檢測手部骨骼點,在更換其他傳感器后,不一定能夠檢測這些骨骼點,因此,適用性不是太強;同時,其利用膚色檢測的方法來分割手部,其受外界等環(huán)境因素的影響較大,同時對不同人種的膚色要作特別處理,適用性不是很強。
為此,非常需要一種改進的基于深度學(xué)習(xí)的手部姿態(tài)估計方法及裝置,以解決現(xiàn)有技術(shù)中存在的人工抽取手部特征導(dǎo)致的手部姿態(tài)估計效果魯棒性較差的缺陷。
在本上下文中,本發(fā)明的實施方式期望提供一種基于深度學(xué)習(xí)的手部姿態(tài)估計方法及裝置。
在本發(fā)明實施方式的第一方面中,提供了一種基于深度學(xué)習(xí)的手部姿態(tài)估計方法,包括:
對深度圖像進行手部感興趣區(qū)域檢測,并從所述手部感興趣區(qū)域中分割出手部圖像;
根據(jù)所述手部圖像獲取手部的三維點云圖像;以及
采用深度學(xué)習(xí)技術(shù)對所述手部的三維點云圖像進行手部姿態(tài)估計。
在一些實施例中,根據(jù)本發(fā)明的上述實施例所述的方法,對深度圖像進行手部感興趣區(qū)域檢測,包括:
采用圖像采集設(shè)備中的深度傳感器獲取所述深度圖像;以及
利用所述深度圖像中前后景的相對深度關(guān)系,從所述深度圖像中提取出所述手部感興趣區(qū)域。
在一些實施例中,根據(jù)本發(fā)明的上述任一實施例所述的方法,從所述手部感興趣區(qū)域中分割出手部圖像,包括:
對所述手部感興趣區(qū)域進行邊緣檢測和輪廓檢測,檢測出手部區(qū)域;
對所述手部區(qū)域進行去噪處理,分割出所述手部圖像。
在一些實施例中,根據(jù)本發(fā)明的上述任一實施例所述的方法,對所述手部感興趣區(qū)域進行輪廓檢測采用圖像凹凸點檢測方法。
在一些實施例中,根據(jù)本發(fā)明的上述任一實施例所述的方法,根據(jù)所述手部圖像獲取包含手部的三維點云圖像,包括:
對所述圖像采集設(shè)備的內(nèi)部參數(shù)進行標(biāo)定;
根據(jù)所述內(nèi)部參數(shù)初步獲取包含手部的三維點云圖像;
將初步獲取的手部的三維點云圖像進行尺寸歸一化處理,獲得處理完成的包含手部的三維點云圖像。
在一些實施例中,根據(jù)本發(fā)明的上述任一實施例所述的方法,采用深度學(xué)習(xí)技術(shù)對所述手部的三維點云圖像進行手部姿態(tài)估計的步驟,包括:
制作手部訓(xùn)練數(shù)據(jù)集,獲取所述手部訓(xùn)練數(shù)據(jù)集的手部節(jié)點標(biāo)注信息;
由所述手部訓(xùn)練數(shù)據(jù)集提取出手部的三維點云區(qū)域;
根據(jù)所述手部的三維點云區(qū)域和所述手部節(jié)點標(biāo)注信息利用卷積神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練形成手部姿態(tài)模型;
根據(jù)所述手部的三維點云圖像利用所述手部姿態(tài)模型,獲取手部的各關(guān)節(jié)節(jié)點位置。
在一些實施例中,根據(jù)本發(fā)明的上述任一實施例所述的方法,制作手部訓(xùn)練數(shù)據(jù)集,獲取所述手部訓(xùn)練數(shù)據(jù)集的手部節(jié)點標(biāo)注信息,包括:
提取深度圖像中手部區(qū)域的三維點云數(shù)據(jù);
構(gòu)建初始化的三維手部模型和所述手部區(qū)域的三維點云數(shù)據(jù)擬合的損失函數(shù)l,對所述損失函數(shù)l進行迭代優(yōu)化;
當(dāng)所述損失函數(shù)l進行迭代優(yōu)化滿足預(yù)設(shè)的收斂條件時,獲得擬合成功的三維手部模型;
根據(jù)所述擬合成功的三維手部模型獲取所述手部訓(xùn)練數(shù)據(jù)集的手部節(jié)點標(biāo)注信息。
在一些實施例中,根據(jù)本發(fā)明的上述任一實施例所述的方法,制作手部訓(xùn)練數(shù)據(jù)集,獲取所述手部訓(xùn)練數(shù)據(jù)集的手部節(jié)點標(biāo)注信息,還包括:
采集彩色圖像及其對應(yīng)的深度圖像,其中所述彩色圖像中包括帶顏色手腕的手部;
根據(jù)所述彩色圖像中的顏色手腕的位置分割出所述手部區(qū)域。
在一些實施例中,根據(jù)本發(fā)明的上述任一實施例所述的方法,所述卷積神經(jīng)網(wǎng)絡(luò)模型包括多個卷積層、多個池化層、多個全連接層以及每個所述卷積層后和每個所述全連接層后的激活層。
在一些實施例中,根據(jù)本發(fā)明的上述任一實施例所述的方法,所述多個卷積層包括兩個卷積核大小為5×5的卷積層和一個卷積核大小為3×3的卷積層。
在一些實施例中,根據(jù)本發(fā)明的上述任一實施例所述的方法,所述多個池化層包括兩個步長為2的池化層和一個步長為1的池化層。
在一些實施例中,根據(jù)本發(fā)明的上述任一實施例所述的方法,所述激活層為relu函數(shù)。
在一些實施例中,根據(jù)本發(fā)明的上述任一實施例所述的方法,根據(jù)所述手部的三維點云圖像利用所述手部姿態(tài)模型,獲取手部的各關(guān)節(jié)節(jié)點位置,包括:
將所述手部的三維點云圖像輸入至所述卷積神經(jīng)網(wǎng)絡(luò)模型;
所述多個全連接層中的最后一個全連接層輸出預(yù)設(shè)個數(shù)自由度的手部姿態(tài)參數(shù)至所述手部姿態(tài)模型;
所述手部姿態(tài)模型輸出手部的各關(guān)節(jié)節(jié)點位置。
在一些實施例中,根據(jù)本發(fā)明的上述任一實施例所述的方法,所述手部姿態(tài)模型輸出手部的各關(guān)節(jié)節(jié)點位置,包括:
設(shè)計所述手部姿態(tài)模型中的全局損失函數(shù)g(ψ);
采用預(yù)設(shè)方法對所述全局損失函數(shù)進行迭代優(yōu)化;
當(dāng)所述全局損失函數(shù)達到預(yù)設(shè)的收斂條件時,輸出手部的各關(guān)節(jié)節(jié)點位置。
在一些實施例中,根據(jù)本發(fā)明的上述任一實施例所述的方法,所述全局損失函數(shù)g(ψ)包括節(jié)點位置損失函數(shù)gjoint(ψ)和節(jié)點約束損失函數(shù)gdofconstraint(ψ),其中所述全局損失函數(shù)g(ψ)滿足下式:
g(ψ)=gjoint(ψ)+λgconstraint(ψ)
其中λ為所述全局損失函數(shù)g(ψ)的權(quán)重調(diào)節(jié)因子。
在一些實施例中,根據(jù)本發(fā)明的上述任一實施例所述的方法,所述節(jié)點位置損失函數(shù)gjoint(ψ)為:
其中,
在一些實施例中,根據(jù)本發(fā)明的上述任一實施例所述的方法,所述節(jié)點約束損失函數(shù)gdofconstraint(ψ)為:
其中,
在本發(fā)明實施方式的第二方面中,提供了一種基于深度學(xué)習(xí)的手部姿態(tài)估計裝置,包括:
手部圖像分割模塊,用于對深度圖像進行手部感興趣區(qū)域檢測,并從所述手部感興趣區(qū)域中分割出手部圖像;
點云圖像獲取模塊,用于根據(jù)所述手部圖像獲取包含手部的三維點云圖像;以及
手部姿態(tài)估計模塊,用于采用深度學(xué)習(xí)技術(shù)對所述手部的三維點云圖像進行手部姿態(tài)估計。
在一些實施例中,根據(jù)本發(fā)明的上述實施例所述的裝置,所述手部圖像分割圖像模塊包括圖像采集設(shè)備和手部感興趣區(qū)域提取單元,其中:
所述圖像采集設(shè)備,用于通過其中的深度傳感器獲取所述深度圖像;
所述手部感興趣區(qū)域提取單元,利用所述深度圖像中前后景的相對深度關(guān)系,從所述深度圖像中提取出所述手部感興趣區(qū)域。
在一些實施例中,根據(jù)本發(fā)明的上述任一實施例所述的裝置,所述手部圖像分割模塊包括手部區(qū)域檢測單元和手部圖像分割單元,其中:
所述手部區(qū)域檢測單元,用于對所述手部感興趣區(qū)域進行邊緣檢測和輪廓檢測,檢測出手部區(qū)域;
所述手部圖像分割單元,用于對所述手部區(qū)域進行去噪處理,分割出所述手部圖像。
在一些實施例中,根據(jù)本發(fā)明的上述任一實施例所述的裝置,所述手部姿態(tài)估計模塊包括訓(xùn)練數(shù)據(jù)集制作子模塊、點云區(qū)域提取子模塊、手部姿態(tài)模型制作子模塊以及手部姿態(tài)估計子模塊,其中:
所述訓(xùn)練數(shù)據(jù)集制作子模塊,用于制作手部訓(xùn)練數(shù)據(jù)集,獲取所述手部訓(xùn)練數(shù)據(jù)集的手部節(jié)點標(biāo)注信息;
所述點云區(qū)域提取子模塊,用于由所述手部訓(xùn)練數(shù)據(jù)集提取出手部的三維點云區(qū)域;
所述手部姿態(tài)模型制作子模塊,用于根據(jù)所述手部的三維點云區(qū)域和所述手部節(jié)點標(biāo)注信息利用卷積神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練形成手部姿態(tài)模型;
所述手部姿態(tài)估計子模塊,用于根據(jù)所述手部的三維點云圖像利用所述手部姿態(tài)模型,獲取手部的各關(guān)節(jié)節(jié)點位置。
在一些實施例中,根據(jù)本發(fā)明的上述任一實施例所述的裝置,所述卷積神經(jīng)網(wǎng)絡(luò)模型包括多個卷積層、多個池化層、多個全連接層以及每個所述卷積層后和每個所述全連接層后的激活層。
在一些實施例中,根據(jù)本發(fā)明的上述任一實施例所述的裝置,所述手部姿態(tài)估計子模塊包括點云圖像輸入單元、姿態(tài)參數(shù)輸出單元以及關(guān)節(jié)節(jié)點位置輸出單元,其中:
所述點云圖像輸入單元,用于將所述手部的三維點云圖像輸入至所述卷積神經(jīng)網(wǎng)絡(luò)模型;
所述姿態(tài)參數(shù)輸出單元,用于所述多個全連接層中的最后一個全連接層輸出預(yù)設(shè)個數(shù)自由度的手部姿態(tài)參數(shù)至所述手部姿態(tài)模型;
所述關(guān)節(jié)節(jié)點位置輸出單元,用于所述手部姿態(tài)模型輸出手部的各關(guān)節(jié)節(jié)點位置。
在一些實施例中,根據(jù)本發(fā)明的上述任一實施例所述的裝置,所述關(guān)節(jié)節(jié)點位置輸出單元包括全局損失函數(shù)設(shè)計子單元、迭代優(yōu)化子單元以及關(guān)節(jié)節(jié)點位置輸出子單元,其中:
所述全局損失函數(shù)設(shè)計子單元,用于設(shè)計所述手部姿態(tài)模型中的全局損失函數(shù)g(ψ);
所述迭代優(yōu)化子單元,采用預(yù)設(shè)方法對所述全局損失函數(shù)進行迭代優(yōu)化;
所述關(guān)節(jié)節(jié)點位置輸出子單元,用于當(dāng)所述全局損失函數(shù)達到預(yù)設(shè)的收斂條件時,輸出手部的各關(guān)節(jié)節(jié)點位置。
在一些實施例中,根據(jù)本發(fā)明的上述任一實施例所述的裝置,所述全局損失函數(shù)g(ψ)包括節(jié)點位置損失函數(shù)gjoint(ψ)和節(jié)點約束損失函數(shù)gdofconstraint(ψ),其中所述全局損失函數(shù)g(ψ)滿足下式:
g(ψ)=gjoint(ψ)+λgconstraint(ψ)
其中λ為所述全局損失函數(shù)g(ψ)的權(quán)重調(diào)節(jié)因子。
在一些實施例中,根據(jù)本發(fā)明的上述任一實施例所述的裝置,所述節(jié)點位置損失函數(shù)gjoint(ψ)為:
其中,
在一些實施例中,根據(jù)本發(fā)明的上述任一實施例所述的裝置,所述節(jié)點約束損失函數(shù)gdofconstraint(ψ)為:
其中,
根據(jù)本發(fā)明實施方式的基于深度學(xué)習(xí)的手部姿態(tài)估計方法及裝置:對深度圖像進行手部感興趣區(qū)域檢測,并從所述手部感興趣區(qū)域中分割出手部圖像;根據(jù)所述手部圖像獲取手部的三維點云圖像;以及采用深度學(xué)習(xí)技術(shù)對所述手部的三維點云圖像進行手部姿態(tài)估計,在該方案中,基于深度學(xué)習(xí)技術(shù)的手部姿態(tài)估計方法,免去了手工抽取手部特征的操作,極大地提升了手部姿態(tài)估計效果的魯棒性,因此,解決了現(xiàn)有技術(shù)中人工抽取手部特征導(dǎo)致手部姿態(tài)估計效果不佳的缺陷。
另外,根據(jù)一些實施例,可以針對場景,直接利用深度圖像中前后景的相對深度關(guān)系來提取手部感興趣區(qū)域并通過輪廓檢測的方法分割出手部圖像,因此,進一步提高了手部檢測的效果。
附圖說明
通過參考附圖閱讀下文的詳細描述,本發(fā)明示例性實施方式的上述以及其他目的、特征和優(yōu)點將變得易于理解。在附圖中,以示例性而非限制性的方式示出了本發(fā)明的若干實施方式,其中:
圖1示意性地示出了根據(jù)本發(fā)明實施方式的基于深度學(xué)習(xí)的手部姿態(tài)估計方法的一種流程圖;
圖2示意性地示出了根據(jù)本發(fā)明實施方式的從深度圖像中獲取手部圖像的一種流程圖;
圖3示意性地示出了根據(jù)本發(fā)明實施方式的利用深度學(xué)習(xí)技術(shù)對手部的三維點云圖像進行手部姿態(tài)估計的一種流程圖;
圖4示意性地示出了根據(jù)本發(fā)明實施方式的制作手部訓(xùn)練數(shù)據(jù)集的一種流程圖;
圖5示意性地示出了根據(jù)本發(fā)明實施例的基于深度學(xué)習(xí)的手部姿態(tài)估計方法的一種示意圖;
圖6示意性地示出了根據(jù)本發(fā)明實施例的基于深度學(xué)習(xí)的手部姿態(tài)估計裝置的一種示意圖;
圖7示意性地示出了根據(jù)本發(fā)明實施例的基于深度學(xué)習(xí)的手部姿態(tài)估計裝置的另一種示意圖;
圖8示意性地示出了根據(jù)本發(fā)明實施例的計算機可讀存儲介質(zhì)的示例性示意圖;
在附圖中,相同或?qū)?yīng)的標(biāo)號表示相同或?qū)?yīng)的部分。
具體實施方式
下面將參考若干示例性實施方式來描述本發(fā)明的原理和精神。應(yīng)當(dāng)理解,給出這些實施方式僅僅是為了使本領(lǐng)域技術(shù)人員能夠更好地理解進而實現(xiàn)本發(fā)明,而并非以任何方式限制本發(fā)明的范圍。相反,提供這些實施方式是為了使本公開更加透徹和完整,并且能夠?qū)⒈竟_的范圍完整地傳達給本領(lǐng)域的技術(shù)人員。
本領(lǐng)域技術(shù)技術(shù)人員知道,本發(fā)明的實施方式可以實現(xiàn)為一種系統(tǒng)、裝置、設(shè)備、方法或計算機程序產(chǎn)品。因此,本公開可以具體實現(xiàn)為以下形式,即:完全的硬件、完全的軟件(包括固件、駐留軟件、微代碼等),或者硬件和軟件結(jié)合的形式。
下面對本發(fā)明中用到的基于深度學(xué)習(xí)的手部姿態(tài)估計方法的原理進行說明。
深度學(xué)習(xí)是機器學(xué)習(xí)研究中的一個新領(lǐng)域,其動機在于建立、模擬人腦進行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),它模仿人腦的機制來解釋數(shù)據(jù),例如圖像、聲音和文本。在本公開示例性實施例中,使用的卷積神經(jīng)網(wǎng)絡(luò)技術(shù)(convolutionalneuralnetwork,cnn)為深度學(xué)習(xí)技術(shù)中的一種。卷積神經(jīng)網(wǎng)絡(luò)就是將圖像處理中的二維離散卷積運算和人工神經(jīng)網(wǎng)絡(luò)相結(jié)合,卷積指的是前端有卷積層。這種卷積運算可以用于自動提取特征。
在本文中,附圖中的任何元素數(shù)量均用于示例而非限制,以及任何命名都僅用于區(qū)分,而不具有任何限制含義。
下面參考本發(fā)明的若干代表性實施方式,詳細闡釋本發(fā)明的原理和精神。
發(fā)明概述
本發(fā)明人發(fā)現(xiàn),在基于深度學(xué)習(xí)的手部姿態(tài)估計的時候,可以采用如下方式:對深度圖像進行手部感興趣區(qū)域檢測,并從所述手部感興趣區(qū)域中分割出手部圖像;根據(jù)所述手部圖像獲取手部的三維點云圖像;以及采用深度學(xué)習(xí)技術(shù)對所述手部的三維點云圖像進行手部姿態(tài)估計,在該方案中,基于深度學(xué)習(xí)技術(shù)的手部姿態(tài)估計方法,免去了手工抽取手部特征的操作,極大地提升了手部姿態(tài)估計效果的魯棒性,因此,解決了現(xiàn)有技術(shù)中人工抽取手部特征導(dǎo)致手部姿態(tài)估計效果不佳的缺陷。
在介紹了本發(fā)明的基本原理之后,下面具體介紹本發(fā)明的各種非限制性實施方式。
示例性方法
下面參考圖1來描述根據(jù)本發(fā)明示例性實施方式的基于深度學(xué)習(xí)的手部姿態(tài)估計方法。需要注意的是,下述示例性實施方式僅是為了便于理解本發(fā)明的精神和原理而示出,本發(fā)明的實施方式在此方面不受任何限制。
該基于深度學(xué)習(xí)的手部姿態(tài)估計方法,首先對采集到的深度圖像,可以利用前景檢測和輪廓檢測的方法,精確分割出完整的手部感興趣區(qū)域,之后利用深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)自動構(gòu)建手部特征,獲取手部的3d節(jié)點位置(
圖1示意性地示出了根據(jù)本發(fā)明實施方式的基于深度學(xué)習(xí)的手部姿態(tài)估計方法的流程示意圖。如圖1所示,該方法可以包括步驟s10、s20以及s30。
該方法始于步驟s10,對深度圖像進行手部感興趣區(qū)域(roi)檢測,并從所述手部感興趣區(qū)域中分割出手部圖像。
本發(fā)明實施例中,參考圖2,步驟s10可以進一步包括步驟s11、s12、s13以及s14。
其中在步驟s11中,采用圖像采集設(shè)備中的深度傳感器獲取所述深度圖像。
例如,所述深度傳感器可以為astra深度攝像頭,但本公開對此不作限定。可以從所述深度傳感器中直接獲取原始的深度圖像。
本實施例主要基于深度數(shù)據(jù),其目的是估計出深度數(shù)據(jù)中手部的姿態(tài)狀態(tài)。本實施例采用深度數(shù)據(jù)作為輸入,相比于傳統(tǒng)的相機,深度傳感器能夠獲得被拍攝物體的距離信息,很容易將目標(biāo)與背景分割。
在步驟s12中,利用所述深度圖像中前后景的相對深度關(guān)系,從所述深度圖像中提取出所述手部感興趣區(qū)域。
本發(fā)明實施例中,可以利用所述深度圖像中前后景的相對深度關(guān)系,通過背景減除的方法,例如幀差法,將包含手部的roi區(qū)域從所述深度圖像中提取出來。
在步驟s13中,對所述手部感興趣區(qū)域進行邊緣檢測和輪廓檢測,檢測出手部區(qū)域。
本發(fā)明實施例中,對所述手部感興趣區(qū)域進行輪廓檢測可以采用圖像凹凸點檢測方法,將手部的大致輪廓區(qū)域檢測出來,初步完成了對手部的分割操作。
在步驟s14中,對所述手部區(qū)域進行去噪處理,分割出所述手部圖像。
初步完成對手部的分割操作后,接下來可以對檢測出來的手部區(qū)域進行如下去噪處理,最終分割出完整的手部圖像;
1)中值濾波:以剔除深度數(shù)據(jù)抖動和部分噪聲的影響;
2)形態(tài)學(xué)處理:對手部圖像手部先膨脹、后腐蝕操作,達到平滑輪廓和邊緣增強的目的;
3)補洞處理:根據(jù)圖像的鄰域相關(guān)性,利用黑洞鄰域的深度值對鄰域部位進行填充,抑制手部圖像中的黑洞對姿態(tài)識別產(chǎn)生的影響。
需要說明的是,上述去噪處理的方式僅是用于舉例性說明的,本公開對具體的去噪處理方法不作限定,其可以采用現(xiàn)有技術(shù)中的任意一種圖像去噪處理方法。
在執(zhí)行完步驟s10之后,還可以執(zhí)行步驟s20,根據(jù)所述手部圖像獲取手部的三維點云圖像。
本發(fā)明實施例中,根據(jù)所述手部圖像獲取包含手部的三維(3d)點云圖像,可以采用如下方式:
對所述圖像采集設(shè)備的內(nèi)部參數(shù)進行標(biāo)定;
根據(jù)所述內(nèi)部參數(shù)初步獲取包含手部的三維點云圖像;
將初步獲取的手部的三維點云圖像進行尺寸歸一化處理,獲得處理完成的包含手部的三維點云圖像。
具體地,對圖像采集設(shè)備進行標(biāo)定,以得到圖像采集設(shè)備的內(nèi)部參數(shù),之后由這些內(nèi)部參數(shù),初步計算出手部圖像的3d點云。之后,將包含手部的3d點云圖像轉(zhuǎn)換為預(yù)設(shè)大小(例如128*128像素,但不以此為限),同時將深度值歸一化到[-1,1]之間,抑制手部尺度變換對結(jié)果產(chǎn)生的影響。之后,可以將最終處理完成的3d點云圖像作為卷積神經(jīng)網(wǎng)絡(luò)的輸入。
在執(zhí)行完步驟s20之后,還可以執(zhí)行步驟s30,采用深度學(xué)習(xí)技術(shù)對所述手部的三維點云圖像進行手部姿態(tài)估計。
本發(fā)明實施例中,參考圖3,采用深度學(xué)習(xí)技術(shù)對所述手部的三維點云圖像進行手部姿態(tài)估計,可以包括步驟s31、s32、s33以及s34。
在步驟s31中,制作手部訓(xùn)練數(shù)據(jù)集,獲取所述手部訓(xùn)練數(shù)據(jù)集的手部節(jié)點標(biāo)注信息。
本發(fā)明實施例中,參考圖4,制作手部訓(xùn)練數(shù)據(jù)集,獲取所述手部訓(xùn)練數(shù)據(jù)集的手部節(jié)點標(biāo)注信息,可以包括步驟s311、s312、s313、s314、s315、s316、s317以及s318。
在步驟s311中,采集彩色圖像及其對應(yīng)的深度圖像,其中所述彩色圖像中包括帶顏色手腕的手部。
本發(fā)明實施例中,手部訓(xùn)練數(shù)據(jù)集的采集依舊可以采用astra攝像頭。通過astra攝像頭采集彩色圖像(例如,rgb圖像)及其對應(yīng)的深度圖像,并可以利用astra自帶的sdk對所述彩色圖像及其對應(yīng)的深度圖像進行對齊操作。
在步驟s312中,根據(jù)所述彩色圖像中的顏色手腕的位置分割出所述手部區(qū)域。
在獲取的深度數(shù)據(jù)中手部所占的比例非常小,同時手部和胳膊部分由于深度值相似而難以區(qū)分,因此,背景和胳膊部分都會對手部姿態(tài)估計造成影響。為了降低干擾因素,本發(fā)明實施例中通過在手腕部佩戴彩色手腕的方式引入手腕點的位置,假設(shè)手腕點位置已知,通過分析所述彩色圖像中的顏色手腕的位置來分割出手部,這樣能夠更好地分割出手腕和手部部分。排除手部區(qū)域以外的無關(guān)內(nèi)容,只保留手部區(qū)域,從手部深度數(shù)據(jù)分割出手部區(qū)域。
在步驟s313中,提取深度圖像中手部區(qū)域的三維點云數(shù)據(jù)。
提取出所述彩色圖像對應(yīng)的深度圖像中手部區(qū)域的三維點云,具體實現(xiàn)方法可以參考上述步驟s20,在此不再贅述。
在步驟s314中,構(gòu)建初始化的三維手部模型和所述手部區(qū)域的三維點云數(shù)據(jù)擬合的損失函數(shù)l,對所述損失函數(shù)l進行迭代優(yōu)化。
通過獲取的手部區(qū)域的3d點云和三維手部模型,構(gòu)建出兩者之間擬合的損失函數(shù)l(f3dcloud,fmodel),其中f3dcloud為3d點云數(shù)據(jù),fmodel為擬合的三維手部模型,例如可以通過高斯-牛頓法對損失函數(shù)l(f3dcloud,fmodel)進行迭代優(yōu)化,直到其滿足如下收斂條件:
l(f3dcloud,fmodel)<λthreshold(1)
其中λthreshold為預(yù)設(shè)的閾值。
在步驟s315中,判斷所述損失函數(shù)l是否收斂;當(dāng)所述損失函數(shù)l收斂時,跳轉(zhuǎn)到步驟s317;反之,進入步驟s316。
當(dāng)滿足上述收斂條件時,則認為三維手部模型擬合成功,結(jié)束迭代過程,然后繼續(xù)進行下一幀手部區(qū)域的三維點云數(shù)據(jù)和三維手部模型之間的擬合操作。
在步驟s316中,重新初始化三維手部模型。
如果三維手部模型擬合失敗,即公式(1)不收斂,需要重新初始化三維手部模型,然后再進行手部區(qū)域的三維點云數(shù)據(jù)和三維手部模型之間的擬合操作。
在步驟s317中,獲得擬合成功的三維手部模型。
在步驟s318中,根據(jù)所述擬合成功的三維手部模型獲取所述手部訓(xùn)練數(shù)據(jù)集的手部節(jié)點標(biāo)注信息。
如果三維手部模型擬合成功,即上述公式收斂,通過擬合出來的三維手部模型輸出手部訓(xùn)練數(shù)據(jù)集的手部節(jié)點數(shù)據(jù),對其進行標(biāo)注,獲取所述手部訓(xùn)練數(shù)據(jù)集的手部節(jié)點標(biāo)注信息。
在步驟s32中,由所述手部訓(xùn)練數(shù)據(jù)集提取出手部的三維點云區(qū)域。
在步驟s33中,根據(jù)所述手部的三維點云區(qū)域和所述手部節(jié)點標(biāo)注信息利用卷積神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練形成手部姿態(tài)模型。
需要說明的是,本發(fā)明實施例中雖然僅例舉了卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)技術(shù)用于手部姿態(tài)估計,但實際上,本公開的方法可以應(yīng)用于任意的深度學(xué)習(xí)技術(shù),本公開對此不作限定。卷積神經(jīng)網(wǎng)絡(luò),由于該網(wǎng)絡(luò)避免了對圖像的復(fù)雜前期預(yù)處理,可以直接輸入原始圖像,因而得到了廣泛的應(yīng)用。
從上述制作好的手部訓(xùn)練數(shù)據(jù)集中提取出手部的三維點云區(qū)域,然后由手部訓(xùn)練數(shù)據(jù)集中的手部點云和手部節(jié)點標(biāo)注信息,利用卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練出所述手部姿態(tài)模型。
利用cnn所訓(xùn)練出來的手部姿態(tài)模型和前述步驟s20得到的手部的三維點云圖像,通過卷積神經(jīng)網(wǎng)絡(luò)的前向傳播過程,獲取手部姿態(tài)的節(jié)點信息,達到手部姿態(tài)估計的目的。
該卷積神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)模型可以設(shè)計如下:
本發(fā)明實施例中,所述卷積神經(jīng)網(wǎng)絡(luò)模型包括多個卷積層、多個池化層、多個全連接層以及每個所述卷積層后和每個所述全連接層后的激活層。
本發(fā)明實施例中使用多層卷積,然后再使用全連接層進行訓(xùn)練,多層卷積的目的是一層卷積學(xué)到的特征往往是局部的,層數(shù)越高,學(xué)到的特征就越全局化。
參考圖5所示,該卷積神經(jīng)網(wǎng)絡(luò)模型包含三個卷積層c1、c2、c3,同時在每個卷積層后面又有一個池化層,依次為:p1、p2、p3,最后連接3個全連接層,依次為fc1、fc2、fc3,前兩個全連接層均可以包含有1024維特征。
本發(fā)明實施例中,所述多個卷積層包括兩個卷積核大小為5×5的卷積層和一個卷積核大小為3×3的卷積層。
卷積神經(jīng)網(wǎng)絡(luò)通過小的卷積核(把核拉平)則可以保留空間信息,同時也不會空間信息建模,從而做到平移魯棒。其中卷積核大小為5×5的卷積層有很好的提取特征的效果,參數(shù)不多使得計算量不大,方便實現(xiàn);卷積核大小為3×3的卷積層在網(wǎng)絡(luò)的最后可以增強提取的有效特征,從而增加網(wǎng)絡(luò)的訓(xùn)練參數(shù)能力。
每個卷積都是一種特征提取方式,將圖像中符合條件(激活值越大越符合條件)的部分篩選出來。在其他實施例中,還可以添加多個卷積核,比如32個卷積核,可以學(xué)習(xí)32種特征。每個卷積核都會將圖像生成另一幅圖像。比如兩個卷積核就可以生成兩幅圖像,這兩幅圖像可以看作是一張圖像的不同的通道。
通過卷積獲得了特征(features)之后,利用這些特征去做分類??梢杂盟刑崛〉玫降奶卣魅ビ?xùn)練分類器,例如一個96乘以96像素的圖像,假設(shè)已經(jīng)學(xué)習(xí)得到了400個定義在8乘以8輸入上的特征,每個特征和圖像卷積都會得到一個(96-8+1)乘以(96-8+1)=7921維的卷積特征,由于有400個特征,所以每個樣例(example)都會得到一個892乘以400=3168400維的卷積特征向量,學(xué)習(xí)一個擁有超過3百萬特征輸入的分類器十分不便,并且容易出現(xiàn)過擬合。
本發(fā)明實施例中,所述多個池化層包括兩個步長為2的池化層和一個步長為1的池化層。
為了解決過擬合的問題,描述大的圖像,對不同位置的特征進行聚合統(tǒng)計,例如,可以計算圖像一個區(qū)域上的某個特定特征的平均值(或最大值),這些概要特征不僅具有低得多的維度(相比使用所有提取得到的特征),同時還會改善結(jié)果(不容易過擬合)。這種聚合的操作就叫做池化(pooling),有時也稱為平均池化或者最大池化(取決于計算池化的方法)。
本發(fā)明實施例中,所述激活層為relu函數(shù)。
relu函數(shù)其形式如下所示:
f(x)=max(0,x)(2)
其中,本實施例中每個卷積層后的激活層選用relu函數(shù),relu函數(shù)能夠?qū)⒎钦刂昧?,在保留有效神?jīng)元方面具有很好的效果,進而有效避免梯度爆炸的問題,在每個卷積層后面增加了以relu函數(shù)為激活函數(shù)的隱藏層,該激活函數(shù)可以將小于0的神經(jīng)元去掉,從而篩選出有效的特征搭建起需要學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)模型后,通過不斷減小損失函數(shù)的數(shù)值來訓(xùn)練網(wǎng)絡(luò)模型的參數(shù),從而提高圖像的質(zhì)量。訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)模型形成對應(yīng)的手部姿態(tài)模型以構(gòu)造輸入圖像到手部關(guān)節(jié)點位置的映射,最終通過建立的有效映射對相應(yīng)的圖像進行處理,可以獲得手部各關(guān)節(jié)點的位置。
本發(fā)明實施例通過引入卷積層和激活層,并借助卷積層的學(xué)習(xí)能力和激活層的篩選能力獲取好的特征,極大地增強神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力,準確地學(xué)習(xí)從輸入圖像到輸出圖像的映射以建立起輸入到輸出的映射,從而能夠通過學(xué)習(xí)到的映射進行手部姿態(tài)的預(yù)測和估計。
通過本發(fā)明實施例中建立的卷積神經(jīng)網(wǎng)絡(luò)模型中選取的卷積層的層數(shù)和卷積核大小,在保證神經(jīng)網(wǎng)絡(luò)的能力的基礎(chǔ)上,避免了在訓(xùn)練過程中出現(xiàn)梯度爆炸、過擬合和計算復(fù)雜度等問題;在訓(xùn)練本發(fā)明實施例中的卷積神經(jīng)網(wǎng)絡(luò)模型時,引入池化層,便于訓(xùn)練并有足夠的能力獲得很好的去噪效果。
在步驟s34中,根據(jù)所述手部的三維點云圖像利用所述手部姿態(tài)模型,獲取手部的各關(guān)節(jié)節(jié)點位置。
手部姿態(tài)估計的過程中,輸入的是前述步驟s20處理好的手部的三維點云圖像,輸出的是手部的3d節(jié)點信息。在進行手部姿態(tài)估計的過程中,使用了深度學(xué)習(xí)技術(shù)中的卷積神經(jīng)網(wǎng)絡(luò)技術(shù)。
本發(fā)明實施例中,根據(jù)所述手部的三維點云圖像利用所述手部姿態(tài)模型,獲取手部的各關(guān)節(jié)節(jié)點位置,可以采用如下方式:
將所述手部的三維點云圖像輸入至所述卷積神經(jīng)網(wǎng)絡(luò)模型;
所述多個全連接層中的最后一個全連接層輸出預(yù)設(shè)個數(shù)自由度的手部姿態(tài)參數(shù)至所述手部姿態(tài)模型;
所述手部姿態(tài)模型輸出手部的各關(guān)節(jié)節(jié)點位置。
本發(fā)明實施例中,所述手部姿態(tài)模型輸出手部的各關(guān)節(jié)節(jié)點位置,可以采用如下方式:
設(shè)計所述手部姿態(tài)模型中的全局損失函數(shù)g(ψ);
采用預(yù)設(shè)方法對所述全局損失函數(shù)進行迭代優(yōu)化;
當(dāng)所述全局損失函數(shù)達到預(yù)設(shè)的收斂條件時,輸出手部的各關(guān)節(jié)節(jié)點位置。
繼續(xù)參考圖5,在第三個全連接層fc3中,可以輸出例如26(具體自由度的數(shù)量可以預(yù)先設(shè)置,還可以是27,30等更多的自由度或者更少的自由度均可)自由度的手部姿態(tài)參數(shù)ψ,其同手部姿態(tài)模型hml相連接,使用前向動力學(xué)模型f(ψ)來輸出手部的各關(guān)節(jié)節(jié)點位置即3d節(jié)點的位置(
手部姿態(tài)參數(shù)設(shè)為ψ∈rd,其中可以設(shè)置d=26,為手部關(guān)節(jié)點的自由度(dof),其中3個自由度為全局手部(掌心)位置,3個自由度為全局手部(掌心)方向。余下自由度為各個節(jié)點的旋轉(zhuǎn)角度(每個手指有4個自由度,其中大拇指在指掌節(jié)點有3個自由度,指間節(jié)點有一個自由度;其余手指在指掌節(jié)點處有2個自由度,指間有兩個節(jié)點,每個節(jié)點有1個自由度,總共有20個自由度),對每一個旋轉(zhuǎn)角度
本發(fā)明實施例中,其中對于深度學(xué)習(xí)中的手部姿態(tài)模型hml,設(shè)計出如下全局損失函數(shù)g(ψ)。
所述全局損失函數(shù)g(ψ)包括節(jié)點位置損失函數(shù)gjoint(ψ)和節(jié)點約束損失函數(shù)gdofconstraint(ψ),其中所述全局損失函數(shù)g(ψ)滿足下式:
g(ψ)=gjoint(ψ)+λgconstraint(ψ)(4)
其中λ為所述全局損失函數(shù)g(ψ)的權(quán)重調(diào)節(jié)因子,ψ∈rd為手部姿態(tài)參數(shù)。
本發(fā)明實施例中,所述節(jié)點位置損失函數(shù)gjoint(ψ)為:
其中,
本發(fā)明實施例中,所述節(jié)點約束損失函數(shù)gdofconstraint(ψ)為:
其中,
在上述全局損失函數(shù)迭代優(yōu)化過程中,可以使用標(biāo)準隨機梯度下降法進行參數(shù)的優(yōu)化。需要說明的是,本發(fā)明并不局限于采用上述的標(biāo)準隨機梯度下降法進行參數(shù)的優(yōu)化,其可以采用任意一種可以用于進行參數(shù)優(yōu)化的算法。
本發(fā)明實施例中,提出一種基于深度學(xué)習(xí)的手部姿態(tài)估計方法:對深度圖像進行手部感興趣區(qū)域檢測,并從所述手部感興趣區(qū)域中分割出手部圖像;根據(jù)所述手部圖像獲取手部的三維點云圖像;以及采用深度學(xué)習(xí)技術(shù)對所述手部的三維點云圖像進行手部姿態(tài)估計,在該方案中,基于深度學(xué)習(xí)技術(shù)的手部姿態(tài)估計方法,免去了手工抽取手部特征的操作,極大地提升了手部姿態(tài)估計效果的魯棒性,因此,解決了現(xiàn)有技術(shù)中利用傳統(tǒng)的機器學(xué)習(xí)方法(如回歸或隨機森林)需要人工抽取手部特征導(dǎo)致手部姿態(tài)估計效果不佳的缺陷。同時,加入節(jié)點約束條件對手部姿態(tài)進行估計,使得該方法的魯棒性有較大的提升。與此同時,本實施例提供了一整套手部姿態(tài)估計方法,包含手部的分割、手部訓(xùn)練數(shù)據(jù)集的制作以及手部姿態(tài)估計這一整套的方法。
另外,根據(jù)一些實施例,可以針對場景,直接利用深度圖像中前后景的相對深度關(guān)系來提取手部感興趣區(qū)域并通過輪廓檢測的方法分割出手部圖像,因此,進一步提高了手部檢測的效果。
示例性設(shè)備
在介紹了本發(fā)明示例性實施方式的方法之后,接下來,參考圖6對本發(fā)明示例性實施方式的、基于深度學(xué)習(xí)的手部姿態(tài)估計裝置進行說明。
圖6示意性地示出了根據(jù)本發(fā)明實施方式的基于深度學(xué)習(xí)的手部姿態(tài)估計裝置10的示意圖。如圖6所示,該裝置10可以包括:
手部圖像分割模塊100,可以用于對深度圖像進行手部感興趣區(qū)域檢測,并從所述手部感興趣區(qū)域中分割出手部圖像;
點云圖像獲取模塊110,可以用于根據(jù)所述手部圖像獲取包含手部的三維點云圖像;以及
手部姿態(tài)估計模塊120,可以用于采用深度學(xué)習(xí)技術(shù)對所述手部的三維點云圖像進行手部姿態(tài)估計。
本發(fā)明實施例中,可選地,所述手部圖像分割圖像模塊100可以包括圖像采集設(shè)備和手部感興趣區(qū)域提取單元,其中:
所述圖像采集設(shè)備,用于通過其中的深度傳感器獲取所述深度圖像;
所述手部感興趣區(qū)域提取單元,利用所述深度圖像中前后景的相對深度關(guān)系,從所述深度圖像中提取出所述手部感興趣區(qū)域。
本發(fā)明實施例中,可選地,所述手部圖像分割模塊100還可以包括手部區(qū)域檢測單元和手部圖像分割單元,其中:
所述手部區(qū)域檢測單元,用于對所述手部感興趣區(qū)域進行邊緣檢測和輪廓檢測,檢測出手部區(qū)域;
所述手部圖像分割單元,用于對所述手部區(qū)域進行去噪處理,分割出所述手部圖像。
本發(fā)明實施例中,可選地,所述手部姿態(tài)估計模塊120可以包括訓(xùn)練數(shù)據(jù)集制作子模塊、點云區(qū)域提取子模塊、手部姿態(tài)模型制作子模塊以及手部姿態(tài)估計子模塊,其中:
所述訓(xùn)練數(shù)據(jù)集制作子模塊,用于制作手部訓(xùn)練數(shù)據(jù)集,獲取所述手部訓(xùn)練數(shù)據(jù)集的手部節(jié)點標(biāo)注信息;
所述點云區(qū)域提取子模塊,用于由所述手部訓(xùn)練數(shù)據(jù)集提取出手部的三維點云區(qū)域;
所述手部姿態(tài)模型制作子模塊,用于根據(jù)所述手部的三維點云區(qū)域和所述手部節(jié)點標(biāo)注信息利用卷積神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練形成手部姿態(tài)模型;
所述手部姿態(tài)估計子模塊,用于根據(jù)所述手部的三維點云圖像利用所述手部姿態(tài)模型,獲取手部的各關(guān)節(jié)節(jié)點位置。
本發(fā)明實施例中,所述卷積神經(jīng)網(wǎng)絡(luò)模型可以包括多個卷積層、多個池化層、多個全連接層以及每個所述卷積層后和每個所述全連接層后的激活層。
本發(fā)明實施例中,可選地,所述手部姿態(tài)估計子模塊可以包括點云圖像輸入單元、姿態(tài)參數(shù)輸出單元以及關(guān)節(jié)節(jié)點位置輸出單元,其中:
所述點云圖像輸入單元,用于將所述手部的三維點云圖像輸入至所述卷積神經(jīng)網(wǎng)絡(luò)模型;
所述姿態(tài)參數(shù)輸出單元,用于所述多個全連接層中的最后一個全連接層輸出預(yù)設(shè)個數(shù)自由度的手部姿態(tài)參數(shù)至所述手部姿態(tài)模型;
所述關(guān)節(jié)節(jié)點位置輸出單元,用于所述手部姿態(tài)模型輸出手部的各關(guān)節(jié)節(jié)點位置。
本發(fā)明實施例中,可選地,所述關(guān)節(jié)節(jié)點位置輸出單元包括全局損失函數(shù)設(shè)計子單元、迭代優(yōu)化子單元以及關(guān)節(jié)節(jié)點位置輸出子單元,其中:
所述全局損失函數(shù)設(shè)計子單元,用于設(shè)計所述手部姿態(tài)模型中的全局損失函數(shù)g(ψ);
所述迭代優(yōu)化子單元,采用預(yù)設(shè)方法對所述全局損失函數(shù)進行迭代優(yōu)化;
所述關(guān)節(jié)節(jié)點位置輸出子單元,用于當(dāng)所述全局損失函數(shù)達到預(yù)設(shè)的收斂條件時,輸出手部的各關(guān)節(jié)節(jié)點位置。
本發(fā)明實施例中,可選地,所述全局損失函數(shù)g(ψ)包括節(jié)點位置損失函數(shù)gjoint(ψ)和節(jié)點約束損失函數(shù)gdofconstraint(ψ),其中所述全局損失函數(shù)g(ψ)滿足下式:
g(ψ)=gjoint(ψ)+λgconstraint(ψ)
其中λ為所述全局損失函數(shù)g(ψ)的權(quán)重調(diào)節(jié)因子。
本發(fā)明實施例中,可選地,所述節(jié)點位置損失函數(shù)gjoint(ψ)為:
其中,
本發(fā)明實施例中,可選地,所述節(jié)點約束損失函數(shù)gdofconstraint(ψ)為:
其中,
本發(fā)明實施例中,提出一種基于深度學(xué)習(xí)的手部姿態(tài)估計裝置:對深度圖像進行手部感興趣區(qū)域檢測,并從所述手部感興趣區(qū)域中分割出手部圖像;根據(jù)所述手部圖像獲取手部的三維點云圖像;以及采用深度學(xué)習(xí)技術(shù)對所述手部的三維點云圖像進行手部姿態(tài)估計,在該方案中,基于深度學(xué)習(xí)技術(shù)的手部姿態(tài)估計方法,免去了手工抽取手部特征的操作,極大地提升了手部姿態(tài)估計效果的魯棒性,因此,解決了現(xiàn)有技術(shù)中人工抽取手部特征導(dǎo)致手部姿態(tài)估計效果不佳的缺陷。
另外,根據(jù)一些實施例,可以針對場景,直接利用深度圖像中前后景的相對深度關(guān)系來提取手部感興趣區(qū)域并通過輪廓檢測的方法分割出手部圖像,因此,進一步提高了手部檢測的效果。
示例性設(shè)備
在介紹了本發(fā)明示例性實施方式的方法和裝置之后,接下來,介紹根據(jù)本發(fā)明的另一示例性實施方式的基于深度學(xué)習(xí)的手部姿態(tài)估計裝置。
所屬技術(shù)領(lǐng)域的技術(shù)人員能夠理解,本發(fā)明的各個方面可以實現(xiàn)為系統(tǒng)、方法或程序產(chǎn)品。因此,本發(fā)明的各個方面可以具體實現(xiàn)為以下形式,即:完全的硬件實施方式、完全的軟件實施方式(包括固件、微代碼等),或硬件和軟件方面結(jié)合的實施方式,這里可以統(tǒng)稱為“電路”、“模塊”或“系統(tǒng)”。
在一些可能的實施方式中,根據(jù)本發(fā)明的基于深度學(xué)習(xí)的手部姿態(tài)估計裝置可以至少包括至少一個處理單元、以及至少一個存儲單元。其中,所述存儲單元存儲有程序代碼,當(dāng)所述程序代碼被所述處理單元執(zhí)行時,使得所述處理單元執(zhí)行本說明書上述“示例性方法”部分中描述的根據(jù)本發(fā)明各種示例性實施方式的用于保持數(shù)據(jù)一致性方法中的步驟。例如,所述處理單元可以執(zhí)行如圖1中所示的步驟s10:對深度圖像進行手部感興趣區(qū)域檢測,并從所述手部感興趣區(qū)域中分割出手部圖像;步驟s20:根據(jù)所述手部圖像獲取手部的三維點云圖像;步驟s30:采用深度學(xué)習(xí)技術(shù)對所述手部的三維點云圖像進行手部姿態(tài)估計。
下面參照圖7來描述根據(jù)本發(fā)明的這種實施方式的基于深度學(xué)習(xí)的手部姿態(tài)估計裝置50。圖7顯示的基于深度學(xué)習(xí)的手部姿態(tài)估計裝置50僅僅是一個示例,不應(yīng)對本發(fā)明實施例的功能和使用范圍帶來任何限制。
如圖7所示,基于深度學(xué)習(xí)的手部姿態(tài)估計裝置50以通用計算設(shè)備的形式表現(xiàn)?;谏疃葘W(xué)習(xí)的手部姿態(tài)估計裝置50的組件可以包括但不限于:上述至少一個處理單元500、上述至少一個存儲單元510、連接不同系統(tǒng)組件(包括存儲單元510和處理單元500)的總線530。
總線530表示幾類總線結(jié)構(gòu)中的一種或多種,包括存儲器總線或者存儲器控制器、外圍總線、圖形加速端口、處理器或者使用多種總線結(jié)構(gòu)中的任意總線結(jié)構(gòu)的局域總線。
存儲單元510可以包括易失性存儲器形式的可讀介質(zhì),例如隨機存取存儲器(ram)512和/或高速緩存存儲器514,還可以進一步只讀存儲器(rom)516。
存儲單元510還可以包括具有一組(至少一個)程序模塊5182的程序/實用工具518,這樣的程序模塊5182包括但不限于:操作系統(tǒng)、一個或者多個應(yīng)用程序、其它程序模塊以及程序數(shù)據(jù),這些示例中的每一個或某種組合中可能包括網(wǎng)絡(luò)環(huán)境的實現(xiàn)。
基于深度學(xué)習(xí)的手部姿態(tài)估計裝置50也可以與一個或多個外部設(shè)備560(例如試紙檢測設(shè)備、鍵盤、指向設(shè)備、藍牙設(shè)備等)通信,還可與一個或者多個使得用戶能與該基于深度學(xué)習(xí)的手部姿態(tài)估計裝置50交互的設(shè)備通信,和/或與使得該基于深度學(xué)習(xí)的手部姿態(tài)估計裝置50能與一個或多個其它計算設(shè)備進行通信的任何設(shè)備(例如路由器、調(diào)制解調(diào)器等等)通信。這種通信可以通過輸入/輸出(i/o)接口520進行。并且,基于深度學(xué)習(xí)的手部姿態(tài)估計裝置50還可以通過網(wǎng)絡(luò)適配器550與一個或者多個網(wǎng)絡(luò)(例如局域網(wǎng)(lan),廣域網(wǎng)(wan)和/或公共網(wǎng)絡(luò),例如因特網(wǎng))通信。如圖所示,網(wǎng)絡(luò)適配器550通過總線530與基于深度學(xué)習(xí)的手部姿態(tài)估計裝置50的其它模塊通信。應(yīng)當(dāng)明白,盡管圖中未示出,可以結(jié)合基于深度學(xué)習(xí)的手部姿態(tài)估計裝置50使用其它硬件和/或軟件模塊,包括但不限于:微代碼、設(shè)備驅(qū)動器、冗余處理單元、外部磁盤驅(qū)動陣列、raid系統(tǒng)、磁帶驅(qū)動器以及數(shù)據(jù)備份存儲系統(tǒng)等。
示例性程序產(chǎn)品
在一些可能的實施方式中,本發(fā)明的各個方面還可以實現(xiàn)為一種程序產(chǎn)品的形式,其包括程序代碼,當(dāng)所述程序產(chǎn)品在終端設(shè)備上運行時,所述程序代碼用于使所述終端設(shè)備執(zhí)行本說明書上述“示例性方法”部分中描述的根據(jù)本發(fā)明各種示例性實施方式的基于深度學(xué)習(xí)的手部姿態(tài)估計方法中的步驟,例如,所述終端設(shè)備可以執(zhí)行如圖1中所示的步驟s10:對深度圖像進行手部感興趣區(qū)域檢測,并從所述手部感興趣區(qū)域中分割出手部圖像;步驟s20:根據(jù)所述手部圖像獲取手部的三維點云圖像;步驟s30:采用深度學(xué)習(xí)技術(shù)對所述手部的三維點云圖像進行手部姿態(tài)估計。
所述程序產(chǎn)品可以采用一個或多個可讀介質(zhì)的任意組合??勺x介質(zhì)可以是可讀信號介質(zhì)或者可讀存儲介質(zhì)。可讀存儲介質(zhì)例如可以是——但不限于——電、磁、光、電磁、紅外線、或半導(dǎo)體的系統(tǒng)、裝置或器件,或者任意以上的組合??勺x存儲介質(zhì)的更具體的例子(非窮舉的列表)包括:具有一個或多個導(dǎo)線的電連接、便攜式盤、硬盤、隨機存取存儲器(ram)、只讀存儲器(rom)、可擦式可編程只讀存儲器(eprom或閃存)、光纖、便攜式緊湊盤只讀存儲器(cd-rom)、光存儲器件、磁存儲器件、或者上述的任意合適的組合。
如圖8所示,描述了根據(jù)本發(fā)明的實施方式的基于深度學(xué)習(xí)的手部姿態(tài)估計的程序產(chǎn)品60,其可以采用便攜式緊湊盤只讀存儲器(cd-rom)并包括程序代碼,并可以在終端設(shè)備,例如個人電腦上運行。然而,本發(fā)明的程序產(chǎn)品不限于此,在本文件中,可讀存儲介質(zhì)可以是任何包含或存儲程序的有形介質(zhì),該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用。
可讀信號介質(zhì)可以包括在基帶中或者作為載波一部分傳播的數(shù)據(jù)信號,其中承載了可讀程序代碼。這種傳播的數(shù)據(jù)信號可以采用多種形式,包括——但不限于——電磁信號、光信號或上述的任意合適的組合??勺x信號介質(zhì)還可以是可讀存儲介質(zhì)以外的任何可讀介質(zhì),該可讀介質(zhì)可以發(fā)送、傳播或者傳輸用于由指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用的程序。
可讀介質(zhì)上包含的程序代碼可以用任何適當(dāng)?shù)慕橘|(zhì)傳輸,包括——但不限于——無線、有線、光纜、rf等等,或者上述的任意合適的組合。
可以以一種或多種程序設(shè)計語言的任意組合來編寫用于執(zhí)行本發(fā)明操作的程序代碼,所述程序設(shè)計語言包括面向?qū)ο蟮某绦蛟O(shè)計語言—諸如java、c++等,還包括常規(guī)的過程式程序設(shè)計語言—諸如“c”語言或類似的程序設(shè)計語言。程序代碼可以完全地在用戶計算設(shè)備上執(zhí)行、部分地在用戶設(shè)備上執(zhí)行、作為一個獨立的軟件包執(zhí)行、部分在用戶計算設(shè)備上部分在遠程計算設(shè)備上執(zhí)行、或者完全在遠程計算設(shè)備或服務(wù)器上執(zhí)行。在涉及遠程計算設(shè)備的情形中,遠程計算設(shè)備可以通過任意種類的網(wǎng)絡(luò)——包括局域網(wǎng)(lan)或廣域網(wǎng)(wan)—連接到用戶計算設(shè)備,或者,可以連接到外部計算設(shè)備(例如利用因特網(wǎng)服務(wù)提供商來通過因特網(wǎng)連接)。
應(yīng)當(dāng)注意,盡管在上文詳細描述中提及了基于深度學(xué)習(xí)的手部姿態(tài)估計裝置的若干模塊或單元,但是這種劃分僅僅并非強制性的。實際上,根據(jù)本發(fā)明的實施方式,上文描述的兩個或更多裝置的特征和功能可以在一個裝置中具體化。反之,上文描述的一個裝置的特征和功能可以進一步劃分為由多個裝置來具體化。
此外,盡管在附圖中以特定順序描述了本發(fā)明方法的操作,但是,這并非要求或者暗示必須按照該特定順序來執(zhí)行這些操作,或是必須執(zhí)行全部所示的操作才能實現(xiàn)期望的結(jié)果。附加地或備選地,可以省略某些步驟,將多個步驟合并為一個步驟執(zhí)行,和/或?qū)⒁粋€步驟分解為多個步驟執(zhí)行。
雖然已經(jīng)參考若干具體實施方式描述了本發(fā)明的精神和原理,但是應(yīng)該理解,本發(fā)明并不限于所公開的具體實施方式,對各方面的劃分也不意味著這些方面中的特征不能組合以進行受益,這種劃分僅是為了表述的方便。本發(fā)明旨在涵蓋所附權(quán)利要求的精神和范圍內(nèi)所包括的各種修改和等同布置。