本發(fā)明涉及深度學(xué)習(xí)、人體動(dòng)作識(shí)別領(lǐng)域,具體涉及一種基于深度信息和多維度卷積神經(jīng)網(wǎng)絡(luò)的人體動(dòng)作識(shí)別方法。
背景技術(shù):
隨著計(jì)算機(jī)技術(shù)的發(fā)展,人們希望計(jì)算機(jī)可以像人腦那樣思考和理解一些信號(hào),像是理解我們的日?;顒?dòng),這樣計(jì)算機(jī)就可以和人類(lèi)進(jìn)行更為自然的交互。
近年來(lái),人體動(dòng)作識(shí)別作為計(jì)算機(jī)視覺(jué)、人工智能和模式識(shí)別領(lǐng)域中研究的一個(gè)熱點(diǎn),已經(jīng)引起了研究人員越來(lái)越多的關(guān)注,尤其是在視頻監(jiān)控、醫(yī)療保健、智能安防、智能機(jī)器人開(kāi)發(fā)、人機(jī)交互、虛擬現(xiàn)實(shí)、用戶(hù)界面設(shè)計(jì)和多媒體視頻檢索等領(lǐng)域。
目前,絕大數(shù)人體動(dòng)作識(shí)別是基于淺層機(jī)器學(xué)習(xí)的方法。機(jī)器學(xué)習(xí)雖然發(fā)展了幾十年,但還是存在很多沒(méi)有良好解決的問(wèn)題。如,在特征提取方面,一般靠人工采集特征,然而,手工地選取特征是一件非常費(fèi)力、啟發(fā)式(需要專(zhuān)業(yè)知識(shí))的方法,能不能選取好特征很大程度上靠經(jīng)驗(yàn)和運(yùn)氣,而且它的調(diào)節(jié)需要大量的時(shí)間,但是沒(méi)有普遍最好的手工特征。而深度學(xué)習(xí)能讓機(jī)器自動(dòng)學(xué)習(xí)良好的特征,展現(xiàn)了強(qiáng)大的學(xué)習(xí)能力和優(yōu)越性,同時(shí)深度學(xué)習(xí)可以從數(shù)據(jù)中自動(dòng)提取高維特征,并從一個(gè)數(shù)據(jù)庫(kù)推廣到另一個(gè)數(shù)據(jù)庫(kù)。
目前人體動(dòng)作識(shí)別的研究主要集中在傳統(tǒng)彩色圖像視頻上,由于彩色圖像視頻缺乏人體的三維空間信息,對(duì)行為特征的描述不夠全面,很難處理遮擋、光照及行為外觀變化的特征描述問(wèn)題,因此其應(yīng)用效果及范圍具有一定局限性。
近年來(lái),隨著圖像獲取技術(shù)的進(jìn)步,獲取深度圖像越來(lái)越容易,而深度圖像和傳統(tǒng)的彩色圖像相比有明顯的優(yōu)勢(shì)。例如,深度圖像反映純幾何形狀,往往比顏色和紋理更易區(qū)分。此外,深度圖像對(duì)光照變化等不敏感。許多基于深度數(shù)據(jù)的文章利用深度圖描述特定特征。然而,所有這些都是基于手工制作的特征,缺少對(duì)局部或全球時(shí)空信息的高維特征描述,它們的性能從數(shù)據(jù)集到數(shù)據(jù)集而變化,不能普遍推廣。因此在動(dòng)作識(shí)別領(lǐng)域,引入深度信息,用深度學(xué)習(xí)的方法研究基于深度信息的人體特征表示與提取是人體動(dòng)作識(shí)別的關(guān)鍵,已經(jīng)引起人們的極大關(guān)注。
在深度學(xué)習(xí)中,二維卷積神經(jīng)網(wǎng)絡(luò)的輸入一般是一幅圖,即一個(gè)特征,如果有多個(gè)特征,則需要多個(gè)卷積神經(jīng)網(wǎng)絡(luò)分別進(jìn)行特征提取和識(shí)別,這種方法比較費(fèi)時(shí)且計(jì)算量大。而三維卷積神經(jīng)網(wǎng)絡(luò),其卷積核是三維的,相比二維卷積神經(jīng)網(wǎng)絡(luò),計(jì)算復(fù)雜,計(jì)算量更大。
技術(shù)實(shí)現(xiàn)要素:
有鑒于此,本發(fā)明的目的在于提供一種基于深度信息和多維度卷積神經(jīng)網(wǎng)絡(luò)的人體動(dòng)作識(shí)別方法,即輸入是三維的,而識(shí)別過(guò)程是二維的,這種方法大大降低了計(jì)算復(fù)雜度,減少了計(jì)算時(shí)間,克服現(xiàn)有技術(shù)對(duì)外界環(huán)境的干擾和特征提取與識(shí)別方法的不足,不受光照環(huán)境變化的影響,同時(shí)展現(xiàn)了強(qiáng)大的學(xué)習(xí)能力和優(yōu)越性,還可以從一個(gè)數(shù)據(jù)庫(kù)到另一個(gè)數(shù)據(jù)庫(kù)普遍推廣,而不需改變?nèi)魏螀?shù),有較強(qiáng)的適應(yīng)性。
為達(dá)到上述目的,本發(fā)明提供如下技術(shù)方案:
一種基于深度信息和多維度卷積神經(jīng)網(wǎng)絡(luò)的人體動(dòng)作識(shí)別方法,包括以下步驟:
步驟1:利用體感設(shè)備kinect獲取人體運(yùn)動(dòng)的深度圖像,得到人體深度運(yùn)動(dòng)信息;
步驟2:采用深度運(yùn)動(dòng)圖對(duì)人體深度運(yùn)動(dòng)信息進(jìn)行特征提取,獲得深度序列的正面投影圖、側(cè)面投影圖和俯視投影圖;
步驟3:將三個(gè)投影圖輸入多維度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行識(shí)別。
進(jìn)一步,在步驟1中:輸入kinect獲得的深度圖像,對(duì)深度運(yùn)動(dòng)信息進(jìn)行歸一化預(yù)處理,得到預(yù)處理后的圖像,即人體深度運(yùn)動(dòng)信息。
進(jìn)一步,在步驟2中,將深度運(yùn)動(dòng)圖預(yù)處理后的深度視頻序列投影到正交笛卡爾坐標(biāo)中,每個(gè)三維深度序列圖都可以根據(jù)視角的不同生成三個(gè)二維位圖,即
進(jìn)一步,在步驟3中,將正面投影圖、側(cè)面投影圖和俯視投影圖同時(shí)用多維度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行識(shí)別,卷積過(guò)程采用二維卷積核,卷積之后輸出為yj=r(bj+∑ikij*xi),其中,r為激活函數(shù)修正線(xiàn)性單元(relu),r=max(0,y),xi為輸入特征圖,yj輸出特征圖,kij為xi與yj之間的權(quán)值,bj為偏置參數(shù)。
本發(fā)明的有益效果在于:
(1)本方法根據(jù)淺層機(jī)器學(xué)習(xí)技術(shù)的缺陷,提出用深度學(xué)習(xí)的方法進(jìn)行人體動(dòng)作識(shí)別。避免了機(jī)器學(xué)習(xí)在有限樣本和計(jì)算單元的情況下對(duì)復(fù)雜函數(shù)的表示能力有限的局限性,同時(shí)也解決了針對(duì)復(fù)雜分類(lèi)問(wèn)題的泛化能力具有制約的問(wèn)題。本方法的深度學(xué)習(xí)可通過(guò)學(xué)習(xí)一種深層非線(xiàn)性網(wǎng)絡(luò)結(jié)構(gòu),實(shí)現(xiàn)復(fù)雜函數(shù)逼近,表征輸入數(shù)據(jù)分布式表示,并展現(xiàn)了強(qiáng)大的從少數(shù)樣本集中自動(dòng)學(xué)習(xí)數(shù)據(jù)集本質(zhì)特征的能力。
(2)本方法采用深度信息取代傳統(tǒng)的彩色信息,解決了彩色圖像視頻缺乏人體三維空間信息,對(duì)行為特征描述不全面,難以處理遮擋、光照及行為外觀變化的特征描述的問(wèn)題,消除了其應(yīng)用效果及范圍的局限性。本方法中的深度圖像反映純幾何形狀,比顏色和紋理更易區(qū)分,相對(duì)彩色圖像,能提供更多的人體表觀和結(jié)構(gòu)信息;其次,深度圖像對(duì)光照變化不敏感,不受光照環(huán)境變化的影響;另外,深度圖像可直接恢復(fù)物體的三維信息進(jìn)行物體的3d重構(gòu),相較于單純的二維視頻數(shù)據(jù),保留了以前缺失的“z軸”信息的三維數(shù)據(jù),在動(dòng)作識(shí)別上擁有明顯的優(yōu)勢(shì)。
(3)本方法針對(duì)二維卷積神經(jīng)網(wǎng)絡(luò)和三維卷積神經(jīng)網(wǎng)絡(luò)的缺陷,提出了一種新的識(shí)別方法,即多維度卷積神經(jīng)網(wǎng)絡(luò)識(shí)別方法。此識(shí)別方法采用三維輸入,二維過(guò)程識(shí)別,結(jié)合了二維卷積神經(jīng)網(wǎng)絡(luò)和三維卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì),在加快計(jì)算速度的同時(shí),降低了識(shí)別過(guò)程的復(fù)雜度。在多維度卷積神經(jīng)網(wǎng)絡(luò)中,卷積神經(jīng)網(wǎng)絡(luò)每卷積一層,實(shí)際上信息會(huì)丟失一些,為了增加信息量,減少信息丟失,采用較淺的網(wǎng)絡(luò)層獲取信息。為了加快訓(xùn)練速度,用修正線(xiàn)性單元(relu)取代傳統(tǒng)的飽和非線(xiàn)性函數(shù),如sigmoid,tanh,softsign等,比傳統(tǒng)的飽和非線(xiàn)性函數(shù)有更快的收斂速度。為了減少訓(xùn)練過(guò)程中的過(guò)擬合,在卷積層和全連接層加入隨機(jī)刪除(dropout),提高網(wǎng)絡(luò)泛化能力。
附圖說(shuō)明
為了使本發(fā)明的目的、技術(shù)方案和有益效果更加清楚,本發(fā)明提供如下附圖進(jìn)行說(shuō)明:
圖1是本發(fā)明的總體框架圖。
圖2是前踢動(dòng)作的dmm示意圖(a)、正面投影圖(b)、側(cè)面投影圖(c)和俯視投影圖(d)。
圖3是本發(fā)明的多維度卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)框架圖。
具體實(shí)施方式
下面將結(jié)合附圖,對(duì)本發(fā)明的優(yōu)選實(shí)施例進(jìn)行詳細(xì)的描述。
圖1是本發(fā)明所提出的基于深度信息和多維度卷積神經(jīng)網(wǎng)絡(luò)的人體動(dòng)作識(shí)別方法的總體框架,其主要任務(wù)是通過(guò)kinect獲得人體運(yùn)動(dòng)序列的深度信息,利用深度運(yùn)動(dòng)圖(dmm)提取特征,獲得深度序列的正面投影圖、側(cè)面投影圖和俯視投影圖,在此基礎(chǔ)上,構(gòu)建了多維度卷積神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)人體動(dòng)作識(shí)別。具體實(shí)施方式如下所述:
步驟1:利用kinect設(shè)備來(lái)獲取現(xiàn)實(shí)場(chǎng)景和使用者的深度運(yùn)動(dòng)信息。
步驟2:將深度運(yùn)動(dòng)信息進(jìn)行歸一化預(yù)處理,得到預(yù)處理后的圖像用深度運(yùn)動(dòng)圖進(jìn)行特征提取,即人體動(dòng)作的特征提取,得到正面投影圖、側(cè)面投影圖和俯視投影圖,如圖2所示。深度運(yùn)動(dòng)圖的原理如下:
深度運(yùn)動(dòng)圖被用來(lái)總結(jié)視頻片段中每?jī)蓚€(gè)連續(xù)深度圖之間的區(qū)別。每個(gè)三維深度圖都可以根據(jù)視角的不同生成三個(gè)二維位圖,我們分別定義為正面圖、側(cè)面圖和俯視圖,其中,完整的dmm被定義為:
步驟3:將三個(gè)投影圖,作為動(dòng)作的三個(gè)特征,一起輸入多維度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行識(shí)別,如圖3所示。在多維度卷積神經(jīng)網(wǎng)絡(luò)中,激活函數(shù)采用修正線(xiàn)性單元(relu),其公式為:r=max(0,y)。卷積之后輸出為:yj=r(bj+∑ikij*xi),其中,xi為輸入特征圖,yj輸出特征圖,kij為xi與yj之間的權(quán)值,bj為偏置參數(shù)。輸入是三維的,可以同時(shí)處理三個(gè)特征,處理過(guò)程是二維的,降低了處理過(guò)程的復(fù)雜度,減少了計(jì)算量,加快了識(shí)別過(guò)程。
最后說(shuō)明的是,以上優(yōu)選實(shí)施例僅用以說(shuō)明本發(fā)明的技術(shù)方案而非限制,盡管通過(guò)上述優(yōu)選實(shí)施例已經(jīng)對(duì)本發(fā)明進(jìn)行了詳細(xì)的描述,但本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,可以在形式上和細(xì)節(jié)上對(duì)其作出各種各樣的改變,而不偏離本發(fā)明權(quán)利要求書(shū)所限定的范圍。