一種基于深度信息和多維度卷積神經(jīng)網(wǎng)絡(luò)的人體動(dòng)作識(shí)別方法與流程

文檔序號(hào)：11520245閱讀：515來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于深度信息和多維度卷積神經(jīng)網(wǎng)絡(luò)的人體動(dòng)作識(shí)別方法與流程

本發(fā)明涉及深度學(xué)習(xí)、人體動(dòng)作識(shí)別領(lǐng)域，具體涉及一種基于深度信息和多維度卷積神經(jīng)網(wǎng)絡(luò)的人體動(dòng)作識(shí)別方法。

背景技術(shù)：

隨著計(jì)算機(jī)技術(shù)的發(fā)展，人們希望計(jì)算機(jī)可以像人腦那樣思考和理解一些信號(hào)，像是理解我們的日?；顒?dòng)，這樣計(jì)算機(jī)就可以和人類(lèi)進(jìn)行更為自然的交互。

近年來(lái)，人體動(dòng)作識(shí)別作為計(jì)算機(jī)視覺(jué)、人工智能和模式識(shí)別領(lǐng)域中研究的一個(gè)熱點(diǎn)，已經(jīng)引起了研究人員越來(lái)越多的關(guān)注，尤其是在視頻監(jiān)控、醫(yī)療保健、智能安防、智能機(jī)器人開(kāi)發(fā)、人機(jī)交互、虛擬現(xiàn)實(shí)、用戶(hù)界面設(shè)計(jì)和多媒體視頻檢索等領(lǐng)域。

目前，絕大數(shù)人體動(dòng)作識(shí)別是基于淺層機(jī)器學(xué)習(xí)的方法。機(jī)器學(xué)習(xí)雖然發(fā)展了幾十年，但還是存在很多沒(méi)有良好解決的問(wèn)題。如，在特征提取方面，一般靠人工采集特征，然而，手工地選取特征是一件非常費(fèi)力、啟發(fā)式(需要專(zhuān)業(yè)知識(shí))的方法，能不能選取好特征很大程度上靠經(jīng)驗(yàn)和運(yùn)氣，而且它的調(diào)節(jié)需要大量的時(shí)間，但是沒(méi)有普遍最好的手工特征。而深度學(xué)習(xí)能讓機(jī)器自動(dòng)學(xué)習(xí)良好的特征，展現(xiàn)了強(qiáng)大的學(xué)習(xí)能力和優(yōu)越性，同時(shí)深度學(xué)習(xí)可以從數(shù)據(jù)中自動(dòng)提取高維特征，并從一個(gè)數(shù)據(jù)庫(kù)推廣到另一個(gè)數(shù)據(jù)庫(kù)。

目前人體動(dòng)作識(shí)別的研究主要集中在傳統(tǒng)彩色圖像視頻上，由于彩色圖像視頻缺乏人體的三維空間信息，對(duì)行為特征的描述不夠全面，很難處理遮擋、光照及行為外觀變化的特征描述問(wèn)題，因此其應(yīng)用效果及范圍具有一定局限性。

近年來(lái)，隨著圖像獲取技術(shù)的進(jìn)步，獲取深度圖像越來(lái)越容易，而深度圖像和傳統(tǒng)的彩色圖像相比有明顯的優(yōu)勢(shì)。例如，深度圖像反映純幾何形狀，往往比顏色和紋理更易區(qū)分。此外，深度圖像對(duì)光照變化等不敏感。許多基于深度數(shù)據(jù)的文章利用深度圖描述特定特征。然而，所有這些都是基于手工制作的特征，缺少對(duì)局部或全球時(shí)空信息的高維特征描述，它們的性能從數(shù)據(jù)集到數(shù)據(jù)集而變化，不能普遍推廣。因此在動(dòng)作識(shí)別領(lǐng)域，引入深度信息，用深度學(xué)習(xí)的方法研究基于深度信息的人體特征表示與提取是人體動(dòng)作識(shí)別的關(guān)鍵，已經(jīng)引起人們的極大關(guān)注。

在深度學(xué)習(xí)中，二維卷積神經(jīng)網(wǎng)絡(luò)的輸入一般是一幅圖，即一個(gè)特征，如果有多個(gè)特征，則需要多個(gè)卷積神經(jīng)網(wǎng)絡(luò)分別進(jìn)行特征提取和識(shí)別，這種方法比較費(fèi)時(shí)且計(jì)算量大。而三維卷積神經(jīng)網(wǎng)絡(luò)，其卷積核是三維的，相比二維卷積神經(jīng)網(wǎng)絡(luò)，計(jì)算復(fù)雜，計(jì)算量更大。

技術(shù)實(shí)現(xiàn)要素：

有鑒于此，本發(fā)明的目的在于提供一種基于深度信息和多維度卷積神經(jīng)網(wǎng)絡(luò)的人體動(dòng)作識(shí)別方法，即輸入是三維的，而識(shí)別過(guò)程是二維的，這種方法大大降低了計(jì)算復(fù)雜度，減少了計(jì)算時(shí)間，克服現(xiàn)有技術(shù)對(duì)外界環(huán)境的干擾和特征提取與識(shí)別方法的不足，不受光照環(huán)境變化的影響，同時(shí)展現(xiàn)了強(qiáng)大的學(xué)習(xí)能力和優(yōu)越性，還可以從一個(gè)數(shù)據(jù)庫(kù)到另一個(gè)數(shù)據(jù)庫(kù)普遍推廣，而不需改變?nèi)魏螀?shù)，有較強(qiáng)的適應(yīng)性。

為達(dá)到上述目的，本發(fā)明提供如下技術(shù)方案：

一種基于深度信息和多維度卷積神經(jīng)網(wǎng)絡(luò)的人體動(dòng)作識(shí)別方法，包括以下步驟：

步驟1：利用體感設(shè)備kinect獲取人體運(yùn)動(dòng)的深度圖像，得到人體深度運(yùn)動(dòng)信息；

步驟2：采用深度運(yùn)動(dòng)圖對(duì)人體深度運(yùn)動(dòng)信息進(jìn)行特征提取，獲得深度序列的正面投影圖、側(cè)面投影圖和俯視投影圖；

步驟3：將三個(gè)投影圖輸入多維度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行識(shí)別。

進(jìn)一步，在步驟1中：輸入kinect獲得的深度圖像，對(duì)深度運(yùn)動(dòng)信息進(jìn)行歸一化預(yù)處理，得到預(yù)處理后的圖像，即人體深度運(yùn)動(dòng)信息。

進(jìn)一步，在步驟2中，將深度運(yùn)動(dòng)圖預(yù)處理后的深度視頻序列投影到正交笛卡爾坐標(biāo)中，每個(gè)三維深度序列圖都可以根據(jù)視角的不同生成三個(gè)二維位圖，即其中v∈{front,side,top}，n是給定視頻片段的幀數(shù)，map是深度視頻序列，i是深度視頻序列的第i幀，得到人體動(dòng)作在三投影面系下的形狀和人體運(yùn)動(dòng)的累積信息，即正面投影圖、側(cè)面投影圖和俯視投影圖。

進(jìn)一步，在步驟3中，將正面投影圖、側(cè)面投影圖和俯視投影圖同時(shí)用多維度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行識(shí)別，卷積過(guò)程采用二維卷積核，卷積之后輸出為yj＝r(bj+∑ikij*xi)，其中，r為激活函數(shù)修正線(xiàn)性單元(relu)，r＝max(0,y)，xi為輸入特征圖，yj輸出特征圖，kij為xi與yj之間的權(quán)值，bj為偏置參數(shù)。

本發(fā)明的有益效果在于：

(1)本方法根據(jù)淺層機(jī)器學(xué)習(xí)技術(shù)的缺陷，提出用深度學(xué)習(xí)的方法進(jìn)行人體動(dòng)作識(shí)別。避免了機(jī)器學(xué)習(xí)在有限樣本和計(jì)算單元的情況下對(duì)復(fù)雜函數(shù)的表示能力有限的局限性，同時(shí)也解決了針對(duì)復(fù)雜分類(lèi)問(wèn)題的泛化能力具有制約的問(wèn)題。本方法的深度學(xué)習(xí)可通過(guò)學(xué)習(xí)一種深層非線(xiàn)性網(wǎng)絡(luò)結(jié)構(gòu)，實(shí)現(xiàn)復(fù)雜函數(shù)逼近，表征輸入數(shù)據(jù)分布式表示，并展現(xiàn)了強(qiáng)大的從少數(shù)樣本集中自動(dòng)學(xué)習(xí)數(shù)據(jù)集本質(zhì)特征的能力。

(2)本方法采用深度信息取代傳統(tǒng)的彩色信息，解決了彩色圖像視頻缺乏人體三維空間信息，對(duì)行為特征描述不全面，難以處理遮擋、光照及行為外觀變化的特征描述的問(wèn)題，消除了其應(yīng)用效果及范圍的局限性。本方法中的深度圖像反映純幾何形狀，比顏色和紋理更易區(qū)分，相對(duì)彩色圖像，能提供更多的人體表觀和結(jié)構(gòu)信息；其次，深度圖像對(duì)光照變化不敏感，不受光照環(huán)境變化的影響；另外，深度圖像可直接恢復(fù)物體的三維信息進(jìn)行物體的3d重構(gòu)，相較于單純的二維視頻數(shù)據(jù)，保留了以前缺失的“z軸”信息的三維數(shù)據(jù)，在動(dòng)作識(shí)別上擁有明顯的優(yōu)勢(shì)。

(3)本方法針對(duì)二維卷積神經(jīng)網(wǎng)絡(luò)和三維卷積神經(jīng)網(wǎng)絡(luò)的缺陷，提出了一種新的識(shí)別方法，即多維度卷積神經(jīng)網(wǎng)絡(luò)識(shí)別方法。此識(shí)別方法采用三維輸入，二維過(guò)程識(shí)別，結(jié)合了二維卷積神經(jīng)網(wǎng)絡(luò)和三維卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì)，在加快計(jì)算速度的同時(shí)，降低了識(shí)別過(guò)程的復(fù)雜度。在多維度卷積神經(jīng)網(wǎng)絡(luò)中，卷積神經(jīng)網(wǎng)絡(luò)每卷積一層，實(shí)際上信息會(huì)丟失一些，為了增加信息量，減少信息丟失，采用較淺的網(wǎng)絡(luò)層獲取信息。為了加快訓(xùn)練速度，用修正線(xiàn)性單元(relu)取代傳統(tǒng)的飽和非線(xiàn)性函數(shù)，如sigmoid，tanh，softsign等，比傳統(tǒng)的飽和非線(xiàn)性函數(shù)有更快的收斂速度。為了減少訓(xùn)練過(guò)程中的過(guò)擬合，在卷積層和全連接層加入隨機(jī)刪除(dropout)，提高網(wǎng)絡(luò)泛化能力。

附圖說(shuō)明

為了使本發(fā)明的目的、技術(shù)方案和有益效果更加清楚，本發(fā)明提供如下附圖進(jìn)行說(shuō)明：

圖1是本發(fā)明的總體框架圖。

圖2是前踢動(dòng)作的dmm示意圖(a)、正面投影圖(b)、側(cè)面投影圖(c)和俯視投影圖(d)。

圖3是本發(fā)明的多維度卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)框架圖。

具體實(shí)施方式

下面將結(jié)合附圖，對(duì)本發(fā)明的優(yōu)選實(shí)施例進(jìn)行詳細(xì)的描述。

圖1是本發(fā)明所提出的基于深度信息和多維度卷積神經(jīng)網(wǎng)絡(luò)的人體動(dòng)作識(shí)別方法的總體框架，其主要任務(wù)是通過(guò)kinect獲得人體運(yùn)動(dòng)序列的深度信息，利用深度運(yùn)動(dòng)圖(dmm)提取特征，獲得深度序列的正面投影圖、側(cè)面投影圖和俯視投影圖，在此基礎(chǔ)上，構(gòu)建了多維度卷積神經(jīng)網(wǎng)絡(luò)，實(shí)現(xiàn)人體動(dòng)作識(shí)別。具體實(shí)施方式如下所述：

步驟1：利用kinect設(shè)備來(lái)獲取現(xiàn)實(shí)場(chǎng)景和使用者的深度運(yùn)動(dòng)信息。

步驟2：將深度運(yùn)動(dòng)信息進(jìn)行歸一化預(yù)處理，得到預(yù)處理后的圖像用深度運(yùn)動(dòng)圖進(jìn)行特征提取，即人體動(dòng)作的特征提取，得到正面投影圖、側(cè)面投影圖和俯視投影圖，如圖2所示。深度運(yùn)動(dòng)圖的原理如下：

深度運(yùn)動(dòng)圖被用來(lái)總結(jié)視頻片段中每?jī)蓚€(gè)連續(xù)深度圖之間的區(qū)別。每個(gè)三維深度圖都可以根據(jù)視角的不同生成三個(gè)二維位圖，我們分別定義為正面圖、側(cè)面圖和俯視圖，其中，完整的dmm被定義為：其中，v∈{front,side,top}，n是給定視頻片段的幀數(shù)，map是深度視頻序列，i是深度視頻序列的第i幀，得到人體動(dòng)作在三投影面系下的形狀和人體運(yùn)動(dòng)的累積信息，即正面投影圖(b)、側(cè)面投影圖(c)和俯視投影圖(d)。

步驟3：將三個(gè)投影圖，作為動(dòng)作的三個(gè)特征，一起輸入多維度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行識(shí)別，如圖3所示。在多維度卷積神經(jīng)網(wǎng)絡(luò)中，激活函數(shù)采用修正線(xiàn)性單元(relu)，其公式為：r＝max(0,y)。卷積之后輸出為：yj＝r(bj+∑ikij*xi)，其中，xi為輸入特征圖，yj輸出特征圖，kij為xi與yj之間的權(quán)值，bj為偏置參數(shù)。輸入是三維的，可以同時(shí)處理三個(gè)特征，處理過(guò)程是二維的，降低了處理過(guò)程的復(fù)雜度，減少了計(jì)算量，加快了識(shí)別過(guò)程。

最后說(shuō)明的是，以上優(yōu)選實(shí)施例僅用以說(shuō)明本發(fā)明的技術(shù)方案而非限制，盡管通過(guò)上述優(yōu)選實(shí)施例已經(jīng)對(duì)本發(fā)明進(jìn)行了詳細(xì)的描述，但本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解，可以在形式上和細(xì)節(jié)上對(duì)其作出各種各樣的改變，而不偏離本發(fā)明權(quán)利要求書(shū)所限定的范圍。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：蔡林沁;劉曉林;陳富麗;虞繼敏;徐宏博
技術(shù)所有人：重慶郵電大學(xué)
我是此專(zhuān)利的發(fā)明人

上一篇：一種圖像變形檢測(cè)方法及裝置與流程
上一篇：一種人群信息采集分析方法和系統(tǒng)與流程

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話(huà)進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線(xiàn)網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

深度卷積神經(jīng)網(wǎng)絡(luò)相關(guān)技術(shù)

深度卷積神經(jīng)網(wǎng)絡(luò)模型相關(guān)技術(shù)

深度卷積神經(jīng)網(wǎng)絡(luò)算法相關(guān)技術(shù)

深度卷積神經(jīng)網(wǎng)絡(luò).pdf相關(guān)技術(shù)

深度卷積神經(jīng)網(wǎng)絡(luò)代碼相關(guān)技術(shù)

深度卷積多層神經(jīng)網(wǎng)絡(luò)相關(guān)技術(shù)

卷積神經(jīng)網(wǎng)絡(luò)相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于深度信息和多維度卷積神經(jīng)網(wǎng)絡(luò)的人體動(dòng)作識(shí)別方法與流程