欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于CNN和SVM的動作識別方法與流程

文檔序號:12786849閱讀:438來源:國知局
一種基于CNN和SVM的動作識別方法與流程

本發(fā)明屬于計算機視覺分析技術(shù)領(lǐng)域,特別涉及了一種動作識別方法。



背景技術(shù):

動作識別已經(jīng)成為計算機視覺分析領(lǐng)域的熱點方向,動作識別技術(shù)可以運用在智能家居中,可以對危險動作做出預(yù)計,協(xié)助監(jiān)控社會治安如對打架斗毆動作,偷竊動作等進行檢測和識別。動作檢測有著巨大的實用價值。

現(xiàn)階段,常見的對人體動作進行識別的技術(shù)包括:基于3D CNN人體動作識別,雙路CNN人體動作識別?;贚STM和CNN的動作識別方法。這些方法存在重復(fù)計算,識別精度不高,識別過程中對硬件的尋求較大,對模型訓(xùn)練時需要的數(shù)據(jù)量和時間較長等問題。

利用深度學(xué)習(xí)能對人體動作進行分析,基本可以達到的對視頻中的人的動作進行識別。但是也存在著些問題,使用深度學(xué)習(xí)對計算機的硬件要求較高,在添加新的類別時訓(xùn)練模型所要花費的時間較多,使用較大訓(xùn)練數(shù)據(jù)集前提下才能得出較為準確的預(yù)測值,實時性不高等缺點。

2013年在《IEEE Transactions on Pattern Analysis and Machine Intelligence》上發(fā)表的《3D Convolutional Neural Networks for Human Action Recognition》在動作識別中提出了使用3D卷積網(wǎng)絡(luò)來對動作做分類。該模型可以從視頻中的空間和時間維度進行特征提取,然后進行3D卷積,以捕捉從多個連續(xù)幀得到的運動信息?;?D卷積特征提取器構(gòu)造了一個3D卷積神經(jīng)網(wǎng)絡(luò)。這個架構(gòu)可以從連續(xù)的幾幀中產(chǎn)生多通道信息,然后在每一個通道都分離地進行卷積和采樣操作,最后將所有通道的信息組合起來得到最終的特征描述。通過將空間、時間維度和連續(xù)幾幀相結(jié)合可以提高對視頻中動作識別的精準度。但是也存在問題,3D CNN的主要步驟是先要確定人體的頭部及其包圍盒,這樣一來會增加計算量,降低視頻檢測的實時性,因為3D CNN同時對連續(xù)的7幀進行卷積存在著大量的重復(fù)計算,降低了實時性。

2015年在《Image Processing(ICIP),2016IEEE International Conference on》上發(fā)表的《Saliency-context two-stream convnets for action recognition》上提出可以使用兩個獨立的神經(jīng)網(wǎng)絡(luò)了,最后再把兩個模型的結(jié)果平均一下。第一個神經(jīng)網(wǎng)絡(luò)就是普通的單幀的CNN,這個CNN是在圖片數(shù)據(jù)上進行預(yù)訓(xùn)練,然后在視頻數(shù)據(jù)上對最后一層結(jié)果進行調(diào)參;第二個是CNN網(wǎng)絡(luò),是把連續(xù)幾幀圖片的光流疊加起來作CNN的輸入,在最后將兩個CNN計算的結(jié)果做權(quán)衡最后輸出權(quán)衡結(jié)果。它利用兩個CNN訓(xùn)練標記來克服數(shù)據(jù)量不足的問題。提高了CNN檢測的精度。但是使用兩個神經(jīng)網(wǎng)絡(luò)來對視屏進行分析計算流程復(fù)雜,對硬件的要求比較高實時性較差;雖然使用了運動的信息,但是運動信息是單獨使用的而且只有相鄰的兩幀,使得識別精度不是很高。



技術(shù)實現(xiàn)要素:

為了解決上述背景技術(shù)提出的技術(shù)問題,本發(fā)明旨在提供一種基于CNN和SVM的動作識別方法,克服了現(xiàn)有技術(shù)缺陷,提升了識別的精度和實時性。

為了實現(xiàn)上述技術(shù)目的,本發(fā)明的技術(shù)方案為:

一種基于CNN和SVM的動作識別方法,包括以下步驟:

(1)選擇CNN訓(xùn)練數(shù)據(jù)集,進行卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練,得到人體識別模型,能夠在視頻中識別出人體;

(2)選擇SVM訓(xùn)練數(shù)據(jù)集,進行支持向量機訓(xùn)練,得到動作識別模型,能夠?qū)θ梭w動作進行分類;

(3)將待識別的視頻輸入步驟(1)得到的人體識別模型,從而識別出視頻中的目標,即人體,并保存目標的位置坐標;

(4)讀取步驟(3)保存的目標位置坐標,從待識別的視頻各幀中截取對應(yīng)位置區(qū)域的圖片,并將其中的連續(xù)幀圖片歸為一類;

(5)構(gòu)建有效幀提選取方法,使用有效幀提取方法從連續(xù)幀圖片中選取有效信息集中的有效幀作為一個數(shù)據(jù)組;

(6)將步驟(5)得到的數(shù)據(jù)組輸入卷積神經(jīng)網(wǎng)絡(luò),提取fc7特征向量;

(7)構(gòu)建金字塔特征優(yōu)化模型,對步驟(6)得到的fc7特征向量進行優(yōu)化;

(8)將優(yōu)化后的特征向量進行整合,再輸入步驟(2)得到的動作識別模型中進行分類,得到動作識別結(jié)果。

進一步地,步驟(1)的具體過程如下:

采用PASCAL VOC數(shù)據(jù)集作為CNN訓(xùn)練數(shù)據(jù)集,將人體圖片轉(zhuǎn)化成lmdb格式數(shù)據(jù),將lmdb格式的人體圖片和圖片中人體的坐標輸入卷積神經(jīng)網(wǎng)絡(luò)中進行訓(xùn)練,得到人體識別模型。

進一步地,步驟(2)的具體過程如下:

采用UCF sports數(shù)據(jù)集作為SVM訓(xùn)練集,在該數(shù)據(jù)集的每個動作中給定了人的圖片和圖片中相應(yīng)的動作及相應(yīng)的坐標,采用OPENCV中的cvSetImageROI函數(shù)截取感興趣區(qū)域,將視頻中截取的連續(xù)幀歸為一類,采用有效幀提取方法從連續(xù)幀中提取出有效幀,將有效幀輸入金字塔特征優(yōu)化模型中得到特征向量,按照數(shù)據(jù)集中給定的動作對特征向量中的每個特征進行唯一標號,將帶有標號的特征向量輸入支持向量機中進行訓(xùn)練,得到動作識別模型。

進一步地,在步驟(5)中,所述有效幀提取方法的過程如下:

采用局部敏感哈希算法對連續(xù)的n幀圖片的fc7特征向量進行hash映射,得到n個二進制特征空間,若當(dāng)前幀的二進制特征空間中的特征與前一幀不同,則將當(dāng)前幀作為有效幀,并把當(dāng)前幀到下一個有效幀的前一幀作為一個有效幀片段。

進一步地,步驟(7)的具體過程如下:

將步驟(5)得到的有效幀片段作為金字塔的塔尖,提取每一幀圖片的fc7層特征,將h1=fM-f1作為金字塔頂層的CNN流;在金字塔中間層,將有效幀片段均分為兩份,將h2=f(M/2)-f1和h3=fM-f(M/2)+1作為金字塔中間層的兩個CNN流;在金字塔底層,將金字塔中間層均分的兩份有效幀片段各自再均分為兩份,將h4=fM/4-f1,h5=f(M/2)+1-f(M/4)+1,h6=f(3M/4)-f(M/2)+1,h7=fM-f(3M/4)+1作為金字塔底層的CNN流,一共得到7個CNN流h1-h7,使用這7個CNN流作為某一個連續(xù)動作的特征向量;其中,fi為有效幀片段中第i幀的fc7層特征,i=1,2,…,M,M為有效幀片段的長度。

采用上述技術(shù)方案帶來的有益效果:

本發(fā)明通過有效幀提取方法選取出連續(xù)幀之間的有效幀,通過此方法減少了對價值不高幀的識別,提高了方法的實時性;構(gòu)建了金字塔特征優(yōu)化模型對一個連續(xù)的動作進行綜合性的特征描述,將一個連續(xù)的動作特征放入SVM中分類,提高了識別的準確性。

附圖說明

圖1是本發(fā)明的方法流程圖。

圖2是本發(fā)明中有效幀提取方法示意圖。

圖3是本發(fā)明中金字塔特征優(yōu)化模型示意圖。

具體實施方式

以下將結(jié)合附圖,對本發(fā)明的技術(shù)方案進行詳細說明。

一種基于CNN和SVM的動作識別方法,如圖1所示,具體過程如下。

首先,選擇CNN訓(xùn)練數(shù)據(jù)集,進行卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練,得到人體識別模型,能夠在視頻中識別出人體。

使用PASCAL VOC數(shù)據(jù)集來做全局卷積神經(jīng)網(wǎng)絡(luò)(CNN)訓(xùn)練所用的數(shù)據(jù)集,這里我們采用的是PASCAL VOC中人這一類的圖片和人體相對應(yīng)的包圍盒坐標,我們將人這一類圖片轉(zhuǎn)化成lmdb格式的數(shù)據(jù)。將lmdb格式的數(shù)據(jù)和圖片中人體的坐標放入卷積神經(jīng)網(wǎng)絡(luò)中進行訓(xùn)練,卷積神經(jīng)網(wǎng)絡(luò)通過若干個7*7的小格將圖片分為若干塊然后對小格進行同時處理。每個小格中有5個圈基層5個池化層和三個特征提層。當(dāng)數(shù)據(jù)經(jīng)過第一層卷積層卷積和池化層優(yōu)化后生成27*27的圖像,其中feature map個數(shù)為256,經(jīng)過第二層卷積層和池化層后變?yōu)?3*13的圖像,其中feature map個數(shù)為256,經(jīng)過第三層和第四層卷積層和池化層后變?yōu)?3*13的圖像,其中feature map個數(shù)為384,經(jīng)過最后一層卷積層和池化層后生成6*6的圖像,其中feature map為256,接下來進入三個特征提取層得出1024維的特征向量,最后一層對1024維向量進行訓(xùn)練,得出人體識別模型。

其次,選擇SVM訓(xùn)練數(shù)據(jù)集,進行支持向量機訓(xùn)練,得到動作識別模型,能夠?qū)θ梭w動作進行分類。

用UCF sports數(shù)據(jù)集對SVM進行訓(xùn)練,在UCF sports數(shù)據(jù)集中共有21個動作。每個動作中給定了人的圖片和圖片中相應(yīng)的動作及相應(yīng)的坐標。使用OPENCV中的cvSetImageROI函數(shù)對該區(qū)域截取得到興趣ROI區(qū)域,然后將同一視頻中截取的連續(xù)圖片歸為一類,使用有效幀提取方法對傳入進來的連續(xù)幀進行篩選,篩選出12個有效的幀,將這些幀并傳入到創(chuàng)建好的金字塔特征優(yōu)化模型中去,得出C集合(7個CNN流)。將得出的C集合中7個CNN流按照數(shù)據(jù)集中給定的動作進行唯一標號,作為其對應(yīng)的類型。(例如:跑步標號為1,拍照標號為2),將7*4096特征中每個特征值打上1-28672的索引。將上述處理好的特征向量放入SVM中使用線性核函數(shù)進行訓(xùn)練,得出動作識別模型。

在選取視頻幀的時候我們希望能選取一些富有表現(xiàn)力的視頻片段,期望在一個有限的視頻片中能有足夠的信息來表達相應(yīng)的動作,為此構(gòu)建了有效幀提取方法。首先在CNN中創(chuàng)建一個長度為b的二進制特征空間,這些二進制代碼是描述CNN特征之間的距離,描述距離的具體方法使用局部敏感哈希算法(LSH)。局部敏感哈希算法的主要作用是對連續(xù)數(shù)據(jù)幀的fc7特征向量進行hash映射,特征向量投射后分布較為密集的位置表示為1,特征向量分布稀疏的表示為0。對連續(xù)的n幀進行投射得出n個二進制的特征空間,如果當(dāng)前幀的二進制特征空間中的特征與前一個幀不同,則把當(dāng)前幀到下一個有效幀的前一幀作為一個有效幀片段。通過改變映射出的二維特征空間的大小來控制片段的長度,空間的長度越長,有效幀的片段就越短。圖2為有效幀提取方法示意圖。

通過這一步我們可以選取出有效幀段,我們可以使用有效幀段作為下一步提取特征向量的數(shù)據(jù)集。

人的一個動作一般包含多個動作細節(jié),如打電話中包含了伸展手臂,手抓著手機,將手機靠向耳朵等多個連貫的動作。我們可以通過構(gòu)建金字塔特征優(yōu)化模型的方法來細化幾個特征的表達,構(gòu)建的金字塔總共有3層。我們定義了Hi{hi:1,…,M},F(xiàn)i{fi:1,…,M}和C函數(shù),其中Hi代表相連續(xù)幀中的CNN流,F(xiàn)i為一幀中提取的fc7層特征。C{ci:h1,…,hm}代表視頻幀中總體的CNN流。使用有效幀選擇模塊中選取出來的有效幀段作為采集fc7層特征的數(shù)據(jù)集,將視頻有效幀段作為金字塔的塔尖并對這些連續(xù)的圖片提取fc7層特征,將h1=fM-f1作為金字塔第一層的CNN流。第二層中我們將第一層的視頻幀均分為兩份,對這兩份數(shù)據(jù)提取fc7特征,將h2=f(M/2)-f1和h3=fM-f(M/2)+1作為第二層的兩個CNN流。在金字塔第三層中將上面兩個視頻幀段均分為四個幀段并提取fc層特征向量,將h4=fM/4-f1,h5=f(M/2)+1-f(M/4)+1,h6=f(3M/4)-f(M/2)+1,h7=fM-f(3M/4)+1作為金字塔第三層CNN流。這樣便得到了7個CNN流。我們將這7個CNN流按照下標順序放入C中作為這個視頻幀集合的整體CNN流。C中有7*4096維的一個向量,我們使用這個7*4096向量作為這一個連續(xù)動作的特征向量。圖3為金字塔優(yōu)化模型示意圖。

通過以上步驟完成了動作分類所需要模型的訓(xùn)練。在對視頻進行分析時,使用人體識別模型對視頻中的人進行識別,在識別的同時讓卷積神經(jīng)網(wǎng)絡(luò)輸出識別的類型和該類型的包圍盒并且將包圍盒的坐標記錄下來保存為txt供下一步使用。運用OPENCV中對興趣區(qū)域截取的cvSetImageROI函數(shù)讀取保存下來的圖片和txt中的坐標位置,對相應(yīng)的位置進行截取得到需要的ROI區(qū)域。對連續(xù)的ROI區(qū)域采用有效幀提取方法進行有效幀的提取,將提取下來的有效幀放入金字塔特征優(yōu)化模型中進行特征優(yōu)化得到7*4096維的特征向量,將這些特征向量傳入訓(xùn)練好的動作識別模型中進行分類。

以上實施例僅為說明本發(fā)明的技術(shù)思想,不能以此限定本發(fā)明的保護范圍,凡是按照本發(fā)明提出的技術(shù)思想,在技術(shù)方案基礎(chǔ)上所做的任何改動,均落入本發(fā)明保護范圍之內(nèi)。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
武城县| 南投市| 临漳县| 万山特区| 鄂尔多斯市| 商河县| 凯里市| 武威市| 康马县| 北京市| 朝阳县| 广饶县| 怀远县| 宜宾县| 甘孜县| 商水县| 龙陵县| 万宁市| 太仓市| 类乌齐县| 富平县| 灌阳县| 江西省| 诸城市| 泸西县| 宕昌县| 英超| 油尖旺区| 遂平县| 临澧县| 平乐县| 闽侯县| 舟山市| 密云县| 微博| 玛纳斯县| 修水县| 芜湖市| 巴彦淖尔市| 左云县| 黔东|