欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于深度卷積特征多通道金字塔池化的動作識別方法與流程

文檔序號:12670426閱讀:1050來源:國知局

本發(fā)明涉及計算機視覺領域,更具體地,涉及一種基于深度卷積特征多通道金字塔池化的動作識別方法。



背景技術:

科技的發(fā)展使得攝像設備得到了普及,數(shù)量巨大的視頻數(shù)據(jù)也隨之產(chǎn)生。同時,針對視頻的應用也應運而生:智能視頻監(jiān)控、視頻數(shù)據(jù)分類、高級人機交互等。在這些應用中,針對人的動作進行理解是最核心的關注點,也是人們研究的核心內(nèi)容。

由于人體動作識別有很大的潛在價值,所以此課題作為一個研究熱點已經(jīng)持續(xù)了至少十年時間,很多種方法都被提出,例如:基于密集軌跡(DT)的方法、基于時空興趣點的方法以及基于卷積神經(jīng)網(wǎng)絡(CNN)的方法等。其中,基于CNN的方法研究的人數(shù)最多,這種方法能夠取得目前最好的結果。然而,大多數(shù)深層CNN網(wǎng)絡都將單張卷積圖看成一個整體來用,而卷積圖中的局部信息往往被忽略,所以,我們的動作識別研究將會針對基于深度卷積特征多通道金字塔池化的動作識別方法以提取深度特征中的局部信息。

基于卷積神經(jīng)網(wǎng)絡的方法的主要思想是:首先,對視頻采用多層的卷積層、池化層和全連接層,提取視頻的描述子特征;接下來將這些特征放入分類器中進行分類,以完成最終的識別過程。很多學者在這個基礎上進行了探索和改進。Annane等人提出了一種雙流卷積網(wǎng)絡用于動作識別,包括空間流和時間流網(wǎng)絡,空間流用于提取視頻幀的表觀特征,時間流用于提取視頻連續(xù)幀的運動特征,將二者進行融合,以此提升識別效果。Wang等人將深度卷積特征和人工特征進行融合,學習到深度特征和人工特征這兩種不同類型特征的優(yōu)勢。以上方法都取得了較好的效果,但是現(xiàn)存的基于深度網(wǎng)絡的研究通常將單張深度特征圖作為一個整體來使用而忽略了深度特征中的局部信息,而這種線索對于提高基于深度網(wǎng)絡的識別準確率是有幫助的。



技術實現(xiàn)要素:

為了克服上述現(xiàn)有技術的不足,本發(fā)明提供了一種基于深度卷積特征多通道金字塔池化的動作識別方法。該方法將視頻數(shù)據(jù)集的視頻作為輸入,進行視頻特征提取和識別,最后輸出視頻的分類結果,該方法具有簡單易實現(xiàn),識別效果好的特點。

為了達到上述目的,本發(fā)明采用的技術方案是:

一種基于深度卷積特征多通道金字塔池化的動作識別方法,包括以下步驟:

(1)輸入待識別的視頻,采用two-stream深度網(wǎng)絡模型得到多通道深度卷積圖;其中two-stream網(wǎng)絡模型包括空間流(spatial-stream)深度網(wǎng)絡模型和時間流(temporal-stream)深度網(wǎng)絡模型。

具體是:對輸入視頻的每一幀采用空間流網(wǎng)絡,得到幀的表觀特征;對輸入視頻的每連續(xù)M幀,利用時間流網(wǎng)絡模型得到運動特征;其中空間流網(wǎng)絡和時間流網(wǎng)絡模型均包含5個卷積層,3個池化層,以及3個全連接層;

(2)對空間流深度網(wǎng)絡模型和時間流深度網(wǎng)絡模型得到的多通道深度特征圖采用4層空間金字塔結構,得到的每個局部塊用最大池化方法計算該塊的最大值表達,獲取特征圖在不同尺度下的局部信息;

(3)將深度特征圖中在相同時空位置的多通道局部塊的表達連接起來,形成視頻的特征描述子;

(4)對步驟(3)提取的描述子特征采用局部級聯(lián)描述子向量方法(VLAD)進行特征建模,形成該視頻最終的向量表示;

(5)采用支持向量機(SVM)進行特征分類,最終輸出分類結果,獲取視頻的動作識別結果,該方法在YouTube人體行為數(shù)據(jù)集上實現(xiàn)了93.1%的準確率。

本發(fā)明基于深度卷積神經(jīng)網(wǎng)絡方法,并且通過探索深度特征圖中的局部信息,提出了一種新的深度特征多通道金字塔池化描述子,它能夠有效地獲取特征圖在不同尺度下的局部信息,并且結合了局部級聯(lián)描述子向量,顯著提高了動作識別的準確率。

優(yōu)選的,步驟(1)中,空間流和時間流深度網(wǎng)絡模型將視頻每幀作為輸入,對原始圖像做多層的卷積和池化操作,得到每層的輸出都是多個通道的深度特征圖,獲取更具抽象的圖像特征表達。

優(yōu)選的,步驟(2)中,選取空間流深度網(wǎng)絡模型的第5層卷積層的輸出特征圖以及時間流深度網(wǎng)絡模型的第4層卷積層的輸出特征圖來進行空間金字塔的操作,對多通道深度特征圖采用4層金字塔結構,其中4層金字塔結構為(1×1,2×2,3×3,4×4),其中第一層(1×1)對應的是整個多通道深度特征圖,第4層(4×4)對應的是多通道深度特征圖最大尺度下的局部塊,因此通過金字塔結構得到多通道深度特征圖位于不同尺度下的局部塊,對每個局部塊采用最大池化方法,計算塊中最大值作為該局部塊的特征表示。

優(yōu)選的,步驟(3)中,由于每個通道上的特征圖包含的是不同圖像信息,故將所有通道上的特征圖中同一空間位置的塊的特征串聯(lián)起來,形成該塊的多通道特征描述子。

優(yōu)選的,步驟(4)中,描述子特征表示為{x1,...xi,...xd},d表示局部塊的描述子特征的維數(shù),對描述子特征{x1,...xi,...xd},假設利用k-means聚類已經(jīng)學習得到的碼本(codebook)和k個中心(c1,...cj,...ck),采用局部級聯(lián)描述子向量方法(VLAD)對特征進行特征建模,具體過程如下:

(5-1)描述子特征的每一維xi賦給碼本(codebook)中離該描述子特征最近的聚類中心cj,然后得到量化后的索引:NN(xi)=argminj||xi-cj||

(5-2)將所有離聚類中心cj最近的描述子特征,計算這些描述子特征和中心cj的差的累積和,獲得子向量:

(5-3)將各子向量uj連接起來,得到k×d維的向量表示u=[u1...uk];

(5-4)對向量u先采用“power-law”歸一化處理,即:

vj=|vj|α×sign(vj),j=1...k×d,α=0.2

隨后用2范數(shù)歸一化(L2-normalized),最終得到該描述子特征的VLAD表示。

本發(fā)明相對于現(xiàn)有技術具有如下的優(yōu)點及效果:

1、本發(fā)明提出了一種新的描述子特征來充分獲取不同尺度下的深度信息。

2、本發(fā)明對不同通道下的卷積圖的相同區(qū)域做池化連接,可以得到該區(qū)域的不同方面的信息,比如邊緣或者紋理。

3、本發(fā)明將局部級聯(lián)描述子結合深度特征進行識別,提升了識別效果。

附圖說明

圖1為本發(fā)明的總體流程圖。

具體實施方式

為了使本發(fā)明的目的、技術方案及優(yōu)點更加清楚明白,以下結合附圖及實施例,對本發(fā)明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。此外,下面所描述的本發(fā)明各個實施方式中所涉及到的技術特征只要彼此之間未構成沖突就可以相互組合。

附圖給出了本發(fā)明的操作過程,如1圖所示,一種基于深度卷積特征多通道金字塔池化的動作識別方法,包括以下步驟:

(1)輸入待識別的視頻,采用two-stream深度網(wǎng)絡模型得到多通道深度卷積圖;其中two-stream網(wǎng)絡模型包括空間流(spatial-stream)深度網(wǎng)絡模型和時間流(temporal-stream)深度網(wǎng)絡模型。

具體是:對輸入視頻的每一幀采用空間流網(wǎng)絡,得到幀的表觀特征;對輸入視頻的每連續(xù)M幀,利用時間流網(wǎng)絡模型得到運動特征。其中空間流網(wǎng)絡和時間流網(wǎng)絡模型均包含5個卷積層,3個池化層,以及3個全連接層;

(2)對空間流深度網(wǎng)絡模型和時間流深度網(wǎng)絡模型得到的多通道深度特征圖采用4層空間金字塔結構,得到的每個局部塊用最大池化方法計算該塊的最大值表達,獲取特征圖在不同尺度下的局部信息;

(3)將深度特征圖中在相同時空位置的多通道局部塊的表達連接起來,形成視頻的特征描述子;

(4)對步驟(3)提取的描述子特征采用局部級聯(lián)描述子向量方法(VLAD)進行特征建模,形成該視頻最終的向量表示;

(5)采用支持向量機(SVM)進行特征分類,最終輸出動作視頻的識別準確率。

步驟(1)中的具體過程如下:空間流和時間流深度網(wǎng)絡模型將視頻每幀作為輸入,對原始圖像做多層的卷積和池化操作,得到每層的輸出都是多個通道的深度特征圖,獲取更具抽象的圖像特征表達。

步驟(2)中的具體過程如下:選取空間流網(wǎng)絡第5層卷積層的輸出特征圖以及時間流網(wǎng)絡第4層卷積層的輸出特征圖來進行空間金字塔的操作,對特征圖采用4層金字塔結構(1×1,2×2,3×3,4×4),其中第一層(1×1)對應的是整個特征圖,而第4層(4×4)對應的是最大尺度下的局部塊。因此通過金字塔結構得到特征圖位于不同尺度下的局部塊。對每個局部塊采用最大池化方法,計算塊中最大值作為該局部塊的特征表示。

步驟(3)中的具體過程如下:由于每個通道上的特征圖包含的是不同圖像信息,故將所有通道上的特征圖中同一空間位置的塊的特征串聯(lián)起來,形成該塊的多通道特征描述子。

步驟(4)中的具體過程如下:描述子特征表示為{x1,...xi,...xd},d表示局部塊的描述子特征的維數(shù),對描述子特征{x1,...xi,...xd},假設利用k-means聚類已經(jīng)學習得到的碼本(codebook)和k個中心(c1,...cj,...ck),采用局部級聯(lián)描述子向量方法(VLAD)對特征進行特征建模,具體過程如下:

(5-1)描述子特征的每一維xi賦給碼本(codebook)中離該描述子特征最近的聚類中心cj,然后得到量化后的索引:NN(xi)=argminj||xi-cj||

(5-2)將所有離聚類中心cj最近的描述子特征,計算這些描述子特征和中心cj的差的累積和,獲得子向量:

(5-3)將各子向量uj連接起來,得到k×d維的向量表示u=[u1...uk];

(5-4)對向量u先采用“power-law”歸一化處理,即:

vj=|vj|α×sign(vj),j=1...k×d,α=0.2

隨后用2范數(shù)歸一化(L2-normalized),最終得到該描述子特征的VLAD表示。

當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
汉沽区| 武宁县| 二手房| 平凉市| 开鲁县| 阜康市| 子长县| 大名县| 海伦市| 麻城市| 武隆县| 涟源市| 河源市| 黑山县| 建宁县| 阳原县| 遵化市| 普宁市| 涿州市| 额尔古纳市| 伊宁市| 襄汾县| 休宁县| 静宁县| 沾化县| 孟州市| 松潘县| 长乐市| 航空| 清新县| 鸡泽县| 海安县| 微山县| 富平县| 天长市| 高台县| 郓城县| 庄浪县| 政和县| 修水县| 民县|