基于深度圖像序列的人體動作識別的方法及系統(tǒng)的制作方法
【技術領域】
[0001] 本發(fā)明屬于模式識別技術領域,尤其涉及基于深度圖像序列的人體動作識別的方 法及系統(tǒng)。
【背景技術】
[0002] 人體動作識別在現實生活中有著廣泛的應用,比如人機交互、視頻監(jiān)控和家庭監(jiān) 護等。隨著成像技術的不斷發(fā)展,深度攝像頭引起越來越多研究人員的關注。與傳統(tǒng)的可 見光圖像相比,深度圖像具有以下的優(yōu)點:1)提供空間豐富的結構信息;2)在區(qū)域分割中 對物體的顏色和紋理特征不敏感;3)對光照變化有很好的魯棒性,有利于在比較黑暗環(huán)境 下的應用。
[0003] 現有基于深度圖像的人體動作識別方法主要基于骨骼關節(jié)點信息以及三維點云 信息等。骨骼關節(jié)點信息可以獲得比較高的識別率,但很難適用于人機交互等骨骼信息無 法獲取的場合。相比骨骼關節(jié)點信息,三維點云信息也可以獲得比較高的識別率,而且對噪 聲和遮擋問題更加魯棒。
[0004] 現有技術雖然都可以獲得比較高的識別率,但由于所抽取特征的維數較高,在特 征檢測方面耗費了大量的時間,從而使得現有技術很難應用到實際當中去。此外,在高維特 征中,數據之間往往包含大量的冗余信息,隱藏了重要關系的相關性,導致無法表達數據真 實內在結構。
【發(fā)明內容】
[0005] 鑒于此,本發(fā)明實施例提供一種基于深度圖像序列的人體動作識別的方法及系 統(tǒng),以在保證識別精確度的情況下,大幅度縮減算法的時間復雜度。
[0006] 第一方面,本發(fā)明實施例提供了一種基于深度圖像序列的人體動作識別的方法, 所述方法包括:
[0007] 對所述深度圖像序列中的深度圖像數據提取四維超曲面法向量;
[0008] 采用局部均值時空立方體對所述四維超曲面法向量進行特征提??;
[0009] 采用稀疏編碼對提取的所述特征進行預處理;
[0010] 采用時空金字塔對預處理后的特征進行池化,獲得池化后的特征;
[0011] 使用支持向量機對所述池化后的特征進行分類,以識別人體動作。
[0012] 第二方面,本發(fā)明實施例提供了一種基于深度圖像序列的人體動作識別的系統(tǒng), 所述系統(tǒng)包括:
[0013] 超曲面法向量提取單元,用于對所述深度圖像序列中的深度圖像數據提取四維超 曲面法向量;
[0014] 特征提取單元,用于采用局部均值時空立方體對所述四維超曲面法向量進行特征 提取;
[0015] 預處理單元,用于采用稀疏編碼對提取的所述特征進行預處理;
[0016] 特征池化單元,用于采用時空金字塔對預處理后的特征進行池化,獲得池化后的 特征;
[0017] 分類單元,用于使用支持向量機對所述池化后的特征進行分類,以識別人體動作。
[0018] 本發(fā)明實施例與現有技術相比存在的有益效果是:本發(fā)明實施例通過局部均值時 空立方體對深度圖像中的四維超曲面法向量做特征描述,并通過稀疏編碼去除特征中的冗 余向量,通過時空金字塔對冗余處理后的特征進行池化,以獲取特征的空間信息和時間信 息。與現有技術相比,本發(fā)明實施例可以在保證識別精確度的情況下,大幅度縮減算法的時 間復雜度,具有較強的易用性和實用性。
【附圖說明】
[0019] 為了更清楚地說明本發(fā)明實施例中的技術方案,下面將對實施例或現有技術描述 中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些 實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據這些 附圖獲得其他的附圖。
[0020] 圖1是本發(fā)明實施例提供的基于深度圖像序列的人體動作識別方法的實現流程 示意圖;
[0021] 圖2是本發(fā)明實施例提供的局部時空立方體的示意圖;
[0022] 圖3是本發(fā)明實施例提供的時空金字塔劃分的示意圖;
[0023] 圖4是本發(fā)明實施例提供的基于深度圖像序列的人體動作識別的示意圖;
[0024] 圖5是本發(fā)明實施例提供的基于深度圖像序列的人體動作識別系統(tǒng)的組成結構 示意圖。
【具體實施方式】
[0025] 以下描述中,為了說明而不是為了限定,提出了諸如特定系統(tǒng)結構、技術之類的具 體細節(jié),以便透切理解本發(fā)明實施例。然而,本領域的技術人員應當清楚,在沒有這些具體 細節(jié)的其它實施例中也可以實現本發(fā)明。在其它情況中,省略對眾所周知的系統(tǒng)、裝置、電 路以及方法的詳細說明,以免不必要的細節(jié)妨礙本發(fā)明的描述。
[0026] 為了說明本發(fā)明所述的技術方案,下面通過具體實施例來進行說明。
[0027] 請參閱圖1,為本發(fā)明實施例提供的基于深度圖像序列的人體動作識別方法的實 現流程,該方法可適用于各類終端設備,如個人計算機、平板電腦、手機等。該方法主要包括 以下步驟:
[0028] 步驟S101,對所述深度圖像序列中的深度圖像數據提取四維超曲面法向量。
[0029] 在本發(fā)明實施例中,所述深度圖像序列為人體深度圖像序列,所述人體深度圖像 序列為四維數據,而現有基于三維點云的方法會丟失時間這一維度的信息。
[0030] 對所述深度圖像序列中的深度圖像數據采用以下公式計算獲得四維超曲面法向 量n,
[0032] 其中,(x,y,z)表示第t幀中點數據的坐標,深度圖像序列中的每個點數據 (X,y, t, z)滿足S(x, y, t, z) = f (X,y, t)-z = 0, S表示四維超曲面,T表示轉置。
[0033] 需要說明的是,與現有的三維點云的梯度方向相比,在上式中多出的標量維度 (-1)可以保留物體在時空中的幾何信息。
[0034] 在步驟S102中,采用局部均值時空立方體對所述四維超曲面法向量進行特征提 取。
[0035] 具體的可以是,1)對所述四維超曲面法向量提取局部時空立方體;示例性的,該 局部時空立方體的大小為3X3X3,相鄰局部時空立方體在時空上有3X3X2個點向量的 重疊區(qū)域;
[0036] 對每個所述局部時空立方體中的法向量,分別按行、列、幀三個方向分為三層,如 圖2所示;
[0037] 分別對每層的nXm(例如3X3)個法向量求均值,得到局部均值時空立方體的特 征表達,其中n、m均為大于零的整數。示例性的,每個局部均值時空立方體的特征長度為 (3+3+3) X4 = 36。假設深度圖像序列分辨率為320X 240,共50幀,則所抽取的均值法向量 的特征維度為 36 X (320-2) X (240-2) X (50-2) = 36X3632832。
[0038] 在步驟S103中,采用稀疏編碼對提取的所述特征進行預處理。
[0039] 在本發(fā)明實施例中,所述預處理包括冗余處理。
[0040] 具體的可以是,通過以下稀疏編碼代價函數對提取的所述特征進行字典學習,獲 取字典D e rmxk和相應的稀疏系數a e rkxn:
[0043] 其中,輸入樣本RMX1屬于訓練數據集合x = {χ χ2, . . .,XN},M為輸入向量Xi 的長度,N為輸入樣本的個數,是重構項,λ I I α」I為懲罰項,dk是字典D中的一 個詞,K是字典D中詞的個數,〇1是α的第i個系數,λ是一個變換量,控制上述公式重 構項和懲罰項的相對重要性;
[0044] 通過以下公式獲得輸入樣本對應的稀疏系數a e RKXP:
[0046] 其中,輸入樣本y# RMX1屬于測試數據集合Y = {y y2, . . .,yp},M為輸入向量y; 的長度,P為輸入樣本的個數。
[0047] 在步驟S104中,采用時空金字塔對預處理后的特征進行池化,獲得池化后的特 征。
[0048] 具體的可以是,依次將總幀數為T的深度圖像序列劃分為4X3的空間網格Gt,再 將每一個空間網格劃分為{FJ,{F2,F3},{F4,F5,F 6,F7}的三層共七段的時域金字塔,時空金 字塔的劃分如圖3所示;
[0049] 對落在每個空間網格Gt內的均值法向量采用以下公式進行空間均勻池化:
[0051] 其中,t = 1,2,···,Τ,akl表示a i的第k個詞,uk(t)表示第t幀的網