一種基于壓縮感知的人體動作分類方法

文檔序號：10687606閱讀：657來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于壓縮感知的人體動作分類方法
【專利摘要】本發(fā)明涉及一種基于壓縮感知的人體動作分類方法，包括時空興趣點探測、基于詞袋模型的視頻特征表達、構(gòu)造視覺字典和基于壓縮感知的動作分類算法四步驟；是按照步驟一求解訓練樣本特征，得到訓練樣本矩陣A＝[A1,A2,…,AK]∈Rm×n，k個類別，測試樣本y∈Rm以及可選的容錯度ε＞0；按照步驟二求解字典Z、分類器參數(shù)W和系數(shù)矩陣A；對于新的視頻動作序列，采用上一步得到的分類器W進行分類，最終得到該視頻動作的類別估計。本發(fā)明的有益效果是：將時空興趣點檢測、字典學習和視頻特征表達融入一個學習框架，并同時學習一個線性分類器。通過最優(yōu)化的方法同時學習判別字典、判別編碼系數(shù)和分類器；計算簡便，魯棒性好，并且通過壓縮感知的方法增強處理非線性數(shù)據(jù)的能力。
【專利說明】
一種基于壓縮感知的人體動作分類方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及一種人體動作分類方法，具體的涉及一種基于壓縮感知的人體動作分類方法，屬于視頻分析領(lǐng)域。
【背景技術(shù)】
[0002] 眾所周知，從視頻中提取數(shù)據(jù)來對動作進行合理的表示，對于動作分類尤其重要。通常我們需要根據(jù)動作分類的方法來選取動作表示的方法。例如，基于軌跡的方法適用于開放環(huán)境中遠距離的監(jiān)控，而3D模型經(jīng)常應(yīng)用在手勢識別中。Parameswaran等人就曾提出用以下四個標準來評估動作表示方法:簡單性，完備性，連續(xù)性，獨特性。
[0003] 人體輪廓形狀是一種最為直觀的動作表示方法，因此也有大量的基于形狀的人體動作表示方法。這種表示方法必須首先從場景中分割出運動部分，即背景分割。L.Wang利用運動子空間和圖像模型實現(xiàn)了利用輪廓信息識別動作，Veeraraghaven等人則利用在輪廓上標記點，并分析點集合進行動作分類，這些基于輪廓的分類方法也都取得了成功。
[0004] 近年來，壓縮感知在語音信號處理，自然圖像特征提取，圖像去噪，人臉識別等領(lǐng) 域都得到了成功的應(yīng)用。作為高維數(shù)據(jù)處理的新興方法，壓縮感知也被應(yīng)用到局部描述的聚合中去。但在實際應(yīng)用過程中，壓縮感知主要面臨的問題包括過完備字典的構(gòu)造以及稀疏分解算法研究等。
[0005] 目前，大部分基于壓縮感知的人體動作分類方法仍借鑒圖像處理中的思路。首先將視頻表示成一個特征向量，然后采用字典學習模型學習字典并生成視頻的稀疏表示并進行分類。如Wang等人首先將視頻分割成連續(xù)的時間塊，然后用多層詞袋模型將視頻表示成一個特征向量。Jiang等人用Action bank檢測器生成的特征作為視頻的特征表示，其依賴預(yù)先訓練的檢測器，精準的不高。
[0006]為此，如何提供一種高精準的基于壓縮感知的人體動作分類方法，是本發(fā)明研究的目的。

【發(fā)明內(nèi)容】

[0007] 為克服現(xiàn)有技術(shù)的不足，本發(fā)明提供一種基于壓縮感知的人體動作分類方法，是鑒于低級局部動作特征具有較好的魯棒性，將壓縮感知理論運用到人體動作分類中，將視覺字典與低級局部動作特征相結(jié)合，有效的從大量樣本中提取動作特征描述，提高了動作分類的準確度。
[0008] 為解決現(xiàn)有技術(shù)問題，本發(fā)明所采用的技術(shù)方案是：一種基于壓縮感知的人體動作分類方法，通過將所有的動作訓練樣本看作過完備字典，設(shè)計一個基于壓縮感知的動作分類算法，其特征在于:所述方法包括:時空興趣點探測、基于詞袋模型的視頻特征表達、構(gòu) 造視覺字典和基于壓縮感知的動作分類算法四個步驟，其中：步驟一:時空興趣點探測，對于一個視頻序列而言，興趣點由三個維度確定，標示空間位置的X，y軸以及標示時間的t軸，在時域上采用Gabor濾波，在二維空域采用高斯濾波器，利用濾波器響應(yīng)函數(shù)尋找時空興趣點，一維Gabor濾波定義為正弦波與高斯窗口的乘積：
其中，ω〇為濾波器能夠得到最大響應(yīng)的中心頻率，〇決定了高斯窗口的寬度;所述的興趣點探測的方法中，響應(yīng)函數(shù)定義如下：
其中，I是視頻序列，g(X，y，〇)是2D高斯平滑核，應(yīng)用在二維空間上，hev和hod為空間上的ID Gabor濾波的正交對。
其中，參數(shù)σ和τ分別對應(yīng)探測的時間規(guī)模和空間尺度，所述的參數(shù)取〇 = 2, τ = 3, ω = 6/τ；步驟二:基于詞袋模型的視頻特征表達，在視覺詞袋模型中，獎二維圖像映射為視覺關(guān)鍵詞集合，并采用HOG描述子來計算局部特征;所述計算的方法使用矩形HOG計算方法，其方法包括:首先分別利用簡單的濾波算子[_1，0，1]和[1，0，-1]在X和y方向上計算圖像梯度，而后根據(jù)X和y的方向梯度來計算每個像素點的梯度方向；步驟三:構(gòu)造視覺字典，在步驟二中提取的動作特征，令X = [Xi，X2，…，Xn]為所有樣本的特征矩陣，其中S ~$表示由第i個視頻所有局部特征按列排列形成的特征矩陣，化表示樣本X1包含的局部特征數(shù)目，_4 e 為其對應(yīng)的編碼系數(shù)矩陣；令X/表示第j個局部特征，:?/為其對應(yīng)的編碼系數(shù)向量;待學習的判別字典定義為D= [Cl1，d2，…，dK] eρχκ，判別字典堂習抿駔HfeKi翁宙々為.
其中||;-_〇4||^為重建誤差項，判別字典首先必須能較好的重建所有的局部特征，為線性分類項，w為分類器參數(shù)，I叫匕為正則化項，H為類別標記向量，λ和η為正則化參數(shù)，控制對應(yīng)項的相對貢獻;B = [ β 1，β 2，…，β N ]為對視頻特征池化之后的特征表示，β i 表示為：
其中^表示長度為N1，每個元素都等于1/&的向量；式（1)可通過交替最優(yōu)化求解，即對字典Z，編碼系數(shù)矩陣A以及線性分類器參數(shù)W交替的最小化目標函數(shù)，直到滿足終止準則;其過程包括以下步驟： ① 初始化表示字典Z和編碼矩陣A: 給定Do，表示字典Z初始化為K階單位矩陣;編碼矩陣A按下式初始化為：
該式為二階優(yōu)化問題，對A求導(dǎo)并令導(dǎo)數(shù)為0:
初始At3計算為
② 固定表示字典Z、編碼矩陣A，計算分類參數(shù)W: 將所述的式(1)可以改寫為
令其導(dǎo)數(shù)為〇,則最佳W計算為
其中Ikxk表示大小為K XK的單位矩陣 ③ 固定分類器參數(shù)W、表示字典Z，計算編碼矩陣A: 將所述的式(1)改寫為
令t = 0，計算Vg (A1)，搜索可行步長％，迭代計算
④ 固定編碼矩陣A、分類器參數(shù)W，計算表示字典Z: 將所述的式(1)表示為
每次僅更新表示字典的一列;令zk表示Z的第k列，更新Zk時固定除21{外其他所有的列；定義中間變量Φ (X)= Φ (Χ)_Φ (Do)zkAk,其中Zk定義為表示矩陣Z刪除第k列之后的矩陣，A k 定義為編碼矩陣A刪除第k行之后的矩陣;將所述的式(2)表示為
其中Ctk為編碼矩陣A的第k行，對該式求導(dǎo)得到
由于字典和編碼系數(shù)是相互關(guān)聯(lián)的，對應(yīng)的編碼系數(shù)需要同步更新
⑤執(zhí)行步驟②-④，直到滿足終止準則： a. 達到最大的迭代次數(shù)， b. 表示字典Z、分類器參數(shù)W和系數(shù)矩陣A的變化均小于預(yù)先設(shè)定的閾值；步驟四：基于壓縮感知的動作分類算法，在步驟3中，訓練了一個線性分類器W，給定一個測試視頻V，首先計算其視頻編碼αν: av=(ZTK(Do，Do)Z)-1ZtK(Doj v) 其中Xv表示視頻V的局部特征，對編碼矩陣av池化，得到視頻V的特征表示βν，即得到視頻V的類別yv為久 ).ν O
[0009]進一步的，在所述的步驟一中，采用時空興趣點探測來統(tǒng)計基于時間變化的特征。 [00?0]進一步的，在所述的步驟二中，所述的矩形HOG方法中，在每塊上計算HOG描述子，每塊可包含數(shù)個均勻稠密采樣的網(wǎng)格，并常與相鄰塊重復(fù)，每塊上的HOG需單獨進行規(guī)格化。
[0011] 本發(fā)明的有益效果是:將時空興趣點檢測、字典學習和視頻特征表達融入一個學習框架，并同時學習一個線性分類器。通過最優(yōu)化的方法同時學習判別字典、判別編碼系數(shù) 和分類器;計算簡便，魯棒性好，并且通過壓縮感知的方法增強處理非線性數(shù)據(jù)的能力。
【具體實施方式】
[0012] 為了使本領(lǐng)域技術(shù)人員能更好的理解本發(fā)明技術(shù)方案，下面結(jié)合具體實施例對本發(fā)明做進一步分析。
[0013] -種基于壓縮感知的人體動作分類方法，通過將所有的動作訓練樣本看作過完備字典，設(shè)計一個基于壓縮感知的動作分類算法，所述方法包括:時空興趣點探測、基于詞袋模型的視頻特征表達、構(gòu)造視覺字典和基于壓縮感知的動作分類算法四個步驟，其中：步驟一:時空興趣點探測，采用時空興趣點探測的方法統(tǒng)計基于時間變化的特征。對于一個視頻序列而言，興趣點由三個維度確定，標示空間位置的x，y軸以及標示時間的t軸。本發(fā)明基于 Gabor濾波的方法，在時域上采用Gabor濾波，在二維空域采用高斯濾波器，利用濾波器響應(yīng) 函數(shù)尋找時空興趣點。一維Gabor濾波定義為ιΗ弦波與高斯窗口的乘積：

其中，ω Q為濾波器能夠得到最大響應(yīng)的中心頻率，σ決定了高斯窗口的寬度。在本發(fā)明的興趣點探測方法中，我們將響應(yīng)函數(shù)定義如下：
該響應(yīng)函數(shù)用于查找預(yù)測動作強響應(yīng)的時空角點。在響應(yīng)函數(shù)中，I是視頻序列， g(x，y，〇)是2D高斯平滑核，應(yīng)用在二維空間上，而hev和hod則是用在空間上的ID Gabor 濾波的正交對。
其中，參數(shù)σ和τ分別對應(yīng)探測的時間規(guī)模和空間尺度，他們決定了時空興趣點在三個維度上探測的尺度。參數(shù)取σ = 2，τ = 3, ω = 6/τ。步驟二:基于詞袋模型的視頻特征表達;在視覺詞袋模型中，本發(fā)明獎二維圖像映射為視覺關(guān)鍵詞集合，并采用HOG描述子來計算局部特征。在保存圖像局部特征的同時，又有效的壓縮了圖像的描述。使用矩形HOG計算方法，首先分別利用簡單的濾波算子[_1，0，1]和[1，0，-1]在X和y方向上計算圖像梯度，而后根據(jù)X和y的方向梯度來計算每個像素點的梯度方向。在矩形HOG方法中，在每塊上計算HOG描述子，每塊可能包含數(shù)個均勻稠密采樣的網(wǎng)格，并且常與相鄰塊重復(fù)。此外，每塊上的HOG都要單獨進行規(guī)格化。步驟三:構(gòu)造視覺字典基于上一步提取的動作特征，令X= [X^X2, 為所有樣本的特征矩陣，其中 Λ"； e ~'';表示由第i個視頻所有局部特征按列排列形成的特征矩陣，化表示樣本X1包含的局部特征數(shù)目，^ 為其對應(yīng)的編碼系數(shù)矩陣。令#表示第j個局部特征，a/為其對應(yīng)的編碼系數(shù)向量。待學習的判別字典定義為D=%^，···，^#'判別字典學習框架目標函教宙々為，
其中IpT,.-ZHl^為重建誤差項，判別字典首先必須能較好的重建所有的局部特征。 I丑-腫|β.為線性分類項，w為分類器參數(shù)，|if|為正則化項，H為類別標記向量，λ和n為正則化參數(shù)，控制對應(yīng)項的相對貢獻;B = [ β 1，β 2，…，β N ]為對視頻特征池化之后的特征表示，β i 可表示為：
其中表示長度為N1，每個元素都等于1/化的向量。式（1)可通過交替最優(yōu)化求解，即對字典Z，編碼系數(shù)矩陣A以及線性分類器參數(shù)W交替的最小化目標函數(shù)，直到滿足終止準則。其過程步驟為： ①初始化表示字典Z和編碼矩陣A: 給定Do，表示字典Z初始化為K階單位矩陣。編碼矩陣A按下式初始化為：
每次僅更新表示字典的一列。令zk表示Z的第k列，更新Zk時固定除21{外其他所有的列。定義中間變量Φ (X)= Φ (Χ)_Φ (Do)zkAk,其中Zk定義為表示矩陣Z刪除第k列之后的矩陣，A k 定義為編碼矩陣A刪除笛k行夕后的矩陣"式（2)可衷示為

由于字典和編碼系數(shù)是相互關(guān)聯(lián)的，對應(yīng)的編碼系數(shù)需要同步更新
⑤執(zhí)行步驟②-④，直到滿足如下終止準則： a. 達到最大的迭代次數(shù) b. 表示字典Z、分類器參數(shù)W和系數(shù)矩陣A的變化均小于預(yù)先設(shè)定的閾值步驟四：基于壓縮感知的動作分類算法在步驟3中，訓練了一個線性分類器W。給定一個測試視頻V，首先計算其視頻編碼αν: 其中Xv表示視頻
V的局部特征。對編碼矩陣αν池化，得到視頻V的特征表示β ν。因此視頻V 的類別yv估計為
[0014] 本發(fā)明所述方法是按照步驟一求解訓練樣本特征，得到訓練樣本矩陣A= [A1, 知，-_^]^^汰個類別，測試樣本5^儼以及可選的容錯度￡>〇;按照步驟二求解字典2、分類器參數(shù)W和系數(shù)矩陣A;對于新的視頻動作序列，采用上一步得到的分類器W進行分類，最終得到該視頻動作的類別估計。
[0015] 本發(fā)明提出一個基于壓縮感知的動作分類方法，將時空興趣點檢測、字典學習和視頻特征表達融入一個學習框架，并同時學習一個線性分類器。通過最優(yōu)化的方法同時學習判別字典、判別編碼系數(shù)和分類器。本發(fā)明提取的特征計算簡便，魯棒性好，并且通過壓縮感知的方法增強處理非線性數(shù)據(jù)的能力。
[0016] 以上對本申請所提供的技術(shù)方案進行了詳細介紹，本文中應(yīng)用了實施例對本申請的原理及實施方式進行了闡述，以上實施例的說明只是用于幫助理解本申請的方法及其核心思想；同時，對于本領(lǐng)域的一般技術(shù)人員，依據(jù)本申請的思想，在【具體實施方式】及應(yīng)用范圍上均會有改變之處，綜上所述，本說明書內(nèi)容不應(yīng)理解為對本申請的限制。
【主權(quán)項】
1. 一種基于壓縮感知的人體動作分類方法，通過將所有的動作訓練樣本看作過完備字典，設(shè)計一個基于壓縮感知的動作分類算法，其特征在于:包括時空興趣點探測、基于詞袋模型的視頻特征表達、構(gòu)造視覺字典和基于壓縮感知的動作分類算法四個步驟，其中：步驟一：時空興趣點探測，對于一個視頻序列而言，興趣點由三個維度確定，標示空間位置的X，y軸以及標示時間的t軸，在時域上采用Gabor濾波，在二維空域采用高斯濾波器，利用濾波器響應(yīng)函數(shù)尋找時空興趣點，一維Gabor濾波定義為正弦波與高斯窗口的乘積：其中，ω〇為濾波器能夠得到最大響應(yīng)的中心頻率，〇決定了高斯窗口的寬度;所述的興趣點探測的方法中，響應(yīng)函數(shù)定義如下： R= (I*g*hev)2+(I*g*h〇d)2 其中，I是視頻序列，g(x，y，〇)是2D高斯平滑核，應(yīng)用在二維空間上，hev和hod為空間上的 ID Gabor濾波的正交對。其中，參數(shù)σ和τ分別對應(yīng)探測的時間規(guī)模和空間尺度，所述的參數(shù)取〇 = 2, τ = 3, ω = 6/τ；步驟二:基于詞袋模型的視頻特征表達，在視覺詞袋模型中，獎二維圖像映射為視覺關(guān) 鍵詞集合，并采用HOG描述子來計算局部特征;所述計算的方法使用矩形HOG計算方法，其方法包括:首先分別利用簡單的濾波算子[_1，〇，1]和[1，〇，_1]在X和y方向上計算圖像梯度，而后根據(jù)X和y的方向梯度來計算每個像素點的梯度方向；步驟三:構(gòu)造視覺字典，在步驟二中提取的動作特征，令Χ= [Χι，X2，…，Xn]為所有樣本的特征矩陣，其中@ € 表示由第i個視頻所有局部特征按列排列形成的特征矩陣，心表示樣本乂:包含的局部特征數(shù)目，4 e 為其對應(yīng)的編碼系數(shù)矩陣;令#表示第j個局部特征，為其對應(yīng)的編碼系數(shù)向量;待學習的判別字典定義為D = [cU，d2，…，dK] eρχκ，判別字典學習框架目標函數(shù)定義為：其中||1-1)為||^為重建誤差項，判別字典首先必須能較好的重建所有的局部特征，為線性分類項，w為分類器參數(shù)，pf為正則化項，Η為類別標記向量，λ和η為正則化參數(shù)，控制對應(yīng)項的相對貢獻;Β = [ β 1，β 2，…，β ν ]為對視頻特征池化之后的特征表示，β i 表示為：其中2?表示長度為&，每個元素都等于1/&的向量；式（1)可通過交替最優(yōu)化求解，即對字典Z，編碼系數(shù)矩陣A以及線性分類器參數(shù)W交替的最小化目標函數(shù)，直到滿足終止準則;其過程包括以下步驟： ① 初始化表示字典Z和編碼矩陣A: 給定Do，表示字典Z初始化為K階單位矩陣;編碼矩陣A按下式初始化為：該式為二階優(yōu)化問題，對A求導(dǎo)并令導(dǎo)數(shù)為0:初始#計算為 A°=(Ztk(Do,Do)Z)_1Ztk(Do,X) ② 固定表示字典Z、編碼矩陣A，計算分類參數(shù)W: 將所述的式(1)可以改寫為令其導(dǎo)數(shù)為〇,則最佳W計算為 ff* = nHBT(AlKXK+nBBT)_1 其中Ικχκ表示大小為K X K的單位矩陣 ③ 固定分類器參數(shù)W、表示字典Ζ，計算編碼矩陣Α: 將所述的式(1)改寫為對其進行求導(dǎo)，得到 VM( A,) = -Z1k{D^X,) + ZyΛ·(?)0,l\)ZAt -/?Wr(h, -IVA,IX )/：：令t = 0,計算Vg(A〇,搜索可行步長％，迭代計算直到 t>T 或 |g(4+1)-容(磚)|〈" ④ 固定編碼矩陣a、分類器參數(shù)w，計算表示字典z: 將所述的式(1)表示為每次僅更新表示字典的一列；令zk表示Z的第k列，更新Zk時固定除21{外其他所有的列；定義中間變量Φ (Χ)= Φ (Χ)-φ (D〇)ZkAk，其中Zk定義為表示矩陣Z刪除第k列之后的矩陣，A k 定義為編碼矩陣A刪除第k行之后的矩陣;將所述的式(2)表示為其中ak為編碼矩陣A的第k行，對該式求導(dǎo)得到令該式等于〇,得到由于字典和編碼系數(shù)是相互關(guān)聯(lián)的，對應(yīng)的編碼系數(shù)需要同步更新⑤執(zhí)行步驟②-④，直到滿足終止準則： a. 達到最大的迭代次數(shù)， b. 表示字典Z、分類器參數(shù)W和系數(shù)矩陣A的變化均小于預(yù)先設(shè)定的閾值;步驟四：基于壓縮感知的動作分類算法，在步驟3中，訓練了一個線性分類器W，給定一個測試視頻V，首先計算其視頻編碼α ν: av=(ZTK(Do,Do)Z)_1ZTK(Do,Xv) 其中Xv表示視頻v的局部特征，對編碼矩陣av池化，得到視頻v的特征表示βν，即得到視頻ν的類另ljyv為2. 根據(jù)權(quán)利要求1所述的一種基于壓縮感知的人體動作分類方法，其特征在于:在所述的步驟一中，采用時空興趣點探測來統(tǒng)計基于時間變化的特征。3. 根據(jù)權(quán)利要求1所述的一種基于壓縮感知的人體動作分類方法，其特征在于:在所述的步驟二中，所述的矩形HOG方法中，在每塊上計算HOG描述子，每塊可包含數(shù)個均勻稠密采樣的網(wǎng)格，并常與相鄰塊重復(fù)，每塊上的HOG需單獨進行規(guī)格化。
【文檔編號】G06K9/00GK106056135SQ201610341943
【公開日】2016年10月26日
【申請日】2016年5月20日
【發(fā)明人】張瑞萱, 汪成峰, 王慶, 張凱強
【申請人】北京九藝同興科技有限公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張瑞萱;汪成峰;王慶;張凱強;
技術(shù)所有人：北京九藝同興科技有限公司;
我是此專利的發(fā)明人

上一篇：一種聚類中心快速確定的數(shù)據(jù)聚類方法
上一篇：一種基于Spark的半監(jiān)督隨機森林分類方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

壓縮感知相關(guān)技術(shù)

壓縮感知理論相關(guān)技術(shù)

壓縮感知重構(gòu)算法相關(guān)技術(shù)

貝葉斯壓縮感知相關(guān)技術(shù)

分布式壓縮感知相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于壓縮感知的人體動作分類方法