欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于壓縮感知的人體動作分類方法

文檔序號:10687606閱讀:657來源:國知局
一種基于壓縮感知的人體動作分類方法
【專利摘要】本發(fā)明涉及一種基于壓縮感知的人體動作分類方法,包括時空興趣點探測、基于詞袋模型的視頻特征表達、構(gòu)造視覺字典和基于壓縮感知的動作分類算法四步驟;是按照步驟一求解訓練樣本特征,得到訓練樣本矩陣A=[A1,A2,…,AK]∈Rm×n,k個類別,測試樣本y∈Rm以及可選的容錯度ε>0;按照步驟二求解字典Z、分類器參數(shù)W和系數(shù)矩陣A;對于新的視頻動作序列,采用上一步得到的分類器W進行分類,最終得到該視頻動作的類別估計。本發(fā)明的有益效果是:將時空興趣點檢測、字典學習和視頻特征表達融入一個學習框架,并同時學習一個線性分類器。通過最優(yōu)化的方法同時學習判別字典、判別編碼系數(shù)和分類器;計算簡便,魯棒性好,并且通過壓縮感知的方法增強處理非線性數(shù)據(jù)的能力。
【專利說明】
一種基于壓縮感知的人體動作分類方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及一種人體動作分類方法,具體的涉及一種基于壓縮感知的人體動作分 類方法,屬于視頻分析領(lǐng)域。
【背景技術(shù)】
[0002] 眾所周知,從視頻中提取數(shù)據(jù)來對動作進行合理的表示,對于動作分類尤其重要。 通常我們需要根據(jù)動作分類的方法來選取動作表示的方法。例如,基于軌跡的方法適用于 開放環(huán)境中遠距離的監(jiān)控,而3D模型經(jīng)常應(yīng)用在手勢識別中。Parameswaran等人就曾提出 用以下四個標準來評估動作表示方法:簡單性,完備性,連續(xù)性,獨特性。
[0003] 人體輪廓形狀是一種最為直觀的動作表示方法,因此也有大量的基于形狀的人體 動作表示方法。這種表示方法必須首先從場景中分割出運動部分,即背景分割。L.Wang利用 運動子空間和圖像模型實現(xiàn)了利用輪廓信息識別動作,Veeraraghaven等人則利用在輪廓 上標記點,并分析點集合進行動作分類,這些基于輪廓的分類方法也都取得了成功。
[0004] 近年來,壓縮感知在語音信號處理,自然圖像特征提取,圖像去噪,人臉識別等領(lǐng) 域都得到了成功的應(yīng)用。作為高維數(shù)據(jù)處理的新興方法,壓縮感知也被應(yīng)用到局部描述的 聚合中去。但在實際應(yīng)用過程中,壓縮感知主要面臨的問題包括過完備字典的構(gòu)造以及稀 疏分解算法研究等。
[0005] 目前,大部分基于壓縮感知的人體動作分類方法仍借鑒圖像處理中的思路。首先 將視頻表示成一個特征向量,然后采用字典學習模型學習字典并生成視頻的稀疏表示并進 行分類。如Wang等人首先將視頻分割成連續(xù)的時間塊,然后用多層詞袋模型將視頻表示成 一個特征向量。Jiang等人用Action bank檢測器生成的特征作為視頻的特征表示,其依賴 預(yù)先訓練的檢測器,精準的不高。
[0006]為此,如何提供一種高精準的基于壓縮感知的人體動作分類方法,是本發(fā)明研究 的目的。

【發(fā)明內(nèi)容】

[0007] 為克服現(xiàn)有技術(shù)的不足,本發(fā)明提供一種基于壓縮感知的人體動作分類方法,是 鑒于低級局部動作特征具有較好的魯棒性,將壓縮感知理論運用到人體動作分類中,將視 覺字典與低級局部動作特征相結(jié)合,有效的從大量樣本中提取動作特征描述,提高了動作 分類的準確度。
[0008] 為解決現(xiàn)有技術(shù)問題,本發(fā)明所采用的技術(shù)方案是:一種基于壓縮感知的人體動 作分類方法,通過將所有的動作訓練樣本看作過完備字典,設(shè)計一個基于壓縮感知的動作 分類算法,其特征在于:所述方法包括:時空興趣點探測、基于詞袋模型的視頻特征表達、構(gòu) 造視覺字典和基于壓縮感知的動作分類算法四個步驟,其中: 步驟一:時空興趣點探測,對于一個視頻序列而言,興趣點由三個維度確定,標示空間 位置的X,y軸以及標示時間的t軸,在時域上采用Gabor濾波,在二維空域采用高斯濾波器, 利用濾波器響應(yīng)函數(shù)尋找時空興趣點,一維Gabor濾波定義為正弦波與高斯窗口的乘積:
其中,ω〇為濾波器能夠得到最大響應(yīng)的中心頻率,〇決定了高斯窗口的寬度;所述的興 趣點探測的方法中,響應(yīng)函數(shù)定義如下:
其中,I是視頻序列,g(X,y,〇)是2D高斯平滑核,應(yīng)用在二維空間上,hev和hod為空間上 的ID Gabor濾波的正交對。
其中,參數(shù)σ和τ分別對應(yīng)探測的時間規(guī)模和空間尺度,所述的參數(shù)取〇 = 2, τ = 3, ω = 6/τ; 步驟二:基于詞袋模型的視頻特征表達,在視覺詞袋模型中,獎二維圖像映射為視覺 關(guān)鍵詞集合,并采用HOG描述子來計算局部特征;所述計算的方法使用矩形HOG計算方法,其 方法包括:首先分別利用簡單的濾波算子[_1,0,1]和[1,0,-1]在X和y方向上計算圖像梯 度,而后根據(jù)X和y的方向梯度來計算每個像素點的梯度方向; 步驟三:構(gòu)造視覺字典,在步驟二中提取的動作特征,令X = [Xi,X2,…,Xn]為所有樣本 的特征矩陣,其中S ~$表示由第i個視頻所有局部特征按列排列形成的特征矩陣,化表 示樣本X1包含的局部特征數(shù)目,_4 e 為其對應(yīng)的編碼系數(shù)矩陣;令X/表示第j個局部 特征,:?/為其對應(yīng)的編碼系數(shù)向量;待學習的判別字典定義為D= [Cl1,d2,…,dK] eρχκ,判別 字典堂習抿駔HfeKi翁宙々為.
其中||;-_〇4||^為重建誤差項,判別字典首先必須能較好的重建所有的局部特征, 為線性分類項,w為分類器參數(shù),I叫匕為正則化項,H為類別標記向量,λ和η為正則 化參數(shù),控制對應(yīng)項的相對貢獻;B = [ β 1,β 2,…,β N ]為對視頻特征池化之后的特征表示,β i 表示為:
其中^表示長度為N1,每個元素都等于1/&的向量; 式(1)可通過交替最優(yōu)化求解,即對字典Z,編碼系數(shù)矩陣A以及線性分類器參數(shù)W交替 的最小化目標函數(shù),直到滿足終止準則;其過程包括以下步驟: ① 初始化表示字典Z和編碼矩陣A: 給定Do,表示字典Z初始化為K階單位矩陣;編碼矩陣A按下式初始化為:
該式為二階優(yōu)化問題,對A求導(dǎo)并令導(dǎo)數(shù)為0:
初始At3計算為
② 固定表示字典Z、編碼矩陣A,計算分類參數(shù)W: 將所述的式(1)可以改寫為
令其導(dǎo)數(shù)為〇,則最佳W計算為
其中Ikxk表示大小為K XK的單位矩陣 ③ 固定分類器參數(shù)W、表示字典Z,計算編碼矩陣A: 將所述的式(1)改寫為
令t = 0,計算Vg (A1),搜索可行步長%,迭代計算
④ 固定編碼矩陣A、分類器參數(shù)W,計算表示字典Z: 將所述的式(1)表示為
每次僅更新表示字典的一列;令zk表示Z的第k列,更新Zk時固定除21{外其他所有的列; 定義中間變量Φ (X)= Φ (Χ)_Φ (Do)zkAk,其中Zk定義為表示矩陣Z刪除第k列之后的矩陣,A k 定義為編碼矩陣A刪除第k行之后的矩陣;將所述的式(2)表示為
其中Ctk為編碼矩陣A的第k行,對該式求導(dǎo)得到
由于字典和編碼系數(shù)是相互關(guān)聯(lián)的,對應(yīng)的編碼系數(shù)需要同步更新
⑤執(zhí)行步驟②-④,直到滿足終止準則: a. 達到最大的迭代次數(shù), b. 表示字典Z、分類器參數(shù)W和系數(shù)矩陣A的變化均小于預(yù)先設(shè)定的閾值; 步驟四:基于壓縮感知的動作分類算法,在步驟3中,訓練了一個線性分類器W,給定一 個測試視頻V,首先計算其視頻編碼αν: av=(ZTK(Do,Do)Z)-1ZtK(Doj v) 其中Xv表示視頻V的局部特征,對編碼矩陣av池化,得到視頻V的特征表示βν,即得到視 頻V的類別yv為久 ).ν O
[0009]進一步的,在所述的步驟一中,采用時空興趣點探測來統(tǒng)計基于時間變化的特征。 [00?0]進一步的,在所述的步驟二中,所述的矩形HOG方法中,在每塊上計算HOG描述子, 每塊可包含數(shù)個均勻稠密采樣的網(wǎng)格,并常與相鄰塊重復(fù),每塊上的HOG需單獨進行規(guī)格 化。
[0011] 本發(fā)明的有益效果是:將時空興趣點檢測、字典學習和視頻特征表達融入一個學 習框架,并同時學習一個線性分類器。通過最優(yōu)化的方法同時學習判別字典、判別編碼系數(shù) 和分類器;計算簡便,魯棒性好,并且通過壓縮感知的方法增強處理非線性數(shù)據(jù)的能力。
【具體實施方式】
[0012] 為了使本領(lǐng)域技術(shù)人員能更好的理解本發(fā)明技術(shù)方案,下面結(jié)合具體實施例對本 發(fā)明做進一步分析。
[0013] -種基于壓縮感知的人體動作分類方法,通過將所有的動作訓練樣本看作過完備 字典,設(shè)計一個基于壓縮感知的動作分類算法,所述方法包括:時空興趣點探測、基于詞袋 模型的視頻特征表達、構(gòu)造視覺字典和基于壓縮感知的動作分類算法四個步驟,其中:步驟 一:時空興趣點探測,采用時空興趣點探測的方法統(tǒng)計基于時間變化的特征。對于一個視頻 序列而言,興趣點由三個維度確定,標示空間位置的x,y軸以及標示時間的t軸。本發(fā)明基于 Gabor濾波的方法,在時域上采用Gabor濾波,在二維空域采用高斯濾波器,利用濾波器響應(yīng) 函數(shù)尋找時空興趣點。一維Gabor濾波定義為ιΗ弦波與高斯窗口的乘積:

其中,ω Q為濾波器能夠得到最大響應(yīng)的中心頻率,σ決定了高斯窗口的寬度。在本發(fā)明 的興趣點探測方法中,我們將響應(yīng)函數(shù)定義如下:
該響應(yīng)函數(shù)用于查找預(yù)測動作強響應(yīng)的時空角點。在響應(yīng)函數(shù)中,I是視頻序列, g(x,y,〇)是2D高斯平滑核,應(yīng)用在二維空間上,而hev和hod則是用在空間上的ID Gabor 濾波的正交對。
其中,參數(shù)σ和τ分別對應(yīng)探測的時間規(guī)模和空間尺度,他們決定了時空興趣點在三個 維度上探測的尺度。參數(shù)取σ = 2,τ = 3, ω = 6/τ。 步驟二:基于詞袋模型的視頻特征表達;在視覺詞袋模型中,本發(fā)明獎二維圖像映射為 視覺關(guān)鍵詞集合,并采用HOG描述子來計算局部特征。在保存圖像局部特征的同時,又有效 的壓縮了圖像的描述。 使用矩形HOG計算方法,首先分別利用簡單的濾波算子[_1,0,1]和[1,0,-1]在X和y方 向上計算圖像梯度,而后根據(jù)X和y的方向梯度來計算每個像素點的梯度方向。在矩形HOG方 法中,在每塊上計算HOG描述子,每塊可能包含數(shù)個均勻稠密采樣的網(wǎng)格,并且常與相鄰塊 重復(fù)。此外,每塊上的HOG都要單獨進行規(guī)格化。步驟三:構(gòu)造視覺字典 基于上一步提取的動作特征,令X= [X^X2, 為所有樣本的特征矩陣,其中 Λ"; e ~'';表示由第i個視頻所有局部特征按列排列形成的特征矩陣,化表示樣本X1包含的 局部特征數(shù)目,^ 為其對應(yīng)的編碼系數(shù)矩陣。令#表示第j個局部特征,a/為其對 應(yīng)的編碼系數(shù)向量。待學習的判別字典定義為D=%^,···,^#'判別字典學習框架目 標函教宙々為,
其中IpT,.-ZHl^為重建誤差項,判別字典首先必須能較好的重建所有的局部特征。 I丑-腫|β.為線性分類項,w為分類器參數(shù),|if|為正則化項,H為類別標記向量,λ和n為正則 化參數(shù),控制對應(yīng)項的相對貢獻;B = [ β 1,β 2,…,β N ]為對視頻特征池化之后的特征表示,β i 可表示為:
其中表示長度為N1,每個元素都等于1/化的向量。 式(1)可通過交替最優(yōu)化求解,即對字典Z,編碼系數(shù)矩陣A以及線性分類器參數(shù)W交替 的最小化目標函數(shù),直到滿足終止準則。其過程步驟為: ①初始化表示字典Z和編碼矩陣A: 給定Do,表示字典Z初始化為K階單位矩陣。編碼矩陣A按下式初始化為:
每次僅更新表示字典的一列。令zk表示Z的第k列,更新Zk時固定除21{外其他所有的列。 定義中間變量Φ (X)= Φ (Χ)_Φ (Do)zkAk,其中Zk定義為表示矩陣Z刪除第k列之后的矩陣,A k 定義為編碼矩陣A刪除笛k行夕后的矩陣"式(2)可衷示為

由于字典和編碼系數(shù)是相互關(guān)聯(lián)的,對應(yīng)的編碼系數(shù)需要同步更新
⑤執(zhí)行步驟②-④,直到滿足如下終止準則: a. 達到最大的迭代次數(shù) b. 表示字典Z、分類器參數(shù)W和系數(shù)矩陣A的變化均小于預(yù)先設(shè)定的閾值 步驟四:基于壓縮感知的動作分類算法 在步驟3中,訓練了一個線性分類器W。給定一個測試視頻V,首先計算其視頻編碼αν: 其中Xv表示視頻
V的局部特征。對編碼矩陣αν池化,得到視頻V的特征表示β ν。因此視頻V 的類別yv估計為
[0014] 本發(fā)明所述方法是按照步驟一求解訓練樣本特征,得到訓練樣本矩陣A= [A1, 知,-_^]^^汰個類別,測試樣本5^儼以及可選的容錯度£>〇;按照步驟二求解字典2、 分類器參數(shù)W和系數(shù)矩陣A;對于新的視頻動作序列,采用上一步得到的分類器W進行分類, 最終得到該視頻動作的類別估計。
[0015] 本發(fā)明提出一個基于壓縮感知的動作分類方法,將時空興趣點檢測、字典學習和 視頻特征表達融入一個學習框架,并同時學習一個線性分類器。通過最優(yōu)化的方法同時學 習判別字典、判別編碼系數(shù)和分類器。本發(fā)明提取的特征計算簡便,魯棒性好,并且通過壓 縮感知的方法增強處理非線性數(shù)據(jù)的能力。
[0016] 以上對本申請所提供的技術(shù)方案進行了詳細介紹,本文中應(yīng)用了實施例對本申請 的原理及實施方式進行了闡述,以上實施例的說明只是用于幫助理解本申請的方法及其核 心思想;同時,對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本申請的思想,在【具體實施方式】及應(yīng)用范 圍上均會有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對本申請的限制。
【主權(quán)項】
1. 一種基于壓縮感知的人體動作分類方法,通過將所有的動作訓練樣本看作過完備字 典,設(shè)計一個基于壓縮感知的動作分類算法,其特征在于:包括時空興趣點探測、基于詞袋 模型的視頻特征表達、構(gòu)造視覺字典和基于壓縮感知的動作分類算法四個步驟,其中: 步驟一:時空興趣點探測,對于一個視頻序列而言,興趣點由三個維度確定,標示空間 位置的X,y軸以及標示時間的t軸,在時域上采用Gabor濾波,在二維空域采用高斯濾波器, 利用濾波器響應(yīng)函數(shù)尋找時空興趣點,一維Gabor濾波定義為正弦波與高斯窗口的乘積:其中,ω〇為濾波器能夠得到最大響應(yīng)的中心頻率,〇決定了高斯窗口的寬度;所述的興 趣點探測的方法中,響應(yīng)函數(shù)定義如下: R= (I*g*hev)2+(I*g*h〇d)2 其中,I是視頻序列,g(x,y,〇)是2D高斯平滑核,應(yīng)用在二維空間上,hev和hod為空間上的 ID Gabor濾波的正交對。其中,參數(shù)σ和τ分別對應(yīng)探測的時間規(guī)模和空間尺度,所述的參數(shù)取〇 = 2, τ = 3, ω = 6/τ; 步驟二:基于詞袋模型的視頻特征表達,在視覺詞袋模型中,獎二維圖像映射為視覺關(guān) 鍵詞集合,并采用HOG描述子來計算局部特征;所述計算的方法使用矩形HOG計算方法,其方 法包括:首先分別利用簡單的濾波算子[_1,〇,1]和[1,〇,_1]在X和y方向上計算圖像梯度, 而后根據(jù)X和y的方向梯度來計算每個像素點的梯度方向; 步驟三:構(gòu)造視覺字典,在步驟二中提取的動作特征,令Χ= [Χι,X2,…,Xn]為所有樣本 的特征矩陣,其中@ € 表示由第i個視頻所有局部特征按列排列形成的特征矩陣,心表 示樣本乂:包含的局部特征數(shù)目,4 e 為其對應(yīng)的編碼系數(shù)矩陣;令#表示第j個局部 特征,為其對應(yīng)的編碼系數(shù)向量;待學習的判別字典定義為D = [cU,d2,…,dK] eρχκ,判別 字典學習框架目標函數(shù)定義為:其中||1-1)為||^為重建誤差項,判別字典首先必須能較好的重建所有的局部特征, 為線性分類項,w為分類器參數(shù),pf為正則化項,Η為類別標記向量,λ和η為正則 化參數(shù),控制對應(yīng)項的相對貢獻;Β = [ β 1,β 2,…,β ν ]為對視頻特征池化之后的特征表示,β i 表示為:其中2?表示長度為&,每個元素都等于1/&的向量; 式(1)可通過交替最優(yōu)化求解,即對字典Z,編碼系數(shù)矩陣A以及線性分類器參數(shù)W交替 的最小化目標函數(shù),直到滿足終止準則;其過程包括以下步驟: ① 初始化表示字典Z和編碼矩陣A: 給定Do,表示字典Z初始化為K階單位矩陣;編碼矩陣A按下式初始化為:該式為二階優(yōu)化問題,對A求導(dǎo)并令導(dǎo)數(shù)為0:初始#計算為 A°=(Ztk(Do,Do)Z)_1Ztk(Do,X) ② 固定表示字典Z、編碼矩陣A,計算分類參數(shù)W: 將所述的式(1)可以改寫為令其導(dǎo)數(shù)為〇,則最佳W計算為 ff* = nHBT(AlKXK+nBBT)_1 其中Ικχκ表示大小為K X K的單位矩陣 ③ 固定分類器參數(shù)W、表示字典Ζ,計算編碼矩陣Α: 將所述的式(1)改寫為對其進行求導(dǎo),得到 VM( A,) = -Z1k{D^X,) + ZyΛ·(?)0,l\)ZAt -/?Wr(h, -IVA,IX )/:: 令t = 0,計算Vg(A〇,搜索可行步長%,迭代計算 直到 t>T 或 |g(4+1)-容(磚)|〈" ④ 固定編碼矩陣a、分類器參數(shù)w,計算表示字典z: 將所述的式(1)表示為每次僅更新表示字典的一列;令zk表示Z的第k列,更新Zk時固定除21{外其他所有的列; 定義中間變量Φ (Χ)= Φ (Χ)-φ (D〇)ZkAk,其中Zk定義為表示矩陣Z刪除第k列之后的矩陣,A k 定義為編碼矩陣A刪除第k行之后的矩陣;將所述的式(2)表示為其中ak為編碼矩陣A的第k行,對該式求導(dǎo)得到令該式等于〇,得到由于字典和編碼系數(shù)是相互關(guān)聯(lián)的,對應(yīng)的編碼系數(shù)需要同步更新⑤執(zhí)行步驟②-④,直到滿足終止準則: a. 達到最大的迭代次數(shù), b. 表示字典Z、分類器參數(shù)W和系數(shù)矩陣A的變化均小于預(yù)先設(shè)定的閾值;步驟四:基于 壓縮感知的動作分類算法,在步驟3中,訓練了一個線性分類器W,給定一個測試視頻V,首先 計算其視頻編碼α ν: av=(ZTK(Do,Do)Z)_1ZTK(Do,Xv) 其中Xv表示視頻v的局部特征,對編碼矩陣av池化,得到視頻v的特征表示βν,即得到視 頻ν的類另ljyv為2. 根據(jù)權(quán)利要求1所述的一種基于壓縮感知的人體動作分類方法,其特征在于:在所述 的步驟一中,采用時空興趣點探測來統(tǒng)計基于時間變化的特征。3. 根據(jù)權(quán)利要求1所述的一種基于壓縮感知的人體動作分類方法,其特征在于:在所述 的步驟二中,所述的矩形HOG方法中,在每塊上計算HOG描述子,每塊可包含數(shù)個均勻稠密采 樣的網(wǎng)格,并常與相鄰塊重復(fù),每塊上的HOG需單獨進行規(guī)格化。
【文檔編號】G06K9/00GK106056135SQ201610341943
【公開日】2016年10月26日
【申請日】2016年5月20日
【發(fā)明人】張瑞萱, 汪成峰, 王慶, 張凱強
【申請人】北京九藝同興科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
南漳县| 石柱| 满城县| 常宁市| 慈溪市| 长丰县| 东明县| 梓潼县| 元阳县| 陆川县| 鸡东县| 安岳县| 诏安县| 二手房| 右玉县| 达日县| 图片| 新密市| 霍州市| 定结县| 隆昌县| 鸡泽县| 镇宁| 兴仁县| 区。| 浮梁县| 邻水| 乌兰察布市| 措勤县| 红河县| 牙克石市| 潼关县| 庆安县| 镶黄旗| 江西省| 扎鲁特旗| 崇仁县| 安国市| 包头市| 沭阳县| 上杭县|