一種基于兩層時空鄰域特征的動作識別方法
【專利摘要】本發(fā)明公開一種基于兩層時空鄰域特征的動作識別方法,包括:對輸入的視頻,根據(jù)視頻中連續(xù)幀的運動方向變化信息,提取運動變化模式特征作為視頻的第一層原始特征。對第一層特征采用改進(jìn)的詞袋模型進(jìn)行特征建模,得到第一層特征的向量表示。根據(jù)第一層中的每個局部興趣點和最近鄰若干興趣點之間的時空關(guān)系,計算出第二層時空特征。對第二層特征采用改進(jìn)的詞袋模型進(jìn)行特征建模,得到第二層特征的向量表示。將第一、二層的向量表示級聯(lián),形成視頻最終的中層特征表達(dá)。采用支持向量機進(jìn)行特征分類,得到識別準(zhǔn)確率。本發(fā)明能有效地獲取最近鄰興趣點的相對位置信息和類別信息,并結(jié)合了改進(jìn)的詞袋模型方法進(jìn)行特征建模,顯著提高了動作識別的準(zhǔn)確率。
【專利說明】
一種基于兩層時空鄰域特征的動作識別方法
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及計算機視覺領(lǐng)域,更具體地,涉及一種基于兩層時空鄰域特征的動作識別方法。
【背景技術(shù)】
[0002]科技的發(fā)展使得攝像設(shè)備得到了普及,數(shù)量巨大的視頻數(shù)據(jù)也隨之產(chǎn)生。同時,針對視頻的應(yīng)用也應(yīng)運而生:智能視頻監(jiān)控、視頻數(shù)據(jù)分類、高級人機交互等。在這些應(yīng)用中,針對人的動作進(jìn)行理解是最核心的關(guān)注點,也是人們研究的核心內(nèi)容。
[0003]由于人體動作識別有很大的潛在價值,所以此課題作為一個研究熱點已經(jīng)持續(xù)了至少十年時間,很多種方法都被提出,例如:基于狀態(tài)空間的方法、基于全局的方法、基于時空興趣點的方法以及基于卷積神經(jīng)網(wǎng)絡(luò)的方法等。其中,基于時空興趣點的方法和基于CNN的方法研究的人數(shù)眾多,這兩種方法能夠取得目前最好的結(jié)果。然而,深層CNN網(wǎng)絡(luò)由于有大量的參數(shù)需要通過學(xué)習(xí)獲得,而目前絕大部分?jǐn)?shù)據(jù)集并不能滿足深層CNN網(wǎng)絡(luò)學(xué)習(xí)所需的規(guī)模,因此限制了深層CNN網(wǎng)絡(luò)在動作識別領(lǐng)域的應(yīng)用。此外,深層CNN網(wǎng)絡(luò)的訓(xùn)練過程所耗費的時間相當(dāng)多,對參數(shù)進(jìn)行優(yōu)化是一個長期的過程,這個條件進(jìn)一步限制了 CNN方法在基于視頻的動作識別領(lǐng)域的延伸。所以,我們的動作識別研究將針對基于時空興趣點的方法。
[0004]基于時空興趣點的方法的主要步驟是:首先,對視頻進(jìn)行時空興趣點檢測,然后對興趣點進(jìn)行描述;接下來對這些特征點描述子采用詞袋模型進(jìn)行編碼,生成最終的視頻層表達(dá)特征;這些特征會被放入分類器中進(jìn)行分類,以完成最終的識別過程。很多學(xué)者在這個基礎(chǔ)上進(jìn)行了探索和改進(jìn)。Laptev等人二維圖像的興趣點擴展到三維時空領(lǐng)域,首次提出時空興趣點的概念。Dollar等人提出了一種時空窗的方法來檢測時空興趣點。在特征表示方面,多種興趣點特征描述子被提取出來描述行為。Laptev等人提取梯度方向直方圖特征(HOG)和光流直方圖特征(HOF),Wang等人提出了形狀特征(TS),HOG特征,HOF特征,運動邊緣直方圖特征(MBH)來描述局部的軌跡。上述方法都取得了較好的效果,但是現(xiàn)存的基于時空興趣點的研究通常忽略了局部時空興趣點之間的時空關(guān)系,而這種關(guān)系對于提高基于時空興趣點方法的識別準(zhǔn)確率是有幫助的。
【發(fā)明內(nèi)容】
[0005]為了克服上述現(xiàn)有技術(shù)的不足,本發(fā)明提供了一種基于兩層時空鄰域特征的動作識別方法。該方法將視頻數(shù)據(jù)集的視頻作為輸入,進(jìn)行視頻兩層特征提取和識別,最后輸出視頻的分類結(jié)果。
[0006]為了達(dá)到上述目的,本發(fā)明采用的技術(shù)方案是:
[0007]—種基于兩層時空鄰域特征的動作識別方法,包括以下步驟:
[0008](I)輸入待識別的視頻,根據(jù)視頻中連續(xù)幀的運動方向變化信息,提取運動變化模式特征作為視頻的第一層原始特征;
[0009](2)對第一層原始特征采用包含k-means++聚類方法的改進(jìn)詞袋模型進(jìn)行特征建模,得到第一層原始特征的向量表示;
[0010](3)根據(jù)第一層原始特征中的每個局部興趣點和最近鄰若干興趣點之間的時空關(guān)系,計算出第二層時空特征;
[0011](4)對第二層時空特征同樣采用步驟(2)中改進(jìn)的詞袋模型進(jìn)行特征建模,得到第二層時空特征的向量表示;
[0012](5)將第一層原始特征和第二層時空特征的向量表示級聯(lián)起來,形成該視頻最終的中層特征表達(dá);
[0013](6)采用支持向量機(SVM)進(jìn)行特征分類,最終輸出動作視頻的識別準(zhǔn)確率;
[0014]所述改進(jìn)的詞袋模型的具體實現(xiàn)包括數(shù)據(jù)聚類和計算統(tǒng)計頻率直方圖這兩個步驟,其聚類是采用k-means++方法k-means++方法的描述如下:
[0015](3-1)從輸入的數(shù)據(jù)點集合中隨機選擇一個點作為第一個聚類中心;
[0016](3-2)對于數(shù)據(jù)集中的每一個點X,計算它與已選擇的聚類中心中最近的聚類中心的距離D(x);
[0017](3-3)選擇一個新的數(shù)據(jù)點作為新的聚類中心,其選擇的原則是:D(X)較大的點,被選取作為聚類中心的概率較大;
[0018](3-4)重復(fù)步驟(3-2)和(3-3)直到k個聚類中心被選出來;
[0019 ] (3-5)利用這k個初始的聚類中心來運行標(biāo)準(zhǔn)的k-means算法。
[0020]上述技術(shù)方案中,聚類這一步中,采用k-means++方法而不是標(biāo)準(zhǔn)的k-means算法。標(biāo)準(zhǔn)的k-means算法是最為經(jīng)典的基于劃分的聚類方法,它的基本思想是:以樣本空間中隨機的k個點為中心進(jìn)行聚類,對最靠近他們的樣本點歸類。通過迭代的方法,逐次更新各聚類中心的值,直至得到最好的聚類結(jié)果。而k-means++方法選擇初始聚類中心的基本思想是:初始的聚類中心之間的相互距離不能取得太近,以免影響后面的聚類效果。
[0021]本發(fā)明基于時空鄰域特征方法,通過探索相鄰興趣點之間的時空關(guān)系,提出了一種新的鄰域特征表示,它能夠有效地獲取最近鄰興趣點的相對位置信息和類別信息,并且結(jié)合了改進(jìn)的詞袋模型方法進(jìn)行特征建模,顯著提高了動作識別的準(zhǔn)確率。
[0022]優(yōu)選的,所述步驟(I)中,通過比較每連續(xù)三幀中當(dāng)前幀的塊(patch)和上一幀塊以及下一幀塊像素的平方差之和(SSD),得到視頻中連續(xù)幀的運動方向變化信息,并對其進(jìn)行編碼,提取出運動變化模式(Mot1n Interchange Pattern,MIP)特征。
[0023]優(yōu)選的,步驟(3)中,基于第一層原始特征(運動變化模式特征M ο t i ο ηInterchange Pattern,MIP)中的每一個特征點,即中心點,通過歐氏距離計算出與該中心點最近鄰的s個興趣點,然后計算出每個最近鄰的興趣點與該中心點的相對空間位置,將該位置信息用8個bin來描述,由于每一個最近鄰的興趣點的類別信息已經(jīng)通過上一步的k-means++計算得到,假設(shè)上一步聚成了 k類,則將位置方向信息和類別信息二者結(jié)合起來,最終形成一個sX8k維的向量用來描述每個中心點。該向量獲取了該中心點最近鄰的s個興趣點的時空特征,即第二時空特征。
[0024]本發(fā)明相對于現(xiàn)有技術(shù)具有如下的優(yōu)點及效果:
[0025]1、本發(fā)明提出了一種新的兩層時空鄰域描述子特征。第一層表示原始的局部特征,并提取第一層特征的最近鄰興趣點的位置方向信息和類別信息作為第二層的表示。
[0026]2、本發(fā)明利用的k-means++能夠有效地提升聚類效果,達(dá)到提升識別準(zhǔn)確率的作用。
【附圖說明】
[0027]圖1為本發(fā)明的流程圖。
【具體實施方式】
[0028]為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合附圖及實施例,對本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。此外,下面所描述的本發(fā)明各個實施方式中所涉及到的技術(shù)特征只要彼此之間未構(gòu)成沖突就可以相互組合。
[0029]附圖給出了本發(fā)明的操作過程,如圖1所示,一種基于兩層時空鄰域特征的動作識別方法,包括以下步驟:
[0030](I)根據(jù)視頻中連續(xù)幀的運動方向變化信息,提取運動變化模式特征作為視頻的第一層原始特征;
[0031](2)對第一層特征采用改進(jìn)的詞袋模型進(jìn)行特征建模,得到第一層特征的向量表示;
[0032](3)根據(jù)第一層中的每個局部興趣點和最近鄰若干興趣點之間的時空關(guān)系,計算出第二層時空特征;
[0033](4)對第二層特征采用改進(jìn)的詞袋模型進(jìn)行特征建模,得到第二層特征的向量表示;
[0034](5)將第一層和第二層的向量表示級聯(lián)起來,形成該視頻最終的中層特征表達(dá);
[0035](6)采用支持向量機(SVM)進(jìn)行特征分類,最終輸出動作視頻的識別準(zhǔn)確率。
[0036]進(jìn)一步地,步驟(I)中的具體過程如下:通過比較每連續(xù)三幀中當(dāng)前幀的塊(patch)和上一幀以及下一幀塊像素的平方差之和(SSD),得到塊的運動方向變化信息,并對其進(jìn)行編碼,提取出運動變化模式(Mot1n Interchange Pattern,MIP)特征。
[0037]步驟(2)中的具體過程如下:采用改進(jìn)的詞袋模型通常包括聚類和統(tǒng)計直方圖這兩個步驟。在聚類這一步中,采用k-means++而不是常規(guī)的k-means方法,k-means++相對于k-means的不同之處在于它對聚類中心進(jìn)行了初始化。k-means++算法選擇初始聚類中心的基本思想就是:初始的聚類中心之間的相互距離要盡可能的遠(yuǎn)。對該算法的描述如下:
[0038](2-1)從輸入的數(shù)據(jù)點集合中隨機選擇一個點作為第一個聚類中心;
[0039](2-2)對于數(shù)據(jù)集中的每一個點X,計算它與最近聚類中心(已選擇的聚類中心)的距離D(x);
[0040](2-3)選擇一個新的數(shù)據(jù)點作為新的聚類中心,選擇的原則是:D(X)較大的點,被選取作為聚類中心的概率較大;
[0041](2-4)重復(fù)2和3直到k個聚類中心被選出來;
[0042 ] (2-5)利用這k個初始的聚類中心來運行標(biāo)準(zhǔn)的k-means算法。
[0043]步驟(3)中的具體過程如下:根據(jù)第一層特征MIP中的每一個特征點(稱為中心點)通過歐氏距離計算出與其最近鄰的s個興趣點,然后計算出每個相鄰點與該中心點的相對空間位置,將該位置信息用8個bin描述,由于每一個相鄰點的類別信息以及通過上一步的k-means++計算得到,假設(shè)聚成k類,則將位置方向信息和類別信息二者結(jié)合起來,最終形成一個s X 8 k維的向量表示每個特征點。該向量獲取了該特征點相鄰的s個興趣點的時空特征。
【主權(quán)項】
1.一種基于兩層時空鄰域特征的動作識別方法,其特征在于,包括以下步驟: (1)輸入待識別的視頻,根據(jù)視頻中連續(xù)幀的運動方向變化信息,提取運動變化模式特征作為視頻的第一層原始特征; (2)對第一層原始特征采用包含k-means++聚類方法的改進(jìn)詞袋模型進(jìn)行特征建模,得到第一層原始特征的向量表示; (3)根據(jù)第一層原始特征中的每個局部興趣點和最近鄰若干興趣點之間的時空關(guān)系,計算出第二層時空特征; (4)對第二層時空特征同樣采用改進(jìn)的詞袋模型進(jìn)行特征建模,得到第二層時空特征的向量表示; (5)將第一層原始特征和第二層時空特征的向量表示級聯(lián)起來,形成該視頻最終的中層特征表達(dá); (6)采用支持向量機(SVM)進(jìn)行特征分類,最終輸出動作視頻的識別準(zhǔn)確率; 所述改進(jìn)的詞袋模型的具體實現(xiàn)包括數(shù)據(jù)聚類和計算統(tǒng)計頻率直方圖這兩個步驟,其聚類是采用k-means++方法k-means++方法的描述如下: (3-1)從輸入的數(shù)據(jù)點集合中隨機選擇一個點作為第一個聚類中心; (3-2)對于數(shù)據(jù)集中的每一個點X,計算它與已選擇的聚類中心中最近的聚類中心的距離 D(x); (3-3)選擇一個新的數(shù)據(jù)點作為新的聚類中心,其選擇的原則是:D(X)較大的點,被選取作為聚類中心的概率較大; (3-4)重復(fù)步驟(3-2)和(3-3)直到k個聚類中心被選出來; (3-5)利用這k個初始的聚類中心來運行標(biāo)準(zhǔn)的k-means算法。2.根據(jù)權(quán)利要求1所述的基于兩層時空鄰域特征的動作識別方法,其特征在于,所述步驟(I)中,通過比較每連續(xù)三幀中當(dāng)前幀的塊和上一幀塊以及下一幀塊像素的平方差之和,得到視頻中連續(xù)幀的運動方向變化信息,并對其進(jìn)行編碼,提取出運動變化模式特征。3.根據(jù)權(quán)利要求1所述的基于兩層時空鄰域特征的動作識別方法,其特征在于,所述步驟(3)中,基于第一層原始特征中的每一個特征點,即中心點,通過歐氏距離計算出與該中心點最近鄰的s個興趣點,然后計算出每個最近鄰的興趣點與該中心點的相對空間位置,將該位置信息用8個bin來描述,由于每一個最近鄰的興趣點的類別信息已經(jīng)通過上一步的k-means++計算得到,假設(shè)上一步聚成了 k類,則將位置方向信息和類別信息二者結(jié)合起來,最終形成一個sX8k維的向量用來描述每個中心點,該向量獲取了該中心點最近鄰的s個興趣點的時空特征,即第二時空特征。
【文檔編號】G06K9/62GK105956604SQ201610249150
【公開日】2016年9月21日
【申請日】2016年4月20日
【發(fā)明人】胡海峰, 肖翔, 張偉, 顧建權(quán)
【申請人】廣東順德中山大學(xué)卡內(nèi)基梅隆大學(xué)國際聯(lián)合研究院