本發(fā)明屬于視頻處理技術(shù)領(lǐng)域,特別涉及一種行為識(shí)別方法,可用于視頻監(jiān)控復(fù)雜環(huán)境中對(duì)視頻行為的描述。
背景技術(shù):
在行為識(shí)別領(lǐng)域,人工局部特征已經(jīng)成為一種有效的特征表示方式。局部特征不需要特定的算法來(lái)檢測(cè)人體部位,并且對(duì)復(fù)雜背景,光照變化和視頻噪聲等影響具有魯棒性。
典型的局部特征包括:時(shí)空興趣點(diǎn)stip、立方體和稠密軌跡,通常與梯度方向直方圖hog、光流方向直方圖hof、3d梯度方向直方圖hog3d、運(yùn)動(dòng)邊界直方圖mbh、和擴(kuò)展的加速魯棒特征esurf等描述子結(jié)合使用。
局部特征的提取主要包含兩個(gè)步驟:首先發(fā)掘行為視頻中顯著和信息豐富的運(yùn)動(dòng)區(qū)域,然后在運(yùn)動(dòng)區(qū)域周圍提取描述子。在上述人工局部特征中,基于稠密軌跡的特征在各種具有挑戰(zhàn)的數(shù)據(jù)庫(kù)中獲得了較好的性能。事實(shí)上,上述描述子均為基于單個(gè)特征的1維直方圖表示,并沒有考慮到不同特征之間的聯(lián)合統(tǒng)計(jì)特性。然而,這些統(tǒng)計(jì)特性對(duì)于行為識(shí)別也許是非常重要的。
目前已提出的獲取特征之間相關(guān)性的方法有:
(1)guok,ishwarp,konradj.actionrecognitionfromvideousingfeaturecovariancematrices[j].ieeetransactionsonimageprocessing,2013,22(6):2479-2494,這種方法將協(xié)方差矩陣運(yùn)用到兩種局部特征集合,一種來(lái)自運(yùn)動(dòng)目標(biāo)的輪廓序列,另一種來(lái)自光流,并應(yīng)用一個(gè)稀疏線性表示的框架來(lái)實(shí)現(xiàn)行為識(shí)別。然而,該方法需要對(duì)視頻進(jìn)行精確分割,這對(duì)真實(shí)場(chǎng)景中的視頻是非常困難的。
(2)bilinskip,bremondf.videocovariancematrixlogarithmforhumanactionrecognitioninvideos[c]//ijcai2015-24thinternationaljointconferenceonartificialintelligence(ijcai).2015,這種方法在稠密軌跡的基礎(chǔ)上,提出視頻協(xié)方差矩陣對(duì)數(shù)(vcml)描述子,來(lái)模擬不同底層靜態(tài)特征之間線性關(guān)系。該方法雖然考慮到了不同特征之間的關(guān)系,但只考慮了靜態(tài)特征,并未考慮行為主體的動(dòng)態(tài)特征,無(wú)法準(zhǔn)確描述行為的運(yùn)動(dòng),導(dǎo)致行為識(shí)別結(jié)果的準(zhǔn)確率低。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明目的在于針對(duì)上述已有技術(shù)的不足,提出一種基于稠密軌跡協(xié)方差描述子的行為識(shí)別方法,以獲取準(zhǔn)確描述視頻中行為主體的運(yùn)動(dòng)信息,并在此基礎(chǔ)上獲取不同特征之間的聯(lián)合統(tǒng)計(jì)特性,從而增強(qiáng)對(duì)視頻行為的描述能力,進(jìn)一步提高行為識(shí)別的準(zhǔn)確率。
實(shí)現(xiàn)本發(fā)明的技術(shù)關(guān)鍵是在對(duì)底層特征集合求協(xié)方差矩陣的過(guò)程中不僅以位置信息和梯度作為靜態(tài)特征,而且計(jì)算了梯度、光流和運(yùn)動(dòng)邊界的時(shí)間導(dǎo)數(shù)作為運(yùn)動(dòng)特征,由此構(gòu)造了基于稠密軌跡的協(xié)方差矩陣描述子,具體步驟包括如下:
(1)對(duì)視頻序列進(jìn)行稠密采樣,計(jì)算采樣點(diǎn)處的稠密光流f,設(shè)光流閾值為tflow;
(2)將光流f大小大于設(shè)定閾值tflow的采樣點(diǎn)視為特征點(diǎn),對(duì)特征點(diǎn)進(jìn)行篩選,再對(duì)篩選后的特征點(diǎn)進(jìn)行追蹤,以獲取長(zhǎng)度為l的行為主體運(yùn)動(dòng)軌跡,在每一幀中以每一個(gè)運(yùn)動(dòng)軌跡點(diǎn)為中心選取w×h大小的圖像塊,得到大小為w×h×l的隨軌跡彎曲的軌跡立方體;
(3)對(duì)軌跡立方體中的每一個(gè)像素點(diǎn),提取d維底層特征;
(4)將軌跡立方體中視頻幀i對(duì)應(yīng)的空間區(qū)域表示為ri,用ri中所有像素點(diǎn)提取的d維底層特征構(gòu)成特征向量集合{f(k,i)∈rd}k=1,...,n,其中,n表示ri中像素點(diǎn)的個(gè)數(shù),接著計(jì)算其協(xié)方差矩陣ci;
(5)通過(guò)log-euclidean度量方式將協(xié)方差矩陣投影到歐式空間,獲取矩陣對(duì)數(shù)log(ci),并將該矩陣的上三角部分轉(zhuǎn)換為一個(gè)矢量vec(log(ci));
(6)將大小為w×h×l的軌跡立方體,均分為w×h×l的m個(gè)子塊,利用(5)中獲取的矢量計(jì)算每個(gè)軌跡子塊的描述子
(7)串接m個(gè)軌跡子塊的描述子,以獲取基于稠密軌跡的協(xié)方差矩陣描述子,dcmdt=[dsub_1,dsub_2,...,dsub_i,...,dsub_m]t,其中,dsub_i表示第i個(gè)軌跡子塊的描述子,i∈[1,m],[·]t表示轉(zhuǎn)置;
(8)將所有視頻基于稠密軌跡的協(xié)方差矩陣描述子分為訓(xùn)練集vftr和測(cè)試集vfte,采用bow方法進(jìn)行編碼,得到訓(xùn)練集的碼字直方圖vhtr和測(cè)試集的碼字直方圖vhte;
(9)利用訓(xùn)練集的碼字直方圖vhtr訓(xùn)練svm分類模型,將測(cè)試集的碼字直方圖vhte輸入到訓(xùn)練好的svm分類模型中進(jìn)行測(cè)試,獲取行為識(shí)別結(jié)果。
本發(fā)明與現(xiàn)有技術(shù)相比具有以下優(yōu)點(diǎn):
1)本發(fā)明在稠密軌跡的基礎(chǔ)上,將梯度、光流和運(yùn)動(dòng)邊界的時(shí)間導(dǎo)數(shù)作為底層運(yùn)動(dòng)特征,準(zhǔn)確反映了運(yùn)動(dòng)部位的速度信息,獲取了運(yùn)動(dòng)目標(biāo)和邊界的加速度信息,有利于行為識(shí)別結(jié)果的提高。
2)本發(fā)明通過(guò)計(jì)算靜態(tài)和動(dòng)態(tài)底層特征之間的協(xié)方差矩陣,構(gòu)造了基于稠密軌跡的協(xié)方差矩陣描述子,考慮了底層特征之間的相關(guān)性,這種特征之間的聯(lián)合統(tǒng)計(jì)信息,能夠提高對(duì)復(fù)雜環(huán)境中視頻行為的描述能力。
附圖說(shuō)明
圖1是本發(fā)明的實(shí)現(xiàn)流程圖。
具體實(shí)施方式
下面結(jié)合附圖對(duì)本發(fā)明的實(shí)施作進(jìn)一步詳細(xì)描述。
參照?qǐng)D1,本發(fā)明的基于稠密軌跡協(xié)方差描述子的行為識(shí)別步驟如下:
步驟1,對(duì)視頻序列進(jìn)行稠密采樣,計(jì)算采樣點(diǎn)處的稠密光流f。
(1.1)對(duì)視頻幀每隔w個(gè)像素進(jìn)行網(wǎng)格采樣獲取采樣點(diǎn),參數(shù)w的值設(shè)為5;
(1.2)對(duì)(1.1)中獲取的采樣點(diǎn)采用gunnar
(1.2a)將圖像中每個(gè)像素的鄰域像素值表示為一個(gè)二次多項(xiàng)式:
f(x)=xtax+btx+c,
其中,f(x)表示與鄰域x對(duì)應(yīng)的像素值,a為對(duì)稱矩陣,b為一個(gè)向量,c代表了偏移量,這些參數(shù)可通過(guò)加權(quán)的最小二乘法進(jìn)行估計(jì)得到;
(1.2b)將當(dāng)前視頻幀的圖像表示為:
f1(x)=xta1x+b1tx+c1,
其中,a1,b1和c1分別表示當(dāng)前視頻幀圖像對(duì)應(yīng)的對(duì)稱矩陣,向量和偏移量;
(1.2c)將當(dāng)前視頻幀后面一個(gè)視頻幀的圖像表示為:
其中,z表示當(dāng)前視頻幀圖像到后面一個(gè)視頻幀圖像發(fā)生的全局位移,a2,b2和c2分別表示當(dāng)前視頻幀后面一個(gè)視頻幀圖像對(duì)應(yīng)的對(duì)稱矩陣,向量和偏移量;
(1.2d)根據(jù)(1.2c)中二次多項(xiàng)式對(duì)應(yīng)系數(shù)相等性質(zhì),得出全局位移:
步驟2,對(duì)特征點(diǎn)進(jìn)行篩選并進(jìn)行跟蹤,得到稠密軌跡,獲取隨軌跡彎曲的軌跡立方體。
在復(fù)雜的行為環(huán)境中通常存在攝像頭運(yùn)動(dòng),由攝像頭運(yùn)動(dòng)產(chǎn)生的特征點(diǎn)會(huì)對(duì)由行為主體運(yùn)動(dòng)產(chǎn)生的特征點(diǎn)產(chǎn)生干擾,影響行為識(shí)別的效果,因此,需要對(duì)特征點(diǎn)進(jìn)行篩選,去除由攝像頭運(yùn)動(dòng)產(chǎn)生的特征點(diǎn),具體步驟如下:
(2.1)設(shè)光流閾值為tflow=0.4,將光流f大小大于設(shè)定閾值tflow的采樣點(diǎn)視為特征點(diǎn),將其保留下來(lái)并計(jì)入特征點(diǎn)數(shù)目numfeat,否則將其舍去;若剩下的特征點(diǎn)數(shù)目超過(guò)設(shè)定的閾值tfeat,即numfeat>tfeat,則認(rèn)為該視頻幀存在攝像頭運(yùn)動(dòng),此時(shí),對(duì)運(yùn)動(dòng)特征點(diǎn)的光流采用dbscan算法進(jìn)行聚類,進(jìn)一步移除攝像頭運(yùn)動(dòng)的干擾,其中,
(2.2)經(jīng)過(guò)(2.1)進(jìn)行特征點(diǎn)篩選后,在隨后的連續(xù)幀圖像中對(duì)特征點(diǎn)進(jìn)行跟蹤,獲取長(zhǎng)度為l的軌跡,軌跡的長(zhǎng)度限制為l=15,在每一幀中以每一個(gè)運(yùn)動(dòng)軌跡點(diǎn)為中心選取w×h大小的圖像塊,得到大小為w×h×l的隨軌跡彎曲的軌跡立方體,w=32,h=32。
步驟3,對(duì)軌跡立方體中的每一個(gè)像素點(diǎn)提取d維底層特征。
(3.1)對(duì)軌跡立方體中的每個(gè)點(diǎn)p,采用一維sobel算子[-1,0,1]計(jì)算空間梯度,得到x和y方向的梯度px和py,以反映點(diǎn)p的外觀信息,其計(jì)算式如下:
(3.2)以(3.1)獲取的梯度為基礎(chǔ),對(duì)兩個(gè)連續(xù)的梯度采用[-1,1]的時(shí)間濾波器計(jì)算時(shí)間偏導(dǎo),以獲取梯度邊界信息:
由于人體梯度邊界的變化,反映運(yùn)動(dòng)部位的速度,強(qiáng)調(diào)運(yùn)動(dòng)邊緣邊界,故可通過(guò)px和py對(duì)時(shí)間方向t的偏導(dǎo)數(shù)pt,x和pt,y來(lái)計(jì)算梯度邊界的變化信息,計(jì)算式如下:
(3.3)將光流f沿x和y方向的分量分別表示為u和v,采用[-1,1]的時(shí)間濾波器,計(jì)算u在時(shí)間方向t上的偏導(dǎo)數(shù)ft,x和v在時(shí)間方向t上的偏導(dǎo)數(shù)ft,y,它們反映運(yùn)動(dòng)部位的加速度信息,計(jì)算如下式:
(3.4)計(jì)算光流f的運(yùn)動(dòng)邊界,計(jì)算過(guò)程如下:
利用一維sobel算子[-1,0,1],分別計(jì)算u沿水平方向的導(dǎo)數(shù)
(3.5)計(jì)算運(yùn)動(dòng)邊界的時(shí)間偏導(dǎo),以反映目標(biāo)運(yùn)動(dòng)邊界的速度變化,計(jì)算過(guò)程如下:
利用[-1,1]的時(shí)間濾波器,分別計(jì)算
(3.6)對(duì)于行為識(shí)別而言,除了(3.1)~(3.5)中計(jì)算的像素點(diǎn)p的梯度、梯度的時(shí)間導(dǎo)數(shù)、光流的時(shí)間導(dǎo)數(shù)和運(yùn)動(dòng)邊界的時(shí)間導(dǎo)數(shù)外,p的空間位置x和y也是有用的信息,因此也作為底層特征,將x,y,px,py,pt,x、pt,y及其幅值和方向角,ft,x、ft,y及其幅值和方向角,ut,x、ut,y及其幅值和方向角,vt,x、vt,y及其幅值和方向角進(jìn)行串接構(gòu)成d=20維的特征向量,由此,將每個(gè)p可通過(guò)d維的底層特征來(lái)表示。
步驟4,將軌跡立方體中視頻幀i對(duì)應(yīng)的空間區(qū)域表示為ri,獲取ri的特征向量集合,并對(duì)其計(jì)算協(xié)方差矩陣。
通過(guò)步驟3獲取底層特征后,對(duì)每個(gè)特征的方差以及不同特征之間的協(xié)方差進(jìn)行編碼,可以得到一個(gè)更加緊湊的特征表示,故通過(guò)計(jì)算特征向量集合的協(xié)方差矩陣來(lái)實(shí)現(xiàn),具體步驟如下:
(4.1)對(duì)ri中所有像素點(diǎn)提取d維底層特征,構(gòu)成特征向量集合{f(k,i)∈rd}k=1,...,n,其中,n表示ri中像素點(diǎn)個(gè)數(shù),n=w×h,d為底層特征的維數(shù);
(4.2)通過(guò)下式計(jì)算特征向量集合的協(xié)方差矩陣:
其中,f(k,i)表示ri的特征向量集合中的第k個(gè)特征向量,k∈[1,n],μi為特征向量均值,
步驟5,將協(xié)方差矩陣投影到歐式空間,獲取ri的特征表示。
協(xié)方差矩陣可以表示為一個(gè)連通的黎曼流形,為了方便進(jìn)一步地對(duì)基于協(xié)方差矩陣的描述子進(jìn)行聚類并構(gòu)造碼書,需要通過(guò)log-euclidean度量方式將協(xié)方差矩陣投影到歐式空間,具體步驟如下:
(5.1)對(duì)協(xié)方差矩陣進(jìn)行奇異值分解,得到u,v和σ,其中,u為左奇異矩陣,v為右奇異矩陣,σ=diag(λ1,λ2,...,λj,...,λd)為由奇異值構(gòu)成的對(duì)角矩陣,λj為ci的第j個(gè)奇異值,j∈[1,d],奇異值的個(gè)數(shù)為d,diag(·)表示構(gòu)成對(duì)角矩陣;
(5.2)利用u,v和σ計(jì)算矩陣對(duì)數(shù)log(ci):
log(ci)=u·log(σ)·vt=u·diag(log(λ1),log(λ2),...,log(λj),...,log(λd))·vt;
(5.3)取矩陣的上三角部分vec(log(ci))來(lái)表示ri,其中,vec(·)表示將矩陣的上三角部分轉(zhuǎn)換為一個(gè)矢量,因?yàn)閰f(xié)方差矩陣是一個(gè)d×d維的對(duì)稱矩陣,由d(d+1)/2個(gè)值決定,所以取上三角部分可以獲取更加緊湊的形式。
步驟6,通過(guò)ri的特征表示計(jì)算每個(gè)軌跡子塊的描述子。
將一個(gè)w×h×l的軌跡立方體均分為w×h×l的m個(gè)子塊,為了使每個(gè)子塊均有一個(gè)緊湊的表示,將子塊中所有ri特征表示的平均矢量作為子塊的描述子:
其中,l為軌跡子塊的幀長(zhǎng)度,l=5,m=l/l。
步驟7,將m個(gè)軌跡子塊的描述子串接,得到基于稠密軌跡的協(xié)方差矩陣描述子:
dcmdt=[dsub_1,dsub_2,...,dsub_i,...,dsub_m]t,
其中,dsub_i表示第i個(gè)軌跡子塊的描述子,i∈[1,m],[·]t表示轉(zhuǎn)置。
步驟8,對(duì)協(xié)方差矩陣描述子進(jìn)行bow編碼,獲取碼字直方圖。
將所有視頻基于稠密軌跡的協(xié)方差矩陣描述子分為訓(xùn)練集vftr和測(cè)試集vfte,采用k-means聚類算法對(duì)訓(xùn)練集vftr進(jìn)行聚類,得到包含k個(gè)碼字的碼書,k=1000,將訓(xùn)練集vftr和測(cè)試集vfte分別映射到碼書中,得到訓(xùn)練集的碼字直方圖vhtr和測(cè)試集的碼字直方圖vhte。
步驟9,訓(xùn)練線性svm分類模型,進(jìn)行行為識(shí)別。
利用訓(xùn)練集的碼字直方圖vhtr訓(xùn)練線性svm分類模型,將測(cè)試集的碼字直方圖vhte輸入到訓(xùn)練好的線性svm分類模型中進(jìn)行測(cè)試,獲取行為識(shí)別結(jié)果。
本發(fā)明的效果可通過(guò)以下實(shí)驗(yàn)結(jié)果進(jìn)一步說(shuō)明;
用本發(fā)明對(duì)較為復(fù)雜的標(biāo)準(zhǔn)人體行為數(shù)據(jù)庫(kù)ucf-sports進(jìn)行行為識(shí)別實(shí)驗(yàn),得到94%的識(shí)別正確率,實(shí)驗(yàn)結(jié)果證明了本發(fā)明的有效性。
以上描述僅是本發(fā)明的一個(gè)具體實(shí)例,不構(gòu)成對(duì)本發(fā)明的任何限制,顯然對(duì)于本領(lǐng)域的專業(yè)人員來(lái)說(shuō),在了解了本發(fā)明內(nèi)容和原理后,都有可能在不背離本發(fā)明原理、結(jié)構(gòu)的情況下,進(jìn)行形式和細(xì)節(jié)上的各種修正和改變,但是,這些基于本發(fā)明思想的修正和改變?nèi)栽诒景l(fā)明的權(quán)利要求保護(hù)范圍之內(nèi)。