本發(fā)明涉及一種基于局部特征和詞袋模型人體動(dòng)作識(shí)別過(guò)程的關(guān)鍵幀選取方法,屬于計(jì)算機(jī)視覺(jué)技術(shù)領(lǐng)域。
背景技術(shù):
人體動(dòng)作識(shí)別廣泛應(yīng)用于人機(jī)交互、智能監(jiān)控、虛擬現(xiàn)實(shí)等領(lǐng)域?;诰植刻卣骱驮~袋模型的人體動(dòng)作識(shí)別方法由于計(jì)算簡(jiǎn)單魯棒性高等特點(diǎn)受到廣泛關(guān)注。但人體動(dòng)作識(shí)別的視頻圖像幀數(shù)多,不同幀包含了相同的人體動(dòng)作特征,存在數(shù)據(jù)量大,用于動(dòng)作識(shí)別的信息冗余等問(wèn)題,導(dǎo)致識(shí)別速度慢和識(shí)別準(zhǔn)確率低。因此對(duì)人體動(dòng)作視頻進(jìn)行有效的關(guān)鍵幀選取可以去除冗余信息,減少動(dòng)作識(shí)別過(guò)程中的特征數(shù)目,同時(shí)保證人體動(dòng)作識(shí)別準(zhǔn)確率。
目前,常見(jiàn)的關(guān)鍵幀選取方法首先要對(duì)原始視頻進(jìn)行鏡頭分割。zhuang等通過(guò)對(duì)不同鏡頭中所有幀的顏色直方圖向量聚類選取關(guān)鍵幀,聚類中心個(gè)數(shù)即為關(guān)鍵幀選取數(shù)目,但聚類中心數(shù)目需要人為確定。為自動(dòng)確定關(guān)鍵幀的提取數(shù)目,magda等利用相鄰兩幀的顏色直方圖差分作為適應(yīng)度值通過(guò)離散粒子群選取關(guān)鍵幀,但基于全局特征進(jìn)行人體動(dòng)作識(shí)別,不僅運(yùn)算量高且對(duì)背景及光照變化敏感。zhao等利用局部時(shí)空特征的信息熵選取關(guān)鍵幀進(jìn)行人體動(dòng)作識(shí)別,但該方法無(wú)法自動(dòng)確定關(guān)鍵幀選取數(shù)目,利用該方法選取的關(guān)鍵幀進(jìn)行人體動(dòng)作識(shí)別的準(zhǔn)確率有所降低。
因此,針對(duì)目前關(guān)鍵幀選取方法關(guān)鍵幀選取數(shù)目需人為確定、基于全局特征計(jì)算量大且對(duì)背景及光照敏感以及動(dòng)作識(shí)別準(zhǔn)確率降低等不足,本發(fā)明提出一種基于局部特征和詞袋模型自動(dòng)確定關(guān)鍵幀數(shù)目的關(guān)鍵幀選取方法,利用本發(fā)明選取的關(guān)鍵幀進(jìn)行人體動(dòng)作識(shí)別,保證了較高的準(zhǔn)確率。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明針對(duì)局部特征和詞袋模型人體動(dòng)作識(shí)別過(guò)程視頻圖像幀數(shù)多,信息量大,不同幀圖像中動(dòng)作特征冗余,導(dǎo)致識(shí)別準(zhǔn)確率低等問(wèn)題提出一種關(guān)鍵幀選取方法?;陔x散粒子群采用夾角余弦值作為適應(yīng)度值評(píng)價(jià)關(guān)鍵幀選取前后表征人體動(dòng)作特征相似度,從原始動(dòng)作視頻中選取與原始動(dòng)作視頻表征動(dòng)作特征最相似的一組圖像幀作為關(guān)鍵幀。
本發(fā)明采用的技術(shù)方案為一種基于局部特征和詞袋模型人體動(dòng)作識(shí)別過(guò)程的關(guān)鍵幀選取方法,基于局部特征和詞袋模型的人體動(dòng)作識(shí)別過(guò)程如下:首先提取人體動(dòng)作局部特征,將局部特征聚類映射為不同的視覺(jué)詞匯,所有視覺(jué)詞匯構(gòu)成視覺(jué)詞典。
計(jì)算每個(gè)人體動(dòng)作視頻所有視覺(jué)詞匯出現(xiàn)的概率,得到視覺(jué)詞匯分布特征向量直方圖h=(h1,h2,...,hi,...,hn)。其中hi為第i個(gè)視覺(jué)詞匯在人體動(dòng)作視頻中出現(xiàn)的概率,n為視覺(jué)詞典大小。將h作為描述人體動(dòng)作視頻的特征向量輸入分類器進(jìn)行動(dòng)作識(shí)別。
采用局部特征和詞袋模型基于離散粒子群選取關(guān)鍵幀進(jìn)行人體動(dòng)作識(shí)別的特征在于:如圖1所示,包括以下步驟:
步驟一設(shè)定初始參數(shù)
利用離散粒子群選取人體動(dòng)作視頻關(guān)鍵幀的初始參數(shù)設(shè)定包括:種群個(gè)數(shù)n,迭代次數(shù)m,隨機(jī)粒子及速度:xi,vi,i=1,2,...,n。
其中隨機(jī)粒子xi為二進(jìn)制向量,長(zhǎng)度等于原始人體動(dòng)作視頻幀數(shù)m。向量中元素值為1表示選取該幀為關(guān)鍵幀,否則為0。速度向量vi的長(zhǎng)度和xi相同,向量中的每一項(xiàng)為0-1的隨機(jī)數(shù),表征隨機(jī)粒子中元素為1的概率。
步驟二計(jì)算每個(gè)粒子的適應(yīng)度值
采用原始人體動(dòng)作視頻和所有選取的關(guān)鍵幀對(duì)應(yīng)的局部特征向量直方圖的夾角余弦值作為適應(yīng)度值,計(jì)算公式如下:
向量h表示原始動(dòng)作視頻的特征向量直方圖,向量hi表示隨機(jī)粒子xi選取的所有關(guān)鍵幀對(duì)應(yīng)的局部特征向量直方圖。
步驟三獲得初始粒子群的最優(yōu)適應(yīng)度和最優(yōu)粒子
計(jì)算每個(gè)粒子的適應(yīng)度值后,初始粒子群的最優(yōu)適應(yīng)度為:
fmax=max(f(hi,h))(2)
最優(yōu)適應(yīng)度取值所對(duì)應(yīng)的粒子xi即為初始粒子群的最優(yōu)粒子。
步驟四速度更新
對(duì)粒子群中所有粒子進(jìn)行速度更新:
其中,vik+1為第i個(gè)粒子第k+1次迭代后的速度,vik為第i個(gè)粒子第k次迭代后的速度,
步驟五速度修正
速度向量中每一項(xiàng)對(duì)應(yīng)粒子中該位置元素為1的概率,因此為使得速度向量中的每一項(xiàng)的值在0到1之間,引入標(biāo)準(zhǔn)sigmoid函數(shù)進(jìn)行速度修正:
其中,vid為第i個(gè)粒子的速度向量vi第d個(gè)元素的值,d=1,2,...,m。exp()為指數(shù)函數(shù)。v′id為速度向量vi第d個(gè)元素修正后的速度值。
步驟六粒子更新
根據(jù)每個(gè)粒子的速度向量對(duì)粒子進(jìn)行更新:
其中,xid為粒子xi中第d個(gè)元素的值,rand()為0-1間的隨機(jī)數(shù)。
重復(fù)步驟四、步驟五、步驟六,當(dāng)?shù)螖?shù)達(dá)到步驟一中設(shè)置的迭代次數(shù)m時(shí),gbest中所有值為1的項(xiàng)對(duì)應(yīng)的位置即為人體動(dòng)作視頻選取的關(guān)鍵幀幀序。
以上就是本發(fā)明提出的關(guān)鍵幀選取步驟。
本發(fā)明的有益效果在于:提出的關(guān)鍵幀選取方法無(wú)需對(duì)原始視頻進(jìn)行鏡頭分割,基于局部特征運(yùn)算量減少且受背景及光照變化影響小,自動(dòng)確定關(guān)鍵幀選取數(shù)目,保證人體動(dòng)作識(shí)別準(zhǔn)確率。
附圖說(shuō)明
圖1是本發(fā)明所述的人體動(dòng)作視頻關(guān)鍵幀選取流程圖。
圖2是本發(fā)明具體實(shí)施方式所述的基于關(guān)鍵幀選取的人體動(dòng)作識(shí)別流程圖。
圖3是本發(fā)明具體實(shí)施方式所述的kth單人動(dòng)作數(shù)據(jù)庫(kù)6個(gè)動(dòng)作、不同場(chǎng)景的部分圖例。
圖4是本發(fā)明具體實(shí)施方式所述的3dharris人體動(dòng)作視頻時(shí)空興趣點(diǎn)提取結(jié)果。
圖5是本發(fā)明具體實(shí)施方式所述的關(guān)鍵幀選取結(jié)果圖。
具體實(shí)施方式
下面結(jié)合實(shí)例及附圖對(duì)本發(fā)明作進(jìn)一步的描述,需要說(shuō)明的是,實(shí)施例并不限定本發(fā)明要求保護(hù)的范圍。
選用kth單人動(dòng)作數(shù)據(jù)庫(kù)進(jìn)行仿真實(shí)驗(yàn),kth單人數(shù)據(jù)庫(kù)包括行走、慢跑、跑步、拳擊、鼓掌、揮手6個(gè)動(dòng)作,每種動(dòng)作包含25個(gè)人4個(gè)不同場(chǎng)景共100個(gè)動(dòng)作視頻圖像序列。圖3給出kth數(shù)據(jù)庫(kù)中四個(gè)場(chǎng)景6個(gè)不同動(dòng)作的示例圖像。
基于局部特征和詞袋模型的關(guān)鍵幀選取和人體動(dòng)作識(shí)別流程如圖2所示:
采用3dharris方法提取時(shí)空興趣點(diǎn)作為人體動(dòng)作識(shí)別局部特征,時(shí)空興趣點(diǎn)描述器采用hog3d描述法。不同動(dòng)作圖像時(shí)空興趣點(diǎn)局部特征提取結(jié)果如圖4所示。每個(gè)動(dòng)作選取80個(gè)動(dòng)作視頻為訓(xùn)練樣本,其余20個(gè)為測(cè)試樣本進(jìn)行人體動(dòng)作識(shí)別。視覺(jué)詞典建立過(guò)程,采用k-均值聚類法對(duì)訓(xùn)練本中所有時(shí)空興趣點(diǎn)進(jìn)行聚類,聚類中心個(gè)數(shù)為650。對(duì)于測(cè)試樣本,采用最近鄰查詢將人體動(dòng)作視頻時(shí)空興趣點(diǎn)映射為視覺(jué)詞匯。計(jì)算每個(gè)人體動(dòng)作視頻的基于時(shí)空興趣點(diǎn)的視覺(jué)詞匯分布直方圖特征向量。
對(duì)所有人體動(dòng)作視頻關(guān)鍵幀選取具體實(shí)現(xiàn)如下:
s1、設(shè)置初始參數(shù)
利用離散粒子群選取人體動(dòng)作視頻關(guān)鍵幀,設(shè)定種群個(gè)數(shù)n為50,迭代次數(shù)m為100,隨機(jī)粒子及速度:xi,vi,i=1,2,...,50。
s2、計(jì)算粒子的適應(yīng)度值
采用式(1)計(jì)算原始人體動(dòng)作視頻對(duì)應(yīng)的局部特征向量直方圖與每個(gè)粒子選取的關(guān)鍵幀對(duì)應(yīng)的局部特征向量直方圖的夾角余弦值作為粒子適應(yīng)度。
s3、獲得初始粒子群的最優(yōu)適應(yīng)度和最優(yōu)粒子
利用式(2)求解初始粒子群的最優(yōu)適應(yīng)度,最優(yōu)適應(yīng)度取值所對(duì)應(yīng)的粒子xi即為初始粒子群的最優(yōu)粒子。
s4、速度更新
利用式(3)對(duì)粒子群中所有粒子進(jìn)行速度更新,利用標(biāo)準(zhǔn)sigmoid函數(shù)修正速度向量中的每一項(xiàng)。
s5、粒子更新
利用式(5)根據(jù)速度向量對(duì)粒子進(jìn)行更新。重復(fù)步驟4、5。當(dāng)?shù)螖?shù)達(dá)到步驟1中設(shè)置的迭代次數(shù)100時(shí),gbest中所有元素值為1對(duì)應(yīng)的位置即為人體動(dòng)作視頻選取的關(guān)鍵幀幀序。
以一個(gè)20幀的跑步原始視頻片段為例,采用本發(fā)明提出的關(guān)鍵幀選取方法共選取了8幀關(guān)鍵幀如圖5所示。
s6、計(jì)算選取的關(guān)鍵幀的局部特征向量直方圖
計(jì)算經(jīng)過(guò)關(guān)鍵幀選取后的人體動(dòng)作視頻圖像序列新的特征向量直方圖,作為描述人體動(dòng)作的特征向量利用分類器進(jìn)行動(dòng)作識(shí)別。
s7、人體動(dòng)作識(shí)別
動(dòng)作識(shí)別分類器采用支持向量機(jī)(supportvectormachine,svm)。核函數(shù)選擇卡方核:
其中,hi,hj分別為第i個(gè)和第j個(gè)人體動(dòng)作視頻關(guān)鍵幀的特征向量直方圖。d(hi,hj)為兩個(gè)特征向量直方圖的卡方距離:
其中,hik,hjk為第i個(gè)和第j個(gè)人體動(dòng)作視頻特征向量直方圖第k個(gè)元素的值。
采用選取的關(guān)鍵幀進(jìn)行人體動(dòng)作識(shí)別結(jié)果見(jiàn)表1。
表1關(guān)鍵幀選取及人體動(dòng)作識(shí)別結(jié)果
上述步驟即可完成人體動(dòng)作視頻關(guān)鍵幀選取。實(shí)驗(yàn)結(jié)果表明,基于局部特征和詞袋模型相結(jié)合的動(dòng)作識(shí)別過(guò)程,本發(fā)明提出的關(guān)鍵幀選取方法能夠減少動(dòng)作識(shí)別過(guò)程中的圖像幀數(shù)、冗余信息,保證人體動(dòng)作識(shí)別準(zhǔn)確率。