一種自然場景視頻識別方法
【專利摘要】本發(fā)明屬于計算機視覺領(lǐng)域,尤其是涉及一種自然場景視頻識別方法,該方法具體包括以下步驟:1)生成特征點軌跡描述符;2)生成局部時空描述符;3)詞袋模型表示視頻序列;4)預(yù)測攝像頭的狀態(tài);5)選擇適應(yīng)特征融合;本發(fā)明采用基于軌跡相異度度量和ROI檢測的方法,有效地移除來自背景的特征點軌跡;還提出了自適應(yīng)的特征融合方法,根據(jù)攝像頭的動靜情況,選擇性地對這兩類描述符加以組合,顯著地提高算法的識別效果。
【專利說明】
-種自然場景視頻識別方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明屬于計算機視覺領(lǐng)域,尤其是設(shè)及一種自然場景視頻識別方法。
【背景技術(shù)】
[0002] 人體行為識別是人體運動分析的重要研究方向,屬于計算機視覺的高層應(yīng)用,廣 泛應(yīng)用于智能監(jiān)控系統(tǒng)、高級人機交互、基于內(nèi)容的視頻檢索與運動分析等方面。當(dāng)前人體 行為識別的研究興趣已經(jīng)從拍攝環(huán)境良好控制下的簡單行為識別轉(zhuǎn)移到故事性電影、體育 廣播錄像和家庭錄像等無約束環(huán)境(也稱為"自然環(huán)境")下更為現(xiàn)實的行為識別。運種環(huán)境 下的行為識別是具有挑戰(zhàn)性的,原因在于由攝像頭移動、背景雜斑、W及光照條件、尺度、視 角的改變而引起的巨大變化,而主要難點在于如何從運種不受約束的視頻中提取可靠的、 富含信息量的特征。
[0003] Liu等人針對無約束視頻的特點,首先從視頻中同時提取局部動作和靜態(tài)特征,再 采用統(tǒng)計學(xué)方法獲得穩(wěn)定的動作特征和不含噪聲的靜態(tài)特征,然后采用化geRank從特征空 間中選擇最具信息量的靜態(tài)特征,接著采用信息論算法對語義相關(guān)的特征進(jìn)行分組,最后, 選擇AdaBoost方法綜合所有類型不同卻包含互補信息的特征;Laptev等人研究的是故事性 電影中的現(xiàn)實人體行為識別。從電影劇本中收集包含待識別動作的錄像片段,構(gòu)成一個復(fù) 雜的行為數(shù)據(jù)集,并提出了基于局部時空特征、時空金字塔模型和多通道非線性SVM的運動 表示和行為分類算法;Sun等人提出W分級的方式對時空上下文信息進(jìn)行建模。將時空上下 文抽象為Ξ個級別:圖像特征點上下文(SIFT描述符)、軌跡內(nèi)上下文(軌跡狀態(tài)轉(zhuǎn)移描述 符)、軌跡間上下文(軌跡鄰近度描述符);Kovashka等人針對現(xiàn)有BOW模型在表達(dá)特征時空 關(guān)系上的缺陷,提出一種基于時空特征鄰域形狀的運動表示方法。
[0004] 目前的人體動作行為識別方法中,基于軌跡的技術(shù)是最新的研究熱點之一,因此 特征提取成為其中的重中之重。但是由于自然環(huán)境下的行為視頻通常面臨更大程度的多物 體遮擋、陰影、背景雜斑,W及光照、尺度、視角上的劇烈變化等現(xiàn)象,運導(dǎo)致特征提取成為 一個嚴(yán)重的難題,此外,由于拍攝過程不加任何限制條件,因此攝像頭可能靜止的,也可能 是動態(tài)的,運兩種狀態(tài)W難W預(yù)料的方式混合出現(xiàn),特別的,在攝像頭相對背景移動的情況 下,動作特征將由待識別運動和雜亂背景兩者共同產(chǎn)生,運樣會明顯降低所提取特征的有 效性,從而對識別效果產(chǎn)生不良影響。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的目的是提供一種自然場景視頻識別方法,針對自然環(huán)境下的行為視頻通 常面臨更大程度的多物體遮擋、陰影、背景雜斑,W及光照、尺度、視角上的劇烈變化等現(xiàn)象 的問題,采用基于軌跡相異度度量和R0I檢測的方法,有效地移除來自背景的特征點軌跡; 針對拍攝過程不加任何限制條件,攝像頭可能靜止的,也可能是動態(tài)的,運兩種狀態(tài)W難W 預(yù)料的方式混合出現(xiàn)的問題,提出了自適應(yīng)的特征融合方法,根據(jù)攝像頭的動靜情況,選擇 性地對運兩類描述符加 W組合,顯著地提高算法的識別效果。
[0006] 為了實現(xiàn)上述目的,本發(fā)明采用了 W下的技術(shù)方案:
[0007] -種自然場景視頻識別方法,包括W下步驟:
[0008] A:生成特征點軌跡描述符:通過特征點跟蹤產(chǎn)生候選的特征點軌跡,然后采用基 于軌跡相異度度量和R0I檢測的軌跡剪除方法,去除由特征點誤匹配或者背景變化而產(chǎn)生 的軌跡,最后針對剪除后的可靠軌跡計算和提取一系列對尺度、平移、旋轉(zhuǎn)等具有不變性的 軌跡描述符;
[0009] B:生成局部時空描述符:采用基于帖間差分法結(jié)合多方向Gabor濾波的方法,對視 頻序列進(jìn)行時空興趣點檢測,再通過視頻立方塊提取和主成分分析特征降維方法,對興趣 點提取局部時空描述符;
[0010] C:詞袋模型表示視頻序列:采用傳統(tǒng)的詞袋模型表示方法,將視頻序列表示為視 覺詞語直方圖;
[0011] D:預(yù)測攝像頭的狀態(tài):采用簡化的光流法對視頻片段中的所有帖計算整體光流, 從而預(yù)測攝像頭的狀態(tài);
[0012] E:選擇適應(yīng)特征融合:根據(jù)預(yù)測的結(jié)果,對基于軌跡的描述符和基于時空興趣點 的描述符運兩者進(jìn)行選擇性地融合。
[0013] 進(jìn)一步地,在步驟A中,軌跡相異度度量的軌跡剪除方法步驟如下:
[0014] A1:假設(shè)存在N條W帖f為起點的軌跡:Τ = {ti},i = 1,…,N,對每條軌跡,定義一個 時間窗為5帖的軌跡段t三;(.、·;,/, ),(4…的"),,嫁"),(Υ'/^,的W),(x'M4,方*4)似及相鄰 帖位移向量出=?取d;,《,斬,其中4 = (4+* -,乂+* -乂+:巧-,)),k=l,…,4;
[001引 A2巧個軌跡位移向量d巧Pdj的相異度計算為一個NXN的矩陣C,公式如下:
[0016]
[0017] A3:軌跡的相異度計算3
<;,運個值度量了長度為5帖的時間窗內(nèi),該軌跡 與所有其他W帖f為起點的軌跡之間的相異度;
[0018] A4:對帖f,計算一個自適應(yīng)闊值
其中丫為常量,取值為1.3;然后移 除所有相異度小于Μ基的軌跡。
[0019] 進(jìn)一步地,在步驟A中,R0I檢測的軌跡剪除方法步驟如下:在軌跡相異度度量的條 件約束下,假設(shè)帖f中剩下化條可靠的軌跡,則可W通過對可靠軌跡上所有特征點的空間坐 標(biāo)求均值,獲得R0I的中屯、:
,該尺寸則由W下式子給出:
其中Cxx和Cyy分別是特征點空間坐標(biāo)在X方向和y方向上的二階中 屯、距,所有位于R0I之外的軌跡都將被移除掉,另外,位移量極小甚至不動的軌跡也將被移 除。
[0020] 進(jìn)一步地,在步驟C中,詞袋模型表示視頻序列包括軌跡特征視頻序列和時空興趣 點特征視頻序列。
[0021 ]進(jìn)一步地,所述軌跡特征視頻序列的表示方法步驟如下:
[0022] C1:通過K-means算法對訓(xùn)練集中所有軌跡的整體描述子G進(jìn)行聚類,構(gòu)造一個規(guī) 模為500的視覺詞典;
[0023] C2:采用時空網(wǎng)格的方法來描述軌跡特征的分布,將整段視頻序列的R0I時空體劃 分為4個非重合的空間塊和2個部分重合的時間塊,重合量為視頻長度的1/3,即4X2 = 8個 塊;
[0024] C3:采用直方圖量化技術(shù),對落在每個時空塊中的軌跡集形成一個500-bin的直方 圖,用于統(tǒng)計該塊中各視覺詞語出現(xiàn)的頻率,由于有8個時空塊,所W最終生成一個500X8 = 4000維的特征向量,記為FVi來描述整段視頻序列中的所有軌跡。
[0025] 進(jìn)一步地,所述時空興趣點特征視頻序列的表示方法步驟如下:
[0026] C11:通過K-means算法對訓(xùn)練集特征空間的隨機子集進(jìn)行K-means聚類,構(gòu)造一個 規(guī)模為300的視覺詞典;
[0027] C12:將興趣點集映射到視覺詞典,給每個興趣點賦予視覺詞語,再通過量化將視 頻片段中的所有興趣點描述符綜合表示成300-bin的直方圖,即維度為300的特征向量,記 為 FV2。
[0028] 進(jìn)一步地,在步驟E中,選擇適應(yīng)特征融合的具體步驟如下:對于鏡頭靜止的視頻 片段,基于軌跡的描述符和基于興趣點的描述符均用于行為識別,構(gòu)成4300維的特征向量 為FV=[FV1,F(xiàn)V2],相反,如果檢測到攝像頭移動,只選擇軌跡描述符,即4000維的特征向 量FV = FVi,進(jìn)入行為識別階段。
[0029] 與現(xiàn)有技術(shù)相比,本發(fā)明具有W下優(yōu)勢:
[0030] (1)本發(fā)明采用基于軌跡相異度度量和R0I檢測的方法,有效地移除來自背景的特 征點軌跡,保留與待識別運動密切相關(guān)的軌跡。其中,R0I檢測方法是基于特征點軌跡分布 的統(tǒng)計學(xué)分析,不需要顯式的目標(biāo)檢測和跟蹤過程,并對攝像機靜止和移動情況下的視頻 片段都具有一定的魯棒性。
[0031] (2)本發(fā)明提出了選擇適應(yīng)特征融合方法,根據(jù)攝像頭的動靜情況,選擇性地對運 兩類描述符加 W組合。實驗證明,該方法可W顯著地提高算法的識別效果
【附圖說明】
[0032] 圖1為本發(fā)明一種自然場景視頻識別方法流程示意圖;
[0033] 圖2為本發(fā)明特征點軌跡示意圖;
[0034] 圖3為本發(fā)明軌跡剪除和R0I檢測結(jié)果示意圖;
[0035] 圖4為本發(fā)明基于詞袋模型的軌跡整體示意圖;
[0036] 圖5本發(fā)明人體行為識別方法的混淆矩陣示意圖。
【具體實施方式】
[0037] 本領(lǐng)域技術(shù)人員應(yīng)理解,W下實施例中所公開的技術(shù)代表本發(fā)明人發(fā)現(xiàn)的在本發(fā) 明的實踐中發(fā)揮良好作用的技術(shù)。然而,在所公開的具體實施方案中可W做出許多改變,并 仍然獲得相同或相似的結(jié)果,而不脫離本發(fā)明的精神和范圍。
[0038] 實施例1:本發(fā)明一種自然場景視頻識別方法的具體步驟
[0039 ]如圖1、2、3所示,本發(fā)明一種自然場景視頻識別方法實現(xiàn)的具體步驟為:
[0040] 1)通過特征點跟蹤產(chǎn)生候選的特征點軌跡,然后采用基于軌跡相異度度量和R0I 檢測的軌跡剪除方法,去除由特征點誤匹配或者背景變化而產(chǎn)生的軌跡,最后針對剪除后 的可靠軌跡計算和提取一系列對尺度、平移、旋轉(zhuǎn)等具有不變性的軌跡描述符;
[0041 ]其中,軌跡相異度度量的軌跡剪除方法步驟如下:
[0042] Al:假設(shè)存在N條W帖f為起點的軌跡:T={ti},i = l,…,N,對每條軌跡,定義一個 時間窗為5帖的軌跡段似·;',/,)佔川,乂-,1),托^,乂"),(式+3,乂+3)瓜^^^ 帖位移向重di -軸,如朵.,也},其中<^4. = "(4_。,_),燦->'y-+"_i>),k= 1,…,4;
[0043] A2:兩個軌跡位移向量di和dj的相異度計算為一個NXN的矩陣C,公式如下:
[0044]
[0045] A3:軌跡的相異度計算女
,運個值度量了長度為5帖的時間窗內(nèi),該軌跡 與所有其他W帖f為起點的軌跡之間的相異度;
[0046] A4:對帖f,計算一個自適應(yīng)闊
其中丫為常量,取值為1.3;然后移 除所有相異度小于的軌跡。
[0047] R0I檢測的軌跡剪除方法步驟如下:在軌跡相異度度量的條件約束下,假設(shè)帖f中 剩下化條可靠的軌跡,則可W通過對可靠軌跡上所有特征點的空間坐標(biāo)求均值,獲得R0I的 中
,.該尺寸則由W下式子給出:化=IsJlcZ, Dr = lyjlCn·, 其中Cxx和Cyy分別是特征點空間坐標(biāo)在X方向和y方向上的二階中屯、距,所有位于ROI之外的 軌跡都將被移除掉,另外,位移量極小甚至不動的軌跡也將被移除。
[004引2)采用基于帖間差分法結(jié)合多方向Gabor濾波的方法,對視頻序列進(jìn)行時空興趣 點檢測,再通過視頻立方塊提取和主成分分析特征降維方法,對興趣點提取局部時空描述 符;
[0049] 3)采用傳統(tǒng)的詞袋模型表示方法,將視頻序列表示為視覺詞語直方圖,包括軌跡 特征視頻序列和時空興趣點特征視頻序列;
[0050] 其中,如圖4所示,軌跡特征視頻序列的表示方法步驟如下:
[0051] C1:通過K-means算法對訓(xùn)練集中所有軌跡的整體描述子G進(jìn)行聚類,構(gòu)造一個規(guī) 模為500的視覺詞典;
[0052] C2:采用時空網(wǎng)格的方法來描述軌跡特征的分布,將整段視頻序列的R0I時空體劃 分為4個非重合的空間塊和2個部分重合的時間塊,重合量為視頻長度的1/3,即4X2 = 8個 塊;
[0053] C3:采用直方圖量化技術(shù),對落在每個時空塊中的軌跡集形成一個500-bin的直方 圖,用于統(tǒng)計該塊中各視覺詞語出現(xiàn)的頻率,由于有8個時空塊,所W最終生成一個500X8 =4000維的特征向量,記為FVi來描述整段視頻序列中的所有軌跡。
[0054] 時空興趣點特征視頻序列的表示方法步驟如下:
[005引 Cl 1:通過K-means算法對訓(xùn)練集特征空間的隨機子集進(jìn)行K-means聚類,構(gòu)造一個 規(guī)模為300的視覺詞典;
[0056] C12:將興趣點集映射到視覺詞典,給每個興趣點賦予視覺詞語,再通過量化將視 頻片段中的所有興趣點描述符綜合表示成300-bin的直方圖,即維度為300的特征向量,記 為 FV2。
[0057] 4)采用簡化的光流法對視頻片段中的所有帖計算整體光流,從而預(yù)測攝像頭的狀 態(tài);
[0058] 5)根據(jù)預(yù)測的結(jié)果,對基于軌跡的描述符和基于時空興趣點的描述符運兩者進(jìn)行 選擇性地融合,具體步驟為:對于鏡頭靜止的視頻片段,基于軌跡的描述符和基于興趣點的 描述符均用于行為識別,構(gòu)成4300維的特征向量為FV=[FV1,F(xiàn)V2],相反,如果檢測到攝像 頭移動,只選擇軌跡描述符,即4000維的特征向量FV = FVi,進(jìn)入行為識別階段。
[0059] 實施例2:本發(fā)明一種自然場景視頻識別方法的識別效果實驗
[0060] 1、實驗數(shù)據(jù)集:包括UCF體育運動數(shù)據(jù)集和化uTube數(shù)據(jù)集;
[0061 ] 2、實驗環(huán)境:Matlab 2008a平臺;
[0062] 3、實驗工具箱:Kanade-Lucas-Tomasi特征跟蹤器、VLFeat開源庫和Dollar行為識 別工具箱;
[0063] 4、實驗方法:每次實驗時,首先從樣本集中挑出一組同一行為者執(zhí)行的運動視頻 序列作為測試數(shù)據(jù),其余的序列作為訓(xùn)練數(shù)據(jù),重復(fù)運個過程,使得數(shù)據(jù)集中每組運動序列 都有一次被作為測試數(shù)據(jù),具體的,對于化uTube數(shù)據(jù)集,將其劃分為25個子集,其中24個子 集用作訓(xùn)練,剩下1個子集用于測試;對于UCF體育運動數(shù)據(jù)集,其中1個視頻片段用于測試, 其余用于訓(xùn)練。
[0064] 5、評價標(biāo)準(zhǔn):
[0065] (1)混淆矩陣:其公式為
,其中1,^'£{1,。',知},齡為運 動類別的數(shù)量,Ci為屬于類別i的視頻序列集,h(Vk)為序列Vk的預(yù)測類別。混淆矩陣?yán)飳?線上的值越大,分類效果越好;
[0066] (2)平均識別率:其公式為;
,其中|ν|是視頻序列的總 數(shù)
為正確分類的視頻序列數(shù)。
[0067] 6、實驗結(jié)果:
[0068] (1)如圖5所示,圖中表示使用本發(fā)明識別方法在UCF體育運動數(shù)據(jù)集和化uTube數(shù) 據(jù)集的混淆矩陣,從圖5可知,UCF體育運動數(shù)據(jù)集和化uTube數(shù)據(jù)集的混淆矩陣對角線上的 值都比較大,其中,在UCF體育運動數(shù)據(jù)集的分類效果更好。
[0069] (2)本發(fā)明識別方法在UCF體育運動數(shù)據(jù)集和化uTube數(shù)據(jù)集的平均識別率分別達(dá) 到85.90%和61.24%,取得了較好的識別效果,與現(xiàn)有的識別方法比較,具有顯著性的進(jìn) 步。
[0070] 上述實施例為本發(fā)明較佳的實施方式,但本發(fā)明的實施方式并不受上述實施例的 限制,其他的任何未背離本發(fā)明的精神實質(zhì)與原理下所作的改變、修飾、替代、組合、簡化, 均應(yīng)為等效的置換方式,都包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【主權(quán)項】
1. 一種自然場景視頻識別方法,其特征在于,包括W下步驟: A:生成特征點軌跡描述符:通過特征點跟蹤產(chǎn)生候選的特征點軌跡,然后采用基于軌 跡相異度度量和ROI檢測的軌跡剪除方法,去除由特征點誤匹配或者背景變化而產(chǎn)生的軌 跡,最后針對剪除后的可靠軌跡計算和提取一系列對尺度、平移、旋轉(zhuǎn)等具有不變性的軌跡 描述符; B:生成局部時空描述符:采用基于帖間差分法結(jié)合多方向Gabor濾波的方法,對視頻序 列進(jìn)行時空興趣點檢測,再通過視頻立方塊提取和主成分分析特征降維方法,對興趣點提 取局部時空描述符; C:詞袋模型表示視頻序列:采用傳統(tǒng)的詞袋模型表示方法,將視頻序列表示為視覺詞 語直方圖; D:預(yù)測攝像頭的狀態(tài):采用簡化的光流法對視頻片段中的所有帖計算整體光流,從而 預(yù)測攝像頭的狀態(tài); E:選擇適應(yīng)特征融合:根據(jù)預(yù)測的結(jié)果,對基于軌跡的描述符和基于時空興趣點的描 述符運兩者進(jìn)行選擇性地融合。2. 根據(jù)權(quán)利要求1所述的自然場景視頻識別方法,其特征在于,在步驟A中,軌跡相異度 度量的軌跡剪除方法步驟如下:Al:假設(shè)存在N條W帖f為起點的軌跡:T = {ti},i = 1,…,N,對每條軌跡,定義一個時間 窗為引 m及相鄰帖位 移向量 A2:兩個軌跡位移向量di和dj的相異度計算為一個NXN的矩陣C,公式如下:A3:軌跡的相異度計算3,運個值度量了長度為5帖的時間窗內(nèi),該軌跡與所 有其他W帖f為起點的軌跡之間的相異度; A4:對帖f,計算一個自適應(yīng)闊值其中丫為常量,取值為1.3;然后移除所 有相異度小于M占的軌跡。3. 根據(jù)權(quán)利要求1所述的自然場景視頻識別方法,其特征在于,在步驟A中,ROI檢測的 軌跡剪除方法步驟如下:在軌跡相異度度量的條件約束下,假設(shè)帖f中剩下化條可靠的軌 跡,則可W通過對可靠軌跡上所有特征點的空間坐標(biāo)求均值,獲得ROI的中屯、:,該尺寸則由W下式子給出:其中 Cxx和Cyy分別是特征點空間坐標(biāo)在X方向和y方向上的二階中屯、距,所有位于ROI之外的軌跡 都將被移除掉,另外,位移量極小甚至不動的軌跡也將被移除。4. 根據(jù)權(quán)利要求1所述的自然場景視頻識別方法,其特征在于,在步驟C中,詞袋模型表 示視頻序列包括軌跡特征視頻序列和時空興趣點特征視頻序列。5. 根據(jù)權(quán)利要求4所述的自然場景視頻識別方法,其特征在于,所述軌跡特征視頻序列 的表示方法步驟如下: Cl:通過K-means算法對訓(xùn)練集中所有軌跡的整體描述子G進(jìn)行聚類,構(gòu)造一個規(guī)模為 500的視覺詞典; C2:采用時空網(wǎng)格的方法來描述軌跡特征的分布,將整段視頻序列的ROI時空體劃分為 4個非重合的空間塊和2個部分重合的時間塊,重合量為視頻長度的1/3,即4 X 2 = 8個塊; C3:采用直方圖量化技術(shù),對落在每個時空塊中的軌跡集形成一個500-bin的直方圖, 用于統(tǒng)計該塊中各視覺詞語出現(xiàn)的頻率,由于有8個時空塊,所W最終生成一個500X8 = 4000維的特征向量,記為FVi來描述整段視頻序列中的所有軌跡。6. 根據(jù)權(quán)利要求4所述的自然場景視頻識別方法,其特征在于,所述時空興趣點特征視 頻序列的表示方法步驟如下: Cl 1:通過K-means算法對訓(xùn)練集特征空間的隨機子集進(jìn)行K-means聚類,構(gòu)造一個規(guī)模 為300的視覺詞典; C12:將興趣點集映射到視覺詞典,給每個興趣點賦予視覺詞語,再通過量化將視頻片 段中的所有興趣點描述符綜合表示成300-bin的直方圖,即維度為300的特征向量,記為 FV2。7. 根據(jù)權(quán)利要求1所述的自然場景視頻識別方法,其特征在于,在步驟E中,選擇適應(yīng)特 征融合的具體步驟如下:對于鏡頭靜止的視頻片段,基于軌跡的描述符和基于興趣點的描 述符均用于行為識別,構(gòu)成4300維的特征向量為FV=[FV1,F(xiàn)V2],相反,如果檢測到攝像頭 移動,只選擇軌跡描述符,即4000維的特征向量FV = FVi,進(jìn)入行為識別階段。
【文檔編號】G06K9/62GK105989358SQ201610040416
【公開日】2016年10月5日
【申請日】2016年1月21日
【發(fā)明人】衣楊, 關(guān)山, 周曉聰, 龍東陽, 陳弟虎
【申請人】中山大學(xué)