一種基于視頻尺度信息的視頻分類方法
【技術領域】
[0001] 本發(fā)明設及視頻處理領域,尤其是設及一種基于視頻尺度信息的視頻分類方法。
【背景技術】
[0002] 隨著科技的發(fā)展,越來越多的帶有攝像功能的電子設備進入大眾的家庭中,人們 常常使用手機或者數(shù)碼攝像機將身邊有趣的人或事及時記錄下來,上傳到在網(wǎng)絡中的視頻 分享網(wǎng)站或者直接發(fā)送給親朋好友互相分享。視頻分享網(wǎng)站每天都有數(shù)W萬計的視頻上 傳,因此自動化的管理就顯得較為重要,其中基于視頻特征向量的特征編碼算法是其中較 為重要的技術。
[0003] 基于視頻特征向量的特征編碼算法將特征向量與聚類中屯、的信息量如權重、均 值、方差等,有效地編碼進視頻描述向量中,從而在主流的人體動作檢測數(shù)據(jù)集中表現(xiàn)出了 不錯的結(jié)果。目前,該技術還存在W下問題:
[0004] 第一,只考慮了與特征向量與聚類中屯、的關系,而沒有考慮特征向量在視頻中所 處的位置信息W及尺度信息。
[000引第二,雖然現(xiàn)有算法識別率較高,但是由于缺少位置信息及尺度信息,未能在有限 的維度中發(fā)揮系統(tǒng)的識別能力。
[0006] 基于尺度信息的特征編碼算法是將空間尺度信息和時間尺度信息編碼進高斯混 合模型中,從而得到具有尺度信息的費舍爾向量。運種算法能夠更好的在有限維度中提升 系統(tǒng)的識別準確率。
【發(fā)明內(nèi)容】
[0007] 本發(fā)明的目的就是為了克服上述現(xiàn)有技術存在的缺陷而提供一種新的,魯棒性 好,準確度更高的基于視頻尺度信息的視頻分類方法。
[0008] 本發(fā)明的目的可W通過W下技術方案來實現(xiàn):
[0009] -種基于視頻尺度信息的特征編碼方法,包括步驟:
[0010] 1)將視頻數(shù)據(jù)集劃分為訓練數(shù)據(jù)和測試數(shù)據(jù),提取每個視頻的特征點W及特征點 的軌跡,并得到視頻的空間尺度W及時間尺度;
[0011] 2)使用基于軌跡使用描述算法,通過計算特征點鄰域的梯度直方圖向量、光流直 方圖向量、X分量運動邊界直方圖向量和y分量運動邊界直方圖向量,得到特征描述向量;
[0012] 3)使用PCA方法將每個視頻中的每個特征描述向量降維至原維度的一半;
[0013] 4)利用基于尺度空間的高斯混合模型對訓練數(shù)據(jù)中的特征描述向量進行聚類,再 生成視頻數(shù)據(jù)集中每一個視頻的費舍爾向量;
[0014] 5)使用訓練數(shù)據(jù)中得到的費舍爾向量,訓練得到線性支持向量機分類模型;
[0015] 6)使用線性支持向量機分類模型對測試數(shù)據(jù)中的視頻進行分類。
[0016] 所述步驟1)中特征點W及特征點的軌跡的提取過程具體包括步驟:
[0017] 11)提取視頻中的每一帖,W怎為縮放因子構(gòu)建空間金字塔作為尺度空間,設任 一尺度空間上當前帖為Icurrent,前一帖Icurrent-1,其中,所述空間金字塔的層數(shù)即為尺度空 間的個數(shù);
[0018] 12)提取出每一帖中的特征點;
[0019] 13)對于任一尺度空間,計算光流矩陣;
[0020] 14)在對應尺度空間上,計算從前一帖計算得到的特征點在當前帖中的位移之后 的位置:
[0021 ] Xcurrent ( X , y ) = Xcurrent-l ( X , y ) +W
[002引其中:Xcurrent ( X,y )為特征點在當前帖中的位置,Xcurrent-l ( X,y )為特征點在前一帖 中的位置,W為光流矩陣;
[0023] 15)在對應尺度空間上,通過稠密光流在15帖的時間范圍內(nèi)追蹤特征點的位置,W 此形成運動軌跡,并將該尺度空間在空間金字塔中的層序定義空間尺度0,特征點在15帖的 時間范圍內(nèi)運動的軌跡長度定義為時間尺度τ。
[0024] 所述步驟11)具體為:提取視頻中的每一帖,W VI為縮放因子,將視頻中每一帖的 長寬按照廣的倍數(shù)的比例進行大小縮放,得到相同長寬比,但大小不同的一組圖片,運組 圖片構(gòu)建空間金字塔作為尺度空間,設任一尺度空間上當前帖為Icurrent,前一帖Icurrent-l。
[0025] 所述步驟2)具體包括步驟:
[0026] 21似每一個特征點為中屯、,在灰度圖像矩陣的32 X 32 X 15像素區(qū)域內(nèi),計算該區(qū) 域的梯度直方圖向量,其維度為96維;
[0027] 22)在稠密光流矩陣的32X32X 15像素區(qū)域內(nèi),計算該區(qū)域的光流直方圖向量,其 維度為108維;
[0028] 23)使用Sobel算子計算光流矩陣X分量的梯度Mx和y分量的梯度My,W每一個特征 點為中屯、,在矩陣Mx和My的32X32X 15像素區(qū)域內(nèi),分別計算上述區(qū)域的X分量運動邊界直 方圖和y分量運動邊界直方圖向量,其維度分別為96維;
[0029] 24似每一個特征點為中屯、,在連續(xù)15帖的范圍內(nèi),將運個特征點的X方向和y方向 的位移連接起來,得到軌跡的特征描述向量,其維度為30維;
[0030] 25)用有符號平方根L1歸一化方法對上述特征描述向量進行歸一化操作。
[0031] 所述步驟4)具體包括步驟:
[0032] 41)構(gòu)建高斯混合模型:
[0033]
[0034] 其中:p(yt,s〇為高斯混合模型,叫為第i個針對特征描述向量的高斯分量的 權重,K為針對特征描述向量的高斯分量的數(shù)目,yt為第t個特征點對應的特征描述向量,μι 為的均值,Σι為巧^的協(xié)方差矩陣,、1為的高斯分量的第j個針對尺度信息的高斯 分量妃?的權重,St為第t個特征點對應的尺度信息Λι為P邊的均值,Zji為始4的協(xié)方差矩 陣,N( ·)為高斯密度函數(shù);
[0035] 42)對每一個高斯分量,計算其費舍爾向量值;
[0036]
[0037] 其中:FVi,F(xiàn)V2,F(xiàn)V3,F(xiàn)V4,F(xiàn)Vs,F(xiàn)Vs為費舍爾向量值,qi (t)為基于特征描述向量和 的后驗概率,rw(t)為基于尺度信息和的后驗概率,diag( ·)為向量的對角陣表達 式;
[003引 43)將向量FVi,F(xiàn)V2,F(xiàn)V3,F(xiàn)V4,F(xiàn)Vs,F(xiàn)V6在每一個高斯分量上進行串聯(lián),得到該視頻的 費舍爾向量,該向量的維度是2D+1+J(2T+1)化,其中T為尺度信息的維度。
[0039] 所述基于特征描述向量和piw的后驗概率具體為:
[0040]
[0041] 所述基于尺度信息和的后驗概率具體為:
[0042]
[0043] 與現(xiàn)有技術相比,本發(fā)明具有W下優(yōu)點:
[0044] 1)本方法通過修改高斯混合模型,使之能將尺度信息編碼進高斯混合模型中,并 通過計算費舍爾向量,將時空尺度信息編碼進視頻的描述向量中,與傳統(tǒng)方法相比,此方法 有更好的魯棒性;
[004引2)本發(fā)明的識別準確率優(yōu)于在化11 ywood2、HMDB51視頻數(shù)據(jù)集上的主流算法,并 且具有較高的計算效率。
【附圖說明】
[0046] 圖1為本發(fā)明的主要步驟流程示意圖;
[0047] 圖2為使用本方法進行訓練W及測試的結(jié)果示意圖。
【具體實施方式】
[0048] 下面結(jié)合附圖和具體實施例對本發(fā)明進行詳細說明。本實施例W本發(fā)明技術方案 為前提進行實施,給出了詳細的實施方式和具體的操作過程,但本發(fā)明的保護范圍不限于 下述的實施例。
[0049] -種基于視頻尺度信息的視頻分類方法,如圖1所示,包括步驟:
[0050] 1)將視頻數(shù)據(jù)集劃分為訓練數(shù)據(jù)和測試數(shù)據(jù),提取每個視頻的特征點W及特征點 的軌跡,并得到視頻的空間尺度W及時間尺度,其中特征點W及特征點的軌跡的提取過程 具體包括步驟:
[0051] 11)提取視頻中的每一帖,W 為縮放因子構(gòu)建空間金字塔作為尺度空間,設任 一尺度空間上當前帖為Icurrent,前一帖Icurrent-1,其中,空間金字塔的層數(shù)即為尺度空間的 個數(shù),具體為:提取視頻中的每一帖,W怎為縮放因子,將視頻中每一帖的長寬按照怎的倍 數(shù)的比例進行大小縮放,得到相同長寬比,但大小不同的一組圖片,運組圖片構(gòu)建空間金字 塔作為尺度空間,設任一尺度空間上當前帖為Icurrent,前一帖Icurrent-1;
[0052] 12)提取出每一帖中的特征點;
[0053] 13)對于任一尺度空間,計算光流矩陣;
[0054] 14)在對應尺度空間上,計算從前一帖計算得到的特征點在當前帖中的位移之后 的位置:
[00巧]Xcurrent ( X , y ) = Xcurrent-1 ( X , y ) +W
[0056] 其中:Xcurrent ( X,y )為特征點在當前帖中的位置,Xcurrent-l ( X,y )為特征點在前一帖 中的位置,W為光流矩陣;
[0057] 15)在對應尺度空間上,通過稠密光流在15帖的時間范圍內(nèi)追蹤特征點的位置,W 此形成運動軌跡,并將該尺度空間在空間金字塔中的層序定義空間尺度0,特征點在15帖的 時間范圍內(nèi)運動的軌跡長度定義為時間尺度τ,首先,軌跡(光流)的意思是,一個特征點在 連續(xù)15帖中運動的位置,把運些位置記錄下來即為軌跡,所W-條軌跡將對應15個特征點 (每帖之中有一個特征點對應),計算軌跡的時候,是根據(jù)第一個特征點的某個空間尺度進 行計算的。所W對于某一條軌跡的空間尺