一種基于空間約束編碼的視頻目標跟蹤方法
【專利摘要】本發(fā)明屬于圖像處理【技術(shù)領(lǐng)域】,具體公開了一種基于空間約束編碼的視頻目標跟蹤方法,主要改善了視頻目標跟蹤過程中特征提取精度不高、應(yīng)用范圍不夠廣泛的現(xiàn)象。其實現(xiàn)過程主要是:1)獲取正、負樣本;2)計算搜索窗內(nèi)像素SIFT特征;3)計算樣本編碼;4)計算樣本像素的LLC編碼值;5)訓(xùn)練分類器得到新的碼本和分類器。本發(fā)明具有較強的視頻目標跟蹤能力,在特征提取時可以更加充分利用圖像信息,精確描述像素信息,從而提取到準確圖像特征,獲得更高目標跟蹤能力,正確跟蹤目標。
【專利說明】一種基于空間約束編碼的視頻目標跟蹤方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于圖像處理【技術(shù)領(lǐng)域】,涉及視頻目標跟蹤方法,具體是一種基于空間約 束編碼(SCC)的視頻目標跟蹤方法,可應(yīng)用于視頻圖像目標的跟蹤和識別等領(lǐng)域,是圖像 后續(xù)更高層次分析、處理的基礎(chǔ)。
【背景技術(shù)】
[0002] 目標跟蹤是計算機視覺的一個重要問題,它的主要目的就是在視頻圖像的每一幅 圖像中確定出我們感興趣的運動目標的位置,并把不同幀中同一目標對應(yīng)起來。視頻目標 跟蹤主要涉及到圖像處理、計算機視覺、模式識別、人工智能等方面的科學知識,它的用途 非常廣泛,在民用和軍事領(lǐng)域中都有著極大的應(yīng)用前景,如安全監(jiān)控,人機交互,醫(yī)學成像 等。
[0003] 盡管目標跟蹤發(fā)展至今已經(jīng)有了階段性的進展,但是由于待跟蹤目標在動態(tài)場景 下的運動過程中出現(xiàn)的姿勢變化、光照變化、障礙物遮擋及運動模糊等因素,這一過程變得 更加復(fù)雜。
[0004] 根據(jù)目標跟蹤的要求和原理,對待測樣本圖像塊的特征提取是非常關(guān)鍵的一 步。關(guān)于對目標圖像塊的特征提取,許多方法已經(jīng)被提出。由Jinjun Wang等人在 Locality-constrained Linear Coding for Image Classification,Computer Vision and Pattern Recognition, (2010),pp 3360 - 3367這篇論文中提出了一種局部約束線性編碼 (LLC)方法。該方法改進了稀疏表示的目標式,把特征和每個碼字的距離作為重新確定對信 號重構(gòu)時編碼參數(shù)的方式,有效得獲得了更好的局部光滑稀疏性,獲得了對特征更好的重 建效果。采取這種特征提取方式處理后的目標也得到了較好的跟蹤效果。
[0005] 但是,僅僅將特征與每個碼字的距離作為特征提取的約束項過于簡單,適用性不 夠廣泛。在面對某些視頻序列里出現(xiàn)的短時間內(nèi)位移極大的姿勢變化、迅速的光照變化、相 近障礙物遮擋及較大的運動模糊等復(fù)雜情況時,目標跟蹤的效果會有所影響,甚至無法正 常跟蹤到目標。因此,上述方法沒有充分利用到待檢測樣本的圖像信息,對某些特定情況下 的目標跟蹤精度和準確率有待提1?。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明的目的在于針對上述已有技術(shù)的不足,提供一種基于空間約束編碼的視頻 目標跟蹤方法,包括如下步驟:
[0007] (1)輸入視頻圖像序列的第1幀,若該幀為灰度圖,則直接進行步驟(2),如果該幀 為1幅RGB圖像,將其處理為256級灰度圖;
[0008] (2)對該幅256級灰度圖,分別在目標窗周圍取正樣本和負樣本,正樣本和負樣本 個數(shù)均為49個;
[0009] (3)以目標為基準,分別向上下擴充圖像寬度的四分之一,向左右擴充圖像長度的 四分之一,作為搜索窗,對該幀圖像搜索窗內(nèi)的像素點分別計算其SIFT特征;
[0010] (4)利用搜索窗內(nèi)像素點的SIFT特征,得到初始的字典碼本BO ;
[0011] (5)利用步驟(4)得到的初始的字典碼本B0,分別計算49個正樣本和49個負樣 本中每個像素點的LLC編碼值,其中約束項采用目標像素點周圍8個相鄰點與目標像素點 的距離及該8個像素點的灰度值分別加權(quán)后求和;
[0012] (6)利用步驟(5)得到的LLC編碼值,對分類器進行訓(xùn)練,得到初始分類器 modelO ;
[0013] (7)輸入視頻序列圖像的第2幀,如果該幀為1幅RGB圖像,將其處理為256級灰 度圖;
[0014] (8)對該幅256級灰度圖,以第1幀對初始目標取得正樣本和負樣本的點作為樣本 左上角點坐標并采取同樣寬、高,進行取樣,獲得49+49 = 98個樣本,稱為檢測樣本;
[0015] (9)分別計算98個檢測樣本各自區(qū)域內(nèi)像素點的SIFT特征,;
[0016] (10)利用步驟(9)得到的98個檢測樣本各自區(qū)域內(nèi)像素點的SIFT特征和步驟 (4)得到的初始的字典碼本BO分別計算98個檢測樣本中每個像素點的LLC編碼值,其中約 束項采用目標像素點周圍8個相鄰點與目標像素點的距離及該8個像素點的灰度值分別加 權(quán)后求和;
[0017] (11)利用預(yù)測函數(shù)找到最符合第1幀目標位置的一個樣本左上角點坐標,則認為 該樣本為第2幀追蹤到的第1幀目標的本幀位置,并框出其位置;
[0018] (12)以步驟(11)得到的追蹤目標位置作為第2幀的目標真實坐標位置,重復(fù)步驟 (2),取得正樣本和負樣本各49個;
[0019] (13)重復(fù)步驟(3),得到第2幀搜索窗內(nèi)像素點的SIFT特征;
[0020] (14)利用步驟(13)得到的SIFT特征,對初始的字典碼本BO進行更新,得到更新 后的字典碼本B' ;
[0021] (15)以步驟(12)得到的正樣本和負樣本各49個和步驟(14)得到的更新后字典 碼本B'分別計算49個正樣本和49個負樣本中每個像素點的LLC編碼值,其中約束項采用 目標像素點周圍8個相鄰點與目標像素點的距離及該8個像素點的灰度值分別加權(quán)后求 和;
[0022] (16)利用步驟(14)得到的更新后字典碼本B'及訓(xùn)練函數(shù)對步驟(6)得到的初始 分類器modelO,若幀數(shù)t > 2,則對前一幀的分類器modelO進行更新,得到更新后的分類器 model?;
[0023] (17)按幀序號增加的方式讀取步驟(16)的下一幀視頻圖像,重復(fù)從步驟(7)到步 驟(16)這10個步驟,直至視頻圖像序列最后1幀。
[0024] 上述步驟(2)所述的在目標窗周圍取正樣本和負樣本,通過如下步驟進行:
[0025] 2a)以目標左上角點坐標分別向上下左右移動3個像素的位置,并分別以這 (3+1+3)*(3+1+3) = 49個點為左上角坐標建立正樣本,樣本塊的寬、高與目標塊一致;
[0026] 2b)分別設(shè)置內(nèi)半徑rin和外半徑rout,在以目標左上角點坐標為圓心,以rin為 半徑的圓外,rout為半徑的圓內(nèi)的環(huán)形區(qū)域內(nèi)隨機尋找與正樣本個數(shù)相同的49個點并以 之作為左上角坐標建立負樣本,樣本塊的寬、高與目標塊一致。
[0027] 對上述步驟(3)中所述的幀圖像搜索窗內(nèi)的像素點分別計算其SIFT特征,按照如 下公式進行計算:
[0028] 提取SIFT特征時,先找出圖片塊內(nèi)每個關(guān)鍵點的梯度模值m(x,y)和方向H(x,y), 其中(x,y)表示關(guān)鍵點的坐標,橫坐標用X表示,縱坐標用y表示,這兩個值由:
【權(quán)利要求】
1. 一種基于空間約束編碼的視頻目標跟蹤方法,其特征在于:包括以下步驟: (1) 輸入視頻圖像序列的第1幀,若該幀為灰度圖,則直接進行步驟(2),如果該幀為1 幅RGB圖像,將其處理為256級灰度圖; (2) 對該幅256級灰度圖,分別在目標窗周圍取正樣本和負樣本,正樣本和負樣本個數(shù) 均為49個; (3) 以目標為基準,分別向上下擴充圖像寬度的四分之一,向左右擴充圖像長度的四分 之一,作為搜索窗,對該幀圖像搜索窗內(nèi)的像素點分別計算其SIFT特征; (4) 利用搜索窗內(nèi)像素點的SIFT特征,得到初始的字典碼本BO; (5) 利用步驟(4)得到的初始的字典碼本B0,分別計算49個正樣本和49個負樣本中 每個像素點的LLC編碼值,其中約束項采用目標像素點周圍8個相鄰點與目標像素點的距 離及該8個像素點的灰度值分別加權(quán)后求和; (6) 利用步驟(5)得到的LLC編碼值,對分類器進行訓(xùn)練,得到初始分類器modelO; (7) 輸入視頻序列圖像的第2幀,如果該幀為1幅RGB圖像,將其處理為256級灰度圖; (8) 對該幅256級灰度圖,以第1巾貞對初始目標取得正樣本和負樣本的點作為樣本左上 角點坐標并采取同樣寬、高,進行取樣,獲得49+49 = 98個樣本,稱為檢測樣本; (9) 分別計算98個檢測樣本各自區(qū)域內(nèi)像素點的SIFT特征,; (10) 利用步驟(9)得到的98個檢測樣本各自區(qū)域內(nèi)像素點的SIFT特征和步驟(4)得 到的初始的字典碼本BO分別計算98個檢測樣本中每個像素點的LLC編碼值,其中約束項 采用目標像素點周圍8個相鄰點與目標像素點的距離及該8個像素點的灰度值分別加權(quán)后 求和; (11) 利用預(yù)測函數(shù)找到最符合第1幀目標位置的一個樣本左上角點坐標,則認為該樣 本為第2幀追蹤到的第1幀目標的本幀位置,并框出其位置; (12) 以步驟(11)得到的追蹤目標位置作為第2幀的目標真實坐標位置,重復(fù)步驟 (2),取得正樣本和負樣本各49個; (13) 重復(fù)步驟(3),得到第2幀搜索窗內(nèi)像素點的SIFT特征; (14) 利用步驟(13)得到的SIFT特征,對初始的字典碼本BO進行更新,得到更新后的 字典碼本B' ; (15) 以步驟(12)得到的正樣本和負樣本各49個和步驟(14)得到的更新后字典碼本B'分別計算49個正樣本和49個負樣本中每個像素點的LLC編碼值,其中約束項采用目標 像素點周圍8個相鄰點與目標像素點的距離及該8個像素點的灰度值分別加權(quán)后求和; (16) 利用步驟(14)得到的更新后字典碼本B'及訓(xùn)練函數(shù)對步驟(6)得到的初始分 類器modelO,若幀數(shù)t> 2,則對前一幀的分類器modelO進行更新,得到更新后的分類器 model?; (17) 按幀序號增加的方式讀取步驟(16)的下一幀視頻圖像,重復(fù)從步驟(7)到步驟 (16)這10個步驟,直至視頻圖像序列最后1幀。
2. 根據(jù)權(quán)利要求1所述的一種基于空間約束編碼的視頻目標跟蹤方法,其特征在于: 其中步驟(2)所述的在目標窗周圍取正樣本和負樣本,通過如下步驟進行: 2a)以目標左上角點坐標分別向上下左右移動3個像素的位置,并分別以這(3+1+3)*(3+1+3)=49個點為左上角坐標建立正樣本,樣本塊的寬、高與目標塊一致; 2b)分別設(shè)置內(nèi)半徑rin和外半徑rout,在以目標左上角點坐標為圓心,以rin為半徑 的圓外,rout為半徑的圓內(nèi)的環(huán)形區(qū)域內(nèi)隨機尋找與正樣本個數(shù)相同的49個點并以之作 為左上角坐標建立負樣本,樣本塊的寬、高與目標塊一致。
3. 根據(jù)權(quán)利要求1所述的一種基于空間約束編碼的視頻目標跟蹤方法,其特征在于: 對步驟(3)中所述的幀圖像搜索窗內(nèi)的像素點分別計算其SIFT特征,按照如下公式進行計 算: 提取SIFT特征時,先找出圖片塊內(nèi)每個關(guān)鍵點的梯度模值m(x,y)和方向H(x,y),其 中(X,y)表示關(guān)鍵點的坐標,橫坐標用X表示,縱坐標用y表示,這兩個值由:
J J f 兩式求出,式中:?/ν(χ^ y) ^ ^(χ+ l,y)- /.-(χ-1, y) j/,, (χ, y)=人(χ, y+1)-人(χ, y- I) 其中,f(*,*)函數(shù)為傅里葉尺度函數(shù),l(*,*)函數(shù)為拉普拉斯尺度函數(shù), 以關(guān)鍵點為中心的鄰域窗口內(nèi)采用高斯函數(shù)給每個點不同的權(quán)重,越靠近關(guān)鍵點權(quán)重 越大,經(jīng)采樣并用直方圖統(tǒng)計鄰域像素的梯度方向,取峰值為關(guān)鍵點主方向; 以關(guān)鍵點為中心取16*16個窗口,將窗口分為4*4個子區(qū)域,每個區(qū)域通過直方圖統(tǒng)計8個方向,共產(chǎn)生4*4*8=128個特征信息的特征向量,它與圖像坐標、尺度信息、模值大小、 方向組合在一起即為一個特征點的SIFT特征向量。
4. 根據(jù)權(quán)利要求1所述的一種基于空間約束編碼的視頻目標跟蹤方法,其特征在于: 其中步驟(5)所述的得到初始的字典碼本Btl,通過如下步驟進行; 設(shè)碼本大小為n,由SIFT特征中隨機選取η個點的值,即由所有SIFT特征向量組成的 矩陣的其中η行,由于每個值都包含128個特征信息,因此聚類中心為η*128,分別計算鄰域 窗口內(nèi)除去這η個點外的其他所有點與這η個聚類中心的歐氏距離,將每一次計算所涉及 的這個點聚類到與其歐式距離最短的點中,最后得到初始的字典碼本Btl;經(jīng)過預(yù)先設(shè)定好 的更新代數(shù)i次循環(huán),每次都會動態(tài)更新碼本的這η個值,保持碼本B的準確度。
5. 根據(jù)權(quán)利要求1所述的一種基于空間約束編碼的視頻目標跟蹤方法,其特征在于: 其中步驟(5)所述的計算49個正樣本和49個負樣本中每個像素點的LLC編碼值,通過如 下公式進行: 針對視頻序列第1幀中樣本里特征點i的LLC編碼目標式為:
其中,X為該特征點的SIFT特征,C為該特征點的LLC編碼值,Ci為特征點i的LLC編 碼值,B是初始碼本,N表示該巾貞中特征點總個數(shù)。
6. 根據(jù)權(quán)利要求1所述的一種基于空間約束編碼的視頻目標跟蹤方法,其特征在于: 其中步驟(6)所述的得到初始分類器modelO,通過如下步驟進行: 使用C型分類器,在步驟(5)得到的LLC編碼值中選取一個能夠?qū)?8個編碼完全分成 兩類的斜線的斜率《,從而得到初始分類器。
7. 根據(jù)權(quán)利要求1所述的一種基于空間約束編碼的視頻目標跟蹤方法,其特征在于: 其中步驟(10)所述的分別計算98個檢測樣本中每個像素點的LLC編碼值,按照以下公式 進行: 當t> 2時,針對視頻序列第t幀中樣本里特征點i的LLC編碼目標式為:
其中,CT1為第t-Ι幀中特征點i的LLC編碼值,(^為特征點i的近鄰像素j與i的歐 氏距離,fj為特征點i的近鄰像素j與i的灰度值之差,je[1,8],為特征點i相鄰的8個 像素點的編碼,具體編號方式為:點i左上角點為點1,依次逆時針編號從2至8 ; λ、α、β均為權(quán)重值,分另Ij為λ= 〇.〇2,α= 〇.〇1,β= 0.87,其中,λ為對 LLC編碼目標式中第二個約束項j 4乙JjIl2的加權(quán),λ值越 IΣ尖 ΣΙ-J Vd 大,該項對編碼值的影響越大,α為第二約束項中相對位置加權(quán)編碼部分% ,;的 Σα? 加權(quán),λ值越大,該項對整個約束項Ii
Il2的影響越大, VCt 1 f β為第二約束項中灰度差值加權(quán)編碼的加權(quán),λ值越大,該項對整個約束項
\ Il2的影響越大。 /
8. 根據(jù)權(quán)利要求1所述的一種基于空間約束編碼的視頻目標跟蹤方法,其特征在于: 其中步驟(14)所述的對初始的字典碼本BO進行更新,得到更新后的字典碼本Β',通過如下 公式進行: 更新過程分為兩步:
1. 計算利用步驟(13)得到的SIFT特征時得到的碼本Β,過程與步驟(4)相同;
2. 得到B后,Β' =α·Β+(1_α) ·Β。,其中α是對于B和Btl的控制參數(shù),α=0.85。
【文檔編號】G06T7/20GK104240269SQ201410493741
【公開日】2014年12月24日 申請日期:2014年9月24日 優(yōu)先權(quán)日:2014年9月24日
【發(fā)明者】田小林, 焦李成, 趙凡迪, 劉紅英, 熊濤, 楊淑媛 申請人:西安電子科技大學