一種三維視頻目標跟蹤方法
【技術領域】
[0001] 本發(fā)明涉及一種視頻信號的處理方法,尤其是涉及一種三維視頻目標跟蹤方法。
【背景技術】
[0002] 在人類視覺接收與信息處理中,由于大腦資源有限以及外界環(huán)境信息重要性區(qū) 另IJ,因此在處理過程中人腦對外界環(huán)境信息并不是一視同仁的,而是表現(xiàn)出選擇特征。人們 在觀看圖像或者視頻片段時注意力并非均勻分布到圖像的每個區(qū)域,而是對某些顯著區(qū)域 關注度更高。如何將視頻中視覺注意度高的顯著區(qū)域檢測并提取出來、如何對目標區(qū)域進 行跟蹤是計算機視覺領域的一個重要的研宄內容。
[0003] 在視頻目標跟蹤方法中,通常需要提取反映視頻運動的視頻顯著語義信息。目前, 通常采用視頻分割、光流法、運動估計等方法來提取視頻顯著區(qū)域,然而這些方法并不能很 好地應用于三維視頻。針對三維視頻目標跟蹤,一方面,需要提取能夠反映三維語義的視覺 顯著信息;另一方面,因計算能力局限,不能在跟蹤過程中進行復雜的特征匹配操作而要保 持較高的跟蹤精度。因此,如何提取符合三維視頻顯著語義特征且保持較高跟蹤精度,是三 維視頻目標跟蹤需要研宄解決的問題。
【發(fā)明內容】
[0004] 本發(fā)明所要解決的技術問題是提供一種符合三維視頻顯著語義特征,且具有較高 跟蹤精度的三維視頻目標跟蹤方法。
[0005] 本發(fā)明解決上述技術問題所采用的技術方案為:一種三維視頻目標跟蹤方法,其 特征在于包括以下步驟:
[0006] ①將待處理的原始三維視頻序列定義為當前視頻序列,假定當前視頻序列中包含 的彩色圖像的總幀數和包含的深度圖像的總幀數均為T,其中,T>1 ;
[0007] ②將當前視頻序列中的前P幀彩色圖像及前P幀彩色圖像各自對應的深度圖像按 序構成訓練圖像集,其中,1 < P〈T ;
[0008] ③獲取訓練圖像集的所有聚類中心、所有聚類半徑以及所有聚類各自的置信值, 將訓練圖像集的第m個聚類中心、第m個聚類半徑以及第m個聚類的置信值對應記為gm、rm、 巧,其中,m的初始值為1,1彡m彡K,K表示訓練圖像集的聚類的總個數,K彡1 ;
[0009] ④手工標記當前視頻序列中的第1幀彩色圖像的目標區(qū)域,該目標區(qū)域包含場景 中最主要的運動對象;然后將當前視頻序列中當前待處理的第t幀彩色圖像定義為當前彩 色圖像,記為It;并將當前視頻序列中與I 3寸應的深度圖像定義為當前深度圖像,記為D t;其中,t的初始值為2, 2彡t彡T ;
[0010] ⑤采用超像素分割技術將It分割成M個互不重疊的區(qū)域;然后根據訓練圖像集的 最優(yōu)聚類中心、最優(yōu)聚類半徑以及最優(yōu)聚類的置信值,計算It中的每個區(qū)域的顯著值;再將 It中的每個區(qū)域的顯著值作為該區(qū)域中的所有像素點的顯著值,從而得到I ,的顯著圖,記 為St;其中,M彡1 ;
[0011] ⑥根據St獲取11的目標區(qū)域,記為N丨,
其中,Ni表示 It中與當前視頻序列中的第t-ι幀彩色圖像I t_i的目標區(qū)域的尺寸大小相同且形狀相同的 任一個區(qū)域,Ω:、.表示It中與當前視頻序列中的第t-ι幀彩色圖像I t_i的目標區(qū)域的尺寸 大小相同且形狀相同的所有區(qū)域的集合,St (X,y)表示St中坐標位置為(X,y)的像素點的像 素值,I < X < W,I < y < H,W表示當前視頻序列中的彩色圖像和深度圖像的寬,H表示當前 視頻序列中的彩色圖像和深度圖像的高,符號" I I "為取絕對值符號:
表示取使得
的值最大的一個區(qū)域Ni;
[0012] ⑦如果滿足t彡P,則直接執(zhí)行步驟⑧;如果滿足t>P,則將IjP D t加入到訓練圖 像集中,并刪除訓練圖像集中的第1幀彩色圖像和第1幀深度圖像,得到更新后的訓練圖像 集,然后采用與步驟③相同的操作,獲取更新后的訓練圖像集的所有聚類中心、所有聚類半 徑以及所有聚類各自的置信值,再執(zhí)行步驟⑧;
[0013] ⑧令t = t+Ι ;然后將當前視頻序列中的第t幀彩色圖像作為當前彩色圖像,記為 It;并將當前視頻序列中與I 3寸應的深度圖像定義為當前深度圖像,記為Dt;再返回步驟⑤ 繼續(xù)執(zhí)行,直至當前視頻序列中的所有彩色圖像和深度圖像處理完畢,得到當前視頻序列 中的每幀彩色圖像的目標區(qū)域;其中,t = t+Ι中的"="為賦值符號。
[0014] 所述的步驟③的具體過程為:
[0015] ③-1、手工標記訓練圖像集中的第1幀彩色圖像I1的目標區(qū)域,記為包含 場景中最主要的運動對象;
[0016] ③-2、將訓練圖像集中當前待處理的第t'幀彩色圖像定義為當前彩色圖像,記為 It,;并將訓練圖像集中與11,對應的深度圖像定義為當前深度圖像,記為D t,;其中,在此t' 的初始值為2,2彡t'彡P ;
[0017] ③-3、在It,中確定一個圓形搜索區(qū)域,圓形搜索區(qū)域的中心像素點的坐標位置與 的中心像素點的坐標位置相同,且圓形搜索區(qū)域的半徑為1〇個像素點;然后在圓形搜 索區(qū)域上搜索與Μ。匹配的最佳匹配區(qū)域,將與K^1匹配的最佳匹配區(qū)域作為it,的目標區(qū) 域,記為<,,
其中,R^1表示訓練圖像集中的第 t' -1幀彩色圖像ItM的目標區(qū)域,表示在圓形搜索區(qū)域上與匹配的任一個匹配區(qū) ±或,IRi,的中心像素點為圓形搜索區(qū)域上的任一個像素點,且Mi,的尺寸大小與的尺寸 大小相同,R,.的形狀與的形狀相同,表示在圓形搜索區(qū)域上與R).4匹配的所有匹 配區(qū)域的集合,1彡X彡W,1彡y彡Η,1彡X'彡W,1彡y'彡H,W表示當前視頻序列中的 彩色圖像和深度圖像的寬,H表示當前視頻序列中的彩色圖像和深度圖像的高,符號"| |" 為取絕對值符號,ItM(x,y)表示訓練圖像集中的第t'-l幀彩色圖像ItM中坐標位置為 (X,y)的像素點的像素值,It,(X',y')表示It,中坐標位置為(X',y')的像素點的像素值,
表示取使得
的值最小的一個 匹配區(qū)域Ki,;
[0018] ③-4、令t' =t'+l ;然后將訓練圖像集中的第t'幀彩色圖像作為當前彩色圖像, 記為It,;并將訓練圖像集中與I t,對應的深度圖像作為當前深度圖像,記為D t,;再返回步驟 ③-3繼續(xù)執(zhí)行,直至獲得訓練圖像集中的每幀彩色圖像的目標區(qū)域;其中,t' = t'+1中的 "="為賦值符號;
[0019] ③-5、采用超像素分割技術將訓練圖像集中的每幀彩色圖像分割成M個互不重 疊的區(qū)域,將It,中的第h個區(qū)域記為SP t,,h;然后計算訓練圖像集中的每幀彩色圖像中的 每個區(qū)域的特征矢量,將SPt,,h的特征矢量記為f t,,h;其中,M多1,在此t'的初始值為1, 1彡t'彡P,h的初始值為1,1彡h彡M ;
[0020] ③-6、將由訓練圖像集中的所有彩色圖像中的區(qū)域的特征矢量構成的集合定義為 特征矢量集合;然后采用Mean-shift聚類方法對特征矢量集合進行聚類操作,得到特征矢 量集合的K個聚類,同時得到特征矢量集合的每個聚類中心和每個聚類半徑,將特征矢量 集合的第m個聚類作為訓練圖像集的第m個聚類,將特征矢量集合的第m個聚類中心作為 訓練圖像集的第m個聚類中心gm,將特征矢量集合的第m個聚類半徑作為訓練圖像集的第 m個聚類半徑rm;接著將訓練圖像集中的所有彩色圖像中屬于同一聚類的區(qū)域歸為一類,將 訓練圖像集中的所有彩色圖像中屬于第m個聚類的區(qū)域構成的集合記為Zm ;其中,K表示特 征矢量集合包含的聚類的總個數,K彡1,m的初始值為1,1彡m彡K ;
[0021] ③-7、計算訓練圖像集的每個聚類的置信值,訓練圖像集的第m個聚類的置信值 為
,其中,如果滿足〇, _y) e肢:,且(X, ) e Zm ,則令f(X,_y) = 1;如 果滿足(iv) g < 且(x,_y) e ,則令= -1。
[0022] 所述的步驟③_5中SPt,,h的特征矢量f t,,h的獲取過程為:
[0023] al、對SPt,,h中的每個像素點的R分量的顏色值、G分量的顏色值和B分量的 顏色值分別進行量化,對應得到SPt,,h中的每個像素點的量化后的R分量的顏色值、量 化后的G分量的顏色值和量化后的B分量的顏色值,將SPt,,h中坐標位置為(X t,,h,yt,,h) 的像素點的量化后的R分量的顏色值、量化后的G分量的顏色值和量化后的B分量的 顏色值對應記為瓦λ(χλλ,Λ,.,,)、心(~,~)和瓦,假設SP t,,h中坐標位置 為(xt,,h,yt,,J的像素點在11,中的坐標位置為(X,y),則L (?,~)=lA(x,.v)八6」, G1,"(Xt,,,,yt,j,) = (x, v)/16J , Bt,J1 (xt,h, V1,,,) -(x,y)/16J ;