專利名稱:基于運動特征的h.264壓縮域?qū)崟r視頻對象分割方法
技術(shù)領(lǐng)域:
本發(fā)明涉及到一種基于H.264壓縮域的視頻對象實時分割方法,壓縮域分割可免除 對壓縮視頻的完全解碼,僅通過熵解碼提取出的運動矢量用作分割所需的運動特征。此 外,與現(xiàn)有方法截然不同的是,本方法采用基于運動矢量場的幅度、散度和旋度三個運 動特征,再結(jié)合改進的統(tǒng)計區(qū)域生長方法將視頻序列中的不同對象進行分割,可比現(xiàn)有 的基于R264壓縮域的視頻對象分割方法計算量進一步降低。由于該方法只使用了運動 矢量場信息,因此它同樣可適用于基于光流場的運動對象分割。
技術(shù)背景以前的視頻對象分割的研究大多集中在象素域,近年來基于壓縮域的運動對象分割 開始受人關(guān)注。這不僅是因為當(dāng)前的大多數(shù)視頻序列已經(jīng)壓縮為某種格式,直接在此壓 縮域內(nèi)進行運動對象分割,可免除對壓縮視頻進行完全解碼;而且,在壓縮域內(nèi)處理的 數(shù)據(jù)量要比象素域少很多,可使計算量顯著減少;加之,從壓縮視頻中僅通過熵解碼提 取出的運動矢量和DCT系數(shù),可直接用作分割所需的運動特征和紋理特征。因此,從壓 縮域分割運動對象具有快速的特點,可解決傳統(tǒng)的象素域分割方法難于滿足實時性分割 的要求,從而可解決以往象素域分割因分割速度過慢而不能解決很多有實時性要求的應(yīng) 用場合。隨著越來越多的應(yīng)用都以新的編碼標(biāo)準(zhǔn)H.264取代MPEG-2,因此壓縮域的分割也開 始從MPEG壓縮域轉(zhuǎn)向H.264壓縮域。由于H.264壓縮域中I幀的DCT系數(shù)是在塊的空間預(yù) 測殘差上進行變換的,不能直接用作分割的紋理特征。因此,運動矢量是在R264壓縮 域進行視頻對象分割唯一可直接使用的特征。目前在H.264壓縮域,Zeng等首先提出一 種基于塊的MRF模型從稀疏運動矢量場中分割運動對象的方法,根據(jù)各個塊運動矢量的 幅值賦予各個塊不同類型的標(biāo)記,通過最大化MRF的后驗概率標(biāo)記出屬于運動對象的 塊。但是,這種方法分割的準(zhǔn)確度不高,計算量也較大。Liu等提出了基于匹配矩陣的 運動對象實時分割方法,首先通過運動矢量后向投影得到累積的運動矢量場,然后對累 積運動矢量場進行全局運動補償,同時采用快速的統(tǒng)計區(qū)域生長方法按照運動相似性將 其分割成多個區(qū)域。利用上述兩方面結(jié)果,采用基于匹配矩陣的運動對象分割方法分割 出運動對象。但是在這個方法中,有兩個方面的問題仍然未能很好的解決。 一是未能采 用有效的濾波方法將奇異的運動矢量濾除,同時保留運動矢量場的主要細節(jié)信息;二是 未能充分利用運動矢量場的特征來分割視頻運動對象。發(fā)明內(nèi)容本發(fā)明的目的在于針對已有技術(shù)存在的缺陷,提供一種基于運動特征的H. 264壓縮 域?qū)崟r視頻對象分割方法,分割所用的唯一信息是從H.264壓縮視頻中提取出的基于 4x4塊均勻采樣的運動矢量場。本方法比此前的H.264壓縮域視頻對象分割方法在計算 量上更為減少,以充分達到實時運動對象分割的目的。為達到上述的目的,本發(fā)明的構(gòu)思是如圖1所示,從輸入的H.264壓縮視頻流提取運動矢量并歸一化,然后進行加權(quán)中 值濾波去除奇異的運動矢量?;谶\動矢量場的三個運動特征幅度、散度和旋度,采用 改進的統(tǒng)計區(qū)域生長方法將運動對象分割出來?;谏鲜鰳?gòu)思,本發(fā)明的技術(shù)方案是-一種基于運動特征的H.264壓縮域?qū)崟r視頻對象分割方法,其特征在于對運動矢量 場進行空域歸一化,獲得歸一化運動矢量場;再對歸一化的運動矢量場進行加權(quán)中值濾 波,去除奇異的運動矢量。然后基于運動矢量場的幅度、散度和旋度三個運動特征,采 用改進的統(tǒng)計區(qū)域生長方法按照運動特征的相似性將其分割成多個對象。其步驟是a. 運動矢量場歸一化從H.264視頻中提取出運動矢量場并進行空域上的歸一化;b. 加權(quán)中值濾波將濾波窗口內(nèi)的所有運動矢量乘以加權(quán)系數(shù),再對這些運動矢量 進行中值濾波;C.基于運動矢量場幅度、散度和旋度的對象分割基于幅度、散度和旋度三個運動 特征,采用改進的統(tǒng)計區(qū)域生長方法將濾波后的運動矢量場分割成多個具有相似運動特 征的對象。上述中的運動矢量場歸一化的步驟是-將凡尺寸大于4x4的各個宏塊運動矢量直接賦給該宏塊所覆蓋的所有4x4塊,實 現(xiàn)空域歸一化。上述中的加權(quán)中值濾波的步驟是(1) 計算iVxJV窗口內(nèi)所有運動矢量的平均運動矢量;(2) 計算iVx7V窗口內(nèi)每個運動矢量與平均運動矢量的相關(guān)系數(shù),并以此作為加權(quán)系數(shù);(3) 將7VxiV窗口內(nèi)的所有運動矢量乘以加權(quán)系數(shù),再進行中值濾波。 上述中的基于運動矢量場幅度、散度和旋度的對象分割的步驟是基于幅度、散度和旋度三個運動特征,采用改進的統(tǒng)計區(qū)域生長方法將濾波后的運 動矢量場分割成多個具有相似運動特征的對象,詳細步驟如下(1) 計算運動矢量場的三個運動特征幅度M、散度D和旋度C,即(M,A。;(2) 將(M,D,Q映射到紅R、綠G、藍B顏色空間,艮P(i ,G,5)顏色空間;(3) 計算以四鄰域連接的相鄰塊組的運動特征差異性度量;(4) 按照運動特征差異性度量從小到大的次序進行排序;(5) 將運動特征差異性度量最小的相鄰塊組合并,以此處開始區(qū)域生長過程。在每次區(qū)域生長時,當(dāng)前兩個塊組分別屬于相鄰的兩個區(qū)域,是否將這兩個區(qū) 域進行合并的判斷準(zhǔn)則是這兩個區(qū)域的平均運動特征之差是否小于兩個區(qū)域的邊界函數(shù)之和。若是,則合并;若否,則不合并;(6) 將面積小于整個運動矢量場0.5%的區(qū)域合并到其相鄰的區(qū)域;(7) 以分割結(jié)果直方圖中運動矢量最小的區(qū)域?qū)?yīng)的灰度值作為閾值將分割結(jié) 果二值化,得到運動對象的掩模。本發(fā)明與現(xiàn)有技術(shù)相比較,具有如下的突出特點和優(yōu)點本發(fā)明不僅適用于H.264 壓縮域,同樣適用于光流場的分割。本發(fā)明提出的基于運動特征的實時視頻對象分割方 法,將運動矢量場的主要特征作為分割要素,這有別于其它分割方法將運動矢量場分解 為兩個標(biāo)量場處理,從而提高了分割的準(zhǔn)確度,分割效果較好。本方法的處理速度達到 每幀15ms,比現(xiàn)有的所有方法都快速,足以滿足大多數(shù)實時處理的要求,因此具有很 強的實用性。
圖1是本發(fā)明的基于運動特征的11.264壓縮域?qū)崟r視頻對象分割方法的程序框圖。 圖2是圖1中加權(quán)中值濾波的結(jié)構(gòu)框圖。圖3是圖1中基于運動矢量場幅度、散度和旋度的對象分割的結(jié)構(gòu)框圖。 圖4是對序列Erik中各個典型幀(第18、 31、 45幀)運動對象分割結(jié)果的圖示。 圖5是對序列Children中各個典型幀(第32、 42、 62幀)運動對象分割結(jié)果的圖示。
具體實施方式
本發(fā)明的一個實施例子結(jié)合附圖詳述如下本發(fā)明基于運動特征的H.264壓縮域?qū)崟r視頻對象分割方法是按圖1所示程序框 圖,在CPU為雙核2.0GHz、內(nèi)存900M的PC測試平臺上編程實現(xiàn),圖4和圖5給出 了仿真測試結(jié)果。參見圖l,本發(fā)明基于運動特征的H.264壓縮域?qū)崟r視頻對象分割方法,首先對運 動矢量場進行空域歸一化,再對歸一化的運動矢量場進行加權(quán)中值濾波,然后基于運動 矢量場的幅度、散度和旋度三個運動特征,采用改進的統(tǒng)計區(qū)域生長方法按照運動特征 相似性將其分割成多個對象。本發(fā)明提出的方法具有算法簡單,對象分割速度快,分割 效果好的特點。其步驟是(1) 運動矢量場歸一化從H.264視頻中提取出運動矢量場并進行空域上歸一化;(2) 加權(quán)中值濾波將濾波窗口內(nèi)的所有運動矢量乘以加權(quán)系數(shù),再對這些運動 矢量進行中值濾波;(3) 基于運動矢量場幅度、散度和旋度的對象分割基于幅度、散度和旋度三個 運動特征,采用改進的統(tǒng)計區(qū)域生長方法將濾波后的運動矢量場分割成多個 具有相似運動特征的對象。上述步驟(1)的運動矢量場歸一化的過程如下將凡尺寸大于4X4的各個宏塊運動矢量直接賦給該宏塊所覆蓋的所有4X4塊,實 現(xiàn)空域歸一化。上述步驟(2)的加權(quán)中值濾波的過程如下-① 計算3x3窗口內(nèi)所有運動矢量的平均運動矢量;② 計算3x3窗口內(nèi)每個運動矢量與平均運動矢量的相關(guān)系數(shù),并以此作為加權(quán)系 數(shù);③ 將3x3窗口內(nèi)的所有運動矢量乘以加權(quán)系數(shù),再進行中值濾波。上述步驟(3)的基于運動矢量場幅度、散度和旋度的對象分割的過程如下① 計算運動矢量場的三個運動特征幅度、散度和旋度,gP{M,AC};② 將{M,D,C}映射到(R,G,B}顏色空間;③ 計算以四鄰域連接的相鄰塊組的運動特征差異性度量; 按照運動特征差異性度量從小到大的次序排序;⑤將運動特征差異性度量最小的相鄰塊組合并,以此處開始區(qū)域生長過程。在每 次區(qū)域生長時,當(dāng)前兩個塊組分別屬于相鄰的兩個區(qū)域,是否將這兩個區(qū)域進 行合并的判斷準(zhǔn)則是這兩個區(qū)域的平均運動特征之差是否小于兩個區(qū)域的邊界函數(shù)之和:< ^(i 。) + ,6), V; e {M, D, C},其中為區(qū)域邊界函數(shù)。若小于則合并,否則不合并; 將面積小于整個運動矢量場0.5%的區(qū)域合并到其相鄰的區(qū)域; ⑦以分割結(jié)果直方圖中運動矢量最小的區(qū)域?qū)?yīng)的灰度值作為閾值將分割結(jié)果二值化,得到運動對象的掩模。下面對本實施例子結(jié)合總框圖(圖l)的三個步驟給予進一步詳細說明(1) 運動矢量場歸一化將凡尺寸大于4X4的各個宏塊運動矢量直接賦給該宏塊所覆蓋的所有4X4塊,實 現(xiàn)空域歸一化。(2) 加權(quán)中值濾波如圖2所示,對運動矢量場進行加權(quán)中值濾波首先要計算出加權(quán)系數(shù),然后各個運 動矢量乘以加權(quán)系數(shù),再進行中值濾波。① 計算3x3窗口內(nèi)的所有運動矢量的平均運動矢量1 3x3M 3x3臺② 計算3x3窗口內(nèi)每個運動矢量與平均運動矢量的相關(guān)系數(shù),并以此作為加權(quán)系 數(shù)③將3x3窗口內(nèi)的所有運動矢量乘以加權(quán)系數(shù),再進行中值濾波3x3(3)基于運動矢量場幅度、散度和旋度的對象分割 如圖3所示,基于幅度、散度和旋度三個運動特征,采用改進的統(tǒng)計區(qū)域生長方法 實現(xiàn)對濾波后的運動矢量場的對象分割。步驟詳述如下①計算運動矢量場的三個運動特征幅度,散度和旋度,即(M,AC〉5x其中,化W ^由Sobel算子計算;& 5_y Ss② 將(M,AQ映射到(i ,G,^顏色空間,就是將(M,Z),C)的取值范圍映射到以0 255為亮度階的(i ,G,用顏色空間;③ 計算以四鄰域連接的相鄰塊組的運動特征差異性度量; 按照運動特征差異性度量從小到大的次序進行排序;⑤將運動特征差異性度量最小的相鄰塊組合并,以此處開始區(qū)域生長過程。在每 次區(qū)域生長時,當(dāng)前兩個塊組分別屬于相鄰的兩個區(qū)域,是否將這兩個區(qū)域進行 合并的判斷準(zhǔn)則是這兩個區(qū)域的平均運動特征之差是否小于兩個區(qū)域的邊界函數(shù)之和W《< ,。)+ ^ ), V; e {M, A Q ,其中邊界函數(shù)外)定義為:3(i ) = i: ;^^(min(丄,間)log(l + li l) + 21og61/1),其中g(shù)表示量化參數(shù),用來控制運動矢量場的分割程度,丄表示亮度階,li l表示區(qū)域包含的運動矢量數(shù)目,|/|表示圖像幀運動矢量場的大小。若小于則合并,否則不合并; 將面積小于整個運動矢量場0.5%的區(qū)域合并到其相鄰的區(qū)域;⑦以分割結(jié)果直方圖中運動矢量最小的區(qū)域?qū)?yīng)的灰度值作為閾值將分割結(jié)果二 值化,得到運動對象的掩模。以下給出輸入視頻格式為352x288的CIF時的實例,采用JM8.6版本的H.264編 碼器對MPEG-4標(biāo)準(zhǔn)測試序列進行編碼,作為測試用的H.264壓縮視頻。H.264編碼器 的配置如下Baseline Profile, IPPP,每30幀插入1個I幀,1個參考幀,運動估計的 搜索范圍為[-16,16],量化參數(shù)為30。采用典型的標(biāo)準(zhǔn)測試序列Erik和Children作為輸入視頻進行測試,實驗結(jié)果分別如圖4和圖5所示。兩圖中第l列為當(dāng)前幀的原始圖象,第2列為當(dāng)前幀由基于運動特征分割所 得的對象分割結(jié)果,第3列為將對象分割結(jié)果作為掩模疊加到原始圖像而得到的結(jié)果。 從圖4和圖5的第三列可以直觀的看出分割的效果,采用本發(fā)明提出的分割方法能夠?qū)⑦\ 動物體從場景中分割出來,而且很好的描述了物體的基本形狀特征。在分割實驗中,平 均每幀的處理時間為15ms,足以滿足大多數(shù)實時應(yīng)用30fps的要求。實驗l:序列Erik為典型的頭肩序列,序列中人物的頭部和身體均有明顯的運動。圖 4第1行(序列第18幀)為人物自右向左移動,圖4第2行(序列第31幀)為人物自左向右 移動,圖4第3行(序列第45幀)為人物的頭部自右向左快速移動。由圖4第3列圖象可以 看出,對運動矢量場的分割結(jié)果能夠比較準(zhǔn)確地分割出運動對象所在的區(qū)域,而且分割 的物體邊緣能夠比較好的描述原始圖像中人物的邊緣,從而反映出原始圖像中人物的主 要形狀特征。因此本發(fā)明采取的對運動矢量場的加權(quán)中值濾波以及基于運動特征的分割 方法是有效的,能夠利用運動矢量信息獲得一個適度分割的結(jié)果。實驗2:序列Children具有更復(fù)雜的運動,除了兩個兒童的各種平移運動和其它不 規(guī)則運動外,還有皮球的拋物線運動。而且在該序列中,皮球時而停止,時而獨自運動, 時而被兒童抱住一起運動,因此運動對象分割的難度很大。圖5第1行(序列第32幀) 場景中兩個兒童無顯著的運動,但是皮球在作拋物線的運動,在分割結(jié)果中較好的將運 動中的皮球分割出來。圖5第2行(序列第42幀)場景中兒童蹲下來要撿皮球,但是 還沒有接觸到皮球,在分割結(jié)果中很好的將兒童分割出來,未將皮球包括在分割結(jié)果中。 由圖5第3行(序列第62幀)還可以看出此時兒童已經(jīng)抱住皮球準(zhǔn)備拿起來,在分割 結(jié)果中較好的將皮球與兒童都分割出來。圖5的分割結(jié)果說明本發(fā)明的運動對象分割方 法能夠很好的處理運動對象的分離和結(jié)合,再次證明本發(fā)明提出的方法適用于具有復(fù)雜 運動特征的視頻序列的對象分割。
權(quán)利要求
1.一種基于運動特征的H.264壓縮域?qū)崟r視頻對象分割方法,其特征在于先對運動矢量場歸一化,再對歸一化的運動矢量場進行加權(quán)中值濾波,基于運動矢量場的幅度、散度和旋度三個運動特征,采用改進的統(tǒng)計區(qū)域生長方法按照運動特征相似性將其分割成多個對象;其步驟如下a.運動矢量場歸一化從H.264視頻中提取出運動矢量場并進行空域上的歸一化;b.加權(quán)中值濾波將濾波窗口內(nèi)的所有運動矢量乘以加權(quán)系數(shù),再對這些運動矢量進行中值濾波;c.基于運動矢量場幅度、散度和旋度的對象分割基于幅度、散度和旋度三個運動特征,采用改進的統(tǒng)計區(qū)域生長方法將濾波后的運動矢量場分割成多個具有相似運動特征的對象。
2. 根據(jù)權(quán)利要求1所述的基于運動特征的H.264壓縮域?qū)崟r視頻對象分割方法,其特 征在于所述的運動矢量場歸一化的步驟是:將凡是尺寸大于4X4的各個宏塊運動矢 量直接賦給該宏塊所覆蓋的所有4X4塊,實現(xiàn)空域歸一化。
3. 根據(jù)權(quán)利要求1所述的基于運動特征的H.264壓縮域?qū)崟r視頻對象分割方法,其特 征在于所述的加權(quán)中值濾波的步驟是(1)計算iVxiV窗口內(nèi)所有運動矢量的平均 運動矢量;(2)計算7VxJV窗口內(nèi)每個運動矢量與平均運動矢量的相關(guān)系數(shù),并以 此作為加權(quán)系數(shù);(3)將iVxiV窗口內(nèi)的所有運動矢量乘以加權(quán)系數(shù),再進行中值 濾波。
4. 根據(jù)權(quán)利要求l所述的基于運動特征的H.264壓縮域?qū)崟r視頻對象分割方法,其特 征在于所述的基于運動矢量場幅度、散度和旋度的對象分割,是基于幅度、散度和 旋度三個運動特征,采用改進的統(tǒng)計區(qū)域生長方法將濾波后的運動矢量場分割成多 個具有相似運動特征的對象;步驟如下(1) 計算運動矢量場的三個運動特征幅度、散度和旋度,即(M,AC》;(2) 將(M,AQ映射到(i ,G,^顏色空間;(3) 計算以四鄰域連接的相鄰塊組的運動特征差異性度量;(4) 按照運動特征差異性度量從小到大的次序進行排序;(5) 將運動特征差異性度量最小的相鄰塊組合并,以此處開始區(qū)域生長過程;在 每次區(qū)域生長時,當(dāng)前兩個塊組分別屬于相鄰的兩個區(qū)域,是否將這兩個區(qū)域進行合并 的判斷準(zhǔn)則是這兩個區(qū)域的平均運動特征之差是否小于兩個區(qū)域的邊界函數(shù)之和。若 是,則合并;若否,則不合并;(6) 將面積小于整個運動矢量場0.5%的區(qū)域合并到其相鄰的區(qū)域;(7) 以分割結(jié)果直方圖中運動矢量最小的區(qū)域?qū)?yīng)的灰度值作為閾值將分割結(jié)果 二值化,得到運動對象的掩模。
全文摘要
本發(fā)明涉及一種基于運動特征的H.264壓縮域?qū)崟r視頻對象分割方法。本方法是在對運動矢量場進行空域歸一化后,再對歸一化的運動矢量場進行加權(quán)中值濾波,然后基于運動矢量場的幅度、散度和旋度三個運動特征,采用改進的統(tǒng)計區(qū)域生長方法按照運動特征相似性將其分割成多個對象。經(jīng)MPEG-4測試序列的實驗結(jié)果表明,在一臺CPU為雙核2.0GHz,內(nèi)存為900M的計算機上處理CIF格式的視頻序列,平均每幀的處理時間為15ms,足以滿足大多數(shù)實時應(yīng)用30fps的要求,而且具有良好的分割質(zhì)量。鑒于本發(fā)明提出的方法僅使用了運動矢量場信息,因此它也可適用于光流場的運動對象分割。
文檔編號G06T7/20GK101237581SQ200810034100
公開日2008年8月6日 申請日期2008年2月29日 優(yōu)先權(quán)日2008年2月29日
發(fā)明者志 劉, 張兆楊, 宇 陸 申請人:上海大學(xué)