專利名稱:基于時空域的運動感知模型提取方法
技術領域:
本發(fā)明涉及了一種基于時空域的運動感知模型提取方法,將多種數(shù)據(jù)處理方法融 合到提取人眼關注的視頻運動對象上,特別是在分析運動矢量的基礎上融入了視頻空間域 圖像分割方法,大大改善了運動感知模型。
背景技術:
運動感知模型的建立已成為視頻處理技術中的研究熱點。視頻是圖像在連續(xù)時間 上的組合,連續(xù)圖像所產(chǎn)生的運動現(xiàn)象使視頻運動對象的提取具有一定的現(xiàn)實意義。視頻 中的運動對象是人們觀看時最為關注的部分,因此建立一種良好的運動感知模型是廣大研 究人員關注的重點。視頻對象的檢測和分割是建立運動感知模型的前提和基礎,其中視頻對象檢測是 在視頻圖像中找出區(qū)別于背景區(qū)域的運動前景部分,而視頻對象分割是將所檢測到的運動 前景部分從背景中完整的分離出來。作為視頻處理領域的一個經(jīng)典問題,目前已有大量的 研究文獻。根據(jù)視頻數(shù)據(jù)是否為壓縮形式,可將分割算法分為壓縮域分割和非壓縮域分割。 按是否需要人工參與分割過程,可分為自動方式和半自動方式。根據(jù)分割過程中所利用信 息的不同,可分為時域分割和時空域聯(lián)合分割。雖然已提出了很多分割算法,并有著不同的分割步驟,但是基本的分割策略都大 致相同。分割算法的一般步驟包括對視頻數(shù)據(jù)的分析,確定待分割區(qū)域和不同的分割方法。 由于視頻對象本身內容復雜,同時人工智能技術的現(xiàn)狀決定了當前計算機仍然不具有人的 觀察、識別、理解圖像的能力。目前還不存在一種通用、有效的分割方法。當前視頻分割算 法的研究趨勢是尋找更好的聯(lián)合時域信息和時空域信息分割方法。鑒于此,本方法在利用視頻壓縮域信息提取運動模型的基礎上,融入了視頻空間 域的信息及配套的處理方法。這種空間域和時間域視頻處理方法的融合使最終提取的運動 感知模型具有更理想的效果。
發(fā)明內容
本發(fā)明的目的是針對已有技術存在的缺陷,提供一種基于時空域的運動感知模型 提取方法,改進運動感知對象的提取效果,得到一種更加理想的運動感知模型。該模型可以 用于改善視頻編碼算法,通過降低非運動感知部分的編碼比特數(shù)來提高運動感知部分的編 碼碼率。為達到上述的目的,本發(fā)明的構思是如圖1所示,首先利用預處理后的運動矢量 建立運動圖,然后依據(jù)多個顯著性參數(shù)篩選出最受人眼關注的運動對象,獲得運動模型;同 時利用視頻圖像亮度信息進行圖像分割得到空間域分割模型,并結合以上兩模型得到基于 時空域的運動感知模型。圖1中運動矢量預處理和邊緣判定過程如下(1)感知運動對象篩選方法通過運動矢量熵值計算得到的運動矢量圖中同時存 在多個運動對象,但并非所有運動對象都是人眼所關注的。我們利用運動對象的位置信息和所占像素點的比率設定一個顯著性系數(shù),依據(jù)顯著性系數(shù)的大小篩選最受關注的運動對象。(2)邊緣判定方法由于利用運動矢量得到的運動模型和空間域分割模型都是以 連通區(qū)域為基本單位;運動模型標示出了運動對象所占區(qū)域的位置信息;分割模型標示出 不同紋理區(qū)域所組成的連通塊。因此我們利用運動區(qū)域所占不同紋理區(qū)域個數(shù)的比列來確 定哪些紋理區(qū)域包含于所要提取的運動對象內,找出這一聯(lián)通顯著運動對象區(qū)域所占經(jīng)平 滑分塊圖像中的區(qū)域種類,并統(tǒng)計出分塊圖像中第i個區(qū)域所占圖像像素點的個數(shù)Nall⑴ 和顯著聯(lián)通區(qū)域所占第i個區(qū)域的像素點個數(shù)Nabje。t⑴;定義0bjKeg(i)來標示運動對象所 占的分塊區(qū)域,定義見式(1)。
(1) 其中£1和e2為兩個區(qū)分是否為運動對象所占區(qū)域的閾值,h定為3,e2定為 0. 5 ;通過以上方法找出運動模型和分割模型中的區(qū)域交集,并得到最終的運動感知模型。首先預處理運動矢量并獲方向信息,后續(xù)所有關于運動矢量熵值處理都是基于運 動矢量的方向。再將運動矢量方向值分成兩路輸入,一路輸入空間域的相關性熵值計算,另 一路輸入時間域的相關性熵值計算,并依據(jù)一定原理綜合以上兩種相關性熵,得到運動矢 量圖。最后利用自適應閾值選擇方法劃分運動關注對象和非運動關注對象區(qū)域以建立相應 的運動模型。信息熵可用于度量信息量的大小,系統(tǒng)越是有序,信息熵就越低;系統(tǒng)越是混亂, 信息熵就越高。由于鏡頭移動會導致視頻中背景也具有運動矢量,故為了正確描述視頻圖 像中的運動狀況,我們引入了運動矢量的信息熵。運動矢量的信息熵可以分成時間域熵值 和空間域熵值。所謂時間域熵值,是不同幀圖像中的運動矢量的一致性程度;空間域熵值是 當前矢量空間上相鄰運動矢量的一致性程度。我們通過分析運動矢量方向的時間域和空間 域熵值來提取運動模型,具體可分成以下幾個方面完成(1)預處理運動矢量首先對原始的運動矢量數(shù)據(jù)進行3X3大小的均值濾波器掩 模處理,平滑運動矢量圖中的獨立噪點,實現(xiàn)運動矢量圖在空間上的去燥。然后對每幀及其 前后兩幀的運動矢量圖進行算術平均,可在時間上去燥,并彌補當前幀的零運動矢量狀況。(2)運動矢量方向的獲得我們通過矢量公式獲得運動矢量的方向信息,假設預 處理后的第n幀第(i,j)宏塊的運動矢量為PV(i,j) = (Xu^yu,」),則運動矢量方向獲 取公式如下0njijJ = arctan(ynjijJ/xnjijJ) (2)(3)計算空間相關性熵值由于空間相關性熵值取決于每個宏塊及其周圍的數(shù) 值,因此我們通過計算空間相關性概率分布得到,如公式(3)和公式(4)所示,其中(i,j) 表示當前運動矢量的位置,Cs()表示運動矢量的空間信息量,&是直方圖SH的相應概率分 配函數(shù),m為直方圖空間大小。W表示Nx N的窗口尺寸。要求對每幀的每個運動矢量都計 算他們的信息量。
(4)計算時間相關性熵值運動矢量時間相關性熵值則取決于當前宏塊和前L/2 幀、后L/2幀之間的宏塊的數(shù)值。計算公式如(5)和式(6)。其中,(i,j)表示當前運動矢 量的位置,Ct表示運動矢量的空間信息量,Pt是直方圖TH的相應概率分配函數(shù),m為直方 圖空間大小。L表示時間軸上相關幀數(shù)。要求對每幀的每個運動矢量都計算他們的信息量。
(5)運動矢量圖的結合首先歸一化相位空間和時間熵值至
,得到空間域和 時間域運動矢量熵值矩陣圖cs和Ct。Ct(i,j)和Cs(i,j)對應矩陣中的任意點,然后比較 任意點的熵值的大小若空間域的值大于時間域的值,則該點判定為空間域的值,反之則取 時間域的值,如式(7)所示。式中Cts(i,j)為結合后的運動矢量熵值圖中的任意點。
(6)自適應熵值選擇以上方法得到的熵值圖,其中的對象比較模糊,也會受到噪 聲的影響,所以通過設定對象和背景之間的閾值分割熵值圖。我們采用基于最大信息量自 適應選擇閾值的方法,得到運動矢量分割圖。基于視頻圖像空間域的分割模型建立過程如圖3所示,其關鍵步驟如下(1)Mean-shift算法平滑圖像Mean-shift算法對圖像具有平滑作用,可去除圖 像中的紋理細節(jié)。而該算法和一般的模糊算法又有所不同,其在平滑圖像紋理信息時保留 了圖像邊緣信息。我們利用Mean-shift算法平滑視頻圖像的亮度分量,并選取高斯函數(shù)作 為Mean-shift算法的核函數(shù),公式如下G(x) = 丨e丨2(8)(2)利用區(qū)域生長法獲得分塊圖像在Mean-shift算法平滑后的圖像上選取任一 像素點,以此為起點不斷往外搜尋與其有近似特性的點,并將他們歸為一類。當結束一片區(qū) 域的生長后,再次選取未被歸類的像素點重復以上步驟直至完成所有像素點的合并工作。(3)歸并分塊區(qū)域找出分割圖中包含像素個數(shù)小于閾值T的分割區(qū)域,由于這些 區(qū)域形狀都是無規(guī)則的,因此與其相鄰的區(qū)域往往會超過四個。本方法只關注當前小區(qū)域 的最上、最下、最左和最右的臨接區(qū)域,將他們作為歸并目標。首先通過當前待歸并區(qū)域所 在位置找出四個相鄰區(qū)域,然后計算這四個區(qū)域亮度和當前區(qū)域亮度的差值,取亮度差值 最小的區(qū)域作為最終的目標歸并區(qū)域,將該區(qū)域的編號和均值賦給待歸并區(qū)域。按以上方 法循環(huán)處理圖像中的待歸并區(qū)域,直到所有區(qū)域像素點個數(shù)都大于閾值T。根據(jù)上述理論,本發(fā)明的過程為以下幾個步驟
(1)利用運動矢量得到運動模型,其過程是①對編碼過程中產(chǎn)生的運動矢量進行3X3均值濾波器掩模處理;②設第n幀第(i,j)個宏塊的運動矢量為PV(i,j) = (XnjijJ, yy,」),將該宏塊的 運動矢量默認為宏塊內每一個像素點的運動矢量,該矢量的方向為(^㈩;e^i.j = arctan(ynjijJ/xnjijJ)③計算當前像素點及其周圍八個點的運動矢量值的概率直方圖分布函數(shù) SH。(n)
為由當前像素點及其周圍八個點的運動矢量的方向值 /二1
所組成的直方圖,m為直方圖空間大小,w表示N*N的搜索窗口尺寸;依據(jù)所得的概率分布
情況計算每一個像素點的運動矢量值的空間相關性熵值
中,Cs()表示運動矢量的空間信息熵,Ps是直方圖SH0的相應概率分布函數(shù);④計算當前像素點的運動矢量值及其前后三幀的相同位置上像素點的運動矢量
值的概率直方圖分布函數(shù)
其中 ()為由當前像素點及其前后三幀相應
’
位置像素點的運動矢量方向值en^所組成的直方圖,pt是直方圖TH0的相應概率分布函 數(shù),m為直方圖空間大小,L表示時間軸上的相關幀數(shù);并按下式計算每一個像素點運動矢
量方向的時間相關性熵值
表示運動矢量的時間信息
熵;⑤將上一步得到的空間和時間熵值圖歸一化至W,l],得到的空間域和時間域運 動矢量熵值矩陣圖Cs,Ct。Ct(i,j), Cs(i, j)對應矩陣中的任意點,然后比較任意點的熵 值的大小若空間域的值大于時間域的值,則此點為空間域的值,反之則取時間域的值。最 后利用下式綜合時間和空間信息,得到最終的時空信息熵值。式中Cts(i,j)為結合后的運 動矢量熵值圖中的任意點。 ⑥令一幀圖像中最小的時空信息熵值為Min[f (x,y)],用信息等級0來表示,令最 大時空信息熵值為Max[f (x,y)],用信息等級1-1表示,R = {0,1. . .,1-1}表示信息等級的 集合;定義Np(p G R)為信息等級為p時的像素點數(shù)量,即具有相同信息熵值的像素點數(shù)目;
對于閾值t e R,需要在0等級到1-1等級內找出其中某一級所對應的時空信息熵值作為閾
、
值t,并根據(jù)閾值t進行自適應劃分,即低于閾值的信息熵為
高于閾值的信息熵為
;其中閾值
在得到閾
值t后,可以按以下規(guī)則提取運動區(qū)域即當像素點的時空信息熵值大于閾值t時,即該像 素點處在運動區(qū)域,否則處在非運動區(qū)域。(2)篩選運動感知對象,其過程是①定義了一個運動對象顯著系數(shù),篩選最為人眼所關注的運動對象。定義如下
Q (J') = 0 Locationa Motion (J'); 其中a (j)為通過計算后得到的第j個運動對象的運動顯著性系數(shù),a location(j) 為第j個運動對象聯(lián)通區(qū)域中心到圖像中心的距離的倒數(shù),(x。mtCT(j),y。mtCT(j))為第j 個運動對象的聯(lián)通區(qū)域的中心位置坐標。(Xpi?!?。6ntCT,ypie_center)為圖像的中心點的坐標。 a Motion(j)為第j個運動對象的運動顯著系數(shù),分子為第j個運動對象所占宏塊的運動矢量 的模的平均值,分母為當前這一幀圖像中所有宏塊的運動矢量模的平均值;②在得到各運動對象的顯著性系數(shù)后,對這些系數(shù)進行排序,找出顯著性系數(shù)最 大的運動對象。并確定此運動對象為后續(xù)精確分割的對象;(3)利用空間域亮度信息得到視頻分割模型,其過程如下①提取視頻圖像中的亮度分量Y (n,i,j),利用mean-shift算法平滑亮度分量。設 x為待平滑的初始點,可按下式計算該點的均值偏移向量mk(x),當||mh(X)_X|| < e時結 束當前點的均值偏移運算,將得到的偏移值賦給當前像素點,并進行下一點的偏移計算,直 至完成所有像素點的計算;
②利用區(qū)域生長法分割mean-shift算法處理后的圖像,得到視頻圖像初始分割 圖,該圖中每個分割區(qū)域都為聯(lián)通區(qū)域,且包含一定數(shù)量的像素點。③利用區(qū)域歸并法處理初始分割圖,進一步提升分割效果找出包含像素個數(shù)小 于閾值T的分割區(qū)域,根據(jù)實驗結果,閾值T取50。同時設定四個坐標(Xl,yi),(\,y山(xu, yu)和(xd,yd),分別存放當前區(qū)域最左、左右、最上和最下邊的像素點坐標值。在確定四個 目標歸并區(qū)域的坐標初始點后,分別計算四個目標區(qū)域亮度Lregi。n⑴、Lregi。n(2)、Lregion(3) 和LMgi。n(4)與待歸并的干擾區(qū)域亮度差值。然后取亮度差值最小的區(qū)域作為歸并區(qū)域,將 該區(qū)域的編號和均值賦給待歸并區(qū)域。(4)提取最終的運動感知模型,邊緣判定法得到最終運動感知模型的過程如下①利用區(qū)域生長法定位根據(jù)3)所得到的顯著性最強的運動對象的位置信息;
②找出這一運動對象在空間域分割圖像中所在區(qū)域,并統(tǒng)計出分塊圖像中第i 個區(qū)域所占圖像像素點的個數(shù)Nall(i)以及顯著聯(lián)通區(qū)域所占第i個區(qū)域的像素點個數(shù)
Nobject(i);③依據(jù)得到的平滑分塊圖和最顯著運動對象區(qū)域圖以及在第四步中得到的兩個 統(tǒng)計系數(shù)值Nall(i)和N。_。t⑴提取出運動感知對象,實現(xiàn)運動感知模型的建立。我們定義 0bjEeg(i)來標記運動對象所占的分塊區(qū)域,定義見下式
(3-17) 其中£1和e2為兩個區(qū)分是否為運動對象所占區(qū)域的閾值,定為3,e2定為 0. 5。根據(jù)上述發(fā)明構思,本發(fā)明采用下述技術方案一種基于時空域的運動感知模型提取方法,其特征在于具體的步驟如下(1)輸入視頻編碼幀;(2)建立運動模型計算運動矢量空間域和時間域熵值,得到時間域和空間域運 動模型,并綜合兩種模型得到初始運動模型;(3)篩選感知運動對象通過綜合分析運動模型中多個運動對象的位置和所占像 素點數(shù)來提取人眼最關注的運動對象;(4)建立空間域分割模型利用視頻圖像亮度信息進行Mean-shift和區(qū)域生長法 得到空間域分割圖像,以此建立空間域分割模型;(5)利用邊緣判定方法結合運動模型和空間域分割模型得到最終的時空域運動感 知模型。上述步驟(2)中建立上述步驟(3)中篩選感知上述步驟(4)中的建立空間上述步驟(5)中的空間域與以往的運動感知模型相比,本方法能夠精確地提取出運動對象。綜合了空間域 視頻分割效果和運動矢量熵值提取,使最終的運動感知模型能很好地放映人們觀看視頻時 所關注的對象。
圖1是本發(fā)明的基于時空域運動感知模型提取方法原理流程框圖。圖2是圖1中建立運動模型的結構框圖。圖3是圖1中建立空間域分割模型的結構框圖。圖4是JM10. 2校驗模型中輸入mother-daughter序列所得到的某一幀的運動矢 量圖和運動模型圖。圖5是JM10. 2校驗模型中輸入mother-daughter序列所得到的某一幀的 Mean-shift平滑圖和空間域分割模型圖。圖6是JM10. 2校驗模型中輸入mother-daughter序列所得到的某一幀的空間域分割模型圖和運動感知模型圖。圖7是本發(fā)明采用的方法具體操作程序框圖。
具體實施例方式本發(fā)明的優(yōu)選實施例子結合附圖的詳述說明如下實施例一本發(fā)明基于時空域運動感知模型提取方法是按圖1所示程序框圖,在 CPU為Athlon x22. 0GHz、內存1024M的PC測試平臺上編程實現(xiàn),圖6為JM10. 2校驗模型 上輸入mother-daughter序列所得到的某一幀運動感知模型圖。參見圖1,本發(fā)明基于時空域運動感知模型提取方法,通過分析編碼過程中所產(chǎn)生 的運動矢量,提取初始運動模型。同時利用空間域的亮度信息獲得視頻圖像分割模型。在 以上兩個模型的基礎上,利用邊緣判定原理獲得最終的運動感知模型。通過此方法獲得的 運動感知模型綜合了空間域和時間域的特性,更符合人眼感看視頻時的特性。參見圖7其具體操作步驟是(1)輸入視頻幀;(2)建立運動模型利用運動矢量進行空間域和時間域熵值計算,得到時間域和 空間域運動模型,并綜合兩種模型得到初始運動模型;(3)通過分析運動模型中運動對象的位置和所占像素點數(shù)來篩選運動感知對象;(4)建立空間域分割模型;利用視頻圖像亮度信息進行Mean-shift和區(qū)域生長 法,得到空間域分割圖像,建立空間域分割模型;(5)利用邊緣判定法融合運動模型和空間域分割模型,獲得最終的運動感知模型。實施例二 本實施例與實施例一基本相同,特別之處如下上述步驟(2)的運動模 型建立過程如下①對編碼過程中產(chǎn)生的運動矢量進行3X3掩模的均值濾波器處理;②設第n幀第(i,j)個宏塊的運動矢量記為PV(i,j) = (xnjijJ, y^j),該宏塊每 一個像素點的運動矢量都為PV(i,j),矢量的運動方向為0^,」=arctan(yn,i,J/xn,i,J)③計算當前像素點及其周圍八個點的運動矢量方向的概率直方圖分布函數(shù)
其中SH()為由當前像素點及其周圍八個點的運動矢量的方向值
所組成的直方圖,m為直方圖空間大小,w表示N*N的搜索窗口尺寸;依據(jù)所得的概率分布情
況計算每一個像素點的運動矢量值的空間相關性熵值
表示運動矢量的空間信息熵,Ps是直方圖SH0的相應概率分布函數(shù);④計算當前像素點的運動矢量值及其前后三幀的相同位置上的像素點的運動矢
量值的概率直方圖分布函數(shù)
其中TH()為由當前像素點及其前后三幀相
應位置像素點的運動矢量方向表示值9n^所組成的直方圖,Pt是直方圖TH()的相應概率 分布函數(shù),m為直方圖空間大小,L表示時間軸上的相關幀數(shù);由此計算每一個像素點的運動矢量值的時間相關性熵值
表示運動矢量的時間信
息熵;⑤歸一化運動矢量相位的空間、時間熵值至
,得到的空間域和時間域運動矢 量熵值矩陣圖Cs,Ct。Ct(i,j), Cs(i, j)對應矩陣中的任意點,并比較任意點的熵值的大 小若空間域的值大于時間域的值,則當前點為空間域的值,反之則取時間域的值,如下式 所示,綜合時間和空間信息,得到最終的時空信息熵值。式中Cts(i,j)為結合后的運動矢 量熵值圖中的任意點。 ⑥令一幀圖像中最小的時空信息熵值為Min[f(x,y)],用信息等級0來表示; 最大時空信息熵值為Max[f(x,y)],用信息等級1-1表示;R= {0,1..., 1-1}表示信 息等級的集合。定義Np(peR)為信息等級為p時的像素點數(shù)量,即具有相同信息熵 值的像素點個數(shù);對于閾值t G R,需要在0等級到1-1等級內找出其中某一級所對應 的時空信息熵值作為閾值t,并根據(jù)閾值t自適應劃分信息熵低于閾值的信息熵為
;高于閾值的信息熵為N' Log
'
:其中
閾值在獲得閾值t后,可找出圖像中運動區(qū)域當像素點的時空信息熵
值大于閾值t時,即該像素點處在運動區(qū)域;否則處在非運動區(qū)域。上述步驟(3)篩選感知運動對象的過程如下①定義了一個運動對象顯著系數(shù)a (j),來篩選最終待分割的最為人眼所關注的 運動對象。定義如下a (j) = aLocation(j)*aMotion(j); 其中a (j)為通過計算后得到的第j個運動對象的運動顯著性系數(shù),a location(j) 為第j個運動對象聯(lián)通區(qū)域中心到圖像中心的距離的倒數(shù),(x。mtCT(j),y。mtCT(j))為第j 個運動對象的聯(lián)通區(qū)域的中心位置坐標。(Xpi。—。6ntCT,ypie_center)為圖像的中心點的坐標。 a Motion(j)為第j個運動對象的運動顯著系數(shù),分子為第j個運動對象所占宏塊的運動矢量 的模的平均值,分母為當前這一幀圖像中所有宏塊的運動矢量模的均值;②在得到各運動對象的顯著性系數(shù)后,對這些系數(shù)進行排序,找出最大顯著性系 數(shù)所對應的運動對象。并確定此運動對象為后續(xù)要精確分割的對象;上述步驟(4)的空間域分割模型建立過程如下①提取視頻圖像中的亮度分量Y (n,i,j),利用mean-Shift算法平滑Y (n,i,j)。令x為當前待平滑的初始點,可按下式計算該點的均值偏移向量mk(x),當||mh(x)-x|| < e 時結束當前點的均值偏移計算,將偏移值賦給當前像素點,并進行下一點的偏移計算,直至 完成所有像素點的均值偏移算法; ②利用區(qū)域生長法分割mean-shift算法處理后的平滑圖像,得到視頻圖像初始 分割圖,該圖中每個分割區(qū)域都為聯(lián)通區(qū)域且包含一定數(shù)量的像素點,所有分割區(qū)域可組 成整幅圖像;③利用區(qū)域歸并法處理初始分割圖,進一步提升分割效果找出分割圖中像素點 個數(shù)小于閾值T的區(qū)域,根據(jù)實驗結果,閾值T取50。設定四個坐標(Xl,yi),(\,y山(xu, yu)和(xd,yd)分別存放當前區(qū)域最左、左右、最上和最下邊的像素點坐標。將這四個坐標初 始化為小區(qū)域內第一個像素點(Xl,yi)。然后遍歷待歸并的干擾小區(qū)域中每一像素點記錄 其坐標(Xi,yi),并根據(jù)下式更新四個坐標值。在遍歷干擾區(qū)域內所有像素點后,四個坐標 對應四個方位的目標歸并區(qū)域。
在確定四個目標歸并區(qū)域的坐標初始點后,分別計算四個目標區(qū)域亮度 Lregi。n(l)、、gi(j2)、Lregi。n(3)和LMgi。j4)與待歸并區(qū)域亮度差值。最后取亮度差值最小的 區(qū)域作為歸并區(qū)域,將此區(qū)域的編號和均值賦給待歸并區(qū)域。上述步驟(5)的邊緣判定法獲得感知運動模型的過程如下①利用區(qū)域生長法定位根據(jù)3)所得到的運動對象的位置信息;②找出這一運動對象在空間域分割圖像中所占區(qū)域,并統(tǒng)計出分塊圖像中第i 個區(qū)域所占圖像像素點的個數(shù)Nall(i)以及顯著聯(lián)通區(qū)域所占第i個區(qū)域的像素點個數(shù)
Nobject(i);③依據(jù)得到的平滑分塊圖和最顯著運動對象區(qū)域圖以及兩個統(tǒng)計系數(shù)值Nall(i) 和N。_。t(i),精確提取出顯著運動對象,得到最終的運動感知模型。我們定義Ob^i)來 標記運動對象所占的分塊區(qū)域,定義見下式。 其中£1和e2為兩個區(qū)分是否為運動對象所占區(qū)域的閾值,定為3,e2定為 0. 5 ;以下給出輸入視頻格式為352X288的CIF時的實例,采用JM10. 2版本的H. 264 編碼器對標準測試序列進行編碼。H. 264編碼器的配置如下Baseline Profile, IPPP,每 15幀插入1個I幀,1個參考幀,帶寬設置為256k bps,幀率設置為30fps,初始量化參數(shù)設 置為32。
14
采用典型的標準測試序列mother-daughter作為輸入視頻進行測試,圖4為通過 分析運動矢量所得到的運動模型,從圖上可以看出此運動模型只能粗略地反應出運動對象 所在的位置,并不能將運動對象完整地提取出來。圖5是空間域亮度分析所建立的分割模 型,此模型能很好地保留物體的邊緣,完整地分割出物體。因此結合了以上兩種模型所得到 的運動感知模型,如圖6能完整地分割出人眼所最為關注的運動對象。
權利要求
一種基于時空域的運動感知模型提取方法,其特征在于具體的步驟如下(1)輸入視頻編碼幀;(2)建立運動模型計算運動矢量空間域和時間域熵值,得到時間域和空間域運動模型,并綜合兩種模型得到初始運動模型;(3)篩選感知運動對象通過綜合分析運動模型中多個運動對象的位置和所占像素點數(shù)來提取人眼最關注的運動對象;(4)建立空間域分割模型利用視頻圖像亮度信息進行Mean-shift和區(qū)域生長法得到空間域分割圖像,以此建立空間域分割模型;(5)利用邊緣判定方法結合運動模型和空間域分割模型得到最終的時空域運動感知模型。
2.根據(jù)權利要求1所述的基于時空的運動感知模型提取方法,其特征在于所述步驟 (2)中建立運動模型通過以下步驟實現(xiàn)①對編碼過程中產(chǎn)生的運動矢量進行3X3大小的均值濾波器掩模處理;②設第n幀第(i,j)宏塊的運動矢量為PV(i,j)= (xu^yy,」),將該宏塊的運動矢 量默認為該宏塊內每一個像素點的運動矢量,其中為運動矢量x分量,為運動矢 量y分量,該矢量的運動方向表示為 ③計算當前像素點及其周圍八個點的運動矢量值的概率直方圖分布函數(shù) SH;. ( ) 其中SH0為由像素點、及其M圍A個點、云力ifiW方向值0。,^所組成的直方圖,m為直方圖空間大小,w表示N*N的搜索窗口尺寸,n標記了當前運動矢量 位置,1例舉了周圍八點運動矢量;依據(jù)所得的概率分布情況計算每一個像素點的運動矢 量值的空間相關性熵值= 乃(")Log(Ps(n));Cs()表示運動矢量的空間信息熵,Ps是直方圖SH0的相應概率分布函數(shù);④計算當前像素點的運動矢量值及其前后三幀相同位置像素點的運動矢量值的概率 TH^ (n)直方圖分布函數(shù) 其中TH()為由當前像素點及其前后三幀相應位置像素 點的運動矢量方向值所組成的直方圖,Pt是直方圖TH0的相應概率分布函數(shù),m為 直方圖空間大小,L表示時間軸上的相關幀數(shù),n標記了當前運動矢量位置,1例舉了前后幀 八個運動矢量;由此計算每一個像素點的運動矢量值的時間相關性熵值 表示運動矢量的時間信息熵; ⑤將一幀圖像的相位空間和時間熵值圖歸一化至W,i],得到的空間域和時間域運動 矢量熵值矩陣圖Cs,ct ;Ct(i,j),Cs(i,j)對應矩陣中的任意點,然后比較任意點的熵值的 大小若空間域的值大于時間域,則該點最終判定為為空間域熵值,反之則取時間域熵值, 如下列公式⑴綜合時間和空間信息,得到最終的時空信息熵值,式中Cts(i,j)為結合后的運動矢量熵值圖中的任意點 ⑥在一幀圖像中,令最小的時空信息熵值為Min[C(i,j)],用信息等級0來表示, 令最大時空信息熵值為Max[C(i,j)],用信息等級1-1表示,R= {0,1,1-1}表示信息等級的集合;定義Np(p G R)為信息等級為p時的像素點數(shù)量,即具有相同信息熵 值的像素點數(shù)目,其中i和n列舉了求和過程的像素點;對于閾值t e R,需要在0等級 到1-1等級內找出其中某一級所對應的時空信息熵值作為閾值t,并根據(jù)閾值t進行自適應劃分,即低于閾值的信息熵為足=-£ ;高于閾值的信息熵為 ;其中閾值其中argmax表示當高于閾值點 息熵值Ea和低于閾值點信息熵值Eb之和最大值時取的閾值t ;在找到信息熵閾值t后, 可按t值劃分運動區(qū)域當像素點的時空信息熵值大于閾值t時,該像素點處在運動區(qū)域, 否則處在非運動區(qū)域。
3.根據(jù)權利要求1所述的感知運動對象篩選方法,其特征在于所述步驟(3)中篩選感 知運動對象是定義一個運動對象顯著系數(shù),如下列公式(2) 式(5),利用這些系數(shù)篩選 出最為人眼所關注的運動對象;在得到各運動對象的顯著性系數(shù)后,我們對這些系數(shù)進行 排序,找出顯著性系數(shù)最大的運動對象;確定此運動對象為后續(xù)處理的運動對象; 式中a (j)為通過計算后得到的第j個運動對象的運動顯著性系數(shù),a1()。ati。n(j)為第 j個運動對象中心到圖像中心的距離的倒數(shù),(x。mtCT(j),ycenter(j))為第j個運動對象的聯(lián) 通區(qū)域的中心位置坐標。(Xpi。。mtCT,ypi。。mtCT)為圖像的中心點的坐標;anuffl(j)為第j個運 動對象聯(lián)通區(qū)域所占的圖像像素點的個數(shù),Nall為一幀圖像中像素點的總數(shù)。aNKate(j)為 第j個運動對象像素數(shù)占總像素數(shù)的比率;a otion(j)為第j個運動對象的運動顯著系數(shù),分子為第j個運動對象所占宏塊的運動矢量的模的平均值,分母為當前這一幀圖像中所有宏塊的運動矢量模的平均值。
4.根據(jù)權利要求1所述的基于時空的運動感知模型提取方法,其特征在于所述步驟(4)中的建立空間域分割模型通過以下步驟實現(xiàn)①提取視頻圖像中的亮度分量Y(n,i,j),首先利用mean-shift算法平滑圖像中每一 個亮度分量;設x為待平滑的初始點,下列公按式(6)計算該點的均值偏移向量mk(x),當|mk(x)-x| < e時結束當前點的均值偏移計算,將偏移值賦給當前像素點;繼續(xù)進行下 一點的偏移計算,直至完成所有像素點的均值偏移算法,£為判定是否繼續(xù)平移的閾值,其 大小由實驗確定,mk(x)為每一次均值計算的偏移向量值; 上式中的GO為核函數(shù),本實驗設定高斯函數(shù)為便宜計算核函數(shù),w(Xi)為每一個采樣 點計算權重,本文設定權重為1 ;②利用區(qū)域生長法分割mean-shift算法處理后的圖像,得到視頻圖像初始分割圖,該 圖中每個分割區(qū)域都為聯(lián)通區(qū)域且包含一定數(shù)量的像素點,所有獨立分割區(qū)域的集合即為 整幅視頻圖像;③利用區(qū)域歸并法處理初始分割圖進一步提升分割效果找出分割圖中包含像素個數(shù) 小于閾值T的分割區(qū)域,根據(jù)實驗結果,閾值T取50 ;設定四個坐標(Xl,Yl),(xr, yr),(xu, yu)和(xd,yd)分別存放當前區(qū)域最左、左右、最上和最下邊的像素點坐標。將這四個坐標初 始化為子區(qū)域內第一個像素點(Xl,yi);然后遍歷待歸并的干擾子區(qū)域中每一像素點記錄 其坐標(Xi,yi),并根據(jù)下列公式⑵更新四個坐標值;遍歷干擾子區(qū)域內所有像素點后,四 個坐標對應了四個方位的目標歸并區(qū)域。 在確定四個目標歸并區(qū)域的坐標初始點后,分別計算四個目標區(qū)域亮度Lregi。n(l)、 Lregion(2),Lregion(3)和LMgi。n⑷與待歸并的干擾區(qū)域亮度差值。最后取亮度差值最小的區(qū) 域作為歸并區(qū)域,將該區(qū)域的編號和均值賦給待歸并區(qū)域。
5.根據(jù)權利要求1所述的基于時空的運動感知模型提取方法,其特征在于所述步驟(5)中的時空域運動感知模型通過以下步驟進一步實現(xiàn)①利用區(qū)域生長法定位說明3)中所得到的顯著性最強的運動對象的位置信息;②找出這一運動對象在空間域分割圖像中所占區(qū)域,并統(tǒng)計出分塊圖像中第i個區(qū)域 所占圖像像素點的個數(shù)Nall(i)和顯著聯(lián)通區(qū)域所占第i個區(qū)域的像素點個數(shù)N。bje。t(i);③依據(jù)以上得到的平滑分塊圖、最顯著運動對象區(qū)域圖以及第四步得到的兩個統(tǒng)計 系數(shù)值Nall(i)和N。bje。t(i)精確提取出顯著運動對象,實現(xiàn)最終的運動對象分割;定義 0bjEeg(i)來標示運動感知對象所占的分塊區(qū)域,如下列公式(8) 其中e i和e 2為兩個區(qū)分是否為運動對象所占區(qū)域的閾值,e工定為3,e 2定為0. 5 ; 在得到的運動感知圖后即完成了整個運動感知模型的建立。
全文摘要
本發(fā)明涉及一種基于時空域的運動感知模型提取方法。本方法的具體操作步驟是輸入視頻編碼幀,建立運動模型,篩選感知運動對象,建立空間域分割模型,最后利用邊緣判定方法結合運動模型和空間域分割模型得到最終的時空域運動感知模型。本發(fā)明考慮到運動對象的區(qū)域一致性,結合空間域視頻圖像分割,改善視頻運動對象提取效果,建立了基于時空域的運動感知模型。
文檔編號H04N5/14GK101853510SQ20101015249
公開日2010年10月6日 申請日期2010年4月20日 優(yōu)先權日2010年4月20日
發(fā)明者張兆揚, 潘琤雯, 石旭利, 魏小文 申請人:上海大學