專利名稱:一種基于輪廓時(shí)空特征的視頻對(duì)象標(biāo)注方法
技術(shù)領(lǐng)域:
本發(fā)明涉及視頻處理領(lǐng)域,尤其涉及一種基于輪廓時(shí)空特征的視頻對(duì)象標(biāo)注方法。
背景技術(shù):
隨著數(shù)碼相機(jī)和數(shù)碼攝像機(jī)的普及化,交互式圖像和視頻處理成為非常熱門和前沿研究方向。其中,以交互式手段實(shí)現(xiàn)視頻前景高效提取,進(jìn)而將提取出來的前景合成到新的視頻序列中,或者對(duì)該前景進(jìn)行卡通風(fēng)格編輯等操作,成為視頻領(lǐng)域一個(gè)重要的技術(shù)。
視頻是連續(xù)圖像幀構(gòu)成的,實(shí)現(xiàn)視頻流中前景和背景對(duì)象分割可以對(duì)每幀分別進(jìn)行交互操作,使用圖像前景提取方法,得到各幀的前景和背景,從而生成整段視頻的前景和背景。但是,這種手段存在如下幾個(gè)問題首先,需要大量重復(fù)性乏味工作,即用戶對(duì)每幀上的背景和前景都需要進(jìn)行交互提示;其次,這種手段對(duì)每幀分別處理,沒有考慮它們之間的時(shí)間連續(xù)性,相鄰幀之間少量的差別都會(huì)照成視覺上的跳躍。
如果能夠準(zhǔn)確地跟蹤視頻流中物體運(yùn)動(dòng),那么對(duì)關(guān)鍵幀可以按照交互機(jī)制提取前景和背景,將交互知識(shí)和運(yùn)動(dòng)跟蹤結(jié)果擴(kuò)散到非關(guān)鍵幀上達(dá)到自動(dòng)提取非關(guān)鍵幀前景和背景目的。Hertzmann等人就采用光流估計(jì)算法來跟蹤物體的運(yùn)動(dòng)[3],但是目前光流估計(jì)算法很難魯棒得到普通視頻中運(yùn)動(dòng)跟蹤結(jié)果,因此不能用光流估計(jì)算法來得到非關(guān)鍵幀上的前景,但是光流估計(jì)的結(jié)果可以作為一個(gè)約束條件來動(dòng)態(tài)更新跟蹤過程。基于這樣的思路,本發(fā)明提出了一種在關(guān)鍵幀上進(jìn)行交互式前景背景提取,非關(guān)鍵幀根據(jù)與關(guān)鍵幀在時(shí)序上相關(guān)性以及非關(guān)鍵幀本身空間相關(guān)性來進(jìn)行視頻前景提取的方法。
有大量的工作是在輪廓提取的基礎(chǔ)上進(jìn)行前景提取的。Hall等人提出了一種用戶監(jiān)督下輪廓提取方法[2],其允許用戶對(duì)若干幀中前景物體輪廓進(jìn)行勾勒,然后再對(duì)其它幀進(jìn)行插值,這樣得到其他幀的前景輪廓,從而得到前景區(qū)域。這種方法需要大量人力來進(jìn)行勾勒輪廓,對(duì)于快速運(yùn)動(dòng)的視頻,需要人工勾勒的幀數(shù)就越多,否則中間幀的插值結(jié)果產(chǎn)生的錯(cuò)誤就越大。Agarwala等人提出了一種基于優(yōu)化和用戶交互來提取輪廓的方法[1],減少了用戶的交互。但是這些方法是存在局限性的,它用近似的輪廓邊來表示物體形狀,邊緣細(xì)節(jié)豐富的物體容易丟失這些細(xì)節(jié)信息。而且,這些方法要求前景物體和背景的分界線要明顯。
也有一些工作是基于物體分塊的基礎(chǔ)上進(jìn)行前景提取的。Wang等人提出了一種交互式圖分割的視頻前景提取方法[6],使用Mean-Shift對(duì)圖像進(jìn)行預(yù)分塊,來減少需要的部分?jǐn)?shù)量。他們?cè)谌执鷥r(jià)函數(shù)的基礎(chǔ)上增加了局部代價(jià)函數(shù),即對(duì)背景和跨標(biāo)注的地方進(jìn)行統(tǒng)計(jì)建模,然后對(duì)其進(jìn)行最小割處理。Li等人的算法也是一種利用圖分割算法進(jìn)行視頻對(duì)象提取的方法[4],這個(gè)方法綜合考慮了關(guān)鍵幀上每個(gè)部分相對(duì)于前景和背景顏色分布的顏色相關(guān)性,并使跨過物體邊緣的相鄰兩個(gè)區(qū)域的顏色差異最大化,同時(shí),還考慮了物體運(yùn)動(dòng)的時(shí)間相關(guān)性。但是,當(dāng)物體顏色和周圍背景顏色相似時(shí),這兩種方法出現(xiàn)邊緣判斷錯(cuò)誤。
A. Agarwala,A.Hertzmann,D.H.Salesin,and S.M.Seitz.Keyframe-Based Tracking forRotoscoping and Animation.In Proceedings of ACM SIGGRAPH 2004.2004.pp.584-591[2]J. Hall,D. Greenhill and G.Jones.Segmenting Film Sequences using Active Surfaces.InInternational Conference on Image Processing(ICIP).1997.pp.751-754[3]A.Hertzmann and K.Perlin.Painterly Rendering for Video and Interaction.In Proceedings ofthe lst International Symposium on Non-photorealistic Animation and Rendering.2000.pp.7-12[4]Y.Li,J.Sun and H.Y.Shum.Video Object Cut and Paste.In Proceedings of ACMSISGGRAPH 2005.2005.pp.595-600[5]L.Vincent and P.Soille.Watersheds in Digital SpacesAn Efficient Algorithm Based onImmersion Simulations.IEEE Tran.on Pattern Analysis and Machine Intelligence.1991.13(6),pp.583-598[6]J.Wang,P.Bhat,R.A.Colbum,M.Agrawala and M.F.Cohen.Interactive Video Cutout.InProceedings of ACM SIGGRAPH 2005.2005.pp.585-594
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種基于輪廓時(shí)空特征的視頻對(duì)象標(biāo)注方法。
它包括如下步驟(1)把一段視頻分成若干部分,每部分包含若干幀,在這些幀中,有一幅關(guān)鍵幀,其它的都是非關(guān)鍵幀;(2)對(duì)于關(guān)鍵幀,要求用戶輸入提示信息,指定前景對(duì)象和背景對(duì)象中的一些關(guān)鍵部分,然后對(duì)關(guān)鍵幀進(jìn)行標(biāo)注,得出該幀上的每個(gè)部分的從屬關(guān)系;(3)對(duì)于非關(guān)鍵幀,根據(jù)關(guān)鍵幀上的標(biāo)注結(jié)果,根據(jù)前景的顏色分布和形狀信息,以及背景的顏色信息,對(duì)非關(guān)鍵幀進(jìn)行標(biāo)注。
所述的把一段視頻分成若干部分根據(jù)視頻中物體運(yùn)動(dòng)的速度,每個(gè)部分的幀數(shù)會(huì)和它成反比,對(duì)于物體運(yùn)動(dòng)快速的情況下,每個(gè)部分的幀數(shù)少,反之,則幀數(shù)多。
對(duì)于關(guān)鍵幀,要求用戶輸入提示信息,指定前景對(duì)象和背景對(duì)象中的一些關(guān)鍵部分用戶在關(guān)鍵幀的圖像上,用鼠標(biāo)對(duì)前景或者背景進(jìn)行勾勒,畫上一些點(diǎn),線段和多邊形,這樣,對(duì)于這些點(diǎn),線段和多邊形而言,它們是關(guān)鍵幀上標(biāo)注的硬性限制,即這些部分在標(biāo)注的過程中前景或者背景的從屬關(guān)系不會(huì)改變;對(duì)關(guān)鍵幀進(jìn)行標(biāo)注,得出該幀上的每個(gè)部分的從屬關(guān)系,對(duì)關(guān)鍵幀進(jìn)行標(biāo)注,標(biāo)注方法包括如下步驟(1)對(duì)圖像先進(jìn)行預(yù)處理,采用沉浸式分水嶺算法,把圖像中相鄰的并且顏色相差在某個(gè)閾值范圍之內(nèi)的像素點(diǎn)劃分為同一個(gè)區(qū)域;(2)對(duì)于每個(gè)區(qū)域,把這個(gè)區(qū)域內(nèi)的平均顏色值作為它的區(qū)域顏色;
(3)對(duì)用戶輸入指定的前景和背景上的像素點(diǎn)的顏色值進(jìn)行聚類,得到一組背景顏色中心和前景顏色中心;(4)定義區(qū)域塊的數(shù)據(jù)值差異為該區(qū)域顏色和前景或者背景的顏色中心之間差異的最小值,定義相鄰區(qū)域塊之間差異為相鄰區(qū)域塊的顏色之間的距離;(5)根據(jù)數(shù)據(jù)值的差異和相鄰區(qū)域塊之間的差異,把每個(gè)區(qū)域塊作為一個(gè)節(jié)點(diǎn),構(gòu)造一幅圖分割的圖,再對(duì)這幅圖做最小割,得到對(duì)該幅圖像的近似最優(yōu)化解的標(biāo)注。
對(duì)于非關(guān)鍵幀,根據(jù)關(guān)鍵幀上的標(biāo)注結(jié)果,根據(jù)前景的顏色分布和形狀信息,以及背景的顏色信息,對(duì)非關(guān)鍵幀進(jìn)行標(biāo)注,標(biāo)注方法包括如下步驟(1)根據(jù)關(guān)鍵幀的標(biāo)注結(jié)果,對(duì)前景和背景的顏色進(jìn)行聚類,這個(gè)聚類結(jié)果將應(yīng)用到非關(guān)鍵幀的數(shù)據(jù)值的差異中;(2)根據(jù)關(guān)鍵幀的標(biāo)注結(jié)果,得到前景物體的輪廓。利用信任度擴(kuò)散算法,在一定的運(yùn)動(dòng)范圍內(nèi)估算物體的運(yùn)動(dòng),得到非關(guān)鍵幀上物體輪廓的大致位置,把這個(gè)輪廓信息做為相鄰區(qū)域塊差異的補(bǔ)充;(3)根據(jù)數(shù)據(jù)值的差異和相鄰區(qū)域塊之間的差異,把每個(gè)區(qū)域塊做為一個(gè)節(jié)點(diǎn),在非關(guān)鍵幀上構(gòu)造一幅圖分割的圖,在這幅圖上做最小割,得到非關(guān)鍵幀上的標(biāo)注。
本發(fā)明的有益效果目前一些關(guān)于視頻前景標(biāo)注的方法,當(dāng)前景對(duì)象和背景顏色相似時(shí),普遍存在前景物體邊緣標(biāo)注不準(zhǔn)確的情況,本發(fā)明利用信任度擴(kuò)散算法把關(guān)鍵幀上的交互信息和前景形狀傳送到非關(guān)鍵幀上,并且綜合考慮非關(guān)鍵幀上每個(gè)部分(區(qū)域塊)對(duì)于前景和背景分布的顏色相關(guān)性,相鄰兩個(gè)區(qū)域的顏色差異,以及形狀信息來求解非關(guān)鍵幀的標(biāo)注。實(shí)驗(yàn)結(jié)果表明,本發(fā)明能夠解決前景物體邊緣標(biāo)注不準(zhǔn)確的問題。
圖1是基于輪廓時(shí)空特征的視頻對(duì)象標(biāo)注方法流程示意圖,圖中3個(gè)方框表示本發(fā)明的三個(gè)步驟,輸入為視頻序列和用戶在關(guān)鍵幀上的交互信息;圖2是本發(fā)明的關(guān)鍵幀和非關(guān)鍵幀的圖分割的構(gòu)造,圖中實(shí)線框表示關(guān)鍵幀上的圖,虛線框表示非關(guān)鍵幀上的圖;圖3表示馬爾可夫網(wǎng)絡(luò)中的信息傳遞過程;圖4是本發(fā)明的輪廓邊的弧度計(jì)算示意圖;圖5是本發(fā)明的關(guān)鍵幀上的用戶交互信息以及標(biāo)注的結(jié)果;圖6是本發(fā)明的輪廓邊運(yùn)動(dòng)估算結(jié)果以及標(biāo)注結(jié)果;圖7(a)是Li等人方法的視頻前景標(biāo)注的結(jié)果,圖7(b)是本發(fā)明的標(biāo)注結(jié)果;
圖8是本發(fā)明與Li等人方法標(biāo)注結(jié)果的比較圖,圖中第一行是原始視頻序列,中間一行是Li等人方法的處理結(jié)果,最后一行是本發(fā)明的結(jié)果。
具體實(shí)施方式本發(fā)明利用圖分割算法實(shí)現(xiàn)關(guān)鍵幀和非關(guān)鍵幀上的前景標(biāo)注。由于這種標(biāo)注是二值的,因此,定義標(biāo)注X={0,1},其中0表示背景,1表示前景。在這些圖像上構(gòu)造2D圖,如圖2所示。圖2中實(shí)線框部分表示關(guān)鍵幀,虛線框部分表示中間幀。假設(shè)2D圖表示為G={V,ε},其中V是圖像上的每個(gè)區(qū)域的集合,ε是連接這些區(qū)域和標(biāo)注的邊的集合。從簡(jiǎn)潔考慮,在圖2中省略了一些區(qū)域和標(biāo)注點(diǎn)的連接邊。
為了提高處理速度,先利用分水嶺算法[Vincent1991]對(duì)視頻中的每一幀進(jìn)行預(yù)處理,將其分割成一些小的區(qū)域塊。這個(gè)分水嶺算法是過分割的,它能夠很好地保持物體的輪廓。所以,圖2中所示的點(diǎn)不是像素,而是這些過分割區(qū)域。對(duì)于關(guān)鍵幀來說,解決標(biāo)注問題就是使得Gibbs能量E(X)最小化E(X)=Σi∈VEd(xi)+αΣi,j∈ϵEl(xi,xj)---(1)]]>其中Ed(xi)是數(shù)據(jù)相關(guān)函數(shù),也就是區(qū)域i的平均顏色相對(duì)于前景和背景中的顏色分布的相關(guān)性;El(xi,xj)是跨越物體邊緣的兩個(gè)區(qū)域i和j之間的顏色差異。α是調(diào)節(jié)參數(shù),用來調(diào)節(jié)這兩個(gè)函數(shù)在整個(gè)能量函數(shù)中的比例,本文取α=1.5。α可以根據(jù)經(jīng)驗(yàn)得到,對(duì)于一些物體輪廓比較明顯的視頻,這個(gè)參數(shù)可以設(shè)置得小些,而對(duì)于背景顏色和前景顏色近似的視頻,這個(gè)參數(shù)可以設(shè)置得大些。公式(1)中幾個(gè)函數(shù)數(shù)值如下定義Ed(xi=1)=0,Ed(xi=0)=∞∀i∈FEd(xi=1)=∞,Ed(xi=0)=0∀i∈BEd(xi=1)=diFdiF+diB,Ed(xi=0)=diBdiF+diB∀i∉F∪B---(2)]]>El(xi,xj)=|xi+xj|e-α||ci-cj||2---(3)]]>其中,dkE=minm||ci-KmF||,]]>dkB=minn||ci-KnB||]]>,‖‖表示歐氏距離。F表示用戶指定的前景種子點(diǎn)集合,B表示用戶指定的背景種子點(diǎn)集合,ci是區(qū)域i上的平均顏色值,KmF是前景種子點(diǎn)進(jìn)行聚類后的第m類顏色值,KnB是背景種子點(diǎn)進(jìn)行聚類后的第n類顏色值。對(duì)于El(xi,xj),當(dāng)相鄰兩個(gè)區(qū)域給定相同標(biāo)注,即屬于同一個(gè)物體的情況下,該函數(shù)取值為0,只有當(dāng)這兩個(gè)區(qū)域有不同標(biāo)注,也就是這兩個(gè)區(qū)域跨越物體的邊界時(shí),才有非0值。
由于中間非關(guān)鍵幀本身沒有可直接利用的交互信息,因此本文使用信任度擴(kuò)散算法來估算關(guān)鍵幀上用戶交互信息的運(yùn)動(dòng)情況,從而得到中間幀上用戶近似交互信息。信任度擴(kuò)散算法將在后面進(jìn)行介紹,用戶交互信息的運(yùn)動(dòng)估計(jì)和其它非輪廓邊上的像素一樣,但是它們的觀察函數(shù)只和亮度相關(guān),勢(shì)能函數(shù)只和運(yùn)動(dòng)空間連續(xù)性相關(guān),因此整個(gè)運(yùn)動(dòng)估計(jì)過程和輪廓邊的跟蹤是一樣的,只是把(11)和(12)式中的λG和λC設(shè)置為0,讓梯度和弧度不起作用。從數(shù)值意義上來講,這些交互信息有助于獲得Ed這個(gè)函數(shù)。El函數(shù)的獲得和關(guān)鍵幀上是相同的。但是,由于要利用視頻幀間的時(shí)間連續(xù)性特性,在非關(guān)鍵幀和關(guān)鍵幀的能量函數(shù)是有差別的。非關(guān)鍵幀的能量函數(shù)可如下表示E(X)=Σi∈VEd(xi)+αΣi,j∈ϵEl(xi,xj)+βΣi,j∈ϵEs(xi,xj)---(4)]]>比較公式(1)和(4),這兩個(gè)能量函數(shù)的區(qū)別在于,非關(guān)鍵幀上的能量函數(shù)增加了形狀約束分量Es(xi,xj)。我們使用基于形狀特征的輪廓跟蹤算法,根據(jù)關(guān)鍵幀上的前景輪廓特征以及相鄰幀之間的時(shí)間連續(xù)性,來計(jì)算非關(guān)鍵幀上的物體輪廓的大致位置,然后得到Es(xi,xj)?;谛螤钐卣鞯妮喞櫵惴ㄔ诘谒恼轮袝?huì)有詳細(xì)的介紹。
本發(fā)明使用[Boycov2001]所提出的最大流算法來求(1)和(4)式的最小化的解,這種算法是一種近似的全局最優(yōu)的方法,用來解決視覺上的標(biāo)注問題。
本發(fā)明把物體輪廓的時(shí)空特征規(guī)約為四個(gè)亮度、梯度、空間連續(xù)和弧度保持,這四個(gè)時(shí)空特征本身蘊(yùn)涵的約束可以指導(dǎo)輪廓跟蹤,同時(shí)采用信任度擴(kuò)散算法來近似推理時(shí)空約束的動(dòng)態(tài)變化。
求解物體的運(yùn)動(dòng)就是對(duì)物體的運(yùn)動(dòng)給出標(biāo)注,使得后驗(yàn)概率P(X|Y)最大。其中,X={xi}是標(biāo)注集合,xi=(ui,vi),u和v分別表示水平和垂直運(yùn)動(dòng)距離;Y={I,I′}是觀察到的關(guān)鍵幀和非關(guān)鍵幀。構(gòu)造一個(gè)馬爾可夫網(wǎng)絡(luò),如圖3所示。后驗(yàn)概率P(X|Y)可以如下表示P(X|Y)∝Πiφi(xi,yi)ΠiΠj∈N(i)ψi,j(xi,yi)---(5)]]>φi(xi,yi)是觀察函數(shù),用來計(jì)算概率P(yi|xi);ψi,j(xi,xj)是勢(shì)能函數(shù),用來衡量相鄰節(jié)點(diǎn)之間標(biāo)注的相容性。
馬爾可夫理論認(rèn)為在馬爾可夫場(chǎng)中,一個(gè)節(jié)點(diǎn)的條件概率只受周圍相鄰點(diǎn)影響。信任度擴(kuò)散主要目的是在一個(gè)四連通圖上,對(duì)相鄰節(jié)點(diǎn)之間信息進(jìn)行傳遞。每個(gè)信息是一組可能的標(biāo)注所構(gòu)成向量。mijt是在t時(shí)刻節(jié)點(diǎn)i發(fā)送到j(luò)的信息,mit是t時(shí)刻標(biāo)注發(fā)送給節(jié)點(diǎn)j的信息,bi是節(jié)點(diǎn)i的信任度。信任度擴(kuò)散算法是一個(gè)迭代的算法,每次迭代過程如下mijt+1(xj)=1Zmaxxiψij(xi,xj)mit(xi)Πk∈N(j)/imkjt(xj)---(6)]]>mit(xi)在每個(gè)時(shí)刻都是相同的,它的值是φi(xi,yi);N(j)/i表示和節(jié)點(diǎn)j相鄰的非i節(jié)點(diǎn)集合,Z是一個(gè)歸一化數(shù)值。最后信任度的值為bi(xi)=1Zmi(xi)Πj∈N(i)mji(xi)---(7)]]>標(biāo)注值為xi=argmaxxkbi(xk)---(8)]]>在數(shù)值實(shí)現(xiàn)時(shí),(6)和(7)式中乘法的計(jì)算量太大,所以把它們轉(zhuǎn)換到對(duì)數(shù)空間進(jìn)行計(jì)算,可以得到
mijt+1(xj)=maxxi(ψij(xi,xj)+mit(xi)+Σk∈N(i)/imkjt(xj))---(9)]]>bi(xi)=mi(xi)+Σj∈N(i)mji(xi)---(10)]]>視頻相鄰幀物體在運(yùn)動(dòng)過程中亮度,梯度和弧度不會(huì)有大變化,而且相鄰時(shí)刻物體運(yùn)動(dòng)是連續(xù)的。分析這些約束條件,可知亮度和梯度值會(huì)影響觀察函數(shù),而運(yùn)動(dòng)的空間連續(xù)性和弧度會(huì)影響勢(shì)能函數(shù),因此這些函數(shù)可以如下表示φi(xi)=exp(-(λIEI(xi)+λGEG(xi))) (11)φij(xi,xj)=exp(-(λNEN(xi,xj)+λCEC(xi,xj))) (12)其中Ej是圖像亮度保持約束,EG是梯度保持約束,EN是空間連續(xù)性約束,EC是弧度保持約束,λl、λG、λN和λC是對(duì)應(yīng)于子能量函數(shù)的權(quán)值。
假設(shè)f(x,y,t)是t幀上坐標(biāo)為(x,y)像素點(diǎn)的灰度值,f(x+u,y+v,t+dt)是t+dt幀上坐標(biāo)為(x+u,y+v)像素點(diǎn)的灰度值,其中u和v分別是該像素的水平和垂直運(yùn)動(dòng)的距離。根據(jù)泰勒展開,f(x+u,y+v,t+dt)=f(x,y,t)+fxu+fyv+ftdt+O(2) (13)O(2)是非常小的數(shù)值,因此有f(x+u,y+v,t+dt)≈f(x,y,t)+fxu+fyv+ftdt (14)物體在相鄰幀運(yùn)動(dòng)過程中,亮度值變化非常小,所以圖像的亮度約束就是使得f(x+u,y+v,t+dt)和f(x,y,t)之間差異最小化,因此EI(xi)=fxui+fyvi+ftdt (15)一般來說,物體輪廓部分梯度值比較大的,易與非輪廓部分進(jìn)行區(qū)分。因此,本文把梯度值作為判斷該位置是否物體輪廓的一個(gè)重要指標(biāo)。設(shè)g(x,y,t)是t幀上坐標(biāo)為(x,y)像素點(diǎn)的梯度值,同樣可以得到EG(xi)=gxui+gyvi+gtdt (16)為了保持物體空間連續(xù)性,物體上相鄰部分運(yùn)動(dòng)應(yīng)該是連續(xù)的。因此有EN(xi,xj)=|ui-uj|vi-vj| (17)在物體的運(yùn)動(dòng)過程中,物體輪廓形狀大致保持不變,也就是說物體輪廓上某點(diǎn)弧度保持恒定性。我們用輪廓線的二階導(dǎo)數(shù)來近似弧度,c=‖pj+pk-2pi‖ (18)其中pi,pj和Pk是輪廓線上相鄰三點(diǎn),如圖4所示。
令弧度保持約束能量函數(shù)為EC=||(pjt+dt+pkt+dt-2pit+dt)-(pjt+pkt-2pit)||2---(19)]]>其中pit+dt-pit=(ui·dt,vi·dt)]]>,因此上式可以轉(zhuǎn)化為
EC(xi,xj)=((uj+uk-2ui)2+(vj+vk-2vi)2)·(dt)2(20)把(uk,vk)近似為(ui,vi),這樣上式就只和i,j的標(biāo)注有關(guān)。得到EC(xj,xj)=((uj-ui)2+(vj-vi)2)·(dt)2(21)這樣可以得到觀察函數(shù)和勢(shì)能函數(shù)(11)和(12),利用信任度擴(kuò)散算法,根據(jù)(9)、(10)和(8)式可以得到輪廓邊上的各點(diǎn)的運(yùn)動(dòng)矢量(u,v),非關(guān)鍵幀上的輪廓位置就可以得到。如圖6所示,(a)是關(guān)鍵幀上根據(jù)標(biāo)注結(jié)果得到的輪廓,(b)是根據(jù)信任度擴(kuò)散算法對(duì)關(guān)鍵幀上的輪廓跟蹤得到的結(jié)果。輪廓的跟蹤是比較準(zhǔn)確的,雖然在頭部有些誤差,但作為一種輪廓提示信息,對(duì)最終非關(guān)鍵幀上的標(biāo)注而言,這種結(jié)果是足夠的。
式(4)中的形狀分量如下Es(xi,xj)=1-e-dij---(22)]]>dij是i和j的中點(diǎn)到輪廓邊的最近距離。可以看出,和輪廓邊越近的邊這個(gè)分量就越小,也就越有可能被分割。
實(shí)施例1針對(duì)室內(nèi)的一段視頻,對(duì)它的進(jìn)行前景標(biāo)注。實(shí)施過程如下(1)首先把它分成若干部分,每個(gè)部分包括10幀,其中一幀為關(guān)鍵幀。使用沉浸式分水嶺算法對(duì)這些幀進(jìn)行預(yù)處理,使得圖像由這些圖塊組成。
(2)在關(guān)鍵幀上,用戶對(duì)它進(jìn)行交互操作,指定一些前景部分和背景部分,如圖5(a)所示。使用圖分割算法,如公式(1),對(duì)關(guān)鍵幀進(jìn)行標(biāo)注,得到結(jié)果如圖5(b)所示。
(3)關(guān)鍵幀上前景的輪廓如圖6(a)所示,然后利用信任度擴(kuò)散算法,把這些輪廓信息傳遞到非關(guān)鍵幀上,計(jì)算得到形狀分量,如公式(22)。使用圖分割算法,如公式(4),對(duì)這些非關(guān)鍵幀進(jìn)行標(biāo)注,得到結(jié)果如圖6(b)所示。
其中的參數(shù)設(shè)置如下α=1.5,β=0.8,λI=1.0,λG=1.0,λN=1.0,λc=2.0。
實(shí)施例2針對(duì)室外的一段視頻,對(duì)它進(jìn)行前景標(biāo)注。實(shí)施過程如下(1)首先把它分成若干部分,每個(gè)部分包括10幀,其中一幀為關(guān)鍵幀。使用沉浸式分水嶺算法對(duì)這些幀進(jìn)行預(yù)處理,使得圖像由這些圖塊組成。
(2)在關(guān)鍵幀上,用戶對(duì)它進(jìn)行交互操作,用線條指定一些前景部分和背景部分。使用圖分割算法,如公式(1),對(duì)關(guān)鍵幀進(jìn)行標(biāo)注,得到關(guān)鍵幀的前景標(biāo)注結(jié)果。
(3)使用信任度擴(kuò)散算法,把關(guān)鍵幀上的前景輪廓信息傳遞到非關(guān)鍵幀上,通過公式(22)計(jì)算得到形狀分量。使用圖分割算法,如公式(4),對(duì)這些非關(guān)鍵幀進(jìn)行標(biāo)注,得到非關(guān)鍵幀上的前景標(biāo)注結(jié)果。
參數(shù)可以這樣設(shè)置α=1.0,其它參數(shù)同實(shí)施例1。得到視頻前景標(biāo)注結(jié)果如圖8中的第三行所示。
權(quán)利要求
1.一種基于輪廓時(shí)空特征的視頻對(duì)象標(biāo)注方法,其特征在于包括如下步驟(1)把一段視頻分成若干部分,每部分包含若干幀,在這些幀中,有一幅關(guān)鍵幀,其它的都是非關(guān)鍵幀;(2)對(duì)于關(guān)鍵幀,要求用戶輸入提示信息,指定前景對(duì)象和背景對(duì)象中的一些關(guān)鍵部分,然后對(duì)關(guān)鍵幀進(jìn)行標(biāo)注,得出該幀上的每個(gè)部分的從屬關(guān)系;(3)對(duì)于非關(guān)鍵幀,根據(jù)關(guān)鍵幀上的標(biāo)注結(jié)果,根據(jù)前景的顏色分布和形狀信息,以及背景的顏色信息,對(duì)非關(guān)鍵幀進(jìn)行標(biāo)注。
2.根據(jù)權(quán)利要求
1所述的一種基于輪廓時(shí)空特征的視頻對(duì)象標(biāo)注方法,,其特征在于所述的把一段視頻分成若干部分根據(jù)視頻中物體運(yùn)動(dòng)的速度,每個(gè)部分的幀數(shù)會(huì)和它成反比,對(duì)于物體運(yùn)動(dòng)快速的情況下,每個(gè)部分的幀數(shù)少,反之,則幀數(shù)多。
3.根據(jù)權(quán)利要求
1所述的一種基于輪廓時(shí)空特征的視頻對(duì)象標(biāo)注方法,其特征在于所述的對(duì)于關(guān)鍵幀,要求用戶輸入提示信息,指定前景對(duì)象和背景對(duì)象中的一些關(guān)鍵部分用戶在關(guān)鍵幀的圖像上,用鼠標(biāo)對(duì)前景或者背景進(jìn)行勾勒,畫上一些點(diǎn),線段和多邊形,這樣,對(duì)于這些點(diǎn),線段和多邊形而言,它們是關(guān)鍵幀上標(biāo)注的硬性限制,即這些部分在標(biāo)注的過程中前景或者背景的從屬關(guān)系不會(huì)改變;
4.根據(jù)權(quán)利要求
1所述的一種基于輪廓時(shí)空特征的視頻對(duì)象標(biāo)注方法,其特征在于所述的對(duì)關(guān)鍵幀進(jìn)行標(biāo)注,得出該幀上的每個(gè)部分的從屬關(guān)系,對(duì)關(guān)鍵幀進(jìn)行標(biāo)注,標(biāo)注方法包括如下步驟(1)對(duì)圖像先進(jìn)行預(yù)處理,采用沉浸式分水嶺算法,把圖像中相鄰的并且顏色相差在某個(gè)閾值范圍之內(nèi)的像素點(diǎn)劃分為同一個(gè)區(qū)域;(2)對(duì)于每個(gè)區(qū)域,把這個(gè)區(qū)域內(nèi)的平均顏色值作為它的區(qū)域顏色;(3)對(duì)用戶輸入指定的前景和背景上的像素點(diǎn)的顏色值進(jìn)行聚類,得到一組背景顏色中心和前景顏色中心;(4)定義區(qū)域塊的數(shù)據(jù)值差異為該區(qū)域顏色和前景或者背景的顏色中心之間差異的最小值,定義相鄰區(qū)域塊之間差異為相鄰區(qū)域塊的顏色之間的距離;(5)根據(jù)數(shù)據(jù)值的差異和相鄰區(qū)域塊之間的差異,把每個(gè)區(qū)域塊作為一個(gè)節(jié)點(diǎn),構(gòu)造一幅圖分割的圖,再對(duì)這幅圖做最小割,得到對(duì)該幅圖像的近似最優(yōu)化解的標(biāo)注。
5.根據(jù)權(quán)利要求
1所述的一種基于輪廓時(shí)空特征的視頻對(duì)象標(biāo)注方法,其特征在于所述的對(duì)于非關(guān)鍵幀,根據(jù)關(guān)鍵幀上的標(biāo)注結(jié)果,根據(jù)前景的顏色分布和形狀信息,以及背景部分的顏色信息,對(duì)非關(guān)鍵幀進(jìn)行標(biāo)注,標(biāo)注方法包括如下步驟(1)根據(jù)關(guān)鍵幀的標(biāo)注結(jié)果,對(duì)前景和背景的顏色進(jìn)行聚類,這個(gè)聚類結(jié)果將應(yīng)用到非關(guān)鍵幀的數(shù)據(jù)值的差異中;(2)根據(jù)關(guān)鍵幀的標(biāo)注結(jié)果,得到前景物體的輪廓。利用信任度擴(kuò)散算法,在一定的運(yùn)動(dòng)范圍內(nèi)估算物體的運(yùn)動(dòng),得到非關(guān)鍵幀上物體輪廓的大致位置,把這個(gè)輪廓信息做為相鄰區(qū)域塊差異的補(bǔ)充;(3)根據(jù)數(shù)據(jù)值的差異和相鄰區(qū)域塊之間的差異,把每個(gè)區(qū)域塊做為一個(gè)節(jié)點(diǎn),在非關(guān)鍵幀上構(gòu)造一幅圖分割的圖,在這幅圖上做最小割,得到非關(guān)鍵幀上的標(biāo)注。
專利摘要
本發(fā)明公開了一種視頻前景對(duì)象標(biāo)注的方法。包括如下步驟(1)把一段視頻分成若干部分,每部分包含一幅關(guān)鍵幀和若干幅非關(guān)鍵幀;(2)對(duì)于關(guān)鍵幀,要求用戶輸入提示信息,指定前景對(duì)象和背景對(duì)象中的一些關(guān)鍵部分,然后對(duì)關(guān)鍵幀進(jìn)行標(biāo)注;(3)對(duì)于非關(guān)鍵幀,根據(jù)關(guān)鍵幀上的標(biāo)注結(jié)果,把前景部分的顏色分布和形狀信息,以及背景部分的顏色部分作為先驗(yàn)知識(shí),根據(jù)這些先驗(yàn)知識(shí),對(duì)非關(guān)鍵幀進(jìn)行標(biāo)注。本發(fā)明把關(guān)鍵幀上的交互信息和前景形狀傳送到非關(guān)鍵幀上,綜合考慮非關(guān)鍵幀上每個(gè)部分對(duì)于前景和背景分布的顏色相關(guān)性,相鄰兩個(gè)區(qū)域的顏色差異,以及形狀信息來求解非關(guān)鍵幀的標(biāo)注。結(jié)果表明,本發(fā)明能夠解決前景物體邊緣部分標(biāo)注不準(zhǔn)確的問題。
文檔編號(hào)H04N5/262GK1997114SQ200610053398
公開日2007年7月11日 申請(qǐng)日期2006年9月14日
發(fā)明者莊越挺, 董兆華, 肖俊 申請(qǐng)人:浙江大學(xué)導(dǎo)出引文BiBTeX, EndNote, RefMan