專利名稱:視頻對象級時域編輯方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及視頻處理技術(shù)領(lǐng)域,特別涉及一種視頻對象級時域編輯方法及系統(tǒng)。
背景技術(shù):
作為影視制作中不可或缺的手段,視頻編輯技術(shù)可以使影視制作產(chǎn)生一些具有娛樂性和夢幻性的視頻場景,使完美特效出現(xiàn)在影視作品。影視制作后期中在時間軸上的視頻編輯是產(chǎn)生特效的重要策略之一。快速運(yùn)動能完美地表現(xiàn)時光流逝之感。云卷云舒、車水馬龍,這些場景在電影當(dāng)中通常用數(shù)倍于常速的方式來播放。慢速運(yùn)動則能增強(qiáng)緊張或者戲劇性的視頻場景。例如,影視作品里常常在某些危急場景中使用極慢的方式來播放。目前時間軸上的視頻編輯通常只是應(yīng)用于整個視頻幀的操作,即在某個場景中所有視頻對象都是經(jīng)歷相同的時間快/慢變化編輯,如Peker等人于2001年提出的"Constant Pace Skimming and Temporal Sub-sampling of Video using Motion Activity” 和 Bennett 等人于 2007 年提出的"Computational Time-lapse Video”。這些方法針對每一幀,在時間軸上采取一定的重采樣方法抽取出一些圖像,然后將這些圖像以正常速度播放,從而達(dá)到整幀內(nèi)容的時域快/慢編輯。相對于整幀圖像做快/慢變化編輯,允許單個視頻運(yùn)動對象在時間軸上的變化將能使導(dǎo)演提供更大的自由來實現(xiàn)更多的藝術(shù)表現(xiàn)?;趩蝹€視頻運(yùn)動對象在時間軸上的編輯通常需要以下步驟視頻對象的標(biāo)注與精細(xì)分割、時域操作和還原回到背景圖像中以合成最終視頻。視頻對象的半自動標(biāo)注技術(shù)較為高效,如Bradski等人于1998年提出的均值漂移標(biāo)注"Computer Vision Face Tracking for Use in a Perceptual User Interface,, 和 Goldman 等人于 2008 年提出的粒子濾波方法"Video Object Annotation, Navigation and Composition”。半自動標(biāo)注技術(shù)為本視頻對象級時域編輯方法提供了較好的技術(shù)基石出。如果視頻對象之間在時空上原已有相交或重疊,而編輯之后也可能會產(chǎn)生新的相交或重疊,因此需要對視頻對象做精細(xì)地分割與摳取。近年來精細(xì)摳取視頻對象的方法層出不窮。Li等人于2005年提出三維圖模型“Video Object Cut and Paste” ;Wang等人于2005年提出交互式的均值漂移分割I(lǐng)nteractive Video Cutout” ;Bai等人于2009年提出局部分類模型方法“Video Snapcut =Robust Video Object Cutout Using Localized Classifiers”。即使有上述技術(shù)進(jìn)步,視頻對象的精細(xì)分割與摳取到目前為止仍然是一項極其繁瑣的工作,即使是訓(xùn)練有素的視頻制作人員,也需要大量的手工交互工作來完成。Schodl 等人于 2002 年的 “Editing Object Behaviour in Video Sequences” 工作使用藍(lán)屏背景來拍攝運(yùn)動物體并抽取其時空信息,但這并不能廣泛使用于常用視頻中。此外,有一些方法試圖使用視頻尺度伸縮技術(shù)來實現(xiàn)時域編輯。該類方法通常在視頻三維中以類似于“抽線”的方式來改變運(yùn)動物體的顯示時間,如Chen于2008年提出的“Video Carving", Li 于 2009 年提出的"Video Condensation by Ribbon Carving,,,Slot 于 2009 年的"Content-aware Video Editing in the Temporal Domain,,,但這些方法受限于抽線的較小自由度,且不能高效的產(chǎn)生各種編輯效果。
發(fā)明內(nèi)容
(一)要解決的技術(shù)問題本發(fā)明要解決的技術(shù)問題是如何避免使用精細(xì)分割方式,就能達(dá)到實現(xiàn)視頻對象的標(biāo)注和獲得。( 二 )技術(shù)方案為解決上述技術(shù)問題,本發(fā)明提供了一種視頻對象級時域編輯方法,包括以下步驟Sl 提取視頻中每一幀的靜態(tài)背景圖像;S2 用視頻中每一幀的圖像減去對應(yīng)的靜態(tài)背景圖像,以獲得視頻對象;S3 調(diào)整所述視頻對象的起始播放時間,設(shè)置所述視頻對象的重采樣方式;S4:選擇所述視頻對象的起始播放時間和重采樣方式,根據(jù)選擇結(jié)果對所述視頻對象在時域上重排;S5:將所述重排后的視頻對象的每一幀圖像與對應(yīng)的靜態(tài)背景圖像合成,從而得到視頻編輯結(jié)果。優(yōu)選地,步驟Sl之前包括以下步驟SO 對視頻進(jìn)行預(yù)處理,以實現(xiàn)視頻內(nèi)容穩(wěn)定。優(yōu)選地,所述預(yù)處理包括均值濾波、檢測和對齊。優(yōu)選地,步驟S2中具體包括以下步驟S21 將視頻中每一幀的圖像中去除與靜態(tài)背景圖像中對應(yīng)像素顏色值相同的區(qū)域,以獲得由所述視頻對象構(gòu)成的前景運(yùn)動區(qū)域;S22:在視頻中每一幀的前景運(yùn)動區(qū)域中得到與預(yù)設(shè)標(biāo)注的特定視頻對象區(qū)域相重合的部分,將視頻中每一幀重合的部分作為該幀的視頻對象。優(yōu)選地,步驟S4中具體包括以下步驟S41 將重排后的視頻對象相對于原視頻對象定義為Ai*x+Bi,其中,Ai為某一視頻對象i在時域上被拉長或縮短的倍數(shù),χ為重排后的視頻對象i相比起原視頻的起始播放時間,Bi為視頻對象i在時域上偏移的數(shù)值;S42 通過求下列公式中T的最小值,以獲得Ai和Bi, ‘T = T\ + T2] Ai*t5 + Bi = Aj*t5 + Bj
\(Ai *t6 + Bi)-(Aj*tl + Bj)\ > 0其中,
權(quán)利要求
1.一種視頻對象級時域編輯方法,其特征在于,包括以下步驟51提取視頻中每一幀的靜態(tài)背景圖像;52用視頻中每一幀的圖像減去對應(yīng)的靜態(tài)背景圖像,以獲得視頻對象;53調(diào)整所述視頻對象的起始播放時間,設(shè)置所述視頻對象的重采樣方式;54選擇所述視頻對象的起始播放時間和重采樣方式,根據(jù)選擇結(jié)果對所述視頻對象在時域上重排;55將所述重排后的視頻對象的每一幀圖像與對應(yīng)的靜態(tài)背景圖像合成,從而得到視頻編輯結(jié)果。
2.如權(quán)利要求1所述的方法,其特征在于,步驟Sl之前包括以下步驟SO 對視頻進(jìn)行預(yù)處理,以實現(xiàn)視頻內(nèi)容穩(wěn)定。
3.如權(quán)利要求2所述的方法,其特征在于,所述預(yù)處理包括均值濾波、檢測和對齊。
4.如權(quán)利要求1所述的方法,其特征在于,步驟S2中具體包括以下步驟521將視頻中每一幀的圖像中去除與靜態(tài)背景圖像中對應(yīng)像素顏色值相同的區(qū)域,以獲得由所述視頻對象構(gòu)成的前景運(yùn)動區(qū)域;522在視頻中每一幀的前景運(yùn)動區(qū)域中得到與預(yù)設(shè)標(biāo)注的特定視頻對象區(qū)域相重合的部分,將視頻中每一幀重合的部分作為該幀的視頻對象。
5.如權(quán)利要求1所述的方法,其特征在于,步驟S4中具體包括以下步驟541將重排后的視頻對象相對于原視頻對象定義為Ai*x+Bi,其中,Ai為某一視頻對象i在時域上被拉長或縮短的倍數(shù),χ為重排后的視頻對象i相比起原視頻的起始播放時間,Bi為視頻對象i在時域上偏移的數(shù)值;542通過求下列公式中T的最小值,以獲得Ai和Bi,‘T = T\ + T2< Ai*t5 + Bi = Aj*t5 + Bj \(Ai *t6 + Bi)-(Aj*tl + Bj)\ > 0其中,Tl = I I (Ai*tl+Bi)-(Ai*t2+Bi) | |*| | (Ai*tl+Bi)-(Ai*t2+Bi) | |,T2 = | | (Ai* t3+Bi)-(Ai*t4+Bi) I M I (Ai*t3+Bi)-(Ai*t4+Bi) |,tl 為視頻對象 i 的某一動作 a被調(diào)整后出現(xiàn)的時刻,t2為視頻對象i的動作a在重排后出現(xiàn)的時刻,t3為視頻對象i的某一動作b在重排后出現(xiàn)的時刻,t4為視頻對象i的動作b在原視頻中出現(xiàn)的時刻,t5為視頻對象i的某一動作c和視頻對象j的某一動作d相交的時刻,t6和t7表示視頻對象i的某一動作e和視頻對象j的某一動作f在原視頻中不相交,但空間位置有重疊的分別出現(xiàn)的時刻;543設(shè)視頻對象i的某一動作g在原始視頻中偽時刻出現(xiàn),則重排后的結(jié)果為在 Ai*t8+Bi時刻出現(xiàn)。
6.一種視頻對象級時域編輯系統(tǒng),其特征在于,所述系統(tǒng)包括背景提取模塊,用于提取視頻中每一幀的靜態(tài)背景圖像;視頻對象獲得模塊,用于用視頻中每一幀的圖像減去對應(yīng)的靜態(tài)背景圖像,以獲得視頻對象;調(diào)整模塊,用于調(diào)整所述視頻對象的起始播放時間,設(shè)置所述視頻對象的重采樣方式;選擇模塊,用于選擇所述視頻對象的起始播放時間和重采樣方式,根據(jù)選擇結(jié)果對所述視頻對象在時域上重排;合成模塊,用于將所述重排后的視頻對象的每一幀圖像與對應(yīng)的靜態(tài)背景圖像合成, 從而得到視頻編輯結(jié)果。
7.如權(quán)利要求1所述的系統(tǒng),其特征在于,還包括預(yù)處理模塊,用于對視頻進(jìn)行預(yù)處理,以實現(xiàn)視頻內(nèi)容穩(wěn)定。
8.如權(quán)利要求7所述的系統(tǒng),其特征在于,所述預(yù)處理包括均值濾波、檢測和對齊。
9.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述視頻對象獲得模塊中具體包括前景區(qū)域獲得子模塊,用于將視頻中每一幀的圖像中去除與靜態(tài)背景圖像中對應(yīng)像素顏色值相同的區(qū)域,以獲得由所述視頻對象構(gòu)成的前景運(yùn)動區(qū)域;視頻對象獲得子模塊,用于在視頻中每一幀的前景運(yùn)動區(qū)域中得到與預(yù)設(shè)標(biāo)注的特定視頻對象區(qū)域相重合的部分,將視頻中每一幀重合的部分作為該幀的視頻對象。
10.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述選擇模塊包括定義子模塊,用于將重排后的視頻對象相對于原視頻對象定義為Ai*x+Bi,其中,Ai為某一視頻對象i在時域上被拉長或縮短的倍數(shù),χ為重排后的視頻對象i相比起原視頻的起始播放時間,Bi為視頻對象i在時域上偏移的數(shù)值;計算子模塊,用于通過求下列公式中T的最小值,以獲得Ai和Bi,
全文摘要
本發(fā)明公開了一種視頻對象級時域編輯方法及系統(tǒng),涉及視頻處理技術(shù)領(lǐng)域,包括以下步驟S1提取視頻中每一幀的靜態(tài)背景圖像;S2用視頻中每一幀的圖像減去對應(yīng)的靜態(tài)背景圖像,以獲得視頻對象;S3調(diào)整所述視頻對象的起始播放時間,設(shè)置所述視頻對象的重采樣方式;S4選擇所述視頻對象的起始播放時間和重采樣方式,根據(jù)選擇結(jié)果對所述視頻對象在時域上重排;S5將所述重排后的視頻對象的每一幀圖像與對應(yīng)的靜態(tài)背景圖像合成,從而得到視頻編輯結(jié)果。本發(fā)明通過獲取靜態(tài)背景圖像,使得在不使用精細(xì)分割方式的情況下,就能達(dá)到實現(xiàn)視頻對象的標(biāo)注和獲得,進(jìn)而快速實現(xiàn)單個視頻對象級的時域編輯,從而達(dá)到各種視頻特效效果。
文檔編號G11B27/031GK102339625SQ20111028056
公開日2012年2月1日 申請日期2011年9月20日 優(yōu)先權(quán)日2011年9月20日
發(fā)明者盧少平, 張松海, 胡事民, 魏瑨 申請人:清華大學(xué)