專利名稱:用于平面視頻立體轉(zhuǎn)換的字幕去抖方法及字幕去抖裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計(jì)算機(jī)視覺技術(shù)領(lǐng)域,特別涉及一種用于平面立體視頻的字幕去抖方法及字幕去抖裝置。
背景技術(shù):
立體視頻技術(shù)是一種能夠提供立體感的新型視頻技術(shù),已經(jīng)作為未來(lái)多媒體技術(shù)的發(fā)展方向。隨著3D立體顯示技術(shù)的不斷發(fā)展,立體電影、電視、移動(dòng)設(shè)備等立體產(chǎn)品迅速普及,用戶對(duì)立體視頻的需求程度越來(lái)越高。此時(shí),除了提供新的立體拍攝片源以外,還有大量平面視頻資料需要通過(guò)立體化的方法才能實(shí)現(xiàn)立體觀賞。對(duì)于廣大的普通用戶而言,通過(guò)電視觀看立體影視是最直接且便捷的手段。但是, 電視節(jié)目擁有快捷性和復(fù)雜性的特點(diǎn)。具體而言,快捷性要求平面視頻立體化的方法快速有效,復(fù)雜性要求對(duì)電視節(jié)目中的大量字幕等特效能夠有比較好的立體效果。傳統(tǒng)支持自動(dòng)立體化轉(zhuǎn)換的電視可以完成將屏幕視頻資料轉(zhuǎn)換為立體視頻。在視頻中,除了用戶觀看的主體內(nèi)容(如畫面、聲音等),字幕也是用戶觀看的一個(gè)重要內(nèi)容。但是視頻畫面之間深度的不連續(xù)性會(huì)引起字幕的抖動(dòng),畫面內(nèi)部字幕附近區(qū)域深度不一致會(huì)造成字幕的扭曲。 字幕作為視頻中的非自然物體,一旦出現(xiàn)抖動(dòng)和扭曲,很容易引起用戶觀賞的不適。傳統(tǒng)的支持立體化轉(zhuǎn)換的電視還不能解決視頻中字幕的抖動(dòng)和扭曲的問(wèn)題。
發(fā)明內(nèi)容
本發(fā)明的目的旨在至少解決上述技術(shù)缺陷之一。為此,本發(fā)明的第一個(gè)目的在于提出一種用于平面視頻立體轉(zhuǎn)換的字幕去抖方法,該方法可以有效減少甚至去除立體化視頻中字幕抖動(dòng)和扭曲的現(xiàn)象。本發(fā)明的第二個(gè)目的在于提出一種用于平面視頻立體轉(zhuǎn)換的字幕去抖裝置。為實(shí)現(xiàn)上述目的,本發(fā)明第一方面的實(shí)施例提出了一種用于平面視頻立體轉(zhuǎn)換的字幕去抖方法,包括如下步驟輸入預(yù)定數(shù)量的原視頻序列和所述原視頻序列的深度圖序列,其中,所述原視頻序列和所述深度圖序列的分辨率相同;計(jì)算所述原視頻序列中每幀圖像的特征值,并根據(jù)所述每幀圖像的特征值計(jì)算相鄰兩幀圖像的特征值的差值,將所述相鄰兩幀圖像的特征值的差值與特征閾值進(jìn)行比較, 將特征值的差值小于所述特征閾值的像素點(diǎn)進(jìn)行標(biāo)記以得到初始遮罩圖,其中,所述特征閾值與所述特征值對(duì)應(yīng)于所述每幀圖像的同一個(gè)特征;對(duì)所述初始遮罩圖進(jìn)行圖像去噪以去除所述初始遮罩圖中的噪聲點(diǎn)和孤立像素點(diǎn),生成去噪后遮罩圖,所述去噪后遮罩圖包括原視頻序列的靜態(tài)區(qū)域和字幕區(qū)域;生成有效圖像區(qū)域,其中所述有效圖像區(qū)域包括所述去噪后遮罩圖中的特征值的差值小于所述特征閾值的像素在所述原視頻序列中對(duì)應(yīng)的像素點(diǎn),計(jì)算所述有效圖像區(qū)域的直方圖,并將所述有效圖像區(qū)域的直方圖與預(yù)設(shè)直方圖進(jìn)行匹配以得到字幕區(qū)域,對(duì)所述字幕區(qū)域在所述原視頻序列中對(duì)應(yīng)的像素點(diǎn)進(jìn)行標(biāo)記以生成更新后的去噪后遮罩圖;對(duì)所述更新后的去噪后遮罩圖進(jìn)行拓展以得到最終遮罩圖,所述最終遮罩圖包括所述字幕區(qū)域及所述字幕區(qū)域的邊緣;對(duì)所述當(dāng)前幀的最終遮罩圖進(jìn)行深度賦值,包括將所述當(dāng)前幀的最終遮罩圖中的像素點(diǎn)在所述當(dāng)前幀的前面多個(gè)幀的深度圖序列中對(duì)應(yīng)的像素點(diǎn)的深度值賦值到所述當(dāng)前幀的最終遮罩圖中的像素點(diǎn)以得到所述字幕區(qū)域的深度圖;和對(duì)所述字幕區(qū)域的深度圖進(jìn)行幀內(nèi)的圖像平滑處理和幀間的時(shí)域平滑處理。根據(jù)本發(fā)明實(shí)施例的用于平面視頻立體轉(zhuǎn)換的字幕去抖方法,可以有效地改善深度圖中字幕的深度信息,減小甚至消除字幕的抖動(dòng)和扭曲現(xiàn)象,解決立體化視頻播放中字幕抖動(dòng)給用戶造成的不適。本發(fā)明第二方面的實(shí)施例提出一種用于平面視頻立體轉(zhuǎn)換的字幕去抖裝置,包括輸入模塊,所述輸入模塊用于輸入預(yù)定數(shù)量的原視頻序列和所述原視頻序列的深度圖序列,其中,所述原視頻序列和所述深度圖序列的分辨率相同;特征值計(jì)算模塊,所述特征值計(jì)算模塊與所述輸入模塊相連,用于計(jì)算所述原視頻序列中每幀圖像的特征值,并根據(jù)所述每幀圖像的特征值計(jì)算相鄰兩幀圖像的特征值的差值,將所述相鄰兩幀圖像的特征值的差值與特征閾值進(jìn)行比較,將特征值的差值小于所述特征閾值的像素點(diǎn)進(jìn)行標(biāo)記以得到初始遮罩圖,其中,所述特征閾值與所述特征值對(duì)應(yīng)于所述每幀圖像的同一個(gè)特征;去噪模塊,所述去噪模塊與所述特征值計(jì)算模塊相連,用于對(duì)所述初始遮罩圖進(jìn)行圖像去噪以去除所述遮罩圖中的孤立像素點(diǎn),生成去噪后遮罩圖,其中,所述去噪后遮罩圖包括原圖像序列的靜態(tài)區(qū)域和字幕區(qū)域;字幕檢測(cè)模塊,所述字幕檢測(cè)模塊與所述去噪模塊相連,用于生成有效圖像區(qū)域,其中所述有效圖像區(qū)域包括所述去噪后遮罩圖中的特征值的差值小于所述特征閾值的像素在所述原視頻序列中對(duì)應(yīng)的像素點(diǎn),計(jì)算所述有效圖像區(qū)域的直方圖, 并將所述有效圖像區(qū)域的直方圖與預(yù)設(shè)直方圖進(jìn)行匹配以得到字幕區(qū)域,對(duì)所述字幕區(qū)域在所述原視頻序列中對(duì)應(yīng)的像素點(diǎn)進(jìn)行標(biāo)記以生成更新后的去噪后遮罩圖;字幕區(qū)域拓展模塊,所述字幕區(qū)域拓展模塊與所述字幕檢測(cè)模塊相連,用于對(duì)所述更新后的去噪后遮罩圖進(jìn)行拓展以得到最終遮罩圖,所述最終遮罩圖包括所述字幕區(qū)域及所述字幕區(qū)域的邊緣;深度賦值模塊,所述深度賦值模塊分別與所述輸入模塊和所述字幕區(qū)域拓展模塊相連, 用于將所述當(dāng)前幀的最終遮罩圖中的像素點(diǎn)在所述當(dāng)前幀的前面多個(gè)幀的深度圖序列中對(duì)應(yīng)的像素點(diǎn)的深度值賦值到所述當(dāng)前幀的最終遮罩圖中的像素點(diǎn)以得到所述字幕區(qū)域的深度圖;平滑模塊,所述平滑模塊與所述深度賦值模塊相連,用于對(duì)所述字幕區(qū)域的深度圖進(jìn)行幀內(nèi)的圖像平滑處理和幀間的時(shí)域平滑處理。根據(jù)本發(fā)明實(shí)施例的用于平面視頻立體轉(zhuǎn)換的字幕去抖裝置,可以有效地改善深度圖中字幕的深度信息,減小甚至消除字幕的抖動(dòng)和扭曲現(xiàn)象,解決立體化視頻播放中字幕抖動(dòng)給用戶造成的不適。本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過(guò)本發(fā)明的實(shí)踐了解到。
本發(fā)明上述的和/或附加的方面和優(yōu)點(diǎn)從下面結(jié)合附圖對(duì)實(shí)施例的描述中將變得明顯和容易理解,其中圖1為根據(jù)本發(fā)明實(shí)施例的用于平面視頻立體轉(zhuǎn)換的字幕去抖方法的流程圖;和圖2為根據(jù)本發(fā)明實(shí)施例的用于平面視頻立體轉(zhuǎn)換的字幕去抖裝置的結(jié)構(gòu)示意圖。
具體實(shí)施例方式下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號(hào)表示相同或類似的元件或具有相同或類似功能的元件。下面通過(guò)參考附圖描述的實(shí)施例是示例性的,僅用于解釋本發(fā)明,而不能解釋為對(duì)本發(fā)明的限制。下面參考圖1描述根據(jù)本發(fā)明實(shí)施例的用于平面視頻立體轉(zhuǎn)換的字幕去抖方法。如圖1所示,根據(jù)本發(fā)明實(shí)施例的用于平面視頻立體轉(zhuǎn)換的字幕去抖方法,包括如下步驟SlOl 輸入預(yù)定數(shù)量的原視頻序列和原視頻序列的深度圖序列。輸入預(yù)定數(shù)量的原視頻序列和所述原視頻序列的深度圖序列,其中,原視頻序列可以為解碼后的視頻序列。對(duì)于字幕區(qū)域,輸入的深度圖序列質(zhì)量沒有特別的要求,但是必須保證輸入的原視頻序列和深度圖序列的分辨率相同。在本發(fā)明的一個(gè)實(shí)施例中,預(yù)定數(shù)量根據(jù)原視頻序列的運(yùn)動(dòng)信息選取。具體而言,當(dāng)原視頻序列的圖像運(yùn)動(dòng)速度小于預(yù)設(shè)閾值時(shí),預(yù)定數(shù)量設(shè)置為兩幀,即輸入兩幀的原視頻序列和兩幀的深度圖序列。當(dāng)原視頻序列的圖像運(yùn)動(dòng)速度大于預(yù)設(shè)閾值時(shí),預(yù)定數(shù)量設(shè)置為三幀或三幀以上,即輸入三幀或三幀以上的原視頻序列和相同數(shù)量的深度圖序列。為了便于后續(xù)對(duì)相鄰視頻幀圖像的特征的比較,原視頻序列和深度圖序列的數(shù)量不能小于相鄰視頻幀序列的總和。例如,在下一步的步驟102中,如果對(duì)前后兩張視頻幀圖像的特征值進(jìn)行比較,則在步驟101中需要輸入至少兩幀的原視頻序列。如果對(duì)前后相鄰的三幀視頻幀圖像的特征值進(jìn)行比較,則在步驟101中需要輸入至少大于三幀的原視頻序列,其他數(shù)量依次類推。另外,為了便于后續(xù)對(duì)圖像進(jìn)行時(shí)域平滑,原視頻序列和深度圖序列的數(shù)量要大于后續(xù)進(jìn)行時(shí)域平滑的幀的數(shù)量。例如,如果要對(duì)相鄰的前后兩幀的視頻幀圖像進(jìn)行時(shí)域平滑,則需要輸入至少兩幀的原視頻序列。如果要對(duì)三幀的視頻幀圖像進(jìn)行時(shí)域平滑,則需要保證輸入至少三幀的原視頻序列,其他可依次類推。S102:計(jì)算每幀圖像的特征值以及相鄰兩幀圖像的特征值的差值,獲取初始遮罩圖。視頻中的字幕一般都為靜止的或者緩慢運(yùn)動(dòng)的,并且字幕的大小一般是固定的。 通常,具有上述特征的字幕包含在原視頻序列的不動(dòng)區(qū)域中。因此,通過(guò)檢測(cè)原視頻序列中的不同區(qū)域,即可實(shí)現(xiàn)對(duì)字幕區(qū)域的檢測(cè)。在本發(fā)明的一個(gè)實(shí)施例中,通過(guò)對(duì)相鄰兩幀的圖像的特征值進(jìn)行比較,將其中差異較小的區(qū)域或像素進(jìn)行標(biāo)記,形成初始遮罩圖,從而實(shí)現(xiàn)對(duì)字幕區(qū)域的檢測(cè)。首先,選取對(duì)字幕比較顯著的特征以進(jìn)行比較,這樣可以得到比較好的檢測(cè)效果。 圖像中的字幕通常表現(xiàn)為形狀不變、高亮度、單色或者直方圖單一等特性,因此。本發(fā)明的實(shí)施例可以選取灰度特征、直方圖、顏色特征和運(yùn)動(dòng)向量中的任一項(xiàng)作為待比較的特征。其中,灰度特征對(duì)于亮度敏感,通過(guò)檢測(cè)灰度特征可以有效的檢測(cè)到白色字幕。通過(guò)檢測(cè)直方圖特征可以檢測(cè)到字幕變化小或者字幕大小有變化但統(tǒng)計(jì)特征沒有變化的字。通過(guò)檢測(cè)顏色特征可以檢測(cè)到不是白色但是顏色基本不變的字。通過(guò)檢測(cè)運(yùn)動(dòng)向量特征可以檢測(cè)到字幕和顏色均不變,但在視頻中有輕微運(yùn)動(dòng)的字。然后,根據(jù)已選取好的特征,計(jì)算原視頻序列中每幀圖像的基于該特征的特征值, 并根據(jù)每幀圖像的特征值計(jì)算相鄰兩幀圖像的特征值的差值。在本發(fā)明的一個(gè)實(shí)施例中, 根據(jù)選取的特征的不同,原視頻序列中每幀圖像的特征值可以為每幀圖像的灰度特征值、 直方圖特征值、顏色特征值或運(yùn)動(dòng)向量特征值。將相鄰兩幀圖像的特征值的差值與基于該特征而預(yù)設(shè)的特征閾值進(jìn)行比較,將特征值的差值小于所述特征閾值的像素點(diǎn)進(jìn)行標(biāo)記,例如將特征值的差值小于所述特征閾值的像素點(diǎn)標(biāo)記為白色,將不滿足該條件的像素點(diǎn)標(biāo)記為黑色,從而形成一張初始遮罩圖??梢岳斫獾氖?,特征閾值和特征值必須是對(duì)應(yīng)于每幀圖像的同一個(gè)特征。下面以灰度特征為例對(duì)步驟S102進(jìn)行詳細(xì)說(shuō)明。首先,計(jì)算圖像灰度圖,得到每幀圖像的灰度值。對(duì)前后兩幀圖像的灰度值進(jìn)行比較,將灰度值的差值小于預(yù)設(shè)的灰度特征閾值的像素標(biāo)記為白色,其他像素為黑色,從而形成一張初始遮罩圖。所述初始遮罩圖中像素計(jì)算公式如下Ζ, , = ^ /Λι ’力 、
(’')[0其中,(χ, y)為像素在圖像中的坐標(biāo),Z(x,y)為像素點(diǎn)(X,y)在初始遮罩圖中的像素值,A(x,y)為相鄰幀對(duì)應(yīng)像素點(diǎn)的灰度值的差值的絕對(duì)值,α為預(yù)設(shè)的灰度特征閾值。在本發(fā)明的一個(gè)實(shí)施例中,Δ (x,y)可以選取為10。當(dāng)像素(X,y)的深度差,即該像素對(duì)應(yīng)灰度值的差值的絕對(duì)值Δ (x,y)小于或等于 α?xí)r,則認(rèn)為該像素點(diǎn)(X,y)沒有變化,當(dāng)A(x,y)大于α?xí)r,則認(rèn)為該像素點(diǎn)(X,y)有變化。S103 對(duì)初始遮罩圖進(jìn)行圖像去噪。由于噪聲點(diǎn)的像素特征比較小,在步驟S102中的得到初始遮罩圖中還會(huì)存在很多的噪聲點(diǎn)和孤立像素點(diǎn),這些噪聲和孤立像素點(diǎn)將對(duì)后續(xù)的步驟產(chǎn)生干擾,因此需要對(duì)初始遮罩圖進(jìn)行圖像去噪以去除上述像素噪聲和孤立像素點(diǎn)?,F(xiàn)有的對(duì)圖像進(jìn)行去噪的方法均可實(shí)現(xiàn)對(duì)本發(fā)明實(shí)施例的初始遮罩圖的圖像去噪。在本發(fā)明的一個(gè)實(shí)施例中,采用形態(tài)學(xué)方法中的腐蝕算法對(duì)初始遮罩圖進(jìn)行圖像去噪。利用腐蝕算法對(duì)初始遮罩圖進(jìn)行圖像去噪不僅能夠有效去除遮罩圖中的孤立的噪聲點(diǎn),而且運(yùn)算速度快,執(zhí)行效率高。如果在初始遮罩圖中噪聲點(diǎn)較多,可以多次使用腐蝕算法來(lái)減少噪聲。但是,多次使用腐蝕算法進(jìn)行圖像去噪會(huì)影響字幕區(qū)域的檢測(cè)質(zhì)量,因此圖像去噪的次數(shù)需要視情況而定。通過(guò)上述步驟的圖像去噪,去除了初始遮罩圖中的孤立像素點(diǎn)和噪聲點(diǎn),生成去噪后遮罩圖。去噪后遮罩圖包括有原視頻序列的靜態(tài)區(qū)域和字幕區(qū)域。S104:基于直方圖的字幕檢測(cè)。步驟S103中得到去噪后遮罩圖,包括字幕區(qū)域和靜態(tài)區(qū)域。在本步驟中,采用快速匹配算法對(duì)字幕區(qū)域進(jìn)行檢測(cè)。由于字幕區(qū)域一般都具有比較固定的直方圖統(tǒng)計(jì)特性, 因此可以通過(guò)檢測(cè)直方圖特征檢測(cè)出字幕區(qū)域。首先生成有效圖像區(qū)域,其中,有效圖像區(qū)域包括去噪后遮罩圖中的特征值的差值小于特征閾值的像素在原視頻序列中對(duì)應(yīng)的像素點(diǎn)。具體而言,在去噪后遮罩圖中將有效的像素在原視頻幀圖像中對(duì)應(yīng)的像素點(diǎn)提取出來(lái),即將去噪后遮罩圖中標(biāo)記為白色的像素點(diǎn)提取出來(lái),將該部分像素點(diǎn)和其他像素點(diǎn)共同形成有效圖像區(qū)域。換言之,將像素Z(x, y)等于1的像素點(diǎn)提取出來(lái),并將這部分像素z(x,y)等于1與其他像素點(diǎn)共同形成有效圖像區(qū)域。有效圖像區(qū)域中像素z(x,y)等于1的像素點(diǎn)賦值為在原視頻序列中的對(duì)應(yīng)點(diǎn)的像素值。由此,在該有效圖像區(qū)域中,只有初始遮罩圖中z(x,y)等于1的像素點(diǎn)的位置有像素值, 而其他位置的像素點(diǎn)為空,將上述其他像素點(diǎn)所在的位置標(biāo)記為黑色。統(tǒng)計(jì)上述有效圖像區(qū)域的直方圖。并將有效圖像區(qū)域的直方圖與常用字幕的直方圖模板進(jìn)行比較。其中,常用字幕的直方圖模板為預(yù)先定義的。上述常用字幕的直方圖模板主要定義字幕的形狀、顏色等特征,而與字幕大小沒有關(guān)系。有效圖像區(qū)域包括有多個(gè)區(qū)段,將每個(gè)區(qū)段的直方圖與預(yù)設(shè)的直方圖模板進(jìn)行區(qū)段匹配,找到最佳匹配的區(qū)段作為字幕區(qū)域。下面對(duì)每個(gè)區(qū)段的直方圖與預(yù)設(shè)的直方圖模板的過(guò)程進(jìn)行描述。首先,通過(guò)下述公式計(jì)算每個(gè)區(qū)段的直方圖和預(yù)設(shè)直方圖的均方差。
權(quán)利要求
1.一種用于平面視頻立體轉(zhuǎn)換的字幕去抖方法,其特征在于,包括如下步驟輸入預(yù)定數(shù)量的原視頻序列和所述原視頻序列的深度圖序列,其中,所述原視頻序列和所述深度圖序列的分辨率相同;計(jì)算所述原視頻序列中每幀圖像的特征值,并根據(jù)所述每幀圖像的特征值計(jì)算相鄰兩幀圖像的特征值的差值,將所述相鄰兩幀圖像的特征值的差值與特征閾值進(jìn)行比較,將特征值的差值小于所述特征閾值的像素點(diǎn)進(jìn)行標(biāo)記以得到初始遮罩圖,其中,所述特征閾值與所述特征值對(duì)應(yīng)于所述每幀圖像的同一個(gè)特征;對(duì)所述初始遮罩圖進(jìn)行圖像去噪以去除所述初始遮罩圖中的噪聲點(diǎn)和孤立像素點(diǎn),生成去噪后遮罩圖,所述去噪后遮罩圖包括原視頻序列的靜態(tài)區(qū)域和字幕區(qū)域;生成有效圖像區(qū)域,其中所述有效圖像區(qū)域包括所述去噪后遮罩圖中的特征值的差值小于所述特征閾值的像素在所述原視頻序列中對(duì)應(yīng)的像素點(diǎn),計(jì)算所述有效圖像區(qū)域的直方圖,并將所述有效圖像區(qū)域的直方圖與預(yù)設(shè)直方圖進(jìn)行匹配以得到字幕區(qū)域,對(duì)所述字幕區(qū)域在所述原視頻序列中對(duì)應(yīng)的像素點(diǎn)進(jìn)行標(biāo)記以生成更新后的去噪后遮罩圖;對(duì)所述更新后的去噪后遮罩圖進(jìn)行拓展以得到最終遮罩圖,所述最終遮罩圖包括所述字幕區(qū)域及所述字幕區(qū)域的邊緣;對(duì)所述當(dāng)前幀的最終遮罩圖進(jìn)行深度賦值,包括將所述當(dāng)前幀的最終遮罩圖中的像素點(diǎn)在所述當(dāng)前幀的前面多個(gè)幀的深度圖序列中對(duì)應(yīng)的像素點(diǎn)的深度值賦值到所述當(dāng)前幀的最終遮罩圖中的像素點(diǎn)以得到所述字幕區(qū)域的深度圖;和對(duì)所述字幕區(qū)域的深度圖進(jìn)行幀內(nèi)的圖像平滑處理和幀間的時(shí)域平滑處理。
2.如權(quán)利要求1所述的字幕去抖方法,其特征在于,所述預(yù)定數(shù)量為兩幀、三幀或三幀以上。
3.如權(quán)利要求1所述的字幕去抖方法,其特征在于,所述原視頻序列中每幀圖像的特征值為所述每幀圖像的灰度特征值、直方圖特征值、顏色特征值或運(yùn)動(dòng)向量特征值。
4.如權(quán)利要求1所述的字幕去抖方法,其特征在于,采用腐蝕算法對(duì)所述初始遮罩圖進(jìn)行圖像去噪。
5.如權(quán)利要求1所述的字幕去抖方法,其特征在于,所述有效圖像區(qū)域包括多個(gè)區(qū)段, 將每個(gè)區(qū)段的直方圖與預(yù)設(shè)直方圖進(jìn)行匹配,包括如下步驟采用下述公式計(jì)算所述每個(gè)區(qū)段的直方圖和所述預(yù)設(shè)直方圖的均方差, X2 X2 r Kr) H(J)〉/(Xj2) = ΣΣ=xI J=xIZz(X15X2) Η(χ χ2)其中,X1表示當(dāng)前區(qū)段的起始位置,X2表示所述當(dāng)前區(qū)段的終止位置,h(i)表示i位置處的像素點(diǎn)的常用的字幕直方圖的值,i位于X1和X2之間,H(J)表示所述當(dāng)前區(qū)段中j 位置處原圖像直方圖的值,j位于X1和X2之間,h(Xl,X2)表示常用的字幕直方圖取值之和, H(χι; χ2)表示所述當(dāng)前區(qū)段的直方圖的取值之和; 選取所述均方差最小的區(qū)段作為所述字幕區(qū)域。
6.如權(quán)利要求1所述的字幕去抖方法,其特征在于,采用膨脹算法對(duì)所述更新后的去噪后的遮罩圖進(jìn)行拓展。
7.如權(quán)利要求1所述的字幕去抖方法,其特征在于,通過(guò)下述公式將所述當(dāng)前幀的最終遮罩圖中的像素點(diǎn)在所述當(dāng)前幀的前C個(gè)幀的深度圖序列中對(duì)應(yīng)的像素點(diǎn)的深度值賦值到所述當(dāng)前幀的最終遮罩圖中的像素點(diǎn), 其中,D表示當(dāng)前幀的最終遮罩圖中的像素點(diǎn)的深度值,Mask為所述最終遮罩圖中特征值的差值小于所述特征閾值的像素點(diǎn),C為用于時(shí)域平滑的總幀數(shù),、是(個(gè)幀中對(duì)應(yīng)幀的加權(quán)系數(shù),Di是C個(gè)幀中對(duì)應(yīng)幀的對(duì)應(yīng)像素點(diǎn)的深度值。
8.如權(quán)利要求1所述的字幕去抖方法,其特征在于,所述對(duì)所述字幕區(qū)域的深度圖進(jìn)行幀內(nèi)的圖像平滑處理采用高斯濾波方法或中值濾波方法。
9.如權(quán)利要求1所述的字幕去抖方法,其特征在于,所述對(duì)所述字幕區(qū)域的深度圖進(jìn)行幀間的時(shí)域平滑處理采用滑動(dòng)平均方法或時(shí)域加權(quán)方法。
10.一種用于平面視頻立體轉(zhuǎn)換的字幕去抖裝置,其特征在于,包括輸入模塊,所述輸入模塊用于輸入預(yù)定數(shù)量的原視頻序列和所述原視頻序列的深度圖序列,其中,所述原視頻序列和所述深度圖序列的分辨率相同;特征值計(jì)算模塊,所述特征值計(jì)算模塊與所述輸入模塊相連,用于計(jì)算所述原視頻序列中每幀圖像的特征值,并根據(jù)所述每幀圖像的特征值計(jì)算相鄰兩幀圖像的特征值的差值,將所述相鄰兩幀圖像的特征值的差值與特征閾值進(jìn)行比較,將特征值的差值小于所述特征閾值的像素點(diǎn)進(jìn)行標(biāo)記以得到初始遮罩圖,其中,所述特征閾值與所述特征值對(duì)應(yīng)于所述每幀圖像的同一個(gè)特征;去噪模塊,所述去噪模塊與所述特征值計(jì)算模塊相連,用于對(duì)所述初始遮罩圖進(jìn)行圖像去噪以去除所述遮罩圖中的孤立像素點(diǎn),生成去噪后遮罩圖,其中,所述去噪后遮罩圖包括原圖像序列的靜態(tài)區(qū)域和字幕區(qū)域;字幕檢測(cè)模塊,所述字幕檢測(cè)模塊與所述去噪模塊相連,用于生成有效圖像區(qū)域,其中所述有效圖像區(qū)域包括所述去噪后遮罩圖中的特征值的差值小于所述特征閾值的像素在所述原視頻序列中對(duì)應(yīng)的像素點(diǎn),計(jì)算所述有效圖像區(qū)域的直方圖,并將所述有效圖像區(qū)域的直方圖與預(yù)設(shè)直方圖進(jìn)行匹配以得到字幕區(qū)域,對(duì)所述字幕區(qū)域在所述原視頻序列中對(duì)應(yīng)的像素點(diǎn)進(jìn)行標(biāo)記以生成更新后的去噪后遮罩圖;字幕區(qū)域拓展模塊,所述字幕區(qū)域拓展模塊與所述字幕檢測(cè)模塊相連,用于對(duì)所述更新后的去噪后遮罩圖進(jìn)行拓展以得到最終遮罩圖,所述最終遮罩圖包括所述字幕區(qū)域及所述字幕區(qū)域的邊緣;深度賦值模塊,所述深度賦值模塊分別與所述輸入模塊和所述字幕區(qū)域拓展模塊相連,用于將所述當(dāng)前幀的最終遮罩圖中的像素點(diǎn)在所述當(dāng)前幀的前面多個(gè)幀的深度圖序列中對(duì)應(yīng)的像素點(diǎn)的深度值賦值到所述當(dāng)前幀的最終遮罩圖中的像素點(diǎn)以得到所述字幕區(qū)域的深度圖;和平滑模塊,所述平滑模塊與所述深度賦值模塊相連,用于對(duì)所述字幕區(qū)域的深度圖進(jìn)行幀內(nèi)的圖像平滑處理和幀間的時(shí)域平滑處理。
11.如權(quán)利要求10所述的字幕去抖裝置,其特征在于,所述預(yù)定數(shù)量為兩幀、三幀或三幀以上。
12.如權(quán)利要求10所述的字幕去抖裝置,其特征在于,所述特征值計(jì)算模塊計(jì)算所述原視頻序列中每幀圖像的特征值為所述每幀圖像的灰度特征值、直方圖特征值、顏色特征值或運(yùn)動(dòng)向量特征值。
13.如權(quán)利要求10所述的字幕去抖裝置,其特征在于,所述去噪模塊采用腐蝕算法對(duì)所述初始遮罩圖進(jìn)行圖像去噪。
14.如權(quán)利要求10所述的字幕去抖裝置,其特征在于,所述有效圖像區(qū)域包括多個(gè)區(qū)段,所述字幕檢測(cè)模塊采用下述公式計(jì)算所述每個(gè)區(qū)段的直方圖和所述預(yù)設(shè)直方圖的均方差,
15.如權(quán)利要求10所述的字幕去抖裝置,其特征在于,所述字幕區(qū)域拓展模塊采用膨脹算法對(duì)所述更新后的去噪后的遮罩圖進(jìn)行拓展。
16.如權(quán)利要求10所述的字幕去抖裝置,其特征在于,所述深度賦值模塊通過(guò)下述公式將所述當(dāng)前幀的最終遮罩圖中的像素點(diǎn)在所述當(dāng)前幀的前C個(gè)幀的深度圖序列中對(duì)應(yīng)的像素點(diǎn)的深度值賦值到所述當(dāng)前幀的最終遮罩圖中的像素點(diǎn),
17.如權(quán)利要求10所述的字幕去抖裝置,其特征在于,所述平滑模塊采用高斯濾波方法或中值濾波方法對(duì)所述字幕區(qū)域的深度圖進(jìn)行幀內(nèi)的圖像平滑處理。
18.如權(quán)利要求10所述的字幕去抖裝置,其特征在于,所述平滑模塊采用滑動(dòng)平均方法或時(shí)域加權(quán)方法對(duì)所述字幕區(qū)域的深度圖進(jìn)行幀間的時(shí)域平滑處理。
全文摘要
本發(fā)明公開了一種用于平面視頻立體轉(zhuǎn)換的字幕去抖方法,包括如下步驟輸入預(yù)定數(shù)量的原視頻序列和原視頻序列的深度圖序列;計(jì)算原視頻序列中每幀圖像的特征值,并將相鄰兩幀圖像的特征值的差值與特征閾值進(jìn)行比較以得到初始遮罩圖;對(duì)初始遮罩圖進(jìn)行圖像去噪;計(jì)算有效圖像區(qū)域的直方圖,并將有效圖像區(qū)域的直方圖與預(yù)設(shè)直方圖進(jìn)行匹配;對(duì)更新后的去噪后遮罩圖進(jìn)行拓展以得到最終遮罩圖;對(duì)當(dāng)前幀的最終遮罩圖進(jìn)行深度賦值;對(duì)字幕區(qū)域的深度圖進(jìn)行幀內(nèi)的圖像平滑處理和幀間的時(shí)域平滑處理。本發(fā)明還公開了一種用于平面視頻立體轉(zhuǎn)換的字幕去抖裝置。本發(fā)明可以有效地改善深度圖中字幕的深度信息,減小甚至消除字幕的抖動(dòng)和扭曲現(xiàn)象。
文檔編號(hào)H04N13/00GK102202224SQ20111016930
公開日2011年9月28日 申請(qǐng)日期2011年6月22日 優(yōu)先權(quán)日2011年6月22日
發(fā)明者徐琨, 戴瓊海 申請(qǐng)人:清華大學(xué)