專利名稱:一種實現(xiàn)平面視頻轉(zhuǎn)立體視頻的方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬于計算機多媒體技術(shù)領(lǐng)域,特別涉及一種實現(xiàn)平面視頻轉(zhuǎn)立體視 頻的方法和裝置。
背景技術(shù):
立體視頻的出現(xiàn)無疑是一場視覺上的革命,它給人們帶來了全新的視覺體 驗。然而,伴隨著立體顯示技術(shù)的不斷發(fā)展以及立體顯示設(shè)備的飛速普及,立 體顯示片源卻嚴(yán)重匱乏,這種現(xiàn)狀對于我們能夠方^^地產(chǎn)生用于立體顯示的片 源提出了迫切要求。當(dāng)然,我們可以通過重新設(shè)計現(xiàn)有的拍攝設(shè)備直接獲得立 體視頻素材,譬如利用立體攝像機同時進行雙目采集,但是這種方法遠遠不能 滿足我們的要求。 一方面是因為我們希望能夠利用已經(jīng)積累起來的龐大的平面 視頻素材庫,另一方面則是由于立體攝像器材的使用還受到成本、技術(shù)條件等 種種限制,采用單目攝像機拍攝在相當(dāng)長一段時期仍將是主流。為此,需要我 們考慮如何轉(zhuǎn)換現(xiàn)有的平面媒體資源,也即是說,平面視頻立體化也將是未來 的發(fā)展趨勢??傊矫嬉曨l轉(zhuǎn)立體視頻的研究不僅在科研領(lǐng)域?qū)儆谇把責(zé)狳c 課題,在大眾領(lǐng)域也越來越受到歡迎和青睞,尤其是電影、電視、游戲等娛樂 產(chǎn)業(yè),更是具有巨大的市場潛力。
目前一種被普遍采用的平面視頻轉(zhuǎn)立體視頻的體系結(jié)構(gòu)為對于一段平面 的彩色圖像序列,想辦法獲取每一幀所對應(yīng)的深度圖,該深度圖包含了原圖像 中各個像素點的深度信息。接下來,我們通過所謂的DIBR (D印th-Image-Based Rendering,基于深度圖渲染)的技術(shù),就可以獲得真實世界場景在一個或多個 方向上的虛擬視角(所謂虛擬視角是指并沒有真正地在這個角度上對真實場景 進行拍攝,卻通過將"從其他角度所拍攝到的圖像"進行變形獲得了新的圖像, 看上去該圖像好像就是從這個角度進行拍攝的),從而最終合成立體視頻。然而, 這種方法中深度圖的獲取是一個相當(dāng)困難的任務(wù)。若是已知左右兩幅視圖求取 深度圖,我們還可以借助計算機視覺中已有的立體匹配算法,若在不知道左右 兩幅視圖的情況下,如何通過直接由平面圖像獲取深度圖,進而得到立體視頻 是個亟需解決的問題之一。
發(fā)明內(nèi)容
為了全自動地實現(xiàn)對一個視頻序列中每幀圖像所對應(yīng)的深度圖的獲取,從 而較好地完成將平面視頻轉(zhuǎn)為立體視頻的任務(wù),本發(fā)明實施例提供了 一種實現(xiàn)
平面視頻轉(zhuǎn)立體視頻的方法和裝置。所述技術(shù)方案如下
一方面,提供了一種實現(xiàn)平面^L頻轉(zhuǎn)立體^L頻的方法,所述方法包括 Cl:讀取當(dāng)前幀;
C2:如果所述讀取的當(dāng)前幀為關(guān)鍵幀,則對所述當(dāng)前幀的圖像進行顏色分 割,對所述分割后的圖像進行深度賦值,得到所述當(dāng)前幀的深度圖; 如果所述讀取的當(dāng)前幀為非關(guān)鍵幀,則獲取所述當(dāng)前幀的深度圖; C3:根據(jù)所述獲取的當(dāng)前幀的深度圖,基于深度圖渲染得到立體視頻的一
幀;
C4:繼續(xù)讀取所述當(dāng)前幀的下一幀,返回執(zhí)行步驟C2-C3,直到最終得到立體 視頻。
進一步地,所述步驟C2之前,所述方法還包括判斷所述讀取的當(dāng)前幀是 否為關(guān)鍵幀;
所述判斷所述讀取的當(dāng)前幀是否為關(guān)鍵幀,具體包括 判斷所述讀取的當(dāng)前幀是否為視頻圖像的起始幀,如果是,則該當(dāng)前幀為 關(guān)鍵幀;
如果所述讀取的當(dāng)前幀不是視頻圖像的起始幀,則計算所述讀取當(dāng)前幀與 其上一幀的相似度,如果相似度差距大于第一預(yù)設(shè)閾值,則該當(dāng)前幀為關(guān)鍵幀; 或,
如果所述讀取的當(dāng)前幀不是視頻圖像的起始幀,則計算所述讀取當(dāng)前幀與 前一個關(guān)鍵幀的相似度,如果相似度差距大于第二預(yù)設(shè)閾值,則該當(dāng)前幀為關(guān) 鍵幀。
其中,所述計算所述讀取當(dāng)前幀與其上一幀的相似度,包括 分別將所述讀取的當(dāng)前幀以及所述讀取的當(dāng)前幀的上一幀圖像劃分為
個子區(qū)域,計算出各個區(qū)域的圖像區(qū)域熵<formula>formula see original document page 10</formula>根據(jù)所述讀取的當(dāng)前幀的上 一 幀的圖像區(qū)域熵,得到P x 2維的矢量
根據(jù)所述讀取的當(dāng)前幀的圖像區(qū)域熵,得到Px2維的矢量獲取所述兩個矢量之間的距離"諷H':HlH,H'i2;
根據(jù)所述獲取的距離,得到所述讀取的當(dāng)前幀與其上一幀的相似度。 其中,所述計算所述讀取當(dāng)前幀與前個關(guān)鍵幀的相似度,包括 分別對所述讀取的當(dāng)前幀以及所述讀取的當(dāng)前幀的前一關(guān)鍵幀圖像劃分為
尸x 2個子區(qū)域,計算出各個區(qū)域的圖像區(qū)域熵(/) log ^ (/)
根據(jù)所述讀取的當(dāng)前幀的前 一 關(guān)鍵幀的圖像區(qū)域熵,得到P x 2維的矢量
根據(jù)所述讀取的當(dāng)前幀的圖像區(qū)域熵,得到維的矢量
獲取所述兩個矢量之間的距離"(H, H》=HH, Ht;
根據(jù)所述獲取的距離,得到所述讀取的當(dāng)前幀與其前一關(guān)鍵幀的相似度。
其中,所述對所述當(dāng)前幀的圖像進行顏色分割,包括 將當(dāng)前幀的圖像由RGB顏色空間轉(zhuǎn)換為CIELab顏色空間; 當(dāng)進行完顏色空間轉(zhuǎn)換后,對所述當(dāng)前幀的圖像中的每個像素,將所述像
素的Lab分量及其空間坐標(biāo)組合成一個五維向量x"
在所述五維向量x。所組成的線性空間中執(zhí)行MeanShift算法,得到濾波后
的圖像;
通過洪泛算法,對所述濾波后的圖像中顏色相似、位置相近的像素點指定 相同的標(biāo)號,賦予相同的顏色,得到多塊圖像區(qū)域;
將所述得到的多塊圖像區(qū)域中面積較小的區(qū)域合并到與之相鄰的顏色最為 接近的區(qū)域中去,得到分割后的圖像,所述分割后的圖像中最終的區(qū)域個數(shù)滿 足預(yù)設(shè)要求。
其中,所述預(yù)設(shè)要求為分割后的圖像中最終的區(qū)域個數(shù)小于等于四個。 其中,所述對分割后的圖像進行深度賦值,得到所述當(dāng)前幀的深度圖,包
括
如果所述當(dāng)前幀的場景是靜止場景,則使用圖像熵判斷區(qū)域的關(guān)系遠近, 根據(jù)判斷的結(jié)果對所述分割后的圖像進行深度賦值,得到所述當(dāng)前幀的深度圖; 如果所述當(dāng)前幀的場景是運動場景,則使用光流法判斷區(qū)域的遠近,根據(jù)判斷的結(jié)果對所述分割后的圖像進行深度賦值,得到所述當(dāng)前幀的深度圖。
進一步地,所述對分割后的圖像進行深度賦值之前,所述方法還包括判 斷所述當(dāng)前幀的場景是否靜止;
所述判斷所述當(dāng)前幀的場景是否靜止,具體包括
得到所述當(dāng)前幀的圖像與下 一 幀圖像的對應(yīng)像素點在各個顏色通道上的差 值,將所述差值的絕對值關(guān)于所有像素點和所有顏色通道求和,即
e = 1] Z Z 乂 c) — 少,c)
jc=0戶0 c=l
若e小于給定閾值,則是靜止場景,否則是運動場景。 其中,所述使用圖像熵判斷區(qū)域的關(guān)系遠近,包括
將大小為MxAA的當(dāng)前幀由RGB顏色空間轉(zhuǎn)換為HSI顏色空間,并劃分成
戶xg個小方塊。
計算出各個方塊所對應(yīng)的圖像熵= -1 &(/)log;
依次遍歷當(dāng)前幀中所有的小方塊(/, /), / = 1,2,…,j' = 1,2,…2 ,判斷它在分割后
得到的圖像中所屬于的區(qū)域;
依次遍歷所述分割后的圖像中所有的區(qū)域^/=1,2"'1,對于每塊區(qū)域、根
據(jù)其所包含的小方塊,將這些方塊所對應(yīng)的圖像熵取均值,作為衡量該區(qū)域A的
指標(biāo)A;
若區(qū)域e'e")沒有任何屬于它的方塊,則按照公式, 求取 出該區(qū)域的重心(^刃,在當(dāng)前幀中提取出以點(^刃為中心,大小為 LM/P」xL^/e」的一個方塊,計算出該方塊所對應(yīng)的圖像熵,將其作為衡量區(qū)域c'
的指標(biāo)A;
對于各個區(qū)域,所述指標(biāo)越大則該區(qū)域在實際場景中越靠近前方。 其中,所述使用光流法判斷區(qū)域的遠近,包括
利用Harris角點檢測,在當(dāng)前幀中紋理比較復(fù)雜的地方選取一部分角點作 為特征點,執(zhí)行基于迭代金字塔的Lucas Kanade光流法,獲得所述選取的特征 點的光流值;對當(dāng)前幀中紋理比較均勻的地方,隨機選取一些點,使用塊匹配 的方法求取所述選取的點的光流值;
對于每個分割后區(qū)域,統(tǒng)計該區(qū)域內(nèi)光流值的平均值。
12所述光流平均值越大則所述區(qū)域在實際場景中越靠近前方。
其中,所述獲取所述當(dāng)前幀的深度圖,包括
如果所述當(dāng)前幀的場景為運動場景,則通過深度圖擴散算法獲得當(dāng)前幀的
深度如果所述當(dāng)前幀的場景為靜止場景,則將所述當(dāng)前幀的上一幀的深度圖作 為所述當(dāng)前幀的深度圖。
進一步地,所述獲取所述當(dāng)前幀的深度圖之前,所述方法還包括判斷所 述當(dāng)前幀的場景是否靜止,
所述判斷所述當(dāng)前幀的場景是否運動,具體包括
得到所述當(dāng)前幀的圖像與上一幀圖像的對應(yīng)像素點在各個顏色通道上的差 值,將所述差值的絕對值關(guān)于所有像素點和所有顏色通道求和,即
M—1W-1 3
e=Z! Z Z! |/(x, a c)- 又c)
;C=0 "0 C=l
若e小于給定閾值,則是靜止場景,否則是運動場景。
其中,所述通過深度圖擴散算法獲得當(dāng)前幀的深度圖,包括
當(dāng)前幀中任意一個像素點/的深度值由其鄰域內(nèi)所有像素點y在上一幀中的
Z V)深度值經(jīng)加權(quán)求和得到,即^ - ,其中,鄰域內(nèi)各像素點y的權(quán)值由
下式?jīng)Q定
其中,《'+1、 gr1、 b;"代表當(dāng)前幀中像素/的r、 g、 b分量,而d、 g;.、 b;代表其
鄰域內(nèi)的像素7在上一幀中的r、 g、 b分量。
進一步地,所述通過深度圖擴散算法獲得當(dāng)前幀的深度圖之后,所述方法
還包括對獲取的當(dāng)前幀的深度圖進行修正;
所述對獲取的當(dāng)前幀的深度圖進行修正,具體包括
將所述當(dāng)前幀的深度圖劃分為若干小塊,對于每一小塊,利用最小均方誤 差準(zhǔn)則找到它在上一幀深度圖中的匹配塊,將這一小塊中像素的灰度值用匹配 塊中對應(yīng)像素的灰度值替代。進一步地,所述步驟C3之前,所述方法還包括 對所述獲取的深度圖,進行高斯濾波,得到濾波后的深度圖; 相應(yīng)地,
所述步驟C3,包括根據(jù)所述得到的濾波后的深度圖,基于深度圖渲染得到 立伴4見頻的一幀。
再一方面,提供了一種實現(xiàn)平面視頻轉(zhuǎn)立體視頻的裝置,所述裝置包括 讀取模塊,用于讀取當(dāng)前幀;
分割模塊,用于如果所述讀取模塊讀取的當(dāng)前幀為關(guān)鍵幀,則對所述當(dāng)前 幀的圖像進行顏色分割;
第一深度圖獲取模塊,用于對所述分割模塊分割后的圖像進行深度賦值, 得到所述當(dāng)前幀的深度第二深度圖獲取模塊,用于如果所述讀取模塊讀取的當(dāng)前幀為非關(guān)鍵幀, 則獲取所述當(dāng)前幀的深度渲染模塊,根據(jù)所述第 一深度圖獲取模塊或所述第二深度圖獲取模塊獲取 的當(dāng)前幀的深度圖,基于深度圖渲染得到立體視頻的一幀;通知所述讀f^莫塊 繼續(xù)讀取所述當(dāng)前幀的下一幀,直到最終得到立體視頻。
進一步地,所述裝置還包括判斷模塊,用于判斷所述讀取的當(dāng)前幀是否 為關(guān)鍵幀如果所述讀取的當(dāng)前幀是視頻圖像的起始幀,則該當(dāng)前幀為關(guān)鍵幀; 如果所述讀取的當(dāng)前幀不是視頻圖像的起始幀,則計算所述讀取當(dāng)前幀與其上 一幀的相似度,如果相似度差距大于第一預(yù)設(shè)閾值,則該當(dāng)前幀為關(guān)鍵幀;或, 如果所述讀取的當(dāng)前幀不是視頻圖像的起始幀,則計算所述讀取當(dāng)前幀與前一 個關(guān)鍵幀的相似度,如果相似度差距大于第二預(yù)設(shè)閾值,則該當(dāng)前幀為關(guān)鍵幀。
其中,所述第一深度圖獲取模塊包括
第一深度圖獲取單元,用于如果所述當(dāng)前幀的場景是靜止場景,則使用圖 像熵判斷區(qū)域的關(guān)系遠近,根據(jù)判斷的結(jié)果對所述分割后的圖像進行深度賦值, 得到所述當(dāng)前幀的深度第二深度圖獲取單元,用于如果所述當(dāng)前幀的場景是運動場景,則使用光 流法判斷區(qū)域的遠近,根據(jù)判斷的結(jié)果對所述分割后的圖像進行深度賦值,得 到所述當(dāng)前幀的深度圖。
進一步地,所述第一深度圖獲取模塊還包括
判斷單元,用于所述判斷所述當(dāng)前幀的場景是否靜止根據(jù)所述當(dāng)前幀的圖像與下一幀圖像的對應(yīng)像素點在各個顏色通道上的差值,將所述差值的絕對
HW—1 3 ,
值關(guān)于所有像素點和所有顏色通道求和,即e-2J力/(x,y,c)-/(xj,c) 若H、
;C=0少=0 C=l
于給定閾值,則是靜止場景,否則是運動場景。
其中,所述第二深度圖獲取模塊包括
第三深度圖獲取單元,用于如果所述當(dāng)前幀的場景為運動場景,則通過深 度圖擴散算法獲得當(dāng)前幀的深度第四深度圖獲取單元,用于如果所述當(dāng)前幀的場景為靜止場景,則將所述 當(dāng)前幀的上一幀的深度圖作為所述當(dāng)前幀的深度圖。
進一步地,所述第二深度圖獲取模塊還包括判斷單元,用于判斷所述當(dāng) 前幀的場景是否運動根據(jù)得到所述當(dāng)前幀的圖像與上一幀圖像的對應(yīng)像素點 在各個顏色通道上的差值,將所述差值的絕對值關(guān)于所有像素點和所有顏色通
道求和,即e-22J/(x,少,c)-六x,乂cO 若e小于給定閾值,則是靜止場景,否
jc=0戶0 c=l
則是運動場景。
進一步地,所述第三深度圖獲取單元還包括;修正單元,用于對所述第三 深度圖獲取單元獲取的當(dāng)前幀的深度圖進行修正將所述當(dāng)前幀的深度圖劃分 為若干小塊,對于每一小塊,利用最小均方誤差準(zhǔn)則找到它在上一幀深度圖中 的匹配塊,將這一小塊中像素的灰度值用匹配塊中對應(yīng)像素的灰度值替代。
進一步地,所述裝置還包括濾波模塊,用于對所述第一深度圖獲取模塊 或所述第二深度圖獲取模塊獲取的深度圖,進行高斯濾波,得到濾波后的深度 圖。
本發(fā)明實施例提供的技術(shù)方案的有益效果是通過對關(guān)鍵幀圖像進行顏色 分割后,根據(jù)對分割后的區(qū)域進行深度判斷得到該關(guān)鍵幀的深度圖,以及通過 深度擴散算法得到非關(guān)鍵幀的深度圖,基于深度圖渲染技術(shù)合成立體視頻,能 夠在沒有人工介入的情況下,全自動地實現(xiàn)了對一個視頻序列中每幀圖像所對 應(yīng)的深度圖的獲取,較好地完成將平面視頻轉(zhuǎn)為立體視頻的任務(wù)。
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施 例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述
15中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付 出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1是本發(fā)明實施例1提供的實現(xiàn)平面^L頻轉(zhuǎn)立體視頻的方法的流程示意
圖2是本發(fā)明實施例l提供的實現(xiàn)平面視頻轉(zhuǎn)立體視頻的方法的詳細流程 示意圖3是本發(fā)明實施例l提供的對圖像劃分示意圖; 圖4是本發(fā)明實施例l提供的為待轉(zhuǎn)換的平面視頻圖像的示意圖; 圖5是本發(fā)明實施例1提供的基于圖4基礎(chǔ)上利用Meanshift算法進行顏 色分割的結(jié)果示意圖6是本發(fā)明實施例1提供的利用光流法對分割區(qū)域進行深度賦值的示意
圖7是本發(fā)明實施例l提供的基于圖6得到的深度圖的示意圖; 圖8是本發(fā)明實施例1提供的通過深度擴散算法得到的非關(guān)鍵幀的深度圖 的示意圖9是本發(fā)明實施例2提供的實現(xiàn)平面視頻轉(zhuǎn)立體視頻的裝置的示意圖。
具體實施例方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合附圖對本發(fā)明 實施方式作進一步地詳細描述。
實施例1
為了全自動地實現(xiàn)對一個視頻序列中每幀圖像所對應(yīng)的深度圖的獲取,從 而較好地完成將平面視頻轉(zhuǎn)為立體視頻的任務(wù),本發(fā)明實施例提供了一種實現(xiàn) 平面3見頻轉(zhuǎn)立體#見頻的方法,參見圖1,該方法內(nèi)容如下
Cl:讀取當(dāng)前幀;
C2:如果讀取的當(dāng)前幀為關(guān)鍵幀,則對當(dāng)前幀的圖像進行顏色分割,對分割 后的圖像進行深度賦值,得到當(dāng)前幀的深度如果讀取的當(dāng)前幀為非關(guān)鍵幀,則獲取當(dāng)前幀的深度C3:根據(jù)獲取的當(dāng)前幀的深度圖,基于深度圖渲染得到立體視頻的一幀;
C4:繼續(xù)讀取當(dāng)前幀的下一幀,返回執(zhí)行步驟C2-C3,直到最終得到立體視
16頻。
本發(fā)明實施例提供的方法,通過對關(guān)鍵幀圖像進行顏色分割后,根據(jù)對分 割后的區(qū)域進行深度判斷得到該關(guān)鍵幀的深度圖,以及通過深度擴散算法得到 非關(guān)鍵幀的深度圖,基于深度圖渲染技術(shù)合成立體視頻,能夠在沒有人工介入 的情況下,全自動地實現(xiàn)了對一個視頻序列中每幀圖像所對應(yīng)的深度圖的獲取, 較好地完成將平面視頻轉(zhuǎn)為立體視頻的任務(wù)。
步驟101:讀取當(dāng)前幀。其中,讀取當(dāng)前幀,得到當(dāng)前幀的圖像。 步驟102:判斷當(dāng)前幀是否為關(guān)鍵幀,如果是,則執(zhí)行步驟103;否則,執(zhí) 行步驟108.
其中,根據(jù)以下規(guī)則判斷當(dāng)前幀是否為關(guān)鍵幀
1、 判斷當(dāng)前幀是否為視頻圖像的起始幀,如果是,則該當(dāng)前幀為關(guān)鍵幀;
2、 如果當(dāng)前幀不是視頻圖像的起始幀,則計算當(dāng)前幀與其上一幀的相似度, 如果差距大于第一預(yù)設(shè)閾值,則該當(dāng)前幀為關(guān)鍵幀;或,計算當(dāng)前幀與前個關(guān) 鍵幀的相似度,如果差距大于第二預(yù)設(shè)閾值,則該當(dāng)前幀為關(guān)鍵幀,如果不滿 足上述兩種情況,則該當(dāng)前幀為非關(guān)鍵幀。
其中,在計算當(dāng)前幀與其上一幀的相似度時,方法如下 1)、將上一幀圖像劃分為戶xg個大小相同的矩形區(qū)域,計算出各個區(qū)域的 圖像區(qū)域熵7^=-t/^(/)log/;,//)。其中,整個顏色空間被量化為z級,/7,,,(/)表
, /=1 , ,
示第/j個區(qū)域中被量化為顏色/的像素在整個區(qū)域中所占的百分比。所有這些熵
組成了 一個Pxg維的矢量H = ,//12,…,// )。
其中,在將幀圖像劃分為^x2個大小相同的矩形區(qū)域,其中P指的是原圖 像在水平方向上所劃分的份數(shù),^指的是原圖像在垂直方向上所劃分的份數(shù)。對
劃分得到的子區(qū)域沒有什么限制。參見圖3,圖3A是原圖,圖3B則是被劃分成 的S"個區(qū)域。
2 )、對當(dāng)前幀圖像進行同樣的處理,得到另 一 個矢量
H' = ,,…《w , )
3)、計算這兩個矢量之間的距離"(H,H')^H,H'lk將其作為兩幅圖像之間 相似性的度量。4)、若Z)(H,H')大于給定閾值7i7,(即上述第一預(yù)設(shè)閾值),則認(rèn)為此時發(fā)生 了場景切換,將該幀作為新的關(guān)鍵幀,并且闊值將更新為7^'"r巧+D(H,H'))/2。
其中,計算當(dāng)前幀與前個關(guān)鍵幀的相似度,與上述計算當(dāng)前幀與其上一幀 的相似度的方法類似。若相似度大于給定閾值77^ (即上述第二預(yù)設(shè)閾值),則 雖然沒有發(fā)生場景切換,但該幀與前一個關(guān)鍵幀間隔較遠,若繼續(xù)進行深度擴 散效果會比較差,此時也將該幀作為新的關(guān)鍵幀。
步驟103:若當(dāng)前幀為關(guān)鍵幀,則對當(dāng)前幀進行顏色分割,然后執(zhí)行步驟 104。步驟103具體如下
1031:將當(dāng)前幀的圖像由RGB顏色空間轉(zhuǎn)換為CIELab顏色空間;
其中,RGB顏色空間即紅綠藍顏色空間,CIELab顏色空間中,L代表亮度, a代表從紅色至綠色的范圍,b代表從黃色至藍色的范圍。由于RGB顏色空間并 不符合人眼對色彩的感覺特性,需要找到一種具有均勻特性的顏色空間,能夠 把易測的空間距離作為色彩在視覺上的差別量的度量,RGB顏色空間顯然不滿 足這樣的要求,但CIELab色度空間正是由國際照明委員會推薦的均勻顏色空間。 對CIELab顏色空間來說,它能較好地反映人眼對顏色的感知和鑒別能力,顏色 空間中的歐幾里德距離與人眼可感知的顏色差異與成比例。因此,需要將當(dāng)前 幀的圖像由RGB顏色空間轉(zhuǎn)換為CIELab顏色空間。
1032:當(dāng)進行完顏色空間轉(zhuǎn)換后,對該圖像中的任意一個像素,將像素的 Lab分量及其空間坐標(biāo)組合成一個五維向量x。;
1033:在這個新的特征空間域(即步驟1032所得到的五維向量x。所組成的 線性空間)中執(zhí)行Mean Shift算法;其中,Mean Shift算法中所涉及的迭代/> 式為
其中,x'表示第/次迭代結(jié)果,x,。(/^,2,…W)表示在特征空間中位于x'的鄰域內(nèi) 的點,《是用戶定義的核函數(shù),在這里我們選取
其中x3、 V分別表示x中的空間坐標(biāo)分量及Lab分量,它們使用不同的窗寬大小/2s及Y, it(x)為標(biāo)準(zhǔn)的均勻分布,*(x) = P, i|x|1"
〔0, otherwise
當(dāng)卜K,w(x"l小于給定閾值時,迭代終止,此時我們將f中的Lab分量作為 最終的像素值。
其中,上述1031-1033這幾個步驟通常又被稱為Meanshift濾波,在對該 當(dāng)前幀的圖像中的所有像素進行了相同的處理后,最終我們將獲得濾波后的圖 像。
1034:通過洪泛算法,給所有顏色相似、位置相近的像素點指定相同的標(biāo) 號,賦予相同的顏色,從而得到若干塊圖像區(qū)域。
1035:建立區(qū)域鄰接矩陣,將面積較小的區(qū)域合并到與之相鄰的顏色最為 接近的區(qū)域中去,保證最終的區(qū)域個數(shù)不超過四塊。
其中,在保證最后的區(qū)域個數(shù)時,本實施例僅以不超過四塊為例進行示意 說明,在這里優(yōu)選3塊。這樣做的目的是方便接下來對各區(qū)域所進行的深度賦 值。 一方面,若分割區(qū)域太多的話,采用全自動算法很難準(zhǔn)確地判斷出各區(qū)域 在真實場景中的相對遠近關(guān)系,這樣最終得到的深度賦值結(jié)果往往會是錯誤的; 另一方面,分割太多的區(qū)域?qū)μ嵘罱K立體視頻的立體感也沒有太大幫助,在 最終要獲取的深度圖中每一個區(qū)域?qū)?yīng)一種灰度值, 一般來說一幅場景的深度 圖有3個左右的灰度級就可以了。因此,通常保證最終的區(qū)域個數(shù)為2-4塊就 可以滿足要求。當(dāng)然在具體應(yīng)用時,還可以根據(jù)需要設(shè)定為最終的區(qū)域個數(shù)不 超過5塊,或不超過6塊。
當(dāng)執(zhí)行完步驟103后,對分割所得到的各個區(qū)域,分析它們距離觀察者的 相對遠近,詳見如下
104:判斷此時的場景是否靜止,如果是,則執(zhí)行步驟105;否則,執(zhí)行步驟
106。
其中,在判斷場景是否為靜止時,具體方法如下求出當(dāng)前幀圖像與下一 幀圖像的對應(yīng)像素點在各個顏色通道上的差值,將此差值的絕對值關(guān)于所有像 素點和所有顏色通道求和,即
A/-1W-1 3 ^
e=X! Z! Z ,(x, ^,c) - 7(x,少,c)
j=0戶O c=l
若e小于給定閾值,則認(rèn)為場景靜止,否則認(rèn)為場景運動。
105:對于靜止場景,使用圖像熵判斷區(qū)域的關(guān) 遠近,詳見如下:1051:將大小為MxiV的當(dāng)前幀由RGB顏色空間轉(zhuǎn)換為HSI顏色空間,并劃
分成Pxg個小方塊。
1052:計算出各個方塊所對應(yīng)的圖像熵/^=-^>,//)10§/^(/)。其中,整個
/=1
顏色空間被量化為Z級,~(/)表示第個方塊中被量化為顏色/的像素在整個
方塊中所占的百分比。
1053:假設(shè)經(jīng)過步驟1052之后當(dāng)前幀被分割為C塊區(qū)域,依次遍歷當(dāng)前幀中所有的小方塊(/,力,/ = 1,2,"',0 =,2,''^,判斷它在分割結(jié)果圖中屬于哪一塊區(qū)域。判定標(biāo)準(zhǔn)為,若方塊"力的中心所處位置在分割結(jié)果圖中位于區(qū)域c,并且方塊0', /')中9/10以上的像素點所處位置在分割結(jié)果圖中也都位于區(qū)域c ,則認(rèn)為方塊(/,力屬于區(qū)域c。否則,則認(rèn)為方塊(/j)在分割結(jié)果圖中覆蓋了好幾個區(qū)域,因此不將它歸結(jié)到任何區(qū)域中。其中,本實施例只是優(yōu)選9/!0,簡單來說就是讓絕大多數(shù)的像素點所處位置在分割結(jié)果圖中也都位于區(qū)域c,具體的比例數(shù)可以根據(jù)需要進行制訂。
1054:依次遍歷分割結(jié)果圖中所有的區(qū)域~/ = 1,2"':,對于每塊區(qū)域、在第1053步中已經(jīng)指定了若干個屬于它的方塊,將這些方塊所對應(yīng)的圖像熵取均
值,作為衡量該區(qū)域A的指標(biāo),用字母A表示。
f 、 X = 〉 X
1055:若區(qū)域?^^沒有任何屬于它的方塊,首先按照公式,
7= Z少 __ __
求取出該區(qū)域的重心(^歹),接著在當(dāng)前幀中提取出以點(^,刃為中心,
大小為LM"」xLw"」的一個方塊,計算出該方塊所對應(yīng)的圖像熵,將其作為衡
量區(qū)域c'的指標(biāo)A。
1056:對于各個區(qū)域e',"1,2,…。,指標(biāo)^越大就意味著該區(qū)域在實際場景中越靠近前方。
步驟106:對于運動場景,使用光流法判斷區(qū)域的遠近,詳見如下1061:利用Harris角點檢測,在當(dāng)前幀中紋理比較復(fù)雜的地方選取一部分角點作為特征點,執(zhí)行基于迭代金字塔的Lucas Kanade光流法,獲得這些特征點的光流值;對當(dāng)前幀中紋理比較均勻的地方,由于缺乏特征點,故隨機選取一些點,使用塊匹配的方法求取它們的光流值;
其中,所謂基于迭代金字塔的Lucas Kanade光流法是一種求取離散特征點
20光流的方法,屬于現(xiàn)有技術(shù)不再贅述。
1062:對于每個分割區(qū)域,統(tǒng)計該區(qū)域內(nèi)光流大小的平均值。
其中,基于"快者恒近"的深度假設(shè),我們認(rèn)為光流平均值越大的區(qū)域位于實際場景中越前方的位置。
綜上,無論是靜止場景還是運動場景,我們都可以得到區(qū)域的遠近關(guān)系,接下來,執(zhí)行如下步驟
步驟107:根據(jù)上述步驟105、步驟106得到的區(qū)域的遠近關(guān)系,對各分割區(qū)域進行灰度賦值(又稱深度賦值),獲得關(guān)鍵幀的深度圖。詳見如下
將各區(qū)域按照其在實際場景中由遠到近的順序進行排序。假設(shè)區(qū)域。排在第
M立(z' = 1,2,—C ),則賦予該顏色區(qū)域的深度值為Dep化5-^^(Z-C)、255 。也
即使是說,若區(qū)域位于場景的最后方,則賦給該區(qū)域的灰度值為0;若區(qū)域位于場景的最前方,則賦給該區(qū)域的灰度值為255;其他區(qū)域的灰度值按照二次拋物線函數(shù)進行插值。
綜上,通過上述步驟102-步驟107,我們最終可以獲得關(guān)鍵幀的深度圖。步驟108:若當(dāng)前幀為非關(guān)鍵幀,則判斷此時的場景是否為運動,如果是,則執(zhí)行步驟109;否則,執(zhí)行步驟lll。
其中,判斷此時的場景是否為運動首先判斷場景有沒有發(fā)生運動,具體的
判定方法與步驟104相類似,只不過此時是對當(dāng)前幀圖像與上一幀圖像對應(yīng)像素點在各個顏色通道上的差值,將此差值的絕對值關(guān)于所有像素點和所有顏色通道求和,即
<formula>formula see original document page 21</formula>
若e小于給定閾值,則認(rèn)為場景靜止,否則認(rèn)為場景運動。步驟109:若場景發(fā)生了運動,則通過深度圖擴散算法獲得當(dāng)前幀的深度圖詳見如下
當(dāng)前幀中任意一個像素點Z的深度值由其鄰域內(nèi)(所謂某像素點的鄰域,通俗地說就是以該像素點(X。,K)為中心的矩形窗口 ,用數(shù)學(xué)式子表示即為b,力l卜-x」^且l"尺h^ ,其中A和^分別為矩形窗口的寬和高)所有像素點/在上一幀中的深度值經(jīng)加權(quán)求和得到,即"''-
其中,鄰域內(nèi)各
點的權(quán)值由下式?jīng)Q定
。')2+(gd)2+(n:
2cr2
其中,f、 g;+'、 b;+'代表當(dāng)前幀中像素/的R、 G、 B分量,而<、g;、 b;代表其鄰域內(nèi)的像素/在上一幀中的R、 G、 B分量。
對當(dāng)前幀中所有的像素點按照上述方法進行處理,為提高算法的運行速度,各像素點的深度值求取可以并行處理,從而求出當(dāng)前幀的深度圖。
步驟110:利用塊匹配對步驟109求出的當(dāng)前幀的深度圖進行修正。詳見如
下
當(dāng)前幀的深度圖劃分為若干小塊,對于每一小塊,利用最小均方誤差準(zhǔn)則(MSE, Mean Squared Error)找到它在上一幀深度圖中的匹配塊,將這一'J、塊
中像素的灰度值用匹配塊中對應(yīng)像素的灰度值替代。
步驟111:若場景靜止,則只需將上一幀的深度圖直接作為當(dāng)前幀的深度圖。綜上,通過上述步驟108-步驟110,我們最終可以獲得非關(guān)鍵幀的深度圖。步驟112:對所獲取的深度圖,進行高斯濾波,得到濾波后的深度圖。其中,通過對深度圖進行高斯濾波,可以使深度圖的深度值在物體輪廓處
的過渡變得平滑, 一方面可以減少在生成虛擬視角時需要進行背景填充的空洞
面積,另一方面可以使最終合成的立體視頻的抖動程度降低。當(dāng)然,若不進行
濾波也能實現(xiàn)平面視頻(2D)轉(zhuǎn)立體視頻(3D)的目的,只不過最終生成立體
視頻的視頻質(zhì)量會受到影響。
步驟113:根據(jù)上述濾波得到的深度圖,通過深度圖渲染方法DIBR,獲得
該幀在各個視角上的圖像。
其中,所謂深度圖像渲染方法DIBR是一種利用深度圖所提供的場景的深度
信息,根據(jù)原圖生成該場景在其他虛擬視角上的圖像的技術(shù),屬于現(xiàn)有技術(shù)不
再贅述。
步驟114:繼續(xù)返回讀:取當(dāng)前幀的下一幀圖^f象,重復(fù)^L行上述步驟102-步驟113,直到最終合成立體視頻。詳見如下首先是將視頻中每一幀在各個視角(包括原始視角以及生成的虛擬視角)上的圖像合成立體圖像,接著再把該幀所對應(yīng)的立體圖像寫入到一個新的視頻中。當(dāng)對原視頻的所有幀都進行了這樣的處理后,最終獲得的新視頻就是我們想要的立體3見頻。其中,本領(lǐng)域技術(shù)人員可知,如何將每一幀在各個視角上的圖像合成一幅立體圖像,是和具體的硬件設(shè)備(即立體顯示器的類型)有關(guān)的。不同廠家生產(chǎn)的立體顯示器對輸入的立體圖像的格式要求不同,因此所采用的方法也會有所區(qū)別, 一般來說立體顯示器所要求的輸入都是交錯的立體圖像格式,因此我們所采取的方法往往是在每個視角的圖像中抽取一部分像素,將抽取的像素組合成新的圖像,該圖像即為我們想要得到的立體圖像。其中,具體像素該如何抽取、又該如何組合就與立體顯示器的型號有關(guān)了。例如,以某種
立體顯示器為例,它要求輸入是由8個視角上的圖像(用圖像0-圖像7表示)所合成的圖像,以前三行為例,它的合成方式是
(1B, 0G, 7R)(1B, OG, 7R)(1B, OG, 7R)……
(2B, 1G, 0R)(2B, 1G, 0R)(2B, 1G, OR)……
(3B, 2G, 1R)(3B, 2G, 1R) (3B, 2G, 1R)……
也即是說,在立體圖像的第一行中,每個像素的藍色分量取的是圖像1的藍色分量,綠色分量取的是圖像0的綠色分量,紅色分量取的是圖像7的紅色分量;而在第二行中,每個像素的藍色分量取的是圖像2的藍色分量,綠色分量取的是圖像l的綠色分量,紅色分量取的是圖像O的紅色分量,以此類推。
綜上所述,通過上述步驟101-步驟114,全自動地實現(xiàn)了對一個視頻序列中每幀圖像所對應(yīng)的深度圖的獲取,從而較好地完成將平面視頻轉(zhuǎn)為立體視頻的任務(wù),本發(fā)明提出實現(xiàn)平面視頻轉(zhuǎn)立體視頻的方法,能夠在普通PC機或工作站等硬件系統(tǒng)上實現(xiàn)。實驗證明,對于比較簡單的外部場景,該方法通常都能獲得令人滿意的效果。下面就以 一具體的示例對本發(fā)明實施例提供的實現(xiàn)平面視頻轉(zhuǎn)立體視頻的方法進行說明,本實施例基于普通PC作為該方法實現(xiàn)的硬件平臺。詳見如下
選擇一段外部場景作為待轉(zhuǎn)換的平面視頻序列,其中幀圖像的大小為700x 380。如圖4所示,顯示了該視頻序列中并不相連的兩幀,它們分別屬于不同的場景。
圖4A是該視頻的起始幀,因此將其作為關(guān)鍵幀。利用Meanshift算法對該幀進行顏色分割,得到如圖5A所示的分割結(jié)果。其中,^=8, Y = 7,區(qū)域的
23最小面積minRegion=5000。
經(jīng)判斷該幀屬于運動場景,故利用光流法對分割區(qū)域進行深度賦值,這一過程以及最終獲得的深度圖如圖6所示。
選擇閥值7巧的初始值為3,經(jīng)檢測在圖4B所示的^L頻幀處發(fā)生了場景切換,故將該幀作為關(guān)鍵幀。由于該幀也屬于運動場景,故對該幀進行了顏色分割后,同樣利用光流法對分割區(qū)域進行深度賦值,最終得到的分割結(jié)果及深度圖分別如圖5B及圖7所示。
對于非關(guān)鍵幀,若此時場景發(fā)生了運動,則通過深度擴散算法獲得該幀的深度圖。還是以圖4B所示的視頻幀為例,我們對緊接在它之后的幾個非關(guān)鍵幀進行深度擴散,可得到如圖8所示的一系列深度圖。其中,相關(guān)參數(shù)的設(shè)置為鄰域窗口的大小為7,進行塊匹配時的搜尋范圍為土3,塊的大小為32。
關(guān)鍵幀圖像進行顏色分割后,根據(jù)對分割后的區(qū)域進行深度判斷得到該關(guān)鍵幀的深度圖,以及通過深度擴散算法得到非關(guān)鍵幀的深度圖,基于深度圖渲染技術(shù)合成立體視頻,能夠在沒有人工介入的情況下,全自動地實現(xiàn)了對一個視頻序列中每幀圖像所對應(yīng)的深度圖的獲取,較好地完成將平面視頻轉(zhuǎn)為立體視頻的任務(wù)。
實施例2
相應(yīng)于上述方法實施例,本發(fā)明實施例提供了 一種實現(xiàn)平面視頻轉(zhuǎn)立體視頻的裝置,參見圖9,該裝置包括讀取模塊901,用于讀取當(dāng)前幀;
分割模塊902,用于如果讀取模塊901讀取的當(dāng)前幀為關(guān)鍵幀,則對當(dāng)前幀的圖像進行顏色分割;
第 一深度圖獲取模塊9 0 3,用于對分割模塊9 02分割后的圖像進行深度賦值,得到當(dāng)前幀的深度第二深度圖獲取模塊9 04,用于如果讀取模塊9 01讀取的當(dāng)前幀為非關(guān)鍵幀,則獲取當(dāng)前幀的深度渲染模塊905,根據(jù)第一深度圖獲取模塊903或第二深度圖獲取模塊904獲取的當(dāng)前幀的深度圖,基于深度圖渲染得到立體視頻的一幀;通知讀取模塊901繼續(xù)讀取當(dāng)前幀的下一幀,直到最終得到立體視頻。進一步地,裝置還包括判斷模塊,用于判斷讀取的當(dāng)前幀是否為關(guān)鍵幀如果讀取的當(dāng)前幀是視頻圖像的起始幀,則該當(dāng)前幀為關(guān)4走幀;如果讀取的當(dāng)前幀不是一見頻圖像的起始幀,則計算讀取當(dāng)前幀與其上一幀的相似度,如果相似度差距大于第一預(yù)設(shè)閾值,則該當(dāng)前幀為關(guān)鍵幀;或,如果讀取的當(dāng)前幀不是視頻圖像的起始幀,則計算讀取當(dāng)前幀與前一個關(guān)鍵幀的相似度,如果相似度差距大于第二預(yù)設(shè)閾值,則該當(dāng)前幀為關(guān)鍵幀。
其中,第一深度圖獲取模塊903包括
第一深度圖獲取單元,用于如果當(dāng)前幀的場景是靜止場景,則使用圖像熵判斷區(qū)域的關(guān)系遠近,根據(jù)判斷的結(jié)果對分割后的圖像進行深度賦值,得到當(dāng)前幀的深度第二深度圖獲取單元,用于如果當(dāng)前幀的場景是運動場景,則使用光流法判斷區(qū)域的遠近,根據(jù)判斷的結(jié)果對分割后的圖像進行深度賦值,得到當(dāng)前幀的深度圖。
進一步地,第一深度圖獲取模塊903還包括
判斷單元,用于判斷當(dāng)前幀的場景是否靜止根據(jù)當(dāng)前幀的圖像與下一幀圖像的對應(yīng)像素點在各個顏色通道上的差值,將差值的絕對值關(guān)于所有像素點
和所有顏色通道求和,即^XE2I/0^,c)-六x,;;,cO若e小于給定閾值,則是
x=0戶0 c=l
靜止場景,否則是運動場景。
其中,第二深度圖獲取模塊904包括
第三深度圖獲取單元,用于如果當(dāng)前幀的場景為運動場景,則通過深度圖擴散算法獲得當(dāng)前幀的深度第四深度圖獲取單元,用于如果當(dāng)前幀的場景為靜止場景,則將當(dāng)前幀的上一幀的深度圖作為當(dāng)前幀的深度圖。
進一步地,第二深度圖獲取模塊904還包括判斷單元,用于判斷當(dāng)前幀的場景是否運動根據(jù)得到當(dāng)前幀的圖像與上一幀圖像的對 像素點在各個顏色通道上的差值,將差值的絕對值關(guān)于所有像素點和所有顏色通道求和,即
^2ZE/"J,c)-/",少,c) 若e小于給定閾值,則是靜止場景,否則是運動場
義=0 "0 c=l
進一步地,第三深度圖獲取單元還包括;修正單元,用于對第三深度圖獲取單元獲取的當(dāng)前幀的深度圖進行修正將當(dāng)前幀的深度圖劃分為若干小塊,
對于每一小塊,利用最小均方誤差準(zhǔn)則找到它在上一幀深度圖中的匹配塊,將這一 小塊中像素的灰度值用匹配塊中對應(yīng)像素的灰度值替代。
進一步地,裝置還包括濾波模塊,用于對第一深度圖獲取模塊903或第二深度圖獲取模塊904獲取的深度圖,進行高斯濾波,得到濾波后的深度圖。
其中,各模塊所執(zhí)行的具體的動作,可參考上述方法實施例,本實施例不再贅述。
綜上所述,本發(fā)明實施例提供了一種實現(xiàn)平面視頻轉(zhuǎn)立體視頻的裝置,通過對關(guān)鍵幀圖像進行顏色分割后,根據(jù)對分割后的區(qū)域進行深度判斷得到該關(guān)鍵幀的深度圖,以及通過深度擴散算法得到非關(guān)鍵幀的深度圖,基于深度圖渲染技術(shù)合成立體^L頻,能夠在沒有人工介入的情況下,全自動地實現(xiàn)了對一個視頻序列中每幀圖像所對應(yīng)的深度圖的獲取,較好地完成將平面視頻轉(zhuǎn)為立體視頻的任務(wù)。
本發(fā)明實施例中的"接收,, 一詞可以理解為主動從其他模塊獲取也可以是接收其他才莫塊發(fā)送來的信息。
本領(lǐng)域技術(shù)人員可以理解附圖只是一個優(yōu)選實施例的示意圖,附圖中的模塊或流程并不一定是實施本發(fā)明所必須的。
本領(lǐng)域技術(shù)人員可以理解實施例中的裝置中的模塊可以按照實施例描述分布于實施例的裝置中,也可以進行相應(yīng)變化位于不同于本實施例的 一個或多個裝置中。上述實施例的模塊可以合并為一個模塊,也可以進一步拆分成多個子模塊。
上述本發(fā)明實施例序號僅僅為了描述,不代表實施例的優(yōu)劣。本發(fā)明實施例中的部分步驟,可以利用軟件實現(xiàn),相應(yīng)的軟件程序可以存
儲在可讀取的存儲介質(zhì)中,如光盤或硬盤等。
以上所述僅為本發(fā)明的較佳實施例,并不用以限制本發(fā)明,凡在本發(fā)明的
精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明的
保護范圍之內(nèi)。
權(quán)利要求
1、一種實現(xiàn)平面視頻轉(zhuǎn)立體視頻的方法,其特征在于,所述方法包括C1讀取當(dāng)前幀;C2如果所述讀取的當(dāng)前幀為關(guān)鍵幀,則對所述當(dāng)前幀的圖像進行顏色分割,對所述分割后的圖像進行深度賦值,得到所述當(dāng)前幀的深度圖;如果所述讀取的當(dāng)前幀為非關(guān)鍵幀,則獲取所述當(dāng)前幀的深度圖;C3根據(jù)所述獲取的當(dāng)前幀的深度圖,基于深度圖渲染得到立體視頻的一幀;C4繼續(xù)讀取所述當(dāng)前幀的下一幀,返回執(zhí)行步驟C2-C3,直到最終得到立體視頻。
2、 如權(quán)利要求1所述的方法,其特征在于,所述步驟C2之前,所述方法 還包括判斷所述讀取的當(dāng)前幀是否為關(guān)鍵幀;所述判斷所述讀取的當(dāng)前幀是否為關(guān)鍵幀,具體包括 判斷所述讀取的當(dāng)前幀是否為視頻圖像的起始幀,如果是,則該當(dāng)前幀為 關(guān)鍵幀;如果所述讀取的當(dāng)前幀不是視頻圖像的起始幀,則計算所述讀取的當(dāng)前幀 與其上一幀的相似度,如果相似度差距大于第一預(yù)設(shè)閾值,則該當(dāng)前幀為關(guān)鍵 幀;或,如果所述讀取的當(dāng)前幀不是視頻圖像的起始幀,則計算所述讀取當(dāng)前幀與 前一個關(guān)鍵幀的相似度,如果相似度差距大于第二預(yù)設(shè)閾值,則該當(dāng)前幀為關(guān) 鍵幀。
3、 如權(quán)利要求2所述的方法,其特征在于,所述計算所述讀取的當(dāng)前幀與 其上一幀的相似度,包括分別將所述讀取的當(dāng)前幀以及所述讀取的當(dāng)前幀的上一幀圖像劃分為尸x2個子區(qū)域,計算出各個區(qū)域的圖像區(qū)域熵=-玄& (/) log & (/)根據(jù)所述讀取的當(dāng)前幀的上 一 幀的圖像區(qū)域熵,得到p x 2維的矢量視頻。根據(jù)所述讀取的當(dāng)前幀的圖像區(qū)域熵,得到Px2維的矢量獲取所述兩個矢量之間的距離<formula>formula see original document page 3</formula>根據(jù)所述獲取的距離,得到所述讀取的當(dāng)前幀與其上一幀的相似度。
4、如權(quán)利要求2所述的方法,其特征在于,所述計算所述讀取的當(dāng)前幀與前一個關(guān)鍵幀的相似度,包括分別對所述讀取的當(dāng)前幀以及所述讀取的當(dāng)前幀的前一關(guān)鍵幀圖像劃分為P x e個子區(qū)域,計算出各個區(qū)域的圖像區(qū)域熵<formula>formula see original document page 3</formula>根據(jù)所述讀取的當(dāng)前幀的前一關(guān)鍵幀的圖像區(qū)域熵,得到Px2維的矢量根據(jù)所述讀取的當(dāng)前幀的圖像區(qū)域熵,得到"2維的矢量獲取所述兩個矢量之間的距離<formula>formula see original document page 3</formula>根據(jù)所述獲取的距離,得到所述讀取的當(dāng)前幀與其前一關(guān)鍵幀的相似度。
5、如權(quán)利要求l所述的方法,其特征在于,所述對所述當(dāng)前幀的圖像進行 顏色分割,包括將當(dāng)前幀的圖像由RGB顏色空間轉(zhuǎn)換為CIELab顏色空間;當(dāng)進行完顏色空間轉(zhuǎn)換后,對所述當(dāng)前幀的圖像中的每個像素,將所述像 素的Lab分量及其空間坐標(biāo)組合成一個五維向量x。;在所述五維向量x。所組成的線性空間中執(zhí)行MeanShift算法,得到濾波后 的圖像;通過洪泛算法,對所述濾波后的圖像中顏色相似、位置相近的像素點指定 相同的標(biāo)號,賦予相同的顏色,得到多塊圖像區(qū)域;將所述得到的多塊圖像區(qū)域中面積較小的區(qū)域合并到與之相鄰的顏色最為 接近的區(qū)域中去,得到分割后的圖像,所述分割后的圖像中最終的區(qū)域個數(shù)滿 足預(yù)設(shè)要求。
6、 如權(quán)利要求5所述的方法,其特征在于,所述預(yù)設(shè)要求為分割后的圖像 中最終的區(qū)域個數(shù)小于等于四個。
7、 如權(quán)利要求l所述的方法,其特征在于,所述對分割后的圖像進行深度 賦值,得到所述當(dāng)前幀的深度圖,包括如果所述當(dāng)前幀的場景是靜止場景,則使用圖像熵判斷區(qū)域的關(guān)系遠近, 根據(jù)判斷的結(jié)果對所述分割后的圖像進行深度賦值,得到所述當(dāng)前幀的深度圖;如果所述當(dāng)前幀的場景是運動場景,則使用光流法判斷區(qū)域的遠近,根據(jù) 判斷的結(jié)果對所述分割后的圖像進行深度賦值,得到所述當(dāng)前幀的深度圖。
8、 如權(quán)利要求7所述的方法,其特征在于,所述對分割后的圖像進行深度 賦值之前,所述方法還包括判斷所述當(dāng)前幀的場景是否靜止;所述判斷所述當(dāng)前幀的場景是否靜止,具體包括得到所述當(dāng)前幀的圖像與下一幀圖像的對應(yīng)像素點在各個顏色通道上的差 值,將所述差值的絕對值關(guān)于所有像素點和所有顏色通道求和,即<formula>formula see original document page 4</formula>若e小于給定閾值,則是靜止場景,否則是運動場景。
9、 如權(quán)利要求7或權(quán)利要求8所述的方法,其特征在于,所述使用圖像熵 判斷區(qū)域的關(guān)系遠近,包括將大小為MxiV的當(dāng)前幀由RGB顏色空間轉(zhuǎn)換為HSI顏色空間,并劃分成Pxg個小方塊。計算出各個方塊所對應(yīng)的圖像熵/f" = -^>"(/)iog &(/);依次遍歷當(dāng)前幀中所有的小方塊(/,刀,,'=1,2,..,戶;_/ = 1,2,— 2,判斷它在分割后 得到的圖像中所屬于的區(qū)域;依次遍歷所述分割后的圖像中所有的區(qū)域&/ = 1,2"'^,對于每塊區(qū)域、根據(jù)其所包含的小方塊,將這些方塊所對應(yīng)的圖像熵取均值,作為衡量該區(qū)域A的指標(biāo)A;<formula>formula see original document page 4</formula>若區(qū)域e'"^沒有任何屬于它的方塊,則按照公式, "加'求取出該區(qū)域的重心(t刃,在當(dāng)前幀中提取出以點&刃為中心,大小為LM/p」xL^/eJ的一個方塊,計算出該方塊所對應(yīng)的圖像熵,將其作為衡量區(qū)域c' 的指標(biāo)R';對于各個區(qū)域,所述指標(biāo)越大則該區(qū)域在實際場景中越靠近前方。
10、 如權(quán)利要求7或8所述的方法,其特征在于,所述使用光流法判斷區(qū) 域的遠近,包括利用Har r i s角點;險測,在當(dāng)前幀中紋理比4交復(fù)雜的地方選取一部分角點作 為特征點,執(zhí)行基于迭4戈金字塔的Lucas Kanade光流法,獲得所述選取的特征 點的光流值;對當(dāng)前幀中紋理比較均勻的地方,隨機選取一些點,使用塊匹配 的方法求取所述選取的點的光流值;對于每個分割后區(qū)域,統(tǒng)計該區(qū)域內(nèi)光流值的平均值。 所述光流平均值越大則所述區(qū)域在實際場景中越靠近前方。
11、 如權(quán)利要求l所述的方法,特征在于,所述獲取所述當(dāng)前幀的深度圖, 包括如果所述當(dāng)前幀的場景為運動場景,則通過深度圖擴散算法獲得當(dāng)前幀的 深度圖;如果所述當(dāng)前幀的場景為靜止場景,則將所述當(dāng)前幀的上一幀的深度圖作 為所述當(dāng)前幀的深度圖。
12、 如權(quán)利要求11所述的方法,其特征在于,所述獲取所述當(dāng)前幀的深度 圖之前,所述方法還包括判斷所述當(dāng)前幀的場景是否運動,所述判斷所述當(dāng)前幀的場景是否運動,具體包括得到所述當(dāng)前幀的圖像與上一幀圖像的對應(yīng)像素點在各個顏色通道上的差 值,將所述差值的絕對值關(guān)于所有像素點和所有顏色通道求和,即《二 S Z I] ^,C) — 7(X,少,C)""0 c=l若e小于給定閾值,則是靜止場景,否則是運動場景。
13、 如權(quán)利要求11或12所述的方法,其特征在于,所述通過深度圖擴散算法獲得當(dāng)前幀的深度圖,包括當(dāng)前幀中任意一個像素點/的深度值由其鄰域內(nèi)所有像素點_/在上一幀中的深度值經(jīng)加權(quán)求和得到,即"'-,其中,鄰域內(nèi)各像素點y'的權(quán)值由下式?jīng)Q定<formula>formula see original document page 6</formula>其中,"'+ 、 gl+、 V代表當(dāng)前幀中像素/的r、 g, 鄰域內(nèi)的像素7在上一幀中的r、 g、 b分量。b分量,而小g;.、 b;代表其
14、 如權(quán)利要求13所述的方法,其特征在于,所述通過深度圖擴散算法獲 得當(dāng)前幀的深度圖之后,所述方法還包括對獲取的當(dāng)前幀的深度圖進行修正;所述對獲取的當(dāng)前幀的深度圖進行修正,具體包括將所述當(dāng)前幀的深度圖劃分為若干小塊,對于每一小塊,利用最小均方誤 差準(zhǔn)則找到它在上一幀深度圖中的匹配塊,將這一小塊中像素的灰度值用匹配 塊中對應(yīng)像素的灰度值替代。
15、 如權(quán)利要求l所述的方法,其特征在于,所述步驟C3之前,所述方法 還包括對所述獲取的深度圖,進行高斯濾波,得到濾波后的深度圖; 相應(yīng)地,所述步驟C3,包括根據(jù)所述得到的濾波后的深度圖,基于深度圖渲染得到 立體^L頻的一幀。
16、 一種實現(xiàn)平面視頻轉(zhuǎn)立體視頻的裝置,其特征在于,所述裝置包括 讀取才莫塊,用于讀取當(dāng)前幀;分割模塊,用于如果所述讀取模塊讀取的當(dāng)前幀為關(guān)鍵幀,則對所述當(dāng)前 幀的圖像進行顏色分割;第 一深度圖獲取模塊,用于對所述分割模塊分割后的圖像進行深度賦值,得到所述當(dāng)前幀的深度圖;第二深度圖獲取模塊,用于如果所述讀取模塊讀取的當(dāng)前幀為非關(guān)鍵幀, 則獲取所述當(dāng)前幀的深度圖;渲染模塊,根據(jù)所述第一深度圖獲取模塊或第二深度圖獲取模塊獲取的當(dāng) 前幀的深度圖,基于深度圖渲染得到立體視頻的一幀;通知所述讀取模塊繼續(xù) 讀取所述當(dāng)前幀的下一幀,直到最終得到立體視頻。
17、 如權(quán)利要求16所述的裝置,其特征在于,所述裝覃還包括判斷模塊, 用于判斷所述讀取的當(dāng)前幀是否為關(guān)鍵幀如果所述讀取的當(dāng)前幀是視頻圖像 的起始幀,則該當(dāng)前幀為關(guān)鍵幀;如果所述讀取的當(dāng)前幀不是視頻圖像的起始 幀,則計算所述讀取當(dāng)前幀與其上一幀的相似度,如果相似度差距大于第一預(yù) 設(shè)閾值,則該當(dāng)前幀為關(guān)鍵幀;或,如果所述讀取的當(dāng)前幀不是視頻圖像的起 始幀,則計算所述讀取當(dāng)前幀與前一個關(guān)鍵幀的相似度,如果相似度差距大于 第二預(yù)設(shè)閾值,則該當(dāng)前幀為關(guān)鍵幀。
18、 如權(quán)利要求16所述的裝置,其特征在于,所述第一深度圖獲取模塊包括..第一深度圖獲取單元,用于如果所述當(dāng)前幀的場景是靜止場景,則使用圖 像熵判斷區(qū)域的關(guān)系遠近,4艮據(jù)判斷的結(jié)果對所述分割后的圖像進行深度賦值, 得到所述當(dāng)前幀的深度圖;第二深度圖獲取單元,用于如果所述當(dāng)前幀的場景是運動場景,則使用光 流法判斷區(qū)域的遠近,根據(jù)判斷的結(jié)果對所述分割后的圖像進行深度賦值,得 到所述當(dāng)前幀的深度圖。
19、如權(quán)利要求18所述的裝置,其特征在于,所述第一深度圖獲取模塊還 包括判斷單元,用于所述判斷所述當(dāng)前幀的場景是否靜止根據(jù)所述當(dāng)前幀的 圖像與下一幀圖像的對應(yīng)像素點在各個顏色通道上的差值,將所述差值的絕對值關(guān)于所有像素點和所有顏色通道求和,即^乞乞力/(w,c)-六;c,少,cO 若d<formula>formula see original document page 7</formula>于給定閾值,則是靜止場景,否則是運動場景。
20、如權(quán)利要求16所述的裝置,其特征在于,所述第二深度圖獲取模塊包括第三深度圖獲取單元,用于如果所述當(dāng)前幀的場景為運動場景,則通過深 度圖擴散算法獲得當(dāng)前幀的深度圖;第四深度圖獲取單元,用于如果所述當(dāng)前幀的場景為靜止場景,則將所述 當(dāng)前幀的上一幀的深度圖作為所述當(dāng)前幀的深度圖。
21、如權(quán)利要求20所述的裝置,其特征在于,所述第二深度圖獲取模塊還 包括判斷單元,用于判斷所述當(dāng)前幀的場景是否運動根據(jù)得到所述當(dāng)前幀 的圖像與上一幀圖像的對應(yīng)像素點在各個顏色通道上的差值,將所述差值的絕jV-對值關(guān)于所有像素點和所有顏色通道求和,即^SSS/(xj,c)-六x,w) 若e;c=0 "0 c=l小于給定閾值,則是靜止場景,否則是運動場景。
22、如權(quán)利要求20所述的裝置,其特征在于,所述第三深度圖獲取單元還 包括;修正單元,用于對所述第三深度圖獲取單元獲取的當(dāng)前幀的深度圖進行 修正將所述當(dāng)前幀的深度圖劃分為若干小塊,對于每一小塊,利用最小均方 誤差準(zhǔn)則找到它在上一幀深度圖中的匹配塊,將這一小塊中像素的灰度值用匹 配塊中對應(yīng)像素的灰度值替代。
23、如權(quán)利要求16所述的裝置,其特征在于,所述裝置還包括濾波沖莫塊, 用于對所述第一深度圖獲取模塊或所述第二深度圖獲取模塊獲取的深度圖,進 行 斯濾波,得到濾波后的深度圖。
全文摘要
本發(fā)明公開了一種實現(xiàn)平面視頻轉(zhuǎn)立體視頻的方法和裝置,屬于計算機多媒體技術(shù)領(lǐng)域。所述方法包括C1讀取當(dāng)前幀;C2如果所述讀取的當(dāng)前幀為關(guān)鍵幀,則對所述當(dāng)前幀的圖像進行顏色分割,對所述分割后的圖像進行深度賦值,得到所述當(dāng)前幀的深度圖;如果所述讀取的當(dāng)前幀為非關(guān)鍵幀,則獲取所述當(dāng)前幀的深度圖;C3根據(jù)所述獲取的當(dāng)前幀的深度圖,基于深度圖渲染得到立體視頻的一幀;C4繼續(xù)讀取所述當(dāng)前幀的下一幀,返回執(zhí)行步驟C2-C3,直到最終得到立體視頻。本發(fā)明能夠在沒有人工介入的情況下,全自動地實現(xiàn)了對一個視頻序列中每幀圖像所對應(yīng)的深度圖的獲取,較好地完成將平面視頻轉(zhuǎn)為立體視頻的任務(wù)。
文檔編號H04N13/00GK101635859SQ200910091469
公開日2010年1月27日 申請日期2009年8月21日 優(yōu)先權(quán)日2009年8月21日
發(fā)明者季向陽, 戴瓊海, 希 晏, 汛 曹 申請人:清華大學(xué)