專利名稱:一種3d視頻格式識別方法、裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬于視頻技術(shù)領(lǐng)域,尤其涉及一種3D視頻格式識別方法、裝置。
背景技術(shù):
人以左右眼看同樣的物體,因兩眼觀察角度不同,在視網(wǎng)膜上形成的成像并不完全相同,這兩個成像經(jīng)過大腦綜合以后就能區(qū)分物體的前后、遠近,從而產(chǎn)生立體視覺。立體3D顯示就是根據(jù)這一原理,將同一景象的左·眼圖像和右眼圖像分別送入觀看者的左眼和右眼,讓觀察者產(chǎn)生立體觀看感覺。目前,常見的3D片源格式有frame sequence :連續(xù)交替發(fā)送左眼和右眼畫面。full-side-by-side :將左、右眼圖像壓進一幀畫面中,左半幀畫面為左眼圖像,右半幀畫面為右眼圖像。half-si de-by-side :類似于full-side-by-side,但左、右眼圖像的分辨率均在水平方向上壓縮一半。top-and-bottom :在這種格式中,左、右眼畫面按上下排列方式壓縮到一幀圖像中,左、右眼圖像的分辨率均在垂直方向上壓縮為一半。Frame Packing :為了保證數(shù)據(jù)完整性,將左、右眼畫面按上下方式排列FramePacking標準規(guī)定為區(qū)別左、右眼畫面,在左、右眼畫面之間包含一個空白區(qū)域。隔行將左、右眼畫面在垂直方向上按行交錯排列。隔列將左、右眼畫面在水平方向上按列交錯排列。CheckBoard :在CheckBoard 3D格式中,左眼和右眼的圖像被交織,也就是每相隔一個像素存放左眼或右眼圖像。這種格式和國際象棋棋盤的方格相似,因此叫做CheckBoard 格式。3D視頻格式眾多,然而,目前還沒有一種有效的方法能夠自動識別各種3D視頻格式,這給播放器對各種格式的3D視頻進行自動解析造成了困難。
發(fā)明內(nèi)容
本發(fā)明實施例提供了一種3D視頻格式識別方法、裝置,旨在解決現(xiàn)有技術(shù)無法自動識別3D視頻格式,給播放器對各種格式的3D視頻進行自動解析造成了困難的問題。一方面,提供一種3D視頻格式識別方法,所述方法包括從3D視頻中提取一圖像幀;計算所述圖像幀的特征向量;輸入所述特征向量至預(yù)先訓練好的3D視頻格式分類器中;所述3D視頻格式分類器根據(jù)所述特征向量對所述3D視頻的格式進行識別。另一方面,提供一種3D視頻格式識別裝置,所述裝置包括圖像幀提取單元,用于從3D視頻中提取一圖像幀;
特征向量計算單元,用于計算所述圖像幀的特征向量;特征向量輸入單元,用于輸入所述特征向量至預(yù)先訓練好的3D視頻格式分類器中;訓練好的3D視頻格式分類器,用于根據(jù)所述特征向量對所述3D視頻的格式進行識別。在本發(fā)明實施例中,計算輸入的3D視頻的圖像幀的特征向量,并輸入該特征向量至預(yù)先訓練好的3D視頻格式分類器中,以由所述3D視頻格式分類器對待識別3D視頻進行格式識別,得到所述3D視頻的視頻格式,后續(xù)播放器即可根據(jù)該格式對視頻幀數(shù)據(jù)進行正確的拆分和重組,以播放正常的3D畫面。
圖I是本發(fā)明實施例一提供的3D視頻格式識別方法的實現(xiàn)流程圖;圖2是本發(fā)明實施例一提供的按照預(yù)設(shè)規(guī)則對灰度圖像進行的區(qū)域劃分示意圖;圖3是本發(fā)明實施例一提供的對頻譜圖進行的區(qū)域劃分示意圖;圖4是本發(fā)明實施例二提供的3D視頻格式識別裝置的結(jié)構(gòu)框圖。
具體實施例方式為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合附圖及實施例,對本發(fā)明進行進一步詳細說明。應(yīng)當理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。在本發(fā)明實施例中,計算輸入的3D視頻的圖像幀的特征向量,并輸入該特征向量至預(yù)先訓練好的3D視頻格式分類器中,以由所述3D視頻格式分類器對待識別3D視頻進行格式識別,得到所述3D視頻的視頻格式,后續(xù)播放器即可根據(jù)該格式對視頻幀數(shù)據(jù)進行正確的拆分和重組,以播放正常的3D畫面。以下結(jié)合具體實施例對本發(fā)明的實現(xiàn)進行詳細描述實施例一圖I示出了本發(fā)明實施例一提供的3D視頻格式識別方法的實現(xiàn)流程圖,為了便于說明,僅示出了與本發(fā)明實施例相關(guān)的部分,詳述如下在步驟SlOl中,從3D視頻中提取一圖像幀。在本發(fā)明實施例中,從輸入的3D視頻中隨機提取一幀圖像幀。在步驟S102中,計算所述圖像幀的特征向量。在本發(fā)明實施例中,首先從輸入的3D視頻中隨機提取一幀圖像幀,再計算該圖像幀的特征向量,其中,該特征向量的計算步驟包括步驟I、將所述圖像幀轉(zhuǎn)換為灰度圖像。在本實施例中,將提取的彩色圖像幀轉(zhuǎn)換成灰度圖像。步驟2、按預(yù)設(shè)規(guī)則對所述灰度圖像進行區(qū)域劃分,得到預(yù)設(shè)組數(shù)左右眼圖像對。在本實施例中,對步驟I中得到的灰度圖像進行區(qū)域劃分,以得到預(yù)設(shè)組數(shù)的左右眼圖像對,在本實施例中,預(yù)設(shè)的組數(shù)為兩組。圖2為按照預(yù)設(shè)規(guī)則進行的區(qū)域劃分示意圖。在圖2中,將灰度圖像劃分為A、B、C、D四個大小相等的區(qū)域,并將區(qū)域A和區(qū)域B作為一組左右眼圖像對,將區(qū)域A和區(qū)域C作為另一組左右眼圖像對。除上述的基本區(qū)域劃分方法外,為了降低后續(xù)步驟的計算量,可以對圖2所示的區(qū)域劃分方法進行優(yōu)化改進如圖2所示,截取區(qū)域A、B、C、D中的子區(qū)域A1、B1、C1、D1,然后可以選擇區(qū)域Al、區(qū)域BI為一組左右眼圖像對,選擇區(qū)域Al、區(qū)域Cl為另一組左右眼圖像對;或先對所截取的區(qū)域進行組合構(gòu)成一幅圖像,如將Al、BI組合成ABl,Cl、Dl組合成⑶I JfAUCl組合成AC1,BUDl組合成BD1,然后將組合構(gòu)成的圖像兩兩分為一組,比如,將ABlXDl分為一組,那么ABlXDl即為一組左右眼圖像對,將ACUBDl分為一組,則AC1、BDl即為另外一組左右眼圖像對。需要注意的是,Al、B I、Cl、Dl為大小相同的區(qū)域,且它們在A、B、C、D四個區(qū)域中的相對位置也一致。步驟3、計算所述預(yù)設(shè)組數(shù)左右眼圖像對的相似度特征。在本實施例中,在步驟2中已經(jīng)得到兩組左右眼圖像對,則可分別計算該兩組 左右眼圖像對的相似度特征。每組圖像的相似度可由歸一化互相關(guān)系數(shù)(NormalizedCorrelation Coefficient, NCC)來表征,此外還可以選擇絕對差值的總和(Sum ofAbsolute Difference, SAD)或差值平方和(Sum of Squared Difference, SSD)來對相似度進行表征,上述相似度特征的計算方法為本領(lǐng)域公知技術(shù),此處不再贅述。需要說明的是,為了提高對3D視頻格式的識別率,可以增加左右眼圖像對的組數(shù),這樣就增加了左右眼圖像對相似度的個數(shù),也即增加了圖像特征向量的維數(shù)。步驟4、計算所述圖像幀的頻譜特征。在本實施例中,由于不同格式的3D視頻圖像中左右眼畫面像素排列方式不同,因此其傅里葉變換頻譜會有所差別,本實施例從圖像幀的頻譜中分析其能量分布,并從中提取圖像幀的頻譜特征。具體步驟包括la、對所述圖像幀進行二維快速傅里葉變換,得到頻譜圖;lb、對所述頻譜圖進行區(qū)域劃分;lc、統(tǒng)計低頻段區(qū)域以及所述低頻段區(qū)域垂直方向上、水平方向上以及對角方向上的高頻段區(qū)域的能量均值,將所述能量均值作為所述圖像幀的頻譜特征。詳述如下首先對圖像幀進行二維快速傅里葉變換,并對變換后得到的頻譜圖進行區(qū)域劃分,圖3所示為頻譜圖的區(qū)域劃分示意圖,本實施例分別統(tǒng)計低頻段(如圖3中區(qū)域D)以及垂直方向上、水平方向上、對角方向上高頻段(分別為圖3中區(qū)域B、C、A)的能量均值,并將所述能量均值作為圖像幀的頻譜特征。此外,出于降低計算量的目的,可以截取3D視頻的圖像幀的一部分,然后對其進行二維快速傅里葉變換,并根據(jù)上述方法提取該截取圖像的頻譜特征;或者本實施例可以對截取的圖像在行、列方向上分別進行一維快速傅里葉變換,并分別統(tǒng)計低頻段、中頻段以及高頻段的能量均值,并將所述能量均值作為頻譜特征,優(yōu)選地,可以抽取圖像中一定數(shù)目的行和列進行一維快速傅里葉變換,并統(tǒng)計這些行和列數(shù)據(jù)的低頻段、中頻段、高頻段的能量均值,并將這些能量均值的比值(如低頻段能量均值與中頻段能量均值的比值,低頻段能量均值與高頻段能量均值的比值,以及中頻段能量均值與高頻段能量均值的比值)作為頻譜特征。
步驟5、所述相似度特征和所述頻譜特征組成所述圖像幀的特征向量。在本實施例中,將步驟3中計算得到的左右眼圖像對相似度特征和步驟4中計算得到的頻譜特征組成圖像幀的特征向量,則一個特征向量可表征一幀3D視頻圖像。在步驟S103中,輸入所述特征向量至預(yù)先訓練好的3D視頻格式分類器中。在本實施例中,輸入步驟S102計算得到的特征向量至預(yù)先訓練好的3D視頻格式分類器中后,即可利用該訓練好的3D視頻格式分類器進行3D視頻格式的自動識別。對一個3D視頻執(zhí)行步驟I至步驟5的操作,即可提取一圖像幀的特征向量,將該特征向量作為3D視頻格式分類器的輸入,則3D視頻格式分類器的輸出即為3D視頻格式的判別結(jié)果。此夕卜,可以從3D視頻中抓取多幀圖像幀來進行綜合判斷,以進一步提高視頻格式的識別率。其中,利用生成的訓練樣本庫對3D視頻格式分類器來進行訓練,可基于人工神經(jīng) 網(wǎng)絡(luò)或支持向量機來構(gòu)成3D視頻格式分類器。人工神經(jīng)網(wǎng)絡(luò)和支持向量機分類器的訓練方法為本領(lǐng)域公知技術(shù),此處不再贅述。具體的,可以計算各種格式的3D視頻中的不同圖像幀所對應(yīng)的特征向量,由這些特征向量的集合構(gòu)成所述3D視頻格式分類器的訓練樣本庫。在本實施例中,每種格式的3D視頻中的不同圖像幀所對應(yīng)的特征向量的計算詳見步驟I至步驟5的描述,在此不再贅述。 在步驟S104中,所述3D視頻格式分類器根據(jù)所述特征向量對所述3D視頻的格式進行識別。本發(fā)明實施例,計算輸入的3D視頻的圖像幀的特征向量,并輸入該特征向量至預(yù)先訓練好的3D視頻格式分類器中,以由所述3D視頻格式分類器對待識別3D視頻進行格式識別,得到所述3D視頻的視頻格式,后續(xù)播放器即可根據(jù)該格式對視頻幀數(shù)據(jù)進行正確的拆分和重組,以播放正常的3D畫面。實施例二圖4示出了本發(fā)明實施例二提供的3D視頻格式識別裝置的結(jié)構(gòu)框圖,為了便于說明,僅示出了與本發(fā)明實施例相關(guān)的部分,所述3D視頻格式識別裝置包括圖像幀提取單元41、特征向量計算單元42和特征向量輸入單元43。其中,圖像幀提取單元41,用于從3D視頻中提取一圖像幀;特征向量計算單元42,用于計算所述圖像幀的特征向量;特征向量輸入單元43,用于輸入所述特征向量至預(yù)先訓練好的3D視頻格式分類器中,訓練好的3D視頻格式分類器根據(jù)所述特征向量對所述3D視頻的格式進行識別。具體的,所述特征向量計算單元42包括轉(zhuǎn)換模塊、左右眼圖像對生成模塊、相似度計算模塊、頻譜特征計算模塊和特征向量生成模塊。其中,轉(zhuǎn)換模塊,用于將所述圖像幀轉(zhuǎn)換為灰度圖像;左右眼圖像對生成模塊,用于按預(yù)設(shè)規(guī)則對所述灰度圖像進行區(qū)域劃分,得到預(yù)設(shè)組數(shù)左右眼圖像對;相似度計算模塊,用于計算所述預(yù)設(shè)組數(shù)左右眼圖像對的相似度特征;頻譜特征計算模塊,用于計算所述圖像幀的頻譜特征;特征向量生成模塊,用于將所述相似度特征和所述頻譜特征組成所述圖像幀的特征向量。具體的,所述頻譜特征計算模塊包括頻譜圖生成子模塊、區(qū)域劃分子模塊和頻譜特征生成子模塊。其中,頻譜圖生成子模塊,用于對所述圖像幀進行二維快速傅里葉變換,得到頻譜圖;區(qū)域劃分子模塊,用于對所述頻譜圖進行區(qū)域劃分;頻譜特征生成子模塊,用于統(tǒng)計低頻段區(qū)域以及所述低頻段區(qū)域垂直方向上、水平方向上以及對角方向上的高頻段區(qū)域的能量均值,將所述能量均值作為所述圖像幀的頻譜特征。另外,本發(fā)明實施例提供的3D視頻格式識別裝置還可以包括樣本庫建立單元和分類器訓練單元。
·
其中,樣本庫建立單元41,用于建立3D視頻格式分類器的訓練樣本庫,具體的,樣本庫建立單元41計算各種格式的3D視頻中的不同圖像幀所對應(yīng)的特征向量,由這些特征向量的集合構(gòu)成所述3D視頻格式分類器的訓練樣本庫;分類器訓練單元42,用于利用所述訓練樣本庫對3D視頻格式分類器進行訓練,生成訓練好的3D視頻格式分類器。值得注意的是,上述系統(tǒng)實施例中,所包括的各個單元只是按照功能邏輯進行劃分的,但并不局限于上述的劃分,只要能夠?qū)崿F(xiàn)相應(yīng)的功能即可;另外,各功能單元的具體名稱也只是為了便于相互區(qū)分,并不用于限制本發(fā)明的保護范圍。另外,本領(lǐng)域普通技術(shù)人員可以理解實現(xiàn)上述各實施例方法中的全部或部分步驟是可以通過程序來指令相關(guān)的硬件來完成,相應(yīng)的程序可以存儲于一計算機可讀取存儲介質(zhì)中,所述的存儲介質(zhì),如R0M/RAM、磁盤或光盤等。以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。
權(quán)利要求
1.一種3D視頻格式識別方法,其特征在于,所述方法包括 從3D視頻中提取一圖像幀; 計算所述圖像幀的特征向量; 輸入所述特征向量至預(yù)先訓練好的3D視頻格式分類器中; 所述3D視頻格式分類器根據(jù)所述特征向量對所述3D視頻的格式進行識別。
2.如權(quán)利要求I所述的方法,其特征在于,在所述輸入所述特征向量至預(yù)先訓練好的3D視頻格式分類器中之前,所述方法還包括 建立3D視頻格式分類器的訓練樣本庫; 利用所述訓練樣本庫對3D視頻格式分類器進行訓練,生成訓練好的3D視頻格式分類器。
3.如權(quán)利要求2所述的方法,其特征在于,所述建立3D視頻格式分類器的訓練樣本庫具體為 計算各種格式的3D視頻中的不同圖像幀所對應(yīng)的特征向量,由這些特征向量的集合構(gòu)成所述3D視頻格式分類器的訓練樣本庫。
4.如權(quán)利要求I所述的方法,其特征在于,所述計算所述圖像幀的特征向量具體為 將所述圖像幀轉(zhuǎn)換為灰度圖像; 按預(yù)設(shè)規(guī)則對所述灰度圖像進行區(qū)域劃分,得到預(yù)設(shè)組數(shù)左右眼圖像對; 計算所述預(yù)設(shè)組數(shù)左右眼圖像對的相似度特征; 計算所述圖像幀的頻譜特征; 所述相似度特征和所述頻譜特征組成所述圖像幀的特征向量。
5.如權(quán)利要求4所述的方法,其特征在于,所述計算所述圖像幀的頻譜特征具體為 對所述圖像幀進行二維快速傅里葉變換,得到頻譜圖; 對所述頻譜圖進行區(qū)域劃分; 統(tǒng)計低頻段區(qū)域以及所述低頻段區(qū)域垂直方向上、水平方向上以及對角方向上的高頻段區(qū)域的能量均值,將所述能量均值作為所述圖像幀的頻譜特征。
6.一種3D視頻格式識別裝置,其特征在于,所述裝置包括 圖像幀提取單元,用于從3D視頻中提取一圖像幀; 特征向量計算單元,用于計算所述圖像幀的特征向量; 特征向量輸入單元,用于輸入所述特征向量至預(yù)先訓練好的3D視頻格式分類器中; 訓練好的3D視頻格式分類器,用于根據(jù)所述特征向量對所述3D視頻的格式進行識別。
7.如權(quán)利要求6所述的裝置,其特征在于,所述裝置還包括 樣本庫建立單元,用于建立3D視頻格式分類器的訓練樣本庫; 分類器訓練單元,用于利用所述訓練樣本庫對3D視頻格式分類器進行訓練,生成訓練好的3D視頻格式分類器。
8.如權(quán)利要求7所述的裝置,其特征在于,所述樣本庫建立單元計算各種格式的3D視頻中的不同圖像幀所對應(yīng)的特征向量,由這些特征向量的集合構(gòu)成所述3D視頻格式分類器的訓練樣本庫。
9.如權(quán)利要求6所述的裝置,其特征在于,所述特征向量計算單元包括 轉(zhuǎn)換模塊,用于將所述圖像幀轉(zhuǎn)換為灰度圖像;左右眼圖像對生成模塊,用于按預(yù)設(shè)規(guī)則對所述灰度圖像進行區(qū)域劃分,得到預(yù)設(shè)組數(shù)左右眼圖像對; 相似度計算模塊,用于計算所述預(yù)設(shè)組數(shù)左右眼圖像對的相似度特征; 頻譜特征計算模塊,用于計算所述圖像幀的頻譜特征; 特征向量生成模塊,用于將所述相似度特征和所述頻譜特征組成所述圖像幀的特征向量。
10.如權(quán)利要求9所述的裝置,其特征在于,所述頻譜特征計算模塊包括 頻譜圖生成子模塊,用于對所述圖像幀進行二維快速傅里葉變換,得到頻譜圖; 區(qū)域劃分子模塊,用于對所述頻譜圖進行區(qū)域劃分; 頻譜特征生成子模塊,用于統(tǒng)計低頻段區(qū)域以及所述低頻段區(qū)域垂直方向上、水平方向上以及對角方向上的高頻段區(qū)域的能量均值,將所述能量均值作為所述圖像幀的頻譜特征。
全文摘要
本發(fā)明適用于視頻技術(shù)領(lǐng)域,提供了一種3D視頻格式識別方法、裝置,所述方法包括從3D視頻中提取一圖像幀;計算所述圖像幀的特征向量;輸入所述特征向量至預(yù)先訓練好的3D視頻格式分類器中;所述3D視頻格式分類器根據(jù)所述特征向量對所述3D視頻的格式進行識別。本發(fā)明,計算輸入的3D視頻的圖像幀的特征向量,并輸入該特征向量至預(yù)先訓練好的3D視頻格式分類器中,以由所述3D視頻格式分類器對待識別3D視頻進行格式識別,得到所述3D視頻的視頻格式,后續(xù)播放器即可根據(jù)該格式對視頻幀數(shù)據(jù)進行正確的拆分和重組,以播放正常的3D畫面。
文檔編號H04N13/00GK102957933SQ20121045441
公開日2013年3月6日 申請日期2012年11月13日 優(yōu)先權(quán)日2012年11月13日
發(fā)明者吳美芬, 陳永灑, 邵詩強 申請人:Tcl集團股份有限公司