專利名稱::用于數(shù)字編碼3d立體視頻圖像的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及3DVisorTM裝置中的立體視頻圖像顯示,特別涉及借助于數(shù)字?jǐn)?shù)據(jù)壓縮系統(tǒng)的視頻圖像編碼方法,該數(shù)字?jǐn)?shù)據(jù)壓縮系統(tǒng)允許使用標(biāo)準(zhǔn)化的壓縮技術(shù)進(jìn)行三維信息存儲。
背景技術(shù):
:目前,使用數(shù)據(jù)壓縮技術(shù)以減小圖像或者圖像序列顯示中的比特消耗。標(biāo)準(zhǔn)化工作由國際標(biāo)準(zhǔn)化組織的專家組執(zhí)行。目前,這些方法通常稱為為JPEG(聯(lián)合圖像專家組),和MPEG(運(yùn)動圖像專家組)。這些技術(shù)的公共特性在于,圖像塊是借助于應(yīng)用適用于塊的變換來處理的,該變換通常通稱為離散余弦變換(DCT)。形成的塊被送往量化處理,隨后用變長碼來進(jìn)行編碼。變長碼是可逆過程,其允許對已經(jīng)用變長碼進(jìn)行編碼的塊進(jìn)行精確重建。數(shù)字視頻顯示包括以30至75HZ頻率連續(xù)顯示或表示的一定數(shù)量的圖像幀(30至96fps)。每一個(gè)圖像幀仍然是由像素陣列根據(jù)特定系統(tǒng)的顯示分辨率形成的圖像。例如,VHS系統(tǒng)的顯示分辨率為320列480行,NTSC系統(tǒng)的顯示分辨率為720列486行,并且,高清晰電視系統(tǒng)(HDTV)的顯示分辨率為1360列1020行。關(guān)于低分辨率的數(shù)字化形式,320列乘480行的VHS格式,兩小時(shí)長度的電影可等于100GB的數(shù)字視頻信息。為了比較,傳統(tǒng)壓縮光盤的容量約為0.6GB,磁盤的容量為1-2GB,并且目前的壓縮光盤的容量為8GB或者更大。由于存儲和傳輸這種大信息量的限制,已經(jīng)建立了幾種標(biāo)準(zhǔn)的壓縮處理。這些視頻壓縮技術(shù)使用連續(xù)圖像幀之間的相似特性,稱為時(shí)間空間相關(guān)性,以提供逐幀壓縮,逐幀壓縮是根據(jù)從幀到幀的像素表示進(jìn)行的。我們在電影院和電視屏幕上看到的所有圖像都是根據(jù)以很高的速率顯示完整圖像(靜態(tài)圖像,如照片)的原理。當(dāng)它們以每秒30幀的速度(30fps)以快速并且連續(xù)的方式被顯示出來時(shí),由于人眼的視覺暫留(retention),我們把它們看成動畫圖像。為了將圖像編碼成以連續(xù)方式顯示并形成視頻信號,每一個(gè)圖像都需要被分成行,其中每行依次被分為圖像元素或像素,每一個(gè)像素具有兩個(gè)相關(guān)聯(lián)的值,即,亮度和色度。亮度表示每個(gè)點(diǎn)上的光強(qiáng),而色度表示顏色,該顏色為定義的可以用三個(gè)字節(jié)來表示的顏色空間(RGB)的函數(shù)。圖像被顯示在水平-垂直網(wǎng)格(raster)上,從上到下,從左到右循環(huán)地顯示。顯示的線數(shù)和頻率可以由于格式不同而改變,例如,NTSC、PAL、或者SECAM。理論上,可以為每一個(gè)亮度、色度U和色度V像素賦值,但是這表示四個(gè)字節(jié)(一個(gè)用于色度,三個(gè)用于顏色),在NTSC的480行乘720列格式每秒約30幀下,結(jié)果為4×480×720×30,大約每秒40MB的存儲量,由于可用帶寬的限制這是很難存儲和傳輸?shù)?。?dāng)前,已經(jīng)能夠?qū)⑸葦?shù)據(jù)減小為1:4像素;即,每四個(gè)像素取一個(gè)顏色采樣,并且復(fù)制相同的信息用于缺失的三個(gè)像素,人眼并不能感知到差別;這些格式為,即4:4:4(在4×4=16像素組中,四個(gè)亮度采樣和四個(gè)色度采樣)。4:2:2(在4×2=8像素組中,四個(gè)亮度采樣和兩個(gè)色度采樣)。4:1:1(在4×1=4像素組中,四個(gè)亮度采樣和一個(gè)色度采樣)。MPEG1中的4:2:0(在4×2=8像素組中,八個(gè)亮度采樣,水平像素之間的兩個(gè)色度采樣)。MPEG1中的4:2:0(在4×2=8像素組中,八個(gè)亮度采樣,垂直像素之間的兩個(gè)色度采樣)。即使當(dāng)以這種方式減少信息時(shí),用NTSC格式以4:2:0的質(zhì)量存儲一秒鐘的信息所必需的數(shù)字信息量是15MB,或者,對于兩小時(shí)長的文件是108GB?,F(xiàn)有幾種用于從二維視頻序列進(jìn)行三維場景重建的方法??紤]到近來技術(shù)發(fā)展以及考慮到將來的發(fā)展,MPEG4標(biāo)準(zhǔn)試圖提供時(shí)空相關(guān)的圖形編碼媒介,它將是立體圖像、工程應(yīng)用的設(shè)計(jì)和制造中的重要工具。在重建場景的幾何模型處創(chuàng)建虛擬空間。例如,2003年12月9日提交的授予CecileDufour的第6,661,914號USP,其中描述了新的三維重建方法,場景連續(xù)性用簡單的照相機(jī)取得,圖像的輪廓被重建,每個(gè)場景中隱藏部分深度稍后被投影并經(jīng)過提取處理。在圖像處理的領(lǐng)域中,許多人做出了有價(jià)值的貢獻(xiàn),例如2003年10月21日授予Itokawa的第6,636,644號USP,其涉及使用MPEG4的圖像處理,其中跨越圖像邊界延伸的圖像色度值被提取出來,由此實(shí)現(xiàn)了編碼的更高效率,并且能夠?qū)崿F(xiàn)圖像輪廓的自然色重現(xiàn)。現(xiàn)有幾種用于對視頻信號進(jìn)行編碼的方法和方案,例如,2003年10月14日授予Kleihorstetal.的第6,633,676號USP,該方法被應(yīng)用于照相機(jī)系統(tǒng)中的編碼器檢測器,用運(yùn)動補(bǔ)償(I.B.P.)對視頻信號進(jìn)行編碼,并生成高分辨率圖像,該圖像是先前圖像的插值結(jié)果,總之,確定視頻信號中更感興趣的區(qū)域,其總共占用較少的存儲空間。圖像壓縮編碼主要用于以高效方式存儲或傳輸數(shù)字圖像,一種壓縮數(shù)字圖像編碼的方法使用DCT,因?yàn)檫@是例如JPEG和MPEG的公共標(biāo)準(zhǔn)中的一種主要技術(shù)。2002年2月5日授予Boon的第6,345,123號USP描述了一種通過普通的DCT方法變換系數(shù)來進(jìn)行數(shù)字圖像編碼的方法,對上述系數(shù)進(jìn)行量化處理,以便于將它們變換成預(yù)先寫入的量化級數(shù),最后,變長編碼處理被應(yīng)用到量化和轉(zhuǎn)換后的系數(shù),將它們與變長編碼表進(jìn)行比較。圖像被分為多個(gè)小區(qū)域,以進(jìn)行編碼,小區(qū)域互相鄰接,從一個(gè)區(qū)域采樣,就可預(yù)測下一個(gè)圖像區(qū)域的情況。在2000年11月14日授予Boon等人的第6,148,109號USP中使用的該預(yù)測編碼方法,其中對所生成的小區(qū)域之間的差別的圖像數(shù)據(jù)進(jìn)行編碼并將該生成的圖像數(shù)據(jù)提取出來。2000年8月1日授予Murakamietal.的第6,097,759號USP描述了用于場編碼圖像的鄰近的塊編碼系統(tǒng)。塊的圖案包括一個(gè)單獨(dú)的多塊區(qū)域和一個(gè)非交織的塊;而且,編碼系統(tǒng)查詢奇數(shù)和偶數(shù)場運(yùn)動,以產(chǎn)生運(yùn)動補(bǔ)償預(yù)測信號,從而提供高效率編碼。授予Katata等的第5,978,515、5,963,257、5,815,601號USP專利,涉及用于以這樣的方式編碼圖像數(shù)據(jù)的圖像編碼器它們增強(qiáng)所選區(qū)域相對于其它區(qū)域的圖像質(zhì)量,而不增加用于描述該所選區(qū)域的數(shù)據(jù)量。1996年11月26日授予Gisle的第5,579,413號USP描述了用于將數(shù)據(jù)信號變換成量化的圖像塊、并將其轉(zhuǎn)換成變長編碼數(shù)據(jù)信號的方法,其中每個(gè)事件都用三維向量來表示。需要使用允許在較小空間中存儲相同內(nèi)容的數(shù)據(jù)壓縮系統(tǒng),專家組致力于提出壓縮信息和顯示圖像的方法;但在實(shí)現(xiàn)細(xì)節(jié)與MPEG相符合時(shí),在所有軟件和硬件開發(fā)者可創(chuàng)建執(zhí)行處理的新方式的目標(biāo)下,并不提及實(shí)現(xiàn)的細(xì)節(jié)。當(dāng)前,MPEG2是世界范圍的標(biāo)準(zhǔn),被電視和視頻以及音頻相關(guān)的公司廣泛使用。音頻和視頻被打包到基本包(PES)中,所述音頻和視頻包交織在一起,以創(chuàng)建MPEG2數(shù)據(jù)流。每個(gè)包具有用于音頻和視頻在播放時(shí)間同步的時(shí)間標(biāo)識(時(shí)間標(biāo)簽),例如,對于每三個(gè)視頻幀,結(jié)合一個(gè)音頻幀。MPEG有兩種在系統(tǒng)的數(shù)據(jù)流中交織視頻和音頻的不同方法傳輸流被用在錯誤概率較高的系統(tǒng)中,例如衛(wèi)星系統(tǒng),其易于受到干擾。每個(gè)包的長度是188字節(jié),以標(biāo)識頭開始,這使得可以識別間隙和修復(fù)錯誤。不同的音頻和視頻程序能夠同時(shí)在單一傳輸流上通過傳輸流傳輸;由于信息頭,它們可為獨(dú)立的并且可單獨(dú)解碼并且集成到許多程序中。程序流被用在錯誤概率較低的系統(tǒng)中,如在DVD播放系統(tǒng)中。在這種情況下,包具有可變長度和實(shí)際上比傳輸流中所使用的包大的尺寸。作為主要特性,程序流僅允許單一的程序內(nèi)容。MPEG2標(biāo)準(zhǔn)下的視頻系統(tǒng)允許隔行類型的和逐行類型的視頻圖像的編碼。即,逐行視頻格式被存儲在整幀(幀圖片,fp)中,并且在隔行的視頻格式中,它可以兩種方法被存儲,通過整幀圖像(幀圖片)或者通過場圖像(場圖片)。在壓縮格式中,存在三種MPEG2格式的圖像幀內(nèi)編碼(I),它們的信息被編碼為圖像自身內(nèi)部數(shù)據(jù)的函數(shù)。預(yù)測編碼(P),其信息單獨(dú)地取決于其它將來時(shí)間點(diǎn)處的數(shù)據(jù)。雙向預(yù)測編碼(B),其信息取決于過去和將來時(shí)間點(diǎn)處的數(shù)據(jù)。按順序,有三種應(yīng)用到上面的包的壓縮類型,例如,時(shí)間預(yù)測、壓縮和空間壓縮。時(shí)間上的預(yù)測壓縮涉及兩個(gè)時(shí)間上不同的幀,但是它們具有相互運(yùn)動,該時(shí)間上的預(yù)測壓縮利用幀之間的圖像差別很小的事實(shí)??臻g壓縮將位于一個(gè)相同幀(幀內(nèi)編碼的)內(nèi)的信息壓縮,例如,在100×100像素圖像中,3個(gè)字節(jié)用于顏色,1個(gè)字節(jié)用于亮度,如果需要存儲該信息,則每幀需要40KB;相反,如果該圖像是全白的,可以表示為一個(gè)顏色255R,255G,255B,Xstart=0,Ystart=0,Xend=99,Yend=99,這將指示該整個(gè)區(qū)域是白色的;僅使用7KB或8KB,而沒有使用40KB。這樣,就實(shí)現(xiàn)了MPEG壓縮;該處理步驟比較復(fù)雜,在本發(fā)明的范圍之外。類型(I)圖像是僅包含自身圖像的,它們不涉及任何先前的或后續(xù)的圖像,因此不使用時(shí)間預(yù)測壓縮,而只作為它自身空間的函數(shù)。類型(P)圖像是根據(jù)參考圖像,以對它們本身進(jìn)行編碼的,因此它們使用時(shí)間預(yù)測壓縮,也使用空間壓縮。這些圖像可涉及(I)類型圖像或者其它(P)類型圖像,但是僅使用一種圖像參考圖像。(B)類型圖像需要先前的和后續(xù)的兩個(gè)參考圖像,以進(jìn)行重建,該類型的圖像具有最佳壓縮指標(biāo)。用于獲得(B)類型圖像的參考圖像可為(P)或者(I)類型,而不能是(B)類型。編碼和解碼序列不同。為了降低信息量,完整圖像被分為稱為宏塊的單元的整幀;每個(gè)宏塊包括16像素×16像素,從上到下從左到右排列和命名,在屏幕上創(chuàng)建宏塊矩陣陣列,宏塊以順序的形式在信息流中被發(fā)送,即,0,1,2,3,...,n。具有(I)類型圖像的宏塊僅包含自身的空間壓縮;(P)類型圖像可包含(P)類型的宏塊,以便于參考先前的圖像,有包含內(nèi)部編碼的宏塊(交織的宏塊)的可能性,并不受到限制。(B)類型的圖像也可由內(nèi)部編碼(交織)類型的宏塊形成,其涉及先前的圖像、后續(xù)的圖像,或者二者均涉及。按順序,宏塊被分成多塊,一個(gè)塊是8×8數(shù)據(jù)或采樣矩陣;由于色度格式被分為4:4:4格式的形式需要一個(gè)亮度采樣Y,一個(gè)色度采樣Cr,一個(gè)色度采樣Cb,因此,4:4:4格式的每個(gè)宏塊需要12個(gè)塊,在4:2:0格式中,每個(gè)宏塊需要6個(gè)塊。一組連續(xù)宏塊表示一片;一片中可以有任意數(shù)目的宏塊,它們必須屬于單一的行,以與各宏塊相同的方式,這些片從左到右從上到下命名。各片不必須覆蓋所有的圖像,因?yàn)榫幋a后的圖像不需要對每個(gè)像素采樣。一些MPEG標(biāo)準(zhǔn)需要圖像必須完全符合的固定的片結(jié)構(gòu)。使用適當(dāng)?shù)挠布蛙浖惴ǖ慕M合允許MPEG圖像壓縮。編碼后的數(shù)據(jù)是具有特定塊信息的字節(jié)、宏塊、場、幀、圖像和MPEG2格式視頻。信息必須被分成塊組,并且從信息編碼例如(VLC)獲得的結(jié)果是線性比特-字節(jié)流。其中VLC(變長解碼器)是用較短碼代替最頻繁使用的符號并用較長碼代替較少發(fā)生的那些符號的壓縮算法。壓縮后的該信息占用較少的空間,并能夠較快地通過網(wǎng)絡(luò)傳輸。然而,它不是容易編輯的格式,并且需要使用查閱表進(jìn)行解壓縮。反向掃描,信息必須被分成塊組,并且當(dāng)借助VLC對信息進(jìn)行編碼時(shí),所得到的是線性流。塊是8×8數(shù)據(jù)矩陣,因此有必要將線性信息轉(zhuǎn)換成8×8的方形矩陣。根據(jù)其是逐行圖像還是隔行圖像,這是以向下之字形方式進(jìn)行的,在兩種序列類型中都是從上到下從左到右的。反向量化,在于簡單地將每個(gè)數(shù)據(jù)值乘以一個(gè)因子。當(dāng)編碼的時(shí)候,塊中的多數(shù)數(shù)據(jù)被量化以去除人眼所不能夠感知到的信息,量化允許獲得較大的MPEG2流的轉(zhuǎn)換,并且還需要執(zhí)行在解碼處理中的反向處理(反向量化)。MPEG視頻序列結(jié)構(gòu)這是MPEG2格式中使用的最大結(jié)構(gòu),并具有以下格式視頻序列(Video_Sequence)序列頭(Sequence_header)序列擴(kuò)展(Sequence_Extension)用戶數(shù)據(jù)(0)和擴(kuò)展(Extension_and_User_Data(0))圖像組頭(Group_of_Picture_Header)用戶數(shù)據(jù)(1)和擴(kuò)展(Extension_and_User_Data(1))圖像頭(Picture_Header)編碼圖像擴(kuò)展(Picture_Coding_Extension)用戶數(shù)據(jù)(2)和擴(kuò)展(Extension_and_User_Data(2))圖像數(shù)據(jù)(Picture_Data)片(Slice)宏塊(Macroblock)動作矢量(Motion_Vectors)編碼塊圖案(Coded_Block_Pattern)塊(Block)最終序列編碼(Sequence_end_Code)視頻序列包括三種結(jié)構(gòu),視頻序列被應(yīng)用于MPEG1和MPEG2格式,以便于區(qū)分各版本,必須驗(yàn)證在序列頭后面存在序列擴(kuò)展;如果序列頭后面不接有序列擴(kuò)展,則該流是MPEG1格式的視頻流。
發(fā)明內(nèi)容本發(fā)明的一個(gè)目的是提供一種立體3D圖像數(shù)字編碼方法和系統(tǒng),其提供用于在3Dvisors中傳輸、接收和顯示的編碼的數(shù)據(jù)。本發(fā)明的另一個(gè)目的是提供一種編碼方案,其中,視頻數(shù)據(jù)流video_sequence的結(jié)構(gòu)被修改,并且在比特級包括識別標(biāo)記。本發(fā)明的又一個(gè)目的是提供一種3D圖像數(shù)字編碼軟件處理,以video_sequence、識別標(biāo)記、數(shù)據(jù)字段,和圖像字段被修改的方式。本發(fā)明的又一個(gè)目的是提供一種3D圖像數(shù)字編碼硬件處理,其方式是,在左和右通道之間進(jìn)行電比較,對圖像之間的差別進(jìn)行錯誤校正,將處理后的圖像存儲在具有TDVision技術(shù)識別符的video_sequence中。本發(fā)明的又一個(gè)目的是提供一種3D圖像數(shù)字編碼硬件處理,其方式是,DSP的輸入緩沖器的存儲器被增為雙倍的,兩個(gè)獨(dú)立的視頻信號可同時(shí)輸入,并且DSP能夠?qū)Χ€(gè)視頻信號的輸入緩沖器進(jìn)行比較。圖1表示立體3D視頻圖像編碼的硬件和軟件改變;圖2表示MPEG2-4可兼容的立體3D視頻圖像的編譯處理;圖3表示用于編譯MPEG2-4可兼容的立體3D視頻圖像的軟件格式;圖4表示用于編譯MPEG2-4可兼容的立體3D視頻圖像的硬件格式;圖5表示本發(fā)明的編碼器所屬的技術(shù)分支圖即,立體3D圖像處理,其編碼、解碼、經(jīng)由電纜的傳輸、衛(wèi)星和DVD、HDTV和3DVisors顯示。具體實(shí)施例方式為了實(shí)現(xiàn)從數(shù)字視頻流中獲取三維圖像的目的,已經(jīng)通過在編碼處理的不同部分中對硬件和軟件進(jìn)行改變而對現(xiàn)有的MPEG2編碼器進(jìn)行修改。如圖1中所示,MPEG2-4可兼容的TDVision編碼器(1)具有其自身的編碼處理(2),是通過軟件(3)和硬件(4)的改變而實(shí)現(xiàn)的。在圖2中,顯示出本發(fā)明的編碼器實(shí)體的編譯處理,實(shí)際上,圖像(10)被拍攝并被提交到動作補(bǔ)償和錯誤檢測處理(11);應(yīng)用離散余弦變換函數(shù)來改變頻率參數(shù)(12),隨后應(yīng)用量化矩陣(13),以執(zhí)行歸一化處理,應(yīng)用用于行轉(zhuǎn)換處理的矩陣(14),在此處有執(zhí)行變長編碼(15)的可能性,并且,最后,得到具有編碼數(shù)據(jù)(16)的視頻序列。為了執(zhí)行該編譯處理,必須遵照格式(30,圖3)或者M(jìn)PEG2兼容的3D圖像編譯方法,實(shí)際上,如圖3所示,必須對video_sequence(31)在sequence_header(32)、user_data(33)、sequence_scalable_extension(34)、picture_header(35)、picture_coding_extension(36)和picture_temporal_scalable_extension(37)結(jié)構(gòu)中進(jìn)行修改,從而獲得適于用TDVision立體照相機(jī)拍攝的立體3D數(shù)字圖像的編譯格式。視頻數(shù)據(jù)流的結(jié)構(gòu)和video_sequence必須被修改以包括在比特級上識別TDVision技術(shù)編碼圖像類型所必要的標(biāo)記。在以下編碼階段進(jìn)行的修改,即,當(dāng)以MPEG2(軟件)編碼雙圖像時(shí);當(dāng)用硬件編碼圖像時(shí)。軟件修改video_sequence頭。識別識別標(biāo)記。修改數(shù)據(jù)字段。修改圖像字段。硬件在左和右通道之間進(jìn)行電比較。將差別作為B類型圖像進(jìn)行處理(錯誤校正)。隨后,將其與TDVision識別符一起存儲。對附加緩沖器進(jìn)行改變。其結(jié)果被保存并存儲到輔助緩沖器中。實(shí)際上,DSP緩沖器的輸入存儲器被增為雙倍;允許同時(shí)輸入對應(yīng)于來自立體TDVision照相機(jī)的立體左-右現(xiàn)有信號的兩個(gè)獨(dú)立視頻信號;DSP能夠比較兩個(gè)視頻信號的輸入緩沖器。硬件編碼處理是作為單一視頻輸入通道的函數(shù),以標(biāo)準(zhǔn)MPEG2方式執(zhí)行的,獲得兩個(gè)信號(左和右)并進(jìn)行電比較,得到左和右信號之間的比較的差別,上述差別被存儲到臨時(shí)緩沖器中,計(jì)算關(guān)于左信號的亮度和色度的錯誤校正;應(yīng)用DCT(離散余弦變換)函數(shù),并將信息存儲到B類型塊中a)在USER_DATA()(SW)識別結(jié)構(gòu)中b)在PICTURE_DATA3D()結(jié)構(gòu)中在下一幀中繼續(xù)。在圖4中的框圖中顯示出硬件,實(shí)際上,獲得左信號(41)和右信號(42),兩個(gè)信號都存儲在臨時(shí)緩沖器(43)中,比較左和右信號之間的差別,計(jì)算錯誤差別并存儲信息(45),對正確圖像進(jìn)行編碼(46),作為“I”、“B”或者“P”類型圖像執(zhí)行編碼(47),并最后存儲到video_sequence中(48)。復(fù)制將由DSP處理的存儲是重要的,并且可能設(shè)置高達(dá)8個(gè)輸出緩沖器,這允許立體圖像在例如TDVision的3DVisor的裝置上的先前的和同時(shí)的顯示。實(shí)際上,兩個(gè)信道必須在調(diào)用TexasInstrumentsTMS320C62XDSP的編程API的時(shí)候被初始化。MPEG2VDEC_create(constIMPEG2VDEC_fxns*fxns,constMPEG2VDEC_Params*params)。其中IMPEG2VDEC_fxnsyMPEG2VDEC_Params是為每個(gè)視頻通道定義操作參數(shù)的指針結(jié)構(gòu),例如3DLhandle=MPEG2VDEC_create(fxns3DLEFT,Params3DLEFT)。3DRhandle=MPEG2VDEC_create(fxns3DRIGHT,Params3DRIGHT)。從而使得兩個(gè)視頻通道能夠被解碼,并能夠獲得兩個(gè)視頻處理器,一個(gè)用于左-右立體通道。需要兩個(gè)顯示輸出緩沖器,借助于軟件,將定義兩個(gè)緩沖器中的哪一個(gè)必須通過調(diào)用AP函數(shù)顯示輸出即,MPEG2VDEC_APPLY(3DRhandle,inputR1,inputR2,inputR3,3doutright_pb,3doutright_fb)。MPEG2VDEC_APPLY(3DLhandle,inputL1,inputL2,inputL3,3doutleft_pb,3doutleft_fb)。其中3DLhandle是指向由DSP的創(chuàng)建函數(shù)返回的句柄的指針,input1參數(shù)是FUNC_DECODE_FRAME或FUNC_START_PARA地址,input2是指向外部輸入緩沖器地址的指針,并且,input3是外部輸入緩沖器的大小。3doutleft_pb是參數(shù)緩沖器的地址,并且,3doutleft_fb是將要存儲解碼圖像的輸出緩沖器的開始部分。時(shí)間碼和時(shí)間標(biāo)簽將被用于以順序和同步的方式輸出到最后的裝置。軟件和硬件處理的集成是通過被稱為DSP的裝置執(zhí)行的,DSP執(zhí)行多數(shù)硬件處理。這些DSP通過由制造商所提供的C和匯編語言混合進(jìn)行編程。每個(gè)DSP有其自己的API,包括位于DSP中并被軟件調(diào)用的函數(shù)列表或過程調(diào)用。通過該參考信息,作出用于MPEG2格式可兼容的3D圖像編碼的本申請。實(shí)際上,在視頻序列的開始,總出現(xiàn)序列頭和序列擴(kuò)展。序列擴(kuò)展的重復(fù)必須與第一個(gè)相同。相反,與第一次發(fā)生相比,序列頭重復(fù)變化很少,僅有定義量化矩陣的部分應(yīng)該改變。因?yàn)樾蛄兄貜?fù)允許對視頻流的隨機(jī)訪問,即,解碼器可在視頻流的中間開始播放,這是可以實(shí)現(xiàn)的,僅需要搜索先前的序列頭和序列擴(kuò)展,以便能夠解碼視頻流中的后續(xù)圖像。這也會發(fā)生在不能從開頭開始的視頻流上,例如在程序已經(jīng)開始時(shí)開啟衛(wèi)星解碼器。即,序列頭提供視頻流上的較高信息級,為了明確說明,還指出對應(yīng)于每一個(gè)信息級的比特?cái)?shù),最高有效比特位于序列擴(kuò)展(Sequence_Extension)結(jié)構(gòu)內(nèi),它是通過以下結(jié)構(gòu)形成的Sequence_Header字段#bits描述Sequence_Header_Code32Sequence_Header開始0x00001B3Horizontal_Size_Value1212個(gè)較低有效比特用于寬度Vertical_Size_Value1212個(gè)較低有效比特用于高度4圖像方面0000禁用AspectRatioInformation(縱橫比0001n/aTDVision信息)00104:3TDVision001116:9TDVision01002.21:1TDVision0111將執(zhí)行邏輯“與”以獲得與2D系統(tǒng)的向后兼容性。0101…1111保留40000禁用Frameratecode(幀速率碼)0001TDVision格式中的24,000/1001(23.976)0010TDVision格式中的24001125“010030,000/1001(29,97)“010130“011050“011160,000/1001(59,94)“(將執(zhí)行邏輯“與”以獲得與2D系統(tǒng)的向后兼容性。)1000601111保留Bit_rate_value18Video_stream比特率的18個(gè)較低有效比特(bit_rata=400×bit_rate_value+bit_rate_extension<<18)最高有效比特位于sequence_extension結(jié)構(gòu)中。Marker_bit1總為1(防止start_code_失效)。Vbv_buffer_size_value10vbv_buffer_size的10個(gè)較低有效比特,其確定視頻緩沖檢驗(yàn)器(VBV)的大小,VBV為一種結(jié)構(gòu),其用于確保數(shù)據(jù)流可被用于解碼有限大小的緩沖數(shù)據(jù)而不超過或在緩沖器中保留過多自由空間。Constrained_parameters_flag1總為0,不用在MPEG2中。Load_intra_quantizer_matrix1指示intra-coded的量化矩陣是否可用。Ifload_intra_quantizer_matrix8×64如果指示量化矩陣,則這里Non_intra_quantizer_matrix(64)必須指出,它是8×64的矩陣。Load_non_intra_quantizer_matrix1如果non-intra-quantized矩陣可用,則該標(biāo)記必須被激活。Ifload_non_intra_quantizer_matrix8×64如果先前的標(biāo)記被激活,形Non_intra_quantizer_matrix(64)成量化矩陣的8×64數(shù)據(jù)被存儲在這里。Sequence_extension字段#bits描述Extension_Start_Code32開始,sequence_extension,總為0x000001B5Extension_Start_code_Identifier4用擴(kuò)展類型0×1標(biāo)識Profile_and_level_indication8定義類(profile)和視頻流級progressive_sequence11=幀,0=幀和場Chrome_format200保留014:2:0104:2:2114:4:4Horizontal_size_extension2sequence_header擴(kuò)展Vertical_size_extension2sequence_header擴(kuò)展Bit_rate_extension12sequence_header擴(kuò)展Marker_bit1總為1Vbv_buffer_size_extension8sequence_header擴(kuò)展Low_delay11=不具有B類型圖像,還可能引起正常播放期間的VBV緩沖器的利用不足(稱為BIG圖像)0=可包含B類型圖像;但是不可具有BIG圖像,它不會引起VBV緩沖器的利用不足。Frame_rate_extension_n2Frame_rate_extension_d5Next_start_code()擴(kuò)展和用戶數(shù)據(jù)(i)它是一種用于存儲其它結(jié)構(gòu)的容器,并且不具有其自身的數(shù)據(jù),基本上它是一系列extension_data(1)和user_data()結(jié)構(gòu),在一些情況下,結(jié)構(gòu)可以完全為空。Extension_data(i)該結(jié)構(gòu)包含簡單的結(jié)構(gòu)擴(kuò)展。所包含的擴(kuò)展結(jié)構(gòu)類型取決于(i)的值,(i)的值可以是1或2的值。如果它等于“0”,則data_extension跟隨sequence_extension并且extension_data(i)可包含以下二者一個(gè)sequence_display_extension或者一個(gè)sequence_scalable_extension。如果i=2,則該結(jié)構(gòu)跟隨picture_coding_extension,其可包含quant_matrix_extension()、copyright_extension()、picture_display_extension()、picture_spatial_scalable_extension(),或者一個(gè)picture_temporal_scalable_extension。該結(jié)構(gòu)總是以0x000001B5開始。User_datauser_data結(jié)構(gòu)允許應(yīng)用程序的特定數(shù)據(jù)被存儲在視頻序列(video_sequence)內(nèi)。MPEG2規(guī)范沒有定義該函數(shù)的格式,也沒有定義用戶數(shù)據(jù)的格式。結(jié)構(gòu)以user_data_start_code=0x000001B5開始,并包含任意數(shù)量的數(shù)據(jù)(user_data),其持續(xù)到數(shù)據(jù)流(stream)中的下一個(gè)開始碼為止。唯一的條件是,不能有多于23個(gè)連續(xù)的零,因?yàn)樗鼤徽J(rèn)為是開始碼。Sequence_display_extension()該結(jié)構(gòu)提供了不在解碼處理中使用的信息,涉及編碼內(nèi)容的對正確顯示解碼視頻有幫助的信息。Sequence_display_extension()字段bits#描述Extension_start_code_identifier4必須為2,標(biāo)識開始Video_format3000組件001PAL010NTSC011SECAM100MAC101未指定110保留,TDVision111保留,TDVisionColor_description10=不指定顏色參數(shù)。1=包含下面的3個(gè)顏色參數(shù)。Color_rprimaries80禁用1ITU-R-BT.709推薦2未指定的視頻3保留4ITU-R-BT.470-2系統(tǒng)M推薦5ITU-R-BT.470-2推薦系統(tǒng)B,G6SMPTE170M7SMPTE240M8-255保留Transfer_characteristics80禁用1ITU-RBT.709推薦2未指定的視頻3保留4ITU-R-BT.470-2系統(tǒng)M推薦5ITU-R-BT.470-2系統(tǒng)B,G推薦6SMPTE170M7SMPTE240M8真實(shí)轉(zhuǎn)移特性255保留Matrix_coefficients80禁用1ITU-RBT8709推薦2未指定的視頻3保留4FCC5ITU-R-BT.470-2系統(tǒng)B,G推薦6SMPTE170M7SMPTE240M8-255保留Display_horizontal_style14未在MPEG2中指定Marker_bit1總為1Display_vertical_size14未在MPEG2中指定Next_start_codeSequence_scalable_extension該結(jié)構(gòu)必須存在于每個(gè)可擴(kuò)展的視頻流中,其包含基層和一個(gè)或多個(gè)增強(qiáng)層。存在不同類型的MPEG2可擴(kuò)展性,主層的可擴(kuò)展性的一個(gè)實(shí)例是,它包含視頻內(nèi)容的標(biāo)準(zhǔn)定義,而擴(kuò)展層具有增加定義的附加的數(shù)據(jù)。Sequence_scalable_extension描述bits#描述Extension_start_code_identifier4總為5Scalable_mode200分區(qū)數(shù)據(jù)01空間可擴(kuò)展10SNR可擴(kuò)展11時(shí)間可擴(kuò)展Layer_id4層數(shù)(0)Lower_layer_prediction_horizontal_size14Marker_bit1Lower_layer_prediction_vertical_size14Horizontal_subsampling_factor_m5Horizontal_subsampling_factor_n5Vertical_subsampling_factor_m5Vertial_subsampling_factor_n5Picture_mux_enable1Mux_to_progressive_sequence1Picture_mux_order3Picture_mux_factor3Group_of_picture_header()該結(jié)構(gòu)標(biāo)記圖像組的開始。Group_of_picture_header()字段bits#描述Group_start_code320x000001B8Time_code25group_of_picture_header之前第一圖像的時(shí)間標(biāo)簽Dromp_frame_flag-1Time_code_hours-5Time_code_minutes-6Marker_bit-1Time_code_seconds-6Time_code_pictures-6Closed_gop1如果1=B圖像,不參照先前的圖像Broken_link11=指示不再存在的丟失的I類型幀0=鏈接不被斷開Next_start_code()Picture_header字段bits#|描述Picture_start_code320x00000100Temporal_reference10圖像顯示順序Picture_coding_type30000禁用001內(nèi)部編碼(I)010預(yù)測編碼(P)011(B)雙向預(yù)測編碼100為MPEG1保留101保留110保留111保留Vbv_delay16視頻緩沖器檢驗(yàn)機(jī)制(臨時(shí)存儲器)Full_pel_forward_vector1在MPEG1中使用MPEG2=0Forward-f_code3在MPEG1中使用MPEG2=111Full_pel_backward_vector1在MPEG1中使用MPEG2=0Backward_f_code3在MPEG1中使用MPEG2=111Extra_bit_picture1可忽略Extra_information_picture8可忽略Extra_bit_picture1可忽略Extra_start_codePicture_coding_extension字段Bits#描述Extension_start_code32總為0x000001B5Extension4總為1000_start_code_identifierF_code(0)(0)4用于解碼運(yùn)動矢量;當(dāng)它為I類型圖像時(shí),該數(shù)據(jù)充滿1111。F_code(0)(1)4F_code(1)(0)4解碼運(yùn)動矢量(B)信息,當(dāng)它是(P)類型圖像時(shí),它必須被設(shè)置成1111,因?yàn)闆]有向后運(yùn)動。F_code(1)(1)4解碼運(yùn)動矢量信息,當(dāng)它是P類型圖像時(shí),它必須被設(shè)置成1111,因?yàn)闆]有向后運(yùn)動。Intra_dc_precision2反向量化DC離散余弦變換系數(shù)的精度。008比特精度019比特精度1010比特精度1111比特精度Picture_structure2指示圖像被分成多場還是整幀。00保留(TDVision格式的圖像)01頂場10底場11逐幀圖像Top_field_first10=先解碼底場1=先解碼頂場Frame_pred_frame_dct1Concealment_motion_vectors1Q_scale_type1Intra_vic_format1Alternate_scan1Repeat_first_field10=顯示逐行幀1=顯示兩個(gè)相同的逐行幀Chrome_420_type1如果色度格式為4:2:0,則它必須等于progressive_frame,否則它必須等于零。Progressive_frame10=隔行的1=逐行的Composite_display_flag1警告初始編碼的信息V_axis1Field_sequence3Sub_carrier1Burst_amplitude7Sub_carrier_phase8Next_start_code()Picture_temporal_scalable_extension()在具有時(shí)間可擴(kuò)展性的情況下,存在兩個(gè)空間分辨率流,底層提供視頻幀的較少索引版本,而頂層可以被用于獲取相同視頻的較多幀版本。低質(zhì)量、低成本或免費(fèi)解碼器可使用時(shí)間可擴(kuò)展性,而相同付費(fèi)下每秒可傳輸更多幀。Picture_temporal_scalableextension()字段bits#描述Extension4總為1010_start_code_identifierReference_select_code2用于指示參考圖像將被用于解碼intra_coded圖像對于O類型圖像00增強(qiáng)最近的圖像01按顯示順序的較低和最近的幀層10按顯示順序的幀下的一層11禁用對于B類型圖像00禁用01增強(qiáng)模式下的最近解碼的圖像10增強(qiáng)模式下的最近解碼的圖像11按顯示順序的底層中的最近圖像Forward_temporal_reference10時(shí)間參考Marker_bit1Backward_temporal_reference10時(shí)間參考Next_star_code()Picture_spatial_acalable_extension()在圖像空間可擴(kuò)展的情況下,增強(qiáng)層包含數(shù)據(jù),其允許基層的更好的分辨率,以便于它能夠被重建。當(dāng)增強(qiáng)層作為運(yùn)動補(bǔ)償?shù)膮⒖急挥米骰鶎拥暮瘮?shù)時(shí),底層必須被增強(qiáng)和補(bǔ)償,以便于獲得增強(qiáng)層的更大分辨率。Picture_spatial_scalable_extension()字段bits#描述Extension_start_code_identifier4總是1001Lower_layer_temporal_reference10參考較低層的時(shí)間圖像Marker_bit11Lower_layer_horizontal_offset15水平補(bǔ)償(補(bǔ)償)Marker_bit11Lower_layer_veretical_offset15垂直補(bǔ)償(補(bǔ)償)Spatial_temporal_weightcode_table_index2預(yù)測細(xì)節(jié)Lower_layer_progressive_frame11=逐行的0=隔行的Lower_layer_desinterlaced_field_select10=使用頂場1=使用底場Next_start_code()Copyright_extension()Extension4總為010_start_code_identifierCopyright_flag1如果它等于1則它使用版權(quán)如果它是零(0),不需要附加的版權(quán)信息Copyright_identifier81=初始0=復(fù)制Original_or_copy1Reserved7Marker_bit1Copyright_number_120授予的版權(quán)號Marker_bit1Copyright_number222授予的版權(quán)號Marker_bit1Copyright_number_322授予的版權(quán)號Next_start_code()Picture_data()這是簡單結(jié)構(gòu),它本身中不具有字段。Slice()包含相同的垂直位置處的一個(gè)或多個(gè)宏塊的信息。Slice_start_code32Slice_vertical_position_extension3Priority_breakpoint7Quantizer_scale_code5Intra_slice_flag1Intra_slice1Reserved_bits7Extra_bit_slice1Extra_information_slice8Extra_bit_slice1Macroblock()Macroblock_modes()Motion_vectors()Motion_vector()Coded_block_pattern()Block()EXTENSION_AND_USER_DATA(2)該MPEG2可兼容的編碼處理當(dāng)前被用于編碼圖5的立體照相機(jī)(52)拍攝的3D數(shù)字圖像,隨后經(jīng)過編譯器(51)傳送,隨后可獲得在PC(50)和DVD(53)中顯示的信號;當(dāng)解碼器(54)中的信號被編碼時(shí),其可被發(fā)送到解碼器(55)中,用于經(jīng)由電纜(56)、衛(wèi)星(57)、高清晰電視(59)(HDTV)、或在3DVisor裝置(59)等中顯示。這樣,圖像可顯示在以下裝置上DVD(數(shù)字多用盤)DTV(數(shù)字電視)HDTV(高清晰電視)CABLE(DVB數(shù)字視頻廣播)SATELLITE(DSS數(shù)字衛(wèi)星系統(tǒng));并且它是軟件和硬件處理的集成。關(guān)于硬件,大多數(shù)處理是由被稱為DSP(數(shù)字信號處理器)的裝置執(zhí)行的。即,一個(gè)Motorola模型和一個(gè)TexasInstruments(TMS320C62X)模型。這些DSP通過由所討論的制造商提供的C和匯編語言的混合語言編程。每一個(gè)DSP具有其自己的API,包括位于DSP中被軟件調(diào)用的函數(shù)列表或過程調(diào)用。從該參考信息,3D圖像被編碼,其可與MPEG2格式兼容,并可與它們自身的編碼算法兼容。當(dāng)信息被編碼時(shí),DSP負(fù)責(zé)執(zhí)行預(yù)測、比較、量化和DCT函數(shù)應(yīng)用程序處理,以便形成MPEG2壓縮的視頻流。以上示例說明并描述了本發(fā)明的具體實(shí)施例,對于本領(lǐng)域的技術(shù)人員來說顯而易見的是,可以進(jìn)行一些修改或變化,而不會脫離本發(fā)明的范圍。所有這種修改和變化意在由所附權(quán)利要求覆蓋,使得所有變化和修改落在本發(fā)明的范圍內(nèi)。權(quán)利要求1.立體3D視頻圖像數(shù)字編碼方法和系統(tǒng),其由包括軟件算法和相關(guān)硬件的改變的MPEG類型編碼處理組成,其特征在于,修改所述編碼處理中的所述軟件,即修改視頻結(jié)構(gòu);修改視頻數(shù)據(jù)流的video_sequence頭;修改比特級識別標(biāo)記;修改數(shù)據(jù)字段;修改圖像字段。2.如權(quán)利要求1所述的立體3D視頻圖像數(shù)字編碼方法和系統(tǒng),其特征進(jìn)一步在于,所述video_sequence視頻數(shù)據(jù)流由以下結(jié)構(gòu)組成sequence_header;sequence_extension;extension_and_user_data(0);group_of_pictures_header;extension_and_user_data(1);pictureheader(圖片頭);pictures_coding_extension;extension_and_user_data(2);picture_data;slice(片);macroblock(宏塊);motion_vectors;coded_block_pattern;block(塊);sequence_end_code,其應(yīng)用于MPEG1和MPEG2。3.如權(quán)利要求1所述的立體3D視頻圖像數(shù)字編碼方法和系統(tǒng),其特征進(jìn)一步在于,所述sequence_header結(jié)構(gòu)在以下字段中提供關(guān)于所述視頻流的較高信息級aspect_ratio_information字段,其中由0111執(zhí)行邏輯“與”以獲得與2D系統(tǒng)的向后兼容性;和frame_rate_code,其中由0111執(zhí)行邏輯“與”以獲得與2D系統(tǒng)的向后兼容性。4.如權(quán)利要求1所述的立體3D視頻圖像數(shù)字編碼方法和系統(tǒng),其特征進(jìn)一步在于,所述extension_and_user_data(i)結(jié)構(gòu)為用于存儲其它結(jié)構(gòu)的容器并且一些情況下為空結(jié)構(gòu);i的值可以是0或2,如果它等于0則extension_data跟隨sequence_extension,并且extension_data(i)包含sequence_display_extension或sequence_scalable_extension;當(dāng)i=2時(shí),則跟隨的結(jié)構(gòu)是picture_coding_extension,其包含quant_matrix_extension()、copyright_extension()、picture_spatial_scalable_extension()、或picture_temporal_scalable_extension。5.如權(quán)利要求1所述的立體3D視頻圖像數(shù)字編碼方法和系統(tǒng),其特征進(jìn)一步在于,sequence_display_extension()結(jié)構(gòu)提供關(guān)于有助于正確顯示所述視頻的編碼內(nèi)容的信息;在video_format字段中,用111來標(biāo)識。6.如權(quán)利要求1所述的立體3D視頻圖像數(shù)字編碼方法和系統(tǒng),其特征進(jìn)一步在于,sequence_scalable_extension結(jié)構(gòu)具有增加定義的附加數(shù)據(jù),如它包含基層和增強(qiáng)層,空間可擴(kuò)展模式01和時(shí)間可擴(kuò)展模式11;layer_id;lower_layer_prediction_vertical_size;marker_bit;lower_layer_prediction_vertical_size;horizontal_subsampling_factor_m;horizontal_subsampling_factor_n;vertical_subsampling_factor_m;vertial_subsampling_factor_n;picture_mux_enable;mux_to_progressive_sequence;picture_mux_order;picture_mux_factor。7.如權(quán)利要求1所述的立體3D視頻圖像數(shù)字編碼方法和系統(tǒng),其特征進(jìn)一步在于,picture_header結(jié)構(gòu)用以下字段定義圖像編碼類型字段(picture_coding_type),010表示預(yù)測編碼(P),011表示雙向預(yù)測編碼(B);視頻臨時(shí)存儲器(視頻緩沖器)檢驗(yàn)機(jī)制。8.如權(quán)利要求1所述的立體3D視頻圖像數(shù)字編碼方法和系統(tǒng),其特征進(jìn)一步在于,picture_structure字段指示圖像被分為場還是為整幀;00保留形式,TDVision格式的圖像,01頂場,10底場,11逐幀圖像;它還定義了以下字段composite_display_flag;V_axis;field_sequence;sub_carrier;burst_amplitude;sub_carrier_phase。9.立體3D視頻圖像數(shù)字編碼方法和系統(tǒng),由包括軟件算法和相關(guān)硬件中的改變的MPEG類型編碼處理組成,其特征在于,修改在所述編碼處理中的所述硬件,即當(dāng)電比較左和右通道時(shí),使能兩個(gè)獨(dú)立的視頻輸入通道;處理左和右通道之間的比較差別;使存儲器被增為雙倍,以提供立體圖像的以前的和同時(shí)的顯示;使能DSP,以比較用于左-右視頻信號二者的同時(shí)輸入緩沖器。10.如權(quán)利要求9所述的立體3D視頻圖像數(shù)字編碼方法和系統(tǒng),其特征進(jìn)一步在于,所述使能兩個(gè)獨(dú)立的視頻通道允許對應(yīng)于TDVision照相機(jī)的現(xiàn)有立體左-右信號的兩個(gè)獨(dú)立視頻信號的同時(shí)輸入。11.如權(quán)利要求9所述的立體3D視頻圖像數(shù)字編碼方法和系統(tǒng),其特征進(jìn)一步在于,所述DSP緩沖器的輸入存儲器被增為雙倍。12.如權(quán)利要求9所述的立體3D視頻圖像數(shù)字編碼方法和系統(tǒng),其特征進(jìn)一步在于,所述硬件修改在于以下步驟常規(guī)格式(MPEG2)的幀編碼,作為單一視頻輸入通道的函數(shù);取兩個(gè)信號;電比較所述左和右信號;獲取所述右和左信號之間的錯誤差別;在臨時(shí)緩沖器中存儲所述差別;計(jì)算關(guān)于所述左信號的亮度和色度的錯誤校正;應(yīng)用DCT;將B類型塊中的信息存儲在picture_data3D()結(jié)構(gòu)中。全文摘要為了從數(shù)字視頻流中獲取三維圖像,對現(xiàn)有的MPEG2編碼器進(jìn)行了某些修改;在編碼處理的不同部分對軟件和硬件進(jìn)行了改變。實(shí)際上,視頻數(shù)據(jù)流的結(jié)構(gòu)和video_sequence被修改以包括在比特級識別TDVision技術(shù)的圖像類型所必需的標(biāo)記。關(guān)于軟件,將在以下處理中進(jìn)行修改video_sequence頭、識別標(biāo)記修改、數(shù)據(jù)字段修改、和圖像字段修改。關(guān)于硬件,在左和右信道的圖像之間進(jìn)行電比較,將差別作為B類型圖像進(jìn)行處理,即,執(zhí)行錯誤校正,將結(jié)果與TDVision技術(shù)識別符一起存儲在臨時(shí)緩沖器中。當(dāng)編碼信息時(shí),DSP被用于執(zhí)行預(yù)測、比較、量化、和DCT函數(shù)應(yīng)用處理,以形成MPEG2可兼容的壓縮視頻流。文檔編號H04N13/00GK1926576SQ200480042588公開日2007年3月7日申請日期2004年2月27日優(yōu)先權(quán)日2004年2月27日發(fā)明者M(jìn)·R·古鐵雷斯諾韋洛申請人:Td視覺有限公司