專利名稱:具有多分辨率特征的運動視頻信號壓縮系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)據(jù)壓縮領(lǐng)域,更具體地說,是涉及在多種標度下壓縮和解壓數(shù)字運動視頻信號的系統(tǒng)和技術(shù)。該技術(shù)擴展了與國際標準組織的運動圖象專家組(InternationalStandardsOrganization′sMovingPictureExpertsGronp)(MPEG)提出的MPEG標準類似的方法。
數(shù)字傳送網(wǎng)絡、數(shù)字存貯介質(zhì)、超大規(guī)模集成裝置、以及視頻和音頻信號的數(shù)字壓縮方面的技術(shù)進展,都趨向于使數(shù)字視頻信號的存貯和傳送在廣大的應用范圍內(nèi)變得更加經(jīng)濟。由于數(shù)字視頻信號的存貯和傳送對眾多應用都是至關(guān)重要的,且視頻信號的未壓縮表示要求存貯量大,故在此先進技術(shù)中數(shù)字視頻壓縮技術(shù)是關(guān)鍵的。因此,在過去十年中出現(xiàn)了幾個用于數(shù)字視頻信號壓縮的國際標準,且更多的在正在出現(xiàn)中。這些標準適用于在各種應用中傳送及存貯壓縮數(shù)字視頻信號的方法,包括圖象電話和電話會議;同軸和光纖網(wǎng)絡及地面廣播和直接廣播衛(wèi)星上的高質(zhì)量數(shù)字電視傳送;及CD-ROM、數(shù)字錄音帶、及溫盤裝置上的相互作用的多媒介產(chǎn)品。
這些標準中的幾個包括基于壓縮技術(shù)的公共核的方法,如CCITT(國際電報及電話咨詢委員會,ConsultativeCommitteeonInternationalTelegraphyandTelephony)建議H.120、CCITT建議H.261、及ISO/IECMPEG標準。此MPEG法是由運動圖象專家組(MPEG)建立的,該組織是國際標準組織(ISO)和國際電技術(shù)協(xié)會(IEC)的聯(lián)合技術(shù)委員會的一部分。該MPEG委員會正為視頻和音頻信號的多重復用壓縮表示建立一草案標準。該標準規(guī)定了壓縮此特串的句法及在一定空間分辨率下解譯數(shù)字視頻信號的方法。該草案標準將被稱作MPEG-1標準或算法,以區(qū)別于該委員會時下正在討論的更新的算法。此MPEG-1草案標準在1991年5月的文件ISO/IEGJTCI/SC2WG11MPEG91/090中作了描述。
由于本發(fā)明可被用于擴展MPEG-1解碼器的功能,以從同一壓縮比特串產(chǎn)生多種視頻分辨率,故將提到MPEG-1視頻壓縮算法中的一些有關(guān)的部分。但應注意的是,本發(fā)明還可用于其他的、具有MPEG法的某些特征的視頻編碼算法。
MPEG-1視頻信號壓縮算法首先應理解的是,任何數(shù)據(jù)體,如書中的一頁,一幅圖象、一段講話、或一列視頻信號,它們的壓縮均可被視為一系列步驟,包括1)將該數(shù)據(jù)體分解成一組符號;2)用在某些情況下有最小長度的二進數(shù)串來表示這些符號;3)以確定的順序連接這些數(shù)串。步驟2和3是無失真的,即在逆變換時原始數(shù)據(jù)是可復原的,而且步驟2也叫熵編碼。(參見T.BERGER的RateDistortionTheory,NJPrentice-Hall,1977;R.McELIECE的TheTheoryofInformationandCoding,Reacling,MAAddison-Wesley,1971;D.A.HUFFMAN的AMethodfortheConstructionofMinimumRedundancyCodes,“Proc.IRE,pp1098-1101,September1952;G.G.LANGDON的“AnIntroductiontoArithneticCoding,”IBMJ.Res.Decelop,Vo(28,pp.135-149,March1984)。步驟1通常即可是無失真的,也可是失真的、多數(shù)視頻壓縮算法是失真的。成功的失真壓縮算法消掉多余和無關(guān)的信息、在錯誤看上去不明顯時能容許較多的錯誤、并并刻意表現(xiàn)人類觀察者非常注意的序列部分。在MPEG-1法中采用的步驟1的技術(shù)可稱為預測/內(nèi)插運動補償混合PCT/DPCM編碼(Predicative/interpolativemotion-compensatedhydridDCT/DPCMcoding)。Huffman編碼,也叫可變長度編碼(見上面所列的Huffman1952年的文章,被用在步驟2中。盡管MPEG-1標準實際上是一解碼器和壓縮比特串句法的規(guī)范,但為說明方便起見,以下的MPEG-1規(guī)范描述主要是從編碼器的角度進行的。
MPEG-1視頻標準規(guī)定了數(shù)據(jù)存貯介質(zhì)的視頻編碼表示,如1991年MPEG委員會草案ISO-IECJTC1/SC2/WG11MPEGCD-11172中所規(guī)定的那樣。該算法是為在無交錯分量視頻信號中使用而設計的,盡管它可通過把兩個依次的交錯場合成一個圖象而擴展應用到交錯視頻圖象上。每個圖象有三個分量亮度(y)、紅色差(Cr)和蘭色差(Cb)。Cr和Cb分量各自在垂直及水平方向的取樣均只有y分量的一半。另外,此算法是以單一的視頻分辨率水平進行的。
MPEG-1序列的分層結(jié)構(gòu)一個MPEG-1數(shù)據(jù)串由一視頻數(shù)串和一音頻數(shù)串組成,這些數(shù)串與系統(tǒng)信息及其他可能出現(xiàn)的比特串一起,被裝入一可視為有分層結(jié)構(gòu)的系統(tǒng)數(shù)據(jù)串中。在MPEG-1數(shù)據(jù)串的視頻層中,壓縮數(shù)據(jù)被進一步分層。最高的一層是視頻序列層,它包含控制信息及整個序列的參量。對其他層的組成的描述會有助于理解本發(fā)明。MPEG-1視頻分層結(jié)構(gòu)的這些層在
圖1至4中顯示。在這些圖中圖1顯示了圖象組(GOP);
圖2顯示了圖象的宏觀塊劃分;
圖3顯示了圖象(例)的片劃分;
圖4顯示了宏觀塊的塊劃分。
這些層關(guān)系到壓縮算法操作及壓縮比特率組合。如前所述,最高層是包含控制信息及整個序列的參量的視頻序列層。在下一層中,序列被分成依次圖象的組,每個被稱為圖象組(GOP)。在圖1中概括地顯示了這種層。解碼可始于任何GOP的開始處,基本上與前面的GOP無關(guān)。GOP中的圖象數(shù)目是沒有限制的,所有GOP中的圖象數(shù)目也不必是相同的。
第三或圖象層是一幅圖象。圖2中一般地顯示了該層。解碼可始于任一GOP的開始處;各圖象的亮度分量基本被分成16×16個區(qū),而色差分量則被分成與16×16個亮度區(qū)在空間上同處(Co-sited)的8×8個區(qū)。同處的亮度區(qū)和色差區(qū)一同構(gòu)成了第五層,叫做宏觀塊(MB)。
在圖象和MB層之間是第四或“片”層。各片由任意或選定數(shù)目的依次MB組成。一個圖象內(nèi)或不同圖象中的片不必是大小一致的。它們的大小可以僅有幾個宏觀塊,也是延伸過幾列MB(如圖3所示)。
一個MB是一基本層,它可聯(lián)系有各種特性,這在下面可以看出。如圖4所示,MB的基本結(jié)構(gòu)包括四個亮度塊和兩個度塊。在MPEG-1中,所有這些塊的大小均為8×8。本發(fā)明的一個目的,是在多個圖象分辨率下保存MB的結(jié)構(gòu)和特性(不一定是其大小)。
在一個GOP內(nèi),會出現(xiàn)三種類型的圖象。各類圖象的區(qū)別在于所用的壓縮方法?!皟?nèi)模式”圖象或I圖象是與其他圖象獨立地壓縮的。盡管I圖象的間距沒有上限,但希望它們的頻繁地在整個序列中,以利于隨機存取及其他模式的操作。各GOP必須以一個I圖象開頭、且其他的I圖象可出現(xiàn)在此GOP中。其他類型的圖象,即預計運動補償圖象(P圖象)和雙向運動補償圖象(B圖象)將在下面對運動補償?shù)挠懻撝忻枋?。在圖5中給出了一般的說明。
運動補償大多數(shù)視頻信號序列都表現(xiàn)出依次的圖象之間的高度相關(guān)性。在編碼圖象之前消除這種冗余的一種有利方法是“運動補償”。運動補償需要有裝置來模擬并測定一個場面中的運動。在MPEG-1中,各圖象被分成宏觀塊,且把各MB與一或多個預計圖象中處于相同大致空間位置的16×16個區(qū)相比較。預計圖象中與某些場面中的MB最匹配的區(qū)被作為預計。MB的空間位置與預計者的空間位置間的差別被稱為“運動矢圖”。這樣,用于一MB的運動估計和補償就是運動矢量和運動補償差宏觀塊。這些一般可得此原有MB本身更多地壓縮。用以前的(即在順序中在時間上是向前的)單一預計圖象來預計運動補償?shù)膱D象,叫做P圖象。
在MPEG-1中,P圖象和其預計圖像間的時間間隔可大于一個圖象間隔。對P圖象之間或I圖象與P圖象間的圖象,除了時間上向前的預計外,也可采用時間上向后的預計,這種圖象叫雙向運動補償圖象(B圖象)。對B圖象,除了向前和向后的預計,還允許內(nèi)插運動補償,其中的預計為來自以前預計圖象的塊與來自未來預計圖象的塊的平均。在此情況,需要兩個運動矢量。
采用雙向運動補償導致了一個兩級運動補償結(jié)構(gòu),如圖5所示。各箭頭表示用與點相接觸的圖象對觸到箭頭頭部的圖象所作的補償。各P圖象均用前-P圖象(或I圖象,如實際可能出現(xiàn)的)進行運動補償。各B圖象均用緊鄰它的前或和后一幅P或I圖象進行運動補償。這些預計圖象有時叫做“錨”圖象。對錨圖象們的間距反I圖象們的間距,MPEG-1中都沒作限定。實際上,在一個整個序列中,這些參數(shù)不必是常數(shù)。若以N表示I圖象間的距離而以M表示P圖象間的距離,則圖5所示的序列有(N,M)=(9,3)因此應當理解,MPEG-1序列由一系列I圖象組成,這些I圖象間可夾有一或多個或根本沒有P圖象。這些I和P圖象間可根本沒有或夾有一或多個B圖象,在后一種情況下它們是錨圖象。
MB的變換和量化(quantization)一種非常有用的圖象壓縮技術(shù)是變換編碼。(參見N.S.JAYANT和P.NOLL的"digitalCodingofWaveforms,principlesandApplicationstoSpeechandvideo",EnglewoodCliffs,N.J;Prentice-Hall,1984和A.G.TESCHER,"TransformImageTransmissionTechniques,pp113-115,NewYork,NYAcademicPress1979.)在MPEG-1和其他幾種壓縮標準中,分立余弦變換(DCT)是所適用的變換。(見K、R、RAO和P、YIP的“DiscreteCosineTransformation,Algorithms,Advantages,Applications",SanDiego,CAAcademicPress,1990,和N.AHMED、T.NATRAJAN和K、R、RAO的"DiscretecosineTransformation,"IEEETransationsonComputers,pp.90-93,January1974)比如,一輻I圖象的壓縮,是通過在MB內(nèi)取亮度及色度象素(pixel)的塊的DCT、量化該DCT的系數(shù)、并對其結(jié)果作Huffman編碼而實現(xiàn)的。類似的原則也適用于P和B圖象的壓縮,只是在這些情況下,DCT可被用于一個MB中的象素塊之間的差和它們的相應運動補償預計。PCT把n×n個象素轉(zhuǎn)換成n×n組變換系數(shù)。DCT在壓縮變換中是非常有用的,因為它傾向于把象素塊數(shù)據(jù)的能力集中到幾個DCT系數(shù)之中,而且這些DCT系數(shù)幾乎是相互獨立的。象幾個國際壓縮標準,MPEG-1法采用了一個8×9的DCT塊,這時應于MB內(nèi)的塊的大小。本發(fā)明的一個目的,是利用更大或更小的DCT,從而變量MB的大小,以支持有多重分辨率的圖象。
下一個步驟是DCT系數(shù)的量化,這在MPEG-1法中是主要的失真源。用Cmm表示DCT系數(shù)的二維陣列中的元素,其中m和n可從0至7,則除了舍位和近似修正之外,量化是通過用WmnXQP來除各個DCT系數(shù)而實現(xiàn)的,其中Wmn是加權(quán)因子,而QP是量化參數(shù)。加權(quán)因子Wmn使較粗略的量化能被用于看上去較次要的系數(shù)。這些權(quán)可以有兩組,一組用于I圖象,另一組用于P和B圖象。常規(guī)的權(quán)可在視頻序列層中傳送。量化參量QP是在MPEG-1中權(quán)衡質(zhì)量和比特率的主要手段。應注意的是,在一幅圖象中不同MB的QP可以不同。還應注意到,在本發(fā)明中,可選擇為其他大小的DCT提供單獨的加權(quán)短陣,或提供在數(shù)字上關(guān)聯(lián)的、大小不同的加權(quán)知陣,以利于解碼。
在量化之后,各MB的DCT系數(shù)信息得到組織并用Huff-man碼進行編碼。此步驟的細節(jié)對理解本發(fā)明并不是重要的,因此這里就不作說明了,但其進一步的情況可參見前面引用的HUFFMAN1952年的文章。
與運動補償有關(guān)的宏觀塊特性可以想見,有三種運動補償可被用于MB向前的、向后的、和內(nèi)插的。編碼器須選擇這些模式中的一種。對某些MB,沒有一種運動補償能給出精確的預計。在這種情況下,可將此MB選出,以作內(nèi)模式編碼,就象對I圖象那樣。這樣,根據(jù)運動補償模式,MB可以是下列型式的*向前的*向后的*內(nèi)插的*內(nèi)的在P圖象中,根據(jù)運動矢量的值,MB可以是帶零運動矢量或非零運動矢量類型的。這些類型連同所需運動矢量數(shù)據(jù)與各MB一起被編碼,作為開銷(overhead)數(shù)據(jù)。例外是忽略的MB,如下面所要描述的。與變換幫量化有關(guān)的宏觀塊特性。
如前所述,QP參量可隨不同的MB而改變,當這種改變出現(xiàn)時,用附加的MB類型表示應該使用新的QP。該新QP值本身與MB一同傳送。
當時MB中的塊作DCT及量化后,有些塊會只含有零。這些塊不用再作編碼,并用所謂編碼塊圖案碼來標示。這種碼代表額外的,開銷項目。
最后,每當MB不含新信息時,都可將其略去。為傳達這個信息,把一MB地址與各未省略MB一同傳送。
在此應注意,MB們攜帶著一系列的特性,這些特性可通過使各編碼MB包含開銷數(shù)據(jù)而得到描述。本發(fā)明的一個目的,是在多種量度下保存MB們的身份,從而使經(jīng)常項目只用包含一次,當然在某些參數(shù)(如運動矢量的精確度)的精細化方面除外。
因此,從前面對MPEG-1視頻信號法的描述,應當理解到MPEG-1的目的,是規(guī)定于視頻序列的壓縮此特串的句法,并規(guī)定在單一的空間分辨率水平下解碼該序列所用的方法。本發(fā)明所要解決的問題,是擴展MPEG-1的句法及解碼方法規(guī)范,從而可以多種比例(scale)對數(shù)字視頻序列進行解碼和編碼。為這些目的,有兩種定標(scaling)類型1.分辨率定標指產(chǎn)生一種比特率的能力,這種比特串可通過選擇該比特串的不同部分而以多種空間分辨率進行解碼。此特征在要把多個視頻窗口顯示地完全分辨率屏幕上的某些應用中是需要的。另外,它的有用之處還在于,它可使解碼器能在沒的復雜程度下使用,從而有可能用極簡單的解碼器來解譯較低的空間分辨率。
2.比特串定標指產(chǎn)生一種比特串的能力,該比特串中的某些編碼比特可被省去,而有用的圖象仍能產(chǎn)生。分辨率可定標算法也是比不用再作編碼,并用所謂編碼塊圖案碼來標示。這種碼代表額外的,開銷項目。
最后,每當MB不含新信息時,都可將其略去。為傳達這個信息,把一MB地址與各未省略MB一同傳送。
在此應注意,MB們攜帶著一系列的特性,這些特性可通過使各編碼MB包含開銷數(shù)據(jù)而得到描述。本發(fā)明的一個目的,是在多種量度下保存MB們的身份,從而使經(jīng)常項目只用包含一次,當然在某些參數(shù)(如運動矢量的精確度)的精細化方面除外。
因此,從前面對MPEG-1視頻信號法的描述,應當理解到MPEG-1的目的,是規(guī)定于視頻序列的壓縮此特串的句法,并規(guī)定在單一的空間分辨率水平下解碼該序列所用的方法。本發(fā)明所要解決的問題,是擴展MPEG-1的句法及解碼方法規(guī)范,從而可以多種比例(scale)對數(shù)字視頻序列進行解碼和編碼。為這些目的,有兩種定標(scaling)類型1.分辨率定標指產(chǎn)生一種比特率的能力,這種比特串可通過選擇該比特串的不同部分而以多種空間分辨率進行解碼。此特征在要把多個視頻窗口顯示地完全分辨率屏幕上的某些應用中是需要的。另外,它的有用之處還在于,它可使解碼器能在沒的復雜程度下使用,從而有可能用極簡單的解碼器來解譯較低的空間分辨率。
2.比特串定標指產(chǎn)生一種比特串的能力,該比特串中的某些編碼比特可被省去,而有用的圖象仍能產(chǎn)生。分辨率可定標算法也是比JPEGN-260,F(xiàn)ebruary1989。
*“SetupofCCIR601multi-purposecodingscheme,”PTTRESEARCH,theNetherlands,ISO/IECJYC1/SC2/WG11MPEG91/051,May1991。
*“CompatibleCodingofCCIR601ImagePredictthepredictionerror,”PTTRESEARCH,theNetherlands,ISO/JTC1/SC2/WG11MPEG.91/114,August1991。
第一個文件描述了壓縮多分辨率靜止圖象的分級方案,其中用低分辨率圖象的DCT系數(shù)來預計較高分辨率的DCT系數(shù)。該方案與本發(fā)明的不同之處是DCT的大小總是相同的。另外,也沒有考慮采用壓縮被分成有共同特性的象素的塊的影象的方案。第二個和第三個(尤其是第三個)文件描述的方案在應用于兩層分辨率標度時與本發(fā)明相類似。這些文件中的該方案的目的,是利用具有兩級分辨率標度,以產(chǎn)生與CCIR601格式和MPEG-1SIR格式相兼容的圖象。但沒有試圖將該技術(shù)擴展到在分辨率及比特串方面可定標的編碼器。另外,在兩個標度水平只未保持宏觀塊的特性,特別是在較高分辨率標度下的運動補償矢量被定在16×8塊的水平,而不是36×16的CCIR601宏觀塊水平。這意味著各分辨率標度并不都具有這一特性。另外,在如何處理其他特性上也未給出細節(jié)。
與前述先有技術(shù)系統(tǒng)和方法不同,本發(fā)明的目的在于提供一種用于壓縮圖象信號序列原靈活句法和編/解碼方案,這些使得能在多種空間分辨率和比特串標度下對視頻信號進行解碼。本發(fā)明的另一目的,是提供用于以擴展MPEG-1標準的已有句法及方法的方式來支持多種標度原系統(tǒng)和算法。這種擴展是在只加上最少額外經(jīng)常信息的情況下進行的。
本發(fā)明的再一個目的,是提供與本發(fā)明的系統(tǒng)和算法相符合的編碼器和解碼器實施方案。
本發(fā)明包括用于以產(chǎn)生圖象數(shù)據(jù)的一種表示的方式處理一系列視頻圖象數(shù)據(jù)的系統(tǒng)和方法,此表示根據(jù)分辨率及比特串標度對數(shù)據(jù)進行多路。該表示可在所有分辨率及比特串標度下保存MPEG-1的基本宏觀塊(MB)結(jié)構(gòu)的身份。圖6顯示MB身份是如何通過在四個分辨率水平上定標而得以保存的。保存此身份的重要性在于MB是與一系列特性相聯(lián)系的,這些特性影響著包含在MMPEG-1壓縮數(shù)據(jù)串中的開銷數(shù)據(jù)量。通過在多種分辨率及比特串標度下保存MB身份,這些標度就能分享這些開銷數(shù)據(jù),從而只需將其在數(shù)據(jù)串中包含一次。
保存MB身份大大簡化了除最高分辨率以外的所有分辨率標度下的運動測定矢量數(shù)據(jù)的尋出。對應于任何分辨率標度的運動矢量數(shù)據(jù)基本上都可通過適當降低最高分辨率運動矢量數(shù)據(jù)的標度而從其尋出。比如,1/4分辨率的x和y運動矢量分量是相應的完全分辨率分量的1/2。另一方面,完全分辨率運動矢量可通過適當提高較低分辨率運動矢量的標度而導出。在后一情況下,可把附加的修正加在較高的分辨率標度,以改善運動矢量數(shù)據(jù)的精度。
本發(fā)明的第二個方面是MB的編碼方法也得到了保存。如前所述,在MPEG-1中,一個MB被分成六個8×8的亮度和色度信息塊,每塊均用8×8分之余弦度換(DCT)編碼。在本技術(shù)中,各標定的MB也被分成六個亮度和色度信息塊,各塊用適當大小的DCT編碼。這種對圖6中R1/4分辨的MB,將用4×4大小的DCT。另外還應注意,這種4×4大小的DCT,作為一個例子,還可以多種方式從相應的8×8DCT系數(shù)導出,這樣就不必直接執(zhí)行4×4的DCT。
最后,本發(fā)明的第三個方面涉及產(chǎn)生以最終分辨率標度重建圖象所需的DCT塊數(shù)據(jù)的方法。在本發(fā)明的技術(shù)中,任何分辨率或比特串標度下的DCT系數(shù)數(shù)據(jù),均由采用標度等級較低的DCT數(shù)據(jù)作為預測值的標準微分編碼技術(shù),進行了編碼。
圖1-4顯示了MPEG-1數(shù)據(jù)串的視頻壓縮層中的壓縮數(shù)據(jù)層,即圖1描述了幀或圖象組(GOP),圖2描述了圖象的宏觀(MB)分割,圖3描述了作為例子的一個幀的分割,圖4描述了一宏觀塊的塊分割。
圖5顯示了在MPEG-1標準中采用的一個GOP中的圖象中的兩級運動補償。
圖6顯示如何根據(jù)本發(fā)明來把宏觀塊定標在各種標度。請注意也可把宏觀塊定標到高于該圖中所示的完全分辨率的分辨率上。
圖7顯示了對應于圖6中所示標度的DCT系數(shù)的分級預測。
圖8是可解譯圖6和7的三或四個分辨率標度的解碼器的框圖。注意如輸出只需一個分辨率標度時可略去若干個框。
圖9是具有比特串可定標性的解碼器的框圖。
圖10是帶預測前的非量化的分級解碼器的框圖。
圖11是可與本發(fā)明連用的靈活可定標視頻壓縮編碼器方案的框圖。
圖12a是可用于圖11的靈活可定標視頻壓縮編碼器方案的變換單元一種型式。
圖12b是可用于圖11的靈活可定標視頻壓縮編碼器方案的變換單元的另一種型式。
圖13a是可用于圖11的靈活可定標視頻壓縮編碼方案的分級預測單元的一種型式。
圖13b是可用于圖11的靈活可定標視頻壓縮編碼器方案的分級預測單元的另一種型式。
在給出本發(fā)明具體實施例原描述之前,應解釋的是,在涉及數(shù)字視頻信號的大量應用,對視頻信號壓縮算法提出了很大相互矛盾的要求,這些矛盾表現(xiàn)在標準的兼容、編碼器和解碼器方案的復雜性、功能、圖象質(zhì)量等方面。不能指望用一種編碼法來滿足所有這些相互矛盾的要求,但可要求一種靈活性可用來滿足這些相互矛盾的要求中的許多個,同時仍保存不同設計方案之間的廣泛兼容性。據(jù)信,例如,雖然不同的應用會要求不同的編碼器方案,實現(xiàn)能解譯所有符合該靈活設計有所有比特串的單一解碼器是有可能的。此外,相信這種通用解碼器應不會太復雜。本發(fā)明一個目的就是提供這樣的通用解碼器。
若干種應用將得益于上述的分辨率及比特串可定標性特性。本發(fā)明的方法和裝置支持用8×8DCT分量分極編碼分辨率和比特串定標。雖然也可采用其他大小的DCT,最佳實施例仍以8×8DCT開始,因為它為幾種標準壓縮算法所選用。
對分辨率定標,本發(fā)明可被用于提供多達四級的分辨率。最低的可能分辨率是通過編碼8×8DCT塊的左上分量的等值量來達到的,該分辨率是原分辨率的1/64。原分辨率的1/16的分辨率,可通過編碼DCT塊的左上2×2個系數(shù)的等值量而獲得。編碼左上4×4個系數(shù)的等值量則得到原分辨率1/4的分辨率。最后,編碼所有8×8個系數(shù)將給出完全的影象分辨率。
給定一固定的分辨率,則本發(fā)明通過以同樣的分辨率對多個分級層進行編碼,來支持砒特串定標。但是,隨著量化因子越來越精細,這些層將導致具有相同空間分辨率和改進的質(zhì)量的影象。在此情況下,分級結(jié)構(gòu)中的第一個和最低的層將得到粗略的量化編碼,而較高的層將得到越來越精確的量化編碼。
該方案是靈活的可將一或多個這些分級層按分辨率或精度增加的順序疊置起來,從而可用在某一級分辨率下重建的系數(shù)去預測下一級分辨率下的相應系數(shù)。除了最低的分級層,任何層的變換系數(shù)均相對其預測進行差分編碼。例如,可選用一編碼器來產(chǎn)生只包含完全以及1/16分辨率標度的數(shù)據(jù)的比特串。在這種情況下,1/16分辨率層的系數(shù)將被用來預測完全分辨率下的系數(shù)?;蛘?,對比特串定標,某一層中的粗略量化的8×8DCT系數(shù)組可被用來預測下一層中的相應8×8系數(shù)組,其中后者的量化更為精確。
本發(fā)明的方案的基本特性,是MPEG-1的宏觀塊(MB)的身份在所有分辨率和精度層上均得到保存。圖6顯示了對四層分辨率編碼時的這一特性。保存該身份的重要性在于,如在MPEG-1算法時提到的,MB是關(guān)系到一系列特性的,這些特性將決定包含在壓縮數(shù)據(jù)串中的開銷數(shù)據(jù)的量。保存MB身份使得能在所有分級層中重復使用這種開銷數(shù)據(jù)。例如,對應于任何分辨率標度的運動矢量數(shù)據(jù),可通過適當定標,從最高的分辨率運動矢量數(shù)據(jù)導出。
標定層的多路化雖然不是本發(fā)明的內(nèi)容,但也應注意的是,在傳送和存貯之前,各標度的數(shù)據(jù)均要用編碼裝置作為多路處理。實施這種多路處理可有多種選擇。例如,可按分辨率和精度從低到高的順序,把各級的完整圖象連接起來。應理解的是,該數(shù)據(jù)包含代表與所處理的影象的象元或象素有關(guān)的信息。這些信號是用適當電子裝置處理的通常的電信號,這些裝置可是攝象機、計算機、以及本領(lǐng)域人員完全熟悉和理解的輔助設備。
分辨率和比特串的標度的量化在最佳實施例中,各分級層的量化采用MPEG-1中規(guī)定的相同的矩陣。這樣,各分辨率標度的DCT數(shù)據(jù)均從完全分辨率8×8DCT矩陣導出。若MPEG-1權(quán)重量化矩陣用Q8表示,則較低分辨率DCT的權(quán)重矩陣的導出如下量化子DCT因子Q11×1 1/8Q8Q22×2 1/4Q8Q44×4 1/2Q8應注意,本發(fā)明也包括在各標度采用類屬量化矩陣的情況,但此時解碼裝置將變得更復雜。
分辨率和比特串標度的分級預測在最佳實施例,用分級層中的DCT系數(shù)來預測分級結(jié)構(gòu)中下一層的相應系數(shù)。在圖7中顯示了一個例子,其中顯示了4個分辨率層的分級結(jié)構(gòu)。預測算法在此為適當定標的系數(shù)的簡單適當定標的系數(shù)一對一映射。但是,應注意的是,這里又一次可在復雜性加大的情況下采用其他的預測算法。
對分級層速率控制的規(guī)定在最佳實施例中MPEG-1的量化參數(shù)QP被用在分級結(jié)構(gòu)的最低層。分級結(jié)構(gòu)其他層的QP參數(shù)均參照此較低層QP來規(guī)定。例如,一高層的QP參數(shù)可被定為較低層QP的兩倍。
可定標解碼器實施方案本發(fā)明包括具有可變數(shù)目的分級層的方案。然而,為說明方便起見,將描述兩個三級解碼器,它們體現(xiàn)了分辨率和比特串定標的特性。這種解碼器裝置,如圖8所示,支持2×2(低)、4×4(中)、和8×8(高)分辨率標度。只有一個分辨率標度的解碼器,可通過消去圖8中與實現(xiàn)該分辨率標度無關(guān)的方框來實現(xiàn)。在對三個分辨率標度的壓縮數(shù)據(jù)作熵解碼和信號分離之后,對每一8×8塊數(shù)據(jù)都可相應的2×2和4×4塊數(shù)據(jù),所有這些都是建立最終的8×8DCT系數(shù)矩陣所必需的。
在最佳實施例中,進行了如下步驟來得到最終的完全分辨率8×8DCT系數(shù)。在用2×2層原gp2量化參數(shù)進行非量化之后,低分辨率的2×2塊被用作對相應4×4塊的四個最低級系數(shù)的預測。將這些預測值與非量化的4×4系數(shù)相加,其中4×4系數(shù)的非量化是由qp4量化系數(shù)進行的。前述的求和結(jié)果類似地被用作相應8×8塊的16個最低級系數(shù)的預測。這些預測值被加到非量化的8×8系數(shù)上,其中8×8系數(shù)的非量化是由qp8量化參數(shù)進行的。
注意DCT系數(shù)只是在重建最終的系數(shù)矩陣時電量化參數(shù)來非量化的。由權(quán)重量化矩陣進行的非量化蛤是在一旦達到最終分辨率時才需要。這種特征之所以可能,是因為在最佳實施例中,各標度下的權(quán)重矩陣是比例相關(guān)的,如上面所述。
現(xiàn)在可利用MPEG-1技術(shù),包括運動補償預測,用最后的8×8系數(shù)矩陣來重建完全分辨率圖象。參見圖8,可看出在完全分辨率水平下,16×16MCP單元表示在MB上運行的類屬MPEG-1運動補償預測單元;IDCT框是執(zhí)行標準MPEG-18×8逆變換原單元;而Q8-1框表示用相應MPEG-1標重矩陣進行反量化的單元。
為在其他分辨率標度下進行視頻圖象解碼,要進行類似原程度,只是把預測值與非量化系數(shù)數(shù)據(jù)相加的步驟終止于需要解碼的分辨率上。用權(quán)重矩陣(用Q4-1和Q2-1表示)作非量化的操作,采用了最佳實施例的定標矩陣。逆變換操作是用適當大小的變換進行的。這樣,要在1/4分辨率下解碼,就要用4×4的逆DCT。適于在所支持的三個“定標的”分辨率下解碼的一維DCT矩陣是DCT(1×1)=1DCT(2×2)=12111-1]]>*DCT(1×1)和DCT(2×2)都是不難的,并易于實施,即使是在軟件中。
應注意,其他分辨率正的MCP單元具有相同的運動矢量數(shù)據(jù),MV,以在不同分辨率標度下產(chǎn)生用于標定的MB的運動補償預測。應特別注意的是,當采用運動補償技術(shù)時,應適當標定完全分辨矢量,以與解碼器分辨率相匹配。這已在前面描述過。
在圖9中顯示了實施比特串定標的解碼器。該解碼器的運行與圖8中的很相似,不同之處是只采用了8×8操作,以產(chǎn)生質(zhì)量更高的輸出圖象。因此,可用單一硬件來在實體上構(gòu)成不同的單元,而不同的分級層可共用這些單元。
最后,在圖10中顯示了另一種解碼器實施例,它不是本發(fā)明的最佳實施例,但仍屬于本發(fā)明。該解碼器的運行方式與圖8的相同。然而,它允許在各分級層采用任何的量化權(quán)重矩陣。它還構(gòu)成從較低分級層預測DCT系數(shù)的類屬裝置。在此方面,P2被用來從2×2系數(shù)預測4×4系數(shù),而P4被用來從4×4系數(shù)預測8×8??刹捎玫念A測算法有多種,包括最佳實施例中的一對一映射。
編碼器實施方案與上述本發(fā)明解碼器兼容的編碼器的實施方案可有許多種,但作為例子,這里將只描述兩種這類編碼器,每種都是只為分辨率定標而設計的。在圖11中顯示了三分辨率層編碼器的一般結(jié)構(gòu)。該編碼器分為三部分。第一部分為一變換單元,它接綱數(shù)字視頻信號輸入并輸出用于三個分辨率層的DCT數(shù)據(jù)d(8×8)、d(4×4)、和d(2×2)。第二部分是一分級預測單元,它接收變換單元的DCT輸出,并輸出所有分辨率層下的量化差分DCT數(shù)據(jù)q(8×8)、q(4×4)。該輸出在第三部分中被多路化并得到熵編碼,以產(chǎn)生最終的壓縮視頻信號。該預測單元還產(chǎn)生重建的DCT數(shù)據(jù)b(8×8)、b(4×4)、和b(2×2),該數(shù)據(jù)被反饋到變換單元,以完成通常的混合變換編碼回路。
圖12a顯示了變換單元的一個簡單實施方案。在此實施方案中,8×8層包含也是MPEG-1編碼器一部分并且更一般地是運動補償混合變換編碼器的一部分的元素。上支路包括產(chǎn)生運動補償預測差的加法器(∑);一向前的8×8DCT變換,以產(chǎn)生所述預測差原8×8變換系數(shù);用于由權(quán)重矩陣(Q8)進行量化的單元。輸出是一組部分量化的DCT系數(shù)d(8×8)。返回或反饋支路接收一組部分重組DCT系數(shù)b(8×8),并隨后用下列單元對其進行處理一用于權(quán)重矩陣(Q8-1)的非量化器和重建預測差原逆DCT變換器(IDCT8×8);一加法器,用于把重建的預測差與運動補償預測值相加,從而重建最初的圖象數(shù)據(jù);用于產(chǎn)生下一圖象的預測的運動補償預測(MCP)單元。在MPEG-1中,該MCP單元在16×16MB上運動(如圖所示),但也可采用其他尺寸的塊。大此變換單元實施方案中,d(2×2)和d(4×4)系數(shù)是從相應的d(8×8)系數(shù)中簡單地摘取出來。應注意的是,也可通過把其他處理或加權(quán)算法作用到8×8系數(shù)上來導出d(2×2)和d(4×4)系數(shù)。
注意由于在較低分辨率標度下沒有反饋環(huán)路,在這些分辨率標度此編碼器將產(chǎn)生量化和運動補償誤差的累積。但這種誤差在開始新的圖象組時將被自動復位到零。雖然這種誤差累積限制了較低分辨率層的質(zhì)量,但編碼器的簡化使這一途經(jīng)仍具吸引力。特別地,如果所需的僅是比特串定標,則這一途徑就可滿足全部需要。
圖12b中顯示了變換單元的另一實施方案。此方案與圖12a中所示的類似,但d(2×2)和d(4×4)是由類似但完全獨立并在各自分辨率標度運行的環(huán)路產(chǎn)生的。在此情況下H4和H2單元被用來在每種情況下把輸入視頻信號的分辨率濾波并降低1/4。以此方式,各層均接收具有近似分辨率的輸入。所有操作,如DCT、量化、和MCP,均按該層的分辨率來定標。
在復雜性增大的情況下,此方案通常此圖12a的單元能產(chǎn)生質(zhì)量更好的圖象。在此情況下,編碼誤差的織累將不超過一個圖象周期。但應注意,16×16運動估計的結(jié)果可以是所有分辨率環(huán)路所共有的,因為在本發(fā)明中,運動矢量所有標度下的MB所共有的一個特性。此實施方案更適合于那些低分辨率圖象的質(zhì)量較為重要的應用。
圖13a顯示了分級預測單元的一個實施方案。首先,在加法器中產(chǎn)生4×4和8×8層的分級預測差。隨后,所有層均由各自的量化參數(shù)量化,其結(jié)果作為q(2×2)、q(4×4)、及q(8×8)輸出。這些結(jié)果還由相應的量化參數(shù)進行反量化并隨后在其他兩個加法器中被加起來,以產(chǎn)生部分重建的d(2×2)、b(4×4)、及b(8×8)數(shù)據(jù),這些數(shù)據(jù)被饋回到變換單元。圖13b顯示了可用作分級預測單元另一種實施方案的同樣元件的重新設置。
應理解,本領(lǐng)域原技術(shù)人員可設計出其他符合本發(fā)明解碼方法和方案原編碼方案。
權(quán)利要求
1.用于產(chǎn)生一種壓縮視頻數(shù)據(jù)表示的方法,該視頻數(shù)據(jù)表面能在解除壓縮后以多種圖象分辨率和/或質(zhì)量的分極標度顯示在圖象屏幕上,其特征在于下列步驟提供表示空間塊單元即宏觀塊的視頻頻圖象元素數(shù)據(jù)信號,所述宏觀塊與壓縮圖象數(shù)據(jù)的信息及包括編碼決定、運動補償矢量、及量化參量的一組編碼特性有關(guān);為每一所述宏觀塊在所述多個標度的每隔一個標度下產(chǎn)生一相應的定標宏觀塊,從而使所述定標宏觀塊也具有相同的編碼特性
2.如權(quán)利要求1的方法,其特征在于與給定宏觀塊相聯(lián)系所述壓縮圖象數(shù)據(jù)對應于適當標度的量化變換系數(shù)。
3.如權(quán)利要求1的方法,其特征在于關(guān)于所述特性組的所述信息使所述特性在解除對所述有關(guān)信息的壓縮時能得到適當修正以符合所述定標宏觀塊的標度。
4.如權(quán)利要求1的方法,其特征在于選定壓縮止標標度并只在該目標標度下進行逆變換操作的步驟,所述逆變換作用在最終變換系數(shù)數(shù)據(jù)上,止標標度宏觀塊的所述最終變換系數(shù)數(shù)據(jù)是從所有較低標度的相應定標宏觀塊的變換系數(shù)及止標標度的變換系數(shù)數(shù)據(jù)導出的。
5.如權(quán)利要求1的方法,其特征在于所述產(chǎn)生步驟包括把關(guān)于分辨率標度的可變數(shù)目的信息與比特串標度的可變數(shù)目相混合。
6.如權(quán)利要求1的方法,其特征在于當某些定標MB被發(fā)現(xiàn)是錯誤的時候?qū)⑵渖崛サ牟襟E。
全文摘要
用于處理一串視頻圖象數(shù)據(jù)以產(chǎn)生復用對應于分辨率或比特串標度原數(shù)據(jù)的視頻表示的系統(tǒng)和方法。該表示可在所有分辯率和比特串標度下保存MPEG—1ISO標準的基本宏觀塊(MB)的身分。MB與一系列可影響包括在MPEG—1壓縮數(shù)據(jù)串中的開銷數(shù)據(jù)量的特性有關(guān),因此通過在多個分辨率和比特串標度下保存MB身分,這些標度就可分享這種開銷,從而只需在數(shù)據(jù)串中將其包括一次。在后一種情況下,在較高的分辨率標度可加上一附加的修正,以改善運動矢量數(shù)據(jù)的精度。
文檔編號H04N7/26GK1072051SQ92111430
公開日1993年5月12日 申請日期1992年10月9日 優(yōu)先權(quán)日1991年10月31日
發(fā)明者塞瑟爾·奧古斯托·貢扎里斯, 多夫·N·萊姆, 艾里克·N·維西托 申請人:國際商業(yè)機器公司