專利名稱:立體數(shù)字式視頻編碼的速率控制的制作方法
本申請(qǐng)是申請(qǐng)日為1997年7月3日、申請(qǐng)?zhí)枮?7117435.0、發(fā)明名稱為“立體數(shù)字式視頻編碼的速率控制”的中國(guó)專利申請(qǐng)的分案申請(qǐng)。
本發(fā)明涉及數(shù)字式視頻信號(hào)的編碼。特別涉及編碼立體數(shù)字視頻信號(hào)以使圖像質(zhì)量最佳并保持帶寬限制的方法和裝置。還提供了在快速正向和反向編輯時(shí)提高圖像質(zhì)量的方法和裝置。
數(shù)字技術(shù)使其為消費(fèi)者服務(wù)的視頻和音頻信號(hào)的傳遞起了很大變化,因?yàn)?,它能傳遞比模擬技術(shù)質(zhì)量高得多的信號(hào),而且,還提供了以前得不到的其它一特征。數(shù)字式系統(tǒng)對(duì)經(jīng)有線電視網(wǎng)絡(luò)傳播信號(hào),或經(jīng)衛(wèi)星將信號(hào)傳播到有線電視聯(lián)合廣播電臺(tái)和/或直接將信號(hào)傳遞到家庭衛(wèi)星電視接收機(jī)特別有利。這些系統(tǒng)中,用戶經(jīng)接收機(jī)/對(duì)數(shù)據(jù)減壓和譯碼的解擾器接收數(shù)字式數(shù)據(jù)流,以重現(xiàn)原始視頻和音頻信號(hào)。數(shù)字式接收機(jī)包括微型電子計(jì)算機(jī)和該處理中用的存儲(chǔ)器存儲(chǔ)元件。
但是,需要提供價(jià)格低而仍能提供高質(zhì)量的視頻和音頻信號(hào),要求處理的數(shù)據(jù)量受到限制。而且,很多實(shí)際的約束,存在的通信協(xié)議,政府規(guī)定等均限制了數(shù)字式信號(hào)發(fā)送所允許的頻帶寬度。而且,已開發(fā)出的各種幀內(nèi)數(shù)據(jù)壓縮方案有特殊視頻圖象(例如幀)中相鄰像素之間空間相關(guān)的優(yōu)點(diǎn)。
而且,幀內(nèi)壓縮方案采取了用運(yùn)動(dòng)補(bǔ)償數(shù)據(jù)和塊匹配運(yùn)動(dòng)估算法的連續(xù)幀的相應(yīng)區(qū)域之間的時(shí)間相關(guān)優(yōu)點(diǎn)。這種情況下,識(shí)別與最當(dāng)前塊最相同的當(dāng)前圖象中的塊,來(lái)確定圖像的當(dāng)前圖象中每個(gè)塊用的運(yùn)動(dòng)矢量。之后,發(fā)送表示相應(yīng)塊之間差的數(shù)據(jù),與識(shí)別相應(yīng)對(duì)所需的運(yùn)動(dòng)矢量一起,能在譯碼器重現(xiàn)全部當(dāng)前圖象。結(jié)合諸如離散余弦變換(DCT)的以塊為基礎(chǔ)的空間壓縮技術(shù)時(shí),塊匹配運(yùn)動(dòng)估計(jì)法特別有效。
但是,目前對(duì)擬用的立體發(fā)送格式面臨著更大挑戰(zhàn),如在文件ISO/IECJTC1/SC29/WG1/NID88,中標(biāo)題為“Proposed Draft Amendmen No.3 to 13818-2(Multi-View Profile)”November 1995所描述的運(yùn)動(dòng)圖象專家組(MotionPicture Experts Group)(MPEG)MPEG-2多視圖象(Multi-View Profik)(MVP)系統(tǒng)。這里引作參考。立體視頻提供同一圖像稍微偏移的多個(gè)視圖,以產(chǎn)生有更大景深的組合圖像。由此,建立三維(3-D)作用。該系統(tǒng)中,兩個(gè)攝像機(jī)相距兩英寸設(shè)置,以在兩個(gè)分開的視頻信號(hào)上記錄事件。兩個(gè)攝像機(jī)的間距與人的左右眼睛之間的距離相近。而且,用某些立體攝錄一體機(jī),兩個(gè)透鏡構(gòu)成一個(gè)攝錄一體機(jī)的記錄頭,因而,當(dāng)在圖像上攝全景時(shí),同步運(yùn)動(dòng)。能傳輸兩個(gè)視頻信號(hào),并在接收機(jī)上重現(xiàn),以產(chǎn)生與正常人視力相當(dāng)?shù)木吧顖D像。還有其它的特別功能。
MpEG MVP系統(tǒng)包括按多路傳輸信號(hào)傳輸?shù)膬蓚€(gè)視頻層。首先,基層表示三維物體的左視圖。第2,增強(qiáng)層(例如,輔助層)表示物體的右視圖,由于左右視圖是同一物體,只是相互間微微偏移,因此,在基層和增強(qiáng)層的視頻圖像極其相關(guān)。這種相關(guān)可用于相對(duì)于基層壓縮增強(qiáng)層數(shù)據(jù),由此減少需在增強(qiáng)層中傳輸?shù)臄?shù)據(jù)量,以保持給定的圖像質(zhì)量。圖像質(zhì)量通常與視頻數(shù)據(jù)的量化水平有關(guān)。
MPEGMVP系統(tǒng)包括3種視頻圖象;具體地說(shuō)是,幀內(nèi)編碼圖象(I圖象),預(yù)測(cè)編碼圖象(P-圖象)和雙向預(yù)測(cè)編碼圖象(B-圖象)。而且,基層能容納幀或場(chǎng)結(jié)構(gòu)視頻信號(hào)序列,而增強(qiáng)層只容納幀結(jié)構(gòu)。I圖象完全描述單個(gè)視頻圖象而與其它任何圖象無(wú)關(guān)。為改善潛在的誤差,運(yùn)動(dòng)矢量能包括I-圖象。由于可從I圖象預(yù)測(cè)基層中的P-圖象和B-圖象,因此,I圖象中的誤差有在顯示的視頻上產(chǎn)生更大碰撞的潛能。而且,能按交叉層預(yù)測(cè)法,已認(rèn)為是不均勻預(yù)測(cè)法,以基層中的圖象預(yù)測(cè)增強(qiáng)層中的圖象。對(duì)層內(nèi)的一幀到另一幀的預(yù)測(cè)認(rèn)為是短暫預(yù)測(cè)。
基層中,以前面的I或P圖象為基礎(chǔ)預(yù)測(cè)P圖象,從較早的I或P圖象至另一P圖象為標(biāo)準(zhǔn),并認(rèn)為是向前預(yù)測(cè)。從最接近的較早的I或P圖象和最接近的較遲I或P圖象預(yù)測(cè)B圖象。
增強(qiáng)層中,按顯示順序,從增強(qiáng)層中最近的編碼圖象能預(yù)測(cè)P圖象,而與圖象類型無(wú)關(guān),或從最近的基層圖象預(yù)測(cè)P圖象,無(wú)類形無(wú)關(guān)。用增強(qiáng)層中的B圖象,朝前的基準(zhǔn)圖象是最近編碼的增強(qiáng)層中的圖象,朝后的基準(zhǔn)圖象是基層中最近編碼的圖象,按顯示順序。由于增強(qiáng)層中的B圖象可以是增強(qiáng)層中的其它圖象的基準(zhǔn)圖象,因此,必須以多個(gè)圖象中圖像的復(fù)雜程度(例如,有效性)為基礎(chǔ)調(diào)節(jié)增強(qiáng)層中P-和B-圖象用的比特配置。任意結(jié)構(gòu)中,增強(qiáng)層只有P和B圖象,而無(wú)I圖象。訪問(wèn)未來(lái)圖象(即,一個(gè)還未顯示的圖象)叫做向后預(yù)測(cè)。朝后預(yù)測(cè)的位置在提高壓縮比中很有用。例如,在一個(gè)打開門的場(chǎng)景中,當(dāng)前圖象就能根據(jù)門已經(jīng)打開的未來(lái)圖象預(yù)測(cè)門后面是什么。
B圖象產(chǎn)生最大壓縮,但也伴隨著最大誤差。為了消除誤差傳播,絕不能從基層中的另一B圖象預(yù)測(cè)B圖象。P圖象產(chǎn)生較小的誤差,和較小的壓縮。I圖象產(chǎn)生最小壓縮,但能提供隨機(jī)存取。
因此,在基層中,為了解碼P圖象,應(yīng)允許存在前I-圖象或P-圖象。同樣,要解碼B圖象,應(yīng)存在前P或I和未來(lái)P或I圖象。結(jié)果,按順序?qū)σ曨l圖象譯碼并傳輸,因而,在預(yù)測(cè)圖象之前,用于預(yù)測(cè)的全部圖象被譯碼。而且,為在顯示之前緩沖數(shù),需用暫時(shí)存儲(chǔ)元件。
關(guān)于非立體視頻信號(hào)的MPEG-2標(biāo)準(zhǔn)沒(méi)有規(guī)定I圖象,P圖象和B圖象要按順序在層中有任何特殊的分布,以使其壓縮和隨機(jī)存取性有不同的程度,基層中一個(gè)公用分布是連續(xù)的I或B圖象之間有兩個(gè)B圖象。例如,圖象順序是Z1,B1,B2,P1,B2,B4,I2,B5,B6,P2,B7,B3,I3等。增強(qiáng)層中,在3個(gè)B圖象之后有一個(gè)P圖象,每12個(gè)P和B圖象設(shè)置一個(gè)I圖象,例如,按順序Z1,B1,B2,P1,B3,B4,P2,B5,B6,P2,B7,B8,I2。在文件ISO/IEC JTC1/SC29/WG11 NO702。標(biāo)題為“InformationTechnology-Generic Coding of Moving Pictures and Associated Audion,Recommendation H.262”March 25 1994中能找到MPEG-2標(biāo)準(zhǔn)的更詳細(xì)說(shuō)明,在此引作參考。
圖1是MPEG MVP系統(tǒng)的常規(guī)的暫時(shí)的和不均衡視頻圖象預(yù)測(cè)方案。箭頭指示預(yù)測(cè)方向,根據(jù)連接到箭尾的圖象預(yù)測(cè)用箭頭指示的圖象。用Ib155,Bb1160,Bb2165,Pb170的基層(左視圖)順序,如所示,出現(xiàn)暫時(shí)預(yù)測(cè),其中“b”腳注是指基層。具體地說(shuō),從Ib155預(yù)測(cè)Bb1160,從Ib155和Pb170預(yù)測(cè)Bb2165,從Ib155預(yù)測(cè)Pb170。用Pe105,Be1110,Be2115和Be3120的增強(qiáng)層(右視圖)順序100出現(xiàn)暫時(shí)和/或不均衡的預(yù)測(cè),其中“e”腳注是指增強(qiáng)層。具體地說(shuō),從Ib155不均衡的預(yù)測(cè)Pe105暫時(shí)預(yù)測(cè)Be110,并從Bb1160不均衡預(yù)測(cè)Be1110。從Be1110暫時(shí)預(yù)測(cè)Be2115,并從Bb2165不均衡預(yù)測(cè)Be115。從Be2115暫時(shí)預(yù)測(cè)Be3120,并從Pb170不均衡預(yù)測(cè)Be2115。
通常,按主外形(MP)協(xié)議編碼MPEG MVP系統(tǒng)中的基層,而按MPEG-2時(shí)間可標(biāo)度工具(Temporal SCalability(tools)編碼增強(qiáng)層。
對(duì)固定帶寬立體視頻業(yè)務(wù)而言,包括基層和增強(qiáng)層的多路傳輸?shù)妮敵鑫涣鞑粦?yīng)超過(guò)給定的位速率或相應(yīng)的帶寬。用基層和增強(qiáng)層中分開速率控制方案能使每層的位速率不超過(guò)給定的閾值,而且,兩個(gè)位速率之和能滿足全部帶寬要求。另外,只要組合位速率能滿足帶寬需要,每層中的位速率可以變化。
而且,速率控制方案還應(yīng)提供增強(qiáng)層中全部圖象類型的較恒定的視頻信號(hào)質(zhì)量(例如,在I..P和B圖象上的質(zhì)量),并與MPEG MVP系統(tǒng)中視頻緩沖檢驗(yàn)器(Video Buffering Verifier)(VBO)模式一致。VBV是一假定的譯碼器,它概念式地連接到編碼器的輸出。編碼數(shù)據(jù)按所用的恒定位速率放到緩沖器中,并按它除去在緩沖器中存放時(shí)間周期最長(zhǎng)的數(shù)據(jù)。要求用不會(huì)引起VBV上溢(overflow)或下溢(undrflow)的編碼器或編輯器產(chǎn)生位流。
用常規(guī)系統(tǒng),增強(qiáng)層中P-圖象質(zhì)量能隨其暫時(shí)預(yù)測(cè)或不均衡預(yù)測(cè)而變化。例如,用攝像機(jī)拍攝右邊的鏡頭,具有恒定的數(shù)字化水平,從增強(qiáng)層中的B圖象暫時(shí)預(yù)測(cè)的P圖象的質(zhì)量低于從基層中的I圖象不均衡預(yù)淀的P圖象的質(zhì)量。這是因?yàn)椋缟纤?,B圖象產(chǎn)生最大壓縮,但也伴隨最大的誤差。反之,由于B圖象不能用作基層中的基準(zhǔn)圖象,所以能保持基層P-圖象的質(zhì)量。P圖象圖像的質(zhì)量與P圖象數(shù)據(jù)的平均量化步長(zhǎng)相當(dāng)。
而且,能按用戶發(fā)出的指令在譯碼器終端進(jìn)行諸如快速向前和向后的編輯工作。由于基層和增強(qiáng)層中圖象組(GOP)或更新周期幀不同,因此,這種編輯工作會(huì)引起編碼誤差,而且,它們各自的起始點(diǎn)也會(huì)暫時(shí)偏移。一個(gè)以上的連續(xù)圖象構(gòu)成GOP。圖象顯示順序與編碼順序通常不同,因此位流出現(xiàn)變形。位流中,GOP中的第1幀圖總是I圖象。但是,按顯示順序,GOP中的第1圖象是I圖象或暫時(shí)先于I圖象的連續(xù)B圖象系列中的第1B圖象。而且,按顯示順序,GOP中最后的圖象總是I或P圖象。
而且,按位流編碼的I-幀之前暫時(shí)使用GOP頭,以展示出譯碼器,無(wú)論暫時(shí)跟隨按位流編碼的I-幀的第1連續(xù)的B圖象是否能在隨機(jī)存取情況下適當(dāng)?shù)闹噩F(xiàn),而I幀不能用作基準(zhǔn)幀。甚至不能利用I幀時(shí),只用由后面的I或P幀向后預(yù)測(cè)也能重現(xiàn)B圖象。
要求顯示不是暫時(shí)跟隨GOP頭的幀時(shí),在編輯工作中,基層幀與增強(qiáng)層幀之間的同步也會(huì)破壞。這就能導(dǎo)致不連續(xù),使圖幀凝滯或造成視頻圖像的其它損壞。
因而,對(duì)諸如按無(wú)論是否是暫時(shí)或不均衡預(yù)測(cè)的圖象而調(diào)節(jié)增強(qiáng)層中P圖象的量化水平的MPEG MVP系統(tǒng)的立體視頻系統(tǒng)提供速率控制方案是有利的。方案還應(yīng)估計(jì)編碼圖象和基準(zhǔn)幀的復(fù)雜程度。方案還應(yīng)估算潛在的編輯工作中所需的數(shù)據(jù)速率,同時(shí)提供均勻的圖像質(zhì)量,并避免幀凝滯。本發(fā)明具有上述的和其它的優(yōu)點(diǎn)。
按本發(fā)明的速率控制方法和裝置,用于在立體數(shù)字式視頻通信系統(tǒng)的發(fā)送器邊的編碼器上,按無(wú)論是暫時(shí)預(yù)測(cè)(從同一層)的幀或不均衡預(yù)測(cè)(從相對(duì)層)的幀調(diào)節(jié)增強(qiáng)層中的P或B幀的量化程度。本發(fā)明對(duì)不均衡預(yù)測(cè)的P圖象供給附加的量化位,例如,從基層中的B幀對(duì)P幀編碼,而使圖像質(zhì)量保持恒定。選擇的量化程度相當(dāng)于增強(qiáng)層的全部位速率要求、右-位-速率,和虛擬緩沖器完全參數(shù),Vr。
而且,在很多應(yīng)用中,必須對(duì)諸如快速前進(jìn)和快速返回的編輯模式用的已譯碼的數(shù)據(jù)重新編碼。按本發(fā)明,當(dāng)基層中的基準(zhǔn)幀是GOP的第1幀時(shí),為改善圖象質(zhì)量和消除在這種潛在編輯模式中傳播誤差,相應(yīng)的增強(qiáng)層幀要編碼為I或P幀。例如,若正在討論中的增強(qiáng)層幀編碼成用常規(guī)圖象分布方案的B幀,圖象類形會(huì)轉(zhuǎn)換,而不是P或I圖象。而且,用減小增強(qiáng)層中當(dāng)前幀的配位能計(jì)算發(fā)送機(jī)處的速率控制,以避免在編碼器的虛擬緩沖器的可能的溢出。
而且,對(duì)不均衡預(yù)測(cè)的P幀而言,按增強(qiáng)層中編碼的幀的有效性程度或基層中基準(zhǔn)幀的有效程度改變量化步長(zhǎng),而無(wú)論那個(gè)更長(zhǎng)。
圖1是MPEG MVP系統(tǒng)的常規(guī)暫時(shí)和不均衡預(yù)測(cè)方案;圖2是按本發(fā)明的初始GOP或更新周期子程序;圖3是按本發(fā)明的用于增強(qiáng)層序列的圖象層時(shí)間標(biāo)記;圖4是用于按本發(fā)明的當(dāng)前圖象預(yù)處理的子程序;圖5是用于按本發(fā)明的前圖象后處理的子程序;圖6是按本發(fā)明的圖象分布結(jié)構(gòu);本發(fā)明的速率控制方法包括7個(gè)程序,包括參數(shù)預(yù)置,增強(qiáng)層預(yù)置,更新周期或圖象組(GOP)的預(yù)置和更新,當(dāng)前圖象的預(yù)處理,前圖象的后處理,宏-碼組任務(wù)和部分任務(wù)速率控制處理,和合適的量化處理。
后面使用的參數(shù)預(yù)置包括相當(dāng)于增強(qiáng)層的GOP或更新周期的幀用的位的最小配置數(shù)Trmin,Trmin由下式確定
式中右-位-速率是增強(qiáng)層的最大配置位速率,圖象-速率是立體信號(hào)的圖象速率,例如,對(duì)VTSC視頻而言是30幀圖象/秒,對(duì)PAL視頻而言是25幀圖象/秒。
而且,初始復(fù)雜性值,Kx1是指增強(qiáng)層中的當(dāng)前圖象。當(dāng)前圖象選擇的量化水平相當(dāng)于復(fù)雜水。因此,較小的量化步長(zhǎng)用較復(fù)雜的圖象,由此,產(chǎn)生更多的編碼數(shù)據(jù)位。所示的初始復(fù)雜水平與圖象的類型有關(guān)。用I-圖象作隨機(jī)存取基準(zhǔn)圖象,因此,應(yīng)按較少的步驟量化。因此,I-圖象有較大的復(fù)雜程度。P和B圖象展示出較低的復(fù)雜性初始值,因此,量化較粗。而且,能在空間疇或變換疇中確定所給圖象的復(fù)雜性。表示值是Kxr=1.39,KxDP=0.52,KxTP=0.37,和KXB=0.37,其中,腳注“I”是指I-圖象,“DP”是指不均衡-預(yù)測(cè)的P-圖象,“TP”是指暫時(shí)預(yù)測(cè)的P圖象,“B”是指B-圖象。而且,這里用的PD和PT分別表示不均衡-預(yù)測(cè)的P圖象和暫時(shí)預(yù)測(cè)的P圖象。復(fù)雜的參數(shù)應(yīng)滿足是關(guān)系式KxT>KxDP≥KxTP≥KxB對(duì)給定的圖象類型而言,能調(diào)節(jié)復(fù)雜性值Kx。例如,高復(fù)雜的圖像的象素亮度或色度值有更大變化。為保持給定的圖像質(zhì)量(例如清晰度),與低復(fù)雜圖像相比,高復(fù)雜的圖像要用附加位編碼。而且,若與相同類型的其它圖象相比,圖象的復(fù)雜程度更大或更小,則所給定的圖象的復(fù)雜值可分別增大或減小。
KrDP,KrTD,KvB是增強(qiáng)層中預(yù)測(cè)編碼的幀(例如,PD,PT和B-幀)的初始虛擬緩沖器全參數(shù)。例如,KrDP=1.0,KrTD=1.4,KrB=1,4合適。這些參數(shù)能調(diào)節(jié),應(yīng)滿足KrDT<KrTP≤KrB。XrDP,XvTD和XrB分別是PD、PT和B圖像的復(fù)雜性值,分別由復(fù)雜性參數(shù)KxDP,KxTP和KxB最初確定。具體地說(shuō),用增強(qiáng)層的位最小配置數(shù),右-位-速率,I圖象要求的位速率是XrT=Kx2*右-位-速率。對(duì)PD-圖象是,XrDT=KxDP*右-位-速率,對(duì)PT-圖象是,XrTD=KxTP*右-位-速率,對(duì)B-圖象是,XrB=KxB*右-位-速率。而且,在不是增強(qiáng)層中的I幀的情況下,不均衡預(yù)測(cè)的P圖象的配置位可增大Xr2/N2,式中N2=最大{Nr/Gop-左視圖的長(zhǎng)度,1},Nr是增強(qiáng)層的更新周期,如上所述,GOP-左視圖長(zhǎng)度是基層中圖象組中的幀數(shù)。這時(shí),XrDP=DxDP*右-位-速率+XrI/N2。關(guān)于GOP-左視圖長(zhǎng)度,看做是基層中常規(guī)圖象分布方案,I1,B1,B2,P1,B2,B4,I2,B5,B6,P2,B7,B8。這時(shí)GOP-左視圖長(zhǎng)度=12。
隨后,確定增強(qiáng)層中當(dāng)前圖象。若當(dāng)前圖象是I圖象,則虛擬緩沖器全值是Vr2=10*RP2/31。若當(dāng)前圖象是不均衡預(yù)測(cè)的P圖象,虛擬緩沖器全值是VrDP=10*RPr*Krop/31。對(duì)暫時(shí)預(yù)測(cè)的P形象而言,虛擬緩沖器全值是VrTP=10*RPr*KrTP/31。就B圖象而方,虛擬緩沖器全值是VrB=VrTP=10*RPr*KrB/31,由于KrTP=KrB,所以,反應(yīng)參數(shù)RPr確定為Rpr=2*右-位-速率/圖象-速率。
現(xiàn)在說(shuō)明增強(qiáng)層預(yù)置。圖2展示按本發(fā)明的初始GOP或更新周期的子程序。程序方框200處開始,在方框210,能恢復(fù)值Nr,N1,和M1。是增強(qiáng)層(右視圖)的更新周期或GOP中的圖象數(shù)(例如,長(zhǎng)度。N1是基層(左視圖)的GOP長(zhǎng)度,M1標(biāo)志基層中的圖象種類的構(gòu)形。具體地說(shuō),M1=1時(shí),基層只有I和P圖象。M1=2時(shí),基層有I、P和B圖象,在I或P圖象之間有一個(gè)B圖象。M1=3時(shí),基層有I、P、和B圖象,在I或P圖象之間有兩個(gè)連續(xù)的B圖象。
在方框220,計(jì)算出增強(qiáng)層中更新周期或GOP中I.P和B圖象數(shù)的初始值。NrI是I幀數(shù),NrDP是不均衡預(yù)測(cè)的P幀數(shù),NrTP是暫時(shí)預(yù)測(cè)的P幀數(shù),NrB是B幀數(shù)。
在方框230,增強(qiáng)層的更新周期或GOP中剩余位數(shù)的初始值Gr,由下式確定 在方框240,恢復(fù)更新周期或GOP中用于編碼剩余圖象允許的剩余位數(shù)Rr。增強(qiáng)層中的每個(gè)圖象編碼后,Rr重新回到平衡。剩余位數(shù)的初始值Rr=0。在碼組250,Rr更新為Rr=Rr+Gr。
在方框260,如上所述預(yù)置其它參數(shù),包括Rrmin,Kx,Kr,Xr和Vr。在碼組270程序結(jié)束。
現(xiàn)在將說(shuō)明圖象組(GOP)或更新周期的預(yù)置和更新?;鶎又?,更新周期是編碼的視頻幀序列中連續(xù)I圖象之間的間隔。并確定與GOP相同的圖象。增強(qiáng)層中,更新周期是連續(xù)I圖象之間的間隔,若存在,或?yàn)閮蓚€(gè)預(yù)先指定的暫時(shí)預(yù)測(cè)的P圖象(例如,PD-圖象)之間的間隔。預(yù)先指定的意思是在考基層結(jié)構(gòu)之前設(shè)定在增強(qiáng)層中的圖象類型。按本發(fā)明,預(yù)先指定的圖象類型在編碼之前可以轉(zhuǎn)換成其它的圖象類型?;鶎又校驮鰪?qiáng)層中,用I幀時(shí),GOP頭暫時(shí)先于分組的視頻流中已編碼的I幀,以顯示暫時(shí)跟隨已編碼的I幀的第1連續(xù)B圖象是否在隨機(jī)存取的情況下能適當(dāng)?shù)闹噩F(xiàn)。例如,在譯碼器上編輯一序列視頻幀的過(guò)程中會(huì)出現(xiàn)該位置。增強(qiáng)層中不用I幀時(shí),也就相應(yīng)地?zé)oGOP。而且,在基層和增強(qiáng)層中用GOP或更新周期時(shí)會(huì)有典型的暫時(shí)偏移的開始和終點(diǎn)。即,基層中的GOP第1幀不必與增強(qiáng)層中更新周期的第1幀重疊。同樣,基層和增強(qiáng)層間的GOP或更新周期長(zhǎng)度(例如,幀數(shù))也有典型地變化。
事實(shí)上,由于基層與增強(qiáng)層會(huì)偏移,并有不同的長(zhǎng)度,因而,在諸如快速前進(jìn)和快速返回的編輯模式中會(huì)帶來(lái)問(wèn)題。事實(shí)上,編輯工作會(huì)引起增強(qiáng)層損失或其它視覺(jué)損壞。諸如MPEG-2的協(xié)議提供了允許有這種編輯功能的編碼位流中的語(yǔ)法層次。例如,能用各種存取點(diǎn)給位流編碼,以允許處理和編輯基層的相應(yīng)部分,而不用對(duì)整個(gè)視頻譯碼。
但是,基層中的這些存取點(diǎn)不必對(duì)應(yīng)增強(qiáng)層中可接受的存取點(diǎn)。例如,存取點(diǎn)通常設(shè)置在基層中有I圖象的位置處。由于I幀提供自主式視頻幀圖像,可用I圖象預(yù)測(cè)基層中的后續(xù)幀。但是,基層中I幀可與增強(qiáng)層中B幀重疊。這時(shí),由于B幀不包含來(lái)自全視頻幀的數(shù)據(jù),所以不能從增強(qiáng)層中的B幀正確預(yù)測(cè)后續(xù)圖象。
按本發(fā)明,當(dāng)確將預(yù)定為B圖象的增強(qiáng)層圖象編碼為PD圖象時(shí),該圖象與基層中GOP的第II圖象重疊,即,圖象類型轉(zhuǎn)換。因此,要求基層中隨機(jī)存取,能用基層中I幀暫時(shí)預(yù)測(cè)增強(qiáng)層中相應(yīng)的P圖象,以提供重現(xiàn)增強(qiáng)層圖像所需的信息。另外,若允許有足夠的位數(shù),增強(qiáng)層圖象能編碼成I圖象,由此,為基層和增強(qiáng)層提供同步隨機(jī)存取。
而且,在譯碼器,由于存在量化誤差和其它誤差,因此,能傳播從其它幀預(yù)測(cè)的幀中的誤差。因此,必須定期提供諸如自主式幀,與其它幀(如基層中I幀)無(wú)關(guān)的幀,或從I幀(如增強(qiáng)層中不均衡預(yù)測(cè)的P-幀)直接預(yù)測(cè)的幀等新幀。當(dāng)供給這些幀時(shí),由于消除或減小了傳播誤差,并建立了新基線,因此,數(shù)據(jù)流稱作更新。例如,用30幀/秒的幀速率和用基層中每一個(gè)第8圖象為I圖象,更新周期是8/30秒。相對(duì)于GOP頭的幀稱作跨越更新周期。
圖3是按本發(fā)明的增強(qiáng)層序列用的圖象層時(shí)間分配標(biāo)記。增強(qiáng)層包括全GOP展示的幀序列I1,B1,PD1,PT1,B3,B4,PT2,B5,PT3,B7,B8。圖象PD1和PD2已分別由B2和B4代替(未畫出)。重設(shè)信號(hào)310表示用脈沖315的編碼序列開始點(diǎn)。脈沖同步信號(hào)(PSYNC)320供給一脈沖串,脈沖325表示先GOP或更新周期中最后一幀(如所示的B圖象)。脈沖330表示下一個(gè)GOP或更新周期中的第1幀如上述,GOP是在增強(qiáng)層中用I圖象時(shí)確定的。另一種方式,更新周期確定用位配置數(shù)編碼的一組圖象。因此,即使無(wú)GOP,更新周期的圖象仍會(huì)編組。脈沖330至390分別對(duì)應(yīng)I1,B1,PD1,PT1,B2,B4,PT2,B5,B6,BT3,B7,B8,I2。
脈沖390表示增強(qiáng)層中其它圖象組成或更新周期開始。所示例中,編碼進(jìn)GOP或更新周期中的第1幀分別是I圖象或PD圖象。下一幀,用脈沖335指示的,是B圖象。但是,按本發(fā)明,用脈沖340指示的下一幀已由B圖象(例如B2)轉(zhuǎn)換成PD圖象。同樣,脈沖370表示的PD2用另一B圖象B6(未畫出)代替。GOP或更新周期最后兩幀是分別用脈沖380和385表示的B7和B8。重設(shè)信號(hào)脈沖317之后是用脈沖390指示的有另一I圖象或PD圖象的另一GOP或更新周期。脈沖395表示該GOP的第1B圖象等等。
而且,脈沖330至385中的每個(gè)脈沖包括前圖象的后續(xù)處理中的具體須和當(dāng)前圖象的預(yù)處理的具體值。例如,假定增強(qiáng)層中無(wú)I圖象。因此,脈沖330表示要編碼成PD圖象的當(dāng)前幀的預(yù)處理。而且,此時(shí),用脈沖325表示的PD圖象開始后續(xù)處理。以下將說(shuō)明預(yù)處理和后續(xù)處理階段。
圖4表示按本發(fā)明的當(dāng)前圖象預(yù)處理用的子程序。程序在方框400開始。在參方框405恢復(fù)參數(shù)Rr,Trmin,Nr3,NrDP,NrTD,Nr8,KrDP,Kr2,XrDP,Xr8和Xr97。Rr是能配置給增強(qiáng)層的GOP或更新周期的幀的剩余位數(shù)。Trmin是幀的最小配置位數(shù)。
NrI,NrDP,NrTP和NrB分別是按本發(fā)明的增強(qiáng)層的GOP或更新周期中設(shè)置的I,PD,PT和B圖象數(shù)。在立體視頻信號(hào)中,若基層編碼的幀是GOP的第1幀,則增強(qiáng)層中相應(yīng)的幀應(yīng)該是用基層幀作基準(zhǔn)幀的I幀或P幀。為確保更新周期的準(zhǔn)確構(gòu)形,在速率控制計(jì)算中還應(yīng)計(jì)算該因數(shù)。
例如,圖6展示出按本發(fā)明的圖象分布結(jié)構(gòu)。應(yīng)該了解,所示例只是眾多可能的圖象分布結(jié)構(gòu)中的一種。在增強(qiáng)層中是圖象602至626,在基層中是圖象652至676。圖象中指出了圖象的類型。腳注“e”用于表示增強(qiáng)層,腳注“b”表示基層,數(shù)字腳注是順序標(biāo)記。例如,圖象Be4616是指所示的增強(qiáng)層中第4個(gè)B圖象。PD和PT分別指不均衡預(yù)測(cè)的P圖象和暫時(shí)預(yù)測(cè)的P圖象。注意,按順序示出的圖象,是指圖象按此順序在位流中傳輸,它通常與顯示順序不同。
而且,箭頭所指的增強(qiáng)層中的各個(gè)圖象表示出用于圖象的編碼類型。實(shí)線箭頭表示用箭尾處的圖象作基準(zhǔn)圖象對(duì)所指圖象編碼。例如,Be1604是用增強(qiáng)層中的Ie1602和基層中的Bb2654編碼。虛線箭頭表示選擇編碼方案。例如,圖象608是圖象PT1時(shí)可用增強(qiáng)層中圖象PD1606編碼,或圖象608是圖象PD時(shí)可用基層中圖象Bb3658編碼。按本發(fā)明,可選擇滿足特殊準(zhǔn)則的方案。該準(zhǔn)應(yīng)反映出最小化的預(yù)選誤差,或要求的位配置或圖象質(zhì)量,例如,在任何情況下按本發(fā)明的速率控制方案均應(yīng)考慮所選圖象類型。
還應(yīng)注意,當(dāng)P圖象類只有一個(gè)基準(zhǔn)幀時(shí),在平均處理中在兩層中B圖象有典型的從多幀預(yù)測(cè)的多個(gè)宏碼組。例如,Be3612是從Be2610和Pb1662預(yù)測(cè)的。基層中的預(yù)測(cè)模式是常規(guī)模式因此不畫。
圖6展示出的圖象分布和預(yù)測(cè)模式結(jié)構(gòu)中,增強(qiáng)層包括I圖象Ie1602和Ie2606。因此,增強(qiáng)層的GOP包括602至624的12個(gè)圖象。增強(qiáng)層的另一GOP在Ie2626開始,但沒(méi)完全示出?;鶎拥腉OP包括圖象Ib1656至Bb6666?;鶎拥牧硪籊OP在圖象Ib2668開始,但沒(méi)完全示出。注意,基層中的12個(gè)圖象Bb1652至Pb2674相當(dāng)于增強(qiáng)層的GOP。該基層中12個(gè)圖象的序列,在基層GOP的開始有兩個(gè)I圖象。按本發(fā)明,與這些基層I圖象相當(dāng)?shù)脑鰪?qiáng)層中的圖象轉(zhuǎn)換成用于編碼的不同圖象類型。具體地說(shuō),相當(dāng)于基層中圖象Ib1656的圖象PD1606已轉(zhuǎn)換。同樣,相當(dāng)于基層中圖象Ib2668的圖象PD2618也已轉(zhuǎn)換。以前,按常規(guī)圖象分布方案,圖象PD1606和PD2618是B圖象。另一實(shí)施例中,相當(dāng)于基層中GOP圖象開始的增強(qiáng)層圖象能轉(zhuǎn)換成I圖象。按所公開的方式,B圖象轉(zhuǎn)換成P圖象或I圖象,當(dāng)要求在基層和增強(qiáng)層中隨機(jī)存取時(shí),在編輯模式中有利。
因此,圖6所示例中,在跨越圖象Ie1602至Be6624的增強(qiáng)層的GOP中,NrI=1,NrDP=2,NrTP=3。而且,由于增強(qiáng)層(右)GOP中有12個(gè)圖象,Nr=12,在基層(左)GOP中有6個(gè)圖象,N2=6,由于在基層中I或P圖象之間有兩個(gè)連續(xù)的B圖象,M1=3。
再看圖4,在方框410確定增強(qiáng)層中當(dāng)前圖象類型。根據(jù)圖象類型跟蹤圖4中4個(gè)不同分支中的1個(gè)。若當(dāng)前圖象是I圖象,方框415確定虛.擬緩沖器全值Vr2。若當(dāng)前圖象是P圖象,在方框412確定P圖象的類型。對(duì)不均衡預(yù)測(cè)的P圖象而言,在方框435確定虛擬緩沖器的全值VrDP。對(duì)暫時(shí)預(yù)測(cè)的圖象,在方框455確定虛擬的緩沖器全值。對(duì)B圖象,在方框475確定虛擬緩沖器全值VrB。
之后,預(yù)處理在增強(qiáng)層中編碼的當(dāng)前圖象,以確定“目標(biāo)”位配置Tr,它是允許對(duì)下一圖象編碼的位數(shù)估計(jì)值。而且,在GOP或更新周期確定的全部幀數(shù)上進(jìn)行位配置。而且,還必須知道有多少幀,它們的類型,包括GOP或更新周期。
特別是,在方框420處新編碼的幀是I圖象時(shí),Tr1=max{RrNr1+NrDP*XrDPKrDP*Xr1+NrTP*XrTPKrTP*Xr1+NrB*XrBKrB*Xr1,Trmin}]]>對(duì)不均衡預(yù)測(cè)的P圖象,在程序塊440,TrDP=max{RrNrDP+KrDP*Nr1*Xr1XrDP+KrDPNrTP*XrTPKrTP*XrDP+KrDP*NrB*XrBKrB*XrDP,Trmin}]]>對(duì)暫時(shí)預(yù)測(cè)的P圖象,在程序塊460,TrDP=max{RrNrTP+KrTP*Nr1*Xr1XrTP+KrDPNrDP*XrDPKrDP*XrTP+KrDP*NrB*XrBKrB*XrDP,Trmin}]]>對(duì)B圖象,在程序塊480,TrE=max{RrNrb+KrB*Nr1*Xr1XrB+KrB*NrDP*XrDPKrDP*XrB+KrB*NrTP*XrTPKrTP*XrB,Trmin}]]>當(dāng)當(dāng)前幀編碼為確定圖象類型時(shí),增強(qiáng)層中所需類型的剩余圖象數(shù)能減1。因此,對(duì)I圖象,在程序塊425,Nr1減1并存儲(chǔ)。在程序塊445,465和485分別相應(yīng)的運(yùn)算。
之后,按本發(fā)明,若當(dāng)前圖象是PD圖象,新的平均有效值avg-act”在程序塊450確定。avg-act是指增強(qiáng)層中前幀的平均有效性,可在空間疇中用MPEG測(cè)試模式5系統(tǒng)確定,或在變換疇中用某些MPEG-2系統(tǒng)確定。在文獻(xiàn)ISO/IECJTC1/SC29/WG11AVC-491.Versionl.標(biāo)題為“Test Model 5,April,1993”中能找到測(cè)試模式5的更詳細(xì)說(shuō)明。在此引作參考。
通常,只根據(jù)基準(zhǔn)幀的有效值確定待編碼的幀的量化值。但是,若當(dāng)前幀的有效值高于基準(zhǔn)幀的有效值,會(huì)產(chǎn)生低的圖像質(zhì)量。對(duì)PD圖象而言,基準(zhǔn)幀應(yīng)位于基層(左)中,具有的平均有效值為avg-act-1。按本發(fā)明,對(duì)PD圖象,用前幀和基準(zhǔn)幀的平均有效值的最大值。因此,新的平均有效值是,avg-act”=最大{avg-act,avg-act-1}。
另外,系統(tǒng)有幀緩沖器時(shí),增強(qiáng)層中編碼的幀的avg-act能預(yù)先計(jì)算并存儲(chǔ)。即,對(duì)待編碼的當(dāng)前幀,能以當(dāng)前圖象自身算出平均有效值。
對(duì)I.PT和B圖象,分別在程序塊430,470和487的平均有效值是avg-act”=avg-act。
在方框489,存儲(chǔ)當(dāng)前圖象類型用戶在前圖象的后續(xù)處理中恢復(fù)。在490,確定要用線性或非線性量化。對(duì)線性量化而言,從宏程序塊量化參數(shù)導(dǎo)出當(dāng)前幀中按DC和AC兩個(gè)刻度的量化系數(shù)用的初始量化步長(zhǎng),MOUANT在方框492確定為MOUANT=最大{2,最小 }。如上述,Vr是虛擬緩沖器全值,RPr是反應(yīng)參數(shù)。對(duì)非線性量化刻度,在方框494。MOUANT=最大{1.最小{非線性量化表 112}}式中,“非線性量化表”是用Vr*31/RPr的檢查表的輸出。
在方框496結(jié)束程序。
圖5展示出按本發(fā)明的前圖象的后續(xù)處理用的子程序。在方框505,恢復(fù)參數(shù)Rr,MBr,Sr,Tr,TQr和Vr,Rr是當(dāng)前幀編碼后增強(qiáng)層中GOP或更新周期的幀用的能夠配置的位的剩余數(shù)。MBr是在幀中宏程序塊的數(shù)。Sr是增強(qiáng)層中前圖象中的位數(shù),它不包括插入位,在數(shù)據(jù)流開始編碼之前它先插入的空位。Tr是用于編碼當(dāng)前幀配置的位數(shù),TQr是前圖象間的MQUANT的累積。Vr是虛擬緩沖器全值。
在程序塊510,計(jì)算平均量化參數(shù)Qr。如果下一圖象是PD圖象,QrDP=TQrDP/MBr,否則,Qr=TQr/MBr。
在程序塊515,確定整個(gè)復(fù)雜性值Xr。若下一個(gè)圖象是PD圖象,整體復(fù)雜性是Xr=SrDP*QrDP。另外,Xr=Sr*Qr。
在方框520,取前緩沖器全值更新的虛擬緩沖器全值Vr,在前圖象中加位數(shù),Sr并減去配置到當(dāng)前圖象的位數(shù)Tr。
在方框525,恢復(fù)前圖象類型。若增強(qiáng)層中前圖象是I圖象,在方框535設(shè)定XrI和VrI并存儲(chǔ)。并在方框555確定的前圖象是PD圖象,在方框545設(shè)定XrDP和VrDP并存儲(chǔ)。若前圖象是在方框555確定的PT圖象,在方框560設(shè)定和存儲(chǔ)XrDP和VrDP。若前圖象是B圖象,在方框570設(shè)定并存儲(chǔ)XrB和VrB。
之后,如結(jié)合圖4所示方框430,450,470和487所述,分別在方框540,550,565和575計(jì)算并存儲(chǔ)關(guān)于圖象I,PD,和B的平均有效值。
之后,用減去增強(qiáng)層中前圖象的位數(shù)Sr來(lái)更新為增強(qiáng)層中GOP或更新周期中的幀配置的剩余位數(shù)。
在方框585結(jié)束程序。
現(xiàn)在將說(shuō)明宏塊任務(wù)和每份(Slice)任務(wù)速率控制處理。MPEG2系統(tǒng)中,速率控制部分基于宏塊電平和視頻幀的每份電平。例如,用NTSC幀,視頻幀可分成30份,每份有44個(gè)宏程序塊。因此整個(gè)NTSC幀包括1320宏塊。用PAL幀,有1584宏塊。
就以宏塊為基礎(chǔ)的速率控制而言,假設(shè)Bm(j)表示當(dāng)前圖象中第j個(gè)宏塊中的位數(shù),j=1至1320。Abm(j)是達(dá)到當(dāng)前圖象第j宏塊的累積位數(shù)。MBr是圖象中的宏塊數(shù)。宏塊虛擬緩沖器差d(j)由下式確定d(j)=Vr+ABm(j)-j*TrMBr]]>第j個(gè)宏塊的基準(zhǔn)量化參數(shù)是Q(j)=d(j)*31RPr]]>就片電平速率控制而言,Bs(j)是當(dāng)前圖象中第j份中的位數(shù),j=1至30。Abs(j)是達(dá)到當(dāng)前圖象中第j份的累積位數(shù)。NO-slice是圖象中的份數(shù)。每份虛擬緩沖器差是ds(j),ds(j)=Vr+ABs(j)-j*TrNo-Slice]]>第j份的基準(zhǔn)量化參數(shù)是Qs(j)=ds(j)*31RPr]]>
現(xiàn)在將說(shuō)明適當(dāng)?shù)牧炕幚怼J紫?,?jì)算第j個(gè)宏塊的有效性值act(j)。若當(dāng)前圖象是不均衡預(yù)測(cè)模式P圖象,按下式計(jì)算出第j宏塊的正常有效性值N-act(j).
N-act(j)=2*act(j)+avg-act′′act(j)+2*avg-act′′]]>對(duì)其它類型的P圖象N-act(j)=2*act(j)+avg-actact(j)+2*avg-act]]>用宏塊電平速率檢測(cè),按下式計(jì)算第j宏塊的量化步長(zhǎng);對(duì)線性Q刻度為MQUANT(j)=最大{2,最小[Q(j)*N-act(j),62]}對(duì)非線性量化刻度為,MQUANT(j)=最大{1,最小{非線性量化表[Q(j)*N-act(j)],112}}式中,“非線性量化表”是用Q(j)*N-act(j)的輸入的檢查表的輸出。
用片電平速率檢測(cè)Qs(j)代替Q(j),所以,對(duì)線性Q刻度為MQUANT(j)=最大{2,最小{QS(j)*N-act(j),62}}.
對(duì)線性量化刻度為MQUANT(j)=最大{1,最小{非線性量化表[QS(j)*N-act(j)]112]}.式中,“非線性量化表”是用Qs(j)*N=act(j)的輸入的檢查表的輸出。
而且,能看出,本發(fā)明提供的用于立體數(shù)字式視頻通信系統(tǒng)的速率控制方案,根據(jù)無(wú)論是暫時(shí)預(yù)測(cè)幀(從同一層)或不均勻預(yù)測(cè)的幀(從相對(duì)層)改善增強(qiáng)層中P或B幀數(shù)據(jù)的量化程度。而且,根據(jù)增強(qiáng)層中的待編碼幀的有效性值或基層中基準(zhǔn)幀的有效性值,無(wú)論那個(gè)更大,而改善量化步長(zhǎng)。而且,當(dāng)基層中的基準(zhǔn)幀是圖象組(GOP)的第1幀時(shí),將增強(qiáng)層幀編碼為I或P幀,能改善編輯模式中的圖象質(zhì)量和防止幀凝滯。
盡管結(jié)合各種特殊實(shí)施例說(shuō)了本發(fā)明,本行業(yè)的技術(shù)人員應(yīng)該了解,不脫離本發(fā)明精神和范圍的情況下還會(huì)有很多修改和改進(jìn),這些修改和改進(jìn)均屬本發(fā)明要求保護(hù)的范圍。
權(quán)利要求
1.一種立體數(shù)字式數(shù)據(jù)信號(hào)的增強(qiáng)層中視頻信號(hào)的連續(xù)圖象的編碼方法,包括步驟確定所述增強(qiáng)層的所述圖象編組;其中,當(dāng)所述增強(qiáng)層圖象組的當(dāng)前圖象對(duì)應(yīng)于所述立體信號(hào)中基層圖象組中的第一圖象時(shí),所述當(dāng)前圖象被編碼為內(nèi)編碼圖象和預(yù)測(cè)的編碼圖象中的一個(gè)。
2.按權(quán)利要求1的方法,其中所述增強(qiáng)層中所述圖象組的第一圖象與所述基層的基準(zhǔn)圖象暫時(shí)偏移。
3.一種立體數(shù)字式數(shù)據(jù)信號(hào)的增強(qiáng)層中視頻信號(hào)的連續(xù)圖象的編碼裝置,包括確定所述增強(qiáng)層的所述圖象編組的裝置;其中當(dāng)所述圖象組的當(dāng)前圖象對(duì)應(yīng)于所述立體信號(hào)的所述基層中的圖象組的第一圖象時(shí),所述當(dāng)前圖象被編碼為內(nèi)編碼圖象和預(yù)測(cè)的編碼圖象中的一個(gè)。
4.按權(quán)利要求3的裝置,其中所述增強(qiáng)層中所述圖象組的第一圖象與所述基層的基準(zhǔn)圖象暫時(shí)偏移。
全文摘要
一種立體數(shù)字式數(shù)據(jù)信號(hào)的增強(qiáng)層中視頻信號(hào)的連續(xù)圖象的編碼方法,包括步驟確定所述增強(qiáng)層的所述圖象編組;其中,當(dāng)所述增強(qiáng)層圖象組的當(dāng)前圖象對(duì)應(yīng)于所述立體信號(hào)中基層圖象組中的第一圖象時(shí),所述當(dāng)前圖象被編碼為內(nèi)編碼圖象和預(yù)測(cè)的編碼圖象中的一個(gè)。所述增強(qiáng)層中所述圖象組的第一圖象可與所述基層的基準(zhǔn)圖象暫時(shí)偏移。
文檔編號(hào)H04N13/00GK1496133SQ200310114178
公開日2004年5月12日 申請(qǐng)日期1997年7月3日 優(yōu)先權(quán)日1996年7月3日
發(fā)明者陳學(xué)敏 申請(qǐng)人:通用儀器公司