專利名稱:視頻編碼方法和相應(yīng)的計算機(jī)程序的制作方法
技術(shù)領(lǐng)域:
本發(fā)明總體上涉及數(shù)據(jù)壓縮領(lǐng)域,并且更具體而言涉及一種借助于三維(3D)子波段(subband)分解來編碼由畫面元素(像素)組成的幀序列的方法,包括在被認(rèn)為是3D體積的序列中把過濾步驟應(yīng)用于空間-時間數(shù)據(jù),所述空間-時間數(shù)據(jù)在所述序列中對應(yīng)于每一個連續(xù)的幀組(GOF),這些GOF本身被再分成連續(xù)的幀對(POF),所述幀對包括所謂的先前幀和所謂的當(dāng)前幀,把所述分解連同在每個GOF中對所述POF和對應(yīng)的低頻時間子波段對(POS)執(zhí)行的運動估計和補(bǔ)償步驟一起應(yīng)用于所述GOF,所述POS在每個時間分解級上獲得。
本發(fā)明還涉及一種包括指令集的計算機(jī)程序,當(dāng)由包括在編碼裝置內(nèi)的處理器執(zhí)行所述程序時,所述指令集用于實現(xiàn)所述編碼方法。
近年來,基于3D或(2D+t)、被認(rèn)為是三維體積的幀序列的小波分解的三維(3D)子波段分析已經(jīng)被越來越多地針對視頻壓縮進(jìn)行研究。小波變換產(chǎn)生構(gòu)成分層金字塔(pyramid)的系數(shù),其中由于證明在所述系數(shù)之間的父母-子女從屬關(guān)系的3D方向樹,來定義空間-時間的關(guān)系。于是,在分級樹中進(jìn)行所產(chǎn)生的系數(shù)的深度掃描和逐行的位平面編碼技術(shù),產(chǎn)生想要的質(zhì)量可縮放性。
用于實現(xiàn)該方法的實際解決辦法是,使用簡單的兩個抽頭小波過濾器來產(chǎn)生運動補(bǔ)償時間子波段,如在
圖1中對八個幀的GOF舉例說明。在所舉例說明的實施方式中,把輸入視頻序列分成幀組(GOF),并且本身被再分成連續(xù)的幀對(其有與所謂的運動補(bǔ)償時間過濾(Montion-Compensated Temporal Filtering)或MCTF模塊一樣多的輸入端)的每個GOF,首先被運動補(bǔ)償(MC),然后被時間過濾(TF)。還過濾(TF)第一時間分解級的、所產(chǎn)生的低頻(L)時間子波段,并且在產(chǎn)生一個或多個低頻子波段-稱為根時間子波段任意數(shù)目的分解之后(在圖解中,給出了具有產(chǎn)生兩個根子波段LL的兩個分解級的非限制性的例子),該過程就可以停止。在圖1的例子中,所舉例說明的組的幀是參考數(shù)字F1到F8,并且虛線箭頭對應(yīng)于高通時間過濾,而其它的則對應(yīng)于低通時間過濾。示出了分解的兩個階段(L和H=第一階段;LL和LH=第二階段)。在所舉例說明的8幀組的每個時間分解級,產(chǎn)生一組運動向量場(field)(在該例子中,MV4在第一級,而MV3在第二級)。
當(dāng)Haar多分辨率分析用于時間分解時,由于在每個時間分解級,在考慮的幀組中每兩個幀之間產(chǎn)生一個運動向量場,所以運動向量場的數(shù)目等于在時間子波段中幀數(shù)目的一半,即四個在運動向量場的第一級而兩個在第二級。由于兩個簡單的小波過濾器進(jìn)行了時間向下采樣,所以輸入序列的每兩個幀才執(zhí)行一次運動估計(ME)和運動補(bǔ)償(MC)(總體上采用向前方式)。使用這些非常簡單的過濾器,每個低頻時間子波段(L)表示輸入幀對的時間均值,而高頻時間子波段(H)包含在MCTF步驟之后的殘留誤差。
不幸地是,運動補(bǔ)償時間過濾可能會加重未連接像素的問題,這些未連接像素根本就沒有被過濾(或還加重雙重連接像素的問題,這些雙重連接像素被過濾了兩次)。未連接像素的數(shù)目代表3D子波段編碼方法的弱點,這是因為其非常嚴(yán)重地影響所產(chǎn)生的畫面質(zhì)量,在封閉區(qū)域中尤其如此。對于高運動序列或?qū)τ谧罱K時間分解級這更是如此,其中時間相關(guān)性不太好。這些未連接像素的數(shù)目取決于已經(jīng)由運動估計產(chǎn)生的密集運動向量場。
用于在運動估計中所使用的最優(yōu)運動向量搜索的當(dāng)前標(biāo)準(zhǔn)不考慮將作為運動補(bǔ)償?shù)慕Y(jié)果的、未連接的像素的數(shù)目。大多數(shù)高級算法使用傾向于最小化代價函數(shù)的比率/失真標(biāo)準(zhǔn),所述代價函數(shù)取決于用于發(fā)送運動向量(比率)所消耗比特數(shù)目和轉(zhuǎn)移差異能量(失真)。例如,所述運動搜索返回最小化如下表達(dá)式(1)的運動向量J(m)=SAD(s,c(m))+λMOTION·R(m-p) (1)在該表達(dá)式(1)中,m=(mx,my)T是所述運動向量,p=(px,py)T是對所述運動向量的預(yù)測,而λMOTION是拉格朗日乘數(shù)。比率項R(m-p)只表示運動信息,并且把用作失真測量的SAD計算為SAD(s,c(m))=Σx=1,y=1B,B|s[x,y]-c[x-mx,y-my]|---(2)]]>其中s是原始的視頻信號,c是編碼的視頻信號,而B是塊大小(注意,B可以是1)。不幸地是,這些算法不考慮在反向運動補(bǔ)償期間由未連接的像素所引入的失真,這是因為通常把這些優(yōu)化應(yīng)用于不對其執(zhí)行反向運動補(bǔ)償?shù)幕旌暇幋a。
因此本發(fā)明的目的是避免這種缺點,并且提出一種視頻編碼方法,其中在失真測量中考慮所述未連接的像素集。
為此,本發(fā)明涉及一種諸如在介紹段中所定義的方法,并且所述方法其特征在于,所述運動補(bǔ)償時間過濾的過程在先前幀中一方面引入連接像素,這些連接像素被沿著對應(yīng)于借助于運動估計步驟定義的運動向量的運動軌跡來過濾,而另一方面引入殘留的所謂未連接像素的數(shù)目,這些未連接像素根本沒有被過濾,每個運動估計步驟包括為返回運動向量而提供的運動搜索,所述運動向量至少根據(jù)包括失真測量的失真標(biāo)準(zhǔn)來最小化代價函數(shù),還把所述測量失真應(yīng)用于所述未連接的像素集。
現(xiàn)在將以舉例形式,參考附圖來描述本發(fā)明,其中圖1示出了具有運動補(bǔ)償?shù)臅r間多分辨率分析。
因為未連接的像素高度參與反向運動補(bǔ)償圖像的質(zhì)量退化,所以依照本發(fā)明,在失真測量中考慮未連接的像素集。為此,在此建議引入新的比率/失真標(biāo)準(zhǔn),其擴(kuò)展了考慮未連接像素現(xiàn)象的等式。這在等式(3)和(4)中舉例說明,所述等式(3)和(4)是等價的K(m)=J(m)+λUNCONNECTED·D(SUNCONNECTED(m))(3)K(m)=SAD(s,C(m))+λUNCONNECTED·D(SUNCONNECTED(m))+λMOTION·R(m-p) (4)其中D(SUNCONNECTED(m))是對由運動向量m產(chǎn)生的未連接的像素集SUNCONNECTED的失真測量。可以把幾個失真測量應(yīng)用于所述未連接像素集。優(yōu)選地是,一次非常簡單的測量就是對研究中的運動向量的未連接像素的計數(shù)。
應(yīng)當(dāng)注意,只有當(dāng)運動向量信息對于整個幀可用時,才可以計算由運動搜索產(chǎn)生的、實際的未連接像素集。因此,最優(yōu)解幾乎是不可能得出的(實際上應(yīng)該對整個幀的極小化標(biāo)準(zhǔn)的復(fù)雜集進(jìn)行求解),因此提出了一種次最優(yōu)的實施方式??梢园言摲沁f歸的實施方式認(rèn)為是用于考慮由于未連接的像素所導(dǎo)致的失真的簡單方式。對于要進(jìn)行運動補(bǔ)償?shù)膱D像的給定部分(圖像的一部分可以是像素、像素塊、像素的宏模塊或假定部分集覆蓋了整個圖像而沒有任何重疊的任何區(qū)域),并且對于給定的侯選運動向量m,應(yīng)用時間反向運動補(bǔ)償,識別未連接的像素集,并且可以求D(SUNCONNECTED(m))的值。然后可以計算當(dāng)前K(m)值,并且將其與當(dāng)前最小值Kmin(m)相比較,以便檢驗該候選的運動向量是否產(chǎn)生了更低的K(m)值(對于第一個候選的運動向量,K(m)顯然等于計算的值K(m))。當(dāng)已經(jīng)測試了所有的候選項時,把(最終的)反向運動補(bǔ)償應(yīng)用于最佳候選項(識別連接和未連接的像素)。然后可以處理所述圖像的下一部分,諸如此類直到完成整個圖像的處理。
然而,在該非遞歸的實施方式中,所產(chǎn)生的決定在整個圖像上并不總是空間均勻的對于要進(jìn)行運動補(bǔ)償?shù)膱D像的第一部分,所述未連接的像素集可能是空的,而對于要進(jìn)行運動補(bǔ)償?shù)乃鰣D像的最后部分,未連接的像素的概率非常高。這種情況可能會導(dǎo)致不均勻的空間失真。為了克服這種問題并產(chǎn)生一種單程的實施方式,可以提出多程的實施方式,這通過對于整個圖像的所有部分最小化全局標(biāo)準(zhǔn)∑K(m)的確能夠改善所述單程的實施方式,這還可以用包括下列步驟的多程的實施方式來完成。
首先,對于圖像的所有部分,計算最優(yōu)運動向量mopt,以及向等式(1)的J(m)提供了最小值的Nsub-opt次最優(yōu)的運動向量集{msub-opt},在這一階段不使用未連接像素的數(shù)目(次最優(yōu)向量Nsub-opt的數(shù)目是實施方式相關(guān)的)。對于所有這些向量,存儲所述標(biāo)準(zhǔn)J(m)的對應(yīng)值,以便產(chǎn)生J(mopt)和{J(msub-opt)}。然后,對于最優(yōu)運動向量mopt應(yīng)用反向運動補(bǔ)償,以便計算 (注意, 不是 的最優(yōu)值,這是因為mopt優(yōu)化J(m)而不是K(m))。然后,從次最優(yōu)向量的列表中選擇最小化|{J(mopt)}-{J(mcandidate)}|的候選運動向量mcandidate(注意,mcandidate可以是當(dāng)前圖像的任何一部分的向量)。對于最優(yōu)運動向量和候選向量(代替圖像對應(yīng)部分的最優(yōu)向量)集,應(yīng)用反向運動補(bǔ)償并且再次計算 如果其值比 低,那么用mcandidate來代替最優(yōu)值mopt(對于所述圖像的對應(yīng)部分)。最后,從次最優(yōu)向量的列表中丟棄mcandidate。然后,選擇新的候選項,并且為了獲得運動向量的最優(yōu)集,應(yīng)用相同的機(jī)制,直到所述次最優(yōu)向量的列表為空。
權(quán)利要求
1.一種用于借助于三維(3D)子波段分解來編碼由畫面元素(像素)組成的幀序列的方法,包括在被認(rèn)為是3D體積的序列中把過濾步驟應(yīng)用于空間-時間數(shù)據(jù),所述空間-時間數(shù)據(jù)在所述序列中對應(yīng)于每一個連續(xù)的幀組(GOF),這些GOF本身再分成連續(xù)的幀對(POF),所述幀對包括所謂的先前幀和所謂的當(dāng)前幀,把所述分解連同在每個GOF中對所述POF和對應(yīng)的低頻時間子波段對(POS)執(zhí)行的運動估計和補(bǔ)償步驟一起應(yīng)用于所述GOF,所述POS在每個時間分解級上獲得,該運動補(bǔ)償時間過濾的過程一方面在先前幀中引入連接像素,這些連接像素被沿著對應(yīng)于借助于運動估計步驟所定義的運動向量的運動軌跡過濾,另一方面引入殘留的、根本沒有被過濾的所謂未連接像素的數(shù)目,每個運動估計步驟包括為返回至少根據(jù)包括失真測量的失真標(biāo)準(zhǔn)來最小化代價函數(shù)的運動向量而提供的運動搜索,所述測量失真還被應(yīng)用于所述未連接的像素集。
2.如權(quán)利要求1所述的編碼方法,其中提供所述運動搜索以便返回最小化如下表達(dá)式(1)的運動向量J(m)=SAD(s,c(m))+λMOTION·R(m-p)(1)其中m=(mx,my)T是運動向量,p=(px,py)T是對所述運動向量的預(yù)測,λMOTION是拉格朗日乘數(shù),比率項R(m-p)只表示運動信息,并且把用作失真測量的SAD計算為SAD(s,c(m))=Σx=1,y=1B1B|s[x,y]-c[x-mx,y-my]|---(2)]]>s是原始的視頻信號,c是編碼的視頻信號,而B是塊大小,其特征在于所述失真標(biāo)準(zhǔn)擴(kuò)展等式(1),考慮到用于最小化操作的未連接的像素現(xiàn)象,其中把所述最小化操作應(yīng)用于下列表達(dá)式(3)K(m)=J(m)+λUNCONNECTED·D(SUNCONNECTED(m))(3)其中D(SUNCONNECTED(m))是由運動向量m產(chǎn)生的未連接的像素集SUNCONNECTED的失真測量。
3.如權(quán)利要求2所述的編碼方法,其特征在于為了考慮由于未連接像素所產(chǎn)生的失真,其包括下列步驟,依次把下列步驟應(yīng)用于要進(jìn)行運動補(bǔ)償?shù)恼麄€圖像的每個部分(a)對于圖像的考慮部分和對于給定的候選運動向量m,應(yīng)用時間反向運動補(bǔ)償;(b)識別未連接的像素集;(c)求出D(SUNCONNECTED(m))的值;(d)計算當(dāng)前K(m)值并且將其與當(dāng)前最小值Kmin(m)相比較,以便檢驗所述候選運動向量是否產(chǎn)生更低的K(m)值;(e)當(dāng)已經(jīng)測試所有的候選項時,把最終的反向運動補(bǔ)償應(yīng)用于最佳候選項;(f)然后把步驟(a)到(e)應(yīng)用于可以類似處理的圖像的下一部分,所述圖像的部分是像素、像素塊、像素宏模塊或假定部分集覆蓋了整個圖像而沒有任何重疊的任何區(qū)域。
4.如權(quán)利要求2所述的編碼方法,其特征在于為了考慮由于未連接的像素所產(chǎn)生的失真并且最小化要進(jìn)行補(bǔ)償?shù)恼麄€圖像的全局標(biāo)準(zhǔn)∑[所有部分]K(m),所述方法包括下列步驟(a)計算最優(yōu)運動向量mopt,以及為J(m)提供了最小值的Nsub-opt次最優(yōu)運動向量集{msub-opt};(b)對于所有這些向量,存儲標(biāo)準(zhǔn)J(m)的對應(yīng)值,以便產(chǎn)生J(mopt)和{J(msub-opt)};(c)對于最優(yōu)運動向量mopt,應(yīng)用反向運動補(bǔ)償應(yīng),以便計算∑[所有部分]K(mopt);(d)從次最優(yōu)向量的列表中選擇最小化|{J(mopt)}-{J(mcandidate)}|的候選運動向量mcandiate;(e)對于最優(yōu)運動向量和候選向量集,應(yīng)用反向運動補(bǔ)償,以便再次計算∑[所有部分]K(m);(f)如果∑[所有部分]K(m)的值比∑[所有部分]K(mopt)的值低,那么對于所述圖像的對應(yīng)部分,用mcandidate來代替最優(yōu)值mopt;(g)最后,從次最優(yōu)向量的列表中丟棄mcandidate;(h)選擇新的候選項,然后為了獲得運動向量的最優(yōu)集,應(yīng)用相同的機(jī)制,直到所述次最優(yōu)向量的列表為空。
5.一種包括指令集的計算機(jī)程序,所述指令集用于當(dāng)由包括在編碼裝置中的處理器執(zhí)行所述程序時,實現(xiàn)依照權(quán)利要求3和4中任何一個的方法。
全文摘要
本發(fā)明涉及一種借助于三維(3D)子波段分解來編碼由畫面元素(像素)組成的幀序列的方法,所述方法包括在被認(rèn)為是3D體積的序列中把過濾步驟應(yīng)用于空間-時間數(shù)據(jù),所述空間-時間數(shù)據(jù)在所述序列中對應(yīng)于每一個連續(xù)的幀組(GOF),并且還涉及所述方法的實施方式。把所述GOF本身再分成連續(xù)的幀對(POF),所述幀對包括所謂的先前幀和所謂的當(dāng)前幀,把所述分解連同在每個GOF中對所述POF和對應(yīng)的低頻時間子波段對(POS)執(zhí)行的運動估計和補(bǔ)償步驟一起應(yīng)用于所述GOF,所述POS在每個時間分解級上獲得。運動補(bǔ)償時間過濾的過程在先前幀中一方面引入連接的像素,這些連接的像素被沿著借助于對應(yīng)于運動估計步驟所定義的運動向量的運動軌跡加以過濾,而另一方面引入殘留的根本沒有被過濾的所謂未連接像素的數(shù)目,每個運動估計步驟包括為返回運動向量而提供的運動搜索,所述運動向量至少根據(jù)失真標(biāo)準(zhǔn)來最小化代價函數(shù),所述標(biāo)準(zhǔn)考慮用于最小化操作的未連接的像素現(xiàn)象,本身基于允許通過非遞歸或遞歸實施方式來獲得運動向量的最優(yōu)集的具體規(guī)則。
文檔編號H04N7/26GK1723477SQ200380105668
公開日2006年1月18日 申請日期2003年12月5日 優(yōu)先權(quán)日2002年12月11日
發(fā)明者E·巴勞 申請人:皇家飛利浦電子股份有限公司