本發(fā)明涉及的是一種圖像/視頻編碼解碼及其他處理技術(shù)領(lǐng)域的方法及系統(tǒng),具體是一種刻畫自然圖像在某一變換域(如離散余弦變換(DCT)域)中各向異性相關(guān)性的二維馬爾可夫隨機(jī)場(Markovrandomfield)的建模方法及其系統(tǒng)。
背景技術(shù):目前的圖像/視頻處理技術(shù),如壓縮、重構(gòu)、增強(qiáng)、分析等,大多是在變換域進(jìn)行的。常用的變換域有離散余弦變換(DCT),離散傅立葉變換(DFT),哈達(dá)碼變換等。變換的作用是將圖像/視頻信號中的能量集中于少數(shù)變換系數(shù)之中,從而顯著地減小信號中的統(tǒng)計(jì)冗余。學(xué)術(shù)界對該過程有多種描述:如能量打包(energypacking)、去相關(guān)或圖像/視頻信號的稀疏表示等。但即使在變換域中,自然圖像/視頻信號也遠(yuǎn)非獨(dú)立同分布(i.i.d),而應(yīng)該被歸類于馬爾可夫隨機(jī)過程(Markovrandomprocesses)。因此,對于圖像/視頻信號在變換域中的上下文統(tǒng)計(jì)建模成為被廣泛應(yīng)用的圖像/視頻處理系統(tǒng)中的關(guān)鍵組成部分。這里所謂的上下文統(tǒng)計(jì)建模是指馬爾可夫或近似馬爾可夫信號的條件概率的估計(jì)方法或過程。在基于變換的圖像/視頻壓縮系統(tǒng),如MPEG、JPEG、JPEG2000、H.264中,圖像/視頻信號的上下文統(tǒng)計(jì)建模無疑對系統(tǒng)的率失真(rate-distortion)性能至關(guān)重要,其作用是預(yù)測用于驅(qū)動(dòng)熵編碼器(如基于上下文的算術(shù)編碼器等)的變換系數(shù)的條件概率。在熵編碼過程中,任何對于條件概率的預(yù)測偏差都會直接導(dǎo)致編碼性能的下降。準(zhǔn)確地說,與理論最短碼長比,預(yù)測概率偏差所造成的冗余碼長等于其與真實(shí)概率分布之間的互信息熵(relativeentropy),或者KL距離(Kullback-Leiblerdistance)。因此上下文統(tǒng)計(jì)建模的精度最終決定了系統(tǒng)的壓縮性能?,F(xiàn)有的上下文建模方法往往利用自然圖像具有快速下降的功率譜的特性(文獻(xiàn)中假設(shè)為指數(shù)下降)。但具有快速下降的功率譜本身無法表征圖像/視頻信號在變換域中的統(tǒng)計(jì)特性,這是因?yàn)閳D像和視頻的信號能量在頻域上僅為一維分布,而在變換域中則為二維或者三維。尤其如邊界,紋理等含有方向性的圖像具有在二維的變換域里通過其變換系數(shù)體現(xiàn)出二維方向相關(guān)性的特點(diǎn),上述變換系數(shù)的方向相關(guān)性在對含有邊界的圖像像素塊進(jìn)行二維離散變換時(shí)尤為顯著,對于含有邊界或者規(guī)則紋理的圖像塊,信號能量被集中于方向子帶中,如圖1(a)和1(c)所示即為包含不同朝向邊界的圖像像素塊進(jìn)行離散余弦變換(DCT)的結(jié)果。對于包含平滑陰影的像素塊,其信號能量則集中于低頻區(qū)域,而DCT變換系數(shù)以輻射狀并且近乎相同的速度衰減,如圖1(b)所示??梢娮匀粓D像在離散余弦變換(DCT)域中可以近似為同時(shí)具有徑向(radialdirection)和逆徑向(anti-radialdirection)相關(guān)性的二維馬爾可夫隨機(jī)場模型。通過上述分析揭示了多種現(xiàn)行國際圖像視頻壓縮標(biāo)準(zhǔn),如JPEG、MPEG及H.264等所采用的常見的DCT系數(shù)之字形(Zigzag)掃描方法從本質(zhì)上具有缺陷。Zigzag掃描為逆徑向(anti-radialdirection)往復(fù)式掃描,徹底忽略自然圖像在徑向上所具有的統(tǒng)計(jì)相關(guān)性。事實(shí)上,MPEG和H.264標(biāo)準(zhǔn)為了彌補(bǔ)該缺陷,分別提出水平和垂直方向的掃描模式作為Zigzag掃描方式的代替。但多掃描模式的切換僅為局部且不靈活的臨時(shí)方案,無法對圖像/視頻信號在變換域中的任意方向相關(guān)性進(jìn)行建模,并且對掃描模式的編碼也會造成額外的碼率開銷。經(jīng)過對現(xiàn)有技術(shù)的檢索發(fā)現(xiàn),中國專利文獻(xiàn)號CN1741616,公開日2006-03-01,記載了一種基于上下文的自適應(yīng)熵編碼方法,該技術(shù)包括以下步驟:編碼時(shí):掃描當(dāng)前變換塊中已被量化的DCT系數(shù),由此形成(level,run)數(shù)對序列;然后按掃描的逆向順序?qū)?shù)對序列中每一數(shù)對進(jìn)行熵編碼,在編碼中,利用已被編碼塊中已完成編碼的數(shù)對的值動(dòng)態(tài)自適應(yīng)構(gòu)造上下文統(tǒng)計(jì)模型,同時(shí),也提出一個(gè)上下文模型加權(quán)融合技術(shù)來進(jìn)一步提高模型的壓縮性能;用上一步驟所獲得的上下文統(tǒng)計(jì)模型來驅(qū)動(dòng)熵編碼?;谏舷挛牡淖赃m應(yīng)熵解碼方法是編碼方法的逆。但該技術(shù)具有以下的缺陷和不足:雖然該方法采用游程(run-length)的方式對兩個(gè)非0系數(shù)之間連續(xù)的0系數(shù)進(jìn)行了組合編碼,但該方法并未對其他的典型系數(shù)組合進(jìn)行合并,并且依然未能跳出Zigzag的簡單掃描方式。中國專利文獻(xiàn)號CN1431828,公開日2003-07-23,記載了一種“用于編碼/解碼圖像信號的最佳掃描方法”,該技術(shù)在一種通過離散余弦變換編碼圖像信號的方法中,在多個(gè)參考塊中至少一個(gè)被選擇。產(chǎn)生一個(gè)掃描順序,其中進(jìn)行掃描參考塊的要編碼的塊,并且以所產(chǎn)生的掃描順序掃描要編碼的塊。所述至少一個(gè)被選擇的參考塊與要編碼的塊在時(shí)間或空間上鄰近。當(dāng)掃描要編碼的塊的時(shí)候,從所述至少一個(gè)所選擇的參考塊獲得發(fā)生非零系數(shù)的概率,并且從最高的概率開始以降序確定掃描順序。在此,如果概率相同,則掃描順序被產(chǎn)生為一個(gè)之字形的掃描順序。但該方法依然未能從根本上解決Zigzag掃描模式的弊端,并且其對變換系數(shù)的自適應(yīng)掃描依然是針對單個(gè)系數(shù)來進(jìn)行的,并未對擁有近似性質(zhì)的系數(shù)塊進(jìn)行合并,因此,該方法的編碼效率依然不足以令人滿意。
技術(shù)實(shí)現(xiàn)要素:本發(fā)明針對現(xiàn)有技術(shù)存在的上述不足,提供一種圖像/視頻的變換域中基于上下文的建模方法及其系統(tǒng),通過自適應(yīng)塊進(jìn)化法(ABE:AdaptiveBlockEvolution),與現(xiàn)有鋸齒式(Zigzag)、水平或垂直的掃描方式不同,該方法并不采用固定的一維掃描順序,而是采用自適應(yīng)二維掃描方式,對變換域系數(shù)同時(shí)從徑向和逆徑向的相關(guān)性進(jìn)行統(tǒng)計(jì)建模。本發(fā)明除了能夠作為圖像視頻壓縮中的有效工具以外,還能夠用于執(zhí)行去噪、插值、分類、視覺信息檢索及提取、數(shù)字水印、信息隱藏、圖像檢索、隱寫分析等其他圖像/視頻處理應(yīng)用中。本發(fā)明是通過以下技術(shù)方案實(shí)現(xiàn)的:本發(fā)明涉及一種變換域里上下文統(tǒng)計(jì)建模方法,通過自適應(yīng)地構(gòu)建一個(gè)二維馬爾可夫模型以反應(yīng)圖像/視頻信號在二維變化域里的方向相關(guān)性,該方法具體包括:將多個(gè)或單個(gè)變換系數(shù)組成二維馬爾可夫過程中的狀態(tài);在線或離線地計(jì)算兩個(gè)相鄰馬爾可夫狀態(tài)之間的傳遞概率;從初始狀態(tài)起,通過傳遞概率分別實(shí)現(xiàn)單個(gè)或多個(gè)遍歷方向的自適應(yīng)。所述的變換系數(shù)可以經(jīng)過量化或未經(jīng)過量化;所述的二維馬爾可夫過程中的狀態(tài)是指變換域中的一個(gè)或一組相鄰且相關(guān)的系數(shù),該狀態(tài)通過典型模式的系數(shù)塊進(jìn)行定義;所述的初始狀態(tài)是指:以最低頻率系數(shù)和/或最高頻率系數(shù)為參照點(diǎn),聚集在一起的具有相同或相近數(shù)值且相近頻率的系數(shù)群所構(gòu)成的系數(shù)塊;該系數(shù)群的洲際即為廣義半徑。所述的傳遞概率P(si|si-1)專指二維馬爾可夫過程中的傳遞概率,可通過離線或者在線的方式計(jì)算得到,其中:si為下一狀態(tài),si-1為當(dāng)前狀態(tài),i表示當(dāng)前遍歷的變換系數(shù)的系數(shù)塊的序號,其取值為1至二維馬爾可夫過程中的狀態(tài)總數(shù)。所述的遍歷方向的自適應(yīng)是指:根據(jù)當(dāng)前狀態(tài)和其所有下一個(gè)可能狀態(tài)之間的傳遞概率中的最高值所對應(yīng)的狀態(tài)來選擇下一個(gè)狀態(tài);對于兩個(gè)以上的初始狀態(tài)則分別進(jìn)行上述自適應(yīng)計(jì)算。本發(fā)明涉及一種基于變換域上下文統(tǒng)計(jì)建模的圖像/視頻壓縮方法,包括以下步驟:第一步、對于輸入圖像進(jìn)行系數(shù)變換;第二步、對變換系數(shù)進(jìn)行基于上下文的建模并確定初始狀態(tài)s0;第三步、在線或離線地以二維馬爾科夫過程對狀態(tài)si-1下的所有可能傳遞概率P(si|si-1)進(jìn)行計(jì)算和比較,并基于其中的最優(yōu)值作為下一個(gè)狀態(tài)si;第四步、對第三步得到的下一個(gè)狀態(tài)si,用其對應(yīng)的傳遞概率P(si|si-1)驅(qū)動(dòng)熵編碼器,輸出狀態(tài)si所對應(yīng)的變化系數(shù)的輸出碼,然后返回第三步根據(jù)新的狀態(tài)重新進(jìn)行計(jì)算和比較,直至遍歷完所有變換系數(shù)并得到所有輸出碼組成的完整碼流。所述的初始狀態(tài)采用廣義半徑的方式編碼最低頻域里至少一個(gè)值為1的系數(shù)或系數(shù)塊和/或最高頻域里的至少一個(gè)值為0的系數(shù)或系數(shù)塊和/或頻域任意部分中具有明顯特征的系數(shù)塊。所述的明顯特征是指:兩個(gè)以上毗鄰且具有相同值或呈典型分布的系數(shù)對或系數(shù)塊。本發(fā)明涉及一種基于變換域上下文統(tǒng)計(jì)建模的圖像/視頻壓縮系統(tǒng),包括:變換模塊、自適應(yīng)塊進(jìn)化(ABE)模塊和熵編碼模塊,其中:變換模塊,對圖像進(jìn)行系數(shù)變換;ABE模塊,對變換模塊輸出的變換系數(shù)進(jìn)行基于上下文的建模,并按照自適應(yīng)方式逐步將遍歷過程中每一步得到的傳遞概率依次輸出至并驅(qū)動(dòng)熵編碼模塊。熵編碼模塊,根據(jù)ABE模塊輸出的傳遞概率對變換系數(shù)進(jìn)行熵編碼并輸出。所述的基于上下文的建模是指:將變換域中的一個(gè)或一組相鄰且相關(guān)的系數(shù)作為二維馬爾科夫過程的狀態(tài),以最低頻率系數(shù)和/或最高頻率系數(shù)為參照點(diǎn),聚集在一起的具有相同或相近數(shù)值且相近頻率的系數(shù)群所構(gòu)成的系數(shù)塊作為模型的初始狀態(tài)。所述的自適應(yīng)方式是指:從基于上下文的模型的初始狀態(tài)起,計(jì)算其所有下一個(gè)可能狀態(tài)之間的傳遞概率中的最高值所對應(yīng)的狀態(tài)作為下一個(gè)狀態(tài)。本發(fā)明與現(xiàn)有H.264壓縮方式相比提高了編碼效率,尤其當(dāng)碼率升高至0.45或以上時(shí),ABE編碼系統(tǒng)的碼流長度可減少至接近90%。附圖說明圖1為實(shí)施例1中不同圖像的16x16大小像素塊對應(yīng)DCT變換系數(shù)示意圖(系數(shù)幅值通過明暗程度示意)。圖2為傳統(tǒng)DCT編碼系統(tǒng)和本發(fā)明的ABE編碼系統(tǒng)的對比。圖3為馬爾科夫狀態(tài)下的8x8大小多個(gè)DCT變換系數(shù)塊示意圖,具體如圖中灰色區(qū)域。圖4為以高傳遞概率為方向進(jìn)行狀態(tài)變換的示意圖,第i步至第iv步;圖中:(a)為徑向狀態(tài)變化;(b)為水平狀態(tài)變化。圖5為變換域的一維或二維方向橫斷掃描示意圖;圖中:(a)為從低變換域作為初始狀態(tài)進(jìn)行遍歷;(b)為從高變換域作為初始狀態(tài)進(jìn)行遍歷;(c)為分別從低變換域和高變換域同時(shí)進(jìn)行遍歷。圖6為驗(yàn)證本發(fā)明編碼性能的測試實(shí)驗(yàn)所用圖像集。圖7為本發(fā)明編碼性能與現(xiàn)存最好編碼系統(tǒng)H.264的對比結(jié)果。具體實(shí)施方式下面對本發(fā)明的實(shí)施例作詳細(xì)說明,本實(shí)施例在以本發(fā)明技術(shù)方案為前提下進(jìn)行實(shí)施,給出了詳細(xì)的實(shí)施方式和具體的操作過程,但本發(fā)明的保護(hù)范圍不限于下述的實(shí)施例。實(shí)施例1二維馬爾科夫建模為進(jìn)一步體現(xiàn)出本發(fā)明ABE方式的創(chuàng)新性,下面以眾多圖像視頻壓縮標(biāo)準(zhǔn)和系統(tǒng)中最為核心的處理過程,即量化后的二維DCT系數(shù)的熵編碼為例。傳統(tǒng)的DCT編碼系統(tǒng)與本發(fā)明ABE編碼系統(tǒng)框圖如圖2所示。與傳統(tǒng)DCT編碼系統(tǒng)類似,ABE系統(tǒng)也首先輸入圖像進(jìn)行DCT變換及量化,但與傳統(tǒng)系統(tǒng)所采用的鋸齒掃描(Zigzag)不同,ABE系統(tǒng)采用更為靈活的自適應(yīng)塊進(jìn)化方法,從而擁有更高的編碼效率。經(jīng)量化后,大部分非顯著DCT系數(shù)被量化為0,而剩下的非0,即顯著系數(shù),往往會沿某方向集聚。相反大量的非顯著系數(shù)(0),則會沿著從低頻到高頻的方向扇形擴(kuò)散。為提高壓縮效率,ABE方法采用有序二維馬爾可夫模型以及相鄰像素塊序號分解0和非0的位置(比如:生成權(quán)重圖)。在上述二維馬爾可夫建模過程將對當(dāng)前狀態(tài)si-1到下一個(gè)狀態(tài)si的傳遞概率P(si|si-1)進(jìn)行預(yù)測。所述的狀態(tài)是指變換域中的一組相鄰且相關(guān)的系數(shù)塊。比如一組位于最高頻域的全0系數(shù)塊構(gòu)成一個(gè)狀態(tài)(如圖4(a));而另一組位于最低頻域的全非0系數(shù)塊則構(gòu)成另一個(gè)狀態(tài)(如圖4(b))。更普遍地,一個(gè)狀態(tài)則由部分0系數(shù)和非0系數(shù)隨意地構(gòu)成(如圖3(c))。作為對量化后的變換域DCT系數(shù)進(jìn)行熵編碼,ABE方法通過si-1→si方式的變換以提高傳遞概率P(si|si-1),實(shí)現(xiàn)橫貫變換域的方式進(jìn)行掃描。變換過程中的初始狀態(tài)s0可能是一個(gè)位于高頻域且包含0的大系數(shù)塊,或者是一個(gè)位于低頻域且包含非0的大系數(shù)塊,分別如圖4(b)和圖4(a)所示。這些全0或全1的初始狀態(tài)能夠方便地通過一整數(shù)數(shù)值的廣義半徑實(shí)現(xiàn)編碼,該廣義半徑的方法較塊尾(EOB)方法更為有效且廣泛應(yīng)用于現(xiàn)有壓縮標(biāo)準(zhǔn)中。二維變換域的橫貫式掃描過程中的中間狀態(tài)由位于當(dāng)前掃描區(qū)域首部的連續(xù)的0系數(shù)或非0系數(shù)組成。通過對相鄰狀態(tài)的變換進(jìn)行上下文統(tǒng)計(jì)建模,ABE方法實(shí)現(xiàn)對變換域的特殊方向(大部分為徑向)上相關(guān)性的利用。由于變換系數(shù)的方向性與圖像塊中的方向特征緊密相關(guān),當(dāng)兩個(gè)相鄰的狀態(tài)si和si-1是同一類型并且方向相同時(shí),其傳遞概率P(si|si-1)將表現(xiàn)得更高。通過利用該規(guī)律,ABE方法可以在橫貫式掃描過程中或壓縮變換系數(shù)時(shí)實(shí)現(xiàn)自適應(yīng)的方向狀態(tài)變換,如圖4所示。對變換系數(shù)進(jìn)行遍歷的推進(jìn)方向可以是單向的:從高頻到低頻或者從低頻到高頻,但也可以是雙向的,即從高頻和低頻分別向中頻推進(jìn)最終匯合。圖5是這三種遍歷方式的示意。通過合理地選擇馬爾可夫狀態(tài)并實(shí)施高概率變換,ABE方法可以與基于上下文的匹配熵編碼器相結(jié)合,以更短的碼長對變換系數(shù)進(jìn)行編碼。實(shí)施例2圖像壓縮應(yīng)用本實(shí)施例包括以下步驟:第一步、對于輸入圖像進(jìn)行系數(shù)變換;所述的系數(shù)變換可采用DCT變換或KLT(Karhunen-Loeve)變換,或采用現(xiàn)有已知其他變換方法與以下遍歷方式進(jìn)行組合,經(jīng)實(shí)驗(yàn)核實(shí)均可以達(dá)到與本實(shí)施例及圖7中所示相近似的效果。所述的系數(shù)變換還可以附加量化處理;第二步、對變換系數(shù)進(jìn)行基于上下文的建模并確定初始狀態(tài)s0;本實(shí)施例中的初始狀態(tài)采用廣義半徑的方式編碼,該初始狀態(tài)可以是以下任意一種:i)聚集于最低頻域的若干數(shù)值為1的系數(shù)塊,如圖5(a)所示;ii)聚集于最高頻域的若干數(shù)值為0的系數(shù)塊,如圖5(b)所示;iii)上述i)和ii)的組合,如圖5(c)所示。第三步、在線或離線地以二維馬爾科夫過程對當(dāng)前狀態(tài)si-1的所有可能傳遞概率P(si|si-1)進(jìn)行計(jì)算和比較,并基于其中的最大值作為下一個(gè)狀態(tài)si。第四步、對第三步得到的下一個(gè)狀態(tài)si,用傳遞概率P(si|si-1)去驅(qū)動(dòng)熵編碼器,輸出狀態(tài)si所對應(yīng)的變化系數(shù)的輸出碼,然后返回第三步根據(jù)新的狀態(tài)重新進(jìn)行計(jì)算和比較,直至遍歷完所有變換系數(shù)并得到所有輸出碼組成的完整碼流。上述步驟中i為1至二維馬爾可夫過程中的狀態(tài)總數(shù);如初始狀態(tài)的個(gè)數(shù)多于1個(gè),則可以采用如圖5(c)的方式實(shí)現(xiàn)兩個(gè)以上方向上的同時(shí)遍歷以提高編碼速度。在本應(yīng)用中,涉及上述方法的實(shí)現(xiàn)系統(tǒng),包括:變換模塊、自適應(yīng)塊進(jìn)化(ABE)模塊和熵編碼模塊,其中:變換模塊,對圖像進(jìn)行如DCT或KLT的系數(shù)變換;ABE模塊,對變換模塊輸出的變換系數(shù)進(jìn)行基于上下文的建模,并按照自適應(yīng)方式逐步選擇最高轉(zhuǎn)移概率P(si|si-1)對應(yīng)狀態(tài)進(jìn)行馬爾科夫過程的跳轉(zhuǎn),最終遍歷所有系數(shù),同時(shí)在遍歷過程中將P(si|si-1)依次輸出至熵編碼模塊以驅(qū)動(dòng)熵編碼器。熵編碼模塊,根據(jù)ABE模塊逐步輸出的傳遞概率對變換系數(shù)進(jìn)行熵編碼并輸出。所述的變換模塊可附帶有量化處理功能;所述的基于上下文的建模是指:將變換域中的一個(gè)或一組相鄰且相關(guān)的系數(shù)作為二維馬爾科夫過程的狀態(tài),以最低頻率系數(shù)和/或最高頻率系數(shù)為參照點(diǎn),聚集在一起的具有相同或相近數(shù)值且相近頻率的系數(shù)群所構(gòu)成的系數(shù)塊作為模型的初始狀態(tài)。所述的自適應(yīng)方式是指:從基于上下文的模型的初始狀態(tài)起,計(jì)算其所有下一個(gè)可能狀態(tài)之間的傳遞概率,并基于其中的最高值選擇下一個(gè)狀態(tài)。本實(shí)施例采用如圖6所示的38幅常用測試圖像來驗(yàn)證實(shí)施實(shí)例1所述ABE系統(tǒng)的編碼性能。每幅圖像首先經(jīng)過8x8的DCT變換,然后采用不同的量化步長分別對DCT系數(shù)的顯著圖(significantmap)進(jìn)行編碼。作為比較,我們選用當(dāng)前效果最好的H.264編碼器,來對相同的顯著圖來進(jìn)行編碼,為了客觀比較兩種方法,熵編碼模塊均采用H.264編碼器默認(rèn)的自適應(yīng)二元算術(shù)編碼器CABAC。并且,所有上下文的初始概率都設(shè)置為0.5。需要說明的是,在本實(shí)例中,ABE編碼系統(tǒng)采用的上下文(context)數(shù)目是H.264的三倍(378vs126),所以ABE系統(tǒng)的上下文稀釋(contextdilution)懲罰更為嚴(yán)重。因此,該初始化設(shè)置方式其實(shí)更有利于H.264編碼系統(tǒng)。我們比較兩種編碼方式最終所生成碼流長度的相對比值:γ=(L264-LABE)/L264,其中,LABE表示ABE編碼系統(tǒng)生成的碼流長度,L264表示H.264系統(tǒng)生成的碼流長度。不同圖像的在不同碼率下的γ如圖7所示,從圖中可以看出,與H.264相比,ABE編碼系統(tǒng)明顯更為高效,尤其當(dāng)碼率升高時(shí),ABE編碼系統(tǒng)的優(yōu)勢更為明顯。此外,經(jīng)測試表明,ABE系統(tǒng)對其他系數(shù)變換,如KLT變換等,以及采用其他現(xiàn)存熵編碼器,如JPEG2000所采用的MQ編碼器,以及霍夫曼編碼器等,都可達(dá)到類似于圖7的性能提升。