基于結構相似度的感知視頻編碼方法和系統(tǒng)的制作方法

文檔序號：7991371閱讀：231來源：國知局

基于結構相似度的感知視頻編碼方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明是一種用于視頻編碼的系統(tǒng)和方法。所述視頻編碼系統(tǒng)可以涉及基于結構相似度的相除歸一化方法，其中所述當前幀的所述幀預測殘差可以轉化為一組系數和相除歸一化機制可用于歸一化每個系數。所述歸一化因子可設計以反映或粗略估算結構相似度定義中的正規(guī)化因子。相除歸一化系數的RDO的拉格朗日參數可由量化步距和系數的先驗分布函數。本發(fā)明通?？捎糜诟纳平獯a視頻的感知質量而不增加數據碼率，或者降低壓縮視頻流的數據碼率而不犧牲解碼視頻的感知質量。本發(fā)明顯著改善MPEG4/H.264AVC和HEVC編碼方案的編碼效率。本發(fā)明可以用于創(chuàng)建兼容于現有技術和最新的視頻編碼標準（如MPEG4/H.264AVC和HEVC）的視頻代碼。本發(fā)明還可以用于創(chuàng)建不兼容現有標準的編解碼器，從而進一步提高了編碼增益。
【專利說明】基于結構相似度的感知視頻編碼方法和系統(tǒng)
[0001]相關申請的交叉引用
[0002]本申請要求于2011年6月I日提交的專利號為US61/492，081美國分案申請以及于2011年8月15日提交的專利號US61/523，610的美國分案申請的優(yōu)先權，其全部內容通過引用結合在本申請中。
【技術領域】
[0003]本發(fā)明主要涉及視頻編碼，尤其涉及一種基于結構相似度的視頻編碼來提高解碼后的視頻感知質量而不增加數據碼率，或者降低壓縮視頻流的數據碼率而不會犧牲解碼后的視頻的感知質量。
【背景技術】
[0004]在數字圖像應用的各個環(huán)節(jié)，如采集，處理，壓縮，存儲，傳輸和再現過程中都會造成各種失真，任何一個過程都可以導致視覺質量的下降。由于圖像最終是供用戶觀看的，量化視覺圖像質量最可靠的方法是通過主觀評價。然而在實踐中，主觀評價通常是不太方便，耗時和昂貴的?？陀^圖像質量度量可以自動預測感知圖像質量。最簡單且最廣泛使用的質量度量方法是通過計算失真及參考圖像像素的均方差(MSE)和相關峰值信噪比(PSNR)。但是這些方法經過驗證都不能很好的匹配感知視覺質量。在過去的十幾年中，大量的努力付出在開發(fā)先進的質量評估方法。其中的結構相似指數(SSIM)方法在復雜性和質量預測準確性之間取得了一個很好的權衡，已成為被學術研究人員和行業(yè)實施者最廣泛認可的圖像/視頻質量測量方法。總而言之，視頻編碼通常需要在數據碼率R和允許的失真值D之間取得一個最好的權衡?，F有的視頻編碼技術使用絕對差之和(SAD)或平方差之和(SSD)作為失真值D的模型，然而這種方法因其較差的感知圖像質量的相關性在文獻中被廣泛批判。其他方法也試圖定義基于D的SSIM和優(yōu)化碼率SSIM用于視頻編碼。
[0005]鑒于此，需要提供一種改進的方案，以解決上述的問題。

【發(fā)明內容】

[0006]在一方面，本發(fā)明涉及了一種使用結構相似度相除歸一化機制的感知視頻編碼方法來改善視頻編碼方案，包括MPEG/H.264 AVC標準和高效率視頻編碼HEVC。
[0007]另一方面，本發(fā)明涉及一種使用相除歸一化法的感知視頻編碼方法，包括以下步驟:在當前幀的編碼過程中，從一個或多個先前編碼的幀的預測中，減掉視頻的當前幀，得到一個預測殘差；變換所述預測殘差形成一系列系數；使用相除歸一化機制歸一化各個系數；對歸一化的系數進行率失真優(yōu)化，量化和熵編碼。
[0008]在另一方面，本發(fā)明涉及一種適應于各個變換系數的相除歸一化因子的計算，通過利用像素，或變換域，或兩者的信息，和至少如下任意一項信息，反映或粗略估計結構相似度指標中的歸一化因子:編碼的原始當前幀；先前編碼的相鄰幀在解碼后的版本；從先前編碼幀預測出來的當前幀；和預測殘差。在又一個方面，本發(fā)明涉及在相除歸一化變換領域的率失真(RDO)優(yōu)化，其中最優(yōu)拉格朗日參數由量化步距和變換系數的先驗分布確定。
[0009]在又一個方面，本發(fā)明涉及一種感知視頻編碼方法，包括如下步驟:在當前幀的編碼過程中，從一個或多個先前編碼的幀的預測中，減去視頻的當前幀，得到一個預測殘差；變換所述預測殘差形成一系列系數；使用相除歸一化機制歸一化各個系數；對歸一化的系數進行碼率-失真優(yōu)化，量化和熵編碼，還包括如下步驟:利用相除歸一化機制，通過確定一個相除歸一化因子來歸一化各個系數；通過利用像素，或變換域，或兩者中都存在的信息，和至少如下任意一項信息，粗略估計結構相似度指標中的歸一化因子:編碼的原始當前幀；一個或多個所述編碼的相鄰幀和當前幀解碼后的版本；當前幀對于一個或多個先前編碼幀的預測殘差；和當前幀的預測殘差；還包括如下步驟:在當前幀中，通過在相應的一個或多個先前編碼幀或當前幀的預測的能量中使用一個比例因子，來確定一個基于當前幀中AC系數估算的能量的相除歸一化系數。在一個實施例中，所述方法還包括，通過為每個MB/變換單位(TU)分割基于結構相似度的相除歸一化因子，使其在所述整個幀中成為大小相同的小塊，計算每個MB/變換單位(TU)的基于結構相似度的相除歸一化因子，之后計算每個MB/TU內所有小塊相除歸一化因子的平均值。
[0010]在另一個實施例中，所述方法還包括為根據所述整個被編碼幀的局部基于結構相似度的相除歸一化因子的預期值，為每個MB/TU歸一化一個局部基于結構相似度的相除歸
一化因子。
[0011]在另一個實施例中，所述方法還包括根據所述視頻幀的局部內容，調整相除歸一化因子，其中所述內容可以由局部復雜性度量計算為局部對比度，局部能量，或局部信號活動。在另一個實施例中，所述方法還包括在空間上使各個TU適應基于結構相似度的相除歸一化因子計算，其可以為在空間中可變大小的塊。
[0012]在一個實施例中，本發(fā)明可以兼容當前和未來的(例如，最先進的MPEG4/H.264AVC標準，以及即將推出的高效視頻編碼或HEVC編解碼器)來顯著提高其編碼效率。在另一個實施例中，當標準兼容性沒有要求時，本發(fā)明可以通過修改當前和未來的視頻編碼標準(例如，最先進的PEG4/H.264 AVC標準，以及即將推出的HEVC編解碼器)，使編碼效率提高到更高的水平。
[0013]在此方面，在詳細說明本發(fā)明的至少一個實施例前，應當理解，本發(fā)明并不限于應用到如下描述中或其舉例中或附圖中所示的構造的細節(jié)和元件的排列。本發(fā)明可以應用到其他實施例并且通過各種形式實行。另外，應當理解本文所采用的措辭和術語是出于描述的目的，而不應被視為限制。
【專利附圖】

【附圖說明】
[0014]為了更好的理解本發(fā)明、更清楚的說明本發(fā)明的目的，下面將結合具體實施例對本發(fā)明做進一步描述。對本發(fā)明的描述參考如下所述的附圖，其中:
[0015]圖1是本發(fā)明實施例中在預測視頻編碼中相除歸一化結構流程的示意圖。
[0016]圖2是本發(fā)明一個實施例中的所述系統(tǒng)的系統(tǒng)示意圖。
[0017]圖3是本發(fā)明實施例中在預測視頻解碼中相除歸一化結構流程的示意圖。
[0018]圖4是本發(fā)明實施例中作為能量補償因子(縱軸)和量化步距Qs(橫軸)的函數之間關系的曲線圖。[0019]圖5是一個視頻幀中針對不同宏塊的計算的相除歸一化因子的視覺舉例圖。
[0020]圖6是本發(fā)明實施例中最優(yōu)拉格朗日參數λ作為拉普拉斯分布參數Λ和量化Qstep的函數的曲線圖。
[0021]圖7a是本發(fā)明和現有技術中標準測試視頻序列NewsOQCIF使用的MPEG4/H.264AVC編碼方式的碼率-SSIM(結構相似度)的性能比較曲線圖。
[0022]圖7b是本發(fā)明和現有技術中標準測試視頻序列Bus@CIY使用的MPEG4/H.264AVC編碼方式的碼率_SSIM(結構相似度)的性能比較曲線圖。
[0023]圖7c是本發(fā)明和現有技術中標準測試視頻序列ParisOCIF使用的MPEG4/H.264AVC編碼方式的碼率-SSIM(結構相似度)的性能比較曲線圖。
[0024]圖7d是本發(fā)明和現有技術中標準測試視頻序列Parkrun@720p使用的MPEG4/H.264 AVC編碼方式的碼率_SSM(結構相似度)的性能比較曲線圖。
[0025]圖8a是本發(fā)明和現有技術中標準測試視頻序列AkiyoOQClF使用的MPEG4/H.264AVC編碼方式的碼率-SSIM(結構相似度)的性能比較曲線圖。
[0026]圖8b是MPEG4/H.264 AVC編碼方式和本發(fā)明中使用的標準測試視頻序列TempeteiCIF的碼率-SSMw的性能比較曲線圖。
[0027]圖8c是MPEG4/H.264AVC編碼方式和本發(fā)明中使用的標準測試視頻序列WaterfalliClF的碼率-SSMw的性能比較曲線圖。
[0028]圖8d是MPEG4/H.264AVC編碼方式和本發(fā)明中使用的標準測試視頻序列Nighti720p的碼率-SSMw的性能比較曲線圖。
[0029]圖9是一種可以為本發(fā)明實施例實踐提供合適運算環(huán)境的通用計算機設備。
[0030]在附圖中，本發(fā)明的實施例通過舉例的方式示出。但是應當清楚地理解，說明書和附圖僅用于說明的目的，并作為對理解的幫助，并且不旨在作為對本發(fā)明的限制的定義。
【具體實施方式】
[0031]如上所述，本發(fā)明涉及一種視頻編碼的系統(tǒng)、方法及計算機程序產品。
[0032]在一方面，本發(fā)明的系統(tǒng)和方法使用了一種基于結構相似度(SSIM)的相除歸一化機制來改進視頻編碼方案，其中的例子包括MPEG/H.264AVC標準和高效率的視頻編碼(HEVC)。在一個基于SSIM的相除歸一化方法中，所述當前幀的幀預測殘差可以變換成一組系數，并且相除歸一化機制可以用于歸一化每個系數。歸一化因子可設計成反映或粗略估計SSIM定義的歸一化因子。用于相除歸一化系數的率失真優(yōu)化(RDO)的拉格朗日參數可以由量化步距和先驗分布函數來確定。本發(fā)明一般可用于提高解碼后的視頻感知質量而不增加數據碼率，或者降低壓縮視頻流的數據碼率而不會犧牲解碼后的視頻的感知質量。
[0033]在本發(fā)明的一個實施例中，所述視頻編碼系統(tǒng)可能涉及到一種預測編碼方案，其中在對當前幀進行編碼過程中，可以通過在一個或多個先前編碼的幀的預測中減去當前幀來得到一個預測殘差。所述預測殘差可以變換形成一系列系數，例如DCT系數。一種相除歸一化機制可以用來歸一化每個系數。所述歸一化系數可以設計成反映或粗略估計在SSIM度量中的歸一化因子。為相除歸一化系數進行RDO的拉格朗日參數可以由量化步距和/或先驗分布函數來確定。量化和熵編碼可以應用到歸一化系數，以產生壓縮的視頻流。本發(fā)明一般可用于提高解碼后的視頻感知質量而不增加數據碼率，或者降低壓縮視頻流的數據碼率而不會犧牲解碼后的視頻的感知質量。
[0034]一般情況下，相除歸一化是公認的感知和統(tǒng)計動力非線性圖像表示模型。其是在人類視覺系統(tǒng)中為實現掩蔽效應的一種有用的幀，是指在一個大的相鄰元件中降低圖像分量的能見度。它也在為生物感知系統(tǒng)的許多神經元的反應的建模中起了重要作用。現有技術中的視頻編碼技術沒有很好的將SSIM運用到使用相除歸一化方法的視頻編碼幀中。如本文所述，本發(fā)明將SSIM運用到了使用相除歸一化方法和配套系統(tǒng)的視頻編碼幀中。
[0035]所述SSIM指數可以通過更好的代表感知圖像質量提供好處和優(yōu)勢。一個質量被評估的圖像信號可以代表無失真的參考信號和誤差信號的總和?，F有技術的方法可以客觀地量化誤差信號的強度。然而，兩幅失真的圖像可以有相同的誤差信號，但是可以有不同類型的隨可見性而變化的誤差。因此，現有技術的圖像質量評估系統(tǒng)有一些明顯的限制，因為這些系統(tǒng)是自下而上的復雜辦法，其依靠一批籠統(tǒng)的假設和概括。使用SSIM指數可以用自上而下的方法來認識到，人類的視覺系統(tǒng)可以更好的適應于從其視場中提取結構信息。通過一種結構信息變化措施，SS頂指數提供了一種近似感知的圖像失真。因此，圖像失真的方差可以由SSIM指數識別，而這些圖像失真的方差是無法通過現有技術的方法和系統(tǒng)進行識別的。
[0036]可以在任一象素或變換域定義所述SSM措施。在像素域中，兩組像素之間的SSM可以是下列一個或多個元件:(i)[兩組像素的平均強度值的乘積加上一個常數]與[一個或一組平均強度平方值的總和加上一個常數]的比值；(ii)[兩組像素的標準偏差值的乘積加上一個常數]與[基于一個或兩組像素方差總和的信號能量加一個常數]的比值；或者(iii)[兩組像素強度的互關聯(lián)加上一個常數]與[兩組像素的標準偏差的乘積加上一個常數]的比值。SSIM的標準定義是以下三項的乘積。
【權利要求】
1.一種利用基于結構相似性的相除歸一化法的感知視頻編碼的計算機實施方法，包括:在當前幀的編碼過程中，從一個或多個先前編碼的幀的預測中減去視頻的當前幀，得到一個預測殘差；變換所述預測殘差形成一系列系數；使用相除歸一化機制歸一化各個系數；對歸一化的系數進行碼率-失真優(yōu)化，量化和熵編碼。
2.如權利要求1所述的方法，進一步包括:利用相除歸一化機制，通過確定一個相除歸一化因子歸一化各個系數；利用像素，或變換域，或兩者中的信息，和至少如下任意一項信息，粗略估計結構相似度指標中的歸一化因子: (i)編碼的當前幀； (ii)所述一個或多個先前編碼的相鄰幀和當前幀解碼后的版本； (iii)所述一個或多個先前編碼幀的的當前幀的預測殘差；和 (iv)所述當前幀的預測殘差。
3.如權利要求2所述的方法，進一步包括:在當前幀中，通過在相應的一個或多個先前編碼幀或當前幀的預測的能量中使用一個比例因子，確定一個基于當前幀中AC系數估算的能量的相除歸一化系數。
4.如權利要求2所述的方法，進一步包括:利用所述相除歸一化因子自適應調整量化參數(QP)值以提高編碼效率。
5.如權利要求4所述的方法，進一步包括:將所述QP值量化為整數以使所述編碼解碼器兼容 MPEG4H.264AVC 和 HEVC。
6.如權利要求1所述的方法，進一步包括:對歸一化的系數進行碼率-失真優(yōu)化，其中拉格朗日參數由近似模型或者包括一個或多個輸入變元的查找表確定，該輸入變元包括下面至少一項:量化步距和歸一化系數先驗分布函數的一個或多個參數。
7.如權利要求1所述的方法，進一步包括:根據所述視頻幀的局部內容調整所述相除歸一化因子，其中局部內容用作為局部對照，局部能量或者局部信號活動度計算的局部復雜度側度來表征。
8.如權利要求3所述的方法，進一步包括:空間自適應調整每個轉換單元(TU)的所述相除歸一化因子，其中，該轉換單元可以是在空間上具有可變尺寸的塊。
9.如權利要求6所述的方法，進一步包括:在整幀中將所述TU分割成相同尺寸的小塊并且求在TU內所有小塊的所述相除歸一化因子的平均值。
10.如權利要求6所述的方法，進一步包括:根據所述整個被編碼幀的局部相除歸一化因子的預期值，為每個TU歸一化局部相除歸一化因子。
11.一種利用基于結構相似度的相除歸一化法的感知視頻編碼計算機實施系統(tǒng)，其中，該系統(tǒng)用于: 在當前幀的編碼過程中，從一個或多個先前編碼的幀的預測中減去視頻的當前幀，得到一個預測殘差；變換所述預測殘差形成一系列系數；使用相除歸一化機制歸一化各個系數；對歸一化的系數進行碼率-失真優(yōu)化，量化和熵編碼。
12.如權利要求1所述的系統(tǒng)，其中，該系統(tǒng)進一步用于:利用相除歸一化機制通過確定所述相除歸一化機制歸一化每個系數；并且，利用像素或轉換域或兩者的信息粗略估計結構相似度指標中的歸一化因子，其中該信息包括下面其中之一: (i)編碼的當前幀； (ii)所述一個或多個先前編碼的相鄰幀和當前幀解碼后的版本； (iii)所述一個或多個先前編碼幀的的當前幀的預測殘差；和 (iv)所述當前幀的預測殘差。
13.如權利要求12所述的系統(tǒng)，其中，該系統(tǒng)進一步用于在當前幀中，通過在相應的一個或多個先前編碼幀或當前幀的預測的能量中使用一個比例因子，確定一個基于當前幀中AC系數估算的能量的相除歸一化系數。
14.如權利要求12所述的系統(tǒng)，其中，該系統(tǒng)進一步用于利用所述相除歸一化因子自適應調整量化參數(QP)值以提高編碼效率。
15.如權利要求14所述的系統(tǒng)，其中，該系統(tǒng)進一步用于將所述QP值量化為整數以使所述編碼解碼器兼容MPEG4H.264AVC和HEVC。
16.如權利要求11所述的系統(tǒng)，其中，該系統(tǒng)進一步用于對歸一化的系數進行碼率-失真優(yōu)化，其中拉格朗日參數由近似模型或者包括一個或多個輸入變元的查找表確定，該輸入變元包括下面至少一項:量化步距和歸一化系數先驗分布函數的一個或多個參數。
17.如權利要求11所述的系統(tǒng)，其中，該系統(tǒng)進一步用于根據所述視頻幀的局部內容調整所述相除歸一化因子，其中本地內容用作為局部對照，局部能量或者局部信號活動度計算的局部復雜度側度來表征。
18.如權利要求13所述的系統(tǒng)，其中，該系統(tǒng)進一步用于空間自適應調整每個轉換單元(TU)的所述相除歸一化因子，其中，該轉換單元可以是在空間上具有可變尺寸的塊。
19.如權利要求16所述的系統(tǒng)，其中，該系統(tǒng)進一步用于在整幀中將所述TU分割成相同尺寸的小塊并且求在TU內所有小塊的所述相除歸一化因子的平均值。
20.如權利要求16所述的系統(tǒng)，其中，該系統(tǒng)進一步用于根據所述整個被編碼幀的局部相除歸一化因子的預期值，為每個TU歸一化局部相除歸一化因子。
21.一種非瞬時性計算機可讀介質，存儲有計算機編碼，其中，當在計算機設備上執(zhí)行計算機編碼時，使得所述計算機裝置執(zhí)行如權利要求1-10的方法。
【文檔編號】H04N19/61GK103918271SQ201280037758
【公開日】2014年7月9日申請日期:2012年5月29日優(yōu)先權日:2011年6月1日
【發(fā)明者】王舟, 阿布杜爾·雷曼申請人:王舟, 阿布杜爾·雷曼

完整全部詳細技術資料下載