視頻編碼方法和裝置的制作方法

文檔序號：7634047閱讀：204來源：國知局

專利名稱：視頻編碼方法和裝置的制作方法
技術領域：
本發(fā)明涉及視頻編碼器及其視頻編碼方法，因此并特別地，但并非專用地，涉及根據(jù)H.264/AVC視頻編碼標準進行視頻編碼的系統(tǒng)。
背景技術：
近年來，數(shù)字存儲的使用和視頻信號的分配已經(jīng)變得越來越普遍。為了減少傳輸數(shù)字視頻信號所需的帶寬，眾所周知地使用包括視頻數(shù)據(jù)壓縮的有效數(shù)字視頻編碼，因而可以充分地減少數(shù)字視頻信號的數(shù)據(jù)率。
為了確保互操作性，視頻編碼標準已經(jīng)在對許多專業(yè)人員和消費者應用采取數(shù)字視頻的推動當中扮演了一個關鍵的角色。傳統(tǒng)上不是國際電信同盟(ITU-T)就是ISO/IEC(國際標準化組織/國際電工技術委員會)委員會的MPEG(運動圖像專家組)來開發(fā)最有影響的標準。通常所建議的ITU-T標準典型地針對實時通信(例如，視頻會議)，同時多數(shù)MPEG標準適用于存儲(例如，數(shù)字通用盤(DVD))和廣播(例如，數(shù)字視頻廣播(DVB)標準)。
目前，最廣泛使用的視頻壓縮技術之一是公知的MPEG-2(運動圖像專家組)標準。MPEG-2是基于壓縮方案的一個塊，其中幀被分為每個包括8個垂直像素和8個水平像素的多個塊。對于亮度數(shù)據(jù)的壓縮，緊隨量化使用離散余弦變換(DCT)來單獨壓縮每個塊，所述量化將所轉換數(shù)據(jù)值的有效數(shù)減少到零。對于色度數(shù)據(jù)的壓縮，通常首先通過下采樣來減少色度數(shù)據(jù)量，以便對于每四個亮度塊，獲得兩個色度塊(4:2:0格式)，使用DCT和量化來類似地壓縮它們。僅基于幀內(nèi)壓縮的幀被認為是內(nèi)幀(I幀)。
除幀內(nèi)壓縮之外，MPEG-2使用幀間壓縮來進一步減少數(shù)據(jù)率。幀間壓縮包括基于預先解碼和重構幀的預測幀(P幀)的生成。此外，MPEG-2使用運動估計，其中通過使用運動矢量來簡單地傳送在隨后幀中在不同位置上找到的一幀的宏塊的圖像。運動估計數(shù)據(jù)通常是指在運動估計處理期間所應用的數(shù)據(jù)。執(zhí)行運動估計以確定用于運動補償或等價地用于幀間預測處理的參數(shù)。在例如由諸如MPEG-2和H.264這樣的標準所規(guī)定的基于塊的視頻編碼中，運動估計數(shù)據(jù)典型地包括候選運動矢量、預測塊大小(H.264)、參考圖響的選擇或，等價地，用于某一宏塊的運動估計類型(后向、前向或雙向)，在其中做出一個選擇以形成實際被編碼的運動補償數(shù)據(jù)。
作為這些壓縮技術的結果，標準TV演播室廣播質(zhì)量水平的視頻信號能夠以大約2-4Mbps的數(shù)據(jù)率傳輸。
近來，出現(xiàn)了新的ITU-T標準，通常所說的H.26L。與當前諸如MPEG-2這樣的標準相比，H.26L正以它優(yōu)良的編碼效率得到廣泛的認可。雖然H.26L的增益通常與圖像尺寸成比例地減少，但是在廣泛范圍應用中采用它的潛力是毫無疑問的。這個潛力已經(jīng)通過聯(lián)合視頻組(JVT)研討會的設立得到認可，其負責最終確定H.26L作為新的聯(lián)合ITU-T/MPEG標準。新的標準被認為是H.264或MPEG-4AVC(高級視頻編碼)。進一步地，基于H.264的解決方案正被諸如DVB和DVD研討會這樣的其他標準化實體考慮。
H.264/AVC標準應用了相同的基于塊的運動補償?shù)幕旌献儞Q編碼的原理，它們是從已建立的諸如MPEG-2這樣的標準中得知的。因此，用常見的首標分級結構來組織H.264/AVC語法，諸如圖像-、片-、和宏塊首標、和數(shù)據(jù)，諸如運動矢量、塊變換系數(shù)、量化等級等等。然而，H.264/AVC標準分離表示視頻數(shù)據(jù)內(nèi)容的視頻編碼層(VCL)和格式化數(shù)據(jù)并提供首標信息的網(wǎng)絡適配層(NAL)。
進一步地，H.264/AVC允許大量增加編碼參數(shù)的選擇。例如，它允許更細致的分割和宏塊的手動處理，由此例如，能夠在如4×4大小的宏塊中的16×16亮度塊的分段上執(zhí)行運動補償處理。另外，更有效的擴展可能是對宏塊預測采用可變塊大小。因此，可以將宏塊(仍然是16×16象素)分割為多個更小的塊，并可以單獨地預測這些子塊中的每一個。因此，不同的子塊可以有不同的運動矢量，并可以從不同的參考圖像中重新獲得。同樣，對于采樣塊的運動補償預測的選擇處理可以包含多個已存儲的、預先解碼的圖像(也稱為幀)，而不僅僅是相鄰圖像(或幀)。同樣，可以基于4×4塊大小而不是傳統(tǒng)的8×8大小來變換和量化緊接著運動補償而引起的預測誤差。
由H.264所引入的進一步增強是有可能在單一幀(或圖像)內(nèi)進行空間預測。依據(jù)該增強，有可能使用從相同幀中預先解碼的采樣來形成塊預測。
數(shù)字視頻標準的出現(xiàn)以及在數(shù)據(jù)和信號處理中的技術進步已經(jīng)允許在視頻處理和存儲裝置中執(zhí)行附加功能。例如，近些年已看到在視頻信號內(nèi)容分析領域中進行的重要研究。這樣的內(nèi)容分析允許視頻信號內(nèi)容的自動確定或估計。已確定的內(nèi)容可以用于向用戶提供包括內(nèi)容項的濾波、分類或組織這樣的功能。例如，近年來，來自諸如TV廣播的可用視頻內(nèi)容中的可用性和可變性已經(jīng)得到充分提高，并且內(nèi)容分析可以用于將可用內(nèi)容自動濾波并組織到合適的分類中。進一步地，響應內(nèi)容檢測，可以改變視頻裝置的操作。
內(nèi)容分析可以基于視頻編碼參數(shù)，以及有意義的研究已經(jīng)集中到一種算法，該算法用于執(zhí)行基于特定MPEG-2視頻編碼參數(shù)和算法的內(nèi)容分析。目前，MPEG-2對消費者應用來說是最普遍的視頻編碼標準，從而基于MPEG-2的內(nèi)容分析更可能得到廣泛實施。
作為一個新的視頻編碼標準，諸如H.264/AVC出現(xiàn)了(rolledout)，在許多應用中將需要或希望進行內(nèi)容分析。因此，必須開發(fā)適用于新的視頻編碼標準的內(nèi)容分析算法。這需要有效的研究和開發(fā)，這費時而且成本高。因而，合適的內(nèi)容分析算法的缺乏將延遲或阻礙前導(uptake)新的視頻編碼標準或明顯地減少能夠提供給該標準的功能。
進一步地，為了引入新的內(nèi)容分析算法，將需要替換或更新現(xiàn)存的視頻系統(tǒng)。這將也是高成本的并會延遲新視頻編碼標準的引入?？商鎿Q地，必須引入一個附加裝置，該附加裝置可操作性地繼根據(jù)MPEG-2視頻編碼標準進行再編碼之后根據(jù)新的視頻編碼標準對信號進行解碼。這樣的裝置是復雜的、高成本的，并具有大的計算資源需求。
特別地，許多內(nèi)容分析算法是基于使用離散余弦變換(DCT)系數(shù)，該系數(shù)是從幀內(nèi)編碼的圖像中獲得。這樣的算法例子公開在J.Wang，Mohan S.Kankanhali，Philippe Mulhem，Hadi HassanAbdulredha“Face Detection Using DCT Coefficients in MPEG Video”，In Proc.Int.Workshop on Advanced Image Technology(IWAIT2002)，pp60-70，Hualien，Taiwan，2002年1月，和F.Snijder，P.Merlo“Cartoon Detection Using Low-Level AV Features”，3rdInt.Workshop on Content-Based Multimedia Indexing(CBMI 2003)，Rennes，法國，2003年9月。
特別地，在一個圖像中DCT圖像塊的系數(shù)DC(“直流”)的統(tǒng)計可以直接表示圖像塊亮度的本地特性，其用在許多類型的內(nèi)容分析中(例如，用于膚色檢測)。進一步地，通常在圖像編碼和解碼期間生成用于幀內(nèi)編碼圖像中圖像塊的DCT系數(shù)，所以內(nèi)容分析沒有引起額外的復雜度。
然而，在根據(jù)H.264/AVC標準的幀內(nèi)編碼中，僅對圖像塊和預測塊之間的差差異用DCT變換進行變換。術語DCT變換意圖包括H.264/AVC中不同的編碼塊變換，其包括從DCT變換中獲得的塊變換。因此，由于根據(jù)H.264/AV的DCT被應用于空間預測的余量而不是如先前的標準直接用于圖像塊，因此DC系數(shù)表示預測誤差的平均值而不是被預測的圖像塊的亮度平均值。因此，不能對DCT系數(shù)直接應用基于該DC值的現(xiàn)有內(nèi)容分析算法。
從編碼處理中獨立并分別地生成亮度平均是有可能的，例如，通過在原始圖像塊上額外地執(zhí)行H.264/AVC DCT變換。然而，這需要一個單獨操作并將導致復雜度以及計算資源需求的增加。
因此，改進的視頻編碼將是有利的，并特別地，允許簡化的和/或增加的圖像性能分析和/或簡化的和/或增加的視頻編碼性能的視頻編碼將是有利的。

發(fā)明內(nèi)容
因此，本發(fā)明優(yōu)選地設法緩和、減輕或消除一個或多個上述個別的不利因素或它們的組合。
根據(jù)本發(fā)明的第一方面，提供的一種視頻編碼器包括用于從將被編碼的圖像中生成第一圖像塊的裝置；用于生成多個參考塊的裝置；用于通過對第一圖像塊應用相關圖像變換來生成被變換的圖像塊的裝置；用于通過對多個參考塊中的每一個應用相關圖像變換來生成多個被變換的參考塊的裝置；用于通過確定被變換的圖像塊與多個被變換的參考塊中的每一個之間的差異來生成多個剩余圖像塊的裝置；用于響應多個剩余圖像塊來選擇多個參考塊中的被選擇的參考塊的裝置；用于響應被選擇的參考塊來編碼第一圖像塊的裝置；和用于響應被變換的圖像塊的數(shù)據(jù)來執(zhí)行圖像分析的裝置。
本發(fā)明能夠提供一種用于執(zhí)行圖像分析的方便的、易于實施和/或低復雜度的方式。特別地，用于分析的合適數(shù)據(jù)的生成能夠與選擇用于編碼的合適參考塊的功能集成到一起。因此，達到編碼功能和分析功能之間的協(xié)同效應。特別地，通過對第一圖像塊應用相關圖像變換來生成被變換的圖像塊的結果可以既用于圖像分析，又可以用于編碼圖像。
在一些應用中，可以達到更簡單和/或更合適的實施。例如，如果參考塊在不同的圖像塊之間沒有實質(zhì)上的改變，那么相同的被變換的參考塊可以用于對多個圖像塊中，因而減少復雜度和/或所需的計算資源。在一些應用中，通過首先生成被變換的塊而后生成差異塊而不是首先生成差異塊并且隨后執(zhí)行變換來實現(xiàn)改進的數(shù)據(jù)和/或流結構。
特別地，本發(fā)明允許編碼功能性并尤其是參考塊的選擇響應圖像塊本身的變換而不是剩余圖像塊的變換。這允許變換的結果保留表示圖像塊的信息，其可以用于圖像的適當分析。特別地，被變換的圖像塊可以包括表示相應的DCT變換的DC系數(shù)的數(shù)據(jù)，因而允許大量的現(xiàn)存算法來使用已生成的數(shù)據(jù)。
確定剩余圖像塊可以被確定為被變換的圖像塊的各個分量與多個被變換的參考塊的每一個的各個分量之間的差異。
根據(jù)本發(fā)明的一個特性，相關變換是線性變換。這提供了一個合適的實施例。
根據(jù)本發(fā)明的不同特性，相關變換是Hadamard變換。Hadamard變換是一個特別合適的相關變換，其提供了一個相對低復雜度和計算資源需求的變換，同時生成適合分析和參考塊選擇的變換特性。特別地，Hadamard變換生成合適的DC系數(shù)(系數(shù)表示圖像塊采樣的平均數(shù)據(jù)值)，并典型地，也生成表示應用于相同圖像塊的DCT變換的較高頻率系數(shù)的系數(shù)。進一步地，Hadamard變換與諸如H.264這樣的某些有利編碼方案的建議是兼容的。
根據(jù)本發(fā)明的不同特性，相關變換是這樣的以便被變換的圖像塊的數(shù)據(jù)點與對應的非變換圖像塊的數(shù)據(jù)點的平均值之間具有預定關系。
圖像數(shù)據(jù)點的平均值典型地對執(zhí)行圖像分析特別重要。例如，DCT的DC系數(shù)用在許多分析算法中。DC系數(shù)對應圖像塊的數(shù)據(jù)點的平均值，并通過使用生成對應該值的數(shù)據(jù)點的變換(直接或通過預定關系)，這些分析可以與相關變換一起使用。
根據(jù)本發(fā)明的不同特性，用于執(zhí)行圖像分析的裝置可操作地響應被變換的圖像塊的數(shù)據(jù)來執(zhí)行圖像內(nèi)容分析。
因此，本發(fā)明提供了一種視頻編碼器，其便于組合的內(nèi)容分析和圖像編碼，以及開發(fā)這些功能之間的協(xié)同效應。
根據(jù)本發(fā)明的不同特性，用于執(zhí)行圖像分析的裝置可操作地響應于被變換的圖像塊的DC(直流)參數(shù)來執(zhí)行圖像內(nèi)容分析。DC參數(shù)對應于表示圖像塊的數(shù)據(jù)的平均值的參數(shù)。這提供了一個特別適合的提供高性能的內(nèi)容分析。
根據(jù)本發(fā)明的不同特性，用于生成多個參考塊的裝置可操作地響應于僅僅該圖像的數(shù)據(jù)值來生成參考塊。優(yōu)選地，視頻編碼器可操作地將圖像編碼為幀內(nèi)圖像(intra-image)，即，僅僅通過使用來自當前圖像的圖像數(shù)據(jù)并且沒有使用來自其他圖像(或幀)的運動估計或預測。這允許一個特別有利的實施例。
根據(jù)本發(fā)明的不同特性，第一圖像塊包括亮度數(shù)據(jù)。優(yōu)選地，第一圖像塊僅僅包括亮度數(shù)據(jù)。這提供了一個特別有利的實施例，并且特別地它允許相對低復雜度的分析，同時提供了有效的性能。
優(yōu)選地，第一圖像塊可以包括4乘4的亮度數(shù)據(jù)矩陣。第一圖像塊還可以包括例如16乘16的亮度數(shù)據(jù)矩陣。
根據(jù)本發(fā)明的不同特性，用于編碼的裝置包括確定第一圖像塊與被選擇的參考塊之間的差異塊，并用于通過使用非相關變換來變換差異塊。這提供了改進的編碼質(zhì)量，例如，DCT變換可以用于編碼圖像塊的圖像數(shù)據(jù)。特別地提供了與例如需要使用DCT變換的合適的視頻編碼算法之間的兼容性。
優(yōu)選地，視頻編碼器是一個H.264/AVC視頻編碼器。
根據(jù)本發(fā)明的第二方面，提供了一種視頻編碼方法，該方法包括步驟從將被編碼的圖像中生成第一圖像塊；生成多個參考塊；通過對第一圖像塊應用相關圖像變換來生成被變換的圖像塊；通過對多個參考塊中的每一個應用相關圖像變換來生成多個被變換的參考塊；通過確定被變換的圖像塊與多個被變換的參考塊的每一個之間的差異來生成多個剩余圖像塊；響應多個剩余圖像塊來選擇多個參考塊的被選擇的參考塊；響應被選擇的參考塊來編碼第一圖像塊；響應于被變換圖像塊的數(shù)據(jù)來執(zhí)行圖像分析。
本發(fā)明的這些和其他方面、特征和優(yōu)點將通過參考下文描述的實施例來明了和充分地闡明。

參考附圖、通過僅示例的方式來描述本發(fā)明的實施例。
圖1示出了根據(jù)本發(fā)明一個實施例的視頻編碼器；圖2示出了將被編碼的亮度宏塊；圖3示出了隨后的一個4×4參考塊的圖像采樣；以及圖4示出了用于H.264/AVC不同預測模式的預測方向。
具體實施例方式
下面的描述集中在適合執(zhí)行圖像幀內(nèi)編碼的視頻編碼器、以及特別是H.264/AVC編碼器的本發(fā)明的一個實施例。另外，視頻編碼器包括用于執(zhí)行內(nèi)容分析的功能。然而，應當明白本發(fā)明不限于這個應用，而是可以應用于許多其他類型的視頻編碼器、視頻編碼操作以及其他的分析算法。
圖1表示了根據(jù)本發(fā)明一個實施例的視頻編碼器。特別地，圖1示出了用于執(zhí)行圖像的幀內(nèi)編碼的功能(即，僅基于那個圖像(或幀)本身的圖像信息)。圖1的視頻編碼器依據(jù)H.264/AVC編碼標準來操作。
類似于先前的標準，諸如MPEG-2、H.264/AVC包括用于在幀內(nèi)模式中編碼圖像塊的規(guī)定，即，沒有使用時間預測(基于相鄰圖像的內(nèi)容)。然而，與先前的標準相比，H.264/AVC在圖像內(nèi)提供了空間預測以用于幀內(nèi)編碼。因此，可以從在相同圖像中預先編碼并重構的采樣中生成參考或預測塊P。然后，在編碼前，從實際的圖像塊中減去參考塊P。因此，在H.264/AVC中，可以在幀內(nèi)編碼中生成差異塊，以及隨后通過應用DCT和量化操作來編碼差異塊而不是實際圖像塊。
對于亮度采樣，P被形成用于16×16圖像單元宏塊或其每個4×4子塊。對于每個4×4塊總共有9種可選的預測模式；4種可選模式用于16×16宏塊，以及總是應用于4×4色度塊的一種模式。
圖2表示了將被編碼的亮度宏塊。圖2a描述了原始宏塊以及圖2b顯示了其4×4子塊，其通過使用從已編碼圖像單元的圖像采樣中生成的參考或預測塊來編碼。在該例子中，已經(jīng)預先編碼并重構了子塊上方和左側的圖像采樣，并因此可用于編碼處理(以及將可用于解碼器解碼宏塊)。
圖3示出了隨后的一個4×4參考塊的圖像采樣。特別地，圖3示出了組成了預測塊P(a-p)的圖像采樣的標記和相對位置以及用于生成預測塊P的圖像采樣的標記(A-M)。
圖4示出了用于H.264/AVC不同預測模式的預測方向。對于模式3-8，每一個預測采樣a-p都作為采樣A-M的加權平均值來計算。對于模式0-2，對所有的采樣a-p給出了相同的值，其可以對應采樣A-D(模式2)、I-L(模式1)或A-D和I-L一起(模式0)的平均值。應當明白，存在類似的預測模式用于諸如宏塊這樣的其它圖像塊。
編碼器典型地選擇用于每個4×4塊的預測模式，其最小化塊與對應的預測P之間的差異。
因此，傳統(tǒng)的H.264/AVC編碼器典型地生成用于每個預測模式的預測塊，從將被編碼的圖像塊中減去該預測塊以便生成差異數(shù)據(jù)塊，通過使用合適的變換來變換該差異數(shù)據(jù)塊以及選擇產(chǎn)生最小值的預測塊。差異數(shù)據(jù)典型地被形成為將被編碼的實際圖像塊與對應的預測塊之間的像素方式(pixel-wise)的差異。
應當注意，對于每個4×4塊的幀內(nèi)預測模式的選擇必須用信號通知解碼器，為此目的，H.264定義了一個有效的編碼過程。
由下面可以描述編碼器所使用的塊變換Y＝CXCT(1)其中X是一個N×N圖像塊，Y包含N×N變換系數(shù)，以及C是預定義的N×N變換矩陣。當對圖像塊應用一個變換時，它將生成被稱為變換系數(shù)的加權值矩陣Y，表示在原始圖像中存在多少每個基本功能。
例如，對于DCT變換，產(chǎn)生反映處于不同空間頻率的信號分布的變換系數(shù)。特別地，DCT變換生成對應于基本上為零的頻率的DC(“直流”)系數(shù)。因此，DC系數(shù)對應于已經(jīng)對其應用了變換的圖像塊的圖像采樣的平均值。典型地，DC系數(shù)具有比剩余較高空間頻率(AC)系數(shù)大得多的值。
雖然H.264/AVC沒有規(guī)定用于選擇預測模式的標準化過程，但是推薦一種基于2D Hadamard變換和比率失真(RD)優(yōu)化的方法。根據(jù)該方法，每個差異圖像塊，即，在原始圖像塊與預測塊之間的差異，在被估計(例如，根據(jù)RD標準)以用于選擇之前，通過Hadamard變換來進行變換。
與DCT相比，Hadamard變換更簡單并且是需要更少的計算需求的變換。它進一步地產(chǎn)生通常表示通過DCT可獲得的結果的數(shù)據(jù)。因此，有可能將預測塊的選擇基于Hadamard變換的基礎而不是需要全DCT變換。一旦已經(jīng)選擇了預測塊，那么可以接著通過DCT變換來編碼對應的差異塊。
然而，由于該方法對差異數(shù)據(jù)塊而不是直接對圖像塊應用該變換，因此所生成的信息不表示原始圖像塊而僅僅表示預測誤差。這阻礙了，或至少使基于變換系數(shù)的圖像分析變得復雜。例如，已經(jīng)開發(fā)了基于圖像塊的變換系數(shù)的開發(fā)信息的許多分析算法，因此這些不能直接應用在傳統(tǒng)的H.264/AVC編碼器中。特別是，許多算法是基于表示圖像塊的平均特性的變換的DC系數(shù)。然而，對于典型的H.264/AVC方法來說，DC系數(shù)不表示原始圖像塊，而僅僅表示預測誤差的平均值。
作為一個例子，內(nèi)容分析包括根據(jù)涉及基于視頻信號特性而自動確定視頻內(nèi)容的圖像處理、模式識別以及人工智能的方法。所使用的該特性從諸如顏色和紋理的低水平信號相關特性到諸如臉部的出現(xiàn)和定位的更高水平信號信息進行改變。內(nèi)容分析的這個結果用于各種應用中，諸如商業(yè)廣告探測、視頻預覽的生成、類型分類等等。
目前，許多內(nèi)容分析算法是基于對應于幀內(nèi)編碼圖像的DCT(離散余弦變換)系數(shù)。特別地，用于亮度塊的DC(“直流”)系數(shù)的統(tǒng)計可以直接表示圖像塊亮度的本地特性，并因此它在許多類型的內(nèi)容分析(例如，膚色檢測)中是一個重要的參數(shù)。然而，在傳統(tǒng)的H.264/AVC編碼器中，該數(shù)據(jù)不可用于使用幀內(nèi)預測的圖像塊。因此，不能使用這些算法，或必須獨立生成該信息，導致增加了編碼器的復雜度。
在當前實施例中，建議了一種預測塊選擇的不同方法。直接對圖像塊和預測塊而不是差異數(shù)據(jù)塊應用相關變換。然后可以直接使用圖像塊的變換系數(shù)，從而允許使用基于圖像塊變換系數(shù)的算法。例如，可以應用基于DC系數(shù)的內(nèi)容分析。進一步地，通過從被變換的圖像塊中減去被變換的參考塊來在變換域中生成剩余數(shù)據(jù)塊。因為該變換是相關的，所以操作的順序不是重要的，并且在該變換后執(zhí)行減法而不是在該變換之前執(zhí)行減法不會改變該結果。因此，該方法提供了關于參考塊選擇的相同性能(和這樣的預測模式)，但是也另外生成了作為編碼處理的整體部分的適合于圖像分析的數(shù)據(jù)。
在更詳細的說明中，圖1中的視頻編碼器100包括圖像分割器101，其接收視頻序列的圖像(或幀)以用于幀內(nèi)編碼(即，用于編碼為H.264/AVC的I幀)。圖像分割器101將圖像分割為合適的宏塊，并在本實施例中生成一個將被編碼的特定4×4亮度采樣圖像塊。將參考這個圖像塊的處理來簡短并清楚地進行描述視頻編碼器100的操作。
圖像分割器101被連接到差異處理器103上，該差異處理器103還可以連接到圖像選擇器105上。差異處理器103從圖像選擇器105中接收被選擇的參考塊，并作為響應，通過從原始圖像塊中減去被選擇的參考塊來確定差異塊。
差異處理器103進一步連接到編碼單元107上，該編碼單元107通過依據(jù)H.264/AVC標準執(zhí)行DCT變換和量化該系數(shù)來對差異塊進行編碼。編碼單元可以進一步組合來自差異圖像塊和幀中的數(shù)據(jù)以便生成本領域公知的H.264/AVC比特流。
編碼單元107進一步被連接到解碼單元109上，該解碼單元109從編碼單元107中接收圖像數(shù)據(jù)，并依據(jù)H.264/AVC標準來執(zhí)行該數(shù)據(jù)的解碼。因此，解碼單元109生成對應于將由H.264/AVC解碼器生成的數(shù)據(jù)的數(shù)據(jù)。特別地，當編碼一個給定的圖像塊時，該解碼單元109可以生成對應已被編碼的圖像塊的已解碼的圖像數(shù)據(jù)。例如，解碼單元可以生成圖3中的采樣A-M。
解碼單元109被連接到參考塊生成器111上，該參考塊生成器111接收已解碼數(shù)據(jù)。作為響應，參考塊生成器111生成多個可能的參考塊用于當前圖像塊的編碼。特別地，參考塊生成器111為每個可能的預測模式生成一個參考塊。因此，在特定的實施例中，參考塊生成器111依據(jù)H.264/AVC預測模式來生成九個預測塊。參考塊生成器111被連接到圖像選擇器105上，并將參考塊饋送到其上用于選擇。
參考塊生成器111進一步被連接到第一變換處理器113上，該第一變換處理器113從參考塊生成器111接收參考塊。第一變換處理器113在每個參考塊上執(zhí)行相關變換由此生成被變換的參考塊。應當明白，對于一些預測模式來說，不需要完全實施變換，例如，對于參考塊的所有采樣值都相同的預測模式來說，可以使用一個簡單求和來確定DC系數(shù)而所有其他系數(shù)被設置為零。
在該實施例中，相關變換是線性變換，并特別是Hadamard變換。該Hadamard變換實施簡單，而且是相關的，從而允許在圖像塊被變換之后而不是在變換之前執(zhí)行圖像塊之間的減法。在當前實施例中采用了該事實。
因此，視頻編碼器100進一步包括連接到圖像分割器101上的第二變換處理器115。該第二變換處理器115從圖像分割器101中接收圖像塊，并在圖像塊上執(zhí)行相關變換，以便生成被變換的圖像塊。特別地，第二變換處理器115在圖像塊上執(zhí)行Hadamard變換。
該方法的優(yōu)點在于編碼處理包括對實際圖像塊而不是對剩余或差異圖像數(shù)據(jù)應用變換。因此，被變換的圖像塊包括直接與圖像塊的圖像數(shù)據(jù)相關而不是與它和參考塊之間的預測誤差相關的信息。特別地，Hadamard生成與圖像塊的采樣平均值相關的DC系數(shù)。
因此，第二變換處理器115進一步被連接到圖像分析處理器117。該圖像分析處理器117可操作地用于使用被變換的圖像塊來執(zhí)行圖像分析，并特別地可操作用于使用該圖像塊和其他圖像塊的DC系數(shù)來執(zhí)行內(nèi)容分析。
一個例子是視頻中鏡頭(shot)邊界的檢測(鏡頭可以定義為一個攝像機所拍攝圖像的完整序列)?？梢允褂肈C系數(shù)以便沿著一系列連續(xù)幀來測量DC系數(shù)差異總和的統(tǒng)計。然后將這些統(tǒng)計的變化用于表示內(nèi)容中的潛在過渡，諸如鏡頭切換(shot-cut)。
可以在視頻編碼器中內(nèi)部地使用圖像分析的結果，或例如可以將其傳送給其他單元。例如，內(nèi)容分析的結果可以作為元數(shù)據(jù)包括在已生成的H.264/AVC比特流中，例如通過在H.264/AVC比特流的輔助或用戶數(shù)據(jù)中包括該數(shù)據(jù)。
第一變換處理器113和第二變換處理器115都連接到剩余處理器119，該剩余處理器119通過確定被變換的圖像塊與多個被變換的參考塊的每一個之間的差異來生成多個剩余圖像塊。因此，對于每個可能的預測模式來說，剩余處理器119生成一個剩余圖像塊，該剩余圖像塊包括圖像塊和對應參考塊之間的預測誤差信息(在變換域中)。
由于所應用變換的相關性質(zhì)，所生成的剩余圖像塊等價于通過首先在非變換域中生成差異圖像塊并隨后變換它們所獲得的被變換的差異塊。然而，另外，當前實施例允許生成作為編碼處理整體部分的適合于圖像分析的數(shù)據(jù)。
剩余處理器119被連接到圖像選擇器105，該圖像選擇器105接收已確定的剩余圖像塊。于是，該圖像選擇器105在圖像塊編碼中選擇差異處理器103和編碼單元107所使用的參考塊(以及這樣的預測模式)。選擇標準可以例如是推薦用于H.264/AVC編碼的比率失真(Rate-Distortion)標準。
特別地，比率失真優(yōu)化的目的在于有效地達到對于給定目標比特率的好的解碼視頻質(zhì)量。例如，最佳預測塊不必是給出與原始圖像塊的最小差異的那個，而是達到塊差異大小與考慮數(shù)據(jù)編碼的比特率之間一個好的平衡的那個。特別地，通過將對應剩余塊通過編碼處理的連續(xù)階段，可以估計每個比特率預測。
應當明白，在上述描述中已經(jīng)簡單而清楚地示出了功能的一個特定劃分，但是這不是暗示對應的硬件或軟件劃分，以及任何合適的功能實施都將是同樣合適的。例如，整個的編碼處理可以有利地實施為為一個單一的微處理器或數(shù)字信號處理器的固件。進一步地，第一變換處理器113和第二變換處理器115不必作為并行的不同單元來實施，而是可以通過順序地使用相同的功能來實施。例如，它們可以通過相同的專用硬件或相同的子程序來實施。
依據(jù)所描述的實施例，相關變換用于選擇預測模式。因此，該變換特別地可以滿足下面的標準T(I)-T(R)＝T(I-R)其中T表示該變換，I表示圖像塊(矩陣)，以及R表示參考塊(矩陣)。因此，變換關于減法和加法是相關的。特別地，函數(shù)是線性函數(shù)。
Hadamard變換特別適合當前實施例。Hadamard變換是線性變換，以及Hadamard系數(shù)通常具有類似于對應DCT系數(shù)的特征。尤其是，Hadamard變換生成DC系數(shù)，其表示下面圖像塊中采樣的比例(scaled)平均。進一步地，基于該線性特性，兩個塊的差異的Hadamard變換可以等效地計算為兩個塊Hadamard變換的差異。
特別地，在下面描述了Hadamard變換的相關性質(zhì)設A和B是兩個N×N矩陣，通過從來自A的對應元素中減去來自B的每個元素來獲得A-B剩余，以及C是N×N Hadamard矩陣。通過將這些代入該變換等式Y＝CXCT可以計算對應的Hadamard變換YA、YB、YA-B。現(xiàn)在，目標是證明YA-YB恒等于YA-B。
讓我們簡單地考慮N＝2的情況。那么，我們有A=a11a12a21a22,B=b11b12b21b22,A-B=a11-b11a12-b12a21-b21a22-b22and C=111-1]]>這得到YA=CBCT=111-1a11a12a21a22111-1=a11+a21+a12+a22a11+a21-a12-a22a11-a21+a12-a22a11-a21-a12+a22]]>YB=CBCT=111-1b11b12b21b22111-1=b11+b21+b12+b22b11+b21-b12-b22b11-a21+b12-b22b11-b21-b12+b22]]>YA-B=C(A-B)CT=111-1a11-b11a12-b12a21-b21a21-b22111-1=···=YA-YB]]>證明完畢。
因此，在特定的實施例中，對每個亮度塊和對每個對應預測(參考)塊應用Hadamard變換實現(xiàn)生成既適合內(nèi)容分析又適合選擇用于編碼的預測模式的參數(shù)的相同的操作。
可以以包括硬件、軟件、固件或這些的任何組合的任何合適形式來實施本發(fā)明。然而，特別地，本發(fā)明作為一個運行在一個或多個數(shù)據(jù)處理器和/或數(shù)字信號處理器之上的計算機軟件來實施。可以以任何合適的方式來物理地、功能性地和邏輯地實施本發(fā)明實施例的單元和部件。實際上，可以單個單元、多個單元或作為其他功能單元的部分來實施該功能。因而，可以以單個單元來實施本發(fā)明，或可以在不同的單元和處理器之間物理地和功能性的分布本發(fā)明。
雖然已經(jīng)結合優(yōu)選實施例描述了本發(fā)明，但是這不意味著本發(fā)明限制于在這里所描述的特定形式。相反，僅由附加的權利要求來限制本發(fā)明的范圍。在權利要求中，術語“包括”不是排除其他單元或步驟的出現(xiàn)。進一步地，雖然個別的列出，但是可以通過例如單個單元或處理器來實現(xiàn)多個裝置、單元或方法步驟。此外，雖然各個特征可以包括在不同的權利要求中，但是這些可能被有利地組合，以及在不同的權利要求中包含不是暗示特征的組合是不可行的和/或不利的。此外，單數(shù)引用不排除復數(shù)。因此涉及的“一”、“一個”、“第一”、“第二”等等不排除多個。
權利要求
1.一種視頻編碼器包括用于從將被編碼的圖像中生成第一圖像塊(101)的裝置；用于生成多個參考塊(111)的裝置；用于通過對第一圖像塊應用相關圖像變換來生成被變換的圖像塊(115)的裝置；用于通過對多個參考塊的每一個應用相關圖像變換來生成多個被變換的參考塊(113)的裝置；用于通過確定被變換的圖像塊與多個被變換的參考塊的每一個之間的差異來生成多個剩余圖像塊(119)的裝置；用于響應于多個剩余圖像塊來選擇多個參考塊的被選擇的參考塊(105)的裝置；用于響應于被選擇的參考塊來編碼(103、107)第一圖像塊的裝置；和用于響應于被變換的圖像塊的數(shù)據(jù)來執(zhí)行圖像分析(117)的裝置。
2.如權利要求1所述的視頻編碼器，其中相關變換是線性變換。
3.如權利要求1所述的視頻編碼器，其中相關變換是Hadamard變換。
4.如權利要求1所述的視頻編碼器，其中相關變換是這樣的以便被變換的圖像塊的數(shù)據(jù)點與對應的非變換圖像塊的數(shù)據(jù)點的平均值之間具有預定關系。
5.如權利要求1所述的視頻編碼器，其中用于執(zhí)行圖像分析(117)的裝置可操作用于響應于被變換的圖像塊的數(shù)據(jù)來執(zhí)行圖像的內(nèi)容分析。
6.如權利要求5所述的視頻編碼器，其中用于執(zhí)行圖像分析(117)的裝置可操作用于響應于被變換的圖像塊的DC(直流)參數(shù)來執(zhí)行圖像的內(nèi)容分析。
7.如權利要求1所述的視頻編碼器，其中用于生成多個參考塊(111)的裝置可操作用于響應于僅僅該圖像的數(shù)據(jù)值來生成多個參考塊。
8.如權利要求1所述的視頻編碼器，其中第一圖像塊包括亮度數(shù)據(jù)。
9.如權利要求1所述的視頻編碼器，其中第一圖像塊包括4乘4亮度數(shù)據(jù)矩陣。
10.如權利要求1所述的視頻編碼器，其中用于編碼的裝置(103、107)包括確定第一圖像塊與被選擇的參考塊之間的差異塊(103)和用于使用非相關變換來變換差異塊(107)的裝置。
11.如權利要求1所述的視頻編碼器，其中視頻編碼器是H.264/AVC視頻編碼器。
12.一種視頻編碼方法，包括步驟-從將被編碼的圖像中生成第一圖像塊；-生成多個參考塊；-通過對第一圖像塊應用相關圖像變換來生成被變換的圖像塊；-通過對多個參考塊的每一個應用相關圖像變換來生成多個被變換的參考塊；-通過確定被變換的圖像塊與多個被變換的參考塊的每一個之間的差異來生成多個剩余圖像塊；-響應于多個剩余圖像塊來選擇多個參考塊的被選擇的參考塊；-響應于被選擇的參考塊來編碼第一圖像塊；-響應于被變換的圖像塊的數(shù)據(jù)來執(zhí)行圖像分析。
13.一種能夠執(zhí)行如權利要求12所述方法的計算機程序。
14.一種包括如權利要求13所述計算機程序的記錄載體。
全文摘要
一種視頻編碼器生成圖像的多個參考塊(111)和圖像塊。圖像選擇器(105)選擇一個參考塊，編碼器(103、107)通過使用所選擇的參考塊來編碼圖像塊。第一變換處理器(113)通過對每個參考塊應用相關圖像變換來生成被變換的參考塊，以及第二變換處理器(115)通過對第一圖像塊應用該相關圖像變換來生成被變換的圖像塊。視頻編碼器(100)包括響應于被變換的圖像塊的數(shù)據(jù)來分析圖像的分析處理器(117)。剩余處理器(119)生成多個剩余圖像塊作為被變換的圖像塊和每個被變換的參考塊之間的差異，并且作為響應，選擇適當?shù)膮⒖級K。通過使用相關變換，諸如Hadamard變換，通過相同操作生成既適合于圖像分析又適合參考塊選擇的變換數(shù)據(jù)。
文檔編號H04N7/50GK1926884SQ200580006585
公開日2007年3月7日申請日期2005年2月24日優(yōu)先權日2004年3月1日
發(fā)明者D·布拉澤羅維克申請人:皇家飛利浦電子股份有限公司

完整全部詳細技術資料下載