解碼器系統(tǒng)和解碼方法

文檔序號：9305375閱讀：1186來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

解碼器系統(tǒng)和解碼方法
【專利說明】
[0001] 本申請為2011年4月6日遞交的國際申請?zhí)枮镻CT/EP2011/055374(國家申請?zhí)?為201180025305. 2)、發(fā)明名稱為"基于改進型離散余弦變換的復(fù)數(shù)預(yù)測立體聲編碼"的專利申請的分案申請。
技術(shù)領(lǐng)域
[0002] 這里公開的本發(fā)明總的來說涉及立體聲音頻編碼，更確切地，涉及在頻域中使用復(fù)數(shù)預(yù)測進行立體聲編碼的技術(shù)。
【背景技術(shù)】
[0003] 立體聲信號左（L)和右（R)聲道的聯(lián)合編碼與L和R的獨立編碼相比能夠更有效地編碼。用于聯(lián)合立體聲編碼的普通方法是中/側(cè)（mid/side，M/S)編碼。這里，中間（M) 信號通過將L和R信號相加而形成，例如，該M信號可具有如下形式：
[0004] M= (L+R) /2
[0005] 此外，側(cè)邊（side，S)信號通過將兩聲道L和R信號相減而形成，例如，該S信號可具有如下形式：
[0006] S= (L-R) /2
[0007] 在M/S編碼情況下，M和S彳目號而不是L和R彳目號被編碼。
[0008] 在運動圖像專家組（MovingPictureExpertsGroup，MPEG)高級音頻編碼 (AdvancedAudioCoding，AAC)標準中（見標準文件IS0/IEC13818-7)，能夠以時變和頻變方式選擇L/R立體聲編碼和M/S立體聲編碼。因此，立體聲編碼器能夠?qū)αⅢw聲信號的某些頻帶應(yīng)用L/R編碼，而M/S編碼用于編碼該立體聲信號的其他頻帶（頻變）。此外，該編碼器能夠隨時間在L/R和M/S編碼之間切換（時變）。在MPEGAAC中，立體聲編碼在頻域中進行，更具體而言，在改進型離散余弦變換（modifieddiscretecosinetransform，MDCT) 域中進行。這允許以頻率和時間可變的方式自適應(yīng)地選擇L/R或M/S編碼。
[0009] 參數(shù)立體聲編碼是用于有效地將立體聲音頻信號編碼為單耳聽覺信號加少量用于立體聲參數(shù)的邊信息的技術(shù)。其是MPEG-4音頻標準（見標準文件IS0/IEC14496-3)的一部分。能夠使用任何音頻編碼器對單耳聽覺信號編碼。立體聲參數(shù)可被嵌入單聲道比特流的輔助部分，從而實現(xiàn)完全的向前和向后兼容。在解碼器中，首先解碼的是單耳聽覺信號，在這之后，借助于立體聲參數(shù)重建立體聲信號。通過去相關(guān)器（例如，可包括一條或更多條延遲線的適當?shù)娜V波器）來產(chǎn)生已解碼單聲道信號的去相關(guān)版本，其與單聲道信號零互相關(guān)。本質(zhì)上，已去相關(guān)信號具有與單聲道信號相同的頻譜和時間能量分布。單耳聽覺信號連同已去相關(guān)信號被輸入到通過立體聲參數(shù)來控制并重建立體聲信號的上混 (up-mix)處理。更多信息參見H.Purnhagen所著的論文："LowcomplexityParametric StereoCodinginMPEG-4(MPEG-4中的低復(fù)雜度參數(shù)立體聲編碼）"（第七屆數(shù)字音頻影響國際會議（DAFx' 04)會刊，意大利那不勒斯，2004年10月5-8日，第163至168頁）。
[0010] MPEG環(huán)繞（MPS;見IS0/IEC23003-1 和J.Herre等人所著的論文〃MPEG Surround-TheISO/MPEGStandardforEfficientandCompatibleMulti-ChannelAudio Coding(MPEG環(huán)繞--用于有效且兼容的多聲道音頻編碼的ISO/MPEG標準）〃（音頻工程大會論文7084,第122屆大會，2007年5月5-8日））允許將參數(shù)立體聲編碼原理與殘留編碼結(jié)合、用發(fā)送的殘留信號代替去相關(guān)信號，從而提高感知質(zhì)量。通過下混（down-mix)多聲道信號，并且可選地，通過提取空間線索，可實現(xiàn)殘留編碼。在下混處理期間，代表誤差信號的殘留信號被計算，并且然后被編碼和發(fā)送。在解碼器中，它們可代替去相關(guān)信號。在混合的方法中，在某些頻帶中（優(yōu)選在相對低的頻帶中），它們可代替去相關(guān)信號。
[0011] 根據(jù)當前的MPEG統(tǒng)一語音和音頻編碼（UnifiedSpeechandAudioCoding， USAC)系統(tǒng)（其兩個示例在圖1中示出），解碼器包括位于核心解碼器下游的復(fù)數(shù)值的正交鏡像濾波器（quadraturemirrorfilter，QMF)組。作為濾波器組輸出而獲得的QMF表示是復(fù)數(shù)（因此通過因子2過采樣），并可被布置作為下混信號（或相當于中間信號）M和殘留信號D，帶有復(fù)數(shù)條目的上混矩陣被施加到所述下混信號的殘留信號。L和R信號（在QMF 域中）如下獲得：
[0012]
[0013] 其中，g是實數(shù)值的增益因子，且a是復(fù)數(shù)值的預(yù)測系數(shù)。優(yōu)選地，a被選擇為使得殘留信號D的能量被最小化。該增益因子可通過歸一化來確定，S卩，保證和信號的功率等于左和右信號的功率和。L和R信號中的每一個的實部與虛部是互冗余的（原理上，它們中的每一個可基于另一個來計算），但是有利于在不發(fā)生可聽見的混疊假影（aliasing artifact)的情況下實現(xiàn)隨后的譜帶復(fù)制（spectralbandreplication，SBR)解碼器的應(yīng) 用。也可出于相似的原因選擇使用過采樣的信號表示，以防止與其他諸如單聲道-帶-立體聲的上混等時間或頻率自適應(yīng)信號處理（未示出）相關(guān)聯(lián)的假影。逆QMF濾波是解碼器中的最后處理步驟。需要注意的是，信號的帶限QMF表示允許使用帶限殘留技術(shù)和"殘留填充〃技術(shù)，這些技術(shù)可集成到該類解碼器中。
[0014] 上述編碼結(jié)構(gòu)很適于低比特率（通常低于80kb/s)，但是考慮到計算復(fù)雜性，對于更高比特率，上述編碼結(jié)構(gòu)不是最優(yōu)的。更確切地說，在更高比特率，通常不使用SBR工具 (因為它不會提高編碼效率）。那么，在沒有SBR級的解碼器中，僅有復(fù)數(shù)值的上混矩陣促動QMF濾波器組的存在，這在計算上是費力的，并且引入了延遲（在1024個采樣的幀長下， QMF分析/合成濾波器組引入了 961個采樣的延遲）。這清楚地表明需要更有效的編碼結(jié) 構(gòu)。

【發(fā)明內(nèi)容】

[0015] 本發(fā)明的一個目的是提供在高比特率范圍中也在計算上有效的立體聲編碼的方法和裝置。
[0016] 如獨立權(quán)利要求所限定的，本發(fā)明通過提供分別用于編碼和解碼的編碼器和解碼器、編碼和解碼方法以及計算機程序產(chǎn)品來達到此目的。從屬權(quán)利要求限定本發(fā)明的實施例。
[0017] 在第一方面中，本發(fā)明提供一種解碼器系統(tǒng)，該解碼器系統(tǒng)用于通過復(fù)數(shù)預(yù)測立體聲編碼來提供立體聲信號，其包括：
[0018] 上混，該上混適于：基于下混信號（M)和殘留信號（D)的第一頻域表示產(chǎn)生立體聲信號，其中每一個第一頻域表示包括第一頻譜分量，該第一頻譜分量代表相應(yīng)信號的在多維空間的第一子空間中表示的頻譜內(nèi)容，該上混級包括：
[0019] 基于下混信號的第一頻域表示來計算該下混信號的第二頻域表示的模塊，其中，該第二頻域表示包括第二頻譜分量，該第二頻譜分量代表信號的在多維空間的第二子空間中表示的頻譜內(nèi)容，其中該多維空間的第二子空間包括多維空間的不含在第一子空間內(nèi)的部分。
[0020] 加權(quán)求和器，該加權(quán)求和器基于該下混信號的第一和第二頻域表示、殘留信號的第一頻域表示和編碼在比特流信號中的復(fù)數(shù)預(yù)測系數(shù)（a)來計算側(cè)邊信號（S);和
[0021] 求和與求差級，該求和與求差級基于下混信號的第一頻域表示和側(cè)邊信號計算立體聲信號，
[0022] 其中，上混級還可以工作于通過模式（pass-throughmode)，其中所述下混和殘留信號被直接提供給求和與求差級。
[0023] 在第二方面中，本發(fā)明提供一種編碼器系統(tǒng)，用于通過復(fù)數(shù)預(yù)測立體聲編碼、通過比特流信號對立體聲信號編碼，該編碼器系統(tǒng)包括：
[0024] 估計器，用于估計復(fù)數(shù)預(yù)測系數(shù)；
[0025] 編碼級，可操作用于：(a)以通過該復(fù)數(shù)預(yù)測系數(shù)值而確定的關(guān)系，將立體聲信號變換成下混和殘留信號的頻域表示；以及
[0026] 復(fù)用器，用于從編碼級和估計器接收輸出，并通過所述比特流信號對其進行編碼。
[0027] 在本發(fā)明的第三和第四方面中，提供用于將立體聲信號編碼成比特流和將比特流解碼成至少一個立體聲信號的方法。每個方法的技術(shù)特征分別與所述編碼器系統(tǒng)和解碼器系統(tǒng)相似。在第五和第六方面中，本發(fā)明還提供一種包含用于在計算機上執(zhí)行每個方法的指令的計算機程序產(chǎn)品。
[0028] 本發(fā)明受益于MPEGUSAC系統(tǒng)中的統(tǒng)一立體聲編碼的優(yōu)點。在較高比特率（在這樣的比特率下通常SBR不被采用）下也可保持這些優(yōu)點，而不明顯地增加伴隨著基于QMF 方法的計算復(fù)雜性。這可能是因為：至少在下混和殘留聲道的代碼音頻帶寬相同且上混處理不包括去相關(guān)的情況下，作為MPEGUSAC變換編碼系統(tǒng)基礎(chǔ)的臨界采樣的MDCT變換可被用于本發(fā)明所提供的復(fù)數(shù)預(yù)測立體聲編碼。這意味著不再需要附加的QMF變換。與傳統(tǒng)的 L/R或M/S立體聲相比，QMF域中的復(fù)數(shù)預(yù)測立體聲編碼的代表性實現(xiàn)實際上顯著增加了每單位時間的操作數(shù)量。因此，根據(jù)本發(fā)明的編碼裝置在這樣的比特率下顯得有競爭力，以適中的計算代價提供高音頻質(zhì)量。
[0029] 如本領(lǐng)域技術(shù)人員了解的，該上混級還可以操作于通過模式的事實使解碼器能夠按照如編碼器側(cè)所確定的傳統(tǒng)的直接或聯(lián)合編碼以及復(fù)數(shù)預(yù)測編碼來自適應(yīng)解碼。因此，在解碼器不能肯定地將質(zhì)量水平提高到超過常規(guī)的直接L/R立體聲編碼或聯(lián)合M/S立體聲編碼的質(zhì)量水平的情況下，解碼器至少能夠保證保持相同水平。因此，從功能的角度看，根據(jù)本發(fā)明的此方面的解碼器可被認為是相對于【背景技術(shù)】的超集。
[0030] 作為與基于QMF的預(yù)測編碼立體聲相對比的優(yōu)點，信號的完美重建是可能的（除了量化誤差之外，能夠使量化誤差任意?。?br>[0031] 因此，本發(fā)明提供用于通過復(fù)數(shù)預(yù)測進行基于變換的立體聲編碼的編碼裝置。優(yōu) 選地，根據(jù)本發(fā)明的裝置不限于復(fù)數(shù)預(yù)測立體聲編碼，而還可操作于根據(jù)【背景技術(shù)】的L/R立體聲編碼或聯(lián)合M/S立體聲編碼方式，使得可為特定應(yīng)用或在特定時間間隔期間選擇最合適的編碼方法。
[0032] 信號的過采樣（例如，復(fù)數(shù)）表示（包括所述第一和所述第二頻譜分量）作為基礎(chǔ)被用于本發(fā)明的復(fù)數(shù)預(yù)測，并因此，用于計算這種過采樣表示的模塊被布置在根據(jù)本發(fā) 明的編碼器系統(tǒng)和解碼器系統(tǒng)中。所述頻譜分量涉及多維空間的第一和第二子空間，其可為關(guān)于給定長度的時間間隔（例如，預(yù)設(shè)的時間幀長）的以有限采樣頻率采樣的時間依賴函數(shù)集。眾所周知，在該特定多維空間中的函數(shù)可由基函數(shù)的有限加權(quán)和來近似。
[0033] 如本領(lǐng)域技術(shù)人員將理解的，為了能可靠地重新生成已編碼信號，編碼器適于與配有用于提供預(yù)測編碼所基于的過采樣表示的對等模塊的解碼器配合。這種對等模塊可為相同或相似模塊，或具有相同或相似的轉(zhuǎn)移特性的模塊。特別地，編碼器和解碼器中的模塊分別可為執(zhí)行各自計算機程序的相似或不相似的處理單元，其中計算機程序執(zhí)行對等的數(shù) 學(xué)運算集。
[0034] 在解碼器系統(tǒng)或編碼器系統(tǒng)的一些實施例中，第一頻譜分量具有在第一子空間中表示的實數(shù)值，且第二頻譜分量具有在第二子空間中表示的虛值。第一和第二頻譜分量一起形成信號的復(fù)數(shù)頻譜表示。第一子空間可為第一基函數(shù)集的線性生成空間（linear span)，而第二子空間可為第二基函數(shù)集的線性生成空間，第二基函數(shù)中的一些與第一基函數(shù)集線性無關(guān)。
[0035] 在一個實施例中，用于計算復(fù)數(shù)表示的模塊為實到虛的變換，S卩，基于離散時間信號的實數(shù)頻譜表示計算該信號的頻譜虛部的模塊。該變換可基于諸如來自諧波分析的公式或啟發(fā)式（heuristic)關(guān)系等的精確或近似的數(shù)學(xué)關(guān)系。
[0036] 在解碼器系統(tǒng)或編碼器系統(tǒng)的一些實施例中，可通過對離散時間域信號進行時-頻域變換獲得第一頻譜分量，時-頻域變換優(yōu)選地為傅里葉變換，諸如離散余弦變換 (discretecosinetransform，DCT)、改進型離散余弦變換（modifieddiscretecosine transform，MDCT)、離散正弦變換（discretesinetransform，DST)、改進型離散正弦變換 (modifieddiscretesinetransform，MDST)、快速傅里葉變換（fastFouriertransform， FFT)、或基于質(zhì)數(shù)因子的傅里葉算法等。在前四個例子中，然后可分別通過DST、MDST、DCT 和MDCT獲得第二頻譜分量。眾所周知，以單位間隔為周期的余弦的線性生成空間形成不完全包含在以相同間隔為周期的正弦的線性生成空間中的子空間。優(yōu)選地，第一頻譜分量可通過MDCT獲得，且第二頻譜分量可通過MDST獲得。
[0037] 在一個實施例中，解碼器系統(tǒng)包括布置在上混級的上游的至少一個時域噪音成形模塊（TNS(TemporalNoiseShaping)模塊或TNS濾波器）。一般說來，TNS的使用提高了對具有類瞬態(tài)（transient-like)分量信號的感知音質(zhì)，這也適用于本發(fā)明的以TNS為特征的解碼器系統(tǒng)的實施例。在傳統(tǒng)L/R和M/S立體聲編碼中，TNS濾波器可直接在逆變換之前作為頻域中最后處理步驟被施加。然而，在復(fù)數(shù)預(yù)測立體聲編碼情況下，將TNS濾波器施加在下混和殘留信號上（即在上混矩陣前）常常是有利的。換句話說，TNS被施加到左右聲道的線性組合，這具有幾個優(yōu)點。首先，可被證實，在給定情況下TNS僅對比如下混信號有利。然后，對于殘留信號可抑制或省去TNS濾波，這可能意味著可用帶寬的更經(jīng)濟的使用， TNS濾波器系數(shù)僅需為下混信號傳輸。其次，復(fù)數(shù)預(yù)測編碼中所需的下混信號的過采樣表示的計算（例如，MDST數(shù)據(jù)被從MDCT數(shù)據(jù)中導(dǎo)出，以便形成復(fù)數(shù)頻域表示）可要求在時域中下混信號的表示是可計算的。這又意味著下混信號優(yōu)選地作為以一致方式獲得的MDCT頻譜的時間序列而得到。如果在將下混/殘留表示轉(zhuǎn)換成左/右表示的上混矩陣后在解碼器中施加TNS濾波，則僅下混信號的TNS殘留MDCT譜的序列是可得到的。這會使對應(yīng)的MDST 譜的有效計算非常困難，特別是在左右聲道使用具有不同特性的TNS濾波器的情況下尤為如此。
[0038] 需要強調(diào)的是，MDCT譜的時序的可得到性不是獲得適合作為復(fù)數(shù)預(yù)測編碼基礎(chǔ)的 MDST表示的絕對標準。除實驗證據(jù)外，該事實可

完整全部詳細技術(shù)資料下載

當前第1頁1 2 3 4 5 6