專利名稱:使用擴展帶頻率編碼的復變換信道編碼的制作方法
使用擴展帶頻率編碼的復變換信道編碼
工程師使用各種技術以在保持數字音頻的質量的同時高效地處理數字音 頻。為理解這些技術,理解在計算機中如何表示和處理音頻信息是有幫助的。 I.計算機中音頻信息的表示
計算機將音頻信息處理為表示音頻信息的一系列數字。例如,單個數字可 表示一個音頻樣本,該樣本在特定時刻是一幅值。若干因素影響了音頻信息的 質量,包括樣本深度、采樣速率和聲道模式。
樣本深度(或精度)指示用于表示一個樣本的數字的范圍。對樣本的可能
值越多,質量也越高,因為該數字能捕捉幅度的更細微變化。例如,8位樣本 具有256個可能值,而16位樣本具有65,536個可能值。采樣速率(通常是作 為每秒的樣本數來測量的)也影響質量。采樣速率越高,質量就越高,因為可 表示更多聲音頻率。 一些常見的采樣速率是8,000、 11,025、 22,050、 32,000、 44,100、 48,000和96,000樣本/秒。
單聲道和立體聲是對于音頻的兩種常見的聲道模式。在單聲道模式中,音 頻信息存在于一個聲道中。在立體聲模式中,音頻信息存在于通常標為左聲道 和右聲道的兩個聲道中。具有更多聲道,諸如5.1聲道、7.1聲道或9.1聲道環(huán) 繞聲("l指示亞低音揚聲器或低頻音效聲道)的其它模式也是可能的。"表l 示出了具有不同質量水平的若干音頻格式,以及對應的原始比特率成本。
樣本深度 (位/樣本)采樣速率 (樣本/秒)模式原始比特率 (比特/秒)
因特網電話88,000單聲道64,000
電話811,025單聲道88,200
CD音頻1644,100立體聲1,411,200
表l:用于不同質量音頻信息的比特率
環(huán)繞聲音頻通常具有甚至更高的原始比特率。
如表1所示,高質量音頻信息的成本是高比特率。高質量音頻信息消耗了 大量的計算機存儲和傳輸能力。然而,公司和消費者越來越依賴于計算機來創(chuàng) 建、分發(fā)和回放高質量音頻內容。
II.在計算機中處理音頻信息
許多計算機和計算機網絡缺少處理原始數字音頻的資源。壓縮(也稱為編 碼或譯碼)通過將信息轉換成較低比特率的形式降低了儲存和傳送音頻信息的 成本。解壓(也稱為解碼)從壓縮形式中提取原始信息的重構版本。編碼器和
解碼器系統(tǒng)包括微軟公司的Windows媒體音頻("WMA")編碼器和解碼器 以及WMA Pro編碼器和解碼器的某些版本。
壓縮可以是無損(其中質量不受損害)或有損(其中質量受到損害,但是 因隨后的無損壓縮而得到的比特率減小更顯著)。例如,使用有損壓縮來逼近 原始音頻信息,然后對該逼近進行無損壓縮。無損壓縮技術包括行程長度編碼、 行程等級編碼、可變長度編碼以及算術編碼。對應的解壓技術(也稱為熵解碼 技術)包括行程長度解碼、行程等級解碼、可變長度解碼和算術解碼。
音頻壓縮的一個目的是數字地表示音頻信號以用可能的最少量比特來提 供所察覺信號的最大質量。有了這一目的作為目標,各種當代的音頻編碼系統(tǒng) 利用了各種不同的有損壓縮技術。這些有損壓縮技術通常涉及在頻率變換之后 的知覺建模/加權和量化。相應的解壓涉及反量化、反加權和頻率反變換。
頻率變換技術將數據轉換成使得能更容易地將知覺上不重要的信息與知 覺上重要的信息相分離的形式。較不重要的信息然后可進行更有損的壓縮,而 較重要的信息被保留,以提供對給定比特率的最佳察覺質量。頻率變換通常接 收音頻樣本,并將其從時域轉換成頻域中的數據,該數據有時也稱為頻率系數 或頻譜系數。
知覺建模涉及根據人類聽覺系統(tǒng)的模型來處理音頻數據以改進對給定比 特率的重構音頻信號的察覺質量。例如, 一聽覺模型通??紤]人類聽見的范圍 和臨界頻帶。使用知覺建模的結果,編碼器以最小化對給定比特率的失真可聽 見性為目標來對音頻數據中的失真(例如,量化噪聲)整形。
量化將輸入值的范圍映射到單個值,從而引入了不可逆的信息損失,但也 允許編碼器調節(jié)輸出的質量和比特率。有時,編碼器結合調整量化的速率控制
器來執(zhí)行量化以調節(jié)比特率和域質量。有各種類型的量化,包括自適應和非自 適應、標量和向量、均勻和非均勻。知覺加權可被認為是一種形式的非均勻量 化。反量化和反加權將加權的、量化的頻率系數數據重構成原始的頻率系數數 據的逼近。頻率反變換然后將重構的頻率系數數據轉換成重構的時域音頻樣 本。
音頻聲道的聯(lián)合編碼涉及將來自多于一個聲道的信息一起編碼以降低比
特率。例如,中/側編碼(mid/side coding)(也稱為M/S編碼或和一差編碼) 涉及在編碼器處對左和右立體聲聲道執(zhí)行矩陣運算,并將所得的"中"和"側" 聲道(歸一化的和和差聲道)發(fā)送到解碼器。解碼器從"中"和"側"聲道中 重構實際物理聲道。M/S編碼是無損的,從而允許在編碼過程不使用其它有損 技術(例如,量化)的情況下進行完美的重構。
強度立體聲編碼是可在低比特率下使用的有損聯(lián)合編碼技術的一個示例。 強度立體聲編碼涉及在編碼器處將左和右聲道相加,然后在重構左和右聲道期 間在解碼器處對來自和聲道的信息進行縮放。通常,強度立體聲編碼是在較高 頻率下執(zhí)行的,其中此有損技術引入的偽像較不會引起注意。
給定壓縮和解壓對于媒體處理的重要性,壓縮和解壓是豐富開發(fā)的領域并 不是令人驚奇的。然而,不論現(xiàn)有技術和系統(tǒng)有什么優(yōu)點,它們都沒有此處所 描述的技術和系統(tǒng)的各種優(yōu)點。
概述
提供本概述以便以簡化形式介紹將在以下的詳細描述中進一步描述的一 些概念。本概述并不旨在標識要求保護的主題的關鍵特征或本質特征,也不旨 在用于幫助確定要求保護的主題的范圍。
概括而言,詳細描述涉及用于編碼和解碼多聲道音頻的策略。例如, 一音 頻解碼器使用一種或多種技術來改善多聲道音頻數據的質量和/或比特率。這改
善了總體收聽體驗,并且使得計算機系統(tǒng)成為用于創(chuàng)建、分發(fā)和回放高質量多 聲道音頻的更引人注目的平臺。此處所描述的編碼和解碼策略包括可組合或獨 立使用的各種技術和工具。
例如, 一音頻編碼器接收多聲道音頻數據,該多聲道音頻數據包括一組多
個源聲道。編碼器對該多聲道音頻數據執(zhí)行聲道擴展編碼。聲道擴展編碼包括 對用于該組的組合聲道進行編碼,并確定用于將該組的各個源聲道表示為己編 碼的組合聲道的經修改的形式的多個參數。編碼器還對該多聲道音頻數據執(zhí)行 頻率擴展編碼。頻率擴展編碼可包括,例如將多聲道音頻數據中的頻帶劃分成 基帶組和擴展帶組,并且基于基帶組中的音頻系數對擴展帶組中的音頻系數編 碼。
作為另一示例,一音頻解碼器接收包括聲道擴展編碼數據和頻率擴展編碼 數據的已編碼多聲道音頻數據。該解碼器使用聲道擴展編碼數據和頻率擴展編 碼數據來重構多個音頻聲道。聲道擴展編碼數據包括用于多個音頻聲道的組合 聲道,以及用于將多個音頻聲道的各個聲道表示為組合聲道的經修改的形式的 多個參數。
作為另一示例,音頻解碼器接收多聲道音頻數據,并對所接收的多聲道音 頻數據執(zhí)行多聲道反變換、基本時一頻反變換、頻率擴展處理和聲道擴展處理。 解碼器可執(zhí)行對應于在編碼器中執(zhí)行的編碼的解碼,和/或諸如接收數據的前向 復變換等附加步驟,并且可用各種次序來執(zhí)行這些步驟。
對于此處關于音頻編碼器所描述的幾個方面,音頻解碼器執(zhí)行對應的處理 和解碼。
參考附圖閱讀以下詳細描述,將更清楚前述和其它目的、特征和優(yōu)點。
附圖簡述
圖1是可結合來實現(xiàn)所描述的各實施例的通用操作環(huán)境的框圖。
圖2、 3、 4和5是可結合來實現(xiàn)所描述的各實施例的通用編碼器和/或解 碼器的框圖。
圖6是示出示例小塊配置的圖。
圖7是示出用于多聲道預處理的通用技術的流程圖。
圖8是示出用于多聲道后處理的通用技術的流程圖。
圖9是示出用于在聲道擴展編碼中導出用于組合聲道的復比例因子的技 術的流程圖。
圖10是示出用于在聲道擴展解碼中使用復比例因子的技術的流程圖。
圖11是示出聲道重構中對組合聲道系數的縮放的圖。
圖12是示出實際功率比與在定位點處從功率比內插的功率比的圖形比較 的圖表。
圖13-33是示出某些實現(xiàn)中的聲道擴展處理的細節(jié)的等式和相關矩陣排列。
圖34是執(zhí)行頻率擴展編碼的編碼器的各方面的框圖。 圖35是示出用于編碼擴展帶子帶的示例技術的流程圖。 圖36是執(zhí)行頻率擴展解碼的解碼器的各方面的框圖。 圖37是執(zhí)行聲道擴展編碼和頻率擴展編碼的編碼器的各方面的框圖。 圖38、 39和40是執(zhí)行聲道擴展解碼和頻率擴展解碼的解碼器的各方面的 框圖。
圖41是示出用于兩個音頻塊的位移向量的表示的圖。
圖42是示出具有用于比例參數的內插的定位點的音頻塊的排列的圖。
詳細描述
描述了用于表示、編碼和解碼音頻信息的各種技術和工具。這些技術和工 具便于即使以非常低的比特率來創(chuàng)建、分發(fā)和回放高質量音頻內容。
本文描述的各種技術和工具可以獨立使用。某些技術和工具也可以結合使 用(例如,在組合的編碼和/或解碼過程的各不同階段)。
如下將參考處理動作的流程圖描述各種技術。在流程圖中示出的各種處理 動作可以合并為更少的動作或者分割成更多的動作。為了簡明,在特定流程圖 中示出的各動作與在其它地方描述的各動作之間的關系通常沒有示出。在許多 情況下,可以重排流程圖中的動作。
大部分詳細描述著眼于表示、編碼和解碼音頻信息。此處所描述的用于表 示、編碼和解碼音頻信息的許多技術和工具也可應用于視頻信息、靜止圖像信 息或在單個或多個通道中發(fā)送的其它媒體信息。
I.計算環(huán)境
圖1示出了其中可實現(xiàn)所描述的實施例的合適計算環(huán)境100的一個通用示 例。計算環(huán)境100并非對使用范圍或功能提出任何限制,因為所描述的實施例
可以在完全不同的通用或專用計算環(huán)境中實現(xiàn)。
參考圖l,計算環(huán)境100包括至少一個處理單元110和存儲器120。在圖
l中,這一最基本配置130包括在虛線內。處理單元110執(zhí)行計算機可執(zhí)行指
令,且可以是真實或虛擬處理器。在多處理系統(tǒng)中,多個處理單元執(zhí)行計算機
可執(zhí)行指令以提高處理能力。存儲器120可以是易失性存儲器(例如,寄存器、 高速緩存、RAM)、非易失性存儲器(例如,ROM、 EEPROM、閃存)或兩 者的某一組合。存儲器120儲存實現(xiàn)根據一個或多個所描述的實施例的一個或 多個音頻處理技術和/或系統(tǒng)的軟件180。
計算環(huán)境可具有額外的特征。例如,計算環(huán)境100包括存儲140、 一個或 多個輸入設備150、 一個或多個輸出設備160以及一個或多個通信連接170。 諸如總線、控制器或網絡等互連機制(未示出)將計算環(huán)境100的組件互連。 通常,操作系統(tǒng)軟件(未示出)為在計算環(huán)境100中執(zhí)行的軟件提供了操作環(huán) 境,并協(xié)調計算環(huán)境100的組件的活動。
存儲140可以是可移動或不可移動的,且包括磁盤、磁帶或磁帶盒、CD、 DVD或可用于儲存信息并可在計算環(huán)境100內訪問的任何其它介質。存儲140 儲存用于軟件180的指令。
輸入設備150可以是諸如鍵盤、鼠標、筆、觸摸屏或跟蹤球等觸摸輸入設 備、語音輸入設備、掃描設備或向計算環(huán)境100提供輸入的另一設備。對于音 頻或視頻,輸入設備150可以是話筒、聲卡、顯卡、TV調諧卡、或接受模擬 或數字形式的音頻或視頻輸入的類似的設備、或將音頻或視頻樣本讀入計算環(huán) 境的CD或DVD。輸出設備160可以是顯示器、打印機、揚聲器、CD/DVD 刻錄機、網絡適配器、或從計算環(huán)境100提供輸出的另一設備。
通信連接170允許通過通信介質到一個或多個其它計算實體的通信。通信 介質傳達諸如計算機可執(zhí)行指令、音頻或視頻信息、或數據信號形式的其它數 據等的信息。己調制數據信號是其一個或多個特征以在信號中編碼信息的方式 設置或改變的信號。作為示例而非局限,通信介質包括以電、光、RF、紅外、 聲學或其它載體實現(xiàn)的有線或無線技術。
各實施例可以在計算機可讀介質的一般上下文中描述。計算機可讀介質是 可在計算環(huán)境內訪問的任何可用介質。作為示例而非局限,對于計算環(huán)境IOO,
計算機可讀介質包括存儲器120、存儲140、通信介質以及上述任一個的組合。
各實施例可在諸如程序模塊中所包括的在真實或虛擬目標處理器上的計 算環(huán)境中執(zhí)行的計算機可執(zhí)行指令的一般上下文中描述。 一般而言,程序模塊 包括執(zhí)行特定任務或實現(xiàn)特定抽象數據類型的例程、程序、庫、對象、類、組 件、數據結構等。程序模塊的功能可以如各實施例中所需地組合或在程序模塊 之間拆分。用于程序模塊的計算機可執(zhí)行指令可以在本地或分布式計算環(huán)境中 執(zhí)行。
出于表示的目的,詳細描述使用了如"確定"、"接收"和"執(zhí)行"等術 語來描述計算環(huán)境中的計算機操作。這些術語是由計算機執(zhí)行的操作的高級抽 象,且不應與人類所執(zhí)行的動作混淆。對應于這些術語的實際的計算機操作取 決于實現(xiàn)而不同。
II.示例編碼器和解碼器
圖2示出了其中可實現(xiàn)一個或多個所描述的實施例的第一音頻編碼器 200。編碼器200是基于變換的知覺音頻編碼器200。圖3示出了對應的音頻解 碼器300。
圖4示出了其中可實現(xiàn)一個或多個所描述的實施例的第二音頻編碼器 400。編碼器400也是基于變換的知覺音頻編碼器,但是編碼器400包括用于 處理多聲道音頻的附加模塊。圖5示出了對應的音頻解碼器500。
盡管圖2到5所示的系統(tǒng)是通用的,但其各自都具有可在真實系統(tǒng)中找到 的特性。在任何情況下,在編碼器和解碼器內的模塊之間示出的關系指示了編 碼器和解碼器中的信息流;為簡明起見未示出其它關系。取決于所需的實現(xiàn)和
壓縮類型,編碼器或解碼器的模塊可被添加、省略、拆分成多個模塊、與其它 模塊組合、和/或用類似模塊來替換。在替換實施例中,根據一個或多個所描述 的實施例,具有不同模塊和/或其它配置的編碼器/解碼器處理音頻數據或某一 其它類型的數據。
A.第一音頻編碼器
編碼器200以某一采樣深度和速率接收輸入音頻樣本205的時間序列。輸
入音頻樣本205是針對多聲道音頻(例如,立體聲)或單聲道音頻的。編碼器
200壓縮音頻樣本205,并多路復用由編碼器200的各模塊產生的信息以輸出 諸如WMA格式、如高級流格式("ASF")等容器格式、或其它壓縮或容器 格式等格式的比特流295。
頻率變換器210接收音頻樣本205,并將其轉換成頻率(或頻譜)域中的 數據。例如,頻率變換器210將幀的音頻樣本(205)拆分成子幀塊,塊可以 是可變的大小以允許可變時間分辨率。塊可重疊以減小塊之間否則會由稍后的 量化引入的可察覺的不連續(xù)性。頻率變換器210將時變調制重疊變換
("MLT")、調制DCT ( "MDCT" ) 、 MLT或DCT的某一其它變體、或 某種其它類型的調制或非調制、重疊或非重疊頻率變換應用于塊,或使用子帶 或小波編碼。頻率變換器2I0向多路復用器("MUX" ) 280輸出頻譜系數數 據塊,并輸出諸如塊大小等輔助信息。
對于多聲道音頻數據,多聲道變換器220可將多個原始的、獨立編碼的聲 道轉換成聯(lián)合編碼的聲道?;蛘撸嗦暤雷儞Q器220可使左和右聲道作為獨立 編碼的聲道通過。多聲道變換器220向MUX280產生指示所使用的聲道模式 的輔助信息。編碼器200可在多聲道變換之后向音頻數據塊應用多聲道重新矩 陣化。
知覺建模器230對人類聽覺系統(tǒng)的特性建模以改善對給定比特率的重構 音頻信號的察覺質量。知覺建模器230使用各種聽覺模型中的任一種,并將激 勵模式信息或其它信息傳遞給加權器240。例如, 一聽覺模型通??紤]人類聽 見的范圍和臨界頻帶(例如,Bark頻帶)。除了范圍和臨界頻帶之外,音頻信 號之間的相互作用可顯著影響知覺。另外,聽覺模型可以考慮與人類對聲音的 感知的物理或神經方面有關的各種其它因素。
知覺建模器230輸出加權器240用于對音頻數據中的噪聲整形以降低噪聲 的可聽見性的信息。例如,使用各種技術中的任一種,加權器240基于所接收 到的信息生成用于量化矩陣(有時稱為掩碼)的加權因子。用于量化矩陣的加 權因子包括用于該矩陣中的多個量化帶中的每一個的權重,其中量化帶是頻率 系數的頻率范圍。由此,加權因子指示噪聲/量化誤差在量化帶上分布的比例, 由此控制了噪聲/量化誤差的頻譜/時間分布,且其目標是通過在聽見程度較小 的頻帶中放入較多噪聲(反之亦然)來最小化噪聲的可聽見性。
加權器240然后向從多聲道變換器220接收到的數據應用加權因子。
量化器250量化加權器240的輸出,從而向熵編碼器260產生量化的系數 數據,并向MUX280產生包括量化步長的輔助信息。在圖2中,量化器250 是自適應的、均勻的標量量化器。量化器250向每一頻譜數據應用相同的量化 步長,但是量化步長本身可在量化循環(huán)的各個迭代之間變化以影響熵編碼器 260輸出的比特率。其它種類的量化有非均勻、向量量化和/或非自適應量化。
熵編碼器260無損地壓縮從量化器250接收到的量化的系數數據,例如執(zhí) 行行程級別編碼和向量可變長度編碼。熵編碼器260可計算編碼音頻信息所花 費的比特數并將該信息傳遞到速率/質量控制器270。
控制器270與量化器250 —起工作以調節(jié)編碼器200的輸出的比特率和/ 或質量??刂破?70以滿足比特率和質量約束為目標向量化器250輸出量化步 長。
另外,編碼器200可向音頻數據塊應用噪聲替代和/或頻帶截斷。
MUX280多路復用從音頻編碼器200的其它模塊接收到的輔助信息以及
從熵編碼器260接收到的經熵編碼的數據。MUX280可包括儲存要由編碼器
200輸出的比特流295的虛擬緩沖器。
B.第一音頻解碼器
解碼器300接收包括經熵編碼的數據以及輔助信息的壓縮音頻信息的比 特流305,從該比特流中,解碼器300重構音頻樣本395。
多路分解器("DEMUX" ) 310解析比特流305中的信息,并將該信息發(fā) 送到解碼器300的各模塊。DEMUX310包括一個或多個緩沖器以補償由于音 頻復雜性波動、網絡抖動和/或其它因素而產生的比特率短期變化。
熵解碼器320無損地解壓從DEMUX 310接收到的熵代碼,從而產生經量 化的頻譜系數數據。熵解碼器320通常應用編碼器中使用的熵編碼技術的反過 程。
反量化器330從DEMUX 310接收量化步長,并從熵解碼器320接收經量 化的頻譜系數數據。反量化器330向經量化的頻率系數數據應用量化步長,以
部分地重構頻率系數數據,或以其它方式執(zhí)行反量化。
噪聲生成器340從DEMUX 310接收指示數據塊中的哪些頻帶進行了噪聲 替代以及用于該形式的噪聲的任何參數的信息。噪聲生成器340生成用于所指 示的頻帶的模式,并將該信息傳遞給反加權器350。
反加權器(350)從DEMUX (310)接收加權因子,從噪聲生成器(340) 接收任何經噪聲替代的模式,并從反量化器(330)接收部分重構的頻率系數 數據。在必要時,反加權器350解壓加權因子。反加權器350將加權因子應用 于對未經噪聲替代的頻帶的部分重構的頻率系數數據。反加權器350然后對經 噪聲替代的頻帶將從噪聲生成器340接收到的噪聲模式相加。反加權器350將 加權因子應用于對未經噪聲替代的頻帶的部分重構的頻率系數數據。反加權器 350然后對經噪聲替代的頻帶將從噪聲生成器340接收到的噪聲模式相加。
多聲道反變換器360從反加權器350接收重構的頻譜系數數據,并從 DEMUX310接收聲道模式信息。如果多聲道音頻是獨立編碼的聲道,則多聲 道反變換器360使該聲道通過。如果多聲道數據是聯(lián)合編碼的聲道,則多聲道 反變換器360將數據轉換成獨立編碼的聲道。
頻率反變換器370接收由多聲道變換器360輸出的頻譜系數數據以及來自 DEMUX 310的諸如塊大小等輔助信息。頻率反變換器370應用編碼器中所使 用的頻率變換的反過程,并輸出重構的音頻樣本395的塊。、
C.第二音頻編碼器
參考圖4,編碼器400以某一采樣深度和速率接收輸入音頻樣本405的時 間序列。輸入音頻樣本405是針對多聲道音頻(例如,立體聲、環(huán)繞)或單聲 道音頻的。編碼器400壓縮音頻樣本405,并多路復用由編碼器400的各模塊 產生的信息以輸出諸如WMAPro格式、如ASF等容器格式、或其它壓縮或容 器格式等格式的比特流295。
編碼器400在用于音頻樣本405的多個編碼模式之間選擇。在圖4中,編 碼器400在混合/純無損編碼模式和有損編碼模式之間切換。無損編碼模式包括 混合/純無損編碼器472,且通常用于高質量(以及高比特率)壓縮。有損編碼 模式包括諸如加權器442和量化器460等組件,且通常用于可調整質量(以及
受控比特率)壓縮。選擇決策取決于用戶輸入或其它準則。
對于多聲道音頻數據的有損編碼,多聲道預處理器410可任選地對時域音
頻樣本405重新矩陣化。例如,多聲道預處理器410選擇性地對音頻樣本405 重新矩陣化以丟棄一個或多個已編碼聲道或增加編碼器400中的聲道間相關, 但仍允許解碼器500中的(某種形式的)重構。多聲道預處理器410可將諸如 用于多聲道后處理的指令等輔助信息發(fā)送到MUX 490。
加窗模塊420將音頻輸入樣本405的幀劃分成子幀塊(窗)。窗可具有時 變大小和窗整形函數。當編碼器400使用有損編碼時,可變大小窗允許可變時 間分辨率。加窗模塊420向MUX490輸出劃分的數據塊,并輸出諸如塊大小 等輔助信息。
在圖4中,小塊配置器422在每一聲道的基礎上劃分多聲道音頻的幀。小 塊配置器422在質量/比特率允許的情況下獨立地劃分幀中的每一聲道。這允許 例如小塊配置器422隔離出現(xiàn)在特定聲道中的具有較小的窗的瞬變,而為了其 它聲道中的頻率分辨率或壓縮效率使用較大的窗。這可通過在每一聲道的基礎 上隔離瞬變來提高壓縮效率,但是在許多情況下需要指定個別聲道中的劃分的 附加信息。在時間上處于同一點處的相同大小的窗能夠通過多聲道變換來進行 迸一步的冗余度降低。由此,小塊配置器422將時間上相同位置的相同大小的 窗歸組為小塊。
圖6示出了用于5.1聲道音頻的幀的示例小塊配置600。小塊配置600包 括七個小塊,標號為0到6。小塊O包括來自聲道O、 2、 3和4的樣本,并且 覆蓋了該幀的前四分之一。小塊1包括來自聲道1的樣本,并覆蓋了該幀的前 一半。小塊2包括來自聲道5的樣本,并覆蓋了整個幀。小塊3與小塊0—樣, 但是覆蓋了該幀的后一半。小塊4和6包括聲道0、 2和3中的樣本,并分別 覆蓋了該幀的第三和第四個四分之一。最后,小塊5包括來自聲道1和4的樣 本,并覆蓋了該幀的后一半。如圖所示, 一特定小塊可包括非鄰接聲道中的窗。
頻率變換器430接收音頻樣本,并將其轉換成頻域中的數據,從而應用了 如上對圖2的頻率變換器210所述的變換。頻率變換器430向加權器442輸出 頻譜系數數據塊,并向MUX490輸出諸如塊大小等輔助信息。頻率變換器430 向知覺建模器440輸出頻率系數和輔助信息兩者。
知覺建模器440對人類聽覺系統(tǒng)的特性建模,從而根據一般如上參考圖2
的知覺建模器230所描述的聽覺模型來處理音頻數據。
加權器442基于從知覺建模器440接收到的信息來生成用于量化矩陣的加 權因子, 一般如上參考圖2的加權器240所描述的。加權器442向從頻率變換 器430接收到的數據應用加權因子。加權器442向MUX490輸出諸如量化矩 陣和聲道加權因子等輔助信息。量化矩陣可以被壓縮。
對于多聲道音頻數據,多聲道變換器450可應用多聲道變換,以利用聲道 間相關。例如,多聲道變換器450向小塊中的部分但不是全部聲道和/或量化頻 帶選擇性地且靈活地應用多聲道變換。多聲道變換器450選擇性地使用預定義 的矩陣或自定義矩陣,并向自定義矩陣應用有效壓縮。多聲道變換器450向 MUX490產生指示例如所使用的多聲道變換和經多聲道變換的小塊部分的輔 助信息。
量化器460量化多聲道變換器450的輸出,從而向熵編碼器470產生經量 化的系數數據,并向MUX490產生包括量化步長的輔助信息。在圖4中,量 化器460是對每一小塊計算一量化因子的自適應、均勻、標量量化器,但是量 化器460也可執(zhí)行某種其它量化。
熵編碼器470 —般如上參考圖2的熵編碼器260所述地無損地壓縮從量化 器460接收到的經量化的系數數據。
控制器480與量化器460 —起工作以調節(jié)編碼器400的輸出的比特率和/ 或質量??刂破?80以滿足質量和/或比特率約束為目標向量化器460輸出量化 因子。
混合/純無損編碼器472和相關聯(lián)的熵編碼器474壓縮用于混合/純無損編 碼模式的音頻數據。編碼器400對整個序列使用混合/純無損編碼模式,或在逐 幀、逐塊、逐小塊或其它基礎上在編碼模式之間切換。
MUX 490多路復用從音頻編碼器400的其它模塊接收到的輔助信息以及 從熵編碼器470、 474接收到的經熵編碼的數據。MUX490包括用于速率控制 或其它目的的一個或多個緩沖器。
D.第二音頻解碼器
參考圖5,第二音頻解碼器500接收壓縮音頻信息的比特流505。比特流 505包括經熵編碼的數據以及輔助信息,解碼器500從這些數據和信息中重構 音頻樣本595。
DEMUX 510解析比特流505中的信息并將該信息發(fā)送到解碼器500的其 它模塊。DEMUX510包括一個或多個緩沖器以補償由于音頻復雜性波動、網 絡抖動和/或其它因素而產生的比特率短期變化。
熵解碼器520無損地解壓從DEMUX 510接收到的熵代碼,通常應用編碼 器400中使用的熵編碼技術的反過程。當解碼以有損編碼模式壓縮的數據時, 熵解碼器520產生經量化的頻譜系數數據。
混合/純無損解碼器522和相關聯(lián)的熵解碼器520無損地解壓用于混合/純 無損編碼模式的無損編碼音頻數據。
小塊配置解碼器530從DEMUX 590接收指示幀的小塊的模式的信息,并 在必要時對其解碼。小塊模式信息可被熵編碼或以其它方式參數化。小塊配置 解碼器530然后將小塊模式信息傳遞到解碼器500的各其它模塊。
多聲道反變換器540從熵解碼器520接收經量化的頻譜系數數據,并從小 塊配置解碼器530接收小塊模式信息,并從DEMUX 510接收指示例如所使用 的多聲道變換和已變換的小塊部分的輔助信息。使用該信息,多聲道反變換器 540在必要時解壓變換矩陣,并向音頻數據選擇性地且靈活地應用一個或多個 多聲道反變換。
反量化器/加權器550從DEMUX 510接收諸如小塊和聲道量化因子等信 息以及量化矩陣,并從多聲道反變換器540接收經量化的頻譜系數數據。反量 化器/加權器550在必要時解壓所接收的加權因子信息。量化器/加權器550然 后執(zhí)行反量化和加權。
頻率反變換器560接收由反量化器/加權器550輸出的頻譜系數數據,以 及來自DEMUX 510的輔助信息和來自小塊配置解碼器530的小塊模式信息。 頻率反變換器570應用編碼器中使用的頻率變換的反過程,并向重疊器/累加器 570輸出各塊。
除了從小塊配置解碼器530接收小塊模式信息之外,重疊器/累加器570
還從頻率反變換器560和/或混合/純無損解碼器522接收已解碼信息。重疊器/ 累加器570在必要時重疊并累加音頻數據,并交織用其它模式編碼的幀或其它 音頻數據序列。
多聲道后處理器580可任選地重新矩陣化由重疊器/累加器570輸出的時 域音頻樣本。對于受比特流控制的后處理,后處理變換矩陣隨時間變化,且在 比特流505中用信號表示或包括在其中。
III.多聲道處理綜述
本節(jié)是在某些編碼器和解碼器中使用的某些多聲道處理技術的綜述,包括 多聲道預處理技術、靈活多聲道變換技術以及多聲道后處理技術。
A.多聲道預處理
某些編碼器在時域中對輸入音頻樣本執(zhí)行多聲道預處理。
在傳統(tǒng)的編碼器中,當有N個源音頻聲道作為輸入時,編碼器產生的輸 出聲道的數目也是N。已編碼聲道的數目可與源聲道一一對應,或者已編碼聲 道可以是多聲道變換編碼的聲道。然而,當源的編碼復雜度使得壓縮變得困難 或者當編碼緩沖區(qū)滿時,編碼器可更改或丟棄(即,不編碼)原始輸入音頻聲 道或多聲道變換編碼的聲道中的一個或多個。這樣做可降低編碼復雜度并改善 所察覺到的音頻的總質量。對于質量驅動的預處理,編碼器可執(zhí)行多聲道預處 理來作為對所測得的音頻質量的反應,以便平滑地控制總體音頻質量和/或聲道 分離。
例如,編碼器可更改多聲道音頻圖像以使得一個或多個聲道較不重要,使 得這些聲道在編碼器處被丟棄而在解碼器處作為"幻影"或未編碼聲道來重構。 這有助于避免對完全聲道刪除或嚴重量化的需求,而這可對質量有顯著的影 響。
編碼器可向解碼器指示當已編碼信道的數目小于用于輸出的信道的數目 時要采取什么動作。然后,可在解碼器中使用多聲道后處理變換以創(chuàng)建幻影聲 道。例如,編碼器(通過比特流)可指示解碼器通過對已解碼的左和右聲道求 平均來創(chuàng)建幻影中聲道。稍后,多聲道變換可利用平均的反向左和右聲道(沒 有后處理)之間的冗余度,或者編碼器可指示解碼器對反向左和右聲道執(zhí)行某
一多聲道后處理。或者,編碼器可以用信號通知解碼器為另一目的而執(zhí)行多聲 道后處理。
圖7示出了用于多聲道預處理的通用技術700。編碼器對時域多聲道音頻數據執(zhí)行(710)多聲道預處理,從而產生時域中的經變換的音頻數據。例如,預處理涉及具有連續(xù)值的實元素的通用變換矩陣。該通用變換矩陣可被選擇來 人工增加聲道間相關。這減少了對編碼器的其余部分的復雜度,但是以損失聲 道分離為代價。
輸出然后被饋給編碼器的其余部分,這些部分除了編碼器可執(zhí)行的任何其它處理之外,還使用參考圖4所描述的技術或其它壓縮技術來編碼(720)數據,從而產生已編碼的多聲道音頻數據。
編碼器和解碼器使用的句法可允許描述通用的或預定義的后處理多聲道變換矩陣,該矩陣可以在幀到幀的基礎上變化或打開/關閉。編碼器可使用這一 靈活性來限制立體聲/環(huán)繞圖像減損,從而通過人工增加聲道間相關而在某些環(huán) 境中在聲道分離和更好的總質量之間折衷。或者,解碼器和編碼器可使用另一 句法用于多聲道預處理和后處理,例如,允許在除了幀到幀之外的基礎上的變 換矩陣改變的句法。
B.靈活多聲道變換
某些編碼器可執(zhí)行有效地利用了聲道間相關的靈活多聲道變換。對應的解 碼器可執(zhí)行對應的多聲道反變換。
例如,編碼器可將多聲道變換定位在知覺加權之后(并且解碼器可將多聲 道反變換定位在反加權之前),使得跨聲道泄漏的信號可被控制、測量并且具 有與原始信號一樣的頻譜。編碼器可在多聲道變換前在頻域中向多聲道音頻應 用加權因子(例如,加權因子和每聲道的量化步長修改量)。編碼器可對加權 的音頻數據執(zhí)行一個或多個多聲道變換,并量化經多聲道變換的音頻數據。
解碼器可按特定的頻率索引將來自多個聲道的樣本收集到一向量中,并執(zhí) 行多聲道反變換來生成輸出。隨后,解碼器可對多聲道音頻進行反量化和反加 權,從而用掩碼對多聲道反變換的輸出著色。由此,(由于量化)跨聲道發(fā)生 的泄漏可以在頻譜上成形,使得泄漏信號的可聽見性可被測量和控制,并且給
定的重構聲道中的其它聲道的泄漏在頻譜上與給定聲道的原始的未破壞的信 號一樣成形。
編碼器可對多聲道變換將聲道分組,以限制哪些聲道將被一起變換。例如, 編碼器可確定一小塊內的哪些聲道相關并將相關的聲道分組。編碼器可以在將 聲道分組以便進行多聲道變換時考慮聲道的信號之間的成對相關以及頻帶之 間的相關,或者其它和/或附加的因素。例如,編碼器可以計算聲道中的信號之 間的成對相關,然后相應地對聲道分組。不是與一組中的任何聲道成對地相關 的聲道仍可以與該組兼容。對于不與一組兼容的聲道,編碼器可以檢查頻帶級 兼容性,并相應地調整一組或多組聲道。編碼器可以標識在某些頻帶中與一組 兼容,而在其它頻帶中不兼容的聲道。在不兼容的頻帶處關閉變換可改善實際 進行多聲道變換編碼的頻帶之間的相關并提高編碼效率。聲道組中的聲道不需 要是連續(xù)的。信號小塊可以包括多個聲道組,且每一聲道組可以具有不同的相 關聯(lián)的多聲道變換。在判定了哪些聲道兼容之后,編碼器可以將聲道組信息放 入比特流中。解碼器然后可以從該比特流中檢索和處理信息。
編碼器可以選擇性地在頻帶級處打開或關閉多聲道變換,以控制哪些頻帶 將被一起變換。以此方式,編碼器可以選擇性地排除在多聲道變換中不兼容的 頻帶。當對一特定頻帶關閉多聲道變換時,編碼器可對該頻帶使用恒等變換, 從而使該頻帶處的數據不被更改地通過。頻帶的數量與音頻數據的采樣頻率和 小塊大小有關。 一般而言,采樣頻率越高或者小塊大小越大,則頻帶數量越多。 編碼器可以對于一小塊的聲道組的各聲道選擇性地在頻帶級處打開或關閉多 聲道變換。解碼器可以根據特定的比特流句法從比特流中檢索用于一小塊的聲 道組的多聲道變換的頻帶開/關信息。
編碼器可以使用分層多聲道變換來限制特別是解碼器中的計算復雜度。采 用分層變換,編碼器可以將總的變換拆分成多個級,從而減少了各個級的計算 復雜度,并且在某些情況下減少了指定多聲道變換所需的信息量。使用此級聯(lián) 結構,編碼器可以用較小的變換來仿真較大的總變換直到達到某一準確度。解 碼器然后可以執(zhí)行相應的分層反變換。編碼器可以組合多個多聲道變換的頻帶 /開關信息。解碼器可以根據特定的比特流句法從比特流中檢索用于聲道組的多 聲道變換的分層結構的信息。
編碼器可使用預定義的多聲道變換矩陣來減少用于指定變換矩陣的比特 率。編碼器可從多種可用的預定義矩陣類型中選擇并在比特流中用信號表示所 選的矩陣。某些類型的矩陣可能不需要在比特流中另外用信號表示。其它則需 要另外的指定。解碼器可檢索指示矩陣類型的信息以及(如有必要)指定矩陣 的附加信息。
編碼器可以計算并應用用于小塊的聲道的量化矩陣、每聲道的量化步長修
改量、以及總量化小塊因子。這允許編碼器根據聽覺模型來對噪聲整形、平衡 聲道間的噪聲、并控制總失真。對應的解碼器可以解碼并應用總量化小塊因子、 每聲道的量化步長修改量以及用于小塊的聲道的量化矩陣,并且可以將反量化 和反加權步驟相組合。
c.多聲道后處理
某些解碼器在時域中對重構的音頻樣本執(zhí)行多聲道后處理。 例如,已解碼聲道的數目可能小于用于輸出的聲道的數目(例如,由于解 碼器沒有解碼一個或多個輸入聲道)。如果是這樣,則多聲道后處理變換可用 于基于已解碼聲道中的實際數據來創(chuàng)建一個或多個"幻影"聲道。如果己解碼 聲道的數目等于輸出聲道的數目,則后處理變換可用于呈現(xiàn)的任意空間旋轉、 揚聲器位置之間的輸出聲道重新映射、或其它空間或特殊效果。如果已編碼聲 道的數目大于輸出聲道的數目(例如,在立體聲設備上播放環(huán)繞聲音音頻),
則后處理變換可用于將聲道"下折(folddown)"。用于這些情形和應用的變 換矩陣可由編碼器來提供或用信號通知。
圖8示出了用于多聲道后處理的通用技術800。解碼器解碼(810)已編 碼多聲道音頻數據,從而產生重構的時域多聲道音頻數據。
解碼器然后對時域多聲道音頻數據執(zhí)行(820)多聲道后處理。當編碼器 產生多個已編碼聲道且解碼器輸出大量聲道時,后處理涉及一通用變換以從較 少數量已編碼聲道中產生較大數量的輸出聲道。例如,解碼器取(時間上)位 于同一點的樣本,從每一重構的已編碼聲道中取出一個樣本,然后用零來填充 遺漏的任何聲道(即,被編碼器丟棄的聲道)。解碼器將這些樣本與通用后處 理變換矩陣相乘。
通用后處理變換矩陣可以是具有預定元素的矩陣,或者它可以是具有由編
碼器指定的元素的通用矩陣。編碼器用信號通知解碼器使用預定矩陣(例如, 用一個或多個標志位),或者將通用矩陣的元素發(fā)送給解碼器,或者解碼器可 以被配置成總是使用相同的通用后處理變換矩陣。為了得到附加的靈活性,可 在逐幀或其它基礎上打開/關閉多聲道或處理(在這一情況下,解碼器可使用單 位矩陣來保持聲道不變)。
關于多聲道預處理、后處理和靈活多聲道變換的更多信息,參見題為
"Multi-Channel Audio Encoding and Decoding"(多聲道音頻編碼和解碼)的 美國專利申請公開號2004-0049379。
IV.用于多聲道音頻的聲道擴展處理
在用于編碼多聲道源的典型編碼方案中,在編碼器處執(zhí)行使用諸如調制重 疊變換("MLT")或離散余弦變換("DCT")等變換的時一頻變換,而在 解碼器處執(zhí)行相應的反變換。用于某些聲道的MLT或DCT系數被一起分組到 一聲道組中,并且在這些聲道上應用線性變換來獲得要編碼的聲道。如果一立 體聲源的左和右聲道是相關的,則它們可以使用和一差變換(也稱為M/S或中 /側編碼)來編碼。這去除了兩個聲道之間的相關,使得需要較少的比特來編碼 它們。然而,在低比特率下,差聲道可能不被編碼(導致立體聲圖像的丟失), 或者質量可能會對兩個聲道加重量化而受到損害。
所描述的技術和工具對現(xiàn)有的聯(lián)合編碼方案(例如,中/側編碼、強度立 體聲編碼等)提供了理想的替換。代替編碼用于聲道組(例如,左/右對、左前 /右前對、左后/右后對或其它組)的和和差聲道,所描述的技術和工具對一個 或多個組合的聲道(可以是聲道的和、在應用了去相關變換之后的首要主分量、 或某一其它組合聲道)以及描述聲道互相關和相應物理聲道的功率的附加參數 進行編碼,并且允許重構維持聲道互相關和相應物理聲道的功率的物理聲道。 換言之,維持了物理聲道的二階統(tǒng)計量。這一處理可以被稱為聲道擴展處理。
例如,使用復變換允許維持聲道互相關和相應聲道的功率的聲道重構。對 于窄帶信號逼近,維持二階統(tǒng)計量足以提供維持各個聲道的功率和相位的重 構,而無需發(fā)送明確相關系數信息或相位信息。
所描述的技術和工具將未編碼聲道表示為已編碼聲道的修改形式。要編碼
的聲道可以是實際的物理聲道或物理聲道的變換形式(例如,使用應用于每一 樣本的線性變換)。例如,所描述的技術和工具允許使用一個已編碼聲道和多 個參數來重構多個物理聲道。在一個實現(xiàn)中,這些參數包括兩個物理聲道之間 的功率(也稱為強度或能量)比以及每一頻帶的基礎上的已編碼聲道。例如,
為編碼具有左(L)和右(R)立體聲聲道的信號,功率比為L/M和R/M,其 中M是已編碼聲道("和"或"單"聲道)的功率,L是左聲道的功率,而R 是右聲道的功率。盡管聲道擴展編碼可用于所有頻率范圍,但這不是必需的。 例如,對于較低的頻率,編碼器可以同時編碼一聲道變換的各聲道(例如,使 用和和差),而對于較高的頻率,編碼器可以編碼和聲道和多個參數。
所描述的實施例可以顯著降低編碼多聲道源所需的比特率。用于修改聲道 的參數占據了總比特率的一小部分,從而為編碼組合聲道留出了更多比特率。 例如,對于兩聲道的源,如果編碼參數要占據可用比特率的10%,則90%的比 特可用于編碼組合聲道。在許多情況下,即使在考慮了跨聲道依賴性之后也存 在相對編碼兩個聲道的顯著節(jié)省。
聲道可以在除上述2:1比率之外的重構聲道/已編碼聲道比下重構。例如, 解碼器可以從單個已編碼聲道中重構左和右聲道和中聲道。其它安排也是可能 的。此外,參數可以用不同的方式來定義。例如,參數可以在除每一頻帶的基 礎之外的基礎上定義。
A.復變換和比例/形狀參數
在所描述的實施例中,編碼器形成組合聲道,并將參數提供給解碼器以便 對用于形成組合聲道的聲道的重構進行解碼。解碼器使用前向復變換來導出用 于該組合聲道的復系數(其各自具有實分量和虛分量)。然后,為了從組合聲 道中重構物理聲道,解碼器使用編碼器所提供的參數來縮放復系數。例如,解 碼器從編碼器提供的參數中導出比例因子,并將其用于縮放復系數。組合聲道 通常是和聲道(有時稱為單聲道),但是也可以是物理聲道的另一組合。在其 中物理聲道不同相且將聲道相加將導致聲道彼此抵消的情況下,組合聲道可以 是差聲道(例如,左和右聲道之差)。
例如,編碼器將用于左和右物理聲道的和聲道以及多個參數發(fā)送給解碼
器,這些參數可包括一個或多個復參數。(復參數是以某種方式從一個或多個 復數中導出的,然而編碼器發(fā)送的復參數(例如,包含虛數和實數的比率)本 身可能不是復數)。編碼器還可以僅發(fā)送解碼器從中可導出用于縮放頻譜系數 的復比例因子的實參數。(編碼器通常不使用復變換來編碼組合聲道本身。相 反,編碼器可使用若干編碼技術中的任一種來編碼組合聲道。)
圖9示出了編碼器執(zhí)行的簡化聲道擴展編碼技術900。在910除,編碼器形 成一個或多個組合聲道(例如,和聲道)。然后,在920處,編碼器導出要連 同組合聲道一起發(fā)送給解碼器的一個或多個參數。圖10示出了解碼器執(zhí)行的簡 化的反聲道擴展解碼技術IOOO。在1010處,解碼器接收用于一個或多個組合聲 道的一個或多個參數。然后,在1020處,解碼器使用該參數來縮放組合聲道系 數。例如,解碼器從參數中導出復比例因子并使用該比例因子來縮放系數。
在編碼器處的時一頻變換之后,通常將每一聲道的頻譜劃分成子帶。在所 描述的實施例中,編碼器可為不同的頻率子帶確定不同的參數,并且解碼器可 使用編碼器提供的一個或多個參數來對重構聲道中的相應頻帶縮放組合聲道 的頻帶中的系數。在其中要從一個已編碼聲道中重構左和右聲道的編碼安排 中,用于左和右聲道的每一個的子帶中的每一系數由已編碼聲道中的子帶的縮 放形式來表示。
例如,圖11示出了在聲道重構期間組合聲道1120的頻帶1110中的系數的縮 放。解碼器使用編碼器提供的一個或多個參數來導出解碼器重構的左聲道1230 和右聲道1240的對應子帶中的經縮放的系數。
在一個實現(xiàn)中,左和右聲道的每一個中的每一子帶具有一比例參數和一形 狀參數。該形狀參數可由編碼器確定并發(fā)送給解碼器,或者該形狀參數可以通 過取與所編碼的位置相同的位置中的頻譜系數來假設。編碼器使用來自一個或 多個已編碼聲道的頻譜的經縮放的形式來表示一個聲道中的所有頻率。使用復 變換(具有實數分量和虛數分量),使得對每一子帶可以維持聲道的跨聲道二 階統(tǒng)計量。由于已編碼聲道是實際聲道的線性變換,因此無需對所有聲道發(fā)送 參數。例如,如果使用N個聲道編碼P個聲道(其中N〈P),則無需對所有P 個聲道發(fā)送參數。關于比例和形狀參數的更多信息在以下第V節(jié)中提供。
參數可以在物理聲道和組合聲道之間的功率比改變時隨著時間改變。因
此,用于一幀中的頻帶的參數可以在逐幀的基礎上或在某一其它基礎上確定。 在所描述的實施例中,用于當前幀中的當前頻帶的參數基于來自其它頻帶和/ 或其它幀的參數進行差異編碼。
解碼器執(zhí)行前向復變換來導出組合聲道的復頻譜系數。它然后使用在比特 流中發(fā)送的參數(諸如功率比和用于互相關的虛一實比或歸一化相關矩陣)來 縮放頻譜系數。復縮放的輸出被發(fā)送到后處理濾波器。該濾波器的輸出被縮放 并相加以重構物理聲道。
無需對所有頻帶或對所有時間塊執(zhí)行聲道擴展編碼。例如,聲道擴展編碼 可以在每一頻帶、每一塊或某一其它基礎上自適應地打開或關閉。以此方式,
編碼器可選擇在高效或有益時執(zhí)行此處理。其余的頻帶或塊可以通過傳統(tǒng)的聲 道去相關、不使用去相關或使用其它方法來處理。
所描述的實施例中可實現(xiàn)的復比例因子限于特定邊界內的值。例如,所描 述的實施例在對數域中編碼參數,并且值由聲道之間的可能互相關的量來界 定。
可以使用復變換從組合聲道中重構的聲道不限于左和右聲道對,組合聲道 也不限于左和右聲道的組合。例如,組合聲道可以表示兩個、三個或更多物理 聲道。從組合聲道重構的聲道可以是諸如左后/右后、左后/左、右后/右、左/ 中、右沖和左沖/右等組。其它組也是可能的。重構的聲道都可以使用復變換 來重構,或者某些聲道可以使用復變換來重構,而其它聲道則不能。
B.參數內插
編碼器可使用確定顯式參數的定位點并在定位點之間內插參數。定位點之 間的時間量以及定位點的數量取決于內容和/或編碼器側決定可以是固定的或 變化的。當選擇時刻f處的一定位點時,編碼器可對頻譜中的所有頻帶使用該定 位點。或者,編碼器可對不同頻帶選擇不同時刻的定位點。
圖12是實際功率比與在定位點處從功率比內插的功率比的圖形比較。在圖 12所示的示例中,內插平滑了功率比中的變化(例如,在定位點1200和1202、 1202和1204、 1204和1206以及1206和1208之間),這有助于避免因頻繁變化的 功率比而引起的偽像。編碼器可以打開或關閉內插,或者完全不內插參數。例
如,編碼器可選擇在功率比變化隨時間較平緩的時候內插參數,或在參數在各
幀之間(例如,在圖12中的定位點1208和1210之間)并沒有改變太多時關閉內
插,或在參數改變太迅速以致于內插將提供參數的不準確表示時關閉內插。
c.詳細解釋
通用線性聲道變換可被寫為y-i,其中z是來自p個聲道的一組L個
系數向量(PXL維矩陣),^是PXP聲道變換矩陣,而y是來自要編碼的P 個聲道的一組L個已變換向量(PXL維矩陣)。L (向量維數)是線性聲道變 換算法在其上操作的給定子幀的頻帶大小。如果編碼器編碼了 7中的P個聲道 中的子集N,則這可被表達為Z-石X,其中向量Z是NXL矩陣,而S是通過 取矩陣r中對應于要編碼的N個聲道的N行來形成的NXP矩陣。從N個聲 道重構涉及在編碼了向量Z之后與矩陣C的另一矩陣乘法以獲得『=Cg(Z), 其中2表示向量Z的量化。代入Z給出等式『-Cg(AT)。假設量化噪聲是可忽
略的,則『二C萬X。 C可被適當選擇以維持向量X和『之間的跨聲道二階統(tǒng)
計量。以等式的形式,則可被表示為,、cao^^c、;cr,其中xr是對
稱PxP矩陣。
由于XT是對稱的PXP矩陣,因此在該矩陣中有P(P+l)/2的自由度。如 果N^(P+1)/2,則有可能得到PXN的矩陣C,使得該等式得到滿足。如果N <(P+l)/2,則需要更多信息來求解此式。如果情況如此,則可使用復變換來得 到滿足該約束的某一部分的其它解。
例如,如果X是復向量并且C是復矩陣,則可試圖找出C,使得 Re(CAQ^'C') = Re(XT)。根據這一等式,對于適當的復矩陣C,對稱矩陣JOT'
的實部等于對稱矩陣乘積CAQ^TC'的實部。
示例1:對于其中M二2且N4的情況,則5XTS'簡單地是實標量(LX1) 矩陣,稱為a。求解圖13中所示的等式。如果3。=^=/ (是某一常量),則 圖14中的約束成立。在求解時,對IC。1、 IC」和IC。Hcos仏D得到圖15所示 的值。編碼器發(fā)送IC。I和IC」。然后,可以使用圖16所示的約束來求解。從圖
15中應當清楚,這些量本質上是功率比L/M和R/M。圖16所示的約束中的符 號可以用于控制相位的符號,使得它匹配W的虛部。這允許求解A-^,但不允許求解實際值。為了求解確切的值,作出另一假設,即維持了用于每一系
數的單聲道的角度,如圖17所表達的。為了維護這一角度, IC。卜i一。+IC;lsi一^0是足夠的,這給出了圖18所示的對于(Zi。和A的結果。
使用圖16所示的約束,可以求解兩個標量因子的實部和虛部。例如,兩 個標量因子的實部可以通過如圖19所示分別求解IC。lco一。和IC」cos^來找到。
兩個標量因子的虛部可以通過如圖20所示分別求解IC。lsii^。和lqlsin^來找到。
由此,當編碼器發(fā)送復比例因子的絕對值時,解碼器能夠重構維持原始物 理聲道的跨聲道二階特性的兩個單獨的聲道,并且兩個重構的聲道維持了已編 碼聲道的正確相位。
示例2:在示例1中,盡管求解了跨聲道二階統(tǒng)計量的虛部(如圖20所 示),但是在解碼器處僅維持了實部,這僅從單個單聲道源進行了重構。然而, 如果(除了復縮放之外)如示例1中所描述的來自前一級的輸出被后處理以實 現(xiàn)附加頻譜化效果,則也可維持跨聲道二階統(tǒng)計量的虛部。該輸出通過一線性 濾波器來濾波、縮放、并被加回到來自前一級的輸出。
假設除了來自前一分析的當前信號(分別是用于兩個聲道的『。和^)之 外,解碼器還有效果信號一可用的兩個聲道的經處理的形式(分別是『。f和
『lF ),如圖21所示??傋儞Q可如圖23地表示,這假設『。f = c。z。F且『w = c;zQF 。
已經表明通過遵循圖22所示的重構過程,解碼器可維持原始信號的二階統(tǒng)計 量。解碼器取『的原始和經濾波的形式的線性組合來創(chuàng)建維持X的二階統(tǒng)計量 的信號S。
在示例1中,確定通過發(fā)送兩個參數(例如,左/單(L/M)和右/單(R/M) 功率比),復常量C。和G可被選擇來匹配跨聲道二階統(tǒng)計量的實部。如果編碼
器發(fā)送另一參數,則可維持多聲道源的整個跨聲道二階統(tǒng)計量。
例如,編碼器可以發(fā)送表示兩個聲道之間的互相關的虛一實比的復參數以 維持兩聲道源的整個跨聲道二階統(tǒng)計量。假設相關矩陣如圖24中所定義的由 i M給出,其中t/是復特征向量的正交矩陣,而A是特征值的對角矩陣。注意, 這一因式分解必須對任何對稱矩陣存在。對于任何可實現(xiàn)的功率相關矩陣,特 征值必須也是實數。這一因式分解允許找出復Karhunen-Loeve變換("KLT")。 KLT用于創(chuàng)建去相關的源以便壓縮。此處,希望進行取未相關的源的逆運算并
創(chuàng)建所需相關。向量X的KLT由給出,因為tr[/AW二A,即對角矩陣。Z中 的功率是"。因此,如果選擇諸如以下的變換
<formula>formula see original document page 28</formula>
并假設『。F和Kf具有分別與『。和K相同的功率并且與兩者不相關,則圖
23或22中的重構過程產生用于最終輸出的所需相關矩陣。在實踐中,編碼器 發(fā)送功率比lc。l和ldl,以及虛—實比Im(JT。;^)/"。解碼器可重構互相關矩陣
的歸一化形式(如圖25所示)。解碼器然后計算^,并找出特征值和特征向量,
從而到達所需變換。
由于lc。l和lc,l之間的關系,它們不能擁有獨立的值。因此,編碼器聯(lián)合或
條件地量化它們。這適用于示例1和2。
其它參數化也是可能的,諸如通過從編碼器向解碼器直接發(fā)送能量矩陣的 歸一化形式,從而可以通過功率的幾何均值來歸一化,如圖26所示。現(xiàn)在, 編碼器可以僅發(fā)送矩陣的第一行,這是足夠的,因為對角的乘積為l。然而, 現(xiàn)在解碼器如圖27所示地縮放特征值。
另一參數化能夠直接表示"和A??梢员砻?,f/可被因式分解成一系列 Givens旋轉。每一 Givens旋轉可由一角度來表示。編碼器發(fā)送Givens旋轉角 度和特征值。
并且,兩種參數化都可結合任何附加的任意預旋轉r,并且仍產生相同 的相關矩陣,因為^/'=/,而I代表單位矩陣。艮P,圖28所示的關系對任何 任意旋轉r起作用。例如,解碼器選擇一預旋轉,使得進入每一聲道的經濾波 的信號的量相同,如圖29所示。解碼器可選擇",使得圖30中的關系成立。
一旦已知了圖31所示的矩陣,解碼器可以如之前那樣進行重構以獲得聲 道『。和^。然后,解碼器通過向『。和^應用線性濾波器來獲得^^和^f (效
果信號)。例如,解碼器使用全通濾波器,并且可取該濾波器的任一抽頭處的 輸出以獲得效果信號。(關于全通濾波器的使用的更多信息,參見M.R. Schroeder和B. F. Logan的"'Colorless'Artificial Reverberation ("無色"人工 混響"),Me"Z"go/Ae Ji^'o£"g'g&c.(第12屆年度音頻工程師 協(xié)會會議),第18頁(1960)。)作為后處理來添加的信號的強度在圖31所 示的矩陣中給出。
全通濾波器可以被表示為其它全通濾波器的級聯(lián)。取決于對源準確地建 模所需的混響的量,可取任何全通濾波器的輸出。該參數也可在任一頻帶、子 幀或源的基礎上發(fā)送。例如,可取全通濾波器級聯(lián)中的第一、第二或第三級的 輸出。
通過取濾波器的輸出、對其進行縮放并將其加回到原始的重構,解碼器 能夠維持跨聲道二階統(tǒng)計量。盡管該分析對效果信號的功率和相關結構作了某 些假設,但是這些假設在實踐中并不總能得到滿足??墒褂眠M一步的處理和更 好的逼近來細化這些假設。例如,如果經濾波的信號具有大于所需的能量,則 經濾波的信號可如圖32所示地縮放,以使其具有正確的功率。這確保在功率 太大的情況下正確地維持功率。用于確定功率是否超過閾值的計算在圖33中 示出。
有時候可能在組合的兩個物理聲道中的信號會有不同相的情況,因此如 果使用了和編碼,則矩陣將是奇異的。在這些情況下,可限制矩陣的最大行列 式。限制矩陣的最大縮放的這一參數(閾值)也可在頻帶、子幀或源的基礎上 在比特流中發(fā)送。
如在示例l中一樣,此示例中的分析假設5。=^-"。然而,可對任何 變換使用相同的代數原理來獲得相似的結果。
V.使用其它編碼變換的聲道擴展編碼
在以上第IV節(jié)中所描述的聲道擴展編碼技術和工具可以結合其它技術
和工具來使用。例如,編碼器可以使用基本編碼變換、頻率擴展編碼變換(例 如,擴展帶知覺相似性編碼變換)和聲道擴展編碼變換。(頻率擴展編碼在以
下第V.A.節(jié)中描述。)在編碼器中,這些變換可以在基本編碼模塊、與基本編 碼模塊分離的頻率擴展編碼模塊、以及與基本編碼模塊和頻率擴展編碼模塊分 離的聲道擴展編碼模塊中執(zhí)行?;蛘?,可在同一模塊內以各種組合來執(zhí)行不同 的變換。
A.頻率擴展編碼綜述
本節(jié)是在某些編碼器和解碼器中用于根據頻譜中的基帶數據來編碼較高 頻譜數據的頻率擴展編碼技術和工具的綜述(有時稱為擴展帶知覺相似性頻率
編碼,或廣義知覺相似性編碼)。
編碼頻譜系數以在輸出比特流中發(fā)送給解碼器可消耗相對較大一部分可 用比特率。因此,在低比特率下,編碼器可以選擇通過對頻譜系數的帶寬內的 基帶進行編碼,并將該基帶外的系數表示為基帶系數的經縮放和整形的形式來 對減少數量的系數進行編碼。
圖34示出了可在編碼器中使用的通用模塊3400。所示的模塊3400接收 一組頻譜系數3415。因此,在低比特率下,編碼器可選擇對減少數量的系數進 行編碼頻譜系數3415的帶寬內的基帶,通常在頻譜的低端。在該基帶外的 頻譜系數被稱為"擴展帶"頻譜系數。對基帶和擴展帶的劃分是在基帶/擴展帶 劃分部分3420中執(zhí)行的。在此部分中也可執(zhí)行子帶劃分(例如,用于擴展帶 的子帶)。
為避免重構的音頻中的失真(例如,消音或低通的聲音),擴展帶頻譜 系數被表示為經整形的噪聲、其它頻率分量的經整形的形式、或兩者的組合。 擴展帶頻譜系數可以被劃分成多個子帶(例如,具有64或128個系數),其 可以是不相交的或重疊的。即使實際頻譜可能略有不同,該擴展帶編碼也提供 了類似于原始的知覺效果。
基帶/擴展帶劃分部分3420輸出基帶頻譜系數3425、擴展帶頻譜系數和 描述例如基帶寬度和擴展帶子帶的個別大小和數量的輔助信息(可以被壓縮)。
在圖34所示的示例中,編碼器在編碼模塊3430中編碼系數和輔助信息 (3435)。編碼器可以包括用于基帶和擴展帶頻譜系數的單獨的熵編碼器,和 /或使用不同的熵編碼技術來編碼不同類別的系數。對應的解碼器通常使用互補 解碼技術。(為表明另一可能的實現(xiàn),圖36示出了用于基帶和擴展帶系數的
單獨的解碼模塊。)
擴展帶編碼器可以使用兩個參數來編碼子帶。 一個參數(稱為比例參數) 用于表示頻帶內的總能量。另一參數(稱為形狀參數)用于表示頻帶內的頻譜 的形狀。
圖35示出了用于在擴展帶編碼器中編碼擴展帶的每一子帶的示例技術 3500。擴展帶編碼器在3510處計算比例參數,并在3520處計算形狀參數。擴 展帶編碼器編碼的每一子帶可以被表示為比例參數和形狀參數的乘積。
例如,比例參數可以是當前子帶內的系數的均方根值。這通過取所有系 數的均方值的平方根來找到。均方值通過取子帶內的所有系數的平方值的和, 再除以系數的個數來找到。
形狀參數可以是指定已經被編碼的頻譜的一部分(例如,用基帶編碼器 編碼的基帶頻譜系數的一部分)的歸一化形式的位移向量、歸一化的隨機噪聲 向量、或用于來自固定碼本的頻譜形狀的向量。指定頻譜的另一部分的位移向 量在音頻中是有用的,因為在音調信號中通常有在整個頻譜中重復的諧波分 量。對噪聲或某一其它固定碼本的使用可以便于對不能在頻譜的基帶編碼部分 中良好地表示的分量的低比特率編碼。
某些編碼器允許修改向量以更好地表示頻譜數據。 一些可能的修改包括 向量的線性或非線性變換、或將向量表示為兩個或更多其它原始或經修改的向 量的組合。在向量組合的情況下,修改可以涉及取一個向量的一個或多個部分, 并將其與其它向量的一個或多個部分組合。當使用向量修改時,發(fā)送比特以通 知解碼器如何形成新向量。盡管有另外的比特,但是修改消耗比實際波形編碼
少的比特來表示頻譜數據。
擴展帶編碼器無需為擴展帶的每一子帶編碼單獨的比例因子。相反,擴 展帶編碼器可以諸如通過將產生擴展子帶的比例參數的多項式函數的一組系 數編碼為其頻率的函數來將用于子帶的比例參數表示為頻率的函數。此外,擴 展帶編碼器可以編碼表征擴展子帶的形狀的另外的值。例如,擴展帶編碼器可 以編碼指定由運動矢量指示的基帶的部分的位移或拉伸的值。在這一情況下, 形狀參數被編碼為一組值(例如,指定位置、位移和/或拉伸)以更好地相對于 來自已編碼基帶的向量、固定碼本或隨機噪聲向量來表示擴展子帶的形狀。
對擴展帶的每一子帶進行編碼的比例和形狀因子都可以是向量。例如, 擴展子帶可以被表示為時域中帶有頻率響應sca/e(/)的濾波器與帶有頻率響應 s/u^e(/)的激勵的向量乘積化flfe(/) Wape(/)。該編碼可以是線性預測編碼 (LPC)濾波器和激勵的形式。LPC濾波器是擴展子帶的比例和形狀的低階表 示,而激勵表示擴展基帶的基音和/或噪聲特性。激勵可以得自對頻譜的基帶編 碼部分的分析,以及對匹配所編碼的激勵的基帶編碼頻譜、固定碼本頻譜或隨 機噪聲的一部分的標識。這將擴展子帶表示為基帶編碼頻譜的一部分,但是匹
配是在時域中完成的。
再次參考圖35,在3530處,擴展帶編碼器在基帶頻譜系數中搜索基帶
頻譜系數中具有與擴展帶的當前子帶相似的形狀的相似頻帶(例如,使用與基
帶的每一部分的歸一化形式最小均方比較)。在3532處,擴展帶編碼器檢查 基帶頻譜系數中的該相似頻帶是否在形狀上足夠接近當前擴展帶(例如,最小 均方值低于預選的閾值)。如果是,則擴展帶編碼器在3534處確定指向基帶 頻譜系數的這一相似頻帶的向量。該向量可以是基帶中的起始系數位置。也可 使用其它方法(諸如檢査基音性對比非基音性)來了解基帶頻譜系數的相似頻 帶是否在形狀上足夠接近當前擴展帶。
如果沒有找到基帶的足夠相似的部分,則擴展帶編碼器然后查找頻譜形 狀的固定碼本(3540)以表示當前子帶。如果找到(3542),則擴展帶編碼器 在3544處使用其在碼本中的索引作為形狀參數。否則,在3550處,擴展帶編 碼器將當前子帶的形狀表示為歸一化隨機噪聲向量。
或者,擴展帶編碼器可以決定頻譜系數可以如何用某一其它判定過程來表不。
擴展帶編碼器可以壓縮比例和形狀參數(例如,使用預測編碼、量化和/ 或熵編碼)。例如,比例參數可以基于前導的擴展子帶來預測編碼。對于多聲 道音頻,用于子帶的比例參數可以從信道中的前一子帶預測。比例參數也可跨 聲道、從多于一個其它子帶、從基帶頻譜、或從先前的音頻輸入塊以及其它變 化等等來預測。預測選擇可以通過査看哪一先前的頻帶(例如,在同一擴展頻 帶、聲道或小塊(輸入塊)內)提供較高相關來作出。擴展帶編碼器可以使用 均勻或非均勻量化來量化比例參數,并且所得的量化值可被熵編碼。擴展帶編 碼器還可對形狀參數使用預測編碼(例如,從前導的子帶預測)、量化和熵編 碼。
如果對給定實現(xiàn)子帶大小是可變的,則這提供了調整子帶大小以提高編 碼效率的機會。通常,具有相似特性的子帶可被合并而對質量幾乎沒有影響。
具有高度可變數據的子帶在拆分子帶時可被更好地表示。然而,較小的子帶比 較大子帶需要更多的子帶(且通常需要更多比特)來表示相同的頻譜數據。為 平衡這些利益,編碼器可基于質量度量和比特率信息來作出子帶決策。
解碼器用基帶/擴展帶劃分來多路分解比特流,并使用對應的解碼技術來 解碼頻帶(例如,在基帶解碼器和擴展帶解碼器中)。解碼器還可執(zhí)行附加功 能。
圖36示出了用于解碼由使用頻率擴展編碼并對基帶數據和擴展帶數據
使用單獨的編碼模塊的編碼器產生的比特流的音頻解碼器3600的各方面。在 圖36中,已編碼比特流3605中的基帶數據和擴展帶數據分別在基帶解碼器 3640和擴展帶解碼器3650中解碼?;鶐Ы獯a器3640使用基帶編解碼器的常規(guī) 解碼來解碼基帶頻譜系數。擴展帶解碼器FF50解碼擴展帶數據,包括通過復 制形狀參數的運動矢量所指向的基帶頻譜系數的各部分,以及按照比例參數的 比例因子縮放?;鶐Ш蛿U展帶頻譜系數被組合成單個頻譜,該頻譜由反變換 3680轉換以重構音頻信號。
第IV節(jié)描述了用于使用來自一個或多個已編碼聲道的頻譜的縮放形式 來表示未編碼聲道中的所有頻率的技術。頻率擴展編碼的不同之處在于擴展帶 系數是使用基帶系數的縮放形式來表示的。然而,這些技術可以一起使用,諸 如通過對組合聲道執(zhí)行頻率擴展編碼以及以下描述的其它方式。
B.使用其它編碼變換的聲道擴展編碼的示例
圖37是示出使用時一頻(T/F)基本變換3710、 T/F頻率擴展變換3720 以及T/F聲道擴展變換3730來處理多聲道源音頻3705的示例編碼器3700的 一個示例的各方面的圖。(其它編碼器可使用除了所示出的之外的不同的組合 或其它變換。)
T/F變換對于三種變換中的每一種可以是不同的。
對于基本變換,在多聲道變換3712之后,編碼3715包括對頻譜系數的 編碼。如果還使用了聲道擴展編碼,則不需要編碼用于至少某一些多聲道變換 編碼的聲道的至少某一些頻率范圍。如果還使用了頻率擴展編碼,則不需要編 碼至少某一些頻率范圍。對于頻率擴展變換,編碼3715包括對用于子幀中的 頻帶的比例和形狀參數的編碼。如果還使用了聲道擴展編碼,則可能不需要對 用于某些聲道的某些頻率范圍發(fā)送這些參數。對于聲道擴展變換,編碼3715 包括參數(例如,功率比和復參數)的編碼來準確地維持子幀中的頻帶的聲道 互相關。為簡明起見,編碼被示為在單個編碼模塊3715中形成。然而,不同
的編碼任務可以在不同的編碼模塊中執(zhí)行。
圖38、 39和40是示出解碼由示例編碼器3700產生的諸如比特流3795 等比特流的解碼器3800、 3900和4000的各方面的圖。在解碼器3800、 3900 和4000中,為簡明起見,未示出某些解碼器中存在的某些模塊(例如,熵解 碼、反量化/加權、附加后處理。并且,在某些情況下,所示的模塊可用不同的 方式重新排列、組合或劃分。例如,盡管示出了單個路徑,但是處理路徑可以 在概念上被劃分成兩個或更多處理路徑。
在解碼器3800中,用基本多聲道反變換3810、基本T/F反變換3820、 前向T/F頻率擴展變換3830、頻率擴展處理3840、頻率擴展T/F反變換3850、 前向T/F聲道擴展變換3860、聲道擴展處理3870、以及聲道擴展T/F反變換 3880來處理基本頻譜系數以產生重構的音頻3895。
然而,出于實踐的目的,該解碼器可能會被不合需要地復雜化。并且, 聲道擴展變換是復變換,而其它兩種則不是。因此,其它解碼器可以用以下方 式來調整用于頻率擴展編碼的T/F變換可被限于(1)基本T/F變換,或(2)聲 道擴展T/F變換的實部。
這允許諸如圖39和40所示的配置。
在圖39中,解碼器3900用頻率擴展處理3910、多聲道反變換3920、基 本T/F反變換3930、前向聲道擴展變換3940、聲道擴展處理3950、以及聲道 擴展T/F反變換3960來處理基本頻譜系數以產生重構的音頻3995。
在圖40中,解碼器4000用多聲道反變換4010、基本T/F反變換4020、 前向聲道擴展變換4030的實部、頻率擴展處理4040、前向聲道擴展變換4050 的虛部的微分、聲道擴展處理4060、以及聲道擴展T/F變換4070來處理基本 頻譜系數以產生重構的音頻4095。
可使用這些配置中的任一種,并且解碼器可以動態(tài)地改變使用哪一配置。 在一個實現(xiàn)中,用于基本和頻率擴展編碼的變換是MLT (是MCLT (調制復 重疊變換)的實部),而用于聲道擴展變換的變換是MCLT。然而,這兩種變 換具有不同的子幀大小。
一子幀中的每一MCLT系數具有橫跨該子幀的基函數。由于每一子幀僅 與相鄰的兩個子幀重疊,因此僅需來自當前子幀、前一子幀和下一子幀的MLT
系數來找出用于給定子幀的確切MCLT系數。
變換可使用相同大小的變換塊,或者變換塊可以對不同種類的變換有不 同的大小?;揪幋a變換和頻率擴展編碼變換中不同大小的變換塊可能是合乎 需要的,諸如在頻率擴展編碼變換能通過對較小時間窗的塊起作用來改善質量 的時候。然而,在基本編碼、頻率擴展編碼和聲道編碼處改變變換大小會在編 碼器和解碼器中引入顯著的復雜度。由此,在至少某些變換類型之間共享變換 大小可能是合乎需要的。
作為一個示例,如果基本編碼變換和頻率擴展編碼變換共享相同的變換 塊大小,則聲道擴展編碼變換可具有獨立于基本編碼/頻率擴展編碼變換塊大小 的變換塊大小。在此示例中,解碼器可包括頻率重構及其后的基本編碼反變換。 然后,解碼器執(zhí)行前向復變換以導出用于縮放已編碼的組合聲道的頻譜系數。
復聲道編碼變換使用其自己的、獨立于其它兩種變換的變換塊大小。解碼器使 用導出的頻譜系數從已編碼的組合聲道(例如,和聲道)在頻域中重構物理聲 道,并執(zhí)行復反變換以從重構的物理聲道中獲得時域樣本。
作為另一示例,如果基本編碼變換和頻率擴展編碼變換具有不同的變換 塊大小,則聲道編碼變換可具有與頻率擴展編碼變換塊大小相同的變換塊大 小。在此示例中,解碼器可包括基本編碼反變換及其后的頻率重構。解碼器使 用與用于頻率重構的相同的變換塊大小來執(zhí)行聲道反變換。然后,解碼器執(zhí)行 對復分量的前向變換來導出頻譜系數。
在前向變換中,解碼器可從實部計算聲道擴展變換系數的MCLT系數的 虛部。例如,解碼器可以通過查看來自前一塊的某些頻帶(例如,三個頻帶或 更多)、來自當前塊的某些頻帶(例如,兩個頻帶)、以及來自下一塊的某些 頻帶(例如,三個頻帶或更多)的實部來計算當前塊中的虛部。
實部到虛部的映射涉及取調制反DCT基與前向調制離散正弦變換 (DST)基向量的點積。對給定子幀計算虛部涉及找出子幀內的所有DST系數。 這僅對于來自前一子幀、當前子幀和下一子幀的DCT基向量為非零。此外, 僅與試圖找到的DST系數大致相似的頻率的DCT基向量具有重要的能量。如 果前一、當前和下一子幀的子幀大小都是相同的,則對于不同于試圖為其尋找 DST系數的頻率的頻率,能量顯著降低。因此,可找出低復雜度解,以便在給
定DCT系數的情況下找到用于給定子幀的DST系數。
具體地,可計算Xs = A*Xc(-l) + B*Xc(0) + C*Xc(l),其中Xc(-l)、 Xc(O) 和Xc(l)代表來自前一、當前和下一塊的DCT系數,而Xs表示當前塊的DST 系數
"預計算用于不同窗形狀/大小的A、 B和C矩陣
"計算閾值A、 B和C矩陣,使得遠小于峰值的值減小到O,從而將其縮
減為稀疏矩陣 "僅使用非零矩陣元素來計算矩陣乘法。
在其中需要復濾波器組的應用中,這是從實部導出虛部或從虛部導出實部 的快速方法,而無需直接計算虛部。
解碼器使用導出的比例因子從已編碼的組合聲道(例如,和聲道)在頻 域中重構物理聲道,并執(zhí)行復反變換以從重構的物理聲道中獲得時域樣本。
該方法導致與涉及反DCT和前向DST的蠻力方法相比的復雜度的顯著降低。
C. 頻率/聲道編碼中的計算復雜度的降低
頻率/聲道編碼可以用基本編碼變換、頻率編碼變換和聲道編碼變換來完 成。在塊或幀的基礎上將變換從一種切換到另一種可改善感知質量,但是其在 計算上是昂貴的。在某些情形中(例如,低處理功率設備),這一高復雜度可 能不是可接受的。降低復雜度的一種解決方案是迫使編碼器對頻率和聲道編碼 兩者始終選擇基本編碼變換。然而,該方法對質量施加了限制,即使是對于沒 有功率約束的回放設備也是如此。另一種解決方案是如果需要低復雜度,則讓 編碼器在沒有變換約束的情況下執(zhí)行,并且讓解碼器將頻率/聲道編碼參數映射 到基本編碼變換域。如果映射是以正確的方式完成的,則第二種解決方案能對 高功率設備實現(xiàn)良好的質量并對低功率設備以合理的復雜度實現(xiàn)良好的質量。
參數從其它域到基本變換域的映射可以不用來自比特流的額外信息來執(zhí)行,或 用由編碼器放入比特流中的附加信息來執(zhí)行以改善映射性能。
D. 在不同窗大小的轉換時改善頻率編碼的能量跟蹤
如在第V.B節(jié)中所指出的,頻率編碼器可以使用基本編碼變換、頻率編
碼變換(例如,擴展帶知覺相似性編碼變換)和聲道擴展編碼變換。然而,當 頻率編碼在兩種不同變換之間切換時,頻率編碼的起始點可能需要額外的注
意。這是因為各種變換中諸如基本變換等一種變換中的信號通常是帶通的,且 清楚的通帶由最后一個編碼的系數來定義。然而,這一清楚的邊界在被映射到 不同的變換時可能會變得模糊。在一個實現(xiàn)中,頻率編碼器通過仔細地定義起 始點來確保沒有信號能量丟失。具體地,
"對于每一頻帶,頻率編碼器計算先前(通過基本編碼等)壓縮的信號 的能量一E1。
"對于每一頻帶,頻率編碼器計算原始信號的能量一E2。
"如果(E2-E1)>T,其中T是預定義閾值,則頻率編碼器將此頻帶標
記為起始點。 4)頻率編碼器在此處開始操作,并且 5」頻率編碼器將起始點發(fā)送給解碼器。 以此方式,當在不同變換之間切換時,頻率編碼器檢測能量差并相應地發(fā) 送起始點。
VI.用于頻率擴展編碼的形狀和比例參數
A.用于使用調制DCT編碼的編碼器的位移向量
如在以上第V節(jié)中所提到的,擴展帶知覺相似性頻率編碼涉及確定用于 時間窗內的頻帶的形狀參數和比例參數。形狀參數指定了基帶(通常是較低的 頻帶)中將用作用于編碼擴展帶(通常是比基帶高的頻帶)中的系數的基礎的 一部分。例如,基帶的指定部分中的系數可以被縮放然后被應用于擴展帶。
可使用位移向量"來調制時刻f處的聲道的信號,如圖41所示。圖41示 出了分別用于時刻 。和、處的兩個音頻塊4100和4110的位移向量的表示。盡
管圖41所示的示例涉及頻率擴展編碼概念,但是該原理可以被應用于不涉及
頻率擴展編碼的其它調制方案。
在圖41所示的示例中,音頻塊4100和4110包括范圍0到N-l中的N
個子帶,其中每一塊中的子帶被劃分成較低頻率的基帶和較高頻率的擴展帶。 對于音頻框4100,位移向量J。被示為子帶附。和w。之間的位移。類似地,對于音頻框4110,位移向量《被示為子帶AW,和之間的位移。
由于位移向量旨在準確地描述擴展帶系數的形狀,因此可假設允許位移 向量中的最大靈活性將是合乎需要的。然而,在某些情況下限制位移向量的值 會導致改進的感知質量。例如,編碼器可選擇子帶W和W,使得它們各自總是 為偶數或奇數子帶,從而使位移向量"所覆蓋的子帶的數量總是為偶數。在使 用調制離散余弦變換(DCT)的編碼器中,當位移向量d覆蓋的子帶的數量是 偶數時,可得到更好的重構。
當使用調制DCT執(zhí)行擴展帶知覺相似性頻率編碼時,調制來自基帶的余 弦波,以產生用于擴展帶的調制余弦波。如果位移向量J所覆蓋的子帶的數量 是偶數,則調制導致準確的重構。然而,如果位移向量^所覆蓋的子帶的數量 是奇數,則調制導致重構音頻中的失真。由此,通過將位移向量限于僅覆蓋偶 數個子帶(并且犧牲d中的某些靈活性),則可通過避免調制信號中的失真來 實現(xiàn)更好的總聲音質量。由此,在圖41所示的示例中,音頻塊4100和4110 中的位移向量各自覆蓋偶數個子帶。
B.用于比例參數的定位點
當頻率編碼具有比基本編碼器小的窗時,比特率往往會增加。這是因為 盡管窗較小,但保持頻率分辨率在相當高的水平以避免不合意的偽像仍是重要 的。
圖42示出了不同大小的音頻塊的簡化排列。時間窗4210具有比時間窗 4212-4222長的持續(xù)時間,但是每一時間窗都具有相同數量的頻帶。
圖42中的勾記號指示用于每一頻帶的定位點。如圖42所示,定位點的 數量可以在頻帶之間變化,定位點之間的時間距離也可以變化。(為簡明起見, 圖42中未示出所有的窗、頻帶或定位點。)在這些定位點處,確定比例參數。 用于其它時間窗中的相同頻帶的比例參數然后可從定位點處的參數內插。
或者,可以用其它方式來確定定位點。
在參考所描述的實施例描述和示出了本發(fā)明的原理之后,可以認識到, 可以在排列和細節(jié)上修改所描述的實施例,而不脫離這些原理。應當理解,除 非另外指明,否則此處所描述的程序、過程或方法不相關于或不限于任何特定類型的計算環(huán)境??梢勒沾颂幩枋龅慕虒硎褂酶鞣N類型的通用或專用計算 環(huán)境或執(zhí)行操作。所描述的實施例中以軟件示出的元素可以用硬件來實現(xiàn),反 之亦然。
鑒于可應用本發(fā)明的原理的許多可能的實施例,要求保護落入所附權利 要求書及其等效技術方案的范圍和精神之內的所有這樣的實施例作為本發(fā)明。
權利要求
1.一種在音頻編碼器中的計算機實現(xiàn)的方法,包括接收多聲道音頻數據,所述多聲道音頻數據包括一組多個源聲道;對所述多聲道音頻數據執(zhí)行聲道擴展編碼,所述聲道擴展編碼包括編碼用于所述組的一組合聲道;以及確定用于將所述組的各個源聲道表示為所述編碼的組合聲道的經修改的形式的多個參數;以及執(zhí)行頻率擴展編碼。
2. 如權利要求l所述的方法,其特征在于,所述頻率擴展編碼還包括 將所述多聲道音頻數據中的頻帶劃分成基帶組和擴展帶組。
3. 如權利要求2所述的方法,其特征在于,所述頻率擴展編碼還包括 基于所述基帶組中的音頻系數來編碼所述擴展帶組中的音頻系數。
4. 如權利要求l所述的方法,其特征在于,還包括 將所述編碼的組合聲道和所述多個參數發(fā)送到音頻解碼器;以及 將頻率擴展編碼數據發(fā)送到所述音頻解碼器;其中,所述編碼的組合聲道、所述多個參數和所述頻率擴展編碼數據有助 于在所述音頻解碼器處重構所述多個源聲道中的至少兩個。
5. 如權利要求4所述的方法,其特征在于,所述多個參數包括對于所述 至少兩個源聲道的功率比。
6. 如權利要求4所述的方法,其特征在于,所述多個參數包括用于維持 跨所述至少兩個源聲道的二階統(tǒng)計量的復參數。
7. 如權利要求4所述的方法,其特征在于,所述音頻解碼器維持跨所述 至少兩個源聲道的二階統(tǒng)計量。
8. 如權利要求1所述的方法,其特征在于,所述音頻編碼器包括基本變 換模塊、頻率擴展變換模塊以及聲道擴展變換模塊。
9. 如權利要求1所述的方法,其特征在于,還包括對所述多聲道音頻數 據執(zhí)行基本編碼。
10. 如權利要求9所述的方法,其特征在于,還包括對經基本編碼的多聲頁道音頻數據執(zhí)行多聲道變換。
11. 一種儲存了計算機可執(zhí)行指令的計算機可讀介質,所述指令用于使得 通過其編程的計算機執(zhí)行如權利要求1所述的方法。
12. —種在音頻解碼器中的計算機實現(xiàn)的方法,包括接收已編碼的多聲道音頻數據,所述已編碼的多聲道音頻數據包括聲道擴 展編碼數據和頻率擴展編碼數據;以及使用所述聲道擴展編碼數據和所述頻率擴展編碼數據來重構多個音頻聲道;其中所述聲道擴展編碼數據包括用于所述多個音頻聲道的組合聲道;以及用于將所述多個音頻聲道的各個聲道表示為所述組合聲道的經修改 的形式的多個參數。
13. —種儲存了計算機可執(zhí)行指令的計算機可讀介質,所述指令用于使得 通過其編程的計算機執(zhí)行如權利要求12所述的方法。
14. 一種在音頻解碼器中的計算機實現(xiàn)的方法,包括 接收多聲道音頻數據;對所接收的多聲道音頻數據執(zhí)行多聲道反變換; 對所接收的多聲道音頻數據執(zhí)行基本時一頻反變換; 對所接收的多聲道音頻數據執(zhí)行頻率擴展處理;以及 對所接收的多聲道音頻數據執(zhí)行聲道擴展處理。
15. 如權利要求14所述的方法,其特征在于,所述頻率擴展處理是在所 述多聲道反變換和所述基本時一頻反變換之前對所接收的多聲道音頻數據和 執(zhí)行的。
16. 如權利要求14所述的方法,其特征在于,還包括對所接收的多聲道 音頻數據執(zhí)行前向聲道擴展變換和聲道擴展反變換。
17. 如權利要求16所述的方法,其特征在于,所述頻率擴展處理是在所 述前向聲道擴展變換的至少一部分之后對所接收的多聲道音頻數據執(zhí)行的。
18. 如權利要求17所述的方法,其特征在于,所述前向聲道擴展變換的 至少一部分是所述前向聲道擴展變換的實部。
19. 如權利要求16所述的方法,其特征在于,所述前向聲道擴展變換的 虛部是從所述前向聲道擴展變換的實部導出的。
20. —種儲存了計算機可執(zhí)行指令的計算機可讀介質,所述指令用于使得通過其編程的計算機執(zhí)行如權利要求14所述的方法。
全文摘要
一種音頻編碼器接收包括一組多個源聲道的多聲道音頻數據,并執(zhí)行聲道擴展編碼,包括編碼用于該組的組合聲道并確定用于將該組的各個源聲道表示為所編碼的組合聲道的經修改的形式的多個參數。該編碼器還執(zhí)行頻率擴展編碼。頻率擴展編碼可包括,例如將多聲道音頻數據中的頻帶劃分成基帶組和擴展帶組,并且基于基帶組中的音頻系數對擴展帶組中的音頻系數編碼。該編碼器還可執(zhí)行其它種類的變換。一音頻解碼器執(zhí)行對應的解碼和/或附加處理任務,諸如前向復變換。
文檔編號H03M7/30GK101371447SQ200780002567
公開日2009年2月18日 申請日期2007年1月3日 優(yōu)先權日2006年1月20日
發(fā)明者S·梅若特拉, W-G·陳 申請人:微軟公司