專利名稱:將重疊變換因式分解成兩個塊變換的制作方法
將重疊變換因式分解成兩個塊變換背景隨著便攜式數(shù)字媒體播放器、用于音樂存儲的緊致盤以及因特網(wǎng)上的音頻遞送的 引入,以數(shù)字音頻格式存儲、購買和分發(fā)音樂及其他音頻內(nèi)容現(xiàn)在是很常見的。數(shù)字音頻 格式使得人們能夠在其個人計算機(PC)或便攜式媒體播放器上有成百上千首音樂歌曲可用。知覺變換編碼該音頻編碼利用挖掘人類聽覺的各種知覺模型的編碼技術(shù)。例如,靠近強聲調(diào)的 許多較弱聲調(diào)被掩蔽以使得無需對它們進行編碼。在傳統(tǒng)的知覺音頻編碼中,這是作為對 不同頻率數(shù)據(jù)的自適應(yīng)量化來利用的。知覺重要頻率數(shù)據(jù)被分配較多位及由此較精細(xì)的量 化,反之亦然。例如,變換編碼常規(guī)上以用于壓縮音頻信號的高效方案著稱。輸入音頻被數(shù)字地 時間采樣。在變換編碼中,輸入音頻樣本塊被變換(例如,經(jīng)由使用最廣泛的修正離散余弦 變換,即MDCT),處理,并量化。對經(jīng)變換系數(shù)的量化是諸如經(jīng)由標(biāo)量量化器基于知覺重要性 (例如,掩蔽效應(yīng)和人類聽覺的頻率敏感度)來執(zhí)行的。在使用標(biāo)量量化器時,該重要性被映射到相對加權(quán),并且從每一個系數(shù)的權(quán)重和 全局分辨率來導(dǎo)出該系數(shù)的量化器分辨率(步長)。全局分辨率可從目標(biāo)質(zhì)量、比特率等來 確定。對于給定步長,每一個系數(shù)被量化成為零或非零整數(shù)值的水平。在較低比特率下,零水平系數(shù)通常比非零水平系數(shù)多得多。它們可用行程長度編 碼來高效率地編碼,行程長度編碼可與諸如Huffman編碼等熵編碼方案組合。重疊變換和可變窗口幀大小許多音頻壓縮系統(tǒng)利用調(diào)制重疊變換(MLT,也稱之為修正離散余弦變換,即 MDCT)來執(zhí)行音頻變換編碼中的時頻分析。MLT減少由于量化而引入到所重構(gòu)的音頻信號 中的成塊偽像。更具體地,在非重疊的塊被獨立地進行變換編碼時,在解碼器處重構(gòu)音頻信 號之際,量化誤差將在信號中的塊邊界處產(chǎn)生不連續(xù)性。對于音頻,聽到周期性微小靜電干 擾聲(clicking)效應(yīng)。MLT通過重疊塊減少該成塊效應(yīng)。在MLT中,來自兩個連貫塊的2M個樣本的“窗 口”經(jīng)歷調(diào)制余弦變換。返回M個變換系數(shù)。然后將窗口移動M個樣本,并計算下一組M個 變換系數(shù)。因此,每一個窗口重疊前一窗口的后M個樣本。盡管變換系數(shù)由于量化而改變, 但重疊增強了重構(gòu)樣本的連續(xù)性。一些音頻壓縮系統(tǒng)隨時間改變窗口的大小以適應(yīng)音頻不斷變化的性質(zhì)。音頻編碼 器通常將輸入音頻信號劃分成固定大小的“幀”,每一幀為一編碼單位(例如,可在每一幀 的首部部分中發(fā)送編碼表和/或參數(shù))在使用時變MLT的音頻壓縮系統(tǒng)中,每一幀可包含 一個或多個具有可變大小的“窗口”,每一個窗口為一MLT單位。一般而言,較大的窗口對于 編碼效率是有益處的,而較小的窗口提供較好的時間分辨率。因此,對在何處采用什么窗口 大小的決定對于編碼信號的壓縮性能和聽覺質(zhì)量是至關(guān)重要的。音頻編碼中的一個問題常被稱為“前回聲”。當(dāng)音頻經(jīng)歷突變(稱為“瞬變”)時發(fā)生前回聲。在變換編碼中,特定頻率系數(shù)常被量化(即,分辨率降低)。當(dāng)變換系數(shù)在稍 后被逆變換以再現(xiàn)音頻信號時,此量化引入分布在時域的整個塊上的量化噪聲。這固有地 導(dǎo)致在編碼幀內(nèi)非常均勻的噪聲拖尾效應(yīng)。對于該幀的某個部分一般可容忍的噪聲可能被 聽到,并且對于該幀中掩蔽水平較低的那些部分期間的聽覺質(zhì)量是災(zāi)難性的。實際上,此效 應(yīng)在信號繼低能量區(qū)域之后立即有急劇沖擊時顯得尤為突出,因此稱為“前回聲”。由于人 類聽覺系統(tǒng)的屬性,在信號從高能量轉(zhuǎn)換至低能量時發(fā)生的“后回聲”對可感覺到的聽覺質(zhì) 量而言問題較小。重疊變換和無損編碼重疊變換也可被用于無損編碼。許多無損編碼技術(shù)在時域中對音頻信號數(shù)據(jù)進行 操作。然而,通過對在施加重疊變換之后不經(jīng)過量化所得到的變換系數(shù)簡單地執(zhí)行熵編碼 或其他無損編碼,也可在頻域中執(zhí)行無損編碼。這樣的頻域無損編碼使得能夠更為容易地 一同導(dǎo)出音頻信號的有損和無損壓縮版本。但是,頻域無損壓縮技術(shù)要求變換是可逆的。此 外對于使得變換可逆所需要的一致性計算,該變換應(yīng)具有整數(shù)實現(xiàn)??赡娴恼麛?shù)-整數(shù)變換造成的困難在于它們要求使用行列式為1的方形變換矩陣 來實現(xiàn),這與其實現(xiàn)在變換矩陣中使用矩形子塊的重疊變換設(shè)計不兼容。先前已知的可逆 重疊變換也已通常要求對于音頻信號的所有子幀要有相同的子幀配置,這與如上所討論地 采用可變子幀大小以諸如減小前回聲的音頻編解碼器不兼容。在先前的可逆變換實現(xiàn)中,諸如MDCT和MLT之類的變換被作為2NxN變換來處理, 其中使2NxN變換可逆。盡管此程序在所有子幀為相同大小時是很好的,但在子幀大小變化 時工作得不是特別好。另外,重疊正交變換具有難以理解和修改的實現(xiàn)。概述以下詳細(xì)描述涉及使用具有可變子幀大小的重疊變換的用于變換域中的無損音 頻壓縮的各種音頻編碼/解碼技術(shù)和工具。這些技術(shù)使用對應(yīng)可變幀大小的可逆整數(shù)-整 數(shù)重疊變換的實現(xiàn),這可以通過將諸如調(diào)制重疊變換之類的變換分解成兩個移位塊變換的 組合來行程,一個移位塊變換是重疊變換,而另一個是塊變換(諸如任何類型的標(biāo)準(zhǔn)DCT)。提供本概述是為了以簡化的形式介紹將在以下詳細(xì)描述中進一步描述的一些概 念。本概述不旨在標(biāo)識所要求保護的主題的關(guān)鍵特征或本質(zhì)特征,也不旨在用于幫助確定 所要求保護的主題的范圍。本發(fā)明的其它特征和優(yōu)點在參考附圖繼續(xù)閱讀以下對實施例的 詳細(xì)描述后將變得顯而易見。附圖簡述
圖1)是可結(jié)合來實現(xiàn)所描述的各實施例的通用操作環(huán)境的框圖。圖2)、3)、4)和5)是可結(jié)合來實現(xiàn)所描述的各實施例的通用編碼器和/或解碼器 的框圖。圖6)是示出用于音頻比特流的示例子幀配置的示圖。圖7)是示出圖6)中的示例子幀配置中被施加了重疊變換的重疊算子部分的重疊 區(qū)的示圖。圖8)是說明圖6)的示例子幀配置中向其施加了重疊變換的塊變換部分的塊的示 圖。詳細(xì)描述
描述了用于表示、編碼和解碼音頻信息的各種技術(shù)和工具。這些技術(shù)和工具便于 即使以非常低的比特率來創(chuàng)建、分發(fā)和回放高質(zhì)量音頻內(nèi)容。本文描述的各種技術(shù)和工具可以獨立使用。某些技術(shù)和工具也可以結(jié)合使用(例 如,在組合的編碼和/或解碼過程的各不同階段)。如下將參考處理動作的流程圖描述各種技術(shù)。在流程圖中示出的各種處理動作可 以合并為更少的動作或者分割成更多的動作。為了簡明,在特定流程圖中示出的各動作與 在其它地方描述的各動作之間的關(guān)系通常沒有示出。在許多情況下,可以重排流程圖中的 動作。大部分詳細(xì)描述著眼于表示、編碼和解碼音頻信息。此處所描述的用于表示、編碼 和解碼音頻信息的許多技術(shù)和工具也可應(yīng)用于視頻信息、靜止圖像信息或在單個或多個通 道中發(fā)送的其它媒體信息。I.計算環(huán)境圖1示出了其中可實現(xiàn)所描述的實施例的合適計算環(huán)境100的一個通用示例。計 算環(huán)境100并非對使用范圍或功能提出任何限制,因為所描述的實施例可以在完全不同的 通用或?qū)S糜嬎悱h(huán)境中實現(xiàn)。參考圖1,計算環(huán)境100包括至少一個處理單元110和存儲器120。在圖1中,這 一最基本配置130包括在虛線內(nèi)。處理單元110執(zhí)行計算機可執(zhí)行指令,且可以是真實或 虛擬處理器。在多處理系統(tǒng)中,多個處理單元執(zhí)行計算機可執(zhí)行指令以提高處理能力。處 理單元還可包括中央處理單元和協(xié)作處理器,和/或?qū)S没蛱厥庥猛镜奶幚韱卧?例如,音 頻編碼器)。存儲器120可以是易失性存儲器(例如,寄存器、高速緩存、RAM)、非易失性存 儲器(例如,R0M、EEPR0M、閃存)或兩者的某一組合。存儲器120儲存實現(xiàn)根據(jù)一個或多個 所描述的實施例的一個或多個音頻處理技術(shù)和/或系統(tǒng)的軟件180。計算環(huán)境可具有其他特征。例如,計算環(huán)境100包括存儲140、一個或更多個輸入 設(shè)備150、一個或更多個輸出設(shè)備160以及一個或更多個通信連接170。諸如總線、控制器 或網(wǎng)絡(luò)等互連機制(未示出)將計算環(huán)境100的組件互連。通常,操作系統(tǒng)軟件(未示出) 為在計算環(huán)境100中執(zhí)行的軟件提供了操作環(huán)境,并協(xié)調(diào)計算環(huán)境100的組件的活動。存儲140可以是可移動或不可移動的,且包括磁盤、磁帶或磁帶盒、⑶、DVD或可用 于儲存信息并可在計算環(huán)境100內(nèi)訪問的任何其它介質(zhì)。存儲140儲存用于軟件180的指 令。輸入設(shè)備150可以是諸如鍵盤、鼠標(biāo)、筆、觸摸屏或跟蹤球等觸摸輸入設(shè)備、語音 輸入設(shè)備、掃描設(shè)備或向計算環(huán)境100提供輸入的另一設(shè)備。對于音頻或視頻,輸入設(shè)備 150可以是話筒、聲卡、顯卡、TV調(diào)諧卡、或接受模擬或數(shù)字形式的音頻或視頻輸入的類似 的設(shè)備、或?qū)⒁纛l或視頻樣本讀入計算環(huán)境的CD或DVD。輸出設(shè)備160可以是顯示器、打印 機、揚聲器、⑶/DVD刻錄機、網(wǎng)絡(luò)適配器、或從計算環(huán)境100提供輸出的另一設(shè)備。通信連接170允許通過通信介質(zhì)到一個或多個其它計算實體的通信。通信介質(zhì)傳 達(dá)諸如計算機可執(zhí)行指令、音頻或視頻信息、或數(shù)據(jù)信號形式的其它數(shù)據(jù)等的信息。已調(diào)制 數(shù)據(jù)信號是其一個或多個特征以在信號中編碼信息的方式設(shè)置或改變的信號。作為示例而 非局限,通信介質(zhì)包括以電、光、RF、紅外、聲學(xué)或其他載波實現(xiàn)的有線或無線技術(shù)。各實施例可以在計算機可讀介質(zhì)的一般上下文中描述。計算機可讀介質(zhì)可以是可在計算環(huán)境內(nèi)訪問的任何可用介質(zhì)。作為示例而非局限,對于計算環(huán)境100,計算機可讀介 質(zhì)包括存儲器120、存儲140、以及上述任一個的組合。各實施例可在諸如程序模塊中所包括的在真實或虛擬目標(biāo)處理器上的計算環(huán)境 中執(zhí)行的計算機可執(zhí)行指令的一般上下文中描述。一般而言,程序模塊包括執(zhí)行特定任務(wù) 或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的例程、程序、庫、對象、類、組件、數(shù)據(jù)結(jié)構(gòu)等。程序模塊的功能可 以如各實施例中所需的組合或在程序模塊之間分離。用于程序模塊的計算機可執(zhí)行指令可 以在本地或分布式計算環(huán)境中執(zhí)行。出于表示的目的,詳細(xì)描述使用了如“確定”、“接收”和“執(zhí)行”等術(shù)語來描述計算 環(huán)境中的計算機操作。這些術(shù)語是由計算機執(zhí)行的操作的高級抽象,且不應(yīng)與人類所執(zhí)行 的動作混淆。對應(yīng)于這些術(shù)語的實際的計算機操作取決于實現(xiàn)而不同。II.示例編碼器和解碼器圖2示出了其中可實現(xiàn)一個或多個所描述的實施例的第一音頻編碼器200。編碼 器200是基于變換的知覺音頻編碼器200。圖3示出了對應(yīng)的音頻解碼器300。圖4示出了其中可實現(xiàn)一個或多個所描述的實施例的第二音頻編碼器400。編碼 器400也是基于變換的知覺音頻編碼器,但是編碼器400包括附加模塊,諸如用于處理多聲 道音頻的模塊。圖5示出了對應(yīng)的音頻解碼器500。盡管圖2到5所示的系統(tǒng)是通用的,但其各自都具有可在真實系統(tǒng)中找到的特性。 在任何情況下,在編碼器和解碼器內(nèi)的模塊之間示出的關(guān)系指示了編碼器和解碼器中的信 息流;為簡明起見未示出其它關(guān)系。取決于所需的實現(xiàn)和壓縮類型,編碼器或解碼器的模塊 可被添加、省略、拆分成多個模塊、與其它模塊組合、和/或用類似模塊來替換。在替換實施 例中,根據(jù)一個或多個所描述的實施例,具有不同模塊和/或其它配置的編碼器/解碼器處 理音頻數(shù)據(jù)或某一其它類型的數(shù)據(jù)。A.第一音頻編碼器編碼器200以某一采樣深度和速率接收輸入音頻樣本205的時間序列。輸入音 頻樣本205是針對多聲道音頻(例如,立體聲)或單聲道音頻的。編碼器200壓縮音頻樣 本205,并多路復(fù)用由編碼器200的各模塊產(chǎn)生的信息以輸出諸如WMA格式、如高級流格式 (“ASF”)等容器格式、或其它壓縮或容器格式等壓縮格式的比特流四5。頻率變換器210接收音頻樣本205,并將其轉(zhuǎn)換成頻率(或頻譜)域中的數(shù)據(jù)。例 如,頻率變換器210將幀的音頻樣本205拆分成子幀塊,塊可以是可變的大小以允許可變時 間分辨率。塊可重疊以減小塊之間否則會由稍后的量化引入的可察覺的不連續(xù)性。頻率 變換器210將時變調(diào)制重疊變換(“MLT” )、調(diào)制DCT ( “MDCT” )、MLT或DCT的某一其它變 體、或某種其它類型的調(diào)制或非調(diào)制、重疊或非重疊頻率變換應(yīng)用于塊,或使用子帶或小波 編碼。頻率變換器210向多路復(fù)用器(“MUX”)280輸出頻譜系數(shù)數(shù)據(jù)塊,并輸出諸如塊大 小等輔助信息。對于多聲道音頻數(shù)據(jù),多聲道變換器220可將多個原始的、獨立編碼的聲道轉(zhuǎn)換 成聯(lián)合編碼的聲道。或者,多聲道變換器220可使左和右聲道作為獨立編碼的聲道通過。多 聲道變換器220向MUX 280產(chǎn)生指示所使用的聲道模式的輔助信息。編碼器200可在多聲 道變換之后向音頻數(shù)據(jù)塊應(yīng)用多聲道重新矩陣化。知覺建模器230對人類聽覺系統(tǒng)的特性建模以改善對給定比特率的重構(gòu)音頻信號的察覺質(zhì)量。知覺建模器230使用各種聽覺模型中的任一種,并將激勵模式信息或其它 信息傳遞給加權(quán)器M0。例如,一聽覺模型通常考慮人類聽覺的范圍和臨界頻帶(例如, Bark頻帶)。除了范圍和臨界頻帶之外,音頻信號之間的相互作用可顯著影響知覺。另外, 聽覺模型可以考慮與人類對聲音的感知的物理或神經(jīng)方面有關(guān)的各種其它因素。知覺建模器230輸出加權(quán)器240用于對音頻數(shù)據(jù)中的噪聲整形以降低噪聲的可聽 見性的信息。例如,使用各種技術(shù)中的任一種,加權(quán)器240基于所接收到的信息生成用于量 化矩陣(有時稱為掩碼)的加權(quán)因子。用于量化矩陣的加權(quán)因子包括用于該矩陣中的多個 量化帶中的每一個的權(quán)重,其中量化帶是頻率系數(shù)的頻率范圍。由此,加權(quán)因子指示噪聲/ 量化誤差在量化帶上分布的比例,由此控制了噪聲/量化誤差的頻譜/時間分布,且其目標(biāo) 是通過在聽見程度較小的頻帶中放入較多噪聲(反之亦然)來最小化噪聲的可聽見性。加權(quán)器240然后向從多聲道變換器220接收到的數(shù)據(jù)應(yīng)用加權(quán)因子。量化器250量化加權(quán)器240的輸出,從而向熵編碼器260產(chǎn)生量化的系數(shù)數(shù)據(jù),并 向MUX 280產(chǎn)生包括量化步長的輔助信息。在圖2中,量化器250是自適應(yīng)的、均勻的標(biāo)量 量化器。量化器250向每一頻譜系數(shù)應(yīng)用相同的量化步長,但是量化步長本身可在量化循 環(huán)的各次迭代之間變化以影響熵編碼器260輸出的比特率。其它種類的量化有非均勻、向 量量化和/或非自適應(yīng)量化。熵編碼器260無損地壓縮從量化器250接收到的量化的系數(shù)數(shù)據(jù),例如執(zhí)行行程 級別編碼和向量可變長度編碼。熵編碼器260可計算編碼音頻信息所花費的比特數(shù)并將該 信息傳遞到速率/質(zhì)量控制器270??刂破?70與量化器250 —起工作以調(diào)節(jié)編碼器200的輸出的比特率和/或質(zhì)量。 控制器270以滿足比特率和質(zhì)量約束為目標(biāo)向量化器250輸出量化步長。另外,編碼器200可向音頻數(shù)據(jù)塊應(yīng)用噪聲替代和/或頻帶截斷。MUX 280多路復(fù)用從音頻編碼器200的其它模塊接收到的輔助信息以及從熵編碼 器260接收到的經(jīng)熵編碼的數(shù)據(jù)。MUX 280可包括儲存要由編碼器200輸出的比特流四5 的虛擬緩沖器。B.第一音頻解碼器解碼器300接收包括經(jīng)熵編碼的數(shù)據(jù)以及輔助信息的壓縮音頻信息的比特流 305,從該比特流中,解碼器300重構(gòu)音頻樣本395。多路分解器(“DEMUX”)310解析比特流305中的信息,并將該信息發(fā)送到解碼器 300的各模塊。DEMUX 310包括一個或多個緩沖器以補償由于音頻復(fù)雜性波動、網(wǎng)絡(luò)抖動和 /或其它因素而產(chǎn)生的比特率短期變化。熵解碼器320無損地解壓從DEMUX 310接收到的熵代碼,從而產(chǎn)生經(jīng)量化的頻譜 系數(shù)數(shù)據(jù)。熵解碼器320通常應(yīng)用編碼器中使用的熵編碼技術(shù)的逆過程。逆量化器330從DEMUX 310接收量化步長,并從熵解碼器320接收經(jīng)量化的頻譜 系數(shù)數(shù)據(jù)。逆量化器330向經(jīng)量化的頻率系數(shù)數(shù)據(jù)應(yīng)用量化步長,以部分地重構(gòu)頻率系數(shù) 數(shù)據(jù),或以其它方式執(zhí)行逆量化。噪聲生成器340從DEMUX 310接收指示數(shù)據(jù)塊中的哪些頻帶進行了噪聲替代以及 用于該形式的噪聲的任何參數(shù)的信息。噪聲生成器340生成用于所指示的頻帶的模式,并 將該信息傳遞給逆加權(quán)器350。
逆加權(quán)器350從DEMUX 310接收加權(quán)因子,從噪聲生成器340接收任何經(jīng)噪聲替 代的頻帶的模式,并從逆量化器330接收部分重構(gòu)的頻率系數(shù)數(shù)據(jù)。在必要時,逆加權(quán)器 350解壓加權(quán)因子。逆加權(quán)器350將加權(quán)因子應(yīng)用于還未經(jīng)噪聲替代的頻帶的部分重構(gòu)的 頻率系數(shù)數(shù)據(jù)。逆加權(quán)器350然后對經(jīng)噪聲替代的頻帶將從噪聲生成器340接收到的噪聲 模式相加。多聲道逆變換器360從逆加權(quán)器350接收重構(gòu)的頻譜系數(shù)數(shù)據(jù),并從DEMUX 310 接收聲道模式信息。如果多聲道音頻是獨立編碼的聲道,則多聲道逆變換器360使該聲道 通過。如果多聲道數(shù)據(jù)是聯(lián)合編碼的聲道,則多聲道逆變換器360將數(shù)據(jù)轉(zhuǎn)換成獨立編碼 的聲道。頻率逆變換器370接收由多聲道變換器360輸出的頻譜系數(shù)數(shù)據(jù)以及來自DEMUX 310的諸如塊大小等輔助信息。頻率逆變換器370應(yīng)用編碼器中所使用的頻率變換的逆過 程,并輸出重構(gòu)的音頻樣本395的塊。C.第二音頻編碼器參考圖4,編碼器400以某一采樣深度和速率接收輸入音頻樣本405的時間序列。 輸入音頻樣本405是針對多聲道音頻(例如,立體聲、環(huán)繞)或單聲道音頻的。編碼器400 壓縮音頻樣本405,并多路復(fù)用由編碼器400的各模塊產(chǎn)生的信息以輸出諸如WMA Pro格 式、如ASF等容器格式、或其它壓縮或容器格式等格式的比特流四5。編碼器400在用于音頻樣本405的多個編碼模式之間選擇。在圖4中,編碼器400 在混合/純無損編碼模式和有損編碼模式之間切換。無損編碼模式包括混合/純無損編碼 器472,且通常用于高質(zhì)量(以及高比特率)壓縮。有損編碼模式包括諸如加權(quán)器442和量 化器460等組件,且通常用于可調(diào)整質(zhì)量(以及受控比特率)壓縮。選擇決策取決于用戶 輸入或其它準(zhǔn)則。對于多聲道音頻數(shù)據(jù)的有損編碼,多聲道預(yù)處理器410可任選地對時域音頻樣本 405重新矩陣化。例如,多聲道預(yù)處理器410選擇性地對音頻樣本405重新矩陣化以丟棄一 個或多個已編碼聲道或增加編碼器400中的聲道間相關(guān),但仍允許解碼器500中的(某種 形式的)重構(gòu)。多聲道預(yù)處理器410可將諸如用于多聲道后處理的指令等輔助信息發(fā)送到 MUX 490。加窗模塊420將音頻輸入樣本405的幀劃分成子幀塊(窗口)。窗口可具有時變 大小和窗口整形函數(shù)。當(dāng)編碼器400使用有損編碼時,可變大小窗口允許可變時間分辨率。 加窗模塊420向MUX 490輸出劃分的數(shù)據(jù)塊,并輸出諸如塊大小等輔助信息。在圖4中,瓦塊配置器422在每聲道的基礎(chǔ)上劃分多聲道音頻的幀。瓦塊配置器 422在質(zhì)量/比特率允許的情況下獨立地劃分幀中的每一聲道。這允許例如瓦塊配置器422 以較小的窗隔離出現(xiàn)在特定聲道中的瞬變,而對其它聲道中的頻率分辨率或壓縮效率使用 較大的窗。這可通過在每聲道的基礎(chǔ)上隔離瞬變來提高壓縮效率,但是在許多情況下需要 指定個別聲道中的劃分的附加信息。在時間上處于同一點處的相同大小的窗口能夠通過多 聲道變換來進行進一步的冗余度降低。由此,瓦塊配置器422將時間上相同位置的相同大 小的窗口編組為瓦塊。頻率變換器430接收音頻樣本,并將其轉(zhuǎn)換成頻域中的數(shù)據(jù),從而應(yīng)用了如上對 圖2的頻率變換器210所述的變換。頻率變換器430向加權(quán)器442輸出頻譜系數(shù)數(shù)據(jù)塊,并向MUX 490輸出諸如塊大小等輔助信息。頻率變換器430向知覺建模器440輸出頻率系 數(shù)和輔助信息兩者。知覺建模器440對人類聽覺系統(tǒng)的特性建模,從而一般如上參考圖2的知覺建模 器230所描述的根據(jù)聽覺模型來處理音頻數(shù)據(jù)。加權(quán)器442基于從知覺建模器440接收到的信息來生成用于量化矩陣的加權(quán)因 子,一般如上參考圖2的加權(quán)器240所描述的。加權(quán)器442向從頻率變換器430接收到的數(shù) 據(jù)應(yīng)用加權(quán)因子。加權(quán)器442向MUX 490輸出諸如量化矩陣和聲道權(quán)重因子等輔助信息。 量化矩陣可以被壓縮。對于多聲道音頻數(shù)據(jù),多聲道變換器450可應(yīng)用多聲道變換,以利用聲道間相關(guān)。 例如,多聲道變換器450瓦塊中的部分但不是全部聲道和/或量化頻帶選擇性地且靈活地 應(yīng)用多聲道變換。多聲道變換器450選擇性地使用預(yù)定義的矩陣或自定義矩陣,并向自定 義矩陣應(yīng)用有效壓縮。多聲道變換器450向MUX490產(chǎn)生指示例如所使用的多聲道變換和 經(jīng)多聲道變換的瓦塊部分的輔助信息。量化器460量化多聲道變換器450的輸出,從而向熵編碼器470產(chǎn)生經(jīng)量化的系 數(shù)數(shù)據(jù),并向MUX 490產(chǎn)生包括量化步長的輔助信息。在圖4中,量化器460是對每一瓦塊 計算一量化因子的自適應(yīng)、均勻、標(biāo)量量化器,但是量化器460也可執(zhí)行某種其它量化。熵編碼器470 —般如上參考圖2的熵編碼器260所述地?zé)o損地壓縮從量化器460 接收到的經(jīng)量化的系數(shù)數(shù)據(jù)??刂破?80與量化器460 —起工作以調(diào)節(jié)編碼器400的輸出的比特率和/或質(zhì)量。 控制器480以滿足質(zhì)量和/或比特率約束為目標(biāo)向量化器460輸出量化因子?;旌?純無損編碼器472和相關(guān)聯(lián)的熵編碼器474壓縮用于混合/純無損編碼模 式的音頻數(shù)據(jù)。編碼器400對整個序列使用混合/純無損編碼模式,或在逐幀、逐塊、逐瓦 塊或其它基礎(chǔ)上在編碼模式之間切換。MUX 490多路復(fù)用從音頻編碼器400的其它模塊接收到的輔助信息以及從熵編碼 器470、474接收到的經(jīng)熵編碼的數(shù)據(jù)。MUX 490包括用于速率控制或其它目的的一個或多 個緩沖器。D.第二音頻解碼器參考圖5,第二音頻解碼器500接收壓縮音頻信息的比特流505。比特流505包括 經(jīng)熵編碼的數(shù)據(jù)以及輔助信息,解碼器500從這些數(shù)據(jù)和信息中重構(gòu)音頻樣本595。DEMUX 510解析比特流505中的信息并將該信息發(fā)送到解碼器500的諸模塊。 DEMUX 510包括一個或多個緩沖器以補償由于音頻復(fù)雜性波動、網(wǎng)絡(luò)抖動和/或其它因素 而產(chǎn)生的比特率短期變化。熵解碼器520無損地解壓從DEMUX 510接收到的熵代碼,通常應(yīng)用編碼器400中 使用的熵編碼技術(shù)的逆過程。當(dāng)解碼以有損編碼模式壓縮的數(shù)據(jù)時,熵解碼器520產(chǎn)生經(jīng) 量化的頻譜系數(shù)數(shù)據(jù)?;旌?純無損解碼器522和相關(guān)聯(lián)的熵解碼器520無損地解壓用于混合/純無損 編碼模式的無損編碼音頻數(shù)據(jù)。瓦塊配置解碼器530從DEMUX 590接收指示幀的瓦塊的模式的信息,并在必要時 對其解碼。瓦塊模式信息可被熵編碼或以其它方式參數(shù)化。瓦塊配置解碼器530然后將瓦塊模式信息傳遞到解碼器500的各其它模塊。多聲道逆變換器540從熵解碼器520接收經(jīng)量化的頻譜系數(shù)數(shù)據(jù),并從瓦塊配置 解碼器530接收小塊模式信息,并從DEMUX 510接收指示例如所使用的多聲道變換和已變 換的瓦塊部分的輔助信息。使用該信息,多聲道逆變換器540在必要時解壓變換矩陣,并向 音頻數(shù)據(jù)選擇性地且靈活地應(yīng)用一個或多個多聲道逆變換。逆量化器/加權(quán)器550從DEMUX 510接收諸如瓦塊和聲道量化因子等信息以及量 化矩陣,并從多聲道逆變換器540接收經(jīng)量化的頻譜系數(shù)數(shù)據(jù)。逆量化器/加權(quán)器550在 必要時解壓所接收的加權(quán)因子信息。量化器/加權(quán)器550然后執(zhí)行逆量化和加權(quán)。頻率逆變換器560接收由逆量化器/加權(quán)器550輸出的頻譜系數(shù)數(shù)據(jù),以及來自 DEMUX 510的輔助信息和來自瓦塊配置解碼器530的瓦塊模式信息。頻率逆變換器570應(yīng) 用編碼器中使用的頻率變換的逆過程,并向重疊器/累加器570輸出各塊。除了從瓦塊配置解碼器530接收瓦塊模式信息之外,重疊器/累加器570還從頻 率逆變換器560和/或混合/純無損解碼器522接收已解碼信息。重疊器/累加器570在 必要時重疊并累加音頻數(shù)據(jù),并交織用不同模式編碼的幀或其它音頻數(shù)據(jù)序列。多聲道后處理器580可任選地重新矩陣化由重疊器/累加器570輸出的時域音頻 樣本。對于受比特流控制的后處理,后處理變換矩陣隨時間變化,且在比特流505中用信號 表示或包括在其中。III.可變子幀大小上的可逆調(diào)制重疊變換如上討論的,代表性編碼器(例如,瓦塊配置器42 使用變化的子幀大小來編碼 音頻信號,諸如以便在為了避免前回聲效應(yīng)而對音頻中的瞬變使用較小子幀大小和為了編 碼效率而使用較大子幀大小之間進行平衡。編碼器可采用各種技術(shù)來自適應(yīng)地選擇子幀大 小,諸如由Chen等人在美國專利申請公開號US-2003-0115052-Al“ADAPTIVE WINDOW-SIZE SELECTION IN TRANSFORM C0DING(變換編碼中的自適應(yīng)窗口大小選擇)”中所描述地那樣。圖6)示出了代表性編碼器所產(chǎn)生的示例子幀配置,其中音頻樣本的一部分被劃 分成各自具有256、512、512、10M和512個樣本大小的子幀611-615。圖6)中所示的子幀 大小僅僅表示示例性編碼器實現(xiàn)中可用的子幀大小選擇,并且是出于說明目的而選擇的。 在各種替換編碼器實現(xiàn)中,編碼器可使用其他的子幀大小和/或?qū)ψ訋笮〉母嗷蚋?選擇。還是如上討論的,代表性編碼器對音頻樣本應(yīng)用頻率變換(例如,通過頻率變換 器430)。該代表性編碼器中所使用的頻率變換是一種類型的調(diào)制重疊變換(MLT),諸如修 正離散余弦變換(MDCT)。這種對每一個子幀的MLT與先前和后續(xù)子幀中的樣本重疊。換言 之,除了當(dāng)前子幀中的樣本之外,該變換還從先前和后續(xù)子幀中的樣本的重疊部分中獲取 輸入。在此示例中,使用等于較小子幀(即,相鄰子幀大小和當(dāng)前子幀大小中的較小者)的 一半大小的重疊。例如,子幀612(大小為512個樣本)的重疊是前一子幀(其具有為256 個樣本的較小的大小)的1 個子幀。另一方面,子幀615(具有512個樣本)小于其前一 子幀614 (具有IOM個樣本),并因此使用前一子幀614的256個樣本的重疊。在替換實現(xiàn) 中,編碼器可使用具有來自先前和后續(xù)子幀的不同重疊量的MLT (例如,較小子幀大小的四 分之一等)。如從此示例可以看出的,選擇三種子幀大小導(dǎo)致較大數(shù)目的先前、當(dāng)前及后續(xù) 子幀大小組合,并由此產(chǎn)生對于子幀的重疊變換大小的較大置換。
在編碼器的無損壓縮情形中,MLT合需地具有可逆整數(shù)-整數(shù)變換實現(xiàn)。以下描 述解決了對于子幀大小的各種組合如何導(dǎo)出這樣的可逆整數(shù)-整數(shù)變換實現(xiàn)。每種子幀大 小組合的調(diào)制重疊變換是通過因式分解成跨越子幀的重疊加窗變換711-714(圖7中所示) 與應(yīng)用于子幀的塊變換811-815(圖8中所示)的組合來產(chǎn)生的。IV.調(diào)制重疊變換的因式分解以下小節(jié)給出用于理解和實現(xiàn)諸如MLT等特定重疊正交變換的簡單方法。 MLT(MCLT的實部)可被寫為以下正交變換(負(fù)號是任意的,但由于其匹配音頻編解碼器中 常用的變換的定義(比例因子除外)而添加)。
權(quán)利要求
1.一種編碼音頻信號的方法,所述方法包括接收包括時域音頻樣本序列的音頻信號G05)的輸入;將所述音頻信號劃分成具有至少兩個不同子幀大小的子幀(611-615);對所述不同大小的子幀執(zhí)行具有可逆的整數(shù)輸入至整數(shù)輸出的重疊變換G30),其中 所述重疊變換被實現(xiàn)為應(yīng)用于具有相應(yīng)子幀大小的子幀的可逆塊變換與使相應(yīng)相鄰子幀 重疊的可逆塊旋轉(zhuǎn)變換的組合,其中每一個可逆塊旋轉(zhuǎn)變換重疊至多所述重疊相鄰子幀中 的較小子幀的一半,其中所述對子幀的可逆塊變換和與相鄰子幀進行重疊的可逆塊旋轉(zhuǎn)變 換是所述重疊變換的因式分解;將所得變換系數(shù)編碼為壓縮比特流095)。
2.如權(quán)利要求1所述的方法,其特征在于,所述重疊變換是調(diào)制重疊變換。
3.如權(quán)利要求2所述的方法,其特征在于,所述重疊變換是修正離散余弦變換。
4.如權(quán)利要求3所述的方法,其特征在于,所述塊變換是基于塊的DCT-IV型變換,并且 所述可逆塊旋轉(zhuǎn)變換是單級蝶形型變換。
5.如權(quán)利要求1所述的方法,其特征在于,所述對子幀的重疊變換在前相鄰子幀和后 相鄰子幀大小不同的情況下被因式分解成用于使所述前后相鄰子幀重疊的不同大小的可 逆塊旋轉(zhuǎn)變換。
6.一種解碼音頻信號的方法,所述方法包括解碼被劃分成不同大小的子幀(611-615)的音頻信號(50 的變換系數(shù);對所述不同大小的子幀執(zhí)行具有可逆的整數(shù)輸入至整數(shù)輸出的重疊變換(560),其中 所述重疊變換被實現(xiàn)為應(yīng)用于具有相應(yīng)子幀大小的子幀的可逆塊變換與使相應(yīng)相鄰子幀 重疊的可逆塊旋轉(zhuǎn)變換的組合,其中每一個可逆塊旋轉(zhuǎn)變換重疊至多所述重疊相鄰子幀中 的較小子幀的一半,其中所述對子幀的可逆塊變換和與相鄰子幀進行重疊的可逆塊旋轉(zhuǎn)變 換是所述重疊變換的因式分解;從經(jīng)逆變換的變換系數(shù)產(chǎn)生時域音頻信號的音頻樣本;以及輸出所述音頻信號(595)。
7.如權(quán)利要求6所述的方法,其特征在于,所述重疊變換是調(diào)制重疊變換。
8.如權(quán)利要求7所述的方法,其特征在于,所述重疊變換是修正離散余弦變換。
9.如權(quán)利要求8所述的方法,其特征在于,所述塊變換是基于塊的DCT-IV型變換,且所 述可逆塊旋轉(zhuǎn)變換是單級蝶形型變換。
10.如權(quán)利要求9所述的方法,其特征在于,所述對子幀的重疊變換在前相鄰子幀和后 相鄰子幀大小不同的情況下被因式分解成用于使所述前后相鄰子幀重疊的不同大小的可 逆塊旋轉(zhuǎn)變換。
11.一種導(dǎo)出重疊變換的可逆整數(shù)輸入/整數(shù)輸出實現(xiàn)以便處理被劃分成多種不同大 小的子幀的輸入音頻信號的的方法,所述方法包括將所述重疊變換G30)因式分解成用于使相鄰子幀(611-615)重疊的 重疊區(qū)(711-714)的重疊加窗變換與用于所述子幀的塊變換(811-815)的組 合,其中所述因式分解包括,將用于給定子幀的重疊變換的表示形成為具有形式的矩形線性變換矩陣A,其中所述矩陣中的每一個子4。-l) Aj 4(7+1) 4(y+2)塊是對應(yīng)所述子幀的大小N的Ν/2 χ Ν/2矩陣,且i、j是所述矩陣子塊的索引,并且其中所 述矩陣具有性質(zhì)= AAtw ;將所述矩形線性變換矩陣A因式分解成卜船-D cO-OJ形式的重疊加窗變換矩陣C和形式的塊變換矩陣B,其中所述因式分解包括對以下關(guān)系求解B(M)J B(M)U+\), cKj-V) = Bij ^i(J-I)Cij = Bij Aij;B(M)j = A'+W-i^'j^iU-n接收具有所述子幀的音頻信號005)的輸入;以及 對所述子幀及其在前相鄰子幀應(yīng)用所述重疊加窗變換矩陣C ;以及 對所述子幀應(yīng)用所述塊變換矩陣B。
全文摘要
音頻編碼器/解碼器使用具有可逆實現(xiàn)的重疊加窗變換與塊變換的組合以提供可逆的、整數(shù)-整數(shù)形式的重疊變換。該可逆重疊變換準(zhǔn)許對具有可變子幀大小的音頻信號進行有損和無損變換域編碼。
文檔編號H03M7/30GK102047564SQ200980120953
公開日2011年5月4日 申請日期2009年5月22日 優(yōu)先權(quán)日2008年5月30日
發(fā)明者S·梅若特拉 申請人:微軟公司