使用零輸入響應(yīng)以獲得平滑過渡的音頻解碼器、方法及計(jì)算機(jī)程序與流程

文檔序號：11161291閱讀：481來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

使用零輸入響應(yīng)以獲得平滑過渡的音頻解碼器、方法及計(jì)算機(jī)程序與制造工藝

根據(jù)本發(fā)明的實(shí)施例涉及一種用于基于編碼的音頻信息提供解碼的音頻信息的音頻解碼器。

根據(jù)本發(fā)明的另一實(shí)施例涉及一種用于基于編碼的音頻信息提供解碼的音頻信息的方法。

根據(jù)本發(fā)明的另一實(shí)施例涉及一種用于執(zhí)行所述方法的計(jì)算機(jī)程序。

大體而言，根據(jù)本發(fā)明的實(shí)施例涉及在切換音頻編碼中處理從CELP編解碼器至基于MDCT的編解碼器的過渡。

2.

背景技術(shù)：

近年來，對于傳輸及儲(chǔ)存編碼的音頻信息的需求日益增長。對于包括語音及一般音頻(如(例如)音樂、背景噪聲及類似)的音頻信號的音頻編碼及音頻解碼的需求也在增長。

為了改進(jìn)編碼質(zhì)量且為了改進(jìn)比特率效率，已引入在不同寫碼(coding)方案之間切換的切換(或切換的)音頻編解碼器，使得(例如)第一幀是使用第一編碼概念(例如，基于CELP的寫碼概念)而被編碼的，并使得隨后的第二音頻幀是使用不同的第二寫碼概念(例如，基于MDCT的寫碼概念)而被編碼的。換言之，切換可存在于在線性預(yù)測寫碼域中編碼(例如，使用基于CELP的寫碼概念)與在頻域中寫碼(例如，基于諸如(例如)FFT變換、逆FFT變換、MDCT變換或逆MDCT變換的時(shí)域至頻域變換或頻域至?xí)r域變換的寫碼)之間。例如，第一寫碼概念可為基于CELP的寫碼概念、基于ACELP的寫碼概念、基于變換寫碼激勵(lì)線性預(yù)測域(transform-coded-excitation-linear-prediction-domain)的寫碼概念或類似。第二寫碼概念可(例如)為基于FFT的寫碼概念、基于MDCT的寫碼概念、基于AAC的寫碼概念或可被視為基于AAC的寫碼概念的后繼概念的寫碼概念。

下面將描述常規(guī)音頻寫碼器(編碼器和/或解碼器)的一些示例。

切換音頻編解碼器(如(例如)MPEG USAC)基于兩個(gè)主音頻寫碼方案。一個(gè)寫碼方案為(例如)針對語音信號的CELP編解碼器。另一寫碼方案為(例如)針對所有其他音頻信號(例如，音樂、背景噪聲)的基于MDCT的編解碼器(下文簡稱為MDCT)。對于混合內(nèi)容信號(例如，覆于音樂上的語音)，編碼器(以及因此的解碼器)往往在兩個(gè)編碼方案之間切換。就在從一個(gè)模式(或編碼方案)切換至另一模式時(shí)有必要避免任何人為現(xiàn)象(artifact)(例如，歸因于不連續(xù)的點(diǎn)擊)。

切換音頻編解碼器可(例如)包括由CELP至MDCT的過渡引起的問題。

通常，CELP至MDCT的過渡引入兩個(gè)問題。由于遺失先前MDCT幀，可以引入混疊。由于以低/中等比特率操作的兩個(gè)寫碼方案的不完美的波形寫碼本質(zhì)，可在CELP幀與MDCT幀之間的邊界處引入不連續(xù)。

已存在解決由CELP至MDCT的過渡引入的問題的若干方法，并將在下文予以論述。

在Jeremie Lecomte、Philippe Gournay、Ralf Geiger、Bruno Bessette及Max Neuendorf的文章“Efficient cross-fade windows for transitions between LPC-based and non-LPC based audio coding”(于第126期AES Convention上提出，2009年5月，第771頁)中描述一種可能的方法。此文章在4.4.2章“ACELP至non-LPD模式”中描述一種方法。也可參考(例如)所述文章的圖8。首先通過增加MDCT長度(此處從1024增至1152)以使得MDCT左折疊點(diǎn)(folding point)在CELP幀與MDCT幀之間的邊界的左側(cè)移動(dòng)，然后通過改變MDCT窗口的左側(cè)部分以使得重疊減少，及最后通過使用CELP信號及重疊相加操作人工引入遺失混疊來解決混疊問題。通過重疊相加操作同時(shí)解決不連續(xù)問題。

此方法作用良好，但具有在CELP解碼器中引入延遲的缺點(diǎn)，該延遲等于重疊長度(此處：128個(gè)樣本)。

另一方法描述于Bruno Bessette的標(biāo)注日期為2014年5月13日且標(biāo)題為“Forward time domain aliasing cancellation with application in weighted or original signal domain”的US 8,725,503B2中。

在此方法中，未改變MDCT長度(也不改變MDCT窗口形狀)。在此通過使用單獨(dú)的基于變換的編碼器對混疊修正信號進(jìn)行編碼來解決混疊問題。將額外旁側(cè)信息比特發(fā)送至比特流。該解碼器重構(gòu)混疊修正信號并將其添加至解碼的MDCT幀。另外，CELP合成濾波器的零輸入響應(yīng)(ZIR)用于降低混疊修正信號的幅度并提升寫碼效率。ZIR也有助于顯著減少不連續(xù)問題。

此方法也作用良好，但缺點(diǎn)在于其需要大量額外旁側(cè)信息并且所需比特?cái)?shù)通常是可變的，這不適用于恒定比特率編解碼器。

另一方法描述于Stephane Ragot、Balazs Kovesi及Pierre Berthet的標(biāo)注日期為2013年10月31日且標(biāo)題為“Low-delay sound-encoding alternating between predictive encoding and transform encoding”的美國專利申請US 2013/0289981A1中。根據(jù)所述方法，不改變MDCT，但改變MDCT窗口的左側(cè)部分以降低重疊長度。為解決混疊問題，使用CELP編解碼器對MDCT幀的開始進(jìn)行寫碼，且隨后使用CELP信號以通過完全替換MDCT信號或通過人工引入遺失混疊分量來抵消混疊(類似于上文所提及的Jeremie Lecomte等人的文章)。當(dāng)使用類似于Jeremie Lecomte等人的文章的方法時(shí)通過重疊相加操作解決不連續(xù)問題，否則通過CELP信號與MDCT信號之間的簡單交叉漸入漸出(cross-fade)操作來解決。

類似于US 8,725,503B2，此方法通常作用良好，但缺點(diǎn)在于其需要由額外CELP引入的大量旁側(cè)信息。

鑒于上面所描述的常規(guī)解決方案，需要具有包括用于在不同寫碼模式之間切換的改進(jìn)特性(例如，在比特率開銷、延遲及復(fù)雜度之間的改進(jìn)權(quán)衡)的概念。

3.

技術(shù)實(shí)現(xiàn)要素：

根據(jù)本發(fā)明的實(shí)施例發(fā)明一種用于基于編碼的音頻信息提供解碼的音頻信息的音頻解碼器。該音頻解碼器包括：線性預(yù)測域解碼器，其用于基于在線性預(yù)測域中編碼的音頻幀提供第一解碼的音頻信息；以及頻域解碼器，其用于基于在頻域中編碼的音頻幀提供第二解碼的音頻信息。音頻解碼器還包括過渡處理器。過渡處理器用于獲得線性預(yù)測濾波的零輸入響應(yīng)，其中根據(jù)第一解碼的音頻信息及第二解碼的音頻信息定義線性預(yù)測濾波的初始狀態(tài)。過渡處理器還用于根據(jù)零輸入響應(yīng)修改第二解碼的音頻信息以獲得在第一解碼的音頻信息與經(jīng)修改的第二解碼的音頻信息之間的平滑過渡，其中第二解碼的音頻信息是基于跟在在線性預(yù)測域中編碼的音頻幀之后的在頻域中編碼的音頻幀而被提供的。

此音頻解碼器基于以下發(fā)現(xiàn)：假如線性預(yù)測濾波的初始狀態(tài)考慮第一解碼的音頻信息及第二解碼的音頻信息，可通過使用線性預(yù)測濾波器的零輸入響應(yīng)修改第二解碼的音頻信息來實(shí)現(xiàn)在線性預(yù)測域中編碼的音頻幀與在頻域中編碼的隨后音頻幀之間的平滑過渡。相應(yīng)地，可調(diào)適(修改)第二解碼的音頻信息，以使得經(jīng)修改的第二解碼的音頻信息的開始類似于第一解碼的音頻信息的結(jié)束，這有助于減少或甚至避免在第一音頻幀與第二音頻幀之間的實(shí)質(zhì)不連續(xù)。當(dāng)相比于上文所描述的音頻解碼器時(shí)，即使第二解碼的音頻信息不包括任何混疊，此概念是大體上可適用的。此外，應(yīng)注意的是，術(shù)語“線性預(yù)測濾波”可表示線性預(yù)測濾波器的單一應(yīng)用及線性預(yù)測濾波器的多個(gè)應(yīng)用，其中應(yīng)注意的是，線性預(yù)測濾波的單一應(yīng)用通常等效于同一線性預(yù)測濾波器的多個(gè)應(yīng)用，因?yàn)榫€性預(yù)測濾波器通常是線性的。

總之，上文所提及的音頻解碼器允許獲得在線性預(yù)測域中編碼的第一音頻幀與在頻域(或變換域)中編碼的隨后第二音頻幀之間的平滑過渡，其中未引入延遲，且其中計(jì)算工作量相對較小。

根據(jù)本發(fā)明的另一實(shí)施例發(fā)明一種用于基于編碼的音頻信息提供解碼的音頻信息的音頻解碼器。音頻解碼器包括線性預(yù)測域解碼器，用于基于在線性預(yù)測域中(或，等效地，在線性預(yù)測域表示中)編碼的音頻幀提供第一解碼的音頻信息。音頻解碼器還包括頻域解碼器，用于基于在頻域中(或，等效地，在頻域表示中)編碼的音頻幀提供第二解碼的音頻信息。音頻解碼器還包括過渡處理器。過渡處理器用于響應(yīng)于由第一解碼的音頻信息定義的線性預(yù)測濾波器的第一初始狀態(tài)獲得線性預(yù)測濾波器的第一零輸入響應(yīng)，并響應(yīng)于由第一解碼的音頻信息的經(jīng)修改版本定義的線性預(yù)測濾波器的第二初始狀態(tài)獲得線性預(yù)測濾波器的第二零輸入響應(yīng)，該經(jīng)修改版本具有人工混疊且包括第二解碼的音頻信息的貢獻(xiàn)部分(a contribution of a portion)?？蛇x地，過渡處理器用于響應(yīng)于由第一解碼的音頻信息及第一解碼的音頻信息的經(jīng)修改版本的組合定義的線性預(yù)測濾波器的初始狀態(tài)獲得線性預(yù)測濾波器的組合零輸入響應(yīng)，該經(jīng)修改版本具有人工混疊且包括第二解碼的音頻信息的貢獻(xiàn)部分。過渡處理器還用于根據(jù)第一零輸入響應(yīng)及第二零輸入響應(yīng)或根據(jù)組合零輸入響應(yīng)，修改基于跟在在線性預(yù)測域中編碼的音頻幀之后的在頻域中編碼的音頻幀所提供的第二解碼的音頻信息，以獲得在第一解碼的音頻信息與經(jīng)修改的第二解碼的音頻信息之間的平滑過渡。

根據(jù)本發(fā)明的此實(shí)施例基于以下發(fā)現(xiàn)：可通過基于作為線性預(yù)測濾波器的零輸入響應(yīng)的信號修改第二解碼的音頻信息，獲得在線性預(yù)測域中編碼的音頻幀與在頻域中(或，通常，在變換域中)編碼的隨后音頻幀之間的平滑過渡，通過第一解碼的音頻信息及第二解碼的音頻信息定義線性預(yù)測濾波器的初始狀態(tài)。該線性預(yù)測濾波器的輸出信號可被用于調(diào)適第二解碼的音頻信息(例如，緊跟在第一音頻幀與第二音頻幀之間的過渡之后的第二解碼的音頻信息的初始部分)，使得在第一解碼的音頻信息(與在線性預(yù)測域中編碼的音頻幀相關(guān)聯(lián))與經(jīng)修改的第二解碼的音頻信息(與在頻域中或在變換域中編碼的音頻幀相關(guān)聯(lián))之間存在平滑過渡而無需修正第一解碼的音頻信息。

已發(fā)現(xiàn)，由于線性預(yù)測濾波器的初始狀態(tài)是基于第一解碼的音頻信息及第二解碼的音頻信息，線性預(yù)測濾波器的零輸入響應(yīng)很好地適用于提供平滑過渡，其中通過人工混疊補(bǔ)償?shù)诙獯a的音頻信息中包含的混疊，將該人工混疊被引入至第一解碼的音頻信息的經(jīng)修改版本中。

并且，已發(fā)現(xiàn)，通過基于第一零輸入響應(yīng)及第二零輸入響應(yīng)或根據(jù)組合零輸入響應(yīng)修改第二解碼的音頻信息，同時(shí)使第一解碼的音頻信息不變，無需解碼延遲，因?yàn)榈谝涣爿斎腠憫?yīng)及第二零輸入響應(yīng)或組合零輸入響應(yīng)極其良好地適于平滑化在線性預(yù)測域中編碼的音頻幀與在頻域(或變換域)中編碼的隨后音頻幀之間的過渡，而不改變第一解碼的音頻信息，由于第一零輸入響應(yīng)及第二零輸入響應(yīng)或組合零輸入響應(yīng)修改第二解碼的音頻信息，從而第二解碼的音頻信息至少在線性預(yù)測域中編碼的音頻幀與頻域中編碼的隨后音頻幀之間的過渡處大體類似于第一解碼的音頻信息。

總之，根據(jù)本發(fā)明的上文所描述的實(shí)施例允許提供在線性預(yù)測寫碼域中編碼的音頻幀與在頻域(或變換域)中編碼的隨后音頻幀之間的平滑過渡，其中避免了額外延遲的引入，因?yàn)閮H修改了第二解碼的音頻信息(與在頻域中編碼的隨后音頻幀相關(guān)聯(lián))，且其中可通過使用第一零輸入響應(yīng)及第二零輸入響應(yīng)或組合零輸入響應(yīng)實(shí)現(xiàn)過渡的良好質(zhì)量(無實(shí)質(zhì)的人工現(xiàn)象)，此導(dǎo)致對第一解碼的音頻信息及第二音頻信息的考慮。

在優(yōu)選的實(shí)施例中，頻域解碼器用于執(zhí)行逆交疊變換，以使得第二解碼的音頻信息包括混疊。已發(fā)現(xiàn)，即使在頻域解碼器(或變換域解碼器)引入混疊的情況下，以上發(fā)明概念也尤其良好地作用。已發(fā)現(xiàn)，可通過在第一解碼的音頻信息的經(jīng)修改版本中提供人工混疊以適中的工作量及良好結(jié)果來抵消所述混疊。

在優(yōu)選的實(shí)施例中，頻域解碼器用于執(zhí)行逆交疊變換，使得第二解碼的音頻信息包括時(shí)間部分中的混疊，該時(shí)間部分在時(shí)間上與線性預(yù)測域解碼器為之提供了第一解碼的音頻信息的時(shí)間部分重疊，且使得對于跟在線性預(yù)測域解碼器為之提供了第一解碼的音頻信息的時(shí)間部分之后的時(shí)間部分第二解碼的音頻信息是無混疊的。根據(jù)本發(fā)明的本實(shí)施例基于以下想法：使用交疊變換(或逆交疊變換)及保持該時(shí)間部分(沒有為該時(shí)間部分提供第一解碼的音頻信息)無混疊的窗口化是有利的。已發(fā)現(xiàn)，若無需為時(shí)間(沒有為該時(shí)間提供第一解碼的音頻信息)提供混疊消除信息，則可以以較小計(jì)算工作量提供第一零輸入響應(yīng)及第二零輸入響應(yīng)或組合零輸入響應(yīng)。換言之，優(yōu)選地，基于初始狀態(tài)，大體上抵消混疊(例如，使用人工混疊)的初始狀態(tài)，提供第一零輸入響應(yīng)及第二零輸入響應(yīng)或組合零輸入響應(yīng)。因此，第一零輸入響應(yīng)及第二零輸入響應(yīng)或組合零輸入響應(yīng)大體上是無混疊的，以使得期望在對于跟在線性預(yù)測域解碼器為之提供了第一解碼的音頻信息的時(shí)段之后的時(shí)段，第二解碼的音頻信息內(nèi)不具有混疊。關(guān)于此問題，應(yīng)注意的是，通常為跟在線性預(yù)測域解碼器為之提供了第一解碼的音頻信息的時(shí)段之后的所述時(shí)段提供第一零輸入響應(yīng)及第二零輸入響應(yīng)或組合零輸入響應(yīng)，因?yàn)榭紤]到第二解碼的音頻信息及通?？紤]到補(bǔ)償包含在用于“重疊”時(shí)段的第二解碼的音頻信息中的混疊的人工混疊，第一零輸入響應(yīng)及第二零輸入響應(yīng)或組合零輸入響應(yīng)大體上為第一解碼的音頻信息的衰落接續(xù)。

在優(yōu)選的實(shí)施例中，第二解碼的音頻信息的用于獲得第一解碼的音頻信息的經(jīng)修改版本的部分包括混疊。通過允許第二解碼的音頻信息內(nèi)的一些混疊，可保持窗口化簡單，且可避免對在頻域中編碼的音頻幀進(jìn)行編碼所需的信息的過量增加。第二解碼的音頻信息的用于獲得第一解碼的音頻信息的經(jīng)修改版本的部分中所包括的混疊可通過上文所提及的人工混疊得到補(bǔ)償，從而音頻質(zhì)量不存在嚴(yán)重降級。

在優(yōu)選的實(shí)施例中，用于獲得第一解碼的音頻信息的經(jīng)修改版本的人工混疊至少部分補(bǔ)償?shù)诙獯a的音頻信息的用于獲得第一解碼的音頻信息的經(jīng)修改版本的部分中所包括的混疊。因此，可獲得良好音頻質(zhì)量。

在優(yōu)選的實(shí)施例中，過渡處理器用于對第一解碼的音頻信息施加第一窗口化，以獲得第一解碼的音頻信息的窗口化版本，且對第一解碼的音頻信息的時(shí)間鏡像版本施加第二窗口化，以獲得第一解碼的音頻信息的時(shí)間鏡像版本的窗口化版本。在此情況下，該過渡處理器可用于組合第一解碼的音頻信息的窗口化版本及第一解碼的音頻信息的時(shí)間鏡像版本的窗口化版本，以便獲得第一解碼的音頻信息的經(jīng)修改版本。根據(jù)本發(fā)明的此實(shí)施例基于以下想法：應(yīng)施加一些窗口化以便獲得第一解碼的音頻信息的經(jīng)修改版本中的混疊的適當(dāng)?shù)窒?，其用作用于提供零輸入響?yīng)的輸入。相應(yīng)地，可達(dá)成零輸入響應(yīng)(例如，第二零輸入響應(yīng)或組合零輸入響應(yīng))極其良好地適用于在線性預(yù)測寫碼域中編碼的音頻信息與在頻域中編碼的隨后音頻幀之間的過渡的平滑化。

在優(yōu)選的實(shí)施例中，對于線性預(yù)測域解碼器并未為之提供第一解碼的音頻信息的時(shí)間部分，過渡處理器用于將第二解碼的音頻信息與第一零輸入響應(yīng)及第二零輸入響應(yīng)，或與組合零輸入響應(yīng)線性地組合，以便獲得經(jīng)修改的第二解碼的音頻信息。已發(fā)現(xiàn)，簡單線性組合(例如，簡單相加和/或相減，或加權(quán)線性組合，或交叉漸入漸出線性組合)很好地適用于平滑過渡的提供。

在優(yōu)選的實(shí)施例中，過渡處理器用于在為在線性預(yù)測域中編碼的音頻幀提供解碼的音頻信息時(shí)，使第一解碼的音頻信息不被第二解碼的音頻信息改變，以使得獨(dú)立于為在頻域中編碼的隨后音頻幀提供的解碼的音頻信息而提供為在線性預(yù)測域中編碼的音頻幀提供的解碼的音頻信息。已發(fā)現(xiàn)，根據(jù)本發(fā)明的概念不需要基于第二解碼的音頻信息改變第一解碼的音頻信息以便獲得足夠平滑的過渡。因此，通過使第一解碼的音頻信息不被第二解碼的音頻信息改變，可避免延遲，因?yàn)榧词乖谕瓿傻诙獯a的音頻信息(與在頻域中編碼的隨后音頻幀相關(guān)聯(lián))的解碼之前，第一解碼的音頻信息也可因此被提供用于渲染(例如，至收聽者)。相反，一旦第二解碼的音頻信息可用，即可計(jì)算零輸入響應(yīng)(第一零輸入響應(yīng)及第二零輸入響應(yīng)，或組合零輸入響應(yīng))。因此，可避免延遲。

在優(yōu)選的實(shí)施例中，音頻解碼器用于在解碼在頻域中編碼的音頻幀之前(或在完成解碼之前)，為在線性預(yù)測域中編碼的音頻幀提供完全解碼的音頻信息，在線性預(yù)測域中編碼的音頻幀之后跟著在頻域中編碼的音頻幀。由于未基于第二解碼的音頻信息修改第一解碼的音頻信息的事實(shí)，此概念是可能的且有助于避免任何延遲。

在優(yōu)選的實(shí)施例中，過渡處理器用于在根據(jù)窗口化的第一零輸入響應(yīng)及窗口化的第二零輸入響應(yīng)或根據(jù)窗口化的組合零輸入響應(yīng)而修改第二解碼的音頻信息之前，窗口化第一零輸入響應(yīng)及第二零輸入響應(yīng)或組合零輸入響應(yīng)。因此，可使過渡尤其平滑。并且，可避免由極長零輸入響應(yīng)導(dǎo)致的任何問題。

在優(yōu)選的實(shí)施例中，過渡處理器用于使用線性窗口將第一零輸入響應(yīng)及第二零輸入響應(yīng)或組合零輸入響應(yīng)窗口化。已發(fā)現(xiàn)，線性窗口的使用是簡單概念，但其仍然帶來良好聽覺印象。

根據(jù)本發(fā)明的實(shí)施例發(fā)明一種用于基于編碼的音頻信息提供解碼的音頻信息的方法。該方法包括執(zhí)行線性預(yù)測域解碼以基于在線性預(yù)測域中編碼的音頻幀提供第一解碼的音頻信息。該方法還包括執(zhí)行頻域解碼以基于在頻域中編碼的音頻幀提供第二解碼的音頻信息。該方法還包括響應(yīng)于由第一解碼的音頻信息定義的線性預(yù)測濾波的第一初始狀態(tài)獲得線性預(yù)測濾波的第一零輸入響應(yīng)，并響應(yīng)于由第一解碼的音頻信息的經(jīng)修改版本定義的線性預(yù)測濾波的第二初始狀態(tài)獲得線性預(yù)測濾波的第二零輸入響應(yīng)，該經(jīng)修改版本具備人工混疊且包括第二解碼的音頻信息的貢獻(xiàn)部分?？蛇x地，該方法包括響應(yīng)于由第一解碼的音頻信息及第一解碼的音頻信息的經(jīng)修改版本的組合定義的線性預(yù)測濾波的初始狀態(tài)獲得線性預(yù)測濾波的組合零輸入響應(yīng)，該經(jīng)修改版本具備人工混疊，且包括第二解碼的音頻信息的貢獻(xiàn)部分。該方法還包括根據(jù)第一零輸入響應(yīng)及第二零輸入響應(yīng)或根據(jù)組合零輸入響應(yīng)，修改基于跟在在線性預(yù)測域中編碼的音頻幀之后的在頻域中編碼的音頻幀所提供的第二解碼的音頻信息，以獲得在第一解碼的音頻信息與經(jīng)修改的第二解碼的音頻信息之間的平滑過渡。此方法基于與上文所描述的音頻解碼器類似的考慮因素且?guī)硐嗤瑑?yōu)勢。

本發(fā)明的另一實(shí)施例發(fā)明一種計(jì)算機(jī)程序，當(dāng)計(jì)算機(jī)程序在計(jì)算機(jī)上運(yùn)行時(shí)，該計(jì)算機(jī)程序用于執(zhí)行所述方法。

根據(jù)本發(fā)明的另一實(shí)施例發(fā)明一種用于基于編碼的音頻信息提供解碼的音頻信息的方法。該方法包括基于在線性預(yù)測域中編碼的音頻幀提供第一解碼的音頻信息。該方法還包括基于在頻域中編碼的音頻幀提供第二解碼的音頻信息。該方法還包括獲得線性預(yù)測濾波的零輸入響應(yīng)，其中根據(jù)第一解碼的音頻信息及第二解碼的音頻信息定義線性預(yù)測濾波的初始狀態(tài)。該方法還包含根據(jù)零輸入響應(yīng)，修改基于跟在在線性預(yù)測域中編碼的音頻幀之后的在頻域中編碼的音頻幀所提供的第二解碼的音頻信息，以獲得在第一解碼的音頻信息與經(jīng)修改的第二解碼的音頻信息之間的平滑過渡。

此方法基于與上文所描述的音頻解碼器相同的考慮因素。

根據(jù)本發(fā)明的另一實(shí)施例包括一種用于執(zhí)行所述方法的計(jì)算機(jī)程序。

4.附圖說明

隨后將參考附圖論述根據(jù)本發(fā)明的實(shí)施例，其中：

圖1展示根據(jù)本發(fā)明的實(shí)施例的音頻解碼器的示意性框圖；

圖2展示根據(jù)本發(fā)明的另一實(shí)施例的音頻解碼器的示意性框圖；

圖3展示根據(jù)本發(fā)明的另一實(shí)施例的音頻編碼器的示意性框圖；

圖4a展示在從MDCT編碼的音頻幀至另一MDCT編碼的音頻幀的過渡處的窗口的示意性表示；

圖4b展示用于從CELP編碼的音頻幀至MDCT編碼的音頻幀的過渡的窗口的示意性表示；

圖5a、圖5b及圖5c展示常規(guī)音頻解碼器中的音頻信號的圖形化表示；

圖6a、圖6b、圖6c及圖6d展示常規(guī)音頻解碼器中的音頻信號的圖形化表示；

圖7a展示基于先前CELP幀及第一零輸入響應(yīng)所獲得的音頻信號的圖形化表示；

圖7b展示作為先前CELP幀及第二零輸入響應(yīng)的第二版本的音頻信號的圖形化表示；

圖7c展示當(dāng)從當(dāng)前MDCT幀的音頻信號中減去第二零輸入響應(yīng)時(shí)所獲得的音頻信號的圖形化表示；

圖8a展示基于先前CELP幀所獲得的音頻信號的圖形化表示；

圖8b展示作為當(dāng)前MDCT幀的第二版本而獲得的音頻信號的圖形化表示；以及

圖8c展示作為基于先前CELP幀所獲得的音頻信號與作為MDCT幀的第二版本的音頻信號的組合的音頻信號的圖形化表示；

圖9展示根據(jù)本發(fā)明的實(shí)施例的用于提供解碼的音頻信息的方法的流程圖；以及

圖10展示根據(jù)本發(fā)明的另一實(shí)施例的用于提供解碼的音頻信息的方法的流程圖。

5.具體實(shí)施方式

5.1.根據(jù)圖1的音頻解碼器

圖1展示根據(jù)本發(fā)明的實(shí)施例的音頻解碼器100的示意性框圖。音頻編碼器100用于接收編碼的音頻信息110，其可(例如)包括在線性預(yù)測域中編碼的第一幀及在頻域中編碼的隨后第二幀。音頻解碼器100還用于基于編碼的音頻信息110提供解碼的音頻信息112。

音頻解碼器100包括線性預(yù)測域解碼器120，其用于基于在線性預(yù)測域中編碼的音頻幀提供第一解碼的音頻信息122。音頻解碼器100還包括頻域解碼器(或變換域解碼器130)，其用于基于在頻域中(或在變換域中)編碼的音頻幀提供第二解碼的音頻信息132。例如，線性預(yù)測域解碼器120可以是CELP解碼器、ACELP解碼器或基于激勵(lì)信號及基于線性預(yù)測濾波器特性(或?yàn)V波器系數(shù))的編碼表示執(zhí)行線性預(yù)測濾波的類似解碼器。

頻域解碼器130可以(例如)是AAC型解碼器或基于AAC型解碼的任何解碼器。例如，頻域解碼器(或變換域解碼器)可接收頻域參數(shù)(或變換域參數(shù))的編碼表示并基于該表示提供第二解碼的音頻信息。例如，頻域解碼器130可解碼頻域系數(shù)(或變換域系數(shù))，根據(jù)縮放因子縮放頻域系數(shù)(或變換域系數(shù))(其中縮放因子可以為不同頻帶提供，且可以以不同形式表示)，并執(zhí)行頻域至?xí)r域的轉(zhuǎn)換(或變換域至?xí)r域的轉(zhuǎn)換)，如(例如)逆快速傅里葉變換或逆改進(jìn)的離散余弦變換(逆MDCT)。

音頻解碼器100還包括過渡處理器140。過渡處理器140用于獲得線性預(yù)測濾波的零輸入響應(yīng)，其中根據(jù)第一解碼的音頻信息及第二解碼的音頻信息定義線性預(yù)測濾波的初始狀態(tài)。此外，過渡處理器140用于根據(jù)零輸入響應(yīng)，修改基于跟在在線性預(yù)測域中編碼的音頻幀之后的在頻域中編碼的音頻幀所提供的第二解碼的音頻信息132，以獲得在第一解碼的音頻信息與經(jīng)修改的第二解碼的音頻信息之間的平滑過渡。

例如，過渡處理器140可包括初始狀態(tài)判定144，其接收第一解碼的音頻信息122及第二解碼的音頻信息132且基于該信息提供初始狀態(tài)信息146。過渡處理器140還包括線性預(yù)測濾波148，其接收初始狀態(tài)信息146且基于該信息提供零輸入響應(yīng)150。例如，線性預(yù)測濾波可由線性預(yù)測濾波器執(zhí)行，該線性預(yù)測濾波器基于初始狀態(tài)信息146被初始化且具備零輸入。相應(yīng)地，線性預(yù)測濾波提供零輸入響應(yīng)150。過渡處理器140還包括修改152，其根據(jù)零輸入響應(yīng)150修改第二解碼的音頻信息132，以借此獲得經(jīng)修改的第二解碼的音頻信息142，其構(gòu)成過渡處理器140的輸出信息。經(jīng)修改的第二解碼的音頻信息142通常與第一解碼的音頻信息122串接以獲得解碼的音頻信息112。

關(guān)于音頻解碼器100的功能，應(yīng)考慮以下情況：在線性預(yù)測域中編碼的音頻幀(第一音頻幀)之后跟著在頻域中編碼的音頻幀(第二音頻幀)。在線性預(yù)測域中編碼的第一音頻幀將由線性預(yù)測域解碼器120解碼。相應(yīng)地，獲得第一解碼的音頻信息122，其與第一音頻幀相關(guān)聯(lián)。然而，與第一音頻幀相關(guān)聯(lián)的解碼的音頻信息122通常保持不受基于第二音頻幀解碼的任何音頻信息的影響，該第二音頻幀在頻域中被編碼。然而，基于在頻域中編碼的第二音頻幀，頻域解碼器130提供第二解碼的音頻信息132。

遺憾的是，與第二音頻幀相關(guān)聯(lián)的第二解碼的音頻信息132通常不包括與關(guān)聯(lián)于第一解碼的音頻信息的第一解碼的音頻信息122的平滑過渡。

然而，應(yīng)注意的是，為與關(guān)聯(lián)于第一音頻幀的時(shí)段重疊的時(shí)段提供第二解碼的音頻信息。通過初始狀態(tài)判定144評估為第一音頻幀的時(shí)間提供的第二解碼的音頻信息的部分(即第二解碼的音頻信息132的初始部分)。此外，初始狀態(tài)判定144還評估第一解碼的音頻信息的至少部分。相應(yīng)地，初始狀態(tài)判定144基于第一解碼的音頻信息的部分(與第一音頻幀的時(shí)間相關(guān)聯(lián)的那部分)及基于第二解碼的音頻信息的部分(第二解碼的音頻信息130的也與第一音頻幀的時(shí)間相關(guān)聯(lián)的那部分)來獲得初始狀態(tài)信息146。相應(yīng)地，根據(jù)第一解碼的信息132且還根據(jù)第二解碼的音頻信息提供初始狀態(tài)信息146。

應(yīng)注意的是，一旦第二解碼的音頻信息132(或初始狀態(tài)判定144所需的其至少初始部分)可用，即可提供初始狀態(tài)信息146。一旦初始狀態(tài)信息146可用，則也可執(zhí)行線性預(yù)測濾波148，因?yàn)榫€性預(yù)測濾波使用已從第一音頻幀的解碼而獲知的濾波系數(shù)。相應(yīng)地，一旦第二解碼的音頻信息132(或初始狀態(tài)判定144所需的其至少初始部分)可用，即可提供零輸入響應(yīng)150。此外，零輸入響應(yīng)150可用于修改與第二音頻幀的時(shí)間(而非第一音頻幀的時(shí)間)相關(guān)聯(lián)的第二解碼的音頻信息132的部分。相應(yīng)地，修改通常處于與第二音頻幀相關(guān)聯(lián)的時(shí)間的開始處的第二解碼的音頻信息的部分。因此，實(shí)現(xiàn)在第一解碼的音頻信息122(其通常結(jié)束于與第一音頻幀相關(guān)聯(lián)的時(shí)間結(jié)尾)與經(jīng)修改的第二解碼的音頻信息142之間的平滑過渡(其中優(yōu)選地舍棄具有與第一音頻幀相關(guān)聯(lián)的時(shí)間的第二解碼的音頻信息132的時(shí)間部分，且因此該時(shí)間部分優(yōu)選地僅用于提供用于線性預(yù)測濾波的初始狀態(tài)信息)。相應(yīng)地，整體解碼的音頻信息112可不具備延遲，此是由于未延遲提供第一解碼的音頻信息122(因?yàn)榈谝唤獯a的音頻信息122獨(dú)立于第二解碼的音頻信息132)，且因?yàn)橐坏┑诙獯a的音頻信息132可用，即可提供經(jīng)修改的第二解碼的音頻信息142。相應(yīng)地，即使存在從在線性預(yù)測域中編碼的音頻幀(第一音頻幀)至在頻域中編碼的音頻幀(第二音頻幀)的切換，也可在解碼的音頻信息112內(nèi)實(shí)現(xiàn)在不同音頻幀之間的平滑過渡。

然而，應(yīng)注意的是，可通過本文中所描述的特征及功能中的任一者對音頻解碼器100進(jìn)行補(bǔ)充。

5.2.根據(jù)圖2的音頻解碼器

圖2展示根據(jù)本發(fā)明的另一實(shí)施例的音頻解碼器的示意性框圖。音頻解碼器200用于接收編碼的音頻信息210，其可(例如)包括在線性預(yù)測域中(或等效地，在線性預(yù)測域表示中)編碼的一個(gè)或多個(gè)幀，及在頻域中(或等效地，在變換域中，或等效地在頻域表示中，或等效地在變換域表示中)編碼的一個(gè)或多個(gè)音頻幀。音頻解碼器200用于基于編碼的音頻信息210提供解碼的音頻信息212，其中解碼的音頻信息212可(例如)在時(shí)域表示中。

音頻解碼器200包括線性預(yù)測域解碼器220，其大體上等同于線性預(yù)測域解碼器120，以使得上文的解釋適用。因此，線性預(yù)測域解碼器210接收包含于編碼的音頻信息210中的在線性預(yù)測域表示中編碼的音頻幀，且基于在線性預(yù)測域表示中編碼的音頻幀提供第一解碼的音頻信息222，其通常呈時(shí)域音頻表示的形式(且其通常對應(yīng)于第一解碼的音頻信息122)。音頻解碼器200還包括大體上等同于頻率解碼器130的頻域解碼器230，以使得以上解釋適用。相應(yīng)地，頻域解碼器230接收在頻域表示中(或在變換域表示中)編碼的音頻幀且基于該幀提供通常呈時(shí)域表示的形式的第二解碼的音頻信息232。

音頻解碼器200還包括過渡處理器240，其用于修改第二解碼的音頻信息232，以借此得出經(jīng)修改的第二解碼的音頻信息242。

過渡處理器240用于響應(yīng)于由第一解碼的音頻信息222定義的線性預(yù)測濾波器的初始狀態(tài)獲得線性預(yù)測濾波器的第一零輸入響應(yīng)。過渡處理器還用于響應(yīng)于由第一解碼的音頻信息的經(jīng)修改版本定義的線性預(yù)測濾波器的第二初始狀態(tài)獲得線性預(yù)測濾波器的第二零輸入響應(yīng)，經(jīng)修改版本具備人工混疊且包括第二解碼的音頻信息232的貢獻(xiàn)部分。例如，過渡處理器240包括初始狀態(tài)判定242，其接收第一解碼的音頻信息222且其基于該信息提供第一初始狀態(tài)信息244。例如，第一初始狀態(tài)信息244可簡單地反映第一解碼的音頻信息222的部分，例如與關(guān)聯(lián)于第一音頻幀的時(shí)間部分的結(jié)尾鄰近的部分。過渡處理器240還可包括(第一)線性預(yù)測濾波246，其用于接收第一初始狀態(tài)信息244作為初始線性預(yù)測濾波器狀態(tài)，并用于基于第一初始狀態(tài)信息244提供第一零輸入響應(yīng)248。過渡處理器240還包括修改/混疊相加/組合250，其用于接收第一解碼的音頻信息222或其至少部分(例如，與關(guān)聯(lián)于第一音頻幀的時(shí)間部分的結(jié)尾鄰近的部分)，且還接收第二解碼的信息232或其至少部分(例如，在時(shí)間上布置在與第一音頻幀相關(guān)聯(lián)的時(shí)間部分的結(jié)尾的第二解碼的音頻信息232的時(shí)間部分，其中第二解碼的音頻信息被提供(例如)主要用于與第二音頻幀相關(guān)聯(lián)的時(shí)間部分，而且在某種程度上，用于與在線性預(yù)測域表示中編碼的第一音頻幀相關(guān)聯(lián)的時(shí)間部分的結(jié)尾)。修改/混疊相加/組合可(例如)修改第一解碼的音頻信息的時(shí)間部分，添加基于第一解碼的音頻信息的時(shí)間部分的人工混疊，以及還添加第二解碼的音頻信息的時(shí)間部分，以借此獲得第二初始狀態(tài)信息252。換言之，修改/混疊相加/組合可以是第二初始狀態(tài)判定的部分。第二初始狀態(tài)信息確定用于基于第二初始狀態(tài)信息提供第二零輸入響應(yīng)256的第二線性預(yù)測濾波254的初始狀態(tài)。

例如，第一線性預(yù)測濾波及第二線性預(yù)測濾波可使用濾波器設(shè)置(例如，濾波器系數(shù))，其由用于第一音頻幀(其在線性預(yù)測域表示中被編碼)的線性預(yù)測域解碼器220提供。換言之，第一線性預(yù)測濾波246及第二線性預(yù)測濾波254可執(zhí)行也由線性預(yù)測域解碼器220執(zhí)行以獲得與第一音頻幀相關(guān)聯(lián)的第一解碼的音頻信息222的相同線性預(yù)測濾波。然而，第一線性預(yù)測濾波246可設(shè)定為通過第一初始狀態(tài)判定244確定的值及第二線性預(yù)測濾波254的初始狀態(tài)可設(shè)定為通過第二初始狀態(tài)判定250(其包括修改/混疊相加/組合)確定的值。然而，可將線性預(yù)測濾波器246、254的輸入信號設(shè)定為零。相應(yīng)地，獲得第一零輸入響應(yīng)248及第二零輸入響應(yīng)256，以使得第一零輸入響應(yīng)及第二零輸入響應(yīng)基于第一解碼的音頻信息及第二解碼的音頻信息，并且是使用線性預(yù)測域解碼器220所使用的相同線性預(yù)測濾波器而被成形的。

過渡處理器240還包括修改258，其接收第二編碼的音頻信息232并根據(jù)第一零輸入響應(yīng)248及根據(jù)第二零輸入響應(yīng)256修改第二解碼的音頻信息232，以借此獲得經(jīng)修改的第二解碼的音頻信息242。例如，修改258可將第一零輸入響應(yīng)248與第二解碼的音頻信息232相加和/或從第二解碼的音頻信息232中減去第一零輸入響應(yīng)248，且可將第二零輸入響應(yīng)256與第二解碼的音頻信息相加或從第二解碼的音頻信息中減去第二零輸入響應(yīng)256，以獲得經(jīng)修改的第二解碼的音頻信息242。

例如，可為與第二音頻幀相關(guān)聯(lián)的時(shí)段提供第一零輸入響應(yīng)及第二零輸入響應(yīng)，以使得僅修改與第二音頻幀的時(shí)段相關(guān)聯(lián)的第二解碼的音頻信息的部分。此外，可在最終提供經(jīng)修改的第二解碼的音頻信息(基于零輸入響應(yīng))時(shí)舍棄與關(guān)聯(lián)于第一音頻幀的時(shí)間部分相關(guān)聯(lián)的第二解碼的音頻信息232的值。

此外，音頻解碼器200優(yōu)選地用于串接第一解碼的音頻信息222及經(jīng)修改的第二解碼的音頻信息242，以借此獲得整體解碼的音頻信息212。

關(guān)于音頻解碼器200的功能，參考以上對音頻解碼器100的解釋。此外，將在下文中參考其他附圖描述額外細(xì)節(jié)。

5.3.根據(jù)圖3的音頻解碼器

圖3展示根據(jù)本發(fā)明的實(shí)施例的音頻解碼器300的示意性框圖。音頻解碼器300類似于音頻解碼器200，以便僅詳細(xì)地描述差異。在其他方面，參考以上關(guān)于音頻解碼器200提出的解釋。

音頻解碼器300用于接收編碼的音頻信息310，其可對應(yīng)于編碼的音頻信息210。此外，音頻解碼器300用于提供解碼的音頻信息312，其可對應(yīng)于解碼的音頻信息212。

音頻解碼器300包括可對應(yīng)于線性預(yù)測域解碼器220的線性預(yù)測域解碼器320及對應(yīng)于頻域解碼器230的頻域解碼器330。線性預(yù)測域解碼器320(例如)基于在線性預(yù)測域中編碼的第一音頻幀提供第一解碼的音頻信息322。此外，頻域音頻解碼器330(例如)基于在頻域中(或在變換域中)編碼的第二音頻幀(其跟在第一音頻幀之后)提供第二解碼的音頻信息332。第一解碼的音頻信息322可對應(yīng)于第一解碼的音頻信息222，且第二解碼的音頻信息332可對應(yīng)于第二解碼的音頻信息232。

音頻解碼器300還包括過渡處理器340，其在其整體功能方面可對應(yīng)于過渡處理器340，且其可基于第二解碼的音頻信息332提供經(jīng)修改的第二解碼的音頻信息342。

過渡處理器340用于響應(yīng)于由第一解碼的音頻信息及第一解碼的音頻信息的經(jīng)修改版本的組合定義的線性預(yù)測濾波器的(組合)初始狀態(tài)獲得線性預(yù)測濾波器的組合零輸入響應(yīng)，該經(jīng)修改版本具備人工混疊且包括第二解碼的音頻信息的貢獻(xiàn)部分。此外，過渡處理器用于根據(jù)組合零輸入響應(yīng)，修改基于跟在在線性預(yù)測域中編碼的音頻幀之后的在頻域中編碼的音頻幀所提供的第二解碼的音頻信息，以獲得在第一解碼的音頻信息與經(jīng)修改的第二解碼的音頻信息之間的平滑過渡。

例如，過渡處理器340包含修改/混疊相加/組合342，其接收第一解碼的音頻信息322及第二解碼的音頻信息332，并基于該等信息提供組合初始狀態(tài)信息344。例如，修改/混疊相加/組合可被視為初始狀態(tài)判定。還應(yīng)注意的是，修改/混疊相加/組合342可執(zhí)行初始狀態(tài)判定242及初始狀態(tài)判定250的功能。組合初始狀態(tài)信息344可(例如)，等于(或至少對應(yīng)于)第一初始狀態(tài)信息244及第二初始狀態(tài)信息252的總和。相應(yīng)地，修改/混疊相加/組合342可(例如)將第一解碼的音頻信息322的部分與人工混疊組合且也可將其與第二解碼的音頻信息332的部分組合。此外，修改/混疊相加/組合342還可修改第一解碼的音頻信息的部分和/或添加第一解碼的音頻信息322的窗口化副本，如下文將更詳細(xì)地描述。相應(yīng)地，獲得組合初始狀態(tài)信息344。

過渡處理器340還包括線性預(yù)測濾波346，其接收組合初始狀態(tài)信息344及基于該信息向修改350提供組合零輸入響應(yīng)348。線性預(yù)測濾波346可(例如)執(zhí)行大體上與由線性預(yù)測解碼器320執(zhí)行的以獲得第一解碼的音頻信息322的線性預(yù)測濾波等同的線性預(yù)測濾波。然而，線性預(yù)測濾波346的初始狀態(tài)可由組合初始狀態(tài)信息344確定。同樣，用于提供組合零輸入響應(yīng)348的輸入信號可設(shè)定為零，使得線性預(yù)測濾波344基于組合初始狀態(tài)信息344提供零輸入響應(yīng)，(其中濾波參數(shù)或?yàn)V波系數(shù)是(例如)等同于被線性預(yù)測域解碼器320用來提供與第一音頻幀相關(guān)聯(lián)的第一解碼的音頻信息322的濾波參數(shù)或?yàn)V波系數(shù))。此外，組合零輸入響應(yīng)348用于修改第二解碼的音頻信息332，以借此得出經(jīng)修改的第二解碼的音頻信息342。例如，修改350可將組合零輸入響應(yīng)348與第二解碼的音頻信息332相加，或可從第二解碼的音頻信息中減去組合零輸入響應(yīng)。

然而，對于進(jìn)一步的細(xì)節(jié)，參考對音頻解碼器100、200的解釋及參考以下詳細(xì)解釋。

5.4.過渡概念的論述

在下文中，將描述關(guān)于從CELP幀至MDCT幀的過渡的一些細(xì)節(jié)，其可適用于音頻解碼器100、200、300中。

并且，將描述相較于常規(guī)概念的差異。

MDCT及窗口化-概述

在根據(jù)本發(fā)明的實(shí)施例中，通過增加MDCT長度(例如，用于跟在在線性預(yù)測域中編碼的音頻幀之后的在MDCT域中編碼的音頻幀)，以使得左折疊點(diǎn)(例如，使用逆MDCT變換基于MDCT系數(shù)集合重構(gòu)的時(shí)域音頻信號的折疊點(diǎn))在CELP幀與MDCT幀之間的邊界的左側(cè)移動(dòng)，從而解決混疊問題。(例如，相較于“正?！盡DCT窗口)還改變MDCT窗口(例如，應(yīng)用于使用逆MDCT變換基于MDCT系數(shù)集合重構(gòu)的時(shí)域音頻信號的窗口)的左側(cè)部分，從而減少重疊。

作為示例，圖4a及圖4b展示不同窗口的圖形化表示，其中圖4a展示用于從第一MDCT幀(即在頻域中編碼的第一音頻幀)至另一MDCT幀(即在頻域中編碼的第二音頻幀)的過渡的窗口。相反，圖4b展示用于從CELP幀(即在線性預(yù)測域中編碼的第一音頻幀)至MDCT幀(即在頻域中編碼的隨后第二音頻幀)的過渡的窗口。

換言之，圖4a展示可被視為比較示例的音頻幀的序列。相反，圖4b展示序列，其中第一音頻幀在線性預(yù)測域中被編碼，且其后跟著在頻域中編碼的第二音頻幀，其中通過本發(fā)明的實(shí)施例以尤其有利的方式處理根據(jù)圖4b的情況。

現(xiàn)參考圖4a，應(yīng)注意的是，橫坐標(biāo)410以毫秒描述時(shí)間，且縱坐標(biāo)412以任意單位描述窗口的幅度(例如，窗口的歸一化幅度)。如所見，幀長度等于20ms，以使得與第一音頻幀相關(guān)聯(lián)的時(shí)段在t＝-20ms及t＝0之間延伸。與第二音頻幀相關(guān)聯(lián)的時(shí)段從時(shí)間t＝0延伸至t＝20ms。然而，可見到，用于窗口化由逆改進(jìn)的離散余弦變換基于解碼的MDCT系數(shù)提供的時(shí)域音頻樣本的第一窗口在時(shí)間t＝-20ms及t＝8.75ms之間延伸。因此，第一窗口420的長度比幀長度(20ms)長。相應(yīng)地，即使在t＝-20ms及t＝0之間的時(shí)間與第一音頻幀相關(guān)聯(lián)，對于在t＝-20ms與t＝8.75ms之間的時(shí)間，基于第一音頻幀的解碼提供時(shí)域音頻樣本。因此，在基于第一編碼的音頻幀提供的時(shí)域音頻樣本與基于第二解碼的音頻幀提供的時(shí)域音頻樣本之間存在大約8.75ms的重疊。應(yīng)注意的是，第二窗口由422表示，且在時(shí)間t＝0與t＝28.75ms之間延伸。

此外，應(yīng)注意的是，為第一音頻幀及為第二音頻幀提供的窗口化的時(shí)域音頻信號不是無混疊的，相反，為第一音頻幀提供的窗口化的(第二)解碼的音頻信息包括在時(shí)間t＝-20ms與t＝-11.25ms之間且也在時(shí)間t＝0與t＝8.75ms之間的混疊。類似地，為第二音頻幀提供的窗口化的解碼的音頻信息包括在時(shí)間t＝0與t＝8.75ms之間且也在時(shí)間t＝20ms與t＝28.75ms之間的混疊。然而，例如，在時(shí)間t＝0與t＝8.75ms之間的時(shí)間部分中，在為第一音頻幀提供的解碼的音頻信息中包括的混疊抵消在為隨后第二音頻幀提供的解碼的音頻信息中包括的混疊。

此外，應(yīng)注意的是，對于窗口420及422，MDCT折疊點(diǎn)之間的持續(xù)時(shí)間等于20ms，其等于幀長度。

現(xiàn)參考圖4b，將描述不同情況，即可在音頻解碼器100、200、300中用于提供第二解碼的音頻信息的用于從CELP幀至MDCT幀的過渡的窗口。在圖4b中，橫坐標(biāo)430以毫秒描述時(shí)間，且縱坐標(biāo)432以任意單位描述窗口的幅度。

如圖4b中可見，第一幀在時(shí)間t₁＝-20ms和時(shí)間t₂＝0ms之間延伸。因此，第一音頻幀(其為CELP音頻幀)的幀長度為20ms。此外，第二隨后音頻幀在時(shí)間t₂與t₃＝20ms之間延伸。因此，第二音頻幀(其為MDCT音頻幀)的長度也為20ms。

在下文中，將描述關(guān)于窗口440的一些細(xì)節(jié)。

窗口440包括在時(shí)間t₄＝-1.25ms與時(shí)間t₂＝0ms之間延伸的第一窗口傾斜(slope)442。第二窗口傾斜444在時(shí)間t₃＝20ms與時(shí)間t₅＝28.75ms之間延伸。應(yīng)注意的是，提供用于第二音頻幀的(或與第二音頻幀相關(guān)聯(lián)的)(第二)解碼的音頻信息的經(jīng)修改的離散余弦變換提供在時(shí)間t4與t5之間的時(shí)域樣本。然而，經(jīng)修改的離散余弦變換(或，更精確地，逆改進(jìn)的離散余弦變換)(若在頻域(例如MDCT域)中編碼的音頻幀跟在在線性預(yù)測域中編碼的音頻幀之后，則其可用于頻域解碼器130、230、330中)基于第二音頻幀的頻域表示提供時(shí)域樣本，其包含用于t₄與t₂之間的時(shí)間及用于時(shí)間t₃與時(shí)間t₅之間的時(shí)間的混疊。相反，逆改進(jìn)型修改離散余弦變換基于第二音頻幀的頻域表示提供用于時(shí)間t₂與t₃之間的時(shí)段的無混疊時(shí)域樣本。因此，第一窗口傾斜442與包括一些混疊的時(shí)域音頻樣本相關(guān)聯(lián)，且第二窗口傾斜444也與包括一些混疊的時(shí)域音頻樣本相關(guān)聯(lián)。

并且，應(yīng)注意的是，對于第二音頻幀，MDCT折疊點(diǎn)之間的時(shí)間等于25ms，其暗示經(jīng)編碼的MDCT系數(shù)的數(shù)目對于圖4b中所展示的情況下應(yīng)比對于圖4a中所展示的情況的大。

總之，音頻解碼器100、200、300可在第一音頻幀及跟在第一音頻幀之后的第二音頻幀在頻域中(例如，在MDCT域中)被編碼的情況下，應(yīng)用窗口420、422(例如，用于對頻域解碼器中的逆改進(jìn)型離散余弦變換的輸出的窗口化)。相反，音頻解碼器100、200、300可在第二音頻幀在頻域中(例如，在MDCT域中)被編碼的情況下切換頻域解碼器的操作，該第二音頻幀跟在在線性預(yù)測域中編碼的第一音頻幀之后。例如，若第二音頻幀在MDCT域中被編碼且跟在在CELP域中編碼的先前第一音頻幀之后，則可使用使用增加數(shù)目的MDCT系數(shù)的逆改進(jìn)型離散余弦變換(其暗示，在相較于跟在在頻域中編碼的先前音頻幀之后的編碼的音頻幀的頻域表示時(shí)，在跟在在線性預(yù)測域中編碼的先前音頻幀之后的音頻幀的頻域表示中，以編碼的形式包含增加數(shù)目的MDCT系數(shù))。此外，在于頻域中編碼的第二(當(dāng)前)音頻幀跟在在線性預(yù)測域中編碼的音頻幀之后的情況下(在相較于第二(當(dāng)前)音頻幀跟在也在頻域中編碼的先前音頻幀之后的情況時(shí))，應(yīng)用不同的窗口(即窗口440)以窗口化逆改進(jìn)型離散余弦變換的輸出(即，由逆改進(jìn)型離散余弦變換提供的時(shí)域音頻表示)以獲得第二解碼的音頻信息132。

總之，進(jìn)一步地，在頻域中編碼的音頻幀跟在在線性預(yù)測域中編碼的音頻幀之后的情況下，頻域解碼器130可應(yīng)用具有增加長度(在相較于正常情況時(shí))的逆改進(jìn)型離散余弦變換。此外，窗口440可用于此情況(而窗口420、422可用于“正?！鼻闆r，其中在頻域中編碼的音頻幀跟在在頻域中編碼的先前音頻域之后)。

關(guān)于本發(fā)明概念，應(yīng)注意的是，不修改CELP信號以免引入任何額外延遲，如將在下文更詳細(xì)地展示。相反，根據(jù)本發(fā)明的實(shí)施例發(fā)明用于移除可在CELP與MDCT幀之間的邊界處引入的任何不連續(xù)的機(jī)制。此機(jī)制使用CELP合成濾波器(其(例如)由線性預(yù)測域解碼器使用)的零輸入響應(yīng)將不連續(xù)平滑化。在下文中給出細(xì)節(jié)。

逐步描述-概述

下面將提供簡短的逐步描述。隨后，將給出更多細(xì)節(jié)。

編碼器側(cè)

1.當(dāng)先前幀(有時(shí)也用“第一幀”表示)為CELP(或，通常，在線性預(yù)測域中被編碼)時(shí)，以不同的MDCT長度及不同的MDCT窗口對當(dāng)前MDCT幀(有時(shí)也表示為“第二幀”)(其可被視為在頻域中或在變換域中編碼的幀的示例)進(jìn)行編碼。例如，在此情況下可使用窗口440(而非“正?！贝翱?22)。

2.增加MDCT長度(例如從20ms至25ms，參見圖4a及4b)，使得左折疊點(diǎn)在CELP幀與MDCT幀之間的邊界的左側(cè)移動(dòng)。例如，可選擇MDCT長度(其可通過MDCT系數(shù)的數(shù)目定義)，使得在相較于20ms的MDCT折疊點(diǎn)之間的“正常”長度(如圖4a中所展示)時(shí)，MDCT折疊點(diǎn)的(或之間的)長度等于25ms(如圖4b中所展示)。亦可見，MDCT變換的“左”折疊點(diǎn)處于時(shí)間t₄與t₂之間(而非在時(shí)間t＝0與t＝8.75ms之間的中間)，此在圖4b中可見。然而，右MDCT折疊點(diǎn)的位置可保持不變(例如，在時(shí)間t₃與t₅之間的中間)，此可從圖4a與圖4b的(或，更精確地，窗口422與440的)比較可見。

3.改變MDCT窗口的左側(cè)部分，從而減少重疊長度(例如從8.75ms至1.25ms)。例如，在先前音頻幀在線性預(yù)測域中被編碼的情況下，包含混疊的部分處于時(shí)間t₄＝-1.25ms與t₂＝0之間(即在開始于t＝0處且結(jié)束于t＝20ms處的與第二音頻幀相關(guān)聯(lián)的時(shí)段之前)。相反，在在先音頻幀在頻域中(例如，在MDCT域中)被編碼的情況下，包括混疊的信號部分處于時(shí)間t＝0與t＝8.75ms之間。

解碼器側(cè)

1.當(dāng)先前幀(也表示為“第一音頻幀”)為CELP(或，通常，在線性預(yù)測域中被編碼)時(shí)，以與在編碼器側(cè)使用的相同MDCT長度及相同MDCT窗口對當(dāng)前MDCT幀(也表示為“第二音頻幀”)(其可被視為在頻域中或在變換域中編碼的幀的示例)進(jìn)行解碼。換言之，將圖4b中所展示的窗口化應(yīng)用于提供第二解碼的音頻信息，且也可應(yīng)用上文所提及的關(guān)于逆改進(jìn)型離散余弦變換的特性(其對應(yīng)于在編碼器側(cè)處使用的改進(jìn)型離散余弦變換的特性)。

2.為了移除可出現(xiàn)在CELP幀與MDCT幀之間的邊界處(例如，在上文所提及的第一音頻幀與第二音頻幀之間的邊界處)的任何不連續(xù)，使用以下機(jī)制：

a)通過使用CELP信號(例如，使用第一解碼的音頻信息)及重疊相加操作人工地引入MDCT信號的重疊部分(例如，由逆改進(jìn)型離散余弦變換提供的時(shí)域音頻信號的時(shí)間t₄與t₂之間的信號部分)的遺失混疊來構(gòu)造信號的第一部分。信號的第一部分的長度(例如)等于重疊長度(例如，1.25ms)。

b)通過將信號的第一部分減至對應(yīng)的CELP信號(剛好位于(例如)第一音頻幀與第二音頻幀之間的幀邊界之前的部分)來構(gòu)造信號的第二部分。

c)通過對零的幀進(jìn)行濾波及使用信號的第二部分作為記憶狀態(tài)(或作為初始狀態(tài))生成CELP合成濾波器的零輸入響應(yīng)。

d)零輸入響應(yīng)(例如)被窗口化，以使得其在大量樣本(例如，64個(gè))之后減小為零。

e)將窗口化的零輸入響應(yīng)添加至MDCT信號的開始部分(例如，起始于時(shí)間t₂＝0處的音頻部分)。

逐步描述-解碼器功能的詳細(xì)描述

在下文中，將更詳細(xì)地描述解碼器的功能。

將應(yīng)用以下標(biāo)注：幀長度標(biāo)注為N，解碼的CELP信號標(biāo)注為S_C(n)，解碼的MDCT信號(包括窗口化的重疊信號)標(biāo)注為S_M(n)，用于對MDCT信號的左側(cè)部分進(jìn)行窗口化的窗口為w(n)，以L表示窗口長度，且CELP合成濾波器標(biāo)注為其中且M為濾波器階數(shù)。

步驟1的詳細(xì)描述

在解碼器側(cè)步驟1(使用用于編碼器側(cè)的相同MDCT長度及相同MDCT窗口對當(dāng)前MDCT幀進(jìn)行解碼)之后，我們得到當(dāng)前解碼的MDCT幀(例如，構(gòu)成上文所提及的第二解碼的音頻信息的“第二音頻幀”的時(shí)域表示。此幀(例如，第二幀)不含有任何混疊，因?yàn)樽笳郫B點(diǎn)在CELP幀與MDCT幀之間的邊界的左側(cè)移動(dòng)(例如，使用如參考圖4b詳細(xì)描述的概念)。此意味著我們可以以足夠高的比特率在當(dāng)前幀(例如，在時(shí)間t₂＝0與t₃＝20ms之間)中得到完美重構(gòu)。然而，在低比特率下，信號無需匹配輸入信號，且因此可在CELP與MDCT之間的邊界處(例如，在時(shí)間t＝0處，如圖4b中所展示)引入不連續(xù)。

為了方便理解，將參考圖5說明此問題。上部曲線(圖5a)展示解碼的CELP信號S_C(n)，中間曲線(圖5b)展示解碼的MDCT信號(包括窗口化的重疊信號)S_M(n)，且下部曲線(圖5c)展示通過丟棄窗口化的重疊信號及串接CELP幀和MDCT幀而獲得的輸出信號。在輸出信號中兩個(gè)幀之間的邊界處(例如，在時(shí)間t＝0處)明顯地存在不連續(xù)(圖5c中所展示)。

進(jìn)一步處理的比較示例

對此問題的一個(gè)可能解決方案是在上文提及的參考文獻(xiàn)1(J.Lecomte等人的“Efficient cross-fade windows for transitions between LPC-based and non-LPC based audio coding”)中提出的方法，其描述用于MPEG USAC中的概念。在下文中，將提供對該參考方法的簡要描述。

解碼的CELP信號的第二版本首先被初始化為等于解碼的CELP信號

然后將遺失混疊人工地引入重疊區(qū)域中

最后，使用重疊相加操作獲得解碼的CELP信號的第二版本

如圖6a至圖6d中可見，此比較方法移除不連續(xù)(特別地，參見圖6d)。此方法的問題在于，由于在已解碼了當(dāng)前幀之后修改了以往幀，其引入額外延遲(等于重疊長度)。在一些應(yīng)用中，如低延遲音頻編碼，需要(或甚至要求)具有盡可能小的延遲。

處理步驟的詳細(xì)描述

與上文所提及的常規(guī)方法相反，本文中提出的移除不連續(xù)的方法并不具有任何額外延遲。其并不修改以往CELP幀(也表示為第一音頻幀)，而是修改當(dāng)前MDCT幀(也表示為跟在在線性預(yù)測域中編碼的第一音頻幀之后的在頻域中編碼的第二音頻幀)。

步驟a)

在第一步驟中，如先前所描述地計(jì)算以往ACELP幀的“第二版本”例如，可使用以下計(jì)算：

解碼的CELP信號的第二版本首先被初始化為等于解碼的CELP信號

然后將遺失混疊人工地引入重疊區(qū)域中

最后，使用重疊相加操作獲得解碼的CELP信號的第二版本

然而，與參考文獻(xiàn)1(J.Lecomte等人的“Efficient cross-fade windows for transitions betweenLPC-based and non-LPC-based audio coding”)相反，不以以往ACELP幀的此版本替換以往解碼的ACELP信號，以使得不引入任何額外延遲。如接下來的步驟中所描述，其僅用作用于修改當(dāng)前MDCT幀的中間信號。

換言之，初始狀態(tài)判定144、修改/混疊相加/組合250或修改/混疊相加/組合342可(例如)提供信號來作為對初始狀態(tài)信息146或組合初始狀態(tài)信息344的貢獻(xiàn)，或作為第二初始狀態(tài)信息252。因此，初始狀態(tài)判定144、修改/混疊相加/組合250或修改/混疊相加/組合342可(例如)對解碼的CELP信號S_C施加窗口化(與窗口值w(-n-1)w(-n-1)相乘)、添加用窗口化(w(n+L)w(-n-1))縮放的解碼的CELP信號的時(shí)間鏡像版本(S_C(-n-L-1))以及添加解碼的MDCT信號S_M(n)，以借此獲得對初始狀態(tài)信息146、344的貢獻(xiàn)或甚至以獲得第二初始狀態(tài)信息252。

步驟b)

此概念還包括通過使用用于CELP合成濾波器的兩個(gè)不同的記憶(也表示為初始狀態(tài))計(jì)算CELP合成濾波器(其可通常被視為線性預(yù)測濾波器)的零輸入響應(yīng)(ZIR)來生成兩個(gè)信號通。過使用先前解碼的CELP信號S_C(n)作為用于CELP合成濾波器的記憶來生成第一ZIR

其中M≤L

通過使用先前解碼的CELP信號的第二版本作為用于CELP合成濾波器的記憶來生成第二ZIR

其中M≤L

應(yīng)注意的是，可分別地計(jì)算第一零輸入響應(yīng)及第二零輸入響應(yīng)，其中可基于第一解碼的音頻信息(例如，使用初始狀態(tài)判定242及線性預(yù)測濾波246)獲得第一零輸入響應(yīng)，且其中可(例如)使用可根據(jù)第一解碼的音頻信息222及第二解碼的音頻信息232提供“以往CELP幀的第二版本”的修改/混疊相加/組合250，以及也使用第二線性預(yù)測濾波254來計(jì)算第二零輸入響應(yīng)。然而，可選地，可施加單一CELP合成濾波。例如，可施加線性預(yù)測濾波148、346，其中S_C(n)及的總和用作所述(組合)線性預(yù)測濾波的輸入。

此是由于如此事實(shí)：線性預(yù)測濾波是線性操作，從而可在濾波之前或在濾波之后執(zhí)行組合而不改變結(jié)果。然而，取決于符號(sign)，S_C(n)與之間的差異也可用作(組合)線性預(yù)測濾波的初始狀態(tài)(對于n＝-L，...，-1)。

總之，第一初始狀態(tài)信息(n＝-L，...，-1)及第二初始狀態(tài)信息(n＝-L，...，-1)可單獨(dú)地或以組合方式獲得。并且，第一及第二零輸入響應(yīng)可通過單獨(dú)初始狀態(tài)信息的單獨(dú)線性預(yù)測濾波或使用(組合)線性預(yù)測濾波基于組合初始狀態(tài)信息來獲得。

如將在下文中詳細(xì)解釋的圖7的曲線圖中所展示，S_C(n)及連續(xù)，及連續(xù)。此外，由于及S_M(n)也連續(xù)，是從非常接近0的值開始的信號。

現(xiàn)參考圖7，將解釋一些細(xì)節(jié)。

圖7a展示先前CELP幀及第一零輸入響應(yīng)的圖形化表示。橫坐標(biāo)710以毫秒描述時(shí)間，且縱坐標(biāo)712以任意單位描述幅度。

例如，為先前CELP幀(也表示為第一音頻幀)提供的音頻信號展示于時(shí)間t₇₁與t₇₂之間。例如，信號S_C(n)(對于n<0)可展示于時(shí)間t₇₁與t₇₂之間。此外，第一零輸入響應(yīng)可展示于時(shí)間t₇₂與t₇₃之間。例如，第一零輸入響應(yīng)可展示于時(shí)間t₇₂與t₇₃之間。

圖7b展示先前CELP幀的第二版本及第二零輸入響應(yīng)的圖形化表示。用720表示橫坐標(biāo)，且以毫秒展示時(shí)間。用722表示縱坐標(biāo)，且以任意單位展示幅度。先前CELP幀的第二版本展示于時(shí)間t₇₁(-20ms)與t₇₂(0ms)之間，且第二零輸入響應(yīng)展示于時(shí)間t₇₂與t₇₃(+20ms)之間。例如，信號(n＜0)展示于時(shí)間t₇₁與t₇₂之間。此外，信號(對于n≥0)展示于時(shí)間t₇₂與t₇₃之間。

此外，S_M(n)與之間的差異展示于圖7c中，其中橫坐標(biāo)730以毫秒表示時(shí)間，且其中縱坐標(biāo)732以任意單位表示幅度。

此外，應(yīng)注意的是，第一零輸入響應(yīng)(對于n≥0)為信號S_C(n)(對于n＜0)的(大體上)穩(wěn)定的接續(xù)。類似地，第二零輸入響應(yīng)(對于n≥0)為信號(對于n＜0)的(大體上)穩(wěn)定的接續(xù)。

步驟c)

以當(dāng)前MDCT的(即，與當(dāng)前第二音頻幀相關(guān)聯(lián)的MDCT信號的)第二版本142、242、342替換當(dāng)前MDCT信號(例如，第二解碼的音頻信息132、232、332)。

然后直接展示S_C(n)及為連續(xù)的：S_C(n)及為連續(xù)的，從非常接近0的值開始。

例如，可根據(jù)第二解碼的音頻信息132、232、323及根據(jù)第一零輸入響應(yīng)及第二零輸入響應(yīng)(例如如圖2中所展示)或根據(jù)組合零輸入響應(yīng)(例如，組合零輸入響應(yīng)150、348)通過修改152、258、350確定如圖8的曲線圖中可見，所提出的方法移除不連續(xù)。

例如，圖8a展示(例如，第一解碼的音頻信息的)用于先前CELP幀的信號的圖形化表示，其中橫坐標(biāo)810以毫秒描述時(shí)間，且其中縱坐標(biāo)812以任意單位描述幅度。如可見，在時(shí)間t₈₁(-20ms)與t₈₂(0ms)之間提供(例如，通過線性預(yù)測域解碼)第一解碼的音頻信息。

此外，如圖8b中可見，即使通常從時(shí)間t₄開始提供第二解碼的音頻信息132、232、332(如圖4b中所展示)，仍僅從時(shí)間t₈₂(0ms)開始提供當(dāng)前MDCT幀的第二版本(例如，經(jīng)修改的第二解碼的音頻信息142、242、342)。應(yīng)注意的是，在時(shí)間t₄與t₂之間提供的第二解碼的音頻信息132、232、332(如圖4b中所展示)并非直接用于提供當(dāng)前MDCT幀的第二版本(信號)，而是僅用于提供信號分量為清楚起見，應(yīng)注意的是，橫坐標(biāo)820以毫秒表示時(shí)間，且縱坐標(biāo)822依據(jù)任意單位表示幅度。

圖8c展示先前CELP幀(如圖8a中所展示)及當(dāng)前MDCT幀的第二版本(如圖8b中所展示)的串接。橫坐標(biāo)830以毫秒描述時(shí)間，且縱坐標(biāo)832依據(jù)任意單位描述幅度。如可見，在先前CELP幀(在時(shí)間t₈₁與t₈₂之間與當(dāng)前MDCT幀的第二版本(起始于時(shí)間t₈₂且結(jié)束于(例如)時(shí)間t₅，如圖4b中所展示)之間存在大體上連續(xù)的過渡。因此，避免在從第一幀(其在線性預(yù)測域中被編碼)至第二幀(其在頻域中被編碼)的過渡處的可聽失真。

也直接展示以高速率實(shí)現(xiàn)完美的重構(gòu)：在高速率下，S_C(n)及極其類似且二者均極其類似于輸入信號，而且兩個(gè)ZIR極其類似，因此兩個(gè)ZIR的差異非常接近0，且最終極其類似于S_M(n)并且二者均極其類似于輸入信號。

步驟d)

可選擇地，可將窗口應(yīng)用于兩個(gè)ZIR，以便不影響整個(gè)當(dāng)前MDCT幀。此(例如)對于于降低復(fù)雜度，或當(dāng)ZIR在MDCT幀的結(jié)尾并未接近0時(shí)是有用的。

窗口的一個(gè)示例為長度P的簡單線性窗口v(n)

其中，例如P＝64。

例如，窗口可處理零輸入響應(yīng)150、零輸入響應(yīng)248、256或組合零輸入響應(yīng)348。

5.8.根據(jù)圖9的方法

圖9展示用于基于編碼的音頻信息提供解碼的音頻信息的方法的流程圖。方法900包括基于在線性預(yù)測域中編碼的音頻幀提供(910)第一解碼的音頻信息。方法900還包括基于在頻域中編碼的音頻幀提供(920)第二解碼的音頻信息。方法900還包括獲得(930)線性預(yù)測濾波的零輸入響應(yīng)，其中根據(jù)第一解碼的音頻信息及第二解碼的音頻信息定義線性預(yù)測濾波的初始狀態(tài)。

方法900還包括根據(jù)零輸入響應(yīng)，修改(940)基于跟在在線性預(yù)測域中編碼的音頻幀之后的在頻域中編碼的音頻幀所提供的第二解碼的音頻信息，以獲得在第一解碼的音頻信息與經(jīng)修改的第二解碼的音頻信息之間的平滑過渡。

可通過本文中關(guān)于音頻解碼器所描述的特征及功能中的任一者對方法900進(jìn)行補(bǔ)充。

5.10.根據(jù)圖10的方法

圖10展示用于基于編碼的音頻信息提供解碼的音頻信息的方法1000的流程圖。

方法1000包括執(zhí)行(1010)線性預(yù)測域解碼，以基于在線性預(yù)測域中編碼的音頻幀提供第一解碼的音頻信息。

方法1000還包括執(zhí)行(1020)頻域解碼，以基于在頻域中編碼的音頻幀提供第二解碼的音頻信息。

方法1000還包括響應(yīng)于由第一解碼的音頻信息定義的線性預(yù)測濾波的第一初始狀態(tài)獲得(1030)線性預(yù)測濾波的第一零輸入響應(yīng)，并響應(yīng)于由第一解碼的音頻信息的經(jīng)修改版本定義的線性預(yù)測濾波的第二初始狀態(tài)獲得(1040)線性預(yù)測濾波的第二零輸入響應(yīng)，該經(jīng)修改版本具備人工混疊且包括第二解碼的音頻信息的貢獻(xiàn)部分。

可選地，方法1000包括響應(yīng)于由第一解碼的音頻信息及第一解碼的音頻信息的經(jīng)修改版本的組合定義的線性預(yù)測濾波的初始狀態(tài)獲得(1050)線性預(yù)測濾波的組合零輸入響應(yīng)，該經(jīng)修改版本具備人工混疊且包括第二解碼的音頻信息的貢獻(xiàn)部分。

方法1000還包括根據(jù)第一零輸入響應(yīng)及第二零輸入響應(yīng)或根據(jù)組合零輸入響應(yīng)，修改(1060)基于跟在在線性預(yù)測域中編碼的音頻幀之后的在頻域中編碼的音頻幀所提供的第二解碼的音頻信息，以獲得在第一解碼的音頻信息與經(jīng)修改的第二解碼的音頻信息之間的平滑過渡。

應(yīng)注意的是，可通過本文中關(guān)于音頻解碼器所描述的特征及功能中的任一者對方法1000進(jìn)行補(bǔ)充。

6.結(jié)論

總之，根據(jù)本發(fā)明的實(shí)施例涉及CELP至MDCT過渡。所述過渡通常引入兩個(gè)問題：

1.歸因于遺失的先前MDCT幀的混疊；及

2.歸因于在低/中等比特率下操作的兩個(gè)寫碼方案的不完美的波形寫碼本質(zhì)的在CELP幀與MDCT幀之間的邊界處的不連續(xù)。

在根據(jù)本發(fā)明的實(shí)施例中，通過增加MDCT長度以使得左折疊點(diǎn)在CELP幀與MDCT幀之間的邊界的左側(cè)移動(dòng)來解決混疊問題。并且改變MDCT窗口的左側(cè)部分，以使得重疊減少。與常規(guī)解決方案相反，不修改CELP信號以免引入任何額外延遲，而是發(fā)明移除可在CELP幀與MDCT幀之間的邊界處引入的任何不連續(xù)的機(jī)制。此機(jī)制使用CELP合成濾波器的零輸入響應(yīng)將不連續(xù)平滑化。本文中描述了額外細(xì)節(jié)。

7.實(shí)施可選方案

盡管已在裝置的上下文中描述一些方面，顯而易見的是，這些方面也表示對應(yīng)方法的描述，其中模塊或設(shè)備對應(yīng)于方法步驟或方法步驟的特征。類似地，方法步驟的上下文中所描述的方面也表示對應(yīng)裝置的對應(yīng)模塊或項(xiàng)或特征的描述?？捎?或使用)硬件裝置(類似于(例如)微處理器、可編程計(jì)算機(jī)或電子電路)執(zhí)行方法步驟中的一些或全部。在一些實(shí)施例中，可由此裝置執(zhí)行最重要的方法步驟中的一些或多個(gè)。

本發(fā)明編碼的音頻信號可儲(chǔ)存于數(shù)字存儲(chǔ)介質(zhì)上或可在諸如無線傳輸介質(zhì)或有線傳輸介質(zhì)(如因特網(wǎng))的傳輸介質(zhì)上傳輸。

取決于某些實(shí)施要求，本發(fā)明的實(shí)施例可在硬件或軟件中實(shí)施?？墒褂脭?shù)字存儲(chǔ)介質(zhì)執(zhí)行實(shí)施，該介質(zhì)例如軟盤、DVD、Blu-Ray、CD、ROM、PROM、EPROM、EEPROM或閃存，其上存儲(chǔ)有電子可讀控制信號，該電子可讀控制信號與可編程計(jì)算機(jī)系統(tǒng)協(xié)作(或能夠協(xié)作)，以使得執(zhí)行各個(gè)方法。因此，數(shù)字存儲(chǔ)介質(zhì)可為計(jì)算機(jī)可讀的。

根據(jù)本發(fā)明的一些實(shí)施例包括具有電子可讀控制信號的數(shù)據(jù)載體，電子可讀控制信號能夠與可編程計(jì)算機(jī)系統(tǒng)協(xié)作，以使得執(zhí)行本文中所描述的方法中的一個(gè)。

通常，本發(fā)明的實(shí)施例可被實(shí)施為具有程序代碼的計(jì)算機(jī)程序產(chǎn)品，當(dāng)計(jì)算機(jī)程序產(chǎn)品在計(jì)算機(jī)上運(yùn)行時(shí)，程序代碼操作性地用于執(zhí)行方法中的一個(gè)。程序代碼可(例如)儲(chǔ)存于機(jī)器可讀載體上。

其他實(shí)施例包括儲(chǔ)存于機(jī)器可讀載體上的計(jì)算機(jī)程序，其用于執(zhí)行本文中所描述的方法中的一個(gè)。

換言之，因此，本發(fā)明方法的實(shí)施例為具有程序代碼的計(jì)算機(jī)程序，當(dāng)計(jì)算機(jī)程序在計(jì)算機(jī)上運(yùn)行時(shí)，該程序代碼用于執(zhí)行本文中所描述的方法中的一個(gè)。

因此，本發(fā)明方法的另一實(shí)施例為數(shù)據(jù)載體(或數(shù)字存儲(chǔ)介質(zhì)，或計(jì)算機(jī)可讀介質(zhì))，該數(shù)據(jù)載體包括記錄于其上的用于執(zhí)行本文中所描述的方法中的一個(gè)的計(jì)算機(jī)程序。數(shù)據(jù)載體、數(shù)字存儲(chǔ)介質(zhì)或記錄介質(zhì)通常是有形的和/或非易失性的。

因此，本發(fā)明方法的另一實(shí)施例是表示用于執(zhí)行本文中所描述的方法中的一個(gè)的計(jì)算機(jī)程序的數(shù)據(jù)流或信號序列?？?例如)用于經(jīng)由數(shù)據(jù)通信連接(例如，經(jīng)由因特網(wǎng))傳送數(shù)據(jù)流或信號序列。

另一實(shí)施例包括處理構(gòu)件，例如，用于或適于執(zhí)行本文中所描述的方法中的一個(gè)的計(jì)算機(jī)或可編程邏輯設(shè)備。

另一實(shí)施例包括計(jì)算機(jī)，其上安裝有用于執(zhí)行本文中所描述的方法中的一個(gè)的計(jì)算機(jī)程序。

根據(jù)本發(fā)明的另一實(shí)施例包括用于將用于執(zhí)行本文中所描述的方法中的一個(gè)的計(jì)算機(jī)程序傳送(例如，電子地或光學(xué)地)至接收器的裝置或系統(tǒng)。接收器可(例如)為計(jì)算機(jī)、移動(dòng)設(shè)備、內(nèi)存設(shè)備或類似。裝置或系統(tǒng)可(例如)包括用于將計(jì)算機(jī)程序傳送至接收器的文件服務(wù)器。

在一些實(shí)施例中，可編程邏輯設(shè)備(例如，現(xiàn)場可編程門陣列)可用以執(zhí)行本文中所描述的方法的功能中的一些或全部。在一些實(shí)施例中，現(xiàn)場可編程門陣列可與微處理器協(xié)作，以便執(zhí)行本文中所描述方法中的一個(gè)。通常，優(yōu)選地由任何硬件裝置執(zhí)行方法。

可使用硬件裝置或使用計(jì)算機(jī)或使用硬件裝置與計(jì)算機(jī)的組合實(shí)施本文中所描述的裝置。

可使用硬件裝置或使用計(jì)算機(jī)或使用硬件裝置與計(jì)算機(jī)的組合執(zhí)行本文中所描述的方法。

上文所描述的實(shí)施例僅說明本發(fā)明的原理。應(yīng)理解的是，本文中所描述的配置及細(xì)節(jié)的變形及變化對本領(lǐng)域技術(shù)人員是顯而易見的。因此，其意圖在于僅由待決權(quán)利要求的范圍限制，而非由通過本文中實(shí)施例的描述及解釋所呈現(xiàn)的特定細(xì)節(jié)限制。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3