頻譜包絡的樣本值的基于上下文的熵編碼的制作方法
【技術領域】
[0001] 本申請涉及頻譜包絡的樣本值的基于上下文的熵編碼及其在音頻編碼/壓縮中的 使用。
【背景技術】
[0002] 如在[1 ]和[2 ]中所述的許多現(xiàn)有技術的有損(lossy)音頻編碼器,基于MDCT變換, 并使用不相關性減小和冗余度減小,以對于給定的感知品質(zhì)最小化所需的比特率。為了減 小表示精確度或移除非感知相關的頻率信息,不相關性減小通常利用人類聽覺系統(tǒng)的感知 限制。為了實現(xiàn)剩余數(shù)據(jù)的最簡潔的表示,通常使用結(jié)合熵編碼的統(tǒng)計建模,應用冗余度減 少以利用統(tǒng)計結(jié)構(gòu)或相關性。
[0003] 除了別的之外,參數(shù)化編碼概念用于高效地對音頻內(nèi)容進行編碼。使用參數(shù)化編 碼,使用參數(shù)而非使用實際時域音頻樣本或類似來描述音頻信號的部分,如其頻譜圖的部 分。例如,音頻信號的頻譜圖的部分可在解碼器側(cè)與僅包括參數(shù)(如頻譜包絡和可選的其他 控制合成的參數(shù))的數(shù)據(jù)流合成,以使合成的頻譜圖部分適于所傳輸?shù)念l譜包絡。此種的新 技術為頻譜頻帶復制(SBR),根據(jù)此,核心編解碼器用于編碼并傳輸音頻信號的低頻分量, 然而所傳輸?shù)念l譜包絡用在解碼側(cè),以頻譜地成形/形成音頻信號的低頻帶分量的重建的 頻譜復制,從而在解碼側(cè)合成音頻信號的高頻帶分量。
[0004] 以上所述的編碼技術的架構(gòu)內(nèi)的頻譜包絡,在數(shù)據(jù)流內(nèi)以某種合適的頻譜時間分 辨率傳輸。在某種程度上類似于頻譜包絡樣本值的傳輸,用于縮放頻譜線系數(shù)或頻域系數(shù) (如MDCT系數(shù))的比例因子,同樣地以合適的頻譜時間分辨率傳輸,該合適的頻譜時間分辨 率比原始的頻譜線分辨率更粗糙,例如在頻譜意義上。
[0005] 為了傳遞描述頻譜包絡或比例因子或頻域系數(shù)的樣本的信息,可使用固定的哈夫 曼(Huffman)編碼表。改進的方法使用上下文編碼,如在[2]和[3]中所述,其中用于選擇概 率分布以用于對值進行編碼的上下文跨時間與頻率延伸。個別的頻譜線(如MDCT系數(shù)值)為 復頻譜線的實數(shù)投射,且其可能在本質(zhì)上顯現(xiàn)某些隨機性,即便復頻譜線的振幅為跨時間 恒定的,但相位因幀而異。為了有如[3]所描述的良好結(jié)果,這需要上下文選擇、量化以及映 射的相當復雜的機制。
[0006] 在圖像編碼中,所使用的上下文通常為圖像的跨X軸和y軸的二維的,如在[4]中所 述。在圖像編碼中,例如利用伽馬(gamma)調(diào)節(jié),值處于線性域或冪律域。此外,在每個上下 文中,單個固定的線性預測可被用作平面擬合及基本的邊緣檢測機制,而且預測誤差可被 編碼。參數(shù)化Golomb或Golomb-Rice編碼可用于對預測誤差進行編碼。此外,例如使用基于 比特的編碼器,運行長度編碼(run length coding)用于補償對非常低的熵信號(每樣本低 于1比特)進行直接編碼的困難度。
[0007] 然而,盡管有關于比例因子和/或頻譜包絡的編碼的改進,仍需要用于對頻譜包絡 的樣本值進行編碼的改進概念。因此,本發(fā)明的目的在于提供用于對頻譜包絡的頻譜值進 行編碼的概念。
【發(fā)明內(nèi)容】
[0008] 通過待決的獨立權利要求的主旨實現(xiàn)本發(fā)明的目的。
[0009] 本文中所描述的實施例基于此發(fā)現(xiàn):通過結(jié)合一方面的頻譜時間預測與另一方面 的對殘差進行基于上下文的熵編碼,而特別地根據(jù)對當前樣本值的頻譜時間鄰近區(qū)域中的 頻譜包絡的成對的已編碼/解碼的樣本值之間的偏差的測量,確定用于當前樣本值的上下 文,可以獲得對頻譜包絡的樣本值進行編碼的改進概念。一方面的頻譜時間預測與另一方 面的隨著根據(jù)偏差測量的上下文的選擇來對預測殘差進行基于上下文的熵編碼的結(jié)合與 頻譜包絡的本質(zhì)相協(xié)調(diào):頻譜包絡的平滑度導致簡潔的預測殘差分布,以使得關于預測結(jié) 果的熵編碼,頻譜時間的交互相關在預測之后幾乎被完全地移除,且在上下文選擇中可被 無視。這反過來降低了用于管理上下文的開銷。然而,當前樣本值的頻譜時間鄰近區(qū)域中的 已編碼/解碼的樣本值之間的偏差測量的使用,仍使得上下文自適應性的規(guī)定可行,其以由 此造成的額外開銷是合理的方式改進熵編碼效率。
[0010]根據(jù)以下描述的實施例,線性預測與使用差值作為偏差測量相結(jié)合,借此保持用 于編碼的開銷低下。
[0011] 根據(jù)實施例,選擇(用于確定差值最終用于選擇/確定上下文的)已編碼/解碼的樣 本值的位置,以使得它們以與當前樣本值相對準的方式在頻譜上或時間上彼此鄰近,即它 們沿著與時間軸或頻譜軸相平行的線分布,而當確定/選擇上下文時,額外地考慮差值的符 號(Sign)。通過此測量,當確定/選擇用于當前樣本值的上下文時,可考慮預測殘差中的一 種"趨勢",而僅合理地增加上下文開銷。
【附圖說明】
[0012] 以下,關于附圖描述本申請的優(yōu)選實施例,其中:
[0013] 圖1顯示頻譜包絡的示意圖并示出源于樣本值的其組成,和其中定義的可能解碼 順序及用于頻譜包絡的當前編碼/解碼的樣本值的可能頻譜時間鄰近區(qū)域。
[0014] 圖2顯示根據(jù)實施例的用于對頻譜包絡的樣本值進行編碼的基于上下文的熵編碼 器的方塊圖。
[0015] 圖3顯示示出在對推導測量進行量化中可使用的量化函數(shù)的示意圖。
[0016] 圖4顯示與圖2的編碼器相配的基于上下文的熵解碼器的方塊圖。
[0017]圖5顯示根據(jù)另一實施例的用于對頻譜包絡的樣本值進行編碼的基于上下文的熵 編碼器的方塊圖。
[0018]圖6顯示示出根據(jù)使用逸出編碼(escape coding)的實施例的預測殘差的熵編碼 的可能值的區(qū)間相對于預測殘差可能值的整體區(qū)間的放置的示意圖。
[0019]圖7顯示與圖5的編碼器相配的基于上下文的熵解碼器的方塊圖。
[0020]圖8顯示使用特定記號的頻譜時間鄰近區(qū)域的可能定義。
[0021 ]圖9顯示根據(jù)實施例的參數(shù)化音頻解碼器的方塊圖。
[0022]圖10通過顯示一方面的由頻譜包絡覆蓋的頻率區(qū)間與另一方面的覆蓋整體音頻 信號的頻率范圍的另一區(qū)間的精細結(jié)構(gòu)之間的關系,顯示示出圖9的參數(shù)化解碼器的可能 的實施變型的示意圖。
[0023]圖11顯示根據(jù)圖10的變型的與圖9的參數(shù)化音頻解碼器相配的音頻編碼器的方塊 圖。
[0024] 圖12顯示示出當支持智能間隙填充(Intelligent Gap Filling,IGF)時的圖9的 參數(shù)化音頻解碼器的變型的示意圖。
[0025]圖13顯示示出根據(jù)實施例的頻譜包絡的源于精細結(jié)構(gòu)頻譜圖的頻譜(即頻譜片), 頻譜的IGF填充及其成形的示意圖。
[0026]圖14顯示支持IGF的音頻編碼器的方塊圖,其與根據(jù)圖12的圖9的參數(shù)化解碼器的 變型相配。
【具體實施方式】
[0027]如以下所概述的實施例(其通常適于頻譜包絡的編碼)的動機,使用智能間隙填充 (IGF)作為示例,在此呈現(xiàn)引致以下概述的有利實施例的一些想法。IGF為一種新的方法,用 于顯著地改進即使以非常低的比特率編碼的信號的品質(zhì)。詳細內(nèi)容請參考以下描述。在任 何情況下,IGF處理這樣的事實:由于通常不足的比特預算,高頻區(qū)域中的頻譜的重要部分 被量化成零。為了盡可能保持上頻率區(qū)域的精細結(jié)構(gòu),在IGF信息中低頻區(qū)域用作自適應地 替代高頻區(qū)域中的大部分被量化成零的目的區(qū)域的來源。為了實現(xiàn)良好的感知品質(zhì),重要 的需求是,頻譜系數(shù)的解碼的能量包絡與原始信號的解碼的能量包絡相匹配。為了實現(xiàn)此, 從一個或多個連續(xù)的AAC比例因子頻帶在頻譜系數(shù)上計算平均頻譜能量。使用由比例因子 頻帶所定義的邊界來計算平均能量是由已存在的將這些邊界小心調(diào)整至臨界頻帶的片段 所激發(fā),該臨界頻帶對于人類聽覺是特有的。平均能量被使用公式(類似于用于AAC比例因 子的公式)而轉(zhuǎn)換成dB比例表示,然后被均勻量化。在IGF中,根據(jù)所請求的總比特率,可選 擇地使用不同的量化準確性。平均能量構(gòu)成由IGF所產(chǎn)生的信息的重要部分,因此其高效的 表示對于IGF的整體性能是高度重要的。
[0028]因此,在IGF中,比例因子能量描述頻譜包絡。比例因子能量(SFE)表示描述頻譜包 絡的頻譜值。當SFE進行解碼時,可以利用SFE的特定屬性。特別地,相比于[2]和[3],已實現(xiàn) SFE表示MDCT頻譜線的平均值,因此其值更"平滑"并與對應復頻譜線的平均振幅線性相關。 利用此情景,以下的實施例使用一方面的頻譜包絡樣本值預測與另一方面的使用取決于此 頻譜包絡的成對的鄰近的已編碼/解碼的樣本值的偏差的測量的上下文的預測殘差的基于 上下文的熵編碼的結(jié)合。此結(jié)合的使用特別地適于此類待被編碼的數(shù)據(jù),即頻譜包絡。 [0029]為了容易理解以下所描述的實施例,圖1顯示頻譜包絡10以及源于樣本值12的其 組成,樣本值12以特定頻譜時間分辨率采樣音頻信號的頻譜包絡10。在圖1中,樣本值12示 意性地沿著時間軸14和頻譜軸16布置。每個樣本值12描述或定義對應時空平鋪(tile)之內(nèi) 的頻譜包絡10的高度,此對應時空平鋪覆蓋,例如音頻信號的頻譜圖的時空域的特定矩形。 因此,樣本值為已通過整合其相關聯(lián)的頻譜時間平鋪上的頻譜圖而獲得的整合值。依據(jù)能 量或一些其他物理測量,樣本值12可測量頻譜包絡10的高度或強度,且可被定義在非對數(shù) 或線性域中,或?qū)?shù)域中。其中由于其額外地分別沿著軸14和16對樣本值進行平滑的特性, 對數(shù)域可提供額外的優(yōu)點。
[0030]應注意的是,就以下描述而言,僅為了示出目的而假設樣本值12在頻譜上和時間 上規(guī)律地布置,即對應于樣本值12的對應時空平鋪規(guī)律地覆蓋源于音頻信號的頻譜圖的頻 帶18,但是此規(guī)律并非強制性的。相反地,也可使用樣本值12對頻譜包絡10的不規(guī)則采樣, 每個樣本值12表示在其對應時空平鋪之內(nèi)的頻譜包絡10的高度的平均值。以下概述的鄰近 區(qū)域的定義仍可用于頻譜包絡10的不規(guī)則采樣的可選實施例。以下呈現(xiàn)此可能性的簡要描 述。
[0031] 然而,之前,應注意的是,上述頻譜包絡可受到為了各種理由的用于從編碼器到解 碼器的傳輸?shù)木幋a和解碼。例如,為了可擴展性目的可以使用頻譜包絡,以延伸音頻信號的 低頻帶的核心編碼,即將此低頻帶朝更高的頻率延伸