欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

音頻編碼器,音頻解碼器,編碼音頻信息,編碼和解碼音頻信號的方法及計算機程序的制作方法

文檔序號:2824736閱讀:479來源:國知局
專利名稱:音頻編碼器,音頻解碼器,編碼音頻信息,編碼和解碼音頻信號的方法及計算機程序的制作方法
技術領域
依據(jù)本發(fā)明的實施例涉及一種基于輸入音頻信息來提供編碼音頻信息的音頻編碼器、以及一種基于編碼音頻信息提供解碼音頻信息的音頻解碼器。依據(jù)本發(fā)明的其他實施例涉及一種編碼音頻信息。依據(jù)本發(fā)明其他實施例涉及一種基于編碼音頻信息提供解碼音頻信息的方法、以及一種用于基于輸入音頻信息提供編碼音頻信息的方法。其他實施例涉及用于執(zhí)行本發(fā)明方法的計算機程序。本發(fā)明的實施例涉及對聯(lián)合語音/音頻編碼(USAC)比特流語法的建議更新。
背景技術
在下文中,本發(fā)明的某些背景將被解釋以幫助理解本發(fā)明及其優(yōu)勢。在過去的十年中,已在建立數(shù)字存儲及分發(fā)音頻內(nèi)容的可能性上投入巨大的努力。此方式的一個重要成就是國際標準IS0/IEC 14496-3的定義。此標準的第3部分涉及音頻內(nèi)容的編碼及解碼,第3部分的第4子部分涉及一般音頻編碼。IS0/IEC 14496第3部分、第4子部分定義一般音頻內(nèi)容的編碼及解碼的概念。另外,進一步的改進被提出以改進品質(zhì)及/或減少所需比特率。然而,依據(jù)該標準描述的概念,時域音頻信號被轉換成時頻表示。該從時域到時頻域的變換典型地使用變換塊執(zhí)行,變換塊也稱為時域采樣的“幀”。已發(fā)現(xiàn)使用被移位例如半個幀的交疊幀是有利的,因為交疊允許有效地避免(或至少減少)偽像。另外,已發(fā)現(xiàn)應執(zhí)行窗口化以避免源自對時間上有限的幀的處理的偽像。并且,窗口化允許對后續(xù)時間上移位但交疊的幀的交疊和相加過程的優(yōu)化。然而,已經(jīng)發(fā)現(xiàn)使用均一長度的窗口來有效地表現(xiàn)邊緣(即音頻內(nèi)容中的急劇轉變或所謂的瞬變)是有問題的,因為轉變的能量將展開在窗口的整個期間上,這導致可聽到的偽像。因此,提議在不同長度的窗口之間切換,使得音頻內(nèi)容的近似穩(wěn)定的部分使用長窗口被編碼,且使得音頻內(nèi)容的過渡部分(例如包括瞬變的部分)使用較短窗口被編碼。然而,在允許在不同的窗口之間進行選擇以將音頻內(nèi)容從時域變換成時頻域的系統(tǒng)中,當然需要向解碼器發(fā)信號通知哪個窗口應被用于解碼給定幀的編碼音頻內(nèi)容。在常規(guī)系統(tǒng)中,例如在依據(jù)國際標準IS0/IEC 14496-3,第3部分、第4子部分的音頻解碼器中,將指示用于當前幀中的窗口序列的稱為“windowjequence”的數(shù)據(jù)元素以兩個比特寫入所謂的“icsjnfo”比特流元素中的比特流中。通過考慮先前幀的窗口序列,可以信號通知八個不同的窗口序列。鑒于以上討論,可見由于需要信號通知所使用的窗口類型,產(chǎn)生表示音頻信息的編碼比特流的比特負載。鑒于此情況,希望創(chuàng)建一種構思,其允許比特率更有效地來信號通知用于音頻內(nèi)容的時域表示與該音頻內(nèi)容的時頻域表示之間變換的窗口類型。

發(fā)明內(nèi)容
上述問題通過依據(jù)權利要求1的音頻編碼器、依據(jù)權利要求9的音頻解碼器、依據(jù)權利要求12的編碼音頻信息、依據(jù)權利要求14的提供解碼音頻信息的方法、依據(jù)權利要求 15的提供編碼音頻信息的方法、及依據(jù)權利要求16的計算機程序來解決。依據(jù)本發(fā)明的實施例建立一種基于編碼音頻信息提供解碼音頻信息的音頻解碼器。該音頻解碼器包括基于窗口的信號變換器,被配置成將由編碼音頻信息描述的時頻表示映射至音頻內(nèi)容的時域表示。該基于窗口的信號變換器被配置成基于窗口信息,從包括不同過渡斜率的窗口及不同變換長度的窗口的多個窗口中選擇窗口。該音頻解碼器包括窗口選擇器,其被配置成評估可變碼字長度窗口信息,以選擇用于處理與音頻信息的給定幀相關聯(lián)的時頻表示的給定部分(例如,幀)的窗口。本發(fā)明的該實施例根據(jù)以下發(fā)現(xiàn)可以通過使用可變碼字長度窗口信息,來減小存儲或發(fā)送指示哪一類型的窗口應被用于將音頻內(nèi)容的時頻域表示變換成時域表示的信息所要求的比特率。已發(fā)現(xiàn)可變碼字長度窗口信息是非常適合的,因為選擇適當窗口需要的信息非常適合可變碼字長度表示。例如,通過使用可變碼字長度窗口信息,因為短變換長度典型地不被用于具有一或兩個長過渡斜率的窗口,所以過渡斜率的選擇與變換長度的選擇之間的相依性可被利用。因此,冗余信息的傳送可使用可變碼字長度信息來避免,以提高編碼音頻信息的比特率效率。再如,應注意在相鄰幀的窗口形狀之間典型地存在相關性,在另一相鄰窗口(相鄰于當前考慮的窗口)的窗口類型限制了當前幀的窗口類型選擇的情況下,這種相關性也可被利用以選擇性地減少窗口信息的碼字長度。綜上所述,可變碼字長度窗口信息的使用允許在不顯著增加音頻解碼器的復雜性且不改變音頻解碼器的輸出波形的情況下節(jié)省比特率(當與恒定碼字長度窗口信息相比較時)。并且,編碼音頻信息的語法甚至可在一些情況中被簡化,稍后將進一步詳細討論。在優(yōu)選實施例中,音頻解碼器包括比特流解析器,被配置為解析表示編碼音頻信息的比特流,且從比特流提取1比特窗口斜率長度信息,且依據(jù)該1比特斜率長度信息的值從比特流選擇性地提取1比特變換長度信息。在此情況中,窗口選擇器較佳地被配置成依據(jù)窗口斜率長度信息,選擇性地使用或忽略變換長度信息,以選擇用于處理時頻表示的給定部分的窗口。通過使用上述構思,可以獲得窗口斜率長度信息與變換長度信息之間的分離,在一些情況中有助于簡化映射。并且,窗口信息被分裂成強制窗口斜率長度比特、以及變換長度比特,變換長度比特的存在取決于窗口斜率長度比特的狀態(tài),這允許極有效的比特率降低,這可在保持比特流的語法足夠簡單的同時獲得。因此,比特流解析器的復雜度維持足夠地低。在較佳實施例中,該窗口選擇器被配置成依據(jù)被選擇用于處理時頻信息的先前部分(例如,先前音頻幀)的窗口類型,選擇用于處理該時頻信息的當前部分(例如,當前音頻幀)的窗口類型,使得用于處理時頻信息的當前部分的窗口的左側窗口斜率長度與選擇用于處理時頻信息的先前部分的窗口的右側窗口斜率長度相匹配。通過利用此信息,選擇處理時頻信息的當前部分的窗口類型所需要的比特率特別小,因為用于選擇窗口類型的信息以特別低的復雜性被編碼。特別地,不需要“浪費”比特來編碼與時頻信息的當前部分相關聯(lián)的窗口的左側窗口斜率長度。因此,通過使用與用于處理時頻信息的先前部分的右側窗口斜率長度的信息有關的信息,可以使用兩個比特(例如,強制的窗口斜率長度比特及可選擇的變換長度比特)從多于四個的多個可選擇窗口中選擇適當窗口。因此,不必要的冗余被避免,且編碼比特流的比特率效率得到提高。在較佳實施例中,若用于處理時頻信息的先前部分的窗口的右側窗口斜率長度采取“長”值(當與指示相對較短的窗口斜率長度的“短”值相比時,指示相對較長的窗口斜率長度),且若時頻信息的先前部分、時頻信息的當前部分及時頻信息的后續(xù)部分全部以頻域核心模式編碼,窗口選擇器被配置成依據(jù)1比特窗口斜率長度信息的值,在第一類型窗口與第二類型窗口之間進行選擇。若用于處理時頻信息的先前部分的右側窗口斜率長度采取“短”值(如上所述), 且若時頻信息的先前部分、時頻信息的當前部分及時頻信息的后續(xù)部分全部以頻域核心模式編碼,窗口選擇器較佳地也被配置成響應于1比特窗口斜率長度信息的第一值(例如,值 “1”),選擇第三類型的窗口。另外,若1比特窗口斜率長度信息采取表示短右側窗口斜率的第二值(例如,“0” 值),且若用于處理時頻信息的先前部分的窗口的右側窗口斜率長度采取“短”值(如上所述),且若時頻信息的先前部分、時頻信息的當前部分及視頻部分的后續(xù)部分全部以頻域核心模式編碼,窗口選擇器較佳地也被配置成依據(jù)1比特變換長度信息在第四類型的窗口與窗口序列(可被認為是第五類型的窗口)之間進行選擇。在此情況中,第一類型窗口包括(相對)長的左側窗口斜率長度、(相對)長的右側窗口斜率長度及(相對)長的變換長度,第二類型的窗口包括(相對)長的左側窗口斜率長度、(相對)短的右側窗口斜率長度及(相對)長的變換長度,第三類型窗口包括(相對)短的左側窗口斜率長度、(相對)長的右側窗口斜率長度及(相對)長的變換長度,且第四類型窗口包括(相對)短的左側窗口斜率長度、(相對)短的右側窗口斜率長度及(相對)長的變換長度?!按翱谛蛄小?或第五窗口類型)定義與時頻信息的單一部分(例如, 幀)相關聯(lián)的多個子窗口的序列或疊加,多個子窗口中每一個具有(相對)短的變換長度、 (相對)短的左側窗口斜率長度及(相對)短的右側窗口斜率長度。通過使用此方法,可僅使用兩個比特來選擇總計五個窗口類型(包括類型“窗口序列”),其中1比特信息(即 1比特窗口斜率長度信息)足以信號通知在左側以及右側度具有相對長窗口斜率長度的多個窗口的非常普遍的序列。相反,僅在準備短窗口序列(“窗口序列”或“第五窗口類型”) 時以及在“窗口序列”幀的時間上擴展(跨過多個幀)系列期間,需要2比特窗口信息。綜上所述,上述從多個(例如五個)不同類型的窗口中選擇一種類型窗口的構思允許大幅降低所需比特率。常規(guī)上必須有三個專用比特用于從例如五種類型的窗口中選擇一種類型的窗口,而依據(jù)本發(fā)明僅需要一個或兩個比特來執(zhí)行此選擇。因此,可實現(xiàn)相當大的比特節(jié)約,從而減小所需比特率及/或提供改進音頻品質(zhì)的機會。在較佳實施例中,窗口選擇器被配置成僅當用于處理時頻信息的先前部分(例如,幀)的窗口類型包括與短窗口序列的左側窗口斜率長度匹配的右側窗口斜率長度,且當與時頻信息的當前部分(例如,當前幀)相關聯(lián)的1比特窗口斜率長度信息定義與短窗口序列的右側窗口斜率長度匹配的右側窗口斜率長度時,才選擇性地評估可變碼字長度窗口信息的變換長度比特。在較佳實施例中,窗口選擇器進一步被配置成接收先前核心模式信息,該核心模式信息與音頻信息的先前部分(例如,幀)相關聯(lián),且描述用于編碼音頻信息的先前部分 (例如,幀)的核心模式。此情況中,窗口選擇器被配置成依據(jù)先前核心模式信息、且也依據(jù)與時頻表示的當前部分相關聯(lián)的可變碼字長度窗口信息,選擇用于處理時頻表示的當前部分的窗口。因此,先前幀的核心模式可被利用來選擇適當窗口以用于先前幀與當前幀之間的過渡(例如交疊和相加操作的形式)。此外,可變碼字長度窗口信息的利用極其有利,因其再次可能節(jié)約相當數(shù)目的比特。如果例如在線性預測域中編碼的音頻幀的可用(或有效的)窗口類型的數(shù)目少,則可獲得特別好的節(jié)約。因此,在兩個不同核心模式之間(例如, 線性預測域核心模式與頻域核心模式之間)的過渡處,在較長碼字與較短碼字中通??梢允褂枚檀a字。在較佳實施例中,窗口選擇器被進一步配置成接收后續(xù)核心模式信息,該核心模式信息與音頻信息的后續(xù)部分(或幀)相關聯(lián),且描述用于編碼音頻信息的后續(xù)幀的核心模式。在此情況中,音頻選擇器較佳地是被配置成依據(jù)后續(xù)核心模式信息且也依據(jù)與時頻表示的當前部分相關聯(lián)的可變碼字長度窗口信息,來選擇窗口以用于處理時頻表示的當前部分(例如幀)。再次,可變碼字長度窗口信息可與后續(xù)核心模式信息結合利用,以低比特數(shù)目需求來確定窗口類型。在較佳實施例中,窗口選擇器被配置成,如果后續(xù)核心模式信息指示音頻信息的后續(xù)幀是使用線性預測域核心模式編碼的,則選擇具有縮短的右側斜率的窗口。以此方式, 可以建立窗口對頻域核心模式與時域核心模式之間過渡的適配,而不需要額外的信號通知。依據(jù)本發(fā)明的另一實施例創(chuàng)建了根據(jù)輸入音頻信息提供編碼音頻信息的音頻編碼器。該音頻編碼器包括基于窗口的信號變換器,其被配置成基于輸入音頻信息的多個窗口部分(例如,交疊或非交疊幀)提供音頻信號參數(shù)序列(例如,輸入音頻信息的時頻域表示)。該基于窗口的信號變換器較佳地被配置成依據(jù)輸入音頻信號特性,適配窗口形狀以獲得輸入音頻信息的窗口化部分?;诖翱诘男盘栕儞Q器被配置成在具有(相對)較長的過渡斜率的窗口與具有(相對)較短過渡斜率的窗口的使用之間進行切換,且也在具有兩個或兩個以上不同變換長度的窗口的使用之間進行切換?;诖翱诘男盘栕儞Q器也被配置成依據(jù)用于變換輸入音頻信息的先前部分(例如,幀)的窗口類型以及輸入音頻信息的當前部分的音頻內(nèi)容,確定用于變換輸入音頻信息的當前部分(例如幀)的窗口類型。并且,音頻編碼器被配置成使用可變長度碼字對描述窗口類型的窗口信息進行編碼,其中窗口類型用于變換輸入音頻信息的當前部分。該音頻編碼器提供已參照發(fā)明的音頻解碼器討論的優(yōu)勢。特別是有可能通過避免在有可行性的一些或全部情況中使用相對長的碼字,來降低編碼音頻信息的比特率。依據(jù)本發(fā)明的另一實施例建立一種編碼音頻信息。該編碼音頻信息包括編碼的時頻表示,其描述音頻信號的多個窗口化部分的音頻內(nèi)容。不同過渡斜率(例如,過渡斜率長度)及不同變換長度的窗口與音頻信號的不同窗口化部分相關聯(lián)。編碼音頻信息也包括編碼的窗口信息,其編碼用于獲得音頻信號的多個窗口化部分的編碼時頻表示的窗口類型。 編碼的窗口信息是可變長度窗口信息,其使用第一較小數(shù)目的比特編碼一或一個以上窗口類型,且使用第二較大數(shù)目的比特編碼一或一個以上的其他窗口類型。此編碼音頻信息帶來上述參照發(fā)明的音頻解碼器及發(fā)明的音頻編碼器討論的優(yōu)勢。依據(jù)本發(fā)明的另一實施例建立一種基于編碼音頻信息提供解碼音頻信息的方法。 該方法包括評估可變碼字長度窗口信息,以從包括具有不同過渡斜率(例如,不同的過渡斜率長度)的窗口以及具有不同變換長度的窗口的多個窗口中選擇窗口,用于處理與音頻信息的給定幀相關聯(lián)的時頻表示的給定部分。該方法也包括使用選擇的窗口將編碼音頻信息描述的時頻表示的給定部分映射至時域表示。依據(jù)本發(fā)明的另一實施例建立一種用于基于輸入音頻信息提供編碼音頻信息的方法。該方法包括基于輸入音頻信息的多個窗口化部分提供音頻信號參數(shù)序列(例如,時頻域表示)。為了提供該音頻信號參數(shù)序列,依據(jù)輸入音頻信息的特性,在具有較長過渡斜率的窗口與具有較短過渡斜率的窗口的使用之間執(zhí)行切換,且也在具有兩個或兩個以上不同變換長度的窗口的使用之間執(zhí)行切換,以適配窗口形狀用于獲得輸入音頻信息的窗口化部分。該方法也包括使用可變長度碼字來編碼窗口信息,該窗口信息描述用于變換輸入音頻信息的當前部分的窗口類型。另外,依據(jù)本發(fā)明的實施例建立用于實施上述方法的計算機程序。


本發(fā)明的實施例將隨后參考附圖描述,在附圖中圖1示出了依據(jù)本發(fā)明實施例的音頻編碼器的示意框圖;圖2示出了依據(jù)本發(fā)明實施例的音頻解碼器的示意框圖;圖3示出了可依據(jù)發(fā)明構思而使用的不同窗口類型的示意表示;圖4示出了可應用于依據(jù)本發(fā)明實施例的設計的不同窗口類型的窗口之間的可允許過渡的圖示表示;圖5示出了可由發(fā)明的編碼器產(chǎn)生或可由發(fā)明的音頻解碼器處理的不同窗口類型的序列的圖示表示;圖6示出了依據(jù)本發(fā)明實施例的表示建議的比特流語法的表;圖6b示出了從當前幀的窗口類型到“window_length”信息及"transform, length”信息的映射的圖示表示; 圖6c示出了基于先前核心信息、先前幀的“wind0w_length,,信息、當前幀的 “windowjength”信息及當前幀的“transformjength”信息來獲得當前幀的窗口類型的映射的圖示表示;圖7a示出了表示“windowjength”信息的語法的表格;圖7b示出了表示“tranSform_length”信息的語法的表格;圖7c示出了表示新的比特流語法及過渡的表格;圖8示出了提供“windowjength”信息以及“tranSf0rm_length”信息的所有組合的概觀的表格;圖9示出了表示可使用本發(fā)明實施例獲得的比特節(jié)約的表格;圖IOa示出了所謂的USAC原始數(shù)據(jù)塊的語法表示;圖IOb示出了所謂的單通道元素的語法表示;
圖IOc示出了所謂的通道對元素的語法表示;圖IOd示出了所謂的ICS信息的語法表示;圖IOe示出了所謂的頻域通道流的語法表示;圖11示出了一種基于輸入音頻信息提供編碼音頻信息的方法的流程圖;及圖12示出了一種用于基于編碼音頻信息提供解碼音頻信息的方法的流程圖。
具體實施例方式音頻編碼器概觀在下文中,描述可應用本發(fā)明構思的音頻編碼器。然而,應注意參考圖1描述的音頻編碼器應被看做僅是本發(fā)明可應用的音頻編碼器的范例。然而,即使參考圖1討論相對簡單的音頻編碼器,應注意本發(fā)明也可應用于更復雜的音頻編碼器中,例如能夠在不同編碼核心模式之間(例如在頻域編碼與線性預測域編碼之間)切換的音頻編碼器。然而,為了簡便起見,這似乎有助于理解簡單頻域音頻編碼器的基本思想。圖1所示音頻編碼器非常相似于國際標準IS0/IEC14496-3 :2005(E),第3部分, 第4子部分及同樣在本文參考的文獻中所描述的音頻編碼器。因此應參考該標準、本文描述的文獻及與MPEG音頻編碼相關的大量文獻。圖1所示的音頻編碼器100被配置成接收輸入音頻信息110,例如時域音頻信號。 音頻編碼器100進一步包括可選的預處理器120,被配置成可選擇地預處理輸入音頻信息 110,例如對輸入音頻信息110下采樣或通過控制輸入音頻信息110的增益。音頻編碼器100 也包括基于窗口的信號變換器130作為關鍵組件,其被配置成接收輸入音頻信息110或其預處理版本122,且將輸入音頻信息110或其預處理版本122變換到頻域(或時頻域),以獲得音頻信號參數(shù)序列,該參數(shù)尅是時頻域中的頻譜值。因此,基于窗口的信號變換器130 包括窗口器/變換器136,其可被配置成將輸入音頻信息110、122的采樣塊(例如,“幀”) 變換成多組頻譜值132。例如,窗口器/變換器136可被配置成為輸入音頻信息的每一采樣塊(即,對于每一“幀”)提供一組頻譜值。然而,輸入音頻信息110、122的采樣塊(即, “幀”)可較佳地交疊,使得輸入音頻信息110、122在時間上相鄰的采樣塊(幀)共用多個采樣。例如,兩個時間上的后續(xù)采樣塊(幀)可交疊大約采樣的50%。因此,窗口器/變換器136可被配置成所謂的交疊變換,例如修改型離散余弦變換(MDCT)。然而,當執(zhí)行修改型離散余弦變換時,窗口器/變換器136可對每一塊的采樣施加窗口,藉此加權中心采樣(時間上被安排成接近采樣塊的時間中心)以強于周邊采樣(時間上被安排成接近采樣塊的前端及尾端)。窗口化可有助于避免起源于輸入音頻信息110、122分割成塊的偽像。因此,在從時域變換到時頻域之前或期間應用窗口,這允許輸入音頻信息110、122后續(xù)采樣塊之間的平滑過渡。關于窗口化的詳情,再次參考國際標準IS0/IEC 14496,第3部分,第4子部分及本文參考的文獻。在該音頻編碼器的極簡單版本中,獨立于信號特性,將音頻幀的2N數(shù)目個采樣(定義為采樣塊)變換成的N個頻譜系數(shù)的集合。然而,已發(fā)現(xiàn)獨立于輸入音頻信息110、122的特性來使用音頻信息110、122的2N個采樣的均一變換長度的這一構思導致過渡的嚴重劣化,因為在過渡的情況下,當解碼音頻信息時,過渡的能量在整個幀上擴散開來。然而,已發(fā)現(xiàn)如果選擇較短變換長度(例如,每變換2N/8 = N/4個采樣),可獲得在邊緣編碼上的改進。然而,也發(fā)現(xiàn),較短變換長度的選擇典型地增加所需的比特率,即使當與較長變換長度相比而言針對較短變換長度獲得較少的頻譜值。因此,已發(fā)現(xiàn)值得推薦的是,在音頻內(nèi)容的過渡(也表示為邊緣)附近從長變換長度(例如,每變換2N個采樣)切換到短變換長度(例如,每變換2N/8 = N/4個采樣),以及在過渡之后切換回長變換長度 (例如,每變換2N個采樣)。變換長度的切換涉及在變換之前或期間用于對輸入音頻信息 110,122的采樣進行窗口化的窗口的改變。關于此問題,應注意在許多情況下音頻編碼器能夠使用多于兩個的不同窗口。例如,如果先前幀(在當前考慮的幀之前)及后續(xù)幀(在當前考慮的幀之后)都使用長變換長度(例如,2N個采樣)編碼,則所謂的“0nly_l0ng_Sequence”可用于編碼當前音頻幀。 相反,所謂的“l(fā)ongjtartsequence”可用于使用長變換長度被變換的幀,在該幀之前是使用長變換長度被變換的幀,且在該幀之后是使用短變換長度被變換的幀。在使用短變換長度被變換的幀中,可應用包括八個短且交疊的(子)窗口的所謂“eight_Short_Sequence” 的窗口序列。另外,可應用所謂的“l(fā)ongjtopjequence”窗口來變換一幀,在該幀之前是使用短變換長度被變換的先前幀,且在該幀之后是使用長變換長度被變換的幀。關于可能的窗口序列的詳情,參考IS0/IEC 14496-3 :2005 (E)第3部分,第4子部分。并且,參考圖 3、4、5、6,它們將在下文詳細解釋。然而,應注意在一些實施例中,可使用一或一個以上附加類型的窗口。例如,如果使用短變換長度的幀在當前幀之前,且如果使用短變換長度的幀在當前幀之后,則可應用所謂的 “ stop_start_sequence ” 窗口。因此,基于窗口的信號變換器130包括窗口序列確定器138,其被配置成向窗口器 /變換器136提供窗口類型信息140,使得窗口器/變換器136可使用適當類型的窗口(“窗口序列”)。例如,窗口序列確定器138可被配置成直接評估輸入音頻信息110或預處理的輸入音頻信息122。然而,備選地,音頻編碼器100可包括心理聲學模型處理器150,其被配置成接收輸入音頻信息110或預處理輸入音頻信息122,且應用心理聲學模型以從輸入音頻信息110、122提取與輸入音頻信息110、122的編碼相關的信息。例如,心理聲學模型處理器150可被配置成識別輸入音頻信息110、122中的過渡,且提供窗口長度信息152,該信息可通知需要短變換長度的幀,因為在對應的輸入音頻信息110、122中存在過渡。心理聲學模型處理器150也可被配置成確定哪些頻譜值需以高分辨率(即,精細量化)來編碼及哪些頻譜值可以較低分辨率(即粗量化)來編碼,而無音頻內(nèi)容的嚴重劣化。因此,心理聲學模型處理器150可被配置成評估心理聲學遮蔽效應,以識別較低心理聲學相關性的頻譜值(或頻譜值的頻帶)及較高心理聲學相關性的其他頻譜值(或頻譜值的頻帶)。因此,心理聲學模型處理器150提供心理聲學相關性信息154。音頻編碼器100進一步包括可選的頻譜處理器160,其被配置成接收音頻信號參數(shù)132的序列(例如,輸入音頻信息110、122的時頻域表示),且基于該序列提供音頻信號參數(shù)162的后處理序列。例如,頻譜后處理器160可被配置成執(zhí)行時間噪聲整形、長期預測、 感知噪聲替代和/或音頻通道處理。音頻編碼器100也包括可選的縮放/量化/編碼處理器170,其被配置成縮放音頻信號參數(shù)(例如,時頻域值或“頻譜值”)132、162,執(zhí)行量化且編碼經(jīng)縮放和量化的值。因此,縮放/量化/編碼處理器170可被配置成使用心理聲學模型處理器提供的信息154,例如來判定向哪些音頻信號參數(shù)(或頻譜值)應用哪種縮放和/或哪種量化。因此,可以適配縮放和量化,使得獲得經(jīng)縮放、量化及編碼的音頻信號參數(shù)(頻譜值)的期望比特率。另外,音頻編碼器100包括可變長度碼字編碼器180,其被配置成從窗口序列確定器138接收窗口類型信息140,且基于窗口類型信息提供對用于由窗口器/變換器136執(zhí)行的窗口化/變換操作的窗口類型進行描述的可變長度碼字182。關于可變長度碼字編碼器 180的細節(jié)將后續(xù)描述。另外,音頻編碼器100可選地包括比特流負載格式器190,其被配置成接收經(jīng)縮放、量化及編碼的頻譜信息172(描述了音頻信號參數(shù)或頻譜值132的序列)以及對用于窗口化/變換操作的窗口類型進行描述的可變長度碼字182。因此比特流負載格式器190提供比特流192,信息172及可變長度碼字182被并入其中。比特流192用作編碼音頻信息, 且可被存儲在媒介上和/或從音頻編碼器100被傳送至音頻解碼器。綜上所述,音頻編碼器100被配置成基于輸入音頻信息110提供編碼音頻信息 192。音頻編碼器100包括基于窗口的信號變換器130作為重要組件,其被配置成基于輸入音頻信息110的多個窗口化部分提供音頻信號參數(shù)132序列(例如頻譜值序列)?;诖翱诘男盘栕儞Q器130被配置成使得依據(jù)音頻信息的特性,選擇用于獲得輸入音頻信息的窗口化部分的窗口類型?;诖翱诘男盘栕儞Q器130被配置成在使用具有較長過渡斜率的窗口與具有較短過渡斜率的窗口之間切換,以及在使用具有兩個或兩個以上不同變換長度的窗口之間切換。例如,基于窗口的信號變換器130被配置成依據(jù)用于變換輸入音頻信息的先前部分(例如幀)的窗口類型,且依據(jù)輸入音頻信息當前部分的音頻內(nèi)容,確定用于變換輸入音頻信息的當前部分(例如幀)的窗口類型。然而,音頻編碼器被配置成例如使用可變長度碼字編碼器180,來編碼描述窗口類型的窗口類型信息140,該窗口類型用于使用可變長度碼字來變換輸入音頻信息的當前部分(例如幀)。變換窗口類型在下文中,將詳細描述可由窗口器/變換器136應用,且可由窗口序列確定器138 選擇的不同窗口。然而,本文所描述的窗口僅用作范例。之后,窗口類型的高效編碼的發(fā)明概念將被討論。參考圖3,示出了不同類型變換窗口的圖示表示,將給出新采樣窗口的概觀。然而, 另外參考IS0/IEC 14496-3,第3部分,第4子部分,其中更詳細地描述了應用變換窗口的概
O圖3示出了第一窗口類型310的圖示,其包括(相對)長的左側窗口斜率 310a (10M個采樣)及長的右側窗口斜率310b (10M個采樣)。2048個采樣及IOM個頻譜系數(shù)全部與第一窗口類型310相關聯(lián),使得第一窗口類型310包括所謂的“長變換長度”。
第二窗口類型 312 被設計成 “l(fā)ong_start_sequence” 或“l(fā)ong_start_window”。 第二窗口類型包括(相對)長的左側窗口斜率31^(10 個采樣)及(相對)短的右側窗口斜率312b (128個采樣)。2048個采樣和IOM個頻譜系數(shù)全部與第二窗口類型相關聯(lián), 使得第二窗口類型312包括長變換長度。第三窗口類型 314 被設計成 “l(fā)ong_stop_sequence” 或“l(fā)ong_stop_window”。第三窗口類型314包括短左側窗口斜率31如(1觀個采樣)及長右側窗口斜率314b (1024個采樣)。2048個采樣和IOM個頻譜系數(shù)全部與第三窗口類型314相關聯(lián),使得第三窗口類型包括長變換長度。
第四窗口類型 316 被設計成 “stop_start_sequence” 或 “stop_start_window”。 第四窗口類型316包括短左側窗口斜率316a(1 個采樣)及短右側窗口斜率316b (1 個采樣)。2048個采樣與IOM個頻譜系數(shù)全部與第四窗口類型相關聯(lián),使得第四窗口類型包括“長變換長度”。第五窗口類型318與第一至第四窗口類型顯著不同。第五窗口類型包括八個“短窗口”或子窗口 319a到319h的疊加,它們被安排成在時間上交疊。各個短窗口 319a_319h 均包括256個采樣的長度。因此,將256個采樣變換成1 個頻譜值的“短"MDCT變換與各個短窗口 319a-319h相關聯(lián)。因此,八組1 個頻譜值各自與第五窗口類型318相關聯(lián),單組IOM個頻譜值與第一到第四窗口類型310、312、314、316中每一個相關聯(lián)。因此,可以說第五窗口類型包括“短”變換長度。然而,第五窗口類型包括短左側窗口斜率318a及短右側窗口斜率318b。因此,對于與第一窗口類型310、第二窗口類型312、第三窗口類型314或第四窗口類型316相關聯(lián)的幀而言,輸入音頻信息的2048個采樣作為單個組被聯(lián)合地窗口化并MDCT 變換到時頻域。相反地,對于與第五窗口類型318相關聯(lián)的幀而言,八個(至少部分交疊的)子組的256個采樣各自被單獨地(或分離地)MDCT變換,以便獲得八組MDCT系數(shù)(時頻值)。再次參考圖3,應注意圖3示出了多個附加窗口。如果當前幀在線性預測域中被編碼的先前幀之后,可以應用這些附加窗口,即所謂的“st0p_1152_seqUence”或 “stop_window_l 152 “ 330 以及所謂的"stop_start_1152_sequence” 或"stop_start_ window_1152" 3320在這些情況中,適配變換的長度,以允許消除時域混淆偽像。并且,如果當前幀由線性預測域中被編碼的后續(xù)幀接隨,則可選的,可以應用附加窗口 362、366、368、382。然而,窗口類型330、332、362、366、368、382應被視為可選的,且不為實施發(fā)明的概念所必需。變換窗口類型之間的過渡現(xiàn)在參考圖4,示出了窗口序列(或變換窗口類型)之間允許的過渡的示意圖, 進一步的細節(jié)將被解釋。注意,各自具有窗口類型310、312、314、316、318之一的兩個后續(xù)變換窗口被應用于部分交疊的音頻采樣塊,可理解第一窗口的右側窗口斜率應與后續(xù)的第二窗口的左側窗口斜率匹配,以避免有部分交疊導致的偽像。因此,如果用于(兩個后續(xù)幀中的)第一幀的窗口類型是給定的,則針對(兩個后續(xù)幀中的)第二幀的窗口類型的選擇是受限制的。如圖4所示,如果第一窗口是“onlyjongjequence”窗口,第一窗口只能由 “only_long_sequence” 窗口或“l(fā)ong_start_sequence” 窗口跟隨。相反地,如果 "only_long_sequence” 窗口用于變換第一幀,則不允許使用 “eight_short_sequence” 窗口、“ long_stop_sequence ”窗口或“ stop_start_sequence ”窗口來用于跟隨第一幀的第二幀。類似地,如果“l(fā)ong_Stop_Sequence”窗口用于第一幀,則第二幀可使用“0nly_l0ng_ sequence” 窗口或"stop_start_sequence” 窗口,但是第二幀不可使用"eight_short_ sequence,,窗口、“ long_stop_sequence,,窗口或“ stop_start_sequence,,窗口。相反地,如果(兩個后續(xù)幀中的)第一幀使用“l(fā)ongjtartsequence”窗口、 “eight_short_sequence,,窗口或"stop_start_sequence,,窗口,則(兩個后續(xù)巾貞中的)第二中貞不可使用"only_long_sequence"窗口或 ‘‘ long_start_sequence,,窗口 ,但是可使用
14"eight_short_sequence,,窗口、“ long_stop_sequence,,窗口或"stop_start_sequence,,窗窗口類型“only_long_sequence,,、“l(fā)ong_start_sequence,,、“eight_short_ sequence,,、“ long_stop_sequence,,及“ stop_start_sequence,,之間的可允許過渡由圖 4 中的”打鉤”示出。相反地,在沒有“打鉤”的窗口類型之間的過渡在一些實施例中是不允許的。另外,應注意,如果頻域核心模式與線性預測域核心模式之間的過渡是可能的,則附加窗口類型 “LPD_sequence,,、“stop_1152_sequence” 及 “stop_start_1152_sequence” 可被使用。然而,該可能性應被視為可選的,且稍后將討論。范例窗口序列在下文中,描述窗口序列可,其使用窗口類型310、312、314、316、318。圖5示出了窗口序列的圖示表示。如圖所示,橫坐標150表示時間。在圖5中,交疊大約50%的幀標記和指定為“幀1”到“幀7”。圖5示出了第一幀520,其可例如包括2048個采樣。第二幀522相對第一幀520在時間上移位(大約)IOM個采樣,使得第二幀交疊第一幀520 (大約)50%。在圖5中可看到第三幀524、第四幀526、第五幀528、第六幀530及第七幀532在時間上的對準?!皁nly_long_sequence,,窗口 540(類型310)與第一幀520相關聯(lián)。并且, “only_long_sequence”窗口 542(類型 310)與第二幀 522 相關聯(lián)?!?long_start_sequence” 窗口 544(類型312)與第三幀相關聯(lián),“eight_short_sequence”窗口 546(類型318)與第四幀 526 相關聯(lián),“stop_start_sequence” Π 548 (類型 316)與第五幀相關聯(lián),"eight_ short_sequence,,窗口 550 (類型 318)與第六幀 530 相關聯(lián),且一” “l(fā)ong_stop_sequence,, 窗口 552 (類型314)與第七幀532相關聯(lián)。因此,單組IOM個MDCT系數(shù)與第一幀520相關聯(lián),另一單組IOM個MDCT系數(shù)與第二幀522相關聯(lián),又一單組IOM個MDCT系數(shù)與第三幀5M相關聯(lián)。然而八組1 個MDCT系數(shù)與第四幀5 相關聯(lián)。單組IOM個MDCT系數(shù)與第五幀5 相關聯(lián)。如果在第四幀526的中心部分存在瞬變事件,且如果在第六幀530的中心部分存在瞬變事件,同時在其余時間內(nèi)(例如,在第一幀520、第二幀522、第三幀524的開始、第五幀528的中心及第七幀532的結束期間)信號近似穩(wěn)定,則圖5所示的窗口序列可例如帶來特別的比特率高效的編碼結果。然而,如在下文詳細描述的,本發(fā)明建立用于編碼與音頻幀相關聯(lián)的窗口類型的特別有效的概念。對于這點,應注意五個不同窗口類型310、312、314、316、318全部都用在圖5的窗口序列500中。因此,“通?!毙枰褂萌齻€比特來編碼幀類型。相反地,本發(fā)明建立了允許以減少的比特需求來編碼窗口類型的概念?,F(xiàn)在參考圖6a及圖7a、7b以及7c,將說明本發(fā)明的用于編碼窗口類型概念。圖 6a示出了表示窗口類型信息的建議語法的表格,包括用于編碼窗口類型的規(guī)則。為了說明的目的,假定由窗口序列確定器138提供至可變長度碼字編碼器180的窗口類型信息140 描述了當前幀的窗口類型,且可采取“ only_long_sequence ”、“ long_start_sequence ”、 "eight_short_sequence,,、“ long_stop_sequence,,、"stop_start_sequence,,值之一,以及可選地甚至可采取“stop_1152_sequence” 及“stop_start_1152_sequence” 值之一。然而,依據(jù)本發(fā)明編碼概念,可變長度碼字編碼器180提供1比特“windowjength”信息,該信息描述了與當前幀相關聯(lián)的窗口的右窗口斜率的長度。如圖7a所示,1比特“window length”信息的“0”值可表示IOM個采樣的右窗口斜率長度,而“ 1”值可表示1 個采樣的右窗口斜率長度。因此,如果窗口類型是“only_l0ng_Sequence”(第一窗口類型310)或 “l(fā)ong_stop_sequence” (第三窗口類型314),則可變長度碼字編碼器180可提供“window_ length”信息的“0”值??蛇x地,可變長度碼字編碼器180也可對窗口類型“stop_1152_ sequence”(窗口類型330)提供值為“0”的“windowjength”信息。相反地,可變長度碼字編碼器 180 可向“l(fā)ong_start_sequence” (第二窗口類型 312)、“stop_start_sequence” (第四窗口類型 316)及“eight_short_sequence” (第五窗口類型 318)提供“ 1 ” 值“window_ length”信息。可選地,可變長度碼字編碼器180也可向“stop_start_1152_sequence”(窗口類型332)提供“1”值“windowjength”信息。另外,可變長度碼字編碼器180可選地向一或一個以上的窗口類型362、366、368、382提供“1”值的“WindoW_length”信息。然而,可變長度碼字編碼器180被配置成依據(jù)當前幀的1比特“windowjength”信息的值,選擇性地提供另一 1比特信息,即當前幀的所謂的“transformjength”信息。如果當前幀的“window_length”信息采取“0”值(即對于窗口類型“only_long_sequence”、 “ long—stop—sequence,,、及可選地對于 “stop—1152—sequence,,而目 ),則可變長度碼字編碼器180不提供“transformjength”信息來包括到比特流192中。相反地,如果當前幀的“window_length”信息采取“1”值(即對于窗口類型“l(fā)ong_start_sequence”、 "stop_start_sequence,,"eight_short_sequence,,,可選地對"LPD_start_sequence,,及 “St0p_Start_1152_Sequence”而言),則可變長度碼字編碼器180提供比特流192中的1 比特“transform_length”信息來包括到比特流192中?!皌ransform_length”信息被提供,如果其被提供,使得“transfornulength”信息表示應用于當前幀的變換長度。因此, 提供 “ transform_length” 信息以對于窗口類型 “ long_start_sequence ”、“ stop_start_ sequence,,,及可選地,"stop_start_1152_sequence,,及"LPD_start_sequence,,而言采取第一值(例如“0”值),從而指示應用于當前幀的MDCT核心大小是10M個采樣(或1152 個采樣)。相反地,如果“eight_short_sequence”窗口類型與當前幀相關聯(lián),“transform_ length”信息由可變長度碼字編碼器180提供以采取第二值(例如“ 1”值),從而指示與當前幀相關聯(lián)的MDCT核心大小是1 個采樣(見圖7b的語法表示)??偠灾?,如果與當前幀相關聯(lián)的窗口的右側窗口斜率相對長(長窗口斜率 310b、314b、330b),即對于窗口類型 “only_long_sequence”、“l(fā)ong_stop_sequence” 及“ stop_1152_sequence ”而言,可變長度碼字編碼器180提供僅包括當前幀的1比特”windowjength”信息的1比特碼字,以包括到比特流192中。相反地,如果與當前幀相關聯(lián)的右側窗口斜率是短窗口斜率312b、316b、318b、332b,即,對于窗口類型“ long_ start_sequence,,、“ eight_short_sequence,,、“ stop_start_sequence,,及,可選地對“ stop_ start_1152_sequence”而言,可變長度碼字編碼器180提供包括1比特“windowjength” 信息及1比特“transformjength”信息的2比特碼字,以包括到比特流192中。因此,在 “only_long_sequence”窗口類型及“l(fā)ong_stop_sequence”窗口類型的情況中(及可選地對于“stop_1152_sequence”窗口類型而言)節(jié)約了 1比特。因此,視與當前幀相關聯(lián)的窗口類型而定,僅需要一或兩個比特用于編碼從五個 (或更多)可能窗口類型中的選擇。
16
在這里應注意,圖6a示出了在窗口類型行632中定義的窗口類型到列620中示出的“windowjength”信息的值映射,及(如果需要)到列6 中示出“transfornUength,, 信息的提供狀態(tài)及值的映射。圖6b示出了用于從當前幀的窗口類型導出當前幀的“windowjength”信息及 “transform_length”信息(或“transform_length”從比特流192中省略的指示)的映射的圖示表示。此映射可由可變長度碼字編碼器180執(zhí)行,其接收描述當前幀的窗口類型的窗口類型信息140,且將其映射至圖6b表格中的列660所示“windowjength”信息上以及圖6b表格中的列662所示“transform_length”信息上。具體地,僅當“window_length” 信息采取預定值(例如“1”)時,可變長度碼字編碼器180提供“transformjength”信息, 否則省略提供” transform.length"信息,或抑制將“transformjength”信息包括到比特流192中。因此,對于給定幀而言,包括在比特流192中的窗口類型比特的數(shù)目可依據(jù)當前幀的窗口類型變化,如圖6b表格的列664所示。并且應注意在一些實施例中,如果當前幀后跟隨在線性預測域中編碼的幀,則當前幀的窗口類型可被適配或修改。然而,這典型地不影響窗口類型到“windowjength”信息及選擇性地提供的“transfornulength”信息的映射。因此,音頻編碼器100被配置成提供比特流192,使得比特流192遵循下文參考圖 IOa-IOe討論的語法。音頻解碼器概覽在下文中,參考圖2詳細描述依據(jù)本發(fā)明實施例的音頻解碼器。圖2示出了依據(jù)本發(fā)明實施例的音頻解碼器的示意圖。圖2的音頻解碼器200被配置成接收包括編碼音頻信息的比特流210,且基于該比特流提供解碼的音頻信息212(例如以時域音頻信號的形式)。音頻解碼器200包括可選的比特流負載去格式器220,其被配置成接收比特流210且從比特流210提取編碼的頻譜值信息222及可變碼字長度窗口信息224。比特流負載去格式器220可被配置成從比特流210提取附加信息,如控制信息、增益信息及附加音頻參數(shù)信息。然而,此附加信息是本領域技術人員熟知的且與本發(fā)明無關。進一步的細節(jié)參考例如國際標準IS0/IEC 14496-3 :2005 (E),第3部分,第4子部分。音頻解碼器200包括可選的解碼器/逆量化器/重新縮放器230,其被配置成解碼上述編碼的頻譜值信息222、執(zhí)行逆量化,且也執(zhí)行對逆量化的頻譜值信息的重新縮放, 從而獲得解碼頻譜值信息232。音頻解碼器200進一步包括可選的頻譜預處理器M0,其可被配置成執(zhí)行一或一個以上頻譜預處理步驟。一些可能的頻譜預處理步驟例如在國際標準IS0/IEC 14496-3 :2005 (E),第3部分,第4子部分中被解釋。因此,解碼器/逆量化器 /重新縮放器及可選的頻譜預處理器240的功能得到提供由比特流210表示的編碼音頻信息的(經(jīng)解碼且可選地預處理的)時頻表示對2。音頻解碼器200包括基于窗口的信號變換器250,作為關鍵組件?;诖翱诘男盘栕儞Q器250被配置成將(解碼的)時頻表示對2 變換成時域音頻信號252。因此,基于窗口的信號變換器250可被配置成執(zhí)行時頻域到時域變換。例如,基于窗口的信號變換器250的變換器/窗口器邪4可被配置成接收與編碼音頻信息的時間上交疊的幀相關聯(lián)的修改型離散余弦變換系數(shù)(MDCT系數(shù)),作為時頻表示 2420因此,變換器/窗口器邪4可被配置成執(zhí)行修正離散余弦逆變換(IMDCT)形式的交疊變換,以獲得編碼音頻信息的窗口化時域部分(幀),且使用交疊和相加操作來交疊和相加后續(xù)的窗口化時域部分(幀)。當基于時頻表示242重建時域音頻信號252時,即當與窗口化及交疊和相加操作相結合地執(zhí)行修改型散余弦逆變換時,變換器/窗口器2M可從多個可用窗口類型中選擇窗口,以允許適當重建且避免任何成塊偽像。音頻解碼器也包括可選的時域后處理器沈0,其被配置成基于時域音頻信號252 獲得解碼音頻信息212。然而,應注意解碼音頻信息212在某些實施例中可與時域音頻信號 252相同。另外,音頻解碼器200包括窗口選擇器270,其被配置成例如從可選的比特流負載去格式器220接收可變碼字長度窗口信息224。窗口選擇器270被配置成向變換器/窗口器2M提供窗口信息272 (例如窗口類型信息或窗口序列信息)。應注意取決于實際實施方式,窗口選擇器270可以是或不是基于窗口的信號變換器250的一部分。綜上所述,音頻解碼器200被配置成基于編碼音頻信息210提供解碼音頻信息 212。音頻解碼器200包括基于窗口的信號變換器250作為關鍵組件,其被配置成將編碼音頻信息210描述的時頻表示M2映射至時域表示252?;诖翱诘男盘栕儞Q器250被配置成基于窗口信息272,從包括不同過渡斜率(例如不同過渡斜率長度)的窗口及不同變換長度的窗口的窗口中選擇窗口。音頻解碼器200包括窗口選擇器270作為另一關鍵組件,其被配置成評估可變碼字長度窗口信息224,以選擇窗口以供處理與音頻信息的給定幀相關聯(lián)的時頻表示M2的給定部分。音頻解碼器的其他組件,即比特流負載去格式器220、解碼器/逆量化器/重新縮放器230、頻譜預處理器240及時域后處理器260可被視作可選的, 但是可出現(xiàn)在音頻解碼器200的某些實施中。在下文中,描述關于供變換器/窗口器2M執(zhí)行的變換/窗口化之用的窗口的選擇的細節(jié)。然而,關于不同窗口選擇的重要性參考上文。音頻解碼器200較佳地能夠使用上述窗口類型“0nly_l0ng_sequence”、“l(fā)0ng_ start_sequence,,、“ eight_short_sequence,,、“ long_stop_sequence,, 及 “ stop_start_ sequence”。然而,音頻解碼器可選地能夠使用附加窗口類型,例如所謂的“stop_1152_ sequence”及所謂的“ stop_start_1152_sequence” (兩者都可用于從線性預測域編碼幀到頻域編碼幀的轉變)。另外,音頻解碼器200可進一步被配置成使用附加窗口類型,例如,窗口類型362、366、368、382,它們可適用于從頻域編碼幀到線性預測域編碼幀的轉變。然而, 窗口類型330、332、362、366、368、382的使用可被視為可選的。然而,本發(fā)明的音頻解碼器的重要特征是提供從可變碼字長度窗口信息224導出適當窗口類型的特別有效的解決方法。如上所述,這將在下文中參考圖IOa-IOe進一步解釋。可變碼字長度窗口信息2M典型地包括每幀1或2個比特。較佳地,可變碼字長度窗口信息包括攜帶當前幀的 indowjength”信息的第一比特及攜帶當前幀的 “transfornUength”信息的第二比特,其中第二比特(“transfornUength”比特)的存在取決于第一比特(“windowjength”比特)的值。因此,窗口選擇器270被配置成選擇性地評估一或兩個窗口信息比特(“window_length”及“transform_length”),以依據(jù)當前幀相關聯(lián)的“windowjength”比特值的確定與當前幀相關聯(lián)的窗口類型。然而,在沒有 “transform_length”比特的情況下,窗口選擇器270可自然地假定“transform_length”比特采取缺省值。在較佳實施例中,窗口選擇器270可被配置成評估上文參考圖6a所述的語法,且依據(jù)該語法提供窗口信息272。首先假定,音頻解碼器200總是以頻域核心模式進行操作,即假定沒有頻域核心模式與線性預測域核心模式之間的切換,則區(qū)分上文提到的五個窗口類型(“0nly_l0ng_ sequence,,、“ long_start_sequence,,、“ long_stop_sequence,,、“ stop_start_sequence,,及 "eight.short.sequence")就足夠了。在此情況下,先前幀的“windowjength”信息、當前幀的“windowjength”信息及當前幀的“transformjength”信息(如果可用)足以決定窗口類型。例如,假定僅在頻域核心模式中操作(至少在三個后續(xù)幀的序列上),可從先前幀的“windowjength”信息指示長過渡斜率(“0”值)及當前幀的“windowjength”信息指示長過渡斜率(“0”值)的事實,推斷出窗口類型“0nly_l0ng_Sequence”與當前幀相關聯(lián), 而不需評估“transformjength”信息,在此情況中編碼器不發(fā)送“transformjength”信
肩、ο再次假定僅在頻域核心模式中操作,可從先前幀的“windowjength”信息指示長 (右側)過渡斜率及當前幀的“windowjength”信息指示短(右側)過渡斜率(“1”值) 的事實推斷出窗口類型“l(fā)ong_start_seqUence”與當前幀相關聯(lián),甚至不需評估當前幀的 "transform_length"信息(在此情況中,,transform_length”信息可以或可以不由編碼器
產(chǎn)生及/或發(fā)送)。再次假定僅在頻域核心模式中操作,可從先前幀的“windowjength”信息指示短 (右側)過渡斜率(“1”值)的存在及當前幀的“windowjength”信息指示長(右側)過渡斜率(“0”值)的事實推斷出窗口類型“l(fā)ongjtopjequence”與當前幀相關聯(lián),甚至不需評估當前幀的“transformjength”信息(其典型地不由對應音頻編碼器提供)。然而,如果先前幀的“windowjength”信息指示短(右側)過渡斜率的存在且當前幀的“windowjength”信息指示也指示短過渡斜率(“1”值)的存在,可能有必要評估當前幀的“transformjength”信息。在此情況中,如果當前幀的“transformjength”信息采取第一值(例如0),則窗口類型” st0p_start_sequence”與當前幀相關聯(lián)。否則,即, 如果當前幀的“transformjength”信息采取第二值(例如1),可推斷出窗口類型“eight_ short_sequence”與當前幀相關聯(lián)。綜上所述,窗口選擇器270被配置成評估先前幀的“Wind0W_length”信息及當前幀的“windowjength”信息,以決定與當前幀相關聯(lián)的窗口類型。另外,窗口選擇器270依據(jù)當前幀的“windowjength”信息的值(且也可能依據(jù)先前幀“windowjength”信息,或核心模式信息),考慮到當前幀的“transformjength”信息,選擇性地決定與當前幀相關聯(lián)的窗口類型。因此,窗口選擇器270被配置成評估可變碼字長度窗口信息,以確定與當前幀相關聯(lián)的窗口類型。圖6c示出了先前幀的“wind0w_length”信息、當前幀的“Wind0W_length”信息及當前幀的“transformjength”信息映射至當前幀的窗口類型的表格。當前幀的“wind0w_ length”信息及當前幀的“transformjength”信息可由可變碼字長度窗口信息2M表示。 當前幀的窗口類型可由窗口信息272表示。由圖6c的表格描述的映射可由窗口選擇器270 執(zhí)行。如圖所示,該映射可取決于先前核心模式。如果先前核心模式是“頻域核心模式”(縮寫為“FD”),則該映射可采用如上所述的形式。然而,如果先前核心模式是“線性預測域核心模式”(縮寫為“LPD”),則該映射可被改變,如圖6c圖表格最后兩列所示。另外,如果后續(xù)的核心模式(即與后續(xù)幀相關聯(lián)的核心模式)不是頻域核心模式, 而是線性預測域核心模式,則該映射可被改變。音頻解碼器200可選地包括比特流解析器,其被配置成解析表示編碼音頻信息的比特流210,從比特流提取1比特窗口斜率長度信息(在本文也稱為“windowjength”信息),以及依據(jù)該1比特窗口斜率長度信息的值選擇性地提取1比特變換長度信息(在本文也稱為“transformjength”信息)。在此情況中,窗口選擇器270被配置成依據(jù)當前幀的窗口斜率長度信息選擇性地使用或忽略變換長度信息,以選擇用于處理時頻表示M2的給定部分(例如幀)的窗口類型。該比特流解析器可以例如是比特流負載去格式器220的一部分,且使音頻解碼器200能夠如上所述以及參考圖IOa-IOe所述那樣處理可變碼字長度窗Π信息。在頻域核心樽式與時域核心樽式之間切換在一些實施例中,音頻編碼器100及音頻解碼器200可被配置成在頻域核心模式與線性預測域核心模式之間切換。如上所述,假定頻域核心模式是基本核心模式,即以上說明成立。然而,如果音頻編碼器能夠在頻域核心模式與線性預測域核心模式之間切換,則在頻域核心模式中編碼的幀與線性預測域核心模式中編碼的幀之間可能仍存在交叉衰落 (在交疊和相加操作方面)。因此,必須選擇適當窗口以確保在不同核心模式中編碼的幀之間的適當交叉衰落。例如,在一些實施例中,可能存在兩個窗口類型,即圖2Β中所示的窗口類型330及332,它們適配用于從線性預測域核心模式到頻域核心模式的轉變。例如,窗口類型330可允許線性預測域編碼幀與頻域編碼幀之間具有長左側過渡斜率的轉變,例如, 使用窗口類型“only_long_sequence”或窗口類型“l(fā)ong_start_sequence”從線性預測域編碼幀到頻域編碼幀。類似地,窗口類型332可允許從線性預測域編碼幀到頻域編碼幀具有短左側過渡斜率的轉變(例如從線性預測域編碼幀到具有關聯(lián)窗口類型“eight_Sh0rt_ sequence”或“l(fā)0ng_St0p_Sequence”的幀的轉變)。因此,如果發(fā)現(xiàn)先前幀(在當前幀之前)是在線性預測域中編碼的,當前幀是在頻域中編碼的,且當前幀的“windowjength”信息表示當前幀的長右側過渡斜率(例如“0”值),則窗口選擇器270可被配置成選擇窗口類型330。相反地,如果發(fā)現(xiàn)先前幀是在線性預測域編碼的,當前幀是在頻域編碼的,而當前幀的“windowjength”信息指示長右側過渡斜率與當前幀相關聯(lián)(例如“1”值),則窗口選擇器270被配置成為當前幀選擇窗口類型332。類似地,窗口選擇器270可被配置成對后續(xù)幀(在當前幀之后)在線性預測域中編碼,而當前幀在頻域中編碼的事實作出反應。在此情況中,窗口選擇器270可選擇適配為之后跟隨有線性預測域編碼幀的窗口類型362、366、368、384中的一個,而非適配為之后跟隨有頻域編碼幀的窗口類型312、316、118、332之一。然而,除了由窗口類型362代替窗口類型312,由窗口類型368代替窗口類型318,由窗口類型366代替窗口類型360及由窗口類型382代替窗口類型332以外,窗口類型的選擇在與它們僅是頻域編碼幀的情況相比較時可以保持不改變。因此,使用可變碼字長度窗口信息的本發(fā)明機制,即使在頻域編碼與線性預測編碼之間發(fā)生轉變的情況中亦可被應用,而不顯著損及編碼效率。
比特流語法細節(jié)在下文中,參考圖IOa-IOe討論關于比特流192、210的比特流語法的細節(jié)。圖IOa 示出了所謂的聯(lián)合語音/音頻編碼(“USAC”)原始數(shù)據(jù)塊“USAC_raw_data_bl0Ck”的語法表示。如圖所示,USAC原始數(shù)據(jù)塊可包括所謂的單通道元素(“single^harmelelementO ”) 和/或通道對元素(“charmel_pair_eIement ()”)。然而,USAC原始數(shù)據(jù)塊自然可包括多于一個單通道元素和/或多于一個通道對元素?,F(xiàn)在參考圖10b,示出了單通道元素的語法表示,更多的細節(jié)將描述。如圖IOb所示,單通道元素可包括核心模式信息,例如以“corejiiode”比特形式。該核心模式信息可指示當前幀是在線性預測域核心模式還是在頻域核心模式編碼的。在當前幀在線性預測域核心模式編碼的情況下,單通道元素可包括線性預測域通道流(“LPDjharmelstreamO ”)。 在當前幀在頻域編碼的情況中,單通道元素可包括頻域通道流(“FDjharmelstreamO ”)?,F(xiàn)在參考圖10c,示出了通道對元素的語法表示,附加細節(jié)將描述。通道對元素可包括第一核心模式信息,例如以“corejiiodeO”比特形式,描述第一通道的核心模式。另外, 通道對元素可包括“corejiiodel”比特形式的第二核心模式信息,描述第二通道的核心模式。因此,不同或相同的核心模式可被選擇用于由通道對元素描述的兩個通道。可選地,通道對元素可包括公用ICS信息(“ICS_info()”)用于兩個通道。如果由通道對元素描述的兩個通道的配置非常相似,則此公用ICS信息是有利的。自然,僅在兩個通道以同一核心模式編碼時才較佳地使用公用ICS信息。另外,通道對元素依據(jù)針對第一通道定義(通過核心模式信息“corejiiodeO”)的核心模式,包括與第一通道相關聯(lián)的線性預測域通道流(“LPDjharmelstreamO”)或頻域通道流(“FD_channel_stream(),,)。并且,通道對元素依據(jù)用于編碼第二通道的核心模式(可由核心模式信息“core_ model”通知),包括第二通道的線性預測域通道流(“LPDjharmelstreamO”)或頻域通道流("FD_channel_stream () ”)?,F(xiàn)在參考圖10d,示出了 ICS信息的表示的語法,附加細節(jié)將描述。應注意ICS信息可包括在通道對元素中,或在單獨的頻域通道流中(如參考圖IOe所述)。ICS信息包括1比特(或單比特)“windowjength”信息,描述與當前幀相關聯(lián)的窗口的右側過渡斜率的長度,例如根據(jù)圖7a所給的定義。當且僅當“windowjength”信息取預定值(例如“1”)時,ICS信息才包括附加的1比特(或單比特)"transform_length" 信息。該“transformjength”信息描述MDCT核心的大小,例如,根據(jù)圖7b中所給的定義。 如果“windowjength”信息采取與預定值不同的值(例如“0”值),則“transformjength” 信息不被包括在(或從其省略)ICS信息中(或在對應比特流中)。然而,在此情況中,音頻解碼器的比特流解析器可將解碼器變量“transformjength”的恢復值設定為缺省值(例如“0”值)。另外,ICS信息可包括所謂的“windoLshape”信息,其可以是描述窗口過渡形狀的1比特(或單比特)信息。例如,“windowjhape”信息可描述窗口過渡是否具有正弦/ 余弦形狀或凱斯-貝塞爾-衍生形狀。關于“windowjhape”信息的意義,參考例如國際標準IS0/IEC14496-3 :2005( ,第3部分、第4子部分。然而,應注意“window_shape”信息使基本窗口類型未受影響,且使一般特性(長過渡斜率或短過渡斜率;長變換長度或短變換長度)不受“window_shape”影響。因此,在依據(jù)本發(fā)明的實施例中,“windowjhape”,即過渡的形狀與窗口類型(即過渡斜率(長或短)的一般長度及變換長度(長或短))相分離地確定。另外,ICS信息可包括與窗口類型相關的縮放因子信息。例如,如果“window length” 信息及“transform_length” 信息表示當前窗口類型是“eight_short_sequence”, 則ICS信息可包括描述最大縮放因子頻帶的“maX_sfb”信息以及描述縮放因子頻帶的分組的“scale_factor_grouping”信息。關于此信息的細節(jié)在例如國際標準IS0/IEC 14496-3 2005 (E),第3部分,第4子部分中有描述??晒┻x擇地,即,如果"window_length"信息及 “transform_length,,信息表示當前窗口類型不是“eight_short_sequence,,的窗口類型,則 ICS 信息可僅包括 “max_sfb,,信息(而沒有 “scale_factor_grouping,,信息)。在下文中,參考圖IOe描述某些進一步的細節(jié),圖IOe示出了頻域通道流(“FD_ channel_stream()")的語法表示。頻域通道流包括描述與頻譜值相關聯(lián)的全局增益的 “globalgain,,信息。另外,頻域通道流包括ICS信息(“ ICSjnfo (),,),除非該信息已包括在包括所述頻域通道流的通道對元素中。關于ICS信息的細節(jié)已參考圖IOd進行了描述。另外,頻域通道流包括縮放因子數(shù)據(jù)(“SCale_faCt0r_data() ”),其描述要應用于解碼的頻譜值信息或時頻表示的值的縮放。另外,頻域通道流描述經(jīng)編碼的頻譜數(shù)據(jù),其可例如是算術編碼的頻譜數(shù)據(jù)(“aC_SpeCtral_data()”)。然而,頻譜數(shù)據(jù)的不同編碼可被使用。關于縮放因子數(shù)據(jù)和編碼的頻譜數(shù)據(jù),仍參考國際標準IS0/IEC14496-3 :2005(E), 第3部分,第4子部分。然而,如果需要,自然可以使用對縮放因子數(shù)據(jù)及頻譜數(shù)據(jù)的不同編碼。結論及件能評估在下文中,將作出一些結論并給出本發(fā)明概念的性能評估。本發(fā)明的實施例建立了減少所需比特率的概念,其可例如與國際標準IS0/IEC 14496-3 :2005 (E),第3部分,第 4子部分中定義的音頻編碼方案相結合地應用。然而,本文所述的概念也可與所謂的“聯(lián)合語音/音頻編碼”方法(USAC)相結合地使用?;诂F(xiàn)有比特流定義及解碼器架構,本發(fā)明建立了比特流語法修改,其簡化對窗口序列進行通知的語法,節(jié)約比特率而不增加復雜性, 且不改變解碼器輸出波形。在下文中,本發(fā)明的背景及基本將簡要討論并總結。在依據(jù)IS0/IEC 14496-3 2005(E)第3部分,第4子部分的當前音頻編碼中,以及在USAC工作草案中,發(fā)送具有兩比特固定長度的碼字以通知窗口序列。另外,有時需要先前幀的窗口序列信息以確定正確序列。然而,已發(fā)現(xiàn)通過考慮該信息并通過使碼字長度可變(一或兩個比特),可以降低比特率。新碼字具有最大兩比特的長度(“windowjength”以及在一些情況中的 “transformjength”)。因此,比特率不會增加(當相比于常規(guī)方法時)。新碼字(“window_length”以及在一些情況中的“transform_length”)由表示右窗口斜率長度的1比特(“windowjength”)及表示變換長度的1比特(“transform_ length”)組成。在許多情況中,可以通過先前幀的信息,即窗口序列及核心模式,毫無疑義地導出變換長度。因此不需要重新發(fā)送尬信息。因此,比特(“transformjength”)在這些情況中被省略,從而導致比特率降低。
22
在下文中,討論關于依據(jù)本發(fā)明的新比特流語法的提議細節(jié)。所提出的新比特流語法允許較簡單明了的實施以及對窗口序列的通知,因為其僅傳遞確定當前幀的窗口類型實際所需的信息,即右窗口斜率及變換長度。當前幀的左窗口斜率由先前幀的右窗口斜率導出。該提議(或提出的新比特流)明確地分離了窗口斜率長度的有關信息(“window length”信息)和變換長度的有關信息(“transformjength”信息)。可變長度碼字是兩者的結合,依據(jù)圖7a和7d,其中第一比特“windowjength”決定(當前幀的)右窗口斜率的長度,而第二比特“transformjength”決定MDCT(對于當前幀而言)的長度。在“wind0w_ 1 ength ” = 0,即長窗口斜率被選擇時,“ transform_length,,的傳輸可以被省略略(或確實被省略),因為IOM個采樣(或在一些情況中為1152個采樣)的MDCT核心大小是強制的。圖7c提供“window_length”及“transform_length”的所有組合的概覽。如圖所示,兩個1比特信息項“windowjength”及“transformjength”僅有三個有意義的組合, 使得如果“windowjength”信息采取零值時,可省略“transformjength”的傳輸,而對所需信息的傳輸無有害影響。在下文中,簡要概括"window_length"信息及“transform_length,,信息到 “windowjequence”信息(描述要用于當前幀的窗口類型)的映射。圖6a中表格示出了如何從新提出的比特流元素中導出所設想的USAC標準工作草案的當前狀態(tài)的比特流元素 "window_sequence"0這說明所提出的改變就信息內(nèi)容而言是“透明的”。換句話說,基于利用可變碼字長度窗口信息的用于通知窗口類型的本發(fā)明比特率減少的語法能夠攜帶“完整”信息內(nèi)容,該完整信息內(nèi)容常規(guī)地使用較高比特率來發(fā)送。并且,本發(fā)明概念可應用于常規(guī)的音頻編碼器及解碼器,例如依據(jù)IS0/IEC 14496-3 2005 (E),第3部分,第4子部分或依據(jù)沒有任何主要修改的現(xiàn)行USAC工作草案的音頻編碼器或音頻解碼器。在下文中,描述可實現(xiàn)的比特節(jié)約的評估。然而,應注意在一些情況中比特節(jié)約可稍小于所指出的,且在其他情況中比特節(jié)約可能甚至顯著大于所述比特節(jié)約。圖9所示的 “比特節(jié)約評估”示出了將使用新比特流語法的比特流與常規(guī)比特流(該常規(guī)比特流被提交為提案)相比較時,無損代碼轉換的比特節(jié)約評估??汕宄闯觯罁?jù)本發(fā)明,在121ApS單聲道的全部頻域幀的95. 67%中,以及在641cbpS的全部頻域幀的高至95. 15%中,可以省去 "transform_length"比特的傳輸。如圖9所示,平均每秒可節(jié)約2到M比特,而不損害音頻內(nèi)容的質(zhì)量。鑒于比特率是音頻內(nèi)容存儲及傳輸?shù)臉O關鍵資源,此改進可視為非常有價值。并且,應注意在一些情況中,例如如果幀被選擇為相對較短時,比特率上的改進可明顯更大。綜上所述,本發(fā)明提出了一種用于通知窗口序列的新的比特流語法。該新比特流語法節(jié)約數(shù)據(jù)率且較之于舊語法更合邏輯并更靈活。其易于實施且無有關復雜性的缺點。與現(xiàn)行USAC工作草案比較在下文中,討論所提出現(xiàn)行USAC工作草案的技術描述的文本改變。為了合并依據(jù)本發(fā)明提出的發(fā)明性改變,以下部分需更新在描述了所謂ICS信息的語法的“針對音頻對象類型USAC的負載”的未決定義中, 常規(guī)語法應被圖IOb中所示語法替換。
并且,“數(shù)據(jù)元素”"window_sequence"應由數(shù)據(jù)元素 “windowjength,,及 “transform_length,,的如下定義取代window_length:l比特字段,其確定哪個窗口斜率長度用于該窗口序列的右側部分;及transform_length 1比特字段,其確定哪個變換長度用于該窗口序列。另外,幫助元素“window_sequence,,應依以下被加入window_sequence 指示了依據(jù)圖8表格,由先前幀的“window_length”、當前幀的 “ transform_length” 及 “window_length”,以及下一幀的 “ core_mode ”定義的窗口序列。 圖8示出了幫助元素“windoLsequence”的定義,其可選地從先前幀的“windowjength” 信息、當前幀的“windowjength”信息、當前幀的“transfornUength”信息及下一幀的 “core_mode”信息導出。另夕卜,“window_sequence ” 及"window_shape ” 的常規(guī)定義可由如下"window_ length,,、“transform_length,,及 “window_shape,,的更適當定義替換window_length 1比特字段,其確定哪個窗口斜率長度用于該窗口的右側部分;transform_length 1比特字段,其確定哪個變換長度用于該窗口 ;及window_shape 1比特,指示哪個窗口功能被選擇。依據(jù)圖11的方法圖11示出了一種基于輸入音頻信息提供編碼音頻信息的方法的流程圖。依據(jù)圖 11的方法1100包括基于輸入音頻信息的多個窗口化部分提供音頻信號參數(shù)序列的步驟 1110。當提供該音頻信號參數(shù)序列時,依據(jù)輸入音頻信息的特性,在使用具有較長過渡斜率的窗口與具有較短過渡斜率的窗口之間切換,以及在使用具有與兩個或兩個以上不同變換長度相關聯(lián)的窗口之間切換,以使窗口類型適于獲得輸入音頻信息的窗口化部分。方法 1100也包括使用可變長度碼字來編碼窗口信息的步驟1120,該窗口信息描述用于變換輸入音頻信息的當前部分的窗口類型。依據(jù)圖12的方法圖12示出了一種基于編碼音頻信息提供解碼音頻信息的方法的流程圖。依據(jù)圖 12的方法1200包括步驟1210,評估可變碼字長度窗口信息,以從包括不同過渡斜率的窗口及具有相關聯(lián)的不同變換長度的窗口在內(nèi)的多個窗口中選擇窗口,用于處理與該音頻信息的給定幀相關聯(lián)的時頻表示的特定部分。方法1200也包括使用選擇的窗口將編碼音頻信息描述的時頻表示的特定部分映射至時域表示的步驟1220。應注意依據(jù)圖11及圖12的方法可由本文關于本發(fā)明的設備及本發(fā)明的比特流特性描述的任何特征及功能補充。實施方式備選方案雖然某些方面在設備的上下文中描述,很明顯這些方面也表示對應方法的描述, 其中方框或裝置對應于方法步驟或方法步驟的特征。類似地,在方法步驟內(nèi)容中描述的方面也表示對應方框或?qū)O備的項或特征值描述。本發(fā)明方法的任何步驟可使用微處理器、可編程計算機、fpga或任一其他硬件 (如舉例而言數(shù)據(jù)處理硬件)來執(zhí)行。本發(fā)明的編碼音頻信號可存儲于數(shù)字存儲介質(zhì)或可在傳輸媒介(諸如無線傳輸媒介或有線傳輸媒介,諸如互聯(lián)網(wǎng))上傳輸。依據(jù)特定實施要求,本發(fā)明實施例可以硬件或軟件實現(xiàn)。可使用具有電子可讀控制信號存儲于其上的存儲介質(zhì),例如軟盤、DVD、藍光盤、CD、ROM、PROM、EPROM、EEPROM或閃存來執(zhí)行上述實現(xiàn),它們與可編程計算機系統(tǒng)協(xié)作(或能夠與之協(xié)作)以使相應方法被執(zhí)行。因此,數(shù)字存儲介質(zhì)可以是計算機可讀的。依據(jù)本發(fā)明的某些實施例包括具有電子可讀控制信號的數(shù)據(jù)載體,電子可讀控制信號能夠與可編程計算機系統(tǒng)協(xié)作,以使本文所述方法之一被執(zhí)行。大體上,本發(fā)明實施例可以實現(xiàn)為具有程序代碼的計算機程序產(chǎn)品,該程序代碼可操作以當該計算機程序產(chǎn)品在計算機上運行時執(zhí)行所述方法之一。該程序代碼可例如存儲于機器可讀載體上。其他實施例包括用于執(zhí)行本文所述方法之一,存儲于機器可讀載體之上的計算機程序。因此,換句話說,本發(fā)明方法的實施例是計算機程序,其具有程序代碼,當該計算機程序運行于計算機上時,該程序代碼用于執(zhí)行本文所述方法之一。因此,本發(fā)明方法的另外實施例是數(shù)據(jù)載體(或數(shù)字存儲介質(zhì),或計算機可讀介質(zhì)),其包括記錄于其上以執(zhí)行本文所述方法之一的計算機程序。因此,本發(fā)明方法的另外的實施例是數(shù)據(jù)流或信號序列,它們表示用于執(zhí)行本文所述方法之一的計算機程序。該數(shù)據(jù)流或該信號序列可例如被配置成經(jīng)由數(shù)據(jù)通信連接 (例如經(jīng)由互聯(lián)網(wǎng))被傳送。另外的實施例包括處理裝置,例如計算機,或可編程邏輯器件,被配置成或適應于執(zhí)行本文所述方法之一。另外的實施例包括計算機,其具有安裝于其上以執(zhí)行本文所述方法之一的計算機程序。在一些實施例中,可編程邏輯器件(例如現(xiàn)場可編程門陣列)可用以執(zhí)行本文所述的方法的一些或全部功能。在一些實施例中,現(xiàn)場可編程門陣列可與微處理器協(xié)作,以執(zhí)行本文所述方法之一。大體上,所述方法較佳地由任一硬件設備執(zhí)行。上述實施例僅是對本發(fā)明原理的說明。應理解本文描述的布置及細節(jié)的修改及變化對本領域普通技術人員而已是明顯的。因此,其意圖僅由所附專利權利要求限制而不由以本文中實施例的描述及說明形式的特定細節(jié)限制。
權利要求
1.一種基于編碼音頻信息(210)提供解碼音頻信息012)的音頻解碼器000),該音頻解碼器包括基于窗口的信號變換器050),被配置成將由該編碼音頻信息(210)描述的音頻信息的時頻表示042)映射至該音頻信息的時域表示052),其中該基于窗口的信號變換器被配置成使用窗口信息072),從多個窗口(310,312, 314,316,318)中選擇窗口,所述多個窗口(310,312,314,316,318)包括具有不同過渡斜率 (310a, 312a, 314a, 316a, 318a, 310b, 312b, 314b, 316b, 318b)的窗口以及具有相關聯(lián)的不同變換長度的窗口;其中該音頻解碼器(200)包括窗口選擇器070),被配置成評估可變碼字長度窗口信息(224),以選擇窗口用于處理所述時頻表示的與所述音頻信息的給定幀相關聯(lián)的給定部分。
2.如權利要求1所述的音頻解碼器000),其中該音頻解碼器包括比特流解析器 020),被配置成解析表示該編碼音頻信息的比特流,并從該比特流(210)提取1比特窗口斜率長度信息(“windowjength”),以及依據(jù)該1比特窗口斜率長度信息的值,選擇性地提取1比特變換長度信息(“transformjength”);以及其中該窗口選擇器(270)被配置成依據(jù)該窗口斜率長度信息,選擇性地使用或忽略該變換長度信息,以選擇窗口類型(310,312,314,316,318)用于處理該時頻表示042)的給定部分。
3.如權利要求1或2所述的音頻解碼器O00),其中該窗口選擇器(270)被配置成選擇窗口類型(310,312,314,316,318)用于處理該時頻信息042)的當前部分,以使用于處理該時頻表示042)的當前部分的窗口的左側窗口斜率長度與用于處理該時頻表示(M2) 的先前部分的窗口的右側窗口斜率長度匹配。
4.如權利要求3所述的音頻解碼器000),其中該窗口選擇器(270)被配置成,如果用于處理該時頻表示042)的先前部分的窗口的右側窗口斜率長度采取長值,且如果該音頻信息的先前部分、該音頻信息的當前部分及該音頻信號的后續(xù)部分全部是使用頻域核心模式被編碼的,則依據(jù)所述1比特窗口斜率長度信息在第一類型(310)窗口與第二類型(312) 窗口之間進行選擇;其中該窗口選擇器(270)被配置成,如果用于處理該音頻信息的先前部分的窗口的右側窗口斜率長度采取短值,且如果該音頻信息的先前部分、該音頻信息的當前部分及該音頻信息的后續(xù)部分全部是使用頻域核心模式被編碼的,則響應于所述1比特窗口斜率長度信息的指示長右側窗口斜率的第一值,來選擇第三類型(314)窗口 ;以及其中該窗口選擇器(270)被配置成,如果所述1比特窗口斜率長度信息采取指示短右側窗口斜率的第二值,如果用于處理該音頻信息的先前部分的窗口的右側窗口斜率長度采取短值,且如果該音頻信息的先前部分、該音頻信息的當前部分及該音頻信息的后續(xù)部分全部是使用頻域核心模式被編碼的,則依據(jù)1比特變換長度信息,在第四類型(316)窗口與第五類型(318)窗口之間進行選擇,第五類型(318)窗口定義了短窗口序列(319a到 319h);其中第一窗口類型(310)包括相對長的左側窗口斜率長度、相對長的右側窗口斜率長度及相對長的變換長度;其中第二窗口類型(31 包括相對長的左側窗口斜率長度、相對短的右側窗口斜率長度及相對長的變換長度;其中第三窗口類型(314)包括相對短的左側窗口斜率長度、相對長的右側窗口斜率長度及相對長的變換長度;其中第四窗口類型(316)包括相對短的左側窗口斜率長度、相對短的右側窗口斜率長度及相對長的變換長度;及其中第五窗口類型(318)的窗口序列(319a到319h)定義與音頻信息042)的單一部分相關聯(lián)的多個窗口(319a到319h)的疊加,且其中所述多個窗口(319a到319h)中的每個窗口包括相對短的變換長度、相對短的左側窗口斜率及相對短的右側窗口斜率。
5.如權利要求1至4之一所述的音頻解碼器000),其中該窗口選擇器(270)被配置成僅當用于處理該音頻信息(M2)先前部分的窗口類型包括與短窗口的窗口序列(318)的左側窗口斜率長度相匹配的右側窗口斜率長度,且與該時頻表示042)的當前部分相關聯(lián)的1比特窗口斜率長度信息定義與所述短窗口的窗口序列(318)的右側窗口斜率長度相匹配的右側窗口斜率長度時,才選擇性地評估音頻信息的當前部分的可變碼字長度窗口信息 (224)的變換長度比特。
6.如權利要求1至5之一所述的音頻解碼器O00),其中該窗口選擇器(270)進一步被配置成接收與音頻信息的先前幀相關聯(lián)的、描述用于編碼該音頻信息的先前幀的核心模式的先前核心模式信息;以及其中該窗口選擇器(270)被配置成依據(jù)所述先前核心模式信息且也依據(jù)與音頻信息 (242)的當前部分相關聯(lián)的可變碼字長度窗口信息OM),選擇用于處理時頻表示(M2)的當前部分的窗口類型。
7.如權利要求1至6之一所述的音頻解碼器O00),其中該窗口選擇器(270)被進一步配置成接收與該音頻信息042)的后續(xù)部分相關聯(lián)的、描述用于編碼該音頻信息的后續(xù)部分的核心模式的后續(xù)核心模式信息;以及其中該窗口選擇器(270)被配置成依據(jù)該后續(xù)的核心模式信息并且依據(jù)與該時頻表示042)的當前部分相關聯(lián)的可變碼字長度窗口信息,選擇用于處理該音頻信息042)的當前部分的窗口。
8.如權利要求7所述的音頻解碼器000),其中如果所述后續(xù)核心模式信息指示音頻信息的后續(xù)部分是使用線性預測域核心模式被編碼的,則窗口選擇器(270)被配置成選擇具有縮短的右側斜率的窗口(362,366,368,382)。
9.一種基于輸入音頻信息(110)提供編碼音頻信息(192)的音頻編碼器(100),該音頻編碼器(100)包括基于窗口的信號變換器(130),被配置成基于輸入音頻信息(110)的多個窗口化部分, 提供音頻信號參數(shù)序列(132),其中基于窗口的信號變換器(130)被配置成依據(jù)輸入音頻信息(110)的特性,適配用于獲得輸入音頻信息的所述窗口化部分的窗口類型;其中基于窗口的信號變換器(130)被配置成在具有較長過渡斜率的窗口(310,312, 314,316,318)與具有較短過渡斜率的窗口的使用之間切換,以及在具有兩個或更多個不同變換長度的窗口的使用之間切換;其中基于窗口的信號變換器(130)被配置成依據(jù)用于變換輸入音頻信息的先前部分的窗口類型、以及輸入音頻信息的當前部分的音頻內(nèi)容,確定用于變換輸入音頻信息的當前部分的窗口類型;其中該音頻編碼器被配置成編碼窗口信息(140),該窗口信息(140)描述用于使用可變長度碼字來變換輸入音頻信息的所述當前部分的窗口類型。
10.如權利要求9所述的音頻編碼器(100),其中音頻編碼器被配置成提供所述可變長度碼字,使得與時頻表示的給定部分相關聯(lián)的可變長度碼字包括1比特信息,該1比特信息描述用于獲得所述時頻表示的給定部分的窗口的窗口斜率長度;以及其中音頻編碼器(100)被配置成,提供所述可變長度碼字,使得當且僅當描述所述窗口斜率長度的所述1比特信息采取預定值時,所述可變長度碼字可選擇地包括1比特變換長度信息,該1比特變換長度信息描述用于獲得時頻表示(13 的所述給定長度的變換長度。
11.如權利要求9或10所述的音頻編碼器(100),其中該音頻編碼器被配置成使用比特流(192)的分離比特,對描述用于獲得時頻表示的給定部分的窗口的右側窗口斜率長度的窗口斜率長度信息、以及描述用于獲得時頻表示的該給定部分的變換長度的變換長度信息進行編碼,并依據(jù)該窗口斜率長度信息的值,決定攜帶該變換長度信息的比特的存在。
12.—種編碼音頻信息,該編碼音頻信息包括對音頻信號的多個窗口化部分的音頻內(nèi)容加以描述的編碼時頻表示,其中具有不同過渡斜率及不同變換長度的窗口與該音頻信號的不同窗口化部分相關聯(lián);以及對窗口類型加以編碼的編碼窗口信息,所述窗口類型用于獲得音頻信號的多個窗口化部分的所述編碼時頻表示,其中所述編碼窗口信息是可變長度窗口信息,其使用第一較低數(shù)目的比特來編碼一個或多個窗口類型,且使用第二較大數(shù)目的比特來編碼一個或多個其他窗口類型。
13.如權利要求12所述的編碼音頻信息,其中該編碼音頻信息包括1比特窗口斜率長度信息單元,與使用頻域核心模式編碼的音頻信號的對應窗口化部分相關聯(lián);以及1比特變換長度信息單元,選擇性地與音頻信號的窗口化部分相關聯(lián),其中對于該窗口化部分,所述1比特窗口斜率長度信息采取預定值。
14.一種用于基于編碼音頻信息提供解碼音頻信息的方法(1200),該方法包括評估(1210)可變碼字長度窗口信息,以從多個窗口中選擇窗口,用于處理與該音頻信息的給定幀相關聯(lián)的時頻表示的給定部分,所述多個窗口包括具有不同過渡斜率的窗口以及具有相關聯(lián)的不同變換長度的窗口 ;以及使用所選的窗口,將由所述編碼音頻信息描述的所述時頻表示的所述給定部分映射 (1220)至時域表示。
15.一種基于輸入音頻信息提供編碼音頻信息的方法(1100),該方法包括基于輸入音頻信息的多個窗口化部分,提供(1110)音頻信號參數(shù)序列,其中在具有較長過渡斜率的窗口與具有較短過渡斜率的窗口的使用之間執(zhí)行切換,并且也在具有相關聯(lián)的兩個或更多個不同變換長度的窗口的使用之間執(zhí)行切換,以及依據(jù)輸入音頻信息的特性,適配用于獲得該輸入音頻信息的所述窗口化部分的窗口類型;以及對描述用于使用可變長度碼字來變換輸入音頻信息的部分的窗口類型的信息進行編碼。
16. 一種計算機程序,用于在運行計算機上時,執(zhí)行如權利要求14或15所述的方法。
全文摘要
一種基于編碼音頻信息提供解碼音頻信息的音頻解碼器,包括基于窗口的信號變換器,被配置成將編碼音頻信息描述的時頻表示映射至時域表示。該基于窗口的信號變換器被配置成基于窗口信息從包括具有不同過渡斜率的窗口與具有不同變換長度的窗口在內(nèi)的多個窗口中選擇窗口。音頻解碼器包括窗口選擇器,被配置成評估可變碼字長度窗口信息,以選擇用于處理與音頻信息的給定幀相關聯(lián)的時頻表示的給定部分的窗口。
文檔編號G10L19/14GK102334160SQ201080009687
公開日2012年1月25日 申請日期2010年1月28日 優(yōu)先權日2009年1月28日
發(fā)明者克里斯汀·斯畢茨恩, 拉爾夫·蓋格爾, 熱雷米·勒康特, 馬克斯·諾伊恩多夫, 馬庫斯·馬特拉斯 申請人:弗勞恩霍夫應用研究促進協(xié)會
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
清水县| 仁寿县| 磴口县| 南安市| 龙陵县| 竹北市| 芮城县| 毕节市| 定兴县| 东海县| 绵阳市| 汨罗市| 博客| 太白县| 拜城县| 泾源县| 牙克石市| 桑植县| 民勤县| 康平县| 潞城市| 固安县| 赤壁市| 宜兰县| 石家庄市| 上蔡县| 湘阴县| 黎城县| 神农架林区| 兴隆县| 怀仁县| 丰顺县| 闵行区| 南汇区| 林甸县| 普安县| 长宁县| 乌拉特中旗| 安仁县| 乌拉特前旗| 墨玉县|