欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

多通道音頻編碼器的制作方法

文檔序號(hào):7538844閱讀:850來源:國(guó)知局
專利名稱:多通道音頻編碼器的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及多通道音頻信號(hào)的高質(zhì)量編碼和解碼,更確切地說,是關(guān)于一種子帶編碼器,此編碼器在時(shí)間域、頻率域和多個(gè)音頻通道之間運(yùn)用了完全/非完全重構(gòu)濾波器組、預(yù)測(cè)/非預(yù)測(cè)子帶編碼、瞬態(tài)分析、和心理聲學(xué)/最小均方差(MMSE)比特率分配等方法,以產(chǎn)生可使其相應(yīng)解碼計(jì)算量受到約束的數(shù)據(jù)流。
背景技術(shù)
公知的高質(zhì)量音頻和音樂編碼器可以分成兩大類方案。第一類是具有中高頻率分辨率的子帶/變換編碼器,該類編碼器能根據(jù)心理聲學(xué)的掩蔽計(jì)算結(jié)果自適應(yīng)地量化其分析窗內(nèi)的子帶或系數(shù)采樣數(shù)據(jù)。第二類是頻率分辨率較低的子帶編碼器,這種編碼器通過ADPCM(自適應(yīng)差分脈沖編碼調(diào)制)對(duì)子帶采樣數(shù)據(jù)進(jìn)行處理來補(bǔ)償其頻率分辨率的不足。
第一類編碼器利用了音樂信號(hào)中大量的短時(shí)頻譜變化差異,使其比特率分配根據(jù)信號(hào)的頻譜能量進(jìn)行自我調(diào)整。由于其頻率分辨率高的特性,這些編碼器變換后的頻域信號(hào)能被直接應(yīng)用于建立在聽覺的臨界頻帶理論上的心理聲學(xué)模型。托德(Todd)等人在1994年2月發(fā)表于音響工程協(xié)會(huì)年會(huì)的“AC-3音頻傳輸和存儲(chǔ)的靈活感知型編碼”一文中的Dolby AC-3音頻編碼器,就典型地對(duì)各個(gè)PCM信號(hào)進(jìn)行1024-點(diǎn)ffts(快速傅立葉變換)計(jì)算,并將心理聲學(xué)模型應(yīng)用于每個(gè)通道的1024個(gè)頻率系數(shù)以決定其比特率。Dolby系統(tǒng)并將窗口尺寸減小到256個(gè)采樣以隔離信號(hào)的瞬態(tài)響應(yīng),進(jìn)行瞬態(tài)分析。AC-3編碼器采用了專用的后向自適應(yīng)算法對(duì)比特率分配信息進(jìn)行解碼。這樣便減少了隨編碼音頻數(shù)據(jù)一同發(fā)送的比特率分配信息量。其結(jié)果是,相對(duì)于前向自適應(yīng)方法來說,可用于音頻的帶寬得以增加,從而改善了音質(zhì)。
在第二類編碼器中,子帶差分信號(hào)或是被固定量化,或是在量化時(shí)可動(dòng)態(tài)調(diào)整以使所有或部分分段頻帶上的量化噪聲減至最小,它們并沒有明確參照心理聲學(xué)掩蔽理論。由于在碼率分配處理之前很難估計(jì)預(yù)測(cè)器性能,通常認(rèn)為不能將心理聲學(xué)失真閾值直接應(yīng)用到預(yù)測(cè)/差分子帶信號(hào)上。而量化噪聲對(duì)預(yù)測(cè)過程的反作用使問題進(jìn)一步復(fù)雜化。
這類編碼器能有效工作是因?yàn)槁犛X感知中重要的音頻信號(hào)通常在長(zhǎng)時(shí)間段中展示出的周期性特征。這種周期性可被預(yù)測(cè)差分量化過程充分利用。把信號(hào)分成少數(shù)子帶可降低可以聽覺的噪聲調(diào)制效應(yīng),并可有效利用音頻信號(hào)含有的長(zhǎng)時(shí)頻譜分量差異。然而隨著子帶數(shù)量的增加,每個(gè)子帶內(nèi)的預(yù)測(cè)增益將不斷降低,增加到某一程度時(shí)預(yù)測(cè)增益將趨于零。
數(shù)字影院系統(tǒng)公司(DTS),L.P.采用了一種音頻編碼器,它將每個(gè)PCM聲道過濾分成四個(gè)子帶,而且用后向ADPCM編碼器對(duì)每個(gè)子帶進(jìn)行編碼,且所述后向ADPCM編碼器中的預(yù)測(cè)器系數(shù)可根據(jù)子帶數(shù)據(jù)作自適應(yīng)調(diào)整。編碼器在每個(gè)聲道上采用相同的固定比特碼率分配,且低頻子帶較高頻子帶優(yōu)先得以分配更多比特碼率。固定碼率分配方法提供了例如4∶1的固定壓縮比。邁克·史密斯(Mike Smyth)和斯蒂芬·史密斯(Stephen Smyth)在“APT-X100用于廣播的低延時(shí)、低碼率、子帶ADPCM音頻編碼器”,第十次國(guó)際AES會(huì)議匯編,1991年,第41-56頁中描述了此類DTS編碼器。
此兩類音頻編碼器還具有其它共同的局限性。首先,公知的音頻編碼器編碼/解碼時(shí)使用固定框架/幀尺寸,即采樣數(shù)據(jù)數(shù)量或幀所占時(shí)間段是固定的。結(jié)果是,當(dāng)編碼的傳輸率相對(duì)于采樣頻率增加時(shí),幀內(nèi)的數(shù)據(jù)量也增加。因此,解碼器緩沖器的尺寸必須設(shè)計(jì)得能容納最壞情況以避免數(shù)據(jù)溢出。這樣將會(huì)增加作為解碼器主要成本成分的RAM的用量。其次,公知的音頻編碼器不易擴(kuò)展應(yīng)用于大于48kHz的采樣頻率。若這樣做將出現(xiàn)已有解碼器與新編碼器所需格式不兼容的情形。缺乏未來兼容性是一個(gè)嚴(yán)重的局限性。此外,對(duì)PCM數(shù)據(jù)進(jìn)行編碼所用的公知格式要求解碼器必須讀入整個(gè)幀的數(shù)據(jù)之后才能開始播放。這又需要把緩沖器的尺寸限制在100ms左右的數(shù)據(jù)塊,從而不產(chǎn)生過長(zhǎng)的延時(shí)或滯后而干擾聽者。
此外,雖然這些編碼器的編碼能力高達(dá)24kHz,但較高頻子帶卻常常被割舍。這樣會(huì)降低高頻保真度或解譯再造信號(hào)的聽覺氛圍。公知編碼器通常使用兩種錯(cuò)碼檢測(cè)方案中的一種。最常用的是里德所羅門編碼(Reed Solomon coding),其編碼器將產(chǎn)生的檢測(cè)碼加入到數(shù)據(jù)流的輔助信息之中。這樣便易于檢測(cè)和糾正輔助信息中出現(xiàn)的任何錯(cuò)誤。然而,它沒有檢測(cè)出音頻數(shù)據(jù)中的錯(cuò)誤。另一種方法是檢驗(yàn)數(shù)據(jù)幀及其頭信息區(qū)域是否有無效碼狀態(tài)。例如,假設(shè)某個(gè)3比特參數(shù)只允許有3種有效狀態(tài)。那么發(fā)現(xiàn)其它五種狀態(tài)中的任何一種代表著錯(cuò)誤的發(fā)生。這種方法只是提供了某種檢測(cè)能力,而音頻數(shù)據(jù)中的錯(cuò)誤仍不能被發(fā)現(xiàn)。

發(fā)明內(nèi)容
鑒于上述問題,本發(fā)明提供了一種多通道音頻編碼器,其靈活性可容納廣大范圍的壓縮比要求,采用高比特碼率時(shí)能產(chǎn)生比CD更好的質(zhì)量,使用低比特碼率時(shí)亦能改善聽覺感知質(zhì)量。它同時(shí)還具備降低播放延時(shí)、簡(jiǎn)化誤差檢測(cè)、改善預(yù)回音失真、及可延伸至未來更高采樣率的特性。
這是用子帶編碼器實(shí)現(xiàn)的,子帶編碼器把每個(gè)聲道的音頻信號(hào)用窗口法分成音頻幀序列數(shù)據(jù),然后將各幀數(shù)據(jù)進(jìn)行濾波分成基帶和高頻區(qū),再把每個(gè)基帶信號(hào)分解成多個(gè)子帶。子帶編碼器在碼率較低時(shí)通常選擇非完全濾波器以分解基帶信號(hào),而在碼率足夠高時(shí)選擇完全濾波器。高頻區(qū)信號(hào)獨(dú)立于基帶信號(hào)在高頻編碼階段進(jìn)行編碼?;鶐Ь幋a階段則包括分別用于較高頻和較低頻子帶編碼的VQ和ADPCM編碼器。每個(gè)子帶幀包括至少一個(gè)子幀,每個(gè)子幀進(jìn)一步細(xì)分為多個(gè)子子幀。每個(gè)子幀被用作分析單元,以便估計(jì)ADPCM編碼器的預(yù)測(cè)增益,且當(dāng)預(yù)測(cè)增益較低時(shí)可終止使用其預(yù)測(cè)能力。子幀分析單元還被用來檢測(cè)瞬變狀態(tài)以調(diào)節(jié)瞬變狀態(tài)前后的SFs(比例因數(shù))。
全局比特管理(GBM)系統(tǒng)利用多個(gè)聲道、多個(gè)子帶和當(dāng)前幀內(nèi)各子幀之間的差別把比特碼率按需分配到每個(gè)子幀。GBM系統(tǒng)首先計(jì)算經(jīng)過預(yù)測(cè)增益加以修正的SMR(信號(hào)掩蔽值比),并以心理聲學(xué)模型為基礎(chǔ)將比特碼率分配到每個(gè)子幀。然后,GBM系統(tǒng)按照MMSE方法分配所有剩余比特碼率,它或者馬上切換到MMSE分配法以降低總噪聲底值,或逐漸趨變到MMSE分配分案。
多路復(fù)用器產(chǎn)生輸出幀數(shù)據(jù),此輸出幀包含有同步字節(jié)、幀頭信息、音頻頭信息和至少一個(gè)子幀,并以傳輸速率用多路復(fù)用形式合并成為數(shù)據(jù)流。幀頭信息包括窗口尺寸和當(dāng)前輸出幀的尺寸。音頻頭信息表示音頻幀數(shù)據(jù)的打包安排和編碼格式。每個(gè)音頻子幀包括獨(dú)立于其它子幀的音頻解碼輔助信息、高頻VQ編碼數(shù)據(jù)、多個(gè)基帶音頻子子幀(每個(gè)子子幀以多路復(fù)用形式包裝著來自各聲道的、較低頻子帶的音頻數(shù)據(jù))、一個(gè)高頻音頻數(shù)據(jù)塊(以多路復(fù)用形式包裝著來自各聲道的、高頻區(qū)域音頻數(shù)據(jù),用來支持多通道音頻信號(hào)在解碼時(shí)可取用多種高采樣率)、以及用于核實(shí)檢驗(yàn)子幀結(jié)束的拆包同步字節(jié)。
窗口尺寸的選擇決定于傳輸速率與編碼器采樣頻率之比,從而把輸出幀的尺寸限制在要求的范圍內(nèi)。當(dāng)壓縮量相對(duì)較低時(shí),窗口尺寸減小從而使幀尺寸不會(huì)超過上限最大值。因此解碼器可以采用相對(duì)較少的、固定數(shù)量的RAM作為輸入緩沖器。當(dāng)壓縮量相對(duì)較高時(shí),窗口尺寸增加。GBM系統(tǒng)因此能利用較大的時(shí)間窗進(jìn)行比特率分配,由此改善編碼性能。
對(duì)于熟悉本領(lǐng)域的技術(shù)人員來說,本發(fā)明的這些及其它特征和優(yōu)點(diǎn)將會(huì)通過以下對(duì)優(yōu)選實(shí)施例所作的詳細(xì)說明而變得清晰。這些詳細(xì)說明闡述將會(huì)結(jié)合附隨圖表,其中


圖1是按照本發(fā)明所述的5聲道音頻編/解碼器的框圖;圖2是多通道編碼器的框圖;圖3是基帶編碼器和解碼器的框圖;圖4a和圖4b分別是高采樣率編碼器和解碼器的框圖;圖5是單聲道編碼器的框圖;圖6是使用不同傳輸率每幀字節(jié)與幀尺寸之間的關(guān)系圖;圖7是NPR(非完全)和PR(完全)重構(gòu)濾波器的幅值響應(yīng)曲線圖;圖8是重構(gòu)濾波器的子帶混疊示意圖;圖9是NPR和PR濾波器的失真曲線圖;圖10是單個(gè)子帶編碼器的示意圖;圖11A和11B分別圖解說明子幀中的瞬態(tài)檢測(cè)和比例因數(shù)計(jì)算;圖12描述對(duì)量化后TMODES的熵編碼過程;圖13描述比例因數(shù)的量化過程;圖14描述信號(hào)掩蔽曲線與信號(hào)的頻率響應(yīng)的卷積以產(chǎn)生SMR;圖15是人的聽覺響應(yīng)的曲線圖;圖16是子帶的SMRs曲線圖;圖17是用于心理聲學(xué)和mmse比特率分配的誤差信號(hào)曲線圖;圖18A和圖18B分別是子帶能量曲線圖和其倒置曲線圖,描述了mmse“注水式”比特率分配過程;圖19是數(shù)據(jù)流中單幀結(jié)構(gòu)的框圖;圖20是相應(yīng)解碼器的示意圖;圖21是編碼器一種硬件實(shí)現(xiàn)方法的框圖;和圖22是解碼器一種硬件實(shí)現(xiàn)方法的框圖。
附表說明表1列出了使用各種采樣頻率和傳輸率時(shí)可取的最大幀尺寸;
表2列出了使用各種采樣頻率和傳輸率時(shí)可取的最大幀尺寸(字節(jié)單位);表3顯示了ABIT索引值、量化級(jí)數(shù)量及所產(chǎn)生的子帶SNR(信噪比)之間的關(guān)系。
具體實(shí)施例方式
多通道音頻編碼系統(tǒng)如圖1所示,本發(fā)明在其一體多通道音頻編碼器10中結(jié)合了兩類已知編碼方案的特征并加入了新的優(yōu)點(diǎn)特征。所用編碼算法是按照節(jié)目原制作室質(zhì)量水平即“好于CD”級(jí)質(zhì)量而設(shè)計(jì),其應(yīng)用范圍廣泛,可滿足在壓縮量、采樣頻率、采樣字長(zhǎng)、聲道數(shù)量及感知聽覺質(zhì)量等方面的不同要求。
編碼器12把通常在48kHz下以16-24位字長(zhǎng)采樣的多通道PCM聲數(shù)據(jù)14編碼成已知傳輸率的數(shù)據(jù)流16,合適的傳輸率范圍為32-4096kbps。與已知的音頻編碼器不同是,本結(jié)構(gòu)能擴(kuò)展到更高的采樣頻率(48-192kHz),而不會(huì)使已有的、為基帶采樣頻率或任何中間采樣頻率而設(shè)計(jì)的解碼器出現(xiàn)不兼容的情況。此外,PCM數(shù)據(jù)14被窗口法分成幀塊逐一編碼,而每個(gè)幀的優(yōu)先選擇是分成1-4個(gè)子幀。音頻信號(hào)窗的尺寸,即其PCM采樣數(shù),則決定于相對(duì)的采樣頻率和傳輸率取值,它的選擇使得輸出幀的尺寸,即其相應(yīng)解碼器18讀出的每幀數(shù)據(jù)字節(jié)數(shù),被適當(dāng)?shù)叵拗圃?.3-8千字節(jié)之間。
其結(jié)果是,解碼器中用于緩沖輸入數(shù)據(jù)流的RAM數(shù)量可保持在較低水平,從而降低了解碼器成本。低碼率時(shí)可以使用較大的窗口尺寸將PCM數(shù)據(jù)構(gòu)成幀,這樣便改善了編碼性能。在較高的碼率下,必須使用較小的窗口尺寸以便滿足這種數(shù)據(jù)尺寸限制。這必然會(huì)使編碼性能降低,但對(duì)較高碼率來說這影響不大。而且,這種將PCM數(shù)據(jù)分成幀的方式給了解碼器18時(shí)間,在全部輸出幀讀入緩沖器之前能夠初始化以啟動(dòng)放音。這樣可減少音頻編碼器的延時(shí)或滯后時(shí)間。
編碼器12使用了高分辨率濾波器組,優(yōu)選方法是它可根據(jù)碼率不同選擇不完全(NPR)和完全(PR)重構(gòu)濾波器,以便把每個(gè)音頻聲道14分解為多個(gè)子帶信號(hào)。預(yù)測(cè)編碼器和矢量量化(VQ)編碼器分別用來對(duì)低頻段和高頻段子帶進(jìn)行編碼。VQ子帶的起始頻段或可固定或可根據(jù)當(dāng)前信號(hào)的特性來動(dòng)態(tài)確定。在低碼率情況下,可以采用聯(lián)合頻率編碼同時(shí)對(duì)多個(gè)聲道的較高頻子帶進(jìn)行編碼。
預(yù)測(cè)編碼器的優(yōu)選方法是可根據(jù)子帶預(yù)測(cè)增益在APCM和ADPCM模式之間轉(zhuǎn)換。瞬態(tài)分析器把每個(gè)子帶的子幀分段為預(yù)回波和后回波信號(hào)(子子幀)并計(jì)算預(yù)、后回波子子幀各自的比例因數(shù),從而降低預(yù)回波失真。編碼器根據(jù)所有PCM聲道及當(dāng)前幀各子帶的需要不同(應(yīng)用心理聲學(xué)或mse),從可用的碼率中合理地調(diào)節(jié)分配它們各自的碼率,以達(dá)到最佳編碼效率。通過把預(yù)測(cè)編碼和心理聲學(xué)模型彼此結(jié)合,低碼率編碼效率得到提高,從而降低了達(dá)到主觀透明度所需的編碼率。諸如計(jì)算機(jī)或鍵盤等可編程控制器19可用來與編碼器12相連,以傳達(dá)輸入音頻模式信息參數(shù),包括理想碼率、聲道數(shù)量、PR或NPR重構(gòu)、采樣頻率及傳輸率等。
編碼信號(hào)和輔助信息(即附圖中的邊信息)被打包并多路復(fù)用式地合并為數(shù)據(jù)流16,其形式將解碼計(jì)算負(fù)荷限制在所需的范圍內(nèi)。數(shù)據(jù)流16既可編碼到例如CD、數(shù)字視盤(DVD)等傳輸媒體20或可通過直播衛(wèi)星進(jìn)行傳輸廣播。解碼器18對(duì)各子帶信號(hào)進(jìn)行解碼并完成逆濾波操作以產(chǎn)生多通道音頻信號(hào)22,該信號(hào)主觀質(zhì)量上相當(dāng)于原始多通道音頻信號(hào)14。諸如家庭影院或多媒體計(jì)算機(jī)等等的音頻系統(tǒng)24可為用戶播放音頻信號(hào)。
多通道編碼器如圖2所示,編碼器12包括多個(gè)單獨(dú)的通道編碼器26,合適選擇為五個(gè)(左前、中置、右前、左后和右后),每通道編碼器產(chǎn)生其相應(yīng)一組編碼子帶信號(hào)28,合適選擇為每個(gè)聲道32個(gè)子帶信號(hào)。編碼器12采用全局比特管理(GBM)系統(tǒng)30,對(duì)可用的、共同的比特碼率之和(共同比特池)在聲道之間、各聲道子帶之間及各子帶的各幀數(shù)據(jù)之內(nèi)進(jìn)行動(dòng)態(tài)比特碼率分配。編碼器12還利用各聲道在較高頻率子帶上可能的相關(guān)特性會(huì)相應(yīng)采用聯(lián)合頻率編碼技術(shù)。此外,編碼器12可以在不易感覺到的較高頻率子帶上使用VQ以便在非常低的碼率下提供基本的高頻保真度或氛圍。用這種方式,編碼器利用了不同的信號(hào)要求,例如,多個(gè)聲道的子帶rms(均方根)值和心理聲學(xué)掩蔽等級(jí),每個(gè)聲道信號(hào)能量隨頻率的非均勻分布及其在任給定幀內(nèi)隨時(shí)間的變化。
比特分配概述GBM系統(tǒng)30首先確定將對(duì)哪些聲道的子帶進(jìn)行聯(lián)合頻率編碼并對(duì)其數(shù)據(jù)進(jìn)行平均,然后確定對(duì)哪些子帶進(jìn)行VQ編碼并從總可用碼率中減去其所用碼率。對(duì)哪些子帶進(jìn)行VQ編碼可以被認(rèn)作為首先可定的,譬如將所有大于某個(gè)頻率閾值的子帶都應(yīng)用VQ編碼,或由每幀中各子帶的心理聲學(xué)掩蔽效應(yīng)來決定。之后,GBM系統(tǒng)30應(yīng)用心理聲學(xué)掩蔽效應(yīng)對(duì)剩余各子帶分配其比特率(ABIT)從而達(dá)到優(yōu)化解碼音頻信號(hào)主觀質(zhì)量的目的。如果尚有附加比特碼率,編碼器可以轉(zhuǎn)換到純mmse方案,即“注水式”分配(waterfilling),并根據(jù)子帶相應(yīng)的rms值對(duì)所有的碼率進(jìn)行再分配從而使誤差信號(hào)的rms值降至最小。這種方法可在極高碼率的情況下運(yùn)用。優(yōu)選的方法是保留心理聲學(xué)碼率分配的結(jié)果,只是將附加比特碼率按照mmse方案進(jìn)行分配。這樣可保持用心理聲學(xué)掩蔽而產(chǎn)生的噪聲信號(hào)的形狀,并均勻地降低了其噪聲基底。
另一種方法是對(duì)以上優(yōu)選方法進(jìn)行修正,使其附加比特碼率根據(jù)rms值和心理聲學(xué)掩蔽等級(jí)之間的差來進(jìn)行分配。結(jié)果是,心理聲學(xué)分配曲線隨著碼率的不斷增加變成為mmse分配曲線,從而在兩種技術(shù)之間形成了平滑過渡。上述技術(shù)特別適用于固定碼率系統(tǒng)。此外,編碼器12可以按主觀條件或mse設(shè)定失真等級(jí),并允許改變總比特碼率以保持失真等級(jí)。多路復(fù)用器32按照設(shè)定的數(shù)據(jù)格式把子帶信號(hào)和輔助信息多路合并為數(shù)據(jù)流16。具體的數(shù)據(jù)格式將在下面的圖20中討論。
基帶編碼對(duì)于8-48kHz范圍的采樣頻率而言,如圖3中所示的通道編碼器26采用了均勻式512-節(jié)、32-頻帶的分析濾波器組34,該濾波器組34以48kHz的采樣頻率工作,把每個(gè)聲道0-24kHz的音頻譜分解成32個(gè)帶寬為750Hz的子帶。編碼部分36對(duì)每個(gè)子帶信號(hào)進(jìn)行編碼并將它們多路復(fù)用38成壓縮數(shù)據(jù)流16。解碼器18接收壓縮的數(shù)據(jù)流,利用拆包器40分解出每個(gè)子帶的編碼數(shù)據(jù),對(duì)每個(gè)子帶信號(hào)42進(jìn)行解碼,并采用512-節(jié)、32-頻帶的均勻式內(nèi)插濾波器組44對(duì)每個(gè)聲道重構(gòu)PCM數(shù)字音頻信號(hào)(Fsamp=48kHz)。
在本結(jié)構(gòu)中,所有編碼策略,例如48kHz、96kHz或192kHz的采樣頻率,都在其最低音頻基帶上,例如在0-24kHz,使用了32-頻帶編碼/解碼方法。因此,目前根據(jù)48kHz采樣頻率設(shè)計(jì)和制成的解碼器能與將來設(shè)計(jì)的、利用更高頻率分量的編碼器兼容。前期存在的解碼器總能讀取編碼信號(hào)中的基帶部分(0-24kHz)并丟棄更高頻率編碼數(shù)據(jù)。
高采樣率編碼對(duì)于48-96kHz范圍的采樣頻率而言,優(yōu)選法是通道編碼器26把音頻頻譜分成兩部分,并對(duì)下半部分采用均勻式32-頻帶分析濾波器組而對(duì)上半部采用8-頻帶的分析濾波器組。如圖4a和圖4b所示,0-48kHz的音頻頻譜首先采用256-節(jié)、2-頻帶抽取預(yù)濾波器組46被一分為二,形成的帶寬為每頻段24kHz。下半部分頻帶(0-24kHz)如以上按圖3所述方式分割成32個(gè)均勻頻帶并編碼。然而上半部分頻帶(24-48kHz)則被分割成8個(gè)均勻頻帶進(jìn)行編碼。如果8-頻帶抽取/內(nèi)插濾波器組48的延時(shí)與32-頻帶濾波器組的相應(yīng)延時(shí)值不相等,則必須在24-48kHz信號(hào)通路中加入延時(shí)補(bǔ)償50,以確保在解碼器中兩個(gè)時(shí)域波形在進(jìn)入2-頻帶重組濾波器組之前對(duì)齊。在96kHz采樣頻率編碼系統(tǒng)中,24-48kHz音頻頻帶被延遲了384個(gè)采樣點(diǎn),然后用128-節(jié)內(nèi)插濾波器組將其分成8個(gè)均勻頻帶。每個(gè)3kHz頻寬的子帶被分別進(jìn)行編碼52,其數(shù)據(jù)與來自0-24kHz頻帶的編碼數(shù)據(jù)打包54形成壓縮數(shù)據(jù)流16。
當(dāng)?shù)竭_(dá)解碼器18時(shí),壓縮數(shù)據(jù)流16被進(jìn)行拆包分離56,用于32-頻帶解碼器(0-24kHz區(qū))和8-頻帶解碼器(24-48kHz區(qū))的編碼數(shù)據(jù)分別被送到它們各自的解碼級(jí)42和58中。其8個(gè)和32個(gè)解碼子帶分別用128-節(jié)和512-節(jié)的均勻式內(nèi)插濾波器組60和44進(jìn)行重構(gòu)。解出的子帶然后用256-節(jié)、2-頻帶均勻式內(nèi)插濾波器組62重新結(jié)合以產(chǎn)生單一的采樣頻率為96kHz的PCM數(shù)字音頻信號(hào)。如果解碼器需要以壓縮數(shù)據(jù)流采樣頻率的一半進(jìn)行操作,可以方便地通過放棄高端頻帶編碼數(shù)據(jù)(24-48kHz)并只解出0-24kHz音頻區(qū)域內(nèi)的32-音頻子帶便可達(dá)到。
通道編碼器在上述所有的編碼策略中,32-頻帶編碼/解碼方法是針對(duì)音頻帶寬為0-24kHz間的基帶部分進(jìn)行的。如圖5所示,取幀器64為PCM聲道開窗將其分段為連續(xù)的數(shù)據(jù)幀66。PCM音頻窗確定了連續(xù)輸入的采樣數(shù)量,該輸入采樣數(shù)量通過編碼過程產(chǎn)生數(shù)據(jù)流中的一幅輸出幀。窗口尺寸是根據(jù)壓縮量即傳輸率與采樣頻率之比來設(shè)定的,以限制每幀內(nèi)的編碼數(shù)據(jù)量。每個(gè)連續(xù)的數(shù)據(jù)幀66通過32-頻帶、512-節(jié)的FIR(有限沖擊響應(yīng))抽取濾波器組34被分成32個(gè)均勻頻帶68。每個(gè)子帶的輸出采樣數(shù)據(jù)被緩沖并應(yīng)用于32-頻帶編碼功能級(jí)36。
分析級(jí)70(將在圖10-19中詳細(xì)描述)為被緩沖的子帶采樣數(shù)據(jù)產(chǎn)生最佳預(yù)測(cè)器系數(shù)、差分量化器比特率分配和最佳量化器比例因數(shù)。分析級(jí)70還可以在沒有預(yù)置定值時(shí),決定將對(duì)哪個(gè)子帶進(jìn)行矢量量化(VQ)和對(duì)哪些聲道進(jìn)行聯(lián)合頻率編碼。這些數(shù)據(jù)或輔助信息被向前送到選定的ADPCM級(jí)72、VQ級(jí)73或聯(lián)合頻率編碼(JFC)級(jí)74以及數(shù)據(jù)多路復(fù)用器32(打包器)。子帶采樣數(shù)據(jù)然后通過ADPCM或VQ方法進(jìn)行編碼,且量化后的編碼被輸入至多路復(fù)用器。JFC級(jí)74實(shí)際上并不對(duì)子帶采樣數(shù)據(jù)進(jìn)行編碼,而是產(chǎn)生代碼字以指示哪些聲道的子帶被聯(lián)合處理以及它們的編碼被放于數(shù)據(jù)流何處。來自每個(gè)子帶的量化編碼和輔助信息被打包形成數(shù)據(jù)流16并傳輸送入解碼器。
到達(dá)解碼器18時(shí),數(shù)據(jù)流被多路分解40或拆包變回成各自的子帶數(shù)據(jù)。比例因數(shù)和比特率分配首先被設(shè)置裝入逆量化器75中,每個(gè)子帶的預(yù)測(cè)器系數(shù)亦被同時(shí)裝入。然后差分碼可直接利用ADPCM方法76或逆VQ方法77進(jìn)行重構(gòu),或?qū)χ付ㄗ訋нM(jìn)行逆JFC處理78。最后這些子帶用32-頻帶內(nèi)插濾波器組44合并成為單一的PCM音頻信號(hào)22。
PCM信號(hào)框構(gòu)成幀如圖6所示,當(dāng)傳輸率相對(duì)于給定采樣頻率發(fā)生變化時(shí),圖5中所示的取幀器64將改變窗口79的尺寸,從而使每個(gè)輸出幀80的字節(jié)數(shù)量被限制在例如5.3K字節(jié)和8K字節(jié)之間。表1和表2分別為對(duì)給定采樣頻率和傳輸率為設(shè)計(jì)者提供選擇最佳窗口尺寸和解碼緩沖器尺寸(幀尺寸)的設(shè)計(jì)表。在低傳輸率下,幀尺寸可以相對(duì)較大。這使編碼器可以利用音頻信號(hào)在不同時(shí)段上的、不平坦的幅值方差分布以改善音頻編碼器的性能。在高傳輸率下,需減小幀尺寸以便使字節(jié)的總量不會(huì)溢出解碼緩沖器。結(jié)果,設(shè)計(jì)者在解碼器上可使用8K字節(jié)RAM就可以滿足所有傳輸率要求。這降低了解碼器的成本。通常,音頻窗口的尺寸由下式得出 其中幀尺寸是指解碼緩沖器的尺寸,F(xiàn)samp是采樣頻率,而Trate是傳輸率。音頻窗口的尺寸與聲道的數(shù)量無關(guān)。然而,隨著聲道數(shù)量的增加,壓縮量也必須相應(yīng)增加以保持所需的傳輸率。
表1Fsamp(kHz)

表2Fsamp(kHz)

子帶濾波所用的32-頻帶、512-節(jié)均勻式抽取濾波器組34是從兩種多相濾波器組中選一用來將數(shù)據(jù)幀66分割成圖5所示的32個(gè)帶寬均勻的子帶68。這兩種濾波器組具有不同的重構(gòu)特性,以重構(gòu)精度折衷子帶編碼增益。其中一類濾波器稱為完全重構(gòu)(PR)濾波器。當(dāng)PR抽取濾波器(編碼)和它相應(yīng)的內(nèi)插濾波器(解碼)前后直接銜接時(shí),其重構(gòu)信號(hào)是“完全”的,在此,“完全”被定義為在24比特的分辨率時(shí)誤差小于0.5lsb(最小比特)。另一類濾波器被稱為不完全重構(gòu)(NPR)濾波器,因?yàn)槠渲貥?gòu)信號(hào)具有非零的噪聲基底值,這與其濾波過程中混疊頻率不能完全相抵消的特性有關(guān)。
圖7中分別示出了對(duì)于單個(gè)子帶的NPR和PR濾波器的傳遞函數(shù)82和84。由于NPR濾波器不受完全重構(gòu)要求的限制,它們的鄰近阻帶排斥(NSBR)比,即通帶與第一旁瓣之比,相比PR濾波器更大(110dB相對(duì)于85dB)。如圖8所示,濾波器的旁瓣使原本處于第三子帶中的信號(hào)86混疊到相鄰的子帶上。子帶增益測(cè)量相鄰子帶中的信號(hào)抑制情況,因此表明了濾波器對(duì)音頻信號(hào)的去相關(guān)能力。由于NPR濾波器比PR濾波器具有更大的NSBR比,所以它們將具有更大的子帶增益。結(jié)果,NPR濾波器提供了更高的編碼效率。
如圖9所示,無論是PR還是NPR濾波器,隨著總比特碼率的增加,壓縮數(shù)據(jù)流中的總失真將減小。然而,在低碼率下,兩種濾波器之間子帶增益性能的差異大于與NPR濾波器相關(guān)的噪聲底值。因此,NPR濾波器的相關(guān)失真曲線90低于PR濾波器的相關(guān)失真曲線92。所以,在低碼率下音頻編碼器選擇NPR濾波器組。當(dāng)碼率增加到某個(gè)點(diǎn)94時(shí),編碼器的量化誤差降至NPR濾波器的噪聲底值之下,繼續(xù)增加ADPCM編碼器比特碼位不再帶來相應(yīng)的收益。這時(shí)候,音頻編碼器切換使用PR濾波器組。
ADPCM編碼ADPCM編碼器72根據(jù)H個(gè)先前的重構(gòu)采樣的線性組合產(chǎn)生預(yù)測(cè)采樣p(n)。然后從輸入x(n)中減去該預(yù)測(cè)采樣,從而給出差分采樣d(n)。這些差分采樣數(shù)據(jù)然后通過用除以RMS(或PEAK)比例因數(shù)進(jìn)行比例運(yùn)算,使比例運(yùn)算后的差分采樣的RMS幅值與量化編碼器特性曲線Q相匹配。比例運(yùn)算后的差分采樣數(shù)據(jù)ud(n)然后被應(yīng)用到具有L級(jí)、步長(zhǎng)為SZ等特征的量化器上,其特征由當(dāng)前采樣分配數(shù)據(jù)所分配的比特位數(shù)ABIT決定。量化器對(duì)于每個(gè)經(jīng)比例運(yùn)算的差分采樣ud(n)產(chǎn)生分級(jí)層碼QL(n)。這些分級(jí)層碼最終被傳送到解碼器的ADPCM級(jí)。為了更新預(yù)測(cè)器歷史,量化器的分級(jí)層碼QL(n)在本地用與量化器Q相同特征的逆量化器1/Q進(jìn)行解碼以產(chǎn)生量化后、比例運(yùn)算后的差分采樣ud’(n)。此數(shù)量ud’(n)通過與RMS(或PEAK)比例因數(shù)相乘再進(jìn)行反比例運(yùn)算可得到d’(n)。通過把起始預(yù)測(cè)采樣p(n)與量化差分采樣d’(n)相加便可重構(gòu)初始輸入采樣x(n)的量化形式x’(n)。然后用該采樣更新預(yù)測(cè)器歷史。
矢量量化預(yù)測(cè)器系數(shù)和高頻子帶采樣皆使用矢量量化(VQ)進(jìn)行編碼。預(yù)測(cè)器VQ具有4個(gè)采樣值的矢量長(zhǎng)度(4維)和每采樣值3比特的碼率。因此其最后代碼本由4096個(gè)4維代碼矢量構(gòu)成。搜索匹配矢量的過程被分成一個(gè)兩層的樹結(jié)構(gòu),樹中的每個(gè)節(jié)點(diǎn)具有64個(gè)分枝。頂層存儲(chǔ)了64個(gè)只在編碼器中需要用來幫助完成搜索過程的節(jié)點(diǎn)代碼矢量。底層直接包含了4096個(gè)在編碼器和解碼器中都需要的最終代碼矢量。就每次搜索而言,需要進(jìn)行128次4維MSE計(jì)算。代碼本和頂層的節(jié)點(diǎn)矢量是利用LBG方法對(duì)超過5百萬個(gè)預(yù)測(cè)系數(shù)進(jìn)行訓(xùn)練優(yōu)化而成。訓(xùn)練矢量集是通過編制大量音頻材料、并在所有顯示出明顯正向預(yù)測(cè)增益的子帶中累積而成。使用訓(xùn)練集中內(nèi)的矢量進(jìn)行測(cè)試可得到大約30dB的平均SNRs(信噪比)。
高頻VQ具有32個(gè)采樣數(shù)據(jù)的矢量長(zhǎng)度(32維,子幀的長(zhǎng)度),其碼率為每采樣值0.3125比特。因此最后的代碼本由1024個(gè)32維代碼矢量構(gòu)成。匹配矢量的搜索為兩層樹結(jié)構(gòu),樹中的每個(gè)節(jié)點(diǎn)具有32個(gè)分枝。頂層存儲(chǔ)32個(gè)只在編碼器中需要的節(jié)點(diǎn)代碼矢量。底層包含1024個(gè)在編碼器和解碼器中都需要的最終代碼矢量。就每次搜索而言,需要進(jìn)行64次32維MSE計(jì)算。代碼本和頂層的節(jié)點(diǎn)矢量是利用LBG方法對(duì)超過7百萬個(gè)高頻子帶采樣訓(xùn)練矢量進(jìn)行訓(xùn)練優(yōu)化而成。形成訓(xùn)練矢量集的數(shù)據(jù)是通過編制大量采樣頻率為48kHz的音頻材料、并從第16-32子帶的輸出中累積而成。在48kHz的采樣頻率下,這些訓(xùn)練采樣代表了12-24kHz范圍內(nèi)的音頻。使用訓(xùn)練集內(nèi)的測(cè)試矢量預(yù)計(jì)得到大約3dB的平均SNRs。3dB的SNR盡管很小,但是足以提供高頻保真度或在高頻上的氛圍效應(yīng)。這在聽覺感知上要比簡(jiǎn)單放棄高頻子帶的公知技術(shù)好得多。
聯(lián)合頻率編碼在極低比特碼率的應(yīng)用中,總的重構(gòu)信號(hào)保真度可以通過對(duì)來自兩個(gè)或更多通道的高頻子帶信號(hào)之和進(jìn)行編碼以代替逐個(gè)獨(dú)立地編碼來加以改善。聯(lián)合頻率編碼之所以可行,是因?yàn)楦哳l子帶往往具有相似的能量分布,而且人的聽覺系統(tǒng)主要對(duì)高頻分量的“強(qiáng)度”而不是對(duì)它們的細(xì)微結(jié)構(gòu)敏感。于是,因在任何比特碼率下都會(huì)有更多的比特率用于感知上重要的低段頻率的編碼,平均來說重構(gòu)信號(hào)提供了很好的綜合保真度。
聯(lián)合頻率編碼索引值(JOINX)被直接傳送到解碼器中以指出哪個(gè)通道和子帶已經(jīng)被聯(lián)合處理以及聯(lián)合編碼信號(hào)在數(shù)據(jù)流中的位置。解碼器重構(gòu)指定聲道中的信號(hào)并將其復(fù)制到其它每個(gè)聲道中。每個(gè)聲道然后根據(jù)其相應(yīng)的RMS比例因數(shù)進(jìn)行比例運(yùn)算。由于聯(lián)合頻率編碼對(duì)時(shí)間信號(hào)按它們能量分布的相似性進(jìn)行平均,所以會(huì)降低重構(gòu)保真度。因此它的應(yīng)用通常限于低比特碼率編碼應(yīng)用,而且主要針對(duì)10-20kHz間的信號(hào)。在中高比特碼率應(yīng)用中,聯(lián)合頻率編碼通常被停止使用。
子帶編碼器圖10詳細(xì)地顯示了單個(gè)子帶運(yùn)用ADPCM/APCM方法的編碼過程,特別是描述了如圖5所示的分析級(jí)70及ADPCM編碼器72和如圖2中所示的全局比特管理系統(tǒng)30之間的相互作用。圖11-19詳細(xì)描述了圖10中所述的各組件過程。濾波器組34把PCM音頻信號(hào)14分成32個(gè)子帶信號(hào)x(n),并寫入相應(yīng)的子帶采樣緩沖器96中。假設(shè)音頻窗的尺寸為4096個(gè)采樣,每個(gè)子帶采樣緩沖器96則存儲(chǔ)含有128個(gè)采樣的完整幀,這個(gè)幀被分成4個(gè)32采樣的子幀??梢姡粋€(gè)含有1024采樣的窗口尺寸會(huì)只產(chǎn)生單一的32采樣子幀。采樣數(shù)據(jù)x(n)被送到分析級(jí)70,以便確定每個(gè)子幀的預(yù)測(cè)系數(shù)、預(yù)測(cè)模式(PMODE)、瞬態(tài)模式(TMODE)和比例因數(shù)(SF)。這些采樣數(shù)據(jù)x(n)同時(shí)還被提供給GBM系統(tǒng)30,由系統(tǒng)確定每個(gè)聲道中每個(gè)子帶的每個(gè)子幀的比特分配(ABIT)。此后,這些采樣數(shù)據(jù)x(n)以每次一個(gè)子幀的形式被傳遞到ADPCM編碼器72。
最佳預(yù)測(cè)系數(shù)的估計(jì)每個(gè)子幀的H階(合適的為四階)預(yù)測(cè)系數(shù)可通過對(duì)子帶采樣數(shù)據(jù)x(n)塊采用標(biāo)準(zhǔn)自相關(guān)方法98,即Weiner-Hopf或Yule-Walker公式,進(jìn)行優(yōu)化處理分別產(chǎn)生。
最佳預(yù)測(cè)系數(shù)的量化每組四個(gè)預(yù)測(cè)器系數(shù)的量化優(yōu)選方法是使用如上所述的4-元素樹搜索、12-比特矢量代碼本(每個(gè)系數(shù)3比特)。這個(gè)12-比特矢量代碼本包括4096個(gè)系數(shù)矢量,這些系數(shù)矢量已運(yùn)用標(biāo)準(zhǔn)群集算法并按理想的概率分布特性進(jìn)行了優(yōu)化。矢量量化(VQ)搜索100則選擇出一個(gè)與最佳系數(shù)之間有著最低加權(quán)均方差的系數(shù)矢量。這些“量化”矢量然后用來代替每個(gè)子幀的最佳系數(shù)。一個(gè)逆VQ LUT(查找表)101用于向ADPCM編碼器72提供量化后的預(yù)測(cè)器系數(shù)。
預(yù)測(cè)差分信號(hào)d(n)的估計(jì)對(duì)ADPCM來說一個(gè)很大的難題是在實(shí)現(xiàn)遞歸過程72之前不易預(yù)測(cè)差分采樣序列d(n)。對(duì)前向自適應(yīng)子帶ADPCM的基本要求是在進(jìn)行ADPCM編碼之前知道差分信號(hào)的能量,以便計(jì)算出合適的量化器比特分配,從而明確所產(chǎn)生的量化誤差或重構(gòu)采樣信號(hào)的噪聲量級(jí)。差分信號(hào)能量的特性也需要了解以便在編碼之前確定最佳差分比例因數(shù)。
遺憾的是,差分信號(hào)能量不僅取決于輸入信號(hào)的特性而且還取決于預(yù)測(cè)器的性能。除了已知的例如預(yù)測(cè)器階數(shù)和預(yù)測(cè)系數(shù)優(yōu)化程度等限制之外,預(yù)測(cè)器性能還受重構(gòu)采樣信號(hào)中引入的量化誤差程度或噪聲的影響。由于量化噪聲是由最終比特分配ABIT和差分比例因數(shù)RMS(或PEAK)值本身來確定,差分信號(hào)能量的估計(jì)必須通過迭代法來取得102。
步驟1.假設(shè)量化誤差為零差分信號(hào)的第一次估計(jì)(差分信號(hào)估計(jì)初值)是將緩沖的子帶采樣x(n)通過ADPCM過程而并不對(duì)差分信號(hào)進(jìn)行量化。這可以通過在ADPCM編碼循環(huán)中停止量化和RMS比例運(yùn)算功能來實(shí)現(xiàn)。用這種方式估計(jì)差分信號(hào)d(n),可以從計(jì)算中去除比例因數(shù)和比特分配值的影響。然而,由于使用了矢量量化的預(yù)測(cè)系數(shù),這個(gè)過程仍然考慮了量化誤差對(duì)預(yù)測(cè)器系數(shù)的影響。逆VQ LUT104被用來提供量化預(yù)測(cè)系數(shù)。為了進(jìn)一步提高估算預(yù)測(cè)器的精度,應(yīng)在計(jì)算之前把來自前一數(shù)據(jù)塊處理結(jié)束后累積的、真正被ADPCM預(yù)測(cè)器所用的歷史采樣值復(fù)制到當(dāng)前預(yù)測(cè)器中。由此可確保預(yù)測(cè)器可以緊接前一輸入緩沖結(jié)束時(shí)ADPCM預(yù)測(cè)器的真實(shí)狀態(tài)工作。
該估計(jì)值ed(n)和實(shí)際過程的d(n)之間的主要差別是忽略了量化噪聲對(duì)重構(gòu)采樣x(n)和對(duì)降低預(yù)測(cè)精度的影響。對(duì)于有大量層次的量化器來說,通常噪聲水平較小(假設(shè)通過合適的比例運(yùn)算),因此實(shí)際的差分信號(hào)能量與在此估計(jì)計(jì)算出的結(jié)果非常相近。然而,當(dāng)量化器層次的數(shù)量較少時(shí),即在典型的低比特碼率音頻編碼器情況下,實(shí)際的預(yù)測(cè)信號(hào)及由此的差分信號(hào)能量可能和如此的估計(jì)值差別很大。這樣便產(chǎn)生了與早先在自適應(yīng)比特分配過程中所預(yù)測(cè)值不同的編碼噪聲底值。
盡管如此,預(yù)測(cè)性能的變化對(duì)于所用的應(yīng)用或比特碼率來說影響并不很大。因此,這些估計(jì)結(jié)果可以不經(jīng)過迭代直接用來計(jì)算比特分配和比例因數(shù)。另一個(gè)改進(jìn)方法是,如果一個(gè)子帶很可能被分配使用層數(shù)很少的量化器,則可以對(duì)差分信號(hào)能量有意地作出過高的估計(jì)來補(bǔ)償性能的損失。這種過高估計(jì)還可以根據(jù)量化器層數(shù)的變化進(jìn)行分級(jí)以提高精度。
步驟2.用估計(jì)的比特分配和比例因數(shù)進(jìn)行再計(jì)算一旦用差分信號(hào)估計(jì)初值得出了比特分配(ABIT)和比例因數(shù)(SF),就可以將估算出的ABIT和RMS(或PEAK)值運(yùn)用于ADPCM循環(huán)72,進(jìn)行進(jìn)一步的ADPCM估計(jì)過程以測(cè)試它們的最佳性。與估計(jì)初值時(shí)一樣,在開始計(jì)算之前,實(shí)際的ADPCM預(yù)測(cè)器系數(shù)被復(fù)制用作估計(jì)預(yù)測(cè)器歷史,從而保證兩次預(yù)測(cè)器運(yùn)算從同一點(diǎn)開始。在緩沖的輸入采樣數(shù)據(jù)全部經(jīng)過第二估計(jì)循環(huán)處理之后,所得的每個(gè)子帶中的噪聲底值與在自適應(yīng)比特分配過程中預(yù)測(cè)的噪聲底值進(jìn)行比較。任何明顯的差異則通過修正比特分配和/或比例因數(shù)進(jìn)行補(bǔ)償。
步驟2可以重復(fù)使用以適當(dāng)改進(jìn)噪聲底值在子帶上的分布,每次重復(fù)時(shí)需用最新的估計(jì)差分信號(hào)來計(jì)算下一組比特分配和比例因數(shù)。通常,如果比例因數(shù)的變化大于約2-3dB,則需重新計(jì)算。否則,比特分配可能會(huì)違背由心理聲學(xué)掩蔽過程或mmse過程產(chǎn)生的信號(hào)-掩蔽比。一般來說,一次重復(fù)就足夠了。
子帶預(yù)測(cè)模式(PMODE)的計(jì)算為了提高編碼效率,預(yù)測(cè)過程可以被一個(gè)控制器106在當(dāng)前子幀中的預(yù)測(cè)增益降到某一閾值以下時(shí),通過設(shè)置PMODE指示值任意地終止。當(dāng)在估計(jì)階段對(duì)輸入采樣塊測(cè)得的預(yù)測(cè)增益(輸入信號(hào)的能量與估計(jì)的差分信號(hào)能量之比)超出某個(gè)正閾值時(shí),PMODE指示值將置1。相反,如果測(cè)得的預(yù)測(cè)增益小于正閾值,相應(yīng)子帶的ADPCM預(yù)測(cè)器系數(shù)則同時(shí)在編碼器和解碼器中置0,而且其PMODE也置0。預(yù)測(cè)增益閾值的設(shè)定必須補(bǔ)償?shù)扔谝騻鬏旑A(yù)測(cè)器系數(shù)矢量而使用消耗的比特碼所帶來的失真率。這樣做是為了確保當(dāng)PMODE=1時(shí),ADPCM過程的編碼增益總是大于或等于前向自適應(yīng)PCM(APCM)編碼過程的增益。不然則將PMODE置零并將其預(yù)測(cè)器系數(shù)重置為零,ADPCM過程就簡(jiǎn)單地轉(zhuǎn)換成APCM。
如果ADPCM編碼增益的變化對(duì)應(yīng)用來說不是很重要,則可以在任何或所有子帶中將PMODEs置于高電平。相反,PMODEs亦可以為以下情況置于低電平,例如某些子帶完全不用編碼,或是應(yīng)用的比特率足夠高而不需要用預(yù)測(cè)增益來保持音頻的主觀質(zhì)量,或是信號(hào)的瞬變含量很高,或者象在音頻剪輯應(yīng)用情況下ADPCM編碼音頻的剪輯接合性不夠令人滿意等。
每個(gè)子帶相應(yīng)的預(yù)測(cè)模式(PMODE)值被分離傳輸且其速率等于編碼器和解碼器ADPCM過程中的線性預(yù)測(cè)器的更新速率。PMODE參數(shù)的用途是向解碼器傳送并指示某特定子帶是否在其編碼音頻數(shù)據(jù)塊中含有任何相關(guān)的預(yù)測(cè)器系數(shù)矢量地址。當(dāng)任何子帶的PMODE=1時(shí),數(shù)據(jù)流中將總是包含其預(yù)測(cè)器系數(shù)矢量地址。當(dāng)任何子帶的PMODE=0時(shí),數(shù)據(jù)流中則不會(huì)包含預(yù)測(cè)器系數(shù)矢量地址,編碼器和解碼器的ADPCM級(jí)預(yù)測(cè)器系數(shù)必須置0。
PMODE的計(jì)算首先對(duì)緩沖的子帶輸入信號(hào)能量及其相應(yīng)緩沖的、從第一階段估計(jì)所得的估計(jì)差分信號(hào)能量進(jìn)行對(duì)比分析,這里假定沒有量化誤差。每個(gè)子帶的輸入采樣數(shù)據(jù)x(n)和估計(jì)的差分采樣數(shù)據(jù)ed(n)皆被分開緩沖處理。緩沖器尺寸等于每個(gè)預(yù)測(cè)器更新周期內(nèi)所包含的采樣數(shù),例如子幀的尺寸。預(yù)測(cè)增益則可按下列公式計(jì)算Pgain(dB)=20.0*Log10(RMSx(n)/RMSed(n))其中RMSx(n)=緩沖輸入采樣x(n)的均方根值,RMSed(n)=緩沖估計(jì)差分采樣ed(n)的均方根值。
正的預(yù)測(cè)增益表示差分信號(hào)平均起來小于輸入信號(hào),所以對(duì)于相同的比特碼率,用ADPCM過程相比APCM可以降低重構(gòu)信號(hào)的噪聲底值。負(fù)增益則表示ADPCM編碼器產(chǎn)生的差分信號(hào)平均大于輸入信號(hào),這導(dǎo)致了在相同比特碼率下比APCM更高的噪聲底值。通常,用以啟用PMODE(即置1)的預(yù)測(cè)增益閾值是正的,而且其值已經(jīng)考慮了因傳輸預(yù)測(cè)器系數(shù)矢量地址而消耗的額外通道容量。
子帶瞬態(tài)變化模式(TMODE)的計(jì)算控制器106計(jì)算每個(gè)子帶中每個(gè)子幀的瞬態(tài)模式(TMODE)。TMODEs指示了比例因數(shù)和采樣數(shù)據(jù)的數(shù)量及其相應(yīng)有效的部分,這些采樣數(shù)據(jù)當(dāng)PMODE=1時(shí)是緩沖器中的估計(jì)差分信號(hào)ed(n),當(dāng)PMODE=0時(shí)是緩沖器中的輸入子帶信號(hào)x(n)。TMODEs被傳送到解碼器,其更新頻率與預(yù)測(cè)系數(shù)矢量地址相同。瞬態(tài)模式的目的是在信號(hào)出現(xiàn)瞬變時(shí)降低編碼帶來的、可聽見的“預(yù)回波”人為噪音。
瞬變可定義為在低幅值信號(hào)和高幅值信號(hào)之間的快速過渡。由于比例因數(shù)在一整塊子帶差分采樣數(shù)據(jù)上進(jìn)行平均運(yùn)算而來,那么如果在這信號(hào)塊上發(fā)生快速幅值變化,即瞬變,所計(jì)算出的比例因數(shù)往往比那些處于瞬變前的低幅值采樣需要的最佳值大得多。因此對(duì)于瞬變前的采樣數(shù)據(jù)來說,量化誤差可能會(huì)很大。這種噪聲聽覺上則被稱為預(yù)回波失真。
在實(shí)際運(yùn)用中,瞬態(tài)模式是用來修正用于平均計(jì)算子帶比例因數(shù)的數(shù)據(jù)塊長(zhǎng)度,以限制瞬變對(duì)那些緊靠瞬變前的差分采樣的比例運(yùn)算的影響。這樣做的動(dòng)機(jī)是因?yàn)槿寺犛X系統(tǒng)中存在的、固有的預(yù)掩蔽現(xiàn)象,此現(xiàn)象表明在出現(xiàn)瞬態(tài)變化時(shí),它之前的噪聲如果持續(xù)時(shí)間很短則可被瞬態(tài)變化本身掩蔽不被察覺。
根據(jù)PMODE的取值不同,子帶采樣緩沖器中的x(n)的內(nèi)容,即子幀,或估計(jì)的差分緩沖器ed(n)的內(nèi)容被復(fù)制到瞬變分析緩沖器中。根據(jù)分析緩沖器的采樣尺寸,緩沖器中的內(nèi)容均勻地分成2、3或4個(gè)子子幀。例如,如果分析緩沖器包含了32個(gè)子帶采樣(21.3ms@1500Hz),緩沖器可分區(qū)為各含有8個(gè)采樣的4個(gè)子子幀,在子帶采樣率為1500Hz的情況下,其時(shí)間分辨率為5.3ms。換一種情形,如果分析窗由16個(gè)子帶采樣構(gòu)成,那么只需將緩沖器分成兩個(gè)子子幀以提供相同時(shí)間分辨率。
每個(gè)子子幀內(nèi)的信號(hào)被加以分析并確定除第一子子幀之外的、每個(gè)子子幀的瞬變模式狀態(tài)。如果任何子子幀被認(rèn)作為瞬態(tài),則將為分析緩沖器即當(dāng)前子幀產(chǎn)生兩個(gè)獨(dú)立的比例因數(shù)。第一個(gè)比例因數(shù)是從瞬變子子幀之前子子幀中的采樣計(jì)算而來。第二個(gè)比例因數(shù)則根據(jù)瞬變子子幀中的采樣并結(jié)合所有以后子子幀計(jì)算而來。
第一子子幀的瞬變狀態(tài)不用計(jì)算,因?yàn)槠涮幱诜治龃伴_始的位置本身已可自動(dòng)限制其量化噪聲。如果有一個(gè)以上的子子幀被認(rèn)作出現(xiàn)瞬變,則只考慮首先出現(xiàn)的那個(gè)子子幀。如果沒有子緩沖器被檢測(cè)到出現(xiàn)瞬變,則只需用分析緩沖器中的所有采樣數(shù)據(jù)計(jì)算單個(gè)比例因數(shù)。用這種方式,用瞬變采樣數(shù)據(jù)計(jì)算的比例因數(shù)值不會(huì)用于超出一子子幀時(shí)段之前的早期采樣數(shù)據(jù)的比例運(yùn)算。由此,把預(yù)瞬變量化噪聲限制在一個(gè)子子幀周期之內(nèi)。
瞬態(tài)的確認(rèn)聲明如果一子子幀相比前一子緩沖器的能量比超出瞬變閾值(TT),而且前一子子幀中的能量低于預(yù)瞬變閾值(PTT)則聲明在該子子幀中有瞬變。TT和PTT的取值決定于比特碼率和所需的預(yù)回波抑制程度。這些值通??梢宰兓{(diào)節(jié)直至感到的預(yù)回波失真與其它人為編碼噪聲(如果有的話)能級(jí)相近。增加TT和/或減小PTT的值都將減小子子幀被認(rèn)作為含有瞬變的可能性,由此降低了用于比例因數(shù)傳輸?shù)谋忍卮a率。反之,減小TT和/或增加PTT的值將增加子子幀被認(rèn)作為含有瞬變的可能性,并由此增加了用于比例因數(shù)傳輸?shù)谋忍卮a率。
由于TT和PTT是對(duì)于每個(gè)子帶分別設(shè)定的,所以編碼器中所有子帶的瞬態(tài)檢測(cè)的靈敏度可以自由設(shè)定。例如,如果發(fā)現(xiàn)高頻子帶中的預(yù)回波相比低頻子帶中的預(yù)回波不易覺察,那么其閾值可以相應(yīng)設(shè)定來減小高頻子帶被認(rèn)作為含有瞬變的機(jī)會(huì)。此外,由于TMODEs被嵌入壓縮的數(shù)據(jù)流中,解碼器不必知道在編碼器中使用的瞬變檢測(cè)算法亦可對(duì)TMODE信息進(jìn)行適當(dāng)?shù)慕獯a。
四種子緩沖器的結(jié)構(gòu)配置如圖11a所示,如果子帶分析緩沖器109中的第一子子幀108出現(xiàn)瞬變,或如果沒有檢測(cè)到任何瞬變子子幀,則TMODE=0。如果第二子子幀出現(xiàn)瞬變而第一子子幀沒有,則TMODE=1。如果第三子子幀出現(xiàn)瞬變而第一或第二子子幀都沒有,則TMODE=2。如果只有第四子子幀出現(xiàn)瞬變則TMODE=3。
比例因數(shù)的計(jì)算如圖11b所示,當(dāng)TMODE=0時(shí),比例因數(shù)110在所有子子幀上計(jì)算。當(dāng)TMODE=1時(shí),第一個(gè)比例因數(shù)在第一子子幀上計(jì)算,第二個(gè)比例因數(shù)在所有之后的子子幀上計(jì)算。當(dāng)TMODE=2時(shí),第一個(gè)比例因數(shù)在第一和第二子子幀上計(jì)算,第二個(gè)比例因數(shù)在所有之后的子子幀上計(jì)算。當(dāng)TMODE=3時(shí),第一個(gè)比例因數(shù)在第一、第二和第三子子幀上計(jì)算,第二個(gè)比例因數(shù)在第四子子幀上計(jì)算。
用TMODE進(jìn)行ADPCM編碼和解碼當(dāng)TMODE=0時(shí),整個(gè)分析緩沖器期間即子幀內(nèi)的子帶差分采樣數(shù)據(jù)用單個(gè)比例因數(shù)進(jìn)行比例運(yùn)算,該比例因數(shù)還傳至解碼器以進(jìn)行反比例運(yùn)算。當(dāng)TMODE>0時(shí),需要兩個(gè)比例因數(shù)對(duì)子帶差分采樣數(shù)據(jù)進(jìn)行比例運(yùn)算且兩者皆需傳至解碼器。不管是什么TMODE,在一組差分采樣數(shù)據(jù)上產(chǎn)生的比例因數(shù)只用于這組數(shù)據(jù)的比例運(yùn)算。
子帶比例因數(shù)(RMS或PEAK)的計(jì)算根據(jù)每個(gè)子帶的PMODE取值不同,用來計(jì)算其比例因數(shù)的數(shù)據(jù)或是估計(jì)的差分采樣ed(n),或是輸入的子帶采樣x(n)。TMODEs在此計(jì)算中則用來確定比例因數(shù)的數(shù)量以及在緩沖器中它們對(duì)應(yīng)的子子幀。
RMS比例因數(shù)計(jì)算對(duì)第j個(gè)子帶而言,rms比例因數(shù)可按下列公式計(jì)算當(dāng)TMODE=0時(shí),單個(gè)rms的值是RMSj=(Σn=1Led(n)2/L)0.5]]>其中L是子幀中的采樣數(shù)量。
當(dāng)TMODE>0時(shí),那么兩個(gè)rms值為RMS1j=(Σn=1ked(n)2/L)0.5]]>RMS2j=(Σn=1k+1ed(n)2/L)0.5]]>其中k=(TMODE*L/NSB),NSB是均勻尺寸子子幀的數(shù)量。
如果PMODE=0,則用輸入采樣xj(n)替換差分采樣edj(n)。
PEAK比例因數(shù)的計(jì)算就第j個(gè)子帶而言,峰值比例因數(shù)可按下列公式計(jì)算當(dāng)TMODE=0時(shí),單個(gè)峰值是PEAKj=MAX(ABS(edj(n))),n=1,L當(dāng)TMODE>0時(shí),兩個(gè)峰值是
PEAK1j=MAX(ABS(edj(n))),n=1,(TMODE*L/NSB)PEAK2j=MAX(ABS(edj(n))),n=(1+TMODE*L/NSB),L如果PMODE=0,則用輸入采樣xj(n)替換差分采樣edj(n)。
PMODE、TMODE和比例因數(shù)的量化PMODEs的量化預(yù)測(cè)模式標(biāo)記值只取兩個(gè)值,開或關(guān),可直接作為1-比特編碼送至解碼器。
TMODEs的量化瞬變模式標(biāo)記值最多具有4個(gè)值0、1、2和3,它可直接作為2-比特?zé)o符號(hào)整數(shù)代碼送至解碼器,或可通過使用一個(gè)4-層熵編碼表以爭(zhēng)取將傳輸TMODEs的平均字長(zhǎng)降至2比特以下。通常,熵編碼只是在低比特碼率應(yīng)用時(shí)才選擇運(yùn)用以節(jié)省比特位數(shù)。
圖12中詳細(xì)示出的熵編碼過程112可描述如下把j個(gè)子帶的瞬態(tài)模式碼TMODE(j)與多個(gè)(p)4-層中值上升、可變長(zhǎng)度代碼本進(jìn)行相配比較,其中每個(gè)代碼本是根據(jù)不同的輸入統(tǒng)計(jì)特性優(yōu)化設(shè)計(jì)的。TMODE值與這些4-層表114進(jìn)行相配比較并計(jì)算與每個(gè)表相關(guān)的總比特位數(shù)用量(NBp)116。在相配過程中能提供最少比特用量的碼表就被選中并記作THUFF索引值。從該表格中取出的匹配碼字VTMODE(j),將其與THUFF索引字一道被打包并送到解碼器。擁有同樣一組4-層反向表格的解碼器可利用THUFF索引值將輸入的可變長(zhǎng)度編碼VTMODE(j)送至合適的表格并解出TMODE索引值。
子帶比例因數(shù)的量化為了將比例因數(shù)傳送到解碼器必須將它們量化成已知的編碼格式。在該系統(tǒng)中,比例因數(shù)通過使用均勻64-層對(duì)數(shù)特性、或均勻128-層對(duì)數(shù)特性、或可變速編碼的均勻64-層對(duì)數(shù)特性量化器進(jìn)行量化120。其中,兩種64-層的量化器顯示的步長(zhǎng)皆為2.25dB,而128-層的步長(zhǎng)為1.25dB。64-層量化用于低至中比特碼率,附加的可變速率編碼用于低比特碼率應(yīng)用,而128-層通常用于高比特碼率應(yīng)用。
圖13示出了量化過程120。以RMS或PEAK表示的比例因數(shù)先從緩沖器121中讀出,轉(zhuǎn)換成對(duì)數(shù)域122,然后根據(jù)編碼器模式控制器128的判斷將其送到64-層或128-層均勻量化器124、126。然后把對(duì)數(shù)量化的比例因數(shù)寫入緩沖器130中。128-層和64-層量化器的范圍分別可以滿足動(dòng)態(tài)范圍約為160dB和144dB的比例因數(shù)。把128-層的上限設(shè)定為能覆蓋24-位輸入PCM數(shù)字音頻信號(hào)的動(dòng)態(tài)范圍。把64-層的上限設(shè)定為能覆蓋20-位輸入PCM數(shù)字音頻信號(hào)的動(dòng)態(tài)范圍。
對(duì)數(shù)比例因數(shù)然后與量化器進(jìn)行相配比較并用最接近的量化器層代碼RMSQL(或PEAKQL)代替比例因數(shù)。在使用64-層量化器的情況下,這些代碼為6-比特長(zhǎng),代碼范圍為0-63。在使用128-層量化器的情況下,代碼長(zhǎng)度為7-位,其范圍為0-127。
逆量化131可簡(jiǎn)便地通過把各層代碼運(yùn)用其各自的逆量化特性實(shí)現(xiàn),以產(chǎn)生RMSq(或PEAKq)值。對(duì)ADPCM(或當(dāng)PMODE=0時(shí)為APCM)差分采樣的比例運(yùn)算而言,編碼器及解碼器都使用了量化過的比例因數(shù),由此可確保比例運(yùn)算和反比例運(yùn)算在兩處的過程同步一致。
如果64-層量化器編碼的比特碼率仍需要降低,則要進(jìn)一步進(jìn)行熵、或變字長(zhǎng)編碼。j個(gè)子帶的64-層編碼從第二子帶(j=2)開始到最高有效子帶被進(jìn)行一階差分編碼132。該過程也可以用于對(duì)PEAK比例因數(shù)進(jìn)行編碼。有符號(hào)的差分編碼DRMSQL(j)(或DPEAKQL(j))的最大范圍為+/-63而且將這些編碼存儲(chǔ)在緩沖器134中。為了在原始的6-位編碼上降低它們的比特碼率,這些差分編碼與多個(gè)(p)127-層中值上升、可變長(zhǎng)度代碼本進(jìn)行相配比較,其中每個(gè)代碼本是根據(jù)不同的輸入統(tǒng)計(jì)特性優(yōu)化設(shè)計(jì)的。
對(duì)有符號(hào)的差分編碼進(jìn)行熵編碼的過程與圖12中所示用于瞬變模式的熵編碼過程相同,只是使用了p個(gè)127-層可變長(zhǎng)度代碼本。在比較過程中提供最低比特用量的表格則以SHUFF索引值形式被選中。其匹配的編碼VDRMSQL(j)從表格中取出,與SHUFF索引字一道打包并傳送到解碼器。具有同樣一組(p)127-層反向表的解碼器,可利用SHUFF索引值把進(jìn)入的可變長(zhǎng)度編碼送入合適的表中,以便對(duì)其進(jìn)行解碼使之回到差分量化器代碼層。下列程序可用來將差分代碼層轉(zhuǎn)回成絕對(duì)值RMSQL(1)=DRMSQL(1)RMSQL(j)=DRMSQL(j)+RMSQL(j-1) j=2,...K而用下列程序可使PEAK差分代碼層轉(zhuǎn)回成絕對(duì)值PEAKQL(1)=DPEAKQL(1)PEAKQL(j)=DPEAKQL(j)+PEAKQL(j-1) j=2,..K在以上兩種情況下,K=有效子帶的數(shù)量。
全局比特分配圖10所示的全局碼率管理系統(tǒng)30在多通道音頻編碼器中管理比特分配(ABIT),確定有效子帶(SUBS)的數(shù)量和聯(lián)合頻率策略(JOINX)以及VQ策略,以在降低的比特碼率情況下提供主觀透明編碼。這不但增加了固定媒體上可編碼和儲(chǔ)存的音頻聲道的數(shù)量并/或延長(zhǎng)播放時(shí)間,同時(shí)還保持或提高了音頻保真度。通常,GBM系統(tǒng)30首先根據(jù)編碼器中經(jīng)預(yù)測(cè)增益修正的心理聲學(xué)分析結(jié)果將比特分配到每個(gè)子帶。然后根據(jù)mmse方案分配所剩余的比特以便降低總噪聲底值。為了優(yōu)化編碼效率,GBM系統(tǒng)同時(shí)考慮所有聲道、所有子帶及整個(gè)數(shù)據(jù)幀并進(jìn)行比特分配。此外,可以利用聯(lián)合頻率編碼策略。用這種方式,系統(tǒng)充分利用了聲道之間、頻率范圍內(nèi)及時(shí)域上的信號(hào)能量的非均勻分布特性。
心理聲學(xué)分析心理聲學(xué)測(cè)量是用來決定音頻信號(hào)中存在的、感知上不相關(guān)的信息。感知上不相關(guān)的信息可定義為音頻信號(hào)中不能為人類聽眾所聽到的部分,它可以在時(shí)域上、頻域上或以其它一些方式進(jìn)行測(cè)量。J.D.約翰斯頓(J.D.Johnston)“采用感知噪聲標(biāo)準(zhǔn)的音頻信號(hào)變換編碼”,見IEEE Journal on Selected Areas in Communications,第JSAC-6期,第2號(hào),第314~323頁,1988年2月,其中描述了心理聲學(xué)編碼的總則原理。
兩個(gè)主要因素將影響心理聲學(xué)測(cè)量。一個(gè)是人類聽力的、與頻率有關(guān)的絕對(duì)閾值。另一個(gè)是掩蔽效應(yīng),即人聽到的第一聲音能將與其同時(shí)演奏或甚至在其之后的第二聲音掩蓋住的事實(shí)。換句話說,第一聲音能阻止我們聽到第二聲音,也就是說將其掩蔽掉。
在子帶編碼器中,心理聲學(xué)計(jì)算的最終結(jié)果是一組數(shù),指定在某瞬間對(duì)于每個(gè)子帶的、不再能聽覺的噪聲量級(jí)。該計(jì)算方法是公知的而且被并入MPEG1壓縮標(biāo)準(zhǔn)ISO/IEC DIS 11172“信息技術(shù)—用于約1.5Mbits/s以內(nèi)的的數(shù)字存儲(chǔ)媒體的運(yùn)動(dòng)圖象和相關(guān)聲音的編碼”1992。這些數(shù)隨音頻信號(hào)動(dòng)態(tài)變化。編碼器借助比特分配過程以調(diào)節(jié)子帶中的量化噪聲底值,以使這些子帶中的量化噪聲小于可聽覺的量級(jí)。
精確的心理聲學(xué)計(jì)算通常需要在時(shí)間-頻率變換中具備高頻率分辨率。這意味著時(shí)間-頻率變換時(shí)需要較大的分析窗。標(biāo)準(zhǔn)的分析窗尺寸是1024個(gè)采樣,相應(yīng)于壓縮音頻數(shù)據(jù)的子幀。長(zhǎng)度為1024的fft的頻率分辨率大致與人耳的時(shí)間分辨率匹配。
心理聲學(xué)模型的輸出對(duì)32個(gè)子帶中每一個(gè)都產(chǎn)生了一個(gè)信號(hào)-掩蔽(SMR)比。SMR表示了其子帶所能承受的量化噪聲量,因此還表示了量化其子帶采樣數(shù)據(jù)所需的比特位數(shù)。具體地說,大的SMR(>>1)表示需要的比特位數(shù)很多,而小的SMR(>0)則表示需要的比特位數(shù)較少。如果SMR<0,則音頻信號(hào)低于噪聲掩蔽閾值,這時(shí)不需要量化比特。
如圖14所示,每個(gè)連續(xù)幀的SMR通常通過下列步驟產(chǎn)生。1)對(duì)PCM音頻采樣數(shù)據(jù)進(jìn)行fft計(jì)算,優(yōu)選長(zhǎng)度為1024,得出一系列頻率系數(shù)142,2)對(duì)每個(gè)子帶將產(chǎn)生的頻率系數(shù)與其心理聲學(xué)、頻率相關(guān)的音調(diào)和噪聲掩蔽值144進(jìn)行卷積,3)對(duì)每個(gè)子帶上產(chǎn)生的系數(shù)進(jìn)行平均以得出SMR的量級(jí),和4)作為可選步驟,根據(jù)圖15所示的人的聽覺響應(yīng)146對(duì)SMRs進(jìn)行歸一化處理。
人耳的靈敏度在頻率接近4KHz時(shí)最高并隨著頻率的進(jìn)一步升高或降低而下降。因此,要想感受相同的音量強(qiáng)度,20kHz的信號(hào)必須比4kHz的信號(hào)強(qiáng)得多。因此一般來說,4kHz頻率周圍的SMRs與邊遠(yuǎn)頻率比較要重要得多。然而,曲線的精確形狀與傳送給聽者的信號(hào)平均功率有關(guān)。隨著音量的增加,聽覺響應(yīng)范圍146受到壓縮。因此,在某特定音量之下優(yōu)化的系統(tǒng)對(duì)其它音量來說只是次優(yōu)的。結(jié)果是,或者選擇一指定功率級(jí)對(duì)SMR量級(jí)進(jìn)行歸一化處理,或者不用歸一化處理。圖16中示出了產(chǎn)生的用于32個(gè)子帶的SRMs148。
比特分配程序GBM系統(tǒng)30首先選擇合適的編碼策略,決定哪些子帶用VQ和ADPCM算法進(jìn)行編碼以及是否啟用JFC。之后,GBM系統(tǒng)將選擇心理聲學(xué)或者是MMSE比特分配方法。例如,在高比特碼率下,系統(tǒng)可能停用心理聲學(xué)模式而使用真正的mmse分配方案。這樣可降低計(jì)算的復(fù)雜性而且在重構(gòu)音頻信號(hào)中并不感到有任何聽覺變化。相反,在低速率下,系統(tǒng)能夠啟用如上所述的聯(lián)合頻率編碼方案從而提高較低頻率的重構(gòu)保真度。GBM系統(tǒng)能夠根據(jù)信號(hào)中的瞬變含量在幀與幀之間進(jìn)行正常心理聲學(xué)分配和mmse分配方法的切換。當(dāng)瞬變含量高時(shí),計(jì)算SMRs時(shí)使用的穩(wěn)態(tài)假設(shè)就不再有效,因此mmse方案可以提供更好的特性。
就心理聲學(xué)分配方法而言,GBM系統(tǒng)首先分配可用比特以滿足心理聲學(xué)效應(yīng),然后對(duì)剩余比特進(jìn)行分配以便降低總噪聲底值。第一步如上所述是確定當(dāng)前幀每個(gè)子帶的SMRs。下一步是按各子帶中的預(yù)測(cè)增益(Pgain)調(diào)節(jié)其SMRs從而產(chǎn)生掩蔽-噪聲比(MNRs)。其原理是ADPCM編碼器將提供一部分所需的SMR。所以用更少的比特位數(shù)便可達(dá)到聽不到的心理聲學(xué)噪聲級(jí)。
假設(shè)PMODE=1,則第j個(gè)子帶的MNR由下式給出
MNR(j)=SMR(j)-Pgain(j)*PEF(ABIT)其中PEF(ABIT)是量化器的預(yù)測(cè)效率因數(shù)。為了計(jì)算MNR(j),設(shè)計(jì)者必須估計(jì)比特分配(ABIT)情況,這可以通過只用SMR(j)比值進(jìn)行比特分配或通過假設(shè)PEF(ABIT)=1而得到。在中高比特碼率下,有效預(yù)測(cè)增益近似等于計(jì)算的預(yù)測(cè)增益。然而,在低比特碼率下,有效預(yù)測(cè)增益將降低。用例如5-層量化器得到的有效預(yù)測(cè)增益近似為估計(jì)的預(yù)測(cè)增益的0.7倍,而65-層量化器則使有效預(yù)測(cè)增益近似等于估計(jì)的預(yù)測(cè)增益,PEF=1.0。在極限情況下,當(dāng)比特碼率為零時(shí),實(shí)際上預(yù)測(cè)編碼被停止使用,有效預(yù)測(cè)增益為零。
在下一步驟中,GBM系統(tǒng)30產(chǎn)生一個(gè)滿足每個(gè)子帶MNR的比特碼位分配方案。這是利用1比特約等于6dB的信號(hào)失真的近似方法而實(shí)現(xiàn)的。為了確保編碼失真小于心理聲學(xué)聽覺閾值,分配的比特率是MNR除以6dB得到值上舍入后的最大整數(shù),由下式給出 通過用這種方式進(jìn)行比特分配,重構(gòu)信號(hào)中的噪聲級(jí)156將如圖17所示隨信號(hào)本身157而變化。因此,在信號(hào)很強(qiáng)的頻率上,噪聲級(jí)將比較高,但仍將保持在聽力察覺范圍之外。在信號(hào)比較弱的頻率上,噪聲底值將很小且不會(huì)被聽到。使用這種心理聲學(xué)模型的平均誤差總是大于mmse噪聲級(jí)158,但是就其聽力可感知部分來說性能更好,特別是在低比特碼率下更是如此。
在所有聲道、每個(gè)子帶上分配的比特總和大于或小于目標(biāo)比特碼率的情況下,GBM程序?qū)⒅貜?fù)迭代以減小或增加各子帶的比特分配。另外一種方法是計(jì)算每個(gè)聲道的目標(biāo)比特碼率。這雖然是次佳方法但硬件實(shí)現(xiàn)時(shí)特別容易。例如,可用比特可以在聲道中均勻地分布,或是按每個(gè)聲道的平均SMR或RMS成比例分布。
在局部比特分配總和(包含VQ碼位和輔助信息在內(nèi))超過目標(biāo)比特碼率的情況下,全局碼率管理程序?qū)⒅鸩浇档途植孔訋У谋忍胤峙?。有多種具體方法可用于降低平均比特碼率。首先,用于計(jì)算比特碼率的上舍入整數(shù)函數(shù)可變?yōu)橄律崛胝麛?shù)函數(shù)。其次可以從最小MNRs的子帶中減去1比特。此外,可以停止對(duì)較高頻率子帶的編碼或啟用聯(lián)合頻率編碼。所有降低比特碼率的策略均遵循適度地、逐漸地降低編碼分辨率的基本原則,首先使用的是感知音質(zhì)損失最小的策略,損失大的策略則最后使用。
在目標(biāo)比特碼率大于局部比特分配總和(包含VQ碼位和輔助信息在內(nèi))的情況下,全局碼率管理程序?qū)⒅鸩?、迭代地增加局部子帶的比特分配以降低重?gòu)信號(hào)的總噪聲底值。這樣情況下,先前被分配了零比特的子帶可能又進(jìn)入編碼之列。計(jì)算這種‘接通’的子帶的比特用量時(shí),需要考慮到其可能啟用PMODE時(shí)用于傳輸任何預(yù)測(cè)器系數(shù)的成本。
GBM程序可以從三個(gè)不同方案中選擇其一以便分配剩余比特。一種方案是對(duì)所有比特用mmse方法進(jìn)行再分配以產(chǎn)生近似平坦的噪聲底值。這相當(dāng)于放棄了起初的心理聲學(xué)模型。為了達(dá)到mmse噪聲底值,圖18a所示的子帶RMS值曲線160被倒置成如圖18b所示的形式,所有比特然后進(jìn)行“注水式”分配直至耗盡。這種公知技術(shù)被稱為注水是因?yàn)殡S著分配比特位數(shù)量的增加失真度均勻地降低。在圖中所示的例子中,第一比特分配給了子帶1,第二和第三比特分配給了子帶1和2,第四至第七比特分配給了子帶1、2、4和7,等等。另外一種方法是先給每個(gè)子帶分配1比特以保證對(duì)每個(gè)子帶進(jìn)行編碼,此后將剩余比特以注水式分配。
第二種也是優(yōu)選的方案是按照上述mmse方法和RMS曲線來分配剩余比特。這種方法的效果是既均勻降低了如圖17所示的噪聲底值157又保持了原心理聲學(xué)掩蔽曲線形狀。這提供了一種很好的介于心理聲學(xué)和mse失真之間的折衷方案。
第三種方法是根據(jù)子帶的RMS和MNR值之間的差值曲線使用mmse方法分配剩余比特。這種方法的效果是,隨著比特碼率的增加,噪聲底值的形狀可從最佳心理聲學(xué)形狀157平滑過渡至最佳(平坦的)mmse形狀158。無論使用這些方案的哪一種,如果任何子帶中的編碼誤差相對(duì)于源PCM來說下降至0.5LSB之下,該子帶就不再有進(jìn)一步比特分配。一種可選擇的方法是使用固定的子帶比特分配最大值來限定各子帶可以分配到的最大比特位數(shù)。
在上面討論的編碼系統(tǒng)中,我們假定了每個(gè)采樣值的平均比特率是固定的,而且是以重構(gòu)音頻信號(hào)保真度最大為目的產(chǎn)生了比特分配。另外一種方法是先固定設(shè)置mse或感知失真度,然后允許比特碼率變化以滿足失真度。在mmse方法中,RMS曲線可以被簡(jiǎn)單地進(jìn)行注水式分配直至滿足失真度量級(jí)。所需的比特碼率將根據(jù)子帶的RMS量級(jí)而改變。在心理聲學(xué)方法中,則以滿足各MNRs來進(jìn)行比特分配。結(jié)果是其比特率將根據(jù)各SMRs和預(yù)測(cè)增益而改變。這種分配方法目前用途不廣,因?yàn)楫?dāng)前的解碼器均以固定的碼率工作。然而,其它的傳媒系統(tǒng)如ATM或隨機(jī)存取儲(chǔ)存媒體可能在不久的將來使可變碼率編碼成為實(shí)際可用的方法。
比特分配索引值(ABIT)的量化在全局比特管理過程中,自適應(yīng)比特分配程序?qū)γ總€(gè)子帶和每個(gè)聲道產(chǎn)生其比特分配索引值(ABIT)。編碼器產(chǎn)生此索引值的目的是為了指示如圖10所示的必需的量化層數(shù)目162,用此層數(shù)在量化差分信號(hào)時(shí)使解碼音頻達(dá)到主觀最佳重構(gòu)噪聲底值。在解碼器中,這些索引值指示了逆量化所需的層數(shù)。每個(gè)分析緩沖窗產(chǎn)生一組索引值,其取值范圍為0-27。索引值、量化層的數(shù)目和其相應(yīng)的差分子帶信噪比SNQR近似值之間的關(guān)系如表3所示。由于差分信號(hào)被歸一化,步長(zhǎng)164被設(shè)定等于1。
表3

比特分配索引值(ABIT)可以用4-比特?zé)o符號(hào)的整數(shù)代碼字、5-位無符號(hào)的整數(shù)代碼字或用12-層熵表直接傳輸?shù)浇獯a器。通常,熵編碼可用于低比特碼率應(yīng)用以節(jié)省比特。ABIT的編碼方法在編碼器中通過模式控制來設(shè)定并傳至解碼器。熵編碼過程如圖12所示,把ABIT索引值相配比較166到一個(gè)由BHUFF索引值指定的代碼本上,并從一具有12-層ABIT表的代碼本中匹配比較出特定碼VABIT。
全局比特碼率控制由于輔助信息和差分子帶采樣數(shù)據(jù)皆可以選擇用熵編碼可變長(zhǎng)度代碼本進(jìn)行編碼,所以當(dāng)以固定的速率傳輸壓縮比特流時(shí),必須使用某種機(jī)制來調(diào)節(jié)編碼器產(chǎn)生的比特碼率。由于輔助信息一旦計(jì)算后通常不希望更改,比特碼率的調(diào)節(jié)最好通過重復(fù)迭代地改變ADPCM編碼器中的差分子帶采樣量化過程來達(dá)到,直至滿足比特碼率限制條件。
在上述系統(tǒng)中,圖10中的全局碼率控制(GRC)系統(tǒng)178通過改變分層碼值的統(tǒng)計(jì)分布來調(diào)節(jié)在量化器層碼與熵表比較相配過程中產(chǎn)生的比特碼率。所有熵表都被假定具有層碼值越大碼字越長(zhǎng)的相似趨向。在這種情況下,平均比特碼率隨著低值編碼層概率的增加而降低,反之亦然。在ADPCM(或APCM)量化過程中,比例因數(shù)的大小決定了分層編碼值的分布或使用。例如,隨著比例因數(shù)尺寸的增加差分采樣值將趨于在較低層上量化,因此代碼值將逐漸變小。這樣又將導(dǎo)致較小的熵代碼字長(zhǎng)和更低的比特碼率。
這種方法的缺點(diǎn)是比例因數(shù)尺寸的增加相應(yīng)地、成比例地提升了子帶采樣中的重構(gòu)噪聲。然而在實(shí)際應(yīng)用中,對(duì)比例因數(shù)的調(diào)節(jié)通常不大于1dB-3dB。如果需要進(jìn)行更大的調(diào)節(jié),則最好是回到比特分配以減少總比特分配,而不應(yīng)冒險(xiǎn)因使用過大的比例因數(shù)而使子帶中可能出現(xiàn)可聽覺的量化噪聲。
為了調(diào)節(jié)熵編碼ADPCM的比特分配,每個(gè)子帶的預(yù)測(cè)歷史采樣值應(yīng)存儲(chǔ)在臨時(shí)緩沖器中,以便ADPCM編碼過程需要重復(fù)的情形。接著,利用從子帶LPC分析推導(dǎo)出的預(yù)測(cè)系數(shù)AH以及比例因數(shù)RMS(或PEAK)、量化器比特分配ABIT、瞬變模式TMODE、和從估計(jì)的差分信號(hào)中推導(dǎo)出的預(yù)測(cè)模式PMODE,所有子帶采樣緩沖器可通過完整的ADPCM過程進(jìn)行編碼。所產(chǎn)生的量化器層代碼被進(jìn)行緩沖并映射到具有最低比特用量的熵可變長(zhǎng)度代碼本上,代碼本大小再次使用比特分配索引值來確定。
隨后,GRC系統(tǒng)對(duì)所有索引值分組分析,對(duì)有相同比特分配索引值的每個(gè)子帶統(tǒng)一計(jì)算使用的比特位數(shù)。例如,當(dāng)ABIT=1時(shí),全局比特管理中的比特分配計(jì)算可以假定每個(gè)子帶采樣為1.4的平均比特碼率(即,最佳層代碼幅值分布假設(shè)時(shí)熵編碼本的平均碼率)。如果所有ABIT=1的子帶的總比特位數(shù)用量大于1.4x(子帶采樣的總數(shù)),那么所有這些子帶的比例因數(shù)都可以增加從而造成比特碼率的下降。調(diào)節(jié)子帶比例因數(shù)的決定最好是留在得到所有ABIT索引值碼率之后。由此,低于比特分配過程中假定碼率的索引值可用來補(bǔ)償那些高于假定比特碼率的索引值。這種評(píng)估過程可在適當(dāng)時(shí)擴(kuò)展應(yīng)用于所有音頻聲道。
為了降低總比特碼率,建議的程序是從超過閾值的最低ABIT索引值比特率開始,增加每個(gè)具有這種比特分配率的子帶的比例因數(shù)。實(shí)際達(dá)到的比特位數(shù)目的減少量是這些子帶原先高于該分配率指定的碼率。如果修正后的比特用量仍然超出允許的最大值,那么下一個(gè)比特用量超出指定值的、較高ABIT索引值子帶中的比例因數(shù)將會(huì)增加。這個(gè)過程持續(xù)進(jìn)行直到修正的比特用量低于最大值為止。
一旦達(dá)到這一目的,就將舊的歷史數(shù)據(jù)裝入預(yù)測(cè)器中,并且對(duì)已經(jīng)修正了比例因數(shù)的那些子帶重復(fù)進(jìn)行ADPCM編碼過程72。此后,將層代碼再次映射至最佳熵代碼本并重新計(jì)算比特用量。如果任何一個(gè)比特用量仍超過指定碼率,那么要進(jìn)一步增加比例因數(shù)并且重復(fù)進(jìn)行上述循環(huán)。
修正比例因數(shù)的方式有兩種。第一種是向解碼器對(duì)每個(gè)ABIT索引值發(fā)送一個(gè)調(diào)整系數(shù)。例如,一個(gè)2-比特字能夠代表0、1、2和3dB的調(diào)整范圍。由于使用相同ABIT索引值的子帶都使用相同的調(diào)整系數(shù),而且只有索引值為1-10可以使用熵編碼,對(duì)于所有子帶來說需要傳送的調(diào)整系數(shù)的最大數(shù)目是10。另一種方法是,通過選擇高量化器層可以改變每個(gè)子帶中的比例因數(shù)。然而,由于比例因數(shù)量化器的步長(zhǎng)分別為1.25和2.5dB,所以其比例因數(shù)的調(diào)節(jié)只限于這些步長(zhǎng)。此外,當(dāng)使用該技術(shù)時(shí),如果啟用熵編碼的話,則需要重新計(jì)算比例因數(shù)的差分編碼及其產(chǎn)生的比特用量。
一般說來,當(dāng)比特率低于所需的碼率時(shí),可以使用同樣的程序來增加比特碼率。在這種情況下,比例因數(shù)將被減小使得差分采樣更好地利用量化器的外高層,并因此而使用熵表中更長(zhǎng)的代碼字。
如果在合理的迭代運(yùn)算次數(shù)之后,比特分配索引值的比特用量不能再降低,或在傳送比例因數(shù)調(diào)節(jié)系數(shù)時(shí)調(diào)節(jié)步長(zhǎng)已經(jīng)達(dá)到極限,那么有兩種可能的修正方法。首先,可以增加那些碼率已在指定范圍內(nèi)的子帶的比例因數(shù)以此降低總比特碼率。另一種方法是,放棄整個(gè)ADPCM編碼過程并重新計(jì)算所有子帶的自適應(yīng)比特分配,這一次使用更少的比特位數(shù)。
數(shù)據(jù)流格式圖10所示的多路復(fù)用器32將每個(gè)聲道的數(shù)據(jù)打包,然后把每個(gè)聲道的打包數(shù)據(jù)多路復(fù)用成輸出幀以形成數(shù)據(jù)流16。打包和多路復(fù)用數(shù)據(jù)的方法,即圖19所示的幀格式186,其設(shè)計(jì)具有下列特性,使得音頻編碼器可以用于廣大范圍的應(yīng)用之中,能擴(kuò)展到更高的采樣頻率,每幀內(nèi)的數(shù)據(jù)量受到限制,播放可以在每個(gè)子子幀中獨(dú)立啟動(dòng)從而減少延遲,以及降低解碼錯(cuò)誤。
如圖所示,單個(gè)幀186(4096個(gè)PCM采樣值/聲道)確立了比特位數(shù)據(jù)流的邊界,它含有足夠信息以適當(dāng)解碼出相應(yīng)音頻塊,該單個(gè)幀由4個(gè)子幀188(1024個(gè)PCM采樣值/聲道)構(gòu)成,而每個(gè)子幀又由4個(gè)子子幀190(256個(gè)PCM采樣值/聲道)構(gòu)成。幀同步字192位于每個(gè)音頻幀的開始。幀頭信息194主要提供與幀186的結(jié)構(gòu)、編碼器產(chǎn)生比特流時(shí)的配置以及各種可選操作特性如嵌入動(dòng)態(tài)范圍控制和時(shí)間碼等有關(guān)的信息??蛇x性的幀頭信息196告知解碼器是否需要下向聲道混音、是否進(jìn)行了動(dòng)態(tài)范圍補(bǔ)償和數(shù)據(jù)流是否包含了輔助數(shù)據(jù)字節(jié)。音頻編碼頭信息198指示編碼器所用的、組裝編碼‘輔助信息’的打包裝置和編碼格式,‘輔助信息’即,比特分配、比例因數(shù)、PMODES、TMODES、代碼本等等。剩余的幀由SUBFS個(gè)連續(xù)音頻子幀188構(gòu)成。
每個(gè)子幀的開始包含了音頻編碼輔助信息200,該信息將壓縮音頻多個(gè)關(guān)鍵編碼系統(tǒng)的相關(guān)信息傳至解碼器。這些信息包括了瞬變檢測(cè)、預(yù)測(cè)編碼、自適應(yīng)比特分配、高頻矢量量化、強(qiáng)度編碼和自適應(yīng)比例運(yùn)算。這些數(shù)據(jù)中的很多是從數(shù)據(jù)流中用以上的音頻編碼頭信息拆包取得的。高頻VQ編碼數(shù)據(jù)列202是由用VQSUB索引值指示的、每高頻子帶為10-比特的索引值組成。低頻效應(yīng)數(shù)據(jù)列204為可選項(xiàng),代表了用于驅(qū)動(dòng)如低音炮揚(yáng)聲器的極低頻率數(shù)據(jù)。
音頻數(shù)據(jù)列206用霍夫曼/固定逆量化器進(jìn)行解碼,并被分成多個(gè)子子幀(SSC),每子子幀為每個(gè)聲道可解出最多是256個(gè)PCM采樣。超采樣頻音頻數(shù)據(jù)列208只有當(dāng)采樣頻率大于48kHz時(shí)才會(huì)存在。為了保持兼容,不能在采樣頻率高于48kHz時(shí)工作的解碼器應(yīng)當(dāng)跳過該音頻數(shù)據(jù)陣列。DSYNC210是用來驗(yàn)證音頻幀中子幀的結(jié)束位置。如果此位置沒有驗(yàn)證,則該子幀中解出的音頻應(yīng)認(rèn)作為不可靠。相應(yīng)結(jié)果要么對(duì)此幀進(jìn)行靜音處理要么重復(fù)前一幀。
子帶解碼器圖20是子帶采樣解碼器18的方框圖。解碼器與編碼器相比相當(dāng)簡(jiǎn)單,而且并不涉及對(duì)重構(gòu)音頻質(zhì)量來說具有基本重要意義的計(jì)算(例如比特分配)。在同步后,拆包器40對(duì)壓縮的音頻數(shù)據(jù)流16進(jìn)行拆包,檢測(cè)并按需糾正因傳輸而引入的錯(cuò)誤,并且把數(shù)據(jù)多路分解為各音頻聲道。子帶差分信號(hào)被重新量化成PCM信號(hào),每個(gè)音頻聲道被進(jìn)行反向?yàn)V波以把信號(hào)轉(zhuǎn)回到時(shí)域。
接收音頻幀和拆包頭信息編碼數(shù)據(jù)流是在編碼器中打包(或成幀)的,它每幀中除了包括真正的音頻碼字本身還包含了附加數(shù)據(jù),用于解碼器同步、誤差檢測(cè)及糾正、音頻編碼狀態(tài)標(biāo)記值和編碼輔助信息。拆包器40檢測(cè)到SYNC字并取出幀尺寸FSIZE。編碼的比特流由連續(xù)的音頻幀組成,每一幀都以32-位(0×7ffe8001)同步字(SYNC)開始。音頻幀的實(shí)際尺寸FSIZE從同步字之后的字節(jié)中取出。這樣便允許程序員設(shè)定一個(gè)‘幀結(jié)束’定時(shí)器以減少軟件運(yùn)算代價(jià)。接著取出NBlks使解碼器能算出音頻窗口尺寸(32(Nblks+1))。這告知解碼器取出什么樣的輔助信息和產(chǎn)生多少重構(gòu)采樣。
幀頭信息字節(jié)組(sync,ftype,surp,nblks,fsize,amode,sfreq,rate,mixt,dynf,dynct,time,auxcnt,lff,hflag)一旦被收到,就可以用里德所羅門校驗(yàn)字節(jié)HCRC來驗(yàn)證最前12個(gè)字節(jié)的有效性。這些程序可在14個(gè)字節(jié)中發(fā)生1個(gè)錯(cuò)誤字節(jié)時(shí)進(jìn)行糾正,或在發(fā)生2個(gè)錯(cuò)誤字節(jié)時(shí)進(jìn)行警示。在完成了錯(cuò)誤校驗(yàn)之后,這些頭信息被用來更新解碼器標(biāo)記值。
位于HCRC之后直至可選信息的部分是頭信息參數(shù)(filts,vernum,chist,pcmr,unspec),可被取出并用來更新解碼器標(biāo)記值。由于這些信息不會(huì)逐幀改變,所以可以用多數(shù)表決方案來補(bǔ)償其比特誤差??蛇x的頭數(shù)據(jù)(times,mcoeff,dcoeff,auxd,ocrc)則可根據(jù)mixct,dynf,time和auxcnt等頭參數(shù)來取出??蛇x數(shù)據(jù)可以使用可選的里德所羅門校驗(yàn)字節(jié)OCRC來驗(yàn)證。
音頻編碼幀中的頭參數(shù)(subfs,subs,chs,vqsub,joinx,thuff,shuff,bhuff,sel5,sel7,sel9,sel13,sel17,sel25,sel33,sel65,sel129,ahcrc)每幀傳輸一次。它們可以使用音頻里德所羅門校驗(yàn)字節(jié)AHCRC來驗(yàn)證。大多數(shù)頭信息相對(duì)于每個(gè)音頻聲道重復(fù),音頻聲道數(shù)由CHS定義。
拆包子幀編碼輔助信息音頻編碼幀被分成多個(gè)子幀(SUBFS)。每個(gè)子幀包含所有正確解出音頻必需的輔助信息(pmode,pvq,tmode,scales,abits,hfreq)而無須參考任何其它子幀。每個(gè)連續(xù)子幀的解碼首先通過拆包其輔助信息。
對(duì)于所有音頻聲道的每一個(gè)有效子帶,一個(gè)1-比特的預(yù)測(cè)模式(PMODE)標(biāo)記值將被傳輸。PMODE標(biāo)記值對(duì)當(dāng)前子幀有效。PMODE=0意味著該子帶的音頻幀中不包含預(yù)測(cè)器系數(shù)。在這種情況下,此頻帶的預(yù)測(cè)器系數(shù)在該子幀的時(shí)段內(nèi)被置零。PMODE=1意味著輔助信息內(nèi)包含了該子帶的預(yù)測(cè)器系數(shù)。在這種情況下,這些預(yù)測(cè)器系數(shù)被取出并在該子幀的時(shí)段內(nèi)被裝入用于其預(yù)測(cè)器中。
對(duì)于pmode數(shù)據(jù)列中的每個(gè)PMODE=1,數(shù)據(jù)列PVQ中含有其相應(yīng)的預(yù)測(cè)系數(shù)VQ地址索引。這些索引值為固定的、無符號(hào)的12-比特整數(shù)字,通過把12-比特整數(shù)映射至矢量表266,可以從查尋表中取出4個(gè)預(yù)測(cè)系數(shù)。
比特分配索引值(ABIT)表示在逆量化器中的層數(shù),逆量化器把子帶音頻代碼轉(zhuǎn)換成絕對(duì)值。每個(gè)音頻聲道中的ABITs其拆包格式各不相同,決定于它的BHUFF索引和具體的VABIT代碼256。
瞬態(tài)模式輔助信息(TMODE)238被用來表示每個(gè)子帶中瞬變?cè)谧訋械奈恢?。每個(gè)子幀被分成1-4個(gè)子子幀。從子帶采樣數(shù)量來說,每個(gè)子子幀由8個(gè)采樣構(gòu)成。最大子幀尺寸是32個(gè)子帶采樣。如果瞬變發(fā)生在第一子子幀內(nèi),則tmode=0。當(dāng)tmode=1時(shí)表示瞬變出現(xiàn)在第二子子幀內(nèi),以此類推。為了控制瞬變失真如預(yù)回波等,TMODE大于零的子幀子帶將傳輸兩個(gè)比例因數(shù)。從音頻頭參數(shù)中取出的THUFF索引值決定了用于解碼TMODEs的方法。當(dāng)THUFF=3時(shí),TMODEs作為無符號(hào)2-比特整數(shù)拆包。
比例因數(shù)索引值的傳輸使每個(gè)子幀內(nèi)的子帶音頻碼可以進(jìn)行適當(dāng)比例運(yùn)算。如果TMODE等于零,則傳輸一個(gè)比例因數(shù)。如果任何子帶的TMODE大于零,那么同時(shí)傳輸兩個(gè)比例因數(shù)。從音頻頭參數(shù)中取出的SHUFF索引值240決定了每個(gè)不同音頻聲道用于解碼SCALES的方法。VDRMSQL索引值確定了RMS比例因數(shù)的值。
在某些模式下,SCALES索引值的拆包需要從五個(gè)129-層帶符號(hào)的霍夫曼逆量化器中選一進(jìn)行。然而,其產(chǎn)生的逆量化索引值仍為差分編碼形式,需按下列方法轉(zhuǎn)換成絕對(duì)值
ABS_SCALE(n+1)=SCALES(n)-SCALES(n+1)其中n是在音頻聲道中從第一子帶開始數(shù)的第n個(gè)差分比例因數(shù)。
在低比特碼率音頻編碼模式下,音頻編碼器利用矢量量化直接對(duì)高頻子帶音頻采樣進(jìn)行有效編碼。這些子帶不使用差分編碼,與正常ADPCM過程有關(guān)的所有數(shù)據(jù)列必須保持置零狀態(tài)。VQSUB表示了用VQ編碼的第一個(gè)子帶,在此之上的、直至SUBS的所有子帶都用這種方式進(jìn)行編碼。
高頻索引值(HFREQ)被拆包248為固定的、10-比特?zé)o符號(hào)整數(shù)。通過應(yīng)用合適的索引值,從Q4分?jǐn)?shù)式二進(jìn)制LUT中可取出每個(gè)子帶子幀所需的32個(gè)采樣。這一過程對(duì)每個(gè)啟用高頻VQ模式的聲道進(jìn)行重復(fù)。
低音效果聲道的抽取因數(shù)總是X128。LFE中的8-比特效果采樣的數(shù)量當(dāng)PSC=0時(shí)可由SSC*2給出,或當(dāng)PSC為非零值時(shí)由(SSC+1)*2給出。LFE數(shù)據(jù)列之后還包含有一附加7比特比例因數(shù)(無符號(hào)整數(shù)),用7-比特LUT可將其轉(zhuǎn)換成rms。
拆包子子幀音頻碼數(shù)據(jù)列子帶音頻碼的抽取過程是通過ABIT索引值來實(shí)現(xiàn)的,且在ABIT<11的情況下還需使用SEL索引值。音頻代碼采用可變長(zhǎng)度的霍夫曼碼或固定的線性代碼進(jìn)行格式。通常,低于或等于10的ABIT索引值意味著采用了霍夫曼可變長(zhǎng)度編碼,其碼本由代碼VQL(n)258選定,而大于10的ABIT總是代表采用了固定長(zhǎng)度碼。所有量化器都具有中點(diǎn)取值、均勻步長(zhǎng)的特性。對(duì)于固定碼(Y2)量化器而言,最低的負(fù)數(shù)量化層被放棄不用。音頻碼被打包成子子幀,每個(gè)子子幀代表了最多為8個(gè)子帶采樣值,且在當(dāng)前子幀中最多可有4個(gè)子子幀。
如果采樣頻率標(biāo)記值(SFREQ)表示的采樣頻率高于48kHz,那么音頻幀中將存在超音頻數(shù)據(jù)陣列。該數(shù)據(jù)列中的頭兩個(gè)字節(jié)將表示超音頻的字節(jié)尺寸。此外,解碼器硬件的采樣頻率應(yīng)根據(jù)具體高頻采樣頻率值設(shè)定成SFREQ/2或SFREQ/4進(jìn)行工作。
拆包同步校驗(yàn)在每個(gè)子幀結(jié)束時(shí),應(yīng)對(duì)數(shù)據(jù)拆包同步校驗(yàn)字DSYNC=0xffff進(jìn)行檢測(cè)以便驗(yàn)證拆包的完好性。如果頭信息參數(shù)、輔助信息或音頻數(shù)據(jù)列因比特錯(cuò)誤而遭到破壞,在輔助信息和音頻碼字中使用可變長(zhǎng)度代碼字節(jié)(即低比特碼率音頻的情形)可能導(dǎo)致拆包數(shù)據(jù)錯(cuò)位。如果拆包指針沒有指向DSYNC的始端,那么可以認(rèn)為前一個(gè)子幀的音頻是不可靠的。
一旦所有的輔助信息和音頻數(shù)據(jù)都進(jìn)行了拆包,解碼器一次一個(gè)子幀地重構(gòu)多通道音頻信號(hào)。圖20示出了用于單個(gè)聲道中單個(gè)子帶的基帶解碼器部分。
重構(gòu)RMS比例因數(shù)解碼器對(duì)ADPCM、VQ和JFC算法重構(gòu)RMS比例因數(shù)(SCALES)。具體來說,VTMODE和THUFF索引值被逆映射以識(shí)別當(dāng)前子幀的瞬態(tài)模式(TMODE)。此后,SHUFF索引值、VDRMSQL代碼和TMODE被逆映射以便重構(gòu)差分RMS編碼。差分RMS編碼被進(jìn)行逆差分編碼242以便選擇RMS碼,RMS碼再被逆量化244以形成RMS比例因數(shù)。
逆量化高頻矢量解碼器對(duì)高頻矢量進(jìn)行逆量化以重構(gòu)子帶音頻信號(hào)。具體是,由起始VQ子帶(VQSUBS)所指示而取出的、有符號(hào)的8-位分?jǐn)?shù)式(Q4)二進(jìn)制數(shù),即高頻采樣(HFREQ),被映射至逆VQ查值表248。選中的表格值被逆量化250,并通過RMS比例因數(shù)進(jìn)行比例運(yùn)算252。
逆量化音頻碼在進(jìn)入ADPCM循環(huán)運(yùn)算之前,音頻碼被進(jìn)行逆量化和比例運(yùn)算以形成重構(gòu)子帶差分采樣。逆量化的實(shí)現(xiàn)首先通過逆映射VABIT和BHUFF索引值,以指定用于確定步長(zhǎng)和量化層數(shù)量的ABIT索引值,同時(shí)逆映射用于產(chǎn)生量化器層代碼QL(n)的SEL索引值和VQL(n)音頻碼。然后,代碼字QL(n)映射到由ABIT和SEL索引值指定的逆量化器查找表260。雖然代碼是按ABIT排列順序,但是每個(gè)不同的音頻聲道都有其不同的SEL值。查找過程將產(chǎn)生帶符號(hào)的量化器層數(shù),它們可通過乘以量化器步長(zhǎng)被轉(zhuǎn)換成單位rms。這些單位rms值然后乘以指定的RMS比例因數(shù)(SCALES)262可以被轉(zhuǎn)換成最后差分采樣值。
1.QL[n]=1/Q[碼[n]],其中1/Q是逆量化器查找表2.Y[n]=QL[n]*步長(zhǎng)[abits]3.Rd[n]=Y(jié)[n]*比例因數(shù),其中Rd=重構(gòu)的差分采樣逆ADPCMADPCM解碼過程按照下列方式對(duì)每個(gè)子帶差分采樣執(zhí)行1.從逆VQ查值表268中裝入預(yù)測(cè)系數(shù)。
2.將當(dāng)前的預(yù)測(cè)器系數(shù)與保留在預(yù)測(cè)器歷史數(shù)據(jù)列268中的前4個(gè)重構(gòu)子帶采樣進(jìn)行卷積運(yùn)算,產(chǎn)生預(yù)測(cè)采樣。
p[n]=sum(Coeff[i]=*R[n-i]),n=當(dāng)前采樣周期,i=1,43.將預(yù)測(cè)采樣與重構(gòu)的差分采樣相加產(chǎn)生重構(gòu)的子帶采樣270。R[n]=Rd[n]+P[n]4.更新預(yù)測(cè)器的歷史,即把當(dāng)前的重構(gòu)子帶采樣值復(fù)制到歷史數(shù)據(jù)列的頂部。
R[n-i]=R[n-i+1],i=4,1在PMODE=0的情況下,預(yù)測(cè)器系數(shù)將為零,預(yù)測(cè)采樣也為零,而且重構(gòu)子帶采樣等于差分子帶采樣。雖然在這種情況下不需要進(jìn)行預(yù)測(cè)計(jì)算,重要的是仍需要保持預(yù)測(cè)器歷史的更新,以便PMODE在將來的子幀中又重新啟用。此外,如果HFLAG在當(dāng)前音頻幀中有效,則應(yīng)在解碼該幀中第一個(gè)子子幀之前清除預(yù)測(cè)器歷史。此點(diǎn)以后的歷史則應(yīng)該照常更新。
對(duì)于高頻VQ子帶或非編碼(即位于SUBS限值以上)子帶來說,預(yù)測(cè)器歷史應(yīng)保持清零狀態(tài),直到其子帶預(yù)測(cè)器被啟用為止。
ADPCM、VQ和JFC解碼的選擇控制第一個(gè)“開關(guān)”控制了ADPCM或VQ輸出的選擇。VQSUBS索引值識(shí)別出VQ編碼的起始子帶。因此,如果當(dāng)前子帶低于VQSUBS,開關(guān)將選擇ADPCM輸出。否則它將選擇VQ輸出。第二個(gè)“開關(guān)”278控制了直接聲道輸出或JFC編碼輸出的選擇。JOINX索引值確定了哪些聲道被聯(lián)合及重構(gòu)信號(hào)是在哪一個(gè)聲道中產(chǎn)生的。重構(gòu)的JFC信號(hào)形成了其它聲道中JFC輸入的強(qiáng)度源。因此,如果當(dāng)前子帶是JFC的一部分而且不是指定聲道,則開關(guān)將選擇JFC輸出。一般情況下開關(guān)選擇聲道輸出。
下混音矩陣數(shù)據(jù)流的音頻編碼模式由AMODE指出。解碼的音頻聲道然后可被重新定向以與解碼器硬件280上的實(shí)際輸出聲道安排相匹配。
動(dòng)態(tài)范圍控制數(shù)據(jù)在編碼階段282,動(dòng)態(tài)范圍系數(shù)DCOEFF可被選擇性地嵌入音頻幀中。這個(gè)特性的目的是便于在解碼器的輸出中實(shí)現(xiàn)音頻動(dòng)態(tài)范圍的壓縮。動(dòng)態(tài)范圍的壓縮對(duì)于某些收聽環(huán)境尤為重要,這些環(huán)境的高環(huán)境噪聲級(jí)使低能量信號(hào)不能被察覺,除非冒著在高音量部分損壞揚(yáng)聲器的危險(xiǎn)。20-比特PCM音頻錄音技術(shù)的日益廣泛應(yīng)用使該問題進(jìn)一步復(fù)雜化,此類錄音具有高達(dá)110dB的動(dòng)態(tài)范圍。
根據(jù)幀的窗口尺寸(NBLKS),無論哪種編碼模式,每個(gè)聲道可傳輸一、二或四個(gè)系數(shù)(DYNF)。如果傳輸單個(gè)系數(shù),則它可用于整個(gè)幀。如果傳輸兩個(gè)系數(shù),則第一個(gè)系數(shù)用于幀的前半部分,而第二個(gè)系數(shù)用于幀的后半部分。四個(gè)系數(shù)則分布在每個(gè)幀的四等份上。更高的時(shí)間分辨率可在本地對(duì)傳輸值進(jìn)行內(nèi)插運(yùn)算達(dá)到。
每個(gè)系數(shù)是8-位帶符號(hào)的分?jǐn)?shù)式Q2二進(jìn)制數(shù),而且代表了如表(53)所示出的對(duì)數(shù)增益值,該表給出范圍為+/-31.75dB,步長(zhǎng)為0.25dB。這些系數(shù)按照聲道數(shù)進(jìn)行排序。動(dòng)態(tài)范圍壓縮通過將解碼音頻采樣乘以這些線性系數(shù)達(dá)到。
解碼器通過適當(dāng)調(diào)節(jié)這些系數(shù)值可以改變壓縮的程度,或可以忽略這些系數(shù)而完全中止動(dòng)態(tài)范圍壓縮。
32-頻帶內(nèi)插濾波器組32-頻帶內(nèi)插濾波器組44將每個(gè)聲道的32個(gè)子帶轉(zhuǎn)換成單個(gè)PCM時(shí)域信號(hào)。當(dāng)FILTS=0時(shí)使用非完全重構(gòu)系數(shù)(512-節(jié)FIR濾波器)。當(dāng)FILTS=1時(shí)使用完全重構(gòu)系數(shù)。通常余弦調(diào)制系數(shù)可預(yù)先計(jì)算并存儲(chǔ)在ROM(只讀存儲(chǔ)器)中。內(nèi)插程序可擴(kuò)展用于重構(gòu)大尺寸數(shù)據(jù)塊以降低循環(huán)程序的代價(jià)。然而,在終止幀的情況下,需要的最小分辨率的是32個(gè)PCM采樣。內(nèi)插算法如下建立余弦調(diào)制系數(shù),將32個(gè)新子帶采樣讀入數(shù)據(jù)列XIN,乘以余弦調(diào)制系數(shù)和建立臨時(shí)數(shù)據(jù)列SUM和DIFF,存儲(chǔ)歷史值,乘以濾波器系數(shù),建立32個(gè)PCM輸出采樣,更新工作數(shù)據(jù)列,和輸出32個(gè)新PCM采樣。
根據(jù)所使用的比特碼率和編碼方案,比特流既可以指定非完全或完全重構(gòu)內(nèi)插濾波器組系數(shù)(FILTS)。由于編碼器抽取濾波器組是用40-比特浮點(diǎn)精度來計(jì)算的,所以編碼器達(dá)到最大理論重構(gòu)精度的能力取決于源PCM字長(zhǎng)和DSP核心用于計(jì)算卷積的精度以及操作中比例運(yùn)算的方式。
低頻率效果PCM內(nèi)插與低頻效果聲道相關(guān)的音頻數(shù)據(jù)獨(dú)立于主音頻聲道。該聲道是用8-比特APCM過程對(duì)X128抽取的(120Hz帶寬)20-比特PCM輸入進(jìn)行編碼。抽取的效果音頻在時(shí)間上需與主音頻聲道的當(dāng)前子幀音頻對(duì)齊。因此,由于所有32-頻帶內(nèi)插濾波器組的延遲是256個(gè)采樣(512-節(jié)),所以必須注意確保內(nèi)插的低頻效果聲道在輸出前也與其它音頻聲道對(duì)齊。如果效果內(nèi)插FIR也是512節(jié),則不需要進(jìn)行補(bǔ)償。
LFT算法使用512節(jié)的128X內(nèi)插FIR進(jìn)行如下操作把7-比特比例因數(shù)映射成rms,乘以7-比特量化器的步長(zhǎng),由歸一化值產(chǎn)生子采樣值,以及利用低通濾波器進(jìn)行內(nèi)插128,例如為每個(gè)子采樣設(shè)置的那樣。
硬件實(shí)現(xiàn)圖21和22描述了一個(gè)6聲(通)道編碼器和解碼器硬件實(shí)現(xiàn)的基本功能結(jié)構(gòu),它可在32、44.1和48kHz等采樣頻率進(jìn)行操作。參照?qǐng)D22,八個(gè)模擬器件公司的ADSP21020 40-比特浮點(diǎn)數(shù)字信號(hào)處理器(DSP)芯片296被用來實(shí)現(xiàn)一個(gè)6聲道數(shù)字音頻編碼器298。六個(gè)DSPs中每個(gè)被用來對(duì)所有聲道的其中之一進(jìn)行編碼,第七和第八個(gè)DSP則用來分別實(shí)現(xiàn)“全局比特分配與管理”和“數(shù)據(jù)流格式化及誤差編碼”功能。每個(gè)ADSP21020以33MHz的時(shí)鐘驅(qū)動(dòng),并使用外接的(48比特X32k)程序讀寫存儲(chǔ)器(PRAM)300,(40比特X32k)數(shù)據(jù)讀寫存儲(chǔ)器(SRAM)302進(jìn)行算法運(yùn)算。在編碼器情況下,還用了(8比特X512k)的EPROM 304來存儲(chǔ)固定常數(shù),例如可變長(zhǎng)度的熵代碼本。用于數(shù)據(jù)流格式化的DSP使用了里德所羅門CRC(循環(huán)冗余校驗(yàn))芯片306以使解碼器可以進(jìn)行檢錯(cuò)與糾錯(cuò)操作。編碼器DSPs和全局比特分配及管理之間的信息交流是通過雙端口靜態(tài)讀寫存儲(chǔ)器(RAM)308實(shí)現(xiàn)的。
編碼處理的流程如下。三個(gè)AES/EBU數(shù)字音頻接收器的任意之一可輸出一個(gè)2-聲道數(shù)字音頻PCM數(shù)據(jù)流310。這些雙聲道數(shù)據(jù)流中的第一聲道分別導(dǎo)向CH1、3和5編碼器DPSs,其第二聲道分別導(dǎo)向CH2、4和6。串行PCM字被轉(zhuǎn)換成并行(s/p)以將PCM采樣讀入DSPs。如前所述,每個(gè)編碼器累積一幀PCM采樣然后對(duì)此幀數(shù)據(jù)進(jìn)行編碼。每個(gè)聲道中有關(guān)估計(jì)差分信號(hào)(ed(n))和子帶采樣(x(n))的信息通過雙端口RAM傳輸?shù)饺直忍胤峙浜凸芾鞤SP中。然后用同樣的方式讀回每個(gè)編碼器的比特分配策略。編碼過程完成之后,6個(gè)聲道的編碼數(shù)據(jù)和輔助信息通過全局比特分配和管理DSP傳至數(shù)據(jù)流格式化DSP中。在這一階段,CRC校驗(yàn)字節(jié)可被選擇性地產(chǎn)生并加到編碼數(shù)據(jù)中以便在解碼器中提供誤差保護(hù)。最后,整個(gè)數(shù)據(jù)包16被組裝輸出。
圖22描述了一個(gè)6聲道解碼器的硬件實(shí)現(xiàn)。單個(gè)模擬器件公司的ADSP21020 40-比特浮點(diǎn)數(shù)字信號(hào)處理器(DSP)芯片324被用來實(shí)現(xiàn)6聲道數(shù)字音頻解碼器。此ADSP21020以33MHz的時(shí)鐘驅(qū)動(dòng),并使用外接的(48比特X32k)程序讀寫存儲(chǔ)器(PRAM)326,(40比特X32k)數(shù)據(jù)讀寫存儲(chǔ)器(SRAM)328進(jìn)運(yùn)行解碼算法。此外還用了附加的(8比特X512k)EPROM330來存儲(chǔ)諸如可變長(zhǎng)度熵和預(yù)測(cè)系數(shù)矢量代碼本等固定常數(shù)。
解碼過程的流程如下。壓縮數(shù)據(jù)流16通過串行/并行轉(zhuǎn)換器(s/p)332被輸入到DSP。數(shù)據(jù)如前面所述被進(jìn)行拆包和解碼。每個(gè)通道的子帶采樣被重構(gòu)成單個(gè)PCM數(shù)據(jù)流22并通過三個(gè)并行/串行轉(zhuǎn)換器(p/s)335輸出到三個(gè)AES/EBU數(shù)字音頻輸出芯片334中。
以上顯示和描述了本發(fā)明的幾個(gè)說明性實(shí)施例,但是對(duì)于那些熟悉本領(lǐng)域的技術(shù)人員來說可以做出大量改變和替換的實(shí)施例。例如,隨著處理器速度的增加和存儲(chǔ)器成本的降低,采樣頻率、傳輸率和緩沖器尺寸很可能增加。這些變動(dòng)的和替換的實(shí)施例可以被預(yù)想和實(shí)現(xiàn),但并沒有脫離本發(fā)明如修正要求書中所定義構(gòu)思和范圍。
權(quán)利要求
1.一種多通道音頻編碼器,包含取幀器(64),其向以某一采樣率采樣的多通道音頻信號(hào)的每個(gè)通道應(yīng)用音頻窗口以產(chǎn)生相應(yīng)的音頻幀序列;多個(gè)濾波器(34),其在基帶頻率范圍內(nèi)把各通道的音頻幀分成相應(yīng)的多個(gè)頻率子帶,所述頻率子帶中的每一個(gè)包含有子帶幀序列,在每個(gè)子帶幀中具有至少一個(gè)音頻數(shù)據(jù)子幀;全局比特管理器(GBM)(30),其為每個(gè)子幀計(jì)算心理聲學(xué)信號(hào)-掩蔽比值(SMR)和估計(jì)的預(yù)測(cè)增益(Pgain),通過將信號(hào)-掩蔽比值減小其相關(guān)預(yù)測(cè)增益的相應(yīng)部分來計(jì)算掩蔽-噪聲比值(MNR),分配比特使之滿足每個(gè)掩蔽-噪聲比值,計(jì)算所述子帶上的分配比特率,和調(diào)節(jié)各個(gè)分配值以使得分配的比特率近似等于目標(biāo)比特率;多個(gè)子帶編碼器(26),其根據(jù)比特分配值一次一個(gè)子幀地對(duì)其相應(yīng)的頻率子帶中的音頻數(shù)據(jù)進(jìn)行編碼以產(chǎn)生經(jīng)編碼的子帶信號(hào);以及多路復(fù)用器(32),其針對(duì)每個(gè)連續(xù)數(shù)據(jù)幀將經(jīng)編碼的子帶信號(hào)和比特分配值打包和多路復(fù)用成輸出幀,由此形成具有某一傳輸率的數(shù)據(jù)流。
2.如權(quán)利要求1所述的多通道音頻編碼器,其中當(dāng)分配的比特率低于目標(biāo)比特率時(shí),全局比特管理器(30)根據(jù)最小均方差(mmse)方案分配剩余的比特。
3.如權(quán)利要求1所述的多通道音頻編碼器,其中全局比特管理器(30)為每個(gè)子幀計(jì)算均方根(RMS)值,并且在分配的比特率低于目標(biāo)比特率時(shí),全局比特管理器根據(jù)應(yīng)用于均方根值的最小均方差方案重新分配所有的可用比特,直到分配的比特率接近目標(biāo)比特率。
4.如權(quán)利要求1所述的多通道音頻編碼器,其中全局比特管理器(30)為每個(gè)子幀計(jì)算均方根(RMS)值,并且根據(jù)應(yīng)用于均方根值的最小均方差方案分配所有的剩余比特,直到分配的比特率接近目標(biāo)比特率。
5.如權(quán)利要求1所述的多通道音頻編碼器,其中全局比特管理器(30)為每個(gè)子幀計(jì)算均方根(RMS)值,并且根據(jù)應(yīng)用于子幀的均方根和掩蔽-噪聲比值之差的最小均方差方案分配所有的剩余比特,直到分配的比特率接近目標(biāo)比特率。
6.如權(quán)利要求1所述的多通道音頻編碼器,其中全局比特管理器(30)將信號(hào)-掩蔽比值設(shè)定為一個(gè)統(tǒng)一值,以便根據(jù)最小均方差(mmse)方案分配所述比特。
7.一種多通道音頻編碼器,包括取幀器,其向以某一采樣率采樣的多通道音頻信號(hào)的每個(gè)通道應(yīng)用音頻窗口以產(chǎn)生相應(yīng)的音頻幀序列;多個(gè)濾波器,其在基帶頻率范圍內(nèi)把各通道的連續(xù)數(shù)據(jù)幀分成相應(yīng)的多個(gè)頻率子帶,所述頻率子帶中的每一個(gè)包含有子帶幀序列,在每個(gè)子帶幀中具有至少一個(gè)音頻數(shù)據(jù)子幀;多個(gè)預(yù)測(cè)子帶編碼器,分別包括預(yù)測(cè)器和量化器,它們?yōu)槊總€(gè)子幀產(chǎn)生一個(gè)差信號(hào)并編碼該差信號(hào),以便產(chǎn)生經(jīng)編碼的子帶信號(hào);分析器,其將音頻窗口中的每個(gè)子幀分成多個(gè)子子幀,創(chuàng)建估計(jì)的差信號(hào),在每個(gè)子子幀中檢測(cè)估計(jì)的差信號(hào)中的瞬變,產(chǎn)生瞬變代碼以指出是否在除第一子子幀之外的任何其它子子幀內(nèi)存在有瞬變以及瞬變出現(xiàn)在哪個(gè)子子幀內(nèi),以及在檢測(cè)到瞬變時(shí),為該瞬變之前的那些子子幀產(chǎn)生一個(gè)預(yù)瞬變比例因數(shù),并且為包括該瞬變和該瞬變之后的那些子子幀產(chǎn)生一個(gè)后瞬變比例因數(shù),否則,為該子幀產(chǎn)生一個(gè)統(tǒng)一比例因數(shù),所述分析器還基于每個(gè)子幀中的瞬變檢測(cè)為音頻窗口計(jì)算瞬變含量;全局比特管理器(GBM),其利用心理聲學(xué)分配方案將編碼比特分配給音頻窗口中的每個(gè)子幀,所述全局比特管理器向每個(gè)通道的數(shù)據(jù)幀應(yīng)用感知分析窗口,以便在瞬變含量低時(shí)為與該音頻窗口相關(guān)的每個(gè)子幀計(jì)算信號(hào)-掩蔽比值(SMR)并基于信號(hào)-掩蔽比值分配比特,而當(dāng)瞬變含量超過瞬變閾值時(shí),全局比特管理器禁用所述心理聲學(xué)分配方案并利用音頻窗口上的最小均方差(mmse)例程為所有子幀分配比特,所述全局比特管理器基于從音頻數(shù)據(jù)中產(chǎn)生的估計(jì)的差信號(hào)以所述心理聲學(xué)分配方案和所述最小均方差例程分配編碼比特,所述預(yù)測(cè)子帶編碼器利用所述預(yù)瞬變因數(shù)、后瞬變因數(shù)和統(tǒng)一比例因數(shù)對(duì)所述子幀的各個(gè)部分內(nèi)的差信號(hào)進(jìn)行比例運(yùn)算以降低對(duì)應(yīng)于預(yù)瞬變比例因數(shù)的子子幀中的編碼誤差,以及多路復(fù)用器,其針對(duì)每個(gè)連續(xù)數(shù)據(jù)幀將經(jīng)編碼的子帶信號(hào)和瞬變代碼打包和多路復(fù)用成輸出幀,由此形成具有某一傳輸率的數(shù)據(jù)流。
8.如權(quán)利要求7所述的多通道音頻編碼器,其中預(yù)測(cè)子帶編碼器編碼較低頻率子帶,還包括矢量量化器,其編碼較高頻率子帶,所述全局比特管理器將信號(hào)-掩蔽比值低于心理聲學(xué)閾值且其頻率高于頻率閾值的那些子帶分配給矢量量化器。
9.一種多通道音頻編碼器,以已知比特率編碼多通道音頻信號(hào),包括取幀器,其向以某一采樣率采樣的多通道音頻信號(hào)的每個(gè)通道應(yīng)用音頻窗口以產(chǎn)生相應(yīng)的音頻幀序列;多個(gè)濾波器,分別包括非完全和完全重構(gòu)濾波器,在已知比特率分別低于和高于閾值比特率時(shí),在基帶頻率范圍內(nèi)把音頻幀分成相應(yīng)的多個(gè)頻率子帶,所述頻率子帶中的每一個(gè)包含有子帶幀序列,在每個(gè)子帶幀中具有至少一個(gè)音頻數(shù)據(jù)子幀;多個(gè)子帶編碼器,一次一個(gè)子幀地將相應(yīng)頻帶中的音頻數(shù)據(jù)編碼為經(jīng)編碼的子帶信號(hào);以及多路復(fù)用器,其針對(duì)每個(gè)連續(xù)數(shù)據(jù)幀將經(jīng)編碼的子帶信號(hào)和濾波器選擇碼打包和多路復(fù)用成輸出幀,由此形成具有某一傳輸率的數(shù)據(jù)流。
10.一種多通道音頻編碼器,包含取幀器,其向以某一采樣率采樣的多通道音頻信號(hào)的每個(gè)通道應(yīng)用音頻窗口以產(chǎn)生相應(yīng)的音頻幀序列;多個(gè)濾波器,其在基帶頻率范圍內(nèi)把各通道的音頻幀分成相應(yīng)的多個(gè)頻率子帶,所述頻率子帶中的每一個(gè)包含有子帶幀序列,在每個(gè)子帶幀中具有至少一個(gè)音頻數(shù)據(jù)子幀;全局比特管理器(GBM),其基于音頻數(shù)據(jù)和預(yù)測(cè)信號(hào)之差為每個(gè)子幀計(jì)算心理聲學(xué)信號(hào)-掩蔽比值(SMR)和估計(jì)的預(yù)測(cè)增益(Pgain),通過將信號(hào)-掩蔽比值減小其相關(guān)預(yù)測(cè)增益的相應(yīng)部分來計(jì)算掩蔽-噪聲比值(MNR),分配比特使之滿足每個(gè)掩蔽-噪聲比值,計(jì)算所述子帶上的分配比特率,并調(diào)節(jié)各個(gè)分配值以使得分配的比特率近似等于目標(biāo)比特率;多個(gè)預(yù)測(cè)子帶編碼器,其根據(jù)比特分配值一次一個(gè)子幀地產(chǎn)生并編碼相應(yīng)頻率子帶中的差信號(hào)以產(chǎn)生經(jīng)編碼的子帶信號(hào);以及多路復(fù)用器,其針對(duì)每個(gè)連續(xù)數(shù)據(jù)幀將經(jīng)編碼的子帶信號(hào)和比特分配值打包和多路復(fù)用成輸出幀,由此形成具有某一傳輸率的數(shù)據(jù)流。
11.如權(quán)利要求10所述的多通道編碼器,其中所述全局比特管理器將感知分析窗口應(yīng)用到通道的音頻幀以計(jì)算信號(hào)-掩蔽比值,還包括分析器,其將每個(gè)子幀分成多個(gè)子子幀,創(chuàng)建估計(jì)的差信號(hào),在每個(gè)子子幀中檢測(cè)估計(jì)的差信號(hào)中的瞬變,產(chǎn)生瞬變代碼以指出是否在除第一子子幀之外的任何其它子子幀內(nèi)存在有瞬變以及瞬變出現(xiàn)在哪個(gè)子子幀內(nèi),以及在檢測(cè)到瞬變時(shí),為該瞬變之前的那些子子幀產(chǎn)生一個(gè)預(yù)瞬變比例因數(shù),并且為包括該瞬變和該瞬變之后的那些子子幀產(chǎn)生一個(gè)后瞬變比例因數(shù),否則,為該子幀產(chǎn)生一個(gè)統(tǒng)一比例因數(shù),所述分析器還基于每個(gè)子幀中的瞬變檢測(cè)為音頻窗口計(jì)算瞬變含量,當(dāng)瞬變含量高于瞬變閾值時(shí),所述全局比特管理器禁用心理聲學(xué)分配方案并利用音頻窗口上的最小均方差(mmse)例程為所有子幀分配比特,所述預(yù)測(cè)子帶編碼器利用所述預(yù)瞬變因數(shù)、后瞬變因數(shù)和統(tǒng)一比例因數(shù)對(duì)所述子幀中的差信號(hào)的各個(gè)部分進(jìn)行比例運(yùn)算以降低對(duì)應(yīng)于預(yù)瞬變比例因數(shù)的子子幀中的編碼誤差。
12.如權(quán)利要求11所述的多通道音頻編碼器,其中預(yù)測(cè)子帶編碼器編碼較低頻率子帶,還包括矢量量化器,其編碼較高頻率子帶,所述全局比特管理器將信號(hào)-掩蔽比值低于心理聲學(xué)閾值且其頻率高于頻率閾值的那些子帶分配給矢量量化器。
13.一種多通道音頻編碼器,包括取幀器,其向以某一采樣率采樣的多通道音頻信號(hào)的每個(gè)通道應(yīng)用音頻窗口以產(chǎn)生相應(yīng)的音頻幀序列;多個(gè)濾波器,在基帶頻率范圍內(nèi)把通道的數(shù)據(jù)幀分成相應(yīng)的多個(gè)頻率子帶,所述頻率子帶中的每一個(gè)包含有子帶幀序列,在每個(gè)子帶幀中具有至少一個(gè)音頻數(shù)據(jù)子幀;全局比特管理器(GBM),其基于音頻數(shù)據(jù)和預(yù)測(cè)信號(hào)之差為每個(gè)子幀計(jì)算心理聲學(xué)信號(hào)-屏蔽比值(SMR),分配比特以滿足每個(gè)信號(hào)-掩蔽比值,在子帶上計(jì)算分配的比特率,并且在分配的比特率低于目標(biāo)比特率時(shí),利用最小均方差(mmse)例程來分配剩余比特;多個(gè)預(yù)測(cè)子帶編碼器,根據(jù)比特分配值一次一個(gè)子幀地生成并編碼相應(yīng)頻帶中的差信號(hào)以產(chǎn)生經(jīng)編碼的子帶信號(hào);以及多路復(fù)用器,其針對(duì)每個(gè)連續(xù)數(shù)據(jù)幀將經(jīng)編碼的子帶信號(hào)和比特分配值打包和多路復(fù)用成輸出幀,由此形成具有某一傳輸率的數(shù)據(jù)流。
14.如權(quán)利要求13所述的多通道音頻編碼器,其中全局比特管理器為每個(gè)子幀計(jì)算均方根(RMS)值,并且根據(jù)應(yīng)用于均方根值的最小均方差方案分配剩余比特,直到分配的比特率接近目標(biāo)比特率。
15.如權(quán)利要求13所述的多通道音頻編碼器,其中全局比特管理器為每個(gè)子幀計(jì)算均方根(RMS)值,并且根據(jù)應(yīng)用于子幀的均方根值和信號(hào)-掩蔽比值之差的最小均方差方案分配剩余比特,直到分配的比特率接近目標(biāo)比特率。
16.一種多通道固定失真可變速率音頻編碼器,包括可編程控制器,用于選擇固定的感知失真和固定的最小均方差(mmse)失真之一;取幀器,其向以某一采樣率采樣的多通道音頻信號(hào)的每個(gè)通道應(yīng)用音頻窗口以產(chǎn)生相應(yīng)的音頻幀序列;多個(gè)濾波器,在基帶頻率范圍內(nèi)把通道的數(shù)據(jù)幀分成相應(yīng)的多個(gè)頻率子帶,所述頻率子帶中的每一個(gè)包含有子帶幀序列,在每個(gè)子帶幀中具有至少一個(gè)音頻數(shù)據(jù)子幀;全局比特管理器(GBM),其通過從相關(guān)最小均方差方案和心理聲學(xué)方案中進(jìn)行選擇響應(yīng)上述失真選擇,該相關(guān)最小均方差方案基于音頻數(shù)據(jù)和預(yù)測(cè)信號(hào)之差為每個(gè)子幀計(jì)算均方根(RMS)值并基于該均方根值分配比特到子幀,直到固定的最小均方差失真被滿足,而該心理聲學(xué)方案基于音頻數(shù)據(jù)和預(yù)測(cè)信號(hào)之差為每個(gè)子幀計(jì)算信號(hào)-屏蔽比值(SMR)和估計(jì)的預(yù)測(cè)增益(Pgain),通過減小信號(hào)-掩蔽比值其相關(guān)預(yù)測(cè)增益的相應(yīng)部分來計(jì)算屏蔽-噪聲比值(MNR),并分配比特以滿足每個(gè)掩蔽-噪聲比值;多個(gè)預(yù)測(cè)子帶編碼器,根據(jù)比特分配值一次一個(gè)子幀地編碼從相應(yīng)頻帶中的音頻數(shù)據(jù)導(dǎo)出的差信號(hào)以產(chǎn)生經(jīng)編碼的子帶信號(hào);以及多路復(fù)用器,其針對(duì)每個(gè)連續(xù)數(shù)據(jù)幀將經(jīng)編碼的子帶信號(hào)和比特分配值打包和多路復(fù)用成輸出幀,由此形成具有某一傳輸率的數(shù)據(jù)流。
17.一種對(duì)以某一采樣率采樣的多通道音頻信號(hào)進(jìn)行編碼的方法,包括應(yīng)用音頻窗口到多通道音頻信號(hào)的每個(gè)通道以產(chǎn)生相應(yīng)的音頻幀序列;在基帶頻率范圍內(nèi)將通道的基帶幀分成相應(yīng)的多個(gè)頻率子帶,所述頻率子帶中的每一個(gè)包含子帶幀的序列,每個(gè)子帶幀具有至少一個(gè)音頻數(shù)據(jù)子幀,其中每個(gè)子幀包括至少一個(gè)子子幀;一次一個(gè)子幀地將相頻率子帶中的音頻數(shù)據(jù)編碼成經(jīng)編碼的子帶信號(hào);針對(duì)每個(gè)連續(xù)音頻幀將經(jīng)編碼的子帶信號(hào)多路復(fù)用成輸出幀以產(chǎn)生具有某個(gè)傳輸率的數(shù)據(jù)流,其中音頻窗口的大小根據(jù)傳輸率與采樣率的比值設(shè)定以便使得所述輸出幀的大小被限制在期望的范圍內(nèi),所述輸出幀的大小、子幀的數(shù)量以及子子幀的數(shù)量為多路復(fù)用為所述輸出幀。
18.如權(quán)利要求17所述的方法,其中經(jīng)編碼的子帶信號(hào)一次一個(gè)子幀地被打包為輸出幀,其中它們自己的輔助信息包括位分配值,使得每個(gè)連續(xù)子幀不用參考任何其它子幀就可解碼。
19.如權(quán)利要求17所述的方法,其中多路復(fù)用步驟將子幀結(jié)束碼插在每個(gè)子幀的末尾以提供差錯(cuò)校驗(yàn)。
20.如權(quán)利要求17的方法,其中編碼頻率子帶的步驟包括將每個(gè)子幀分成多個(gè)子子幀;為該子幀產(chǎn)生估計(jì)的差信號(hào);在估計(jì)的差信號(hào)的每個(gè)子子幀中檢測(cè)瞬變;產(chǎn)生瞬變代碼以指出是否在除第一子子幀之外的任何其它子子幀內(nèi)存在有瞬變以及瞬變出現(xiàn)在哪個(gè)子子幀內(nèi);在檢測(cè)到瞬變時(shí),為該瞬變之前的那些子子幀產(chǎn)生一個(gè)預(yù)瞬變比例因數(shù),并且為包括該瞬變和該瞬變之后的那些子子幀產(chǎn)生一個(gè)后瞬變比例因數(shù),否則,為該子幀產(chǎn)生一個(gè)統(tǒng)一比例因數(shù);為當(dāng)前子幀產(chǎn)生差信號(hào);根據(jù)預(yù)瞬變因數(shù)、后瞬變因數(shù)以及統(tǒng)一比例因數(shù)對(duì)差信號(hào)進(jìn)行比例運(yùn)算;以及在當(dāng)前子幀上以固定比特率量化經(jīng)比例運(yùn)算的差信號(hào)。
21.一種對(duì)以某一采樣率采樣的多通道音頻信號(hào)進(jìn)行編碼的方法,包括應(yīng)用音頻窗口到多通道音頻信號(hào)的每個(gè)通道以產(chǎn)生相應(yīng)的音頻幀序列;將通道的各幀分成相應(yīng)的多個(gè)頻率子帶,所述頻率子帶中的每一個(gè)包含子帶幀的序列,每個(gè)子帶幀具有至少一個(gè)音頻數(shù)據(jù)子幀,其中每個(gè)子幀包括至少一個(gè)子子幀;一次一個(gè)子幀地將相應(yīng)頻帶中的音頻數(shù)據(jù)編碼成經(jīng)編碼的子帶信號(hào);針對(duì)每個(gè)連續(xù)數(shù)據(jù)幀將經(jīng)編碼的子帶信號(hào)多路復(fù)用成輸出幀以產(chǎn)生具有某個(gè)傳輸率的數(shù)據(jù)流,音頻窗口的大小根據(jù)傳輸率與采樣率的比值設(shè)定,使得所述輸出幀的大小被限制在期望的范圍內(nèi);以及多路復(fù)用所述輸出幀的大小,子幀的數(shù)量以及被多路復(fù)用的子子幀的數(shù)量為所述輸出幀。
22.一種對(duì)以某一采樣率采樣的多通道音頻信號(hào)進(jìn)行編碼的方法,包括向多通道音頻信號(hào)的每個(gè)通道應(yīng)用音頻窗口以產(chǎn)生相應(yīng)的音頻幀序列;在基帶頻率范圍內(nèi)將通道的數(shù)據(jù)幀分成相應(yīng)的多個(gè)頻率子帶,所述頻率子帶中的每一個(gè)包含子帶幀的序列,每個(gè)子帶幀具有至少一個(gè)音頻數(shù)據(jù)子幀;通過以下步驟為音頻窗口中的子幀產(chǎn)生比特分配值針對(duì)每個(gè)子幀從所述音頻數(shù)據(jù)中產(chǎn)生估計(jì)的差信號(hào);基于所述估計(jì)的差信號(hào)為每個(gè)子幀計(jì)算心理聲學(xué)信號(hào)-屏蔽比值(SMR);分配比特以滿足每個(gè)子幀的信號(hào)-掩蔽比值;為所有子幀計(jì)算分配的比特率;以及當(dāng)分配的比特率低于目標(biāo)比特率時(shí),根據(jù)最小均方差(mmse)方案為子幀分配剩余比特;利用預(yù)測(cè)編碼根據(jù)所述比特分配值一次一個(gè)子幀地編碼從相應(yīng)頻率子帶中的音頻數(shù)據(jù)導(dǎo)出的差信號(hào)以產(chǎn)生經(jīng)編碼的子帶信號(hào);以及對(duì)于每個(gè)連續(xù)數(shù)據(jù)幀多路復(fù)用經(jīng)編碼的子帶信號(hào)為輸出幀,以產(chǎn)生具有某個(gè)傳輸率的數(shù)據(jù)流。
23.如權(quán)利要求22所述的方法,其中利用預(yù)測(cè)編碼器編碼頻率子帶,所述產(chǎn)生比特分配值的步驟還包括為每個(gè)子幀計(jì)算估計(jì)的預(yù)測(cè)增益;以及將信號(hào)-掩蔽比值減小其相關(guān)的估計(jì)的預(yù)測(cè)增益的相應(yīng)部分。
24.如權(quán)利要求22所述的方法,其中分配剩余比特的步驟包括為每個(gè)子幀計(jì)算均方根(RMS)值;根據(jù)應(yīng)用于均方根值的最小均方差方案分配所有的可用比特,直到分配的比特率接近目標(biāo)比特率。
25.如權(quán)利要求22所述的方法,其中分配剩余比特的步驟包括為每個(gè)子幀計(jì)算均方根(RMS)值;根據(jù)應(yīng)用于均方根值的最小均方差方案分配所有的剩余比特,直到分配的比特率接近目標(biāo)比特率。
26.如權(quán)利要求22所述的方法,其中分配剩余比特的步驟包括為每個(gè)子幀計(jì)算均方根(RMS)值;根據(jù)應(yīng)用于子幀的均方根值和信號(hào)-掩蔽比值之差的最小均方差方案分配所有的剩余比特,直到分配的比特率接近目標(biāo)比特率。
27.一種多通道音頻編碼器,包括取幀器,其向以某一采樣率采樣的多通道音頻信號(hào)的每個(gè)通道應(yīng)用音頻窗口以產(chǎn)生相應(yīng)的音頻幀序列;多個(gè)濾波器;其在基帶頻率范圍內(nèi)將各通道的數(shù)據(jù)幀分成相應(yīng)的多個(gè)頻率子帶,所述頻率子帶的每一個(gè)包含子帶幀序列,每個(gè)子帶幀具有至少一個(gè)音頻數(shù)據(jù)子幀;分析器,其產(chǎn)生估計(jì)的誤差信號(hào),從該誤差信號(hào)為每個(gè)子幀計(jì)算預(yù)測(cè)增益;多個(gè)子帶編碼器,其將相應(yīng)通道的頻率子帶中的音頻數(shù)據(jù)編碼為經(jīng)編碼的子帶信號(hào),每個(gè)子帶編碼器包括編碼較低頻率子帶的多個(gè)自適應(yīng)差分脈沖編碼調(diào)制(ADPCM)編碼器,所述ADPCM編碼器的預(yù)測(cè)能力在它們相應(yīng)的預(yù)測(cè)增益低于閾值增益時(shí)被禁用,從而形成編碼較低頻率子帶的自適應(yīng)脈沖編碼調(diào)制(APCM)編碼器;和編碼較高頻帶的多個(gè)矢量量化器(VQ);以及多路復(fù)用器,其針對(duì)每個(gè)連續(xù)數(shù)據(jù)幀將經(jīng)編碼的子帶信號(hào)打包和多路復(fù)用為輸出幀,從而形成具有某個(gè)傳輸率的數(shù)據(jù)流。
28.如權(quán)利要求27所述的多通道音頻編碼器,其中矢量量化器編碼高于閾值頻率的所有子帶。
29.如權(quán)利要求27所述的多通道音頻編碼器,其中所述基帶頻率范圍具有最大頻率,所述多通道音頻編碼器還包括預(yù)濾波器,其將每個(gè)所述音頻幀分成在基帶頻率范圍內(nèi)的頻率處的基帶信號(hào)和在最高頻率之上的高采樣率信號(hào);以及高采樣率編碼器,其將音頻通道的高采樣率信號(hào)編碼為相應(yīng)的經(jīng)編碼的高采樣率信號(hào),所述多路復(fù)用器將各通道的經(jīng)編碼的高采樣率信號(hào)打包成相應(yīng)的輸出幀,使得多通道音頻信號(hào)的基帶和高采樣率部分可獨(dú)立解碼。
30.如權(quán)利要求27所述的多通道音頻編碼器,其中多通道音頻信號(hào)以目標(biāo)比特率編碼,該多通道音頻編碼器還包括全局比特管理器(GBM),其為每個(gè)子幀計(jì)算心理聲學(xué)信號(hào)-屏蔽比值(SMR),并且在啟用ADPCM編碼器時(shí),利用信號(hào)-掩蔽比值相關(guān)的預(yù)測(cè)增益的相應(yīng)部分修正信號(hào)-掩蔽比值,分配比特以滿足每個(gè)信號(hào)-掩蔽比值,計(jì)算整個(gè)子帶內(nèi)的分配的比特率,以及調(diào)整各個(gè)分配值,使得實(shí)際比特率接近目標(biāo)比特率。
31.如權(quán)利要求30所述的多通道音頻編碼器,其中子帶編碼器將每個(gè)子幀分成多個(gè)子子幀,該多通道音頻編碼器還包括分析器,其在啟用ADPCM編碼器時(shí)在每個(gè)子子幀中檢測(cè)估計(jì)的誤差信號(hào)中的瞬變,以及在啟用APCM編碼器時(shí)檢測(cè)音頻數(shù)據(jù)中的瞬變;產(chǎn)生瞬變代碼以指出是否在除第一子子幀之外的任何其它子子幀內(nèi)存在有瞬變以及瞬變出現(xiàn)在哪個(gè)子子幀內(nèi),以及在檢測(cè)到瞬變時(shí),為該瞬變之前的那些子子幀產(chǎn)生一個(gè)預(yù)瞬變比例因數(shù),并且為包括該瞬變和該瞬變之后的那些子子幀產(chǎn)生一個(gè)后瞬變比例因數(shù),否則,為該子幀產(chǎn)生一個(gè)統(tǒng)一比例因數(shù),在進(jìn)行編碼以降低對(duì)應(yīng)于預(yù)瞬變比例因數(shù)的子子幀中的編碼誤差之前,所述ADPCM和APCM編碼器分別利用所述預(yù)瞬變、后瞬變和統(tǒng)一比例因數(shù)對(duì)誤差信號(hào)和音頻數(shù)據(jù)進(jìn)行比例運(yùn)算。
全文摘要
一種子帶聲編碼器(12)采用了完全/非完全重構(gòu)濾波器(34)、預(yù)測(cè)/非預(yù)測(cè)子帶編碼(72)、瞬變分析器(106)、和心理聲學(xué)/最小均方差(mmse)相對(duì)時(shí)間的位分配(30)、頻率以及多聲道對(duì)數(shù)據(jù)流進(jìn)行編碼/解碼以產(chǎn)生高保真度的重構(gòu)聲音。聲編碼器(64)對(duì)多通道聲信號(hào)進(jìn)行劃分以便把幀尺寸即字節(jié)數(shù)量限制在所需的范圍內(nèi),并對(duì)編碼數(shù)據(jù)進(jìn)行格式化處理以便當(dāng)接收到各子幀時(shí)能進(jìn)行播放從而減少偽象。此外,聲編碼器處理聲頻帶寬的基帶部分0-24kHz以便用相同的編碼/解碼算法對(duì)48kHz或更高的頻率進(jìn)行采樣從而使聲編碼器的結(jié)構(gòu)在未來具有兼容性。
文檔編號(hào)H03M7/30GK1848242SQ20061008178
公開日2006年10月18日 申請(qǐng)日期1996年11月21日 優(yōu)先權(quán)日1995年12月1日
發(fā)明者斯蒂芬·M·史密斯, 邁克爾·H·史密斯, 威廉·保羅·史密斯 申請(qǐng)人:數(shù)字劇場(chǎng)系統(tǒng)股份有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
安溪县| 白城市| 广汉市| 博爱县| 凤台县| 拜城县| 华亭县| 筠连县| 雷波县| 青神县| 宜君县| 即墨市| 尉犁县| 益阳市| 延长县| 通州区| 北流市| 嘉禾县| 邵武市| 太和县| 晋州市| 库伦旗| 丰原市| 江达县| 盱眙县| 堆龙德庆县| 岳西县| 乃东县| 高唐县| 阳城县| 新蔡县| 隆子县| 乐平市| 九龙县| 礼泉县| 金寨县| 长葛市| 仪陇县| 上饶县| 集贤县| 栾川县|