專利名稱:音頻編/解碼方法及相關(guān)音頻編/解碼器和計(jì)算機(jī)程序的制作方法
專利說(shuō)明音頻編/解碼方法及相關(guān)音頻編/解碼器和計(jì)算機(jī)程序 本發(fā)明涉及音頻信號(hào)編碼裝置,其尤其希望在數(shù)字化和壓縮音頻信號(hào)存儲(chǔ)或傳輸應(yīng)用中適用。
更具體地,本發(fā)明涉及分級(jí)音頻編碼系統(tǒng),其具有提供變化速率的能力,這是通過(guò)分割與音頻信號(hào)有關(guān)的信息以編碼成經(jīng)分級(jí)子集,借此所述子集可按相對(duì)于音頻信號(hào)的恢復(fù)質(zhì)量的重要性的次序來(lái)使用而實(shí)現(xiàn)。確定所述次序所要考慮的準(zhǔn)則為經(jīng)編碼音頻信號(hào)的質(zhì)量的最佳化準(zhǔn)則(或最少降級(jí)準(zhǔn)則更合適)。分級(jí)編碼尤其適于異構(gòu)網(wǎng)絡(luò)或具有可隨時(shí)間而變的可用速率的網(wǎng)絡(luò)上的傳輸,或也適于向具有不同或可變特性的終端進(jìn)行傳輸。
更具體地,本發(fā)明涉及3D聲音場(chǎng)景的分級(jí)編碼。3D聲音場(chǎng)景包括對(duì)應(yīng)于單聲道音頻信號(hào)的多個(gè)音頻通道,該場(chǎng)景也被稱作經(jīng)空間化聲音。
經(jīng)編碼聲音場(chǎng)景希望再現(xiàn)于聲音呈現(xiàn)系統(tǒng)上,所述聲音呈現(xiàn)系統(tǒng)可包括普通的耳機(jī)、計(jì)算機(jī)的兩個(gè)揚(yáng)聲器,或也包括具有五個(gè)揚(yáng)聲器的家庭影院5.1型的系統(tǒng)(一個(gè)揚(yáng)聲器在屏幕附近;且在理論上的收聽(tīng)者前面一個(gè)揚(yáng)聲器在左且一個(gè)揚(yáng)聲器在右;在理論上的收聽(tīng)者后面一個(gè)揚(yáng)聲器在左且一個(gè)揚(yáng)聲器在右)或其類似物。
舉例來(lái)說(shuō),考慮包含位于空間中的各個(gè)地方處的三個(gè)不同聲音源的原始聲音場(chǎng)景。由編碼器對(duì)描述此聲音場(chǎng)景的信號(hào)進(jìn)行編碼。將從此編碼導(dǎo)出的數(shù)據(jù)傳輸給解碼器,且接著對(duì)所述數(shù)據(jù)進(jìn)行解碼。處理經(jīng)解碼數(shù)據(jù)以便產(chǎn)生希望用于所述聲音再現(xiàn)系統(tǒng)的五個(gè)揚(yáng)聲器的五個(gè)信號(hào)。五個(gè)揚(yáng)聲器中的每一者廣播所述信號(hào)中的一者,由揚(yáng)聲器廣播的所述信號(hào)集合合成3D聲音場(chǎng)景且因此在空間中定位三個(gè)虛擬聲音源。
空間分辨率或空間準(zhǔn)確度度量了聲音源在空間中的位置的精細(xì)程度。增加的空間分辨率使聲音對(duì)象在房間中的更精細(xì)定位成為可能,且使收聽(tīng)者頭部周圍更寬闊的恢復(fù)區(qū)域成為可能。
存在用于對(duì)聲音場(chǎng)景進(jìn)行編碼的各種技術(shù)。
舉例來(lái)說(shuō),所使用的一種技術(shù)包括確定描述聲音場(chǎng)景的元素,和接著進(jìn)行用于壓縮單聲道信號(hào)中的每一者的操作。接著將從這些壓縮導(dǎo)出的數(shù)據(jù)和描述元素供應(yīng)給解碼器。
可因此通過(guò)在壓縮操作期間調(diào)適速率來(lái)完成根據(jù)此第一種技術(shù)的速率適應(yīng)性(也稱作可縮放性),但它是根據(jù)用于最佳化個(gè)別地考慮的每一信號(hào)的質(zhì)量的準(zhǔn)則來(lái)進(jìn)行的。在編碼操作期間,并沒(méi)有考慮由各種信號(hào)的恢復(fù)產(chǎn)生的3D場(chǎng)景的空間準(zhǔn)確度。
另一種編碼技術(shù)包括從各種通道上的所有單聲道音頻信號(hào)提取并編碼空間參數(shù),所述編碼技術(shù)用于“MPEG音頻環(huán)繞”編碼器(參見(jiàn)“Text of ISO/IEC FDIS 23003-1,MPEGSurround”,ISO/IEC JTC1/SC29/WG11 N8324,July 2006,Klagenfurt,Austria,即“ISO/IEC FDIS 23003-1的文本,MPEG環(huán)繞”,ISO/IEC JTC1/SC29/WG11 N8324,2006年7月,克拉根福,奧地利)中。接著將這些信號(hào)混合以獲得單聲道或立體聲信號(hào),所述信號(hào)接著由常規(guī)單聲道或立體聲編碼器(例如,MPEG-4AAC、HE-AAC型,等等)壓縮。在解碼器層級(jí)處,由空間參數(shù)和經(jīng)解碼單聲道或立體聲信號(hào)來(lái)進(jìn)行3D聲音場(chǎng)景的合成。
使用此另一技術(shù),可因此通過(guò)使用分級(jí)單聲道或立體聲編碼器來(lái)實(shí)現(xiàn)速率適應(yīng)性,但它是根據(jù)用于最佳化單聲道或立體聲信號(hào)的質(zhì)量的準(zhǔn)則來(lái)進(jìn)行的,且也沒(méi)有考慮空間分辨率的質(zhì)量。
另外,PSMAC(Progressive Syntax-Rich Multichannel Audio Codec,漸進(jìn)富語(yǔ)法多通道音頻編解碼器)方法使得能夠通過(guò)使用KLT變換(Karhunen Loeve Transform,卡洛變換)對(duì)來(lái)自各種通道的信號(hào)進(jìn)行編碼,KLT變換主要可用于信號(hào)的解相關(guān),且對(duì)應(yīng)于表示信號(hào)統(tǒng)計(jì)數(shù)據(jù)的空間中的主要分量分解。其使得有可能區(qū)別能量較多的分量與能量較少的分量。
速率適應(yīng)性是基于能量較少的分量的消除,且根本不考慮空間準(zhǔn)確度。
因此,盡管已知技術(shù)在速率適應(yīng)性方面得到良好結(jié)果,但已知3D聲音場(chǎng)景編碼技術(shù)均沒(méi)有使得在用于在3D聲音場(chǎng)景的恢復(fù)期間最佳化空間分辨率的準(zhǔn)則的基礎(chǔ)上的速率適應(yīng)性成為可能。此適應(yīng)性將使得有可能保證速率的每一次減少都會(huì)盡可能少地?fù)p害空間中的聲音源的定位準(zhǔn)確度。
此外,對(duì)于任何用于恢復(fù)3D聲音場(chǎng)景的聲音呈現(xiàn)系統(tǒng),已知3D聲音場(chǎng)景編碼技術(shù)均沒(méi)有使得能直接保證最佳質(zhì)量的速率適應(yīng)性成為可能。目前的編碼算法經(jīng)定義以最佳化相對(duì)于聲音再現(xiàn)系統(tǒng)的特定配置的質(zhì)量。事實(shí)上,在上述“MPEG音頻環(huán)繞”編碼器的情況下,舉例來(lái)說(shuō),用一耳機(jī)或兩個(gè)揚(yáng)聲器直接收聽(tīng)、或單聲道收聽(tīng)是可能的。如果希望用5.1或7.1型的聲音再現(xiàn)系統(tǒng)來(lái)處理經(jīng)壓縮位流,那么必須在解碼器層級(jí)處實(shí)施額外處理,例如借助于OTT(One-To-Two,一到二)盒,以便由兩個(gè)經(jīng)解碼信號(hào)產(chǎn)生五個(gè)或七個(gè)信號(hào)。這些盒使得能夠在5.1或7.1型的聲音再現(xiàn)系統(tǒng)的情況下獲得所需要數(shù)目的信號(hào),但不可能再現(xiàn)真實(shí)空間方面。此外,這些盒不保證對(duì)除了5.1或7.1型的聲音再現(xiàn)系統(tǒng)外的聲音再現(xiàn)系統(tǒng)的適應(yīng)性。
本發(fā)明旨在改善所述狀況。為此,根據(jù)第一方面,本發(fā)明旨在提出一種用于對(duì)與待編碼的三維聲分量的相應(yīng)頻譜帶有關(guān)的頻譜參數(shù)進(jìn)行排序的方法,所述待編碼的三維聲分量發(fā)源自包含N個(gè)信號(hào)的音頻場(chǎng)景,其中N>1,所述方法的特征在于其包含以下步驟 a.計(jì)算從待排序的頻譜參數(shù)集合獲取的至少一些頻譜參數(shù)對(duì)角度向量的相應(yīng)影響,所述角度向量是根據(jù)與葛容準(zhǔn)則相關(guān)聯(lián)的能量向量和速度向量定義的,且是根據(jù)與所述經(jīng)量化三維聲分量有關(guān)的反向三維聲變換計(jì)算的; b.與其它所計(jì)算出的影響相比,根據(jù)針對(duì)至少一個(gè)頻譜參數(shù)計(jì)算出的所述影響將優(yōu)先級(jí)次序分配給所述的至少一個(gè)頻譜參數(shù)。
根據(jù)本發(fā)明的方法因此使得有可能在待排序的集合對(duì)空間準(zhǔn)確度的貢獻(xiàn)的相對(duì)重要性的基礎(chǔ)上對(duì)所述集合的三維聲分量的頻譜參數(shù)中的至少一些進(jìn)行排序。
考慮信號(hào)與其對(duì)空間準(zhǔn)確度的影響之間的相互作用以便將其共同地壓縮。
可因此對(duì)位流進(jìn)行排序,使得速率的每一次減少都使3D聲音場(chǎng)景的所感知空間準(zhǔn)確度盡可能少地降級(jí),因?yàn)闄z測(cè)到從其貢獻(xiàn)的立場(chǎng)而言為最不重要的元素以便放置于二進(jìn)制序列的末尾處(使得有可能最小化由后續(xù)截短產(chǎn)生的缺陷)。
根據(jù)本發(fā)明的方法,如下文所指示,使用與葛容準(zhǔn)則的速度
向量和能量
向量相關(guān)聯(lián)的角度ξv和ξE,以便識(shí)別在對(duì)3D聲音場(chǎng)景的空間準(zhǔn)確度的貢獻(xiàn)方面最不相關(guān)的待編碼的元素。因此,與普通用途相反,速度
向量和能量
向量不被用于最佳化所述聲音再現(xiàn)系統(tǒng)。
在一個(gè)實(shí)施例中,頻譜參數(shù)的影響的計(jì)算是根據(jù)以下步驟來(lái)進(jìn)行 a.根據(jù)第一速率對(duì)待編碼的三維聲分量的頻譜參數(shù)的第一集合進(jìn)行編碼; b.確定每頻譜帶的第一角度向量; c.確定低于所述第一速率的第二速率; d.刪除所述待編碼的分量的所述當(dāng)前頻譜參數(shù),和根據(jù)第二速率對(duì)所述待編碼分量的剩余頻譜參數(shù)進(jìn)行編碼; e.確定每頻譜帶的第二角度向量; f.基于每頻譜帶的所述第一速率和所述第二速率的所述第一角度向量與所述第二角度向量之間的確定偏差來(lái)計(jì)算角度向量變化; g.針對(duì)待編碼的分量的所述頻譜參數(shù)集合中的所述頻譜參數(shù)中的每一者反復(fù)進(jìn)行步驟d到f以進(jìn)行排序和確定最小角度向量變化;指派給對(duì)應(yīng)于所述最小變化的所述頻譜參數(shù)的所述優(yōu)先級(jí)次序?yàn)樽钚?yōu)先級(jí)次序。
這使得有可能以最小數(shù)目次計(jì)算來(lái)確定對(duì)空間準(zhǔn)確度的貢獻(xiàn)最小的待確定分量的頻譜參數(shù)。
在一個(gè)實(shí)施例中,通過(guò)刪除被指派了優(yōu)先級(jí)次序的頻譜參數(shù),以待編碼分量的頻譜參數(shù)的集合來(lái)重復(fù)步驟a到g以進(jìn)行排序。
在另一實(shí)施例中,以待編碼分量的頻譜參數(shù)的集合重復(fù)步驟a到g以進(jìn)行排序,其中在使用嵌套量化器時(shí)給被指派了優(yōu)先級(jí)次序的頻譜參數(shù)分配較低量化速率。
從尚未被指派優(yōu)先級(jí)次序的三維聲分量的頻譜參數(shù)中,此反復(fù)過(guò)程使得能夠連續(xù)地識(shí)別對(duì)空間準(zhǔn)確度貢獻(xiàn)最小的頻譜參數(shù)。
在一個(gè)實(shí)施例中,能量向量的第一坐標(biāo)是基于公式 能量向量的第二坐標(biāo)是基于公式 速度向量的第一坐標(biāo)是基于公式 且速度向量的第二坐標(biāo)是基于公式 其中Ti,i=1到Q,表示在與根據(jù)所述速率的所述量化頻譜參數(shù)有關(guān)的反向三維聲變換的基礎(chǔ)上確定的信號(hào),且ξi,i=1到Q,為特定角度。
在一個(gè)實(shí)施例中,角度向量的第一坐標(biāo)指示基于速度向量的第二坐標(biāo)的符號(hào)和速度向量的第一坐標(biāo)的反余弦的角度,且根據(jù)此,角度向量的第二坐標(biāo)指示基于能量向量的第二坐標(biāo)的符號(hào)和能量向量的第一坐標(biāo)的反余弦的角度。
根據(jù)第二方面,本發(fā)明提出了一種排序模塊,其包含用于實(shí)施根據(jù)本發(fā)明的第一方面的方法的構(gòu)件。
根據(jù)第三方面,本發(fā)明提出了一種音頻編碼器,其經(jīng)設(shè)計(jì)以對(duì)在外出位流中包含N個(gè)相應(yīng)信號(hào)的3D音頻場(chǎng)景進(jìn)行編碼,其中N>1,所述音頻編碼器包含 -變換模塊,其經(jīng)設(shè)計(jì)以在N個(gè)信號(hào)的基礎(chǔ)上確定與三維聲分量的相應(yīng)頻譜帶有關(guān)的頻譜參數(shù); -根據(jù)本發(fā)明的第二方面的排序模塊,其經(jīng)設(shè)計(jì)以對(duì)所述三維聲分量的頻譜參數(shù)中的至少一些進(jìn)行排序; -二進(jìn)制序列形成模塊,其經(jīng)設(shè)計(jì)以基于由所述排序模塊進(jìn)行的排序而形成二進(jìn)制序列,所述二進(jìn)制序列包含指示與待編碼的三維聲分量的相應(yīng)頻譜帶有關(guān)的頻譜參數(shù)的數(shù)據(jù)。
根據(jù)第四方面,本發(fā)明提出了一種待安裝于排序模塊中的計(jì)算機(jī)程序,所述程序包含用于實(shí)施根據(jù)本發(fā)明的第一方面的方法的步驟的指令以用于使所述程序由所述模塊中的處理構(gòu)件執(zhí)行。
根據(jù)第五方面,本發(fā)明提出了一種二進(jìn)制序列,其包含指示與待編碼的三維聲分量的相應(yīng)頻譜帶有關(guān)的頻譜參數(shù)的數(shù)據(jù),所述二進(jìn)制序列的特征在于此數(shù)據(jù)是依據(jù)根據(jù)本發(fā)明的第一方面的排序方法來(lái)排序的。
根據(jù)第六方面,本發(fā)明提出了一種對(duì)根據(jù)本發(fā)明的第一方面的方法編碼的位流進(jìn)行解碼的方法,以便確定數(shù)目Q′個(gè)音頻信號(hào)以用于借助于Q′個(gè)揚(yáng)聲器恢復(fù)3D音頻場(chǎng)景,根據(jù)所述方法 -接收所述位流; -提取編碼數(shù)據(jù),其指示在聲音場(chǎng)景的N個(gè)信號(hào)的基礎(chǔ)上計(jì)算出的三維聲分量,且對(duì)所述編碼數(shù)據(jù)進(jìn)行反向空間變換操作,其經(jīng)設(shè)計(jì)以確定數(shù)目Q′個(gè)音頻信號(hào)以用于借助于所述Q′個(gè)揚(yáng)聲器恢復(fù)3D音頻場(chǎng)景。
根據(jù)第七方面,本發(fā)明提出了一種音頻解碼器,其經(jīng)設(shè)計(jì)以對(duì)依據(jù)根據(jù)本發(fā)明的第一方面的方法編碼的位流進(jìn)行解碼,以便確定數(shù)目Q′個(gè)音頻信號(hào)以用于借助于Q′個(gè)揚(yáng)聲器恢復(fù)3D音頻場(chǎng)景,所述音頻解碼器包含用于實(shí)施根據(jù)本發(fā)明的第六方面的方法的步驟的構(gòu)件。
根據(jù)第八方面,本發(fā)明提出了一種待安裝于解碼器中的計(jì)算機(jī)程序,所述解碼器經(jīng)設(shè)計(jì)以對(duì)根據(jù)本發(fā)明的第一方面編碼的位流進(jìn)行解碼,以便確定數(shù)目Q′個(gè)音頻信號(hào)以用于借助于Q′個(gè)揚(yáng)聲器恢復(fù)3D音頻場(chǎng)景,所述程序包含用于在所述程序由所述解碼器的處理構(gòu)件執(zhí)行期間實(shí)施根據(jù)本發(fā)明的第六方面的方法的步驟的指令。
在閱讀完以下描述后,本發(fā)明的其它特性和優(yōu)點(diǎn)將變得更明顯。以下描述僅為說(shuō)明性的且應(yīng)參看附圖來(lái)閱讀,附圖中 -
圖1示出了本發(fā)明的一個(gè)實(shí)施例中的編碼器; -圖2示出了本發(fā)明的一個(gè)實(shí)施例中的解碼器; -圖3示出了平面波在空間中的傳播; -圖4為展示本發(fā)明的一個(gè)實(shí)施例中的過(guò)程Proc的步驟的流程圖; -圖5示出了本發(fā)明的一個(gè)實(shí)施例中的待編碼的元素的排序和所構(gòu)造的二進(jìn)制序列Seq; -圖6示出了包含8個(gè)揚(yáng)聲器h1、h2、……、h8的聲音再現(xiàn)系統(tǒng)的示例性配置。
圖1示出了本發(fā)明的一個(gè)實(shí)施例中的音頻編碼器1。
編碼器1包括時(shí)間/頻率變換模塊3、遮蔽曲線計(jì)算模塊7、空間變換模塊4、包含量化模塊10的用于定義最不相關(guān)的待編碼元素的模塊5、元素排序模塊6、用于形成二進(jìn)制序列的模塊8,以便傳輸位流φ。
3D聲音場(chǎng)景包括N個(gè)通道,在每一個(gè)通道上傳遞相應(yīng)信號(hào)S1、……、SN。
圖2示出了本發(fā)明的一個(gè)實(shí)施例中的音頻解碼器100。
解碼器100包括二進(jìn)制序列讀取模塊104、反向量化模塊105、反向三維聲變換模塊101和頻率/時(shí)間變換模塊102。
解碼器100經(jīng)設(shè)計(jì)以在輸出端處接收由編碼器1傳輸?shù)奈涣鳓蘸驮谳敵龆颂巶鬟f希望供應(yīng)給聲音再現(xiàn)系統(tǒng)103的Q′個(gè)相應(yīng)揚(yáng)聲器H1、H2、……、HQ′的Q′個(gè)信號(hào)S′1、S′2、……、S′Q′。
角度βi與每一個(gè)揚(yáng)聲器Hi,i=1到Q′相關(guān)聯(lián),所述角度指示來(lái)自揚(yáng)聲器的聲傳播的角度。
葛容準(zhǔn)則(Gerzon’s criteria)通常用以表征通過(guò)由給定聲音再現(xiàn)系統(tǒng)的揚(yáng)聲器恢復(fù)信號(hào)來(lái)合成的虛擬聲音源的定位。
這些準(zhǔn)則是基于對(duì)由給定聲音再現(xiàn)系統(tǒng)所產(chǎn)生的聲壓的速度和能量向量的研究。
在聲音再現(xiàn)系統(tǒng)包括L個(gè)揚(yáng)聲器時(shí),這些揚(yáng)聲器所產(chǎn)生的信號(hào),i=1到L,是由聲壓Ti和聲傳播角度ξi來(lái)定義。
速度向量V接著定義為 存在一對(duì)極坐標(biāo)(rv,ξv),使得 方程式(1) 能量向量
定義為 存在一對(duì)極坐標(biāo)(rE,ξE),使得 方程式(2) 確保虛擬聲音源的定位為最佳所需的條件是通過(guò)搜索表征所述聲音再現(xiàn)系統(tǒng)的揚(yáng)聲器的位置的角度ξi,以及通過(guò)驗(yàn)證以下準(zhǔn)則,也稱作葛容準(zhǔn)則來(lái)定義的,所述準(zhǔn)則為 -準(zhǔn)則1,與低頻率源S的聲像的準(zhǔn)確度有關(guān)ξv=ξ;其中ξ為將達(dá)到的所要實(shí)際源S的傳播角度; -準(zhǔn)則2,與低頻率源S的聲像的穩(wěn)定性有關(guān)rv=1; -準(zhǔn)則3,與高頻率源S的聲像的準(zhǔn)確度有關(guān)ξE=ξ; -準(zhǔn)則4,與高頻率源S的聲像的穩(wěn)定性有關(guān)rE=1。
下文在本發(fā)明的一個(gè)實(shí)施例中描述的操作在除了包含搜索表征所述聲音再現(xiàn)系統(tǒng)的揚(yáng)聲器的位置的最好角度ξi的應(yīng)用以外的應(yīng)用中使用葛容向量。
在編碼器層級(jí)處進(jìn)行的操作 編碼器1的時(shí)間/頻率變換模塊3在其輸入端處接收3D聲音場(chǎng)景的待編碼的N個(gè)信號(hào)S1、……、SN。
每一信號(hào)Si,i=1到N,是由其聲全向壓力(the acoustic omnidirectional pressure)Pi的變化及其聲波在3D場(chǎng)景的空間中的傳播角度θi來(lái)表示。
時(shí)間/頻率變換模塊3對(duì)這些信號(hào)中的每一者的每一時(shí)間幀進(jìn)行時(shí)間/頻率變換,所述變換在當(dāng)前情況下為經(jīng)修改的離散余弦變換(MDCT),所述時(shí)間幀指示聲壓Pi隨時(shí)間所采取的各種值。
因此,對(duì)于信號(hào)Si,i=1到N,中的每一者來(lái)說(shuō),確定其頻譜表示Xi,其由M個(gè)MDCT系數(shù)X(i,j)表征,其中j=0到M-1。MDCT系數(shù)X(i,j)因此表示對(duì)于頻帶Fj來(lái)說(shuō)信號(hào)Si的頻譜。
在空間變換模塊4的輸入端處提供信號(hào)Si(i=1到N)的頻譜表示Xi,空間變換模塊4在輸入端處進(jìn)一步接收表征傳入信號(hào)Si的聲傳播的角度θi。
空間變換模塊4經(jīng)設(shè)計(jì)以對(duì)所提供的傳入信號(hào)進(jìn)行空間變換,即,確定由取決于變換的次序而投影到空間參考系上所產(chǎn)生的這些信號(hào)的空間分量。空間變換的次序與其“掃描”聲場(chǎng)所依據(jù)的角頻率有關(guān)。
在一個(gè)實(shí)施例中,空間變換模塊4通過(guò)使聲場(chǎng)投影到相關(guān)聯(lián)的球調(diào)和函數(shù)或圓柱調(diào)和函數(shù)上來(lái)進(jìn)行三維聲變換,其提供3D聲音場(chǎng)景的緊湊空間表示。
為獲得關(guān)于三維聲變換的更多信息,可參考以下文件“Représentation de champsacoustiques,application àla transmission et àla reproduction de scenes sonores complexesdans un contexte multimedia”,巴黎第六大學(xué)的博士論文,杰羅姆丹尼爾(
Daniel),2001年7月31日;“基于聲場(chǎng)的正交分解的高度可縮放式球形麥克風(fēng)陣列”(“Ahighlyscalable spherical microphone array based on an orthonormal decomposition of the soundfield”),延森邁耶-加里埃爾科(Jens Meyer-Gary Elko),ICASSP 2002會(huì)議記錄中的第II卷第1781頁(yè)到第1784頁(yè)。
參看圖3,以下公式提供聲音場(chǎng)景的信號(hào)Si的無(wú)限階分解以變成圓柱調(diào)和函數(shù)
其中(Jm)表示貝塞爾函數(shù)(the Bessel functions),r表示幀的中心與位于點(diǎn)M處的收聽(tīng)者的位置之間的距離,Pi表示信號(hào)Si的聲壓,θi表示對(duì)應(yīng)于信號(hào)Si的聲波的傳播角度,且
表示收聽(tīng)者的位置與幀的軸之間的角度。
如果三維聲變換為階p的,那么對(duì)于2D三維聲變換(在水平平面中)來(lái)說(shuō),在時(shí)間域中表達(dá)的信號(hào)Si的三維聲變換因此包括以下2p+1個(gè)分量 (Pi、Pi.cosθi、Pi.sinθi、Pi.cos2θi、Pi.sin2θi、Pi.cos3θi、Pi.sin3θi、……、Pi.cospθi、Pi.sinpθi)。
在下文中,已考慮2D三維聲變換。然而,可在3D三維聲變換的情況下實(shí)施本發(fā)明(在此種情況下,假定揚(yáng)聲器布置于球面上)。
另外,可在任何階p的三維聲變換的情況下實(shí)施本發(fā)明,例如,p=2或更大。
在頻域中考慮的三維聲分量Ak,k=1到Q=2p+1,各自包含分別與頻譜帶Fj有關(guān)的M個(gè)頻譜參數(shù)A(k,j),j=0到M-1,使得 如果A為包含從信號(hào)Si(i=1到N)的階p的三維聲變換導(dǎo)出的分量Ak(k=1到Q)的矩陣,Amb(p)為3D場(chǎng)景的階p的三維聲變換矩陣,且X為信號(hào)Si(i=1到N)的頻率分量的矩陣,那么 Amb(p)=[Amb(p)(i,j)],其中i=1到Q,且j=1到N,其中Amb(p)(1,j)=1, 如果i為偶數(shù),則且如果i為奇數(shù),則也就是, 和 且 A=Amb(p)×X方程式(3) 空間變換模塊4經(jīng)設(shè)計(jì)以借助于方程式(3),基于在輸入端處供應(yīng)給其的數(shù)據(jù)X(i,j)和θi(i=1到N,j=0到M-1)來(lái)確定矩陣A。
此矩陣A的三維聲分量Ak(k=1到Q)的頻譜參數(shù)A(k,j)(k=1到Q且j=0到M-1)包含將由編碼器1以二進(jìn)制序列編碼的元素。
將三維聲分量Ak(k=1到Q)傳遞給模塊5以用于定義最不相關(guān)元素(the leastrelevant elements)。
用于定義最不相關(guān)元素的此模塊5經(jīng)設(shè)計(jì)以用于在模塊5的處理構(gòu)件上的算法執(zhí)行后實(shí)施操作,以便定義待編碼的最不相關(guān)元素和對(duì)待編碼元素相對(duì)于彼此進(jìn)行排序。
稍后在待傳輸?shù)奈恍蛄械男纬善陂g使用待編碼元素的此排序。
所述算法包括在模塊5的處理構(gòu)件上執(zhí)行時(shí)經(jīng)設(shè)計(jì)以實(shí)施在下文參看圖4描述的過(guò)程Proc的步驟的指令。
葛容準(zhǔn)則是基于對(duì)由所使用的聲音再現(xiàn)系統(tǒng)所產(chǎn)生的聲壓的速度和能量向量的研究。
在方程式1和2中指示的與葛容準(zhǔn)則所相關(guān)聯(lián)的能量和速度向量有關(guān)的坐標(biāo)xV、yV、xE、yE中的每一者為元素[-1,1]。因此,存在單一對(duì)(ξV,ξE),其驗(yàn)證對(duì)應(yīng)于理想情況(rV,rE)=(1,1)的以下方程式 和 此單一對(duì)的角度ξV和ξE因此由以下方程式(方程式(4))定義 在下文中,葛容角度的廣義向量將被稱作向量
使得 在確定最不相關(guān)元素的模塊5的處理構(gòu)件上執(zhí)行時(shí),所述算法包括經(jīng)設(shè)計(jì)以用于實(shí)施在下文參看圖4描述的過(guò)程Proc的步驟的指令。
過(guò)程Proc 過(guò)程Proc的原理是對(duì)至少一些頻譜參數(shù)對(duì)角度向量的相應(yīng)影響進(jìn)行計(jì)算,所述角度向量是根據(jù)與葛容準(zhǔn)則相關(guān)聯(lián)的能量和速度向量定義的,而且是根據(jù)所述經(jīng)量化三維聲分量的反向三維聲變換計(jì)算的。且與其它所計(jì)算出的影響相比,基于針對(duì)至少一個(gè)頻譜參數(shù)計(jì)算出的影響將優(yōu)先級(jí)次序指派給所述頻譜參數(shù)。
如關(guān)于一個(gè)實(shí)施例詳細(xì)描述的,所述過(guò)程如下 初始化(n=0) -步驟2a 定義速率D0=Dmax,且在待編碼的元素A(k,j)((k,j)∈E0={(k,j),使得k=1到Q且j=0到M-1}中分配此速率。
在此初始分配期間指派給待編碼元素A(k,j)((k,j)∈E0)的速率指定為dk,j(這些速率的總和dk,j|k=1到Q,j=0到M-1等于D0)且δ0=min dk,j((k,j)∈E0)。
-步驟2b 接著,通過(guò)量化模塊10基于在步驟2a中分配給待編碼元素的所指派的速率dk,j來(lái)量化每一待編碼元素A(k,j)((k,j)∈E0)。
A為元素A(k,j),k=1到Q且j=0到M-1的矩陣。每一元素A(k,j)是以與頻譜帶Fj有關(guān)的參數(shù)A(k,j)的速率dk,j來(lái)量化三維聲分量A(k)的結(jié)果。元素A(k,j)因此定義所述三維聲分量的頻譜帶Fj的頻譜表示的量化值。
-步驟2c 接下來(lái),對(duì)這些量化三維聲分量A(k,j),k=1到Q且j=0到M-1進(jìn)行階p的三維聲解碼,其中2p+1=Q,此對(duì)應(yīng)于N個(gè)揚(yáng)聲器的標(biāo)準(zhǔn)系統(tǒng),以便確定由于此三維聲解碼而獲得的N個(gè)聲音信號(hào)的聲壓T1i,i=1到N。
在所述情況中,AmbInv(p)為傳遞對(duì)應(yīng)于N個(gè)相應(yīng)揚(yáng)聲器H′1、……、H′N的N個(gè)信號(hào)T11、……、T1N的階p的反向三維聲變換矩陣(或階p的三維聲解碼),所述揚(yáng)聲器圍繞一個(gè)點(diǎn)均勻地布置。因此,從矩陣Amb(p,N)的轉(zhuǎn)置推出矩陣AmbInv(p),矩陣Amb(p,N)是由對(duì)應(yīng)于N個(gè)揚(yáng)聲器H′1、……、H′N且分別布置于位置ξ1,...,ξN中的N個(gè)源所定義的聲音場(chǎng)景的編碼產(chǎn)生的三維聲解碼矩陣。因此,其可寫(xiě)成 T1為與頻帶Fj,j=0到M-1有關(guān)的信號(hào)T1i,i=1到N的頻譜分量T1(i,j)的矩陣。這些頻譜分量是從施加于量化三維聲分量A(k,j),k=1到Q且j=0到M-1的階p的反向三維聲變換導(dǎo)出。
且得到 方程式(5) 因此,分量T1(i,j),i=1到N,取決于與三維聲分量A(k,j),k=1到Q且j=0到M-1,的所述量化有關(guān)的量化誤差(事實(shí)上,每一量化元素A(k,j)為所正量化的三維聲分量的頻譜參數(shù)A(k,j)和與所述參數(shù)有關(guān)的量化噪聲的和)。
對(duì)于每一頻帶Fj,j=0到M-1來(lái)說(shuō),借助于方程式(4),根據(jù)遵照三維聲解碼確定的頻譜分量T1(i,j),i=1到N且j=0到M-1,來(lái)計(jì)算葛容角度向量
其是在過(guò)程Proc的初始化(n=0)后概括的 其中i=1到N 且定義 請(qǐng)注意,此處已考慮標(biāo)準(zhǔn)聲音再現(xiàn)裝置的三維聲解碼矩陣,所述標(biāo)準(zhǔn)聲音再現(xiàn)裝置包含數(shù)目等于輸入信號(hào)數(shù)目的揚(yáng)聲器,此簡(jiǎn)化了三維聲解碼矩陣的計(jì)算。然而,在使用對(duì)應(yīng)于非標(biāo)準(zhǔn)聲音再現(xiàn)裝置且也針對(duì)數(shù)目不同于輸入信號(hào)數(shù)目的揚(yáng)聲器的三維聲解碼矩陣時(shí),可實(shí)施此步驟。
第一次反復(fù)(n=1) -步驟2d 定義速率D1=D0-δ0,且在待編碼的元素A(k,j)((k,j)∈E0)中分配此速率D1。
-步驟2e 接著,通過(guò)量化模塊10基于在步驟2d中分配給待編碼元素的速率來(lái)量化每一待編碼元素A(k,j),(k,j)∈E0。
A現(xiàn)在為量化元素A(k,j)((k,j)∈E0)的更新矩陣,所述量化元素各自由參數(shù)A(k,j)的根據(jù)全局速率D1進(jìn)行的此最后量化產(chǎn)生。
-步驟2f 以與先前在步驟2c中描述的方式類似的方式,在根據(jù)以全局速率D1量化的元素進(jìn)行計(jì)算階p的新三維聲解碼后,且針對(duì)過(guò)程Proc的第一次反復(fù),根據(jù)遵照所述新三維聲解碼確定的頻譜分量T1(i,j)(i=1到N且j=0到M-1),使用方程式(4)來(lái)計(jì)算每一頻帶中的第一廣義葛容角度向量
接下來(lái),計(jì)算向量
其等于在初始化操作的步驟2c中計(jì)算出的葛容角度向量
與在第一次反復(fù)的步驟2f處計(jì)算出的廣義葛容角度向量
之間的差 j=0到M-1 -步驟2g 在每一頻帶Fj中,計(jì)算變化
j=0到M-1的范數(shù)
此范數(shù)表示每一頻帶Fj中速率從D0減少到D1之后廣義葛容角度向量的變化。
將頻帶Fj1索引確定為j1,使得頻帶Fj1中計(jì)算出的葛容角度變化的范數(shù)
(使得Fj1)小于或等于針對(duì)每一頻帶Fj(j=0到M-1)計(jì)算出的每一范數(shù)
因此, -步驟2h 現(xiàn)在將考慮與頻譜帶Fj1有關(guān)的三維聲分量的頻譜參數(shù),就是,參數(shù)A(k,j1),其中k∈F0=[1,Q]。
且針對(duì)任一i∈F0(從1到Q每隔一個(gè)地來(lái)考慮)反復(fù)進(jìn)行以下步驟2h1到2h5; 2h1-假定針對(duì)操作2h2到2h4刪除子頻帶(i,j1);因此,假定A(i,j1)為零且對(duì)應(yīng)量化元素A(i,ji)也為零; 2h2-以與先前在步驟2c中描述的方式類似的方式,在根據(jù)以全局速率D1量化的元素(A(i,ji)為零)進(jìn)行計(jì)算階p的三維聲解碼后,根據(jù)遵照所述三維聲解碼確定的頻譜分量T1(i,j)(i=1到N且j=0到M-1),使用方程式(5)來(lái)確定頻帶Fj1中的廣義葛容角度向量 2h3-接下來(lái),計(jì)算向量
其表示頻帶Fj1中的上文所計(jì)算出的廣義葛容角度向量與上文在第一次反復(fù)的步驟2f中計(jì)算出的廣義葛容角度向量
之間的差 接下來(lái),計(jì)算向量
的范數(shù)
此范數(shù)表示在針對(duì)速率D1刪除頻率三維聲分量A(i,j1)時(shí)頻帶Fj1中的廣義葛容角度向量的變化。
2h4-如果i≠max F0,那么假定不再刪除子頻帶(i,j1),且前進(jìn)到步驟2h5。如果i=max F0,那么假定不再刪除子頻帶(i,j1),且前進(jìn)到步驟2i。
2h5-在集合F0中,將i遞增,且針對(duì)因此更新的值i重復(fù)步驟2h1到2h4,直到i=max F0。
以此方式,對(duì)于每一i∈F0=[1,Q].,為廣義葛容角度的變化
獲得Q個(gè)值。
-步驟2i 對(duì)于每一i∈F0=[1,Q],將值
彼此進(jìn)行比較,從這些值中識(shí)別出最小的值,且確定索引i1∈F0,其對(duì)應(yīng)于所述最小值,就是 因此,將分量A(i1,j1)識(shí)別為與其它待編碼元素A(k,j)((k,j)∈E0)相比對(duì)空間準(zhǔn)確度最不重要的待編碼元素。
-步驟2j 對(duì)于每一頻譜帶Fj來(lái)說(shuō),重新定義從反復(fù)1導(dǎo)出且針對(duì)速率D1計(jì)算出的廣義葛容角度向量
如果j∈
\{j1}; 如果j=j(luò)1。
針對(duì)等于D1的量化速率確立的此重新定義的廣義葛容角度向量考慮了對(duì)待編碼元素A(i1,j1)的刪除,且將用于過(guò)程Proc的以下反復(fù)。
-步驟2k 作為過(guò)程Proc的第一次反復(fù)的結(jié)果,將(i1,j1)對(duì)的識(shí)別符傳遞給排序模塊6。
-步驟2m 接著在過(guò)程Proc的剩余步驟中從待編碼元素集合刪除待編碼元素A(i1,j1)。
定義集合E1=E0\(i1,j1)。
對(duì)于(k,j)∈E1,定義δ1=min dk,j。
在過(guò)程Proc的第二次反復(fù)的過(guò)程中,重復(fù)類似于上述步驟2d到2n的步驟。
以與對(duì)留待排序的待編碼元素A(k,j)((k,j)∈E1)中的一些或所有,相對(duì)于彼此,重復(fù)過(guò)程Proc所需的次數(shù)一樣多的次數(shù)來(lái)進(jìn)行排序。
因此,針對(duì)第n次反復(fù),重復(fù)上述步驟2d至2n 反復(fù)n(n>1) En-1=E0\{(i1j1),...,(in-1jn-1)}。
在前述反復(fù)的步驟2m期間刪除待編碼元素A(k,j)((k,j)∈E0\En-1)。
-步驟2d 定義速率Dn=Dn-1-δn-1,和此速率Dn在待編碼元素A(k,j)((k,j)∈En-1)中的分配。
因此,下文中,當(dāng)計(jì)算三維聲解碼時(shí),假定量化元素A(k,j)((k,j)∈E0\En-1)為零。
-步驟2e 接著,通過(guò)量化模塊10基于在上述步驟2d中分配的速率來(lái)量化每一待編碼元素A(k,j)((k,j)∈En-1)。
待編碼元素A(k,j)的此量化的結(jié)果為A(k,j),(k,j)∈En-1. -步驟2f 以與先前針對(duì)反復(fù)1所描述的方式類似的方式,在以全局速率Dn量化的元素的基礎(chǔ)上(因此,在此三維聲解碼期間假定分量A(i1,j1),...,A(in-1,jn-1)為零)進(jìn)行的階p的三維聲解碼的計(jì)算后,針對(duì)過(guò)程Proc的反復(fù)n,基于遵照所述三維聲解碼確定的頻譜分量T1i(i=1到N)使用方程式(5)來(lái)計(jì)算每一頻帶Fj中的第一廣義葛容角度向量
接下來(lái),向量
其等于在反復(fù)n-1的步驟2j中所計(jì)算的葛容角度向量
與在本步驟處所計(jì)算的廣義葛容向量角度
之間的差j=0到M-1。
-步驟2g 在每一頻帶Fj中,計(jì)算變化
(j=0到M-1)的范數(shù)
此范數(shù)表示在速率從Dn減少到Dn-1后每一頻帶Fj中的廣義葛容角度向量的變化(刪除參數(shù)A(i1,j1)、……、A(in-1jn-1)和A(i1,j1),...,A(in-1,jn-1))。
將頻帶Fjn確定為jn,使得頻帶Fjn中計(jì)算出的葛容角度向量的變化的范數(shù)
小于或等于針對(duì)每一頻帶Fj(j=0到M-1)計(jì)算出的每一個(gè)范數(shù)
因此, -步驟2h 現(xiàn)在將考慮與頻譜帶Fjn有關(guān)的三維聲分量的頻譜參數(shù),也就是參數(shù)A(k,jn),其中k∈Fn-1={i∈[1,...,Q],使得(i,jn)∈En-1}。
針對(duì)任一i∈Fn-1(從集合Fn-1的最小元素(min Fn-1)到集合Fn-1的最大元素(maxFn-1)每隔一個(gè)地來(lái)考慮)重復(fù)以下步驟2h1到2h5 2h1-假定針對(duì)操作2h2到2h4刪除子頻帶(i,jn)因此,假定A(i,jn)為零且相應(yīng)經(jīng)量化元素A(i,jn)也為零; 2h2-以與先前在步驟2c中描述的方式類似的方式,在以全局速率Dn量化的元素(A(i,jn)為零)的基礎(chǔ)上進(jìn)行的階p的三維聲解碼的計(jì)算后,在遵照所述三維聲解碼確定的頻譜分量T1(i,j)(i=1到N且j=0到M-1)的基礎(chǔ)上使用方程式(5)來(lái)計(jì)算頻帶Fjn中的指定為的廣義葛容角度向量。
2h3-接下來(lái),計(jì)算向量
其等于頻帶Fjn中的上文在2h2處所計(jì)算出的廣義葛容角度向量與上述反復(fù)n的步驟2f處計(jì)算出的廣義葛容角度向量
之間的差 接著,計(jì)算向量
的范數(shù)
此范數(shù)表示歸因于在過(guò)程Proc的第n次反復(fù)期間三維聲分量A(i,jn)的刪除而造成的在頻帶Fjn中且針對(duì)速率Dn的廣義葛容角度向量的變化。
2h4-如果i≠max Fn-1,那么假定不再刪除子頻帶(i,jn),且前進(jìn)到步驟2h5。如果I=max Fn-1,那么假定不再刪除子頻帶(i,jn),且前進(jìn)到步驟2i。
2h5-在集合Fn-1中,將i遞增,且針對(duì)因此更新的值i重復(fù)步驟2h1到2h4,直到到達(dá)i=max Fn-1。
因此,對(duì)于每一i∈Fn-1來(lái)說(shuō),獲得值
其表示歸因于分量A(i,jn)的刪除而造成的頻帶Fjn中的廣義葛容角度向量的變化。
-步驟2i 將值
(對(duì)于每一i∈Fn-1)彼此進(jìn)行比較,從這些值中識(shí)別出最小的值,且確定索引in∈Fn,其對(duì)應(yīng)于所述最小值,也就是 因此,將分量A(in,jn)識(shí)別為與其它待編碼元素A(k,j)((k,j)∈Fn-1)相比對(duì)空間準(zhǔn)確度最不重要的待編碼元素。
-步驟2j 對(duì)于每一頻譜帶Fj來(lái)說(shuō),定義從反復(fù)n導(dǎo)出的廣義葛容角度向量
如果j∈
\{jn}; 如果j=j(luò)n。
針對(duì)等于Dn的量化速率確立的此重新定義的廣義葛容角度考慮了對(duì)待編碼元素A(in,jn)的刪除,且將用于以下反復(fù)。
-步驟2k 作為過(guò)程Proc的第n次反復(fù)的結(jié)果,將(in,jn)對(duì)的識(shí)別符傳遞給排序模塊6。
-步驟2m 接著從將遵照過(guò)程Proc編碼的元素集合刪除頻帶(in,jn),也就是,刪除待編碼元素A(in,jn)。
定義集合En=En-1\(in,jn)。待編碼元素A(i,j)((i,j)∈En)留待排序。在反復(fù)1到n期間已對(duì)待編碼元素A(i,j)((i,j)∈{(i1,j1),...,(in,jn)})進(jìn)行排序。
重復(fù)過(guò)程Proc r次且最多Q*M-1次。
因此,接下來(lái)由排序模塊6將優(yōu)先級(jí)索引指派給各個(gè)待編碼元素,以便將編碼數(shù)據(jù)插入到二進(jìn)制序列中。
待編碼元素的排序和二進(jìn)制序列的形成 在一個(gè)實(shí)施例中,其中待編碼元素的排序是由排序模塊6在由用于定義最不相關(guān)的待編碼元素的模塊5實(shí)施的過(guò)程Proc的連續(xù)反復(fù)所連續(xù)供應(yīng)的結(jié)果的基礎(chǔ)上進(jìn)行的,排序模塊6定義所述待編碼元素的次序,所述次序傳達(dá)待編碼元素對(duì)空間準(zhǔn)確度的重要性。
參看圖5,將對(duì)應(yīng)于(i1,j1)對(duì)的待編碼元素A(i1,j1)認(rèn)為是與空間準(zhǔn)確度最不相關(guān)的,待編碼元素A(i1,j1)是在過(guò)程Proc的第一次反復(fù)期間確定的。因此,由模塊5給其指派最小優(yōu)先級(jí)索引Prio1。
將對(duì)應(yīng)于(i2,j2)對(duì)的待編碼元素A(i2,j2)認(rèn)為是在指派有優(yōu)先級(jí)Prio1的待編碼元素后與空間準(zhǔn)確度最不相關(guān)的待編碼元素,待編碼元素A(i2,j2)是在過(guò)程Proc的第二次反復(fù)期間確定的。因此,給其指派最小優(yōu)先級(jí)索引Prio2,其中Prio2>Prio1。排序模塊6因此對(duì)r個(gè)待編碼元素連續(xù)地排序,其各自被指派增加的優(yōu)先級(jí)索引Prio1、Prio2到Prio r。
在過(guò)程Proc的反復(fù)期間未曾指派優(yōu)先級(jí)次序的待編碼元素比已被指派優(yōu)先級(jí)次序的待編碼元素對(duì)空間準(zhǔn)確度更重要。
在r等于Q*M-1次時(shí),逐個(gè)地對(duì)待編碼元素集合排序。
在下文中,假定所進(jìn)行的過(guò)程Proc的反復(fù)次數(shù)r等于Q*M-1次。
將指派給待編碼元素A(k,j)的優(yōu)先級(jí)次序同樣地指派給在此待編碼元素的量化的結(jié)果A(k,j)的基礎(chǔ)上編碼的元素。對(duì)應(yīng)于待編碼元素A(k,j)的經(jīng)編碼元素在下文同樣表示為A(k,j)。
二進(jìn)制序列形成模塊8形成對(duì)應(yīng)于信號(hào)Si(i=1到N)中的每一者的一個(gè)幀的二進(jìn)制序列Seq,所述二進(jìn)制序列是通過(guò)使所指派的優(yōu)先級(jí)索引的次序降低而將經(jīng)編碼元素A(k,j)連續(xù)地整合到其中來(lái)形成的,二進(jìn)制序列Seq是在位流φ中傳輸。
因此,根據(jù)由模塊6進(jìn)行的排序來(lái)對(duì)所形成的二進(jìn)制序列Seq排序。
在上文所考慮的實(shí)施例中,在過(guò)程Proc的每一反復(fù)后,發(fā)生對(duì)來(lái)自待編碼元素A(i,j)的頻譜分量的刪除。
在另一實(shí)施例中,將嵌套量化器(nested quantifier)用于量化操作。在此種情況下,不刪除在過(guò)程Proc的反復(fù)期間被識(shí)別為對(duì)空間準(zhǔn)確度最不重要的待編碼元素A(i,j)的頻譜分量,但與留待排序的待編碼元素的其它頻譜分量的編碼相比,將較低速率指派給此分量的編碼。
編碼器1因此是使速率適應(yīng)性成為可能的編碼器,其考慮各種單聲道信號(hào)之間的相互作用。其使得有可能定義壓縮數(shù)據(jù),由此最佳化所感知的空間準(zhǔn)確度。
在解碼器層級(jí)處進(jìn)行的操作 解碼器100包括二進(jìn)制序列讀取模塊104、反向量化模塊105、反向三維聲變換模塊101和頻率/時(shí)間變換模塊102。
解碼器100經(jīng)設(shè)計(jì)以在輸入端處接收由編碼器1傳輸?shù)奈涣鳓蘸驮谳敵龆颂巶鬟f希望供應(yīng)聲音再現(xiàn)系統(tǒng)103的Q′個(gè)相應(yīng)揚(yáng)聲器H1、H2、……、HQ′的Q′個(gè)信號(hào)S′1、S′2、……、S′Q′。在一個(gè)實(shí)施例中,揚(yáng)聲器數(shù)目Q′可不同于所傳輸?shù)娜S聲分量的數(shù)目Q。
為進(jìn)行說(shuō)明,p=2,也就是,Q=5,且Q′=8。包含8個(gè)揚(yáng)聲器h1、h2、……、h8的聲音再現(xiàn)系統(tǒng)的配置展示于圖6中。
二進(jìn)制序列讀取模塊104提取二進(jìn)制序列φ的指示元素A(k,j)(k=1到Q且j=0到M-1)中的一些的特定量化索引的所接收數(shù)據(jù),且在輸入端處將所接收數(shù)據(jù)提供給反向量化模塊105。
反向量化模塊105進(jìn)行反向量化操作。
確定元素A′(k,j),(k=1到Q且j=0到M-1)的矩陣A′的元素,使得在所接收到的序列包含指示由解碼器100從三維聲分量的參數(shù)A(k,j)的編碼導(dǎo)出的A(k,j)元素的量化索引的數(shù)據(jù)時(shí)A′(k,j)=A(k,j),且在所接收到的序列不包含指示元素A(k,j)的量化索引的任何數(shù)據(jù)(例如,此數(shù)據(jù)在所述序列從流服務(wù)器傳輸期間已被切斷以便適合于網(wǎng)絡(luò)中的可用速率和/或終端的特性)時(shí)A′(k,j)=0。
反向空間變換模塊101經(jīng)設(shè)計(jì)以從由反向量化模塊105所確定的經(jīng)解碼三維聲分量A′(k,j),(k=1到Q且j=0到M-1)確定矩陣X′的元素X′(i,j)(i=1到Q′,j=0到M-1),其定義Q′個(gè)信號(hào)S′i中的每一者的M個(gè)頻譜系數(shù)X′(i,j)(i=1到Q′,j=0到M-1)。
AmbInv(p′,Q′)為用于3D場(chǎng)景的階p′=p的反向三維聲變換模塊,其經(jīng)設(shè)計(jì)以從所接收的Q個(gè)三維聲分量確定希望用于與解碼器100相關(guān)聯(lián)的聲音再現(xiàn)系統(tǒng)的Q′個(gè)揚(yáng)聲器的Q′個(gè)信號(hào)S′i(i=1到Q′)。角度βi(i=1到Q′)指示來(lái)自揚(yáng)聲器Hi的聲傳播的角度。在圖6所示的實(shí)例中,這些角度對(duì)應(yīng)于由揚(yáng)聲器發(fā)出的聲音的傳播的軸與軸XX之間的角度。
X′為與頻帶Fj(j=0到M-1)有關(guān)的信號(hào)Si′(i=1到Q′)的頻譜分量X′(i,j)的矩陣。因此 和 且得到 X′=AmbIn(p′,Q′)×A′方程式(6)。
反向空間變換模塊100經(jīng)設(shè)計(jì)以使用方程式(6)確定矩陣X′的頻譜系數(shù)X′(i,j)(i=1到Q′,j=0到M-1)。
一旦確定,在頻率/時(shí)間變換模塊102的輸入端處傳遞這些元素X′(i,j)(i=1到Q′,j=0到M-1)。
解碼器100的頻率/時(shí)間變換模塊在所接收的頻譜系數(shù)X′(i,j)(i=1到Q′,j=0到M-1)的基礎(chǔ)上進(jìn)行從頻率表示空間到時(shí)間表示空間的變換(在此種情況下,此變換為反向MDCT),且其因此確定Q′個(gè)信號(hào)S′1、……、S′Q′中的每一者的時(shí)間幀。
每一信號(hào)S′i(i=1到Q′)將被用于聲音再現(xiàn)系統(tǒng)103的揚(yáng)聲器Hi。
在一個(gè)實(shí)施例中,在解碼器的處理構(gòu)件上執(zhí)行計(jì)算機(jī)程序指令后實(shí)施由解碼器進(jìn)行的操作中的至少一些。
如所描述,對(duì)從信號(hào)S1、……、SN的三維聲變換導(dǎo)出的分量進(jìn)行編碼的一個(gè)優(yōu)點(diǎn)為在聲音場(chǎng)景的信號(hào)數(shù)目N較大的情況下,有可能由遠(yuǎn)低于N的數(shù)目Q個(gè)三維聲分量表示N個(gè)信號(hào),同時(shí)使所述信號(hào)的空間質(zhì)量降級(jí)極少。因此可減少待傳輸?shù)臄?shù)據(jù)量,且此是在聲音場(chǎng)景的音頻質(zhì)量無(wú)任何顯著降級(jí)的情況下完成的。
根據(jù)本發(fā)明的編碼的另一優(yōu)點(diǎn)為此編碼使得對(duì)各種類型的聲音再現(xiàn)系統(tǒng)的適應(yīng)性成為可能,而不管聲音再現(xiàn)系統(tǒng)所裝備有的揚(yáng)聲器的數(shù)目、布置和類型。
事實(shí)上,接收包含三維聲分量的二進(jìn)制序列的解碼器對(duì)所述二進(jìn)制序列進(jìn)行任何階p′的且對(duì)應(yīng)于信號(hào)一旦經(jīng)解碼便希望所用于的聲音再現(xiàn)系統(tǒng)的數(shù)目Q′個(gè)揚(yáng)聲器的反向三維聲變換。
此編碼,如由編碼器1所進(jìn)行,使得有可能基于待編碼元素對(duì)空間準(zhǔn)確度的相應(yīng)貢獻(xiàn)和待編碼元素再現(xiàn)聲音場(chǎng)景中含有的方向的方面,借助于過(guò)程Proc對(duì)待編碼元素排序。
因此,為了適合于所強(qiáng)加的速率約束,通過(guò)刪除布置于位流中的最不相關(guān)元素足以截短所述序列。因此,保證將依據(jù)可用速率來(lái)提供最好的空間質(zhì)量。事實(shí)上,對(duì)元素進(jìn)行排序,使得將對(duì)空間質(zhì)量貢獻(xiàn)最少的元素放置于位流的末尾處。
權(quán)利要求
1. 一種用于對(duì)與待編碼三維聲分量(A1、……、AQ)的相應(yīng)頻譜帶有關(guān)的頻譜參數(shù)(A(k,j),其中(k,j)∈E0)進(jìn)行排序的方法,所述待編碼三維聲分量發(fā)源自包含N個(gè)信號(hào)(Sii=1到N)的音頻場(chǎng)景,其中N>1,所述方法的特征在于其包含以下步驟
a.計(jì)算從待排序的頻譜參數(shù)集合獲取的至少一些頻譜參數(shù)對(duì)角度向量的相應(yīng)影響,所述角度向量是根據(jù)與葛容準(zhǔn)則相關(guān)聯(lián)的能量向量和速度向量定義的,且是根據(jù)與所述經(jīng)量化三維聲分量有關(guān)的反向三維聲變換計(jì)算的;
b.與其它所計(jì)算出的影響相比,根據(jù)針對(duì)至少一個(gè)頻譜參數(shù)計(jì)算出的所述影響將優(yōu)先級(jí)次序(Prio0)分配給所述的至少一個(gè)頻譜參數(shù)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)以下步驟來(lái)進(jìn)行頻譜參數(shù)的所述影響的所述計(jì)算
a.根據(jù)第一速率(D0)對(duì)待編碼的三維聲分量的頻譜參數(shù)的第一集合(A(k,j),其中(k,j)∈E0)進(jìn)行編碼;
b.確定每頻譜帶的第一角度向量
c.確定低于所述第一速率的第二速率(D1);
d.刪除所述待編碼分量的所述當(dāng)前頻譜參數(shù),和根據(jù)第二速率對(duì)所述待編碼分量的剩余頻譜參數(shù)進(jìn)行編碼;
e.確定每頻譜帶的第二角度向量;
f.基于每頻譜帶的所述第一速率和所述第二速率的所述第一角度向量與所述第二角度向量之間的確定偏差來(lái)計(jì)算角度向量變化;
g.針對(duì)待編碼的分量的所述頻譜參數(shù)集合中的所述頻譜參數(shù)中的每一者反復(fù)進(jìn)行步驟d到f以進(jìn)行排序和確定最小角度向量變化;指派給對(duì)應(yīng)于所述最小變化的所述頻譜參數(shù)的所述優(yōu)先級(jí)次序?yàn)樽钚?yōu)先級(jí)次序。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,通過(guò)刪除被指派了優(yōu)先級(jí)次序的所述頻譜參數(shù),以待編碼分量的頻譜參數(shù)的有限集合來(lái)重復(fù)步驟a到g以進(jìn)行排序。
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,以待編碼分量的頻譜參數(shù)的集合重復(fù)步驟a到g以進(jìn)行排序,其中在使用嵌套量化器時(shí)給被指派了優(yōu)先級(jí)次序的所述頻譜參數(shù)分配較低量化速率。
5.根據(jù)前述權(quán)利要求中任一項(xiàng)所述的方法,其中所述能量向量的第一坐標(biāo)是基于公式
所述能量向量的第二坐標(biāo)是基于公式
所述速度向量的第一坐標(biāo)是基于公式
且所述速度向量的第二坐標(biāo)是基于公式
其中所述Ti,i=1到Q,表示在與根據(jù)所述速率的所述量化頻譜參數(shù)有關(guān)的反向三維聲變換的基礎(chǔ)上確定的信號(hào),且所述ξi,i=1到Q,為特定角度。
6.根據(jù)前述權(quán)利要求中任一項(xiàng)所述的方法,其中
-角度向量
的第一坐標(biāo)指示基于所述速度向量的所述第二坐標(biāo)的符號(hào)和所述速度向量的所述第一坐標(biāo)的反余弦的角度;且
-角度向量的第二坐標(biāo)指示基于所述能量向量的所述第二坐標(biāo)的符號(hào)和所述能量向量的所述第一坐標(biāo)的反余弦的角度。
7.一種排序模塊(6),其包含用于實(shí)施根據(jù)前述權(quán)利要求中任一項(xiàng)所述的方法的構(gòu)件。
8.一種音頻編碼器,其經(jīng)設(shè)計(jì)以對(duì)在外出位流中包含N個(gè)相應(yīng)信號(hào)的3D音頻場(chǎng)景進(jìn)行編碼,其中N>1,所述音頻編碼器包含
-變換模塊(3、4),其經(jīng)設(shè)計(jì)以在所述N個(gè)信號(hào)的基礎(chǔ)上確定與三維聲分量的相應(yīng)頻譜帶有關(guān)的頻譜參數(shù);
-根據(jù)權(quán)利要求9所述的排序模塊(6),其經(jīng)設(shè)計(jì)以對(duì)所述三維聲分量的所述頻譜參數(shù)中的至少一些進(jìn)行排序;
-二進(jìn)制序列形成模塊(8),其經(jīng)設(shè)計(jì)以基于由所述排序模塊進(jìn)行的所述排序而形成二進(jìn)制序列,所述二進(jìn)制序列包含指示與待編碼的三維聲分量的相應(yīng)頻譜帶有關(guān)的頻譜參數(shù)的數(shù)據(jù)。
9.一種待安裝于排序模塊(6)中的計(jì)算機(jī)程序,所述程序包含用于在由所述模塊(6)的處理構(gòu)件執(zhí)行所述程序時(shí)實(shí)施根據(jù)權(quán)利要求1到6中任一項(xiàng)所述的方法的步驟的指令。
10.一種二進(jìn)制序列,其包含指示與待編碼的三維聲分量的相應(yīng)頻譜帶有關(guān)的頻譜參數(shù)的數(shù)據(jù),所述二進(jìn)制序列的特征在于此數(shù)據(jù)是依據(jù)根據(jù)權(quán)利要求1到6中任一項(xiàng)所述的排序方法來(lái)排序的。
全文摘要
本發(fā)明涉及一種用于對(duì)待編碼的三維聲分量(A1、……、AQ)的頻譜參數(shù)進(jìn)行排序的方法,所述待編碼的三維聲分量發(fā)源自包含N個(gè)信號(hào)(Sii=1到N)的音頻場(chǎng)景,其中N>1,所述方法包含以下步驟計(jì)算從待排序的頻譜參數(shù)集合獲取的至少一些頻譜參數(shù)對(duì)角度向量的相應(yīng)影響,所述角度向量是根據(jù)與葛容準(zhǔn)則相關(guān)聯(lián)的能量向量和速度向量定義的,且是根據(jù)與所述經(jīng)量化三維聲分量有關(guān)的反向三維聲變換計(jì)算的;以及與其它所計(jì)算出的影響相比,根據(jù)針對(duì)至少一個(gè)頻譜參數(shù)計(jì)算出的影響將優(yōu)先級(jí)次序分配給所述頻譜參數(shù)。
文檔編號(hào)G10L19/008GK101790753SQ200880019772
公開(kāi)日2010年7月28日 申請(qǐng)日期2008年4月16日 優(yōu)先權(quán)日2007年5月10日
發(fā)明者艾迪·莫辛, 阿巴德拉蒂夫·本杰隆·圖伊米 申請(qǐng)人:法國(guó)電信