技術(shù)領(lǐng)域
本發(fā)明涉及用于回放指定給視頻信號(hào)的更高階立體混響(Higher-Order Ambisonics)音頻信號(hào)的方法和設(shè)備,該視頻信號(hào)是對(duì)原始和不同的屏幕而生成的但是將被呈現(xiàn)在當(dāng)前屏幕上。
背景技術(shù):
一種存儲(chǔ)和處理球形麥克風(fēng)陣列的三維聲場(chǎng)的方式是更高階立體混響(HOA)表示。立體混響使用標(biāo)準(zhǔn)正交球形函數(shù)用于描述位于原點(diǎn)或空間中基準(zhǔn)點(diǎn)(也稱為蜜點(diǎn))及其附近的區(qū)域中的聲場(chǎng)。如此描述的精度通過(guò)立體混響階N來(lái)確定,其中,有限數(shù)的立體混響系數(shù)描述聲場(chǎng)。球形陣列的最大立體混響階通過(guò)麥克風(fēng)精盒(microphone capsule)的數(shù)量來(lái)限制,所述數(shù)量必須等于或大于立體混響系數(shù)的數(shù)量O=(N+1)2。這樣的立體混響表示的優(yōu)勢(shì)在于聲場(chǎng)的再現(xiàn)可以單獨(dú)地適配于近乎任何給定揚(yáng)聲器位置排列。
技術(shù)實(shí)現(xiàn)要素:
雖然促進(jìn)空間音頻的靈活通用的表示非常獨(dú)立于揚(yáng)聲器設(shè)置,與不同尺寸屏幕上的音頻回放的組合可以變得分散,因?yàn)榭臻g聲音回放未被相應(yīng)地適配。
立體和環(huán)繞聲基于離散揚(yáng)聲器聲道,并且涉及視頻顯示關(guān)于在哪里放置揚(yáng)聲器存在非常特定的規(guī)則。例如,在影院環(huán)境下,在屏幕的中央放置中央揚(yáng)聲器,而在屏幕的左側(cè)和右側(cè)放置左揚(yáng)聲器和右揚(yáng)聲器。因而,揚(yáng)聲器設(shè)置固有地隨屏幕變動(dòng):對(duì)于小屏幕,揚(yáng)聲器彼此更接近,而對(duì)于巨屏,它們則遠(yuǎn)離。這樣的優(yōu)勢(shì)是混音可以以非常連貫的方式完成:有關(guān)屏幕上的可視對(duì)象的聲音對(duì)象可以可靠地放置在左聲道、中央聲道和右聲道。因此,聽(tīng)眾的體驗(yàn)在混音級(jí)上匹配聲音藝術(shù)家的創(chuàng)造性意圖。
但是這樣的優(yōu)勢(shì)同時(shí)也是基于聲道系統(tǒng)的劣勢(shì):對(duì)于改變揚(yáng)聲器設(shè)置,靈活度非常有限。該劣勢(shì)隨著揚(yáng)聲器聲道數(shù)量的增加而增加。例如,7.1和22.2格式要求各個(gè)揚(yáng)聲器的精確安裝并且極其難以適配音頻內(nèi)容到次佳揚(yáng)聲器位置。
基于聲道系統(tǒng)的另一劣勢(shì)是:優(yōu)先效應(yīng)限制了在左聲道、中央聲道和右聲道之間搖移(pan)聲音對(duì)象的能力,特別是對(duì)于類似影院環(huán)境下的大型聆聽(tīng)設(shè)置。對(duì)于偏心聆聽(tīng)位置,搖移的音頻對(duì)象可以“落在”最靠近聽(tīng)眾的揚(yáng)聲器上。因而,很多電影已經(jīng)和重要的屏幕相關(guān)的聲音混音,特別是排他地映射到中央聲道上的對(duì)話,借此,獲得屏幕上那些聲音的非常穩(wěn)定的定位,但是是以整體聲音現(xiàn)場(chǎng)的次佳寬敞度為代價(jià)。
通常對(duì)后置環(huán)繞聲道選擇類似的妥協(xié):因?yàn)椴シ拍切┞暤赖膿P(yáng)聲器的精確定位在制作時(shí)難以知曉,并且因?yàn)槟切┞暤赖拿芏认喈?dāng)?shù)停ǔH環(huán)境聲音和未校正項(xiàng)被混音到環(huán)繞聲道。因而,環(huán)繞聲道中的明顯再現(xiàn)錯(cuò)誤的概率可以降低,但是是以不能如實(shí)地在任何地點(diǎn)而是在屏幕上(或甚至在如上所述的中央聲道上)放置離散聲音對(duì)象為代價(jià)。
如上所述,在不同尺寸屏幕上的空間音頻和視頻回放的組合可以變得分散,因?yàn)榭臻g聲音回放未被相應(yīng)地適配。取決于實(shí)際屏幕尺寸是否匹配在再現(xiàn)中使用的尺寸,聲音對(duì)象的方向可以偏離屏幕上可視對(duì)象的方向。例如,如果已經(jīng)在小屏幕的環(huán)境中進(jìn)行了混音,則耦合到屏幕對(duì)象的聲音對(duì)象(例如,演員的發(fā)音)將被定位在從混音器的位置看去相對(duì)狹窄的錐體。如果此內(nèi)容受控于基于聲場(chǎng)的表示并且在具有大很多的屏幕的影院環(huán)境中回放,則在屏幕的寬視場(chǎng)與屏幕相關(guān)聲音對(duì)象的窄錐體之間存在明顯失配。對(duì)象的可視圖像的位置和對(duì)應(yīng)聲音的位置之間的巨大失配會(huì)分散觀眾注意力并且因而嚴(yán)重地影響電影的感知。
更近地,已經(jīng)提出音頻現(xiàn)場(chǎng)的參數(shù)表示或面向?qū)ο蟊硎?,其通過(guò)單獨(dú)音頻對(duì)象和參數(shù)及特性的集合的組合來(lái)描述音頻現(xiàn)場(chǎng)。例如,主要對(duì)處理波場(chǎng)綜合系統(tǒng)已經(jīng)提出面向?qū)ο蟋F(xiàn)場(chǎng)描述,例如,在Sandra Brix、Thomas Sporer、Jan Plogsties于Proc.of 110th AES Convention,Paper 5314,2001年5月12-15日,在荷蘭阿姆斯特丹發(fā)表的“CARROUSO–An European Approach to 3D-Audio”,以及在Ulrich Horbach、Etienne Corteel、Renato S.Pellegrini和Edo Hulsebos于Proc.of IEEE Intl.Conf.on Multimedia and Expo(ICME),pp.517-520,2002年8月,瑞士Lausanne,發(fā)表的“Real-Time Rendering of Dynamic Scenes Using Wave Field Synthesis”中。
EP 1518443 B1描述了應(yīng)對(duì)使音頻回放適配于可視屏幕尺寸的問(wèn)題的兩種不同途徑。第一種途徑對(duì)每一個(gè)聲音對(duì)象取決于其對(duì)基準(zhǔn)點(diǎn)方向和距離以及與相機(jī)和投影裝備的孔徑角(opening angle)和位置類似的參數(shù),單獨(dú)確定回放位置。實(shí)際上,在對(duì)象的可見(jiàn)性和相關(guān)混音之間的如此緊密的耦合不是典型的,相反,混音與相關(guān)可見(jiàn)對(duì)象的某些偏差可以實(shí)際上出于藝術(shù)原因而容忍。此外,區(qū)分直達(dá)聲和環(huán)境聲音是重要的。最后但不是最不重要的,物理相機(jī)和投影參數(shù)的合并相當(dāng)復(fù)雜,并且這樣的參數(shù)不總是可用。第二種途徑(比較權(quán)利要求16)描述了根據(jù)以上步驟的聲音對(duì)象的預(yù)計(jì)算,但是假設(shè)屏幕具有固定的基準(zhǔn)尺寸。該方案要求全部位置參數(shù)(在笛卡爾坐標(biāo)中)的線性縮放用于將屏幕適配到比基準(zhǔn)屏幕大或小的屏幕上。然而,這意味著,適配到雙倍尺寸屏幕也導(dǎo)致到聲音對(duì)象的虛擬距離的翻倍。沒(méi)有相對(duì)于基準(zhǔn)座位(即,蜜點(diǎn))中的聽(tīng)眾的聲音對(duì)象的角度位置中的任何改變,這只是聽(tīng)覺(jué)現(xiàn)場(chǎng)的“氣息音”而已。對(duì)于角坐標(biāo)中屏幕的相對(duì)尺寸(孔徑角)的改變,不可能通過(guò)此途徑產(chǎn)生可行的聆聽(tīng)結(jié)果。
在EP 1318502 B1中描述面向?qū)ο舐曇衄F(xiàn)場(chǎng)描述格式的另一示例。這里,除了包括不同的聲音對(duì)象及其特性之外,音頻現(xiàn)場(chǎng)還包括關(guān)于要再現(xiàn)的房間的特性的信息以及關(guān)于基準(zhǔn)屏幕的水平和垂直孔徑角的信息。在解碼器中,類似于EP 1518443 B1中的原理,確定實(shí)際可用屏幕的位置和尺寸,并且單獨(dú)地最優(yōu)化聲音對(duì)象的回放以匹配基準(zhǔn)屏幕。
例如,在PCT/EP2011/068782中,已經(jīng)對(duì)聲場(chǎng)的通用空間表示提出了面向聲場(chǎng)的類似更高階立體混響HOA的音頻格式,并且在記錄和回放方面,面向聲場(chǎng)的處理提供通用性和實(shí)踐性之間極好的平衡,因?yàn)樗梢钥s放到實(shí)際上任意的空間分辨率,類似于面向?qū)ο蟾袷降哪菢印A硪环矫?,一些直接記錄和再現(xiàn)技術(shù)存在,其對(duì)比對(duì)面向?qū)ο蟾袷揭蟮耐耆铣傻谋硎?,允許得到真實(shí)聲場(chǎng)的自然記錄。顯然,因?yàn)槊嫦蚵晥?chǎng)的音頻內(nèi)容不包括關(guān)于單獨(dú)聲音對(duì)象的任何信息,所以以上對(duì)使面向?qū)ο蟾袷竭m配到不同屏幕尺寸而介紹的機(jī)制不能得以應(yīng)用。
如今,僅有少量描述用于控制在面向聲場(chǎng)的音頻現(xiàn)場(chǎng)中包含的單獨(dú)聲音對(duì)象的相對(duì)位置的裝置的公開(kāi)可用。例如在Richard Schultz-Amling、FabianKuech、Oliver Thiergart、Markus Kallinger于2010年5月22-25日在英國(guó)倫敦的“Acoustical Zooming Based on a Parametric Sound Field Representation”,128th AES Convention,Paper 8120中描述的一系列算法要求將聲場(chǎng)分解為有限數(shù)量的離散聲音對(duì)象??梢钥刂七@些聲音對(duì)象的位置參數(shù)。此途徑具有如下劣勢(shì):音頻現(xiàn)場(chǎng)分解易出錯(cuò)并且在確定音頻對(duì)象時(shí)的任何錯(cuò)誤將極可能導(dǎo)致聲音重現(xiàn)的人為產(chǎn)物。
很多出版物涉及將HOA內(nèi)容的回復(fù)最優(yōu)化到“靈活回放布局”,例如,以上引用的Brix文章以及Franz Zotter、HannesPomberger、Markus Noisternig于2010年5月6-7日在法國(guó)巴黎的Proc.of the 2nd International Symposium on Ambisonics and Spherical Acoustics上的“Ambisonic Decoding With and Without Mode-Matching:A Case Study Using the Hemisphere”。這些技術(shù)處理使用不規(guī)則間隔的揚(yáng)聲器的問(wèn)題,但是它們都沒(méi)有對(duì)準(zhǔn)改變音頻現(xiàn)場(chǎng)的空間構(gòu)成。
本發(fā)明要解決的問(wèn)題是空間音頻內(nèi)容對(duì)不同尺寸的視頻屏幕的適配,該音頻內(nèi)容已被表示為聲場(chǎng)分解的系數(shù),從而屏幕上對(duì)象的聲音回復(fù)位置與對(duì)應(yīng)的可視位置匹配。通過(guò)在權(quán)利要求1中公開(kāi)的方法解決此問(wèn)題。在權(quán)利要求2中公開(kāi)了使用此方法的設(shè)備。
本發(fā)明允許面向空間聲場(chǎng)的音頻的回放對(duì)其鏈接可視對(duì)象的系統(tǒng)性適配。因而,滿足了用于對(duì)電影的空間音頻的可信再現(xiàn)的顯然的先決條件。
根據(jù)本發(fā)明,結(jié)合諸如在PCT/EP2011/068782和EP 11192988.0中公開(kāi)的那些格式之類的面向聲場(chǎng)的音頻格式,通過(guò)應(yīng)用在EP 11305845.7中公開(kāi)的空間彎曲處理將面向聲場(chǎng)的音頻現(xiàn)場(chǎng)被適配到不同的視頻屏幕尺寸。有利處理是編碼并傳輸與內(nèi)容一起在內(nèi)容制作中使用的屏幕的基準(zhǔn)尺寸(或者從基準(zhǔn)聆聽(tīng)位置的視角)作為元數(shù)據(jù)。
替代地,在編碼中和對(duì)解碼假定固定的基準(zhǔn)屏幕尺寸,并且解碼器知道目標(biāo)屏幕的實(shí)際尺寸。解碼器以如下方式彎曲聲場(chǎng):根據(jù)目標(biāo)屏幕的尺寸和基準(zhǔn)屏幕的尺寸的比率壓縮或拉伸在屏幕的方向上的全部聲音對(duì)象。這可以借助于例如如下說(shuō)明的簡(jiǎn)單的雙段分段線性彎曲函數(shù)(two-segment piecewise linear warping function)完成。與上述現(xiàn)有技術(shù)相反,此拉伸基本上限制于聲音項(xiàng)的角位置,并且不需要導(dǎo)致聲音對(duì)象距聆聽(tīng)區(qū)域的距離的改變。在下面描述發(fā)明的一些實(shí)施例,其允許控制聲音現(xiàn)場(chǎng)的哪部分應(yīng)當(dāng)或不應(yīng)當(dāng)被操控。
原則上,發(fā)明方法適用于回放指定給視頻信號(hào)的原始更高階立體混響音頻信號(hào)的方法,上述視頻信號(hào)是對(duì)原始和不同的屏幕而生成的但是將被呈現(xiàn)在當(dāng)前屏幕上,所述方法包括如下步驟:
-解碼所述更高階立體混響音頻信號(hào)以提供解碼的音頻信號(hào);
-接收或建立從所述原始屏幕和所述當(dāng)前屏幕在它們的寬度并且可能在它們的高度并且可能在它們的彎曲度之間的差異得出的再現(xiàn)適配信息;
-通過(guò)在空間域中彎曲它們來(lái)適配所述解碼的音頻信號(hào),其中,所述再現(xiàn)適配信息控制所述彎曲,從而對(duì)于當(dāng)前屏幕的觀眾和所述適配的解碼的音頻信號(hào)的聽(tīng)眾,由所述適配的解碼的音頻信號(hào)表示的至少一個(gè)音頻對(duì)象的感知位置匹配所述屏幕上的相關(guān)視頻對(duì)象的感知位置;
-對(duì)揚(yáng)聲器重現(xiàn)和輸出適配的解碼的音頻信號(hào)。
原則上,發(fā)明設(shè)備適用于回放指定給視頻信號(hào)的原始更高階立體混響音頻信號(hào),所述視頻信號(hào)是對(duì)原始和不同的屏幕而生成的但是將被呈現(xiàn)在當(dāng)前屏幕上,所述設(shè)備包括:
-適配于解碼所述更高階立體混響音頻信號(hào)以提供解碼的音頻信號(hào)的裝置;
-適配于接收或建立從所述原始屏幕和所述當(dāng)前屏幕在它們的寬度并且可能在它們的高度并且可能在它們的彎曲度之間的差異得出的再現(xiàn)適配信息的裝置;
-適配于通過(guò)在空間域中彎曲它們來(lái)適配所述解碼的音頻信號(hào)的裝置,其中,所述再現(xiàn)適配信息控制所述彎曲,從而對(duì)于當(dāng)前屏幕的觀眾和所述適配的解碼的音頻信號(hào)的聽(tīng)眾,由所述適配的解碼的音頻信號(hào)表示的至少一個(gè)音頻對(duì)象的感知位置匹配所述屏幕上的相關(guān)視頻對(duì)象的感知位置;
-適配于對(duì)揚(yáng)聲器重現(xiàn)和輸出適配的解碼的音頻信號(hào)的裝置。
本發(fā)明的有利的額外實(shí)施例在各自的從屬權(quán)利要求中公開(kāi)。
附圖說(shuō)明
參考附圖描述本發(fā)明的示例性實(shí)施例,其示出:
圖1示例工作室環(huán)境;
圖2示例影院環(huán)境;
圖3彎曲函數(shù)f(φ);
圖4權(quán)函數(shù)g(φ);
圖5原始權(quán)重;
圖6彎曲之后的權(quán)重;
圖7彎曲矩陣;
圖8已知HOA處理;
圖9根據(jù)本發(fā)明的處理。
具體實(shí)施方式
圖1示出具有基準(zhǔn)點(diǎn)和屏幕的示例工作室環(huán)境,而圖2示出具有基準(zhǔn)點(diǎn)和屏幕的示例影院環(huán)境。不同的投影環(huán)境導(dǎo)致從基準(zhǔn)點(diǎn)看去屏幕的不同孔徑角。借助于現(xiàn)有技術(shù)的面向聲場(chǎng)回放技術(shù),在工作室環(huán)境中產(chǎn)生的音頻內(nèi)容(孔徑角60°)將不匹配影院環(huán)境中的屏幕內(nèi)容(孔徑角90°)。在工作室環(huán)境中的孔徑角60°必須同音頻內(nèi)容一起傳輸以便于允許內(nèi)容對(duì)回放環(huán)境的不同特性的適配。
為了易理解,這些圖簡(jiǎn)化情形為2D場(chǎng)景。
在更高階立體混響理論中,經(jīng)由傅里葉巴塞爾序列的系數(shù)描述空間音頻場(chǎng)景。對(duì)于無(wú)源列(source-free volume),聲壓被描述為球坐標(biāo)的函數(shù)(半徑r,傾角θ,方位角φ和空間頻率(c是聲音在空氣中的速度)):
其中,jn(kr)是第一類的球型巴塞爾函數(shù),其描述了徑向從屬性,是球調(diào)和函數(shù)(SH,Spherical Harmonics),其實(shí)際上是實(shí)數(shù),而N是立體混響階。
通過(guò)在EP 11305845.7中公開(kāi)的技術(shù)可以彎曲音頻現(xiàn)場(chǎng)的空間構(gòu)成。
可以改變音頻現(xiàn)場(chǎng)的二維或三維更高階立體混響HOA表示中包含的聲音對(duì)象的相對(duì)位置,其中,具有維度Oin的輸入向量Ain確定輸入信號(hào)的傅里葉序列的系數(shù),而具有維度Oout的輸出向量Aout確定相應(yīng)改變的輸出信號(hào)的傅里葉序列的系數(shù)。使用模式矩陣ψ1的逆通過(guò)計(jì)算將輸入HOA系數(shù)的輸入向量Ain解碼為針對(duì)規(guī)則布置的揚(yáng)聲器位置的空間域中的輸入信號(hào)sin。通過(guò)計(jì)算Aout=Ψ2sin在空間域中將輸入信號(hào)sin彎曲并解碼為已適配輸出HOA系數(shù)的輸出向量Aout,其中根據(jù)彎曲函數(shù)f(φ)修改模式矩陣ψ2的模式向量,借助于該彎曲函數(shù)f(φ),原始揚(yáng)聲器位置的角度被一對(duì)一地映射到輸出向量Aout中的目標(biāo)揚(yáng)聲器位置的目標(biāo)角。
可以通過(guò)向虛擬揚(yáng)聲器輸出信號(hào)sin應(yīng)用增益加權(quán)函數(shù)g(φ)對(duì)抗(counter)揚(yáng)聲器密度的修改,導(dǎo)致信號(hào)sout。原則上,可以指定任何加權(quán)函數(shù)g(φ)。已經(jīng)經(jīng)驗(yàn)性地確定一個(gè)特別有利的變量為與彎曲函數(shù)f(φ)的導(dǎo)數(shù)成比例:借助于此特定加權(quán)函數(shù),假定適當(dāng)高的內(nèi)階和輸出階,在特定彎曲角度的搖移函數(shù)f(φ)的幅度保持等于在原始角φ的原始搖移函數(shù)。因而,獲得每個(gè)孔徑角的同類聲音平衡(幅度)。對(duì)于三維立體混響,增益函數(shù)在φ方向和在θ方向上是
其中,φε是小方位角。
通過(guò)使用尺寸Owarp×Owarp變換矩陣可以共同地進(jìn)行解碼、加權(quán)和彎曲/解碼,其中,diag(w)表示具有窗口向量值w作為其主對(duì)角的分量的對(duì)角矩陣,diag(g)表示具有增益函數(shù)值g作為其增益對(duì)角的分量的對(duì)角矩陣。為了變形變換矩陣T以獲得尺寸Oout×Oin,變換矩陣T的對(duì)應(yīng)列和/或線被移除以進(jìn)行空間彎曲操作Aout=TAin。
圖3到圖7圖示了在二維(圓形)情況下的空間彎曲,并且示出了用于圖1/2中的情形的分段線性彎曲函數(shù)的示例及其對(duì)13個(gè)規(guī)則布置的示例揚(yáng)聲器的搖移函數(shù)的影響。系統(tǒng)以1.5的因子拉伸在前方的聲場(chǎng)以適配在影院中的較大屏幕。因此,來(lái)自其他方向的聲音項(xiàng)被壓縮。彎曲函數(shù)f(φ)類似于具有單一實(shí)數(shù)參數(shù)的離散時(shí)間全通濾波器的相位響應(yīng),并且在圖3中示出。對(duì)應(yīng)的加權(quán)函數(shù)g(φ)在圖4中示出。
圖7描繪了13×65個(gè)單步變換彎曲矩陣T。矩陣的單獨(dú)系數(shù)的對(duì)數(shù)性絕對(duì)值用根據(jù)所附灰度或陰影條的灰度或陰影型指示。已經(jīng)對(duì)Norig=6的輸入HOA階和Nwarp=32的輸出階設(shè)計(jì)此示例矩陣。要求較高的輸出階以便于捕獲由從低階系數(shù)到高階系數(shù)的變換展開(kāi)的大部分信息。
此特定彎曲矩陣的有用特性在于其有效部分為零。這允許在實(shí)現(xiàn)此操作時(shí)節(jié)約大量的計(jì)算能力。圖5和圖6圖示了由一些平面波產(chǎn)生的波束圖案的彎曲特性。兩個(gè)圖都是從在φ位置0、2/13π、4/13π、6/13π、...、22/13π和22/13π的相同十三個(gè)輸入平面波得出的,全部具有一致的幅度“一”,且示出十三個(gè)角幅度分布,即,超定的結(jié)果向量s,規(guī)則解碼操作s=Ψ-1A,其中,HOA向量A是平面波的集合的或原始或彎曲的變量。圓之外的數(shù)字表示角度φ。虛擬揚(yáng)聲器的數(shù)量可觀地高于HOA參數(shù)的數(shù)量。用于來(lái)自前方的平面波的幅度分布或波束圖案位于φ=0。
圖5示出原始HOA表示的權(quán)重和幅度分布。全部十三個(gè)分布都相似地形成并且突出主波瓣的相同寬度。圖6示出對(duì)相同聲音對(duì)象的權(quán)重和幅度分布,但是是在已經(jīng)進(jìn)行彎曲操作之后。對(duì)象已經(jīng)從φ=0的前方遠(yuǎn)離并且該前方附近的主波瓣變得更加寬闊。通過(guò)更高階Nwarp=32的彎曲HOA向量促進(jìn)波束圖案的這些修改。用在空間中變化的局部階創(chuàng)建混階(mixed-order)信號(hào)。
為了得出對(duì)將音頻現(xiàn)場(chǎng)的回放適配于實(shí)際屏幕配置的合適彎曲特性f(φin),除了HOA系數(shù)之外還發(fā)送或提供了額外信息。例如,在混音處理中使用的基準(zhǔn)屏幕的以下特性可以被包括在位流中:
·屏幕中央的方向,
·寬度,
·基準(zhǔn)屏幕的高度,
全部都在從基準(zhǔn)聆聽(tīng)位置測(cè)量(即,“蜜點(diǎn)”)的極化坐標(biāo)中。
另外,對(duì)特殊應(yīng)用可以要求以下參數(shù):
·屏幕的形狀,例如,它是平的或是球形,
·屏幕的距離,
·關(guān)于在立體3D視頻投影情況中的最大和最小可視深度的信息。
對(duì)于本領(lǐng)域技術(shù)人員已知這樣的元數(shù)據(jù)如何編碼。
接著,假定編碼的音頻位流包括至少以上三個(gè)參數(shù),中央的方向、基準(zhǔn)屏幕的寬度和高度。為了理解,進(jìn)一步假定實(shí)際屏幕的中央與基準(zhǔn)屏幕的中央一致,例如,直接在聽(tīng)眾的前方。此外,假定,僅以2D格式表示聲場(chǎng)(相比于3D格式)并且這個(gè)的傾角的改變被忽略(例如,如當(dāng)選擇的HOA格式表示無(wú)垂直分量時(shí),或者其中聲音編輯認(rèn)為圖片和屏幕上聲源的傾角之間的失配將足夠小從而普通觀察者將不會(huì)注意到它們。)對(duì)任意屏幕位置和3D情況的轉(zhuǎn)變對(duì)于本領(lǐng)域技術(shù)人員是直接的。進(jìn)一步,出于簡(jiǎn)單而假定屏幕結(jié)構(gòu)是球型。
借助這些假定,僅屏幕的寬度可以在內(nèi)容和實(shí)際設(shè)置之間變化。下面,定義合適的兩段分段式線性彎曲特性。由孔徑角2φw,a定義實(shí)際屏幕寬度(即,φw,a描述半角)。由角度φw,r定義基準(zhǔn)屏幕寬度,并且此值是在位流內(nèi)傳遞的元信息的部分。對(duì)于在前方上(即,在視頻屏幕上)的聲音對(duì)象的可信再現(xiàn),聲音對(duì)象的全部位置(在極化坐標(biāo)中)將由因子φw,a/φw,r操控。相反,在其他方向上的全部聲音對(duì)象應(yīng)當(dāng)根據(jù)剩余空間而移動(dòng)。彎曲特性導(dǎo)致
否則
對(duì)獲得此特性所要求的彎曲操作可以以在EP 11305845.7中公開(kāi)的規(guī)則構(gòu)建。例如,其結(jié)果是,可以得出單步線性彎曲運(yùn)算符,該運(yùn)算符在所操控的向量被輸入HOA重現(xiàn)處理之前被應(yīng)用于每一個(gè)HOA向量。以上示例是很多可能彎曲特性中的一個(gè)。可以應(yīng)用其他特性以便于找到復(fù)雜度和在操作之后剩余的失真量之間的平衡。例如,如果應(yīng)用簡(jiǎn)單分段線性彎曲特性用于制造3D聲場(chǎng)重現(xiàn),則可以產(chǎn)生空間再現(xiàn)的典型枕型失真和桶形失真,但是如果因子φw,a/φw,r接近“一”,可以忽略空間重現(xiàn)的這樣的失真。對(duì)于很大或很小的因子,可以應(yīng)用更復(fù)雜的彎曲特性,其最小化空間失真。
另外,如果所選擇的HOA表示確實(shí)規(guī)定了傾角且聲音編輯認(rèn)為屏幕所對(duì)的垂直角是重要的,則可以對(duì)傾角應(yīng)用基于屏幕的角高度θh(半高)和有關(guān)因子(例如,實(shí)際高度對(duì)基準(zhǔn)高度的比率θh,a/θh,r)的類似等式作為彎曲操作符的部分。
如另一示例,假定在聽(tīng)眾前方,取代球形屏幕的純平屏幕可能要求比上述示例性特性更為精致的彎曲特性。再次,這可以僅以寬度或僅以寬度+高度彎曲關(guān)注其自身。
上述示例性實(shí)施例具有固定和極易于實(shí)現(xiàn)的優(yōu)勢(shì)。另一方面,不允許來(lái)自生產(chǎn)側(cè)的適配處理的任何控制。以下實(shí)施例介紹用于以不同方式的更多控制的處理。
實(shí)施例1:屏幕相關(guān)聲音和其他聲音之間的分離
由于各種原因可能要求這樣的控制技術(shù)。例如,不是音頻現(xiàn)場(chǎng)中的全部聲音對(duì)象直接與屏幕上的可見(jiàn)對(duì)象耦合,并且操控不同于環(huán)境聲的直達(dá)聲可以是有利的。可以在重現(xiàn)側(cè)通過(guò)現(xiàn)場(chǎng)分析進(jìn)行此區(qū)分。然而,通過(guò)向傳輸位流增加額外信息可以顯著地改善和控制。理想化地,對(duì)實(shí)際屏幕特性適配何種聲音項(xiàng)以及何種聲音項(xiàng)不處理的決定應(yīng)當(dāng)留給進(jìn)行聲音混音的藝術(shù)家。
向重現(xiàn)處理傳輸此信息的不同方式是可能的:
·在位流內(nèi)定義兩個(gè)完全集合的HOA系數(shù)(信號(hào)),一個(gè)用于描述有關(guān)可見(jiàn)項(xiàng)的對(duì)象而另一個(gè)用于表示獨(dú)立或環(huán)境聲音。在解碼器中,僅第一HOA信號(hào)將經(jīng)歷對(duì)實(shí)際屏幕布局(geometry)的適配而另一個(gè)則未處理。在回放之前,組合所操控的第一HOA信號(hào)和未修改第二HOA信號(hào)。
作為示例,聲音工程師可以決定將類似對(duì)話的屏幕相關(guān)聲音或特定的弗雷(Foley)項(xiàng)混合到第一信號(hào)中,并且將環(huán)境聲音混合到第二新號(hào)中。以此方式,無(wú)論對(duì)音頻/視頻信號(hào)的回放使用哪個(gè)屏幕,環(huán)境將總是保持一致。
這種處理具有額外優(yōu)勢(shì),可以對(duì)特定類型的信號(hào)單獨(dú)地最優(yōu)化兩個(gè)構(gòu)成子信號(hào)的HOA階,由此,用于屏幕相關(guān)聲音對(duì)象(即,第一子信號(hào))的HOA階高于對(duì)環(huán)境信號(hào)分量(即,第二子聲音)使用的HOA階。
·經(jīng)由附著于時(shí)空頻率瓦(tile)的標(biāo)識(shí),將聲音的映射定義為屏幕相關(guān)的或屏幕獨(dú)立的。出于此目的,例如,經(jīng)由平面波分解確定HOA信號(hào)的空間特性。然后,對(duì)時(shí)間分段(分窗口)和時(shí)頻轉(zhuǎn)換輸入每一個(gè)空間域信號(hào)。由此,將定義瓦的三維集合,其可以例如由聲明該瓦的內(nèi)容是否應(yīng)當(dāng)被適配于實(shí)際屏幕布局的二進(jìn)制標(biāo)識(shí)單獨(dú)地標(biāo)記。此子實(shí)施例比之前的子實(shí)施例更為有效,但是它限制了定義聲音現(xiàn)場(chǎng)的哪個(gè)部分應(yīng)當(dāng)被操控或不被操控的靈活性。
實(shí)施例2:動(dòng)態(tài)適配
在一些應(yīng)用中,將要求以動(dòng)態(tài)方式改變被發(fā)信號(hào)(signalled)的基準(zhǔn)屏幕特性。例如,音頻內(nèi)容可以是從不同混音連結(jié)重新調(diào)整的內(nèi)容分段的結(jié)果。在此情況下,描述基準(zhǔn)屏幕參數(shù)的參數(shù)將隨時(shí)間改變,并且動(dòng)態(tài)地改變適配算法:對(duì)于屏幕參數(shù)的每一個(gè)改變,對(duì)應(yīng)地重新計(jì)算所應(yīng)用的彎曲函數(shù)。
另一應(yīng)用示例起于混合對(duì)最終可視視頻和音頻現(xiàn)場(chǎng)的不同子部分已準(zhǔn)備的不同HOA流。然后,有利的是,考慮處于共同位流中的多于一個(gè)(或以上用實(shí)施例1多于兩個(gè))HOA信號(hào),每一個(gè)都具有其單獨(dú)的屏幕特性。
實(shí)施例3:替代實(shí)現(xiàn)
取代在經(jīng)由固定HOA解碼器的解碼之前的彎曲HOA表示,關(guān)于如何適配信號(hào)到實(shí)際屏幕特性的信息可以被集成到解碼器設(shè)計(jì)中。此實(shí)現(xiàn)是對(duì)在以上示例性實(shí)施例中描述的基本實(shí)現(xiàn)的替代。然而,它不改變?cè)谖涣鲀?nèi)的屏幕特性的發(fā)信號(hào)。
在圖8中,HOA編碼的信號(hào)被存儲(chǔ)在存儲(chǔ)設(shè)備82中。為了在影院中的呈現(xiàn),來(lái)自設(shè)備82的HOA表示的信號(hào)在HOA解碼器83中被HOA解碼,穿過(guò)再現(xiàn)器85,并且對(duì)于一組揚(yáng)聲器輸出為揚(yáng)聲器信號(hào)81。
在圖9中,HOA編碼的信號(hào)被存儲(chǔ)在存儲(chǔ)設(shè)備92中。為了例如在影院中的呈現(xiàn),來(lái)自設(shè)備92的HOA表示的信號(hào)在HOA解碼器93中被HOA解碼,穿過(guò)彎曲級(jí)94到再現(xiàn)器95,并且對(duì)于一組揚(yáng)聲器輸出為揚(yáng)聲器信號(hào)91。彎曲級(jí)94接收上述再現(xiàn)適配信息90,并相應(yīng)地使用它用于適配已解碼的HOA信號(hào)。