本發(fā)明涉及一種用于音頻信號(hào)的分布式渲染的方法。
背景技術(shù):
1、雙耳音頻內(nèi)容(例如,采用旨在用于在頭戴式耳機(jī)上或在具有串?dāng)_消除的擴(kuò)音器系統(tǒng)上回放的立體聲音頻信號(hào)的形式)越來(lái)越受歡迎。例如,可以使用頭部相關(guān)傳遞函數(shù)(hrtf)將基于對(duì)象的音頻內(nèi)容渲染為用于頭戴式耳機(jī)的雙耳立體聲呈現(xiàn)。基于對(duì)象的音頻內(nèi)容包括與三維空間中的位置(可選地時(shí)變的位置)相關(guān)聯(lián)的一個(gè)或多個(gè)音頻對(duì)象。例如,音頻對(duì)象可以旨在被收聽(tīng)者感知為在收聽(tīng)者右側(cè)、在收聽(tīng)者上方或沿著收聽(tīng)者周圍的軌跡移動(dòng)的音頻對(duì)象。因此,基于對(duì)象的音頻可以為收聽(tīng)者提供增強(qiáng)沉浸感的聲學(xué)效果。
2、已經(jīng)開(kāi)發(fā)了hrtf,其作為收聽(tīng)者頭部的取向和/或位置的函數(shù)描述了耳間時(shí)差、耳間電平差、人耳中發(fā)生的反射和人耳的頻率響應(yīng)。使用這種hrtf,可以為三維空間中音頻對(duì)象的任意靜態(tài)或動(dòng)態(tài)布置生成雙耳音頻信號(hào)。另外,通常添加房間反射和/或混響來(lái)創(chuàng)建感知距離和空間的感覺(jué)。
3、在一些情況下,基于對(duì)象的音頻內(nèi)容的渲染是基于收聽(tīng)者的取向和/或位置來(lái)基本上實(shí)時(shí)調(diào)整的,以便使音頻對(duì)象固定到環(huán)境中,而不是固定到收聽(tīng)者的頭部。因此,當(dāng)收聽(tīng)者移動(dòng)他/她的頭部時(shí),渲染被調(diào)整成使得聲學(xué)圖像對(duì)應(yīng)地移位,從而使收聽(tīng)者感知到音頻對(duì)象固定在空間中,而不是固定到他/她的頭部。作為示例,首先向收聽(tīng)者呈現(xiàn)將音頻對(duì)象渲染為被感知為位于收聽(tīng)者右側(cè)的音頻呈現(xiàn)。如果收聽(tīng)者轉(zhuǎn)向并面向相反方向,則由取向檢測(cè)器記錄這種取向變化,所述取向檢測(cè)器進(jìn)而將此信息提供給渲染器,所述渲染器對(duì)渲染進(jìn)行修改以提供將音頻對(duì)象呈現(xiàn)為被感知為位于收聽(tīng)者左側(cè)的經(jīng)修改的呈現(xiàn)。這樣做的效果是,音頻對(duì)象就像是固定在收聽(tīng)者的環(huán)境中一樣,其中,收聽(tīng)者能夠在此空間內(nèi)移動(dòng)和/或使他/她自己重新定向。這種形式的取向和/或位置修改的渲染(有時(shí)稱為交互式雙耳渲染)在游戲應(yīng)用、擴(kuò)展現(xiàn)實(shí)(xr)應(yīng)用、增強(qiáng)現(xiàn)實(shí)(ar)應(yīng)用和虛擬現(xiàn)實(shí)(vr)應(yīng)用中尤其有用。
技術(shù)實(shí)現(xiàn)思路
1、基于收聽(tīng)者取向和/或位置的基本上實(shí)時(shí)音頻渲染的現(xiàn)有解決方案的缺點(diǎn)是渲染對(duì)數(shù)據(jù)傳輸帶寬和處理能力的要求很高,這進(jìn)而增加了執(zhí)行渲染的設(shè)備的功耗。同時(shí),為了使得能夠渲染令人信服的音頻圖像,包括就像是固定在空間中或者沿著在空間中固定的軌跡移動(dòng)而不是固定到收聽(tīng)者的頭部的音頻對(duì)象,重要的是保持時(shí)延(即,收聽(tīng)者改變頭部取向和/或位置與音頻呈現(xiàn)中的相關(guān)聯(lián)修改之間的時(shí)間延遲)非常低,通常為幾十毫秒的量級(jí)。
2、因此,第一個(gè)挑戰(zhàn)在于提供基于取向和/或位置的渲染過(guò)程,所述渲染過(guò)程提供足夠低的時(shí)延并且對(duì)收聽(tīng)者取向和/或位置的任何變化作出快速響應(yīng)。取向和/或位置的改變與向收聽(tīng)者呈現(xiàn)經(jīng)修改的音頻呈現(xiàn)之間的時(shí)延理想地應(yīng)遠(yuǎn)小于100ms,因?yàn)閷?duì)于許多收聽(tīng)者來(lái)說(shuō)17ms量級(jí)的時(shí)延可能是明顯的。然而,由于渲染過(guò)程本身引入的固有延遲以及傳感器和音頻數(shù)據(jù)從用戶配戴的取向跟蹤設(shè)備和被配置為執(zhí)行音頻渲染的系統(tǒng)、服務(wù)或計(jì)算機(jī)的(通常是無(wú)線的)傳輸,實(shí)際上很難實(shí)現(xiàn)這種低時(shí)延。
3、為了減少時(shí)延,可以將取向和/或位置跟蹤設(shè)備、音頻渲染器和擴(kuò)音器集成到同一可穿戴設(shè)備(例如,耳塞或vr頭戴式裝置)中。然而,然后出現(xiàn)了第二個(gè)挑戰(zhàn),其與對(duì)收聽(tīng)者取向和/或位置變化作出快速響應(yīng)的基于取向/位置的基本上實(shí)時(shí)渲染所需的計(jì)算能力以及相關(guān)聯(lián)的高電力功耗有關(guān)。基于對(duì)象的音頻可以包括表示環(huán)境、點(diǎn)聲源、聲音效果、對(duì)話和其他重要元素的大量資產(chǎn),所有這些資產(chǎn)都需要響應(yīng)于收聽(tīng)者取向和/或位置的變化而實(shí)時(shí)渲染,這種變化可能突然發(fā)生并且非常快速(例如,由于收聽(tīng)者快速轉(zhuǎn)向、向上看和向下看或在環(huán)境中四處走動(dòng))。如vr頭戴式裝置、智能眼鏡、耳塞或眼鏡等可穿戴設(shè)備通常不具有所需的處理能力,也不具有長(zhǎng)時(shí)間維持這種音頻渲染的電池容量。因此,在許多應(yīng)用中,取向和/或位置信息從可穿戴設(shè)備傳送到的更強(qiáng)大的配套設(shè)備,如電話、平板計(jì)算機(jī)、計(jì)算機(jī)、游戲控制臺(tái)或云計(jì)算機(jī)(例如,邊緣服務(wù)器),所述配套設(shè)備執(zhí)行渲染,從而將經(jīng)渲染呈現(xiàn)傳送回可穿戴設(shè)備。然而,配套設(shè)備與可穿戴設(shè)備之間的通信極大地增加了時(shí)延,尤其是如果通信在如藍(lán)牙等公共無(wú)線通信信道上發(fā)生,這可能引入顯著的時(shí)延。
4、為了實(shí)現(xiàn)足夠低的時(shí)延,可以使用具有增強(qiáng)處理性能和例如更大電池的功能更強(qiáng)大的可穿戴設(shè)備。然而,為了在物理上適應(yīng)增強(qiáng)的設(shè)備能力,然后出現(xiàn)了第三個(gè)挑戰(zhàn),因?yàn)榭纱┐髟O(shè)備變得笨重并且不方便使用(例如,體積更大和/或更重以容納必要的處理部件、功率部件和冷卻部件)。通常,用于與可穿戴設(shè)備通信的帶寬也是有限的,并且因?yàn)榛趯?duì)象的音頻內(nèi)容中的多個(gè)音頻元素需要相當(dāng)大的帶寬,所以可能需要移除或壓縮一些音頻元素,這降低了體驗(yàn)質(zhì)量(qoe)。由于利用無(wú)線通信難以獲得足夠的帶寬,一些解決方案采取與可穿戴設(shè)備的有線數(shù)據(jù)連接,然而,這極大地阻礙了可穿戴設(shè)備的靈活性,使得其難以在室外使用或用戶難以自由移動(dòng)。
5、本公開(kāi)的目的是提出一種用于渲染音頻內(nèi)容(尤其是基于對(duì)象的音頻內(nèi)容)的方法,所述方法基本上實(shí)時(shí)地響應(yīng)于收聽(tīng)者取向和/或位置的變化,從而克服或至少減輕了上文中強(qiáng)調(diào)的現(xiàn)有解決方案的問(wèn)題。
6、根據(jù)本發(fā)明的第一方面,提供了一種處理音頻的方法,所述方法包括:在第一處理模塊處接收至少一個(gè)輸入音頻信號(hào),并且在所述第一處理模塊處產(chǎn)生主要經(jīng)渲染呈現(xiàn)和附加經(jīng)渲染呈現(xiàn),每個(gè)經(jīng)渲染呈現(xiàn)分別與第一收聽(tīng)者取向和/或位置和第二收聽(tīng)者取向和/或位置相關(guān)聯(lián)。所述方法進(jìn)一步包括在第一處理模塊處確定用于將主要經(jīng)渲染呈現(xiàn)變換為附加經(jīng)渲染呈現(xiàn)的變換參數(shù),以及在第二處理模塊處接收由第一處理模塊生成的變換參數(shù)和主要經(jīng)渲染呈現(xiàn)。所述方法進(jìn)一步包括在第二處理模塊處接收指示用戶的取向和/或位置的用戶取向和/或位置數(shù)據(jù),在第二處理模塊處基于用戶的取向和/或位置以及第一收聽(tīng)者取向和/或位置和第二收聽(tīng)者取向和/或位置來(lái)確定取向和/或位置偏差值,在第二處理模塊處基于變換參數(shù)以及取向和/或位置偏差值來(lái)確定經(jīng)修改的變換參數(shù),以及在第二處理模塊處將經(jīng)修改的變換參數(shù)應(yīng)用于主要經(jīng)渲染呈現(xiàn)以生成與用戶的取向和/或位置相關(guān)聯(lián)的輸出呈現(xiàn)。
7、也就是說(shuō),第一處理模塊預(yù)先渲染與不同收聽(tīng)者取向和/或位置相關(guān)聯(lián)的至少兩個(gè)呈現(xiàn),并且針對(duì)除了一個(gè)(主要呈現(xiàn))之外的每個(gè)呈現(xiàn)確定可以用于將主要呈現(xiàn)變換為至少一個(gè)附加經(jīng)渲染呈現(xiàn)的變換參數(shù)。
8、收聽(tīng)者或用戶“取向”是指假定的收聽(tīng)者或用戶的頭部的旋轉(zhuǎn)取向。例如,取向可以由俯仰角、偏航角和滾轉(zhuǎn)角中的一者或多者來(lái)定義。收聽(tīng)者或用戶“位置”是指收聽(tīng)者頭部或用戶頭部在前/后、左/右和上/下方向中的一個(gè)或多個(gè)方向上的位置。例如,位置可以由具有垂直的x軸、y軸和z軸的笛卡爾坐標(biāo)系來(lái)定義。應(yīng)當(dāng)理解,不同的收聽(tīng)者取向和/或位置可以在取向和位置之一上不同,或者在取向和位置兩者上不同。設(shè)想的是,一些實(shí)施方式僅考慮取向變化(具有一個(gè)、兩個(gè)或三個(gè)自由度),而在其他實(shí)施方式中僅考慮位置變化(具有一個(gè)、兩個(gè)或三個(gè)自由度)。
9、取向和/或位置偏差值可以是兩個(gè)取向和/或位置之間的線性或非線性距離。另外,取向和/或位置偏差可以是兩個(gè)取向和/或位置之間的感知加權(quán)距離,如將在下文中進(jìn)一步詳細(xì)描述的。
10、可以針對(duì)時(shí)間-頻率表示的每個(gè)時(shí)間-頻率片更新變換參數(shù)。如下文將描述的,對(duì)于具有兩個(gè)聲道的音頻呈現(xiàn),每個(gè)變換參數(shù)集合可以包括少至四個(gè)或五個(gè)變換參數(shù)(其中一些可以為復(fù)值)或者甚至少至兩個(gè)實(shí)值變換參數(shù),這構(gòu)成了可以以低時(shí)延快速傳輸?shù)臄?shù)據(jù)量。變換參數(shù)仍然足以準(zhǔn)確地描述從主要呈現(xiàn)到附加呈現(xiàn)的取向/位置變換,并且在用戶取向/位置不對(duì)應(yīng)于與附加呈現(xiàn)相關(guān)聯(lián)的取向/位置的情況下可以用于找到經(jīng)修改的變換參數(shù)(使用例如插值)。
11、因此,即使例如針對(duì)每個(gè)時(shí)間-頻率片頻繁更新變換參數(shù),變換參數(shù)也僅表示少量數(shù)據(jù)(與用于表示音頻聲道的時(shí)間-頻率片的數(shù)百或數(shù)千個(gè)樣本相比),這些數(shù)據(jù)可以高效地傳輸?shù)降诙幚砟K。
12、此外,變換參數(shù)的應(yīng)用和/或修改在計(jì)算上是高效的,并且甚至在處理能力有限的處理模塊上也可以快速執(zhí)行,這意味著第二處理模塊可以在如頭戴式耳機(jī)、耳塞式耳機(jī)、無(wú)線耳塞、真無(wú)線耳塞、智能眼鏡或vr/ar/xr頭戴式裝置等有限設(shè)備上實(shí)施。通過(guò)接收與第一收聽(tīng)者取向/位置相關(guān)聯(lián)的經(jīng)渲染的主要呈現(xiàn)以及與第二收聽(tīng)者取向/位置相關(guān)聯(lián)的變換參數(shù),第二處理模塊可以快速修改變換參數(shù)并將其應(yīng)用于主要呈現(xiàn)以將所述呈現(xiàn)移位到第二收聽(tīng)者取向/位置,如果這與實(shí)際用戶取向/位置更符合的話。還可以在將變換參數(shù)應(yīng)用于主要呈現(xiàn)之前例如使用插值來(lái)修改變換參數(shù),以更準(zhǔn)確地跟隨用戶的取向/位置。
13、通過(guò)這種方法,輸入音頻信號(hào)的渲染可以基于用戶的取向/位置來(lái)移位,從而向用戶呈現(xiàn)就像是固定在空間中的音頻呈現(xiàn)。作為說(shuō)明性示例,音頻資產(chǎn)與來(lái)自收聽(tīng)者正前方的虛擬舞臺(tái)的音樂(lè)相關(guān)聯(lián),并且用戶在站在物理空間中時(shí)使用耳塞式耳機(jī)來(lái)收聽(tīng)這些音頻資產(chǎn)。如果用戶將他或她的頭部轉(zhuǎn)向右側(cè),則調(diào)整渲染,使得向收聽(tīng)者呈現(xiàn)仿佛音樂(lè)來(lái)自左側(cè)的音頻呈現(xiàn)。這就是修改呈現(xiàn)以跟隨用戶的相對(duì)于音頻資產(chǎn)的虛擬三維空間的取向的示例。如果收聽(tīng)者朝向或遠(yuǎn)離虛擬舞臺(tái)移動(dòng),則可以向用戶呈現(xiàn)其中音樂(lè)變得更響或更弱的音頻呈現(xiàn)。這就是修改呈現(xiàn)以跟隨用戶的相對(duì)于音頻資產(chǎn)的虛擬三維空間的位置的示例。一個(gè)或多個(gè)音頻資產(chǎn)還可以包括沿著虛擬三維空間中的軌跡移動(dòng)的音頻對(duì)象。通過(guò)基于用戶的取向/位置來(lái)移位音頻資產(chǎn)的渲染,可以向收聽(tīng)者提供使收聽(tīng)者感知到音頻對(duì)象移動(dòng)的軌跡在虛擬三維空間中是固定的音頻呈現(xiàn)。
14、在一些實(shí)施方式中,第一收聽(tīng)者取向和/或位置與第二收聽(tīng)者取向和/或位置在相應(yīng)的第一俯仰取向和第二俯仰取向上是不同的偏航取向,并且所述方法進(jìn)一步包括在第二處理模塊處獲得與第三俯仰取向相關(guān)聯(lián)的簡(jiǎn)化變換參數(shù),所述簡(jiǎn)化變換參數(shù)被配置為將主要經(jīng)渲染呈現(xiàn)或附加經(jīng)渲染呈現(xiàn)變換為具有第三俯仰取向的俯仰經(jīng)渲染呈現(xiàn),以及在第二處理模塊處基于取向偏差將簡(jiǎn)化變換參數(shù)應(yīng)用于主要經(jīng)渲染呈現(xiàn)以生成輸出呈現(xiàn)。
15、也就是說(shuō),每個(gè)變換參數(shù)集合可以與在預(yù)定俯仰角(用戶向上看或向下看)下在偏航(用戶向左看或向右看)上不同的相應(yīng)取向相關(guān)聯(lián),并且變換參數(shù)捕獲對(duì)于變化的偏航角而言非常明顯的耳間效應(yīng)。另一方面,對(duì)于每個(gè)偏航角,為了跨越不同的俯仰角,針對(duì)偏離預(yù)定俯仰角的多個(gè)俯仰角傳送與(未簡(jiǎn)化)變換參數(shù)相比具有更少參數(shù)值(例如每個(gè)聲道一個(gè)實(shí)際增益值)的簡(jiǎn)化變換參數(shù)集合。因此,通過(guò)考慮到對(duì)偏航上的音頻呈現(xiàn)移位的敏感度不同于對(duì)俯仰上的呈現(xiàn)移位的敏感度,可以減少傳送到第二處理模塊的信息量,而不降低體驗(yàn)質(zhì)量qoe。
16、根據(jù)本發(fā)明的第二方面,提供了一種計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)程序產(chǎn)品包括指令,當(dāng)所述程序由計(jì)算機(jī)執(zhí)行時(shí),所述指令使所述計(jì)算機(jī)執(zhí)行根據(jù)第一方面的方法。
17、根據(jù)本發(fā)明的第三方面,提供了一種系統(tǒng),所述系統(tǒng)包括與第二處理模塊通信的第一處理模塊,其中,所述第一處理模塊和所述第二處理模塊被配置為執(zhí)行根據(jù)第一方面的方法。
18、根據(jù)第二方面的計(jì)算機(jī)程序產(chǎn)品和根據(jù)第三方面的系統(tǒng)的特征在于與根據(jù)第一方面的方法具有相同或等效的益處。關(guān)于方法所描述的任何功能可以具有系統(tǒng)或計(jì)算機(jī)程序產(chǎn)品中的對(duì)應(yīng)特征,反之亦然。