分布式交互雙耳渲染的制作方法

文檔序號(hào)：40655552發(fā)布日期：2025-01-10 19:06閱讀：4來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

本發(fā)明涉及一種用于音頻信號(hào)的分布式渲染的方法。

背景技術(shù)：

1、雙耳音頻內(nèi)容(例如，采用旨在用于在頭戴式耳機(jī)上或在具有串?dāng)_消除的擴(kuò)音器系統(tǒng)上回放的立體聲音頻信號(hào)的形式)越來(lái)越受歡迎。例如，可以使用頭部相關(guān)傳遞函數(shù)(hrtf)將基于對(duì)象的音頻內(nèi)容渲染為用于頭戴式耳機(jī)的雙耳立體聲呈現(xiàn)。基于對(duì)象的音頻內(nèi)容包括與三維空間中的位置(可選地時(shí)變的位置)相關(guān)聯(lián)的一個(gè)或多個(gè)音頻對(duì)象。例如，音頻對(duì)象可以旨在被收聽(tīng)者感知為在收聽(tīng)者右側(cè)、在收聽(tīng)者上方或沿著收聽(tīng)者周圍的軌跡移動(dòng)的音頻對(duì)象。因此，基于對(duì)象的音頻可以為收聽(tīng)者提供增強(qiáng)沉浸感的聲學(xué)效果。

2、已經(jīng)開(kāi)發(fā)了hrtf，其作為收聽(tīng)者頭部的取向和/或位置的函數(shù)描述了耳間時(shí)差、耳間電平差、人耳中發(fā)生的反射和人耳的頻率響應(yīng)。使用這種hrtf，可以為三維空間中音頻對(duì)象的任意靜態(tài)或動(dòng)態(tài)布置生成雙耳音頻信號(hào)。另外，通常添加房間反射和/或混響來(lái)創(chuàng)建感知距離和空間的感覺(jué)。

3、在一些情況下，基于對(duì)象的音頻內(nèi)容的渲染是基于收聽(tīng)者的取向和/或位置來(lái)基本上實(shí)時(shí)調(diào)整的，以便使音頻對(duì)象固定到環(huán)境中，而不是固定到收聽(tīng)者的頭部。因此，當(dāng)收聽(tīng)者移動(dòng)他/她的頭部時(shí)，渲染被調(diào)整成使得聲學(xué)圖像對(duì)應(yīng)地移位，從而使收聽(tīng)者感知到音頻對(duì)象固定在空間中，而不是固定到他/她的頭部。作為示例，首先向收聽(tīng)者呈現(xiàn)將音頻對(duì)象渲染為被感知為位于收聽(tīng)者右側(cè)的音頻呈現(xiàn)。如果收聽(tīng)者轉(zhuǎn)向并面向相反方向，則由取向檢測(cè)器記錄這種取向變化，所述取向檢測(cè)器進(jìn)而將此信息提供給渲染器，所述渲染器對(duì)渲染進(jìn)行修改以提供將音頻對(duì)象呈現(xiàn)為被感知為位于收聽(tīng)者左側(cè)的經(jīng)修改的呈現(xiàn)。這樣做的效果是，音頻對(duì)象就像是固定在收聽(tīng)者的環(huán)境中一樣，其中，收聽(tīng)者能夠在此空間內(nèi)移動(dòng)和/或使他/她自己重新定向。這種形式的取向和/或位置修改的渲染(有時(shí)稱為交互式雙耳渲染)在游戲應(yīng)用、擴(kuò)展現(xiàn)實(shí)(xr)應(yīng)用、增強(qiáng)現(xiàn)實(shí)(ar)應(yīng)用和虛擬現(xiàn)實(shí)(vr)應(yīng)用中尤其有用。

技術(shù)實(shí)現(xiàn)思路

1、基于收聽(tīng)者取向和/或位置的基本上實(shí)時(shí)音頻渲染的現(xiàn)有解決方案的缺點(diǎn)是渲染對(duì)數(shù)據(jù)傳輸帶寬和處理能力的要求很高，這進(jìn)而增加了執(zhí)行渲染的設(shè)備的功耗。同時(shí)，為了使得能夠渲染令人信服的音頻圖像，包括就像是固定在空間中或者沿著在空間中固定的軌跡移動(dòng)而不是固定到收聽(tīng)者的頭部的音頻對(duì)象，重要的是保持時(shí)延(即，收聽(tīng)者改變頭部取向和/或位置與音頻呈現(xiàn)中的相關(guān)聯(lián)修改之間的時(shí)間延遲)非常低，通常為幾十毫秒的量級(jí)。

2、因此，第一個(gè)挑戰(zhàn)在于提供基于取向和/或位置的渲染過(guò)程，所述渲染過(guò)程提供足夠低的時(shí)延并且對(duì)收聽(tīng)者取向和/或位置的任何變化作出快速響應(yīng)。取向和/或位置的改變與向收聽(tīng)者呈現(xiàn)經(jīng)修改的音頻呈現(xiàn)之間的時(shí)延理想地應(yīng)遠(yuǎn)小于100ms，因?yàn)閷?duì)于許多收聽(tīng)者來(lái)說(shuō)17ms量級(jí)的時(shí)延可能是明顯的。然而，由于渲染過(guò)程本身引入的固有延遲以及傳感器和音頻數(shù)據(jù)從用戶配戴的取向跟蹤設(shè)備和被配置為執(zhí)行音頻渲染的系統(tǒng)、服務(wù)或計(jì)算機(jī)的(通常是無(wú)線的)傳輸，實(shí)際上很難實(shí)現(xiàn)這種低時(shí)延。

3、為了減少時(shí)延，可以將取向和/或位置跟蹤設(shè)備、音頻渲染器和擴(kuò)音器集成到同一可穿戴設(shè)備(例如，耳塞或vr頭戴式裝置)中。然而，然后出現(xiàn)了第二個(gè)挑戰(zhàn)，其與對(duì)收聽(tīng)者取向和/或位置變化作出快速響應(yīng)的基于取向/位置的基本上實(shí)時(shí)渲染所需的計(jì)算能力以及相關(guān)聯(lián)的高電力功耗有關(guān)。基于對(duì)象的音頻可以包括表示環(huán)境、點(diǎn)聲源、聲音效果、對(duì)話和其他重要元素的大量資產(chǎn)，所有這些資產(chǎn)都需要響應(yīng)于收聽(tīng)者取向和/或位置的變化而實(shí)時(shí)渲染，這種變化可能突然發(fā)生并且非常快速(例如，由于收聽(tīng)者快速轉(zhuǎn)向、向上看和向下看或在環(huán)境中四處走動(dòng))。如vr頭戴式裝置、智能眼鏡、耳塞或眼鏡等可穿戴設(shè)備通常不具有所需的處理能力，也不具有長(zhǎng)時(shí)間維持這種音頻渲染的電池容量。因此，在許多應(yīng)用中，取向和/或位置信息從可穿戴設(shè)備傳送到的更強(qiáng)大的配套設(shè)備，如電話、平板計(jì)算機(jī)、計(jì)算機(jī)、游戲控制臺(tái)或云計(jì)算機(jī)(例如，邊緣服務(wù)器)，所述配套設(shè)備執(zhí)行渲染，從而將經(jīng)渲染呈現(xiàn)傳送回可穿戴設(shè)備。然而，配套設(shè)備與可穿戴設(shè)備之間的通信極大地增加了時(shí)延，尤其是如果通信在如藍(lán)牙等公共無(wú)線通信信道上發(fā)生，這可能引入顯著的時(shí)延。

4、為了實(shí)現(xiàn)足夠低的時(shí)延，可以使用具有增強(qiáng)處理性能和例如更大電池的功能更強(qiáng)大的可穿戴設(shè)備。然而，為了在物理上適應(yīng)增強(qiáng)的設(shè)備能力，然后出現(xiàn)了第三個(gè)挑戰(zhàn)，因?yàn)榭纱┐髟O(shè)備變得笨重并且不方便使用(例如，體積更大和/或更重以容納必要的處理部件、功率部件和冷卻部件)。通常，用于與可穿戴設(shè)備通信的帶寬也是有限的，并且因?yàn)榛趯?duì)象的音頻內(nèi)容中的多個(gè)音頻元素需要相當(dāng)大的帶寬，所以可能需要移除或壓縮一些音頻元素，這降低了體驗(yàn)質(zhì)量(qoe)。由于利用無(wú)線通信難以獲得足夠的帶寬，一些解決方案采取與可穿戴設(shè)備的有線數(shù)據(jù)連接，然而，這極大地阻礙了可穿戴設(shè)備的靈活性，使得其難以在室外使用或用戶難以自由移動(dòng)。

5、本公開(kāi)的目的是提出一種用于渲染音頻內(nèi)容(尤其是基于對(duì)象的音頻內(nèi)容)的方法，所述方法基本上實(shí)時(shí)地響應(yīng)于收聽(tīng)者取向和/或位置的變化，從而克服或至少減輕了上文中強(qiáng)調(diào)的現(xiàn)有解決方案的問(wèn)題。

6、根據(jù)本發(fā)明的第一方面，提供了一種處理音頻的方法，所述方法包括：在第一處理模塊處接收至少一個(gè)輸入音頻信號(hào)，并且在所述第一處理模塊處產(chǎn)生主要經(jīng)渲染呈現(xiàn)和附加經(jīng)渲染呈現(xiàn)，每個(gè)經(jīng)渲染呈現(xiàn)分別與第一收聽(tīng)者取向和/或位置和第二收聽(tīng)者取向和/或位置相關(guān)聯(lián)。所述方法進(jìn)一步包括在第一處理模塊處確定用于將主要經(jīng)渲染呈現(xiàn)變換為附加經(jīng)渲染呈現(xiàn)的變換參數(shù)，以及在第二處理模塊處接收由第一處理模塊生成的變換參數(shù)和主要經(jīng)渲染呈現(xiàn)。所述方法進(jìn)一步包括在第二處理模塊處接收指示用戶的取向和/或位置的用戶取向和/或位置數(shù)據(jù)，在第二處理模塊處基于用戶的取向和/或位置以及第一收聽(tīng)者取向和/或位置和第二收聽(tīng)者取向和/或位置來(lái)確定取向和/或位置偏差值，在第二處理模塊處基于變換參數(shù)以及取向和/或位置偏差值來(lái)確定經(jīng)修改的變換參數(shù)，以及在第二處理模塊處將經(jīng)修改的變換參數(shù)應(yīng)用于主要經(jīng)渲染呈現(xiàn)以生成與用戶的取向和/或位置相關(guān)聯(lián)的輸出呈現(xiàn)。

7、也就是說(shuō)，第一處理模塊預(yù)先渲染與不同收聽(tīng)者取向和/或位置相關(guān)聯(lián)的至少兩個(gè)呈現(xiàn)，并且針對(duì)除了一個(gè)(主要呈現(xiàn))之外的每個(gè)呈現(xiàn)確定可以用于將主要呈現(xiàn)變換為至少一個(gè)附加經(jīng)渲染呈現(xiàn)的變換參數(shù)。

8、收聽(tīng)者或用戶“取向”是指假定的收聽(tīng)者或用戶的頭部的旋轉(zhuǎn)取向。例如，取向可以由俯仰角、偏航角和滾轉(zhuǎn)角中的一者或多者來(lái)定義。收聽(tīng)者或用戶“位置”是指收聽(tīng)者頭部或用戶頭部在前/后、左/右和上/下方向中的一個(gè)或多個(gè)方向上的位置。例如，位置可以由具有垂直的x軸、y軸和z軸的笛卡爾坐標(biāo)系來(lái)定義。應(yīng)當(dāng)理解，不同的收聽(tīng)者取向和/或位置可以在取向和位置之一上不同，或者在取向和位置兩者上不同。設(shè)想的是，一些實(shí)施方式僅考慮取向變化(具有一個(gè)、兩個(gè)或三個(gè)自由度)，而在其他實(shí)施方式中僅考慮位置變化(具有一個(gè)、兩個(gè)或三個(gè)自由度)。

9、取向和/或位置偏差值可以是兩個(gè)取向和/或位置之間的線性或非線性距離。另外，取向和/或位置偏差可以是兩個(gè)取向和/或位置之間的感知加權(quán)距離，如將在下文中進(jìn)一步詳細(xì)描述的。

10、可以針對(duì)時(shí)間-頻率表示的每個(gè)時(shí)間-頻率片更新變換參數(shù)。如下文將描述的，對(duì)于具有兩個(gè)聲道的音頻呈現(xiàn)，每個(gè)變換參數(shù)集合可以包括少至四個(gè)或五個(gè)變換參數(shù)(其中一些可以為復(fù)值)或者甚至少至兩個(gè)實(shí)值變換參數(shù)，這構(gòu)成了可以以低時(shí)延快速傳輸?shù)臄?shù)據(jù)量。變換參數(shù)仍然足以準(zhǔn)確地描述從主要呈現(xiàn)到附加呈現(xiàn)的取向/位置變換，并且在用戶取向/位置不對(duì)應(yīng)于與附加呈現(xiàn)相關(guān)聯(lián)的取向/位置的情況下可以用于找到經(jīng)修改的變換參數(shù)(使用例如插值)。

11、因此，即使例如針對(duì)每個(gè)時(shí)間-頻率片頻繁更新變換參數(shù)，變換參數(shù)也僅表示少量數(shù)據(jù)(與用于表示音頻聲道的時(shí)間-頻率片的數(shù)百或數(shù)千個(gè)樣本相比)，這些數(shù)據(jù)可以高效地傳輸?shù)降诙幚砟K。

12、此外，變換參數(shù)的應(yīng)用和/或修改在計(jì)算上是高效的，并且甚至在處理能力有限的處理模塊上也可以快速執(zhí)行，這意味著第二處理模塊可以在如頭戴式耳機(jī)、耳塞式耳機(jī)、無(wú)線耳塞、真無(wú)線耳塞、智能眼鏡或vr/ar/xr頭戴式裝置等有限設(shè)備上實(shí)施。通過(guò)接收與第一收聽(tīng)者取向/位置相關(guān)聯(lián)的經(jīng)渲染的主要呈現(xiàn)以及與第二收聽(tīng)者取向/位置相關(guān)聯(lián)的變換參數(shù)，第二處理模塊可以快速修改變換參數(shù)并將其應(yīng)用于主要呈現(xiàn)以將所述呈現(xiàn)移位到第二收聽(tīng)者取向/位置，如果這與實(shí)際用戶取向/位置更符合的話。還可以在將變換參數(shù)應(yīng)用于主要呈現(xiàn)之前例如使用插值來(lái)修改變換參數(shù)，以更準(zhǔn)確地跟隨用戶的取向/位置。

13、通過(guò)這種方法，輸入音頻信號(hào)的渲染可以基于用戶的取向/位置來(lái)移位，從而向用戶呈現(xiàn)就像是固定在空間中的音頻呈現(xiàn)。作為說(shuō)明性示例，音頻資產(chǎn)與來(lái)自收聽(tīng)者正前方的虛擬舞臺(tái)的音樂(lè)相關(guān)聯(lián)，并且用戶在站在物理空間中時(shí)使用耳塞式耳機(jī)來(lái)收聽(tīng)這些音頻資產(chǎn)。如果用戶將他或她的頭部轉(zhuǎn)向右側(cè)，則調(diào)整渲染，使得向收聽(tīng)者呈現(xiàn)仿佛音樂(lè)來(lái)自左側(cè)的音頻呈現(xiàn)。這就是修改呈現(xiàn)以跟隨用戶的相對(duì)于音頻資產(chǎn)的虛擬三維空間的取向的示例。如果收聽(tīng)者朝向或遠(yuǎn)離虛擬舞臺(tái)移動(dòng)，則可以向用戶呈現(xiàn)其中音樂(lè)變得更響或更弱的音頻呈現(xiàn)。這就是修改呈現(xiàn)以跟隨用戶的相對(duì)于音頻資產(chǎn)的虛擬三維空間的位置的示例。一個(gè)或多個(gè)音頻資產(chǎn)還可以包括沿著虛擬三維空間中的軌跡移動(dòng)的音頻對(duì)象。通過(guò)基于用戶的取向/位置來(lái)移位音頻資產(chǎn)的渲染，可以向收聽(tīng)者提供使收聽(tīng)者感知到音頻對(duì)象移動(dòng)的軌跡在虛擬三維空間中是固定的音頻呈現(xiàn)。

14、在一些實(shí)施方式中，第一收聽(tīng)者取向和/或位置與第二收聽(tīng)者取向和/或位置在相應(yīng)的第一俯仰取向和第二俯仰取向上是不同的偏航取向，并且所述方法進(jìn)一步包括在第二處理模塊處獲得與第三俯仰取向相關(guān)聯(lián)的簡(jiǎn)化變換參數(shù)，所述簡(jiǎn)化變換參數(shù)被配置為將主要經(jīng)渲染呈現(xiàn)或附加經(jīng)渲染呈現(xiàn)變換為具有第三俯仰取向的俯仰經(jīng)渲染呈現(xiàn)，以及在第二處理模塊處基于取向偏差將簡(jiǎn)化變換參數(shù)應(yīng)用于主要經(jīng)渲染呈現(xiàn)以生成輸出呈現(xiàn)。

15、也就是說(shuō)，每個(gè)變換參數(shù)集合可以與在預(yù)定俯仰角(用戶向上看或向下看)下在偏航(用戶向左看或向右看)上不同的相應(yīng)取向相關(guān)聯(lián)，并且變換參數(shù)捕獲對(duì)于變化的偏航角而言非常明顯的耳間效應(yīng)。另一方面，對(duì)于每個(gè)偏航角，為了跨越不同的俯仰角，針對(duì)偏離預(yù)定俯仰角的多個(gè)俯仰角傳送與(未簡(jiǎn)化)變換參數(shù)相比具有更少參數(shù)值(例如每個(gè)聲道一個(gè)實(shí)際增益值)的簡(jiǎn)化變換參數(shù)集合。因此，通過(guò)考慮到對(duì)偏航上的音頻呈現(xiàn)移位的敏感度不同于對(duì)俯仰上的呈現(xiàn)移位的敏感度，可以減少傳送到第二處理模塊的信息量，而不降低體驗(yàn)質(zhì)量qoe。

16、根據(jù)本發(fā)明的第二方面，提供了一種計(jì)算機(jī)程序產(chǎn)品，所述計(jì)算機(jī)程序產(chǎn)品包括指令，當(dāng)所述程序由計(jì)算機(jī)執(zhí)行時(shí)，所述指令使所述計(jì)算機(jī)執(zhí)行根據(jù)第一方面的方法。

17、根據(jù)本發(fā)明的第三方面，提供了一種系統(tǒng)，所述系統(tǒng)包括與第二處理模塊通信的第一處理模塊，其中，所述第一處理模塊和所述第二處理模塊被配置為執(zhí)行根據(jù)第一方面的方法。

18、根據(jù)第二方面的計(jì)算機(jī)程序產(chǎn)品和根據(jù)第三方面的系統(tǒng)的特征在于與根據(jù)第一方面的方法具有相同或等效的益處。關(guān)于方法所描述的任何功能可以具有系統(tǒng)或計(jì)算機(jī)程序產(chǎn)品中的對(duì)應(yīng)特征，反之亦然。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：D·J·布萊巴特,D·S·麥格拉思
技術(shù)所有人：杜比實(shí)驗(yàn)室特許公司
我是此專利的發(fā)明人

上一篇：用于金屬氫電池的電極堆疊組件的制作方法
上一篇：選擇性組蛋白去乙?；?(HDAC8)降解劑和其使用方法與流程

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、王老師：1.數(shù)字信號(hào)處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開(kāi)發(fā) 4.機(jī)械工程測(cè)試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開(kāi)發(fā)
3、孫老師：1.振動(dòng)信號(hào)時(shí)頻分析理論與測(cè)試系統(tǒng)設(shè)計(jì) 2.汽車檢測(cè)系統(tǒng)設(shè)計(jì) 3.汽車電子控制系統(tǒng)設(shè)計(jì)
4、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
5、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

分布式交互雙耳渲染的制作方法