相關(guān)申請(qǐng)的交叉引用
本申請(qǐng)要求于2014年10月1日提交的美國臨時(shí)專利申請(qǐng)第62/058,157號(hào)的優(yōu)先權(quán),該美國臨時(shí)專利申請(qǐng)的全部內(nèi)容通過引用并入本文。
本文的公開內(nèi)容一般涉及音頻編碼。具體地,本公開內(nèi)容涉及用于在音頻系統(tǒng)中的解碼器中增強(qiáng)對(duì)話的方法和裝置。本公開內(nèi)容還涉及用于對(duì)包括表示對(duì)話的至少一個(gè)對(duì)象的多個(gè)音頻對(duì)象進(jìn)行編碼的方法和裝置。
背景技術(shù):
在常規(guī)音頻系統(tǒng)中,采用基于聲道的方法。每個(gè)聲道可以例如表示一個(gè)揚(yáng)聲器或一個(gè)揚(yáng)聲器陣列的內(nèi)容。用于這樣的系統(tǒng)的可能的編碼方案包括離散多聲道編碼或參數(shù)編碼諸如mpeg環(huán)繞(mpegsurround)。
最近,已經(jīng)開發(fā)了一種新的方法。這種方法是基于對(duì)象的,這在對(duì)復(fù)雜音頻場(chǎng)景進(jìn)行編碼時(shí)(例如在電影院應(yīng)用中)是有利的。在采用基于對(duì)象的方法的系統(tǒng)中,三維音頻場(chǎng)景由音頻對(duì)象以及其相關(guān)聯(lián)的元數(shù)據(jù)(例如,位置元數(shù)據(jù))來表示。這些音頻對(duì)象在音頻信號(hào)的播放期間在三維音頻場(chǎng)景中移動(dòng)。該系統(tǒng)還可以包括所謂的聲床聲道(bedchannels),其可以被描述為直接映射到例如上述常規(guī)音頻系統(tǒng)的某些輸出聲道的信號(hào)。
對(duì)話增強(qiáng)是用于相對(duì)于其他分量(諸如音樂、背景聲音和聲音效果)而增強(qiáng)或增加對(duì)話水平的技術(shù)。因?yàn)閷?duì)話可以由單獨(dú)的對(duì)象表示,所以基于對(duì)象的音頻內(nèi)容可以很好地適用于對(duì)話增強(qiáng)。然而,在一些情況下,音頻場(chǎng)景可能包括大量的對(duì)象。為了降低表示音頻場(chǎng)景所需的復(fù)雜度和數(shù)據(jù)量,可以通過減少音頻對(duì)象的數(shù)量,即通過對(duì)象聚類(objetclustering),來簡(jiǎn)化音頻場(chǎng)景。這種方法可能在一些對(duì)象聚類中引入對(duì)話與其他對(duì)象之間的混合。
通過在音頻系統(tǒng)中的解碼器中包括用于這種音頻聚類的對(duì)話增強(qiáng)可能性,解碼器的計(jì)算復(fù)雜度可能增加。
附圖說明
現(xiàn)在將參考附圖描述示例實(shí)施方式,在附圖中:
圖1示出了根據(jù)示例性實(shí)施方式的用于在音頻系統(tǒng)中增強(qiáng)對(duì)話的高質(zhì)量解碼器的一般化框圖,
圖2示出了根據(jù)示例性實(shí)施方式的用于在音頻系統(tǒng)中增強(qiáng)對(duì)話的低復(fù)雜度解碼器的第一一般化框圖,
圖3示出了根據(jù)示例性實(shí)施方式的用于在音頻系統(tǒng)中增強(qiáng)對(duì)話的低復(fù)雜度解碼器的第二一般化框圖,
圖4描述了根據(jù)示例性實(shí)施方式的用于對(duì)包括表示對(duì)話的至少一個(gè)對(duì)象的多個(gè)音頻對(duì)象進(jìn)行編碼的方法,
圖5示出了根據(jù)示例性實(shí)施方式的用于對(duì)包括表示對(duì)話的至少一個(gè)對(duì)象的多個(gè)音頻對(duì)象進(jìn)行編碼的編碼器的一般化框圖。
所有附圖是示意性的并且通常僅示出了為了闡明本公開內(nèi)容所必需的部分,而其他部分可能會(huì)被省略或僅僅被暗示。除非另有說明,否則在不同的附圖中相同的附圖標(biāo)記表示相同的部件。
具體實(shí)施方式
鑒于上述內(nèi)容,目的在于提供旨在降低解碼器中的對(duì)話增強(qiáng)的復(fù)雜度的編碼器和解碼器以及相關(guān)聯(lián)的方法。
i.概述-解碼器
根據(jù)第一方面,示例實(shí)施方式提出了用于解碼的解碼方法、解碼器和計(jì)算機(jī)程序產(chǎn)品。所提出的方法、解碼器和計(jì)算機(jī)程序產(chǎn)品通??梢跃哂邢嗤奶卣骱蛢?yōu)點(diǎn)。
根據(jù)示例實(shí)施方式,提供了一種用于在音頻系統(tǒng)中的解碼器中增強(qiáng)對(duì)話的方法,包括以下步驟:接收多個(gè)下混信號(hào),該下混信號(hào)是包括表示對(duì)話的至少一個(gè)對(duì)象的多個(gè)音頻對(duì)象的下混;接收邊信息,該邊信息指示使得能夠由多個(gè)下混信號(hào)重構(gòu)多個(gè)音頻對(duì)象的系數(shù);接收用于標(biāo)識(shí)多個(gè)音頻對(duì)象中的哪個(gè)音頻對(duì)象表示對(duì)話的數(shù)據(jù);通過使用增強(qiáng)參數(shù)和用于標(biāo)識(shí)多個(gè)音頻對(duì)象中的哪個(gè)音頻對(duì)象表示對(duì)話的數(shù)據(jù)來修改所述系數(shù);以及使用修改的系數(shù)來至少重構(gòu)表示對(duì)話的至少一個(gè)對(duì)象。
增強(qiáng)參數(shù)通常是在解碼器處可用的用戶設(shè)置。用戶可以例如使用遠(yuǎn)程控制來增加對(duì)話的音量。因此,增強(qiáng)參數(shù)通常不由音頻系統(tǒng)中的編碼器提供給解碼器。在許多情況下,將增強(qiáng)參數(shù)轉(zhuǎn)換成對(duì)話的增益,但它也可以轉(zhuǎn)換成對(duì)話的衰減。此外,增強(qiáng)參數(shù)可以與對(duì)話的某些頻率有關(guān),例如對(duì)話的頻率相關(guān)的增益或衰減。
在本說明書的上下文中,術(shù)語對(duì)話應(yīng)當(dāng)被理解成:在一些實(shí)施方式中,僅是相關(guān)的對(duì)話被增強(qiáng),而不是例如對(duì)話的背景聊天和任何混響版本被增強(qiáng)。對(duì)話可以包括人之間的對(duì)話,也可以包括獨(dú)白、解說或其他講話。
如本文所使用的,音頻對(duì)象是指音頻場(chǎng)景的元素。音頻對(duì)象通常包括音頻信號(hào)和諸如對(duì)象在三維空間中的位置的附加信息。附加信息通常用于在給定的播放系統(tǒng)上最佳地渲染音頻對(duì)象。術(shù)語音頻對(duì)象還包括音頻對(duì)象的聚類,即對(duì)象聚類。對(duì)象聚類表示至少兩個(gè)音頻對(duì)象的混合,并且通常包括作為音頻信號(hào)的音頻對(duì)象和諸如對(duì)象聚類在三維空間中的位置的附加信息的混合。對(duì)象聚類中的至少兩個(gè)音頻對(duì)象可以基于以下而被混合:其各自的空間位置接近,以及對(duì)象聚類的空間位置被選擇為各個(gè)對(duì)象位置的平均值。
如本文所使用的,下混信號(hào)是指作為多個(gè)音頻對(duì)象中的至少一個(gè)音頻對(duì)象的組合的信號(hào)。音頻場(chǎng)景的其他信號(hào)(如聲床聲道)也可以組合到下混信號(hào)中。下混信號(hào)的數(shù)量通常(但不一定)小于音頻對(duì)象的數(shù)量和聲床聲道的數(shù)量的總和,這解釋了為什么下混信號(hào)被稱為下混。下混信號(hào)也可以被稱為下混聚類。
如本文所使用的,邊信息也可以被稱為元數(shù)據(jù)。
在本說明書的上下文中,術(shù)語指示系數(shù)的邊信息應(yīng)當(dāng)被理解成系數(shù)直接存在于邊信息中(該邊信息例如在來自于編碼器的比特流中被發(fā)送),或者它們是根據(jù)存在于邊信息中的數(shù)據(jù)而計(jì)算的。
根據(jù)本方法,修改使得能夠重構(gòu)多個(gè)音頻對(duì)象的系數(shù),以用于提供對(duì)后面重構(gòu)的表示對(duì)話的至少一個(gè)音頻對(duì)象的增強(qiáng)。與在表示對(duì)話的至少一個(gè)音頻對(duì)象被重構(gòu)之后執(zhí)行對(duì)重構(gòu)的表示對(duì)話的至少一個(gè)音頻對(duì)象的增強(qiáng)(即,在沒有修改所述系數(shù)的情況下啟用重構(gòu))的常規(guī)方法相比,本方法提供了實(shí)現(xiàn)本方法的解碼器的降低的數(shù)學(xué)復(fù)雜度以及因此降低的計(jì)算復(fù)雜度。
根據(jù)示例性實(shí)施方式,通過使用增強(qiáng)參數(shù)來修改系數(shù)的步驟包括將使得能夠重構(gòu)表示對(duì)話的至少一個(gè)對(duì)象的系數(shù)與增強(qiáng)參數(shù)相乘。這是用于修改系數(shù)的計(jì)算上低復(fù)雜度的操作,其仍保持系數(shù)之間的相互比率。
根據(jù)示例性實(shí)施方式,該方法還包括:根據(jù)邊信息來計(jì)算使得能夠由多個(gè)下混信號(hào)重構(gòu)多個(gè)音頻對(duì)象的系數(shù)。
根據(jù)示例性實(shí)施方式,至少重構(gòu)表示對(duì)話的至少一個(gè)對(duì)象的步驟包括僅重構(gòu)表示對(duì)話的至少一個(gè)對(duì)象。
在許多情況下,下混信號(hào)可以對(duì)應(yīng)于將音頻場(chǎng)景渲染或輸出至給定揚(yáng)聲器配置,如標(biāo)準(zhǔn)5.1配置。在這種情況下,可以通過僅重構(gòu)表示要增強(qiáng)的對(duì)話的音頻對(duì)象,即,不執(zhí)行所有音頻對(duì)象的完全重構(gòu),來實(shí)現(xiàn)低復(fù)雜度解碼。
根據(jù)示例性實(shí)施方式,僅重構(gòu)表示對(duì)話的至少一個(gè)對(duì)象不涉及下混信號(hào)的解相關(guān)。這降低了重構(gòu)步驟的復(fù)雜度。此外,由于并不是所有音頻對(duì)象都被重構(gòu),即,對(duì)于這些音頻對(duì)象而言可以降低要渲染的音頻內(nèi)容的質(zhì)量,所以在重構(gòu)表示對(duì)話的至少一個(gè)對(duì)象時(shí)使用解相關(guān)不會(huì)提高被增強(qiáng)渲染的音頻內(nèi)容的感知音頻質(zhì)量。因此,可以省略解相關(guān)。
根據(jù)示例性實(shí)施方式,該方法還包括以下步驟:將所重構(gòu)的表示對(duì)話的至少一個(gè)對(duì)象與下混信號(hào)合并為至少一個(gè)單獨(dú)的信號(hào)。因此,所重構(gòu)的至少一個(gè)對(duì)象不需要再次混合到下混信號(hào)中或與下混信號(hào)組合。因此,根據(jù)本實(shí)施方式,不需要描述音頻系統(tǒng)中的編碼器如何將表示對(duì)話的至少一個(gè)對(duì)象混合到多個(gè)下混信號(hào)中的信息。
根據(jù)示例性實(shí)施方式,該方法還包括接收具有空間信息的數(shù)據(jù),該空間信息對(duì)應(yīng)于多個(gè)下混信號(hào)的空間位置和表示對(duì)話的至少一個(gè)對(duì)象的空間位置,以及基于具有空間信息的數(shù)據(jù)來渲染多個(gè)下混信號(hào)和所重構(gòu)的表示對(duì)話的至少一個(gè)對(duì)象。
根據(jù)示例性實(shí)施方式,該方法還包括使用用于描述音頻系統(tǒng)中的編碼器如何將表示對(duì)話的至少一個(gè)對(duì)象混合到多個(gè)下混信號(hào)中的信息來組合下混信號(hào)和所重構(gòu)的表示對(duì)話的至少一個(gè)對(duì)象。下混信號(hào)可以被下混,以便支持用于某些揚(yáng)聲器配置(如5.1配置或7.1配置)的始終音頻輸出(always-audio-out,aao),即,下混信號(hào)可以直接用于在這種揚(yáng)聲器配置上播放。通過組合下混信號(hào)和所重構(gòu)的表示對(duì)話的至少一個(gè)對(duì)象,在仍然支持aao的同時(shí)實(shí)現(xiàn)對(duì)話增強(qiáng)。換言之,根據(jù)一些實(shí)施方式,所重構(gòu)的并且經(jīng)對(duì)話增強(qiáng)的表示對(duì)話的至少一個(gè)對(duì)象被再次混合回下混信號(hào)中,以仍然支持aao。
根據(jù)示例性實(shí)施方式,該方法還包括渲染下混信號(hào)和所重構(gòu)的表示對(duì)話的至少一個(gè)對(duì)象的組合。
根據(jù)示例性實(shí)施方式,該方法還包括接收描述音頻系統(tǒng)中的編碼器如何將表示對(duì)話的至少一個(gè)對(duì)象混合到多個(gè)下混信號(hào)中的信息。當(dāng)對(duì)包括表示對(duì)話的至少一個(gè)對(duì)象的多個(gè)音頻對(duì)象進(jìn)行下混時(shí),音頻系統(tǒng)中的編碼器可能已經(jīng)具有這種類型的信息,或者編碼器可以容易地計(jì)算所述信息。
根據(jù)示例性實(shí)施方式,通過熵編碼對(duì)所接收到的用于描述如何將表示對(duì)話的至少一個(gè)對(duì)象混合到多個(gè)下混信號(hào)中的信息進(jìn)行編碼。這可以減少用于發(fā)送信息所需的比特率。
根據(jù)示例性實(shí)施方式,所述方法還包括以下步驟:接收具有空間信息的數(shù)據(jù),該空間信息對(duì)應(yīng)于多個(gè)下混信號(hào)的空間位置和表示對(duì)話的至少一個(gè)對(duì)象的空間位置,以及基于具有空間信息的數(shù)據(jù)來計(jì)算用于描述音頻系統(tǒng)中的編碼器如何將表示對(duì)話的至少一個(gè)對(duì)象混合到多個(gè)下混信號(hào)中的信息。該實(shí)施方式的優(yōu)點(diǎn)是減少了用于將包括下混信號(hào)和邊信息的比特流傳輸?shù)骄幋a器所需的比特率,因?yàn)榕c多個(gè)下混信號(hào)的空間位置和表示對(duì)話的至少一個(gè)對(duì)象的空間位置對(duì)應(yīng)的空間信息無論如何都可以被解碼器接收,解碼器不需要接收另外的信息或數(shù)據(jù)。
根據(jù)示例性實(shí)施方式,計(jì)算用于描述如何將表示對(duì)話的至少一個(gè)對(duì)象混合到多個(gè)下混信號(hào)中的信息的步驟包括應(yīng)用函數(shù),該函數(shù)將表示對(duì)話的至少一個(gè)對(duì)象的空間位置映射到多個(gè)下混信號(hào)的空間位置。該函數(shù)可以例如是諸如矢量基幅度平移(vectorbaseamplitudepanning,vbap)算法的3d平移算法??梢允褂萌魏纹渌线m的函數(shù)。
根據(jù)示例性實(shí)施方式,至少重構(gòu)表示對(duì)話的至少一個(gè)對(duì)象的步驟包括重構(gòu)多個(gè)音頻對(duì)象。在該情況下,該方法可以包括接收具有與多個(gè)音頻對(duì)象的空間位置對(duì)應(yīng)的空間信息的數(shù)據(jù),以及基于具有空間信息的數(shù)據(jù)來渲染所重構(gòu)的多個(gè)音頻對(duì)象。由于如上所述對(duì)使得能夠重構(gòu)多個(gè)音頻對(duì)象的系數(shù)執(zhí)行對(duì)話增強(qiáng),多個(gè)音頻對(duì)象的重構(gòu)和對(duì)所重構(gòu)的音頻對(duì)象的渲染(二者均是矩陣運(yùn)算)可以組合成一個(gè)運(yùn)算,這降低了兩個(gè)運(yùn)算的復(fù)雜度。
根據(jù)示例實(shí)施方式,提供了一種計(jì)算機(jī)可讀介質(zhì),包括適用于在具有處理能力的設(shè)備上執(zhí)行時(shí)執(zhí)行第一方面的任何方法的計(jì)算機(jī)代碼指令。
根據(jù)示例實(shí)施方式,提供了一種用于在音頻系統(tǒng)中增強(qiáng)對(duì)話的解碼器。該解碼器包括接收級(jí),接收級(jí)被配置用于:接收多個(gè)下混信號(hào),下混信號(hào)是包括表示對(duì)話的至少一個(gè)對(duì)象的多個(gè)音頻對(duì)象的下混;接收邊信息,該邊信息指示使得能夠由多個(gè)下混信號(hào)重構(gòu)多個(gè)音頻對(duì)象的系數(shù);以及接收用于標(biāo)識(shí)所述多個(gè)音頻對(duì)象中的哪個(gè)音頻對(duì)象表示對(duì)話的數(shù)據(jù)。該解碼器還包括修改級(jí),修改級(jí)被配置用于通過使用增強(qiáng)參數(shù)和用于標(biāo)識(shí)多個(gè)音頻對(duì)象中的哪個(gè)音頻對(duì)象表示對(duì)話的數(shù)據(jù)來修改系數(shù)。該解碼器還包括重構(gòu)級(jí),重構(gòu)級(jí)被配置用于使用修改的系數(shù)來至少重構(gòu)表示對(duì)話的至少一個(gè)對(duì)象。
ii.概述-編碼器
根據(jù)第二方面,示例實(shí)施方式提出了用于編碼的編碼方法、編碼器和計(jì)算機(jī)程序產(chǎn)品。所提出的方法、編碼器和計(jì)算機(jī)程序產(chǎn)品通??梢跃哂邢嗤奶卣骱蛢?yōu)點(diǎn)。通常,第二方面的特征可以與第一方面的對(duì)應(yīng)特征具有相同的優(yōu)點(diǎn)。
根據(jù)示例實(shí)施方式,提供了一種用于對(duì)包括表示對(duì)話的至少一個(gè)對(duì)象的多個(gè)音頻對(duì)象進(jìn)行編碼的方法,包括以下步驟:確定多個(gè)下混信號(hào),該多個(gè)下混信號(hào)是包括表示對(duì)話的至少一個(gè)對(duì)象的多個(gè)音頻對(duì)象的下混;確定邊信息,該邊信息指示使得能夠由多個(gè)下混信號(hào)重構(gòu)多個(gè)音頻對(duì)象的系數(shù);確定用于標(biāo)識(shí)多個(gè)音頻對(duì)象中的哪個(gè)音頻對(duì)象表示對(duì)話的數(shù)據(jù);以及形成包括多個(gè)下混信號(hào)、邊信息和用于標(biāo)識(shí)多個(gè)音頻對(duì)象中的哪個(gè)音頻對(duì)象表示對(duì)話的數(shù)據(jù)的比特流。
根據(jù)示例性實(shí)施方式,該方法還包括確定與多個(gè)下混信號(hào)的空間位置和表示對(duì)話的至少一個(gè)對(duì)象的空間位置對(duì)應(yīng)的空間信息的步驟,以及將所述空間信息包括在比特流中的步驟。
根據(jù)示例性實(shí)施方式,確定多個(gè)下混信號(hào)的步驟還包括確定用于描述如何將表示對(duì)話的至少一個(gè)對(duì)象混合到多個(gè)下混信號(hào)中的信息。根據(jù)該實(shí)施方式,將用于描述如何將表示對(duì)話的至少一個(gè)對(duì)象混合到多個(gè)下混信號(hào)中的這種信息包括在比特流中。
根據(jù)示例性實(shí)施方式,使用熵編碼對(duì)所確定的用于描述如何將表示對(duì)話的至少一個(gè)對(duì)象混合到多個(gè)下混信號(hào)中的信息進(jìn)行編碼。
根據(jù)示例性實(shí)施方式,該方法還包括以下步驟:確定與多個(gè)音頻對(duì)象的空間位置對(duì)應(yīng)的空間信息的步驟,以及將與多個(gè)音頻對(duì)象的空間位置對(duì)應(yīng)的空間信息包括在比特流中的步驟。
根據(jù)示例實(shí)施方式,提供了一種計(jì)算機(jī)可讀介質(zhì),包括適于在具有處理能力的設(shè)備上執(zhí)行時(shí)執(zhí)行第二方面的任何方法的計(jì)算機(jī)代碼指令。
根據(jù)示例實(shí)施方式,提供了一種用于對(duì)包括表示對(duì)話的至少一個(gè)對(duì)象的多個(gè)音頻對(duì)象進(jìn)行編碼的編碼器。該編碼器包括下混級(jí)和編碼級(jí),下混級(jí)被配置用于:確定多個(gè)下混信號(hào),該多個(gè)下混信號(hào)是包括表示對(duì)話的至少一個(gè)對(duì)象的多個(gè)音頻對(duì)象的下混;確定邊信息,該邊信息包括指示使得能夠由多個(gè)下混信號(hào)重構(gòu)多個(gè)音頻對(duì)象,編碼級(jí)被配置用于形成包括多個(gè)下混信號(hào)和邊信息的比特流,其中,比特流還包括用于標(biāo)識(shí)多個(gè)音頻對(duì)象中的哪個(gè)音頻對(duì)象表示對(duì)話的數(shù)據(jù)。
iii.示例實(shí)施方式
如上所述,對(duì)話增強(qiáng)與相對(duì)于其他音頻分量而增加對(duì)話水平有關(guān)。在根據(jù)內(nèi)容創(chuàng)建而被適當(dāng)?shù)亟M織的情況下,對(duì)象內(nèi)容非常適合于對(duì)話增強(qiáng),因?yàn)閷?duì)話可以由單獨(dú)的對(duì)象表示。對(duì)象(即對(duì)象聚類或下混信號(hào))的參數(shù)編碼可能引入對(duì)話與其他對(duì)象之間的混合。
現(xiàn)在將結(jié)合圖1至圖3來描述用于增強(qiáng)混入到這種對(duì)象聚類中的對(duì)話的解碼器。圖1示出了根據(jù)示例性實(shí)施方式的用于在音頻系統(tǒng)中增強(qiáng)對(duì)話的高質(zhì)量解碼器100的一般化框圖。解碼器100在接收級(jí)104處接收比特流102。還可以將接收級(jí)104視為核心解碼器,其對(duì)比特流102進(jìn)行解碼并且輸出比特流102的解碼內(nèi)容。比特流102可以例如包括多個(gè)下混信號(hào)110或下混聚類,所述多個(gè)下混信號(hào)110或下混聚類是包括表示對(duì)話的至少一個(gè)對(duì)象的多個(gè)音頻對(duì)象的下混。因此,接收級(jí)通常包括下混解碼器部件,該下混解碼器部件可以適于對(duì)比特流102的部分進(jìn)行解碼以形成下混信號(hào)110,使得它們與解碼器的聲音解碼系統(tǒng)(如杜比數(shù)字+或者諸如aac、usac或mp3的mpeg標(biāo)準(zhǔn))兼容。比特流102還可以包括邊信息108,邊信息108指示使得能夠由多個(gè)下混信號(hào)重構(gòu)多個(gè)音頻對(duì)象的系數(shù)。為了高效地進(jìn)行對(duì)話增強(qiáng),比特流102還可以包括用于標(biāo)識(shí)多個(gè)音頻對(duì)象中的哪個(gè)音頻對(duì)象表示對(duì)話的數(shù)據(jù)108。該數(shù)據(jù)108可以合并在邊信息108中,或者它可以與邊信息108分開。如下面詳細(xì)討論的,邊信息108通常包括可以轉(zhuǎn)換成干上混矩陣(dryupmixmatrix)c的干上混系數(shù),以及可以轉(zhuǎn)換成濕上混矩陣(wetupmixmatrix)p的濕上混系數(shù)。
解碼器100還包括修改級(jí)112,修改級(jí)112被配置成通過使用增強(qiáng)參數(shù)140和標(biāo)識(shí)多個(gè)音頻對(duì)象中的哪個(gè)音頻對(duì)象表示對(duì)話的數(shù)據(jù)108來修改邊信息108中所指示的系數(shù)。在修改級(jí)112處可以以任何合適的方式接收增強(qiáng)參數(shù)140。根據(jù)實(shí)施方式,修改級(jí)112修改干上混矩陣c和濕上混矩陣p,至少修改與對(duì)話對(duì)應(yīng)的系數(shù)。
因此修改級(jí)112將期望的對(duì)話增強(qiáng)應(yīng)用于與對(duì)話對(duì)象對(duì)應(yīng)的系數(shù)。根據(jù)一個(gè)實(shí)施方式,通過使用增強(qiáng)參數(shù)140來修改系數(shù)的步驟包括將使得能夠重構(gòu)表示對(duì)話的至少一個(gè)對(duì)象的系數(shù)與增強(qiáng)參數(shù)140相乘。換言之,修改包括對(duì)與對(duì)話對(duì)象對(duì)應(yīng)的系數(shù)的固定放大。
在一些實(shí)施方式中,解碼器100還包括預(yù)解相關(guān)器級(jí)114和解相關(guān)器級(jí)116。這兩個(gè)級(jí)114、116一起形成下混信號(hào)110的組合的解相關(guān)版本,該解相關(guān)版本稍后將用于由多個(gè)下混信號(hào)110重構(gòu)(例如上混)多個(gè)音頻對(duì)象。如在圖1中可以看到的,在修改級(jí)112中修改系數(shù)之前,可以將邊信息108饋送到預(yù)解相關(guān)器級(jí)114。根據(jù)實(shí)施方式,將邊信息108中指示的系數(shù)轉(zhuǎn)換成經(jīng)修改的干上混矩陣120、經(jīng)修改的濕上混矩陣142和如圖1中表示為附圖標(biāo)記144的預(yù)解相關(guān)器矩陣q。經(jīng)修改的濕上混矩陣在如下所述的重構(gòu)級(jí)124處被用于對(duì)解相關(guān)器信號(hào)122進(jìn)行上混。
預(yù)解相關(guān)器矩陣q在預(yù)解相關(guān)器級(jí)114處被使用,并且根據(jù)實(shí)施方式可以通過下式來計(jì)算:
q=(absp)tc
其中absp表示通過對(duì)未修改的濕上混矩陣p的元素取絕對(duì)值而獲得的矩陣,c表示未修改的干上混矩陣。
設(shè)想了基于干上混矩陣c和濕上混矩陣p來計(jì)算預(yù)解相關(guān)系數(shù)q的替選方式。例如,可以將預(yù)解相關(guān)系數(shù)q計(jì)算為q=(absp0)tc,其中矩陣p0是通過對(duì)p的每一列進(jìn)行歸一化而獲得的。
計(jì)算預(yù)解相關(guān)器矩陣q僅涉及具有相對(duì)低復(fù)雜度的計(jì)算,并且因此可以方便地在解碼器側(cè)采用。然而,根據(jù)一些實(shí)施方式,預(yù)解相關(guān)器矩陣q被包括在邊信息108中。
換言之,解碼器可以被配置用于根據(jù)邊信息來計(jì)算使得能夠由多個(gè)下混信號(hào)重構(gòu)多個(gè)音頻對(duì)象126的系數(shù)。以這種方式,預(yù)解相關(guān)器矩陣不受在修改級(jí)中對(duì)系數(shù)做出的任何修改的影響,這可能是有利的,因?yàn)槿绻A(yù)解相關(guān)器矩陣被修改,則在預(yù)解相關(guān)器級(jí)114和解相關(guān)器級(jí)116中的解相關(guān)處理可能引入可能不期望的另外的對(duì)話增強(qiáng)。根據(jù)其他實(shí)施方式,在修改級(jí)112中對(duì)系數(shù)進(jìn)行修改之后將邊信息饋送到預(yù)解相關(guān)器級(jí)114。由于解碼器100是高質(zhì)量解碼器,所以它可以被配置用于重構(gòu)所有多個(gè)音頻對(duì)象。這在重構(gòu)級(jí)124處完成。因此,解碼器100的重構(gòu)級(jí)124接收下混信號(hào)110、解相關(guān)信號(hào)122以及使得能夠由多個(gè)下混信號(hào)110重構(gòu)多個(gè)音頻對(duì)象的經(jīng)修改的系數(shù)120、142。因此,重構(gòu)級(jí)可以在將音頻對(duì)象渲染到音頻系統(tǒng)的輸出配置(如7.1.4聲道輸出)之前通過參數(shù)(parametrically)重構(gòu)音頻對(duì)象126。然而,通常這在許多情況下不會(huì)發(fā)生,因?yàn)橹貥?gòu)級(jí)124處的音頻對(duì)象重構(gòu)和渲染級(jí)128處的渲染是可以組合的矩陣運(yùn)算(由虛線134表示)以用于在計(jì)算上高效地實(shí)現(xiàn)。為了將音頻對(duì)象渲染在三維空間中的正確位置處,比特流102還包括具有空間信息的數(shù)據(jù)106,該空間信息與多個(gè)音頻對(duì)象的空間位置對(duì)應(yīng)。
可以注意到,根據(jù)一些實(shí)施方式,解碼器100被配置成提供重構(gòu)的對(duì)象作為輸出,使得它們可以在解碼器的外部被處理和渲染。根據(jù)該實(shí)施方式,解碼器100因此輸出重構(gòu)的音頻對(duì)象126,并且不包括渲染級(jí)128。
音頻對(duì)象的重構(gòu)通常在頻域,如在正交鏡像濾波器(qmf)域中執(zhí)行。然而,音頻可能需要在時(shí)域中輸出。出于這個(gè)原因,解碼器還包括變換級(jí)132,在該變換級(jí)132中例如通過應(yīng)用逆正交鏡像濾波器(iqmf)組來將渲染的信號(hào)130變換到時(shí)域。根據(jù)一些實(shí)施方式,在變換級(jí)132處到時(shí)域的變換可以在渲染級(jí)128中渲染信號(hào)之前執(zhí)行。
總之,結(jié)合圖1描述的解碼器通過在重構(gòu)音頻對(duì)象之前修改使得能夠由多個(gè)下混信號(hào)重構(gòu)多個(gè)音頻對(duì)象的系數(shù)來高效地實(shí)現(xiàn)對(duì)話增強(qiáng)。對(duì)系數(shù)執(zhí)行增強(qiáng)的代價(jià)是每幀若干次乘法,針對(duì)與對(duì)話相關(guān)的每個(gè)系數(shù)一次乘法,乘以頻帶的數(shù)量。在典型情況下,乘法次數(shù)將最可能等于下混聲道的數(shù)量(例如5至7)乘以參數(shù)頻帶的數(shù)量(例如20至40),但是如果對(duì)話也獲得解相關(guān)貢獻(xiàn),則乘法次數(shù)可能更多。相比之下,對(duì)重構(gòu)對(duì)象執(zhí)行對(duì)話增強(qiáng)的現(xiàn)有技術(shù)解決方案導(dǎo)致針對(duì)每個(gè)采樣的乘法,對(duì)于復(fù)數(shù)信號(hào)來說乘以頻帶的數(shù)量乘以2。通常這將導(dǎo)致每幀16*64*2=2048次乘法,經(jīng)常更多。
音頻編碼/解碼系統(tǒng)通常例如通過對(duì)輸入音頻信號(hào)應(yīng)用合適的濾波器組來將時(shí)頻空間劃分成時(shí)間/頻率片(tile)。時(shí)間/頻率片通常意指時(shí)頻空間的與時(shí)間間隔和頻帶對(duì)應(yīng)的部分。時(shí)間間隔通常可以對(duì)應(yīng)于音頻編碼/解碼系統(tǒng)中使用的時(shí)間幀的持續(xù)時(shí)間。頻帶是正在被編碼或解碼的音頻信號(hào)/對(duì)象的整個(gè)頻率范圍的完整頻率范圍的一部分。頻帶通??梢詫?duì)應(yīng)于由編碼/解碼系統(tǒng)中使用的濾波器組限定的一個(gè)或若干相鄰頻帶。在頻帶對(duì)應(yīng)于由濾波器組限定的若干相鄰頻帶的情況下,這使得在音頻信號(hào)的解碼過程中能夠具有非均勻的頻帶,例如較寬的頻帶用于音頻信號(hào)的較高頻率。
在替選輸出模式中,為了節(jié)省解碼器復(fù)雜度,不重構(gòu)下混對(duì)象。在該實(shí)施方式中,下混信號(hào)被認(rèn)為是要直接渲染給輸出配置(如5.1輸出配置)的信號(hào)。這也稱為始終音頻輸出(aao)操作模式。圖2和圖3描述了使得即使對(duì)于這種低復(fù)雜度實(shí)施方式也能夠增強(qiáng)對(duì)話的解碼器200、300。
圖2描述了根據(jù)第一示例性實(shí)施方式的用于增強(qiáng)音頻系統(tǒng)中的對(duì)話的低復(fù)雜度解碼器200。解碼器100在接收級(jí)104或核心解碼器處接收比特流102。接收級(jí)104可以如結(jié)合圖1所描述的那樣被配置。因此,接收級(jí)輸出邊信息108和下混信號(hào)110。由邊信息108指示的系數(shù)被修改級(jí)112通過如上所述的增強(qiáng)參數(shù)140來修改,差別在于必須考慮對(duì)話已經(jīng)存在于下混信號(hào)110中,并且因此如下面所描述的,增強(qiáng)參數(shù)在被用于修改邊信息108之前可能必須按比例縮小。另一個(gè)差別可能在于由于在(如下所述的)低復(fù)雜度解碼器200中不采用解相關(guān),因此修改級(jí)112僅修改邊信息108中的干上混系數(shù),并且因此忽略邊信息108中存在的任何濕上混系數(shù)。在一些實(shí)施方式中,校正可以考慮由省略解相關(guān)器貢獻(xiàn)而引起的對(duì)話對(duì)象的預(yù)測(cè)中的能量損失。修改級(jí)112的修改確保對(duì)話對(duì)象被重構(gòu)為增強(qiáng)信號(hào),該增強(qiáng)信號(hào)在與下混信號(hào)組合時(shí)產(chǎn)生增強(qiáng)的對(duì)話。將修改的系數(shù)218和下混信號(hào)輸入到重構(gòu)級(jí)204。在重構(gòu)級(jí)處,可以使用修改的系數(shù)218僅重構(gòu)表示對(duì)話的至少一個(gè)對(duì)象。為了進(jìn)一步降低解碼器200的解碼復(fù)雜度,在重構(gòu)級(jí)204處對(duì)表示對(duì)話的至少一個(gè)對(duì)象的重構(gòu)不涉及下混信號(hào)110的解相關(guān)。重構(gòu)級(jí)204因此生成對(duì)話增強(qiáng)信號(hào)206。在許多實(shí)施方式中,重構(gòu)級(jí)204是重構(gòu)級(jí)124的一部分,所述部分與表示對(duì)話的至少一個(gè)對(duì)象的重構(gòu)有關(guān)。
為了仍然根據(jù)所支持的輸出配置(即,下混信號(hào)110被下混以便支持的輸出配置(例如5.1或7.1環(huán)繞信號(hào)))來輸出信號(hào),對(duì)話增強(qiáng)信號(hào)206需要再次被下混到下混信號(hào)110中或者與下混信號(hào)110組合。為此,解碼器包括自適應(yīng)混合級(jí)208,該自適應(yīng)混合級(jí)208使用用于描述音頻系統(tǒng)中的編碼器如何將表示對(duì)話的至少一個(gè)對(duì)象混合到多個(gè)下混信號(hào)中的信息202,以用于將對(duì)話增強(qiáng)對(duì)象混合回到表示210中,該表示210對(duì)應(yīng)于在下混信號(hào)110中如何表示對(duì)話對(duì)象。然后將這種表示與下混信號(hào)110組合212,使得所得到的組合信號(hào)214包括增強(qiáng)對(duì)話。
用于增強(qiáng)多個(gè)下混信號(hào)中的對(duì)話的上述構(gòu)思的步驟可以通過對(duì)表示多個(gè)下混信號(hào)110的一個(gè)時(shí)頻片的矩陣d的單個(gè)矩陣運(yùn)算來實(shí)現(xiàn):
db=d+md式1
其中db是包括提升的對(duì)話部分(boosteddialogparts)的經(jīng)修改的下混214。修改矩陣m通過下式來獲得:
m=gc式2
其中g(shù)是[下混聲道的數(shù)量,對(duì)話對(duì)象的數(shù)量]的下混增益的矩陣,即,信息202用于描述是如何將表示對(duì)話的至少一個(gè)對(duì)象混合到多個(gè)下混信號(hào)110的當(dāng)前解碼的時(shí)頻片d中的,c是[對(duì)話對(duì)象的數(shù)量,下混聲道的數(shù)量]的經(jīng)修改系數(shù)218的矩陣。
用于增強(qiáng)多個(gè)下混信號(hào)中的對(duì)話的替選實(shí)施方式可以通過對(duì)列向量x[下混聲道的數(shù)量]的矩陣運(yùn)算來實(shí)現(xiàn),其中每個(gè)元素表示多個(gè)下混信號(hào)110的單個(gè)時(shí)頻采樣:
xb=ex式3
其中xb是包括增強(qiáng)的對(duì)話部分的經(jīng)修改的下混214。修改矩陣e通過下式來獲得:
e=i+gc式4
其中i是[下混聲道的數(shù)量,下混聲道的數(shù)量]的單位矩陣,g是[下混聲道的數(shù)量,對(duì)話對(duì)象的數(shù)量]的下混增益的矩陣,即,信息202用于描述是如何將表示對(duì)話的至少一個(gè)對(duì)象混合到當(dāng)前解碼的多個(gè)下混信號(hào)110中的,c是[對(duì)話對(duì)象的數(shù)量,下混聲道的數(shù)量]的經(jīng)修改系數(shù)218的矩陣。
針對(duì)幀中的每個(gè)頻帶和時(shí)間采樣來計(jì)算矩陣e。通常,矩陣e的數(shù)據(jù)每幀傳輸一次,并且通過用前一幀中的相應(yīng)矩陣進(jìn)行插值來針對(duì)時(shí)頻片中的每個(gè)時(shí)間采樣計(jì)算矩陣。
根據(jù)一些實(shí)施方式,信息202是比特流102的一部分,并且包括由音頻系統(tǒng)中的編碼器使用以用于將對(duì)話對(duì)象下混成下混信號(hào)的下混系數(shù)。
在一些實(shí)施方式中,下混信號(hào)不對(duì)應(yīng)于揚(yáng)聲器配置的聲道。在這樣的實(shí)施方式中,有益的是將下混信號(hào)渲染到與用于重放的配置的揚(yáng)聲器對(duì)應(yīng)的位置。對(duì)于這些實(shí)施方式,比特流102可以攜帶用于多個(gè)下混信號(hào)110的位置數(shù)據(jù)。
現(xiàn)在將描述與這樣接收的信息202對(duì)應(yīng)的比特流的示例性語法。對(duì)話對(duì)象可以混合到多于一個(gè)的下混信號(hào)。因此,可以根據(jù)下表將每個(gè)下混聲道的下混系數(shù)編碼到比特流中:
表1下混系數(shù)語法
用于表示以下音頻對(duì)象的下混系數(shù)的比特流顯現(xiàn)為0000111100:該音頻對(duì)象被下混以使得7個(gè)下混信號(hào)中的第5個(gè)下混信號(hào)僅包括對(duì)話對(duì)象。相對(duì)比地,用于表示以下音頻對(duì)象的下混系數(shù)的比特流顯現(xiàn)為000010000011101:該音頻對(duì)象被下混1/15,下混到第5下混信號(hào)中,以及被下混14/15,下混到第7下混信號(hào)中。
利用該語法,值0被最頻繁地發(fā)送,因?yàn)閷?duì)話對(duì)象通常不在所有下混信號(hào)中,而最可能在僅一個(gè)下混信號(hào)中。因此,可以有利地通過上表中定義的熵編碼來對(duì)下混系數(shù)進(jìn)行編碼。對(duì)于大多數(shù)情況,在非零系數(shù)上花費(fèi)多于一個(gè)的比特并且對(duì)于0值僅花費(fèi)1個(gè)比特使得平均字長低于5個(gè)比特。例如,當(dāng)7個(gè)下混信號(hào)中的一個(gè)下混信號(hào)中存在對(duì)話對(duì)象時(shí),平均每個(gè)系數(shù)有1/7*(1[比特]*6[系數(shù)]+5[比特]*1[系數(shù)])=1.57比特。用4個(gè)比特直接編碼所有系數(shù),成本將是1/7*(4[比特]*7[系數(shù)])=每個(gè)系數(shù)4個(gè)比特。只有當(dāng)對(duì)話對(duì)象在(7個(gè)下混信號(hào)中的)6個(gè)或7個(gè)下混信號(hào)中時(shí),上述熵編碼比直接編碼成本高。使用上述熵編碼減少了用于傳輸下混系數(shù)所需的比特率。
替選地,可以使用霍夫曼編碼傳輸下混系數(shù)。
根據(jù)其他實(shí)施方式,用于描述音頻系統(tǒng)中的編碼器如何將表示對(duì)話的至少一個(gè)對(duì)象混合到多個(gè)下混信號(hào)中的信息202不是由解碼器接收,而是在接收級(jí)104處計(jì)算,或者在解碼器200的其它適當(dāng)?shù)募?jí)計(jì)算。這減少了用于傳輸解碼器200所接收的比特流102所需的比特率。這種計(jì)算可以基于具有空間信息的數(shù)據(jù),該空間信息對(duì)應(yīng)于多個(gè)下混信號(hào)110的空間位置和表示對(duì)話的至少一個(gè)對(duì)象的空間位置。這樣的數(shù)據(jù)通常已經(jīng)由解碼器200已知,因?yàn)樗ǔ0ㄔ谟梢纛l系統(tǒng)中的編碼器生成的比特流102中。計(jì)算可以包括應(yīng)用函數(shù),該函數(shù)將表示對(duì)話的至少一個(gè)對(duì)象的空間位置映射到多個(gè)下混信號(hào)110的空間位置。該算法可以是3d平移算法,例如基于矢量的幅度平移(vbap)算法。vbap是使用多個(gè)物理聲源(例如揚(yáng)聲器)的設(shè)置,即揚(yáng)聲器輸出配置,來將虛擬聲源(例如對(duì)話對(duì)象)定位到任意方向的方法。因此,這樣的算法可以被再用,以通過使用下混信號(hào)的位置作為揚(yáng)聲器位置來計(jì)算下混系數(shù)。
使用上式1和2的符號(hào),g是通過令rendcoef=r(spkpos,sourcepos)來計(jì)算的,其中r是3d平移算法(例如,vbap),以提供用于將位于sourcepos(例如,笛卡爾坐標(biāo))處的對(duì)話對(duì)象渲染至位于spkpos處的nbrspeakers個(gè)下混聲道的渲染系數(shù)向量rendcoef[nbrspeakersx1](每個(gè)行對(duì)應(yīng)于下混信號(hào)的坐標(biāo)的矩陣)。然后通過下式獲得g:
g=[rendcoef1,rendcoef2,…,rendcoefn]式5
其中,rendcoefi是n個(gè)對(duì)話對(duì)象中的對(duì)話對(duì)象i的渲染系數(shù)。
由于音頻對(duì)象的重構(gòu)通常在如上結(jié)合圖1所述的qmf域中執(zhí)行,并且聲音可能需要在時(shí)域中輸出,所以解碼器200還包括變換級(jí)132,在該變換級(jí)132中例如通過應(yīng)用逆qmf將組合信號(hào)214變換成時(shí)域中的信號(hào)216。
根據(jù)實(shí)施方式,解碼器200還可以包括在變換級(jí)132上游或者在變換級(jí)132下游的渲染級(jí)(未示出)。如上所述,在一些情況下,下混信號(hào)不對(duì)應(yīng)于揚(yáng)聲器配置的聲道。在這樣的實(shí)施方式中,有益的是將下混信號(hào)渲染到與用于重放的配置的揚(yáng)聲器對(duì)應(yīng)的位置。對(duì)于這些實(shí)施方式,比特流102可以攜帶用于多個(gè)下混信號(hào)110的位置數(shù)據(jù)。
圖3中示出了用于在音頻系統(tǒng)中增強(qiáng)對(duì)話的低復(fù)雜度解碼器的替選施方式。圖3所示的解碼器300與上述解碼器200之間的主要區(qū)別在于:在重構(gòu)級(jí)204之后,所重構(gòu)的對(duì)話增強(qiáng)對(duì)象206不再次與下混信號(hào)110組合(combine)。相反,所重構(gòu)的至少一個(gè)對(duì)話增強(qiáng)對(duì)象206與下混信號(hào)110合并(merge)為至少一個(gè)單獨(dú)的信號(hào)。上述解碼器300通常已知的用于至少一個(gè)對(duì)話對(duì)象的空間信息被用于在附加信號(hào)206被上述變換級(jí)132變換到時(shí)域之后或之前,渲染附加信號(hào)206以及根據(jù)多個(gè)下混信號(hào)的空間位置信息304來渲染下混信號(hào)。
對(duì)于結(jié)合圖2至圖3描述的解碼器200、300的實(shí)施方式二者,必須考慮到對(duì)話已經(jīng)存在于下混信號(hào)110中,以及增強(qiáng)的重構(gòu)對(duì)話對(duì)象206添加至此,無論它們是如結(jié)合圖2所描述的與下混信號(hào)110組合,還是如結(jié)合圖3所描述的它們與下混信號(hào)110合并。因此,如果增強(qiáng)參數(shù)的大小是基于下混信號(hào)中現(xiàn)有的對(duì)話具有大小1而計(jì)算的,則gde需要減去例如1。
圖4描述了根據(jù)示例性實(shí)施方式的用于對(duì)包括表示對(duì)話的至少一個(gè)對(duì)象的多個(gè)音頻對(duì)象進(jìn)行編碼的方法400。應(yīng)當(dāng)注意,通過示例示出了圖4所示的方法400的步驟的順序。
方法400的第一步驟是確定s401與多個(gè)音頻對(duì)象的空間位置對(duì)應(yīng)的空間信息的可選步驟。通常,對(duì)象音頻伴有對(duì)每個(gè)對(duì)象應(yīng)當(dāng)被渲染到何處的描述。這通常根據(jù)坐標(biāo)(例如笛卡爾、極坐標(biāo)等)來完成。
該方法的第二步驟是確定s402多個(gè)下混信號(hào)的步驟,多個(gè)下混信號(hào)是包括表示對(duì)話的至少一個(gè)對(duì)象的多個(gè)音頻對(duì)象的下混。這也可以稱為下混步驟。
例如,每個(gè)下混信號(hào)可以是多個(gè)音頻對(duì)象的線性組合。在其他實(shí)施方式中,下混信號(hào)中的每個(gè)頻帶可以包括多個(gè)音頻對(duì)象的不同組合。實(shí)現(xiàn)這種方法的音頻編碼系統(tǒng)因此包括根據(jù)音頻對(duì)象確定下混信號(hào)并且對(duì)下混信號(hào)進(jìn)行編碼的下混部件。編碼的下混信號(hào)例如可以是5.1或7.1環(huán)繞信號(hào),其與已建立的聲音解碼系統(tǒng)(諸如杜比數(shù)字+、或者諸如aac、usac或mp3的mpeg標(biāo)準(zhǔn))向后兼容,使得實(shí)現(xiàn)aao。
確定s402多個(gè)下混信號(hào)的步驟可以可選地包括確定s404用于描述如何將表示對(duì)話的至少一個(gè)對(duì)象混合到多個(gè)下混信號(hào)中的信息。在許多實(shí)施方式中,下混系數(shù)是根據(jù)下混操作中的處理得出的。在一些實(shí)施方式中,這可以通過使用最小均方誤差(mmse)算法將對(duì)話對(duì)象與下混信號(hào)進(jìn)行比較來完成。
存在對(duì)音頻對(duì)象進(jìn)行下混的許多方式,例如,可以使用對(duì)在空間上靠近在一起的對(duì)象進(jìn)行下混的算法。根據(jù)該算法,確定在空間中的哪些位置存在著對(duì)象的集中。然后,使用這些位置作為下混信號(hào)位置的質(zhì)心。這只是一個(gè)示例。其他示例包括在下混時(shí)如果可能則保持使對(duì)話對(duì)象與其他音頻對(duì)象分離,以便改善對(duì)話分離并且進(jìn)一步簡(jiǎn)化在解碼器側(cè)的對(duì)話增強(qiáng)。
方法400的第四步驟是確定s406與多個(gè)下混信號(hào)的空間位置對(duì)應(yīng)的空間信息的可選步驟。在省略了確定s401與多個(gè)音頻對(duì)象的空間位置對(duì)應(yīng)的空間信息的可選步驟的情況下,步驟s406還包括確定與表示對(duì)話的至少一個(gè)對(duì)象的空間位置對(duì)應(yīng)的空間信息。
在如上所述確定s402多個(gè)下混信號(hào)時(shí),空間信息通常是已知的。
該方法中的下一步驟是確定s408邊信息,該邊信息指示使得能夠由多個(gè)下混信號(hào)重構(gòu)多個(gè)音頻對(duì)象的系數(shù)。這些系數(shù)也可以稱為上混參數(shù)。上混參數(shù)可以例如是根據(jù)下混信號(hào)和音頻對(duì)象來確定的,例如通過mmse優(yōu)化。上混參數(shù)通常包括干上混系數(shù)和濕上混系數(shù)。干上混系數(shù)定義了近似于要編碼的音頻信號(hào)的下混信號(hào)的線性映射。干上混系數(shù)因此是定義了線性變換的定量屬性的系數(shù),該線性變換采用下混信號(hào)作為輸入,并且輸出近似于要編碼的音頻信號(hào)的一組音頻信號(hào)。所確定的一組干上混系數(shù)可以例如定義與音頻信號(hào)的最小均方誤差近似相對(duì)應(yīng)的下混信號(hào)的線性映射,即,在下混信號(hào)的線性映射的集合中,所確定的一組干上混系數(shù)可以定義在最小均方意義上最佳地近似于音頻信號(hào)的線性映射。
濕上混系數(shù)例如可以是基于以下二者之間的差或者通過比較以下二者而確定的:所接收的音頻信號(hào)的協(xié)方差,以及通過下混信號(hào)的線性映射而近似的音頻信號(hào)的協(xié)方差。
換言之,上混參數(shù)可以與使得能夠由下混信號(hào)重構(gòu)音頻對(duì)象的上混矩陣的元素對(duì)應(yīng)。通常關(guān)于各個(gè)時(shí)間/頻率片,基于下混信號(hào)和音頻對(duì)象來計(jì)算上混參數(shù)。因此,上混參數(shù)是針對(duì)每個(gè)時(shí)間/頻率片而確定的,例如,可以針對(duì)每個(gè)時(shí)間/頻率片來確定上混矩陣(包括干上混系數(shù)和濕上混系數(shù))。
圖4中所示的用于對(duì)包括表示對(duì)話的至少一個(gè)對(duì)象的多個(gè)音頻對(duì)象進(jìn)行編碼的方法的第六步驟是確定s410用于標(biāo)識(shí)多個(gè)音頻對(duì)象中的哪個(gè)音頻對(duì)象表示對(duì)話的數(shù)據(jù)。通常,多個(gè)音頻對(duì)象可以伴有用于指示哪些對(duì)象包含對(duì)話的元數(shù)據(jù)。替選地,如本領(lǐng)域已知的,可以使用語音檢測(cè)器。
所描述的方法的最后步驟是形成比特流的步驟s412,該比特流至少包括通過下混步驟s402所確定的多個(gè)下混信號(hào)、通過確定用于重構(gòu)的系數(shù)的步驟s408所確定的邊信息、如上結(jié)合步驟s410所描述的標(biāo)識(shí)多個(gè)音頻對(duì)象中的哪個(gè)音頻對(duì)象表示對(duì)話的數(shù)據(jù)。比特流還可以包括通過上述可選步驟s401、s404、s406、s408輸出或確定的數(shù)據(jù)。
在圖5中,通過示例示出了編碼器500的框圖。編碼器被配置成對(duì)包括表示對(duì)話的至少一個(gè)對(duì)象的多個(gè)音頻對(duì)象進(jìn)行編碼,并且最后用于傳輸比特流520,該比特流520可以由結(jié)合圖1至圖3所描述的解碼器100、200、300中的任一個(gè)接收。
解碼器包括下混級(jí)503,該下混級(jí)包括下混部件504和重構(gòu)參數(shù)計(jì)算部件506。下混部件接收包括表示對(duì)話的至少一個(gè)對(duì)象的多個(gè)音頻對(duì)象502,并且確定作為多個(gè)音頻對(duì)象502的下混的多個(gè)下混信號(hào)507。下混信號(hào)可以例如是5.1或7.1環(huán)繞信號(hào)。如上所述,多個(gè)音頻對(duì)象502實(shí)際上可以是多個(gè)對(duì)象聚類502。這意味著在下混部件504的上游可以存在聚類部件(未示出),該聚類部件從更大量的音頻對(duì)象中確定多個(gè)音頻聚類。
下混部件504還可以確定用于描述如何將表示對(duì)話的至少一個(gè)對(duì)象混合到多個(gè)下混信號(hào)中的信息505。
多個(gè)下混信號(hào)507和多個(gè)音頻對(duì)象(或?qū)ο缶垲?由重構(gòu)參數(shù)計(jì)算部件506接收,該重構(gòu)參數(shù)計(jì)算部件506例如使用最小均方誤差(mmse)優(yōu)化來確定邊信息509,該邊信息509指示使得能夠從多個(gè)下混信號(hào)重構(gòu)多個(gè)音頻對(duì)象的系數(shù)。如上所述,邊信息509通常包括干上混系數(shù)和濕上混系數(shù)。
示例性編碼器500還可以包括下混編碼器部件508,該下混編碼器部件508可以適于對(duì)下混信號(hào)507進(jìn)行編碼,使得它們與已建立的聲音解碼系統(tǒng)(諸如杜比數(shù)字+、或者諸如aac、usac或mp3的mpeg標(biāo)準(zhǔn))向后兼容。
編碼器500還包括復(fù)用器518,該復(fù)用器518至少將編碼的下混信號(hào)510、邊信息509和用于標(biāo)識(shí)多個(gè)音頻對(duì)象中的哪個(gè)音頻對(duì)象表示對(duì)話的數(shù)據(jù)516組合到比特流520中。比特流520還可以包括信息505,該信息505描述如何將表示對(duì)話的至少一個(gè)對(duì)象混合到多個(gè)下混信號(hào)中,該多個(gè)下混信號(hào)可以通過熵編碼而被編碼。此外,比特流520可以包括與多個(gè)下混信號(hào)的空間位置和表示對(duì)話的至少一個(gè)對(duì)象的空間位置對(duì)應(yīng)的空間信息514。此外,比特流520可以包括與比特流中的多個(gè)音頻對(duì)象的空間位置對(duì)應(yīng)的空間信息512。
總之,本公開內(nèi)容屬于音頻編碼領(lǐng)域,特別地,本公開內(nèi)容涉及空間音頻編碼領(lǐng)域,其中音頻信息通過包括有至少一個(gè)對(duì)話對(duì)象的多個(gè)音頻對(duì)象來表示。特別地,本公開內(nèi)容提供了一種用于在音頻系統(tǒng)中的解碼器中增強(qiáng)對(duì)話的方法和裝置。此外,本公開內(nèi)容提供了一種用于對(duì)這樣的音頻對(duì)象進(jìn)行編碼以使得對(duì)話能夠被音頻系統(tǒng)中的解碼器增強(qiáng)的方法和裝置。
等同方案、擴(kuò)展方案、替選方案和其他
在研究了上述描述之后,本公開內(nèi)容的其他實(shí)施方式對(duì)于本領(lǐng)域技術(shù)人員而言將變得明顯。盡管本說明書和附圖公開了實(shí)施方式和示例,但本公開內(nèi)容不限于這些具體示例。在不脫離由所附權(quán)利要求限定的本公開內(nèi)容的范圍的情況下,可以進(jìn)行許多修改和變化。權(quán)利要求中出現(xiàn)的任何參考標(biāo)記不應(yīng)被理解為限制其范圍。
另外,本領(lǐng)域技術(shù)人員在實(shí)踐本公開內(nèi)容時(shí),根據(jù)對(duì)附圖、公開內(nèi)容和所附權(quán)利要求的研究可以理解并實(shí)現(xiàn)所公開的實(shí)施方式的變型。在權(quán)利要求中,詞組“包括”不排除其他元件或步驟,并且不定冠詞“一”或“一個(gè)”不排除多個(gè)。某些手段被記載在相互不同的從屬權(quán)利要求中這一事實(shí)并不表示這些手段的組合不能被有利地使用。
上文公開的系統(tǒng)和方法可以被實(shí)現(xiàn)為軟件、固件、硬件或其組合。在硬件實(shí)現(xiàn)中,上述描述中提到的功能單元之間的任務(wù)劃分不一定對(duì)應(yīng)于物理單元?jiǎng)澐郑幌喾?,一個(gè)物理部件可以具有多個(gè)功能,并且一個(gè)任務(wù)可以由協(xié)作中的多個(gè)物理部件執(zhí)行。某些部件或所有部件可以被實(shí)現(xiàn)為由數(shù)字信號(hào)處理器或微處理器執(zhí)行的軟件,或者被實(shí)現(xiàn)為硬件或?qū)S眉呻娐贰_@樣的軟件可以分布在計(jì)算機(jī)可讀介質(zhì)上,該計(jì)算機(jī)可讀介質(zhì)可以包括計(jì)算機(jī)存儲(chǔ)介質(zhì)(或非暫態(tài)介質(zhì))以及通信介質(zhì)(或暫態(tài)介質(zhì))。如本領(lǐng)域技術(shù)人員所公知的,術(shù)語計(jì)算機(jī)存儲(chǔ)介質(zhì)包括用于存儲(chǔ)信息(諸如計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其他數(shù)據(jù))的以任何方法或技術(shù)實(shí)現(xiàn)的易失性和非易失性、可移除和不可移除介質(zhì)。計(jì)算機(jī)存儲(chǔ)介質(zhì)包括但不限于ram、rom、eeprom、閃存或其他存儲(chǔ)器技術(shù)、cd-rom、數(shù)字通用盤(dvd)或其他光盤存儲(chǔ)器、磁帶盒、磁帶、磁盤存儲(chǔ)器或其他磁存儲(chǔ)設(shè)備、或者可以用于存儲(chǔ)所需信息并且可以由計(jì)算機(jī)訪問的任何其他介質(zhì)。此外,技術(shù)人員公知的是,通信介質(zhì)通常實(shí)現(xiàn)為計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或者調(diào)制數(shù)據(jù)信號(hào)(諸如載波或其他傳輸機(jī)制)中的其他數(shù)據(jù),并且包括任何信息傳遞介質(zhì)。