音頻編碼器和解碼器的制作方法

文檔序號(hào)：11531134閱讀：276來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

相關(guān)申請(qǐng)的交叉引用

本申請(qǐng)要求于2014年10月1日提交的美國臨時(shí)專利申請(qǐng)第62/058,157號(hào)的優(yōu)先權(quán)，該美國臨時(shí)專利申請(qǐng)的全部內(nèi)容通過引用并入本文。

本文的公開內(nèi)容一般涉及音頻編碼。具體地，本公開內(nèi)容涉及用于在音頻系統(tǒng)中的解碼器中增強(qiáng)對(duì)話的方法和裝置。本公開內(nèi)容還涉及用于對(duì)包括表示對(duì)話的至少一個(gè)對(duì)象的多個(gè)音頻對(duì)象進(jìn)行編碼的方法和裝置。

背景技術(shù)：

在常規(guī)音頻系統(tǒng)中，采用基于聲道的方法。每個(gè)聲道可以例如表示一個(gè)揚(yáng)聲器或一個(gè)揚(yáng)聲器陣列的內(nèi)容。用于這樣的系統(tǒng)的可能的編碼方案包括離散多聲道編碼或參數(shù)編碼諸如mpeg環(huán)繞(mpegsurround)。

最近，已經(jīng)開發(fā)了一種新的方法。這種方法是基于對(duì)象的，這在對(duì)復(fù)雜音頻場(chǎng)景進(jìn)行編碼時(shí)(例如在電影院應(yīng)用中)是有利的。在采用基于對(duì)象的方法的系統(tǒng)中，三維音頻場(chǎng)景由音頻對(duì)象以及其相關(guān)聯(lián)的元數(shù)據(jù)(例如，位置元數(shù)據(jù))來表示。這些音頻對(duì)象在音頻信號(hào)的播放期間在三維音頻場(chǎng)景中移動(dòng)。該系統(tǒng)還可以包括所謂的聲床聲道(bedchannels)，其可以被描述為直接映射到例如上述常規(guī)音頻系統(tǒng)的某些輸出聲道的信號(hào)。

對(duì)話增強(qiáng)是用于相對(duì)于其他分量(諸如音樂、背景聲音和聲音效果)而增強(qiáng)或增加對(duì)話水平的技術(shù)。因?yàn)閷?duì)話可以由單獨(dú)的對(duì)象表示，所以基于對(duì)象的音頻內(nèi)容可以很好地適用于對(duì)話增強(qiáng)。然而，在一些情況下，音頻場(chǎng)景可能包括大量的對(duì)象。為了降低表示音頻場(chǎng)景所需的復(fù)雜度和數(shù)據(jù)量，可以通過減少音頻對(duì)象的數(shù)量，即通過對(duì)象聚類(objetclustering)，來簡(jiǎn)化音頻場(chǎng)景。這種方法可能在一些對(duì)象聚類中引入對(duì)話與其他對(duì)象之間的混合。

通過在音頻系統(tǒng)中的解碼器中包括用于這種音頻聚類的對(duì)話增強(qiáng)可能性，解碼器的計(jì)算復(fù)雜度可能增加。

附圖說明

現(xiàn)在將參考附圖描述示例實(shí)施方式，在附圖中：

圖1示出了根據(jù)示例性實(shí)施方式的用于在音頻系統(tǒng)中增強(qiáng)對(duì)話的高質(zhì)量解碼器的一般化框圖，

圖2示出了根據(jù)示例性實(shí)施方式的用于在音頻系統(tǒng)中增強(qiáng)對(duì)話的低復(fù)雜度解碼器的第一一般化框圖，

圖3示出了根據(jù)示例性實(shí)施方式的用于在音頻系統(tǒng)中增強(qiáng)對(duì)話的低復(fù)雜度解碼器的第二一般化框圖，

圖4描述了根據(jù)示例性實(shí)施方式的用于對(duì)包括表示對(duì)話的至少一個(gè)對(duì)象的多個(gè)音頻對(duì)象進(jìn)行編碼的方法，

圖5示出了根據(jù)示例性實(shí)施方式的用于對(duì)包括表示對(duì)話的至少一個(gè)對(duì)象的多個(gè)音頻對(duì)象進(jìn)行編碼的編碼器的一般化框圖。

所有附圖是示意性的并且通常僅示出了為了闡明本公開內(nèi)容所必需的部分，而其他部分可能會(huì)被省略或僅僅被暗示。除非另有說明，否則在不同的附圖中相同的附圖標(biāo)記表示相同的部件。

具體實(shí)施方式

鑒于上述內(nèi)容，目的在于提供旨在降低解碼器中的對(duì)話增強(qiáng)的復(fù)雜度的編碼器和解碼器以及相關(guān)聯(lián)的方法。

i.概述-解碼器

根據(jù)第一方面，示例實(shí)施方式提出了用于解碼的解碼方法、解碼器和計(jì)算機(jī)程序產(chǎn)品。所提出的方法、解碼器和計(jì)算機(jī)程序產(chǎn)品通?？梢跃哂邢嗤奶卣骱蛢?yōu)點(diǎn)。

根據(jù)示例實(shí)施方式，提供了一種用于在音頻系統(tǒng)中的解碼器中增強(qiáng)對(duì)話的方法，包括以下步驟：接收多個(gè)下混信號(hào)，該下混信號(hào)是包括表示對(duì)話的至少一個(gè)對(duì)象的多個(gè)音頻對(duì)象的下混；接收邊信息，該邊信息指示使得能夠由多個(gè)下混信號(hào)重構(gòu)多個(gè)音頻對(duì)象的系數(shù)；接收用于標(biāo)識(shí)多個(gè)音頻對(duì)象中的哪個(gè)音頻對(duì)象表示對(duì)話的數(shù)據(jù)；通過使用增強(qiáng)參數(shù)和用于標(biāo)識(shí)多個(gè)音頻對(duì)象中的哪個(gè)音頻對(duì)象表示對(duì)話的數(shù)據(jù)來修改所述系數(shù)；以及使用修改的系數(shù)來至少重構(gòu)表示對(duì)話的至少一個(gè)對(duì)象。

增強(qiáng)參數(shù)通常是在解碼器處可用的用戶設(shè)置。用戶可以例如使用遠(yuǎn)程控制來增加對(duì)話的音量。因此，增強(qiáng)參數(shù)通常不由音頻系統(tǒng)中的編碼器提供給解碼器。在許多情況下，將增強(qiáng)參數(shù)轉(zhuǎn)換成對(duì)話的增益，但它也可以轉(zhuǎn)換成對(duì)話的衰減。此外，增強(qiáng)參數(shù)可以與對(duì)話的某些頻率有關(guān)，例如對(duì)話的頻率相關(guān)的增益或衰減。

在本說明書的上下文中，術(shù)語對(duì)話應(yīng)當(dāng)被理解成：在一些實(shí)施方式中，僅是相關(guān)的對(duì)話被增強(qiáng)，而不是例如對(duì)話的背景聊天和任何混響版本被增強(qiáng)。對(duì)話可以包括人之間的對(duì)話，也可以包括獨(dú)白、解說或其他講話。

如本文所使用的，音頻對(duì)象是指音頻場(chǎng)景的元素。音頻對(duì)象通常包括音頻信號(hào)和諸如對(duì)象在三維空間中的位置的附加信息。附加信息通常用于在給定的播放系統(tǒng)上最佳地渲染音頻對(duì)象。術(shù)語音頻對(duì)象還包括音頻對(duì)象的聚類，即對(duì)象聚類。對(duì)象聚類表示至少兩個(gè)音頻對(duì)象的混合，并且通常包括作為音頻信號(hào)的音頻對(duì)象和諸如對(duì)象聚類在三維空間中的位置的附加信息的混合。對(duì)象聚類中的至少兩個(gè)音頻對(duì)象可以基于以下而被混合：其各自的空間位置接近，以及對(duì)象聚類的空間位置被選擇為各個(gè)對(duì)象位置的平均值。

如本文所使用的，下混信號(hào)是指作為多個(gè)音頻對(duì)象中的至少一個(gè)音頻對(duì)象的組合的信號(hào)。音頻場(chǎng)景的其他信號(hào)(如聲床聲道)也可以組合到下混信號(hào)中。下混信號(hào)的數(shù)量通常(但不一定)小于音頻對(duì)象的數(shù)量和聲床聲道的數(shù)量的總和，這解釋了為什么下混信號(hào)被稱為下混。下混信號(hào)也可以被稱為下混聚類。

如本文所使用的，邊信息也可以被稱為元數(shù)據(jù)。

在本說明書的上下文中，術(shù)語指示系數(shù)的邊信息應(yīng)當(dāng)被理解成系數(shù)直接存在于邊信息中(該邊信息例如在來自于編碼器的比特流中被發(fā)送)，或者它們是根據(jù)存在于邊信息中的數(shù)據(jù)而計(jì)算的。

根據(jù)本方法，修改使得能夠重構(gòu)多個(gè)音頻對(duì)象的系數(shù)，以用于提供對(duì)后面重構(gòu)的表示對(duì)話的至少一個(gè)音頻對(duì)象的增強(qiáng)。與在表示對(duì)話的至少一個(gè)音頻對(duì)象被重構(gòu)之后執(zhí)行對(duì)重構(gòu)的表示對(duì)話的至少一個(gè)音頻對(duì)象的增強(qiáng)(即，在沒有修改所述系數(shù)的情況下啟用重構(gòu))的常規(guī)方法相比，本方法提供了實(shí)現(xiàn)本方法的解碼器的降低的數(shù)學(xué)復(fù)雜度以及因此降低的計(jì)算復(fù)雜度。

根據(jù)示例性實(shí)施方式，通過使用增強(qiáng)參數(shù)來修改系數(shù)的步驟包括將使得能夠重構(gòu)表示對(duì)話的至少一個(gè)對(duì)象的系數(shù)與增強(qiáng)參數(shù)相乘。這是用于修改系數(shù)的計(jì)算上低復(fù)雜度的操作，其仍保持系數(shù)之間的相互比率。

根據(jù)示例性實(shí)施方式，該方法還包括：根據(jù)邊信息來計(jì)算使得能夠由多個(gè)下混信號(hào)重構(gòu)多個(gè)音頻對(duì)象的系數(shù)。

根據(jù)示例性實(shí)施方式，至少重構(gòu)表示對(duì)話的至少一個(gè)對(duì)象的步驟包括僅重構(gòu)表示對(duì)話的至少一個(gè)對(duì)象。

在許多情況下，下混信號(hào)可以對(duì)應(yīng)于將音頻場(chǎng)景渲染或輸出至給定揚(yáng)聲器配置，如標(biāo)準(zhǔn)5.1配置。在這種情況下，可以通過僅重構(gòu)表示要增強(qiáng)的對(duì)話的音頻對(duì)象，即，不執(zhí)行所有音頻對(duì)象的完全重構(gòu)，來實(shí)現(xiàn)低復(fù)雜度解碼。

根據(jù)示例性實(shí)施方式，僅重構(gòu)表示對(duì)話的至少一個(gè)對(duì)象不涉及下混信號(hào)的解相關(guān)。這降低了重構(gòu)步驟的復(fù)雜度。此外，由于并不是所有音頻對(duì)象都被重構(gòu)，即，對(duì)于這些音頻對(duì)象而言可以降低要渲染的音頻內(nèi)容的質(zhì)量，所以在重構(gòu)表示對(duì)話的至少一個(gè)對(duì)象時(shí)使用解相關(guān)不會(huì)提高被增強(qiáng)渲染的音頻內(nèi)容的感知音頻質(zhì)量。因此，可以省略解相關(guān)。

根據(jù)示例性實(shí)施方式，該方法還包括以下步驟：將所重構(gòu)的表示對(duì)話的至少一個(gè)對(duì)象與下混信號(hào)合并為至少一個(gè)單獨(dú)的信號(hào)。因此，所重構(gòu)的至少一個(gè)對(duì)象不需要再次混合到下混信號(hào)中或與下混信號(hào)組合。因此，根據(jù)本實(shí)施方式，不需要描述音頻系統(tǒng)中的編碼器如何將表示對(duì)話的至少一個(gè)對(duì)象混合到多個(gè)下混信號(hào)中的信息。

根據(jù)示例性實(shí)施方式，該方法還包括接收具有空間信息的數(shù)據(jù)，該空間信息對(duì)應(yīng)于多個(gè)下混信號(hào)的空間位置和表示對(duì)話的至少一個(gè)對(duì)象的空間位置，以及基于具有空間信息的數(shù)據(jù)來渲染多個(gè)下混信號(hào)和所重構(gòu)的表示對(duì)話的至少一個(gè)對(duì)象。

根據(jù)示例性實(shí)施方式，該方法還包括使用用于描述音頻系統(tǒng)中的編碼器如何將表示對(duì)話的至少一個(gè)對(duì)象混合到多個(gè)下混信號(hào)中的信息來組合下混信號(hào)和所重構(gòu)的表示對(duì)話的至少一個(gè)對(duì)象。下混信號(hào)可以被下混，以便支持用于某些揚(yáng)聲器配置(如5.1配置或7.1配置)的始終音頻輸出(always-audio-out，aao)，即，下混信號(hào)可以直接用于在這種揚(yáng)聲器配置上播放。通過組合下混信號(hào)和所重構(gòu)的表示對(duì)話的至少一個(gè)對(duì)象，在仍然支持aao的同時(shí)實(shí)現(xiàn)對(duì)話增強(qiáng)。換言之，根據(jù)一些實(shí)施方式，所重構(gòu)的并且經(jīng)對(duì)話增強(qiáng)的表示對(duì)話的至少一個(gè)對(duì)象被再次混合回下混信號(hào)中，以仍然支持aao。

根據(jù)示例性實(shí)施方式，該方法還包括渲染下混信號(hào)和所重構(gòu)的表示對(duì)話的至少一個(gè)對(duì)象的組合。

根據(jù)示例性實(shí)施方式，該方法還包括接收描述音頻系統(tǒng)中的編碼器如何將表示對(duì)話的至少一個(gè)對(duì)象混合到多個(gè)下混信號(hào)中的信息。當(dāng)對(duì)包括表示對(duì)話的至少一個(gè)對(duì)象的多個(gè)音頻對(duì)象進(jìn)行下混時(shí)，音頻系統(tǒng)中的編碼器可能已經(jīng)具有這種類型的信息，或者編碼器可以容易地計(jì)算所述信息。

根據(jù)示例性實(shí)施方式，通過熵編碼對(duì)所接收到的用于描述如何將表示對(duì)話的至少一個(gè)對(duì)象混合到多個(gè)下混信號(hào)中的信息進(jìn)行編碼。這可以減少用于發(fā)送信息所需的比特率。

根據(jù)示例性實(shí)施方式，所述方法還包括以下步驟：接收具有空間信息的數(shù)據(jù)，該空間信息對(duì)應(yīng)于多個(gè)下混信號(hào)的空間位置和表示對(duì)話的至少一個(gè)對(duì)象的空間位置，以及基于具有空間信息的數(shù)據(jù)來計(jì)算用于描述音頻系統(tǒng)中的編碼器如何將表示對(duì)話的至少一個(gè)對(duì)象混合到多個(gè)下混信號(hào)中的信息。該實(shí)施方式的優(yōu)點(diǎn)是減少了用于將包括下混信號(hào)和邊信息的比特流傳輸?shù)骄幋a器所需的比特率，因?yàn)榕c多個(gè)下混信號(hào)的空間位置和表示對(duì)話的至少一個(gè)對(duì)象的空間位置對(duì)應(yīng)的空間信息無論如何都可以被解碼器接收，解碼器不需要接收另外的信息或數(shù)據(jù)。

根據(jù)示例性實(shí)施方式，計(jì)算用于描述如何將表示對(duì)話的至少一個(gè)對(duì)象混合到多個(gè)下混信號(hào)中的信息的步驟包括應(yīng)用函數(shù)，該函數(shù)將表示對(duì)話的至少一個(gè)對(duì)象的空間位置映射到多個(gè)下混信號(hào)的空間位置。該函數(shù)可以例如是諸如矢量基幅度平移(vectorbaseamplitudepanning，vbap)算法的3d平移算法?？梢允褂萌魏纹渌线m的函數(shù)。

根據(jù)示例性實(shí)施方式，至少重構(gòu)表示對(duì)話的至少一個(gè)對(duì)象的步驟包括重構(gòu)多個(gè)音頻對(duì)象。在該情況下，該方法可以包括接收具有與多個(gè)音頻對(duì)象的空間位置對(duì)應(yīng)的空間信息的數(shù)據(jù)，以及基于具有空間信息的數(shù)據(jù)來渲染所重構(gòu)的多個(gè)音頻對(duì)象。由于如上所述對(duì)使得能夠重構(gòu)多個(gè)音頻對(duì)象的系數(shù)執(zhí)行對(duì)話增強(qiáng)，多個(gè)音頻對(duì)象的重構(gòu)和對(duì)所重構(gòu)的音頻對(duì)象的渲染(二者均是矩陣運(yùn)算)可以組合成一個(gè)運(yùn)算，這降低了兩個(gè)運(yùn)算的復(fù)雜度。

根據(jù)示例實(shí)施方式，提供了一種計(jì)算機(jī)可讀介質(zhì)，包括適用于在具有處理能力的設(shè)備上執(zhí)行時(shí)執(zhí)行第一方面的任何方法的計(jì)算機(jī)代碼指令。

根據(jù)示例實(shí)施方式，提供了一種用于在音頻系統(tǒng)中增強(qiáng)對(duì)話的解碼器。該解碼器包括接收級(jí)，接收級(jí)被配置用于：接收多個(gè)下混信號(hào)，下混信號(hào)是包括表示對(duì)話的至少一個(gè)對(duì)象的多個(gè)音頻對(duì)象的下混；接收邊信息，該邊信息指示使得能夠由多個(gè)下混信號(hào)重構(gòu)多個(gè)音頻對(duì)象的系數(shù)；以及接收用于標(biāo)識(shí)所述多個(gè)音頻對(duì)象中的哪個(gè)音頻對(duì)象表示對(duì)話的數(shù)據(jù)。該解碼器還包括修改級(jí)，修改級(jí)被配置用于通過使用增強(qiáng)參數(shù)和用于標(biāo)識(shí)多個(gè)音頻對(duì)象中的哪個(gè)音頻對(duì)象表示對(duì)話的數(shù)據(jù)來修改系數(shù)。該解碼器還包括重構(gòu)級(jí)，重構(gòu)級(jí)被配置用于使用修改的系數(shù)來至少重構(gòu)表示對(duì)話的至少一個(gè)對(duì)象。

ii.概述-編碼器

根據(jù)第二方面，示例實(shí)施方式提出了用于編碼的編碼方法、編碼器和計(jì)算機(jī)程序產(chǎn)品。所提出的方法、編碼器和計(jì)算機(jī)程序產(chǎn)品通?？梢跃哂邢嗤奶卣骱蛢?yōu)點(diǎn)。通常，第二方面的特征可以與第一方面的對(duì)應(yīng)特征具有相同的優(yōu)點(diǎn)。

根據(jù)示例實(shí)施方式，提供了一種用于對(duì)包括表示對(duì)話的至少一個(gè)對(duì)象的多個(gè)音頻對(duì)象進(jìn)行編碼的方法，包括以下步驟：確定多個(gè)下混信號(hào)，該多個(gè)下混信號(hào)是包括表示對(duì)話的至少一個(gè)對(duì)象的多個(gè)音頻對(duì)象的下混；確定邊信息，該邊信息指示使得能夠由多個(gè)下混信號(hào)重構(gòu)多個(gè)音頻對(duì)象的系數(shù)；確定用于標(biāo)識(shí)多個(gè)音頻對(duì)象中的哪個(gè)音頻對(duì)象表示對(duì)話的數(shù)據(jù)；以及形成包括多個(gè)下混信號(hào)、邊信息和用于標(biāo)識(shí)多個(gè)音頻對(duì)象中的哪個(gè)音頻對(duì)象表示對(duì)話的數(shù)據(jù)的比特流。

根據(jù)示例性實(shí)施方式，該方法還包括確定與多個(gè)下混信號(hào)的空間位置和表示對(duì)話的至少一個(gè)對(duì)象的空間位置對(duì)應(yīng)的空間信息的步驟，以及將所述空間信息包括在比特流中的步驟。

根據(jù)示例性實(shí)施方式，確定多個(gè)下混信號(hào)的步驟還包括確定用于描述如何將表示對(duì)話的至少一個(gè)對(duì)象混合到多個(gè)下混信號(hào)中的信息。根據(jù)該實(shí)施方式，將用于描述如何將表示對(duì)話的至少一個(gè)對(duì)象混合到多個(gè)下混信號(hào)中的這種信息包括在比特流中。

根據(jù)示例性實(shí)施方式，使用熵編碼對(duì)所確定的用于描述如何將表示對(duì)話的至少一個(gè)對(duì)象混合到多個(gè)下混信號(hào)中的信息進(jìn)行編碼。

根據(jù)示例性實(shí)施方式，該方法還包括以下步驟：確定與多個(gè)音頻對(duì)象的空間位置對(duì)應(yīng)的空間信息的步驟，以及將與多個(gè)音頻對(duì)象的空間位置對(duì)應(yīng)的空間信息包括在比特流中的步驟。

根據(jù)示例實(shí)施方式，提供了一種計(jì)算機(jī)可讀介質(zhì)，包括適于在具有處理能力的設(shè)備上執(zhí)行時(shí)執(zhí)行第二方面的任何方法的計(jì)算機(jī)代碼指令。

根據(jù)示例實(shí)施方式，提供了一種用于對(duì)包括表示對(duì)話的至少一個(gè)對(duì)象的多個(gè)音頻對(duì)象進(jìn)行編碼的編碼器。該編碼器包括下混級(jí)和編碼級(jí)，下混級(jí)被配置用于：確定多個(gè)下混信號(hào)，該多個(gè)下混信號(hào)是包括表示對(duì)話的至少一個(gè)對(duì)象的多個(gè)音頻對(duì)象的下混；確定邊信息，該邊信息包括指示使得能夠由多個(gè)下混信號(hào)重構(gòu)多個(gè)音頻對(duì)象，編碼級(jí)被配置用于形成包括多個(gè)下混信號(hào)和邊信息的比特流，其中，比特流還包括用于標(biāo)識(shí)多個(gè)音頻對(duì)象中的哪個(gè)音頻對(duì)象表示對(duì)話的數(shù)據(jù)。

iii.示例實(shí)施方式

如上所述，對(duì)話增強(qiáng)與相對(duì)于其他音頻分量而增加對(duì)話水平有關(guān)。在根據(jù)內(nèi)容創(chuàng)建而被適當(dāng)?shù)亟M織的情況下，對(duì)象內(nèi)容非常適合于對(duì)話增強(qiáng)，因?yàn)閷?duì)話可以由單獨(dú)的對(duì)象表示。對(duì)象(即對(duì)象聚類或下混信號(hào))的參數(shù)編碼可能引入對(duì)話與其他對(duì)象之間的混合。

現(xiàn)在將結(jié)合圖1至圖3來描述用于增強(qiáng)混入到這種對(duì)象聚類中的對(duì)話的解碼器。圖1示出了根據(jù)示例性實(shí)施方式的用于在音頻系統(tǒng)中增強(qiáng)對(duì)話的高質(zhì)量解碼器100的一般化框圖。解碼器100在接收級(jí)104處接收比特流102。還可以將接收級(jí)104視為核心解碼器，其對(duì)比特流102進(jìn)行解碼并且輸出比特流102的解碼內(nèi)容。比特流102可以例如包括多個(gè)下混信號(hào)110或下混聚類，所述多個(gè)下混信號(hào)110或下混聚類是包括表示對(duì)話的至少一個(gè)對(duì)象的多個(gè)音頻對(duì)象的下混。因此，接收級(jí)通常包括下混解碼器部件，該下混解碼器部件可以適于對(duì)比特流102的部分進(jìn)行解碼以形成下混信號(hào)110，使得它們與解碼器的聲音解碼系統(tǒng)(如杜比數(shù)字+或者諸如aac、usac或mp3的mpeg標(biāo)準(zhǔn))兼容。比特流102還可以包括邊信息108，邊信息108指示使得能夠由多個(gè)下混信號(hào)重構(gòu)多個(gè)音頻對(duì)象的系數(shù)。為了高效地進(jìn)行對(duì)話增強(qiáng)，比特流102還可以包括用于標(biāo)識(shí)多個(gè)音頻對(duì)象中的哪個(gè)音頻對(duì)象表示對(duì)話的數(shù)據(jù)108。該數(shù)據(jù)108可以合并在邊信息108中，或者它可以與邊信息108分開。如下面詳細(xì)討論的，邊信息108通常包括可以轉(zhuǎn)換成干上混矩陣(dryupmixmatrix)c的干上混系數(shù)，以及可以轉(zhuǎn)換成濕上混矩陣(wetupmixmatrix)p的濕上混系數(shù)。

解碼器100還包括修改級(jí)112，修改級(jí)112被配置成通過使用增強(qiáng)參數(shù)140和標(biāo)識(shí)多個(gè)音頻對(duì)象中的哪個(gè)音頻對(duì)象表示對(duì)話的數(shù)據(jù)108來修改邊信息108中所指示的系數(shù)。在修改級(jí)112處可以以任何合適的方式接收增強(qiáng)參數(shù)140。根據(jù)實(shí)施方式，修改級(jí)112修改干上混矩陣c和濕上混矩陣p，至少修改與對(duì)話對(duì)應(yīng)的系數(shù)。

因此修改級(jí)112將期望的對(duì)話增強(qiáng)應(yīng)用于與對(duì)話對(duì)象對(duì)應(yīng)的系數(shù)。根據(jù)一個(gè)實(shí)施方式，通過使用增強(qiáng)參數(shù)140來修改系數(shù)的步驟包括將使得能夠重構(gòu)表示對(duì)話的至少一個(gè)對(duì)象的系數(shù)與增強(qiáng)參數(shù)140相乘。換言之，修改包括對(duì)與對(duì)話對(duì)象對(duì)應(yīng)的系數(shù)的固定放大。

在一些實(shí)施方式中，解碼器100還包括預(yù)解相關(guān)器級(jí)114和解相關(guān)器級(jí)116。這兩個(gè)級(jí)114、116一起形成下混信號(hào)110的組合的解相關(guān)版本，該解相關(guān)版本稍后將用于由多個(gè)下混信號(hào)110重構(gòu)(例如上混)多個(gè)音頻對(duì)象。如在圖1中可以看到的，在修改級(jí)112中修改系數(shù)之前，可以將邊信息108饋送到預(yù)解相關(guān)器級(jí)114。根據(jù)實(shí)施方式，將邊信息108中指示的系數(shù)轉(zhuǎn)換成經(jīng)修改的干上混矩陣120、經(jīng)修改的濕上混矩陣142和如圖1中表示為附圖標(biāo)記144的預(yù)解相關(guān)器矩陣q。經(jīng)修改的濕上混矩陣在如下所述的重構(gòu)級(jí)124處被用于對(duì)解相關(guān)器信號(hào)122進(jìn)行上混。

預(yù)解相關(guān)器矩陣q在預(yù)解相關(guān)器級(jí)114處被使用，并且根據(jù)實(shí)施方式可以通過下式來計(jì)算：

q＝(absp)^tc

其中absp表示通過對(duì)未修改的濕上混矩陣p的元素取絕對(duì)值而獲得的矩陣，c表示未修改的干上混矩陣。

設(shè)想了基于干上混矩陣c和濕上混矩陣p來計(jì)算預(yù)解相關(guān)系數(shù)q的替選方式。例如，可以將預(yù)解相關(guān)系數(shù)q計(jì)算為q＝(absp0)^tc，其中矩陣p0是通過對(duì)p的每一列進(jìn)行歸一化而獲得的。

計(jì)算預(yù)解相關(guān)器矩陣q僅涉及具有相對(duì)低復(fù)雜度的計(jì)算，并且因此可以方便地在解碼器側(cè)采用。然而，根據(jù)一些實(shí)施方式，預(yù)解相關(guān)器矩陣q被包括在邊信息108中。

換言之，解碼器可以被配置用于根據(jù)邊信息來計(jì)算使得能夠由多個(gè)下混信號(hào)重構(gòu)多個(gè)音頻對(duì)象126的系數(shù)。以這種方式，預(yù)解相關(guān)器矩陣不受在修改級(jí)中對(duì)系數(shù)做出的任何修改的影響，這可能是有利的，因?yàn)槿绻A(yù)解相關(guān)器矩陣被修改，則在預(yù)解相關(guān)器級(jí)114和解相關(guān)器級(jí)116中的解相關(guān)處理可能引入可能不期望的另外的對(duì)話增強(qiáng)。根據(jù)其他實(shí)施方式，在修改級(jí)112中對(duì)系數(shù)進(jìn)行修改之后將邊信息饋送到預(yù)解相關(guān)器級(jí)114。由于解碼器100是高質(zhì)量解碼器，所以它可以被配置用于重構(gòu)所有多個(gè)音頻對(duì)象。這在重構(gòu)級(jí)124處完成。因此，解碼器100的重構(gòu)級(jí)124接收下混信號(hào)110、解相關(guān)信號(hào)122以及使得能夠由多個(gè)下混信號(hào)110重構(gòu)多個(gè)音頻對(duì)象的經(jīng)修改的系數(shù)120、142。因此，重構(gòu)級(jí)可以在將音頻對(duì)象渲染到音頻系統(tǒng)的輸出配置(如7.1.4聲道輸出)之前通過參數(shù)(parametrically)重構(gòu)音頻對(duì)象126。然而，通常這在許多情況下不會(huì)發(fā)生，因?yàn)橹貥?gòu)級(jí)124處的音頻對(duì)象重構(gòu)和渲染級(jí)128處的渲染是可以組合的矩陣運(yùn)算(由虛線134表示)以用于在計(jì)算上高效地實(shí)現(xiàn)。為了將音頻對(duì)象渲染在三維空間中的正確位置處，比特流102還包括具有空間信息的數(shù)據(jù)106，該空間信息與多個(gè)音頻對(duì)象的空間位置對(duì)應(yīng)。

可以注意到，根據(jù)一些實(shí)施方式，解碼器100被配置成提供重構(gòu)的對(duì)象作為輸出，使得它們可以在解碼器的外部被處理和渲染。根據(jù)該實(shí)施方式，解碼器100因此輸出重構(gòu)的音頻對(duì)象126，并且不包括渲染級(jí)128。

音頻對(duì)象的重構(gòu)通常在頻域，如在正交鏡像濾波器(qmf)域中執(zhí)行。然而，音頻可能需要在時(shí)域中輸出。出于這個(gè)原因，解碼器還包括變換級(jí)132，在該變換級(jí)132中例如通過應(yīng)用逆正交鏡像濾波器(iqmf)組來將渲染的信號(hào)130變換到時(shí)域。根據(jù)一些實(shí)施方式，在變換級(jí)132處到時(shí)域的變換可以在渲染級(jí)128中渲染信號(hào)之前執(zhí)行。

總之，結(jié)合圖1描述的解碼器通過在重構(gòu)音頻對(duì)象之前修改使得能夠由多個(gè)下混信號(hào)重構(gòu)多個(gè)音頻對(duì)象的系數(shù)來高效地實(shí)現(xiàn)對(duì)話增強(qiáng)。對(duì)系數(shù)執(zhí)行增強(qiáng)的代價(jià)是每幀若干次乘法，針對(duì)與對(duì)話相關(guān)的每個(gè)系數(shù)一次乘法，乘以頻帶的數(shù)量。在典型情況下，乘法次數(shù)將最可能等于下混聲道的數(shù)量(例如5至7)乘以參數(shù)頻帶的數(shù)量(例如20至40)，但是如果對(duì)話也獲得解相關(guān)貢獻(xiàn)，則乘法次數(shù)可能更多。相比之下，對(duì)重構(gòu)對(duì)象執(zhí)行對(duì)話增強(qiáng)的現(xiàn)有技術(shù)解決方案導(dǎo)致針對(duì)每個(gè)采樣的乘法，對(duì)于復(fù)數(shù)信號(hào)來說乘以頻帶的數(shù)量乘以2。通常這將導(dǎo)致每幀16*64*2＝2048次乘法，經(jīng)常更多。

音頻編碼/解碼系統(tǒng)通常例如通過對(duì)輸入音頻信號(hào)應(yīng)用合適的濾波器組來將時(shí)頻空間劃分成時(shí)間/頻率片(tile)。時(shí)間/頻率片通常意指時(shí)頻空間的與時(shí)間間隔和頻帶對(duì)應(yīng)的部分。時(shí)間間隔通常可以對(duì)應(yīng)于音頻編碼/解碼系統(tǒng)中使用的時(shí)間幀的持續(xù)時(shí)間。頻帶是正在被編碼或解碼的音頻信號(hào)/對(duì)象的整個(gè)頻率范圍的完整頻率范圍的一部分。頻帶通?？梢詫?duì)應(yīng)于由編碼/解碼系統(tǒng)中使用的濾波器組限定的一個(gè)或若干相鄰頻帶。在頻帶對(duì)應(yīng)于由濾波器組限定的若干相鄰頻帶的情況下，這使得在音頻信號(hào)的解碼過程中能夠具有非均勻的頻帶，例如較寬的頻帶用于音頻信號(hào)的較高頻率。

在替選輸出模式中，為了節(jié)省解碼器復(fù)雜度，不重構(gòu)下混對(duì)象。在該實(shí)施方式中，下混信號(hào)被認(rèn)為是要直接渲染給輸出配置(如5.1輸出配置)的信號(hào)。這也稱為始終音頻輸出(aao)操作模式。圖2和圖3描述了使得即使對(duì)于這種低復(fù)雜度實(shí)施方式也能夠增強(qiáng)對(duì)話的解碼器200、300。

圖2描述了根據(jù)第一示例性實(shí)施方式的用于增強(qiáng)音頻系統(tǒng)中的對(duì)話的低復(fù)雜度解碼器200。解碼器100在接收級(jí)104或核心解碼器處接收比特流102。接收級(jí)104可以如結(jié)合圖1所描述的那樣被配置。因此，接收級(jí)輸出邊信息108和下混信號(hào)110。由邊信息108指示的系數(shù)被修改級(jí)112通過如上所述的增強(qiáng)參數(shù)140來修改，差別在于必須考慮對(duì)話已經(jīng)存在于下混信號(hào)110中，并且因此如下面所描述的，增強(qiáng)參數(shù)在被用于修改邊信息108之前可能必須按比例縮小。另一個(gè)差別可能在于由于在(如下所述的)低復(fù)雜度解碼器200中不采用解相關(guān)，因此修改級(jí)112僅修改邊信息108中的干上混系數(shù)，并且因此忽略邊信息108中存在的任何濕上混系數(shù)。在一些實(shí)施方式中，校正可以考慮由省略解相關(guān)器貢獻(xiàn)而引起的對(duì)話對(duì)象的預(yù)測(cè)中的能量損失。修改級(jí)112的修改確保對(duì)話對(duì)象被重構(gòu)為增強(qiáng)信號(hào)，該增強(qiáng)信號(hào)在與下混信號(hào)組合時(shí)產(chǎn)生增強(qiáng)的對(duì)話。將修改的系數(shù)218和下混信號(hào)輸入到重構(gòu)級(jí)204。在重構(gòu)級(jí)處，可以使用修改的系數(shù)218僅重構(gòu)表示對(duì)話的至少一個(gè)對(duì)象。為了進(jìn)一步降低解碼器200的解碼復(fù)雜度，在重構(gòu)級(jí)204處對(duì)表示對(duì)話的至少一個(gè)對(duì)象的重構(gòu)不涉及下混信號(hào)110的解相關(guān)。重構(gòu)級(jí)204因此生成對(duì)話增強(qiáng)信號(hào)206。在許多實(shí)施方式中，重構(gòu)級(jí)204是重構(gòu)級(jí)124的一部分，所述部分與表示對(duì)話的至少一個(gè)對(duì)象的重構(gòu)有關(guān)。

為了仍然根據(jù)所支持的輸出配置(即，下混信號(hào)110被下混以便支持的輸出配置(例如5.1或7.1環(huán)繞信號(hào)))來輸出信號(hào)，對(duì)話增強(qiáng)信號(hào)206需要再次被下混到下混信號(hào)110中或者與下混信號(hào)110組合。為此，解碼器包括自適應(yīng)混合級(jí)208，該自適應(yīng)混合級(jí)208使用用于描述音頻系統(tǒng)中的編碼器如何將表示對(duì)話的至少一個(gè)對(duì)象混合到多個(gè)下混信號(hào)中的信息202，以用于將對(duì)話增強(qiáng)對(duì)象混合回到表示210中，該表示210對(duì)應(yīng)于在下混信號(hào)110中如何表示對(duì)話對(duì)象。然后將這種表示與下混信號(hào)110組合212，使得所得到的組合信號(hào)214包括增強(qiáng)對(duì)話。

用于增強(qiáng)多個(gè)下混信號(hào)中的對(duì)話的上述構(gòu)思的步驟可以通過對(duì)表示多個(gè)下混信號(hào)110的一個(gè)時(shí)頻片的矩陣d的單個(gè)矩陣運(yùn)算來實(shí)現(xiàn)：

db＝d+md式1

其中db是包括提升的對(duì)話部分(boosteddialogparts)的經(jīng)修改的下混214。修改矩陣m通過下式來獲得：

m＝gc式2

其中g(shù)是[下混聲道的數(shù)量,對(duì)話對(duì)象的數(shù)量]的下混增益的矩陣，即，信息202用于描述是如何將表示對(duì)話的至少一個(gè)對(duì)象混合到多個(gè)下混信號(hào)110的當(dāng)前解碼的時(shí)頻片d中的，c是[對(duì)話對(duì)象的數(shù)量,下混聲道的數(shù)量]的經(jīng)修改系數(shù)218的矩陣。

用于增強(qiáng)多個(gè)下混信號(hào)中的對(duì)話的替選實(shí)施方式可以通過對(duì)列向量x[下混聲道的數(shù)量]的矩陣運(yùn)算來實(shí)現(xiàn)，其中每個(gè)元素表示多個(gè)下混信號(hào)110的單個(gè)時(shí)頻采樣：

xb＝ex式3

其中xb是包括增強(qiáng)的對(duì)話部分的經(jīng)修改的下混214。修改矩陣e通過下式來獲得：

e＝i+gc式4

其中i是[下混聲道的數(shù)量,下混聲道的數(shù)量]的單位矩陣，g是[下混聲道的數(shù)量,對(duì)話對(duì)象的數(shù)量]的下混增益的矩陣，即，信息202用于描述是如何將表示對(duì)話的至少一個(gè)對(duì)象混合到當(dāng)前解碼的多個(gè)下混信號(hào)110中的，c是[對(duì)話對(duì)象的數(shù)量，下混聲道的數(shù)量]的經(jīng)修改系數(shù)218的矩陣。

針對(duì)幀中的每個(gè)頻帶和時(shí)間采樣來計(jì)算矩陣e。通常，矩陣e的數(shù)據(jù)每幀傳輸一次，并且通過用前一幀中的相應(yīng)矩陣進(jìn)行插值來針對(duì)時(shí)頻片中的每個(gè)時(shí)間采樣計(jì)算矩陣。

根據(jù)一些實(shí)施方式，信息202是比特流102的一部分，并且包括由音頻系統(tǒng)中的編碼器使用以用于將對(duì)話對(duì)象下混成下混信號(hào)的下混系數(shù)。

在一些實(shí)施方式中，下混信號(hào)不對(duì)應(yīng)于揚(yáng)聲器配置的聲道。在這樣的實(shí)施方式中，有益的是將下混信號(hào)渲染到與用于重放的配置的揚(yáng)聲器對(duì)應(yīng)的位置。對(duì)于這些實(shí)施方式，比特流102可以攜帶用于多個(gè)下混信號(hào)110的位置數(shù)據(jù)。

現(xiàn)在將描述與這樣接收的信息202對(duì)應(yīng)的比特流的示例性語法。對(duì)話對(duì)象可以混合到多于一個(gè)的下混信號(hào)。因此，可以根據(jù)下表將每個(gè)下混聲道的下混系數(shù)編碼到比特流中：

表1下混系數(shù)語法

用于表示以下音頻對(duì)象的下混系數(shù)的比特流顯現(xiàn)為0000111100：該音頻對(duì)象被下混以使得7個(gè)下混信號(hào)中的第5個(gè)下混信號(hào)僅包括對(duì)話對(duì)象。相對(duì)比地，用于表示以下音頻對(duì)象的下混系數(shù)的比特流顯現(xiàn)為000010000011101：該音頻對(duì)象被下混1/15，下混到第5下混信號(hào)中，以及被下混14/15，下混到第7下混信號(hào)中。

利用該語法，值0被最頻繁地發(fā)送，因?yàn)閷?duì)話對(duì)象通常不在所有下混信號(hào)中，而最可能在僅一個(gè)下混信號(hào)中。因此，可以有利地通過上表中定義的熵編碼來對(duì)下混系數(shù)進(jìn)行編碼。對(duì)于大多數(shù)情況，在非零系數(shù)上花費(fèi)多于一個(gè)的比特并且對(duì)于0值僅花費(fèi)1個(gè)比特使得平均字長低于5個(gè)比特。例如，當(dāng)7個(gè)下混信號(hào)中的一個(gè)下混信號(hào)中存在對(duì)話對(duì)象時(shí)，平均每個(gè)系數(shù)有1/7*(1[比特]*6[系數(shù)]+5[比特]*1[系數(shù)])＝1.57比特。用4個(gè)比特直接編碼所有系數(shù)，成本將是1/7*(4[比特]*7[系數(shù)])＝每個(gè)系數(shù)4個(gè)比特。只有當(dāng)對(duì)話對(duì)象在(7個(gè)下混信號(hào)中的)6個(gè)或7個(gè)下混信號(hào)中時(shí)，上述熵編碼比直接編碼成本高。使用上述熵編碼減少了用于傳輸下混系數(shù)所需的比特率。

替選地，可以使用霍夫曼編碼傳輸下混系數(shù)。

根據(jù)其他實(shí)施方式，用于描述音頻系統(tǒng)中的編碼器如何將表示對(duì)話的至少一個(gè)對(duì)象混合到多個(gè)下混信號(hào)中的信息202不是由解碼器接收，而是在接收級(jí)104處計(jì)算，或者在解碼器200的其它適當(dāng)?shù)募?jí)計(jì)算。這減少了用于傳輸解碼器200所接收的比特流102所需的比特率。這種計(jì)算可以基于具有空間信息的數(shù)據(jù)，該空間信息對(duì)應(yīng)于多個(gè)下混信號(hào)110的空間位置和表示對(duì)話的至少一個(gè)對(duì)象的空間位置。這樣的數(shù)據(jù)通常已經(jīng)由解碼器200已知，因?yàn)樗ǔ０ㄔ谟梢纛l系統(tǒng)中的編碼器生成的比特流102中。計(jì)算可以包括應(yīng)用函數(shù)，該函數(shù)將表示對(duì)話的至少一個(gè)對(duì)象的空間位置映射到多個(gè)下混信號(hào)110的空間位置。該算法可以是3d平移算法，例如基于矢量的幅度平移(vbap)算法。vbap是使用多個(gè)物理聲源(例如揚(yáng)聲器)的設(shè)置，即揚(yáng)聲器輸出配置，來將虛擬聲源(例如對(duì)話對(duì)象)定位到任意方向的方法。因此，這樣的算法可以被再用，以通過使用下混信號(hào)的位置作為揚(yáng)聲器位置來計(jì)算下混系數(shù)。

使用上式1和2的符號(hào)，g是通過令rendcoef＝r(spkpos,sourcepos)來計(jì)算的，其中r是3d平移算法(例如，vbap)，以提供用于將位于sourcepos(例如，笛卡爾坐標(biāo))處的對(duì)話對(duì)象渲染至位于spkpos處的nbrspeakers個(gè)下混聲道的渲染系數(shù)向量rendcoef[nbrspeakersx1](每個(gè)行對(duì)應(yīng)于下混信號(hào)的坐標(biāo)的矩陣)。然后通過下式獲得g：

g＝[rendcoef1,rendcoef2,…,rendcoefn]式5

其中，rendcoefi是n個(gè)對(duì)話對(duì)象中的對(duì)話對(duì)象i的渲染系數(shù)。

由于音頻對(duì)象的重構(gòu)通常在如上結(jié)合圖1所述的qmf域中執(zhí)行，并且聲音可能需要在時(shí)域中輸出，所以解碼器200還包括變換級(jí)132，在該變換級(jí)132中例如通過應(yīng)用逆qmf將組合信號(hào)214變換成時(shí)域中的信號(hào)216。

根據(jù)實(shí)施方式，解碼器200還可以包括在變換級(jí)132上游或者在變換級(jí)132下游的渲染級(jí)(未示出)。如上所述，在一些情況下，下混信號(hào)不對(duì)應(yīng)于揚(yáng)聲器配置的聲道。在這樣的實(shí)施方式中，有益的是將下混信號(hào)渲染到與用于重放的配置的揚(yáng)聲器對(duì)應(yīng)的位置。對(duì)于這些實(shí)施方式，比特流102可以攜帶用于多個(gè)下混信號(hào)110的位置數(shù)據(jù)。

圖3中示出了用于在音頻系統(tǒng)中增強(qiáng)對(duì)話的低復(fù)雜度解碼器的替選施方式。圖3所示的解碼器300與上述解碼器200之間的主要區(qū)別在于：在重構(gòu)級(jí)204之后，所重構(gòu)的對(duì)話增強(qiáng)對(duì)象206不再次與下混信號(hào)110組合(combine)。相反，所重構(gòu)的至少一個(gè)對(duì)話增強(qiáng)對(duì)象206與下混信號(hào)110合并(merge)為至少一個(gè)單獨(dú)的信號(hào)。上述解碼器300通常已知的用于至少一個(gè)對(duì)話對(duì)象的空間信息被用于在附加信號(hào)206被上述變換級(jí)132變換到時(shí)域之后或之前，渲染附加信號(hào)206以及根據(jù)多個(gè)下混信號(hào)的空間位置信息304來渲染下混信號(hào)。

對(duì)于結(jié)合圖2至圖3描述的解碼器200、300的實(shí)施方式二者，必須考慮到對(duì)話已經(jīng)存在于下混信號(hào)110中，以及增強(qiáng)的重構(gòu)對(duì)話對(duì)象206添加至此，無論它們是如結(jié)合圖2所描述的與下混信號(hào)110組合，還是如結(jié)合圖3所描述的它們與下混信號(hào)110合并。因此，如果增強(qiáng)參數(shù)的大小是基于下混信號(hào)中現(xiàn)有的對(duì)話具有大小1而計(jì)算的，則gde需要減去例如1。

圖4描述了根據(jù)示例性實(shí)施方式的用于對(duì)包括表示對(duì)話的至少一個(gè)對(duì)象的多個(gè)音頻對(duì)象進(jìn)行編碼的方法400。應(yīng)當(dāng)注意，通過示例示出了圖4所示的方法400的步驟的順序。

方法400的第一步驟是確定s401與多個(gè)音頻對(duì)象的空間位置對(duì)應(yīng)的空間信息的可選步驟。通常，對(duì)象音頻伴有對(duì)每個(gè)對(duì)象應(yīng)當(dāng)被渲染到何處的描述。這通常根據(jù)坐標(biāo)(例如笛卡爾、極坐標(biāo)等)來完成。

該方法的第二步驟是確定s402多個(gè)下混信號(hào)的步驟，多個(gè)下混信號(hào)是包括表示對(duì)話的至少一個(gè)對(duì)象的多個(gè)音頻對(duì)象的下混。這也可以稱為下混步驟。

例如，每個(gè)下混信號(hào)可以是多個(gè)音頻對(duì)象的線性組合。在其他實(shí)施方式中，下混信號(hào)中的每個(gè)頻帶可以包括多個(gè)音頻對(duì)象的不同組合。實(shí)現(xiàn)這種方法的音頻編碼系統(tǒng)因此包括根據(jù)音頻對(duì)象確定下混信號(hào)并且對(duì)下混信號(hào)進(jìn)行編碼的下混部件。編碼的下混信號(hào)例如可以是5.1或7.1環(huán)繞信號(hào)，其與已建立的聲音解碼系統(tǒng)(諸如杜比數(shù)字+、或者諸如aac、usac或mp3的mpeg標(biāo)準(zhǔn))向后兼容，使得實(shí)現(xiàn)aao。

確定s402多個(gè)下混信號(hào)的步驟可以可選地包括確定s404用于描述如何將表示對(duì)話的至少一個(gè)對(duì)象混合到多個(gè)下混信號(hào)中的信息。在許多實(shí)施方式中，下混系數(shù)是根據(jù)下混操作中的處理得出的。在一些實(shí)施方式中，這可以通過使用最小均方誤差(mmse)算法將對(duì)話對(duì)象與下混信號(hào)進(jìn)行比較來完成。

存在對(duì)音頻對(duì)象進(jìn)行下混的許多方式，例如，可以使用對(duì)在空間上靠近在一起的對(duì)象進(jìn)行下混的算法。根據(jù)該算法，確定在空間中的哪些位置存在著對(duì)象的集中。然后，使用這些位置作為下混信號(hào)位置的質(zhì)心。這只是一個(gè)示例。其他示例包括在下混時(shí)如果可能則保持使對(duì)話對(duì)象與其他音頻對(duì)象分離，以便改善對(duì)話分離并且進(jìn)一步簡(jiǎn)化在解碼器側(cè)的對(duì)話增強(qiáng)。

方法400的第四步驟是確定s406與多個(gè)下混信號(hào)的空間位置對(duì)應(yīng)的空間信息的可選步驟。在省略了確定s401與多個(gè)音頻對(duì)象的空間位置對(duì)應(yīng)的空間信息的可選步驟的情況下，步驟s406還包括確定與表示對(duì)話的至少一個(gè)對(duì)象的空間位置對(duì)應(yīng)的空間信息。

在如上所述確定s402多個(gè)下混信號(hào)時(shí)，空間信息通常是已知的。

該方法中的下一步驟是確定s408邊信息，該邊信息指示使得能夠由多個(gè)下混信號(hào)重構(gòu)多個(gè)音頻對(duì)象的系數(shù)。這些系數(shù)也可以稱為上混參數(shù)。上混參數(shù)可以例如是根據(jù)下混信號(hào)和音頻對(duì)象來確定的，例如通過mmse優(yōu)化。上混參數(shù)通常包括干上混系數(shù)和濕上混系數(shù)。干上混系數(shù)定義了近似于要編碼的音頻信號(hào)的下混信號(hào)的線性映射。干上混系數(shù)因此是定義了線性變換的定量屬性的系數(shù)，該線性變換采用下混信號(hào)作為輸入，并且輸出近似于要編碼的音頻信號(hào)的一組音頻信號(hào)。所確定的一組干上混系數(shù)可以例如定義與音頻信號(hào)的最小均方誤差近似相對(duì)應(yīng)的下混信號(hào)的線性映射，即，在下混信號(hào)的線性映射的集合中，所確定的一組干上混系數(shù)可以定義在最小均方意義上最佳地近似于音頻信號(hào)的線性映射。

濕上混系數(shù)例如可以是基于以下二者之間的差或者通過比較以下二者而確定的：所接收的音頻信號(hào)的協(xié)方差，以及通過下混信號(hào)的線性映射而近似的音頻信號(hào)的協(xié)方差。

換言之，上混參數(shù)可以與使得能夠由下混信號(hào)重構(gòu)音頻對(duì)象的上混矩陣的元素對(duì)應(yīng)。通常關(guān)于各個(gè)時(shí)間/頻率片，基于下混信號(hào)和音頻對(duì)象來計(jì)算上混參數(shù)。因此，上混參數(shù)是針對(duì)每個(gè)時(shí)間/頻率片而確定的，例如，可以針對(duì)每個(gè)時(shí)間/頻率片來確定上混矩陣(包括干上混系數(shù)和濕上混系數(shù))。

圖4中所示的用于對(duì)包括表示對(duì)話的至少一個(gè)對(duì)象的多個(gè)音頻對(duì)象進(jìn)行編碼的方法的第六步驟是確定s410用于標(biāo)識(shí)多個(gè)音頻對(duì)象中的哪個(gè)音頻對(duì)象表示對(duì)話的數(shù)據(jù)。通常，多個(gè)音頻對(duì)象可以伴有用于指示哪些對(duì)象包含對(duì)話的元數(shù)據(jù)。替選地，如本領(lǐng)域已知的，可以使用語音檢測(cè)器。

所描述的方法的最后步驟是形成比特流的步驟s412，該比特流至少包括通過下混步驟s402所確定的多個(gè)下混信號(hào)、通過確定用于重構(gòu)的系數(shù)的步驟s408所確定的邊信息、如上結(jié)合步驟s410所描述的標(biāo)識(shí)多個(gè)音頻對(duì)象中的哪個(gè)音頻對(duì)象表示對(duì)話的數(shù)據(jù)。比特流還可以包括通過上述可選步驟s401、s404、s406、s408輸出或確定的數(shù)據(jù)。

在圖5中，通過示例示出了編碼器500的框圖。編碼器被配置成對(duì)包括表示對(duì)話的至少一個(gè)對(duì)象的多個(gè)音頻對(duì)象進(jìn)行編碼，并且最后用于傳輸比特流520，該比特流520可以由結(jié)合圖1至圖3所描述的解碼器100、200、300中的任一個(gè)接收。

解碼器包括下混級(jí)503，該下混級(jí)包括下混部件504和重構(gòu)參數(shù)計(jì)算部件506。下混部件接收包括表示對(duì)話的至少一個(gè)對(duì)象的多個(gè)音頻對(duì)象502，并且確定作為多個(gè)音頻對(duì)象502的下混的多個(gè)下混信號(hào)507。下混信號(hào)可以例如是5.1或7.1環(huán)繞信號(hào)。如上所述，多個(gè)音頻對(duì)象502實(shí)際上可以是多個(gè)對(duì)象聚類502。這意味著在下混部件504的上游可以存在聚類部件(未示出)，該聚類部件從更大量的音頻對(duì)象中確定多個(gè)音頻聚類。

下混部件504還可以確定用于描述如何將表示對(duì)話的至少一個(gè)對(duì)象混合到多個(gè)下混信號(hào)中的信息505。

多個(gè)下混信號(hào)507和多個(gè)音頻對(duì)象(或?qū)ο缶垲?由重構(gòu)參數(shù)計(jì)算部件506接收，該重構(gòu)參數(shù)計(jì)算部件506例如使用最小均方誤差(mmse)優(yōu)化來確定邊信息509，該邊信息509指示使得能夠從多個(gè)下混信號(hào)重構(gòu)多個(gè)音頻對(duì)象的系數(shù)。如上所述，邊信息509通常包括干上混系數(shù)和濕上混系數(shù)。

示例性編碼器500還可以包括下混編碼器部件508，該下混編碼器部件508可以適于對(duì)下混信號(hào)507進(jìn)行編碼，使得它們與已建立的聲音解碼系統(tǒng)(諸如杜比數(shù)字+、或者諸如aac、usac或mp3的mpeg標(biāo)準(zhǔn))向后兼容。

編碼器500還包括復(fù)用器518，該復(fù)用器518至少將編碼的下混信號(hào)510、邊信息509和用于標(biāo)識(shí)多個(gè)音頻對(duì)象中的哪個(gè)音頻對(duì)象表示對(duì)話的數(shù)據(jù)516組合到比特流520中。比特流520還可以包括信息505，該信息505描述如何將表示對(duì)話的至少一個(gè)對(duì)象混合到多個(gè)下混信號(hào)中，該多個(gè)下混信號(hào)可以通過熵編碼而被編碼。此外，比特流520可以包括與多個(gè)下混信號(hào)的空間位置和表示對(duì)話的至少一個(gè)對(duì)象的空間位置對(duì)應(yīng)的空間信息514。此外，比特流520可以包括與比特流中的多個(gè)音頻對(duì)象的空間位置對(duì)應(yīng)的空間信息512。

總之，本公開內(nèi)容屬于音頻編碼領(lǐng)域，特別地，本公開內(nèi)容涉及空間音頻編碼領(lǐng)域，其中音頻信息通過包括有至少一個(gè)對(duì)話對(duì)象的多個(gè)音頻對(duì)象來表示。特別地，本公開內(nèi)容提供了一種用于在音頻系統(tǒng)中的解碼器中增強(qiáng)對(duì)話的方法和裝置。此外，本公開內(nèi)容提供了一種用于對(duì)這樣的音頻對(duì)象進(jìn)行編碼以使得對(duì)話能夠被音頻系統(tǒng)中的解碼器增強(qiáng)的方法和裝置。

等同方案、擴(kuò)展方案、替選方案和其他

在研究了上述描述之后，本公開內(nèi)容的其他實(shí)施方式對(duì)于本領(lǐng)域技術(shù)人員而言將變得明顯。盡管本說明書和附圖公開了實(shí)施方式和示例，但本公開內(nèi)容不限于這些具體示例。在不脫離由所附權(quán)利要求限定的本公開內(nèi)容的范圍的情況下，可以進(jìn)行許多修改和變化。權(quán)利要求中出現(xiàn)的任何參考標(biāo)記不應(yīng)被理解為限制其范圍。

另外，本領(lǐng)域技術(shù)人員在實(shí)踐本公開內(nèi)容時(shí)，根據(jù)對(duì)附圖、公開內(nèi)容和所附權(quán)利要求的研究可以理解并實(shí)現(xiàn)所公開的實(shí)施方式的變型。在權(quán)利要求中，詞組“包括”不排除其他元件或步驟，并且不定冠詞“一”或“一個(gè)”不排除多個(gè)。某些手段被記載在相互不同的從屬權(quán)利要求中這一事實(shí)并不表示這些手段的組合不能被有利地使用。

上文公開的系統(tǒng)和方法可以被實(shí)現(xiàn)為軟件、固件、硬件或其組合。在硬件實(shí)現(xiàn)中，上述描述中提到的功能單元之間的任務(wù)劃分不一定對(duì)應(yīng)于物理單元?jiǎng)澐郑幌喾?，一個(gè)物理部件可以具有多個(gè)功能，并且一個(gè)任務(wù)可以由協(xié)作中的多個(gè)物理部件執(zhí)行。某些部件或所有部件可以被實(shí)現(xiàn)為由數(shù)字信號(hào)處理器或微處理器執(zhí)行的軟件，或者被實(shí)現(xiàn)為硬件或?qū)Ｓ眉呻娐贰＿@樣的軟件可以分布在計(jì)算機(jī)可讀介質(zhì)上，該計(jì)算機(jī)可讀介質(zhì)可以包括計(jì)算機(jī)存儲(chǔ)介質(zhì)(或非暫態(tài)介質(zhì))以及通信介質(zhì)(或暫態(tài)介質(zhì))。如本領(lǐng)域技術(shù)人員所公知的，術(shù)語計(jì)算機(jī)存儲(chǔ)介質(zhì)包括用于存儲(chǔ)信息(諸如計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其他數(shù)據(jù))的以任何方法或技術(shù)實(shí)現(xiàn)的易失性和非易失性、可移除和不可移除介質(zhì)。計(jì)算機(jī)存儲(chǔ)介質(zhì)包括但不限于ram、rom、eeprom、閃存或其他存儲(chǔ)器技術(shù)、cd-rom、數(shù)字通用盤(dvd)或其他光盤存儲(chǔ)器、磁帶盒、磁帶、磁盤存儲(chǔ)器或其他磁存儲(chǔ)設(shè)備、或者可以用于存儲(chǔ)所需信息并且可以由計(jì)算機(jī)訪問的任何其他介質(zhì)。此外，技術(shù)人員公知的是，通信介質(zhì)通常實(shí)現(xiàn)為計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或者調(diào)制數(shù)據(jù)信號(hào)(諸如載波或其他傳輸機(jī)制)中的其他數(shù)據(jù)，并且包括任何信息傳遞介質(zhì)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2