對(duì)音頻場(chǎng)景的編碼的制作方法
【專利說(shuō)明】對(duì)首頻場(chǎng)景的編碼
[0001]相關(guān)申請(qǐng)的交叉引用
[0002]本申請(qǐng)要求于2013年5月24日提交的美國(guó)臨時(shí)專利申請(qǐng)第61/827,246號(hào)的優(yōu)先權(quán),通過(guò)引用將該申請(qǐng)整體地合并到本文中。
技術(shù)領(lǐng)域
[0003]本文所公開(kāi)的發(fā)明總體上涉及音頻編碼和解碼領(lǐng)域。特別地,本發(fā)明涉及對(duì)包括音頻對(duì)象的音頻場(chǎng)景的編碼和解碼。
【背景技術(shù)】
[0004]存在用于參數(shù)空間音頻編碼的音頻編碼系統(tǒng)。例如,MPEG Surround描述了一種用于多聲道音頻的參數(shù)空間編碼的系統(tǒng)。MPEG SAOC (空間音頻對(duì)象編碼)描述了一種用于音頻對(duì)象的參數(shù)編碼的系統(tǒng)。
[0005]在編碼器側(cè),這些系統(tǒng)通常將聲道/對(duì)象下混成下混,下混通常為單聲道(一個(gè)聲道)或立體聲(兩個(gè)聲道)下混,并且提取通過(guò)如電平差和互相關(guān)來(lái)描述聲道/對(duì)象的性質(zhì)的邊信息。然后對(duì)下混和邊信息進(jìn)行編碼并且將其發(fā)送解碼器側(cè)。在解碼器側(cè),在邊信息的參數(shù)的控制下根據(jù)下混來(lái)重構(gòu)即近似估計(jì)聲道/對(duì)象。
[0006]這些系統(tǒng)的缺點(diǎn)在于重構(gòu)通常在數(shù)學(xué)上是復(fù)雜的并且經(jīng)常需要依賴于對(duì)由作為邊信息發(fā)送的參數(shù)未明確描述的音頻內(nèi)容的性質(zhì)的假設(shè)。這種假設(shè)例如可以是:除非發(fā)送了互相關(guān)參數(shù),否則聲道/對(duì)象被認(rèn)為是不相關(guān)的;或者以特定方式生成聲道/對(duì)象的下混。此外,當(dāng)下混的聲道的數(shù)目增加時(shí),數(shù)學(xué)復(fù)雜度和對(duì)額外的假設(shè)的需要會(huì)顯著增加。
[0007]此外,在應(yīng)用在解碼器側(cè)的處理的算法細(xì)節(jié)中內(nèi)在地反映出所需要的假設(shè)。這意味著在解碼器側(cè)必須包括相當(dāng)多的智能。這是個(gè)缺點(diǎn),因?yàn)楫?dāng)解碼器被設(shè)置在例如很難或甚至不可能升級(jí)的消費(fèi)者裝置中時(shí),很難升級(jí)和改進(jìn)算法。
【附圖說(shuō)明】
[0008]在下文中,將參考附圖并且更加詳細(xì)地描述示例實(shí)施例,其中:
[0009]圖1是根據(jù)不例實(shí)施例的首頻編碼/解碼系統(tǒng)的不意圖;
[0010]圖2是根據(jù)示例實(shí)施例的具有遺留解碼器的音頻編碼/解碼系統(tǒng)的示意圖;
[0011]圖3是根據(jù)不例實(shí)施例的首頻編碼/解碼系統(tǒng)的編碼側(cè)的不意圖;
[0012]圖4是根據(jù)示例實(shí)施例的編碼方法的流程圖;
[0013]圖5是根據(jù)示例實(shí)施例的編碼器的示意圖;
[0014]圖6是根據(jù)示例實(shí)施例的音頻編碼/解碼系統(tǒng)的解碼器側(cè)的示意圖;
[0015]圖7是根據(jù)示例實(shí)施例的解碼方法的流程圖;
[0016]圖8是根據(jù)不例實(shí)施例的首頻編碼/解碼系統(tǒng)的解碼器側(cè)的不意圖;以及
[0017]圖9是在根據(jù)示例實(shí)施例的音頻編碼/解碼系統(tǒng)的解碼器側(cè)執(zhí)行的時(shí)頻變換的示意圖。
[0018]所有附圖都是示意性的,并且一般僅示出為闡明本發(fā)明所必須的部分,而可以省略或僅暗示其它部分。除非另有說(shuō)明,否則相同附圖標(biāo)記在不同附圖中的指示相同部件。
【具體實(shí)施方式】
[0019]考慮到上述內(nèi)容,目的是提供編碼器和解碼器,以及提供音頻對(duì)象的較不復(fù)雜的且更靈活的重構(gòu)的相關(guān)方法。
[0020]1.概述一一編碼器
[0021]根據(jù)第一方面,示例實(shí)施例提出了編碼方法、編碼器以及用于編碼的計(jì)算機(jī)程序產(chǎn)品。所提出的方法、編碼器和計(jì)算機(jī)程序產(chǎn)品一般可以具有相同特征和優(yōu)勢(shì)。
[0022]根據(jù)示例實(shí)施例,提供了一種對(duì)至少包括N個(gè)音頻對(duì)象的音頻場(chǎng)景的時(shí)頻塊進(jìn)行編碼的方法。該方法包括:接收N個(gè)音頻對(duì)象;基于至少N個(gè)音頻對(duì)象生成M個(gè)下混信號(hào);用矩陣元素生成重構(gòu)矩陣,重構(gòu)矩陣使得能夠根據(jù)M個(gè)下混信號(hào)重構(gòu)至少N個(gè)音頻對(duì)象;以及生成包括M個(gè)下混信號(hào)以及重構(gòu)矩陣的矩陣元素中的至少一些矩陣元素的比特流。
[0023]音頻對(duì)象的數(shù)目N可以等于或大于I。下混信號(hào)的數(shù)目M可以等于或大于I。
[0024]通過(guò)該方法,從而生成了比特流,該比特流包括作為邊信息的重構(gòu)矩陣的矩陣元素中的至少一些矩陣元素以及M個(gè)下混信號(hào)。通過(guò)將重構(gòu)矩陣的各個(gè)矩陣元素包括在比特流中,在解碼器側(cè)需要非常少的智能。例如,在解碼器側(cè)不需要基于所傳輸?shù)膶?duì)象參數(shù)和額外的假設(shè)對(duì)重構(gòu)矩陣進(jìn)行復(fù)雜計(jì)算。因此,顯著降低了解碼器側(cè)的數(shù)學(xué)復(fù)雜度。此外,因?yàn)樵摲椒ǖ膹?fù)雜度不依賴于所使用的下混信號(hào)的數(shù)目,所以與現(xiàn)有技術(shù)方法相比,增加了關(guān)于下混信號(hào)的數(shù)目的靈活性。
[0025]如本文中所使用的,音頻場(chǎng)景一般指如下三維音頻環(huán)境:其包括與可以被呈現(xiàn)以在音頻系統(tǒng)上回放的三維空間中的位置相關(guān)聯(lián)的音頻單元。
[0026]如本文中所使用的,音頻對(duì)象指音頻場(chǎng)景的單元。音頻對(duì)象通常包括音頻信號(hào)以及諸如對(duì)象在三位空間中的位置的附加信息。附加信息通常被用于在給定的回放系統(tǒng)上最優(yōu)地呈現(xiàn)音頻對(duì)象。
[0027]如本文中所使用的,下混信號(hào)指是作為至少N個(gè)音頻對(duì)象的組合的信號(hào)。諸如音床聲道(將在下文中描述)的音頻場(chǎng)景的其它信號(hào)也可以被組合到下混信號(hào)中。例如,M個(gè)下混信號(hào)可以對(duì)應(yīng)于對(duì)給定揚(yáng)聲器配置,例如標(biāo)準(zhǔn)5.1配置的音頻場(chǎng)景的呈現(xiàn)。在本文中由M表示的下混信號(hào)的數(shù)目通常(但不必須地)少于音頻對(duì)象和音床聲道的數(shù)目之和,這解釋了為什么M個(gè)下混信號(hào)稱為下混。
[0028]音頻編碼/解碼系統(tǒng)通常例如通過(guò)將適合的濾波器組應(yīng)用于輸入音頻信號(hào)而將時(shí)頻空間劃分成時(shí)頻塊。時(shí)頻塊的一般意思是對(duì)應(yīng)于時(shí)間間隔和頻率子帶的時(shí)頻空間的一部分。時(shí)間間隔可以通常對(duì)應(yīng)于用在音頻編碼/解碼系統(tǒng)中的時(shí)間幀的持續(xù)時(shí)間。頻率子帶可以通常對(duì)應(yīng)于由用在編碼/解碼系統(tǒng)中的濾波器組所定義的一個(gè)或若干相鄰頻率子帶。在頻率子帶對(duì)應(yīng)于由濾波器組定義的若干相鄰頻率子帶的情形下,這允許在音頻信號(hào)的解碼過(guò)程中存在不均勻的頻率子帶,例如,更寬的頻率子帶用于音頻信號(hào)的較高頻率。在音頻編碼/解碼系統(tǒng)對(duì)整個(gè)頻率范圍進(jìn)行操作的寬波段的情形下,時(shí)頻塊的頻率子帶可以對(duì)應(yīng)于整個(gè)頻率范圍。上述方法公開(kāi)了用于在一個(gè)這樣的時(shí)頻塊期間對(duì)音頻場(chǎng)景進(jìn)行編碼的編碼步驟。然而,要理解的是,可以針對(duì)音頻編碼/解碼系統(tǒng)的每個(gè)時(shí)頻塊重復(fù)該方法。并且,還要理解的是,可以同時(shí)對(duì)若干時(shí)頻塊進(jìn)行編碼。通常,相鄰的時(shí)頻塊可以在時(shí)間和/或頻率上稍稍重疊。例如,時(shí)間上的重疊可以相當(dāng)于重構(gòu)矩陣的元素在時(shí)間上,即從一個(gè)時(shí)間間隔到下一個(gè)時(shí)間間隔的線性插值。然而,本公開(kāi)內(nèi)容的目標(biāo)在于編碼/解碼系統(tǒng)的其它部件,而相鄰的時(shí)頻塊之間的時(shí)間和/或頻率上的任何重疊留給本領(lǐng)域技術(shù)人員去實(shí)現(xiàn)。
[0029]根據(jù)示例實(shí)施例,使用第一格式將M個(gè)下混信號(hào)布置在比特流的第一字段中,并且使用第二格式將矩陣元素布置在比特流的第二字段中,從而允許僅支持第一格式的解碼器解碼和回放第一字段中的M個(gè)下混信號(hào)并且丟棄第二子段中的矩陣元素。這樣做的優(yōu)勢(shì)在于比特流中的M個(gè)下混信號(hào)與不用于實(shí)現(xiàn)音頻對(duì)象重構(gòu)的遺留解碼器后向兼容。換言之,遺留解碼器仍然可以例如通過(guò)將每個(gè)下混信號(hào)映射到解碼器的聲道輸出來(lái)解碼和回放比特流的M個(gè)下混信號(hào)。
[0030]根據(jù)示例實(shí)施例,該方法還可以包括步驟:接收對(duì)應(yīng)于N個(gè)音頻對(duì)象中的每個(gè)音頻對(duì)象的位置數(shù)據(jù),其中,基于位置數(shù)據(jù)生成M個(gè)下混信號(hào)。位置數(shù)據(jù)通常將每個(gè)音頻對(duì)象與三位空間中的位置相關(guān)聯(lián)。音頻對(duì)象的位置可以隨時(shí)間而變化。通過(guò)在對(duì)音頻對(duì)象進(jìn)行下混時(shí)使用位置數(shù)據(jù),將通過(guò)以下方式將音頻對(duì)象混合到M個(gè)下混信號(hào)中:例如如果在具有M個(gè)輸出聲道的系統(tǒng)上聽(tīng)M個(gè)下混信號(hào),則音頻對(duì)象聽(tīng)起來(lái)就像它們近似地位于其各自的位置。這例如在M個(gè)下混信號(hào)要與遺留解碼器后向兼容的情況下是有利的。
[0031]根據(jù)示例實(shí)施例,重構(gòu)矩陣的矩陣元素是時(shí)變的和頻變的。換言之,重構(gòu)矩陣的矩陣元素可以對(duì)于不同的時(shí)頻塊而不同。以這樣的方式,實(shí)現(xiàn)了音頻對(duì)象的重構(gòu)的極好的靈活性。
[0032]根據(jù)示例實(shí)施例,音頻場(chǎng)景還包括多個(gè)音床聲道。這例如在音頻內(nèi)容除了包括音頻對(duì)象以外還包括音床聲道的影院音頻應(yīng)用中是常見(jiàn)的。在這種情形下,可以基于至少N個(gè)音頻對(duì)象和多個(gè)音床聲道生成M個(gè)下混信號(hào)。音床聲道的一般意思是對(duì)應(yīng)于三維空間中的固定位置的音頻信號(hào)。例如,音床聲道可以對(duì)應(yīng)于音頻編碼/解碼系統(tǒng)的輸出聲道之一。這樣,音床聲道可以被解釋為具有三維空間中與音頻編碼/解碼系統(tǒng)的輸出揚(yáng)聲器之一的位置相同的相關(guān)位置。因此,音床聲道可以與僅指示相應(yīng)輸出揚(yáng)聲器的位置的標(biāo)簽相關(guān)聯(lián)。
[0033]當(dāng)音頻場(chǎng)景包括音床聲道時(shí),重構(gòu)矩陣可以包括使得能夠根據(jù)M個(gè)下混信號(hào)重構(gòu)音床聲道的矩陣元素。
[0034]在某些情況下,音頻場(chǎng)景可以包括大量的對(duì)象。為了降低表現(xiàn)音頻場(chǎng)景所需要的復(fù)雜度和數(shù)據(jù)量,可以通過(guò)減少音頻對(duì)象的數(shù)量來(lái)簡(jiǎn)化音頻場(chǎng)景。因此,如果音頻場(chǎng)景初始包括K個(gè)音頻對(duì)象,其中K>N,則該方法還可以包括步驟:接收K個(gè)音頻對(duì)象,并且通過(guò)將K個(gè)音頻對(duì)象聚類成N個(gè)聚類并將每個(gè)聚類用一個(gè)音頻對(duì)象表示,來(lái)將K個(gè)音頻對(duì)象減少到N個(gè)音頻對(duì)象。
[0035]為了簡(jiǎn)化場(chǎng)景,該方法還可以包括步驟:接收對(duì)應(yīng)于K個(gè)音頻對(duì)象中的每個(gè)音頻對(duì)象的位置數(shù)據(jù),其中,將K個(gè)對(duì)象聚類成N個(gè)聚類基于由K個(gè)音頻對(duì)象的位置數(shù)據(jù)所給出的K個(gè)對(duì)象之間的位置距離。例如,三維空間中位置彼此靠近的音頻對(duì)象可以被聚