包括信息比特流轉(zhuǎn)換的用于對具有各種聲道的多對象音頻信號進(jìn)行編碼和解碼的設(shè)備和方法

文檔序號：2830615閱讀：516來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：包括信息比特流轉(zhuǎn)換的用于對具有各種聲道的多對象音頻信號進(jìn)行編碼和解碼的設(shè)備和方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種用于對具有各種聲道的多對象音頻信號進(jìn)行編碼和解碼的i殳備和方法；且更具體;也，涉及一種包4舌邊信息(side information)比特流轉(zhuǎn)換的用于對具有各種聲道的多對象音頻信號進(jìn)行編碼和解碼的設(shè)備和方法，所述邊信息比特流轉(zhuǎn)換用于變換邊信息比特流、并基于變換后的邊信息比特流來恢復(fù)具有所期望的輸出信號(即，各種聲道)的多對象音頻信具有各種聲道的多對象音頻信號表示用于針對每個(gè)音頻對象具有不同聲道(例如，單聲道、立體聲和5.1聲道)的多對象的音頻信號。這項(xiàng)工作受MIC/IITA的IT R&D規(guī)劃[2005-S-403-02， "Development of Super-intelligent Multimedia Anytime-anywhere Realistic TV SmarTV Technology(超智能多媒體任何時(shí)間任何地點(diǎn)逼真TV智能TV技術(shù)的開發(fā))"] 支持。
背景技術(shù)：
根據(jù)傳統(tǒng)的音頻編碼/解碼技術(shù)，用戶應(yīng)該被動(dòng)地(inactively )聆聽音頻內(nèi)容。這樣，需要開發(fā)一種用于對在用于多個(gè)音頻對象的多聲道中的音頻信號進(jìn)行編碼和解碼的設(shè)備和方法，使得可以通過根據(jù)用戶的需要而控制其每一個(gè)具有不同聲道的音頻對象并以各種方法而組合一個(gè)音頻內(nèi)容，來消費(fèi)各種音頻對象。傳統(tǒng)的空間音頻編碼(SAC )是一種用于將多聲道音頻信號代表、傳送、和恢復(fù)為縮混后的單聲道或立體聲信號的技術(shù)，并且它可以以低比特率來傳送高質(zhì)量的多聲道音頻信號。然而，由于傳統(tǒng)的SAC能夠?qū)υ趦H用于一個(gè)音頻對象的多聲道中的信號進(jìn)行編碼和解碼，所以它不能編碼/解碼多聲道和多對象音頻信號，例如，用于多聲道(例如，單聲道、立體聲和5.1聲道)中的各種對象的音頻信號。此外，傳統(tǒng)的心理聲學(xué)編碼(BCC: Binaural Cue Coding)技術(shù)可以編碼/解碼用于多對象的音頻信號。然而，由于音頻對象的聲道限于單聲道，所以不能對具有包括單聲道的各種聲道的多對象音頻信號進(jìn)行編碼/解碼。總之，由于傳統(tǒng)的^a術(shù)僅可以編碼/解碼具有單個(gè)聲道的多對象音頻信號、或者具有多聲道的單對象音頻信號，所以不能對具有各種聲道的多對象音頻信號進(jìn)行編碼/解碼。因此，根據(jù)傳統(tǒng)的音頻編碼/解碼技術(shù)，用戶應(yīng)該 4皮動(dòng)地聆聽音頻內(nèi)容。相應(yīng)地，需要開發(fā)一種用于對在用于每個(gè)多音頻對象的各種聲道中的音頻信號進(jìn)行編碼和解碼的設(shè)備和方法，以通過控制根據(jù)用戶的需要而不同的多聲道中的每個(gè)音頻對象、并根據(jù)各種方法而組合一個(gè)音頻內(nèi)容來消費(fèi)各種音頻對象。此外，需要一種用于將多對象音頻比特流轉(zhuǎn)換為傳統(tǒng)的SAC比特流并且反之亦然的設(shè)備和方法，以提供在多對象音頻編碼器中創(chuàng)建的邊信息比特流與傳統(tǒng)的SAC編碼器/解碼器的邊信息比特流之間的后向兼容性。如上所述，作為用于通過單獨(dú)控制具有不同聲道的多個(gè)音頻對象并根據(jù) 各種方法而組合一個(gè)音頻內(nèi)容來對各種聲道的多對象音頻信號進(jìn)行編碼和解碼的設(shè)備和方法，需要開發(fā)一種可執(zhí)行比特流轉(zhuǎn)換的多聲道和多對象音頻編碼和解碼設(shè)備及方法，以提供與傳統(tǒng)SAC比特流的后向兼容性，并控制具有多聲道的每個(gè)多音頻對象，從而以多樣的方法來組合一個(gè)音頻對象。
發(fā)明內(nèi)容
技術(shù)問題本發(fā)明的實(shí)施例旨在提供一種用于對具有各種聲道的多對象音頻信號進(jìn)行編碼和解碼、以提供與傳統(tǒng)的空間音頻編碼(SAC)比特流的后向兼容性的設(shè)備和方法。技術(shù)解決方案根據(jù)本發(fā)明的一方面，提供了一種用于編碼多對象音頻信號的設(shè)備，包括音頻對象編碼單元，用于基于空間線索(spatial cue)來編碼輸入到編碼設(shè)備的音頻對象信號，并創(chuàng)建用于編碼后的音頻對象信號的渲染信息，其中所述渲染信息包括用于音頻對象信號的空間線索信息、音頻對象信號的聲道信息和音頻對象信號的標(biāo)識(shí)信息。根據(jù)本發(fā)明的又一方面，提供了一種用于創(chuàng)建渲染信息來解碼多對象音頻信號的代碼轉(zhuǎn)換設(shè)備，包括第一矩陣單元，用于基于已編碼音頻對象信號的對象控制信息和播放信息來創(chuàng)建渲染信息，該渲染信息包括用于已編碼音頻對象信號的功率增益信息和輸出位置信息；和渲染單元，用于基于第一矩陣單元所創(chuàng)建的渲染信息和用于從編碼設(shè)備輸入的已編碼音頻對象信號的渲染信息，來創(chuàng)建用于要從解碼設(shè)備輸出的音頻信號的空間線索信息。根據(jù)本發(fā)明的又一方面，提供了一種用于創(chuàng)建多聲道音頻信號和用于解碼多聲道音頻信號的渲染信息的代碼轉(zhuǎn)換設(shè)備，包括解析單元，用于從用于由編碼設(shè)備輸入的已編碼音頻信號的渲染信息中分出用于已編碼音頻對象信號的渲染信息和用于多聲道音頻信號的渲染信息；第一矩陣單元，用于基于已編碼音頻對象信號的對象控制信息和播放信息來創(chuàng)建渲染信息，該渲染信息包括用于已編碼音頻對象信號的功率增益信息和輸出位置信息；第二矩陣單元，用于基于由解析單元單獨(dú)獲取的用于已編碼多聲道音頻信號的渲染信息，來創(chuàng)建包括用于多聲道音頻信號的每個(gè)聲道的功率增益信息的渲染信息，和渲染單元，用于基于第一矩陣單元所創(chuàng)建的渲染信息、第二矩陣單元所創(chuàng)建的渲染信息、和由解析單元單獨(dú)獲取的用于已編碼音頻對象信號的渲染信息，來創(chuàng)建用于從解碼設(shè)備輸出的音頻信號的空間線索信息。根據(jù)本發(fā)明的又一方面，提供了一種用于編碼多對象音頻信號的方法，包括如下步驟基于空間線索來對所輸入的音頻對象信號進(jìn)行編碼，并創(chuàng)建用于編碼后的音頻對象信號的渲染信息，其中所述渲染信息包括用于音頻對象信號的空間線索信息、音頻對象信號的聲道信息和音頻對象信號的標(biāo)識(shí)信自根據(jù)本發(fā)明的又一方面，提供了一種用于創(chuàng)建渲染信息來解碼多對象音頻信號的代碼轉(zhuǎn)換方法，包括如下步驟基于已編碼音頻對象信號的對象控制信息和播放信息來創(chuàng)建渲染信息，該渲染信息包括用于已編碼音頻對象信號的功率增益信息和輸出位置信息；和基于在所述創(chuàng)建渲染信息的步驟中創(chuàng) 建的渲染信息和用于在編碼之后輸入的已編碼音頻對象信號的渲染信息，來創(chuàng)建用于要在解碼之后輸出的音頻信號的空間線索信息。根據(jù)本發(fā)明的又一方面，提供了一種用于創(chuàng)建渲染信息以解碼多聲道音頻信號和多對象音頻信號的代碼轉(zhuǎn)換方法，包括如下步驟從用于在編碼之后輸入的已編碼音頻信號的渲染信息中分出用于已編碼音頻對象信號的渲染信息和用于多聲道音頻信號的渲染信息；基于用于已編碼音頻對象信號的對象控制信息和播放信息來創(chuàng)建渲染信息，該渲染信息包括用于已編碼音頻對象信號的功率增益信息和輸出位置信息；基于在所述分出渲染信息的步驟中單獨(dú)獲取的用于已編碼多聲道音頻信號的渲染信息，來創(chuàng)建包括用于多聲道音頻信號的每個(gè)聲道的功率增益信息的渲染信息，和基于在所述創(chuàng)建包括功率增益信息和輸出位置信息的渲染信息的步驟中創(chuàng)建的渲染信息、在所述創(chuàng)建包括用于多聲道音頻信號的每個(gè)聲道的功率增益信息的渲染信息的步驟中創(chuàng)建的渲染信息、和在所述分出渲染信息的步驟中單獨(dú)獲取的用于已編碼音頻對象信號的渲染信息，來創(chuàng)建用于要在解碼之后輸出的音頻信號的空間線索信息。有利效果通過提供一種能夠執(zhí)行邊信息比特流轉(zhuǎn)換的用于編碼和解碼具有各種聲道的多對象音頻信號的設(shè)備和方法，本發(fā)明可通過有效地編碼和解碼各種聲道中的多對象音頻內(nèi)容而根據(jù)用戶的需要來主動(dòng)地消費(fèi)音頻內(nèi)容。此外，本發(fā)明可通過提供與傳統(tǒng)上使用的比特流的后向兼容性，來提供與傳統(tǒng)編碼和解碼設(shè)備的兼容性。

圖1是示出了根據(jù)本發(fā)明實(shí)施例的多對象音頻編碼器和多對象解碼器的框圖。圖2是示出了根據(jù)本發(fā)明實(shí)施例的多對象音頻編碼器和多對象解碼器的框圖。圖3是圖示了根據(jù)本發(fā)明實(shí)施例的圖2的代碼轉(zhuǎn)換器(transcoder) 103的框圖。圖4圖示了根據(jù)本發(fā)明實(shí)施例的由圖2的比特流格式器(formatter) 205創(chuàng)建的代表性空間音頻對象編碼(SAOC)比特流。圖5示出了根據(jù)本發(fā)明另一實(shí)施例的圖2的代表性SAOC比特流。圖6是示出了根據(jù)本發(fā)明另一實(shí)施例的圖2的代碼轉(zhuǎn)換器103的框圖。圖7是示出了在圖2的多對象音頻編碼器和解碼器中另外包括音頻對象去除器701的情況的框圖。圖8是示出了用MPEG環(huán)繞編碼器和解碼器來替換圖2的SAC編碼器。
具體實(shí)施方式
根據(jù)下文中陳述的參考附圖的以下實(shí)施例描述，本發(fā)明的優(yōu)點(diǎn)、特征和方面將變明顯。下文中將參考附圖來詳細(xì)描述本發(fā)明的特定實(shí)施例。圖l是示出了才艮據(jù)本發(fā)明實(shí)施例的多對象音頻編碼器和多對象解碼器的框圖。參考圖1，本發(fā)明包括空間音頻對象編碼器(SAOC) 101、代碼轉(zhuǎn)換器103、和空間音頻編碼(SAC) 105。根據(jù)SAOC方法，輸入到編碼器的信號被編碼為音頻對象。每個(gè)音頻對象不由解碼器恢復(fù)并獨(dú)立地播放。然而，用于音頻對象的信息被渲染(render) 以形成所期望的音頻場景，并輸出具有各種聲道的多對象音頻信號。因此， SAC解碼器需要用于渲染^f皮輸入以獲取所期望的音頻場景的用于音頻對象的信息的設(shè)備。SAOC編碼器101是基于空間線索的編碼器，并將輸入音頻信號編碼為音頻對象。所述音頻對象是向SAOC編碼器101輸入的單聲道或立體聲信號。SAOC編碼器101輸出來自多于一個(gè)輸入音頻對象的縮混信號，并通過提取空間線索和邊信息來創(chuàng)建SAOC比特流。所輸出的縮混信號是單聲道或立體聲信號。SAOC編碼器101基于"異類布局SAOC"或者"Faller"技術(shù) 來分析所輸入的音頻對象信號。所提取的SAOC比特流包括空間線索和邊信息，并且所述邊信息包括輸入音頻對象的空間信息。一般基于頻率區(qū)域子帶單位來分析并提取所述空間線索。所述空間線索是在編碼和解碼音頻信號中使用的信息。它才是取自頻率區(qū) 域，并包括用于所輸入的兩個(gè)信號之間的大小差、延遲差和相關(guān)性的信息。例如，空間線索包括用于示出音頻信號的功率增益信息的、音頻信號之間的聲道電平差(CLD);音頻信號之間的聲道間電平差(ICLD);音頻信號之間的聲道間時(shí)間差(ICTD);用于示出音頻信號之間的相關(guān)信息的、音頻信號之間的相關(guān)聲道間相關(guān)(ICC);和音頻信號之間的虛擬源位置信息，但是不限于這些示例。此外，所述邊信息包括用于恢復(fù)并控制空間線索和音頻信號的信息。所述邊信息包括標(biāo)首信息。所述標(biāo)首信息包括用于恢復(fù)并播放具有各種聲道的多對象音頻信號的信息，并且可通過定義用于音頻對象的聲道信息和音頻對象的標(biāo)識(shí)(ID)來提供用于具有單聲道、立體聲或多聲道的音頻對象的解碼信息。例如，定義用于每個(gè)對象的ID和信息，以標(biāo)識(shí)已編碼的特定音頻對象是單聲道音頻信號還是立體聲音頻信號。作為實(shí)施例，所述標(biāo)首信息可包括空間音頻編碼(SAC)標(biāo)首信息、音頻對象信息和預(yù)設(shè)信息。代碼轉(zhuǎn)換器103渲染被輸入到SAOC編碼器101的音頻對象，并基于從外部輸入的控制信號(即，每個(gè)對象的聲音信息和播放環(huán)境信息)來將從 SAOC編碼器101提取的SAOC比特流變換為SAC比特流。也就是說，代碼轉(zhuǎn)換器103基于所提取的SAOC比特流執(zhí)行渲染，以將輸入到SAOC編碼器101的音頻對象恢復(fù)為具有各種聲道的多對象音頻信號?？梢栽趨?shù)區(qū)域執(zhí)行基于邊信息的渲染。此外，代碼轉(zhuǎn)換器103將SAOC比特流變換為SAC比特流。所述代碼轉(zhuǎn)換器103從SAOC比特流獲得輸入音頻對象的信息，并與所期望的音頻場景對應(yīng)地渲染輸入音頻對象的信息。在渲染過程中，代碼轉(zhuǎn)換器103預(yù)測與所期望的音頻場景對應(yīng)的空間信息，變換并輸出已預(yù)測的空間信息作為SAC 邊信息比特流。將參考圖3來詳細(xì)描述代碼轉(zhuǎn)換器103。SAC解碼器105是基于空間線索的多聲道音頻解碼器，基于從代碼轉(zhuǎn)換器103輸出的SAC比特流而將乂人SAOC編碼器101輸出的縮混信號恢復(fù)為每個(gè)對象的音頻信號，并將每個(gè)對象的音頻信號恢復(fù)為具有各種聲道的多對象音頻信號。SAC解碼器105可以用運(yùn)動(dòng)圖象專家組(MPEG)環(huán)繞解碼器和心理聲學(xué)編碼(BCC)解碼器來替換。圖2是示出了根據(jù)本發(fā)明實(shí)施例的多對象音頻編碼器和多對象解碼器的框圖，并示出了輸入信號是具有各種聲道的多對象音頻信號的情況。參考圖2和圖1,本發(fā)明包括SAOC編碼器101、代碼轉(zhuǎn)換器103、 SAC 解碼器105、 SAC編碼器201、預(yù)設(shè)音頻場景信息(ASI) 203和比特流格式器205。當(dāng)SAOC編碼器101僅支持單聲道或立體聲音頻對象時(shí)，SAC編碼器 201從所輸入的多聲道音頻信號輸出一個(gè)音頻對象。所^r出的音頻對象是縮混后的單聲道或立體聲信號。此外，SAC編碼器201提取空間線索和邊信息，并創(chuàng)建SAC比特流。
SAOC編碼器101從包括由SAC編碼器201輸出的一個(gè)音頻對象的多于一個(gè)音頻對象輸出代表性縮混信號，提取空間線索和邊信息，并創(chuàng)建SAOC 比特流。
預(yù)設(shè)ASI 203將從外部輸入的控制信號(即，每個(gè)對象的聲音信息和播放環(huán)境信息)形成為預(yù)設(shè)ASI，并創(chuàng)建包括預(yù)設(shè)ASI的預(yù)設(shè)ASI比特流。將參考圖4來詳細(xì)描述預(yù)設(shè)ASI。
比特流格式器205基于由SAOC編碼器101創(chuàng)建的SAOC比特流、由 SAC編碼器201創(chuàng)建的SAC比特流、和由預(yù)設(shè)ASI 203創(chuàng)建的預(yù)設(shè)ASI比特流，來創(chuàng)建代表性SAOC比特流。
代碼轉(zhuǎn)換器103渲染向SAOC編碼器101輸入的音頻對象，并基于從外部輸入的每個(gè)對象的聲音信息和播放環(huán)境信息來將比特流格式器205所創(chuàng)建的代表性SAOC比特流變換為代表性SAC比特流。代碼轉(zhuǎn)換器103被包括在SAC解碼器105中并如上所述地起作用。
SAC解碼器105基于從代碼轉(zhuǎn)換器103輸出的SAC比特流，來將從 SAOC編碼器101輸出的縮混信號恢復(fù)為具有各種聲道的多對象音頻信號。 SAC解碼器105可以用MPEG環(huán)繞解碼器和BCC解碼器來替換。
圖3是圖示了根據(jù)本發(fā)明實(shí)施例的圖2的代碼轉(zhuǎn)換器103的框圖。
參考圖3，代碼轉(zhuǎn)換器103包括解析單元301、渲染單元303、第二矩陣單元311、和第一矩陣單元313，并將代表性SAOC比特流變換為代表性 SAC比特流。
在圖1中，代碼轉(zhuǎn)換器103將SAOC比特流變換為SAC比特流。解析單元301解析由比特流格式器205創(chuàng)建的代表性SAOC比特流或者由圖1的SAOC編碼器101創(chuàng)建的SAOC比特流，并劃分在所述代表性SAOC 比特流中包括的SAOC比特流和SAC比特流。此外，解析單元301從已劃分SAOC比特流中提取用于輸入到SAOC編碼器101的音頻對象數(shù)目的信息。由于當(dāng)解析由圖1的SAOC編碼器101創(chuàng)建的SAOC比特流時(shí)沒有SAC 比特流，所以不必劃分SAC比特流。
第二矩陣單元311基于由解析單元301劃分的SAC比特流創(chuàng)建第二矩陣。第二矩陣是關(guān)于輸入到SAC編碼器201的多聲道音頻信號的行列式。當(dāng)在代表性SAOC比特流中不包括SAC比特流時(shí)，即當(dāng)解析由圖1的SAOC編碼器101創(chuàng)建的SAOC比特流時(shí)，不需要第二矩陣單元311。
第二矩陣示出了輸入到SAC編碼器201的多聲道音頻信號的功率增益值，并示出在等式l中。
w
》
w
■6
t.力 A/
,⑨
>4
矩陣ii
等式i
通常，在將一個(gè)幀劃分為子帶之后的分析是SAC的基本分析過程。 "L:W是從SAC編碼器201輸出的縮混信號；k是頻率系數(shù)索引；并且 b是子帶索引?！丁?是從SAC比特流獲得的多聲道信號的空間線索信息，并用于恢復(fù)第i聲道信號的頻率信息，1SSM。因此，《,可以表達(dá)為頻率系' 數(shù)的大小信息或相位信息。因此，在等式l的右邊項(xiàng)中，gc(ifc)是等式l的結(jié)果，并示出了從SAC解碼器105輸出的多聲道音頻信號。
"L:W和《」是向量，并且"Lc("的轉(zhuǎn)置矩陣的維數(shù)是^—,的維數(shù)。例如，這將被描述為等式2。由于從SAC編碼器201輸出的縮混信號是單聲道或立體聲，所以m是l或2。
w，
等式2
如上所述，《,是包括在SAC比特流中的空間線索信息。當(dāng)《一,指示每個(gè)聲道的子帶中的功率增益時(shí)，可以從聲道電平差空間線索中預(yù)測wi ,。當(dāng) 《,被用作用于補(bǔ)償頻率系數(shù)的相位差的系數(shù)時(shí)，《—,可以從聲道時(shí)間差空間線索或聲道間相干空間線索中預(yù)領(lǐng)'J 。
作為示例，將描述《—,被用作用于補(bǔ)償頻率系數(shù)之間的相位差的系數(shù)的情況。
等式1的第二矩陣應(yīng)表達(dá)每個(gè)聲道的功率增益值，并且是縮混信號的向量的維數(shù)的逆，使得可以利用從SAC編碼器201輸出的縮混信號通過矩陣運(yùn)算來創(chuàng)建輸出信號^cW。當(dāng)?shù)诙仃噯卧?11創(chuàng)建滿足等式1和2的第二矩陣時(shí)，渲染單元303 組合所創(chuàng)建的第二矩陣和第一矩陣單元313的輸出。
第一矩陣單元313基于控制信號(例如，對象控制信息和播放系統(tǒng)信息)，來創(chuàng)建期望多于一個(gè)的、輸入到SAOC編碼器101的音頻對象的輸出，即要被映射到具有各種聲道的多對象音頻信號的第一矩陣。
當(dāng)輸入到SAOC編碼器101的音頻對象的數(shù)目是N時(shí)，從SAC編碼器 201輸出的縮混信號被認(rèn)為是一個(gè)音頻對象并包括在所輸入的N個(gè)音頻對象中。相應(yīng)地，除了從SAC編碼器201輸出的縮混信號之外的每個(gè)音頻對象可以基于第一矩陣而被映射到從SAC解碼器105輸出的聲道。
當(dāng)從SAC解碼器105輸出的聲道的數(shù)目是M時(shí)，第一矩陣可滿足接下來的條件。
<formula>formula see original document page 15</formula>矩陣I
等式3
其中< ,是用于示出音頻對象i的子帶信號的信息的向量，1S￡N-1,并且是可以從SAOC比特流獲得的空間線索信息。當(dāng)音頻對象i是立體聲時(shí)，《,是2x 1矩陣向量?！妒鞘境鲇糜趯⒌趈音頻對象映射到第i輸出聲道的功率增益信息或相位信息的第一矩陣的元素向量，并且可以從由外部輸入或者被設(shè)置為初始值的控制信息(例如，對象控制信息和播放系統(tǒng)信息)中獲
3曰付。
滿足等式3的條件的第一矩陣被傳送到渲染單元303，并且在渲染單元 303中運(yùn)算等式3。
將在等式4和5中詳細(xì)描述等式3的運(yùn)算符和運(yùn)算過程。
<formula>formula see original document page 15</formula>
等式4PL 《」
A /4〖
《乂 X </—

.力
X《,—
等式
當(dāng)所輸入的音頻對象是單聲道和立體聲時(shí)，m是2。
例如，當(dāng)所輸入的音頻對象的數(shù)目是Y、 m = 2、并且所輸出的聲道的數(shù) 目是M時(shí)，第一矩陣的維數(shù)是MxY，且Y數(shù)目個(gè)《被形成為2x l矩陣。當(dāng)包括從SAC編碼器201輸出的音頻對象時(shí)，考慮Y-Y-1。作為等式3 的運(yùn)算結(jié)果，應(yīng)該能夠表達(dá)包括所輸出的聲道的功率增益向量《—,的矩陣。所表達(dá)的向量的維數(shù)是M x 2,并反映作為所輸出的聲道的數(shù)目的M和作為所輸入的音頻對象的布局的2。
再次參考圖3,渲染單元303從第一矩陣313和第二矩陣311接收第一矩陣和第二矩陣。渲染單元303獲得從由解析單元301劃分的SAOC比特流獲得的每個(gè)音頻對象的空間線索信息<_,，通過組合基于第一矩陣和第二矩陣計(jì)算的輸出向量來獲得所期望的空間線索信息，并創(chuàng)建包括所期望的空間線索信息的代表性SAC比特流。所期望的空間線索指的是與輸出多聲道音頻信號有關(guān)的空間線索，期望由用戶從SAC解碼器105輸出所述輸出多聲道音頻信號。
如等式6地示出了用于基于第一矩陣和第二矩陣來獲得所期望的空間線索信息的運(yùn)算。
V _乂/義-
wA — '—2+ (1--戸(Pw))
"V'/,一W 一L w」纖
當(dāng)創(chuàng)建第一矩陣時(shí)沒有考慮PN，并且Pn示出了從SAC編碼器201輸出的音頻對象的功率之和與直接輸入到SAOC編碼器101的音頻對象的功率的比率。
Pw可表達(dá)為等式7。
16<formula>formula see original document page 17</formula>
因此，當(dāng)《」是所輸出的聲道的功率時(shí)，在音頻對象的渲染之后的每個(gè) 聲道的功率比被示出為《。d# 。可以從『丄d師中重新提取所期望的空間線索參數(shù)。例如，提取ch—2和ch—l之間的聲道電平差(CLD)參數(shù)如等式8所示。
=20 log
等式8
當(dāng)所傳送的縮混信號是單聲道信號時(shí)，CLD參數(shù)如等式9所示,
<formula>formula see original document page 17</formula>等式9
所輸出的聲道的功率比被表達(dá)為作為空間線索參數(shù)的CLD,相鄰聲道之
間的空間線索參數(shù)被表達(dá)為來自給定『1一信息的各種組合的格式。渲染單
元303基于霍夫曼編碼方法來創(chuàng)建包括從『:d一提取的空間線索(例如，CLD 參數(shù))的SAC比特流。
在由渲染單元303創(chuàng)建的SAC比特流中包括的空間線索具有根據(jù)解碼器的特性而不同的分析和4是取方法。
例如，BCC解碼器可基于一個(gè)聲道使用等式8來提取N- 1個(gè)CLD參數(shù)。此外，MPEG環(huán)繞解碼器可根據(jù)MPEG環(huán)繞的每個(gè)聲道的比較順序來提取CLD參數(shù)。
也就是i兌，解析單元301劃分SAC比特流和SAOC比特流，并且第二矩陣單元311基于解析單元301所劃分的SAC比特流和從SAC解碼器105 輸出的多聲道音頻信號來創(chuàng)建第二矩陣，如等式1所示。第一矩陣單元313 創(chuàng)建與控制信號對應(yīng)的第一矩陣。解析單元301所劃分的SAOC比特流被傳送到渲染單元303,并且渲染單元303 >^人所傳送的SAOC比特流中獲得對象的信息，利用第一矩陣執(zhí)行運(yùn)算，組合運(yùn)算結(jié)果和第二矩陣，創(chuàng)建《。d—,從所創(chuàng)建的《。d^中提取空間線索，并創(chuàng)建代表性SAC比特流。也就是說,從所創(chuàng)建的『1^中提取的空間線索變成所期望的空間線索。代表性SAC比特流是根據(jù)MPEG環(huán)繞解碼器或BCC解碼器的特性而適當(dāng)變換的比特流，并且可恢復(fù)為具有各種聲道的多對象信號。圖4圖示了根據(jù)本發(fā)明實(shí)施例的由圖2的比特流格式器205創(chuàng)建的代表性空間音頻對象編碼(SAOC)比特流。參考圖4，由比特流格式器205創(chuàng)建的代表性SAOC比特流是通過組合 SAOC編碼器101所創(chuàng)建的SAOC比特流和SAC編碼器201所創(chuàng)建的SAC 比特流來創(chuàng)建的，并且所述〗戈表性SAOC比特流包^^由預(yù)設(shè)ASI 203所創(chuàng)建的預(yù)設(shè)ASI比特流。將參考圖5來詳細(xì)描述所述預(yù)設(shè)ASI比特流。用于組合SAOC比特流和SAC比特流的第一方法是一種用于通過直插-多路復(fù)用每個(gè)比特流來創(chuàng)建一個(gè)比特流的方法。在代表性SAOC比特流中串聯(lián)連接SAOC比特流和SAC比特流(參見401 )。第二方法是一種用于當(dāng)存在SAOC附屬(ancillary)數(shù)據(jù)區(qū)時(shí)、通過在 SAOC附屬數(shù)據(jù)區(qū)中包括SAC比特流信息來創(chuàng)建一個(gè)比特流的方法。在代表性SAOC比特流中串聯(lián)連接SAOC比特流和附屬數(shù)據(jù)區(qū)域，并且附屬數(shù) 據(jù)區(qū)包括SAC比特流(參見403 )。第三方法是一種用于表達(dá)如下區(qū)域的方法，所述區(qū)域?qū)⒃赟AOC比特流和SAC比特流中的類似空間線索編碼為相同比特流。例如，代表性SAOC 比特流的標(biāo)首信息區(qū)域包括SAOC比特流標(biāo)首信息和SAC比特流標(biāo)首信息，并且代表性SAOC比特流的每個(gè)特定區(qū)域包括與特定CLD有關(guān)的SAOC比特流和SAC比特流(參見405 )。圖5示出了根據(jù)本發(fā)明另一實(shí)施例的圖2的代表性SAOC比特流，并示出了代表性SAOC比特流包括多個(gè)預(yù)設(shè)ASI的情況。參考圖5，代表性SAOC比特流包括預(yù)設(shè)ASI區(qū)域。所述預(yù)設(shè)ASI區(qū)域包括多個(gè)預(yù)設(shè)ASI,并且預(yù)設(shè)ASI包括音頻對象的控制信息和布局信息。當(dāng)基于代碼轉(zhuǎn)換器103渲染音頻對象時(shí)，應(yīng)該輸入每個(gè)音頻對象的位置信息、控制信息和所輸出的播放揚(yáng)聲器布局信息。當(dāng)沒有輸入控制信息和播放揚(yáng)聲器布局信息時(shí)，在代碼轉(zhuǎn)換器103中將每個(gè)音頻對象的控制信息和布局信息設(shè)置為默認(rèn)值。代表性SAOC比特流或代表性SAC比特流的邊信息或標(biāo)首信息包括被設(shè)置為默認(rèn)值的控制信息和布局信息、或者所輸入的音頻對象控制信息和布局信息?？刂菩畔⒖梢杂脙煞N方式來表達(dá)。第一，直接表達(dá)每個(gè)音頻對象的控制信息(例如，位置和電平)和揚(yáng)聲器的布局信息。第二，以第一矩陣格式來表達(dá)控制信息和揚(yáng)聲器的布局信息，并且可以使用所述信息來替代第一矩陣單元313中的第一矩陣。預(yù)設(shè)ASI示出了音頻對象控制信息和揚(yáng)聲器的布局信息。也就是i兌，預(yù) 設(shè)ASI包括揚(yáng)聲器的布局信息以及每個(gè)音頻對象的位置和電平信息，以形成適合于揚(yáng)聲器的布局信息的音頻場景。如上所述，直4妄表達(dá)預(yù)設(shè)ASI或者以第一矩陣格式來表達(dá)預(yù)設(shè)ASI，以便將解析單元301所提取的預(yù)設(shè)ASI傳送到代表性SAC比特流。當(dāng)直接表達(dá)預(yù)設(shè)ASI時(shí)，預(yù)設(shè)ASI可包括播放系統(tǒng)的布局(例如，單聲道/立體聲/多聲道)、音頻對象ID、音頻對象布局(例如，單聲道或立體聲)、音頻對象位置、范圍為從0度到360度的方位角、范圍為-50度到90度的立體聲播放仰角、和音頻對象電平信息-50dB至50dB。當(dāng)以第一矩陣格式表達(dá)預(yù)設(shè)ASI時(shí)，形成用于反映預(yù)設(shè)ASI的等式3 的P矩陣，并且將P矩陣傳送到渲染單元303。 P矩陣包括作為元素向量的用于將每個(gè)音頻對象映射到所輸出的聲道的功率增益信息或相位信息。預(yù)設(shè)ASI可定義關(guān)于所輸入的同一音頻對象的與所期望的播放情景對應(yīng)的不同音頻場景。例如，可根據(jù)內(nèi)容產(chǎn)生器的對象和播放服務(wù)來另外傳送在立體聲或多聲道(5.1、 7.1)播放系統(tǒng)中需要的預(yù)設(shè)ASI。圖6是示出了才艮據(jù)本發(fā)明另一實(shí)施例的圖2的代碼轉(zhuǎn)換器103的框圖，并示出了沒有從外部輸入控制信號的情況。參考圖6，代碼轉(zhuǎn)換器103包括解析單元301和渲染單元303。代碼轉(zhuǎn) 換器103可接收第二矩陣單元311、第一矩陣單元313、預(yù)設(shè)ASI提取單元 601和矩陣確定單元603的幫助。如上所述，當(dāng)在代碼轉(zhuǎn)換器103中沒有從外部輸入的控制信號時(shí)，應(yīng)用預(yù)設(shè)ASI。解析單元301分開在代表性SAOC比特流中包括的SAOC比特流和SAC 比特流，解析在代表性SAOC比特流中包括的預(yù)設(shè)ASI比特流，并將所述預(yù) 設(shè)ASI比特流傳送到預(yù)設(shè)ASI提取單元601 。預(yù)設(shè)ASI提取單元601從所解析的預(yù)設(shè)ASI比特流中輸出默認(rèn)的預(yù)設(shè)ASI。然而，當(dāng)存在對于選擇預(yù)設(shè)ASI的請求時(shí)，輸出所請求的預(yù)設(shè)ASI。當(dāng)預(yù)設(shè)ASI提取單元601所輸出的預(yù)設(shè)ASI是所選擇的預(yù)設(shè)ASI時(shí)，矩陣確定單元603確定所選擇的預(yù)設(shè)ASI是否是第一矩陣格式。當(dāng)所選擇的預(yù)設(shè)ASI直接表達(dá)該信息時(shí)，將預(yù)設(shè)ASI傳送到第一矩陣單元313，并且第一矩陣單元313基于預(yù)設(shè)ASI來創(chuàng)建第一矩陣。當(dāng)所選擇的預(yù)設(shè)ASI是第一矩陣時(shí)，使用預(yù)設(shè)ASI作為直接輸入到渲染單元303的信號。圖7是示出了在圖2的多對象音頻編碼器和解碼器中另外包括音頻對象去除器701的情況的框圖。參考圖7,音頻對象去除器701用于從SAOC編碼器101所創(chuàng)建的代表性縮混信號中去除特定的音頻對象。音頻對象去除器701接收SAOC編碼器 101所創(chuàng)建的代表性縮混信號和來自代碼轉(zhuǎn)換器103的代表性SAOC比特流信息，并去除特定的音頻對象。例如，可通過渲染單元303提供被傳送到音頻對象去除器701的代表性SAOC比特流信息。例如，將描述其中僅將作為SAC編碼器201的縮混信號的音頻對象(對象#N)用作SAC解碼器105的輸入信號的情況。SAOC編碼器101根據(jù)每個(gè)子帶來提取所輸入的音頻對象的每個(gè)功率大小作為CLD值，并創(chuàng)建包括CLD值的SAOC比特流。可如下獲得用于特定子帶m的功率信息。其中尸:—?jiǎng)偈怯蒘AOC編碼器101輸出的代表性縮混信號的第m頻帶的功率大小。因此，u(n)是輸入到音頻對象去除器701的代表性縮混信號，并且U(f)正將代表性縮混信號變換到頻率區(qū)域。當(dāng)fT。d'何(/)是音頻對象去除器701的輸出信號(即，SAC解碼器105 的輸入信號)時(shí)，"m°d—(/)對應(yīng)于SAC編碼器201的縮混信號的音頻對象 (對象弁N)，并表達(dá)為等式IO。其中A(m)表示第m子帶的頻率區(qū)域中的邊界；5是用于控制電平大小的特定常數(shù)值；并且U(f)是單聲道或立體聲。下文中將描述U(f)是單聲道的情況。除了將U(f)劃分為左聲道和右聲道并進(jìn)行處理之外，U(f)是立體聲的情況與U(f)是單聲道的情況相同。tr。d一(/)被認(rèn)為與作為SAC編碼器201的縮混信號的音頻對象(對象弁N)相同。因此，輸入到SAC解碼器105的代表性SAC比特流是從代表性SAOC比特流中排除SAOC比特流之后的比特流，并且可同等地用于從 SAC編碼器201輸出的SAC比特流。也就是說，SAC解碼器105接收對象 #N,并將對象弁N恢復(fù)為M個(gè)多聲道信號。然而，整個(gè)信號的電平是通過代碼轉(zhuǎn)換器103的渲染單元303、或者通過利用將等式10乘以特定常數(shù)值而調(diào)制對象# N的信號電平來控制的。作為實(shí)施例，將描述其中僅要從SAC解碼器105的輸入信號去除作為 SAC編碼器201的縮混信號的對象#N的情況。等式10與等式11相同。因此，輸入到SAC解碼器105的代表性SAC比特流是從代表性SAOC 比特流中排除SAC編碼器201的SAC比特流之后的比特流，并祐J人為在渲染單元303的第二矩陣中沒有輸出。也就是說，代碼轉(zhuǎn)換器103通過解析代表性SAOC比特流塊并僅渲染排除用于對象并N的音頻對象信息之外的剩余信息，來創(chuàng)建代表性SAC比特流。因此，在代表性SAC比特流中不包括用于對象弁N的功率增益信息和相關(guān)信息。在等式11中，S是用于控制電平大小的特定常數(shù)值，正如等式 10—樣，并且可控制整個(gè)輸出信號電平。音頻對象去除器701從代表性縮混信號中去除音頻對象，并且通過輸入到代碼轉(zhuǎn)換器103的控制信號來確定去除命令。音頻對象去除器701可以應(yīng) 用時(shí)間區(qū)域信號和頻率區(qū)域信號二者。此外，可使用離散傅立葉變換(DFT) 或正交鏡像過濾帶(QMF: Quadrature Mirror Filterbank)來將代表性縮混信號劃分為子帶。代碼轉(zhuǎn)換器103的渲染單元303去除SAOC比特流或SAC比特流，并將其傳送到SAC解碼器105,并且音頻對象去除器701去除與傳送到SACx厶，+ 1等式ll解碼器105的比特流對應(yīng)的音頻對象。當(dāng)代碼轉(zhuǎn)換器103被包括在SAC解碼器105中時(shí)，從代碼轉(zhuǎn)換器103 輸出的代表性SAC比特流可傳送到SAC解碼器105,而沒有附加的變換過程。附加的變換過程意指諸如量化或霍夫曼編碼方法之類的一般編碼過程。考慮了以下情況，即SAOC編碼器101沒有連接到SAC編碼器201，并且僅控制和恢復(fù)除了 SAC編碼器201的輸出音頻對象之外的輸入到SAOC 編碼器101的音頻對象，即對象#1至對象弁N-1。圖8是示出了用MPEG環(huán)繞編碼器和解碼器來替換圖2的SAC編碼器 201和SAC解碼器105的情況的框圖。參考圖8， SAC編碼器201用MPEG環(huán)繞編碼器(即，MPS編碼器801 ) 來替換，并且SAC解碼器105用MPEG環(huán)繞解碼器(即，MPS解碼器805 ) 來替換。此外，當(dāng)從SAOC編碼器101輸出的代表性縮混信號是立體聲時(shí)，另外需要信號處理單元803。MPS編碼器801執(zhí)行與圖2的SAC編碼器201相同的功能。也就是說， MPS編碼器801輸出來自所輸入的多聲道音頻信號的一個(gè)音頻對象，提取空間線索和邊信息，并創(chuàng)建MPS比特流。所輸出的音頻對象是縮混后的單聲道或立體聲信號。此外，MPS解碼器805執(zhí)行與圖2的SAC解碼器105相同的功能。也就是說，MPS解碼器805基于從代碼轉(zhuǎn)換器103輸出的SAC比特流，來恢復(fù)從SAOC編碼器101輸出的縮混信號或者從信號處理單元803輸出的代表性重新縮混信號，作為具有各種聲道的多對象音頻信號。其間，當(dāng)從SAOC編碼器101輸出的縮混信號是立體聲時(shí)(即，當(dāng)MPS 解碼器805處理立體聲信號時(shí))，由于立體聲信號的左/右處理中的限制，所以信號處理單元803需要MPS解碼器805。等式2示出了縮混信號被概括為普通SAC解碼器中的m個(gè)數(shù)目的情況，當(dāng)縮混信號是立體聲時(shí)，關(guān)于已恢復(fù)的輸出聲道l的等式2與等式12相同?！窔鈊 1、 2糊輛等式12輸出聲道的向量應(yīng)該能夠應(yīng)用到所有縮混信號，但是這在當(dāng)前MPS解碼器805中是不可能的。如等式13所示，這是因?yàn)樵贛PS解碼器805中矩22<formula>formula see original document page 23</formula>
陣值被限制為0。
等式l3
也就是說，由于《W元素沒有反映在恢復(fù)輸出聲道l中，所以不能應(yīng)用
在等式3、 4和5中創(chuàng)建的《2。因此，不可能進(jìn)行關(guān)于具有立體聲以上的布局的信號的靈活定位。也就是說，不可能進(jìn)行立體聲信號的左信號和右信號之間的自由渲染。
然而，基于信號處理單元803來對從SAOC編碼器101輸出的代表性縮混信號再次進(jìn)行縮混，并輸出為代表性重新縮混信號。信號處理單元803的處理如等式14所示。
、《」
《一2
M
x
u
6
"一M」m。dified L八a-^、'〃」等式14
當(dāng)從SAOC編碼器101輸出的代表性縮混信號是立體聲時(shí)，信號處理單
元803的輸出信號如等式15所示。
X
一W/ 」modified
u
6
飾r郎
叫二
等式15
其中A—i("和AjW是信號處理單元803所輸出的信號，并被輸入到 MPS解碼器805。由于如等式15所示O)和O)是用于反映左信號和右信號的渲染的信號，所以盡管如等式13所示限制了 MPS解碼器805，但— 是MPS解碼器805也可輸出其中左信號和右信號被自由渲染的信號。
例如，當(dāng)MPS解碼器805將W 、 <恢復(fù)為5個(gè)聲道時(shí)，如下在等式14 中表達(dá)(<。
<formula>formula see original document page 23</formula>
(例如,"<*力,"W v "r w , "'eA,T"",一c「弘) 如上所述，當(dāng)MPS解碼器805由于MPEG環(huán)繞的限制而難以處理立體聲信號時(shí)，信號處理單元803通過基于從代碼轉(zhuǎn)換器103傳送的對象位置信息而再次執(zhí)行縮混，來輸出代表性的重新縮混信號。例如，可以由渲染單元<formula>formula see original document page 23</formula>303來提供傳送到信號處理單元803的對象位置信息。根據(jù)如上所述的類似方法，渲染單元303可基于代表性SAOC比特流來創(chuàng)建代表性MPS比特流，其包括相對于輸入到SAOC編碼器101和MPS編碼器801的音頻信號的、用于要由MPS解碼器805輸出的音頻信號的左信號和右信號中的每個(gè)的空間線索信息。
MPS解碼器805可通過利用信號處理單元803而進(jìn)4亍才喿作，來執(zhí)行與圖 2的SAC解碼器105相同的功能。
MPS解碼器805將從信號處理單元803輸出的代表性重新縮混信號恢復(fù) 為所期望的輸出，即具有各種聲道的多對象信號。
利用圖2的SAC解碼器105或信號處理單元803進(jìn)4亍才喿作的MPS解碼器805的解碼方法包括如下步驟接收多聲道和多對象縮混信號以及多聲道多對象邊信息信號；將多聲道多對象縮混信號變換為多聲道縮混信號；將多聲道和多對象信息信號變換為多聲道信息信號；基于變換后的多聲道縮混信號和多聲道信息信號來合成音頻信號。
變換多聲道縮混信號的步驟包括基于從多聲道和多對象信息信號獲得的對象相關(guān)信息來從多聲道多對象縮混信號去除對象信息的步驟。變換多聲道縮混信號的步驟包括基于從多聲道多對象信息信號獲得的對象相關(guān)信息來控制來自多聲道多對象縮混信號的對象信息的步驟。
在包括變換多聲道縮混信號的步驟的解碼方法中，可通過對象控制信息來控制對象相關(guān)信息。這里，可通過解碼系統(tǒng)信息來控制對象相關(guān)信息。
盡管上面結(jié)合設(shè)備描述了根據(jù)本發(fā)明的編碼和解碼過程，但是在設(shè)備中包括的每個(gè)組成元件也可以用在處理角度中所需要的每個(gè)構(gòu)成元件來替換。在這個(gè)情況下，顯然的是，根據(jù)本發(fā)明的編碼和解碼過程可結(jié)合方法來理解。
上面描述的本發(fā)明的技術(shù)可實(shí)現(xiàn)為程序并存儲(chǔ)在計(jì)算機(jī)可讀記錄介質(zhì) (諸如，CD-ROM、 RAM、 ROM、軟盤、硬盤和-茲光盤)中。由于本發(fā)明技術(shù)領(lǐng)域中的技術(shù)人員可容易地實(shí)現(xiàn)所述處理，所以這里將不再提供進(jìn)一步的描述。
盡管已經(jīng)結(jié)合特定的優(yōu)選實(shí)施例來描述了本發(fā)明，但對于本領(lǐng)域的技術(shù) 人員顯然的是，可以做出各種改變和修改，而不脫離接下來的權(quán)利要求所限
定的本發(fā)明的范圍。工業(yè)實(shí)用性
24本發(fā)明可通過有效地編碼和解碼具有各種聲道的多對象音頻內(nèi)容，而根據(jù)用戶需求來主動(dòng)地消費(fèi)音頻內(nèi)容，并通過提供與傳統(tǒng)上使用的比特流的后向兼容性來提供與傳統(tǒng)的編碼和解碼設(shè)備的兼容性。
權(quán)利要求
1.一種用于編碼多對象音頻信號的設(shè)備，包括音頻對象編碼裝置，用于基于空間線索來編碼輸入到編碼設(shè)備的音頻對象信號，并創(chuàng)建用于編碼后的音頻對象信號的渲染信息，其中所述渲染信息包括用于音頻對象信號的空間線索信息、音頻對象信號的聲道信息和音頻對象信號的標(biāo)識(shí)信息。
2. 根據(jù)權(quán)利要求1的編碼設(shè)備，還包括音頻聲道編碼裝置，用于將輸入到編碼設(shè)備的多聲道音頻信號變換為音頻對象信號，并創(chuàng)建用于多聲道音頻信號的渲染信息；預(yù)設(shè)聲音場景創(chuàng)建裝置，用于基于輸入到編碼設(shè)備的控制信號來創(chuàng)建包括音頻對象信號的聲音信息和播放信息的預(yù)設(shè)信息；和代表性比特流創(chuàng)建裝置，用于創(chuàng)建代表性比特流，該代表性比特流包括從音頻對象編碼裝置輸出的渲染信息、從音頻聲道編碼裝置輸出的渲染信息、和預(yù)設(shè)信息，其中從音頻聲道編碼裝置輸出的渲染信息包括用于多聲道音頻信號的空間線索信息、多聲道音頻信號的聲道信息、和多聲道音頻信號的標(biāo)識(shí)信息。
3. 根據(jù)權(quán)利要求2的編碼設(shè)備，其中所述音頻聲道編碼裝置是運(yùn)動(dòng)圖象專家組(MPEG)環(huán)繞編碼器。
4. 一種用于創(chuàng)建渲染信息來解碼多對象音頻信號的代碼轉(zhuǎn)換設(shè)備，包括第一矩陣裝置，用于基于已編碼音頻對象信號的對象控制信息和播放信息來創(chuàng)建渲染信息，該渲染信息包括用于已編碼音頻對象信號的功率增益信息和輸出位置信息；和渲染裝置，用于基于第一矩陣裝置所創(chuàng)建的渲染信息和用于從編碼設(shè)備輸入的已編碼音頻對象信號的渲染信息，來創(chuàng)建用于要從解碼設(shè)備輸出的音頻信號的空間線索信息。
5. 根據(jù)權(quán)利要求4的代碼轉(zhuǎn)換設(shè)備，其中所述渲染裝置創(chuàng)建除了用于已編碼音頻對象信號之中的預(yù)定音頻對象信號的空間線索信息之外、用于要從解碼設(shè)備輸出的音頻對象信號的空間線索信息，和其中所述代碼轉(zhuǎn)換設(shè)備還包括音頻對象去除裝置，所述音頻對象去除裝置用于去除已編碼音頻信號之中的預(yù)定音頻對象信號。
6. —種用于創(chuàng)建渲染信息以解碼多聲道音頻信號和多對象音頻信號的代碼轉(zhuǎn)換設(shè)備，包括解析裝置，用于從用于由編碼設(shè)備輸入的已編碼音頻信號的渲染信息中分出用于已編碼音頻對象信號的渲染信息和用于多聲道音頻信號的渲染信息；第一矩陣裝置，用于基于已編碼音頻對象信號的對象控制信息和播放信息來創(chuàng)建渲染信息，該渲染信息包括用于已編碼音頻對象信號的功率增益信息和輸出位置信息；第二矩陣裝置，用于基于由解析裝置單獨(dú)獲取的用于已編碼多聲道音頻信號的渲染信息，來創(chuàng)建包括有關(guān)多聲道音頻信號的每個(gè)聲道的功率增益信息的渲染信息，和渲染裝置，用于基于第一矩陣裝置所創(chuàng)建的渲染信息、第二矩陣裝置所創(chuàng)建的渲染信息、和由解析裝置單獨(dú)獲取的用于已編碼音頻對象信號的渲染信息，來創(chuàng)建用于從解碼設(shè)備輸出的音頻信號的空間線索信息。
7. 根據(jù)權(quán)利要求6的代碼轉(zhuǎn)換設(shè)備，其中用于第一矩陣裝置的已編碼音頻對象信號的對象控制信息和播放信息是從編碼設(shè)備輸入的預(yù)設(shè)信息，并且該預(yù)設(shè)信息包括音頻對象信號的聲音信息和播放信息；和所述解析裝置還從用于從編碼設(shè)備輸入的已編碼音頻信號的渲染信息中分出預(yù)設(shè)信息。
8. 根據(jù)權(quán)利要求6的代碼轉(zhuǎn)換設(shè)備，其中所述渲染裝置創(chuàng)建除了用于已編碼音頻對象信號之中的預(yù)定音頻信號的空間線索信息之外、用于要從解碼設(shè)備輸出的音頻信號的空間線索信息，和其中所述代碼轉(zhuǎn)換設(shè)備還包括音頻對象去除裝置，所述音頻對象去除裝置用于去除關(guān)于已編碼音頻信號之中的預(yù)定音頻信號的音頻對象信號。
9. 根據(jù)權(quán)利要求6的代碼轉(zhuǎn)換設(shè)備，其中所述渲染裝置創(chuàng)建用于由包括運(yùn)動(dòng)圖像專家組(MPEG)環(huán)繞編碼器的編碼設(shè)備所編碼的音頻信號的左信號和右信號中的每個(gè)的空間線索信息，作為用于要從解碼設(shè)備輸出的音頻信號的空間線索信息，和其中所述代碼轉(zhuǎn)換設(shè)備對已編碼的音頻信號進(jìn)行變換，使得由包括 MPEG環(huán)繞編碼器的編碼設(shè)備所編碼的音頻信號包括左信號信息和右信號信息。
10. —種用于編碼多對象音頻信號的方法，包括如下步驟基于空間線索來對所輸入的音頻對象信號進(jìn)行編碼，并創(chuàng)建用于編碼后的音頻對象信號的渲染信息，其中所述渲染信息包括用于音頻對象信號的空間線索信息、音頻對象信號的聲道信息和音頻對象信號的標(biāo)識(shí)信息。
11. 根據(jù)權(quán)利要求IO的編碼方法，還包括如下步驟將所輸入的多聲道音頻信號變換為音頻對象信號，并創(chuàng)建用于多聲道音頻信號的渲染信息；基于所輸入的控制信號來創(chuàng)建包括音頻對象信號的聲音信息和播放信息的預(yù)設(shè)信息；和創(chuàng)建代表性比特流，該代表性比特流包括從所述對所輸入的音頻對象信號進(jìn)行編碼的步驟輸出的渲染信息、從所述將所輸入的多聲道音頻信號變換為音頻對象信號并創(chuàng)建用于多聲道音頻信號的渲染信息的步驟輸出的渲染信息、和預(yù)設(shè)信息，其中從所述將所輸入的多聲道音頻信號變換為音頻對象信號并創(chuàng)建用于多聲道音頻信號的渲染信息的步驟輸出的渲染信息包括用于多聲道音頻信號的空間線索信息、多聲道音頻信號的聲道信息、和多聲道音頻信號的標(biāo) 識(shí)信息。
12. 根據(jù)權(quán)利要求11的編碼方法，其中所述將所輸入的多聲道音頻信號變換為音頻對象信號并創(chuàng)建用于多聲道音頻信f的渲染信息的步驟是在運(yùn)動(dòng)圖象專家組 MPEG)環(huán)繞編碼器中執(zhí)行的。
13. —種用于創(chuàng)建渲染信息來解碼多對象音頻信號的代碼轉(zhuǎn)換方法，包括如下步驟基于已編碼音頻對象信號的對象控制信息和播放信息來創(chuàng)建渲染信息，該渲染信息包括用于已編碼音頻對象信號的功率增益信息和輸出位置信息；和基于在所述創(chuàng)建渲染信息的步驟中創(chuàng)建的渲染信息和用于在編碼之后輸入的已編碼音頻對象信號的渲染信息，來創(chuàng)建用于要在解碼之后輸出的音頻信號的空間線索信息。
14. 根據(jù)權(quán)利要求13的代碼轉(zhuǎn)換方法，其中在所述創(chuàng)建空間線索信息的步驟中，創(chuàng)建除了用于已編碼音頻對象信號之中的預(yù)定音頻對象信號的空間線索信息之外的、用于要在解碼之后輸出的音頻對象信號的空間線索信息，和其中所述代碼轉(zhuǎn)換方法還包括去除已編碼音頻信號之中的預(yù)定音頻對象信號的步驟。
15. —種用于創(chuàng)建渲染信息以解碼多聲道音頻信號和多對象音頻信號的代碼轉(zhuǎn)換方法，包括如下步驟從用于在編碼之后輸入的已編碼音頻信號的渲染信息中分出用于已編碼音頻對象信號的渲染信息和用于多聲道音頻信號的渲染信息；基于用于已編碼音頻對象信號的對象控制信息和播放信息來創(chuàng)建渲染信息，該渲染信息包括用于已編碼音頻對象信號的功率增益信息和輸出位直 ^呂息;基于在所述分出渲染信息的步驟中單獨(dú)獲取的用于已編碼多聲道音頻信號的渲染信息，來創(chuàng)建包括用于多聲道音頻信號的每個(gè)聲道的功率增益信息的渲染信息；和基于在所述創(chuàng)建包括功率增益信息和輸出位置信息的渲染信息的步驟中創(chuàng)建的渲染信息、在所述創(chuàng)建包括用于多聲道音頻信號的每個(gè)聲道的功率增益信息的渲染信息的步驟中創(chuàng)建的渲染信息、和在所述分出渲染信息的步驟中單獨(dú)獲取的用于已編碼音頻對象信號的渲染信息，來創(chuàng)建用于要在解碼之后輸出的音頻信號的空間線索信息。
16. 根據(jù)權(quán)利要求15的代碼轉(zhuǎn)換方法，其中，在所述創(chuàng)建包括用于已編碼音頻對象信號的功率增益信息和輸出位置信息的渲染信息的步驟中，用于已編碼音頻對象信號的對象控制信息和播放信息是在編碼之后輸入的預(yù) 設(shè)信息，該預(yù)設(shè)信息包括音頻對象信號的聲音信息和播放信息；和其中，所述分出渲染信息的步驟還包括^v用于在編碼之后輸入的已編碼音頻信號的渲染信息中分出預(yù)設(shè)信息的步驟。
17. 根據(jù)權(quán)利要求15的代碼轉(zhuǎn)換方法，其中，在所述創(chuàng)建空間線索信息的步驟中，創(chuàng)建除了用于已編碼音頻信號之中的預(yù)定音頻信號的空間線索信息之外的、用于要在解碼之后輸出的音頻信號的空間線索信息，和其中所述代碼轉(zhuǎn)換方法還包括去除關(guān)于已編碼音頻信號之中的預(yù)定音頻信號的音頻對象信號的步驟。
18. 根據(jù)權(quán)利要求15的代碼轉(zhuǎn)換方法，其中，在創(chuàng)建用于要在解碼之后輸出的音頻信號的空間線索信息的步驟中，創(chuàng)建用于由包括運(yùn)動(dòng)圖像專家組(MPEG)環(huán)繞編碼器的已編碼的音頻信號的左信號和右信號中的每個(gè)的空間線索信息，作為用于要在解碼之后輸出的音頻信號的空間線索信息，和其中所述代碼轉(zhuǎn)換方法還包括對已編碼的音頻信號進(jìn)行變換、4吏得由包括MPEG環(huán)繞編碼器的已編碼的音頻信號包括左信號信息和右信號信息的步驟。
19. 一種用于解碼多對象音頻信號的方法，包括如下步驟接收多聲道和多對象縮混信號以及多聲道多對象邊信息信號；將所述多聲道多對象縮混信號變換為多聲道縮混信號；將多聲道和多對象信息信號變換為多聲道邊信息信號；基于所獲取的多聲道縮混信號和多聲道邊信息信號來合成音頻信號。
20. 根據(jù)權(quán)利要求19的解碼方法，其中所述變換多聲道縮混信號的步驟包括基于從多聲道和多對象邊信息信號獲得的對象相關(guān)信息來從多聲道和多對象縮混信號去除對象信息的步驟。
21. 根據(jù)權(quán)利要求20的解碼方法，其中所述對象相關(guān)信息是基于對象控制信息來控制的。
22. 根據(jù)權(quán)利要求20的解碼方法，其中所述對象相關(guān)信息是基于解碼系統(tǒng)信息來控制的。
23. 根據(jù)權(quán)利要求19的解碼方法，其中所述變換多聲道縮混信號的步驟包括基于從多聲道和多對象邊信息信號獲得的對象相關(guān)信息來控制來自多聲道多對象縮混信號的對象信息的步驟。
全文摘要
提供了一種用于編碼和解碼具有各種聲道的多對象音頻信號的設(shè)備和方法，所述設(shè)備和方法提供了與傳統(tǒng)的空間音頻編碼(SAC)比特流的后向兼容性。所述設(shè)備包括音頻對象編碼單元，用于基于空間線索來編碼輸入到編碼設(shè)備的音頻對象信號，并創(chuàng)建用于編碼后的音頻對象信號的渲染信息，其中所述渲染信息提供了包括用于音頻對象信號的空間線索信息、音頻對象信號的聲道信息和音頻對象信號的標(biāo)識(shí)信息的編碼設(shè)備，并且所述編碼設(shè)備使用在音頻信號的編碼和解碼中。
文檔編號G10L19/00GK101632118SQ200780051758
公開日2010年1月20日申請日期2007年12月27日優(yōu)先權(quán)日2006年12月27日
發(fā)明者姜京玉, 張大永, 徐廷一, 李泰辰, 李用主, 洪鎮(zhèn)佑, 白承權(quán), 金鎮(zhèn)雄申請人:韓國電子通信研究院

完整全部詳細(xì)技術(shù)資料下載