本申請要求2014年9月25日提交的美國臨時專利申請No.62/055,075的優(yōu)先權(quán),該申請通過引用全文而并入于此。
技術(shù)領(lǐng)域:
本文件涉及音頻處理。具體地說,本文件涉及下混音頻信號中的聲音對象插入。
背景技術(shù):
:音頻節(jié)目可以包括多個音頻對象以便增強收聽者的收聽體驗。音頻對象可以被定位在3維渲染環(huán)境內(nèi)的隨時間變化的位置處。具體地說,音頻對象可以被定位在不同高度處,并且渲染環(huán)境可以被配置為在不同高度處渲染這樣的音頻對象。包括多個音頻對象的音頻節(jié)目的發(fā)送可能需要相對較大的帶寬。為了減小這樣的音頻節(jié)目的帶寬,多個音頻對象可以被下混為有限數(shù)量的音頻聲道。舉例來說,多個音頻對象可以被下混為兩個音頻聲道(例如,立體聲下混信號)、5+1音頻聲道(例如,5.1下混信號)或7+1音頻聲道(例如,7.1下混信號)。此外,可以提供元數(shù)據(jù)(在本文中被稱為上混元數(shù)據(jù)或聯(lián)合對象編碼(JOC)元數(shù)據(jù)),該元數(shù)據(jù)提供下混音頻信號中所包括的音頻對象的參數(shù)化描述。具體地說,上混或JOC元數(shù)據(jù)可以被對應的上混器或解碼器用來從下混音頻信號得出多個音頻對象的重構(gòu)。在從編碼器(其提供下混信號和JOC元數(shù)據(jù))到解碼器(其基于下混信號并且基于JOC元數(shù)據(jù)來重構(gòu)多個音頻對象)的傳輸鏈內(nèi),可能需要將音頻信號(例如,機頂盒的系統(tǒng)聲音)插入到包括下混信號和JOC元數(shù)據(jù)的比特流中。本文件描述了使得能夠高效率地且高質(zhì)量地將一個或多個音頻信號插入到這樣的下混信號中的方法和系統(tǒng)。技術(shù)實現(xiàn)要素:根據(jù)一方面,描述了一種用于將第一音頻信號插入到包括下混信號和相關(guān)聯(lián)的比特流元數(shù)據(jù)的比特流中的方法。下混信號和相關(guān)聯(lián)的比特流元數(shù)據(jù)指示包括多個空間多樣(spatiallydiverse)音頻信號(例如,音頻對象)的音頻節(jié)目。下混信號包括至少一個音頻聲道,比特流元數(shù)據(jù)包括用于從至少一個音頻聲道再現(xiàn)多個空間多樣音頻信號的上混元數(shù)據(jù)。該方法包括將第一音頻信號與至少一個音頻聲道混合以生成包括至少一個經(jīng)修改音頻聲道的經(jīng)修改下混信號。此外,該方法包括對比特流元數(shù)據(jù)進行修改以生成經(jīng)修改比特流元數(shù)據(jù)。另外,該方法包括生成包括經(jīng)修改下混信號和相關(guān)聯(lián)的經(jīng)修改比特流元數(shù)據(jù)的輸出比特流,其中,經(jīng)修改下混信號和相關(guān)聯(lián)的經(jīng)修改比特流元數(shù)據(jù)指示包括多個經(jīng)修改空間多樣音頻信號的經(jīng)修改音頻節(jié)目。根據(jù)另一方面,描述了一種用于將第一音頻信號插入到包括下混信號和相關(guān)聯(lián)的比特流元數(shù)據(jù)的比特流中的方法。下混信號和相關(guān)聯(lián)的比特流元數(shù)據(jù)指示包括多個空間多樣音頻信號的音頻節(jié)目,其中,下混信號包括至少一個音頻聲道,并且其中,比特流元數(shù)據(jù)包括用于從至少一個音頻聲道再現(xiàn)多個空間多樣音頻信號的上混元數(shù)據(jù)。該方法包括將第一音頻信號與至少一個音頻聲道混合以生成包括至少一個經(jīng)修改音頻聲道的經(jīng)修改下混信號。此外,該方法包括:丟棄比特流元數(shù)據(jù),并且生成包括經(jīng)修改下混信號的輸出比特流,其中,輸出比特流不包括比特流元數(shù)據(jù)。根據(jù)又一方面,描述了一種插入單元,該插入單元被配置為將第一音頻信號插入到包括下混信號和相關(guān)聯(lián)的比特流元數(shù)據(jù)的比特流中。下混信號和相關(guān)聯(lián)的比特流元數(shù)據(jù)指示包括多個空間多樣音頻信號的音頻節(jié)目。下混信號包括至少一個音頻聲道,比特流元數(shù)據(jù)包括用于從至少一個音頻聲道再現(xiàn)多個空間多樣音頻信號的上混元數(shù)據(jù)。插入單元被配置為:將第一音頻信號與至少一個音頻聲道混合以生成包括至少一個經(jīng)修改音頻聲道的經(jīng)修改下混信號,并且對比特流元數(shù)據(jù)進行修改以生成經(jīng)修改比特流元數(shù)據(jù)。此外,插入單元被配置為生成包括經(jīng)修改下混信號和相關(guān)聯(lián)的經(jīng)修改比特流元數(shù)據(jù)的輸出比特流,其中,經(jīng)修改下混信號和相關(guān)聯(lián)的經(jīng)修改比特流元數(shù)據(jù)指示包括多個經(jīng)修改空間多樣音頻信號的經(jīng)修改音頻節(jié)目。根據(jù)又一方面,描述了一種插入單元,該插入單元被配置為將第一音頻信號插入到包括下混信號和相關(guān)聯(lián)的比特流元數(shù)據(jù)的比特流中。下混信號和相關(guān)聯(lián)的比特流元數(shù)據(jù)指示包括多個空間多樣音頻信號的音頻節(jié)目,其中,下混信號包括至少一個音頻聲道,并且其中,比特流元數(shù)據(jù)包括用于從至少一個音頻聲道再現(xiàn)多個空間多樣音頻信號的上混元數(shù)據(jù)。插入單元被配置為:將第一音頻信號與至少一個音頻聲道混合以生成包括至少一個經(jīng)修改音頻聲道的經(jīng)修改下混信號,并且丟棄比特流元數(shù)據(jù)。此外,插入單元被配置為生成包括經(jīng)修改下混信號的輸出比特流,其中,輸出比特流不包括比特流元數(shù)據(jù)。根據(jù)又一方面,描述了一種軟件程序。該軟件程序可以適于在處理器上執(zhí)行并且適于當在處理器上執(zhí)行時進行本文件中所概括的方法步驟。根據(jù)另一方面,描述了一種存儲介質(zhì)。該存儲介質(zhì)可以包括軟件程序,該軟件程序適于在處理器上執(zhí)行并且適于當在處理器上執(zhí)行時進行本文件中所概括的方法步驟。根據(jù)又一方面,描述了一種計算機程序產(chǎn)品。該計算機程序可以包括用于當在計算機上執(zhí)行時進行本文件中所概括的方法步驟的可執(zhí)行指令。應注意到,包括如本專利申請中所概括的、本專利申請的優(yōu)選實施例的方法和系統(tǒng)可以單獨使用或者與本文件中所公開的其他方法和系統(tǒng)組合使用。此外,本專利申請中所概括的方法和系統(tǒng)的所有方面可以任意組合。具體地說,權(quán)利要求的特征可以以任意方式相互組合。附圖說明下面以示例性的方式參考附圖來解釋本發(fā)明,其中圖1示出用于多個音頻對象的帶寬高效率傳輸?shù)膫鬏旀湹目驁D;圖2示出用于將音頻信號插入到包括指示多個音頻對象的下混音頻信號的比特流中的插入單元的框圖;以及圖3示出用于將音頻信號插入到包括指示多個音頻對象的下混音頻信號的比特流中的示例方法的流程圖。具體實施方式如上面所指示的,本文件是針對用于將附加音頻信號(在本文中被稱為第一音頻信號)插入到比特流中的方法和系統(tǒng),該比特流包括指示多個音頻對象的下混音頻信號。圖1示出了用于包括多個音頻對象的音頻節(jié)目的傳輸鏈100的框圖。傳輸鏈100包括編碼器101、插入單元102以及解碼器103。編碼器101可以例如被定位在視頻/音頻內(nèi)容的分發(fā)者(distributer)處。視頻/音頻內(nèi)容可以被提供給例如用戶家里的機頂盒(STB),其中,STB使得用戶能夠從分發(fā)者的數(shù)據(jù)庫選擇特定的視頻/音頻內(nèi)容。然后選定的視頻/音頻內(nèi)容可以被編碼器101發(fā)送到STB,然后可以被提供給解碼器103,例如,電視機或家庭影院的解碼器103。在選擇過程期間,STB可能需要將系統(tǒng)聲音插入到當前提供給解碼器103的視頻/音頻內(nèi)容中。STB可以使用本文件中描述的插入單元102來將音頻信號(例如,系統(tǒng)聲音)插入到已經(jīng)被編碼器101接收并且將被提供給解碼器103的比特流中。編碼器101可以接收包括多個音頻對象的音頻節(jié)目,其中,音頻對象包括音頻信號110和相關(guān)聯(lián)的對象音頻元數(shù)據(jù)(OAMD)120。OAMD120通常描述音頻信號110的源在3維渲染環(huán)境內(nèi)的隨時間變化的位置,而音頻信號110包括將被渲染的實際音頻數(shù)據(jù)。因而音頻對象是由音頻信號110和相關(guān)聯(lián)的OAMD120的組合定義的。編碼器101被配置為對多個音頻對象110、120進行下混以生成下混音頻信號111(例如,2聲道、5.1聲道或7.1聲道下混信號)。此外,編碼器101提供比特流元數(shù)據(jù)121,比特流元數(shù)據(jù)121使得對應的解碼器103可以從下混音頻信號111重構(gòu)多個音頻對象110、120。為了這個目的,比特流元數(shù)據(jù)121通常包括多個上混參數(shù)(在本文中也被稱為聯(lián)合對象編碼(JOC)元數(shù)據(jù)或上混元數(shù)據(jù))。此外,比特流元數(shù)據(jù)121通常包括多個音頻對象110、120的OAMD120(在本文中也被稱為對象元數(shù)據(jù))。下混信號111和比特流元數(shù)據(jù)121可以被提供給插入單元102,插入單元102被配置為插入一個或多個音頻信號130,并且被配置為提供經(jīng)修改下混信號112和經(jīng)修改比特流元數(shù)據(jù)122,使得經(jīng)修改下混信號112和經(jīng)修改比特流元數(shù)據(jù)122包括一個或多個插入音頻信號130。一個或多個插入音頻信號130可以例如包括STB的系統(tǒng)聲音。經(jīng)修改下混信號112/比特流元數(shù)據(jù)122可以被提供給解碼器103,解碼器103從經(jīng)修改下混信號112/比特流元數(shù)據(jù)122生成多個經(jīng)修改音頻對象113、123。多個經(jīng)修改音頻對象113、123還包括一個或多個插入音頻信號130,使得當多個經(jīng)修改音頻對象113、123在3維渲染環(huán)境內(nèi)被渲染時一個或多個插入音頻信號130被感知到。圖2示出了示例插入單元102的框圖。插入單元102包括音頻混合器205,該音頻混合器205被配置為將下混信號111與要被插入的音頻信號130混合,以便提供經(jīng)修改下混信號112。此外,插入單元102包括元數(shù)據(jù)修改單元204,元數(shù)據(jù)修改單元204被配置為改動比特流元數(shù)據(jù)121以提供經(jīng)修改比特流元數(shù)據(jù)122。為了這個目的,插入單元102可以包括元數(shù)據(jù)解碼器201以及JOC拆包單元202和OAMD拆包單元203,以將JOC元數(shù)據(jù)221(即,上混元數(shù)據(jù))和OAMD222(即,對象元數(shù)據(jù))提供給元數(shù)據(jù)修改單元204。元數(shù)據(jù)修改單元204提供經(jīng)修改JOC元數(shù)據(jù)223(即,經(jīng)修改上混元數(shù)據(jù))和經(jīng)修改OAMD224(即,經(jīng)修改對象元數(shù)據(jù)),經(jīng)修改JOC元數(shù)據(jù)223和經(jīng)修改OAMD224分別在單元206、207中被打包,并且在元數(shù)據(jù)編碼器(coder)208中被編碼以提供經(jīng)修改比特流元數(shù)據(jù)122。在本文件中,下混信號111中的系統(tǒng)聲音130的插入是在指示多個音頻對象110、120的下混信號111的背景下描述的。應注意到,插入方案也適用于指示多聲道音頻信號的下混信號111。舉例來說,兩聲道下混信號111可以指示5.1聲道音頻信號。上混/JOC元數(shù)據(jù)221可以用于從兩聲道下混信號111重構(gòu)或解碼5.1聲道音頻信號。就這一點而論,插入方案一般適用于指示包括多個空間多樣音頻信號110、120的音頻節(jié)目的下混信號。下混信號111可以包括至少一個音頻聲道。此外,上混元數(shù)據(jù)221可以被提供用來從下混信號111的至少一個音頻聲道重構(gòu)多個空間多樣音頻信號110、120。通常,下混信號111的音頻聲道的數(shù)量N小于音頻節(jié)目的空間多樣音頻信號的數(shù)量M。因此,音頻節(jié)目(即,多個空間多樣音頻信號)通常具有與下混信號111相比提高的空間多樣性。多個空間多樣音頻信號110、120的示例是如上面所概述的多個音頻對象110、120??商娲鼗蛄硗獾?,多個空間多樣音頻信號110、120可以包括多聲道音頻信號(例如,5.1或7.1信號)的多個音頻聲道。圖3示出了用于將第一音頻信號130插入到包括下混信號111和相關(guān)聯(lián)的比特流元數(shù)據(jù)121的比特流中的示例方法300的流程圖。舉例來說,該比特流是DolbyDigitalPlus比特流。方法300可以由插入單元102(例如,包括插入單元102的STB)執(zhí)行。第一音頻信號130可以包括STB的系統(tǒng)聲音。下混信號111和相關(guān)聯(lián)的比特流元數(shù)據(jù)121指示包括多個空間多樣音頻信號(例如,音頻對象)110、120的音頻節(jié)目。比特流的格式可以使得音頻節(jié)目內(nèi)所包括的空間多樣音頻信號110、120的數(shù)量限于預定的最大數(shù)量M(例如,M大于或等于10)。下混信號111包括至少一個音頻聲道,例如,單聲道信號、立體聲信號、5.1多聲道信號或7.1多聲道信號。就這一點而論,下混信號111可以包括多聲道音頻信號,該多聲道音頻信號包括多個音頻聲道。舉例來說,立體聲信號包括N=2個音頻聲道,5.1信號通常包括N=5個音頻聲道(LFE聲道通常被單獨處理),7.1信號通常包括N=7個音頻聲道。下混信號111的至少一個音頻聲道可以在下混再現(xiàn)環(huán)境內(nèi)被渲染。下混再現(xiàn)環(huán)境可以針對下混信號111提供的空間多樣性定制。舉例來說,在單聲道信號的情況下,下混再現(xiàn)環(huán)境可以包括單個擴音器,在多聲道音頻信號的情況下,下混再現(xiàn)環(huán)境可以包括用于多聲道音頻信號的聲道的相應的擴音器。具體地說,多聲道音頻信號的音頻聲道可以被分配給這樣的下混再現(xiàn)環(huán)境內(nèi)的特定擴音器位置處的擴音器。在特定的示例中,下混再現(xiàn)環(huán)境可以是可能不能在不同高度處渲染音頻信號的2維再現(xiàn)環(huán)境。比特流元數(shù)據(jù)121包括上混元數(shù)據(jù)221(在本文中也被稱為JOC元數(shù)據(jù)),上混元數(shù)據(jù)221用于從至少一個音頻聲道,即,從下混信號111再現(xiàn)音頻節(jié)目的多個空間多樣音頻信號110、120。比特流元數(shù)據(jù)121以及尤其是上混元數(shù)據(jù)221可以是隨時間變化的和/或隨頻率變化的。具體地說,上混元數(shù)據(jù)221可以包括沿著時間線改變的一組系數(shù)。該組系數(shù)可以包括用于下混信號111的不同頻率子帶的系數(shù)子集。就這一點而論,上混元數(shù)據(jù)221可以定義隨時間變化的和隨頻率變化的上混矩陣,這些上混矩陣用于將下混信號111的不同子帶上混到多個重構(gòu)空間多樣音頻信號(對應于多個原始空間多樣音頻信號110、120)的對應的不同子帶中。如上面所概述的,多個空間多樣音頻信號可以包括或者可以是多個音頻對象110、120。比特流元數(shù)據(jù)121可以包括對象元數(shù)據(jù)222(在本文中也被稱為OAMD),對象元數(shù)據(jù)222指示多個音頻對象110、120在3維再現(xiàn)環(huán)境內(nèi)的(隨時間變化的)位置(例如,坐標)。3維再現(xiàn)環(huán)境可以被配置為在不同高度處渲染音頻信號/音頻對象。為了這個目的,3維再現(xiàn)環(huán)境可以包括定位在不同高度處和/或定位在再現(xiàn)環(huán)境的天花板處的擴音器。就這一點而論,下混信號111和比特流元數(shù)據(jù)121可以提供包括多個空間多樣音頻信號(例如,音頻對象)110、120的音頻節(jié)目的帶寬高效率表示。如上面所指示的,空間多樣音頻信號的數(shù)量M可以高于下混信號111的音頻聲道的數(shù)量N,由此使得比特率可以降低。由于信號/聲道的數(shù)量減少,下混信號111的空間多樣性通常低于音頻節(jié)目的多個空間多樣音頻信號110、120。方法300包括將第一音頻信號130與下混信號111的至少一個音頻聲道混合301以生成包括至少一個經(jīng)修改音頻信號的經(jīng)修改下混信號112。具體地說,可以將第一音頻信號130的音頻數(shù)據(jù)的采樣與下混信號111的一個或多個音頻聲道的采樣混合。經(jīng)修改下混信號112可以適于在下混再現(xiàn)環(huán)境(諸如原始多聲道音頻信號)內(nèi)渲染。此外,方法300包括對比特流元數(shù)據(jù)121進行修改302以生成經(jīng)修改比特流元數(shù)據(jù)122。比特流元數(shù)據(jù)121可以被修改為使得經(jīng)修改下混信號112和相關(guān)聯(lián)的經(jīng)修改比特流元數(shù)據(jù)122指示包括多個經(jīng)修改空間多樣音頻信號113、123的經(jīng)修改音頻節(jié)目。通過對比特流元數(shù)據(jù)121進行修改,可以確保將第一音頻信號130插入到經(jīng)修改下混信號112中不會在對應的解碼器103處的上混和渲染過程期間生成可聽見的偽效。具體地說,比特流元數(shù)據(jù)121可以被修改為使得在解碼器103處重構(gòu)和渲染多個經(jīng)修改空間多樣音頻信號113、123不會導致聽得見的偽效。此外,比特流元數(shù)據(jù)121的修改確保所得的經(jīng)修改音頻節(jié)目仍包括有效的空間多樣音頻信號(尤其是音頻對象)113、123。具體地說,解碼器103可以在對象渲染模式內(nèi)連續(xù)地操作(即使當系統(tǒng)聲音正被插入和渲染時)。就減小聽得見的偽效而言,這樣的連續(xù)操作可以是有益的。另外,方法300包括生成303包括經(jīng)修改下混信號112和相關(guān)聯(lián)的經(jīng)修改比特流元數(shù)據(jù)122的輸出比特流。該輸出比特流可以被提供給解碼器103以用于解碼(即,上混)和渲染。就這一點而論,可以確保STB的系統(tǒng)聲音可以被以高效率的方式、在具有減小的可聽到的偽效或者沒有可聽到的偽效的情況下插入到運行的音頻節(jié)目中。可以通過用經(jīng)修改上混元數(shù)據(jù)223取代上混元數(shù)據(jù)221來對比特流元數(shù)據(jù)121進行修改,使得經(jīng)修改上混元數(shù)據(jù)223再現(xiàn)分別與經(jīng)修改下混信號112的一個或多個經(jīng)修改音頻聲道對應的一個或多個經(jīng)修改空間多樣音頻信號(例如,音頻對象)113、123。具體地說,經(jīng)修改上混元數(shù)據(jù)223可以被生成為使得在解碼器103處的上混過程期間,經(jīng)修改下混信號112的一個或多個經(jīng)修改音頻聲道被上混為對應的一個或多個經(jīng)修改空間多樣音頻信號113、123,其中,一個或多個經(jīng)修改空間多樣音頻信號113、123的位置對應于一個或多個經(jīng)修改音頻聲道的擴音器位置。因此,經(jīng)修改音頻聲道和經(jīng)修改空間多樣音頻信號113、123之間的一對一對應關(guān)系可以由經(jīng)修改上混元數(shù)據(jù)223提供。經(jīng)修改上混元數(shù)據(jù)223可以使得來自多個經(jīng)修改空間多樣音頻信號113、123的經(jīng)修改空間多樣音頻信號113、123對應于來自一個或多個經(jīng)修改音頻聲道的經(jīng)修改音頻聲道(根據(jù)這樣的一一對應關(guān)系)。如果原始音頻節(jié)目包括M個空間多樣音頻信號,超過了經(jīng)修改下混信號112的經(jīng)修改音頻聲道的數(shù)量N,則多個經(jīng)修改空間多樣音頻信號可以被生成為使得超過N的經(jīng)修改空間多樣音頻信號(即,M-N個空間多樣音頻信號)被靜音。因此,經(jīng)修改上混元數(shù)據(jù)223可以使得未被靜音的N個經(jīng)修改空間多樣音頻信號113、123對應于經(jīng)修改下混信號112的N個經(jīng)修改音頻聲道。表1示出了可以包括在經(jīng)修改上混元數(shù)據(jù)223內(nèi)的上混矩陣U的示例系數(shù)。在示出的示例中,上混矩陣U是M×5矩陣,該矩陣被配置為從N=5個聲道下混信號X112提供M個空間多樣音頻信號(例如,音頻對象)Y,因為Y=UX。該矩陣運算可以在多個頻帶中的每個頻帶內(nèi)進行。在表1中以及在以下描述中,引用音頻對象。應注意到,在本文件內(nèi),音頻對象僅僅是空間多樣音頻信號的示例。表1表1示出了用于經(jīng)修改5.1下混信號112的示例經(jīng)修改上混元數(shù)據(jù)223(即,經(jīng)修改JOC系數(shù)),這些經(jīng)修改上混元數(shù)據(jù)223用于插入第一音頻信號130。JOC系數(shù)通常適用于不同的頻率子帶??梢钥闯?,經(jīng)修改多聲道信號的L(左)聲道被分配給經(jīng)修改音頻對象1,等等。此外,經(jīng)修改音頻對象6至M在表1的示例中未被使用(或者被靜音)(因為用于對象6至M的上混系數(shù)被設置為零)。應注意到,為經(jīng)修改音頻對象N+1一直到M選擇上混系數(shù)(也被稱為JOC系數(shù))存在各種方式。如表1所示,用于這些對象的上混系數(shù)可以被設置為零,由此使這些音頻對象靜音。這提供了用于避免在系統(tǒng)聲音回放期間的偽效的可靠且高效率的方式。另一方面,對于不具有升高(elavated)的聲道的下混信號,這導致升高的音頻內(nèi)容在系統(tǒng)聲音回放期間被靜音的效果。換句話說,升高的音頻內(nèi)容“跌落”至2維回放場景。作為替代方案,可以對音頻對象N+1一直到M,保持或衰減(原始)上混元數(shù)據(jù)221內(nèi)所包括的原始上混矩陣的原始上混系數(shù)(例如,對所有上混系數(shù)使用恒定的增益)。其結(jié)果是,升高的音頻內(nèi)容可以在系統(tǒng)聲音回放期間得以保持。另一方面,作為修改用于音頻對象1至N的上混系數(shù)的結(jié)果,升高的音頻內(nèi)容被包括到經(jīng)修改音頻對象1至N中。因此,通過保持用于音頻對象N+1至M的(可能衰減的)上混系數(shù),音頻對象N+1至M的音頻內(nèi)容經(jīng)由經(jīng)修改音頻對象1至N以及經(jīng)由原始對象N+1至M被再現(xiàn)兩次。這可以引起音頻對象的梳狀偽效(combingartifacts)和空間錯位。為了克服后面的缺點,只有來自音頻對象N+1一直到M的那些具有零高程(elevation)(即,在下混信號111的再現(xiàn)平面內(nèi))的音頻對象可以被靜音,因為在下混信號的水平處的音頻對象通過經(jīng)修改下混信號112而被忠實地再現(xiàn)。相對于下混信號111升高的音頻對象N+1一直到M的上混系數(shù)可以保持(可能以衰減的方式)。換句話說,對比特流元數(shù)據(jù)121進行修改302可以包括識別N個音頻聲道中沒有一個被分配給其的經(jīng)修改空間多樣音頻信號113、123,該經(jīng)修改空間多樣音頻信號113、123可以在用于渲染經(jīng)修改下混信號112的下混再現(xiàn)環(huán)境內(nèi)被渲染。此外,可以生成使識別的經(jīng)修改空間多樣音頻信號113、123靜音的經(jīng)修改比特流元數(shù)據(jù)122。通過這樣做,可以避免梳狀偽效和空間錯位。可替代地或另外地,空間多樣音頻信號(尤其是對象)N+1一直到M可以通過使用對于這些經(jīng)修改音頻對象的經(jīng)修改對象元數(shù)據(jù)224(即,經(jīng)修改OAMD)而被靜音。具體地說,“對象存在”位可以被設置(例如,被設置為零)以便指示對象N+1一直到M不存在。如上面所指示的,在包括音頻對象110、120的音頻節(jié)目的情況下,比特流元數(shù)據(jù)121通常包括用于多個音頻對象110、120的對象元數(shù)據(jù)222。音頻對象110、120的對象元數(shù)據(jù)222可以指示音頻對象110、120在3維再現(xiàn)環(huán)境內(nèi)的位置(例如,坐標)。就這一點而論,對象元數(shù)據(jù)222還可以包括關(guān)于音頻對象110、120的位置的高度信息。另一方面,下混信號111和經(jīng)修改下混信號112可以是在有限下混再現(xiàn)環(huán)境(例如,通常不允許在不同高度處再現(xiàn)音頻信號的2維再現(xiàn)環(huán)境)內(nèi)可再現(xiàn)的音頻信號??梢酝ㄟ^對對象元數(shù)據(jù)222進行修改來對比特流元數(shù)據(jù)121進行修改,以得到經(jīng)修改比特流元數(shù)據(jù)122的經(jīng)修改對象元數(shù)據(jù)224,使得經(jīng)修改音頻對象113、123的經(jīng)修改對象元數(shù)據(jù)224指示經(jīng)修改音頻對象113、123在下混再現(xiàn)環(huán)境內(nèi)的位置。具體地說,(原始)對象元數(shù)據(jù)222內(nèi)所包括的高度信息可以被移除或拉平。具體地說,音頻對象110、120的對象元數(shù)據(jù)222可以被修改為使得對應的經(jīng)修改對象元數(shù)據(jù)223指示經(jīng)修改音頻對象113、123在預定高度(例如,地平面)處的位置。對于所有經(jīng)修改音頻對象113、123,預定高度可以是相同的。經(jīng)修改下混信號112包括至少一個經(jīng)修改音頻聲道。來自至少一個經(jīng)修改音頻聲道的經(jīng)修改音頻聲道可以被分配給下混再現(xiàn)環(huán)境的對應的擴音器位置。示例擴音器位置是L(左)、R(右)、C(中心)、Ls(左環(huán)繞)以及Rs(右環(huán)繞)。每個經(jīng)修改音頻聲道可以被分配給下混再現(xiàn)環(huán)境的多個擴音器位置中的不同的一個擴音器位置。經(jīng)修改音頻對象113、123的經(jīng)修改對象元數(shù)據(jù)224可以指示下混再現(xiàn)環(huán)境的擴音器位置。具體地說,可以使用相關(guān)聯(lián)的經(jīng)修改對象元數(shù)據(jù)224將與經(jīng)修改音頻聲道對應的經(jīng)修改音頻對象113、123定位在多聲道再現(xiàn)環(huán)境的擴音器位置處。如上面所指示的,多個經(jīng)修改音頻對象113、123可以包括用于多個經(jīng)修改音頻聲道中的每個經(jīng)修改音頻聲道的專用經(jīng)修改音頻對象113、123(例如,如表1所示,用于音頻聲道1至5的對象1至5)。一個或多個經(jīng)修改音頻聲道中的每個可以被分配給下混再現(xiàn)環(huán)境的對應的不同的擴音器位置。此外,對于專用經(jīng)修改音頻對象113、123中的每個,經(jīng)修改對象元數(shù)據(jù)224可以指示對應的不同的擴音器位置。xyz對象10.00.00.0對象21.00.00.0對象30.50.00.0對象40.01.00.0對象51.01.00.0對象6x6y6z6…………對象MxMyMzM表2表2指示了用于5.1經(jīng)修改下混信號112的示例經(jīng)修改對象元數(shù)據(jù)224??梢钥闯?,對象1至5被分配給與5.1再現(xiàn)環(huán)境(即,下混再現(xiàn)環(huán)境)的擴音器位置對應的特定位置。其他對象6至M的位置可以是未定義的(例如,任意的或不變的),因為其他對象6至M可以被靜音。下混信號111和經(jīng)修改下混信號112可以包括N個音頻聲道,其中N是整數(shù)。N可以是一,使得下混信號111、112是單聲道信號??商娲?,N可以大于一,使得下混信號111、112是多聲道音頻信號。可以通過生成經(jīng)修改比特流元數(shù)據(jù)122來對比特流元數(shù)據(jù)121進行修改,經(jīng)修改比特流元數(shù)據(jù)122將經(jīng)修改下混信號112的N個音頻聲道中的每個音頻聲道分配給相應的經(jīng)修改音頻對象113、123。此外,可以生成使N個音頻聲道中沒有一個已經(jīng)被分配給其的經(jīng)修改音頻對象113、123靜音的經(jīng)修改比特流元數(shù)據(jù)122。具體地說,經(jīng)修改比特流元數(shù)據(jù)122可以被生成為使得所有的剩余的經(jīng)修改音頻對象113、123被靜音??梢赃M行下混信號111和第一音頻信號的一個或多個音頻聲道的混合以使得第一音頻信號130與音頻聲道中的一個或多個混合以得到經(jīng)修改下混信號112的一個或多個經(jīng)修改音頻聲道。舉例來說,一個或多個音頻聲道可以包括用于下混再現(xiàn)環(huán)境的中心位置處的擴音器的中心聲道,并且第一音頻信號可以(例如,僅)與中心聲道混合??商娲?,第一音頻信號可以(例如,同樣地(equally))與下混信號111的多個音頻聲道的全部混合。就這一點而論,第一音頻信號可以被混合以使得第一音頻信號在經(jīng)修改音頻節(jié)目內(nèi)可以被很好地感知到??偟膩碚f,應注意到,本文中所描述的插入方法300使得可以將第一音頻信號高效率地混合到包括下混信號111和相關(guān)聯(lián)的比特流元數(shù)據(jù)121的比特流中。應注意到,第一音頻信號還可以包括多聲道音頻信號(例如,立體聲或5.1信號)。在示例中,下混信號111包括立體聲或5.1聲道信號。第一音頻信號130包括立體聲信號。在這樣的情況下,第一音頻信號130的左聲道可以與下混信號111的左聲道混合,第一音頻信號130的右聲道可以與下混信號111的右聲道混合。在另一示例中,下混信號111包括5.1聲道信號,第一音頻信號130也包括5.1聲道信號。在這樣的情況下,第一音頻信號130的聲道可以與下混信號111的相應的聲道混合??偟膩碚f,本文件中所描述的插入方法表現(xiàn)出低的計算復雜度,并且提供第一音頻信號的很少以至于沒有(littletono)可聽到的偽效的魯棒插入。方法300可以包括檢測第一音頻信號130將被插入。舉例來說,STB可以使用標志來向插入單元102通知系統(tǒng)聲音的插入。在插入第一音頻信號130之前或者在插入第一音頻信號130開始時,可以使比特流元數(shù)據(jù)121朝向在回放第一音頻信號130時將使用的經(jīng)修改比特流元數(shù)據(jù)122交叉漸變。具體地說,在回放第一音頻信號130期間使用的經(jīng)修改比特流元數(shù)據(jù)122可以對應于固定的目標比特流元數(shù)據(jù)122(尤其是固定的目標上混元數(shù)據(jù)223)。該目標比特流元數(shù)據(jù)122在第一音頻信號的插入時間段期間可以是固定的(即,不隨時間變化的)。可以通過在預定時間間隔將比特流元數(shù)據(jù)121交叉漸變?yōu)槟繕吮忍亓髟獢?shù)據(jù)來對比特流元數(shù)據(jù)121進行修改。舉例來說,可以通過確定(原始)比特流元數(shù)據(jù)122和目標比特流元數(shù)據(jù)之間的加權(quán)平均值來生成經(jīng)修改比特流元數(shù)據(jù)122(尤其是,經(jīng)修改上混元數(shù)據(jù)223),其中,權(quán)重在預定時間間隔內(nèi)朝向目標比特流元數(shù)據(jù)改變。就這一點而論,使比特流元數(shù)據(jù)121交叉漸變可以在系統(tǒng)聲音開始時進行。通過進行比特流元數(shù)據(jù)的交叉漸變,可以進一步減小由于插入第一音頻信號而導致的聽得見的偽效。方法300可以還包括檢測第一音頻信號130的插入將被終止。該檢測可以基于指示第一音頻信號130的插入將被終止的標志(例如,來自STB的標志)來進行。在第一音頻信號130的插入終止的情況下,可以生成輸出比特流,使得該輸出比特流包括下混信號111和相關(guān)聯(lián)的比特流元數(shù)據(jù)121。換句話說,比特流的修改(以及尤其是比特流元數(shù)據(jù)121的修改)可以僅在第一音頻信號130的插入時間段期間進行。如上面所指示的,在第一音頻信號130插入期間,經(jīng)修改比特流元數(shù)據(jù)122可以對應于固定的目標比特流元數(shù)據(jù)122。在第一音頻信號130的插入終止的情況下,可以通過在預定時間間隔將經(jīng)修改比特流元數(shù)據(jù)122從目標比特流元數(shù)據(jù)交叉漸變?yōu)楸忍亓髟獢?shù)據(jù)121而將比特流元數(shù)據(jù)121進行修改。再次,這樣的交叉漸變可以進一步減小由插入第一音頻信號引起的可聽到的偽效。方法300可以包括為第一音頻信號130定義第一經(jīng)修改空間多樣音頻信號(尤其是第一經(jīng)修改音頻對象)113、123。換句話說,第一音頻信號130可以被認為是定位在3維渲染環(huán)境內(nèi)的特定位置處的音頻對象。舉例來說,可以將第一音頻信號分配給3維渲染環(huán)境的中心位置??梢詫⒌谝灰纛l信號130與下混信號111混合,并且可以將比特流元數(shù)據(jù)121進行修改,使得經(jīng)修改音頻節(jié)目包括作為經(jīng)修改音頻節(jié)目的多個經(jīng)修改音頻對象113、123中的一個經(jīng)修改音頻對象的、第一經(jīng)修改音頻對象113、123。方法300可以還包括基于多個音頻對象110、120來確定除第一經(jīng)修改音頻對象113、123之外的多個經(jīng)修改音頻對象113、123。具體地說,可以通過將音頻對象110、120拷貝到經(jīng)修改音頻對象113、123(沒有修改)來確定除第一經(jīng)修改音頻對象113、123之外的多個經(jīng)修改音頻對象113、123。可以通過將第一經(jīng)修改音頻對象分配給經(jīng)修改下混信號112的特定音頻聲道來進行第一經(jīng)修改音頻對象的插入。此外,可以將用于第一經(jīng)修改音頻對象的經(jīng)修改對象元數(shù)據(jù)224添加到經(jīng)修改比特流元數(shù)據(jù)122。此外,可以將用于從經(jīng)修改下混信號112重構(gòu)第一經(jīng)修改音頻對象的上混系數(shù)添加到經(jīng)修改上混元數(shù)據(jù)223。就這一點而論,可以通過單獨對音頻數(shù)據(jù)和元數(shù)據(jù)進行處理來進行第一經(jīng)修改音頻對象的插入。具體地說,可以以低計算復雜度來進行第一經(jīng)修改音頻對象的插入。舉例來說,可以將單聲道系統(tǒng)聲音130混合到下混111、121中。具體地說,可以將系統(tǒng)聲音130混合到5.1下混信號111的中心聲道中。此外,可以將第一對象(對象1)分配給“系統(tǒng)聲音對象”??梢詫⑴c系統(tǒng)聲音對象相關(guān)聯(lián)的上混系數(shù)(即,上混矩陣的第一行)設置為[00100](給定典型的5.1聲道次序(order)L、R、C、Ls、Rs)。用于系統(tǒng)聲音對象的位置OAMD可以設置為x=0.5,y=0.0,z=0.0。作為對音頻數(shù)據(jù)(即,下混信號111)和元數(shù)據(jù)(即,比特流元數(shù)據(jù)121)進行單獨處理的替代方案,可以進行音頻數(shù)據(jù)和元數(shù)據(jù)的組合處理以插入第一音頻信號130。通過這樣做,可以進一步減小由插入第一音頻信號130引起的可聽到的偽效(通常是以計算復雜度增加為代價的)。具體地說,可以例如通過使用比特流元數(shù)據(jù)121對下混信號111進行上混以生成與多個空間多樣音頻信號110、120對應的多個重構(gòu)空間多樣音頻信號(例如,音頻對象)來生成經(jīng)修改音頻節(jié)目。換句話說,可以對下混信號111和比特流元數(shù)據(jù)121進行解碼。此外,可以基于多個重構(gòu)空間多樣音頻信號(例如,通過拷貝重構(gòu)空間多樣音頻信號中的一些重構(gòu)空間多樣音頻信號)來生成除第一經(jīng)修改音頻對象113、123(其包括第一音頻信號130)之外的多個經(jīng)修改空間多樣音頻信號113、123。此外,可以對多個經(jīng)修改空間多樣音頻信號113、123進行下混(或編碼)來生成經(jīng)修改下混信號112和經(jīng)修改比特流元數(shù)據(jù)122。作為上述插入第一音頻信號130以及對比特流元數(shù)據(jù)121進行修改的方式的替代方案或者除這些方式之外,比特流元數(shù)據(jù)121可以被修改為使得經(jīng)修改音頻節(jié)目指示在降低的渲染水平處的多個空間多樣音頻信號110、120。具體地說,可以降低渲染水平(例如,在預定時間間隔平滑地降低),以便提高第一音頻信號130在經(jīng)修改音頻節(jié)目內(nèi)的可聽性??商娲鼗蛄硗獾?,對比特流元數(shù)據(jù)121進行修改302可以包括設置指示輸出比特流包括第一音頻信號130的事實的標志。通過這樣做,對應的解碼器103可以被通知輸出比特流包括經(jīng)修改音頻節(jié)目的事實,其中經(jīng)修改音頻節(jié)目包括第一音頻信號130(例如,第一音頻信號130包括系統(tǒng)聲音)。然后可以相應地改動解碼器103的處理。用于將第一音頻信號130插入到包括下混信號111和相關(guān)聯(lián)的比特流元數(shù)據(jù)121的比特流中的替代方法可以包括以下這樣的步驟:將第一音頻信號130與下混信號111的一個或多個音頻聲道混合以生成包括一個或多個經(jīng)修改音頻聲道的經(jīng)修改下混信號112。此外,可以丟棄比特流元數(shù)據(jù)121,并且可以生成(例如,僅)包括經(jīng)修改下混信號112、而不包括比特流元數(shù)據(jù)121的輸出比特流。通過這樣做,輸出比特流可以被轉(zhuǎn)換為純粹的單聲道或多聲道音頻信號的比特流(至少在第一音頻信號130的插入時間段期間)。然后解碼器103可以從對象渲染模式切換到多聲道渲染模式(如果這樣的切換機制在解碼器103處可用)。鑒于計算復雜度低,這樣的插入方案是有益的。但是,對象渲染模式和多聲道渲染模式之間的切換可能引起在渲染期間(在切換時刻)的可聽到的偽效。本文件中所描述的方法和系統(tǒng)可以實現(xiàn)為軟件、固件和/或硬件。某些組件可以例如實現(xiàn)為在數(shù)字信號處理器或微處理器上運行的軟件。其他組件可以例如實現(xiàn)為硬件和/或?qū)S眉呻娐贰T谒枋龅姆椒ê拖到y(tǒng)中遇到的信號可以存儲在諸如隨機存取存儲器或光學存儲介質(zhì)之類的介質(zhì)上。它們可以經(jīng)由網(wǎng)絡(諸如無線電網(wǎng)絡、衛(wèi)星網(wǎng)絡、無線網(wǎng)絡或有線網(wǎng)絡(例如,互聯(lián)網(wǎng)))傳送。使用本文件中所描述的方法和系統(tǒng)的典型設備是用于存儲和/或渲染音頻信號的便攜式電子設備或其他消費者裝置。當前第1頁1 2 3