音頻對象提取的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明總體上涉及音頻內(nèi)容處理,更具體地,涉及用于音頻對象提取的方法和系 統(tǒng)。
【背景技術(shù)】
[0002] 傳統(tǒng)上,音頻內(nèi)容以基于聲道(channelbased)的格式被創(chuàng)建和存儲。在此使用 的術(shù)語"音頻聲道"或"聲道"是只通常具有預(yù)定義物理位置的音頻內(nèi)容。例如,立體聲、環(huán) 繞5. 1、環(huán)繞7. 1等都是用于音頻內(nèi)容的基于聲道的格式。近來,隨著多媒體工業(yè)的發(fā)展,三 維(3D)電影和電視內(nèi)容在影院和家庭中都變得越來越流行。為了創(chuàng)建更具沉浸感的聲場 以及準(zhǔn)確地控制離散的音頻元素而無需受制于特定的回放揚(yáng)聲器配置,很多傳統(tǒng)的多聲道 系統(tǒng)已經(jīng)被擴(kuò)展為支持一種新型格式,這種格式包括聲道和音頻對象二者。
[0003] 在此使用的術(shù)語"音頻對象"是指在聲場中存在特定持續(xù)時間的個體音頻元素。一 個音頻對象可以是動態(tài)的也可以是靜態(tài)的。例如,音頻對象可以是人、動物或者能夠充當(dāng)聲 源的任何其他元素。在傳輸期間,音頻對象和聲道可以被分開發(fā)送,繼而由重現(xiàn)系統(tǒng)動態(tài)使 用,以基于回放揚(yáng)聲器的配置來自適應(yīng)地重建創(chuàng)作意圖。作為示例,在稱為"自適應(yīng)音頻內(nèi) 容"(adaptiveaudiocontent)的格式中,可以存在一個或多個音頻對象以及一個或多個 "靜態(tài)環(huán)境聲"(audiobed),靜態(tài)環(huán)境聲是將以預(yù)定義的、固定的位置進(jìn)行重現(xiàn)的聲道。
[0004] -般而言,基于對象的音頻內(nèi)容以明顯不同于基于聲道的傳統(tǒng)音頻內(nèi)容的方式被 生成。然而,由于物理設(shè)備和/或技術(shù)條件等方面的限制,并非所有的音頻內(nèi)容提供方都能 夠生成自適應(yīng)音頻內(nèi)容。而且,盡管基于對象的新型格式允許在音頻對象的輔助下創(chuàng)建更 具沉浸感的聲場,但是在影音產(chǎn)業(yè)中(例如在聲音的創(chuàng)建、分發(fā)和使用的產(chǎn)業(yè)鏈中)占據(jù)主 導(dǎo)地位的仍然是基于聲道的音頻格式。因此,對于傳統(tǒng)基于聲道的音頻內(nèi)容,為了能夠?yàn)榻K 端用戶提供音頻對象所提供的類似沉浸體驗(yàn),需要從傳統(tǒng)的基于聲道的內(nèi)容中提取音頻對 象。然而,目如并不存在一種解決方案能夠從已有的基于聲道的首頻內(nèi)容中準(zhǔn)確、_效地提 取音頻對象。
[0005] 由此,本領(lǐng)域中需要一種從基于聲道的音頻內(nèi)容中提取音頻對象的解決方案。
【發(fā)明內(nèi)容】
[0006] 為了解決上述問題,本發(fā)明提出一種用于從基于聲道的音頻內(nèi)容中提取音頻對象 的方法和系統(tǒng)。
[0007] 在一個方面,本發(fā)明的實(shí)施例提供一種用于從音頻內(nèi)容中提取音頻對象的方法, 所述音頻內(nèi)容具有基于多個聲道的格式。所述方法包括:至少部分地基于所述多個聲道之 間的頻譜相似性,對所述音頻內(nèi)容的各幀應(yīng)用音頻對象提??;以及基于對所述各幀的所述 音頻對象提取,跨所述音頻內(nèi)容的幀執(zhí)行音頻對象合成,以生成至少一個音頻對象的音軌 (track)。這方面的實(shí)施例還包括包含相應(yīng)的計(jì)算機(jī)程序產(chǎn)品。
[0008] 在另一方面,本發(fā)明的實(shí)施例提供一種用于從音頻內(nèi)容中提取音頻對象的系統(tǒng), 所述音頻內(nèi)容具有基于多個聲道的格式。所述系統(tǒng)包括:幀級音頻對象提取單元,被配置為 至少部分地基于所述多個聲道之間的頻譜相似性,對所述音頻內(nèi)容的各幀應(yīng)用音頻對象提 ?。灰约耙纛l對象合成單元,被配置為基于對所述各幀的所述音頻對象提取,跨所述音頻內(nèi) 容的幀執(zhí)行音頻對象合成,以生成至少一個音頻對象的音軌。
[0009] 通過下文描述將會理解,根據(jù)本發(fā)明的實(shí)施例,可以通過兩個階段從傳統(tǒng)基于聲 道的音頻內(nèi)容中提取音頻對象。首先,執(zhí)行幀級音頻對象提取以對聲道進(jìn)行分組,使得一個 群組內(nèi)的聲道被期望以包含至少一個共同的音頻對象。繼而,跨多個幀合成音頻對象以獲 得音頻對象的完整音軌。以此方式,不論是靜態(tài)還是運(yùn)動中的音頻對象均可從傳統(tǒng)基于聲 道的音頻內(nèi)容中被準(zhǔn)確地提取。本發(fā)明的實(shí)施例所帶來的其他益處將通過下文描述而清 楚。
【附圖說明】
[0010] 通過參考附圖閱讀下文的詳細(xì)描述,本發(fā)明實(shí)施例的上述以及其他目的、特征和 優(yōu)點(diǎn)將變得易于理解。在附圖中,以示例而非限制性的方式示出了本發(fā)明的若干實(shí)施例,其 中:
[0011] 圖1示出了根據(jù)本發(fā)明的一個示例實(shí)施例的用于音頻對象提取的方法的流程圖;
[0012] 圖2示出了根據(jù)本發(fā)明的一個示例實(shí)施例的用于對基于聲道格式的時域音頻內(nèi) 容進(jìn)行預(yù)處理的方法的流程圖;
[0013] 圖3示出了根據(jù)本發(fā)明的另一示例實(shí)施例的用于音頻對象提取的方法的流程圖;
[0014] 圖4示出了根據(jù)本發(fā)明的一個示例實(shí)施例的聲道群組的示例概率矩陣的示意圖;
[0015] 圖5示出了根據(jù)本發(fā)明的示例實(shí)施例的用于五聲道輸入音頻內(nèi)容的合成完整音 頻對象的示例概率矩陣的示意圖;
[0016] 圖6示出了根據(jù)本發(fā)明的一個示例實(shí)施例的用于對提取的音頻對象進(jìn)行后處理 的方法的流程圖;
[0017] 圖7示出了根據(jù)本發(fā)明的一個示例實(shí)施例的用于音頻對象提取的系統(tǒng)的框圖;以 及
[0018] 圖8示出了適于實(shí)現(xiàn)本發(fā)明的示例實(shí)施例的計(jì)算機(jī)系統(tǒng)的框圖。
[0019] 在各個附圖中,相同或?qū)?yīng)的標(biāo)號表不相同或?qū)?yīng)的部分。
【具體實(shí)施方式】
[0020] 下面將參考附圖中示出的若干示例實(shí)施例來描述本發(fā)明的原理。應(yīng)當(dāng)理解,描述 這些實(shí)施例僅僅是為了使本領(lǐng)域技術(shù)人員能夠更好地理解進(jìn)而實(shí)現(xiàn)本發(fā)明,而并非以任何 方式限制本發(fā)明的范圍。
[0021] 如上所述,期望從傳統(tǒng)基于聲道格式的音頻對象中提取音頻對象。為此,需要考慮 諸多問題,包括但不限于:
[0022] ?音頻對象可能是靜態(tài)的,也可能是運(yùn)動的。對于一個靜態(tài)音頻對象而言,盡管其 位置是固定的,但是它可能出現(xiàn)在聲場中的任何位置。對于移動的音頻對象而言,難以簡單 地基于一些預(yù)定義的規(guī)則來預(yù)測其任意的軌跡(trajectory)。
[0023] ?音頻對象可能共存。多個音頻對象可能在某些聲道中輕微重疊地共存,也可能 在若干聲道中嚴(yán)重地重疊(或混合)。難以盲測在某些聲道中是否發(fā)生了重疊。而且,將這 些重疊的音頻對象分離為多個純粹的音頻對象是具有挑戰(zhàn)性的。
[0024]?對于傳統(tǒng)的基于聲道的音頻內(nèi)容而言,混音師通常激活將點(diǎn)聲源對象的某些相 鄰或不相鄰聲道,以便增強(qiáng)其尺寸的感知。不相鄰聲道的激活使得難以估計(jì)軌跡。
[0025]?音頻對象可能具有高度動態(tài)的持續(xù)時間,例如從30毫秒到10秒。特別地,對于 具有長持續(xù)時間的對象而言,其頻譜和大小二者通常都隨時間改變。難以找到魯棒的線索 用于生成完整或者連續(xù)的對象。
[0026] 為了解決上述以及其他潛在的問題,本發(fā)明的實(shí)施例提供了一種兩階段音頻對象 提取的方法和系統(tǒng)。首先對各個個體幀執(zhí)行音頻對象提取,使得聲道至少部分地基于它們 彼此之間在頻譜方面的相似性被分組或者說聚類。這樣,同一群組內(nèi)的聲道被期望包含至 少一個共同的音頻對象。繼而,可以跨幀對音頻對象進(jìn)行合成,以獲得音頻對象的完整音軌 (track)。以此方式,不論是靜態(tài)的還是運(yùn)動中的音頻對象都可以從傳統(tǒng)的基于聲道的音頻 內(nèi)容中被準(zhǔn)確地提取。在某些可選實(shí)施例中,借助于諸如聲源分離的后處理,可以進(jìn)一步改 善提取出的音頻對象的質(zhì)量。備選地或附加地,可以應(yīng)用頻譜綜合(spectrumsvnthesis) 以獲得期望格式的音軌。而且,諸如音頻對象隨時間的位置等附加信息可以通過軌跡生成 而被估計(jì)。
[0027] 首先參考圖1,其示出了根據(jù)本發(fā)明的示例實(shí)施例的用于從音頻內(nèi)容中提取音頻 對象的方法100的流程圖。輸入的音頻內(nèi)容具有基于多個聲道的格式。例如,輸入音頻內(nèi)容 可以遵循立體聲、環(huán)繞5