音頻對象提取的制作方法

文檔序號：8366037閱讀：756來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

音頻對象提取的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明總體上涉及音頻內(nèi)容處理，更具體地，涉及用于音頻對象提取的方法和系統(tǒng)。
【背景技術(shù)】
[0002] 傳統(tǒng)上，音頻內(nèi)容以基于聲道（channelbased)的格式被創(chuàng)建和存儲。在此使用的術(shù)語"音頻聲道"或"聲道"是只通常具有預(yù)定義物理位置的音頻內(nèi)容。例如，立體聲、環(huán) 繞5. 1、環(huán)繞7. 1等都是用于音頻內(nèi)容的基于聲道的格式。近來，隨著多媒體工業(yè)的發(fā)展，三維（3D)電影和電視內(nèi)容在影院和家庭中都變得越來越流行。為了創(chuàng)建更具沉浸感的聲場以及準(zhǔn)確地控制離散的音頻元素而無需受制于特定的回放揚(yáng)聲器配置，很多傳統(tǒng)的多聲道系統(tǒng)已經(jīng)被擴(kuò)展為支持一種新型格式，這種格式包括聲道和音頻對象二者。
[0003] 在此使用的術(shù)語"音頻對象"是指在聲場中存在特定持續(xù)時間的個體音頻元素。一個音頻對象可以是動態(tài)的也可以是靜態(tài)的。例如，音頻對象可以是人、動物或者能夠充當(dāng)聲源的任何其他元素。在傳輸期間，音頻對象和聲道可以被分開發(fā)送，繼而由重現(xiàn)系統(tǒng)動態(tài)使用，以基于回放揚(yáng)聲器的配置來自適應(yīng)地重建創(chuàng)作意圖。作為示例，在稱為"自適應(yīng)音頻內(nèi) 容"（adaptiveaudiocontent)的格式中，可以存在一個或多個音頻對象以及一個或多個 "靜態(tài)環(huán)境聲"（audiobed)，靜態(tài)環(huán)境聲是將以預(yù)定義的、固定的位置進(jìn)行重現(xiàn)的聲道。
[0004] -般而言，基于對象的音頻內(nèi)容以明顯不同于基于聲道的傳統(tǒng)音頻內(nèi)容的方式被生成。然而，由于物理設(shè)備和/或技術(shù)條件等方面的限制，并非所有的音頻內(nèi)容提供方都能夠生成自適應(yīng)音頻內(nèi)容。而且，盡管基于對象的新型格式允許在音頻對象的輔助下創(chuàng)建更具沉浸感的聲場，但是在影音產(chǎn)業(yè)中（例如在聲音的創(chuàng)建、分發(fā)和使用的產(chǎn)業(yè)鏈中）占據(jù)主導(dǎo)地位的仍然是基于聲道的音頻格式。因此，對于傳統(tǒng)基于聲道的音頻內(nèi)容，為了能夠?yàn)榻K 端用戶提供音頻對象所提供的類似沉浸體驗(yàn)，需要從傳統(tǒng)的基于聲道的內(nèi)容中提取音頻對象。然而，目如并不存在一種解決方案能夠從已有的基于聲道的首頻內(nèi)容中準(zhǔn)確、_效地提取音頻對象。
[0005] 由此，本領(lǐng)域中需要一種從基于聲道的音頻內(nèi)容中提取音頻對象的解決方案。

【發(fā)明內(nèi)容】

[0006] 為了解決上述問題，本發(fā)明提出一種用于從基于聲道的音頻內(nèi)容中提取音頻對象的方法和系統(tǒng)。
[0007] 在一個方面，本發(fā)明的實(shí)施例提供一種用于從音頻內(nèi)容中提取音頻對象的方法，所述音頻內(nèi)容具有基于多個聲道的格式。所述方法包括：至少部分地基于所述多個聲道之間的頻譜相似性，對所述音頻內(nèi)容的各幀應(yīng)用音頻對象提??；以及基于對所述各幀的所述音頻對象提取，跨所述音頻內(nèi)容的幀執(zhí)行音頻對象合成，以生成至少一個音頻對象的音軌 (track)。這方面的實(shí)施例還包括包含相應(yīng)的計(jì)算機(jī)程序產(chǎn)品。
[0008] 在另一方面，本發(fā)明的實(shí)施例提供一種用于從音頻內(nèi)容中提取音頻對象的系統(tǒng)，所述音頻內(nèi)容具有基于多個聲道的格式。所述系統(tǒng)包括：幀級音頻對象提取單元，被配置為至少部分地基于所述多個聲道之間的頻譜相似性，對所述音頻內(nèi)容的各幀應(yīng)用音頻對象提 ?。灰约耙纛l對象合成單元，被配置為基于對所述各幀的所述音頻對象提取，跨所述音頻內(nèi) 容的幀執(zhí)行音頻對象合成，以生成至少一個音頻對象的音軌。
[0009] 通過下文描述將會理解，根據(jù)本發(fā)明的實(shí)施例，可以通過兩個階段從傳統(tǒng)基于聲道的音頻內(nèi)容中提取音頻對象。首先，執(zhí)行幀級音頻對象提取以對聲道進(jìn)行分組，使得一個群組內(nèi)的聲道被期望以包含至少一個共同的音頻對象。繼而，跨多個幀合成音頻對象以獲得音頻對象的完整音軌。以此方式，不論是靜態(tài)還是運(yùn)動中的音頻對象均可從傳統(tǒng)基于聲道的音頻內(nèi)容中被準(zhǔn)確地提取。本發(fā)明的實(shí)施例所帶來的其他益處將通過下文描述而清楚。
【附圖說明】
[0010] 通過參考附圖閱讀下文的詳細(xì)描述，本發(fā)明實(shí)施例的上述以及其他目的、特征和優(yōu)點(diǎn)將變得易于理解。在附圖中，以示例而非限制性的方式示出了本發(fā)明的若干實(shí)施例，其中：
[0011] 圖1示出了根據(jù)本發(fā)明的一個示例實(shí)施例的用于音頻對象提取的方法的流程圖；
[0012] 圖2示出了根據(jù)本發(fā)明的一個示例實(shí)施例的用于對基于聲道格式的時域音頻內(nèi) 容進(jìn)行預(yù)處理的方法的流程圖；
[0013] 圖3示出了根據(jù)本發(fā)明的另一示例實(shí)施例的用于音頻對象提取的方法的流程圖；
[0014] 圖4示出了根據(jù)本發(fā)明的一個示例實(shí)施例的聲道群組的示例概率矩陣的示意圖；
[0015] 圖5示出了根據(jù)本發(fā)明的示例實(shí)施例的用于五聲道輸入音頻內(nèi)容的合成完整音頻對象的示例概率矩陣的示意圖；
[0016] 圖6示出了根據(jù)本發(fā)明的一個示例實(shí)施例的用于對提取的音頻對象進(jìn)行后處理的方法的流程圖；
[0017] 圖7示出了根據(jù)本發(fā)明的一個示例實(shí)施例的用于音頻對象提取的系統(tǒng)的框圖；以及
[0018] 圖8示出了適于實(shí)現(xiàn)本發(fā)明的示例實(shí)施例的計(jì)算機(jī)系統(tǒng)的框圖。
[0019] 在各個附圖中，相同或?qū)?yīng)的標(biāo)號表不相同或?qū)?yīng)的部分。
【具體實(shí)施方式】
[0020] 下面將參考附圖中示出的若干示例實(shí)施例來描述本發(fā)明的原理。應(yīng)當(dāng)理解，描述這些實(shí)施例僅僅是為了使本領(lǐng)域技術(shù)人員能夠更好地理解進(jìn)而實(shí)現(xiàn)本發(fā)明，而并非以任何方式限制本發(fā)明的范圍。
[0021] 如上所述，期望從傳統(tǒng)基于聲道格式的音頻對象中提取音頻對象。為此，需要考慮諸多問題，包括但不限于：
[0022] ?音頻對象可能是靜態(tài)的，也可能是運(yùn)動的。對于一個靜態(tài)音頻對象而言，盡管其位置是固定的，但是它可能出現(xiàn)在聲場中的任何位置。對于移動的音頻對象而言，難以簡單地基于一些預(yù)定義的規(guī)則來預(yù)測其任意的軌跡（trajectory)。
[0023] ?音頻對象可能共存。多個音頻對象可能在某些聲道中輕微重疊地共存，也可能在若干聲道中嚴(yán)重地重疊（或混合）。難以盲測在某些聲道中是否發(fā)生了重疊。而且，將這些重疊的音頻對象分離為多個純粹的音頻對象是具有挑戰(zhàn)性的。
[0024]?對于傳統(tǒng)的基于聲道的音頻內(nèi)容而言，混音師通常激活將點(diǎn)聲源對象的某些相鄰或不相鄰聲道，以便增強(qiáng)其尺寸的感知。不相鄰聲道的激活使得難以估計(jì)軌跡。
[0025]?音頻對象可能具有高度動態(tài)的持續(xù)時間，例如從30毫秒到10秒。特別地，對于具有長持續(xù)時間的對象而言，其頻譜和大小二者通常都隨時間改變。難以找到魯棒的線索用于生成完整或者連續(xù)的對象。
[0026] 為了解決上述以及其他潛在的問題，本發(fā)明的實(shí)施例提供了一種兩階段音頻對象提取的方法和系統(tǒng)。首先對各個個體幀執(zhí)行音頻對象提取，使得聲道至少部分地基于它們彼此之間在頻譜方面的相似性被分組或者說聚類。這樣，同一群組內(nèi)的聲道被期望包含至少一個共同的音頻對象。繼而，可以跨幀對音頻對象進(jìn)行合成，以獲得音頻對象的完整音軌 (track)。以此方式，不論是靜態(tài)的還是運(yùn)動中的音頻對象都可以從傳統(tǒng)的基于聲道的音頻內(nèi)容中被準(zhǔn)確地提取。在某些可選實(shí)施例中，借助于諸如聲源分離的后處理，可以進(jìn)一步改善提取出的音頻對象的質(zhì)量。備選地或附加地，可以應(yīng)用頻譜綜合（spectrumsvnthesis) 以獲得期望格式的音軌。而且，諸如音頻對象隨時間的位置等附加信息可以通過軌跡生成而被估計(jì)。
[0027] 首先參考圖1，其示出了根據(jù)本發(fā)明的示例實(shí)施例的用于從音頻內(nèi)容中提取音頻對象的方法100的流程圖。輸入的音頻內(nèi)容具有基于多個聲道的格式。例如，輸入音頻內(nèi)容可以遵循立體聲、環(huán)繞5

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：胡明清;蘆烈;王珺;
技術(shù)所有人：杜比實(shí)驗(yàn)室特許公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、王老師：1.數(shù)字信號處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開發(fā) 4.機(jī)械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設(shè)計(jì) 2.汽車檢測系統(tǒng)設(shè)計(jì) 3.汽車電子控制系統(tǒng)設(shè)計(jì)
4、畢老師：機(jī)構(gòu)動力學(xué)與控制
5、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

視頻提取音頻相關(guān)技術(shù)

提取視頻中的音頻相關(guān)技術(shù)

網(wǎng)頁音頻提取器相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

音頻對象提取的制作方法