欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

用于使用基于對象的元數(shù)據(jù)產(chǎn)生音頻輸出信號的裝置和方法

文檔序號:7735370閱讀:209來源:國知局
專利名稱:用于使用基于對象的元數(shù)據(jù)產(chǎn)生音頻輸出信號的裝置和方法
技術(shù)領(lǐng)域
本發(fā)明涉及音頻處理,具體而言,涉及在諸如空間音頻對象編碼的音頻對象編碼 方面的音頻處理。
背景技術(shù)
在現(xiàn)今的廣播系統(tǒng)例如電視機(jī)中,在某些情況下,希望不要如同錄音師所設(shè)計(jì)的 那樣再現(xiàn)音軌,而希望是執(zhí)行特殊調(diào)整,以解決在演示時(shí)所給予的約束。一種廣為人知的控 制此種后期制作調(diào)整的技術(shù),是提供伴隨著那些音軌的適當(dāng)元數(shù)據(jù)。傳統(tǒng)的還音系統(tǒng),如老式家用電視系統(tǒng),系由一個(gè)揚(yáng)聲器或一對立體揚(yáng)聲器所組 成。更先進(jìn)的多聲道再現(xiàn)系統(tǒng)使用五個(gè)或者甚至更多個(gè)揚(yáng)聲器。若考慮的是多聲道再現(xiàn)系統(tǒng),那么錄音師可更靈活地在二維平面上放置數(shù)個(gè)單音 源,并因此亦可針對其所有的音軌而使用較高的動態(tài)范圍,因?yàn)橛捎诠碾u尾酒會效應(yīng) (cocktail party effect)實(shí)現(xiàn)語音清晰度容易得多。然而,那些保真的、高動態(tài)的音頻可能會導(dǎo)致在傳統(tǒng)再現(xiàn)系統(tǒng)上的問題??赡軙?這樣的情景出現(xiàn)顧客可能會不想要這種高動態(tài)信號,因?yàn)樗蛩窃诔臭[的環(huán)境中(如 開車時(shí)或是在飛機(jī)上,或是使用移動娛樂系統(tǒng))聆聽這些內(nèi)容,她或他正戴著助聽器,或是 她或他并不想要打擾她或他的鄰居(例如在深夜的時(shí)候)。此外,廣播公司面臨這樣的問題,那就是,由于連續(xù)項(xiàng)目的調(diào)整位準(zhǔn)需要不同波峰 因數(shù),因而在一個(gè)節(jié)目中的不同項(xiàng)目(如商業(yè)廣告)可能會位于不同的音量位準(zhǔn)。在傳統(tǒng)的廣播傳輸鏈中,終端用戶接收已混音軌。在接收者方的任何更進(jìn)一步的 操作,都可能只以非常受限的形式完成。目前杜比元數(shù)據(jù)的小特征集(feature set)允許 使用者修改音頻信號的一些特性。一般而言,根據(jù)上文所提過的元數(shù)據(jù)的操作,是在沒有任何頻率選擇性區(qū)別的情 況下應(yīng)用的,因?yàn)閭鹘y(tǒng)上隸屬于音頻信號的元數(shù)據(jù)并未提供足夠的信息來這么做。此外,只有完整的音頻流本身才可被操作。另外,也沒有任何方法用于在此音頻流 中采納并分割各個(gè)音頻對象。特別是在不適當(dāng)?shù)鸟雎牠h(huán)境中,這可能會令人不滿。在午夜模式中,因?yàn)槭チ藢?dǎo)引信息,所以現(xiàn)存的音頻處理器不可能區(qū)分環(huán)境噪 聲與對話。因此,在高位準(zhǔn)噪聲(其必須在音量上被壓縮或限制)的情況中,對話也將會被 平行地操作。這可能會損害語音清晰度。相對于環(huán)境聲音而增加對話位準(zhǔn),有助于增進(jìn)對語音的感知,特別是對于聽力障 礙者。這樣的技術(shù)只在當(dāng)音頻信號額外配合特性控制信息,而在對話與環(huán)境分量真正分離 時(shí),才能發(fā)揮作用。若只有立體聲降混信號是可用的,那么就再也不能施加進(jìn)一步的分離以 分別區(qū)分和操作語音信息。目前的降混解決辦法允許針對中央與環(huán)繞聲道的動態(tài)立體聲位準(zhǔn)調(diào)整。但針對取 代立體聲音響的任何變型的揚(yáng)聲器配置,并沒有來自發(fā)送器的如何降混最終多聲道音頻源的真正描述。只有解碼器中的默認(rèn)公式以非常不靈活的方式執(zhí)行信號混合。在所有描述的方案中,通常會存在著兩種不同的途徑。第一個(gè)途徑是,當(dāng)產(chǎn)生要發(fā) 送的音頻信號時(shí),將一組音頻對象降混進(jìn)單聲道、立體聲、或是多聲道信號中。要經(jīng)由廣播、 任何其它傳輸協(xié)議、或在計(jì)算機(jī)可讀儲存介質(zhì)上發(fā)布而發(fā)送給用戶此信號的的這個(gè)信號, 一般會具有小于原始音頻對象數(shù)目的聲道數(shù),這些原始音頻對象被音響師在例如工作室環(huán) 境中降混。此外,可附加元數(shù)據(jù),以允許數(shù)種不同的修改,但這些修改只可應(yīng)用在完整的發(fā) 送信號上,或者是,若所發(fā)送的信號具有數(shù)個(gè)不同的發(fā)送聲道時(shí),整體地應(yīng)用在獨(dú)立的一些 發(fā)送聲道上。然而,由于這些發(fā)送聲道總是數(shù)個(gè)音頻對象的疊加,因而在其他音頻對象未被 操作的情況下,對于特定音頻對象的獨(dú)立操作是完全不可能的。另一個(gè)途徑是不執(zhí)行對象降混,而在其作為分離的發(fā)送聲道時(shí)發(fā)送音頻對象信 號。如果音頻對象的數(shù)目很小,則這樣的方案可很好地發(fā)揮作用。例如當(dāng)只存在五個(gè)音頻 對象時(shí),就有可能在5. 1方案中彼此分離地發(fā)送這五個(gè)相異的音頻對象。元數(shù)據(jù)可與這些 聲道相關(guān)聯(lián),其指出對象/聲道的專有性質(zhì)。然后,在接收器側(cè),能夠基于所發(fā)送的元數(shù)據(jù) 來操作這些所發(fā)送的聲道。此途徑的缺點(diǎn)是,其并非反向兼容的,且只在小量音頻對象的情況中運(yùn)作良好。當(dāng) 音頻對象的數(shù)目增加時(shí),作為分離的明確音軌發(fā)送所有對象的所需比特率急劇上升。此上 升的比特率在廣播應(yīng)用的情況中是特別不適宜的。因此,目前比特率有效(bitrate efficient)的途徑并不允許相異音頻對象的獨(dú) 立操作。這樣的獨(dú)立操作只在分別發(fā)送各個(gè)對象時(shí)才被允許。然而,此途徑并不是比特率 有效的,因此特別是在廣播情景中不可行。本發(fā)明的一個(gè)目標(biāo)是提供比特率有效又可行的技術(shù)方案以解決這些問題。根據(jù)本發(fā)明的第一方面,此目標(biāo)由這樣一種裝置實(shí)現(xiàn),該裝置用于產(chǎn)生代表至少 兩個(gè)不同音頻對象的疊加的至少一個(gè)音頻輸出信號,所述裝置包括處理器,所述處理器用 于處理音頻輸入信號,以提供該音頻輸入信號的對象表示,其中至少兩個(gè)不同的音頻對象 彼此分離,所述至少兩個(gè)不同的音頻對象可作為分離的音頻對象信號,并且所述至少兩個(gè) 不同的音頻對象可彼此獨(dú)立地被操作;對象操作器,所述對象操作器用于操作至少一個(gè)音 頻對象的音頻對象信號或混合音頻對象信號,其基于關(guān)于所述至少一個(gè)音頻對象的基于音 頻對象的元數(shù)據(jù),以針對所述至少一個(gè)音頻對象來獲得受操作音頻對象信號或受操作混合 音頻對象信號;以及對象混合器,所述對象混合器用于通過將受操作音頻對象與未經(jīng)修改 的音頻對象組合,或?qū)⑺鍪懿僮饕纛l對象與作為至少一個(gè)音頻對象以不同方式操作的不 同的受操作音頻對象組合來混合所述對象表示。根據(jù)本發(fā)明的第二方面,此目標(biāo)通過用于產(chǎn)生代表至少兩個(gè)不同音頻對象的疊加 的至少一個(gè)音頻輸出信號的方法來實(shí)現(xiàn),該方法包括處理音頻輸入信號,以提供所述音 頻輸入信號的對象表示,其中至少兩個(gè)不同的音頻對象被彼此分離,所述至少兩個(gè)不同的 音頻對象可作為分離的音頻對象信號,并且所述至少兩個(gè)不同的音頻對象可彼此獨(dú)立地操 作;依據(jù)關(guān)于至少一個(gè)音頻對象的基于音頻對象的元數(shù)據(jù),操作所述至少一個(gè)音頻對象的 所述音頻對象信號或混合音頻對象信號,以針對所述至少一個(gè)音頻對象來獲得受操作音頻 對象信號或受操作混合音頻對象信號;以及通過將所述受操作音頻對象與未經(jīng)修改的音頻 對象組合,或?qū)⑺鍪懿僮饕纛l對象與作為至少一個(gè)音頻對象以不同方式操作的不同的受
6操作音頻對象組合,來混合所述對象表示。根據(jù)本發(fā)明的第三方面,此目標(biāo)通過這樣一種裝置實(shí)現(xiàn),該裝置用于產(chǎn)生表示至 少兩個(gè)不同音頻對象的疊加的已編碼音頻信號,所述裝置包括數(shù)據(jù)流格式化器,所述數(shù)據(jù) 流格式化器用于格式化數(shù)據(jù)流,以使所述數(shù)據(jù)流包含代表所述至少兩個(gè)不同音頻對象的組 合的對象降混信號,以及作為邊信息的關(guān)于所述不同音頻對象中至少一個(gè)音頻對象的元數(shù) 據(jù)。根據(jù)本發(fā)明的第四方面,此目標(biāo)通過這樣一種方法實(shí)現(xiàn),該方法用于產(chǎn)生代表至 少兩個(gè)不同音頻對象的疊加的已編碼音頻信號,所述方法包括格式化數(shù)據(jù)流,以使數(shù)據(jù)流 包含代表至少兩個(gè)不同音頻對象的組合的對象降混信號,以及作為邊信息的關(guān)于所述不同 音頻對象中的至少一個(gè)音頻對象的元數(shù)據(jù)。本發(fā)明更進(jìn)一步的方法涉及執(zhí)行本發(fā)明方法的計(jì)算機(jī)程序,以及計(jì)算機(jī)可讀存儲 介質(zhì),在所述計(jì)算機(jī)可讀存儲介質(zhì)上存儲有對象降混信號,和作為邊信息的關(guān)于對象降混 信號中所包括一個(gè)以上音頻對象的對象參數(shù)數(shù)據(jù)和元數(shù)據(jù)。本發(fā)明基于這樣的發(fā)現(xiàn),即分別的音頻對象信號或分別的混合音頻對象信號組的 獨(dú)立操作允許基于對象相關(guān)元數(shù)據(jù)的獨(dú)立的對象相關(guān)處理。根據(jù)本發(fā)明,此操作的結(jié)果并 非直接輸出至揚(yáng)聲器,而是提供給對象混合器,其針對某一個(gè)演示場景產(chǎn)生輸出信號,其中 所述輸出信號由至少一個(gè)受操作對象信號或一組已混對象信號加上其它受操作對象信號 及/或未經(jīng)修改的對象信號的疊加來產(chǎn)生的。當(dāng)然,并非必須要操作各個(gè)對象,但在一些情 況中,僅操作多個(gè)音頻對象中的一個(gè)對象,而無操作更進(jìn)一步的對象便已足夠。此對象混合 操作的結(jié)果為根據(jù)受操作對象的一個(gè)以上音頻輸出信號。根據(jù)具體的應(yīng)用場景,這些音頻 輸出信號可被發(fā)送到揚(yáng)聲器,或儲存用于進(jìn)一步的利用,或甚至發(fā)送至其他接收器。優(yōu)選地,輸入本發(fā)明操作/混合設(shè)備的信號為由降混多個(gè)音頻對象信號所產(chǎn)生的 降混信號。所述降混操作可為獨(dú)立地針對各個(gè)對象而受元數(shù)據(jù)控制的,或可為不受控制的, 例如對于各個(gè)對象是相同的。在前者的情況中,根據(jù)元數(shù)據(jù)的對象操作為對象控制的獨(dú)立 個(gè)體的與對象專有的上混操作,其中產(chǎn)生代表此對象的揚(yáng)聲器分量信號被產(chǎn)生。優(yōu)選地, 還提供空間對象參數(shù),其可用來利用所發(fā)送的對象降混信號通過其近似版本來重組原始信 號。之后,用于處理音頻輸入信號以提供音頻輸入信號的對象表示的處理器就基于參數(shù)數(shù) 據(jù)操作,以計(jì)算原始音頻對象的重組版本,其中這些近似對象信號之后可由基于對象的元 數(shù)據(jù)來獨(dú)立操作。優(yōu)選地,還提供對象演示信息,其中此對象演示信息包括在再現(xiàn)場景中,關(guān)于所期 望音頻再現(xiàn)設(shè)定的信息,與關(guān)于所述獨(dú)立音頻對象的安置的信息。然而,特定的實(shí)施例也可 以不利用對象定位數(shù)據(jù)而運(yùn)作。這些配置為例如靜止物體位置的提供,其可以被固定地設(shè) 置,或針對完整的音軌在發(fā)送器與接收器之間被協(xié)商(negotiate)。


接下來結(jié)合附圖對本發(fā)明的優(yōu)選實(shí)施例進(jìn)行討論,其中圖1示出用于產(chǎn)生至少一個(gè)音頻輸出信號的裝置的一個(gè)優(yōu)選實(shí)施例;圖2示出圖1的處理器的一個(gè)優(yōu)選實(shí)施方式;圖3a示出用于操作對象信號的一個(gè)優(yōu)選實(shí)施例;
圖北示出如圖3a所示操作器中對象混合器的優(yōu)選實(shí)施方式;圖4示出在這樣降混對象之后但最終對象混合之前進(jìn)行操作的情形中處理器/操 作器/對象混合器配置;圖fe示出用于產(chǎn)生已編碼音頻信號的裝置的一個(gè)優(yōu)選實(shí)施例;圖恥示出具有對象降混、基于對象的元數(shù)據(jù)、以及數(shù)個(gè)空間對象參數(shù)的傳輸信 號;圖6示出指出由某個(gè)ID所界定的數(shù)個(gè)音頻對象的映射,其具有對象音頻文件,以 及聯(lián)合音頻對象信息矩陣E ;圖7示出圖6中的對象共變矩陣E的說明;圖8示出降混矩陣以及由降混矩陣D所控制的音頻對象編碼器;圖9顯示目標(biāo)演示矩陣A,其通常是由使用者提供,以及針對具體目標(biāo)演示場景的 一個(gè)實(shí)例;圖10示出用于產(chǎn)生根據(jù)本發(fā)明的更進(jìn)一步的方面的至少一個(gè)音頻輸出信號的裝 置的一個(gè)優(yōu)選實(shí)施例;圖Ila示出更進(jìn)一步的實(shí)施例;圖lib示出再進(jìn)一步的實(shí)施例;圖Ilc示出更進(jìn)一步的實(shí)施例;圖1 示出一個(gè)示例性應(yīng)用場景;并且圖12b示出一個(gè)更進(jìn)一步的示例性應(yīng)用場景。
具體實(shí)施例方式為了要解決上面所提過的問題,一個(gè)優(yōu)選的途徑是要隨那些音軌提供適當(dāng)?shù)脑獢?shù) 據(jù)。此種元數(shù)據(jù)可由信息組成,以控制下面三個(gè)因素(三個(gè)“經(jīng)典的” D)·對話音量規(guī)格化(dialog normalization)·云力態(tài)范圍控制(dynamic range control)·降混(downmix)此種音頻元數(shù)據(jù)有助于接收器基于由聆聽者所執(zhí)行的調(diào)整,而操作所接收的音頻 信號。為了要將這種音頻元數(shù)據(jù)與其他元數(shù)據(jù)(例如描述性元數(shù)據(jù)如作者、標(biāo)題等)區(qū)分, 通常會將之稱為“杜比元數(shù)據(jù)”(因?yàn)槠溥€只由杜比系統(tǒng)實(shí)施)。接下來只考慮這種音頻元 數(shù)據(jù),并且將之簡稱為元數(shù)據(jù)。音頻元數(shù)據(jù)是伴隨著音頻節(jié)目所載運(yùn)的額外的控制信息,并且其具有對接收器來 說為必要的關(guān)于此音頻的數(shù)據(jù)。元數(shù)據(jù)提供許多重要的功能包括針對不理想的聆聽環(huán)境的 動態(tài)范圍控制、在節(jié)目間的位準(zhǔn)匹配、針對經(jīng)由較少揚(yáng)聲器聲道的多聲道音頻再現(xiàn)的降混 信息以及其它信息。元數(shù)據(jù)提供使音頻節(jié)目精準(zhǔn)且具藝術(shù)性地在從完全型家庭劇院到空中娛樂許多 不同聆聽情況中再現(xiàn)的所需工具,而與揚(yáng)聲器聲道的數(shù)量、錄放器材質(zhì)量、或相對環(huán)境噪聲 位準(zhǔn)無關(guān)。雖然工程師或內(nèi)容制作人在于它們的節(jié)目中提供可能的最高質(zhì)量音頻上非常謹(jǐn) 慎,但她或他在企圖要再現(xiàn)原始音軌的各式各樣的消費(fèi)者電子產(chǎn)品或聆聽環(huán)境上并沒有控制權(quán)。元數(shù)據(jù)提供工程師或內(nèi)容制作人在他們的作品要在幾乎所有可想象的聆聽環(huán)境中如 何被再現(xiàn)以及享受上,擁有較大的控制權(quán)。杜比元數(shù)據(jù)是要提供信息以控制所提到的三個(gè)因素的一種特殊格式。最重要的三個(gè)杜比元數(shù)據(jù)的功能為·對話音量規(guī)格化,以在演出中達(dá)到對話的長期平均位準(zhǔn),此演出常常是由諸如劇 情片、廣告等不同的節(jié)目類型所組成的?!討B(tài)范圍控制,以用怡人的音頻壓縮滿足大部分的觀眾,但同時(shí)又允許各個(gè)獨(dú)立 的顧客控制此音頻信號的動態(tài)以及調(diào)整此壓縮,以適于她或他的個(gè)人聆聽環(huán)境。·降混,以將多聲道的音頻信號的聲音映射成兩個(gè)或一個(gè)聲道,以防無多聲道音頻 錄放器材可用的情況。杜比元數(shù)據(jù)伴隨著杜比數(shù)字(AC-3)與杜比E來使用。杜比-E音頻元數(shù)據(jù)格式在 [16]中說明。杜比數(shù)字(ACj)是專為經(jīng)由數(shù)字電視廣播(高分辨率或是標(biāo)準(zhǔn)分辨率)、DVD 或其它介質(zhì),將音頻傳譯到家庭所設(shè)計(jì)的。杜比數(shù)字可載運(yùn)從音頻的單一聲道到完全的5. 1聲道節(jié)目的任何事物,包括元數(shù) 據(jù)。在數(shù)字電視與DVD這兩個(gè)情況中,其除了完全的5. 1分離音頻節(jié)目以外,也還普遍地被 用于立體聲的傳輸。杜比E特別是專為在專業(yè)制作與發(fā)布環(huán)境中多聲道音頻的發(fā)布而設(shè)計(jì)的。在傳遞 到消費(fèi)者之前的任何時(shí)候,杜比E是影像發(fā)布多聲道/多節(jié)目音頻的優(yōu)選方法。杜比E在 現(xiàn)有雙聲道數(shù)字音頻基礎(chǔ)設(shè)施中,可載運(yùn)最高達(dá)到八個(gè)配制成任何數(shù)量的獨(dú)立節(jié)目配置的 分離音頻信道(包括每一個(gè)的元信息)。與杜比數(shù)字不同,杜比E可處理許多編碼/解碼產(chǎn) 物,并與影像幀速率同步。如同杜比數(shù)字,杜比E也載運(yùn)針對在數(shù)據(jù)流中編碼的各個(gè)獨(dú)立音 頻節(jié)目的元數(shù)據(jù)。杜比E的使用允許所生成的音頻數(shù)據(jù)流被解碼、修改以及再編碼,而不產(chǎn) 生可聽度退化。由于杜比E流與影像幀速率同步,故其可在專業(yè)廣播環(huán)境中被傳遞、切換、 與編輯。除此之外,還隨著MPEG AAC提供數(shù)個(gè)裝置,以執(zhí)行動態(tài)范圍控制以及控制降混產(chǎn)生。為了以將針對消費(fèi)者的可變性最小化的方式處理具有可變峰值位準(zhǔn)、平均位準(zhǔn)與 動態(tài)范圍的原始數(shù)據(jù),必須要控制再現(xiàn)位準(zhǔn)以便例如對話位準(zhǔn)或平均音樂位準(zhǔn)被設(shè)為消費(fèi) 者在再現(xiàn)時(shí)所控制的位準(zhǔn),而無論此節(jié)目是如何創(chuàng)始的。此外,并非所有消費(fèi)者都可以在良 好的環(huán)境(如低噪聲)中聆聽這些節(jié)目,因此對于他們要把音量放得多大毫無限制。例如, 行車環(huán)境具有高度的環(huán)境噪聲位準(zhǔn),因此可以預(yù)期聆聽者將會想要降低以其它方式再現(xiàn)的 位準(zhǔn)范圍?;谶@兩個(gè)理由,動態(tài)范圍控制在AAC的規(guī)范中必須可用。為了要達(dá)到這個(gè)目的, 必須要以用來設(shè)定與控制這些節(jié)目項(xiàng)目的動態(tài)范圍來陪同降低比特率音頻。這樣的控制必 須相對于參考位準(zhǔn)以及關(guān)于重要的節(jié)目元素而特別指定,例如對話。動態(tài)范圍控制的特征如下1.動態(tài)范圍控制(DRC)完全是選擇性的。因此,只要句法正確,對于不想要調(diào)用 DRC的人來說,復(fù)雜性并沒有變化。2.降低比特率的音頻數(shù)據(jù)是以源材料的完全動態(tài)范圍來發(fā)送,其中支持?jǐn)?shù)據(jù)協(xié)助動態(tài)范圍控制。3.動態(tài)范圍控制數(shù)據(jù)可在每個(gè)幀送出,以將設(shè)定回放增益中之延遲減少到最小。4.動態(tài)范圍控制數(shù)據(jù)是利用AAC的「fillelement」特征來發(fā)送的。5.參考位準(zhǔn)被指定為滿刻度。6.節(jié)目參考位準(zhǔn)被發(fā)送,以準(zhǔn)許在不同來源的回放位準(zhǔn)間的位準(zhǔn)同位,以及此提 供動態(tài)范圍控制可能會適用于的一個(gè)有關(guān)參考。來源信號的特征是與節(jié)目的音量主觀印象 最為相關(guān)的,例如在節(jié)目中對話內(nèi)容的位準(zhǔn)或是音樂節(jié)目中的平均位準(zhǔn)。7.節(jié)目參考位準(zhǔn)代表可能會與在消費(fèi)性硬件中參考位準(zhǔn)相關(guān)的設(shè)定位準(zhǔn)中被再 現(xiàn)的節(jié)目位準(zhǔn),以達(dá)到回放位準(zhǔn)同位。對此,節(jié)目的較安靜部分可能會被提升位準(zhǔn),而節(jié)目 的較大聲的部分可能會被降低位準(zhǔn)。8.節(jié)目參考位準(zhǔn)相對于參考位準(zhǔn)被指定在0到-31. 75dB的范圍中。9.節(jié)目參考位準(zhǔn)使用具有0. 25分貝節(jié)距的7位字段。10.動態(tài)范圍控制被指定在士31. 75分貝的范圍中。11.動態(tài)范圍控制使用具有0. 25分貝節(jié)距的8位的字段(1個(gè)符號、7個(gè)量值)。12.動態(tài)范圍控制可作為一個(gè)整體應(yīng)用于音頻信道的所有光譜系數(shù)或頻帶上,或 是系數(shù)可被拆成不同的比例因子帶,其每一個(gè)比例因子帶分別由分別的動態(tài)范圍控制數(shù)據(jù) 組來控制。13.動態(tài)范圍控制可作為一個(gè)整體應(yīng)用于(立體聲或多聲道比特流的)所有聲道, 或可以被拆開,其中數(shù)組聲道分別由分別的動態(tài)范圍控制。14.若遺失一個(gè)預(yù)期的動態(tài)范圍控制數(shù)據(jù)組,則應(yīng)使用最新近收到的數(shù)個(gè)有效值。15.并非動態(tài)范圍控制數(shù)據(jù)的所有元素每次都被送出。舉例來說,節(jié)目參考位準(zhǔn)可 能只在平均每200毫秒送出一次。16.當(dāng)有需要時(shí),由傳輸層提供錯(cuò)誤檢測/保護(hù)。17.應(yīng)給予使用者用以更改應(yīng)用到信號位準(zhǔn)的呈現(xiàn)在位流中的動態(tài)范圍控制數(shù)量 的途徑。除了在5. 1聲道傳輸中發(fā)送分離的單聲道或立體聲降混聲道的可能性以外,AAC 還允許來自于5聲道音軌的自動降混產(chǎn)生。在此情況下,應(yīng)忽略LFE聲道。矩陣降混方法可由音軌的編輯器來控制,此音軌具有限定加到降混的后部聲道數(shù)
量的一小組參數(shù)。矩陣降混方法只請求將3前/2后揚(yáng)聲器配置、5聲道節(jié)目降混至立體聲或單聲道 節(jié)目。不可應(yīng)用至除了 3/2配置以外的任何節(jié)目。在MPEG中,提供數(shù)個(gè)途徑來控制在接收器側(cè)的音頻演示。一般技術(shù)是通過場景說明語音如BIFS與LASeR來提供。這兩個(gè)技術(shù)均用于將視 聽組件從分離的編碼對象演示成錄放場景。BIFS在[5]中標(biāo)準(zhǔn)化,而LASeR在[6]中標(biāo)準(zhǔn)化。MPEG-D主要是處理(參數(shù)的)說明(如元數(shù)據(jù))·以產(chǎn)生基于已降混音頻表示法(MPEG環(huán)繞)的多聲道音頻;以及·以基于音頻對象(MPEG空間音頻對象編碼)產(chǎn)生MPEG環(huán)繞參數(shù)。MPEG環(huán)繞將在位準(zhǔn)、相位以及相干性上的聲道內(nèi)差異相當(dāng)于ILD、ITD與IC提示信號來運(yùn)用,以捕捉與所發(fā)送的降混信號有關(guān)的多聲道音頻信號的空間影像,以及以非常 緊密的型態(tài)來編碼這些提示信號,以使這些提示信號以及所發(fā)送的信號能夠被解碼,以合 成高質(zhì)量多聲道表示型態(tài)。MPEG環(huán)繞編碼器接收多聲道音頻信號,其中N為輸入聲道的數(shù) 目(如5.1)。編碼過程中的關(guān)鍵問題是,通常是立體聲(但也可為單聲道)的降混信號 xtl與xt2是從多聲道輸入信號中得出的,并且為了在此聲道上傳輸而被壓縮的,是此降混 信號,而不是多聲道信號。此編碼器可能可以運(yùn)用此降混程序來獲益,以使其在單聲道或 立體聲降混中形成多聲道信號的忠實(shí)等同,并也基于此降混與編碼空間提示信號形成有可 能達(dá)到的最好多聲道解碼。或者,可由外部支持降混。MPEG環(huán)繞編碼程序?qū)τ谟糜谒l(fā) 送聲道的壓縮算法是不可知的;其可為諸如MPEG-ILayer III、MPEG-4AAC或MPEG_4High EfficiencyAAC的多種高效能壓縮算法中的任何一種,或者其甚至可為PCM。MPEG環(huán)繞技術(shù)支持多聲道音頻信號的非常有效的參數(shù)編碼。MPEG SAOC的原理是 要針對獨(dú)立的音頻對象(軌)的非常有效參數(shù)編碼,將相似的基本假設(shè)配合相似的參數(shù)表 示型態(tài)一起應(yīng)用。此外,還包括一個(gè)演示功能,以針對再現(xiàn)系統(tǒng)的數(shù)種類型(對于揚(yáng)聲器來 說是1. 0,2. 0,5.0,...;或?qū)τ诙鷻C(jī)來說是雙聲道),交互地將此等音頻對象演示為聲音場 景。SAOC被設(shè)計(jì)為在聯(lián)合單聲道或立體聲降混信號中發(fā)送多個(gè)音頻對象,以稍后允許在交 互演示音頻場景中呈現(xiàn)此等獨(dú)立對象。為了這個(gè)目的,SAOC將對象位準(zhǔn)差異(OLD)、內(nèi)部 對象交互相干(IOC)以及降混聲道位準(zhǔn)差異(DCLD)編碼成參數(shù)字元流。SAOC解碼器將此 SAOC參數(shù)表示型態(tài)轉(zhuǎn)化成MPEG環(huán)繞參數(shù)表示型態(tài),其之后與降混信號一起被MPEG環(huán)繞解 碼器解碼,以產(chǎn)生期望的音頻場景。使用者交互地控制此程序,以在結(jié)果音頻場景中改變此 等音頻對象的表示型態(tài)。在SAOC的這么多種可以想象的應(yīng)用中,下文列出了幾種典型的情 況。消費(fèi)者可利用虛擬混音臺來創(chuàng)造個(gè)人互動混音。舉例來說,可針對獨(dú)自演奏(如 卡拉0K)而削弱某些樂器、可修改原始的混音以適合個(gè)人品味、可針對較好的語音清晰度 以調(diào)整電影/廣播中的對話位準(zhǔn)等等。對于交互式游戲來說,SAOC是再現(xiàn)音軌的存儲器以及具有高效率計(jì)算的方式。在 虛擬場景中四處移動是通過采用對象演示參數(shù)來反映的。網(wǎng)絡(luò)化的多播放器游戲自使用一 個(gè)SAOC流來表示在某個(gè)玩家端外部的所有聲音對象的傳輸效率而得益。在此種應(yīng)用的情況下,術(shù)語“音頻對象”也包含在聲音生產(chǎn)場景中已知的“主音”。 特別是,主音為混合中的獨(dú)立分量,其針對混音的數(shù)個(gè)使用目的來分開儲存(通常存儲至 碟片(disc))。相關(guān)的主音一般是從相同的原始位置反彈的。其實(shí)例可為鼓類主音(包括 在混合中的所有相關(guān)的鼓類樂器)、人聲主音(只包括人聲音軌)或是節(jié)奏主音(包括所有 與節(jié)奏相關(guān)的樂器,諸如鼓、吉他、鍵盤···)。目前的電信基礎(chǔ)結(jié)構(gòu)是單聲道的,且可在功能性上擴(kuò)充。配備有SAOC擴(kuò)充的端點(diǎn) 拾取數(shù)個(gè)音源(對象)并產(chǎn)生單聲道降混信號,其通過利用現(xiàn)存的(語音)編碼器以兼容 方式發(fā)送。可以一種嵌入的、反向兼容的方式來載運(yùn)邊信息。當(dāng)SAOC使能端能夠演示聽覺 場景時(shí),遺留下來的端點(diǎn)將繼續(xù)產(chǎn)生單聲道輸出,并通過在空間上分離不同的揚(yáng)聲器(“雞 尾酒會效應(yīng)”)而因此增進(jìn)清晰度。以下段落描述了實(shí)際可用的杜比音頻元數(shù)據(jù)應(yīng)用的概述午夜模式
如在第[]段所提過的,可能會有聆聽者也許并不想要高動態(tài)信號的情景。因此, 她或他可能會啟動她或他的接收器的所謂的“午夜模式”。因而,便將壓縮器應(yīng)用在全體音 頻信號上。為了要控制此壓縮器的參數(shù),估算所發(fā)送的元數(shù)據(jù),并應(yīng)用到全體音頻信號上。干凈咅頻(clean audio)另一種情景是聽力障礙者,他們并不想要擁有高動態(tài)環(huán)境噪聲,但他們想要擁有 十分干凈的含有對話的信號。(“干凈音頻”)。也可使用元數(shù)據(jù)來實(shí)現(xiàn)這個(gè)模式。目前所建議的解決方法限定在[15]-附件E中。在立體聲主信號與額外的單聲道 對話說明聲道間的平衡在這里是由獨(dú)立的位準(zhǔn)參數(shù)組來處理?;诜蛛x的語法的所建議的 解決方法在DVB中被稱為補(bǔ)充音頻服務(wù)。MM有一些分離的元數(shù)據(jù)參數(shù)支配L/R降混。某些元數(shù)據(jù)參數(shù)允許工程師選擇要如何 建構(gòu)立體聲降混,以及何種模擬信號較佳。于此,中央與環(huán)繞降混位準(zhǔn)界定針對每一個(gè)解碼 器的降混信號的最終混合平衡。圖1示出用于產(chǎn)生根據(jù)本發(fā)明的優(yōu)選實(shí)施例的代表至少兩個(gè)不同的音頻對象的 疊加的至少一個(gè)音頻輸出信號的裝置。圖1的裝置包含用于處理音頻輸入信號11以提供 此音頻輸入信號的對象表示12的處理器10,其中至少兩個(gè)不同的音頻對象彼此分離,其中 至少兩個(gè)不同的音頻對象可作為分離的音頻對象信號,并且其中至少兩個(gè)不同的音頻對象 可彼此獨(dú)立地受操作。對象表示的操作是在音頻對象操作器13中執(zhí)行,以操作此音頻對象信號,或是操 作基于音頻對象的元數(shù)據(jù)14的至少一個(gè)音頻對象的音頻對象信號的混合表示,其中基于 音頻對象的元數(shù)據(jù)14關(guān)聯(lián)此至少一個(gè)音頻對象。對象操作器13適于獲得針對此至少一個(gè) 音頻對象的受操作音頻對象信號,或是受操作混合音頻對象信號15。由對象操作器所產(chǎn)生的信號被輸入至對象混合器16中,以通過將受操作音頻對 象與未經(jīng)修改的音頻對象或是不同的受操作音頻對象組合,而混合對象表示,其中此不同 的受操作音頻對象已經(jīng)作為至少一個(gè)音頻對象以不同的方式操作。此對象混合器的結(jié)果包 含一個(gè)以上音頻輸出信號17a、17b、17c。優(yōu)選,此一個(gè)以上輸出信號17a到17c優(yōu)選為針對 特定演示設(shè)定而設(shè)計(jì)的,諸如單聲道演示設(shè)定、立體聲演示設(shè)定、例如需要至少五個(gè)或至少 七個(gè)不同的音頻輸出信號的環(huán)繞設(shè)定的包含三個(gè)或更多個(gè)聲道的多聲道演示設(shè)定。圖2示出用于處理音頻輸入信號的處理器10的一個(gè)優(yōu)選實(shí)施方式。音頻輸入信 號11優(yōu)選作為對象降混11來實(shí)施,如圖fe中的對象降混器IOla所獲得的,圖fe將于稍 后進(jìn)行說明。在這樣的情況下,處理器額外地接收對象參數(shù)18,如同例如稍后所說明的圖 中fe的對象參數(shù)計(jì)算器IOla所產(chǎn)生的。之后,處理器10便就位計(jì)算分離的對象表示12。 對象表示12的數(shù)目可高于對象降混11中的聲道數(shù)。對象降混11可包括單聲道降混、立體 聲降混、或甚至是具有多于兩個(gè)聲道的降混。然而,處理器12可操作用于產(chǎn)生比在對象降 混11中單獨(dú)的信號數(shù)更多的對象表示12。由于由處理器10所執(zhí)行的參數(shù)化處理,這些音 頻對象信號并非原始的音頻對象的真實(shí)再現(xiàn),其在執(zhí)行對象降混11之前呈現(xiàn),但是這些音 頻對象信號是原始音頻對象的近似版,其中近似的精確度取決于在處理器10中所執(zhí)行的 分離算法的類型,以及當(dāng)然發(fā)送參數(shù)的精確度。優(yōu)選的對象參數(shù)為由空間音頻對象編碼而 知的,而優(yōu)選的用于產(chǎn)生單獨(dú)分離的音頻對象信號的重建算法為根據(jù)此空間音頻對象編碼
12標(biāo)準(zhǔn)而實(shí)施的重建算法。處理器10以及對象參數(shù)的優(yōu)選實(shí)施例隨后在圖6到圖9的內(nèi)容 中介紹。圖3a與北共同示出對象操作在對象降混之前對重建設(shè)定執(zhí)行的一個(gè)實(shí)施方式, 而圖4示出對象降混是在操作之前,且操作是在最終對象混合操作之前的更進(jìn)一步的實(shí)施 方式。此程序在圖3a、3b的結(jié)果與圖4相比是一樣的,但是在處理架構(gòu)上,對象操作是在不 同的位準(zhǔn)上執(zhí)行的。雖然音頻對象信號的操作在效率與運(yùn)算資源的背景上是一個(gè)議題,但 圖3a/;3b之實(shí)施例是優(yōu)選的,因?yàn)橐纛l對象操作必須只能在單一音頻信號上執(zhí)行,而非如 圖4之多個(gè)音頻信號。在一個(gè)不同的實(shí)施方式中,可能會有對象降混必須使用未經(jīng)修改的 對象信號這樣的需求,在這樣的實(shí)施方式中,圖4的配置便為優(yōu)選的,在圖4中,操作是接著 對象降混,但在最終對象混合之前執(zhí)行,以幫助例如左聲道L、中央聲道C或右聲道R獲得輸 出信號。圖3a示出圖2的處理器10輸出分離的音頻對象信號的情況。諸如給對象1的信 號的至少一個(gè)音頻對象信號基于針對此對象1的元數(shù)據(jù),而在對象操作器13a中受操作。取 決于實(shí)施方式,諸如對象2的其它對象也由對象操作器1 來操作。當(dāng)然,這樣的情況也會 發(fā)生,也就是實(shí)際上存在著諸如對象3的對象,對象3并未被操作,然而卻由對象分離而產(chǎn) 生。在圖3a的實(shí)例中,圖3a的操作結(jié)果是兩個(gè)受操作對象信號以及一個(gè)非受操作信號。這些結(jié)果被輸入到對象混合器16,其包括以對象降混器19a、19b與19c來實(shí)施的 第一混合器階,并且其進(jìn)一步包括以設(shè)備16a、1 與16c來實(shí)施的第二對象混合器階。對象混合器16的第一階包括,針對圖3a的各個(gè)輸出的對象降混器,諸如針對圖3a 的輸出1的對象降混器19a、針對圖3a的輸出2的對象降混器19b、針對圖3a的輸出3的 對象降混器19c。對象降混器19a到19c的目的是將各個(gè)對象“分配”到輸出聲道。因此, 各個(gè)對象降混器19a、19b、19c具有針對左分量信號L、中分量信號C以及右分量信號R的 輸出。因此,例如若對象1為單一對象時(shí),降混器19a便為直行降混器,且方框19a之輸出 便與在17a、17b、17c所指出的最終輸出L、C、R相同。對象降混器19a到19c優(yōu)選為接收 在30所指出的演示信息,其中此演示信息可能會說明演示設(shè)定,亦即,如在第3e圖的實(shí)施 例中,只存在著三個(gè)輸出揚(yáng)聲器。這些輸出為左揚(yáng)聲器L、中揚(yáng)聲器C以及右揚(yáng)聲器R。例 如演示設(shè)定或再現(xiàn)設(shè)定包含5. 1架構(gòu),那么各個(gè)對象降混器便具有六個(gè)輸出聲道,并且會 存在六個(gè)加法器,以使得能夠獲得針對左聲道的最終輸出信號、針對右聲道的最終輸出信 號、針對中央聲道的最終輸出信號、針對左環(huán)繞聲道的最終輸出信號、針對右環(huán)繞聲道的最 終輸出信號以及針對低頻增強(qiáng)(重低音揚(yáng)聲器)聲道的最終輸出信號。具體地,加法器16a、16b、16c適于針對個(gè)別的聲道而將這些分量信號組合, 其是由對應(yīng)的對象降混器所產(chǎn)生的。這樣的組合優(yōu)選為通過樣本加成的直行樣本 (straight-forwardsample),但取決于實(shí)施方式,也可以應(yīng)用加權(quán)因子。此外,在第3a、!3b 圖中的功能也可在頻域或次頻域中執(zhí)行,以使組件19a至19c可在此頻域中操作,并且在再 現(xiàn)設(shè)定中,在實(shí)際將這些信號輸出到揚(yáng)聲器之前,會有某些種類的頻率/時(shí)間轉(zhuǎn)化。圖4示出一個(gè)替代實(shí)施方式,其中組件19a、19b、19c、16a、16b、16c的功能與圖北 的實(shí)施例相似。然而,重要的是,在圖3a中所發(fā)生的先于對象降混19a的操作,現(xiàn)在是在 對象操作19a之后發(fā)生。因此,針對個(gè)別對象的由元數(shù)據(jù)所控制的特定對象操作是在降混 域中完成,即,在之后被操作的分量信號的實(shí)際加成之前。當(dāng)將圖4與圖1比較時(shí),如19a、19b、19c的對象降混器將在處理器10中實(shí)施這點(diǎn)就變的清楚了,并且對象混合器16將會包 含加法器16a、16b、16c。當(dāng)實(shí)施圖4,且所述對象降混器為處理器的一部分時(shí),那么除了第 1圖之對象參數(shù)18之外,處理器亦將會接收演示信息30,S卩,在各個(gè)音頻對象位置上的信息 以及在演示設(shè)定上的信息與額外信息,視情況而定。此外,操作可包括由方框19a、16b、16c所實(shí)施的降混操作。在此實(shí)施例中,操作器 包括這些方框,且可發(fā)生額外操作,但這并非在所有情況中都需要。圖如示出一個(gè)編碼器側(cè)的實(shí)施例,其可產(chǎn)生如概略在第恥圖中示出的數(shù)據(jù)流。 具體地,圖如示出用于產(chǎn)生已編碼音頻信號50的裝置,其代表至少兩個(gè)不同音頻對象的疊 加。基本上,圖fe的裝置示出用于格式化數(shù)據(jù)流50的數(shù)據(jù)流格式化器51,以使此數(shù)據(jù)流包 含對象降混信號52,其代表諸如所述至少兩個(gè)音頻對象的加權(quán)的或未加權(quán)的組合的一個(gè)組 合。此外,數(shù)據(jù)流50包含,作為邊信息的關(guān)聯(lián)所述不同音頻對象中的至少一個(gè)對象相關(guān)元 數(shù)據(jù)53。數(shù)據(jù)流優(yōu)選為進(jìn)一步包含參數(shù)數(shù)據(jù)M,其具有時(shí)間與頻率選擇性,并允許將此對 象降混信號分離成數(shù)個(gè)音頻對象的高質(zhì)量分離,其中此操作也被稱為個(gè)對象上混操作,其 由在圖1中所示處理器10所執(zhí)行,如先前所討論。對象降混信號52優(yōu)選是由對象降混器IOla所產(chǎn)生的。參數(shù)數(shù)據(jù)M優(yōu)選是由對 象參數(shù)計(jì)算器IOla所產(chǎn)生的,并且對象選擇性元數(shù)據(jù)53是由對象選擇性元數(shù)據(jù)提供器55 所產(chǎn)生的。此對象選擇性元數(shù)據(jù)提供器可為用于接收如由音樂制作者在錄音室中所產(chǎn)生 的元數(shù)據(jù)的輸入端,或可為用于接收如由對象與相關(guān)的分析所產(chǎn)生的數(shù)據(jù),其可在對象分 離之后發(fā)生。具體地,可將此對象選擇性元數(shù)據(jù)提供器實(shí)施為通過處理器10來分析對象的 輸出,以例如查明對象是否為語音對象、聲音對象或是環(huán)境聲音對象。因此,可通過一些從 語音編碼而得知的著名的語音檢測算法來分析語音對象,且可將對象選擇性分析實(shí)施成也 查明起源于樂器的聲音對象。此種聲音對象具有高音調(diào)的本質(zhì),并可因此與語音對象或環(huán) 境聲音對象區(qū)別。環(huán)境聲音對象會具有相當(dāng)吵雜的本質(zhì),其反映出典型上存在于例如戲劇 電影中的背景聲音,例如其中的背景噪聲可能為交通的聲音或是任何其它靜態(tài)的吵雜的信 號,或是具有寬帶聲譜的非靜態(tài)的信號,諸如在例如戲劇中發(fā)生槍擊場景時(shí)所產(chǎn)生的。基于此分析,人們可放大聲音對象并減弱其它對象,以強(qiáng)調(diào)此語音,因?yàn)檫@對于針 對聽力障礙者或年邁者在電影的較佳理解上是很有用處的。如先前所述,其它實(shí)施方式包 括提供諸如對象識別符的對象特定元數(shù)據(jù)以及由于在CD或DVD上產(chǎn)生實(shí)際對象降混信號 的音響師的對象相關(guān)數(shù)據(jù),諸如立體聲降混或是環(huán)境聲音降混。圖5d示出一個(gè)示例性的數(shù)據(jù)流50,其具有作為主要信息的單聲道、立體聲或多聲 道對象降混,并且其具有作為邊信息的對象參數(shù)M與基于對象的元數(shù)據(jù)53,其在只將對象 辨識為語音或環(huán)境的情況中是靜態(tài)的,或者其在將位準(zhǔn)數(shù)據(jù)提供為基于對象的元數(shù)據(jù)的情 況中為時(shí)變的,如在午夜模式中所需要的。然而,優(yōu)選為不在頻率選擇性方式中提供基于對 象的元數(shù)據(jù),以節(jié)省數(shù)據(jù)率。圖6示出音頻對象映射的一個(gè)實(shí)施例,其示出數(shù)目為N的對象。在圖6的示例性 解釋中,各個(gè)對象均具有對象ID、對應(yīng)對象音頻文件,以及很重要的對象參數(shù)信息,其優(yōu)選 為與此音頻對象的能量相關(guān)的信息以及與此音頻對象的對象內(nèi)相關(guān)性相關(guān)的信息。此音頻 對象參數(shù)信息包括針對各個(gè)子頻帶與各個(gè)時(shí)間塊的對象共變矩陣E。針對此種對象音頻參數(shù)數(shù)據(jù)矩陣E的一個(gè)實(shí)例示于圖7中。對角線元素eii包括
14第i個(gè)音頻對象在對應(yīng)的子頻帶以及對應(yīng)時(shí)間塊中的功率或能量信息。為此,表示某個(gè)第i 個(gè)音頻對象的子頻帶信號被輸入功率或能量計(jì)算器,其可例如執(zhí)行自動相關(guān)性函數(shù)(acf), 以獲得帶有或不帶有某些標(biāo)準(zhǔn)化的值%?;蛘呤牵蓪⒛芰坑?jì)算成此信號在某段長度上的 平方之和(即矢量積ss*)。acf在某種意義上可說明此能量的光譜分布,但由于無論如何, 因?yàn)樽詈檬褂冕槍︻l率選擇的T/F轉(zhuǎn)換這樣的事實(shí),能量計(jì)算可在無acf下針對各個(gè)子頻 帶分離執(zhí)行。因此,對象音頻參數(shù)矩陣E的主要對角元素顯示針對音頻對象在某個(gè)子頻帶 以及某個(gè)時(shí)間塊中的能量的功率的一個(gè)量度。另一方面,非對角元素^彳顯示音頻對象i,j在對應(yīng)的子頻帶與時(shí)間塊之間的個(gè)別 的相關(guān)性量度。從圖7可清楚看出,矩陣E-針對實(shí)數(shù)值項(xiàng)目-為沿對角線對稱的。通常此 矩陣為厄米特矩陣(Hermitian matrix) 0相關(guān)性量度元素可通過例如個(gè)別的音頻對象 的這兩個(gè)子頻帶信號的交互相關(guān)性來計(jì)算,以獲得可能是或可能不是規(guī)格化的交互相關(guān)性 量度??墒褂闷渌嚓P(guān)性量度,其并非利用交互相關(guān)性操作而計(jì)算的,而是通過判定在兩個(gè) 信號間的相關(guān)性的其它方法而計(jì)算的。出于實(shí)際原因,矩陣E的所有元素均被規(guī)格化,以使 其具有介于0與1之間的量值,其中1顯示最大功率或最大相關(guān)性,而0顯示最小功率(零 功率),且-1顯示最小相關(guān)性(反相)。具有大小為KXN,其中K > 1,的降混矩陣D以具有K個(gè)列的矩陣形式,透過矩陣 操作判定K聲道降混信號。X = DS(2)圖8示出具有降混矩陣元素的降混矩陣D的一個(gè)實(shí)例。這樣的元素顯示對 象i降混信號是否包括部分或全部的對象j。例如,當(dāng)其中的d12等于零,意思是對象1降 混信號不包括對象2。另一方面,當(dāng)d23的值等于1,顯示對象3完全地包括在對象2降混信 號中。介于0與1之間的降混矩陣元素的值為有可能的。具體地,0. 5的值顯示某個(gè)對象 被包括在降混信號中,但只有其一半的能量。因此,當(dāng)諸如對象4的音頻對象被均等分布到 兩個(gè)降混信號聲道中時(shí),與知便會等于0.5。這種降混方法是一種保持能量的降混操 作,其在某些情況中是優(yōu)選的。然而,可選擇地,也可使用非保持能量的降混,其中整個(gè)音頻 對象均被導(dǎo)入左降混聲道以及右降混聲道,以使此音頻對象的能量對于在此降混信號中之 其它音頻對象而言是加倍的。在圖8的較下面的部分中,給出圖1的對象編碼器101的一個(gè)概圖。具體地,對象 編碼器101包括兩個(gè)不同的IOla與IOlb部分。IOla部分為降混器,其優(yōu)選為執(zhí)行音頻對 象1、2、. . . N的加權(quán)線性組合,并且對象編碼器101的第二個(gè)部分為音頻對象參數(shù)計(jì)算器 101b,其針對各個(gè)時(shí)間塊或子頻帶,計(jì)算諸如矩陣E的音頻對象參數(shù)信息,以提供音頻能量 與相關(guān)性信息,其為參數(shù)性信息,并且因此能夠以一個(gè)低比特率來發(fā)送,或是能夠消耗少量 內(nèi)存資源而儲存。具有大小MXN的使用者控制對象演示矩陣A以具有M個(gè)列的矩陣形式透過矩陣 操作判定所述音頻對象的M信道目標(biāo)演示。Y = AS(3)因?yàn)槟繕?biāo)是放在立體聲演示上,因此在接下來的推導(dǎo)中,將假設(shè)M= 2。對多于兩 個(gè)聲道給定一個(gè)啟始演示矩陣,以及將從這數(shù)個(gè)信道通向兩個(gè)信道的一個(gè)降混規(guī)則,對于本領(lǐng)域普通技術(shù)人員而言,可以很明顯地推導(dǎo)出對應(yīng)的具有大小為2XN的針對立體聲演 示的演示矩陣A。還將為了簡化而假設(shè)K = 2,以使物件降混也為立體聲信號。從應(yīng)用場合 的方面來說,立體聲對象降混的案例更為最重要的特殊案例。圖9示出目標(biāo)演示矩陣A的詳細(xì)解釋。取決于應(yīng)用,目標(biāo)演示矩陣A可由使用者 提供。使用者具有完全的自由來指示音頻對象應(yīng)該針對一個(gè)回放設(shè)定以虛擬的方式位在何 處。此音頻對象的強(qiáng)度概念是,降混信息以及音頻對象參數(shù)信息在所述音頻對象的一個(gè)特 定的局部化(localization)上是完全獨(dú)立的。音頻對象的這樣的局部化是由使用者以目 標(biāo)演示信息的形式提供的。目標(biāo)演示信息可優(yōu)選地由一個(gè)目標(biāo)演示矩陣A來實(shí)施,其可為 在圖9中的形式。具體地,演示矩陣A具有m列與N行,其中M等于所演示輸出信號中之聲 道數(shù),而其中N等于音頻對象的數(shù)目。M相當(dāng)于優(yōu)選立體聲演示場景中的2,但若執(zhí)行M聲 道演示,那么矩陣A便具有M行。具體地,矩陣元素顯示部分或全部的第j個(gè)對象是否要在第i個(gè)特定輸出聲道 中被演示。圖9的較下面的部分針對場景的目標(biāo)演示矩陣給出簡單實(shí)例,其中有六個(gè)音頻 對象AOl到A06,其中只有前五個(gè)音頻對象應(yīng)該要在特定位置被演示,并且第六個(gè)音頻對象 應(yīng)該完全不被演示。關(guān)于音頻對象A01,使用者希望這個(gè)音頻對象在回放場景中在左邊被演示。因此, 此對象被放在(虛擬)回放房間中的左揚(yáng)聲器的位置,這導(dǎo)致演示矩陣A中的第一列為 (10)。至于第二個(gè)音頻對象,a22為1,而a12為0,這表示第二個(gè)音頻對象要在右邊被演示。第3個(gè)音頻對象要在左揚(yáng)聲器與右揚(yáng)聲器的中間被演示,以使此音頻對象的位準(zhǔn) 或信號的50%進(jìn)入左聲道,而50%的位準(zhǔn)或信號進(jìn)入右聲道,以使對應(yīng)的目標(biāo)演示矩陣A 的第三列為(0.5長度0.5)。類似地,可通過目標(biāo)演示矩陣來顯示在左揚(yáng)聲器與右揚(yáng)聲器間的任何安排。至于 第4個(gè)音頻對象,其右邊的安排較多,因?yàn)榫仃囋谽l24大于%4。類似地,如由目標(biāo)演示矩 陣元素 5與 5所顯示的,第五個(gè)音頻對象A05在左揚(yáng)聲器被演示較多。目標(biāo)演示矩陣A 另外還允許完全不演示某個(gè)音頻對象。此由目標(biāo)演示矩陣A的具有零元素的第六列來示例 性地示出。接下來,參考圖10來概述本發(fā)明的一個(gè)優(yōu)選實(shí)施例。優(yōu)選地,從SAOC(空間音頻對象編碼)而知的方法將一個(gè)音頻對象拆成不同的部 分。這些部分可例如為不同的音頻對象,但其可并不受限于此。若元數(shù)據(jù)針對此音頻對象的單一部分而發(fā)送,則其允許只調(diào)整一些信號分量,而 其它部分將維持不變,或甚至可以不同的元數(shù)據(jù)來修改。此可針對不同的聲音對象來完成,但亦針對單獨(dú)的空間范圍。針對對象分離的參數(shù)為針對每一個(gè)單獨(dú)的音頻對象的典型的,或甚至是新的元數(shù) 據(jù)(增益、壓縮、位準(zhǔn)、···)。這些數(shù)據(jù)可優(yōu)選地被發(fā)送。解碼器處理箱是以兩個(gè)不同的階段來實(shí)施的在第一階段,對象分離參數(shù)被用來 產(chǎn)生(10)單獨(dú)的音頻對象。在第二階段中,處理單元13具有多種情況,其中各個(gè)情況針對 獨(dú)立的對象。此處,應(yīng)該要應(yīng)用對象特定元數(shù)據(jù)。在解碼器的末端,所有的獨(dú)立對象都再次 被組合(16)成單一音頻信號。此外,干/濕控制器20可允許在原始與受操作信號間的平 順淡化,以給予終端用戶簡單找出她或她的優(yōu)選設(shè)定的可能性。
取決于特定實(shí)施方式,圖10示出兩個(gè)方面。在一個(gè)基本方面中,對象相關(guān)元數(shù)據(jù) 只顯示針對特定對象的對象說明。優(yōu)選地,此對象說明與對象ID有關(guān),如在圖10中的21 所顯示的。因此,針對上方的由設(shè)備13a所操作的基于對象的元數(shù)據(jù)僅是此對象為“語音 (speech)”對象的數(shù)據(jù)。針對由項(xiàng)目1 所處理的另一個(gè)基于對象的元數(shù)據(jù)具有此第二個(gè) 對象為環(huán)境對象的信息。針對這兩個(gè)對象的基本對象相關(guān)元數(shù)據(jù)可能便足夠?qū)嵤┰鰪?qiáng)的干凈音頻模式,其 中語音對象被放大,而環(huán)境對象被削弱,或是,一般來說,語音對象相對于環(huán)境對象而被放 大,或是環(huán)境對象相對于語音對象而被削弱。然而,使用者可優(yōu)選地在接收器/解碼器側(cè)實(shí) 施不同的處理模式,其可經(jīng)由模式控制輸入端來規(guī)劃。這些不同的模式可為對話位準(zhǔn)模式、 壓縮模式、降混模式、增強(qiáng)午夜模式、增強(qiáng)干凈音頻模式、動態(tài)降混模式、導(dǎo)引式上混模式、 針對對象重置的模式等等。取決于實(shí)施方式,除指出諸如語音或環(huán)境的對象之特征類型的基本信息以外,不 同的模式還需要不同的基于對象的元數(shù)據(jù)。在音頻信號的動態(tài)范圍必須要被壓縮的午夜模 式中,優(yōu)選地,針對諸如語音對象與環(huán)境對象的各個(gè)對象,將針對此午夜模式的實(shí)際位準(zhǔn)或 目標(biāo)位準(zhǔn)之一提供為元數(shù)據(jù)。當(dāng)此對象的實(shí)際位準(zhǔn)被提供時(shí),接收器便必須針對此午夜模 式計(jì)算目標(biāo)位準(zhǔn)。然而,當(dāng)給予目標(biāo)相對位準(zhǔn)時(shí),便減少解碼器/接收器側(cè)處理。在這個(gè)實(shí)施方式中,各個(gè)對象均具有位準(zhǔn)信息的時(shí)變基于對象的序列,其由接收 器來使用,以壓縮動態(tài)范圍,以便減少在信號對象中的位準(zhǔn)差異。這自動地導(dǎo)致一個(gè)最終音 頻信號,其中位準(zhǔn)差異不時(shí)地如午夜模式實(shí)施方式所需要地減少。針對干凈音頻應(yīng)用,也可 提供針對此語音對象的目標(biāo)位準(zhǔn)。那么,環(huán)境對象便可被設(shè)為零或幾乎為零,以在由某個(gè)揚(yáng) 聲器設(shè)定所產(chǎn)生的聲音中大大地加強(qiáng)語音對象。在與午夜模式相反的高保真度應(yīng)用中,可 甚至增強(qiáng)此對象的動態(tài)范圍或在此等對象間的差異之動態(tài)范圍。在這個(gè)實(shí)施方式中,會較 希望提供目標(biāo)對象增益位準(zhǔn),因?yàn)檫@些目標(biāo)位準(zhǔn)保證,在最后,獲得由藝術(shù)音響師在錄音室 中所創(chuàng)造的聲音,以及因此具有與自動設(shè)定或使用者定義設(shè)定相比之下的最高質(zhì)量。在其它基于對象的元數(shù)據(jù)與高級降混相關(guān)的實(shí)施方式中,對象操作包括與特定演 示設(shè)定不同的降混。之后,此基于對象的元數(shù)據(jù)便被導(dǎo)入在圖北或圖4中的對象降混器方 框19a到19c。在這個(gè)實(shí)施方式中,當(dāng)降混取決于演示設(shè)置而執(zhí)行單獨(dú)的對象的時(shí)候,操作 器可包括方框19a至19c。具體地,對象降混方框19a至19c可被設(shè)定成彼此不同。在這樣 的情況中,取決于聲道組配,語音對象可僅被導(dǎo)入中央聲道,而非左聲道或右聲道。然后,降 混器方框19a至19c可具有不同數(shù)量的分量信號輸出。也可動態(tài)地實(shí)施降混。此外,還可提供導(dǎo)引式上混信息與用以復(fù)位對象位置的信息。接下來,對提供元數(shù)據(jù)與對象特定元數(shù)據(jù)的一個(gè)優(yōu)選方式進(jìn)行簡要說明。音頻對象可并不如在典型SOAC應(yīng)用中一樣完美地分離。針對音頻操作,具有對象 “屏蔽”可能便已足夠,而非完全分離。這可導(dǎo)致用于分離的較少的/較粗略的參數(shù)。對于稱為“午夜模式”的應(yīng)用,音響師需要獨(dú)立地針對各個(gè)對象界定所有的元數(shù)據(jù) 參數(shù),例如在固定的對話音量中產(chǎn)生,而非受操作的環(huán)境噪聲(“增強(qiáng)型午夜模式”)。這對于戴著助聽器的人門來說也可為有益的(“增強(qiáng)型干凈音頻”)。新的降混架構(gòu)可針對各個(gè)特定降混情況來不同地對待不同的分離的對象。例如,5. 1聲道信號必須針對立體聲家庭電視系統(tǒng)而降混,而另一個(gè)接收器甚至只具有單聲道錄 放系統(tǒng)。因此,可用不同方式對待不同對象(并且由于由音響師所提供的元數(shù)據(jù),這些都是 由音響師在制造過程中所控制的)。類似地,降混到3. 0等等也是優(yōu)選的。所產(chǎn)生的降混將不會是由固定的全球參數(shù)(組)來界定,但其可由與時(shí)變對象相 關(guān)的參數(shù)來產(chǎn)生。采用新的基于對象的元數(shù)據(jù),執(zhí)行導(dǎo)引式上混也是有可能的。可將對象放置于不同的位置,例如以在環(huán)境被削弱時(shí)使空間影像更寬廣。這將有 助于聽障者的語音辨識度。在這份文件中所提議的方法延伸了現(xiàn)存的由杜比編碼解碼器所實(shí)施,并且主要是 由杜比編碼解碼器所使用的元數(shù)據(jù)概念?,F(xiàn)在,不只將已知元數(shù)據(jù)概念應(yīng)用在完整的音頻 流上,還應(yīng)用在在此流中的提取對象是有可能的。這給予音響師以及藝術(shù)家更多靈活性、較 大的調(diào)整范圍,以及由此,更佳的音頻質(zhì)量與給予聆聽者較多歡樂。圖12a、12b示出此創(chuàng)新概念的不同的應(yīng)用場景。在一個(gè)典型的場景中,存在著電 視上的運(yùn)動,其中人們具有在5. 1聲道中的體育場氛圍,并且揚(yáng)聲器聲道映射到中央聲道。 這樣的「映射」可由將揚(yáng)聲器聲道直接加到針對傳播此體育場氛圍的5. 1聲道的中央聲道 來執(zhí)行。現(xiàn)在,這個(gè)創(chuàng)新的方法允許具有在體育場氛圍聲音說明中的此種中央聲道。然后, 加成操作將來自于體育場氛圍的中央聲道與揚(yáng)聲器混合。通過產(chǎn)生針對此揚(yáng)聲器與來自于 體育場氛圍的中央聲道對象參數(shù),本發(fā)明允許在解碼器側(cè)分離這兩個(gè)聲音對象,并且允許 增強(qiáng)或削弱揚(yáng)聲器或來自于體育場氛圍的中央聲道。更進(jìn)一步的架構(gòu)是,當(dāng)人們擁有兩個(gè) 揚(yáng)聲器時(shí)。這樣的情況可能會在當(dāng)兩個(gè)人正對同一個(gè)足球賽作評論的時(shí)候發(fā)生。具體地, 當(dāng)存在著兩個(gè)同時(shí)放送的揚(yáng)聲器時(shí),使這兩個(gè)揚(yáng)聲器成為分離對象可為有用處的,并且此 外,使這兩個(gè)揚(yáng)聲器與體育場氛圍聲道分離。在這樣的應(yīng)用中,當(dāng)?shù)皖l增強(qiáng)聲道(重低音聲 道)被忽略時(shí),此5. 1聲道以及這兩個(gè)揚(yáng)聲器聲道可被處理成八個(gè)不同的音頻對象或是七 個(gè)不同的音頻對象。因?yàn)榇酥毙蟹植蓟驹O(shè)定適于5. 1聲道聲音信號,所以這七個(gè)(或八 個(gè))對象可被降混至5. 1聲道降混信號,并且除了此5. 1降混聲帶以外,還可提供所述對象 參數(shù),以使在接收側(cè),可再次分離這些對象,并且由于基于對象的元數(shù)據(jù)將會從體育場氛圍 對象中識別出揚(yáng)聲器對象這樣的事實(shí),所以在由此對象混合器所做的最終5. 1聲道降混在 接收側(cè)發(fā)生之前,對象特定處理是有可能的。在這個(gè)架構(gòu)中,人們還可擁有包含第一揚(yáng)聲器的第一對象,以及包含第二揚(yáng)聲器 的第二對象,以及包含完整的體育場氛圍的第三對象。接下來,將在圖Ila到Ilc的內(nèi)容中討論不同的基于對象的降混架構(gòu)的實(shí)施。當(dāng)例如由圖1 或12b的架構(gòu)所產(chǎn)生的聲音必須在傳統(tǒng)的5. 1錄放系統(tǒng)中回放 時(shí),便可忽視嵌入的元數(shù)據(jù)流,且所接收的流可如其播放。然而,當(dāng)錄放必須在立體聲揚(yáng)聲 器設(shè)定上發(fā)生時(shí),必須發(fā)生從5. 1到立體聲的降混。若只將環(huán)境聲道加到左邊/右邊時(shí),那 么仲裁器可能會處在太小的位準(zhǔn)上。因此,較好是在仲裁器對象被(重新)加上之前,在降 混之前或之后減少氣氛位準(zhǔn)。當(dāng)仍然兼具有兩個(gè)揚(yáng)聲器分離在左邊/右邊時(shí),聽障者可能會想要減少氛圍位 準(zhǔn),以擁有較佳的語音辨識度,也就是所謂的“雞尾酒會效應(yīng)”,當(dāng)一個(gè)人聽見她或她的名字時(shí),便會集中注意力至她或他聽見她或他的名字的方向。從心理聲學(xué)的觀點(diǎn)來看,這種特定 方向集中會削弱從相異方向來的聲音。因此,一個(gè)特定對象的鮮明位置,諸如在左邊或右邊 的揚(yáng)聲器或是兼在左邊或右邊以使揚(yáng)聲器出現(xiàn)在左邊或右邊的中間的揚(yáng)聲器,可能會增進(jìn) 辨識度。為此目的,輸入音頻流優(yōu)選為被劃分為分離的對象,其中這些對象必須具有在元數(shù) 據(jù)中的說明一個(gè)對象重要或較不重要的排名。然后,在他們之中的位準(zhǔn)差異便可根據(jù)元數(shù) 據(jù)來調(diào)整,或是可重新安置對象位置,以根據(jù)元數(shù)據(jù)來增進(jìn)辨識度。為了要達(dá)到這個(gè)目標(biāo),并不把元數(shù)據(jù)應(yīng)用在所發(fā)送的信號上,而是視情況而在對 象降混之前或之后,將元數(shù)據(jù)應(yīng)用在單一的分離音頻對象上?,F(xiàn)在,本發(fā)明再也不要求對象 必須要限制于空間聲道,以使這些聲道可被單獨(dú)地操作。相反地,這個(gè)創(chuàng)新的基于對象的元 數(shù)據(jù)概念并不要求在一個(gè)特定聲道中具有特定的對象,但對象可被降混至數(shù)個(gè)聲道,并可 仍為單獨(dú)受操作的。圖Ila示出一個(gè)優(yōu)選實(shí)施例的更進(jìn)一步的實(shí)施方式。對象降混器16從kXn的輸 入聲道中產(chǎn)生m個(gè)輸出聲道,其中k為對象數(shù),且每一個(gè)對象產(chǎn)生η個(gè)信道。圖Ila對應(yīng)于 圖3a、3b的架構(gòu),其中操作13a、13b、13c發(fā)生在對象降混之前。圖Ila進(jìn)一步包含位準(zhǔn)操作器19d、19e、19f,其可在無元數(shù)據(jù)控制下實(shí)施。然而, 或者是,這些操作器亦可由基于對象的元數(shù)據(jù)來控制,以使由19d至19f的方框所實(shí)施的位 準(zhǔn)修改也為圖1的對象操作器13的一部分。類似地,當(dāng)這些降混操作系由基于對象的元數(shù) 據(jù)所控制時(shí),此在降混操作19a至19b至19c上也為真。然而,這個(gè)情況并未在圖Ila中示 出,但當(dāng)此基于對象的元數(shù)據(jù)也被遞送給降混方框19a至19c時(shí),其亦可實(shí)施。在后者的情 況中,這些方框也為第圖Ila的對象操作器13的一部分,并且對象混合器16的剩余功能是 由針對對應(yīng)的輸出聲道的受操作對象分量信號的輸出聲道式的組合來實(shí)施的。圖Ila進(jìn)一 步包含一個(gè)對話規(guī)格化功能25,其可以傳統(tǒng)元數(shù)據(jù)來實(shí)施,因?yàn)榇藢υ捯?guī)格化并不在對象 域中發(fā)生,而是在輸出聲道域。圖lib示出基于對象的5. 1立體聲降混的一個(gè)實(shí)施方式。其中,降混是在操作之前 執(zhí)行的,并且因此,圖lib對應(yīng)于圖4的架構(gòu)。位準(zhǔn)修改13a、1 是通過基于對象的元數(shù)據(jù) 來執(zhí)行的,其中,例如,上方的分支對應(yīng)于語音對象,而下方的分支對應(yīng)于環(huán)境對象,或,例 如在圖12a、12b中,上方的分支對應(yīng)于一個(gè)揚(yáng)聲器或兼對應(yīng)于兩個(gè)揚(yáng)聲器,而下方的分支 對應(yīng)于所有的環(huán)境信息。那么,位準(zhǔn)操作方框13a、i:3b可兼操作基于被固定設(shè)置的參數(shù)的 這兩個(gè)對象,以使基于對象的元數(shù)據(jù)將僅為所述對象的識別符,但位準(zhǔn)操作器13a、1 可 也操作基于由元數(shù)據(jù)14所提供的目標(biāo)位準(zhǔn),或基于由元數(shù)據(jù)14所提供的實(shí)際位準(zhǔn)的位準(zhǔn)。 因此,為了要針對多聲道輸入而產(chǎn)生立體聲降混,應(yīng)用針對各個(gè)對象的降混公式,并且在將 對象再次混合到輸出信號之前,將這些對象通過給定位準(zhǔn)來加權(quán)。針對如在圖Ilc中所示出的干凈音頻應(yīng)用,重要位準(zhǔn)被發(fā)送為元數(shù)據(jù),以啟動較 不重要的信號成分的減少。然后,另一個(gè)分支將對應(yīng)于所述重要性分量,其在較低分支可能 會對應(yīng)于可被削弱的較不重要分量時(shí)被放大。所述不同對象的特定削弱以及/或是放大 是如何被執(zhí)行的,可通過接收端來固定地設(shè)置,但也可由基于對象的元數(shù)據(jù)來控制,如由圖 Ilc中的“干/濕”控制器14所實(shí)施的。通常,動態(tài)范圍控制可在對象域中執(zhí)行,其以相似于AAC動態(tài)范圍控制實(shí)施方式 的方式以多頻帶壓縮來完成。基于對象的元數(shù)據(jù)甚至可為頻率選擇性數(shù)據(jù),以使頻率選擇性壓縮相似于平衡器實(shí)施方式來執(zhí)行。如先前所述,對話規(guī)格化優(yōu)選是在降混之后即降混信號而執(zhí)行。通常,降混應(yīng)該能 夠?qū)⒕哂笑莻€(gè)輸入聲道的k個(gè)對象處理至m個(gè)輸出聲道。將對象分離成分立對象并不十分重要?!罢谘凇币僮鞯男盘柗至靠删妥銐?。此相 似于在影像處理中編輯屏蔽。然后,一個(gè)廣義的“對象”變?yōu)閿?shù)個(gè)原始對象的疊加,其中,這 個(gè)疊加包括小于原始對象的總數(shù)的多個(gè)對象。所有的對象再次于一個(gè)最終階段被加總。可 能會對分離的單一對象毫無興趣,并且對于某些對象,當(dāng)某個(gè)對象必須被完全移除時(shí),位準(zhǔn) 值可能會被設(shè)為0,此為一個(gè)高分貝數(shù)字,例如在針對卡拉OK應(yīng)用時(shí),人們可能會對于完全 移除人聲對象以使卡拉OK歌唱者可將她或他自己的聲音導(dǎo)入剩余的樂器對象中感興趣。本發(fā)明之其它優(yōu)選應(yīng)用如之前所敘述的,為可減少單一對象的動態(tài)范圍的增強(qiáng)型 午夜模式,或是擴(kuò)充對象之動態(tài)范圍的高保真模式。在本文中,可壓縮所發(fā)送的信號,并且 其傾向于倒置這樣的壓縮。對話規(guī)格化的應(yīng)用主要是較希望針對所有的信號在輸出到揚(yáng)聲 器時(shí)發(fā)生,但當(dāng)對話規(guī)格化被調(diào)整時(shí),針對不同對象的非線性削弱/放大是有用處的。除了 針對從對象降混信號中分離出不同的音頻對象參數(shù)數(shù)據(jù)之外,較希望針對各個(gè)信號以及除 了與加成信號相關(guān)的典型元數(shù)據(jù)以外還有加成信號,針對降混、重要性與指出針對干凈音 頻的重要性位準(zhǔn)之重要性的值、對象識別符、為時(shí)變信息的實(shí)際絕對或相對位準(zhǔn)或是為時(shí) 變信息的絕對或相對目標(biāo)位準(zhǔn)等等,而發(fā)送位準(zhǔn)值。所說明的實(shí)施例僅針對本發(fā)明的原理而進(jìn)行示例性說明??梢岳斫?,對于此所說 明的細(xì)節(jié)之安排的修改體與變異體對本領(lǐng)域普通技術(shù)人員而言將會是明顯可見。因此,本 發(fā)明的范圍由所附權(quán)利要求所限定,而非由對實(shí)施例的說明與解釋方式而呈現(xiàn)的特定細(xì)節(jié) 所限制的。取決于所述創(chuàng)新方法的某些實(shí)施需求,所述創(chuàng)新方法可在硬件或軟件中實(shí)施。此 實(shí)施方式可利用數(shù)字儲存介質(zhì)來執(zhí)行,特別是其上儲存電子式可讀控制信號的碟片、DVD或 CD,其可與可規(guī)劃計(jì)算機(jī)系統(tǒng)配合,以執(zhí)行所述創(chuàng)新方法。一般而言,本發(fā)明因此為具有儲 存在機(jī)械可讀載體上的程序代碼的計(jì)算機(jī)程序產(chǎn)品,此程序代碼操作以在此計(jì)算機(jī)程序產(chǎn) 品在計(jì)算機(jī)上運(yùn)作時(shí),執(zhí)行所述創(chuàng)新方法。換言之,所述創(chuàng)新方法因此為具有用于在計(jì)算機(jī) 上運(yùn)作時(shí),執(zhí)行至少一個(gè)所述創(chuàng)新方法的程序代碼的計(jì)算機(jī)程序。參考文獻(xiàn)[1]IS0/IEC 13818-7 :MPEG-2(Generic coding of moving pictures and associated audioinformation)-Part 7 :Advanced Audio Coding (AAC)[2]IS0/IEC 23003-1 =MPEG-D(MPEG audio technologies)-Part 1 =MPEG Surround[3]IS0/IEC 23003-2 =MPEG-D(MPEG audio technologies)-Part 2 =Spatial Audio ObjectCoding(SAOC)[4]IS0/IEC 13818-7 :MPEG-2(Generic coding of moving pictures and associated audioinformation)-Part7 :Advanced Audio Coding (AAC)[5]IS0/IEC 14496-11 =MPEG 4(Coding of audio-visual objects)-Part 11: SceneDescription and Application Engine (BIFS)[6]IS0/IEC 14496- =MPEG 4 (Coding of audio-visual objects)-Part 20:
20LightweightApplication Scene Representation(LASER)and Simple Aggregation Format (SAF)[7]http:/www. dolby. com/assets/pdf/techlibrary/17. AllMetadata. pdf[8]http:/www. dolby. com/assets/pdf/tech—library/18—Metadata· Guide, pdf[9]KraussiKurt ;Roden9Jonas ;Schildbach,Wolfgang Transcoding of Dynamic RangeControl Coefficients and Other Metadata into MPEG—4HE AA, AES convention 123,0ctober2007,pp 7217[10]Robinson, Charles Q.,Gundry, Kenneth :Dynamic Range Control via Metadata,AESConvention 102,September 1999,pp 5028[11]Dolby,"Standards and Practices for Authoring Dolby Digital and Dolby E Bitstreams,,,Issue 3[14]Coding Technologies/Dolby, "Dolby E/aacPlus Metadata Transcoder Solution foraacPlus Multichannel Digtal Video Broadcast (DVB),,,VL L O[15]ETSI TS101154 !Digital Video Broadcasting (DVB), VL 8. 1[16]SMPTE RDD 6—2008 description and Guide to the Use of Dolby E audio MetadataSerial Bitstream.
2權(quán)利要求
1.一種用于產(chǎn)生代表至少兩個(gè)不同音頻對象的疊加的至少一個(gè)音頻輸出信號的裝置, 包括處理器,所述處理器用于處理音頻輸入信號以提供所述音頻輸入信號的對象表示,其 中所述至少兩個(gè)不同的音頻對象彼此分離,所述至少兩個(gè)不同的音頻對象可作為分離的音 頻對象信號,并且所述至少兩個(gè)不同的音頻對象可彼此獨(dú)立地被操作;對象操作器,所述對象操作器用于操作所述至少一個(gè)音頻對象的音頻對象信號或混合 音頻對象信號,其關(guān)于至少一個(gè)音頻對象的基于音頻對象的元數(shù)據(jù),以針對所述至少一個(gè) 音頻對象獲得受操作音頻對象信號或受操作混合音頻對象信號;和對象混合器,所述對象混合器用于通過將所述受操作音頻對象與未經(jīng)修改的音頻對象 組合,或?qū)⑺鍪懿僮饕纛l對象與作為至少一個(gè)音頻對象以不同方式操作的不同的受操作 音頻對象組合混合所述對象表示。
2.如權(quán)利要求1所述的裝置,該裝置適于產(chǎn)生m個(gè)輸出信號,m為大于1的整數(shù),其中所述處理器可操作用于提供具有k個(gè)音頻對象的對象表示,k為整數(shù),且k大于m, 其中所述對象操作器適于操作至少兩個(gè)彼此不同的對象,其基于與所述至少兩個(gè)彼此 不同的對象中至少一個(gè)對象相關(guān)聯(lián)的元數(shù)據(jù),及其中所述對象混合器可操作用于組合所述至少兩個(gè)不同的對象的所述受操作音頻信 號,以獲得所述m個(gè)輸出信號,從而每個(gè)輸出信號受所述至少兩個(gè)不同的對象的所述受操 作音頻信號的影響。
3.如權(quán)利要求1所述的裝置,其中所述處理器適于接收所述輸入信號,所述輸入信號為多個(gè)原始音頻對象的降混表示,其中所述處理器適于接收用于控制重建算法的數(shù)個(gè)音頻對象參數(shù),所述重建算法用于 重建所述原始音頻對象的近似表示,及其中所述處理器適于利用所述輸入信號和所述音頻對象參數(shù)來實(shí)施所述重建算法,以 獲得包含數(shù)個(gè)音頻對象信號的對象表示,所述音頻對象信號為所述原始音頻對象的數(shù)個(gè)音 頻對象信號的近似。
4.如權(quán)利要求1所述的裝置,其中所述音頻輸入信號為多個(gè)原始音頻對象的降混表示,且所述音頻輸入信號包括作 為邊信息的基于對象的元數(shù)據(jù),所述基于對象的元數(shù)據(jù)具有關(guān)于被包括在所述降混表示中 的一個(gè)以上音頻對象的信息,及其中所述對象操作器適于從所述音頻輸入信號中提取出所述基于對象的元數(shù)據(jù)。
5.如權(quán)利要求1所述的裝置,其中所述音頻輸入信號包括作為邊信息的音頻對象參 數(shù),并且其中所述處理器適于從所述音頻輸入信號中提取出所述邊信息。
6.如權(quán)利要求1所述的裝置,其中所述對象操作器可操作用于操作所述音頻對象信號,及其中所述對象混合器可操作用于基于針對每個(gè)對象的演示位置和重建設(shè)定,應(yīng)用用于 所述每個(gè)對象的降混規(guī)則,以獲得針對每個(gè)音頻輸出信號的對象分量信號,及其中所述對象混合器適于將來自針對相同輸出聲道的不同對象的對象分量信號相加, 以獲得針對所述輸出聲道的所述音頻輸出信號。
7.如權(quán)利要求1所述的裝置,其中所述對象操作器可操作用于以相同的方式操作多個(gè) 對象分量信號中的每個(gè)分量信號,其基于針對所述對象的元數(shù)據(jù),以獲得針對所述音頻對 象的數(shù)個(gè)對象分量信號,及其中所述對象混合器適于將來自針對相同輸出聲道的不同對象的所述對象分量信號 相加,以獲得針對所述輸出聲道的所述音頻輸出信號。
8.如權(quán)利要求1所述的裝置,進(jìn)一步包括輸出信號混合器,所述輸出信號混合器用于 將基于至少一個(gè)音頻對象的操作而獲得的音頻輸出信號與不經(jīng)過所述至少一個(gè)音頻對象 的所述操作而獲得的對應(yīng)的音頻輸出信號相混合。
9.如權(quán)利要求1所述的裝置,其中所述元數(shù)據(jù)包含關(guān)于增益、壓縮、位準(zhǔn)、降混設(shè)定、或 特定對象專有特征的信息,及 其中所述對象操作器適于基于所述元數(shù)據(jù)操作所述對象或其它對象,以對象專用的方 式實(shí)施午夜模式、高保真度模式、干凈音頻模式、對話規(guī)格化、降混專用的操作、動態(tài)降混、 導(dǎo)引上混、語音對象的重新定位或環(huán)境對象的削弱。
10.如權(quán)利要求1所述的裝置,其中所述對象參數(shù)針對對象音頻信號的多個(gè)時(shí)間分區(qū), 包含用于各個(gè)時(shí)間分區(qū)中多個(gè)頻帶中的每個(gè)頻帶的數(shù)個(gè)參數(shù),及其中所述元數(shù)據(jù)僅包括用于音頻對象的非頻率選擇性信息。
11.一種用于產(chǎn)生表示至少兩個(gè)不同音頻對象的疊加的已編碼音頻信號的裝置,包括數(shù)據(jù)流格式化器,所述數(shù)據(jù)流格式化器用于格式化數(shù)據(jù)流,從而所述數(shù)據(jù)流包含代表 所述至少兩個(gè)不同音頻對象的組合的對象降混信號,和作為邊信息的關(guān)于所述不同音頻對 象中至少一個(gè)音頻對象的元數(shù)據(jù)。
12.如權(quán)利要求11所述的裝置,其中所述數(shù)據(jù)流格式化器可操作用于附加地將作為邊 信息的參數(shù)數(shù)據(jù)引入到所述數(shù)據(jù)流中,所述參數(shù)數(shù)據(jù)允許所述至少兩個(gè)不同音頻對象的近 似。
13.如權(quán)利要求11所述的裝置,所述裝置進(jìn)一步包括參數(shù)計(jì)算器、降混器和輸入,所述 參數(shù)計(jì)算器用于針對所述至少兩個(gè)不同音頻對象的近似來計(jì)算參數(shù)數(shù)據(jù),所述降混器用于 降混所述至少兩個(gè)不同音頻對象以獲得所述降混信號,所述輸入用于單獨(dú)地輸入與所述至 少兩個(gè)不同音頻對象有關(guān)的元數(shù)據(jù)。
14.一種用于產(chǎn)生代表至少兩個(gè)不同音頻對象的疊加的至少一個(gè)音頻輸出信號的方 法,包括處理音頻輸入信號,以提供所述音頻輸入信號的對象表示,其中所述至少兩個(gè)不同的 音頻對象彼此分離,所述至少兩個(gè)不同的音頻對象可作為分離的音頻對象信號,并且所述 至少兩個(gè)不同的音頻對象可被彼此獨(dú)立地操作;依據(jù)關(guān)于至少一個(gè)音頻對象的基于音頻對象的元數(shù)據(jù),操作所述至少一個(gè)音頻對象的 所述音頻對象信號或混合音頻對象信號,以針對所述至少一個(gè)音頻對象獲得受操作音頻對 象信號或受操作混合音頻對象信號;及通過將所述受操作音頻對象與未經(jīng)修改的音頻對象組合,或?qū)⑺鍪懿僮饕纛l對象與 作為所述至少一個(gè)音頻對象以不同方式操作的不同的受操作音頻對象組合,來混合所述對 象表不。
15.一種用于產(chǎn)生代表至少兩個(gè)不同音頻對象的疊加的已編碼音頻信號的方法,包括格式化數(shù)據(jù)流,從而所述數(shù)據(jù)流包含代表所述至少兩個(gè)不同音頻對象的組合的對象降 混信號,和作為邊信息的關(guān)于所述不同音頻對象中至少一個(gè)音頻對象的元數(shù)據(jù)。
16.一種計(jì)算機(jī)程序,其用于在計(jì)算機(jī)上運(yùn)作時(shí)執(zhí)行如權(quán)利要求14所述的用于產(chǎn)生至 少一個(gè)音頻輸出信號的方法,或執(zhí)行如權(quán)利要求15所述的用于產(chǎn)生已編碼音頻信號的方 法。
全文摘要
一種用于產(chǎn)生代表至少兩個(gè)不同音頻對象的疊加的至少一個(gè)音頻輸出信號的裝置,包含一個(gè)處理器,該處理器用于處理音頻輸入信號,以提供該音頻輸入信號的對象表示,其中此對象表示可利用對象降混信號來通過原始對象的參數(shù)導(dǎo)引式近似來產(chǎn)生。對象操作器,該對象操作器利用關(guān)于單獨(dú)的音頻對象的基于音頻對象的元數(shù)據(jù)來單獨(dú)地操作數(shù)個(gè)對象,以獲得數(shù)個(gè)受操作音頻對象。利用對象混合器混合受操作音頻對象,以根據(jù)特定的演示設(shè)定,最終獲得具有一個(gè)或數(shù)個(gè)聲道信號的音頻輸出信號。
文檔編號H04S3/00GK102100088SQ200980127935
公開日2011年6月15日 申請日期2009年7月6日 優(yōu)先權(quán)日2008年7月17日
發(fā)明者奧立夫·赫爾穆特, 拉爾夫·斯皮爾施內(nèi)德, 斯蒂芬·施賴納, 沃爾夫?qū)し茲蔂? 馬蒂亞斯·諾伊辛格 申請人:弗朗霍夫應(yīng)用科學(xué)研究促進(jìn)協(xié)會
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
昌平区| 昌都县| 上林县| 嘉祥县| 江安县| 平舆县| 新昌县| 焉耆| 广州市| 土默特左旗| 宿州市| 平塘县| 乳山市| 宁阳县| 沈阳市| 尼玛县| 厦门市| 鸡泽县| 西昌市| 灵川县| 运城市| 仁布县| 壤塘县| 神池县| 古丈县| 苏尼特右旗| 遵义县| 门头沟区| 东乌珠穆沁旗| 台北市| 临猗县| 乳山市| 绥阳县| 台北县| 兴和县| 鲁甸县| 盘锦市| 柯坪县| 刚察县| 延吉市| 二连浩特市|