專利名稱:通過(guò)再混合能力增強(qiáng)音頻的制作方法
技術(shù)領(lǐng)域:
本申請(qǐng)的主題總體上涉及音頻信號(hào)處理。
背景技術(shù):
許多消費(fèi)者音頻設(shè)備(例如,立體聲音響、媒體播放器、移動(dòng)電話、游戲控制臺(tái)等) 允許用戶使用關(guān)于均衡(例如,低音、高音)、音量、房間聲效等的控制修改立體聲音頻信 號(hào)。然而,這些修改被應(yīng)用于整體音頻信號(hào)而非構(gòu)成該音頻信號(hào)的單獨(dú)的音頻對(duì)象(例如, 樂(lè)器)。例如,用戶不能在不影響整體歌曲的情況下單獨(dú)地修改歌曲中的吉他、鼓或聲音的 立體聲搖擺或增益。已提出了在解碼器處提供混合靈活性的技術(shù)。這些技術(shù)依賴于雙耳線索編碼 (BCC)、參量或空間音頻解碼器,用于生成混合解碼器輸出信號(hào)。然而,這些技術(shù)不能在不危 害聲音質(zhì)量的情況下直接對(duì)立體聲混合(例如,專業(yè)混合音樂(lè))編碼以允許向后兼容性。已提出了使用信道間線索(例如,聲級(jí)差、時(shí)間差、相位差、相干性)來(lái)呈現(xiàn)立體聲 或多信道音頻信道的空間音頻編碼技術(shù)。將該信道間線索作為“邊信息”傳送到解碼器以 在生成多信道輸出信號(hào)時(shí)使用。然而,這些常規(guī)的空間音頻編碼技術(shù)具有數(shù)個(gè)缺點(diǎn)。例如, 這些技術(shù)中的至少一些技術(shù)需要將關(guān)于每個(gè)音頻對(duì)象的分立的信號(hào)傳送到解碼器,即使在 解碼器處將不對(duì)該音頻對(duì)象做修改。該要求導(dǎo)致了編碼器和解碼器處的不必要的處理。另 一缺點(diǎn)是使編碼器輸入限于立體聲(或多信道)音頻信號(hào)或音頻源信號(hào),導(dǎo)致了解碼器處 的再混合的靈活性的降低。最后,這些常規(guī)技術(shù)中的至少一些技術(shù)需要解碼器處的復(fù)雜的 解相關(guān)處理,使得該技術(shù)不適用于一些應(yīng)用或設(shè)備。
發(fā)明內(nèi)容
可修改與立體聲或多信道音頻信號(hào)的一個(gè)或多個(gè)對(duì)象(例如,樂(lè)器)關(guān)聯(lián)的一個(gè) 或多個(gè)屬性(例如,搖擺、增益等)以提供再混合能力。在一些實(shí)現(xiàn)方案中,通過(guò)使非聲音源衰減從立體聲音頻信號(hào)得到立體聲無(wú)伴奏信 號(hào)。使用由無(wú)伴奏立體聲信號(hào)模型得到的期望值計(jì)算統(tǒng)計(jì)濾波器。該統(tǒng)計(jì)濾波器可以結(jié)合 用于使非聲音源衰減的衰減因子使用。在一些實(shí)現(xiàn)方案中,自動(dòng)增益/搖擺調(diào)節(jié)可以應(yīng)用于立體聲音頻信號(hào),其防止用 戶對(duì)增益和搖擺控制進(jìn)行極端的設(shè)定。增益滑動(dòng)器之間的平均距離可以用于作為平均距離 的函數(shù)的調(diào)節(jié)因子來(lái)限制增益滑動(dòng)器的范圍。其他實(shí)現(xiàn)方案被公開用于通過(guò)再混合能力增強(qiáng)音頻,包括涉及系統(tǒng)、方法、裝置、計(jì)算機(jī)可讀介質(zhì)和用戶接口的實(shí)現(xiàn)方案。
圖1A是用于對(duì)立體聲信號(hào)加上對(duì)應(yīng)于將在解碼器處被再混合的對(duì)象的M個(gè)源信 號(hào)進(jìn)行編碼的編碼系統(tǒng)的實(shí)現(xiàn)方案的框圖。圖1B是用于對(duì)立體聲信號(hào)加上對(duì)應(yīng)于將在解碼器處被再混合的對(duì)象的M個(gè)源信 號(hào)進(jìn)行編碼的過(guò)程的實(shí)現(xiàn)方案的流程圖。圖2說(shuō)明了用于分析和處理立體聲信號(hào)和M個(gè)源信號(hào)的時(shí)間-頻率圖示。圖3A是用于使用原始立體聲信號(hào)加上邊信息估計(jì)再混合立體聲信號(hào)的再混合系 統(tǒng)的實(shí)現(xiàn)方案的框圖。圖3B是用于使用圖3A的再混合系統(tǒng)估計(jì)再混合立體聲信號(hào)的過(guò)程的實(shí)現(xiàn)方案的 流程圖。圖4說(shuō)明了屬于具有索引b的分區(qū)的短時(shí)傅立葉變換(STFT)系數(shù)的索引i。圖5說(shuō)明了對(duì)用于模仿人類聽覺(jué)系統(tǒng)的非均勻頻率分辨率的均勻STFT頻譜的頻 譜系數(shù)進(jìn)行分組。圖6A是與常規(guī)的立體聲音頻編碼器組合的圖1的編碼系統(tǒng)的實(shí)現(xiàn)方案的框圖。圖6B是使用與常規(guī)的立體聲音頻編碼器組合的圖1A的編碼系統(tǒng)的編碼過(guò)程的實(shí) 現(xiàn)方案的流程圖。圖7A是與常規(guī)的立體聲音頻解碼器組合的圖3A的再混合系統(tǒng)的實(shí)現(xiàn)方案的框 圖。圖7B是使用與立體聲音頻解碼器組合的圖7A的再混合系統(tǒng)的再混合過(guò)程的實(shí)現(xiàn) 方案的流程圖。圖8A是實(shí)現(xiàn)全盲邊信息生成的編碼系統(tǒng)的實(shí)現(xiàn)方案的框圖。圖8B是使用圖8A的編碼系統(tǒng)的編碼過(guò)程的實(shí)現(xiàn)方案的流程圖。圖9說(shuō)明了關(guān)于所需的源聲級(jí)差Li = L dB的示例增益函數(shù)f (M)。圖10是使用部分盲生成技術(shù)的邊信息生成過(guò)程的實(shí)現(xiàn)方案的示圖。圖11是用于向具有再混合能力的音頻設(shè)備提供立體聲信號(hào)和M個(gè)源信號(hào)和/或 邊信息的客戶機(jī)/服務(wù)器架構(gòu)的實(shí)現(xiàn)方案的框圖。圖12說(shuō)明了用于具有再混合能力的媒體播放器的用戶接口的實(shí)現(xiàn)方案。圖13說(shuō)明了組合空間音頻對(duì)象(SA0C)解碼和再混合解碼的解碼系統(tǒng)的實(shí)現(xiàn)方案。圖14A說(shuō)明了關(guān)于分立對(duì)話音量(SDV)的通用混合模型。圖14B說(shuō)明了組合SDV和再混合技術(shù)的系統(tǒng)的實(shí)現(xiàn)方案。圖15說(shuō)明了圖14B中示出的均衡混合渲染器的實(shí)現(xiàn)方案。圖16說(shuō)明了用于參照?qǐng)D1 15描述的再混合技術(shù)的分布系統(tǒng)的實(shí)現(xiàn)方案。圖17A說(shuō)明了用于提供再混合信息的各種比特流實(shí)現(xiàn)方案的元素。圖17B說(shuō)明了用于生成圖17A中說(shuō)明的比特流的再混合編碼器接口的實(shí)現(xiàn)方案。圖17C說(shuō)明了用于接收?qǐng)D17B中說(shuō)明的編碼器接口生成的比特流的再混合解碼器 接口的實(shí)現(xiàn)方案。
7
圖18是如下系統(tǒng)的實(shí)現(xiàn)方案的框圖,該系統(tǒng)包括用于生成關(guān)于某些對(duì)象信號(hào)的 額外邊信息的擴(kuò)展以提供改進(jìn)的再混合性能。圖19是圖18中示出的再混合渲染器的實(shí)現(xiàn)方案的框圖。
具體實(shí)施例方式I.再混合立體聲信號(hào)圖1A是用于對(duì)立體聲信號(hào)加上對(duì)應(yīng)于將在解碼器處被再混合的對(duì)象的M個(gè)源信 號(hào)進(jìn)行編碼的編碼系統(tǒng)100的實(shí)現(xiàn)方案的框圖。在一些實(shí)現(xiàn)方案中,編碼系統(tǒng)100通常包 括濾波器組陣列102、邊信息生成器104和編碼器106。A.原始和所需再混合信號(hào)時(shí)間離散立體聲音頻信號(hào)的兩個(gè)信道被標(biāo)為和其中n是時(shí)間索引。假 設(shè)立體聲信號(hào)可以表示為 其中I是立體聲信號(hào)(例如,MP3)中包含的源信號(hào)(例如,樂(lè)器)的數(shù)目并且5;㈨
是源信號(hào)。因子%和、確定每個(gè)源信號(hào)的增益和幅度搖擺。假設(shè)所有源信號(hào)相互獨(dú)立。
源信號(hào)可以不完全是純?cè)葱盘?hào)。確切的講,一些源信號(hào)可以包含混響和/或其他聲音效果
信號(hào)分量。在一些實(shí)現(xiàn)方案中,延遲屯可被引入到[1]中的原始混合音頻信號(hào)中以促成與
再混合參數(shù)的時(shí)間對(duì)準(zhǔn) 1 在一些實(shí)現(xiàn)方案中,編碼系統(tǒng)100提供或生成用于修改原始立體聲音頻信號(hào)(在 下文中還被稱為“立體聲信號(hào)”)的信息(在下文中還被稱為“邊信息”),以便于利用不同 增益因子將M個(gè)源信號(hào)“再混合”為立體聲信號(hào)。所需的修改的立體聲信號(hào)可被表示 其中(^和屯是用于將被再混合的M個(gè)源信號(hào)(S卩,具有索引1、2.....M的源信
號(hào))的新的增益因子(在下文中還被稱為“混合增益”或“混合參數(shù)”)。編碼系統(tǒng)100的目的在于,在僅給出原始立體聲信號(hào)和少量的邊信息(例如,較之 立體聲信號(hào)波形中包含的信息是少的)的情況下提供或生成用于使立體聲信號(hào)再混合的 信息??梢栽诮獯a器中使用由編碼系統(tǒng)100提供或生成的邊信息以在給定的原始立體聲信 號(hào)[1]的情況下在感知上模仿所需的修改的立體聲信號(hào)[2]。通過(guò)編碼系統(tǒng)100,邊信息生成器104生成用于使原始立體聲信號(hào)再混合的邊信息,并且解碼器系統(tǒng)300 (圖3A)使用邊 信息和原始立體聲信號(hào)生成所需的再混合立體聲音頻信號(hào)。B.編碼器處理再次參照?qǐng)D1A,提供原始立體聲信號(hào)和M個(gè)源信號(hào)作為針對(duì)濾波器組陣列102的 輸入。還從編碼器102直接輸出原始立體聲信號(hào)。在一些實(shí)現(xiàn)方案中,從編碼器102直接輸 出的立體聲信號(hào)可被延遲以與邊信息比特流同步。在其他實(shí)現(xiàn)方案中,立體聲信號(hào)輸出可 以在解碼器處與邊信息同步。在一些實(shí)現(xiàn)方案中,編碼系統(tǒng)100適于用信號(hào)通知作為時(shí)間 和頻率的函數(shù)的統(tǒng)計(jì)數(shù)據(jù)。因此,為了分析和合成,如參照?qǐng)D4和5描述的,根據(jù)時(shí)間_頻 率表示來(lái)處理立體聲信號(hào)和M個(gè)源信號(hào)。圖1B是用于對(duì)立體聲信號(hào)加上對(duì)應(yīng)于將在解碼器處被再混合的對(duì)象的M個(gè)源信 號(hào)進(jìn)行編碼的過(guò)程108的實(shí)現(xiàn)方案的流程圖。將輸入立體聲信號(hào)和M個(gè)源信號(hào)分解為子帶 (110)。在一些實(shí)現(xiàn)方案中,該分解是通過(guò)濾波器組陣列實(shí)現(xiàn)的。如下文更全面描述的,對(duì) 于每個(gè)子帶,估計(jì)關(guān)于M個(gè)源信號(hào)的增益因子(112)。如下文所述,對(duì)于每個(gè)子帶,計(jì)算關(guān)于 M個(gè)源信號(hào)的短時(shí)功率估算(114)。量化和編碼估計(jì)的增益因子和子帶功率以生成邊信息 (116)。圖2說(shuō)明了用于分析和處理立體聲信號(hào)和M個(gè)源信號(hào)的時(shí)間_頻率圖示。圖中y 軸表示頻率并且被劃分為多個(gè)非均勻子帶202。x軸表示時(shí)間并且被劃分為時(shí)隙204。圖 2中的每個(gè)虛線框表示各個(gè)子帶和時(shí)隙對(duì)。因此,對(duì)于給定的時(shí)隙204,可以將對(duì)應(yīng)于時(shí)隙 204的一個(gè)或多個(gè)子帶202作為組206進(jìn)行處理。在一些實(shí)現(xiàn)方案中,如參照?qǐng)D4和5描述 的,基于與人類聽覺(jué)系統(tǒng)關(guān)聯(lián)的感知限制,來(lái)選擇子帶202的寬度。在一些實(shí)現(xiàn)方案中,通過(guò)濾波器組陣列102將輸入立體聲信號(hào)和M個(gè)輸入源信號(hào) 分解為許多個(gè)子帶202??梢韵嗨频靥幚碓诿總€(gè)中心頻率處的子帶202。特定頻率處的立 體聲音頻輸入信號(hào)的子帶對(duì)被標(biāo)為Xl(k)和x2(k),其中k是子帶信號(hào)的下采樣時(shí)間索引。
相似地,M個(gè)輸入源信號(hào)的對(duì)應(yīng)的子帶信號(hào)被標(biāo)為Sl(k)、s2(k).....sM(k)。應(yīng)當(dāng)注意,為
了簡(jiǎn)化標(biāo)記,在該示例中已省略關(guān)于子帶的索引。對(duì)于下采樣,出于效率考慮可以使用具有 較低采樣率的子帶信號(hào)。通常,濾波器組和STFT有效地具有次采樣信號(hào)(或頻譜系數(shù))。在一些實(shí)現(xiàn)方案中,用于使具有索引i的源信號(hào)再混合所需的邊信息包括增益因 子 和bp以及每個(gè)子帶中的作為時(shí)間的函數(shù)的子帶信號(hào)的功率估算E {Si2 (k)}。增益因子 %和、可以是給定的(如果立體聲信號(hào)的該知識(shí)是已知的)或者是估計(jì)的。對(duì)于許多立 體聲信號(hào),ai和h是靜態(tài)的。如果%或、作為時(shí)間k的函數(shù)變化,則可作為時(shí)間的函數(shù)來(lái) 估計(jì)這些增益因子。沒(méi)有必要使用子帶功率的平均值或估算生成邊信息。確切的講,在一 些實(shí)現(xiàn)方案中,實(shí)際的子帶功率可以用作功率估算。在一些實(shí)現(xiàn)方案中,可以使用單極平均來(lái)估計(jì)短時(shí)子帶功率,其中E{Si2(k)}可被 計(jì)算為 其中a G
確定指數(shù)衰落估計(jì)窗口的時(shí)間常數(shù), 并且fs表示子帶采樣頻率。關(guān)于T的適當(dāng)?shù)闹悼梢允抢纾?0毫秒。在下面的式中,E{.}通常表示短時(shí)平均。在一些實(shí)現(xiàn)方案中,可以在與立體聲信號(hào)相同的媒體上提供一些或所有邊信息 、1^和£{<00}。例如,音樂(lè)發(fā)行商、錄音棚、錄音藝術(shù)家等可以在光盤(⑶)、數(shù)字視頻光 盤(DVD)、閃存驅(qū)動(dòng)器等上與對(duì)應(yīng)的立體聲信號(hào)一起提供邊信息。在一些實(shí)現(xiàn)方案中,通過(guò) 將邊信息嵌入立體聲信號(hào)的比特流中或者在分立的比特流中傳送邊信息,可以在網(wǎng)絡(luò)(例 如,互聯(lián)網(wǎng)、以太網(wǎng)、無(wú)線網(wǎng)絡(luò))上提供一些或所有邊信息。如果未給出屮和by則可以估計(jì)這些因子。由于扔5;⑷系⑷} =,因此 a,可被計(jì)算為
(5)相似地,bi可被計(jì)算為 如果 和、在時(shí)間上是自適應(yīng)的,則E{.}算子表示短時(shí)平均運(yùn)算。另一方面,如 果增益因子%和h是靜態(tài)的,則通過(guò)整體考慮立體聲音頻信號(hào)可以計(jì)算增益因子。在一些 實(shí)現(xiàn)方案中,可以針對(duì)每個(gè)子帶獨(dú)立地估計(jì)增益因子%和、。應(yīng)當(dāng)注意在[5]和[6]中, 源信號(hào)是獨(dú)立的,但是通常,由于Si包含在立體聲信道Xl和x2中,因此源信號(hào)Si和立體 聲信道Xl和x2不是獨(dú)立的。在一些實(shí)現(xiàn)方案中,由編碼器106量化和編碼關(guān)于每個(gè)子帶的短時(shí)功率估算和增 益因子以形成邊信息(例如,低比特率比特流)。應(yīng)當(dāng)注意,如參照?qǐng)D4和5描述的,這些 值可能未被直接量化和編碼,而是首先可被轉(zhuǎn)換為更適于量化和編碼的其他的值。在一些 實(shí)現(xiàn)方案中,如參照?qǐng)D6 7描述的,可以使E{Si2(k)}相對(duì)于輸入立體聲音頻信號(hào)的子帶 功率歸一化,使得在使用常規(guī)的音頻編碼器高效地對(duì)立體聲音頻信號(hào)編碼時(shí),編碼系統(tǒng)100 相對(duì)于改變是魯棒的。C.解碼器處理圖3A是用于使用原始立體聲信號(hào)加上邊信息估計(jì)再混合立體聲信號(hào)的再混合系 統(tǒng)300的實(shí)現(xiàn)方案的框圖。在一些實(shí)現(xiàn)方案中,再混合系統(tǒng)300通常包括濾波器組陣列302、 解碼器304、再混合模塊306和逆濾波器組陣列308??梢栽谠S多個(gè)子帶中獨(dú)立地執(zhí)行再混合立體聲音頻信號(hào)的估計(jì)。該邊信息包括子 帶功率E{Si2(k)}以及增益因子 和、^個(gè)源信號(hào)包含在該立體聲信號(hào)中。由(^和屯表 示所需再混合立體聲信號(hào)的新的增益因子或混合增益。諸如參照?qǐng)D12描述的,可由用戶通 過(guò)音頻設(shè)備的用戶接口指定混合增益q和屯。在一些實(shí)現(xiàn)方案中,通過(guò)濾波器組陣列302將輸入立體聲信號(hào)分解為子帶,其中 特定頻率處的子帶對(duì)被標(biāo)為Xl(k)和&(10。如圖3A中說(shuō)明的,通過(guò)解碼器304解碼邊信 息,針對(duì)將被再混合的M個(gè)源信號(hào)中的每個(gè)源信號(hào)產(chǎn)生增益因子和by該增益因子ai和 h包含在輸入立體聲信號(hào)中,并且對(duì)于每個(gè)子帶,產(chǎn)生功率估算E {Si2 (k) }。參照?qǐng)D4和5更 加詳細(xì)地描述了邊信息的解碼。在給定邊信息的情況下,可以由再混合模塊306將再混合立體聲音頻信號(hào)的對(duì)應(yīng) 的子帶對(duì)作為再混合立體聲信號(hào)的混合增益Ci和屯的函數(shù)來(lái)估計(jì)。逆濾波器組陣列308被應(yīng)用于估計(jì)的子帶對(duì)以提供再混合時(shí)域立體聲信號(hào)。圖3B是用于使用圖3A的再混合系統(tǒng)估計(jì)再混合立體聲信號(hào)的再混合過(guò)程310的 實(shí)現(xiàn)方案的流程圖。將輸入立體聲信號(hào)分解為子帶對(duì)(312)。針對(duì)子帶對(duì)對(duì)邊信息進(jìn)行解 碼(314)。使用邊信息和混合增益使子帶對(duì)再混合(318)。在一些實(shí)現(xiàn)方案中,如參照?qǐng)D12 描述的,由用戶提供混合增益??商孢x地,可以通過(guò)應(yīng)用、操作系統(tǒng)等來(lái)程序性地提供混合 增益。如參照?qǐng)D11描述的,也可以通過(guò)網(wǎng)絡(luò)(例如,互聯(lián)網(wǎng)、以太網(wǎng)、無(wú)線網(wǎng)絡(luò))提供混合 增碰。D.再混合過(guò)程在一些實(shí)現(xiàn)方案中,可以使用最小二乘估計(jì)在數(shù)學(xué)意義上逼近再混合立體聲信 號(hào)??蛇x地,感知考慮可用于修改估算。式[1]和[2]也分別支持子帶對(duì)Xl(k) ^P x2(k)以及yi(k)和%00。在該情況中, 源信號(hào)被替換為源子帶信號(hào)Si (k)。立體聲信號(hào)的子帶對(duì)由下式給出 并且再混合立體聲音頻信號(hào)的子帶對(duì)是 給定原始立體聲信號(hào)的子帶對(duì)Xl (k)和x2 (k),具有不同增益的立體聲信號(hào)的子帶 對(duì)被估計(jì)為原始左和右立體聲子帶對(duì)的線性組合, 其中wil(k)、w12(k)、w21(k)和 w22(k)是實(shí)值加權(quán)因子。估計(jì)誤差被定義為 在每個(gè)頻率處在子帶的每個(gè)時(shí)間k處,可以計(jì)算權(quán)重wn(k)、w12(k)、w21(k)和 w22(k),以便于使均方誤差E{ei2(k)}和E{e22(k)}最小。為了計(jì)算wn(k)和w12(k),我們注 意到在誤差ei(k) %Xl(k)和x2(k)正交時(shí)E{ei2(k)}最小,即EKyrWuXrw^xJ = 0(11)E {(yfWnXiU》x2} =0。應(yīng)當(dāng)注意,為了便于標(biāo)記,省略了時(shí)間索引k。(13)
0101]增益因子是該線性方程組的解 。102]
在給定解碼器輸入立體聲信號(hào)子帶對(duì)的情況下可以直接估計(jì)E{Xl2}、E{x22}和 E{xix2},并且可以使用所需再混合立體聲信號(hào)的邊信息(E{Sl2}、ai、bi)和混合增益Ci和屯 估計(jì) E {xjyJ 和 E {x#2}
0098]
0099]
重寫這些式,得到
0103]
0104]
0105]
0106]
0107]
0108]
0109]
0110] 0111]
相似地,計(jì)算W21和W22,得到
當(dāng)左和右子帶信號(hào)相干或近似相干時(shí),即,當(dāng)
接近1時(shí),權(quán)重的解是不唯一的或病態(tài)的。因此,如果 大于某個(gè)閾值(例如, 0. 95),則權(quán)重被計(jì)算為例如, 0116] w12 = w21 = 0, (18)
0112]
0113]
0114]
0115]
0117]
0118]
0119]
在小=1的假設(shè)下,式[18]是滿足[12]和關(guān)于另兩個(gè)權(quán)重的相似的正交性方程 組的不唯一的解中的一個(gè)。應(yīng)當(dāng)注意,[17]中的相干性用于判斷相互相似的程度。如果相干性是0,則Xl和x2是獨(dú)立的。如果相干性是1,則Xl和x2是相似的(但是具有不 同的聲級(jí))。如果Xl和x2是非常相似的(相干性接近1),則二信道Wiener計(jì)算(四個(gè)權(quán) 重的計(jì)算)是病態(tài)的。關(guān)于該閾值的示例范圍是約0. 4至約1. 0。通過(guò)將計(jì)算的子帶信號(hào)轉(zhuǎn)換到時(shí)域所獲取的得到的再混合立體聲信號(hào)聽起來(lái)類 似于通過(guò)不同混合增益(^和屯進(jìn)行真實(shí)混合的立體聲信號(hào)(在下文中該信號(hào)被表示為“所 需信號(hào)”)。在一個(gè)方面,在數(shù)學(xué)上,這需要計(jì)算的子帶信號(hào)與真實(shí)地進(jìn)行不同混合的子帶信 號(hào)相似。在某種程度上情況確實(shí)如此。由于在感知激勵(lì)的子帶域中執(zhí)行估計(jì),因此對(duì)相似 性的要求不太強(qiáng)。只要感知相關(guān)局部化線索(例如,聲級(jí)差和相干性線索)是足夠相似的, 則計(jì)算的再混合立體聲信號(hào)將聽起來(lái)類似于所需信號(hào)。E.可選方案聲級(jí)差線索的調(diào)節(jié)在一些實(shí)現(xiàn)方案中,如果使用此處描述的處理,可以獲取良好的結(jié)果。然而,為了 確保重要的聲級(jí)差局部化線索接近地逼近所需信號(hào)的聲級(jí)差線索,可以應(yīng)用子帶的后調(diào)整 以“調(diào)節(jié)”聲級(jí)差線索,用于確保它們與所需信號(hào)的聲級(jí)差線索匹配。對(duì)于[9]中的最小二乘子帶信號(hào)估算的修改,考慮子帶功率。如果子帶功率是正 確的,則重要的空間線索聲級(jí)差也將是正確的。所需信號(hào)[8]的左子帶功率是
并且來(lái)自[9]的估算的子帶功率是
因此,為了使幻具有%yi(k)相同的功率,其必須乘以相似地,:P2(幻乘以
以具有與所需子帶信號(hào)y2(k)相同的功率。 II.邊信息的量化和編碼 A.編碼
如前面章節(jié)中描述的,用于使具有索引i的源信號(hào)再混合所需的邊信息是因子&1 和b”以及每個(gè)子帶中的作為時(shí)間的函數(shù)的功率E{Sl2(k)}。在一些實(shí)現(xiàn)方案中,關(guān)于增益 因子%和h的對(duì)應(yīng)的增益和聲級(jí)差的值可以dB為單位計(jì)算如下g, =101og10O,2+6,2), (23)
b/( =201og10-!-
在一些實(shí)現(xiàn)方案中,對(duì)增益和聲級(jí)差的值進(jìn)行量化并且進(jìn)行霍夫曼編碼。例如,具 有2dB量化器步長(zhǎng)的均勻量化器和一維霍夫曼編碼器可分別用于量化和編碼。也可以使用 其他已知的量化器和編碼器(例如,矢量量化器)。如果ai和bi是時(shí)變的,并且假設(shè)邊信息可靠地到達(dá)解碼器,則僅需要傳送一次對(duì) 應(yīng)的編碼值。否則,可以以規(guī)則的時(shí)間間隔或者響應(yīng)觸發(fā)事件(例如,在編碼值改變時(shí))傳 送禾口 bi0為了對(duì)于因立體聲信號(hào)的編碼引起的立體聲信號(hào)的調(diào)整和功率損失/增益是魯 棒的,在一些實(shí)現(xiàn)方案中,子帶功率
未被直接編碼為邊信息。確切的講,可以使用 相對(duì)立體聲信號(hào)定義的度量
(24)對(duì)于各種信號(hào)使用相同的估計(jì)窗口 /時(shí)間常數(shù)用于計(jì)算E{.}可以是有利的。將邊 信息定義為相對(duì)功率值[24]的優(yōu)點(diǎn)在于,如果需要,在解碼器處可以使用不同于編碼器處 的估計(jì)窗口 /時(shí)間常數(shù)。而且,較之源功率將作為絕對(duì)值被傳送的情況,減小了邊信息和立 體聲信號(hào)之間的時(shí)間失準(zhǔn)的效應(yīng)。為了對(duì)Kk)進(jìn)行量化和編碼,在一些實(shí)現(xiàn)方案中,使用 具有例如2dB步長(zhǎng)的均勻量化器和一維霍夫曼編碼器。對(duì)于將被再混合的每個(gè)音頻對(duì)象, 得到的比特率可以低至約3kb/s (千比特每秒)。在一些實(shí)現(xiàn)方案中,當(dāng)解碼器處的對(duì)應(yīng)于將被再混合的對(duì)象的輸入源信號(hào)是靜默 的時(shí)候,可以減小比特率。編碼器的編碼模式可以檢測(cè)靜默對(duì)象,并且隨后向解碼器傳送用 于指示對(duì)象是靜默的信息(例如,單個(gè)比特每個(gè)幀)。B.解碼在給定霍夫曼解碼(量化)值[23]和[24]的情況下,用于進(jìn)行再混合所需的值 可以計(jì)算如下
(25) III.實(shí)現(xiàn)方案細(xì)節(jié)A.時(shí)間-頻率處理在一些實(shí)現(xiàn)方案中,基于STFT(短時(shí)傅立葉變換)的處理用于參照?qǐng)D1 3描述 的編碼/解碼系統(tǒng)。其他時(shí)間_頻率變換可用于實(shí)現(xiàn)所需的結(jié)果,包括但不限于,正交鏡像 濾波器(QMF)濾波器組、修正離散余弦變換(MDCT)、小波濾波器組等。對(duì)于分析處理(例如,前向?yàn)V波器組操作),在一些實(shí)現(xiàn)方案中,在應(yīng)用N點(diǎn)離散傅 立葉變換(DFT)或快速傅立葉變換(FFT)之前,N個(gè)樣本的幀可以乘以窗口。在一些實(shí)現(xiàn)方案中,可以使用如下正弦窗口 如果處理塊尺寸不同于DFT/FFT尺寸,則在一些實(shí)現(xiàn)方案中可以使用零填充以有 效地具有小于N的窗口??梢岳缑縉/2個(gè)樣本(等于窗口跳尺寸)重復(fù)所描述的分析處 理,導(dǎo)致50%的窗口重疊。其他窗口函數(shù)和重疊百分比可用于實(shí)現(xiàn)所需的結(jié)果。為了從STFT頻譜域變換到時(shí)域,逆DFT或FFT可應(yīng)用于頻譜。得到的信號(hào)再次與 [26]中描述的窗口相乘,并且通過(guò)與窗口相乘得到的相鄰的信號(hào)塊與添加的重疊被組合以 獲取連續(xù)的時(shí)域信號(hào)。在一些情況中,STFT的均勻的頻譜分辨率可能不能良好地適于人類感知。在這些 情況中,與單獨(dú)地處理每個(gè)STFT頻率系數(shù)相反,STFT系數(shù)可被“分組”,以便于一個(gè)組具有 約兩倍于等效矩形帶寬(ERB)的帶寬,該帶寬是適用于空間音頻處理的頻率分辨率。圖4說(shuō)明了屬于具有索引b的分區(qū)的STFT系數(shù)的索引i。在一些實(shí)現(xiàn)方案中,由 于頻譜是對(duì)稱的,因此僅考慮頻譜的最初N/2+1個(gè)頻譜系數(shù)。如圖4中說(shuō)明的,屬于具有索 引b(l彡b彡B)的分區(qū)的STFT系數(shù)的索引是i G {Ab_i,Ab_i+1,...,Ab},其中AQ = 0。由 分區(qū)的頻譜系數(shù)表示的信號(hào)對(duì)應(yīng)于編碼系統(tǒng)使用的感知激勵(lì)的子帶分解。因此,在每個(gè)該 分區(qū)中,所描述的處理被聯(lián)合地應(yīng)用于分區(qū)中的STFT系數(shù)。圖5示例性地說(shuō)明了對(duì)用于模仿人類聽覺(jué)系統(tǒng)的非均勻頻率分辨率的均勻STFT 頻譜的頻譜系數(shù)進(jìn)行分組。在圖5中,對(duì)于44. 1kHz的采樣率和B = 20的分區(qū)數(shù)目,N = 1024,每個(gè)分區(qū)具有約2ERB的帶寬。應(yīng)當(dāng)注意,由于Nyquist頻率處的截止,最末的分區(qū)小 于兩個(gè)ERB。B.統(tǒng)計(jì)數(shù)據(jù)的估計(jì)在給定兩個(gè)STFT系數(shù)Xi (k)和Xi (k)的情況下,可以迭代地估計(jì)用于計(jì)算再混合 立體聲音頻信號(hào)所需的值E {x, (k) Xj (k)}。在該情況中,子帶采樣頻率fs是計(jì)算STFT頻譜 的臨時(shí)頻率。為了獲取關(guān)于每個(gè)感知分區(qū)(而非關(guān)于每個(gè)STFT系數(shù))的估算,在可以在進(jìn) 一步使用之前在分區(qū)中對(duì)估計(jì)的值取平均。前面章節(jié)中描述的處理可以應(yīng)用于每個(gè)分區(qū),如同每個(gè)分區(qū)是一個(gè)子帶。可以使 用例如,重疊頻譜窗口實(shí)現(xiàn)分區(qū)之間的平滑,以避免頻率中的突然處理改變,因此減少人工 效果。C.與常規(guī)音頻編碼器組合圖6A是與常規(guī)的立體聲音頻編碼器組合的圖1A的編碼系統(tǒng)的實(shí)現(xiàn)方案的框圖。 在一些實(shí)現(xiàn)方案中,組合編碼系統(tǒng)600包括常規(guī)的音頻編碼器602、所提出的編碼器604 (例 如,編碼系統(tǒng)100)和比特流組合器606。在所示出的示例中,如前面參照?qǐng)D1 5描述的, 立體聲音頻輸入信號(hào)通過(guò)常規(guī)的音頻編碼器602 (例如,MP3、AAC、MPEG環(huán)繞聲等)被編碼 并且通過(guò)所提出的編碼器604被分析以提供邊信息。通過(guò)比特流組合器606將兩個(gè)得到的 比特流組合以提供向后兼容比特流。在一些實(shí)現(xiàn)方案中,將得到的比特流組合包括將低比 特率邊信息(例如,增益因子叫小和子帶功率E{Si2(k)})嵌入到向后兼容比特流中。
15
圖6B是使用與常規(guī)的立體聲音頻編碼器組合的圖1A的編碼系統(tǒng)100的編碼過(guò)程 608的實(shí)現(xiàn)方案的流程圖。使用常規(guī)的立體聲音頻編碼器對(duì)輸入立體聲信號(hào)編碼(610)。使 用圖1A的編碼系統(tǒng)100自立體聲信號(hào)和M個(gè)源信號(hào)生成邊信息(612)。生成包括編碼立體 聲信號(hào)和邊信息的一個(gè)或多個(gè)向后兼容比特流(614)。圖7A是用于提供組合系統(tǒng)700的與常規(guī)的立體聲音頻解碼器組合的圖3A的再混 合系統(tǒng)300的實(shí)現(xiàn)方案的框圖。在一些實(shí)現(xiàn)方案中,組合系統(tǒng)700通常包括比特流解析器 702、常規(guī)的音頻解碼器704(例如,MP3、AAC)和所提出的解碼器706。在一些實(shí)現(xiàn)方案中, 所提出的解碼器706是圖3A的再混合系統(tǒng)300。在所示出的示例中,比特流被分為立體聲音頻比特流和包含所提出的解碼器706 所需的邊信息的比特流以提供再混合能力。立體聲信號(hào)通過(guò)常規(guī)的音頻解碼器704被解碼 并且被饋送到所提出的解碼器706,解碼器706修改立體聲信號(hào),作為獲取自比特流的邊信 息和用戶輸入(例如,混合增益Ci和cQ的函數(shù)。圖7B是使用圖7A的組合系統(tǒng)700的再混合過(guò)程708的一個(gè)實(shí)現(xiàn)方案的流程圖。 將從編碼器接收的比特流解析以提供編碼立體聲信號(hào)比特流和邊信息比特流(710)。使用 常規(guī)的音頻解碼器對(duì)編碼立體聲信號(hào)解碼(712)。示例解碼器包括MP3、AAC (包括AAC的 各種標(biāo)準(zhǔn)化簡(jiǎn)檔)、參量立體聲、頻譜帶復(fù)制(SBR)、MPEG環(huán)繞聲或者其任何組合。使用邊 信息和用戶輸入(例如,c,和cQ使解碼立體聲信號(hào)再混合。IV.多信道音頻信號(hào)的再混合在一些實(shí)現(xiàn)方案中,前面章節(jié)中描述的編碼和再混合系統(tǒng)100、300可以擴(kuò)展到再 混合多信道音頻信號(hào)(例如,5.1環(huán)繞信號(hào))。在下文中,立體聲信號(hào)和多信道信號(hào)還被稱 為“多個(gè)信道”信號(hào)。本領(lǐng)域的普通技術(shù)人員將理解,如何針對(duì)多信道編碼/解碼方案,即,
針對(duì)不止兩個(gè)信號(hào)xi(k)、x2(k)、x3(k).....xc(k),重寫[7]至[22],其中C是混合信號(hào)的
音頻信道的數(shù)目。關(guān)于多信道情況的式[9]變?yōu)? 如前文所述,可以得到具有C個(gè)方程的如[11]的方程并且求解這些方程以確定權(quán)重。在一些實(shí)現(xiàn)方案中,某些信道可以是不被處理的。例如,對(duì)于5. 1環(huán)繞聲,兩個(gè)后 信道可以是不被處理的并且僅對(duì)前面的左、右和中心信道應(yīng)用再混合。在該情況中,可以針 對(duì)前信道應(yīng)用三信道再混合算法。從所公開的再混合方案得到的音頻質(zhì)量取決于所執(zhí)行的修改的本質(zhì)。對(duì)于相對(duì)弱 的修改,例如,從OdB至15dB的搖擺改變或者10dB的增益修改,得到的音頻質(zhì)量可高于通 過(guò)常規(guī)技術(shù)實(shí)現(xiàn)的音頻質(zhì)量。而且,由于僅在必要時(shí)修改立體聲信號(hào)以實(shí)現(xiàn)所需的再混合,因此所提出的公開再混合方案的質(zhì)量可高于常規(guī)的再混合方案。此處公開的再混合方案提供了優(yōu)于常規(guī)技術(shù)的數(shù)個(gè)優(yōu)點(diǎn)。首先,其允許給定立體 聲或多信道音頻信號(hào)中的少于對(duì)象總數(shù)的對(duì)象的再混合。這是通過(guò)估計(jì)作為給定立體聲音 頻信號(hào)加上M個(gè)源信號(hào)的函數(shù)的邊信息實(shí)現(xiàn)的,該M個(gè)源信號(hào)表示立體聲音頻信號(hào)中的能 夠在解碼器處進(jìn)行再混合的M個(gè)對(duì)象。所公開的再混合系統(tǒng)處理作為邊信息的函數(shù)和作為 用戶輸入(所需再混合)的函數(shù)的給定立體聲信號(hào)以生成感知上與進(jìn)行不同的真實(shí)混合的 立體聲信號(hào)相似的立體聲信號(hào)。V.針對(duì)基本再混合方案的增強(qiáng)A.邊信息預(yù)處理當(dāng)子帶相對(duì)于相鄰子帶衰減過(guò)多時(shí),可能出現(xiàn)音頻人工效果。因此,需要限制最大 衰減。此外,由于立體聲信號(hào)和對(duì)象源信號(hào)統(tǒng)計(jì)是在編碼器和解碼器處分別獨(dú)立測(cè)量的,因 此測(cè)量的立體聲信號(hào)子帶功率和對(duì)象信號(hào)子帶功率(如邊信息表示的)之間的比可能偏離 現(xiàn)實(shí)。因此,邊信息在物理上可能是不可能的,例如,再混合信號(hào)[19]的信號(hào)功率可能變?yōu)?負(fù)的。如下文所述可以解決上述兩個(gè)問(wèn)題。左和右再混合信號(hào)的子帶功率是 其中&等于[25]中給出的量化和編碼子帶功率估算,其是作為邊信息的函數(shù)而計(jì) 算的。再混合信號(hào)的子帶功率可被限制為,其從不小于比原始立體聲信號(hào)E{Xl2}的子帶功 率低L dB。相似地,E{y22}被限制為不小于比E{x22}低L dB。該結(jié)果可以通過(guò)如下運(yùn)算實(shí) 現(xiàn)1.根據(jù)[28]計(jì)算左和右再混合信號(hào)子帶功率。2.如果耵乂}<淡{<},則調(diào)節(jié)邊信息計(jì)算值及,以便于保持五{彳} = 0五{<}。為
了將功率E{yi2}限制為從不小于比功率E{Xl2}低A dB,Q可被設(shè)定為Q= 10_AA°。然后,可 以通過(guò)使弋乘以 調(diào)節(jié)及。3.如果£{^}<2識(shí)4},則調(diào)節(jié)邊信息計(jì)算值夂,以便于保持耵力2}=誣{4}。這
可以通過(guò)使及乘以 實(shí)現(xiàn)。4.值左{彳(幻}被設(shè)定為調(diào)節(jié)的弋,并且計(jì)算權(quán)重wn、w12、w21和w22。 B.使用四個(gè)或兩個(gè)權(quán)重之間的決定對(duì)于許多情況,兩個(gè)權(quán)重[18]足夠用于計(jì)算左和右再混合信號(hào)子帶[9]。在一些 情況中,通過(guò)使用四個(gè)權(quán)重[13]和[15]可以實(shí)現(xiàn)更好的結(jié)果。使用兩個(gè)權(quán)重意味著,僅使 用左原始信號(hào)用于生成左輸出信號(hào)并且對(duì)于右輸出信號(hào)情況亦是如此。因此,需要四個(gè)權(quán) 重的情形是,一側(cè)的對(duì)象被再混合為位于另一側(cè)。在該情況中,可以預(yù)見(jiàn)到,由于原始僅位 于一側(cè)(例如,在左信道中)的信號(hào)將在再混合之后主要位于另一側(cè)(例如,在右信道中), 因此使用四個(gè)權(quán)重是有利的。因此,四個(gè)權(quán)重可用于允許信號(hào)從原始的左信道流動(dòng)到再混 合的右信道,反之亦然。當(dāng)計(jì)算四個(gè)權(quán)重的最小二乘問(wèn)題是病態(tài)的時(shí)候,權(quán)重量值可能是大的。相似地,當(dāng) 使用上述的從一側(cè)到另一側(cè)的再混合時(shí),僅使用兩個(gè)權(quán)重時(shí)的權(quán)重量值可能是大的。通過(guò) 該觀察所激勵(lì),在一些實(shí)現(xiàn)方案中,可以使用如下標(biāo)準(zhǔn)決定使用四個(gè)還是兩個(gè)權(quán)重。如果A <B,則使用四個(gè)權(quán)重,否則使用兩個(gè)權(quán)重。A和B分別是關(guān)于四個(gè)和兩個(gè) 權(quán)重的權(quán)重量值的度量。在一些實(shí)現(xiàn)方案中,A和B計(jì)算如下。為了計(jì)算A,首先根據(jù)[13] 和[15]計(jì)算四個(gè)權(quán)重并且隨后設(shè)定A = wn2+w122+w212+w222 0為了計(jì)算B,可以根據(jù)[18]計(jì) 算權(quán)重并且隨后計(jì)算B = wn2+w222 0在一些實(shí)現(xiàn)方案中,串音,即wl2和w21,可用于改變極端搖擺對(duì)象的位置。使用兩 個(gè)或四個(gè)權(quán)重的決定可以如下執(zhí)行
使原始搖擺信息與給定閾值比較,決定對(duì)象是否是極端搖擺 的‘ Ps>Tmmr :檢查對(duì)象是否具有某個(gè)相關(guān)功率
使原始搖擺信息與所需搖擺信息比較,
決定是否需要改變對(duì)象的位置。應(yīng)當(dāng)注意,即使對(duì)象未搖擺到另一側(cè),例如,其略微朝向中 心移動(dòng),但是在該對(duì)象不是極端搖擺的情況下,應(yīng)從另一側(cè)收聽到該對(duì)象,因此應(yīng)實(shí)現(xiàn)串
曰°通過(guò)將原始搖擺信息與所需搖擺信息比較,可以容易地檢查改變對(duì)象位置的請(qǐng) 求。然而,由于估計(jì)誤差,需要給出某個(gè)裕度以控制該決定的靈敏度。由于將a、0設(shè)定為 所需的值,因此可以容易地控制該決定的靈敏度。C.在需要時(shí)提高衰減程度當(dāng)源被完全移除時(shí),例如,對(duì)于卡拉0K應(yīng)用移除主唱音軌,其混合增益是Ci = 0、 屯=0。然而,當(dāng)用戶選擇零混合增益時(shí),所實(shí)現(xiàn)的衰減程度可能受到限制。因此,為了提 高衰減,從邊信息獲取的對(duì)應(yīng)的源信號(hào)的源子帶功率值丨在被用于計(jì)算權(quán)重Wll、w12, W21和w22之前,可以通過(guò)大于1的值(例如,2)進(jìn)行調(diào)整。D.通過(guò)權(quán)重平滑提高音頻質(zhì)量已觀察到,所公開的再混合方案可能在所需信號(hào)中引入人工效果,特別是在音頻 信號(hào)是音調(diào)的或固定的時(shí)候。為了提高音頻質(zhì)量,在每個(gè)子帶處,可以計(jì)算固定性/音調(diào)度 量。如果固定性/音調(diào)度量超過(guò)某個(gè)閾值T0K,則估計(jì)權(quán)重隨時(shí)間是平滑的。平滑操作描述如下對(duì)于每個(gè)子帶,在每個(gè)時(shí)間索引k處,獲取如下用于計(jì)算輸出子帶而應(yīng)用的權(quán)重 如果 TON(k) > TON。,貝 其中網(wǎng)!(幻、Wn(k)、還21(幻和還22(A0是平滑的權(quán)重并且Wll (k)、w12(k)、w21 (k)和
W22(k)是如前文所述計(jì)算的非平滑的權(quán)重。 否則訪22(眾)=評(píng)22(眾)。E.環(huán)境/混響控制此處描述的再混合技術(shù)在混合增益Ci和屯方面提供了用戶控制。這對(duì)應(yīng)于針對(duì) 每個(gè)對(duì)象確定增益&和幅度搖擺k (方向),其中增益和搖擺完全由Ci和屯確定, 在一些實(shí)現(xiàn)方案中,可能需要控制除了源信號(hào)的增益和幅度搖擺之外的其他立體 聲混合特征。在下面的描述中,描述了用于修改立體聲音頻信號(hào)的環(huán)境程度的技術(shù)。對(duì)于 該解碼器任務(wù)不使用邊信息。在一些實(shí)現(xiàn)方案中,[44]中給出的信號(hào)模型可用于修改立體聲信號(hào)的環(huán)境程度, 其中假設(shè)h和n2的子帶功率相等,即
(34)再次地,可以假設(shè)s、ni和n2是相互獨(dú)立的。在給定這些假設(shè)的情況下,相干性[17] 可被寫為 這對(duì)應(yīng)于具有變量PN(k)的二次方程,巧
( 36 )該二次方程的解是 由于PN(k)必須小于或等于6{\2(10}+£{^200},因此物理上可能的解是平方根
之前具有負(fù)號(hào)的解, 在一些實(shí)現(xiàn)方案中,為了控制左和右環(huán)境,可以針對(duì)兩個(gè)對(duì)象應(yīng)用再混合技術(shù)一 個(gè)對(duì)象是左側(cè)的子帶功率
的具有索引“的源,即an = 1并且bn = 0。另 一對(duì)象是右側(cè)的子帶功率五{4(幻} = &(幻的具有索引i2的源,即ai2 = 0并且bi2 = 1。為 了改變環(huán)境量,用戶可以選擇cn = dn = 10ga/2°和ci2 = dn = 0,其中g(shù)a是以dB為單位的 環(huán)境增益。F.不同的邊信息在一些實(shí)現(xiàn)方案中,在比特率方面更加高效的所公開的再混合方案中,可以使用 修改的或不同的邊信息。例如,在[24]中,Ajk)可以具有任意值。還存在對(duì)原始源信號(hào) Si(n)的聲級(jí)的依賴性。因此,為了獲取所需范圍中的邊信息,需要調(diào)節(jié)源輸入信號(hào)的聲級(jí)。 為了避免該調(diào)節(jié),并且為了去除邊信息對(duì)原始源信號(hào)聲級(jí)的依賴性,在一些實(shí)現(xiàn)方案中,源 子帶功率不僅可如[24]中相對(duì)立體聲信號(hào)子帶功率被歸一化,而且混合增益可被考慮為 這對(duì)應(yīng)于將相對(duì)立體聲信號(hào)歸一化的立體聲信號(hào)中包含的源功率用作邊信息 (而非直接使用源功率)??商孢x地,可以使用如下歸一化 由于Ai(k)僅可以取小于或等于OdB的值,因此該邊信息也是更加高效的。應(yīng)當(dāng) 注意,可以求解[39]和[40],用于子帶功率£{<00}。G.立體聲源信號(hào)/對(duì)象此處描述的再混合方案可以容易地?cái)U(kuò)展到處理立體聲源信號(hào)。出于邊信息的角 度,立體聲源信號(hào)被視為如兩個(gè)單信道源信號(hào)一個(gè)信號(hào)僅被混合到左側(cè)并且另一個(gè)信號(hào) 僅被混合到右側(cè)。即,左源信道i具有非零左增益因子 和零右增益因子bi+1。可以利用 [6]估計(jì)增益因子%和、+1。可以如同立體聲源是兩個(gè)單信道源的情況,傳送邊信息。需要 將一些信息傳送到解碼器以向解碼器指示哪些源是單信道源并且哪些源是立體聲源。對(duì)于解碼器處理和圖形用戶接口(GUI),一種可能性是在解碼器處將立體聲源信 號(hào)相似地呈現(xiàn)為單信道源信號(hào)。即,立體聲源信號(hào)具有與單信道源信號(hào)相似的增益和搖擺 控制。在一些實(shí)現(xiàn)方案中,非再混合立體聲信號(hào)的GUI的增益和搖擺控制同增益因子之間 的關(guān)系可被選擇為 即,⑶I可以在最初時(shí)被設(shè)定為這些值。用戶選擇的GAIN和PAN同新的增益因子 之間的關(guān)系可被選擇為 對(duì)于可用作再混合增益的Ci和di+1,可以解方程[42] (ci+1 = 0并且屯=0)。所 描述的功能與立體聲放大器上的“平衡”控制相似。在不引入串音的情況下修改源信號(hào)的 左和右信道的增益。VI.邊信息的盲生成A.邊信息的全盲生成在所公開的再混合方案中,編碼器接收立體聲信號(hào)和表示將在解碼器處被再混合 的對(duì)象的許多個(gè)源信號(hào)。通過(guò)增益因子 和、以及子帶功率E{Si2(k)}確定用于使具有索 引i的源信號(hào)在解碼器處被再混合所需的邊信息。前面的章節(jié)描述了給定源信號(hào)時(shí)的情況 中的邊信息確定。盡管立體聲信號(hào)易于獲取(由于這對(duì)應(yīng)于現(xiàn)有產(chǎn)品),但是可能難于獲取對(duì)應(yīng)于 將在解碼器處被再混合的對(duì)象的源信號(hào)。因此,即使對(duì)象的源信號(hào)是不可用的,仍需要生成 用于再混合的邊信息。在下面的描述中,描述了用于僅從立體聲信號(hào)生成邊信息的全盲生 成技術(shù)。圖8A是實(shí)現(xiàn)全盲邊信息生成的編碼系統(tǒng)800的實(shí)現(xiàn)方案的框圖。編碼系統(tǒng)800 通常包括濾波器組陣列802、邊信息生成器804和編碼器806。立體聲信號(hào)由濾波器組陣列 802接收,其將該立體聲信號(hào)(例如,右和左信道)分解為子帶對(duì)。該子帶對(duì)由邊信息處理 器804接收,其使用所需的源聲級(jí)差!^和增益函數(shù)f(M)從該子帶對(duì)生成邊信息。應(yīng)當(dāng)注 意,濾波器組陣列802和邊信息處理器804均不針對(duì)源信號(hào)進(jìn)行操作。邊信息完全得自輸 入立體聲信號(hào)、所需的源聲級(jí)差h和增益函數(shù)f (M)。圖8B是使用圖8A的編碼系統(tǒng)800的編碼過(guò)程808的實(shí)現(xiàn)方案的流程圖。將輸入 立體聲信號(hào)分解為子帶對(duì)(810)。對(duì)于每個(gè)子帶,使用所需的源聲級(jí)差值k確定關(guān)于每個(gè) 所需源信號(hào)的增益因子^和、(812)。對(duì)于直達(dá)聲音源信號(hào)(例如,錄音室中的中心搖擺 的源信號(hào)),所需的源聲級(jí)差是k = OdB。給定L”增益因子被計(jì)算為
1 b'=TT7,其中A = 10Li/°o應(yīng)當(dāng)注意屮和h已被計(jì)算為2 =1。該條件不是必需的;確 切的講,可以任意選擇以防止%或、在1^的量值是大的時(shí)候是大的。下一步,使用子帶對(duì)和混合增益估計(jì)直達(dá)聲音的子帶功率(814)。為了計(jì)算直達(dá)聲 音子帶功率,可以假設(shè)每次每個(gè)輸入信號(hào)的左和右子帶均可以被寫為
x, = as+n. x2 = bs+n2, (44)
聲音。
其中a和b是混合增益,s表示所有源信號(hào)的直達(dá)聲音并且ni和n2表示獨(dú)立環(huán)境 可以假設(shè)a和b是其中
}。應(yīng)當(dāng)注意,a和b可被計(jì)算為,s包含在中的
情況下的聲級(jí)差與x2和Xl之間的聲級(jí)差相同。直達(dá)聲音的以dB為單位的聲級(jí)差是M = log10B。我們可以根據(jù)[44]中給出的信號(hào)模型計(jì)算直達(dá)聲音子帶功率E{s2 (k)}。在一些 實(shí)現(xiàn)方案中,使用如下方程組
(46) E {Xl (k) x2 (k)} = abE {s2 (k)}。在[46]中已假設(shè)[34]中的s、ni和n2相互獨(dú)立,[46]中的左側(cè)的量可被測(cè)量,并 且a和b是可用的。因此,[46]中的三個(gè)未知量是£{82 00}丄{111200}和£{1122 00}。直達(dá) 聲音子帶功率E{s2 (k)}可由下式給出 直達(dá)聲音子帶功率還可被寫為相干性[17]的函數(shù), 在一些實(shí)現(xiàn)方案中,所需源子帶功率E{Si2(k)}的計(jì)算可以分兩步執(zhí)行首先,計(jì) 算直達(dá)聲音子帶功率E{s2(k)},其中s表示[44]中的所有源的直達(dá)聲音(例如,中心搖 擺)。然后,通過(guò)修改直達(dá)聲音子帶功率E{s2 (k)},計(jì)算(816)所需源子帶功率E{Si2(k)}, 作為直達(dá)聲音方向(由M表示)和所需聲音方向(由所需源聲級(jí)差L表示)的函數(shù)
(49)其中f(.)是增益函數(shù),該增益函數(shù)作為方向的函數(shù),僅針對(duì)所需源方向返回接近 1的增益因子。作為最終步驟,增益因子和子帶功率E{Si2(k)}可被量化和編碼以生成邊信 息(818)。圖9說(shuō)明了關(guān)于所需的源聲級(jí)差k = L dB的示例增益函數(shù)f (M)。應(yīng)當(dāng)注意,可 以在選擇f(M)方面控制方向性程度以具有所需方向、周圍的更大或更小的窄峰。對(duì)于中 心處的所需源,可以使用k = 6dB的峰寬度。應(yīng)當(dāng)注意,通過(guò)上述全盲技術(shù),可以確定關(guān)于給定源信號(hào)Si的邊信息(ai、bi、 E{Si2(k)})。
B.邊信息的盲生成和非盲生成之間的組合上述全盲生成技術(shù)在某些情況下可能受到限制。例如,如果兩個(gè)對(duì)象具有關(guān)于立 體聲錄音室的相同的位置(方向),則可能不能盲生成與一個(gè)或兩個(gè)對(duì)象相關(guān)的邊信息。針對(duì)邊信息的全盲生成的替選方案是邊信息的部分盲生成。部分盲技術(shù)生成粗略 對(duì)應(yīng)于原始對(duì)象波形的對(duì)象波形。這可以例如,通過(guò)使歌手或樂(lè)師演奏/重現(xiàn)特定的對(duì)象 信號(hào)來(lái)完成?;蛘?,可以部署用于此目的的MIDI數(shù)據(jù)并且使合成器生成對(duì)象信號(hào)。在一些 實(shí)現(xiàn)方案中,“粗略”對(duì)象波形與立體聲信號(hào)時(shí)間對(duì)準(zhǔn),其中針對(duì)該立體聲信號(hào)生成邊信息。 然后,可以使用作為盲和非盲邊信息生成的組合的過(guò)程生成邊信息。圖10是使用部分盲生成技術(shù)的邊信息生成過(guò)程1000的實(shí)現(xiàn)方案的示圖。過(guò)程 1000開始于獲取輸入立體聲信號(hào)和M個(gè)“粗略”源信號(hào)(1002)。下一步,確定用于M個(gè)“粗 略”源信號(hào)的增益因子%和bi(1004)。在每個(gè)子帶中的每個(gè)時(shí)隙中,確定關(guān)于每個(gè)“粗略” 源信號(hào)的子帶功率的第一短時(shí)估算E{Si2(k)} (1006)。使用應(yīng)用于輸入立體聲信號(hào)的全盲 生成技術(shù)確定關(guān)于每個(gè)“粗略”源信號(hào)的子帶功率的第二短時(shí)估算Ehat {Si2 (k)} (1008)。最后,針對(duì)估計(jì)的子帶功率應(yīng)用組合第一和第二子帶功率估算并且返回最終估算 的函數(shù),其可以有效地用于邊信息計(jì)算(1010)。在一些實(shí)現(xiàn)方案中,函數(shù)F()由下式給出 VII.架構(gòu)、用戶接口、比特流語(yǔ)法A.客戶機(jī)/服務(wù)器架構(gòu)圖11是用于向具有再混合能力的音頻設(shè)備1110提供立體聲信號(hào)和M個(gè)源信號(hào)和 /或邊信息的客戶機(jī)/服務(wù)器架構(gòu)1100的實(shí)現(xiàn)方案的框圖。架構(gòu)1100僅是示例。其他架 構(gòu)也是可能的,包括具有更多或更少部件的架構(gòu)。架構(gòu)1100通常包括具有知識(shí)庫(kù)1104 (例如,MySQL )和服務(wù)器1106 (例如, Windows NT、Linux服務(wù)器)的下載業(yè)務(wù)1102。知識(shí)庫(kù)1104可以存儲(chǔ)各種類型的內(nèi)容, 包括專業(yè)混合立體聲信號(hào),以及對(duì)應(yīng)于立體聲信號(hào)中的對(duì)象的關(guān)聯(lián)的源信和各種效果(例 如,混響)號(hào)。立體聲信號(hào)可以被存儲(chǔ)為各種標(biāo)準(zhǔn)化格式,包括MP3、PCM、AAC等。在一些實(shí)現(xiàn)方案中,源信號(hào)存儲(chǔ)在知識(shí)庫(kù)1104中并且可用于下載到音頻設(shè)備 1110。在一些實(shí)現(xiàn)方案中,預(yù)處理邊信息存儲(chǔ)在知識(shí)庫(kù)1104中并且可用于下載到音頻設(shè)備 1110。可以使用參照?qǐng)D1A、6A和8A描述的一個(gè)或多個(gè)編碼方案通過(guò)服務(wù)器1106生成預(yù)處 理邊信息。在一些實(shí)現(xiàn)方案中,下載業(yè)務(wù)1102(例如,Web站點(diǎn)、音樂(lè)商店)通過(guò)網(wǎng)絡(luò)1108(例 如,互聯(lián)網(wǎng)、內(nèi)聯(lián)網(wǎng)、以太網(wǎng)、無(wú)線網(wǎng)絡(luò)、對(duì)等網(wǎng)絡(luò))與音頻設(shè)備1110通信。音頻設(shè)備1110 可以是能夠?qū)崿F(xiàn)所公開的再混合方案的任何設(shè)備(例如,媒體播放器/記錄器、移動(dòng)電話、 個(gè)人數(shù)字助理(PDA)、游戲控制臺(tái)、機(jī)頂盒、電視接收機(jī)、媒體中心等)。B.音頻設(shè)備架構(gòu)在一些實(shí)現(xiàn)方案中,音頻設(shè)備1110包括一個(gè)或多個(gè)處理器或處理器核1112、輸 入設(shè)備1114 (例如,點(diǎn)撥輪、鼠標(biāo)、操縱桿、觸摸屏)、輸出設(shè)備1120 (例如,LCD)、網(wǎng)絡(luò)接口 1118(例如,USB、防火墻、以太網(wǎng)、網(wǎng)絡(luò)接口卡、無(wú)線收發(fā)信機(jī))和計(jì)算機(jī)可讀介質(zhì)1116(例如,存儲(chǔ)器、硬盤、閃存驅(qū)動(dòng)器)。一些或所有該部件可以通過(guò)通信信道1122 (例如,總線、網(wǎng) 橋)發(fā)送和/或接收信息。在一些實(shí)現(xiàn)方案中,計(jì)算機(jī)可讀介質(zhì)1116包括操作系統(tǒng)、音樂(lè)管理器、音頻處理 器、再混合模塊和音樂(lè)庫(kù)。操作系統(tǒng)負(fù)責(zé)管理音頻設(shè)備1110的基本管理和通信任務(wù),包括 文件管理、存儲(chǔ)器接入、總線連接、控制外圍設(shè)備、用戶接口管理、電力管理等。音樂(lè)管理器 可以是管理音樂(lè)庫(kù)的應(yīng)用。音頻處理器可以是用于播放音樂(lè)文件(例如,MP3、CD音頻等) 的常規(guī)的音頻處理器。再混合模塊可以是實(shí)現(xiàn)參照?qǐng)D1 10描述的再混合方案的功能的 一個(gè)或多個(gè)軟件部件。在一些實(shí)現(xiàn)方案中,如參照?qǐng)D1A、6A和8A描述的,服務(wù)器1106對(duì)立體聲信號(hào)編碼 并且生成邊信息。立體聲信號(hào)和邊信息通過(guò)網(wǎng)絡(luò)1108被下載到音頻設(shè)備1110。再混合模 塊對(duì)信號(hào)和邊信息解碼并且基于通過(guò)輸入設(shè)備1114(例如,鍵盤、點(diǎn)撥輪、觸摸顯示器)接 收的用戶輸入提供再混合能力。C.用于接收用戶輸入的用戶接口圖12說(shuō)明了具有再混合能力的媒體播放器1200的用戶接口 1202的實(shí)現(xiàn)方案。用 戶接口 1202還可以適用于其他設(shè)備(例如,移動(dòng)電話、計(jì)算機(jī)等)。用戶接口不限于所示出 的配置或格式,并且可以包括不同類型的用戶接口元素(例如,導(dǎo)航控制、觸摸表面)。用戶可以通過(guò)加亮用戶接口 1202上的適當(dāng)?shù)捻?xiàng)目進(jìn)入設(shè)備1200的“再混合”模 式。在該示例中,假設(shè)用戶從音樂(lè)庫(kù)中選擇了歌曲并且希望改變主唱音軌的搖擺設(shè)定。例 如,用戶可能希望在左音頻信道中收聽更多的主唱。為了獲取對(duì)所需搖擺控制的接入,用戶可以導(dǎo)航瀏覽一系列的子菜單1204、1206 和1208。例如,用戶可以使用滾輪1210滾讀子菜單1204、1206和1208上的項(xiàng)目。用戶可 以通過(guò)點(diǎn)擊按鈕1212選擇加亮的菜單項(xiàng)目。子菜單1208提供對(duì)關(guān)于主唱音軌的所需搖擺 控制的接入。隨后,在播放歌曲的同時(shí),用戶可以(例如,使用滾輪1210)操縱滑動(dòng)器按照 需要調(diào)節(jié)主唱的搖擺。D.比特流語(yǔ)法在一些實(shí)現(xiàn)方案中,參照?qǐng)D1-10描述的再混合方案可以包括在現(xiàn)有的或未來(lái)的 音頻編碼標(biāo)準(zhǔn)(例如,MPEG-4)中。用于現(xiàn)有的或未來(lái)的編碼標(biāo)準(zhǔn)的比特流語(yǔ)法可以包括 具有再混合能力的解碼器使用的用于確定如何處理比特流以允許用戶再混合的信息。該語(yǔ) 法可被設(shè)計(jì)為通過(guò)常規(guī)編碼方案提供向后兼容性。例如,比特流中包括的數(shù)據(jù)結(jié)構(gòu)(例如, 分組報(bào)頭)可以包括指示用于再混合的邊信息(例如,增益因子、子帶功率)的可用性的信 息(例如,一個(gè)或多個(gè)比特或標(biāo)志)。VIII.無(wú)伴奏模式和自動(dòng)增益/搖擺調(diào)節(jié)A.無(wú)伴奏模式增強(qiáng)方案立體聲無(wú)伴奏信號(hào)對(duì)應(yīng)于僅包括聲音的立體聲信號(hào)。在不喪失一般性的前提下,
令最初M個(gè)源si、s2.....sM為[1]中的聲音源。為了從原始立體聲信號(hào)獲取立體聲無(wú)伴奏
信號(hào),可以使非聲音源衰減。所需的立體聲信號(hào)是 其中K是用于非聲音源的衰減因子。由于不使用搖擺,因此通過(guò)使用從[50]的無(wú) 伴奏立體聲信號(hào)定義得到的期望值,可以計(jì)算新的二權(quán)重Wiener濾波器 通過(guò)將K設(shè)定為1()¥,可以使非聲音源衰減A dB,給出了得到立體聲無(wú)伴奏信號(hào)的 印象。B.自動(dòng)增益/搖擺調(diào)節(jié)在改變?cè)吹脑鲆婧蛽u擺設(shè)定時(shí),可以選擇導(dǎo)致削弱的渲染質(zhì)量的極值。例如,除一 個(gè)保持OdB之外將所有源移至最小增益,或者除一個(gè)移至右側(cè)之外將所有源移至左側(cè),可 以產(chǎn)生關(guān)于該隔離的源的差的音頻質(zhì)量。該情形應(yīng)被避免,以保持沒(méi)有人工效果的干凈渲 染的立體聲信號(hào)。一種用于避免該情形的手段是防止增益和搖擺控制的極端設(shè)定。每個(gè)控制k,增益和搖擺滑動(dòng)器&和化分別可以具有范圍[_1,1]中的圖形用戶 接口(GUI)中的內(nèi)部值。為了限制極端設(shè)定,增益滑動(dòng)器之間的平均距離可被計(jì)算為 其中K是控制的數(shù)目。P 越接近1,則設(shè)定越極端。隨后將調(diào)節(jié)因子Gadjust作為平均距離P G的函數(shù)來(lái)計(jì)算以限制⑶I中的增益滑動(dòng) 器的范圍GadJust = l-(l-nG)uG, (54)其中ne定義了關(guān)于例如P e = 1的極端設(shè)定的自動(dòng)調(diào)整Ga(Uust的程度。典型地, ne被選擇為等于約0. 5以在極端設(shè)定的情況中使增益減少一半。依照相同的過(guò)程,計(jì)算Padjust并且將其應(yīng)用于搖擺滑動(dòng)器,以便于有效增益和搖擺 被調(diào)整為gk = GadJustgk, (55)pk = PadJustPko所公開的和其他的實(shí)施例以及本說(shuō)明書中描述的功能操作可以在數(shù)字電子電路 中實(shí)現(xiàn),或者在包括本說(shuō)明書中公開的結(jié)構(gòu)及其結(jié)構(gòu)等效方案的計(jì)算機(jī)軟件、固件或硬件 中實(shí)現(xiàn),或者通過(guò)組合一個(gè)或多個(gè)以上手段來(lái)實(shí)現(xiàn)。所公開的和其他的實(shí)施例可被實(shí)現(xiàn)為 一個(gè)或多個(gè)計(jì)算機(jī)程序產(chǎn)品,即用于由數(shù)據(jù)處理裝置執(zhí)行或者控制數(shù)據(jù)處理裝置操作的在 計(jì)算機(jī)可讀介質(zhì)上編碼的一個(gè)或多個(gè)計(jì)算機(jī)程序指令模塊。計(jì)算機(jī)可讀介質(zhì)可以是機(jī)器可 讀存儲(chǔ)設(shè)備、機(jī)器可讀存儲(chǔ)基板、存儲(chǔ)器設(shè)備、實(shí)現(xiàn)機(jī)器可讀傳播信號(hào)的事件的組合或者一 個(gè)或多個(gè)以上介質(zhì)的組合。術(shù)語(yǔ)“數(shù)據(jù)處理裝置”涵蓋用于處理數(shù)據(jù)的所有裝置、設(shè)備和機(jī) 器,包括作為示例的可編程處理器、計(jì)算機(jī)或者多個(gè)處理器或計(jì)算機(jī)。除了硬件之外,該裝 置可以包括創(chuàng)建關(guān)于正被討論的計(jì)算機(jī)程序的執(zhí)行環(huán)境的代碼,例如,構(gòu)成處理器固件、協(xié)議堆棧、數(shù)據(jù)庫(kù)管理系統(tǒng)、操作系統(tǒng)或者一個(gè)或多個(gè)以上執(zhí)行環(huán)境的組合的代碼。傳播信號(hào) 是人工生成信號(hào),例如,機(jī)器生成的電、光或電磁信號(hào),其被生成以對(duì)用于傳送到適當(dāng)?shù)慕?收機(jī)裝置的信息編碼。計(jì)算機(jī)程序(還被稱為程序、軟件、軟件應(yīng)用、腳本或代碼)可以通過(guò)任何形式的 編程語(yǔ)言編寫,包括編譯或解釋語(yǔ)言,并且其可以通過(guò)任何形式部署,包括作為獨(dú)立的程序 或者作為模塊的部件、子程序或者適于在計(jì)算環(huán)境中使用的其他單元。計(jì)算機(jī)程序不必對(duì) 應(yīng)于文件系統(tǒng)中的文件。程序可以存儲(chǔ)在保存其他程序或數(shù)據(jù)(例如,存儲(chǔ)在標(biāo)記語(yǔ)言文 檔中的一個(gè)或多個(gè)腳本)的文件的一部分中,保存在正被討論的程序?qū)S玫膯蝹€(gè)文件中, 或者保存在多個(gè)協(xié)同文件(例如,存儲(chǔ)一個(gè)或多個(gè)模塊、子程序或代碼部分的文件)中。計(jì) 算機(jī)程序可被部署為在一個(gè)計(jì)算機(jī)上執(zhí)行或者在位于一個(gè)地點(diǎn)或跨越多個(gè)地點(diǎn)分布并且 通過(guò)通信網(wǎng)絡(luò)互連的多個(gè)計(jì)算機(jī)上執(zhí)行。本說(shuō)明書中描述的過(guò)程和邏輯流程可以通過(guò)一個(gè)或多個(gè)可編程處理器執(zhí)行,該可 編程處理器通過(guò)對(duì)輸入數(shù)據(jù)進(jìn)行操作并且生成輸出,執(zhí)行一個(gè)或多個(gè)計(jì)算機(jī)程序以執(zhí)行功 能。該過(guò)程和邏輯流程還通過(guò)專用邏輯電路來(lái)實(shí)現(xiàn),或者裝置也可被實(shí)現(xiàn)為專用邏輯電路, 例如,F(xiàn)PGA (現(xiàn)場(chǎng)可編程門陣列)或ASIC (專用集成電路)。作為示例,適用于執(zhí)行計(jì)算機(jī)程序的處理器包括通用和專用微處理器和任何類別 的數(shù)字計(jì)算機(jī)的任何一個(gè)或多個(gè)處理器。通常,處理器將從只讀存儲(chǔ)器或隨機(jī)存取存儲(chǔ)器 或此兩者接收指令和數(shù)據(jù)。計(jì)算機(jī)的基本元件是用于執(zhí)行指令的處理器和用于存儲(chǔ)指令和 數(shù)據(jù)的一個(gè)或多個(gè)存儲(chǔ)器設(shè)備。通常,計(jì)算機(jī)還將包括用于存儲(chǔ)數(shù)據(jù)的一個(gè)或多個(gè)大容量 存儲(chǔ)設(shè)備,例如,磁盤、磁-光盤或者光盤,或者操作耦合至這些大容量存儲(chǔ)設(shè)備以從其接 收數(shù)據(jù)或者向其傳輸數(shù)據(jù)或者執(zhí)行這兩個(gè)操作。然而,計(jì)算機(jī)不需要具有這些設(shè)備。用于 存儲(chǔ)計(jì)算機(jī)程序指令和數(shù)據(jù)的計(jì)算機(jī)可讀媒體包括所有形式的非易失存儲(chǔ)器、媒體和存儲(chǔ) 器設(shè)備,其包括作為示例的半導(dǎo)體存儲(chǔ)器設(shè)備,例如,EPROM、EEPR0M和閃速存儲(chǔ)器設(shè)備;磁 盤,例如,內(nèi)部硬盤或可移除盤;磁-光盤;以及⑶-ROM和DVD-ROM盤。處理器和存儲(chǔ)器可 以由專用邏輯電路補(bǔ)充或者被并入專用邏輯電路。為了提供與用戶的交互,所公開的實(shí)施例可以在計(jì)算機(jī)上實(shí)現(xiàn),該計(jì)算機(jī)具有顯 示設(shè)備,例如CRT(陰極射線管)或LCD(液晶顯示器)監(jiān)視器,其用于向用戶顯示信息;以 及鍵盤和指向設(shè)備,例如鼠標(biāo)或軌跡球,用戶可以通過(guò)其向計(jì)算機(jī)提供輸入。也可以使用其 他類別的設(shè)備提供與用戶的交互;例如,提供給用戶的反饋可以是任何形式的感覺(jué)反饋,例 如視覺(jué)反饋、聽覺(jué)反饋或觸覺(jué)反饋;并且可以通過(guò)任何形式接收來(lái)自用戶的輸入,包括聲、 語(yǔ)音或觸覺(jué)輸入。所公開的實(shí)施例可以在計(jì)算系統(tǒng)中實(shí)現(xiàn),該計(jì)算系統(tǒng)包括后端部件,例如數(shù)據(jù)服 務(wù)器,或者包括中間部件,例如應(yīng)用服務(wù)器,或者包括前端部件,例如具有圖形用戶接口或 Web瀏覽器的客戶機(jī)計(jì)算機(jī),用戶可以通過(guò)該圖形用戶接口或Web瀏覽器與這里公開的實(shí) 現(xiàn)方案交互,或者包括一個(gè)或多個(gè)該后端、中間或前端部件的任何組合。系統(tǒng)部件可以通 過(guò)數(shù)字?jǐn)?shù)據(jù)通信的任何形式或介質(zhì)(例如通信網(wǎng)絡(luò))被互聯(lián)。通信網(wǎng)絡(luò)的示例包括局域網(wǎng) (LAN)和例如互聯(lián)網(wǎng)的廣域網(wǎng)(WAN)。計(jì)算系統(tǒng)可以包括客戶機(jī)和服務(wù)器??蛻魴C(jī)和服務(wù)器通常相互是遠(yuǎn)程的并且典型 地通過(guò)通信網(wǎng)絡(luò)交互??蛻魴C(jī)和服務(wù)器的關(guān)系是依靠在各個(gè)計(jì)算機(jī)上運(yùn)行并且具有相互的客戶機(jī)_服務(wù)器關(guān)系的計(jì)算機(jī)程序而引出的。VIII.使用再混合技術(shù)的系統(tǒng)的示例圖13說(shuō)明了組合空間音頻對(duì)象解碼(SA0C)和再混合解碼的解碼器系統(tǒng)1300的 實(shí)現(xiàn)方案。SA0C是用于處理多信道音頻的音頻技術(shù),其允許編碼聲音對(duì)象的交互式操縱。在一些實(shí)現(xiàn)方案中,系統(tǒng)1300包括混合信號(hào)解碼器1301、參數(shù)生成器1302和再混 合渲染器1304。參數(shù)生成器1302包括盲估計(jì)器1308、用戶混合參數(shù)生成器1310和再混合 參數(shù)生成器1306。再混合參數(shù)生成器1306包括均衡混合參數(shù)生成器1312和上混合參數(shù)生 成器1314。在一些實(shí)現(xiàn)方案中,系統(tǒng)1300提供兩個(gè)音頻過(guò)程。在第一過(guò)程中,再混合參數(shù)生 成器1306使用編碼系統(tǒng)提供的邊信息生成再混合參數(shù)。在第二過(guò)程中,通過(guò)盲估計(jì)器1308 生成盲參數(shù)并且再混合參數(shù)生成器1306使用該盲參數(shù)生成再混合參數(shù)。如參照?qǐng)D8A和8B 描述的,可以通過(guò)盲估計(jì)器1308執(zhí)行盲參數(shù)和全盲或部分盲生成過(guò)程。在一些實(shí)現(xiàn)方案中,再混合參數(shù)生成器1306接收邊信息或盲參數(shù),并且從用戶混 合參數(shù)生成器1310接收一組用戶混合參數(shù)。用戶混合參數(shù)生成器1310接收終端用戶指定 的混合參數(shù)(例如,GAIN、PAN)并且將混合參數(shù)轉(zhuǎn)換為適用于再混合參數(shù)生成器1306的 再混合處理的格式(例如,轉(zhuǎn)換為增益Ci、di+1)。在一些實(shí)現(xiàn)方案中,用戶混合參數(shù)生成器 1310提供用于允許用戶指定所需混合參數(shù)的用戶接口,諸如例如參照?qǐng)D12描述的媒體播 放器用戶接口 1200。在一些實(shí)現(xiàn)方案中,再混合參數(shù)生成器1306可以處理立體聲和多信道音頻信號(hào)。 例如,均衡混合參數(shù)生成器1312可以生成用于立體聲信道目標(biāo)的混合參數(shù),并且上混合參 數(shù)生成器1314可以生成用于多信道目標(biāo)的再混合參數(shù)。參考章節(jié)IV描述了基于多信道音 頻信號(hào)的再混合參數(shù)生成。在一些實(shí)現(xiàn)方案中,再混合渲染器1304接收關(guān)于立體聲目標(biāo)信號(hào)或多信道目標(biāo) 信號(hào)的再混合參數(shù)。均衡混合渲染器1316基于用戶混合參數(shù)生成器1310提供的格式化的 用戶指定的立體聲混合參數(shù),將立體聲再混合參數(shù)應(yīng)用于直接從混合信號(hào)解碼器1301接 收的原始立體聲信號(hào)以提供所需的再混合立體聲信號(hào)。在一些實(shí)現(xiàn)方案中,可以使用立體 聲再混合參數(shù)的nXn矩陣(例如,2X2矩陣)將立體聲再混合參數(shù)應(yīng)用于原始立體聲信 號(hào)。上混合渲染器1318基于用戶混合參數(shù)生成器1310提供的格式化的用戶指定的多信 道混合參數(shù),將多信道再混合參數(shù)應(yīng)用于直接從混合信號(hào)解碼器1301接收的原始多信道 信號(hào)以提供所需的再混合多信道信號(hào)。在一些實(shí)現(xiàn)方案中,效果生成器1320生成效果信號(hào) (例如,混響),均衡混合渲染器1316或上混合渲染器分別將該效果信號(hào)應(yīng)用于原始立體聲 或多信道信號(hào)。在一些實(shí)現(xiàn)方案中,除了應(yīng)用再混合參數(shù)以生成再混合多信道信號(hào)之外,上 混合渲染器1318接收原始立體聲信號(hào)并且將該立體聲信號(hào)轉(zhuǎn)換(或上混合)為多信道信 號(hào)。系統(tǒng)1300可以處理具有各種信道配置的音頻信號(hào),允許系統(tǒng)1300集成到現(xiàn)有的 音頻編碼方案(例如,SAOC、MPEG、AAC、參量立體聲)中,同時(shí)與該音頻編碼方案保持向后 兼容性。圖14A說(shuō)明了關(guān)于分立對(duì)話音量(SDV)的通用混合模型。SDV是題為“Separate Dialogue Volume"的美國(guó)臨時(shí)專利申請(qǐng)No. 60/884,594中描述的一種改進(jìn)的對(duì)話增強(qiáng)技術(shù)。在SDV的一個(gè)實(shí)現(xiàn)方案中,立體聲信號(hào)被記錄和混合,從而對(duì)于每個(gè)源,信號(hào)相干地進(jìn) 入具有特定方向線索(例如,聲級(jí)差、時(shí)間差)的左和右信號(hào)信道,并且反射/混響?yīng)毩⑿?號(hào)進(jìn)入確定聽覺(jué)事件寬度和聽者包圍感線索的信道。參照?qǐng)D14A,因子a確定聽覺(jué)事件呈現(xiàn) 的方向,其中s是直達(dá)聲音并且ni和n2是橫向反射。信號(hào)s模仿來(lái)自由因子a確定的方向 的局部化聲音。獨(dú)立信號(hào)&和n2對(duì)應(yīng)于反射/混響聲音,其常常被標(biāo)為環(huán)境聲音或環(huán)境。 所描述的場(chǎng)景是關(guān)于具有一個(gè)音頻源的立體聲信號(hào)的感知激勵(lì)分解,Xj (n) = s (n) + x2(n) = as(n)+n2, (51)捕獲音頻源和環(huán)境的局部化。圖14B說(shuō)明了組合SDV和再混合技術(shù)的系統(tǒng)1400的實(shí)現(xiàn)方案。在一些實(shí)現(xiàn)方案 中,系統(tǒng)1400包括濾波器組1402 (例如,STFT)、盲估計(jì)器1404、均衡混合渲染器1406、參數(shù) 生成器1408和逆濾波器組1410(例如,逆STFT)。在一些實(shí)現(xiàn)方案中,濾波器組1402接收SDV下混合信號(hào)并且將其分解為子帶信 號(hào)。下混合信號(hào)可以是[51]給出的立體聲信號(hào)xi、x2。子帶信號(hào)&(1,10、&(1,10被直接 輸入到均衡混合渲染器1406中或者盲估計(jì)器1404中,盲估計(jì)器1404輸出盲參數(shù)A、Ps、Pn。 在題為“S印arateDialogue Volume”的美國(guó)臨時(shí)專利申請(qǐng)No. 60/884, 594中描述了這些參 數(shù)的計(jì)算。盲參數(shù)被輸入到參數(shù)生成器1408中,參數(shù)生成器1408從盲參數(shù)和用戶指定的 混合參數(shù)g(i,k)(例如,中心增益、中心帶寬、截止頻率、干燥度)生成均衡混合參數(shù)wn w220章節(jié)I中描述了均衡混合參數(shù)的計(jì)算。均衡混合渲染器1406將均衡混合參數(shù)應(yīng)用于 子帶信號(hào)以提供渲染輸出信號(hào)yi、y2。均衡混合渲染器1406的渲染輸出信號(hào)被輸入到逆濾 波器組1410,逆濾波器組1410基于用戶指定的混合參數(shù)將渲染輸出信號(hào)轉(zhuǎn)換為所需的SDV 立體聲信號(hào)。在一些實(shí)現(xiàn)方案中,如參照?qǐng)D1 12說(shuō)明的,系統(tǒng)1400還使用再混合技術(shù)處理音 頻信號(hào)。在再混合模式中,濾波器組1402接收立體聲或多信道信號(hào),諸如[1]和[27]中描 述的信號(hào)。該信號(hào)通過(guò)濾波器組1402被分解為子帶信號(hào)Xji,k)、X2(i,k)并且被直接輸 入到均衡渲染器1406和用于估計(jì)盲參數(shù)的盲估計(jì)器1404中。盲參數(shù)與在比特流中接收的 邊信息 、bp Psi 一起被輸入到參數(shù)生成器1408中。參數(shù)生成器1408將盲參數(shù)和邊信息 應(yīng)用于子帶信號(hào)以生成渲染輸出信號(hào)。渲染輸出信號(hào)被輸入到逆濾波器組1410,逆濾波器 組1410生成所需的再混合信號(hào)。圖15說(shuō)明了圖14B中示出的均衡混合渲染器1406的實(shí)現(xiàn)方案。在一些實(shí)現(xiàn)方案 中,通過(guò)調(diào)整模塊1502和1504調(diào)整下混合信號(hào)XI,并且通過(guò)調(diào)整模塊1506和1508調(diào)整下 混合信號(hào)X2。調(diào)整模塊1502根據(jù)均衡混合參數(shù)wn調(diào)整下混合信號(hào)XI,調(diào)整模塊1504根 據(jù)均衡混合參數(shù)w21調(diào)整下混合信號(hào)XI,調(diào)整模塊1506根據(jù)均衡混合參數(shù)w12調(diào)整下混合 信號(hào)X2,并且調(diào)整模塊1508根據(jù)均衡混合參數(shù)w22調(diào)整下混合信號(hào)X2。調(diào)整模塊1502和 1506的輸出被求和以提供第一渲染輸出信號(hào)yi,并且調(diào)整模塊1504和1508的輸出被求和 以提供第二渲染輸出信號(hào)y2。圖16說(shuō)明了用于參照?qǐng)D1 15描述的再混合技術(shù)的分布系統(tǒng)1600的實(shí)現(xiàn)方案。 在一些實(shí)現(xiàn)方案中,內(nèi)容提供商1602使用授權(quán)工具1604,授權(quán)工具1604包括如前面參照 圖1A描述的用于生成邊信息的再混合編碼器1606。邊信息可以是一個(gè)或多個(gè)文件的一部分和/或包括在用于比特流業(yè)務(wù)的比特流中。再混合文件可以具有唯一文件擴(kuò)展名(例 如,filename. rmx)0單個(gè)文件可以包括原始混合音頻信號(hào)和邊信息??商孢x地,原始混合 音頻信號(hào)和邊信息可以作為分立的文件分布在分組、束、包或其他適當(dāng)?shù)娜萜髦?。在一些?shí) 現(xiàn)方案中,可以通過(guò)預(yù)設(shè)的混合參數(shù)分布再混合文件以幫助用戶學(xué)習(xí)技術(shù)和/或用于市場(chǎng) 目的。在一些實(shí)現(xiàn)方案中,可將原始內(nèi)容(例如,原始混合音頻文件)、邊信息和可選的 預(yù)設(shè)混合參數(shù)(“再混合信息”)提供給服務(wù)提供商1608(例如,音樂(lè)門戶)或者將其安置 在物理介質(zhì)(例如,⑶_R0M、DVD、媒體播放器、閃存驅(qū)動(dòng)器)上。服務(wù)提供商1608可以操作 用于服務(wù)所有或部分再混合信息和/或包含所有或部分再混合信息的比特流的一個(gè)或多 個(gè)服務(wù)器1610。再混合信息可以存儲(chǔ)在知識(shí)庫(kù)1612中。服務(wù)提供商1608還可以提供用于 共享用戶生成的混合參數(shù)的虛擬環(huán)境(例如,社區(qū)、門戶、公告牌)。例如,用戶在能夠?qū)崿F(xiàn) 再混合的設(shè)備1616(例如,媒體播放器、移動(dòng)電話)上生成的混合參數(shù)可以存儲(chǔ)在混合參數(shù) 文件中,該混合參數(shù)文件可以上載到服務(wù)提供商1608用于與其他用戶共享?;旌蠀?shù)文件 可以具有唯一擴(kuò)展名(例如,filename, rms)。在所示出的示例中,用戶使用再混合播放器 A生成混合參數(shù)文件并且將該混合參數(shù)文件上載到服務(wù)提供商1608,其中該文件隨后由操 作再混合播放器B的用戶下載??梢允褂萌魏我阎臄?shù)字版權(quán)管理方案和/或其他已知的安全方法實(shí)現(xiàn)系統(tǒng) 1600以保護(hù)原始內(nèi)容和再混合信息。例如,操作再混合播放器B的用戶可能需要分立地下 載原始內(nèi)容并且在用戶可以訪問(wèn)或者使用再混合播放器B提供的再混合特征之前保護(hù)證 書。圖17A說(shuō)明了用于提供再混合信息的比特流的基本元素。在一些實(shí)現(xiàn)方案中,單 個(gè)集成比特流1702可被遞送到能夠?qū)崿F(xiàn)再混合的設(shè)備,其包括混合音頻信號(hào)(MixecLObj BS)、增益因子和子帶功率(Ref_Mix_Para BS)以及用戶指定的混合參數(shù)(User_Mix_Para BS)。在一些實(shí)現(xiàn)方案中,關(guān)于再混合信息的多個(gè)比特流可被獨(dú)立地遞送到能夠?qū)崿F(xiàn)再混合 的設(shè)備。例如,可以在第一比特流1704中遞送混合音頻信號(hào),并且可以在第二比特流1706 中遞送增益因子、子帶功率和用戶指定的混合參數(shù)。在一些實(shí)現(xiàn)方案中,可以在三個(gè)分立的 比特流1708、1710和1712中遞送混合音頻信號(hào)、增益因子和子帶功率以及用戶指定的混合 參數(shù)??梢砸韵嗤虿煌谋忍芈蔬f送這些分立的比特流??梢允褂酶鞣N已知技術(shù)按照需 要處理比特流以節(jié)約帶寬并且確保魯棒性,包括比特交織、熵編碼(例如,霍夫曼編碼)、糾 錯(cuò)等。圖17B說(shuō)明了再混合編碼器的比特流接口 1714。在一些實(shí)現(xiàn)方案中,針對(duì)再混合 編碼器接口 1714的輸入可以包括混合對(duì)象信號(hào)、單獨(dú)的對(duì)象或源信號(hào)和編碼器選項(xiàng)。編碼 器接口 1714的輸出可以包括混合音頻信號(hào)比特流、包括增益因子和子帶功率的比特流以 及包括預(yù)設(shè)混合參數(shù)的比特流。圖17C說(shuō)明了再混合解碼器的比特流接口 1716。在一些實(shí)現(xiàn)方案中,針對(duì)再混合 解碼器接口 1716的輸入可以包括混合音頻信號(hào)比特流、包括增益因子和子帶功率的比特 流以及包括預(yù)設(shè)混合參數(shù)的比特流。解碼器接口 1716的輸出可以包括再混合音頻信號(hào)、上 混合渲染器比特流(例如,多信道信號(hào))、盲再混合參數(shù)和用戶再混合參數(shù)。關(guān)于編碼器和解碼器接口的其他配置也是可能的。圖17B和17C中說(shuō)明的接口配置可用于定義應(yīng)用編程接口(API),其用于允許能夠?qū)崿F(xiàn)再混合的設(shè)備處理再混合信息。圖 17B和17C中示出的接口是示例,并且其他配置也是可能的,包括可以部分地基于設(shè)備具有 不同數(shù)目和類型的輸入和輸出的配置。圖18是示出示例系統(tǒng)1800的框圖,該系統(tǒng)1800包括用于生成關(guān)于某些對(duì)象信 號(hào)的額外邊信息的擴(kuò)展以提供再混合信號(hào)的改進(jìn)的感知質(zhì)量。在一些實(shí)現(xiàn)方案中,系統(tǒng) 1800 (在編碼側(cè))包括混合信號(hào)編碼器1808和增強(qiáng)再混合編碼器1802,增強(qiáng)再混合編碼器 1802包括再混合編碼器1804和信號(hào)編碼器1806。在一些實(shí)現(xiàn)方案中,系統(tǒng)1800 (在解碼 側(cè))包括混合信號(hào)解碼器1810、再混合渲染器1814和參數(shù)生成器1816。在編碼器側(cè),混合音頻信號(hào)通過(guò)混合信號(hào)編碼器1808 (例如,mp3編碼器)被編碼 并且被發(fā)送到解碼側(cè)。對(duì)象信號(hào)(例如,主唱、吉他、鼓或其他樂(lè)器)被輸入到再混合編碼 器1804,例如,如前面參照?qǐng)D1A和3A描述的,再混合編碼器1804生成邊信息(例如,增益 因子和子帶功率)。此外,感興趣的一個(gè)或多個(gè)對(duì)象信號(hào)被輸入到信號(hào)編碼器1806 (例如, mp3編碼器)以產(chǎn)生額外的邊信息。在一些實(shí)現(xiàn)方案中,用于使混合信號(hào)編碼器1808和信 號(hào)編碼器1806的輸出信號(hào)分別對(duì)準(zhǔn)的對(duì)準(zhǔn)信息被輸入到信號(hào)編碼器1806。對(duì)準(zhǔn)信息可以 包括時(shí)間對(duì)準(zhǔn)信息、所使用的編碼規(guī)則類型、目標(biāo)比特率、比特分配信息或策略等。在解碼器側(cè),混合信號(hào)編碼器的輸出被輸入到混合信號(hào)解碼器1810 (例如,mp3解 碼器)?;旌闲盘?hào)解碼器1810的輸出和編碼器邊信息(例如,編碼器生成的增益因子、子帶 功率、額外的邊信息)被輸入到參數(shù)生成器1816,參數(shù)生成器1816使用這些參數(shù)和控制參 數(shù)(例如,用戶指定的混合參數(shù))一起生成再混合參數(shù)和額外的再混合數(shù)據(jù)。再混合渲染 器1814可以使用該再混合參數(shù)和額外的再混合數(shù)據(jù)來(lái)渲染再混合音頻信號(hào)。再混合渲染器1814使用該額外的再混合數(shù)據(jù)(例如,對(duì)象信號(hào))使原始混合音頻 信號(hào)中的特定對(duì)象再混合。例如,在卡拉0K應(yīng)用中,增強(qiáng)再混合編碼器1802可以使用表示 主唱的對(duì)象信號(hào)生成額外的邊信息(例如,編碼對(duì)象信號(hào))。參數(shù)生成器1816可以使用該 信號(hào)生成額外的再混合數(shù)據(jù),再混合渲染器1814可以使用該額外的再混合數(shù)據(jù)使原始混 合音頻信號(hào)中的主唱再混合(例如,抑制或衰減主唱)。圖19是示出圖18中示出的再混合渲染器1814的示例的框圖。在一些實(shí)現(xiàn)方案 中,下混合信號(hào)XI、X2被分別輸入到組合器1904、1906中。下混合信號(hào)XI、X2可以是例如 原始混合音頻信號(hào)的左和右信道。組合器1904、1906使下混合信號(hào)XI、X2與參數(shù)生成器 1816提供的額外的再混合數(shù)據(jù)組合。在卡拉0K示例中,組合可以包括在再混合之前從下混 合信號(hào)XI、X2中減去主唱對(duì)象信號(hào)以衰減或抑制再混合音頻信號(hào)中的主唱。在一些實(shí)現(xiàn)方案中,下混合信號(hào)XI (例如,原始混合音頻信號(hào)的左信道)與額外的 再混合數(shù)據(jù)(例如,主唱對(duì)象信號(hào)的左信道)組合并且通過(guò)調(diào)整模塊1906a和1906b被調(diào) 整,并且下混合信號(hào)X2(例如,原始混合音頻信號(hào)的右信道)與額外的再混合數(shù)據(jù)(例如, 主唱對(duì)象信號(hào)的右信道)組合并且通過(guò)調(diào)整模塊1906c和1906d被調(diào)整。調(diào)整模塊1906a 根據(jù)均衡混合參數(shù)調(diào)整下混合信號(hào)XI,調(diào)整模塊1906b根據(jù)均衡混合參數(shù)w21調(diào)整下混 合信號(hào)XI,調(diào)整模塊1906c根據(jù)均衡混合參數(shù)w12調(diào)整下混合信號(hào)X2,并且調(diào)整模塊1906d 根據(jù)均衡混合參數(shù)w22調(diào)整下混合信號(hào)X2。可以使用線性代數(shù),諸如使用n X n (例如,2 X 2) 矩陣實(shí)現(xiàn)該調(diào)整。調(diào)整模塊1906a和1906c的輸出被求和以提供第一渲染輸出信號(hào)Y2,并 且調(diào)整模塊1906b和1906d被求和以提供第二渲染輸出信號(hào)Y2。
在一些實(shí)現(xiàn)方案中,可以在用戶接口中實(shí)現(xiàn)用于在原始立體聲混合,“卡拉OK”模 式和/或“無(wú)伴奏”模式之間移動(dòng)的控制。作為該控制位置的函數(shù),組合器1902控制原始 立體聲信號(hào)和通過(guò)額外的邊信息獲取的信號(hào)(多個(gè))之間的線性組合。例如,對(duì)于卡拉0K 模式,可以從立體聲信號(hào)中減去從額外的邊信息獲取的信號(hào)。隨后可以應(yīng)用再混合處理以 移除量化噪聲(在立體聲和/或其他信號(hào)被有損編碼的情況中)。為了部分地移除聲音,僅 需要減去通過(guò)額外的邊信息獲取的信號(hào)的一部分。為了僅播放聲音,組合器1902選擇通過(guò) 額外的邊信息獲取的信號(hào)。為了播放聲音和某種背景音樂(lè),組合器1902將立體聲信號(hào)的調(diào) 整版本添加到通過(guò)額外的邊信息獲取的信號(hào)。盡管本說(shuō)明書包含許多細(xì)節(jié),但是它們不應(yīng)被解釋為對(duì)權(quán)利要求的范圍的限制, 而是應(yīng)被解釋為特定實(shí)施例的特定特征的描述。本說(shuō)明書中在分立實(shí)施例的上下文中描述 的某些特征也可以在單個(gè)實(shí)施例中以組合形式實(shí)現(xiàn)。相反地,在單個(gè)實(shí)施例的上下文中描 述的各種特征也可以分立地在多個(gè)實(shí)施例中實(shí)現(xiàn)或者以任何適當(dāng)?shù)淖咏M合來(lái)實(shí)現(xiàn)。而且, 盡管上文將特征描述為在某些組合中發(fā)揮作用并且在權(quán)利要求中亦是如此,但是來(lái)自權(quán)利 要求組合的一個(gè)或多個(gè)特征可以在一些情況中從該組合排除,并且權(quán)利要求組合可以涉及 子組合或者子組合的變化方案。相似地,盡管在附圖中以特定順序示出了操作,但是這不應(yīng)被理解為,為了實(shí)現(xiàn)所 需的結(jié)果,需要按照所示出的特定順序或者按照依次的順序執(zhí)行該操作,或者需要執(zhí)行所 有說(shuō)明的操作。在特定情況中,多任務(wù)和并行處理可能是有利的。而且,上文描述的實(shí)施例 中的各種系統(tǒng)部件的分離不應(yīng)被理解為在所有實(shí)施例中都需要該分離,并且應(yīng)當(dāng)理解,所 描述的程序部件和系統(tǒng)通??梢砸黄鸺稍趩蝹€(gè)軟件產(chǎn)品中或者封裝到多個(gè)軟件產(chǎn)品中。已描述了本說(shuō)明書中描述的主題的特定實(shí)施例。其他實(shí)施例在所附權(quán)利要求的范 圍內(nèi)。例如,可以按照不同的順序執(zhí)行權(quán)利要求中敘述的動(dòng)作并且仍然實(shí)現(xiàn)所需的結(jié)果。作 為一個(gè)示例,為了實(shí)現(xiàn)所需的結(jié)果,附圖中示出的過(guò)程不必需要所示出的特定順序,或者依 次的順序。作為另一示例,章節(jié)5A中描述的邊信息的預(yù)處理提供了關(guān)于再混合信號(hào)的子帶 功率的下限以防止負(fù)值,這與[2]中給出的信號(hào)模型矛盾。然而,該信號(hào)模型不僅意指再混 合信號(hào)的正功率,還意指原始立體聲信號(hào)和再混合立體聲信號(hào)之間的正的叉積,即E{xiyi}、 E {x1y2}、E {x2yj 禾P E {x2y2}。從兩個(gè)權(quán)重的情況開始,為了防止叉積E{xiyi}和E{x2y2}變負(fù),[18]中定義的權(quán) 重被限制到某個(gè)閾值,從而使它們從不小于A dB。然后,通過(guò)考慮如下條件限制叉積,其中
表示平方根并且Q被定義為 如果五
則叉積限于五休 如 果五{11,少2}<0!|!對(duì)付(五{<}五{X22}),貝丨J 叉積 限 于 五 KM-P^^NW}五{x22})。
如 果五hjhG*叫以(五{<}五“22}) 如果五拉少五“22},則叉積限于五
權(quán)利要求
一種計(jì)算機(jī)實(shí)現(xiàn)的方法,包括獲取具有一組對(duì)象的第一多信道音頻信號(hào);獲取邊信息,至少一些邊信息表示所述第一多信道音頻信號(hào)和表示將被再混合的對(duì)象的一個(gè)或多個(gè)源信號(hào)之間的關(guān)系;獲取一組混合參數(shù);獲取衰減因子;以及使用所述邊信息、所述衰減因子和所述一組混合參數(shù)生成第二多信道音頻信號(hào)。
2.如權(quán)利要求1所述的方法,其中獲取所述一組混合參數(shù)進(jìn)一步包括 接收指定所述一組混合參數(shù)的用戶輸入。
3.如權(quán)利要求1所述的方法,其中生成第二多信道音頻信號(hào)包括 將所述第一多信道音頻信號(hào)分解為第一組子帶信號(hào);使用所述邊信息和所述一組混合參數(shù)估計(jì)對(duì)應(yīng)于所述第二多信道音頻信號(hào)的第二組 子帶信號(hào);以及將所述第二組子帶信號(hào)轉(zhuǎn)換為所述第二多信道音頻信號(hào)。
4.如權(quán)利要求3所述的方法,其中估計(jì)第二組子帶信號(hào)進(jìn)一步包括對(duì)所述邊信息解碼以提供與將被再混合的對(duì)象關(guān)聯(lián)的增益因子和子帶功率估算; 基于所述增益因子、子帶功率估算和所述一組混合參數(shù)確定一組或多組權(quán)重;以及 使用至少一組權(quán)重估計(jì)所述第二組子帶信號(hào)。
5.如權(quán)利要求4所述的方法,其中確定一組或多組權(quán)重進(jìn)一步包括 確定第一組權(quán)重的量值;以及確定第二組權(quán)重的量值,其中所述第二組權(quán)重包括不同于所述第一組權(quán)重的權(quán)重?cái)?shù)目。
6.如權(quán)利要求5所述的方法,進(jìn)一步包括 比較所述第一和第二組權(quán)重的量值;以及基于所述比較的結(jié)果選擇所述第一和第二組權(quán)重之一用于在估計(jì)所述第二組子帶信 號(hào)時(shí)使用。
7.如權(quán)利要求4所述的方法,其中確定一組或多組權(quán)重進(jìn)一步包括確定使所述第一多信道音頻信號(hào)和所述第二多信道音頻信號(hào)之間的差最小的一組權(quán)重。
8.如權(quán)利要求4所述的方法,其中確定一組或多組權(quán)重進(jìn)一步包括形成線性方程組,其中所述方程組中的每個(gè)方程是積的和,并且每個(gè)積是通過(guò)使子帶 信號(hào)與權(quán)重相乘而得到的;以及通過(guò)求解所述線性方程組確定所述權(quán)重。
9.如權(quán)利要求8所述的方法,其中使用最小二乘估計(jì)求解所述線性方程組。
10.如權(quán)利要求9所述的方法,其中所述線性方程組的解提供了第一權(quán)重wn,其被給出為w = E{xl} EjXyyl)- E{xxx2 }E{x2yl} Π ~E{xf}E{x22}-E2{χ,χ,}~,其中E {.}表示短時(shí)平均,X1和X2是第一多信道音頻信號(hào)的信道,并且Y1是第二多信道音頻信號(hào)的信道。
11.如權(quán)利要求9所述的方法,其中所述線性方程組的解提供了第二權(quán)重W22,其被給出為 其中E {.}表示短時(shí)平均,X1和X2是第一多信道音頻信號(hào)的信道,并且y2是第二多信道 音頻信號(hào)的信道。
12.如權(quán)利要求10或11所述的方法,其中 其中K是用于使非聲音源衰減的衰減因子,并且%和h是增益因子。
13.如權(quán)利要求12所述的方法,其中 ,并且非聲音源被衰減A dB。
14.如權(quán)利要求12所述的方法,其中所述第二多信道音頻信號(hào)被給出為 只(
15.一種裝置,包括解碼器,可配置用于接收邊信息并且用于從所述邊信息獲取再混合參數(shù),其中至少一 些所述邊信息表示第一多信道音頻信號(hào)和用于生成所述第一多信道音頻信號(hào)的一個(gè)或多 個(gè)源信號(hào)之間的關(guān)系;接口,可配置用于獲取一組混合參數(shù)和衰減因子;和再混合模塊,耦合至所述解碼器和所述接口,所述再混合模塊可配置用于使用所述邊 信息、所述衰減因子和所述一組混合參數(shù)使所述源信號(hào)再混合以生成具有衰減的非聲音源 的第二多信道音頻信號(hào)。
16.如權(quán)利要求15所述的裝置,其中至少所述一組混合參數(shù)由用戶通過(guò)所述接口指定。
17.如權(quán)利要求15所述的裝置,進(jìn)一步包括至少一個(gè)濾波器組,可配置用于將所述第一多信道音頻信號(hào)分解為第一組子帶信號(hào)。
18.如權(quán)利要求17所述的裝置,其中所述再混合模塊使用所述邊信息、所述衰減因子 和所述一組混合參數(shù)估計(jì)對(duì)應(yīng)于所述第二多信道音頻信號(hào)的第二組子帶信號(hào),并且將所述 第二組子帶信號(hào)轉(zhuǎn)換為所述第二多信道音頻信號(hào)。
19.如權(quán)利要求18所述的裝置,其中所述解碼器對(duì)所述邊信息解碼以提供與所述將 被再混合的源信號(hào)關(guān)聯(lián)的增益因子和子帶功率估算,并且所述再混合模塊基于所述增益因 子、子帶功率估算、衰減因子和所述一組混合參數(shù)確定一組或多組權(quán)重,并且使用至少一組 權(quán)重來(lái)估計(jì)所述第二組子帶信號(hào)。
20.如權(quán)利要求19所述的裝置,其中所述再混合模塊通過(guò)確定使所述第一多信道音頻 信號(hào)和所述第二多信道音頻信號(hào)之間的差最小的一組權(quán)重來(lái)確定一組或多組權(quán)重。
21.如權(quán)利要求19所述的裝置,其中所述再混合模塊通過(guò)求解線性方程組確定一組或 多組權(quán)重,其中所述方程組中的每個(gè)方程是積的和,并且每個(gè)積是通過(guò)使子帶信號(hào)與權(quán)重 相乘而得到的。
22.如權(quán)利要求21所述的裝置,其中使用最小二乘估計(jì)求解所述線性方程組。
23.如權(quán)利要求22所述的裝置,其中所述線性方程組的解提供第一權(quán)重wn,其被給出為 其中 表示短時(shí)平均,X1和X2是所述第一多信道音頻信號(hào)的信道,并且yi是所述第 二多信道音頻信號(hào)的信道。
24.如權(quán)利要求22所述的裝置,其中所述線性方程組的解提供第二權(quán)重W22,其被給出為 其中 表示短時(shí)平均,X1和X2是所述第一多信道音頻信號(hào)的信道,并且y2是第二多 信道音頻信號(hào)的信道。
25.如權(quán)利要求23或24所述的裝置,其中 其中K是用于使非聲音源衰減的衰減因子,并且%和h是增益因子。
26.如權(quán)利要求25所述的裝置,其中&= 1G¥’并且非聲音源被衰減A dB。
27.如權(quán)利要求25所述的裝置,其中所述第二多信道音頻信號(hào)被給出為
28.一種計(jì)算機(jī)可讀介質(zhì),在所述計(jì)算機(jī)可讀介質(zhì)上存儲(chǔ)有指令,所述指令在由處理器 執(zhí)行時(shí),使所述處理器執(zhí)行操作,所述操作包括獲取具有一組對(duì)象的第一多信道音頻信號(hào);獲取邊信息,至少一些邊信息表示所述第一多信道音頻信號(hào)和表示將被再混合的對(duì)象 的一個(gè)或多個(gè)源信號(hào)之間的關(guān)系; 獲取一組混合參數(shù); 獲取衰減因子;以及使用所述邊信息、所述衰減因子和所述一組混合參數(shù)生成第二多信道音頻信號(hào)。
29.一種計(jì)算機(jī)實(shí)現(xiàn)的方法,包括 獲取具有一組對(duì)象的第一多信道音頻信號(hào);獲取邊信息,至少一些邊信息表示所述第一多信道音頻信號(hào)和表示將被再混合的對(duì)象 的一個(gè)或多個(gè)源信號(hào)之間的關(guān)系;通過(guò)圖形用戶接口獲取增益參數(shù)gk或搖擺參數(shù)Pk ; 獲取增益調(diào)節(jié)因子Gatuust或搖擺調(diào)節(jié)因子Padjust ;使所述增益參數(shù)&或所述搖擺參數(shù)Pk分別乘以所述增益調(diào)節(jié)因子Gatuust或搖擺調(diào)節(jié) 因子Padjust以提供調(diào)整增益參數(shù)或調(diào)整搖擺參數(shù);以及使用所述邊信息和所述調(diào)整增益參數(shù)或調(diào)整搖擺參數(shù)生成第二多信道音頻信號(hào)。
30.如權(quán)利要求29所述的方法,其中所述增益調(diào)節(jié)因子Gatuust被給出為 其中 并且ne定義自動(dòng)調(diào)整的程度。
31.如權(quán)利要求29所述的方法,其中所述搖擺調(diào)節(jié)因子Patuust被給出為 其中 并且定義自動(dòng)調(diào)整的程度。
32.—種計(jì)算機(jī)實(shí)現(xiàn)的方法,包括獲取具有一組對(duì)象的第一多信道音頻信號(hào);獲取邊信息,至少一些邊信息表示所述第一多信道音頻信號(hào)和表示將被再混合的對(duì)象 的一個(gè)或多個(gè)源信號(hào)之間的關(guān)系;通過(guò)圖形用戶接口獲取增益參數(shù)或搖擺參數(shù);以及生成第二多信道音頻信號(hào)作為所述第一多信道音頻信號(hào)信道的線性組合,其中使用所 述邊信息和所述增益參數(shù)或搖擺參數(shù)確定所述特定線性組合。
33.如權(quán)利要求32所述的方法,其中生成第二多信道音頻信號(hào)包括 將所述第一多信道音頻信號(hào)分解為第一組子帶信號(hào);使用所述邊信息和所述增益或搖擺參數(shù)估計(jì)對(duì)應(yīng)于所述第二多信道音頻信號(hào)的第二 組子帶信號(hào);以及將所述第二組子帶信號(hào)轉(zhuǎn)換為所述第二多信道音頻信號(hào)。
全文摘要
可修改與立體聲或多信道音頻信號(hào)的一個(gè)或多個(gè)對(duì)象(例如,樂(lè)器)關(guān)聯(lián)的一個(gè)或多個(gè)屬性(例如,搖擺、增益等)以提供再混合能力。
文檔編號(hào)H04S3/00GK101855918SQ200880109867
公開日2010年10月6日 申請(qǐng)日期2008年8月13日 優(yōu)先權(quán)日2007年8月13日
發(fā)明者克里斯托夫·法勒, 吳賢午, 鄭亮源 申請(qǐng)人:Lg電子株式會(huì)社