通過(guò)再混合能力增強(qiáng)音頻的制作方法

文檔序號(hào)：7940543閱讀：262來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

專利名稱：通過(guò)再混合能力增強(qiáng)音頻的制作方法
技術(shù)領(lǐng)域：
本申請(qǐng)的主題總體上涉及音頻信號(hào)處理。
背景技術(shù)：
許多消費(fèi)者音頻設(shè)備(例如，立體聲音響、媒體播放器、移動(dòng)電話、游戲控制臺(tái)等) 允許用戶使用關(guān)于均衡(例如，低音、高音)、音量、房間聲效等的控制修改立體聲音頻信號(hào)。然而，這些修改被應(yīng)用于整體音頻信號(hào)而非構(gòu)成該音頻信號(hào)的單獨(dú)的音頻對(duì)象(例如，樂(lè)器)。例如，用戶不能在不影響整體歌曲的情況下單獨(dú)地修改歌曲中的吉他、鼓或聲音的立體聲搖擺或增益。已提出了在解碼器處提供混合靈活性的技術(shù)。這些技術(shù)依賴于雙耳線索編碼 (BCC)、參量或空間音頻解碼器，用于生成混合解碼器輸出信號(hào)。然而，這些技術(shù)不能在不危害聲音質(zhì)量的情況下直接對(duì)立體聲混合(例如，專業(yè)混合音樂(lè))編碼以允許向后兼容性。已提出了使用信道間線索(例如，聲級(jí)差、時(shí)間差、相位差、相干性)來(lái)呈現(xiàn)立體聲或多信道音頻信道的空間音頻編碼技術(shù)。將該信道間線索作為“邊信息”傳送到解碼器以在生成多信道輸出信號(hào)時(shí)使用。然而，這些常規(guī)的空間音頻編碼技術(shù)具有數(shù)個(gè)缺點(diǎn)。例如，這些技術(shù)中的至少一些技術(shù)需要將關(guān)于每個(gè)音頻對(duì)象的分立的信號(hào)傳送到解碼器，即使在解碼器處將不對(duì)該音頻對(duì)象做修改。該要求導(dǎo)致了編碼器和解碼器處的不必要的處理。另一缺點(diǎn)是使編碼器輸入限于立體聲(或多信道)音頻信號(hào)或音頻源信號(hào)，導(dǎo)致了解碼器處的再混合的靈活性的降低。最后，這些常規(guī)技術(shù)中的至少一些技術(shù)需要解碼器處的復(fù)雜的解相關(guān)處理，使得該技術(shù)不適用于一些應(yīng)用或設(shè)備。

發(fā)明內(nèi)容
可修改與立體聲或多信道音頻信號(hào)的一個(gè)或多個(gè)對(duì)象(例如，樂(lè)器)關(guān)聯(lián)的一個(gè) 或多個(gè)屬性(例如，搖擺、增益等)以提供再混合能力。在一些實(shí)現(xiàn)方案中，通過(guò)使非聲音源衰減從立體聲音頻信號(hào)得到立體聲無(wú)伴奏信號(hào)。使用由無(wú)伴奏立體聲信號(hào)模型得到的期望值計(jì)算統(tǒng)計(jì)濾波器。該統(tǒng)計(jì)濾波器可以結(jié)合用于使非聲音源衰減的衰減因子使用。在一些實(shí)現(xiàn)方案中，自動(dòng)增益/搖擺調(diào)節(jié)可以應(yīng)用于立體聲音頻信號(hào)，其防止用戶對(duì)增益和搖擺控制進(jìn)行極端的設(shè)定。增益滑動(dòng)器之間的平均距離可以用于作為平均距離的函數(shù)的調(diào)節(jié)因子來(lái)限制增益滑動(dòng)器的范圍。其他實(shí)現(xiàn)方案被公開用于通過(guò)再混合能力增強(qiáng)音頻，包括涉及系統(tǒng)、方法、裝置、計(jì)算機(jī)可讀介質(zhì)和用戶接口的實(shí)現(xiàn)方案。

圖1A是用于對(duì)立體聲信號(hào)加上對(duì)應(yīng)于將在解碼器處被再混合的對(duì)象的M個(gè)源信號(hào)進(jìn)行編碼的編碼系統(tǒng)的實(shí)現(xiàn)方案的框圖。圖1B是用于對(duì)立體聲信號(hào)加上對(duì)應(yīng)于將在解碼器處被再混合的對(duì)象的M個(gè)源信號(hào)進(jìn)行編碼的過(guò)程的實(shí)現(xiàn)方案的流程圖。圖2說(shuō)明了用于分析和處理立體聲信號(hào)和M個(gè)源信號(hào)的時(shí)間-頻率圖示。圖3A是用于使用原始立體聲信號(hào)加上邊信息估計(jì)再混合立體聲信號(hào)的再混合系統(tǒng)的實(shí)現(xiàn)方案的框圖。圖3B是用于使用圖3A的再混合系統(tǒng)估計(jì)再混合立體聲信號(hào)的過(guò)程的實(shí)現(xiàn)方案的流程圖。圖4說(shuō)明了屬于具有索引b的分區(qū)的短時(shí)傅立葉變換(STFT)系數(shù)的索引i。圖5說(shuō)明了對(duì)用于模仿人類聽覺(jué)系統(tǒng)的非均勻頻率分辨率的均勻STFT頻譜的頻譜系數(shù)進(jìn)行分組。圖6A是與常規(guī)的立體聲音頻編碼器組合的圖1的編碼系統(tǒng)的實(shí)現(xiàn)方案的框圖。圖6B是使用與常規(guī)的立體聲音頻編碼器組合的圖1A的編碼系統(tǒng)的編碼過(guò)程的實(shí) 現(xiàn)方案的流程圖。圖7A是與常規(guī)的立體聲音頻解碼器組合的圖3A的再混合系統(tǒng)的實(shí)現(xiàn)方案的框圖。圖7B是使用與立體聲音頻解碼器組合的圖7A的再混合系統(tǒng)的再混合過(guò)程的實(shí)現(xiàn) 方案的流程圖。圖8A是實(shí)現(xiàn)全盲邊信息生成的編碼系統(tǒng)的實(shí)現(xiàn)方案的框圖。圖8B是使用圖8A的編碼系統(tǒng)的編碼過(guò)程的實(shí)現(xiàn)方案的流程圖。圖9說(shuō)明了關(guān)于所需的源聲級(jí)差Li = L dB的示例增益函數(shù)f (M)。圖10是使用部分盲生成技術(shù)的邊信息生成過(guò)程的實(shí)現(xiàn)方案的示圖。圖11是用于向具有再混合能力的音頻設(shè)備提供立體聲信號(hào)和M個(gè)源信號(hào)和/或邊信息的客戶機(jī)/服務(wù)器架構(gòu)的實(shí)現(xiàn)方案的框圖。圖12說(shuō)明了用于具有再混合能力的媒體播放器的用戶接口的實(shí)現(xiàn)方案。圖13說(shuō)明了組合空間音頻對(duì)象(SA0C)解碼和再混合解碼的解碼系統(tǒng)的實(shí)現(xiàn)方案。圖14A說(shuō)明了關(guān)于分立對(duì)話音量(SDV)的通用混合模型。圖14B說(shuō)明了組合SDV和再混合技術(shù)的系統(tǒng)的實(shí)現(xiàn)方案。圖15說(shuō)明了圖14B中示出的均衡混合渲染器的實(shí)現(xiàn)方案。圖16說(shuō)明了用于參照?qǐng)D1 15描述的再混合技術(shù)的分布系統(tǒng)的實(shí)現(xiàn)方案。圖17A說(shuō)明了用于提供再混合信息的各種比特流實(shí)現(xiàn)方案的元素。圖17B說(shuō)明了用于生成圖17A中說(shuō)明的比特流的再混合編碼器接口的實(shí)現(xiàn)方案。圖17C說(shuō)明了用于接收?qǐng)D17B中說(shuō)明的編碼器接口生成的比特流的再混合解碼器接口的實(shí)現(xiàn)方案。
7
圖18是如下系統(tǒng)的實(shí)現(xiàn)方案的框圖，該系統(tǒng)包括用于生成關(guān)于某些對(duì)象信號(hào)的額外邊信息的擴(kuò)展以提供改進(jìn)的再混合性能。圖19是圖18中示出的再混合渲染器的實(shí)現(xiàn)方案的框圖。
具體實(shí)施例方式I.再混合立體聲信號(hào)圖1A是用于對(duì)立體聲信號(hào)加上對(duì)應(yīng)于將在解碼器處被再混合的對(duì)象的M個(gè)源信號(hào)進(jìn)行編碼的編碼系統(tǒng)100的實(shí)現(xiàn)方案的框圖。在一些實(shí)現(xiàn)方案中，編碼系統(tǒng)100通常包括濾波器組陣列102、邊信息生成器104和編碼器106。A.原始和所需再混合信號(hào)時(shí)間離散立體聲音頻信號(hào)的兩個(gè)信道被標(biāo)為和其中n是時(shí)間索引。假設(shè)立體聲信號(hào)可以表示為其中I是立體聲信號(hào)(例如，MP3)中包含的源信號(hào)(例如，樂(lè)器)的數(shù)目并且5；㈨
是源信號(hào)。因子％和、確定每個(gè)源信號(hào)的增益和幅度搖擺。假設(shè)所有源信號(hào)相互獨(dú)立。
源信號(hào)可以不完全是純?cè)葱盘?hào)。確切的講，一些源信號(hào)可以包含混響和/或其他聲音效果
信號(hào)分量。在一些實(shí)現(xiàn)方案中，延遲屯可被引入到[1]中的原始混合音頻信號(hào)中以促成與
再混合參數(shù)的時(shí)間對(duì)準(zhǔn) 1 在一些實(shí)現(xiàn)方案中，編碼系統(tǒng)100提供或生成用于修改原始立體聲音頻信號(hào)(在下文中還被稱為“立體聲信號(hào)”)的信息(在下文中還被稱為“邊信息”)，以便于利用不同增益因子將M個(gè)源信號(hào)“再混合”為立體聲信號(hào)。所需的修改的立體聲信號(hào)可被表示其中(^和屯是用于將被再混合的M個(gè)源信號(hào)(S卩，具有索引1、2.....M的源信
號(hào))的新的增益因子(在下文中還被稱為“混合增益”或“混合參數(shù)”)。編碼系統(tǒng)100的目的在于，在僅給出原始立體聲信號(hào)和少量的邊信息(例如，較之立體聲信號(hào)波形中包含的信息是少的)的情況下提供或生成用于使立體聲信號(hào)再混合的信息?？梢栽诮獯a器中使用由編碼系統(tǒng)100提供或生成的邊信息以在給定的原始立體聲信號(hào)[1]的情況下在感知上模仿所需的修改的立體聲信號(hào)[2]。通過(guò)編碼系統(tǒng)100，邊信息生成器104生成用于使原始立體聲信號(hào)再混合的邊信息，并且解碼器系統(tǒng)300 (圖3A)使用邊信息和原始立體聲信號(hào)生成所需的再混合立體聲音頻信號(hào)。B.編碼器處理再次參照?qǐng)D1A，提供原始立體聲信號(hào)和M個(gè)源信號(hào)作為針對(duì)濾波器組陣列102的輸入。還從編碼器102直接輸出原始立體聲信號(hào)。在一些實(shí)現(xiàn)方案中，從編碼器102直接輸出的立體聲信號(hào)可被延遲以與邊信息比特流同步。在其他實(shí)現(xiàn)方案中，立體聲信號(hào)輸出可以在解碼器處與邊信息同步。在一些實(shí)現(xiàn)方案中，編碼系統(tǒng)100適于用信號(hào)通知作為時(shí)間和頻率的函數(shù)的統(tǒng)計(jì)數(shù)據(jù)。因此，為了分析和合成，如參照?qǐng)D4和5描述的，根據(jù)時(shí)間_頻率表示來(lái)處理立體聲信號(hào)和M個(gè)源信號(hào)。圖1B是用于對(duì)立體聲信號(hào)加上對(duì)應(yīng)于將在解碼器處被再混合的對(duì)象的M個(gè)源信號(hào)進(jìn)行編碼的過(guò)程108的實(shí)現(xiàn)方案的流程圖。將輸入立體聲信號(hào)和M個(gè)源信號(hào)分解為子帶 (110)。在一些實(shí)現(xiàn)方案中，該分解是通過(guò)濾波器組陣列實(shí)現(xiàn)的。如下文更全面描述的，對(duì) 于每個(gè)子帶，估計(jì)關(guān)于M個(gè)源信號(hào)的增益因子(112)。如下文所述，對(duì)于每個(gè)子帶，計(jì)算關(guān)于 M個(gè)源信號(hào)的短時(shí)功率估算(114)。量化和編碼估計(jì)的增益因子和子帶功率以生成邊信息 (116)。圖2說(shuō)明了用于分析和處理立體聲信號(hào)和M個(gè)源信號(hào)的時(shí)間_頻率圖示。圖中y 軸表示頻率并且被劃分為多個(gè)非均勻子帶202。x軸表示時(shí)間并且被劃分為時(shí)隙204。圖 2中的每個(gè)虛線框表示各個(gè)子帶和時(shí)隙對(duì)。因此，對(duì)于給定的時(shí)隙204，可以將對(duì)應(yīng)于時(shí)隙 204的一個(gè)或多個(gè)子帶202作為組206進(jìn)行處理。在一些實(shí)現(xiàn)方案中，如參照?qǐng)D4和5描述的，基于與人類聽覺(jué)系統(tǒng)關(guān)聯(lián)的感知限制，來(lái)選擇子帶202的寬度。在一些實(shí)現(xiàn)方案中，通過(guò)濾波器組陣列102將輸入立體聲信號(hào)和M個(gè)輸入源信號(hào) 分解為許多個(gè)子帶202?？梢韵嗨频靥幚碓诿總€(gè)中心頻率處的子帶202。特定頻率處的立體聲音頻輸入信號(hào)的子帶對(duì)被標(biāo)為Xl(k)和x2(k)，其中k是子帶信號(hào)的下采樣時(shí)間索引。
相似地，M個(gè)輸入源信號(hào)的對(duì)應(yīng)的子帶信號(hào)被標(biāo)為Sl(k)、s2(k).....sM(k)。應(yīng)當(dāng)注意，為
了簡(jiǎn)化標(biāo)記，在該示例中已省略關(guān)于子帶的索引。對(duì)于下采樣，出于效率考慮可以使用具有較低采樣率的子帶信號(hào)。通常，濾波器組和STFT有效地具有次采樣信號(hào)(或頻譜系數(shù))。在一些實(shí)現(xiàn)方案中，用于使具有索引i的源信號(hào)再混合所需的邊信息包括增益因子和bp以及每個(gè)子帶中的作為時(shí)間的函數(shù)的子帶信號(hào)的功率估算E {Si2 (k)}。增益因子 %和、可以是給定的(如果立體聲信號(hào)的該知識(shí)是已知的)或者是估計(jì)的。對(duì)于許多立體聲信號(hào)，ai和h是靜態(tài)的。如果％或、作為時(shí)間k的函數(shù)變化，則可作為時(shí)間的函數(shù)來(lái) 估計(jì)這些增益因子。沒(méi)有必要使用子帶功率的平均值或估算生成邊信息。確切的講，在一些實(shí)現(xiàn)方案中，實(shí)際的子帶功率可以用作功率估算。在一些實(shí)現(xiàn)方案中，可以使用單極平均來(lái)估計(jì)短時(shí)子帶功率，其中E{Si2(k)}可被計(jì)算為其中a G
確定指數(shù)衰落估計(jì)窗口的時(shí)間常數(shù)，并且fs表示子帶采樣頻率。關(guān)于T的適當(dāng)?shù)闹悼梢允抢纾?0毫秒。在下面的式中，E{.}通常表示短時(shí)平均。在一些實(shí)現(xiàn)方案中，可以在與立體聲信號(hào)相同的媒體上提供一些或所有邊信息、1^和￡{<00}。例如，音樂(lè)發(fā)行商、錄音棚、錄音藝術(shù)家等可以在光盤(⑶)、數(shù)字視頻光盤(DVD)、閃存驅(qū)動(dòng)器等上與對(duì)應(yīng)的立體聲信號(hào)一起提供邊信息。在一些實(shí)現(xiàn)方案中，通過(guò) 將邊信息嵌入立體聲信號(hào)的比特流中或者在分立的比特流中傳送邊信息，可以在網(wǎng)絡(luò)(例如，互聯(lián)網(wǎng)、以太網(wǎng)、無(wú)線網(wǎng)絡(luò))上提供一些或所有邊信息。如果未給出屮和by則可以估計(jì)這些因子。由于扔5；⑷系⑷} =，因此 a,可被計(jì)算為
(5)相似地，bi可被計(jì)算為如果和、在時(shí)間上是自適應(yīng)的，則E{.}算子表示短時(shí)平均運(yùn)算。另一方面，如果增益因子％和h是靜態(tài)的，則通過(guò)整體考慮立體聲音頻信號(hào)可以計(jì)算增益因子。在一些實(shí)現(xiàn)方案中，可以針對(duì)每個(gè)子帶獨(dú)立地估計(jì)增益因子％和、。應(yīng)當(dāng)注意在[5]和[6]中，源信號(hào)是獨(dú)立的，但是通常，由于Si包含在立體聲信道Xl和x2中，因此源信號(hào)Si和立體聲信道Xl和x2不是獨(dú)立的。在一些實(shí)現(xiàn)方案中，由編碼器106量化和編碼關(guān)于每個(gè)子帶的短時(shí)功率估算和增益因子以形成邊信息(例如，低比特率比特流)。應(yīng)當(dāng)注意，如參照?qǐng)D4和5描述的，這些值可能未被直接量化和編碼，而是首先可被轉(zhuǎn)換為更適于量化和編碼的其他的值。在一些實(shí)現(xiàn)方案中，如參照?qǐng)D6 7描述的，可以使E{Si2(k)}相對(duì)于輸入立體聲音頻信號(hào)的子帶功率歸一化，使得在使用常規(guī)的音頻編碼器高效地對(duì)立體聲音頻信號(hào)編碼時(shí)，編碼系統(tǒng)100 相對(duì)于改變是魯棒的。C.解碼器處理圖3A是用于使用原始立體聲信號(hào)加上邊信息估計(jì)再混合立體聲信號(hào)的再混合系統(tǒng)300的實(shí)現(xiàn)方案的框圖。在一些實(shí)現(xiàn)方案中，再混合系統(tǒng)300通常包括濾波器組陣列302、解碼器304、再混合模塊306和逆濾波器組陣列308?？梢栽谠S多個(gè)子帶中獨(dú)立地執(zhí)行再混合立體聲音頻信號(hào)的估計(jì)。該邊信息包括子帶功率E{Si2(k)}以及增益因子和、^個(gè)源信號(hào)包含在該立體聲信號(hào)中。由(^和屯表示所需再混合立體聲信號(hào)的新的增益因子或混合增益。諸如參照?qǐng)D12描述的，可由用戶通過(guò)音頻設(shè)備的用戶接口指定混合增益q和屯。在一些實(shí)現(xiàn)方案中，通過(guò)濾波器組陣列302將輸入立體聲信號(hào)分解為子帶，其中特定頻率處的子帶對(duì)被標(biāo)為Xl(k)和&(10。如圖3A中說(shuō)明的，通過(guò)解碼器304解碼邊信息，針對(duì)將被再混合的M個(gè)源信號(hào)中的每個(gè)源信號(hào)產(chǎn)生增益因子和by該增益因子ai和 h包含在輸入立體聲信號(hào)中，并且對(duì)于每個(gè)子帶，產(chǎn)生功率估算E {Si2 (k) }。參照?qǐng)D4和5更加詳細(xì)地描述了邊信息的解碼。在給定邊信息的情況下，可以由再混合模塊306將再混合立體聲音頻信號(hào)的對(duì)應(yīng) 的子帶對(duì)作為再混合立體聲信號(hào)的混合增益Ci和屯的函數(shù)來(lái)估計(jì)。逆濾波器組陣列308被應(yīng)用于估計(jì)的子帶對(duì)以提供再混合時(shí)域立體聲信號(hào)。圖3B是用于使用圖3A的再混合系統(tǒng)估計(jì)再混合立體聲信號(hào)的再混合過(guò)程310的實(shí)現(xiàn)方案的流程圖。將輸入立體聲信號(hào)分解為子帶對(duì)(312)。針對(duì)子帶對(duì)對(duì)邊信息進(jìn)行解碼(314)。使用邊信息和混合增益使子帶對(duì)再混合(318)。在一些實(shí)現(xiàn)方案中，如參照?qǐng)D12 描述的，由用戶提供混合增益?？商孢x地，可以通過(guò)應(yīng)用、操作系統(tǒng)等來(lái)程序性地提供混合增益。如參照?qǐng)D11描述的，也可以通過(guò)網(wǎng)絡(luò)(例如，互聯(lián)網(wǎng)、以太網(wǎng)、無(wú)線網(wǎng)絡(luò))提供混合增碰。D.再混合過(guò)程在一些實(shí)現(xiàn)方案中，可以使用最小二乘估計(jì)在數(shù)學(xué)意義上逼近再混合立體聲信號(hào)?？蛇x地，感知考慮可用于修改估算。式[1]和[2]也分別支持子帶對(duì)Xl(k) ^P x2(k)以及yi(k)和％00。在該情況中，源信號(hào)被替換為源子帶信號(hào)Si (k)。立體聲信號(hào)的子帶對(duì)由下式給出并且再混合立體聲音頻信號(hào)的子帶對(duì)是給定原始立體聲信號(hào)的子帶對(duì)Xl (k)和x2 (k)，具有不同增益的立體聲信號(hào)的子帶對(duì)被估計(jì)為原始左和右立體聲子帶對(duì)的線性組合，其中wil(k)、w12(k)、w21(k)和 w22(k)是實(shí)值加權(quán)因子。估計(jì)誤差被定義為在每個(gè)頻率處在子帶的每個(gè)時(shí)間k處，可以計(jì)算權(quán)重wn(k)、w12(k)、w21(k)和 w22(k)，以便于使均方誤差E{ei2(k)}和E{e22(k)}最小。為了計(jì)算wn(k)和w12(k)，我們注意到在誤差ei(k) %Xl(k)和x2(k)正交時(shí)E{ei2(k)}最小，即EKyrWuXrw^xJ = 0(11)E {(yfWnXiU》x2} =0。應(yīng)當(dāng)注意，為了便于標(biāo)記，省略了時(shí)間索引k。(13)
0101]增益因子是該線性方程組的解。102]
在給定解碼器輸入立體聲信號(hào)子帶對(duì)的情況下可以直接估計(jì)E{Xl2}、E{x22}和 E{xix2}，并且可以使用所需再混合立體聲信號(hào)的邊信息(E{Sl2}、ai、bi)和混合增益Ci和屯估計(jì) E {xjyJ 和 E {x#2}
0098]
0099]
重寫這些式，得到
0103]
0104]
0105]
0106]
0107]
0108]
0109]
0110] 0111]
相似地，計(jì)算W21和W22，得到
當(dāng)左和右子帶信號(hào)相干或近似相干時(shí)，即，當(dāng)
接近1時(shí)，權(quán)重的解是不唯一的或病態(tài)的。因此，如果大于某個(gè)閾值(例如， 0. 95)，則權(quán)重被計(jì)算為例如， 0116] w12 = w21 = 0, (18)
0112]
0113]
0114]
0115]
0117]
0118]
0119]
在小=1的假設(shè)下，式[18]是滿足[12]和關(guān)于另兩個(gè)權(quán)重的相似的正交性方程組的不唯一的解中的一個(gè)。應(yīng)當(dāng)注意，[17]中的相干性用于判斷相互相似的程度。如果相干性是0，則Xl和x2是獨(dú)立的。如果相干性是1，則Xl和x2是相似的(但是具有不同的聲級(jí))。如果Xl和x2是非常相似的(相干性接近1)，則二信道Wiener計(jì)算(四個(gè)權(quán) 重的計(jì)算)是病態(tài)的。關(guān)于該閾值的示例范圍是約0. 4至約1. 0。通過(guò)將計(jì)算的子帶信號(hào)轉(zhuǎn)換到時(shí)域所獲取的得到的再混合立體聲信號(hào)聽起來(lái)類似于通過(guò)不同混合增益(^和屯進(jìn)行真實(shí)混合的立體聲信號(hào)(在下文中該信號(hào)被表示為“所需信號(hào)”)。在一個(gè)方面，在數(shù)學(xué)上，這需要計(jì)算的子帶信號(hào)與真實(shí)地進(jìn)行不同混合的子帶信號(hào)相似。在某種程度上情況確實(shí)如此。由于在感知激勵(lì)的子帶域中執(zhí)行估計(jì)，因此對(duì)相似性的要求不太強(qiáng)。只要感知相關(guān)局部化線索(例如，聲級(jí)差和相干性線索)是足夠相似的，則計(jì)算的再混合立體聲信號(hào)將聽起來(lái)類似于所需信號(hào)。E.可選方案聲級(jí)差線索的調(diào)節(jié)在一些實(shí)現(xiàn)方案中，如果使用此處描述的處理，可以獲取良好的結(jié)果。然而，為了確保重要的聲級(jí)差局部化線索接近地逼近所需信號(hào)的聲級(jí)差線索，可以應(yīng)用子帶的后調(diào)整以“調(diào)節(jié)”聲級(jí)差線索，用于確保它們與所需信號(hào)的聲級(jí)差線索匹配。對(duì)于[9]中的最小二乘子帶信號(hào)估算的修改，考慮子帶功率。如果子帶功率是正確的，則重要的空間線索聲級(jí)差也將是正確的。所需信號(hào)[8]的左子帶功率是
并且來(lái)自[9]的估算的子帶功率是
因此，為了使幻具有％yi(k)相同的功率，其必須乘以相似地，:P2(幻乘以
以具有與所需子帶信號(hào)y2(k)相同的功率。 II.邊信息的量化和編碼 A.編碼
如前面章節(jié)中描述的，用于使具有索引i的源信號(hào)再混合所需的邊信息是因子&1 和b”以及每個(gè)子帶中的作為時(shí)間的函數(shù)的功率E{Sl2(k)}。在一些實(shí)現(xiàn)方案中，關(guān)于增益因子％和h的對(duì)應(yīng)的增益和聲級(jí)差的值可以dB為單位計(jì)算如下g, =101og10O,2+6,2)， (23)
b/( =201og10-!-

在一些實(shí)現(xiàn)方案中，對(duì)增益和聲級(jí)差的值進(jìn)行量化并且進(jìn)行霍夫曼編碼。例如，具有2dB量化器步長(zhǎng)的均勻量化器和一維霍夫曼編碼器可分別用于量化和編碼。也可以使用其他已知的量化器和編碼器(例如，矢量量化器)。如果ai和bi是時(shí)變的，并且假設(shè)邊信息可靠地到達(dá)解碼器，則僅需要傳送一次對(duì) 應(yīng)的編碼值。否則，可以以規(guī)則的時(shí)間間隔或者響應(yīng)觸發(fā)事件(例如，在編碼值改變時(shí))傳送禾口 bi0為了對(duì)于因立體聲信號(hào)的編碼引起的立體聲信號(hào)的調(diào)整和功率損失/增益是魯棒的，在一些實(shí)現(xiàn)方案中，子帶功率
未被直接編碼為邊信息。確切的講，可以使用相對(duì)立體聲信號(hào)定義的度量
(24)對(duì)于各種信號(hào)使用相同的估計(jì)窗口 /時(shí)間常數(shù)用于計(jì)算E{.}可以是有利的。將邊信息定義為相對(duì)功率值[24]的優(yōu)點(diǎn)在于，如果需要，在解碼器處可以使用不同于編碼器處的估計(jì)窗口 /時(shí)間常數(shù)。而且，較之源功率將作為絕對(duì)值被傳送的情況，減小了邊信息和立體聲信號(hào)之間的時(shí)間失準(zhǔn)的效應(yīng)。為了對(duì)Kk)進(jìn)行量化和編碼，在一些實(shí)現(xiàn)方案中，使用具有例如2dB步長(zhǎng)的均勻量化器和一維霍夫曼編碼器。對(duì)于將被再混合的每個(gè)音頻對(duì)象，得到的比特率可以低至約3kb/s (千比特每秒)。在一些實(shí)現(xiàn)方案中，當(dāng)解碼器處的對(duì)應(yīng)于將被再混合的對(duì)象的輸入源信號(hào)是靜默的時(shí)候，可以減小比特率。編碼器的編碼模式可以檢測(cè)靜默對(duì)象，并且隨后向解碼器傳送用于指示對(duì)象是靜默的信息(例如，單個(gè)比特每個(gè)幀)。B.解碼在給定霍夫曼解碼(量化)值[23]和[24]的情況下，用于進(jìn)行再混合所需的值可以計(jì)算如下
(25) III.實(shí)現(xiàn)方案細(xì)節(jié)A.時(shí)間-頻率處理在一些實(shí)現(xiàn)方案中，基于STFT(短時(shí)傅立葉變換)的處理用于參照?qǐng)D1 3描述的編碼/解碼系統(tǒng)。其他時(shí)間_頻率變換可用于實(shí)現(xiàn)所需的結(jié)果，包括但不限于，正交鏡像濾波器(QMF)濾波器組、修正離散余弦變換(MDCT)、小波濾波器組等。對(duì)于分析處理(例如，前向?yàn)V波器組操作)，在一些實(shí)現(xiàn)方案中，在應(yīng)用N點(diǎn)離散傅立葉變換(DFT)或快速傅立葉變換(FFT)之前，N個(gè)樣本的幀可以乘以窗口。在一些實(shí)現(xiàn)方案中，可以使用如下正弦窗口如果處理塊尺寸不同于DFT/FFT尺寸，則在一些實(shí)現(xiàn)方案中可以使用零填充以有效地具有小于N的窗口?？梢岳缑縉/2個(gè)樣本(等于窗口跳尺寸)重復(fù)所描述的分析處理，導(dǎo)致50%的窗口重疊。其他窗口函數(shù)和重疊百分比可用于實(shí)現(xiàn)所需的結(jié)果。為了從STFT頻譜域變換到時(shí)域，逆DFT或FFT可應(yīng)用于頻譜。得到的信號(hào)再次與 [26]中描述的窗口相乘，并且通過(guò)與窗口相乘得到的相鄰的信號(hào)塊與添加的重疊被組合以獲取連續(xù)的時(shí)域信號(hào)。在一些情況中，STFT的均勻的頻譜分辨率可能不能良好地適于人類感知。在這些情況中，與單獨(dú)地處理每個(gè)STFT頻率系數(shù)相反，STFT系數(shù)可被“分組”，以便于一個(gè)組具有約兩倍于等效矩形帶寬(ERB)的帶寬，該帶寬是適用于空間音頻處理的頻率分辨率。圖4說(shuō)明了屬于具有索引b的分區(qū)的STFT系數(shù)的索引i。在一些實(shí)現(xiàn)方案中，由于頻譜是對(duì)稱的，因此僅考慮頻譜的最初N/2+1個(gè)頻譜系數(shù)。如圖4中說(shuō)明的，屬于具有索引b(l彡b彡B)的分區(qū)的STFT系數(shù)的索引是i G {Ab_i，Ab_i+1，...，Ab}，其中AQ = 0。由分區(qū)的頻譜系數(shù)表示的信號(hào)對(duì)應(yīng)于編碼系統(tǒng)使用的感知激勵(lì)的子帶分解。因此，在每個(gè)該分區(qū)中，所描述的處理被聯(lián)合地應(yīng)用于分區(qū)中的STFT系數(shù)。圖5示例性地說(shuō)明了對(duì)用于模仿人類聽覺(jué)系統(tǒng)的非均勻頻率分辨率的均勻STFT 頻譜的頻譜系數(shù)進(jìn)行分組。在圖5中，對(duì)于44. 1kHz的采樣率和B = 20的分區(qū)數(shù)目，N = 1024，每個(gè)分區(qū)具有約2ERB的帶寬。應(yīng)當(dāng)注意，由于Nyquist頻率處的截止，最末的分區(qū)小于兩個(gè)ERB。B.統(tǒng)計(jì)數(shù)據(jù)的估計(jì)在給定兩個(gè)STFT系數(shù)Xi (k)和Xi (k)的情況下，可以迭代地估計(jì)用于計(jì)算再混合立體聲音頻信號(hào)所需的值E {x, (k) Xj (k)}。在該情況中，子帶采樣頻率fs是計(jì)算STFT頻譜的臨時(shí)頻率。為了獲取關(guān)于每個(gè)感知分區(qū)(而非關(guān)于每個(gè)STFT系數(shù))的估算，在可以在進(jìn) 一步使用之前在分區(qū)中對(duì)估計(jì)的值取平均。前面章節(jié)中描述的處理可以應(yīng)用于每個(gè)分區(qū)，如同每個(gè)分區(qū)是一個(gè)子帶。可以使用例如，重疊頻譜窗口實(shí)現(xiàn)分區(qū)之間的平滑，以避免頻率中的突然處理改變，因此減少人工效果。C.與常規(guī)音頻編碼器組合圖6A是與常規(guī)的立體聲音頻編碼器組合的圖1A的編碼系統(tǒng)的實(shí)現(xiàn)方案的框圖。在一些實(shí)現(xiàn)方案中，組合編碼系統(tǒng)600包括常規(guī)的音頻編碼器602、所提出的編碼器604 (例如，編碼系統(tǒng)100)和比特流組合器606。在所示出的示例中，如前面參照?qǐng)D1 5描述的，立體聲音頻輸入信號(hào)通過(guò)常規(guī)的音頻編碼器602 (例如，MP3、AAC、MPEG環(huán)繞聲等)被編碼并且通過(guò)所提出的編碼器604被分析以提供邊信息。通過(guò)比特流組合器606將兩個(gè)得到的比特流組合以提供向后兼容比特流。在一些實(shí)現(xiàn)方案中，將得到的比特流組合包括將低比特率邊信息(例如，增益因子叫小和子帶功率E{Si2(k)})嵌入到向后兼容比特流中。
15
圖6B是使用與常規(guī)的立體聲音頻編碼器組合的圖1A的編碼系統(tǒng)100的編碼過(guò)程 608的實(shí)現(xiàn)方案的流程圖。使用常規(guī)的立體聲音頻編碼器對(duì)輸入立體聲信號(hào)編碼(610)。使用圖1A的編碼系統(tǒng)100自立體聲信號(hào)和M個(gè)源信號(hào)生成邊信息(612)。生成包括編碼立體聲信號(hào)和邊信息的一個(gè)或多個(gè)向后兼容比特流(614)。圖7A是用于提供組合系統(tǒng)700的與常規(guī)的立體聲音頻解碼器組合的圖3A的再混合系統(tǒng)300的實(shí)現(xiàn)方案的框圖。在一些實(shí)現(xiàn)方案中，組合系統(tǒng)700通常包括比特流解析器 702、常規(guī)的音頻解碼器704(例如，MP3、AAC)和所提出的解碼器706。在一些實(shí)現(xiàn)方案中，所提出的解碼器706是圖3A的再混合系統(tǒng)300。在所示出的示例中，比特流被分為立體聲音頻比特流和包含所提出的解碼器706 所需的邊信息的比特流以提供再混合能力。立體聲信號(hào)通過(guò)常規(guī)的音頻解碼器704被解碼并且被饋送到所提出的解碼器706，解碼器706修改立體聲信號(hào)，作為獲取自比特流的邊信息和用戶輸入(例如，混合增益Ci和cQ的函數(shù)。圖7B是使用圖7A的組合系統(tǒng)700的再混合過(guò)程708的一個(gè)實(shí)現(xiàn)方案的流程圖。將從編碼器接收的比特流解析以提供編碼立體聲信號(hào)比特流和邊信息比特流(710)。使用常規(guī)的音頻解碼器對(duì)編碼立體聲信號(hào)解碼(712)。示例解碼器包括MP3、AAC (包括AAC的各種標(biāo)準(zhǔn)化簡(jiǎn)檔)、參量立體聲、頻譜帶復(fù)制(SBR)、MPEG環(huán)繞聲或者其任何組合。使用邊信息和用戶輸入(例如，c,和cQ使解碼立體聲信號(hào)再混合。IV.多信道音頻信號(hào)的再混合在一些實(shí)現(xiàn)方案中，前面章節(jié)中描述的編碼和再混合系統(tǒng)100、300可以擴(kuò)展到再混合多信道音頻信號(hào)(例如，5.1環(huán)繞信號(hào))。在下文中，立體聲信號(hào)和多信道信號(hào)還被稱為“多個(gè)信道”信號(hào)。本領(lǐng)域的普通技術(shù)人員將理解，如何針對(duì)多信道編碼/解碼方案，即，
針對(duì)不止兩個(gè)信號(hào)xi(k)、x2(k)、x3(k).....xc(k)，重寫[7]至[22]，其中C是混合信號(hào)的
音頻信道的數(shù)目。關(guān)于多信道情況的式[9]變?yōu)? 如前文所述，可以得到具有C個(gè)方程的如[11]的方程并且求解這些方程以確定權(quán)重。在一些實(shí)現(xiàn)方案中，某些信道可以是不被處理的。例如，對(duì)于5. 1環(huán)繞聲，兩個(gè)后信道可以是不被處理的并且僅對(duì)前面的左、右和中心信道應(yīng)用再混合。在該情況中，可以針對(duì)前信道應(yīng)用三信道再混合算法。從所公開的再混合方案得到的音頻質(zhì)量取決于所執(zhí)行的修改的本質(zhì)。對(duì)于相對(duì)弱的修改，例如，從OdB至15dB的搖擺改變或者10dB的增益修改，得到的音頻質(zhì)量可高于通過(guò)常規(guī)技術(shù)實(shí)現(xiàn)的音頻質(zhì)量。而且，由于僅在必要時(shí)修改立體聲信號(hào)以實(shí)現(xiàn)所需的再混合，因此所提出的公開再混合方案的質(zhì)量可高于常規(guī)的再混合方案。此處公開的再混合方案提供了優(yōu)于常規(guī)技術(shù)的數(shù)個(gè)優(yōu)點(diǎn)。首先，其允許給定立體聲或多信道音頻信號(hào)中的少于對(duì)象總數(shù)的對(duì)象的再混合。這是通過(guò)估計(jì)作為給定立體聲音頻信號(hào)加上M個(gè)源信號(hào)的函數(shù)的邊信息實(shí)現(xiàn)的，該M個(gè)源信號(hào)表示立體聲音頻信號(hào)中的能夠在解碼器處進(jìn)行再混合的M個(gè)對(duì)象。所公開的再混合系統(tǒng)處理作為邊信息的函數(shù)和作為用戶輸入(所需再混合)的函數(shù)的給定立體聲信號(hào)以生成感知上與進(jìn)行不同的真實(shí)混合的立體聲信號(hào)相似的立體聲信號(hào)。V.針對(duì)基本再混合方案的增強(qiáng)A.邊信息預(yù)處理當(dāng)子帶相對(duì)于相鄰子帶衰減過(guò)多時(shí)，可能出現(xiàn)音頻人工效果。因此，需要限制最大衰減。此外，由于立體聲信號(hào)和對(duì)象源信號(hào)統(tǒng)計(jì)是在編碼器和解碼器處分別獨(dú)立測(cè)量的，因此測(cè)量的立體聲信號(hào)子帶功率和對(duì)象信號(hào)子帶功率(如邊信息表示的)之間的比可能偏離現(xiàn)實(shí)。因此，邊信息在物理上可能是不可能的，例如，再混合信號(hào)[19]的信號(hào)功率可能變?yōu)?負(fù)的。如下文所述可以解決上述兩個(gè)問(wèn)題。左和右再混合信號(hào)的子帶功率是其中&等于[25]中給出的量化和編碼子帶功率估算，其是作為邊信息的函數(shù)而計(jì) 算的。再混合信號(hào)的子帶功率可被限制為，其從不小于比原始立體聲信號(hào)E{Xl2}的子帶功率低L dB。相似地，E{y22}被限制為不小于比E{x22}低L dB。該結(jié)果可以通過(guò)如下運(yùn)算實(shí) 現(xiàn)1.根據(jù)[28]計(jì)算左和右再混合信號(hào)子帶功率。2.如果耵乂}<淡{<}，則調(diào)節(jié)邊信息計(jì)算值及，以便于保持五{彳} = 0五{<}。為
了將功率E{yi2}限制為從不小于比功率E{Xl2}低A dB，Q可被設(shè)定為Q= 10_AA°。然后，可以通過(guò)使弋乘以調(diào)節(jié)及。3.如果￡{^}<2識(shí)4}，則調(diào)節(jié)邊信息計(jì)算值夂，以便于保持耵力2}=誣{4}。這
可以通過(guò)使及乘以實(shí)現(xiàn)。4.值左{彳(幻}被設(shè)定為調(diào)節(jié)的弋，并且計(jì)算權(quán)重wn、w12、w21和w22。 B.使用四個(gè)或兩個(gè)權(quán)重之間的決定對(duì)于許多情況，兩個(gè)權(quán)重[18]足夠用于計(jì)算左和右再混合信號(hào)子帶[9]。在一些情況中，通過(guò)使用四個(gè)權(quán)重[13]和[15]可以實(shí)現(xiàn)更好的結(jié)果。使用兩個(gè)權(quán)重意味著，僅使用左原始信號(hào)用于生成左輸出信號(hào)并且對(duì)于右輸出信號(hào)情況亦是如此。因此，需要四個(gè)權(quán) 重的情形是，一側(cè)的對(duì)象被再混合為位于另一側(cè)。在該情況中，可以預(yù)見(jiàn)到，由于原始僅位于一側(cè)(例如，在左信道中)的信號(hào)將在再混合之后主要位于另一側(cè)(例如，在右信道中)，因此使用四個(gè)權(quán)重是有利的。因此，四個(gè)權(quán)重可用于允許信號(hào)從原始的左信道流動(dòng)到再混合的右信道，反之亦然。當(dāng)計(jì)算四個(gè)權(quán)重的最小二乘問(wèn)題是病態(tài)的時(shí)候，權(quán)重量值可能是大的。相似地，當(dāng) 使用上述的從一側(cè)到另一側(cè)的再混合時(shí)，僅使用兩個(gè)權(quán)重時(shí)的權(quán)重量值可能是大的。通過(guò) 該觀察所激勵(lì)，在一些實(shí)現(xiàn)方案中，可以使用如下標(biāo)準(zhǔn)決定使用四個(gè)還是兩個(gè)權(quán)重。如果A <B，則使用四個(gè)權(quán)重，否則使用兩個(gè)權(quán)重。A和B分別是關(guān)于四個(gè)和兩個(gè) 權(quán)重的權(quán)重量值的度量。在一些實(shí)現(xiàn)方案中，A和B計(jì)算如下。為了計(jì)算A，首先根據(jù)[13] 和[15]計(jì)算四個(gè)權(quán)重并且隨后設(shè)定A = wn2+w122+w212+w222 0為了計(jì)算B，可以根據(jù)[18]計(jì) 算權(quán)重并且隨后計(jì)算B = wn2+w222 0在一些實(shí)現(xiàn)方案中，串音，即wl2和w21，可用于改變極端搖擺對(duì)象的位置。使用兩個(gè)或四個(gè)權(quán)重的決定可以如下執(zhí)行
使原始搖擺信息與給定閾值比較，決定對(duì)象是否是極端搖擺的‘ Ps>Tmmr :檢查對(duì)象是否具有某個(gè)相關(guān)功率

使原始搖擺信息與所需搖擺信息比較，
決定是否需要改變對(duì)象的位置。應(yīng)當(dāng)注意，即使對(duì)象未搖擺到另一側(cè)，例如，其略微朝向中心移動(dòng)，但是在該對(duì)象不是極端搖擺的情況下，應(yīng)從另一側(cè)收聽到該對(duì)象，因此應(yīng)實(shí)現(xiàn)串
曰°通過(guò)將原始搖擺信息與所需搖擺信息比較，可以容易地檢查改變對(duì)象位置的請(qǐng) 求。然而，由于估計(jì)誤差，需要給出某個(gè)裕度以控制該決定的靈敏度。由于將a、0設(shè)定為所需的值，因此可以容易地控制該決定的靈敏度。C.在需要時(shí)提高衰減程度當(dāng)源被完全移除時(shí)，例如，對(duì)于卡拉0K應(yīng)用移除主唱音軌，其混合增益是Ci = 0、屯=0。然而，當(dāng)用戶選擇零混合增益時(shí)，所實(shí)現(xiàn)的衰減程度可能受到限制。因此，為了提高衰減，從邊信息獲取的對(duì)應(yīng)的源信號(hào)的源子帶功率值丨在被用于計(jì)算權(quán)重Wll、w12, W21和w22之前，可以通過(guò)大于1的值(例如，2)進(jìn)行調(diào)整。D.通過(guò)權(quán)重平滑提高音頻質(zhì)量已觀察到，所公開的再混合方案可能在所需信號(hào)中引入人工效果，特別是在音頻信號(hào)是音調(diào)的或固定的時(shí)候。為了提高音頻質(zhì)量，在每個(gè)子帶處，可以計(jì)算固定性/音調(diào)度量。如果固定性/音調(diào)度量超過(guò)某個(gè)閾值T0K，則估計(jì)權(quán)重隨時(shí)間是平滑的。平滑操作描述如下對(duì)于每個(gè)子帶，在每個(gè)時(shí)間索引k處，獲取如下用于計(jì)算輸出子帶而應(yīng)用的權(quán)重如果 TON(k) > TON。，貝其中網(wǎng)！(幻、Wn(k)、還21(幻和還22(A0是平滑的權(quán)重并且Wll (k)、w12(k)、w21 (k)和
W22(k)是如前文所述計(jì)算的非平滑的權(quán)重。否則訪22(眾)=評(píng)22(眾)。E.環(huán)境/混響控制此處描述的再混合技術(shù)在混合增益Ci和屯方面提供了用戶控制。這對(duì)應(yīng)于針對(duì) 每個(gè)對(duì)象確定增益&和幅度搖擺k (方向)，其中增益和搖擺完全由Ci和屯確定，在一些實(shí)現(xiàn)方案中，可能需要控制除了源信號(hào)的增益和幅度搖擺之外的其他立體聲混合特征。在下面的描述中，描述了用于修改立體聲音頻信號(hào)的環(huán)境程度的技術(shù)。對(duì)于該解碼器任務(wù)不使用邊信息。在一些實(shí)現(xiàn)方案中，[44]中給出的信號(hào)模型可用于修改立體聲信號(hào)的環(huán)境程度，其中假設(shè)h和n2的子帶功率相等，即
(34)再次地，可以假設(shè)s、ni和n2是相互獨(dú)立的。在給定這些假設(shè)的情況下，相干性[17] 可被寫為這對(duì)應(yīng)于具有變量PN(k)的二次方程，巧
( 36 )該二次方程的解是由于PN(k)必須小于或等于6{\2(10}+￡{^200}，因此物理上可能的解是平方根
之前具有負(fù)號(hào)的解，在一些實(shí)現(xiàn)方案中，為了控制左和右環(huán)境，可以針對(duì)兩個(gè)對(duì)象應(yīng)用再混合技術(shù)一個(gè)對(duì)象是左側(cè)的子帶功率
的具有索引“的源，即an = 1并且bn = 0。另一對(duì)象是右側(cè)的子帶功率五{4(幻} = &(幻的具有索引i2的源，即ai2 = 0并且bi2 = 1。為了改變環(huán)境量，用戶可以選擇cn = dn = 10ga/2°和ci2 = dn = 0，其中g(shù)a是以dB為單位的環(huán)境增益。F.不同的邊信息在一些實(shí)現(xiàn)方案中，在比特率方面更加高效的所公開的再混合方案中，可以使用修改的或不同的邊信息。例如，在[24]中，Ajk)可以具有任意值。還存在對(duì)原始源信號(hào) Si(n)的聲級(jí)的依賴性。因此，為了獲取所需范圍中的邊信息，需要調(diào)節(jié)源輸入信號(hào)的聲級(jí)。為了避免該調(diào)節(jié)，并且為了去除邊信息對(duì)原始源信號(hào)聲級(jí)的依賴性，在一些實(shí)現(xiàn)方案中，源子帶功率不僅可如[24]中相對(duì)立體聲信號(hào)子帶功率被歸一化，而且混合增益可被考慮為這對(duì)應(yīng)于將相對(duì)立體聲信號(hào)歸一化的立體聲信號(hào)中包含的源功率用作邊信息 (而非直接使用源功率)?？商孢x地，可以使用如下歸一化由于Ai(k)僅可以取小于或等于OdB的值，因此該邊信息也是更加高效的。應(yīng)當(dāng) 注意，可以求解[39]和[40]，用于子帶功率￡{<00}。G.立體聲源信號(hào)/對(duì)象此處描述的再混合方案可以容易地?cái)U(kuò)展到處理立體聲源信號(hào)。出于邊信息的角度，立體聲源信號(hào)被視為如兩個(gè)單信道源信號(hào)一個(gè)信號(hào)僅被混合到左側(cè)并且另一個(gè)信號(hào) 僅被混合到右側(cè)。即，左源信道i具有非零左增益因子和零右增益因子bi+1。可以利用 [6]估計(jì)增益因子％和、+1。可以如同立體聲源是兩個(gè)單信道源的情況，傳送邊信息。需要將一些信息傳送到解碼器以向解碼器指示哪些源是單信道源并且哪些源是立體聲源。對(duì)于解碼器處理和圖形用戶接口(GUI)，一種可能性是在解碼器處將立體聲源信號(hào)相似地呈現(xiàn)為單信道源信號(hào)。即，立體聲源信號(hào)具有與單信道源信號(hào)相似的增益和搖擺控制。在一些實(shí)現(xiàn)方案中，非再混合立體聲信號(hào)的GUI的增益和搖擺控制同增益因子之間的關(guān)系可被選擇為即，⑶I可以在最初時(shí)被設(shè)定為這些值。用戶選擇的GAIN和PAN同新的增益因子之間的關(guān)系可被選擇為對(duì)于可用作再混合增益的Ci和di+1，可以解方程[42] (ci+1 = 0并且屯=0)。所描述的功能與立體聲放大器上的“平衡”控制相似。在不引入串音的情況下修改源信號(hào)的左和右信道的增益。VI.邊信息的盲生成A.邊信息的全盲生成在所公開的再混合方案中，編碼器接收立體聲信號(hào)和表示將在解碼器處被再混合的對(duì)象的許多個(gè)源信號(hào)。通過(guò)增益因子和、以及子帶功率E{Si2(k)}確定用于使具有索引i的源信號(hào)在解碼器處被再混合所需的邊信息。前面的章節(jié)描述了給定源信號(hào)時(shí)的情況中的邊信息確定。盡管立體聲信號(hào)易于獲取(由于這對(duì)應(yīng)于現(xiàn)有產(chǎn)品)，但是可能難于獲取對(duì)應(yīng)于將在解碼器處被再混合的對(duì)象的源信號(hào)。因此，即使對(duì)象的源信號(hào)是不可用的，仍需要生成用于再混合的邊信息。在下面的描述中，描述了用于僅從立體聲信號(hào)生成邊信息的全盲生成技術(shù)。圖8A是實(shí)現(xiàn)全盲邊信息生成的編碼系統(tǒng)800的實(shí)現(xiàn)方案的框圖。編碼系統(tǒng)800 通常包括濾波器組陣列802、邊信息生成器804和編碼器806。立體聲信號(hào)由濾波器組陣列 802接收，其將該立體聲信號(hào)(例如，右和左信道)分解為子帶對(duì)。該子帶對(duì)由邊信息處理器804接收，其使用所需的源聲級(jí)差！^和增益函數(shù)f(M)從該子帶對(duì)生成邊信息。應(yīng)當(dāng)注意，濾波器組陣列802和邊信息處理器804均不針對(duì)源信號(hào)進(jìn)行操作。邊信息完全得自輸入立體聲信號(hào)、所需的源聲級(jí)差h和增益函數(shù)f (M)。圖8B是使用圖8A的編碼系統(tǒng)800的編碼過(guò)程808的實(shí)現(xiàn)方案的流程圖。將輸入立體聲信號(hào)分解為子帶對(duì)(810)。對(duì)于每個(gè)子帶，使用所需的源聲級(jí)差值k確定關(guān)于每個(gè) 所需源信號(hào)的增益因子^和、(812)。對(duì)于直達(dá)聲音源信號(hào)(例如，錄音室中的中心搖擺的源信號(hào))，所需的源聲級(jí)差是k = OdB。給定L”增益因子被計(jì)算為
1 b'=TT7,其中A = 10Li/°o應(yīng)當(dāng)注意屮和h已被計(jì)算為2 =1。該條件不是必需的；確切的講，可以任意選擇以防止％或、在1^的量值是大的時(shí)候是大的。下一步，使用子帶對(duì)和混合增益估計(jì)直達(dá)聲音的子帶功率(814)。為了計(jì)算直達(dá)聲音子帶功率，可以假設(shè)每次每個(gè)輸入信號(hào)的左和右子帶均可以被寫為
x, = as+n. x2 = bs+n2, (44)
聲音。
其中a和b是混合增益，s表示所有源信號(hào)的直達(dá)聲音并且ni和n2表示獨(dú)立環(huán)境可以假設(shè)a和b是其中
}。應(yīng)當(dāng)注意，a和b可被計(jì)算為，s包含在中的
情況下的聲級(jí)差與x2和Xl之間的聲級(jí)差相同。直達(dá)聲音的以dB為單位的聲級(jí)差是M = log10B。我們可以根據(jù)[44]中給出的信號(hào)模型計(jì)算直達(dá)聲音子帶功率E{s2 (k)}。在一些實(shí)現(xiàn)方案中，使用如下方程組
(46) E {Xl (k) x2 (k)} = abE {s2 (k)}。在[46]中已假設(shè)[34]中的s、ni和n2相互獨(dú)立，[46]中的左側(cè)的量可被測(cè)量，并且a和b是可用的。因此，[46]中的三個(gè)未知量是￡{82 00}丄{111200}和￡{1122 00}。直達(dá) 聲音子帶功率E{s2 (k)}可由下式給出直達(dá)聲音子帶功率還可被寫為相干性[17]的函數(shù)，在一些實(shí)現(xiàn)方案中，所需源子帶功率E{Si2(k)}的計(jì)算可以分兩步執(zhí)行首先，計(jì) 算直達(dá)聲音子帶功率E{s2(k)}，其中s表示[44]中的所有源的直達(dá)聲音(例如，中心搖擺)。然后，通過(guò)修改直達(dá)聲音子帶功率E{s2 (k)}，計(jì)算(816)所需源子帶功率E{Si2(k)}，作為直達(dá)聲音方向(由M表示)和所需聲音方向(由所需源聲級(jí)差L表示)的函數(shù)
(49)其中f(.)是增益函數(shù)，該增益函數(shù)作為方向的函數(shù)，僅針對(duì)所需源方向返回接近 1的增益因子。作為最終步驟，增益因子和子帶功率E{Si2(k)}可被量化和編碼以生成邊信息(818)。圖9說(shuō)明了關(guān)于所需的源聲級(jí)差k = L dB的示例增益函數(shù)f (M)。應(yīng)當(dāng)注意，可以在選擇f(M)方面控制方向性程度以具有所需方向、周圍的更大或更小的窄峰。對(duì)于中心處的所需源，可以使用k = 6dB的峰寬度。應(yīng)當(dāng)注意，通過(guò)上述全盲技術(shù)，可以確定關(guān)于給定源信號(hào)Si的邊信息(ai、bi、 E{Si2(k)})。
B.邊信息的盲生成和非盲生成之間的組合上述全盲生成技術(shù)在某些情況下可能受到限制。例如，如果兩個(gè)對(duì)象具有關(guān)于立體聲錄音室的相同的位置(方向)，則可能不能盲生成與一個(gè)或兩個(gè)對(duì)象相關(guān)的邊信息。針對(duì)邊信息的全盲生成的替選方案是邊信息的部分盲生成。部分盲技術(shù)生成粗略對(duì)應(yīng)于原始對(duì)象波形的對(duì)象波形。這可以例如，通過(guò)使歌手或樂(lè)師演奏/重現(xiàn)特定的對(duì)象信號(hào)來(lái)完成?；蛘?，可以部署用于此目的的MIDI數(shù)據(jù)并且使合成器生成對(duì)象信號(hào)。在一些實(shí)現(xiàn)方案中，“粗略”對(duì)象波形與立體聲信號(hào)時(shí)間對(duì)準(zhǔn)，其中針對(duì)該立體聲信號(hào)生成邊信息。然后，可以使用作為盲和非盲邊信息生成的組合的過(guò)程生成邊信息。圖10是使用部分盲生成技術(shù)的邊信息生成過(guò)程1000的實(shí)現(xiàn)方案的示圖。過(guò)程 1000開始于獲取輸入立體聲信號(hào)和M個(gè)“粗略”源信號(hào)(1002)。下一步，確定用于M個(gè)“粗略”源信號(hào)的增益因子％和bi(1004)。在每個(gè)子帶中的每個(gè)時(shí)隙中，確定關(guān)于每個(gè)“粗略” 源信號(hào)的子帶功率的第一短時(shí)估算E{Si2(k)} (1006)。使用應(yīng)用于輸入立體聲信號(hào)的全盲生成技術(shù)確定關(guān)于每個(gè)“粗略”源信號(hào)的子帶功率的第二短時(shí)估算Ehat {Si2 (k)} (1008)。最后，針對(duì)估計(jì)的子帶功率應(yīng)用組合第一和第二子帶功率估算并且返回最終估算的函數(shù)，其可以有效地用于邊信息計(jì)算(1010)。在一些實(shí)現(xiàn)方案中，函數(shù)F()由下式給出 VII.架構(gòu)、用戶接口、比特流語(yǔ)法A.客戶機(jī)/服務(wù)器架構(gòu)圖11是用于向具有再混合能力的音頻設(shè)備1110提供立體聲信號(hào)和M個(gè)源信號(hào)和 /或邊信息的客戶機(jī)/服務(wù)器架構(gòu)1100的實(shí)現(xiàn)方案的框圖。架構(gòu)1100僅是示例。其他架構(gòu)也是可能的，包括具有更多或更少部件的架構(gòu)。架構(gòu)1100通常包括具有知識(shí)庫(kù)1104 (例如，MySQL )和服務(wù)器1106 (例如， Windows NT、Linux服務(wù)器)的下載業(yè)務(wù)1102。知識(shí)庫(kù)1104可以存儲(chǔ)各種類型的內(nèi)容，包括專業(yè)混合立體聲信號(hào)，以及對(duì)應(yīng)于立體聲信號(hào)中的對(duì)象的關(guān)聯(lián)的源信和各種效果(例如，混響)號(hào)。立體聲信號(hào)可以被存儲(chǔ)為各種標(biāo)準(zhǔn)化格式，包括MP3、PCM、AAC等。在一些實(shí)現(xiàn)方案中，源信號(hào)存儲(chǔ)在知識(shí)庫(kù)1104中并且可用于下載到音頻設(shè)備 1110。在一些實(shí)現(xiàn)方案中，預(yù)處理邊信息存儲(chǔ)在知識(shí)庫(kù)1104中并且可用于下載到音頻設(shè)備 1110。可以使用參照?qǐng)D1A、6A和8A描述的一個(gè)或多個(gè)編碼方案通過(guò)服務(wù)器1106生成預(yù)處理邊信息。在一些實(shí)現(xiàn)方案中，下載業(yè)務(wù)1102(例如，Web站點(diǎn)、音樂(lè)商店)通過(guò)網(wǎng)絡(luò)1108(例如，互聯(lián)網(wǎng)、內(nèi)聯(lián)網(wǎng)、以太網(wǎng)、無(wú)線網(wǎng)絡(luò)、對(duì)等網(wǎng)絡(luò))與音頻設(shè)備1110通信。音頻設(shè)備1110 可以是能夠?qū)崿F(xiàn)所公開的再混合方案的任何設(shè)備(例如，媒體播放器/記錄器、移動(dòng)電話、個(gè)人數(shù)字助理(PDA)、游戲控制臺(tái)、機(jī)頂盒、電視接收機(jī)、媒體中心等)。B.音頻設(shè)備架構(gòu)在一些實(shí)現(xiàn)方案中，音頻設(shè)備1110包括一個(gè)或多個(gè)處理器或處理器核1112、輸入設(shè)備1114 (例如，點(diǎn)撥輪、鼠標(biāo)、操縱桿、觸摸屏)、輸出設(shè)備1120 (例如，LCD)、網(wǎng)絡(luò)接口 1118(例如，USB、防火墻、以太網(wǎng)、網(wǎng)絡(luò)接口卡、無(wú)線收發(fā)信機(jī))和計(jì)算機(jī)可讀介質(zhì)1116(例如，存儲(chǔ)器、硬盤、閃存驅(qū)動(dòng)器)。一些或所有該部件可以通過(guò)通信信道1122 (例如，總線、網(wǎng) 橋)發(fā)送和/或接收信息。在一些實(shí)現(xiàn)方案中，計(jì)算機(jī)可讀介質(zhì)1116包括操作系統(tǒng)、音樂(lè)管理器、音頻處理器、再混合模塊和音樂(lè)庫(kù)。操作系統(tǒng)負(fù)責(zé)管理音頻設(shè)備1110的基本管理和通信任務(wù)，包括文件管理、存儲(chǔ)器接入、總線連接、控制外圍設(shè)備、用戶接口管理、電力管理等。音樂(lè)管理器可以是管理音樂(lè)庫(kù)的應(yīng)用。音頻處理器可以是用于播放音樂(lè)文件(例如，MP3、CD音頻等) 的常規(guī)的音頻處理器。再混合模塊可以是實(shí)現(xiàn)參照?qǐng)D1 10描述的再混合方案的功能的一個(gè)或多個(gè)軟件部件。在一些實(shí)現(xiàn)方案中，如參照?qǐng)D1A、6A和8A描述的，服務(wù)器1106對(duì)立體聲信號(hào)編碼并且生成邊信息。立體聲信號(hào)和邊信息通過(guò)網(wǎng)絡(luò)1108被下載到音頻設(shè)備1110。再混合模塊對(duì)信號(hào)和邊信息解碼并且基于通過(guò)輸入設(shè)備1114(例如，鍵盤、點(diǎn)撥輪、觸摸顯示器)接收的用戶輸入提供再混合能力。C.用于接收用戶輸入的用戶接口圖12說(shuō)明了具有再混合能力的媒體播放器1200的用戶接口 1202的實(shí)現(xiàn)方案。用戶接口 1202還可以適用于其他設(shè)備(例如，移動(dòng)電話、計(jì)算機(jī)等)。用戶接口不限于所示出的配置或格式，并且可以包括不同類型的用戶接口元素(例如，導(dǎo)航控制、觸摸表面)。用戶可以通過(guò)加亮用戶接口 1202上的適當(dāng)?shù)捻?xiàng)目進(jìn)入設(shè)備1200的“再混合”模式。在該示例中，假設(shè)用戶從音樂(lè)庫(kù)中選擇了歌曲并且希望改變主唱音軌的搖擺設(shè)定。例如，用戶可能希望在左音頻信道中收聽更多的主唱。為了獲取對(duì)所需搖擺控制的接入，用戶可以導(dǎo)航瀏覽一系列的子菜單1204、1206 和1208。例如，用戶可以使用滾輪1210滾讀子菜單1204、1206和1208上的項(xiàng)目。用戶可以通過(guò)點(diǎn)擊按鈕1212選擇加亮的菜單項(xiàng)目。子菜單1208提供對(duì)關(guān)于主唱音軌的所需搖擺控制的接入。隨后，在播放歌曲的同時(shí)，用戶可以(例如，使用滾輪1210)操縱滑動(dòng)器按照需要調(diào)節(jié)主唱的搖擺。D.比特流語(yǔ)法在一些實(shí)現(xiàn)方案中，參照?qǐng)D1-10描述的再混合方案可以包括在現(xiàn)有的或未來(lái)的音頻編碼標(biāo)準(zhǔn)(例如，MPEG-4)中。用于現(xiàn)有的或未來(lái)的編碼標(biāo)準(zhǔn)的比特流語(yǔ)法可以包括具有再混合能力的解碼器使用的用于確定如何處理比特流以允許用戶再混合的信息。該語(yǔ) 法可被設(shè)計(jì)為通過(guò)常規(guī)編碼方案提供向后兼容性。例如，比特流中包括的數(shù)據(jù)結(jié)構(gòu)(例如，分組報(bào)頭)可以包括指示用于再混合的邊信息(例如，增益因子、子帶功率)的可用性的信息(例如，一個(gè)或多個(gè)比特或標(biāo)志)。VIII.無(wú)伴奏模式和自動(dòng)增益/搖擺調(diào)節(jié)A.無(wú)伴奏模式增強(qiáng)方案立體聲無(wú)伴奏信號(hào)對(duì)應(yīng)于僅包括聲音的立體聲信號(hào)。在不喪失一般性的前提下，
令最初M個(gè)源si、s2.....sM為[1]中的聲音源。為了從原始立體聲信號(hào)獲取立體聲無(wú)伴奏
信號(hào)，可以使非聲音源衰減。所需的立體聲信號(hào)是其中K是用于非聲音源的衰減因子。由于不使用搖擺，因此通過(guò)使用從[50]的無(wú) 伴奏立體聲信號(hào)定義得到的期望值，可以計(jì)算新的二權(quán)重Wiener濾波器通過(guò)將K設(shè)定為1()￥，可以使非聲音源衰減A dB，給出了得到立體聲無(wú)伴奏信號(hào)的印象。B.自動(dòng)增益/搖擺調(diào)節(jié)在改變?cè)吹脑鲆婧蛽u擺設(shè)定時(shí)，可以選擇導(dǎo)致削弱的渲染質(zhì)量的極值。例如，除一個(gè)保持OdB之外將所有源移至最小增益，或者除一個(gè)移至右側(cè)之外將所有源移至左側(cè)，可以產(chǎn)生關(guān)于該隔離的源的差的音頻質(zhì)量。該情形應(yīng)被避免，以保持沒(méi)有人工效果的干凈渲染的立體聲信號(hào)。一種用于避免該情形的手段是防止增益和搖擺控制的極端設(shè)定。每個(gè)控制k，增益和搖擺滑動(dòng)器&和化分別可以具有范圍[_1，1]中的圖形用戶接口(GUI)中的內(nèi)部值。為了限制極端設(shè)定，增益滑動(dòng)器之間的平均距離可被計(jì)算為其中K是控制的數(shù)目。P 越接近1，則設(shè)定越極端。隨后將調(diào)節(jié)因子Gadjust作為平均距離P G的函數(shù)來(lái)計(jì)算以限制⑶I中的增益滑動(dòng) 器的范圍GadJust = l-(l-nG)uG, (54)其中ne定義了關(guān)于例如P e = 1的極端設(shè)定的自動(dòng)調(diào)整Ga(Uust的程度。典型地， ne被選擇為等于約0. 5以在極端設(shè)定的情況中使增益減少一半。依照相同的過(guò)程，計(jì)算Padjust并且將其應(yīng)用于搖擺滑動(dòng)器，以便于有效增益和搖擺被調(diào)整為gk = GadJustgk, (55)pk = PadJustPko所公開的和其他的實(shí)施例以及本說(shuō)明書中描述的功能操作可以在數(shù)字電子電路中實(shí)現(xiàn)，或者在包括本說(shuō)明書中公開的結(jié)構(gòu)及其結(jié)構(gòu)等效方案的計(jì)算機(jī)軟件、固件或硬件中實(shí)現(xiàn)，或者通過(guò)組合一個(gè)或多個(gè)以上手段來(lái)實(shí)現(xiàn)。所公開的和其他的實(shí)施例可被實(shí)現(xiàn)為一個(gè)或多個(gè)計(jì)算機(jī)程序產(chǎn)品，即用于由數(shù)據(jù)處理裝置執(zhí)行或者控制數(shù)據(jù)處理裝置操作的在計(jì)算機(jī)可讀介質(zhì)上編碼的一個(gè)或多個(gè)計(jì)算機(jī)程序指令模塊。計(jì)算機(jī)可讀介質(zhì)可以是機(jī)器可讀存儲(chǔ)設(shè)備、機(jī)器可讀存儲(chǔ)基板、存儲(chǔ)器設(shè)備、實(shí)現(xiàn)機(jī)器可讀傳播信號(hào)的事件的組合或者一個(gè)或多個(gè)以上介質(zhì)的組合。術(shù)語(yǔ)“數(shù)據(jù)處理裝置”涵蓋用于處理數(shù)據(jù)的所有裝置、設(shè)備和機(jī) 器，包括作為示例的可編程處理器、計(jì)算機(jī)或者多個(gè)處理器或計(jì)算機(jī)。除了硬件之外，該裝置可以包括創(chuàng)建關(guān)于正被討論的計(jì)算機(jī)程序的執(zhí)行環(huán)境的代碼，例如，構(gòu)成處理器固件、協(xié)議堆棧、數(shù)據(jù)庫(kù)管理系統(tǒng)、操作系統(tǒng)或者一個(gè)或多個(gè)以上執(zhí)行環(huán)境的組合的代碼。傳播信號(hào) 是人工生成信號(hào)，例如，機(jī)器生成的電、光或電磁信號(hào)，其被生成以對(duì)用于傳送到適當(dāng)?shù)慕?收機(jī)裝置的信息編碼。計(jì)算機(jī)程序(還被稱為程序、軟件、軟件應(yīng)用、腳本或代碼)可以通過(guò)任何形式的編程語(yǔ)言編寫，包括編譯或解釋語(yǔ)言，并且其可以通過(guò)任何形式部署，包括作為獨(dú)立的程序或者作為模塊的部件、子程序或者適于在計(jì)算環(huán)境中使用的其他單元。計(jì)算機(jī)程序不必對(duì) 應(yīng)于文件系統(tǒng)中的文件。程序可以存儲(chǔ)在保存其他程序或數(shù)據(jù)(例如，存儲(chǔ)在標(biāo)記語(yǔ)言文檔中的一個(gè)或多個(gè)腳本)的文件的一部分中，保存在正被討論的程序?qū)Ｓ玫膯蝹€(gè)文件中，或者保存在多個(gè)協(xié)同文件(例如，存儲(chǔ)一個(gè)或多個(gè)模塊、子程序或代碼部分的文件)中。計(jì) 算機(jī)程序可被部署為在一個(gè)計(jì)算機(jī)上執(zhí)行或者在位于一個(gè)地點(diǎn)或跨越多個(gè)地點(diǎn)分布并且通過(guò)通信網(wǎng)絡(luò)互連的多個(gè)計(jì)算機(jī)上執(zhí)行。本說(shuō)明書中描述的過(guò)程和邏輯流程可以通過(guò)一個(gè)或多個(gè)可編程處理器執(zhí)行，該可編程處理器通過(guò)對(duì)輸入數(shù)據(jù)進(jìn)行操作并且生成輸出，執(zhí)行一個(gè)或多個(gè)計(jì)算機(jī)程序以執(zhí)行功能。該過(guò)程和邏輯流程還通過(guò)專用邏輯電路來(lái)實(shí)現(xiàn)，或者裝置也可被實(shí)現(xiàn)為專用邏輯電路，例如，F(xiàn)PGA (現(xiàn)場(chǎng)可編程門陣列)或ASIC (專用集成電路)。作為示例，適用于執(zhí)行計(jì)算機(jī)程序的處理器包括通用和專用微處理器和任何類別的數(shù)字計(jì)算機(jī)的任何一個(gè)或多個(gè)處理器。通常，處理器將從只讀存儲(chǔ)器或隨機(jī)存取存儲(chǔ)器或此兩者接收指令和數(shù)據(jù)。計(jì)算機(jī)的基本元件是用于執(zhí)行指令的處理器和用于存儲(chǔ)指令和數(shù)據(jù)的一個(gè)或多個(gè)存儲(chǔ)器設(shè)備。通常，計(jì)算機(jī)還將包括用于存儲(chǔ)數(shù)據(jù)的一個(gè)或多個(gè)大容量存儲(chǔ)設(shè)備，例如，磁盤、磁-光盤或者光盤，或者操作耦合至這些大容量存儲(chǔ)設(shè)備以從其接收數(shù)據(jù)或者向其傳輸數(shù)據(jù)或者執(zhí)行這兩個(gè)操作。然而，計(jì)算機(jī)不需要具有這些設(shè)備。用于存儲(chǔ)計(jì)算機(jī)程序指令和數(shù)據(jù)的計(jì)算機(jī)可讀媒體包括所有形式的非易失存儲(chǔ)器、媒體和存儲(chǔ) 器設(shè)備，其包括作為示例的半導(dǎo)體存儲(chǔ)器設(shè)備，例如，EPROM、EEPR0M和閃速存儲(chǔ)器設(shè)備；磁盤，例如，內(nèi)部硬盤或可移除盤；磁-光盤；以及⑶-ROM和DVD-ROM盤。處理器和存儲(chǔ)器可以由專用邏輯電路補(bǔ)充或者被并入專用邏輯電路。為了提供與用戶的交互，所公開的實(shí)施例可以在計(jì)算機(jī)上實(shí)現(xiàn)，該計(jì)算機(jī)具有顯示設(shè)備，例如CRT(陰極射線管)或LCD(液晶顯示器)監(jiān)視器，其用于向用戶顯示信息；以及鍵盤和指向設(shè)備，例如鼠標(biāo)或軌跡球，用戶可以通過(guò)其向計(jì)算機(jī)提供輸入。也可以使用其他類別的設(shè)備提供與用戶的交互；例如，提供給用戶的反饋可以是任何形式的感覺(jué)反饋，例如視覺(jué)反饋、聽覺(jué)反饋或觸覺(jué)反饋；并且可以通過(guò)任何形式接收來(lái)自用戶的輸入，包括聲、語(yǔ)音或觸覺(jué)輸入。所公開的實(shí)施例可以在計(jì)算系統(tǒng)中實(shí)現(xiàn)，該計(jì)算系統(tǒng)包括后端部件，例如數(shù)據(jù)服務(wù)器，或者包括中間部件，例如應(yīng)用服務(wù)器，或者包括前端部件，例如具有圖形用戶接口或 Web瀏覽器的客戶機(jī)計(jì)算機(jī)，用戶可以通過(guò)該圖形用戶接口或Web瀏覽器與這里公開的實(shí) 現(xiàn)方案交互，或者包括一個(gè)或多個(gè)該后端、中間或前端部件的任何組合。系統(tǒng)部件可以通過(guò)數(shù)字?jǐn)?shù)據(jù)通信的任何形式或介質(zhì)(例如通信網(wǎng)絡(luò))被互聯(lián)。通信網(wǎng)絡(luò)的示例包括局域網(wǎng) (LAN)和例如互聯(lián)網(wǎng)的廣域網(wǎng)(WAN)。計(jì)算系統(tǒng)可以包括客戶機(jī)和服務(wù)器?？蛻魴C(jī)和服務(wù)器通常相互是遠(yuǎn)程的并且典型地通過(guò)通信網(wǎng)絡(luò)交互?？蛻魴C(jī)和服務(wù)器的關(guān)系是依靠在各個(gè)計(jì)算機(jī)上運(yùn)行并且具有相互的客戶機(jī)_服務(wù)器關(guān)系的計(jì)算機(jī)程序而引出的。VIII.使用再混合技術(shù)的系統(tǒng)的示例圖13說(shuō)明了組合空間音頻對(duì)象解碼(SA0C)和再混合解碼的解碼器系統(tǒng)1300的實(shí)現(xiàn)方案。SA0C是用于處理多信道音頻的音頻技術(shù)，其允許編碼聲音對(duì)象的交互式操縱。在一些實(shí)現(xiàn)方案中，系統(tǒng)1300包括混合信號(hào)解碼器1301、參數(shù)生成器1302和再混合渲染器1304。參數(shù)生成器1302包括盲估計(jì)器1308、用戶混合參數(shù)生成器1310和再混合參數(shù)生成器1306。再混合參數(shù)生成器1306包括均衡混合參數(shù)生成器1312和上混合參數(shù)生成器1314。在一些實(shí)現(xiàn)方案中，系統(tǒng)1300提供兩個(gè)音頻過(guò)程。在第一過(guò)程中，再混合參數(shù)生成器1306使用編碼系統(tǒng)提供的邊信息生成再混合參數(shù)。在第二過(guò)程中，通過(guò)盲估計(jì)器1308 生成盲參數(shù)并且再混合參數(shù)生成器1306使用該盲參數(shù)生成再混合參數(shù)。如參照?qǐng)D8A和8B 描述的，可以通過(guò)盲估計(jì)器1308執(zhí)行盲參數(shù)和全盲或部分盲生成過(guò)程。在一些實(shí)現(xiàn)方案中，再混合參數(shù)生成器1306接收邊信息或盲參數(shù)，并且從用戶混合參數(shù)生成器1310接收一組用戶混合參數(shù)。用戶混合參數(shù)生成器1310接收終端用戶指定的混合參數(shù)(例如，GAIN、PAN)并且將混合參數(shù)轉(zhuǎn)換為適用于再混合參數(shù)生成器1306的再混合處理的格式(例如，轉(zhuǎn)換為增益Ci、di+1)。在一些實(shí)現(xiàn)方案中，用戶混合參數(shù)生成器 1310提供用于允許用戶指定所需混合參數(shù)的用戶接口，諸如例如參照?qǐng)D12描述的媒體播放器用戶接口 1200。在一些實(shí)現(xiàn)方案中，再混合參數(shù)生成器1306可以處理立體聲和多信道音頻信號(hào)。例如，均衡混合參數(shù)生成器1312可以生成用于立體聲信道目標(biāo)的混合參數(shù)，并且上混合參數(shù)生成器1314可以生成用于多信道目標(biāo)的再混合參數(shù)。參考章節(jié)IV描述了基于多信道音頻信號(hào)的再混合參數(shù)生成。在一些實(shí)現(xiàn)方案中，再混合渲染器1304接收關(guān)于立體聲目標(biāo)信號(hào)或多信道目標(biāo) 信號(hào)的再混合參數(shù)。均衡混合渲染器1316基于用戶混合參數(shù)生成器1310提供的格式化的用戶指定的立體聲混合參數(shù)，將立體聲再混合參數(shù)應(yīng)用于直接從混合信號(hào)解碼器1301接收的原始立體聲信號(hào)以提供所需的再混合立體聲信號(hào)。在一些實(shí)現(xiàn)方案中，可以使用立體聲再混合參數(shù)的nXn矩陣(例如，2X2矩陣)將立體聲再混合參數(shù)應(yīng)用于原始立體聲信號(hào)。上混合渲染器1318基于用戶混合參數(shù)生成器1310提供的格式化的用戶指定的多信道混合參數(shù)，將多信道再混合參數(shù)應(yīng)用于直接從混合信號(hào)解碼器1301接收的原始多信道信號(hào)以提供所需的再混合多信道信號(hào)。在一些實(shí)現(xiàn)方案中，效果生成器1320生成效果信號(hào) (例如，混響)，均衡混合渲染器1316或上混合渲染器分別將該效果信號(hào)應(yīng)用于原始立體聲或多信道信號(hào)。在一些實(shí)現(xiàn)方案中，除了應(yīng)用再混合參數(shù)以生成再混合多信道信號(hào)之外，上混合渲染器1318接收原始立體聲信號(hào)并且將該立體聲信號(hào)轉(zhuǎn)換(或上混合)為多信道信號(hào)。系統(tǒng)1300可以處理具有各種信道配置的音頻信號(hào)，允許系統(tǒng)1300集成到現(xiàn)有的音頻編碼方案(例如，SAOC、MPEG、AAC、參量立體聲)中，同時(shí)與該音頻編碼方案保持向后兼容性。圖14A說(shuō)明了關(guān)于分立對(duì)話音量(SDV)的通用混合模型。SDV是題為“Separate Dialogue Volume"的美國(guó)臨時(shí)專利申請(qǐng)No. 60/884，594中描述的一種改進(jìn)的對(duì)話增強(qiáng)技術(shù)。在SDV的一個(gè)實(shí)現(xiàn)方案中，立體聲信號(hào)被記錄和混合，從而對(duì)于每個(gè)源，信號(hào)相干地進(jìn) 入具有特定方向線索(例如，聲級(jí)差、時(shí)間差)的左和右信號(hào)信道，并且反射/混響?yīng)毩⑿?號(hào)進(jìn)入確定聽覺(jué)事件寬度和聽者包圍感線索的信道。參照?qǐng)D14A，因子a確定聽覺(jué)事件呈現(xiàn) 的方向，其中s是直達(dá)聲音并且ni和n2是橫向反射。信號(hào)s模仿來(lái)自由因子a確定的方向的局部化聲音。獨(dú)立信號(hào)&和n2對(duì)應(yīng)于反射/混響聲音，其常常被標(biāo)為環(huán)境聲音或環(huán)境。所描述的場(chǎng)景是關(guān)于具有一個(gè)音頻源的立體聲信號(hào)的感知激勵(lì)分解，Xj (n) = s (n) + x2(n) = as(n)+n2, (51)捕獲音頻源和環(huán)境的局部化。圖14B說(shuō)明了組合SDV和再混合技術(shù)的系統(tǒng)1400的實(shí)現(xiàn)方案。在一些實(shí)現(xiàn)方案中，系統(tǒng)1400包括濾波器組1402 (例如，STFT)、盲估計(jì)器1404、均衡混合渲染器1406、參數(shù) 生成器1408和逆濾波器組1410(例如，逆STFT)。在一些實(shí)現(xiàn)方案中，濾波器組1402接收SDV下混合信號(hào)并且將其分解為子帶信號(hào)。下混合信號(hào)可以是[51]給出的立體聲信號(hào)xi、x2。子帶信號(hào)&(1，10、&(1，10被直接輸入到均衡混合渲染器1406中或者盲估計(jì)器1404中，盲估計(jì)器1404輸出盲參數(shù)A、Ps、Pn。在題為“S印arateDialogue Volume”的美國(guó)臨時(shí)專利申請(qǐng)No. 60/884, 594中描述了這些參數(shù)的計(jì)算。盲參數(shù)被輸入到參數(shù)生成器1408中，參數(shù)生成器1408從盲參數(shù)和用戶指定的混合參數(shù)g(i，k)(例如，中心增益、中心帶寬、截止頻率、干燥度)生成均衡混合參數(shù)wn w220章節(jié)I中描述了均衡混合參數(shù)的計(jì)算。均衡混合渲染器1406將均衡混合參數(shù)應(yīng)用于子帶信號(hào)以提供渲染輸出信號(hào)yi、y2。均衡混合渲染器1406的渲染輸出信號(hào)被輸入到逆濾波器組1410，逆濾波器組1410基于用戶指定的混合參數(shù)將渲染輸出信號(hào)轉(zhuǎn)換為所需的SDV 立體聲信號(hào)。在一些實(shí)現(xiàn)方案中，如參照?qǐng)D1 12說(shuō)明的，系統(tǒng)1400還使用再混合技術(shù)處理音頻信號(hào)。在再混合模式中，濾波器組1402接收立體聲或多信道信號(hào)，諸如[1]和[27]中描述的信號(hào)。該信號(hào)通過(guò)濾波器組1402被分解為子帶信號(hào)Xji，k)、X2(i，k)并且被直接輸入到均衡渲染器1406和用于估計(jì)盲參數(shù)的盲估計(jì)器1404中。盲參數(shù)與在比特流中接收的邊信息、bp Psi 一起被輸入到參數(shù)生成器1408中。參數(shù)生成器1408將盲參數(shù)和邊信息應(yīng)用于子帶信號(hào)以生成渲染輸出信號(hào)。渲染輸出信號(hào)被輸入到逆濾波器組1410，逆濾波器組1410生成所需的再混合信號(hào)。圖15說(shuō)明了圖14B中示出的均衡混合渲染器1406的實(shí)現(xiàn)方案。在一些實(shí)現(xiàn)方案中，通過(guò)調(diào)整模塊1502和1504調(diào)整下混合信號(hào)XI，并且通過(guò)調(diào)整模塊1506和1508調(diào)整下混合信號(hào)X2。調(diào)整模塊1502根據(jù)均衡混合參數(shù)wn調(diào)整下混合信號(hào)XI，調(diào)整模塊1504根據(jù)均衡混合參數(shù)w21調(diào)整下混合信號(hào)XI，調(diào)整模塊1506根據(jù)均衡混合參數(shù)w12調(diào)整下混合信號(hào)X2，并且調(diào)整模塊1508根據(jù)均衡混合參數(shù)w22調(diào)整下混合信號(hào)X2。調(diào)整模塊1502和 1506的輸出被求和以提供第一渲染輸出信號(hào)yi，并且調(diào)整模塊1504和1508的輸出被求和以提供第二渲染輸出信號(hào)y2。圖16說(shuō)明了用于參照?qǐng)D1 15描述的再混合技術(shù)的分布系統(tǒng)1600的實(shí)現(xiàn)方案。在一些實(shí)現(xiàn)方案中，內(nèi)容提供商1602使用授權(quán)工具1604，授權(quán)工具1604包括如前面參照圖1A描述的用于生成邊信息的再混合編碼器1606。邊信息可以是一個(gè)或多個(gè)文件的一部分和/或包括在用于比特流業(yè)務(wù)的比特流中。再混合文件可以具有唯一文件擴(kuò)展名(例如，filename. rmx)0單個(gè)文件可以包括原始混合音頻信號(hào)和邊信息?？商孢x地，原始混合音頻信號(hào)和邊信息可以作為分立的文件分布在分組、束、包或其他適當(dāng)?shù)娜萜髦?。在一些?shí) 現(xiàn)方案中，可以通過(guò)預(yù)設(shè)的混合參數(shù)分布再混合文件以幫助用戶學(xué)習(xí)技術(shù)和/或用于市場(chǎng) 目的。在一些實(shí)現(xiàn)方案中，可將原始內(nèi)容(例如，原始混合音頻文件)、邊信息和可選的預(yù)設(shè)混合參數(shù)(“再混合信息”)提供給服務(wù)提供商1608(例如，音樂(lè)門戶)或者將其安置在物理介質(zhì)(例如，⑶_R0M、DVD、媒體播放器、閃存驅(qū)動(dòng)器)上。服務(wù)提供商1608可以操作用于服務(wù)所有或部分再混合信息和/或包含所有或部分再混合信息的比特流的一個(gè)或多個(gè)服務(wù)器1610。再混合信息可以存儲(chǔ)在知識(shí)庫(kù)1612中。服務(wù)提供商1608還可以提供用于共享用戶生成的混合參數(shù)的虛擬環(huán)境(例如，社區(qū)、門戶、公告牌)。例如，用戶在能夠?qū)崿F(xiàn) 再混合的設(shè)備1616(例如，媒體播放器、移動(dòng)電話)上生成的混合參數(shù)可以存儲(chǔ)在混合參數(shù) 文件中，該混合參數(shù)文件可以上載到服務(wù)提供商1608用于與其他用戶共享?；旌蠀?shù)文件可以具有唯一擴(kuò)展名(例如，filename, rms)。在所示出的示例中，用戶使用再混合播放器 A生成混合參數(shù)文件并且將該混合參數(shù)文件上載到服務(wù)提供商1608，其中該文件隨后由操作再混合播放器B的用戶下載?？梢允褂萌魏我阎臄?shù)字版權(quán)管理方案和/或其他已知的安全方法實(shí)現(xiàn)系統(tǒng) 1600以保護(hù)原始內(nèi)容和再混合信息。例如，操作再混合播放器B的用戶可能需要分立地下載原始內(nèi)容并且在用戶可以訪問(wèn)或者使用再混合播放器B提供的再混合特征之前保護(hù)證書。圖17A說(shuō)明了用于提供再混合信息的比特流的基本元素。在一些實(shí)現(xiàn)方案中，單個(gè)集成比特流1702可被遞送到能夠?qū)崿F(xiàn)再混合的設(shè)備，其包括混合音頻信號(hào)(MixecLObj BS)、增益因子和子帶功率(Ref_Mix_Para BS)以及用戶指定的混合參數(shù)(User_Mix_Para BS)。在一些實(shí)現(xiàn)方案中，關(guān)于再混合信息的多個(gè)比特流可被獨(dú)立地遞送到能夠?qū)崿F(xiàn)再混合的設(shè)備。例如，可以在第一比特流1704中遞送混合音頻信號(hào)，并且可以在第二比特流1706 中遞送增益因子、子帶功率和用戶指定的混合參數(shù)。在一些實(shí)現(xiàn)方案中，可以在三個(gè)分立的比特流1708、1710和1712中遞送混合音頻信號(hào)、增益因子和子帶功率以及用戶指定的混合參數(shù)?？梢砸韵嗤虿煌谋忍芈蔬f送這些分立的比特流?？梢允褂酶鞣N已知技術(shù)按照需要處理比特流以節(jié)約帶寬并且確保魯棒性，包括比特交織、熵編碼(例如，霍夫曼編碼)、糾錯(cuò)等。圖17B說(shuō)明了再混合編碼器的比特流接口 1714。在一些實(shí)現(xiàn)方案中，針對(duì)再混合編碼器接口 1714的輸入可以包括混合對(duì)象信號(hào)、單獨(dú)的對(duì)象或源信號(hào)和編碼器選項(xiàng)。編碼器接口 1714的輸出可以包括混合音頻信號(hào)比特流、包括增益因子和子帶功率的比特流以及包括預(yù)設(shè)混合參數(shù)的比特流。圖17C說(shuō)明了再混合解碼器的比特流接口 1716。在一些實(shí)現(xiàn)方案中，針對(duì)再混合解碼器接口 1716的輸入可以包括混合音頻信號(hào)比特流、包括增益因子和子帶功率的比特流以及包括預(yù)設(shè)混合參數(shù)的比特流。解碼器接口 1716的輸出可以包括再混合音頻信號(hào)、上混合渲染器比特流(例如，多信道信號(hào))、盲再混合參數(shù)和用戶再混合參數(shù)。關(guān)于編碼器和解碼器接口的其他配置也是可能的。圖17B和17C中說(shuō)明的接口配置可用于定義應(yīng)用編程接口(API)，其用于允許能夠?qū)崿F(xiàn)再混合的設(shè)備處理再混合信息。圖 17B和17C中示出的接口是示例，并且其他配置也是可能的，包括可以部分地基于設(shè)備具有不同數(shù)目和類型的輸入和輸出的配置。圖18是示出示例系統(tǒng)1800的框圖，該系統(tǒng)1800包括用于生成關(guān)于某些對(duì)象信號(hào)的額外邊信息的擴(kuò)展以提供再混合信號(hào)的改進(jìn)的感知質(zhì)量。在一些實(shí)現(xiàn)方案中，系統(tǒng) 1800 (在編碼側(cè))包括混合信號(hào)編碼器1808和增強(qiáng)再混合編碼器1802，增強(qiáng)再混合編碼器 1802包括再混合編碼器1804和信號(hào)編碼器1806。在一些實(shí)現(xiàn)方案中，系統(tǒng)1800 (在解碼側(cè))包括混合信號(hào)解碼器1810、再混合渲染器1814和參數(shù)生成器1816。在編碼器側(cè)，混合音頻信號(hào)通過(guò)混合信號(hào)編碼器1808 (例如，mp3編碼器)被編碼并且被發(fā)送到解碼側(cè)。對(duì)象信號(hào)(例如，主唱、吉他、鼓或其他樂(lè)器)被輸入到再混合編碼器1804，例如，如前面參照?qǐng)D1A和3A描述的，再混合編碼器1804生成邊信息(例如，增益因子和子帶功率)。此外，感興趣的一個(gè)或多個(gè)對(duì)象信號(hào)被輸入到信號(hào)編碼器1806 (例如， mp3編碼器)以產(chǎn)生額外的邊信息。在一些實(shí)現(xiàn)方案中，用于使混合信號(hào)編碼器1808和信號(hào)編碼器1806的輸出信號(hào)分別對(duì)準(zhǔn)的對(duì)準(zhǔn)信息被輸入到信號(hào)編碼器1806。對(duì)準(zhǔn)信息可以包括時(shí)間對(duì)準(zhǔn)信息、所使用的編碼規(guī)則類型、目標(biāo)比特率、比特分配信息或策略等。在解碼器側(cè)，混合信號(hào)編碼器的輸出被輸入到混合信號(hào)解碼器1810 (例如，mp3解碼器)?；旌闲盘?hào)解碼器1810的輸出和編碼器邊信息(例如，編碼器生成的增益因子、子帶功率、額外的邊信息)被輸入到參數(shù)生成器1816，參數(shù)生成器1816使用這些參數(shù)和控制參數(shù)(例如，用戶指定的混合參數(shù))一起生成再混合參數(shù)和額外的再混合數(shù)據(jù)。再混合渲染器1814可以使用該再混合參數(shù)和額外的再混合數(shù)據(jù)來(lái)渲染再混合音頻信號(hào)。再混合渲染器1814使用該額外的再混合數(shù)據(jù)(例如，對(duì)象信號(hào))使原始混合音頻信號(hào)中的特定對(duì)象再混合。例如，在卡拉0K應(yīng)用中，增強(qiáng)再混合編碼器1802可以使用表示主唱的對(duì)象信號(hào)生成額外的邊信息(例如，編碼對(duì)象信號(hào))。參數(shù)生成器1816可以使用該信號(hào)生成額外的再混合數(shù)據(jù)，再混合渲染器1814可以使用該額外的再混合數(shù)據(jù)使原始混合音頻信號(hào)中的主唱再混合(例如，抑制或衰減主唱)。圖19是示出圖18中示出的再混合渲染器1814的示例的框圖。在一些實(shí)現(xiàn)方案中，下混合信號(hào)XI、X2被分別輸入到組合器1904、1906中。下混合信號(hào)XI、X2可以是例如原始混合音頻信號(hào)的左和右信道。組合器1904、1906使下混合信號(hào)XI、X2與參數(shù)生成器 1816提供的額外的再混合數(shù)據(jù)組合。在卡拉0K示例中，組合可以包括在再混合之前從下混合信號(hào)XI、X2中減去主唱對(duì)象信號(hào)以衰減或抑制再混合音頻信號(hào)中的主唱。在一些實(shí)現(xiàn)方案中，下混合信號(hào)XI (例如，原始混合音頻信號(hào)的左信道)與額外的再混合數(shù)據(jù)(例如，主唱對(duì)象信號(hào)的左信道)組合并且通過(guò)調(diào)整模塊1906a和1906b被調(diào) 整，并且下混合信號(hào)X2(例如，原始混合音頻信號(hào)的右信道)與額外的再混合數(shù)據(jù)(例如，主唱對(duì)象信號(hào)的右信道)組合并且通過(guò)調(diào)整模塊1906c和1906d被調(diào)整。調(diào)整模塊1906a 根據(jù)均衡混合參數(shù)調(diào)整下混合信號(hào)XI，調(diào)整模塊1906b根據(jù)均衡混合參數(shù)w21調(diào)整下混合信號(hào)XI，調(diào)整模塊1906c根據(jù)均衡混合參數(shù)w12調(diào)整下混合信號(hào)X2，并且調(diào)整模塊1906d 根據(jù)均衡混合參數(shù)w22調(diào)整下混合信號(hào)X2。可以使用線性代數(shù)，諸如使用n X n (例如，2 X 2) 矩陣實(shí)現(xiàn)該調(diào)整。調(diào)整模塊1906a和1906c的輸出被求和以提供第一渲染輸出信號(hào)Y2，并且調(diào)整模塊1906b和1906d被求和以提供第二渲染輸出信號(hào)Y2。
在一些實(shí)現(xiàn)方案中，可以在用戶接口中實(shí)現(xiàn)用于在原始立體聲混合，“卡拉OK”模式和/或“無(wú)伴奏”模式之間移動(dòng)的控制。作為該控制位置的函數(shù)，組合器1902控制原始立體聲信號(hào)和通過(guò)額外的邊信息獲取的信號(hào)(多個(gè))之間的線性組合。例如，對(duì)于卡拉0K 模式，可以從立體聲信號(hào)中減去從額外的邊信息獲取的信號(hào)。隨后可以應(yīng)用再混合處理以移除量化噪聲(在立體聲和/或其他信號(hào)被有損編碼的情況中)。為了部分地移除聲音，僅需要減去通過(guò)額外的邊信息獲取的信號(hào)的一部分。為了僅播放聲音，組合器1902選擇通過(guò) 額外的邊信息獲取的信號(hào)。為了播放聲音和某種背景音樂(lè)，組合器1902將立體聲信號(hào)的調(diào) 整版本添加到通過(guò)額外的邊信息獲取的信號(hào)。盡管本說(shuō)明書包含許多細(xì)節(jié)，但是它們不應(yīng)被解釋為對(duì)權(quán)利要求的范圍的限制，而是應(yīng)被解釋為特定實(shí)施例的特定特征的描述。本說(shuō)明書中在分立實(shí)施例的上下文中描述的某些特征也可以在單個(gè)實(shí)施例中以組合形式實(shí)現(xiàn)。相反地，在單個(gè)實(shí)施例的上下文中描述的各種特征也可以分立地在多個(gè)實(shí)施例中實(shí)現(xiàn)或者以任何適當(dāng)?shù)淖咏M合來(lái)實(shí)現(xiàn)。而且，盡管上文將特征描述為在某些組合中發(fā)揮作用并且在權(quán)利要求中亦是如此，但是來(lái)自權(quán)利要求組合的一個(gè)或多個(gè)特征可以在一些情況中從該組合排除，并且權(quán)利要求組合可以涉及子組合或者子組合的變化方案。相似地，盡管在附圖中以特定順序示出了操作，但是這不應(yīng)被理解為，為了實(shí)現(xiàn)所需的結(jié)果，需要按照所示出的特定順序或者按照依次的順序執(zhí)行該操作，或者需要執(zhí)行所有說(shuō)明的操作。在特定情況中，多任務(wù)和并行處理可能是有利的。而且，上文描述的實(shí)施例中的各種系統(tǒng)部件的分離不應(yīng)被理解為在所有實(shí)施例中都需要該分離，并且應(yīng)當(dāng)理解，所描述的程序部件和系統(tǒng)通?？梢砸黄鸺稍趩蝹€(gè)軟件產(chǎn)品中或者封裝到多個(gè)軟件產(chǎn)品中。已描述了本說(shuō)明書中描述的主題的特定實(shí)施例。其他實(shí)施例在所附權(quán)利要求的范圍內(nèi)。例如，可以按照不同的順序執(zhí)行權(quán)利要求中敘述的動(dòng)作并且仍然實(shí)現(xiàn)所需的結(jié)果。作為一個(gè)示例，為了實(shí)現(xiàn)所需的結(jié)果，附圖中示出的過(guò)程不必需要所示出的特定順序，或者依次的順序。作為另一示例，章節(jié)5A中描述的邊信息的預(yù)處理提供了關(guān)于再混合信號(hào)的子帶功率的下限以防止負(fù)值，這與[2]中給出的信號(hào)模型矛盾。然而，該信號(hào)模型不僅意指再混合信號(hào)的正功率，還意指原始立體聲信號(hào)和再混合立體聲信號(hào)之間的正的叉積，即E{xiyi}、 E {x1y2}、E {x2yj 禾P E {x2y2}。從兩個(gè)權(quán)重的情況開始，為了防止叉積E{xiyi}和E{x2y2}變負(fù)，[18]中定義的權(quán) 重被限制到某個(gè)閾值，從而使它們從不小于A dB。然后，通過(guò)考慮如下條件限制叉積，其中
表示平方根并且Q被定義為如果五
則叉積限于五休如果五{11，少2}<0!|!對(duì)付(五{<}五{X22})，貝丨J 叉積限于五 KM-P^^NW}五{x22})。
如果五hjhG*叫以(五{<}五“22}) 如果五拉少五“22}，則叉積限于五
權(quán)利要求
一種計(jì)算機(jī)實(shí)現(xiàn)的方法，包括獲取具有一組對(duì)象的第一多信道音頻信號(hào)；獲取邊信息，至少一些邊信息表示所述第一多信道音頻信號(hào)和表示將被再混合的對(duì)象的一個(gè)或多個(gè)源信號(hào)之間的關(guān)系；獲取一組混合參數(shù)；獲取衰減因子；以及使用所述邊信息、所述衰減因子和所述一組混合參數(shù)生成第二多信道音頻信號(hào)。
2.如權(quán)利要求1所述的方法，其中獲取所述一組混合參數(shù)進(jìn)一步包括接收指定所述一組混合參數(shù)的用戶輸入。
3.如權(quán)利要求1所述的方法，其中生成第二多信道音頻信號(hào)包括將所述第一多信道音頻信號(hào)分解為第一組子帶信號(hào)；使用所述邊信息和所述一組混合參數(shù)估計(jì)對(duì)應(yīng)于所述第二多信道音頻信號(hào)的第二組子帶信號(hào)；以及將所述第二組子帶信號(hào)轉(zhuǎn)換為所述第二多信道音頻信號(hào)。
4.如權(quán)利要求3所述的方法，其中估計(jì)第二組子帶信號(hào)進(jìn)一步包括對(duì)所述邊信息解碼以提供與將被再混合的對(duì)象關(guān)聯(lián)的增益因子和子帶功率估算；基于所述增益因子、子帶功率估算和所述一組混合參數(shù)確定一組或多組權(quán)重；以及使用至少一組權(quán)重估計(jì)所述第二組子帶信號(hào)。
5.如權(quán)利要求4所述的方法，其中確定一組或多組權(quán)重進(jìn)一步包括確定第一組權(quán)重的量值；以及確定第二組權(quán)重的量值，其中所述第二組權(quán)重包括不同于所述第一組權(quán)重的權(quán)重?cái)?shù)目。
6.如權(quán)利要求5所述的方法，進(jìn)一步包括比較所述第一和第二組權(quán)重的量值；以及基于所述比較的結(jié)果選擇所述第一和第二組權(quán)重之一用于在估計(jì)所述第二組子帶信號(hào)時(shí)使用。
7.如權(quán)利要求4所述的方法，其中確定一組或多組權(quán)重進(jìn)一步包括確定使所述第一多信道音頻信號(hào)和所述第二多信道音頻信號(hào)之間的差最小的一組權(quán)重。
8.如權(quán)利要求4所述的方法，其中確定一組或多組權(quán)重進(jìn)一步包括形成線性方程組，其中所述方程組中的每個(gè)方程是積的和，并且每個(gè)積是通過(guò)使子帶信號(hào)與權(quán)重相乘而得到的；以及通過(guò)求解所述線性方程組確定所述權(quán)重。
9.如權(quán)利要求8所述的方法，其中使用最小二乘估計(jì)求解所述線性方程組。
10.如權(quán)利要求9所述的方法，其中所述線性方程組的解提供了第一權(quán)重wn，其被給出為w = E{xl} EjXyyl)- E{xxx2 }E{x2yl} Π ~E{xf}E{x22}-E2{χ,χ,}~，其中E {.}表示短時(shí)平均，X1和X2是第一多信道音頻信號(hào)的信道，并且Y1是第二多信道音頻信號(hào)的信道。
11.如權(quán)利要求9所述的方法，其中所述線性方程組的解提供了第二權(quán)重W22，其被給出為其中E {.}表示短時(shí)平均，X1和X2是第一多信道音頻信號(hào)的信道，并且y2是第二多信道音頻信號(hào)的信道。
12.如權(quán)利要求10或11所述的方法，其中其中K是用于使非聲音源衰減的衰減因子，并且％和h是增益因子。
13.如權(quán)利要求12所述的方法，其中，并且非聲音源被衰減A dB。
14.如權(quán)利要求12所述的方法，其中所述第二多信道音頻信號(hào)被給出為只(
15.一種裝置，包括解碼器，可配置用于接收邊信息并且用于從所述邊信息獲取再混合參數(shù)，其中至少一些所述邊信息表示第一多信道音頻信號(hào)和用于生成所述第一多信道音頻信號(hào)的一個(gè)或多個(gè)源信號(hào)之間的關(guān)系；接口，可配置用于獲取一組混合參數(shù)和衰減因子；和再混合模塊，耦合至所述解碼器和所述接口，所述再混合模塊可配置用于使用所述邊信息、所述衰減因子和所述一組混合參數(shù)使所述源信號(hào)再混合以生成具有衰減的非聲音源的第二多信道音頻信號(hào)。
16.如權(quán)利要求15所述的裝置，其中至少所述一組混合參數(shù)由用戶通過(guò)所述接口指定。
17.如權(quán)利要求15所述的裝置，進(jìn)一步包括至少一個(gè)濾波器組，可配置用于將所述第一多信道音頻信號(hào)分解為第一組子帶信號(hào)。
18.如權(quán)利要求17所述的裝置，其中所述再混合模塊使用所述邊信息、所述衰減因子和所述一組混合參數(shù)估計(jì)對(duì)應(yīng)于所述第二多信道音頻信號(hào)的第二組子帶信號(hào)，并且將所述第二組子帶信號(hào)轉(zhuǎn)換為所述第二多信道音頻信號(hào)。
19.如權(quán)利要求18所述的裝置，其中所述解碼器對(duì)所述邊信息解碼以提供與所述將被再混合的源信號(hào)關(guān)聯(lián)的增益因子和子帶功率估算，并且所述再混合模塊基于所述增益因子、子帶功率估算、衰減因子和所述一組混合參數(shù)確定一組或多組權(quán)重，并且使用至少一組權(quán)重來(lái)估計(jì)所述第二組子帶信號(hào)。
20.如權(quán)利要求19所述的裝置，其中所述再混合模塊通過(guò)確定使所述第一多信道音頻信號(hào)和所述第二多信道音頻信號(hào)之間的差最小的一組權(quán)重來(lái)確定一組或多組權(quán)重。
21.如權(quán)利要求19所述的裝置，其中所述再混合模塊通過(guò)求解線性方程組確定一組或多組權(quán)重，其中所述方程組中的每個(gè)方程是積的和，并且每個(gè)積是通過(guò)使子帶信號(hào)與權(quán)重相乘而得到的。
22.如權(quán)利要求21所述的裝置，其中使用最小二乘估計(jì)求解所述線性方程組。
23.如權(quán)利要求22所述的裝置，其中所述線性方程組的解提供第一權(quán)重wn，其被給出為其中表示短時(shí)平均，X1和X2是所述第一多信道音頻信號(hào)的信道，并且yi是所述第二多信道音頻信號(hào)的信道。
24.如權(quán)利要求22所述的裝置，其中所述線性方程組的解提供第二權(quán)重W22，其被給出為其中表示短時(shí)平均，X1和X2是所述第一多信道音頻信號(hào)的信道，并且y2是第二多信道音頻信號(hào)的信道。
25.如權(quán)利要求23或24所述的裝置，其中其中K是用于使非聲音源衰減的衰減因子，并且％和h是增益因子。
26.如權(quán)利要求25所述的裝置，其中&= 1G￥’并且非聲音源被衰減A dB。
27.如權(quán)利要求25所述的裝置，其中所述第二多信道音頻信號(hào)被給出為
28.一種計(jì)算機(jī)可讀介質(zhì)，在所述計(jì)算機(jī)可讀介質(zhì)上存儲(chǔ)有指令，所述指令在由處理器執(zhí)行時(shí)，使所述處理器執(zhí)行操作，所述操作包括獲取具有一組對(duì)象的第一多信道音頻信號(hào)；獲取邊信息，至少一些邊信息表示所述第一多信道音頻信號(hào)和表示將被再混合的對(duì)象的一個(gè)或多個(gè)源信號(hào)之間的關(guān)系；獲取一組混合參數(shù)；獲取衰減因子；以及使用所述邊信息、所述衰減因子和所述一組混合參數(shù)生成第二多信道音頻信號(hào)。
29.一種計(jì)算機(jī)實(shí)現(xiàn)的方法，包括獲取具有一組對(duì)象的第一多信道音頻信號(hào)；獲取邊信息，至少一些邊信息表示所述第一多信道音頻信號(hào)和表示將被再混合的對(duì)象的一個(gè)或多個(gè)源信號(hào)之間的關(guān)系；通過(guò)圖形用戶接口獲取增益參數(shù)gk或搖擺參數(shù)Pk ；獲取增益調(diào)節(jié)因子Gatuust或搖擺調(diào)節(jié)因子Padjust ；使所述增益參數(shù)&或所述搖擺參數(shù)Pk分別乘以所述增益調(diào)節(jié)因子Gatuust或搖擺調(diào)節(jié) 因子Padjust以提供調(diào)整增益參數(shù)或調(diào)整搖擺參數(shù)；以及使用所述邊信息和所述調(diào)整增益參數(shù)或調(diào)整搖擺參數(shù)生成第二多信道音頻信號(hào)。
30.如權(quán)利要求29所述的方法，其中所述增益調(diào)節(jié)因子Gatuust被給出為其中并且ne定義自動(dòng)調(diào)整的程度。
31.如權(quán)利要求29所述的方法，其中所述搖擺調(diào)節(jié)因子Patuust被給出為其中并且定義自動(dòng)調(diào)整的程度。
32.—種計(jì)算機(jī)實(shí)現(xiàn)的方法，包括獲取具有一組對(duì)象的第一多信道音頻信號(hào)；獲取邊信息，至少一些邊信息表示所述第一多信道音頻信號(hào)和表示將被再混合的對(duì)象的一個(gè)或多個(gè)源信號(hào)之間的關(guān)系；通過(guò)圖形用戶接口獲取增益參數(shù)或搖擺參數(shù)；以及生成第二多信道音頻信號(hào)作為所述第一多信道音頻信號(hào)信道的線性組合，其中使用所述邊信息和所述增益參數(shù)或搖擺參數(shù)確定所述特定線性組合。
33.如權(quán)利要求32所述的方法，其中生成第二多信道音頻信號(hào)包括將所述第一多信道音頻信號(hào)分解為第一組子帶信號(hào)；使用所述邊信息和所述增益或搖擺參數(shù)估計(jì)對(duì)應(yīng)于所述第二多信道音頻信號(hào)的第二組子帶信號(hào)；以及將所述第二組子帶信號(hào)轉(zhuǎn)換為所述第二多信道音頻信號(hào)。
全文摘要
可修改與立體聲或多信道音頻信號(hào)的一個(gè)或多個(gè)對(duì)象(例如，樂(lè)器)關(guān)聯(lián)的一個(gè)或多個(gè)屬性(例如，搖擺、增益等)以提供再混合能力。
文檔編號(hào)H04S3/00GK101855918SQ200880109867
公開日2010年10月6日申請(qǐng)日期2008年8月13日優(yōu)先權(quán)日2007年8月13日
發(fā)明者克里斯托夫·法勒, 吳賢午, 鄭亮源申請(qǐng)人:Lg電子株式會(huì)社

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：克里斯托夫.法勒;吳賢午;鄭亮源
技術(shù)所有人：ＬＧ電子株式會(huì)社
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、王老師：1.數(shù)字信號(hào)處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開發(fā) 4.機(jī)械工程測(cè)試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動(dòng)信號(hào)時(shí)頻分析理論與測(cè)試系統(tǒng)設(shè)計(jì) 2.汽車檢測(cè)系統(tǒng)設(shè)計(jì) 3.汽車電子控制系統(tǒng)設(shè)計(jì)
4、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
5、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

音頻左右混合什么意思相關(guān)技術(shù)

音頻混合軟件相關(guān)技術(shù)

音頻混合相關(guān)技術(shù)

音頻混合器相關(guān)技術(shù)

音頻混合電路相關(guān)技術(shù)

多路音頻混合電路相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

通過(guò)再混合能力增強(qiáng)音頻的制作方法