用于分解多信道音頻信號的方法、設(shè)備和機(jī)器可讀存儲媒體的制作方法

文檔序號：2832867閱讀：350來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：用于分解多信道音頻信號的方法、設(shè)備和機(jī)器可讀存儲媒體的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及音頻信號處理。
背景技術(shù)：
便攜式裝置(例如，智能手機(jī)、上網(wǎng)本、便攜式計(jì)算機(jī)、平板計(jì)算機(jī))或電子游戲機(jī)上的許多音樂應(yīng)用程序可供單個用戶使用。在這些情況下，裝置的用戶哼唱旋律、演唱歌曲或演奏樂器，同時裝置記錄所得音頻信號。所記錄的信號接著可由應(yīng)用程序來分析其音高/音調(diào)升降曲線，并且用戶可以選擇處理操作，例如，糾正或以其它方式變更升降曲線，用不同音高或樂器音色來對信號進(jìn)行上混操作(upmix)等。此類應(yīng)用程序的實(shí)例包含QUSIC應(yīng)用程序(QUALCOMM公司，圣地亞哥(San Diego), CA);例如吉他英雄(Guitar Hero)和搖滾樂隊(duì)(Rock Band) (Harmonix音樂系統(tǒng),劍橋，MA)等的電子游戲；以及卡拉0K、單人樂隊(duì)(one-man-band)及其它記錄應(yīng)用程序。
許多電子游戲(例如，吉他英雄、搖滾樂隊(duì))和音樂會音樂場景可能涉及多個樂器和歌手同時演出。當(dāng)前市售游戲和音樂制作系統(tǒng)要求順序地或在具有緊密定位的麥克風(fēng)的情況下演奏這些情形，以能夠單獨(dú)地對這些情形進(jìn)行分析、后處理及上混操作。這些約束可在音樂制作的情況下限制控制干擾和/或記錄空間效應(yīng)的能力，且可在電子游戲的情況下導(dǎo)致受限制的用戶體驗(yàn)。發(fā)明內(nèi)容
一種根據(jù)一般配置分解音頻信號的方法包含針對多信道音頻信號的在時間片段中的多個頻率分量中的每一者，計(jì)算到達(dá)方向的對應(yīng)指示。這種方法還包含基于所計(jì)算的方向指示，選擇所述多個頻率分量的子集。這種方法還包含基于所述選定子集和多個基底函數(shù)計(jì)算激活系數(shù)的向量。在這種方法中，所述向量的每一激活系數(shù)對應(yīng)于所述多個基底函數(shù)中的不同基底函數(shù)。還揭示具有有形特征的計(jì)算機(jī)可讀存儲媒體(例如，非瞬時媒體)，所述有形特征使讀取所述特征的機(jī)器執(zhí)行此種方法。
—種用于根據(jù)一般配置分解音頻信號的設(shè)備包含用于針對多信道音頻信號的在時間片段中的多個頻率分量中的每一者計(jì)算到達(dá)方向的對應(yīng)指示的裝置；用于基于所計(jì)算的方向指示選擇所述多個頻率分量的子集的裝置；以及用于基于所述選定子集和多個基底函數(shù)計(jì)算激活系數(shù)的向量的裝置。在這種設(shè)備中，所述向量的每一激活系數(shù)對應(yīng)于所述多個基底函數(shù)中的不同基底函數(shù)。
一種用于根據(jù)另一一般配置分解音頻信號的設(shè)備包含經(jīng)配置以針對多信道音頻信號的在時間片段中的多個頻率分量中的每一者計(jì)算到達(dá)方向的對應(yīng)指示的方向估計(jì)器；經(jīng)配置以基于所計(jì)算的方向指示選擇所述多個頻率分量的子集的濾波器；以及經(jīng)配置以基于所述選定子集和多個基底函數(shù)計(jì)算激活系數(shù)的向量的系數(shù)向量計(jì)算器。在這種設(shè)備中，所述向量的每一激活系數(shù)對應(yīng)于所述多個基底函數(shù)中的不同基底函數(shù)。

圖1A展示了根據(jù)一般配置的方法MlOO的流程圖。
圖1B展示了方法MlOO的實(shí)施方案M200的流程圖。
圖1C展示了根據(jù)一般配置的用于分解音頻信號的設(shè)備MF100的方框圖。
圖1D展示了根據(jù)另一一般配置的用于分解音頻信號的設(shè)備AlOO的方框圖。
圖2A展示了方法MlOO的實(shí)施方案M300的流程圖。
圖2B展示了設(shè)備AlOO的實(shí)施方案A300的方框圖。
圖2C展示了設(shè)備AlOO的另一實(shí)施方案A310的方框圖。
圖3A展示了方法M200的實(shí)施方案M400的流程圖。
圖3B展示了方法M200的實(shí)施方案M500的流程圖。
圖4A展示了方法MlOO的實(shí)施方案M600的流程圖。
圖4B展示了設(shè)備AlOO的實(shí)施方案A700的方框圖。
圖5展示了設(shè)備AlOO的實(shí)施方案A800的方框圖。
圖6展示了基底函數(shù)庫存的第二實(shí)例。
圖7展示了具有和聲鳴響的語音的聲譜圖。
圖8展示了在圖6的庫存中的圖7的聲譜圖的稀疏表示。
圖9圖解說明模型Bf = y。
圖10展示由方法MlOO產(chǎn)生的分離結(jié)果的曲線圖。
圖11圖解說明圖9的模型的修改B' f = y0
圖12展示了在鋼琴和長笛的音調(diào)的未定期間基底函數(shù)的時域演化的曲線圖。
圖13展示了由方法M400產(chǎn)生的分離結(jié)果的曲線圖。
圖14展示了在音調(diào)F5處的鋼琴和長笛的基底函數(shù)的曲線圖(左)和在音調(diào)F5處的鋼琴和長笛的預(yù)加重基底函數(shù)的曲線圖(右)。
圖15圖解說明多個聲源在有效的情形。
圖16圖解說明源緊密地挨在一起且一個源位于另一源之后的情形。
圖17圖解說明分析個別空間集群的結(jié)果。
圖18展示了基底函數(shù)庫存的第一實(shí)例。
圖19展示了吉他音調(diào)的聲譜圖。
圖20展示了在圖18的庫存中的圖19的聲譜圖的稀疏表示。
圖21展示了將根據(jù)圖32的方法應(yīng)用于兩個不同復(fù)合信號實(shí)例的結(jié)果的聲譜圖。
圖22到圖25表明將基于開始檢測的后處理應(yīng)用于第一復(fù)合信號實(shí)例的結(jié)果。
圖26到圖30表明將基于開始檢測的后處理應(yīng)用于第二復(fù)合信號實(shí)例的結(jié)果。
圖31展示了一張表。
圖32和圖33展示了用于單信道稀疏恢復(fù)方案的信號處理流程圖。
圖34A展示了根據(jù)一般配置的方法的處理流程圖。
圖34B展示了設(shè)備A950的方框圖。
圖35A展示根據(jù)一般配置的方法XlOO的流程圖。
圖35B展示了方法XlOO的實(shí)施方案XllO的流程圖。
圖36展示了圖19中所示的信號的“空間頻率范圍”的聲譜圖，且圖解說明觀測到的信號的“空間頻率范圍”的對應(yīng)于激活的基底函數(shù)的區(qū)域。
圖37展示了殘余混合聲譜圖。
圖38和圖39圖解說明基底函數(shù)矩陣的擴(kuò)充。
圖40A展示了陣列RlOO的實(shí)施方案R200的方框圖。
圖40B展示了陣列R200的實(shí)施方案R210的方框圖。
圖41A展示了多麥克風(fēng)音頻傳感裝置DlO的方框圖。
圖41B展示了通信裝置D20的方框圖。
圖42展示了手機(jī)HlOO的正視圖、后視圖和側(cè)視圖。
具體實(shí)施方式
揭示了使用基底函數(shù)庫存和稀疏恢復(fù)技術(shù)來分解音頻信號，其中基底函數(shù)庫存包含與音調(diào)的未定期間音符的頻譜改變有關(guān)的信息。此類分解可用以支持信號的分析、編碼、再現(xiàn)和/或合成。本文中展示了對包含來自和聲(即，非打擊)和打擊樂器的聲音的混合物的音頻信號的定量分析的實(shí)例。
除非由其上下文明確限制，否則本文中使用術(shù)語“信號”來指示其普通意義中的任一者，包括在電線、總線或其它傳輸媒體上表達(dá)的存儲器位置(或存儲器位置集合)的狀態(tài)。除非由其上下文明確限制，否則本文中使用術(shù)語“產(chǎn)生”來指示其普通意義中的任一者，例如計(jì)算或以其它方式產(chǎn)生。除非由其上下文明確限制，否則本文中使用術(shù)語“計(jì)算”來指示其普通意義中的任一者，例如計(jì)算、評估、平滑和/或從多個值中進(jìn)行選擇。除非由其上下文明確限制，否則使用術(shù)語“獲得”來指示其普通意義中的任一者，例如計(jì)算、導(dǎo)出、接收(例如，從外部裝置)和/或檢索(例如，從存儲元件陣列)。除非由其上下文明確限制，否則使用術(shù)語“選擇”來指示其普通意義中的任一者，例如識別、指示、應(yīng)用和/或使用兩者或兩者以上的集合中的不到全部的至少一者。在術(shù)語“包括”用于本描述及權(quán)利要求書中的情況下，其不排除其它元件或操作。術(shù)語“基于”(如“A基于B”)用以指示其普通意義中的任一者，包含情況⑴“從……導(dǎo)出”(例如，“B是A的前驅(qū)體”)，(ii) “至少基于”(例如，“A至少基于B”)及在特定上下文中適當(dāng)?shù)那闆r下(iii) “等于”(例如，“A等于B”)。類似地，術(shù)語“響應(yīng)于”用以指示其普通意義中的任一者，包含“至少響應(yīng)于”。
對多麥克風(fēng)音頻傳感裝置的麥克風(fēng)的“位置”的參考指示麥克風(fēng)的聲學(xué)敏感面的中心的位置，除非上下文以其它方式指示。根據(jù)特定上下文，術(shù)語“信道”有時用以指示信號路徑，且在其它時候指示由此路徑攜帶的信號。除非以其它方式指示，否則術(shù)語“系列”用以指示兩個或兩個以上項(xiàng)目的序列。術(shù)語“對數(shù)”用以指示以十為底數(shù)的對數(shù)，但此運(yùn)算延伸到其它底數(shù)(例如，底數(shù)二)屬于本發(fā)明的范圍內(nèi)。術(shù)語“頻率分量”用以指示信號的一組頻率或頻帶當(dāng)中的一者，例如信號的頻域表示的樣本(例如，通過快速傅里葉變換產(chǎn)生)或信號的子帶(例如，巴克(Bark)標(biāo)度或梅爾(mel)標(biāo)度子帶)。
除非另外指出，否則對具有特定特征的設(shè)備的操作的任何揭示內(nèi)容還明確地希望揭示具有類似特征的方法(且反之亦然)，且對根據(jù)特定配置的設(shè)備的操作的任何揭示內(nèi)容還明確地希望揭示根據(jù)類似配置的方法(且反之亦然)。術(shù)語“配置”可參考方法、設(shè)備和/或系統(tǒng)來使用，如其特定上下文所指示。術(shù)語“方法”、“過程”、“程序”和“技術(shù)”被一般地且可互換地使用，除非特定上下文以其它方式指示。術(shù)語“設(shè)備”和“裝置”也被一般地且可互換地使用，除非特定上下文以其它方式指示。術(shù)語“元件”和“模塊”通常用以指示較大配置的一部分。除非其上下文明確地限制，否則術(shù)語“系統(tǒng)”在本文中用以指示其普通意義中的任一者，包含“交互以服務(wù)共同目的的元素的群組”。任何以引用的方式并入有文獻(xiàn)的一部分還應(yīng)理解為并入有所述部分內(nèi)所提及的術(shù)語或變量的定義(在此類定義出現(xiàn)在文獻(xiàn)的其它地方的情況下)，及所并入有部分中所提及的任何圖式。除非開始由定冠詞引入，否則用以修飾權(quán)利要求元素的序數(shù)術(shù)語(例如，“第一”、“第二”、“第三”等)自身并不指示權(quán)利要求元素相對于所述此的任何優(yōu)先級或次序，而是僅區(qū)別權(quán)利要求元素與具有同一名稱(但使用序數(shù)術(shù)語)的另一權(quán)利要求元素。除非其上下文明確地限制，否則術(shù)語“多個”在本文中用以指示大于一的整數(shù)量。
如本文中所描述的方法可經(jīng)配置以將所捕獲的信號作為一系列片段來處理。典型片段長度范圍在約五或十毫秒到約四十或五十毫秒之間，且片段可重疊(例如，鄰近片段重疊25%或50%)或不重疊。在一個特定實(shí)例中，信號被分成各自具有十毫秒長度的一系列不重疊片段或“幀”。由此種方法進(jìn)行處理的片段還可以是由不同操作進(jìn)行處理的較大片段的片段(即，“子幀”)，或反之亦然。
可需要對音樂場景進(jìn)行分解，以從兩個或兩個以上樂器和/或聲音信號的混合物中提取個別音調(diào)/音高輪廓。潛在使用實(shí)例包含用多個麥克風(fēng)錄制音樂會/電子游戲場景，通過空間/稀疏恢復(fù)處理來分解樂器和聲音，提取音高/音調(diào)輪廓，部分地或完全地用經(jīng)糾正的音高/音調(diào)輪廓來對個別源進(jìn)行上混操作。此類操作可用以使音樂應(yīng)用程序(例如，Qualcomm的QUSIC應(yīng)用程序、例如搖滾樂隊(duì)或吉他英雄等的電子游戲)的能力延伸到多演奏者/歌唱者情形。
可需要使音樂應(yīng)用程序能夠處理特定的情形，在所述特定的情形中，一個以上歌手在有效和/或多個樂器同時演奏(例如，如圖A2/0中所示)。可需要此能力以支持實(shí)際音樂錄制情形(多音高場景)。盡管用戶可能想要單獨(dú)地編輯且重新合成每一源的能力，但產(chǎn)生音軌可能需要同時記錄所述源。
本發(fā)明描述可用以允許實(shí)現(xiàn)多個源可同時有效的音樂應(yīng)用程序的使用實(shí)例的方法。此種方法可經(jīng)配置以使用基于基底函數(shù)庫存的稀疏恢復(fù)(例如，稀疏分解)技術(shù)來分析音頻混合信號。
可需要通過找到基底函數(shù)集合的激活系數(shù)的最稀疏向量(例如，使用有效稀疏恢復(fù)算法)，來將混合信號頻譜分解成源分量?？墒褂眉せ钕禂?shù)向量(例如，與基底函數(shù)集合一起)來重構(gòu)混合信號，或重構(gòu)混合信號的選定部分(例如，來自一個或一個以上選定樂器)。還可需要對稀疏系數(shù)向量進(jìn)行后處理(例如，根據(jù)量值和時間支持)。
圖1A展示了根據(jù)一般配置的分解音頻信號的方法MlOO的流程圖。方法MlOO包含任務(wù)T100，所述任務(wù)TlOO基于來自音頻信號的幀的信息，計(jì)算在頻率范圍內(nèi)的對應(yīng)信號表示。方法MlOO還包含任務(wù)T200，所述任務(wù)T200基于由任務(wù)TlOO計(jì)算的信號表示和多個基底函數(shù)，來計(jì)算激活系數(shù)的向量，其中激活系數(shù)中的每一者對應(yīng)于多個基底函數(shù)中的不同基底函數(shù)。
可實(shí)施任務(wù)TlOO以將信號表示計(jì)算為頻域向量。此向量的每一元素可指示可根據(jù)梅爾或巴克標(biāo)度獲得的一組子帶中的對應(yīng)者的能量。然而，通常使用例如快速傅里葉變換(FFT)或短時傅里葉變換(STFT)等的離散傅里葉變換(DFT)來計(jì)算此向量。此向量可具有(例如)64、128、256、512或1024個分格的長度。在一實(shí)例中，音頻信號具有8kHz的采樣率，且對于長度為32毫秒的每一幀，O到4kHz頻帶由256分格的頻域向量表示。在另一實(shí)例中，對音頻信號的重疊片段使用經(jīng)修改的離散余弦變換(MDCT)來計(jì)算信號表示。
在另一實(shí)例中，實(shí)施任務(wù)TlOO以將信號表示計(jì)算為倒譜系數(shù)(例如，梅爾倒頻譜系數(shù)或MFCC)的向量，所述向量表示幀的短期功率譜。在此情況下，可實(shí)施任務(wù)TlOO以計(jì)算此向量，計(jì)算的方式是將梅爾標(biāo)度濾波器組應(yīng)用于幀的DFT頻域向量的量值，求得濾波器輸出的對數(shù)，及求得對數(shù)值的DCT。例如，在標(biāo)題為“STQ =DSR-前端特征提取算法；壓縮算法(STQ:DSR-Front_end feature extraction algorithm ； compress ion algorithm)，，的ETSI文獻(xiàn)ES 201 108(歐洲電信標(biāo)準(zhǔn)協(xié)會，2000)中所描述的極光標(biāo)準(zhǔn)(Aurora standard)中描述了此程序(procedure)。
樂器通常具有界限清楚的音色。樂器的音色可由其頻譜包絡(luò)(例如，頻率范圍內(nèi)能量的分布)描述，使得可使用編碼個別樂器的頻譜包絡(luò)的基底函數(shù)庫存來建模不同樂器的音色范圍。
每一基底函數(shù)包括在頻率范圍內(nèi)的對應(yīng)信號表不?？尚枰恳恍盘柋聿痪哂信c由任務(wù)T100計(jì)算的信號表示相同的形式。舉例來說，每一基底函數(shù)可為長度為64、128、256、512或1024分格的頻域向量。或者，每一基底函數(shù)可為倒譜域向量，例如MFCC的向量等。在另一實(shí)例中，每一基底函數(shù)為小波域向量。
基底函數(shù)庫存A可包含每一樂器η (例如，鋼琴、長笛、吉他、鼓等)的基底函數(shù)集合Αη。舉例來說，樂器的音色通常是依賴于音高的，使得每一樂器η的基底函數(shù)集合An通常將包含在某所要音高范圍內(nèi)的每一音高的至少一基底函數(shù)，所述音高范圍可在樂器之間變化。對應(yīng)于調(diào)諧到(例如)半音階的樂器的基底函數(shù)集合可包含每八音度十二個音高中的每一音高的不同基底函數(shù)。鋼琴的基底函數(shù)集合可包含鋼琴的每一基調(diào)的不同基底函數(shù)，總計(jì)八十八個基底函數(shù)。在另一實(shí)例中，每一樂器的基底函數(shù)集合包含在所要音高范圍(例如，五個八音度(例如，56個音高)或六個八音度(例如，67個音高)等)中的每一音高的不同基底函數(shù)。這些基底函數(shù)集合An可不相交，或兩個或兩個以上集合可共享一個或一個以上基底函數(shù)。
圖6展示了特定和聲樂器的十四個基底函數(shù)的集合的曲線圖(音高指數(shù)對頻率)的實(shí)例，其中所述集合的每一基底函數(shù)編碼在不同對應(yīng)音高處的樂器的音色。在音樂信號的上下文中，人類話音可被視為樂器，使得庫存可包含一個或一個以上人類話音模型中的每一者的基底函數(shù)集合。圖7展示了具有和聲鳴響的語音的聲譜圖(以Hz為單位的頻率對以樣本為單位的時間)，且圖8展示了此信號在圖6中所示的和聲基底函數(shù)集合中的表示。可看出此特定庫存編碼信號的汽車鳴響分量，而不編碼語音分量。
基底函數(shù)的庫存可基于從特別記錄的個別樂器記錄中獲知的通用樂器音高數(shù)據(jù)庫，和/或基于分離的混合物流(例如，使用例如獨(dú)立分量分析(ICA)、期望最大化(EM)等的分離方案)。
基于由任務(wù)TlOO計(jì)算的信號表示且基于來自庫存A的多個基底函數(shù)B，任務(wù)T200計(jì)算激活系數(shù)的向量。此向量的每一系數(shù)對應(yīng)于多個基底函數(shù)B中的不同基底函數(shù)。舉例來說，任務(wù)T200可經(jīng)配置以計(jì)算向量，使得所述向量根據(jù)多個基底函數(shù)B指示信號表示的最有可能模型。圖9圖解說明此模型Bf = y，其中多個基底函數(shù)B為矩陣，使得B的列為個別基底函數(shù)，f為基底函數(shù)激活系數(shù)的列向量，且y為所記錄的混合信號的幀的列向量(例如，呈聲譜圖頻率向量形式的五、十或二十毫秒的幀)。
任務(wù)T200可經(jīng)配置以通過求解線性程序設(shè)計(jì)問題來恢復(fù)音頻信號的每一幀的激活系數(shù)向量?？捎靡郧蠼獯藛栴}的方法的實(shí)例包含非負(fù)矩陣因式分解(NNMF)?？膳渲没贜NMF的單信道參考方法以使用期望最大化(EM)更新規(guī)則(例如，如下文所描述)，來同時計(jì)算基底函數(shù)和激活系數(shù)。
可需要通過找到已知或部分已知基底函數(shù)空間中的最稀疏激活系數(shù)向量，將音頻混合信號分解成個別樂器(其可包含一個或一個以上人類話音)。舉例來說，可配置任務(wù)T200以使用已知樂器基底函數(shù)的集合通過找到基底函數(shù)庫存中的最稀疏激活系數(shù)向量(例如，使用有效稀疏恢復(fù)算法)，將混合頻譜分解成源分量(例如，一個或一個以上個別樂器)。
已知地是，對線性方程的欠定系統(tǒng)(B卩，具有多于方程的未知數(shù)的系統(tǒng))的最小LI范數(shù)解常常也是對所述系統(tǒng)的最稀疏解?？扇缦聢?zhí)行通過LI范數(shù)的最小化而進(jìn)行的稀疏恢復(fù)。
假定目標(biāo)向量&是具有K < N個非零項(xiàng)(即，“K稀疏”)的長度為N的稀疏向量，且對于大小約為K的集合，投影矩陣(S卩，基底函數(shù)矩陣)A是非相干的(類似隨機(jī))。觀測到信號y = Af。。接著，求解服從于=(其中IjI定義匁Σ;=1|Ζ| )將精確地恢復(fù)此外，可通過求解易處理的程序，從M2/C>iog/V個非相干量度中恢復(fù)f(i。量度的數(shù)目M大約等于有效分量的數(shù)目。
—種方法是使用來自壓縮傳感的稀疏恢復(fù)算法。在壓縮傳感(也稱作“經(jīng)壓縮傳感”)信號恢復(fù)Φχ = y的一實(shí)例中，y是長度為M的觀測到的信號向量，X是具有K < N個非零項(xiàng)(即，“K稀疏模型”)的長度為N的稀疏向量(其為y的精簡表示)，且Φ是大小為MXN的隨機(jī)投影矩陣。隨機(jī)投影Φ不是滿秩的，但其對于稀疏/可壓縮信號模型以高幾率可逆(即，隨機(jī)投影Φ求解了病態(tài)求逆問題)。
圖10展示了由方法MlOO的稀疏恢復(fù)實(shí)施方案產(chǎn)生的分離結(jié)果的曲線圖(音高指數(shù)對幀指數(shù))。在此情況下，輸入混合信號包含演奏音調(diào)序列C5-F5-G5-G#5-G5-F5-C5-D#5的鋼琴和演奏音調(diào)序列C6-A#5-G#5-G5的長笛。鋼琴的經(jīng)分離的結(jié)果以虛線展示(音高序列0-5-7-8-7-5-0-3)，且長笛的經(jīng)分離的結(jié)果以實(shí)線展示(音高序列12_10_8_7)。
可認(rèn)為激活系數(shù)向量f包含每一樂器η的子向量4，所述子向量fn包含對應(yīng)基底函數(shù)集合An的激活系數(shù)?？瑟?dú)立地處理此些樂器特定激活子向量(例如，在后處理操作中)。舉例來說，可需要強(qiáng)加一個或一個以上稀疏性約束(例如，向量元素的至少一半為零，樂器特定子向量中的非零元素的數(shù)目不超過最大值等)。激活系數(shù)向量的處理可包含編碼每一幀的每一非零激活系數(shù)的指數(shù)編號，編碼每一非零激活系數(shù)的指數(shù)和值，或編碼整個稀疏向量?？墒褂么诵畔?例如，在另一時間和/或位置)來使用所指示的有效基底函數(shù)再現(xiàn)混合信號，或僅再現(xiàn)混合信號的特定部分(例如，僅再現(xiàn)由特定樂器演奏的音調(diào))。
由樂器產(chǎn)生的音頻信號可建模為被稱作音調(diào)的一系列事件。演奏音調(diào)的和聲樂器的聲音可在時間上分成不同區(qū)域:舉例來說，開始階段(也被稱作起奏)、固定階段(也被稱作維持)和偏移階段(也被稱作釋放)。對音調(diào)(ADSR)的時間包絡(luò)的另一描述包含在起奏與維持之間的額外衰減階段。在此上下文中，音調(diào)的持續(xù)時間可定義為從起奏階段的開始到釋放階段的結(jié)束(或到終止音調(diào)的另一事件，例如同一根弦上的另一音調(diào)的開始等)的時間間隔。假定音調(diào)具有單一音高，但還可以實(shí)施庫存以建模具有單一起奏和多個音高的音調(diào)(例如，如由例如顫音或滑音等的音高彎曲效應(yīng)所產(chǎn)生)。一些樂器(例如，鋼琴、吉他或豎琴)可以在被稱作和弦的事件中一次產(chǎn)生一個以上音調(diào)。
由不同樂器產(chǎn)生的音調(diào)可在維持階段期間具有類似音色，使得可能難以在此時段識別哪一樂器正在演奏。然而，可預(yù)期音調(diào)的音色在階段之間變化。舉例來說，識別有效樂器可能在起奏或釋放階段期間比在維持階段期間更為容易。
圖12展示了鋼琴(虛線)和長笛(實(shí)線)的八音度C5到C6中的十二個不同音高的基底函數(shù)的時域演化的曲線圖(音高指數(shù)對時域幀指數(shù))?？煽闯?例如)鋼琴基底函數(shù)的起奏與維持階段之間的關(guān)系顯著不同于長笛基底函數(shù)的起奏與維持階段之間的關(guān)系。
為了增加激活系數(shù)向量將指示適當(dāng)基底函數(shù)的可能性，可能需要最大化基底函數(shù)之間的差異。舉例來說，可能需要使基底函數(shù)包含與音調(diào)的隨時間推移的頻譜改變有關(guān)的信息。
可能需要基于隨時間推移的音色改變來選擇基底函數(shù)。舉例來說，可能需要將與音調(diào)的音色的此時域演化有關(guān)的信息編碼成基底函數(shù)庫存。舉例來說，特定樂器η的基底函數(shù)的集合An可包含每一音高處的兩個或兩個以上對應(yīng)信號表示，使得此些信號表示中的每一者對應(yīng)于音調(diào)的演化中的不同時間(例如，起奏階段一個信號表示，維持階段一個信號表示，且釋放階段一個信號表示)。可從演奏音調(diào)的樂器的記錄的對應(yīng)幀中提取此些基底函數(shù)。
圖1C展示了根據(jù)一般配置的用于分解音頻信號的設(shè)備MF100的方框圖。設(shè)備MF100包含用于基于來自音頻信號的幀的信息計(jì)算在頻率范圍內(nèi)的對應(yīng)信號表示的裝置FlOO (例如，如本文中參考任務(wù)TlOO所描述)。設(shè)備MF100還包含裝置F200，所述裝置F200用于基于由裝置FlOO計(jì)算的信號表示和多個基底函數(shù)，來計(jì)算激活系數(shù)的向量，其中激活系數(shù)中的每一者對應(yīng)于多個基底函數(shù)中的不同基底函數(shù)(例如，如本文中參考任務(wù)Τ200所描述)。
圖1D展示了根據(jù)另一一般配置的用于分解音頻信號的設(shè)備AlOO的方框圖，所述設(shè)備AlOO包含變換模塊100和系數(shù)向量計(jì)算器200。變換模塊100經(jīng)配置以基于來自音頻信號的幀的信息計(jì)算在頻率范圍內(nèi)的對應(yīng)信號表示(例如，如本文中參考任務(wù)TlOO所描述)。系數(shù)向量計(jì)算器200經(jīng)配置以基于由變換模塊100計(jì)算的信號表示和多個基底函數(shù)，來計(jì)算激活系數(shù)的向量，其中激活系數(shù)中的每一者對應(yīng)于多個基底函數(shù)中的不同基底函數(shù)(例如，如本文中參考任務(wù)Τ200所描述)。
圖1B展示了方法MlOO的實(shí)施方案Μ200的流程圖，其中基底函數(shù)庫存包含針對每一樂器的每一音高的多個信號表示。此些多個信號表示中的每一者描述在頻率范圍內(nèi)的多個不同能量分布(例如，多個不同音色)。庫存還可經(jīng)配置以包含針對不同時間相關(guān)模態(tài)的不同多個信號表示。在一個這樣的實(shí)例中，庫存包含在每一音高處用弓拉弦的多個信號表不，和在每一音高處撥弦(例如，撥奏)的不同的多個信號表不。
方法M200包含任務(wù)TlOO (在此實(shí)例中，任務(wù)T100A和T100B)的多個例子，其中每一例子基于來自音頻信號的對應(yīng)不同幀的信息，計(jì)算在頻率范圍內(nèi)的對應(yīng)信號表示。可串接各種信號表示，且同樣，每一基底函數(shù)可為多個信號表示的串接。在此實(shí)例中，任務(wù)T200將混合幀的串接與每一音高處的信號表示的串接相匹配。圖11展示了圖S5的模型Bf =I的修改B' f = y的實(shí)例，其中混合信號y的巾貞pl、p2被串接以用于匹配。
可構(gòu)造庫存以使得從訓(xùn)練信號的連續(xù)幀中獲得每一音高處之多個信號表示。在其它實(shí)施方案中，可能需要使每一音高處的多個信號表不橫跨較大的時間窗。舉例來說，可能需要使每一音高處的多個信號表示包含來自起奏階段、維持階段與釋放階段當(dāng)中的至少兩者的信號表示。通過包含關(guān)于音調(diào)的時域演化的更多信息，可增加不同音調(diào)的基底函數(shù)集合之間的差異。
在左邊，圖14展示了音調(diào)F5處的鋼琴的基底函數(shù)(虛線)和音調(diào)F5處的長笛的基底函數(shù)(實(shí)線)的曲線圖(振幅對頻率)?？煽闯鲋甘敬颂囟ㄒ舾咛幍臉菲鞯囊羯拇诵┗缀瘮?shù)極為類似。因此，實(shí)踐中可預(yù)期所述基底函數(shù)之間的某一程度的不匹配。為了得到更穩(wěn)健的分離結(jié)果，可能需要最大化庫存的基底函數(shù)之間的差異。
長笛的實(shí)際音色含有比鋼琴的實(shí)際音色多的高頻能量，但圖14的左曲線圖中所示的基底函數(shù)未編碼此信息。在右邊，圖14展示了音調(diào)F5處的鋼琴的基底函數(shù)(虛線)和音調(diào)F5處的長笛的基底函數(shù)(實(shí)線)的另一曲線圖(振幅對頻率)。在此情況下，除了已預(yù)加重源信號的高頻區(qū)域之外，從與左曲線圖中的基底函數(shù)相同的源信號導(dǎo)出基底函數(shù)。因?yàn)殇撉僭葱盘柡酗@著少于長笛源信號的高頻能量，所以右曲線圖中所示的基底函數(shù)之間的差異明顯大于左曲線圖中所示的基底函數(shù)之間的差異。
圖2A展示了方法MlOO的實(shí)施方案M300的流程圖，所述實(shí)施方案M300包含加重片段的高頻的任務(wù)T300。在此實(shí)例中，任務(wù)TlOO經(jīng)布置以計(jì)算在預(yù)加重之后的片段的信號表示。圖3A展示了包含任務(wù)T300的多個例子T300A、T300B的方法M200的實(shí)施方案M400的流程圖。在一實(shí)例中，預(yù)加重任務(wù)T300增加了高于200Hz的能量對總能量的比率。
圖2B展示了設(shè)備AlOO的實(shí)施方案A300的方框圖，所述實(shí)施方案A300包含經(jīng)布置以在變換模塊100的上游對音頻信號執(zhí)行高頻加重的預(yù)加重濾波器300 (例如，高通濾波器，例如一階高通濾波器等)。圖2C展示了設(shè)備AlOO的另一實(shí)施方案A310的方框圖，在所述實(shí)施方案A310中，預(yù)加重濾波器300經(jīng)布置以對變換系數(shù)執(zhí)行高頻預(yù)加重。在此些情況下，還可能需要對多個基底函數(shù)B執(zhí)行高頻預(yù)加重(例如，高通濾波)。圖13展示了由方法M300對于與圖10的分離結(jié)果相同的輸入混合信號產(chǎn)生的分離結(jié)果的曲線圖(音高指數(shù)對幀指數(shù))。
音符可包含賦色效應(yīng)，例如，顫音和/或顫聲等。顫音是具有通常在四或五赫茲到七、八、十或十二赫茲的范圍中的調(diào)制率的頻率調(diào)制。歸因于顫音的音高改變對于歌唱者來說可在0.6到2個半音程之間變化，且對于管樂器和弦樂器來說通常小于+/-0.5半音程(例如，對于弦樂器來說，在0.2與0.35半音程之間)。顫聲是通常具有類似調(diào)制率的振幅調(diào)制。
可能難以在基底函數(shù)庫存中建模此類效應(yīng)。可能需要檢測此類效應(yīng)的存在。舉例來說，顫音的存在可由在4Hz到8Hz的范圍中的頻域峰值來指示。還可能需要記錄所檢測到的效應(yīng)的水平的量度(例如，作為此峰值的能量)，這是因?yàn)榭墒褂么颂匦詠碓谠佻F(xiàn)期間還原所述效應(yīng)。對于顫聲檢測和量化，可在時域中執(zhí)行類似處理。一旦效應(yīng)已被檢測到且可能經(jīng)量化，就可能需要通過針對顫音使頻率在時間上平滑或針對顫聲使振幅在時間上平滑，來移除調(diào)制。
圖4B展示了設(shè)備AlOO的實(shí)施方案A700的方框圖，所述實(shí)施方案A700包含調(diào)制水平計(jì)算器MLC。計(jì)算器MLC經(jīng)配置以計(jì)算且可能記錄如上文所描述的音頻信號的片段中的所檢測到的調(diào)制的量度(例如，在時域或頻域中所檢測到的調(diào)制峰值的能量)。
本發(fā)明描述可用以允許實(shí)現(xiàn)多個源可同時有效的音樂應(yīng)用程序的使用實(shí)例的方法。在此情況下，可能需要在計(jì)算激活系數(shù)向量之前使源分離(如果有可能的話)。為了實(shí)現(xiàn)此目的，提出了多信道和單信道技術(shù)的組合。
圖3B展示了方法MlOO的實(shí)施方案M500的流程圖，所述實(shí)施方案M500包含將信號分離成空間集群的任務(wù)T500。任務(wù)T500可經(jīng)配置以將源隔離成盡可能多的空間集群。在一實(shí)例中，任務(wù)T500使用多麥克風(fēng)處理來將所記錄的聲學(xué)情形分離成盡可能多的空間集群。此處理可基于麥克風(fēng)信號之間的增益差和/或相位差，其中可跨越整個頻帶來評估此類差或在多個不同頻率子帶或頻率分格中的每一者處評估此類差。
空間分離方法可能不足以實(shí)現(xiàn)所要的分離水平。舉例來說，一些源可能太靠近麥克風(fēng)陣列或以其它方式次最佳地相對于麥克風(fēng)陣列布置(例如，多個小提琴手和/或和聲樂器可位于一個角落；打擊樂器樂手通常位于后面)。在典型樂隊(duì)情形下，源可能緊密地挨在一起或甚至在其它源之后(例如，如圖16中所示)，使得單獨(dú)使用空間信息來處理由處于相對于樂隊(duì)的同一大體方向的麥克風(fēng)陣列捕獲的信號可能無法將所有的源所述此相區(qū)分。任務(wù)TlOO和T200使用如本文中所描述的單信道基于基底函數(shù)庫存的稀疏恢復(fù)(例如，稀疏分解)技術(shù)來分析個別空間集群以分離個別樂器(如圖17中所示)。
為了處理多演奏者使用實(shí)例，提出了具有基于空間和稀疏性的信號處理方案的手機(jī)/上網(wǎng)本/便攜式計(jì)算機(jī)上安裝的麥克風(fēng)陣列。一個這樣的方法包含a)使用多個麥克風(fēng)來記錄多信道混合信號；b)對有限頻率范圍中的混合信號的時間-頻率(T-F)點(diǎn)關(guān)于其D0A/TD0A(到達(dá)方向/到達(dá)時差)進(jìn)行分析，以識別且提取一組方向上相干T-F點(diǎn)；c)使用稀疏恢復(fù)算法來將所提取的空間上相干T-F振幅點(diǎn)與有限頻率范圍中的樂器/歌手基底函數(shù)庫存匹配；d)從整個頻率范圍中的原始記錄的振幅中減去所識別的空間基底函數(shù)，以獲得殘余信號，及接著e)將殘余信號振幅與基底函數(shù)庫存匹配。
通過兩個或兩個以上麥克風(fēng)的陣列，有可能獲得關(guān)于特定聲音的到達(dá)方向(即，聲源相對于陣列的方向)的信息。雖然有時有可能基于其到達(dá)方向分離來自不同聲源的信號分量，但一般來說，單獨(dú)的空間分離方法可能不足以實(shí)現(xiàn)所要分離水平。舉例來說，一些源可能太靠近麥克風(fēng)陣列或以其它方式次最佳地相對于麥克風(fēng)陣列布置(例如，多個小提琴手和/或和聲樂器可位于一個角落；打擊樂器樂手通常位于后面)。在典型樂隊(duì)情形下，源可能緊密地挨在一起或甚至在其它源之后(例如，如圖15中所示)，使得單獨(dú)使用空間信息來處理由處于相對于樂隊(duì)的同一大體方向的麥克風(fēng)陣列捕獲的信號可能無法將所有的源所述此相區(qū)分。通過將所觀測到的混合信號的特定有限頻率范圍與基底函數(shù)庫存相匹配以識別由此范圍激活的基底函數(shù)來開始?；诖诵┧R別的基底函數(shù)，接著從整個頻率范圍內(nèi)的原始混合信號中減去對應(yīng)源分量。此些減去的區(qū)域可能在時間和頻率上都不連續(xù)。還可能需要通過將所得殘余混合信號與基底函數(shù)庫存匹配(例如，以識別信號中的下一個最有效樂器，或識別一個或一個以上空間上分散的源)來繼續(xù)。圖34A展示了包含任務(wù)U510、U520、U530、U540和U550的此種方法的處理流程圖。任務(wù)U510測量混合頻譜。任務(wù)U520從混合聲譜圖中提取一個或一個以上空間上一致的點(diǎn)源(例如，基于每一 T-F點(diǎn)的到達(dá)方向的指示)。任務(wù)U530將所提取的源聲譜圖與“空間頻率范圍”中的基底函數(shù)庫存相匹配，以識別由混合信號的“空間頻率范圍”激活的基底函數(shù)。任務(wù)U540使用匹配的基底函數(shù)來從完整頻率范圍中的混合聲譜圖移除所提取的源。還可能包含任務(wù)U550，以將殘余混合聲譜圖與基底函數(shù)庫存匹配，以提取額外源。圖35A展示了根據(jù)一般配置的處理多信道信號的另一方法XlOO的流程圖，所述方法XlOO包含任務(wù)U110、U120、U130和U140。任務(wù)UllO估計(jì)在多信道信號的減小的頻率范圍(也被稱作“空間頻率范圍”)內(nèi)的多信道信號的每一時間-頻率(T-F)點(diǎn)的源方向?？臻g頻率范圍與用以捕獲多信道信號的陣列的轉(zhuǎn)換器(例如，麥克風(fēng))之間的間距有關(guān)。舉例來說，空間頻率范圍的低端可由陣列的麥克風(fēng)之間的最大可用間距來確定，且空間頻率范圍的高端可由陣列的鄰近麥克風(fēng)之間的間距來確定。圖34B展不了根據(jù)一般配置的設(shè)備A950的方框圖。設(shè)備A590包含方向估計(jì)器Z10，其經(jīng)配置以針對多信道音頻信號的在時間片段中的多個頻率分量中的每一者，計(jì)算到達(dá)方向的對應(yīng)指示。設(shè)備A590還包含濾波器Z20和系數(shù)向量計(jì)算器200的例項(xiàng)，濾波器Z20經(jīng)配置以基于所計(jì)算的方向指示選擇多個頻率分量的子集，系數(shù)向量計(jì)算器200經(jīng)配置以基于選定子集和多個基底函數(shù)計(jì)算激活系數(shù)的向量。在此實(shí)例中，設(shè)備A590還包含殘余計(jì)算器Z30和播放模塊Z40，殘余計(jì)算器Z30經(jīng)配置以通過從多信道音頻信號中的至少一信道中減去多個基底函數(shù)當(dāng)中的至少一者，基于來自所計(jì)算的向量的信息產(chǎn)生殘余信號，播放模塊Z40經(jīng)配置以基于來自所計(jì)算的向量的信息，使用多個基底函數(shù)中的至少一者中的每一者來重構(gòu)多信道信號的對應(yīng)分量。對于給定麥克風(fēng)陣列，可用以提供明確的源定位信息(例如，D0A)的由陣列捕獲的信號的頻率范圍通常由與陣列的尺寸有關(guān)的因素限制。舉例來說，此有限頻率范圍的較低端與陣列的孔徑有關(guān)，所述孔徑可能太小以致不能提供低頻率處的可靠空間信息。此有限頻率范圍的較高端與鄰近麥克風(fēng)之間的最小距離有關(guān)，所述最小距離設(shè)定了關(guān)于明確的空間信息的頻率上限(歸因于空間混疊)。對于給定麥克風(fēng)陣列，把可獲得可靠空間信息的頻率范圍稱作陣列的“空間頻率范圍”。圖36展示了圖19中所示的吉他音調(diào)的聲譜圖的空間頻率范圍的聲譜圖(以Hz為單位的頻率對以樣本為單位的時間)。應(yīng)用如本文中所描述的方法來從所觀測到的信號的此范圍中提取時間-頻率(T-F)點(diǎn)。任務(wù)UllO可經(jīng)配置以基于多信道信號的不同信道中的T-F點(diǎn)的相位之間的差，來估計(jì)每一 T-F點(diǎn)的源方向(相位差對頻率的比率是到達(dá)方向的指示)。額外地或替代性地，任務(wù)UllO可經(jīng)配置以基于多信道信號的不同信道中的T-F點(diǎn)的增益(即，量值)之間的差估計(jì)每一 T-F點(diǎn)的源方向。
任務(wù)U120基于T-F點(diǎn)的估計(jì)的源方向選擇T-F點(diǎn)的集合。在一實(shí)例中，任務(wù)U120選擇T-F點(diǎn)，其估計(jì)的源方向類似于所指定的源方向(例如，相差不超過十、二十或三十度)。所指定的源方向可為預(yù)設(shè)值，且可針對不同所指定的源方向(例如，針對不同空間扇區(qū))重復(fù)任務(wù)U120?；蛘?，可配置任務(wù)U120的此實(shí)施方案以根據(jù)具有類似估計(jì)的源方向的T-F點(diǎn)的數(shù)目和/或總能量，選擇一個或一個以上指定的源方向。在此情況下，任務(wù)Ul20可經(jīng)配置以選擇類似于某一指定數(shù)目的T-F點(diǎn)(例如，百分之二十或三十)的估計(jì)的源方向的方向作為指定的源方向。
在另一實(shí)例中，任務(wù)U120選擇在估計(jì)的源方向和頻率方面與空間頻率范圍中的其它T-F點(diǎn)有關(guān)的T-F點(diǎn)。在此情況下，任務(wù)U120可經(jīng)配置以選擇具有在和聲上相關(guān)的類似估計(jì)源方向和頻率的T-F點(diǎn)。
任務(wù)U130將基底函數(shù)庫存當(dāng)中的一個或一個以上者與T-F點(diǎn)的選定集合匹配。任務(wù)U130使用單信道稀疏恢復(fù)技術(shù)來分析選定T-F點(diǎn)。任務(wù)U130只使用基底函數(shù)矩陣A的“空間頻率范圍”部分和混合信號向量I中的所識別的點(diǎn)源來找到最稀疏系數(shù)。
歸因于樂器的聲譜圖的和聲結(jié)構(gòu)，可從低頻帶和/或中頻帶中的頻率內(nèi)容推斷高頻帶中的頻率內(nèi)容，使得分析“空間頻率范圍”就可能足以識別相關(guān)基底函數(shù)(例如，當(dāng)前由源激活的基底函數(shù))。如上文所描述，任務(wù)T130使用來自空間頻率范圍的信息，來識別庫存中的當(dāng)前由點(diǎn)源激活的基底函數(shù)。一旦已識別空間頻率范圍中的與點(diǎn)源相關(guān)的基底函數(shù)，就可使用此些基底函數(shù)來將空間信息外推到可靠空間信息可能不可用的輸入信號的另一頻率范圍。舉例來說，基底函數(shù)可用以從在整個頻率范圍內(nèi)的原始混合頻譜移除對應(yīng)音樂源。
圖36中的底部解說明所觀測到的信號的“空間頻率范圍”的對應(yīng)于由信號的此范圍激活的基底函數(shù)的區(qū)域。(盡管出于方便起見，此圖展示了在時間上連續(xù)的區(qū)域，但注意到此些區(qū)域可能在時間和頻率上都不連續(xù))。
任務(wù)U140使用匹配的基底函數(shù)來選擇多信道信號的在空間頻率范圍之外的T-F點(diǎn)?？深A(yù)期此些點(diǎn)源于產(chǎn)生T-F點(diǎn)的選定集合的相同的一個或一個以上聲音事件。舉例來說，如果任務(wù)U130將T-F點(diǎn)的選定集合與對應(yīng)于演奏音調(diào)C6(1046.502Hz)的長笛的基底函數(shù)匹配，那么可預(yù)期任務(wù)U140所選擇的其它T-F點(diǎn)源于同一長笛音調(diào)。
圖35B展示了方法XlOO的實(shí)施方案XllO的流程圖，所述實(shí)施方案Xl 10包含任務(wù)U150和U160。任務(wù)U150從多信道信號中的至少一個信道中移除在任務(wù)U120和U140中選擇的T-F點(diǎn)，以產(chǎn)生殘余信號(例如，如圖37中所示)。舉例來說，任務(wù)U150可經(jīng)配置以移除(即，歸零)多信道信號中的主信道中的選定T-F點(diǎn)，以產(chǎn)生單信道殘余信號。任務(wù)U160對殘余信號執(zhí)行稀疏恢復(fù)操作。舉例來說，任務(wù)U160可經(jīng)配置以確定基底函數(shù)庫存當(dāng)中的哪一基底函數(shù)(如果有的話)由殘余信號來激活。
可能需要搜尋包含位置提示的樂器的最稀疏表示。舉例來說，可能需要基于“稀疏分解”的單一標(biāo)準(zhǔn)執(zhí)行聯(lián)合地執(zhí)行以下兩個任務(wù)的稀疏性驅(qū)動的多麥克風(fēng)源分離:(I)將源隔離為可區(qū)別的空間集群及(2)查找對應(yīng)基底函數(shù)。
上文所描述的方法可使用編碼個別樂器的音色的基底函數(shù)庫存來實(shí)施?？赡苄枰獔?zhí)行使用維度上擴(kuò)充的基底函數(shù)矩陣的替代方法，所述矩陣也含有與起始于空間中的某些扇區(qū)的點(diǎn)源相關(guān)聯(lián)的相位信息。此基底函數(shù)庫存接著可用以通過直接將所記錄的聲譜圖的相位和振幅信息與基底函數(shù)庫存匹配，來同時(即，聯(lián)合地)求解DOA映射和樂器分離。
此種方法可實(shí)施為基于稀疏分解將單信道源分離延伸到多麥克風(fēng)情況中。此種方法可具有相比于單獨(dú)地且順序地執(zhí)行空間分解(例如，波束成形)和單信道頻譜分解的方法的一個或一個以上優(yōu)勢。舉例來說，此聯(lián)合方法可以最大地利用隨著加入額外空間域的大大增加的稀疏性。通過波束成形，空間上分離的信號仍有可能含有來自非視向的不想要的信號的顯著部分，其可能限制通過單信道稀疏分解來正確地提取目標(biāo)源的性能。
在此情況下，單信道輸入聲譜圖y (例如，指示各別信道中的時間-頻率點(diǎn)的振幅)由包含相位信息的多麥克風(fēng)復(fù)合聲譜圖/替換?；缀瘮?shù)庫存A還擴(kuò)充到A□，如下文所描述。重構(gòu)現(xiàn)可包含基于點(diǎn)源的所識別的DOA的空間濾波。此稀疏性驅(qū)動的波束成形方法還可包含額外空間約束，所述額外空間約束包含于定義稀疏恢復(fù)問題的線性約束的集合中。此多麥克風(fēng)稀疏分解方法將允許實(shí)現(xiàn)多演奏者情形，且藉此極大地增強(qiáng)用戶體驗(yàn)。
通過聯(lián)合方法，現(xiàn)試圖找到附以適當(dāng)DOA的最有可能頻譜量值基底。替代執(zhí)行波束成形，試圖尋找DOA信息。因此，可推遲多麥克風(fēng)處理(例如，波束成形或ICA)直到識別適當(dāng)基底函數(shù)之后。
也可通過聯(lián)合方法獲得強(qiáng)回聲路徑信息(D0A和時滯)。一旦回聲路徑足夠強(qiáng)，就可檢測到此路徑。使用通過所提取的連續(xù)幀的互相關(guān)，可獲得相關(guān)源(換言之，回聲源)的時滯信息。
通過聯(lián)合方法，類似EM的基底更新仍為可能的，使得以下各者中的任一者是可能的:如在單信道情況下的頻譜包絡(luò)的修改；信道間差的修改(例如，可解決麥克風(fēng)之間的增益不匹配和/或相位不匹配)；在解附近的空間分辨率的修改(例如，可適應(yīng)性地改變空間域中的可能的方向搜尋范圍)。
圖38圖解說明2D聲譜圖到具有空間域的3D空間的擴(kuò)充。右上方圖展示了 2D單信道情況，其中每一信道的每一幀的所觀測到的聲譜圖J5是長度為L的列向量(例如，F(xiàn)FT長度)，基底函數(shù)矩陣A具有長度為L的M個列向量(基底函數(shù))，且稀疏系數(shù)向量是長度為M的列向量。
圖38中的右下方圖展示了 LXM基底函數(shù)矩陣A如何擴(kuò)充到大小為(LXN)X(MXS)的矩陣A □，其中N是用以捕獲聲譜圖y的麥克風(fēng)的數(shù)目，且S是源將定位在的空間跨度(角度跨度)。矩陣A的基底函`數(shù)中的每一者通過與向量exp(-/"&J的逐元素相乘而擴(kuò)充到A □的一列中，其中A □的N個垂直單元中的每一者具有在O到N-1之間的對應(yīng)值n,S是長度為L的向量,所述向量的元素是2 π 1/L, I在O到L-1之間，且^具有值τ Xs，其中τ指示麥克風(fēng)間的距離除以聲音的速度，且A□的S個水平單元中的每一者(未在圖38中明確地展示)具有在O到S-1之間的對應(yīng)值S。通過以此方式延伸單信道方法，可使用信號中的DOA信息來識別最佳頻譜量值響應(yīng)。圖39展示了此經(jīng)擴(kuò)充的模型的另一圖解說明。
此擴(kuò)充還允許額外空間約束。舉例來說，最小I Ifl ^和I ly' -A' f| I12可能不保證所有固有的特性，例如空間位置的連續(xù)性等。可施加的一個空間約束涉及來自同一樂器的同一音調(diào)的低音部(base)。在此情況下，描述同一樂器的一個音調(diào)的多個基底函數(shù)當(dāng)其被激活時應(yīng)駐留于相同或類似的空間位置中。舉例來說，可約束音調(diào)的起奏、衰減、維持和釋放部分以在類似空間位置中出現(xiàn)。
可施加的另一空間約束涉及由同一樂器產(chǎn)生的所有音調(diào)的低音部。在此情況下，表示同一樂器的激活的基底函數(shù)的位置應(yīng)以高幾率具有時間連續(xù)性?？墒┘哟诵┛臻g約束以動態(tài)地減小搜尋空間和/或?qū)Π凳疚恢棉D(zhuǎn)變的幾率進(jìn)行處罰。圖36中的頂部圖展示了混合信號的聲譜圖的實(shí)例。圖36中的中間圖展示了此信號的“空間頻率范圍”(即，可在給定用以捕獲信號的麥克風(fēng)陣列的尺寸的情況下獲得明確的源到達(dá)方向(DOA)的頻率范圍)的聲譜圖。應(yīng)用如本文中所描述的方法來從此所觀測到的信號中提取時間-頻率[“(t，f)”]點(diǎn)。通過將所觀測到的信號的“空間頻率范圍”與基底函數(shù)庫存相匹配以識別由此范圍激活的基底函數(shù)來開始。圖36中的底部解說明所觀測到的信號的“空間頻率范圍”的對應(yīng)于由信號的此范圍激活的基底函數(shù)的區(qū)域。(盡管出于方便起見，此圖展示了在時間上連續(xù)的區(qū)域，但注意到此些區(qū)域可能在時間和頻率上都不連續(xù))?；诖诵┳R別的基底函數(shù)，接著可從在整個頻率范圍內(nèi)的原始混合信號中減去對應(yīng)的源分量，如圖37中所示(如參看圖26的底部圖所注明，此些區(qū)域可能在時間和頻率上都不連續(xù))。還可能需要通過將所得殘余混合聲譜圖與基底函數(shù)庫存匹配(例如，以識別信號中的下一個最有效樂器，或在如下文所描述的空間延伸的方法中識別一個或一個以上空間上分散的源)來繼續(xù)(例如，對方法進(jìn)行重復(fù))?？赡苄枰褂镁S度上擴(kuò)充的基底函數(shù)矩陣執(zhí)行如上文所描述的方法，以提取空間上定位的點(diǎn)源(例如，使得也在空間上定位從“空間頻率范圍”識別的基底函數(shù))。此種方法可包含計(jì)算“空間頻率范圍”中的混合聲譜圖(t，f)點(diǎn)的空間原點(diǎn)。此定位可基于所觀測到的麥克風(fēng)信號的水平(例如，增益或量值)和/或相位之間的差。此種方法還可包含從混合聲譜圖中提取空間上一致的點(diǎn)源，且將所提取的點(diǎn)源聲譜圖與“空間頻率范圍”中的基底函數(shù)庫存相匹配。此種方法可包含使用匹配的基底函數(shù)來從完整頻率范圍中的混合聲譜圖移除空間點(diǎn)源。此種方法還可包含將殘余混合聲譜圖與基底函數(shù)庫存相匹配，以提取空間上分散的源。可能需要搜尋包含位置提示的樂器的最稀疏表示。舉例來說，可能需要基于“稀疏分解”的單一標(biāo)準(zhǔn)執(zhí)行聯(lián)合地執(zhí)行以下兩個任務(wù)的稀疏性驅(qū)動的多麥克風(fēng)源分離:(I)將源隔離為可區(qū)別的空間集群及(2)查找對應(yīng)基底函數(shù)。圖39展示了圖9的模型從單信道情況到多麥克風(fēng)情況的延伸。在此情況下，單信道輸入聲譜圖1 (例如，指示時間-頻率點(diǎn)的振幅)由包含相位信息的多麥克風(fēng)復(fù)合聲譜圖J替換?；缀瘮?shù)矩陣B還擴(kuò)充到B □，如本文中所描述。重構(gòu)現(xiàn)可包含基于點(diǎn)源的所識別的DOA的空間濾波。為了便于計(jì)算處理，可能需要多個基底函數(shù)B顯著地小于基底函數(shù)庫存A?？赡苄枰獜拇髱齑骈_始，針對給定分離任務(wù)縮減庫存。在一個實(shí)例中，此減小可通過以下方式來執(zhí)行:確定片段是包含來自打擊樂器的聲音還是包含來自和聲樂器的聲音，及從庫存中選擇適當(dāng)?shù)亩鄠€基底函數(shù)B以用于匹配。與和聲聲音的水平線相反，打擊樂器傾向于具有類似脈沖的聲譜圖(例如，垂直線)。在聲譜圖中，和聲樂器的特征通?？蔀槟骋换疽舾吆拖嚓P(guān)聯(lián)的音色，及此和聲模式的對應(yīng)較高頻率延伸。因此，在另一實(shí)例中，可能需要通過僅分析此些頻譜的較低八音度來減小計(jì)算任務(wù)，這是因?yàn)榭苫诘皖l副本來預(yù)測其較高頻率副本。在匹配之后，可將有效基底函數(shù)外推到較高頻率，且從混合信號減去，以獲得可以編碼和/或進(jìn)一步分解的殘余信號。
還可通過用戶在圖形用戶界面中的選擇和/或通過基于第一輪稀疏恢復(fù)或最大可能性擬合預(yù)先分類最有可能的樂器和/或音高來執(zhí)行此減小。舉例來說，可執(zhí)行第一輪稀疏恢復(fù)操作以獲得經(jīng)恢復(fù)的稀疏系數(shù)的第一集合，且基于此第一集合，可對于另一輪稀疏恢復(fù)操作縮減可適用的音調(diào)基底函數(shù)。
一個減小方法包含通過測量某些音程中的稀疏性得分，來檢測某些樂器音調(diào)的存在。此方法可包含基于最初音高估計(jì)來改進(jìn)一個或一個以上基底函數(shù)的頻譜形狀，及使用改進(jìn)的基底函數(shù)作為方法MlOO中的多個B。
減小方法可經(jīng)配置以通過測量投影到對應(yīng)基底函數(shù)中的音樂信號的稀疏性得分來識別音高。在給定最佳音高得分的情況下，可使基底函數(shù)的振幅形狀優(yōu)化，以識別樂器音調(diào)。接著可使用有效基底函數(shù)的減小的集合作為方法MlOO中的多個B。
圖18展示了可用于第一輪方法中的稀疏和聲信號表示的基底函數(shù)庫存的實(shí)例。圖19展示了吉他音調(diào)的聲譜圖(以Hz為單位的頻率對以樣本為單位的時間)，且圖20展示了在圖18中所示的基底函數(shù)集合中此聲譜圖的稀疏表示(基底函數(shù)數(shù)目對以幀為單位的時間)。
圖4A展示了包含此第一輪庫存減小的方法MlOO的實(shí)施方案M600的流程圖。方法M600包含任務(wù)T600，所述任務(wù)T600計(jì)算在非線性頻域(例如，其中鄰近元素之間的頻率距離隨頻率而增加，如按梅爾或巴克標(biāo)度)中的片段的信號表示。在一實(shí)例中，任務(wù)T600經(jīng)配置以使用常數(shù)Q變換來計(jì)算非線性信號表示。方法M600還包含任務(wù)T700，所述任務(wù)T700基于非線性信號表示和多個類似非線性基底函數(shù)，計(jì)算激活系數(shù)的第二向量。基于來自第二激活系數(shù)向量的信息(例如，來自激活的基底函數(shù)的恒等式，其可指示有效音高范圍)，任務(wù)T800選擇用于任務(wù)T200中的多個基底函數(shù)B。明確地注意到方法M200、M300和M400還可經(jīng)實(shí)施以包含此些任務(wù)T600、T700和T800。
圖5展示了設(shè)備AlOO的實(shí)施方案A800的方框圖，所述實(shí)施方案A800包含經(jīng)配置以從基底函數(shù)的較大集合中(例如，從庫存中)選擇多個基底函數(shù)的庫存減小模塊IRM。模塊IRM包含第二變換模塊110，第二變換模塊110經(jīng)配置以計(jì)算非線性頻域中的片段的信號表示(例如，根據(jù)常數(shù)Q變換)。模塊IRM還包含第二系數(shù)向量計(jì)算器，第二系數(shù)向量計(jì)算器經(jīng)配置以基于非線性頻域中的所計(jì)算的信號表示和如本文中所描述的第二多個基底函數(shù)，計(jì)算激活系數(shù)的第二向量。模塊IRM還包含基底函數(shù)選擇器，基底函數(shù)選擇器經(jīng)配置以基于如本文中所描述的來自第二激活系數(shù)向量的信息，從基底函數(shù)的庫存當(dāng)中選擇多個基底函數(shù)。
圖32展示了單信道稀疏恢復(fù)方案的信號處理流程圖，單信道稀疏恢復(fù)方案包含開始檢測(例如，檢測音符的開始)和后處理以改進(jìn)和聲樂器稀疏系數(shù)，且圖33展示了具有任務(wù)T360的不同版本T360A的類似方案的流程圖?；缀瘮?shù)庫存A可包含每一樂器η的基底函數(shù)集合K。這些集合可不相交，或兩個或兩個以上集合可共享一個或一個以上基底函數(shù)。可認(rèn)為所得激活系數(shù)向量f包含每一樂器η的對應(yīng)子向量fn，所述子向量fn包含樂器特定基底函數(shù)集合An的激活系數(shù)，且可獨(dú)立地處理此些子向量(例如，如任務(wù)T360和T360A中所示)。圖21到圖30圖解說明了將此方案用于復(fù)合信號實(shí)例I (在同一八音度下演奏的鋼琴和長笛)和復(fù)合信號實(shí)例2 (伴隨打擊樂器在同一八音度下演奏的鋼琴和長笛)的音樂分解的方面。
一般開始檢測方法可基于頻譜量值(例如，能量差)。舉例來說，此種方法可包含基于頻譜能量和/或峰值斜率找到峰值。圖21展示了將此種方法分別應(yīng)用于復(fù)合信號實(shí)例I (在同一八音度下演奏的鋼琴和長笛)和復(fù)合信號實(shí)例2 (伴隨打擊樂器在同一八音度下演奏的鋼琴和長笛)的結(jié)果的聲譜圖(以Hz為單位的頻率對以幀為單位的時間)，其中垂直線指示所檢測到的開始。
可能還需要檢測每一個別樂器的開始。舉例來說，在和聲樂器之間的檢測開始的方法可基于時間的對應(yīng)系數(shù)差。在一個這樣的實(shí)例中，如果當(dāng)前幀的樂器η的系數(shù)向量(子向量fn)的最高量值元素的指數(shù)不等于先前幀的樂器η的稀疏向量的最高量值元素的指數(shù)，那么觸發(fā)和聲樂器η的開始檢測?？蓪τ诿恳粯菲?，重復(fù)進(jìn)行此操作。
可能需要執(zhí)行和聲樂器的稀疏系數(shù)向量的后處理。舉例來說，對于和聲樂器，可能需要保持對應(yīng)子向量的具有高量值和/或滿足指定的標(biāo)準(zhǔn)(例如，足夠尖)的起奏輪廓的系數(shù)，和/或移除(例如，歸零)殘余系數(shù)。
對于每一和聲樂器，可能需要在每一開始幀處(例如，當(dāng)指示了開始檢測時)對系數(shù)向量進(jìn)行后處理，使得保持具有支配量值和可接受起奏時間的系數(shù)，且使殘余系數(shù)歸零?？筛鶕?jù)例如時間平均量值等的標(biāo)準(zhǔn)來評估起奏時間。在一個這樣的實(shí)例中，如果系數(shù)的當(dāng)前平均值小于系數(shù)的過去平均值(例如，如果在當(dāng)前窗(例如，從幀(t-5)到幀(t+4))中系數(shù)的值的總和小于在過去窗(例如，從幀(t-15)到幀(t-6))中的系數(shù)的值的總和)，那么使當(dāng)前幀t的樂器的每一系數(shù)歸零(即，起奏時間不可被接受)。在每一開始幀處的和聲樂器的系數(shù)向量的此后處理還可包含保持具有最大量值的系數(shù)，且使其它系數(shù)歸零。對于每一和聲樂器，在每一非開始幀處，可能需要對系數(shù)向量進(jìn)行后處理，以便只保持在先前幀中值非零的系數(shù)，且使向量的其它系數(shù)歸零。
圖22到圖25表明將基于開始檢測的后處理應(yīng)用于復(fù)合信號實(shí)例I (演奏同一八音度的鋼琴和長笛)的結(jié)果。在此些圖中，垂直軸是稀疏系數(shù)指數(shù)，水平軸是以幀為單位的時間，且垂直線指示特定幀，在所述特定幀處指示了開始檢測。圖22和圖23分別展示了在后處理之前和之后的鋼琴稀疏系數(shù)。圖24和圖25分別展示了在后處理之前和之后的長笛稀疏系數(shù)。
圖26到圖30表明將基于開始檢測的后處理應(yīng)用于復(fù)合信號實(shí)例2 (伴隨打擊樂器演奏同一八音度的鋼琴和長笛)的結(jié)果。在此些圖中，垂直軸是稀疏系數(shù)指數(shù)，水平軸是以幀為單位的時間，且垂直線指示特定幀，在所述特定幀處指示了開始檢測。圖26和圖27分別展示了在后處理之前和之后的鋼琴稀疏系數(shù)。圖28和圖29分別展示了在后處理之前和之后的長笛稀疏系數(shù)。圖30展示了鼓稀疏系數(shù)。
圖31展示了使用由文森特(Vincent)等人描述的評估尺度(盲音頻源分離中的性能測量，IEEE Trans.ASSP，第14卷，第4期，2006年7月，第1462到1469頁)來評估應(yīng)用于鋼琴-長笛測試情況的如圖32中所示的方法的性能的結(jié)果。信號干擾比(SIR)是對不想要的源的抑制的量度，且定義為101og1Q(| |Starget| I2 I/I IeinterfI I2)。信號偽影比(SAR)是已由分離過程引入的偽影(例如，音樂噪聲等)的量度，且定義為101og1(l(| |Starget+eintOTf I2/ IeartifI I2)。信號失真比(SDR)是性能的總體量度，這是因?yàn)镾DR考慮以上標(biāo)準(zhǔn)兩者，且定義為IOlogltlO IstmgetI I2/ eartif+einterf| |2)。此定量評估展示了具有可接受的偽影產(chǎn)生水平的穩(wěn)健源分離。EM算法可用以產(chǎn)生最初基底函數(shù)矩陣和/或更新基底函數(shù)矩陣(例如，基于激活系數(shù)向量)。現(xiàn)描述EM方法的更新規(guī)則的實(shí)例。在給定聲譜圖Vft的情況下，希望對于每一時間幀估計(jì)頻譜基底向量P(f Iz)和加權(quán)向量Pt (z)。此些分布提供了矩陣分解。如下應(yīng)用EM算法:首先，隨機(jī)地初始化加權(quán)向量Pt (Z)和頻譜基底向量P(f|z)。接著，在以下步驟之間重復(fù)直到收斂為止:1)期望(E)步驟-在給定頻譜基底向量P(f |z)和加權(quán)向量Pt(Z)的情況下，估計(jì)后驗(yàn)分布Pt(z|f)。此估計(jì)可表達(dá)如下:
權(quán)利要求
1.一種分解多信道音頻信號的方法，所述方法包括: 針對所述多信道音頻信號的在時間片段中的多個頻率分量中的每一者，計(jì)算到達(dá)方向的對應(yīng)指示；基于所述所計(jì)算的方向指示，選擇所述多個頻率分量的子集；以及基于所述選定子集和多個基底函數(shù)，計(jì)算激活系數(shù)的向量，其中所述向量的每一激活系數(shù)對應(yīng)于所述多個基底函數(shù)中的不同基底函數(shù)。
2.根據(jù)權(quán)利要求1所述的方法，其中所述多個基底函數(shù)中的每一者包括(A)在頻率范圍內(nèi)的第一對應(yīng)信號表不，及(B)相對于所述第一對應(yīng)信號表不延遲的在所述頻率范圍內(nèi)的第二對應(yīng)信號表不。
3.根據(jù)權(quán)利要求1和2中任一權(quán)利要求所述的方法，其中所述選擇子集是基于對于所述多個頻率分量中的每一者所述對應(yīng)方向指示與所指定的方向之間的關(guān)系。
4.根據(jù)權(quán)利要求1到3中任一權(quán)利要求所述的方法，其中所述方法包括基于所述激活系數(shù)中的至少一者，從所述片段的頻率分量的第二子集中的每一者中減去能量，以產(chǎn)生殘余信號，其中頻率分量的所述第二子集不同于頻率分量的所述選定子集。
5.根據(jù)權(quán)利要求4所述的方法，其中頻率分量的所述第二子集是由至少一個基底函數(shù)確定，所述至少一個基底函數(shù)由激活系數(shù)的所述向量指示。
6.根據(jù)權(quán)利要求1到5中任一權(quán)利要求所述的方法，其中所述計(jì)算激活系數(shù)的所述向量包括最小化激活系數(shù)的所述向量的LI范數(shù)。
7.根據(jù)權(quán)利要求1到6中任一權(quán)利要求所述的方法，其中所述向量的所述激活系數(shù)的至少百分之五十為零值。
8.根據(jù)權(quán)利要求1到7中任一權(quán)利要求所述的方法，其中對于所述多個頻率分量中的每一者，所述計(jì)算到達(dá)方向的所述對應(yīng)指示是基于所述片段的對應(yīng)信道之間的相位差和增益差當(dāng)中的至少一者。
9.根據(jù)權(quán)利要求1到8中任一權(quán)利要求所述的方法，其中所述選定子集和所述第二子集的所述頻率分量和聲地相關(guān)。
10.根據(jù)權(quán)利要求1到9中任一權(quán)利要求所述的方法，其中所述方法包括基于來自所述所計(jì)算的向量的信息，通過從所述多信道音頻信號的至少一個信道中減去所述多個基底函數(shù)當(dāng)中的至少一者來產(chǎn)生殘余信號。
11.根據(jù)權(quán)利要求1到10中任一權(quán)利要求所述的方法，其中所述多個基底函數(shù)中的每一者描述對應(yīng)樂器在頻率范圍內(nèi)的音色。
12.根據(jù)權(quán)利要求1到11中任一權(quán)利要求所述的方法，其中所述方法包括基于來自所述所計(jì)算的向量的信息，使用所述多個基底函數(shù)中的至少一者中的每一者來重構(gòu)所述多信道信號的對應(yīng)分量。
13.一種用于分解音頻信號的設(shè)備，所述設(shè)備包括: 用于針對所述多信道音頻信號的在時間片段中的多個頻率分量中的每一者計(jì)算到達(dá)方向的對應(yīng)指示的裝置；用于基于所述所計(jì)算的方向指示選擇所述多個頻率分量的子集的裝置；以及用于基于所述選定子集和多個基底函數(shù)計(jì)算激活系數(shù)的向量的裝置，其中所述向量的每一激活系數(shù)對應(yīng)于所述多個基底函數(shù)中的不同基底函數(shù)。
14.根據(jù)權(quán)利要求13所述的設(shè)備，其中所述多個基底函數(shù)中的每一者包括(A)在頻率范圍內(nèi)的第一對應(yīng)信號表不，及(B)相對于所述第一對應(yīng)信號表不延遲的在所述頻率范圍內(nèi)的第二對應(yīng)信號表不。
15.根據(jù)權(quán)利要求13和14中任一權(quán)利要求所述的設(shè)備，其中所述選擇子集是基于對于所述多個頻率分量中的每一者所述對應(yīng)方向指示與所指定的方向之間的關(guān)系。
16.根據(jù)權(quán)利要求13到15中任一權(quán)利要求所述的設(shè)備，其中所述設(shè)備包括用于基于所述激活系數(shù)中的至少一者從所述片段的頻率分量的第二子集中的每一者中減去能量以產(chǎn)生殘余信號的裝置，其中頻率分量的所述第二子集不同于頻率分量的所述選定子集。
17.根據(jù)權(quán)利要求16所述的設(shè)備，其中頻率分量的所述第二子集是由至少一個基底函數(shù)確定，所述至少一個基底函數(shù)由激活系數(shù)的所述向量指示。
18.根據(jù)權(quán)利要求13到17中任一權(quán)利要求所述的設(shè)備，其中所述用于計(jì)算激活系數(shù)的所述向量的裝置經(jīng)配置以最小化激活系數(shù)的所述向量的LI范數(shù)。
19.根據(jù)權(quán)利要求13到18中任一權(quán)利要求所述的設(shè)備，其中所述向量的所述激活系數(shù)的至少百分之五十為零值。
20.根據(jù)權(quán)利要求13到19中任一權(quán)利要求所述的設(shè)備，其中對于所述多個頻率分量中的每一者，所述計(jì)算到達(dá)方向的所述對應(yīng)指示是基于所述片段的對應(yīng)信道之間的相位差和增益差當(dāng)中的至少一者。
21.根據(jù)權(quán)利要求13到20中任一權(quán)利要求所述的設(shè)備，其中所述選定子集和所述第二子集和聲地相關(guān)。
22.根據(jù)權(quán)利要求13到21中任一權(quán)利要求所述的設(shè)備，其中所述設(shè)備包括用于基于來自所述所計(jì)算的向量的信息通過從所述多信道音頻信號的至少一個信道中減去所述多個基底函數(shù)當(dāng)中的至少一者而產(chǎn)生殘余信號的裝置。
23.根據(jù)權(quán)利要求13到22中任一權(quán)利要求所述的設(shè)備，其中所述多個基底函數(shù)中的每一者描述對應(yīng)樂器在頻率范圍內(nèi)的音色。
24.根據(jù)權(quán)利要求13到23中任一權(quán)利要求所述的設(shè)備，其中所述設(shè)備包括用于基于來自所述所計(jì)算的向量的信息使用所述多個基底函數(shù)中的至少一者中的每一者來重構(gòu)所述多信道信號的對應(yīng)分量的裝置。
25.一種用于分解音頻信號的設(shè)備，所述設(shè)備包括: 方向估計(jì)器，其經(jīng) 配置以針對多信道音頻信號的在時間片段中的多個頻率分量中的每一者，計(jì)算到達(dá)方向的對應(yīng)指示；濾波器，其經(jīng)配置以基于所述所計(jì)算的方向指示選擇所述多個頻率分量的子集；以及系數(shù)向量計(jì)算器，其經(jīng)配置以基于所述選定子集和多個基底函數(shù)計(jì)算激活系數(shù)的向量，其中所述向量的每一激活系數(shù)對應(yīng)于所述多個基底函數(shù)中的不同基底函數(shù)。
26.根據(jù)權(quán)利要求25所述的設(shè)備，其中所述多個基底函數(shù)中的每一者包括(A)在頻率范圍內(nèi)的第一對應(yīng)信號表不，及(B)相對于所述第一對應(yīng)信號表不延遲的在所述頻率范圍內(nèi)的第二對應(yīng)信號表不。
27.根據(jù)權(quán)利要求25和26中任一權(quán)利要求所述的設(shè)備，其中所述選擇子集是基于對于所述多個頻率分量中的每一者所述對應(yīng)方向指示與所指定的方向之間的關(guān)系。
28.根據(jù)權(quán)利要求25到27中任一權(quán)利要求所述的設(shè)備，其中所述設(shè)備包括經(jīng)配置以基于所述激活系數(shù)中的至少一者從所述片段的頻率分量的第二子集中的每一者中減去能量以產(chǎn)生殘余信號的殘余計(jì)算器，其中頻率分量的所述第二子集不同于頻率分量的所述選定子集。
29.根據(jù)權(quán)利要求28所述的設(shè)備，其中頻率分量的所述第二子集是由至少一個基底函數(shù)確定，所述至少一個基底函數(shù)由激活系數(shù)的所述向量指示。
30.根據(jù)權(quán)利要求25到29中任一權(quán)利要求所述的設(shè)備，其中所述系數(shù)向量計(jì)算器經(jīng)配置以最小化激活系數(shù)的所述向量的LI范數(shù)。
31.根據(jù)權(quán)利要求25到30中任一權(quán)利要求所述的設(shè)備，其中所述向量的所述激活系數(shù)的至少百分之五十為零值。
32.根據(jù)權(quán)利要求25到31中任一權(quán)利要求所述的設(shè)備，其中對于所述多個頻率分量中的每一者，所述計(jì)算到達(dá)方向的所述對應(yīng)指示是基于所述片段的對應(yīng)信道之間的相位差和增益差當(dāng)中的至少一者。
33.根據(jù)權(quán)利要求25到32中任一權(quán)利要求所述的設(shè)備，其中所述選定子集和所述第二子集和聲地相關(guān)。
34.根據(jù)權(quán)利要求25到33中任一權(quán)利要求所述的設(shè)備，其中所述設(shè)備包括經(jīng)配置以基于來自所述所計(jì)算的向量的信息通過從所述多信道音頻信號的至少一個信道中減去所述多個基底函數(shù)當(dāng)中的至少一者而產(chǎn)生殘余信號的殘余計(jì)算器。
35.根據(jù)權(quán)利要求25到34中任一權(quán)利要求所述的設(shè)備，其中所述多個基底函數(shù)中的每一者描述對應(yīng)樂器在頻率范圍內(nèi)的音色。
36.根據(jù)權(quán)利要求25到35中任一權(quán)利要求所述的設(shè)備，其中所述設(shè)備包括經(jīng)配置以基于來自所述所計(jì)算的向量的信息使用所述多個基底函數(shù)中的至少一者中的每一者來重構(gòu)所述多信道信號的對應(yīng)分量的播放模塊。
37.一種機(jī)器可讀存儲媒體，所述機(jī)器可讀存儲媒體包括在由機(jī)器讀取時致使所述機(jī)器執(zhí)行根據(jù)權(quán)利要求1到12中任一權(quán)利要求所述的方法的有形特征。
全文摘要
本發(fā)明揭示使用到達(dá)方向估計(jì)、基底函數(shù)庫存和稀疏恢復(fù)技術(shù)的多信道信號分解。
文檔編號G10L19/008GK103189913SQ201180051509
公開日2013年7月3日申請日期2011年10月25日優(yōu)先權(quán)日2010年10月25日
發(fā)明者埃里克·維瑟, 金萊軒, 申鐘元申請人:高通股份有限公司

完整全部詳細(xì)技術(shù)資料下載