相關(guān)申請的交叉引用
本申請要求于2015年2月16日提交的中國專利申請no.201510085195.9和于2015年2月26日提交的美國臨時專利申請no.62/121,125的優(yōu)先權(quán)。這兩個申請中的每個通過引用被整體結(jié)合于此。
本文公開的示例實施例通常涉及音頻內(nèi)容處理,更具體地,涉及用于從多聲道格式的音頻內(nèi)容分離源的方法和系統(tǒng)。
背景技術(shù):
傳統(tǒng)上,多聲道格式(例如5.1、7.1等)的音頻內(nèi)容通過在工作室中混合不同音頻信號而創(chuàng)建,或者通過在真實環(huán)境中同時記錄聲信號而生成?;旌系囊纛l信號或內(nèi)容可以包括若干個不同的源。源分離是識別每個源的信息以便于例如通過單聲道信號以及包括空間信息、頻譜信息等的元數(shù)據(jù)重建音頻內(nèi)容的任務(wù)。
當使用一個或多個麥克風(fēng)錄制聽覺場景時,有利的是取決于聲音源的信息被分離,使得其可以適于被用于各種后續(xù)音頻處理任務(wù)。一些示例可以包括用于各種目的(例如,自動語音識別)的空間音頻編碼、重混/重構(gòu)、3d聲音分析以及合成、信號增強/噪聲抑制。因此,可以通過成功的源分離實現(xiàn)改進的通用性和更好的性能。當沒有包含在采集過程中的源的先驗信息可用時(例如,錄制設(shè)備的屬性、房間的聲學(xué)特性等),分離過程可以被稱為盲源分離(bss)。
常規(guī)地,用于諸如高斯混合模型(gmm)和非負矩陣分解(nmf)之類的源分離的一些統(tǒng)計模型已經(jīng)被廣泛地應(yīng)用以便于實現(xiàn)源分離。然而,這些算法(例如,gmm或nmf模型)僅收斂到目標函數(shù)的駐點。相應(yīng)地,這些算法對于參數(shù)初始化在以下方面敏感:(1)最終結(jié)果強烈取決于參數(shù)初始化;(2)收斂速度取決于參數(shù)初始化而明顯變化;以及(3)算法不能識別源信號的實際數(shù)量,所以它們通常需要諸如源數(shù)量、頻譜庫(spectralbase)等之類的先驗信息。在常規(guī)的系統(tǒng)中,原始的源信息被用于指導(dǎo)(oracle)初始化,其對于多數(shù)真實世界的應(yīng)用而言并不實際,因為這種信息通常并不可用。而且,在一些應(yīng)用中,可能需要訓(xùn)練數(shù)據(jù)。然而,由于從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)的源模型趨于在真實情形中不佳地執(zhí)行,在實際中出現(xiàn)困難。這是由于模型與在混音中的源的實際屬性之間通常存在不匹配的事實。
有鑒于此,本領(lǐng)域需要用于從音頻內(nèi)容分離源但不需要獲知任何先驗信息的方案。
技術(shù)實現(xiàn)要素:
為了解決前述和其它潛在的問題,本文公開的示例實施例提出了用于從音頻內(nèi)容分離源的方法和系統(tǒng)。
在一個方面,本文公開的示例實施例提供了一種用于從音頻內(nèi)容分離源的方法,該音頻內(nèi)容是基于多個聲道的多聲道格式。該方法包括對音頻內(nèi)容針對多個聲道中的每個聲道執(zhí)行成分(component)分析以生成多個成分。多個成分中的每個成分包括在全頻帶中的多個時頻塊(tile),利用多個成分中的至少一個時頻塊生成至少一個支配源,并且通過基于支配源估計空間參數(shù)和頻譜參數(shù)將源從音頻內(nèi)容分離。關(guān)于該方面的實施例進一步包括相應(yīng)的計算機程序產(chǎn)品。
在另一個方面,本文公開的示例實施例提供了一種用于從音頻內(nèi)容分離源的系統(tǒng),該音頻內(nèi)容是基于多個聲道的多聲道格式。該系統(tǒng)包括成分分析單元,其被配置為對音頻內(nèi)容針對多個聲道中的每個聲道執(zhí)行成分分析以生成多個成分。多個成分中的每個成分包括在全頻帶中的多個時頻塊,源生成單元,其被配置為利用多個成分中的至少一個時頻塊生成至少一個支配源,以及源分離單元,其被配置為通過基于支配源估計空間參數(shù)和頻譜參數(shù)將源從音頻內(nèi)容分離。
通過下面的描述,將理解的是依據(jù)本文公開的示例實施例,可以從音頻內(nèi)容中分離出一個或數(shù)個支配源。從音頻內(nèi)容分離的源是有利的,因為這種分離并不需要源或音頻內(nèi)容的先驗信息(例如,分離純粹基于盲源分離)。具有諸如空間信息之類的元數(shù)據(jù)的重建的源可以在任何回放系統(tǒng)中精確地播放,而不論換能器的數(shù)目(例如,立體聲系統(tǒng)、5.1、7.1系統(tǒng)等)。此外,具有元數(shù)據(jù)的重建的源易于在后處理階段被操縱及改進,并且作為結(jié)果,在幾乎每個聲學(xué)系統(tǒng)(甚至是耳機)中音頻內(nèi)容的表現(xiàn)可以被適配為準確的,因而也是身臨其境的。本文公開的示例實施例所實現(xiàn)的其它優(yōu)點將通過以下描述而變得清楚。
附圖說明
通過參照附圖的以下詳細描述,本文公開的示例實施例的上述和其它目的、特征和優(yōu)點將變得更容易理解。在附圖中,本文公開的示例實施例將以示例以及非限制性的方式進行說明,其中:
圖1圖示了根據(jù)示例實施例的用于從音頻內(nèi)容分離源的方法的流程圖;
圖2圖示了根據(jù)示例實施例的跨成分的時頻塊的聚類的示例;
圖3圖示了根據(jù)另一示例實施例的用于從音頻內(nèi)容分離源的方法的流程圖;
圖4圖示了根據(jù)示例實施例的用于在空間中表示源的圖形用戶界面(gui)的示圖;
圖5圖示了根據(jù)示例實施例的用于從音頻內(nèi)容分離源的系統(tǒng);以及
圖6圖示了適于實施本文公開的示例實施例的示例計算機系統(tǒng)的框圖。
在全部附圖中,相同或相應(yīng)的附圖標記指代相同或相應(yīng)的部分。
具體實施方式
現(xiàn)在將參照附圖中所示的各種示例實施例對本文公開的示例實施例的原理進行說明。應(yīng)當理解,這些實施例的描述僅僅是使本領(lǐng)域技術(shù)人員能夠更好地理解并進一步實施本文公開的示例實施例,而不意在以任何方式對范圍進行限制。
本文公開的示例實施例假設(shè)作為輸入的音頻內(nèi)容是例如5.1、7.1或立體聲格式等的多聲道格式。換言之,針對音頻內(nèi)容提供至少兩個聲道。多聲道音頻內(nèi)容可以被處理成具有諸如源的空間信息之類的元數(shù)據(jù)的多個單聲道音頻內(nèi)容。與從原始音頻內(nèi)容分離源的需要諸如源的數(shù)量、頻譜信息等之類的先驗信息的常規(guī)方式不同,本文公開的示例實施例旨在實現(xiàn)不具有任何先驗信息的源分離,例如,盲源分離(bss)。在空間音頻采集的情況下的盲源分離包括以下操作:將多聲道混音信號分解成源信號并表示關(guān)于源的空間位置和混音參數(shù)的信息。
為了實現(xiàn)盲源分離,本文公開的示例實施例提出了用于從音頻內(nèi)容分離源的方法和系統(tǒng)。音頻內(nèi)容包括多聲道格式的源。實施例將會在以下給出。
本文公開的示例實施例包括具有i個聲道輸入的音頻內(nèi)容,并且音頻內(nèi)容可以被表達為xi(t),i=1,…,i,t=1,…t。音頻可以在其短時傅里葉變換(stft)域被處理,使得xf,n=[x1,fn,…,xi,fn]t,其中f=1,…,f是頻段(frequencybin)指數(shù),并且n=1,…,n是時間幀指數(shù)。音頻內(nèi)容的混音模型可以被表示為以下的矩陣形式:
xfn=cfnsfn+bfn(1)
其中sfn=[s1,fn,…,sj,fn,…,sj,fn]t表示指示j個源的stft的頻譜參數(shù),cfn=[cij,fn]ij表示可以是取決于頻率的和時變的空間參數(shù),并且bfn=[b1,fn,…,bi,fn]t表示附加的噪聲。
等式(1)解釋了音頻內(nèi)容可以被諸如頻譜參數(shù)和空間參數(shù)之類的參數(shù)以及一些噪聲描述。
首先參照圖1,其示出了根據(jù)本發(fā)明的示例實施例的用于從音頻內(nèi)容分離源的方法100的流程圖。
在本文公開的一個示例實施例中,在步驟s101,對音頻內(nèi)容執(zhí)行成分分析。應(yīng)當留意的是,可以存在用于執(zhí)行步驟s101的若干個成分分析方法,僅通過示例的方式,這種方法可以包括但不限于主成分分析(pca)、獨立成分分析(ica)、b格式分析等。
在本文公開的一個示例實施例中,pca方法被采用,其在以下被詳細說明。主成分分析(pca)使得原始坐標系能夠被旋轉(zhuǎn),使得新的坐標系的軸線指向數(shù)據(jù)的差異度(variance)最高的方向。軸線或新變量被稱為主成分并且被按差異度排序:第一成分表示數(shù)據(jù)的差異度最高的方向,而第二成分的方向表示與第一成分正交的剩余差異度中最高的。這可以自然地被延伸而獲得所需數(shù)量的成分,其一起跨越(span)覆蓋期待數(shù)量的差異度的成分空間。因為成分描述相對于原始坐標系的特定方向,所以每個成分一定程度上都取決于每個原始變量:每個成分都是所有原始變量的線性組合。pca使用正交變換來將多聲道音頻內(nèi)容或可能相關(guān)的變量的信號轉(zhuǎn)換為線性不相關(guān)的信號的一組值作為主成分。
然而,應(yīng)當注意的是,本文公開的示例實施例并不旨在限制如何執(zhí)行成分分析,許多如以上所列的其它方法可以被用來生成良好區(qū)分變量的多個成分。例如,通過假設(shè)子成分是非高斯信號并且它們彼此之間統(tǒng)計上獨立,獨立成分分析可以被用來將信號分離為附加的子成分。在該假設(shè)下,有多種方式執(zhí)行ica來估計cfn的逆(gfn)并且隨后通過sfn=gfnxfn獲得獨立成分。
對于通常的成分分析,輸入音頻內(nèi)容具有i個聲道,并且假設(shè)最主要的成分包含最多j個最支配的源,其被稀疏地分布在整個f頻譜或頻段(bin)(例如,在每個頻段中僅存在一個源)。根據(jù)本文公開的示例實施例,在每聲道中的每個時頻(tf)塊的模型可以被定義為環(huán)境信號、j個最支配的源中的一個(或沒有)以及剩余較不支配的源之和,其中依照源的空間感知位置cfn對源進行加權(quán)。
圖2圖示了根據(jù)示例實施例的跨成分的時頻塊的聚類的示例。圖2的水平軸線表示離散示出的時間幀,并且垂直軸線表示頻率指數(shù)。對于一個聲道的每個時間幀,有在步驟s101執(zhí)行成分分析之后生成的一些成分。例如,在圖2中,示出了包括三個成分的時間幀210(n-1),并且每個成分包括若干tf塊,每個tf塊表示頻率范圍。相似地,在時間幀210(n-1)的右邊示出了包括三個成分的時間幀220(n)。
回到由圖1圖示的流程圖,在步驟s102,在每個成分中利用tf塊中的一些tf塊生成多個支配源??梢允褂脦讉€步驟來執(zhí)行步驟s102。在本文公開的一個示例實施例中,步驟s102的第一子步驟可以包括計算特征值和特征向量。
為了生成支配源,可能需要用于成分分析的特征向量?;谝陨厦枋龅膒ca模型,對于每個頻帶f=1,…,f,例如通過計算聲道之間的相關(guān)性來計算相對于音頻內(nèi)容的協(xié)方差矩陣。產(chǎn)生的i*i協(xié)方差矩陣可以被合適的時間常數(shù)平滑化。隨后執(zhí)行特征向量分解以獲得特征值λ1,fn>λ2,fn>…>λi,fn。在得到特征值之后,特征向量v1,fn,v2,fn,…,vi,fn可以基于特征值分解被生成(在該說明書中,每個特征向量被標示為i維行向量),其中第一特征向量v1,fn涉及最支配的源。
特征向量表示在相應(yīng)的成分中tf塊的空間信息(例如,方向)。因此,具有特征向量足夠接近(例如,在距離或角度方面的預(yù)定義閾值以內(nèi))的tf塊可以被假設(shè)為屬于相同的源。那些具有相近方向的tf塊可以被聚類以用于對每個源構(gòu)建頻譜庫。首先,特征向量的旋轉(zhuǎn)模糊性(ambiguity)可以通過將每個特征向量的第一元素賦予正值而被移除,例如vk(1)∈r+。隨后,可以應(yīng)用聚類和合并過程。聚類過程可以估計j個聚類,并且合并過程可以將彼此足夠接近的聚類合并為一個聚類(這可以通過聚類的質(zhì)心(centroid)之間的距離或角度測量,其中差異小于預(yù)確定的閾值為“足夠接近”),使得聚類的數(shù)量,特別是支配源的數(shù)目,在合并過程之后將是最多j個。此外,在每個聚類中的tf塊可以被用來構(gòu)建每個相應(yīng)的源的頻譜庫。在特定實施例中,可以應(yīng)用k平均聚類方法以便于產(chǎn)生每個源的更準確的空間估計。在源構(gòu)建之后,源的數(shù)目可以被確定,并且這些源可以被視為支配源。
現(xiàn)在聚類過程的具體闡述將在以下參考如圖2所示的示例而給出。出于簡易的目的,僅在圖2中示出三個成分以及兩個(潛在的)源。在通過例如使用pca方法旋轉(zhuǎn)坐標系之后,第一成分v1,fn的tf塊的特征向量可以被分析及聚類為兩個群組,其中白色tf塊屬于源1,并且黑色tf塊屬于源2。為了估計第一成分,可以獲得從tf塊的特征向量到初始聚類中心(例如,作為參考方向)的差異(距離或角度),其中初始聚類中心可以在旋轉(zhuǎn)的坐標系中被指派有預(yù)定義值。隨后,應(yīng)用諸如k平均之類的迭代精細化方法以將f個tf塊分割為j個聚類,在其中每個觀察(observation)屬于具有最接近的平均值的聚類。每個群組的聚類質(zhì)心可以在處理第一成分之后獲得。
第二成分的聚類可以隨后使用針對第一成分估計的質(zhì)心被執(zhí)行。一些約束可以被設(shè)定為使得在相同頻段中的不同成分的塊始終屬于不同的源。這還可以被它們的余弦距離反映,因為它們?nèi)缭趐ca方法中定義的是彼此正交的。
而且,可以將一些過程應(yīng)用以減弱環(huán)境噪聲。首先,如果塊以高于某閾值的差異從所有的質(zhì)心偏離,則可以將該塊排除,這表示該塊可能屬于背景噪聲,如在圖2中以點線框標記的那樣。第二,聚類可以僅對最支配的成分(例如,最高的2或3個成分)執(zhí)行,或在環(huán)境和直達分離之后對加權(quán)的支配成分執(zhí)行。通過執(zhí)行環(huán)境和直達分離,加權(quán)增益可以被估計為混音信號中的方向比率。該過程的細節(jié)被描述在申請?zhí)枮?01410357288.8、名稱為“分解音頻信號”的中國專利申請中,該申請通過引用整體被并入本文。在下文中,加權(quán)增益被表示為gi,fn,其表示屬于直達信號而不是環(huán)境信號的第i個成分的tf塊的部分。
在本文公開的一個示例實施例中,為了在時間上跟蹤每個支配源,如圖2所示,在之前的幀(例如,在圖2中的時間幀(n-1))中估計的質(zhì)心可以被計算為用于現(xiàn)在的幀(例如,在圖2中的時間幀(n))中的tf塊的聚類的初始質(zhì)心。在本文公開的一個示例實施例中,之前的幀的移動平均(runningaverage)可以被計算為用于現(xiàn)在的幀的初始質(zhì)心。
在一個示例實施例中,加權(quán)的k平均聚類方法可以被用來獲得對于每個支配源的更加準確的聚類質(zhì)心估計。更多的權(quán)重可以被指派給具有更高能量的tf塊以用于估計質(zhì)心。同時,更多的權(quán)重可以被指派給具有更高部分(以gk,fn反映)屬于源的tf塊。因此,加權(quán)的k平均中的加權(quán)增益gk,fnwk,fn可以被確定為gk,fn和歸一化的特征值的乘積,如:
在支配源在步驟s102被生成之后,在步驟s103,空間參數(shù)和頻譜參數(shù)基于支配源被估計以用于源分離。
當執(zhí)行如上所述的聚類過程時,特征向量的質(zhì)心可以被估計。每個源j可以被指派有具有特征向量{vk,fn}j或加權(quán)的特征向量{gk,fn·vk,fn}j的tf塊的聚類。每個聚類是總塊組的非平凡的分割。因此,每個源的頻譜參數(shù)的stft
每個源的空間元數(shù)據(jù)可以通過使用其特征向量的相應(yīng)的質(zhì)心被估計,其被表示為
圖3圖示了根據(jù)本發(fā)明的另一示例實施例的用于從音頻內(nèi)容分離源的方法的流程圖。步驟s301至s303可以對應(yīng)于參考圖1在以上描述的步驟s101至s103,因而對于步驟s301至s303具體的闡述將不被重復(fù)。雖然一旦獲得空間參數(shù)和頻譜參數(shù)源就可以被分離并且音頻內(nèi)容可以被重建,但是存在一些附加的方法被用來對這些參數(shù)進行精細化。
在步驟s304,頻譜參數(shù)和空間參數(shù)可以使用一些統(tǒng)計方法(諸如高斯混合模型(gmm)和非負矩陣分解(nmf))被精細化以便于實現(xiàn)盲源分離(bss)的更佳結(jié)果。
在gmm方法中,每個源可以首先被表示為由一組有限的特征頻譜形狀驅(qū)動的隨機變量的實現(xiàn),例如局部功率頻譜密度(psd)。每個局部psd描述了一些特定的聲音事件。在gmm形式體系下,針對第j個音頻源的模型λj可以包括對應(yīng)于κ個局部
在一個示例實施例中,第j個源的stft可以被視為具有零均值和對角協(xié)方差矩陣
gmm隨后可以被參數(shù)化為λ={uk,∑k}k,其中uk≥0是滿足∑kuk=1的每個高斯密度的權(quán)重。總共,第j個源的stft的gmm概率分布函數(shù)可以被寫為:
其中p表示概率分布函數(shù)(pdf),n(s;μ,∑)表示具有平均向量μ和對角協(xié)方差矩陣∑的復(fù)高斯隨機向量s的pdf,因而
對于每個源j的gmm參數(shù)λj通常使用一組訓(xùn)練數(shù)據(jù)被各自學(xué)會。在該特定實施例中,使用了從等式(3)中的混音估計的
在一個示例實施例中,ml準則的優(yōu)化可以利用期望最大化(em)算法而獲得。
因此,源的頻譜gmm可以由
其中k表示混音狀態(tài):
因此維納濾波gk,f可以由下式給出:
其中a是混音矩陣并且其已經(jīng)被在等式(4)中得出的c初始化。
在等式(7)中,計算所有k混音狀態(tài)作為所有源狀態(tài)的組合具有復(fù)雜度o(κj)。為了將復(fù)雜度減小為與源數(shù)量o(κ·j)呈線性,每個源在時間n的最可能狀態(tài)
其中
在本文公開的一個示例實施例中,在nmf方法中,具有nmf模型{wj,hj}的源j的功率譜圖可以被建模,使得|sj|2≈wjhj。該基于nmf的模型可以很好地適用于復(fù)調(diào)(polyphony),因為其基本上將源取為具有典型的頻譜特征(characteristicspectralsignature)的基本分量之和。
期望最大化(em)算法可以被應(yīng)用以迭代地估計源參數(shù){wj,hj}和混音參數(shù)afn。在常規(guī)方法中,這些參數(shù)利用隨機數(shù)據(jù)被初始化,據(jù)稱該算法可以非常緩慢并且其依賴于初始值收斂到局部最大值。
在一個示例實施例中,用于em估計的參數(shù)利用在以下步驟中預(yù)學(xué)會的源來被計算。
--------------------------------------
初始化步驟:
1.基于等式(3)中重建的每個源的頻譜參數(shù)的stft
源的協(xié)方差矩陣:
2.通過
3.基于nmf模型,
4.經(jīng)由等式(4)通過c初始化混音矩陣afn。
5.通過使得∑i|aij,fn|2=1歸一化混音和能譜參數(shù)afn、{wj,hj},并相應(yīng)地縮放{wj,hj}。該步驟消除了瑣碎的縮放不確定性。
6.隨后去迭代em估計,以下描述了該迭代em估計的一個迭代。預(yù)期(一個步驟):
1.精細化源的功率能譜
2.根據(jù)以下估計逆混音矩陣%f,n:
要注意的是,在欠定條件(j≥i)下可以應(yīng)用等式(16),并且在超定條件(j<i)下可以應(yīng)用等式(17),因為估計的協(xié)方差矩陣
3.根據(jù)以下計算音頻源的協(xié)方差矩陣
4.經(jīng)由等式(13)更新源的功率能譜
最大化(一個步驟):
1.根據(jù)以下更新混音參數(shù)afn:
2.經(jīng)由等式(14)和(15)更新能譜參數(shù);
3.通過使得∑i|aij,fn|2=1再歸一化參數(shù)afn、{wj,hj},并且相應(yīng)地縮放{wj,hj}。該步驟消除了瑣碎的縮放不確定性。
---------------------------------------------
與為混音參數(shù)和頻譜參數(shù)隨機地指派所選值的常規(guī)em迭代過程相比,本文公開的示例實施例為以上所述的混音參數(shù)和頻譜參數(shù)中的至少一個計算初始值,通過em迭代過程對這些參數(shù)進行精細化從而在速度和準確度方面改進了性能。本文公開的示例實施例啟用統(tǒng)計方法來避免寬泛類的音頻內(nèi)容(例如,音樂、電影聲效等)的缺乏典型訓(xùn)練數(shù)據(jù)的問題。其還允許將源模型專門化為給定混音中的給定源的特定屬性(例如,在電影中采用的特殊聲效或特定樂器(instrument)或樂器的組合)。本文公開的示例實施例也不被目標數(shù)據(jù)中的諸如麥克風(fēng)類型、房間聲學(xué)特性、聲道失真等特定特性所影響。而且,可以實現(xiàn)更快的收斂速度,并且計算復(fù)雜度可以被控制。
在通過如以上所述的諸如gmm和nmf之類的方法對空間參數(shù)和頻譜參數(shù)進行精細化之后,音頻內(nèi)容的源可以基于空間參數(shù)和頻譜參數(shù)在圖3中所示的步驟s305經(jīng)由維納濾波被重建。所重建的(支配)源
在步驟s306,所重建的源可以通過圖形用戶界面(gui)被表示。換言之,所重建的源
參照圖4,重建的源401在另一重建的源402的左邊被示出,并且用戶可以點擊重建的源401和402中的任意一個來收聽它以進一步處理音頻內(nèi)容。如圖4所示,重建的源401和402中的每一個被仿真為具有由若干具有不同暗度的圓表示的空間位置。較暗的圓可以表示源的較高的強度,其可以被理解為較接近源的空間位置。另一方面,較亮的圓可以表示源的較低的強度,其可以被理解為遠離源的空間位置。圖4僅示出了源分離的仿真的示例時刻,并且重建的源的分布可以隨時間而變化。附加地,空間信息可以被不同的顏色所顯示。例如,較低頻率的源可以被指派為藍色色調(diào),而較高頻率的源可以被指派為紅色色調(diào)。
通過gui的源選擇的所得出的輸出作為“預(yù)期源快照”可以被參考,其包括以下關(guān)于預(yù)期源的信息中的至少一個:(1)頻譜結(jié)構(gòu),(2)空間位置,以及(3)激活時間(源的開始(onset)及停止(offset)時間)。作為結(jié)果,知情的(informed)源分離方法可以應(yīng)用有明確的結(jié)構(gòu)/位置/時間限制。預(yù)期源在精細化過程期間被加強。這可以是在收斂性能和速度方面比起使用混亂初始化的標準nmf/gmm方法而言的顯著增強。
通過本文公開的示例實施例中包含的gui,其允許按需求提取特定源,意味著估計的源和它們相應(yīng)的位置可以通過gui被表示,使得用戶能夠在進一步的分離和精細化迭代被應(yīng)用之前通過它們的聲音和/或位置選擇預(yù)期源。
通過以上所述的新穎bss框架,在混音音頻中的潛在的源可以通過使用本發(fā)明中所示的成分分析被學(xué)會。因為關(guān)于潛在源的信息基于每個聚類被估計,空間和頻譜信息可以被獲得,因而對于諸如gmm和nmf方法之類的統(tǒng)計模型而言不需要訓(xùn)練數(shù)據(jù)或先驗信息。換言之,本發(fā)明比起需要訓(xùn)練數(shù)據(jù)的常規(guī)bss方法而言是有利的,因為其利用全盲方法,意味著不需要預(yù)先訓(xùn)練參數(shù)并且因而不需要訓(xùn)練數(shù)據(jù)。
圖5圖示了根據(jù)本發(fā)明的示例實施例的用于從音頻內(nèi)容分離源的系統(tǒng)500。如圖所示,系統(tǒng)500包括成分分析單元501,被配置為對所述音頻內(nèi)容針對所述多個聲道的每個聲道執(zhí)行成分分析以生成多個成分,所述多個成分中的每個成分包括在全頻帶中的多個時頻塊。成分分析單元501從輸入接收多聲道格式的音頻內(nèi)容。系統(tǒng)500還包括源生成單元502,其被配置為利用多個成分中的至少一個時頻塊生成至少一個支配源,以及源分離單元503,其被配置為通過基于支配源估計空間參數(shù)和頻譜參數(shù)將源從音頻內(nèi)容分離。
在一些示例實施例中,源生成單元502可以包括聚類單元,其被配置為將多個方向聚類為至少一個群組,每個群組包括多個時頻塊,該多個方向從多個成分中產(chǎn)生;以及跟蹤單元,其被配置為通過在時間上跟蹤群組生成支配源。在本文公開的示例實施例中,聚類單元可以被配置為將所有的成分中與初始值的差異在預(yù)定義的聚類閾值以內(nèi)的方向聚類為群組。進一步在本文公開的示例實施例中,時頻塊聚類單元可以包括質(zhì)心估計單元,其被配置為基于所述多個時頻塊的直達性和所述多個時頻塊的能量級中的至少一個以及所述初始值估計所述聚類中的每個聚類的質(zhì)心。在本文公開的一些示例實施例中,跟蹤單元可以包括以下中的至少一個:前質(zhì)心指派單元,其被配置為將前一時間幀的估計的質(zhì)心指派為現(xiàn)在的時間幀的初始值;或移動平均質(zhì)心指派單元,其被配置為將之前的時間幀中估計的移動平均質(zhì)心指派為用于現(xiàn)在的時間幀的初始值。
在一些其它示例實施例中,源分離單元503可以包括質(zhì)心估計單元,其被配置為估計支配源的方向的質(zhì)心;空間源分離單元,其被配置為基于質(zhì)心在多個成分中的每個成分內(nèi)估計時頻塊的空間參數(shù);以及頻譜源分離單元,其被配置為基于質(zhì)心在多個成分中的每個成分內(nèi)估計時頻塊的頻譜參數(shù)。在本文公開的一些示例實施例中,源分離單元503可以包括:高斯混合模型參數(shù)計算單元,其被配置為基于頻譜參數(shù)計算高斯混合模型參數(shù);以及狀態(tài)估計單元,其被配置為根據(jù)高絲混合模型參數(shù)、空間參數(shù)以及頻譜參數(shù)在每個時間幀估計每個源的最可能狀態(tài)。而且,源分離單元503可以包括:初始化單元,其被配置為執(zhí)行混音參數(shù)和能譜參數(shù)的初始化過程;以及參數(shù)更新單元,其被配置為通過em迭代過程更新能譜參數(shù)和混音參數(shù)。在本文公開的又一些示例實施例中,初始化單元可以包括以下中的至少一個:混音參數(shù)初始化單元,其被配置為基于空間參數(shù)初始化混音參數(shù);或能譜參數(shù)計算單元,其被配置為基于頻譜參數(shù)計算能譜參數(shù)。
在一些示例實施例中,該系統(tǒng)可以包括源重建單元,其被配置為基于支配源的頻譜參數(shù)和空間參數(shù)重建音頻內(nèi)容的源;以及源表示單元,其被配置為通過圖形用戶界面表示所重建的源。
為了清楚起見,系統(tǒng)500的一些可選部件在圖5中并未示出。然而應(yīng)當理解的是,如以上參照圖1至4所描述的特征均適用于系統(tǒng)500。此外,系統(tǒng)500的部件可以是硬件模塊或軟件單元模塊。例如,在一些實施例中,系統(tǒng)500可以部分地或完全地以軟件和/或固件實現(xiàn),例如實現(xiàn)為包含在計算機可讀介質(zhì)中的計算機程序產(chǎn)品。可替代地或附加地,系統(tǒng)500可以部分地或完全地基于硬件實現(xiàn),例如作為集成電路(ic)、專用集成電路(asic)、片上系統(tǒng)(soc)、現(xiàn)場可編程門陣列(fpga)等。本發(fā)明的范圍并不局限于該方面。
圖6示出了適于實施本文公開的示例實施例的示例計算機系統(tǒng)600的框圖。如圖所示,計算機系統(tǒng)600包括中央處理單元(cpu)601,其能夠根據(jù)存儲在只讀存儲器(rom)602中的程序或從存儲區(qū)608加載到隨機存取存儲器(ram)603的程序而執(zhí)行各種處理。在ram603中,當cpu601執(zhí)行各種處理等等時,還根據(jù)需要存儲所需的數(shù)據(jù)。cpu601、rom602和ram603經(jīng)由總線604彼此相連。輸入/輸出(i/o)接口605也連接到總線604。
以下部件連接至i/o接口605:包括鍵盤、鼠標等的輸入部分606;包括諸如陰極射線管(crt)、液晶顯示器(lcd)等之類的顯示器以及揚聲器等的輸出部分607;包括硬盤等的存儲部分608;以及包括諸如lan卡之類的網(wǎng)絡(luò)接口卡、調(diào)制解調(diào)器等的通信部分609。通信部分609經(jīng)由諸如因特網(wǎng)之類的網(wǎng)絡(luò)執(zhí)行通信處理。驅(qū)動器610也根據(jù)需要連接至i/o接口605??刹鹦督橘|(zhì)611,諸如磁盤、光盤、磁光盤、半導(dǎo)體存儲器等,根據(jù)需要安裝在驅(qū)動器610上,使得從其上讀出的計算機程序根據(jù)需要被安裝入存儲部分608。
特別地,根據(jù)本文公開的示例實施例,上文參考圖1至圖4描述的過程可以被實現(xiàn)為計算機軟件程序。例如,本文公開的示例實施例包括一種計算機程序產(chǎn)品,其包括有形地包含在機器可讀介質(zhì)上的計算機程序,該計算機程序包含用于執(zhí)行方法100和/或300的程序代碼。在這樣的實施例中,該計算機程序可以通過通信部分609從網(wǎng)絡(luò)上被下載和安裝,和/或從可拆卸介質(zhì)611被安裝。
一般而言,本文公開的各種示例實施例可以在硬件或?qū)S秒娐贰④浖?、邏輯、或其任何組合中實施。某些方面可以在硬件中實施,而其它方面可以在可由控制器、微處理器或其它計算設(shè)備執(zhí)行的固件或軟件中實施。當本文公開的示例實施例的各方面被圖示或描述為框圖、流程圖或使用某些其它圖形表示時,將理解此處描述的方框、裝置、系統(tǒng)、技術(shù)或方法可以在作為非限制性的示例的硬件、軟件、固件、專用電路或邏輯、通用硬件或控制器或其它計算設(shè)備,或其某些組合中實施。
而且,流程圖中示出的各種方框可以被看作是方法步驟,和/或計算機程序代碼的操作生成的操作,和/或被構(gòu)造以執(zhí)行相關(guān)(一個或多個)功能的多個耦合的邏輯電路元件。例如,本文公開的示例實施例包括計算機程序產(chǎn)品,其包括有形地包含在機器可讀介質(zhì)上的計算機程序,該計算機程序包含被配置為執(zhí)行上文描述方法的程序代碼。
在本公開的上下文中,機器可讀介質(zhì)可以是可以包含或存儲用于或有關(guān)于指令執(zhí)行系統(tǒng)、裝置或設(shè)備的程序的任何有形介質(zhì)。機器可讀介質(zhì)可以是機器可讀信號介質(zhì)或機器可讀存儲介質(zhì)。機器可讀介質(zhì)可以包括但不限于電子的、磁的、光學(xué)的、電磁的、紅外的或半導(dǎo)體系統(tǒng)、裝置或設(shè)備,或前述的任意合適的組合。機器可讀存儲介質(zhì)的更詳細示例包括帶有一個或多個導(dǎo)線的電連接、便攜式計算機軟盤、硬盤、隨機存儲存儲器(ram)、只讀存儲器(rom)、可擦除可編程只讀存儲器(eprom或閃存)、光纖、便攜式緊湊盤只讀存儲器(cd-rom)、光存儲設(shè)備、磁存儲設(shè)備,或前述的任意合適的組合。
用于執(zhí)行本發(fā)明的方法的計算機程序代碼可以用一種或多種編程語言的任何組合來編寫。這些計算機程序代碼可以提供給通用計算機、專用計算機或其它可編程的數(shù)據(jù)處理裝置的處理器,使得程序代碼在被計算機或其它可編程的數(shù)據(jù)處理裝置的處理器執(zhí)行的時候,引起在流程圖和/或框圖中規(guī)定的功能/操作被實施。程序代碼可以完全在計算機上、部分在計算機上、作為獨立的軟件包、部分在計算機上且部分在遠程計算機上或者完全在遠程計算機或服務(wù)器上、或者在一個或多個遠程計算機或服務(wù)器之間分布而執(zhí)行。
另外,盡管操作以特定順序被描繪,但這并不應(yīng)該被理解為要求此類操作以示出的特定順序或以相繼順序執(zhí)行,或者執(zhí)行所有圖示的操作以實現(xiàn)期望結(jié)果。在某些情況下,多任務(wù)和并行處理可能是有利的。同樣地,盡管上述討論包含了數(shù)個特定的實施細節(jié),但這并不應(yīng)解釋為限制任何發(fā)明或權(quán)利要求的范圍,而應(yīng)解釋為對可以針對特定發(fā)明的特定實施例的特征的描述。本說明書中在分開的實施例的上下文中描述的某些特征也可以組合實施在單個實施例中。相反地,在單個實施例的上下文中描述的各種特征也可以分離地在多個實施例中或者任意合適的子組合中實施。
針對前述本發(fā)明的示例實施例的各種修改、改變將在結(jié)合附圖閱讀前述描述時對相關(guān)技術(shù)領(lǐng)域的技術(shù)人員變得清楚。任何及所有修改將仍落入本發(fā)明的非限制的和示例實施例范圍。此外,前述說明書和附圖存在啟發(fā)的益處,涉及這些實施例的技術(shù)領(lǐng)域的技術(shù)人員將會想到此處闡明的其它示例實施例。
相應(yīng)地,本文公開的示例實施例可以被體現(xiàn)為本文描述的任意形式。例如,以下列舉的示例實施例(eee)描述了本發(fā)明的一些方面的一些結(jié)構(gòu)、特征和功能。
eee1.一種用于從混音信號分離源的方法,該混音信號包含多個音頻聲道(至少兩個不同的聲道),該方法包括:
●獲得一組彼此弱相關(guān)/不相關(guān)(或弱依賴/不依賴)的成分,該組成分基于多個音頻信號而生成;
●通過利用成分的時頻塊的子組(subset)的空間一致性,利用成分的這些時頻塊的子組構(gòu)建一組最支配的方向源;
●基于構(gòu)建的最支配的方向源估計源參數(shù),其中源參數(shù)包括空間參數(shù)(混音矩陣)以及源頻譜參數(shù),專門化源在目標混音中的統(tǒng)計行為,使得這些參數(shù)導(dǎo)致包括至少錄制和編碼可變性的可變性;
●初始化用于源分離迭代的源模型,以加速收斂速度,從而防止迭代由于任何混亂的初始值收斂到局部最大值,和/或強制特定的收斂目標。
eee2.根據(jù)eee1的方法,其中確定該組最支配的方向源包括:
●估計該組成分的tf塊的空間參數(shù);
●將具有空間參數(shù)的tf塊聚類,合并非常接近的聚類;
●沿時間跟蹤每個聚類;
●再歸一化空間參數(shù)和頻譜參數(shù),并用聚類構(gòu)建最支配的方向源。
eee3.根據(jù)eee2的方法,其中在每個成分中估計tf塊的空間參數(shù)包括以下中的至少一個:
●計算多個音頻信號的協(xié)方差矩陣的特征值分解(對于基于pca的方法),并指派每個pca成分的tf塊的特征向量作為它們的空間參數(shù),并消除旋轉(zhuǎn)模糊性;
●估計逆混音參數(shù)(對于基于ica的方法)作為每個ica成分的空間參數(shù),并消除旋轉(zhuǎn)模糊性。
eee4.根據(jù)eee2的方法,其中將具有空間參數(shù)的tf塊聚類包括:
●對于最支配的成分,計算tf塊與它們的空間參數(shù)的距離,聚類塊并估計聚類質(zhì)心;
●對以下步驟執(zhí)行幾次迭代:對于較不支配的成分,用之前估計的質(zhì)心來聚類塊,并且可以增加限制使得不同成分的tf塊始終屬于不同的聚類。
eee5.根據(jù)eee4的方法,其中對以下中的至少一個執(zhí)行迭代:
●最支配的成分;
●應(yīng)用有直達和環(huán)境分離產(chǎn)生的增益的加權(quán)的成分。
eee6.根據(jù)eee2的方法,其中聚類具有空間參數(shù)的tf塊進一步包括:
●使用加權(quán)的k平均聚類方法,其中加權(quán)因子由tf塊的能量和由直達和環(huán)境分離產(chǎn)生的方向增益估計共同確定。
eee7.根據(jù)eee2的方法,其中沿時間跟蹤每個聚類包括以下中的至少一個:
●采用在前一幀中估計的質(zhì)心作為現(xiàn)在聚類的初始質(zhì)心;
●采用在之前的幀中估計的質(zhì)心的移動平均作為現(xiàn)在聚類的初始質(zhì)心。
eee8.根據(jù)eee1的方法,其中利用成分的時頻塊的子組構(gòu)建該組最支配的方向源包括:
●為每個源指派伴隨有它們(加權(quán)的)空間參數(shù)的、tf塊的一個聚類,這是所有塊的非平凡分割;
●估計源的空間參數(shù)作為其相應(yīng)的聚類質(zhì)心;
●通過應(yīng)用其相應(yīng)的空間參數(shù)到多個音頻信號的能譜而恢復(fù)源能譜。
根據(jù)eee1的方法,其中基于構(gòu)建的最支配的方向源來估計源參數(shù)包括以下中的至少一個:
●基于優(yōu)化最大似然(ml)準則,使用恢復(fù)的源能譜以計算gmm參數(shù);
●基于優(yōu)化另一ml準則,在每個時間幀處估計每個源的最可能狀態(tài)以通過減少可能的gmm狀態(tài)的數(shù)目而加速計算。
eee10.根據(jù)eee1的方法,其中基于構(gòu)建的最支配的方向源來估計源參數(shù)包括以下中的至少一個:
●對于預(yù)期步驟的第一迭代,使用恢復(fù)的源能譜計算協(xié)方差矩陣,因而源的功率譜圖包括矩陣的對角元素;
●對于最大化步驟的第一迭代,使用nmf建模源的功率譜圖,初始化每個源的非負矩陣,并且使用加權(quán)的特征向量初始化混音矩陣;
●歸一化源參數(shù)以消除縮放不確定性;
●對于基于nmf的bss利用以上初始化的模型參數(shù)繼續(xù)下一em迭代。
eee11.根據(jù)eee1的方法,其中為源分離迭代初始化源模型以強制特定的收斂目標包括以下中的至少一個:
●通過圖形用戶界面(gui)表示每個源的重建的聲音和位置(由混音參數(shù)反映);
●在用戶選擇一個或多個目標源和/或標記它們的激活時間之后通過gui創(chuàng)建預(yù)期源快照;
●應(yīng)用知情的源分離迭代以基于預(yù)期源快照進一步精細化具有有明確的結(jié)構(gòu)/位置/時間限制的至少一個的目標源。
應(yīng)該理解的是,本文公開的示例實施例并不限于所公開的具體實施例,并且修改和其他實施例旨在被包括在所附權(quán)利要求的范圍之內(nèi)。盡管本文使用了特定術(shù)語,但它們僅被用于通用的和描述性的意義而不是用于限制的目的。