專利名稱:頻域中多通道卷積混合的盲分離方法和設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信號處理,特別是涉及頻域中多通道卷積混合(convolutivemixtures)的盲信號分離的方法、設(shè)備以及包含執(zhí)行上述盲信號分離的程序的存儲介質(zhì)。
背景技術(shù):
在語音處理領(lǐng)域中,有必要在多徑環(huán)境中將多信號的混合(包括語音信號)從多個傳感器中分離出來。這種對未知信號的混合的分離公知為盲源分離(blind source separation,BSS)。BSS對于分離來自于諸如多個揚聲器和聲納陣列的獨立源的信號是非常有用的。BSS技術(shù)可以應(yīng)用于揚聲器位置跟蹤、語音識別、語音編碼、基于目標的3D音頻信號處理、聲學回聲消除器、通道均衡、到達方向估算以及諸如EEG和MEG的多種生物學信號的檢測。
大多數(shù)BSS技術(shù)致力于通過消除多徑效應(yīng)的影響而恢復(fù)原始信號。雖然通常情況下需要無限長度濾波器以達到此目的,但在大多數(shù)實際環(huán)境中,有限長度濾波器也能夠提供足夠的分離。
對BSS問題來說有兩種普遍的方法(i)多重去相關(guān)(multipledecorrelation,MD)方法,該方法利用第二階信號統(tǒng)計作為獨立測量,和(ii)多通道盲去卷積(multichannel blind deconvolution,MBD)方法,該方法利用高階統(tǒng)計。
MD方法通過對角化第二階統(tǒng)計對混合信號進行去相關(guān)。[例如見E.Weinstein,M.Feder,and A.V.Oppenheim,“Multi-channel signal separation bydecorrelation,”IEEE Trans.Speech Audio Processing,vol.1,no.4,pp.405-413,Apr.1993;Lucas Parra and Clay Spence,“Convolutive blind source separation ofnonstationary sources”,IEEE Trans.Speech Audio Processing,pp.320-327,May,2000;D.W.E.Schobben and P.C.W.Sommen,“A frequency-domain blind signalseparation method based on decorrelation,”IEEE Trans.Signal Processing,vol.50,no.8,pp.1855-1865,Aug.2002;N.Murata and S.Ikeda,and A.Ziehe,“An approach to blind source separation based on temporal structure of speechsignal,”Neurocomputing,vol.41,no.4,pp.1-24,2001]對角化應(yīng)該在多個時刻執(zhí)行以成功分離信號。為此,這些方法僅應(yīng)用于非平穩(wěn)(nonstationary)信號。這些方法非??於曳€(wěn)定。另一方面,MBD方法通過將非線性變換分離信號的相互信息最小化而分離信號,非線性變換分離信號由與信號統(tǒng)計分布匹配的非線性方程變換得到。[例如見S.Amari,S.C.Douglas,A.Cichocki,H.H.Yang,″Novel on-line adaptive learning algorithm for blind deconvolutionusing the natural gradient approach″,Proc.IEEE 11th IFAC Symposium onSystem Identiftcation,Japan,1997,pp.1057-1062;A.J.Bell and T.J.Sejnowski,“An information maximization approach to blind separation and blinddeconvolution,”Neural Computation,7,no.6,pp.1129-1159,Nov.1995;L.Zhang,A.Cichocki,and S.Amari,“Geometrical structures of FIR manifolds andtheir application to multichannel blind deconvolution,”Proc of Int.IEEEWorkshop on Neural Networks and Signal Processing,pp.303-312,Madison,Wisconsin,USA,Aug.23-25,1999]。
發(fā)明內(nèi)容
在現(xiàn)有技術(shù)中,分離性能由于其頻率排列(frequency permutation)、白化(whitening)以及采用的濾波器類型等缺陷而大大受限。
MD方法受頻率排列問題的影響,也就是分離源在每個頻率槽(frequencybin)中排列不同,從而最終的分離信號仍然混合。雖然對這種排列問題有一些解決方案,但分離性能隨著分離濾波器的長度增加而惡化。另一方面,MBD方法受白化效應(yīng)的影響,即分離信號的頻譜被白化(或變平)。為解決MBD方法的這種缺陷,已提出一種語音信號的線性預(yù)測方法。[例如見,S.C.Douglas,″Blind separation of acoustic signals″,in Microphone ArraysSignalprocessing techniques and applications,M.Brandstein and D.Ward Eds,Springer,pp.355-380,2001.]。這種方法采用雙向濾波器,其在實際應(yīng)用中可能會不適于正常的混合環(huán)境。此外,部分的房間脈沖響應(yīng)可以被看作人類語音信號的聲音跟蹤響應(yīng)。
因此,需要一種以高語音質(zhì)量快速并準確地分離語音信號的BSS技術(shù)。
本發(fā)明提供一種在塊頻域中具有歸一化自然梯度的多通道盲去卷積的方法和設(shè)備,其對用于信號分離的單向分離濾波器進行估算。
圖4a顯示了對實際環(huán)境中記錄的混合信號進行分離的例子。采用兩個麥克放在房間中記錄語音和音樂信號,然后利用本發(fā)明的方法對該混合信號進行分離。圖4a從上至下顯示了兩個混合信號x=(x1,x2)和兩個分離信號u=(u1,u2)。所采用的參數(shù)為L=128,M=2L,N=2N,μ=0.0025。圖4b顯示了該例子中最終的分離濾波器。
本發(fā)明可以以高語音質(zhì)量從混合信號中分離出期望的信號,從而分離信號可以被導(dǎo)入語音識別器或語音編碼器。圖5從上之下顯示了各通道的原始信號s、混合信號x以及分離信號u。圖5顯示了高質(zhì)量的分離語音信號。
通過結(jié)合附圖和下列描述可以很容易理解本發(fā)明的教導(dǎo),其中圖1顯示了執(zhí)行本發(fā)明軟件實現(xiàn)的系統(tǒng);圖2a顯示了采用歸一化自然梯度的多通道盲去卷積的框圖;圖2b顯示了分離混合的多通道信號的分離濾波器的圖示;圖2c顯示了利用非線性方程將分離信號變換為具有均勻概率密度的信號的示意圖;
圖3顯示了本發(fā)明實施方式的流程圖;圖4a顯示了由本發(fā)明的方法從在實際房間中記錄的混合信號中分離的信號、語音和音樂;圖4b顯示了通過本發(fā)明的方法對實際房間中記錄的混合信號進行分離的最終分離濾波器wij;圖5顯示了各通道的原始語音信號s、混合語音信號x以及分離信號u。
具體實施例方式
圖1描述了本發(fā)明執(zhí)行信號分離的系統(tǒng)100。該系統(tǒng)100包括輸入裝置126,用于提供待分離的混合信號;和計算機系統(tǒng)108,其用于執(zhí)行本發(fā)明的頻域歸一化多通道盲去卷積程序124。該輸入裝置126可以包含任何類型的裝置,但示意性顯示為包括傳感器陣列102、信號處理器104和記錄信號源106。該傳感器陣列102包括一個或多個變換器102A、102B、102C,例如麥克風。信號處理器108對(卷積)混合信號進行數(shù)字化。
計算機系統(tǒng)108包括中央處理單元(CPU)114、存儲器122、輸入/輸出(I/O)接口120和輔助電路116。所述計算機系統(tǒng)通常通過I/O接口120連接到輸入裝置110以及各種輸入/輸出裝置,例如監(jiān)視器、鼠標以及鍵盤。所述輔助電路116包括公知的電路,例如電源、緩存器、定時電路、通信電路、總線等。存儲器122可以包括隨機存取存儲器(RAM)、只讀存儲器(ROM)、磁盤驅(qū)動器、磁帶驅(qū)動器、閃存、光盤(CD)等,或者一些存儲裝置的組合。本發(fā)明是作為頻域歸一化多通道盲去卷積程序124而實現(xiàn)的,該程序存儲于存儲器122中并由CPU114執(zhí)行以處理來自于輸入裝置126的信號。這樣,計算機系統(tǒng)108是通用目的計算機系統(tǒng),而在執(zhí)行本發(fā)明的程序124的時候成為特定目的計算機系統(tǒng)。本發(fā)明還可以以軟件、硬件或軟件與硬件的結(jié)合而實現(xiàn),例如應(yīng)用專用集成電路(ASIC)、數(shù)字信號處理器以及其他硬件裝置。
所顯示的計算機系統(tǒng)108進一步包括語音識別處理器118,例如語音識別電路卡或語音識別軟件,用于對由本發(fā)明從混合信號中提取出來的分離信號進行處理。這樣,具有背景噪聲或音樂的具有兩人以上同時說話的房間中的混合信號可以由麥克風陣列102捕捉到。由麥克風102捕捉到的語音信號就是應(yīng)該被分離成單獨分量以進行語音識別的混合信號。該混合信號經(jīng)過信號處理器104的濾波、放大和數(shù)字化后被發(fā)送到計算機系統(tǒng)108。執(zhí)行頻域歸一化多通道盲去卷積程序124的CPU114將混合信號分離成其分量信號。從這些分量信號中,可以很容易地將背景噪聲移除。然后,應(yīng)用無噪聲的分量信號到語音識別處理器118以將所述分量信號處理成計算機文件或計算機指令。以此方式,執(zhí)行頻域歸一化多通道盲去卷積程序124的計算機系統(tǒng)108為語音識別處理器118執(zhí)行信號預(yù)處理或信號調(diào)理。
圖2a是本發(fā)明頻域歸一化多通道盲去卷積124的框圖。本發(fā)明的頻域歸一化多通道盲去卷積包括分離部件201、非線性變換器202以及濾波器更新部件203,該濾波器更新部件203利用歸一化自然梯度來更新分離濾波器系數(shù)。所述分離部件201分離混合多通道信號x(k)?;旌闲盘杧(k)作為n個傳感器至m個分量信號的輸出出現(xiàn)于多徑環(huán)境中,并且由下列等式所定義x(k)=[x1(k),x2(k),…,xn(k)]T(1)其中,xj(k)為來自于第j個傳感器的混合信號。將x(k)分離成其分量信號的分離濾波器是mxn矩陣W(z,k),其(i,j)分量由下列等式所表示wij(z,k)=Σp=0L-1wij,p(k)z-p---(2)]]>其中,L為分離濾波器的長度。分離的分量信號u(k)由下列等式定義u(k)=[u1(k),u2(k),…,um(k)]T(3)其中,ui(k)是由下列等式定義的第i個分離信號
ui(k)=Σj=1nwij,p(k)xj(k-p),i=1,···,m---(4)]]>圖2b顯示了m=n=2情況下的分離處理。來自于分離部件201的分離信號u(k)施加到非線性變換器202。
非線性變換器202通過無記憶非線性方程對分離信號執(zhí)行變換,從而非線性變換信號具有均勻概率密度。該非線性變換由下列等式定義yi(k)=f(ui(k)),i=1,…,m (5)圖2c顯示了非線性變換,其中具有拉普拉斯概率密度的信號被映射成具有均勻概率密度的信號。在非線性變換中使用的方程與概率密度緊密相關(guān)。對于音頻和語音信號,通常使用αsgn(u)或tanh(u)。
濾波器更新部件203通過下列等式利用具有自然梯度的最速上升法對分離濾波器的系數(shù)進行更新wij,p(k+1)=wij,p(k)+μΔwij,p(k) (6)其中,1≤i≤m,1≤j≤n,0≤p≤L-1,μ為步長,Δwij,p(k)為下列等式所定義的自然梯度Δwij,p(k)=Δwij,p(k)-Σl=1mΣq=0py‾i(k)u‾l(k-p+q)wlj,q(k)---(7)]]>其中,yi(k)和ul(k)分別是yi(k)和ul(k)的具有平整頻譜的頻域歸一化形式。需要注意的是,等式(7)中的濾波器遲滯q上限為p而不是L-1。在本發(fā)明中,分離濾波器是長度L的單向。因此不需要抽樣延遲。
在本發(fā)明中,上述處理是以重疊保留(overlap-save)方式在頻域中執(zhí)行的以利用FFT變換(快速傅立葉變換)的優(yōu)點。濾波器長度、塊長度以及幀長度分別表示為L、M、N。幀之間的重疊量由比例r=N/M確定。下面,為簡化起見,假設(shè)50%重疊(r=2)并且FFT大小與幀長度相同。
圖3顯示了本發(fā)明頻域歸一化多通道盲去卷積實施方式的流程圖。參考該流程圖,在步驟301輸入混合信號x(k)。在步驟302,該混合信號形成M個抽樣的兩個(r=2)連續(xù)塊的當前幀,如下xj(b)=[xj(bM-2M+1),…,xj(bM)]T,j=1,…,n(8)其中,b表示塊指數(shù)。在步驟303,混合信號利用分離濾波器進行分離wij(b)=[wij,0,wij,1,…,wij,L-1]T(9)分離濾波器通常初始化如下wij(0)=[1,0,…,0]T,i=j(luò) (10a)wij(0)=
T,i≠j(10b)然而,如果在分離濾波器上有任何有效信息,則該信息可以用作該分離濾波器的初始化。分離信號通過下列等式在頻域中利用循環(huán)卷積計算 其中⊙表示分量相乘(component-wise multiplication),f表示頻域量(frequency domain quantity),從而wij(f,b)=Fwij(b)(12a)xj(f,b)=Fxj(b) (12b)其中F是N×N的DFT矩陣。然后,分離信號在下列等式中被變回時域以拋棄前L個混疊抽樣(aliased samples)ui(f,b)=P0,N-LFui(f,b)=
T(13)其中,P0,N-L是投影矩陣(projection matrix,或窗口矩陣)以將前L個抽樣設(shè)為0,其定義如下P0,N-L=0L00IN-L---(14)]]>其中0L是L×L零矩陣,IN-L是(N-L)×(N-L)單位矩陣。
在步驟304,分離信號在時域內(nèi)經(jīng)過非線性方程的變換。可以采用下列等式之一
yi(b)=f(ui(b))=
T(15a)yi(b)=f(ui(b))=
T(15b)該非線性方程的輸出用于在步驟306計算交叉相關(guān)(cross-correlations)f(ui(k))uj(k-p),p=0,1,…,L-1。如果采用等式(15a),則交叉相關(guān)將有偏,如果采用等式(15b),則交叉相關(guān)無偏。
在步驟305,計算無混疊(alias-free)歸一化交叉功率譜。步驟305在本發(fā)明中非常關(guān)鍵。所述歸一化交叉功率譜由下列等式定義 其中,Pyiuj(f,b)是yi(f,b)和uj(f,b)之間的交叉功率譜,這將在下文中進行描述。如果i=j(luò),則期望值由Bussgang特性歸一化為1。在步驟306,頻域內(nèi)的交叉功率譜由下列等式定義 其中,*代表復(fù)共軛,而且yi(f,b)=Fyi(b) (18a)uj(f,b)=Fuj(b) (18b)注意,等式(17)中的交叉功率譜是僅利用等式(18a)和(18b)中來自當前幀的抽樣而計算出來的。在步驟307,計算分離信號和非線性變換后的信號的功率譜以歸一化交叉功率譜。為了適應(yīng)信號的時變特性,功率譜在每個塊中更新,如下Pyi(f,b)=(1-γ)Pyi(f,b-1)+γ|yi(f,b)|2,i=1,···,m---(19a)]]>Puj(f,b)=(1-γ)Puj(f,b-1)+γ|uj(f,b)|2,j=1,···,m---(19b)]]>這里,γ是0至1之間的常量。功率譜被初始化為Pyi(f,0)=Puj(f,0)=c[1,···,1]T,i=1,···,m,]]>其中c是很小的正數(shù)常量0<c<<1。
在步驟308,交叉功率譜歸一化如下 其中,上述除法以分量方式進行。然而,如果等式(20)中的交叉功率譜被變換回時域,則所得交叉相關(guān)包含混疊部分。而且,在等式(7)中僅需要前L個交叉相關(guān)以計算自然梯度。因此,僅前L個交叉相關(guān)必須被提取出來。這是在步驟309通過在時域中應(yīng)用適當?shù)臅r域約束來執(zhí)行的,如下P~yiuj(f,b)=FPL,0F-1P‾yiuj(f,b)---(21)]]>其中,F(xiàn)-1是N×N反DFT矩陣,PL,0是N×N投影矩陣,其保留了前L個抽樣并將其余(N-L)個抽樣設(shè)為0,定義為P(L,0)=IL000N-L---(22)]]>在步驟310,所述自然梯度利用不完整約束(nonholonomic constraints)計算如下P^yiuj(f,b)=1‾-P~yiuj(f,b),for,i=j-P~yiuj(f,b),for,i≠j---(23a)]]> 其中1=[1,…,1]T。所述的不完整性表示分離不響應(yīng)于信號功率,而僅響應(yīng)于信號之間統(tǒng)計的依賴。
注意,由于對角線分量 平均為1,因此等式(23a)中的 接近于不完整。然后,通過將對角線分量設(shè)0可以獲得嚴格的不完整P^yiuj(f,b)=0---(24)]]>
通常,雖然獲知分離濾波器的所有分量,但可以不必獲知所有的對角線分量,從而對角線分量被吸收到非對角線分量中。這在本發(fā)明中通過將梯度的對角線分量設(shè)為0就可以輕易實現(xiàn),如下Δwii(f,b)=0 (25)如果等式(24)和(25)結(jié)合到一起,可以減少運算。注意,對于特定情況m=n=2,等式(21)中的時域約束是不必要的并且計算負擔大幅降低。這種修改的靈活性是本發(fā)明的一個優(yōu)點。
在步驟311,分離濾波器作如下更新wij(f,b+1)=wij(f,b)+μΔwij(f,b)(26)在步驟312,分離濾波器在頻域中被歸一化以具有單位標準(unit norm)。具有單位標準的分離濾波器在重復(fù)(iteration)期間保留信號功率。
在步驟313,終止條件由是否應(yīng)該終止分離過程來決定。
在步驟314,收斂的分離濾波器用于對混合信號進行濾波以獲取分離信號。步驟302中的等式(11)也可以在該步驟中使用。
雖然這里對結(jié)合本發(fā)明教導(dǎo)的各種實施方式進行了展示和描述,但本領(lǐng)域技術(shù)人員可以很容易地設(shè)計出其他各種實施方式而仍然結(jié)合了這些教導(dǎo)。因此,可以在不脫離本發(fā)明范圍和實質(zhì)的情況下做出實施例的各種選擇、修改、置換以及變化。
工業(yè)適用性本發(fā)明在作為用于對不同源的信號進行去卷積和分離的信號預(yù)處理器系統(tǒng)的語音識別系統(tǒng)中發(fā)現(xiàn)了應(yīng)用,從而語音識別處理器可以對各種沒有干擾噪聲源的語音信號做出響應(yīng)。
權(quán)利要求
1.一種將混合信號分離成分量信號的方法,該方法包括步驟(a)從所述混合信號中產(chǎn)生當前幀(302);(b)將所述當前幀分離成當前幀的分量信號(303);(c)利用非線性方程將所述分量信號變換成非線性變換后的信號(304);(d)計算所述分量信號和(c)中的所述非線性變換后的信號的無混疊歸一化交叉功率譜(305);(e)利用所述交叉功率譜計算自然梯度(310);(f)利用所述自然梯度更新分離濾波器系數(shù)(311);(g)對所述分離濾波器系數(shù)進行歸一化(312);(h)判斷收斂條件并重復(fù)(a)至(g)直到收斂(313);(i)收斂后利用所述分離濾波器系數(shù)將所述混合信號分離為分量信號。
2.根據(jù)權(quán)利要求1所述的方法,其中步驟(b)進一步包括子步驟(b1)將所述混合幀和所述分離濾波器系數(shù)變換為頻域;(b2)在頻域中計算分量信號,并將所述分量信號變換回時域;和(b3)將所述分量信號的前L個抽樣設(shè)為0,從而產(chǎn)生分量信號。
3.根據(jù)權(quán)利要求1所述的方法,其中步驟(d)包括子步驟(d1)將所述分量信號和所述非線性變換后的信號變換為頻域;(d2)在頻域中利用所述分量信號和所述非線性變換后的信號計算交叉功率譜(306);(d3)計算所述分量信號的功率譜和非線性變換后的信號的功率譜(307);(d4)計算歸一化交叉功率譜(308);和(d5)將所述歸一化交叉功率譜變換回時域;并應(yīng)用用于僅保留前L個抽樣的時域約束(309)。
4.根據(jù)權(quán)利要求1所述的方法,其中步驟(e)包括子步驟(e1)將不完整約束應(yīng)用到所述無混疊歸一化交叉功率譜;和(e2)利用所述分離濾波器系數(shù)和所述不完整約束的交叉功率譜計算自然梯度。
5.一種根據(jù)權(quán)利要求1-4的設(shè)備,用于利用頻域歸一化多通道盲去卷積方法將多個混合信號分離成多個分量信號。
6.
7.一種根據(jù)權(quán)利要求1-4的計算機可讀存儲介質(zhì),該計算機可讀存儲介質(zhì)包括程序,當在通用目的計算機系統(tǒng)上執(zhí)行該程序時,使所述通用目的計算機系統(tǒng)成為特定目的計算機系統(tǒng),該特定目的計算機系統(tǒng)能夠利用頻域歸一化多通道盲去卷積方法將多個混合信號分離成多個分量信號。
全文摘要
一種利用頻域歸一化多通道盲去卷積執(zhí)行盲源分離方法和設(shè)備。多通道混合信號為N個抽樣的幀,包括r個連續(xù)的具有M個抽樣的塊。該混合信號的幀在頻域中利用DFT以重疊保留的方式采用分離濾波器進行分離。該分離信號利用反DFT轉(zhuǎn)換回時域并施加非線性方程。計算分離信號和非線性變換后的信號之間的交叉功率譜并由分離信號和非線性變換后的信號的功率譜進行歸一化以具有平整頻譜。施加時域約束以保留前L個交叉相關(guān)。這些無混疊歸一化交叉功率譜由不完整約束所限制。通過將無混疊歸一化交叉功率譜與分離濾波器進行卷積計算自然梯度。當分離濾波器長度限制為L,分離濾波器利用自然梯度更新并歸一化為具有單位標準。終止條件為檢查分離濾波器是否收斂。
文檔編號G06K9/62GK1914683SQ200580003157
公開日2007年2月14日 申請日期2005年2月26日 優(yōu)先權(quán)日2004年2月26日
發(fā)明者南承鉉 申請人:南承鉉