專利名稱:一種采用后置濾波器的多通道語音增強(qiáng)方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計算機(jī)語音信號處理領(lǐng)域,更具體地說,本發(fā)明涉及一種采用后置濾波器的多通道語音增強(qiáng)方法背景技術(shù)語音增強(qiáng)是一種信號的選擇性處理技術(shù),主要解決從受到不同方式污染的語音信號中,提取出盡可能純凈的目標(biāo)語音信號的問題。語音增強(qiáng)的一個目的是改善語音信號的聽感,提高可懂度,用于通信、助聽、偵聽、視聽會議等領(lǐng)域。另外隨著語音識別技術(shù)的發(fā)展,在安靜環(huán)境下可以達(dá)到很高的識別率,但在噪聲環(huán)境下識別率的退化較為嚴(yán)重。因此語音增強(qiáng)作為語音識別前端處理的一種手段,是當(dāng)前國際上一個十分活躍的重要研究方向。
按照拾取語音信號的話筒數(shù)目,語音增強(qiáng)分為單通道和多通道兩種類型。單通道語音增強(qiáng)系統(tǒng)只需要一個話筒,硬件資源要求低,算法復(fù)雜性較小,但是消噪性能有限。多通道語音增強(qiáng)系統(tǒng)使用話筒陣列,多通道信號包含了豐富的空間信息和時間信息,具有更大的性能提升空間。因此從上世紀(jì)九十年來以來,話筒陣列語音增強(qiáng)一直是人們的一個研究熱點(diǎn)。
采用話筒陣列的多通道語音增強(qiáng)方法的典型工作流程可總結(jié)如下1)首先利用時間延遲估計算法(如廣義互相關(guān)函數(shù),自適應(yīng)時延估計算法等)得到語音信號在各通道間的時間延遲,準(zhǔn)確地估計出信號時延是多通道語音增強(qiáng)的基礎(chǔ)。
2)然后通過時延補(bǔ)償,把各通道信號在時域?qū)R。
3)用波束形成器將各通道的信號進(jìn)行波束形成。
4)用一后置濾波器(即維納濾波器)對波束形成器的輸出波束進(jìn)行濾波,實(shí)現(xiàn)語音的增強(qiáng)。
其中,在前述步驟(4)中,為了對波束形成器的輸出波束進(jìn)行濾波,需要得到維納濾波器的頻響函數(shù)。
首先將去除時間延遲之前的話筒信號xi(t)和xj(t)建模為聲源s(t)和加性噪聲n(t)的組合xi(t)=s(t-τi)+ni(t) (1)xj(t)=s(t-τj)+nj(t) (2)其中,i和j為話筒/通道的編號τi,τj是聲源到話筒的傳播時間(即時間延遲)。維納濾波器頻響函數(shù)的形式為H(f)=φss(f)φxx(f)----(3)]]>其中φss(f)是理想的純凈語音信號s(t)的自功率譜,φxx(f)是帶噪信號(s(t)+n(t))的自功率譜。帶噪信號的自功率譜可以通過測量話筒信號而直接計算得到,但是純凈語音信號的自功率譜無法被先驗(yàn)地得到,特別是語音信號又是非平穩(wěn)信號,其功率譜是不斷變化的。因此維納濾波器的關(guān)鍵是盡可能準(zhǔn)確地得到各通道中帶噪語音信號中的純凈語音信號的功率譜,并根據(jù)該功率譜獲得維納濾波器頻響函數(shù)。Zelinski利用多通道信息較好的解決了這個問題,他首先假設(shè)1、信號和背景噪聲是不相關(guān)的。
2、各通道錄到的噪聲之間也是不相關(guān)的。
3、各個通道錄到的噪聲功率譜是相同的。
這樣,在忽略信號與背景噪聲的相關(guān)以及噪聲之間的互相關(guān)之后,得到φxixj(f)=φss(f)----(4)]]>其中φxixj(f)是帶噪信號xi和xj的互功率譜。把公式(4)代入公式(3)就得到維納濾波器頻響函數(shù)。通過對所有可能的話筒組合的譜密度計算平均,可以得到更準(zhǔn)確的估計結(jié)果H^(f)=E[R{Σi=0N-2Σj=i+1N-1φ^xixj}]E[Σi=0N-1φxixj]-----(5)]]>其中N表示通道/話筒數(shù)目,操作符R{.}是取復(fù)數(shù)的實(shí)部,因?yàn)樾盘栕怨β首V必須是實(shí)數(shù)。
但是這種方法由于是基于各通道錄到的噪聲之間也是不相關(guān)這一假設(shè)的,但是該各通道噪聲的互相關(guān)只有在高頻的情況下才能被基本忽略,而在低頻情況下,各通道噪聲的互相關(guān)較為明顯,并不能被忽略,所以該方法不能夠?qū)嵱?。因此就需要一種適用于低頻情況下的算法處理。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有的多通道語音增強(qiáng)方法只適合于高頻這一缺點(diǎn),通過考慮通道間噪聲信號的互相關(guān),提供一種采用后置濾波器的多通道語音增強(qiáng)方法。
為了實(shí)現(xiàn)本發(fā)明的目的,本發(fā)明提供了一種采用后置濾波器的語音增強(qiáng)方法,用于多通道語音信號的增強(qiáng),包括如下步驟1)計算語音信號在各通道的時間延遲。
2)通過時延補(bǔ)償,將各通道信號在時域?qū)R。
3)用波束形成器將各通道的信號進(jìn)行波束形成。
4)估計純凈語音信號的自功率譜和帶噪信號自功率譜,得到維納濾波器的頻響函數(shù)。
其中,純凈語音信號的自功率譜通過如下步驟得到a)在所有的語音通道中任選兩個通道作為一個組合;b)估計所述通道組合中兩個通道間的帶噪信號互功率譜和噪聲互功率譜;c)在所述通道間的帶噪信號互功率譜估計中去除噪聲互功率譜估計得到通道間的純凈語音信號自功率譜估計;d)將a)中所有可能的通道組合均進(jìn)行b)和c)的操作,然后將所有得到的通道間的純凈語音信號自功率譜估計作平均,將該平均結(jié)果作為步驟4)中的純凈語音信號的自功率譜估計。
其中,帶噪信號自功率譜是所有通道的帶噪信號自功率譜的平均結(jié)果。
5)用后置的所述維納濾波器對波束形成器的輸出波束進(jìn)行濾波,實(shí)現(xiàn)語音的增強(qiáng)。
所述多通道語音信號至少包括兩個通道語音信號。
為了減少運(yùn)算量,該語音增強(qiáng)方法可只用于增強(qiáng)語音信號的低頻部分;而語音信號的高頻部分仍使用現(xiàn)有的語音增強(qiáng)方法,例如Zelinski算法。
由于本發(fā)明在獲得純凈語音信號的自功率譜時考慮到了各通道噪聲之間的相關(guān)性,這更符合實(shí)際情況,尤其在低頻段可以有效地去除噪聲,提高了語音增強(qiáng)的效果。
圖1是采用語音增強(qiáng)方法對一段帶噪語音的增強(qiáng)實(shí)例;其中(a)是原始的帶噪語音,(b)是采用Zelinski后濾波的語音增強(qiáng)處理結(jié)果,圖(c)是采用本發(fā)明的方法獲得的語音增強(qiáng)處理結(jié)果。
具體實(shí)施例方式
下面結(jié)合附圖和具體實(shí)施方式
對本發(fā)明作進(jìn)一步詳細(xì)描述。
對公式(1)和(2)所給出的信號模型xi(t)和xj(t)去掉時間延遲τi、τj之后再作傅立葉變換,得到X^i(f)=S(f)+Ni(f)ej2πWfτi-----(6)]]>X^j(f)=S(f)+Nj(f)ej2Wfτi------(7)]]>式中 和 是時間延遲去掉后xi(t+τi)和xj(t+τj)的傅立葉變換,(^)表示已經(jīng)消除信號延遲;S(f)是純凈信號傅立葉變換;Ni(f)和Nj(f)是噪聲的傅立葉變換;W是幀長。由公式(6),(7)得到帶噪信號的互功率譜φ^xixj(f)=φss(f)+φ^ninj(f)------(8)]]>其中φ^ninj(f)=φninj(f)ej2πWfτij----(9)]]>式中 是帶噪信號xi(t+τi)和xj(t+τj)的互功率譜,φss(f)是純凈信號的自功率譜,φninj(f)和 分別是延遲去掉前、后的噪聲互功率譜。τij=τi-τj是兩通道i和j信號之間的時間延遲。
從公式(8)不難看出,為了得到純凈信號的自功率譜φss(f),首先要估計出式中噪聲互功率譜部分,而在現(xiàn)有技術(shù)中,噪聲互功率譜部分是被忽略掉的。公式(9)表明噪聲互功率譜 隨著時延τij的改變而變化的,這也是簡單的延遲相加和維納濾波算法不能處理移動聲源的原因。根據(jù)以上分析,噪聲互功率譜可通過下式得到
φ^ninj′(f)=φninj′(f)ej2πWfτij-----(10)]]>式中 是延遲消除后噪聲互功率譜估計,φ′ninj(f)是原始噪聲互功率譜估計,它可在語音間隙獲得。(·)′表示信號估計值。根據(jù)公式(8),(10)得到純凈信號功率譜估計φss′(f)=φ^xixj(f)-φninj′(f)ej2πWfτij------(11)]]>同時還可通過帶噪信號自功率譜的計算估計φ′ss(f)。由公式(1)推出φxixj(f)=φss(f)+φninj(f)-----(12)]]>因此得到φss′(f)=φxixj(f)-φninj′(f)-------(13)]]>式中φ′ninj(f)是噪聲功率譜估計。根據(jù)公式(11)、(13)把所有話筒組合求得的φ′ss(f)作平均以改善純凈信號自功率譜的估計,得到維納濾波器的估計H^=R{E[Σi=0N-1(φxixj-φninj′)+Σi=0N-1Σj=i+1N-1(φ^xixj(f)-φ^ninj′(f)ej2πWfτij)]}R{E[Σi=1Nφxixj]}----(14)]]>R{.}表示取復(fù)數(shù)的實(shí)部。由于信號功率譜φss(f)只可能是正實(shí)數(shù),所以還要對其作半波整型,去除可能出現(xiàn)的負(fù)數(shù)。
具體實(shí)現(xiàn)中,功率譜都通過如下迭帶公式進(jìn)行更新φxixj(k+1,f)=αφxixj(k,f)+(1-α)Xi(f)Xj*(f)0<α≤1------(15)]]>式中X表示信號或噪聲;φxixj(k+1,f)表示第k+1幀功率譜估計,φxixj(k,f)是第k幀功率譜估計。X(f)是信號x(k)的傅利葉變換,α是0到1之間的數(shù),反映了功率譜更新快慢。
各通道噪聲的互相關(guān)僅在低頻部分較為明顯,在高頻部分可以基本忽略。因此為了合理降低運(yùn)算量,可以把信號1kHz以下的低頻部分用公式(14)濾波,而高頻部分仍然用Zelinski的算法處理,如公式(5)所示。
圖(1)是一段含噪語音處理結(jié)果,其中(a)是原始的帶噪語音,(b)是采用Zelinski后濾波的語音增強(qiáng)處理結(jié)果,圖(c)是采用本發(fā)明的方法獲得的語音增強(qiáng)處理結(jié)果。從圖中可以看出,Zelinski后濾波算法不能有效去除其中包含的低頻噪聲,而這部分噪聲在1kHz以內(nèi),所以還無法用高通濾波去除;本發(fā)明的方法則基本去除了低頻噪聲。
權(quán)利要求
1.一種采用后置濾波器的語音增強(qiáng)方法,用于多通道語音信號的增強(qiáng),包括如下步驟1)計算語音信號在各通道的時間延遲;2)通過時延補(bǔ)償,將各通道信號在時域?qū)R;3)用波束形成器將各通道的信號進(jìn)行波束形成;4)估計純凈語音信號的自功率譜和帶噪信號自功率譜,得到維納濾波器的頻響函數(shù);5)用后置的所述維納濾波器對波束形成器的輸出波束進(jìn)行濾波,實(shí)現(xiàn)語音的增強(qiáng);其特征在于,步驟4)中,純凈語音信號的自功率譜通過如下步驟得到a)在所有的語音通道中任選兩個通道作為一個組合;b)估計所述通道組合中兩個通道間的帶噪信號互功率譜和噪聲互功率譜;c)在所述通道間的帶噪信號互功率譜估計中去除噪聲互功率譜估計得到通道間的純凈語音信號自功率譜估計;d)將a)中所有可能的通道組合均進(jìn)行b)和c)的操作,然后將所有得到的通道間的純凈語音信號自功率譜估計作平均,將該平均結(jié)果作為步驟4)中的純凈語音信號的自功率譜估計。
2.根據(jù)權(quán)利要求1所述的采用后置濾波器的語音增強(qiáng)方法,其特征在于,步驟4)中所述的帶噪信號自功率譜是所有通道的帶噪信號自功率譜的平均結(jié)果。
3.根據(jù)權(quán)利要求1或2所述的采用后置濾波器的語音增強(qiáng)方法,其特征在于,該語音增強(qiáng)方法只用于增強(qiáng)語音信號的低頻部分。
4.根據(jù)權(quán)利要求1所述的采用后置濾波器的語音增強(qiáng)方法,其特征在于,所述多通道語音信號至少包括兩個通道語音信號。
全文摘要
本發(fā)明公開了一種采用后置濾波器的語音增強(qiáng)方法,用于多通道語音信號的增強(qiáng),包括步驟1)計算語音信號在各通道間的時間延遲;2)通過時延補(bǔ)償,將各通道信號在時域?qū)R;3)用波束形成器將各通道的信號進(jìn)行波束形成;4)估計純凈語音信號的自功率譜和帶噪信號自功率譜,得到維納濾波器的頻響函數(shù);其中,在帶噪信號互功率譜估計中去除噪聲互功率譜估計得到純凈信號的自功率譜估計;5)用后置的所述維納濾波器對波束形成器的輸出波束進(jìn)行濾波,實(shí)現(xiàn)語音的增強(qiáng)。由于本發(fā)明考慮到了各通道噪聲之間的相關(guān)性,這更符合實(shí)際情況,尤其在低頻段可以有效地去除噪聲,提高了語音增強(qiáng)的效果。
文檔編號G10L21/02GK1523573SQ0315707
公開日2004年8月25日 申請日期2003年9月12日 優(yōu)先權(quán)日2003年9月12日
發(fā)明者杜利民, 閻兆立 申請人:中國科學(xué)院聲學(xué)研究所