欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

噪聲抑制器的制作方法

文檔序號:2829331閱讀:543來源:國知局
專利名稱:噪聲抑制器的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及噪聲抑制,以及具體地(但不唯一地)涉及對移動終端獲取的語音信號中的噪聲抑制。
當(dāng)通信終端被使用來記錄或發(fā)送包含語言的語音信號時,不可避免的是,通信終端中的話筒將從講話人所位于的周圍環(huán)境中拾取環(huán)境噪聲或背景噪聲。背景噪聲降低收聽者聽見和理解語音的能力,以及在某些情形下,如果噪聲電平足夠高,它將阻止收聽者聽見除了背景噪聲以外的任何其它聲音。另外,這樣的背景噪聲對于通信終端中或相關(guān)的通信網(wǎng)絡(luò)中的數(shù)字信號處理系統(tǒng)(諸如語音編碼或語音識別)的性能可能具有負(fù)面影響。典型地,在通信終端中引入噪聲抑制系統(tǒng)來限制背景噪聲的影響。
多年來,噪聲抑制是熟知的。已經(jīng)提出了許多不同的方法來達(dá)到三個主要目的(i)抑制噪聲而同時保留良好的語音質(zhì)量;(ii)與處理的噪聲性質(zhì)無關(guān)地快速收斂到最優(yōu)解決方案;以及(iii)改進(jìn)對于非常低的語音-噪聲比(SNR)時語音的可理解度。
一種基于線性最小平均平方誤差(MMSE)準(zhǔn)則的噪聲抑制方法將參照

圖1進(jìn)行描述。該方法作用在包含語音信號s(t)和噪聲信號n(t)的帶有噪聲的語音信號x(t)上,x(t)=s(t)+n(t)。帶有噪聲的語音信號x(t)是在時域中的。通過使用窗函數(shù),把它變換成具有接連的幀號碼k的一系列幀。然后,在方塊10中,通過使用快速富立葉變換(FFT)把每個幀變換到頻域,以便產(chǎn)生一系列帶有噪聲的語音幀,其中在頻域中帶有噪聲的語音信號X(f,k)包含語音信號S(f,k)和噪聲信號N(f,k),這樣,X(f,k)=S(f,k)+N(f,k)。在頻域中的幀包括多個頻率倉(frequency bin)f。在頻域中,MMSE方法包括使得以下的誤差函數(shù)最小化ε2(f,k)=E{(S(f,k)-(f,k))·(S(f,k)-(f,k)*}(1)
其中E{·}是預(yù)期算子,(*)表示復(fù)數(shù)共軛,以及(f,k)代表輸入語音信號的線性估值。誤差ε2(f,k),由公式1定義,代表在被包含在帶有噪聲的語音信號內(nèi)的真正的語音分量與該語音分量的估值(f,k)(即,無噪聲的語音分量)之間差值的平方。因此,使得ε2(f,k)最小化,就等價于得到語音分量的最好的可能的估值。(f,k)被給出為(f,k)=G(f,k)·X(f,k) (2)其中G(f,k)是增益系數(shù)。對于使得每個幀的ε2(f,k)最小化的相應(yīng)的解,可以采取計算增益系數(shù)G(f,k)的形式,把G(f,k)與該幀的相關(guān)的輸入頻率倉相乘,以便產(chǎn)生估值的無噪聲語音分量(f,k)。這個增益系數(shù)(被稱為頻域Wiener(維納)濾波器)由以下的比值給出G(f,k)=E{S(f,k)·X*(f,k)}E{X(f,k)·X*(f,k)}---(3)]]>Wiener濾波器G(f,k)是對于每個幀的每個頻率倉f生成的。
噪聲被抑制的幀然后在方塊14中被變換回時域,然后被組合在一起,以便給出噪聲被抑制的語音信號(t)。理想地,(t)=s(t)。
當(dāng)導(dǎo)出Wiener濾波器時,MMSE方法等價于正交性原理。這個原理規(guī)定對于每個頻率,輸入信號X(f,k)正交于誤差S(f,k)-(f,k)。這意味著E{(S(f,k)-(f,k))·X*(f,k)}=0 (4)因為估值處理是線性的,通過估值帶有噪聲的信號(它包含信號分量和噪聲分量)的信號分量,噪聲的估值 (f,k)也被有效地得到。而且,以下的正交性關(guān)系也將是正確的E{(N(f,k)-N^(f,k))·X*(f,k)}=0---(5)]]>
其中 (f,k)表示噪聲估值。由此也得出,對于每個頻率,有以下的等式S(f,k)-S^(f,k)=N^(f,k)-N(f,k)---(6)]]>也就是,與噪聲分量的估值 (f,k)有關(guān)的誤差是和與估值的無噪聲語音分量(f,k)有關(guān)的誤差相同的。
在本文件的其余部分,采用以下的表示法PUV(f,k)是在U(f,k)和V(f,k)之間的交叉功率譜密度(PUV(f,k)=E{U(f,k)·V*(f,k)})。PUU(f,k)是U(f,k) 的功率譜密度(psd),(PUU(f,k)=E{U(f,k)·U*(f,k)})。
由于上述的正交性原理的結(jié)果,有可能得出對于交叉psd PSX(f,k)的表示式,它是對于計算由公式3描述的Wiener濾波器所需要的PSX(f,k)=E{(X(f,k)-N^(f,k))·X*(f,k)}---(7)]]>而且,交叉psd PNX(f,k)被給出為PNX(f,k)=E{(X(f,k)-(f,k))·X*(f,k)}(8)在記住明顯的等式PXX(f,k)=PSX(f,k)+PNX(f,k)后,公式3,6,7和8引出和顯示自適應(yīng)計算的概念,因為公式3中的Wiener濾波器(PSX(f,k)/PXX(f,k))取決于估值的信號(f,k)(6,7)和(8)。
當(dāng)?shù)玫阶钚≈禃r,描述公式2中的誤差的表示式取以下的形式ϵmin2(f,k)=PSS(f,k)·PXX(f,k)-|PSX(f,k)|2PXX(f,k)---(9)]]>顯然,最小誤差(即εmin2(f,k))只有在想要的信號S(f,k)完全與輸入信號X(f,k)相干時才等于零(即,PNN(f,k)趨近于零)。這是希望的。否則,當(dāng)應(yīng)用Wiener濾波器時有一個誤差。這個誤差的上限是PSS(f,k)。這是不希望的。換句話說,無誤差結(jié)果只有在輸入信號X(f,k)中實際上無噪聲時才得到。對于任何有限的噪聲電平,得到有限的誤差。由此得出,當(dāng)在X(f,k)中沒有語音信號S(f,k)時出現(xiàn)最壞情形的誤差。
按照本發(fā)明的第一方面,提供一種在包含噪聲的信號中抑制噪聲以便提供噪聲被抑制的信號的方法,其中對噪聲作出估值,以及對語音連同某些噪聲一起作出估值。
優(yōu)選地,所述信號包括語音。
優(yōu)選地,在語音連同某些噪聲一起的估值中包括的噪聲電平是可變的,以便把想要的噪聲量包括在噪聲被抑制的信號中。
噪聲電平提供可接受的前后關(guān)系信息(contexti nformation)。
優(yōu)選地,噪聲電平低于語音的掩蔽極限,因此對于收聽者是聽不見的。替換地,噪聲電平接近于語音的掩蔽極限,因此某些噪聲前后關(guān)系信息被保留在信號中。
優(yōu)選地,如果信號噪聲比足夠高,以使得噪聲電平已提供可接受的前后關(guān)系信息電平或已低于掩蔽極限,則本方法并不抑制噪聲。
優(yōu)選地,估值的噪聲是功率譜密度。
按照本發(fā)明的第二方面,提供一種生成用于噪聲抑制的增益系數(shù)的方法,其中增益系數(shù)的第一估值自適應(yīng)地產(chǎn)生,以及這個第一估值被使用來生成噪聲估值,然后使用該噪聲估值來生成增益函數(shù)的第二估值。
在這個方面,本發(fā)明提供了重要的優(yōu)點(diǎn)。它有效地消除在按照本發(fā)明實施的噪聲抑制器中對于話音活動性檢測器(VAD)的需要。VAD基本上是一個能量檢測器。它接收帶有噪聲的信號,把已濾波的信號的能量與預(yù)定的門限值進(jìn)行比較,以及當(dāng)門限值被超過時它表示在接收信號中存在語音。在許多語音編碼/譯碼系統(tǒng)中,特別是在移動電信領(lǐng)域,VAD的運(yùn)行可以改變處理語音信號中的背景噪聲的方式。具體地,在沒有檢測到語音的時間間隔期間內(nèi),可以切斷傳輸,以及在接收端生成所謂“悅耳的噪聲”。因此,這種間斷發(fā)送和話音活動性檢測方案的使用使得噪聲抑制的使用復(fù)雜化,導(dǎo)致不想要的效果。因此,消除對于話音活動檢測器的需要和創(chuàng)建自動地適應(yīng)于噪聲條件改變的噪聲抑制方案是高度希望的。因為本發(fā)明引入了一種其中獲得語音和背景噪聲的估值的噪聲抑制方法,所以它實際上不需要判決輸入信號究竟包含語音和噪聲還是只包含噪聲。結(jié)果,VAD功能成為冗余的。
優(yōu)選地,第一估值被使用來更新估值的噪聲。
按照本發(fā)明的另一個方面,提供了按照本發(fā)明的第一方面運(yùn)行的噪聲抑制器、按照本發(fā)明的第二方面運(yùn)行的噪聲抑制器、按照本發(fā)明的第一和第二方面運(yùn)行的噪聲抑制器、包括按照本發(fā)明的第一和/或第二方面的噪聲抑制器的無線終端、以及包括按照本發(fā)明的第一和/或第二方面的噪聲抑制器的通信網(wǎng)。
優(yōu)選地,通信終端是移動的。替換地,本發(fā)明可以在網(wǎng)絡(luò)或固定的通信終端中使用。
按照本發(fā)明的另一個方面,提供了計算Wiener濾波器的方法,其中對語音和背景噪聲作出估值,以及噪聲遠(yuǎn)低于語音,以使得它整個地或部分地被掩蓋成低于用戶可聽見的電平或可被覺察到。
優(yōu)選地,該方法被用于頻域中的噪聲抑制。本方法可包括計算要被使用于噪聲減小系統(tǒng)的Wiener濾波器的分子和分母。本說明書描述的噪聲抑制系統(tǒng)特別適合于應(yīng)用在包含單個傳感器(例如話筒)的系統(tǒng)中。
優(yōu)選地,濾波器是Wiener濾波器。優(yōu)選地,它建立在包括語音和噪聲的組合的周期曲線圖的估值的基礎(chǔ)上。優(yōu)選地,本方法涉及連續(xù)更新噪聲psd。
現(xiàn)在將參照附圖僅僅作為例子來描述本發(fā)明的實施例,其中圖1顯示按照本發(fā)明的移動終端;圖2顯示按照本發(fā)明的噪聲抑制器;圖3顯示人的聽覺系統(tǒng)的依賴于頻率和聲級的掩蔽效果;圖4顯示按照本發(fā)明的算法的方框圖;以及圖5顯示按照本發(fā)明的算法的功能性方框圖。
在下面,符號P總的代表功率。在帶撇的場合,即P′,它代表周期曲線;在不帶撇的場合,即P,它代表功率譜密度(psd)。按照它們總的可接受的意義,術(shù)語“周期曲線”被使用來表示在短的時間間隔上計算的平均值,以及術(shù)語功率譜密度被使用來代表較長的時段的平均。
現(xiàn)在參照圖1描述包括按照本發(fā)明的教導(dǎo)的噪聲抑制器20的移動終端10的實施例。圖1相應(yīng)于按照現(xiàn)有技術(shù)的移動終端的安排,雖然這樣的現(xiàn)有技術(shù)終端包括傳統(tǒng)的現(xiàn)有技術(shù)噪聲抑制器。移動終端和與其通信的無線通信系統(tǒng)按照全球移動電信系統(tǒng)(GSM)標(biāo)準(zhǔn)運(yùn)行。
移動終端10包括發(fā)送(語音編碼)支路12和接收(語音譯碼)支路14。在發(fā)送(語音編碼)支路12,語音信號由話筒16拾取和由模擬-數(shù)字(A/D)變換器18采樣,以及在噪聲抑制器20中被進(jìn)行噪聲抑制,以便產(chǎn)生增強(qiáng)的信號。這需要估值背景噪聲的頻譜,以使得在采樣的信號中的背景噪聲可被抑制。典型的噪聲抑制器在頻域中運(yùn)行。時域信號首先被變換成頻域,這可以通過使用快速富立葉變換(FFT)有效地實現(xiàn)。在頻域中,把話音活動性與背景噪聲區(qū)分開,當(dāng)沒有話音活動性時,背景噪聲的頻譜被估值。然后,根據(jù)當(dāng)前輸入信號的頻譜和背景噪聲估值來計算噪聲抑制增益系數(shù)。最后,通過使用逆FFT(IFFT)把信號變換回時域。
增強(qiáng)的(噪聲被抑制的)信號被語音編碼器22編碼,以便提取一組語音參量,后者然后在信道編碼器24中被編碼,其中把冗余性添加到編碼的語音信號中,以便提供某種程度的錯誤防護(hù)。最終得到的信號然后被上變頻成射頻(RF)信號,以及由發(fā)射/接收單元26發(fā)送。發(fā)射/接收單元26包括被連接到天線的雙工濾波器(未示出),以使得能夠進(jìn)行發(fā)送和接收。
在已公布的文件WO 97/22116中描述了適合于在圖1的移動終端中使用的噪聲抑制器。
為了延長電池壽命,在移動電信系統(tǒng)中典型地應(yīng)用不同種類的、依賴于輸入信號的低功率運(yùn)行模式。這些安排通常被稱為間斷發(fā)送(DTX)。DTX的基本思想是在非語音時間間隔內(nèi)斷開語音編碼/譯碼過程。典型地,產(chǎn)生某種悅耳的噪聲信號,它仿造在發(fā)射端處的背景噪聲,以作為對于實際的背景噪聲的替代。
語音編碼器22被連接到發(fā)送(TX)DTX處理器28。TX DTX處理器28從話音活動性檢測器(VAD)30接收一個輸入,它表示在作為噪聲抑制器塊20的輸出而被提供的噪聲抑制信號中是否有話音分量。如果在信號中檢測到語音,則它的發(fā)送繼續(xù)進(jìn)行。如果沒有檢測到語音,則噪聲抑制的信號的發(fā)送被停止,直至檢測到語音為止。
在移動終端的接收(語音譯碼)支路14,RF信號被發(fā)射/接收單元26接收,以及從RF被下變頻到基帶信號?;鶐盘柋恍诺雷g碼器32進(jìn)行信道譯碼。如果信道譯碼器在已信道譯碼的信號中檢測到語音,則信號被語音譯碼器34進(jìn)行語音譯碼。
移動終端也包括壞幀處理單元38以便來處理壞的(即弄亂的)幀。
由語音譯碼器產(chǎn)生的信號,不管是譯碼的語音、悅耳的噪聲還是重復(fù)的和衰減的幀,都將由數(shù)字模擬變換器40從數(shù)字形式變換成模擬形式,然后通過揚(yáng)聲器或耳機(jī)42播放給收聽者。
圖2上顯示噪聲抑制器20的進(jìn)一步的細(xì)節(jié)。它包括快速富立葉變換、增益系數(shù)或Wiener濾波器計算塊、以及逆快速富立葉變換。噪聲抑制是通過把幀與增益系數(shù)/Wiener濾波器相乘而在頻域上執(zhí)行的。
現(xiàn)在描述噪聲抑制器20的運(yùn)行。按照本發(fā)明,不是試圖去估值在帶有噪聲的語音信號中的“真正的”語音分量S(f,k),而是使用Wiener濾波器按照關(guān)系式S(f,k)+ξ.N(f,k)來估值語音與一定量的噪聲的組合。這樣建立的、修正的Wiener濾波器取以下形式G(f,k)=P(S+ξ·N)X(f,k)PXX(f,k)]]>=PSX(f,k)+ξ·PNX(f,k)PSX(f,k)+PNX(f,k)---(10)]]>假設(shè)語音和噪聲分量是不相關(guān)的(也就是,在語音與噪聲分量之間的交叉的psd必須等于零,PSN(f,k)=0),公式10可被重新表示為以下形式G(f,k)=PSS(f,k)+ξ·PNN(f,k)PSS(f,k)+PNN(f,k)---(11)]]>下面說明因子ξ的作用。
如前所述,估值語音與一定量的噪聲的組合的主要優(yōu)點(diǎn)在于,應(yīng)當(dāng)具有較小的、與估值有關(guān)的誤差。這個好處結(jié)合下面給出的公式12可變得更明顯,這個公式規(guī)定在這種情形下得到的最小誤差ϵmin2(f,k)=(1-ξ)2·PSS(f,k)·PNN(f,k)PSS(f,k)+PNN(f,k)---(12)]]>現(xiàn)在可以明白,當(dāng)PNN(f,k)趨向于零時,公式12趨向于零,這樣,誤差趨向于零,正如現(xiàn)有技術(shù)的情形那樣。與現(xiàn)有技術(shù)一樣,這是所希望的。然而,因為公式12包括(1-ξ)2的因子,它比起現(xiàn)有技術(shù)的情形更快速地達(dá)到零。另一方面,當(dāng)PNN(f,k)增加時,ε2min趨向于(1一ξ)2·PSS(f,k)。與現(xiàn)有技術(shù)一樣,這是不希望的。然而,按照本發(fā)明的方法給出的誤差總是小于先前所述的現(xiàn)有技術(shù)方法給出的誤差。得出這個優(yōu)點(diǎn)因為相乘因子(1-ξ)2總是用來減小誤差量。而且,通過設(shè)置ξ為適當(dāng)?shù)臄?shù)值,因子(1-ξ)2可被最小化,在這種情形下,誤差被進(jìn)一步最小化。
在本發(fā)明中,已經(jīng)認(rèn)識到ξ的數(shù)值可被確定,以達(dá)到以下的結(jié)果1.給出乘積ξ·PNN(f,k)的數(shù)值,它是被PSS(f,k)“掩蔽的”。雖然計算出了組合的語音和噪聲的估值,但收聽者將只聽見語音,因為乘積ξ·PNN(f,k)低于他的聽覺的可聽見電平。這樣,利用人的聽覺系統(tǒng)的性質(zhì),允許連同被掩蔽的噪聲周期曲線的最大值一起計算語音的周期曲線??梢园颜糜脕磉_(dá)到這個結(jié)果的ξ稱為ξ1。
“掩蔽”效果是人的聽覺系統(tǒng)的一個性質(zhì),這有效地設(shè)置一個取決于頻率和取決于聲級的聽覺下限或門限值。因此,低于掩蔽門限值的任何噪聲或語音分量都不被收聽者覺察(聽見)。通常可接受的是,不管頻率如何,掩蔽門限值比當(dāng)前的輸入電平低約13dB。圖3上顯示了這一點(diǎn)。按照本發(fā)明,為了估值純語音信號(即,當(dāng)嘗試消除所有的背景噪聲時),把純語音信號連同剛好低于掩蔽門限值的那部分噪聲合起來進(jìn)行估值是足夠的。
2.允許自由選擇輸出端處噪聲減小的電平。這可被使用來為遠(yuǎn)端收聽者恢復(fù)信號的近端前后關(guān)系??梢园颜糜脕磉_(dá)到這個結(jié)果的ξ稱為ξ2。這意味著,可以這樣選擇ξ,以使得確保適當(dāng)?shù)脑肼曇种?,但也許可在接收端處在信號中保持一定的噪聲分量,從而使背景噪聲呈現(xiàn)為自然地代表在發(fā)射端的環(huán)境中存在的背景噪聲。換句話說,有可能選擇ξ的數(shù)值,以使得帶有噪聲的語音信號中的噪聲分量由于掩蔽效果而不會完全被消除。
在實際情形中,語音信號是非穩(wěn)態(tài)的,所以需要短期的估值。因此,不是使用psd函數(shù),如公式11所示,而是由周期曲線來代替某些項。噪聲也可能是非穩(wěn)態(tài)的,但通常認(rèn)為是穩(wěn)態(tài)的,所以仍舊可以使用長期估值。因此,想要的Wiener濾波器的形式為G(f,k)=PSS′(f,k)+ξ·PNN′(f,k)PSS′(f,k)+PNN(f,k)---(13)]]>應(yīng)當(dāng)指出,在公式13的分母中也有可能使用背景噪聲功率譜密度項PNN。也應(yīng)當(dāng)看到,當(dāng)在以上的公式13中使用ξ=ξ1時,項P′SS(f,k)+ξ1·P′NN(f,k)代表語音周期曲線和掩蔽的噪聲周期曲線的組合,以及當(dāng)使用ξ=ξ2時,項P′SS(f,k)+ξ2·P′NN(f,k)代表語音周期曲線和許可的噪聲周期曲線的組合。分母P′SS(f,k)+PNN(f,k)分別包括語音周期曲線和噪聲pnd。
對當(dāng)前幀k的Wiener濾波器的計算是如下地根據(jù)先前的幀k-1來進(jìn)行的。噪聲psdPNN(f,k-1)、語音周期曲線P′SS(f,k-1)、和用于先前的幀的時間平均的幀的數(shù)目T(f,k-1)都是已知的。對于當(dāng)前的幀k,輸入語音和噪聲周期曲線的組合|X(f,k)|2也是已知的。如果利用平方根或?qū)?shù)量度,則可以不使用PNN(f,k-1),而使用RNN(f,k-1)或LNN(f,k-1),正如在本說明中后面描述的。
下面使用一種8步驟算法來計算Wiener濾波器。8步驟被顯示于圖4,以及被描述如下步驟1估算語音和噪聲周期曲線的組合P’SS(f,k)這個周期曲線被如下地計算P’SS(f,k)=α·P′SS(f,k-1)+(1-α)·|X(f,k)|2(14)應(yīng)當(dāng)指出,P’SS(f,k)是根據(jù)先前的語音周期曲線P′SS(f,k-1)以及當(dāng)前的帶有噪聲的語音信號量|X(f,k)|2,它是由因子α確定的。α的數(shù)值被選擇為從帶有噪聲的語音信號|X(f,k)|2的當(dāng)前的語音分量|S(f,k)|2中提供最大可能的貢獻(xiàn),但它被限于確保因子(1-α)·|N(f,k)|2(該因子代表將被包括在內(nèi)的當(dāng)前的噪聲信號量)被和值α·P′SS(f,k-1)+(1-α)·|S(f,k)|2掩蔽,該和值代表當(dāng)前的語音周期曲線的估值。所以,應(yīng)當(dāng)看到,對于每個幀k的每個頻率倉f必須重新計算遺忘因子α。也應(yīng)當(dāng)指出,在公式14中提到的因子(1-α)類似于ξ1。
實際上,步驟1是通過使用頻譜相減方法首先估值當(dāng)前的語音周期曲線而實施的,該頻譜相減方法是在“Suppression of AcousticNoise in Speech Using Spectral Subtraction(使用頻譜相減抑制語音中的聲音噪聲)”,IEEE Trans.On Acoustics Speech andSignal Processing,vol.27,No.2,pp.113-120,April 1979中描述的。然后,掩蔽電平被設(shè)置為低于被估值的語音周期曲線值約13dB的數(shù)值。噪聲周期曲線與語音周期曲線相同的方式被估值。α的數(shù)值然后通過使用掩蔽、噪聲周期曲線和輸入周期曲線而被計算。
步驟2 估值語音和噪聲的組合psd PXX(f,k)這個psd代表輸入的總功率,以及被如下地估值P‾XX(f,k)=α·[PSS′(f,k-1)+λαPNN(f,k-1)]+(1-α)·|X(f,k)|2---(15)]]>這個psd組合了短期平均值(對于語音的周期曲線)和長期平均值(對于噪聲的psd)。
步驟3對Wiener濾波器的估值公式11的Wiener濾波器可被重寫為以下的形式G1(f,k)=P‾SS′(f,k)P‾XX(f,k)---(16)]]>因此可以根據(jù)公式14和15的結(jié)果進(jìn)行計算。因為1(f,k)=G1(f,k)·X(f,k),應(yīng)當(dāng)看到,估值的語音(f)包含語音和掩蔽的噪聲部分。增益G1(f,k)的最小值被設(shè)置為(1-α)。
步驟4對噪聲psd PNN(f,k)的更新為了更新噪聲psd,使用在公式8中給出的理論結(jié)果,在必要時,用乘積(1-G1(f,k))·|X(f,k)|2替換乘積(X(f,k)-(f,k))·X*(f,k)??梢允褂靡韵碌娜N方法(i)功率psd估值;(ii)平方根psd估值;以及(iii)對數(shù)psd估值。
在下面描述的所有的方法中,λ代表在0與1之間的遺忘因子。
(i)功率psd估值這個方法使用正交性原理,以及它是基于Welch方法的,Welch方法被描述在“The Use of Fast Fourier Transform for theEstimation of Power SpectraA Method Based on Time AveragingOver Short,Modified Periodograms(用于功率譜估值的快速富立葉變換的使用基于修正的短周期曲線的時間平均的方法)”,IEEETrans.On Audio and Electroacoustics,vol.Au-15,No.2,pp.70-72,June 1967中。它使用按照下式的、被稱為“指數(shù)時間平均”的技術(shù)PNN(f,k)=λ·PNN(f,k-1)+(1-λ)·(1-G1(f,k))·|X(f,k)|2(17)其中G1(f,k)是按照公式16計算的Wiener濾波器。
(ii)平方根psd估值這個方法使用Welch方法的修正形式,以及它是基于幅度平均的 RNN(f,k)代表平均噪聲幅度。
(iii)對數(shù)psd估值這個方法使用對數(shù)域中的時間平均
LNN(f,k)是指對數(shù)功率域中的平均值。γ是歐拉常數(shù),以及具有0.5772156649的數(shù)值。
在上述的三個方法的每個方法中,遺忘因子在更新噪聲時起重要的作用,以及被加以定義以便在噪聲幅度快速地變化時提供良好的psd估值。這是通過把λ與當(dāng)前的輸入周期曲線|X(f,k)|2與先前的幀中的噪聲psd PNN(f,k-1)之間的差值相聯(lián)系而完成的。λ取決于數(shù)值T(f,k),該數(shù)值規(guī)定對于時間平均所使用的幀的數(shù)目,以及被如下地確定 以及λ可以如下地根據(jù)T(f,k)被得出λ=T(f,k)T(f,k)+1---(21)]]>應(yīng)當(dāng)指出,對于每個幀k和每個頻率倉f,必須重新計算遺忘因子。顯然,由于λ是步驟2中所需要的,它必須被計算以使得它對于該步驟是可供使用的。也應(yīng)當(dāng)看到,因為噪聲psd連續(xù)地被更新,這就消除了噪聲抑制器20中對話音活動性檢測器的需求。
步驟5對當(dāng)前的語音周期曲線P′SS(f,k)的估值當(dāng)前的語音周期曲線P′SS(f,k)在算法中起重要的作用。對于當(dāng)前的幀來估值這個P′SS(f,k),以使得它可被使用于下一個幀,也就是在公式14和15中被使用。如下所述,P′SS(f,k)只應(yīng)當(dāng)包含語音,而不應(yīng)當(dāng)包含任何噪聲。
實際上,在步驟3得出語音幅度估值(f,k)后,這個步驟需要P′SS(f,k)的估值,它代表當(dāng)前的語音周期曲線。
廣泛地可被接受的是,P′SS(f,k)可以簡單地用平方估值的語音幅度代替,也就是P′SS(f,k)等于|S(f,k)|2的估值|(f,k)|2。不幸地,良好的估值(f,k)實際上并不意味著對于|S(f,k)|2的良好的估值可以通過只取平方而得出。因此,按照本發(fā)明的方法尋求通過應(yīng)用MMSE準(zhǔn)則得出|S(f,k)|2|的更精確的估值P′SS(f,k)。
通過考查組合的語音和噪聲周期曲線,可以看到Y(jié)(f,k)=|X(f,k)|2=|S(f,k)|2+|N(f,k)|2+S*(f,k)·N(f,k)+S(f,k)·N*(f,k).
因此,|S(f,k)|2的良好的估值可以通過使得以下的誤差(MMSE準(zhǔn)則)最小化而得出X2(f,k)=E{||S(f,k)|2-H(f,k)·Y(f,k)|2}(22)其中H(f,k)·|X(f,k)|2代表語音周期曲線|S(f,k)|2的估值。
方程22的直接解需要高階方程的解,但這個解可以通過假設(shè)語音和噪聲是高斯過程并與零均值是非相關(guān)的而被簡化,從而給出相應(yīng)的高階Wiener濾波器H(f,k)的近似值。在這個方法中使用的近似在下面公式23中呈現(xiàn)。(應(yīng)當(dāng)看到,在這一個階段可以使用不同的近似而不背離本發(fā)明的原理的基本特性)。H(f,k)=3·SNR(f,k)·SNR(f,k)+SNR(f,k)3·SNR(f,k)·SNR(f,k)+6·SNR(f,k)+3---(23)]]>這里,SNR(f,k)是指信號噪聲比,以及被如下地計算SNR(f,k)=G1(f,k)1-G1(f,k)---(24)]]>公式24是關(guān)聯(lián)著Wiener濾波器和信號噪聲比的已知函數(shù)的倒數(shù)。(Wiener=SNR/(SNR+1))因此,語音周期曲線被如下地計算P′SS(f,k)=H(f,k)·|X(f,k)|2(25)步驟6放大函數(shù)在高的SNR條件下,當(dāng)帶有噪聲的輸入信號的語音分量比起噪聲分量很大時,估值的Wiener濾波器G1(f,k)趨向于1。而且,當(dāng)語音對噪聲的比值很高時,G1(f,k)可被相當(dāng)精確地估值。因此,可以具有良好的確信度在步驟3確定的Wiener濾波器能提供最佳濾波,以及給出一個包含帶有殘余的(掩蔽的)噪聲量的高度精確的語音估值1(f)的輸出。在這種情形下,當(dāng)濾波器的增益接近于1時,提供小量的放大以使得增益仍舊接近于1是有利的。然而,附加的放大也應(yīng)當(dāng)被加以限制,以便確保Wiener濾波器增益在任何情形下不超過1。
另一方面,在其中帶有噪聲的輸入信號中的語音分量小于噪聲分量的情形下,相反的結(jié)果是正確的。Wiener濾波器增益是小的,并且很可能不會像在高SNR的條件下那樣被精確地確定。在這種情形下,放大Wiener濾波器輸出值并不是有利的,因而估值的Wiener濾波器應(yīng)當(dāng)保持為在步驟3中原先估值的形式。
考慮到在不同的SNR條件下存在的這兩個相反的需要,步驟3中確定的Wiener濾波器按照下式被更新Ga(f,k)=G1(f,k)Min[Kb(f),1-G1(f,k)]---(26)]]>從而,產(chǎn)生出在估值該最后輸出時要被使用的Wiener濾波器Ga(f,k)。Ga(f,k)是G1(f,k)的函數(shù)。
公式26利用這一事實諸如y=x1-x(x>0)的函數(shù)在x小于1時提供放大。所以,它滿足在良好的SNR條件下提供更大的放大和在低的SNR的條件下提供低的放大的需要。
變量Kb(f)可以取0與1之間的數(shù)值,并且該變量是被包括在公式26中的指數(shù)中,以便使得能夠使用對于不同的頻帶f的不同的(例如預(yù)定的)放大值,如果需要的話。
步驟7選擇噪聲減小程度在這個步驟中,選擇想要的噪聲減小程度。對于公式11中給定的Wiener濾波器,相應(yīng)的理想的時間輸出具有(t)=s(t)+ξ·n(t)的形式?;貞泿в性肼暤妮斎胄盘柧哂衳(t)=s(t)+n(t)的形式,由濾波器提供的噪聲減小理論上約為20·log[ξ]dB。通過考慮輸入信號的噪聲電平與輸出信號(即在噪聲抑制后獲得的信號)的噪聲電平的比值,這個結(jié)果可被證明是正確的。這個比值就是ξ·n(t)/n(t),當(dāng)以分貝形式的功率比值來表示時,它等于20·log[ξ]。因此,因子0<ξ<1對應(yīng)于由濾波器引入的噪聲減小。
選擇想要的噪聲減小程度和確定對于達(dá)到該噪聲減小所必須的ξ的數(shù)值(例如,對于-12dB噪聲減小,ξ=0.25)后,確定因子η以使得G1(f,k)+η·(1-G1(f,k))⇔Ps(f,k)+ξ·Pn(f,k)Ps(f,k)+Pn(f,k).---(27)]]>公式27給出一種把被最佳化成能夠提供只包含掩蔽的噪聲的輸出的Wiener濾波器與能提供包含一定量的許可噪聲的輸出的Wiener濾波器相關(guān)聯(lián)的方法。按照步驟1-3,Wiener濾波器G1(f,k)被構(gòu)建為可提供帶有噪聲的語音信號的語音分量加上可被該語音分量有效地掩蔽的噪聲量的估值。因此,在那些在輸出中一定量的噪聲是被許可(想要)的條件下,Wiener濾波器必須隨之被修正。在公式27中,G1(f,k)代表在步驟3Wiener濾波器被最佳化,以便提供包含被語音掩蔽的噪聲的輸出。項Ps(f,k)+ξ·Pn(f,k)Ps(f,k)+Pn(f,k)]]>代表提供噪聲減小量ξ的Wiener濾波器,它產(chǎn)生包含語音和想要的/許可的噪聲量的輸出信號。項η·(1-G1(f,k))因此代表未掩蔽的噪聲量,并且在實際上是Ps(f,k)+ξ·Pn(f,k)Ps(f,k)+Pn(f,k)]]>與G1(f,k)之間的差值??紤]到G1(f,k)包含的噪聲值約等于(1-α)乘以在原先的帶有噪聲的語音信號中存在的噪聲的事實,在α、η與ξ之間存在著以下的關(guān)系式1-α+η·αξ (28)步驟8對最終估值的Wiener濾波器的估值通過使用公式16、26和28,施加到輸入端上的最終的Wiener濾波器G(f,k)被給出為 雖然在η取決于α,以及對于每個幀k的每個頻率倉f,它具有不同的數(shù)值,但總的噪聲減小程度被保持為約20·log[ξ]dB的恒定值。
替換地,步驟1到8可以通過使用包括信號噪聲比的式子的式子來實施。在以上給出的步驟1-8的詳細(xì)的實施方案中,討論是建立在噪聲psd函數(shù)、語音周期曲線和輸入功率(周期曲線+psd)的基礎(chǔ)之上的。然而,通過把公式11和/或公式13除以噪聲psd,可以得出另一個表示式。這另一個表示式需要對(信號+掩蔽的噪聲)對噪聲的比值估值,而不是對語音周期曲線估值。
圖5上顯示了實施本發(fā)明的算法50。算法50被顯示為可以劃分成一組自適應(yīng)處理過程的步驟52和一組非自適應(yīng)處理過程的步驟54。自適應(yīng)處理過程使用對Wiener濾波器的計算來重新計算Wiener濾波器。因此,對Wiener濾波器的計算的步驟對于自適應(yīng)處理過程和非自適應(yīng)處理過程是共同的。
這種Wiener濾波器計算也適用于在包括一個傳感器和一個揚(yáng)聲器的組合的回聲和噪聲控制系統(tǒng)中使得殘余回波最小化。
雖然顯示和描述了本發(fā)明的優(yōu)選實施例,但應(yīng)當(dāng)看到,這樣的實施例只是通過實例描述的。例如,雖然本發(fā)明被描述為使用在位于移動終端的上行鏈路路徑上的噪聲抑制器中,它提供噪聲抑制的信號給語音編碼器,但本發(fā)明同樣可使用于處在移動終端的下行鏈路路徑上的噪聲抑制器中,以便代替或附加到上行鏈路路徑上的噪聲抑制器上。在這種情形下,它可對由語音譯碼器提供的信號起作用。而且,雖然本發(fā)明被描述為用在移動終端中,但替換地,它可以存在有在通信網(wǎng)內(nèi)的噪聲抑制器中,無論是在與語音編碼器或語音譯碼器相關(guān)的情況下進(jìn)行使用。
對于本領(lǐng)域技術(shù)人員將出現(xiàn)各種變例、改變和替換,而不背離本發(fā)明的范圍。因此,以下的權(quán)利要求打算覆蓋屬于本發(fā)明的精神和范圍內(nèi)的所有的這樣的等同物或變例。
權(quán)利要求
1.一種抑制在含有噪聲的信號中的噪聲以便提供噪聲被抑制的信號的方法,其中對噪聲進(jìn)行估值,和對語音連同某些噪聲一起進(jìn)行估值。
2.按照權(quán)利要求1的方法,其中信號包括語音。
3.按照權(quán)利要求1或權(quán)利要求2的方法,其中被包括在語音連同某些噪聲一起的估值中的噪聲電平是可變的,從而可把想要的噪聲量包括在噪聲被抑制的信號中。
4.按照權(quán)利要求3的方法,其中噪聲電平提供可接受的前后關(guān)系信息量。
5.按照任何前述的權(quán)利要求的方法,其中噪聲電平低于語音的掩蔽極限,并且因而對于收聽者是聽不見的。
6.按照權(quán)利要求1到4的任一項的方法,其中噪聲電平接近于語音的掩蔽極限,并且因而某些噪聲前后關(guān)系信息被保留在信號中。
7.一種產(chǎn)生用于噪聲抑制的增益系數(shù)的方法,其中該增益系數(shù)的第一估值是自適應(yīng)地獲得的,這個第一估值被使用來產(chǎn)生噪聲估值,后者然后被使用來產(chǎn)生增益函數(shù)的第二估值。
8.按照權(quán)利要求7的方法,其中估值的噪聲是功率譜密度。
9.按照權(quán)利要求7或權(quán)利要求8的方法,其中第一估值被使用來更新估值的噪聲。
全文摘要
一種抑制包含語音和噪聲的信號中的噪聲、以便提供噪聲被抑制的語音信號的方法。對于噪聲進(jìn)行估值和對于語音連同某些噪聲進(jìn)行估值。被包括在語音連同某些噪聲的估值中的噪聲電平是可變的,以便把想要的噪聲量包括在噪聲被抑制的信號中。
文檔編號G10L15/00GK1390348SQ00815729
公開日2003年1月8日 申請日期2000年11月14日 優(yōu)先權(quán)日1999年11月15日
發(fā)明者B·阿亞德 申請人:諾基亞有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
永寿县| 桂林市| 科尔| 醴陵市| 徐汇区| 龙江县| 修水县| 白水县| 正定县| 额敏县| 三穗县| 邳州市| 武清区| 旬阳县| 汽车| 红原县| 兴和县| 固安县| 城口县| 海口市| 克什克腾旗| 兴宁市| 南投县| 巴林左旗| 江永县| 嘉兴市| 枣庄市| 杭锦后旗| 广安市| 阳曲县| 海宁市| 壤塘县| 武威市| 常州市| 蚌埠市| 兴山县| 翁牛特旗| 新源县| 武城县| 普兰店市| 道真|