低比特率語音編碼器的噪聲抑制的制作方法

文檔序號(hào)：2822004閱讀：344來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：低比特率語音編碼器的噪聲抑制的制作方法
背景技術(shù)：
本發(fā)明提供了一種噪聲抑制技術(shù)，適合用作低比特率語音編碼器的前端。創(chuàng)造的技術(shù)特別適合在蜂窩電話的應(yīng)用中使用。
下面的已有技術(shù)文獻(xiàn)提供了本發(fā)明的技術(shù)背景“ENHANCED VARIABLE RATE CODEC，SPEECH SERVICE OPTION 3 FORWIDEBAND SPREAD SPECTRUM DIGITAL SYSTEMS(寬帶擴(kuò)頻數(shù)字系統(tǒng)的語音服務(wù)選項(xiàng)3，增強(qiáng)型可變速率編解碼器)”，TIA/EIA/IS-127標(biāo)準(zhǔn)。
“THE STUDY OF SPEECH/PAUSE DETECTORS FOR SPEECH ENHANCEMENTMETHODS(語音增強(qiáng)方法的語音/暫停檢測(cè)器的研究)”，P.Sovka和P.Pollk，Eurospeech 95 Madrid，1995，p.1575-1578。
“SPEECH ENHANCEMENT USING A MINIMUM MEAN-SQUARE ERRORSHORT-TIME SPECTRAL AMPLITUDE ESTIMATOR(使用最小均方差的短時(shí)頻譜幅度估計(jì)器的語音增強(qiáng))”，Y.Ephraim，D.Malah，IEEETransactions on Acoustics Speech and Signal Processing(關(guān)于語聲和信號(hào)處理的IEEE匯刊)，Vol.ASSP-32，No.6，Dec.1984，pp.1109-1121。
“SUPPRESSION OF ACOUSTIC NOISE USING SPECTRAL SUBTRACTION(使用頻譜減法的語音噪聲的抑制)”，S.Boll，IEEE Transactionson Acoustics Speech and Signal Processing(關(guān)于語聲和信號(hào)處理的IEEE匯刊)，Vol.ASSP-27，No.6，April.1979，pp.113-120。
“STATISTICAL-MODEL-BASED SPEECH ENHANCEMENT SYSYTEMS(基于統(tǒng)計(jì)模型的語音增強(qiáng)系統(tǒng))”Proceedings of the IEEE(IEEE會(huì)刊)，Vol.80，No.10，October.1992，pp.1526-1544。
噪聲抑制的一種低復(fù)雜性的方法是頻譜修正(也稱作頻譜減法)。使用頻譜修正的噪聲抑制算法首先把有噪語音信號(hào)分成幾個(gè)頻帶。一般根據(jù)每個(gè)頻帶中估計(jì)的信噪比計(jì)算該頻帶的增益。應(yīng)用這些增益并重建信號(hào)。此類方案必須從觀察的有噪語音信號(hào)來估計(jì)信號(hào)和噪聲的特性。頻譜修正技術(shù)的幾個(gè)實(shí)施方案可見于美國專利5,687,285； 5,680,393；5,668,927；5,659,622；5,651,071； 5,630,015；5,625,684；5,621,850；5,617,505； 5,617,472；5,602,962；5,577,161；5,555,287； 5,550,924；5,544,250；5,539,859；5,533,133； 5,530,768；5,479,560；5,432,859；5,406,635； 5,402,496；5,388,182；5,388,160；5,353,376； 5,319,736；5,278,780；5,251,263；5,168,526； 5,133,013；5,081,681；5,040,156；5,012,519； 5,908,855；5,897,878；5,811,404；4,747,143； 4,737,976；4,630,305；4,630,304；4,628,529；和4,468,804。
頻譜修正具有幾個(gè)合乎需要的特性。首先，可使其自適應(yīng)并因此可處理變化的噪聲環(huán)境。其次，大量的計(jì)算可在離散傅里葉變換(DET)域中進(jìn)行。因此可以使用快速算法(如快速傅里葉變換(FFT))。
但是，目前的技術(shù)水平存在幾個(gè)缺點(diǎn)；它們包括(i)在中到高噪聲電平中的想要的語音信號(hào)的不良失真(這種失真有幾個(gè)原因，其中一些原因?qū)⒃谙旅嬖斒?；和(ii)過分復(fù)雜的計(jì)算。
最好提供一種能夠克服已有技術(shù)缺陷的噪聲抑制技術(shù)。具體來說，最好提供一種解釋通常在基于塊的噪聲抑制技術(shù)中的時(shí)域不連續(xù)性的噪聲抑制技術(shù)。另外最好提供一種技術(shù)可減少因頻譜減法固有的頻域不連續(xù)性所引起的失真。而且最好在噪聲抑制時(shí)降低頻譜整形操作的復(fù)雜性，并增加噪聲抑制技術(shù)中的估計(jì)的噪聲統(tǒng)計(jì)的可靠性。
本發(fā)明提供了一種具有這些和其它優(yōu)點(diǎn)的噪聲抑制技術(shù)。
根據(jù)本發(fā)明的一種方法，它抑制帶有噪聲與語音的組合的輸入信號(hào)中的噪聲。輸入信號(hào)被分為信號(hào)塊，這些信號(hào)塊被處理以提供輸入信號(hào)的短時(shí)感知帶譜的估計(jì)。在各個(gè)不同的時(shí)間點(diǎn)確定輸入信號(hào)是僅帶有噪聲還是帶有噪聲和語音的組合。當(dāng)輸入信號(hào)僅帶有噪聲時(shí)，相應(yīng)估計(jì)的輸入信號(hào)的短時(shí)感知帶譜被用于更新噪聲的長期感知帶譜的估計(jì)。隨后根據(jù)噪聲的長期感知帶譜和輸入信號(hào)的短時(shí)感知帶譜的估計(jì)確定噪聲抑制頻率響應(yīng)，并根據(jù)該噪聲抑制頻率響應(yīng)整形(shape)輸入信號(hào)的當(dāng)前塊。
該方法還可包括對(duì)輸入信號(hào)進(jìn)行前置濾波以加重其高頻分量的步驟。在所示的實(shí)施例中，輸入信號(hào)的處理包括把離散傅里葉變換應(yīng)用到信號(hào)塊以提供每個(gè)塊的復(fù)數(shù)值的頻域表示。把信號(hào)塊的頻域表示轉(zhuǎn)換為僅有幅度的信號(hào)，它們?cè)诜蛛x的頻帶之間被平均以提供一個(gè)長期感知帶譜估計(jì)。該感知帶譜中的時(shí)間變化被平滑以提供短時(shí)感知帶譜估計(jì)。
通過使用一種用以對(duì)輸入信號(hào)的當(dāng)前塊進(jìn)行整形的全極點(diǎn)濾波器可以模型化(model)噪聲抑制頻率響應(yīng)。
本發(fā)明提供了用于抑制帶有噪聲和語音的組合的輸入信號(hào)中的噪聲的設(shè)備。可前置濾波輸入信號(hào)以加重其高頻分量的信號(hào)預(yù)處理器把輸入信號(hào)分成塊。隨后，快速傅里葉變換處理器處理這些塊以提供輸入信號(hào)的復(fù)數(shù)值的頻域譜。累加器用于把復(fù)數(shù)值的頻域譜累加為包括寬度不等的頻帶的長期感知帶譜。該長期感知帶譜被濾波以產(chǎn)生一個(gè)短時(shí)感知帶譜，它包括所述長期感知帶譜的當(dāng)前段外加噪聲。語音/暫停檢測(cè)器確定在一個(gè)給定時(shí)間點(diǎn)的輸入信號(hào)是僅帶有噪聲還是帶有語音和噪聲的組合。當(dāng)輸入信號(hào)僅是噪聲時(shí)，響應(yīng)語音/暫停檢測(cè)電路的噪聲譜估計(jì)器根據(jù)短時(shí)感知帶譜來更新噪聲的長期感知帶譜的估計(jì)。響應(yīng)噪聲譜估計(jì)器的頻譜增益處理器確定噪聲抑制頻率響應(yīng)。響應(yīng)頻譜增益處理器的頻譜整形處理器則整形輸入信號(hào)的當(dāng)前塊以抑制其中的噪聲。頻譜整形處理器可包括如全極點(diǎn)濾波器。
本發(fā)明還公開了一種用于抑制輸入信號(hào)中的噪聲的方法，其中輸入信號(hào)帶有噪聲和音頻信息如語音的組合。在頻域中計(jì)算輸入信號(hào)的噪聲抑制頻率響應(yīng)。計(jì)算的噪聲抑制頻率響應(yīng)隨后被應(yīng)用到時(shí)域中的輸入信號(hào)以抑制輸入信號(hào)中的噪聲。這種方法還可包括在計(jì)算輸入信號(hào)的噪聲抑制頻率響應(yīng)之前把輸入信號(hào)分成塊的步驟。在所示的實(shí)施例中，噪聲抑制頻率響應(yīng)借助于全極點(diǎn)濾波器而應(yīng)用到了輸入信號(hào)，它是通過確定噪聲抑制頻率響應(yīng)的自相關(guān)函數(shù)而產(chǎn)生的。
圖9示出了分段常數(shù)的頻率響應(yīng)；并且

圖10示出了圖9的分段常數(shù)頻率響應(yīng)的平滑處理。
發(fā)明詳細(xì)描述根據(jù)本發(fā)明，一種噪聲抑制算法計(jì)算時(shí)變?yōu)V波響應(yīng)，并將其應(yīng)用到有噪語音。該算法的框圖在圖1中示出，其中標(biāo)有“AR參數(shù)計(jì)算” 和“AR頻譜整形”的方框涉及到時(shí)變?yōu)V波響應(yīng)的應(yīng)用，并且“AR”表示“自回歸”。圖1中的其它所有方框均對(duì)應(yīng)于通過有噪語音計(jì)算時(shí)變?yōu)V波響應(yīng)。
在信號(hào)預(yù)處理器10中，通過使用一種簡(jiǎn)單的高通濾波器來預(yù)處理有噪輸入信號(hào)以便略微加重其高頻分量。預(yù)處理器隨后把濾波的信號(hào)分成塊，這些塊則傳送到快速傅里葉變換(FFT)模塊12。FFT模塊12把一個(gè)窗口應(yīng)用到信號(hào)塊并把離散傅里葉變換應(yīng)用到信號(hào)。由此產(chǎn)生的復(fù)數(shù)值的頻域表示被處理產(chǎn)生一個(gè)只有幅度的信號(hào)。這些只有幅度的信號(hào)的值在分離的頻帶中平均，得到一個(gè)“感知帶譜”。該平均可以使必須處理的數(shù)據(jù)量減少。
在信號(hào)及噪聲譜估計(jì)模塊14中，感知帶譜中的時(shí)間變化被平滑，從而產(chǎn)生輸入信號(hào)的短時(shí)感知帶譜的估計(jì)。該估計(jì)被傳送到語音/暫停檢測(cè)器16、噪聲譜估計(jì)器18和頻譜增益計(jì)算模塊20。
語音/暫停檢測(cè)器16確定當(dāng)前的輸入信號(hào)是只有噪聲還是具有語音和噪聲組合。該確定通過下面的步驟得出，即測(cè)量輸入語音信號(hào)的幾個(gè)性能；使用這些測(cè)量結(jié)果更新輸入信號(hào)的模型；并利用該模型的狀態(tài)做出最終的語音/暫停判定。該判定隨后傳送到噪聲譜估計(jì)器。
當(dāng)語音/暫停檢測(cè)器16確定輸入信號(hào)只是由噪聲組成時(shí)，則噪聲譜估計(jì)器18使用當(dāng)前的感知帶譜來更新噪聲的感知帶譜估計(jì)。另外，噪聲譜估計(jì)器的某些參數(shù)在此模塊中被更新并回傳到語音/暫停檢測(cè)器16。噪聲的感知帶譜估計(jì)則傳送到頻譜增益計(jì)算模塊20。
利用當(dāng)前信號(hào)和噪聲的感知帶譜估計(jì)，頻譜增益計(jì)算模塊20確定噪聲抑制頻率響應(yīng)。這個(gè)噪聲抑制頻率響應(yīng)是圖9所示的分段常數(shù)。每個(gè)分段常數(shù)的段對(duì)應(yīng)于臨界帶譜的一個(gè)單元。該頻率響應(yīng)傳送到AR參數(shù)計(jì)算模塊22。
AR參數(shù)計(jì)算模塊利用全極點(diǎn)濾波器模型化噪聲抑制頻率響應(yīng)。由于噪聲抑制頻率響應(yīng)是分段常數(shù)，所以其自相關(guān)函數(shù)能夠以閉合式容易地確定。通過自相關(guān)函數(shù)則可以有效地計(jì)算全極點(diǎn)濾波器參數(shù)。分段常數(shù)譜的全極點(diǎn)模型化具有平滑噪聲抑制譜中的不連續(xù)性的效果。可以理解，目前已知或隨后公開的其它模型化技術(shù)也可代替全極點(diǎn)濾波器的使用，并且本發(fā)明的權(quán)利要求書涵蓋了所有的這些等效裝置。
AR頻譜整形模塊24使用AR參數(shù)來把輸入信號(hào)的當(dāng)前塊進(jìn)行濾波。通過在時(shí)域中執(zhí)行頻譜整形，可以降低由于塊處理而產(chǎn)生的時(shí)間的不連續(xù)性。而且，由于噪聲抑制頻率響應(yīng)可使用低階全極點(diǎn)濾波器進(jìn)行模化，所以時(shí)域整形可能會(huì)在某些處理器上產(chǎn)生更有效的在信號(hào)預(yù)處理模塊10中，首先使用H(z)＝1-0.8z-1形式的高通濾波器預(yù)加重信號(hào)。這種高通濾波器被選擇來部分補(bǔ)償語音固有的頻譜傾斜。如此預(yù)處理信號(hào)將產(chǎn)生更精確的噪聲抑制頻率響應(yīng)。
如圖2所示，輸入信號(hào)30以八十個(gè)樣本的塊為單位(對(duì)應(yīng)于8KHz取樣率的10ms)進(jìn)行處理。這在分析塊34中示出，如圖所示，它在長度上是八十個(gè)樣本。具體來說，在圖示的典型實(shí)施例中，輸入信號(hào)被分成具有128個(gè)樣本的塊，每個(gè)塊由前個(gè)塊的最后24個(gè)樣本(參考數(shù)字32)、分析塊34的80個(gè)新樣本和為零的24個(gè)樣本(參考數(shù)字36)組成。每個(gè)塊利用漢明窗口開窗并且進(jìn)行傅里葉變換。
在塊結(jié)構(gòu)中含有的零填充字符應(yīng)當(dāng)進(jìn)行進(jìn)一步的解釋。具體來說，從信號(hào)處理的觀點(diǎn)來說，零填充字符并不是必需的，因?yàn)轭l譜整形(隨后描述)并不使用離散傅里葉變換來執(zhí)行。但是，包括零填充字符將易于把此算法結(jié)合到現(xiàn)有的由本發(fā)明的受托方SolanaTechnology Development Corporation提供的EVRC話音編解碼器中。這種塊結(jié)構(gòu)要求在現(xiàn)有EVRC代碼的整個(gè)緩沖器管理策略中沒有變化。
每個(gè)噪聲抑制幀可被看作是一個(gè)128-點(diǎn)的序列。以g[n]表示這個(gè)序列，信號(hào)塊的頻域表示被定義為離散傅里葉變換，式中的C是歸一化常數(shù)。信號(hào)頻譜則被累加為如下所示的寬度不等的頻帶S[k]=1fh[k]-fl[k]+1Σi=f[lk]fh[k]|G[i]|2]]>式中fl[k]={2，4，6，8，10，12，14，17，20，23，27，31，36，42，49，56}fh[k]={3，5，7，9，11，13，16，19，22，26，30，35，41，48，55，63}這被稱作感知帶譜。圖3示出了一般以50表示的頻帶。如圖所示，噪聲譜的頻帶(NS頻帶)具有不同的寬度，并且與離散傅里葉變換(DFT)塊有關(guān)。
信號(hào)加噪聲的感知帶譜的估計(jì)在模塊14(圖1)中通過使用諸如單極點(diǎn)遞歸濾波器過濾感知帶譜而產(chǎn)生。信號(hào)加噪聲的功率譜的估計(jì)是
Su[k]=β·Su[k]+(1-β)·S[k]。
因?yàn)檎Z音的特性僅僅在較短的時(shí)間周期內(nèi)穩(wěn)定，所以濾波器參數(shù)β被選擇僅僅在幾個(gè)(例如，2-3個(gè))噪聲抑制塊上執(zhí)行平滑處理。該平滑被稱作“短時(shí)”平滑，并提供“短時(shí)感知帶譜”的估計(jì)。
噪聲抑制系統(tǒng)要求精確的噪聲統(tǒng)計(jì)估計(jì)以便于適當(dāng)?shù)匕l(fā)揮作用。此功能由語音/暫停檢測(cè)模塊16提供。在一個(gè)可能的實(shí)施例中，提供了一種既測(cè)量語音又測(cè)量噪聲的單話筒。因?yàn)樵肼曇种扑惴ㄐ枰肼暯y(tǒng)計(jì)估計(jì)，所以需要一種區(qū)分有噪語音信號(hào)和只有噪聲的信號(hào)的方法。這種方法必須基本上檢測(cè)到有噪語音中的暫停。此任務(wù)的執(zhí)行由于下面的幾個(gè)因素而變得更加困難1.暫停檢測(cè)器必須在可接受的低信噪比(0-5dB)下執(zhí)行。
2.暫停檢測(cè)器必須不易受背景噪聲統(tǒng)計(jì)的緩慢變化的影響。
3.暫停檢測(cè)器必須準(zhǔn)確區(qū)別出類噪聲語音(例如磨擦的)和背景噪聲。
圖4提供了語音/暫停檢測(cè)器16的一個(gè)可能實(shí)施例的框圖。
暫停檢測(cè)器在有噪語音信號(hào)正在通過有限數(shù)目的信號(hào)模型之間的轉(zhuǎn)換產(chǎn)生時(shí)將其模型化。有限狀態(tài)機(jī)(FSM)64控制模型之間的轉(zhuǎn)換。語音/暫停判定是FSM的當(dāng)前狀態(tài)以及對(duì)當(dāng)前信號(hào)的測(cè)量結(jié)果以及其它適當(dāng)?shù)臓顟B(tài)變量的函數(shù)。狀態(tài)間的轉(zhuǎn)換是當(dāng)前FSM狀態(tài)和對(duì)當(dāng)前信號(hào)的測(cè)量結(jié)果的函數(shù)。
下述的被測(cè)量被用于確定驅(qū)動(dòng)信號(hào)狀態(tài)狀態(tài)機(jī)64的二進(jìn)制值的參數(shù)。總之，這些二進(jìn)制值的參數(shù)是通過比較適當(dāng)?shù)膶?shí)數(shù)值的測(cè)量結(jié)果和自適應(yīng)閾值來確定的。測(cè)量模塊60提供的信號(hào)測(cè)量結(jié)果量化下面的信號(hào)性能1.能量測(cè)量確定信號(hào)是高能量還是低能量。這個(gè)以E[i]表示的信號(hào)能量被定義為Ei=logΣk=063|G[k]|2]]>。有噪語音發(fā)聲的一個(gè)能量測(cè)量實(shí)例在圖5中示出，其中各個(gè)語音樣本的振幅由曲線70指示，并且相應(yīng)的NS塊的能量測(cè)量以曲線72表示。
2．頻譜轉(zhuǎn)換測(cè)量確定信號(hào)頻譜在一個(gè)短時(shí)間窗口之中是穩(wěn)態(tài)還是瞬態(tài)。此測(cè)量是通過確定感知帶譜的每個(gè)頻帶的經(jīng)驗(yàn)均值和方差來計(jì)算的。感知帶譜的所有頻帶的方差之和用作頻譜轉(zhuǎn)換的測(cè)量結(jié)果。具體來說，以Ti表示的轉(zhuǎn)換測(cè)量計(jì)算如下感知頻譜的每個(gè)頻帶的均值通過單極點(diǎn)遞歸濾波器計(jì)算Si[κ]＝αSi-1[κ]＋(1－α)Si[κ]。感知頻譜的每個(gè)頻帶的方差通過遞歸濾波器計(jì)算S^i[k]=αS^i-1[k]+(1-α)(Si[k]S-i[k])2]]>。濾波器參數(shù)α被選擇在一個(gè)較長的時(shí)間周期期間，即在10-20個(gè)噪聲抑制塊間執(zhí)行平滑處理。總方差被計(jì)算為每個(gè)頻帶的方差之和σi2=Σi=015S^i[k]]]>。應(yīng)當(dāng)指出，當(dāng)感知帶譜與其長期均值沒有特別大的不同時(shí)，σi2本身的方差將是最小的。因此，頻譜轉(zhuǎn)換的合理測(cè)量結(jié)果是σi2的方差，它計(jì)算如下σi2＝ωiσi-12＋(1－ωi)σi2Ti＝ωiTi-1＋(1－ωi)(σi2－σi2)2。自適應(yīng)時(shí)間常數(shù)如下給出ωi=(0.25σi2≤σ-i-120.875σi2>σ-i-12]]>通過采用該時(shí)間常數(shù)，該頻譜轉(zhuǎn)換測(cè)量可適當(dāng)?shù)馗櫺盘?hào)穩(wěn)定的部分。有噪語音發(fā)聲的一個(gè)頻譜轉(zhuǎn)換測(cè)量實(shí)例在圖6中示出，其中各個(gè)語音樣本的振幅由曲線74指示，并且相應(yīng)NS塊的能量測(cè)量結(jié)果由曲線75表示。
3．以SSi表示的頻譜相似性測(cè)量可以測(cè)量當(dāng)前信號(hào)頻譜與估計(jì)的噪聲譜的相似程度。為了定義該頻譜相似性測(cè)量，假定我們可以得到以Ni[k]表示的噪聲的感知帶譜的算法的估計(jì)(Ni[k]的定義在下面結(jié)合噪聲譜估計(jì)器的討論來提供)。頻譜相似性測(cè)量則被定義為SSi=Σk=015|logSi[k]-NI[k]|]]>。有噪發(fā)聲的頻譜相似性測(cè)量的一個(gè)實(shí)例在圖7中示出，其中各個(gè)語音樣本的振幅由曲線76表示，并且相應(yīng)NS塊的能量測(cè)量結(jié)果由曲線78表示。需要指出的是，頻譜相似性測(cè)量的小數(shù)值對(duì)應(yīng)于高度相似的頻譜，而較高的頻譜相似性測(cè)量結(jié)果對(duì)應(yīng)于不相似的頻譜。
4.能量相似性測(cè)量確定當(dāng)前信號(hào)能量Ei=logΣk=063|G[k]|2]]>是否類似于估計(jì)的噪聲能量。這是通過比較信號(hào)能量和由閾值應(yīng)用模塊62應(yīng)用的閾值來確定的。實(shí)際的閾值由閾值計(jì)算處理器66計(jì)算，處理器66可包括一個(gè)微處理器。
通過以S[k]表示信號(hào)頻譜的當(dāng)前估計(jì)，以Ei表示信號(hào)能量的當(dāng)前估計(jì)，以Ni[k]表示對(duì)數(shù)噪聲譜的當(dāng)前估計(jì)，以Ni表示噪聲能量的當(dāng)前估計(jì)，并以表示噪聲能量估計(jì)的方差，二進(jìn)制參數(shù)被定義。
參數(shù)high_low-energy指示出信號(hào)是否具有高能量?jī)?nèi)容，高能量是相對(duì)于背景噪聲的估計(jì)能量來定義的。它通過估計(jì)當(dāng)前信號(hào)幀中的能量并應(yīng)用一個(gè)閾值來計(jì)算。它定義為high_low-energy={0Ei≤Et1Ei>Et]]>式中E是由Ei=logΣk=063|G[k]|2]]>定義，并且Ei是自適應(yīng)閾值。
參數(shù)transition指示出信號(hào)頻譜何時(shí)經(jīng)過轉(zhuǎn)換。它是通過觀察當(dāng)前短時(shí)頻譜相對(duì)于頻譜平均值的偏差來測(cè)量的。它在數(shù)學(xué)上定義為transition={0Ti≤Tt1Ti>Tt]]>式中的T是在前面章節(jié)中定義的頻譜變換測(cè)量結(jié)果，且Ti是將在隨后更詳細(xì)描述的自適應(yīng)計(jì)算的閾值。
參數(shù)spectral_similarity測(cè)量當(dāng)前信號(hào)頻譜和估計(jì)的噪聲譜之間的相似性。它可通過計(jì)算當(dāng)前信號(hào)頻譜的對(duì)數(shù)和估計(jì)的噪聲頻的對(duì)數(shù)之間的距離來測(cè)量。spectral_similarity={0SSi≤SSt1SSi>SSt]]>式中SSi已在上面描述，SSt是下面要討論的一個(gè)閾值(例如一個(gè)常數(shù))。
參數(shù)energy_similarity測(cè)量當(dāng)前信號(hào)能量和估計(jì)的噪聲能量之間的相似性。energy_similarity={0Ei≤ESt1E>ESt]]>式中的E由Ei=logΣk=063|G[k]|2]]>定義，且ESt是下面定義的自適應(yīng)計(jì)算的閾值。
上述變量全部是通過比較一個(gè)數(shù)和一個(gè)閾值來計(jì)算。前三個(gè)閾值反映了動(dòng)態(tài)信號(hào)的特性，并且將根據(jù)噪聲的特性而定。這三個(gè)閾值是標(biāo)準(zhǔn)偏差的和積與估計(jì)均值的和。用于頻譜相似性測(cè)量的閾值不是根據(jù)噪聲的特定性能確定的，而是可設(shè)置為一個(gè)常數(shù)值。
高/低能量閾值是由閾值計(jì)算處理器66(圖4)計(jì)算為Ei=E-i-1+2Ei-1^]]>的，式中的是定義為E^i=γiE^i-1+(1-γi)(Ei-E-i-1)2]]>的經(jīng)驗(yàn)方差，而Ei是定義為Ei=γE^i-1+(1-γ)Ei]]>的經(jīng)驗(yàn)均值。
能量相似性閾值定義為應(yīng)當(dāng)指出，能量相似性閾值的增長速率受限于本實(shí)例中的因數(shù)1.05。這確保高噪聲能量對(duì)閾值沒有不成比例的影響。
頻譜轉(zhuǎn)換閾值計(jì)算為Ti=2N^i]]>。頻譜相似性閾值是SSi＝10的常數(shù)。
可模型化有噪語音信號(hào)的信號(hào)狀態(tài)狀態(tài)機(jī)64在圖8中更詳細(xì)的示出。其狀態(tài)轉(zhuǎn)換由前面段落中描述的信號(hào)測(cè)量結(jié)果來控制。信號(hào)狀態(tài)是示作單元80的穩(wěn)態(tài)低能量、示作單元82的瞬態(tài)和示作單元84的穩(wěn)態(tài)高能量。在穩(wěn)態(tài)低能量期間，沒有頻譜轉(zhuǎn)換發(fā)生，并且信號(hào)能量低于一個(gè)閾值。在瞬態(tài)期間發(fā)生頻譜轉(zhuǎn)換。在穩(wěn)態(tài)高能量期間，不發(fā)生頻譜轉(zhuǎn)換，并且信號(hào)能量高于一個(gè)閾值。狀態(tài)之間的轉(zhuǎn)換由上述信號(hào)測(cè)量結(jié)果來管理。
狀態(tài)機(jī)的轉(zhuǎn)換在表1中定義。
表1
在這個(gè)表中，“X”表示“任何值”。應(yīng)當(dāng)指出，針對(duì)任意測(cè)量結(jié)果，狀態(tài)轉(zhuǎn)換被確定。
由檢測(cè)器16(圖1)提供的語音/暫停判定根據(jù)信號(hào)狀態(tài)狀態(tài)機(jī)的當(dāng)前狀態(tài)和結(jié)合圖4描述的信號(hào)測(cè)量結(jié)果而定。語音/暫停判定由下面的偽碼管理(暫停dec＝0；語音dec＝1)；dec＝1；if spectral_similarity＝＝1dec＝0；elseif current_state＝＝1if energy_similarity＝＝1dec＝0；endend噪聲譜是由噪聲參數(shù)估計(jì)模塊68(圖4)在歸類為暫停的幀期間利用公式Ni[κ]＝βNi[κ]＋(1－β)log(Si[κ])來估計(jì)的，式中的β是0和1之間的常數(shù)。噪聲能量的當(dāng)前估計(jì)Ni，和噪聲能量估計(jì)的方差定義如下Ni＝λNi-1[κ]＋(1－λ)log(Ei)N^i=λN^i-1[k]+(1-λ)(N-i-log(Ei))2]]>式中的濾波器常數(shù)λ被選擇以平均10-20個(gè)噪聲抑制常數(shù)。
頻譜增益可利用已有技術(shù)中熟知的各種方法來計(jì)算。一種非常適合當(dāng)前實(shí)施方案的方法包括定義信噪比為SNR[k]＝c*(1og(Su[k]-Ni[k]))，式中的C是一個(gè)常數(shù)并且Su[k]和Ni[k]已在上面定義。與噪聲有關(guān)的增益的分量定義為γN=-10ΣkN[k]]]>。一旦計(jì)算了瞬時(shí)增益，則必須將其應(yīng)用到有噪語音。這對(duì)應(yīng)于用以修正有噪語音信號(hào)的短時(shí)頻譜的(時(shí)變)濾波操作。結(jié)果則是噪聲抑制的信號(hào)。與當(dāng)前實(shí)踐相反，這種頻譜修正不必應(yīng)用到頻域中。事實(shí)上，頻域?qū)嵤┓桨缚赡芫哂邢旅娴娜毕?.它可能是不必要的復(fù)雜。
2.它可能引起質(zhì)量較低的噪聲抑制語音。
頻譜整形的時(shí)域?qū)嵤┓桨妇哂性黾拥膬?yōu)點(diǎn)在于整形濾波器的沖激響應(yīng)不必是線性相位。而且，時(shí)域?qū)嵤┓桨赶艘蜓h(huán)卷積引起的某些產(chǎn)物(artifacts)的可能性。
這里描述的頻譜整形技術(shù)包括一種用于設(shè)計(jì)用以執(zhí)行噪聲抑制頻率響應(yīng)的低復(fù)雜性濾波器以及該波器的應(yīng)用的方法。這種濾波器由AR頻譜整形模塊24(圖1)根據(jù)AR參數(shù)計(jì)算處理器22提供的參數(shù)來提供。
由于希望的頻率響應(yīng)是圖9所示的具有較少段的分段常數(shù)，因此其自相關(guān)函數(shù)能夠以閉合式來有效地確定。已知自相關(guān)系數(shù)，則可確定用以逼近分段常數(shù)頻率響應(yīng)的全極點(diǎn)濾波器。這種方法具有幾個(gè)優(yōu)點(diǎn)。第一，與分段常數(shù)頻率響應(yīng)相關(guān)的頻譜不連續(xù)性可以消除。第二，與FFT塊處理相關(guān)的時(shí)間不連續(xù)性可以消除。第三，由于整形處理在時(shí)域中應(yīng)用，所以不需要逆DFT。若有低階的全極點(diǎn)濾波器，那么這可以在固定點(diǎn)實(shí)施方案中提供計(jì)算上的優(yōu)勢(shì)。
這種頻率響應(yīng)在數(shù)學(xué)上可表達(dá)為H(ω)=Σi=1NCGs[k]I(ω,ωk1,ωk),]]>式中的Gs[k]是平滑的信道增益，它設(shè)置第i個(gè)分段常數(shù)段的振幅，并且I(ω，ωi-1，ωi)是由頻率ωi-1，ωi限定的間隔的指示函數(shù)，即當(dāng)ωi-1＜ω＜ωi時(shí)，I(ω，ωi-1，ωi)＝1，否則為0。自相關(guān)函數(shù)是H2(ω)的傅里葉逆變換，即式中γi＝(ωi－ωi-1)，并且βi＝(ωi-1－ωi)/2。這可以通過使用值的查表來容易地實(shí)施。
已知上述的自相關(guān)函數(shù)，則通過求解標(biāo)準(zhǔn)方程可以確定頻譜的全極點(diǎn)模型。通過使用諸如Levinson/Durbin遞歸可有效地計(jì)算所需的矩陣求反。
圖10示出了使用十六階濾波器的全極點(diǎn)模型化的例子。應(yīng)當(dāng)指出，頻譜的不連續(xù)性已經(jīng)消除。顯然，通過增加全極點(diǎn)濾波器的階數(shù)可以更精確地制作該模型。但是，十六階濾波器在合理的計(jì)算成本下提供了良好的性能。
通過AR參數(shù)計(jì)算處理器22計(jì)算的參數(shù)所提供的全極點(diǎn)濾波器應(yīng)用到AR頻譜整形模塊24中的有噪輸入信號(hào)的當(dāng)前塊，以便提供頻譜整形的輸出信號(hào)。
現(xiàn)在應(yīng)當(dāng)理解，本發(fā)明提供了一種具有各種獨(dú)特特征的噪聲抑制方法和設(shè)備。具體來說，提供了一種話音活動(dòng)性檢測(cè)器，它由輸入信號(hào)的狀態(tài)機(jī)模型構(gòu)成。這個(gè)狀態(tài)機(jī)由通過輸入信號(hào)得到的各種測(cè)量結(jié)果來驅(qū)動(dòng)。這種結(jié)構(gòu)得出了低復(fù)雜性但高準(zhǔn)確性的語音/暫停判定。另外，噪聲抑制頻率響應(yīng)在頻域中計(jì)算但應(yīng)用于時(shí)域中。這具有消除時(shí)域不連續(xù)性的效果。其中時(shí)域不連續(xù)性會(huì)在把噪聲抑制頻率響應(yīng)應(yīng)用到頻域的“基于塊”的方法中發(fā)生。而且，噪聲抑制濾波器使用用以確定噪聲抑制頻率響應(yīng)的自相關(guān)函數(shù)的新穎方法來設(shè)計(jì)。這種自相關(guān)序列則用于產(chǎn)生全極點(diǎn)濾波器。在某些情況下，全極點(diǎn)濾波器可具有更小的復(fù)雜性來實(shí)施該頻域法。
盡管結(jié)合本發(fā)明的特定實(shí)施例已經(jīng)對(duì)本發(fā)明進(jìn)行了描述，但應(yīng)當(dāng)理解，在不背離權(quán)利要求書所述的本發(fā)明范圍的情況下可以對(duì)本發(fā)明進(jìn)行各種改進(jìn)和適應(yīng)。
權(quán)利要求
1.一種用于抑制帶有噪聲和語音組合的輸入信號(hào)中的噪聲的方法，包括的步驟是；把所述輸入信號(hào)分成信號(hào)塊；處理所述信號(hào)塊以提供所述輸入信號(hào)的短時(shí)感知帶譜的估計(jì)；在各個(gè)不同的時(shí)間點(diǎn)確定所述輸入信號(hào)是僅帶有噪聲還是帶有噪聲和語音的組合，并且當(dāng)輸入信號(hào)僅帶有噪聲時(shí)，則使用相應(yīng)估計(jì)的輸入信號(hào)的短時(shí)感知帶譜來更新噪聲的長期感知帶譜的估計(jì)；根據(jù)噪聲的長期感知帶譜的所述估計(jì)和估計(jì)的輸入信號(hào)的短時(shí)感知帶譜確定噪聲抑制頻率響應(yīng)；并且根據(jù)所述噪聲抑制頻率響應(yīng)整形輸入信號(hào)的當(dāng)前塊。
2.根據(jù)權(quán)利要求1的方法，包括的其它步驟是在所述處理步驟之前對(duì)所述輸入信號(hào)進(jìn)行前置濾波以加重其高頻分量。
3.根據(jù)權(quán)利要求2的方法，其中所述處理步驟包括的步驟是把離散傅里葉變換應(yīng)用到信號(hào)塊以提供每個(gè)塊的復(fù)數(shù)值的頻域表示；把信號(hào)塊的頻域表示轉(zhuǎn)換為僅有幅度的信號(hào)；在分離的頻帶之間平均僅有幅值的信號(hào)以提供所述長期感知帶譜的估計(jì)；并且消除感知帶譜中的時(shí)間變化以提供所述短時(shí)感知帶譜的估計(jì)。
4.根據(jù)權(quán)利要求3的方法，其中通過在所述整形步驟期間使用一種全極點(diǎn)濾波器可以模型化所述噪聲抑制頻率響應(yīng)。
5.根據(jù)權(quán)利要求1的方法，其中通過在所述整形步驟期間使用一種全極點(diǎn)濾波器可以模型化所述噪聲抑制頻率響應(yīng)。
6.根據(jù)權(quán)利要求1的方法，其中所述處理步驟包括的步驟是把離散傅里葉變換應(yīng)用到信號(hào)塊以提供每個(gè)塊的復(fù)數(shù)值的頻域表示；把信號(hào)塊的頻域表示轉(zhuǎn)換為僅有幅度的信號(hào)；在分離的頻帶之間平均僅有幅度的信號(hào)以提供所述長期感知帶譜的估計(jì)；并且消除感知帶譜中的時(shí)間變化以提供所述短時(shí)感知帶譜的估計(jì)。
7.一種用于抑制帶有噪聲和語音組合的輸入信號(hào)中的噪聲的設(shè)備，包括信號(hào)預(yù)處理器，用于把所述輸入信號(hào)分成塊；快速傅里葉變換處理器，用于處理所述塊以提供所述輸入信號(hào)的復(fù)數(shù)值的頻域譜；累加器，用于把所述復(fù)數(shù)值的頻域譜累加為包括長度不等的頻帶的長期感知帶譜；濾波器，把長期感知帶譜濾波以產(chǎn)生短時(shí)感知帶譜的估計(jì)，它包括所述長期感知帶譜的當(dāng)前段外加噪聲；語音/暫停檢測(cè)器，用于確定所述輸入信號(hào)當(dāng)前是僅帶有噪聲還是帶有語音和噪聲的組合；響應(yīng)所述語音/暫停檢測(cè)電路的噪聲譜估計(jì)器，當(dāng)輸入信號(hào)僅是噪聲時(shí)，用于根據(jù)輸入信號(hào)的短時(shí)感知帶譜來更新噪聲的長期感知帶譜的估計(jì)；響應(yīng)所述噪聲譜估計(jì)器的頻譜增益處理器，用于確定噪聲抑制頻率響應(yīng)；和響應(yīng)所述頻譜增益處理器的頻譜整形處理器，用于整形輸入信號(hào)的當(dāng)前塊以抑制其中的噪聲。
8.根據(jù)權(quán)利要求7的設(shè)備，其中所述頻譜整形處理器包括全極點(diǎn)濾波器。
9.根據(jù)權(quán)利要求8的設(shè)備，其中所述信號(hào)預(yù)處理器預(yù)先過濾所述輸入信號(hào)以加重其高頻分量。
10.根據(jù)權(quán)利要求7的設(shè)備，其中所述信號(hào)預(yù)處理器預(yù)先過濾所述輸入信號(hào)以加重其高頻分量。
11.一種用于抑制帶有噪聲和音頻信息組合的輸入信號(hào)中的噪聲的方法，包括的步驟是；在頻域中計(jì)算所述輸入信號(hào)的噪聲抑制頻率響應(yīng)；并且把所述噪聲抑制頻率響應(yīng)應(yīng)用到時(shí)域中的所述輸入信號(hào)以抑制輸入信號(hào)中的噪聲。
12.根據(jù)權(quán)利要求11的方法，包括的其它步驟是在計(jì)算所述輸入信號(hào)的噪聲抑制頻率響應(yīng)之前把所述輸入信號(hào)分成塊
13.根據(jù)權(quán)利要求12的方法，其中所述噪聲抑制頻率響應(yīng)借助于通過確定噪聲抑制頻率響應(yīng)的自相關(guān)函數(shù)產(chǎn)生的全極點(diǎn)濾波器而應(yīng)用到了所述輸入信號(hào)。
14.根據(jù)權(quán)利要求11的方法，其中所述噪聲抑制頻率響應(yīng)借助于通過確定噪聲抑制頻率響應(yīng)的自相關(guān)函數(shù)產(chǎn)生的全極點(diǎn)濾波器而應(yīng)用到了所述輸入信號(hào)。
全文摘要
帶有噪聲與語音的組合的輸入信號(hào)中的噪聲得到抑制。輸入信號(hào)被分為(10)信號(hào)塊,這些信號(hào)塊被處理(14)以提供輸入信號(hào)的短時(shí)感知帶譜的估計(jì)。在各個(gè)不同的時(shí)間點(diǎn)確定(16)輸入信號(hào)是僅帶有噪聲還是帶有噪聲和語音的組合。當(dāng)輸入信號(hào)僅帶有噪聲時(shí),相應(yīng)估計(jì)的輸入信號(hào)的短時(shí)感知帶譜被用于更新噪聲的長期感知帶譜的估計(jì)(18)。隨后根據(jù)噪聲的長期感知帶譜和輸入信號(hào)的短時(shí)感知帶譜的估計(jì)確定(20)噪聲抑制的頻率響應(yīng),并根據(jù)該噪聲抑制頻率響應(yīng)整形(24)輸入信號(hào)的當(dāng)前塊。
文檔編號(hào)G10L21/02GK1326584SQ99813506
公開日2001年12月12日申請(qǐng)日期1999年9月15日優(yōu)先權(quán)日1998年9月23日
發(fā)明者史蒂文·H·艾沙貝里申請(qǐng)人:索拉納技術(shù)開發(fā)公司

完整全部詳細(xì)技術(shù)資料下載