噪聲抑制系統(tǒng)和方法

文檔序號：2820375閱讀：908來源：國知局

專利名稱：噪聲抑制系統(tǒng)和方法
技術領域：
本發(fā)明涉及語音處理。具體而言，本發(fā)明涉及用于語音處理的噪聲抑制系統(tǒng)和方法。
背景技術：
利用數(shù)字技術傳送語音正變得普遍起來，特別是在蜂窩電話和個人通信系統(tǒng)(PCS)應用中。這產生了改進語音處理技術的興趣。一個正在改進的領域是噪聲抑制技術。
語音通信系統(tǒng)中的噪聲抑制一般通過從所需語音中濾除環(huán)境背景噪聲改進所需音頻信號的總體質量。在環(huán)境背景噪聲異常高的環(huán)境下(例如飛機、運動的交通工具或嘈雜的工廠)這種語音增強技術特別需要。
有一種噪聲抑制技術是譜減除或譜增益修正技術。利用這種方法，輸入的音頻信號被劃分為頻率信道，并且特定的頻率信道按照其噪聲能量衰減。每種頻率信道的背景噪聲估值被用來產生信道內語音的信噪比(SNR)，并且SNR被用來計算每個信道的增益因子。隨后增益因子確定特定信道衰減。衰減的信道被重新組合以產生噪聲抑制的輸出信號。
在涉及較高背景噪聲環(huán)境的特定應用中，大多數(shù)噪聲抑制技術在性能上受到明顯的限制。這種應用的一個例子是蜂窩移動通信系統(tǒng)的車載揚聲電話選項。該揚聲電話選項為車輛司機提供免提操作。免提耳機一般離用戶很遠(例如安裝在頭盔上)。由于道路和刮風引起的噪聲，距離較遠的耳機向陸基方傳送的信號的SNR較差。雖然在陸基端接收的語音通常是清楚的，但是連續(xù)處于這種背景噪聲常常會增加聽者的疲勞。
對于工作正常的噪聲抑制系統(tǒng)，重要是精確確定語音的SNR。但是由于當前所用噪聲檢測器的局限，難以精確確定語音信號的SNR。譜減除技術在語音不出現(xiàn)時更新背景噪聲估值。當語音不出現(xiàn)時，將測得的譜能量歸因于噪聲，并且根據(jù)測得的譜能量更新噪聲估值。因此，為了獲得精確的噪聲能量估值以計算SNR，區(qū)分語音存在周期與語音不存在期間很重要。
一種示意性的語音檢測技術采用語音度量計算器完成噪聲更新判定。語音度量是對信道能量總體語音類特性的量度。首先，原始的SNR估值被用來建立語音度量表索引以獲得每個信道的語音度量值。對單個信道語音度量值求和以產生能量參數(shù)，它與背景噪聲更新閾值進行比較。如果語音度量之和等于或大于閾值，則信號被稱為包含語音。如果語音度量之和小于閾值，輸入幀被視為噪聲，并且完成背景噪聲更新。但是在高背景噪聲、突發(fā)性背景噪聲或逐漸增大的噪聲源的情況下，SNR測量將很大，導致較高的語音度量，從而阻止了噪聲估值的更新。
對語音度量計算器技術的進一步改進是測量信道能量偏差。該方法假定噪聲在時間上具有恒定的譜能量，而語音在時間上具有變化的譜能量。因此對信道能量在時間上積分，并且如果有較大的信道能量偏差則檢測出語音，而如果只有較小的信道能量偏差則檢測出噪聲。測量信道能量偏差的語音檢測器將檢測出噪聲突發(fā)性的增大。但是當輸入語音信號能量恒定時信道能量偏差方法提供了不精確的結果。而且對于噪聲源逐漸增大的情況，輸入能量的變化將導致能量偏差較大，即使需要更新也會阻止噪聲估值更新。
除了精確的語音檢測器以外，語音抑制系統(tǒng)必需適當?shù)卣{整信道增益。應該調整信道增益從而在不犧牲語音質量的前提下抑制噪聲。信道增益調整的其中一個方法是將增益作為語音信號的總噪聲估值和SNR的函數(shù)計算。一般情況下，總噪聲估值的增加導致給定SNR增益因子的降低。降低的增益因子表明衰減因子較大。該技術施加最小的增益值以防止在總噪聲估值非常大時信道增益過度衰減。通過利用硬嵌位的最小增益值，在噪聲抑制與語音質量之間找到了折衷。當嵌位較低時，噪聲抑制得到了改進但是語音質量變差。當嵌位較高時，噪聲抑制變差但是語音質量得到改進。
為了提供改進的噪聲抑制系統(tǒng)，需要解決語音檢測和信道增益計算的當前技術的限制。這些問題和缺陷由本發(fā)明按照下述方式解決。

發(fā)明內容
本發(fā)明是一種用于語音處理系統(tǒng)的噪聲抑制系統(tǒng)和方法。本發(fā)明的目標是提供一種確定輸入信號中是否存在語音的語音檢測器。為了精確確定語音的信噪比(SNR)，需要可靠的語音檢測器。當判斷語音不存在時，認為輸入信號完全是噪聲信號，并且可以測量噪聲能量。隨后利用噪聲能量確定SNR。本發(fā)明另一個目標是提供改進的增益確定單元以抑制噪聲。
按照本發(fā)明，噪聲抑制系統(tǒng)包括確定輸入信號幀內語音是否存在的語音檢測器?？梢愿鶕?jù)輸入信號中語音的SNR量度判斷語音。SNR估值器根據(jù)能量估值器產生的信號能量估值和噪聲能量估值器產生的噪聲能量估值估計SNR。也可以根據(jù)輸入信號編碼速率判斷語音。在可變速率通信系統(tǒng)中，每個輸入幀根據(jù)輸入幀的內容被指定一個從預設速率組內選定的編碼速率。通常情況下，速率取決于語音活動水平，因此包含語音的幀將被指定較高的速率，而不包含語音的幀將被指定較低的速率。而且可以根據(jù)一個或更多的表征輸入信號特征的模式測量判斷語音。如果判斷輸入幀內沒有語音，則噪聲能量估值器更新噪聲能量估值。
信道增益估值器確定輸入信號幀的增益。如果幀內沒有語音，則增益設定為預設的最小值。否則，根據(jù)幀的頻率內容確定增益。在較佳實施例中，確定每組預定義頻率信道的增益因子。對于每個信道，根據(jù)信道內語音SNR確定增益。對于每個信道，利用適于信道所在頻帶特性的函數(shù)定義增益。一般而言，對于預定義的頻帶，將增益設定為隨SNR增大而線性增大。此外，每個頻帶的最小增益可以根據(jù)環(huán)境特性調整。例如可以實施用戶可選的最小增益。根據(jù)能量估值器生成的信道能量估值和噪聲能量估值器生成的信道噪聲能量估值確定信道的SNR。利用增益因子調整不同信道內信號的增益，并且組合增益被調整的信道以產生噪聲抑制的輸出信號。
附圖簡要說明通過以下附圖對本發(fā)明的描述可以進一步理解本發(fā)明的特征、目標和優(yōu)點，附圖中相同的部分用相同的標號表示，其中

圖1為利用噪聲抑制器的通信系統(tǒng)框圖；圖2為按照本發(fā)明的噪聲抑制器框圖；圖3為按照本發(fā)明的實現(xiàn)噪聲抑制的基于頻率的增益因子圖；以及圖4為圖2處理單元實施的噪聲抑制中處理步驟實施例的流程圖。
實施發(fā)明的較佳方式在語音通信系統(tǒng)中，通常利用噪聲抑制器抑制不需要的環(huán)境背景噪聲。大多數(shù)噪聲抑制器通過估計一個或多個頻帶內的輸入數(shù)據(jù)信號背景噪聲特性并從輸入信號中減除估值平均值實現(xiàn)抑制操作。平均背景噪聲的估值在沒有語音期間更新。噪聲抑制器需要精確判斷背景噪聲水平以進行正確的操作。此外，噪聲抑制水平必需根據(jù)輸入信號的語音和噪聲特性正確調整。這些要求由本發(fā)明的噪聲抑制系統(tǒng)解決。
圖1示出了按照本發(fā)明的示意性語音處理系統(tǒng)100。系統(tǒng)100包含耳機102、A/D轉換器104、語音處理器106、發(fā)射機110和天線112。耳機102可以與圖1其他單元一起位于蜂窩電話內。耳機102也可以是蜂窩通信系統(tǒng)車載揚聲電話選項的免提耳機。車載揚聲電話組件有時稱為車用套件(carkit)。在耳機102是車用套件一部分的場合，噪聲抑制功能特別重要。由于免提耳機一般位于離用戶一定距離的位置，所以由于道路和刮風的原因，接收到的聲音信號的語音SNR總是較差。
參見圖1，耳機102接收包含語音和/或背景噪聲的輸入音頻信號。輸入音頻信號由耳機102轉換為項s(t)表示的電聲信號。電聲信號可以由模擬-數(shù)字轉換器104從模擬信號轉換為脈沖編碼調制(PCM)樣本。在示意性實施例中，PCM樣本以64kbps由A/D轉換器104輸出并且如圖1所示用信號s(n)表示。數(shù)字信號s(n)由包含其他單元一道的噪聲抑制器108的語音處理器106接收。噪聲抑制器108按照本發(fā)明抑制信號s(n)中的噪聲。在車用件應用中，噪聲抑制器108確定背景環(huán)境噪聲的水平并調整信號增益以減弱這種環(huán)境噪聲的影響。除了噪聲抑制器108以外，語音處理器106一般還包含語音編碼器或聲碼器(未畫出)，它通過提取與人聲產生模型有關的參數(shù)壓縮語音。語音處理器106也可以包含回聲抵消器(未畫出)，它消除揚聲器(未畫出)與耳機102之間反饋引起的聲音回波。
在語音處理器106處理之后，信號被提供給發(fā)射機110，它根據(jù)諸如碼分多址(CDMA)、時分多址(TDMA)或頻分多址(FDMA)之類的預設格式完成調制。在示意性的實施例中，發(fā)射機110根據(jù)題為“利用衛(wèi)星或陸基中繼器的擴展頻譜多址通信系統(tǒng)”的美國專利No.4,901,307所述的CDMA調制格式調制信號，該專利作為參考文獻包含在這里。發(fā)射機隨后上變頻和放大調制信號，并且通過天線112發(fā)送調制信號。
應該認識到，噪聲抑制器108可以在不同于圖1系統(tǒng)100的語音處理系統(tǒng)內實施。例如噪聲抑制器108可以在包含語音郵件選項的電子郵件應用中使用。對于這類應用，圖1的發(fā)射機110和天線112不再需要。相反噪聲抑制信號由語音處理器106格式化以通過電子郵件網絡傳輸。
圖2示出了噪聲抑制器108的實施例。如圖2所示，輸入的音頻信號由預處理器202接收。預處理器202通過預加重和幀生成制作用于噪聲抑制的輸入信號。預加重通過加強信號高頻語音分量對語音信號功率譜密度重新分配。預加重基本上完成的是高通濾波功能，加強了重要的語音分量以提高頻域內三個分量的SNR。預處理器202也可以從輸入信號樣本中產生幀。在較佳實施例中，產生了80樣本/幀的10微秒幀。為了使處理精度更高，幀可以包含交疊的樣本。通過窗口化和對輸入信號的樣本加零產生幀。預處理信號被提供給變換單元204。在較佳實施例中，變換單元204對每幀輸入信號產生128個點的快速傅立葉變換(FFT)。但是應該理解的是，可以采用其他手段來分析輸入信號的頻率分量。
變換分量被提供給信道能量估值器206a，它產生N個變換信號信道的每一個的能量估值。對于每個信道，用于更新信道能量的一種技術將當前幀能量對于當前幀信道能量作平滑更新估計如下Eu(t)=αEch+(1-α)Eu(t-1)(1)這里更新的估值Eu(t)被定義為當前信道能量Ech和先前估計信道噪聲能量Eu(t-1)的函數(shù)。實施例設定α=0.55。
較佳實施例確定低頻信道的能量估值和高頻信道的能量估值，從而使N=2。低頻信道對應250～2250Hz的頻率，而高頻信道噪音2250～3500Hz的頻率。低頻信道的當前信道能量可以通過求和對應250～2250Hz的FFT點能量而確定，高頻信道的當前信道能量可以通過求和對應2250～3500Hz的FFT點能量確定。
能量估值被提供給語音檢測器208，它確定接收的語音信號中是否有語音。語音檢測器208的SNR估值器210a接收能量估值。SNR估值器210a根據(jù)信道能量估值和信道噪聲能量估值確定N個信道的每一個的語音信噪比(SNR)。信道噪聲能量估值由噪聲能量估值器214a提供，通常對應在不包含語音的先前幀上平滑的估計噪聲能量。
語音檢測器208還包括速率判斷單元212，它從預設的數(shù)據(jù)率組選擇輸入信號的數(shù)據(jù)率。在某些通信系統(tǒng)中，數(shù)據(jù)被編碼使得數(shù)據(jù)率可以逐幀改變。這稱為變速率通信系統(tǒng)。根據(jù)可變速率方案編碼數(shù)據(jù)的語音編碼器一般稱為可變速率聲碼器?？勺兯俾事暣a器的實施例參見題為“可變速率聲碼器”的美國專利No.5,414,796，它作為參考文獻包含在本發(fā)明中。當沒有有用語音發(fā)送時利用可變速率通信信道消除了不必要的傳輸。在聲碼器內部，根據(jù)語音活動性的變化，利用算法產生每幀內信息位數(shù)變化的速率。例如帶一組四種速率的聲碼器可以根據(jù)講話者的活動性產生包含16、40、80或171個信息位的20毫秒數(shù)據(jù)幀。需要通過改變通信傳輸速率在固定時間內發(fā)送每個數(shù)據(jù)幀。
由于幀速率依賴于時間幀期間的語音活動性，所以速率的確定提供了語音是否存在的信息。在利用變速率的系統(tǒng)中，判斷幀是否應該以最高速率編碼通常指示了語音的存在，而判斷幀是否應該以最低速率編碼通常指示了語音的不存在。中等速率一般指示在語音存在與不存在之間的過渡。
速率判斷單元212可以用許多速率判斷算法實施。在共同待批的題為“用于降低可變速率聲編碼的方法和裝置”的美國專利申請No.08/286,842中揭示了這樣一種速率判斷算法，它作為參考文獻包含在本發(fā)明中。該技術提供了稱為模式量度的一組速率判斷判據(jù)。第一種模式量度是來自先前編碼幀的目標匹配信噪比(TMSNR)，它提供了有關如何更好地通過將合成的語音信號與輸入語言信號比較完成編碼模型的信息。第二種模式量度是歸一化自相關函數(shù)(NACF)，它測量了語音幀中的周期性。第三種模式量度是零交叉(ZC)參數(shù)，它測量了輸入語音幀內的高頻內容。第四種模式量度為預測增益差分(PGD)，它確定編碼器是否保持其預測效率。第五種模式量度是能量差分(ED)，它將當前幀內的能量與平均幀能量進行比較。利用這些模式量度，速率判斷邏輯選擇輸入幀的編碼速率。
應該理解的是，雖然圖2示出了速率判斷單元212作為噪聲抑制器108的單元包含在其中，但是速率信息也可以由語音處理器106另一單元提供給噪聲抑制器108(圖1)。例如語音處理器106可以包含可變速率聲碼器(未畫出)，它判斷輸入信號每幀的編碼速率。代之以噪聲抑制器108獨立完成速率判斷，可以由可變速率聲碼器向噪聲抑制器108提供速率信息。
應該理解的是，代之以利用速率判斷來確定語音的存在，語音檢測器208可以采用與速率判斷有關的模式量度子集。例如速率判斷單元212可以由NACF單元代替(未畫出)，它如上所述測量了語音幀內的周期性。NACF根據(jù)下列關系估值NACF=T&Element;[t1,t2]max{Σn=0N-1e(n).e(n-T)}0.5·Σn=0N-1{e2(n)+e2(n-T)}--(2)]]>這里N為語音幀的樣本數(shù)，t1和t2為用來估計NACF的T個樣本內的邊界。NACF根據(jù)共振峰殘余信號e(n)估計NACF。共振峰頻率為語音的共振頻率。采用短周期濾波器濾波語音信號以獲得共振峰頻率。利用短周期濾波器濾波后的殘余信號為共振峰殘余信號，并包含長周期語音信息，例如信號音調。
由于包含在語音信號內的信號的周期性與不包含在語音信號內的信號的周期性不同，所以NACF模式量度適于確定語音的存在與否。語音信號總是具有周期性分量的特征。當語音不存在時，信號一般不具有周期性分量。因此NACF量度是較好的指示器，可以為語音檢測器208所用。
語音檢測器208可以采用諸如NACF之類的量度代替無法產生速率判斷情況下的速率判斷。例如，如果不能從可變速率聲碼器得到速率判斷，并且噪聲處理器108不具備產生自身速率判斷的處理能力，則諸如NACF之類的模式量度提供了所需的選擇。這可能是處理能力受到限制的車用件應用場合。
此外應該理解的是，語音檢測器208可以單獨根據(jù)速率判斷、模式量度或SNR估值作出語音是否存在的判斷。雖然增加量度應該可改進判斷的精度，但是單獨一個量度已經可以得到合適的結果。
速率判斷(或模式量度)和SNR估值器210a生成的SNR估值被提供給語音判斷單元216。語音判斷單元216根據(jù)其輸入產生輸入信號中語音是否存在的判斷。有關語音是否存在的判斷將決定是否應該更新噪聲能量估值。噪聲能量估值被SNR估值器210a用來確定輸入信號中語音的SNR。SNR又被用來計算噪聲抑制的輸入信號衰減水平。如果判斷存在語音，則語音判斷單元216打開開關218a，防止噪聲能量估值器214a更新噪聲能量估值。如果判斷不存在語音，則假定輸入信號為噪聲，并且語音判斷單元216關閉開關218a，使噪聲能量估值器214a更新噪聲估值。雖然圖2所示的為開關218a，但是應該理解的是語音判斷單元216向噪聲能量估值器214a提供的使能信號可以完成同樣的功能。
在較佳實施例中，估值的是兩個信道的SNR，語音判斷單元216根據(jù)下列程序產生噪聲更新判斷<pre listing-type="program-listing"><![CDATA[if(rate==min)if((chsnr1＞T1)OR(chsnr2＞T2))if(ratecount＞T3) update noise estimateelseratecount ++elseupdate noise estimateratecount=0elseratecount=0]]></pre>SNR估值器210a提供的信道SNR估值用chsnr1和chsnr2表示。由速率判斷單元212提供的輸入信號的速率用rate表示。計數(shù)器，即速率計數(shù)如下所述根據(jù)某些條件跟蹤幀數(shù)。
語音判斷單元216判斷語音不存在并判斷應該更新噪聲估值，如果速率為可變速率中的最小速率，則chsnr1大于閾值T1或chsrr2大于閾值T2，并且速率計數(shù)大于閾值T3。如果速率最小，并且chsnr1大于閾值T1或chsnr2大于閾值T2，但是速率計數(shù)小于閾值T3，則速率計數(shù)增一但是不更新噪聲估值。計數(shù)器，即速率計數(shù)通過對具有最小速率但是至少在一個信道中具有高能量的幀的計數(shù)，檢測出噪聲的突發(fā)性增加水平或者逐漸增大的噪聲源。提供高SNR信號不包含語音的指示器的計數(shù)器被設定為計數(shù)直到信號內檢測到語音。較佳實施例設定T1=T2=5dB，而T2=100幀，這里是對10毫秒的幀估值。
如果速率最小，則chsnr1小于T1，并且chsnr2小于T2，則語音判斷單元216將確定語音不存在并且應該更新噪聲估值。此外，速率計數(shù)復位為零。
如果速率不是最小，則語音判斷單元216將確定幀包含語音并且不更新噪聲估值，但是速率計數(shù)復位為零。
代之以利用速率量度來判斷語音的存在，可以采用諸如NACF之類的模式量度。語音判斷單元216可以根據(jù)下列程序，利用NACF量度來確定語音的存存和噪聲更新判斷
<pre listing-type="program-listing"><![CDATA[if(pitchPresent==FALSE)if((chsnr1＞TH1)OR(chsnr2＞TH2))if(pitchCount＞TH3)update noise estimateelsepitchCount ++elseupdate noise estimatepitchCount=0elsepitchCount=0]]></pre>這里pitchPresent定義如下<pre listing-type="program-listing"><![CDATA[if(NACF＞TT1)pitchPresent=TRUENACFcount=0elseif(TT2≤NACF≤TT1)if(NACFcount＞TT3)pitchPresent=TRUE elsepitchPresent=FALSENACFcount ++elsepitchPresent=FALSENACFcount=0]]></pre>SNR估值器210a提供的信道SNR估值也用chsnr1和chsnr2表示。NACF單元(未畫出)產生如上定義指示音調是否存在的量度pitchPresent。計數(shù)器，即pitchCount如下所述根據(jù)某些條件跟蹤幀數(shù)。
量度pitchPresent確定如果NACF大于閾值TT1則存在音調。如果NACF在大于閾值TT3的若干幀數(shù)的中間范圍內(TT2≤NACF≤TT1)，則也確定存在音調。計數(shù)器，即NACFcount跟蹤TT2≤NACF≤TT1的幀數(shù)。在較佳實施例中，TT1=0.6,TT2=0.4，并且TT3=8幀，這里估值是對10毫秒的幀。
語音判斷單元216判斷語音不存在并且應該更新噪聲估值，如果pitchPresent量度指示音調不存在(pitchPresent=False)，則chsnr1大于閾值TH1或chsnr2大于閾值TH2，并且pitchCount大于閾值TH3。如果pitchPresent=False，并且chsnr1大于TH1或chsnr2大于TH2，但是pitchPresent小于TH3，則pitchPresent增一但是不更新噪聲估值。計數(shù)器，即pitchCount用來檢測噪聲的突發(fā)性增加水平或者逐漸增大的噪聲源。較佳實施例設定T1=T2=5dB，而T2=100幀，這里的估值是10毫秒的幀。
如果pitchPresent指示不存在音調，并且chsnr1小于TH1和chsnr2小于TH2，則語音判斷單元216將確定語音不存在和應該更新噪聲估值。此外，pitchCount復位為零。
如果pitchPresent指示存在音調速率(pitchPresent=TRUE)，則語音判斷單元216將確定幀包含語音并且不更新噪聲估值，但是pitchCount復位為零。
在判斷不存在語音的基礎上，關閉開關218a，使噪聲能量估值器214a更新噪聲估值。噪聲能量估值器214a一般對輸入信號N個信道的每一個產生噪聲能量估值。由于不存在語音，所以假定能量都是由噪聲貢獻的。對于每個信道，噪聲能量更新被估計為當前信道能量對于不包含語音的先前幀信道能量的平滑。例如可以根據(jù)下述關系獲得更新估值Eu(t)=βEch+(1-β)Eu(t-1)(3)這里更新的估值Eu(t)被定義為當前信道能量Ech和先前估計信道噪聲能量Eu(t-1)的函數(shù)。實施例設定β=0.1。更新的信道噪聲能量估值被提供給SNR估值器210a。這些信道噪聲能量估值將被用來獲得輸入信號下一幀的信道SNR估值更新。
有關是否存在語音的判斷也被提供給信道增益估值器220。信道增益估值器220確定輸入信號幀的增益和噪聲抑制水平。如果語音判斷單元216已經判斷語音不存在，則幀增益設定為預設的最小增益水平。否則，增益被確定為頻率的函數(shù)。在較佳實施例中，根據(jù)圖3的曲線計算增益。雖然圖3為曲線形式，但是應該理解的是圖3所示函數(shù)可以信道增益估值器220內查詢表的形式實施。
由圖3可見，本發(fā)明的實施例為L個頻帶的每一個定義了各自的增益曲線。雖然L可以是任何大于等于1的數(shù)，但是在圖3中為3個頻帶(L=3)。因此低頻帶信道的增益因子可以利用低頻帶曲線確定，中頻帶信道的增益因子可以利用中頻帶曲線確定，而高頻帶信道的增益因子可以利用高頻帶曲線確定。
雖然可以只利用輸入信號的一條增益曲線(L=1)完成噪聲抑制，但是利用多個頻帶可以減小語音質量下降。在環(huán)境噪聲下(例如道路和刮風情況)，噪聲信號的能量在低頻段較高，并且能量通常隨頻率增加而減小。
在圖3中，斜率和y截距固定的線性方程被用來確定每種頻帶的增益因子。增益因子的確定可以用下列方程描述gain[low band](dB)=slope1*SNR+lowBandYintercept；(4)gain[mid band](dB)=slope2*SNR+midBandYintercept；(5)gain[high band](dB)=slope3*SNR+highBandYintercept. (6)較佳實施例將低頻指定為125-375赫茲，中頻指定為375-2625赫茲，而高頻指定為2625-4000赫茲。斜率和截距根據(jù)實驗確定。雖然每個頻帶可以采用不同的斜率，但是較佳實施例對每個頻帶采用同一斜率0.39。而且lowBandYintercept設定為-17dB，midBandYintercept設定為-13dB，而highBandYintercept設定為-13dB。
選項特征將向用戶提供包含噪聲抑制器以選擇所需y截距的裝置。因此可以語音質量下降的代價選擇較大的噪聲抑制(較低的y截距)。y截距可以是噪聲抑制器108確定的某些量度的函數(shù)的變量。例如當在預定時間間隔內檢測到過量噪聲能量時可能需要更強的噪聲抑制(較低的y截距)。當檢測到諸如混串音之類的情況時可能需要較弱的噪聲抑制(較高的y截距)。在混串音期間，存在背景講話者，并且可以保證較低的噪聲抑制以防止切斷主要的講話者。另一選項特征將提供可選的增益曲線斜率。而且應該理解的是，除了方程(4)-(6)所述的曲線，也可以有其他更適于確定一定情況下增益因子的曲線。
對于包含語音的每幀，確定輸入信號的M個頻率信道每一個的增益因子，這里M為被估值的預定信道數(shù)。較佳實施例估值16個信道(M=16)。參見圖3，利用低頻曲線確定具有低頻范圍內頻率分量的信道的增益因子。利用中頻曲線確定具有中頻范圍內頻率分量的信道的增益因子。利用高頻曲線確定具有高頻范圍內頻率分量的信道的增益因子。
對于每個估值的信道，采用信道SNR，根據(jù)合適的曲線得出增益因子。圖2所示信道SNR由信道能量估值器206b、噪聲能量估值器214b和SNR估值器210b估值。對于每幀輸入信號，信道能量估值器206b產生變換后輸入信號M個信道每一個的能量估值。信道能量估值可以利用上述方程(1)的關系更新。如果語音判斷單元216確定輸入信號中沒有語音，則開關218b關閉，并且噪聲估值器214b更新信道噪聲能量的估值。對于M個信道的每一個，更新的噪聲能量估值基于信道能量估值器206b確定的信道能量估值。更新的估值可以利用上述方程(3)的關系估值。信道噪聲估值被提供給SNR估值器210b。因此SNR估值器210b根據(jù)特定語音幀的信道能量估值和噪聲能量估值器214b提供的信道噪聲能量估值確定每個語音幀的信道SNR估值。
本領域內的技術人員將認識到，信道能量估值器206a、噪聲能量估值器214a、開關218a和SNR估值器210a完成的功能分別相似于信道能量估值器206b、噪聲能量估值器214b、開關218b和SNR估值器210b完成的功能。因此，雖然在圖2中表示為單獨的處理單元，信道能量估值器206a和206b可以組合為一個處理單元，噪聲能量估值器214a和214b可以組合為一個處理單元，開關218a和218b可以組合為一個單元，而SNR估值器210a和210b可以組合為一個單元。作為組合單元，信道能量估值器將確定用于語音檢測的N個信道和用于確定信道增益因子的M個信道的信道能量估值。值得注意的是，可能的情況是N=M。同樣，噪聲能量估值器和SNR估值器將在N個信道和M個信道上工作。SNR估值器隨后向語音判斷單元216提供N個SNR估值，并且向信道增益估值器220提供M個SNR估值。
信道增益因子由信道增益估值器220提供給增益調整器224。增益調整器224還從變換單元204接收FFT變換的輸入信號。變換信號的增益按照信道增益因子作適當調整。例如在上述實施例中(其中M=16)，根據(jù)合適的信道增益因子調整屬于16個信道某一個的變換(FFT)點。
增益調整器224產生的增益調整信號隨后被提供給逆變換單元226，在較佳實施例中，它產生信號的逆快速傅立葉變換(IFFT)。逆變換信號被提供給后處理單元228。如果輸入幀已經與交疊樣本一起形成，則后處理器單元228調整交疊的輸出信號。如果信號經歷過預加重，則后處理單元228還完成去加重。去加重使預加重期間加強的頻率分離衰減。通過減少待處理頻率分量外部的噪聲分量，預加重/去加重過程有效地進行了噪聲抑制。
應該理解的是，圖2所示噪聲抑制器的各種處理塊可以數(shù)字信號處理器(DSP)或專用集成電路(ASIC)方式實現(xiàn)。本發(fā)明功能性的描述將使普通技術人員無需過度的實驗就能以DSP或ASIC方式實施本發(fā)明。
參見圖4的流程圖，它示出了涉及圖2和3所述處理的一些步驟。雖然示出的步驟是順序的，但是本領域內技術人員將會認識到某些步驟的順序是可交換的。
過程從步驟402開始。在步驟404，變換單元204將輸入的音頻信號變換為變換信號，通常為FFT信號。在步驟406，SNR估值器210b根據(jù)信道能量估值器206b提供的信道能量估值和噪聲能量估值器214b提供的信道噪聲能量估值確定輸入信號的M個信道的語音SNR。在步驟408，信道增益估值器220根據(jù)信道頻率確定輸入信號的M個信道的增益因子。如果在輸入信號幀內沒有語音，則信道增益估值器220將增益設定在最小水平。否則根據(jù)預定的函數(shù)確定M個信道每一個的增益因子。例如參見圖3，可以采用斜率和y截距固定的線性方程定義的函數(shù)，其中每個線性方程定義了預定頻帶的增益。在步驟410，增益調整器224利用M個增益因子調整變換信號的M個信道的增益。在步驟412，逆變換單元226逆變換經增益調整的變換信號，產生噪聲抑制的音頻信號。
在步驟414，SNR估值器210根據(jù)信道能量估值器206a提供的信道能量估值和噪聲能量估值器214a提供的信道噪聲能量估值確定輸入信號的N個信道的語音SNR。在步驟416，速率判斷單元212通過分析輸入信號確定輸入信號編碼速率。另外，可以確定諸如NACF之類的一個或多個模式量度。在步驟418，語音判斷單元216根據(jù)SNR估值器210提供的SNR、速率判斷單元212提供的速率和/或模式量度確定輸入信號中是否存在語音。如果在判斷塊420判斷不存在語音，則假定輸入信號完全是噪聲，并且由噪聲能量估值器214a在步驟422完成噪聲估值更新。噪聲能量估值器214a根據(jù)信道能量估值器206a確定的信道能量更新噪聲估值。不管是否檢測到語音，程序繼續(xù)轉入下一信號幀的處理。
以上借助實施例描述了本發(fā)明。對于本領域內技術人員來說，無需創(chuàng)造性的勞動即可對本發(fā)明作出各種修改。因此本發(fā)明的范圍和精神由后面所附權利要求限定。
權利要求
1．一種用于抑制引起信號背景噪聲的噪聲抑制器，其特征在于包括信噪比(SNR)估值器，用于產生所述音頻信號第一預定義頻率信道組的信道SNR估值；增益估值器，用于根據(jù)對應的一個所述信道SNR估值器產生每個所述頻率信道的增益因子，其中利用將增益因子定義為SNR增函數(shù)的增益函數(shù)得出所述增益因子；以及增益調整器，用于根據(jù)一個所述對應增益因子調整每個所述頻率信道的增益水平。
2．如權利要求1所述的噪聲抑制器，其特征在于所述增益函數(shù)依賴于頻率。
3．如權利要求1所述的噪聲抑制器，其特征在于所述增益函數(shù)以查詢表方式實現(xiàn)。
4．如權利要求1所述的噪聲抑制器，其特征在于所述增益函數(shù)是斜率和y截距固定的線性函數(shù)。
5．如權利要求4所述的噪聲抑制器，其特征在于所述y截距是用戶可選的。
6．如權利要求4所述的噪聲抑制器，其特征在于所述y截距根據(jù)所述音頻信號內噪聲的測量特性調整。
7．如權利要求4所述的噪聲抑制器，其特征在于所述斜率是用戶可選的。
8．如權利要求4所述的噪聲抑制器，其特征在于所述斜率根據(jù)所述音頻信號內噪聲的測量特性調整。
9．如權利要求1所述的噪聲抑制器，其特征在于進一步包括語音檢測器，用于確定所述音頻信號內是否存在語音；以及噪音能量估值器，用于在所述語音檢測器確定所述音頻信號內沒有語音時產生每個所述頻率信道的更新信道噪聲能量估值，所述更新信道噪聲能量估值提供給所述SNR估值器以產生所述信道SNR估值。
10．如權利要求9所述的噪聲抑制器，其特征在于所述語音檢測器包括信噪比(SNR)估值器，用于產生所述音頻信號第二預定義頻率信道組的信道SNR估值；語音判斷單元，用于根據(jù)所述第二頻率信道組的所述信道SNR估值確定是否存在語音。
11．如權利要求10所述的噪聲抑制器，其特征在于所述語音檢測器進一步包括速率判斷單元，用于確定所述音頻信號一組可變速率的編碼速率；其中所述語音判斷單元根據(jù)所述編碼速率確定語音的存在。
12．如權利要求10所述的噪聲抑制器，其特征在于所述語音檢測器進一步包括模式量度單元，用于確定至少一個表征所述音頻信號的模式量度；其中所述語音判斷單元根據(jù)所述至少一個模式量度確定語音的存在。
13．如權利要求12所述的噪聲抑制器，其特征在于所述模式量度包括歸一化自相關函數(shù)(NACF)量度。
14．一種用于抑制音頻信號背景噪聲的噪聲抑制器，其特征在于包括用于確定所述音頻信號內是否存在語音的裝置；用于產生所述音頻信號預定義頻率信道組的信道信噪比(SNR)估值的裝置；用于如果確定所述音頻信號內是否存在語音的裝置判斷語音存在則確定每個所述頻率信道的增益因子的裝置，其中為一組頻帶的每一個定義了增益函數(shù)，并且為每個所述頻帶定義隨SNR增大而增大的增益因子，信道增益因子根據(jù)范圍包含頻率信道的頻帶的增益函數(shù)確定；以及用于根據(jù)所述對應的信道增益因子調整每個所述頻率信道的增益水平的裝置。
15．如權利要求14所述的噪聲抑制器，其特征在于所述用于確定增益因子的裝置如果所述確定語音是否存在的裝置確定語音不存在則確定每個所述頻率信道的最小增益因子。
16．如權利要求14所述的噪聲抑制器，其特征在于所述增益函數(shù)以查詢表方式實現(xiàn)。
17．如權利要求14所述的噪聲抑制器，其特征在于所述增益函數(shù)是斜率和y截距固定的線性函數(shù)。
18．如權利要求17所述的噪聲抑制器，其特征在于每個所述y截距是用戶可選的。
19．如權利要求17所述的噪聲抑制器，其特征在于每個所述y截距根據(jù)所述音頻信號內噪聲的測量特性調整。
20．如權利要求17所述的噪聲抑制器，其特征在于每個所述斜率是用戶可選的。
21．如權利要求17所述的噪聲抑制器，其特征在于每個所述斜率根據(jù)所述音頻信號內噪聲的測量特性調整。
22．如權利要求14所述的噪聲抑制器，其特征在于進一步包括用于在所述確定語音是否存在的裝置確定所述音頻信號內沒有語音時產生每個所述頻率信道的更新信道噪聲能量估值，所述更新信道噪聲能量估值提供給用于產生SNR估值以更新所述信道SNR估值的裝置。
23．如權利要求14所述的噪聲抑制器，其特征在于所述確定語音是否存在的裝置包括用于確定所述音頻信號一組編碼速率的編碼速率的裝置；以及用于根據(jù)所述編碼速率作出語音是否存在的判斷的裝置。
24．如權利要求23所述的噪聲抑制器，其特征在于所述確定語音是否存在的裝置進一步包括用于產生所述音頻信號第二預定義頻率信道組的信道SNR估值的裝置；其中所述作出語音是否存在判斷的裝置進一步根據(jù)所述SNR估值作出判斷。
25．如權利要求14所述的噪聲抑制器，其特征在于所述確定語音是否存在的裝置包括用于確定至少一個表征所述音頻信號的模式量度的裝置；以及根據(jù)所述至少一個模式量度確定語音是否存在的判斷的裝置。
26．如權利要求25所述的噪聲抑制器，其特征在于所述確定語音是否存在的裝置進一步包括用于產生所述音頻信號第二預定義頻率信道組的信道SNR估值的裝置；其中所述作出語音是否存在判斷的裝置進一步根據(jù)所述SNR估值作出判斷。
27．如權利要求25所述的噪聲抑制器，其特征在于所述模式量度包括歸一化自相關函數(shù)(NACF)量度。
28．一種用于抑制音頻信號背景噪聲的方法，其特征在于包括以下步驟將所述語音信號變換為所述音頻信號的頻率表示；確定所述音頻信號內是否存在語音；產生所述頻率表示的預定義頻率信道組的信道信噪比(SNR)估值；如果確定所述音頻信號內存在語音則確定每個所述頻率信道的增益因子，其中為一組頻帶的每一個定義了增益函數(shù)，并且為每個所述頻帶定義隨SNR增大而增大的增益因子，因此對于每個所述頻率信道，信道增益因子根據(jù)范圍包含頻率信道的頻帶的增益函數(shù)確定；根據(jù)所述對應的信道增益因子調整每個所述頻率信道的增益水平；以及逆變換所述增益調整頻率表示以產生噪聲抑制的音頻信號。
29．如權利要求28所述的方法，其特征在于包括以下步驟如果確定語音不存在則確定每個所述頻率信道的最小增益因子。
30．如權利要求28所述的方法，其特征在于每個所述增益函數(shù)是斜率和y截距固定的線性函數(shù)。
31．如權利要求28所述的方法，其特征在于進一步包括以下步驟在所述確定語音是否存在的步驟確定所述音頻信號內沒有語音時產生每個所述頻率信道的更新信道噪聲能量估值，所述更新信道噪聲能量估值用于產生所述信道SNR估值。
32．如權利要求28所述的方法，其特征在于所述確定語音是否存在的步驟包括產生所述音頻信號第二預定義頻率信道組的信道SNR估值；根據(jù)所述第二組頻率信道的所述信道SNR估值判斷語音是否存在。
33．如權利要求32所述的方法，其特征在于所述確定語音是否存在的步驟進一步包括確定所述音頻信號一組可變編碼速率的一個編碼速率；以及根據(jù)所述編碼速率作出語音是否存在的判斷。
34．如權利要求32所述的方法，其特征在于所述確定語音是否存在的步驟進一步包括確定至少一個表征所述音頻信號的模式量度；以及根據(jù)所述至少一個模式量度確定語音是否存在的判斷。
35．如權利要求34所述的方法，其特征在于所述模式量度包括歸一化自相關函數(shù)(NACF)量度。
全文摘要
一種用于語音處理系統(tǒng)(108)的噪聲抑制系統(tǒng)和方法。增益估值器(220)確定每個輸入信號幀的增益和噪聲抑制水平,隨后將增益設定為預定的最小值。如果幀內有語音,則調整器(224)確定頻率信道預定義組每個信道的增益因子。對于每個信道,增益因子是信道內語音SNR的函數(shù)。信道SNR由SNR估值器(210b)根據(jù)能量估值器(206b)提供的信道能量估值和噪聲能量估值器(214b)提供的信道噪聲能量估值產生。噪聲能量估值器(214b)更新由語音檢測器(208)確定的沒有語音的幀期間的估值。
文檔編號G10L21/0232GK1312938SQ97182430
公開日2001年9月12日申請日期1997年9月30日優(yōu)先權日1997年9月2日
發(fā)明者A·P·毛羅申請人:夸爾柯姆股份有限公司

完整全部詳細技術資料下載