專利名稱:語(yǔ)音活動(dòng)檢測(cè)的方法和背景估計(jì)器的制作方法
技術(shù)領(lǐng)域:
本發(fā)明的實(shí)施例涉及語(yǔ)音活動(dòng)檢測(cè)器的方法和背景估計(jì)器。
背景技術(shù):
背景噪聲估計(jì)用作對(duì)背景噪聲的表征,并且在諸如噪聲抑制、語(yǔ)音活動(dòng)檢測(cè)器、SNR (信噪比)估計(jì)等應(yīng)用中是有用的。背景噪聲估計(jì)的比較重要的屬性包括應(yīng)當(dāng)能夠跟蹤輸入噪聲特性的改變;以及 還應(yīng)當(dāng)能夠處理噪聲特性和/或強(qiáng)度的階躍改變(如,突變),同時(shí)還避免使用非噪聲段落來(lái)更新背景噪聲估計(jì)。在用于對(duì)話語(yǔ)音的語(yǔ)音編碼系統(tǒng)中,普遍使用通常使用非連續(xù)發(fā)送(DTX)來(lái)增加編碼的效率。還可以使用可變比特率(VBR)編碼來(lái)降低比特率。原因在于對(duì)話語(yǔ)音包含了嵌入在語(yǔ)音中的大量停頓,例如當(dāng)一個(gè)人在說(shuō)話而另一個(gè)人在聆聽(tīng)時(shí)。因此,利用非連續(xù)發(fā)送(DTX),語(yǔ)音編碼器平均僅在大約50%的時(shí)間上是活動(dòng)的,且可以使用舒適噪聲對(duì)其余時(shí)間進(jìn)行編碼。使用DTX的一個(gè)示例是AMR(自適應(yīng)多速率)窄帶。對(duì)于高質(zhì)量DTX操作,即,無(wú)劣化語(yǔ)音質(zhì)量的情況下,在輸入信號(hào)中檢測(cè)語(yǔ)音的周期是十分重要的。這是由語(yǔ)音活動(dòng)檢測(cè)器(VAD)來(lái)完成的。DTX邏輯使用VAD結(jié)果來(lái)確定如何/何時(shí)在語(yǔ)音和舒適噪聲間切換。圖I示出了一般化VAD 180的總體框圖,其獲取根據(jù)具體實(shí)現(xiàn)被分為5至30ms的數(shù)據(jù)幀的輸入信號(hào)100作為輸入,并產(chǎn)生VAD判決作為輸出160。S卩,VAD判決160是針對(duì)每幀的該幀包含語(yǔ)音還是噪聲的判決,又稱VAD_f lag。通用VAD 180包括從輸入信號(hào)中提取用于VAD判決的主要特征的特征提取器120,主要特征的一個(gè)示例是被用作每幀輸入信號(hào)的頻率表示的子帶能量。為了進(jìn)行判決,背景估計(jì)器130提供背景信號(hào)的子帶估計(jì)(對(duì)先前輸入幀進(jìn)行估計(jì))。操作控制器110采集輸入信號(hào)的特性(如,長(zhǎng)期噪聲強(qiáng)度、用于長(zhǎng)期SNR計(jì)算的長(zhǎng)期語(yǔ)音強(qiáng)度、以及長(zhǎng)期噪聲強(qiáng)度變化),作為初級(jí)語(yǔ)音檢測(cè)器的輸入信號(hào)。由初級(jí)語(yǔ)音活動(dòng)檢測(cè)器140來(lái)作出初級(jí)判決“vad_prim” 150,且初級(jí)判決“vad_prim”150基本上就是對(duì)當(dāng)前幀的特征與(根據(jù)先前輸入幀估計(jì)出的)背景特征的比較,其中,大于閾值的差異導(dǎo)致活動(dòng)初級(jí)判決。尾響添加(hangover addition)塊170用于基于過(guò)去的初級(jí)判決對(duì)該初級(jí)判決進(jìn)行擴(kuò)展,以形成最終判決“vad_flag”160。使用尾響的原因主要是為了減少/消除“講到一半” (mid speech)的風(fēng)險(xiǎn)以及“語(yǔ)音突發(fā)”(speech burst)的后端截?cái)?backend clipping)。然而,該尾響也可以用于避免音樂(lè)段落的截?cái)?。操作控制?10可以根據(jù)輸入信號(hào)的特性來(lái)調(diào)整初級(jí)語(yǔ)音活動(dòng)檢測(cè)器140的閾值以及尾響添加170的長(zhǎng)度。背景估計(jì)可以通過(guò)以下兩個(gè)根本不同的原理來(lái)實(shí)現(xiàn)或者使用初級(jí)判決(即,使用圖I中的點(diǎn)劃線所示的判決或判決度量反饋);或者使用輸入信號(hào)的某些其他特性(即,不使用判決反饋)。還可以使用兩種策略的組合。
存在可以使用的大量不同的特征,但在VAD中使用的ー個(gè)特征是輸入信號(hào)的頻率特性。計(jì)算輸入信號(hào)的頻率子帶中的能量是ー種流行的表示輸入頻率特性的方式。采用該方式,背景噪聲特征之ー是每個(gè)子帶的能量值的矢量。這些能量值是在頻域中表征輸入信號(hào)中背景噪聲的值。為了實(shí)現(xiàn)對(duì)實(shí)際噪聲的跟蹤,可以至少三種不同方式來(lái)進(jìn)行估計(jì)更新。第一種方式是,針對(duì)姆個(gè)頻率倉(cāng)(frequency bin)使用AR過(guò)程(自回歸規(guī)程)來(lái)處理更新?;旧?,對(duì)于這類更新,更新的步長(zhǎng)與觀察到的當(dāng)前輸入和當(dāng)前背景估計(jì)之差成正比。第二種方式是,在估計(jì)決不大于當(dāng)前輸入或小于最小值的限制條件下,使用當(dāng)前估計(jì)的乘性縮放。這意味著,對(duì)于姆巾貞使估 計(jì)增加,直至其高于當(dāng)前輸入。在該情形下,使用當(dāng)前輸入作為估計(jì)。第三種方式是,使用最小值技術(shù),其中,估計(jì)是先前幀的滑動(dòng)窗期間的最小值。這基本上給出了最小估計(jì),使用補(bǔ)償因子對(duì)所述最小估計(jì)進(jìn)行縮放以獲得并逼近平穩(wěn)噪聲的平均估計(jì)。先前幀的滑動(dòng)時(shí)間窗意味著針對(duì)指定數(shù)量的先前幀,以關(guān)注的變量(幀能量或子帶能量)創(chuàng)建緩沖區(qū)。當(dāng)新幀到達(dá)時(shí),通過(guò)從緩沖器中移除最早的值并插入最新的值來(lái)更新緩沖區(qū)。雖然最小值估計(jì)技術(shù)具有較低的復(fù)雜度,但對(duì)于變化的背景噪聲,得到的估計(jì)可能不夠精確。其出發(fā)點(diǎn)在于長(zhǎng)滑動(dòng)時(shí)間窗有時(shí)可能導(dǎo)致過(guò)低的估計(jì),而短滑動(dòng)時(shí)間窗可能導(dǎo)致過(guò)大的估計(jì)。對(duì)于滑動(dòng)時(shí)間窗,背景估計(jì)器針對(duì)音樂(lè)型輸入將如何工作也是不清楚的。與純粹的最小值估計(jì)技術(shù)相比,在估計(jì)不能大于當(dāng)前值的限制條件下使用當(dāng)前估計(jì)的乘性縮放表現(xiàn)出更好的跟蹤,但在跟蹤變化背景的快速増加方面仍存在問(wèn)題。基本上,跟蹤正常,直至增加速率超過(guò)乘性縮放所限的速率。使用AR過(guò)程進(jìn)行背景更新具有高效地跟蹤背景噪聲強(qiáng)度的潛力。然而,利用非噪聲數(shù)據(jù)進(jìn)行背景估計(jì)更新的判決誤差可能導(dǎo)致糟糕的背景估計(jì)。特別地,對(duì)于依賴于判決反饋的VAD方案,不精確的背景估計(jì)可能導(dǎo)致甚至更多的判決錯(cuò)誤。為了避免以非噪聲數(shù)據(jù)來(lái)更新背景,通常對(duì)何時(shí)更新(至少對(duì)向上更新)背景估計(jì)存在許多限制。雖然所述許多限制將降低使用非噪聲數(shù)據(jù)進(jìn)行更新的風(fēng)險(xiǎn),但這些限制將同時(shí)降低估計(jì)器跟蹤變化的背景噪聲的能力,對(duì)非平穩(wěn)背景噪聲的情形尤其如此。通過(guò)允許估計(jì)始終向下更新,可以減小一些錯(cuò)誤判決的影響。始終向下更新的缺陷在于對(duì)于非平穩(wěn)噪聲,將最終導(dǎo)致過(guò)低的估計(jì)。此處的出發(fā)點(diǎn)類似于最小值估計(jì),在最小值估計(jì)中,在該情況下,沒(méi)有針對(duì)滑動(dòng)時(shí)間窗定義長(zhǎng)度。還存在以背景噪聲更新死鎖告終的可能。即,背景邏輯結(jié)束于即使當(dāng)前輸入為純?cè)肼曒斎胍膊辉试S改變背景噪聲的狀態(tài)。如果存在噪聲特性或噪聲強(qiáng)度突變,使得輸入不再被識(shí)別為噪聲,則可能發(fā)生這種情況。因此,通常存在恢復(fù)算法。雖然該算法通常適用于平穩(wěn)噪聲,但其可能并不總是適用于嘈雜噪聲,所述嘈雜噪聲本質(zhì)上與語(yǔ)音在特性上相對(duì)接近。雖然基于能量的停頓檢測(cè)器在較好的SNR條件下工作良好,但是在低SNR條件下能力有限。
發(fā)明內(nèi)容
因此,本發(fā)明的實(shí)施例的目的在干提供一種在低SNR條件下具有增強(qiáng)性能的VAD方案。
這是通過(guò)執(zhí)行確定當(dāng)前幀是否包括噪聲的附加確定來(lái)實(shí)現(xiàn)的。在一個(gè)實(shí)施例中,僅對(duì)被認(rèn)為包括非噪聲的幀執(zhí)行該附加確定。根據(jù)本發(fā)明實(shí)施例的第一方面,提供了ー種在VAD的背景估計(jì)器中更新輸入信號(hào)的背景噪聲估計(jì)的方法。在所述方法中,接收當(dāng)前幀的輸入信號(hào),并確定輸入信號(hào)的當(dāng)前幀是否包括非噪聲。此外,通過(guò)分析至少與輸入信號(hào)的相關(guān)和能量電平有關(guān)的特性,來(lái)執(zhí)行附加確定,確定非噪聲輸入的當(dāng)前幀是否包括噪聲;以及如果確定當(dāng)前幀包括噪聲,更新背景噪聲估計(jì)。根據(jù)本發(fā)明實(shí)施例的第二方面,提供了ー種在VAD中更新輸入信號(hào)的背景噪聲估計(jì)的背景估計(jì)器。所述背景估計(jì)器包括輸入部,被配置為接收當(dāng)前幀的輸入信號(hào)。所述背景估計(jì)器還包括處理器,被配置為確定輸入信號(hào)的當(dāng)前幀是否包括非噪聲;通過(guò)分析至少與輸入信號(hào)的相關(guān)和能量電平有關(guān)的特性,來(lái)執(zhí)行附加確定,確定非噪聲輸入的當(dāng)前幀是否包括噪聲;以及如果確定當(dāng)前幀包括噪聲,更新背景噪聲估計(jì)通過(guò)使用本發(fā)明的實(shí)施例,獲得了用于背景噪聲估計(jì)(特別是對(duì)非平穩(wěn)噪聲)的更好的噪聲跟蹤。采用改進(jìn)的噪聲跟蹤,VAD功能得以改進(jìn),該改進(jìn)體現(xiàn)為非平穩(wěn)噪聲中的 誤報(bào)語(yǔ)音幀減少。此外,可以提供對(duì)平穩(wěn)噪聲類型的背景噪聲估計(jì)的改進(jìn)的死鎖恢復(fù)。從系統(tǒng)角度講,過(guò)多活動(dòng)的減少將導(dǎo)致更好的容量。因此,提供了(例如,用戶設(shè)備中的發(fā)射機(jī)編碼器的)語(yǔ)音活動(dòng)檢測(cè)器的方法和背景估計(jì)器,所述方法和背景估計(jì)器被配置為實(shí)現(xiàn)本發(fā)明實(shí)施例的方案。
圖I示出了根據(jù)現(xiàn)有技術(shù)的采用背景估計(jì)的通用語(yǔ)音活動(dòng)檢測(cè)器(VAD)。圖2是示出了根據(jù)現(xiàn)有技術(shù)的、要在發(fā)射機(jī)中實(shí)現(xiàn)的背景噪聲估計(jì)器的背景更新過(guò)程的流程圖。圖3是示出了根據(jù)本發(fā)明實(shí)施例的、要在發(fā)射機(jī)中實(shí)現(xiàn)的背景噪聲估計(jì)器的背景更新過(guò)程的流程圖。圖4是示出了根據(jù)本發(fā)明實(shí)施例的方法的另一流程圖。圖5示意性地示出了根據(jù)本發(fā)明實(shí)施例的背景估計(jì)器。圖6示出了根據(jù)本發(fā)明實(shí)施例的、對(duì)混合語(yǔ)音(-26dBov)和嘈雜噪聲64 (-36dBov)輸入的改進(jìn)的噪聲跟蹤。圖7示出了根據(jù)本發(fā)明實(shí)施例的、對(duì)混合語(yǔ)音(-26dBov)和粉紅噪聲64 (-46dBov)輸入的改進(jìn)的噪聲跟蹤。
具體實(shí)施例方式下文中將參照示出了本發(fā)明的優(yōu)選實(shí)施例的附圖,來(lái)更充分地描述本發(fā)明的實(shí)施例。然而,可以用很多不同形式來(lái)體現(xiàn)實(shí)施例,且實(shí)施例不應(yīng)當(dāng)被理解為受限于本文所闡述的實(shí)施例;相反,這些實(shí)施例被提供為使得本公開(kāi)將是全面且完整的,并且將向本領(lǐng)域技術(shù)人員充分地傳達(dá)本發(fā)明的范圍。在附圖中,相似的附圖標(biāo)記指代相似的元素。此外,本領(lǐng)域技術(shù)人員將意識(shí)到可以使用軟件功能結(jié)合編程微處理器或通用計(jì)算機(jī),和/或使用專用集成電路(ASIC),來(lái)實(shí)現(xiàn)以下說(shuō)明的裝置和功能。還將意識(shí)到盡管主要以方法和設(shè)備的形式來(lái)描述當(dāng)前實(shí)施例,還可以在計(jì)算機(jī)程序產(chǎn)品中以及包括計(jì)算機(jī)處理器和連接至處理器的存儲(chǔ)器在內(nèi)的系統(tǒng)中實(shí)現(xiàn)這些實(shí)施例,其中,使用可以執(zhí)行本文公開(kāi)的功能的一個(gè)或多個(gè)程序?qū)Υ鎯?chǔ)器進(jìn)行編碼。為了描述本發(fā)明的實(shí)施例,使用AR(自回歸)過(guò)程來(lái)進(jìn)行背景噪聲估計(jì),其中,始終允許對(duì)噪聲估計(jì)進(jìn)行向下調(diào)整。圖2示出了根據(jù)現(xiàn)有技術(shù)的這樣的背景估計(jì)器的判決邏輯的基本流程圖。I.背景估計(jì)的更新過(guò)程起始于根據(jù)當(dāng)前輸入幀來(lái)導(dǎo)出子帶電平的頻率分析。此夕卜,在該步驟中計(jì)算用于判決邏輯的其他特征,如,與噪聲估計(jì)、總能量Etot、相關(guān)有關(guān)的特征的示例,包括音調(diào)和發(fā)聲參數(shù)。在該步驟中,還計(jì)算vad_flag,即,語(yǔ)音活動(dòng)檢測(cè)器是否檢測(cè)到語(yǔ)音的判決。
2.在該步驟中,執(zhí)行對(duì)潛在的新噪聲估計(jì)tmpN的計(jì)算。該估計(jì)僅基于當(dāng)前輸入幀和來(lái)自最后ー幀的背景噪聲估計(jì)。如果當(dāng)前估計(jì)的背景估計(jì)高于潛在的新噪聲估計(jì),則此時(shí)可以降低當(dāng)前噪聲估計(jì)。在以下偽碼中,與此對(duì)應(yīng)地,tmpN[i]低于bckr[i]。3.接著,估計(jì)在噪聲更新邏輯中使用的與噪聲估計(jì)有關(guān)的特征,并且如果檢測(cè)到非噪聲輸入,該輸入很可能是活動(dòng)的語(yǔ)音信號(hào)。4.對(duì)于活動(dòng)的語(yǔ)音信號(hào),如果需要,激活尾響計(jì)數(shù)器。注意,背景更新過(guò)程使用尾響周期也是十分常見(jiàn)的,并且如此可以避免將語(yǔ)音信號(hào)的大的類噪聲段落用于背景估計(jì)。5.如果尾響計(jì)數(shù)器不為0,背景估計(jì)仍在尾響內(nèi),并且在該幀期間將不存在任何背景噪聲更新。如果尾響周期結(jié)束,尾響計(jì)數(shù)器為O??梢栽黾釉肼暪烙?jì)。6.如果在塊3中未檢測(cè)到非噪聲,語(yǔ)音突發(fā)已經(jīng)結(jié)束,并且如果存在任何剰余尾響,遞減/減小尾響計(jì)數(shù)器。7.當(dāng)尾響周期結(jié)束時(shí),尾響計(jì)數(shù)器為O。進(jìn)行最終測(cè)試以識(shí)別大能量階躍(即,輸入能量是否遠(yuǎn)大于當(dāng)前噪聲估計(jì)),從而確保不使用大能量階躍進(jìn)行背景更新。8-11.為了避免大能量階躍引起背景估計(jì)死鎖,恢復(fù)邏輯允許在一定延遲(即,若干死鎖幀)后進(jìn)行更新。12-13.結(jié)束噪聲更新過(guò)程前的最后步驟是更新特征狀態(tài)歷史,以供評(píng)估下ー幀時(shí)使用。根據(jù)本發(fā)明的實(shí)施例,執(zhí)行附加確定,確定非噪聲輸入的當(dāng)前幀是否包括噪聲。這是通過(guò)分析至少與輸入信號(hào)的相關(guān)和能量電平有關(guān)的特性來(lái)執(zhí)行的,并且如果確定當(dāng)前幀包括噪聲,更新背景噪聲估計(jì)。下面轉(zhuǎn)向示出了本發(fā)明實(shí)施例的圖3的流程圖。與圖2的流程圖相比,圖3的流程圖包括表示為“非噪聲輸入? ”(附圖標(biāo)記3)、“噪聲輸入? ”(附圖標(biāo)記4a)、“背景更新(向上)”(附圖標(biāo)記4a)、“大能量階躍”(附圖標(biāo)記7)和“死鎖恢復(fù)? ”(附圖標(biāo)記8)以及背景更新減小步長(zhǎng)(向上)(附圖標(biāo)記IOa)的新增或修改步驟。其他框與圖2中相應(yīng)的框具有相同的功能。采用圖3中框3的邏輯,可能發(fā)生以下情況特定噪聲類型被誤認(rèn)為音樂(lè),并且因此防止噪聲估計(jì)增加。使用在圖3的框3中實(shí)現(xiàn)的新特征(其中,與圖2框3的邏輯的一部分組合,考慮從具有相關(guān)的最后一幀開(kāi)始的時(shí)間),如果輸入是類噪聲的(即,根據(jù)本發(fā)明的實(shí)施例,如果輸入在足夠長(zhǎng)的時(shí)間內(nèi)未顯示出相關(guān)的跡象),可以禁用該阻止噪聲更新的特征。在作為新增步驟的標(biāo)記為4a的“噪聲輸入? ”框中,根據(jù)本發(fā)明的實(shí)施例,執(zhí)行附加確定,確定當(dāng)前幀的非噪聲輸入是否包括噪聲。改進(jìn)的判決邏輯將現(xiàn)有特征和新特征組合,以改進(jìn)框3中的非噪聲判決,并且在框4a中増加了第二噪聲輸入檢測(cè)步驟,該步驟還允許附加背景更新(參見(jiàn)步驟4b),盡管在框5中已確定仍在背景噪聲更新尾響以內(nèi)。因此,框4a中的附加噪聲輸入檢測(cè)步驟引入了對(duì)在“非噪聲輸入”中被識(shí)別為潛在語(yǔ)音幀的幀的額外檢查,檢查它們是否確實(shí)是語(yǔ)音。如果此時(shí)確定這些幀是噪聲,則在框4b中允許使用噪聲估計(jì)增加來(lái)更新背景。基本上,這允許更好地跟蹤接近語(yǔ)音突發(fā)的噪聲估計(jì),有時(shí)甚至語(yǔ)音突發(fā)內(nèi)的噪聲估計(jì)。標(biāo)記為4b的“背景更新(向上)”框的邏輯允許噪聲估計(jì)的增加,但以比在圖2的框中使用的“常規(guī)”噪聲增加小的步長(zhǎng)來(lái)増加。通過(guò)引入盡管在框5中確定背景噪聲更新的尾響周期仍在繼續(xù)也更新噪聲的新的可能(4a和4b),可以強(qiáng)化對(duì)常規(guī)噪聲更新的要求(即,在框5中確定自非噪聲輸入存在 起已經(jīng)過(guò)足夠的時(shí)間),而不增加在標(biāo)記為7的“大能量階躍? ”框中以噪聲估計(jì)死鎖而告終的風(fēng)險(xiǎn)。噪聲估計(jì)死鎖意味著不允許進(jìn)ー步增加噪聲估計(jì)。由于強(qiáng)化這些要求避免了例如引起音樂(lè)截?cái)嗟囊恍┓瞧谕囊?guī)則噪聲更新,因此期望強(qiáng)化這些要求。由于圖2的死鎖恢復(fù)過(guò)于激進(jìn),與圖2的現(xiàn)有技術(shù)方案相比,框8的修改和框IOa的添加改進(jìn)了性能??颉八梨i恢復(fù)? ”8和“背景更新減小步長(zhǎng)(向上)” IOa導(dǎo)致噪聲估計(jì)増加的減小的步長(zhǎng),用以避免死鎖。根據(jù)不同特征所出現(xiàn)的上下文,不同特征具有不同的可靠度。對(duì)于語(yǔ)音、音樂(lè)和音調(diào)輸入,相關(guān)是重要的特征,這是由于語(yǔ)音和音樂(lè)至少由可以檢測(cè)到相關(guān)的輸入段落組成。此外,不應(yīng)低估作為低復(fù)雜特征的幀能量在與其他特征組合時(shí)對(duì)于噪聲檢測(cè)的有效性。對(duì)于根據(jù)本發(fā)明實(shí)施例的改進(jìn)的控制邏輯,定義了以下特征EfJow LP是每幀更新的平滑后的最小能量跟蹤量。該特征主要用作其他特征的基礎(chǔ)。Et-EfJow LP是當(dāng)前幀與平滑后的最小能量跟蹤量的能量差。Ntot-Ef lm w是當(dāng)前噪聲估計(jì)與平滑后的最小能量跟蹤量的能量差。Nbg是連續(xù)的可能背景幀的數(shù)目的計(jì)數(shù)器,基于Ef lOTび和總能量Et。注意,該特征將不會(huì)對(duì)平穩(wěn)噪聲造成死鎖。Ncorr是相關(guān)事件計(jì)數(shù)器,從指示相關(guān)的最后一幀開(kāi)始對(duì)連續(xù)幀的數(shù)目進(jìn)行計(jì)數(shù)。SNRsum是來(lái)自子帶SNR VAD的判決度量。在改進(jìn)的背景噪聲更新邏輯中,SNRsum用作加權(quán)的頻譜差特征。由于僅在較長(zhǎng)的語(yǔ)音/音樂(lè)停頓中特征N?!⑦_(dá)到較高值,在改進(jìn)的非噪聲檢測(cè)器中使用相關(guān)事件計(jì)數(shù)器凡。 。當(dāng)從最后ー個(gè)的相關(guān)事件開(kāi)始已存在較長(zhǎng)停頓時(shí),這可以用于降低非噪聲檢測(cè)器的靈敏度。這將允許背景噪聲估計(jì)器在純?cè)肼暤那闆r下更好地跟蹤噪聲強(qiáng)度。避免背景噪聲跟蹤直接跟隨輸入能量的大幅階躍仍是重要的。因此,可以使用特征Et-Ef lw u5來(lái)檢測(cè)這樣的能量階躍何時(shí)發(fā)生,并且暫時(shí)阻止噪聲更新跟蹤該輸入。注意,對(duì)于達(dá)到新電平的階躍,特征Et-Ef—lM—w將最終恢復(fù),這是由于Ef—lOT—び僅基于輸入能量,并將在一定延遲后適應(yīng)于新電平。根據(jù)實(shí)施例的附加噪聲檢測(cè)器可以被視為二次噪聲更新和可選死鎖恢復(fù)的組合。允許兩個(gè)附加條件,進(jìn)行常規(guī)更新過(guò)程以外的背景更新。第一附加條件使用特征NM 、Et-Efi0W_LP> Ntot-Ef low LP和Nbg,其中,Ncorr確保多個(gè)幀不相關(guān),Et-Ef low Lp確保當(dāng)前能量接近于當(dāng)前所估計(jì)的噪聲強(qiáng)度,Ntot-Ef l。ぴ確保兩個(gè)噪聲估計(jì)接近(由于還允WEf—lOT—ぴ跟蹤音樂(lè)中的輸入能量,需要如此),Nbg確保輸入電平對(duì)于多個(gè)幀低至合理水平(接近〒Ef—lOT—j。第二附加條件使用特征凡。 和SNRsum,確定輸入何時(shí)是類噪聲的,其中,如前所述凡。 確保多個(gè)不相關(guān)幀,SNRsim被用作加權(quán)的頻譜差測(cè)量。這兩個(gè)條件中的任ー個(gè)可以允許更新背景噪聲。在大能量階躍檢測(cè)器和死鎖恢復(fù)中也做出了改進(jìn)。通過(guò)添加特定的噪聲檢測(cè)步驟,可以提高大能量階躍檢測(cè)器的靈敏度,并且可以減小原始死鎖恢復(fù)的步長(zhǎng)。以下進(jìn)ー步定義上述特征中一些特征的計(jì)算 EfJow LP如上所述是幀能量的最小估計(jì)的平滑函數(shù),其緩慢增加直至找到新的最小值。Ef>是在當(dāng)前幀能量Et小于修改后的Ef ltw的情況下以較小值δ f>增加的未平滑值。接著,Ef low被設(shè)置為Et。接著,通過(guò)AR過(guò)程,使用新的Ef ltw值來(lái)更新所述平滑值Ef—lOT—w=(I - α ) Ef low LP+ a Ef low0注意,在平滑后,Eil1otJj不再是嚴(yán)格的最小估計(jì)。Nbg如上所述是連續(xù)的可疑背景幀的數(shù)目的計(jì)數(shù)器,通過(guò)特征Et-Ef lOTU>而基于Efiow_lp和總能量Et。如果Nbg為O或更大并且Et充分大于EfJtmJj,假設(shè)語(yǔ)首關(guān)發(fā)已經(jīng)開(kāi)始或者正在進(jìn)行,然后設(shè)置Nbg = -I。如果Nbg = -I并且Et并非充分大于Ef—lM—w假設(shè)語(yǔ)音停頓已經(jīng)開(kāi)始,設(shè)置Nbg = O。如果此時(shí)Nbg為O或更大,則使Nbg增I。凡。 是相關(guān)事件計(jì)數(shù)器,自最近相關(guān)事件起對(duì)連續(xù)幀的數(shù)目進(jìn)行計(jì)數(shù)。如果在當(dāng)前幀中檢測(cè)到相關(guān),則設(shè)置N?!?= 0,否則使計(jì)數(shù)器増加N?!?= NC0rr+lo本發(fā)明的實(shí)施例改進(jìn)了阻止常規(guī)噪聲更新過(guò)程的判決邏輯,但還増加了更新背景估計(jì)的可選邏輯。如此,使得背景噪聲估計(jì)實(shí)現(xiàn)了對(duì)非平穩(wěn)輸入噪聲的更好的跟蹤,并且避免了對(duì)平穩(wěn)噪聲類型(如粉紅噪聲和白噪聲)的死鎖,并仍然保持/改進(jìn)了不跟蹤音樂(lè)或語(yǔ)音突發(fā)前端的能力。下面將結(jié)合以下偽碼來(lái)描述本發(fā)明的實(shí)施例。使用G. 718編解碼器(ITU-T建議嵌入式可擴(kuò)縮語(yǔ)音和音頻編解碼器)作為該描述的基礎(chǔ),但應(yīng)注意實(shí)施例也適用于其他編解碼器。表I
權(quán)利要求
1.一種在語(yǔ)音活動(dòng)檢測(cè)器VAD的背景估計(jì)器中更新輸入信號(hào)的背景噪聲估計(jì)的方法,包括 接收(401)當(dāng)前幀的輸入信號(hào), 確定(402)輸入信號(hào)的當(dāng)前幀是否包括非噪聲,所述方法還包括 通過(guò)分析至少與輸入信號(hào)的相關(guān)和能量電平有關(guān)的特性,來(lái)執(zhí)行(403)附加確定(4a),確定非噪聲輸入的當(dāng)前幀是否包括噪聲,以及 如果確定當(dāng)前幀包括噪聲,更新(404)背景噪聲估計(jì)。
2.根據(jù)權(quán)利要求I所述的方法,其中,確定非噪聲輸入的當(dāng)前幀是否包括噪聲的所述附加確定(4a)進(jìn)一步包括以下至少一項(xiàng)如果輸入信號(hào)的能量電平與平滑最小能量電平的差距在第一范圍以內(nèi),以及如果總噪聲強(qiáng)度與平滑最小能量電平的差距在第二范圍以 內(nèi),對(duì)相關(guān)進(jìn)行檢測(cè)并從指示相關(guān)事件的最后一幀開(kāi)始對(duì)幀的數(shù)量進(jìn)行計(jì)數(shù)。
3.根據(jù)權(quán)利要求2所述的方法,其中,執(zhí)行對(duì)相關(guān)的檢測(cè)并從指示相關(guān)事件的最后一幀開(kāi)始對(duì)幀的數(shù)量進(jìn)行計(jì)數(shù),以減小背景噪聲估計(jì)更新的步長(zhǎng),并確定應(yīng)何時(shí)執(zhí)行背景噪聲估計(jì)更新。
4.根據(jù)權(quán)利要求2或3所述的方法,其中,通過(guò)分析輸入信號(hào)的能量電平與平滑最小能量電平的差距是否在第一范圍以內(nèi),避免基于能量與平滑最小能量電平相比過(guò)高的幀,對(duì)背景噪聲估計(jì)進(jìn)行更新,并確定應(yīng)何時(shí)執(zhí)行背景噪聲估計(jì)更新。
5.根據(jù)權(quán)利要求2至4中任一項(xiàng)所述的方法,其中,通過(guò)分析總噪聲與當(dāng)前所估計(jì)的噪聲強(qiáng)度的差距是否在第二范圍以內(nèi),確定應(yīng)何時(shí)執(zhí)行背景噪聲估計(jì)更新。
6.根據(jù)權(quán)利要求2至5中任一項(xiàng)所述的方法,其中,所述第一和第二范圍是固定范圍。
7.根據(jù)權(quán)利要求2至5中任一項(xiàng)所述的方法,其中,所述第一和第二范圍是自適應(yīng)范圍·
8.根據(jù)權(quán)利要求I至7中任一項(xiàng)所述的方法,其中,對(duì)所有幀應(yīng)用所述附加確定(4a)。
9.根據(jù)權(quán)利要求I至7中任一項(xiàng)所述的方法,其中,對(duì)非噪聲幀或尾響中的幀應(yīng)用附加確定(4a) ο
10.一種在語(yǔ)音活動(dòng)檢測(cè)器VAD中更新輸入信號(hào)(501)的背景噪聲估計(jì)的背景估計(jì)器(500),所述背景估計(jì)器包括輸入部(502),被配置為接收當(dāng)前幀的輸入信號(hào)(501);處理器(503),被配置為確定輸入信號(hào)的當(dāng)前幀是否包括非噪聲;通過(guò)分析至少與輸入信號(hào)的相關(guān)和能量電平有關(guān)的特性,來(lái)執(zhí)行附加確定,確定非噪聲輸入的當(dāng)前幀是否包括噪聲;以及如果確定當(dāng)前幀包括噪聲,更新背景噪聲估計(jì)
11.根據(jù)權(quán)利要求10所述的背景估計(jì)器(500),其中,確定非噪聲輸入的當(dāng)前幀是否包括噪聲的附加確定(4a)進(jìn)一步包括以下至少一項(xiàng)如果輸入信號(hào)的能量電平與平滑最小能量電平的差距在第一范圍以內(nèi),以及如果總噪聲強(qiáng)度與平滑最小能量電平的差距在第二范圍以內(nèi),對(duì)相關(guān)進(jìn)行檢測(cè)并從指示相關(guān)事件的最后一幀開(kāi)始對(duì)幀的數(shù)量進(jìn)行計(jì)數(shù)。
12.根據(jù)權(quán)利要求11所述的背景估計(jì)器(500),其中,所述處理器(503)被配置為基于對(duì)相關(guān)的檢測(cè)以及從指示相關(guān)事件的最后一幀開(kāi)始對(duì)幀的數(shù)量進(jìn)行計(jì)數(shù),來(lái)減小背景噪聲估計(jì)更新的步長(zhǎng),并確定應(yīng)何時(shí)執(zhí)行背景噪聲估計(jì)更新。
13.根據(jù)權(quán)利要求11或12所述的背景估計(jì)器(500),其中,所述處理器(503)被配置為通過(guò)分析輸入信號(hào)的能量電平與平滑最小能量電平的差距是否在第一范圍以內(nèi),避免基于能量與平滑最小能量電平相比過(guò)高的幀,對(duì)背景噪聲估計(jì)進(jìn)行更新,并確定應(yīng)何時(shí)執(zhí)行背景噪聲估計(jì)更新。
14.根據(jù)權(quán)利要求11至13中任一項(xiàng)所述的背景估計(jì)器(500),其中,所述處理器(503)被配置為通過(guò)分析總噪聲與當(dāng)前所估計(jì)的噪聲強(qiáng)度的差距是否在第二范圍以內(nèi)的分析,確定應(yīng)何時(shí)執(zhí)行背景噪聲估計(jì)更新。
15.根據(jù)權(quán)利要求11至14中任一項(xiàng)所述的背景估計(jì)器(500),其中,所述第一和第二范圍是固定范圍。
16.根據(jù)權(quán)利要求11至14中任一項(xiàng)所述的背景估計(jì)器(500),其中,所述第一和第二范圍是自適應(yīng)范圍。
17.根據(jù)權(quán)利要求11至16中任一項(xiàng)所述的背景估計(jì)器(500),其中,所述處理器(503)被配置為對(duì)所有幀執(zhí)行所述附加確定。
18.根據(jù)權(quán)利要求11至16中任一項(xiàng)所述的背景估計(jì)器(500),其中,所述處理器(503)被配置為對(duì)非噪聲幀或尾響中的幀執(zhí)行所述附加確定。
全文摘要
本發(fā)明涉及語(yǔ)音活動(dòng)檢測(cè)器中用于更新輸入信號(hào)的背景噪聲估計(jì)的方法和背景估計(jì)器。接收當(dāng)前幀的輸入信號(hào),并確定輸入信號(hào)的當(dāng)前幀是否包括非噪聲。此外,通過(guò)分析至少與輸入信號(hào)的相關(guān)和能量電平有關(guān)的特性,來(lái)執(zhí)行附加確定,確定非噪聲輸入的當(dāng)前幀是否包括噪聲;以及如果確定當(dāng)前幀包括噪聲,更新背景噪聲估計(jì)。
文檔編號(hào)G10L21/02GK102667927SQ201080057995
公開(kāi)日2012年9月12日 申請(qǐng)日期2010年10月18日 優(yōu)先權(quán)日2009年10月19日
發(fā)明者馬丁·紹爾斯戴德 申請(qǐng)人:瑞典愛(ài)立信有限公司