專利名稱:包括通過分數(shù)延遲過濾來去噪語音信號的裝置的音頻設備的制作方法
技術領域:
本發(fā)明涉及處理嘈雜環(huán)境中的語音。本發(fā)明特別涉及處理由在嘈雜環(huán)境中使用的“免提”類型的電話設備所獲取的語
音信號。
背景技術:
這些應用具有一個或多個敏感話筒,這些話筒不僅獲取使用者的話音還獲取周圍的噪聲,這些噪聲在特定環(huán)境下構成干擾元素,甚至可使得使用者的語音難以辨別。如果期望實現(xiàn)話音識別技術,也會有同樣的情況,因為對于被高級別噪聲所掩埋的話語(word)非 常難以執(zhí)行形狀識別。與周圍噪聲相關聯(lián)的這個困難特別地限制了機動車輛中的“免提設備”,不論該設備是否包括結合于車輛內的設備,或形式為結合了用于處理電話通信的信號的所有組件與功能的可移動單元的配件。話筒(被放置在儀表板上或位于車廂頂壁的頂部轉角處)和說話者(其位置由駕駛位置所決定)之間的較大距離意味著相對高級別的噪聲被獲取,藉此使得難以提取出掩埋在噪聲中的有用信號。進一步,車輛環(huán)境的非常嘈雜的周圍環(huán)境呈現(xiàn)出不穩(wěn)定的頻譜特性,即,以不可預測的方式應變于駕駛條件經過崎嶇的道路或鵝卵石、工作中的車輛無線電,
坐寸ο當該設備是音頻頭戴式耳機(組合話筒和耳機類型,除了用于聽取來自該頭戴式耳機所連接至的器具的音頻源(如,音樂)之外,還被用于諸如“免提”電話功能之類的通信功能)時,會出現(xiàn)同樣的困難。在這樣的環(huán)境下,重要的是確保由話筒所獲取的信號(S卩,來自近旁講話者(頭戴式耳機的佩戴者)的語音信號)的足夠的可分辨性。不幸的是,頭戴式耳機可被用在噪雜的環(huán)境中(地鐵、繁忙的街道、列車等),從而話筒不僅獲取了頭戴式耳機的佩戴者的語音,還獲取了周圍的干擾噪聲。頭戴式耳機確實保護佩戴者免于這些噪聲的干擾,特別如果該頭戴式耳機是具有將耳朵與外界隔離的封閉式耳機的類型的話,且如果該頭戴式耳機被設置有“主動噪聲控制”的話更是如此。反之,遠處講話者(如,位于通信頻道另一端的講話者)將忍受由話筒所獲取的干擾噪聲,且這些噪聲變得重疊在來自近旁講話者(頭戴式耳機的佩戴者)的語音信號上并干擾該語音信號。特定地,對于理解話音至為重要的特定語音峰段經常被淹沒在日常環(huán)境中通常會遇到的噪聲分量中。本發(fā)明特別涉及去噪技術,該技術用多個話筒實現(xiàn),通常是兩個話筒,從而將這兩個話筒同時獲取的信號以合適的方式組合,用于將有用的語音分量從干擾噪聲分量中隔離出來。常規(guī)技術是放置并定向其中一個話筒,從而該話筒主要獲取講話者的話音,同時另一個話筒被設置為獲取噪聲分量,該噪聲分量大于由主話筒所獲取的噪聲分量。通過使用相對簡單的軟件手段來分析兩個信號之間的空間一致性,比較所獲取的信號,然后能使話音從周圍噪聲中被提取出來。
US 2008/0280653A1描述了一個這樣的設置,其中話筒中的一個(主要獲取話音的話筒)是由車輛的駕駛者所佩戴的無線耳機的話筒,而另一個話筒(主要獲取噪聲的話筒)是電話用具的話筒,被較遠地放置在車廂內,例如,附著至儀表板,無論如何,這個技術表現(xiàn)出如下缺點,需要彼此間隔放置的兩個話筒,且技術的有效性隨著這兩個話筒之間的距離的增加而增加。作為結果,這個技術不適用于其中兩個話筒靠近的設備,如,兩個話筒被結合在機動車輛的車載無線電前面、或兩個話筒放置在音頻頭戴式耳機的耳機的其中一個的外殼上。另一個技術,被稱為“波束形成”,是使用軟件手段來創(chuàng)建方向性,該方向性用于改進話筒陣列或“天線”的信噪比。us 2007/0165879A1描述了一個這樣的技術,應用于背對背放置的一對沒有方向性的話筒。對于它們所獲取的信號的自適應過濾能導出輸出信號,此輸出信號中語音分量被增強。
無論如何,發(fā)現(xiàn)這樣的方法僅在至少具有八個話筒的陣列的條件下提供良好結果,而當僅使用兩個話筒時性能非常有限。發(fā)明目的和內容在這樣的背景下,本發(fā)明的一般問題在于有效地減少噪聲從而將表示近旁講話者(車輛駕駛者或頭戴式耳機的佩戴者)所發(fā)出的語音的話音信號傳送給遠處講話者,這通過如下來達成從所述信號中移除存在于近旁講話者的環(huán)境中的外部噪聲。在這樣的情況下,本發(fā)明的問題也還在于能夠使用一組話筒,其中話筒的數(shù)量較小(有利地僅兩個)且這些話筒還相對地靠近在一起(一般間隔僅數(shù)厘米)。這個問題的另一個重要方面是需要回放自然且易于理解的語音信號,S卩,沒有失真,且其中沒有經降噪處理移除有用的頻譜。為此目的,本發(fā)明提出了在上述US 2008/0280653A1中所公開的一般類型的語音設備,即,包括一組兩個話筒傳感器,適用于獲取該設備的使用者的語音并用于傳遞各自的噪聲語音信號;采樣裝置,用于采樣由該話筒傳感器所傳遞的語音信號;以及去噪裝置,用于對語音信號去噪,該去噪裝置接收由所述兩個話筒傳感器所傳遞的語音信號的樣本作為輸入并傳遞表示該設備的使用者所發(fā)出的語音的經去噪的語音信號作為輸出。該去噪裝置是非頻率噪聲減少裝置,包括自適應過濾器組合器,用于將由所述兩個話筒傳感器所傳遞的信號組合、以另一個話筒傳感器所傳遞的信號所給出的噪聲參考為基礎通過迭代搜索操作設法消除由話筒傳感器中的一個所獲取的噪聲。根據(jù)本發(fā)明,該自適應過濾器是分數(shù)延遲過濾器,適用于模制比采樣裝置的采樣周期短的延遲。該設置還包括話音活動檢測器裝置,適用于傳遞表示來自該設備的使用者的語音的存在或不存在的信號,且該自適應過濾器還接收該語音存在或不存在信號作為輸入來選擇性地動作i)或是在語音信號不存在時執(zhí)行對過濾器參數(shù)的自適應搜索;ii)或是在語音信號存在時“凍結”過濾器的這些參數(shù)。自適應過濾器特別適用于估算最優(yōu)過濾器H,從而H = G F其中1'( ) = <5 01'( )且6(10=8;[11。(1^+ τ /Te),應表示用于為包括分數(shù)延遲的脈沖響應而在兩個話筒傳感器之間轉移噪聲的所估算的最優(yōu)過濾器H;0表示在兩個話筒傳感器之間的所估算的分數(shù)延遲過濾器G ;#表示所估算的環(huán)境的聲學響應; 表示卷積;X (η)是輸入至過濾器H的信號的一系列樣本;X’ (η)是由延遲τ偏置的序列χ (η);Te是輸入至過濾器H的信號的采樣周期;τ是所述分數(shù)延遲,等于Te的約數(shù);且 sine表示基本正弦函數(shù)。優(yōu)選地,自適應過濾器是具有最小均方(LMS)類型的線性預測算法的過濾器。在一個實施例中,該設備包括指向該設備的使用者且適用于獲取該使用者的圖像的視頻攝像頭;且話音活動檢測器裝置包括視頻分析裝置,適用于分析由該攝像頭所產生的信號并作為響應傳遞表示使用者語音的存在或不存在的所述信號。在另一個實施例中,該設備包括生理學傳感器,適用于與該設備的使用者的頭部相接觸從而該生理學傳感器被耦合至頭部,從而獲取由內骨導傳輸?shù)姆锹晫W發(fā)音振動;且話音活動檢測器裝置包括適用于分析由該生理學傳感器所傳遞的信號并作為響應傳遞表示所述使用者語音的存在或不存在的所述信號,這特別是通過評估由該生理學傳感器所傳遞的信號的能量并將該能量與閾值相比較來達成。特定地,該設備可以是組合的話筒和耳機類型的音頻頭戴式聽筒,該頭戴式耳機包括耳機,每一個耳機包括用于重現(xiàn)音頻信號的聲音的換能器,且耳機被容納于設置在圍繞耳朵的墊片中的外殼內;所述兩個話筒傳感器設置在所述耳機中的一個的外殼上;且所述生理學傳感器結合在所述耳機中的一個的墊片中,且生理學傳感器位于其中適于與頭戴式耳機的佩戴者的臉頰或鬢角相接觸的區(qū)域中。這兩個話筒傳感器優(yōu)選地對齊作為在指向該設置的使用者的口的主要方向上的線性陣列。附圖簡述下文是參考了相應附圖的所給出的發(fā)明的設備的實施例的描述,在附圖中,每個附圖中使用同樣的數(shù)字參考標號來代表相同或功能類似的元件。
圖1是示出其中執(zhí)行本發(fā)明的去噪處理的方法的框圖。圖2是示出在本發(fā)明的去噪處理中所模制的基本正弦函數(shù)的圖。圖3a和3b分別示出對于一序列信號樣本的各點、以及對于在時間上由分數(shù)值所偏置的同一序列的圖2的基本正弦函數(shù)。圖4示出周圍環(huán)境的聲學響應,具有在縱坐標軸繪出的幅值以及沿橫坐標軸所繪的表示這個偏移的過濾器的系數(shù)。圖5對應于圖4,在使用基本正弦響應卷積之后。圖6是示出在于使用用于檢測話音活動的攝像頭的實施例的圖。圖7是可向其應用本發(fā)明的教示的組合的話筒和耳機的頭戴式聽筒的整體圖。圖8是整體框圖,示出為了輸出表示由圖7頭戴式耳機的佩戴者所發(fā)出的語音的經去噪的信號的目的如何實現(xiàn)信號處理的整體框圖。圖9示出兩個時序圖,分別對應于由話筒所獲取的原始信號的示例、以及由用于分辨語音時間段和講話者沉默的時間段的生理學傳感器所獲取的信號的示例。詳細描述圖1是示出了由本發(fā)明實現(xiàn)的各功能的框圖。本發(fā)明的過程由軟件手段實現(xiàn),用各功能框所表示的本發(fā)明的過程對應于用微控制器或數(shù)字信號處理器所執(zhí)行的適當?shù)乃惴?。盡管為了解釋的簡潔,用分立的模塊形式示出各功能,它們共同使用元件且在實踐中,它們對應于由單個軟件整體執(zhí)行的多個功能。期望被去噪的信號來自圖示為最小設置的話筒傳感器陣列,該話筒陣列可包括以預確定的設置排列的僅有兩個傳感器的陣列,每一個傳感器由相應各自的話筒10、12構成。
無論如何,本發(fā)明可被一般化為多于兩個話筒傳感器的陣列、和/或數(shù)個話筒傳感器,其中每一個傳感器由比單個話筒更復雜的結構所構成,例如多個話筒和/或其他語音傳感器的組合。話筒10、12是獲取由有用的信號源所發(fā)射的信號(來自講話者的語音信號)的話筒,且兩個話筒之間的位置上的差異引起從有用信號源獲取的信號中的一組相位偏差和幅值變化。在實踐中,話筒10和12都是全方向話筒,彼此間隔數(shù)厘米地位于車廂頂板上、車輛無線電的前面板上、或位于儀表板上的適當位置處、或就放在音頻頭戴式耳機的耳機之一的外殼上,等。如上所述,本發(fā)明的技術使得即使在話筒彼此非??拷鼤r(即當話筒彼此間隔間距d以使一個話筒所獲取的信號和另一個所獲取的信號之間的最大相位延遲小于被用于數(shù)字化該信號的轉換器的采樣周期)時,也可能提供有效的去噪,這對應于當采樣頻率Fe為8千赫(kHz)時的4. 7厘米(cm)大小的最大距離i (且對應于當采樣頻率加倍時減半的間距d,等)。近旁講話者發(fā)出的語音信號將在到達另一個話筒之前到達話筒中的一個,且因此表現(xiàn)出延遲,以及因此表現(xiàn)出相移φ,其是基本不變的。對于噪聲,確實有可能在兩個話筒10和12之間也存在相移。反之,由于相移的概念與入射波所行進的方向的概念相關聯(lián),可預期的是噪聲的相移與語音的相移不同。例如,如果定向噪聲在與來自口的方向相反的方向中行進的話,如果話音的相移是φ的話,噪聲相移將是-φ。在本發(fā)明中,由話筒10和12所獲取的信號的噪聲減少并不是在頻域中進行的(如同在常規(guī)去噪技術中經常發(fā)生的情況),而是在時域中進行。使用搜索在一個話筒(如,話筒10)和另一個話筒(S卩,話筒12)之間的轉移函數(shù)的算法(通過實現(xiàn)LMS類型的預測過濾器16的自適應組合器14的方式來進行搜索)來執(zhí)行這個噪聲減少。在18,從來自話筒10的信號中減去來自過濾器16的輸出,從而給出經去噪的信號S,該信號S被返回施加至過濾器16從而能使該過濾器16應變于該信號S的預測誤差而迭代地自適應。因此,可能使用由話筒12獲取的信號來預測由話筒10獲取的信號中所含有的噪聲分量(標識噪聲轉移的轉移函數(shù))。僅在語音不存在的階段中執(zhí)行兩個話筒之間的轉移函數(shù)的自適應搜索。為了這個目的,僅當在傳感器22的控制下的話音活動檢測器(VAD) 20指示近旁講話者沒有在講話時,激活過濾器16的迭代自適應。這個功能用開關24來表示當話音活動檢測器20確認語音信號不存在時,自適應組合器14設法最優(yōu)化兩個話筒10和12之間的轉移函數(shù),從而減少噪聲分量(開關24處于關閉位置,如圖中所示);反之,當話音活動檢測器20確認語音信號存在時,自適應組合器14將過濾器16的參數(shù)“凍結”為恰在語音被檢測到之前具有的值(打開開關24 ),藉此避免來自近旁講話者的語音信號的任何衰減。應該發(fā)現(xiàn),這樣進行并不麻煩,即使存在變化的噪聲環(huán)境,因為過濾器16的參數(shù)的更新非常頻繁,假定每次在近旁講話者停止講話時發(fā)生更新。根據(jù)本發(fā)明,自適應組合器14的過濾是分數(shù)延遲過濾,即,其在由兩個話筒獲取的信號之間施加過濾,同時考慮到短于信號的數(shù)字化采樣的持續(xù)時間的延遲。已知的是,通帶
的隨時間變化的信號x (t)可完美地從其中樣本x (k)對應于在時刻k.Te (其中Te=l/Fe是采樣周期)時的x(t)的值 的離散序列x(k)而被重新設立(reconstitute)。數(shù)學表達式如下
多—、
.\1 l:j.si lid-
,,I Te J基本正弦函數(shù)sine被定義如下
.. siiii pi!;: 11Sincii)=-
Pfizt圖2是表示這個函數(shù)sinc(t)的圖。可見,這個函數(shù)快速下降,結果是總和中有限且相對少數(shù)量的系數(shù)k給出對實際結果的非常好的近似。對于在采樣周期Te被數(shù)字化的信號,兩個樣本之間的時間間隔或偏移在時間上對應于Te的持續(xù)秒數(shù)(S)。所獲取的信號的η個連續(xù)數(shù)字化的樣本的序列χ(η),對于所有的整數(shù)n,可因此由如下表達式表示λιII, 'e) = VaIA).sinci n^i1.T . .1 Te )應該觀察到正弦項對于除了 k=n之外的所有k而言都是零。圖3a給出這個函數(shù)的圖形化表示。如果期望的是計算由分數(shù)值τ,g卩,由短于一個數(shù)字化采樣Te的持續(xù)時間的延遲所偏置的同一序列X(Ii),上述表達式變?yōu)镸nJv...... D =— f I
k7 Iii J圖3b給出對于τ =0. 5 (半個采樣)的分數(shù)值示例的這個函數(shù)的圖形化表示。序列χ, (η)(由τ所偏置的序列)可被視為是χ(η)與非因果過濾器G的卷積,因此x’(《) = G x{n)因此有必要確定最優(yōu)過濾器G的估計值(如下# = 0 #且 G(k)=sinc(k+τ/Te),存是在兩個話筒之間的噪聲轉移的估算,包括分數(shù)延遲;且
F是周圍環(huán)境的聲學響應的估算。為了估算兩個話筒之間的噪聲轉移過濾器,估算彥對應于最小化如下誤差的過濾器L[n) = Mlcl-'ronlfn) - H ^MicBackfn)MicFront (η)和MicBack(η)是來自話筒傳感器10和12的信號的相應值。這個過濾器具有非因果的特性,S卩,其使用未來的樣本。在實踐中,這意味著對于執(zhí)行算法處理的時間引入時間延遲。由于過濾器是非因果的,該過濾器能模制分數(shù)延遲且因此能寫為泣=(5 #(而在因果過濾器的常規(guī)情況下,等式是彥=F )具體地,在算法中,片是直接被估算的,通過最小化上述誤差e (η),沒有必要個別地估算0和盧。 在常規(guī)的因果情況下(如,對于回聲消除過濾器),用于最小化的誤差e(n)被寫成如下展開形式如下
L-1efnj = M}c1:roni(n) - Σ ^ (k).MicBackfn-k)
k=0其中L是過濾器的長度。在本發(fā)明的情況下(非因果過濾器),誤差變?yōu)?br>
L-1e(n) = MicFront(n) - h H (k).MicBack(n-k)應該注意到,過濾器的長度被翻倍,從而將未來的樣本考慮在內。過濾器H的預測給出分數(shù)延遲過濾器,該分數(shù)延遲過濾器,理想地且在語音不存在時,使用話筒12作為參考而消除來自話筒10的噪聲(如上所述,在語音時間段內,該過濾器被“凍結”從而避免本地語音的任何衰減)。具體地,由自適應算法而計算的估算了話筒10和12之間的噪聲的轉移的過濾器H可被認為是兩個過濾器和#的卷積片= G0F,其中. 對應于分數(shù)部分(具有基本正弦波形);且. #對應于兩個話筒之間的聲學轉移,S卩,對應于系統(tǒng)的“環(huán)境”部分,表示過濾器在其中操作的周圍環(huán)境的聲響。圖4示出兩個話筒之間的聲學響應的示例,形式為給出應變于過濾器F的系數(shù)Ii的幅值A的特性。應變于周圍環(huán)境可出現(xiàn)的聲音的各種反射,如反射在車廂的窗或其他壁上,引起在這個聲學響應特性中可見的峰值。圖5示出兩個過濾器G (基本正弦響應)和F (使用環(huán)境)的卷積的結果的示例,形式為給出應變于卷積過濾器的系數(shù)k的幅值A的特性。估算及可由尋求最小化誤差y( ) Χ( )從而在最優(yōu)過濾器上收斂的迭代LMS算法而計算。LMS類型的過濾器-或作為LMS的歸一化版本的歸一化LMS (NLMS)類型的過濾器-是相對簡單且不需要大量計算源的算法。這些算法本身都是已知的,如,如在如下文獻中所描述[I]B. ffidrow, Adaptive Filters (自適應過濾器),Aspect of NetworkandSystem Theory,R.E.Kalman and N. De Claris Eds. , New York:Holt,Rinehartandffinston, pp. 563-587,1970;[2] B. ffidrow et al·,Adaptive Noise Cance 11 ing: Pr inc ip I es andApplications (自適應噪聲消除原理與應用),Proc.1EEE, Vol. 63, No. 12pp. 1692-1716,Dec. 1975;[3] B. ffidrow and S. Stearns, AdaptiveSignal Processing (自適應信號處理),Prentice-Hall Signal Processing Series, Alan V. Oppenheim SeriesEditor, 1985.·如上所述,為了使得上述處理成為可能,有必要具有話音活動檢測器,該檢測器使得可能分辨其中語音存在的階段(在其中使得該過濾器自適應用于最優(yōu)化噪聲評估)和其中語音不存在的階段(其中過濾器的參數(shù)被“凍結”在它們最近發(fā)現(xiàn)的值的時間段)。更準確地,在這個示例中,話音活動檢測器優(yōu)選地是“完美”的檢測器,即,它傳遞二元信號(語音存在或不存在)。因此,該檢測器區(qū)別于在已知去噪系統(tǒng)中所使用的大多數(shù)話音活動檢測器,因為這些已知的話音活動檢測器僅能傳遞語音存在的可能性,這可能在O到100%之間連續(xù)地或連續(xù)階地變化。使用僅基于語音存在可能性的這樣的檢測器,在噪聲環(huán)境中錯誤的檢測可能是非常顯著的。為了達到“完美”,該話音活動檢測器不能單獨依賴于話筒所獲取的信號;它還必須具有附加信息能使它區(qū)別語音階段和其中近旁講話者沉默的階段。這樣的檢測器的第一示例被圖示在圖6中,其中話音活動檢測器20響應于攝像頭所產生的信號而操作。以示例的方式,攝像頭是安裝在機動車輛車廂中的攝像頭26,且指出,在所有環(huán)境下,其視野28覆蓋了駕駛員的頭部30,駕駛員被認為是近旁講話者。攝像頭26所傳遞的信號被分析,從而基于口和唇的運動而確定講話者是否正在講話。為此目的,可能使用用于檢測臉部圖像中的口部區(qū)域的算法,以及用于唇部輪廓跟蹤的算法,諸如在下述文獻中具體描述的[4]G. Potamianos et al. , Audio-Visual Automatic SpeechRecognition:AnOverview(音頻-視覺自動語音識別概覽),Audio-Visual SpeechProcessing, G. Bailly et al. Eds. , MIT Press, pp. 1-30, 2004.一般地,該文獻描述了除音頻信號之外視覺信息的貢獻,特別是為了在被衰減的聲學條件中識別話音的目的。因此除了傳統(tǒng)的音頻數(shù)據(jù)之外,視頻數(shù)據(jù)能改進話音信息(語音增強)??稍诒景l(fā)明的環(huán)境中使用這樣的處理,從而分辨其中講話者正在講話的階段和其中講話者沉默的階段。為了考慮車廂中使用者的運動較慢而口的運動較快的事實,可能,例如,一旦聚焦在口部,來比較兩張連續(xù)的圖像并評估給定像素的變化。這種圖像分析技術的優(yōu)勢在于,其提供了完全獨立于聲學噪聲環(huán)境的附加信息。適于對話音活動的“完美”檢測的傳感器的另一個示例是適于檢測極少或完全沒有受到周圍噪聲破壞的講話者的特定發(fā)音振動的生理學傳感器。這樣的傳感器可特定地由施加在講話者的臉頰或鬢角的加速度計或壓電傳感器構成。當人正在發(fā)出話音聲(B卩,其產生伴有聲帶振動的語音分量)時,振動從聲帶傳遞至咽、口鼻腔,在其中該振動被調制、放大、以及清楚地表達???、軟腭、咽、竇、以及鼻腔然后用作這個話音聲的共振箱,且由于上述器官壁是柔性的,它們依序振動且這些振動由內骨導傳輸且從臉頰和鬢角可察覺到。臉頰和鬢角的這些振動,由于它們的特別性質,呈現(xiàn)出基本不受到外界環(huán)境噪聲破壞的特性在外部噪聲存在時,即使是非常響的噪聲,臉頰和鬢角的組織基本完全不振動,且無論外部噪聲的頻譜組成如何皆是如此。獲取沒有噪聲的這些話音振動的生理學傳感器給出表示由講話者發(fā)出的話音聲的存在或不存在的信號,因此提供了對于語音階段和當講話者沉默的階段之間的非常良好的分辨。這樣的生理學傳感器可被結合至特別是圖7中所示的類型的組合的話筒和耳機的頭戴式單元。在這個附圖中,附圖標記32是對于本發(fā)明的頭戴式耳機的整體標記,其包括用頭 帶組合的兩個聽筒34。這些聽筒的每一個優(yōu)選地由容納聲音再現(xiàn)轉換器的封閉外殼36構成,并用將耳朵與外界隔絕的插入墊片38而被壓緊在圍繞使用者的耳朵周圍。被用于檢測話音活動的生理學傳感器40可例如是以被盡可能近地壓向使用者的臉頰或鬢角而與其耦合的方式結合在墊片38中的加速度計。生理學傳感器40可特定地被放置在墊片38的外皮的內側表面上,從而一旦該頭戴式耳機被放置到位,在源自使得墊片的材料變平的少量壓力的作用下,該傳感器被壓向使用者的臉頰或鬢角,之間僅有被插入其間的墊片的外側皮。該頭戴式耳機也攜載有用于獲取和去噪講話者的語音的電路的話筒10和12。這兩個話筒是放在外殼36上的全方向的話筒,且它們被設置為話筒10放在前面(更接近于頭戴式耳機的佩戴者的口部)且話筒12被放置為進一步向后。進一步,其中兩個話筒10和12被對齊的方向42大致指向頭戴式耳機的佩戴者的口部44。圖8是示出由圖7的話筒和頭戴式耳機單元所實現(xiàn)的各種功能的框圖。這個圖示出兩個話筒10和12以及話音活動檢測器20。前話筒10是主話筒,且后話筒12提供輸入到組合器14的自適應過濾器16中。話音活動檢測器20受控于由生理學傳感器40傳遞的信號,例如,對由所述傳感器40所傳遞的信號的功率進行平滑Powersensor (n) = α · powersensor (η-1) + (1- α ) · (sensor (η))2 α 是接近于 I 的平滑常數(shù)。然后,可以設置閾值I,以使只要講話者開始講話則超過這個閾值。圖9示出所獲取的信號的外觀·上面的時序圖的信號Sltl對應于由前話筒10所獲取的信號可見不可能在這個(嘈雜)信號基礎上有效地分辨何時語音存在以及何時語音不存在;且·下面的時序圖的信號S4tl對應于同時由生理學話筒40所傳遞的信號語音存在和不存在的相繼階段在其中被標記得更加明顯。在評估信號S4tl的功率并將其相對于預定義的閾值I相比較之后,用二元信號標記的VAD對應于由話音活動檢測器20所傳遞的表示C I'=語音存在;'O'=語音不存在)。由生理學傳感器40所傳遞的信號可不僅被用作話音活動檢測器的輸入信號,還被用作使得話筒10和12所獲取的信號更豐富的信號,特別是在頻譜的低頻區(qū)域。自然低,由生理學傳感器所傳遞的信號,其對應于話音聲,并不是完全是講話的語音,因為語音不僅由話音聲組成,還包括不源自聲帶的分量頻率內容可能例如更為富含例如來自喉嚨且從口產生的聲音。進一步,內骨導和通過皮膚的通道具有過濾特定話音分量的效果。此外,由于以所有方式傳播到鬢角或臉頰的振動引起的過濾,由生理學傳感器所獲取的信號適于僅在低頻處使用,主要在聲音頻譜的低區(qū)(一般是O到1500hertZ(HZ))。然而,由于在日常周圍環(huán)境(街道、地鐵、火車…)中通常遇到的噪聲主要集中在低頻處,來自生理學傳感器的信號呈現(xiàn)出自然地沒有任何寄生噪聲分量的顯著優(yōu)勢,所以可能利用這個在頻譜低區(qū)的信號,同時在頻譜高區(qū)(1500Hz以上)將其與由話筒10和12所獲取的(嘈雜的)信號相關聯(lián)(在這些嘈雜信號經受自適應組合器14所執(zhí)行的噪聲減少之后)。通過同時接收如下信號的混合器框46的方式來重建完整的頻譜來自生理學傳感器40的頻譜低區(qū)的信號;以及來自話筒10和12的在由自適應組合器14去噪之后的頻譜高區(qū)的信號。通過匯總被同步地施加給混合器框46的信號而執(zhí)行這個重建,從而避免任 何變形。所獲得的由框46所傳遞的信號可經受電路48進行的最后噪聲減少,該噪聲減少在頻域中使用可與在WO 2007/099222A1 (Parrot)中所描述的相比的常規(guī)技術來執(zhí)行,從而輸出最后的經去噪的信號S。例如,然而,這個技術的實現(xiàn)相比上述文獻中的教示大為簡化。在當前情形下,不再需要以所獲取的信號為基礎評估語音存在的可能性,因為這個信息可通過話音活動檢測器塊20響應于檢測到生理學傳感器40執(zhí)行的話音聲的發(fā)射而直接獲得。因此該算法被簡化且變得更有效、更快速。有利地,在語音存在和不存在情況下(由完美的語音活動檢測器20所給出的信息)不同地執(zhí)行頻率噪聲減少·在語音不存在情況下,在所有頻帶最大化噪聲減少,S卩,對應于最大去噪的增益被以同樣的方式施加至信號的所有分量(因為可確定在這樣的情況下沒有任何分量包含任何有用分量);且·反之,在語音存在情況下,噪聲減少是以常規(guī)方式對每一個頻帶不同地施加的頻率減少。上述系統(tǒng)使得可能獲得優(yōu)秀的整體性能,一般具有在來自近旁講話者的語音信號的30分貝(dB)到40dB數(shù)量級的噪聲減少。由于自適應組合器14在由話筒10和12所獲取的信號上操作,組合器特定地用作,以分數(shù)延遲過濾,來獲取高頻范圍內的非常良好的去噪性能。通過消除所有干擾噪聲,遠方講話者(頭戴式耳機的佩戴者與之通信的講話者)得到的印象是另一方(頭戴式耳機的佩戴者)在安靜的房間內。
權利要求
1.首頻設備,包括 一組兩個話筒傳感器,適用于獲取所述設備的使用者的語音并用于傳遞各自的噪聲語音信號; 采樣裝置,用于采樣由所述話筒傳感器所傳遞的語音信號; 用于去噪語音信號的去噪裝置,所述去噪裝置接收由所述兩個話筒傳感器所傳遞的語音信號的樣本作為輸入,并傳遞表示所述設備的使用者所發(fā)出的語音的經去噪的語音信號作為輸出;其中 所述去噪裝置是非頻率噪聲減少裝置,包括自適應過濾器組合器,用于將由所述兩個話筒傳感器所傳遞的信號組合、以另一個話筒傳感器所傳遞的信號所給出的噪聲參考為基礎通過迭代搜索操作設法消除由所述話筒傳感器中的一個所獲取的噪聲; 所述自適應過濾器是分數(shù)延遲過濾器,適用于模制比所述采樣裝置的采樣周期短的延遲; 所述設備還包括語音活動檢測器裝置,所述裝置適用于傳遞表示來自所述設備的使用者的語音存在或不存在的信號;且 所述自適應過濾器還將所述語音存在或不存在信號作為輸入從而選擇性地動作i) 或是在語音信號不存在時執(zhí)行對所述過濾器參數(shù)的自適應搜索;ii)或是在語音信號存在時“凍結”所述過濾器的這些參數(shù)。
2.如權利要求1所述的音頻設備,其特征在于,所述自適應過濾器適用于估算最優(yōu)過濾器H,以使H = (τ I '其中X'(W) = G x( )且 G (k) =sinc (k+ τ /Te)泠表示用于為包括分數(shù)延遲的脈沖響應而在所述兩個話筒傳感器之間轉移噪聲的所估算的最優(yōu)過濾器H;0表示在所述兩個話筒傳感器之間的經估算的分數(shù)延遲過濾器G ;F表示經估算的環(huán)境的聲學響應; 表示卷積;X (η)是輸入至過濾器H的信號的樣本序列;X' (η)是由延遲τ偏置的序列χ(η);Te是輸入至過濾器H的信號的采樣周期; τ是所述分數(shù)延遲,等于Te的約數(shù);且 sine表示基本正弦函數(shù)。
3.如權利要求1所述的音頻設備,其特征在于,所述自適應過濾器是具有最小均方類型的線性預測算法的過濾器。
4.如權利要求1所述的音頻設備,其特征在于, 所述設備還包括指向所述設備的使用者的且適用于獲取所述使用者的圖像的視頻攝像頭;且 所述話音活動檢測器裝置包括視頻分析裝置,適用于分析由所述攝像頭所產生的信號并作為響應傳遞表示所述使用者語音的存在或不存在的所述信號。
5.如權利要求1所述的音頻設備,其特征在于, 所述設備還包括生理學傳感器,適用于與所述設備的使用者的頭部相接觸從而所述生理學傳感器被耦合至頭部,從而獲取由內骨導傳輸?shù)姆锹晫W發(fā)音振動;且 所述話音活動檢測器裝置包括適用于分析由所述生理學傳感器所傳遞的信號并作為響應傳遞表示所述使用者語音的存在或不存在的所述信號的裝置。
6.如權利要求5所述的音頻設備,其特征在于,所述話音活動檢測器裝置包括用于評估由所述生理學傳感器所傳遞的信號中的能量的裝置、以及閾值裝置。
7.如權利要求6所述的音頻設備,其特征在于,所述設備是組合的話筒和耳機類型的音頻頭戴式耳機,所述頭戴式耳機包括 耳機,每一個耳機包括用于重現(xiàn)音頻信號的聲音的換能器,且所述耳機被容納于設置在圍繞耳朵的墊片中的外殼內; 所述兩個話筒傳感器設置在所述耳機中的一個的外殼上;且 所述生理學傳感器結合在所述耳機中的一個的墊片中,且所述生理學傳感器位于其中適于與所述頭戴式耳機的佩戴者的臉頰或鬢角相接觸的區(qū)域中。
8.如權利要求7所述的音頻設備,其特征在于,所述兩個話筒傳感器對齊作為在指向所述設備的使用者的口的主要方向上的線性陣列。
全文摘要
本發(fā)明涉及包括通過分數(shù)延遲過濾來用于去噪語音信號的裝置的音頻設備。本發(fā)明的設備包括兩個話筒、采樣裝置、以及去噪裝置。該去噪裝置是非頻率噪聲減少裝置,包括具有自適應過濾器的組合器,該自適應過濾器執(zhí)行迭代搜索設法以另一個話筒傳感器給出的噪聲參考為基礎消除所述話筒中的一個所獲取的噪聲。該自適應過濾器是分數(shù)延遲過濾器,其模制短于采樣周期的延遲。該設備還具有語音活動檢測器裝置,該裝置傳遞代表來自該設備的使用者的語音存在或不存在的信號。該自適應過濾器接收這個信號作為輸入從而使該過濾器能選擇性地動作i)或是在語音信號不存在時執(zhí)行對過濾器參數(shù)的自適應搜索;ii)或是在語音信號存在時“凍結”過濾器的這些參數(shù)。
文檔編號G10L21/0208GK103002170SQ20121017960
公開日2013年3月27日 申請日期2012年6月1日 優(yōu)先權日2011年6月1日
發(fā)明者G·懷特, M·赫夫 申請人:鸚鵡股份有限公司