背景技術(shù):
::麥克風(fēng)陣列逐漸被公認(rèn)為用于抵抗不利聲學(xué)環(huán)境中的語音采集的噪聲、干擾和混響的有效工具。其應(yīng)用包括:魯棒語音識(shí)別、免提語音通信與電話會(huì)議、助聽器,在此僅列舉了幾個(gè)例子。波束形成是一種提供一種形式的空間濾波的麥克風(fēng)陣列處理技術(shù):在衰減來自其它方向的信號(hào)的同時(shí),接收來自特定方向的信號(hào)。雖然空間濾波是可能的,但是從信號(hào)重構(gòu)來看在最小均方差(mmse)含義上卻不是最佳的。一種后濾波的傳統(tǒng)方法是多道維納濾波器(mcwf)。該多道維納濾波器可以分解為最小方差無失真響應(yīng)(mvdr)波束成形器和單道后濾波器。目前公知的傳統(tǒng)后濾波方法能夠提高波束形成之后的語音質(zhì)量;然而,這些現(xiàn)有方法有兩個(gè)共同的局限或者缺陷。第一,這些方法假定相關(guān)噪聲只是白色(不相干)噪聲或者擴(kuò)散噪聲,因此這些方法不能解決點(diǎn)干擾。例如,在有多個(gè)人在說話而其中一個(gè)人是期望聲源的環(huán)境中,點(diǎn)干擾是來自其他說話者的不需要的噪聲。第二,這些現(xiàn)有方法采用的是每一次使用兩個(gè)麥克風(fēng)來估計(jì)后濾波系數(shù)然后再取所有麥克風(fēng)對(duì)的平均的啟發(fā)式技術(shù),這會(huì)產(chǎn)生次佳結(jié)果。技術(shù)實(shí)現(xiàn)要素:本
發(fā)明內(nèi)容以簡(jiǎn)化的形式介紹了對(duì)概念的選擇,以便提供對(duì)本公開的某些方面的基本理解。本
發(fā)明內(nèi)容不是本公開的廣泛概述,并不旨在識(shí)別本公開的關(guān)鍵或者決定性元素或者勾畫本公開的范圍。本
發(fā)明內(nèi)容僅呈現(xiàn)了本公開的概念中的一些作為下面提供的具體實(shí)施方式的前序。大體上,本說明中描述的主題的一方面可以體現(xiàn)在方法、設(shè)備和計(jì)算機(jī)可讀介質(zhì)中。一種示例性設(shè)備包括:一個(gè)或者多個(gè)處理裝置和存儲(chǔ)指令的一個(gè)或者多個(gè)存儲(chǔ)裝置,所述指令在由所述一個(gè)或者多個(gè)處理裝置執(zhí)行時(shí)使所述一個(gè)或者多個(gè)處理裝置實(shí)施一種示例性方法。一種示例性計(jì)算機(jī)可讀介質(zhì)包括用于實(shí)施一種示例性方法的指令的集合。本公開的一個(gè)實(shí)施例涉及一種用于估計(jì)系數(shù)值以減少后濾波器的噪聲的方法,所述方法包括:經(jīng)由麥克風(fēng)陣列從環(huán)境中的聲源接收音頻信號(hào);基于所接收到的音頻信號(hào),假設(shè)聲場(chǎng)場(chǎng)景;基于所接收到的音頻信號(hào),計(jì)算固定的波束形成器系數(shù);基于所假設(shè)的聲場(chǎng)場(chǎng)景,確定協(xié)方差矩陣模型;基于所接收到的音頻信號(hào),計(jì)算協(xié)方差矩陣;估計(jì)所述聲源的功率以找到使所確定的協(xié)方差矩陣模型與所計(jì)算得到的協(xié)方差矩陣之間的差最小化的方案;基于所估計(jì)的功率,計(jì)算并且應(yīng)用后濾波系數(shù);以及基于所接收到的音頻信號(hào)和所述后濾波系數(shù),生成輸出音頻信號(hào)。在一個(gè)或者多個(gè)實(shí)施例中,本文中描述的方法可以可選地包括以下附加特征中的一項(xiàng)或者多項(xiàng):假設(shè)多個(gè)聲場(chǎng)場(chǎng)景以生成多個(gè)輸出信號(hào),其中,將所述多個(gè)所生成的多個(gè)輸出信號(hào)進(jìn)行比較,并且從所述多個(gè)所述生成的輸出信號(hào)中選擇具有最高信噪比的輸出信號(hào);對(duì)所述功率的所述估計(jì)是基于弗羅賓尼斯(frobenius)范數(shù),其中,所述弗羅賓尼斯范數(shù)是使用所述協(xié)方差矩陣的埃爾米特(hermitian)對(duì)稱來計(jì)算的;使用聲源位置方法來確定所述聲源中的至少一個(gè)聲源的位置以假設(shè)所述聲場(chǎng)場(chǎng)景、確定所述協(xié)方差矩陣模型、并且計(jì)算所述協(xié)方差矩陣;所述協(xié)方差矩陣模型是基于多個(gè)假設(shè)的聲場(chǎng)場(chǎng)景生成的,其中,選擇協(xié)方差矩陣模型以使減少噪聲的目標(biāo)函數(shù)最大化,以及其中,目標(biāo)函數(shù)是所述最終輸出音頻信號(hào)的樣本方差。本公開的適用性的更大范圍將在下面給出的具體實(shí)施方式中變得更顯而易見。然而,應(yīng)該理解的是,雖然描述了優(yōu)選實(shí)施例,但是只是通過舉例的方式來給出具體實(shí)施方式;對(duì)本領(lǐng)域的技術(shù)人員來說,在本公開的精神和范圍內(nèi)的各種變化和修改都會(huì)在具體實(shí)施方式中變得顯而易見。附圖說明對(duì)本領(lǐng)域的技術(shù)人員來說,結(jié)合所附權(quán)利要求書和附圖,本公開的這些和其它目的、特征和特性將從下文的具體實(shí)施方式的學(xué)習(xí)中變得顯而易見,這些附圖構(gòu)成了本說明書的一部分。在附圖中:圖1是圖示根據(jù)本文中描述的一個(gè)或者多個(gè)實(shí)施例的一種用于基于假設(shè)的聲場(chǎng)場(chǎng)景生成經(jīng)過后濾波的輸出信號(hào)的示例性系統(tǒng)的功能框圖。圖2是圖示在示例性系統(tǒng)中由噪聲環(huán)境生成的經(jīng)波束形成的單道輸出的功能框圖。圖3是圖示在示例性系統(tǒng)中基于假設(shè)的聲場(chǎng)場(chǎng)景確定協(xié)方差矩陣模型的功能框圖。圖4是圖示頻率倉(frequencybin)的后濾波估計(jì)的功能框圖。圖5是圖示根據(jù)本公開的實(shí)施例的計(jì)算頻率倉的后濾波系數(shù)的示例性步驟的流程圖。圖6圖示麥克風(fēng)陣列和與實(shí)驗(yàn)結(jié)果相關(guān)的聲源的空間布置。圖7是圖示示例性計(jì)算裝置的框圖。本文中提供的小標(biāo)題僅為了方便起見,并不一定影響權(quán)利要求書的范圍或者含義。具體實(shí)施方式本公開大體上涉及用于音頻信號(hào)處理的系統(tǒng)與方法。更具體地,本公開的方面涉及用于麥克風(fēng)陣列語音增強(qiáng)的后濾波技術(shù)。下面的描述為徹底理解和實(shí)現(xiàn)對(duì)本公開的描述提供了具體細(xì)節(jié)。然而,相關(guān)領(lǐng)域的技術(shù)人員應(yīng)該明白的是,在沒有許多這些細(xì)節(jié)的情況下,也可以實(shí)踐本文中描述的實(shí)施例。同樣,相關(guān)領(lǐng)域的技術(shù)人員還應(yīng)該明白的是,本文中描述的示例性實(shí)施例可以包括本文未詳細(xì)描述的許多其它明顯特征。此外,在下文中可能未詳細(xì)示出或者描述一些公知的結(jié)構(gòu)或者功能,以避免不必要地使相關(guān)描述變得模糊。1.引言本公開的某些實(shí)施例和特征涉及用于后濾波音頻信號(hào)的方法與系統(tǒng),這些方法與系統(tǒng)利用信號(hào)模型,該信號(hào)模型不僅考慮了擴(kuò)散與白噪聲,而且還考慮了點(diǎn)干擾源。如下面將更詳細(xì)描述的,這些方法與系統(tǒng)設(shè)計(jì)為實(shí)現(xiàn)麥克風(fēng)陣列中的麥克風(fēng)的全局優(yōu)化最小二乘(ls)方案。在某些實(shí)施方式中,使用真實(shí)記錄的對(duì)期望干擾源的脈沖響應(yīng),包括合成的擴(kuò)散和白噪聲,來估計(jì)所公開的方法的性能。該脈沖響應(yīng)是動(dòng)態(tài)系統(tǒng)針對(duì)稱為脈沖的簡(jiǎn)單輸入信號(hào)的輸出或者反應(yīng)。圖1圖示了一種用于基于假設(shè)的聲場(chǎng)場(chǎng)景(111)生成經(jīng)過后濾波的輸出信號(hào)(175)的示例性系統(tǒng)。假設(shè)的聲場(chǎng)場(chǎng)景(111)是在噪聲環(huán)境(105)中對(duì)噪聲分量(106-108)的組成的確定。在該示例性實(shí)施例中,將一個(gè)假設(shè)的聲場(chǎng)場(chǎng)景(111)輸入至各種頻率倉f1至fn(165a-c)以生成輸出/期望信號(hào)(175)。對(duì)于假設(shè)的聲場(chǎng)場(chǎng)景(111),將信號(hào)轉(zhuǎn)化成頻域。從一個(gè)頻率到另一個(gè)頻率獨(dú)立地進(jìn)行波束成形和后濾波。在該示例性實(shí)施例中,假設(shè)的聲場(chǎng)場(chǎng)景包括一個(gè)干擾源。在其它示例性實(shí)施例中,假設(shè)的聲場(chǎng)場(chǎng)景可能更復(fù)雜,包括許多干擾場(chǎng)景。同樣,在其它示例性實(shí)施例中,可以確定多個(gè)假設(shè)的聲場(chǎng)場(chǎng)景以生成多個(gè)輸出信號(hào)。相關(guān)領(lǐng)域中的技術(shù)人員應(yīng)該明白,多個(gè)聲場(chǎng)場(chǎng)景可以是基于各種因素來假設(shè)的,諸如,可以是已知的或者確定的關(guān)于環(huán)境的信息。本領(lǐng)域的技術(shù)人員還應(yīng)該明白,可以使用各種因素來確定輸出信號(hào)的質(zhì)量,諸如,測(cè)量信噪比(例如,如在下文中論述的實(shí)驗(yàn)中測(cè)量的)。在其它示例性實(shí)施例中,本領(lǐng)域的技術(shù)人員可以應(yīng)用其它方法來假設(shè)聲場(chǎng)場(chǎng)景和確定輸出信號(hào)的質(zhì)量。圖1圖示了可以包括一個(gè)或者多個(gè)噪聲分量(106-108)的噪聲環(huán)境(105)。在環(huán)境(105)中的噪聲分量(106-108)可以包括,例如,擴(kuò)散噪聲、白噪聲、和/或點(diǎn)干擾噪聲源??梢詫h(huán)境(105)中的噪聲分量(106-108)或者噪聲源定位在不同位置處以按照各種功率/強(qiáng)度水平將噪聲投射在各個(gè)方向上。每個(gè)噪聲分量(106-108)生成音頻信號(hào),可以通過麥克風(fēng)陣列(130)中的多個(gè)麥克風(fēng)m1…mn(115、120、125)來接收音頻信號(hào)。為了清楚起見,在示例性圖示中,將由環(huán)境(105)中的噪聲分量(106-108)生成并且由麥克風(fēng)陣列(130)中的麥克風(fēng)(115、120、125)中的每一個(gè)接收的音頻信號(hào)描述為單箭頭109。麥克風(fēng)陣列(103)包括多個(gè)單獨(dú)的全向性麥克風(fēng)(115、120、125)。本實(shí)施例假設(shè)全向性麥克風(fēng)。其它示例性實(shí)施例可以實(shí)施其它類型的麥克風(fēng),這些其它類型的麥克風(fēng)可以改變協(xié)方差矩陣模型。由麥克風(fēng)m1至mn(115、120、125)(其中,“n”為任意整數(shù))中的每一個(gè)麥克風(fēng)接收到的音頻信號(hào)(109)可以經(jīng)由變換方法轉(zhuǎn)換成頻域,諸如,例如,離散時(shí)間傅里葉變換(dtft)(116、121、126)。其它示例性轉(zhuǎn)換方法可以包括,但不限于:fft(快速傅里葉變換)或者stft(短時(shí)傅里葉變換)。為了簡(jiǎn)單起見,經(jīng)由與一個(gè)頻率對(duì)應(yīng)的dtft(116、121、126)中的每一個(gè)生成的輸出信號(hào)用單箭頭來表示。例如,在第一頻率倉f1(165a)處由麥克風(fēng)m1(115)接收到的音頻產(chǎn)生的dtft音頻信號(hào)表示為單箭頭117a。圖1還圖示了多個(gè)頻率倉(165a-c),該多個(gè)頻率倉(165a-c)包含各種分量,并且每個(gè)頻率倉的后濾波分量生成后濾波輸出信號(hào)。例如,頻率倉f1(165a)的后濾波分量(160a)生成第一頻率倉(161a)的后濾波輸出信號(hào)。將每個(gè)頻率倉(165a-c)的輸出信號(hào)輸入至逆dtft分量(170)以生成具有減少的不需要的噪聲的最終時(shí)域輸出/期望信號(hào)(175)。下面將對(duì)該示例性系統(tǒng)(100)中的頻率倉(165a-c)的各種分量的細(xì)節(jié)與步驟進(jìn)行更詳細(xì)的說明。2.信號(hào)模型圖2圖示了由噪聲環(huán)境(105)生成的經(jīng)波束形成的單道輸出(136a)。為了簡(jiǎn)單起見,已經(jīng)從圖2中省略了在此處未論述的整個(gè)系統(tǒng)100(如圖1所示)的分量。噪聲環(huán)境(105)包含生成如聲音的輸出的各種噪聲分量(106-108)。在本示例性實(shí)施例中,噪聲分量106輸出期望聲音,而噪聲分量107和108輸出不期望的聲音,這些不期望的聲音可以是白噪聲、擴(kuò)散噪聲或者點(diǎn)干擾噪聲的形式。各個(gè)噪聲分量(106-108)均生成聲音。然而,為了簡(jiǎn)單起見,將噪聲分量(106-108)的合并輸出用單箭頭109來描述?;邴溈孙L(fēng)的物理位置和環(huán)境噪聲(109)內(nèi)的傳入音頻信號(hào)的方向與強(qiáng)度,在陣列(130)中的麥克風(fēng)(115、120、125)以各種時(shí)間間隔接收環(huán)境噪聲(109)。對(duì)在麥克風(fēng)(115、120、125)中的每個(gè)麥克風(fēng)處接收到的音頻信號(hào)進(jìn)行轉(zhuǎn)換(116、121、126)和波束形成(135a)以生成針對(duì)一個(gè)單頻率的單道輸出(137a)。將固定波束形成器(135a)的單道輸出(137a)傳送至后濾波器(160a)。傳送用于生成波束形成濾波器(136a)的與下列等式(6)相關(guān)聯(lián)的表示為h(jω)的波束形成系數(shù)(138a),以計(jì)算出后濾波系數(shù)(155a)。此處將對(duì)捕獲環(huán)境噪聲(109)并且生成經(jīng)波束形成的單道輸出信號(hào)(137a)和波束形成濾波器(136a)進(jìn)行更詳細(xì)的說明。假設(shè)m個(gè)元件(115、120、125)的麥克風(fēng)陣列(130)用于捕獲來自噪聲聲學(xué)環(huán)境(105)中的期望點(diǎn)聲源(106)的信號(hào)s(t),其中,m為任何整數(shù)值并且是陣列(130)中麥克風(fēng)的數(shù)量。在時(shí)域中第m個(gè)麥克風(fēng)的輸出表示為:xm(t)=gs,m*s(t)+ψm(t),m=1,2,…,m,(1)其中,gs,m表示期望分量(106)對(duì)第m個(gè)麥克風(fēng)(例如,125)的脈沖響應(yīng),*表示線性卷積,并且ψm(t)是不需要的加性噪聲(即,由噪聲分量107和108生成的聲音)。所公開的方法能夠處理多個(gè)點(diǎn)干擾源;然而,為了清楚起見,在本文提出的示例中描述一個(gè)點(diǎn)干擾。加性噪聲通常由三種不同類型的聲音分量組成:1)來自點(diǎn)干擾源的相干噪聲,v(t);2)擴(kuò)散噪聲,um(t);以及,3)白噪聲,wm(t)。同樣:其中,gv,m是點(diǎn)噪聲源對(duì)第m個(gè)麥克風(fēng)的脈沖響應(yīng)。在本示例性實(shí)施例中,將期望信號(hào)和這些噪聲分量(106-108)假設(shè)為短時(shí)平穩(wěn)的并且互不相關(guān)的。在其它示例性實(shí)施例中,可以包括不同的噪聲分量。例如,包含四處移動(dòng)的多個(gè)期望聲源和目標(biāo)期望聲源的噪聲環(huán)境可以在一段時(shí)間內(nèi)交替。換言之,在擁擠的房間中,兩個(gè)人邊走邊說。在頻域中,將等式(1)中的該普遍麥克風(fēng)陣列信號(hào)模型轉(zhuǎn)換為:xm(jω)=gs,m(jω)s(jω)+ψ(jω)=gs,m(jω)s(jω)+gv,m(jω)v(jω)+u(jω)+w(jω),(3)其中,ω為角頻率,并且xm(jω)、gs,m(jω)、s(jω)、gv,m(jω)、v(jω)、u(jω)、w(jω)分別為xm(t)、gs,m、s(t)、gv,m、v(t)、u(t)和w(t)的離散時(shí)間傅里葉變換(dtft)。雖然在該示例性實(shí)施例中采用了dftf,但是不應(yīng)該理解為限制本發(fā)明的范圍。其它示例性實(shí)施例可以采用其它方法,諸如,stft(短時(shí)傅里葉變換)或者fft(快速傅里葉變換)。向量/矩陣形式的等式(3)如下:x(jω)=s(jω)gs(jω)+v(jω)gv(jω)+u(jω)+w(jω)(4)其中,(·)t表示向量或者矩陣的轉(zhuǎn)置矩陣。然后,將麥克風(fēng)陣列空間協(xié)方差矩陣確定為:其中,假設(shè)互相不相關(guān)的信號(hào),而且,e{·}、(·)h和(·)*分別表示數(shù)學(xué)期望值、向量或者矩陣的埃爾米特(hermitian)轉(zhuǎn)置矩陣以及復(fù)變量的共軛。波束成形器(135a)通過有限脈沖響應(yīng)(fir)濾波器hm(jω)(m=1,2,···,m)對(duì)每個(gè)麥克風(fēng)信號(hào)進(jìn)行濾波,并且對(duì)結(jié)果求和來產(chǎn)生單道輸出(137a)和波束成形濾波器(136a),其中在等式(6)中,還對(duì)期望聲源的協(xié)方差矩陣進(jìn)行建模。由于期望源與干擾源均為點(diǎn)源,所以其模型與干擾源的模型相似。它們的不同之處在于它們相對(duì)于麥克風(fēng)陣列的方向。3.對(duì)噪聲協(xié)方差矩陣進(jìn)行建模圖3圖示了基于假設(shè)的聲場(chǎng)場(chǎng)景(111)確定協(xié)方差模型的步驟。為了簡(jiǎn)單起見,已經(jīng)從圖3中省略了在此處未論述的整個(gè)系統(tǒng)100(如圖1所述)的分量?;谠肼暛h(huán)境(105)確定假設(shè)的聲場(chǎng)場(chǎng)景(111),并且將假設(shè)的聲場(chǎng)場(chǎng)景(111)分別輸入至每個(gè)頻率倉(165a-c)的協(xié)方差模型(140a-c)。在實(shí)際環(huán)境中,可能不知道噪聲分量的組成,即,點(diǎn)干擾源的數(shù)量與位置、以及白噪聲源或者擴(kuò)散噪聲源的存在。因此,對(duì)聲場(chǎng)場(chǎng)景進(jìn)行假設(shè)。上述的等式(2)表示具有一個(gè)點(diǎn)干擾源、擴(kuò)散噪聲、和白噪聲的場(chǎng)景,從而產(chǎn)生四個(gè)未知數(shù)。如果該場(chǎng)景假設(shè)或者假定沒有點(diǎn)干擾源而只有白噪聲和擴(kuò)散噪聲,則可以簡(jiǎn)化上述的等式(5),從而只產(chǎn)生三個(gè)未知數(shù)。在等式(5)中,對(duì)三個(gè)與干擾/噪聲相關(guān)的分量(106-108)進(jìn)行如下建模:(1)點(diǎn)干擾:由于點(diǎn)干擾源v(t)產(chǎn)生的協(xié)方差矩陣pgv(jω)具有第一排名。通常,當(dāng)存在混響或者該源在麥克風(fēng)陣列的近場(chǎng)中時(shí),脈沖響應(yīng)向量gv的復(fù)雜元素可以具有不同的量級(jí)。但是,如果只考慮了直接路徑或者如果該點(diǎn)源在遠(yuǎn)場(chǎng)中,則:這只包含了相對(duì)于到達(dá)公共參考點(diǎn),干擾到達(dá)多個(gè)麥克風(fēng)τv,m(m=1,2,···,m)的時(shí)間差。(2)擴(kuò)散噪聲:由于擴(kuò)散噪聲場(chǎng)具有同時(shí)在多個(gè)方向上傳播相等功率的不相關(guān)噪聲信號(hào)的特征,所以將擴(kuò)散噪聲場(chǎng)視為球面各向同性的或者柱面各向同性的。其協(xié)方差矩陣為:其中,γuu(ω)的第(p,q)個(gè)元素為:dpq為第p個(gè)麥克風(fēng)與第q個(gè)麥克風(fēng)之間的距離,c為聲音的速度,并且j0(·)為第一類的零階貝塞爾(bessel)函數(shù)。(3)白噪聲:加性白噪聲的協(xié)方差矩陣只是加權(quán)的單位矩陣:4.多道維納濾波器(mcwf)、mvdr波束成形、與后濾波當(dāng)使用麥克風(fēng)陣列來捕獲期望的寬帶聲音信號(hào)(例如,語音和/或音樂)時(shí),目的在于最小化在等式(6)中的y(jω)與ω的s(jω)之間的距離。在mmsf意義上最佳的mcwf可以分解為mvdr波束成形器和其后的單道維納濾波器(smwf):其中,分別為在mvdr波束形成器的輸出處的期望信號(hào)和噪聲的功率。這種分解會(huì)產(chǎn)生用于麥克風(fēng)陣列語音采集的下列結(jié)構(gòu):將scwf視為在mvdr波束形成器之后的后濾波器。5.后濾波估計(jì)圖4圖示了頻率倉中的后濾波估計(jì)步驟。為了實(shí)施在等式(11)中給出的前端mvdr波束成形器和作為后處理器的scwf,估計(jì)由麥克風(fēng)信號(hào)計(jì)算出的協(xié)方差矩陣產(chǎn)生的信號(hào)與噪聲協(xié)方差矩陣。首先以幀為單位將多道麥克風(fēng)信號(hào)進(jìn)行窗口化(例如,通過加權(quán)的重疊相加的分析窗口),然后通過fft進(jìn)行轉(zhuǎn)換以確定x(jω,i),其中,i為幀索引。通過如下等式,動(dòng)態(tài)地或者使用存儲(chǔ)器部件對(duì)麥克風(fēng)信號(hào)的協(xié)方差矩陣(145a)的估計(jì)進(jìn)行遞歸更新:其中,0<λ<1為遺忘因子。再者,與等式(7)相似,可以忽略混響,從而產(chǎn)生:其中,τs,m為期望信號(hào)相對(duì)于到達(dá)公共參考點(diǎn)而言到達(dá)第m個(gè)麥克風(fēng)的時(shí)間差。在另一個(gè)示例中,假定τs,m和τv,m二者均為已知的并且不會(huì)隨著時(shí)間而變化。因此,根據(jù)等式(5),通過使用等式(8)和等式(10),在第i個(gè)時(shí)間幀處,可以將協(xié)方差矩陣模型(140a)確定為如下:該等式允許基于等式(14)的左邊與右邊之間的差的frobenius范數(shù)來定義判據(jù)。通過最小化這樣的判據(jù),可以推導(dǎo)出的ls估計(jì)量。要注意的是,等式(14)中的矩陣是埃爾米特(hermitian)矩陣。為了清楚起見,已經(jīng)省略了該公式中的冗余信息。對(duì)于m×m埃爾米特矩陣a=[apq],可以定義兩個(gè)向量。其中一個(gè)向量為對(duì)角線元素,而另一個(gè)向量為三角形下部分的非對(duì)角線半向量化(odhv):可以將相同大小的多個(gè)n埃爾米特矩陣定義為:通過使用這些符號(hào),將等式(14)進(jìn)行重組以得到:其中,為了清楚起見,省略了參數(shù)jω,并且此處,結(jié)果為m(m+1)/2等式和4個(gè)未知數(shù)。如果m≥3,則這會(huì)是超定問題。換言之,存在比未知數(shù)更多的等式。上述誤差判據(jù)可以表示為:在估計(jì)聲源(150a)的功率時(shí)使該判據(jù)最小化會(huì)產(chǎn)生:其中,表示復(fù)數(shù)/向量的實(shí)數(shù)部分??梢约僭O(shè)的是,中的估計(jì)誤差為iid(獨(dú)立同分布)隨機(jī)變量。從而,在計(jì)算后濾波系數(shù)(155a)過程中實(shí)施時(shí),等式(21)中給出的ls(最小二乘)解在mmse意義上是最佳的。如本公開所述的,將該估計(jì)值代入等式(11)會(huì)產(chǎn)生ls后濾波器(lspf)(160a)。在上述示例性實(shí)施例中,推導(dǎo)出的ls解假設(shè)m≥3。這是因?yàn)槭褂昧擞伤姆N類型的聲音信號(hào)組成的更普遍化的聲場(chǎng)模型。在其它示例性實(shí)施例中,關(guān)于聲場(chǎng)的附加信息是可用的,這樣可以忽略某些類型的干擾信號(hào)(例如,無點(diǎn)干擾并且/或者僅有白噪聲),然后可以移除等式(19)中與這些可忽略聲源對(duì)應(yīng)的列,并且仍然可以利用m=2來開發(fā)本公開所描述的lspf。圖5是圖示根據(jù)本公開的實(shí)施例的計(jì)算頻率倉(165a)的后濾波系數(shù)的示例性步驟。下面在圖5中的圖示反映了上面公開的細(xì)節(jié)與上述數(shù)學(xué)概念的示例性實(shí)施方式。所公開的步驟僅通過圖示的方式給出。對(duì)本領(lǐng)域的技術(shù)人員來說明顯的是,在具體實(shí)施方式的精神和范圍之內(nèi)可以并行地或者以交替的序列來進(jìn)行某些步驟。參照?qǐng)D5,示例性步驟開始于步驟501。在步驟502中,經(jīng)由麥克風(fēng)陣列(130)從環(huán)境(105)中的聲源(106-108)生成的噪聲(109)接收音頻信號(hào)。在步驟503中,假設(shè)聲場(chǎng)場(chǎng)景(111)。在步驟504中,針對(duì)頻率倉(165a),基于接收到的音頻信號(hào)(117a、122a、127a),計(jì)算固定的波束形成器系數(shù)(138a)。在步驟505中,基于假設(shè)的聲場(chǎng)場(chǎng)景(111),確定協(xié)方差矩陣模型(140a)。在步驟506中,基于接收到的音頻信號(hào)(117a、122a、127a),計(jì)算協(xié)方差矩陣(145a)。在步驟507中,基于確定的協(xié)方差矩陣模型(140a)和計(jì)算得到的協(xié)方差矩陣(145a),估計(jì)聲源(150a)的功率。在步驟508中,基于估計(jì)的聲源(150a)的功率和計(jì)算得到的固定波束形成器系數(shù)(138a),計(jì)算后濾波系數(shù)(155a)。這些示例性步驟可以繼續(xù)進(jìn)入結(jié)束步驟509??梢詫?duì)每個(gè)頻率倉(165a-c)實(shí)施上述步驟以分別生成經(jīng)過后濾波的輸出信號(hào)(161a-c)。然后,可以對(duì)經(jīng)過后濾波的信號(hào)(161a-c)進(jìn)行轉(zhuǎn)換(170)以生成最終輸出/期望信號(hào)(175)。如上所述,與本文所述的方法與系統(tǒng)相比,傳統(tǒng)的后濾波方法不是最佳的并且具有缺陷。下面將對(duì)現(xiàn)有方法相對(duì)于本公開的局限性和缺陷進(jìn)行說明。(a)zelinski后濾波(zpf)假設(shè):1)無點(diǎn)干擾,即2)無擴(kuò)散噪聲,即只有加性不相干白噪聲。從而,將等式(19)簡(jiǎn)化為:zpf只使用等式(22)的底部odhv部分而非使用等式(21)計(jì)算的最佳ls解,從而得到:要注意的是,從等式(13)中得出從而,等式(23)變?yōu)椋喝绻麑spf的相同聲場(chǎng)模型用于zpf(例如,只有白干擾),則可以看出,當(dāng)m=2時(shí),zpf和lspf是等效的。然而,當(dāng)m≥3時(shí),它們?cè)诒举|(zhì)上是不同的。(a)mccowan后濾波(mpf)假設(shè):1)無點(diǎn)干擾,即=0,2)無加性白噪聲,即只有擴(kuò)散噪聲。在這些假設(shè)下,等式(19)變成:要注意的是,從等式(9)中得出diag{γuu}=1m×1。等式(25)為超定體系。再者,mpf應(yīng)用從等式(25)得出的與第p個(gè)麥克風(fēng)和第q個(gè)麥克風(fēng)對(duì)相對(duì)應(yīng)的三個(gè)等式來形成像下面的子體系,而不是通過下面等式(21)來找到全局ls解:其中,針對(duì)mpf方法對(duì)等式(26)求解:由于存在m(m-1)/2個(gè)不同的麥克風(fēng)對(duì),所以最終的mpf估計(jì)值只是子體系的結(jié)果的平均值,如下:在實(shí)踐中,擴(kuò)散噪聲模型比白噪聲模型更常見。當(dāng)γuu=im×m時(shí),可以將后者視為前者的特殊情況。但是,對(duì)等式(25)求解的mpf方法是啟發(fā)式的,并且也不是最佳的。再者,如果lspf使用了僅有擴(kuò)散噪聲模型,則當(dāng)m=2時(shí),lspf等效于mpf;而當(dāng)m≥3時(shí),它們?cè)诒举|(zhì)上是不同的。(c)leukimmiatis后濾波采用mpf中提出的算法來估計(jì)leukimmiatis等人僅僅解決了zelinski后濾波和mccowan后濾波中的缺陷,(11)中的后濾波的分母應(yīng)該為而不是6.實(shí)驗(yàn)結(jié)果下面提供了已經(jīng)進(jìn)行的示例性語音增強(qiáng)實(shí)驗(yàn)的結(jié)果以驗(yàn)證本公開的lspf方法與系統(tǒng)。圖6圖示了實(shí)驗(yàn)的麥克風(fēng)陣列(610)和聲源(620、630)的空間布置。在附圖內(nèi)的元素的位置并不旨在表達(dá)確切尺寸或者距離,這將在下面描述中提出。提供了考慮麥克風(fēng)陣列(610)的前四個(gè)麥克風(fēng)m1-m4(601-604)的一組實(shí)驗(yàn),其中,各麥克風(fēng)之間的間距為3cm。60db混響時(shí)間為360ms。期望聲源(620)位于陣列的舷側(cè)(0°),而干擾源(630)位于45°方向上。兩者均距離陣列2m。將純的、連續(xù)的16khz/16比特語音信號(hào)用于這些點(diǎn)聲源。期望聲源(620)為女性說話者,而干擾源(630)為男性說話者。兩種信號(hào)的發(fā)聲部分均具有多個(gè)重疊部分。因此,對(duì)16khz的脈沖響應(yīng)進(jìn)行重新采樣,將這些沖擊響應(yīng)截?cái)酁?096個(gè)樣本,并且生成球面各向同性的擴(kuò)散噪聲。在這些實(shí)驗(yàn)?zāi)M中,使用了分布在較大球面上的72×36=2592個(gè)點(diǎn)源。將這些信號(hào)截?cái)酁?0s。在上述實(shí)驗(yàn)中,定義三個(gè)全頻段測(cè)量值來表征聲場(chǎng)(下標(biāo)sf)。即,信號(hào)干擾比(sir)、信噪比(snr)、和擴(kuò)散白噪聲比(dwr),如下:其中,對(duì)于性能評(píng)估,可以對(duì)兩個(gè)目標(biāo)矩陣進(jìn)行分析:信號(hào)干擾噪聲比(sinr)和感知評(píng)估語音質(zhì)量(pesq)。分別計(jì)算每個(gè)麥克風(fēng)處的sinr和pesq,并且取sinr和pesq的平均數(shù)作為輸入的sinr和pesq。近似地估計(jì)出輸出sinr和pesq(分別用sinro和pesqo表示)。分析在輸入測(cè)量值與輸出測(cè)量值之間的差(即,delta值)。為了更好評(píng)估在輸出處的噪聲減少與語音失真的量,還要計(jì)算出干擾與噪聲減少(inr)和僅期望語音的pesq(dpesq)。對(duì)于dpesq,將經(jīng)過處理的期望語音和純語音傳送至pesq估計(jì)器。輸出pesq指示增強(qiáng)信號(hào)的質(zhì)量,而dpesq值量化了引進(jìn)的語音失真的量。在本研究中,使用了hu&loizou提出的用于pesq的matlab代碼。為了避免mvdr(最小方差無失真響應(yīng))波束形成器中由于室內(nèi)混響而引起的公知信號(hào)相消問題,將延遲與求和(d&s)波束形成器實(shí)施用于前端處理,并且與下列四種不同的后濾波算法進(jìn)行比較:無后濾波、zpe、mpe和lspf。將只有d&s的實(shí)施方式用作基準(zhǔn)。對(duì)于zpe和mpe,已經(jīng)采用了leukimmiatis的校正。在下列三種不同的設(shè)置下進(jìn)行測(cè)試:1)只有白噪聲:sirsf=30db,snrsf=5db,dwrsf=-30db;2)只有擴(kuò)散噪聲:sirsf=30db,snrsf=10db,dwrsf=30db;3)混合噪聲、干擾:sirsf=0db,snrsf=10db,dwrsf=0db。結(jié)果如下:表1:麥克風(fēng)陣列語音增強(qiáng)結(jié)果table1:microphonearrayspeechenhancementresults.在這些測(cè)試中,將平方根漢明窗和512點(diǎn)fft用于stft分析。兩個(gè)鄰近的窗口具有50%的重疊樣本。使用加權(quán)的重疊相加方法來重構(gòu)經(jīng)過處理的信號(hào)。在表1中概括了實(shí)驗(yàn)結(jié)果。首先,對(duì)只有白噪聲的聲場(chǎng)的結(jié)果進(jìn)行分析。由于這是通過zpf方法解決的聲場(chǎng)的類型,所以spf在抑制噪聲和增強(qiáng)語音質(zhì)量上起到了非常好的作用。然而,雖然所提出的lspf以稍低的dpesq引進(jìn)了更大的語音失真,但卻實(shí)現(xiàn)了更大的噪聲減少并且提供了更高的輸出pesq。由于mpf的sinr增益低于zpf和lspf的sinr增益,所以mpf產(chǎn)生了虛高的inr。這意味著,mpf不僅大大地抑制了噪聲,而且還抑制了語音信號(hào)。mpf的pesq和dpesq均低于lspf的pesq和dpesq。在第二種聲場(chǎng)中,正如預(yù)期的,d&s波束形成器在處理擴(kuò)散噪聲上不太有效,并且zpf的性能也降低了。在這種情況下,mpf的性能尚可,仍然是lspf顯然取得了最好的結(jié)果。由于存在隨時(shí)間變化的干擾語音源,第三種聲場(chǎng)顯然是最具有挑戰(zhàn)性的情況。然而,lspf在所有矩陣中均勝過了其它傳統(tǒng)方法。最后,值得注意的是,這些純粹客觀的性能評(píng)估結(jié)果與我們的少數(shù)同行實(shí)施的非正式監(jiān)聽測(cè)試中的四種技術(shù)的主觀認(rèn)知一致。本公開描述了用于麥克風(fēng)陣列應(yīng)用的ls后濾波方法的方法與系統(tǒng)。與傳統(tǒng)的后濾波技術(shù)不同,所描述的方法不僅考慮了擴(kuò)散噪聲和白噪聲,而且還考慮了點(diǎn)干擾。而且,這是比傳統(tǒng)方法更有效的開發(fā)由麥克風(fēng)陣列采集到的信息的全局最優(yōu)方案。此外,已經(jīng)通過各種聲學(xué)場(chǎng)景中的模擬驗(yàn)證并且量化了所公開的技術(shù)勝過現(xiàn)有方法的優(yōu)點(diǎn)。圖7是示出計(jì)算裝置(700)上的應(yīng)用的高級(jí)框圖。在基本配置(701)中,計(jì)算裝置(700)通常包括一個(gè)或者多個(gè)處理器(710)、系統(tǒng)存儲(chǔ)器(720)、和存儲(chǔ)器總線(730)。該存儲(chǔ)器總線用于在處理器與系統(tǒng)存儲(chǔ)器之間進(jìn)行通信。該配置還可以包括實(shí)施上述方法的獨(dú)立后濾波部件(726),或者可以集成到應(yīng)用(722、723)中。根據(jù)不同的配置,處理器(710)可以是微處理器(μp)、微控制器(μc)、數(shù)字信號(hào)處理器(dsp)、或者其任何組合。處理器(710)可以包括一個(gè)或者多個(gè)級(jí)別的緩存(諸如,l1緩存(711)和l2緩存(712))、處理器核心(713)、和寄存器(714)。處理器核心(713)可以包括算術(shù)邏輯單元(alu)、浮點(diǎn)單元(fpu)、數(shù)字信號(hào)處理核心(dspcore)、或者其任何組合。存儲(chǔ)控制器(716)可以是處理器(710)的獨(dú)立部分或者內(nèi)部部分。根據(jù)期望的配置,系統(tǒng)存儲(chǔ)器(720)可以是任何類型的,包括但不限于:易失性存儲(chǔ)器(諸如,ram)、非易失性存儲(chǔ)器(諸如,rom、閃速存儲(chǔ)器等)或者其任何組合。系統(tǒng)存儲(chǔ)器(720)通常包括操作系統(tǒng)(721)、一個(gè)或者多個(gè)應(yīng)用(722)、和程序數(shù)據(jù)(724)。應(yīng)用(722)可以包括后濾波部件(726)或者用于語音增強(qiáng)的全局優(yōu)化最小二乘后濾波(723)的系統(tǒng)與方法。程序數(shù)據(jù)(724)包括存儲(chǔ)指令,這些指令在由一個(gè)或者多個(gè)處理裝置執(zhí)行時(shí)實(shí)施針對(duì)上述方法和部件(723)的系統(tǒng)與方法?;蛘?,可以經(jīng)由后濾波部件(726)來執(zhí)行該方法的指令與實(shí)施。在某些實(shí)施例中,應(yīng)用(722)可以設(shè)置為在操作系統(tǒng)上(721)利用程序數(shù)據(jù)(724)來運(yùn)行。計(jì)算裝置(700)可以具有附加特征或者功能、和附加接口以促進(jìn)基本配置(701)與任何需要的裝置和接口之間的通信。系統(tǒng)存儲(chǔ)器(720)是計(jì)算機(jī)存儲(chǔ)介質(zhì)的示例。計(jì)算機(jī)存儲(chǔ)介質(zhì)包括,但不限于:ram、rom、eeprom、閃速存儲(chǔ)器、或者其它存儲(chǔ)器技術(shù)、cd-rom、數(shù)字通用光盤(dvd)或者其它光存儲(chǔ)裝置、磁帶盒、磁帶、磁盤存儲(chǔ)裝置或者其它磁存儲(chǔ)裝置、或者可以用于存儲(chǔ)需要的信息并且可以由計(jì)算裝置700存取的任何其它介質(zhì)。任何這種計(jì)算機(jī)存儲(chǔ)介質(zhì)可以是裝置(700)的一部分。計(jì)算裝置(700)可以實(shí)施為小形狀因子便攜式(或者移動(dòng))電子裝置的一部分,諸如,手機(jī)、智能電話、個(gè)人數(shù)字助理(pda)、個(gè)人媒體播放器、平板計(jì)算機(jī)(平板)、無線網(wǎng)頁瀏覽裝置、個(gè)人耳機(jī)裝置、專用于應(yīng)用的裝置、或者包括上述功能中的任何一種功能的混合裝置。計(jì)算裝置(700)還可以實(shí)施為個(gè)人計(jì)算機(jī),包括膝上型計(jì)算機(jī)配置和非膝上型計(jì)算機(jī)配置二者。上述的具體實(shí)施方式已經(jīng)通過使用框圖、流程圖和/或示例陳述了裝置和/或過程的各個(gè)實(shí)施例。這些框圖、流程圖和/或示例包含一種或者多種功能和/或操作,本領(lǐng)域技術(shù)人員應(yīng)該理解的是,可以通過各種各樣的硬件、軟件、固件或者其任何虛擬組合來單獨(dú)地和/或聯(lián)合地實(shí)施這些框圖、流程圖和/或示例中的各個(gè)功能和/或操作。在一個(gè)實(shí)施例中,可以經(jīng)由專用集成電路(asic)、現(xiàn)場(chǎng)可編程門陣列(fpga)、數(shù)字信號(hào)處理器(dsp)或者其它集成格式來實(shí)施本文所描述的主題的若干部分。然而,本領(lǐng)域技術(shù)人員將認(rèn)識(shí)到,本文中描述的實(shí)施例的某些方面可以在集成電路中全部或者部分地等效實(shí)施為在一個(gè)或者多個(gè)計(jì)算機(jī)上運(yùn)行的一個(gè)或者多個(gè)計(jì)算機(jī)程序、在一個(gè)或者多個(gè)處理器上運(yùn)行的一個(gè)或者多個(gè)程序、固件、或者其任何虛擬組合;而且,根據(jù)本公開設(shè)計(jì)電路和/或?qū)懭胗糜谲浖凸碳拇a應(yīng)該在本領(lǐng)域技術(shù)人員的技術(shù)范圍之內(nèi)。此外,本領(lǐng)域技術(shù)人員應(yīng)該明白的是,本文中描述的主題的機(jī)制能夠被描述為各種形式的程序產(chǎn)品;而且,不管實(shí)際實(shí)施分配的非暫時(shí)性信號(hào)承載介質(zhì)的具體類型,本文中描述的主體的圖示實(shí)施例均可以適用。非暫時(shí)性信號(hào)承載介質(zhì)的示例包括,但不限于:可記錄型介質(zhì),諸如,軟盤、硬盤驅(qū)動(dòng)器、光碟(cd)、數(shù)字視頻光盤(dvd)、數(shù)字磁帶、計(jì)算機(jī)存儲(chǔ)器等;以及,傳輸型介質(zhì),諸如,數(shù)字和/或模擬通信介質(zhì)(例如,纖維光纜、波導(dǎo)、有線通信鏈路、無線通信鏈路等)。相對(duì)于本文中的任何復(fù)數(shù)和/或單數(shù)術(shù)語的使用,本領(lǐng)域的技術(shù)人員可以根據(jù)上下文和/或應(yīng)用從復(fù)數(shù)轉(zhuǎn)化為單數(shù)和/或從單數(shù)轉(zhuǎn)化為復(fù)數(shù)。為了清楚起見,可以在本文中清楚地陳述各種單數(shù)/復(fù)數(shù)置換。因此,已經(jīng)對(duì)主題的特定實(shí)施例進(jìn)行了描述。其它實(shí)施例在以下權(quán)利要求書的范圍內(nèi)。在一些情況下,在權(quán)利要求書中敘述的動(dòng)作可以按照不同的順序來進(jìn)行并且仍然可以實(shí)現(xiàn)期望的結(jié)果。此外,在附圖中描述的過程并不一定需要按照?qǐng)D示的特定順序或者先后順序來實(shí)現(xiàn)期望的結(jié)果。在某些實(shí)施方式中,多任務(wù)處理和并行處理可能是有利的。當(dāng)前第1頁12當(dāng)前第1頁12