用于語音增強(qiáng)的全局優(yōu)化最小二乘后濾波的制作方法

文檔序號(hào)：11585586閱讀：389來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

背景技術(shù)：
：：麥克風(fēng)陣列逐漸被公認(rèn)為用于抵抗不利聲學(xué)環(huán)境中的語音采集的噪聲、干擾和混響的有效工具。其應(yīng)用包括：魯棒語音識(shí)別、免提語音通信與電話會(huì)議、助聽器，在此僅列舉了幾個(gè)例子。波束形成是一種提供一種形式的空間濾波的麥克風(fēng)陣列處理技術(shù)：在衰減來自其它方向的信號(hào)的同時(shí)，接收來自特定方向的信號(hào)。雖然空間濾波是可能的，但是從信號(hào)重構(gòu)來看在最小均方差(mmse)含義上卻不是最佳的。一種后濾波的傳統(tǒng)方法是多道維納濾波器(mcwf)。該多道維納濾波器可以分解為最小方差無失真響應(yīng)(mvdr)波束成形器和單道后濾波器。目前公知的傳統(tǒng)后濾波方法能夠提高波束形成之后的語音質(zhì)量；然而，這些現(xiàn)有方法有兩個(gè)共同的局限或者缺陷。第一，這些方法假定相關(guān)噪聲只是白色(不相干)噪聲或者擴(kuò)散噪聲，因此這些方法不能解決點(diǎn)干擾。例如，在有多個(gè)人在說話而其中一個(gè)人是期望聲源的環(huán)境中，點(diǎn)干擾是來自其他說話者的不需要的噪聲。第二，這些現(xiàn)有方法采用的是每一次使用兩個(gè)麥克風(fēng)來估計(jì)后濾波系數(shù)然后再取所有麥克風(fēng)對(duì)的平均的啟發(fā)式技術(shù)，這會(huì)產(chǎn)生次佳結(jié)果。技術(shù)實(shí)現(xiàn)要素：本
發(fā)明內(nèi)容以簡(jiǎn)化的形式介紹了對(duì)概念的選擇，以便提供對(duì)本公開的某些方面的基本理解。本
發(fā)明內(nèi)容不是本公開的廣泛概述，并不旨在識(shí)別本公開的關(guān)鍵或者決定性元素或者勾畫本公開的范圍。本
發(fā)明內(nèi)容僅呈現(xiàn)了本公開的概念中的一些作為下面提供的具體實(shí)施方式的前序。大體上，本說明中描述的主題的一方面可以體現(xiàn)在方法、設(shè)備和計(jì)算機(jī)可讀介質(zhì)中。一種示例性設(shè)備包括：一個(gè)或者多個(gè)處理裝置和存儲(chǔ)指令的一個(gè)或者多個(gè)存儲(chǔ)裝置，所述指令在由所述一個(gè)或者多個(gè)處理裝置執(zhí)行時(shí)使所述一個(gè)或者多個(gè)處理裝置實(shí)施一種示例性方法。一種示例性計(jì)算機(jī)可讀介質(zhì)包括用于實(shí)施一種示例性方法的指令的集合。本公開的一個(gè)實(shí)施例涉及一種用于估計(jì)系數(shù)值以減少后濾波器的噪聲的方法，所述方法包括：經(jīng)由麥克風(fēng)陣列從環(huán)境中的聲源接收音頻信號(hào)；基于所接收到的音頻信號(hào)，假設(shè)聲場(chǎng)場(chǎng)景；基于所接收到的音頻信號(hào)，計(jì)算固定的波束形成器系數(shù)；基于所假設(shè)的聲場(chǎng)場(chǎng)景，確定協(xié)方差矩陣模型；基于所接收到的音頻信號(hào)，計(jì)算協(xié)方差矩陣；估計(jì)所述聲源的功率以找到使所確定的協(xié)方差矩陣模型與所計(jì)算得到的協(xié)方差矩陣之間的差最小化的方案；基于所估計(jì)的功率，計(jì)算并且應(yīng)用后濾波系數(shù)；以及基于所接收到的音頻信號(hào)和所述后濾波系數(shù)，生成輸出音頻信號(hào)。在一個(gè)或者多個(gè)實(shí)施例中，本文中描述的方法可以可選地包括以下附加特征中的一項(xiàng)或者多項(xiàng)：假設(shè)多個(gè)聲場(chǎng)場(chǎng)景以生成多個(gè)輸出信號(hào)，其中，將所述多個(gè)所生成的多個(gè)輸出信號(hào)進(jìn)行比較，并且從所述多個(gè)所述生成的輸出信號(hào)中選擇具有最高信噪比的輸出信號(hào)；對(duì)所述功率的所述估計(jì)是基于弗羅賓尼斯(frobenius)范數(shù)，其中，所述弗羅賓尼斯范數(shù)是使用所述協(xié)方差矩陣的埃爾米特(hermitian)對(duì)稱來計(jì)算的；使用聲源位置方法來確定所述聲源中的至少一個(gè)聲源的位置以假設(shè)所述聲場(chǎng)場(chǎng)景、確定所述協(xié)方差矩陣模型、并且計(jì)算所述協(xié)方差矩陣；所述協(xié)方差矩陣模型是基于多個(gè)假設(shè)的聲場(chǎng)場(chǎng)景生成的，其中，選擇協(xié)方差矩陣模型以使減少噪聲的目標(biāo)函數(shù)最大化，以及其中，目標(biāo)函數(shù)是所述最終輸出音頻信號(hào)的樣本方差。本公開的適用性的更大范圍將在下面給出的具體實(shí)施方式中變得更顯而易見。然而，應(yīng)該理解的是，雖然描述了優(yōu)選實(shí)施例，但是只是通過舉例的方式來給出具體實(shí)施方式；對(duì)本領(lǐng)域的技術(shù)人員來說，在本公開的精神和范圍內(nèi)的各種變化和修改都會(huì)在具體實(shí)施方式中變得顯而易見。附圖說明對(duì)本領(lǐng)域的技術(shù)人員來說，結(jié)合所附權(quán)利要求書和附圖，本公開的這些和其它目的、特征和特性將從下文的具體實(shí)施方式的學(xué)習(xí)中變得顯而易見，這些附圖構(gòu)成了本說明書的一部分。在附圖中：圖1是圖示根據(jù)本文中描述的一個(gè)或者多個(gè)實(shí)施例的一種用于基于假設(shè)的聲場(chǎng)場(chǎng)景生成經(jīng)過后濾波的輸出信號(hào)的示例性系統(tǒng)的功能框圖。圖2是圖示在示例性系統(tǒng)中由噪聲環(huán)境生成的經(jīng)波束形成的單道輸出的功能框圖。圖3是圖示在示例性系統(tǒng)中基于假設(shè)的聲場(chǎng)場(chǎng)景確定協(xié)方差矩陣模型的功能框圖。圖4是圖示頻率倉(frequencybin)的后濾波估計(jì)的功能框圖。圖5是圖示根據(jù)本公開的實(shí)施例的計(jì)算頻率倉的后濾波系數(shù)的示例性步驟的流程圖。圖6圖示麥克風(fēng)陣列和與實(shí)驗(yàn)結(jié)果相關(guān)的聲源的空間布置。圖7是圖示示例性計(jì)算裝置的框圖。本文中提供的小標(biāo)題僅為了方便起見，并不一定影響權(quán)利要求書的范圍或者含義。具體實(shí)施方式本公開大體上涉及用于音頻信號(hào)處理的系統(tǒng)與方法。更具體地，本公開的方面涉及用于麥克風(fēng)陣列語音增強(qiáng)的后濾波技術(shù)。下面的描述為徹底理解和實(shí)現(xiàn)對(duì)本公開的描述提供了具體細(xì)節(jié)。然而，相關(guān)領(lǐng)域的技術(shù)人員應(yīng)該明白的是，在沒有許多這些細(xì)節(jié)的情況下，也可以實(shí)踐本文中描述的實(shí)施例。同樣，相關(guān)領(lǐng)域的技術(shù)人員還應(yīng)該明白的是，本文中描述的示例性實(shí)施例可以包括本文未詳細(xì)描述的許多其它明顯特征。此外，在下文中可能未詳細(xì)示出或者描述一些公知的結(jié)構(gòu)或者功能，以避免不必要地使相關(guān)描述變得模糊。1.引言本公開的某些實(shí)施例和特征涉及用于后濾波音頻信號(hào)的方法與系統(tǒng)，這些方法與系統(tǒng)利用信號(hào)模型，該信號(hào)模型不僅考慮了擴(kuò)散與白噪聲，而且還考慮了點(diǎn)干擾源。如下面將更詳細(xì)描述的，這些方法與系統(tǒng)設(shè)計(jì)為實(shí)現(xiàn)麥克風(fēng)陣列中的麥克風(fēng)的全局優(yōu)化最小二乘(ls)方案。在某些實(shí)施方式中，使用真實(shí)記錄的對(duì)期望干擾源的脈沖響應(yīng)，包括合成的擴(kuò)散和白噪聲，來估計(jì)所公開的方法的性能。該脈沖響應(yīng)是動(dòng)態(tài)系統(tǒng)針對(duì)稱為脈沖的簡(jiǎn)單輸入信號(hào)的輸出或者反應(yīng)。圖1圖示了一種用于基于假設(shè)的聲場(chǎng)場(chǎng)景(111)生成經(jīng)過后濾波的輸出信號(hào)(175)的示例性系統(tǒng)。假設(shè)的聲場(chǎng)場(chǎng)景(111)是在噪聲環(huán)境(105)中對(duì)噪聲分量(106-108)的組成的確定。在該示例性實(shí)施例中，將一個(gè)假設(shè)的聲場(chǎng)場(chǎng)景(111)輸入至各種頻率倉f1至fn(165a-c)以生成輸出/期望信號(hào)(175)。對(duì)于假設(shè)的聲場(chǎng)場(chǎng)景(111)，將信號(hào)轉(zhuǎn)化成頻域。從一個(gè)頻率到另一個(gè)頻率獨(dú)立地進(jìn)行波束成形和后濾波。在該示例性實(shí)施例中，假設(shè)的聲場(chǎng)場(chǎng)景包括一個(gè)干擾源。在其它示例性實(shí)施例中，假設(shè)的聲場(chǎng)場(chǎng)景可能更復(fù)雜，包括許多干擾場(chǎng)景。同樣，在其它示例性實(shí)施例中，可以確定多個(gè)假設(shè)的聲場(chǎng)場(chǎng)景以生成多個(gè)輸出信號(hào)。相關(guān)領(lǐng)域中的技術(shù)人員應(yīng)該明白，多個(gè)聲場(chǎng)場(chǎng)景可以是基于各種因素來假設(shè)的，諸如，可以是已知的或者確定的關(guān)于環(huán)境的信息。本領(lǐng)域的技術(shù)人員還應(yīng)該明白，可以使用各種因素來確定輸出信號(hào)的質(zhì)量，諸如，測(cè)量信噪比(例如，如在下文中論述的實(shí)驗(yàn)中測(cè)量的)。在其它示例性實(shí)施例中，本領(lǐng)域的技術(shù)人員可以應(yīng)用其它方法來假設(shè)聲場(chǎng)場(chǎng)景和確定輸出信號(hào)的質(zhì)量。圖1圖示了可以包括一個(gè)或者多個(gè)噪聲分量(106-108)的噪聲環(huán)境(105)。在環(huán)境(105)中的噪聲分量(106-108)可以包括，例如，擴(kuò)散噪聲、白噪聲、和/或點(diǎn)干擾噪聲源?？梢詫h(huán)境(105)中的噪聲分量(106-108)或者噪聲源定位在不同位置處以按照各種功率/強(qiáng)度水平將噪聲投射在各個(gè)方向上。每個(gè)噪聲分量(106-108)生成音頻信號(hào)，可以通過麥克風(fēng)陣列(130)中的多個(gè)麥克風(fēng)m1…mn(115、120、125)來接收音頻信號(hào)。為了清楚起見，在示例性圖示中，將由環(huán)境(105)中的噪聲分量(106-108)生成并且由麥克風(fēng)陣列(130)中的麥克風(fēng)(115、120、125)中的每一個(gè)接收的音頻信號(hào)描述為單箭頭109。麥克風(fēng)陣列(103)包括多個(gè)單獨(dú)的全向性麥克風(fēng)(115、120、125)。本實(shí)施例假設(shè)全向性麥克風(fēng)。其它示例性實(shí)施例可以實(shí)施其它類型的麥克風(fēng)，這些其它類型的麥克風(fēng)可以改變協(xié)方差矩陣模型。由麥克風(fēng)m1至mn(115、120、125)(其中，“n”為任意整數(shù))中的每一個(gè)麥克風(fēng)接收到的音頻信號(hào)(109)可以經(jīng)由變換方法轉(zhuǎn)換成頻域，諸如，例如，離散時(shí)間傅里葉變換(dtft)(116、121、126)。其它示例性轉(zhuǎn)換方法可以包括，但不限于：fft(快速傅里葉變換)或者stft(短時(shí)傅里葉變換)。為了簡(jiǎn)單起見，經(jīng)由與一個(gè)頻率對(duì)應(yīng)的dtft(116、121、126)中的每一個(gè)生成的輸出信號(hào)用單箭頭來表示。例如，在第一頻率倉f1(165a)處由麥克風(fēng)m1(115)接收到的音頻產(chǎn)生的dtft音頻信號(hào)表示為單箭頭117a。圖1還圖示了多個(gè)頻率倉(165a-c)，該多個(gè)頻率倉(165a-c)包含各種分量，并且每個(gè)頻率倉的后濾波分量生成后濾波輸出信號(hào)。例如，頻率倉f1(165a)的后濾波分量(160a)生成第一頻率倉(161a)的后濾波輸出信號(hào)。將每個(gè)頻率倉(165a-c)的輸出信號(hào)輸入至逆dtft分量(170)以生成具有減少的不需要的噪聲的最終時(shí)域輸出/期望信號(hào)(175)。下面將對(duì)該示例性系統(tǒng)(100)中的頻率倉(165a-c)的各種分量的細(xì)節(jié)與步驟進(jìn)行更詳細(xì)的說明。2.信號(hào)模型圖2圖示了由噪聲環(huán)境(105)生成的經(jīng)波束形成的單道輸出(136a)。為了簡(jiǎn)單起見，已經(jīng)從圖2中省略了在此處未論述的整個(gè)系統(tǒng)100(如圖1所示)的分量。噪聲環(huán)境(105)包含生成如聲音的輸出的各種噪聲分量(106-108)。在本示例性實(shí)施例中，噪聲分量106輸出期望聲音，而噪聲分量107和108輸出不期望的聲音，這些不期望的聲音可以是白噪聲、擴(kuò)散噪聲或者點(diǎn)干擾噪聲的形式。各個(gè)噪聲分量(106-108)均生成聲音。然而，為了簡(jiǎn)單起見，將噪聲分量(106-108)的合并輸出用單箭頭109來描述?；邴溈孙L(fēng)的物理位置和環(huán)境噪聲(109)內(nèi)的傳入音頻信號(hào)的方向與強(qiáng)度，在陣列(130)中的麥克風(fēng)(115、120、125)以各種時(shí)間間隔接收環(huán)境噪聲(109)。對(duì)在麥克風(fēng)(115、120、125)中的每個(gè)麥克風(fēng)處接收到的音頻信號(hào)進(jìn)行轉(zhuǎn)換(116、121、126)和波束形成(135a)以生成針對(duì)一個(gè)單頻率的單道輸出(137a)。將固定波束形成器(135a)的單道輸出(137a)傳送至后濾波器(160a)。傳送用于生成波束形成濾波器(136a)的與下列等式(6)相關(guān)聯(lián)的表示為h(jω)的波束形成系數(shù)(138a)，以計(jì)算出后濾波系數(shù)(155a)。此處將對(duì)捕獲環(huán)境噪聲(109)并且生成經(jīng)波束形成的單道輸出信號(hào)(137a)和波束形成濾波器(136a)進(jìn)行更詳細(xì)的說明。假設(shè)m個(gè)元件(115、120、125)的麥克風(fēng)陣列(130)用于捕獲來自噪聲聲學(xué)環(huán)境(105)中的期望點(diǎn)聲源(106)的信號(hào)s(t)，其中，m為任何整數(shù)值并且是陣列(130)中麥克風(fēng)的數(shù)量。在時(shí)域中第m個(gè)麥克風(fēng)的輸出表示為：xm(t)＝gs，m*s(t)+ψm(t)，m＝1，2，…，m，(1)其中，gs,m表示期望分量(106)對(duì)第m個(gè)麥克風(fēng)(例如，125)的脈沖響應(yīng)，*表示線性卷積，并且ψm(t)是不需要的加性噪聲(即，由噪聲分量107和108生成的聲音)。所公開的方法能夠處理多個(gè)點(diǎn)干擾源；然而，為了清楚起見，在本文提出的示例中描述一個(gè)點(diǎn)干擾。加性噪聲通常由三種不同類型的聲音分量組成：1)來自點(diǎn)干擾源的相干噪聲，v(t)；2)擴(kuò)散噪聲，um(t)；以及，3)白噪聲，wm(t)。同樣：其中，gv，m是點(diǎn)噪聲源對(duì)第m個(gè)麥克風(fēng)的脈沖響應(yīng)。在本示例性實(shí)施例中，將期望信號(hào)和這些噪聲分量(106-108)假設(shè)為短時(shí)平穩(wěn)的并且互不相關(guān)的。在其它示例性實(shí)施例中，可以包括不同的噪聲分量。例如，包含四處移動(dòng)的多個(gè)期望聲源和目標(biāo)期望聲源的噪聲環(huán)境可以在一段時(shí)間內(nèi)交替。換言之，在擁擠的房間中，兩個(gè)人邊走邊說。在頻域中，將等式(1)中的該普遍麥克風(fēng)陣列信號(hào)模型轉(zhuǎn)換為：xm(jω)＝gs，m(jω)s(jω)+ψ(jω)＝gs，m(jω)s(jω)+gv，m(jω)v(jω)+u(jω)+w(jω)，(3)其中，ω為角頻率，并且xm(jω)、gs，m(jω)、s(jω)、gv，m(jω)、v(jω)、u(jω)、w(jω)分別為xm(t)、gs，m、s(t)、gv，m、v(t)、u(t)和w(t)的離散時(shí)間傅里葉變換(dtft)。雖然在該示例性實(shí)施例中采用了dftf，但是不應(yīng)該理解為限制本發(fā)明的范圍。其它示例性實(shí)施例可以采用其它方法，諸如，stft(短時(shí)傅里葉變換)或者fft(快速傅里葉變換)。向量/矩陣形式的等式(3)如下：x(jω)＝s(jω)gs(jω)+v(jω)gv(jω)+u(jω)+w(jω)(4)其中，(·)t表示向量或者矩陣的轉(zhuǎn)置矩陣。然后，將麥克風(fēng)陣列空間協(xié)方差矩陣確定為：其中，假設(shè)互相不相關(guān)的信號(hào)，而且，e{·}、(·)h和(·)*分別表示數(shù)學(xué)期望值、向量或者矩陣的埃爾米特(hermitian)轉(zhuǎn)置矩陣以及復(fù)變量的共軛。波束成形器(135a)通過有限脈沖響應(yīng)(fir)濾波器hm(jω)(m＝1,2,···,m)對(duì)每個(gè)麥克風(fēng)信號(hào)進(jìn)行濾波，并且對(duì)結(jié)果求和來產(chǎn)生單道輸出(137a)和波束成形濾波器(136a)，其中在等式(6)中，還對(duì)期望聲源的協(xié)方差矩陣進(jìn)行建模。由于期望源與干擾源均為點(diǎn)源，所以其模型與干擾源的模型相似。它們的不同之處在于它們相對(duì)于麥克風(fēng)陣列的方向。3.對(duì)噪聲協(xié)方差矩陣進(jìn)行建模圖3圖示了基于假設(shè)的聲場(chǎng)場(chǎng)景(111)確定協(xié)方差模型的步驟。為了簡(jiǎn)單起見，已經(jīng)從圖3中省略了在此處未論述的整個(gè)系統(tǒng)100(如圖1所述)的分量?；谠肼暛h(huán)境(105)確定假設(shè)的聲場(chǎng)場(chǎng)景(111)，并且將假設(shè)的聲場(chǎng)場(chǎng)景(111)分別輸入至每個(gè)頻率倉(165a-c)的協(xié)方差模型(140a-c)。在實(shí)際環(huán)境中，可能不知道噪聲分量的組成，即，點(diǎn)干擾源的數(shù)量與位置、以及白噪聲源或者擴(kuò)散噪聲源的存在。因此，對(duì)聲場(chǎng)場(chǎng)景進(jìn)行假設(shè)。上述的等式(2)表示具有一個(gè)點(diǎn)干擾源、擴(kuò)散噪聲、和白噪聲的場(chǎng)景，從而產(chǎn)生四個(gè)未知數(shù)。如果該場(chǎng)景假設(shè)或者假定沒有點(diǎn)干擾源而只有白噪聲和擴(kuò)散噪聲，則可以簡(jiǎn)化上述的等式(5)，從而只產(chǎn)生三個(gè)未知數(shù)。在等式(5)中，對(duì)三個(gè)與干擾/噪聲相關(guān)的分量(106-108)進(jìn)行如下建模：(1)點(diǎn)干擾：由于點(diǎn)干擾源v(t)產(chǎn)生的協(xié)方差矩陣pgv(jω)具有第一排名。通常，當(dāng)存在混響或者該源在麥克風(fēng)陣列的近場(chǎng)中時(shí)，脈沖響應(yīng)向量gv的復(fù)雜元素可以具有不同的量級(jí)。但是，如果只考慮了直接路徑或者如果該點(diǎn)源在遠(yuǎn)場(chǎng)中，則：這只包含了相對(duì)于到達(dá)公共參考點(diǎn)，干擾到達(dá)多個(gè)麥克風(fēng)τv,m(m＝1,2,···,m)的時(shí)間差。(2)擴(kuò)散噪聲：由于擴(kuò)散噪聲場(chǎng)具有同時(shí)在多個(gè)方向上傳播相等功率的不相關(guān)噪聲信號(hào)的特征，所以將擴(kuò)散噪聲場(chǎng)視為球面各向同性的或者柱面各向同性的。其協(xié)方差矩陣為：其中，γuu(ω)的第(p,q)個(gè)元素為：dpq為第p個(gè)麥克風(fēng)與第q個(gè)麥克風(fēng)之間的距離，c為聲音的速度，并且j0(·)為第一類的零階貝塞爾(bessel)函數(shù)。(3)白噪聲：加性白噪聲的協(xié)方差矩陣只是加權(quán)的單位矩陣：4.多道維納濾波器(mcwf)、mvdr波束成形、與后濾波當(dāng)使用麥克風(fēng)陣列來捕獲期望的寬帶聲音信號(hào)(例如，語音和/或音樂)時(shí)，目的在于最小化在等式(6)中的y(jω)與ω的s(jω)之間的距離。在mmsf意義上最佳的mcwf可以分解為mvdr波束成形器和其后的單道維納濾波器(smwf)：其中，分別為在mvdr波束形成器的輸出處的期望信號(hào)和噪聲的功率。這種分解會(huì)產(chǎn)生用于麥克風(fēng)陣列語音采集的下列結(jié)構(gòu)：將scwf視為在mvdr波束形成器之后的后濾波器。5.后濾波估計(jì)圖4圖示了頻率倉中的后濾波估計(jì)步驟。為了實(shí)施在等式(11)中給出的前端mvdr波束成形器和作為后處理器的scwf，估計(jì)由麥克風(fēng)信號(hào)計(jì)算出的協(xié)方差矩陣產(chǎn)生的信號(hào)與噪聲協(xié)方差矩陣。首先以幀為單位將多道麥克風(fēng)信號(hào)進(jìn)行窗口化(例如，通過加權(quán)的重疊相加的分析窗口)，然后通過fft進(jìn)行轉(zhuǎn)換以確定x(jω,i)，其中，i為幀索引。通過如下等式，動(dòng)態(tài)地或者使用存儲(chǔ)器部件對(duì)麥克風(fēng)信號(hào)的協(xié)方差矩陣(145a)的估計(jì)進(jìn)行遞歸更新：其中，0<λ<1為遺忘因子。再者，與等式(7)相似，可以忽略混響，從而產(chǎn)生：其中，τs,m為期望信號(hào)相對(duì)于到達(dá)公共參考點(diǎn)而言到達(dá)第m個(gè)麥克風(fēng)的時(shí)間差。在另一個(gè)示例中，假定τs,m和τv,m二者均為已知的并且不會(huì)隨著時(shí)間而變化。因此，根據(jù)等式(5)，通過使用等式(8)和等式(10)，在第i個(gè)時(shí)間幀處，可以將協(xié)方差矩陣模型(140a)確定為如下：該等式允許基于等式(14)的左邊與右邊之間的差的frobenius范數(shù)來定義判據(jù)。通過最小化這樣的判據(jù)，可以推導(dǎo)出的ls估計(jì)量。要注意的是，等式(14)中的矩陣是埃爾米特(hermitian)矩陣。為了清楚起見，已經(jīng)省略了該公式中的冗余信息。對(duì)于m×m埃爾米特矩陣a＝[apq]，可以定義兩個(gè)向量。其中一個(gè)向量為對(duì)角線元素，而另一個(gè)向量為三角形下部分的非對(duì)角線半向量化(odhv)：可以將相同大小的多個(gè)n埃爾米特矩陣定義為：通過使用這些符號(hào)，將等式(14)進(jìn)行重組以得到：其中，為了清楚起見，省略了參數(shù)jω，并且此處，結(jié)果為m(m+1)/2等式和4個(gè)未知數(shù)。如果m≥3，則這會(huì)是超定問題。換言之，存在比未知數(shù)更多的等式。上述誤差判據(jù)可以表示為：在估計(jì)聲源(150a)的功率時(shí)使該判據(jù)最小化會(huì)產(chǎn)生：其中，表示復(fù)數(shù)/向量的實(shí)數(shù)部分?？梢约僭O(shè)的是，中的估計(jì)誤差為iid(獨(dú)立同分布)隨機(jī)變量。從而，在計(jì)算后濾波系數(shù)(155a)過程中實(shí)施時(shí)，等式(21)中給出的ls(最小二乘)解在mmse意義上是最佳的。如本公開所述的，將該估計(jì)值代入等式(11)會(huì)產(chǎn)生ls后濾波器(lspf)(160a)。在上述示例性實(shí)施例中，推導(dǎo)出的ls解假設(shè)m≥3。這是因?yàn)槭褂昧擞伤姆N類型的聲音信號(hào)組成的更普遍化的聲場(chǎng)模型。在其它示例性實(shí)施例中，關(guān)于聲場(chǎng)的附加信息是可用的，這樣可以忽略某些類型的干擾信號(hào)(例如，無點(diǎn)干擾并且/或者僅有白噪聲)，然后可以移除等式(19)中與這些可忽略聲源對(duì)應(yīng)的列，并且仍然可以利用m＝2來開發(fā)本公開所描述的lspf。圖5是圖示根據(jù)本公開的實(shí)施例的計(jì)算頻率倉(165a)的后濾波系數(shù)的示例性步驟。下面在圖5中的圖示反映了上面公開的細(xì)節(jié)與上述數(shù)學(xué)概念的示例性實(shí)施方式。所公開的步驟僅通過圖示的方式給出。對(duì)本領(lǐng)域的技術(shù)人員來說明顯的是，在具體實(shí)施方式的精神和范圍之內(nèi)可以并行地或者以交替的序列來進(jìn)行某些步驟。參照?qǐng)D5，示例性步驟開始于步驟501。在步驟502中，經(jīng)由麥克風(fēng)陣列(130)從環(huán)境(105)中的聲源(106-108)生成的噪聲(109)接收音頻信號(hào)。在步驟503中，假設(shè)聲場(chǎng)場(chǎng)景(111)。在步驟504中，針對(duì)頻率倉(165a)，基于接收到的音頻信號(hào)(117a、122a、127a)，計(jì)算固定的波束形成器系數(shù)(138a)。在步驟505中，基于假設(shè)的聲場(chǎng)場(chǎng)景(111)，確定協(xié)方差矩陣模型(140a)。在步驟506中，基于接收到的音頻信號(hào)(117a、122a、127a)，計(jì)算協(xié)方差矩陣(145a)。在步驟507中，基于確定的協(xié)方差矩陣模型(140a)和計(jì)算得到的協(xié)方差矩陣(145a)，估計(jì)聲源(150a)的功率。在步驟508中，基于估計(jì)的聲源(150a)的功率和計(jì)算得到的固定波束形成器系數(shù)(138a)，計(jì)算后濾波系數(shù)(155a)。這些示例性步驟可以繼續(xù)進(jìn)入結(jié)束步驟509?？梢詫?duì)每個(gè)頻率倉(165a-c)實(shí)施上述步驟以分別生成經(jīng)過后濾波的輸出信號(hào)(161a-c)。然后，可以對(duì)經(jīng)過后濾波的信號(hào)(161a-c)進(jìn)行轉(zhuǎn)換(170)以生成最終輸出/期望信號(hào)(175)。如上所述，與本文所述的方法與系統(tǒng)相比，傳統(tǒng)的后濾波方法不是最佳的并且具有缺陷。下面將對(duì)現(xiàn)有方法相對(duì)于本公開的局限性和缺陷進(jìn)行說明。(a)zelinski后濾波(zpf)假設(shè)：1)無點(diǎn)干擾，即2)無擴(kuò)散噪聲，即只有加性不相干白噪聲。從而，將等式(19)簡(jiǎn)化為：zpf只使用等式(22)的底部odhv部分而非使用等式(21)計(jì)算的最佳ls解，從而得到：要注意的是，從等式(13)中得出從而，等式(23)變?yōu)椋喝绻麑spf的相同聲場(chǎng)模型用于zpf(例如，只有白干擾)，則可以看出，當(dāng)m＝2時(shí)，zpf和lspf是等效的。然而，當(dāng)m≥3時(shí)，它們?cè)诒举|(zhì)上是不同的。(a)mccowan后濾波(mpf)假設(shè)：1)無點(diǎn)干擾，即＝0，2)無加性白噪聲，即只有擴(kuò)散噪聲。在這些假設(shè)下，等式(19)變成：要注意的是，從等式(9)中得出diag{γuu}＝1m×1。等式(25)為超定體系。再者，mpf應(yīng)用從等式(25)得出的與第p個(gè)麥克風(fēng)和第q個(gè)麥克風(fēng)對(duì)相對(duì)應(yīng)的三個(gè)等式來形成像下面的子體系，而不是通過下面等式(21)來找到全局ls解：其中，針對(duì)mpf方法對(duì)等式(26)求解：由于存在m(m-1)/2個(gè)不同的麥克風(fēng)對(duì)，所以最終的mpf估計(jì)值只是子體系的結(jié)果的平均值，如下：在實(shí)踐中，擴(kuò)散噪聲模型比白噪聲模型更常見。當(dāng)γuu＝im×m時(shí)，可以將后者視為前者的特殊情況。但是，對(duì)等式(25)求解的mpf方法是啟發(fā)式的，并且也不是最佳的。再者，如果lspf使用了僅有擴(kuò)散噪聲模型，則當(dāng)m＝2時(shí)，lspf等效于mpf；而當(dāng)m≥3時(shí)，它們?cè)诒举|(zhì)上是不同的。(c)leukimmiatis后濾波采用mpf中提出的算法來估計(jì)leukimmiatis等人僅僅解決了zelinski后濾波和mccowan后濾波中的缺陷，(11)中的后濾波的分母應(yīng)該為而不是6.實(shí)驗(yàn)結(jié)果下面提供了已經(jīng)進(jìn)行的示例性語音增強(qiáng)實(shí)驗(yàn)的結(jié)果以驗(yàn)證本公開的lspf方法與系統(tǒng)。圖6圖示了實(shí)驗(yàn)的麥克風(fēng)陣列(610)和聲源(620、630)的空間布置。在附圖內(nèi)的元素的位置并不旨在表達(dá)確切尺寸或者距離，這將在下面描述中提出。提供了考慮麥克風(fēng)陣列(610)的前四個(gè)麥克風(fēng)m1-m4(601-604)的一組實(shí)驗(yàn)，其中，各麥克風(fēng)之間的間距為3cm。60db混響時(shí)間為360ms。期望聲源(620)位于陣列的舷側(cè)(0°)，而干擾源(630)位于45°方向上。兩者均距離陣列2m。將純的、連續(xù)的16khz/16比特語音信號(hào)用于這些點(diǎn)聲源。期望聲源(620)為女性說話者，而干擾源(630)為男性說話者。兩種信號(hào)的發(fā)聲部分均具有多個(gè)重疊部分。因此，對(duì)16khz的脈沖響應(yīng)進(jìn)行重新采樣，將這些沖擊響應(yīng)截?cái)酁?096個(gè)樣本，并且生成球面各向同性的擴(kuò)散噪聲。在這些實(shí)驗(yàn)?zāi)M中，使用了分布在較大球面上的72×36＝2592個(gè)點(diǎn)源。將這些信號(hào)截?cái)酁?0s。在上述實(shí)驗(yàn)中，定義三個(gè)全頻段測(cè)量值來表征聲場(chǎng)(下標(biāo)sf)。即，信號(hào)干擾比(sir)、信噪比(snr)、和擴(kuò)散白噪聲比(dwr)，如下：其中，對(duì)于性能評(píng)估，可以對(duì)兩個(gè)目標(biāo)矩陣進(jìn)行分析：信號(hào)干擾噪聲比(sinr)和感知評(píng)估語音質(zhì)量(pesq)。分別計(jì)算每個(gè)麥克風(fēng)處的sinr和pesq，并且取sinr和pesq的平均數(shù)作為輸入的sinr和pesq。近似地估計(jì)出輸出sinr和pesq(分別用sinro和pesqo表示)。分析在輸入測(cè)量值與輸出測(cè)量值之間的差(即，delta值)。為了更好評(píng)估在輸出處的噪聲減少與語音失真的量，還要計(jì)算出干擾與噪聲減少(inr)和僅期望語音的pesq(dpesq)。對(duì)于dpesq，將經(jīng)過處理的期望語音和純語音傳送至pesq估計(jì)器。輸出pesq指示增強(qiáng)信號(hào)的質(zhì)量，而dpesq值量化了引進(jìn)的語音失真的量。在本研究中，使用了hu&loizou提出的用于pesq的matlab代碼。為了避免mvdr(最小方差無失真響應(yīng))波束形成器中由于室內(nèi)混響而引起的公知信號(hào)相消問題，將延遲與求和(d&s)波束形成器實(shí)施用于前端處理，并且與下列四種不同的后濾波算法進(jìn)行比較：無后濾波、zpe、mpe和lspf。將只有d&s的實(shí)施方式用作基準(zhǔn)。對(duì)于zpe和mpe，已經(jīng)采用了leukimmiatis的校正。在下列三種不同的設(shè)置下進(jìn)行測(cè)試：1)只有白噪聲：sirsf＝30db，snrsf＝5db，dwrsf＝-30db；2)只有擴(kuò)散噪聲：sirsf＝30db，snrsf＝10db，dwrsf＝30db；3)混合噪聲、干擾：sirsf＝0db，snrsf＝10db，dwrsf＝0db。結(jié)果如下：表1：麥克風(fēng)陣列語音增強(qiáng)結(jié)果table1：microphonearrayspeechenhancementresults.在這些測(cè)試中，將平方根漢明窗和512點(diǎn)fft用于stft分析。兩個(gè)鄰近的窗口具有50％的重疊樣本。使用加權(quán)的重疊相加方法來重構(gòu)經(jīng)過處理的信號(hào)。在表1中概括了實(shí)驗(yàn)結(jié)果。首先，對(duì)只有白噪聲的聲場(chǎng)的結(jié)果進(jìn)行分析。由于這是通過zpf方法解決的聲場(chǎng)的類型，所以spf在抑制噪聲和增強(qiáng)語音質(zhì)量上起到了非常好的作用。然而，雖然所提出的lspf以稍低的dpesq引進(jìn)了更大的語音失真，但卻實(shí)現(xiàn)了更大的噪聲減少并且提供了更高的輸出pesq。由于mpf的sinr增益低于zpf和lspf的sinr增益，所以mpf產(chǎn)生了虛高的inr。這意味著，mpf不僅大大地抑制了噪聲，而且還抑制了語音信號(hào)。mpf的pesq和dpesq均低于lspf的pesq和dpesq。在第二種聲場(chǎng)中，正如預(yù)期的，d&s波束形成器在處理擴(kuò)散噪聲上不太有效，并且zpf的性能也降低了。在這種情況下，mpf的性能尚可，仍然是lspf顯然取得了最好的結(jié)果。由于存在隨時(shí)間變化的干擾語音源，第三種聲場(chǎng)顯然是最具有挑戰(zhàn)性的情況。然而，lspf在所有矩陣中均勝過了其它傳統(tǒng)方法。最后，值得注意的是，這些純粹客觀的性能評(píng)估結(jié)果與我們的少數(shù)同行實(shí)施的非正式監(jiān)聽測(cè)試中的四種技術(shù)的主觀認(rèn)知一致。本公開描述了用于麥克風(fēng)陣列應(yīng)用的ls后濾波方法的方法與系統(tǒng)。與傳統(tǒng)的后濾波技術(shù)不同，所描述的方法不僅考慮了擴(kuò)散噪聲和白噪聲，而且還考慮了點(diǎn)干擾。而且，這是比傳統(tǒng)方法更有效的開發(fā)由麥克風(fēng)陣列采集到的信息的全局最優(yōu)方案。此外，已經(jīng)通過各種聲學(xué)場(chǎng)景中的模擬驗(yàn)證并且量化了所公開的技術(shù)勝過現(xiàn)有方法的優(yōu)點(diǎn)。圖7是示出計(jì)算裝置(700)上的應(yīng)用的高級(jí)框圖。在基本配置(701)中，計(jì)算裝置(700)通常包括一個(gè)或者多個(gè)處理器(710)、系統(tǒng)存儲(chǔ)器(720)、和存儲(chǔ)器總線(730)。該存儲(chǔ)器總線用于在處理器與系統(tǒng)存儲(chǔ)器之間進(jìn)行通信。該配置還可以包括實(shí)施上述方法的獨(dú)立后濾波部件(726)，或者可以集成到應(yīng)用(722、723)中。根據(jù)不同的配置，處理器(710)可以是微處理器(μp)、微控制器(μc)、數(shù)字信號(hào)處理器(dsp)、或者其任何組合。處理器(710)可以包括一個(gè)或者多個(gè)級(jí)別的緩存(諸如，l1緩存(711)和l2緩存(712))、處理器核心(713)、和寄存器(714)。處理器核心(713)可以包括算術(shù)邏輯單元(alu)、浮點(diǎn)單元(fpu)、數(shù)字信號(hào)處理核心(dspcore)、或者其任何組合。存儲(chǔ)控制器(716)可以是處理器(710)的獨(dú)立部分或者內(nèi)部部分。根據(jù)期望的配置，系統(tǒng)存儲(chǔ)器(720)可以是任何類型的，包括但不限于：易失性存儲(chǔ)器(諸如，ram)、非易失性存儲(chǔ)器(諸如，rom、閃速存儲(chǔ)器等)或者其任何組合。系統(tǒng)存儲(chǔ)器(720)通常包括操作系統(tǒng)(721)、一個(gè)或者多個(gè)應(yīng)用(722)、和程序數(shù)據(jù)(724)。應(yīng)用(722)可以包括后濾波部件(726)或者用于語音增強(qiáng)的全局優(yōu)化最小二乘后濾波(723)的系統(tǒng)與方法。程序數(shù)據(jù)(724)包括存儲(chǔ)指令，這些指令在由一個(gè)或者多個(gè)處理裝置執(zhí)行時(shí)實(shí)施針對(duì)上述方法和部件(723)的系統(tǒng)與方法?；蛘?，可以經(jīng)由后濾波部件(726)來執(zhí)行該方法的指令與實(shí)施。在某些實(shí)施例中，應(yīng)用(722)可以設(shè)置為在操作系統(tǒng)上(721)利用程序數(shù)據(jù)(724)來運(yùn)行。計(jì)算裝置(700)可以具有附加特征或者功能、和附加接口以促進(jìn)基本配置(701)與任何需要的裝置和接口之間的通信。系統(tǒng)存儲(chǔ)器(720)是計(jì)算機(jī)存儲(chǔ)介質(zhì)的示例。計(jì)算機(jī)存儲(chǔ)介質(zhì)包括，但不限于：ram、rom、eeprom、閃速存儲(chǔ)器、或者其它存儲(chǔ)器技術(shù)、cd-rom、數(shù)字通用光盤(dvd)或者其它光存儲(chǔ)裝置、磁帶盒、磁帶、磁盤存儲(chǔ)裝置或者其它磁存儲(chǔ)裝置、或者可以用于存儲(chǔ)需要的信息并且可以由計(jì)算裝置700存取的任何其它介質(zhì)。任何這種計(jì)算機(jī)存儲(chǔ)介質(zhì)可以是裝置(700)的一部分。計(jì)算裝置(700)可以實(shí)施為小形狀因子便攜式(或者移動(dòng))電子裝置的一部分，諸如，手機(jī)、智能電話、個(gè)人數(shù)字助理(pda)、個(gè)人媒體播放器、平板計(jì)算機(jī)(平板)、無線網(wǎng)頁瀏覽裝置、個(gè)人耳機(jī)裝置、專用于應(yīng)用的裝置、或者包括上述功能中的任何一種功能的混合裝置。計(jì)算裝置(700)還可以實(shí)施為個(gè)人計(jì)算機(jī)，包括膝上型計(jì)算機(jī)配置和非膝上型計(jì)算機(jī)配置二者。上述的具體實(shí)施方式已經(jīng)通過使用框圖、流程圖和/或示例陳述了裝置和/或過程的各個(gè)實(shí)施例。這些框圖、流程圖和/或示例包含一種或者多種功能和/或操作，本領(lǐng)域技術(shù)人員應(yīng)該理解的是，可以通過各種各樣的硬件、軟件、固件或者其任何虛擬組合來單獨(dú)地和/或聯(lián)合地實(shí)施這些框圖、流程圖和/或示例中的各個(gè)功能和/或操作。在一個(gè)實(shí)施例中，可以經(jīng)由專用集成電路(asic)、現(xiàn)場(chǎng)可編程門陣列(fpga)、數(shù)字信號(hào)處理器(dsp)或者其它集成格式來實(shí)施本文所描述的主題的若干部分。然而，本領(lǐng)域技術(shù)人員將認(rèn)識(shí)到，本文中描述的實(shí)施例的某些方面可以在集成電路中全部或者部分地等效實(shí)施為在一個(gè)或者多個(gè)計(jì)算機(jī)上運(yùn)行的一個(gè)或者多個(gè)計(jì)算機(jī)程序、在一個(gè)或者多個(gè)處理器上運(yùn)行的一個(gè)或者多個(gè)程序、固件、或者其任何虛擬組合；而且，根據(jù)本公開設(shè)計(jì)電路和/或?qū)懭胗糜谲浖凸碳拇a應(yīng)該在本領(lǐng)域技術(shù)人員的技術(shù)范圍之內(nèi)。此外，本領(lǐng)域技術(shù)人員應(yīng)該明白的是，本文中描述的主題的機(jī)制能夠被描述為各種形式的程序產(chǎn)品；而且，不管實(shí)際實(shí)施分配的非暫時(shí)性信號(hào)承載介質(zhì)的具體類型，本文中描述的主體的圖示實(shí)施例均可以適用。非暫時(shí)性信號(hào)承載介質(zhì)的示例包括，但不限于：可記錄型介質(zhì)，諸如，軟盤、硬盤驅(qū)動(dòng)器、光碟(cd)、數(shù)字視頻光盤(dvd)、數(shù)字磁帶、計(jì)算機(jī)存儲(chǔ)器等；以及，傳輸型介質(zhì)，諸如，數(shù)字和/或模擬通信介質(zhì)(例如，纖維光纜、波導(dǎo)、有線通信鏈路、無線通信鏈路等)。相對(duì)于本文中的任何復(fù)數(shù)和/或單數(shù)術(shù)語的使用，本領(lǐng)域的技術(shù)人員可以根據(jù)上下文和/或應(yīng)用從復(fù)數(shù)轉(zhuǎn)化為單數(shù)和/或從單數(shù)轉(zhuǎn)化為復(fù)數(shù)。為了清楚起見，可以在本文中清楚地陳述各種單數(shù)/復(fù)數(shù)置換。因此，已經(jīng)對(duì)主題的特定實(shí)施例進(jìn)行了描述。其它實(shí)施例在以下權(quán)利要求書的范圍內(nèi)。在一些情況下，在權(quán)利要求書中敘述的動(dòng)作可以按照不同的順序來進(jìn)行并且仍然可以實(shí)現(xiàn)期望的結(jié)果。此外，在附圖中描述的過程并不一定需要按照?qǐng)D示的特定順序或者先后順序來實(shí)現(xiàn)期望的結(jié)果。在某些實(shí)施方式中，多任務(wù)處理和并行處理可能是有利的。當(dāng)前第1頁12當(dāng)前第1頁12

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：黃譯騰;亞歷杭德羅·呂布斯;簡(jiǎn)·斯科格隆;威廉·巴斯蒂安·克雷杰
技術(shù)所有人：谷歌公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

用于語音增強(qiáng)的全局優(yōu)化最小二乘后濾波的制作方法