專利名稱:多傳感器語音增強(qiáng)的方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及降噪,尤其涉及從語音信號中去除噪聲。
背景技術(shù):
在語音識別和語音傳輸中的一個常見問題是加性噪聲對語音信號的破壞。更具體地,由于另一揚(yáng)聲器的語音造成的破壞被證明是難以檢測和/或糾正的。
近來,開發(fā)了一種試圖使用諸如骨導(dǎo)麥克風(fēng)等備選的傳感器和氣導(dǎo)麥克風(fēng)的組合來去除噪聲的系統(tǒng)。該系統(tǒng)使用以下三個訓(xùn)練信道來訓(xùn)練有噪聲的備選傳感器訓(xùn)練信號、有噪聲的氣導(dǎo)麥克風(fēng)訓(xùn)練信號和干凈的氣導(dǎo)麥克風(fēng)訓(xùn)練信號。每個信號都被轉(zhuǎn)化至特征域中。有噪聲的備選傳感器信號和有噪聲的氣導(dǎo)麥克風(fēng)信號的特征被組合成表示有噪聲的信號的單個向量。干凈的氣導(dǎo)麥克風(fēng)信號的特征形成單個干凈向量。這些向量而后用來訓(xùn)練有噪聲的向量和干凈向量間的映射。一旦訓(xùn)練后,該映射被應(yīng)用于由有噪聲的備選傳感器測試信號和有噪聲的氣導(dǎo)麥克風(fēng)測試信號的組合所形成的有噪聲的向量。該映射產(chǎn)生干凈信號向量。
當(dāng)測試信號的噪聲條件與訓(xùn)練信號的噪聲條件不匹配時,該系統(tǒng)不是最優(yōu)的,因?yàn)樵撚成涫菫橛?xùn)練信號的噪聲條件而設(shè)計的。
發(fā)明內(nèi)容
一種方法和裝置使用備選傳感器信號和氣導(dǎo)麥克風(fēng)信號來確定對備選傳感器的信道響應(yīng)。該信道響應(yīng)而后用于使用備選傳感器信號的至少一部分來估算干凈語音值。
圖1是其中可實(shí)現(xiàn)本發(fā)明的一個計算環(huán)境的框圖。
圖2是其中可實(shí)現(xiàn)本發(fā)明的另一計算環(huán)境的框圖。
圖3是本發(fā)明的通用語音處理系統(tǒng)的框圖。
圖4是本發(fā)明的一個實(shí)施例中增強(qiáng)語音的系統(tǒng)的框圖。
圖5是本發(fā)明的一個實(shí)施例中增強(qiáng)語音的流程圖。
圖6是本發(fā)明的另一實(shí)施例中增強(qiáng)語音的流程圖。
圖7是本發(fā)明的又一實(shí)施例中增強(qiáng)語音的流程圖。
具體實(shí)施例方式
圖1示出了可在其上實(shí)現(xiàn)本發(fā)明的合適的計算系統(tǒng)環(huán)境100的示例。計算環(huán)境100僅僅是合適的計算環(huán)境的一個示例,并不旨在對本發(fā)明的使用范圍或功能提出任何限制。也不應(yīng)該把計算環(huán)境100解釋為對在示例性操作環(huán)境100中示出的任一組件或其組合有任何依賴或要求。
本發(fā)明可用眾多其它通用或?qū)S糜嬎阆到y(tǒng)環(huán)境或配置來操作。適合在本發(fā)明中使用的公知的計算系統(tǒng)、環(huán)境和/或配置的示例包括,但不限于,個人計算機(jī)、服務(wù)器計算機(jī)、手持或膝上型設(shè)備、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、機(jī)頂盒、可編程消費(fèi)者電子產(chǎn)品、網(wǎng)絡(luò)PC、小型機(jī)、大型機(jī)、電話系統(tǒng)、包含上述系統(tǒng)或設(shè)備中的任一個的分布式計算機(jī)環(huán)境等。
本發(fā)明可在諸如由計算機(jī)執(zhí)行的程序模塊等的計算機(jī)可執(zhí)行指令通用語境下描述。一般而言,程序模塊包括例程、程序、對象、組件、數(shù)據(jù)結(jié)構(gòu)等,它們執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型。本發(fā)明也可以在分布式計算環(huán)境下實(shí)現(xiàn),其中任務(wù)由通過通信網(wǎng)絡(luò)連接的遠(yuǎn)程處理設(shè)備執(zhí)行。在分布式計算環(huán)境中,程序模塊可以位于包括存儲器存儲設(shè)備在內(nèi)的本地和遠(yuǎn)程計算機(jī)存儲介質(zhì)中。
參考圖1,用于實(shí)現(xiàn)本發(fā)明的示例性系統(tǒng)100包括計算機(jī)110形式的通用計算設(shè)備。計算機(jī)110的組件包括,但不限于,處理單元120、系統(tǒng)存儲器130和將包括系統(tǒng)存儲器在內(nèi)的各種系統(tǒng)組件耦合至處理單元120的系統(tǒng)總線121。系統(tǒng)總線121可以是若干類型的總線結(jié)構(gòu)中的任一種,包括存儲器總線或存儲器控制器、外圍總線和使用多種總線體系結(jié)構(gòu)中的任一種的局部總線。作為示例,而非限制,這樣的體系結(jié)構(gòu)包括工業(yè)標(biāo)準(zhǔn)體系結(jié)構(gòu)(ISA)總線、微信道體系結(jié)構(gòu)(MCA)總線、增強(qiáng)的ISA(EISA)總線、視頻電子技術(shù)標(biāo)準(zhǔn)協(xié)會(VESA)局部總線和外圍部件互連(PCI)總線(也被稱為Mezzanine總線)。
計算機(jī)110通常包括各種計算機(jī)可讀介質(zhì)。計算機(jī)可讀介質(zhì)可以是能夠被計算機(jī)110訪問到的任何可用介質(zhì),且包括易失性和非易失性介質(zhì)、可移動和不可移動介質(zhì)。作為示例,而非限制,計算機(jī)可讀介質(zhì)可以包括計算機(jī)存儲介質(zhì)和通信介質(zhì)。計算機(jī)存儲介質(zhì)包括以任何方法或技術(shù)實(shí)現(xiàn)的用于存儲諸如計算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù)等信息的易失性和非易失性、可移動和不可移動介質(zhì)。計算機(jī)存儲介質(zhì)包括,但不限于,RAM、ROM、EEPROM、閃存或其它存儲器技術(shù),CD-ROM、數(shù)字多功能盤(DVD)或其它光盤存儲,磁帶盒、磁帶、磁盤存儲或其它磁性存儲設(shè)備、或能用于存儲所需信息且可以由計算機(jī)100訪問的任何其它介質(zhì)。通信介質(zhì)通常具體化為諸如載波或其它傳輸機(jī)制等已調(diào)制數(shù)據(jù)信號中的計算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù),且包括任何信息傳遞介質(zhì)。術(shù)語“已調(diào)制數(shù)據(jù)信號”指的是一種信號,其一個或多個特征以在信號中編碼信息的方式被設(shè)定或更改。作為示例,而非限制,通信介質(zhì)包括有線介質(zhì),諸如有線網(wǎng)絡(luò)或直接線連接,和無線介質(zhì),諸如聲學(xué)、RF、紅外線和其它無線介質(zhì)。上述中任何的組合也應(yīng)包括在計算機(jī)可讀介質(zhì)范圍之內(nèi)。
系統(tǒng)存儲器130包括易失性或非易失性存儲器形式的計算機(jī)存儲介質(zhì),諸如只讀存儲器(ROM)131和隨機(jī)存取存儲器(RAM)132?;据斎?輸出系統(tǒng)133(BIOS)包含有助于諸如啟動時在計算機(jī)110中的元件之間傳遞信息的基本例程,它通常存儲在ROM131中。RAM132通常包含處理單元120可以立即訪問和/或目前正在操作的數(shù)據(jù)和/或程序模塊。作為示例,而非限制,圖2示出了操作系統(tǒng)134、應(yīng)用程序135、其它程序模塊136和程序數(shù)據(jù)137。
計算機(jī)110也可以包括其它可移動/不可移動、易失性/非易失性計算機(jī)存儲介質(zhì)。僅作為示例,圖1示出了從不可移動、非易失性磁介質(zhì)中讀取或向其寫入的硬盤驅(qū)動器141,從可移動、非易失性磁盤152中讀取或向其寫入的磁盤驅(qū)動器151,和從諸如CD ROM或其它光學(xué)介質(zhì)等可移動、非易失性光盤156中讀取或向其寫入的光盤驅(qū)動器155。可以在示例性操作環(huán)境下使用的其它可移動/不可移動、易失性/非易失性計算機(jī)存儲介質(zhì)包括,但不限于,盒式磁帶、閃存卡、數(shù)字多功能盤、數(shù)字錄像帶、固態(tài)RAM、固態(tài)ROM等。硬盤驅(qū)動器141通常由不可移動存儲器接口,諸如接口140連接至系統(tǒng)總線121,磁盤驅(qū)動器151和光盤驅(qū)動器155通常由可移動存儲器接口,諸如接口150連接至系統(tǒng)總線121。
以上描述和在圖1中示出的驅(qū)動器及其相關(guān)聯(lián)的計算機(jī)存儲介質(zhì)為計算機(jī)110提供了對計算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊和其它數(shù)據(jù)的存儲。例如,在圖1中,硬盤驅(qū)動器141被示為存儲操作系統(tǒng)144、應(yīng)用程序145、其它程序模塊146和程序數(shù)據(jù)147。注意到這些組件可以與操作系統(tǒng)134、應(yīng)用程序135、其它程序模塊136和程序數(shù)據(jù)137相同或不同。操作系統(tǒng)144、應(yīng)用程序145、其它程序模塊146和程序數(shù)據(jù)147在這里被標(biāo)注了不同的標(biāo)號是為了說明至少它們是不同的副本。
用戶可以通過輸入設(shè)備,諸如鍵盤162、麥克風(fēng)163和定點(diǎn)設(shè)備161(通常指鼠標(biāo)、跟蹤球或觸摸墊)向計算機(jī)110輸入命令和信息。其它輸入設(shè)備(未示出)可以包括操縱桿、游戲墊、圓盤式衛(wèi)星天線、掃描儀等。這些和其它輸入設(shè)備通常由耦合至系統(tǒng)總線的用戶輸入接口160連接至處理單元120,但也可以由其它接口或總線結(jié)構(gòu),諸如并行端口、游戲端口或通用串行總線(USB)連接。監(jiān)視器191或其它類型的顯示設(shè)備也經(jīng)由一接口,諸如視頻接口190,連接至系統(tǒng)總線121。除監(jiān)視器以外,計算機(jī)也可以包括其它外圍輸出設(shè)備,諸如揚(yáng)聲器197和打印機(jī)196,它們可以通過輸出外圍接口195連接。
計算機(jī)110可使用至一個或多個遠(yuǎn)程計算機(jī),諸如遠(yuǎn)程計算機(jī)180的邏輯連接在網(wǎng)絡(luò)化環(huán)境下操作。遠(yuǎn)程計算機(jī)180可以是個人計算機(jī)、手持式設(shè)備、服務(wù)器、路由器、網(wǎng)絡(luò)PC、對等設(shè)備或其它常見網(wǎng)絡(luò)節(jié)點(diǎn),且通常包括上文相對于計算機(jī)110所描述的許多或所有元件。圖1中所示邏輯連接包括局域網(wǎng)(LAN)171和廣域網(wǎng)(WAN)173,但也可以包括其它網(wǎng)絡(luò)。這樣的網(wǎng)絡(luò)環(huán)境在辦公室、企業(yè)范圍計算機(jī)網(wǎng)絡(luò)、內(nèi)聯(lián)網(wǎng)和因特網(wǎng)中是常見的。
當(dāng)在LAN網(wǎng)絡(luò)環(huán)境中使用時,計算機(jī)110通過網(wǎng)絡(luò)接口或適配器170連接至LAN171。當(dāng)在WAN網(wǎng)絡(luò)環(huán)境中使用時,計算機(jī)110通常包括調(diào)制解調(diào)器172或用于通過諸如因特網(wǎng)等WAN173建立通信的其它裝置。調(diào)制解調(diào)器172可以是內(nèi)部的或外部的,可以通過用戶輸入接口160或其它合適的機(jī)制連接至系統(tǒng)總線121。在網(wǎng)絡(luò)化環(huán)境中,相對于計算機(jī)110所描述的程序模塊或其部分可以存儲在遠(yuǎn)程存儲器存儲設(shè)備中。作為示例,而非限制,圖1示出了遠(yuǎn)程應(yīng)用程序185駐留在存儲器設(shè)備181上??梢岳斫?,所示的網(wǎng)絡(luò)連接是示例性的,且可以使用在計算機(jī)之間建立通信鏈路的其它手段。
圖2是移動設(shè)備200的框圖,它是一個示例性計算環(huán)境。移動設(shè)備200包括微處理器202、存儲器204、輸入/輸出(I/O)組件206和用于同遠(yuǎn)程計算機(jī)或其它移動設(shè)備通信的通信接口208。在一個實(shí)施例中,上述組件為相互通信而通過合適的總線210被耦合在一起。
存儲器204被實(shí)現(xiàn)為諸如帶有電池備用模塊(未示出)的隨機(jī)存取存儲器(RAM)等的非易失性電子存儲器,以使當(dāng)移動設(shè)備200的總電源被關(guān)閉時,存儲在存儲器204中的信息也不會丟失。存儲器204的一部分較佳地被分配為用于程序執(zhí)行的可尋址存儲器,而存儲器204的另一部分較佳地用于存儲,諸如模擬在硬盤驅(qū)動器上的存儲。
存儲器204包括操作系統(tǒng)212、應(yīng)用程序214和對象存儲216。在操作期間,操作系統(tǒng)212較佳地由處理器202從存儲器204處執(zhí)行。在一個較佳的實(shí)施例中,操作系統(tǒng)212是可從微軟公司購買的WINDOWSCE操作系統(tǒng)。操作系統(tǒng)212較佳地是為移動設(shè)備所設(shè)計的,且實(shí)現(xiàn)可由應(yīng)用程序214通過一組所展現(xiàn)的應(yīng)用程序編程接口和方法來使用的數(shù)據(jù)庫特征。對象存儲216中的對象由應(yīng)用程序214和操作系統(tǒng)212至少部分地響應(yīng)于對所展現(xiàn)的應(yīng)用程序編程接口和方法的調(diào)用來維護(hù)。
通信接口208表示允許移動設(shè)備200發(fā)送和接收信息的眾多設(shè)備和技術(shù)。僅舉幾個示例,這些設(shè)備包括有線和無線調(diào)制解調(diào)器、衛(wèi)星接收器和廣播調(diào)諧器。移動設(shè)備200也能夠被直接連接至計算機(jī)以與其交換數(shù)據(jù)。在這些情況下,通信接口208能夠是紅外線收發(fā)器或者串行或并行通信連接,上述所有都能夠傳輸流信息。
輸入/輸出組件206包括各種輸入設(shè)備,諸如觸敏屏幕、按鈕、滾輪和麥克風(fēng),還包括各種輸出設(shè)備,包括音頻發(fā)生器、振動設(shè)備和顯示器。以上列出的設(shè)備僅作為示例,且不需在移動設(shè)備200上全部存在。另外,其它輸入/輸出設(shè)備可以在本發(fā)明的范圍內(nèi)被附加至移動設(shè)備200或與其一同出現(xiàn)。
圖3提供了本發(fā)明實(shí)施例的基本框圖。圖3中,說話者300生成語音信號302(X),該信號由氣導(dǎo)麥克風(fēng)304和備選傳感器306檢測。備選傳感器的示例包括測量用戶喉部振動的喉部麥克風(fēng)、位于或接近用戶面部骨骼或顱骨(諸如頜骨)的或在用戶耳朵中,傳感與用戶生成的語音相對應(yīng)的顱骨或頜骨的振動的骨導(dǎo)傳感器。氣導(dǎo)麥克風(fēng)304是常用于將音頻空氣波轉(zhuǎn)換成電信號的麥克風(fēng)類型。
氣導(dǎo)麥克風(fēng)304還接收由一個或多個噪聲源310生成的環(huán)境噪聲308(U)和由背景說話者314生成背景語音312(V)。取決于備選傳感器的類型和背景語音的級別,背景語音312也可以由備選傳感器306檢測。然而,在本發(fā)明的實(shí)施例中,備選傳感器306通常對環(huán)境噪聲和背景語音不如氣導(dǎo)麥克風(fēng)304敏感。這樣,由備選傳感器306生成的備選傳感器信號316(B)一般比由氣導(dǎo)麥克風(fēng)304所生成的氣導(dǎo)麥克風(fēng)信號318(Y)包含更少的噪聲。盡管備選傳感器306對環(huán)境噪聲較不敏感,但它的確生成某些傳感器噪聲320(W)。
從說話者300至備選傳感器信號316的路徑能夠被建模為擁有信道響應(yīng)H的信道。從背景說話者314至備選傳感器信號316的路徑能夠被建模為擁有信道響應(yīng)G的信道。
備選傳感器信號316(B)和氣導(dǎo)麥克風(fēng)信號318(Y)被提供給干凈信號估算器322,它估算干凈信號324,并且在某些實(shí)施例中估算背景語音信號326。干凈信號估算324被提供給語音處理328。干凈信號估算324可以是經(jīng)濾波的時域信號或傅里葉變換向量。如果干凈信號估算324是時域信號,則語音處理328可以采用收聽器、語音編碼系統(tǒng)或語音識別系統(tǒng)的形式。如果干凈信號估算324是傅里葉變換向量,則語音處理328通??梢允钦Z音識別系統(tǒng),或包含傅里葉反變換用于將傅里葉變換向量轉(zhuǎn)換為波形。
在直接濾波增強(qiáng)322中,備選傳感器信號316和麥克風(fēng)信號318被轉(zhuǎn)換到用于估算干凈語音的頻域。如圖4所示,備選傳感器信號316和氣導(dǎo)麥克風(fēng)信號318分別被提供給模-數(shù)轉(zhuǎn)換器404和414,用于生成一數(shù)字值序列,這些數(shù)字值分別由幀構(gòu)造器406和416組合成值的幀。在一個實(shí)施例中,模-數(shù)轉(zhuǎn)換器404和414以16kHz和每個樣值16比特對模擬信號進(jìn)行采樣,從而創(chuàng)建了每秒32千字節(jié)的語音數(shù)據(jù),且?guī)瑯?gòu)造器406和416每10毫秒分別創(chuàng)建一個包含20毫秒數(shù)據(jù)的新幀。
由幀構(gòu)造器406和416提供的每一各自的數(shù)據(jù)幀分別使用快速傅里葉變換(FFT)408和418轉(zhuǎn)換到頻域。
備選傳感器信號和氣導(dǎo)麥克風(fēng)信號的頻域值被提供給干凈信號估算器420,它使用該頻域值來估算干凈語音信號324,并在某些實(shí)施例中估算背景語音信號326。
在某些實(shí)施例中,干凈語音信號324和背景語音信號326使用快速傅里葉反變換422和424轉(zhuǎn)換回時域。這樣創(chuàng)建了干凈語音信號324和背景語音信號326的時域形式。
本發(fā)明提供了用于估算干凈語音信號324的直接濾波技術(shù)。在直接濾波中,備選傳感器306的信道響應(yīng)的最大似然估計是通過最小化與該信道響應(yīng)相關(guān)的函數(shù)來確定的。這些估算而后被用來通過最小化與干凈語音信號相關(guān)的函數(shù)來確定干凈語音信號的最大似然估計。
在本發(fā)明的一個實(shí)施例中,與由被選傳感器所檢測的背景語音相對應(yīng)的信道響應(yīng)G被認(rèn)為是零,且背景語音和環(huán)境噪聲被結(jié)合在一起形成單個噪聲項。這能夠獲得在干凈語音信號和氣導(dǎo)麥克風(fēng)信號及備選傳感器信號之間的模型y(t)=x(t)+z(t)公式1b(t)=h(t)*x(t)+w(t) 公式2其中,y(t)是氣導(dǎo)麥克風(fēng)信號,b(t)是備選傳感器信號,x(t)是干凈語音信號,z(t)是包括背景語音和環(huán)境噪聲的組合噪聲信號,w(t)是備選傳感器噪聲,h(t)是對與備選傳感器相關(guān)聯(lián)的干凈語音信號的信道響應(yīng)。從而,在公式2中,備選傳感器信號被建模為干凈語音的經(jīng)濾波形式,其中濾波器擁有脈沖響應(yīng)h(t)。
在頻域中,公式1和公式2可以被表達(dá)成Yt(k)=Xt(k)+Zt(k) 公式3Bt(k)=Ht(k)Xt(k)+Wt(k)公式4其中,記法Yt(k)表示以時間t為中心的一個信號幀的第k個頻率分量。這個記法適用于Xt(k),Zt(k),Ht(k),Wt(k)和Bt(k)。在以下描述中,對頻率分量k的引用為清楚起見而被省略。但是,本領(lǐng)域的技術(shù)人員應(yīng)該認(rèn)識到,下文執(zhí)行的計算是在每個頻率分量的基礎(chǔ)上執(zhí)行的。
在該實(shí)施例中,噪聲Zt和Wt的實(shí)部和虛部被建模為獨(dú)立的零均值高斯型,使得Zt=N(O,σz2)]]>公式5Wt=N(O,σw2)]]>公式6其中,σz2是噪聲Zt的方差,σw2是噪聲Wt的方差。
Ht也被建模為高斯型,使得Ht=N(H0,σH2)]]>公式7其中,H0是信道響應(yīng)的均值,σH2是信道響應(yīng)的方差。
給定這些模型參數(shù),干凈語音值Xt和信道響應(yīng)值Ht的概率由條件概率描述
p(Xt,Ht|Yt,Bt,H0σz2,σw2,σH2)]]>公式8它與下述成比例p(Yt,Bt|Xt,Ht,σz2σw2)p(Ht|H0,σH2)p(Xt)]]>公式9它等價于p(Yt|Xt,σz2)p(Bt|Xt,Ht,σw2)p(Ht|H0,σH2)p(Xt)]]>公式10在一個實(shí)施例中,信道響應(yīng)的先驗(yàn)概率p(Ht|H0,σH2),和干凈語音信號的先驗(yàn)概率p(Xt)被忽略,且剩下的概率被作為高斯分布處理。使用這些簡化,公式10變?yōu)?(2π)2σz2σw2exp[-12σz2|Yt-Xt|2-12σw2|Bt-Bt-Xt|2]]]>公式11從而,話語的最大似然估計Ht,Xt是通過把公式11在該話語中的所有時間幀T上的指數(shù)項最小化來確定的。這樣,該最大似然估計通過最小化以下公式來給出F=Σt=1T(12σz2|Yt-Xt|2+12σw2|Bt-YtXt|2)]]>公式12因?yàn)楣?2是相對于兩個變量Ht,Xt來最小化的,因此相對于每個變量的偏導(dǎo)可以被用來確定使該函數(shù)最小化的變量的值。特別地,∂F∂Xt=0]]>時可以得到Xt=1σw2+σz2|Ht|2(σw2Yt+σz2Ht*Bt)]]>公式13其中,Ht*表示Ht的復(fù)共軛,而|Ht|表示Ht的復(fù)值的幅度。
將Xt的該值代入公式12,令偏導(dǎo)∂F∂Ht=0,]]>且然后假定H在所有時間幀T上是常數(shù),得到H的解H=Σt=1T(σz2|Bt|2-σw2|Yt|2)±(Σt=1T(σz2|Bt|2-σw2|Yt|2))2+4σz2σw2|Σt=1TBt*Yt|22σz2Σt=1TBt*Yt]]>公式14在公式14中,對H的估算需要對最后T幀的多個求和,其形式為S(T)=Σt=1Tst]]>公式15其中,st為(σz2|Bt|2-σw2|Yt|2)或Bt*Yt。
由上述公式,第一幀(t=1)與最后一幀(t=T)同樣重要。然而,在其它實(shí)施例中,較佳的是在對H的估算中讓最近的幀比較早的幀起更大的作用。為達(dá)到該目的的一種技術(shù)是“指數(shù)衰退(exponential aging)”,其中公式15中的求和被替代為S(T)=Σt=1TcT-tst]]>公式16其中,c≤1。如果c=1,那么公式16等價于公式15。如果c<1,那么最后一幀的權(quán)重為1,最后一幀的前一幀由c加權(quán)(即,它起的作用比最后一幀小),且第一幀由cT-1加權(quán)(即,它起的作用遠(yuǎn)小于最后一幀)。舉一個例子。令c=0.99且T=100,那么第一幀的權(quán)重僅為0.9999=0.37。
在一個實(shí)施例中,公式16被遞歸地估算為S(T)=cS′(T-1)+sT公式17因?yàn)楣?7自動地給舊的數(shù)據(jù)分配更小的權(quán)重,因此不需要使用固定窗長度,且最后T幀的數(shù)據(jù)不需存儲在存儲器中。相反,只有前一幀的S(T-1)的值需要被存儲。
使用公式17,公式14變?yōu)镠T=J(T)+(J(T))2+4σz2σw2|K(T)|22σz2K(T)]]>公式18其中J(T)=cJ(T-1)+(σz2|BT|2-σw2|YT|2)]]>公式19K(T)=cK(T-1)+BT*YT]]>公式20公式19和20中的c的值為用于計算J(T)和K(T)當(dāng)前值的過去的幀的數(shù)目提供了有效長度。特別地,有效長度由以下公式給出L(T)=Σt=1TcT-t=Σi=0T-1ci=1-cT1-c]]>公式21漸近的有效長度為L=linT→∞L(T)=11-c]]>公式22或等價地,c=L-1L]]>公式23這樣,使用公式23,c能夠被設(shè)置以便在公式18中得到不同的有效長度。例如,為得到200幀的有效長度,c被設(shè)為c=199200=0.995]]>公式24一旦使用公式14估算了H,它可以被用于代替公式13中所有的Ht,以便確定在每個時間幀t時Xt的單獨(dú)值??蛇x地,公式18可以用于估算在每個時間幀t時的Ht。在每個時間幀時的Ht的值而后被用在公式13中來確定Xt。
圖5提供了本發(fā)明的一方法的流程圖,它使用公式13和14來估算話語的干凈語音值。
在步驟500處,氣導(dǎo)麥克風(fēng)信號和備選傳感器信號的幀的頻率分量在整段話語上捕捉。
在步驟502處,氣導(dǎo)麥克風(fēng)噪聲的方差σz2和被選傳感器噪聲的方差σw2分別從氣導(dǎo)麥克風(fēng)信號和備選傳感器信號的幀確定,這些幀在早先說話者不發(fā)聲的時段的話語中捕捉。
因?yàn)閭溥x傳感器噪聲的能量比由備選傳感器信號捕捉到的語音信號的能量小得多,因此本方法通過識別備選傳感器信號的低能量段來確定說話者何時不發(fā)聲。在其它實(shí)施例中,已知的語音檢測技術(shù)可以應(yīng)用于氣導(dǎo)語音信號,以識別說話者何時發(fā)聲。在說話者被認(rèn)為不在發(fā)聲時,Xt被假定為零,且來自氣導(dǎo)麥克風(fēng)或備選傳感器的任何信號被認(rèn)為是噪聲。這些噪聲值的樣本從非語音的幀中收集,且用于估算在氣導(dǎo)麥克風(fēng)信號和備選傳感器信號中的噪聲的方差。
在步驟504處,通過使用上述公式14,使用在話語的所有幀上的備選傳感器信號和氣導(dǎo)麥克風(fēng)信號的值來確定H的值。在步驟506處,使用上述公式13,該H的值與每一時間幀上的個別氣導(dǎo)麥克風(fēng)信號和備選傳感器信號的值一起用來確定每一時間幀上的增強(qiáng)的或經(jīng)降噪的語音值。
在其它實(shí)施例中,使用公式18為每一幀確定Ht,而不是使用公式14使用話語中的所有幀來確定單個H值。然后使用上述公式13,使用Ht的值來計算該幀的Xt。
在本發(fā)明的第二實(shí)施例中,備選傳感器對背景語音的信道響應(yīng)被認(rèn)為是非零的。在該實(shí)施例中,氣導(dǎo)麥克風(fēng)信號和備選傳感器信號被建模為Yt(k)=Xt(k)+Vt(k)+Ut(k) 公式25Bt(k)=Ht(k)Xt(k)+Gt(k)Vt(k)+Wt(k) 公式26其中,噪聲Zt(k)被分成背景語音Vt(k)和環(huán)境噪聲Ut(k),且對背景語音的備選傳感器信道響應(yīng)是非零值Gt(k)。
在該實(shí)施例中,對干凈語音Xt的先驗(yàn)知識仍舊被忽略。作以下假定,干凈語音Xt的最大似然性能夠通過最小化下述目標(biāo)函數(shù)來找到F=1σw2|Bt-HtXt-GtVt|2+1σu2|Yt-Xt-Vt|2+1σv2|Vt|2]]>公式27這就得到以下干凈語音的公式Xt=(σw2+σu2Ht*Gt)Yt+[(σu2+σu2)Ht*-σv2Gt*](Bt-GtYt)σv2|Ht-Gt|2+σw2+σu2|Ht|2]]>公式28為了解出公式28,方差σw2,σu2和σv2以及信道響應(yīng)值Ht和Gt必須已知。圖6提供了用于識別這些值和用于確定每一幀的增強(qiáng)的語音值的流程圖。
在步驟600處,話語的幀在用戶不發(fā)聲和沒有背景語音的時候被識別。這些幀而后用于分別確定備選傳感器和氣導(dǎo)麥克風(fēng)的方差σw2和σu2。
為識別用戶不發(fā)聲時的那些幀,可檢查備選傳感器信號。因?yàn)閭溥x傳感器信號為背景語音產(chǎn)生的信號值遠(yuǎn)小于為噪聲產(chǎn)生的信號值,則如果備選傳感器信號的能量較低,可以假定說話者不在發(fā)聲。在基于備選信號識別的幀中,能夠向氣導(dǎo)麥克風(fēng)信號應(yīng)用語音檢測算法。該語音檢測系統(tǒng)可以檢測當(dāng)用戶不發(fā)聲時在氣導(dǎo)麥克風(fēng)信號中是否存在背景語音。這樣的語音檢測算法在本領(lǐng)域中是公知的,且包括諸如音調(diào)跟蹤系統(tǒng)等系統(tǒng)。
當(dāng)確定了與氣導(dǎo)麥克風(fēng)和備選傳感器相關(guān)聯(lián)的噪聲的方差后,圖6所示的方法繼續(xù)前進(jìn)至步驟602處,在這里識別出用戶不發(fā)聲但是存在背景語音的幀。這些幀使用上述相同的技術(shù)來識別,但只是選擇當(dāng)用戶不發(fā)聲時包含背景語音的那些幀。對用戶不發(fā)聲時包含背景語音的那些幀,可以假定背景語音遠(yuǎn)大于環(huán)境噪聲。由此,在那些幀期間氣導(dǎo)麥克風(fēng)信號的任何方差被認(rèn)為是由背景語音引起的。結(jié)果,方差σv2能夠由從用戶不發(fā)聲但存在背景語音的那些幀期間氣導(dǎo)麥克風(fēng)信號的值來直接設(shè)定。
在步驟604處,所識別的用戶不發(fā)聲但存在背景語音的幀用于估算背景語音的備選傳感器信道響應(yīng)G。具體地,G被確定為G=Σt=1D(σu2|Bt|2-σw2|Yt|2)±(Σt=1D(σu2|Bt|2-σw2|Yt|2))2+4σu2σw2|Σt=1DBt*Yt|22σu2Σt=1DBt*Yt]]>公式29其中,D是用戶不發(fā)聲但存在背景語音的幀的數(shù)目。在公式29中,可以假定G在話語的所有幀上保持不變,從而不再依賴于時間幀t。
在步驟606處,對背景語音的備選傳感器信道響應(yīng)G的值用于確定對干凈語音信號的備選傳感器信道響應(yīng)。具體地,H如下計算H=G+Σt=1T(σv2|Bt-GYt|2-σw2|Yt|2)±(Σt=1T(σv2|Bt-GYt|2-σw2|Yt|2))2+4σv2σw2|Σt=1T(Bt-GYt)*Yt|22σv2Σt=1T(Bt-GYt)*Yt]]>公式30在公式30中,在T上的求和可以用上文結(jié)合公式15-24討論的遞歸指數(shù)衰減計算來代替。
當(dāng)在步驟606處確定H之后,公式28可以用來確定所有幀的干凈語音值。在使用公式28時,Ht和Gt分別用獨(dú)立值H和G代替。另外,在某些實(shí)施例中,公式28中的Bt-GYt項用 來代替,因?yàn)榘l(fā)現(xiàn)難以準(zhǔn)確地確定背景語音及其對備選傳感器的泄漏之間的相位差。
如果在公式30中使用該遞歸指數(shù)衰減計算來代替求和,則可以對每一時間幀確定單獨(dú)的Ht值,且可將該值用作公式28中的Ht。
在上述實(shí)施例的進(jìn)一步擴(kuò)展中,有可能提供對每一時間幀上的背景語音信號的估算。具體地,一旦確定了干凈語音值,每一時間幀上的背景語音值可以被確定為Vt=1σw2+H*Gu2[σw2Yt+σu2H*Bt-(σw2+|H|2σu2)Xt]]]>公式31該可任選步驟在圖6中的步驟610處示出。
在上述實(shí)施例中,備選傳感器對干凈信號的信道響應(yīng)的先驗(yàn)知識被忽略。在其它實(shí)施例中,如果提供了該先驗(yàn)知識,則它能夠用來生成對每一時間幀Ht上的信道響應(yīng)的估算,并用來確定干凈語音值Xt。
在該實(shí)施例中,對背景語音噪聲的信道響應(yīng)再次被假定為零。從而,氣導(dǎo)信號和備選傳感器信號的模型與在上述公式3和4中所示的模型相同。
用于估算每一時間幀上的干凈語音值和信道響應(yīng)Ht的公式通過最小化以下目標(biāo)函數(shù)來確定-12σz2|Yt-Xt|2-12σw2|Bt-HtXt|2-12σH2|Ht-H0|2]]>公式32通過獨(dú)立地對Xt和Ht兩個變量取偏導(dǎo)并令結(jié)果等于零,該目標(biāo)函數(shù)對于Xt和Ht被最小化。這提供了下述Xt和Ht的公式
Xt=1σw2+σv2|Ht|2(σw2Yt+σv2Ht*Bt)]]>公式33Ht=1σw2+σH2|Xt|2(σH2BtXt*+σw2H0)]]>公式34其中,H0和σH2分別是備選傳感器對干凈語音信號的信道響應(yīng)的先驗(yàn)?zāi)P偷木岛头讲睢R驗(yàn)閄t的公式包含Ht,而Ht的公式包含變量Xt,因此公式33和34必須使用迭代的方式解出。圖7提供了實(shí)現(xiàn)這樣一種迭代的流程圖。
在圖7的步驟700處,確定信道響應(yīng)的先驗(yàn)?zāi)P偷膮?shù)。在步驟702處,確定對Xt的估算。該估算能夠通過使用上述忽略信道響應(yīng)的先驗(yàn)?zāi)P偷脑缦鹊娜魏螌?shí)施例來確定。在步驟704處,先驗(yàn)?zāi)P偷膮?shù)和對Xt的初始估算用于使用公式34來確定Ht。Ht而后在步驟706處用于使用公式33更新干凈語音值。在步驟708處,該過程確定是否需要更多的迭代。如果需要更多的迭代,則該過程回到步驟704處,并使用在步驟706處確定的所更新的Xt值來更新Ht值。重復(fù)步驟704和706,直到在步驟708處不需要更多的迭代,此時該過程在步驟710處結(jié)束。
盡管本發(fā)明是參考具體實(shí)施例而描述的,然而本領(lǐng)域的技術(shù)人員可以認(rèn)識到,可以在形式和細(xì)節(jié)上進(jìn)行修改而不背離本發(fā)明的精神和范圍。
權(quán)利要求
1.一種確定對表示經(jīng)降噪的語音信號的一部分的經(jīng)降噪的值的估算的方法,所述方法包括使用除氣導(dǎo)麥克風(fēng)外的備選傳感器生成一備選傳感器信號;生成一氣導(dǎo)麥克風(fēng)信號;使用所述備選傳感器信號和所述氣導(dǎo)麥克風(fēng)信號來估算所述備選傳感器的信道響應(yīng)值;以及使用所述信道響應(yīng)來估算所述經(jīng)降噪的值。
2.如權(quán)利要求1所述方法,其特征在于,估算信道響應(yīng)值包括找出一目標(biāo)函數(shù)的極值。
3.如權(quán)利要求1所述方法,其特征在于,估算信道響應(yīng)值包括,將所述備選傳感器信號建模為干凈語音信號與所述信道響應(yīng)卷積,并將結(jié)果與一噪聲項相加。
4.如權(quán)利要求1所述方法,其特征在于,所述信道響應(yīng)包括對干凈語音信號的信道響應(yīng)。
5.如權(quán)利要求4所述方法,其特征在于,還包括確定所述備選傳感器對背景語音信號的信道響應(yīng)。
6.如權(quán)利要求5所述方法,其特征在于,使用所述信道響應(yīng)來估算所述經(jīng)降噪的值包括,使用對所述干凈語音信號的信道響應(yīng)和對所述背景語音信號的信道響應(yīng)來估算所述經(jīng)降噪的值。
7.如權(quán)利要求1所述方法,其特征在于,還包括使用所述經(jīng)降噪的值的估算來估算背景語音信號的值。
8.如權(quán)利要求1所述方法,其特征在于,估算信道響應(yīng)值包括,使用所述備選傳感器信號和所述氣導(dǎo)麥克風(fēng)信號的幀序列來估算對所述幀序列中的幀的單個信道響應(yīng)值。
9.如權(quán)利要求8所述方法,其特征在于,使用所述信道響應(yīng)來估算經(jīng)降噪的值包括為所述幀序列中的每一幀估算一單獨(dú)的經(jīng)降噪的值。
10.如權(quán)利要求1所述方法,其特征在于,估算信道響應(yīng)值包括,通過向在當(dāng)前幀中的備選傳感器信號和氣導(dǎo)麥克風(fēng)信號分配比前一幀中的備選傳感器信號和氣導(dǎo)麥克風(fēng)信號更大的權(quán)重,來估算當(dāng)前幀的值。
11.一種計算機(jī)可讀介質(zhì),含有用于執(zhí)行以下步驟的計算機(jī)可執(zhí)行指令使用一備選傳感器信號和一氣導(dǎo)麥克風(fēng)信號來確定一備選傳感器的信道響應(yīng);以及使用所述信道響應(yīng),以使用所述備選傳感器信號的至少一部分估算一干凈語音值。
12.如權(quán)利要求11所述的計算機(jī)可讀介質(zhì),其特征在于,確定信道響應(yīng)包括,確定對所述備選傳感器信號和所述氣導(dǎo)麥克風(fēng)信號的幀序列的單個信道響應(yīng)。
13.如果權(quán)利要求11所述的計算機(jī)可讀介質(zhì),其特征在于,所述信道響應(yīng)包括對干凈語音信號的信道響應(yīng)。
14.如果權(quán)利要求13所述的計算機(jī)可讀介質(zhì),其特征在于,還包括確定對背景語音信號的信道響應(yīng)。
15.如果權(quán)利要求14所述的計算機(jī)可讀介質(zhì),其特征在于,還包括使用對所述背景語音信號的信道響應(yīng)以及對所述干凈語音信號的信道響應(yīng)來估算所述干凈語音值。
16.如果權(quán)利要求11所述的計算機(jī)可讀介質(zhì),其特征在于,還包括使用所述干凈語音值來估算背景語音值。
17.一種識別干凈語音信號的方法,所述方法包括估算描述一備選傳感器信號中的噪聲的噪聲參數(shù);使用所述噪聲參數(shù)來估算對一備選傳感器的信道響應(yīng);以及使用所述信道響應(yīng)來估算所述干凈語音信號的值。
18.如權(quán)利要求17所述的方法,其特征在于,估算噪聲參數(shù)包括,使用所述備選傳感器信號來識別用戶不發(fā)聲的時段。
19.如權(quán)利要求18所述的方法,其特征在于,還包括在一氣導(dǎo)麥克風(fēng)信號中與用戶不發(fā)聲時段相關(guān)聯(lián)的部分上執(zhí)行語音檢測,以識別無語音時段和背景語音時段。
20.如權(quán)利要求19所述的方法,其特征在于,還包括使用所述備選傳感器信號中與無語音時段相關(guān)聯(lián)的部分來估算所述噪聲參數(shù)。
21.如權(quán)利要求20所述的方法,其特征在于,還包括使用所述無語音時段來估算描述所述氣導(dǎo)麥克風(fēng)信號中的噪聲的噪聲參數(shù)。
22.如權(quán)利要求20所述的方法,其特征在于,還包括使用所述備選傳感器信號中與背景語音時段相關(guān)聯(lián)的部分來估算對背景語音的信道響應(yīng)。
23.如權(quán)利要求22所述的方法,其特征在于,還包括使用對背景語音的信道響應(yīng)來估算干凈語音。
24.如權(quán)利要求17所述的方法,其特征在于,還包括確定對背景語音值的估算。
25.如權(quán)利要求24所述的方法,其特征在于,確定對背景語音值的估算包括,使用對所述干凈語音值的估算來估算所述背景語音值。
26.如權(quán)利要求17所述的方法,其特征在于,還包括使用所述信道響應(yīng)的先驗(yàn)?zāi)P蛠砉浪闼龈蓛粽Z音值。
全文摘要
一種方法和裝置使用備選傳感器信號和氣導(dǎo)麥克風(fēng)信號來確定對備選傳感器的信道響應(yīng)。該信道響應(yīng)而后用于使用備選傳感器信號的至少一部分來估算干凈語音值。
文檔編號G10L15/20GK1750123SQ200510092458
公開日2006年3月22日 申請日期2005年8月17日 優(yōu)先權(quán)日2004年9月17日
發(fā)明者A·阿瑟洛, J·G·德羅坡, 黃學(xué)東, 張正友, 劉自成 申請人:微軟公司