欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

使用先驗無噪聲語音的多傳感語音增強的制作方法

文檔序號:2830077閱讀:440來源:國知局
專利名稱:使用先驗無噪聲語音的多傳感語音增強的制作方法
專利說明使用先驗無噪聲語音的多傳感語音增強
背景技術(shù)
語音識別和語音傳輸?shù)墓餐瑔栴}是語音信號受加性噪聲的污染。特別是因其他說話者的語音所導(dǎo)致的污染已被證實是難以檢測和/或校正的。
近來,已研發(fā)出一種系統(tǒng),試圖利用另一備選傳感器(諸如骨傳導(dǎo)麥克風(fēng))和一空氣傳導(dǎo)麥克風(fēng)來移去噪聲。該系統(tǒng)的訓(xùn)練使用三個訓(xùn)練信道噪聲備選傳感器訓(xùn)練信號、噪聲空氣傳導(dǎo)麥克風(fēng)訓(xùn)練信號、和無噪聲(clean)空氣傳導(dǎo)麥克風(fēng)訓(xùn)練信號。這些信號的每一個都被轉(zhuǎn)換成一個特征域。噪聲備選傳感器信號和噪聲空氣傳導(dǎo)麥克風(fēng)信號的特征被組合成表示噪聲信號的單個向量。無噪聲空氣傳導(dǎo)麥克風(fēng)信號的特征形成單個無噪聲向量。這些向量然后用于訓(xùn)練噪聲向量和無噪聲向量之間的映射。一當(dāng)經(jīng)訓(xùn)練,這些映射便用于由噪聲備選傳感器測試信號和噪聲空氣傳導(dǎo)麥克風(fēng)測試信號形成的噪聲向量。這個映射生成一無噪聲向量。
當(dāng)測試信號的噪聲條件與訓(xùn)練信號的噪聲條件不匹配時這一系統(tǒng)是次最佳的,因為這些映射是針對訓(xùn)練信號的噪聲條件設(shè)計的。
發(fā)明概述 一種方法和裝置使用備選傳感器信號和空氣傳導(dǎo)麥克風(fēng)信號來確定備選傳感器的信道響應(yīng)。然后,該信道響應(yīng)和無噪聲語音值的先驗慨率分布被用于估計無噪聲語音值。
附圖簡述

圖1是可實踐本發(fā)明實施例的一個計算環(huán)境的框圖。
圖2是可實踐本發(fā)明實施例的另一個可選的計算環(huán)境的框圖。
圖3是本發(fā)明的一個實施例的一般語音處理系統(tǒng)的框圖。
圖4是在本發(fā)明的一個實施例情況下的用于增強語音的系統(tǒng)的框圖。
圖5是在本發(fā)明的一個實施例情況下的用于增強語音的流程框圖。
圖6是在本發(fā)明的另一個實施例情況下的用于增強語音的流程框圖。
發(fā)明實施例的詳細說明 圖1說明了可實現(xiàn)本發(fā)明實施例的一個適合的計算系統(tǒng)環(huán)境100的示例。計算系統(tǒng)環(huán)境100僅是適合的計算系統(tǒng)環(huán)境的一個示例而且并不旨在建議對本發(fā)明的使用或功能性的范圍作任何限制。計算系統(tǒng)環(huán)境100也不應(yīng)被解釋為關(guān)于示例的操作環(huán)境100所說明的任何一個組件或其組合具有任何依賴性或要求。
本發(fā)明可與許多其它通用或?qū)S糜嬎阆到y(tǒng)環(huán)境或配置一起工作。適合于本發(fā)明使用的公知的計算系統(tǒng)、環(huán)境、和/或配置的示例包括,但不限于,個人計算機、服務(wù)器計算機、手持或膝上裝置、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、機頂盒、可編程消費類電子產(chǎn)品、網(wǎng)絡(luò)PC、微型計算機、大型計算機、電話系統(tǒng)、包括任何上述系統(tǒng)或裝置的分布式計算環(huán)境,以及類似計算環(huán)境。
本發(fā)明可在計算機可執(zhí)行指令,諸如由計算機執(zhí)行的程序模塊的一般環(huán)境下描述。通常,程序模塊包括執(zhí)例程、程序、對象、組件、數(shù)據(jù)結(jié)構(gòu)等,它們執(zhí)行特定的任務(wù)或?qū)崿F(xiàn)特定的抽象數(shù)據(jù)類型。本發(fā)明設(shè)計為在分布式計算環(huán)境中實踐,其中任務(wù)由通過通信網(wǎng)絡(luò)鏈接的遠程處理裝置執(zhí)行。在分布式計算環(huán)境中程序模塊可位于包括內(nèi)存存儲裝置的本地和遠程計算機存儲器媒體中。
參考圖1,用于實現(xiàn)本發(fā)明實施例的示例系統(tǒng)包括以計算機100形式的通用計算裝置。計算機100的組件可包括,但不限于,處理單元120、系統(tǒng)存儲器130、和將包括系統(tǒng)存儲器在內(nèi)的各種系統(tǒng)組件耦合到處理單元120的系統(tǒng)總線121。系統(tǒng)總線121可以是若干種總線結(jié)構(gòu)的任何一種,包括存儲器總線或存儲器控制器、外設(shè)總線以及使用各種總線結(jié)構(gòu)的任一種的局部總線。作為示例,但非限制,這種結(jié)構(gòu)包括工業(yè)標準結(jié)構(gòu)(ISA)總線、微通道結(jié)構(gòu)(MCA)總線、視頻電子協(xié)會(VESA)本地總線、以及外圍組件互聯(lián)(PCI)總線(也稱之為Mezzanine總線)。
計算機100通常包括各種計算機可讀媒體。計算機可讀媒體可以是可由計算機100訪問的任何可供使用的媒體并包括易失性和非易失性媒體,可移動和不可移動媒體。作為示例,但非限制,計算機可讀媒體可以包括計算機存儲媒體和通信媒體。計算機存儲媒體包括以任何存儲信息的方法和技術(shù)實現(xiàn)的易失性和非易失性、可移動和不可移動媒體,這些信息諸如計算機可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊和其它數(shù)據(jù)。計算機存儲媒體包括,但不限于,RAM、ROM、EEPROM、快閃存儲器、或其它存儲器技術(shù)、CD-ROM、數(shù)字多功能盤(DVD)或其它光盤存儲器、磁帶盒、磁帶、磁盤存儲器或其它存儲裝置、或可被用于存儲所希望的信息即刻被計算機100訪問的任何其它媒體。通信媒體通常體現(xiàn)為計算機可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊和在諸如載波或其它傳輸機制的已調(diào)制數(shù)字信號中的其它數(shù)據(jù)并包括任何信息傳遞媒體。術(shù)語“已調(diào)制數(shù)字信號”是指在信號中以對信息進行編碼的這種方式設(shè)置或改變了該信號的一個或多個特征的一種信號。作為示例,但非限制,通信媒體包括諸如有線網(wǎng)絡(luò)或直接連線連接的有線媒體,而無線媒體諸如聲學(xué)、RF、紅外和其它無線媒體。上述任何的組合也應(yīng)該包括在計算機可讀媒體的范圍內(nèi)。
系統(tǒng)存儲器130包括諸如只讀存儲器(ROM)131和隨機讀寫存儲器(RAM)132的易失性和非易失性存儲器形式的計算機存儲媒體?;据斎胼敵鱿到y(tǒng)133(BIOS)通常存儲在ROM131中,它包含了基本例程,幫助在諸如啟動期間在計算機100元件之間傳遞信息。RAM132通常包含可由處理單元120直接訪問和/或當(dāng)前正由處理單元120操作的數(shù)據(jù)和/或程序模塊。作為示例,但非限制,圖1例示了操作系統(tǒng)134、應(yīng)用程序135、其他程序模塊136、和程序數(shù)據(jù)137。
計算機100還包括其它可移動/不可移動、易失性/非易失性計算機存儲媒體。僅作為示例,圖1示出了硬盤驅(qū)動器141對不可移動、非易失性磁性可移動、非易失性磁盤152的讀寫,對可移動、非易失性磁盤152的讀寫,以及對諸如CD ROM的可移動、非易失性光盤156或其它光學(xué)媒體的讀寫。可用于示例操作環(huán)境的其它可移動/不可移動、易失性/非易失性計算機存儲媒體包括,但不限于磁帶盒盤、快閃存儲器卡、數(shù)字多功能盤、數(shù)字視頻帶、固態(tài)RAM、固態(tài)ROM等等。硬盤驅(qū)動器141通常通過諸如接口140的不可移動存儲器接口連接至系統(tǒng)總線121,而磁盤驅(qū)動器151和光盤驅(qū)動器155通常由諸如接口150的可移動存儲器接口連接至系統(tǒng)總線121。
上述和圖1所示的驅(qū)動器和它們相關(guān)聯(lián)的計算機存儲媒體提供了關(guān)于計算機可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊和用于計算機110的其它數(shù)據(jù)的存儲。在圖1中,例如,硬盤驅(qū)動器141被示為存儲操作系統(tǒng)144、應(yīng)用程序145、其他程序模塊146、和程序數(shù)據(jù)147。注意,這些組件可以與操作系統(tǒng)134、應(yīng)用程序135、其他程序模塊136、和程序數(shù)據(jù)137相同或不同。操作系統(tǒng)144、應(yīng)用程序145、其他程序模塊146、和程序數(shù)據(jù)147在這里被給以不同的標號是為了說明它們至少是不同的副本。
用戶可通過諸如鍵盤126、話筒163、和指點裝置161(例如鼠標)、滾動球或觸摸墊之類輸入裝置把命令或信息輸入到個人計算機110中。其它輸入裝置(未示出)可包括操縱桿、游戲墊、衛(wèi)星天線、掃描器等等。這些和其它輸入裝置經(jīng)常通過耦合到系統(tǒng)總線的用戶輸入接口160連到處理單元120,但也可以被其它接口和總線結(jié)構(gòu),諸如平行端口、游戲端口或通用串行總線(USB)所連接。監(jiān)視器191或其它類型顯示裝置也可通過接口,例如視頻接口190連到系統(tǒng)總線121。除了監(jiān)視器外,計算機還可包括其它外圍輸出設(shè)備,例如揚聲器197和打印機196,它們可通過輸出外圍接口195被連接。
計算機110利用與一個或多個遠程計算機(例如遠程計算機180)的邏輯連接而工作在聯(lián)網(wǎng)絡(luò)環(huán)境中。遠程計算機180可以是個人計算機、手持設(shè)備、服務(wù)器、路由器、網(wǎng)絡(luò)PC、對等裝置或其它公共網(wǎng)絡(luò)節(jié)點、并且典型地包括了與計算機110相關(guān)的上述許多或全部元件。圖1描述的邏輯連接包括一局域網(wǎng)(LAN)171和一廣域網(wǎng)(WAN)173,但也可包括其它網(wǎng)絡(luò)。這種連網(wǎng)環(huán)境在辦公室、企業(yè)范圍的計算機網(wǎng)絡(luò)、內(nèi)聯(lián)網(wǎng)和互聯(lián)網(wǎng)中是常見的。
當(dāng)使用在LAN連網(wǎng)環(huán)境中時,計算機110通過網(wǎng)絡(luò)接口或適配器170連到LAN 171。當(dāng)使用在WAN連網(wǎng)環(huán)境中時,計算機110典型地包括一調(diào)制解調(diào)器172或用于在廣域網(wǎng)173上,例因特網(wǎng)上,建立通信的其它裝置。調(diào)制解調(diào)器172,可內(nèi)置或外置,經(jīng)用戶輸入接口160或其它合適的機制與系統(tǒng)總線121相連。在網(wǎng)絡(luò)環(huán)境中,所述的與計算機110相關(guān)或部分相關(guān)的程序模塊可存儲在遠程存儲器存儲裝置中。作為示例,但非限制,圖1說明的遠程應(yīng)用程序185被示為駐留在遠程計算機180內(nèi)。將會理解所示的連接是示例性的,也可使用在計算機間建立通信鏈路的其它裝置。
圖2是移動裝置200的框圖,這是一個示例性計算環(huán)境。移動裝置200包括微處理器202、存儲器204、輸入/輸出(I/O)組件206、以及用于與遠程計算機或其它移動裝置通信的通信接口208。在一個實施例中,上述提到的組件通過適當(dāng)?shù)闹锌偩€210耦合用于互相通信。
存儲器204實現(xiàn)為非易失性電子存儲器,諸如具有后備電池模塊(未示出)的隨機讀寫存儲器(RAM)使得存儲在存儲器204中的信息在移動裝置200的普通電源斷電時不至于丟失。存儲器204較佳地分配為用于程序執(zhí)行得可尋址存儲器,然而存儲器204另一部分較佳地用于存儲體,諸如模擬磁盤驅(qū)動器上的存儲。
存儲器204包括一個操作系統(tǒng)212、各應(yīng)用程序214以及一個對象存儲體216。在操作期間,操作系統(tǒng)212較佳地由處理器202從存儲器204中執(zhí)行。在一個較佳實施例中,操作系統(tǒng)212是WINDOWSCE品牌的操作系統(tǒng),可從微軟公司購得。操作系統(tǒng)212較佳地設(shè)計為用于移動裝置,并實現(xiàn)通過一組曝露的應(yīng)用程序接口和方法可由應(yīng)用程序214使用的數(shù)據(jù)庫特征。對象存儲體216中的對象由應(yīng)用程序214和操作系統(tǒng)212維護,至少部分地響應(yīng)于對曝露的應(yīng)用程序接口和方法的調(diào)用。
通信接口208代表了允許移動裝置200發(fā)送信息的眾多裝置和技術(shù)。這些裝置可包括有線和無線調(diào)制解調(diào)器、衛(wèi)星接收機和調(diào)諧器等。移動裝置200也可直接連接到計算機以在它們之間交換數(shù)據(jù)。在這種情況下,通信接口208可以是紅外收發(fā)機或串行或并行通信連接,所有這些都能發(fā)送流信息。
輸入/輸出組件206包括各種輸入裝置,諸如觸敏屏、按鈕、滾動條和話筒,以及包括音頻產(chǎn)生器、振動裝置和顯示器在內(nèi)的各種輸出裝置。上述羅列的裝置僅是示例且不必都在移動裝置上存在。另外,其它輸入/輸出裝置也可以在本發(fā)明的范圍內(nèi)被附加到移動裝置或可在移動裝置找到。
圖3提供了本發(fā)明各實施例的基本框圖。在圖3中,揚聲器300生成語音信號(X.),該語音信號由一個空氣傳導(dǎo)傳感器和另一個備選傳感器檢測。各種備選傳感器的示例包括測量用戶喉部振動的喉麥克風(fēng)、位于或鄰近用戶臉骨或頭骨(諸如顎骨)或在用戶耳內(nèi)的骨傳導(dǎo)傳感器以及感測對應(yīng)于用戶生成語音的頭骨或顎骨振動的骨傳導(dǎo)傳感器??諝鈧鲗?dǎo)麥克風(fēng)304是一種通常用于將音頻空氣波轉(zhuǎn)換成電信號的麥克風(fēng)。
空氣傳導(dǎo)麥克風(fēng)304也接受由一個或多個噪聲源產(chǎn)生的環(huán)境噪聲308(Z)。取決于環(huán)境噪聲的類型和環(huán)境噪聲的水平,環(huán)境噪聲308也可以由另一個備選傳感器306檢測。然而,在本設(shè)施例的情況下,備選傳感器306對環(huán)境噪聲的靈敏度性通常要比空氣傳導(dǎo)麥克風(fēng)304差。因而,由備選傳感器306產(chǎn)生的備選傳感器信號316(B)通常要比由空氣傳導(dǎo)麥克風(fēng)304產(chǎn)生的空氣傳導(dǎo)麥克風(fēng)信號318(Y)包括的噪聲少。雖然備選傳感器306對環(huán)境噪聲的靈敏度較差,但卻產(chǎn)生相同的傳感器噪聲320(W)。
從揚聲器300到備選傳感器信號316的路徑可以被建模為具有信道響應(yīng)H的信道。從環(huán)境噪聲308到備選傳感器信號316的路徑可以被建模為具有信道響應(yīng)G的信道。
備選傳感器信號316(B)和空氣傳導(dǎo)麥克風(fēng)信號318(Y)被提供給無噪聲信號估計器322,用于估計一無污染噪聲信號324。無噪聲信號估計324提供給語音處理328。無噪聲信號估計324可以或者是經(jīng)濾波的時域信號或者是傅里葉變換向量。如果無噪聲信號估計324是時域信號,語音處理328可以采取收聽者、語音編碼系統(tǒng)或與語音識別系統(tǒng)的形式。如果無噪聲信號估計324是傅里葉變換向量,語音處理328典型的將是語音識別系統(tǒng)、或某種傅里葉反變換將傅里葉變換向量轉(zhuǎn)換為波形。
在直接濾波增強322中,備選傳感器信號316和麥克風(fēng)信號318被轉(zhuǎn)換到用于估計無噪聲語音的頻域。如圖4所示,備選傳感器信號316和空氣傳導(dǎo)麥克風(fēng)信號318分別被提供給模數(shù)轉(zhuǎn)換器404和414,以產(chǎn)生一數(shù)字值序列,該序列分別由幀構(gòu)成器406和414分組成值的幀。在一個實施例中,A/D轉(zhuǎn)換器404和414以16KHz和每采樣16比特采樣模擬信號。由此創(chuàng)建每秒32千字節(jié)的語音數(shù)據(jù),而幀構(gòu)成器406和414每10毫秒創(chuàng)建一新的相應(yīng)幀,每幀包括20毫秒寬的數(shù)據(jù)。
由幀構(gòu)成器406和416提供的每個相應(yīng)數(shù)據(jù)幀分別用快速傅里葉變換(FFT)408和418轉(zhuǎn)換成頻域。
備選傳感器信號和空氣傳導(dǎo)麥克風(fēng)信號的頻域值被提供給無噪聲信號估計器420,以使用頻域值估計無噪聲語音信號324。
在某些實施例的情況下,使用傅里葉反變換422將無噪聲語音信號324轉(zhuǎn)換回時域。這就創(chuàng)建了無噪聲語音信號324的時域版本。
本發(fā)明的各實施例提供了用于估計無噪聲語音信號324的直接濾波技術(shù)。在直接濾波的情況下,備選傳感器的信道響應(yīng)的最大似然估計由最小化與信道響應(yīng)相關(guān)的函數(shù)確定。這些估計然后通過最小化與信道響應(yīng)相關(guān)的函數(shù)而被用于確定無噪聲語音信號的最大似然估計。
在本發(fā)明的一個實施例情況下,對應(yīng)于由備選傳感器檢測的背景語音的信道響應(yīng)G被認為等于零。這就導(dǎo)致在無噪聲語音信號和空氣傳導(dǎo)麥克風(fēng)信號及備選傳感器信號之間的一個模型 y(t)=x(t)+z(t) 式1 b(t)=h(t)*x(t)+w(t)式2 其中,y(t)是空氣傳導(dǎo)麥克風(fēng)信號,b(t)是備選傳感器信號,z(t),是環(huán)境噪聲 w(t)是備選傳感器噪聲,而h(t)是對與備選傳感器關(guān)聯(lián)的無噪聲語音信號的信道響應(yīng)。因此,在式2中,備選傳感器信號被建模為無噪聲語音的經(jīng)濾波版本,其中濾波器具有沖擊響應(yīng)h(t)。
在頻域,式1和式2可表達為 Yt(k)=Xt(k)+Zt(k) 式3 Bt(k)=Ht(k)Xt(k)+Wt(k)式4 其中,符號Yt(k),表示圍繞時間中心t的信號幀的第k次頻率分量。這一符號也應(yīng)用于Xt(k)、Zt(k)、Ht(k)、Wt(k)、和Bt(k)。在下面的討論中,為清楚起見,忽略了對頻率分量中k的引用。然而,本領(lǐng)域的熟練技術(shù)人員將認識到以下執(zhí)行的計算是基于每個頻率分量的。
在這個實施例情況下,噪聲z(t)和w(t)的實部和虛部被建模為獨立零均值的高斯分布如下 式5 式6 其中σz2是噪聲Zt的方差,而σw2是噪聲Wt的方差。Ht也被建模為高斯分布如下 式7 其中H0是信道響應(yīng)的均值而σH2是信道響應(yīng)的方差。
給定這些模型參數(shù)后,無噪聲語音值Xt和信道響應(yīng)Ht的概率由如下條件概率描述 p(Xt,Ht|Yt,Bt,H0,σz2,σw2,σH2) 式8 它正比于; p(Yt,Bt|Xt,Ht,σz2,σw2)p(Ht|H0,σH2)p(Xt)式9 式9又等于 p(Yt|Xt,σz2)p(Bt|Xt,Ht,σw2)p(Ht|H0,σH2)p(Xt) 式10 在一個實施例中信道響應(yīng)的先驗概率p(Ht|H0,σH2)被忽略了而且其余概率的每一個被處理為具有無噪聲語音的先驗概率的高斯分布p(Xt),p(Xt)被處理為具有方差σx,t2的零均值高斯分布如下 式11 使用這一簡化和式10,在t時對于幀Xt的最大似然估計可通過最小化下式確定 式12 由于式12是關(guān)于Xt最小化的,可取關(guān)于Xt的偏導(dǎo)數(shù)以決定最小化函數(shù)的Xt值。具體說,給出 式13 其中Ht*表示Ht的復(fù)共軛而|Ht|表示復(fù)數(shù)值Ht的幅度。信道響應(yīng)Ht是從整個發(fā)音通過最小化下式而確定的 式14 將式13中計算的Xt表達式代入式14,將偏導(dǎo)數(shù)設(shè)為零并且接著假設(shè)H在所有時間幀T上是常數(shù),給出解為 式15 在式15中,H的估計要求以如下形式計算在最后T幀上的若干求和式 式16 其中,st是(σz2|Bt|2-σw2|Yt|2)或Bt*Yt。
用這公式,第一幀(t=1)與最后一幀(t=T)。然而,在其它實施例中,較佳的是最后幀對H估計的比老的幀貢獻更多。一種達到這點的技術(shù)是“指數(shù)老化”,這時式16的求和式被替換為 式17 其中c≤1。如果c=1,則式17等效于式16。如果c<1,則最后一幀被加權(quán)為1,最后幀以前的幀被加權(quán)為c(即,其貢獻小于最后幀),且第一幀用cT-1加權(quán)。(即,其貢獻顯著小于最后幀)。例如,令c=99和T=100,則對第一幀的加權(quán)僅是0.9999=0.37。
在一個實施例情況下,式17被遞歸估計為 S(T)=cS(T-1)+sT 式18 由于式18自動對老幀的加權(quán)較少,不必使用固定的窗口長度,最后T幀的數(shù)據(jù)不必存儲在存儲器中。而是僅在先前幀處的S(T-1)的值需要被存儲。
使用式18,式15變?yōu)? 式19 其中 式20 式21 在式20和式21中的c值提供了用于計算當(dāng)前值J(T)和K(T)的過去幀的數(shù)目的有效長度。具體說,該有效長度給定為 式22 漸近的有效長度給定為 式23 或的等效地, 式24 因而,使用式24,可設(shè)置c以達到式19中的不同有效長度。例如,為了達到200幀的有效長度,c被設(shè)置為 式25 一旦使用式15已估計了H,它可被用于式13中替代所有的Ht以確定在每一時間幀t處Xt的單獨值?;蛘吡硪环矫?,也可用式19來估計每一時間幀t處的Ht,每一幀處的Ht值然后可用于式13中以確定Xt。
圖5提供了使用式13和式15估計針對一發(fā)音的無噪聲語音值的本發(fā)明的一個方法的流程框圖。
在步驟500,空氣傳導(dǎo)麥克風(fēng)信號和備選傳感器信號的幀的頻率分量是跨整個發(fā)音被捕獲的。
在步驟502,環(huán)境噪聲σz2和備選傳感器噪聲σw2的方差可分別從空氣傳導(dǎo)麥克風(fēng)信號和備選傳感器信號的幀確定,它們是在當(dāng)說話者不說話的期間在發(fā)音的早期捕獲的。
該方法通過識別備選傳感器信號的低能量部分而確定何時說話者不說話,因為備選傳感器噪聲的能量比由備選傳感器信號捕獲的語音信號小得多。在其它實施例中,已知的語音檢測技術(shù)可應(yīng)用于空氣傳導(dǎo)麥克風(fēng)信號以識別何時說話者在說話。在說話者被認為不說話的期間,Xt假設(shè)為零且來自空氣傳導(dǎo)麥克風(fēng)或備選傳感器的任何信號都被認為是噪聲。這些噪聲值的采樣是從非語音幀采集的并被用于估計空氣傳導(dǎo)信號和備選傳感器信號中噪聲的方差。
在步驟504,確定無噪聲語音先驗概率分布的方差,σx,t2。在一個實施例情況下,該方差被計算為 式26 其中|Yd|2是空氣傳導(dǎo)信麥克風(fēng)信號的能量而求和是在一組語音幀上執(zhí)行的,該組語音幀包括當(dāng)前語音幀前的k個語音幀和當(dāng)前語音幀后的m個語音幀。為了避免方差σx,t2為負值或零值,本發(fā)明的某些實施例使用(0.01·σv2)作為σx,t2的最低可能值。
在另一個實施例中,實時實現(xiàn)是使用僅依賴于前面語音幀中的無噪聲語音信號的方差的平滑技術(shù)實現(xiàn)的,使得 式27 其中σx,t-12是來自包含語音的最后幀的無噪聲語音先驗概率分布的方差,p是范圍為0到1之間的平滑因子,α是小常數(shù),而max(|Yd|2-σv2,α|Yd|2)表示選擇|Yd|2-σv2和α|Yd|2中的較大者以確保σx,t2為正值。在一特定實施例情況下,平滑因子具有值0.08而α=0.01。
在步驟506,跨發(fā)音的所有幀的備選傳感器信號和空氣傳導(dǎo)麥克風(fēng)信號的值被用于使用上述式15來確定H的值。在步驟508,H的這一值與空氣傳導(dǎo)麥克風(fēng)信號和備選傳感器信號在每個時間幀處的各個值一起被用于使用上述式13確定每個時間幀的增強或減噪的語音值。
在其它實施例中,不是使用發(fā)音的所有幀用式15來確定H的單個值,而是對每個幀使用式19來確定Ht。Ht的值然后被用于使用上述式13對幀計算Xt。
在本發(fā)明的第二實施例中,備選傳感器對環(huán)境噪聲的信道響應(yīng)被認為是非零的。在這一實施例中,空氣傳導(dǎo)麥克風(fēng)信號和備選傳感器信號被建模為 Yt(k)=Xt(k)+Zt(k)式28 Bt(k)=Ht(k)Xt(k)+Gt(k)Zt(k)+Wt(K)式29 其中備選傳感器對環(huán)境噪聲的信道響應(yīng)是非零值Gt(k)。
無噪聲語音Xt的最大似然比可通過最小化目標函數(shù)而找到,導(dǎo)致無噪聲語音的下式成立 式30 為了求解式30,必須知道方差σx,t2、σw2、和σz2以及信道響應(yīng)值H和G。圖6提供了用于識別這些值并確定對于每一幀的增強語音值的流程框圖。
在步驟600,發(fā)音幀被標識出用戶在哪里沒說話。這些幀然后分別被用于確定備選傳感器和環(huán)境噪聲的方差σw2、和σz2。
為了識別用戶在哪里沒說話,可檢查備選傳感器信號。由于備選傳感器信號將產(chǎn)生比噪聲小得多的背景信號值,如果備選傳感器信號的能量較低,可假設(shè)發(fā)言者沒在說話。
在以確定了環(huán)境噪聲和備選傳感器噪聲的方差后,圖6的方法在步驟602繼續(xù),在這里使用上述式26或式27確定無噪聲語音先驗概率的方差σx,t2。如上所述,僅包含語音的這些幀被用于確定先驗無噪聲語音的方差。
在步驟602,標識了用戶在那里沒說話那些幀被用于估計備選傳感器對于環(huán)境噪聲的信道響應(yīng)G。具體說,可確定如下 式31 其中D是用戶在沒說話的幀數(shù)。式31中,假設(shè)G在經(jīng)過發(fā)音的所有幀時保持常數(shù)且不再依賴于時間幀t。式31中,對t的求和可用關(guān)于上述式16-25討論的指數(shù)衰減計算代替。
在步驟606,備選傳感器對于背景語音的信道響應(yīng)的值G用于確定備選傳感器對于無噪聲語音的信道響應(yīng)。具體說,H可計算為 式32 式32中,對t的求和可用關(guān)于上述式16-25討論的遞歸指數(shù)衰減計算代替。在H已在步驟606確定后,式30可用于確定所有幀的無噪聲語音值。在某些實施例情況下,使用式30中,項Bt-GYt可用(

)Bt代替,因為已發(fā)覺精確確定背景語音和其在備選傳感器中的泄漏之間的相位差是困難的。
如果遞歸指數(shù)衰減計算被用于替代式32中的求和,可對每個時間幀確定一個單獨的Ht值并可把它用作式30中的H。
雖然本發(fā)明已參考特定的實施例作了描述,本領(lǐng)域的技術(shù)人員將認識到可在形式和細節(jié)方面做出改變而不脫離本發(fā)明的精神和范圍。
權(quán)利要求
1.一種用于確定表示減噪語音信號一部分的減噪值的估計的方法,所述方法包括
使用除了空氣傳導(dǎo)麥克風(fēng)以外的一個備選傳感器來生成備選傳感器信號;
生成空氣傳導(dǎo)麥克風(fēng)信號;
使用備選傳感器信號和空氣傳導(dǎo)麥克風(fēng)信號來估計所述備選傳感器信號的信道響應(yīng)的值;以及
使用所述信道響應(yīng)和所述減噪值的先驗概率來確定所述減噪值。
2.如權(quán)利要求1所述的方法,其特征在于,減噪值的先驗概率具有由方差定義的一種分布。
3.如權(quán)利要求2所述的方法,進一步包括基于所述空氣傳導(dǎo)麥克風(fēng)信號來確定所述分布的方差。
4.如權(quán)利要求3所述的方法,其特征在于,基于所述空氣傳導(dǎo)麥克風(fēng)信號確定所述方差包括形成所述空氣傳導(dǎo)麥克風(fēng)信號的多個幀的能量值之和。
5.如權(quán)利要求4所述的方法,其特征在于,空氣傳導(dǎo)麥克風(fēng)信號的各幀全部包含語音。
6.如權(quán)利要求3所述的方法,其特征在于,確定所述分布的方差進一步包括基于環(huán)境噪聲的方差確定所述方差。
7.如權(quán)利要求6所述的方法,其特征在于,確定所述分布的方差進一步包括基于所述空氣傳導(dǎo)麥克風(fēng)信號的當(dāng)前幀以及和所述減噪語音信號的前一幀相關(guān)聯(lián)的分布的方差來確定與減噪語音信號的當(dāng)前幀相關(guān)聯(lián)的方差。
8.如權(quán)利要求7所述的方法,其特征在于,確定所述分布的方差進一步包括限制所述方差值使得所述方差總是超過某個最小值。
9.如權(quán)利要求8所述的方法,其特征在于,所述最小值是所述環(huán)境噪聲的方差的一個百分數(shù)。
10.一種具有用于執(zhí)行如下步驟的計算機可執(zhí)行指令的計算機可讀媒體,所述步驟包括
使用備選傳感器信號和空氣傳導(dǎo)麥克風(fēng)信號來確定備選傳感器的信道響應(yīng);以及
使用所述信道響應(yīng)和無噪聲語音值的先驗概率分布來估計無噪聲語音值。
11.如權(quán)利要求10所述的計算機可讀媒體,其特征在于,使用先驗概率分布包括使用所述先驗概率分布的一個方差。
12.如權(quán)利要求11所述的計算機可讀媒體,其特征在于,所述步驟進一步包括基于所述空氣傳導(dǎo)麥克風(fēng)信號確定所述先驗概率分布的方差。
13.如權(quán)利要求12所述的計算機可讀媒體,其特征在于,確定所述先驗概率的方差進一步包括基于環(huán)境噪聲的分布確定所述先驗概率的方差。
14.如權(quán)利要求13所述的計算機可讀媒體,其特征在于,基于所述空氣傳導(dǎo)麥克風(fēng)信號確定所述先驗概率的方差包括形成所述空氣傳導(dǎo)麥克風(fēng)信號的多個幀的能量值之和。
15.如權(quán)利要求13所述的計算機可讀媒體,其特征在于,確定所述先驗概率分布的方差進一步包括基于與較早的無噪聲語音值相關(guān)聯(lián)的先驗概率分布的方差來確定與當(dāng)前無噪聲語音值相關(guān)聯(lián)的所述先驗概率分布的方差。
16.如權(quán)利要求15所述的計算機可讀媒體,其特征在于,確定所述先驗概率分布的方差進一步包括對與較早的無噪聲語音值相關(guān)聯(lián)的先驗概率分布的方差以及空氣傳導(dǎo)麥克風(fēng)信號的一幀的能量和環(huán)境噪聲分布的方差之間的差進行加權(quán)求和。
17.如權(quán)利要求12所述的計算機可讀媒體,其特征在于,確定所述先驗概率分布的方差進一步包括為所述先驗概率分布的方差設(shè)置一最小值。
18.如權(quán)利要求17所述的計算機可讀媒體,其特征在于,所述方差的最小值是環(huán)境噪聲分布的方差的函數(shù)。
19.一種用于識別無噪聲語音信號的無噪聲語音值的方法,所述方法包括
確定備選傳感器對環(huán)境噪聲的信道響應(yīng);以及
使用所述信道響應(yīng)和無噪聲語音值的先驗概率分布來確定無噪聲語音值。
20.如權(quán)利要求19所述的方法,其特征在于,所述先驗概率分布的參數(shù)是根據(jù)空氣傳導(dǎo)麥克風(fēng)信號的值確定的。
全文摘要
一種使用備選傳感器信號、空氣傳導(dǎo)麥克風(fēng)信號來確定備選傳感器信道響應(yīng)的方法和裝置。然后,該信道響應(yīng)和無噪聲語音值的先驗概率分布被用于估計無噪聲語音值。
文檔編號G10L21/02GK101199006SQ200680019528
公開日2008年6月11日 申請日期2006年6月6日 優(yōu)先權(quán)日2005年6月20日
發(fā)明者劉自成, A·艾斯洛, Z·張 申請人:微軟公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
林州市| 田林县| 正宁县| 弥勒县| 泌阳县| 甘谷县| 北宁市| 吉林省| 化德县| 如东县| 蓬溪县| 昭苏县| 新疆| 保亭| 彭阳县| 来宾市| 顺义区| 江油市| 霍城县| 娱乐| 凤阳县| 平安县| 保靖县| 江山市| 唐山市| 万宁市| 雅安市| 保亭| 都昌县| 昌平区| 大关县| 乃东县| 托克托县| 贵港市| 故城县| 古交市| 绩溪县| 丹巴县| 昔阳县| 钟山县| 连江县|