專利名稱:特征向量補(bǔ)償裝置和特征向量補(bǔ)償方法
技術(shù)領(lǐng)域:
本發(fā)明一般涉及語(yǔ)音處理技術(shù),特別是涉及背景噪聲環(huán)境下的語(yǔ)音處理。
背景技術(shù):
在噪聲環(huán)境下的語(yǔ)音識(shí)別中,由于學(xué)習(xí)時(shí)的噪聲環(huán)境與識(shí)別時(shí)的噪聲環(huán)境之間的差異,語(yǔ)音模型的不匹配導(dǎo)致識(shí)別性能降低的問(wèn)題。應(yīng)對(duì)該問(wèn)題的有效方法之一是在Li Deng,Alex Acero,Li Jiang,JashaDroppo and Xuedong Huang,“High-performance robust speechrecognition using stereo training data”,Proceedings of 2001International Conference on Acoustics,Speech,and Signal Processing,pp.301-304中提出的以立體聲為基礎(chǔ)的分段線性環(huán)境補(bǔ)償(stereo-based piecewise linear compensation for environments,SPLICE)方法。
SPLICE方法預(yù)先從一對(duì)干凈語(yǔ)音數(shù)據(jù)和在干凈語(yǔ)音數(shù)據(jù)上疊加了噪聲的噪聲語(yǔ)音數(shù)據(jù)中獲得補(bǔ)償向量,利用該補(bǔ)償向量,使語(yǔ)音識(shí)別時(shí)的特征向量接近干凈語(yǔ)音的特征向量。SPLICE方法也可以被視為降噪的方法。
利用這樣一種補(bǔ)償處理,有報(bào)告稱,即使在培訓(xùn)條件與識(shí)別條件不匹配時(shí),也可以獲得較高的識(shí)別率。
但是,傳統(tǒng)的SPLICE方法僅僅為逐幀地從預(yù)先設(shè)計(jì)的多個(gè)噪聲環(huán)境中選擇的單個(gè)噪聲環(huán)境來(lái)補(bǔ)償特征向量,并且預(yù)先設(shè)計(jì)的噪聲環(huán)境不一定與語(yǔ)音識(shí)別時(shí)的噪聲環(huán)境相匹配。因此,由于聲音模型的不匹配會(huì)導(dǎo)致識(shí)別性能的降低。
而且,由于噪聲環(huán)境的選擇是在10至20毫秒短的每幀內(nèi)進(jìn)行,因此即使當(dāng)相同的環(huán)境持續(xù)一定時(shí)間段,也會(huì)為每幀選擇不同的環(huán)境,從而導(dǎo)致識(shí)別性能的降低。
發(fā)明內(nèi)容
本發(fā)明的第一方面提供一種特征向量補(bǔ)償裝置,用于補(bǔ)償在背景噪聲環(huán)境下的語(yǔ)音處理中使用的語(yǔ)音的特征向量,包括存儲(chǔ)單元,針對(duì)多個(gè)噪聲環(huán)境中的每一個(gè),在其中存儲(chǔ)第一補(bǔ)償向量;特征提取單元,提取輸入語(yǔ)音的特征向量;相似性計(jì)算單元,根據(jù)所提取的特征向量,針對(duì)每個(gè)噪聲環(huán)境計(jì)算相似度,所述相似度表示輸入語(yǔ)音在所述噪聲環(huán)境下產(chǎn)生的確定性;補(bǔ)償向量計(jì)算單元,從所述存儲(chǔ)單元中獲取第一補(bǔ)償向量,根據(jù)所獲取的第一補(bǔ)償向量,計(jì)算作為針對(duì)每個(gè)噪聲環(huán)境的特征向量的補(bǔ)償向量的第二補(bǔ)償向量,并且通過(guò)以相似度作為加權(quán)系數(shù)使計(jì)算出的第二補(bǔ)償向量加權(quán)相加,來(lái)計(jì)算第三補(bǔ)償向量;和補(bǔ)償單元,根據(jù)第三補(bǔ)償向量來(lái)補(bǔ)償所提取的特征向量。
本發(fā)明的第二方面提供一種用于補(bǔ)償在背景噪聲環(huán)境下的語(yǔ)音處理中使用的語(yǔ)音的特征向量的方法,包括以下步驟提取輸入語(yǔ)音的特征向量的步驟;根據(jù)所提取的特征向量,針對(duì)多個(gè)噪聲環(huán)境中的每一個(gè)計(jì)算相似度的步驟,所述相似度表示輸入語(yǔ)音在所述噪聲環(huán)境下產(chǎn)生的確定性;補(bǔ)償向量計(jì)算步驟,包括以下步驟從針對(duì)每個(gè)噪聲環(huán)境在其中存儲(chǔ)第一補(bǔ)償向量的存儲(chǔ)單元中獲取第一補(bǔ)償向量,根據(jù)所獲取的第一補(bǔ)償向量,計(jì)算作為針對(duì)每個(gè)噪聲環(huán)境的特征向量的補(bǔ)償向量的第二補(bǔ)償向量,以及通過(guò)以相似度作為加權(quán)系數(shù)使計(jì)算出的第二補(bǔ)償向量加權(quán)相加,來(lái)計(jì)算第三補(bǔ)償向量;和根據(jù)第三補(bǔ)償向量來(lái)補(bǔ)償所提取的特征向量的步驟。
圖1是本發(fā)明第一實(shí)施方式的特征向量補(bǔ)償裝置的功能框圖。
圖2是第一實(shí)施方式的特征向量補(bǔ)償處理的流程圖。
圖3是本發(fā)明第二實(shí)施方式的特征向量補(bǔ)償裝置的功能框圖。
圖4是第二實(shí)施方式的特征向量補(bǔ)償處理的流程圖。
圖5是用于說(shuō)明第一和第二實(shí)施方式的特征向量補(bǔ)償裝置的硬件結(jié)構(gòu)的示意圖。
具體實(shí)施例方式
以下參照附圖詳細(xì)說(shuō)明本發(fā)明的示例性實(shí)施方式。
本發(fā)明第一實(shí)施方式的特征向量補(bǔ)償裝置預(yù)先為多個(gè)噪聲環(huán)境設(shè)計(jì)補(bǔ)償向量,并將補(bǔ)償向量存儲(chǔ)在存儲(chǔ)單元中,在語(yǔ)音識(shí)別時(shí)計(jì)算輸入語(yǔ)音針對(duì)每個(gè)噪聲環(huán)境的相似度,通過(guò)根據(jù)所計(jì)算的相似度對(duì)噪聲環(huán)境的補(bǔ)償向量進(jìn)行加權(quán)相加來(lái)獲得補(bǔ)償向量,并根據(jù)所獲得的補(bǔ)償向量來(lái)補(bǔ)償特征向量。
圖1是第一實(shí)施方式的特征向量補(bǔ)償裝置100的功能框圖。特征向量補(bǔ)償裝置100包括噪聲環(huán)境存儲(chǔ)單元120、輸入接收單元101、特征提取單元102、相似性計(jì)算單元103、補(bǔ)償向量計(jì)算單元104和特征向量補(bǔ)償單元105。
噪聲環(huán)境存儲(chǔ)單元120在其中存儲(chǔ)利用GMM將多個(gè)噪聲環(huán)境模型化時(shí)的高斯混合模型(Gaussian mixture model,GMM)參數(shù)、以及作為對(duì)應(yīng)于每個(gè)噪聲環(huán)境的特征向量的補(bǔ)償向量而預(yù)先計(jì)算出的補(bǔ)償向量。
根據(jù)第一實(shí)施方式,假設(shè)預(yù)先計(jì)算3個(gè)噪聲環(huán)境的參數(shù),包括噪聲環(huán)境1的參數(shù)121、噪聲環(huán)境2的參數(shù)122和噪聲環(huán)境3的參數(shù)123,并存儲(chǔ)在噪聲環(huán)境存儲(chǔ)單元120中。噪聲環(huán)境的數(shù)量不限于3個(gè),換言之,可以采用任何希望數(shù)量的噪聲環(huán)境作為參考數(shù)據(jù)。
噪聲環(huán)境存儲(chǔ)單元120可以由一般使用的任意記錄介質(zhì)構(gòu)成,例如硬盤(pán)驅(qū)動(dòng)器(HDD)、光盤(pán)、存儲(chǔ)卡和隨機(jī)存取存儲(chǔ)器(RAM)。
輸入接收單元101將從例如麥克風(fēng)等輸入單元(未示出)輸入的語(yǔ)音轉(zhuǎn)換成電信號(hào)(語(yǔ)音數(shù)據(jù)),基于例如脈沖編碼調(diào)制(PCM)對(duì)語(yǔ)音數(shù)據(jù)執(zhí)行模擬-數(shù)字(A/D)轉(zhuǎn)換,從而將模擬數(shù)據(jù)轉(zhuǎn)換成數(shù)字?jǐn)?shù)據(jù),并輸出數(shù)字語(yǔ)音數(shù)據(jù)。輸入接收單元101所執(zhí)行的處理可以通過(guò)使用與傳統(tǒng)技術(shù)的語(yǔ)音信號(hào)數(shù)字處理相同的方法來(lái)實(shí)現(xiàn)。
特征提取單元102將從輸入接收單元101接收到的語(yǔ)音數(shù)據(jù)分割成具有規(guī)定長(zhǎng)度的多個(gè)幀,并提取語(yǔ)音的特征向量。幀的長(zhǎng)度可以是10至20毫秒。根據(jù)第一實(shí)施方式,特征提取單元102提取包含梅爾頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC)的靜態(tài)、Δ和ΔΔ參數(shù)的語(yǔ)音的特征向量。
換言之,特征提取單元102使用對(duì)梅爾濾波器組分析的輸出功率進(jìn)行離散余弦轉(zhuǎn)換的方法,計(jì)算包含13維MFCC、MFCC的Δ和ΔΔ的總共39維特征向量,作為每個(gè)分割幀的特征向量。
特征向量不限于上述的特征向量。換言之,只要代表輸入語(yǔ)音的特征,任何參數(shù)都可以用作特征向量。
相似性計(jì)算單元103根據(jù)由特征提取單元102提取的特征向量,為預(yù)先確定的上述3個(gè)噪聲環(huán)境中的每一個(gè)計(jì)算相似度,該相似度表示輸入語(yǔ)音在每個(gè)噪聲環(huán)境下產(chǎn)生的確定性。
補(bǔ)償向量計(jì)算單元104從噪聲環(huán)境存儲(chǔ)單元120中獲取每個(gè)噪聲環(huán)境的補(bǔ)償向量,并通過(guò)利用由相似性計(jì)算單元103計(jì)算的相似度作為加權(quán)系數(shù),對(duì)所獲取的補(bǔ)償向量進(jìn)行加權(quán)相加,來(lái)計(jì)算輸入語(yǔ)音的特征向量的補(bǔ)償向量。
特征向量補(bǔ)償單元105使用由補(bǔ)償向量計(jì)算單元104計(jì)算的補(bǔ)償向量來(lái)補(bǔ)償輸入語(yǔ)音的特征向量。特征向量補(bǔ)償單元105通過(guò)使補(bǔ)償向量與特征向量相加來(lái)補(bǔ)償特征向量。
圖2是第一實(shí)施方式的特征向量補(bǔ)償處理的流程圖。
首先,輸入接收單元101接收用戶發(fā)出的語(yǔ)音的輸入(步驟S201)。輸入語(yǔ)音由輸入接收單元101轉(zhuǎn)換成數(shù)字語(yǔ)音信號(hào)。
特征提取單元102將語(yǔ)音信號(hào)分割成10毫秒的幀,并提取每幀的特征向量(步驟S202)。特征提取單元102如上所述通過(guò)計(jì)算MFCC的特征向量yt來(lái)提取特征向量。
相似性計(jì)算單元103根據(jù)由特征提取單元102提取的特征向量yt,計(jì)算針對(duì)預(yù)先確定的每個(gè)噪聲環(huán)境的幀的語(yǔ)音的相似度(步驟S203)。當(dāng)噪聲環(huán)境模型為e時(shí),假設(shè)時(shí)刻t的特征向量yt,則將相似度如式(1)所示計(jì)算為噪聲環(huán)境e的事后概率p(e|yt)p(e|yt)=p(yt|e)p(e)p(yt)---(1)]]>其中,p(yt|e)為特征向量yt在噪聲環(huán)境e中出現(xiàn)的概率,p(e)和p(yt)分別是噪聲環(huán)境e的事前概率和特征向量yt的概率。
當(dāng)假設(shè)p(yt)獨(dú)立于噪聲環(huán)境、每個(gè)噪聲環(huán)境的事前概率相同時(shí),事后概率p(e|yt)可以利用式(2)計(jì)算p(e|yt)=αp(yt|e)(2)其中,p(yt|e)和α分別利用式(3)和式(4)計(jì)算p(yt|e)=ΣsN(yt;μs′eΣxe)p(s)---(3)]]>α=1/Σallep(yt|e)---(4)]]>其中,N是高斯分布,p(s)是GMM的每個(gè)分量的事前概率,特征向量yt利用GMM模型化。GMM的參數(shù),即平均向量μ和協(xié)方差矩陣∑,可以利用最大期望(expectation maximization,EM)算法來(lái)計(jì)算。
可以使用將在噪聲環(huán)境中準(zhǔn)備的大量特征向量作為培訓(xùn)數(shù)據(jù)的隱藏式馬可夫模型開(kāi)發(fā)工具(Hidden Markov Model Toolkit,HTK)來(lái)獲得GMM參數(shù)。HTK廣泛應(yīng)用于語(yǔ)音識(shí)別來(lái)培訓(xùn)HMM。
補(bǔ)償向量計(jì)算單元104通過(guò)利用由相似性計(jì)算單元103計(jì)算的相似度作為加權(quán)系數(shù),對(duì)為每個(gè)噪聲環(huán)境預(yù)先計(jì)算的補(bǔ)償向量rse進(jìn)行加權(quán)相加,來(lái)計(jì)算輸入語(yǔ)音的特征向量的補(bǔ)償向量rt(步驟S204)。利用式(5)計(jì)算補(bǔ)償向量rtrt=Σep(e|yt)rte---(5)]]>其中,利用下式計(jì)算rterte=Σsp(s|yt)rse---(6)]]>即,通過(guò)基于與傳統(tǒng)的SPLICE方法相同的方法來(lái)對(duì)預(yù)先計(jì)算的補(bǔ)償向量rse進(jìn)行加權(quán)相加,來(lái)計(jì)算每個(gè)噪聲環(huán)境e的補(bǔ)償向量rte(式(6))。然后,通過(guò)利用相似度作為加權(quán)系數(shù)來(lái)對(duì)每個(gè)噪聲環(huán)境e的補(bǔ)償向量rte進(jìn)行加權(quán)相加,來(lái)計(jì)算輸入語(yǔ)音的特征向量的補(bǔ)償向量rt(式(5))。
可以使用與傳統(tǒng)的SPLICE方法相同的方法來(lái)計(jì)算補(bǔ)償向量rse。對(duì)于給定的大量組(xn,yn),其中n為正整數(shù),xn為干凈語(yǔ)音數(shù)據(jù)的特征向量,yn為每個(gè)噪聲環(huán)境中的噪聲語(yǔ)音數(shù)據(jù)的特征向量,則補(bǔ)償向量rse可以利用式(7)計(jì)算,其中表示噪聲環(huán)境的上標(biāo)“e”被省略,如下所示rs=Σnp(s|yn)(xn-yn)Σnp(s|yn)---(7)]]>其中,利用式(8)計(jì)算p(s|yn)p(s|yn)=p(yn|s)p(s)Σsp(yn|s)p(s)---(8)]]>GMM參數(shù)和以上述方式計(jì)算的補(bǔ)償向量被預(yù)先存儲(chǔ)在噪聲環(huán)境存儲(chǔ)單元120中。因此,在步驟S204中,使用存儲(chǔ)在噪聲環(huán)境存儲(chǔ)單元120中的每個(gè)噪聲環(huán)境的補(bǔ)償向量rse來(lái)計(jì)算補(bǔ)償向量rt。
最后,特征向量補(bǔ)償單元105通過(guò)使由補(bǔ)償向量計(jì)算單元104計(jì)算的補(bǔ)償向量rt與在步驟S202中計(jì)算的特征向量yt相加,來(lái)進(jìn)行特征向量yt的補(bǔ)償(步驟S205)。
以上述方式補(bǔ)償后的特征向量被輸出到語(yǔ)音識(shí)別裝置。使用特征向量的語(yǔ)音處理不限于語(yǔ)音識(shí)別處理。本實(shí)施方式的方法可以應(yīng)用于例如說(shuō)話者識(shí)別等任何類(lèi)型的處理。
這樣,在特征向量補(bǔ)償裝置100中,利用多個(gè)噪聲環(huán)境的線性組合來(lái)近似未知的噪聲環(huán)境,因此,可以以更高的精度來(lái)補(bǔ)償特征向量,從而即使當(dāng)執(zhí)行語(yǔ)音識(shí)別時(shí)的噪聲環(huán)境與進(jìn)行設(shè)計(jì)時(shí)的噪聲環(huán)境不匹配時(shí),也可以以高精度來(lái)計(jì)算特征向量。因此,可以利用特征向量來(lái)實(shí)現(xiàn)較高的語(yǔ)音識(shí)別性能。
在傳統(tǒng)方法的特征向量補(bǔ)償中,僅為輸入語(yǔ)音信號(hào)的每一幀選擇一個(gè)噪聲環(huán)境,當(dāng)在選擇噪聲環(huán)境中存在錯(cuò)誤時(shí),語(yǔ)音識(shí)別性能大大降低。相反,本實(shí)施方式的特征向量補(bǔ)償方法根據(jù)相似度線性地組合多個(gè)噪聲環(huán)境,而不是僅選擇一個(gè)噪聲環(huán)境,從而即使由于某種原因在相似度的計(jì)算中存在錯(cuò)誤,對(duì)于補(bǔ)償向量的計(jì)算的影響也足夠小,從而性能降低程度小。
根據(jù)第一實(shí)施方式,每個(gè)時(shí)刻t的噪聲環(huán)境的相似度僅從時(shí)刻t的特征向量yt獲取,然而,本發(fā)明第二實(shí)施方式的特征向量補(bǔ)償裝置同時(shí)使用時(shí)刻t之前和之后的時(shí)刻的多個(gè)特征向量來(lái)計(jì)算相似度。
圖3是第二實(shí)施方式的特征向量補(bǔ)償裝置300的功能框圖。特征向量補(bǔ)償裝置300包括噪聲環(huán)境存儲(chǔ)單元120、輸入接收單元101、特征提取單元102、相似性計(jì)算單元303、補(bǔ)償向量計(jì)算單元104和特征向量補(bǔ)償單元105。
根據(jù)第二實(shí)施方式,相似性計(jì)算單元303的功能不同于第一實(shí)施方式的相似性計(jì)算單元103。其它單元和功能與圖1所示的第一實(shí)施方式的特征向量補(bǔ)償裝置100相同。對(duì)于具有相同功能的單元,使用相同的附圖標(biāo)記并省略具體的說(shuō)明。
相似性計(jì)算單元303使用多個(gè)幀的時(shí)間窗口中的特征向量來(lái)計(jì)算相似度。
圖4是第二實(shí)施方式的特征向量補(bǔ)償處理的流程圖。
從步驟S401到步驟S402的處理按照與特征向量補(bǔ)償裝置100所執(zhí)行的、從步驟S201到S202的處理相同的方式執(zhí)行,因而省略具體的說(shuō)明。
在步驟S402中提取了特征向量后,相似性計(jì)算單元303計(jì)算所提取的特征向量在每個(gè)噪聲環(huán)境中出現(xiàn)的事件的概率(出現(xiàn)概率)。
接著,相似性計(jì)算單元303使用通過(guò)使在每個(gè)時(shí)刻的幀中計(jì)算出的出現(xiàn)概率進(jìn)行加權(quán)相乘而得到的值,來(lái)計(jì)算時(shí)刻t的幀的歸屬度(步驟S404)。換言之,相似性計(jì)算單元303使用式(9)計(jì)算相似度p(e|yt-a:t+b),其中a和b為正整數(shù),yt-a:t+b是從時(shí)刻t-a到時(shí)刻t+b的特征向量序列。
p(e|yt-a:t+b)=αp(yt-a:t+b|e) (9)
其中,式(9)中的p(yt-a:t+b|e)和α分別利用式(10)和式(11)計(jì)算。
p(yt-a:t+b|e)=Πt=-ab(ΣsN(yt+t;μs′eΣse)p(s))w(T)---(10)]]> 其中,w(τ)是每個(gè)時(shí)刻t+τ的加權(quán)。w(τ)的值例如可以設(shè)定成對(duì)于所有的τ值都為w(τ)=1,或者可以設(shè)定成隨著τ值的絕對(duì)值的增大而減小。然后,可以利用以上述方式計(jì)算的相似度p(e|yt-a:t+b),以與式(5)相同的方式獲得補(bǔ)償向量rt。
即,補(bǔ)償向量計(jì)算單元104使用在步驟S404中計(jì)算的相似度,以與第一實(shí)施方式中的步驟S204相同的方式,計(jì)算補(bǔ)償向量rt(步驟S405)。
特征向量補(bǔ)償單元105以與第一實(shí)施方式中的步驟S205相同的方式,使用補(bǔ)償向量rt來(lái)補(bǔ)償特征向量yt(步驟S406),完成補(bǔ)償特征向量的處理。
這樣,在第二實(shí)施方式的特征向量補(bǔ)償裝置中,利用多個(gè)特征向量來(lái)計(jì)算相似度,因此,可以抑制補(bǔ)償向量的突然變化,從而以較高的精度來(lái)計(jì)算特征向量。因此,可以利用特征向量來(lái)實(shí)現(xiàn)較高的語(yǔ)音識(shí)別性能。
圖5是用于說(shuō)明第一和第二實(shí)施方式中的任意一個(gè)的特征向量補(bǔ)償裝置的硬件結(jié)構(gòu)的示意圖。
特征向量補(bǔ)償裝置包括例如中央處理單元(CPU)51等控制設(shè)備、例如只讀存儲(chǔ)器(ROM)52和隨機(jī)存取存儲(chǔ)器(RAM)53等存儲(chǔ)設(shè)備、用于經(jīng)由網(wǎng)絡(luò)執(zhí)行通信的通信接口(I/F)54和連接上述部件的總線61。
在特征向量補(bǔ)償裝置中執(zhí)行的計(jì)算機(jī)程序(以下稱為“特征向量補(bǔ)償程序”)由預(yù)裝在其中的例如ROM52等存儲(chǔ)設(shè)備提供。
相反,可以通過(guò)將特征向量補(bǔ)償程序作為可安裝格式或可執(zhí)行格式的文件存儲(chǔ)在例如高密度盤(pán)-只讀存儲(chǔ)器(CD-ROM)、軟盤(pán)(FD)、高密度盤(pán)-可記錄(CD-R)和數(shù)字通用盤(pán)(DVD)等計(jì)算機(jī)可讀記錄介質(zhì)中來(lái)提供。
另外可選的是,可以將特征向量補(bǔ)償程序存儲(chǔ)在與因特網(wǎng)等網(wǎng)絡(luò)連接的計(jì)算機(jī)中,以便可以通過(guò)網(wǎng)絡(luò)下載程序。另外可選的是,可以通過(guò)因特網(wǎng)等網(wǎng)絡(luò)來(lái)提供或分配特征向量補(bǔ)償程序。
特征向量補(bǔ)償程序構(gòu)成為模塊結(jié)構(gòu),該模塊結(jié)構(gòu)包括上述功能單元(輸入接收單元、特征提取單元、相似性計(jì)算單元、補(bǔ)償向量計(jì)算單元和特征向量補(bǔ)償單元)。因此,作為實(shí)際的硬件,CPU51從ROM52讀出特征向量補(bǔ)償程序來(lái)執(zhí)行該程序,從而使上述功能單元裝載在計(jì)算機(jī)的主存儲(chǔ)器上,并在主存儲(chǔ)器上生成。
權(quán)利要求
1.一種特征向量補(bǔ)償裝置,用于補(bǔ)償在背景噪聲環(huán)境下的語(yǔ)音處理中使用的語(yǔ)音的特征向量,包括存儲(chǔ)單元,針對(duì)多個(gè)噪聲環(huán)境中的每一個(gè),在其中存儲(chǔ)第一補(bǔ)償向量;特征提取單元,提取輸入語(yǔ)音的特征向量;相似性計(jì)算單元,根據(jù)所提取的特征向量,針對(duì)每個(gè)噪聲環(huán)境計(jì)算相似度,所述相似度表示輸入語(yǔ)音在所述噪聲環(huán)境下產(chǎn)生的確定性;補(bǔ)償向量計(jì)算單元,從所述存儲(chǔ)單元中獲取第一補(bǔ)償向量,根據(jù)所獲取的第一補(bǔ)償向量,計(jì)算作為針對(duì)每個(gè)噪聲環(huán)境的特征向量的補(bǔ)償向量的第二補(bǔ)償向量,并且通過(guò)以相似度作為加權(quán)系數(shù)使計(jì)算出的第二補(bǔ)償向量加權(quán)相加,來(lái)計(jì)算第三補(bǔ)償向量;和補(bǔ)償單元,根據(jù)第三補(bǔ)償向量來(lái)補(bǔ)償所提取的特征向量。
2.如權(quán)利要求1所述的特征向量補(bǔ)償裝置,其中,存儲(chǔ)單元在其中存儲(chǔ)在利用高斯混合模型將噪聲環(huán)境模型化時(shí)取得的參數(shù),相似性計(jì)算單元從存儲(chǔ)單元中獲取所述參數(shù),根據(jù)所獲取的參數(shù),針對(duì)每個(gè)噪聲環(huán)境計(jì)算表示特征向量出現(xiàn)的確定性的第一似然,并且根據(jù)計(jì)算出的第一似然來(lái)計(jì)算相似度。
3.如權(quán)利要求1所述的特征向量補(bǔ)償裝置,其中,補(bǔ)償單元通過(guò)將第三補(bǔ)償向量與特征向量相加來(lái)補(bǔ)償特征向量。
4.如權(quán)利要求1所述的特征向量補(bǔ)償裝置,其中,存儲(chǔ)單元針對(duì)每個(gè)噪聲環(huán)境在其中存儲(chǔ)根據(jù)作為噪聲環(huán)境下的語(yǔ)音的噪聲語(yǔ)音和作為沒(méi)有噪聲的環(huán)境下的語(yǔ)音的干凈語(yǔ)音而計(jì)算出的第一補(bǔ)償向量。
5.如權(quán)利要求1所述的特征向量補(bǔ)償裝置,其中,特征提取單元提取輸入語(yǔ)音的梅爾頻率倒譜系數(shù)作為特征向量。
6.如權(quán)利要求1所述的特征向量補(bǔ)償裝置,其中,相似性計(jì)算單元根據(jù)在第一時(shí)刻之前和之后中的至少一方的預(yù)定范圍內(nèi)的多個(gè)時(shí)刻所提取的多個(gè)特征向量,來(lái)計(jì)算相似度。
7.如權(quán)利要求6所述的特征向量補(bǔ)償裝置,其中,存儲(chǔ)單元在其中存儲(chǔ)在利用高斯混合模型將噪聲環(huán)境模型化時(shí)取得的參數(shù),相似性計(jì)算單元從存儲(chǔ)單元中獲取所述參數(shù),根據(jù)所獲取的參數(shù),對(duì)于包含在所述范圍內(nèi)的每個(gè)時(shí)刻,針對(duì)每個(gè)噪聲環(huán)境計(jì)算表示特征向量出現(xiàn)的確定性的第二似然,通過(guò)利用預(yù)定的第一系數(shù)作為加權(quán)系數(shù)使計(jì)算出的第二似然加權(quán)相乘,來(lái)計(jì)算表示第一時(shí)刻的特征向量出現(xiàn)的確定性的第一似然,并且根據(jù)計(jì)算出的第一似然來(lái)計(jì)算相似度。
8.如權(quán)利要求7所述的特征向量補(bǔ)償裝置,其中,相似性計(jì)算單元計(jì)算作為計(jì)算出的第二似然之積的第一似然,并根據(jù)所計(jì)算的第一似然來(lái)計(jì)算相似度。
9.如權(quán)利要求7所述的特征向量補(bǔ)償裝置,其中,所述第一系數(shù)以下述方式來(lái)預(yù)定針對(duì)與第一時(shí)刻具有較大差異的時(shí)刻的第一系數(shù)的值小于針對(duì)與第一時(shí)刻具有較小差異的時(shí)刻的第一系數(shù)的值。
10.一種用于補(bǔ)償在背景噪聲環(huán)境下的語(yǔ)音處理中使用的語(yǔ)音的特征向量的方法,包括以下步驟提取輸入語(yǔ)音的特征向量的步驟;根據(jù)所提取的特征向量,針對(duì)多個(gè)噪聲環(huán)境中的每一個(gè)計(jì)算相似度的步驟,所述相似度表示輸入語(yǔ)音在所述噪聲環(huán)境下產(chǎn)生的確定性;補(bǔ)償向量計(jì)算步驟,包括以下步驟從針對(duì)每個(gè)噪聲環(huán)境在其中存儲(chǔ)第一補(bǔ)償向量的存儲(chǔ)單元中獲取第一補(bǔ)償向量,根據(jù)所獲取的第一補(bǔ)償向量,計(jì)算作為針對(duì)每個(gè)噪聲環(huán)境的特征向量的補(bǔ)償向量的第二補(bǔ)償向量,以及通過(guò)以相似度作為加權(quán)系數(shù)使計(jì)算出的第二補(bǔ)償向量加權(quán)相加,來(lái)計(jì)算第三補(bǔ)償向量;和根據(jù)第三補(bǔ)償向量來(lái)補(bǔ)償所提取的特征向量的步驟。
全文摘要
本發(fā)明提供一種特征向量補(bǔ)償裝置和特征向量補(bǔ)償方法。其中,特征提取單元提取輸入語(yǔ)音的特征向量。相似性計(jì)算單元根據(jù)特征向量,針對(duì)多個(gè)噪聲環(huán)境中的每一個(gè)計(jì)算相似度。補(bǔ)償向量計(jì)算單元從存儲(chǔ)單元中獲取第一補(bǔ)償向量,根據(jù)第一補(bǔ)償向量計(jì)算第二補(bǔ)償向量,并且通過(guò)以相似度作為加權(quán)系數(shù)使第二補(bǔ)償向量加權(quán)相加,來(lái)計(jì)算第三補(bǔ)償向量。補(bǔ)償單元根據(jù)第三補(bǔ)償向量來(lái)補(bǔ)償特征向量。
文檔編號(hào)G10L15/00GK101051461SQ20071008857
公開(kāi)日2007年10月10日 申請(qǐng)日期2007年3月16日 優(yōu)先權(quán)日2006年4月6日
發(fā)明者赤嶺政巳, 益子貴史, 丹尼爾·巴雷達(dá), 雷姆科·特尤南 申請(qǐng)人:株式會(huì)社東芝