專利名稱:用于確定語音/非語音的裝置和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種用于確定聲信號(hào)是語音信號(hào)還是非語音信號(hào)的裝置和方法。
背景技術(shù):
在一種用于確定聲信號(hào)是語音信號(hào)還是非語音信號(hào)的常規(guī)方法中,從每個(gè)幀的聲信號(hào)中提取特征值,并且通過將該特征值與閾值作比較,來確定該幀的聲信號(hào)是語音信號(hào)還是非語音信號(hào)。所述特征值可以是短期功率(short term power)或者倒頻譜。由于僅從單幀數(shù)據(jù)計(jì)算特征值,其自然不包含任何時(shí)變信息,因此對(duì)于語音/非語音信號(hào)確定的效果不是最佳的。
在N.Binder,K.Markov,R.Gruhn and S.Nakamura,“SPEECH-NON-SPEECH SEPARATION WITH GMMS”AcousticalSociety of Japan 2001 fall season symposium,Vol.1,pp.141-142,2001中公開的方法中,從多個(gè)幀的每個(gè)幀中提取的美爾頻率倒頻譜系數(shù)(MelFrequency Cepstrum Coefficient,MFCC)被結(jié)合以形成向量,并且該向量被用作為特征值。
當(dāng)按照這種方式從多幀的數(shù)據(jù)中計(jì)算出特征向量時(shí),特征向量包含時(shí)變信息,可以從中提取出時(shí)變信息。因此,可以提供這樣的魯棒系統(tǒng),即使聲信號(hào)包含噪聲,其也能夠確定該聲信號(hào)是語音信號(hào)還是非語音信號(hào)。
另一方面,當(dāng)從多幀的數(shù)據(jù)中提取出特征向量時(shí),產(chǎn)生高維的特征向量,并且計(jì)算量也會(huì)不利地增長。一種已知的用于解決這個(gè)問題的方法是把高維特征向量變換成低維特征向量。這種變換可以通過利用變換矩陣進(jìn)行線性變換的方式來實(shí)現(xiàn)。
主分量分析(Principal Component Analysis,PCA)和KL展開(Karhunen-Loeve Expansion)是變換矩陣的例子。例如,已在Ken-ichiroIshii,Naonori Ueda,Eisaku Maeda,and Hiroshi Murase,“Wakari-yasui(comprehensible)Pattern Recognition”,Ohm-sya,August20,1998,ISBN4274131491中公開了一種常規(guī)技術(shù)。
然而,通過學(xué)習(xí)以提供基于通過在變換前學(xué)習(xí)而獲得的樣本的最佳逼近來獲得變換矩陣。因此,在這種技術(shù)中無法選擇最佳變換。
因而,要實(shí)現(xiàn)精確的語音/非語音信號(hào)確定,技術(shù)本身必須能夠?qū)崿F(xiàn)最佳變換,而不用考慮是否要把高維特征向量變換成低維特征向量或者把特定維數(shù)的特征向量變換成維數(shù)相同的另一特征向量。
發(fā)明內(nèi)容
根據(jù)本發(fā)明的一個(gè)方面,語音/非語音確定裝置包括第一存儲(chǔ)單元,用于存儲(chǔ)變換矩陣,其中,基于從通過學(xué)習(xí)獲得的已知樣本計(jì)算的實(shí)際語音/非語音似然來計(jì)算所述變換矩陣;第二存儲(chǔ)單元,用于存儲(chǔ)語音模型和非語音模型,其中,基于存在于所述第一存儲(chǔ)單元中的所述語音/非語音似然來計(jì)算所述語音模型和所述非語音模型;獲取單元,用于獲取聲信號(hào);劃分單元,用于將所述聲信號(hào)劃分成多個(gè)幀;提取單元,用于從所述幀的聲信號(hào)中提取特征向量;變換單元,利用存在于所述第一存儲(chǔ)單元中的所述變換矩陣對(duì)所述特征向量進(jìn)行線性變換,從而獲得經(jīng)線性變換的特征向量;以及確定單元,基于在所述經(jīng)線性變換的特征向量和存在于所述第二存儲(chǔ)單元中的所述語音模型及所述非語音模型之間的比較結(jié)果,確定所述幀中的每個(gè)幀是語音幀還是非語音幀。
根據(jù)本發(fā)明的另一個(gè)方面,一種確定語音/非語音的方法,包括步驟獲取聲信號(hào);將所述聲信號(hào)劃分成多個(gè)幀;從所述幀的聲信號(hào)提取特征向量;利用變換矩陣對(duì)所述特征向量進(jìn)行線性變換,其中該變換矩陣被存儲(chǔ)在第一存儲(chǔ)單元中,并且基于對(duì)于通過學(xué)習(xí)獲得的預(yù)定樣本所計(jì)算的實(shí)際語音/非語音似然來計(jì)算該變換矩陣;以及基于在經(jīng)線性變換的特征向量和語音模型及非語音模型之間的比較結(jié)果,確定所述幀中的幀是語音幀還是非語音幀,其中所述語音模型和所述非語音模型被存儲(chǔ)在第二存儲(chǔ)單元中,并基于存在于所述第一存儲(chǔ)單元中的所述語音/非語音似然來計(jì)算所述語音模型和所述非語音模型。
圖1是根據(jù)本發(fā)明第一實(shí)施例的語音區(qū)間檢測(cè)裝置的框圖;圖2是由圖1所示的語音區(qū)間檢測(cè)裝置執(zhí)行的語音區(qū)間檢測(cè)處理的流程圖;圖3是用于解釋檢測(cè)語音的起點(diǎn)和終點(diǎn)的處理的示意圖;圖4描述了圖1所示的語音區(qū)間檢測(cè)裝置的硬件結(jié)構(gòu);圖5是根據(jù)本發(fā)明第二實(shí)施例的語音區(qū)間檢測(cè)裝置的框圖;圖6是由圖5所示的語音區(qū)間檢測(cè)裝置在學(xué)習(xí)模式下執(zhí)行的參數(shù)更新處理的流程圖。
具體實(shí)施例方式
下面參考附圖對(duì)根據(jù)本發(fā)明的裝置和方法的示例性實(shí)施例進(jìn)行詳細(xì)的描述。本發(fā)明不限于下面所解釋的實(shí)施例。
圖1是根據(jù)本發(fā)明第一實(shí)施例的語音區(qū)間檢測(cè)裝置10的框圖。語音區(qū)間檢測(cè)裝置10包括A/D轉(zhuǎn)換單元100、幀劃分單元102、特征提取單元104、特征變換單元106、模型比較單元108、語音/非語音確定單元110、語音區(qū)間檢測(cè)單元112、特征變換參數(shù)存儲(chǔ)單元120以及語音/非語音確定參數(shù)存儲(chǔ)單元122。
A/D轉(zhuǎn)換單元100通過以特定采樣頻率對(duì)模擬輸入信號(hào)進(jìn)行采樣來將該模擬輸入信號(hào)轉(zhuǎn)換成數(shù)字信號(hào)。幀劃分單元102把所述數(shù)字信號(hào)劃分成特定數(shù)量的幀。特征提取單元104從所述幀的信號(hào)中提取出n維特征向量。
特征變換參數(shù)存儲(chǔ)單元120存儲(chǔ)將被用于變換矩陣的參數(shù)。
特征變換單元106通過使用所述變換矩陣,把所述n維特征向量線性地變換成m維特征向量(m<n)。應(yīng)該注意到,n可以等于m。換句話說,所述特征向量可以被變換成維數(shù)相同但實(shí)質(zhì)上不同的特征向量。
語音/非語音確定參數(shù)存儲(chǔ)單元122存儲(chǔ)語音模型參數(shù)和非語音模型參數(shù)。該語音模型參數(shù)和非語音模型參數(shù)將被與特征向量進(jìn)行比較。
模型比較單元108基于對(duì)所述m維特征向量和通過預(yù)先學(xué)習(xí)獲得的語音模型及非語音模型的比較,來計(jì)算評(píng)價(jià)值。從存在于語音/非語音確定參數(shù)存儲(chǔ)單元122中的所述語音模型參數(shù)和所述非語音模型參數(shù),來確定所述語音模型和所述非語音模型。
語音/非語音確定單元110通過將所述評(píng)價(jià)值與閾值進(jìn)行比較,來確定所述幀中的每一幀是語音幀還是非語音幀。語音區(qū)間檢測(cè)單元112基于由語音/非語音確定單元110獲得的確定結(jié)果,來檢測(cè)聲信號(hào)中的語音區(qū)間。
圖2是由語音區(qū)間檢測(cè)裝置10執(zhí)行的語音區(qū)間檢測(cè)處理的流程圖。首先,A/D轉(zhuǎn)換單元100從將被檢測(cè)的語音區(qū)間中獲得聲信號(hào),并將模擬聲信號(hào)轉(zhuǎn)換成數(shù)字聲信號(hào)(步驟S100)。接下來,幀劃分單元102將該數(shù)字聲信號(hào)劃分成特定數(shù)量的幀(步驟S102)。每幀的長度優(yōu)選地從20毫秒到30毫秒,并且兩個(gè)相鄰幀之間的間隔優(yōu)選地從10毫秒到20毫秒。漢明(Hamming)窗可以被用來將所述數(shù)字聲信號(hào)劃分成幀。
接下來,特征提取單元104從所述幀的聲信號(hào)中提取n維特征向量(步驟S104)。具體而言,首先,從每一幀的聲信號(hào)中提取MFCC。MFCC表示該幀的頻譜特征。在語音識(shí)別領(lǐng)域,MFCC被廣泛用作為特征值。
接下來,用等式1計(jì)算在特定時(shí)間t的函數(shù)增量(function delta)。函數(shù)增量是從對(duì)應(yīng)于時(shí)間t的幀之前和之后的特定數(shù)量,例如3到6,的幀中獲得的頻譜動(dòng)態(tài)特征值。
Δi(t)=Σk=-KKkxi(t+k)Σk=-KKk2---(1)]]>隨后,通過使用等式2從所述增量計(jì)算n維特征向量x(t)。
x(t)=[x1(t),…,xN(t),Δ1(t)…,ΔN(t)]T(2)
在等式1和2中,xi(t)表示i維MFCC;Δi(t)是i維增量特征值;K是用于計(jì)算所述增量的幀的數(shù)量;以及N是維數(shù)。
如等式2所表示的,通過結(jié)合作為靜態(tài)特征值的MFCC和作為動(dòng)態(tài)特征值的函數(shù)增量,來產(chǎn)生特征向量x。此外,特征向量x表示由幀的頻譜信息所反映的特征值。
如上面所解釋的,當(dāng)使用多幀時(shí),可以提取頻譜的時(shí)變信息。也就是說,與包括在從單幀中提取的特征值(例如MFCC)中的信息相比,在時(shí)變信息中包含有能夠更有效地用于進(jìn)行語音/非語音確定的信息。
也可以使用通過結(jié)合多個(gè)單幀特征值來獲得的向量。在這種情況下,在時(shí)間t的特征向量x(t)被表示為z(t)=[x1(t),…,xN(t)]T(3)x(t)=[z(t-Z)T,…,z(t-1)T,z(t)T,z(t+1)T,…,z(t+Z)T]T(4)其中z(t)是在時(shí)間t的MFCC;Z是在結(jié)合對(duì)應(yīng)于時(shí)間t的幀之前和之后的幀時(shí)所使用的幀的數(shù)量。
由等式4表示的特征向量x也結(jié)合了多個(gè)幀的特征值。另外,由等式4表示的特征向量x結(jié)合了包含頻譜的時(shí)變信息的特征值。
雖然MFCC被用作為單幀特征值,但是也可以用FFT功率譜、美爾濾波器組(Mel Filter Bank)分析和LPC倒頻譜的特征值等來代替MFCC。
接下來,特征變換單元106利用存在于特征變換參數(shù)存儲(chǔ)單元120中的變換矩陣,將n維特征向量變換為m維特征向量(m<n)(步驟S106)。
所述特征向量包括基于多個(gè)幀的信息所產(chǎn)生的特征值,其通常是比基于單幀的特征向量更高維的特征向量。因此,為了降低計(jì)算量,特征變換單元106利用下列線性變換將n維特征向量x變換成m維特征向量y(m<n)y=Px (5)其中P是m×n變換矩陣。利用諸如用以提供分布的最佳逼近的PCA或KL展開的方法,通過學(xué)習(xí)獲得變換矩陣P。在后面對(duì)變換矩陣P進(jìn)行描述。
接下來,模型比較單元108利用通過預(yù)先學(xué)習(xí)獲得的m維特征向量和語音/非語音高斯混合模型(Gaussian Mixture Model,GMM),來計(jì)算表示語音的似然(對(duì)數(shù)似然比)的評(píng)價(jià)值LR(步驟S108),如下所示LR=g(y|speech)-g(y|nonspeech) (6)其中g(shù)(|speech)是語音GMM的對(duì)數(shù)似然,g(|nonspeech)是非語音GMM的對(duì)數(shù)似然。
基于利用最大期望算法(Expectation-Maximization algorithm,EMalgorithm)的最大似然準(zhǔn)則,通過學(xué)習(xí)獲得每個(gè)GMM。稍后描述每個(gè)GMM的值。
雖然GMM被用作為語音模型和非語音模型,但是也可以采用任何其它模型。例如,可以使用隱馬爾可夫模型(Hidden Markov Model,HMM)或者VQ碼本來代替GMM。
接下來,語音/非語音確定單元110基于在所述幀的評(píng)價(jià)值LR和閾值θ之間的比較,確定所述幀中的每個(gè)幀是包含語音信號(hào)的語音幀,還是不包含語音信號(hào)的非語音幀(步驟S110),如等式7所示,其中LR表示語音的似然并在步驟S108獲得If(LR>θ)語音If(LR≤θ)非語音 (7)所述閾值θ可以被按照需要進(jìn)行設(shè)置。例如,閾值θ可以被設(shè)置為0。
接下來,語音區(qū)間檢測(cè)單元112基于每個(gè)幀的確定結(jié)果,檢測(cè)輸入信號(hào)的語音區(qū)間的上升沿和下降沿(步驟S112)。語音區(qū)間檢測(cè)處理到此結(jié)束。
圖3是用于解釋對(duì)語音區(qū)間的上升沿和下降沿的檢測(cè)的示意圖。語音區(qū)間檢測(cè)單元112利用有限狀態(tài)自動(dòng)機(jī)(Finite-state Automaton)方法,檢測(cè)語音區(qū)間的上升沿或下降沿。所述自動(dòng)機(jī)基于每個(gè)幀的確定結(jié)果運(yùn)行。
缺省狀態(tài)被設(shè)置為非語音,并且在缺省狀態(tài)中將定時(shí)計(jì)數(shù)器設(shè)置為0。當(dāng)幀的確定結(jié)果表示該幀是語音幀時(shí),定時(shí)計(jì)數(shù)器開始計(jì)時(shí)。當(dāng)確定結(jié)果表示語音幀持續(xù)了預(yù)先指定的時(shí)間時(shí),可以確定語音區(qū)間已開始。也就是說,將那段特定時(shí)間確定為語音的上升沿。當(dāng)確認(rèn)了上升沿時(shí),定時(shí)計(jì)數(shù)器被重置為0,并且開始語音處理操作。另一方面,當(dāng)確定結(jié)果表示該幀是非語音幀時(shí),繼續(xù)計(jì)時(shí)。
在工作模式被切換到語音狀態(tài)之后,當(dāng)確定結(jié)果變成非語音時(shí),定時(shí)計(jì)數(shù)器開始計(jì)時(shí)。當(dāng)確定結(jié)果表示在用于確認(rèn)語音下降沿的預(yù)定時(shí)段內(nèi)為非語音狀態(tài)時(shí),確認(rèn)語音的下降沿。也就是說,確認(rèn)語音的終點(diǎn)。
用于確認(rèn)語音的上升沿和下降沿的時(shí)間可以被按照需要進(jìn)行設(shè)置。例如,用于確認(rèn)上升沿的時(shí)間可以被預(yù)設(shè)為60毫秒,而用于確認(rèn)下降沿的時(shí)間可以被預(yù)設(shè)為80毫秒。
如上所述,通過從每幀的聲音輸入信號(hào)中提取n維特征向量,可以使用特征值的時(shí)變信息。也就是說,與單幀的特征值相比,可以提取出對(duì)于語音/非語音確定處理更有效的特征值。在這種情況下,能夠?qū)崿F(xiàn)更精確的語音/非語音確定。另外,能夠更精確地檢測(cè)語音區(qū)間。
在上面所描述的處理中,利用通過學(xué)習(xí)獲取的樣本,通過學(xué)習(xí)而獲得在特征變換單元106中使用的變換矩陣,即,存儲(chǔ)在特征變換參數(shù)存儲(chǔ)單元120中的變換矩陣的參數(shù)(變換矩陣P的元素)。通過學(xué)習(xí)獲取的樣本是聲信號(hào),并且所述評(píng)價(jià)值是通過與語音/非語音模型進(jìn)行比較而獲知的。
通過學(xué)習(xí)獲取的變換矩陣的參數(shù)被注冊(cè)在特征變換參數(shù)存儲(chǔ)單元120中。變換矩陣P的參數(shù)是變換矩陣的元素;并且GMM的參數(shù)包括均值向量、方差(dispersion)和雙權(quán)重(double weight)。
同樣地,利用通過學(xué)習(xí)獲取的樣本,通過預(yù)先學(xué)習(xí)獲得由模型比較單元108使用的語音/非語音確定參數(shù),或者說,存儲(chǔ)在語音/非語音確定參數(shù)存儲(chǔ)單元122中的語音/非語音確定參數(shù)。通過學(xué)習(xí)獲取的語音/非語音確定參數(shù)(語音/非語音GMM),被注冊(cè)在語音/非語音確定參數(shù)存儲(chǔ)單元122中。
通過將區(qū)別特征提取(Discriminative Feature Extraction,DFE)用作為區(qū)別學(xué)習(xí)方法(discriminative learning method),語音區(qū)間檢測(cè)裝置10獲得變換矩陣P和語音/非語音GMM的最佳參數(shù)。
DFE通過基于最小分類錯(cuò)誤(Minimum Classification Error,MCE)的廣義概率下降(Generalized Probabilistic Descent,GPD)的方式,同時(shí)優(yōu)化特征提取單元(即變換矩陣P)和識(shí)別單元(即語音/非語音GMM)。DFE主要被應(yīng)用于語音識(shí)別和字符識(shí)別,并且已經(jīng)報(bào)告有DFE的有效性。利用了DFE的字符識(shí)別技術(shù),在例如日本專利3537949中進(jìn)行了詳細(xì)描述。下面描述用于確定變換矩陣P和注冊(cè)在語音區(qū)間檢測(cè)裝置10中的語音/非語音GMM的處理。數(shù)據(jù)被分類到兩類中的任一類語音(C1)和非語音(C2)。變換矩陣P和語音/非語音GMM的所有參數(shù)集(變換矩陣的元素,包括均值向量、方差和混合權(quán)重)都被表示為Λ。g1是語音GMM;g2是非語音GMM。
從通過學(xué)習(xí)獲取的樣本中提取的m維特征向量由如下等式8給出y∈Ck(k=1,2) (8)以及,用等式9定義下列等式dk(y;Λ)=-gk(y;Λ)+gi(y;Λ) 其中(i≠k)。
(9)等式9中的dk(y;Λ)是gk和gi之間的對(duì)數(shù)似然。當(dāng)作為通過學(xué)習(xí)獲取的樣本的聲信號(hào)被分類為屬于正確答案類別時(shí),dk(y;Λ)為負(fù)。另一方面,當(dāng)作為通過學(xué)習(xí)獲取的樣本的聲信號(hào)被分類為屬于錯(cuò)誤答案類別時(shí),dk(y;Λ)為正。由于分類錯(cuò)誤(y;Λ)而導(dǎo)致的損失lk由等式10定義lk(y;Λ)=11+exp(-αdk),]]>其中α>0。(10)當(dāng)錯(cuò)誤識(shí)別率較大時(shí),由損失函數(shù)提供的損失lk更接近于1,而當(dāng)錯(cuò)誤率較小時(shí),由損失函數(shù)提供的損失lk更接近于0。進(jìn)行參數(shù)集Λ的學(xué)習(xí),從而降低由損失函數(shù)提供的值。此外,如等式11所示來更新ΛΛ←Λ-ϵ∂lk∂Λ---(11)]]>其中ε是稱作步長參數(shù)的小正數(shù)??梢詢?yōu)化Λ,即,通過預(yù)先學(xué)習(xí)獲取的樣本,以通過對(duì)于通過預(yù)先學(xué)習(xí)獲取的樣本利用等式11對(duì)Λ進(jìn)行更新,來最小化對(duì)于變換矩陣和語音/非語音GMM的參數(shù)的錯(cuò)誤識(shí)別率。
當(dāng)調(diào)整DFE的參數(shù)時(shí),必需設(shè)置變換矩陣和語音/非語音GMM的缺省值。由PCA計(jì)算出的m×n變換矩陣的值被用作為P的缺省值。使用由EM算法計(jì)算出的參數(shù)值作為GMM的缺省值。
如上面所解釋的,可以調(diào)整在將從幀中提取的n維特征向量變換成m維向量(m<n)時(shí)使用的變換矩陣P和語音/非語音GMM的參數(shù),以便利用區(qū)別學(xué)習(xí)方法來最小化錯(cuò)誤識(shí)別率。因此,能夠改善語音/非語音確定的性能。此外,能夠更精確地檢測(cè)語音區(qū)間。
如上面所描述的,可以借助于PCA或KL展開,通過學(xué)習(xí)獲得變換矩陣P的值。也可以用EM算法,通過學(xué)習(xí)獲取語音/非語音確定的參數(shù)。PCA和KL展開建立在通過學(xué)習(xí)獲取的樣本的最佳逼近的基礎(chǔ)上。此外,EM算法建立在通過學(xué)習(xí)獲取的樣本的最大似然準(zhǔn)則的基礎(chǔ)上。對(duì)于語音/非語音確定,這些方法并不是通過學(xué)習(xí)獲取參數(shù)的最佳方法。
與之相對(duì),借助區(qū)別學(xué)習(xí)方法之一的區(qū)別特征提取(DFE)來確定由語音區(qū)間檢測(cè)裝置10使用的變換矩陣P和語音/非語音GMM。因此,能夠更精確地實(shí)現(xiàn)語音區(qū)間的語音/非語音確定和檢測(cè)。
圖4描述了語音區(qū)間檢測(cè)裝置10的硬件結(jié)構(gòu)。語音區(qū)間檢測(cè)裝置10包括只讀存儲(chǔ)器(ROM)52,在其中存儲(chǔ)了用于檢測(cè)語音區(qū)間的計(jì)算機(jī)程序(在下文中稱為“語音區(qū)間檢測(cè)程序”);中央處理單元(CPU)52,其根據(jù)在ROM 52中存儲(chǔ)的程序來控制語音區(qū)間檢測(cè)裝置10的每個(gè)部分;隨機(jī)存取存儲(chǔ)器(RAM)53,在其中存儲(chǔ)了對(duì)語音區(qū)間檢測(cè)裝置10進(jìn)行控制所必需的各種數(shù)據(jù);通信接口(I/F)57,其將語音區(qū)間檢測(cè)裝置10連接到網(wǎng)絡(luò)(未示出);總線62,其將語音區(qū)間檢測(cè)裝置10的不同部分相互連接。
語音區(qū)間檢測(cè)程序被以可安裝或可執(zhí)行的方式存儲(chǔ)在計(jì)算機(jī)可讀記錄介質(zhì)上,該介質(zhì)諸如CD-ROM,軟(R)盤(FD),以及數(shù)字通用光盤(DVD)。
語音區(qū)間檢測(cè)裝置10從記錄介質(zhì)中讀出語音區(qū)間檢測(cè)程序。然后,該程序被上傳到主存儲(chǔ)器(未示出),并且上面所解釋的每個(gè)功能結(jié)構(gòu)都可以在主存儲(chǔ)器上實(shí)現(xiàn)。
也可以將語音區(qū)間檢測(cè)程序存儲(chǔ)到連接于網(wǎng)絡(luò)的計(jì)算機(jī)中,該計(jì)算機(jī)能夠經(jīng)由網(wǎng)絡(luò)下載所述語音區(qū)間檢測(cè)程序,并且該網(wǎng)絡(luò)可以是Internet。
以上參考示例性實(shí)施例解釋了本發(fā)明,但在本發(fā)明的范圍內(nèi)可以進(jìn)行各種變型或替換。
上面已經(jīng)描述了語音區(qū)間檢測(cè)。然而,可以提供一種語音/非語音確定裝置,該裝置僅僅確定聲信號(hào)是語音還是非語音,即,不檢測(cè)語音區(qū)間。該語音/非語音確定裝置不包括圖1中示出的語音區(qū)間檢測(cè)單元112的功能。換句話說,語音/非語音確定裝置輸出聲信號(hào)是語音還是非語音的確定結(jié)果。
圖5是根據(jù)本發(fā)明第二實(shí)施例的語音區(qū)間檢測(cè)裝置20的功能框圖。除了第一實(shí)施例的語音區(qū)間檢測(cè)裝置10的結(jié)構(gòu)之外,語音區(qū)間檢測(cè)裝置20還包括損失計(jì)算單元130和參數(shù)更新單元132。
損失計(jì)算單元130將在特征提取單元104中獲得的m維特征向量分別與語音及非語音模型相比較,然后計(jì)算由等式10所表示的損失。
參數(shù)更新單元132更新存儲(chǔ)在特征變換參數(shù)存儲(chǔ)單元120中的變換矩陣的參數(shù),以及更新存儲(chǔ)在語音/非語音確定參數(shù)存儲(chǔ)單元122中的語音/非語音確定參數(shù),從而最小化由等式10所表示的損失函數(shù)的值。換句話說,參數(shù)更新單元132計(jì)算(更新)等式11中所表示的Λ。
語音區(qū)間檢測(cè)裝置20具有學(xué)習(xí)模式和語音/非語音確定模式。在學(xué)習(xí)模式中,語音區(qū)間檢測(cè)裝置20對(duì)作為通過學(xué)習(xí)獲取的樣本的聲信號(hào)進(jìn)行處理,并且參數(shù)更新單元132更新參數(shù)。
圖6是用于解釋在學(xué)習(xí)模式中對(duì)參數(shù)進(jìn)行更新的處理的流程圖。在學(xué)習(xí)模式中,A/D轉(zhuǎn)換單元100將通過學(xué)習(xí)獲取的樣本從模擬信號(hào)轉(zhuǎn)換成數(shù)字信號(hào)(步驟S100)。接下來,幀劃分單元102和特征提取單元104計(jì)算樣本的n維特征向量(步驟S102和S104)。然后,特征變換單元106產(chǎn)生m維特征向量(步驟S106)。
接下來,損失計(jì)算單元130利用在步驟S106獲取的m維特征向量,計(jì)算出由等式10所表示的損失(步驟S120)。接下來,參數(shù)更新單元132基于損失函數(shù),對(duì)存在于特征變換參數(shù)存儲(chǔ)單元120中的變換矩陣的參數(shù)(變換矩陣P的元素)和存在于語音/非語音確定參數(shù)存儲(chǔ)單元122中的語音/非語音確定參數(shù)(語音GMM和非語音GMM)進(jìn)行更新(步驟S122)。學(xué)習(xí)模式中的參數(shù)更新處理到此結(jié)束。
可以重復(fù)上述過程來優(yōu)化為更適當(dāng)?shù)膮?shù)集Λ,換句話說,用來降低變換矩陣P和語音/非語音GMM的錯(cuò)誤識(shí)別率。
在語音/非語音確定模式中,可以按照與上述參照?qǐng)D2相同的方式對(duì)語音區(qū)間進(jìn)行檢測(cè)。在這種情況下,用變換矩陣P和語音/非語音GMM來檢查聲信號(hào)是語音信號(hào)還是非語音信號(hào)。
具體地,在步驟S106中使用在學(xué)習(xí)模式中所選擇的n維特征向量x。此外,利用在學(xué)習(xí)模式中通過學(xué)習(xí)獲得的變換矩陣P,將向量x變換成m維特征向量。隨后,在步驟S108,利用在學(xué)習(xí)模式中通過學(xué)習(xí)獲得的語音/非語音GMM,計(jì)算出對(duì)數(shù)似然比。
這樣,在學(xué)習(xí)模式中通過學(xué)習(xí)獲得變換矩陣和語音/非語音GMM的參數(shù)。通過借助于區(qū)別學(xué)習(xí)方法調(diào)整變換矩陣和語音/非語音GMM的參數(shù)來最小化錯(cuò)誤識(shí)別率,能夠改善語音/非語音確定性能。也可以改善語音區(qū)間檢測(cè)的性能。
除了上述幾點(diǎn),語音區(qū)間檢測(cè)裝置20的結(jié)構(gòu)和處理步驟與語音區(qū)間檢測(cè)裝置10相同。
本領(lǐng)域技術(shù)人員可以很容易想到本發(fā)明的其它優(yōu)點(diǎn)和變型。因此,本發(fā)明就其更寬的方面而言不受限于在此示出及描述的特定細(xì)節(jié)和代表性實(shí)施例。因而,在不脫離由所附權(quán)利要求及其等同內(nèi)容所定義的一般創(chuàng)造性概念的精神或范圍的情況下,可以對(duì)本發(fā)明作各種變型。
權(quán)利要求
1.一種語音/非語音確定裝置,包括第一存儲(chǔ)單元,用于存儲(chǔ)變換矩陣,其中,基于從通過學(xué)習(xí)獲取的已知樣本計(jì)算的實(shí)際語音/非語音似然來計(jì)算所述變換矩陣;第二存儲(chǔ)單元,用于存儲(chǔ)語音模型和非語音模型,其中,基于存儲(chǔ)在所述第一存儲(chǔ)單元中的所述語音/非語音似然來計(jì)算所述語音模型和所述非語音模型;獲取單元,用于獲取聲信號(hào);劃分單元,用于將所述聲信號(hào)劃分成多個(gè)幀;提取單元,用于從所述幀的聲信號(hào)中提取特征向量;變換單元,用于利用存儲(chǔ)在所述第一存儲(chǔ)單元中的所述變換矩陣來對(duì)所述特征向量進(jìn)行線性變換,從而獲得經(jīng)線性變換的特征向量;以及確定單元,用于基于在所述經(jīng)線性變換的特征向量和存儲(chǔ)在所述第二存儲(chǔ)單元中的所述語音模型及所述非語音模型之間的比較結(jié)果來確定所述幀中的每個(gè)幀是語音幀還是非語音幀。
2.根據(jù)權(quán)利要求1所述的裝置,進(jìn)一步包括比較單元,其將所述經(jīng)線性變換的特征向量與所述語音模型及所述非語音模型進(jìn)行比較,其中,所述確定單元通過將所述比較單元的比較結(jié)果與閾值進(jìn)行比較,來確定所述幀是語音幀還是非語音幀。
3.根據(jù)權(quán)利要求2所述的裝置,進(jìn)一步包括似然計(jì)算單元,用于計(jì)算所述樣本的所述語音/非語音似然;以及第一計(jì)算單元,用于基于所述語音/非語音似然來計(jì)算所述變換矩陣,其中,所述第一存儲(chǔ)單元存儲(chǔ)由所述第一計(jì)算單元計(jì)算的所述變換矩陣。
4.根據(jù)權(quán)利要求3所述的裝置,其中,所述第一計(jì)算單元計(jì)算所述變換矩陣,從而減小為所述樣本計(jì)算的語音/非語音似然與為所述樣本設(shè)置的語音/非語音似然之間的差。
5.根據(jù)權(quán)利要求3所述的裝置,包括學(xué)習(xí)模式和語音/非語音確定模式,其中,當(dāng)處于所述學(xué)習(xí)模式時(shí),所述第一計(jì)算單元計(jì)算所述變換矩陣。
6.根據(jù)權(quán)利要求5所述的裝置,其中,當(dāng)處于所述語音/非語音確定模式時(shí),所述確定單元確定所述幀是語音幀還是非語音幀。
7.根據(jù)權(quán)利要求2所述的裝置,進(jìn)一步包括似然計(jì)算單元,用于計(jì)算所述樣本的所述語音/非語音似然;以及第二計(jì)算單元,用于基于所述語音/非語音似然來計(jì)算所述語音模型和所述非語音模型,其中,所述第二存儲(chǔ)單元存儲(chǔ)由所述第二計(jì)算單元計(jì)算的所述語音模型和所述非語音模型。
8.根據(jù)權(quán)利要求7所述的裝置,其中,所述第二計(jì)算單元計(jì)算所述語音模型和所述非語音模型,以最小化在為所述樣本計(jì)算的語音/非語音似然和為所述樣本設(shè)置的語音/非語音似然之間的差。
9.根據(jù)權(quán)利要求7所述的裝置,包括學(xué)習(xí)模式和語音/非語音確定模式,其中,當(dāng)處于所述學(xué)習(xí)模式時(shí),所述第一計(jì)算單元計(jì)算所述變換矩陣。
10.根據(jù)權(quán)利要求1所述的裝置,其中,所述變換單元將所述特征向量線性變換成更低維的特征向量。
11.根據(jù)權(quán)利要求1所述的裝置,其中,所述提取單元提取結(jié)合了所述聲信號(hào)的靜態(tài)和動(dòng)態(tài)頻譜的n維特征向量。
12.根據(jù)權(quán)利要求1所述的裝置,其中,所述提取單元提取結(jié)合了所述幀的聲信號(hào)的頻譜特征值的n維特征向量。
13.根據(jù)權(quán)利要求1所述的裝置,進(jìn)一步包括檢測(cè)單元,用于基于所述確定單元的確定結(jié)果來檢測(cè)語音區(qū)間。
14.一種確定語音/非語音的方法,包括以下步驟獲取聲信號(hào);將所述聲信號(hào)劃分成多個(gè)幀;從所述幀的聲信號(hào)提取特征向量;利用變換矩陣對(duì)所述特征向量進(jìn)行線性變換,其中該變換矩陣被存儲(chǔ)在第一存儲(chǔ)單元中,并且基于對(duì)于通過學(xué)習(xí)獲取的預(yù)定樣本所計(jì)算的實(shí)際語音/非語音似然來計(jì)算該變換矩陣;以及基于在所述經(jīng)線性變換的特征向量和語音模型及非語音模型之間的比較結(jié)果,確定所述幀中的幀是語音幀還是非語音幀,其中所述語音模型和所述非語音模型被存儲(chǔ)在第二存儲(chǔ)單元中,并且基于存儲(chǔ)在所述第一存儲(chǔ)單元中的所述語音/非語音似然來計(jì)算所述語音模型和所述非語音模型。
15.根據(jù)權(quán)利要求14所述的方法,其中,所述確定步驟包括將所述經(jīng)線性變換的特征向量與所述語音模型及所述非語音模型進(jìn)行比較;以及通過將在所述比較步驟中獲得的比較結(jié)果與閾值進(jìn)行比較,來確定所述幀是語音幀還是非語音幀。
16.根據(jù)權(quán)利要求15所述的方法,進(jìn)一步包括計(jì)算所述樣本的所述語音/非語音似然;基于所述語音/非語音似然來計(jì)算所述變換矩陣;以及將所述變換矩陣保存在所述第一存儲(chǔ)單元中。
17.根據(jù)權(quán)利要求15所述的方法,進(jìn)一步包括計(jì)算所述樣本的所述語音/非語音似然;基于所述語音/非語音似然來計(jì)算所述語音模型和所述非語音模型;以及將所述語音模型和所述非語音模型存儲(chǔ)在所述第二存儲(chǔ)單元中。
18.根據(jù)權(quán)利要求14所述的方法,進(jìn)一步包括將所述特征向量線性地變換成更低維的特征向量。
19.根據(jù)權(quán)利要求14所述的方法,進(jìn)一步包括基于所述確定步驟的確定結(jié)果來檢測(cè)語音區(qū)間。
全文摘要
第一存儲(chǔ)單元存儲(chǔ)變換矩陣,以及第二存儲(chǔ)單元存儲(chǔ)語音模型和非語音模型。劃分單元將聲信號(hào)劃分成多個(gè)幀。提取單元從所述幀的聲信號(hào)提取特征向量,變換單元對(duì)該特征向量進(jìn)行線性變換,以及確定單元確定所述幀中的特定幀是語音幀還是非語音幀。
文檔編號(hào)G10L15/02GK1953050SQ200610144760
公開日2007年4月25日 申請(qǐng)日期2006年10月19日 優(yōu)先權(quán)日2005年10月19日
發(fā)明者山本幸一, 河村聰?shù)?申請(qǐng)人:株式會(huì)社東芝