專利名稱:語音識別的隱馬爾可夫模型邊緣化解碼數(shù)據(jù)重建方法
技術(shù)領(lǐng)域:
本發(fā)明方法涉及到計算機技術(shù)應(yīng)用技術(shù),特別是語音識別技術(shù)中根據(jù)未受噪聲掩蔽的語音特征,利用邊緣化Viterbi解碼過程估計受噪聲破壞的語音特征的技術(shù)。
當兩個響度不等的聲音作用于人耳時,響度較高的頻率成分的存在會影響到對響度較低的頻率成分的感知,使其變得不易察覺,這種現(xiàn)象稱為掩蔽效應(yīng)。根據(jù)人耳掩蔽效應(yīng),人們提出了數(shù)據(jù)重建方法。數(shù)據(jù)重建方法認為噪聲和語音在時間-頻率域上不同區(qū)域具有不同局部信噪比,并進行缺失分量估計,即把局部信噪比較低的區(qū)域標記為“缺失矢量”,而局部信噪比較高的區(qū)域標記為“可靠矢量”,然后重建“缺失矢量”,得到完整矢量后進行語音識別。
20世紀90年代后期以來,根據(jù)“可靠矢量”重建“缺失矢量”的技術(shù)受到很多研究人員的關(guān)注。傳統(tǒng)的數(shù)據(jù)重建方法假設(shè)語音的特征矢量可以用N個高斯模型的碼書進行單碼字量化,并根據(jù)高斯模型集的參數(shù)分布,重建“缺失矢量”。國內(nèi)外相關(guān)的工作很多,典型技術(shù)可以總結(jié)如下
基于聚類的數(shù)據(jù)重建(Cluster-Based Reconstruction)算法(或者基于高斯模型集的數(shù)據(jù)重建算法)假設(shè)所有語音特征都來自N個高斯模型構(gòu)成的高斯模型集。缺失分量估計后,基于高斯模型集的數(shù)據(jù)重建算法首先根據(jù)“可靠矢量”估計語音特征在高斯模型集中所屬高斯模型,然后根據(jù)模型概率分布和“可靠矢量”,按照最大后驗概率準則(MAP),估計出“缺失矢量”。
基于混合高斯模型(Gaussian Mixuture Model,GMM)的數(shù)據(jù)重建算法利用GMM模型來描述語音特征矢量。利用噪聲數(shù)據(jù)統(tǒng)計模型對GMM模型進行補償,基于統(tǒng)計方法進行缺失分量估計,并以GMM模型均值作為“缺失矢量”的估計。
語音特征的時域動態(tài)特性在語音識別中具有重要作用,而基于高斯模型集和GMM模型的數(shù)據(jù)重建算法對每個語音特征獨立地進行數(shù)據(jù)重建,沒有考慮語音特征矢量在時域上的動態(tài)特性,具有一定的局限性。
假設(shè)自動機開始時刻t=1,則在以后每一個時刻t>1,自動機所處的狀態(tài)以概率方式取決于初始狀態(tài)概率矢量a和狀態(tài)轉(zhuǎn)移概率矩陣A。a是一個L維矢量,a=[a1,...,aL],其中,ai表示在開始時刻,自動機處于狀態(tài)Qi的概率,表示為ai=P(x1=Qi)(1≤i≤L)(1)狀態(tài)轉(zhuǎn)移概率矩陣A是一個(L*L)維方陣,它的每一個元素用Aij來表示,其意義是在相鄰兩個時刻,系統(tǒng)狀態(tài)從Qi轉(zhuǎn)移到Qj的概率,表示為Aij=P(xt=Qj/xt-1=Qi)(T>1,1≤i,j≤L)(2)顯然有Σj=1LAij=1,∀i(1≤i,j≤L).......(3)]]>因此,對于任何t>1時刻,自動機所處狀態(tài)xt只取決于系統(tǒng)在前一時刻所處的狀態(tài)xt-1。從時刻1到時刻T,狀態(tài)序列[x1,x2,...xT]構(gòu)成了一條一階馬爾可夫鏈。
在任意時刻,當系統(tǒng)處于狀態(tài)Qi時,觀測到美子帶特征S的概率表示為bi(S)=PQi(S)=P(S/x=Qi)(1≤i≤L)......(4)]]>L個狀態(tài)的概率分布構(gòu)成一個L維矢量B,表示為B=[b1(S),...,bi(S),...bL(S)](5)中心極限定理說明,如果一個隨機變量是由大量相互獨立的隨機因素的綜合影響所形成,而且每個因素在總的影響中所起的作用都很微小的情況下,隨機變量的分布往往近似的服從高斯分布(正態(tài)分布)。因此,高斯模型是最常用的概率分布模型,得到了廣泛的應(yīng)用。假設(shè)在每個狀態(tài),純凈語音特征矢量的分布符合高斯分布PMj(S)=exp{-12(s-μj)tθj-1(s-μj)}(2π)n2|θj|12........(6)]]>其中,μj,θj是第j個狀態(tài)的高斯模型的均值矢量和協(xié)方差矩陣(1jL),n是語音特征矢量維數(shù),L是隱馬爾可夫模型的狀態(tài)數(shù)。算法描述為估計最優(yōu)狀態(tài)序列[x1,x2,...,xT],定義 其意義是尋找一條從時刻1到時刻t的最優(yōu)狀態(tài)序列,使系統(tǒng)在t時刻的狀態(tài)為Qi,并且該狀態(tài)序列產(chǎn)生“可靠矢量”序列[S1o,S2o,...,Sto]的概率最大,φt(i)是這種情況下的最大概率。已知φt(i)的情況下,很容易求解φt+1(j) 此外,假設(shè)Ψt+1(j)表示從時刻1到時刻t+1最優(yōu)狀態(tài)序列[x1,x2,...,xt,xt+1=Qj]中,t時刻所處的狀態(tài)xt的編號。表示為 基于邊緣化解碼過程的數(shù)據(jù)重建(VITDI)算法按如下步驟進行1)初始化δ1(i)=aibi(s1o)]]>(1≤i≤L)(4-53)Ψ1(i)=0其中,ai表示初始狀態(tài)為狀態(tài)i的概率,bi(s1o)表示系統(tǒng)處于狀態(tài)i的情況下,觀測到“可靠矢量”s1o的概率,即bi(s1)對s1o的邊緣化概率bi(s1o)=PQi(S1o)=∫PQi(S1)dSm=∫PQi(S1oSm)dSm.....(4-54)]]>2)遞推 其中,Aij表示系統(tǒng)從狀態(tài)i轉(zhuǎn)移到狀態(tài)j的概率,bj(sto)表示系統(tǒng)處于狀態(tài)j的情況下,觀測到“可靠矢量”sto的概率,即bj(st)對sto的邊緣化概率bj(sto)=PQj(Sto)=∫PQj(St)dSm=∫PQi(StoSm)dSm.....(4-56)]]>3)終止 4)回溯,獲取最優(yōu)狀態(tài)序列qt*=ψi+1(qt+1*)(t=T-1,…,1)........(4-58)]]>5)MAP重建“缺失矢量”在時刻t,St所屬狀態(tài)xt確定后,基于最大概率準則(MAP)重建“缺失矢量”的實質(zhì)是估計“缺失矢量”Stm,使狀態(tài)xt產(chǎn)生語音特征矢量(S=[StoStm])的概率 最大S^tm=argmaxSm(bxt(StoStm))......(4-59)]]>假設(shè)在每個狀態(tài)下,特征矢量分布為單高斯分布,即bi(S)=PQi(S)=exp{-12(S-μi)tθt-1(S-μi)}(2π)2++|θi|2+.....(4-60)]]>其中,n是語音特征矢量維數(shù),μi,θi是隱馬爾可夫模型中第i個狀態(tài)的均值矢量和協(xié)方差矩陣(1iL)。
根據(jù)狀態(tài)分布為單高斯分布假設(shè),求解式(4-46),得到S^tm=μxtm+θxtmoθxtoo-1(So-μxto)........(4-61)]]>其中,xt表示系統(tǒng)在時刻t系統(tǒng)所處的狀態(tài); 表示狀態(tài)xt下,“可靠矢量”的均值矢量; 表示狀態(tài)xt下,“缺失矢量”的均值矢量; 表示狀態(tài)xt下,“可靠矢量”的協(xié)方差矩陣; 表示狀態(tài)xt下,“可靠矢量”和“缺失矢量”間的協(xié)方差矩陣。
最后,得到重建后的完整矢量S^t=[StoS^tm].]]>語音特征矢量隱馬爾可夫模型的狀態(tài)轉(zhuǎn)移概率的分布很不均勻某些狀態(tài)間的轉(zhuǎn)移概率較大;某些狀態(tài)發(fā)生轉(zhuǎn)移的概率較小。很多狀態(tài)之間的轉(zhuǎn)移概率很小,甚至為0。為了解決這個問題,可以調(diào)整狀態(tài)轉(zhuǎn)移矩陣,不允許出現(xiàn)轉(zhuǎn)移概率為0的情況當轉(zhuǎn)移概率為0時,用一個很小的概率來代替。同時,為了解決由于精度不夠?qū)е掠嬎氵^程中出現(xiàn)的下溢問題,在遞推過程中使用對數(shù)概率取代普通概率。
本發(fā)明能顯著提高語音識別系統(tǒng)對噪聲的魯棒性能。
人耳對聲音的感知具有明顯的非線性特性,在語音特征中融入一些反映人耳聽覺特性的因素能夠顯著提高語音識別系統(tǒng)的性能,考慮到聽覺系統(tǒng)的臨界帶效應(yīng),通常選用在美頻率域上均勻分布的三角濾波器組對語音特征矢量進行子帶特征分析,在語音識別技術(shù)中得到了廣泛的應(yīng)用。下面,將以語音美(Mel)子帶特征矢量的數(shù)據(jù)重建為例來說明基于隱馬爾可夫模型邊緣化Viterbi解碼的數(shù)據(jù)重建算法。
經(jīng)過缺失分量估計,語音特征S分為兩個矢量“缺失矢量”Sm和“可靠矢量”So,
圖1給出了對含噪語音(高斯白噪聲、Babble噪聲,SNR=15dB)的缺失分量估計結(jié)果。
含噪語音的缺失分量估計,缺失分量估計結(jié)果圖中空白部分表示該部分語音受到噪聲的嚴重破壞,屬于“缺失矢量”,保留下來的是未受噪聲嚴重破壞的“可靠矢量”。(A)列是對受Babble噪聲破壞的語音進行理想缺失分量估計的結(jié)果,(B)列是對受高斯白噪聲破壞的語音進行理想缺失分量估計的結(jié)果(圖中的漢語語音是“談到汽車定點(tan2 dao4 qi4 chel ding4 dian3)”)從圖1可以看出,噪聲破壞了純凈語音特征矢量的形態(tài)和分布,由于噪聲特性和強度的不同,不同的噪聲對語音特征的破壞作用也不同。
缺失分量估計完成后,根據(jù)“可靠矢量”和高斯模型集分布,按基于隱馬爾可夫模型邊緣化Viterbi解碼的數(shù)據(jù)重建算法重建出完整特征矢量,如圖2所示,含噪語音經(jīng)過理想缺失分量估計、基于隱馬爾可夫模型邊緣化Viterbi解碼過程的數(shù)據(jù)重建實驗結(jié)果,(A)列是對受Babble噪聲破壞的語音進行數(shù)據(jù)重建的結(jié)果,(B)列是對受高斯白噪聲破壞的語音進行數(shù)據(jù)重建的結(jié)果(圖中的漢語語音是“談到汽車定點(tan2 dao4 qi4 chel ding4 dian3)”)從圖2可以看出,基于隱馬爾可夫模型邊緣化Viterbi解碼的數(shù)據(jù)重建算法利用HMM模型描述了相鄰美子帶特征之間的統(tǒng)計信息,利用邊緣化Viterbi解碼過程估計產(chǎn)生語音特征矢量的全局最優(yōu)狀態(tài)序列,能夠較好的重建出受噪聲破壞的美子帶特征。重建后的美子帶特征較好的重現(xiàn)了原始純凈語音段美子帶特征的形態(tài)和分布,因此能夠提高語音識別系統(tǒng)的噪聲魯棒性能。
權(quán)利要求
1.一種語音識別的基于隱馬爾可夫模型邊緣化解碼的數(shù)據(jù)重建方法,其特征在于,利用隱馬爾可夫模型轉(zhuǎn)移概率矩陣來描述語音特征矢量在時域上的動態(tài)特性,利用全協(xié)方差矩陣來描述語音美子帶特征矢量各分量之間的相關(guān)特性,根據(jù)邊緣化解碼過程估計產(chǎn)生語音特征矢量的最優(yōu)狀態(tài)序列,并基于最大后驗概率估計準則重建出“缺失矢量”。
2.如權(quán)利要求1所述的數(shù)據(jù)重建方法,其特征在于,所述語音特征矢量隱馬爾可夫模型的狀態(tài)分布可以用單高斯分布進行描述。
3.如權(quán)利要求1所述的數(shù)據(jù)重建方法,其特征在于,基于邊緣化解碼過程的數(shù)據(jù)重建算法,按如下步驟進行第一步,初始化δ1(i)=aibi(s1o)]]>(1≤i≤L)Ψ1(i)=0其中,ai表示初始狀態(tài)為狀態(tài)i的概率,bi(s1o)表示系統(tǒng)處于狀態(tài)i的情況下,觀測到“可靠矢量”s1o的概率,即bi(s1)對s1o的邊緣化概率bi(s1o)=PQi(S1o)=∫PQi(S1)dsm=∫PQi(S1oSm)dSm]]>第二步,遞推 (2≤t≤T,1≤j≤L) (2≤t≤T,1≤j≤L)其中,Aij表示系統(tǒng)從狀態(tài)i轉(zhuǎn)移到狀態(tài)j的概率,bj(sto)表示系統(tǒng)處于狀態(tài)j的情況下,觀測到“可靠矢量”sto的概率,即bj(st)對sto的邊緣化概率bj(sto)=PQj(Sto)=∫PQj(St)dSm=∫PQi(StoSm)dSm]]>第三步,終止 第四步,回溯,獲取最優(yōu)狀態(tài)序列qt*=ψt+1(qt+1*)(t=T-1,…,1)]]>第五步,MAP重建“缺失矢量”在時刻t,St所屬狀態(tài)xt確定后,基于最大概率準則(MAP)重建“缺失矢量”的實質(zhì)是估計“缺失矢量”Stm,使狀態(tài)xt產(chǎn)生語音特征矢量(S=[StoStm])的概率 最大S^tm=argmaxSm(bxt(StoStm))]]>在每個狀態(tài)下,特征矢量分布為單高斯分布,即bi(S)=PQi(S)=exp{-12(S-μi)tθi-1(S-μi)}(2π)n2|θi|12]]>其中,n是語音特征矢量維數(shù),μi,θi是隱馬爾可夫模型中第i個狀態(tài)的均值矢量和協(xié)方差矩陣(1iL)。根據(jù)狀態(tài)分布為單高斯分布假設(shè),求解,得到S^tm=μxtm+θxtmoθxtoo-1(So-μxto)....(4-61)]]>其中,xt表示系統(tǒng)在時刻t系統(tǒng)所處的狀態(tài); 表示狀態(tài)xt下,“可靠矢量”的均值矢量; 表示狀態(tài)xt下,“缺失矢量”的均值矢量; 表示狀態(tài)xt下,“可靠矢量”的協(xié)方差矩陣; 表示狀態(tài)xt下,“可靠矢量”和“缺失矢量”間的協(xié)方差矩陣。第六步,得到重建后的完整矢量S^t=[StoS^tm].]]>
4.如權(quán)利要求3所述的數(shù)據(jù)重建方法,其特征在于,算法步驟中所列 其中,Ψt+1(j)表示從時刻1到時刻t+1最優(yōu)狀態(tài)序列中,t時刻所處的狀態(tài)xt的編號。
5.如權(quán)利要求1所述的數(shù)據(jù)重建方法,其特征在于,可以調(diào)整狀態(tài)轉(zhuǎn)移矩陣,不允許出現(xiàn)轉(zhuǎn)移概率為0的情況當轉(zhuǎn)移概率為0時,用一個很小的概率來代替;同時,為了解決由于精度不夠?qū)е掠嬎氵^程中出現(xiàn)的下溢問題,在遞推過程中使用對數(shù)概率取代普通概率。
全文摘要
本發(fā)明方法涉及到計算機技術(shù)應(yīng)用技術(shù)。本發(fā)明利用隱馬爾可夫模型(HMM)轉(zhuǎn)移概率矩陣來描述語音特征矢量在時域上的動態(tài)特性,利用全協(xié)方差矩陣來描述語音美子帶特征矢量各分量之間的相關(guān)特性,基于邊緣化Viterbi解碼過程的數(shù)據(jù)重建(VITDI)算法根據(jù)邊緣化Viterbi解碼過程估計產(chǎn)生語音特征矢量的最優(yōu)狀態(tài)序列,并基于最大后驗概率估計(MAP)準則重建出“缺失矢量”。本發(fā)明算法較好的描述了相鄰美子帶特征之間的統(tǒng)計信息,并利用邊緣化Viterbi解碼過程估計產(chǎn)生語音特征矢量的全局最優(yōu)狀態(tài)序列,因此能夠較好的重建出受噪聲破壞的美子帶特征,提高了語音識別系統(tǒng)的噪聲魯棒性能。
文檔編號G10L15/20GK1475987SQ0314747
公開日2004年2月18日 申請日期2003年7月14日 優(yōu)先權(quán)日2003年7月14日
發(fā)明者杜利民, 羅宇 申請人:中國科學(xué)院聲學(xué)研究所