專利名稱:語音識(shí)別中狀態(tài)結(jié)構(gòu)調(diào)整方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種語音識(shí)別領(lǐng)域的狀態(tài)結(jié)構(gòu)調(diào)整算法,具體是一種語音識(shí)別中狀態(tài)結(jié)構(gòu)調(diào)整方法。
背景技術(shù):
九十年代以來,基于連續(xù)概率HMM的非特定人(SI)、大詞匯量連續(xù)語音識(shí)別(LVCSR)獲得了很大的進(jìn)展,為建立更精確的模型,LVCSR系統(tǒng)一般都采用上下文相關(guān)的三音子模型,利用基于聲學(xué)決策樹的狀態(tài)共享策略進(jìn)一步改善模型的性能。同時(shí),在SI系統(tǒng)中,不同說話人的特性差異會(huì)帶來系統(tǒng)性能的降低,這使得說話人自適應(yīng)技術(shù)成為SI系統(tǒng)走向?qū)嵱没年P(guān)鍵。常用的自適應(yīng)方法包括貝葉斯(MAP)方法和最大似然線性回歸(MLLR)方法,都是基于自適應(yīng)語料對(duì)模型的參數(shù)做變換,沒有考慮對(duì)決策樹的結(jié)構(gòu)做自適應(yīng)。決策樹中狀態(tài)之間的合并或分裂是基于訓(xùn)練語料中似然值的變化和采樣數(shù)據(jù)量進(jìn)行的,得到的決策樹的結(jié)構(gòu)并不能有效地反映測試語料的特征,尤其是當(dāng)訓(xùn)練語料與自適應(yīng)語料的特征差別比較大時(shí),這種結(jié)構(gòu)的偏差直接會(huì)導(dǎo)致系統(tǒng)性能的降低。
為了解決訓(xùn)練語料決策樹與測試語料決策樹結(jié)構(gòu)不匹配造成的識(shí)別率的降低,必須對(duì)訓(xùn)練語料決策樹的結(jié)構(gòu)做調(diào)整,由于直接調(diào)整訓(xùn)練語料決策樹結(jié)構(gòu)后,又會(huì)使得決策樹結(jié)構(gòu)與訓(xùn)練語料的不一致,造成模型精度下降。
經(jīng)文獻(xiàn)檢索發(fā)現(xiàn),A.Nakamura在國際聲學(xué)、語音及信號(hào)處理會(huì)議(《ICASSP》,vol.1,pp.649-652,1998)中發(fā)表的“一種在非特定人聲學(xué)建模中調(diào)整高斯混合函數(shù)結(jié)構(gòu)的方法”(Restructuring Gaussian mixture density functions in speakerindependent acoustic models)中提出調(diào)整高斯混合分布函數(shù)方法,在該方案中,對(duì)于給定語音X,t時(shí)刻的觀察矢量ot,對(duì)應(yīng)的實(shí)際高斯函數(shù)為fta(μ,δ2),屬于狀態(tài)sa,而通過維特比(Viterbi)解碼算法得到的識(shí)別的高斯函數(shù)為ftb(μ,δ2),屬于狀態(tài)sb;sa與sb共享高斯函數(shù)ftb(μ,δ2),從而調(diào)整sa中高斯混合的分布函數(shù)。調(diào)整后的狀態(tài)包含不同數(shù)量的高斯函數(shù),某個(gè)高斯函數(shù)可被多個(gè)狀態(tài)共享。然而該方法的訓(xùn)練過程比較隨機(jī),而且這是基于訓(xùn)練語料,在一定程度上不能反映測試語音的信息。
發(fā)明內(nèi)容
本發(fā)明針對(duì)現(xiàn)有技術(shù)中存在的上述不足和缺陷,提供一種語音識(shí)別中狀態(tài)結(jié)構(gòu)調(diào)整方法,使其提高模型對(duì)樣本的后驗(yàn)概率,增強(qiáng)對(duì)自適應(yīng)語料的利用率,并增加狀態(tài)內(nèi)參數(shù)量,擴(kuò)大模型的描述力,對(duì)系統(tǒng)總參數(shù)量的增加有限,從而降低訓(xùn)練語料與測試語料決策樹結(jié)構(gòu)不匹配造成的識(shí)別率的降低。
本發(fā)明是通過以下技術(shù)方案實(shí)現(xiàn)的,根據(jù)狀態(tài)間混淆度,采用混淆狀態(tài)間高斯加權(quán)共享對(duì)狀態(tài)結(jié)構(gòu)進(jìn)行調(diào)整,具體步驟如下(1)建立大詞匯量連續(xù)語音識(shí)別系統(tǒng)語音特征采用12階Mel倒譜特征及短時(shí)能量共13維作為基本特征,加上其一階差分和二階差分,最后特征維數(shù)為39,過程同一般語音識(shí)別。提取訓(xùn)練語音每句話的特征,根據(jù)句子內(nèi)容利用HTK(HMMToolKit)工具首先選擇聲母和帶調(diào)韻母作為基本的建模單元,建立帶調(diào)單音子模型;然后將模型由單音子擴(kuò)展到上下文相關(guān)的三音子模型,三音子模型同時(shí)考慮了不同音節(jié)間左右聲韻母的情況,不同的語境對(duì)應(yīng)不同的三音子模型;最后利用聲學(xué)決策樹對(duì)基于同一個(gè)單音子的所有三音子模型的狀態(tài)進(jìn)行聚類,聚類的后狀態(tài)由單高斯分布逐漸擴(kuò)展到多個(gè)混合高斯分布。
(2)狀態(tài)結(jié)構(gòu)調(diào)整包括利用自適應(yīng)語音對(duì)模型狀態(tài)結(jié)構(gòu)調(diào)整和利用訓(xùn)練語音對(duì)模型狀態(tài)結(jié)構(gòu)調(diào)整。自適應(yīng)語音和測試語音來自同一個(gè)測試者,基線系統(tǒng)識(shí)別自適應(yīng)語音時(shí)出現(xiàn)的錯(cuò)誤同樣會(huì)在基線系統(tǒng)識(shí)別測試語音時(shí)出現(xiàn)。因此,分析基線系統(tǒng)識(shí)別自適應(yīng)語音出時(shí)出現(xiàn)的錯(cuò)誤,對(duì)狀態(tài)結(jié)構(gòu)進(jìn)行適當(dāng)?shù)恼{(diào)整不僅可以提高對(duì)自適應(yīng)語料的利用率,還可以提高模型的后驗(yàn)概率。另一方面,僅利用自適應(yīng)語料對(duì)狀態(tài)結(jié)構(gòu)調(diào)整,狀態(tài)調(diào)整的范圍有限;訓(xùn)練語料來自大量的說話人,發(fā)音具有一定的代表性。因此假設(shè)基線系統(tǒng)在識(shí)別訓(xùn)練語音時(shí)出現(xiàn)的錯(cuò)誤在識(shí)別測試語音時(shí)也會(huì)出現(xiàn),從而可以利用訓(xùn)練語料對(duì)剩余狀態(tài)的結(jié)構(gòu)進(jìn)行調(diào)整。
(3)說話人自適應(yīng)采用最大似然線性回歸算法(MLLR),利用自適應(yīng)語料對(duì)調(diào)整后的模型做自適應(yīng),目的是進(jìn)一步補(bǔ)償狀態(tài)調(diào)整后的模型與測試語音之間的不匹配。
以下對(duì)本發(fā)明作進(jìn)一步的說明,具體內(nèi)容如下1、所述的利用自適應(yīng)語音對(duì)模型狀態(tài)結(jié)構(gòu)調(diào)整,具體步驟是設(shè)HMMs的狀態(tài)集為Ω;自適應(yīng)樣本X={X1,...,Xi,...}對(duì)應(yīng)的狀態(tài)集為Φ。每個(gè)樣本Xi對(duì)應(yīng)的特征矢量為Oi=(o1,...,ot,...,oT)、狀態(tài)集為Φi(ΦiΦ)。根據(jù)樣本Xi的聲學(xué)模型,利用幀同步Viterbi算法得到矢量Oi對(duì)應(yīng)于Φi的狀態(tài)序列Ξ=(si,...,st,...,sT),稱Ξ為實(shí)際的狀態(tài)序列;同樣地根據(jù)Viterbi識(shí)別算法得到Oi對(duì)應(yīng)于狀態(tài)集Ω的狀態(tài)序列Ψ=(r1,...,rt,...,rT),稱Ψ為識(shí)別的狀態(tài)序列。比較這兩組狀態(tài)序列,得到對(duì)應(yīng)于同一矢量ot的兩個(gè)狀態(tài)st和rt,若st≠rt,稱rt為st的混淆狀態(tài),定義兩者的混淆度(confusion)Cst|rt=P(ot|rt)P(ot|st)---(1)]]>因?yàn)闋顟B(tài)st被誤識(shí)成rt,所以當(dāng)st≠rt,忽略語言模型和狀態(tài)音轉(zhuǎn)移概率,有P(ot|rt)>P(ot|st),即Cst|rt>1,]]>從定義(1)可以看出,Cst|rt越大,說明實(shí)際狀態(tài)st被識(shí)別成rt的可能性越大。因此,如果把狀態(tài)rt的混合高斯以加權(quán)的形式與狀態(tài)st共享,改變狀態(tài)st的結(jié)構(gòu),則概率P(ot|st)會(huì)增大,從而可以降低系統(tǒng)的誤識(shí)率,提高模型對(duì)觀察矢量ot的后驗(yàn)概率。
設(shè)狀態(tài)s∈Φ,對(duì)應(yīng)于自適應(yīng)樣本的觀察特征矢量Os;Rs為識(shí)別Os得到的狀態(tài)集(RsΩ),稱Rs為s的相近狀態(tài)集。利用狀態(tài)r(r∈Rs),對(duì)s結(jié)構(gòu)進(jìn)行調(diào)整,調(diào)整后的高斯混合函數(shù)為b(·|s)=Σr∈Rsws|rP(·|r)+w0P(·|s)---(2)]]>式(2)中,取w0=1-D,D為常數(shù);權(quán)值ws|r和概率函數(shù)P(·|r)的計(jì)算公式分別為
ws|r=D·Cs|rΣr∈RsCs|r---(3)]]>P(·|r)=Σl=1Lmr,lN(·|μr,l,Σr,l)---(4)]]>(4)式中L為狀態(tài)調(diào)整前的高斯混合數(shù),μr,l、∑r,l和mr,l分別為多元高斯函數(shù)N(·|μr,l,∑r,l)的均值矢量、對(duì)角協(xié)方差矩陣和權(quán)值。因此,結(jié)構(gòu)調(diào)整后的狀態(tài)存在兩層權(quán)值狀態(tài)內(nèi)權(quán)值mr,l和狀態(tài)間權(quán)值Ws|r,滿足·狀態(tài)內(nèi)權(quán)值Σk=1Kmr,k=1,0≤mr,k≤1.]]>·狀態(tài)間權(quán)值Σr∈Rs′ws|r=1,0≤ws|r≤1,]]>其中Rs′=Rs∪s.
2、所述的利用訓(xùn)練語音對(duì)模型狀態(tài)結(jié)構(gòu)調(diào)整,具體步驟是設(shè)調(diào)整前的狀態(tài)為s,對(duì)數(shù)似然值為L(Os)′=Σo∈Oslog(P(o|s‾)),]]>調(diào)整后似然值的增加ΔL(Os)=L(Os)-L(Os)′,狀態(tài)集Φ對(duì)應(yīng)的平均似然值增加為ΔL=1size(Φ)Σs∈ΦΔL(Os),]]>ΔL將作為閾值在基于訓(xùn)練語音的狀態(tài)結(jié)構(gòu)調(diào)整中使用。
定義狀態(tài)集Ψ(Ψ=Ω-Φ),利用訓(xùn)練語料對(duì)模型狀態(tài)結(jié)構(gòu)做進(jìn)一步調(diào)整,具體步驟是1)對(duì)訓(xùn)練樣本Yi(Yi∈Y)和對(duì)應(yīng)的特征矢量Oi,采用Viterbi解碼算法識(shí)別后得到識(shí)別狀態(tài)序列{η}i;根據(jù)Yi對(duì)應(yīng)的聲學(xué)模型,采用Viterbi幀同步對(duì)觀察序列分段,得到對(duì)應(yīng)于特征矢量Oi的實(shí)際狀態(tài)序列{γ}i。
2)重復(fù)步驟1),完成對(duì)所有訓(xùn)練樣本Y的操作,得到兩類狀態(tài)序列{η}({η}i{η})和{γ}({γ}i{γ})。
3)比較{η}和{γ},確定狀態(tài)s(s∈{γ})的相近狀態(tài)集Rs(Rs{η});計(jì)算狀態(tài)r∈Rs與狀態(tài)s的混淆度Cs|r。根據(jù)混淆度的大小,將狀態(tài)集Rs的元素由大到小排列,并設(shè)狀態(tài)集Rs的大小為Is。
4)對(duì)狀態(tài)s的調(diào)整取前i(0<i<Is)個(gè)狀態(tài)對(duì)s進(jìn)行調(diào)整,計(jì)算似然值的增加ΔLs。如果ΔLs<ΔL,取i=i+1,直到ΔLs>ΔL;如果當(dāng)i=Is時(shí),仍有ΔLs<ΔL,則不對(duì)狀態(tài)s做調(diào)整。
5)重復(fù)步驟3)~4)直至完成對(duì)Ψ中每個(gè)狀態(tài)的結(jié)構(gòu)調(diào)整。
對(duì)增加的狀態(tài)間權(quán)值ws|r重估,使用的目標(biāo)函數(shù)是L(Os)=Σo∈Oslog(P(o|s))---(5)]]>=Σo∈OslogΣr∈Rs′ws|rP(o|r)]]>在求目標(biāo)函數(shù)最大時(shí)的權(quán)值ws|r時(shí),采用期望最大(EM)算法,輔助函數(shù)為Q(ws|r,w‾s|r)=E[logP(Os,s|w‾s|r)|Os,ws|r]---(6)]]>在Σr∈Rs′ws|r=1]]>條件下,上式對(duì)ws|r求導(dǎo),得w‾s|r=Σo∈OsΣk=1Kγ(s,r,k)Σo∈OsΣr∈Rs′Σk=1Kγ(s,r,k)---(7)]]>這里γ(s,r,k)=ws|rmr,kN(o|μr,k,δr,k)Σr∈Rs′Σk=1Kws|rmr,kN(o|μr,k,δr,k),]]>為觀察o(o∈Os)屬于狀態(tài)r中第k個(gè)混合高斯的概率。ws|r就是對(duì)ws|r的更新值。
利用MLLR算法對(duì)狀態(tài)調(diào)整后的模型做自適應(yīng)時(shí),考慮到自適應(yīng)語料的有限性,只對(duì)模型的均值做自適應(yīng),其余參數(shù)保持不變;MLLR算法中的平移矩陣采用對(duì)角平移矩陣,而且在不同目標(biāo)均值之間共享平移矩陣。對(duì)角平移矩陣的估計(jì)是利用共享目標(biāo)分布對(duì)應(yīng)的所有自適應(yīng)數(shù)據(jù),共享的程度和范圍根據(jù)自適應(yīng)數(shù)據(jù)的多少和語音學(xué)分類進(jìn)行調(diào)整。
本發(fā)明易混淆的狀態(tài)間高斯混合函數(shù)共享,因?yàn)橛?xùn)練語音與測試語音決策樹結(jié)構(gòu)不匹配造成的識(shí)別誤差,可以從識(shí)別自適應(yīng)語音時(shí)出現(xiàn)的狀態(tài)混淆中體現(xiàn)出來。例如,用女聲模型識(shí)別男聲語音,當(dāng)狀態(tài)A被識(shí)別成狀態(tài)B(B≠A)時(shí),其中大多數(shù)情況是A和B屬于同一個(gè)決策樹,有些情況是在男聲決策樹中A和B恰恰屬于同一個(gè)葉節(jié)點(diǎn)。因此,本發(fā)明首先采用自適應(yīng)語音對(duì)狀態(tài)結(jié)構(gòu)調(diào)整的方法,然后在此基礎(chǔ)上再利用訓(xùn)練語音擴(kuò)大狀態(tài)調(diào)整的范圍。
本發(fā)明提高了模型對(duì)樣本的后驗(yàn)概率,增強(qiáng)對(duì)自適應(yīng)語料的利用率,并增加狀態(tài)內(nèi)參數(shù)量,擴(kuò)大模型的描述力,對(duì)系統(tǒng)總參數(shù)量的增加有限,從而降低訓(xùn)練語料與測試語料決策樹結(jié)構(gòu)不匹配造成的識(shí)別率的降低。需要說明的是本發(fā)明的保護(hù)范圍不受建模單元大小以及數(shù)量的限制,也不受模型類型的限制,其方法適用于任何其它連續(xù)語音識(shí)別系統(tǒng)。
圖1狀態(tài)結(jié)構(gòu)調(diào)整及說話人自適應(yīng)圖2基于訓(xùn)練語料的狀態(tài)結(jié)構(gòu)調(diào)整圖3狀態(tài)結(jié)構(gòu)調(diào)整系統(tǒng)性能比較圖4狀態(tài)結(jié)構(gòu)調(diào)整系統(tǒng)說話人自適應(yīng)性能比較具體實(shí)施方式
結(jié)合本發(fā)明方法的內(nèi)容提供以下實(shí)施例對(duì)其進(jìn)行進(jìn)一步的理解。
實(shí)施例為更好地理解本發(fā)明的技術(shù)方案,采用連續(xù)語音數(shù)據(jù)庫做實(shí)驗(yàn)進(jìn)一步說明?;€系統(tǒng)F 863的訓(xùn)練集包括F_Tr包含68個(gè)女聲錄音,每人約530句話,共36210句;語音采用16KHz采樣率、16位采樣、幀長25ms、幀移為10ms。提取39維語音特征矢量,包括12維MFCC、1維歸一化能量,以及它們的一階、二階差分。聲學(xué)模型選擇聲母和帶調(diào)韻母作為基本的建模單元,每個(gè)建模單元都用連續(xù)密度的HMM來表示,在本發(fā)明中,基本建模單元見表1(韻母后的數(shù)字代表聲調(diào),數(shù)字5代表輕聲),包括聲母27個(gè),其中g(shù)a、ge、ger、go分別為單音節(jié)a、e、er、o的假定聲母;帶調(diào)韻母157個(gè),其中ib表示在音節(jié)chi、ri、shi和zhi中的韻母,if代表在音節(jié)ci、si和zi中使用的韻母。加一個(gè)靜音(silence)HMM模型,共訓(xùn)練185個(gè)單音子模型,模型的訓(xùn)練方法同一般語音識(shí)別過程。當(dāng)訓(xùn)練模型由單音子擴(kuò)展到三音子后,基于聲學(xué)決策樹,對(duì)三音子模型做狀態(tài)聚類,聚類后的狀態(tài)分布由單個(gè)高斯逐漸擴(kuò)展到8個(gè)混合高斯,系統(tǒng)在識(shí)別過程中沒有應(yīng)用語言模型,實(shí)驗(yàn)僅僅是聲學(xué)層上的結(jié)果。
表1聲學(xué)模型中的聲母和帶調(diào)韻母
男聲測試語料M_Te來自14個(gè)人,每人40句話;男聲自適應(yīng)語料M_Ad來自同樣的14個(gè)測試者,每人40句話,其中測試語音與自適應(yīng)語音之間是獨(dú)立的。利用M_Ad對(duì)F_863做狀態(tài)結(jié)構(gòu)調(diào)整后的模型記為R1_F,在R1_F的基礎(chǔ)上利用F_Tr做進(jìn)一步調(diào)整后的模型記為R2_F,隨自適應(yīng)語句數(shù)量的變化,系統(tǒng)性能的比較如圖3所示。從圖3可以看出,R1_F和R2_F都獲得了比F_863一致提高的識(shí)別率。當(dāng)自適應(yīng)語料較少時(shí),例如只有1、3句時(shí),R1_F中結(jié)構(gòu)調(diào)整過的狀態(tài)數(shù)量有限,其性能的提高也是有限的;而利用訓(xùn)練語料對(duì)剩余狀態(tài)調(diào)整過的R2_F的性能卻有明顯提高,從而說明在利用訓(xùn)練語料對(duì)狀態(tài)結(jié)構(gòu)調(diào)整時(shí)做的假設(shè)是成立的。隨著自適應(yīng)語句的增加,R1_F與R2_F性能開始接近,當(dāng)自適應(yīng)語料足夠多時(shí),R1_F與R2_F將會(huì)保持一致。
對(duì)以上F_863、R1_F和R2_F三個(gè)系統(tǒng)利用男聲自適應(yīng)語音做MLLR說話人自適應(yīng),F(xiàn)_863/MLLR、F_R1/MLLR和F_R2/MLLR的識(shí)別率隨自適應(yīng)句子數(shù)的變化情況如圖4所示。參數(shù)量多的系統(tǒng)做MLLR自適應(yīng)后識(shí)別率會(huì)有顯著提高,相比F_863系統(tǒng),狀態(tài)調(diào)整后的F_R1和F_R2系統(tǒng)不僅大大增加了狀態(tài)內(nèi)的參數(shù)量,而且從調(diào)整狀態(tài)結(jié)構(gòu)的角度間接地對(duì)決策樹結(jié)構(gòu)進(jìn)行了調(diào)整,減少了決策樹結(jié)構(gòu)與測試語音不匹配對(duì)說話人自適應(yīng)的影響,因此F_R1/MLLR,F(xiàn)_R2/MLLR的識(shí)別性能明顯高于F_863/MLLR,從而證明了狀態(tài)調(diào)整算法有利于提高系統(tǒng)的性能。
權(quán)利要求
1.一種語音識(shí)別中狀態(tài)結(jié)構(gòu)調(diào)整方法,其特征在于,根據(jù)狀態(tài)間混淆度,采用混淆狀態(tài)間高斯加權(quán)共享對(duì)狀態(tài)結(jié)構(gòu)進(jìn)行調(diào)整,具體步驟如下(1)建立大詞匯量連續(xù)語音識(shí)別系統(tǒng)語音特征采用12階Mel倒譜特征及短時(shí)能量共13維作為基本特征,加上其一階差分和二階差分,最后特征維數(shù)為39,過程同一般語音識(shí)別,提取訓(xùn)練語音每句話的特征,根據(jù)句子內(nèi)容利用HTK工具首先選擇聲母和帶調(diào)韻母作為基本的建模單元,建立帶調(diào)單音子模型;然后將模型由單音子擴(kuò)展到上下文相關(guān)的三音子模型,三音子模型同時(shí)考慮了音節(jié)間左右聲韻母的情況,語境與三音子模型相對(duì)應(yīng);最后利用聲學(xué)決策樹對(duì)基于同一個(gè)單音子的所有三音子模型的狀態(tài)進(jìn)行聚類,聚類的后狀態(tài)由單高斯分布逐漸擴(kuò)展到多個(gè)混合高斯分布;(2)狀態(tài)結(jié)構(gòu)調(diào)整包括利用自適應(yīng)語音對(duì)模型狀態(tài)結(jié)構(gòu)調(diào)整和利用訓(xùn)練語音對(duì)模型狀態(tài)結(jié)構(gòu)調(diào)整,自適應(yīng)語音和測試語音來自同一個(gè)測試者,基線系統(tǒng)識(shí)別自適應(yīng)語音時(shí)出現(xiàn)的錯(cuò)誤同樣會(huì)在基線系統(tǒng)識(shí)別測試語音時(shí)出現(xiàn),因此,假設(shè)基線系統(tǒng)在識(shí)別訓(xùn)練語音時(shí)出現(xiàn)的錯(cuò)誤在識(shí)別測試語音時(shí)也會(huì)出現(xiàn),從而利用訓(xùn)練語料對(duì)剩余狀態(tài)的結(jié)構(gòu)進(jìn)行調(diào)整;(3)說話人自適應(yīng)采用最大似然線性回歸算法,利用自適應(yīng)語料對(duì)調(diào)整后的模型做自適應(yīng)。
2.根據(jù)權(quán)利要求1所述的語音識(shí)別中狀態(tài)結(jié)構(gòu)調(diào)整方法,其特征是,所述的最大似然線性回歸算法對(duì)狀態(tài)調(diào)整后的模型做自適應(yīng)時(shí),考慮到自適應(yīng)語料的有限性,只對(duì)模型的均值做自適應(yīng),最大似然線性回歸算法中的平移矩陣采用對(duì)角平移矩陣,而且在兩個(gè)以上的目標(biāo)均值之間共享平移矩陣,對(duì)角平移矩陣的估計(jì)是利用共享目標(biāo)分布對(duì)應(yīng)的所有自適應(yīng)數(shù)據(jù),共享的程度和范圍根據(jù)自適應(yīng)數(shù)據(jù)的多少和語音學(xué)分類進(jìn)行調(diào)整。
全文摘要
一種語音識(shí)別領(lǐng)域的語音識(shí)別中狀態(tài)結(jié)構(gòu)調(diào)整方法,具體步驟如下建立大詞匯量連續(xù)語音識(shí)別系統(tǒng)語音特征采用12階Mel倒譜特征及短時(shí)能量共13維作為基本特征,加上其一階差分和二階差分,最后特征維數(shù)為39;狀態(tài)結(jié)構(gòu)調(diào)整包括利用自適應(yīng)語音對(duì)模型狀態(tài)結(jié)構(gòu)調(diào)整和利用訓(xùn)練語音對(duì)模型狀態(tài)結(jié)構(gòu)調(diào)整,假設(shè)基線系統(tǒng)在識(shí)別訓(xùn)練語音時(shí)出現(xiàn)的錯(cuò)誤在識(shí)別測試語音時(shí)也會(huì)出現(xiàn),從而利用訓(xùn)練語料對(duì)剩余狀態(tài)的結(jié)構(gòu)進(jìn)行調(diào)整;說話人自適應(yīng)采用最大似然線性回歸算法,利用自適應(yīng)語料對(duì)調(diào)整后的模型做自適應(yīng)。本發(fā)明提高了模型對(duì)樣本的后驗(yàn)概率,增強(qiáng)對(duì)自適應(yīng)語料的利用率,從而降低訓(xùn)練語料與測試語料決策樹結(jié)構(gòu)不匹配造成的識(shí)別率的降低。
文檔編號(hào)G10L15/06GK1588536SQ20041006679
公開日2005年3月2日 申請(qǐng)日期2004年9月29日 優(yōu)先權(quán)日2004年9月29日
發(fā)明者朱杰, 徐向華 申請(qǐng)人:上海交通大學(xué)