專利名稱:具有幀相關(guān)性的隱藏馬爾可夫模型的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及隱藏馬爾可夫模型,特別涉及在隱藏馬爾可夫模型中包含幀相關(guān)性。
該馬爾可夫過(guò)程是一個(gè)在分析復(fù)雜系統(tǒng)中有用的概率模型。該過(guò)程可以包括狀態(tài)和/或狀態(tài)轉(zhuǎn)變。狀態(tài)可以包括描述一個(gè)系統(tǒng)的當(dāng)前狀態(tài)的多個(gè)變量的數(shù)值,當(dāng)一個(gè)狀態(tài)改變時(shí),可能出現(xiàn)狀態(tài)轉(zhuǎn)變。馬爾可夫過(guò)程的一個(gè)概率模型僅僅提供每個(gè)可能的已知狀態(tài)改變的當(dāng)前狀態(tài)和概率。因此,作出到該過(guò)程的每個(gè)狀態(tài)的轉(zhuǎn)變以及其將來(lái)的軌跡的概率僅僅取決于當(dāng)前狀態(tài)。一個(gè)隱藏馬爾可夫模型可以被描述為一個(gè)被部分觀測(cè)的隨機(jī)動(dòng)態(tài)系統(tǒng)模型(馬爾可夫),其中一些狀態(tài)信息被遮掩而不能觀看。
該隱藏馬爾可夫模型(HMM)的發(fā)展導(dǎo)致在語(yǔ)音識(shí)別技術(shù)中的實(shí)質(zhì)性進(jìn)步。該進(jìn)步在大詞匯連續(xù)語(yǔ)音識(shí)別(LVCSR)領(lǐng)域中比其他語(yǔ)音識(shí)別領(lǐng)域更加顯著。但是,在隱藏馬爾可夫模型中的多個(gè)假設(shè)仍然被認(rèn)為是對(duì)該模型的潛在有效性的障礙。一個(gè)有問(wèn)題的假設(shè)可能為連續(xù)觀測(cè)是獨(dú)立的并且在一個(gè)狀態(tài)中相同地分布。但是該語(yǔ)音產(chǎn)生過(guò)程的機(jī)制表明該觀測(cè)基本上是從屬的和相關(guān)的。另外,在最大似然性(ML)準(zhǔn)則下,一個(gè)基于HMM的系統(tǒng)依賴于該模型如何能夠表現(xiàn)實(shí)際語(yǔ)音的本質(zhì)。
圖1為根據(jù)本發(fā)明一個(gè)實(shí)施例的一個(gè)基于HMM的環(huán)境中的一個(gè)幀相關(guān)性過(guò)程的流程圖。
圖2為根據(jù)本發(fā)明一個(gè)實(shí)施例的一個(gè)基于HMM的幀相關(guān)性系統(tǒng)的方框圖。
具體實(shí)施例方式
認(rèn)識(shí)到在對(duì)隱藏馬爾可夫模型(HMM)使用不實(shí)際的假設(shè)的語(yǔ)音識(shí)別中的上述困難,本發(fā)明描述一種用于在基于HMM環(huán)境中的幀相關(guān)性的方法和系統(tǒng)。從而為了說(shuō)明而不是限制的目的,本發(fā)明的示意實(shí)施例按照與這種使用方式相一致的方式來(lái)描述,但是顯然本發(fā)明不限于此。
在對(duì)自動(dòng)語(yǔ)音識(shí)別的統(tǒng)計(jì)方法中,最佳的數(shù)學(xué)解決方案希望使得識(shí)別器遵守最大經(jīng)驗(yàn)(maximum a posteriori,MAP)判斷規(guī)則。該MAP判斷規(guī)則可以被表達(dá)為W^=argmaxp(W|O)=argmaxp(O|W)p(W),---[1]]]>其中W為用于給定聲音觀測(cè)O的字串假設(shè),p(O|W)為該聲音模型,并且p(W)=Πi=1Lp(wi|wi-1,...,wi-N)]]>為N元語(yǔ)言模型(N-gram language model)。當(dāng)導(dǎo)出聲音模型分?jǐn)?shù)p(O|W)時(shí),一個(gè)隱藏狀態(tài)序列q1T∈Γ通常被表述為p(O|W)=Σrp(o1T,q1T|W)=Σrp(o1T|q1T,W)·(q1T|W).---[2]]]>因此,假設(shè)該隱藏過(guò)程可以完全考慮到該聲音信號(hào)的條件概率。
在基于幀的HMM方法中,該狀態(tài)序列概率p(q1T|W)可以通過(guò)使用馬爾可夫第一階假設(shè)而改寫為p(q1T|W)=p(q0)Πt=1Tp(qt|qt-1,W)=πq0aq1q1aq1q2...aqr-1qr.---[3]]]>因此,給定一個(gè)隱藏狀態(tài)序列q1T,伴隨著該狀態(tài)序列p(o1T|q1T,W)的聯(lián)合觀測(cè)概率可以被寫為取決于以前的觀測(cè)o1T和狀態(tài)部分序列q1T的個(gè)觀測(cè)矢量ot的概率的乘積。這可以被表達(dá)如下p(o1T|q1T)=Πt=1Tp(ot|o1t,qt,q1t-1).---[4]]]>
為了使得上述方程計(jì)算容易管理(對(duì)于標(biāo)準(zhǔn)HMM),希望作出幀獨(dú)立的假設(shè)。因此,該假設(shè)意味著該觀測(cè)僅僅在統(tǒng)計(jì)上取決于產(chǎn)生它們的狀態(tài),而不取決于以前的觀測(cè)。因此,p(ot|o1t,qt,q1t-1)=p(ot|qt).]]>根據(jù)該幀獨(dú)立假設(shè),該聯(lián)合觀測(cè)概率可以被改寫為p(o1T|q1T)=Πt=1Tp(ot|o1t,qt,q1t-1)=Πt=1Tp(ot|qt).---[5]]]>在最大似然性(ML)標(biāo)準(zhǔn)之下,一個(gè)基于HMM的系統(tǒng)的性能取決于該隱藏馬爾可夫模型如何良好地表現(xiàn)實(shí)際語(yǔ)音的本質(zhì)的特征。為此,人們已經(jīng)嘗試各種方法,以提供幀相關(guān)性的更加實(shí)際的模型。許多這些工作已經(jīng)被投入到對(duì)概率p(ot|ojt-1,qj,λ)的分解。
認(rèn)識(shí)到使用現(xiàn)有模型的上述困難,本說(shuō)明書(shū)描述一種包括具有幀相關(guān)性模擬的新型的隱藏馬爾可夫模型(HMM)的系統(tǒng)和方法。因此,在本系統(tǒng)的一個(gè)實(shí)施例中,在屬于一個(gè)HMM狀態(tài)(或高斯混合)的對(duì)數(shù)倒頻譜(cepstral)矢量的片斷內(nèi)的幀相關(guān)性可以使用一種自動(dòng)回歸(AR)技術(shù)來(lái)模擬。該技術(shù)把幀獨(dú)立的假設(shè)張馳(Relaxation)到用于一個(gè)假設(shè)HMM狀態(tài)的N+1個(gè)連續(xù)幀之間的相關(guān)性。然后,使用該期望值最大(EM)過(guò)程,導(dǎo)出用于包括平均矢量、方差矩陣和一組相關(guān)性矩陣的新的HMM參數(shù)的估計(jì)公式。但是,當(dāng)幀相關(guān)性被忽略時(shí),上述技術(shù)簡(jiǎn)化為標(biāo)準(zhǔn)的隱藏馬爾可夫模型。對(duì)華爾街日志20K的英語(yǔ)任務(wù)的初始實(shí)驗(yàn)表明可以用附加參數(shù)獲得從11.8(基線)減小到11.4的字誤碼率。
1.狀態(tài)相關(guān)的自動(dòng)回歸特征模型在本系統(tǒng)的一個(gè)實(shí)施例中,一個(gè)狀態(tài)相關(guān)的自動(dòng)回歸(AR)模型被用于包括在連續(xù)觀察矢量之間的互相關(guān)。這包括產(chǎn)生具有如下所示的狀態(tài)的觀測(cè)矢量ot=Σi=1Naiot-1+et+nt,---[6]]]>
其中ai為一個(gè)對(duì)角矩陣,使得一個(gè)AR模型應(yīng)用于該矢量ot的每個(gè)分量;et是在該HMM狀態(tài)中的一個(gè)分量相關(guān)的平均矢量;nt為具有零平均值的一個(gè)高斯噪聲,其可以被作為該實(shí)際觀測(cè)ot和預(yù)測(cè)觀測(cè)t之間的一個(gè)誤差。
使用狀態(tài)相關(guān)的自動(dòng)回歸模型來(lái)表現(xiàn)幀相關(guān)性的特征的優(yōu)點(diǎn)包括在該語(yǔ)音產(chǎn)生模型以及其在語(yǔ)音編碼的應(yīng)用程序中提供的優(yōu)點(diǎn)。在時(shí)域中,語(yǔ)音波形直接由激勵(lì)源和聲域所產(chǎn)生。該聲域可以充分地通過(guò)隨時(shí)間變化的自動(dòng)回歸濾波器模型而充分地參數(shù)化。根據(jù)該模型框架,其被稱為線性預(yù)測(cè)編碼,已經(jīng)在語(yǔ)音編碼中作出較大進(jìn)步,以降低位率。在對(duì)數(shù)倒頻譜域中,從語(yǔ)音樣本的一個(gè)窗口提取每個(gè)對(duì)數(shù)倒頻譜幀。
2.幀獨(dú)立假設(shè)的張馳(Relaxation)根據(jù)上述狀態(tài)相關(guān)的自動(dòng)回歸特征模型,可以假設(shè)給定當(dāng)前狀態(tài)qt,以及前N個(gè)幀ot-N,...,ot-1,ot具有相同的分布為nt。該假設(shè)可以用公式表示如下p(ot|o1t-1,qt)=p(nt|ot-Nt-1,qt).---[7]]]>因此,狀態(tài)序列假設(shè)的似然性可以被寫為p(o1T|q1T)=Πt=1Tp(ot|o1t-1,qt,q1t-1)=Πt=1Tp(nt|ot-Nt-1,qt).---[8]]]>3.期望值最大化過(guò)程對(duì)于由高斯混合所模擬的狀態(tài)序列,已經(jīng)示出該似然函數(shù)p(O|W)的最大值化等于函數(shù)Q的最大化,其中Q=Σt=1TΣm=1Mγqt,m(t)lnp(nt|ot-Nt-1,qt).---[9]]]>應(yīng)用狀態(tài)相關(guān)的自動(dòng)回歸特征模型,上述Q函數(shù)可以被改寫為
Q=Σt=1TΣm=1Mγqt,m(t)lnp(nt|ot-Nt-1,qt)---[10]]]>=Σt=1TΣm=1Tγqt,m(t)lnp(ot-Σi=1Nam,iot-1-et,m|qt)]]>=Σt=1TΣm=1Mγm(t)[ln2π|Wm|+(ot-Σi=1Nam,iot-i-et,m)TWm-1(ot-Σt=1Nam,iot-i-et,m)]]]>為了使得Q函數(shù)相對(duì)于混合參數(shù)最大化,可以使用一個(gè)期望值最大化(EM)過(guò)程。對(duì)于每個(gè)發(fā)音,該混合占有率為丟失數(shù)據(jù)。因此,可以用公式表示如下迭代的EM過(guò)程。
期望值步驟給定平均值em、方差Wm和相關(guān)矩陣am,i,可以使用如下正向-反向技術(shù)來(lái)給出所期望的校準(zhǔn)γm(t)γm(t)=p(qs,m|em,t,Wm,am,i,ot-Nt-1)=αm(t)βm(t).---[11]]]>最大化步驟給定丟失數(shù)據(jù)的期望值,對(duì)于混合參數(shù)(平均值、方差和相關(guān)矩陣)的微分Q并且設(shè)置為零給出如下估計(jì)公式em,t=Σt=iTγm(t)(ot-Σi=1Nam,iot-i)Σt=1Tγm(t),---[12]]]>Wm=diag[Σt=1Tγm(t)(ot-Σi=1Nam,iot-i-em,t)(ot-Σi=1Nam,iot-i-em,t)TΣt=1Tγm(t)].]]>對(duì)于對(duì)角矩陣αm,i(1≤i≤N),由來(lái)自對(duì)角矩陣的N個(gè)第k對(duì)角單元形成的矢量可以被估計(jì)為 因此,可以同時(shí)按照單元接著單元的方式使用上述公式來(lái)估計(jì)N個(gè)對(duì)角相關(guān)矩陣。
4.實(shí)施例圖1為在根據(jù)本發(fā)明的實(shí)施例的基于HMM的環(huán)境中的一個(gè)幀相關(guān)性過(guò)程的流程圖。在所示的實(shí)施例中,該基于HMM的幀相關(guān)性過(guò)程被應(yīng)用于語(yǔ)音識(shí)別。但是,應(yīng)當(dāng)知道該幀相關(guān)性可以被用于其他應(yīng)用程序,例如語(yǔ)音合成或音頻處理。
該幀相關(guān)性過(guò)程包括在步驟100計(jì)算該語(yǔ)音的幀獨(dú)立部分。該幀獨(dú)立部分的計(jì)算通過(guò)根據(jù)狀態(tài)相關(guān)的自動(dòng)回歸(AR)模型計(jì)算觀測(cè)矢量而實(shí)現(xiàn)。如上文所述,該狀態(tài)相關(guān)AR模型被用于包括在連續(xù)觀測(cè)矢量之間的相關(guān)性。因此,觀測(cè)矢量被根據(jù)上述方程[6]而產(chǎn)生如下ot=Σi=1Naiot-i+et+nt,]]>其中ai為一個(gè)對(duì)角矩陣,et為在該HMM狀態(tài)中的分量相關(guān)平均矢量,nt為具有零平均值的高斯分布。
在步驟120,該語(yǔ)音的幀獨(dú)立部分被輸入到該高斯模型。然后在步驟104計(jì)算該幀概率。在步驟106,通過(guò)根據(jù)在上述第3節(jié)中所述的步驟使得該期望值最大化而估計(jì)該狀態(tài)相關(guān)的AR系數(shù)。在一個(gè)實(shí)施例中,可以使用上述方程[13]同時(shí)估計(jì)N個(gè)對(duì)角相關(guān)矩陣。
圖2為根據(jù)本發(fā)明一個(gè)實(shí)施例的一個(gè)基于HMM的幀相關(guān)性系統(tǒng)200的方框圖。在所示的實(shí)施例中,該系統(tǒng)200包括一個(gè)自動(dòng)回歸(AR)模擬單元以及一個(gè)期望值最大化單元204。
該AR模擬單元202接收對(duì)角矩陣(ai)、分量相關(guān)的平均矢量(et)以及具有零平均值(nt)的高斯噪聲。然后,該AR功能單元202計(jì)算一個(gè)觀測(cè)矢量(ot)。
該期望值最大化單元204可以包括一個(gè)高斯模型塊206、期望值塊208和最大化塊210。該高斯模型塊206接收所計(jì)算的觀測(cè)矢量(ot)并且計(jì)算幀概率。該觀測(cè)矢量(ot)與平均值(em)、方差(Wm)和相關(guān)性矩陣(am,i)一同被發(fā)送到該期望值塊208,以計(jì)算期望的校準(zhǔn)γm(t)。在一個(gè)實(shí)施例中,該期望值塊208使用正向-反向技術(shù)來(lái)計(jì)算γm(t)。
該最大化塊210接收期望的校準(zhǔn)(γm(t)),并且估計(jì)狀態(tài)相關(guān)的AR系數(shù)(ai)。該系數(shù)可以被表達(dá)為對(duì)角矩陣。
5.實(shí)驗(yàn)的結(jié)果對(duì)一個(gè)大詞匯獨(dú)立于說(shuō)話者的連續(xù)語(yǔ)音識(shí)別任務(wù)執(zhí)行上述模型的應(yīng)用程序。對(duì)華爾街日志20k英語(yǔ)任務(wù)進(jìn)行該實(shí)驗(yàn)。該基線系統(tǒng)是在一個(gè)與性別無(wú)關(guān)的在三音字內(nèi)高斯混合關(guān)聯(lián)狀態(tài)的HMM系統(tǒng)(gender-independent within-word-triphone Gaussian-mixture tiedstate HMM system)。在該模型集合中,每個(gè)語(yǔ)音模型具有三個(gè)出發(fā)狀態(tài)(emitting state)和一個(gè)左到右的拓?fù)?。還使用兩個(gè)靜音模型。第一靜音模型,短促停頓模型,具有可以被忽略的單個(gè)出發(fā)狀態(tài)。第二靜音模型是被用于表示較長(zhǎng)的靜音周期的完全連接樹(shù)出發(fā)狀態(tài)模型。該語(yǔ)音與歸一化的記錄能量(log-energy)和這些參數(shù)的第一和第二微分一同被參數(shù)化為12個(gè)Mel標(biāo)度的對(duì)數(shù)倒頻譜系數(shù)(MFCC)。該參數(shù)化產(chǎn)生一個(gè)39維的特征矢量,對(duì)這些特征矢量應(yīng)用對(duì)數(shù)倒頻譜平均歸一化。該聲音訓(xùn)練數(shù)據(jù)包括來(lái)自SI-284 WSJ0和WSJ1集合的36696的發(fā)音。ICRC大詞匯連續(xù)語(yǔ)音識(shí)別(LVCSR)系統(tǒng)被使用基于判斷樹(shù)的狀態(tài)來(lái)訓(xùn)練,其集中確定6617個(gè)三音狀態(tài)。一個(gè)24k字列表和字典被用于該三元語(yǔ)言模型。使用一個(gè)動(dòng)態(tài)網(wǎng)絡(luò)解碼器執(zhí)行所有解碼。
對(duì)于上述考慮的模型的特定應(yīng)用,與該單音相關(guān)的基于上下文的聲音的狀態(tài)被分配到對(duì)角相關(guān)性矩陣的相同集合。自動(dòng)回歸特征模型的級(jí)別被選擇為3。因此,這僅僅導(dǎo)致117個(gè)附加參數(shù)。在構(gòu)建該相關(guān)性矩陣的過(guò)程中,分量的最終數(shù)目被混合。從標(biāo)準(zhǔn)到新的隱藏馬爾可夫模型的轉(zhuǎn)換通過(guò)把117個(gè)附加相關(guān)性參數(shù)設(shè)置為0而實(shí)現(xiàn)。最后,執(zhí)行嵌入的正向-反向重新估計(jì)的5次迭代。
該實(shí)驗(yàn)的結(jié)果在表1中比較。該結(jié)果表明該平均字錯(cuò)誤率(WER)從11.8(基線)減小到11.4。另外,在該表格中的數(shù)據(jù)表明通過(guò)使用本系統(tǒng),用于大部分議話者的WER被減小。
表1標(biāo)準(zhǔn)系統(tǒng)和幀相關(guān)系統(tǒng)對(duì)于333個(gè)測(cè)試發(fā)音的性能盡管本發(fā)明的特定實(shí)施例已經(jīng)被示出和描述,但是該描述僅僅用于說(shuō)明的目的而不是用于限制。相應(yīng)地,在該詳細(xì)描述中,為了說(shuō)明,設(shè)置各種具體細(xì)節(jié),以提供對(duì)本發(fā)明的徹底理解。但是,本領(lǐng)域的普通技術(shù)人員顯然可以看出沒(méi)有這些具體細(xì)節(jié)也可以實(shí)現(xiàn)該系統(tǒng)和方法。例如,盡管所示實(shí)施例和例子通過(guò)用于語(yǔ)音識(shí)別而描述在隱藏馬爾可夫過(guò)程中模擬幀相關(guān)性,所示的幀相關(guān)性方法可以被用于其他應(yīng)用程序,例如語(yǔ)音合成和/或音頻處理。在其他實(shí)例中,沒(méi)有詳細(xì)描述公知的結(jié)構(gòu)和功能,以避免對(duì)本發(fā)明的主旨造成混淆。相應(yīng)地,本發(fā)明的范圍和精神應(yīng)當(dāng)由所附的權(quán)利要求來(lái)確定。
權(quán)利要求
1.一種用于在一個(gè)隱藏馬爾可夫模型中包含幀相關(guān)性的方法,其中包括計(jì)算一個(gè)語(yǔ)音的幀獨(dú)立部分;把一個(gè)語(yǔ)音的幀獨(dú)立部分輸入到一個(gè)高斯模型;計(jì)算幀概率;以及估計(jì)自動(dòng)回歸系數(shù)。
2.根據(jù)權(quán)利要求1所述的方法,其中所述計(jì)算語(yǔ)音的幀獨(dú)立部分包括計(jì)算一個(gè)觀測(cè)矢量。
3.根據(jù)權(quán)利要求2所述的方法,其中所述觀測(cè)矢量基于狀態(tài)相關(guān)的自動(dòng)回歸(AR)模型。
4.根據(jù)權(quán)利要求2所述的方法,其中用于一個(gè)當(dāng)前狀態(tài)的所述觀測(cè)矢量是通過(guò)對(duì)角矩陣與以前觀測(cè)的矢量的乘積之和并且把該乘積之和與一個(gè)平均矢量相加而計(jì)算。
5.根據(jù)權(quán)利要求4所述的方法,其中進(jìn)一步包括把一個(gè)高斯噪聲與所述觀測(cè)矢量相加。
6.根據(jù)權(quán)利要求5所述的方法,其中所述高斯噪聲具有一個(gè)零平均值。
7.根據(jù)權(quán)利要求1所述的方法,其中所述計(jì)算幀概率包括使得一個(gè)狀態(tài)序列的似然性最大化。
8.根據(jù)權(quán)利要求1所述的方法,其中所述計(jì)算幀概率包括使得一個(gè)Q函數(shù)最大化。
9.根據(jù)權(quán)利要求8所述的方法,其中所述使得一個(gè)Q函數(shù)最大化包括迭代期望值最大化過(guò)程。
10.根據(jù)權(quán)利要求9所述的方法,其中所述期望值最大化包括用公式表示數(shù)據(jù)的期望值。
11.根據(jù)權(quán)利要求9所述的方法,其中所述用公式表示數(shù)據(jù)的期望值包括接收平均值、方差以及相關(guān)性矩陣,并且計(jì)算所期望的校準(zhǔn)。
12.根據(jù)權(quán)利要求11所述的方法,其中所述計(jì)算期望的校準(zhǔn)包括使用正向-反向技術(shù)。
13.根據(jù)權(quán)利要求9所述的方法,其中所述期望值最大化包括執(zhí)行Q函數(shù)最大化。
14.根據(jù)權(quán)利要求13所述的方法,其中所述執(zhí)行Q函數(shù)最大化包括接收平均值、方差和相關(guān)性矩陣,并且對(duì)于該平均值、方差和相關(guān)性矩陣對(duì)該Q函數(shù)求微分,并且把該Q函數(shù)設(shè)置為等于零,以估計(jì)用于該平均值和方差的新數(shù)值。
15.根據(jù)權(quán)利要求11所述的方法,其中所述估計(jì)自動(dòng)回歸系數(shù)包括使用所估計(jì)的平均值、方差和一個(gè)期望的校準(zhǔn)估計(jì)一組互相關(guān)矩陣。
16.一種計(jì)算機(jī)可讀介質(zhì)包括可執(zhí)行的指令,其中當(dāng)該指令在一個(gè)處理系統(tǒng)中執(zhí)行時(shí),使得該系統(tǒng)把幀相關(guān)性包含到一個(gè)隱藏馬爾可夫模型中,其中包括計(jì)算一個(gè)語(yǔ)音的幀獨(dú)立部分;把一個(gè)語(yǔ)音的幀獨(dú)立部分輸入到一個(gè)高斯模型;計(jì)算幀概率;以及估計(jì)自動(dòng)回歸系數(shù)。
17.根據(jù)權(quán)利要求16所述的計(jì)算機(jī)可讀介質(zhì),其中所述計(jì)算語(yǔ)音的幀獨(dú)立部分包括計(jì)算一個(gè)觀測(cè)矢量。
18.一種用于隱藏馬爾可夫模型的幀相關(guān)性系統(tǒng),其中包括用于計(jì)算一個(gè)語(yǔ)音的幀獨(dú)立部分的裝置;把一個(gè)語(yǔ)音的幀獨(dú)立部分輸入到一個(gè)高斯模型的裝置;計(jì)算幀概率的裝置;以及估計(jì)自動(dòng)回歸系數(shù)的裝置。
19.根據(jù)權(quán)利要求18所述的系統(tǒng),其中所述用于計(jì)算語(yǔ)音的幀獨(dú)立部分的裝置包括一個(gè)觀測(cè)矢量計(jì)算機(jī)。
20.一種用于把幀相關(guān)性包含到一個(gè)隱藏馬爾可夫模型的系統(tǒng),其中包括用于計(jì)算觀測(cè)矢量的自動(dòng)回歸模擬單元;以及估計(jì)用于對(duì)該自動(dòng)回歸模擬單元的系數(shù)的一個(gè)期望值最大化單元。
21.根據(jù)權(quán)利要求20所述的系統(tǒng),其中所述期望值最大化單元包括一個(gè)高斯模型塊、一個(gè)期望值塊和一個(gè)最大化塊。
22.根據(jù)權(quán)利要求21所述的系統(tǒng),其中所述高斯模型塊接收所述觀測(cè)矢量,并且計(jì)算一個(gè)幀概率。
23.根據(jù)權(quán)利要求21所述的系統(tǒng),其中所述期望值塊接收一個(gè)平均值和方差,并且計(jì)算一個(gè)期望的校準(zhǔn)。
24.根據(jù)權(quán)利要求23所述的系統(tǒng),其中所述最大化塊接收該期望的校準(zhǔn),并且估計(jì)用于該自動(dòng)回歸模擬單元的系數(shù)。
全文摘要
在此公開(kāi)一種用于在隱藏馬爾可夫模型中包含幀相關(guān)性的方法和系統(tǒng)。該方法包括計(jì)算語(yǔ)音的幀獨(dú)立部分,把該幀獨(dú)立部分輸入到一個(gè)高斯模型,并且計(jì)算幀概率。然后從該幀概率計(jì)算自動(dòng)回歸系數(shù)。
文檔編號(hào)G10L15/14GK1545695SQ01823553
公開(kāi)日2004年11月10日 申請(qǐng)日期2001年6月22日 優(yōu)先權(quán)日2001年6月22日
發(fā)明者李錦宇, 賈穎 申請(qǐng)人:英特爾公司, 英特爾中國(guó)有限公司