專(zhuān)利名稱(chēng):語(yǔ)速自適應(yīng)的語(yǔ)音識(shí)別系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種語(yǔ)音識(shí)別技術(shù)領(lǐng)域中的語(yǔ)速自適應(yīng)的語(yǔ)音識(shí)別系統(tǒng)。
背景技術(shù):
在連續(xù)語(yǔ)音中,不同說(shuō)話(huà)者由于說(shuō)話(huà)習(xí)慣不一樣,說(shuō)話(huà)速度會(huì)有比較大的差異。即使同一個(gè)人的說(shuō)話(huà)速度也會(huì)因?yàn)榄h(huán)境、心情等的不同有差異。這種差異在日常生活中是普遍存在的。偏離正常語(yǔ)速過(guò)大往往會(huì)造成識(shí)別錯(cuò)誤的增加,過(guò)快的語(yǔ)速會(huì)使刪除錯(cuò)誤增加,過(guò)慢的語(yǔ)速會(huì)造成插入錯(cuò)誤增加,錯(cuò)誤的分割點(diǎn)也會(huì)使替代錯(cuò)誤增加,從而使識(shí)別性能下降。因此對(duì)如何進(jìn)行語(yǔ)速自適應(yīng),減少偏離正常語(yǔ)速的情況下過(guò)大的插入錯(cuò)誤或者刪除錯(cuò)誤并進(jìn)一步降低識(shí)別錯(cuò)誤進(jìn)行了研究。
已有的對(duì)語(yǔ)速自適應(yīng)的技術(shù)主要分為兩類(lèi)。
一類(lèi)經(jīng)典HMM(隱含馬爾可夫模型)為識(shí)別模型的系統(tǒng)。轉(zhuǎn)移概率為模型的基本參數(shù),這種模型通過(guò)改變轉(zhuǎn)移概率大小的方法對(duì)語(yǔ)速進(jìn)行自適應(yīng)增大狀態(tài)的自轉(zhuǎn)移概率并減小離開(kāi)的轉(zhuǎn)移概率以適應(yīng)慢速的情況;對(duì)轉(zhuǎn)移概率作相反的變化,則能適應(yīng)快速的情況。
另一類(lèi)是以DDBHMM(基于段長(zhǎng)分布的隱含馬爾可夫模型)為識(shí)別模型的系統(tǒng),即在HMM中顯式的使用了段長(zhǎng)概率而不是轉(zhuǎn)移概率,這種模型主要是通過(guò)對(duì)段長(zhǎng)進(jìn)行調(diào)整的方式來(lái)達(dá)到適應(yīng)語(yǔ)速的目的。一種做法采用分類(lèi)段長(zhǎng),即根據(jù)語(yǔ)速將訓(xùn)練數(shù)據(jù)分成慢速、適中語(yǔ)速和快速三類(lèi),并分別統(tǒng)計(jì)這三類(lèi)語(yǔ)速下的段長(zhǎng)信息;識(shí)別時(shí)先利用先驗(yàn)知識(shí)判斷待識(shí)別的語(yǔ)句的語(yǔ)速,再采用相應(yīng)語(yǔ)速情況下的段長(zhǎng)信息進(jìn)行識(shí)別。這種將訓(xùn)練數(shù)據(jù)分類(lèi)的作法使得每一類(lèi)的訓(xùn)練數(shù)據(jù)減少,從而每一類(lèi)的段長(zhǎng)信息訓(xùn)練并不充分。同時(shí)對(duì)識(shí)別的語(yǔ)料需要事先確定語(yǔ)速情況以選擇相應(yīng)的段長(zhǎng)信息,對(duì)于實(shí)時(shí)系統(tǒng)來(lái)說(shuō)并不是很好的方法。另一種方式是對(duì)段長(zhǎng)進(jìn)行規(guī)整。這種作法認(rèn)為語(yǔ)音單元的段長(zhǎng)跟語(yǔ)速有一定的關(guān)系。因此先通過(guò)某種方式獲得語(yǔ)速的測(cè)度,然后用這個(gè)語(yǔ)速去調(diào)整語(yǔ)音單元的段長(zhǎng)。
上面提到的已有的方法需要預(yù)先知道待識(shí)別語(yǔ)句的語(yǔ)速,需要增加一定的計(jì)算量,而且需要比較準(zhǔn)確獲得語(yǔ)速的測(cè)度,否則對(duì)自適應(yīng)效果會(huì)有一定的影響。
此外,在漢語(yǔ)中,有一部分音節(jié)沒(méi)有聲母,像a、ou等音節(jié);還有一部分音節(jié)中聲母是半元音,像yang、wu等音節(jié),聲母部分具有很多元音的特性。這些音節(jié)的發(fā)音和某些音節(jié)的韻母部分非常相似,比如音節(jié)you的發(fā)音跟音節(jié)jiu的韻母部分基本是一樣的,音節(jié)wu的發(fā)音跟音節(jié)chu的韻母部分基本是一樣的,音節(jié)e的發(fā)音和音節(jié)he的韻母部分基本一樣的。在慢速情況下,jiu、chu這樣的音節(jié)發(fā)音如果太長(zhǎng),就容易將元音部分識(shí)別成兩部分,一部分和前面的聲母組成一個(gè)音節(jié),另一部分就識(shí)別成和該韻母相似的零聲母音節(jié)或者半元音聲母的音節(jié),比如,“很久以前”中的“久(jiu)”識(shí)別成為“ji”和“you”。所以沒(méi)有聲母的音節(jié)和半元音聲母的音節(jié),在慢速情況下容易成為錯(cuò)誤插入的音節(jié)。而現(xiàn)有技術(shù)當(dāng)中無(wú)法根據(jù)漢語(yǔ)語(yǔ)音的這個(gè)特點(diǎn)對(duì)慢速情況下作自動(dòng)調(diào)整。
發(fā)明內(nèi)容
本發(fā)明的目的在于提出了一種在進(jìn)行語(yǔ)音識(shí)別的時(shí)候,不需要預(yù)先知道待識(shí)別語(yǔ)句的語(yǔ)速,同步、在線地自適應(yīng)說(shuō)話(huà)者語(yǔ)速,提高語(yǔ)音識(shí)別性能,同時(shí)可以對(duì)漢語(yǔ)語(yǔ)音慢速情況下作自動(dòng)調(diào)整的語(yǔ)音識(shí)別系統(tǒng)。
為達(dá)到上述目的,本發(fā)明是這樣實(shí)現(xiàn)的本發(fā)明采用DDBHMM模型,包括一個(gè)語(yǔ)音采集裝置用于采集說(shuō)話(huà)者的語(yǔ)音信號(hào);一個(gè)訓(xùn)練模塊用于通過(guò)訓(xùn)練搜索算法得到語(yǔ)音信號(hào)特征矢量的VQ碼本和DDBHMM模型參數(shù);一個(gè)前端處理模塊用于對(duì)于輸入的語(yǔ)音信號(hào)進(jìn)行前端處理;一個(gè)特征提取模塊用于MFCC語(yǔ)音特征序列的提?。灰粋€(gè)基音特征提取模塊用于語(yǔ)音信號(hào)的基音特征矢量的提??;一個(gè)聲學(xué)層識(shí)別模塊用于通過(guò)DDBHMM最優(yōu)路徑搜索算法,產(chǎn)生拼音格,在搜索算法中,需要計(jì)算每個(gè)音節(jié)的段長(zhǎng)概率;一個(gè)聲調(diào)識(shí)別模塊利用基音特征矢量和拼音的分割點(diǎn)信息,得到拼音的聲調(diào)信息并加入到拼音格中;一個(gè)拼音文法理解模塊用于對(duì)拼音格進(jìn)行修剪;一個(gè)語(yǔ)言理解模塊用于將修剪后的音節(jié)格轉(zhuǎn)化為拼音圖和詞圖,并在詞圖中進(jìn)行搜索,得到最后的理解結(jié)果;
所述的訓(xùn)練模塊訓(xùn)練的DDBHMM模型參數(shù)包括前后兩個(gè)語(yǔ)音單元相連的情況下的段長(zhǎng)均值、方差和前后兩個(gè)語(yǔ)音單元段長(zhǎng)的相關(guān)系數(shù);所述的聲學(xué)層識(shí)別模塊在DDBHMM最優(yōu)路徑搜索時(shí)計(jì)算段長(zhǎng)概率,是指給定前一個(gè)音節(jié)的段長(zhǎng)的條件下,計(jì)算當(dāng)前音節(jié)段長(zhǎng)的條件概率。
所述的計(jì)算音節(jié)段長(zhǎng)條件概率時(shí),對(duì)后半音節(jié)計(jì)算段長(zhǎng)條件概率使用如下的計(jì)算方法如果是句頭,該音節(jié)是開(kāi)始音節(jié),則只計(jì)算后半音節(jié)一元概率;如果不是開(kāi)始音節(jié),則判斷該音節(jié)和前一個(gè)音節(jié)的二元組是否存在,如存在,則計(jì)算細(xì)化的后半音節(jié)二元概率;如果細(xì)化的后半音節(jié)二元組不存在,則計(jì)算不細(xì)化的后半音節(jié)二元概率;如果不細(xì)化的后半音節(jié)二元概率仍不存在,則計(jì)算后半音節(jié)的一元概率。
所述的聲學(xué)層識(shí)別模塊還包括一個(gè)段長(zhǎng)概率動(dòng)態(tài)加權(quán)模塊,工作流程為設(shè)定語(yǔ)速門(mén)限即快速門(mén)限和慢速門(mén)限,計(jì)算前一幀的平均語(yǔ)速,如果快速的情況下該平均語(yǔ)速小于快速門(mén)限或者慢速的情況下該平均語(yǔ)速大于慢速門(mén)限,則用該平均語(yǔ)速對(duì)當(dāng)前幀語(yǔ)音單元段長(zhǎng)條件概率進(jìn)行指數(shù)加權(quán),否則不對(duì)當(dāng)前幀語(yǔ)音單元段長(zhǎng)條件概率進(jìn)行加權(quán)。
所述的聲學(xué)層識(shí)別模塊還包括一個(gè)漢語(yǔ)語(yǔ)音慢速調(diào)整模塊,工作流程為判斷當(dāng)前幀是否為慢速語(yǔ)音,如果不是則不進(jìn)行任何操作,如果是則計(jì)算前一幀的平均語(yǔ)速,在搜索過(guò)程中每當(dāng)一個(gè)新的音節(jié)要加入當(dāng)前路徑時(shí),判斷這個(gè)音節(jié)是否會(huì)是易產(chǎn)生插入錯(cuò)誤的音節(jié),如果不是,則不采取任何措施;如果是易產(chǎn)生插入錯(cuò)誤的音節(jié),則判斷前一個(gè)音節(jié)持續(xù)時(shí)間是否較短,如果較短,認(rèn)為加入這個(gè)音節(jié)可能會(huì)產(chǎn)生插入錯(cuò)誤,則對(duì)這個(gè)新的音節(jié)加上一個(gè)懲罰概率。
在本發(fā)明中,利用在DDBHMM模型中語(yǔ)速對(duì)段長(zhǎng)的影響的幾個(gè)特點(diǎn)說(shuō)話(huà)速度的變化直接反映為段長(zhǎng)的變化,語(yǔ)速的變化對(duì)于段長(zhǎng)的影響是同步增長(zhǎng)或者同步下降的,在一個(gè)較短的時(shí)間內(nèi)說(shuō)話(huà)速度會(huì)比較穩(wěn)定,簡(jiǎn)而言之,在一個(gè)較短的時(shí)間內(nèi),語(yǔ)音信號(hào)中的語(yǔ)音單元段長(zhǎng)之間存在著相關(guān)性。本發(fā)明正是利用段長(zhǎng)的相關(guān)性來(lái)達(dá)到對(duì)語(yǔ)速的自適應(yīng),而且語(yǔ)速的自適應(yīng)是在識(shí)別的同時(shí),用前一個(gè)語(yǔ)音單元對(duì)其平均段長(zhǎng)的偏差來(lái)預(yù)測(cè)當(dāng)前語(yǔ)音單元的段長(zhǎng),是一種在線的自適應(yīng)方法,而且不需要預(yù)先獲得語(yǔ)速的測(cè)度,同時(shí)需要增加的計(jì)算量很小。另外,本發(fā)明假設(shè)觀測(cè)矢量幀間獨(dú)立,觀測(cè)概率的乘積將會(huì)比聯(lián)合概率小,所以對(duì)段長(zhǎng)概率進(jìn)行一個(gè)比例因子的縮小,會(huì)使系統(tǒng)的性能有所提升。利用本發(fā)明的段長(zhǎng)概率動(dòng)態(tài)加權(quán)模塊可以使得在快速情況下,每個(gè)語(yǔ)音單元段長(zhǎng)會(huì)變短,對(duì)應(yīng)的觀測(cè)矢量幀數(shù)也會(huì)少一些,那么觀測(cè)矢量幀間獨(dú)立假設(shè)帶來(lái)的聯(lián)合觀測(cè)概率變小的幅度就會(huì)小一些;在慢速情況下,每個(gè)語(yǔ)音單元對(duì)應(yīng)的觀測(cè)矢量幀數(shù)會(huì)多一些,那么聯(lián)合觀測(cè)概率變小的幅度就會(huì)大一些。因此可以對(duì)段長(zhǎng)概率的加權(quán)系數(shù)隨著語(yǔ)速的快慢作自動(dòng)的調(diào)整,從而本發(fā)明可以隨著語(yǔ)速的快慢達(dá)到系統(tǒng)性能的自我調(diào)整。最后,通過(guò)本發(fā)明的漢語(yǔ)語(yǔ)音慢速調(diào)整模塊可以自動(dòng)、有效調(diào)整漢語(yǔ)慢速語(yǔ)音的語(yǔ)速,防止識(shí)別過(guò)程中的插入錯(cuò)誤。
圖1為本發(fā)明實(shí)施例的總體流程框圖;圖2為本發(fā)明聲學(xué)層識(shí)別模塊的工作流程圖;圖3為本發(fā)明段長(zhǎng)概率加權(quán)模塊的工作流程圖;圖4為本發(fā)明漢語(yǔ)語(yǔ)音慢速調(diào)整模塊的工作流程圖;具體實(shí)施方式
以下結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明做進(jìn)一步的闡述如圖1所示,本發(fā)明實(shí)施例采用DDBHMM模型(基于段長(zhǎng)分布的隱含馬爾可夫模型),包括一個(gè)語(yǔ)音采集裝置用于采集說(shuō)話(huà)者的語(yǔ)音信號(hào);一個(gè)訓(xùn)練模塊用于通過(guò)訓(xùn)練搜索算法得到語(yǔ)音信號(hào)特征矢量的VQ碼本和DDBHMM模型參數(shù),該DDBHMM模型參數(shù)包括前后兩個(gè)語(yǔ)音單元i、j相連的情況下的段長(zhǎng)均值μi、μj,方差σi、σj和前后兩個(gè)語(yǔ)音單元段長(zhǎng)的相關(guān)系數(shù)r,其計(jì)算公式為μi=1MΣk=1Mτi(k),]]>μj=1MΣk=1Mτj(k)]]>σi=1MΣk=1M(τi(k)-μi)2,]]>σj=1MΣk=1M(τj(k)-μj)2]]>r=1MΣk=1M(τi(k)-μi)(τi(k)-μj)σiσj]]>其中M為兩個(gè)語(yǔ)音單元i和j以相鄰的形式在訓(xùn)練數(shù)據(jù)中出現(xiàn)的次數(shù),τi(k)和τj(k)分別為第k次中的段長(zhǎng);;
一個(gè)前端處理模塊用于對(duì)于輸入的語(yǔ)音信號(hào)進(jìn)行前端處理;一個(gè)特征提取模塊用于MFCC語(yǔ)音特征序列(基于Mel倒譜系數(shù)的語(yǔ)音特征,Mel-Frequency Cepstral Coefficients)的提??;一個(gè)基音特征提取模塊用于語(yǔ)音信號(hào)的基音特征矢量的提??;一個(gè)聲學(xué)層識(shí)別模塊用于對(duì)上述MFCC語(yǔ)音特征序列,通過(guò)DDBHMM最優(yōu)路徑搜索算法,產(chǎn)生拼音格,在搜索算法中,需要計(jì)算每個(gè)音節(jié)的段長(zhǎng)概率;一個(gè)聲調(diào)識(shí)別模塊利用基音特征矢量和拼音的分割點(diǎn)信息,得到拼音的聲調(diào)信息并加入到拼音格中;一個(gè)拼音文法理解模塊用于對(duì)拼音格進(jìn)行修剪;一個(gè)語(yǔ)言理解模塊用于將修剪后的音節(jié)格轉(zhuǎn)化為拼音圖和詞圖,并在詞圖中進(jìn)行搜索,得到最后的理解結(jié)果;如圖2所示,上述聲學(xué)層識(shí)別模塊采用了DDBHMM幀同步快速識(shí)別算法,對(duì)輸入的MFCC語(yǔ)音特征序列按幀進(jìn)行處理,首先計(jì)算當(dāng)前幀特征和所有狀態(tài)的距離,獲得前一幀的最優(yōu)距離,然后對(duì)每個(gè)音節(jié)進(jìn)行DDBHMM快速搜索,得到當(dāng)前幀的最優(yōu)路徑,在搜索過(guò)程中,利用漢語(yǔ)語(yǔ)音慢速調(diào)整模塊,段長(zhǎng)概率動(dòng)態(tài)加權(quán)模塊根據(jù)語(yǔ)速的快慢動(dòng)態(tài)調(diào)整段長(zhǎng)概率,以提高本系統(tǒng)的工作性能,降低由于語(yǔ)速原因?qū)е碌牟迦脲e(cuò)誤和刪除錯(cuò)誤。當(dāng)所有幀都處理完畢,再回溯找到最優(yōu)路徑,得到拼音格形式的識(shí)別結(jié)果。
對(duì)每個(gè)音節(jié)進(jìn)行DDBHMM快速搜索的工作流程是首先處理當(dāng)前音節(jié)的后半音節(jié)增加一條該后半音節(jié)的路徑,然后對(duì)后半音節(jié)的其它路徑進(jìn)行Viterbi匹配,對(duì)該后半音節(jié)所有的路徑進(jìn)行比較剪枝,該剪枝過(guò)程為先獲得兩條參與比較的路徑當(dāng)前后半音節(jié)段長(zhǎng)以及兩條路徑中前面一個(gè)音節(jié)的后半音節(jié)單元段長(zhǎng),然后計(jì)算兩條路徑當(dāng)前后半音節(jié)段長(zhǎng)的條件概率,如果先進(jìn)入當(dāng)前音節(jié)的路徑不占優(yōu),則在后面的識(shí)別中剪枝剪掉該條路徑;然后處理前半音節(jié)增加一條該前半音節(jié)的路徑,然后對(duì)前半音節(jié)的其它路徑進(jìn)行Viterbi匹配,對(duì)該前半音節(jié)所有的路徑進(jìn)行比較剪枝,該剪枝過(guò)程為先獲得兩條參與比較的路徑當(dāng)前前半音節(jié)段長(zhǎng)以及兩條路徑中前面一個(gè)音節(jié)的前半音節(jié)單元段長(zhǎng),然后計(jì)算兩條路徑當(dāng)前前半音節(jié)段長(zhǎng)的條件概率,如果先進(jìn)入當(dāng)前音節(jié)的路徑不占優(yōu),則在后面的識(shí)別中剪枝剪掉該條路徑;在以上流程中,考慮相關(guān)性是后半音節(jié)之間的相關(guān)性。由于一個(gè)后半音節(jié)單元和不同的前半音節(jié)結(jié)合便形成不同的音節(jié),同一個(gè)后半音節(jié)在不同音節(jié)中的段長(zhǎng)不一樣,所以將后半音節(jié)根據(jù)所處的音節(jié)不同進(jìn)行了細(xì)化。在計(jì)算段長(zhǎng)概率的時(shí)候,由于前半音節(jié)并沒(méi)有考慮二元段長(zhǎng),所以只對(duì)后半音節(jié)計(jì)算段長(zhǎng)概率時(shí)考慮如下的計(jì)算方法如果是句頭,該音節(jié)是開(kāi)始音節(jié),則只計(jì)算后半音節(jié)一元概率;如果不是開(kāi)始音節(jié),則判斷該音節(jié)和前一個(gè)音節(jié)的二元組是否存在,如存在,則計(jì)算細(xì)化的后半音節(jié)二元概率;如果細(xì)化的后半音節(jié)二元組不存在,則計(jì)算不細(xì)化的后半音節(jié)二元概率;如果不細(xì)化的后半音節(jié)二元概率仍不存在,則計(jì)算后半音節(jié)的一元概率。
在DDBHMM快速搜索時(shí)計(jì)算段長(zhǎng)條件概率,是指給定前一個(gè)音節(jié)的段長(zhǎng)的條件下,計(jì)算當(dāng)前音節(jié)段長(zhǎng)的條件概率,其計(jì)算公式表述如下假設(shè)τi,τi-1分別為相鄰的前后兩個(gè)音節(jié)的段長(zhǎng),μi,μi-1分別為其均值,σi,σi-1分別為其方差,r是τi和τi-1間的相關(guān)系數(shù),由于可以用正態(tài)分布對(duì)段長(zhǎng)進(jìn)行很好的描述,則給定τi-1時(shí)τi的條件概率密度為p(τi/τi-1)=p(τi,τi-1)/p(τi-1)]]>=1σi2π(1-r2)exp{-12σi2(1-r2)[τi-(μi+rσiσi-1(τi-1-μi-1))]2}]]>定義u~i=ui+σir(τi-1-μi-1)/σi-1,]]>σ~i2=σi2(1-r2),]]>那么上式可以寫(xiě)成p(τi/τi-1)=1σ~i2πexp{-(τi-μ~i)22σ~i2}]]>語(yǔ)速對(duì)于段長(zhǎng)的影響是同步增長(zhǎng)或者下降的,所以一般來(lái)說(shuō)相關(guān)系數(shù)r>0。從上式可以看出條件概率p(τi/τi-1)相當(dāng)于均值為 方差為 的一元正態(tài)分布。從 的表達(dá)式可以看到,受到語(yǔ)速的影響,如果前一個(gè)單元段長(zhǎng)τi-1偏離其平均段長(zhǎng)μi-1,則后一個(gè)單元段長(zhǎng)τi將以同樣的傾向偏離它的平均段長(zhǎng)μi,從而使段長(zhǎng)分布自動(dòng)地調(diào)整到與說(shuō)話(huà)速度相適應(yīng)的程度。而且相關(guān)系數(shù)r越大,預(yù)測(cè)方差 就越小,前一個(gè)單元段長(zhǎng)對(duì)于后一個(gè)單元段長(zhǎng)的預(yù)測(cè)就越準(zhǔn)確。因此,利用相鄰單元段長(zhǎng)之間的相關(guān)性可以更加有效地利用段長(zhǎng)信息,從而降低由于語(yǔ)速引起的插入錯(cuò)誤和刪除錯(cuò)誤。還可以看到,這里語(yǔ)速的自適應(yīng)是在識(shí)別的同時(shí),用前一個(gè)語(yǔ)音單元對(duì)其平均段長(zhǎng)的偏差來(lái)預(yù)測(cè)本單元的段長(zhǎng),是一種在線的自適應(yīng)方法,而且不需要獲得語(yǔ)速的測(cè)度。
如圖3所示,上述段長(zhǎng)概率動(dòng)態(tài)加權(quán)模塊工作流程為設(shè)定語(yǔ)速門(mén)限即快速門(mén)限和慢速門(mén)限,計(jì)算前一幀的平均語(yǔ)速,計(jì)算方法為得到前一幀的最優(yōu)路徑的信息,找到這個(gè)最優(yōu)路徑中個(gè)音節(jié)的分割點(diǎn)和音節(jié)號(hào),通過(guò)分割點(diǎn)獲得各音節(jié)的實(shí)際段長(zhǎng),假設(shè)最優(yōu)路徑上有K個(gè)音節(jié),按下式計(jì)算當(dāng)前的平均語(yǔ)速 如果快速的情況下該平均語(yǔ)速小于快速門(mén)限或者慢速的情況下該平均語(yǔ)速大于慢速門(mén)限,則用該平均語(yǔ)速對(duì)當(dāng)前幀語(yǔ)音單元段長(zhǎng)條件概率進(jìn)行指數(shù)加權(quán),否則不對(duì)當(dāng)前幀語(yǔ)音單元段長(zhǎng)條件概率進(jìn)行加權(quán)。
如圖4所示,上述漢語(yǔ)語(yǔ)音慢速調(diào)整模塊工作流程為判斷當(dāng)前幀是否為慢速語(yǔ)音,如果不是則不進(jìn)行任何操作,如果是則計(jì)算前一幀的平均語(yǔ)速(計(jì)算方法同上),在搜索過(guò)程中每當(dāng)一個(gè)新的音節(jié)要加入當(dāng)前路徑時(shí),判斷這個(gè)音節(jié)是否會(huì)是易產(chǎn)生插入錯(cuò)誤的音節(jié),如果不是,則不采取任何措施;如果是易產(chǎn)生插入錯(cuò)誤的音節(jié),則判斷前一個(gè)音節(jié)持續(xù)時(shí)間是否較短,如果較短,認(rèn)為加入這個(gè)音節(jié)可能會(huì)產(chǎn)生插入錯(cuò)誤,則對(duì)這個(gè)新的音節(jié)加上一個(gè)懲罰概率。
從上面的說(shuō)明可以看出,本發(fā)明利用段長(zhǎng)的相關(guān)性來(lái)達(dá)到對(duì)語(yǔ)速的自適應(yīng),而且語(yǔ)速的自適應(yīng)是在識(shí)別的同時(shí),不需要預(yù)先獲得語(yǔ)速的測(cè)度,是一種在線的自適應(yīng)方法,而且系統(tǒng)為此增加的運(yùn)算量也很小,具有很大的推廣和應(yīng)用價(jià)值。
權(quán)利要求
1.一種語(yǔ)速自適應(yīng)的語(yǔ)音識(shí)別系統(tǒng),采用DDBHMM模型,該語(yǔ)音識(shí)別系統(tǒng)包括一個(gè)語(yǔ)音采集裝置用于采集說(shuō)話(huà)者的語(yǔ)音信號(hào);一個(gè)訓(xùn)練模塊用于通過(guò)訓(xùn)練搜索算法得到語(yǔ)音信號(hào)特征矢量的VQ碼本和DDBHMM模型參數(shù);一個(gè)前端處理模塊用于對(duì)于輸入的語(yǔ)音信號(hào)進(jìn)行前端處理;一個(gè)特征提取模塊用于MFCC語(yǔ)音特征序列的提?。灰粋€(gè)基音特征提取模塊用于語(yǔ)音信號(hào)的基音特征矢量的提??;一個(gè)聲學(xué)層識(shí)別模塊用于通過(guò)DDBHMM最優(yōu)路徑搜索算法,產(chǎn)生拼音格,在搜索算法中,需要計(jì)算每個(gè)音節(jié)的段長(zhǎng)概率;一個(gè)聲調(diào)識(shí)別模塊利用基音特征矢量和拼音的分割點(diǎn)信息,得到拼音的聲調(diào)信息并加入到拼音格中;一個(gè)拼音文法理解模塊用于對(duì)拼音格進(jìn)行修剪;一個(gè)語(yǔ)言理解模塊用于將修剪后的音節(jié)格轉(zhuǎn)化為拼音圖和詞圖,并在詞圖中進(jìn)行搜索,得到最后的理解結(jié)果;其特征在于所述的訓(xùn)練模塊訓(xùn)練的DDBHMM模型參數(shù)包括前后兩個(gè)語(yǔ)音單元相連的情況下的段長(zhǎng)均值、方差和前后兩個(gè)語(yǔ)音單元段長(zhǎng)的相關(guān)系數(shù);所述的聲學(xué)層識(shí)別模塊在DDBHMM最優(yōu)路徑搜索時(shí)計(jì)算段長(zhǎng)概率,是指給定前一個(gè)音節(jié)的段長(zhǎng)的條件下,計(jì)算當(dāng)前音節(jié)段長(zhǎng)的條件概率。
2.如權(quán)利要求1所述的語(yǔ)音識(shí)別系統(tǒng),其特征在于所述的計(jì)算音節(jié)單元段長(zhǎng)條件概率時(shí),對(duì)后半音節(jié)計(jì)算段長(zhǎng)條件概率使用如下的計(jì)算方法如果是句頭,該音節(jié)是開(kāi)始音節(jié),則只計(jì)算后半音節(jié)一元概率;如果不是開(kāi)始音節(jié),則判斷該音節(jié)和前一個(gè)音節(jié)的二元組是否存在,如存在,則計(jì)算細(xì)化的后半音節(jié)二元概率;如果細(xì)化的后半音節(jié)二元組不存在,則計(jì)算不細(xì)化的后半音節(jié)二元概率;如果不細(xì)化的后半音節(jié)二元概率仍不存在,則計(jì)算后半音節(jié)的一元概率。
3.如權(quán)利要求1所述的語(yǔ)音識(shí)別系統(tǒng),其特征在于所述的聲學(xué)層識(shí)別模塊還包括一個(gè)段長(zhǎng)概率動(dòng)態(tài)加權(quán)模塊,工作流程為設(shè)定語(yǔ)速門(mén)限即快速門(mén)限和慢速門(mén)限,計(jì)算前一幀的平均語(yǔ)速,如果快速的情況下該平均語(yǔ)速小于快速門(mén)限或者慢速的情況下該平均語(yǔ)速大于慢速門(mén)限,則用該平均語(yǔ)速對(duì)當(dāng)前幀語(yǔ)音單元段長(zhǎng)條件概率進(jìn)行指數(shù)加權(quán),否則不對(duì)當(dāng)前幀語(yǔ)音單元段長(zhǎng)條件概率進(jìn)行加權(quán)。
4.如權(quán)利要求1所述的語(yǔ)音識(shí)別系統(tǒng),其特征在于所述的聲學(xué)層識(shí)別模塊還包括一個(gè)漢語(yǔ)語(yǔ)音慢速調(diào)整模塊,工作流程為首先判斷當(dāng)前幀是否為慢速語(yǔ)音,如果不是則不進(jìn)行任何操作,如果是則計(jì)算前一幀的平均語(yǔ)速,在搜索過(guò)程中每當(dāng)一個(gè)新的音節(jié)要加入當(dāng)前路徑時(shí),判斷這個(gè)音節(jié)是否會(huì)是易產(chǎn)生插入錯(cuò)誤的音節(jié),如果不是,則不采取任何措施;如果是易產(chǎn)生插入錯(cuò)誤的音節(jié),則判斷前一個(gè)音節(jié)持續(xù)時(shí)間是否較短,如果較短,認(rèn)為加入這個(gè)音節(jié)可能會(huì)產(chǎn)生插入錯(cuò)誤,則對(duì)這個(gè)新的音節(jié)加上一個(gè)懲罰概率。
全文摘要
本發(fā)明提供了一種可以在線的、不需要預(yù)先獲得語(yǔ)速的測(cè)度、同時(shí)增加的計(jì)算量很小的語(yǔ)速自適應(yīng)的語(yǔ)音識(shí)別系統(tǒng),包括語(yǔ)音采集裝置、前端處理模塊、特征提取模塊、基音特征提取模塊、聲調(diào)識(shí)別模塊、訓(xùn)練模塊、聲學(xué)層識(shí)別模塊、拼音文法理解模塊、語(yǔ)言理解模塊,訓(xùn)練模塊訓(xùn)練的模型參數(shù)包括前后兩個(gè)語(yǔ)音單元相連的情況下的段長(zhǎng)均值、方差和前后兩個(gè)語(yǔ)音單元段長(zhǎng)的相關(guān)系數(shù);聲學(xué)層識(shí)別模塊計(jì)算的段長(zhǎng)概率,是指給定前一個(gè)音節(jié)的段長(zhǎng)的條件下,計(jì)算當(dāng)前音節(jié)段長(zhǎng)的條件概率,并且在計(jì)算段長(zhǎng)概率時(shí),可以通過(guò)段長(zhǎng)概率動(dòng)態(tài)加權(quán)模塊和漢語(yǔ)慢速語(yǔ)音調(diào)整模塊對(duì)段長(zhǎng)概率根據(jù)語(yǔ)速進(jìn)行動(dòng)態(tài)、實(shí)時(shí)調(diào)整,以提高系統(tǒng)性能,降低系統(tǒng)的插入錯(cuò)誤和刪除錯(cuò)誤。
文檔編號(hào)G10L15/00GK1512485SQ0215940
公開(kāi)日2004年7月14日 申請(qǐng)日期2002年12月31日 優(yōu)先權(quán)日2002年12月31日
發(fā)明者王作英, 吳及, 肖熙, 李健 申請(qǐng)人:北京天朗語(yǔ)音科技有限公司, 清華大學(xué)