語(yǔ)速自適應(yīng)的語(yǔ)音識(shí)別系統(tǒng)的制作方法

文檔序號(hào)：2836645閱讀：340來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專(zhuān)利名稱(chēng)：語(yǔ)速自適應(yīng)的語(yǔ)音識(shí)別系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種語(yǔ)音識(shí)別技術(shù)領(lǐng)域中的語(yǔ)速自適應(yīng)的語(yǔ)音識(shí)別系統(tǒng)。
背景技術(shù)：
在連續(xù)語(yǔ)音中，不同說(shuō)話(huà)者由于說(shuō)話(huà)習(xí)慣不一樣，說(shuō)話(huà)速度會(huì)有比較大的差異。即使同一個(gè)人的說(shuō)話(huà)速度也會(huì)因?yàn)榄h(huán)境、心情等的不同有差異。這種差異在日常生活中是普遍存在的。偏離正常語(yǔ)速過(guò)大往往會(huì)造成識(shí)別錯(cuò)誤的增加，過(guò)快的語(yǔ)速會(huì)使刪除錯(cuò)誤增加，過(guò)慢的語(yǔ)速會(huì)造成插入錯(cuò)誤增加，錯(cuò)誤的分割點(diǎn)也會(huì)使替代錯(cuò)誤增加，從而使識(shí)別性能下降。因此對(duì)如何進(jìn)行語(yǔ)速自適應(yīng)，減少偏離正常語(yǔ)速的情況下過(guò)大的插入錯(cuò)誤或者刪除錯(cuò)誤并進(jìn)一步降低識(shí)別錯(cuò)誤進(jìn)行了研究。
已有的對(duì)語(yǔ)速自適應(yīng)的技術(shù)主要分為兩類(lèi)。
一類(lèi)經(jīng)典HMM(隱含馬爾可夫模型)為識(shí)別模型的系統(tǒng)。轉(zhuǎn)移概率為模型的基本參數(shù)，這種模型通過(guò)改變轉(zhuǎn)移概率大小的方法對(duì)語(yǔ)速進(jìn)行自適應(yīng)增大狀態(tài)的自轉(zhuǎn)移概率并減小離開(kāi)的轉(zhuǎn)移概率以適應(yīng)慢速的情況；對(duì)轉(zhuǎn)移概率作相反的變化，則能適應(yīng)快速的情況。
另一類(lèi)是以DDBHMM(基于段長(zhǎng)分布的隱含馬爾可夫模型)為識(shí)別模型的系統(tǒng)，即在HMM中顯式的使用了段長(zhǎng)概率而不是轉(zhuǎn)移概率，這種模型主要是通過(guò)對(duì)段長(zhǎng)進(jìn)行調(diào)整的方式來(lái)達(dá)到適應(yīng)語(yǔ)速的目的。一種做法采用分類(lèi)段長(zhǎng)，即根據(jù)語(yǔ)速將訓(xùn)練數(shù)據(jù)分成慢速、適中語(yǔ)速和快速三類(lèi)，并分別統(tǒng)計(jì)這三類(lèi)語(yǔ)速下的段長(zhǎng)信息；識(shí)別時(shí)先利用先驗(yàn)知識(shí)判斷待識(shí)別的語(yǔ)句的語(yǔ)速，再采用相應(yīng)語(yǔ)速情況下的段長(zhǎng)信息進(jìn)行識(shí)別。這種將訓(xùn)練數(shù)據(jù)分類(lèi)的作法使得每一類(lèi)的訓(xùn)練數(shù)據(jù)減少，從而每一類(lèi)的段長(zhǎng)信息訓(xùn)練并不充分。同時(shí)對(duì)識(shí)別的語(yǔ)料需要事先確定語(yǔ)速情況以選擇相應(yīng)的段長(zhǎng)信息，對(duì)于實(shí)時(shí)系統(tǒng)來(lái)說(shuō)并不是很好的方法。另一種方式是對(duì)段長(zhǎng)進(jìn)行規(guī)整。這種作法認(rèn)為語(yǔ)音單元的段長(zhǎng)跟語(yǔ)速有一定的關(guān)系。因此先通過(guò)某種方式獲得語(yǔ)速的測(cè)度，然后用這個(gè)語(yǔ)速去調(diào)整語(yǔ)音單元的段長(zhǎng)。
上面提到的已有的方法需要預(yù)先知道待識(shí)別語(yǔ)句的語(yǔ)速，需要增加一定的計(jì)算量，而且需要比較準(zhǔn)確獲得語(yǔ)速的測(cè)度，否則對(duì)自適應(yīng)效果會(huì)有一定的影響。
此外，在漢語(yǔ)中，有一部分音節(jié)沒(méi)有聲母，像a、ou等音節(jié)；還有一部分音節(jié)中聲母是半元音，像yang、wu等音節(jié)，聲母部分具有很多元音的特性。這些音節(jié)的發(fā)音和某些音節(jié)的韻母部分非常相似，比如音節(jié)you的發(fā)音跟音節(jié)jiu的韻母部分基本是一樣的，音節(jié)wu的發(fā)音跟音節(jié)chu的韻母部分基本是一樣的，音節(jié)e的發(fā)音和音節(jié)he的韻母部分基本一樣的。在慢速情況下，jiu、chu這樣的音節(jié)發(fā)音如果太長(zhǎng)，就容易將元音部分識(shí)別成兩部分，一部分和前面的聲母組成一個(gè)音節(jié)，另一部分就識(shí)別成和該韻母相似的零聲母音節(jié)或者半元音聲母的音節(jié)，比如，“很久以前”中的“久(jiu)”識(shí)別成為“ji”和“you”。所以沒(méi)有聲母的音節(jié)和半元音聲母的音節(jié)，在慢速情況下容易成為錯(cuò)誤插入的音節(jié)。而現(xiàn)有技術(shù)當(dāng)中無(wú)法根據(jù)漢語(yǔ)語(yǔ)音的這個(gè)特點(diǎn)對(duì)慢速情況下作自動(dòng)調(diào)整。

發(fā)明內(nèi)容
本發(fā)明的目的在于提出了一種在進(jìn)行語(yǔ)音識(shí)別的時(shí)候，不需要預(yù)先知道待識(shí)別語(yǔ)句的語(yǔ)速，同步、在線地自適應(yīng)說(shuō)話(huà)者語(yǔ)速，提高語(yǔ)音識(shí)別性能，同時(shí)可以對(duì)漢語(yǔ)語(yǔ)音慢速情況下作自動(dòng)調(diào)整的語(yǔ)音識(shí)別系統(tǒng)。
為達(dá)到上述目的，本發(fā)明是這樣實(shí)現(xiàn)的本發(fā)明采用DDBHMM模型，包括一個(gè)語(yǔ)音采集裝置用于采集說(shuō)話(huà)者的語(yǔ)音信號(hào)；一個(gè)訓(xùn)練模塊用于通過(guò)訓(xùn)練搜索算法得到語(yǔ)音信號(hào)特征矢量的VQ碼本和DDBHMM模型參數(shù)；一個(gè)前端處理模塊用于對(duì)于輸入的語(yǔ)音信號(hào)進(jìn)行前端處理；一個(gè)特征提取模塊用于MFCC語(yǔ)音特征序列的提?。灰粋€(gè)基音特征提取模塊用于語(yǔ)音信號(hào)的基音特征矢量的提??；一個(gè)聲學(xué)層識(shí)別模塊用于通過(guò)DDBHMM最優(yōu)路徑搜索算法，產(chǎn)生拼音格，在搜索算法中，需要計(jì)算每個(gè)音節(jié)的段長(zhǎng)概率；一個(gè)聲調(diào)識(shí)別模塊利用基音特征矢量和拼音的分割點(diǎn)信息，得到拼音的聲調(diào)信息并加入到拼音格中；一個(gè)拼音文法理解模塊用于對(duì)拼音格進(jìn)行修剪；一個(gè)語(yǔ)言理解模塊用于將修剪后的音節(jié)格轉(zhuǎn)化為拼音圖和詞圖，并在詞圖中進(jìn)行搜索，得到最后的理解結(jié)果；
所述的訓(xùn)練模塊訓(xùn)練的DDBHMM模型參數(shù)包括前后兩個(gè)語(yǔ)音單元相連的情況下的段長(zhǎng)均值、方差和前后兩個(gè)語(yǔ)音單元段長(zhǎng)的相關(guān)系數(shù)；所述的聲學(xué)層識(shí)別模塊在DDBHMM最優(yōu)路徑搜索時(shí)計(jì)算段長(zhǎng)概率，是指給定前一個(gè)音節(jié)的段長(zhǎng)的條件下，計(jì)算當(dāng)前音節(jié)段長(zhǎng)的條件概率。
所述的計(jì)算音節(jié)段長(zhǎng)條件概率時(shí)，對(duì)后半音節(jié)計(jì)算段長(zhǎng)條件概率使用如下的計(jì)算方法如果是句頭，該音節(jié)是開(kāi)始音節(jié)，則只計(jì)算后半音節(jié)一元概率；如果不是開(kāi)始音節(jié)，則判斷該音節(jié)和前一個(gè)音節(jié)的二元組是否存在，如存在，則計(jì)算細(xì)化的后半音節(jié)二元概率；如果細(xì)化的后半音節(jié)二元組不存在，則計(jì)算不細(xì)化的后半音節(jié)二元概率；如果不細(xì)化的后半音節(jié)二元概率仍不存在，則計(jì)算后半音節(jié)的一元概率。
所述的聲學(xué)層識(shí)別模塊還包括一個(gè)段長(zhǎng)概率動(dòng)態(tài)加權(quán)模塊，工作流程為設(shè)定語(yǔ)速門(mén)限即快速門(mén)限和慢速門(mén)限，計(jì)算前一幀的平均語(yǔ)速，如果快速的情況下該平均語(yǔ)速小于快速門(mén)限或者慢速的情況下該平均語(yǔ)速大于慢速門(mén)限，則用該平均語(yǔ)速對(duì)當(dāng)前幀語(yǔ)音單元段長(zhǎng)條件概率進(jìn)行指數(shù)加權(quán)，否則不對(duì)當(dāng)前幀語(yǔ)音單元段長(zhǎng)條件概率進(jìn)行加權(quán)。
所述的聲學(xué)層識(shí)別模塊還包括一個(gè)漢語(yǔ)語(yǔ)音慢速調(diào)整模塊，工作流程為判斷當(dāng)前幀是否為慢速語(yǔ)音，如果不是則不進(jìn)行任何操作，如果是則計(jì)算前一幀的平均語(yǔ)速，在搜索過(guò)程中每當(dāng)一個(gè)新的音節(jié)要加入當(dāng)前路徑時(shí)，判斷這個(gè)音節(jié)是否會(huì)是易產(chǎn)生插入錯(cuò)誤的音節(jié)，如果不是，則不采取任何措施；如果是易產(chǎn)生插入錯(cuò)誤的音節(jié)，則判斷前一個(gè)音節(jié)持續(xù)時(shí)間是否較短，如果較短，認(rèn)為加入這個(gè)音節(jié)可能會(huì)產(chǎn)生插入錯(cuò)誤，則對(duì)這個(gè)新的音節(jié)加上一個(gè)懲罰概率。
在本發(fā)明中，利用在DDBHMM模型中語(yǔ)速對(duì)段長(zhǎng)的影響的幾個(gè)特點(diǎn)說(shuō)話(huà)速度的變化直接反映為段長(zhǎng)的變化，語(yǔ)速的變化對(duì)于段長(zhǎng)的影響是同步增長(zhǎng)或者同步下降的，在一個(gè)較短的時(shí)間內(nèi)說(shuō)話(huà)速度會(huì)比較穩(wěn)定，簡(jiǎn)而言之，在一個(gè)較短的時(shí)間內(nèi)，語(yǔ)音信號(hào)中的語(yǔ)音單元段長(zhǎng)之間存在著相關(guān)性。本發(fā)明正是利用段長(zhǎng)的相關(guān)性來(lái)達(dá)到對(duì)語(yǔ)速的自適應(yīng)，而且語(yǔ)速的自適應(yīng)是在識(shí)別的同時(shí)，用前一個(gè)語(yǔ)音單元對(duì)其平均段長(zhǎng)的偏差來(lái)預(yù)測(cè)當(dāng)前語(yǔ)音單元的段長(zhǎng)，是一種在線的自適應(yīng)方法，而且不需要預(yù)先獲得語(yǔ)速的測(cè)度，同時(shí)需要增加的計(jì)算量很小。另外，本發(fā)明假設(shè)觀測(cè)矢量幀間獨(dú)立，觀測(cè)概率的乘積將會(huì)比聯(lián)合概率小，所以對(duì)段長(zhǎng)概率進(jìn)行一個(gè)比例因子的縮小，會(huì)使系統(tǒng)的性能有所提升。利用本發(fā)明的段長(zhǎng)概率動(dòng)態(tài)加權(quán)模塊可以使得在快速情況下，每個(gè)語(yǔ)音單元段長(zhǎng)會(huì)變短，對(duì)應(yīng)的觀測(cè)矢量幀數(shù)也會(huì)少一些，那么觀測(cè)矢量幀間獨(dú)立假設(shè)帶來(lái)的聯(lián)合觀測(cè)概率變小的幅度就會(huì)小一些；在慢速情況下，每個(gè)語(yǔ)音單元對(duì)應(yīng)的觀測(cè)矢量幀數(shù)會(huì)多一些，那么聯(lián)合觀測(cè)概率變小的幅度就會(huì)大一些。因此可以對(duì)段長(zhǎng)概率的加權(quán)系數(shù)隨著語(yǔ)速的快慢作自動(dòng)的調(diào)整，從而本發(fā)明可以隨著語(yǔ)速的快慢達(dá)到系統(tǒng)性能的自我調(diào)整。最后，通過(guò)本發(fā)明的漢語(yǔ)語(yǔ)音慢速調(diào)整模塊可以自動(dòng)、有效調(diào)整漢語(yǔ)慢速語(yǔ)音的語(yǔ)速，防止識(shí)別過(guò)程中的插入錯(cuò)誤。

圖1為本發(fā)明實(shí)施例的總體流程框圖；圖2為本發(fā)明聲學(xué)層識(shí)別模塊的工作流程圖；圖3為本發(fā)明段長(zhǎng)概率加權(quán)模塊的工作流程圖；圖4為本發(fā)明漢語(yǔ)語(yǔ)音慢速調(diào)整模塊的工作流程圖；具體實(shí)施方式
以下結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明做進(jìn)一步的闡述如圖1所示，本發(fā)明實(shí)施例采用DDBHMM模型(基于段長(zhǎng)分布的隱含馬爾可夫模型)，包括一個(gè)語(yǔ)音采集裝置用于采集說(shuō)話(huà)者的語(yǔ)音信號(hào)；一個(gè)訓(xùn)練模塊用于通過(guò)訓(xùn)練搜索算法得到語(yǔ)音信號(hào)特征矢量的VQ碼本和DDBHMM模型參數(shù)，該DDBHMM模型參數(shù)包括前后兩個(gè)語(yǔ)音單元i、j相連的情況下的段長(zhǎng)均值μi、μj，方差σi、σj和前后兩個(gè)語(yǔ)音單元段長(zhǎng)的相關(guān)系數(shù)r，其計(jì)算公式為μi=1MΣk=1Mτi(k),]]>μj=1MΣk=1Mτj(k)]]>σi=1MΣk=1M(τi(k)-μi)2,]]>σj=1MΣk=1M(τj(k)-μj)2]]>r=1MΣk=1M(τi(k)-μi)(τi(k)-μj)σiσj]]>其中M為兩個(gè)語(yǔ)音單元i和j以相鄰的形式在訓(xùn)練數(shù)據(jù)中出現(xiàn)的次數(shù)，τi(k)和τj(k)分別為第k次中的段長(zhǎng)；；
一個(gè)前端處理模塊用于對(duì)于輸入的語(yǔ)音信號(hào)進(jìn)行前端處理；一個(gè)特征提取模塊用于MFCC語(yǔ)音特征序列(基于Mel倒譜系數(shù)的語(yǔ)音特征，Mel-Frequency Cepstral Coefficients)的提??；一個(gè)基音特征提取模塊用于語(yǔ)音信號(hào)的基音特征矢量的提??；一個(gè)聲學(xué)層識(shí)別模塊用于對(duì)上述MFCC語(yǔ)音特征序列，通過(guò)DDBHMM最優(yōu)路徑搜索算法，產(chǎn)生拼音格，在搜索算法中，需要計(jì)算每個(gè)音節(jié)的段長(zhǎng)概率；一個(gè)聲調(diào)識(shí)別模塊利用基音特征矢量和拼音的分割點(diǎn)信息，得到拼音的聲調(diào)信息并加入到拼音格中；一個(gè)拼音文法理解模塊用于對(duì)拼音格進(jìn)行修剪；一個(gè)語(yǔ)言理解模塊用于將修剪后的音節(jié)格轉(zhuǎn)化為拼音圖和詞圖，并在詞圖中進(jìn)行搜索，得到最后的理解結(jié)果；如圖2所示，上述聲學(xué)層識(shí)別模塊采用了DDBHMM幀同步快速識(shí)別算法，對(duì)輸入的MFCC語(yǔ)音特征序列按幀進(jìn)行處理，首先計(jì)算當(dāng)前幀特征和所有狀態(tài)的距離，獲得前一幀的最優(yōu)距離，然后對(duì)每個(gè)音節(jié)進(jìn)行DDBHMM快速搜索，得到當(dāng)前幀的最優(yōu)路徑，在搜索過(guò)程中，利用漢語(yǔ)語(yǔ)音慢速調(diào)整模塊，段長(zhǎng)概率動(dòng)態(tài)加權(quán)模塊根據(jù)語(yǔ)速的快慢動(dòng)態(tài)調(diào)整段長(zhǎng)概率，以提高本系統(tǒng)的工作性能，降低由于語(yǔ)速原因?qū)е碌牟迦脲e(cuò)誤和刪除錯(cuò)誤。當(dāng)所有幀都處理完畢，再回溯找到最優(yōu)路徑，得到拼音格形式的識(shí)別結(jié)果。
對(duì)每個(gè)音節(jié)進(jìn)行DDBHMM快速搜索的工作流程是首先處理當(dāng)前音節(jié)的后半音節(jié)增加一條該后半音節(jié)的路徑，然后對(duì)后半音節(jié)的其它路徑進(jìn)行Viterbi匹配，對(duì)該后半音節(jié)所有的路徑進(jìn)行比較剪枝，該剪枝過(guò)程為先獲得兩條參與比較的路徑當(dāng)前后半音節(jié)段長(zhǎng)以及兩條路徑中前面一個(gè)音節(jié)的后半音節(jié)單元段長(zhǎng)，然后計(jì)算兩條路徑當(dāng)前后半音節(jié)段長(zhǎng)的條件概率，如果先進(jìn)入當(dāng)前音節(jié)的路徑不占優(yōu)，則在后面的識(shí)別中剪枝剪掉該條路徑；然后處理前半音節(jié)增加一條該前半音節(jié)的路徑，然后對(duì)前半音節(jié)的其它路徑進(jìn)行Viterbi匹配，對(duì)該前半音節(jié)所有的路徑進(jìn)行比較剪枝，該剪枝過(guò)程為先獲得兩條參與比較的路徑當(dāng)前前半音節(jié)段長(zhǎng)以及兩條路徑中前面一個(gè)音節(jié)的前半音節(jié)單元段長(zhǎng)，然后計(jì)算兩條路徑當(dāng)前前半音節(jié)段長(zhǎng)的條件概率，如果先進(jìn)入當(dāng)前音節(jié)的路徑不占優(yōu)，則在后面的識(shí)別中剪枝剪掉該條路徑；在以上流程中，考慮相關(guān)性是后半音節(jié)之間的相關(guān)性。由于一個(gè)后半音節(jié)單元和不同的前半音節(jié)結(jié)合便形成不同的音節(jié)，同一個(gè)后半音節(jié)在不同音節(jié)中的段長(zhǎng)不一樣，所以將后半音節(jié)根據(jù)所處的音節(jié)不同進(jìn)行了細(xì)化。在計(jì)算段長(zhǎng)概率的時(shí)候，由于前半音節(jié)并沒(méi)有考慮二元段長(zhǎng)，所以只對(duì)后半音節(jié)計(jì)算段長(zhǎng)概率時(shí)考慮如下的計(jì)算方法如果是句頭，該音節(jié)是開(kāi)始音節(jié)，則只計(jì)算后半音節(jié)一元概率；如果不是開(kāi)始音節(jié)，則判斷該音節(jié)和前一個(gè)音節(jié)的二元組是否存在，如存在，則計(jì)算細(xì)化的后半音節(jié)二元概率；如果細(xì)化的后半音節(jié)二元組不存在，則計(jì)算不細(xì)化的后半音節(jié)二元概率；如果不細(xì)化的后半音節(jié)二元概率仍不存在，則計(jì)算后半音節(jié)的一元概率。
在DDBHMM快速搜索時(shí)計(jì)算段長(zhǎng)條件概率，是指給定前一個(gè)音節(jié)的段長(zhǎng)的條件下，計(jì)算當(dāng)前音節(jié)段長(zhǎng)的條件概率，其計(jì)算公式表述如下假設(shè)τi，τi-1分別為相鄰的前后兩個(gè)音節(jié)的段長(zhǎng)，μi，μi-1分別為其均值，σi，σi-1分別為其方差，r是τi和τi-1間的相關(guān)系數(shù)，由于可以用正態(tài)分布對(duì)段長(zhǎng)進(jìn)行很好的描述，則給定τi-1時(shí)τi的條件概率密度為p(τi/τi-1)=p(τi,τi-1)/p(τi-1)]]>=1σi2π(1-r2)exp{-12σi2(1-r2)[τi-(μi+rσiσi-1(τi-1-μi-1))]2}]]>定義u~i=ui+σir(τi-1-μi-1)/σi-1,]]>σ~i2=σi2(1-r2),]]>那么上式可以寫(xiě)成p(τi/τi-1)=1σ~i2πexp{-(τi-μ~i)22σ~i2}]]>語(yǔ)速對(duì)于段長(zhǎng)的影響是同步增長(zhǎng)或者下降的，所以一般來(lái)說(shuō)相關(guān)系數(shù)r＞0。從上式可以看出條件概率p(τi/τi-1)相當(dāng)于均值為方差為的一元正態(tài)分布。從的表達(dá)式可以看到，受到語(yǔ)速的影響，如果前一個(gè)單元段長(zhǎng)τi-1偏離其平均段長(zhǎng)μi-1，則后一個(gè)單元段長(zhǎng)τi將以同樣的傾向偏離它的平均段長(zhǎng)μi，從而使段長(zhǎng)分布自動(dòng)地調(diào)整到與說(shuō)話(huà)速度相適應(yīng)的程度。而且相關(guān)系數(shù)r越大，預(yù)測(cè)方差就越小，前一個(gè)單元段長(zhǎng)對(duì)于后一個(gè)單元段長(zhǎng)的預(yù)測(cè)就越準(zhǔn)確。因此，利用相鄰單元段長(zhǎng)之間的相關(guān)性可以更加有效地利用段長(zhǎng)信息，從而降低由于語(yǔ)速引起的插入錯(cuò)誤和刪除錯(cuò)誤。還可以看到，這里語(yǔ)速的自適應(yīng)是在識(shí)別的同時(shí)，用前一個(gè)語(yǔ)音單元對(duì)其平均段長(zhǎng)的偏差來(lái)預(yù)測(cè)本單元的段長(zhǎng)，是一種在線的自適應(yīng)方法，而且不需要獲得語(yǔ)速的測(cè)度。
如圖3所示，上述段長(zhǎng)概率動(dòng)態(tài)加權(quán)模塊工作流程為設(shè)定語(yǔ)速門(mén)限即快速門(mén)限和慢速門(mén)限，計(jì)算前一幀的平均語(yǔ)速，計(jì)算方法為得到前一幀的最優(yōu)路徑的信息，找到這個(gè)最優(yōu)路徑中個(gè)音節(jié)的分割點(diǎn)和音節(jié)號(hào)，通過(guò)分割點(diǎn)獲得各音節(jié)的實(shí)際段長(zhǎng)，假設(shè)最優(yōu)路徑上有K個(gè)音節(jié)，按下式計(jì)算當(dāng)前的平均語(yǔ)速如果快速的情況下該平均語(yǔ)速小于快速門(mén)限或者慢速的情況下該平均語(yǔ)速大于慢速門(mén)限，則用該平均語(yǔ)速對(duì)當(dāng)前幀語(yǔ)音單元段長(zhǎng)條件概率進(jìn)行指數(shù)加權(quán)，否則不對(duì)當(dāng)前幀語(yǔ)音單元段長(zhǎng)條件概率進(jìn)行加權(quán)。
如圖4所示，上述漢語(yǔ)語(yǔ)音慢速調(diào)整模塊工作流程為判斷當(dāng)前幀是否為慢速語(yǔ)音，如果不是則不進(jìn)行任何操作，如果是則計(jì)算前一幀的平均語(yǔ)速(計(jì)算方法同上)，在搜索過(guò)程中每當(dāng)一個(gè)新的音節(jié)要加入當(dāng)前路徑時(shí)，判斷這個(gè)音節(jié)是否會(huì)是易產(chǎn)生插入錯(cuò)誤的音節(jié)，如果不是，則不采取任何措施；如果是易產(chǎn)生插入錯(cuò)誤的音節(jié)，則判斷前一個(gè)音節(jié)持續(xù)時(shí)間是否較短，如果較短，認(rèn)為加入這個(gè)音節(jié)可能會(huì)產(chǎn)生插入錯(cuò)誤，則對(duì)這個(gè)新的音節(jié)加上一個(gè)懲罰概率。
從上面的說(shuō)明可以看出，本發(fā)明利用段長(zhǎng)的相關(guān)性來(lái)達(dá)到對(duì)語(yǔ)速的自適應(yīng)，而且語(yǔ)速的自適應(yīng)是在識(shí)別的同時(shí)，不需要預(yù)先獲得語(yǔ)速的測(cè)度，是一種在線的自適應(yīng)方法，而且系統(tǒng)為此增加的運(yùn)算量也很小，具有很大的推廣和應(yīng)用價(jià)值。
權(quán)利要求
1.一種語(yǔ)速自適應(yīng)的語(yǔ)音識(shí)別系統(tǒng)，采用DDBHMM模型，該語(yǔ)音識(shí)別系統(tǒng)包括一個(gè)語(yǔ)音采集裝置用于采集說(shuō)話(huà)者的語(yǔ)音信號(hào)；一個(gè)訓(xùn)練模塊用于通過(guò)訓(xùn)練搜索算法得到語(yǔ)音信號(hào)特征矢量的VQ碼本和DDBHMM模型參數(shù)；一個(gè)前端處理模塊用于對(duì)于輸入的語(yǔ)音信號(hào)進(jìn)行前端處理；一個(gè)特征提取模塊用于MFCC語(yǔ)音特征序列的提?。灰粋€(gè)基音特征提取模塊用于語(yǔ)音信號(hào)的基音特征矢量的提??；一個(gè)聲學(xué)層識(shí)別模塊用于通過(guò)DDBHMM最優(yōu)路徑搜索算法，產(chǎn)生拼音格，在搜索算法中，需要計(jì)算每個(gè)音節(jié)的段長(zhǎng)概率；一個(gè)聲調(diào)識(shí)別模塊利用基音特征矢量和拼音的分割點(diǎn)信息，得到拼音的聲調(diào)信息并加入到拼音格中；一個(gè)拼音文法理解模塊用于對(duì)拼音格進(jìn)行修剪；一個(gè)語(yǔ)言理解模塊用于將修剪后的音節(jié)格轉(zhuǎn)化為拼音圖和詞圖，并在詞圖中進(jìn)行搜索，得到最后的理解結(jié)果；其特征在于所述的訓(xùn)練模塊訓(xùn)練的DDBHMM模型參數(shù)包括前后兩個(gè)語(yǔ)音單元相連的情況下的段長(zhǎng)均值、方差和前后兩個(gè)語(yǔ)音單元段長(zhǎng)的相關(guān)系數(shù)；所述的聲學(xué)層識(shí)別模塊在DDBHMM最優(yōu)路徑搜索時(shí)計(jì)算段長(zhǎng)概率，是指給定前一個(gè)音節(jié)的段長(zhǎng)的條件下，計(jì)算當(dāng)前音節(jié)段長(zhǎng)的條件概率。
2.如權(quán)利要求1所述的語(yǔ)音識(shí)別系統(tǒng)，其特征在于所述的計(jì)算音節(jié)單元段長(zhǎng)條件概率時(shí)，對(duì)后半音節(jié)計(jì)算段長(zhǎng)條件概率使用如下的計(jì)算方法如果是句頭，該音節(jié)是開(kāi)始音節(jié)，則只計(jì)算后半音節(jié)一元概率；如果不是開(kāi)始音節(jié)，則判斷該音節(jié)和前一個(gè)音節(jié)的二元組是否存在，如存在，則計(jì)算細(xì)化的后半音節(jié)二元概率；如果細(xì)化的后半音節(jié)二元組不存在，則計(jì)算不細(xì)化的后半音節(jié)二元概率；如果不細(xì)化的后半音節(jié)二元概率仍不存在，則計(jì)算后半音節(jié)的一元概率。
3.如權(quán)利要求1所述的語(yǔ)音識(shí)別系統(tǒng)，其特征在于所述的聲學(xué)層識(shí)別模塊還包括一個(gè)段長(zhǎng)概率動(dòng)態(tài)加權(quán)模塊，工作流程為設(shè)定語(yǔ)速門(mén)限即快速門(mén)限和慢速門(mén)限，計(jì)算前一幀的平均語(yǔ)速，如果快速的情況下該平均語(yǔ)速小于快速門(mén)限或者慢速的情況下該平均語(yǔ)速大于慢速門(mén)限，則用該平均語(yǔ)速對(duì)當(dāng)前幀語(yǔ)音單元段長(zhǎng)條件概率進(jìn)行指數(shù)加權(quán)，否則不對(duì)當(dāng)前幀語(yǔ)音單元段長(zhǎng)條件概率進(jìn)行加權(quán)。
4.如權(quán)利要求1所述的語(yǔ)音識(shí)別系統(tǒng)，其特征在于所述的聲學(xué)層識(shí)別模塊還包括一個(gè)漢語(yǔ)語(yǔ)音慢速調(diào)整模塊，工作流程為首先判斷當(dāng)前幀是否為慢速語(yǔ)音，如果不是則不進(jìn)行任何操作，如果是則計(jì)算前一幀的平均語(yǔ)速，在搜索過(guò)程中每當(dāng)一個(gè)新的音節(jié)要加入當(dāng)前路徑時(shí)，判斷這個(gè)音節(jié)是否會(huì)是易產(chǎn)生插入錯(cuò)誤的音節(jié)，如果不是，則不采取任何措施；如果是易產(chǎn)生插入錯(cuò)誤的音節(jié)，則判斷前一個(gè)音節(jié)持續(xù)時(shí)間是否較短，如果較短，認(rèn)為加入這個(gè)音節(jié)可能會(huì)產(chǎn)生插入錯(cuò)誤，則對(duì)這個(gè)新的音節(jié)加上一個(gè)懲罰概率。
全文摘要
本發(fā)明提供了一種可以在線的、不需要預(yù)先獲得語(yǔ)速的測(cè)度、同時(shí)增加的計(jì)算量很小的語(yǔ)速自適應(yīng)的語(yǔ)音識(shí)別系統(tǒng)，包括語(yǔ)音采集裝置、前端處理模塊、特征提取模塊、基音特征提取模塊、聲調(diào)識(shí)別模塊、訓(xùn)練模塊、聲學(xué)層識(shí)別模塊、拼音文法理解模塊、語(yǔ)言理解模塊，訓(xùn)練模塊訓(xùn)練的模型參數(shù)包括前后兩個(gè)語(yǔ)音單元相連的情況下的段長(zhǎng)均值、方差和前后兩個(gè)語(yǔ)音單元段長(zhǎng)的相關(guān)系數(shù)；聲學(xué)層識(shí)別模塊計(jì)算的段長(zhǎng)概率，是指給定前一個(gè)音節(jié)的段長(zhǎng)的條件下，計(jì)算當(dāng)前音節(jié)段長(zhǎng)的條件概率，并且在計(jì)算段長(zhǎng)概率時(shí)，可以通過(guò)段長(zhǎng)概率動(dòng)態(tài)加權(quán)模塊和漢語(yǔ)慢速語(yǔ)音調(diào)整模塊對(duì)段長(zhǎng)概率根據(jù)語(yǔ)速進(jìn)行動(dòng)態(tài)、實(shí)時(shí)調(diào)整，以提高系統(tǒng)性能，降低系統(tǒng)的插入錯(cuò)誤和刪除錯(cuò)誤。
文檔編號(hào)G10L15/00GK1512485SQ0215940
公開(kāi)日2004年7月14日申請(qǐng)日期2002年12月31日優(yōu)先權(quán)日2002年12月31日
發(fā)明者王作英, 吳及, 肖熙, 李健申請(qǐng)人:北京天朗語(yǔ)音科技有限公司, 清華大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王作英、吳及、肖熙、李健
技術(shù)所有人：北京天朗語(yǔ)音科技有限公司、清華大學(xué)
我是此專(zhuān)利的發(fā)明人

上一篇：調(diào)音設(shè)備的制作方法
上一篇：一種輸入控制信號(hào)的方法及裝置的制作方法

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

人的語(yǔ)速相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

語(yǔ)速自適應(yīng)的語(yǔ)音識(shí)別系統(tǒng)的制作方法