一種應(yīng)用于英語口語網(wǎng)絡(luò)機考系統(tǒng)的語音識別裝置的制作方法

文檔序號：2818999閱讀：428來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：一種應(yīng)用于英語口語網(wǎng)絡(luò)機考系統(tǒng)的語音識別裝置的制作方法
一種應(yīng)用于英語口語網(wǎng)絡(luò)機考系統(tǒng)的語音識別裝置
技術(shù)領(lǐng)域：
本發(fā)明涉及一種語音識別裝置。特別涉及一種用于英語口語網(wǎng)絡(luò)機考的語音識別裝置。
背景技術(shù)：
我國教育部高等教育司于2007年5月啟動基于計算機和網(wǎng)絡(luò)的大學(xué)英語四、六級考試項目，并于2008年12月20日在全國53所高校實施大學(xué)英語網(wǎng)考點考試。隨著我國四、六級網(wǎng)考點工作的開展將徹底改變長期以來語言考試中主要依靠紙質(zhì)考試制度的弊端，無論對考生還是大學(xué)英語老師都是一個巨大的挑戰(zhàn)，是英語教學(xué)理念中的一場革命。在大學(xué)英語網(wǎng)考的口語測試系統(tǒng)中，語音識別裝置居于核心地位。在傳統(tǒng)的語音識別裝置的基礎(chǔ)上，應(yīng)用于英語口語網(wǎng)絡(luò)機考的語音識別裝置需要具有以下特性.首先，英語口語網(wǎng)絡(luò)機考系統(tǒng)一般是通過網(wǎng)絡(luò)來提供終端和服務(wù)器之間的英語識別和評估服務(wù)的，因此對語音識別裝置的一般要求是面對非特定人的。其次，語音識別裝置需要對由終端機、傳輸網(wǎng)絡(luò)和背景噪聲所帶來的不利影響具有較強的魯棒性。此外，要求其具有一定的實時性，并且具有較短的訓(xùn)練時間、較高的識別精度和較小的硬件存儲開銷。因此，在這種情況下，傳統(tǒng)的基于隱馬爾科夫模型(HMM)的語音識別方法由于需要較多的模型訓(xùn)練數(shù)據(jù)，較長的訓(xùn)練時間及識別時間，而且還需要較大的內(nèi)存空間，并且對于噪聲的魯棒性較差，因此無法應(yīng)用于面向英語口語網(wǎng)絡(luò)機考的語音識別裝置。

發(fā)明內(nèi)容為了解決上述的缺陷和不足，本發(fā)明提供了一種智能電視終端。本發(fā)明所采用的技術(shù)方案是一種用于英語口語網(wǎng)絡(luò)機考的語音識別裝置，包括輸入接口模塊、模數(shù)轉(zhuǎn)換器、數(shù)字信號處理器模塊、程序存儲器、數(shù)據(jù)存儲器和輸出接口模塊；語音信號依次經(jīng)輸入接口模塊和數(shù)轉(zhuǎn)換器連接數(shù)字信號處理器模塊的信號輸入端；數(shù)字信號處理器模塊的信號輸出端連接輸出接口模塊；所述程序存儲器和數(shù)據(jù)存儲器通過程序/數(shù)據(jù)總線連接數(shù)字信號處理模塊的通用輸入/輸出端；在程序存儲器里存放提示語音，在數(shù)據(jù)存儲器里存放所有的碼本及采樣的語音數(shù)據(jù)，所述的數(shù)字信號處理模塊包括特征提取子模塊、訓(xùn)練子模塊和識別子模塊；由特征提取子模塊和訓(xùn)練子模塊完成訓(xùn)練流程，由特征提取子模塊和識別子模塊完成識別流程；特征提取子模塊對輸入的語音提取相應(yīng)的特征參數(shù)，步驟包括先對語音進(jìn)行預(yù)加重，再加窗分幀，然后對每一幀語音求取MEL倒譜系數(shù)，用該系數(shù)作為該幀語音的特征參數(shù)；對于訓(xùn)練流程，訓(xùn)練子模塊對語音的特征參數(shù)，通過改進(jìn)的矢量量化的訓(xùn)練算法，生成后續(xù)識別時需要用到的碼本；對于識別流程，識別子模塊計算語音的特征參數(shù)與每個通過訓(xùn)練所生成的碼本之間的歐氏距離，選出距離最小的碼本所在的類作為識別結(jié)果輸出。所述改進(jìn)的矢量量化的訓(xùn)練算法，步驟包括首先用分裂法產(chǎn)生只有兩個矢量的初始碼本，再用LBG算法聚類，生成兩個子集；在兩個子集中分別用分裂法各產(chǎn)生兩個矢量的碼本，再用LBG算法優(yōu)化；如此反復(fù)M次可產(chǎn)生含2M個矢量的碼本，所述M的值根據(jù)在英語口語網(wǎng)絡(luò)機考中具體需要區(qū)分的英語語音類別進(jìn)行設(shè)定(這些語音類別是根據(jù)網(wǎng)考的實際情況來，M = 2 10，換算成類別的話數(shù)目是 4 IOM這樣一個范圍，這個類別范圍內(nèi)都可以用本方法。至于具體網(wǎng)考中有多少類別需要識別，直接用類別數(shù)求以2為底的對數(shù)，就可以得到M的取值了。)，取值范圍為M = 2 10。特征提取子模塊對輸入語音信號提取其相關(guān)的特征參數(shù)，過程為將語音信號經(jīng)過采樣，Ι-aZ—1的預(yù)加重，并且通過加窗將其分為一幀一幀的語音；對每一幀語音\，首先進(jìn)行線性預(yù)測分析，通過Levinson-Durbin算法求出其ρ階的線性預(yù)測系數(shù)LPC El1，El2，...，Elp ；接著，由LPC通過遞推，獲得倒譜系數(shù)Cl，C2, ... , cp，遞推公式如下C1 = Ei權(quán)利要求
1.一種用于英語口語網(wǎng)絡(luò)機考的語音識別裝置，其特征在于，包括輸入接口模塊、模數(shù)轉(zhuǎn)換器、數(shù)字信號處理器模塊、程序存儲器、數(shù)據(jù)存儲器和輸出接口模塊；語音信號依次經(jīng)輸入接口模塊和數(shù)轉(zhuǎn)換器連接數(shù)字信號處理器模塊的信號輸入端；數(shù)字信號處理器模塊的信號輸出端連接輸出接口模塊；所述程序存儲器和數(shù)據(jù)存儲器通過程序/數(shù)據(jù)總線連接數(shù)字信號處理模塊的通用輸入/輸出端；在程序存儲器里存放提示語音，在數(shù)據(jù)存儲器里存放所有的碼本及采樣的語音數(shù)據(jù)，所述的數(shù)字信號處理模塊包括特征提取子模塊、訓(xùn)練子模塊和識別子模塊；由特征提取子模塊和訓(xùn)練子模塊完成訓(xùn)練流程，由特征提取子模塊和識別子模塊完成識別流程；特征提取子模塊對輸入的語音提取相應(yīng)的特征參數(shù)，步驟包括先對語音進(jìn)行預(yù)加重，再加窗分幀，然后對每一幀語音求取MEL倒譜系數(shù)，用該系數(shù)作為該幀語音的特征參數(shù)；對于訓(xùn)練流程，訓(xùn)練子模塊對語音的特征參數(shù)，通過改進(jìn)的矢量量化的訓(xùn)練算法，生成后續(xù)識別時需要用到的碼本；對于識別流程，識別子模塊計算語音的特征參數(shù)與每個通過訓(xùn)練所生成的碼本之間的歐氏距離，選出距離最小的碼本所在的類作為識別結(jié)果輸出。
2.根據(jù)權(quán)利要求1所述的裝置，其特征是所述改進(jìn)的矢量量化的訓(xùn)練算法，步驟包括首先用分裂法產(chǎn)生只有兩個矢量的初始碼本，再用LBG算法聚類，生成兩個子集；在兩個子集中分別用分裂法各產(chǎn)生兩個矢量的碼本，再用LBG算法優(yōu)化；如此反復(fù)M次可產(chǎn)生含 2M個矢量的碼本，所述M的值根據(jù)在英語口語網(wǎng)絡(luò)機考中具體需要區(qū)分的英語語音類別進(jìn)行設(shè)定，取值范圍為M = 2 10。
3.根據(jù)權(quán)利要求1所述的裝置，其特征是特征提取子模塊對輸入語音信號提取其相關(guān)的特征參數(shù)，過程為將語音信號經(jīng)過采樣，Ι-aZ—1的預(yù)加重，并且通過加窗將其分為一幀一幀的語音；對每一幀語音\，首先進(jìn)行線性預(yù)測分析，通過Levinson-Durbin算法求出其ρ階的線性預(yù)測系數(shù) LPC a1; ει2，. . .，ειρ ；接著，由LPC通過遞推，獲得倒譜系數(shù)Cl，C2, ... , cp，遞推公式如下C1 = S11 (1) ^ =Σ(1_Λ/^k^-k + A， l<i<Pk=\把倒譜系數(shù)進(jìn)一步按人耳的聽覺特性變換，得到如下所示的MEL倒譜參數(shù) cn+a-MC0(n + V)k = 0MCk{n) = \+ ++k = l(2)MCk_, O +1) + a{MCk{η +1)-MCk_, (η)) k > 1其中，式(1)中的ck和式O)中為Cn表示倒譜系數(shù)，MCk表示美爾倒譜系數(shù)，η為迭代次數(shù)，k為MEL倒譜階數(shù)，取η = k ；迭代是從高往低，即η從大到0取值，最后求得的MEL倒譜系數(shù)放在 MC0 (0)，MC1 (0)，· · ·，MCp (0)中。
4.根據(jù)權(quán)利要求1所述的裝置，其特征是對于訓(xùn)練流程，訓(xùn)練子模塊采用的是基于改進(jìn)的矢量量化訓(xùn)練算法對輸入的MEL倒譜系數(shù)進(jìn)行訓(xùn)練，改進(jìn)的矢量量化訓(xùn)練的步驟包括(al)采用分裂法求取初始碼本假設(shè)當(dāng)前經(jīng)過特征提取得到的特征矢量為X，其所在的集合為S ；
5.根據(jù)權(quán)利要求2或4所述的裝置，其特征是所述LBG算法的步驟包括1)計算第m次迭代的總的畸變DwΑ—=! Σ辦足廣―巧，其中d為X與一—11的歐氏距離；
全文摘要
本發(fā)明公開了一種用于英語口語網(wǎng)絡(luò)機考的語音識別裝置，屬于語音識別的應(yīng)用領(lǐng)域。該裝置由輸入I/O、模數(shù)轉(zhuǎn)換器、數(shù)字信號處理器模塊、分別通過程序總線與數(shù)據(jù)總線與數(shù)字信號處理器模塊相連的程序存儲器和數(shù)據(jù)存儲器、輸出I/O組成。其中數(shù)字信號處理器模塊包括特征提取子模塊、訓(xùn)練子模塊和識別子模塊，完成對輸入語音的訓(xùn)練和識別過程。該裝置結(jié)構(gòu)簡單，具有一定的實時性，并且具有較短的訓(xùn)練時間、較高的識別精度和較小的硬件存儲開銷，語音識別率高，識別效果好，可以很好地應(yīng)用于英語口語網(wǎng)絡(luò)機考中。
文檔編號G10L15/06GK102436815SQ20111026897
公開日2012年5月2日申請日期2011年9月13日優(yōu)先權(quán)日2011年9月13日
發(fā)明者儲琢佳, 劉健剛, 唐加能, 張萍, 李霄翔, 李魯, 董靜, 趙力, 魏昕申請人:東南大學(xué)

完整全部詳細(xì)技術(shù)資料下載