專利名稱:一種應(yīng)用于英語口語網(wǎng)絡(luò)機考系統(tǒng)的語音識別裝置的制作方法
一種應(yīng)用于英語口語網(wǎng)絡(luò)機考系統(tǒng)的語音識別裝置
技術(shù)領(lǐng)域:
本發(fā)明涉及一種語音識別裝置。特別涉及一種用于英語口語網(wǎng)絡(luò)機考的語音識別裝置。
背景技術(shù):
我國教育部高等教育司于2007年5月啟動基于計算機和網(wǎng)絡(luò)的大學(xué)英語四、六級考試項目,并于2008年12月20日在全國53所高校實施大學(xué)英語網(wǎng)考點考試。隨著我國四、六級網(wǎng)考點工作的開展將徹底改變長期以來語言考試中主要依靠紙質(zhì)考試制度的弊端,無論對考生還是大學(xué)英語老師都是一個巨大的挑戰(zhàn),是英語教學(xué)理念中的一場革命。在大學(xué)英語網(wǎng)考的口語測試系統(tǒng)中,語音識別裝置居于核心地位。在傳統(tǒng)的語音識別裝置的基礎(chǔ)上,應(yīng)用于英語口語網(wǎng)絡(luò)機考的語音識別裝置需要具有以下特性.首先,英語口語網(wǎng)絡(luò)機考系統(tǒng)一般是通過網(wǎng)絡(luò)來提供終端和服務(wù)器之間的英語識別和評估服務(wù)的,因此對語音識別裝置的一般要求是面對非特定人的。其次,語音識別裝置需要對由終端機、傳輸網(wǎng)絡(luò)和背景噪聲所帶來的不利影響具有較強的魯棒性。此外,要求其具有一定的實時性,并且具有較短的訓(xùn)練時間、較高的識別精度和較小的硬件存儲開銷。因此,在這種情況下,傳統(tǒng)的基于隱馬爾科夫模型(HMM)的語音識別方法由于需要較多的模型訓(xùn)練數(shù)據(jù),較長的訓(xùn)練時間及識別時間,而且還需要較大的內(nèi)存空間,并且對于噪聲的魯棒性較差,因此無法應(yīng)用于面向英語口語網(wǎng)絡(luò)機考的語音識別裝置。
發(fā)明內(nèi)容為了解決上述的缺陷和不足,本發(fā)明提供了一種智能電視終端。本發(fā)明所采用的技術(shù)方案是一種用于英語口語網(wǎng)絡(luò)機考的語音識別裝置,包括輸入接口模塊、模數(shù)轉(zhuǎn)換器、數(shù)字信號處理器模塊、程序存儲器、數(shù)據(jù)存儲器和輸出接口模塊;語音信號依次經(jīng)輸入接口模塊和數(shù)轉(zhuǎn)換器連接數(shù)字信號處理器模塊的信號輸入端;數(shù)字信號處理器模塊的信號輸出端連接輸出接口模塊;所述程序存儲器和數(shù)據(jù)存儲器通過程序/數(shù)據(jù)總線連接數(shù)字信號處理模塊的通用輸入/輸出端;在程序存儲器里存放提示語音,在數(shù)據(jù)存儲器里存放所有的碼本及采樣的語音數(shù)據(jù),所述的數(shù)字信號處理模塊包括特征提取子模塊、訓(xùn)練子模塊和識別子模塊;由特征提取子模塊和訓(xùn)練子模塊完成訓(xùn)練流程,由特征提取子模塊和識別子模塊完成識別流程;特征提取子模塊對輸入的語音提取相應(yīng)的特征參數(shù),步驟包括先對語音進(jìn)行預(yù)加重,再加窗分幀,然后對每一幀語音求取MEL倒譜系數(shù),用該系數(shù)作為該幀語音的特征參數(shù);對于訓(xùn)練流程,訓(xùn)練子模塊對語音的特征參數(shù),通過改進(jìn)的矢量量化的訓(xùn)練算法,生成后續(xù)識別時需要用到的碼本;對于識別流程,識別子模塊計算語音的特征參數(shù)與每個通過訓(xùn)練所生成的碼本之間的歐氏距離,選出距離最小的碼本所在的類作為識別結(jié)果輸出。所述改進(jìn)的矢量量化的訓(xùn)練算法,步驟包括首先用分裂法產(chǎn)生只有兩個矢量的初始碼本,再用LBG算法聚類,生成兩個子集; 在兩個子集中分別用分裂法各產(chǎn)生兩個矢量的碼本,再用LBG算法優(yōu)化;如此反復(fù)M次可產(chǎn)生含2M個矢量的碼本,所述M的值根據(jù)在英語口語網(wǎng)絡(luò)機考中具體需要區(qū)分的英語語音類別進(jìn)行設(shè)定(這些語音類別是根據(jù)網(wǎng)考的實際情況來,M = 2 10,換算成類別的話數(shù)目是 4 IOM這樣一個范圍,這個類別范圍內(nèi)都可以用本方法。至于具體網(wǎng)考中有多少類別需要識別,直接用類別數(shù)求以2為底的對數(shù),就可以得到M的取值了。),取值范圍為M = 2 10。特征提取子模塊對輸入語音信號提取其相關(guān)的特征參數(shù),過程為將語音信號經(jīng)過采樣,Ι-aZ—1的預(yù)加重,并且通過加窗將其分為一幀一幀的語音;對每一幀語音\,首先進(jìn)行線性預(yù)測分析,通過Levinson-Durbin算法求出其ρ階的線性預(yù)測系數(shù)LPC El1,El2,...,Elp ;接著,由LPC通過遞推,獲得倒譜系數(shù)Cl,C2, ... , cp,遞推公式如下C1 = Ei權(quán)利要求
1.一種用于英語口語網(wǎng)絡(luò)機考的語音識別裝置,其特征在于,包括輸入接口模塊、模數(shù)轉(zhuǎn)換器、數(shù)字信號處理器模塊、程序存儲器、數(shù)據(jù)存儲器和輸出接口模塊;語音信號依次經(jīng)輸入接口模塊和數(shù)轉(zhuǎn)換器連接數(shù)字信號處理器模塊的信號輸入端;數(shù)字信號處理器模塊的信號輸出端連接輸出接口模塊;所述程序存儲器和數(shù)據(jù)存儲器通過程序/數(shù)據(jù)總線連接數(shù)字信號處理模塊的通用輸入/輸出端;在程序存儲器里存放提示語音,在數(shù)據(jù)存儲器里存放所有的碼本及采樣的語音數(shù)據(jù),所述的數(shù)字信號處理模塊包括特征提取子模塊、訓(xùn)練子模塊和識別子模塊;由特征提取子模塊和訓(xùn)練子模塊完成訓(xùn)練流程,由特征提取子模塊和識別子模塊完成識別流程;特征提取子模塊對輸入的語音提取相應(yīng)的特征參數(shù),步驟包括先對語音進(jìn)行預(yù)加重, 再加窗分幀,然后對每一幀語音求取MEL倒譜系數(shù),用該系數(shù)作為該幀語音的特征參數(shù);對于訓(xùn)練流程,訓(xùn)練子模塊對語音的特征參數(shù),通過改進(jìn)的矢量量化的訓(xùn)練算法,生成后續(xù)識別時需要用到的碼本;對于識別流程,識別子模塊計算語音的特征參數(shù)與每個通過訓(xùn)練所生成的碼本之間的歐氏距離,選出距離最小的碼本所在的類作為識別結(jié)果輸出。
2.根據(jù)權(quán)利要求1所述的裝置,其特征是所述改進(jìn)的矢量量化的訓(xùn)練算法,步驟包括首先用分裂法產(chǎn)生只有兩個矢量的初始碼本,再用LBG算法聚類,生成兩個子集;在兩個子集中分別用分裂法各產(chǎn)生兩個矢量的碼本,再用LBG算法優(yōu)化;如此反復(fù)M次可產(chǎn)生含 2M個矢量的碼本,所述M的值根據(jù)在英語口語網(wǎng)絡(luò)機考中具體需要區(qū)分的英語語音類別進(jìn)行設(shè)定,取值范圍為M = 2 10。
3.根據(jù)權(quán)利要求1所述的裝置,其特征是特征提取子模塊對輸入語音信號提取其相關(guān)的特征參數(shù),過程為將語音信號經(jīng)過采樣,Ι-aZ—1的預(yù)加重,并且通過加窗將其分為一幀一幀的語音;對每一幀語音\,首先進(jìn)行線性預(yù)測分析,通過Levinson-Durbin算法求出其ρ階的線性預(yù)測系數(shù) LPC a1; ει2,. . .,ειρ ;接著,由LPC通過遞推,獲得倒譜系數(shù)Cl,C2, ... , cp,遞推公式如下C1 = S11 (1) ^ =Σ(1_Λ/^k^-k + A, l<i<Pk=\把倒譜系數(shù)進(jìn)一步按人耳的聽覺特性變換,得到如下所示的MEL倒譜參數(shù) cn+a-MC0(n + V)k = 0MCk{n) = \+ ++k = l(2)MCk_, O +1) + a{MCk{η +1)-MCk_, (η)) k > 1其中,式(1)中的ck和式O)中為Cn表示倒譜系數(shù),MCk表示美爾倒譜系數(shù),η為迭代次數(shù),k為MEL倒譜階數(shù),取η = k ;迭代是從高往低,即η從大到0取值,最后求得的MEL倒譜系數(shù)放在 MC0 (0),MC1 (0),· · ·,MCp (0)中。
4.根據(jù)權(quán)利要求1所述的裝置,其特征是對于訓(xùn)練流程,訓(xùn)練子模塊采用的是基于改進(jìn)的矢量量化訓(xùn)練算法對輸入的MEL倒譜系數(shù)進(jìn)行訓(xùn)練,改進(jìn)的矢量量化訓(xùn)練的步驟包括(al)采用分裂法求取初始碼本假設(shè)當(dāng)前經(jīng)過特征提取得到的特征矢量為X,其所在的集合為S ;
5.根據(jù)權(quán)利要求2或4所述的裝置,其特征是所述LBG算法的步驟包括1)計算第m次迭代的總的畸變DwΑ—=! Σ辦足廣―巧,其中d為X與一—11的歐氏距離;
全文摘要
本發(fā)明公開了一種用于英語口語網(wǎng)絡(luò)機考的語音識別裝置,屬于語音識別的應(yīng)用領(lǐng)域。該裝置由輸入I/O、模數(shù)轉(zhuǎn)換器、數(shù)字信號處理器模塊、分別通過程序總線與數(shù)據(jù)總線與數(shù)字信號處理器模塊相連的程序存儲器和數(shù)據(jù)存儲器、輸出I/O組成。其中數(shù)字信號處理器模塊包括特征提取子模塊、訓(xùn)練子模塊和識別子模塊,完成對輸入語音的訓(xùn)練和識別過程。該裝置結(jié)構(gòu)簡單,具有一定的實時性,并且具有較短的訓(xùn)練時間、較高的識別精度和較小的硬件存儲開銷,語音識別率高,識別效果好,可以很好地應(yīng)用于英語口語網(wǎng)絡(luò)機考中。
文檔編號G10L15/06GK102436815SQ20111026897
公開日2012年5月2日 申請日期2011年9月13日 優(yōu)先權(quán)日2011年9月13日
發(fā)明者儲琢佳, 劉健剛, 唐加能, 張萍, 李霄翔, 李魯, 董靜, 趙力, 魏昕 申請人:東南大學(xué)