一種非特定人孤立詞語音識別裝置的制作方法

文檔序號：2832409閱讀：358來源：國知局

專利名稱：一種非特定人孤立詞語音識別裝置的制作方法
技術領域：
本實用新型涉及自動語音識別技術領域，特別是一種非特定人孤立詞語音識別裝置。
背景技術：
近年來非特定人孤立詞語音識別技術(IWR)取得了巨大的發(fā)展，識別率達到99％以上。目前在非特定人IWR系統(tǒng)中普遍采用兩種方法一種是整詞建模，整詞匹配的方法；一種是基于聲韻母建模和詞樹搜索的方法。
第一種方法把詞作為建模和識別單元，狀態(tài)的數(shù)目n與詞所包含的音子的數(shù)目保持基本一致，一般選擇2-10。在模型訓練階段中采用K均值聚類方法，首先把該詞對應的所有訓練語音平均分成n段以對應于n個狀態(tài)，計算初始模型參數(shù)，即每個狀態(tài)的觀察數(shù)據(jù)的均值和方差；再運用Viterbi算法找到每個訓練語音和臨時模型匹配的最佳路徑，回溯得到語音對應的新的狀態(tài)序列；然后重新計算模型參數(shù)，經(jīng)過3-4迭代即可得到最終模型。在識別階段，運用Viterbi算法計算輸入語音和所有候選模型的似然得分，得分中的最大值所對應的詞即為識別結果。整詞建模方法的優(yōu)點是計算量小，識別率高；缺點是需要采集大量的訓練語音，這給實際應用帶來了不便。
第二種基于聲韻母建模和詞樹搜索的算法在識別時采用基于詞樹的一遍或多遍路徑搜索算法。在建模階段，首先要選擇聲學建模單元，針對漢語的特點，一般選擇聲韻母作為聲學建模的基本單元，每個單元用隱馬爾可夫模型(HMM)建模。然后利用大量訓練數(shù)據(jù)和一個初始模型，把語音按照HMM的輸出狀態(tài)切分開來并轉化成特征序列的形式，并根據(jù)語音的上下文信息對其進行標注。最后對標注后的特征集在包含了問題集的決策樹上進行決策聚類，得到高精度的三音子模型，經(jīng)過在決策樹上的退化訓練，又可以得到上下文無關的Basephone模型。在識別階段，一般采用基于詞樹框架的寬度優(yōu)先搜索算法(如Beam Search)或深度優(yōu)先的搜索算法(如A*Search)。該算法的優(yōu)點是建模精度高，可以適用于較大規(guī)模的詞表，而且使用時無需訓練，更改詞表方便，有利于實際應用；缺點是算法復雜，需要的存儲空間大，而且識別時會引入搜索誤差，從而引起識別率的下降。

發(fā)明內容
本實用新型的目的在于提出一種新的孤立詞語音識別裝置，以滿足無需訓練的中小詞表非特定人孤立詞語音識別要求。
本實用新型提出了一種新的非特定人孤立詞語音識別裝置。實用新型的基本特征是對于給定的詞表不需要采集語音進行訓練來得到模型，而是直接把聲韻母或音節(jié)作為基元，將已事先訓練好的基元模型按照詞的聲韻母或音節(jié)序列拼接得到整詞模型，識別時采用整詞匹配算法。
一種非特定人孤立詞語音識別裝置，由數(shù)據(jù)采集裝置、數(shù)據(jù)處理裝置、數(shù)據(jù)存儲裝置、識別結果輸出裝置組成，其特征在于數(shù)據(jù)采集裝置，用于采集語音數(shù)據(jù)，并把它送給DSP進行處理；數(shù)據(jù)處理裝置，主要完成處理語音數(shù)據(jù)和識別；數(shù)據(jù)存儲裝置，主要存儲程序代碼和初始化數(shù)據(jù)，在系統(tǒng)啟動時加載；識別結果輸出裝置，完成把識別結果轉化為相應控制信號；數(shù)據(jù)采集裝置連接于數(shù)據(jù)存儲裝置、數(shù)據(jù)存儲裝置、識別結果輸出裝置。

圖1是本實用新型的孤立詞語音識別裝置圖。
具體實施方式
圖1為孤立詞語音識別裝置圖，按照功能的不同可以劃分為4個裝置1、數(shù)據(jù)采集裝置。包括話筒(M1)，模擬接口芯片TLC320AD50及放大電路(M2)。該裝置用于采集語音數(shù)據(jù)，并把它送給DSP進行處理。
2、數(shù)據(jù)處理裝置。數(shù)據(jù)處理裝置由DSP(M3)組成，DSP(數(shù)字信號處理器)是整個識別系統(tǒng)最核心的部分，主要完成處理語音數(shù)據(jù)和識別的功能。數(shù)據(jù)處理裝置也可以由ARM或單片機等微處理芯片代替。
3、數(shù)據(jù)存儲裝置。數(shù)據(jù)存儲裝置由SRAM(靜態(tài)存儲器)(M4)和FLASH(閃存)(M5)組成。其中SRAM提供程序運行所需要的臨時空間；FLASH是一種可電擦除的只讀存儲器，主要存儲程序代碼和初始化數(shù)據(jù)，在系統(tǒng)啟動時加載。
4、識別結果輸出裝置。識別結果輸出裝置主要由DSP的McBSP接口(M6)和RS232接口(M7)組成。完成把識別結果轉化為相應控制信號的功能。
權利要求1.一種非特定人孤立詞語音識別裝置，由數(shù)據(jù)采集裝置、數(shù)據(jù)處理裝置、數(shù)據(jù)存儲裝置、識別結果輸出裝置組成，其特征在于數(shù)據(jù)采集裝置，用于采集語音數(shù)據(jù)，并把它送給DSP進行處理；數(shù)據(jù)處理裝置，主要完成處理語音數(shù)據(jù)和識別；數(shù)據(jù)存儲裝置，主要存儲程序代碼和初始化數(shù)據(jù)，在系統(tǒng)啟動時加載；識別結果輸出裝置，完成把識別結果轉化為相應控制信號；數(shù)據(jù)采集裝置連接于數(shù)據(jù)存儲裝置、數(shù)據(jù)存儲裝置、識別結果輸出裝置。
2.根據(jù)權利要求1所述的非特定人孤立詞語音識別裝置，其特征在于，數(shù)據(jù)采集裝置，包括話筒(M1)，模擬接口芯片及放大電路(M2)；該裝置用于采集語音數(shù)據(jù)，并把它送給DSP進行處理。
3.根據(jù)權利要求1所述的非特定人孤立詞語音識別裝置，其特征在于，數(shù)據(jù)處理裝置由DSP(M3)組成，DSP是整個識別系統(tǒng)最核心的部分，數(shù)據(jù)處理裝置也可以由ARM或單片機等微處理芯片代替。
4.根據(jù)權利要求1所述的非特定人孤立詞語音識別裝置，其特征在于，數(shù)據(jù)存儲裝置由SRAM(M4)和FLASH(M5)組成，其中SRAM提供程序運行所需要的臨時空間；FLASH是一種可電擦除的只讀存儲器，主要存儲程序代碼和初始化數(shù)據(jù)，在系統(tǒng)啟動時加載。
5.根據(jù)權利要求1所述的非特定人孤立詞語音識別裝置，其特征在于，識別結果輸出裝置，識別結果輸出裝置主要由DSP的McBSP接口(M6)和RS232接口(M7)組成。
專利摘要本實用新型涉及自動語音識別技術領域，特別是一種非特定人孤立詞語音識別裝置。裝置包括數(shù)據(jù)采集裝置、數(shù)據(jù)處理裝置、數(shù)據(jù)存儲裝置、識別結果輸出裝置。本實用新型的方法可滿足無需訓練的中小詞表非特定人孤立詞語音識別要求?？捎糜诜翘囟ㄈ斯铝⒃~語音識別中。
文檔編號G10L15/00GK2724146SQ20042008479
公開日2005年9月7日申請日期2004年8月27日優(yōu)先權日2004年8月27日
發(fā)明者李成榮, 李峰, 浦劍濤, 岳紅強申請人:中國科學院自動化研究所

完整全部詳細技術資料下載