一種基于動態(tài)hmm事件數(shù)的提高語音識別準確率的方法
【專利摘要】本發(fā)明為大規(guī)模孤立詞語音識別提供了一種提高識別準確率的方法,針對不同的孤立詞建立了隱馬爾科夫模型(HMM)參數(shù)自適應變化的機制,解決了不同的孤立詞因HMM概率模型中事件數(shù)相同而識別準確率和識別魯棒性低的問題。實驗結果表明,本發(fā)明的方法在稍許增加識別計算量的前提下,有效地提高了大規(guī)模孤立詞語音識別的準確率。待識別孤立詞為5120詞時,多次識別準確率的平均值由91%提高到了97.3%;待識別孤立詞為10240詞時,多次識別準確率的平均值由87%提高到了96.3%。相比于傳統(tǒng)的基于統(tǒng)計概率的靜態(tài)模型的語音識別,采用本發(fā)明方法的優(yōu)勢在于針對不同用戶自適應的調(diào)整識別模型的參數(shù),從而提高識別的準確率。
【專利說明】一種基于動態(tài)HMM事件數(shù)的提高語音識別準確率的方法
【技術領域】
[0001] 本發(fā)明涉及孤立詞語音識別領域,具體涉及一種提高大規(guī)模孤立詞語音識別的準 確率的方法。
【背景技術】
[0002] 語音在特征參數(shù)提取,得到聚類編碼后,此時單純地依靠歐氏距離來判定某一個 待識別詞屬于詞庫中的哪一個詞的聚類時,是十分不準確的。語音內(nèi)在的規(guī)律是統(tǒng)計學上 的概率模型,而歐式距離反應的是向量距離聚類中心向量的距離,故需要對得到的參數(shù)和 碼本做進一步的訓練,建立更加精確的統(tǒng)計概率模型,從而更好地反映特征參數(shù)對語音內(nèi) 在規(guī)律的體現(xiàn)。隱馬爾科夫(HMM)模型是一種反應事件跳轉(zhuǎn)概率、觀察樣本出現(xiàn)概率的非 常好的數(shù)學模型,因此將語音特征參數(shù)按照一定的算法進行處理,得到HMM概率模型。
[0003] 隱馬爾可夫模型是一種用參數(shù)表示的概率模型,用于描述隨機過程統(tǒng)計特性,由 馬爾可夫鏈演變而來,一直是語音識別的一個研究熱點,在語音處理的各個領域獲得廣泛 應用。語音的HMM概率模板的建立,需要語音的特征參數(shù)向量的聚類編碼,語音向量編碼, 概率模板訓練過程進行前向、后向概率計算,直到得到一個收斂的概率模型。
[0004] 聲學模型通常是將獲取的語音特征參數(shù)使用特定的概率算法進行訓練后產(chǎn)生。在 基于HMM的語音識別中,一個聲學模型就是一個HMM模型,通常是將獲取的語音特征參數(shù)使 用HMM概率跳轉(zhuǎn)算法進行訓練后產(chǎn)生HMM模型集合。待識別語音經(jīng)過提取和HMM模型一致 的特征參數(shù),采用后向貝葉斯概率算法,計算出后驗概率,產(chǎn)生最大的后驗概率的HMM概率 模板所代表的語音樣本即為待識別語音。
[0005] 對語音數(shù)據(jù)而言,主要是時頻采樣和頻譜變換,有略微時頻特性差異的語音都可 以建立相公的HMM模型。其次,模型訓練就是利用現(xiàn)有的樣本對HMM的參數(shù)進行調(diào)整,使之 能夠準確描述不同語音對應的語音概率特征。對語音建立模型的過程實際上是對語音做數(shù) 學建模,并且假定相應的語音特識別概率有這些數(shù)學模型計算得到,并且有一個極值。對 HMM來說,主要是確定模型的基本拓撲結構,包括事件數(shù)目、事件的跳轉(zhuǎn)模式和跳轉(zhuǎn)概率等。
[0006] 不同的詞,其對應的HMM模型的事件數(shù)目是不相同的,即使人耳認為相同的語音 (同一個詞),由于不同人的發(fā)音、音調(diào)、口音,也會導致HMM參數(shù)的差異,即其所包含的HMM 事件數(shù)是不同的。隨著孤立詞個數(shù)的增加,若使用同一個HMM事件數(shù),顯然準確率會下降。
【發(fā)明內(nèi)容】
[0007] 為解決現(xiàn)有技術中存在的問題,本發(fā)明提出了一種通過動態(tài)改變HMM模型的事件 數(shù)來提高大規(guī)模孤立詞語音識別準確率的方法,解決了隨著識別孤立詞數(shù)量的增加而識別 準確率下降的問題。
[0008] 本發(fā)明通過以下技術方案實現(xiàn):
[0009] -種基于動態(tài)HMM事件數(shù)的提高大規(guī)模孤立詞語音識別準確率的方法,包括以下 步驟:
[0010] A.給出初始的HMM模型的參數(shù),所述參數(shù)包括事件數(shù)N和觀察符號數(shù)M,所述HMM 模型采用由左至右無跨越模型結構;其中,初始事件數(shù)為40,觀察符號數(shù)目為32,觀察序列 個數(shù)為20, HMM事件跳轉(zhuǎn)概率矩陣為40X20,由觀察序列的個數(shù)和觀察符號數(shù)目可以得到 一個20 X 32的觀察序列概率矩陣;初始事件概率矢量是一個1 X 20的行矩陣;
[0011] B.根據(jù)初始HMM事件數(shù)、觀察序列數(shù)以及觀察符號數(shù),采用Baum-Welch算法訓練 得到的HMM模型進行孤立詞語音識別,觀察識別的準確率和魯棒性;
[0012] C.動態(tài)地改變HMM事件數(shù)N值,步長為2,繼續(xù)訓練得到新的HMM模型,并用訓練 所用詞庫中的語音進行孤立詞語音識別,待所有詞都識別完成后,統(tǒng)計每次改變HMM事件 數(shù)所得到的識別準確率和識別的概率方差;重復該步驟,找到準確率最大和和概率方差最 小時所對應的HMM事件數(shù)N ;
[0013] D.用戶的語音錄入后經(jīng)過特征參數(shù)提取,結合步驟C得到的HMM模型參數(shù),經(jīng)過前 向概率計算并給出識別結果后;然后,自動將該用戶錄入的詞匯的語音結合詞庫中對應詞 匯的語音進行訓練,重新改變HMM的事件數(shù),并計算得到針對特定人的HMM模型及其最佳事 件數(shù)M。
[0014] 本發(fā)明的有益效果是:本發(fā)明為大規(guī)模孤立詞語音識別提供了一種提高識別準確 率的方法,針對不同的孤立詞建立了隱馬爾科夫模型(HMM)參數(shù)自適應變化的機制,解決 了不同的孤立詞因 HMM概率模型中事件數(shù)相同而識別準確率和識別魯棒性低的問題。實驗 結果表明,本發(fā)明的方法在稍許增加識別計算量的前提下,有效地提高了大規(guī)模孤立詞語 音識別的準確率。待識別孤立詞為5120詞時,多次識別準確率的平均值由91%提高到了 97. 3% ;待識別孤立詞為10240詞時,多次識別準確率的平均值由87%提高到了 96. 3%。 相比于傳統(tǒng)的基于統(tǒng)計概率的靜態(tài)模型的語音識別,采用本發(fā)明方法的優(yōu)勢在于針對不同 用戶自適應的調(diào)整識別模型的參數(shù),從而提高識別的準確率。
【專利附圖】
【附圖說明】
[0015] 圖1是本發(fā)明的基于動態(tài)HMM事件數(shù)的提高語音識別準確率的方法的流程圖。
【具體實施方式】
[0016] 下面結合【專利附圖】
【附圖說明】及【具體實施方式】對本發(fā)明進一步說明。
[0017] 本發(fā)明使用的隱馬爾可夫HMM模型概率參數(shù)如下:
[0018] (1)N,HMM模型中的事件數(shù)。HMM模型中事件數(shù)是隱含的,在以后的表述中,標記模 型中的各個事件為{Si, S2, . . .,SN},在t時刻所處的事件為qt。
[0019] (2)M,HMM模型中每個事件下可以觀察到序列中的元素的數(shù)目,即觀察符號數(shù)。標 記各個觀察符號為¥={力^ 2,1,%},觀察序列為0={〇1,〇2,1^,%},其中 〇,為集合¥中的 一種觀察符號,T為觀察序列長度。
[0020] ⑶事件轉(zhuǎn)移概率分布A = [aij],其中
[0021] a。. = p [qt+1 = Sj | qt = Sj 1 < i < N,1 < j < N。
[0022] (4)觀察序列概率分布B = [bj (k)],其中
[0023] bj (k) = p [ot = vk I qt = Sj] 1 < k < M,1 < j < N。
[0024] (5)初始事件概率分布π = [jiJ,其中
[0025] π i = P[qi = SJ 1 彡 i 彡 N。
[0026] 待識別孤立詞中識別正確的詞的數(shù)目除以所有的待識別孤立詞,得到的百分比結 果用于表示識別的準確率。每一個孤立詞識別后都有一個識別準確率,當HMM參數(shù)發(fā)生變 化時,該識別準確率也會變化,不同HMM參數(shù)下識別準確率的方差用于表示識別的魯棒性, 方差越小,其魯棒性越好。
[0027] 根據(jù)Baum-Welch算法由語音特征參數(shù)經(jīng)過聚類計算后得到的編碼來計算HMM模 型參數(shù)時,初始事件概率分布不重要,只要滿足概率的和為1即可,只會對計算過程中的迭 代次數(shù)有輕微影響。因此本發(fā)明的初始事件概率分布^ = 1/N。
[0028] 在具體的計算實現(xiàn)過程中,本發(fā)明采用的算法為貝葉斯前向、后向概率計算和 Baum-welch算法,附圖1是本發(fā)明的方法的實現(xiàn)的流程圖,詳述如下:
[0029] 1.首先確定初始的HMM模型的參數(shù),并對模型進行訓練,經(jīng)語音識別過程后,得到 一個初始的HMM模型,該概率模型對不同的詞匯不是最優(yōu)的。模型的結構包括事件數(shù)N以 及每個事件對應的觀察符號數(shù)M。對于孤立詞語音識別,可根據(jù)語音長度選取合適的HMM事 件數(shù),實驗表明太大的事件數(shù)會導致識別準確率下降。對離散HMM,觀察符號數(shù)原則上由樣 本空間決定,但受計算量的限制,一般可取16?64,經(jīng)實驗,除了某些詞,大部分詞的Μ在 24?50之間識別的準確率不會有太大波動。
[0030] 本發(fā)明采用ΗΜΜ的初始事件數(shù)為40,觀察符號數(shù)目為32,對應特征參數(shù)的向量聚 類的個數(shù),即Μ = 32,同時確定觀察序列的個數(shù)為20。因此,由事件數(shù)和觀察符號個數(shù)可以 得到一個40X20的事件跳轉(zhuǎn)概率矩陣,由觀察序列的個數(shù)和觀察符號數(shù)目可以得到一個 20X32的觀察序列概率矩陣;初始事件概率矢量是一個1X20的行矩陣。
[0031] 2.根據(jù)初始ΗΜΜ事件數(shù)和觀察序列,采用Baum-Welch算法訓練得到的ΗΜΜ模型進 行孤立詞語音識別,觀察識別的準確率和魯棒性。訓練過程中,改變HMM模型的事件數(shù),每 次N值的改變步長為2。繼續(xù)訓練得到新的HMM模型,并用訓練所用詞庫中的語音進行孤立 詞語音識別。待所有詞都識別完成后,統(tǒng)計每次改變HMM事件數(shù)所得到的識別準確率和識 別的概率方差。重復該步驟,找到準確率最大時和概率方差最小時所對應的HMM事件數(shù)。
[0032] 本發(fā)明待識別孤立詞為5120詞,多次識別準確率的最大值為97. 3%,待識別孤立 詞為10240詞時,多次識別準確率的最大值為96. 3% ;此時,每個詞所對應的HMM的事件數(shù) 就是最優(yōu)的,若繼續(xù)變化HMM的事件數(shù),不論增大還是減小,準確率都會低于該最大值;且 同時,每個詞識別概率的方差也是最小的。
[0033] 3.實際應用中,用戶輸入語音詞匯實現(xiàn)自適應學習,用戶錄入一個詞匯的語音,經(jīng) 過參數(shù)提取后,結合詞庫中的每個詞匯的HMM,經(jīng)前向概率計算后,得到所有的概率,經(jīng)過排 序,找出最大的概率值,那么此時用戶錄入的詞匯就是最大概率值所對應的那個詞庫中的 詞匯。之后,系統(tǒng)使用該用戶錄入的詞匯結合詞庫中的這個詞匯,重新訓練得到新的該詞匯 的HMM模型,即新的觀察事件數(shù)。
[0034] 至此,本發(fā)明的方法實現(xiàn)了語音識別算法自適應地學習調(diào)整模型參數(shù)。
[0035] 以上內(nèi)容是結合具體的優(yōu)選實施方式對本發(fā)明所作的進一步詳細說明,不能認定 本發(fā)明的具體實施只局限于這些說明。對于本發(fā)明所屬【技術領域】的普通技術人員來說,在 不脫離本發(fā)明構思的前提下,還可以做出若干簡單推演或替換,都應當視為屬于本發(fā)明的 保護范圍。
【權利要求】
1. 一種基于動態(tài)HMM事件數(shù)的提高語音識別準確率的方法,其特征在于,所述方法包 括以下步驟: A. 給出初始的HMM模型的參數(shù),所述參數(shù)包括事件數(shù)N和觀察符號數(shù)M,所述HMM模型 采用由左至右無跨越模型結構;其中,初始事件數(shù)為40,觀察符號數(shù)目為32,觀察序列個數(shù) 為20, HMM事件跳轉(zhuǎn)概率矩陣為40X20,由觀察序列的個數(shù)和觀察符號數(shù)目可以得到一個 20X32的觀察序列概率矩陣;初始事件概率矢量是一個1X20的行矩陣 B. 根據(jù)初始HMM事件數(shù)、觀察序列數(shù)以及觀察符號數(shù),采用Baum-Welch算法訓練得到 的HMM模型進行孤立詞語音識別,觀察識別的準確率和魯棒性; C. 對于訓練所用詞庫中的每一個詞匯,動態(tài)地改變HMM事件數(shù)N值,步長為2,繼續(xù)訓 練得到新的HMM模型,并用訓練所用詞庫中的語音進行孤立詞語音識別,待所有詞都識別 完成后,統(tǒng)計每次改變HMM事件數(shù)所得到的識別準確率和識別的概率方差;重復該步驟,找 到準確率最大和概率方差最小時所對應的HMM事件數(shù)N ; D. 用戶的語音錄入后經(jīng)過特征參數(shù)提取,結合步驟C得到的HMM模型參數(shù),經(jīng)過前向概 率計算并給出識別結果后;然后,自動將該用戶錄入的詞匯的語音結合詞庫中對應詞匯的 語音進行訓練,重新改變HMM的事件數(shù),并計算得到針對特定人的HMM模型及其最佳事件數(shù) M〇
2. 根據(jù)權利要求1所述的方法,其特征在于:所述步驟A中的觀察符號數(shù)Μ在24?50 之間取值。
3. 根據(jù)權利要求1所述的方法,其特征在于:用待識別孤立詞中識別正確的詞的數(shù)目 除以所有的待識別孤立詞,得到的結果以百分比來表示所述準確率。
4. 根據(jù)權利要求1所述的方法,其特征在于:所述步驟C中,找到準確率最大和概率方 差最小時所對應的ΗΜΜ事件數(shù)Ν,具體為:當待識別孤立詞為5120詞,多次識別準確率的最 大值為97. 3%,待識別孤立詞為10240詞時,多次識別準確率的最大值為96. 3%。
【文檔編號】G10L15/00GK104064179SQ201410281284
【公開日】2014年9月24日 申請日期:2014年6月20日 優(yōu)先權日:2014年6月20日
【發(fā)明者】劉明, 王明江 申請人:哈爾濱工業(yè)大學深圳研究生院