一種基于維特比算法的音素識別方法
【專利摘要】本發(fā)明屬于語音識別領(lǐng)域,具體的設(shè)計了一種基于維特比算法的音素識別方法,通過提取相應音素的音頻特征,利用Baum-Welch算法進行訓練建模,得到相應的音素識別模型,對于每一個輸入的語音利用維特比算法計算進行語音中音素判別識別。本發(fā)明在通過觀測隊列進行預測,計算狀態(tài)轉(zhuǎn)移時,充分考慮了之前狀態(tài)下的幀特征觀測情況,從而解決了這一問題。利用維特比算法可以很好的達到音素識別的需要,相較于機器學習算法,也有更好的時間復雜度優(yōu)勢。
【專利說明】一種基于維特比算法的音素識別方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于音素語音識別領(lǐng)域,具體涉及一種利用維特比算法的音素識別方法,即對于已知的漢語音素進行相應識別的方法。
【背景技術(shù)】
[0002]音素是音韻學當中語言的最基本單位。在音韻學中,音素的組合便構(gòu)成了有意義的單元例如詞或者詞素。音素也經(jīng)常被描述為與表達相對,備用以形成有意義的基本分割單位。由于音素是語音的最小分割單位,能否正確的識別音素在音頻切分、語音識別、語音關(guān)鍵詞識別等應用中有非常重要的作用。
[0003]目前,音素識別這一課題已經(jīng)被很多研究者進行了深入的研究分析,其主要的方法已經(jīng)比較固定。一般情況下,對于音素的識別都是基于每個音素的一小段語音音頻。首先對于音頻進行音頻信號的預處理,即對于音頻信號進行分幀,過濾等。然后將提取相應的音頻特征以用于識別分析,最后利用算法依據(jù)提取的音素音頻特征對于音頻文件進行音素識別。
[0004]在音素的識別算法中,目前比較流行的是最大熵、互信息、傳統(tǒng)隱馬爾可夫模型、條件隨機域以及人工神經(jīng)網(wǎng)絡(luò)等機器學習等相關(guān)算法。而這些算法都有自己相應的問題,例如互信息算法往往需要與別的算法混合,而傳統(tǒng)隱馬爾可夫往往有標簽偏見問題的問題,而機器學習算法在實現(xiàn)上非常復雜。
【發(fā)明內(nèi)容】
[0005]為克服現(xiàn)有技術(shù)上的不足,本發(fā)明主要目的在于提供了一種利用維特比算法的音素識別方法,其通過音素中關(guān)鍵幀的識別,透過不同幀狀態(tài)的轉(zhuǎn)移作為觀測值,利用維特比算法對于這種狀態(tài)轉(zhuǎn)移進行記錄,從而可以有效地識別出擁有不同特征幀順序的音素,達到音素識別區(qū)分的效果。
[0006]為解決上述問題,本實用新型采用如下技術(shù)方案:
[0007]目前主流的音頻識別方法往往在算法復雜度和標簽偏見問題上無法得到很好的權(quán)衡,而維特比算法相對而言比較好的解決了這一問題。其最大的特征是狀態(tài)轉(zhuǎn)移不在只參考一個前一個狀態(tài)的情況或者觀測值,而是通過遞歸的方式,獲得一個時間序列當中所有觀測值對于狀態(tài)轉(zhuǎn)移的影響。
[0008]本發(fā)明主要首先需要收集相應的音素樣本作為后面訓練馬爾可夫模型中形成相應的觀測序列的依據(jù)。本發(fā)明中,所需的音頻特征即簡單的音頻片段語譜圖,也就是每一幀所對應的頻率向量。
[0009]而后,會將相應數(shù)量的頻率向量結(jié)合成為一個向量組作為馬爾可夫模型中的一個觀測值,這主要是為了減少訓練和預測中所需要輸入的輸入數(shù)據(jù)維度,從而可以有效地降低算法的運行時間效率。
[0010]每個音素我們都會收集相應的若干音頻片段并得到該音頻片段的多個幀頻率向量組,每一個向量組我們都會將它認為是一個相應觀測向量中的一個觀測,這樣我們就可以得到所有因素所對應的觀測。同時也會收集一些非音素音頻片段的幀頻率向量組,所有這些向量組便形成輸出觀測值符號集合O (O為每個狀態(tài)對應的可能的觀察值數(shù)目,記M個
觀察值為O1......0m,記t時刻觀察到的觀察值為Ot其中Ot e (O1......0m) ),O中每一個元素
都為一個向量組。
[0011]對于收集的所有正反樣本(正樣本為音素的片段,反樣本為非音素片段),我們都將其歸納入狀態(tài)集合S (即模型有幾個狀態(tài)組成,設(shè)有N個狀態(tài),S= {Si I i=l, 2,……N},記t時刻模型所處的狀態(tài)為St,St e (S1……Sn)),同時對于每個音素片段的最后一個幀頻率向量組,我們都將其加入終了狀態(tài)F集合當中。這樣我們已經(jīng)有了隱馬爾可夫模型中相應的0,S和F集合三個基本要素。
[0012]下一步將利用Baum-Welch算法,通過0,S作為輸入,就可以得到最后的隱馬爾可夫另外的三個要素即狀態(tài)轉(zhuǎn)移概率的集合A,輸出觀測值概率的集合B以及系統(tǒng)初始狀態(tài)概率的集合π。
[0013]在這里,A為所有可能的轉(zhuǎn)移概率所構(gòu)成的轉(zhuǎn)移概率矩陣,即
[0014]
【權(quán)利要求】
1.一種基于維特比算法的音素識別方法,其特征在于:其方法為:使用原始的語音時頻信號當中的每時刻頻率向量作為訓練的輸入向量,利用Baum-WeIch算法構(gòu)建隱馬爾可夫模型以及其所有的要素,最后,對于每一個輸入的語音利用維特比算法計算進行語音中音素判別識別。
2.根據(jù)權(quán)利要求1所述的基于維特比算法的音素識別方法,其特征在于:所述利用維特比算法計算進行語音中音素判別識別的方法步驟如下: (a)、收集足夠大量的音頻文件作為訓練樣本,其中不僅有大量的音素信息,同時還要收集大量的非音素的音頻文件作為訓練的反面樣本來提升識別的準確度; (b)、使用原始的語音時頻信號的頻率向量作為輸入訓練的音頻特征向量,其中,需要對頻率向量做歸一化處理; (C)、將歸一化后的特征矩陣,作為隱馬爾可夫模型中的輸出觀測值符號集合O,將每一個音素以及一個非音素狀態(tài)作為隱馬爾可夫模型中的狀態(tài)集合S,利用Baum-Welch算法,通過觀測值符號集合O,狀態(tài)集合S作為輸入,得到最后的隱馬爾可夫另外的三個要素即狀態(tài)轉(zhuǎn)移概率的集合A,輸出觀測值概率的集合B以及系統(tǒng)初始狀態(tài)概率的集合Ji ; (d)、當?shù)玫剿枰碾[馬爾可夫模型之后,每當輸入一段音頻,都對其作相同的特征處理,即得到時頻信號的頻率向量,并歸并成若干矩陣;然后,將這些矩陣與每一個狀態(tài)所對應的矩陣進行對比,繼而得到該音頻的一個狀態(tài)轉(zhuǎn)移向量; (e)、該狀態(tài)轉(zhuǎn)移向量作為輸入,利用維特比算法和之前的隱馬爾可夫模型得到一個狀態(tài)轉(zhuǎn)移矩陣,利用所述狀態(tài)轉(zhuǎn)移矩陣,即可判斷出該音頻是否為某個音素,或者不為任何一個音素。
3.根據(jù)權(quán)利要求2所述的基于維特比算法的音素識別方法,其特征在于:所述步驟(b)中,在得到頻率向 量集之后,將每100個頻率向量歸并為一個頻率向量組作為一個單一的觀測存在;對于頻率向量中的所有數(shù)據(jù)要進行歸一化處理,即保證將頻率向量中所有的數(shù)據(jù)都規(guī)范到O到I之間的小數(shù),同時只保留小數(shù)點之后兩位。
4.根據(jù)權(quán)利要求2所述的基于維特比算法的音素識別方法,其特征在于:所述步驟(c)中,利用Baum-Welch算法對于已經(jīng)產(chǎn)生的觀測值符號集合O與狀態(tài)集合S進行相應的訓練操作;其具體方法為:首先,要初始化一個A,B,和π作為原始的迭代輸入;設(shè)現(xiàn)在有樣本音頻數(shù)目為N則,A為NXN矩陣,此時,則每一項為.即保證每一列的和為I ; 同理,假設(shè)此時O有M個元素,則此時會形成一個NXM矩陣,且每項為^保證所有行上的數(shù)字加起來為I ;同理,相應的π也用同樣的方式進行初始化。
5.根據(jù)權(quán)利要求2所述的基于維特比算法的音素識別方法,其特征在于:所述步驟(d)中,當?shù)玫捷斎氲囊粋€音頻第一個頻率向量矩陣為X= (X1、x2、X3......X100I,用來與它進行比較,從而確定該矩陣屬于什么狀態(tài)的狀態(tài)對應音頻頻率矩陣為O1 = (o;is 012、013......0:1!5(5;},計算11與0:1、&與0:2等的相關(guān)性系數(shù),得到相關(guān)性系數(shù)向量~0; = IrXO11.' iiSOiZ…計算其均值即得^^如果仏巧:> 80%,則可以斷定兩個向量組相似,即輸入的的音頻的每一個向量組,屬于觀測值符號集合O中的哪一個觀測值。
6.根據(jù)權(quán)利要求2所述的基于維特比算法的音素識別方法,其特征在于:所述步驟(e)中,對于最終得到的狀態(tài)向量S,如果其狀態(tài)轉(zhuǎn)移永遠在一個音素狀態(tài)上進行自循環(huán),則推斷輸入的音頻為該音素音頻; 如果在狀態(tài)轉(zhuǎn)移序列中,有狀態(tài)遷移出了某個音素所標識的狀態(tài),即S序列中并不全為某一音素標識的狀態(tài),則`該音頻不屬于某音素的音頻或者不屬于任何音素的音頻。
【文檔編號】G10L15/14GK103871406SQ201210541534
【公開日】2014年6月18日 申請日期:2012年12月13日 優(yōu)先權(quán)日:2012年12月13日
【發(fā)明者】王雷 申請人:上海八方視界網(wǎng)絡(luò)科技有限公司