專利名稱:一種發(fā)音穩(wěn)定段輔助的語(yǔ)音識(shí)別優(yōu)化解碼方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語(yǔ)音信號(hào)處理中分頻帶能量計(jì)算、語(yǔ)音識(shí)別中的幀同步的Viterbi束搜索領(lǐng)域,尤其涉及一種發(fā)音穩(wěn)定段輔助的語(yǔ)音識(shí)別優(yōu)化解碼方法。
背景技術(shù):
解碼算法是語(yǔ)首識(shí)別系統(tǒng)的核心模塊之一。解碼算法,或稱搜索算法,是利用已掌握的知識(shí)(聲學(xué)知識(shí)、語(yǔ)音學(xué)知識(shí)、詞典知識(shí)、語(yǔ)言模型知識(shí)等),按照一定的優(yōu)化準(zhǔn)則,在指定的空間中(從高層至底層依次為詞、聲學(xué)模型、HMM狀態(tài)空間),尋找最優(yōu)詞序列的過(guò)程。最終的詞序列是對(duì)輸入的語(yǔ)音信號(hào)在一定準(zhǔn)則下的一個(gè)最優(yōu)描述。整個(gè)解碼過(guò)程被分解成擴(kuò)展、打分、路徑合并、剪枝、最優(yōu)路徑回溯五個(gè)階段(參考文獻(xiàn)I =Xavier L Aubert,“An Overview of Decoding Techniques for Large Vocabulary ContinuousSpeech Recognition,,,Computer Speech and Language, vol. 16, no.1, pp. 89-114, Jan. 2002.)。從整體上講,解碼器在解碼過(guò)程中執(zhí)行了兩個(gè)最主要的操作1)擴(kuò)展階段產(chǎn)生所有可能的候選詞序列,同時(shí)將相似的候選詞序列以一定的結(jié)構(gòu)合并,最終構(gòu)建一個(gè)由N元文法及聲學(xué)模型狀態(tài)支撐而形成的一個(gè)龐大的有限狀態(tài)網(wǎng)絡(luò),作為語(yǔ)音識(shí)別的搜索空間。2)搜索階段在這一階段,完成活動(dòng)路徑的概率計(jì)算、路徑查找、路徑得分比較、路徑合并、插入、刪除、替換等操作。由于隱馬爾科夫模型(Hidden Markov Model, HMM)能夠很好地描述語(yǔ)音的時(shí)變性和平穩(wěn)性,傳統(tǒng)的語(yǔ)音識(shí)別系統(tǒng)多采用HMM為基本聲學(xué)單元進(jìn)行建模,并且已成功應(yīng)用于大詞匯量連續(xù)語(yǔ)音識(shí)別(Large VocabularyContinous Speech Recognition, LVCSR)的聲學(xué)建模(參考文獻(xiàn) 2 :L. R. Rabiner, " A tutorial on hidden Markov modelsand selected applications inspeech recognition " , inProc.1EEE, vol.77, no. 2,PP. 257-285,1989.)。但是,利用HMM模型為語(yǔ)音信號(hào)建模是建立在語(yǔ)音信號(hào)短時(shí)平穩(wěn)的假設(shè)上,因此HMM只能描述短時(shí)語(yǔ)音信號(hào),這種聲學(xué)建模方法缺乏利用語(yǔ)音的長(zhǎng)時(shí)信息,而以長(zhǎng)時(shí)的語(yǔ)音段為建模單元的聲學(xué)建模方法雖然更能夠反映語(yǔ)音信號(hào)非平穩(wěn)的本質(zhì),但由于計(jì)算復(fù)雜度較高,限制了它在語(yǔ)音識(shí)別中的應(yīng)用(參考文獻(xiàn)3 :M.0StendOrf,V.DigalakiS,and 0. Kimball. From HMM ' s tosegment models A unified view of stochasticmodeling for speech recognition.1EEE Transactions on Speech Audio Processing,4(5) :360-378, Sept. 1996.)。此外,傳統(tǒng)的語(yǔ)音識(shí)別系統(tǒng)的解碼模塊在為每一條路徑計(jì)算得分時(shí),會(huì)使用聲學(xué)模型得分與語(yǔ)言模型得分,并將二者融合后的總概率作為擴(kuò)展或剪枝的依據(jù)。在當(dāng)前幀t下,路徑的總概率為P(t) = P(t-l) + a ^+Q2Plm (I)其中P(t-l)是歷史路徑得分,Paffl為當(dāng)前幀的聲學(xué)概率,Plffl為語(yǔ)言模型概率。α !和α2分別為聲學(xué)概率與語(yǔ)言模型概率的權(quán)重。上述這種解碼方式僅利用了語(yǔ)音幀的聲學(xué)及語(yǔ)言學(xué)的統(tǒng)計(jì)特性。事實(shí)上,每一幀語(yǔ)音都屬于發(fā)音過(guò)程的發(fā)音起始、發(fā)音持續(xù)、發(fā)音結(jié)束等不同階段,因此具有不同的發(fā)音穩(wěn)定性。一般來(lái)講,處于發(fā)音起始及發(fā)音結(jié)束階段的語(yǔ)音幀屬于不穩(wěn)定幀,而處于發(fā)音持續(xù)階段的語(yǔ)音幀屬于穩(wěn)定幀。但是,傳統(tǒng)的語(yǔ)音識(shí)別系統(tǒng)中缺乏利用這種語(yǔ)音幀的發(fā)音穩(wěn)定性信息。
發(fā)明內(nèi)容
(一 )要解決的技術(shù)問(wèn)題本發(fā)明的目的在于解決現(xiàn)有技術(shù)中基于隱馬爾科夫模型HMM的建模缺乏利用長(zhǎng)時(shí)的語(yǔ)音段層次信息,以及現(xiàn)有搜索算法中缺乏利用語(yǔ)音幀的發(fā)音穩(wěn)定性信息等不足。(二)技術(shù)方案為了解決上述技術(shù)問(wèn)題,本發(fā)明首先對(duì)語(yǔ)音信號(hào)進(jìn)行分析,檢測(cè)出語(yǔ)音中發(fā)音動(dòng)作平穩(wěn)的語(yǔ)音段,即發(fā)音穩(wěn)定段,然后作為語(yǔ)音段層知識(shí)加入到解碼過(guò)程中。在解碼方面,根據(jù)待解碼語(yǔ)音幀的穩(wěn)定性信息,以及路徑擴(kuò)展到的位置,有選擇地跳過(guò)部分路徑,不再對(duì)其進(jìn)行解碼。從路徑總概率計(jì)算的角度講,相當(dāng)于增加了新的限制,修改了路徑總概率的計(jì)算方法,從而實(shí)現(xiàn)了基于發(fā)音穩(wěn)定段的語(yǔ)音識(shí)別解碼算法,提高了聲學(xué)模型解碼速度和精度。本發(fā)明的提出的基于發(fā)音穩(wěn)定段的語(yǔ)音識(shí)別解碼方法,包括下列步驟步驟一、獲取語(yǔ)音信號(hào)在時(shí)頻域上的能量分布并根據(jù)語(yǔ)音信號(hào)在時(shí)頻域上的能量分布,計(jì)算獲得語(yǔ)音信號(hào)的分頻帶能量曲線,以及分頻帶能量隨時(shí)間的變化率曲線;步驟二、由所述分頻帶能量曲線及分頻帶能量隨時(shí)間的變化率曲線,確定語(yǔ)音信號(hào)能量發(fā)生跳變的跳變點(diǎn);步驟三、對(duì)任一跳變點(diǎn)p,設(shè)定一時(shí)長(zhǎng)r,定義跳變點(diǎn)P附近的[p-r,p+r]區(qū)域?yàn)檎Z(yǔ)音信號(hào)的非平穩(wěn)段區(qū)域,未被劃定為非平穩(wěn)段區(qū)域的部分為發(fā)音穩(wěn)定段區(qū)域;步驟四、在語(yǔ)音識(shí)別解碼過(guò)程中,若當(dāng)前幀在所述發(fā)音穩(wěn)定段區(qū)域,且前一幀到當(dāng)前幀的路徑擴(kuò)展為發(fā)生在隱馬爾科夫模型之間的擴(kuò)展,則不執(zhí)行該路徑的擴(kuò)展,否則執(zhí)行該路徑的擴(kuò)展;其中根據(jù)路徑的擴(kuò)展在隱馬爾科夫模型中發(fā)生的位置,所述前一幀到當(dāng)前幀的路徑擴(kuò)展被劃分為隱馬爾科夫模型之間的擴(kuò)展,以及隱馬爾科夫模型的內(nèi)部擴(kuò)展兩類。本發(fā)明還提出了一種基于發(fā)音穩(wěn)定段的語(yǔ)音識(shí)別解碼裝置,其包括獲取裝置,用于獲取語(yǔ)音信號(hào)在時(shí)頻域上的能量分布并根據(jù)語(yǔ)音信號(hào)在時(shí)頻域上的能量分布,計(jì)算獲得語(yǔ)音信號(hào)的分頻帶能量曲線,以及分頻帶能量隨時(shí)間的變化率曲線.確定裝置,用于由所述分頻帶能量曲線及分頻帶能量隨時(shí)間的變化率曲線,確定語(yǔ)音信號(hào)能量發(fā)生跳變的跳變點(diǎn);劃分裝置,用于對(duì)任一跳變點(diǎn)p,設(shè)定一時(shí)長(zhǎng)r,定義跳變點(diǎn)P附近的[p-r,p+r]區(qū)域?yàn)檎Z(yǔ)音信號(hào)的非平穩(wěn)段區(qū)域,其中未被劃定為非平穩(wěn)段區(qū)域的部分為發(fā)音穩(wěn)定段區(qū)域;語(yǔ)音識(shí)別裝置,用于在語(yǔ)音識(shí)別解碼過(guò)程中,若當(dāng)前幀在所述發(fā)音穩(wěn)定段區(qū)域,且前一幀到當(dāng)前幀的路徑擴(kuò)展為發(fā)生在隱馬爾科夫模型之間的擴(kuò)展,則不執(zhí)行該路徑的擴(kuò)展,否則執(zhí)行該路徑的擴(kuò)展;其中根據(jù)路徑的擴(kuò)展在隱馬爾科夫模型中發(fā)生的位置,所述前一幀到當(dāng)前幀的路徑擴(kuò)展被劃分為隱馬爾科夫模型之間的擴(kuò)展,以及隱馬爾科夫模型的內(nèi)部擴(kuò)展兩類。(三)有益效果本發(fā)明所提出的一種將長(zhǎng)時(shí)的語(yǔ)音穩(wěn)定性信息融入語(yǔ)音識(shí)別解碼過(guò)程中的方法,融合了長(zhǎng)時(shí)語(yǔ)音信息的新方法能夠彌補(bǔ)基于隱馬爾科夫模型HMM建模方法中語(yǔ)音信號(hào)短時(shí)平穩(wěn)的假設(shè),更能反映語(yǔ)音信號(hào)非平穩(wěn)的本質(zhì)。另一方面,通過(guò)融合語(yǔ)音幀的穩(wěn)定性信息,修改解碼過(guò)程中路徑擴(kuò)展的方式,可以減少部分不必要的隱馬爾科夫模型HMM之間的擴(kuò)展,從而降低語(yǔ)音識(shí)別解碼方法的復(fù)雜度,有利于減少語(yǔ)音識(shí)別的時(shí)間。同時(shí),在相同的運(yùn)算復(fù)雜度下,識(shí)別系統(tǒng)能夠在更寬泛的范圍內(nèi),對(duì)更多潛在的最優(yōu)路徑進(jìn)行計(jì)算,有利于找到最優(yōu)的識(shí)別結(jié)果,最終提高語(yǔ)音識(shí)別系統(tǒng)的準(zhǔn)確率。
圖1是根據(jù)本發(fā)明的一種基于發(fā)音穩(wěn)定段的語(yǔ)音識(shí)別解碼方法的流程圖;圖2是根據(jù)本發(fā)明的一個(gè)計(jì)算語(yǔ)音信號(hào)語(yǔ)譜圖的流程圖;圖3是根據(jù)本發(fā)明的一個(gè)計(jì)算分頻帶能量及分頻帶能量變化率的流程圖;圖4是根據(jù)本發(fā)明的一個(gè)語(yǔ)音信號(hào)能量跳變點(diǎn)檢測(cè)的流程圖;圖5是根據(jù)本發(fā)明的一個(gè)劃定語(yǔ)音信號(hào)的發(fā)音非穩(wěn)定段及發(fā)音穩(wěn)定段的流程圖;圖6是根據(jù)本發(fā)明的一個(gè)將擴(kuò)展劃分為隱馬爾科夫模型內(nèi)部擴(kuò)展與隱馬爾科夫模型之間的擴(kuò)展流程圖;圖7是根據(jù)本發(fā)明的一個(gè)根據(jù)語(yǔ)音幀的發(fā)音穩(wěn)定性刪除隱馬爾科夫模型之間的擴(kuò)展、保留隱馬爾科夫模型內(nèi)部擴(kuò)展的解碼過(guò)程的流程圖。
具體實(shí)施例方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,以下結(jié)合具體實(shí)施例,并參照附圖,對(duì)本發(fā)明作進(jìn)一步的詳細(xì)說(shuō)明。本發(fā)明在對(duì)語(yǔ)音信號(hào)進(jìn)行分析的基礎(chǔ)上,尋找到語(yǔ)音信號(hào)中的發(fā)音穩(wěn)定段區(qū)域。在解碼時(shí),利用待解碼語(yǔ)音幀的發(fā)音穩(wěn)定性信息(即考察待解碼語(yǔ)音幀是否位于發(fā)音穩(wěn)定段區(qū)域),修改解碼過(guò)程中路徑擴(kuò)展的規(guī)則,降低解碼方法的復(fù)雜度,從而降低語(yǔ)音識(shí)別系統(tǒng)所消耗的時(shí)間。另一方面,在相同的解碼時(shí)間內(nèi),識(shí)別系統(tǒng)能夠在更寬的范圍內(nèi)進(jìn)行搜索,從而可以獲得準(zhǔn)確度更高的識(shí)別結(jié)果。具體的步驟如下一種基于發(fā)音穩(wěn)定段的語(yǔ)音識(shí)別解碼方法包括下列步驟步驟a :計(jì)算語(yǔ)音信號(hào)的語(yǔ)譜圖,得到語(yǔ)音信號(hào)時(shí)頻域上的能量分布;步驟b :根據(jù)語(yǔ)音信號(hào)在時(shí)頻域上的能量分布,計(jì)算信號(hào)的分頻帶能量曲線,以及分頻帶能量隨時(shí)間的變化率曲線;步驟c :由分頻帶能量曲線及分頻帶能量隨時(shí)間的變化率曲線,確定語(yǔ)音信號(hào)能量發(fā)生跳變的時(shí)間點(diǎn);步驟d :根據(jù)能量跳變的時(shí)間點(diǎn),劃定語(yǔ)音信號(hào)的發(fā)音非穩(wěn)定段區(qū)域和發(fā)音穩(wěn)定段區(qū)域;步驟e :在語(yǔ)音識(shí)別解碼過(guò)程中,若當(dāng)前幀在所述發(fā)音穩(wěn)定段區(qū)域,且前一幀到當(dāng)前幀的路徑擴(kuò)展為發(fā)生在隱馬爾科夫模型之間的擴(kuò)展,則不執(zhí)行該路徑的擴(kuò)展,否則執(zhí)行該路徑的擴(kuò)展。其中,根據(jù)路徑的擴(kuò)展在隱馬爾科夫模型中發(fā)生的位置,可以將路徑的擴(kuò)展劃分為隱馬爾科夫模型之間的擴(kuò)展,以及隱馬爾科夫模型內(nèi)部各狀態(tài)間的擴(kuò)展兩類。其中,在步驟a中,所述對(duì)語(yǔ)音信號(hào)計(jì)算語(yǔ)譜圖,得到信號(hào)在時(shí)頻域上的能量分布,包括對(duì)原始語(yǔ)音信號(hào)加漢寧窗,其中窗長(zhǎng)可以選用為6ms,巾貞移可以選用Ims,再經(jīng)過(guò)快速傅里葉變換(FFT),得到語(yǔ)音信號(hào)在時(shí)頻域上的能量分布。在步驟b中,根據(jù)所述語(yǔ)音信號(hào)在時(shí)頻域上的能量分布,計(jì)算信號(hào)的分頻帶能量曲線,以及分頻帶能量隨時(shí)間的變化率曲線,具體步驟包括
對(duì)語(yǔ)音信號(hào)s (η)進(jìn)行預(yù)加重,預(yù)加重系數(shù)a = 0.97。預(yù)加重后的語(yǔ)音信號(hào)S2 (η)為s2(n) = s(n)-a*s(n-l)。通過(guò)預(yù)加重,消除發(fā)生過(guò)程中聲帶和嘴唇的效應(yīng),來(lái)補(bǔ)償語(yǔ)音信號(hào)被發(fā)音系統(tǒng)所壓抑的高頻部分。之后,對(duì)語(yǔ)音信號(hào)S 加漢寧窗二0.5(1-COS(^r)),得到s, (η)=
Λ — I
s2(n)*w(n)。其中N為窗內(nèi)采樣點(diǎn)的個(gè)數(shù)。在本例中N = O. 006*16000 = 96 ;0. 006表示窗長(zhǎng)(單位秒),16000表示語(yǔ)音采樣率(單位赫茲)。對(duì)s' (η)進(jìn)行FFT,得到頻譜上的能量分布。計(jì)算O 2kHZ范圍內(nèi)三個(gè)頻帶上的頻譜能量0 O. 8kHZ、0. 8 1. 5kHZ、1. 2 2.0kHZ。后兩個(gè)頻帶略有重疊是為了盡可能捕捉共振峰變化。為克服信號(hào)中的短時(shí)的聲門(mén)脈沖及噪聲擾動(dòng),方法采用當(dāng)前幀前后特定時(shí)間(如當(dāng)前幀前后各10ms,共20ms)范圍內(nèi)的信號(hào)對(duì)當(dāng)前幀的頻譜能量進(jìn)行平滑,得到平滑后的分頻帶能量曲線E(t)。 = +其中e(t+tQ)表示t+tQ時(shí)刻的初始分頻帶能量。其中M = 10,表示平滑時(shí)采用的當(dāng)前幀前后的語(yǔ)音幀數(shù)量,總數(shù)量為2M+1。分頻帶能量隨時(shí)間t的變化率曲線AE(t)通過(guò)下式得到Α1·;(Ι) = !■;(/ + 1^-) - /·;(/ - 1^ψ)
Ti)"I Pll其中,Len表示時(shí)間范圍閾值,表示從 --時(shí)刻至〖+——時(shí)刻,經(jīng)過(guò)Len時(shí)長(zhǎng)后能
2 2
量的變化情況,而非瞬時(shí)變化。方法中可以采用Len = 50ms,得到分頻帶能量隨時(shí)間的變化率曲線。在步驟c中,所述根據(jù)分頻帶能量隨時(shí)間的變化率曲線,確定語(yǔ)音信號(hào)能量發(fā)生跳變的時(shí)間點(diǎn),具體包括如下步驟根據(jù)所述分頻帶能量隨時(shí)間的變化率曲線AE(t),選擇所述分頻帶能量隨時(shí)間的變化率超過(guò)一定閾值(9db/ms)的語(yǔ)音幀作為可能的跳變點(diǎn)。由于發(fā)音器官動(dòng)作較快時(shí),語(yǔ)音能量在短時(shí)間內(nèi)可能存在多個(gè)跳變點(diǎn),方法進(jìn)一步對(duì)間距過(guò)近的候選點(diǎn)進(jìn)行篩選。例如,對(duì)第t幀,如果在[t-Ts,t]范圍內(nèi)檢測(cè)出多個(gè)跳變點(diǎn),則只保留其中能量變化率最大的一個(gè)作為最終跳變點(diǎn),其中,可以選擇時(shí)間區(qū)域閾值Ts = 20ms。在步驟d中,所述根據(jù)能量跳變點(diǎn),劃分語(yǔ)音的發(fā)音非穩(wěn)定段區(qū)域及發(fā)音穩(wěn)定段區(qū)域,具體包括以下步驟對(duì)任一跳變點(diǎn)p,設(shè)定P前后r幀范圍[p-r,p+r]內(nèi)的語(yǔ)音段為該頻段的發(fā)音非平穩(wěn)段。其中r為非平穩(wěn)段區(qū)域劃定參數(shù)。!■取值越大,非平穩(wěn)段區(qū)域的范圍越廣,其中可以選用r= 10。對(duì)三個(gè)子頻帶,分別計(jì)算得到其發(fā)音非平穩(wěn)區(qū)域,其中不同子帶的發(fā)音非平穩(wěn)區(qū)域之間可能會(huì)有交疊。將三個(gè)子頻帶的非平穩(wěn)段區(qū)域合并,得到整個(gè)語(yǔ)音信號(hào)的非平穩(wěn)段區(qū)域。其中語(yǔ)音信號(hào)中未被劃定為非平穩(wěn)段的部分,即為檢測(cè)到的發(fā)音穩(wěn)定段。在步驟e中,所述在語(yǔ)音識(shí)別解碼過(guò)程中,若當(dāng)前幀在所述發(fā)音穩(wěn)定段區(qū)域,且前一幀到當(dāng)前幀的路徑擴(kuò)展為發(fā)生在隱馬爾科夫模型之間的擴(kuò)展,則不執(zhí)行該路徑的擴(kuò)展,否則執(zhí)行該路徑的擴(kuò)展,具體步驟包括根據(jù)檢測(cè)得到的發(fā)音穩(wěn)定段區(qū)域判斷當(dāng)前幀Ot的發(fā)音穩(wěn)定性若Ot位于發(fā)音穩(wěn)定段區(qū)域,則稱Ot為發(fā)音穩(wěn)定幀,否則為發(fā)音非穩(wěn)定幀;將發(fā)音穩(wěn)定性已知的當(dāng)前幀Ot送入解 碼器進(jìn)行解碼。在解碼時(shí),當(dāng)前幀所處的狀態(tài)被稱為激活狀態(tài),擴(kuò)展到激活狀態(tài)的路徑被稱為處于激活狀態(tài)的路徑。將所有處于激活狀態(tài)的路徑的集合記為L(zhǎng),路徑擴(kuò)展到的狀態(tài)的集合記為SS (State Set)。那么,L與SS存在這樣一種關(guān)系L中任意一條路徑I,是在解碼Ow時(shí)(即對(duì)第t-Ι時(shí)刻的語(yǔ)音幀進(jìn)行解碼)擴(kuò)展至狀態(tài)s后形成的,且s e SS。也即,s是路徑I的狀態(tài)序列中最后一個(gè)狀態(tài)。狀態(tài)集合SS中僅包括路徑集合L中任意路徑I的狀態(tài)序列中的最后一個(gè)狀態(tài)。在第t時(shí)刻,即對(duì)Ot解碼時(shí),將根據(jù)HM 拓?fù)浣Y(jié)構(gòu),預(yù)測(cè)路徑I可能到達(dá)的所有狀態(tài)s',其中s'表示s經(jīng)過(guò)一次或多次跳轉(zhuǎn)到達(dá)的第一個(gè)發(fā)射狀態(tài)。顯然,s與s'可能位于同一個(gè)HMM(HMM內(nèi)部擴(kuò)展),也可能位于不同的HMM(HMM之間的擴(kuò)展)。若當(dāng)前幀Ot為穩(wěn)定幀,且s'與s屬于不同的HM,則并不進(jìn)行從s至s'的擴(kuò)展;否貝U,若當(dāng)前幀Ot為穩(wěn)定幀且s'與s屬于同一個(gè)HM,或者當(dāng)前幀Ot為非穩(wěn)定幀,則允許路徑I從s擴(kuò)展至V,擴(kuò)展后的新路徑記為Γ,其中,路徑Γ的狀態(tài)序列比路徑I的狀態(tài)序列多一個(gè)狀態(tài)s',同時(shí)計(jì)算當(dāng)前幀0,在8'上的聲學(xué)概率p(0t|S'),并將s'加入到t時(shí)刻已擴(kuò)展到的狀態(tài)的集合newSS,將路徑I'加入到處于激活狀態(tài)的路徑的集合newL。其中,擴(kuò)展后得到路徑1,的總概率,是在路徑I的總概率基礎(chǔ)上乘以當(dāng)前幀0,在8'上的聲學(xué)概率P(ot|s')得到的,以對(duì)數(shù)形式表示,即路徑Γ的總概率等于路徑I的總概率加IogP(C)tIs' ) O此外,newSS及newL分別只包含當(dāng)前時(shí)刻下新擴(kuò)展到的狀態(tài)的集合及新形成的路徑的集合。依次處理完SS中所有的狀態(tài)后,會(huì)得到在第t時(shí)刻新擴(kuò)展到的狀態(tài)的集合newSS,以及新形成的路徑的集合newL。例外的是,對(duì)第一個(gè)語(yǔ)音幀O1解碼前,上述路徑的集合L及狀態(tài)的集合SS為空。對(duì)語(yǔ)音幀O1進(jìn)行解碼時(shí),將在所有HMM的第一個(gè)發(fā)射狀態(tài)上計(jì)算聲學(xué)模型概率,并將這些狀態(tài)加入到newSS及newL。其中,newL中所有路徑的狀態(tài)序列只包含唯一的狀態(tài),且任一條路徑Γ的總概率等于IogP(Ot I s'),其中s'為路徑Γ擴(kuò)展到的狀態(tài)。在完成當(dāng)前幀的路徑擴(kuò)展后,在下一步的剪枝過(guò)程中,首先選擇newL中總概率最大的路徑,記此總概率的對(duì)數(shù)值為Pmax,設(shè)定剪枝閾值Pb·,通過(guò)剪枝,裁減掉newL中的對(duì)數(shù)概率值低于Pmax-Pb.的所有路徑,同時(shí)將這些路徑所到達(dá)的狀態(tài)從newSS中刪除,完成對(duì)當(dāng)前幀Ot的解碼。使用剪枝后的newSS對(duì)SS進(jìn)行更新,替換SS中的內(nèi)容,并將newSS置空,使用剪枝后的newL替換L,并將newL置空,可以開(kāi)始對(duì)下一幀0t+1的解碼?;诎l(fā)音穩(wěn)定段的解碼過(guò)程,通過(guò)記錄t時(shí)刻發(fā)生的所有的狀態(tài)跳轉(zhuǎn){St_1; St},其中St_i與St可能位于同一 HMM內(nèi)部,也可能分屬于不同的HMM ;根據(jù)當(dāng)前巾貞Ot的發(fā)音穩(wěn)定性及Sg與St在HMM中的位置關(guān)系,確定路徑擴(kuò)展的方式若Ot為發(fā)音穩(wěn)定幀,且從Sw至St的跳轉(zhuǎn)為隱馬爾科夫模型之間的擴(kuò)展,則將此擴(kuò)展刪除;否則,執(zhí)行擴(kuò)展。其中所述根據(jù)路徑的擴(kuò)展在隱馬爾科夫模型中發(fā)生的位置,將路徑的擴(kuò)展劃分為隱馬爾科夫模型之間的擴(kuò)展,以及隱馬爾科夫模型的內(nèi)部擴(kuò)展兩類,具體步驟包括首先,隱馬爾科夫模型采用從左向右單向、帶自轉(zhuǎn)的拓?fù)浣Y(jié)構(gòu),模型只有惟一的一個(gè)初始狀態(tài)和一個(gè)終止?fàn)顟B(tài),并且只要進(jìn)入一個(gè)新的狀態(tài)就不能返回到以前的狀態(tài)。除初始狀態(tài)及終止?fàn)顟B(tài)外,所有中間狀態(tài)均采用高斯混合模型來(lái)描述語(yǔ)音幀特征所服從的分布。所以,在初始狀態(tài)及終止?fàn)顟B(tài)上并不消耗語(yǔ)音幀,只有在中間狀態(tài)(也稱發(fā)射狀態(tài))上才會(huì)消耗語(yǔ)音幀,并計(jì)算得到語(yǔ)音幀在相應(yīng)狀態(tài)所對(duì)應(yīng)的高斯混合模型上的聲學(xué)概率。在幀Ot時(shí)刻擴(kuò)展某一路徑I時(shí),根據(jù)隱馬爾科夫模型的拓?fù)浣Y(jié)構(gòu),計(jì)算Ot時(shí)刻I擴(kuò)展到的隱馬爾科夫模型的狀態(tài)st,以及前一幀CV1在隱馬爾科夫模型中所處的狀態(tài)Sg,若St與Sg位于同一個(gè)隱馬爾科夫模型,即St與Sg之間不存在隱馬爾科夫模型的初始狀態(tài)或終止?fàn)?態(tài),則稱在t時(shí)刻發(fā)生的從Sg至St的路徑擴(kuò)展為隱馬爾科夫模型的內(nèi)部擴(kuò)展。所以,此類擴(kuò)展發(fā)生在隱馬爾科夫模型內(nèi)部各狀態(tài)間,擴(kuò)展的方向只受到隱馬爾科夫模型拓?fù)浣Y(jié)構(gòu)的限制。擴(kuò)展時(shí),解碼器只計(jì)算語(yǔ)音幀在相應(yīng)狀態(tài)上的聲學(xué)概率。例如,采用帶自轉(zhuǎn)的從左至右線性拓?fù)浣Y(jié)構(gòu)的隱馬爾科夫模型對(duì)上下文相關(guān)的三音子“ Ι-al+b”進(jìn)行建模。其中,“ Ι-al+b”表不在前一個(gè)發(fā)音為“ I ”、后一個(gè)發(fā)音為“b”的情況下音素“al”的發(fā)音的模型。該HMM模型包括5個(gè)狀態(tài),3個(gè)發(fā)射狀態(tài),其中第1、第5狀態(tài)為非發(fā)射狀態(tài),第2、3、4狀態(tài)為發(fā)射狀態(tài)(分別記為第1、2、3發(fā)射態(tài))。在“1-al+b”上進(jìn)行打分時(shí),假設(shè)在第t幀下,路徑集合中的某一條路徑I擴(kuò)展至“Ι-al+b”的第3個(gè)狀態(tài)(即第2發(fā)射態(tài))“State 3”,且記此時(shí)刻(幀)t路徑I的總概率(語(yǔ)音開(kāi)始至第t幀的聲學(xué)模型概率與語(yǔ)言模型概率的乘積,在對(duì)數(shù)域?yàn)槎叩募雍?為P,那么,在下一時(shí)刻t+Ι,由隱馬爾科夫模型的拓?fù)浣Y(jié)構(gòu)可知,I擴(kuò)展成兩條不同的路徑I)路徑I在“State 3”內(nèi)自轉(zhuǎn),得到新的路徑Γ (Γ的狀態(tài)序列比I的狀態(tài)序列多一個(gè)“State 3”),相應(yīng)的概率更新為p' = P+log(P(0t+11 λ state3)),其中λ state3表示“State 3”的聲學(xué)模型參數(shù),本例中為高斯混合模型的參數(shù),P(0t+11 Astate3)表示t+1時(shí)刻的語(yǔ)音巾貞0t+1在狀態(tài)“State 3”上的聲學(xué)概率,log(P(0t+1| Xstate3))表不聲學(xué)概率的對(duì)數(shù)值;2)路徑I跳轉(zhuǎn)至“State 4”,得到新的路徑I" (I"的狀態(tài)序列比I的狀態(tài)序列多一個(gè)“State 4”),相應(yīng)的概率更新為 p' = p+log (P (0t+1 Xstate4)),其中 λ state4 表示“State4”的聲學(xué)模型參數(shù),p(0t+11 Astate4)表不t+1時(shí)刻的語(yǔ)音巾貞0t+1在狀態(tài)“State 4”上的聲學(xué)概率,log(P(0t+1 Astate4))表示聲學(xué)概率的對(duì)數(shù)值;對(duì)于路徑I來(lái)講,在t+Ι時(shí)刻路徑I的擴(kuò)展是在模型“Ι-al+b”內(nèi)部的各狀態(tài)間進(jìn)行的,稱這類擴(kuò)展為隱馬爾科夫模型內(nèi)部擴(kuò)展。此外,根據(jù)隱馬爾科夫模型的拓?fù)浣Y(jié)構(gòu),計(jì)算當(dāng)前幀Ot所處的狀態(tài)St,以及前一幀CV1的狀態(tài)St_i,若St與St_i分別屬于不同的隱馬爾科夫模型,則稱在t時(shí)刻從St_i至St的路徑擴(kuò)展為隱馬爾科夫模型之間的擴(kuò)展。例如,路徑I "在t+Ι時(shí)刻下位于“State 4”,在下一語(yǔ)音幀t+2,由隱馬爾科夫模型的拓?fù)浣Y(jié)構(gòu)可知,I"同樣會(huì)擴(kuò)展成兩條不同的路徑,即在“State4”上完成自轉(zhuǎn)及跳至下一狀態(tài)。但是,由于“State 4”是“1-al+b”模型的最后一個(gè)發(fā)射態(tài),“State 5”不是發(fā)射狀態(tài),既不消耗語(yǔ)音幀也不輸出概率,因此,在跳轉(zhuǎn)至下一個(gè)發(fā)射態(tài)時(shí),擴(kuò)展是在不同的HMM之間進(jìn)行的解碼器首先根據(jù)詞樹(shù)找到當(dāng)前模型“Ι-al+b”的相鄰模型,如“al-b+o3”。此時(shí),t+2時(shí)刻I"的擴(kuò)展發(fā)生在“Ι-al+b”的最后一個(gè)發(fā)射態(tài)“State 4”與“al_b+o3”的第一個(gè)發(fā)射態(tài)(即第2個(gè)狀態(tài))“State 2”之間。從發(fā)射態(tài)的角度講,是從一個(gè)HMM模型的最后一個(gè)發(fā)射態(tài)跳轉(zhuǎn)至另一個(gè)HMM模型的第一個(gè)發(fā)射態(tài)。擴(kuò)展是跨HMM模型進(jìn)行的,稱為隱馬爾科夫模型之間的擴(kuò)展。在漢語(yǔ)大詞匯量連續(xù)語(yǔ)音識(shí)別任務(wù)下,實(shí)驗(yàn)給出了使用基于發(fā)音穩(wěn)定段解碼算法前后的系統(tǒng)的識(shí)別精度。實(shí)驗(yàn)訓(xùn)練數(shù)據(jù)為863連續(xù)語(yǔ)音庫(kù),錄音語(yǔ)料取自《人民日?qǐng)?bào)》,考慮了語(yǔ)音的聲學(xué)平衡和覆蓋性。錄音環(huán)境為安靜的實(shí)驗(yàn)室環(huán)境,采樣率16KHz,采樣位數(shù)16bits。使用83位男性說(shuō)話人的數(shù)據(jù)訓(xùn)練聲學(xué)模型(48373句,55. 6小時(shí))。測(cè)試數(shù)據(jù)為863-Test數(shù)據(jù)集的240句男聲語(yǔ)料。實(shí)驗(yàn)表明,通過(guò)使用語(yǔ)音幀的穩(wěn)定性信息,在解碼時(shí)對(duì)路徑擴(kuò)展的方式進(jìn)行預(yù)測(cè),可以減少不必要的HMM之間的擴(kuò)展,將解碼速度提升22. 1%。通過(guò)限制部分不必要的HMM之間的擴(kuò)展,解碼器能夠在相同的解碼時(shí)間內(nèi),在更寬的Beam范圍內(nèi)尋找最優(yōu)路徑。在擴(kuò)大Beam后,能夠避免最優(yōu)路徑在局部得分過(guò)小被剪枝,從而使局部得分較低、但整體得分較高的路徑存活下來(lái),避免了原系統(tǒng)的部分剪枝錯(cuò)誤。實(shí)驗(yàn)結(jié)果表明,可以將系統(tǒng)的漢字相對(duì)錯(cuò)誤率降低5. 24%。以上所述的具體實(shí)施例,對(duì)本發(fā)明的目的、技術(shù)方案和有益效果進(jìn)行了進(jìn)一步詳細(xì)說(shuō)明,應(yīng)理解的是,以上所述僅為本發(fā)明的具體實(shí)施例而已,并不用于限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
1.一種基于發(fā)音穩(wěn)定段的語(yǔ)音識(shí)別解碼方法,包括下列步驟 步驟一、獲取語(yǔ)音信號(hào)在時(shí)頻域上的能量分布并根據(jù)語(yǔ)音信號(hào)在時(shí)頻域上的能量分布,計(jì)算獲得語(yǔ)音信號(hào)的分頻帶能量曲線,以及分頻帶能量隨時(shí)間的變化率曲線; 步驟二、由所述分頻帶能量曲線及分頻帶能量隨時(shí)間的變化率曲線,確定語(yǔ)音信號(hào)能量發(fā)生跳變的跳變點(diǎn); 步驟三、對(duì)任一跳變點(diǎn)P,設(shè)定一時(shí)長(zhǎng)r,定義跳變點(diǎn)p附近的[p-r,p+r]區(qū)域?yàn)檎Z(yǔ)音信號(hào)的非平穩(wěn)段區(qū)域,未被劃定為非平穩(wěn)段區(qū)域的部分為發(fā)音穩(wěn)定段區(qū)域; 步驟四、在語(yǔ)音識(shí)別解碼過(guò)程中,若當(dāng)前幀在所述發(fā)音穩(wěn)定段區(qū)域,且前一幀到當(dāng)前幀的路徑擴(kuò)展為發(fā)生在隱馬爾科夫模型之間的擴(kuò)展,則不執(zhí)行該路徑的擴(kuò)展,否則執(zhí)行該路徑的擴(kuò)展;其中根據(jù)路徑的擴(kuò)展在隱馬爾科夫模型中發(fā)生的位置,所述前一幀到當(dāng)前幀的路徑擴(kuò)展被劃分為隱馬爾科夫模型之間的擴(kuò)展,以及隱馬爾科夫模型的內(nèi)部擴(kuò)展兩類。
2.如權(quán)利要求1所述的方法,其特征在于,步驟一中,所述獲取語(yǔ)音信號(hào)在時(shí)頻域上的能量分布,具體為 對(duì)所述語(yǔ)音信號(hào)加漢寧窗,并對(duì)加窗后的語(yǔ)音信號(hào)經(jīng)過(guò)快速傅里葉變換(FFT),得到語(yǔ)音信號(hào)在時(shí)頻域上的能量分布。
3.如權(quán)利要求2所述的方法,其特征在于,所述漢寧窗的窗長(zhǎng)為6ms,巾貞移為1ms。
4.如權(quán)利要求1所述的方法,其特征在于,步驟二中,所述根據(jù)語(yǔ)音信號(hào)在時(shí)頻域上的能量分布,計(jì)算獲得語(yǔ)音信號(hào)的分頻帶能量曲線,具體步驟包括 計(jì)算O 2kHZ范圍內(nèi)三個(gè)頻帶上的頻譜能量0 0. 8kHZ、0. 8 1. 5kHZ、l. 2 2.OkHZ;采用當(dāng)前幀前后特定時(shí)間范圍內(nèi)的信號(hào)對(duì)當(dāng)前幀能量進(jìn)行平滑,得到平滑后的分頻帶能量曲線E (t)
5.如權(quán)利要求4所述的方法,其特征在于,步驟二中,所述計(jì)算分頻帶能量隨時(shí)間的變化率曲線,具體通過(guò)下面公式得到
6.如權(quán)利要求1所述的方法,其特征在于,步驟二中,所述根據(jù)分頻帶能量曲線及分頻帶能量變化曲線,確定語(yǔ)音信號(hào)能量發(fā)生跳變的時(shí)間點(diǎn),包括以下步驟 根據(jù)所述能量曲線E(t)及分頻帶能量隨時(shí)間的變化率曲線AE(t),選擇能量變化率超過(guò)一定閾值的語(yǔ)音幀作為跳變點(diǎn); 其中,對(duì)于在一預(yù)定時(shí)間范圍內(nèi)存在多個(gè)跳變點(diǎn)時(shí),選擇能量變化率最大的一個(gè)作為跳變點(diǎn)。
7.如權(quán)利要求1所述的方法,其特征在于,步驟四中,所述根據(jù)路徑的擴(kuò)展在隱馬爾科夫模型中發(fā)生的位置,將所述前一幀到當(dāng)前幀的路徑擴(kuò)展劃分為隱馬爾科夫模型之間的擴(kuò)展,以及隱馬爾科夫模型的內(nèi)部擴(kuò)展兩類,具體包括以下步驟根據(jù)隱馬爾科夫模型的拓?fù)浣Y(jié)構(gòu),計(jì)算當(dāng)前幀Ot所處的狀態(tài)st,以及前一幀(V1的狀態(tài) Sg,若St與Sg位于同一個(gè)隱馬爾科夫模型,則稱在t時(shí)刻從前一幀到當(dāng)前幀的路徑擴(kuò)展為隱馬爾科夫模型的內(nèi)部擴(kuò)展;否則,若St與st_i分別屬于不同的隱馬爾科夫模型,則稱在 t時(shí)刻從前一幀到當(dāng)前幀的路徑擴(kuò)展為隱馬爾科夫模型之間的擴(kuò)展。
8.如權(quán)利要求5所述的方法,其特征在于,所述在語(yǔ)音識(shí)別解碼過(guò)程中,對(duì)于當(dāng)前幀在所述發(fā)音穩(wěn)定段區(qū)域,且前一幀到當(dāng)前幀的路徑的擴(kuò)展為發(fā)生在隱馬爾科夫模型之間的擴(kuò)展,則不執(zhí)行該路徑的擴(kuò)展,否則執(zhí)行該路徑的擴(kuò)展具體包括如下步驟在解碼時(shí),當(dāng)前幀所處的狀態(tài)被稱為激活狀態(tài),擴(kuò)展到激活狀態(tài)的路徑被稱為處于激活狀態(tài)的路徑,將所有處于激活狀態(tài)的路徑集合記為L(zhǎng),路徑擴(kuò)展到的狀態(tài)集合記為SS,SP L中任意一條路徑1,是在第t-Ι時(shí)刻擴(kuò)展至狀態(tài)s時(shí)形成的,且s e SS ;在第t時(shí)刻,預(yù)測(cè)路徑I可能到達(dá)的所有狀態(tài)s';若當(dāng)前幀0,為穩(wěn)定幀,且s至s'的跳轉(zhuǎn)為隱馬爾科夫模型之間的擴(kuò)展,則并不進(jìn)行路徑I從s至V的擴(kuò)展;否則,允許路徑I從s擴(kuò)展至V,擴(kuò)展后的新路徑記為Γ,其中,路徑I,的狀態(tài)序列比路徑I的狀態(tài)序列多一個(gè)狀態(tài)s ^,并將s,加入到t時(shí)刻已擴(kuò)展到的新的狀態(tài)集合newSS,將路徑I,加入到t時(shí)刻處于激活狀態(tài)的新的路徑集合newL ;依次處理完SS中所有的狀態(tài)后,得到在第t時(shí)刻擴(kuò)展到的狀態(tài)的集合形成新的狀態(tài)集合newSS,以及處于激活狀態(tài)的路徑的集合形成新的路徑集合newL ; 使用newSS對(duì)SS進(jìn)行更新,即將SS中的狀態(tài)全部替換為newSS的狀態(tài),并使用newL對(duì)L 進(jìn)行更新,即將L中的路徑全部替換為newL中的路徑,并將newSS和newL置空,然后開(kāi)始對(duì)下一幀0t+1的解碼。
9.如權(quán)利要求8所述的方法,其特征在于,在得到第t時(shí)刻的新的狀態(tài)集合newSS,以及處于激活狀態(tài)的新的路徑集合newL后,選擇newL中聲學(xué)概率和語(yǔ)言模型概率之總和最大的路徑,并記t時(shí)刻當(dāng)前幀在該路徑上對(duì)應(yīng)的當(dāng)前狀態(tài)s'的聲學(xué)概率的對(duì)數(shù)值為pmax, 設(shè)定剪枝閾值Pb·,通過(guò)剪枝,裁減掉newL中所述聲學(xué)概率的對(duì)數(shù)值低于Pmax-Pbffiim的所有路徑,同時(shí)將這些路徑所到達(dá)的狀態(tài)從newSS中刪除,完成對(duì)當(dāng)前幀Ot的解碼;然后使用剪枝后的newSS和newL分別對(duì)SS和L進(jìn)行更新,并開(kāi)始對(duì)下一巾貞0t+1的解碼。
10.一種基于發(fā)音穩(wěn)定段的語(yǔ)音識(shí)別解碼裝置,其包括獲取裝置,用于獲取語(yǔ)音信號(hào)在時(shí)頻域上的能量分布并根據(jù)語(yǔ)音信號(hào)在時(shí)頻域上的能量分布,計(jì)算獲得語(yǔ)音信號(hào)的分頻帶能量曲線,以及分頻帶能量隨時(shí)間的變化率曲線;確定裝置,用于由所述分頻帶能量曲線及分頻帶能量隨時(shí)間的變化率曲線,確定語(yǔ)音信號(hào)能量發(fā)生跳變的跳變點(diǎn);劃分裝置,用于對(duì)任一跳變點(diǎn)P,設(shè)定一時(shí)長(zhǎng)r,定義跳變點(diǎn)P附近的[p-r,p+r]區(qū)域?yàn)檎Z(yǔ)音信號(hào)的非平穩(wěn)段區(qū)域,其中未被劃定為非平穩(wěn)段區(qū)域的部分為發(fā)音穩(wěn)定段區(qū)域;語(yǔ)音識(shí)別裝置,用于在語(yǔ)音識(shí)別解碼過(guò)程中,若當(dāng)前幀在所述發(fā)音穩(wěn)定段區(qū)域,且前一幀到當(dāng)前幀的路徑擴(kuò)展為發(fā)生在隱馬爾科夫模型之間的擴(kuò)展,則不執(zhí)行該路徑的擴(kuò)展,否則執(zhí)行該路徑的擴(kuò)展;其中根據(jù)路徑的擴(kuò)展在隱馬爾科夫模型中發(fā)生的位置,所述前一幀到當(dāng)前幀的路徑擴(kuò)展被劃分為隱馬爾科夫模型之間的擴(kuò)展,以及隱馬爾科夫模型的內(nèi)部擴(kuò)展兩類。
全文摘要
本發(fā)明公開(kāi)了一種基于發(fā)音穩(wěn)定段的語(yǔ)音識(shí)別解碼方法。針對(duì)語(yǔ)音識(shí)別解碼過(guò)程復(fù)雜度較高的問(wèn)題,本發(fā)明提出利用語(yǔ)音的穩(wěn)定性信息改善解碼過(guò)程中路徑擴(kuò)展的方式,達(dá)到降低解碼復(fù)雜度的目的。本發(fā)明的方案包括下列步驟對(duì)語(yǔ)音信號(hào)計(jì)算語(yǔ)譜圖;計(jì)算語(yǔ)音信號(hào)的分頻帶能量及其變化率;定位語(yǔ)音信號(hào)中能量發(fā)生跳變的時(shí)間點(diǎn);獲取語(yǔ)音的發(fā)音穩(wěn)定段;根據(jù)解碼過(guò)程中路徑擴(kuò)展發(fā)生的位置,將擴(kuò)展劃分為隱馬爾科夫模型之間的擴(kuò)展,以及隱馬爾科夫模型內(nèi)部各狀態(tài)間的擴(kuò)展兩類;跟蹤語(yǔ)音識(shí)別解碼過(guò)程,定位隱馬爾科夫模型之間的擴(kuò)展;在發(fā)音穩(wěn)定段,刪除原解碼框架下的隱馬爾科夫模型之間的擴(kuò)展,只允許路徑在隱馬爾科夫模型內(nèi)部各狀態(tài)間進(jìn)行擴(kuò)展。
文檔編號(hào)G10L19/02GK103021408SQ20121051476
公開(kāi)日2013年4月3日 申請(qǐng)日期2012年12月4日 優(yōu)先權(quán)日2012年12月4日
發(fā)明者劉文舉, 楊占磊 申請(qǐng)人:中國(guó)科學(xué)院自動(dòng)化研究所