一種發(fā)音穩(wěn)定段輔助的語(yǔ)音識(shí)別優(yōu)化解碼方法及裝置的制作方法

文檔序號(hào)：2833673閱讀：439來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：一種發(fā)音穩(wěn)定段輔助的語(yǔ)音識(shí)別優(yōu)化解碼方法及裝置的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及語(yǔ)音信號(hào)處理中分頻帶能量計(jì)算、語(yǔ)音識(shí)別中的幀同步的Viterbi束搜索領(lǐng)域，尤其涉及一種發(fā)音穩(wěn)定段輔助的語(yǔ)音識(shí)別優(yōu)化解碼方法。
背景技術(shù)：
解碼算法是語(yǔ)首識(shí)別系統(tǒng)的核心模塊之一。解碼算法，或稱搜索算法，是利用已掌握的知識(shí)(聲學(xué)知識(shí)、語(yǔ)音學(xué)知識(shí)、詞典知識(shí)、語(yǔ)言模型知識(shí)等)，按照一定的優(yōu)化準(zhǔn)則，在指定的空間中(從高層至底層依次為詞、聲學(xué)模型、HMM狀態(tài)空間)，尋找最優(yōu)詞序列的過(guò)程。最終的詞序列是對(duì)輸入的語(yǔ)音信號(hào)在一定準(zhǔn)則下的一個(gè)最優(yōu)描述。整個(gè)解碼過(guò)程被分解成擴(kuò)展、打分、路徑合并、剪枝、最優(yōu)路徑回溯五個(gè)階段(參考文獻(xiàn)I =Xavier L Aubert,“An Overview of Decoding Techniques for Large Vocabulary ContinuousSpeech Recognition，，，Computer Speech and Language, vol. 16, no.1, pp. 89-114, Jan. 2002.)。從整體上講，解碼器在解碼過(guò)程中執(zhí)行了兩個(gè)最主要的操作1)擴(kuò)展階段產(chǎn)生所有可能的候選詞序列，同時(shí)將相似的候選詞序列以一定的結(jié)構(gòu)合并，最終構(gòu)建一個(gè)由N元文法及聲學(xué)模型狀態(tài)支撐而形成的一個(gè)龐大的有限狀態(tài)網(wǎng)絡(luò)，作為語(yǔ)音識(shí)別的搜索空間。2)搜索階段在這一階段，完成活動(dòng)路徑的概率計(jì)算、路徑查找、路徑得分比較、路徑合并、插入、刪除、替換等操作。由于隱馬爾科夫模型(Hidden Markov Model, HMM)能夠很好地描述語(yǔ)音的時(shí)變性和平穩(wěn)性，傳統(tǒng)的語(yǔ)音識(shí)別系統(tǒng)多采用HMM為基本聲學(xué)單元進(jìn)行建模，并且已成功應(yīng)用于大詞匯量連續(xù)語(yǔ)音識(shí)別(Large VocabularyContinous Speech Recognition, LVCSR)的聲學(xué)建模(參考文獻(xiàn) 2 :L. R. Rabiner, " A tutorial on hidden Markov modelsand selected applications inspeech recognition " , inProc.1EEE, vol.77, no. 2,PP. 257-285，1989.)。但是，利用HMM模型為語(yǔ)音信號(hào)建模是建立在語(yǔ)音信號(hào)短時(shí)平穩(wěn)的假設(shè)上，因此HMM只能描述短時(shí)語(yǔ)音信號(hào)，這種聲學(xué)建模方法缺乏利用語(yǔ)音的長(zhǎng)時(shí)信息，而以長(zhǎng)時(shí)的語(yǔ)音段為建模單元的聲學(xué)建模方法雖然更能夠反映語(yǔ)音信號(hào)非平穩(wěn)的本質(zhì)，但由于計(jì)算復(fù)雜度較高，限制了它在語(yǔ)音識(shí)別中的應(yīng)用(參考文獻(xiàn)3 :M.0StendOrf，V.DigalakiS，and 0. Kimball. From HMM ' s tosegment models A unified view of stochasticmodeling for speech recognition.1EEE Transactions on Speech Audio Processing,4(5) :360-378, Sept. 1996.)。此外，傳統(tǒng)的語(yǔ)音識(shí)別系統(tǒng)的解碼模塊在為每一條路徑計(jì)算得分時(shí)，會(huì)使用聲學(xué)模型得分與語(yǔ)言模型得分，并將二者融合后的總概率作為擴(kuò)展或剪枝的依據(jù)。在當(dāng)前幀t下，路徑的總概率為P(t) = P(t-l) + a ^+Q2Plm (I)其中P(t-l)是歷史路徑得分，Paffl為當(dāng)前幀的聲學(xué)概率，Plffl為語(yǔ)言模型概率。α !和α2分別為聲學(xué)概率與語(yǔ)言模型概率的權(quán)重。上述這種解碼方式僅利用了語(yǔ)音幀的聲學(xué)及語(yǔ)言學(xué)的統(tǒng)計(jì)特性。事實(shí)上，每一幀語(yǔ)音都屬于發(fā)音過(guò)程的發(fā)音起始、發(fā)音持續(xù)、發(fā)音結(jié)束等不同階段，因此具有不同的發(fā)音穩(wěn)定性。一般來(lái)講，處于發(fā)音起始及發(fā)音結(jié)束階段的語(yǔ)音幀屬于不穩(wěn)定幀，而處于發(fā)音持續(xù)階段的語(yǔ)音幀屬于穩(wěn)定幀。但是，傳統(tǒng)的語(yǔ)音識(shí)別系統(tǒng)中缺乏利用這種語(yǔ)音幀的發(fā)音穩(wěn)定性信息。

發(fā)明內(nèi)容
(一 )要解決的技術(shù)問(wèn)題本發(fā)明的目的在于解決現(xiàn)有技術(shù)中基于隱馬爾科夫模型HMM的建模缺乏利用長(zhǎng)時(shí)的語(yǔ)音段層次信息，以及現(xiàn)有搜索算法中缺乏利用語(yǔ)音幀的發(fā)音穩(wěn)定性信息等不足。(二)技術(shù)方案為了解決上述技術(shù)問(wèn)題，本發(fā)明首先對(duì)語(yǔ)音信號(hào)進(jìn)行分析，檢測(cè)出語(yǔ)音中發(fā)音動(dòng)作平穩(wěn)的語(yǔ)音段，即發(fā)音穩(wěn)定段，然后作為語(yǔ)音段層知識(shí)加入到解碼過(guò)程中。在解碼方面，根據(jù)待解碼語(yǔ)音幀的穩(wěn)定性信息，以及路徑擴(kuò)展到的位置，有選擇地跳過(guò)部分路徑，不再對(duì)其進(jìn)行解碼。從路徑總概率計(jì)算的角度講，相當(dāng)于增加了新的限制，修改了路徑總概率的計(jì)算方法，從而實(shí)現(xiàn)了基于發(fā)音穩(wěn)定段的語(yǔ)音識(shí)別解碼算法，提高了聲學(xué)模型解碼速度和精度。本發(fā)明的提出的基于發(fā)音穩(wěn)定段的語(yǔ)音識(shí)別解碼方法，包括下列步驟步驟一、獲取語(yǔ)音信號(hào)在時(shí)頻域上的能量分布并根據(jù)語(yǔ)音信號(hào)在時(shí)頻域上的能量分布，計(jì)算獲得語(yǔ)音信號(hào)的分頻帶能量曲線，以及分頻帶能量隨時(shí)間的變化率曲線；步驟二、由所述分頻帶能量曲線及分頻帶能量隨時(shí)間的變化率曲線，確定語(yǔ)音信號(hào)能量發(fā)生跳變的跳變點(diǎn)；步驟三、對(duì)任一跳變點(diǎn)p，設(shè)定一時(shí)長(zhǎng)r，定義跳變點(diǎn)P附近的[p-r，p+r]區(qū)域?yàn)檎Z(yǔ)音信號(hào)的非平穩(wěn)段區(qū)域，未被劃定為非平穩(wěn)段區(qū)域的部分為發(fā)音穩(wěn)定段區(qū)域；步驟四、在語(yǔ)音識(shí)別解碼過(guò)程中，若當(dāng)前幀在所述發(fā)音穩(wěn)定段區(qū)域，且前一幀到當(dāng)前幀的路徑擴(kuò)展為發(fā)生在隱馬爾科夫模型之間的擴(kuò)展，則不執(zhí)行該路徑的擴(kuò)展，否則執(zhí)行該路徑的擴(kuò)展；其中根據(jù)路徑的擴(kuò)展在隱馬爾科夫模型中發(fā)生的位置，所述前一幀到當(dāng)前幀的路徑擴(kuò)展被劃分為隱馬爾科夫模型之間的擴(kuò)展，以及隱馬爾科夫模型的內(nèi)部擴(kuò)展兩類。本發(fā)明還提出了一種基于發(fā)音穩(wěn)定段的語(yǔ)音識(shí)別解碼裝置，其包括獲取裝置，用于獲取語(yǔ)音信號(hào)在時(shí)頻域上的能量分布并根據(jù)語(yǔ)音信號(hào)在時(shí)頻域上的能量分布，計(jì)算獲得語(yǔ)音信號(hào)的分頻帶能量曲線，以及分頻帶能量隨時(shí)間的變化率曲線.確定裝置，用于由所述分頻帶能量曲線及分頻帶能量隨時(shí)間的變化率曲線，確定語(yǔ)音信號(hào)能量發(fā)生跳變的跳變點(diǎn)；劃分裝置，用于對(duì)任一跳變點(diǎn)p，設(shè)定一時(shí)長(zhǎng)r，定義跳變點(diǎn)P附近的[p-r，p+r]區(qū)域?yàn)檎Z(yǔ)音信號(hào)的非平穩(wěn)段區(qū)域，其中未被劃定為非平穩(wěn)段區(qū)域的部分為發(fā)音穩(wěn)定段區(qū)域；語(yǔ)音識(shí)別裝置，用于在語(yǔ)音識(shí)別解碼過(guò)程中，若當(dāng)前幀在所述發(fā)音穩(wěn)定段區(qū)域，且前一幀到當(dāng)前幀的路徑擴(kuò)展為發(fā)生在隱馬爾科夫模型之間的擴(kuò)展，則不執(zhí)行該路徑的擴(kuò)展，否則執(zhí)行該路徑的擴(kuò)展；其中根據(jù)路徑的擴(kuò)展在隱馬爾科夫模型中發(fā)生的位置，所述前一幀到當(dāng)前幀的路徑擴(kuò)展被劃分為隱馬爾科夫模型之間的擴(kuò)展，以及隱馬爾科夫模型的內(nèi)部擴(kuò)展兩類。(三)有益效果本發(fā)明所提出的一種將長(zhǎng)時(shí)的語(yǔ)音穩(wěn)定性信息融入語(yǔ)音識(shí)別解碼過(guò)程中的方法，融合了長(zhǎng)時(shí)語(yǔ)音信息的新方法能夠彌補(bǔ)基于隱馬爾科夫模型HMM建模方法中語(yǔ)音信號(hào)短時(shí)平穩(wěn)的假設(shè)，更能反映語(yǔ)音信號(hào)非平穩(wěn)的本質(zhì)。另一方面，通過(guò)融合語(yǔ)音幀的穩(wěn)定性信息，修改解碼過(guò)程中路徑擴(kuò)展的方式，可以減少部分不必要的隱馬爾科夫模型HMM之間的擴(kuò)展，從而降低語(yǔ)音識(shí)別解碼方法的復(fù)雜度，有利于減少語(yǔ)音識(shí)別的時(shí)間。同時(shí)，在相同的運(yùn)算復(fù)雜度下，識(shí)別系統(tǒng)能夠在更寬泛的范圍內(nèi)，對(duì)更多潛在的最優(yōu)路徑進(jìn)行計(jì)算，有利于找到最優(yōu)的識(shí)別結(jié)果，最終提高語(yǔ)音識(shí)別系統(tǒng)的準(zhǔn)確率。

圖1是根據(jù)本發(fā)明的一種基于發(fā)音穩(wěn)定段的語(yǔ)音識(shí)別解碼方法的流程圖；圖2是根據(jù)本發(fā)明的一個(gè)計(jì)算語(yǔ)音信號(hào)語(yǔ)譜圖的流程圖；圖3是根據(jù)本發(fā)明的一個(gè)計(jì)算分頻帶能量及分頻帶能量變化率的流程圖；圖4是根據(jù)本發(fā)明的一個(gè)語(yǔ)音信號(hào)能量跳變點(diǎn)檢測(cè)的流程圖；圖5是根據(jù)本發(fā)明的一個(gè)劃定語(yǔ)音信號(hào)的發(fā)音非穩(wěn)定段及發(fā)音穩(wěn)定段的流程圖；圖6是根據(jù)本發(fā)明的一個(gè)將擴(kuò)展劃分為隱馬爾科夫模型內(nèi)部擴(kuò)展與隱馬爾科夫模型之間的擴(kuò)展流程圖；圖7是根據(jù)本發(fā)明的一個(gè)根據(jù)語(yǔ)音幀的發(fā)音穩(wěn)定性刪除隱馬爾科夫模型之間的擴(kuò)展、保留隱馬爾科夫模型內(nèi)部擴(kuò)展的解碼過(guò)程的流程圖。
具體實(shí)施例方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白，以下結(jié)合具體實(shí)施例，并參照附圖，對(duì)本發(fā)明作進(jìn)一步的詳細(xì)說(shuō)明。本發(fā)明在對(duì)語(yǔ)音信號(hào)進(jìn)行分析的基礎(chǔ)上，尋找到語(yǔ)音信號(hào)中的發(fā)音穩(wěn)定段區(qū)域。在解碼時(shí)，利用待解碼語(yǔ)音幀的發(fā)音穩(wěn)定性信息(即考察待解碼語(yǔ)音幀是否位于發(fā)音穩(wěn)定段區(qū)域)，修改解碼過(guò)程中路徑擴(kuò)展的規(guī)則，降低解碼方法的復(fù)雜度，從而降低語(yǔ)音識(shí)別系統(tǒng)所消耗的時(shí)間。另一方面，在相同的解碼時(shí)間內(nèi)，識(shí)別系統(tǒng)能夠在更寬的范圍內(nèi)進(jìn)行搜索，從而可以獲得準(zhǔn)確度更高的識(shí)別結(jié)果。具體的步驟如下一種基于發(fā)音穩(wěn)定段的語(yǔ)音識(shí)別解碼方法包括下列步驟步驟a :計(jì)算語(yǔ)音信號(hào)的語(yǔ)譜圖，得到語(yǔ)音信號(hào)時(shí)頻域上的能量分布；步驟b :根據(jù)語(yǔ)音信號(hào)在時(shí)頻域上的能量分布，計(jì)算信號(hào)的分頻帶能量曲線，以及分頻帶能量隨時(shí)間的變化率曲線；步驟c :由分頻帶能量曲線及分頻帶能量隨時(shí)間的變化率曲線，確定語(yǔ)音信號(hào)能量發(fā)生跳變的時(shí)間點(diǎn)；步驟d :根據(jù)能量跳變的時(shí)間點(diǎn)，劃定語(yǔ)音信號(hào)的發(fā)音非穩(wěn)定段區(qū)域和發(fā)音穩(wěn)定段區(qū)域；步驟e :在語(yǔ)音識(shí)別解碼過(guò)程中，若當(dāng)前幀在所述發(fā)音穩(wěn)定段區(qū)域，且前一幀到當(dāng)前幀的路徑擴(kuò)展為發(fā)生在隱馬爾科夫模型之間的擴(kuò)展，則不執(zhí)行該路徑的擴(kuò)展，否則執(zhí)行該路徑的擴(kuò)展。其中，根據(jù)路徑的擴(kuò)展在隱馬爾科夫模型中發(fā)生的位置，可以將路徑的擴(kuò)展劃分為隱馬爾科夫模型之間的擴(kuò)展，以及隱馬爾科夫模型內(nèi)部各狀態(tài)間的擴(kuò)展兩類。其中，在步驟a中，所述對(duì)語(yǔ)音信號(hào)計(jì)算語(yǔ)譜圖，得到信號(hào)在時(shí)頻域上的能量分布，包括對(duì)原始語(yǔ)音信號(hào)加漢寧窗，其中窗長(zhǎng)可以選用為6ms,巾貞移可以選用Ims,再經(jīng)過(guò)快速傅里葉變換(FFT)，得到語(yǔ)音信號(hào)在時(shí)頻域上的能量分布。在步驟b中，根據(jù)所述語(yǔ)音信號(hào)在時(shí)頻域上的能量分布，計(jì)算信號(hào)的分頻帶能量曲線，以及分頻帶能量隨時(shí)間的變化率曲線，具體步驟包括
對(duì)語(yǔ)音信號(hào)s (η)進(jìn)行預(yù)加重，預(yù)加重系數(shù)a = 0.97。預(yù)加重后的語(yǔ)音信號(hào)S2 (η)為s2(n) = s(n)-a*s(n-l)。通過(guò)預(yù)加重，消除發(fā)生過(guò)程中聲帶和嘴唇的效應(yīng)，來(lái)補(bǔ)償語(yǔ)音信號(hào)被發(fā)音系統(tǒng)所壓抑的高頻部分。之后，對(duì)語(yǔ)音信號(hào)S 加漢寧窗二0.5(1-COS(^r))，得到s, (η)=
Λ — I
s2(n)*w(n)。其中N為窗內(nèi)采樣點(diǎn)的個(gè)數(shù)。在本例中N = O. 006*16000 = 96 ;0. 006表示窗長(zhǎng)(單位秒)，16000表示語(yǔ)音采樣率(單位赫茲)。對(duì)s' (η)進(jìn)行FFT，得到頻譜上的能量分布。計(jì)算O 2kHZ范圍內(nèi)三個(gè)頻帶上的頻譜能量0 O. 8kHZ、0. 8 1. 5kHZ、1. 2 2.0kHZ。后兩個(gè)頻帶略有重疊是為了盡可能捕捉共振峰變化。為克服信號(hào)中的短時(shí)的聲門(mén)脈沖及噪聲擾動(dòng)，方法采用當(dāng)前幀前后特定時(shí)間(如當(dāng)前幀前后各10ms，共20ms)范圍內(nèi)的信號(hào)對(duì)當(dāng)前幀的頻譜能量進(jìn)行平滑，得到平滑后的分頻帶能量曲線E(t)。 = +其中e(t+tQ)表示t+tQ時(shí)刻的初始分頻帶能量。其中M = 10,表示平滑時(shí)采用的當(dāng)前幀前后的語(yǔ)音幀數(shù)量，總數(shù)量為2M+1。分頻帶能量隨時(shí)間t的變化率曲線AE(t)通過(guò)下式得到Α1·；(Ι) = !■；(/ + 1^-) - /·；(/ - 1^ψ)
Ti)"I Pll其中，Len表示時(shí)間范圍閾值，表示從 --時(shí)刻至〖+——時(shí)刻，經(jīng)過(guò)Len時(shí)長(zhǎng)后能
2 2
量的變化情況，而非瞬時(shí)變化。方法中可以采用Len = 50ms,得到分頻帶能量隨時(shí)間的變化率曲線。在步驟c中，所述根據(jù)分頻帶能量隨時(shí)間的變化率曲線，確定語(yǔ)音信號(hào)能量發(fā)生跳變的時(shí)間點(diǎn)，具體包括如下步驟根據(jù)所述分頻帶能量隨時(shí)間的變化率曲線AE(t)，選擇所述分頻帶能量隨時(shí)間的變化率超過(guò)一定閾值(9db/ms)的語(yǔ)音幀作為可能的跳變點(diǎn)。由于發(fā)音器官動(dòng)作較快時(shí)，語(yǔ)音能量在短時(shí)間內(nèi)可能存在多個(gè)跳變點(diǎn)，方法進(jìn)一步對(duì)間距過(guò)近的候選點(diǎn)進(jìn)行篩選。例如，對(duì)第t幀，如果在[t-Ts，t]范圍內(nèi)檢測(cè)出多個(gè)跳變點(diǎn)，則只保留其中能量變化率最大的一個(gè)作為最終跳變點(diǎn)，其中，可以選擇時(shí)間區(qū)域閾值Ts = 20ms。在步驟d中，所述根據(jù)能量跳變點(diǎn)，劃分語(yǔ)音的發(fā)音非穩(wěn)定段區(qū)域及發(fā)音穩(wěn)定段區(qū)域，具體包括以下步驟對(duì)任一跳變點(diǎn)p，設(shè)定P前后r幀范圍[p-r，p+r]內(nèi)的語(yǔ)音段為該頻段的發(fā)音非平穩(wěn)段。其中r為非平穩(wěn)段區(qū)域劃定參數(shù)。！■取值越大，非平穩(wěn)段區(qū)域的范圍越廣，其中可以選用r= 10。對(duì)三個(gè)子頻帶，分別計(jì)算得到其發(fā)音非平穩(wěn)區(qū)域，其中不同子帶的發(fā)音非平穩(wěn)區(qū)域之間可能會(huì)有交疊。將三個(gè)子頻帶的非平穩(wěn)段區(qū)域合并，得到整個(gè)語(yǔ)音信號(hào)的非平穩(wěn)段區(qū)域。其中語(yǔ)音信號(hào)中未被劃定為非平穩(wěn)段的部分，即為檢測(cè)到的發(fā)音穩(wěn)定段。在步驟e中，所述在語(yǔ)音識(shí)別解碼過(guò)程中，若當(dāng)前幀在所述發(fā)音穩(wěn)定段區(qū)域，且前一幀到當(dāng)前幀的路徑擴(kuò)展為發(fā)生在隱馬爾科夫模型之間的擴(kuò)展，則不執(zhí)行該路徑的擴(kuò)展，否則執(zhí)行該路徑的擴(kuò)展，具體步驟包括根據(jù)檢測(cè)得到的發(fā)音穩(wěn)定段區(qū)域判斷當(dāng)前幀Ot的發(fā)音穩(wěn)定性若Ot位于發(fā)音穩(wěn)定段區(qū)域，則稱Ot為發(fā)音穩(wěn)定幀，否則為發(fā)音非穩(wěn)定幀；將發(fā)音穩(wěn)定性已知的當(dāng)前幀Ot送入解碼器進(jìn)行解碼。在解碼時(shí)，當(dāng)前幀所處的狀態(tài)被稱為激活狀態(tài)，擴(kuò)展到激活狀態(tài)的路徑被稱為處于激活狀態(tài)的路徑。將所有處于激活狀態(tài)的路徑的集合記為L(zhǎng)，路徑擴(kuò)展到的狀態(tài)的集合記為SS (State Set)。那么，L與SS存在這樣一種關(guān)系L中任意一條路徑I，是在解碼Ow時(shí)(即對(duì)第t-Ι時(shí)刻的語(yǔ)音幀進(jìn)行解碼)擴(kuò)展至狀態(tài)s后形成的，且s e SS。也即，s是路徑I的狀態(tài)序列中最后一個(gè)狀態(tài)。狀態(tài)集合SS中僅包括路徑集合L中任意路徑I的狀態(tài)序列中的最后一個(gè)狀態(tài)。在第t時(shí)刻，即對(duì)Ot解碼時(shí)，將根據(jù)HM 拓?fù)浣Y(jié)構(gòu)，預(yù)測(cè)路徑I可能到達(dá)的所有狀態(tài)s'，其中s'表示s經(jīng)過(guò)一次或多次跳轉(zhuǎn)到達(dá)的第一個(gè)發(fā)射狀態(tài)。顯然，s與s'可能位于同一個(gè)HMM(HMM內(nèi)部擴(kuò)展)，也可能位于不同的HMM(HMM之間的擴(kuò)展)。若當(dāng)前幀Ot為穩(wěn)定幀，且s'與s屬于不同的HM，則并不進(jìn)行從s至s'的擴(kuò)展；否貝U，若當(dāng)前幀Ot為穩(wěn)定幀且s'與s屬于同一個(gè)HM，或者當(dāng)前幀Ot為非穩(wěn)定幀，則允許路徑I從s擴(kuò)展至V，擴(kuò)展后的新路徑記為Γ，其中，路徑Γ的狀態(tài)序列比路徑I的狀態(tài)序列多一個(gè)狀態(tài)s'，同時(shí)計(jì)算當(dāng)前幀0,在8'上的聲學(xué)概率p(0t|S')，并將s'加入到t時(shí)刻已擴(kuò)展到的狀態(tài)的集合newSS，將路徑I'加入到處于激活狀態(tài)的路徑的集合newL。其中，擴(kuò)展后得到路徑1,的總概率，是在路徑I的總概率基礎(chǔ)上乘以當(dāng)前幀0,在8'上的聲學(xué)概率P(ot|s')得到的，以對(duì)數(shù)形式表示，即路徑Γ的總概率等于路徑I的總概率加IogP(C)tIs' ) O此外,newSS及newL分別只包含當(dāng)前時(shí)刻下新擴(kuò)展到的狀態(tài)的集合及新形成的路徑的集合。依次處理完SS中所有的狀態(tài)后，會(huì)得到在第t時(shí)刻新擴(kuò)展到的狀態(tài)的集合newSS，以及新形成的路徑的集合newL。例外的是，對(duì)第一個(gè)語(yǔ)音幀O1解碼前，上述路徑的集合L及狀態(tài)的集合SS為空。對(duì)語(yǔ)音幀O1進(jìn)行解碼時(shí)，將在所有HMM的第一個(gè)發(fā)射狀態(tài)上計(jì)算聲學(xué)模型概率，并將這些狀態(tài)加入到newSS及newL。其中,newL中所有路徑的狀態(tài)序列只包含唯一的狀態(tài)，且任一條路徑Γ的總概率等于IogP(Ot I s')，其中s'為路徑Γ擴(kuò)展到的狀態(tài)。在完成當(dāng)前幀的路徑擴(kuò)展后，在下一步的剪枝過(guò)程中，首先選擇newL中總概率最大的路徑，記此總概率的對(duì)數(shù)值為Pmax,設(shè)定剪枝閾值Pb·，通過(guò)剪枝，裁減掉newL中的對(duì)數(shù)概率值低于Pmax-Pb.的所有路徑，同時(shí)將這些路徑所到達(dá)的狀態(tài)從newSS中刪除，完成對(duì)當(dāng)前幀Ot的解碼。使用剪枝后的newSS對(duì)SS進(jìn)行更新，替換SS中的內(nèi)容，并將newSS置空，使用剪枝后的newL替換L，并將newL置空，可以開(kāi)始對(duì)下一幀0t+1的解碼?；诎l(fā)音穩(wěn)定段的解碼過(guò)程，通過(guò)記錄t時(shí)刻發(fā)生的所有的狀態(tài)跳轉(zhuǎn){St_1; St}，其中St_i與St可能位于同一 HMM內(nèi)部,也可能分屬于不同的HMM ;根據(jù)當(dāng)前巾貞Ot的發(fā)音穩(wěn)定性及Sg與St在HMM中的位置關(guān)系，確定路徑擴(kuò)展的方式若Ot為發(fā)音穩(wěn)定幀，且從Sw至St的跳轉(zhuǎn)為隱馬爾科夫模型之間的擴(kuò)展，則將此擴(kuò)展刪除；否則，執(zhí)行擴(kuò)展。其中所述根據(jù)路徑的擴(kuò)展在隱馬爾科夫模型中發(fā)生的位置，將路徑的擴(kuò)展劃分為隱馬爾科夫模型之間的擴(kuò)展，以及隱馬爾科夫模型的內(nèi)部擴(kuò)展兩類，具體步驟包括首先，隱馬爾科夫模型采用從左向右單向、帶自轉(zhuǎn)的拓?fù)浣Y(jié)構(gòu)，模型只有惟一的一個(gè)初始狀態(tài)和一個(gè)終止?fàn)顟B(tài)，并且只要進(jìn)入一個(gè)新的狀態(tài)就不能返回到以前的狀態(tài)。除初始狀態(tài)及終止?fàn)顟B(tài)外，所有中間狀態(tài)均采用高斯混合模型來(lái)描述語(yǔ)音幀特征所服從的分布。所以，在初始狀態(tài)及終止?fàn)顟B(tài)上并不消耗語(yǔ)音幀，只有在中間狀態(tài)(也稱發(fā)射狀態(tài))上才會(huì)消耗語(yǔ)音幀，并計(jì)算得到語(yǔ)音幀在相應(yīng)狀態(tài)所對(duì)應(yīng)的高斯混合模型上的聲學(xué)概率。在幀Ot時(shí)刻擴(kuò)展某一路徑I時(shí)，根據(jù)隱馬爾科夫模型的拓?fù)浣Y(jié)構(gòu)，計(jì)算Ot時(shí)刻I擴(kuò)展到的隱馬爾科夫模型的狀態(tài)st，以及前一幀CV1在隱馬爾科夫模型中所處的狀態(tài)Sg，若St與Sg位于同一個(gè)隱馬爾科夫模型，即St與Sg之間不存在隱馬爾科夫模型的初始狀態(tài)或終止?fàn)?態(tài)，則稱在t時(shí)刻發(fā)生的從Sg至St的路徑擴(kuò)展為隱馬爾科夫模型的內(nèi)部擴(kuò)展。所以，此類擴(kuò)展發(fā)生在隱馬爾科夫模型內(nèi)部各狀態(tài)間，擴(kuò)展的方向只受到隱馬爾科夫模型拓?fù)浣Y(jié)構(gòu)的限制。擴(kuò)展時(shí)，解碼器只計(jì)算語(yǔ)音幀在相應(yīng)狀態(tài)上的聲學(xué)概率。例如，采用帶自轉(zhuǎn)的從左至右線性拓?fù)浣Y(jié)構(gòu)的隱馬爾科夫模型對(duì)上下文相關(guān)的三音子“ Ι-al+b”進(jìn)行建模。其中，“ Ι-al+b”表不在前一個(gè)發(fā)音為“ I ”、后一個(gè)發(fā)音為“b”的情況下音素“al”的發(fā)音的模型。該HMM模型包括5個(gè)狀態(tài)，3個(gè)發(fā)射狀態(tài)，其中第1、第5狀態(tài)為非發(fā)射狀態(tài)，第2、3、4狀態(tài)為發(fā)射狀態(tài)(分別記為第1、2、3發(fā)射態(tài))。在“1-al+b”上進(jìn)行打分時(shí)，假設(shè)在第t幀下，路徑集合中的某一條路徑I擴(kuò)展至“Ι-al+b”的第3個(gè)狀態(tài)(即第2發(fā)射態(tài))“State 3”，且記此時(shí)刻(幀)t路徑I的總概率(語(yǔ)音開(kāi)始至第t幀的聲學(xué)模型概率與語(yǔ)言模型概率的乘積，在對(duì)數(shù)域?yàn)槎叩募雍?為P，那么，在下一時(shí)刻t+Ι，由隱馬爾科夫模型的拓?fù)浣Y(jié)構(gòu)可知，I擴(kuò)展成兩條不同的路徑I)路徑I在“State 3”內(nèi)自轉(zhuǎn)，得到新的路徑Γ (Γ的狀態(tài)序列比I的狀態(tài)序列多一個(gè)“State 3”)，相應(yīng)的概率更新為p' = P+log(P(0t+11 λ state3))，其中λ state3表示“State 3”的聲學(xué)模型參數(shù)，本例中為高斯混合模型的參數(shù)，P(0t+11 Astate3)表示t+1時(shí)刻的語(yǔ)音巾貞0t+1在狀態(tài)“State 3”上的聲學(xué)概率，log(P(0t+1| Xstate3))表不聲學(xué)概率的對(duì)數(shù)值；2)路徑I跳轉(zhuǎn)至“State 4”，得到新的路徑I" (I"的狀態(tài)序列比I的狀態(tài)序列多一個(gè)“State 4”)，相應(yīng)的概率更新為 p' = p+log (P (0t+1 Xstate4)),其中 λ state4 表示“State4”的聲學(xué)模型參數(shù)，p(0t+11 Astate4)表不t+1時(shí)刻的語(yǔ)音巾貞0t+1在狀態(tài)“State 4”上的聲學(xué)概率，log(P(0t+1 Astate4))表示聲學(xué)概率的對(duì)數(shù)值；對(duì)于路徑I來(lái)講，在t+Ι時(shí)刻路徑I的擴(kuò)展是在模型“Ι-al+b”內(nèi)部的各狀態(tài)間進(jìn)行的，稱這類擴(kuò)展為隱馬爾科夫模型內(nèi)部擴(kuò)展。此外，根據(jù)隱馬爾科夫模型的拓?fù)浣Y(jié)構(gòu)，計(jì)算當(dāng)前幀Ot所處的狀態(tài)St，以及前一幀CV1的狀態(tài)St_i，若St與St_i分別屬于不同的隱馬爾科夫模型，則稱在t時(shí)刻從St_i至St的路徑擴(kuò)展為隱馬爾科夫模型之間的擴(kuò)展。例如，路徑I "在t+Ι時(shí)刻下位于“State 4”，在下一語(yǔ)音幀t+2，由隱馬爾科夫模型的拓?fù)浣Y(jié)構(gòu)可知，I"同樣會(huì)擴(kuò)展成兩條不同的路徑，即在“State4”上完成自轉(zhuǎn)及跳至下一狀態(tài)。但是，由于“State 4”是“1-al+b”模型的最后一個(gè)發(fā)射態(tài)，“State 5”不是發(fā)射狀態(tài)，既不消耗語(yǔ)音幀也不輸出概率，因此，在跳轉(zhuǎn)至下一個(gè)發(fā)射態(tài)時(shí)，擴(kuò)展是在不同的HMM之間進(jìn)行的解碼器首先根據(jù)詞樹(shù)找到當(dāng)前模型“Ι-al+b”的相鄰模型，如“al-b+o3”。此時(shí)，t+2時(shí)刻I"的擴(kuò)展發(fā)生在“Ι-al+b”的最后一個(gè)發(fā)射態(tài)“State 4”與“al_b+o3”的第一個(gè)發(fā)射態(tài)(即第2個(gè)狀態(tài))“State 2”之間。從發(fā)射態(tài)的角度講，是從一個(gè)HMM模型的最后一個(gè)發(fā)射態(tài)跳轉(zhuǎn)至另一個(gè)HMM模型的第一個(gè)發(fā)射態(tài)。擴(kuò)展是跨HMM模型進(jìn)行的，稱為隱馬爾科夫模型之間的擴(kuò)展。在漢語(yǔ)大詞匯量連續(xù)語(yǔ)音識(shí)別任務(wù)下，實(shí)驗(yàn)給出了使用基于發(fā)音穩(wěn)定段解碼算法前后的系統(tǒng)的識(shí)別精度。實(shí)驗(yàn)訓(xùn)練數(shù)據(jù)為863連續(xù)語(yǔ)音庫(kù)，錄音語(yǔ)料取自《人民日?qǐng)?bào)》，考慮了語(yǔ)音的聲學(xué)平衡和覆蓋性。錄音環(huán)境為安靜的實(shí)驗(yàn)室環(huán)境，采樣率16KHz，采樣位數(shù)16bits。使用83位男性說(shuō)話人的數(shù)據(jù)訓(xùn)練聲學(xué)模型(48373句，55. 6小時(shí))。測(cè)試數(shù)據(jù)為863-Test數(shù)據(jù)集的240句男聲語(yǔ)料。實(shí)驗(yàn)表明，通過(guò)使用語(yǔ)音幀的穩(wěn)定性信息，在解碼時(shí)對(duì)路徑擴(kuò)展的方式進(jìn)行預(yù)測(cè)，可以減少不必要的HMM之間的擴(kuò)展，將解碼速度提升22. 1%。通過(guò)限制部分不必要的HMM之間的擴(kuò)展，解碼器能夠在相同的解碼時(shí)間內(nèi)，在更寬的Beam范圍內(nèi)尋找最優(yōu)路徑。在擴(kuò)大Beam后，能夠避免最優(yōu)路徑在局部得分過(guò)小被剪枝，從而使局部得分較低、但整體得分較高的路徑存活下來(lái)，避免了原系統(tǒng)的部分剪枝錯(cuò)誤。實(shí)驗(yàn)結(jié)果表明，可以將系統(tǒng)的漢字相對(duì)錯(cuò)誤率降低5. 24%。以上所述的具體實(shí)施例，對(duì)本發(fā)明的目的、技術(shù)方案和有益效果進(jìn)行了進(jìn)一步詳細(xì)說(shuō)明，應(yīng)理解的是，以上所述僅為本發(fā)明的具體實(shí)施例而已，并不用于限制本發(fā)明，凡在本發(fā)明的精神和原則之內(nèi)，所做的任何修改、等同替換、改進(jìn)等，均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
1.一種基于發(fā)音穩(wěn)定段的語(yǔ)音識(shí)別解碼方法，包括下列步驟步驟一、獲取語(yǔ)音信號(hào)在時(shí)頻域上的能量分布并根據(jù)語(yǔ)音信號(hào)在時(shí)頻域上的能量分布，計(jì)算獲得語(yǔ)音信號(hào)的分頻帶能量曲線，以及分頻帶能量隨時(shí)間的變化率曲線；步驟二、由所述分頻帶能量曲線及分頻帶能量隨時(shí)間的變化率曲線，確定語(yǔ)音信號(hào)能量發(fā)生跳變的跳變點(diǎn)；步驟三、對(duì)任一跳變點(diǎn)P，設(shè)定一時(shí)長(zhǎng)r，定義跳變點(diǎn)p附近的[p-r，p+r]區(qū)域?yàn)檎Z(yǔ)音信號(hào)的非平穩(wěn)段區(qū)域，未被劃定為非平穩(wěn)段區(qū)域的部分為發(fā)音穩(wěn)定段區(qū)域；步驟四、在語(yǔ)音識(shí)別解碼過(guò)程中，若當(dāng)前幀在所述發(fā)音穩(wěn)定段區(qū)域，且前一幀到當(dāng)前幀的路徑擴(kuò)展為發(fā)生在隱馬爾科夫模型之間的擴(kuò)展，則不執(zhí)行該路徑的擴(kuò)展，否則執(zhí)行該路徑的擴(kuò)展；其中根據(jù)路徑的擴(kuò)展在隱馬爾科夫模型中發(fā)生的位置，所述前一幀到當(dāng)前幀的路徑擴(kuò)展被劃分為隱馬爾科夫模型之間的擴(kuò)展，以及隱馬爾科夫模型的內(nèi)部擴(kuò)展兩類。
2.如權(quán)利要求1所述的方法，其特征在于，步驟一中，所述獲取語(yǔ)音信號(hào)在時(shí)頻域上的能量分布，具體為對(duì)所述語(yǔ)音信號(hào)加漢寧窗，并對(duì)加窗后的語(yǔ)音信號(hào)經(jīng)過(guò)快速傅里葉變換(FFT)，得到語(yǔ)音信號(hào)在時(shí)頻域上的能量分布。
3.如權(quán)利要求2所述的方法,其特征在于,所述漢寧窗的窗長(zhǎng)為6ms,巾貞移為1ms。
4.如權(quán)利要求1所述的方法，其特征在于，步驟二中，所述根據(jù)語(yǔ)音信號(hào)在時(shí)頻域上的能量分布，計(jì)算獲得語(yǔ)音信號(hào)的分頻帶能量曲線，具體步驟包括計(jì)算O 2kHZ范圍內(nèi)三個(gè)頻帶上的頻譜能量0 0. 8kHZ、0. 8 1. 5kHZ、l. 2 2.OkHZ;采用當(dāng)前幀前后特定時(shí)間范圍內(nèi)的信號(hào)對(duì)當(dāng)前幀能量進(jìn)行平滑，得到平滑后的分頻帶能量曲線E (t)
5.如權(quán)利要求4所述的方法，其特征在于，步驟二中，所述計(jì)算分頻帶能量隨時(shí)間的變化率曲線，具體通過(guò)下面公式得到
6.如權(quán)利要求1所述的方法，其特征在于，步驟二中，所述根據(jù)分頻帶能量曲線及分頻帶能量變化曲線，確定語(yǔ)音信號(hào)能量發(fā)生跳變的時(shí)間點(diǎn)，包括以下步驟根據(jù)所述能量曲線E(t)及分頻帶能量隨時(shí)間的變化率曲線AE(t)，選擇能量變化率超過(guò)一定閾值的語(yǔ)音幀作為跳變點(diǎn)；其中，對(duì)于在一預(yù)定時(shí)間范圍內(nèi)存在多個(gè)跳變點(diǎn)時(shí)，選擇能量變化率最大的一個(gè)作為跳變點(diǎn)。
7.如權(quán)利要求1所述的方法，其特征在于，步驟四中，所述根據(jù)路徑的擴(kuò)展在隱馬爾科夫模型中發(fā)生的位置，將所述前一幀到當(dāng)前幀的路徑擴(kuò)展劃分為隱馬爾科夫模型之間的擴(kuò)展，以及隱馬爾科夫模型的內(nèi)部擴(kuò)展兩類，具體包括以下步驟根據(jù)隱馬爾科夫模型的拓?fù)浣Y(jié)構(gòu)，計(jì)算當(dāng)前幀Ot所處的狀態(tài)st，以及前一幀(V1的狀態(tài) Sg，若St與Sg位于同一個(gè)隱馬爾科夫模型，則稱在t時(shí)刻從前一幀到當(dāng)前幀的路徑擴(kuò)展為隱馬爾科夫模型的內(nèi)部擴(kuò)展；否則，若St與st_i分別屬于不同的隱馬爾科夫模型，則稱在 t時(shí)刻從前一幀到當(dāng)前幀的路徑擴(kuò)展為隱馬爾科夫模型之間的擴(kuò)展。
8.如權(quán)利要求5所述的方法，其特征在于，所述在語(yǔ)音識(shí)別解碼過(guò)程中，對(duì)于當(dāng)前幀在所述發(fā)音穩(wěn)定段區(qū)域，且前一幀到當(dāng)前幀的路徑的擴(kuò)展為發(fā)生在隱馬爾科夫模型之間的擴(kuò)展，則不執(zhí)行該路徑的擴(kuò)展，否則執(zhí)行該路徑的擴(kuò)展具體包括如下步驟在解碼時(shí)，當(dāng)前幀所處的狀態(tài)被稱為激活狀態(tài)，擴(kuò)展到激活狀態(tài)的路徑被稱為處于激活狀態(tài)的路徑，將所有處于激活狀態(tài)的路徑集合記為L(zhǎng)，路徑擴(kuò)展到的狀態(tài)集合記為SS，SP L中任意一條路徑1，是在第t-Ι時(shí)刻擴(kuò)展至狀態(tài)s時(shí)形成的，且s e SS ;在第t時(shí)刻，預(yù)測(cè)路徑I可能到達(dá)的所有狀態(tài)s';若當(dāng)前幀0,為穩(wěn)定幀，且s至s'的跳轉(zhuǎn)為隱馬爾科夫模型之間的擴(kuò)展，則并不進(jìn)行路徑I從s至V的擴(kuò)展；否則，允許路徑I從s擴(kuò)展至V，擴(kuò)展后的新路徑記為Γ，其中，路徑I,的狀態(tài)序列比路徑I的狀態(tài)序列多一個(gè)狀態(tài)s ^，并將s,加入到t時(shí)刻已擴(kuò)展到的新的狀態(tài)集合newSS，將路徑I,加入到t時(shí)刻處于激活狀態(tài)的新的路徑集合newL ;依次處理完SS中所有的狀態(tài)后，得到在第t時(shí)刻擴(kuò)展到的狀態(tài)的集合形成新的狀態(tài)集合newSS，以及處于激活狀態(tài)的路徑的集合形成新的路徑集合newL ；使用newSS對(duì)SS進(jìn)行更新，即將SS中的狀態(tài)全部替換為newSS的狀態(tài)，并使用newL對(duì)L 進(jìn)行更新，即將L中的路徑全部替換為newL中的路徑，并將newSS和newL置空，然后開(kāi)始對(duì)下一幀0t+1的解碼。
9.如權(quán)利要求8所述的方法，其特征在于，在得到第t時(shí)刻的新的狀態(tài)集合newSS，以及處于激活狀態(tài)的新的路徑集合newL后，選擇newL中聲學(xué)概率和語(yǔ)言模型概率之總和最大的路徑，并記t時(shí)刻當(dāng)前幀在該路徑上對(duì)應(yīng)的當(dāng)前狀態(tài)s'的聲學(xué)概率的對(duì)數(shù)值為pmax，設(shè)定剪枝閾值Pb·，通過(guò)剪枝，裁減掉newL中所述聲學(xué)概率的對(duì)數(shù)值低于Pmax-Pbffiim的所有路徑，同時(shí)將這些路徑所到達(dá)的狀態(tài)從newSS中刪除，完成對(duì)當(dāng)前幀Ot的解碼；然后使用剪枝后的newSS和newL分別對(duì)SS和L進(jìn)行更新,并開(kāi)始對(duì)下一巾貞0t+1的解碼。
10.一種基于發(fā)音穩(wěn)定段的語(yǔ)音識(shí)別解碼裝置，其包括獲取裝置，用于獲取語(yǔ)音信號(hào)在時(shí)頻域上的能量分布并根據(jù)語(yǔ)音信號(hào)在時(shí)頻域上的能量分布，計(jì)算獲得語(yǔ)音信號(hào)的分頻帶能量曲線，以及分頻帶能量隨時(shí)間的變化率曲線；確定裝置，用于由所述分頻帶能量曲線及分頻帶能量隨時(shí)間的變化率曲線，確定語(yǔ)音信號(hào)能量發(fā)生跳變的跳變點(diǎn)；劃分裝置，用于對(duì)任一跳變點(diǎn)P，設(shè)定一時(shí)長(zhǎng)r，定義跳變點(diǎn)P附近的[p-r，p+r]區(qū)域?yàn)檎Z(yǔ)音信號(hào)的非平穩(wěn)段區(qū)域，其中未被劃定為非平穩(wěn)段區(qū)域的部分為發(fā)音穩(wěn)定段區(qū)域；語(yǔ)音識(shí)別裝置，用于在語(yǔ)音識(shí)別解碼過(guò)程中，若當(dāng)前幀在所述發(fā)音穩(wěn)定段區(qū)域，且前一幀到當(dāng)前幀的路徑擴(kuò)展為發(fā)生在隱馬爾科夫模型之間的擴(kuò)展，則不執(zhí)行該路徑的擴(kuò)展，否則執(zhí)行該路徑的擴(kuò)展；其中根據(jù)路徑的擴(kuò)展在隱馬爾科夫模型中發(fā)生的位置，所述前一幀到當(dāng)前幀的路徑擴(kuò)展被劃分為隱馬爾科夫模型之間的擴(kuò)展，以及隱馬爾科夫模型的內(nèi)部擴(kuò)展兩類。
全文摘要
本發(fā)明公開(kāi)了一種基于發(fā)音穩(wěn)定段的語(yǔ)音識(shí)別解碼方法。針對(duì)語(yǔ)音識(shí)別解碼過(guò)程復(fù)雜度較高的問(wèn)題，本發(fā)明提出利用語(yǔ)音的穩(wěn)定性信息改善解碼過(guò)程中路徑擴(kuò)展的方式，達(dá)到降低解碼復(fù)雜度的目的。本發(fā)明的方案包括下列步驟對(duì)語(yǔ)音信號(hào)計(jì)算語(yǔ)譜圖；計(jì)算語(yǔ)音信號(hào)的分頻帶能量及其變化率；定位語(yǔ)音信號(hào)中能量發(fā)生跳變的時(shí)間點(diǎn)；獲取語(yǔ)音的發(fā)音穩(wěn)定段；根據(jù)解碼過(guò)程中路徑擴(kuò)展發(fā)生的位置，將擴(kuò)展劃分為隱馬爾科夫模型之間的擴(kuò)展，以及隱馬爾科夫模型內(nèi)部各狀態(tài)間的擴(kuò)展兩類；跟蹤語(yǔ)音識(shí)別解碼過(guò)程，定位隱馬爾科夫模型之間的擴(kuò)展；在發(fā)音穩(wěn)定段，刪除原解碼框架下的隱馬爾科夫模型之間的擴(kuò)展，只允許路徑在隱馬爾科夫模型內(nèi)部各狀態(tài)間進(jìn)行擴(kuò)展。
文檔編號(hào)G10L19/02GK103021408SQ20121051476
公開(kāi)日2013年4月3日申請(qǐng)日期2012年12月4日優(yōu)先權(quán)日2012年12月4日
發(fā)明者劉文舉, 楊占磊申請(qǐng)人:中國(guó)科學(xué)院自動(dòng)化研究所

完整全部詳細(xì)技術(shù)資料下載