以自底向上方式將聲調(diào)集成到漢語連續(xù)語音識(shí)別系統(tǒng)中的方向、裝置和系統(tǒng)的制作方法

文檔序號(hào)：2829588閱讀：496來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：以自底向上方式將聲調(diào)集成到漢語連續(xù)語音識(shí)別系統(tǒng)中的方向、裝置和系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及語音識(shí)別領(lǐng)域。更具體地，本發(fā)明涉及以自底向上方式將聲調(diào)集成到漢語連續(xù)語音識(shí)別系統(tǒng)中的方法、裝置和系統(tǒng)。
背景技術(shù)：
現(xiàn)代語音識(shí)別系統(tǒng)依據(jù)統(tǒng)計(jì)模式識(shí)別的原理并且通常使用聲學(xué)模型和語言模型解碼一個(gè)代表輸入話音(例如一個(gè)語句或詞串)的觀測(cè)(也稱作聲學(xué)事件或聲學(xué)信號(hào))輸入序列以便在指定觀測(cè)輸入序列的情況下確定最可能的語句或詞序列。換言之，現(xiàn)代語音識(shí)別器的功能是搜索大量潛在或候選語句并且選擇最有可能產(chǎn)生觀測(cè)或聲學(xué)事件輸入序列的語句或詞序列。通常，多數(shù)現(xiàn)代語音識(shí)別系統(tǒng)使用基于連續(xù)密度隱藏馬爾可夫模型(CDHMM)的聲學(xué)模型。
多數(shù)現(xiàn)有技術(shù)的基于HMM的語音識(shí)別系統(tǒng)使用

圖1所示的層次結(jié)構(gòu)模擬不同層次的事件。根據(jù)語音在足夠短的時(shí)間段內(nèi)(5到100毫秒之間)在統(tǒng)計(jì)上處于穩(wěn)定狀態(tài)這一事實(shí)，各個(gè)窗口的聲學(xué)層次輸入話音被編碼成特征向量。在語音層次上，通過隱藏馬爾可夫模型(HMM)模擬與相同語音單元(例如音素)相關(guān)的聲學(xué)特征分段。在詞層次上，通過根據(jù)每個(gè)詞在字典中的發(fā)音連接語音HMM來構(gòu)成每個(gè)詞的詞格(lattice)。在語句層次上，最終動(dòng)態(tài)建立一個(gè)具有詞結(jié)點(diǎn)的搜索網(wǎng)絡(luò)并且根據(jù)當(dāng)前活躍路徑和N元語言模型精減搜索網(wǎng)絡(luò)。根據(jù)這種自底向上結(jié)構(gòu)，有關(guān)聲音、語音、詞和語法的知識(shí)可以被裝到識(shí)別系統(tǒng)中以便改進(jìn)性能。
漢語語音識(shí)別系統(tǒng)基本上也是基于上述自底向上結(jié)構(gòu)，就象英語和其它語言的自底向上結(jié)構(gòu)那樣。為了達(dá)到較高的識(shí)別準(zhǔn)確度和系統(tǒng)性能，在設(shè)計(jì)漢語連續(xù)語音識(shí)別系統(tǒng)時(shí)必須考慮到并且利用漢語口語的某些特征(例如普通話，廣東話等等)。漢語是帶聲調(diào)的音節(jié)語言。每個(gè)音節(jié)被指定四或五個(gè)聲調(diào)中的一個(gè)。例如，普通話漢語中每個(gè)音節(jié)可以被指定以下四或五個(gè)聲調(diào)中的一個(gè)陰平聲(這里稱作一聲)，陽(yáng)平聲(這里稱作二聲)，上聲(這里稱作三聲)，去聲(這里稱作四聲)和中性聲或輕聲(這里稱作五聲)。某些音節(jié)沒有五聲。在漢語中聲調(diào)對(duì)于區(qū)分含義而言有重要的作用。具有相同語音結(jié)構(gòu)但具有不同聲調(diào)的音節(jié)通常表達(dá)不同的意思。因而聲調(diào)是漢語語音識(shí)別的基本要素。
幾十年來聲調(diào)識(shí)別已經(jīng)成為漢語語音識(shí)別的焦點(diǎn)問題。一個(gè)普遍使用的方法是分別識(shí)別基音節(jié)(聲母和韻母)和聲調(diào)。通過傳統(tǒng)的基于HMM的方法識(shí)別基音節(jié)，例如用于英語的方法。通過使用鑒別規(guī)則區(qū)分音節(jié)的音調(diào)輪廓(pitch contour)可以識(shí)別音節(jié)的聲調(diào)。帶聲調(diào)音節(jié)的識(shí)別綜合了基音節(jié)的識(shí)別和聲調(diào)的識(shí)別。如果用于孤立音節(jié)語音識(shí)別，這種方法因各種原因而不適用于漢語連續(xù)語音識(shí)別任務(wù)。首先，在連續(xù)語音識(shí)別中，音節(jié)的邊界是不清晰的。在整個(gè)識(shí)別過程結(jié)束時(shí)才確定邊界。在聲音識(shí)別的早期階段提供音節(jié)邊界信息是非常困難的。其次，具有五聲中的一個(gè)聲調(diào)的音節(jié)的實(shí)際聲調(diào)輪廓取決于語音環(huán)境。能夠根據(jù)音調(diào)輪廓確定聲調(diào)的規(guī)則將會(huì)非常復(fù)雜。
近年來，人們?yōu)榘崖曊{(diào)集成到漢語連續(xù)語音識(shí)別系統(tǒng)中付出了各種努力。通過將音調(diào)看作一個(gè)與倒譜(ceptra)或能量相同的聲學(xué)參數(shù)，這些系統(tǒng)對(duì)性能進(jìn)行了改進(jìn)。然而這些系統(tǒng)沒有集成如系統(tǒng)綜述所述的語音識(shí)別其它層次的聲調(diào)知識(shí)。換言之，語音識(shí)別過程的其它層次的聲調(diào)知識(shí)尚未被考慮到。
附圖的簡(jiǎn)要描述以下參照附圖可以更全面地理解本發(fā)明的特征和優(yōu)點(diǎn)，其中圖1是示出語音識(shí)別中使用的自底向上層次結(jié)構(gòu)的圖例；圖2是關(guān)于基于本發(fā)明的語音識(shí)別系統(tǒng)的一個(gè)實(shí)施例的模塊圖；圖3示出了在平滑處理之前測(cè)量的音調(diào)輪廓的一個(gè)例子；圖4示出了在平滑處理之后測(cè)量的音調(diào)輪廓的一個(gè)例子；圖5是圖解基于HMM的語音模型的圖例；
圖6示出了基于本發(fā)明的方法的一個(gè)實(shí)施例的流程圖；圖7示出了基于本發(fā)明的方法的一個(gè)實(shí)施例的流程圖。
具體實(shí)施例方式
在下面的詳細(xì)描述中，為了能夠透徹理解本發(fā)明，對(duì)許多具體細(xì)節(jié)進(jìn)行了描述。然而本領(lǐng)域技術(shù)人員可以理解，即使沒有這些具體細(xì)節(jié)也能夠理解和實(shí)現(xiàn)本發(fā)明。
在下面的討論中，根據(jù)本發(fā)明實(shí)現(xiàn)一個(gè)按照自底向上結(jié)構(gòu)向漢語連續(xù)語音識(shí)別系統(tǒng)提供聲調(diào)集成的方法、裝置、系統(tǒng)和機(jī)器可讀介質(zhì)。根據(jù)本發(fā)明，在自底向上識(shí)別結(jié)構(gòu)中在各個(gè)層次上模擬聲調(diào)知識(shí)及其影響。在聲學(xué)層次上，音調(diào)被看作是一個(gè)連續(xù)聲學(xué)變量。在一個(gè)實(shí)施例中，為了使從一個(gè)幀中得到的音調(diào)估測(cè)易于被高斯混合分布所模擬，兩個(gè)有聲部分被一個(gè)指數(shù)衰減函數(shù)連接并且加上一個(gè)隨機(jī)噪聲，而頻域?yàn)V波器被提供給其余的閃光點(diǎn)(spark point)。在基于本發(fā)明一個(gè)實(shí)施例的典型實(shí)驗(yàn)中，把音調(diào)特征集成到特征幀中使詞差錯(cuò)率(WER)從9.9％降低到8.5％。在語音層次上，一個(gè)具有不同聲調(diào)的主元音被看作是不同的音素。某些輕聲音素也被加到語音集中。在三音建立階段，針對(duì)各個(gè)判決樹結(jié)點(diǎn)評(píng)估一組涉及聲調(diào)的問題。在根據(jù)本發(fā)明所進(jìn)行的實(shí)驗(yàn)中，語音層次的聲調(diào)集成使詞差錯(cuò)率從8.5％降到7.8％。在詞層次上，使用一組聲調(diào)變化規(guī)則建立訓(xùn)練數(shù)據(jù)的副本和解碼的詞格。詞層次上的聲調(diào)集成也降低了識(shí)別過程中的詞差錯(cuò)率(在根據(jù)本發(fā)明的實(shí)驗(yàn)中又降低了0.4％)。在語句層次上，某些具有輕聲的語句結(jié)束詞也被加到系統(tǒng)詞匯表中。
在一個(gè)實(shí)施例中，一個(gè)表示帶聲調(diào)音節(jié)語言(例如普通話漢語)中一個(gè)輸入話音的輸入信號(hào)被轉(zhuǎn)換成一組特征向量。輸入話音包含一或多個(gè)詞并且每個(gè)詞包含一或多個(gè)音素。每個(gè)特征向量代表一幀輸入話音并且包含一個(gè)含有對(duì)應(yīng)幀的音調(diào)信息的音調(diào)特征。根據(jù)特征向量和一組語音統(tǒng)計(jì)模型確定輸入話音中包含的音素。每個(gè)語音模型代表一組帶聲調(diào)音素中的一個(gè)不同音素。具有相同的語音結(jié)構(gòu)但不同的聲調(diào)的音素被認(rèn)為是不同的音素并且被表示成不同的統(tǒng)計(jì)模型。接著根據(jù)識(shí)別的音素，一組詞統(tǒng)計(jì)模型和一組聲調(diào)變化規(guī)則確定輸入話音中包含的詞。在一個(gè)實(shí)施例中，每個(gè)語音統(tǒng)計(jì)模型均被表示成一個(gè)對(duì)應(yīng)的隱藏馬爾可夫模型(HMM)。在一個(gè)實(shí)施例中，對(duì)應(yīng)的HMM是一個(gè)使用高斯混合分布表示與對(duì)應(yīng)HMM中各個(gè)狀態(tài)相關(guān)的觀測(cè)概率函數(shù)的連續(xù)密度HMM。在一個(gè)實(shí)施例中，通過根據(jù)其在字典中的讀音連接對(duì)應(yīng)的語音HMM來構(gòu)成每個(gè)詞的詞統(tǒng)計(jì)模型。在一個(gè)實(shí)施例中，使用平均值微分函數(shù)(AMDF)從輸入信號(hào)中取出音調(diào)參數(shù)。在一個(gè)實(shí)施例中，音調(diào)特征包含所取出的音調(diào)數(shù)值，Mel頻率倒譜系數(shù)(Mel-frequency CepstralCoefficients MFCC)，取出的音調(diào)參數(shù)的第一和第二導(dǎo)數(shù)。在一個(gè)實(shí)施例中，按照以下方式平滑輸入信號(hào)的音調(diào)輪廓(1)計(jì)算輸入信號(hào)中所有合法點(diǎn)的音調(diào)數(shù)值的分組平均(running average)值；(2)輸入信號(hào)的開始處的音調(diào)數(shù)值被定義成分組平均值加一個(gè)隨機(jī)噪聲；(3)從有聲部分到無聲部分的切換處的音調(diào)數(shù)值被定義成關(guān)于分組平均值的指數(shù)衰減函數(shù)加隨機(jī)噪聲。在一個(gè)實(shí)施例中，輸入信號(hào)通過一個(gè)頻域低通濾波器以清除輸入信號(hào)中的尖刺。本發(fā)明適用于任何漢語語音識(shí)別方案、方法和系統(tǒng)。然而本發(fā)明并不僅限于漢語語音識(shí)別，也可以應(yīng)用于其它帶聲調(diào)音節(jié)語言的語音識(shí)別方法、方案和系統(tǒng)。
雖然這里對(duì)本發(fā)明的討論以普通話漢語作為示例性帶聲調(diào)音節(jié)語言描述和解釋了本發(fā)明的技術(shù)，但本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解，本發(fā)明的技術(shù)也適用于諸如廣東話的其它漢語帶聲調(diào)音節(jié)語言和其它非漢語帶聲調(diào)音節(jié)語言。
如上所述，普通話漢語是帶聲調(diào)音節(jié)語言。普通話中有將近400個(gè)基音節(jié)(無聲調(diào))。多數(shù)基音節(jié)可以和四個(gè)或五個(gè)聲調(diào)相關(guān)聯(lián)。因此，普通話漢語中有將近1400個(gè)帶聲調(diào)音節(jié)。根據(jù)下面示出的規(guī)則，每個(gè)音節(jié)含有一個(gè)韻母部分并且可以或不可以含有一個(gè)聲母部分音節(jié)→[聲母]韻母聲母→輔音韻母→[中音]元音[尾音]中音→元音尾音→{元音，鼻音}根據(jù)前面的描述可以理解，一個(gè)音節(jié)的聲母部分對(duì)應(yīng)于一個(gè)單輔音，而一個(gè)音節(jié)的韻母部分可以是一個(gè)單元音，一個(gè)雙元音，一個(gè)三元音，一個(gè)帶鼻音結(jié)束的元音，一個(gè)帶鼻音結(jié)束的雙元音，等等。在一個(gè)基于本發(fā)明的實(shí)施例中，每個(gè)聲母和每個(gè)韻母均被看成是一個(gè)單獨(dú)的音素并且被模擬成一個(gè)對(duì)應(yīng)的連續(xù)隱藏馬爾可夫模型(HMM)。
本發(fā)明基于發(fā)明人的以下觀察。從系統(tǒng)角度看，聲調(diào)對(duì)自底向上識(shí)別結(jié)構(gòu)中所有層次上的事件均有影響。在聲學(xué)層次上，音調(diào)輪廓規(guī)定了五個(gè)詞匯聲調(diào)。在語音層次上，聲調(diào)與韻母部分，尤其是與元音或鼻音元音相關(guān)聯(lián)。并且本發(fā)明人發(fā)現(xiàn)一個(gè)音節(jié)的聲調(diào)信息集中表現(xiàn)在音節(jié)的主元音的音調(diào)行為特性上。因此，主元音的音調(diào)信息足以確定整個(gè)音節(jié)的聲調(diào)。對(duì)于連續(xù)普通話漢語，主元音附近的音調(diào)平均值和音調(diào)時(shí)間導(dǎo)數(shù)對(duì)于確定聲調(diào)而言都很重要。并且在音調(diào)估測(cè)的準(zhǔn)確度和平滑度之間存在平衡，尤其是在從有聲部分到無聲部分的邊界上。在詞層次上，根據(jù)語音環(huán)境，一個(gè)音節(jié)的聲調(diào)可能發(fā)生變化。例如，當(dāng)一起讀出或講出兩個(gè)三聲音節(jié)時(shí)，前一個(gè)音節(jié)的聲調(diào)會(huì)被改變成后一個(gè)音節(jié)的聲調(diào)。換言之，前一個(gè)音節(jié)的讀音受到后面環(huán)境的影響。因而一個(gè)音節(jié)的音調(diào)輪廓的環(huán)境依賴性可以被表述成相鄰主元音的音調(diào)輪廓的影響。并且，在語句層次上，不同的語句模式具有不同的輕聲結(jié)束。
根據(jù)上述觀察和自底向上集成的新概念，相應(yīng)設(shè)計(jì)出一個(gè)對(duì)應(yīng)的音素集合。如前所述，一個(gè)音節(jié)的每個(gè)聲母和每個(gè)韻母部分均被看作是一個(gè)單獨(dú)的音素并且同樣被加以模擬。在一個(gè)實(shí)施例中，使用一個(gè)由23個(gè)聲母和48個(gè)韻母構(gòu)成的基本集合來設(shè)計(jì)基于本發(fā)明的帶聲調(diào)音素集合。沒有與聲母關(guān)聯(lián)的聲調(diào)。因而每個(gè)單獨(dú)的聲母均被模擬成一個(gè)單獨(dú)的音素。對(duì)于48個(gè)韻母，某些韻母與五個(gè)聲調(diào)相關(guān)聯(lián)，而其它韻母與不足五個(gè)的聲調(diào)相關(guān)聯(lián)(例如某些韻母只有四個(gè)聲調(diào)與之關(guān)聯(lián)，等等)。具有相同的語音結(jié)構(gòu)但不同的聲調(diào)的韻母被定義和模擬成不同的音素。因而48個(gè)基韻母中的每個(gè)韻母均可以具有多達(dá)五個(gè)的對(duì)應(yīng)帶聲調(diào)音素。因此，一個(gè)基本的帶聲調(diào)音素集合含有178個(gè)音素單元，其中48個(gè)基韻母中的每個(gè)韻母均具有多達(dá)五個(gè)的帶聲調(diào)音素。在一個(gè)實(shí)施例中，一些五聲單元被加到某些通常不與五聲關(guān)聯(lián)的韻母的帶聲調(diào)音素集合中。通過加入這些五聲單元，帶聲調(diào)音素集合中單元的數(shù)量從178增加到185。對(duì)于五聲單元被加入其帶聲調(diào)音素集合的那些韻母，對(duì)應(yīng)的詞的帶五聲讀音也被加到讀音字典中。如上所述，在詞層次上使用一組聲調(diào)變化規(guī)則建立訓(xùn)練數(shù)據(jù)的副本和解碼的讀音格(pronunciation Lattice)。在一個(gè)實(shí)施例中，設(shè)計(jì)并實(shí)現(xiàn)9個(gè)聲調(diào)變化規(guī)則對(duì)詞層次上的聲調(diào)影響模擬如下(a)3音節(jié)詞有以下4個(gè)聲調(diào)變化規(guī)則(1)333→223(2)1*3→123(3)2*3→223(4)4*3→423在以上描述中，規(guī)則“333→223”意味著那些有3個(gè)三聲音節(jié)的詞被讀成前兩個(gè)音節(jié)為二聲而最后一個(gè)音節(jié)為三聲(“223”)。規(guī)則“1*3→123”意味著一聲音節(jié)(第一個(gè)一聲音節(jié))與三聲音節(jié)(最后一個(gè)三聲音節(jié))之間的任意音節(jié)均被讀成二聲音節(jié)。類似地，規(guī)則“2*3→223”意味著二聲音節(jié)(第一個(gè)二聲音節(jié))與三聲音節(jié)(最后一個(gè)三聲音節(jié))之間的任意音節(jié)均被讀成二聲音節(jié)。因此，規(guī)則“4*3→423”意味著四聲音節(jié)(第一個(gè)四聲音節(jié))與三聲音節(jié)(最后一個(gè)三聲音節(jié))之間的任意音節(jié)均被讀成二聲音節(jié)。
(b)具有2個(gè)三聲音節(jié)的詞有下面1個(gè)規(guī)則33→23這個(gè)規(guī)則意味著后面跟有另一個(gè)三聲音節(jié)的三聲音節(jié)被讀成二聲音節(jié)。
(c)具有一個(gè)一聲音節(jié)“yi1”，“qi1”，或“ba1”(拼音表示法)并且后跟一個(gè)四聲音節(jié)“bu4”(拼音表示法)的詞具有4個(gè)規(guī)則，這些實(shí)例中的一聲音節(jié)均被讀成二聲。
上述9個(gè)聲調(diào)變化規(guī)則被用于建立訓(xùn)練數(shù)據(jù)的副本和解碼的讀音格。
對(duì)于語句層次上的聲調(diào)集成，存在一些未被包含在原始讀音字典中的語句結(jié)束詞。另外，這些詞在處于一個(gè)語句的結(jié)束位置時(shí)的讀音變化未被包含在原始讀音字典中。為利于語句層次上的聲調(diào)集成，這些語句結(jié)束詞及其對(duì)應(yīng)的讀音變化已經(jīng)被加到讀音字典中。
圖2圖解了關(guān)于基于本發(fā)明的語音識(shí)別系統(tǒng)200的一個(gè)實(shí)施例的模塊圖。如圖2所示，系統(tǒng)200包含一個(gè)模數(shù)轉(zhuǎn)換器(A/D)210，一個(gè)特征抽取器或頻譜分析單元220，一個(gè)解碼器230，一個(gè)聲學(xué)模型240，和一個(gè)語言模型250。首先使用A/D 210對(duì)代表輸入話音的輸入信號(hào)250進(jìn)行數(shù)字化。數(shù)字信號(hào)接著被分割到通常為10、15或20毫秒的幀中。接著各個(gè)信號(hào)幀被轉(zhuǎn)換成一個(gè)被用于提取輸入信號(hào)頻譜性質(zhì)的特征的對(duì)應(yīng)特征向量。在本實(shí)施例中，特征向量是多維向量并且有多個(gè)包含音調(diào)特征的特征分量。在一個(gè)實(shí)施例中，除音調(diào)值之外，MFCC，增量MFCC和增量-增量MFCC也被當(dāng)作聲學(xué)特征向量的分量。特征抽取器單元220產(chǎn)生的特征向量接著被輸入到解碼器230，而解碼器230利用聲學(xué)模型240和語言模型250確定在指定以特征向量為特征的聲學(xué)事件的情況下具有最高概率的語句或詞序列。在本實(shí)施例中，聲學(xué)模型240包含一個(gè)按照上述方式設(shè)計(jì)和構(gòu)成的帶聲調(diào)音素集合。如上所述，具有相同的語音結(jié)構(gòu)但不同的聲調(diào)的音素被認(rèn)為是不同的音素。因此，48個(gè)基韻母中的每個(gè)韻母均可以具有多達(dá)五個(gè)的對(duì)應(yīng)帶聲調(diào)音素。在一個(gè)實(shí)施例中，一些五聲單元被加到某些通常不與五聲關(guān)聯(lián)的韻母的帶聲調(diào)音素集合中。通過加入這些五聲單元，帶聲調(diào)音素集合中單元的數(shù)量從178增加到185。對(duì)于五聲單元被加入其帶聲調(diào)音素集合的那些韻母，對(duì)應(yīng)的詞的帶五聲讀音也被加到讀音字典中。如上所述，在詞層次上使用一組聲調(diào)變化規(guī)則建立訓(xùn)練數(shù)據(jù)的副本和解碼的讀音格。在一個(gè)實(shí)施例中，設(shè)計(jì)并實(shí)現(xiàn)9個(gè)聲調(diào)變化規(guī)則以模擬詞層次上的聲調(diào)影響。前面詳細(xì)描述了這9個(gè)規(guī)則。此外為了模擬詞層次上的聲調(diào)影響，一些語句結(jié)束詞及其對(duì)應(yīng)的讀音變化已經(jīng)被加到讀音字典中。
再次參照?qǐng)D2，在一個(gè)實(shí)施例中，使用平均值微分函數(shù)(AMDF)方法從話音信號(hào)中抽取音調(diào)參數(shù)。根據(jù)一般的理解，只能針對(duì)話音的有聲幀確定音調(diào)。音調(diào)對(duì)于靜音和無聲部分是不存在的。圖3示出了使用AMDF方法測(cè)量的一個(gè)四音節(jié)詞組的音調(diào)輪廓的一個(gè)例子。如圖3所示，在靜音幀和帶無聲輔音的幀中音調(diào)是不確定的。在這些幀中，音調(diào)的導(dǎo)數(shù)會(huì)變成零。在有聲部分和無聲部分的邊界上，音調(diào)的導(dǎo)數(shù)會(huì)變成無窮大。在兩種情況下訓(xùn)練和解碼均會(huì)出現(xiàn)問題。在一個(gè)實(shí)施例中，使用以下平滑處理解決該問題(1)根據(jù)所有合法點(diǎn)計(jì)算分組平均值；(2)在說話開始時(shí)音調(diào)值被確定成分組平均值加一個(gè)隨機(jī)噪聲；(3)當(dāng)話音從有聲部分變化到無聲部分時(shí)，音調(diào)被確定成關(guān)于分組平均值的指數(shù)衰減函數(shù)加上一個(gè)隨機(jī)噪聲；(4)整個(gè)信號(hào)被傳遞通過一個(gè)頻域低通濾波器以清除尖峰信號(hào)。
向無聲部分加入隨機(jī)噪聲量為了避免在音調(diào)不是重要變量的幀中出現(xiàn)零方差。圖4示出了在對(duì)圖3中示出的相同講話進(jìn)行平滑處理之后的音調(diào)輪廓。如圖4所示，平滑后的音調(diào)是性能良好并且可以按照與倒譜相同的方式加以處理的參數(shù)。在一個(gè)實(shí)施例中，音調(diào)值的對(duì)數(shù)也被當(dāng)作音調(diào)特征的一個(gè)要素。應(yīng)當(dāng)注意，在音調(diào)估測(cè)的準(zhǔn)確度和平滑度之間存在平衡，尤其是在從有聲部分到無聲部分的邊界上。
圖5是圖解基于本發(fā)明的教導(dǎo)在聲學(xué)模型240中被用于模擬語音單元的基于HMM的語音模型的一個(gè)實(shí)施例的圖例(例如各個(gè)聲母和帶聲調(diào)韻母被表示成一個(gè)單獨(dú)的音素)。每個(gè)單獨(dú)的語音單元均被表示或模擬成一個(gè)對(duì)應(yīng)的HMM。如圖4所示，一個(gè)HMM具有一個(gè)狀態(tài)(1-5)序列集合，該集合由一個(gè)切換概率(a12，a23，a34，a45)集合和一個(gè)觀測(cè)概率或相似度(b2(o1)，b2(o2)，b3(o3)，b4(o4)，b4(o5)，b4(o6))集合連接而成。每個(gè)切換概率aij表示從狀態(tài)i切換到狀態(tài)j的概率。每個(gè)觀測(cè)概率或分布bi(oj)表示從狀態(tài)i產(chǎn)生一個(gè)觀測(cè)向量oj的概率。因此，切換概率模擬話音的持續(xù)可變性，而輸出概率模擬頻譜可變性。因此，狀態(tài)集合，切換概率集合和輸出概率集合是被用于定義一個(gè)HMM的參數(shù)。圖2所示的HMM具有左-右拓?fù)?。在本?shí)施例中，各個(gè)狀態(tài)輸出分布或觀測(cè)概率函數(shù)被模擬成下面的多元混合高斯bj(ot)=Σk=1McjkN(ot,mjk,Vjk)]]>其中cjk是狀態(tài)j中混合分量k的權(quán)重，N(ot，mjk，Vjk)表示狀態(tài)j中第k個(gè)混合分量的均值mjk和協(xié)方差Vjk的多元高斯。
圖6示出了基于本發(fā)明的方法600的一個(gè)實(shí)施例的流程圖，其中在自底向上識(shí)別結(jié)構(gòu)中各個(gè)層次上模擬聲調(diào)影響。在塊610，在聲學(xué)層次上把音調(diào)看作諸如倒譜或能量的連續(xù)變量。音調(diào)信息被從話音信號(hào)中抽取出來并且被包含成特征向量中的特征分量。在塊620，在語音層次上把具有相同的語音結(jié)構(gòu)但不同的聲調(diào)的音素看作帶聲調(diào)音素集合中的不同音素(例如一個(gè)具有不同聲調(diào)的主元音被定義成不同的音素)。一些五聲單元也被加到某些通常不與五聲關(guān)聯(lián)的韻母部分的帶聲調(diào)音素集合中。在塊630，在詞層次上使用一組聲調(diào)變化規(guī)則建立訓(xùn)練數(shù)據(jù)的副本和解碼的讀音詞格。在塊640，在語句層次上把一些語句結(jié)束詞及其對(duì)應(yīng)的讀音變化加到讀音字典中以模擬語句層次上的聲調(diào)影響。
圖7示出了基于本發(fā)明的語音識(shí)別方法700的一個(gè)實(shí)施例的流程圖。方法700從塊701開始并執(zhí)行到塊710。在塊710，一個(gè)表示帶聲調(diào)音節(jié)語言(例如普通話漢語)中一個(gè)輸入話音的輸入信號(hào)被轉(zhuǎn)換成一組特征向量。輸入話音包含一或多個(gè)詞并且每個(gè)詞包含一或多個(gè)音素。每個(gè)特征向量代表一幀輸入話音并且包含一個(gè)含有對(duì)應(yīng)幀的音調(diào)信息的音調(diào)特征。在塊720，根據(jù)特征向量和一組語音統(tǒng)計(jì)模型確定輸入話音中包含的音素。每個(gè)語音模型代表一組帶聲調(diào)音素中的一個(gè)不同音素。具有相同的語音結(jié)構(gòu)但不同的聲調(diào)的音素被認(rèn)為是不同的音素并且被表示成不同的語音模型。在塊730，根據(jù)識(shí)別的音素，一組詞統(tǒng)計(jì)模型和一組聲調(diào)變化規(guī)則確定輸入話音中包含的詞。在一個(gè)實(shí)施例中，通過根據(jù)其在字典中的讀音連接對(duì)應(yīng)的語音HMM來構(gòu)成一個(gè)詞的詞統(tǒng)計(jì)模型。
這里已經(jīng)結(jié)合優(yōu)選實(shí)施例描述了本發(fā)明。顯然本領(lǐng)域技術(shù)人員根據(jù)前面的描述可以理解許多可選方案、修改、變化和使用。
權(quán)利要求
1.一種方法，包括將一個(gè)表示帶聲調(diào)音節(jié)語言輸入話音的輸入信號(hào)轉(zhuǎn)換成一組特征向量，該輸入話音包括一或多個(gè)詞，每個(gè)詞包括一或多個(gè)音素，每個(gè)特征向量代表一幀輸入話音并且包含一個(gè)含有對(duì)應(yīng)幀的音調(diào)信息的音調(diào)特征；根據(jù)特征向量和一組語音統(tǒng)計(jì)模型確定輸入話音中包含的音素，其中每個(gè)語音統(tǒng)計(jì)模型均代表一組帶聲調(diào)音素中的一個(gè)不同音素，具有相同的語音結(jié)構(gòu)但不同的聲調(diào)的音素被確定為不同的音素；并且根據(jù)確定出的音素，一組詞統(tǒng)計(jì)模型和一組聲調(diào)變化規(guī)則確定輸入話音中包含的詞。
2.如權(quán)利要求1所述的方法，其中每個(gè)語音統(tǒng)計(jì)模型均被表示成一個(gè)對(duì)應(yīng)的隱藏馬爾可夫模型(HMM)。
3.如權(quán)利要求2所述的方法，其中對(duì)應(yīng)的HMM是一個(gè)使用高斯混合表示與對(duì)應(yīng)HMM中各個(gè)狀態(tài)相關(guān)的觀測(cè)概率函數(shù)的連續(xù)密度HMM。
4.如權(quán)利要求2所述的方法，其中通過根據(jù)其在字典中的讀音連接對(duì)應(yīng)的語音HMM來構(gòu)成每個(gè)詞的詞統(tǒng)計(jì)模型。
5.如權(quán)利要求1所述的方法，其中轉(zhuǎn)換包括從輸入信號(hào)中抽取音調(diào)參數(shù)。
6.如權(quán)利要求5所述的方法，其中使用平均值微分函數(shù)(AMDF)抽取音調(diào)參數(shù)。
7.如權(quán)利要求5所述的方法，其中音調(diào)特征包括音調(diào)數(shù)值，Mel頻標(biāo)倒譜系數(shù)(MFCC)，取出的音調(diào)參數(shù)的第一和第二導(dǎo)數(shù)。
8.如權(quán)利要求7所述的方法，還包括平滑輸入信號(hào)的音調(diào)輪廓，它包括計(jì)算輸入信號(hào)中所有合法點(diǎn)的音調(diào)數(shù)值的分組平均值；把輸入信號(hào)的開始處的音調(diào)數(shù)值定義成分組平均值加一個(gè)隨機(jī)噪聲；和把從有聲部分到無聲部分的切換處的音調(diào)數(shù)值定義成關(guān)于分組平均值的指數(shù)衰減函數(shù)加隨機(jī)噪聲信號(hào)。
9.如權(quán)利要求8所述的方法，其中輸入信號(hào)被傳遞通過一個(gè)頻域低通濾波器以清除輸入信號(hào)中的尖峰信號(hào)。
10.如權(quán)利要求1所述的方法，其中前向-后向算法被用來訓(xùn)練代表對(duì)應(yīng)音素的語音統(tǒng)計(jì)模型參數(shù)。
12.如權(quán)利要求1所述的方法，其中關(guān)于帶聲調(diào)音節(jié)語言聲調(diào)特征的知識(shí)在構(gòu)造統(tǒng)計(jì)模型并且根據(jù)自底向上識(shí)別結(jié)構(gòu)中的統(tǒng)計(jì)模型解碼話音時(shí)被用來在多個(gè)層次上模擬話音，自底向上識(shí)別結(jié)構(gòu)中的多個(gè)層次包含聲學(xué)層次、語音層次、詞層次和語句層次。
13.如權(quán)利要求12所述的方法，其中在聲學(xué)層次上對(duì)應(yīng)于指定音素的聲調(diào)的音調(diào)信息被看作連續(xù)聲學(xué)變量并且被包含在表示指定音素的特征向量中。
14.如權(quán)利要求13所述的方法，其中在語音層次上具有相同語音結(jié)構(gòu)但不同聲調(diào)的主元音被看作不同的音素。
15.如權(quán)利要求14所述的方法，其中在詞層次上使用一組聲調(diào)變化規(guī)則建立訓(xùn)練數(shù)據(jù)的副本和解碼的詞格。
16.如權(quán)利要求15所述的方法，其中在語句層次上一組具有輕聲的語句結(jié)束詞被加到用于訓(xùn)練和解碼帶聲調(diào)音節(jié)語言話音的系統(tǒng)詞匯表中。
17.一種系統(tǒng)，包括一個(gè)模型數(shù)據(jù)庫(kù)，它包括一組語音統(tǒng)計(jì)模型，每個(gè)語音統(tǒng)計(jì)模型均代表一組帶聲調(diào)音素中的一個(gè)不同音素，具有相同的語音結(jié)構(gòu)但不同的聲調(diào)的音素被確定為不同的音素；一個(gè)特征抽取單元，該特征抽取單元將一個(gè)表示帶聲調(diào)音節(jié)語言輸入話音的輸入信號(hào)轉(zhuǎn)換成一組特征向量，該輸入話音包括一或多個(gè)詞，每個(gè)詞包括一或多個(gè)音素，每個(gè)特征向量代表一幀輸入話音并且包含一個(gè)含有對(duì)應(yīng)幀的音調(diào)信息的音調(diào)特征；和一個(gè)解碼器單元，該解碼器單元根據(jù)特征向量和語音統(tǒng)計(jì)模型進(jìn)行語音識(shí)別以識(shí)別出輸入話音中包含的音素，并且根據(jù)識(shí)別出的音素，一組詞統(tǒng)計(jì)模型和一組聲調(diào)變化規(guī)則進(jìn)行詞識(shí)別以識(shí)別出輸入話音中包含的詞。
18.如權(quán)利要求17所述的系統(tǒng)，其中每個(gè)語音統(tǒng)計(jì)模型均被表示成一個(gè)對(duì)應(yīng)的隱藏馬爾可夫模型(HMM)。
19.如權(quán)利要求18所述的系統(tǒng)，其中通過根據(jù)其在字典中的讀音連接對(duì)應(yīng)的語音HMM來構(gòu)成每個(gè)詞的詞統(tǒng)計(jì)模型。
20.如權(quán)利要求17所述的系統(tǒng)，其中特征抽取單元使用平均值微分函數(shù)(AMDF)抽取音調(diào)參數(shù)。
21.如權(quán)利要求20所述的系統(tǒng)，其中音調(diào)特征包括音調(diào)數(shù)值，Mel頻標(biāo)倒譜系數(shù)(MFCC)，被取出的音調(diào)參數(shù)的第一和第二導(dǎo)數(shù)。
22.如權(quán)利要求7所述的系統(tǒng)，其中為了平滑輸入信號(hào)的音調(diào)輪廓，把輸入信號(hào)的開始處的音調(diào)數(shù)值定義成分組平均值加一個(gè)隨機(jī)噪聲，把從有聲部分到無聲部分的切換處的音調(diào)數(shù)值定義成關(guān)于分組平均值的指數(shù)衰減函數(shù)加隨機(jī)噪聲，其中根據(jù)輸入信號(hào)中所有合法點(diǎn)的音調(diào)數(shù)值計(jì)算分組平均值。
23.如權(quán)利要求22所述的系統(tǒng)，其中輸入信號(hào)被傳遞通過一個(gè)頻域低通濾波器以清除輸入信號(hào)中的尖峰信號(hào)。
24.如權(quán)利要求17所述的系統(tǒng)，其中關(guān)于帶聲調(diào)音節(jié)語言中聲調(diào)特征的知識(shí)在構(gòu)造統(tǒng)計(jì)模型并且根據(jù)自底向上識(shí)別結(jié)構(gòu)中的統(tǒng)計(jì)模型解碼話音時(shí)被用來在多個(gè)層次上模擬話音，自底向上識(shí)別結(jié)構(gòu)中的多個(gè)層次包含聲學(xué)層次、語音層次、詞層次和語句層次。
25.如權(quán)利要求24所述的系統(tǒng)，其中在聲學(xué)層次上對(duì)應(yīng)于指定音素的聲調(diào)的音調(diào)信息被看作連續(xù)聲學(xué)變量并且被包含在表示指定音素的特征向量中，在語音層次上具有相同語音結(jié)構(gòu)但不同聲調(diào)的主元音被看作不同的音素，在詞層次上使用一組聲調(diào)變化規(guī)則建立訓(xùn)練數(shù)據(jù)的副本和解碼的詞格，在語句層次上一組具有輕聲的語句結(jié)束詞被加到用于訓(xùn)練和解碼帶聲調(diào)音節(jié)語言話音的系統(tǒng)詞匯表中。
26.一種包括在被機(jī)器執(zhí)行時(shí)使機(jī)器執(zhí)行以下操作的指令的機(jī)器可讀介質(zhì)將一個(gè)表示帶聲調(diào)音節(jié)語言輸入話音的輸入信號(hào)轉(zhuǎn)換成一組特征向量，該輸入話音包含一或多個(gè)詞，每個(gè)詞包含一或多個(gè)音素，每個(gè)特征向量代表一幀輸入話音并且包含一個(gè)含有對(duì)應(yīng)幀的音調(diào)信息的音調(diào)特征；根據(jù)特征向量和一組語音統(tǒng)計(jì)模型識(shí)別輸入話音中包含的音素，每個(gè)語音統(tǒng)計(jì)模型均表示一組帶聲調(diào)音素中一個(gè)不同的音素，具有相同的語音結(jié)構(gòu)但不同的聲調(diào)的音素被確定為不同的音素；并且根據(jù)識(shí)別的音素，一組詞統(tǒng)計(jì)模型和一組聲調(diào)變化規(guī)則進(jìn)行詞識(shí)別以識(shí)別出輸入話音中包含的詞。
27.如權(quán)利要求26所述的機(jī)器可讀介質(zhì)，其中關(guān)于帶聲調(diào)音節(jié)語言中聲調(diào)特征的知識(shí)在構(gòu)造統(tǒng)計(jì)模型并且根據(jù)自底向上識(shí)別結(jié)構(gòu)中的統(tǒng)計(jì)模型解碼話音時(shí)被用來在多個(gè)層次上模擬話音，自底向上識(shí)別結(jié)構(gòu)中的多個(gè)層次包含聲學(xué)層次、語音層次、詞層次和語句層次。
28.如權(quán)利要求27所述的機(jī)器可讀介質(zhì)，其中在聲學(xué)層次上對(duì)應(yīng)于指定音素的聲調(diào)的音調(diào)信息被看作連續(xù)聲學(xué)變量并且被包含在表示指定音素的特征向量中。
29.如權(quán)利要求27所述的機(jī)器可讀介質(zhì)，其中在語音層次上具有相同語音結(jié)構(gòu)但不同聲調(diào)的主元音被看作不同的音素。
30.如權(quán)利要求27所述的機(jī)器可讀介質(zhì)，其中在詞層次上使用一組聲調(diào)變化規(guī)則建立訓(xùn)練數(shù)據(jù)的副本和解碼的詞格。
全文摘要
根據(jù)發(fā)明的一個(gè)方面，提供一種方法，其中關(guān)于帶聲調(diào)音節(jié)語言的聲調(diào)特征的知識(shí)在自底向上識(shí)別結(jié)構(gòu)中被用來在多個(gè)層次上模擬話音。自底向上識(shí)別結(jié)構(gòu)中的多個(gè)層次包含聲學(xué)層次、語音層次、詞層次和語句層次。在聲學(xué)層次上音調(diào)被看作連續(xù)聲學(xué)變量并且從話音信號(hào)中抽取的音調(diào)信息被作為特征向量的特征分量。在語音層次上具有相同語音結(jié)構(gòu)但不同聲調(diào)的主元音被定義和模擬成不同的音素。在詞層次上使用一組聲調(diào)變化規(guī)則建立訓(xùn)練數(shù)據(jù)的副本和解碼的讀音格。在語句層次上一組具有輕聲的語句結(jié)束詞被加到系統(tǒng)詞匯表中。
文檔編號(hào)G10L25/15GK1402851SQ00816483
公開日2003年3月12日申請(qǐng)日期2000年9月30日優(yōu)先權(quán)日2000年9月30日
發(fā)明者賈穎, 顏永紅, 苑寶生申請(qǐng)人:英特爾公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：賈穎;顏永紅;苑寶生
技術(shù)所有人：英特爾公司
我是此專利的發(fā)明人

上一篇：使用離散語言模型的語音識(shí)別方法和設(shè)備的制作方法
上一篇：鍵盤裝置的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

漢語聲調(diào)相關(guān)技術(shù)

漢語拼音聲調(diào)標(biāo)注口訣相關(guān)技術(shù)

漢語拼音聲調(diào)相關(guān)技術(shù)

如何輸入漢語拼音聲調(diào)相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

以自底向上方式將聲調(diào)集成到漢語連續(xù)語音識(shí)別系統(tǒng)中的方向、裝置和系統(tǒng)的制作方法

以自底向上方式將聲調(diào)集成到漢語連續(xù)語音識(shí)別系統(tǒng)中的方向、裝置和系統(tǒng)的制作方法