欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

以自底向上方式將聲調(diào)集成到漢語連續(xù)語音識(shí)別系統(tǒng)中的方向、裝置和系統(tǒng)的制作方法

文檔序號(hào):2829588閱讀:496來源:國(guó)知局
專利名稱:以自底向上方式將聲調(diào)集成到漢語連續(xù)語音識(shí)別系統(tǒng)中的方向、裝置和系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及語音識(shí)別領(lǐng)域。更具體地,本發(fā)明涉及以自底向上方式將聲調(diào)集成到漢語連續(xù)語音識(shí)別系統(tǒng)中的方法、裝置和系統(tǒng)。
背景技術(shù)
現(xiàn)代語音識(shí)別系統(tǒng)依據(jù)統(tǒng)計(jì)模式識(shí)別的原理并且通常使用聲學(xué)模型和語言模型解碼一個(gè)代表輸入話音(例如一個(gè)語句或詞串)的觀測(cè)(也稱作聲學(xué)事件或聲學(xué)信號(hào))輸入序列以便在指定觀測(cè)輸入序列的情況下確定最可能的語句或詞序列。換言之,現(xiàn)代語音識(shí)別器的功能是搜索大量潛在或候選語句并且選擇最有可能產(chǎn)生觀測(cè)或聲學(xué)事件輸入序列的語句或詞序列。通常,多數(shù)現(xiàn)代語音識(shí)別系統(tǒng)使用基于連續(xù)密度隱藏馬爾可夫模型(CDHMM)的聲學(xué)模型。
多數(shù)現(xiàn)有技術(shù)的基于HMM的語音識(shí)別系統(tǒng)使用

圖1所示的層次結(jié)構(gòu)模擬不同層次的事件。根據(jù)語音在足夠短的時(shí)間段內(nèi)(5到100毫秒之間)在統(tǒng)計(jì)上處于穩(wěn)定狀態(tài)這一事實(shí),各個(gè)窗口的聲學(xué)層次輸入話音被編碼成特征向量。在語音層次上,通過隱藏馬爾可夫模型(HMM)模擬與相同語音單元(例如音素)相關(guān)的聲學(xué)特征分段。在詞層次上,通過根據(jù)每個(gè)詞在字典中的發(fā)音連接語音HMM來構(gòu)成每個(gè)詞的詞格(lattice)。在語句層次上,最終動(dòng)態(tài)建立一個(gè)具有詞結(jié)點(diǎn)的搜索網(wǎng)絡(luò)并且根據(jù)當(dāng)前活躍路徑和N元語言模型精減搜索網(wǎng)絡(luò)。根據(jù)這種自底向上結(jié)構(gòu),有關(guān)聲音、語音、詞和語法的知識(shí)可以被裝到識(shí)別系統(tǒng)中以便改進(jìn)性能。
漢語語音識(shí)別系統(tǒng)基本上也是基于上述自底向上結(jié)構(gòu),就象英語和其它語言的自底向上結(jié)構(gòu)那樣。為了達(dá)到較高的識(shí)別準(zhǔn)確度和系統(tǒng)性能,在設(shè)計(jì)漢語連續(xù)語音識(shí)別系統(tǒng)時(shí)必須考慮到并且利用漢語口語的某些特征(例如普通話,廣東話等等)。漢語是帶聲調(diào)的音節(jié)語言。每個(gè)音節(jié)被指定四或五個(gè)聲調(diào)中的一個(gè)。例如,普通話漢語中每個(gè)音節(jié)可以被指定以下四或五個(gè)聲調(diào)中的一個(gè)陰平聲(這里稱作一聲),陽(yáng)平聲(這里稱作二聲),上聲(這里稱作三聲),去聲(這里稱作四聲)和中性聲或輕聲(這里稱作五聲)。某些音節(jié)沒有五聲。在漢語中聲調(diào)對(duì)于區(qū)分含義而言有重要的作用。具有相同語音結(jié)構(gòu)但具有不同聲調(diào)的音節(jié)通常表達(dá)不同的意思。因而聲調(diào)是漢語語音識(shí)別的基本要素。
幾十年來聲調(diào)識(shí)別已經(jīng)成為漢語語音識(shí)別的焦點(diǎn)問題。一個(gè)普遍使用的方法是分別識(shí)別基音節(jié)(聲母和韻母)和聲調(diào)。通過傳統(tǒng)的基于HMM的方法識(shí)別基音節(jié),例如用于英語的方法。通過使用鑒別規(guī)則區(qū)分音節(jié)的音調(diào)輪廓(pitch contour)可以識(shí)別音節(jié)的聲調(diào)。帶聲調(diào)音節(jié)的識(shí)別綜合了基音節(jié)的識(shí)別和聲調(diào)的識(shí)別。如果用于孤立音節(jié)語音識(shí)別,這種方法因各種原因而不適用于漢語連續(xù)語音識(shí)別任務(wù)。首先,在連續(xù)語音識(shí)別中,音節(jié)的邊界是不清晰的。在整個(gè)識(shí)別過程結(jié)束時(shí)才確定邊界。在聲音識(shí)別的早期階段提供音節(jié)邊界信息是非常困難的。其次,具有五聲中的一個(gè)聲調(diào)的音節(jié)的實(shí)際聲調(diào)輪廓取決于語音環(huán)境。能夠根據(jù)音調(diào)輪廓確定聲調(diào)的規(guī)則將會(huì)非常復(fù)雜。
近年來,人們?yōu)榘崖曊{(diào)集成到漢語連續(xù)語音識(shí)別系統(tǒng)中付出了各種努力。通過將音調(diào)看作一個(gè)與倒譜(ceptra)或能量相同的聲學(xué)參數(shù),這些系統(tǒng)對(duì)性能進(jìn)行了改進(jìn)。然而這些系統(tǒng)沒有集成如系統(tǒng)綜述所述的語音識(shí)別其它層次的聲調(diào)知識(shí)。換言之,語音識(shí)別過程的其它層次的聲調(diào)知識(shí)尚未被考慮到。
附圖的簡(jiǎn)要描述以下參照附圖可以更全面地理解本發(fā)明的特征和優(yōu)點(diǎn),其中圖1是示出語音識(shí)別中使用的自底向上層次結(jié)構(gòu)的圖例;圖2是關(guān)于基于本發(fā)明的語音識(shí)別系統(tǒng)的一個(gè)實(shí)施例的模塊圖;圖3示出了在平滑處理之前測(cè)量的音調(diào)輪廓的一個(gè)例子;圖4示出了在平滑處理之后測(cè)量的音調(diào)輪廓的一個(gè)例子;圖5是圖解基于HMM的語音模型的圖例;
圖6示出了基于本發(fā)明的方法的一個(gè)實(shí)施例的流程圖;圖7示出了基于本發(fā)明的方法的一個(gè)實(shí)施例的流程圖。
具體實(shí)施例方式
在下面的詳細(xì)描述中,為了能夠透徹理解本發(fā)明,對(duì)許多具體細(xì)節(jié)進(jìn)行了描述。然而本領(lǐng)域技術(shù)人員可以理解,即使沒有這些具體細(xì)節(jié)也能夠理解和實(shí)現(xiàn)本發(fā)明。
在下面的討論中,根據(jù)本發(fā)明實(shí)現(xiàn)一個(gè)按照自底向上結(jié)構(gòu)向漢語連續(xù)語音識(shí)別系統(tǒng)提供聲調(diào)集成的方法、裝置、系統(tǒng)和機(jī)器可讀介質(zhì)。根據(jù)本發(fā)明,在自底向上識(shí)別結(jié)構(gòu)中在各個(gè)層次上模擬聲調(diào)知識(shí)及其影響。在聲學(xué)層次上,音調(diào)被看作是一個(gè)連續(xù)聲學(xué)變量。在一個(gè)實(shí)施例中,為了使從一個(gè)幀中得到的音調(diào)估測(cè)易于被高斯混合分布所模擬,兩個(gè)有聲部分被一個(gè)指數(shù)衰減函數(shù)連接并且加上一個(gè)隨機(jī)噪聲,而頻域?yàn)V波器被提供給其余的閃光點(diǎn)(spark point)。在基于本發(fā)明一個(gè)實(shí)施例的典型實(shí)驗(yàn)中,把音調(diào)特征集成到特征幀中使詞差錯(cuò)率(WER)從9.9%降低到8.5%。在語音層次上,一個(gè)具有不同聲調(diào)的主元音被看作是不同的音素。某些輕聲音素也被加到語音集中。在三音建立階段,針對(duì)各個(gè)判決樹結(jié)點(diǎn)評(píng)估一組涉及聲調(diào)的問題。在根據(jù)本發(fā)明所進(jìn)行的實(shí)驗(yàn)中,語音層次的聲調(diào)集成使詞差錯(cuò)率從8.5%降到7.8%。在詞層次上,使用一組聲調(diào)變化規(guī)則建立訓(xùn)練數(shù)據(jù)的副本和解碼的詞格。詞層次上的聲調(diào)集成也降低了識(shí)別過程中的詞差錯(cuò)率(在根據(jù)本發(fā)明的實(shí)驗(yàn)中又降低了0.4%)。在語句層次上,某些具有輕聲的語句結(jié)束詞也被加到系統(tǒng)詞匯表中。
在一個(gè)實(shí)施例中,一個(gè)表示帶聲調(diào)音節(jié)語言(例如普通話漢語)中一個(gè)輸入話音的輸入信號(hào)被轉(zhuǎn)換成一組特征向量。輸入話音包含一或多個(gè)詞并且每個(gè)詞包含一或多個(gè)音素。每個(gè)特征向量代表一幀輸入話音并且包含一個(gè)含有對(duì)應(yīng)幀的音調(diào)信息的音調(diào)特征。根據(jù)特征向量和一組語音統(tǒng)計(jì)模型確定輸入話音中包含的音素。每個(gè)語音模型代表一組帶聲調(diào)音素中的一個(gè)不同音素。具有相同的語音結(jié)構(gòu)但不同的聲調(diào)的音素被認(rèn)為是不同的音素并且被表示成不同的統(tǒng)計(jì)模型。接著根據(jù)識(shí)別的音素,一組詞統(tǒng)計(jì)模型和一組聲調(diào)變化規(guī)則確定輸入話音中包含的詞。在一個(gè)實(shí)施例中,每個(gè)語音統(tǒng)計(jì)模型均被表示成一個(gè)對(duì)應(yīng)的隱藏馬爾可夫模型(HMM)。在一個(gè)實(shí)施例中,對(duì)應(yīng)的HMM是一個(gè)使用高斯混合分布表示與對(duì)應(yīng)HMM中各個(gè)狀態(tài)相關(guān)的觀測(cè)概率函數(shù)的連續(xù)密度HMM。在一個(gè)實(shí)施例中,通過根據(jù)其在字典中的讀音連接對(duì)應(yīng)的語音HMM來構(gòu)成每個(gè)詞的詞統(tǒng)計(jì)模型。在一個(gè)實(shí)施例中,使用平均值微分函數(shù)(AMDF)從輸入信號(hào)中取出音調(diào)參數(shù)。在一個(gè)實(shí)施例中,音調(diào)特征包含所取出的音調(diào)數(shù)值,Mel頻率倒譜系數(shù)(Mel-frequency CepstralCoefficients MFCC),取出的音調(diào)參數(shù)的第一和第二導(dǎo)數(shù)。在一個(gè)實(shí)施例中,按照以下方式平滑輸入信號(hào)的音調(diào)輪廓(1)計(jì)算輸入信號(hào)中所有合法點(diǎn)的音調(diào)數(shù)值的分組平均(running average)值;(2)輸入信號(hào)的開始處的音調(diào)數(shù)值被定義成分組平均值加一個(gè)隨機(jī)噪聲;(3)從有聲部分到無聲部分的切換處的音調(diào)數(shù)值被定義成關(guān)于分組平均值的指數(shù)衰減函數(shù)加隨機(jī)噪聲。在一個(gè)實(shí)施例中,輸入信號(hào)通過一個(gè)頻域低通濾波器以清除輸入信號(hào)中的尖刺。本發(fā)明適用于任何漢語語音識(shí)別方案、方法和系統(tǒng)。然而本發(fā)明并不僅限于漢語語音識(shí)別,也可以應(yīng)用于其它帶聲調(diào)音節(jié)語言的語音識(shí)別方法、方案和系統(tǒng)。
雖然這里對(duì)本發(fā)明的討論以普通話漢語作為示例性帶聲調(diào)音節(jié)語言描述和解釋了本發(fā)明的技術(shù),但本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,本發(fā)明的技術(shù)也適用于諸如廣東話的其它漢語帶聲調(diào)音節(jié)語言和其它非漢語帶聲調(diào)音節(jié)語言。
如上所述,普通話漢語是帶聲調(diào)音節(jié)語言。普通話中有將近400個(gè)基音節(jié)(無聲調(diào))。多數(shù)基音節(jié)可以和四個(gè)或五個(gè)聲調(diào)相關(guān)聯(lián)。因此,普通話漢語中有將近1400個(gè)帶聲調(diào)音節(jié)。根據(jù)下面示出的規(guī)則,每個(gè)音節(jié)含有一個(gè)韻母部分并且可以或不可以含有一個(gè)聲母部分音節(jié)→[聲母]韻母聲母→輔音韻母→[中音]元音[尾音]中音→元音尾音→{元音,鼻音}根據(jù)前面的描述可以理解,一個(gè)音節(jié)的聲母部分對(duì)應(yīng)于一個(gè)單輔音,而一個(gè)音節(jié)的韻母部分可以是一個(gè)單元音,一個(gè)雙元音,一個(gè)三元音,一個(gè)帶鼻音結(jié)束的元音,一個(gè)帶鼻音結(jié)束的雙元音,等等。在一個(gè)基于本發(fā)明的實(shí)施例中,每個(gè)聲母和每個(gè)韻母均被看成是一個(gè)單獨(dú)的音素并且被模擬成一個(gè)對(duì)應(yīng)的連續(xù)隱藏馬爾可夫模型(HMM)。
本發(fā)明基于發(fā)明人的以下觀察。從系統(tǒng)角度看,聲調(diào)對(duì)自底向上識(shí)別結(jié)構(gòu)中所有層次上的事件均有影響。在聲學(xué)層次上,音調(diào)輪廓規(guī)定了五個(gè)詞匯聲調(diào)。在語音層次上,聲調(diào)與韻母部分,尤其是與元音或鼻音元音相關(guān)聯(lián)。并且本發(fā)明人發(fā)現(xiàn)一個(gè)音節(jié)的聲調(diào)信息集中表現(xiàn)在音節(jié)的主元音的音調(diào)行為特性上。因此,主元音的音調(diào)信息足以確定整個(gè)音節(jié)的聲調(diào)。對(duì)于連續(xù)普通話漢語,主元音附近的音調(diào)平均值和音調(diào)時(shí)間導(dǎo)數(shù)對(duì)于確定聲調(diào)而言都很重要。并且在音調(diào)估測(cè)的準(zhǔn)確度和平滑度之間存在平衡,尤其是在從有聲部分到無聲部分的邊界上。在詞層次上,根據(jù)語音環(huán)境,一個(gè)音節(jié)的聲調(diào)可能發(fā)生變化。例如,當(dāng)一起讀出或講出兩個(gè)三聲音節(jié)時(shí),前一個(gè)音節(jié)的聲調(diào)會(huì)被改變成后一個(gè)音節(jié)的聲調(diào)。換言之,前一個(gè)音節(jié)的讀音受到后面環(huán)境的影響。因而一個(gè)音節(jié)的音調(diào)輪廓的環(huán)境依賴性可以被表述成相鄰主元音的音調(diào)輪廓的影響。并且,在語句層次上,不同的語句模式具有不同的輕聲結(jié)束。
根據(jù)上述觀察和自底向上集成的新概念,相應(yīng)設(shè)計(jì)出一個(gè)對(duì)應(yīng)的音素集合。如前所述,一個(gè)音節(jié)的每個(gè)聲母和每個(gè)韻母部分均被看作是一個(gè)單獨(dú)的音素并且同樣被加以模擬。在一個(gè)實(shí)施例中,使用一個(gè)由23個(gè)聲母和48個(gè)韻母構(gòu)成的基本集合來設(shè)計(jì)基于本發(fā)明的帶聲調(diào)音素集合。沒有與聲母關(guān)聯(lián)的聲調(diào)。因而每個(gè)單獨(dú)的聲母均被模擬成一個(gè)單獨(dú)的音素。對(duì)于48個(gè)韻母,某些韻母與五個(gè)聲調(diào)相關(guān)聯(lián),而其它韻母與不足五個(gè)的聲調(diào)相關(guān)聯(lián)(例如某些韻母只有四個(gè)聲調(diào)與之關(guān)聯(lián),等等)。具有相同的語音結(jié)構(gòu)但不同的聲調(diào)的韻母被定義和模擬成不同的音素。因而48個(gè)基韻母中的每個(gè)韻母均可以具有多達(dá)五個(gè)的對(duì)應(yīng)帶聲調(diào)音素。因此,一個(gè)基本的帶聲調(diào)音素集合含有178個(gè)音素單元,其中48個(gè)基韻母中的每個(gè)韻母均具有多達(dá)五個(gè)的帶聲調(diào)音素。在一個(gè)實(shí)施例中,一些五聲單元被加到某些通常不與五聲關(guān)聯(lián)的韻母的帶聲調(diào)音素集合中。通過加入這些五聲單元,帶聲調(diào)音素集合中單元的數(shù)量從178增加到185。對(duì)于五聲單元被加入其帶聲調(diào)音素集合的那些韻母,對(duì)應(yīng)的詞的帶五聲讀音也被加到讀音字典中。如上所述,在詞層次上使用一組聲調(diào)變化規(guī)則建立訓(xùn)練數(shù)據(jù)的副本和解碼的讀音格(pronunciation Lattice)。在一個(gè)實(shí)施例中,設(shè)計(jì)并實(shí)現(xiàn)9個(gè)聲調(diào)變化規(guī)則對(duì)詞層次上的聲調(diào)影響模擬如下(a)3音節(jié)詞有以下4個(gè)聲調(diào)變化規(guī)則(1)333→223(2)1*3→123(3)2*3→223(4)4*3→423在以上描述中,規(guī)則“333→223”意味著那些有3個(gè)三聲音節(jié)的詞被讀成前兩個(gè)音節(jié)為二聲而最后一個(gè)音節(jié)為三聲(“223”)。規(guī)則“1*3→123”意味著一聲音節(jié)(第一個(gè)一聲音節(jié))與三聲音節(jié)(最后一個(gè)三聲音節(jié))之間的任意音節(jié)均被讀成二聲音節(jié)。類似地,規(guī)則“2*3→223”意味著二聲音節(jié)(第一個(gè)二聲音節(jié))與三聲音節(jié)(最后一個(gè)三聲音節(jié))之間的任意音節(jié)均被讀成二聲音節(jié)。因此,規(guī)則“4*3→423”意味著四聲音節(jié)(第一個(gè)四聲音節(jié))與三聲音節(jié)(最后一個(gè)三聲音節(jié))之間的任意音節(jié)均被讀成二聲音節(jié)。
(b)具有2個(gè)三聲音節(jié)的詞有下面1個(gè)規(guī)則33→23這個(gè)規(guī)則意味著后面跟有另一個(gè)三聲音節(jié)的三聲音節(jié)被讀成二聲音節(jié)。
(c)具有一個(gè)一聲音節(jié)“yi1”,“qi1”,或“ba1”(拼音表示法)并且后跟一個(gè)四聲音節(jié)“bu4”(拼音表示法)的詞具有4個(gè)規(guī)則,這些實(shí)例中的一聲音節(jié)均被讀成二聲。
上述9個(gè)聲調(diào)變化規(guī)則被用于建立訓(xùn)練數(shù)據(jù)的副本和解碼的讀音格。
對(duì)于語句層次上的聲調(diào)集成,存在一些未被包含在原始讀音字典中的語句結(jié)束詞。另外,這些詞在處于一個(gè)語句的結(jié)束位置時(shí)的讀音變化未被包含在原始讀音字典中。為利于語句層次上的聲調(diào)集成,這些語句結(jié)束詞及其對(duì)應(yīng)的讀音變化已經(jīng)被加到讀音字典中。
圖2圖解了關(guān)于基于本發(fā)明的語音識(shí)別系統(tǒng)200的一個(gè)實(shí)施例的模塊圖。如圖2所示,系統(tǒng)200包含一個(gè)模數(shù)轉(zhuǎn)換器(A/D)210,一個(gè)特征抽取器或頻譜分析單元220,一個(gè)解碼器230,一個(gè)聲學(xué)模型240,和一個(gè)語言模型250。首先使用A/D 210對(duì)代表輸入話音的輸入信號(hào)250進(jìn)行數(shù)字化。數(shù)字信號(hào)接著被分割到通常為10、15或20毫秒的幀中。接著各個(gè)信號(hào)幀被轉(zhuǎn)換成一個(gè)被用于提取輸入信號(hào)頻譜性質(zhì)的特征的對(duì)應(yīng)特征向量。在本實(shí)施例中,特征向量是多維向量并且有多個(gè)包含音調(diào)特征的特征分量。在一個(gè)實(shí)施例中,除音調(diào)值之外,MFCC,增量MFCC和增量-增量MFCC也被當(dāng)作聲學(xué)特征向量的分量。特征抽取器單元220產(chǎn)生的特征向量接著被輸入到解碼器230,而解碼器230利用聲學(xué)模型240和語言模型250確定在指定以特征向量為特征的聲學(xué)事件的情況下具有最高概率的語句或詞序列。在本實(shí)施例中,聲學(xué)模型240包含一個(gè)按照上述方式設(shè)計(jì)和構(gòu)成的帶聲調(diào)音素集合。如上所述,具有相同的語音結(jié)構(gòu)但不同的聲調(diào)的音素被認(rèn)為是不同的音素。因此,48個(gè)基韻母中的每個(gè)韻母均可以具有多達(dá)五個(gè)的對(duì)應(yīng)帶聲調(diào)音素。在一個(gè)實(shí)施例中,一些五聲單元被加到某些通常不與五聲關(guān)聯(lián)的韻母的帶聲調(diào)音素集合中。通過加入這些五聲單元,帶聲調(diào)音素集合中單元的數(shù)量從178增加到185。對(duì)于五聲單元被加入其帶聲調(diào)音素集合的那些韻母,對(duì)應(yīng)的詞的帶五聲讀音也被加到讀音字典中。如上所述,在詞層次上使用一組聲調(diào)變化規(guī)則建立訓(xùn)練數(shù)據(jù)的副本和解碼的讀音格。在一個(gè)實(shí)施例中,設(shè)計(jì)并實(shí)現(xiàn)9個(gè)聲調(diào)變化規(guī)則以模擬詞層次上的聲調(diào)影響。前面詳細(xì)描述了這9個(gè)規(guī)則。此外為了模擬詞層次上的聲調(diào)影響,一些語句結(jié)束詞及其對(duì)應(yīng)的讀音變化已經(jīng)被加到讀音字典中。
再次參照?qǐng)D2,在一個(gè)實(shí)施例中,使用平均值微分函數(shù)(AMDF)方法從話音信號(hào)中抽取音調(diào)參數(shù)。根據(jù)一般的理解,只能針對(duì)話音的有聲幀確定音調(diào)。音調(diào)對(duì)于靜音和無聲部分是不存在的。圖3示出了使用AMDF方法測(cè)量的一個(gè)四音節(jié)詞組的音調(diào)輪廓的一個(gè)例子。如圖3所示,在靜音幀和帶無聲輔音的幀中音調(diào)是不確定的。在這些幀中,音調(diào)的導(dǎo)數(shù)會(huì)變成零。在有聲部分和無聲部分的邊界上,音調(diào)的導(dǎo)數(shù)會(huì)變成無窮大。在兩種情況下訓(xùn)練和解碼均會(huì)出現(xiàn)問題。在一個(gè)實(shí)施例中,使用以下平滑處理解決該問題(1)根據(jù)所有合法點(diǎn)計(jì)算分組平均值;(2)在說話開始時(shí)音調(diào)值被確定成分組平均值加一個(gè)隨機(jī)噪聲;(3)當(dāng)話音從有聲部分變化到無聲部分時(shí),音調(diào)被確定成關(guān)于分組平均值的指數(shù)衰減函數(shù)加上一個(gè)隨機(jī)噪聲;(4)整個(gè)信號(hào)被傳遞通過一個(gè)頻域低通濾波器以清除尖峰信號(hào)。
向無聲部分加入隨機(jī)噪聲量為了避免在音調(diào)不是重要變量的幀中出現(xiàn)零方差。圖4示出了在對(duì)圖3中示出的相同講話進(jìn)行平滑處理之后的音調(diào)輪廓。如圖4所示,平滑后的音調(diào)是性能良好并且可以按照與倒譜相同的方式加以處理的參數(shù)。在一個(gè)實(shí)施例中,音調(diào)值的對(duì)數(shù)也被當(dāng)作音調(diào)特征的一個(gè)要素。應(yīng)當(dāng)注意,在音調(diào)估測(cè)的準(zhǔn)確度和平滑度之間存在平衡,尤其是在從有聲部分到無聲部分的邊界上。
圖5是圖解基于本發(fā)明的教導(dǎo)在聲學(xué)模型240中被用于模擬語音單元的基于HMM的語音模型的一個(gè)實(shí)施例的圖例(例如各個(gè)聲母和帶聲調(diào)韻母被表示成一個(gè)單獨(dú)的音素)。每個(gè)單獨(dú)的語音單元均被表示或模擬成一個(gè)對(duì)應(yīng)的HMM。如圖4所示,一個(gè)HMM具有一個(gè)狀態(tài)(1-5)序列集合,該集合由一個(gè)切換概率(a12,a23,a34,a45)集合和一個(gè)觀測(cè)概率或相似度(b2(o1),b2(o2),b3(o3),b4(o4),b4(o5),b4(o6))集合連接而成。每個(gè)切換概率aij表示從狀態(tài)i切換到狀態(tài)j的概率。每個(gè)觀測(cè)概率或分布bi(oj)表示從狀態(tài)i產(chǎn)生一個(gè)觀測(cè)向量oj的概率。因此,切換概率模擬話音的持續(xù)可變性,而輸出概率模擬頻譜可變性。因此,狀態(tài)集合,切換概率集合和輸出概率集合是被用于定義一個(gè)HMM的參數(shù)。圖2所示的HMM具有左-右拓?fù)?。在本?shí)施例中,各個(gè)狀態(tài)輸出分布或觀測(cè)概率函數(shù)被模擬成下面的多元混合高斯bj(ot)=Σk=1McjkN(ot,mjk,Vjk)]]>其中cjk是狀態(tài)j中混合分量k的權(quán)重,N(ot,mjk,Vjk)表示狀態(tài)j中第k個(gè)混合分量的均值mjk和協(xié)方差Vjk的多元高斯。
圖6示出了基于本發(fā)明的方法600的一個(gè)實(shí)施例的流程圖,其中在自底向上識(shí)別結(jié)構(gòu)中各個(gè)層次上模擬聲調(diào)影響。在塊610,在聲學(xué)層次上把音調(diào)看作諸如倒譜或能量的連續(xù)變量。音調(diào)信息被從話音信號(hào)中抽取出來并且被包含成特征向量中的特征分量。在塊620,在語音層次上把具有相同的語音結(jié)構(gòu)但不同的聲調(diào)的音素看作帶聲調(diào)音素集合中的不同音素(例如一個(gè)具有不同聲調(diào)的主元音被定義成不同的音素)。一些五聲單元也被加到某些通常不與五聲關(guān)聯(lián)的韻母部分的帶聲調(diào)音素集合中。在塊630,在詞層次上使用一組聲調(diào)變化規(guī)則建立訓(xùn)練數(shù)據(jù)的副本和解碼的讀音詞格。在塊640,在語句層次上把一些語句結(jié)束詞及其對(duì)應(yīng)的讀音變化加到讀音字典中以模擬語句層次上的聲調(diào)影響。
圖7示出了基于本發(fā)明的語音識(shí)別方法700的一個(gè)實(shí)施例的流程圖。方法700從塊701開始并執(zhí)行到塊710。在塊710,一個(gè)表示帶聲調(diào)音節(jié)語言(例如普通話漢語)中一個(gè)輸入話音的輸入信號(hào)被轉(zhuǎn)換成一組特征向量。輸入話音包含一或多個(gè)詞并且每個(gè)詞包含一或多個(gè)音素。每個(gè)特征向量代表一幀輸入話音并且包含一個(gè)含有對(duì)應(yīng)幀的音調(diào)信息的音調(diào)特征。在塊720,根據(jù)特征向量和一組語音統(tǒng)計(jì)模型確定輸入話音中包含的音素。每個(gè)語音模型代表一組帶聲調(diào)音素中的一個(gè)不同音素。具有相同的語音結(jié)構(gòu)但不同的聲調(diào)的音素被認(rèn)為是不同的音素并且被表示成不同的語音模型。在塊730,根據(jù)識(shí)別的音素,一組詞統(tǒng)計(jì)模型和一組聲調(diào)變化規(guī)則確定輸入話音中包含的詞。在一個(gè)實(shí)施例中,通過根據(jù)其在字典中的讀音連接對(duì)應(yīng)的語音HMM來構(gòu)成一個(gè)詞的詞統(tǒng)計(jì)模型。
這里已經(jīng)結(jié)合優(yōu)選實(shí)施例描述了本發(fā)明。顯然本領(lǐng)域技術(shù)人員根據(jù)前面的描述可以理解許多可選方案、修改、變化和使用。
權(quán)利要求
1.一種方法,包括將一個(gè)表示帶聲調(diào)音節(jié)語言輸入話音的輸入信號(hào)轉(zhuǎn)換成一組特征向量,該輸入話音包括一或多個(gè)詞,每個(gè)詞包括一或多個(gè)音素,每個(gè)特征向量代表一幀輸入話音并且包含一個(gè)含有對(duì)應(yīng)幀的音調(diào)信息的音調(diào)特征;根據(jù)特征向量和一組語音統(tǒng)計(jì)模型確定輸入話音中包含的音素,其中每個(gè)語音統(tǒng)計(jì)模型均代表一組帶聲調(diào)音素中的一個(gè)不同音素,具有相同的語音結(jié)構(gòu)但不同的聲調(diào)的音素被確定為不同的音素;并且根據(jù)確定出的音素,一組詞統(tǒng)計(jì)模型和一組聲調(diào)變化規(guī)則確定輸入話音中包含的詞。
2.如權(quán)利要求1所述的方法,其中每個(gè)語音統(tǒng)計(jì)模型均被表示成一個(gè)對(duì)應(yīng)的隱藏馬爾可夫模型(HMM)。
3.如權(quán)利要求2所述的方法,其中對(duì)應(yīng)的HMM是一個(gè)使用高斯混合表示與對(duì)應(yīng)HMM中各個(gè)狀態(tài)相關(guān)的觀測(cè)概率函數(shù)的連續(xù)密度HMM。
4.如權(quán)利要求2所述的方法,其中通過根據(jù)其在字典中的讀音連接對(duì)應(yīng)的語音HMM來構(gòu)成每個(gè)詞的詞統(tǒng)計(jì)模型。
5.如權(quán)利要求1所述的方法,其中轉(zhuǎn)換包括從輸入信號(hào)中抽取音調(diào)參數(shù)。
6.如權(quán)利要求5所述的方法,其中使用平均值微分函數(shù)(AMDF)抽取音調(diào)參數(shù)。
7.如權(quán)利要求5所述的方法,其中音調(diào)特征包括音調(diào)數(shù)值,Mel頻標(biāo)倒譜系數(shù)(MFCC),取出的音調(diào)參數(shù)的第一和第二導(dǎo)數(shù)。
8.如權(quán)利要求7所述的方法,還包括平滑輸入信號(hào)的音調(diào)輪廓,它包括計(jì)算輸入信號(hào)中所有合法點(diǎn)的音調(diào)數(shù)值的分組平均值;把輸入信號(hào)的開始處的音調(diào)數(shù)值定義成分組平均值加一個(gè)隨機(jī)噪聲;和把從有聲部分到無聲部分的切換處的音調(diào)數(shù)值定義成關(guān)于分組平均值的指數(shù)衰減函數(shù)加隨機(jī)噪聲信號(hào)。
9.如權(quán)利要求8所述的方法,其中輸入信號(hào)被傳遞通過一個(gè)頻域低通濾波器以清除輸入信號(hào)中的尖峰信號(hào)。
10.如權(quán)利要求1所述的方法,其中前向-后向算法被用來訓(xùn)練代表對(duì)應(yīng)音素的語音統(tǒng)計(jì)模型參數(shù)。
12.如權(quán)利要求1所述的方法,其中關(guān)于帶聲調(diào)音節(jié)語言聲調(diào)特征的知識(shí)在構(gòu)造統(tǒng)計(jì)模型并且根據(jù)自底向上識(shí)別結(jié)構(gòu)中的統(tǒng)計(jì)模型解碼話音時(shí)被用來在多個(gè)層次上模擬話音,自底向上識(shí)別結(jié)構(gòu)中的多個(gè)層次包含聲學(xué)層次、語音層次、詞層次和語句層次。
13.如權(quán)利要求12所述的方法,其中在聲學(xué)層次上對(duì)應(yīng)于指定音素的聲調(diào)的音調(diào)信息被看作連續(xù)聲學(xué)變量并且被包含在表示指定音素的特征向量中。
14.如權(quán)利要求13所述的方法,其中在語音層次上具有相同語音結(jié)構(gòu)但不同聲調(diào)的主元音被看作不同的音素。
15.如權(quán)利要求14所述的方法,其中在詞層次上使用一組聲調(diào)變化規(guī)則建立訓(xùn)練數(shù)據(jù)的副本和解碼的詞格。
16.如權(quán)利要求15所述的方法,其中在語句層次上一組具有輕聲的語句結(jié)束詞被加到用于訓(xùn)練和解碼帶聲調(diào)音節(jié)語言話音的系統(tǒng)詞匯表中。
17.一種系統(tǒng),包括一個(gè)模型數(shù)據(jù)庫(kù),它包括一組語音統(tǒng)計(jì)模型,每個(gè)語音統(tǒng)計(jì)模型均代表一組帶聲調(diào)音素中的一個(gè)不同音素,具有相同的語音結(jié)構(gòu)但不同的聲調(diào)的音素被確定為不同的音素;一個(gè)特征抽取單元,該特征抽取單元將一個(gè)表示帶聲調(diào)音節(jié)語言輸入話音的輸入信號(hào)轉(zhuǎn)換成一組特征向量,該輸入話音包括一或多個(gè)詞,每個(gè)詞包括一或多個(gè)音素,每個(gè)特征向量代表一幀輸入話音并且包含一個(gè)含有對(duì)應(yīng)幀的音調(diào)信息的音調(diào)特征;和一個(gè)解碼器單元,該解碼器單元根據(jù)特征向量和語音統(tǒng)計(jì)模型進(jìn)行語音識(shí)別以識(shí)別出輸入話音中包含的音素,并且根據(jù)識(shí)別出的音素,一組詞統(tǒng)計(jì)模型和一組聲調(diào)變化規(guī)則進(jìn)行詞識(shí)別以識(shí)別出輸入話音中包含的詞。
18.如權(quán)利要求17所述的系統(tǒng),其中每個(gè)語音統(tǒng)計(jì)模型均被表示成一個(gè)對(duì)應(yīng)的隱藏馬爾可夫模型(HMM)。
19.如權(quán)利要求18所述的系統(tǒng),其中通過根據(jù)其在字典中的讀音連接對(duì)應(yīng)的語音HMM來構(gòu)成每個(gè)詞的詞統(tǒng)計(jì)模型。
20.如權(quán)利要求17所述的系統(tǒng),其中特征抽取單元使用平均值微分函數(shù)(AMDF)抽取音調(diào)參數(shù)。
21.如權(quán)利要求20所述的系統(tǒng),其中音調(diào)特征包括音調(diào)數(shù)值,Mel頻標(biāo)倒譜系數(shù)(MFCC),被取出的音調(diào)參數(shù)的第一和第二導(dǎo)數(shù)。
22.如權(quán)利要求7所述的系統(tǒng),其中為了平滑輸入信號(hào)的音調(diào)輪廓,把輸入信號(hào)的開始處的音調(diào)數(shù)值定義成分組平均值加一個(gè)隨機(jī)噪聲,把從有聲部分到無聲部分的切換處的音調(diào)數(shù)值定義成關(guān)于分組平均值的指數(shù)衰減函數(shù)加隨機(jī)噪聲,其中根據(jù)輸入信號(hào)中所有合法點(diǎn)的音調(diào)數(shù)值計(jì)算分組平均值。
23.如權(quán)利要求22所述的系統(tǒng),其中輸入信號(hào)被傳遞通過一個(gè)頻域低通濾波器以清除輸入信號(hào)中的尖峰信號(hào)。
24.如權(quán)利要求17所述的系統(tǒng),其中關(guān)于帶聲調(diào)音節(jié)語言中聲調(diào)特征的知識(shí)在構(gòu)造統(tǒng)計(jì)模型并且根據(jù)自底向上識(shí)別結(jié)構(gòu)中的統(tǒng)計(jì)模型解碼話音時(shí)被用來在多個(gè)層次上模擬話音,自底向上識(shí)別結(jié)構(gòu)中的多個(gè)層次包含聲學(xué)層次、語音層次、詞層次和語句層次。
25.如權(quán)利要求24所述的系統(tǒng),其中在聲學(xué)層次上對(duì)應(yīng)于指定音素的聲調(diào)的音調(diào)信息被看作連續(xù)聲學(xué)變量并且被包含在表示指定音素的特征向量中,在語音層次上具有相同語音結(jié)構(gòu)但不同聲調(diào)的主元音被看作不同的音素,在詞層次上使用一組聲調(diào)變化規(guī)則建立訓(xùn)練數(shù)據(jù)的副本和解碼的詞格,在語句層次上一組具有輕聲的語句結(jié)束詞被加到用于訓(xùn)練和解碼帶聲調(diào)音節(jié)語言話音的系統(tǒng)詞匯表中。
26.一種包括在被機(jī)器執(zhí)行時(shí)使機(jī)器執(zhí)行以下操作的指令的機(jī)器可讀介質(zhì)將一個(gè)表示帶聲調(diào)音節(jié)語言輸入話音的輸入信號(hào)轉(zhuǎn)換成一組特征向量,該輸入話音包含一或多個(gè)詞,每個(gè)詞包含一或多個(gè)音素,每個(gè)特征向量代表一幀輸入話音并且包含一個(gè)含有對(duì)應(yīng)幀的音調(diào)信息的音調(diào)特征;根據(jù)特征向量和一組語音統(tǒng)計(jì)模型識(shí)別輸入話音中包含的音素,每個(gè)語音統(tǒng)計(jì)模型均表示一組帶聲調(diào)音素中一個(gè)不同的音素,具有相同的語音結(jié)構(gòu)但不同的聲調(diào)的音素被確定為不同的音素;并且根據(jù)識(shí)別的音素,一組詞統(tǒng)計(jì)模型和一組聲調(diào)變化規(guī)則進(jìn)行詞識(shí)別以識(shí)別出輸入話音中包含的詞。
27.如權(quán)利要求26所述的機(jī)器可讀介質(zhì),其中關(guān)于帶聲調(diào)音節(jié)語言中聲調(diào)特征的知識(shí)在構(gòu)造統(tǒng)計(jì)模型并且根據(jù)自底向上識(shí)別結(jié)構(gòu)中的統(tǒng)計(jì)模型解碼話音時(shí)被用來在多個(gè)層次上模擬話音,自底向上識(shí)別結(jié)構(gòu)中的多個(gè)層次包含聲學(xué)層次、語音層次、詞層次和語句層次。
28.如權(quán)利要求27所述的機(jī)器可讀介質(zhì),其中在聲學(xué)層次上對(duì)應(yīng)于指定音素的聲調(diào)的音調(diào)信息被看作連續(xù)聲學(xué)變量并且被包含在表示指定音素的特征向量中。
29.如權(quán)利要求27所述的機(jī)器可讀介質(zhì),其中在語音層次上具有相同語音結(jié)構(gòu)但不同聲調(diào)的主元音被看作不同的音素。
30.如權(quán)利要求27所述的機(jī)器可讀介質(zhì),其中在詞層次上使用一組聲調(diào)變化規(guī)則建立訓(xùn)練數(shù)據(jù)的副本和解碼的詞格。
全文摘要
根據(jù)發(fā)明的一個(gè)方面,提供一種方法,其中關(guān)于帶聲調(diào)音節(jié)語言的聲調(diào)特征的知識(shí)在自底向上識(shí)別結(jié)構(gòu)中被用來在多個(gè)層次上模擬話音。自底向上識(shí)別結(jié)構(gòu)中的多個(gè)層次包含聲學(xué)層次、語音層次、詞層次和語句層次。在聲學(xué)層次上音調(diào)被看作連續(xù)聲學(xué)變量并且從話音信號(hào)中抽取的音調(diào)信息被作為特征向量的特征分量。在語音層次上具有相同語音結(jié)構(gòu)但不同聲調(diào)的主元音被定義和模擬成不同的音素。在詞層次上使用一組聲調(diào)變化規(guī)則建立訓(xùn)練數(shù)據(jù)的副本和解碼的讀音格。在語句層次上一組具有輕聲的語句結(jié)束詞被加到系統(tǒng)詞匯表中。
文檔編號(hào)G10L25/15GK1402851SQ00816483
公開日2003年3月12日 申請(qǐng)日期2000年9月30日 優(yōu)先權(quán)日2000年9月30日
發(fā)明者賈穎, 顏永紅, 苑寶生 申請(qǐng)人:英特爾公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
湘潭县| 醴陵市| 额敏县| 诏安县| 阿坝| 于田县| 会东县| 潢川县| 探索| 遂平县| 依兰县| 越西县| 新蔡县| 六安市| 胶南市| 凌源市| 顺昌县| 高碑店市| 襄垣县| 广丰县| 宁武县| 和顺县| 东莞市| 宜都市| 紫云| 蒙阴县| 双流县| 涿州市| 郸城县| 巢湖市| 肃北| 临泽县| 温泉县| 大荔县| 永寿县| 开平市| 迁西县| 儋州市| 永年县| 南郑县| 平山县|