專利名稱:識別有調(diào)語言的系統(tǒng)和方法
技術(shù)領(lǐng)域:
本發(fā)明一般地涉及語音識別系統(tǒng)。具體來說,本發(fā)明涉及用來產(chǎn)生有調(diào)語言的上下文相關(guān)子音節(jié)模型并用上下文相關(guān)子音節(jié)模型來識別有調(diào)語言的系統(tǒng)和方法。
背景技術(shù):
本發(fā)明涉及未決的美國專利申請,其序列號為08/316257,申請日為1994年9月30日,發(fā)明人為Hsiao-Wuen Hon、Yen-Lu Chow和Kai-Fu Lee,名稱是“含有一個集成化音調(diào)分類器的連續(xù)漢語普通話語音識別系統(tǒng)”,在此將其引為參考文獻(xiàn)。本發(fā)明還相關(guān)于未決的美國專利申請,其序列號為08/315222,申請日為1994年9月29日,發(fā)明人為Hsiao-Wuen Hon,名稱是“一種決定漢語普通話語音音節(jié)音調(diào)的系統(tǒng)和方法”,在此將其引為參考文獻(xiàn)。
近年來,語音識別系統(tǒng)常常被用作將數(shù)據(jù)和命令輸入到計算機(jī)和電子系統(tǒng)的輸入裝置。聽寫是用戶方便而有效的將數(shù)據(jù)和命令輸入到計算機(jī)和電子系統(tǒng)的方法。對于說象漢語普通話和日語這樣語言的人,這一點就更為正確。與西方語言不同的是,漢語不用字母,其書面語采用象形文字。共有6000多中文簡化字和10000多中文繁體字。能夠輸入如此多中文字符的鍵盤系統(tǒng)是極為復(fù)雜的。進(jìn)而,鍵盤輸入需要對操作員進(jìn)行長達(dá)數(shù)月的冗長訓(xùn)練。對大多數(shù)用戶來說,通過為漢語普通話配置的鍵盤輸入命令和數(shù)據(jù)既慢又枯燥。對漢語來說,將數(shù)據(jù)和命令輸入到計算機(jī)和其它電子系統(tǒng)的最自然最有效的技術(shù)是聽寫。
語音識別系統(tǒng)已被開發(fā)出用來識別語音。這些系統(tǒng)被用來將命令和數(shù)據(jù)輸入到計算機(jī)系統(tǒng)中。在用于象羅馬或德語這樣的西方語言中,這樣的系統(tǒng)已達(dá)到成功的程度。然而對于漢語及其它有調(diào)語言,語音識別系統(tǒng)遇到了在羅馬或德語未曾遇到的獨特難題。漢語普通話語音的詞由一個或幾個音節(jié)組成。每個漢語字符通常表示一個語音音節(jié)。每個音節(jié)是一個語音結(jié)構(gòu)和一個音調(diào)的組合。漢語普通話語音共有四個字音調(diào)和一個中型音調(diào)。含有相同語音結(jié)構(gòu)和不同音調(diào)的音節(jié)具有不同的含義。這樣,要正確辨識一個音節(jié),一個語音識別系統(tǒng)必須同時辨識音節(jié)的語音結(jié)構(gòu)和音調(diào)。
每個音節(jié)包括一個韻母,可能還包括一個聲母。(一個音節(jié)的語音結(jié)構(gòu)由圖1所示)。聲母是輔音,韻母由單元音或雙元音開頭。在漢語普通話中共有21個聲母和38個韻母。也有的音節(jié)只含有韻母而沒有聲母??傊艄?jié)的聲母和韻母組成音節(jié)的語音結(jié)構(gòu)。漢語普通話語音共有潛在的3990個音節(jié)(聲母和韻母的所有可能組合)。但是并非每個聲母、韻母和音調(diào)的可能組合都能構(gòu)成合法音節(jié)。實際上只有大約408個合法聲母和韻母組合,和大約1229個有意義的帶調(diào)音節(jié)。
現(xiàn)有的漢語普通話語音識別系統(tǒng)一般包括一個識別音節(jié)語音結(jié)構(gòu)的子系統(tǒng)和一個獨立的識別音節(jié)音調(diào)的子系統(tǒng)。兩個子系統(tǒng)都有缺陷,以至于漢語普通話語音識別系統(tǒng)達(dá)不到可以接受的水平。漢語普通話語音中有很多易混淆的音節(jié)子集合。常規(guī)系統(tǒng)和方法識別語音結(jié)構(gòu)時,常常混淆近似音節(jié)?,F(xiàn)有識別漢語普通話音節(jié)語音結(jié)構(gòu)系統(tǒng)對音節(jié)的語音結(jié)構(gòu)的誤識達(dá)到難以忍受的水平。進(jìn)而,識別漢語普通話音節(jié)語音結(jié)構(gòu)的常規(guī)技術(shù)需要大量訓(xùn)練數(shù)據(jù)和大量內(nèi)存。這些技術(shù)也不允許音節(jié)之間的辨識。
識別音節(jié)音調(diào)的系統(tǒng)的表現(xiàn)也不夠好。大多數(shù)音調(diào)識別系統(tǒng)采用短時音調(diào)分析來確定音節(jié)的音調(diào)。然而,短時音調(diào)分析不能提供足夠的分辨率來準(zhǔn)確辨識音節(jié)的音調(diào)。為克服這一困難,有些系統(tǒng)采用長時音調(diào)分析來辨識音節(jié)的音調(diào)。長時音調(diào)分析計算復(fù)雜性高,因而很慢。語音識別聽寫機(jī)系統(tǒng)必須實時使用。采用長時音調(diào)分析的語音識別難以實時。正如對現(xiàn)有的音調(diào)識別的討論所表現(xiàn)的,現(xiàn)有的語音識別系統(tǒng)假設(shè)音節(jié)的音調(diào)獨立于語音結(jié)構(gòu)。
因此,現(xiàn)有有調(diào)語言的語音識別系統(tǒng)不能滿足需求。識別漢語普通話語音的系統(tǒng)和方法需要有更高的準(zhǔn)確率和更快的速度。
發(fā)明內(nèi)容
本發(fā)明克服了現(xiàn)有識別漢語普通話語音系統(tǒng)和方法的不足和缺陷。該系統(tǒng)便利地同時決定一個音節(jié)的語音結(jié)構(gòu)和音調(diào)。一個語音識別系統(tǒng)包括一個預(yù)處理裝置,一個HMM存儲裝置,一個語音辨識裝置,以及一個語音決策裝置。
語音辨識裝置包括對應(yīng)于每個韻母部分的聲母部分或偽聲母部分。對于既有聲母又有韻母的音節(jié),聲母部分存儲聲母的文字表示,韻母部分存儲韻母的文字表示。對于僅有韻母的音節(jié),語音辨識裝置包括一個偽聲母部分和一個韻母部分。偽聲母部分存儲偽聲母的文字表示。偽聲母表示一般在單獨韻母音節(jié)前的聲門閉塞。偽聲母大大地改善單獨韻母的識別。
HMM存儲裝置用來存儲構(gòu)成漢語普通話語音音節(jié)的聲母、偽聲母和韻母模型。聲母和偽聲母的模型可能便利地依賴于可能與它們連接的韻母。類似地,韻母的模型可能便利地依賴于可能與之連接的聲母。聲母、偽聲母和韻母的模型也可能依賴于漢語普通話語音的音調(diào)。HMM存儲裝置和語音辨識裝置被耦合到語音決策裝置。語音決策裝置又被耦合到預(yù)處理裝置。語音辨識裝置從預(yù)處理裝置接收處理后的輸入。語音辨識裝置也從HMM存儲裝置接收子音節(jié)模型,并從語音辨識裝置接收合法音節(jié)。語音辨識裝置按照合法音節(jié)排列子音節(jié)模型并比較得出的音節(jié)模型與處理后的輸入。從比較中,語音決策裝置識別出輸入音節(jié)的語音結(jié)構(gòu)和音調(diào)。利用上下文相關(guān)模型,語音決策裝置不但能夠更為精確地決定音節(jié)的語音結(jié)構(gòu),而且能夠決定音節(jié)的音調(diào)。這樣本發(fā)明,不需要單獨的音調(diào)分析來決定有調(diào)語言音節(jié)的音調(diào)。
模型的產(chǎn)生需要大量訓(xùn)練數(shù)據(jù)。本發(fā)明根據(jù)能得到的訓(xùn)練數(shù)據(jù)提供對模型復(fù)雜性的調(diào)整。聲母和韻母的模型可能僅依賴于相應(yīng)的聲母或韻母,僅依賴于音調(diào),或與上下文無關(guān)。本發(fā)明包括一個改善模型的平滑裝置。該平滑裝置包括LDM(即,較為細(xì)化模型)產(chǎn)生裝置和細(xì)化模型修正裝置。LDM產(chǎn)生裝置耦合到HMM存儲裝置,并從現(xiàn)有模型中產(chǎn)生粗化模型。細(xì)化模型修正裝置接收來自于LDM產(chǎn)生裝置的粗化模型和來自于HMM存儲裝置的模型。然后細(xì)化模型修正裝置按照粗化模型來平滑模型。細(xì)化模型修正裝置的輸出耦合到HMM存儲裝置。平滑后的模型被傳送到HMM存儲裝置以替換未平滑的模型。得出的平滑后的模型使本發(fā)明識別音節(jié)更為精確,尤其在訓(xùn)練數(shù)據(jù)不足時。
根據(jù)本發(fā)明的第一方面,提供了一個用于識別一種語言的音節(jié)的語音識別系統(tǒng),每個該語言的音節(jié)由一個聲母子音節(jié)和一個韻母子音節(jié)組成,該語音識別系統(tǒng)包括一個語音辨識裝置,用來存儲多個聲母子音節(jié)和韻母子音節(jié)的合法組合并且用于為聲母子音節(jié)和韻母子音節(jié)的每個合法組合產(chǎn)生合法音節(jié)信號;一個存儲裝置,用來存儲多個聲母子音節(jié)模型和多個韻母子音節(jié)模型;預(yù)處理器,用于接收數(shù)字化音節(jié)的輸入信號并且處理該數(shù)字化音節(jié)供識別之用;以及一個語音決策裝置,它用來接收經(jīng)第一輸入來的一個待識別的輸入信號;經(jīng)第二輸入來自語音辨識裝置的多個合法組合;以及經(jīng)第三輸入來自存儲裝置的多個模型;處理每個合法的音節(jié)信號;提取和每個被辨識的聲母子音節(jié)對應(yīng)的模型信號,并且辨識每個合法音節(jié)信號的韻母子音節(jié);比較每個被提取的模型信號和輸入信號;通過選擇最佳匹配于輸入信號的模型信號,產(chǎn)生辨識該最佳匹配于輸入信號的模型信號的信號;以及產(chǎn)生辨識所述語言的音節(jié)的信號;其中,在語音決策裝置接收到輸入信號、所述多個合法組合以及所述多個模型之后,語音決策裝置根據(jù)所接收的多個合法組合從所接收的多個模型中產(chǎn)生附加模型,每個附加的模型包括添加到聲母子音節(jié)尾部的韻母子音節(jié)模型,把每個附加的模型與輸入信號相比較,然后產(chǎn)生并輸出一個表明與輸入信號最佳匹配的一個附加模型的信號。
根據(jù)本發(fā)明的第二方面提供了一個用來識別輸入信號的方法,所述輸入信號含有一種語言的一個音節(jié),所述音節(jié)含有一個聲母子音節(jié)和一個韻母子音節(jié),該方法包括以下步驟接收數(shù)字化音節(jié)的輸入信號;將數(shù)字化音節(jié)處理成聲母子音節(jié)和韻母子音節(jié);接收聲母子音節(jié)和韻母子音節(jié)的多個合法組合;接收多個聲母子音節(jié)模型、偽聲母和韻母子音節(jié)模型;按照所接收的多個合法組合從所接收的多個模型產(chǎn)生附加模型,每個附加模型包括添加到聲母子音節(jié)模型尾部的韻母子音節(jié)模型;比較每個附加模型與輸入信號;以及產(chǎn)生表明最佳匹配于輸入信號的一個附加模型的一個信號。
根據(jù)第三方面,提供一個用來識別輸入信號的系統(tǒng),所述輸入信號含有一種語言的一個音節(jié),所述音節(jié)含有一個聲母子音節(jié)和一個韻母子音節(jié),該系統(tǒng)包括用于接收數(shù)字化的輸入信號的裝置;將所述數(shù)字化音節(jié)處理為聲母子音節(jié)和韻母子音節(jié)的裝置;用于接收聲母子音節(jié)和韻母子音節(jié)的多個合法組合的裝置;用于接收多個聲母子音節(jié)模型、偽聲母和韻母子音節(jié)模型的裝置;用于按照所接收的多個合法組合從所接收的多個模型產(chǎn)生附加模型的裝置,每個附加模型包括添加到聲母子音節(jié)模型尾部的韻母子音節(jié)模型;用于比較每個附加模型與輸入信號的裝置;以及用于產(chǎn)生表明最佳匹配于輸入信號的一個附加模型的一個信號的裝置。
圖1是一個漢語普通話語音音節(jié)的圖形表示;圖2是一個按照本發(fā)明識別漢語普通話語音的系統(tǒng)方框圖;圖3是一個按照本發(fā)明構(gòu)造的語音辨識裝置方框圖;圖4是一個按照本發(fā)明構(gòu)造的,HMM存儲裝置方框圖;圖5是一個方框圖,表示漢語普通話語音識別系統(tǒng)中信號與數(shù)據(jù)的流程;圖6A是一個方框圖,表示本發(fā)明的系統(tǒng)中,當(dāng)訓(xùn)練模型存儲在HMM存儲裝置中時,數(shù)據(jù)與信號的流程;圖6B是一個按照本發(fā)明的數(shù)據(jù)存儲裝置的方框圖;圖7是一個表示本發(fā)明用于平滑模型系統(tǒng)的信號和數(shù)據(jù)流程的方框圖;圖8是一個按照本發(fā)明構(gòu)造的,HMM存儲裝置第二實施例的方框圖;圖9是一個按照本發(fā)明表示識別單獨韻母音節(jié)方法的流程圖;圖10A和10B是表示識別漢語普通話語音音節(jié)方法的流程圖;圖11A、11B和11C是表示按照本發(fā)明識別單獨韻母音節(jié)方法的流程圖;圖12是一個表示按照本發(fā)明平滑模型方法的流程圖;圖13A和13B是表示當(dāng)聲母模型依賴于韻母開頭元音時,識別漢語普通話語音音節(jié)方法的流程圖。
具體實施例方式
現(xiàn)請參閱圖1,該圖顯示出一個漢語普通話語音音節(jié)10圖形表示。音節(jié)10包括聲母12和韻母14。聲母12為輔音,韻母14有一元音開頭。聲母12相應(yīng)于音節(jié)的聲母部分,韻母14相應(yīng)于音節(jié)的韻母部分。
本發(fā)明便利地包括當(dāng)確定一個音節(jié)的聲母和韻母來辨識音節(jié)的語音結(jié)構(gòu)時的上下文相關(guān)成分。當(dāng)辨識聲母和韻母時,本發(fā)明更為精確地確定音節(jié)的語音結(jié)構(gòu)且便利地辨識了音節(jié)的音調(diào)。
現(xiàn)請參閱圖2,按本發(fā)明構(gòu)造的,該圖顯示出一個識別漢語普通話語音系統(tǒng)16的方框圖。該系統(tǒng)16優(yōu)選地包括處理器18、輸入裝置20、顯示裝置22、數(shù)據(jù)存儲裝置24和存儲器26。處理器18、輸入裝置20、顯示裝置22、數(shù)據(jù)存儲裝置24和存儲器26,通過總線28耦合于一臺馮.諾依曼體系結(jié)構(gòu)計算機(jī),例如一臺個人計算機(jī)。處理器18優(yōu)選地是一臺微處理器,例如Motorola 68040;顯示裝置20優(yōu)選地是一臺視頻監(jiān)視器;數(shù)據(jù)存儲裝置24包括用于存儲數(shù)據(jù)的隨機(jī)存取存儲器("RAM")和只讀存儲器("ROM"),優(yōu)選地是磁盤驅(qū)動器;存儲器26包括存儲數(shù)據(jù)程序指令的RAM和ROM。輸入裝置20包括鍵盤,鼠標(biāo)類型控制器,麥克風(fēng)和模擬到數(shù)字("A/D")轉(zhuǎn)換器??偩€28是傳送數(shù)據(jù)和命令的常規(guī)總線。在優(yōu)選的實施例中,系統(tǒng)16是一臺在California,Cupertino的Apple計算機(jī)公司生產(chǎn)的MacintoshQuadra 840AV計算機(jī)系統(tǒng)。本領(lǐng)域的技術(shù)人員明白該系統(tǒng)16也可由IBM個人計算機(jī)或其它計算機(jī)系統(tǒng)實現(xiàn)。
存儲器26包括一個語音識別系統(tǒng)30,一個訓(xùn)練裝置40,和一個平滑裝置42。語音識別系統(tǒng)30,訓(xùn)練裝置40,平滑裝置42,存儲器26的組成部分將在下面分成單獨裝置討論,本領(lǐng)域的技術(shù)人員明白組成部分在單個的存儲空間中將占據(jù)相鄰部分,在優(yōu)選的實施例中,存儲在存儲器26的程序在被處理器18執(zhí)行時完成語音識別系統(tǒng)、訓(xùn)練裝置和平滑裝置的功能。
該語音識別系統(tǒng)30包括預(yù)處理裝置32、HMM存儲裝置34、語音辨識裝置36和語音決策裝置38。預(yù)處理裝置32接收來自輸入裝置20的數(shù)字化音節(jié)輸入信號并處理數(shù)字化音節(jié)以供識別。預(yù)處理裝置32采用常規(guī)方法處理輸入信號。預(yù)處理裝置32優(yōu)選地對表示音節(jié)的、從輸入裝置20接收的數(shù)字信號進(jìn)行快速傅立葉變換("FFT")。預(yù)處理裝置32也可替換地對數(shù)字信號進(jìn)行線性預(yù)測編碼("LPC")。在其它備選方案中,預(yù)處理裝置32可以產(chǎn)生FFT或LPC的矢量量化信號。還有許多其它方法預(yù)處理數(shù)字化音節(jié)信號;本領(lǐng)域的技術(shù)人員會明白這些方法且這些方法可能應(yīng)用在預(yù)處理裝置32中。預(yù)處理裝置32有一個輸入耦合到輸入裝置20,以便通過總線28接收數(shù)字信號。預(yù)處理裝置32也含有一個輸出,通過總線28耦合到語音決策裝置38,并且預(yù)處理裝置32通過總線28傳送處理后的、數(shù)字信號到語音決策裝置38。
HMM存儲裝置34存放構(gòu)成漢語普通話語音可能音節(jié)的聲母和韻母的隱馬爾可夫模型。隱馬爾可夫模型被用來對語音、手寫體和其它信號建模。本領(lǐng)域的技術(shù)人員會明白隱馬爾可夫模型。HMM存儲裝置34將參考圖4詳盡描述。HMM存儲裝置34有一個輸出通過總線28耦合到語音決策裝置38,將模型提供給語音決策裝置38。
語音辨識裝置36存儲例如漢語普通話的有調(diào)語言聲母和韻母的所有合法組合的表示。語音辨識裝置36描述整個漢語普通話語言。語音辨識裝置36將參考圖3詳盡描述。語音辨識裝置36通過總線28耦合到語音決策裝置38。
語音決策裝置38是一個裝置,它采用存儲在語音辨識裝置36的聲母和韻母和存儲在HMM存儲裝置34的模型來確定被預(yù)處理裝置32處理過的音節(jié)的語音結(jié)構(gòu)和音調(diào)。語音決策裝置38按照存儲在語音辨識裝置36的排列聲母和韻母排列從HMM存儲裝置34接收的模型。本發(fā)明優(yōu)選地采用聲母和韻母的隱馬爾可夫模型。聲母的模型可以添加到韻母的模型后面構(gòu)成完整的音節(jié)模型。
語音決策裝置38比較從預(yù)處理裝置32接收到的處理后的輸入與被排列后的模型,并確定最佳匹配于處理后的輸入的模型排列。語音決策裝置38采用常規(guī)技術(shù),例如維特比搜索或動態(tài)規(guī)劃,來比較模型的排列與處理后的輸入。語音決策裝置38包括存儲數(shù)據(jù)的存儲器,因此在內(nèi)部識別音節(jié)時,該存儲器可以存儲靠連接聲母和韻母子音節(jié)的模型產(chǎn)生的音節(jié)的模型。語音決策裝置38通過總線28耦合到預(yù)處理裝置32、HMM存儲裝置34、語音辨識裝置36和處理器18。
訓(xùn)練裝置40產(chǎn)生漢語普通話語音聲母和韻母的模型。訓(xùn)練裝置40采用存儲在數(shù)據(jù)存儲裝置24的發(fā)音作為輸入來產(chǎn)生模型。訓(xùn)練裝置40和存儲在數(shù)據(jù)存儲裝置24的發(fā)音,將參考圖6A和6B來詳細(xì)描述。產(chǎn)生了模型后,訓(xùn)練裝置40將它們傳送到HMM存儲裝置34。訓(xùn)練裝置40通過總線28耦合到數(shù)據(jù)存儲裝置24和HMM存儲裝置34。
平滑裝置42修正在HMM存儲裝置34內(nèi)的隱馬爾可夫模型,以便語音決策裝置38用它們更好地辨識音節(jié)。平滑裝置42接收存儲在HMM存儲裝置34的模型并修正模型來更好地描述漢語普通話語音的聲母和韻母??晒┻x擇的,平滑裝置42可以直接從訓(xùn)練裝置40接收模型,平滑后,可以將模型傳送到HMM存儲裝置34。平滑裝置42包括組存儲裝置44、LDM產(chǎn)生裝置46和細(xì)化模型修正裝置48。組存儲裝置44、LDM產(chǎn)生裝置46和細(xì)化模型修正裝置48分別有一個耦合到總線28的輸入和輸出。組存儲裝置44、LDM產(chǎn)生裝置46和細(xì)化模型修正裝置48將參考圖7詳細(xì)討論。平滑裝置42通過總線28耦合到處理器18,HMM存儲裝置34和訓(xùn)練裝置40。
現(xiàn)請參閱圖3,該圖顯示出語音辨識裝置36示例性實施例的方框圖。該語音辨識裝置36的實施例用于示例性的有調(diào)語言。在這個示例性的有調(diào)語言中共有3個聲母、4個韻母和2個音調(diào)。該有調(diào)語言用來容易、清楚地表示HMM存儲裝置34和語音辨識裝置36的結(jié)構(gòu)和功能。本領(lǐng)域的技術(shù)人員明白怎樣提升HMM存儲裝置34和語音辨識裝置36以適用有更多聲母、韻母和音調(diào)以及特定合法組合的漢語普通話或任何其它實際語言。
語音辨識裝置36存儲待識別語言的所有聲母、韻母和音調(diào)合法組合。語音辨識裝置36包括多個音節(jié)部分。每個音節(jié)部分包括聲母部分,韻母部分和音調(diào)部分。音節(jié)部分的聲母部分和韻母部分一起構(gòu)成一個有調(diào)語言的合法音節(jié)。音調(diào)部分存儲音節(jié)可能含有的音調(diào)表示。并非每個合法音節(jié)包含有調(diào)語言的全部音調(diào)。這樣,一個音節(jié)部分51有表示聲母i1的聲母部分50和表示韻母f1的韻母部分52。音節(jié)部分51也可以包含表示音節(jié)/i1 f1/可能含有音調(diào)的音調(diào)部分。對于含2個音調(diào)的示例語言,音調(diào)部分包括2位,01表示僅僅有T1,10表示僅僅有T2而11表示T1和T2。聲母部分50和韻母部分52成對的共同表示音節(jié)/i1 f1/。例如,i1可能是/b/而f1可能是/at/。這樣,聲母部分50和韻母部分52描述音節(jié)/bat/。音調(diào)部分114表示音節(jié)/bat/可能含有T1或T2作為音調(diào)。音節(jié)部分耦合到總線28。
如前所述,語音辨識裝置36描述示例性的語言的所有合法音節(jié)。音節(jié)部分53描述了另一個音節(jié)。音節(jié)部分53有聲母部分54和韻母部分56。聲母部分54含有i1的參考,而韻母部分56含有韻母f4的參考。繼續(xù)上述例子,i1為/b/和f4可能是/it/。聲母部分54和韻母部分56的成對描述音節(jié)/bit/。音節(jié)部分53也含有音調(diào)部分55。音調(diào)部分55包含指示可能含有音調(diào)T1或音調(diào)T2的音節(jié)/i1 f4/的指示器。
圖3表示不含聲母的音節(jié)的音節(jié)部分的優(yōu)選實施例。本發(fā)明便利地對不含有聲母的音節(jié),或稱單獨韻母采用偽聲母。按照常規(guī),現(xiàn)有的語音識別系統(tǒng)將單獨韻母僅按韻母建模。但是人的發(fā)音系統(tǒng)卻不能產(chǎn)生僅有韻母的聲學(xué)信號。人的發(fā)音系統(tǒng)在單獨韻母前產(chǎn)生一個聲門閉塞。常規(guī)語音識別系統(tǒng)對識別單獨韻母有困難。本發(fā)明便利地在語音辨識裝置36中,采用偽聲母辨識聲門閉塞。偽聲母被當(dāng)做聲母對待。例如,音節(jié)部分57包括存放偽聲母PI4的偽聲母部分58和韻母部分60。音節(jié)部分57包括表示僅僅有音調(diào)T2的音節(jié)/f4/的音調(diào)部分59。圖3所用的示例性語言有2個偽聲母,PI1和PI4。對于漢語普通話,本發(fā)明采用6個偽聲母。附錄A列出了優(yōu)選的偽聲母及其對應(yīng)韻母。偽聲母按照韻母開頭元音來與相應(yīng)的韻母匹配。例如偽聲母AH_A與所有的由元音A開頭的單獨韻母匹配。語音辨識裝置36便利地提供聲母部分與韻母部分對來描述所有的合法音節(jié)。
現(xiàn)請參閱圖4,該圖表示按照本發(fā)明構(gòu)造的HMM存儲裝置34方框圖。HMM存儲裝置34存儲在語音辨識裝置36中列出的每個聲母,韻母和偽聲母的隱馬爾可夫模型。HMM存儲裝置34包括3組模型第一組62存儲聲母的模型,第二組64存儲韻母的模型以及第三組66存儲偽聲母和單獨韻母的模型。本發(fā)明便利地在模型的細(xì)化上表現(xiàn)出靈活性。圖4表示本發(fā)明最為詳細(xì)的模型。然而HMM存儲裝置36,可能配置來存放粗化模型。模型的細(xì)化程度取決于能得到的訓(xùn)練數(shù)據(jù)量。
現(xiàn)有的語音識別系統(tǒng)為每個聲母和韻母提供一個模型。與此相對照,本發(fā)明提供上下文相關(guān)的子音節(jié)模型來表示漢語普通話語音。模型依賴于它們相應(yīng)的聲母或韻母以及音節(jié)的音調(diào)。這樣,當(dāng)識別聲母時,語音決策裝置38納入與聲母成對的韻母和音節(jié)的音調(diào)作為識別的因素?,F(xiàn)有的系統(tǒng)有1個模型描述示例性的語言的i1,而本發(fā)明有6個i1的模型。本發(fā)明優(yōu)選地作出許多額外的比較以便在確定時包括上下文相關(guān)信息。在HMM存儲裝置34存貯的每個模型優(yōu)選地是聲母、韻母和偽聲母的隱馬爾可夫模型。本領(lǐng)域的技術(shù)人員明白HMM存儲裝置34可存放其它形式聲母、韻母和偽聲母的模型。
語音決策裝置38從語音辨識裝置36接收可能音節(jié)并從HMM存儲裝置34接收模型。語音決策裝置38按照從語音辨識裝置36接收到的音節(jié)排列模型。例如,為了構(gòu)造由音節(jié)部分51描述的音節(jié),語音決策裝置38連接依賴于f1和T1的i1的模型與依賴于i1與T1的f1的模型。依賴于f1和T1的i1的模型68存儲在HMM存儲裝置34,而依賴于i1和T1的f1的模型80也存儲在HMM存儲裝置34。語音決策裝置38也采用含有不同音調(diào)的音節(jié)的模型。為此,語音決策裝置38連接依賴于f1和T2的i1的模型70與依賴于i1和T2的f1的模型52。注意在最詳細(xì)的例子里,對語音辨識裝置36的每個組合產(chǎn)生多個模型,每個對應(yīng)于該語言的一個音調(diào)。進(jìn)一步要注意的是,當(dāng)語音決策裝置38連接音調(diào)相關(guān)模型時,它總是連接具有相同音調(diào)相關(guān)性的模型。存儲在部分70的依賴于f1和T2的i1模型永遠(yuǎn)不與存儲在部分80依賴于i1和T1的f1模型連接。最后,注意依賴于韻母的聲母組合當(dāng)與依賴于聲母的韻母成對,是一個音節(jié)相關(guān)。換言之,等效于依賴于音節(jié)的聲母和依賴于音節(jié)的韻母。
語音決策裝置38連接聲母和韻母或偽聲母和韻母的模型產(chǎn)生有調(diào)語言合法音節(jié)的模型。本發(fā)明便利地采用聲母、偽聲母和韻母的隱馬爾可夫模型,因為隱馬爾可夫模型可能被連接起來構(gòu)成大的結(jié)構(gòu),例如音節(jié)模型。本領(lǐng)域的技術(shù)人員明白怎樣連接韻母的隱馬爾可夫模型與聲母或偽聲母的隱馬爾可夫模型來構(gòu)成音節(jié)的隱馬爾可夫模型。
如前所述,圖4中存儲在HMM存儲裝置34的該實施例的模型是最為詳細(xì)的子音節(jié)模型。然而本發(fā)明可能采用粗化子音節(jié)模型。例如,不需要依賴于相應(yīng)的聲母或韻母的模型。在這種情況下,每個模型僅僅依賴于音節(jié)的音調(diào)??晒┨鎿Q地,模型可能是音調(diào)無關(guān)但依賴于相應(yīng)的聲母或韻母。最后,有些模型可能是上下文無關(guān),或依賴于相應(yīng)的聲母、相應(yīng)的韻母或音調(diào)。各種可能的組合導(dǎo)致層次模型。父模型為上下文無關(guān)模型。在這種情況下,聲母或韻母有一個單一模型描述所有的出現(xiàn)的聲母或韻母。在上下文無關(guān)模型中,相應(yīng)的音節(jié)聲母或韻母及音調(diào)的相關(guān)性未被建模。上下文無關(guān)模型可被改進(jìn)成兩類上下文相關(guān)模型。第一類上下文相關(guān)模型僅僅依賴于音節(jié)的音調(diào)。第二類上下文相關(guān)模型僅僅依賴于相應(yīng)的聲母或韻母。這兩類上下文相關(guān)模型也可合并構(gòu)成更為詳細(xì)的上下文相關(guān)模型。在這種最為詳細(xì)的上下文相關(guān)模型,模型依賴于相應(yīng)的聲母或韻母而且依賴于音節(jié)的音調(diào)。圖4表示這類最為詳細(xì)的上下文相關(guān)的模型。
每類更為詳細(xì)的模型比較前面粗化模型需要更大量的訓(xùn)練數(shù)據(jù)來產(chǎn)生模型。當(dāng)訓(xùn)練數(shù)據(jù)有限時,使用粗化模型可能更為有利。模型上下文相關(guān)僅僅需要與組62、64和66一致。這樣,第一組62中的聲母可能僅僅依賴于音調(diào),而第二組64中的韻母可能僅僅依賴于相應(yīng)的聲母。一般來說最為細(xì)化模型更好。然而當(dāng)訓(xùn)練數(shù)據(jù)有限時,僅僅依賴于韻母的第一組62中的聲母,以及僅僅依賴于音調(diào)的組64中的韻母則更好。
第三組66包括數(shù)據(jù)部分,存儲對應(yīng)于偽聲母的偽聲母和韻母模型。本發(fā)明將偽聲母按聲母一樣對待。例如,為構(gòu)成在語音辨識裝置36中描述的音節(jié)部分57的音節(jié),語音決策裝置38連接從HMM存儲裝置34來的偽聲母模型88,PI4(f4,T1)和韻母模型90,f4(PI4,T1)并連接從HMM存儲裝置34來的偽聲母模型92,PI4(f4,T2)和韻母模型94,f4(PI4,T2)。同層次的上下文無關(guān)和上下文相關(guān)模型像應(yīng)用于聲母和韻母一樣應(yīng)用于偽聲母及相應(yīng)的韻母。即,偽聲母的模型可能是上下文無關(guān),僅僅依賴于相應(yīng)的韻母,僅僅依賴于音節(jié)的音調(diào),或依賴于相應(yīng)音節(jié)的韻母和音調(diào)。
圖4也表示本發(fā)明如何不用音調(diào)分析來確定音節(jié)的音調(diào)。只要音調(diào)相關(guān)模型用于聲母或韻母,語音決策裝置38從處理后的輸入與模型的比較中確定音節(jié)的音調(diào)。這樣,本發(fā)明便利地同時確定音節(jié)的語音結(jié)構(gòu)和音節(jié)的音調(diào)。
現(xiàn)請參閱圖5,該圖顯示出在該系統(tǒng)16中數(shù)據(jù)流動及信號處理的方框圖。該系統(tǒng)16通過輸入裝置20接收音頻信號。輸入裝置20包括麥克風(fēng)和A/D轉(zhuǎn)換器。麥克風(fēng)接收模擬、音頻信號并將其轉(zhuǎn)化為模擬電子信號。A/D轉(zhuǎn)換器接收模擬電子信號并將其轉(zhuǎn)化為數(shù)字電子信號。A/D轉(zhuǎn)換器將數(shù)字電子信號傳送給語音識別系統(tǒng)30。
在該語音識別系統(tǒng)30中,預(yù)處理裝置32接收數(shù)字電子信號。預(yù)處理裝置32產(chǎn)生數(shù)字電子信號的FFT信號而且產(chǎn)生FFT的系數(shù)信號。預(yù)處理裝置32可替換地產(chǎn)生數(shù)字電子信號的線性預(yù)測編碼信號。預(yù)處理裝置32將處理后的信號傳送給語音決策裝置38。語音決策裝置38接收信號并產(chǎn)生信號給語音辨識裝置36來傳送可能的音節(jié)。語音決策裝置38從語音辨識裝置36接收表征可能音節(jié)的信號并產(chǎn)生信號給HMM存儲裝置34來傳送聲母和韻母的模型。當(dāng)語音決策裝置38從HMM存儲裝置34接收模型的信號時,語音決策裝置38按照從語音辨識裝置36接收到的音節(jié)信號,將這些模型連接到一起。語音決策裝置38靠將韻母連接到聲母后面來連接聲母和韻母。類似的,語音決策裝置38靠將韻母連接到偽聲母后面來連接偽聲母和韻母。然后語音決策裝置38比較從預(yù)處理裝置32來的處理后的信號與聲母和韻母的連接模型。語音決策裝置38采用維特比搜索或動態(tài)規(guī)劃來確定哪個連接模型最佳匹配語音信號。這樣,語音決策裝置38比較輸入信號與漢語普通話所有的合法音節(jié)模型。然后語音決策裝置38產(chǎn)生并輸出一個表征連接模型聲母,韻母和音調(diào)的信號這一模型最佳匹配于從預(yù)處理裝置32接收到的信號。語音決策裝置38可以將輸出信號傳送給查找表或存儲裝置。存儲裝置可以象在常規(guī)詞處理器中一樣存儲信號。查找表也可以確定表示音節(jié)的合適字符并傳送信號給顯示裝置22以顯示選取的字符。
如上所述本發(fā)明被配置成識別漢語普通話語音的音節(jié)。音節(jié)是漢語普通話語音的基本單元,而且音節(jié)識別是語音識別的通常形式。本發(fā)明也可替換地被配置成識別更高級的語言單元,例如詞、短語、句子或任何高級單元。例如,為識別3個可能輸入的句子,語音辨識裝置36可被配置為包含表示組成每個句子的音節(jié)的部分。當(dāng)語音決策裝置38從預(yù)處理裝置32接收處理后的輸入信號時,語音決策裝置38從語音辨識裝置36接收句子信號并從HMM存儲裝置34接收聲母、韻母和偽聲母的模型的信號。然后語音決策裝置38按照句子將模型連接在一起。語音決策裝置38比較從預(yù)處理裝置32接收到的輸入與連接模型并選取最佳匹配于輸入的連接模型的集合。語音決策裝置38產(chǎn)生并輸出表示最接近匹配輸入句子的信號。
現(xiàn)請參閱圖6A和6B。圖6A表示當(dāng)訓(xùn)練裝置40產(chǎn)生存儲在HMM存儲裝置34的模型時,在系統(tǒng)16內(nèi)數(shù)據(jù)和信號流動的方框圖。訓(xùn)練裝置40接收多個語音輸入,訓(xùn)練裝置40為每個含有聲母、偽聲母或韻母的發(fā)音從數(shù)據(jù)存儲裝置24中產(chǎn)生模型。訓(xùn)練裝置40可替換地從存儲器26的另一部分接收語音輸入信號。訓(xùn)練裝置40接收的所有的發(fā)音有合適的語言結(jié)構(gòu),輸入訓(xùn)練裝置40為它產(chǎn)生一個模型。例如,如果訓(xùn)練裝置40產(chǎn)生依賴于f1和T1的一個i1的模型,那么訓(xùn)練裝置40接收含有i1,f1和T1的音節(jié)發(fā)音信號。訓(xùn)練裝置40采用常規(guī)技術(shù),例如Baum-Welch訓(xùn)練算法,來產(chǎn)生一個隱馬爾可夫模型。訓(xùn)練裝置40接收至少20個發(fā)音輸入來產(chǎn)生一個充分的模型。優(yōu)選地,訓(xùn)練裝置40接收幾百個發(fā)音輸入來產(chǎn)生一個模型。一旦訓(xùn)練裝置40產(chǎn)生了一個模型,它產(chǎn)生一個信號將模型傳送給HMM存儲裝置34。
圖6B是一個詳盡地表示數(shù)據(jù)存儲裝置24的方框圖。數(shù)據(jù)存儲裝置24包括存貯含有共同聲母、韻母或偽聲母以及共同相關(guān)的多個發(fā)音的多個單元。單元96存儲含有i1,f1和T1的語音輸入。單元存放訓(xùn)練裝置40用于產(chǎn)生模型的語音輸入。例如,訓(xùn)練裝置40采用存儲在單元96的語音輸入來產(chǎn)生依賴于f1和T1的i1的模型。訓(xùn)練裝置40在產(chǎn)生模型后,將模型傳送給HMM存儲裝置34。HMM存儲裝置34在部分68中存儲由以上例子產(chǎn)生的模型。語音決策裝置38采用存儲在HMM存儲裝置34的模型68來為由語音辨識裝置36的音節(jié)部分51所標(biāo)識的音節(jié)建模。每個單元存儲至少20個語音輸入并優(yōu)選地存儲幾百個語音輸入。示例性的語言需要在數(shù)據(jù)存儲裝置24中有36個單元。那意味著數(shù)據(jù)存儲裝置24存儲至少720個語音輸入且優(yōu)選地存儲幾千個語音輸入。為產(chǎn)生必要的識別漢語普通話的模型,數(shù)據(jù)存儲裝置24需要幾百個單元來存放含有不同聲母、韻母、音調(diào)和聲門閉塞的語音輸入。每個單元存放至少20個語音輸入且優(yōu)選地存儲幾百個語音輸入。本領(lǐng)域的技術(shù)人員明白如何修改數(shù)據(jù)存儲裝置24來適應(yīng)漢語普通話。
現(xiàn)請參閱圖7。圖7表示,當(dāng)系統(tǒng)16采用平滑裝置42修正存儲在HMM存儲裝置34中的模型時數(shù)據(jù)和信號的流動的方框圖。正如從圖6B和配合的文字可看出的,最為詳細(xì)的模型集合,依賴于聲母或韻母和音調(diào),需要非常大量訓(xùn)練數(shù)據(jù)。優(yōu)選地有足夠訓(xùn)練數(shù)據(jù)使訓(xùn)練裝置40產(chǎn)生精確、魯棒的最為詳細(xì)的模型。如果沒有足夠訓(xùn)練數(shù)據(jù)使訓(xùn)練裝置40產(chǎn)生精確、魯棒的模型,模型可能不夠精確的描述該語言的聲母、韻母和偽聲母。在這種情況下,平滑裝置42可以靠粗化模型平滑它們來改進(jìn)模型。
一個粗化模型有更少的上下文相關(guān)成分。例如,僅僅依賴于音調(diào)的模型或僅僅依賴于聲母或韻母的模型就比同時依賴于音調(diào)和聲母或韻母的模型更為粗化。上下文無關(guān)模型是最少相關(guān)的模型。
更為細(xì)化模型可能被任何粗化模型平滑。這樣,依賴于聲母或韻母和音調(diào)的最為細(xì)化模型,可能被僅僅依賴于聲母或韻母、僅僅依賴于音調(diào)或上下文無關(guān)的模型平滑。類似地,粗化模型甚至可能被粗化模型平滑。例如,僅僅依賴于聲母或韻母的模型可能被上下文無關(guān)模型平滑,而僅僅依賴于音調(diào)的模型可能被上下文無關(guān)模型平滑。如圖7所示,平滑裝置42從HMM存儲裝置34接收模型。LDM產(chǎn)生裝置46發(fā)送一個信號給HMM存儲裝置34使其產(chǎn)生待平滑的模型信號并把信號傳送給平滑裝置42。平滑裝置42優(yōu)選地一起接收每個組中的模型。亦即,平滑裝置42接收第一組62的聲母,然后接收第二組64的韻母,然后接收第三組66相應(yīng)韻母的偽聲母。平滑裝置42確定粗化模型,并用粗化模型平滑模型。然后平滑裝置42發(fā)送平滑后的模型回HMM存儲裝置34。
如圖7所示,平滑裝置42包括組存儲裝置44、LDM產(chǎn)生裝置46和細(xì)化模型修正裝置48。當(dāng)一組模型被平滑裝置42接收,該組是被組存儲裝置44和LDM產(chǎn)生裝置46接收。組存儲裝置44是存放模型的數(shù)據(jù)存儲裝置,而LDM產(chǎn)生裝置46產(chǎn)生粗化模型,細(xì)化模型修正裝置48則修改該組的每個模型。
LDM產(chǎn)生裝置46產(chǎn)生粗化模型,細(xì)化模型修正裝置48將用它修正細(xì)化模型。LDM產(chǎn)生裝置46采用細(xì)化模型來產(chǎn)生粗化模型。如果平滑裝置42正在用僅僅依賴于韻母的模型平滑第一組62的聲母模型,LDM產(chǎn)生裝置46從第一組62的聲母中產(chǎn)生僅僅依賴于韻母的聲母模型的粗化模型。LDM產(chǎn)生裝置46靠確定有相似相關(guān)性的模型的算術(shù)平均值來產(chǎn)生粗化模型。繼續(xù)這個例子,模型68將被僅僅依賴于f1的i1的模型平滑。為產(chǎn)生僅僅依賴于f1的i1的模型,LDM產(chǎn)生裝置46確定模型68和模型70的算術(shù)平均值。模型68和70都是i1的,都依賴于f1,而不同之處僅僅在于它們對音調(diào)的依賴性。模型68和70的算術(shù)平均值的模型是單獨依賴于f1而與音調(diào)無關(guān)的i1的模型。類似地,為產(chǎn)生單獨依賴于f4的i1的模型,LDM產(chǎn)生裝置46確定模型76和模型78的算術(shù)平均值。結(jié)果是i1模型依賴于f4而與T1或T2無關(guān)。同樣地,LDM產(chǎn)生裝置46可以確定僅僅依賴于音調(diào)而與聲母或韻母無關(guān)的模型。為確定i1僅僅依賴于T1的模型,LDM產(chǎn)生裝置46確定模型68,72和76的算術(shù)平均值。得出i1的模型僅僅依賴于T1。LDM產(chǎn)生裝置46采用同樣的方法來確定上下文無關(guān)的父模型。為產(chǎn)生i1上下文無關(guān)的模型,LDM產(chǎn)生裝置46確定模型68,70,72,74,76和78的算術(shù)平均值。
LDM產(chǎn)生裝置46采取基于逐點的方式計算模型的算術(shù)平均值。LDM產(chǎn)生裝置46確定每個模型相應(yīng)的點的算術(shù)平均值,得出的均值點序列是算術(shù)平均值模型也是粗化模型。
一旦LDM產(chǎn)生裝置46產(chǎn)生了粗化模型,LDM產(chǎn)生裝置46產(chǎn)生一個表示粗化模型的信號并將信號傳送給細(xì)化模型修正裝置48。細(xì)化模型修正裝置48也從組存儲裝置44接收信號表示待平滑的模型。然后細(xì)化模型修正裝置48用粗化模型平滑這些從組存儲裝置44接收到的模型,采用常規(guī)平滑技術(shù)例如線性插值或刪除插值。本領(lǐng)域的技術(shù)人員會明白這些技術(shù)。然后細(xì)化模型修正裝置48產(chǎn)生一個信號使平滑后的模型傳送給HMM存儲裝置34。HMM存儲裝置34從平滑裝置42接收信號并用從平滑裝置42接收到的平滑后的模型替換原來的模型。得到的平滑后的模型比平滑以前更為粗化,能更好的且更為魯棒的為聲母、韻母和偽聲母建模。
在可替換的實施例中,平滑裝置42不包括組存儲裝置44。模型組被LDM產(chǎn)生裝置46接收到并傳送給細(xì)化模型修正裝置48。細(xì)化模型修正裝置48直接從HMM存儲裝置34接收模型。
存儲在HMM存儲裝置34的模型可能被任何粗化模型、粗化模型的組合以及粗化模型的不同組合平滑。然而優(yōu)選地,組62,64,或66中的模型類似的在每個組中被平滑。例如,第一組62的聲母可能僅僅依賴于音調(diào)的模型平滑,第二組64的韻母可能被僅僅依賴于聲母的模型平滑,而第三組66的偽聲母及相應(yīng)的韻母可能被僅僅依賴于音調(diào)的模型和上下文無關(guān)模型平滑。粗化模型的任何其它組合是可能的。
組存儲裝置44有一個輸入耦合到總線28來從HMM存儲裝置接收信號34,并有一個輸出通過總線28耦合到細(xì)化模型修正裝置48。LDM產(chǎn)生裝置46有一個輸入耦合到HMM存儲裝置34和一個輸出通過總線28耦合到細(xì)化模型修正裝置48。細(xì)化模型修正裝置48有一個第一輸入耦合到組存儲裝置44,一個第二輸入耦合到LDM產(chǎn)生裝置46及一個輸出通過總線28耦合到HMM存儲裝置34。
現(xiàn)請參閱圖8,該圖表示HMM存儲裝置34的第二實施例的方框圖。圖4中的最為詳細(xì)的模型集合包括大量模型。圖8表示HMM存儲裝置34的一個實施例,其中最為詳細(xì)的模型數(shù)目比圖4中的模型數(shù)目減少了。
在最為詳細(xì)的模型集合中,聲母依賴于韻母和音調(diào)。然而韻母相關(guān)性主要由韻母開頭元音的相關(guān)性來獲取。這樣對于聲母,可用元音相關(guān)性取代韻母相關(guān)性。這減少了模型的數(shù)目。
圖8中HMM存儲裝置34包括第一組98聲母模型,第二組64韻母模型和第三組100偽聲母模型。第二組64與圖4中的相同。第一組98聲母模型包括的部分比第一組62少。參考圖3擴(kuò)展到上述示例性的語言,f2為/is/而f3為/am/。通過將聲母相關(guān)性建立在韻母的頭元音上而不是整個韻母上,HMM存儲裝置34的第二實施例減少了描述聲母所需的模型數(shù)目。i1依賴于f1的模型68和模型70可能與i1依賴于f3的模型72和74組合。韻母f1和f3都由元音/a/開頭。這樣,對于聲母相關(guān)性來說,這些韻母可以被組合。得到的依賴于開頭元音/a/和音調(diào)的i1的模型為模型102和104。類似地,關(guān)于f2和f4的聲母相關(guān)性可能組合,因為它們的韻母都由/i/開頭。模型106和108是依賴于/i/和音調(diào)的i1模型。第三組100也采用開頭元音相關(guān)性而非整個韻母相關(guān)性。模型110是依賴于/i/和T1的PI1模型,而非依賴于f4和T1的PI1模型--模型88。
通過采用元音相關(guān)性,本發(fā)明減少了模型的數(shù)目和由語音決策裝置38所做的比較的數(shù)目。因為漢語普通話中韻母的數(shù)目比聲母多,這一措施大大減少了HMM存儲裝置34的大小并增加了模型的魯棒性。
現(xiàn)請參閱圖9,該圖描述本發(fā)明中識別漢語普通話語音的單獨韻母音節(jié)的方法。該方法由步驟200開始,在步驟200該系統(tǒng)16接收輸入漢語普通話語音音節(jié)的音頻信號。輸入裝置20的麥克風(fēng)將音頻信號轉(zhuǎn)化成模擬電子信號。然后輸入裝置20的A/D轉(zhuǎn)換器把模擬電子信號轉(zhuǎn)換成數(shù)字電子信號。在步驟202,該語音識別系統(tǒng)30的預(yù)處理裝置32接收待處理的數(shù)字電子信號。預(yù)處理裝置32確定數(shù)字電子信號的FFT信號,然后確定FFT信號的矢量量化碼字。預(yù)處理裝置32也可替換地確定LPC信號而非FFT信號。下一步,在步驟204,語音決策裝置38從HMM存儲裝置34接收偽聲母和韻母的模型;語音決策裝置38按照從語音辨識裝置36接收到的音節(jié),排列并連接模型。在步驟206語音決策裝置38比較處理后的輸入信號與排列好的模型,并在步驟208選取最佳匹配處理后的輸入信號的模型排列。這樣,在步驟206,語音決策裝置38將輸入信號不僅僅與單獨韻母模型而且與單獨韻母前表示由偽聲母表示的聲門閉塞的模型比較。在步驟210,語音決策裝置38產(chǎn)生并輸出表示在步驟208選取的模型排列的韻母和音調(diào)的信號,本方法結(jié)束。
現(xiàn)請參閱圖10A和10B,該圖表示識別漢語普通話語音音節(jié)方法的流程圖。方法由步驟300開始,系統(tǒng)16接收漢語普通話語音音節(jié)的輸入音頻信號。輸入裝置20的麥克風(fēng)將音頻信號轉(zhuǎn)化成模擬電子信號。然后輸入裝置20的A/D轉(zhuǎn)換器把模擬電子信號轉(zhuǎn)換成數(shù)字電子信號。在步驟302,該語音識別系統(tǒng)30的預(yù)處理裝置32接收待處理的數(shù)字電子信號。預(yù)處理裝置32確定數(shù)字電子信號的FFT信號,然后確定FFT信號的矢量量化碼字。預(yù)處理裝置32也可替換地確定LPC信號而非FFT信號。在步驟304,語音決策裝置38選取還未選取的漢語普通話韻母。步驟304采用多次運行的方法;第一次步驟304運行時,語音決策裝置38可選取任何漢語普通話韻母。下次運行時,語音決策裝置38選取它還沒有選取的韻母。同樣的,語音決策裝置38在步驟306選取漢語普通話音調(diào)并在步驟308選取聲母。在步驟310語音決策裝置38確定是否選取的聲母、韻母和音調(diào)是漢語普通話語音的合法音節(jié)。語音決策裝置38靠比較該組合與從語音辨識裝置36接收到的漢語普通話語音音節(jié)來確定組合的合法性。如果組合為一合法音節(jié),在步驟312語音決策裝置38選取依賴于韻母和音調(diào)的聲母模型,并選取依賴于聲母和音調(diào)的韻母模型,并將兩個模型連接在一起。語音決策裝置38從HMM存儲裝置34接收模型。然后語音決策裝置38在其中存儲連接模型。該方法從步驟312進(jìn)入步驟314。如果組合不是合法音節(jié),該方法也可從步驟310運行到步驟314。在可選的方法中,語音決策裝置38可以連接僅僅依賴于音調(diào),僅僅依賴于相應(yīng)的韻母或聲母,或上下文無關(guān)的模型。
在步驟314,語音決策裝置38確定是否有另一個還未與現(xiàn)在選取的韻母和音調(diào)匹配的聲母。如果有這樣一個聲母,方法回到步驟308去選取另一個還未與現(xiàn)在選取的韻母和音調(diào)匹配的聲母。如果沒有這樣一個聲母,方法運行到步驟316,在此語音決策裝置38確定是否有另一個還未與現(xiàn)在選取的韻母匹配的音調(diào)。如果有這樣一個音調(diào),方法回到步驟306在那兒語音決策裝置38去選取另一個還未與現(xiàn)在選取的韻母匹配的音調(diào)。當(dāng)語音決策裝置38選取一個音調(diào)時,它重置聲母使得所有的聲母與當(dāng)前的韻母和剛剛選取的音調(diào)匹配。在步驟316如果沒有這樣一個音調(diào),方法運行到步驟318,在那里語音決策裝置38確定是否有還未與從語音辨識裝置36接收到的音節(jié)比較的韻母。如果沒有這樣一個韻母,方法回到步驟304,在那里語音決策裝置38選取還未與從語音辨識裝置36接收到的音節(jié)比較的韻母。當(dāng)語音決策裝置38選取一個韻母時,它重置聲母與音調(diào)使得所有的聲母、音調(diào)與剛剛選取的韻母組合成音節(jié)并與從語音辨識裝置36接收到的音節(jié)比較。
在步驟318如果沒有這樣一個韻母,語音決策裝置38將模型組對來構(gòu)成漢語普通話語音所有的合法音節(jié)。方法繼續(xù)到步驟320,在那里語音決策裝置38比較處理后的輸入信號與連接模型。語音決策裝置38采用維特比搜索或動態(tài)規(guī)劃來比較處理后的輸入信號與連接模型。還有許多其它技術(shù)來做比較;本領(lǐng)域的技術(shù)人員會明白這些技術(shù)。上下文相關(guān)性產(chǎn)生的比較是將整個輸入信號與整個連接模型比較,它對于上下文協(xié)同發(fā)音(聲母、韻母和音調(diào))的聲母和韻母采用詳細(xì)的上下文相關(guān)模型。通過采用依賴于音調(diào)的模型,該方法在比較中包括額外一維的比較,即比較整個信號與不同音調(diào)的協(xié)同發(fā)音模型。這樣,采用最為細(xì)化模型,本發(fā)明在步驟320增加了3個維數(shù)的比較,使得步驟322的決策更為精確。采用粗化模型,例如僅僅依賴于音調(diào)的模型,相應(yīng)的減少步驟320比較的維數(shù)。這使得步驟322的決策不太精確但比用上下文無關(guān)模型更精確。在步驟322,語音決策裝置38選取最佳匹配處理后的輸入的模型排列,并在步驟324,語音決策裝置38產(chǎn)生并輸出表示在步驟322選取連接模型的聲母、韻母和音調(diào)信號。該方法結(jié)束。
現(xiàn)請參閱圖11A,11B和11C,該圖表示識別漢語普通話語音音節(jié)方法的流程圖,它采用本發(fā)明用于識別單獨韻母的音節(jié)。方法開始步驟與圖10A所示一致。為方便起見,相同的方法步驟采用相同的號碼。第一個獨特的方法步驟為步驟318之后的步驟420。在步驟420,語音決策裝置38選取一個單獨的韻母和相應(yīng)的尚未被選取的偽聲母。在步驟422,語音決策裝置38為該單獨韻母選擇一個尚未被選取的單調(diào)。下一步在步驟424,語音決策裝置38確定是否選取的單獨韻母和音調(diào)構(gòu)成合法音節(jié)。語音決策裝置38比較選取的單獨韻母和音調(diào)與從語音辨識裝置36接收到的音節(jié)來完成這一決策。如果選取的單獨韻母和音調(diào)構(gòu)成合法音節(jié),方法進(jìn)行到步驟426,在此語音決策裝置38將依賴于所選取的韻母和音調(diào)的偽聲母模型添加到依賴于該偽聲母和所選音調(diào)的韻母模型之后。這些模型是從HMM存儲裝置34接收到的。該方法從步驟426進(jìn)行到步驟428;如果在步驟424選取的單獨韻母和音調(diào)不構(gòu)成合法音節(jié),方法也進(jìn)行到步驟428。在步驟428語音決策裝置38確定是否有另一個音調(diào)還沒有與當(dāng)前單獨韻母組合。如果有這樣一個音調(diào),方法回到步驟422去選取另一個還未與單獨韻母組合的音調(diào)。在步驟428如果沒有這樣一個音調(diào),方法繼續(xù)到步驟430,在此語音決策裝置38確定是否還有另一個單獨韻母要被分析。如果有這樣一個單獨韻母,方法回到步驟420,語音決策裝置38選取未被分析單獨韻母。在步驟430如果沒有這樣一個單獨韻母,在步驟432語音決策裝置38比較處理后的輸入信號與排列后的聲母和韻母或偽聲母和單獨韻母模型。語音決策裝置38采用與步驟320同樣的技術(shù)進(jìn)行比較,例如維特比搜索。在步驟434,語音決策裝置38選取最佳匹配處理后的輸入的排列后的模型。最后在步驟434,語音決策裝置38產(chǎn)生并輸出表示選取的排列后的模型的偽聲母、韻母和音調(diào)的信號。該方法結(jié)束。
現(xiàn)請參閱圖12,該圖表示按照本發(fā)明平滑聲母、韻母和偽聲母的模型的方法流程圖。方法開始,在步驟500,平滑裝置42從HMM存儲裝置34接收模型。平滑裝置42按照組平滑模型,組為第一組62,第二組64和第三組66。平滑裝置42可以一次接收模型一個組,也可以一次接收所有的模型但按組平滑它們。在步驟502,LDM產(chǎn)生裝置46產(chǎn)生粗化模型。LDM產(chǎn)生裝置46從較為細(xì)化模型產(chǎn)生粗化模型。LDM產(chǎn)生裝置46通過計算含有共同相關(guān)性的相似模型的算術(shù)平均值來產(chǎn)生粗化模型。例如,LDM產(chǎn)生裝置46計算依賴于f1和T1的i1模型和依賴于f1和T2的i1模型的算術(shù)平均值來產(chǎn)生依賴于f1而與音調(diào)無關(guān)的i1模型。LDM產(chǎn)生裝置46用逐點方式計算算術(shù)平均值模型。LDM產(chǎn)生裝置46平均較為細(xì)化模型相應(yīng)點的模型值來得到粗化模型相應(yīng)點的模型值。
一旦LDM產(chǎn)生裝置46產(chǎn)生了粗化模型,它便將粗化模型傳送給細(xì)化模型修正裝置48。在步驟504,細(xì)化模型修正裝置48從組存儲裝置44接收更為細(xì)化模型并用粗化模型平滑更為細(xì)化模型。細(xì)化模型修正裝置48采用常規(guī)平滑技術(shù)來平滑更為細(xì)化模型。然后在步驟506平滑裝置42將平滑后的模型傳送給HMM存儲裝置34,并替換未平滑的模型。本方法結(jié)束。
現(xiàn)請參閱圖13A和13B,該圖表示按照本發(fā)明識別漢語普通話語音音節(jié)方法的流程圖。方法與圖10A和10B極為類似,為方便起見,相同的步驟采用相同的數(shù)字。與圖10A和10B相應(yīng)步驟不同的第一步驟是在步驟310后、在步驟314前的步驟600。在步驟600,語音辨識裝置38連接依賴于音節(jié)的音調(diào)和相應(yīng)韻母開頭元音的聲母模型,與依賴于音節(jié)的音調(diào)和聲母的韻母模型。與圖10A和10B相應(yīng)的步驟不同的其它方法步驟為步驟602,在此語音決策裝置38比較處理后的輸入與排列后的模型。在步驟602,語音決策裝置38比較處理后的輸入與聲母模型,該聲母模型僅僅依賴于音節(jié)的音調(diào)和與該聲母模型相接的韻母開頭元音。
附錄A偽聲母韻母音節(jié)AH_A A_1 A1AH_A A_2 A2AH_A A_3 A3AH_A A_4 A4AH_A A_5 A5AH_A AI_1AI1AH_A AI_2AI2AH_A AI_3AI3AH_A AI_4AI4AH_A AN_1AN1AH_A AN_3AN3AH_A AN_4AN4AH_A ANG_1 ANG1AH_A ANG_2 ANG2AH_A ANG_4 ANG4AH_A AO_1AO1AH_A AO_2AO2AH_A AO_3AO3AH_A AO_4AO4EH_E E_1 E1EH_E E_2 E2EH_E E_3 E3EH_E E_4 E4EH_E EN_1EN1EH_E EN_4EN4EH_E ER_2ER2EH_E ER_3ER3EH_E ER_4ER4
OH_O OU_1 OU1OH_O OU_3 OU3OH_O OU_4 OU4WH_U UA_1 WA1WH_U UA_2 WA2WH_U UA_3 WA3WH_U UA_4 WA4WH_U UAI_1 WAI1WH_U UAI_3 WAI3WH_U UAI_4 WAI4WH_U UAN_1 WAN1WH_U UAN_2 WAN2WH_U UAN_3 WAN3WH_U UAN_4 WAN4WH_U UANG_1 WANG1WH_U UANG_2 WANG2WH_U UANG_3 WANG3WH_U UANG_4 WANG4WH_U UI_1 WEI1WH_U UI_2 WEI2WH_U UI_3 WEI3WH_U UI_4 WEI4WH_U UN_1 WEN1WH_U UN_2 WEN2WH_U UN_3 WEN3WH_U UN_4 WEN4WH_U UENG_1 WENG1WH_U UENG_3 WENG3WH_U UENG_4 WENG4WH_U U0_1 W01WH_U U0_3 W03WH_U U0_4 W04
WH_U U_1 WU1WH_U U_2 WU2WH_U U_3 WU3WH_U U_4 WU4YH_I IA_1 YA1YH_I IA_2 YA2YH_I IA_3 YA3YH_I IA_4 YA4YH_I IAN_1 YAN1YH_I IAN_2 YAN2YH_I IAN_3 YAN3YH_I IAN_4 YAN4YH_I IANG_1YANG1YH_I IANG_2YANG2YH_I IANG_3YANG3YH_I IANG_4YANG4YH_I IAO_1 YAO1YH_I IAO_2 YAO2YH_I IAO_3 YAO3YH_I IAO_4 YAO4YH_I IE_1 YE1YH_I IE_2 YE2YH_I IE_3 YE3YH_I IE_4 YE4YH_I I_1 YI1YH_I I_2 YI2YH_I I_3 YI3YH_I I_4 YI4YH_I IN_1 YIN1YH_I IN_2 YIN2YH_I IN_3 YIN3YH_I IN_4 YIN4
YH_I ING_1 YING1YH_I ING_2 YING2YH_I ING_3 YING3YH_I ING_4 YING4YH_I IONG_1YONG1YH_I IONG_2YONG2YH_I IONG_3YONG3YH_I IONG_4YONG4YH_I IU_1 YOU1YH_I IU_2 YOU2YH_I IU_3 YOU3YH_I IU_4 YOU4VH_V VV_1 YU1VH_V VV_2 YU2VH_V VV_3 YU3VH。VVV_4 YU4VH_V VVAN_1YUAN1VH_V VVAN_2YUAN2VH_V VVAN_3YUAN3VH_V VVAN_4YUAN4VH_V VVE_1 YUE1VH_V VE_4 YUE4VH_V VVN_1 YUN1VH_V VVN_2 YUN2VH_V VVN_3 YUN3VH_V VVN_4 YUN權(quán)利要求
1.一個用于識別一種語言的音節(jié)的語音識別系統(tǒng),每個該語言的音節(jié)由一個聲母子音節(jié)和一個韻母子音節(jié)組成,該語音識別系統(tǒng)包括一個語音辨識裝置,用來存儲多個聲母子音節(jié)和韻母子音節(jié)的合法組合并且用于為聲母子音節(jié)和韻母子音節(jié)的每個合法組合產(chǎn)生合法音節(jié)信號;一個存儲裝置,用來存儲多個聲母子音節(jié)模型和多個韻母子音節(jié)模型;預(yù)處理器,用于接收數(shù)字化音節(jié)的輸入信號并且處理該數(shù)字化音節(jié)供識別之用;以及一個語音決策裝置,它用來接收經(jīng)第一輸入來的一個待識別的輸入信號;經(jīng)第二輸入來自語音辨識裝置的多個合法組合;以及經(jīng)第三輸入來自存儲裝置的多個模型;處理每個合法的音節(jié)信號;提取和每個被辨識的聲母子音節(jié)對應(yīng)的模型信號,并且辨識每個合法音節(jié)信號的韻母子音節(jié);比較每個被提取的模型信號和輸入信號;通過選擇最佳匹配于輸入信號的模型信號,產(chǎn)生辨識該最佳匹配于輸入信號的模型信號的信號;以及產(chǎn)生辨識所述語言的音節(jié)的信號;其中,在語音決策裝置接收到輸入信號、所述多個合法組合以及所述多個模型之后,語音決策裝置根據(jù)所接收的多個合法組合從所接收的多個模型中產(chǎn)生附加模型,每個附加的模型包括添加到聲母子音節(jié)尾部的韻母子音節(jié)模型,把每個附加的模型與輸入信號相比較,然后產(chǎn)生并輸出一個表明與輸入信號最佳匹配的一個附加模型的信號。
2.權(quán)利要求1的語音識別系統(tǒng),其中語音辨識裝置為聲母子音節(jié)和韻母子音節(jié)的每個合法組合存儲一個合法音節(jié)信號;語音決策裝置處理每個合法音節(jié)信號,對于每個合法音節(jié)信號提取相應(yīng)于每個辨識出的聲母子音節(jié)和辨識出的韻母子音節(jié)的模型信號,將每個提取出的模型信號與輸入信號相比較,并產(chǎn)生一個表示該語言一個音節(jié)的信號。
3.權(quán)利要求2的系統(tǒng),其中語音決策裝置,通過選取與輸入信號最佳匹配的模型信號,產(chǎn)生一個表示與輸入信號最佳匹配的模型信號的信號。
4.權(quán)利要求1的語音識別系統(tǒng),其中存儲裝置存儲依賴于韻母子音節(jié)的一個聲母子音節(jié)模型;以及語音決策裝置,通過選取和提取來自于存儲裝置、匹配于辨識出的聲母子音節(jié)且依賴于辨識出的韻母子音節(jié)的一個聲母子音節(jié)模型信號,并通過選取和提取匹配于辨識出的韻母子音節(jié)的一個韻母子音節(jié)模型信號,來提取相應(yīng)于辨識出的聲母子音節(jié)的模型信號,并提取相應(yīng)于辨識出的韻母子音節(jié)的模型信號。
5.權(quán)利要求1的語音識別系統(tǒng),其中存儲裝置存儲依賴于聲母子音節(jié)的一個韻母子音節(jié)模型;以及語音決策裝置,通過選取和提取來自于存儲裝置、匹配于辨識出的聲母子音節(jié)的一個聲母子音節(jié)模型信號,并通過選取和提取依賴于辨識出的聲母子音節(jié)的一個韻母子音節(jié)模型信號,來提取相應(yīng)于辨識出的聲母子音節(jié)的模型信號,并提取相應(yīng)于辨識出的韻母子音節(jié)的模型信號。
6.權(quán)利要求1的語音識別系統(tǒng),其中細(xì)化模型修正裝置按照一個粗化模型信號通過平滑模型信號來修正一個模型信號。
7.權(quán)利要求1的語音識別系統(tǒng),其中較為細(xì)化模型產(chǎn)生裝置依據(jù)模型信號的均值來決定一個粗化模型。
全文摘要
一個漢語普通話語音識別系統(tǒng)包括預(yù)處理裝置(32),HMM存儲裝置(34),語音辨識裝置(36)和語音決策裝置(38)。語音辨識裝置包括表示在單獨韻母構(gòu)成音節(jié)之前的聲門閉塞的偽聲母。HMM存儲裝置存儲構(gòu)成漢語普通話語音音節(jié)的聲母、韻母和偽聲母的上下文相關(guān)模型。這些模型可能依賴于相應(yīng)的聲母或韻母以及音節(jié)的音調(diào)。語音決策裝置按照語音辨識裝置中的音節(jié)連接聲母和韻母以及偽聲母和韻母。然后語音決策裝置比較音節(jié)的輸入信號和連接模型來決定音節(jié)的語音結(jié)構(gòu)和音節(jié)的音調(diào)。該系統(tǒng)還包括用來平滑模型以使識別更具魯棒性的平滑裝置(42)。該平滑裝置包括LDM產(chǎn)生裝置(46)和細(xì)化模型修正裝置(48)。
文檔編號G10L15/00GK1542735SQ200410004068
公開日2004年11月3日 申請日期1996年1月23日 優(yōu)先權(quán)日1995年1月26日
發(fā)明者H·W·康, B·S·袁, H W 康, 袁 申請人:蘋果電腦公司