專利名稱:自動(dòng)語(yǔ)音識(shí)別聲學(xué)模型的調(diào)整的制作方法
技術(shù)領(lǐng)域:
本發(fā)明的示例性實(shí)施方式總體上涉及語(yǔ)音識(shí)別。更具體地,本發(fā)明的示例性實(shí)施方式涉及對(duì)聲學(xué)(acoustic)模型進(jìn)行調(diào)整的自動(dòng)語(yǔ)音識(shí)別。
背景技術(shù):
很多當(dāng)下的自動(dòng)語(yǔ)音識(shí)別(ASR)系統(tǒng)需要用戶通過(guò)下述操作來(lái)顯式地訓(xùn)練聲學(xué)模型讀出預(yù)定語(yǔ)句,以便基于該用戶的語(yǔ)音特征來(lái)調(diào)整講話者無(wú)關(guān)(Si)聲學(xué)模型,從而改進(jìn)語(yǔ)音識(shí)別性能。
發(fā)明內(nèi)容
以下給出了本發(fā)明某些示例性實(shí)施方式的簡(jiǎn)單概要,以便提供本發(fā)明某些示例性實(shí)施方式的基本理解。此概要不是詳盡的總覽,而且也不意在標(biāo)識(shí)重要元素或關(guān)鍵元素或者勾勒權(quán)利要求的范圍。以下概要僅以作為以下所提供更詳細(xì)描述的序言的簡(jiǎn)單形式給出了某些概念和示例性實(shí)施方式。本公開(kāi)的某些示例性實(shí)施方式涉及一種用于調(diào)整聲學(xué)模型的裝置、方法和系統(tǒng)。更具體地,根據(jù)本公開(kāi)某些示例性實(shí)施方式的方法、裝置和系統(tǒng)提供了對(duì)聲學(xué)模型的調(diào)整。用戶終端可以確定文本語(yǔ)料庫(kù)(corpus)的音素分布、確定調(diào)整聲學(xué)模型之前或之后該聲學(xué)模型音素的聲學(xué)模型增益分布、基于該音素分布和該聲學(xué)模型增益分布來(lái)確定期望的音素(phoneme)分布、基于期望的音素分布來(lái)生成調(diào)整語(yǔ)句,以及生成請(qǐng)求用戶說(shuō)出該調(diào)整語(yǔ)句的提示。
通過(guò)考慮附圖來(lái)參考下述描述,可以獲得本發(fā)明的更完整理解及其優(yōu)勢(shì),在附圖中相同的附圖標(biāo)記指示相同的特征,以及其中圖1示出了根據(jù)本公開(kāi)示例性實(shí)施方式的用戶終端。圖2示出了根據(jù)本公開(kāi)示例性實(shí)施方式實(shí)現(xiàn)的、用于調(diào)整聲學(xué)模型的用戶終端的架構(gòu)。圖3示出了根據(jù)本公開(kāi)示例性實(shí)施方式的、包括文本語(yǔ)料庫(kù)、發(fā)音詞典和語(yǔ)音語(yǔ)料庫(kù)的訓(xùn)練數(shù)據(jù)庫(kù)(DB)。圖4示出了根據(jù)本公開(kāi)示例性實(shí)施方式的、存儲(chǔ)有講話者無(wú)關(guān)聲學(xué)模型和講話者相關(guān)聲學(xué)模型的聲學(xué)模型數(shù)據(jù)庫(kù)(DB)。圖5示出了根據(jù)本公開(kāi)示例性實(shí)施方式的、存儲(chǔ)有語(yǔ)言模型的語(yǔ)言模型數(shù)據(jù)庫(kù) (DB)。圖6示出了根據(jù)本公開(kāi)示例性實(shí)施方式的、針對(duì)詞匯表生成的、用于基于統(tǒng)計(jì)方法來(lái)生成調(diào)整語(yǔ)句的單詞網(wǎng)格(word lattice)。圖7示出了根據(jù)本公開(kāi)示例性實(shí)施方式的、用于選擇優(yōu)化調(diào)整語(yǔ)句以調(diào)整聲學(xué)模型的方法。圖8示出了根據(jù)本公開(kāi)示例性實(shí)施方式的、描述了針對(duì)不同調(diào)整技術(shù)的單詞識(shí)別性能的圖表。
具體實(shí)施例方式在各種實(shí)施方式的下述描述中,參考形成本文一部分并且在其中僅通過(guò)說(shuō)明方式示出各種實(shí)施方式的附圖,其中在這些實(shí)施方式中可以實(shí)現(xiàn)本發(fā)明的一個(gè)或多個(gè)示例性實(shí)施方式。應(yīng)當(dāng)理解,在不脫離本發(fā)明范圍的前提下,可以利用其他實(shí)施方式以及做出結(jié)構(gòu)和功能上的修改。圖1示出了根據(jù)本公開(kāi)示例性實(shí)施方式的用戶終端。用戶終端102可以使用聲學(xué)模型、語(yǔ)言模型和發(fā)音詞典來(lái)執(zhí)行自動(dòng)語(yǔ)音識(shí)別(ASR),以便從人類語(yǔ)音中識(shí)別出文本,其中該人類語(yǔ)音經(jīng)由話音接口輸入,以允許用戶提供用于控制用戶終端102操作的語(yǔ)音輸入 (如下文進(jìn)一步詳述的)。在示例性實(shí)施方式中,用戶終端102可以是所示的移動(dòng)通信設(shè)備、具有天線的移動(dòng)電話或移動(dòng)計(jì)算機(jī),或者也可以是數(shù)字視頻記錄器(DVR)、機(jī)頂盒(STB)、服務(wù)器計(jì)算機(jī)、 計(jì)算機(jī)、存儲(chǔ)設(shè)備、因特網(wǎng)瀏覽器設(shè)備、游戲設(shè)備、音頻/視頻播放器、數(shù)字相機(jī)/攝像機(jī)、電視、無(wú)線電廣播接收機(jī)、定位設(shè)備、有線或無(wú)線通信設(shè)備和/或其任何組合。用戶終端102 可以是如所示的單獨(dú)設(shè)備,或者可以集成在諸如但不限于汽車內(nèi)的另一設(shè)備中。在所示示例中,用戶終端102包括顯示器104、處理器106、存儲(chǔ)器108或其他計(jì)算機(jī)可讀介質(zhì)和/或其他存儲(chǔ)、用戶接口 110、麥克風(fēng)112和揚(yáng)聲器114。用戶設(shè)備102的麥克風(fēng)112可以從用戶接收語(yǔ)音輸入,而揚(yáng)聲器114可以輸出音頻以提示用戶與話音接口進(jìn)行交互。用戶接口 110可以包括小鍵盤(pán)、觸摸屏、話音接口、四箭頭鍵、游戲桿、數(shù)據(jù)手套、鼠標(biāo)、滾球(roller ball)、觸摸屏或用于從用戶接收用以控制用戶終端102的輸入的其他適當(dāng)設(shè)備。圖2示出了根據(jù)本公開(kāi)示例性實(shí)施方式的、用于調(diào)整聲學(xué)模型的用戶終端102的架構(gòu)200。架構(gòu)200的處理器106可以通過(guò)下述操作來(lái)創(chuàng)建講話者相關(guān)模型根據(jù)從使用有效調(diào)整語(yǔ)句的講話者接收的語(yǔ)音輸入來(lái)調(diào)整講話者無(wú)關(guān)模型。架構(gòu)200可以動(dòng)態(tài)地標(biāo)識(shí)用于該調(diào)整過(guò)程的優(yōu)化調(diào)整語(yǔ)句。在所示示例中,架構(gòu)200可以包括處理器106,該處理器106包括音素分布處理器 204、聲學(xué)模型增益處理器206、調(diào)整語(yǔ)句處理器208和靜態(tài)音素分布處理器210。該處理器 106可以是實(shí)現(xiàn)音素分布處理器204、聲學(xué)模型增益處理器206、調(diào)整語(yǔ)句處理器208和靜態(tài)音素分布處理器210的單個(gè)處理器,或者可以是彼此遠(yuǎn)離或位于彼此本地的兩個(gè)或更多單獨(dú)處理器。架構(gòu)200的存儲(chǔ)器108可以存儲(chǔ)數(shù)據(jù),其包括語(yǔ)言模型數(shù)據(jù)庫(kù)202、訓(xùn)練數(shù)據(jù)庫(kù) 214和聲學(xué)模型數(shù)據(jù)庫(kù)216,這些將參考圖3-圖5做進(jìn)一步詳細(xì)描述。訓(xùn)練數(shù)據(jù)庫(kù)214還可以是存儲(chǔ)器108的輸入,如所示。圖3示出了根據(jù)本公開(kāi)示例性實(shí)施方式的、包括文本語(yǔ)料庫(kù)、發(fā)音詞典和語(yǔ)音語(yǔ)料庫(kù)的訓(xùn)練數(shù)據(jù)庫(kù)。文本語(yǔ)料庫(kù)302可以是包括一種或多種語(yǔ)言文本的結(jié)構(gòu)化集合的數(shù)據(jù)庫(kù)。文本語(yǔ)料庫(kù)302可以基于來(lái)自于書(shū)籍、新聞、單詞表、數(shù)字序列、多人之間的語(yǔ)音對(duì)話等的摘錄。發(fā)音詞典304可以包括具有特定發(fā)音的單詞或短語(yǔ)的集合。在示例性實(shí)施方式中,發(fā)音詞典可以具有針對(duì)文本語(yǔ)料庫(kù)302中每個(gè)單詞的條目列表,該條目包括單詞及其發(fā)音。例如,對(duì)于單詞“you(你)”,發(fā)音字典可以列出該單詞“you”及其音素級(jí)別發(fā)音“j U”。語(yǔ)音語(yǔ)料庫(kù)306可以是包括語(yǔ)音音頻文件和每個(gè)音頻文件的文本轉(zhuǎn)錄的數(shù)據(jù)庫(kù)。例如, 語(yǔ)音語(yǔ)料庫(kù)306可以包括作為說(shuō)出“How are you doing today ?(你今天過(guò)得怎么樣),, 的某人音頻記錄的音頻文件,以及文本轉(zhuǎn)錄可以包括對(duì)應(yīng)于該音頻記錄的文本。圖4示出了根據(jù)本公開(kāi)示例性實(shí)施方式的、存儲(chǔ)有講話者無(wú)關(guān)聲學(xué)模型和講話者相關(guān)聲學(xué)模型的聲學(xué)模型數(shù)據(jù)庫(kù)。如所示,聲學(xué)模型數(shù)據(jù)庫(kù)216可以包括一個(gè)或多個(gè)講話者無(wú)關(guān)(Si)模型402和一個(gè)或多個(gè)講話者相關(guān)(SD)模型404。SI模型402和SD模型404 二者可以使用預(yù)先記錄的語(yǔ)音進(jìn)行訓(xùn)練。在示例性實(shí)施方式中,SI聲學(xué)模型402和SD聲學(xué)模型404可以根據(jù)訓(xùn)練數(shù)據(jù)庫(kù)214的文本語(yǔ)料庫(kù)302和語(yǔ)音語(yǔ)料庫(kù)306進(jìn)行訓(xùn)練。聲學(xué)模型402和404可以是例如上下文依賴音素隱形馬爾科夫模型(HMM)。用戶終端102可以使用聲學(xué)模型402和404對(duì)接收自特定用戶的語(yǔ)音輸入進(jìn)行分類,以便識(shí)別出語(yǔ)音輸入中說(shuō)出的單詞。聲學(xué)模型可以包括對(duì)不同聲音、單詞、單詞的部分和/或其任何組合進(jìn)行建模的數(shù)據(jù),以便在接收自用戶的語(yǔ)音輸入中識(shí)別出單詞。聲學(xué)模型可以包括構(gòu)成文本語(yǔ)料庫(kù)302中每個(gè)單詞的聲音的統(tǒng)計(jì)表征。為了開(kāi)發(fā)出針對(duì)多個(gè)用戶可用的聲學(xué)模型,聲學(xué)模型可以根據(jù)記錄自多個(gè)講話者的語(yǔ)音數(shù)據(jù)進(jìn)行訓(xùn)練,并且該聲學(xué)模型可以稱為SI聲學(xué)模型402。聲學(xué)模型的訓(xùn)練可以涉及對(duì)說(shuō)出的單詞進(jìn)行統(tǒng)計(jì)建模的過(guò)程,以使得與該說(shuō)出的單詞對(duì)應(yīng)的文本可以由用戶終端102識(shí)別。SI聲學(xué)模型402例如可以開(kāi)發(fā)自多個(gè)個(gè)體提供的語(yǔ)音輸入,并且由此可以代表一般講話者的語(yǔ)音特征,但可能未考慮到個(gè)體講話者唯一的講話特征。該訓(xùn)練過(guò)程可以泛化該SI聲學(xué)模型402,以表征來(lái)自特定講話者的、待識(shí)別的說(shuō)出單詞的特征。由于SI聲學(xué)模型402開(kāi)發(fā)自多個(gè)講話者,所以SI模型402可能針對(duì)特定講話者提供的語(yǔ)音不具有較高的單詞識(shí)別準(zhǔn)確度。用戶終端102可以調(diào)整該SI聲學(xué)模型402以改進(jìn)語(yǔ)音識(shí)別準(zhǔn)確度。此處描述的講話者調(diào)整方案可以利用有限的講話者特定數(shù)據(jù)來(lái)調(diào)整(例如,調(diào)諧)該SI聲學(xué)模型402,以更好地表征該個(gè)體講話者的特征。調(diào)整可以從特定講話者獲得有限量的語(yǔ)音輸入,以便調(diào)整該SI聲學(xué)模型402從而生成SD聲學(xué)模型404。調(diào)整可以迭代執(zhí)行。該SI聲學(xué)模型402可以通過(guò)記錄特定講話者的語(yǔ)音輸入而得以調(diào)整,從而生成SD聲學(xué)模型404的初始迭代。用戶可以提供用以繼續(xù)調(diào)整該SD聲學(xué)模型404的進(jìn)一步輸入語(yǔ)音。例如,特定講話者可以說(shuō)出用于調(diào)整聲學(xué)模型的一個(gè)語(yǔ)句。該特定講話者可以提供一個(gè)或多個(gè)附加語(yǔ)句,直到該調(diào)整會(huì)話完成為止。調(diào)整語(yǔ)句的有效設(shè)計(jì)在下文進(jìn)一步詳細(xì)討論。用戶終端102可以用作個(gè)人設(shè)備,諸如但不限于,大部分情況下由單個(gè)用戶使用的移動(dòng)電話。在由單個(gè)用戶使用時(shí),用戶終端102可以包括適合于該單個(gè)用戶語(yǔ)音特征的單個(gè)SI聲學(xué)模型404。而且,如果多個(gè)用戶共享用戶終端102的話,用戶終端102可以為每個(gè)用戶提供多個(gè)SD聲學(xué)模型404。例如,如果用戶終端102由多個(gè)用戶共享,該聲學(xué)模型可以包括適合于每個(gè)用戶的SD聲學(xué)模型404。圖5示出了根據(jù)本公開(kāi)示例性實(shí)施方式的、存儲(chǔ)有語(yǔ)言模型的語(yǔ)言模型數(shù)據(jù)庫(kù)。 該語(yǔ)言模型數(shù)據(jù)庫(kù)202可以存儲(chǔ)一個(gè)或多個(gè)聲學(xué)語(yǔ)言模型,諸如根據(jù)訓(xùn)練數(shù)據(jù)庫(kù)214的文本語(yǔ)料庫(kù)302和語(yǔ)音語(yǔ)料庫(kù)306訓(xùn)練而來(lái)的502A和502B。語(yǔ)言模型502可以是向單詞序列指派概率的文件,并且其可以預(yù)測(cè)語(yǔ)音序列中的下一個(gè)單詞。在示例性實(shí)施方式中,該語(yǔ)言模型(例如,502A和502B)可以是η構(gòu)詞成分語(yǔ)言模型。η構(gòu)詞成分語(yǔ)言模型可以是確定觀測(cè)到具有某個(gè)單詞序列的語(yǔ)句的概率的模型。例如,單構(gòu)詞成分語(yǔ)言模型可以指示單個(gè)單詞在文本語(yǔ)料庫(kù)302中出現(xiàn)的頻率概率,雙構(gòu)詞成分語(yǔ)言模型可以指示雙單詞序列在文本語(yǔ)料庫(kù)302中出現(xiàn)的頻率概率,以及η構(gòu)詞成分語(yǔ)言模型可以指示η單詞序列在文本語(yǔ)料庫(kù)302中出現(xiàn)的頻率概率,其中η是正整數(shù)。在示例性實(shí)施方式中,語(yǔ)言模型502Α可以是單構(gòu)詞成分語(yǔ)言模型,而語(yǔ)言模型502Β可以是雙構(gòu)詞成分語(yǔ)言模型。架構(gòu)200可以解決文本語(yǔ)料庫(kù)302的音素分布問(wèn)題,以設(shè)計(jì)出用于高效地調(diào)整SI 聲學(xué)模型402的優(yōu)化調(diào)整語(yǔ)句。語(yǔ)音可以分解成音素,其中音素是子單詞單元,但是也可以是其他聲學(xué)單位。子單詞單元的示例是普通話的聲韻或者音節(jié)。音素的示例是單音或上下文依賴的音素,諸如三音素。音素分布可以度量每個(gè)音素出現(xiàn)在文本語(yǔ)料庫(kù)302中的頻率。 對(duì)于具有有限量調(diào)整文本的文本語(yǔ)料庫(kù)302,某些音素較之于其他音素可能出現(xiàn)得更加頻
系ο有限量的調(diào)整文本可以導(dǎo)致SI聲學(xué)模型402針對(duì)某些音素具有有限的信息,并且當(dāng)該用戶說(shuō)出這些音素時(shí),用戶終端102可能具有較低的單詞識(shí)別準(zhǔn)確度,尤其是在用戶的語(yǔ)音特征顯著不同于為創(chuàng)建該SI聲學(xué)模型402提供語(yǔ)音輸入的個(gè)體時(shí)。而且,讀出預(yù)定語(yǔ)句可以是非常耗時(shí)的任務(wù),通常也不是用戶友好的,而且也不能高效地調(diào)整該SI聲學(xué)模型402。為了解決這些和其他問(wèn)題,架構(gòu)200可以對(duì)文本語(yǔ)料庫(kù)302的音素分布進(jìn)行處理, 以高效地創(chuàng)建調(diào)整語(yǔ)句,從而實(shí)現(xiàn)期望的音素分布,同時(shí)將要求用戶在有輔導(dǎo)的調(diào)整過(guò)程期間說(shuō)出的文本量最小化。在示例性實(shí)施方式中,用戶終端102可以基于用戶的語(yǔ)音特征和用戶終端102在其中進(jìn)行使用的背景環(huán)境來(lái)調(diào)整該SI聲學(xué)模型402,以生成SD聲學(xué)模型404。如下文進(jìn)一步詳細(xì)描述的,用戶終端102可以對(duì)該SI聲學(xué)模型402進(jìn)行處理,以生成可以用來(lái)調(diào)整該 SI聲學(xué)模型402同時(shí)又將來(lái)自用戶的語(yǔ)音輸入量最小化的調(diào)整語(yǔ)句。以下描述了這樣的方法,其可以使用用于訓(xùn)練語(yǔ)言模型(例如502Α)的文本語(yǔ)料庫(kù)302的音素分布和聲學(xué)模型增益分布的目標(biāo)函數(shù)(objective function)優(yōu)化來(lái)自動(dòng)、動(dòng)態(tài)且優(yōu)化地生成調(diào)整語(yǔ)句,以便有效地改進(jìn)語(yǔ)音識(shí)別準(zhǔn)確度和用戶體驗(yàn)。再次參考圖2,用戶終端102的架構(gòu)200可以實(shí)現(xiàn)這樣的自動(dòng)語(yǔ)音識(shí)別(ASR)技術(shù),其可以減輕可能不愿意為了調(diào)整SI聲學(xué)模型402而執(zhí)行密集過(guò)程的用戶的負(fù)擔(dān)。此處討論的自動(dòng)語(yǔ)音識(shí)別技術(shù)可以通過(guò)生成用以有效調(diào)整SI聲學(xué)模型402的優(yōu)化調(diào)整語(yǔ)句而成為較不耗時(shí)的任務(wù)。用戶可以訪問(wèn)用戶終端102的話音或圖形接口,以便開(kāi)始調(diào)整該SI聲學(xué)模型402。 在初次使用該接口期間,用戶終端102可以執(zhí)行有輔導(dǎo)的調(diào)整過(guò)程,在該過(guò)程中,該接口請(qǐng)求用戶說(shuō)出預(yù)定語(yǔ)句,以便提供用于將SI聲學(xué)模型調(diào)整為講話者相關(guān)(SD)聲學(xué)模型的語(yǔ)音輸入。用戶終端102可以基于該用戶的語(yǔ)音特征以及用戶終端102在其中進(jìn)行使用的背景環(huán)境來(lái)調(diào)整該SI聲學(xué)模型402,以開(kāi)發(fā)出SD聲學(xué)模型404從而改進(jìn)單詞識(shí)別準(zhǔn)確度。用于調(diào)整Si聲學(xué)模型402的語(yǔ)音輸入量可以依賴于從訓(xùn)練數(shù)據(jù)庫(kù)214學(xué)習(xí)而來(lái)的音素分布和用戶特質(zhì)。用戶終端102例如可以利用有限的用戶特定語(yǔ)音輸入來(lái)調(diào)諧SI聲學(xué)模型402 以調(diào)整該聲學(xué)模型,從而更好地識(shí)別出該用戶提供的語(yǔ)音。
8
為了開(kāi)始調(diào)整該SI聲學(xué)模型402,靜態(tài)音素分布處理器210可以確定用于訓(xùn)練語(yǔ)言模型(諸如502A)的文本語(yǔ)料庫(kù)302的音素分布。音素分布可以代表某些聲音在文本語(yǔ)料庫(kù)302中出現(xiàn)的頻率。在示例性實(shí)施方式中,靜態(tài)音素分布處理器210可以獲取語(yǔ)言模型502A,并且繼而基于以下等式來(lái)計(jì)算文本語(yǔ)料庫(kù)302的靜態(tài)音素分布Pe
權(quán)利要求
1.一種方法,包括 確定文本語(yǔ)料庫(kù)的音素分布;確定調(diào)整聲學(xué)模型之前以及之后、所述聲學(xué)模型的音素的聲學(xué)模型增益分布; 基于所述音素分布和所述聲學(xué)模型增益分布來(lái)確定期望的音素分布; 基于所述期望的音素分布來(lái)生成調(diào)整語(yǔ)句;以及生成請(qǐng)求用戶說(shuō)出所述調(diào)整語(yǔ)句的提示。
2.如權(quán)利要求1的方法,進(jìn)一步包括基于根據(jù)來(lái)自說(shuō)出所述調(diào)整語(yǔ)句的用戶語(yǔ)音輸入對(duì)音素的統(tǒng)計(jì)表征進(jìn)行更新來(lái)調(diào)整所述聲學(xué)模型,以生成經(jīng)更新的聲學(xué)模型。
3.如權(quán)利要求2的方法,進(jìn)一步包括基于所述聲學(xué)模型的音素和所述經(jīng)更新的聲學(xué)模型的音素來(lái)確定經(jīng)更新的聲學(xué)模型增益分布。
4.如權(quán)利要求3的方法,進(jìn)一步包括確定基于所述經(jīng)更新的聲學(xué)模型增益分布的相似性度量滿足用以結(jié)束調(diào)整所述經(jīng)更新的聲學(xué)模型的停止標(biāo)準(zhǔn)。
5.如權(quán)利要求1-4中任一的方法,其中所述聲學(xué)模型增益分布是對(duì)調(diào)整之前和調(diào)整之后的所述聲學(xué)模型的音素之間相似性進(jìn)行度量的相似性度量。
6.如權(quán)利要求1-5中任一的方法,其中所述調(diào)整語(yǔ)句的生成包括從候選調(diào)整語(yǔ)句列表中選擇候選調(diào)整語(yǔ)句作為所述調(diào)整語(yǔ)句。
7.如權(quán)利要求1-6中任一的方法,其中所述調(diào)整語(yǔ)句的生成進(jìn)一步包括 確定多個(gè)候選調(diào)整語(yǔ)句的多個(gè)候選調(diào)整語(yǔ)句音素分布;標(biāo)識(shí)所述多個(gè)候選調(diào)整語(yǔ)句中針對(duì)所述期望的音素分布具有最小交叉熵度量的第一候選調(diào)整語(yǔ)句;以及將所述第一候選調(diào)整語(yǔ)句選作所述調(diào)整語(yǔ)句。
8.如權(quán)利要求1-7中任一的方法,其中所述調(diào)整語(yǔ)句的生成進(jìn)一步包括標(biāo)識(shí)對(duì)通過(guò)詞匯表的多個(gè)單詞列表分段的累積得分進(jìn)行優(yōu)化的單詞路徑。
9.如權(quán)利要求1-8中任一的方法,其中所述調(diào)整語(yǔ)句的生成包括將詞匯表的連續(xù)單詞列表中單詞之間的連接建模為雙構(gòu)詞成分,以確定所述單詞之間的關(guān)系。
10.如權(quán)利要求1-9中任一的方法,其中所述調(diào)整語(yǔ)句的生成包括應(yīng)用有限狀態(tài)語(yǔ)法以向所述調(diào)整語(yǔ)句提供結(jié)構(gòu)。
11.如權(quán)利要求1-10中任一的方法,其中所述音素分布是使用單構(gòu)詞成分語(yǔ)言模型計(jì)算的。
12.—種設(shè)備,包括 至少一個(gè)處理器;以及包括計(jì)算機(jī)程序代碼的至少一個(gè)存儲(chǔ)器所述至少一個(gè)存儲(chǔ)器和所述計(jì)算機(jī)程序代碼配置用于與所述至少一個(gè)處理器一起引起所述設(shè)備至少執(zhí)行下述操作 確定文本語(yǔ)料庫(kù)的音素分布;確定調(diào)整聲學(xué)模型之前以及之后、所述聲學(xué)模型的音素的聲學(xué)模型增益分布; 基于所述音素分布和所述聲學(xué)模型增益分布來(lái)確定期望的音素分布; 基于所述期望的音素分布來(lái)生成調(diào)整語(yǔ)句;以及生成請(qǐng)求用戶說(shuō)出所述調(diào)整語(yǔ)句的提示。
13.如權(quán)利要求12的設(shè)備,其中所述計(jì)算機(jī)可讀指令在執(zhí)行時(shí)引起所述設(shè)備基于根據(jù)來(lái)自說(shuō)出所述調(diào)整語(yǔ)句的用戶語(yǔ)音輸入對(duì)音素的統(tǒng)計(jì)表征進(jìn)行更新來(lái)調(diào)整所述聲學(xué)模型, 以生成經(jīng)更新的聲學(xué)模型。
14.如權(quán)利要求13的設(shè)備,其中所述計(jì)算機(jī)可讀指令在執(zhí)行時(shí)引起所述設(shè)備基于所述聲學(xué)模型的音素和所述經(jīng)更新的聲學(xué)模型的音素來(lái)確定經(jīng)更新的聲學(xué)模型增益分布。
15.如權(quán)利要求14的設(shè)備,其中所述計(jì)算機(jī)可讀指令在執(zhí)行時(shí)引起所述設(shè)備確定基于所述經(jīng)更新的聲學(xué)模型增益分布的相似性度量滿足用以結(jié)束調(diào)整所述經(jīng)更新的聲學(xué)模型的停止標(biāo)準(zhǔn)。
16.如權(quán)利要求12-15中任一的設(shè)備,其中所述計(jì)算機(jī)可讀指令在執(zhí)行時(shí)引起所述設(shè)備從候選調(diào)整語(yǔ)句列表中選擇候選調(diào)整語(yǔ)句作為所述調(diào)整語(yǔ)句。
17.如權(quán)利要求12-16中任一的設(shè)備,其中用于生成所述調(diào)整語(yǔ)句的所述計(jì)算機(jī)可讀指令在執(zhí)行時(shí)引起所述設(shè)備確定多個(gè)候選調(diào)整語(yǔ)句的多個(gè)候選調(diào)整語(yǔ)句音素分布;標(biāo)識(shí)所述多個(gè)候選調(diào)整語(yǔ)句中針對(duì)所述期望的音素分布具有最小交叉熵度量的第一候選調(diào)整語(yǔ)句;以及將所述第一候選調(diào)整語(yǔ)句選作所述調(diào)整語(yǔ)句。
18.如權(quán)利要求12-17中任一的設(shè)備,其中所述計(jì)算機(jī)可讀指令在執(zhí)行時(shí)引起所述設(shè)備標(biāo)識(shí)對(duì)通過(guò)詞匯表的多個(gè)單詞列表分段的累積得分進(jìn)行優(yōu)化的單詞路徑。
19.如權(quán)利要求12-18中任一的設(shè)備,其中所述計(jì)算機(jī)可讀指令在執(zhí)行時(shí)引起所述設(shè)備將詞匯表的連續(xù)單詞列表中單詞之間的連接建模為雙構(gòu)詞成分,以確定所述單詞之間的關(guān)系。
20.如權(quán)利要求12-19中任一的設(shè)備,其中所述計(jì)算機(jī)可讀指令在執(zhí)行時(shí)引起所述設(shè)備應(yīng)用有限狀態(tài)語(yǔ)法以向所述調(diào)整語(yǔ)句提供結(jié)構(gòu)。
21.—種或多種計(jì)算機(jī)可讀介質(zhì),存儲(chǔ)有在由處理器執(zhí)行時(shí)引起所述處理器執(zhí)行包括下述步驟的方法的計(jì)算機(jī)可執(zhí)行指令,所述方法包括確定文本語(yǔ)料庫(kù)的音素分布;確定調(diào)整聲學(xué)模型之前以及之后、所述聲學(xué)模型的音素的聲學(xué)模型增益分布;基于所述音素分布和所述聲學(xué)模型增益分布來(lái)確定期望的音素分布;基于所述期望的音素分布來(lái)生成調(diào)整語(yǔ)句;以及生成請(qǐng)求用戶說(shuō)出所述調(diào)整語(yǔ)句的提示。
22.如權(quán)利要求21的一種或多種計(jì)算機(jī)可讀介質(zhì),其進(jìn)一步存儲(chǔ)有在由處理器執(zhí)行時(shí)引起所述處理器執(zhí)行包括下述步驟的方法的計(jì)算機(jī)可執(zhí)行指令基于根據(jù)來(lái)自說(shuō)出所述調(diào)整語(yǔ)句的用戶語(yǔ)音輸入對(duì)音素的統(tǒng)計(jì)表征進(jìn)行更新來(lái)調(diào)整所述聲學(xué)模型,以生成經(jīng)更新的聲學(xué)模型。
23.如權(quán)利要求22的一種或多種計(jì)算機(jī)可讀介質(zhì),其進(jìn)一步存儲(chǔ)有在由處理器執(zhí)行時(shí)引起所述處理器執(zhí)行包括下述步驟的方法的計(jì)算機(jī)可執(zhí)行指令基于所述聲學(xué)模型的音素和所述經(jīng)更新的聲學(xué)模型的音素來(lái)確定經(jīng)更新的聲學(xué)模型增益分布。
24.如權(quán)利要求23的一種或多種計(jì)算機(jī)可讀介質(zhì),其進(jìn)一步存儲(chǔ)有在由處理器執(zhí)行時(shí)引起所述處理器執(zhí)行包括下述步驟的方法的計(jì)算機(jī)可執(zhí)行指令確定基于所述經(jīng)更新的聲學(xué)模型增益分布的相似性度量滿足用以結(jié)束調(diào)整所述經(jīng)更新的聲學(xué)模型的停止標(biāo)準(zhǔn)。
25.如權(quán)利要求21-24中任一的一種或多種計(jì)算機(jī)可讀介質(zhì),其進(jìn)一步存儲(chǔ)有在由處理器執(zhí)行時(shí)引起所述處理器執(zhí)行包括下述步驟的方法的計(jì)算機(jī)可執(zhí)行指令從候選調(diào)整語(yǔ)句列表中選擇候選調(diào)整語(yǔ)句作為所述調(diào)整語(yǔ)句。
26.如權(quán)利要求21-25中任一的一種或多種計(jì)算機(jī)可讀介質(zhì),其進(jìn)一步存儲(chǔ)有用于生成所述調(diào)整語(yǔ)句的計(jì)算機(jī)可執(zhí)行指令,在由處理器執(zhí)行時(shí),引起所述處理器執(zhí)行包括下述步驟的方法確定多個(gè)候選調(diào)整語(yǔ)句的多個(gè)候選調(diào)整語(yǔ)句音素分布;標(biāo)識(shí)所述多個(gè)候選調(diào)整語(yǔ)句中針對(duì)所述期望的音素分布具有最小交叉熵度量的第一候選調(diào)整語(yǔ)句;以及將所述第一候選調(diào)整語(yǔ)句選作所述調(diào)整語(yǔ)句。
27.如權(quán)利要求2116中任一的一種或多種計(jì)算機(jī)可讀介質(zhì),其進(jìn)一步存儲(chǔ)有在由處理器執(zhí)行時(shí)引起所述處理器執(zhí)行包括下述步驟的方法的計(jì)算機(jī)可執(zhí)行指令標(biāo)識(shí)對(duì)通過(guò)詞匯表的多個(gè)單詞列表分段的累積得分進(jìn)行優(yōu)化的單詞路徑。
28.如權(quán)利要求21-27中任一的一種或多種計(jì)算機(jī)可讀介質(zhì),其進(jìn)一步存儲(chǔ)有在由處理器執(zhí)行時(shí)引起所述處理器執(zhí)行包括下述步驟的方法的計(jì)算機(jī)可執(zhí)行指令將詞匯表的連續(xù)單詞列表中單詞之間的連接建模為雙構(gòu)詞成分,以確定所述單詞之間的關(guān)系。
29.如權(quán)利要求21-28中任一的一種或多種計(jì)算機(jī)可讀介質(zhì),其進(jìn)一步存儲(chǔ)有在由處理器執(zhí)行時(shí)引起所述處理器執(zhí)行包括下述步驟的方法的計(jì)算機(jī)可執(zhí)行指令應(yīng)用有限狀態(tài)語(yǔ)法以向所述調(diào)整語(yǔ)句提供結(jié)構(gòu)。
30.一種設(shè)備,包括用于確定文本語(yǔ)料庫(kù)的音素分布的裝置;用于確定調(diào)整聲學(xué)模型之前以及之后、所述聲學(xué)模型的音素的聲學(xué)模型增益分布的裝置;用于基于所述音素分布和所述聲學(xué)模型增益分布來(lái)確定期望的音素分布的裝置; 用于基于所述期望的音素分布來(lái)生成調(diào)整語(yǔ)句的裝置;以及用于生成請(qǐng)求用戶說(shuō)出所述調(diào)整語(yǔ)句的提示的裝置。
全文摘要
公開(kāi)了一種用于調(diào)整聲學(xué)模型的方法和系統(tǒng)。用戶終端可以確定文本語(yǔ)料庫(kù)的音素分布;確定調(diào)整聲學(xué)模型之前以及之后、所述聲學(xué)模型的聲學(xué)模型增益分布;基于所述音素分布和所述聲學(xué)模型增益分布來(lái)確定期望的音素分布;基于所述期望的音素分布來(lái)生成調(diào)整語(yǔ)句;以及生成請(qǐng)求用戶說(shuō)出所述調(diào)整語(yǔ)句的提示。
文檔編號(hào)G10L15/06GK102282608SQ200980154721
公開(kāi)日2011年12月14日 申請(qǐng)日期2009年12月3日 優(yōu)先權(quán)日2008年12月9日
發(fā)明者J·田 申請(qǐng)人:諾基亞公司