自動(dòng)語(yǔ)音識(shí)別聲學(xué)模型的調(diào)整的制作方法

文檔序號(hào)：2823286閱讀：257來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：自動(dòng)語(yǔ)音識(shí)別聲學(xué)模型的調(diào)整的制作方法
技術(shù)領(lǐng)域：
本發(fā)明的示例性實(shí)施方式總體上涉及語(yǔ)音識(shí)別。更具體地，本發(fā)明的示例性實(shí)施方式涉及對(duì)聲學(xué)(acoustic)模型進(jìn)行調(diào)整的自動(dòng)語(yǔ)音識(shí)別。
背景技術(shù)：
很多當(dāng)下的自動(dòng)語(yǔ)音識(shí)別(ASR)系統(tǒng)需要用戶通過(guò)下述操作來(lái)顯式地訓(xùn)練聲學(xué)模型讀出預(yù)定語(yǔ)句，以便基于該用戶的語(yǔ)音特征來(lái)調(diào)整講話者無(wú)關(guān)(Si)聲學(xué)模型，從而改進(jìn)語(yǔ)音識(shí)別性能。

發(fā)明內(nèi)容
以下給出了本發(fā)明某些示例性實(shí)施方式的簡(jiǎn)單概要，以便提供本發(fā)明某些示例性實(shí)施方式的基本理解。此概要不是詳盡的總覽，而且也不意在標(biāo)識(shí)重要元素或關(guān)鍵元素或者勾勒權(quán)利要求的范圍。以下概要僅以作為以下所提供更詳細(xì)描述的序言的簡(jiǎn)單形式給出了某些概念和示例性實(shí)施方式。本公開(kāi)的某些示例性實(shí)施方式涉及一種用于調(diào)整聲學(xué)模型的裝置、方法和系統(tǒng)。更具體地，根據(jù)本公開(kāi)某些示例性實(shí)施方式的方法、裝置和系統(tǒng)提供了對(duì)聲學(xué)模型的調(diào)整。用戶終端可以確定文本語(yǔ)料庫(kù)(corpus)的音素分布、確定調(diào)整聲學(xué)模型之前或之后該聲學(xué)模型音素的聲學(xué)模型增益分布、基于該音素分布和該聲學(xué)模型增益分布來(lái)確定期望的音素(phoneme)分布、基于期望的音素分布來(lái)生成調(diào)整語(yǔ)句，以及生成請(qǐng)求用戶說(shuō)出該調(diào)整語(yǔ)句的提示。

通過(guò)考慮附圖來(lái)參考下述描述，可以獲得本發(fā)明的更完整理解及其優(yōu)勢(shì)，在附圖中相同的附圖標(biāo)記指示相同的特征，以及其中圖1示出了根據(jù)本公開(kāi)示例性實(shí)施方式的用戶終端。圖2示出了根據(jù)本公開(kāi)示例性實(shí)施方式實(shí)現(xiàn)的、用于調(diào)整聲學(xué)模型的用戶終端的架構(gòu)。圖3示出了根據(jù)本公開(kāi)示例性實(shí)施方式的、包括文本語(yǔ)料庫(kù)、發(fā)音詞典和語(yǔ)音語(yǔ)料庫(kù)的訓(xùn)練數(shù)據(jù)庫(kù)(DB)。圖4示出了根據(jù)本公開(kāi)示例性實(shí)施方式的、存儲(chǔ)有講話者無(wú)關(guān)聲學(xué)模型和講話者相關(guān)聲學(xué)模型的聲學(xué)模型數(shù)據(jù)庫(kù)(DB)。圖5示出了根據(jù)本公開(kāi)示例性實(shí)施方式的、存儲(chǔ)有語(yǔ)言模型的語(yǔ)言模型數(shù)據(jù)庫(kù) (DB)。圖6示出了根據(jù)本公開(kāi)示例性實(shí)施方式的、針對(duì)詞匯表生成的、用于基于統(tǒng)計(jì)方法來(lái)生成調(diào)整語(yǔ)句的單詞網(wǎng)格(word lattice)。圖7示出了根據(jù)本公開(kāi)示例性實(shí)施方式的、用于選擇優(yōu)化調(diào)整語(yǔ)句以調(diào)整聲學(xué)模型的方法。圖8示出了根據(jù)本公開(kāi)示例性實(shí)施方式的、描述了針對(duì)不同調(diào)整技術(shù)的單詞識(shí)別性能的圖表。
具體實(shí)施例方式在各種實(shí)施方式的下述描述中，參考形成本文一部分并且在其中僅通過(guò)說(shuō)明方式示出各種實(shí)施方式的附圖，其中在這些實(shí)施方式中可以實(shí)現(xiàn)本發(fā)明的一個(gè)或多個(gè)示例性實(shí)施方式。應(yīng)當(dāng)理解，在不脫離本發(fā)明范圍的前提下，可以利用其他實(shí)施方式以及做出結(jié)構(gòu)和功能上的修改。圖1示出了根據(jù)本公開(kāi)示例性實(shí)施方式的用戶終端。用戶終端102可以使用聲學(xué)模型、語(yǔ)言模型和發(fā)音詞典來(lái)執(zhí)行自動(dòng)語(yǔ)音識(shí)別(ASR)，以便從人類語(yǔ)音中識(shí)別出文本，其中該人類語(yǔ)音經(jīng)由話音接口輸入，以允許用戶提供用于控制用戶終端102操作的語(yǔ)音輸入 (如下文進(jìn)一步詳述的)。在示例性實(shí)施方式中，用戶終端102可以是所示的移動(dòng)通信設(shè)備、具有天線的移動(dòng)電話或移動(dòng)計(jì)算機(jī)，或者也可以是數(shù)字視頻記錄器(DVR)、機(jī)頂盒(STB)、服務(wù)器計(jì)算機(jī)、計(jì)算機(jī)、存儲(chǔ)設(shè)備、因特網(wǎng)瀏覽器設(shè)備、游戲設(shè)備、音頻/視頻播放器、數(shù)字相機(jī)/攝像機(jī)、電視、無(wú)線電廣播接收機(jī)、定位設(shè)備、有線或無(wú)線通信設(shè)備和/或其任何組合。用戶終端102 可以是如所示的單獨(dú)設(shè)備，或者可以集成在諸如但不限于汽車內(nèi)的另一設(shè)備中。在所示示例中，用戶終端102包括顯示器104、處理器106、存儲(chǔ)器108或其他計(jì)算機(jī)可讀介質(zhì)和/或其他存儲(chǔ)、用戶接口 110、麥克風(fēng)112和揚(yáng)聲器114。用戶設(shè)備102的麥克風(fēng)112可以從用戶接收語(yǔ)音輸入，而揚(yáng)聲器114可以輸出音頻以提示用戶與話音接口進(jìn)行交互。用戶接口 110可以包括小鍵盤(pán)、觸摸屏、話音接口、四箭頭鍵、游戲桿、數(shù)據(jù)手套、鼠標(biāo)、滾球(roller ball)、觸摸屏或用于從用戶接收用以控制用戶終端102的輸入的其他適當(dāng)設(shè)備。圖2示出了根據(jù)本公開(kāi)示例性實(shí)施方式的、用于調(diào)整聲學(xué)模型的用戶終端102的架構(gòu)200。架構(gòu)200的處理器106可以通過(guò)下述操作來(lái)創(chuàng)建講話者相關(guān)模型根據(jù)從使用有效調(diào)整語(yǔ)句的講話者接收的語(yǔ)音輸入來(lái)調(diào)整講話者無(wú)關(guān)模型。架構(gòu)200可以動(dòng)態(tài)地標(biāo)識(shí)用于該調(diào)整過(guò)程的優(yōu)化調(diào)整語(yǔ)句。在所示示例中，架構(gòu)200可以包括處理器106，該處理器106包括音素分布處理器 204、聲學(xué)模型增益處理器206、調(diào)整語(yǔ)句處理器208和靜態(tài)音素分布處理器210。該處理器 106可以是實(shí)現(xiàn)音素分布處理器204、聲學(xué)模型增益處理器206、調(diào)整語(yǔ)句處理器208和靜態(tài)音素分布處理器210的單個(gè)處理器，或者可以是彼此遠(yuǎn)離或位于彼此本地的兩個(gè)或更多單獨(dú)處理器。架構(gòu)200的存儲(chǔ)器108可以存儲(chǔ)數(shù)據(jù)，其包括語(yǔ)言模型數(shù)據(jù)庫(kù)202、訓(xùn)練數(shù)據(jù)庫(kù) 214和聲學(xué)模型數(shù)據(jù)庫(kù)216，這些將參考圖3-圖5做進(jìn)一步詳細(xì)描述。訓(xùn)練數(shù)據(jù)庫(kù)214還可以是存儲(chǔ)器108的輸入，如所示。圖3示出了根據(jù)本公開(kāi)示例性實(shí)施方式的、包括文本語(yǔ)料庫(kù)、發(fā)音詞典和語(yǔ)音語(yǔ)料庫(kù)的訓(xùn)練數(shù)據(jù)庫(kù)。文本語(yǔ)料庫(kù)302可以是包括一種或多種語(yǔ)言文本的結(jié)構(gòu)化集合的數(shù)據(jù)庫(kù)。文本語(yǔ)料庫(kù)302可以基于來(lái)自于書(shū)籍、新聞、單詞表、數(shù)字序列、多人之間的語(yǔ)音對(duì)話等的摘錄。發(fā)音詞典304可以包括具有特定發(fā)音的單詞或短語(yǔ)的集合。在示例性實(shí)施方式中，發(fā)音詞典可以具有針對(duì)文本語(yǔ)料庫(kù)302中每個(gè)單詞的條目列表，該條目包括單詞及其發(fā)音。例如，對(duì)于單詞“you(你)”，發(fā)音字典可以列出該單詞“you”及其音素級(jí)別發(fā)音“j U”。語(yǔ)音語(yǔ)料庫(kù)306可以是包括語(yǔ)音音頻文件和每個(gè)音頻文件的文本轉(zhuǎn)錄的數(shù)據(jù)庫(kù)。例如，語(yǔ)音語(yǔ)料庫(kù)306可以包括作為說(shuō)出“How are you doing today ？(你今天過(guò)得怎么樣)，，的某人音頻記錄的音頻文件，以及文本轉(zhuǎn)錄可以包括對(duì)應(yīng)于該音頻記錄的文本。圖4示出了根據(jù)本公開(kāi)示例性實(shí)施方式的、存儲(chǔ)有講話者無(wú)關(guān)聲學(xué)模型和講話者相關(guān)聲學(xué)模型的聲學(xué)模型數(shù)據(jù)庫(kù)。如所示，聲學(xué)模型數(shù)據(jù)庫(kù)216可以包括一個(gè)或多個(gè)講話者無(wú)關(guān)(Si)模型402和一個(gè)或多個(gè)講話者相關(guān)(SD)模型404。SI模型402和SD模型404 二者可以使用預(yù)先記錄的語(yǔ)音進(jìn)行訓(xùn)練。在示例性實(shí)施方式中，SI聲學(xué)模型402和SD聲學(xué)模型404可以根據(jù)訓(xùn)練數(shù)據(jù)庫(kù)214的文本語(yǔ)料庫(kù)302和語(yǔ)音語(yǔ)料庫(kù)306進(jìn)行訓(xùn)練。聲學(xué)模型402和404可以是例如上下文依賴音素隱形馬爾科夫模型(HMM)。用戶終端102可以使用聲學(xué)模型402和404對(duì)接收自特定用戶的語(yǔ)音輸入進(jìn)行分類，以便識(shí)別出語(yǔ)音輸入中說(shuō)出的單詞。聲學(xué)模型可以包括對(duì)不同聲音、單詞、單詞的部分和/或其任何組合進(jìn)行建模的數(shù)據(jù)，以便在接收自用戶的語(yǔ)音輸入中識(shí)別出單詞。聲學(xué)模型可以包括構(gòu)成文本語(yǔ)料庫(kù)302中每個(gè)單詞的聲音的統(tǒng)計(jì)表征。為了開(kāi)發(fā)出針對(duì)多個(gè)用戶可用的聲學(xué)模型，聲學(xué)模型可以根據(jù)記錄自多個(gè)講話者的語(yǔ)音數(shù)據(jù)進(jìn)行訓(xùn)練，并且該聲學(xué)模型可以稱為SI聲學(xué)模型402。聲學(xué)模型的訓(xùn)練可以涉及對(duì)說(shuō)出的單詞進(jìn)行統(tǒng)計(jì)建模的過(guò)程，以使得與該說(shuō)出的單詞對(duì)應(yīng)的文本可以由用戶終端102識(shí)別。SI聲學(xué)模型402例如可以開(kāi)發(fā)自多個(gè)個(gè)體提供的語(yǔ)音輸入，并且由此可以代表一般講話者的語(yǔ)音特征，但可能未考慮到個(gè)體講話者唯一的講話特征。該訓(xùn)練過(guò)程可以泛化該SI聲學(xué)模型402，以表征來(lái)自特定講話者的、待識(shí)別的說(shuō)出單詞的特征。由于SI聲學(xué)模型402開(kāi)發(fā)自多個(gè)講話者，所以SI模型402可能針對(duì)特定講話者提供的語(yǔ)音不具有較高的單詞識(shí)別準(zhǔn)確度。用戶終端102可以調(diào)整該SI聲學(xué)模型402以改進(jìn)語(yǔ)音識(shí)別準(zhǔn)確度。此處描述的講話者調(diào)整方案可以利用有限的講話者特定數(shù)據(jù)來(lái)調(diào)整(例如，調(diào)諧)該SI聲學(xué)模型402，以更好地表征該個(gè)體講話者的特征。調(diào)整可以從特定講話者獲得有限量的語(yǔ)音輸入，以便調(diào)整該SI聲學(xué)模型402從而生成SD聲學(xué)模型404。調(diào)整可以迭代執(zhí)行。該SI聲學(xué)模型402可以通過(guò)記錄特定講話者的語(yǔ)音輸入而得以調(diào)整，從而生成SD聲學(xué)模型404的初始迭代。用戶可以提供用以繼續(xù)調(diào)整該SD聲學(xué)模型404的進(jìn)一步輸入語(yǔ)音。例如，特定講話者可以說(shuō)出用于調(diào)整聲學(xué)模型的一個(gè)語(yǔ)句。該特定講話者可以提供一個(gè)或多個(gè)附加語(yǔ)句，直到該調(diào)整會(huì)話完成為止。調(diào)整語(yǔ)句的有效設(shè)計(jì)在下文進(jìn)一步詳細(xì)討論。用戶終端102可以用作個(gè)人設(shè)備，諸如但不限于，大部分情況下由單個(gè)用戶使用的移動(dòng)電話。在由單個(gè)用戶使用時(shí)，用戶終端102可以包括適合于該單個(gè)用戶語(yǔ)音特征的單個(gè)SI聲學(xué)模型404。而且，如果多個(gè)用戶共享用戶終端102的話，用戶終端102可以為每個(gè)用戶提供多個(gè)SD聲學(xué)模型404。例如，如果用戶終端102由多個(gè)用戶共享，該聲學(xué)模型可以包括適合于每個(gè)用戶的SD聲學(xué)模型404。圖5示出了根據(jù)本公開(kāi)示例性實(shí)施方式的、存儲(chǔ)有語(yǔ)言模型的語(yǔ)言模型數(shù)據(jù)庫(kù)。該語(yǔ)言模型數(shù)據(jù)庫(kù)202可以存儲(chǔ)一個(gè)或多個(gè)聲學(xué)語(yǔ)言模型，諸如根據(jù)訓(xùn)練數(shù)據(jù)庫(kù)214的文本語(yǔ)料庫(kù)302和語(yǔ)音語(yǔ)料庫(kù)306訓(xùn)練而來(lái)的502A和502B。語(yǔ)言模型502可以是向單詞序列指派概率的文件，并且其可以預(yù)測(cè)語(yǔ)音序列中的下一個(gè)單詞。在示例性實(shí)施方式中，該語(yǔ)言模型(例如，502A和502B)可以是η構(gòu)詞成分語(yǔ)言模型。η構(gòu)詞成分語(yǔ)言模型可以是確定觀測(cè)到具有某個(gè)單詞序列的語(yǔ)句的概率的模型。例如，單構(gòu)詞成分語(yǔ)言模型可以指示單個(gè)單詞在文本語(yǔ)料庫(kù)302中出現(xiàn)的頻率概率，雙構(gòu)詞成分語(yǔ)言模型可以指示雙單詞序列在文本語(yǔ)料庫(kù)302中出現(xiàn)的頻率概率，以及η構(gòu)詞成分語(yǔ)言模型可以指示η單詞序列在文本語(yǔ)料庫(kù)302中出現(xiàn)的頻率概率，其中η是正整數(shù)。在示例性實(shí)施方式中，語(yǔ)言模型502Α可以是單構(gòu)詞成分語(yǔ)言模型，而語(yǔ)言模型502Β可以是雙構(gòu)詞成分語(yǔ)言模型。架構(gòu)200可以解決文本語(yǔ)料庫(kù)302的音素分布問(wèn)題，以設(shè)計(jì)出用于高效地調(diào)整SI 聲學(xué)模型402的優(yōu)化調(diào)整語(yǔ)句。語(yǔ)音可以分解成音素，其中音素是子單詞單元，但是也可以是其他聲學(xué)單位。子單詞單元的示例是普通話的聲韻或者音節(jié)。音素的示例是單音或上下文依賴的音素，諸如三音素。音素分布可以度量每個(gè)音素出現(xiàn)在文本語(yǔ)料庫(kù)302中的頻率。對(duì)于具有有限量調(diào)整文本的文本語(yǔ)料庫(kù)302，某些音素較之于其他音素可能出現(xiàn)得更加頻
系ο有限量的調(diào)整文本可以導(dǎo)致SI聲學(xué)模型402針對(duì)某些音素具有有限的信息，并且當(dāng)該用戶說(shuō)出這些音素時(shí)，用戶終端102可能具有較低的單詞識(shí)別準(zhǔn)確度，尤其是在用戶的語(yǔ)音特征顯著不同于為創(chuàng)建該SI聲學(xué)模型402提供語(yǔ)音輸入的個(gè)體時(shí)。而且，讀出預(yù)定語(yǔ)句可以是非常耗時(shí)的任務(wù)，通常也不是用戶友好的，而且也不能高效地調(diào)整該SI聲學(xué)模型402。為了解決這些和其他問(wèn)題，架構(gòu)200可以對(duì)文本語(yǔ)料庫(kù)302的音素分布進(jìn)行處理，以高效地創(chuàng)建調(diào)整語(yǔ)句，從而實(shí)現(xiàn)期望的音素分布，同時(shí)將要求用戶在有輔導(dǎo)的調(diào)整過(guò)程期間說(shuō)出的文本量最小化。在示例性實(shí)施方式中，用戶終端102可以基于用戶的語(yǔ)音特征和用戶終端102在其中進(jìn)行使用的背景環(huán)境來(lái)調(diào)整該SI聲學(xué)模型402，以生成SD聲學(xué)模型404。如下文進(jìn)一步詳細(xì)描述的，用戶終端102可以對(duì)該SI聲學(xué)模型402進(jìn)行處理，以生成可以用來(lái)調(diào)整該 SI聲學(xué)模型402同時(shí)又將來(lái)自用戶的語(yǔ)音輸入量最小化的調(diào)整語(yǔ)句。以下描述了這樣的方法，其可以使用用于訓(xùn)練語(yǔ)言模型(例如502Α)的文本語(yǔ)料庫(kù)302的音素分布和聲學(xué)模型增益分布的目標(biāo)函數(shù)(objective function)優(yōu)化來(lái)自動(dòng)、動(dòng)態(tài)且優(yōu)化地生成調(diào)整語(yǔ)句，以便有效地改進(jìn)語(yǔ)音識(shí)別準(zhǔn)確度和用戶體驗(yàn)。再次參考圖2，用戶終端102的架構(gòu)200可以實(shí)現(xiàn)這樣的自動(dòng)語(yǔ)音識(shí)別(ASR)技術(shù)，其可以減輕可能不愿意為了調(diào)整SI聲學(xué)模型402而執(zhí)行密集過(guò)程的用戶的負(fù)擔(dān)。此處討論的自動(dòng)語(yǔ)音識(shí)別技術(shù)可以通過(guò)生成用以有效調(diào)整SI聲學(xué)模型402的優(yōu)化調(diào)整語(yǔ)句而成為較不耗時(shí)的任務(wù)。用戶可以訪問(wèn)用戶終端102的話音或圖形接口，以便開(kāi)始調(diào)整該SI聲學(xué)模型402。在初次使用該接口期間，用戶終端102可以執(zhí)行有輔導(dǎo)的調(diào)整過(guò)程，在該過(guò)程中，該接口請(qǐng)求用戶說(shuō)出預(yù)定語(yǔ)句，以便提供用于將SI聲學(xué)模型調(diào)整為講話者相關(guān)(SD)聲學(xué)模型的語(yǔ)音輸入。用戶終端102可以基于該用戶的語(yǔ)音特征以及用戶終端102在其中進(jìn)行使用的背景環(huán)境來(lái)調(diào)整該SI聲學(xué)模型402，以開(kāi)發(fā)出SD聲學(xué)模型404從而改進(jìn)單詞識(shí)別準(zhǔn)確度。用于調(diào)整Si聲學(xué)模型402的語(yǔ)音輸入量可以依賴于從訓(xùn)練數(shù)據(jù)庫(kù)214學(xué)習(xí)而來(lái)的音素分布和用戶特質(zhì)。用戶終端102例如可以利用有限的用戶特定語(yǔ)音輸入來(lái)調(diào)諧SI聲學(xué)模型402 以調(diào)整該聲學(xué)模型，從而更好地識(shí)別出該用戶提供的語(yǔ)音。
8
為了開(kāi)始調(diào)整該SI聲學(xué)模型402，靜態(tài)音素分布處理器210可以確定用于訓(xùn)練語(yǔ)言模型(諸如502A)的文本語(yǔ)料庫(kù)302的音素分布。音素分布可以代表某些聲音在文本語(yǔ)料庫(kù)302中出現(xiàn)的頻率。在示例性實(shí)施方式中，靜態(tài)音素分布處理器210可以獲取語(yǔ)言模型502A，并且繼而基于以下等式來(lái)計(jì)算文本語(yǔ)料庫(kù)302的靜態(tài)音素分布Pe
權(quán)利要求
1.一種方法，包括確定文本語(yǔ)料庫(kù)的音素分布；確定調(diào)整聲學(xué)模型之前以及之后、所述聲學(xué)模型的音素的聲學(xué)模型增益分布；基于所述音素分布和所述聲學(xué)模型增益分布來(lái)確定期望的音素分布；基于所述期望的音素分布來(lái)生成調(diào)整語(yǔ)句；以及生成請(qǐng)求用戶說(shuō)出所述調(diào)整語(yǔ)句的提示。
2.如權(quán)利要求1的方法，進(jìn)一步包括基于根據(jù)來(lái)自說(shuō)出所述調(diào)整語(yǔ)句的用戶語(yǔ)音輸入對(duì)音素的統(tǒng)計(jì)表征進(jìn)行更新來(lái)調(diào)整所述聲學(xué)模型，以生成經(jīng)更新的聲學(xué)模型。
3.如權(quán)利要求2的方法，進(jìn)一步包括基于所述聲學(xué)模型的音素和所述經(jīng)更新的聲學(xué)模型的音素來(lái)確定經(jīng)更新的聲學(xué)模型增益分布。
4.如權(quán)利要求3的方法，進(jìn)一步包括確定基于所述經(jīng)更新的聲學(xué)模型增益分布的相似性度量滿足用以結(jié)束調(diào)整所述經(jīng)更新的聲學(xué)模型的停止標(biāo)準(zhǔn)。
5.如權(quán)利要求1-4中任一的方法，其中所述聲學(xué)模型增益分布是對(duì)調(diào)整之前和調(diào)整之后的所述聲學(xué)模型的音素之間相似性進(jìn)行度量的相似性度量。
6.如權(quán)利要求1-5中任一的方法，其中所述調(diào)整語(yǔ)句的生成包括從候選調(diào)整語(yǔ)句列表中選擇候選調(diào)整語(yǔ)句作為所述調(diào)整語(yǔ)句。
7.如權(quán)利要求1-6中任一的方法，其中所述調(diào)整語(yǔ)句的生成進(jìn)一步包括確定多個(gè)候選調(diào)整語(yǔ)句的多個(gè)候選調(diào)整語(yǔ)句音素分布；標(biāo)識(shí)所述多個(gè)候選調(diào)整語(yǔ)句中針對(duì)所述期望的音素分布具有最小交叉熵度量的第一候選調(diào)整語(yǔ)句；以及將所述第一候選調(diào)整語(yǔ)句選作所述調(diào)整語(yǔ)句。
8.如權(quán)利要求1-7中任一的方法，其中所述調(diào)整語(yǔ)句的生成進(jìn)一步包括標(biāo)識(shí)對(duì)通過(guò)詞匯表的多個(gè)單詞列表分段的累積得分進(jìn)行優(yōu)化的單詞路徑。
9.如權(quán)利要求1-8中任一的方法，其中所述調(diào)整語(yǔ)句的生成包括將詞匯表的連續(xù)單詞列表中單詞之間的連接建模為雙構(gòu)詞成分，以確定所述單詞之間的關(guān)系。
10.如權(quán)利要求1-9中任一的方法，其中所述調(diào)整語(yǔ)句的生成包括應(yīng)用有限狀態(tài)語(yǔ)法以向所述調(diào)整語(yǔ)句提供結(jié)構(gòu)。
11.如權(quán)利要求1-10中任一的方法，其中所述音素分布是使用單構(gòu)詞成分語(yǔ)言模型計(jì)算的。
12.—種設(shè)備，包括至少一個(gè)處理器；以及包括計(jì)算機(jī)程序代碼的至少一個(gè)存儲(chǔ)器所述至少一個(gè)存儲(chǔ)器和所述計(jì)算機(jī)程序代碼配置用于與所述至少一個(gè)處理器一起引起所述設(shè)備至少執(zhí)行下述操作確定文本語(yǔ)料庫(kù)的音素分布；確定調(diào)整聲學(xué)模型之前以及之后、所述聲學(xué)模型的音素的聲學(xué)模型增益分布；基于所述音素分布和所述聲學(xué)模型增益分布來(lái)確定期望的音素分布；基于所述期望的音素分布來(lái)生成調(diào)整語(yǔ)句；以及生成請(qǐng)求用戶說(shuō)出所述調(diào)整語(yǔ)句的提示。
13.如權(quán)利要求12的設(shè)備，其中所述計(jì)算機(jī)可讀指令在執(zhí)行時(shí)引起所述設(shè)備基于根據(jù)來(lái)自說(shuō)出所述調(diào)整語(yǔ)句的用戶語(yǔ)音輸入對(duì)音素的統(tǒng)計(jì)表征進(jìn)行更新來(lái)調(diào)整所述聲學(xué)模型，以生成經(jīng)更新的聲學(xué)模型。
14.如權(quán)利要求13的設(shè)備，其中所述計(jì)算機(jī)可讀指令在執(zhí)行時(shí)引起所述設(shè)備基于所述聲學(xué)模型的音素和所述經(jīng)更新的聲學(xué)模型的音素來(lái)確定經(jīng)更新的聲學(xué)模型增益分布。
15.如權(quán)利要求14的設(shè)備，其中所述計(jì)算機(jī)可讀指令在執(zhí)行時(shí)引起所述設(shè)備確定基于所述經(jīng)更新的聲學(xué)模型增益分布的相似性度量滿足用以結(jié)束調(diào)整所述經(jīng)更新的聲學(xué)模型的停止標(biāo)準(zhǔn)。
16.如權(quán)利要求12-15中任一的設(shè)備，其中所述計(jì)算機(jī)可讀指令在執(zhí)行時(shí)引起所述設(shè)備從候選調(diào)整語(yǔ)句列表中選擇候選調(diào)整語(yǔ)句作為所述調(diào)整語(yǔ)句。
17.如權(quán)利要求12-16中任一的設(shè)備，其中用于生成所述調(diào)整語(yǔ)句的所述計(jì)算機(jī)可讀指令在執(zhí)行時(shí)引起所述設(shè)備確定多個(gè)候選調(diào)整語(yǔ)句的多個(gè)候選調(diào)整語(yǔ)句音素分布；標(biāo)識(shí)所述多個(gè)候選調(diào)整語(yǔ)句中針對(duì)所述期望的音素分布具有最小交叉熵度量的第一候選調(diào)整語(yǔ)句；以及將所述第一候選調(diào)整語(yǔ)句選作所述調(diào)整語(yǔ)句。
18.如權(quán)利要求12-17中任一的設(shè)備，其中所述計(jì)算機(jī)可讀指令在執(zhí)行時(shí)引起所述設(shè)備標(biāo)識(shí)對(duì)通過(guò)詞匯表的多個(gè)單詞列表分段的累積得分進(jìn)行優(yōu)化的單詞路徑。
19.如權(quán)利要求12-18中任一的設(shè)備，其中所述計(jì)算機(jī)可讀指令在執(zhí)行時(shí)引起所述設(shè)備將詞匯表的連續(xù)單詞列表中單詞之間的連接建模為雙構(gòu)詞成分，以確定所述單詞之間的關(guān)系。
20.如權(quán)利要求12-19中任一的設(shè)備，其中所述計(jì)算機(jī)可讀指令在執(zhí)行時(shí)引起所述設(shè)備應(yīng)用有限狀態(tài)語(yǔ)法以向所述調(diào)整語(yǔ)句提供結(jié)構(gòu)。
21.—種或多種計(jì)算機(jī)可讀介質(zhì)，存儲(chǔ)有在由處理器執(zhí)行時(shí)引起所述處理器執(zhí)行包括下述步驟的方法的計(jì)算機(jī)可執(zhí)行指令，所述方法包括確定文本語(yǔ)料庫(kù)的音素分布；確定調(diào)整聲學(xué)模型之前以及之后、所述聲學(xué)模型的音素的聲學(xué)模型增益分布；基于所述音素分布和所述聲學(xué)模型增益分布來(lái)確定期望的音素分布；基于所述期望的音素分布來(lái)生成調(diào)整語(yǔ)句；以及生成請(qǐng)求用戶說(shuō)出所述調(diào)整語(yǔ)句的提示。
22.如權(quán)利要求21的一種或多種計(jì)算機(jī)可讀介質(zhì)，其進(jìn)一步存儲(chǔ)有在由處理器執(zhí)行時(shí)引起所述處理器執(zhí)行包括下述步驟的方法的計(jì)算機(jī)可執(zhí)行指令基于根據(jù)來(lái)自說(shuō)出所述調(diào)整語(yǔ)句的用戶語(yǔ)音輸入對(duì)音素的統(tǒng)計(jì)表征進(jìn)行更新來(lái)調(diào)整所述聲學(xué)模型，以生成經(jīng)更新的聲學(xué)模型。
23.如權(quán)利要求22的一種或多種計(jì)算機(jī)可讀介質(zhì)，其進(jìn)一步存儲(chǔ)有在由處理器執(zhí)行時(shí)引起所述處理器執(zhí)行包括下述步驟的方法的計(jì)算機(jī)可執(zhí)行指令基于所述聲學(xué)模型的音素和所述經(jīng)更新的聲學(xué)模型的音素來(lái)確定經(jīng)更新的聲學(xué)模型增益分布。
24.如權(quán)利要求23的一種或多種計(jì)算機(jī)可讀介質(zhì)，其進(jìn)一步存儲(chǔ)有在由處理器執(zhí)行時(shí)引起所述處理器執(zhí)行包括下述步驟的方法的計(jì)算機(jī)可執(zhí)行指令確定基于所述經(jīng)更新的聲學(xué)模型增益分布的相似性度量滿足用以結(jié)束調(diào)整所述經(jīng)更新的聲學(xué)模型的停止標(biāo)準(zhǔn)。
25.如權(quán)利要求21-24中任一的一種或多種計(jì)算機(jī)可讀介質(zhì)，其進(jìn)一步存儲(chǔ)有在由處理器執(zhí)行時(shí)引起所述處理器執(zhí)行包括下述步驟的方法的計(jì)算機(jī)可執(zhí)行指令從候選調(diào)整語(yǔ)句列表中選擇候選調(diào)整語(yǔ)句作為所述調(diào)整語(yǔ)句。
26.如權(quán)利要求21-25中任一的一種或多種計(jì)算機(jī)可讀介質(zhì)，其進(jìn)一步存儲(chǔ)有用于生成所述調(diào)整語(yǔ)句的計(jì)算機(jī)可執(zhí)行指令，在由處理器執(zhí)行時(shí)，引起所述處理器執(zhí)行包括下述步驟的方法確定多個(gè)候選調(diào)整語(yǔ)句的多個(gè)候選調(diào)整語(yǔ)句音素分布；標(biāo)識(shí)所述多個(gè)候選調(diào)整語(yǔ)句中針對(duì)所述期望的音素分布具有最小交叉熵度量的第一候選調(diào)整語(yǔ)句；以及將所述第一候選調(diào)整語(yǔ)句選作所述調(diào)整語(yǔ)句。
27.如權(quán)利要求2116中任一的一種或多種計(jì)算機(jī)可讀介質(zhì)，其進(jìn)一步存儲(chǔ)有在由處理器執(zhí)行時(shí)引起所述處理器執(zhí)行包括下述步驟的方法的計(jì)算機(jī)可執(zhí)行指令標(biāo)識(shí)對(duì)通過(guò)詞匯表的多個(gè)單詞列表分段的累積得分進(jìn)行優(yōu)化的單詞路徑。
28.如權(quán)利要求21-27中任一的一種或多種計(jì)算機(jī)可讀介質(zhì)，其進(jìn)一步存儲(chǔ)有在由處理器執(zhí)行時(shí)引起所述處理器執(zhí)行包括下述步驟的方法的計(jì)算機(jī)可執(zhí)行指令將詞匯表的連續(xù)單詞列表中單詞之間的連接建模為雙構(gòu)詞成分，以確定所述單詞之間的關(guān)系。
29.如權(quán)利要求21-28中任一的一種或多種計(jì)算機(jī)可讀介質(zhì)，其進(jìn)一步存儲(chǔ)有在由處理器執(zhí)行時(shí)引起所述處理器執(zhí)行包括下述步驟的方法的計(jì)算機(jī)可執(zhí)行指令應(yīng)用有限狀態(tài)語(yǔ)法以向所述調(diào)整語(yǔ)句提供結(jié)構(gòu)。
30.一種設(shè)備，包括用于確定文本語(yǔ)料庫(kù)的音素分布的裝置；用于確定調(diào)整聲學(xué)模型之前以及之后、所述聲學(xué)模型的音素的聲學(xué)模型增益分布的裝置；用于基于所述音素分布和所述聲學(xué)模型增益分布來(lái)確定期望的音素分布的裝置；用于基于所述期望的音素分布來(lái)生成調(diào)整語(yǔ)句的裝置；以及用于生成請(qǐng)求用戶說(shuō)出所述調(diào)整語(yǔ)句的提示的裝置。
全文摘要
公開(kāi)了一種用于調(diào)整聲學(xué)模型的方法和系統(tǒng)。用戶終端可以確定文本語(yǔ)料庫(kù)的音素分布；確定調(diào)整聲學(xué)模型之前以及之后、所述聲學(xué)模型的聲學(xué)模型增益分布；基于所述音素分布和所述聲學(xué)模型增益分布來(lái)確定期望的音素分布；基于所述期望的音素分布來(lái)生成調(diào)整語(yǔ)句；以及生成請(qǐng)求用戶說(shuō)出所述調(diào)整語(yǔ)句的提示。
文檔編號(hào)G10L15/06GK102282608SQ200980154721
公開(kāi)日2011年12月14日申請(qǐng)日期2009年12月3日優(yōu)先權(quán)日2008年12月9日
發(fā)明者J·田申請(qǐng)人:諾基亞公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：Ｊ·田
技術(shù)所有人：諾基亞公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

語(yǔ)音識(shí)別模型相關(guān)技術(shù)

語(yǔ)音識(shí)別模型訓(xùn)練相關(guān)技術(shù)

語(yǔ)音識(shí)別無(wú)監(jiān)督模型相關(guān)技術(shù)

高斯混合模型語(yǔ)音識(shí)別相關(guān)技術(shù)

抚州市| 葵青区| 鱼台县| 乌什县| 华蓥市| 鹤壁市| 和田市| 苏尼特左旗| 兴宁市| 江源县| 昭觉县| 郧西县| 聂荣县| 利川市| 临猗县| 留坝县| 佛冈县| 平昌县| 天祝| 青浦区| 深州市| 丁青县| 泰顺县| 车致| 三都| 贵阳市| 包头市| 乾安县| 石狮市| 潮州市| 岱山县| 那曲县| 合阳县| 固镇县| 鹿泉市| 历史| 彝良县| 汽车| 西林县| 合水县| 象州县|

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

自動(dòng)語(yǔ)音識(shí)別聲學(xué)模型的調(diào)整的制作方法