語音處理系統(tǒng)的制作方法
【專利摘要】一種文語轉(zhuǎn)換方法,該方法包括:接收輸入文本;將所述輸入文本分割為聲單元序列;利用聲學(xué)模型將所述聲單元序列轉(zhuǎn)換為語音矢量序列,其中所述模型具有多個(gè)模型參數(shù),模型參數(shù)描述將聲單元與語音矢量相關(guān)聯(lián)的概率分布;以及將所述語音矢量序列輸出為音頻,該方法還包括通過如下步驟確定所述模型參數(shù)的至少部分:從所述輸入文本提取表達(dá)特征以形成在第一空間中構(gòu)建的表達(dá)語言特征矢量;以及將所述表達(dá)語言特征矢量映射到在第二空間中構(gòu)建的表達(dá)合成特征矢量。
【專利說明】語音處理系統(tǒng)
[0001]相關(guān)申請(qǐng)的交叉引用
[0002]本申請(qǐng)基于在2012年7月18日提交的英國專利申請(qǐng)N0.1212783.3,并要求其優(yōu)先權(quán),其整體內(nèi)容在此引入作為參考。
【技術(shù)領(lǐng)域】
[0003]本文所述實(shí)施例總體涉及語音處理系統(tǒng)和方法。
【背景技術(shù)】
[0004]語音處理系統(tǒng)通常落入兩個(gè)主要組:文語轉(zhuǎn)換系統(tǒng);和語音識(shí)別系統(tǒng)。
[0005]文語轉(zhuǎn)換系統(tǒng)是這樣的系統(tǒng),其中響應(yīng)于接收到文本文件而輸出音頻語音或音頻語音文件。文語轉(zhuǎn)換系統(tǒng)用于多個(gè)應(yīng)用中,諸如電子游戲、電子書閱讀器、電子郵件閱讀器、衛(wèi)星導(dǎo)航、自動(dòng)電話系統(tǒng)、自動(dòng)警告系統(tǒng)。
【發(fā)明內(nèi)容】
[0006]為了解決對(duì)能夠輸出具有一定表達(dá)程度的語音的系統(tǒng)的持續(xù)需要這一問題,本發(fā)明實(shí)施例提供一種語音處理系統(tǒng)。
[0007]在一實(shí)施例中,提供文語轉(zhuǎn)換方法,該方法包括:
[0008]接收輸入文本;
[0009]將所述輸入文本分割為聲單元序列;
[0010]利用聲學(xué)模型將所述聲單元序列轉(zhuǎn)換為語音矢量序列,其中所述模型具有多個(gè)模型參數(shù),所述模型參數(shù)用于描述將聲單元與語音矢量相關(guān)聯(lián)的概率分布;以及
[0011]將所述語音矢量序列輸出為音頻,
[0012]該方法還包括通過如下步驟確定所述模型參數(shù)的至少部分:
[0013]從所述輸入文本提取表達(dá)特征以形成在第一空間中構(gòu)建的表達(dá)語言特征矢量;以及
[0014]將所述表達(dá)語言特征矢量映射到在第二空間中構(gòu)建的表達(dá)合成特征矢量。
[0015]在實(shí)施例中,將表達(dá)語言特征矢量映射到表達(dá)合成特征矢量包括,使用機(jī)器學(xué)習(xí)算法,例如,神經(jīng)網(wǎng)絡(luò)。
[0016]第二空間可以是多維連續(xù)空間。這允許平滑改變輸出音頻中的表達(dá)。
[0017]在一實(shí)施例中,從所述輸入文本提取表達(dá)特征包括多個(gè)提取過程,所述多個(gè)提取過程在所述文本的不同信息級(jí)別執(zhí)行。例如,不同信息級(jí)別可選自基于單詞的語言特征提取級(jí)別以生成基于單詞的語言特征、選自基于全情境音素的語言特征提取級(jí)別以生成基于全情境音素的語言特征、選自基于部分語音(POS)的語言特征提取級(jí)別以生成基于POS的特征、以及選自基于敘事風(fēng)格的語言特征提取級(jí)別以生成敘事風(fēng)格的信息。
[0018]在一個(gè)實(shí)施例中,當(dāng)從多個(gè)信息級(jí)別提取表達(dá)特征時(shí),多個(gè)提取過程中的每個(gè)生成特征矢量,該方法還包括連接從不同信息級(jí)別生成的語言特征矢量,以生成與第二空間映射的語言特征矢量。
[0019]在另一個(gè)實(shí)施例中,當(dāng)從多個(gè)信息級(jí)別提取表達(dá)特征時(shí),將表達(dá)語言特征矢量映射到表達(dá)合成特征矢量包括對(duì)應(yīng)于不同信息級(jí)別的每個(gè)的多個(gè)分級(jí)階段。
[0020]在一個(gè)實(shí)施例中,從第一空間映射到第二空間使用全情境信息。在另一個(gè)實(shí)施例中,聲學(xué)模型從輸入文本接收全情境信息,并且將該信息與從聲學(xué)模型中的表達(dá)合成特征矢量導(dǎo)出的模型參數(shù)組合。在另一個(gè)實(shí)施例中,在映射步驟中使用全情境信息,并且還與映射步驟分離地接收全情境信息作為聲學(xué)模型的輸入。
[0021]在一些實(shí)施例中,所述聲學(xué)模型的模型參數(shù)被表達(dá)為相同類型的模型參數(shù)的加權(quán)和,并且權(quán)重在第二空間中表示。例如,將所述模型參數(shù)表示為高斯平均值的加權(quán)和。在另一個(gè)實(shí)施例中,將參數(shù)聚為群集,并且合成特征矢量包括用于每個(gè)群集的權(quán)重。
[0022]每個(gè)群集可包括至少一個(gè)決策樹,所述決策樹基于與語言、語音或韻律差異中至少一個(gè)相關(guān)的問題。另外,在群集的決策樹之間可能存在結(jié)構(gòu)差異。
[0023]在一些實(shí)施例中,提供一種訓(xùn)練文語轉(zhuǎn)換系統(tǒng)的方法,該方法包括:
[0024]接收訓(xùn)練數(shù)據(jù),所述訓(xùn)練數(shù)據(jù)包括文本數(shù)據(jù)和對(duì)應(yīng)于所述文本數(shù)據(jù)的語音數(shù)據(jù);
[0025]從所述輸入文本提取表達(dá)特征以形成在第一空間中構(gòu)建的表達(dá)語言特征矢量;
[0026]從所述語音數(shù)據(jù)提取表達(dá)特征并形成在第二空間中構(gòu)建的表達(dá)特征合成矢量;
[0027]訓(xùn)練機(jī)器學(xué)習(xí)算法,該機(jī)器學(xué)習(xí)算法的訓(xùn)練輸入為表達(dá)語言特征矢量,并且訓(xùn)練輸出為對(duì)應(yīng)于訓(xùn)練輸入的表達(dá)合成特征矢量。
[0028]在一實(shí)施例中,機(jī)器學(xué)習(xí)算法為神經(jīng)網(wǎng)絡(luò)。
[0029]該方法還包括將表達(dá)合成特征矢量輸出到語音合成器,所述語音合成器包括聲學(xué)模型,其中所述模型具有多個(gè)模型參數(shù),所述模型參數(shù)描述用于將聲單元與語音矢量相關(guān)聯(lián)的概率分布。在該配置中,聯(lián)合訓(xùn)練聲學(xué)模型的參數(shù)和諸如神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)算法。例如,所述聲學(xué)模型的模型參數(shù)可以被表達(dá)為相同類型的模型參數(shù)的加權(quán)和,并且權(quán)重在第二空間中表示。在該配置中,可以聯(lián)合訓(xùn)練在第二空間表示的權(quán)重和神經(jīng)網(wǎng)絡(luò)。
[0030]在一些實(shí)施例中,提供文語轉(zhuǎn)換設(shè)備,該設(shè)備包括:
[0031 ] 接收器,用于接收輸入文本;
[0032]處理器,適于:
[0033]將所述輸入文本分割為聲單元序列;以及
[0034]利用聲學(xué)模型將所述聲單元序列轉(zhuǎn)換為語音矢量序列,其中所述模型具有多個(gè)模型參數(shù),所述模型參數(shù)描述聲單元與語音矢量相關(guān)聯(lián)的概率分布;以及
[0035]音頻輸出,其適于將所述語音矢量序列輸出為音頻,
[0036]所述處理器還適于通過如下步驟確定所述模型參數(shù)的至少部分:
[0037]從所述輸入文本提取表達(dá)特征以形成在第一空間中構(gòu)建的表達(dá)語言特征矢量;以及
[0038]將所述表達(dá)語言特征矢量映射到在第二空間中構(gòu)建的表達(dá)合成特征矢量。
[0039]由于根據(jù)實(shí)施例的一些方法可通過軟件實(shí)現(xiàn),一些實(shí)施例包括在任何合適的載體介質(zhì)上提供到通用計(jì)算機(jī)的計(jì)算機(jī)代碼。該載體介質(zhì)可以包括任意存儲(chǔ)介質(zhì),諸如軟盤、CDROM、磁盤或可編程存儲(chǔ)裝置,或者任意瞬態(tài)介質(zhì),諸如,例如電、光或微波信號(hào)的任意信號(hào)?!緦@綀D】
【附圖說明】
[0040]下文將參考附圖描述根據(jù)非限制性實(shí)施例的系統(tǒng)和方法,其中:
[0041]圖1為文語轉(zhuǎn)換系統(tǒng)的示意圖;
[0042]圖2的流程圖示出通過已知語音處理系統(tǒng)執(zhí)行的步驟;
[0043]圖3為高斯概率函數(shù)的示意圖;
[0044]圖4為根據(jù)一實(shí)施例的合成方法的示意圖;
[0045]圖5為根據(jù)一實(shí)施例的訓(xùn)練方法的示意圖;
[0046]圖6示出用于從多個(gè)信息級(jí)別提取表達(dá)特征矢量的并行系統(tǒng);
[0047]圖7示出用于從多個(gè)信息級(jí)別提取表達(dá)特征矢量的分級(jí)系統(tǒng);
[0048]圖8為用于CAT方法中的求和的示意圖;
[0049]圖9為用于提取合成矢量的基于CAT的系統(tǒng)的示意圖;
[0050]圖10為根據(jù)一實(shí)施例的合成方法的示意圖;
[0051]圖11示出用于根據(jù)實(shí)施例的方法的變換塊和輸入矢量;
[0052]圖12的流程圖示出用于訓(xùn)練基于CAT的系統(tǒng)的訓(xùn)練過程;以及
[0053]圖13示出如何建立決策樹以將參數(shù)聚為群集用于基于CAT的方法。
【具體實(shí)施方式】
[0054]首先,將說明關(guān)于文語轉(zhuǎn)換系統(tǒng)的根據(jù)實(shí)施例的系統(tǒng)。
[0055]圖1示出文語轉(zhuǎn)換系統(tǒng)I。文語轉(zhuǎn)換系統(tǒng)I包括執(zhí)行程序5的處理器3。文語轉(zhuǎn)換系統(tǒng)I還包括存儲(chǔ)裝置7。存儲(chǔ)裝置7存儲(chǔ)程序5使用的數(shù)據(jù),以將文本轉(zhuǎn)換為語音。文語轉(zhuǎn)換系統(tǒng)I還包括輸入模塊11和輸出模塊13。輸入模塊11被連接到文本輸入15。文本輸入15接收文本。文本輸入15可以例如為鍵盤??蛇x地,文本輸入15可以為用于從外部存儲(chǔ)介質(zhì)或網(wǎng)絡(luò)接收文本數(shù)據(jù)的裝置。
[0056]音頻的輸出17連接到輸出模塊13。音頻輸出17用于輸出從輸入到文本輸入15中的文本轉(zhuǎn)換的語音信號(hào)。音頻輸出17可以例如為直接音頻輸出,例如揚(yáng)聲器,或者是可以被發(fā)送到存儲(chǔ)介質(zhì)、網(wǎng)絡(luò)等的音頻數(shù)據(jù)文件輸出。
[0057]在使用中,文語轉(zhuǎn)換系統(tǒng)I通過文本輸入15接收文本。在處理器3上執(zhí)行的程序5利用存儲(chǔ)在存儲(chǔ)裝置7中的數(shù)據(jù)將文本轉(zhuǎn)換為語音數(shù)據(jù)。語音經(jīng)輸出模塊13被輸出到音頻輸出17。
[0058]現(xiàn)在將參考圖2描述簡化的過程。在第一步驟,S101,輸入文本??赏ㄟ^鍵盤、觸摸屏、文本預(yù)測器等輸入文本。然后將該文本轉(zhuǎn)換為聲單元序列。這些聲單元可以為音素或字素。這些單元可以是情境相關(guān)的,例如三音素,其不僅考慮已經(jīng)選擇的音素,還考慮之前和之后的音素。利用現(xiàn)有技術(shù)中熟知的技術(shù)(下文將不再對(duì)其進(jìn)行說明)將所述文本轉(zhuǎn)換為聲單元序列。
[0059]在步驟S105,查找用于將聲單元與語音參數(shù)相關(guān)聯(lián)的概率分布。在該實(shí)施例中,概率分布為通過均值和方差定義的高斯分布。不過可以使用其它分布,諸如Poisson、Student-t、Laplacian或Gamma分布,其中的一些通過除均值和方差之外的變量定義。
[0060]不可能每個(gè)聲單元都具有與語音矢量或“觀察值”的確定一對(duì)一關(guān)系,以使用本領(lǐng)域的術(shù)語。很多聲單元發(fā)聲方式類似,受到周圍聲單元、其在單詞或語句中的位置的影響,或者通過不同的發(fā)聲者或表達(dá)而被不同地發(fā)聲。從而,每個(gè)聲單元僅具有與語音矢量相關(guān)聯(lián)的概率,文語轉(zhuǎn)換系統(tǒng)計(jì)算多個(gè)概率并在給定聲單元序列下選擇最可能的觀察值序列。
[0061]圖3中示出高斯分布??梢詫D3看作聲單元與語音矢量相關(guān)聯(lián)的概率分布。例如,示出為X的語音矢量具有對(duì)應(yīng)于音素或其它聲單元的概率P1,其具有圖3所示的分布。
[0062]高斯分布的形狀和位置通過其均值和方差定義。這些參數(shù)在系統(tǒng)訓(xùn)練期間確定。
[0063]然后在步驟S107在聲學(xué)模型中使用這些參數(shù)。在該說明書中,聲學(xué)模型為隱藏Markov模型(Hidden Markov Model) (HMM)。然而,還可以使用其它模型。
[0064]語音系統(tǒng)的文本將存儲(chǔ)用于將聲單元(即音素、字素、單詞或其部分)與語音參數(shù)相關(guān)聯(lián)的多個(gè)概率密度函數(shù)。由于通常使用高斯分布,其通常被稱為高斯分布或分量。
[0065]在Hidden Markov Model或其它類型的聲學(xué)模型中,必須考慮與特定聲單元相關(guān)聯(lián)的全部潛在語音矢量的概率。然后,考慮與聲單元序列最有可能對(duì)應(yīng)的語音矢量序列。這意味著通過考慮兩個(gè)單元相互影響的方式在整個(gè)聲單元序列上進(jìn)行整體優(yōu)化。從而,當(dāng)考慮聲單元序列時(shí),用于特定聲單元的最可能的語音矢量可能不是最佳語音矢量。
[0066]一旦確定語音矢量序列,在步驟S109輸出語音。
[0067]圖4為根據(jù)實(shí)施例的文語轉(zhuǎn)換系統(tǒng)的示意圖。
[0068]在文本輸入201處輸入文本。然后,在部分203,從輸入文本提取表達(dá)特征。例如,文本的人類閱讀者將從文本自身獲知是否應(yīng)該以焦急的聲音、快樂的聲音等閱讀文本。所述系統(tǒng)在不要求人交互以指示應(yīng)如何輸出文本的情況下從文本自身也導(dǎo)出該信息。
[0069]下文將更詳細(xì)描述如何自動(dòng)采集該信息。然而,輸出為位于第一多維空間中的具有數(shù)值的特征矢量。該輸出然后被映射到第二連續(xù)多維表達(dá)合成空間205。可以直接使用第二連續(xù)多維空間中的值以在合成器207中修改聲學(xué)模型。合成器207還接收文本作為輸入。
[0070]在根據(jù)實(shí)施例的方法中,將表達(dá)TTS視為將文本數(shù)據(jù)映射到多維連續(xù)空間中的點(diǎn)的過程。在該多維連續(xù)空間中,每個(gè)點(diǎn)表示直接與合成處理相關(guān)聯(lián)的特定表達(dá)信息。
[0071]多維連續(xù)空間包含無限數(shù)目的點(diǎn);從而提出的方法潛在地可以處理無限數(shù)目的不同類型的情緒,并以更加豐富的表達(dá)信息合成語音。
[0072]首先,將描述根據(jù)實(shí)施例對(duì)方法和系統(tǒng)的訓(xùn)練。
[0073]將參考圖5描述所述訓(xùn)練。訓(xùn)練數(shù)據(jù)251提供有文本和對(duì)應(yīng)于該文本輸入的語音。
[0074]假設(shè)訓(xùn)練數(shù)據(jù)251中的每個(gè)發(fā)聲包含唯一的表達(dá)信息。該唯一的表達(dá)信息可以從語音數(shù)據(jù)中確定,并且可以從語音的標(biāo)音(transcription)(即,也為文本數(shù)據(jù))讀取。在訓(xùn)練數(shù)據(jù)中,如圖5所示同步化語音語句和文本語句。
[0075]提供“表達(dá)語言特征提取”塊253,其將訓(xùn)練數(shù)據(jù)中的每個(gè)文本語句轉(zhuǎn)換為將稱為
表達(dá)語言特征矢量的矢量。
[0076]可以通過表達(dá)語言特征提取塊253將任何文本語句轉(zhuǎn)換為語言特征,并且全部可能的表達(dá)語言特征構(gòu)成將稱為表達(dá)語言空間的第一空間255。訓(xùn)練語句的每個(gè)標(biāo)音可視為該表達(dá)語言空間中的點(diǎn)。表達(dá)語言特征矢量應(yīng)捕捉文本語句中的情緒信息。
[0077]在訓(xùn)練期間,除了從文本提取表達(dá)語言特征,還提供“表達(dá)合成特征提取”塊257,其將每個(gè)語音語句轉(zhuǎn)換為將稱為表達(dá)合成特征矢量的矢量。
[0078]通過“表達(dá)合成特征提取”塊257可將任何語音語句轉(zhuǎn)換為表達(dá)合成特征,并且全部可能的表達(dá)合成特征構(gòu)成表達(dá)合成空間259。對(duì)該表達(dá)合成特征的要求為,其應(yīng)捕捉原始語音語句的唯一表達(dá)信息;同時(shí),該表達(dá)信息可以在合成過程中再生成。
[0079]給定來自訓(xùn)練數(shù)據(jù)的標(biāo)音的語言特征和來自訓(xùn)練語音語句的合成特征,根據(jù)實(shí)施例的方法和系統(tǒng)訓(xùn)練轉(zhuǎn)換塊261以將語言特征空間255中的語言特征矢量轉(zhuǎn)換為合成特征空間259中的合成特征矢量。
[0080]在合成階段,“表達(dá)語言特征提取”塊253將有待合成的文本轉(zhuǎn)換為語言特征空間255中的語言特征矢量,然后通過轉(zhuǎn)換塊261,將語言特征映射到表達(dá)合成空間259中的合成特征。該合成特征矢量包含原始文本數(shù)據(jù)中的情緒信息,并且可以由合成器207 (圖4)直接使用,以合成表達(dá)語音。
[0081]在一實(shí)施例中,使用機(jī)器學(xué)習(xí)方法,例如神經(jīng)網(wǎng)絡(luò)(NN),來提供變換塊261,并訓(xùn)練從表達(dá)語言空間255到表達(dá)合成空間259的轉(zhuǎn)換。對(duì)于訓(xùn)練數(shù)據(jù)251中的每個(gè)語句,使用語音數(shù)據(jù)以生成合成特征空間259中的表達(dá)合成特征矢量,并且使用語音數(shù)據(jù)的標(biāo)音以生成語言特征空間255中的表達(dá)語言特征。使用訓(xùn)練數(shù)據(jù)的語言特征作為NN的輸入,并使用訓(xùn)練數(shù)據(jù)的合成特征作為目標(biāo)輸出,可以更新NN的參數(shù)以學(xué)習(xí)從語言特征空間到合成特征空間的映射。
[0082]“語言特征提取”±夾253將文本數(shù)據(jù)轉(zhuǎn)換為語言特征矢量。該特征矢量應(yīng)包含差別信息,即,如果兩個(gè)文本數(shù)據(jù)包含不同情緒,其語言特征在語言特征空間中應(yīng)是可區(qū)分的。
[0083]在一個(gè)實(shí)施例中,使用單詞包(BoW)技術(shù)以生成語言特征。BoW方法將文本數(shù)據(jù)表示為單詞頻率的矢量。矢量的維度等于詞匯表的大小,每個(gè)元素包含詞匯表中特定單詞的頻率??梢詰?yīng)用不同的成熟開發(fā)的BoW技術(shù),例如潛在語義分析(LSA)、概率潛在語義分析(pLSA)、潛在Dirichlet分配(LDA)等。通過這些技術(shù),可以在非常低的維度中壓縮維度等于詞匯表大小的原始單詞頻率矢量。
[0084]在另一個(gè)實(shí)施例中,為了更精確地在文本數(shù)據(jù)中建模情緒信息,使用來自文本數(shù)據(jù)的不同級(jí)別的知識(shí)以生成語言特征。
[0085]在一個(gè)實(shí)施例中,不僅使用單詞級(jí)別信息,還使用更低級(jí)別信息(諸如全情境音素序列)和更高級(jí)別信息(諸如部分語音(P0S)、敘述風(fēng)格)以生成語言特征。
[0086]為了將來自不同級(jí)別的信息組合到一起,在一個(gè)實(shí)施例中,如圖6所示使用并行結(jié)構(gòu)。在并行結(jié)構(gòu)中,分離地提取不同級(jí)別的特征,然后將不同級(jí)別的特征連接成一個(gè)大矢量,以作為轉(zhuǎn)換塊的輸入。
[0087]圖6示出可用于根據(jù)實(shí)施例的系統(tǒng)中的用于提取語言特征的并行結(jié)構(gòu)。在步驟S301中將文本數(shù)據(jù)轉(zhuǎn)換為單詞頻率矢量。然后,在步驟S305使用將單詞作為單元的LDA模型303以將單詞頻率矢量轉(zhuǎn)換為單詞級(jí)別特征矢量。在步驟S305,通過推斷過程估計(jì)變分后狄利克雷參數(shù)。
[0088]同時(shí),在步驟S307將文本數(shù)據(jù)轉(zhuǎn)換為全情境音素的序列。在S311利用將全情境音素作為單元的LDA模型309將該全情境音素序列轉(zhuǎn)換為全情境音素級(jí)別特征矢量。
[0089]然后,在S313中將單詞級(jí)別特征矢量和全情境音素級(jí)別特征矢量連接為語言特征以形成語言特征矢量。
[0090]圖6用于示出如何提取語言特征的實(shí)例。在另一個(gè)實(shí)施例中,可以將更高級(jí)別知識(shí),諸如P0S、敘事風(fēng)格以及來自文本數(shù)據(jù)的任何其它有用信息集成到語言特征中。[0091]另外,還可以使用除LDA以外的BoW方法來提取語言特征。
[0092]還可以利用分級(jí)結(jié)構(gòu)組合從不同信息級(jí)別確定的語言特征。在這樣的分級(jí)結(jié)構(gòu)的一個(gè)實(shí)施例中,如圖?所示,將具有不同知識(shí)級(jí)別的語言特征組合到具有NN的級(jí)連的系統(tǒng)中。
[0093]在圖11中,語言特征I和語言特征2表示從不同知識(shí)級(jí)別確定的語言特征,例如,單詞級(jí)別特征、全情境音素級(jí)別特征等。
[0094]特征I用作NNl的輸入351。然后,將NNl的輸出353與作為NN2的輸入355的特征2組合以在輸出357生成聲特征。
[0095]返回到圖5,使用表達(dá)合成特征提取塊257以表示語音數(shù)據(jù)的表達(dá)信息。表達(dá)合成特征空間259中的每個(gè)點(diǎn)表示語音中的唯一表達(dá)信息。
[0096]在根據(jù)實(shí)施例的方法和系統(tǒng)中,表達(dá)合成特征滿足兩個(gè)要求:
[0097]要求1-給定語音數(shù)據(jù),相關(guān)聯(lián)的合成特征必須獲取該語音數(shù)據(jù)的表達(dá)信息。
[0098]要求2-必須在合成階段使用在表達(dá)合成特征中記錄的表達(dá)信息,以生成具有相同表達(dá)性的語音,即,合成特征確定合成參數(shù)。
[0099]可以構(gòu)建與合成參數(shù)相關(guān)聯(lián)的基。然后,可以將用于每個(gè)特定表達(dá)性程度的合成參數(shù)投影到該基上。這通過其在該投影中的坐標(biāo)定義了表達(dá)合成參數(shù)的表示。
[0100]在一個(gè)實(shí)施例中,使用群集適應(yīng)性訓(xùn)練(CAT)。這里,將群集HMM模型定義為基,并且將與表達(dá)性相關(guān)的HMM參數(shù)投影到該基上(請(qǐng)參考附錄)。
[0101]這使得可以將與表達(dá)性相關(guān)的HMM參數(shù)表示為對(duì)群集模型的線性內(nèi)插,并且使用每個(gè)群集HMM模型的內(nèi)插權(quán)重來表不表達(dá)信息。
[0102]如圖8所示,CAT模型包含偏置群集HMM模型和P_1非偏置群集HMM模型。對(duì)于特定高斯分量,假設(shè)方差和在先值(prior)在全部群集中相同,而通過對(duì)全部群集均值的線性內(nèi)插確定均值參數(shù)。
[0103]給定觀察矢量,分量m的概率密度函數(shù)可以表示為:
[0104]
【權(quán)利要求】
1.一種文語轉(zhuǎn)換方法,該方法包括: 接收輸入文本; 將所述輸入文本分割為聲單元序列; 利用聲學(xué)模型將所述聲單元序列轉(zhuǎn)換為語音矢量序列,其中所述模型具有多個(gè)模型參數(shù),所述模型參數(shù)描述將聲單元與語音矢量相關(guān)聯(lián)的概率分布;以及將所述語音矢量序列輸出為音頻, 該方法還包括通過如下步驟確定至少部分所述模型參數(shù): 從所述輸入文本提取表達(dá)特征以形成在第一空間中構(gòu)建的表達(dá)語言特征矢量;以及 將所述表達(dá)語言特征矢量映射到在第二空間中構(gòu)建的表達(dá)合成特征矢量。
2.根據(jù)權(quán)利要求1所述的方法,其中將所述表達(dá)語言特征矢量映射到表達(dá)合成特征矢量包括使用機(jī)器學(xué)習(xí)算法。
3.根據(jù)權(quán)利要求1所述的方法,其中所述第二空間為多維連續(xù)空間。
4.根據(jù)權(quán)利要求1所述的方法,其中從所述輸入文本提取表達(dá)特征包括多個(gè)提取過程,所述多個(gè)提取過程在所述文本的不同信息級(jí)別執(zhí)行。
5.根據(jù)權(quán)利要求4所述的方法,其中所述不同信息級(jí)別選自:基于單詞的語言特征提取級(jí)別以生成基于單詞的語言特征矢量、基于全情境音素的語言特征提取級(jí)別以生成基于全情境音素的語言特征、基于部分語音(POS)的語言特征提取級(jí)別以生成基于POS的特征、以及基于敘事風(fēng)格的語言特征提取級(jí)別以生成敘事風(fēng)格信息。
6.根據(jù)權(quán)利要求4所述的·方法,多個(gè)提取過程中的每個(gè)生成特征矢量,該方法還包括連接從不同信息級(jí)別生成的語言特征矢量,以生成與第二空間映射的語言特征矢量。
7.根據(jù)權(quán)利要求4所述的方法,其中,將表達(dá)語言特征矢量映射到表達(dá)合成特征矢量包括對(duì)應(yīng)于不同信息級(jí)別的每個(gè)的多個(gè)分級(jí)階段。
8.根據(jù)權(quán)利要求1所述的方法,其中所述映射使用全情境信息。
9.根據(jù)權(quán)利要求1所述的方法,其中所述聲學(xué)模型從輸入文本接收全情境信息,并且將該信息與從聲學(xué)模型中的表達(dá)合成特征矢量導(dǎo)出的模型參數(shù)組合。
10.根據(jù)權(quán)利要求1所述的方法,其中所述聲學(xué)模型的模型參數(shù)被表示為相同類型的模型參數(shù)的加權(quán)和,并且在第二空間中表示所述權(quán)重。
11.根據(jù)權(quán)利要求10所述的方法,其中被表示為相同類型的模型參數(shù)的加權(quán)和的所述模型參數(shù)為高斯均值。
12.根據(jù)權(quán)利要求10所述的方法,其中將相同類型的參數(shù)聚為群集,并且所述合成特征矢量包括用于每個(gè)群集的權(quán)重。
13.根據(jù)權(quán)利要求12所述的方法,其中每個(gè)群集包括至少一個(gè)決策樹,所述決策樹基于與語言、語音或韻律差異中的至少一個(gè)相關(guān)聯(lián)的問題。
14.根據(jù)權(quán)利要求13所述的方法,其中群集的決策樹之間存在結(jié)構(gòu)上的差異。
15.一種訓(xùn)練文語轉(zhuǎn)換系統(tǒng)的方法,該方法包括: 接收訓(xùn)練數(shù)據(jù),所述訓(xùn)練數(shù)據(jù)包括文本數(shù)據(jù)和對(duì)應(yīng)于所述文本數(shù)據(jù)的語音數(shù)據(jù); 從所述輸入文本提取表達(dá)特征以形成在第一空間中構(gòu)建的表達(dá)語言特征矢量; 從所述語音數(shù)據(jù)提取表達(dá)特征并形成在第二空間中構(gòu)建的表達(dá)特征合成矢量; 訓(xùn)練機(jī)器學(xué)習(xí)算法,該機(jī)器學(xué)習(xí)算法的訓(xùn)練輸入為表達(dá)語言特征矢量,并且其訓(xùn)練輸出為對(duì)應(yīng)于訓(xùn)練輸入的表達(dá)特征合成矢量。
16.根據(jù)權(quán)利要求15的方法,還包括將表達(dá)合成特征矢量輸出到語音合成器,所述語音合成器包括聲學(xué)模型,其中所述模型具有多個(gè)模型參數(shù),所述模型參數(shù)描述將聲單元與語音矢量相關(guān)聯(lián)的概率分布。
17.根據(jù)權(quán)利要求16所述的方法,其中聯(lián)合訓(xùn)練聲學(xué)模型的參數(shù)和機(jī)器學(xué)習(xí)算法。
18.根據(jù)權(quán)利要求16所述的方法,其中所述聲學(xué)模型的模型參數(shù)被表不為相同類型的模型參數(shù)的加權(quán)和,權(quán)重在第二空間中表示,并且其中聯(lián)合訓(xùn)練在第二空間中表示的權(quán)重和機(jī)器學(xué)習(xí)算法。
19.一種文語轉(zhuǎn)換設(shè)備,該設(shè)備包括: 接收器,用于接收輸入文本; 處理器,適于: 將所述輸入文本分割為聲單元序列;以及 利 用聲學(xué)模型將所述聲單元序列轉(zhuǎn)換為語音矢量序列,其中所述模型具有多個(gè)模型參數(shù),所述模型參數(shù)描述將聲單元與語音矢量相關(guān)聯(lián)的概率分布;以及音頻輸出,其適于將所述語音矢量序列輸出為音頻, 所述處理器還適于通過如下步驟確定至少部分所述模型參數(shù): 從所述輸入文本提取表達(dá)特征以形成在第一空間中構(gòu)建的表達(dá)語言特征矢量;以及 將所述表達(dá)語言特征矢量映射到在第二空間中構(gòu)建的表達(dá)合成特征矢量。
【文檔編號(hào)】G10L13/08GK103578462SQ201310301682
【公開日】2014年2月12日 申請(qǐng)日期:2013年7月18日 優(yōu)先權(quán)日:2012年7月18日
【發(fā)明者】赤嶺政巳, 陳浪舟, M·J·F·蓋爾斯, K·M·尼爾 申請(qǐng)人:株式會(huì)社 東芝