專利名稱:訓(xùn)練時長預(yù)測模型、時長預(yù)測和語音合成的方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息處理技術(shù),具體地,涉及利用計算機進行數(shù)據(jù)驅(qū)動的時長預(yù)測模型的訓(xùn)練和時長預(yù)測的技術(shù),以及語音合成技術(shù)。
背景技術(shù):
時長預(yù)測是通過句子中詞語對應(yīng)的語言和語音屬性,預(yù)測出相應(yīng)語音單元的合理的時間長度?,F(xiàn)有傳統(tǒng)的方法主要包括積和模型(Sum ofProducts,SOP),分類與回歸樹(Classify and Regression Tree,CART)和人工神經(jīng)網(wǎng)(Artificial Neural Networks,ANN)。
關(guān)于積和模型(SOP),例如,在S.H.Chen,S.H.Hwang等人著的文章“An ANN-based prosodic information synthesizer for Mandarintext-to-speech”(發(fā)表于IEEE trans.Speech Audio Processing,Vol.6,No.3,pp226-239,1998)以及Sun Lu,Yu Hu,Reh-Hua Wang著的文章“Polynomial regression model for duration prediction in Mandarin”(發(fā)表于INTERSPEECH-2004,pp769-77)中進行了詳細的描述。
關(guān)于分類與回歸樹(CART),例如,在Chung,H.and Huckvale,M.A.著的文章“Linguistic factors affecting timing in Korean withapplication to speech synthesis”(發(fā)表于In Proceedings of Eurospeech2001,Aalborg,vol.2,pp.815-819)中進行了詳細的描述。
關(guān)于人工神經(jīng)網(wǎng)(ANN),例如,在Venditti,Jennifer J.,Santen,JanP.H.van,著的文章“Modeling final duration for Japanese text-to-speechsynthesis”(發(fā)表于ICSLP-1998,pp.786-789)中進行了詳細的描述。以上文獻的全部內(nèi)容以引用方式包含于此,以供參考。
但是,傳統(tǒng)的方法存在以下缺點1)數(shù)據(jù)稀疏和屬性協(xié)同作用這兩個主要問題困擾著傳統(tǒng)的方法。這主要是由于模型復(fù)雜度和訓(xùn)練數(shù)據(jù)樣本之間的不平衡導(dǎo)致的。傳統(tǒng)模型的系數(shù)能通過數(shù)據(jù)驅(qū)動方法計算得到,但是模型的屬性和屬性組合卻是用手工的方法設(shè)置的。那么,這種“部分的”數(shù)據(jù)驅(qū)動的方法一定程度上就依賴于人的經(jīng)驗。
2)語速沒有被當(dāng)作屬性參與時長建模,但是韻律研究表明,時長明顯地受語速的影響。這樣,當(dāng)用戶需要調(diào)節(jié)語速時,只能別無選擇地對整段語音的進行線性的縮放。而實際上,語速和其他屬性之間對時長影響的關(guān)系大不相同,線性的縮放的方法并不夠合理。
發(fā)明內(nèi)容
為了解決上述現(xiàn)有技術(shù)中存在的問題,本發(fā)明提供了數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的方法和裝置、時長預(yù)測方法和裝置以及語音合成方法和裝置。
根據(jù)本發(fā)明的一個方面,提供了一種數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的方法,包括利用與時長預(yù)測相關(guān)的多個屬性和至少一部分上述屬性的組合生成初始時長預(yù)測模型,其中每個上述屬性或上述屬性的組合被作為一項;計算上述時長預(yù)測模型中每一上述項的重要性;刪除上述計算出的重要性最低的項;利用剩余的項重新生成時長預(yù)測模型;判斷上述重新生成的時長預(yù)測模型是否最優(yōu);以及如果上述時長預(yù)測模型被判斷為不是最優(yōu),則重復(fù)上述計算每一項的重要性的步驟及其之后的步驟。
根據(jù)本發(fā)明的另一個方面,提供了一種時長預(yù)測方法,包括利用上述的數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的方法,訓(xùn)練時長預(yù)測模型;獲得相應(yīng)的上述與時長預(yù)測相關(guān)的多個屬性;以及根據(jù)上述訓(xùn)練的時長預(yù)測模型,計算時長。
根據(jù)本發(fā)明的另一個方面,提供了一種語音合成方法,包括利用上述的時長預(yù)測方法,預(yù)測時長;以及根據(jù)上述預(yù)測的時長,進行語音合成。
根據(jù)本發(fā)明的另一個方面,提供了一種數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的裝置,包括初始模型生成單元(initial model generator),其利用與時長預(yù)測相關(guān)的多個屬性和至少一部分上述屬性的組合生成初始時長預(yù)測模型,其中每個上述屬性或上述屬性的組合被作為一項;重要性計算單元(importance calculator),其計算上述時長預(yù)測模型中每一上述項的重要性;項刪除單元(item deleting unit),用于刪除上述計算出的重要性最低的項;模型再生成單元(model re-generator),其利用由上述項刪除單元刪除后剩余的項重新生成時長預(yù)測模型;以及優(yōu)化判斷單元(optimizationdetermining unit),其判斷由上述模型再生成單元重新生成的時長預(yù)測模型是否最優(yōu)。
根據(jù)本發(fā)明的另一個方面,提供了一種時長預(yù)測裝置,包括利用上述的數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的方法訓(xùn)練得到的時長預(yù)測模型;屬性獲得單元(attribute obtaining unit),用于獲得相應(yīng)的上述與時長預(yù)測相關(guān)的多個屬性;以及時長計算單元(duration calculator),其根據(jù)上述時長預(yù)測模型,計算時長。
根據(jù)本發(fā)明的另一個方面,提供了一種語音合成裝置,包括上述的時長預(yù)測裝置;并且根據(jù)由上述時長預(yù)測裝置預(yù)測的時長,進行語音合成。
相信通過以下結(jié)合附圖對本發(fā)明具體實施方式
的說明,能夠使人們更好地了解本發(fā)明上述的特點、優(yōu)點和目的。
圖1是根據(jù)本發(fā)明一個實施例的數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的方法的流程圖;圖2是根據(jù)本發(fā)明一個實施例的時長預(yù)測方法的流程圖;圖3是根據(jù)本發(fā)明一個實施例的語音合成方法的流程圖;圖4是根據(jù)本發(fā)明一個實施例的數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的裝置的方框圖;圖5是根據(jù)本發(fā)明一個實施例的時長預(yù)測裝置的方框圖;以及圖6是根據(jù)本發(fā)明一個實施例的語音合成裝置的方框圖。
具體實施例方式
為了便于后面實施例的理解,首先簡要介紹一下GLM(GeneralizedLinear Model,廣義線性模型)模型和BIC(Bayes Information Criterion,貝葉斯信息準(zhǔn)則)的原理。GLM是對多元線性回歸模型的一種擴展,SOP則是GLM的一個特例。GLM時長模型通過語音單元s的屬性A,預(yù)測出時長 ,相應(yīng)的定義如公式(1)。
di=di^+ei=h-1(β0+Σj=1pβjfj(A))+ei---(1)]]>其中,h表示鏈接函數(shù)。一般地,可以假定d滿足指數(shù)族分布。為了使d滿足不同的指數(shù)族分布,只需要設(shè)定相應(yīng)的鏈接函數(shù)。本實施例的GLM模型假定時長服從高斯分布。GLM既能作線性建模,也能作非線性建模。
比較模型的性能需要有判別標(biāo)準(zhǔn)。越簡單的模型對集外數(shù)據(jù)預(yù)測的穩(wěn)定性越高,而越復(fù)雜的模型對集內(nèi)數(shù)據(jù)的擬合程度越高。BIC是一種常見的評價標(biāo)準(zhǔn),它綜合了以上對擬合精度和模型可靠性的度量,定義如式(2)。
BIC=Nlog(SSE/N)+plogN(2)其中,SSE表示預(yù)測誤差e的平方和。式(2)的第一項表示模型的擬合精度,第二項表示對模型復(fù)雜度的懲罰。當(dāng)訓(xùn)練樣本N一定時,越復(fù)雜的模型的參數(shù)個數(shù)p越大,對訓(xùn)練數(shù)據(jù)就擬合得越好,相應(yīng)的SSE就越小,第一項就越小,而第二項就增大。反之亦然。公式中一項的減小總是導(dǎo)致另一項的增大,當(dāng)兩項和最小時,表示模型“最優(yōu)”。BIC能在模型復(fù)雜度和數(shù)據(jù)規(guī)模之間取得一個不錯的平衡,這有助于解決屬性稀疏和屬性協(xié)同作用的問題。
下面就結(jié)合附圖對本發(fā)明的各個優(yōu)選實施例進行詳細的說明。
圖1是根據(jù)本發(fā)明一個實施例的數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的方法的流程圖。利用本實施例的方法訓(xùn)練的時長預(yù)測模型將被用于后面結(jié)合其它實施例描述的時長預(yù)測方法和語音合成方法及裝置。
如圖1所示,首先在步驟101,生成初始時長預(yù)測模型。具體地,利用與時長預(yù)測相關(guān)的多個屬性和這些屬性的組合生成初始時長預(yù)測模型。如前面所述,與時長預(yù)測相關(guān)的屬性可以包括許多,大致可分為語言類型的屬性和語音類型的屬性,下面的表1示例性地列舉了一些可以作為時長預(yù)測相關(guān)屬性的屬性。
表1與時長預(yù)測相關(guān)的屬性
在本實施例中,采用GLM模型來表示這些屬性和屬性組合。為了便于說明,假定與時長預(yù)測相關(guān)的屬性只有phone(音子)和tone(聲調(diào))。初始時長預(yù)測模型的形式如下duration~phone+tone+tone*phone,其中,tone*phone表示tone和phone的組合,是一個2階項。
可以理解,當(dāng)屬性的數(shù)量增加時,作為屬性組合可以出現(xiàn)多個2階項、3階項等等。
另外,在本實施例中,在生成初始時長預(yù)測模型時,可以只取其中一部分的屬性組合,例如只取到全部的2階項;當(dāng)然,也可以取到3階項或?qū)⑷康膶傩越M合加入到初始時長預(yù)測模型中。
總之,在初始時長預(yù)測模型中包括全部的單獨屬性(1階項)和至少一部分的屬性組合(2階項或多階項)。這樣,初始時長預(yù)測模型可以利用很簡單的規(guī)則來自動生成,而不是如現(xiàn)有技術(shù)那樣,根據(jù)經(jīng)驗手工設(shè)定。
接著,在步驟105,利用F檢驗(F-test)計算每一項的重要性。關(guān)于F檢驗,作為一種已知的標(biāo)準(zhǔn)統(tǒng)計方法,在盛驟,謝式千,潘乘毅編的《概率論與數(shù)理統(tǒng)計》(2000第二版,高等教育出版社)中已經(jīng)有詳細的說明,在此不再重復(fù)。
應(yīng)當(dāng)指出,雖然在本實施中使用的是F檢驗,但是,其它的統(tǒng)計方法也可以使用,例如,Chisq-test等等。
接著,在步驟110,從初始時長預(yù)測模型中刪除F檢驗得分最低的項。然后,在步驟115,利用剩余的項,重新生成時長預(yù)測模型。
接著,在步驟120,計算重新生成的時長預(yù)測模型的BIC值,利用前面所述的方法判斷該模型是否為最優(yōu)。如果步驟120的判斷為“是”,則將該新生成的時長預(yù)測模型作為最佳模型,并在步驟125結(jié)束。
如果步驟120的判斷為“否”,則返回到步驟105,再次計算該重新生成的模型的每一項的重要性,刪除不重要的項(步驟110),重新生成模型(步驟115),直到獲得最佳模型。
通過以上的說明可知,本實施例利用了廣義線性模型(GLM)的時長建模方法和基于F檢驗(F-test)和貝葉斯信息準(zhǔn)則(BIC)的逐步回歸(stepwise regression)的方法進行屬性選擇。由于本實施例的GLM模型結(jié)構(gòu)靈活,容易實現(xiàn)對訓(xùn)練數(shù)據(jù)的自適應(yīng),從而解決了數(shù)據(jù)稀疏問題。進而,通過逐步回歸的方法能夠自動地選出重要屬性協(xié)同作用項。
另外,根據(jù)本發(fā)明的一個優(yōu)選實施例訓(xùn)練時長預(yù)測模型的方法,語速(speaking rate)也被作為與時長預(yù)測相關(guān)的多個屬性之一。由于將語速引入到時長預(yù)測的建模中,這給語音合成的語速調(diào)整提供了一種新的途徑。在語音合成系統(tǒng)輸出語音之前,用戶或應(yīng)用可以設(shè)定語速;數(shù)據(jù)庫中的語速也是確定的。因此,對時長預(yù)測模型的訓(xùn)練和測試,語速都是已知的。時長預(yù)測模型的屬性集合不僅可以引入語速本身,還能夠引入與語速相互作用的協(xié)同項,提高時長預(yù)測的精度。在語音合成過程中,基于語速的時長預(yù)測還可以改善簡單的均勻縮放的語速調(diào)整方法。已有研究表明,語速的變化引起的不同音素的時長變化并不均勻,這也說明語速與其他屬性的確存在相對時長的協(xié)同作用引入。
在同一發(fā)明構(gòu)思下,圖2是根據(jù)本發(fā)明一個實施例的時長預(yù)測方法的流程圖。下面就結(jié)合該圖,對本實施例進行描述。對于那些與前面實施例相同的部分,適當(dāng)省略其說明。
如圖2所示,首先在步驟201,利用前面實施例描述的數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的方法,訓(xùn)練時長預(yù)測模型。
接著,在步驟205,獲得相應(yīng)的上述與時長預(yù)測相關(guān)的多個屬性。具體地,例如,從輸入的文本中可以直接獲得,或者經(jīng)過語法分析、句法分析等獲得。需要指出,本實施例可以采用任何已知的和未來的方法來獲得這些相應(yīng)的屬性,而并不限于某種特定的方式,并且獲得方式還與屬性的選擇相對應(yīng)。
最后,在步驟210,根據(jù)上述訓(xùn)練的時長預(yù)測模型和獲得的上述屬性,計算時長。
通過以上的說明可知,由于本實施的時長預(yù)測方法采用了前面實施例的訓(xùn)練時長預(yù)測模型的方法訓(xùn)練的模型來進行時長預(yù)測,所以,容易實現(xiàn)對訓(xùn)練數(shù)據(jù)的自適應(yīng),解決了數(shù)據(jù)稀疏問題,并且能夠自動地選出重要屬性協(xié)同作用項。因此,本實施例的時長預(yù)測方法可以更準(zhǔn)確并且自動地預(yù)測時長。
另外,根據(jù)本發(fā)明的一個優(yōu)選實施例的時長預(yù)測方法,語速(speakingrate)也被作為與時長預(yù)測相關(guān)的多個屬性之一。這樣,通過將語速引入到時長預(yù)測的建模中,時長預(yù)測模型的屬性集合不僅可以引入語速本身,還能夠引入與語速相互作用的協(xié)同項,從而進一步提高了時長預(yù)測的精度。
在同一發(fā)明構(gòu)思下,圖3是根據(jù)本發(fā)明一個實施例的語音合成方法的流程圖。下面就結(jié)合該圖,對本實施例進行描述。對于那些與前面實施例相同的部分,適當(dāng)省略其說明。
如圖2所示,首先在步驟201,利用前面實施例描述的時長預(yù)測方法,預(yù)測時長。
接著,在步驟205,根據(jù)上述預(yù)測的時長,進行語音合成。
通過以上的說明可知,由于本實施的語音合成方法采用了前面實施例的時長預(yù)測方法來預(yù)測時長,進而根據(jù)預(yù)測的結(jié)構(gòu)進行語音合成,所以,容易實現(xiàn)對訓(xùn)練數(shù)據(jù)的自適應(yīng),解決了數(shù)據(jù)稀疏問題,并且能夠自動地選出重要屬性協(xié)同作用項。因此,本實施例的語音合成方法可以更準(zhǔn)確并且自動地進行語音合成,生成的語音更合理、易懂。
另外,根據(jù)本發(fā)明的一個優(yōu)選實施例的語音合成方法,語速(speakingrate)也被作為與時長預(yù)測相關(guān)的多個屬性之一。由于將語速引入到時長預(yù)測的建模中,這給語音合成的語速調(diào)整提供了一種新的途徑。在語音合成系統(tǒng)輸出語音之前,用戶或應(yīng)用可以設(shè)定語速;數(shù)據(jù)庫中的語速也是確定的。因此,對時長預(yù)測模型的訓(xùn)練和測試,語速都是已知的。時長預(yù)測模型的屬性集合不僅可以引入語速本身,還能夠引入與語速相互作用的協(xié)同項,提高時長預(yù)測的精度。在語音合成過程中,基于語速的時長預(yù)測還可以改善簡單的均勻縮放的語速調(diào)整方法。已有研究表明,語速的變化引起的不同音素的時長變化并不均勻,這也說明語速與其他屬性的確存在相對時長的協(xié)同作用引入。
在同一發(fā)明構(gòu)思下,圖4是根據(jù)本發(fā)明一個實施例的數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的裝置的方框圖。下面就結(jié)合該圖,對本實施例進行描述。對于那些與前面實施例相同的部分,適當(dāng)省略其說明。
如圖4所示,本實施例的數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的裝置400包括初始模型生成單元(initial model generator)401,其利用與時長預(yù)測相關(guān)的多個屬性和至少一部分上述屬性的組合生成初始時長預(yù)測模型,其中每個上述屬性或上述屬性的組合被作為一項;重要性計算單元(importancecalculator)402,其計算上述時長預(yù)測模型中每一上述項的重要性;項刪除單元(item deleting unit)403,用于刪除上述計算出的重要性最低的項;模型再生成單元(model re-generator)404,其利用由項刪除單元403刪除后剩余的項重新生成時長預(yù)測模型;以及優(yōu)化判斷單元(optimizationdetermining unit)405,其判斷由模型再生成單元404重新生成的時長預(yù)測模型是否最優(yōu)。
與前面描述的實施例相同,本實施例中與時長預(yù)測相關(guān)多個屬性包括語言類型和語音類型的屬性,例如,包括從前面表1中選擇的任意多個屬性。
其中,重要性計算單元402利用F檢驗(F-test)計算每一項的重要性。優(yōu)化判斷單元405利用貝葉斯信息準(zhǔn)則(BIC)判斷上述重新生成的時長預(yù)測模型是否最優(yōu)。
另外,根據(jù)本發(fā)明的一個優(yōu)選實施例,上述至少一部分上述屬性的組合包括上述多個與時長預(yù)測相關(guān)的屬性的全部2階的屬性組合。
另外,根據(jù)本發(fā)明的另一個優(yōu)選實施例,上述與時長預(yù)測相關(guān)多個屬性包括語速(speaking rate)。
在此,應(yīng)當(dāng)指出,本實施例中的數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的裝置400及其各個組成部分,可以用專用的電路或芯片構(gòu)成,也可以通過計算機(處理器)執(zhí)行相應(yīng)的程序來實現(xiàn)。并且,本實施例的數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的裝置400,操作上可以實現(xiàn)前面實施例的數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的方法。
在同一發(fā)明構(gòu)思下,圖5是根據(jù)本發(fā)明一個實施例的時長預(yù)測裝置的方框圖。下面就結(jié)合該圖,對本實施例進行描述。對于那些與前面實施例相同的部分,適當(dāng)省略其說明。
如圖5所示,本實施例的時長預(yù)測裝置500包括時長預(yù)測模型(duration predicting model)501,其是利用前面實施例描述的數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的方法訓(xùn)練得到的時長預(yù)測模型;屬性獲得單元(attribute obtaining unit)502,用于獲得相應(yīng)的與時長預(yù)測相關(guān)的多個屬性;以及時長計算單元(duration calculator)503,其根據(jù)上述時長預(yù)測模型501和由屬性獲得單元502獲得的與時長預(yù)測相關(guān)的屬性,計算時長。
在此,關(guān)于獲得屬性的方式,如前面實施例中所述,可以采用任何已知的和未來的方法來獲得這些相應(yīng)的屬性,而并不限于某種特定的方式,并且獲得方式還與屬性的選擇有關(guān)。例如,用于獲得音子(phone)和聲調(diào)(tone)屬性,可以從文本分析(分詞)之后的拼音獲得;用戶獲得語法類型的屬性,可以采用語法分析器或句法分析器等。
在同一發(fā)明構(gòu)思下,圖6是根據(jù)本發(fā)明一個實施例的語音合成裝置的方框圖。下面就結(jié)合該圖,對本實施例進行描述。對于那些與前面實施例相同的部分,適當(dāng)省略其說明。
如圖5所示,本實施例的語音合成裝置600包括時長預(yù)測裝置500,其可以使前面實施例中描述的時長預(yù)測裝置;以及語音合成器601,其可以使現(xiàn)有技術(shù)的語音合成器,并根據(jù)由上述時長預(yù)測裝置預(yù)測的時長,進行語音合成。
在此,應(yīng)當(dāng)指出,本實施例中的語音合成裝置600及其各個組成部分,可以用專用的電路或芯片構(gòu)成,也可以通過計算機(處理器)執(zhí)行相應(yīng)的程序來實現(xiàn)。并且,本實施例的語音合成裝置600,操作上可以實現(xiàn)前面實施例的語音合成方法。
以上雖然通過一些示例性的實施例對本發(fā)明的數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的方法和裝置、時長預(yù)測方法和裝置以及語音合成方法和裝置進行了詳細的描述,但是以上這些實施例并不是窮舉的,本領(lǐng)域技術(shù)人員可以在本發(fā)明的精神和范圍內(nèi)實現(xiàn)各種變化和修改。因此,本發(fā)明并不限于這些實施例,本發(fā)明的范圍僅由所附權(quán)利要求為準(zhǔn)。
權(quán)利要求
1.一種數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的方法,包括利用與時長預(yù)測相關(guān)的多個屬性和至少一部分上述屬性的組合生成初始時長預(yù)測模型,其中每個上述屬性或上述屬性的組合被作為一項;計算上述時長預(yù)測模型中每一上述項的重要性;刪除上述計算出的重要性最低的項;利用剩余的項重新生成時長預(yù)測模型;判斷上述重新生成的時長預(yù)測模型是否最優(yōu);以及如果上述時長預(yù)測模型被判斷為不是最優(yōu),則重復(fù)上述計算每一項的重要性的步驟及其之后的步驟。
2.根據(jù)權(quán)利要求1所述的數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的方法,其中,上述與時長預(yù)測相關(guān)多個屬性包括語言類型和語音類型的屬性。
3.根據(jù)權(quán)利要求1所述的數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的方法,其中,上述與時長預(yù)測相關(guān)多個屬性包括從當(dāng)前音素、音節(jié)中另一個音素、前一個音節(jié)相鄰的音素、后一個音節(jié)相鄰的音素、聲調(diào)、前音節(jié)的聲調(diào)、后音節(jié)的聲調(diào)、詞性、到下一個停頓的距離、到前一個停頓的距離、音節(jié)在語法詞中的位置、前后及當(dāng)前語法詞的長度、語法詞中音節(jié)的個數(shù)、音節(jié)在句子中的位置和句中語法詞的個數(shù)中選擇的任意多個屬性。
4.根據(jù)權(quán)利要求1所述的數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的方法,其中,上述時長預(yù)測模型是廣義線性模型(GLM)。
5.根據(jù)權(quán)利要求1所述的數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的方法,其中,上述至少一部分上述屬性的組合包括上述多個與時長預(yù)測相關(guān)的屬性的全部2階的屬性組合。
6.根據(jù)權(quán)利要求1所述的數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的方法,其中,上述計算上述時長預(yù)測模型中每一上述項的重要性的步驟包括利用F檢驗(F-test)計算每一項的重要性。
7.根據(jù)權(quán)利要求1所述的數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的方法,其中,上述判斷上述重新生成的時長預(yù)測模型是否最優(yōu)的步驟包括利用貝葉斯信息準(zhǔn)則(BIC)判斷上述重新生成的時長預(yù)測模型是否最優(yōu)。
8.根據(jù)權(quán)利要求7所述的數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的方法,其中,上述判斷上述重新生成的時長預(yù)測模型是否最優(yōu)的步驟包括計算下式BIC=Nlog(SSE/N)+plogN其中,SSE表示預(yù)測誤差e的平方和,N表示訓(xùn)練樣本;當(dāng)上式中的BIC最小時,判斷時長預(yù)測模型為最優(yōu)。
9.根據(jù)前面任意一項權(quán)利要求所述的數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的方法,其中,上述與時長預(yù)測相關(guān)多個屬性還包括語速(speaking rate)。
10.一種時長預(yù)測方法,包括利用上述權(quán)利要求1-9的任意一項所述的數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的方法,訓(xùn)練時長預(yù)測模型;獲得相應(yīng)的上述與時長預(yù)測相關(guān)的多個屬性的值;以及根據(jù)上述訓(xùn)練的時長預(yù)測模型和相應(yīng)的上述與時長預(yù)測相關(guān)的多個屬性的值,計算時長。
11.根據(jù)權(quán)利要求10所述的時長預(yù)測方法,其中,上述與時長預(yù)測相關(guān)的多個屬性包括語速。
12.一種語音合成方法,包括利用上述權(quán)利要求10-11的任意一項所述的時長預(yù)測方法,預(yù)測時長;以及根據(jù)上述預(yù)測的時長,進行語音合成。
13.一種數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的裝置,包括初始模型生成單元(initial model generator),其利用與時長預(yù)測相關(guān)的多個屬性和至少一部分上述屬性的組合生成初始時長預(yù)測模型,其中每個上述屬性或上述屬性的組合被作為一項;重要性計算單元(importance calculator),其計算上述時長預(yù)測模型中每一上述項的重要性;項刪除單元(item deleting unit),用于刪除上述計算出的重要性最低的項;模型再生成單元(model re-generator),其利用由上述項刪除單元刪除后剩余的項重新生成時長預(yù)測模型;以及優(yōu)化判斷單元(optimization determining unit),其判斷由上述模型再生成單元重新生成的時長預(yù)測模型是否最優(yōu)。
14.根據(jù)權(quán)利要求13所述的數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的裝置,其中,上述與時長預(yù)測相關(guān)多個屬性包括語言類型和語音類型的屬性。
15.根據(jù)權(quán)利要求13所述的數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的裝置,其中,上述與時長預(yù)測相關(guān)多個屬性包括從當(dāng)前音素、音節(jié)中另一個音素、前一個音節(jié)相鄰的音素、后一個音節(jié)相鄰的音素、聲調(diào)、前音節(jié)的聲調(diào)、后音節(jié)的聲調(diào)、詞性、到下一個停頓的距離、到前一個停頓的距離、音節(jié)在語法詞中的位置、前后及當(dāng)前語法詞的長度、語法詞中音節(jié)的個數(shù)、音節(jié)在句子中的位置和句中語法詞的個數(shù)中選擇的任意多個屬性。
16.根據(jù)權(quán)利要求13所述的數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的裝置,其中,上述至少一部分上述屬性的組合包括上述多個與時長預(yù)測相關(guān)的屬性的全部2階的屬性組合。
17.根據(jù)權(quán)利要求13所述的數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的裝置,其中,重要性計算單元(importance calculator)利用F檢驗(F-test)計算每一項的重要性。
18.根據(jù)權(quán)利要求13所述的數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的裝置,其中,優(yōu)化判斷單元(optimization determining unit)利用貝葉斯信息準(zhǔn)則(BIC)判斷上述重新生成的時長預(yù)測模型是否最優(yōu)。
19.根據(jù)權(quán)利要求13-18的任意一項所述的數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的裝置,其中,上述與時長預(yù)測相關(guān)多個屬性包括語速(speakingrate)。
20.一種時長預(yù)測裝置,包括利用上述權(quán)利要求1-9的任意一項所述的數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的方法訓(xùn)練得到的時長預(yù)測模型;屬性獲得單元(attribute obtaining unit),用于獲得相應(yīng)的上述與時長預(yù)測相關(guān)的多個屬性的值;以及時長計算單元(duration calculator),其根據(jù)上述時長預(yù)測模型和相應(yīng)的上述與時長預(yù)測相關(guān)的多個屬性的值,計算時長。
21.根據(jù)權(quán)利要求20所述的時長預(yù)測裝置,其中,上述與時長預(yù)測相關(guān)的多個屬性包括語速。
22.一種語音合成裝置,包括上述權(quán)利要求20-21的任意一項所述的時長預(yù)測裝置;并且根據(jù)由上述時長預(yù)測裝置預(yù)測的時長,進行語音合成。
全文摘要
本發(fā)明提供了數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的方法和裝置、時長預(yù)測方法和裝置以及語音合成方法和裝置。本發(fā)明的數(shù)據(jù)驅(qū)動訓(xùn)練時長預(yù)測模型的方法,包括利用與時長預(yù)測相關(guān)的多個屬性和至少一部分上述屬性的組合生成初始時長預(yù)測模型,其中每個上述屬性或上述屬性的組合被作為一項;計算上述時長預(yù)測模型中每一上述項的重要性;刪除上述計算出的重要性最低的項;利用剩余的項重新生成時長預(yù)測模型;判斷上述重新生成的時長預(yù)測模型是否最優(yōu);以及如果上述時長預(yù)測模型被判斷為不是最優(yōu),則重復(fù)上述計算每一項的重要性的步驟及其之后的步驟。
文檔編號G10L13/04GK1953052SQ200510114320
公開日2007年4月25日 申請日期2005年10月20日 優(yōu)先權(quán)日2005年10月20日
發(fā)明者易立夫, 郝杰 申請人:株式會社東芝