一種個性化歌唱語音的合成方法

文檔序號：2830887閱讀：420來源：國知局

專利名稱：一種個性化歌唱語音的合成方法
技術領域：
本發(fā)明涉及一種語音合成方法，具體涉及一種在只有少量朗讀風格訓練數(shù)據的情況下，合成出目標發(fā)音人歌唱風格語音的合成方法。
背景技術：
近年來，語音合成技術獲得了很大的發(fā)展，由于現(xiàn)在合成語音的音質和自然度都不錯，大家對合成系統(tǒng)提出了更多的需求，比如多樣化的語音合成，包括多個發(fā)音人、多種發(fā)音風格、多語種等，所以在可訓練語音合成技術基礎上發(fā)展起來的模型自適應技術得到了越來越廣泛的應用，模型自適應技術在合成朗讀風格語音的時候可以取得很好的效果，但是在針對歌唱風格的語音合成時缺乏足夠的應用研究。 .
此外，為了合成出具有歌唱風格的合成語音，有關研究機構也進行了相關研究，主要方法是借鑒朗讀風格的語音合成方法，首先錄制一個規(guī)模較大的歌唱風格庫，然后根據可訓練語音合成方法來合成出歌唱風格的語音，這種方法可以合成比較自然真實的合成語音，但是由于歌唱時的控制很難，所以歌唱風格庫的錄制難度要遠高于朗讀風格庫的錄制，而且，如果要合成另外一個發(fā)音人的歌唱語音時，需要對這個發(fā)音人再錄制一個歌唱風格庫，對于大多數(shù)普通人來說，錄制這樣一個規(guī)模的歌唱風格庫基本上是不可能的。

發(fā)明內容
本發(fā)明針對現(xiàn)有技術的不足，提供了只要對少數(shù)的韻律參數(shù)進行調整，就能合成出歌唱風格的合成語音，只要能錄制一個少量的朗讀風格庫，就能合成出歌唱風格語音的合成方法。
本發(fā)明是通過以下技術方案實現(xiàn)的
一種個性化歌唱語音的合成方法，包括以下步驟實現(xiàn)(1) 在大規(guī)模標準語音數(shù)據庫上，用隱馬爾科夫模型對語音的線譜頻率系數(shù)進行建模，并訓練得到基于上下文相關屬性集的線譜頻率系數(shù)和聲韻母時長的決策
樹模型；
(2) 錄制特定用戶的少量朗讀風格語音，并在錄音數(shù)據庫上對線譜頻率系數(shù)的隱馬爾科夫模型進行自適應，得到該用戶的個性化的線譜頻率系數(shù)模型；
(3) 對文本化的簡譜中的歌詞，經過文本處理分析后，得到上下文相關的屬性集，然后根據(1)訓練得到的決策樹模型和(2)得到個性化線譜頻率系數(shù)模型預測出歌詞對應的頻譜參數(shù)和聲韻母時長信息；
(4) 根據簡譜對于唱歌的音調、節(jié)拍的約定，生成基頻信息，并對(3)中預測得到的時長信息進行調整；
(5) 得到(4)生成的時長、基頻與(3)中預測得到的頻譜參數(shù)合并后，就生成了最后的參數(shù)，這些參數(shù)是既具有目標說話人特征，又具有歌唱特征的基頻、時長和線譜頻率參數(shù)。將這些參數(shù)輸入參數(shù)化語音合成聲碼器，即可合成出個性化的歌唱語音。
一種個性化歌唱語音的合成方法，所述的個性化的線譜頻率系數(shù)模型，通過標準線譜頻率系數(shù)模型自適應訓練得到，而標準線譜頻率系數(shù)通過在一個或多個大規(guī)模的標準語音庫上訓練得到。
一種個性化歌唱語音的合成方法，所述的用于線譜頻率系數(shù)模型自適應的語音錄音所對應的文本是經過音素覆蓋率搜索設計的文本。
一種個性化歌唱語音的合成方法，所述的步驟(2)中自適應方法是基于最大似然的線性回歸的模型自適應方法。
一種個性化歌唱語音的合成方法，所述的基于最大似然的線性回歸的模型自適應方法是根據最大似然準則估計一系列的線性變換，讓這些變換抓住當前模型與目標模型之間的差異，對模型中所有的分布作調整。
一種個性化歌唱語音的合成方法，所述的步驟(4)中對所述基頻參數(shù)的預測為由曲譜信息直接賦值。
一種個性化歌唱語音的合成方法，所述的步驟(4)中所述時長信息的調整是按照曲譜給定的信息來進行時長調整。
一種個性化歌唱語音的合成方法，所述的時長信息的調整是采用按比例分配來對時長進行調整。
本發(fā)明在可訓練語音合成系統(tǒng)的基礎上，將模型自適應和歌唱語音合成相結合，在Trainable TTS中將模型自適應方法和歌唱語音合成方法有機結合起來，使得在只有少量訓練數(shù)據的前提下，合成的語音既具有目標說話人的特征，又具有歌唱風格，這樣就不需要錄制大量的各種發(fā)音人風格的歌曲風格庫，使具有發(fā) 音人個性化風格歌唱語音的合成成為現(xiàn)實，并極大的提高了合成系統(tǒng)的可擴展性和娛樂性。

圖1為個性化歌唱語音的合成方法的流程圖。圖2為本發(fā)明模型自適應方法流程圖。
具體實施例方式
參見附圖1、 2所示。
1、可訓練語音合成，此發(fā)明基于可訓練的語音合成方法。此方法在訓練階段運用隱馬爾科夫模型(服M)對語音信號三個方面的參數(shù)進行建模，這三個方面的參數(shù)分別是基頻、時長和線譜頻率系數(shù)LSF;所有模型都在一個語音庫上用隱
馬爾科夫模型進行模型的訓練；語音庫的規(guī)模一般在1000句話左右(1.5 2小時的錄音量)，訓練得到三個參數(shù)的隱馬爾科夫模型；而在合成階段，根據輸入的文本進行文本分析得到的上下文相關屬性，根據這些屬性分別對時長、基頻和譜參數(shù)的聚類決策樹進行決策，并得到相應的模型序列，最后根據模型基于參數(shù) 生成算法來生成基頻和譜參數(shù)，并通過合成器合成出最終的語音。
2、模型自適應現(xiàn)在對于多樣化語音合成有比較大的需求，需要可訓練語音合成在少量目標數(shù)據的基礎上，通過模型自適應的方法快速形成一個目標合成系統(tǒng)。這里采用的模型自適應方法是基于最大似然的線性回歸(MLLR)的模型自適應方法，根據最大似然準則估計一系列的線性變換，讓這些變換抓住當前模型與目標模型之間的差異，用來對模型中所有的分布作調整，可以用相對較少的數(shù)據取得較好的效果。
3、歌唱合成以上步驟l、 2都在訓練階段完成，得到時長、基頻和頻譜參數(shù)的H醒模型，在合成階段，利用這些資源，根據輸入的歌詞和曲譜，合成出具有歌唱風格的語音。首先，由文本化的簡譜，經過前端分析歌詞后，得到上下文相關的屬性集，然后根據時長、基頻和頻譜模型分別預測出對應的參數(shù)，由于朗讀風格與歌唱風格在韻律方面存在很大的差異，所以為了在朗讀庫的基礎上合成出歌唱風格的語音，需要對韻律參數(shù)進行調整，調整主要是以下幾個方面
1) 基頻參數(shù)的調整，舍棄決策得到的基頻參數(shù)，直接由曲譜信息賦值；
2) 時長參數(shù)的調整，由于曲譜中的音階是帶有時長信息的(比如四分音符，八分之一拍等)，所以按照曲譜給定的信息來進行時長調整，但是存在兩個問題，首先曲譜時長是相對的，所以無法確定一拍是多長，另外曲譜時長是音節(jié)層的，而建模的基本單位是音素，所以此時的時長怎么分配。針對問題一，我們由用戶確定一拍唱多長，也就是說用戶可以根據自己的喜好來確定；而對于問題二，一般采用比例分配，做一些特殊的調整，一是限制聲母時長，使得聲母發(fā)音短促一些，此時可使吐字清脆飽滿，更符合歌唱風格，另外，對超長的音素采用非比例分配五個狀態(tài)，擴大中間狀態(tài)的時長，縮小邊界狀態(tài)的時長分配，令發(fā)聲更穩(wěn)定協(xié)調。
權利要求
1、一種個性化歌唱語音的合成方法，其特征在于包括以下步驟實現(xiàn)(1)在大規(guī)模標準語音數(shù)據庫上，用隱馬爾科夫模型對語音的線譜頻率系數(shù)進行建模，并訓練得到基于上下文相關屬性集的線譜頻率系數(shù)和聲韻母時長的決策樹模型；(2)錄制特定用戶的少量朗讀風格語音，并在錄音數(shù)據庫上對線譜頻率系數(shù)的隱馬爾科夫模型進行自適應，得到該用戶的個性化的線譜頻率系數(shù)模型；(3)對文本化的簡譜中的歌詞，經過文本處理分析后，得到上下文相關的屬性集，然后根據(1)訓練得到的決策樹模型和(2)得到個性化線譜頻率系數(shù)模型預測出歌詞對應的頻譜參數(shù)和聲韻母時長信息；(4)根據簡譜對于唱歌的音調、節(jié)拍的約定，生成基頻信息，并對(3)中預測得到的時長信息進行調整；(5)得到(4)生成的時長、基頻與(3)中預測得到的頻譜參數(shù)合并后，就生成了最后的參數(shù)。這些參數(shù)是既具有目標說話人特征，又具有歌唱特征的基頻、時長和線譜頻率參數(shù)，將這些參數(shù)輸入參數(shù)化語音合成聲碼器，即可合成出個性化的歌唱語音。
2、根據權利要求1所述的一種個性化歌唱語音的合成方法，其特征在于所述的個性化的線譜頻率系數(shù)模型，通過標準線譜頻率系數(shù)模型自適應訓練得到，而標準線譜頻率系數(shù)通過在一個或多個大規(guī)模的標準語音庫上訓練得到。
3、根據權利要求1所述的一種個性化歌唱語音的合成方法，其特征在于所述的用于線譜頻率系數(shù)模型自適應的語音錄音所對應的文本是經過音素覆蓋率搜索設計的文本。
4、根據權利要求1所述的一種個性化歌唱語音的合成方法，其特征在于所述的步驟(2)中自適應方法是基于最大似然的線性回歸的模型自適應方法。
5、根據權利要求4所述的一種個性化歌唱語音的合成方法，其特征在于所述的基于最大似然的線性回歸的模型自適應方法是根據最大似然準則估計一系列的線性變換，讓這些變換抓住當前模型與目標模型之間的差異，對模型中所有的分布作調整。
6、根據權利要求1所述的一種個性化歌唱語音的合成方法，其特征在于所述的步驟(4)中對所述基頻參數(shù)的預測為由曲譜信息直接賦值。
7、根據權利要求1所述的一種個性化歌唱語音的合成方法，其特征在于所述步驟(4)中時長信息的調整是按照曲譜給定的信息來進行時長調整。
8、根據權利要求1所述的一種個性化歌唱語音的合成方法，其特征在于所述時長信息的調整是采用按比例分配來對時長進行調整。
全文摘要
本發(fā)明涉及一種個性化歌唱語音的合成方法，包括以下步驟對語音的線譜頻率系數(shù)進行建模，并訓練得到相關的決策樹模型；錄制特定用戶的朗讀風格語音，得到該用戶的線譜頻率系數(shù)模型；得到簡譜中的歌詞上下文相關的屬性集，根據決策樹模型和個性化線譜頻率系數(shù)模型預測出歌詞對應的頻譜參數(shù)和聲韻母時長信息；根據簡譜約定生成基頻信息，并與生成的時長、頻譜參數(shù)合并后，得到所有的合成參數(shù)，將這些參數(shù)輸入參數(shù)化語音合成聲碼器，可合成出個性化的歌唱語音。本發(fā)明提供了只要對少數(shù)的韻律參數(shù)進行調整，就能合成出歌唱風格的合成語音，只要能錄制一個少量的朗讀風格庫，就能合成出歌唱風格語音的合成方法。
文檔編號G10L13/00GK101308652SQ20081010711
公開日2008年11月19日申請日期2008年7月17日優(yōu)先權日2008年7月17日
發(fā)明者凌震華, 劉慶峰, 源江, 王仁華, 王玉平, 郁胡, 胡國平申請人:安徽科大訊飛信息科技股份有限公司

完整全部詳細技術資料下載