欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于音調(diào)自動標注及預(yù)測的語音合成方法

文檔序號:2825224閱讀:214來源:國知局
專利名稱:一種基于音調(diào)自動標注及預(yù)測的語音合成方法
技術(shù)領(lǐng)域
本發(fā)明設(shè)計一種語音合成方法,具體地涉及基于音調(diào)自動標注及預(yù)測的語音合成方法。
背景技術(shù)
語音合成方法的目的是讓機器用人類的語言進行表達,又稱為文語轉(zhuǎn)換方法(TTS 方法),它的主要功能是將計算機或其他數(shù)字設(shè)備接收到的任意文字串轉(zhuǎn)換為語音信號,通過音頻接口輸出?;诖笳Z料庫的語音合成方法通過對大量錄音數(shù)據(jù)的統(tǒng)計,合成具有高自然度和音質(zhì)的語音。傳統(tǒng)的基于單元拼接的合成方法音質(zhì)較好,但所需訓(xùn)練數(shù)據(jù)較大且合成音庫占用空間龐大,合成語音的連貫度不好?;陔[馬爾科夫模型的參數(shù)化統(tǒng)計語音合成方法具有較高的合成連貫度和靈活度,所需的資源占用空間較小,具有極大的實用和研究價值?;陔[馬爾科夫模型的參數(shù)化統(tǒng)計語音合成方法將訓(xùn)練語料進行參數(shù)化表示,通常表示為基頻、增益和聲道譜系數(shù)。為指導(dǎo)隱馬爾科夫模型的訓(xùn)練,要事先對每條訓(xùn)練語料進行標注,標注內(nèi)容包括音節(jié)、音調(diào)和韻律層級結(jié)構(gòu)。在有調(diào)音節(jié)語言(如漢語普通話、粵語和泰語等)中存在大量的變調(diào)和協(xié)同發(fā)音現(xiàn)象,如果標注的音調(diào)與實際發(fā)音不一致,就會造成統(tǒng)計模型的穩(wěn)定性下降,嚴重影響合成語音的韻律。手工標注的音調(diào)受到標注人員的主觀影響較大,且不便制定統(tǒng)一的標準。傳統(tǒng)的音調(diào)標注以特定語言的音調(diào)劃分為準則,將所有發(fā)音劃分為幾類調(diào)式,無法詳細描述每種調(diào)式的音高變化情況,而音高的實際變化軌跡才對韻律的影響更大,這是簡單的調(diào)式劃分所無法表現(xiàn)的。因此,需要一種新的算法,能夠?qū)τ?xùn)練語料的音高變化做出詳細描述,取代傳統(tǒng)的調(diào)式標注,并能夠在合成時預(yù)測出合成音的音高變化趨勢,改善合成語音的韻律表現(xiàn)力。

發(fā)明內(nèi)容
為了解決現(xiàn)有的技術(shù)缺陷,本發(fā)明的目的是要提出一種算法,可以對訓(xùn)練語料的音調(diào)信息做出自動標注,并在合成時預(yù)測合成語音的音高變化趨勢,從而改善輸出語音的韻律表現(xiàn)力。為此,本發(fā)明構(gòu)建一種基于音調(diào)自動標注及預(yù)測的語音合成方法。為實現(xiàn)上述目的,本發(fā)明的一種基于音調(diào)自動標注及預(yù)測的語音合成方法,利用各種計算機和數(shù)字設(shè)備的輸入,將所接收到的任意文字串轉(zhuǎn)化為語音輸出,其特征在于由離線訓(xùn)練模塊、音調(diào)預(yù)測模塊、參數(shù)語音合成模塊組成,其中具有一離線訓(xùn)練模塊,負責音調(diào)預(yù)測模型和增益、基頻、聲道譜和時長的生成模型的訓(xùn)練;具有一音調(diào)預(yù)測模塊,輸入端接收文本信息,負責預(yù)測待合成文本中每個合成基元的基頻曲線并生成帶有音調(diào)的完整的合成標注信息;具有一輸出端輸出完整的合成標注 信息;具有一參數(shù)語音合成模塊,輸入端接收來自于音調(diào)預(yù)測模塊的完整的合成標注信息;具有一輸出端輸出合成的語音信號。根據(jù)本發(fā)明的實施例,所述離線訓(xùn)練模塊包括具有一音調(diào)自動標注模塊,負責訓(xùn)練音調(diào)預(yù)測模型,并得到完整的訓(xùn)練標注信息;具有一連續(xù)隱馬爾科夫訓(xùn)練模塊,使用連續(xù)隱馬爾科夫模型進行增益、聲道譜和時長生成模型的訓(xùn)練;具有一多空間隱馬爾科夫模型訓(xùn)練模塊,使用多空間概率隱馬爾科夫模型進行基頻生成模型的訓(xùn)練。根據(jù)本發(fā)明的實施例,所述音調(diào)自動標注模塊包括具有一基頻提取模塊,負責對全部訓(xùn)練語音進行精確的基頻提取得到訓(xùn)練語料平滑的基頻曲線;具有一音調(diào)預(yù)測模型訓(xùn)練模塊,使用多空間隱馬爾科夫模型進行音調(diào)預(yù)測模型的訓(xùn)練;具有一基頻分段量化模塊,使用音調(diào)預(yù)測模型對訓(xùn)練語料的基頻數(shù)據(jù)中每個建?;M行分段量化,具有一輸出端用于輸出每個訓(xùn)練基元的基頻分段量化結(jié)果;具有一音調(diào)自動標注模塊,負責接收每個訓(xùn)練基元的基頻分段量化結(jié)果,進行訓(xùn)練語料的音調(diào)自動標注取代音調(diào)預(yù)測模型訓(xùn)練模塊中所使用的調(diào)式標注,具有一輸出端用于輸出訓(xùn)練語料完整的訓(xùn)練標注信息。根據(jù)本發(fā)明的實施例,所述基頻分段量化模塊包括具有一量化間隔計算模塊,負責統(tǒng)計全部訓(xùn)練語料的基頻最大值和最小值,根據(jù)量化精度計算量化間隔;具有一基頻分段模塊,負責根據(jù)訓(xùn)練的音調(diào)預(yù)測模型對每個訓(xùn)練基元的基頻曲線按狀態(tài)進行有監(jiān)督分段;具有一基頻量化模塊,負責根據(jù)分段結(jié)果判斷每個分段的清濁音標志,清音段輸出清音標志,濁音段根據(jù)段內(nèi)基頻平均值輸出量化標志,具有以輸出端輸出每個訓(xùn)練基元的基頻分段量化結(jié)果。根據(jù)本發(fā)明的實施例,所述音調(diào)預(yù)測模塊包括具有一文本分析模塊,輸入端接收任意文本信息,分析得到包含當前和相鄰有調(diào)音節(jié)韻律層級結(jié)構(gòu)的音調(diào)預(yù)測標注,具有一輸出端輸出音調(diào)預(yù)測標注;具有一基頻預(yù)測模塊,輸入端接收音調(diào)預(yù)測標注,根據(jù)訓(xùn)練得到的音調(diào)預(yù)測模型得到每個狀態(tài)的基頻預(yù)測值,進一步量化得到每個合成基元的音調(diào)預(yù)測曲線;具有一合成標注生成模塊,根據(jù)每個合成基元的音調(diào)預(yù)測曲線得到包含音調(diào)信息的完整合成標注信息,具有一輸出端輸出完整的合成標注信息。根據(jù)本發(fā)明的實施例,所述參數(shù)語音合成模塊包括具有一有關(guān)增益序列的連續(xù)隱馬爾科夫模型模塊,根據(jù)訓(xùn)練得到的連續(xù)隱馬爾科夫模型得到每個合成基元每個狀態(tài)的增益序列,具有一輸出端輸出待合成文本完整的增益序列;具有一有關(guān)聲道譜系數(shù)序列的連續(xù)隱馬爾科夫模型模塊,根據(jù)訓(xùn)練得到的續(xù)隱馬爾科夫模型得到每個合成基元每個狀態(tài)的聲道譜系數(shù)序列,具有一輸出端輸出待合成文本完整的聲道譜系數(shù)序列;具有一有關(guān)基頻序列的多空間概率隱馬爾科夫模型模塊,根據(jù)訓(xùn)練得到多空間概率隱馬爾科夫模型得到每個合成基元每個狀態(tài)的基頻序列,具有一輸出端輸出待合成文本完整的基頻序列。具有一參數(shù)語音合成器模塊,接收來自有關(guān)增益序列和聲道譜系數(shù)序列的連續(xù)隱馬爾科夫模型模塊以及來自有關(guān)基頻序列的多空間概率隱馬爾科夫模型模塊的輸出,具有一輸出端輸出合成的語音。本發(fā)明的有益效果本發(fā)明的第一方面,為實現(xiàn)上述目的,在該方法中,使用建?;牧炕l曲線解決前面所述的傳統(tǒng)音調(diào)標注所帶來的數(shù)據(jù)不匹配和缺少細節(jié)描述的問題。通過訓(xùn)練數(shù)據(jù)的基頻分段量化方法,將連續(xù)的基頻曲線表示為離散的分段標志,用訓(xùn)練數(shù)據(jù)本身的音高變化作為音調(diào)標注。而在傳統(tǒng)的按調(diào)式分類標注的方法中,每個基元僅用一個調(diào)式來表示,無法描述其音高隨時間變化的趨勢,而且難以解決發(fā)音變調(diào)和協(xié)同發(fā)音的調(diào)式標注問題。通過基頻分段量化替換傳統(tǒng)的分類調(diào)式標注,韻律的建模得到了極大地改善。本發(fā)明的第二方面,為實現(xiàn)上述目的,本發(fā)明在合成階段,設(shè)計了一個音調(diào)預(yù)測算法利用作為音調(diào)預(yù)測模型的多空間概率隱馬爾科夫模型,得到每個狀態(tài)的基頻預(yù)測值,將狀態(tài)基頻預(yù)測值直接量化得到音調(diào)預(yù)測值,用于構(gòu)建完整的合成標注信息。通過上述算法, 可以將合成時音調(diào)分段原則與模型訓(xùn)練時對應(yīng),更好的指導(dǎo)合成聲學(xué)參數(shù)的預(yù)測,改善合成語音的韻律表現(xiàn)力。


附圖1是本發(fā)明所提出的基于音調(diào)自動標注及預(yù)測的語音合成方法的總體框圖。附圖2是本發(fā)明離線訓(xùn)練模塊的框圖。附圖3是本發(fā)明音調(diào)自動標注模塊的框圖。附圖4是本發(fā)明音調(diào)預(yù)測模塊的框圖。附圖5是本發(fā)明參數(shù)語音合成模塊的框圖。
具體實施例方式下面結(jié)合附圖和實例對本發(fā)明進一步說明,通過結(jié)合附圖對方法各關(guān)鍵步驟的詳細說明將會更好地描述實現(xiàn)本發(fā)明的步驟和過程。應(yīng)該指出,所描述的實例僅僅視為說明的目的,不是對本發(fā)明的限制。附圖1是本發(fā)明所提出的基于音調(diào)自動標注及預(yù)測的語音合成方法示意圖。實現(xiàn)的方法以標準C語言編寫,在windows平臺和imix平臺下均可編譯運行。在附圖1本發(fā)明的優(yōu)選實施方案中,本方法分為三個部分離線訓(xùn)練模塊1、音調(diào)預(yù)測模塊2、參數(shù)語音合成模塊3組成。其中,音調(diào)預(yù)測模塊2和參數(shù)語音合成模塊3相連。離線訓(xùn)練模塊1與其他部分無連接,僅用于線下生成語音合成系統(tǒng)所使用的音調(diào)預(yù)測模型b和合成參數(shù)模型C。具有一離線訓(xùn)練模塊1,負責音調(diào)預(yù)測模型和增益、基頻、聲道譜和時長的生成模型的訓(xùn)練;具有一音調(diào)預(yù)測模塊2,輸入端接收文本信息,負責預(yù)測待合成文本中每個合成基
6元的基頻曲線并生成帶有音調(diào)的完整的合成標注信息;具有一輸出端輸出完整的合成標注 fn息;具有一參數(shù)語音合成模塊3,輸入端接收來自于音調(diào)預(yù)測模塊的完整的合成標注信息;具有一輸出端輸出合成的語音信號。如附圖2離線訓(xùn)練模塊的框圖所示,離線訓(xùn)練模塊1由音調(diào)自動標注模塊10、連續(xù)隱馬爾科夫訓(xùn)練模塊20、多空間隱馬爾科夫模型訓(xùn)練模塊30組成。音調(diào)自動標注模塊10 負責訓(xùn)練音調(diào)預(yù)測模型,并得到完整的訓(xùn)練標注信息。連續(xù)隱馬爾科夫訓(xùn)練模塊20 使用連續(xù)隱馬爾科夫模型進行增益、聲道譜和時長生成模型的訓(xùn)練。本實例訓(xùn)練和合成基元采用漢語音節(jié),采用隱半馬爾科夫模型(HSMM)作為參數(shù)模型,即對時長采用顯式建模,模型狀態(tài)數(shù)為12,其中包含1個入口狀態(tài)和1個出口狀態(tài),中間10個狀態(tài)輸出聲學(xué)參數(shù)。采用基于加權(quán)自適應(yīng)譜插值(STRAIGHT)的M維美爾廣義倒譜系數(shù)(MGC),多空間隱馬爾科夫模型訓(xùn)練模塊30 使用多空間概率隱馬爾科夫模型進行基頻生成模型的訓(xùn)練。本實例采用對數(shù)基頻作為基頻的表示方法,在多空間概率模型中,采用一個0維的清音空間和一個1維德濁音空間對清濁音在統(tǒng)一的框架下進行基頻建模。如附圖3音調(diào)自動標注模塊的框圖所示,音調(diào)自動標注模塊10由基頻提取模塊 110,音調(diào)預(yù)測模型訓(xùn)練模塊120,基頻分段量化模塊130,音調(diào)自動標注模塊170組成?;l提取模塊110 負責對全部訓(xùn)練語音進行精確的基頻提取得到訓(xùn)練語料平滑的基頻曲線。本實例采用基于STRAIGHT的基頻提取算法。音調(diào)預(yù)測模型訓(xùn)練模塊120 使用多空間隱馬爾科夫模型進行音調(diào)預(yù)測模型的訓(xùn)練。本實例中,采用靜態(tài)基頻及其一階、二階動態(tài)特征進行建模,建立音調(diào)預(yù)測模型時的不完整訓(xùn)練標注包括當前及相鄰的有調(diào)音節(jié)以及韻律層級結(jié)構(gòu)?;l分段量化模塊130 使用音調(diào)預(yù)測模型對訓(xùn)練語料的基頻數(shù)據(jù)中每個建模基元進行分段量化,具有一輸出端用于輸出每個訓(xùn)練基元的基頻分段量化結(jié)果。其中,量化間隔計算模塊140 負責統(tǒng)計全部訓(xùn)練語料的基頻最大值和最小值,根據(jù)量化精度計算量化間隔。本實施例采用8級量化精度,即量化間隔為Qpt =基頻分段模塊150 負責根據(jù)訓(xùn)練的音調(diào)預(yù)測模型b對每個訓(xùn)練基元的基頻曲線按狀態(tài)進行分段。本實施例采用Viterbi分段,也可以采用最大似然分段等受監(jiān)督的分段方法;基頻量化模塊160,負責根據(jù)分段結(jié)果判斷每個分段的清濁音標志,清音段輸出清音標志,濁音段根據(jù)段內(nèi)基頻平均值輸出量化標志,具有一輸出端輸出每個訓(xùn)練基元的基頻分段量化結(jié)果。本實例中,清音標志為’ χ’,濁音量化標志為整數(shù)0到7。分段的清濁音判斷準則為當前分段內(nèi)清音幀與濁音幀數(shù)目之比,清音幀多于濁音幀則判為清音段,否則判為濁音段。
’嚴0』_例-]Jf Sl=VoicedQLFO[i] = \Ont
,JC1,if S1 = unvoiced音調(diào)自動標注模塊170 負責接收每個訓(xùn)練基元的基頻分段量化結(jié)果,進行訓(xùn)練語料的音調(diào)自動標注取代音調(diào)預(yù)測模型訓(xùn)練模塊120中所使用的調(diào)式標注,具有一輸出端用于輸出訓(xùn)練語料完整的訓(xùn)練標注信息。如附圖4音調(diào)預(yù)測模塊的框圖所示,音調(diào)預(yù)測模塊2由文本分析模塊210、基頻預(yù)測模塊220、合成標注生成模塊230組成。文本分析模塊210 輸入端接收任意文本信息,分析得到包含當前和相鄰有調(diào)音節(jié)韻律層級結(jié)構(gòu)的音調(diào)預(yù)測標注,具有一輸出端輸出音調(diào)預(yù)測標注?;l預(yù)測模塊220 輸入端接收音調(diào)預(yù)測標注,根據(jù)訓(xùn)練得到的音調(diào)預(yù)測模型得到每個狀態(tài)的基頻預(yù)測值,進一步量化得到每個合成基元的音調(diào)預(yù)測曲線。本實例中,濁音狀態(tài)的量化音調(diào)值為整數(shù)0到7,清音狀態(tài)的量化音調(diào)值置為清音標志’ χ’。合成標注生成模塊230 根據(jù)每個合成基元的音調(diào)預(yù)測曲線得到包含音調(diào)信息的完整合成標注信息,具有一輸出端輸出完整的合成標注信息。如附圖5參數(shù)語音合成模塊的框圖所示,參數(shù)語音合成模塊3由有關(guān)增益序列的連續(xù)隱馬爾科夫模型模塊310、有關(guān)聲道譜系數(shù)序列的連續(xù)隱馬爾科夫模型模塊320、有關(guān)基頻序列的多空間概率隱馬爾科夫模型模塊330、參數(shù)語音合成器模塊340組成。有關(guān)增益序列的連續(xù)隱馬爾科夫模型模塊310 根據(jù)訓(xùn)練得到的連續(xù)隱馬爾科夫模型得到每個合成基元每個狀態(tài)的增益序列,具有一輸出端輸出待合成文本完整的增益序列。有關(guān)聲道譜系數(shù)序列的連續(xù)隱馬爾科夫模型模塊320 根據(jù)訓(xùn)練得到的續(xù)隱馬爾科夫模型得到每個合成基元每個狀態(tài)的聲道譜系數(shù)序列,具有一輸出端輸出待合成文本完整的聲道譜系數(shù)序列。有關(guān)基頻序列的多空間概率隱馬爾科夫模型模塊330 根據(jù)訓(xùn)練得到多空間概率隱馬爾科夫模型得到每個合成基元每個狀態(tài)的基頻序列,具有一輸出端輸出待合成文本完整的基頻序列。參數(shù)語音合成器模塊340 接收來自有關(guān)增益序列和聲道譜系數(shù)序列的連續(xù)隱馬爾科夫模型模塊以及來自有關(guān)基頻序列的多空間概率隱馬爾科夫模型模塊的輸出,具有一輸出端輸出合成的語音。本實例中,首先對生成的聲道譜MGC序列進行后濾波,然后采用美爾對數(shù)譜近似(MLSA)濾波器進行聲音信號的生成。上述實施例為本發(fā)明的較佳實施例,本發(fā)明的應(yīng)用不僅限于計算機終端,還可以應(yīng)用到嵌入式設(shè)備和各種其他手持和移動設(shè)備中。根據(jù)本發(fā)明的主要構(gòu)思,本領(lǐng)域普通技術(shù)人員均可以生產(chǎn)多種類似的或等價的應(yīng)用,為此,本發(fā)明的范圍不應(yīng)由該描述來限定。本領(lǐng)域的技術(shù)人員應(yīng)該理解,在不脫離本發(fā)明的范圍內(nèi)的任何修改或局部替換,均屬于本發(fā)明權(quán)利要求來限定的范圍。
8
權(quán)利要求
1.一種基于音調(diào)自動標注及預(yù)測的語音合成方法,利用各種計算機和數(shù)字設(shè)備的輸入,將所接收到的任意文字串轉(zhuǎn)化為語音輸出,其特征在于由離線訓(xùn)練模塊、音調(diào)預(yù)測模塊、參數(shù)語音合成模塊組成,其中具有一離線訓(xùn)練模塊,負責音調(diào)預(yù)測模型和增益、基頻、聲道譜和時長的生成模型的訓(xùn)練;具有一音調(diào)預(yù)測模塊,輸入端接收文本信息,負責預(yù)測待合成文本中每個合成基元的基頻曲線并生成帶有音調(diào)的完整的合成標注信息;具有一輸出端輸出完整的合成標注信息;具有一參數(shù)語音合成模塊,輸入端接收來自于音調(diào)預(yù)測模塊的完整的合成標注信息; 具有一輸出端輸出合成的語音信號。
2.根據(jù)權(quán)利要求1所述的基于音調(diào)自動標注及預(yù)測的語音合成方法,其特征在于所述離線訓(xùn)練模塊包括具有一音調(diào)自動標注模塊,負責訓(xùn)練音調(diào)預(yù)測模型,并得到完整的訓(xùn)練標注信息; 具有一連續(xù)隱馬爾科夫訓(xùn)練模塊,使用連續(xù)隱馬爾科夫模型進行增益、聲道譜和時長生成模型的訓(xùn)練;具有一多空間隱馬爾科夫模型訓(xùn)練模塊,使用多空間概率隱馬爾科夫模型進行基頻生成模型的訓(xùn)練。
3.根據(jù)權(quán)利要求1所述的基于音調(diào)自動標注及預(yù)測的語音合成方法,其特征在于所述音調(diào)自動標注模塊包括具有一基頻提取模塊,負責對全部訓(xùn)練語音進行精確的基頻提取得到訓(xùn)練語料平滑的基頻曲線;具有一音調(diào)預(yù)測模型訓(xùn)練模塊,使用多空間隱馬爾科夫模型進行音調(diào)預(yù)測模型的訓(xùn)練;具有一基頻分段量化模塊,使用音調(diào)預(yù)測模型對訓(xùn)練語料的基頻數(shù)據(jù)中每個建?;M行分段量化,具有一輸出端用于輸出每個訓(xùn)練基元的基頻分段量化結(jié)果;具有一音調(diào)自動標注模塊,負責接收每個訓(xùn)練基元的基頻分段量化結(jié)果,進行訓(xùn)練語料的音調(diào)自動標注取代音調(diào)預(yù)測模型訓(xùn)練模塊中所使用的調(diào)式標注,具有一輸出端用于輸出訓(xùn)練語料完整的訓(xùn)練標注信息。
4.根據(jù)權(quán)利要求1所述的基于音調(diào)自動標注及預(yù)測的語音合成方法,其特征在于所述基頻分段量化模塊包括具有一量化間隔計算模塊,負責統(tǒng)計全部訓(xùn)練語料的基頻最大值和最小值,根據(jù)量化精度計算量化間隔;具有一基頻分段模塊,負責根據(jù)訓(xùn)練的音調(diào)預(yù)測模型對每個訓(xùn)練基元的基頻曲線按狀態(tài)進行有監(jiān)督分段;具有一基頻量化模塊,負責根據(jù)分段結(jié)果判斷每個分段的清濁音標志,清音段輸出清音標志,濁音段根據(jù)段內(nèi)基頻平均值輸出量化標志,具有以輸出端輸出每個訓(xùn)練基元的基頻分段量化結(jié)果。
5.根據(jù)權(quán)利要求1所述的基于音調(diào)自動標注及預(yù)測的語音合成方法,其特征在于所述音調(diào)預(yù)測模塊包括具有一文本分析模塊,輸入端接收任意文本信息,分析得到包含當前和相鄰有調(diào)音節(jié)韻律層級結(jié)構(gòu)的音調(diào)預(yù)測標注,具有一輸出端輸出音調(diào)預(yù)測標注;具有一基頻預(yù)測模塊,輸入端接收音調(diào)預(yù)測標注,根據(jù)訓(xùn)練得到的音調(diào)預(yù)測模型得到每個狀態(tài)的基頻預(yù)測值,進一步量化得到每個合成基元的音調(diào)預(yù)測曲線具有一合成標注生成模塊,根據(jù)每個合成基元的音調(diào)預(yù)測曲線得到包含音調(diào)信息的完整合成標注信息,具有一輸出端輸出完整的合成標注信息。
6.根據(jù)權(quán)利要求1所述的基于音調(diào)自動標注及預(yù)測的語音合成方法,其特征在于所述參數(shù)語音合成模塊包括具有一有關(guān)增益序列的連續(xù)隱馬爾科夫模型模塊,根據(jù)訓(xùn)練得到的連續(xù)隱馬爾科夫模型得到每個合成基元每個狀態(tài)的增益序列,具有一輸出端輸出待合成文本完整的增益序列;具有一有關(guān)聲道譜系數(shù)序列的連續(xù)隱馬爾科夫模型模塊,根據(jù)訓(xùn)練得到的續(xù)隱馬爾科夫模型得到每個合成基元每個狀態(tài)的聲道譜系數(shù)序列,具有一輸出端輸出待合成文本完整的聲道譜系數(shù)序列;具有一有關(guān)基頻序列的多空間概率隱馬爾科夫模型模塊,根據(jù)訓(xùn)練得到多空間概率隱馬爾科夫模型得到每個合成基元每個狀態(tài)的基頻序列,具有一輸出端輸出待合成文本完整的基頻序列;具有一參數(shù)語音合成器模塊,接收來自有關(guān)增益序列和聲道譜系數(shù)序列的連續(xù)隱馬爾科夫模型模塊以及來自有關(guān)基頻序列的多空間概率隱馬爾科夫模型模塊的輸出,具有一輸出端輸出合成的語音。
全文摘要
本發(fā)明公開了一種基于音調(diào)自動標注及預(yù)測的語音合成方法,由音調(diào)預(yù)測模塊接收待合成的任意文本信息,根據(jù)文本分析的音節(jié)和韻律層級結(jié)構(gòu)預(yù)測音調(diào)曲線并輸出完整的合成標注信息;參數(shù)語音合成模塊接收音調(diào)預(yù)測模塊的合成標注信息,使用參數(shù)生成的方法輸出合成的語音信號;離線訓(xùn)練模塊負責各種隱馬爾科夫模型的訓(xùn)練,音調(diào)預(yù)測模型用于指導(dǎo)訓(xùn)練數(shù)據(jù)的有監(jiān)督分段實現(xiàn)音調(diào)的自動標注以及預(yù)測合成文本的音調(diào)信息,合成參數(shù)模型用于得到合成的參數(shù)序列。依據(jù)本發(fā)明可以解決發(fā)音變調(diào)和協(xié)同發(fā)音的調(diào)式標注問題,使合成語音的韻律得到了極大地改善。
文檔編號G10L11/04GK102201234SQ20111017201
公開日2011年9月28日 申請日期2011年6月24日 優(yōu)先權(quán)日2011年6月24日
發(fā)明者何婭玲, 王朝民, 謝湘, 那興宇 申請人:北京宇音天下科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
启东市| 合肥市| 郑州市| 六安市| 长垣县| 石阡县| 墨脱县| 寻甸| 阿勒泰市| 蓝山县| 房山区| 扎囊县| 广宗县| 天门市| 普安县| 新和县| 上虞市| 中阳县| 都江堰市| 阜平县| 商丘市| 奈曼旗| 汉源县| 汪清县| 乌拉特前旗| 扶沟县| 郁南县| 五河县| 务川| 彝良县| 嘉禾县| 广河县| 林周县| 象州县| 忻州市| 抚远县| 临高县| 祁门县| 洞头县| 阳江市| 南城县|