本發(fā)明涉及語音信號(hào)處理技術(shù)領(lǐng)域,具體涉及一種基頻建模方法及系統(tǒng)。
背景技術(shù):
基頻特征作為語音合成技術(shù)的重要特征之一,既包括了短時(shí)語音段的韻律信息,也包括了長(zhǎng)時(shí)語音段的韻律信息(超音段的韻律信息),如聲調(diào)信息。如何能夠更自然地預(yù)測(cè)出基頻特征是語音合成效果的重要目標(biāo)之一。
目前普遍采取的基頻建模方法為分層基頻建模方法,即從韻律的產(chǎn)生機(jī)理以及l(fā)og域基頻特征產(chǎn)生的可加性出發(fā)進(jìn)行建模,如式(1)和圖1所示:
F0all=F0state+F0phone+F0syllable+F0word (1)
對(duì)韻律層進(jìn)行層次劃分,從高到低依次劃分為:?jiǎn)卧~層、音節(jié)層、音素層、狀態(tài)層,如圖1所示,其中每一層的基頻特征都對(duì)應(yīng)著不同的韻律變化?,F(xiàn)有方案從韻律的產(chǎn)生機(jī)理出發(fā),對(duì)受不同層次上下文屬性影響的韻律變化進(jìn)行有針對(duì)性的建模。
然而,現(xiàn)有的分層基頻建模方法并沒有考慮更高層韻律單元的韻律變化,如短語層的韻律變化,導(dǎo)致合成語音的整個(gè)句子起伏感不強(qiáng),聽起來沒有什么情感。此外,現(xiàn)有分層基頻建模方法的建模順序?yàn)樽愿呦虻椭饘咏#]有考慮聲調(diào)語言的聲調(diào)信息對(duì)較高韻律層建模效果的影響,導(dǎo)致傳統(tǒng)的隱馬爾可夫模型(Hidden Markov Model,HMM)建模方法不能很好地捕捉較高韻律層的基頻特征,如單詞層信息、短語層信息,使得較高韻律層基頻特征建模效果大大下降。以上原因?qū)е卢F(xiàn)有基頻建模方法不能更自然地預(yù)測(cè)出基頻特征。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明實(shí)施例提供一種基頻建模方法及系統(tǒng),以解決現(xiàn)有的基頻建模方法不能更自然地預(yù)測(cè)出基頻特征的問題。
為此,本發(fā)明實(shí)施例提供如下技術(shù)方案:
一種基頻建模方法,包括:
將韻律層從高到低依次劃分為:短語層、單詞層、音節(jié)層、音素層、狀態(tài)層,并確定各層韻律單元,所述短語層和所述單詞層為較高韻律層,所述音節(jié)層、所述音素層和所述狀態(tài)層為較低韻律層;
確定所述音節(jié)層包含的聲調(diào)信息對(duì)較高韻律層基頻建模的影響;
根據(jù)所述韻律單元的基頻特征采用迭代方式從高到低逐層構(gòu)建基頻模型,并且對(duì)于較高韻律層,在構(gòu)建基頻模型時(shí)去除所述音節(jié)層包含的聲調(diào)信息對(duì)較高韻律層基頻建模的影響。
優(yōu)選地,所述確定所述音節(jié)層包含的聲調(diào)信息對(duì)較高韻律層基頻建模的影響包括:
將自然基頻以音節(jié)為單位進(jìn)行劃分,得到各音節(jié)單元對(duì)應(yīng)的自然基頻值;
對(duì)所述自然基頻值進(jìn)行參數(shù)化,得到各音節(jié)單元對(duì)應(yīng)的自然基頻特征;
根據(jù)所述自然基頻特征獲得各音節(jié)單元的預(yù)測(cè)基頻值。
優(yōu)選地,所述對(duì)所述自然基頻值進(jìn)行參數(shù)化包括:
使用優(yōu)化后的DCT變換對(duì)所述自然基頻值進(jìn)行參數(shù)化,所述優(yōu)化后的DCT變換是指以生成基頻特征與自然基頻特征差的平方和作為目標(biāo)函數(shù)的,對(duì)DCT變換系數(shù)進(jìn)行估計(jì);
所述根據(jù)所述自然基頻特征獲得各音節(jié)單元預(yù)測(cè)基頻值包括:
根據(jù)各音節(jié)單元對(duì)應(yīng)的上下文屬性信息和所述自然基頻特征,對(duì)各音節(jié)單元對(duì)應(yīng)的自然基頻特征進(jìn)行基頻建模;
根據(jù)所述基頻模型,將各音節(jié)單元所屬模型均值作為所述音節(jié)單元的預(yù)測(cè)基頻特征;
對(duì)所述預(yù)測(cè)基頻特征進(jìn)行DCT反變換,得到各音節(jié)單元的預(yù)測(cè)基頻值。
優(yōu)選地,構(gòu)建短語層基頻模型包括:
將所述音節(jié)單元對(duì)應(yīng)的自然基頻值減去所述音節(jié)單元的預(yù)測(cè)基頻值,得到用于去除音節(jié)層影響后的短語層建模的自然殘差基頻值;
將所述自然殘差基頻值以短語為單位進(jìn)行劃分,得到各短語單元對(duì)應(yīng)的自然基頻值;
對(duì)所述自然基頻值進(jìn)行參數(shù)化,得到各短語單元對(duì)應(yīng)的自然基頻特征;
利用所述各短語單元對(duì)應(yīng)的自然基頻特征構(gòu)建短語層基頻模型,得到各短語單元的預(yù)測(cè)基頻特征。
優(yōu)選地,構(gòu)建單詞層基頻模型包括:
將所述短語單元對(duì)應(yīng)的自然基頻值減去所述短語單元的預(yù)測(cè)基頻值,得到用于單詞層建模的自然殘差基頻值;
將所述自然殘差基頻值以單詞為單位進(jìn)行劃分,得到各單詞單元對(duì)應(yīng)的自然基頻值;
對(duì)所述自然基頻值進(jìn)行參數(shù)化,得到各單詞單元對(duì)應(yīng)的自然基頻特征;
利用所述各單詞單元對(duì)應(yīng)的自然基頻特征構(gòu)建單詞層基頻模型,得到各單詞單元的預(yù)測(cè)基頻特征。
優(yōu)選地,所述方法還包括:
使用DCT參數(shù)表征短語單元和單詞單元對(duì)應(yīng)的自然基頻特征。
優(yōu)選地,所述方法還包括:基于DNN的方法對(duì)各韻律層的基頻模型參數(shù)進(jìn)行優(yōu)化。
一種基頻建模系統(tǒng),包括:
韻律層劃分模塊,用于將韻律層從高到低依次劃分為:短語層、單詞層、音節(jié)層、音素層、狀態(tài)層,并確定各層韻律單元,所述短語層和所述單詞層為較高韻律層,所述音節(jié)層、所述音素層和所述狀態(tài)層為較低韻律層;
影響確定模塊,用于確定所述音節(jié)層包含的聲調(diào)信息對(duì)較高韻律層基頻建模的影響;
建模模塊,用于根據(jù)所述韻律單元的基頻特征采用迭代方式從高到低逐層構(gòu)建基頻模型,并且對(duì)于較高韻律層,在構(gòu)建基頻模型時(shí)去除所述音節(jié)層包含的聲調(diào)信息對(duì)較高韻律層基頻建模的影響,所述建模模塊包括:短語層建模模塊,單詞層建模模塊,低層建模模塊。
優(yōu)選地,所述影響確定模塊包括:
自然基頻劃分單元,用于將自然基頻以音節(jié)為單位進(jìn)行劃分,得到各音節(jié)單元對(duì)應(yīng)的自然基頻值;
參數(shù)化單元,用于對(duì)所述自然基頻值進(jìn)行參數(shù)化,得到各音節(jié)單元對(duì)應(yīng)的 自然基頻特征;
預(yù)測(cè)基頻值獲取單元,用于根據(jù)所述自然基頻特征獲得各音節(jié)單元的預(yù)測(cè)基頻值。
優(yōu)選地,所述參數(shù)化單元,具體用于使用優(yōu)化后的DCT變換對(duì)所述自然基頻值進(jìn)行參數(shù)化,所述優(yōu)化后的DCT變換是指以生成基頻特征與自然基頻特征差的平方和作為目標(biāo)函數(shù)的,對(duì)DCT變換系數(shù)進(jìn)行估計(jì);
所述預(yù)測(cè)基頻值獲取單元包括:
基頻建模子單元,用于根據(jù)各音節(jié)單元對(duì)應(yīng)的上下文屬性信息和所述自然基頻特征,對(duì)各音節(jié)單元對(duì)應(yīng)的自然基頻特征進(jìn)行基頻建模;
預(yù)測(cè)子單元,用于根據(jù)所述基頻模型,將各音節(jié)單元所屬模型均值作為所述音節(jié)單元的預(yù)測(cè)基頻特征;
DCT反變換子單元,用于對(duì)所述預(yù)測(cè)基頻特征進(jìn)行DCT反變換,得到各音節(jié)單元的預(yù)測(cè)基頻值。
優(yōu)選地,所述短語層建模模塊包括:
短語層獲取單元,用于將所述音節(jié)單元對(duì)應(yīng)的自然基頻值減去所述音節(jié)單元的預(yù)測(cè)基頻值,得到用于去除音節(jié)層影響后的短語層建模的自然殘差基頻值;
短語層劃分單元,用于將所述自然殘差基頻值以短語為單位進(jìn)行劃分,得到各短語單元對(duì)應(yīng)的自然基頻值;
短語層參數(shù)化單元,用于對(duì)所述自然基頻值進(jìn)行參數(shù)化,得到各短語單元對(duì)應(yīng)的自然基頻特征;
短語層預(yù)測(cè)單元,用于利用所述各短語單元對(duì)應(yīng)的自然基頻特征構(gòu)建短語層基頻模型,得到各短語單元的預(yù)測(cè)基頻特征。
優(yōu)選地,所述單詞層建模模塊包括:
單詞層獲取單元,用于將所述短語單元對(duì)應(yīng)的自然基頻值減去所述短語單元的預(yù)測(cè)基頻值,得到用于單詞層建模的自然殘差基頻值;
單詞層劃分單元,用于將所述自然殘差基頻值以單詞為單位進(jìn)行劃分,得到各單詞單元對(duì)應(yīng)的自然基頻值;
單詞層參數(shù)化單元,用于對(duì)所述自然基頻值進(jìn)行參數(shù)化,得到各單詞單元 對(duì)應(yīng)的自然基頻特征;
單詞層預(yù)測(cè)單元,用于利用所述各單詞單元對(duì)應(yīng)的自然基頻特征構(gòu)建單詞層基頻模型,得到各單詞單元的預(yù)測(cè)基頻特征。
優(yōu)選地,所述系統(tǒng)還包括:
模型參數(shù)優(yōu)化模塊,用于基于DNN的方法對(duì)各韻律層的基頻模型參數(shù)進(jìn)行優(yōu)化。
本發(fā)明實(shí)施例提供的基頻建模方法及系統(tǒng),通過將韻律層從高到低劃分為包括短語層的各韻律層,增加對(duì)短語層基頻特征的建模,從而可以增強(qiáng)合成語句的起伏感,并在對(duì)較高韻律層(短語層、單詞層)的基頻特征進(jìn)行建模之前,去除了聲調(diào)信息對(duì)較高韻律層基頻建模的影響,提高了較高韻律層基頻特征建模的效果。
進(jìn)一步地,對(duì)較高韻律層的基頻特征采用優(yōu)化后的DCT變換系數(shù)表征,可以更好地體現(xiàn)整個(gè)韻律單元基頻特征的變化,有效保證了建模后預(yù)測(cè)的基頻特征更接近自然基頻特征。
進(jìn)一步地,基于深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)對(duì)韻律層初始化后的基頻模型參數(shù)進(jìn)行優(yōu)化,由于DNN的非線性層級(jí)結(jié)構(gòu)可以更好地表征文本屬性組合,不容易出現(xiàn)過擬合,同時(shí)DNN在訓(xùn)練時(shí)不會(huì)對(duì)數(shù)據(jù)進(jìn)行劃分,可以更好地體現(xiàn)出整個(gè)數(shù)據(jù)空間的制約關(guān)系,有效防止數(shù)據(jù)稀疏問題。
附圖說明
為了更清楚地說明本申請(qǐng)實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明中記載的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,還可以根據(jù)這些附圖獲得其他的附圖。
圖1是現(xiàn)有的分層基頻建模原理示意圖;
圖2是本發(fā)明實(shí)施例基頻建模方法的流程圖;
圖3是本發(fā)明實(shí)施例基頻建模方法中基頻值參數(shù)化的流程圖;
圖4是本發(fā)明實(shí)施例中確定音節(jié)層包含的聲調(diào)信息對(duì)較高韻律層基頻建模的影響的流程圖;
圖5是本發(fā)明實(shí)施例中采用迭代方式構(gòu)建基頻模型的流程圖;
圖6是本發(fā)明實(shí)施例基頻建模系統(tǒng)的一種結(jié)構(gòu)示意圖;
圖7是本發(fā)明實(shí)施例基頻建模系統(tǒng)中影響確定模塊的一種具體結(jié)構(gòu)示意圖;
圖8是本發(fā)明實(shí)施例基頻建模系統(tǒng)的另一種結(jié)構(gòu)示意圖。
具體實(shí)施方式
為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明實(shí)施例的方案,下面結(jié)合附圖和實(shí)施方式對(duì)本發(fā)明實(shí)施例作進(jìn)一步的詳細(xì)說明。
本發(fā)明實(shí)施例的基頻建模方法將韻律層從高到低依次劃分為:短語層、單詞層、音節(jié)層、音素層、狀態(tài)層,使得短語層的長(zhǎng)時(shí)韻律變化能被很好的描述,進(jìn)而增強(qiáng)合成語音整個(gè)句子的起伏感;并且在基頻建模前,通過去除聲調(diào)信息對(duì)較高韻律層基頻建模的影響,有效防止了聲調(diào)信息對(duì)較高韻律層建模的影響,提高了合成語音的自然度。
如圖2所示,是本發(fā)明實(shí)施例基頻建模方法的一種流程圖,包括以下步驟:
步驟201,將韻律層從高到低依次劃分為:短語層、單詞層、音節(jié)層、音素層、狀態(tài)層,并確定各層韻律單元,所述短語層和所述單詞層為較高韻律層,所述音節(jié)層、所述音素層和所述狀態(tài)層為較低韻律層。
在本實(shí)施例中,將韻律層從高到低依次劃分為:短語層、單詞層、音節(jié)層、音素層、狀態(tài)層,并設(shè)計(jì)各層韻律單元的上下文屬性及其對(duì)應(yīng)的上下文屬性問題。
然后,對(duì)所述上下文屬性及其對(duì)應(yīng)的上下文屬性問題,通過采用傳統(tǒng)的HMM的方法對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行音素時(shí)長(zhǎng)的建模,得到每個(gè)音素的時(shí)長(zhǎng)信息。
接著,利用每個(gè)音素的時(shí)長(zhǎng)信息及上下文屬性進(jìn)行每層韻律單元的上下文屬性分析,進(jìn)而得到各層韻律單元的時(shí)長(zhǎng)信息。
比如,對(duì)于漢語的音節(jié)單元,如果當(dāng)前上下文屬性為“當(dāng)前音素在音節(jié)中的相對(duì)位置”為1或0時(shí),則可以認(rèn)為所述音素第一狀態(tài)對(duì)應(yīng)的初始時(shí)間點(diǎn)為所述音節(jié)單元的起始;當(dāng)遇到上下文屬性為“當(dāng)前音素在音節(jié)中的相對(duì)位置” 為3(設(shè)計(jì)上下文屬性時(shí),規(guī)定漢語一個(gè)音節(jié)中最多含有三個(gè)音素)或0時(shí),則所述音素最終狀態(tài)對(duì)應(yīng)的末端時(shí)間點(diǎn)為音節(jié)的結(jié)尾,上下文屬性分析結(jié)束后得到音節(jié)單元對(duì)應(yīng)的起始、結(jié)尾位置。其他韻律層單元的劃分與之類似。
步驟202,確定所述音節(jié)層包含的聲調(diào)信息對(duì)較高韻律層基頻建模的影響。
為了去除聲調(diào)信息對(duì)較高韻律層的韻律變化的影響,首先對(duì)音節(jié)層進(jìn)行預(yù)處理。例如,可以將自然基頻以音節(jié)為單位進(jìn)行劃分,得到各音節(jié)單元對(duì)應(yīng)的自然基頻值;然后對(duì)所述自然基頻值進(jìn)行參數(shù)化,得到各音節(jié)單元對(duì)應(yīng)的自然基頻特征;接著,根據(jù)所述自然基頻特征獲得各音節(jié)單元的預(yù)測(cè)基頻值。
在本發(fā)明實(shí)施例中,可以利用離散余弦變換(Discrete Cosine Transform,DCT)對(duì)所述自然基頻值進(jìn)行參數(shù)化,得到各音節(jié)單元對(duì)應(yīng)的自然基頻特征。然后,根據(jù)各音節(jié)單元對(duì)應(yīng)的上下文屬性信息和所述自然基頻特征,對(duì)各音節(jié)單元對(duì)應(yīng)的自然基頻特征進(jìn)行基頻建模;根據(jù)所述基頻模型,將各音節(jié)單元所屬模型均值作為所述音節(jié)單元的預(yù)測(cè)基頻特征;然后對(duì)所述預(yù)測(cè)基頻特征進(jìn)行DCT反變換,得到各音節(jié)單元的預(yù)測(cè)基頻值。
進(jìn)一步地,還可以對(duì)現(xiàn)有的DCT變換參數(shù)化方法進(jìn)行優(yōu)化,利用優(yōu)化后的DCT變換參數(shù)化方法對(duì)所述自然基頻值進(jìn)行參數(shù)化。所述優(yōu)化后的DCT變換參數(shù)化方法是以生成基頻特征與自然基頻特征差的平方和作為目標(biāo)函數(shù),對(duì)DCT變換系數(shù)進(jìn)行估計(jì),進(jìn)一步保證建模后預(yù)測(cè)得到的基頻特征更接近自然基頻特征。下面對(duì)本發(fā)明實(shí)施例提出的優(yōu)化后的DCT變換參數(shù)化方法進(jìn)行詳細(xì)說明。
如圖3所示,是本發(fā)明實(shí)施例中利用優(yōu)化后的DCT變換對(duì)自然基頻值參數(shù)化的流程,包括以下步驟:
步驟301,設(shè)定目標(biāo)函數(shù)。
本實(shí)施例為了使建模后的預(yù)測(cè)基頻特征更接近于自然基頻特征,將目標(biāo)函數(shù)L設(shè)為自然基頻特征與生成基頻特征差的平方和,如式(1)所示:
其中,st為在第t幀的自然基頻值,為在第t幀的預(yù)測(cè)基頻值,V表示自然基頻特征與生成基頻特征同時(shí)為濁音的幀序數(shù),C表示DCT變換系數(shù)矢 量序列。
步驟302,將目標(biāo)函數(shù)進(jìn)行傳統(tǒng)DCT變換。
根據(jù)傳統(tǒng)的DCT變換,可以將式(1)中的表示為常值矢量D(t)和DCT系數(shù)矢量C的乘積,則式(1)可轉(zhuǎn)換為式(2):
其中,
N表示DCT變換的維數(shù)。
步驟303,最小化變換后的目標(biāo)函數(shù)。
估計(jì)式(2)中的DCT系數(shù)C,具體如式(4)所示:
步驟304,根據(jù)最小化后的目標(biāo)函數(shù)計(jì)算得到估計(jì)后的DCT系數(shù)C*,具體如式(5)所示:
C*=R-1q (5)
其中,
優(yōu)化后的DCT變換參數(shù)化方法估計(jì)出的DCT系數(shù)為閉合解,從數(shù)學(xué)上看,此閉合解對(duì)基頻特征的擬合效果可以達(dá)到最優(yōu),因此,可以保證建模后的DCT變換系數(shù)建模后預(yù)測(cè)得到的基頻特征相比于傳統(tǒng)方法更接近自然基頻特征。
基于上述優(yōu)化后的DCT變換參數(shù)化方法,本發(fā)明實(shí)施例中確定音節(jié)層包含的聲調(diào)信息對(duì)較高韻律層基頻建模的影響的流程如圖4所示,包括以下步驟:
步驟401,將自然基頻以音節(jié)為單位進(jìn)行劃分,得到各音節(jié)單元對(duì)應(yīng)的自然基頻值。
步驟402,使用優(yōu)化后的DCT變換對(duì)各音節(jié)單元對(duì)應(yīng)的自然基頻值進(jìn)行 參數(shù)化,得到DCT變換后的自然基頻特征。
步驟403,根據(jù)各音節(jié)單元對(duì)應(yīng)的上下文屬性信息和DCT變換后的自然基頻特征,對(duì)各音節(jié)單元對(duì)應(yīng)的自然基頻特征進(jìn)行決策樹聚類,得到聚類后的模型均值。
在實(shí)際應(yīng)用中,可以采用單高斯模型描述各個(gè)聚類中基頻特征的分布。
步驟404,將各音節(jié)單元所屬聚類模型均值作為所述音節(jié)單元預(yù)測(cè)基頻特征,通過DCT反變換對(duì)所述預(yù)測(cè)基頻特征進(jìn)行反變換后得到各音節(jié)單元預(yù)測(cè)基頻值。
步驟203,根據(jù)所述韻律單元的基頻特征采用迭代方式從高到低逐層構(gòu)建基頻模型,并且對(duì)于較高韻律層,在構(gòu)建基頻模型時(shí)去除所述音節(jié)層包含的聲調(diào)信息對(duì)較高韻律層基頻建模的影響。
在實(shí)際應(yīng)用中,對(duì)于較高韻律層,可以采用幀級(jí)基頻值進(jìn)行建模,也可以采用DCT參數(shù)表征的基頻值進(jìn)行建模;而對(duì)于較低韻律層,可以直接采用幀級(jí)基頻值進(jìn)行建模。
如圖5所示,是本發(fā)明實(shí)施例中采用迭代方式構(gòu)建基頻模型的流程圖,包括以下步驟:
(1)短語層建模
首先,將音節(jié)層每個(gè)音節(jié)單元對(duì)應(yīng)的自然基頻值減去所述音節(jié)單元的預(yù)測(cè)基頻值,得到用于去除音節(jié)層影響后的短語層建模的自然殘差基頻值,然后執(zhí)行以下步驟:
步a)將用于短語層建模的自然殘差基頻值以短語為單位進(jìn)行劃分,得到對(duì)應(yīng)各短語單元的自然基頻值;
步b)利用DCT變換對(duì)短語單元的自然基頻值進(jìn)行參數(shù)化,得到變換后的各短語單元對(duì)應(yīng)的自然基頻特征DCT_F0phrase,優(yōu)選地,可以利用前面描述的優(yōu)化后的DCT變換對(duì)短語單元的自然基頻值進(jìn)行參數(shù)化;
步c)依據(jù)各短語單元對(duì)應(yīng)的上下文屬性信息和其對(duì)應(yīng)的自然基頻特征DCT_F0phrase,采用預(yù)先設(shè)定的所述短語單元對(duì)應(yīng)上下文屬性問題集對(duì)各短語單元基頻特征進(jìn)行決策樹聚類,可以采用單高斯模型描述各個(gè)聚類中基頻特征的分布,得到聚類后的模型均值;
步d)根據(jù)決策樹聚類結(jié)果,將各短語單元所屬聚類模型均值作為所述短語單元預(yù)測(cè)基頻特征(此處為DCT變換系數(shù)),通過DCT反變換對(duì)所述預(yù)測(cè)基頻特征進(jìn)行反變換后得到各短語單元預(yù)測(cè)基頻值。
(2)單詞層建模
首先,將短語層每個(gè)短語單元對(duì)應(yīng)的自然基頻值減去所述短語單元的預(yù)測(cè)基頻值,得到用于單詞層建模的自然殘差基頻值,然后執(zhí)行以下步驟:
步a)將用于單詞層建模的自然殘差基頻值以單詞為單位進(jìn)行劃分,得到對(duì)應(yīng)各單詞單元的自然基頻值;
步b)使用DCT變換對(duì)單詞單元的自然基頻值進(jìn)行參數(shù)化,得到變換后的各單詞單元對(duì)應(yīng)的自然基頻特征DCT_F0word,優(yōu)選地,可以利用前面描述的優(yōu)化后的DCT變換對(duì)單詞單元的自然基頻值進(jìn)行參數(shù)化;
步c)依據(jù)各單詞單元對(duì)應(yīng)的上下文屬性信息和其對(duì)應(yīng)的自然基頻特征DCT_F0word,采用預(yù)先設(shè)定的單詞單元對(duì)應(yīng)上下文屬性問題集對(duì)各單詞單元基頻特征進(jìn)行決策樹聚類,可以采用單高斯模型描述各個(gè)聚類中基頻特征的分布,得到聚類后的模型均值;
步d)依據(jù)決策樹聚類結(jié)果,將各單詞單元所屬聚類模型均值作為所述單詞單元預(yù)測(cè)基頻特征(此處為DCT變換系數(shù)),通過DCT反變換對(duì)所述預(yù)測(cè)基頻特征進(jìn)行反變換后得到各單詞單元預(yù)測(cè)基頻值;
(3)較低韻律層建模
首先,用自然基頻值減去短語層和單詞層預(yù)測(cè)基頻值,從而得到用于較低韻律層(音節(jié)層、音素層、狀態(tài)層)建模的自然殘差基頻值。
較低韻律層包含音節(jié)層、音素層、狀態(tài)層,不同于較高韻律層的參數(shù)化,較低韻律層可以直接采用幀級(jí)基頻值進(jìn)行建模,具體建模步驟如下:
步a)將用于較低韻律層建模的自然殘差基頻值,對(duì)較低韻律層韻律單元進(jìn)行HMM建模,得到聚類后的模型;
步b)根據(jù)聚類后的模型,使用最大似然參數(shù)生成算法對(duì)基頻特征進(jìn)行預(yù)測(cè),從而得到較低韻律層的預(yù)測(cè)基頻值。
(4)用自然基頻值減去低層的預(yù)測(cè)基頻值,作為下一次迭代時(shí)短語層的建模對(duì)象,迭代進(jìn)行短語層、單詞層及低層的建模,從而可以優(yōu)化各層基頻參 數(shù),最小均方誤差最小時(shí),迭代結(jié)束。根據(jù)經(jīng)驗(yàn)一般迭代2次,最小均方誤差即可達(dá)到最小。
在上述建模過程中,各韻律層基頻建模是基于假設(shè)各韻律層基頻模型之間是獨(dú)立的,然而研究人員證明各韻律層模型參數(shù)是有聯(lián)系的,這就造成了基于此假設(shè)而構(gòu)建的基頻模型和實(shí)際情況有偏差。因此,本發(fā)明還可進(jìn)一步對(duì)上述構(gòu)建的各韻律層基頻模型參數(shù)進(jìn)行優(yōu)化。
具體地,可以采用現(xiàn)有的基于決策樹的方法對(duì)各韻律層基頻模型參數(shù)進(jìn)行優(yōu)化。另外,本發(fā)明實(shí)施例還提供一種采用基于基頻特征的最小生成誤差準(zhǔn)則訓(xùn)練方法,對(duì)各韻律層的基頻特征使用DNN模型進(jìn)行全局參數(shù)優(yōu)化,以解決上述偏差問題。
本實(shí)施例使用三個(gè)DNN網(wǎng)絡(luò)來分別優(yōu)化短語層、單詞層、較低韻律層的基頻模型參數(shù),具體過程如下:
首先,進(jìn)行數(shù)據(jù)準(zhǔn)備,包括:確定輸入/輸出數(shù)據(jù)形式、訓(xùn)練數(shù)據(jù)以及測(cè)試數(shù)據(jù)等,具體可以為:
確定輸入數(shù)據(jù)形式:分別將短語層、單詞層以及較低韻律層(音節(jié)層、音素層、狀態(tài)層)建模時(shí)對(duì)應(yīng)的上下文相關(guān)屬性問題的回答作為輸入特征,所述輸入特征共兩種形式:數(shù)字文本特征和二值文本特征。數(shù)字文本特征的特征值為多種數(shù)字形式,如7、5、4等,二值文本特征的特征值只有0或1兩種形式。
確定輸出數(shù)據(jù)形式:各韻律層單元初始化后的基頻特征作為DNN網(wǎng)絡(luò)的輸出特征,其中短語層及單詞層的基頻特征使用優(yōu)化后的DCT變換系數(shù)表示,低層基頻特征使用幀級(jí)基頻值表示。
然后,確定網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),具體可以為:
短語層DNN網(wǎng)絡(luò)輸入節(jié)點(diǎn)個(gè)數(shù)為14維(5維的數(shù)字文本特征和9維的二值文本特征)。數(shù)字文本特征如對(duì)“當(dāng)前短語包含多少個(gè)單詞”問題的回答。二值文本特征如對(duì)“當(dāng)前短語在句子中的相對(duì)位置是否為1”問題的回答。輸出節(jié)點(diǎn)為5維DCT系數(shù),短語層DNN網(wǎng)絡(luò)共使用2個(gè)隱層,每個(gè)隱層節(jié)點(diǎn)為512個(gè)。
單詞層DNN網(wǎng)絡(luò)輸入節(jié)點(diǎn)個(gè)數(shù)為241維(21維的數(shù)字文本特征和220維 的二值文本特征),數(shù)字文本特征如對(duì)“當(dāng)前單詞包含多少個(gè)音節(jié)”問題的回答。二值文本特征如對(duì)“當(dāng)前單詞在短語中的相對(duì)位置是否為1”問題的回答。輸出節(jié)點(diǎn)為3維DCT系數(shù),單詞層DNN網(wǎng)絡(luò)共使用2個(gè)隱層,隱層節(jié)點(diǎn)為1024個(gè)。
較低韻律層DNN網(wǎng)絡(luò)輸入節(jié)點(diǎn)個(gè)數(shù)為570個(gè)(29維的數(shù)字文本特征和541維的二值文本特征),數(shù)字文本特征如對(duì)“當(dāng)前音節(jié)在單詞中的前向位置為多少”問題的回答,二值文本特征如對(duì)“當(dāng)前音素是否為‘g’”問題的回答。輸出為3維幀級(jí)基頻值(當(dāng)前幀的靜態(tài)、一階和二階動(dòng)態(tài)特征),較低韻律層DNN網(wǎng)絡(luò)共使用了3個(gè)隱層,隱層節(jié)點(diǎn)為1024。
接著,進(jìn)行模型訓(xùn)練。使用自然基頻特征減去當(dāng)前層外的其余各韻律層預(yù)測(cè)基頻特征,并基于最小生成誤差準(zhǔn)則進(jìn)行當(dāng)前層模型參數(shù)更新,以使各分層基頻特征疊加后預(yù)測(cè)的基頻特征更接近自然基頻特征。
例如,對(duì)于短語層模型訓(xùn)練時(shí),在DNN反向傳播的第i個(gè)周期內(nèi),首先使用自然基頻值減去反向傳播第i-1個(gè)周期內(nèi),單詞單元預(yù)測(cè)基頻特征DCT反變換后得到的基頻值以及較低韻律層DNN網(wǎng)絡(luò)預(yù)測(cè)得到的幀級(jí)基頻值,得到短語層自然殘差基頻值特征;接著,將所述短語層自然殘差基頻值進(jìn)行優(yōu)化后的DCT變換,得到變換后的DCT系數(shù),將所述DCT系數(shù)作為短語層DNN模型訓(xùn)練新的輸出特征;然后使用傳統(tǒng)DNN參數(shù)更新方法對(duì)短語層DNN模型參數(shù)進(jìn)行更新;接著,根據(jù)參數(shù)更新后的基頻模型,預(yù)測(cè)短語層基頻特征,并將其用于后續(xù)單詞層DNN模型參數(shù)更新及較低韻律層DNN模型參數(shù)更新。
經(jīng)過數(shù)次上述循環(huán),在基于最小生成誤差準(zhǔn)則的思想下,就可以對(duì)所有層DNN模型參數(shù)進(jìn)行統(tǒng)一更新,從而使各分層基頻特征疊加后預(yù)測(cè)的基頻特征更接近自然基頻特征。
本發(fā)明實(shí)施例提供的基頻建模方法,通過將韻律層從高到低劃分為包括短語層的各韻律層,增加對(duì)短語層基頻特征的建模,從而可以增強(qiáng)合成語句的起伏感,并在對(duì)較高韻律層(短語層、單詞層)的基頻特征進(jìn)行建模之前,去除了聲調(diào)信息對(duì)較高韻律層基頻建模的影響,提高了較高韻律層基頻特征建模的效果。
進(jìn)一步地,對(duì)較高韻律層的基頻特征采用優(yōu)化后的DCT變換系數(shù)表征,可以更好地體現(xiàn)整個(gè)韻律單元基頻特征的變化,有效保證了建模后預(yù)測(cè)的基頻特征更接近自然基頻特征。
進(jìn)一步地,基于DNN對(duì)韻律層初始化后的基頻模型參數(shù)進(jìn)行優(yōu)化,由于DNN的非線性層級(jí)結(jié)構(gòu)可以更好地表征文本屬性組合,不容易出現(xiàn)過擬合,同時(shí)DNN在訓(xùn)練時(shí)不會(huì)對(duì)數(shù)據(jù)進(jìn)行劃分,可以更好地體現(xiàn)出整個(gè)數(shù)據(jù)空間的制約關(guān)系,有效防止數(shù)據(jù)稀疏問題。
相應(yīng)地,本發(fā)明實(shí)施例還提供一種基頻建模系統(tǒng),如圖6所示,是本發(fā)明實(shí)施例基頻建模系統(tǒng)的結(jié)構(gòu)示意圖。
該系統(tǒng)包括:
韻律層劃分模塊601,用于將韻律層從高到低依次劃分為:短語層、單詞層、音節(jié)層、音素層、狀態(tài)層,并確定各層韻律單元,所述短語層和所述單詞層為較高韻律層,所述音節(jié)層、所述音素層和所述狀態(tài)層為較低韻律層;
影響確定模塊602,用于確定所述音節(jié)層包含的聲調(diào)信息對(duì)較高韻律層基頻建模的影響;
建模模塊603,用于根據(jù)所述韻律單元的基頻特征采用迭代方式從高到低逐層構(gòu)建基頻模型,并且對(duì)于較高韻律層,在構(gòu)建基頻模型時(shí)去除所述音節(jié)層包含的聲調(diào)信息對(duì)較高韻律層基頻建模的影響,所述建模模塊包括:短語層建模模塊631,單詞層建模模塊632,低層建模模塊633。
上述韻律層劃分模塊601具體可以根據(jù)各層韻律單元的上下文屬性及其對(duì)應(yīng)的上下文屬性問題,通過采用傳統(tǒng)的HMM的方法對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行音素時(shí)長(zhǎng)的建模,得到每個(gè)音素的時(shí)長(zhǎng)信息,然后利用每個(gè)音素的時(shí)長(zhǎng)信息及上下文屬性進(jìn)行每層韻律單元的上下文屬性分析,進(jìn)而得到各層韻律單元的時(shí)長(zhǎng)信息,從而確定各層的韻律單元。
上述影響確定模塊602在確定所述音節(jié)層包含的聲調(diào)信息對(duì)較高韻律層基頻建模的影響時(shí),主要是需要計(jì)算音節(jié)層各音節(jié)單元的預(yù)測(cè)基頻值。影響確定模塊602的一種具體結(jié)構(gòu)如圖7所示,包括以下各單元:
自然基頻劃分單元701,用于將自然基頻以音節(jié)為單位進(jìn)行劃分,得到各 音節(jié)單元對(duì)應(yīng)的自然基頻值;
參數(shù)化單元702,用于對(duì)所述自然基頻值進(jìn)行參數(shù)化,得到各音節(jié)單元對(duì)應(yīng)的自然基頻特征;
預(yù)測(cè)基頻值獲取單元703,用于根據(jù)所述自然基頻特征獲得各音節(jié)單元的預(yù)測(cè)基頻值。
在實(shí)際應(yīng)用中,上述參數(shù)化單元702可以采用現(xiàn)有的DCT變換對(duì)所述自然基頻值進(jìn)行參數(shù)化,也可以采用前面提到的優(yōu)化后的DCT變換對(duì)所述自然基頻值進(jìn)行參數(shù)化,即以生成基頻特征與自然基頻特征差的平方和作為目標(biāo)函數(shù)的,對(duì)DCT變換系數(shù)進(jìn)行估計(jì),具體過程可參見前面本發(fā)明方法實(shí)施例中的描述,在此不再贅述。
上述預(yù)測(cè)基頻值獲取單元703可以包括以下各子單元:
基頻建模子單元,用于根據(jù)各音節(jié)單元對(duì)應(yīng)的上下文屬性信息和所述自然基頻特征,對(duì)各音節(jié)單元對(duì)應(yīng)的自然基頻特征進(jìn)行基頻建模;
預(yù)測(cè)子單元,用于根據(jù)所述基頻模型,將各音節(jié)單元所屬模型均值作為所述音節(jié)單元的預(yù)測(cè)基頻特征;
DCT反變換子單元,用于對(duì)所述預(yù)測(cè)基頻特征進(jìn)行DCT反變換,得到各音節(jié)單元的預(yù)測(cè)基頻值。
本發(fā)明實(shí)施例提供的基頻建模系統(tǒng),通過將韻律層從高到低劃分為包括短語層的各韻律層,增加對(duì)短語層基頻特征的建模,從而可以增強(qiáng)合成語句的起伏感,并在對(duì)較高韻律層(短語層、單詞層)的基頻特征進(jìn)行建模之前,去除了聲調(diào)信息對(duì)較高韻律層基頻建模的影響,提高了較高韻律層基頻特征建模的效果。
上述短語層建模模塊631的一種具體結(jié)構(gòu)可以包括以下各單元:
短語層獲取單元,用于將所述音節(jié)單元對(duì)應(yīng)的自然基頻值減去所述音節(jié)單元的預(yù)測(cè)基頻值,得到用于去除音節(jié)層影響后的短語層建模的自然殘差基頻值;
短語層劃分單元,用于將所述自然殘差基頻值以短語為單位進(jìn)行劃分,得到各短語單元對(duì)應(yīng)的自然基頻值;
短語層參數(shù)化單元,用于對(duì)所述自然基頻值進(jìn)行參數(shù)化,得到各短語單元 對(duì)應(yīng)的自然基頻特征;
短語層預(yù)測(cè)單元,用于利用所述各短語單元對(duì)應(yīng)的自然基頻特征構(gòu)建短語層基頻模型,得到各短語單元的預(yù)測(cè)基頻特征。
利用上述各單元構(gòu)建短語層基頻模型的具體過程可參照前面本發(fā)明方法實(shí)施例中的描述,在此不再贅述。
上述單詞層建模模塊632的一種具體結(jié)構(gòu)可以包括以下各單元:
單詞層獲取單元,用于將所述短語單元對(duì)應(yīng)的自然基頻值減去所述短語單元的預(yù)測(cè)基頻值,得到用于單詞層建模的自然殘差基頻值;
單詞層劃分單元,用于將所述自然殘差基頻值以單詞為單位進(jìn)行劃分,得到各單詞單元對(duì)應(yīng)的自然基頻值;
單詞層參數(shù)化單元,用于對(duì)所述自然基頻值進(jìn)行參數(shù)化,得到各單詞單元對(duì)應(yīng)的自然基頻特征;
單詞層預(yù)測(cè)單元,用于利用所述各單詞單元對(duì)應(yīng)的自然基頻特征構(gòu)建單詞層基頻模型,得到各單詞單元的預(yù)測(cè)基頻特征。
利用上述各單元構(gòu)建單詞層基頻模型的具體過程可參照前面本發(fā)明方法實(shí)施例中的描述,在此不再贅述。
需要說明的是,在實(shí)際應(yīng)用中,上述短語層建模模塊631和單詞層建模模塊632,可以采用幀級(jí)基頻值進(jìn)行建模,也可以采用DCT參數(shù)表征的基頻值進(jìn)行建模。
而對(duì)于較低韻律層,低層建模模塊633可以直接采用幀級(jí)基頻值進(jìn)行建模.具體地,用自然基頻值減去短語層和單詞層預(yù)測(cè)基頻值,得到用于較低韻律層(音節(jié)層、音素層、狀態(tài)層)建模的自然殘差基頻值,然后利用該較低韻律層建模的自然殘差基頻值構(gòu)建較低韻律層的基頻模型。
本發(fā)明實(shí)施例的基頻建模系統(tǒng),對(duì)較高韻律層的基頻特征采用優(yōu)化后的DCT變換系數(shù)表征,可以更好地體現(xiàn)整個(gè)韻律單元基頻特征的變化,有效保證了建模后預(yù)測(cè)的基頻特征更接近自然基頻特征。
在建模過程中,各韻律層基頻建模是基于假設(shè)各韻律層基頻模型之間是獨(dú)立的,然而研究人員證明各韻律層模型參數(shù)是有聯(lián)系的,這就造成了基于此假設(shè)而構(gòu)建的基頻模型和實(shí)際情況有偏差。因此,如圖8所示,在本發(fā)明基頻建 模系統(tǒng)的另一實(shí)施例中,所述系統(tǒng)還可進(jìn)一步包括:
模型參數(shù)優(yōu)化模塊604,用于基于DNN的方法對(duì)各韻律層的基頻模型參數(shù)進(jìn)行優(yōu)化,具體優(yōu)化過程可參照前面本發(fā)明方法實(shí)施例中的描述,在此不再贅述。
本發(fā)明實(shí)施例的基頻建模系統(tǒng),進(jìn)一步基于DNN對(duì)韻律層初始化后的基頻模型參數(shù)進(jìn)行優(yōu)化,由于DNN的非線性層級(jí)結(jié)構(gòu)可以更好地表征文本屬性組合,不容易出現(xiàn)過擬合,同時(shí)DNN在訓(xùn)練時(shí)不會(huì)對(duì)數(shù)據(jù)進(jìn)行劃分,可以更好地體現(xiàn)出整個(gè)數(shù)據(jù)空間的制約關(guān)系,有效防止數(shù)據(jù)稀疏問題。
本說明書中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,各個(gè)實(shí)施例之間相同相似的部分互相參見即可,每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處。尤其,對(duì)于系統(tǒng)實(shí)施例而言,由于其基本相似于方法實(shí)施例,所以描述得比較簡(jiǎn)單,相關(guān)之處參見方法實(shí)施例的部分說明即可。以上所描述的系統(tǒng)實(shí)施例僅僅是示意性的,其中所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上??梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部模塊來實(shí)現(xiàn)本實(shí)施例方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性勞動(dòng)的情況下,即可以理解并實(shí)施。
以上對(duì)本發(fā)明實(shí)施例進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體實(shí)施方式對(duì)本發(fā)明進(jìn)行了闡述,以上實(shí)施例的說明只是用于幫助理解本發(fā)明的方法及系統(tǒng);同時(shí),對(duì)于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實(shí)施方式及應(yīng)用范圍上均會(huì)有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。