一種波形拼接語音合成的選音方法
【專利摘要】本發(fā)明公開了一種波形拼接語音合成的選音方法,該方法包括以下步驟:基于原始音頻進行基于隱馬爾可夫的模型訓(xùn)練,得到聲學(xué)模型集及對應(yīng)的特征決策樹;輸入若干訓(xùn)練文本,基于特征決策樹搜索得到相關(guān)聲學(xué)模型,進而得到對應(yīng)的目標(biāo)語音和目標(biāo)音節(jié);根據(jù)目標(biāo)語音與其對應(yīng)的候選基元的相似度,和候選基元的各聲學(xué)參數(shù)在當(dāng)前聲學(xué)模型下的似然概率,訓(xùn)練得到相似度分類器;輸入任意待合成文本,基于相似度分類器剔除不相似的候選基元,對于剩余的候選基元,利用拼接代價最小原則選擇得到最佳基元,并拼接得到合成語音。采用本發(fā)明方法可以合成出較高音質(zhì)的語音。
【專利說明】一種波形拼接語音合成的選音方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及智能信息處理領(lǐng)域,尤其涉及一種波形拼接語音合成的選音方法。
【背景技術(shù)】
[0002]語音作為人類交流信息的主要手段之一,語音合成技術(shù)主要是讓計算機能夠產(chǎn)生高清晰度、高自然度的連續(xù)語音。在語音合成技術(shù)的發(fā)展過程中,早期的研究主要是采用參數(shù)合成方法,后來隨著計算機技術(shù)的發(fā)展又出現(xiàn)了波形拼接的合成方法。隨著語料庫的不斷增大,候選基元的數(shù)量也在不斷增長,如何根據(jù)輸入文本,選擇出最佳的基元進行拼接,越來越受到關(guān)注。
[0003]基于隱馬爾可夫模型的參數(shù)語音合成系統(tǒng)和基于基元選取的拼接系統(tǒng)是近十幾年最主流的語音合成技術(shù),而混合語音合成系統(tǒng)結(jié)合了二者的優(yōu)勢,采用了前者訓(xùn)練出的聲學(xué)模型來指導(dǎo)基元選取,從而選出更加合適的基元進行拼接。這種混合語音合成系統(tǒng)的選音方法比傳統(tǒng)拼接方法更加的穩(wěn)定,而且人工干預(yù)更少,但仍存在著很多的不足,主要表現(xiàn)在以下幾點:
[0004]1、選音方法并沒有體現(xiàn)人耳的感知作用,在現(xiàn)有選音方法中得一個高分,并不意味著選出了更適合人聽覺的語音;
[0005]2、選音方法采用了因素加權(quán)疊加的方法進行選音,即將基元的各個特征分別計算子代價,然后分別給予權(quán)重,再疊加成為一個總的選音代價來選音,該方法假定所有因素對基元的接受度的影響是線性疊加的,這顯然不符合事實。
【發(fā)明內(nèi)容】
[0006]為解決上述的一個或多個問題,本發(fā)明提供了一種波形拼接語音合成的選音方法。該方法結(jié)合了人的主觀聽覺感受,能選出最適合人耳聽感的基元,最終拼接出較好的語音?
[0007]本發(fā)明提供的波形拼接語音合成的選音方法包括以下步驟:
[0008]對原始音庫進行參數(shù)提取,并結(jié)合相應(yīng)文本標(biāo)注信息,進行基于隱馬爾可夫的模型訓(xùn)練;輸入若干訓(xùn)練文本,進行文本分析,利用決策樹搜索相關(guān)模型,并利用參數(shù)生成算法合成對應(yīng)目標(biāo)語音,并進行音節(jié)的切分,獲取目標(biāo)音節(jié);人工評判合成音節(jié)語音與其候選基元語音的相似度來作為分類屬性,同時計算候選基元各聲學(xué)參數(shù)的在當(dāng)前模型下的似然概率,作為輸入的特征向量,從而訓(xùn)練出一個相似度分類器;給定任意待合成文本,使用分類器剔除不相似的候選基元,對剩余的候選基元,利用拼接代價最小原則選擇最佳基元,最后拼接出合成語音。
[0009]從上述技術(shù)方案可以看出,本發(fā)明波形拼接語音合成的選音方法具有以下有益效果:
[0010](I)與參數(shù)合成的音節(jié)相似的基元,有與之相同的重音和語調(diào),采用這種標(biāo)準(zhǔn)選出的語音來進行拼接,可以得到兼?zhèn)浞€(wěn)定性和一致性的語音;[0011](2)與參數(shù)合成的音節(jié)相似的基元,也更容易拼接,因為它們在邊界處的特征更加趨于一致,不需要或僅需要很少的平滑,從而保證了原始語音的平滑和自然;
[0012](3)在選音中引入了人的主觀聽感因素,使選音結(jié)果更適合人的主觀喜好。
【專利附圖】
【附圖說明】
[0013]圖1為根據(jù)本發(fā)明一實施例的波形拼接語音合成的選音方法流程圖;
[0014]圖2為根據(jù)本發(fā)明一實施例的聲學(xué)模型訓(xùn)練流程;
[0015]圖3為根據(jù)本發(fā)明一實施例的隱馬爾可夫訓(xùn)練流程圖;
[0016]圖4為根據(jù)本發(fā)明一實施例的目標(biāo)音節(jié)的生成流程圖;
[0017]圖5為根據(jù)本發(fā)明一實施例的分類器訓(xùn)練流程圖;
[0018]圖6為根據(jù)本發(fā)明一實施例的根據(jù)分類器選音的流程圖。
【具體實施方式】
[0019]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚明白,以下結(jié)合具體實施例,并參照附圖,對本發(fā)明進一步詳細說明。
[0020]需要說明的是,在附圖或說明書描述中,相似或相同的部分都使用相同的圖號。附圖中未繪示或描述的實現(xiàn)方式,為所屬【技術(shù)領(lǐng)域】中普通技術(shù)人員所知的形式。另外,雖然本文可提供包含特定值的參數(shù)的示范,但應(yīng)了解,參數(shù)無需確切等于相應(yīng)的值,而是可在可接受的誤差容限或設(shè)計約束內(nèi)近似于相應(yīng)的值。
[0021]圖1為根據(jù)本發(fā)明一實施例的波形拼接語音合成的選音方法流程圖,如圖1所示,該選音方法包括以下步驟:
[0022]步驟SI,基于從音頻數(shù)據(jù)庫中提取得到的原始音頻進行基于隱馬爾可夫的模型訓(xùn)練,得到聲學(xué)模型集以及對應(yīng)的特征決策樹;
[0023]如圖2所示,所述步驟SI進一步包括以下步驟:
[0024]步驟S11,獲取音頻數(shù)據(jù)庫中的原始音頻;
[0025]步驟S12,對于所述原始音頻按幀進行頻譜參數(shù)和基頻參數(shù)的提?。?br>
[0026]所述步驟S12進一步包括以下步驟:
[0027]步驟S121,將所述原始音頻進行分幀加窗處理;
[0028]分幀加窗為現(xiàn)有技術(shù)中常用的音頻處理技術(shù),在此不作贅述。
[0029]步驟S122,對處理得到的每幀音頻比如用STRAIGHT算法提取其梅爾倒譜系數(shù);
[0030]在本發(fā)明一實施例中,首先提取25階靜態(tài)梅爾倒譜系數(shù),然后分別計算它們的一階差分和二階差分,最終得到的梅爾倒譜系數(shù)為75維。
[0031]步驟S123,計算每幀音頻的基頻參數(shù);
[0032]在本發(fā)明一實施例中,首先計算每幀音頻的基頻參數(shù),然后同樣計算它的一階差分和二階差分,最終得到的基頻參數(shù)為3維。
[0033]步驟S13,對于所述原始音頻對應(yīng)的文本進行同步的標(biāo)注,標(biāo)注出所述原始音頻中對應(yīng)音節(jié)的上下文特征信息,同時對所述原始音頻進行音段切分標(biāo)注;
[0034]在本發(fā)明一實施例中,以音節(jié)為單位進行上下文特征信息標(biāo)注,共使用了 66維的韻律結(jié)構(gòu)特征和24維的發(fā)音特征,所述標(biāo)注主要由人工進行。[0035]所述音段切分中的切分信息并不重要,本發(fā)明采用自動切分的結(jié)果。
[0036]步驟S14,基于所述原始音頻的頻譜參數(shù)和基頻參數(shù),上下文特征信息標(biāo)注,以及音段切分標(biāo)注,進行傳統(tǒng)的隱馬爾可夫模型訓(xùn)練,獲得包括時長、基頻和頻譜的模型集,以及各自的特征決策樹。
[0037]該步驟中,采用多空間概率分布的方式來進行建模,在本發(fā)明一實施例中,對于給定的參數(shù)和特征序列進行10狀態(tài)的隱馬爾可夫模型訓(xùn)練。具體的訓(xùn)練流程如圖3所示。
[0038]步驟S2,輸入若干訓(xùn)練文本,基于所述特征決策樹搜索得到相關(guān)聲學(xué)模型,進而得到對應(yīng)的目標(biāo)語音和目標(biāo)音節(jié);
[0039]如圖4所示,所述步驟S2進一步包括以下步驟:
[0040]步驟S21,輸入多個音節(jié)平衡的訓(xùn)練文本,經(jīng)過前端的文本分析,即通過最大熵等方法對文本中的特征進行提取,來獲取對應(yīng)的上下文特征序列;
[0041]基于最大熵的文本分析方法為現(xiàn)有技術(shù)中常用的文本分析技術(shù),在此不作贅述。
[0042]漢語中共有1300多個常用的音節(jié),因此,在本發(fā)明一實施例中,輸入500句音節(jié)平衡的文本,并經(jīng)過前端的文本分析,獲取對應(yīng)的上下文屬性;
[0043]步驟S22,把所述上下文特征序列輸入到所述特征決策樹中,獲取符合當(dāng)前上下文的聲學(xué)模型序列;
[0044]該步驟中,根據(jù)所述上下文特征序列中的上下文特征,分別對時長、基頻和頻譜參數(shù)的聚類樹進行決策,得到相應(yīng)的聲學(xué)模型序列與時長模型;
[0045]步驟S23,基于所述聲學(xué)模型序列,采用參數(shù)生成算法獲取目標(biāo)語音參數(shù);
[0046]所述目標(biāo)語音參數(shù)包括基頻和頻譜參數(shù);
[0047]步驟S24,基于所述目標(biāo)語音參數(shù),用聲碼器合成出目標(biāo)句子語音,并將所述目標(biāo)句子語音切分成目標(biāo)音節(jié)。
[0048]該步驟中,切分得到的目標(biāo)音節(jié)用于相似度比較的目標(biāo)語音。
[0049]步驟S3,根據(jù)所述目標(biāo)語音與其對應(yīng)的候選基元的相似度,和所述候選基元的各聲學(xué)參數(shù)在當(dāng)前聲學(xué)模型下的似然概率,訓(xùn)練得到相似度分類器;
[0050]如圖5所示,所述步驟S3進一步包括以下步驟:
[0051]步驟S31,將所述音頻數(shù)據(jù)庫中的句子按音節(jié)進行切分,切分得到的以音節(jié)為單位的音段,即為候選基元,把相同的音節(jié)歸為一類,以此構(gòu)建候選基元庫,并將所述步驟S12中提取得到的頻譜參數(shù)和基頻參數(shù)按幀分配給候選基元庫中的各個候選基元;
[0052]步驟S32,把每個所述目標(biāo)音節(jié)對應(yīng)的各個基元的聲學(xué)參數(shù)依次帶入所述步驟S22得到的上下文聲學(xué)模型中,計算各個基元的時長、基頻以及頻譜在其相應(yīng)聲學(xué)模型下的概率,并把所有概率的集合作為特征集合;
[0053]步驟S33,召集若干漢語母語者對所述目標(biāo)音節(jié)和候選基元的相似度進行二元標(biāo)注,即相似或不相似,并把此結(jié)果作為分類屬性;
[0054]每一類的音節(jié)數(shù)目各不相同,為了減少人工,在本發(fā)明一實施例中,每一類音節(jié)最多取30個音節(jié)用于相似度比較。
[0055]步驟S34,基于所述分類屬性和特征集合,進行相似度分類器的訓(xùn)練。
[0056]在本發(fā)明一實施例中,所述相似度分類器可采用CART分類器或SVM分類器,實驗表明采用二階多項式內(nèi)核的SVM有更好的分類效果。[0057]步驟S4,輸入任意待合成文本,基于所述相似度分類器剔除不相似的候選基元,即選音,對于剩余的候選基元,利用拼接代價最小原則選擇得到最佳基元,并拼接得到合成語
曰?
[0058] 如圖6所示,所述步驟S4進ー步包括以下步驟:
[0059]步驟S41,輸入待合成文本,并根據(jù)所述步驟S22獲取對應(yīng)的聲學(xué)模型;
[0060]步驟S42,根據(jù)所述步驟S32計算各基元的各聲學(xué)參數(shù)在當(dāng)前聲學(xué)模型下的似然概率集合,并將其作為特征集合;
[0061]步驟S43,將所述特征集合輸入至所述相似度分類器中,即可預(yù)測出各基元屬于相似類別還是不相似類別;
[0062]步驟S44,去除不相似類別中的所有基元,對剩余的基元采用拼接代價最小原則進行選音;
[0063]步驟S45,對選擇得到的基元進行加窗平滑,得到最終的合成語音。
[0064]綜上所述,本發(fā)明提出了ー種波形拼接語音合成的選音方法,該方法可以合成出較高音質(zhì)的語音。
[0065]需要說明的是,上述對各部件的實現(xiàn)方式并不僅限于實施方式中提到的各種實現(xiàn)方式,本領(lǐng)域的普通技術(shù)人員可對其進行簡單地熟知地替換,例如:
[0066](I)訓(xùn)練中采用的譜參數(shù)是梅爾倒譜系數(shù),可以用其它參數(shù)替代,如使用不同階數(shù)的線譜對參數(shù)。
[0067](2)對分類器訓(xùn)練中的輸入語句數(shù)量,可根據(jù)自己的計算精度進行適當(dāng)增減。
[0068]以上所述的具體實施例,對本發(fā)明的目的、技術(shù)方案和有益效果進行了進ー步詳細說明,所應(yīng)理解的是,以上所述僅為本發(fā)明的具體實施例而已,并不用于限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。
【權(quán)利要求】
1.一種波形拼接語音合成的選音方法,其特征在于,該方法包括以下步驟: 步驟SI,基于從音頻數(shù)據(jù)庫中提取得到的原始音頻進行基于隱馬爾可夫的模型訓(xùn)練,得到聲學(xué)模型集以及對應(yīng)的特征決策樹; 步驟S2,輸入若干訓(xùn)練文本,基于所述特征決策樹搜索得到相關(guān)聲學(xué)模型,進而得到對應(yīng)的目標(biāo)語音和目標(biāo)音節(jié); 步驟S3,根據(jù)所述目標(biāo)語音與其對應(yīng)的候選基元的相似度,和所述候選基元的各聲學(xué)參數(shù)在當(dāng)前聲學(xué)模型下的似然概率,訓(xùn)練得到相似度分類器; 步驟S4,輸入任意待合成文本,基于所述相似度分類器剔除不相似的候選基元,對于剩余的候選基元,利用拼接代價最小原則選擇得到最佳基元,并拼接得到合成語音。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟SI進一步包括以下步驟: 步驟S11,獲取音頻數(shù)據(jù)庫中的原始音頻; 步驟S12,對于所述原始音頻按幀進行頻譜參數(shù)和基頻參數(shù)的提??; 步驟S13,對于所述原始音頻對應(yīng)的文本進行同步的標(biāo)注,標(biāo)注出所述原始音頻中對應(yīng)音節(jié)的上下文特征信息,同時對所述原始音頻進行音段切分標(biāo)注; 步驟S14,基于所述原始音頻的頻譜參數(shù)和基頻參數(shù),上下文特征信息標(biāo)注,以及音段切分標(biāo)注,進行傳統(tǒng)的隱馬爾可夫模型訓(xùn)練,獲得包括時長、基頻和頻譜的模型集,以及各自的特征決策樹。
3.根據(jù)權(quán)利要求2所述 的方法,其特征在于,所述步驟S12進一步包括以下步驟: 步驟S121,將所述原始音頻進行分幀加窗處理; 步驟S122,對處理得到的每幀音頻提取其梅爾倒譜系數(shù); 步驟S123,計算每幀音頻的基頻參數(shù)。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟S2進一步包括以下步驟: 步驟S21,輸入多個音節(jié)平衡的訓(xùn)練文本,經(jīng)過文本分析來獲取對應(yīng)的上下文特征序列; 步驟S22,把所述上下文特征序列輸入到所述特征決策樹中,獲取符合當(dāng)前上下文的聲學(xué)模型序列; 步驟S23,基于所述聲學(xué)模型序列,采用參數(shù)生成算法獲取目標(biāo)語音參數(shù); 步驟S24,基于所述目標(biāo)語音參數(shù),用聲碼器合成出目標(biāo)句子語音,并將所述目標(biāo)句子語音切分成目標(biāo)音節(jié)。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述文本分析為對文本中的特征進行提取。
6.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述步驟S22中,根據(jù)所述上下文特征序列中的上下文特征,分別對時長、基頻和頻譜參數(shù)的聚類樹進行決策,得到相應(yīng)的聲學(xué)模型序列與時長模型。
7.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述目標(biāo)語音參數(shù)包括基頻和頻譜參數(shù)。
8.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述步驟S3進一步包括以下步驟: 步驟S31,將所述音頻數(shù)據(jù)庫中的句子按音節(jié)進行切分,切分得到的以音節(jié)為單位的音段,即為候選基元,把相同的音節(jié)歸為一類,以此構(gòu)建候選基元庫,并將所述步驟S12中提取得到的頻譜參數(shù)和基頻參數(shù)按幀分配給候選基元庫中的各個候選基元;步驟S32,把每個所述目標(biāo)音節(jié)對應(yīng)的各個基元的聲學(xué)參數(shù)依次帶入所述步驟S22得到的上下文聲學(xué)模型中,計算各個基元的時長、基頻以及頻譜在其相應(yīng)聲學(xué)模型下的概率,并把所有概率的集合作為特征集合; 步驟S33,召集若干漢語母語者對所述目標(biāo)音節(jié)和候選基元的相似度進行二元標(biāo)注,即相似或不相似,并把此結(jié)果作為分類屬性; 步驟S34,基于所述分類屬性和特征集合,進行相似度分類器的訓(xùn)練。
9.根據(jù)權(quán)利要求8所述的方法,其特征在于,所述步驟S4進一步包括以下步驟: 步驟S41,輸入待合成文本,并根據(jù)所述步驟S22獲取對應(yīng)的聲學(xué)模型; 步驟S42,根據(jù)所述步驟S32計算各基元的各聲學(xué)參數(shù)在當(dāng)前聲學(xué)模型下的似然概率集合,并將其作為特征集合; 步驟S43,將所述特征集合輸入至所述相似度分類器中,即可預(yù)測出各基元屬于相似類別還是不相似類別; 步驟S44,去除不相似類別中的所有基元,對剩余的基元采用拼接代價最小原則進行選曰; 步驟S45,對選擇得到的基元進行加窗平滑,得到最終的合成語音。
【文檔編號】G10L13/02GK103531196SQ201310481306
【公開日】2014年1月22日 申請日期:2013年10月15日 優(yōu)先權(quán)日:2013年10月15日
【發(fā)明者】陶建華, 張冉, 溫正棋 申請人:中國科學(xué)院自動化研究所