專利名稱:語音庫生成設(shè)備及其方法、語音合成系統(tǒng)及其方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語音合成技術(shù)領(lǐng)域,更具體地,涉及一種語音庫生成設(shè)備及其方法,以及一種語音合成系統(tǒng)及其方法,實現(xiàn)了自動收集預(yù)定的語音數(shù)據(jù),以及提供特定發(fā)音人的合成的語音。
背景技術(shù):
實現(xiàn)人機之間人性化、智能化的有效交互,構(gòu)建高效自然的人機交流環(huán)境,已經(jīng)成為當(dāng)前信息技術(shù)應(yīng)用和發(fā)展的迫切需求。作為語音技術(shù)中十分實用的一項重要技術(shù),語音合成技術(shù),或稱文語轉(zhuǎn)換技術(shù)TTSCText-To-Speech),將文字信息轉(zhuǎn)化為自然的語音信號, 實現(xiàn)任意文本的實時轉(zhuǎn)換。它賦予計算機像人一樣自如說話的能力,改變了傳統(tǒng)通過錄音回放實現(xiàn)機器開口說話的繁瑣操作,并節(jié)省了系統(tǒng)存儲空間,在信息交互日益增多的當(dāng)今特別是在信息內(nèi)容需要經(jīng)常變動的動態(tài)查詢應(yīng)用方法中發(fā)揮了越來越重要的作用。計算機技術(shù)和數(shù)字信號處理技術(shù)的發(fā)展促成了語音合成技術(shù)的發(fā)展和實際應(yīng)用?;趩卧暨x的波形拼接語音合成方法由于計算機運算能力和存儲容量的提高運用了更大規(guī)模的音庫及引入更精細(xì)的單元挑選策略,在很大幅度上提高了合成語音的音質(zhì),音色和自然度。而另一主流語音合成技術(shù),基于隱馬爾可夫模型(hidden Markov model,HMM)的參數(shù)語音合成方法,也因其更好的魯棒性能和推廣性獲得很多研究人員的推崇。作為語音合成系統(tǒng)重要組成部分的音庫,其質(zhì)量如數(shù)據(jù)規(guī)模,精細(xì)度,自然度以及準(zhǔn)確度等對語音合成系統(tǒng)性能有著重要影響。在基于單元挑選的波形拼接語音合成方法中,系統(tǒng)根據(jù)輸入文本信息直接從標(biāo)注好的語音庫中挑選合適的單元(音節(jié)、音素、狀態(tài)、幀等)并拼接得到連續(xù)語音段。顯然當(dāng)語料庫中樣本單元數(shù)量過少或語境環(huán)境單一時,很可能出現(xiàn)挑選不到合適單元的情況,導(dǎo)致合成效果急劇下降;而在基于隱馬爾可夫模型(hidden Markov model,HMM)的參數(shù)語音合成方法中,系統(tǒng)首先對語音信號進(jìn)行參數(shù)化分解并建立各參數(shù)對應(yīng)的統(tǒng)計模型,隨后在合成時利用訓(xùn)練得到的統(tǒng)計模型預(yù)測待合成文本的語音參數(shù),并恢復(fù)最終的合成語音。當(dāng)標(biāo)注音庫規(guī)模過小或者沒有正確標(biāo)注時,其模型精確度將得不到有效保障,進(jìn)而造成合成效果的明顯下降。傳統(tǒng)合成系統(tǒng)音庫的構(gòu)建需要經(jīng)過設(shè)計、錄音、標(biāo)注等三個階段。首先在設(shè)計階段,研究人員在收集大量的語料文本后通過考察音素覆蓋率人工篩檢得到合適的錄音語料。隨后在錄音階段尋找嗓音良好、發(fā)音標(biāo)準(zhǔn)、具有一定播音功底的發(fā)音人,在專業(yè)錄音棚的錄制環(huán)境下完成所述錄音語料的音庫錄制。最后在標(biāo)注階段由專業(yè)標(biāo)注人員對錄制的音庫語音數(shù)據(jù)完成文本修訂、音段切分、韻律標(biāo)注等處理??梢钥闯?,傳統(tǒng)語音合成系統(tǒng)中音庫構(gòu)建主要依賴人工操作,需要安排專業(yè)錄音人員選擇對韻律和音段進(jìn)行手工標(biāo)注,其構(gòu)建所需工作量較大,制作周期較長,因而音庫規(guī)模往往受限。另一方面由于音庫的錄制標(biāo)注工作對技術(shù)專業(yè)要求較高,語音合成系統(tǒng)往往只能提供有限特定的若干發(fā)音人音色,難以響應(yīng)多樣化的應(yīng)用需求??傊?,構(gòu)建傳統(tǒng)音庫需要大量的人力和工作量,且難以適應(yīng)網(wǎng)絡(luò)時代定制化和個性化需求的問題。
發(fā)明內(nèi)容
為了解決上述問題,提出了本發(fā)明。本發(fā)明的目的是提出一種語音庫生成設(shè)備及語音庫生成方法,以及一種語音合成系統(tǒng)和語音合成方法。根據(jù)本發(fā)明的語音庫生成設(shè)備可以通過自動收集特定發(fā)音人的語音數(shù)據(jù)生成語音庫。由于采用自動收集的方式而無需人工收集特定發(fā)音人的語音,語音庫規(guī)模較大,從而語音合成系統(tǒng)通過采用所述語音庫可以提供適用于特定發(fā)音人的語音合成,且語音合成系統(tǒng)性能得到了提高。根據(jù)本發(fā)明第一方面,提供了一種語音庫生成設(shè)備,包括語音提取裝置,用于從收集的數(shù)據(jù)中提取預(yù)定發(fā)音人的語音數(shù)據(jù);語音識別裝置,用于將所述預(yù)定發(fā)音人的語音數(shù)據(jù)識別為文本;文本標(biāo)注裝置,用于對所述文本進(jìn)行標(biāo)注。根據(jù)本發(fā)明第二方面,提供了一種語音庫生成方法,包括語音提取步驟,從收集的數(shù)據(jù)中提取預(yù)定發(fā)音人的語音數(shù)據(jù);語音識別步驟,將所述預(yù)定發(fā)音人的語音數(shù)據(jù)識別為文本;文本標(biāo)注步驟,對所述文本進(jìn)行標(biāo)注。根據(jù)本發(fā)明第三方面,提供了一種語音合成系統(tǒng),包括分詞裝置,用于對輸入的文本進(jìn)行分詞;查找裝置,用于根據(jù)分詞結(jié)果查找預(yù)定發(fā)音人語音庫中與文本對應(yīng)的至少一個預(yù)定發(fā)音人的語音片段;選擇裝置,用于從查找的預(yù)定發(fā)音人的語音片段中選擇最優(yōu)的語音片段;以及合成裝置,用于將挑選的語音片段拼接以合成連續(xù)的預(yù)定發(fā)音人的語音序列。根據(jù)本發(fā)明第四方面,提供了一種語音合成方法,包括分詞步驟,對輸入的文本進(jìn)行分詞;查找步驟,根據(jù)分詞結(jié)果查找語音庫中與文本對應(yīng)的至少一個預(yù)定發(fā)音人的語音片段;選擇步驟,從查找的預(yù)定發(fā)音人的語音片段中選擇最優(yōu)的語音片段;以及合成步驟,將挑選的語音片段拼接以合成連續(xù)的預(yù)定發(fā)音人的語音序列。由于本發(fā)明通過從網(wǎng)絡(luò)世界中海量非專業(yè)級語音數(shù)據(jù)中收集有效數(shù)據(jù)并通過自動處理,生成了語音庫,節(jié)約了大量的人力成本,縮短語音合成系統(tǒng)的構(gòu)建周期以及方便對 其更新。
從下面結(jié)合附圖的詳細(xì)描述中,本發(fā)明的上述特征和優(yōu)點將更明顯,其中圖I是根據(jù)本發(fā)明的語音庫生成設(shè)備的示意圖;圖2是預(yù)處理裝置的一個示例;圖3是根據(jù)本發(fā)明的語音庫生成設(shè)備生成語音庫的流程圖;圖4是數(shù)據(jù)信號預(yù)處理方法的流程圖;圖5是根據(jù)本發(fā)明的語音提取方法的流程圖;圖6是根據(jù)本發(fā)明的語音識別方法的流程圖;圖7是根據(jù)本發(fā)明語音合成系統(tǒng)的示意圖;圖8示出了根據(jù)本發(fā)明的語音合成方法的流程圖。
具體實施方式
下面,參考附圖詳細(xì)說明本發(fā)明的優(yōu)選實施方式。在附圖中,雖然示于不同的附圖中,但相同的附圖標(biāo)記用于表示相同的或相似的組件。為了清楚和簡明,包含在這里的已知的功能和結(jié)構(gòu)的詳細(xì)描述將被省略,否則它們將使本發(fā)明的主題不清楚。圖I示出了根據(jù)本發(fā)明的語音庫生成設(shè)備的方框圖。語音庫生成設(shè)備包括用于對原始收集的數(shù)據(jù)進(jìn)行預(yù)處理的預(yù)處理裝置10 ;用于從預(yù)處理的語音數(shù)據(jù)中提取特定發(fā)音人的語音數(shù)據(jù)的語音提取裝置20 ;用于識別特定發(fā)音人的語音數(shù)據(jù)對應(yīng)文本的語音識別裝置30 ;對獲取的文本分析獲得標(biāo)注信息以生成語音庫的文本標(biāo)注裝置40和用于存儲生成的語音庫的存儲裝置(未示出)。其中,生成的語音庫可以包括特定發(fā)音人的語音波形數(shù)據(jù)和其相關(guān)的標(biāo)注信息。語音提取裝置20包括用于提取輸入語音的語音聲紋特征序列的聲紋特征提取單元201 ;用于計算提取的語音聲紋特征序列與背景模型的第一似然度的 第一計算單元202 ;用于計算提取的語音聲紋特征序列與特定發(fā)音人的說話人聲紋模型的第二似然度的第二計算單元203以及比較第二似然度與第一似然度之比并將比值大于預(yù)定閾值的語音數(shù)據(jù)確定為特定發(fā)音人的語音數(shù)據(jù)的第一判別單元204。語音識別裝置30包括用于從特定發(fā)音人的語音數(shù)據(jù)中提取語音聲學(xué)參數(shù)并解碼為文本的識別單元301 ;用于計算解碼的置信度的置信度計算單元302和將置信度大于預(yù)定閾值的數(shù)據(jù)判斷為有效文本的第二判別單元303。圖2示出了預(yù)處理裝置10的一個示例。由于輸入語音庫生成設(shè)備的語音數(shù)據(jù)是從各種信息渠道收集,其質(zhì)量參差不齊,因此需要對輸入的語音數(shù)據(jù)進(jìn)行預(yù)處理以獲取有效的語音數(shù)據(jù)。預(yù)處理裝置10包括規(guī)整單元101 ;信道均衡單元102 ;分句處理單元103和噪音去除單元104。預(yù)處理裝置10可以采用現(xiàn)有技術(shù)實現(xiàn)。此外,預(yù)處理裝置10可以包括音頻視頻分離單元(未示出),用于對收集到的視頻文件進(jìn)行音頻視頻分離轉(zhuǎn)錄其中的音軌數(shù)據(jù)以獲得語音數(shù)據(jù)。下面將參考圖3-圖6具體描述本發(fā)明的語音庫生成設(shè)備如何生成語音庫的處理流程。圖3示出了根據(jù)本發(fā)明的語音庫生成設(shè)備生成語音庫的示意處理流程。輸入語音庫生成設(shè)備的語音數(shù)據(jù)可以是從各種信息渠道海量非專業(yè)級語音數(shù)據(jù)中收集的數(shù)據(jù),例如,從豐富的網(wǎng)絡(luò)資源或電視、廣播等渠道收集的各種音頻、視頻數(shù)據(jù),如影視劇、有聲小說、電話留言。由于原始收集的音視頻信號來源復(fù)雜,質(zhì)量也參差不齊,在步驟S60,預(yù)處理裝置10對收集的音視頻信號執(zhí)行預(yù)處理,以提取有效的語音數(shù)據(jù)。在步驟S61,語音提取裝置20從收集的多人的語音數(shù)據(jù)中提取特定發(fā)音人的語音數(shù)據(jù)。通常為了提高合成語音的可懂度及自然度,構(gòu)建語音庫時需要考慮對某些特定發(fā)音人的合成語音提供支持,本發(fā)明可以采用聲紋識別等技術(shù)對語音的發(fā)音人身份進(jìn)行判斷,獲得所述特定發(fā)音人的語音數(shù)據(jù)。在步驟S62,語音識別裝置30將特定發(fā)音人的語音數(shù)據(jù)識別為文本。特別的,為了確保語音識別(轉(zhuǎn)寫)的準(zhǔn)確性,本發(fā)明提出一種基于置信度判別的算法,在對語音信號通過語音識別等技術(shù)進(jìn)行識別后進(jìn)一步計算該識別的置信度。只有當(dāng)該置信度高于預(yù)定閾值時該語音信號才被判定為有效語音數(shù)據(jù)。在步驟S63,文本標(biāo)注裝置40對有效語音數(shù)據(jù)通過文本分析,獲取上下文韻律等標(biāo)注信息作為文本的標(biāo)注。由于輸入語音庫生成設(shè)備的語音數(shù)據(jù)是從各種信息渠道收集,其質(zhì)量參差不齊,因此需要對輸入的語音數(shù)據(jù)進(jìn)行預(yù)處理以提高采集數(shù)據(jù)的質(zhì)量。圖4具體示出了數(shù)據(jù)信號預(yù)處理方法的流程圖。首先在步驟S70,規(guī)整單元101需要對收集的信號進(jìn)行格式和能量的規(guī)整。具體的,對收集到的各種語音數(shù)據(jù)做格式和能量的規(guī)整,比如轉(zhuǎn)成16k,16bit wav格式等??蛇x地,音頻視頻分離單元可以收集視頻文件中的語音數(shù)據(jù),對收集到的視頻文件進(jìn)行音視頻分離轉(zhuǎn)錄其中的音軌數(shù)據(jù)以獲得語音數(shù)據(jù)。之后,在步驟S71,信道均衡單元102對規(guī)整的數(shù)據(jù)執(zhí)行信道均衡等處理以減少噪音對語音信號的干擾,提高語音數(shù)據(jù)質(zhì)量。原始收集的數(shù)據(jù)由于來源信道不同或在不同環(huán)境下錄制,語音聽感差異往往較大。對此本發(fā)明采用信道均衡技術(shù),將任意批次的數(shù)據(jù)信道均衡處理到預(yù)先指定的某個批次數(shù)據(jù)的聽感感覺上。 在步驟S72,分句處理單元103利用端點檢測技術(shù)對收集到的語音數(shù)據(jù)分句處理??梢酝ㄟ^對語音信號的短時能量和短時過零率等進(jìn)行分析,將連續(xù)的語音信號分割成獨立的語音片斷和非語音片斷,并標(biāo)定每一段人聲語音的起始位置。在步驟S73,噪音去除單元104刪除收集數(shù)據(jù)中無意義的噪音段。根據(jù)步驟S72的端點檢測結(jié)果,對界定為非純凈人聲的聲音標(biāo)定為噪聲或靜音段直接丟棄。在對收集的數(shù)據(jù)預(yù)處理之后,語音提取裝置提取語音數(shù)據(jù)。圖5示出了根據(jù)本發(fā)明的語音提取裝置提取語音數(shù)據(jù)的方法的流程圖。為了提高合成語音的可懂度及自然度,語音庫可以支持特定發(fā)音人的合成語音。例如,特定發(fā)音人可以是預(yù)定的,也可以由用戶指定。預(yù)定的特定發(fā)音人可以是名人,卡通人物等公眾人物,用戶指定的特定發(fā)音人可以是用戶喜愛的特定人物等。
語音提取裝置20采用了聲紋識別等技術(shù)對語音發(fā)音人的身份進(jìn)行判斷,通過分別計算作為收集的語音數(shù)據(jù)所對應(yīng)的語音段的聲紋特征序列和特定發(fā)音人聲紋模型的匹配得分以及該聲紋特征序列和背景模型的匹配得分的比值,確認(rèn)其和預(yù)定閾值的大小關(guān)系,以確定收集的語音數(shù)據(jù)的有效性。具體地,在步驟S80,聲紋特征提取單元201從預(yù)處理的語音數(shù)據(jù)中提取語音聲紋特征序列。該聲紋特征序列包含一組聲紋特征,可以有效地區(qū)分不同的說話人,且對同一說話人的變化保持相對穩(wěn)定。所述聲紋特征主要有譜包絡(luò)參數(shù)語音特征,基音輪廓、共振峰頻率帶寬特征,線性預(yù)測系數(shù),倒譜系數(shù)等??紤]到上述聲紋特征的可量化性、訓(xùn)練樣本的數(shù)量和系統(tǒng)性能的評價等問題,可以選用Mel頻率倒譜系數(shù)MFCC (Mel Frequency CepstrumCoefficient,)特征,對窗長25ms巾貞移IOms的每巾貞語音數(shù)據(jù)做短時分析得到MFCC參數(shù)及其一階二階差分,共計39維。從而將每句語音信號量化為一個39維聲紋特征矢量序列X。在步驟S81,第一計算單元202計算所述聲紋特征序列與背景模型(UBM)(Universal Background Model)的似然度。具體的,本發(fā)明設(shè)定背景模型為GMM(GuassianMixture Model)模型并計算幀數(shù)為T的聲紋特征矢量序列X相應(yīng)于背景模型的似然度為P(XIUBM) = ^X ZcmN(Xt;//m,Em)
I t:l m:l( I )
其中,Cni是第m個高斯的加權(quán)系數(shù),滿足
權(quán)利要求
1.ー種語音庫生成設(shè)備,包括 語音提取裝置,用于從收集的數(shù)據(jù)中提取預(yù)定發(fā)音人的語音數(shù)據(jù); 語音識別裝置,用于將所述預(yù)定發(fā)音人的語音數(shù)據(jù)識別為文本; 文本標(biāo)注裝置,用于對所述文本進(jìn)行標(biāo)注。
2.如權(quán)利要求I所述的語音庫生成設(shè)備,其中還包括 預(yù)處理裝置,用于對收集的數(shù)據(jù)進(jìn)行預(yù)處理。
3.如權(quán)利要求I或2所述的語音庫生成設(shè)備,其中所述語音提取裝置包括 聲紋特征提取單元,用于提取收集的數(shù)據(jù)中的語音聲紋特征序列; 第一計算單元,用于計算所述語音聲紋特征序列與背景模型的第一似然度; 第二計算單元,用于計算所述語音聲紋特征序列與預(yù)定發(fā)音人的說話人聲紋模型的第ニ似然度; 第一判別單元,用于將所述第二似然度與所述第一似然度之比大于第一閾值的語音數(shù)據(jù)確定為預(yù)定發(fā)音人的語音數(shù)據(jù)。
4.如權(quán)利要求I至3之一所述的語音庫生成設(shè)備,其中所述語音識別裝置包括 識別單元,用于從預(yù)定發(fā)音人的語音數(shù)據(jù)中提取語音聲學(xué)參數(shù),將所述語音聲學(xué)參數(shù)解碼以獲得第一識別文本; 置信度計算單元,用于計算所述解碼的置信度; 第二判別單元,用于將所述置信度大于第二閾值的所述第一識別文本確定為第二識別文本。
5.ー種語音庫生成方法,包括 語音提取步驟,從收集的數(shù)據(jù)中提取預(yù)定發(fā)音人的語音數(shù)據(jù); 語音識別步驟,將所述預(yù)定發(fā)音人的語音數(shù)據(jù)識別為文本; 文本標(biāo)注步驟,對所述文本進(jìn)行標(biāo)注。
6.如權(quán)利要求5所述的語音庫生成方法,其中還包括 預(yù)處理步驟,對收集的數(shù)據(jù)進(jìn)行預(yù)處理。
7.如權(quán)利要求5或6所述的語音庫生成方法,其中所述語音提取步驟包括 聲紋特征提取步驟,提取收集的數(shù)據(jù)中的語音聲紋特征序列; 第一計算步驟,計算所述語音聲紋特征序列與背景模型的第一似然度; 第二計算步驟,計算所述語音聲紋特征序列與預(yù)定發(fā)音人的說話人聲紋模型的第二似然度; 第一判別步驟,將所述第二似然度與所述第一似然度之比大于第一閾值的語音數(shù)據(jù)確定為預(yù)定發(fā)音人的語音數(shù)據(jù)。
8.如權(quán)利要求5至7之一所述的語音庫生成方法,其中所述語音識別步驟包括 識別步驟,從預(yù)定發(fā)音人的語音數(shù)據(jù)中提取語音聲學(xué)參數(shù),將所述語音聲學(xué)參數(shù)解碼以獲得第一識別文本; 置信度計算步驟,計算所述解碼的置信度; 第二判別步驟,將所述置信度大于第二閾值的所述第一識別文本確定為第二識別文本。
9.一種語音合成系統(tǒng),包括分詞裝置,用于對輸入的文本進(jìn)行分詞; 查找裝置,用于根據(jù)分詞結(jié)果查找預(yù)定發(fā)音人語音庫中與文本對應(yīng)的至少ー個預(yù)定發(fā)音人的語音片段; 選擇裝置,用于從查找的預(yù)定發(fā)音人的語音片段中選擇最優(yōu)的語音片段;以及 合成裝置,用于將挑選的語音片段拼接以合成連續(xù)的預(yù)定發(fā)音人的語音序列。
10.如權(quán)利要求9所述的語音合成系統(tǒng),其中還包括用于生成語音庫的語音庫生成設(shè)備,所述語音庫生成設(shè)備包括 語音提取裝置,用于從收集的數(shù)據(jù)中提取預(yù)定發(fā)音人的語音數(shù)據(jù); 語音識別裝置,用于將所述預(yù)定發(fā)音人的語音數(shù)據(jù)識別為文本; 文本標(biāo)注裝置,用于對所述文本進(jìn)行標(biāo)注。
11.如權(quán)利要求9或10所述的語音合成系統(tǒng),其中還包括用于在滿足第一預(yù)定條件時更新預(yù)定發(fā)音人語音庫的第一更新裝置。
12.如權(quán)利要求9或10所述的語音合成系統(tǒng),其中還包括用于在滿足第二預(yù)定條件時更新語音合成系統(tǒng)的第二更新裝置。
13.—種語音合成方法,包括 分詞步驟,對輸入的文本進(jìn)行分詞; 查找步驟,根據(jù)分詞結(jié)果查找預(yù)定發(fā)音人語音庫中與文本對應(yīng)的至少ー個預(yù)定發(fā)音人的語音片段; 選擇步驟,從查找的預(yù)定發(fā)音人的語音片段中選擇最優(yōu)的語音片段;以及 合成步驟,將挑選的語音片段拼接以合成連續(xù)的預(yù)定發(fā)音人的語音序列。
14.如權(quán)利要求13所述的語音合成方法,其中還包括生成語音庫的語音庫生成步驟,所述語音庫生成步驟包括 語音提取步驟,從收集的數(shù)據(jù)中提取預(yù)定發(fā)音人的語音數(shù)據(jù); 語音識別步驟,將所述預(yù)定發(fā)音人的語音數(shù)據(jù)識別為文本; 文本標(biāo)注步驟,對所述文本進(jìn)行標(biāo)注。
15.如權(quán)利要求13或14所述的語音合成方法,其中還包括用于在滿足第一預(yù)定條件時更新預(yù)定發(fā)音人語音庫的第一更新步驟。
16.如權(quán)利要求13或14所述的語音合成方法,其中還包括用于在滿足第二預(yù)定條件時采用自適應(yīng)算法的第二更新步驟。
全文摘要
本發(fā)明提供一種語音庫生成設(shè)備及其方法,所述語音庫生成設(shè)備包括語音提取裝置,用于從收集的數(shù)據(jù)中提取預(yù)定發(fā)音人的語音數(shù)據(jù);語音識別裝置,用于將所述預(yù)定發(fā)音人的語音數(shù)據(jù)識別為文本;文本標(biāo)注裝置,用于對所述文本進(jìn)行標(biāo)注。以及本發(fā)明提供一種語音合成系統(tǒng)及其方法。由于本發(fā)明通過自動收集數(shù)據(jù)并自動處理,生成語音庫,節(jié)約了大量的人力成本。此外,縮短語音合成系統(tǒng)的構(gòu)建周期以及方便對其進(jìn)行更新,并實現(xiàn)個性化定制。
文檔編號G06F17/27GK102779508SQ201210091240
公開日2012年11月14日 申請日期2012年3月31日 優(yōu)先權(quán)日2012年3月31日
發(fā)明者凌震華, 劉慶峰, 江源, 胡國平, 胡郁 申請人:安徽科大訊飛信息科技股份有限公司