本發(fā)明涉及語音合成,特別涉及一種基于bert特征和風(fēng)格編碼的低資源語音合成系統(tǒng)。
背景技術(shù):
1、近年來,語音合成隨著ai技術(shù)的進(jìn)步,在大規(guī)模的高質(zhì)量的語音數(shù)據(jù)前提下,目前的tts模型(語音合成模型)已經(jīng)有較好的表現(xiàn)。但是在低資源數(shù)據(jù)情況下,即僅用用戶少量的錄音數(shù)據(jù)來進(jìn)行語音合成的情況下。語音合成的效果往往會(huì)出現(xiàn)音色不像,韻律欠缺,發(fā)音不準(zhǔn)確的問題。因此,就目前的tts技術(shù)來說,在少量數(shù)據(jù)的基礎(chǔ)下,給定指定的文本,可以合成在音色和音質(zhì)上可媲美單人語音合成的高質(zhì)量的音頻,是比較具有挑戰(zhàn)性的任務(wù)。
2、然而,目前低資源個(gè)性化的語音合成算法策略主要是采用預(yù)訓(xùn)練與微調(diào)結(jié)合的策略,即先在一個(gè)很大的多說話人語料數(shù)據(jù)集上做模型預(yù)訓(xùn)練,然后用目標(biāo)說話人的少量數(shù)據(jù)去對(duì)模型做微調(diào)。由于目標(biāo)說話人的數(shù)據(jù)量較少,目前的語音合成技術(shù)往往會(huì)出現(xiàn)音色相似度較低,韻律性欠缺,發(fā)音不準(zhǔn)確的問題。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)提供一種基于bert特征和風(fēng)格編碼的低資源語音合成系統(tǒng),以解決現(xiàn)有聲音合成技術(shù)無法在低資源的情況下合成較為準(zhǔn)確的人聲問題。
2、所述系統(tǒng)包括:
3、音頻獲取模塊,所述音頻獲取模塊被配置為獲取待合成的音頻數(shù)據(jù),所述音頻數(shù)據(jù)包括梅爾譜和文本數(shù)據(jù);
4、梅爾譜風(fēng)格編碼模塊,所述梅爾譜風(fēng)格編碼模塊被配置為根據(jù)所述梅爾譜進(jìn)行音色預(yù)測(cè)處理,得到風(fēng)格特征;所述音色預(yù)測(cè)處理包括根據(jù)幀數(shù)級(jí)別的所述梅爾譜以及所述梅爾譜對(duì)應(yīng)的時(shí)序進(jìn)行全局編碼;其中,所述梅爾譜風(fēng)格編碼模塊包括多個(gè)采用層疊分布的注意力層,每一個(gè)注意力層由多個(gè)并行設(shè)置的注意力頭構(gòu)成;所述梅爾譜風(fēng)格編碼模塊還配置為,根據(jù)所述梅爾譜劃得到多個(gè)子序列,動(dòng)態(tài)確定每一子序列對(duì)應(yīng)的一個(gè)或多個(gè)注意力頭,以根據(jù)所述注意力層中的所述一個(gè)或多個(gè)注意力頭分別對(duì)所述子序列進(jìn)行注意力權(quán)重的計(jì)算,并根據(jù)注意力權(quán)重完成全局編碼;
5、bert文本編碼模塊,所述bert文本編碼模塊被配置為根據(jù)所述文本數(shù)據(jù)進(jìn)行詞語語句預(yù)測(cè)處理,得到文本特征;所述詞語語句預(yù)測(cè)處理包括句子編碼預(yù)測(cè)、詞語編碼預(yù)測(cè)、根據(jù)句子編碼預(yù)測(cè)和詞語編碼預(yù)測(cè)的結(jié)果進(jìn)行拼接處理以及根據(jù)拼接處理后的結(jié)果進(jìn)行文本訓(xùn)練;
6、對(duì)齊框架模塊,所述對(duì)齊框架模塊被配置為根據(jù)所述梅爾譜和所述文本數(shù)據(jù)進(jìn)行音高對(duì)齊預(yù)測(cè)處理,得到音高能量特征;
7、標(biāo)準(zhǔn)化融合模塊,所述標(biāo)準(zhǔn)化融合模塊被配置為將所述風(fēng)格特征、所述文本特征和所述音高能量特征進(jìn)行標(biāo)準(zhǔn)化融合處理,得到目標(biāo)合成音頻數(shù)據(jù)。
8、優(yōu)選的,所述梅爾譜風(fēng)格編碼模塊還被配置為:
9、對(duì)所述梅爾譜進(jìn)行幀數(shù)級(jí)別的注意力機(jī)制特征預(yù)測(cè),得到所述風(fēng)格特征;所述注意力機(jī)制特征預(yù)測(cè)按照時(shí)序進(jìn)行。
10、優(yōu)選的,所述梅爾譜風(fēng)格編碼模塊包括:
11、光譜全連接單元,所述光譜全連接單元被配置為通過內(nèi)置的全連接層將所述梅爾譜轉(zhuǎn)換為幀數(shù)級(jí)別的隱狀態(tài)序列;
12、全局特征建模單元,所述全局特征建模單元被配置為利用門控卷積神經(jīng)網(wǎng)絡(luò)捕獲所述隱狀態(tài)序列中的時(shí)序信息,所述時(shí)序信息包括對(duì)應(yīng)所述隱狀態(tài)序列每一幀數(shù)的時(shí)序;其中,所述門控卷積神經(jīng)網(wǎng)絡(luò)包括多個(gè)門控卷積層,多個(gè)門控卷積層之間采用殘差連接的方式進(jìn)行處理;
13、注意力機(jī)制和殘差連接單元,所述注意力機(jī)制和殘差連接單元由多個(gè)采用層疊分布的注意力層構(gòu)成,多個(gè)注意力層之間采用殘差連接,每一個(gè)注意力層由多個(gè)并行設(shè)置的注意力頭構(gòu)成;所述注意力機(jī)制和殘差連接單元被配置為根據(jù)所述時(shí)序信息對(duì)所述隱狀態(tài)序列進(jìn)行全局編碼,得到所述風(fēng)格特征;
14、所述注意力機(jī)制和殘差連接單元中,每一所述注意力層包括有預(yù)設(shè)的一個(gè)或多個(gè)第一注意力頭,以及一個(gè)或多個(gè)第二注意力頭;其中,所述第一注意力頭均為激活狀態(tài),所述第二注意力頭配置為,根據(jù)上一層級(jí)所述注意力層輸出的注意力權(quán)重,將當(dāng)前層級(jí)的注意力層中的至少部分第二注意力頭調(diào)整為激活狀態(tài);
15、根據(jù)所述第一注意力頭以及處于激活狀態(tài)的第二注意力頭對(duì)所述子序列進(jìn)行注意力權(quán)重的計(jì)算。
16、優(yōu)選的,所述注意力機(jī)制和殘差連接單元還被配置為:
17、對(duì)所述隱狀態(tài)序列的每一幀數(shù)進(jìn)行多次注意力機(jī)制計(jì)算,得到對(duì)應(yīng)同一幀數(shù)的多個(gè)注意力機(jī)制計(jì)算結(jié)果;
18、計(jì)算同一幀數(shù)的所有所述注意力機(jī)制計(jì)算結(jié)果的平均,得到平均向量;
19、將每一幀數(shù)的所有平均向量進(jìn)行殘差加和,得到所述風(fēng)格特征。
20、優(yōu)選的,所述bert文本編碼模塊還被配置為:
21、根據(jù)所述文本數(shù)據(jù)分別進(jìn)行詞語編碼預(yù)測(cè)和句子編碼預(yù)測(cè),分別得到詞語語義特征和句子語義特征;
22、將所述詞語語義特征和所述句子語義特征進(jìn)行拼接,得到所述文本特征。
23、優(yōu)選的,所述bert文本編碼模塊包括:
24、bert文本單元,所述bert文本單元被配置為對(duì)所述文本數(shù)據(jù)進(jìn)行句子編碼預(yù)測(cè),得到所述句子語義特征;所述句子編碼預(yù)測(cè)在文本句子級(jí)別下進(jìn)行;
25、編碼器文本單元,所述編碼器文本單元被配置為對(duì)所述文本數(shù)據(jù)進(jìn)行詞語編碼預(yù)測(cè),得到所述詞語語義特征;所述詞語編碼預(yù)測(cè)在文本詞級(jí)別下進(jìn)行;
26、文本拼接單元,所述文本拼接單元被配置為將所述句子語義特征和所述詞語語義特征進(jìn)行拼接處理,得到拼接文本單元,并對(duì)根據(jù)所述拼接文本單元進(jìn)行文本訓(xùn)練,得到所述文本特征。
27、優(yōu)選的,所述bert文本單元包括若干個(gè)變壓器編碼、若干個(gè)注意力機(jī)制頭和若干個(gè)隱層單元;
28、所述編碼器文本單元包括高層次特征提取單元和全連接層。
29、優(yōu)選的,所述對(duì)齊框架模塊還被配置為:
30、分別對(duì)所述梅爾譜和所述文本數(shù)據(jù)進(jìn)行卷積編碼,得到卷積梅爾譜和卷積文本數(shù)據(jù);
31、將所述卷積梅爾譜和所述卷積文本數(shù)據(jù)進(jìn)行無監(jiān)督對(duì)齊計(jì)算,得到音高特征和能量特征;
32、所述音高能量特征包括所述音高特征和所述能量特征。
33、優(yōu)選的,所述對(duì)齊框架模塊包括:
34、卷積編碼單元,所述卷積編碼單元被配置為分別對(duì)所述梅爾譜和所述文本數(shù)據(jù)進(jìn)行卷積編碼,得到卷積梅爾譜和卷積文本數(shù)據(jù);
35、無監(jiān)督對(duì)齊單元,所述無監(jiān)督對(duì)齊單元被配置為將所述卷積梅爾譜和所述卷積文本數(shù)據(jù)按照成對(duì)的l2距離進(jìn)行無監(jiān)督對(duì)齊計(jì)算,得到所述音高能量特征;采用前向和算法將無監(jiān)督對(duì)齊計(jì)算過程中得到的對(duì)齊數(shù)據(jù)進(jìn)行加和。
36、優(yōu)選的,所述標(biāo)準(zhǔn)化融合模塊還包括:
37、風(fēng)格文本標(biāo)準(zhǔn)化融合單元,所述風(fēng)格文本標(biāo)準(zhǔn)化融合單元被配置為:
38、將所述風(fēng)格特征進(jìn)行歸一化處理,得到歸一化數(shù)據(jù);
39、分別對(duì)所述歸一化數(shù)據(jù)進(jìn)行縮放處理和移位處理,得到縮放移位數(shù)據(jù);
40、對(duì)所述縮放移位數(shù)據(jù)進(jìn)行全連接層的計(jì)算,得到激活函數(shù)和偏執(zhí)數(shù)據(jù);
41、將所述激活函數(shù)、所述偏執(zhí)數(shù)據(jù)、所述文本數(shù)據(jù)和所述音高能量特征進(jìn)行拼接處理,得到合成音頻數(shù)據(jù);
42、解碼器單元,所述解碼器單元被配置為對(duì)所述合成音頻數(shù)據(jù)進(jìn)行解碼處理,得到所述目標(biāo)合成音頻數(shù)據(jù)。
43、由上述內(nèi)容可知,本技術(shù)提供一種基于bert特征和風(fēng)格編碼的低資源語音合成系統(tǒng),所述系統(tǒng)包括音頻獲取模塊,所述音頻獲取模塊被配置為獲取待合成的音頻數(shù)據(jù),所述音頻數(shù)據(jù)包括梅爾譜和文本數(shù)據(jù);梅爾譜風(fēng)格編碼模塊,所述梅爾譜風(fēng)格編碼模塊被配置為根據(jù)所述梅爾譜進(jìn)行音色預(yù)測(cè)處理,得到風(fēng)格特征;bert文本編碼模塊,所述bert文本編碼模塊被配置為根據(jù)所述文本數(shù)據(jù)進(jìn)行詞語語句預(yù)測(cè)處理,得到文本特征;對(duì)齊框架模塊,所述對(duì)齊框架模塊被配置為根據(jù)所述梅爾譜和所述文本數(shù)據(jù)進(jìn)行音高對(duì)齊預(yù)測(cè)處理,得到音高能量特征;標(biāo)準(zhǔn)化融合模塊,所述標(biāo)準(zhǔn)化融合模塊被配置為將所述風(fēng)格特征、所述文本特征和所述音高能量特征進(jìn)行標(biāo)準(zhǔn)化融合處理,得到目標(biāo)合成音頻數(shù)據(jù)。本技術(shù)通過上述系統(tǒng)解決了現(xiàn)有聲音合成技術(shù)無法在低資源的情況下合成較為準(zhǔn)確的人聲問題。