本發(fā)明涉及人工智能領(lǐng)域,特別涉及一種語(yǔ)音合成方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù):
1、語(yǔ)音合成技術(shù)是指將文字內(nèi)容轉(zhuǎn)換為語(yǔ)音音頻的技術(shù),隨著人工智能技術(shù)的不斷發(fā)展,尤其是隨著大規(guī)模語(yǔ)音合成模型的不斷進(jìn)步,語(yǔ)音合成的效果日益提升。然而在相關(guān)技術(shù)中,盡管語(yǔ)音合成模型可將文字內(nèi)容直接轉(zhuǎn)換為具有特定音色的語(yǔ)音音頻,但并不能單獨(dú)調(diào)整該模型所生成語(yǔ)音音頻的語(yǔ)音風(fēng)格,進(jìn)而降低了語(yǔ)音合成的靈活性。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的是提供一種語(yǔ)音合成方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì),可利用包含語(yǔ)音內(nèi)容和語(yǔ)音風(fēng)格的語(yǔ)義特征(語(yǔ)義token)與待合成文本和音色參考音頻共同進(jìn)行語(yǔ)音合成,以實(shí)現(xiàn)語(yǔ)音音色、風(fēng)格解耦。
2、為解決上述技術(shù)問(wèn)題,本發(fā)明提供一種語(yǔ)音合成方法,包括:
3、獲取待合成文本和音色參考音頻;
4、將所述待合成文本輸入預(yù)訓(xùn)練解碼模型,以使所述預(yù)訓(xùn)練解碼模型確定所述待合成文本對(duì)應(yīng)的語(yǔ)音內(nèi)容和語(yǔ)音風(fēng)格,得到與所述待合成文本對(duì)應(yīng)的語(yǔ)義特征;其中,所述預(yù)訓(xùn)練解碼模型利用訓(xùn)練文本和對(duì)應(yīng)的訓(xùn)練語(yǔ)義特征進(jìn)行訓(xùn)練,所述訓(xùn)練語(yǔ)義特征利用所述訓(xùn)練文本對(duì)應(yīng)的訓(xùn)練語(yǔ)音音頻生成,所述訓(xùn)練語(yǔ)音音頻具有預(yù)設(shè)語(yǔ)音風(fēng)格;
5、將所述語(yǔ)義特征、所述待合成文本和所述音色參考音頻輸入預(yù)訓(xùn)練語(yǔ)音合成模型進(jìn)行語(yǔ)音合成,得到合成語(yǔ)音音頻。
6、可選地,所述預(yù)訓(xùn)練解碼模型為自回歸解碼模型;
7、所述將所述待合成文本輸入預(yù)訓(xùn)練解碼模型,以使所述預(yù)訓(xùn)練解碼模型確定所述待合成文本對(duì)應(yīng)的語(yǔ)音內(nèi)容和語(yǔ)音風(fēng)格,得到與所述待合成文本對(duì)應(yīng)的語(yǔ)義特征,包括:
8、將所述待合成文本輸入所述預(yù)訓(xùn)練解碼模型,得到首個(gè)語(yǔ)義特征;
9、判斷當(dāng)前已生成的語(yǔ)義特征數(shù)量是否達(dá)到預(yù)設(shè)數(shù)值;其中,所述預(yù)設(shè)數(shù)值根據(jù)所述合成語(yǔ)音音頻的預(yù)設(shè)時(shí)長(zhǎng)進(jìn)行設(shè)置;
10、若否,則將所述待合成文本和當(dāng)前已生成的所有所述語(yǔ)義特征均輸入所述預(yù)訓(xùn)練解碼模型,得到下一所述語(yǔ)義特征,并進(jìn)入判斷當(dāng)前已生成的語(yǔ)義特征數(shù)量是否達(dá)到預(yù)設(shè)數(shù)值的步驟;
11、若是,則停止生成語(yǔ)義特征。
12、可選地,所述預(yù)訓(xùn)練解碼模型的訓(xùn)練過(guò)程,包括:
13、獲取所述訓(xùn)練文本和所述訓(xùn)練語(yǔ)音音頻;
14、對(duì)所述訓(xùn)練語(yǔ)音音頻進(jìn)行特征提取得到音頻特征,并對(duì)所述音頻特征進(jìn)行量化處理得到訓(xùn)練語(yǔ)義特征序列;
15、利用所述訓(xùn)練文本和所述訓(xùn)練語(yǔ)義特征序列對(duì)初始解碼模型進(jìn)行訓(xùn)練處理,得到所述預(yù)訓(xùn)練解碼模型。
16、可選地,所述利用所述訓(xùn)練文本和所述訓(xùn)練語(yǔ)義特征序列對(duì)初始解碼模型進(jìn)行訓(xùn)練處理,得到所述預(yù)訓(xùn)練解碼模型,包括:
17、將所述訓(xùn)練文本輸入所述初始解碼模型,得到待測(cè)語(yǔ)義特征序列;
18、利用預(yù)設(shè)損失函數(shù)確定所述訓(xùn)練語(yǔ)義特征序列與所述待測(cè)語(yǔ)義特征序列間的損失值;
19、利用所述損失值對(duì)所述初始解碼模型進(jìn)行參數(shù)更新,得到所述預(yù)訓(xùn)練解碼模型。
20、可選地,所述預(yù)訓(xùn)練語(yǔ)音合成模型包括注意力模塊、音色編碼器和解碼器;
21、所述將所述語(yǔ)義特征、所述待合成文本和所述音色參考音頻輸入預(yù)訓(xùn)練語(yǔ)音合成模型進(jìn)行語(yǔ)音合成,得到合成語(yǔ)音音頻,包括:
22、將所述語(yǔ)義特征和所述待合成文本輸入所述注意力模塊,以使所述注意力模塊利用所述待合成文本對(duì)所述語(yǔ)義特征進(jìn)行注意力處理,得到增強(qiáng)語(yǔ)義特征;
23、將所述音色參考音頻轉(zhuǎn)換為線性譜,并將所述線性譜輸入所述音色編碼器,得到音色表征信息;
24、將所述增強(qiáng)語(yǔ)義特征和所述音色表征信息輸入所述解碼器,得到所述合成語(yǔ)音音頻。
25、可選地,所述預(yù)訓(xùn)練語(yǔ)音合成模型的訓(xùn)練過(guò)程,包括:
26、獲取所述訓(xùn)練文本、所述訓(xùn)練語(yǔ)音音頻、訓(xùn)練語(yǔ)義特征和訓(xùn)練音色參考音頻;
27、將所述訓(xùn)練語(yǔ)義特征和所述訓(xùn)練文本輸入所述注意力模塊,以使所述注意力模塊利用所述訓(xùn)練文本對(duì)所述訓(xùn)練語(yǔ)義特征進(jìn)行注意力處理,得到訓(xùn)練增強(qiáng)語(yǔ)義特征;
28、將所述訓(xùn)練音色參考音頻轉(zhuǎn)換為線性譜,并將所述線性譜輸入所述音色編碼器,得到訓(xùn)練音色表征信息;
29、將所述訓(xùn)練增強(qiáng)語(yǔ)義特征和所述訓(xùn)練音色表征信息輸入所述解碼器,得到待測(cè)合成語(yǔ)音音頻;
30、利用所述訓(xùn)練語(yǔ)音音頻和所述待測(cè)合成語(yǔ)音音頻計(jì)算損失值,并利用所述損失值對(duì)所述注意力模塊、所述音色編碼器和所述解碼器進(jìn)行更新,得到所述預(yù)訓(xùn)練語(yǔ)音合成模型。
31、可選地,所述獲取訓(xùn)練語(yǔ)義特征,包括:
32、利用預(yù)訓(xùn)練音頻特征提取模型對(duì)所述訓(xùn)練語(yǔ)音音頻進(jìn)行特征提取,得到音頻特征;
33、對(duì)所述音頻特征進(jìn)行量化處理,得到所述訓(xùn)練語(yǔ)義特征。
34、本發(fā)明還提供一種語(yǔ)音合成裝置,包括:
35、獲取模塊,用于獲取待合成文本和音色參考音頻;
36、解碼模型模塊,用于將所述待合成文本輸入預(yù)訓(xùn)練解碼模型,以使所述預(yù)訓(xùn)練解碼模型確定所述待合成文本對(duì)應(yīng)的語(yǔ)音內(nèi)容和語(yǔ)音風(fēng)格,得到與所述待合成文本對(duì)應(yīng)的語(yǔ)義特征;其中,所述預(yù)訓(xùn)練解碼模型利用訓(xùn)練文本和對(duì)應(yīng)的訓(xùn)練語(yǔ)義特征進(jìn)行訓(xùn)練,所述訓(xùn)練語(yǔ)義特征利用所述訓(xùn)練文本對(duì)應(yīng)的訓(xùn)練語(yǔ)音音頻生成,所述訓(xùn)練語(yǔ)音音頻具有預(yù)設(shè)語(yǔ)音風(fēng)格;
37、語(yǔ)音合成模塊,用于將所述語(yǔ)義特征、所述待合成文本和所述音色參考音頻輸入預(yù)訓(xùn)練語(yǔ)音合成模型進(jìn)行語(yǔ)音合成,得到合成語(yǔ)音音頻。
38、本發(fā)明還提供一種電子設(shè)備,包括:
39、存儲(chǔ)器,用于存儲(chǔ)計(jì)算機(jī)程序;
40、處理器,用于執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如上所述的語(yǔ)音合成方法。
41、本發(fā)明還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中存儲(chǔ)有計(jì)算機(jī)可執(zhí)行指令,所述計(jì)算機(jī)可執(zhí)行指令被處理器加載并執(zhí)行時(shí),實(shí)現(xiàn)如上所述的語(yǔ)音合成方法。
42、本發(fā)明提供一種語(yǔ)音合成方法,包括:獲取待合成文本和音色參考音頻;將所述待合成文本輸入預(yù)訓(xùn)練解碼模型,以使所述預(yù)訓(xùn)練解碼模型確定所述待合成文本對(duì)應(yīng)的語(yǔ)音內(nèi)容和語(yǔ)音風(fēng)格,得到與所述待合成文本對(duì)應(yīng)的語(yǔ)義特征;其中,所述預(yù)訓(xùn)練解碼模型利用訓(xùn)練文本和對(duì)應(yīng)的訓(xùn)練語(yǔ)義特征進(jìn)行訓(xùn)練,所述訓(xùn)練語(yǔ)義特征利用所述訓(xùn)練文本對(duì)應(yīng)的訓(xùn)練語(yǔ)音音頻生成,所述訓(xùn)練語(yǔ)音音頻具有預(yù)設(shè)語(yǔ)音風(fēng)格;將所述語(yǔ)義特征、所述待合成文本和所述音色參考音頻輸入預(yù)訓(xùn)練語(yǔ)音合成模型進(jìn)行語(yǔ)音合成,得到合成語(yǔ)音音頻。
43、可見(jiàn),本發(fā)明首先可獲取待合成文本和音色參考音頻,其中待合成文本用于提供文本信息,音色參考音頻用于提供音色信息。隨后,可將待合成文本輸入預(yù)訓(xùn)練解碼模型,以使預(yù)訓(xùn)練解碼模型確定待合成文本對(duì)應(yīng)的語(yǔ)音內(nèi)容和語(yǔ)音風(fēng)格,得到與待合成文本對(duì)應(yīng)的語(yǔ)義特征;其中,預(yù)訓(xùn)練解碼模型利用訓(xùn)練文本和對(duì)應(yīng)的訓(xùn)練語(yǔ)義特征進(jìn)行訓(xùn)練,訓(xùn)練語(yǔ)義特征利用訓(xùn)練文本對(duì)應(yīng)的訓(xùn)練語(yǔ)音音頻生成,訓(xùn)練語(yǔ)音音頻具有預(yù)設(shè)語(yǔ)音風(fēng)格。換句話說(shuō),預(yù)訓(xùn)練解碼模型可對(duì)待合成文本進(jìn)行處理得到語(yǔ)義特征,使得語(yǔ)義特征中既包含待合成文本的文本信息,同時(shí)還包含對(duì)應(yīng)的語(yǔ)音風(fēng)格信息。隨后,本發(fā)明可將語(yǔ)義特征、待合成文本和音色參考音頻輸入預(yù)訓(xùn)練語(yǔ)音合成模型進(jìn)行語(yǔ)音合成,得到合成語(yǔ)音音頻,考慮到語(yǔ)義特征中包含語(yǔ)音風(fēng)格信息,因此本發(fā)明可將語(yǔ)音風(fēng)格和語(yǔ)音音色單獨(dú)輸入至預(yù)訓(xùn)練語(yǔ)音合成模型,從而可實(shí)現(xiàn)音色風(fēng)格解耦,以提升語(yǔ)音合成的靈活性。本發(fā)明還提供一種語(yǔ)音合成裝置、電子設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),具有上述有益效果。