一種語(yǔ)音合成方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)與流程

文檔序號(hào)：40456627發(fā)布日期：2024-12-27 09:21閱讀：16來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

一種語(yǔ)音合成方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)與流程

本發(fā)明涉及人工智能領(lǐng)域，特別涉及一種語(yǔ)音合成方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)。

背景技術(shù)：

1、語(yǔ)音合成技術(shù)是指將文字內(nèi)容轉(zhuǎn)換為語(yǔ)音音頻的技術(shù)，隨著人工智能技術(shù)的不斷發(fā)展，尤其是隨著大規(guī)模語(yǔ)音合成模型的不斷進(jìn)步，語(yǔ)音合成的效果日益提升。然而在相關(guān)技術(shù)中，盡管語(yǔ)音合成模型可將文字內(nèi)容直接轉(zhuǎn)換為具有特定音色的語(yǔ)音音頻，但并不能單獨(dú)調(diào)整該模型所生成語(yǔ)音音頻的語(yǔ)音風(fēng)格，進(jìn)而降低了語(yǔ)音合成的靈活性。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的是提供一種語(yǔ)音合成方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)，可利用包含語(yǔ)音內(nèi)容和語(yǔ)音風(fēng)格的語(yǔ)義特征（語(yǔ)義token）與待合成文本和音色參考音頻共同進(jìn)行語(yǔ)音合成，以實(shí)現(xiàn)語(yǔ)音音色、風(fēng)格解耦。

2、為解決上述技術(shù)問(wèn)題，本發(fā)明提供一種語(yǔ)音合成方法，包括：

3、獲取待合成文本和音色參考音頻；

4、將所述待合成文本輸入預(yù)訓(xùn)練解碼模型，以使所述預(yù)訓(xùn)練解碼模型確定所述待合成文本對(duì)應(yīng)的語(yǔ)音內(nèi)容和語(yǔ)音風(fēng)格，得到與所述待合成文本對(duì)應(yīng)的語(yǔ)義特征；其中，所述預(yù)訓(xùn)練解碼模型利用訓(xùn)練文本和對(duì)應(yīng)的訓(xùn)練語(yǔ)義特征進(jìn)行訓(xùn)練，所述訓(xùn)練語(yǔ)義特征利用所述訓(xùn)練文本對(duì)應(yīng)的訓(xùn)練語(yǔ)音音頻生成，所述訓(xùn)練語(yǔ)音音頻具有預(yù)設(shè)語(yǔ)音風(fēng)格；

5、將所述語(yǔ)義特征、所述待合成文本和所述音色參考音頻輸入預(yù)訓(xùn)練語(yǔ)音合成模型進(jìn)行語(yǔ)音合成，得到合成語(yǔ)音音頻。

6、可選地，所述預(yù)訓(xùn)練解碼模型為自回歸解碼模型；

7、所述將所述待合成文本輸入預(yù)訓(xùn)練解碼模型，以使所述預(yù)訓(xùn)練解碼模型確定所述待合成文本對(duì)應(yīng)的語(yǔ)音內(nèi)容和語(yǔ)音風(fēng)格，得到與所述待合成文本對(duì)應(yīng)的語(yǔ)義特征，包括：

8、將所述待合成文本輸入所述預(yù)訓(xùn)練解碼模型，得到首個(gè)語(yǔ)義特征；

9、判斷當(dāng)前已生成的語(yǔ)義特征數(shù)量是否達(dá)到預(yù)設(shè)數(shù)值；其中，所述預(yù)設(shè)數(shù)值根據(jù)所述合成語(yǔ)音音頻的預(yù)設(shè)時(shí)長(zhǎng)進(jìn)行設(shè)置；

10、若否，則將所述待合成文本和當(dāng)前已生成的所有所述語(yǔ)義特征均輸入所述預(yù)訓(xùn)練解碼模型，得到下一所述語(yǔ)義特征，并進(jìn)入判斷當(dāng)前已生成的語(yǔ)義特征數(shù)量是否達(dá)到預(yù)設(shè)數(shù)值的步驟；

11、若是，則停止生成語(yǔ)義特征。

12、可選地，所述預(yù)訓(xùn)練解碼模型的訓(xùn)練過(guò)程，包括：

13、獲取所述訓(xùn)練文本和所述訓(xùn)練語(yǔ)音音頻；

14、對(duì)所述訓(xùn)練語(yǔ)音音頻進(jìn)行特征提取得到音頻特征，并對(duì)所述音頻特征進(jìn)行量化處理得到訓(xùn)練語(yǔ)義特征序列；

15、利用所述訓(xùn)練文本和所述訓(xùn)練語(yǔ)義特征序列對(duì)初始解碼模型進(jìn)行訓(xùn)練處理，得到所述預(yù)訓(xùn)練解碼模型。

16、可選地，所述利用所述訓(xùn)練文本和所述訓(xùn)練語(yǔ)義特征序列對(duì)初始解碼模型進(jìn)行訓(xùn)練處理，得到所述預(yù)訓(xùn)練解碼模型，包括：

17、將所述訓(xùn)練文本輸入所述初始解碼模型，得到待測(cè)語(yǔ)義特征序列；

18、利用預(yù)設(shè)損失函數(shù)確定所述訓(xùn)練語(yǔ)義特征序列與所述待測(cè)語(yǔ)義特征序列間的損失值；

19、利用所述損失值對(duì)所述初始解碼模型進(jìn)行參數(shù)更新，得到所述預(yù)訓(xùn)練解碼模型。

20、可選地，所述預(yù)訓(xùn)練語(yǔ)音合成模型包括注意力模塊、音色編碼器和解碼器；

21、所述將所述語(yǔ)義特征、所述待合成文本和所述音色參考音頻輸入預(yù)訓(xùn)練語(yǔ)音合成模型進(jìn)行語(yǔ)音合成，得到合成語(yǔ)音音頻，包括：

22、將所述語(yǔ)義特征和所述待合成文本輸入所述注意力模塊，以使所述注意力模塊利用所述待合成文本對(duì)所述語(yǔ)義特征進(jìn)行注意力處理，得到增強(qiáng)語(yǔ)義特征；

23、將所述音色參考音頻轉(zhuǎn)換為線性譜，并將所述線性譜輸入所述音色編碼器，得到音色表征信息；

24、將所述增強(qiáng)語(yǔ)義特征和所述音色表征信息輸入所述解碼器，得到所述合成語(yǔ)音音頻。

25、可選地，所述預(yù)訓(xùn)練語(yǔ)音合成模型的訓(xùn)練過(guò)程，包括：

26、獲取所述訓(xùn)練文本、所述訓(xùn)練語(yǔ)音音頻、訓(xùn)練語(yǔ)義特征和訓(xùn)練音色參考音頻；

27、將所述訓(xùn)練語(yǔ)義特征和所述訓(xùn)練文本輸入所述注意力模塊，以使所述注意力模塊利用所述訓(xùn)練文本對(duì)所述訓(xùn)練語(yǔ)義特征進(jìn)行注意力處理，得到訓(xùn)練增強(qiáng)語(yǔ)義特征；

28、將所述訓(xùn)練音色參考音頻轉(zhuǎn)換為線性譜，并將所述線性譜輸入所述音色編碼器，得到訓(xùn)練音色表征信息；

29、將所述訓(xùn)練增強(qiáng)語(yǔ)義特征和所述訓(xùn)練音色表征信息輸入所述解碼器，得到待測(cè)合成語(yǔ)音音頻；

30、利用所述訓(xùn)練語(yǔ)音音頻和所述待測(cè)合成語(yǔ)音音頻計(jì)算損失值，并利用所述損失值對(duì)所述注意力模塊、所述音色編碼器和所述解碼器進(jìn)行更新，得到所述預(yù)訓(xùn)練語(yǔ)音合成模型。

31、可選地，所述獲取訓(xùn)練語(yǔ)義特征，包括：

32、利用預(yù)訓(xùn)練音頻特征提取模型對(duì)所述訓(xùn)練語(yǔ)音音頻進(jìn)行特征提取，得到音頻特征；

33、對(duì)所述音頻特征進(jìn)行量化處理，得到所述訓(xùn)練語(yǔ)義特征。

34、本發(fā)明還提供一種語(yǔ)音合成裝置，包括：

35、獲取模塊，用于獲取待合成文本和音色參考音頻；

36、解碼模型模塊，用于將所述待合成文本輸入預(yù)訓(xùn)練解碼模型，以使所述預(yù)訓(xùn)練解碼模型確定所述待合成文本對(duì)應(yīng)的語(yǔ)音內(nèi)容和語(yǔ)音風(fēng)格，得到與所述待合成文本對(duì)應(yīng)的語(yǔ)義特征；其中，所述預(yù)訓(xùn)練解碼模型利用訓(xùn)練文本和對(duì)應(yīng)的訓(xùn)練語(yǔ)義特征進(jìn)行訓(xùn)練，所述訓(xùn)練語(yǔ)義特征利用所述訓(xùn)練文本對(duì)應(yīng)的訓(xùn)練語(yǔ)音音頻生成，所述訓(xùn)練語(yǔ)音音頻具有預(yù)設(shè)語(yǔ)音風(fēng)格；

37、語(yǔ)音合成模塊，用于將所述語(yǔ)義特征、所述待合成文本和所述音色參考音頻輸入預(yù)訓(xùn)練語(yǔ)音合成模型進(jìn)行語(yǔ)音合成，得到合成語(yǔ)音音頻。

38、本發(fā)明還提供一種電子設(shè)備，包括：

39、存儲(chǔ)器，用于存儲(chǔ)計(jì)算機(jī)程序；

40、處理器，用于執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如上所述的語(yǔ)音合成方法。

41、本發(fā)明還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中存儲(chǔ)有計(jì)算機(jī)可執(zhí)行指令，所述計(jì)算機(jī)可執(zhí)行指令被處理器加載并執(zhí)行時(shí)，實(shí)現(xiàn)如上所述的語(yǔ)音合成方法。

42、本發(fā)明提供一種語(yǔ)音合成方法，包括：獲取待合成文本和音色參考音頻；將所述待合成文本輸入預(yù)訓(xùn)練解碼模型，以使所述預(yù)訓(xùn)練解碼模型確定所述待合成文本對(duì)應(yīng)的語(yǔ)音內(nèi)容和語(yǔ)音風(fēng)格，得到與所述待合成文本對(duì)應(yīng)的語(yǔ)義特征；其中，所述預(yù)訓(xùn)練解碼模型利用訓(xùn)練文本和對(duì)應(yīng)的訓(xùn)練語(yǔ)義特征進(jìn)行訓(xùn)練，所述訓(xùn)練語(yǔ)義特征利用所述訓(xùn)練文本對(duì)應(yīng)的訓(xùn)練語(yǔ)音音頻生成，所述訓(xùn)練語(yǔ)音音頻具有預(yù)設(shè)語(yǔ)音風(fēng)格；將所述語(yǔ)義特征、所述待合成文本和所述音色參考音頻輸入預(yù)訓(xùn)練語(yǔ)音合成模型進(jìn)行語(yǔ)音合成，得到合成語(yǔ)音音頻。

43、可見(jiàn)，本發(fā)明首先可獲取待合成文本和音色參考音頻，其中待合成文本用于提供文本信息，音色參考音頻用于提供音色信息。隨后，可將待合成文本輸入預(yù)訓(xùn)練解碼模型，以使預(yù)訓(xùn)練解碼模型確定待合成文本對(duì)應(yīng)的語(yǔ)音內(nèi)容和語(yǔ)音風(fēng)格，得到與待合成文本對(duì)應(yīng)的語(yǔ)義特征；其中，預(yù)訓(xùn)練解碼模型利用訓(xùn)練文本和對(duì)應(yīng)的訓(xùn)練語(yǔ)義特征進(jìn)行訓(xùn)練，訓(xùn)練語(yǔ)義特征利用訓(xùn)練文本對(duì)應(yīng)的訓(xùn)練語(yǔ)音音頻生成，訓(xùn)練語(yǔ)音音頻具有預(yù)設(shè)語(yǔ)音風(fēng)格。換句話說(shuō)，預(yù)訓(xùn)練解碼模型可對(duì)待合成文本進(jìn)行處理得到語(yǔ)義特征，使得語(yǔ)義特征中既包含待合成文本的文本信息，同時(shí)還包含對(duì)應(yīng)的語(yǔ)音風(fēng)格信息。隨后，本發(fā)明可將語(yǔ)義特征、待合成文本和音色參考音頻輸入預(yù)訓(xùn)練語(yǔ)音合成模型進(jìn)行語(yǔ)音合成，得到合成語(yǔ)音音頻，考慮到語(yǔ)義特征中包含語(yǔ)音風(fēng)格信息，因此本發(fā)明可將語(yǔ)音風(fēng)格和語(yǔ)音音色單獨(dú)輸入至預(yù)訓(xùn)練語(yǔ)音合成模型，從而可實(shí)現(xiàn)音色風(fēng)格解耦，以提升語(yǔ)音合成的靈活性。本發(fā)明還提供一種語(yǔ)音合成裝置、電子設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，具有上述有益效果。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：肖金霸,劉忠亮,張璐,陶明
技術(shù)所有人：上海任意門科技有限公司
我是此專利的發(fā)明人

上一篇：一種熱處理淬火無(wú)動(dòng)力用滑道的制作方法
上一篇：一種食用菌種植自動(dòng)化采摘設(shè)備的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種語(yǔ)音合成方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)與流程

一種語(yǔ)音合成方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)與流程