欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種語(yǔ)音合成方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)與流程

文檔序號(hào):40456627發(fā)布日期:2024-12-27 09:21閱讀:16來(lái)源:國(guó)知局
一種語(yǔ)音合成方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)與流程

本發(fā)明涉及人工智能領(lǐng)域,特別涉及一種語(yǔ)音合成方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)。


背景技術(shù):

1、語(yǔ)音合成技術(shù)是指將文字內(nèi)容轉(zhuǎn)換為語(yǔ)音音頻的技術(shù),隨著人工智能技術(shù)的不斷發(fā)展,尤其是隨著大規(guī)模語(yǔ)音合成模型的不斷進(jìn)步,語(yǔ)音合成的效果日益提升。然而在相關(guān)技術(shù)中,盡管語(yǔ)音合成模型可將文字內(nèi)容直接轉(zhuǎn)換為具有特定音色的語(yǔ)音音頻,但并不能單獨(dú)調(diào)整該模型所生成語(yǔ)音音頻的語(yǔ)音風(fēng)格,進(jìn)而降低了語(yǔ)音合成的靈活性。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的是提供一種語(yǔ)音合成方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì),可利用包含語(yǔ)音內(nèi)容和語(yǔ)音風(fēng)格的語(yǔ)義特征(語(yǔ)義token)與待合成文本和音色參考音頻共同進(jìn)行語(yǔ)音合成,以實(shí)現(xiàn)語(yǔ)音音色、風(fēng)格解耦。

2、為解決上述技術(shù)問(wèn)題,本發(fā)明提供一種語(yǔ)音合成方法,包括:

3、獲取待合成文本和音色參考音頻;

4、將所述待合成文本輸入預(yù)訓(xùn)練解碼模型,以使所述預(yù)訓(xùn)練解碼模型確定所述待合成文本對(duì)應(yīng)的語(yǔ)音內(nèi)容和語(yǔ)音風(fēng)格,得到與所述待合成文本對(duì)應(yīng)的語(yǔ)義特征;其中,所述預(yù)訓(xùn)練解碼模型利用訓(xùn)練文本和對(duì)應(yīng)的訓(xùn)練語(yǔ)義特征進(jìn)行訓(xùn)練,所述訓(xùn)練語(yǔ)義特征利用所述訓(xùn)練文本對(duì)應(yīng)的訓(xùn)練語(yǔ)音音頻生成,所述訓(xùn)練語(yǔ)音音頻具有預(yù)設(shè)語(yǔ)音風(fēng)格;

5、將所述語(yǔ)義特征、所述待合成文本和所述音色參考音頻輸入預(yù)訓(xùn)練語(yǔ)音合成模型進(jìn)行語(yǔ)音合成,得到合成語(yǔ)音音頻。

6、可選地,所述預(yù)訓(xùn)練解碼模型為自回歸解碼模型;

7、所述將所述待合成文本輸入預(yù)訓(xùn)練解碼模型,以使所述預(yù)訓(xùn)練解碼模型確定所述待合成文本對(duì)應(yīng)的語(yǔ)音內(nèi)容和語(yǔ)音風(fēng)格,得到與所述待合成文本對(duì)應(yīng)的語(yǔ)義特征,包括:

8、將所述待合成文本輸入所述預(yù)訓(xùn)練解碼模型,得到首個(gè)語(yǔ)義特征;

9、判斷當(dāng)前已生成的語(yǔ)義特征數(shù)量是否達(dá)到預(yù)設(shè)數(shù)值;其中,所述預(yù)設(shè)數(shù)值根據(jù)所述合成語(yǔ)音音頻的預(yù)設(shè)時(shí)長(zhǎng)進(jìn)行設(shè)置;

10、若否,則將所述待合成文本和當(dāng)前已生成的所有所述語(yǔ)義特征均輸入所述預(yù)訓(xùn)練解碼模型,得到下一所述語(yǔ)義特征,并進(jìn)入判斷當(dāng)前已生成的語(yǔ)義特征數(shù)量是否達(dá)到預(yù)設(shè)數(shù)值的步驟;

11、若是,則停止生成語(yǔ)義特征。

12、可選地,所述預(yù)訓(xùn)練解碼模型的訓(xùn)練過(guò)程,包括:

13、獲取所述訓(xùn)練文本和所述訓(xùn)練語(yǔ)音音頻;

14、對(duì)所述訓(xùn)練語(yǔ)音音頻進(jìn)行特征提取得到音頻特征,并對(duì)所述音頻特征進(jìn)行量化處理得到訓(xùn)練語(yǔ)義特征序列;

15、利用所述訓(xùn)練文本和所述訓(xùn)練語(yǔ)義特征序列對(duì)初始解碼模型進(jìn)行訓(xùn)練處理,得到所述預(yù)訓(xùn)練解碼模型。

16、可選地,所述利用所述訓(xùn)練文本和所述訓(xùn)練語(yǔ)義特征序列對(duì)初始解碼模型進(jìn)行訓(xùn)練處理,得到所述預(yù)訓(xùn)練解碼模型,包括:

17、將所述訓(xùn)練文本輸入所述初始解碼模型,得到待測(cè)語(yǔ)義特征序列;

18、利用預(yù)設(shè)損失函數(shù)確定所述訓(xùn)練語(yǔ)義特征序列與所述待測(cè)語(yǔ)義特征序列間的損失值;

19、利用所述損失值對(duì)所述初始解碼模型進(jìn)行參數(shù)更新,得到所述預(yù)訓(xùn)練解碼模型。

20、可選地,所述預(yù)訓(xùn)練語(yǔ)音合成模型包括注意力模塊、音色編碼器和解碼器;

21、所述將所述語(yǔ)義特征、所述待合成文本和所述音色參考音頻輸入預(yù)訓(xùn)練語(yǔ)音合成模型進(jìn)行語(yǔ)音合成,得到合成語(yǔ)音音頻,包括:

22、將所述語(yǔ)義特征和所述待合成文本輸入所述注意力模塊,以使所述注意力模塊利用所述待合成文本對(duì)所述語(yǔ)義特征進(jìn)行注意力處理,得到增強(qiáng)語(yǔ)義特征;

23、將所述音色參考音頻轉(zhuǎn)換為線性譜,并將所述線性譜輸入所述音色編碼器,得到音色表征信息;

24、將所述增強(qiáng)語(yǔ)義特征和所述音色表征信息輸入所述解碼器,得到所述合成語(yǔ)音音頻。

25、可選地,所述預(yù)訓(xùn)練語(yǔ)音合成模型的訓(xùn)練過(guò)程,包括:

26、獲取所述訓(xùn)練文本、所述訓(xùn)練語(yǔ)音音頻、訓(xùn)練語(yǔ)義特征和訓(xùn)練音色參考音頻;

27、將所述訓(xùn)練語(yǔ)義特征和所述訓(xùn)練文本輸入所述注意力模塊,以使所述注意力模塊利用所述訓(xùn)練文本對(duì)所述訓(xùn)練語(yǔ)義特征進(jìn)行注意力處理,得到訓(xùn)練增強(qiáng)語(yǔ)義特征;

28、將所述訓(xùn)練音色參考音頻轉(zhuǎn)換為線性譜,并將所述線性譜輸入所述音色編碼器,得到訓(xùn)練音色表征信息;

29、將所述訓(xùn)練增強(qiáng)語(yǔ)義特征和所述訓(xùn)練音色表征信息輸入所述解碼器,得到待測(cè)合成語(yǔ)音音頻;

30、利用所述訓(xùn)練語(yǔ)音音頻和所述待測(cè)合成語(yǔ)音音頻計(jì)算損失值,并利用所述損失值對(duì)所述注意力模塊、所述音色編碼器和所述解碼器進(jìn)行更新,得到所述預(yù)訓(xùn)練語(yǔ)音合成模型。

31、可選地,所述獲取訓(xùn)練語(yǔ)義特征,包括:

32、利用預(yù)訓(xùn)練音頻特征提取模型對(duì)所述訓(xùn)練語(yǔ)音音頻進(jìn)行特征提取,得到音頻特征;

33、對(duì)所述音頻特征進(jìn)行量化處理,得到所述訓(xùn)練語(yǔ)義特征。

34、本發(fā)明還提供一種語(yǔ)音合成裝置,包括:

35、獲取模塊,用于獲取待合成文本和音色參考音頻;

36、解碼模型模塊,用于將所述待合成文本輸入預(yù)訓(xùn)練解碼模型,以使所述預(yù)訓(xùn)練解碼模型確定所述待合成文本對(duì)應(yīng)的語(yǔ)音內(nèi)容和語(yǔ)音風(fēng)格,得到與所述待合成文本對(duì)應(yīng)的語(yǔ)義特征;其中,所述預(yù)訓(xùn)練解碼模型利用訓(xùn)練文本和對(duì)應(yīng)的訓(xùn)練語(yǔ)義特征進(jìn)行訓(xùn)練,所述訓(xùn)練語(yǔ)義特征利用所述訓(xùn)練文本對(duì)應(yīng)的訓(xùn)練語(yǔ)音音頻生成,所述訓(xùn)練語(yǔ)音音頻具有預(yù)設(shè)語(yǔ)音風(fēng)格;

37、語(yǔ)音合成模塊,用于將所述語(yǔ)義特征、所述待合成文本和所述音色參考音頻輸入預(yù)訓(xùn)練語(yǔ)音合成模型進(jìn)行語(yǔ)音合成,得到合成語(yǔ)音音頻。

38、本發(fā)明還提供一種電子設(shè)備,包括:

39、存儲(chǔ)器,用于存儲(chǔ)計(jì)算機(jī)程序;

40、處理器,用于執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如上所述的語(yǔ)音合成方法。

41、本發(fā)明還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中存儲(chǔ)有計(jì)算機(jī)可執(zhí)行指令,所述計(jì)算機(jī)可執(zhí)行指令被處理器加載并執(zhí)行時(shí),實(shí)現(xiàn)如上所述的語(yǔ)音合成方法。

42、本發(fā)明提供一種語(yǔ)音合成方法,包括:獲取待合成文本和音色參考音頻;將所述待合成文本輸入預(yù)訓(xùn)練解碼模型,以使所述預(yù)訓(xùn)練解碼模型確定所述待合成文本對(duì)應(yīng)的語(yǔ)音內(nèi)容和語(yǔ)音風(fēng)格,得到與所述待合成文本對(duì)應(yīng)的語(yǔ)義特征;其中,所述預(yù)訓(xùn)練解碼模型利用訓(xùn)練文本和對(duì)應(yīng)的訓(xùn)練語(yǔ)義特征進(jìn)行訓(xùn)練,所述訓(xùn)練語(yǔ)義特征利用所述訓(xùn)練文本對(duì)應(yīng)的訓(xùn)練語(yǔ)音音頻生成,所述訓(xùn)練語(yǔ)音音頻具有預(yù)設(shè)語(yǔ)音風(fēng)格;將所述語(yǔ)義特征、所述待合成文本和所述音色參考音頻輸入預(yù)訓(xùn)練語(yǔ)音合成模型進(jìn)行語(yǔ)音合成,得到合成語(yǔ)音音頻。

43、可見(jiàn),本發(fā)明首先可獲取待合成文本和音色參考音頻,其中待合成文本用于提供文本信息,音色參考音頻用于提供音色信息。隨后,可將待合成文本輸入預(yù)訓(xùn)練解碼模型,以使預(yù)訓(xùn)練解碼模型確定待合成文本對(duì)應(yīng)的語(yǔ)音內(nèi)容和語(yǔ)音風(fēng)格,得到與待合成文本對(duì)應(yīng)的語(yǔ)義特征;其中,預(yù)訓(xùn)練解碼模型利用訓(xùn)練文本和對(duì)應(yīng)的訓(xùn)練語(yǔ)義特征進(jìn)行訓(xùn)練,訓(xùn)練語(yǔ)義特征利用訓(xùn)練文本對(duì)應(yīng)的訓(xùn)練語(yǔ)音音頻生成,訓(xùn)練語(yǔ)音音頻具有預(yù)設(shè)語(yǔ)音風(fēng)格。換句話說(shuō),預(yù)訓(xùn)練解碼模型可對(duì)待合成文本進(jìn)行處理得到語(yǔ)義特征,使得語(yǔ)義特征中既包含待合成文本的文本信息,同時(shí)還包含對(duì)應(yīng)的語(yǔ)音風(fēng)格信息。隨后,本發(fā)明可將語(yǔ)義特征、待合成文本和音色參考音頻輸入預(yù)訓(xùn)練語(yǔ)音合成模型進(jìn)行語(yǔ)音合成,得到合成語(yǔ)音音頻,考慮到語(yǔ)義特征中包含語(yǔ)音風(fēng)格信息,因此本發(fā)明可將語(yǔ)音風(fēng)格和語(yǔ)音音色單獨(dú)輸入至預(yù)訓(xùn)練語(yǔ)音合成模型,從而可實(shí)現(xiàn)音色風(fēng)格解耦,以提升語(yǔ)音合成的靈活性。本發(fā)明還提供一種語(yǔ)音合成裝置、電子設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),具有上述有益效果。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
双流县| 镇沅| 泗洪县| 昌宁县| 呼玛县| 博罗县| 山阳县| 景宁| 沈阳市| 杭锦后旗| 大埔县| 科尔| 镇江市| 安陆市| 黔西| 湖口县| 西城区| 上杭县| 济南市| 江山市| 定远县| 霞浦县| 牟定县| 博兴县| 涿鹿县| 芦山县| 永春县| 沿河| 无为县| 汉中市| 麻城市| 和顺县| 昌江| 吴江市| 胶州市| 霍山县| 永川市| 奈曼旗| 新密市| 永顺县| 灵丘县|