欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于深度學(xué)習(xí)的端到端昆曲合成系統(tǒng)及方法

文檔序號(hào):40816735發(fā)布日期:2025-01-29 02:34閱讀:17來(lái)源:國(guó)知局
基于深度學(xué)習(xí)的端到端昆曲合成系統(tǒng)及方法

本發(fā)明涉及昆曲合成,具體涉及一種基于深度學(xué)習(xí)的端到端昆曲合成系統(tǒng)及方法。


背景技術(shù):

1、古老的昆曲作為中國(guó)傳統(tǒng)戲曲文化的瑰寶,已有600多年的歷史,被聯(lián)合國(guó)教科文組織列為“人類口頭和非物質(zhì)文化遺產(chǎn)代表作”。昆曲以其優(yōu)美的唱腔、細(xì)膩的表演藝術(shù)和獨(dú)特的曲牌體制,在中國(guó)戲曲中占據(jù)重要地位。然而,昆曲的傳承面臨挑戰(zhàn),特別是在現(xiàn)代社會(huì),年輕一代對(duì)于傳統(tǒng)藝術(shù)的了解有限,戲曲藝術(shù)的傳播急需借助現(xiàn)代技術(shù)手段進(jìn)行創(chuàng)新與拓展。

2、隨著計(jì)算機(jī)技術(shù)的發(fā)展,盡管語(yǔ)音合成、歌聲合成已經(jīng)取得了工業(yè)化落地的成果,戲曲合成仍然是一個(gè)未被廣泛探索的課題,目前沒(méi)有關(guān)于昆曲合成的研究,只有少數(shù)關(guān)于京劇合成的研究。研究人員通過(guò)模塊化的方式,將發(fā)聲、音高、節(jié)奏和韻律等因素逐一分解處理,這種多模塊化的系統(tǒng)雖然能夠生成戲曲音頻,但由于各模塊獨(dú)立處理,未能有效協(xié)調(diào),不能進(jìn)行聯(lián)合優(yōu)化,容易出現(xiàn)誤差累積現(xiàn)象,從而導(dǎo)致最終合成結(jié)果中韻律不夠連貫,音高出現(xiàn)偏差,音質(zhì)也難以達(dá)到人耳的高要求。這些研究中,目前缺乏對(duì)戲曲表演中假聲音頻的重建研究,而該音頻與普通音頻相比具有相對(duì)較低的音強(qiáng)、頻率漂移以及更特殊的共振峰結(jié)構(gòu)。

3、例如,《beijing?opera?synthesis?based?on?straight?algorithm?and?deeplearning》論文,使用基于straight算法的腔調(diào)控制模型和旋律控制模型合成京劇片段,如圖1所示,該系統(tǒng)的輸入是:①目標(biāo)語(yǔ)音,a腔調(diào)a內(nèi)容;②攜帶京劇文本的原始語(yǔ)音,b腔調(diào)b內(nèi)容;③midi樂(lè)譜信息。腔調(diào)控制模型負(fù)責(zé)將兩段輸入語(yǔ)音轉(zhuǎn)為新的目標(biāo)語(yǔ)音,a腔調(diào)b內(nèi)容,該新的目標(biāo)語(yǔ)音和midi樂(lè)譜信息一起作為旋律控制模型,如圖2所示,對(duì)京劇音頻進(jìn)行時(shí)長(zhǎng)和基頻f0的細(xì)粒度控制,合成京劇片段,最后將得到的若干片段進(jìn)行拼接,得到完整合成的京劇。除了多模塊的誤差累積之外,該方法中京劇文本并不是以文本格式輸入模型的,而是以若干原始語(yǔ)音進(jìn)行輸入以方便模型進(jìn)行腔調(diào)控制,依賴于龐大的語(yǔ)音數(shù)據(jù)庫(kù)和精細(xì)的拼接技術(shù),容易出現(xiàn)拼接不自然、聲學(xué)不連貫等問(wèn)題。雖然straight算法可以對(duì)基頻f0和頻譜包絡(luò)等語(yǔ)音參數(shù)進(jìn)行修改,提高語(yǔ)音合成的風(fēng)格靈活性,但生成的語(yǔ)音往往缺乏自然性,聲音聽(tīng)起來(lái)較為機(jī)械,存在“機(jī)器人音”的問(wèn)題。


技術(shù)實(shí)現(xiàn)思路

1、針對(duì)現(xiàn)有技術(shù)的不足,本發(fā)明提出一種基于深度學(xué)習(xí)的端到端昆曲合成系統(tǒng)及方法。

2、本發(fā)明的技術(shù)方案是這樣實(shí)現(xiàn)的:

3、一方面,本發(fā)明實(shí)施方式提供了一種基于深度學(xué)習(xí)的端到端昆曲合成系統(tǒng),包括:

4、曲譜特征提取模塊,用于通過(guò)長(zhǎng)短期記憶網(wǎng)絡(luò)模型根據(jù)所輸入的昆曲曲譜提取出曲譜特征,所述曲譜特征包括但不限于音高、節(jié)奏和時(shí)值;

5、唱詞文本特征提取模塊,用于對(duì)所輸入的昆曲唱詞文本進(jìn)行分詞、標(biāo)注以及編碼,以提取出唱詞文本特征,所述唱詞文本特征包括但不限于發(fā)音和音調(diào);

6、特征對(duì)齊模塊,用于基于自注意力機(jī)制模型將曲譜特征與文本特征進(jìn)行對(duì)齊,將曲譜特征對(duì)應(yīng)的音高和節(jié)奏信息與唱詞文本特征的發(fā)音時(shí)序相結(jié)合;

7、聲學(xué)參數(shù)生成模塊,用于利用以上對(duì)齊處理后的曲譜特征以及唱詞文本特征構(gòu)建聲學(xué)參數(shù)預(yù)測(cè)模型,并根據(jù)所生成的聲學(xué)參數(shù)預(yù)測(cè)模型預(yù)測(cè)關(guān)鍵聲學(xué)特征,所述關(guān)鍵聲學(xué)特征包括但不限于音強(qiáng)、頻譜、基頻和音素時(shí)長(zhǎng);

8、昆曲語(yǔ)音生成模塊,用于基于深度生成模型的聲碼器根據(jù)所生成的關(guān)鍵聲學(xué)特征轉(zhuǎn)化為昆曲音頻。

9、優(yōu)選的,所述唱詞文本特征提取模塊中,還用于通過(guò)bert預(yù)訓(xùn)練模型根據(jù)所輸入的昆曲唱詞文本進(jìn)行深度上下文建模,以捕捉詞語(yǔ)的上下文關(guān)聯(lián)和音韻信息。

10、優(yōu)選的,還包括自適應(yīng)權(quán)重分配模塊,用于在曲譜特征提取模塊、唱詞文本特征提取模塊、特征對(duì)齊模塊、聲學(xué)參數(shù)生成模塊以及昆曲語(yǔ)音生成模塊中動(dòng)態(tài)調(diào)整不同子任務(wù)的損失函數(shù)權(quán)重。

11、優(yōu)選的,自適應(yīng)權(quán)重分配模塊具體調(diào)整過(guò)程為:通過(guò)計(jì)算損失函數(shù)衡量預(yù)測(cè)值和真實(shí)值之間的差距,然后通過(guò)反向傳播算法計(jì)算損失函數(shù)對(duì)模型參數(shù)的梯度;最后根據(jù)這個(gè)梯度的方向和大小,動(dòng)態(tài)調(diào)整模型的參數(shù),以逐步縮小誤差。

12、優(yōu)選的,所述聲學(xué)參數(shù)生成模塊包括:

13、音強(qiáng)預(yù)測(cè)單元,用于根據(jù)音高、節(jié)奏、時(shí)值以及音素時(shí)長(zhǎng)構(gòu)建卷積神經(jīng)網(wǎng)絡(luò),并結(jié)合自注意力機(jī)制預(yù)測(cè)音強(qiáng)聲學(xué)特征;

14、基頻預(yù)測(cè)單元,用于根據(jù)音高、節(jié)奏、時(shí)值以及音素時(shí)長(zhǎng)構(gòu)建多層自回歸神經(jīng)網(wǎng)絡(luò)模型,以預(yù)測(cè)基頻聲學(xué)特征;

15、音素時(shí)長(zhǎng)預(yù)測(cè)單元,用于根據(jù)音高、節(jié)奏、時(shí)值以及音素時(shí)長(zhǎng)構(gòu)建雙向長(zhǎng)短期記憶網(wǎng)絡(luò)模型,并結(jié)合位置編碼技術(shù)預(yù)測(cè)音素時(shí)長(zhǎng)聲學(xué)特征;

16、頻譜預(yù)測(cè)單元,用于根據(jù)音高、節(jié)奏、時(shí)值、音素時(shí)長(zhǎng)以及預(yù)測(cè)出的音強(qiáng)、基頻、音素時(shí)長(zhǎng),構(gòu)建梅爾頻譜或線性頻譜的生成模型,以預(yù)測(cè)頻譜聲學(xué)特征。

17、優(yōu)選的,還包括假聲參數(shù)預(yù)測(cè)模塊,用于根據(jù)曲譜特征、唱詞文本特征以及關(guān)鍵聲學(xué)特征,預(yù)測(cè)出假聲相關(guān)特征;

18、所述昆曲語(yǔ)音生成模塊用于基于深度生成模型的聲碼器根據(jù)所生成的關(guān)鍵聲學(xué)特征以及假聲相關(guān)特征轉(zhuǎn)化為昆曲音頻。

19、優(yōu)選的,在昆曲語(yǔ)音生成模塊進(jìn)行昆曲語(yǔ)音合成前,還通過(guò)頻譜增強(qiáng)網(wǎng)絡(luò)模型對(duì)假聲頻譜進(jìn)行增強(qiáng)處理。

20、優(yōu)選的,還包括念白合成模塊,用于所述根據(jù)輸入的念白文本以及預(yù)設(shè)參考昆曲音頻合成念白音頻。

21、優(yōu)選的,所述念白合成模塊包括:

22、離散令牌提取單元,用于通過(guò)預(yù)訓(xùn)練的神經(jīng)編碼器提取出預(yù)設(shè)參考昆曲音頻的離散令牌;

23、特征生成單元,用于將所述離散令牌與已處理為音素序列的念白文本分別輸入至語(yǔ)音特征提取器和文本特征提取器中,得到參考音頻特征與參考文本特征;

24、念白音頻生成單元,用于將參考音頻特征、參考文本特征以及輸入的念白文本輸入至語(yǔ)言模型中,以預(yù)測(cè)出完整的待合成念白音頻的離散令牌;最后將待合成念白音頻的離散令牌序列輸入至神經(jīng)編碼器的解碼端中生成念白音頻。

25、另一方面,本發(fā)明實(shí)施方式還提供了一種基于深度學(xué)習(xí)的端到端昆曲合成方法,包括以下步驟:

26、長(zhǎng)短期記憶網(wǎng)絡(luò)模型根據(jù)所輸入的昆曲曲譜提取出曲譜特征,所述曲譜特征,所述曲譜特征包括但不限于音高、節(jié)奏和時(shí)值;

27、對(duì)所輸入的昆曲唱詞文本進(jìn)行分詞、標(biāo)注以及編碼,以提取出唱詞文本特征,所述唱詞文本特征包括但不限于發(fā)音和音調(diào);

28、基于自注意力機(jī)制模型將曲譜特征與文本特征進(jìn)行對(duì)齊,將曲譜特征對(duì)應(yīng)的音高和節(jié)奏信息與唱詞文本特征的發(fā)音時(shí)序相結(jié)合;

29、利用以上對(duì)齊處理后的曲譜特征以及唱詞文本特征構(gòu)建聲學(xué)參數(shù)的預(yù)測(cè)模型,并根據(jù)所生成的聲學(xué)參數(shù)生成關(guān)鍵聲學(xué)特征,所述關(guān)鍵聲學(xué)特征包括但不限于高音、音強(qiáng)、頻譜、基頻和音素時(shí)長(zhǎng);

30、基于深度生成模型的聲碼器根據(jù)所生成的關(guān)鍵聲學(xué)特征轉(zhuǎn)化為昆曲音頻。

31、與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點(diǎn):本發(fā)明基于深度學(xué)習(xí)的端到端昆曲合成系統(tǒng)包括曲譜特征提取模塊、唱詞文本特征提取模塊、特征對(duì)齊模塊、聲學(xué)參數(shù)生成模塊以及昆曲語(yǔ)音生成模塊,其中曲譜特征以及唱詞文本特征分別由曲譜特征提取模塊、唱詞文本特征提取模塊進(jìn)行分別提取后,經(jīng)過(guò)一系列處理最終再由昆曲語(yǔ)音生成模塊生成昆曲音頻,這種多模態(tài)融合有效增強(qiáng)了對(duì)昆曲韻律的還原,能夠更好地捕捉昆曲復(fù)雜的韻律特征,確保合成的語(yǔ)音音頻不僅在發(fā)音上與唱詞文本匹配,還在旋律和節(jié)奏上與曲譜高度一致,從而實(shí)現(xiàn)更加逼真的藝術(shù)表現(xiàn)。本發(fā)明實(shí)現(xiàn)了端到端的昆曲音頻合成,從曲譜與文本輸入到最終的音頻輸出,整個(gè)過(guò)程無(wú)需人工干預(yù);相較于傳統(tǒng)需要多個(gè)步驟手動(dòng)調(diào)節(jié)的合成方法,本發(fā)明能夠自動(dòng)化生成完整的昆曲音頻,極大地提升了合成效率。而且,本發(fā)明采用多任務(wù)一體化框架,將曲譜特征學(xué)習(xí)、唱詞文本分析和聲學(xué)參數(shù)生成集成在一個(gè)模型中進(jìn)行聯(lián)合優(yōu)化,相比于傳統(tǒng)的模塊化方法,本發(fā)明能夠在單一框架內(nèi)統(tǒng)一處理多種任務(wù),減少了模塊間的誤差累積;通過(guò)聯(lián)合訓(xùn)練策略,有效提高了生成音頻的自然度、一致性和對(duì)昆曲韻律的還原能力。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
会同县| 布拖县| 防城港市| 靖安县| 阿图什市| 临沧市| 绵阳市| 黄陵县| 太仓市| 滁州市| 孟津县| 白城市| 新巴尔虎左旗| 如东县| 桂林市| 富顺县| 宣化县| 酉阳| 泰和县| 辽阳县| 原平市| 万载县| 北京市| 福安市| 平凉市| 贵州省| 洪雅县| 米易县| 深州市| 长岭县| 景洪市| 新郑市| 射洪县| 四子王旗| 大竹县| 兴化市| 西乌珠穆沁旗| 岑溪市| 大兴区| 修武县| 肃宁县|