本技術(shù)涉及歌聲合成,特別是涉及一種歌聲合成方法、計算機設(shè)備和計算機可讀存儲介質(zhì)。
背景技術(shù):
1、隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,出現(xiàn)了歌聲合成技術(shù),其可以通過輸入曲譜,合成類似人類的歌聲。由于歌聲的演唱技巧種類繁多,歌唱的咬字輕重方面更是其中的重要技巧,而音頻的能量與咬字輕重有緊密聯(lián)系,因此能量建模在歌聲合成系統(tǒng)中至關(guān)重要。
2、傳統(tǒng)技術(shù)中,由于存在能量因外部噪聲等因素提取不準確、音素時長標注也可能有偏差等影響,會導(dǎo)致模型魯棒性低,歌聲合成效果不佳。
技術(shù)實現(xiàn)思路
1、基于此,有必要針對上述技術(shù)問題,提供一種能夠提升歌聲合成系統(tǒng)的魯棒性的歌聲合成方法、計算機設(shè)備和計算機可讀存儲介質(zhì)。
2、第一方面,本技術(shù)提供了一種歌聲合成方法。所述方法包括:
3、獲取待合成歌曲的曲譜信息,以及待輸入能量信息;所述曲譜信息包括多個音素以及各所述音素對應(yīng)的音高和音素時長;所述待輸入能量信息為基于所述曲譜信息預(yù)測得到或基于所述待合成歌曲的參考音頻提取得到;
4、將所述曲譜信息和所述待輸入能量信息輸入至預(yù)訓練的歌聲合成模型,通過所述預(yù)訓練的歌聲合成模型中能量感知注意力機制處理,得到合成歌聲梅爾譜;所述能量感知注意力機制用于結(jié)合所述曲譜信息的音素編碼和所述待輸入能量信息的能量編碼,得到新的能量編碼;
5、根據(jù)所述合成歌聲梅爾譜,生成所述待合成歌曲的合成歌聲音頻。
6、在其中一個實施例中,所述將所述曲譜信息和所述待輸入能量信息輸入至預(yù)訓練的歌聲合成模型,通過所述預(yù)訓練的歌聲合成模型中能量感知注意力機制處理,得到合成歌聲梅爾譜,包括:
7、根據(jù)所述多個音素以及各所述音素對應(yīng)的音高和音素時長,得到所述音素編碼;
8、基于所述音素編碼和所述待輸入能量信息的能量編碼,經(jīng)過所述能量感知注意力機制處理得到所述新的能量編碼;
9、根據(jù)所述音素編碼和所述新的能量編碼的編碼融合結(jié)果,得到所述合成歌聲梅爾譜。
10、在其中一個實施例中,所述預(yù)訓練的歌聲合成模型包括文本編碼器,所述根據(jù)所述多個音素以及各所述音素對應(yīng)的音高和音素時長,得到所述音素編碼,包括:
11、將所述多個音素以及各所述音素對應(yīng)的音高輸入至所述文本編碼器,得到音素編碼結(jié)果;
12、根據(jù)所述音素編碼結(jié)果和各所述音素對應(yīng)的音素時長進行音素擴展,得到所述音素編碼。
13、在其中一個實施例中,所述基于所述音素編碼和所述待輸入能量信息的能量編碼,經(jīng)過所述能量感知注意力機制處理得到所述新的能量編碼,包括:
14、將所述音素編碼作為針對所述能量感知注意力機制的查詢,將所述能量編碼作為針對所述能量感知注意力機制的鍵和值,經(jīng)過所述能量感知注意力機制進行處理,得到所述新的能量編碼。
15、在其中一個實施例中,所述預(yù)訓練的歌聲合成模型還包括解碼器,所述根據(jù)所述音素編碼和所述新的能量編碼的編碼融合結(jié)果,得到所述合成歌聲梅爾譜,包括:
16、將所述音素編碼和所述新的能量編碼進行融合,得到所述編碼融合結(jié)果;
17、通過所述解碼器對所述編碼融合結(jié)果進行處理,得到所述合成歌聲梅爾譜。
18、在其中一個實施例中,所述預(yù)訓練的歌聲合成模型還包括能量預(yù)測器或能量提取器,所述獲取待輸入能量信息,包括:
19、通過所述能量預(yù)測器,將基于所述音素編碼預(yù)測得到的能量信息,作為所述待輸入能量信息;
20、或,采用所述能量提取器提取出所述參考音頻的能量信息,作為所述待輸入能量信息。
21、在其中一個實施例中,所述預(yù)訓練的歌聲合成模型通過下述方法訓練得到:
22、獲取訓練數(shù)據(jù);所述訓練數(shù)據(jù)包括樣本歌曲中多個樣本音素以及各所述樣本音素對應(yīng)的樣本音高和樣本音素時長、所述樣本歌曲的樣本能量信息和樣本歌聲梅爾譜;所述樣本歌聲梅爾譜用于作為所述樣本歌曲對應(yīng)的樣本標簽;
23、將所述多個樣本音素以及各所述樣本音素對應(yīng)的樣本音高和樣本音素時長、所述樣本能量信息輸入至待訓練的歌聲合成模型,得到預(yù)測歌聲梅爾譜;
24、基于所述預(yù)測歌聲梅爾譜與所述樣本歌聲梅爾譜的損失,對所述待訓練的歌聲合成模型進行訓練,直至滿足預(yù)設(shè)的訓練結(jié)束條件,得到所述預(yù)訓練的歌聲合成模型。
25、在其中一個實施例中,所述獲取訓練數(shù)據(jù),包括:
26、獲取所述樣本歌曲的歌聲音頻數(shù)據(jù)和樣本曲譜信息;所述樣本曲譜信息包括所述多個樣本音素以及各所述樣本音素對應(yīng)的樣本音高和樣本音素時長;
27、根據(jù)所述樣本歌曲的歌聲音頻數(shù)據(jù),提取得到所述樣本能量信息和所述樣本歌聲梅爾譜。
28、第二方面,本技術(shù)還提供了一種計算機設(shè)備。所述計算機設(shè)備包括存儲器和處理器,所述存儲器存儲有計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)以下步驟:
29、獲取待合成歌曲的曲譜信息,以及待輸入能量信息;所述曲譜信息包括多個音素以及各所述音素對應(yīng)的音高和音素時長;所述待輸入能量信息為基于所述曲譜信息預(yù)測得到或基于所述待合成歌曲的參考音頻提取得到;
30、將所述曲譜信息和所述待輸入能量信息輸入至預(yù)訓練的歌聲合成模型,通過所述預(yù)訓練的歌聲合成模型中能量感知注意力機制處理,得到合成歌聲梅爾譜;所述能量感知注意力機制用于結(jié)合所述曲譜信息的音素編碼和所述待輸入能量信息的能量編碼,得到新的能量編碼;
31、根據(jù)所述合成歌聲梅爾譜,生成所述待合成歌曲的合成歌聲音頻。
32、第三方面,本技術(shù)還提供了一種計算機可讀存儲介質(zhì)。所述計算機可讀存儲介質(zhì),其上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)以下步驟:
33、獲取待合成歌曲的曲譜信息,以及待輸入能量信息;所述曲譜信息包括多個音素以及各所述音素對應(yīng)的音高和音素時長;所述待輸入能量信息為基于所述曲譜信息預(yù)測得到或基于所述待合成歌曲的參考音頻提取得到;
34、將所述曲譜信息和所述待輸入能量信息輸入至預(yù)訓練的歌聲合成模型,通過所述預(yù)訓練的歌聲合成模型中能量感知注意力機制處理,得到合成歌聲梅爾譜;所述能量感知注意力機制用于結(jié)合所述曲譜信息的音素編碼和所述待輸入能量信息的能量編碼,得到新的能量編碼;
35、根據(jù)所述合成歌聲梅爾譜,生成所述待合成歌曲的合成歌聲音頻。
36、第四方面,本技術(shù)還提供了一種計算機程序產(chǎn)品。所述計算機程序產(chǎn)品,包括計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)以下步驟:
37、獲取待合成歌曲的曲譜信息,以及待輸入能量信息;所述曲譜信息包括多個音素以及各所述音素對應(yīng)的音高和音素時長;所述待輸入能量信息為基于所述曲譜信息預(yù)測得到或基于所述待合成歌曲的參考音頻提取得到;
38、將所述曲譜信息和所述待輸入能量信息輸入至預(yù)訓練的歌聲合成模型,通過所述預(yù)訓練的歌聲合成模型中能量感知注意力機制處理,得到合成歌聲梅爾譜;所述能量感知注意力機制用于結(jié)合所述曲譜信息的音素編碼和所述待輸入能量信息的能量編碼,得到新的能量編碼;
39、根據(jù)所述合成歌聲梅爾譜,生成所述待合成歌曲的合成歌聲音頻。
40、上述一種歌聲合成方法、計算機設(shè)備和計算機可讀存儲介質(zhì),通過獲取待合成歌曲的曲譜信息,以及待輸入能量信息,該曲譜信息包括多個音素以及各音素對應(yīng)的音高和音素時長,該待輸入能量信息為基于曲譜信息預(yù)測得到或基于待合成歌曲的參考音頻提取得到,然后將曲譜信息和待輸入能量信息輸入至預(yù)訓練的歌聲合成模型,通過預(yù)訓練的歌聲合成模型中能量感知注意力機制處理,得到合成歌聲梅爾譜,該能量感知注意力機制用于結(jié)合曲譜信息的音素編碼和待輸入能量信息的能量編碼,得到新的能量編碼,進而根據(jù)合成歌聲梅爾譜,生成待合成歌曲的合成歌聲音頻,實現(xiàn)了對歌聲合成處理優(yōu)化,基于能量感知注意力機制處理曲譜信息的音素編碼和待輸入能量信息的能量編碼,能夠有效提升模型的穩(wěn)定性,且可以靈活輸入能量信息,提升了歌聲合成的可控性,有助于提升歌聲合成效果。