欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于解耦VQ-VAE的語音合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)與流程

文檔序號(hào):40586968發(fā)布日期:2025-01-07 20:26閱讀:8來源:國知局
基于解耦VQ-VAE的語音合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)與流程

本發(fā)明涉及音頻信號(hào)處理,尤其涉及一種基于解耦vq-vae的語音合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)。


背景技術(shù):

1、語音編解碼,旨在將語音信號(hào)轉(zhuǎn)換為緊湊的離散表示,并在需要時(shí)重建原始音頻。語音編解碼在語音通信、語音存儲(chǔ)和語音合成等領(lǐng)域具有廣泛的應(yīng)用。在基于大語言模型的語音合成(llm-tts)系統(tǒng)中,語音編解碼器負(fù)責(zé)將語音信號(hào)轉(zhuǎn)換為離散表示(token),使得大語言模型能夠像處理文本一樣處理語音,并將大語言模型生成的離散表示重建為高質(zhì)量的語音波形。

2、目前,業(yè)內(nèi)主流的語音編解碼器多采用多碼本結(jié)構(gòu),語言模型需要預(yù)測(cè)多個(gè)離散序列,嚴(yán)重影響了編解碼器的工作效率和魯棒性。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明提供一種基于解耦vq-vae的語音合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì),以解決現(xiàn)有技術(shù)中的語音編解碼器采用多碼本結(jié)構(gòu),語言模型需要預(yù)測(cè)多個(gè)離散序列,影響編解碼器的工作效率和魯棒性的技術(shù)問題。

2、第一方面,提供了一種基于解耦vq-vae的語音合成方法,包括:

3、從待合成語音信號(hào)的梅爾頻譜圖中隨機(jī)選取第一幀片段作為參考幀片段,將所述參考幀片段輸入全局參考編碼器,通過所述全局參考編碼器從參考幀片段中解耦時(shí)不變特征,得到與時(shí)變特征分離的語音信息全局表示;

4、從所述待合成語音信號(hào)的梅爾頻譜圖中隨機(jī)選取第二幀片段,將所述第二幀片段和語音信息全局表示一起輸入基于解耦vq-vae的單碼本語音編解碼器,所述單碼本語音編解碼器通過解耦的vq-vae將所述第二幀片段解耦為時(shí)不變特征且富含語音信息的離散序列;

5、通過解碼器對(duì)所述離散序列進(jìn)行解碼,獲取待合成語音信號(hào)的語音細(xì)節(jié)信息,并將所述語音細(xì)節(jié)信息與語音信息全局表示相加,生成重建的梅爾頻譜圖;

6、通過聲碼器將所述重建的梅爾頻譜圖轉(zhuǎn)換為語音波形,得到語音合成結(jié)果。

7、第二方面,提供了一種基于解耦vq-vae的語音合成裝置,包括:

8、參考編碼模塊:用于從待合成語音信號(hào)的梅爾頻譜圖中隨機(jī)選取第一幀片段作為參考幀片段,將所述參考幀片段輸入全局參考編碼器,通過所述全局參考編碼器從參考幀片段中解耦時(shí)不變特征,得到與時(shí)變特征分離的語音信息全局表示;

9、音頻編碼模塊:用于從所述待合成語音信號(hào)的梅爾頻譜圖中隨機(jī)選取第二幀片段,將所述第二幀片段和語音信息全局表示一起輸入基于解耦vq-vae的單碼本語音編解碼器,所述單碼本語音編解碼器通過解耦的vq-vae將第二幀片段解耦為時(shí)不變特征且富含語音信息的離散序列;

10、音頻解碼模塊:用于通過解碼器對(duì)所述離散序列進(jìn)行解碼,獲取待合成語音信號(hào)的語音細(xì)節(jié)信息,并將所述語音細(xì)節(jié)信息與語音信息全局表示相加,生成重建的梅爾頻譜圖;

11、語音合成模塊:用于通過聲碼器將所述重建的梅爾頻譜圖轉(zhuǎn)換為語音波形,得到語音合成結(jié)果。

12、第三方面,提供了一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器、處理器以及存儲(chǔ)在存儲(chǔ)器中并可在處理器上運(yùn)行的計(jì)算機(jī)程序,處理器執(zhí)行計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述基于解耦vq-vae的語音合成方法的步驟。

13、第四方面,提供了一種計(jì)算機(jī)可讀存儲(chǔ)存儲(chǔ)介質(zhì),計(jì)算機(jī)可讀存儲(chǔ)存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述基于解耦vq-vae的語音合成方法的步驟。

14、上述基于解耦vq-vae的語音合成方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)存儲(chǔ)介質(zhì)所實(shí)現(xiàn)的方案中,通過在編解碼之前引入全局參考編碼器從語音信號(hào)中解耦時(shí)不變特征,將語音信全局表示與時(shí)變內(nèi)容信息分離,使得語音編解碼器在編解碼時(shí)能夠嵌入更多的語音內(nèi)容信息。并采用基于解耦vq-vae的單碼本語音編解碼器將語音信號(hào)解耦為時(shí)不變特征且富含語音信息的離散序列,僅使用單碼本對(duì)離散序列進(jìn)行量化,從而避免了多序列預(yù)測(cè)的問題,提高了語音編解碼器的工作效率和魯棒性,在更低的帶寬下,能夠?qū)崿F(xiàn)比多碼本編解碼器更好的語音重建質(zhì)量。



技術(shù)特征:

1.一種基于解耦vq-vae的語音合成方法,其特征在于,包括:

2.如權(quán)利要求1所述的基于解耦vq-vae的語音合成方法,其特征在于,所述通過所述全局參考編碼器從參考幀片段中解耦時(shí)不變特征,得到與時(shí)變特征分離的語音信息全局表示,包括:

3.如權(quán)利要求2所述的基于解耦vq-vae的語音合成方法,其特征在于,所述單碼本語音編解碼器通過解耦的vq-vae將所述第二幀片段解耦為時(shí)不變特征且富含語音信息的離散序列,包括:

4.如權(quán)利要求3所述的基于解耦vq-vae的語音合成方法,其特征在于,所述通過解碼器對(duì)所述離散序列進(jìn)行解碼,獲取待合成語音信號(hào)的語音細(xì)節(jié)信息,并將所述語音細(xì)節(jié)信息與語音信息全局表示相加,生成重建的梅爾頻譜圖,包括:

5.如權(quán)利要求1所述的基于解耦vq-vae的語音合成方法,其特征在于,所述從待合成語音信號(hào)的梅爾頻譜圖中隨機(jī)選取第一幀片段作為參考幀片段之前,還包括:

6.如權(quán)利要求1-5任一項(xiàng)所述的基于解耦vq-vae的語音合成方法,其特征在于,所述通過解碼器對(duì)所述離散序列進(jìn)行解碼,獲取待合成語音信號(hào)的語音細(xì)節(jié)信息,并將所述語音細(xì)節(jié)信息與語音信息全局表示相加,生成重建的梅爾頻譜圖之后,還包括:

7.如權(quán)利要求6所述的基于解耦vq-vae的語音合成方法,其特征在于,所述對(duì)判別器進(jìn)行對(duì)抗訓(xùn)練的總損失函數(shù)為:

8.一種基于解耦vq-vae的語音合成裝置,其特征在于,包括:

9.一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器、處理器以及存儲(chǔ)在所述存儲(chǔ)器中并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至7任一項(xiàng)所述基于解耦vq-vae的語音合成方法的步驟。

10.一種計(jì)算機(jī)可讀存儲(chǔ)存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至7任一項(xiàng)所述基于解耦vq-vae的語音合成方法的步驟。


技術(shù)總結(jié)
本發(fā)明涉及音頻信號(hào)處理技術(shù)領(lǐng)域,公開了一種基于解耦VQ?VAE的語音合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì),包括:從待合成語音信號(hào)的梅爾頻譜圖中隨機(jī)選取第一幀片段作為參考幀片段,將參考幀片段輸入全局參考編碼器,通過全局參考編碼器從參考幀片段中解耦時(shí)不變特征,得到與時(shí)變特征分離的語音信息全局表示;從待合成語音信號(hào)的梅爾頻譜圖中隨機(jī)選取第二幀片段,將第二幀片段和語音信息全局表示輸入基于解耦VQ?VAE的單碼本語音編解碼器,單碼本語音編解碼器通過解耦的VQ?VAE將第二幀片段解耦為時(shí)不變特征且富含語音信息的離散序列;通過解碼器對(duì)離散序列進(jìn)行解碼,生成重建的梅爾頻譜圖。本發(fā)明避免了多序列預(yù)測(cè)的問題,提高了語音編解碼器的工作效率和魯棒性。

技術(shù)研發(fā)人員:張旭龍,王健宗
受保護(hù)的技術(shù)使用者:平安科技(深圳)有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/1/6
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
霸州市| 津南区| 明溪县| 乐山市| 内丘县| 米脂县| 石楼县| 新野县| 佛坪县| 华宁县| 龙井市| 卓资县| 靖西县| 岐山县| 正宁县| 连南| 敦煌市| 秀山| 翁源县| 石城县| 楚雄市| 高台县| 遂川县| 高雄县| 夏津县| 教育| 自贡市| 平凉市| 南华县| 金门县| 奉新县| 永吉县| 依安县| 敖汉旗| 紫阳县| 武川县| 宁都县| 台南县| 施甸县| 文登市| 九龙坡区|