基于解耦VQ-VAE的語音合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)與流程

文檔序號(hào)：40586968發(fā)布日期：2025-01-07 20:26閱讀：8來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

基于解耦VQ-VAE的語音合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)與流程

本發(fā)明涉及音頻信號(hào)處理，尤其涉及一種基于解耦vq-vae的語音合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)。

背景技術(shù)：

1、語音編解碼，旨在將語音信號(hào)轉(zhuǎn)換為緊湊的離散表示，并在需要時(shí)重建原始音頻。語音編解碼在語音通信、語音存儲(chǔ)和語音合成等領(lǐng)域具有廣泛的應(yīng)用。在基于大語言模型的語音合成(llm-tts)系統(tǒng)中，語音編解碼器負(fù)責(zé)將語音信號(hào)轉(zhuǎn)換為離散表示(token)，使得大語言模型能夠像處理文本一樣處理語音，并將大語言模型生成的離散表示重建為高質(zhì)量的語音波形。

2、目前，業(yè)內(nèi)主流的語音編解碼器多采用多碼本結(jié)構(gòu)，語言模型需要預(yù)測(cè)多個(gè)離散序列，嚴(yán)重影響了編解碼器的工作效率和魯棒性。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明提供一種基于解耦vq-vae的語音合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)，以解決現(xiàn)有技術(shù)中的語音編解碼器采用多碼本結(jié)構(gòu)，語言模型需要預(yù)測(cè)多個(gè)離散序列，影響編解碼器的工作效率和魯棒性的技術(shù)問題。

2、第一方面，提供了一種基于解耦vq-vae的語音合成方法，包括：

3、從待合成語音信號(hào)的梅爾頻譜圖中隨機(jī)選取第一幀片段作為參考幀片段，將所述參考幀片段輸入全局參考編碼器，通過所述全局參考編碼器從參考幀片段中解耦時(shí)不變特征，得到與時(shí)變特征分離的語音信息全局表示；

4、從所述待合成語音信號(hào)的梅爾頻譜圖中隨機(jī)選取第二幀片段，將所述第二幀片段和語音信息全局表示一起輸入基于解耦vq-vae的單碼本語音編解碼器，所述單碼本語音編解碼器通過解耦的vq-vae將所述第二幀片段解耦為時(shí)不變特征且富含語音信息的離散序列；

5、通過解碼器對(duì)所述離散序列進(jìn)行解碼，獲取待合成語音信號(hào)的語音細(xì)節(jié)信息，并將所述語音細(xì)節(jié)信息與語音信息全局表示相加，生成重建的梅爾頻譜圖；

6、通過聲碼器將所述重建的梅爾頻譜圖轉(zhuǎn)換為語音波形，得到語音合成結(jié)果。

7、第二方面，提供了一種基于解耦vq-vae的語音合成裝置，包括：

8、參考編碼模塊：用于從待合成語音信號(hào)的梅爾頻譜圖中隨機(jī)選取第一幀片段作為參考幀片段，將所述參考幀片段輸入全局參考編碼器，通過所述全局參考編碼器從參考幀片段中解耦時(shí)不變特征，得到與時(shí)變特征分離的語音信息全局表示；

9、音頻編碼模塊：用于從所述待合成語音信號(hào)的梅爾頻譜圖中隨機(jī)選取第二幀片段，將所述第二幀片段和語音信息全局表示一起輸入基于解耦vq-vae的單碼本語音編解碼器，所述單碼本語音編解碼器通過解耦的vq-vae將第二幀片段解耦為時(shí)不變特征且富含語音信息的離散序列；

10、音頻解碼模塊：用于通過解碼器對(duì)所述離散序列進(jìn)行解碼，獲取待合成語音信號(hào)的語音細(xì)節(jié)信息，并將所述語音細(xì)節(jié)信息與語音信息全局表示相加，生成重建的梅爾頻譜圖；

11、語音合成模塊：用于通過聲碼器將所述重建的梅爾頻譜圖轉(zhuǎn)換為語音波形，得到語音合成結(jié)果。

12、第三方面，提供了一種計(jì)算機(jī)設(shè)備，包括存儲(chǔ)器、處理器以及存儲(chǔ)在存儲(chǔ)器中并可在處理器上運(yùn)行的計(jì)算機(jī)程序，處理器執(zhí)行計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述基于解耦vq-vae的語音合成方法的步驟。

13、第四方面，提供了一種計(jì)算機(jī)可讀存儲(chǔ)存儲(chǔ)介質(zhì)，計(jì)算機(jī)可讀存儲(chǔ)存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序，計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述基于解耦vq-vae的語音合成方法的步驟。

14、上述基于解耦vq-vae的語音合成方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)存儲(chǔ)介質(zhì)所實(shí)現(xiàn)的方案中，通過在編解碼之前引入全局參考編碼器從語音信號(hào)中解耦時(shí)不變特征，將語音信全局表示與時(shí)變內(nèi)容信息分離，使得語音編解碼器在編解碼時(shí)能夠嵌入更多的語音內(nèi)容信息。并采用基于解耦vq-vae的單碼本語音編解碼器將語音信號(hào)解耦為時(shí)不變特征且富含語音信息的離散序列，僅使用單碼本對(duì)離散序列進(jìn)行量化，從而避免了多序列預(yù)測(cè)的問題，提高了語音編解碼器的工作效率和魯棒性，在更低的帶寬下，能夠?qū)崿F(xiàn)比多碼本編解碼器更好的語音重建質(zhì)量。

技術(shù)特征：

1.一種基于解耦vq-vae的語音合成方法，其特征在于，包括：

2.如權(quán)利要求1所述的基于解耦vq-vae的語音合成方法，其特征在于，所述通過所述全局參考編碼器從參考幀片段中解耦時(shí)不變特征，得到與時(shí)變特征分離的語音信息全局表示，包括：

3.如權(quán)利要求2所述的基于解耦vq-vae的語音合成方法，其特征在于，所述單碼本語音編解碼器通過解耦的vq-vae將所述第二幀片段解耦為時(shí)不變特征且富含語音信息的離散序列，包括：

4.如權(quán)利要求3所述的基于解耦vq-vae的語音合成方法，其特征在于，所述通過解碼器對(duì)所述離散序列進(jìn)行解碼，獲取待合成語音信號(hào)的語音細(xì)節(jié)信息，并將所述語音細(xì)節(jié)信息與語音信息全局表示相加，生成重建的梅爾頻譜圖，包括：

5.如權(quán)利要求1所述的基于解耦vq-vae的語音合成方法，其特征在于，所述從待合成語音信號(hào)的梅爾頻譜圖中隨機(jī)選取第一幀片段作為參考幀片段之前，還包括：

6.如權(quán)利要求1-5任一項(xiàng)所述的基于解耦vq-vae的語音合成方法，其特征在于，所述通過解碼器對(duì)所述離散序列進(jìn)行解碼，獲取待合成語音信號(hào)的語音細(xì)節(jié)信息，并將所述語音細(xì)節(jié)信息與語音信息全局表示相加，生成重建的梅爾頻譜圖之后，還包括：

7.如權(quán)利要求6所述的基于解耦vq-vae的語音合成方法，其特征在于，所述對(duì)判別器進(jìn)行對(duì)抗訓(xùn)練的總損失函數(shù)為：

8.一種基于解耦vq-vae的語音合成裝置，其特征在于，包括：

9.一種計(jì)算機(jī)設(shè)備，包括存儲(chǔ)器、處理器以及存儲(chǔ)在所述存儲(chǔ)器中并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序，其特征在于，所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至7任一項(xiàng)所述基于解耦vq-vae的語音合成方法的步驟。

10.一種計(jì)算機(jī)可讀存儲(chǔ)存儲(chǔ)介質(zhì)，所述計(jì)算機(jī)可讀存儲(chǔ)存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序，其特征在于，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至7任一項(xiàng)所述基于解耦vq-vae的語音合成方法的步驟。

技術(shù)總結(jié)
本發(fā)明涉及音頻信號(hào)處理技術(shù)領(lǐng)域，公開了一種基于解耦VQ?VAE的語音合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)，包括：從待合成語音信號(hào)的梅爾頻譜圖中隨機(jī)選取第一幀片段作為參考幀片段，將參考幀片段輸入全局參考編碼器，通過全局參考編碼器從參考幀片段中解耦時(shí)不變特征，得到與時(shí)變特征分離的語音信息全局表示；從待合成語音信號(hào)的梅爾頻譜圖中隨機(jī)選取第二幀片段，將第二幀片段和語音信息全局表示輸入基于解耦VQ?VAE的單碼本語音編解碼器，單碼本語音編解碼器通過解耦的VQ?VAE將第二幀片段解耦為時(shí)不變特征且富含語音信息的離散序列；通過解碼器對(duì)離散序列進(jìn)行解碼，生成重建的梅爾頻譜圖。本發(fā)明避免了多序列預(yù)測(cè)的問題，提高了語音編解碼器的工作效率和魯棒性。

技術(shù)研發(fā)人員：張旭龍,王健宗
受保護(hù)的技術(shù)使用者：平安科技（深圳）有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2025/1/6

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張旭龍,王健宗
技術(shù)所有人：平安科技（深圳）有限公司
我是此專利的發(fā)明人

上一篇：用于隧道臺(tái)車的支撐梁的制作方法
上一篇：一種具有導(dǎo)向結(jié)構(gòu)的金屬雕刻裝置的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于解耦VQ-VAE的語音合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)與流程

基于解耦VQ-VAE的語音合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)與流程