本發(fā)明涉及音頻信號(hào)處理,尤其涉及一種基于解耦vq-vae的語音合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù):
1、語音編解碼,旨在將語音信號(hào)轉(zhuǎn)換為緊湊的離散表示,并在需要時(shí)重建原始音頻。語音編解碼在語音通信、語音存儲(chǔ)和語音合成等領(lǐng)域具有廣泛的應(yīng)用。在基于大語言模型的語音合成(llm-tts)系統(tǒng)中,語音編解碼器負(fù)責(zé)將語音信號(hào)轉(zhuǎn)換為離散表示(token),使得大語言模型能夠像處理文本一樣處理語音,并將大語言模型生成的離散表示重建為高質(zhì)量的語音波形。
2、目前,業(yè)內(nèi)主流的語音編解碼器多采用多碼本結(jié)構(gòu),語言模型需要預(yù)測(cè)多個(gè)離散序列,嚴(yán)重影響了編解碼器的工作效率和魯棒性。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提供一種基于解耦vq-vae的語音合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì),以解決現(xiàn)有技術(shù)中的語音編解碼器采用多碼本結(jié)構(gòu),語言模型需要預(yù)測(cè)多個(gè)離散序列,影響編解碼器的工作效率和魯棒性的技術(shù)問題。
2、第一方面,提供了一種基于解耦vq-vae的語音合成方法,包括:
3、從待合成語音信號(hào)的梅爾頻譜圖中隨機(jī)選取第一幀片段作為參考幀片段,將所述參考幀片段輸入全局參考編碼器,通過所述全局參考編碼器從參考幀片段中解耦時(shí)不變特征,得到與時(shí)變特征分離的語音信息全局表示;
4、從所述待合成語音信號(hào)的梅爾頻譜圖中隨機(jī)選取第二幀片段,將所述第二幀片段和語音信息全局表示一起輸入基于解耦vq-vae的單碼本語音編解碼器,所述單碼本語音編解碼器通過解耦的vq-vae將所述第二幀片段解耦為時(shí)不變特征且富含語音信息的離散序列;
5、通過解碼器對(duì)所述離散序列進(jìn)行解碼,獲取待合成語音信號(hào)的語音細(xì)節(jié)信息,并將所述語音細(xì)節(jié)信息與語音信息全局表示相加,生成重建的梅爾頻譜圖;
6、通過聲碼器將所述重建的梅爾頻譜圖轉(zhuǎn)換為語音波形,得到語音合成結(jié)果。
7、第二方面,提供了一種基于解耦vq-vae的語音合成裝置,包括:
8、參考編碼模塊:用于從待合成語音信號(hào)的梅爾頻譜圖中隨機(jī)選取第一幀片段作為參考幀片段,將所述參考幀片段輸入全局參考編碼器,通過所述全局參考編碼器從參考幀片段中解耦時(shí)不變特征,得到與時(shí)變特征分離的語音信息全局表示;
9、音頻編碼模塊:用于從所述待合成語音信號(hào)的梅爾頻譜圖中隨機(jī)選取第二幀片段,將所述第二幀片段和語音信息全局表示一起輸入基于解耦vq-vae的單碼本語音編解碼器,所述單碼本語音編解碼器通過解耦的vq-vae將第二幀片段解耦為時(shí)不變特征且富含語音信息的離散序列;
10、音頻解碼模塊:用于通過解碼器對(duì)所述離散序列進(jìn)行解碼,獲取待合成語音信號(hào)的語音細(xì)節(jié)信息,并將所述語音細(xì)節(jié)信息與語音信息全局表示相加,生成重建的梅爾頻譜圖;
11、語音合成模塊:用于通過聲碼器將所述重建的梅爾頻譜圖轉(zhuǎn)換為語音波形,得到語音合成結(jié)果。
12、第三方面,提供了一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器、處理器以及存儲(chǔ)在存儲(chǔ)器中并可在處理器上運(yùn)行的計(jì)算機(jī)程序,處理器執(zhí)行計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述基于解耦vq-vae的語音合成方法的步驟。
13、第四方面,提供了一種計(jì)算機(jī)可讀存儲(chǔ)存儲(chǔ)介質(zhì),計(jì)算機(jī)可讀存儲(chǔ)存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述基于解耦vq-vae的語音合成方法的步驟。
14、上述基于解耦vq-vae的語音合成方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)存儲(chǔ)介質(zhì)所實(shí)現(xiàn)的方案中,通過在編解碼之前引入全局參考編碼器從語音信號(hào)中解耦時(shí)不變特征,將語音信全局表示與時(shí)變內(nèi)容信息分離,使得語音編解碼器在編解碼時(shí)能夠嵌入更多的語音內(nèi)容信息。并采用基于解耦vq-vae的單碼本語音編解碼器將語音信號(hào)解耦為時(shí)不變特征且富含語音信息的離散序列,僅使用單碼本對(duì)離散序列進(jìn)行量化,從而避免了多序列預(yù)測(cè)的問題,提高了語音編解碼器的工作效率和魯棒性,在更低的帶寬下,能夠?qū)崿F(xiàn)比多碼本編解碼器更好的語音重建質(zhì)量。
1.一種基于解耦vq-vae的語音合成方法,其特征在于,包括:
2.如權(quán)利要求1所述的基于解耦vq-vae的語音合成方法,其特征在于,所述通過所述全局參考編碼器從參考幀片段中解耦時(shí)不變特征,得到與時(shí)變特征分離的語音信息全局表示,包括:
3.如權(quán)利要求2所述的基于解耦vq-vae的語音合成方法,其特征在于,所述單碼本語音編解碼器通過解耦的vq-vae將所述第二幀片段解耦為時(shí)不變特征且富含語音信息的離散序列,包括:
4.如權(quán)利要求3所述的基于解耦vq-vae的語音合成方法,其特征在于,所述通過解碼器對(duì)所述離散序列進(jìn)行解碼,獲取待合成語音信號(hào)的語音細(xì)節(jié)信息,并將所述語音細(xì)節(jié)信息與語音信息全局表示相加,生成重建的梅爾頻譜圖,包括:
5.如權(quán)利要求1所述的基于解耦vq-vae的語音合成方法,其特征在于,所述從待合成語音信號(hào)的梅爾頻譜圖中隨機(jī)選取第一幀片段作為參考幀片段之前,還包括:
6.如權(quán)利要求1-5任一項(xiàng)所述的基于解耦vq-vae的語音合成方法,其特征在于,所述通過解碼器對(duì)所述離散序列進(jìn)行解碼,獲取待合成語音信號(hào)的語音細(xì)節(jié)信息,并將所述語音細(xì)節(jié)信息與語音信息全局表示相加,生成重建的梅爾頻譜圖之后,還包括:
7.如權(quán)利要求6所述的基于解耦vq-vae的語音合成方法,其特征在于,所述對(duì)判別器進(jìn)行對(duì)抗訓(xùn)練的總損失函數(shù)為:
8.一種基于解耦vq-vae的語音合成裝置,其特征在于,包括:
9.一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器、處理器以及存儲(chǔ)在所述存儲(chǔ)器中并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至7任一項(xiàng)所述基于解耦vq-vae的語音合成方法的步驟。
10.一種計(jì)算機(jī)可讀存儲(chǔ)存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至7任一項(xiàng)所述基于解耦vq-vae的語音合成方法的步驟。