欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種解碼器、音頻離散化重建的系統(tǒng)、方法及存儲介質(zhì)與流程

文檔序號:40444986發(fā)布日期:2024-12-24 15:19閱讀:32來源:國知局
一種解碼器、音頻離散化重建的系統(tǒng)、方法及存儲介質(zhì)與流程

本發(fā)明涉及音頻處理,特別是一種解碼器、音頻離散化重建的系統(tǒng)、方法及存儲介質(zhì)。


背景技術(shù):

1、音頻離散化重建是將連續(xù)音頻特征序列映射到有限的離散代碼空間,將連續(xù)音頻特征序列轉(zhuǎn)化為離散化特征(離散碼),對連續(xù)音頻特征序列進(jìn)行表征和重建,以實現(xiàn)音頻更有效的壓縮、生成和傳輸。

2、目前音頻離散化解決了音頻模態(tài)與大語言模型的結(jié)合,復(fù)雜且冗長的音頻無法直接輸入大模型中進(jìn)行學(xué)習(xí),經(jīng)過音頻離散化壓縮后,音頻就能很好的與大模型結(jié)合,使能夠直接理解和生成音頻的端到端大模型真正落地。

3、現(xiàn)有技術(shù)中,音頻離散化重建系統(tǒng),主要包括編碼器(encoder)、量化器(quantizer)和解碼器(decoder)。

4、編碼器(encoder)將高維的原始音頻壓縮到一個低維的特征空間,提取連續(xù)音頻特征序列,通常采用卷積神經(jīng)網(wǎng)絡(luò)(cnn)或?transformer?模型。編碼器(encoder)首先提取音頻的特征信息,例如時頻特征,提取的特征在傳輸?shù)搅炕鳎╭uantizer)之前是一個連續(xù)的潛在表示,即連續(xù)音頻特征序列。

5、量化器(quantizer)是現(xiàn)有音頻離散化重建系統(tǒng)的核心部分,將編碼器(encoder)輸出的連續(xù)音頻特征序列離散化,通過查找最接近特征的離散代碼向量(從代碼表中選擇),將連續(xù)音頻特征序列映射到離散空間,生成離散化特征。

6、解碼器(decoder),利用量化器(quantizer)得到的離散化特征進(jìn)行音頻重建。

7、現(xiàn)有音頻離散化重建系統(tǒng),通過編碼器(encoder)、量化器(quantizer)和解碼器(decoder)對音頻壓縮、離散化并重建。解碼器(decoder)與編碼器(encoder)一樣,采用卷積神經(jīng)網(wǎng)絡(luò)(cnn)解碼器、反卷積解碼器或者基于自回歸結(jié)構(gòu)的解碼器,將離散化特征作為輸入,再現(xiàn)原始音頻波形或頻譜信息。

8、現(xiàn)有音頻離散化重建系統(tǒng),能夠?qū)⑦B續(xù)音頻特征序列映射到有限的離散代碼空間,對連續(xù)音頻特征序列進(jìn)行表征和重建,但是目前的音頻離散化重建系統(tǒng)還存在如下不足:

9、(1)編碼器(encoder)和解碼器(decoder)基本上遵從鏡像對稱結(jié)構(gòu)。然而,音頻的特征提取和重建,在參數(shù)上可能會有不同側(cè)重點(diǎn),編碼器(encoder)和解碼器(decoder)的對稱結(jié)構(gòu)無法同時滿足特征提取和重建的需要,從而影響編碼器的音頻特征提取和解碼器的音頻重建效果。

10、例如,解碼器(decoder)與編碼器(encoder)的鏡像對稱結(jié)構(gòu),這種標(biāo)準(zhǔn)結(jié)構(gòu)一般由于上采樣的需求,會使用一系列時序上的操作,如空洞卷積(增加時序感受野)、轉(zhuǎn)制卷積(也叫反卷積,用于上采樣),增加感受野并逐步從特征上采樣到波形,這樣的結(jié)構(gòu)很容易產(chǎn)生混疊效應(yīng),也就是在頻域上不能完全進(jìn)行足夠的采樣,造成較高的頻率成分“折疊”到較低的頻率范圍,與實際的低頻成分混淆,從而導(dǎo)致音頻重建時出現(xiàn)失真和噪聲,影響音頻重建的質(zhì)量。

11、(2)現(xiàn)有的解碼器(decoder)與編碼器(encoder)的鏡像對稱結(jié)構(gòu),解碼器(decoder)不管是直接對音頻重建,還是對特征譜圖(如頻譜圖、梅爾譜圖)的還原,利用離散化特征進(jìn)行音頻重建的精度都比較有限,且為了達(dá)到高壓縮率的需求,音頻重建的質(zhì)量往往會受限于編碼器(encoder)過高的下采樣率和量化器(quantizer)有限的碼本參數(shù)量,在音頻重建時,重建的音頻存在部分細(xì)節(jié)失真的問題,無法生成高保真音頻。


技術(shù)實現(xiàn)思路

1、本發(fā)明提出了一種解碼器、音頻離散化重建的系統(tǒng)、方法及存儲介質(zhì),以解決現(xiàn)有音頻離散化重建,重建的音頻存在部分細(xì)節(jié)失真的問題,無法生成高保真音頻的技術(shù)問題。

2、本發(fā)明的一個方面在于提供一種用于音頻離散化重建的解碼器,所述解碼器包括:cnn層,用于輸入音頻的離散化特征,并將所述離散化特征進(jìn)行初步特征還原,生成還原特征;

3、stft預(yù)測層,用于對所述還原特征,在多個頻域尺度下預(yù)測傅立葉譜系數(shù);其中,預(yù)測的傅立葉譜系數(shù)包括幅度譜系數(shù)和相位譜系數(shù);

4、利用預(yù)測的傅立葉譜系數(shù),在多個頻域尺度下對所述還原特征進(jìn)行頻譜恢復(fù),生成所述還原特征在多個頻域尺度下的stft頻譜圖;

5、istft層,用于將多個頻域尺度下的所述stft頻譜圖進(jìn)行逆短時傅里葉變換,將所述stft頻譜圖轉(zhuǎn)換回時間域,生成多個完整的候選音頻;

6、融合層,用于對多個所述候選音頻進(jìn)行融合,生成重建的音頻。

7、在一個優(yōu)選的實施例中,所述stft預(yù)測層包括堆疊的多個深度卷積層和多個逐點(diǎn)卷積層。

8、在一個優(yōu)選的實施例中,所述stft預(yù)測層,對所述還原特征,在一個頻域尺度下預(yù)測傅立葉譜系數(shù);其中,預(yù)測的傅立葉譜系數(shù)包括幅度譜系數(shù)和相位譜系數(shù);

9、利用預(yù)測的傅立葉譜系數(shù),在一個頻域尺度下對所述還原特征進(jìn)行頻譜恢復(fù),生成所述還原特征在一個頻域尺度下的stft頻譜圖。

10、在一個優(yōu)選的實施例中,所述融合層采用加權(quán)平均、基于低頻保留高頻增強(qiáng)規(guī)則或者全連接層預(yù)測中的任一方式,對多個所述候選音頻進(jìn)行融合。

11、本發(fā)明的另一個方面在于提供一種音頻離散化重建的系統(tǒng),所述系統(tǒng)包括編碼器、量化器,以及本發(fā)明提供的一種解碼器。

12、在一個優(yōu)選的實施例中,所述編碼器,用于獲取原始音頻;

13、對所述原始音頻下采樣,提取原始音頻的連續(xù)音頻特征序列;

14、所述量化器,用于對提取的所述連續(xù)音頻特征序列進(jìn)行離散化,生成音頻的離散化特征。

15、本發(fā)明的又一個方面在于提供一種音頻離散化重建的方法,所述方法包括如下方法步驟:

16、s1、獲取原始音頻;

17、對所述原始音頻下采樣,提取原始音頻的連續(xù)音頻特征序列;

18、s2、對提取的所述連續(xù)音頻特征序列進(jìn)行離散化,生成音頻的離散化特征;

19、s3、將所述離散化特征進(jìn)行初步特征還原,生成還原特征;

20、s4、對所述還原特征,在多個頻域尺度下預(yù)測傅立葉譜系數(shù);其中,預(yù)測的傅立葉譜系數(shù)包括幅度譜系數(shù)和相位譜系數(shù);

21、利用預(yù)測的傅立葉譜系數(shù),在多個頻域尺度下對所述還原特征進(jìn)行頻譜恢復(fù),生成所述還原特征在多個頻域尺度下的stft頻譜圖;

22、s5、將多個頻域尺度下的所述stft頻譜圖進(jìn)行逆短時傅里葉變換,將所述stft頻譜圖轉(zhuǎn)換回時間域,生成多個完整的候選音頻;

23、s6、對多個所述候選音頻進(jìn)行融合,生成重建的音頻,完成音頻離散化重建。

24、在一個優(yōu)選的實施例中,在步驟s4中,對所述還原特征,在一個頻域尺度下預(yù)測傅立葉譜系數(shù);其中,預(yù)測的傅立葉譜系數(shù)包括幅度譜系數(shù)和相位譜系數(shù);

25、利用預(yù)測的傅立葉譜系數(shù),在一個頻域尺度下對所述還原特征進(jìn)行頻譜恢復(fù),生成所述還原特征在一個頻域尺度下的stft頻譜圖。

26、在一個優(yōu)選的實施例中,在步驟s6中,采用加權(quán)平均、基于低頻保留高頻增強(qiáng)規(guī)則或者全連接層預(yù)測中的任一方式,對多個所述候選音頻進(jìn)行融合。

27、本發(fā)明的再一個方面在于提供一種計算機(jī)存儲介質(zhì),所述計算機(jī)存儲介質(zhì),用于存儲計算機(jī)執(zhí)行指令,所述計算機(jī)執(zhí)行指令,用于執(zhí)行本發(fā)明提供的一種音頻離散化重建的方法。

28、與現(xiàn)有技術(shù)相比,本發(fā)明具有以下有益效果:

29、本發(fā)明提出的一種解碼器、音頻離散化重建的系統(tǒng)、方法及存儲介質(zhì),解碼器將離散化特征進(jìn)行初步特征還原,生成還原特征;對還原特征在多個頻域尺度下預(yù)測傅立葉譜系數(shù),利用預(yù)測的傅立葉譜系數(shù),在多個頻域尺度下對還原特征進(jìn)行頻譜恢復(fù),生成還原特征在多個頻域尺度下的stft頻譜圖。將多個頻域尺度下的stft頻譜圖進(jìn)行逆短時傅里葉變換,將stft頻譜圖轉(zhuǎn)換回時間域,生成多個完整的候選音頻,最后對多個候選音頻進(jìn)行融合,生成重建的音頻,可以保證編碼器高壓縮率的前提下,實現(xiàn)高質(zhì)量的音頻重建。

30、本發(fā)明提出的一種解碼器、音頻離散化重建的系統(tǒng)、方法及存儲介質(zhì),解碼器進(jìn)行音頻重建時,能夠避免重建的音頻出現(xiàn)失真和噪聲,實現(xiàn)重建高保真音頻,提高重建的音頻的質(zhì)量。

31、本發(fā)明提出的一種解碼器、音頻離散化重建的系統(tǒng)、方法及存儲介質(zhì),可以顯著降低音頻數(shù)據(jù)的存儲需求,同時保持較高的重建質(zhì)量,適用于通信和存儲資源受限的場景,如語音通話、音頻流媒體等。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
温宿县| 琼海市| 加查县| 千阳县| 峨眉山市| 兰溪市| 固安县| 滕州市| 东明县| 郁南县| 娄烦县| 资讯 | 海阳市| 桃江县| 修文县| 汶川县| 龙州县| 遂川县| 潮州市| 镶黄旗| 宁强县| 庆阳市| 绵阳市| 舟曲县| 那曲县| 赤峰市| 百色市| 越西县| 承德市| 龙游县| 贺兰县| 绥江县| 怀安县| 石屏县| 寿阳县| 碌曲县| 五峰| 隆德县| 潢川县| 张家港市| 孟津县|