欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于深度學(xué)習(xí)的語音增強(qiáng)方法及系統(tǒng)與流程

文檔序號:40417482發(fā)布日期:2024-12-24 14:50閱讀:12來源:國知局
基于深度學(xué)習(xí)的語音增強(qiáng)方法及系統(tǒng)與流程

本發(fā)明涉及音頻信息處理,尤其是涉及一種基于深度學(xué)習(xí)的語音增強(qiáng)方法及系統(tǒng)。


背景技術(shù):

1、在傳統(tǒng)的單通道語音增強(qiáng)方法中,通常需要對噪聲信號與干凈語音信號之間的相互作用做出一些假設(shè)。這些假設(shè)往往是基于特定的數(shù)學(xué)模型或統(tǒng)計(jì)特性,而這限制了增強(qiáng)技術(shù)的性能和適用范圍,導(dǎo)致增強(qiáng)后的語音質(zhì)量往往不盡如人意。相比之下,基于深度學(xué)習(xí)的方法不需要對語音信號和噪聲信號之間的關(guān)系進(jìn)行明確的假設(shè)。這類方法利用大量的訓(xùn)練數(shù)據(jù)來直接學(xué)習(xí)純凈語音與噪聲之間的映射關(guān)系。這種方法的優(yōu)勢在于它能夠從數(shù)據(jù)中自動(dòng)提取特征并學(xué)習(xí)復(fù)雜的非線性關(guān)系,從而克服了傳統(tǒng)語音增強(qiáng)算法的一些固有問題,實(shí)現(xiàn)了更好的去噪效果和更強(qiáng)的泛化能力。

2、但同時(shí)帶來了新的挑戰(zhàn),深度學(xué)習(xí)算法往往需要較大的參數(shù)量和計(jì)算開銷,嵌入式設(shè)備中的計(jì)算開銷問題隨著芯片性能的發(fā)展已經(jīng)得到了一定的解決,模型參數(shù)的大小往往制約的深度學(xué)習(xí)模型在設(shè)備中的廣泛應(yīng)用,而往往參數(shù)數(shù)量又與模型的性能息息相關(guān)。

3、故而亟需提出一種語音增強(qiáng)方法來解決所提出的問題。


技術(shù)實(shí)現(xiàn)思路

1、基于此,有必要針對現(xiàn)有技術(shù)的不足,提供一種基于深度學(xué)習(xí)的語音增強(qiáng)方法及系統(tǒng),通過參數(shù)共享的方式達(dá)到降低模型整體參數(shù)量的目的。

2、為解決上述技術(shù)問題,本發(fā)明所采用的技術(shù)方案是:

3、第一方面,提供了一種基于深度學(xué)習(xí)的語音增強(qiáng)方法,其包括如下步驟:

4、獲取原始語音數(shù)據(jù)對應(yīng)的fft特征;

5、基于卷積神經(jīng)網(wǎng)絡(luò)對fft特征進(jìn)行特征提取,獲取卷積特征信息;

6、基于循環(huán)神經(jīng)網(wǎng)絡(luò)對卷積特征信息進(jìn)行處理,獲取處理后的卷積特征信息;

7、基于不同層次特征融合結(jié)構(gòu)結(jié)合卷積神經(jīng)網(wǎng)絡(luò)獲取編碼特征及解碼特征的權(quán)重系數(shù),將編碼特征、解碼特征分別與對應(yīng)權(quán)重系數(shù)相乘后再相加獲取特征融合信息;

8、基于卷積神經(jīng)網(wǎng)絡(luò)對特征融合信息及處理后的卷積特征信息進(jìn)行特征提取,獲取反卷積特征信息;

9、基于反卷積特征信息求出多幀掩碼特征,結(jié)合多幀輸入特征求得當(dāng)前幀的輸出結(jié)果。

10、在一個(gè)實(shí)施例中,所述步驟獲取原始語音數(shù)據(jù)對應(yīng)的fft特征之前,還包括:

11、構(gòu)建語音增強(qiáng)模型。

12、在一個(gè)實(shí)施例中,所述步驟基于卷積神經(jīng)網(wǎng)絡(luò)對fft特征進(jìn)行特征提取,獲取卷積特征信息的方法,包括如下步驟:

13、卷積模塊共計(jì)五層,前三層卷積通道數(shù)設(shè)置為16,后兩層卷積為分組卷積,分組數(shù)大小與輸入的通道數(shù)相等,分組數(shù)等于16,通過前三層卷積來對fft特征進(jìn)行初步特征提取,再配合后兩層卷積獲取到卷積特征信息。

14、在一個(gè)實(shí)施例中,所述步驟基于循環(huán)神經(jīng)網(wǎng)絡(luò)對卷積特征信息進(jìn)行處理,獲取處理后的卷積特征信息的方法,包括以下步驟:

15、定義每一個(gè)通道上的lstm的輸入特征為x,inter為每個(gè)lstm輸入特征在通道維度上拼接后的集合,concat表示拼接操作,則具體計(jì)算公式滿足:

16、

17、對lstm輸入特征在通道維度上拼接后的集合在特征和通道維度上計(jì)算均值和方差后進(jìn)行歸一化處理,獲取處理后的卷積特征信息;其中,

18、均值

19、方差

20、處理后的卷積特征信息y滿足如下公式:

21、

22、其中,ξ是一個(gè)常量,λ和β是可訓(xùn)練的參數(shù),c、f、x的定義分別為通道數(shù)、特征數(shù)及l(fā)stm輸入特征。

23、在一個(gè)實(shí)施例中,所述步驟基于不同層次特征融合結(jié)構(gòu)結(jié)合卷積神經(jīng)網(wǎng)絡(luò)獲取編碼特征及解碼特征的權(quán)重系數(shù),將編碼特征、解碼特征分別與對應(yīng)權(quán)重系數(shù)相乘后再相加獲取特征融合信息的方法,具體操作包括:

24、將編碼特征ef、解碼特征df進(jìn)行拼接后輸入至由兩層核為1*1的卷積中求出編解碼的掩碼特征;

25、將求得的編解碼的掩碼特征通過sigmoid函數(shù)映射到[0,1],獲取編碼特征對應(yīng)的權(quán)重系數(shù);

26、將編碼特征、解碼特征分別與對應(yīng)權(quán)重系數(shù)相乘后再相加獲取特征融合信息en=(sigmoid(k(ef,df)))*ef+(1-sigmoid(k(ef,df)))*df。

27、在一個(gè)實(shí)施例中,所述步驟基于卷積神經(jīng)網(wǎng)絡(luò)對特征融合信息及處理后的卷積特征信息進(jìn)行特征提取,獲取反卷積特征信息的方法,具體操作包括:

28、反卷積模塊與卷積模塊結(jié)構(gòu)對稱,反卷積模塊共計(jì)五層,前兩層為分組卷積,后三層為與卷積模塊的卷積層對稱設(shè)置的反卷積層,通過前兩層分組卷積進(jìn)行初步特征提取,再配合后三層反卷積獲取反卷積特征信息。

29、在一個(gè)實(shí)施例中,所述步驟基于反卷積特征信息求出多幀掩碼特征,結(jié)合多幀輸入特征求得當(dāng)前幀的輸出結(jié)果的方法,具體操作包括,

30、設(shè)定反卷積輸出特征用e表示,掩碼特征mask用m來表示,掩碼特征m與反卷積輸出特征e的關(guān)系滿足:

31、m=tanh(e);

32、將當(dāng)前幀的輸入與前一幀的輸入及后一幀的輸入拼接,得到當(dāng)前幀的輸入特征x;

33、將當(dāng)前幀的輸入特征x與輸出的掩碼特征m點(diǎn)乘求和,得到當(dāng)前幀的輸出結(jié)果。

34、在一個(gè)實(shí)施例中,所述步驟將當(dāng)前幀的輸入特征x與輸出的掩碼特征m點(diǎn)乘求和,得到當(dāng)前幀的輸出結(jié)果的方法,具體操作包括,

35、通過深度濾波方式將當(dāng)前幀的輸入特征x與輸出的掩碼特征m點(diǎn)乘求和,計(jì)算表達(dá)式如下:其中,x(ct)表示對應(yīng)幀的輸入特征,m(ct)表示多幀掩碼特征,ct表示觀測幀數(shù)。

36、第二方面,提供了一種基于深度學(xué)習(xí)的語音增強(qiáng)系統(tǒng),其包括

37、fft模塊,用于獲取原始語音數(shù)據(jù)對應(yīng)的fft特征;

38、卷積模塊,用于基于卷積神經(jīng)網(wǎng)絡(luò)對fft特征進(jìn)行特征提取,獲取卷積特征信息;

39、rnn模塊,用于基于循環(huán)神經(jīng)網(wǎng)絡(luò)對卷積特征信息進(jìn)行處理,獲取處理后的卷積特征信息;

40、ffa模塊,用于基于不同層次特征融合(ffa)結(jié)構(gòu)結(jié)合卷積神經(jīng)網(wǎng)絡(luò)獲取編碼特征及解碼特征的權(quán)重系數(shù),將編碼特征、解碼特征分別與對應(yīng)權(quán)重系數(shù)相乘后再相加獲取特征融合信息;

41、反卷積模塊,用于基于卷積神經(jīng)網(wǎng)絡(luò)對特征融合信息及處理后的卷積特征信息進(jìn)行特征提取,獲取反卷積特征信息;

42、深度濾波模塊,用于基于反卷積特征信息求出多幀掩碼特征,結(jié)合多幀輸入特征求得當(dāng)前幀的輸出結(jié)果。

43、在一個(gè)實(shí)施例中,還包括構(gòu)建模塊,用于構(gòu)建語音增強(qiáng)模型。

44、綜上所述,本發(fā)明基于深度學(xué)習(xí)的語音增強(qiáng)方法及系統(tǒng)通過基于卷積神經(jīng)網(wǎng)絡(luò)及循環(huán)神經(jīng)網(wǎng)絡(luò)以通道進(jìn)行計(jì)算可以有效的保留語音信號的結(jié)構(gòu)信息,同時(shí)采用通道特征歸一化方式可以使得模型的訓(xùn)練更為穩(wěn)定,以及可以降低輸出語音幅度帶來的影響,由于循環(huán)神經(jīng)網(wǎng)絡(luò)模塊參數(shù)占模型整體參數(shù)的主要部分,因此通過lstm單元使用參數(shù)共享的方式可達(dá)到降低模型整體參數(shù)量的目的,以及對編解碼信息采用注意力機(jī)制使得模型更為有效的關(guān)注重要信息部分,此外采用深度濾波的方式來鏈接前后語音幀信息,從而進(jìn)一步可以提高輸出的語音信號質(zhì)量。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
山丹县| 中卫市| 交口县| 久治县| 尖扎县| 登封市| 遂昌县| 文昌市| 乌兰察布市| 吴旗县| 甘泉县| 太仆寺旗| 通化县| 宝鸡市| 临夏市| 石城县| 朝阳市| 峡江县| 沁阳市| 昂仁县| 义马市| 德昌县| 友谊县| 阜阳市| 紫金县| 广河县| 富宁县| 茂名市| 鄂伦春自治旗| 平果县| 五寨县| 临漳县| 剑川县| 潼南县| 双城市| 尉氏县| 手游| 太原市| 博乐市| 桂平市| 台南县|