基于深度學(xué)習(xí)的語音增強(qiáng)方法及系統(tǒng)與流程

文檔序號：40417482發(fā)布日期：2024-12-24 14:50閱讀：12來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

基于深度學(xué)習(xí)的語音增強(qiáng)方法及系統(tǒng)與流程

本發(fā)明涉及音頻信息處理，尤其是涉及一種基于深度學(xué)習(xí)的語音增強(qiáng)方法及系統(tǒng)。

背景技術(shù)：

1、在傳統(tǒng)的單通道語音增強(qiáng)方法中，通常需要對噪聲信號與干凈語音信號之間的相互作用做出一些假設(shè)。這些假設(shè)往往是基于特定的數(shù)學(xué)模型或統(tǒng)計(jì)特性，而這限制了增強(qiáng)技術(shù)的性能和適用范圍，導(dǎo)致增強(qiáng)后的語音質(zhì)量往往不盡如人意。相比之下，基于深度學(xué)習(xí)的方法不需要對語音信號和噪聲信號之間的關(guān)系進(jìn)行明確的假設(shè)。這類方法利用大量的訓(xùn)練數(shù)據(jù)來直接學(xué)習(xí)純凈語音與噪聲之間的映射關(guān)系。這種方法的優(yōu)勢在于它能夠從數(shù)據(jù)中自動(dòng)提取特征并學(xué)習(xí)復(fù)雜的非線性關(guān)系，從而克服了傳統(tǒng)語音增強(qiáng)算法的一些固有問題，實(shí)現(xiàn)了更好的去噪效果和更強(qiáng)的泛化能力。

2、但同時(shí)帶來了新的挑戰(zhàn)，深度學(xué)習(xí)算法往往需要較大的參數(shù)量和計(jì)算開銷，嵌入式設(shè)備中的計(jì)算開銷問題隨著芯片性能的發(fā)展已經(jīng)得到了一定的解決，模型參數(shù)的大小往往制約的深度學(xué)習(xí)模型在設(shè)備中的廣泛應(yīng)用，而往往參數(shù)數(shù)量又與模型的性能息息相關(guān)。

3、故而亟需提出一種語音增強(qiáng)方法來解決所提出的問題。

技術(shù)實(shí)現(xiàn)思路

1、基于此，有必要針對現(xiàn)有技術(shù)的不足，提供一種基于深度學(xué)習(xí)的語音增強(qiáng)方法及系統(tǒng)，通過參數(shù)共享的方式達(dá)到降低模型整體參數(shù)量的目的。

2、為解決上述技術(shù)問題，本發(fā)明所采用的技術(shù)方案是：

3、第一方面，提供了一種基于深度學(xué)習(xí)的語音增強(qiáng)方法，其包括如下步驟：

4、獲取原始語音數(shù)據(jù)對應(yīng)的fft特征；

5、基于卷積神經(jīng)網(wǎng)絡(luò)對fft特征進(jìn)行特征提取，獲取卷積特征信息；

6、基于循環(huán)神經(jīng)網(wǎng)絡(luò)對卷積特征信息進(jìn)行處理，獲取處理后的卷積特征信息；

7、基于不同層次特征融合結(jié)構(gòu)結(jié)合卷積神經(jīng)網(wǎng)絡(luò)獲取編碼特征及解碼特征的權(quán)重系數(shù)，將編碼特征、解碼特征分別與對應(yīng)權(quán)重系數(shù)相乘后再相加獲取特征融合信息；

8、基于卷積神經(jīng)網(wǎng)絡(luò)對特征融合信息及處理后的卷積特征信息進(jìn)行特征提取，獲取反卷積特征信息；

9、基于反卷積特征信息求出多幀掩碼特征，結(jié)合多幀輸入特征求得當(dāng)前幀的輸出結(jié)果。

10、在一個(gè)實(shí)施例中，所述步驟獲取原始語音數(shù)據(jù)對應(yīng)的fft特征之前，還包括：

11、構(gòu)建語音增強(qiáng)模型。

12、在一個(gè)實(shí)施例中，所述步驟基于卷積神經(jīng)網(wǎng)絡(luò)對fft特征進(jìn)行特征提取，獲取卷積特征信息的方法，包括如下步驟：

13、卷積模塊共計(jì)五層，前三層卷積通道數(shù)設(shè)置為16，后兩層卷積為分組卷積，分組數(shù)大小與輸入的通道數(shù)相等，分組數(shù)等于16，通過前三層卷積來對fft特征進(jìn)行初步特征提取，再配合后兩層卷積獲取到卷積特征信息。

14、在一個(gè)實(shí)施例中，所述步驟基于循環(huán)神經(jīng)網(wǎng)絡(luò)對卷積特征信息進(jìn)行處理，獲取處理后的卷積特征信息的方法，包括以下步驟：

15、定義每一個(gè)通道上的lstm的輸入特征為x，inter為每個(gè)lstm輸入特征在通道維度上拼接后的集合，concat表示拼接操作，則具體計(jì)算公式滿足：

16、

17、對lstm輸入特征在通道維度上拼接后的集合在特征和通道維度上計(jì)算均值和方差后進(jìn)行歸一化處理，獲取處理后的卷積特征信息；其中，

18、均值

19、方差

20、處理后的卷積特征信息y滿足如下公式：

21、

22、其中，ξ是一個(gè)常量，λ和β是可訓(xùn)練的參數(shù)，c、f、x的定義分別為通道數(shù)、特征數(shù)及l(fā)stm輸入特征。

23、在一個(gè)實(shí)施例中，所述步驟基于不同層次特征融合結(jié)構(gòu)結(jié)合卷積神經(jīng)網(wǎng)絡(luò)獲取編碼特征及解碼特征的權(quán)重系數(shù)，將編碼特征、解碼特征分別與對應(yīng)權(quán)重系數(shù)相乘后再相加獲取特征融合信息的方法，具體操作包括：

24、將編碼特征ef、解碼特征df進(jìn)行拼接后輸入至由兩層核為1*1的卷積中求出編解碼的掩碼特征；

25、將求得的編解碼的掩碼特征通過sigmoid函數(shù)映射到[0，1]，獲取編碼特征對應(yīng)的權(quán)重系數(shù)；

26、將編碼特征、解碼特征分別與對應(yīng)權(quán)重系數(shù)相乘后再相加獲取特征融合信息en＝(sigmoid(k(ef，df)))*ef+(1-sigmoid(k(ef，df)))*df。

27、在一個(gè)實(shí)施例中，所述步驟基于卷積神經(jīng)網(wǎng)絡(luò)對特征融合信息及處理后的卷積特征信息進(jìn)行特征提取，獲取反卷積特征信息的方法，具體操作包括：

28、反卷積模塊與卷積模塊結(jié)構(gòu)對稱，反卷積模塊共計(jì)五層，前兩層為分組卷積，后三層為與卷積模塊的卷積層對稱設(shè)置的反卷積層，通過前兩層分組卷積進(jìn)行初步特征提取，再配合后三層反卷積獲取反卷積特征信息。

29、在一個(gè)實(shí)施例中，所述步驟基于反卷積特征信息求出多幀掩碼特征，結(jié)合多幀輸入特征求得當(dāng)前幀的輸出結(jié)果的方法，具體操作包括，

30、設(shè)定反卷積輸出特征用e表示，掩碼特征mask用m來表示，掩碼特征m與反卷積輸出特征e的關(guān)系滿足：

31、m＝tanh(e)；

32、將當(dāng)前幀的輸入與前一幀的輸入及后一幀的輸入拼接，得到當(dāng)前幀的輸入特征x；

33、將當(dāng)前幀的輸入特征x與輸出的掩碼特征m點(diǎn)乘求和，得到當(dāng)前幀的輸出結(jié)果。

34、在一個(gè)實(shí)施例中，所述步驟將當(dāng)前幀的輸入特征x與輸出的掩碼特征m點(diǎn)乘求和，得到當(dāng)前幀的輸出結(jié)果的方法，具體操作包括，

35、通過深度濾波方式將當(dāng)前幀的輸入特征x與輸出的掩碼特征m點(diǎn)乘求和，計(jì)算表達(dá)式如下：其中，x(ct)表示對應(yīng)幀的輸入特征，m(ct)表示多幀掩碼特征，ct表示觀測幀數(shù)。

36、第二方面，提供了一種基于深度學(xué)習(xí)的語音增強(qiáng)系統(tǒng)，其包括

37、fft模塊，用于獲取原始語音數(shù)據(jù)對應(yīng)的fft特征；

38、卷積模塊，用于基于卷積神經(jīng)網(wǎng)絡(luò)對fft特征進(jìn)行特征提取，獲取卷積特征信息；

39、rnn模塊，用于基于循環(huán)神經(jīng)網(wǎng)絡(luò)對卷積特征信息進(jìn)行處理，獲取處理后的卷積特征信息；

40、ffa模塊，用于基于不同層次特征融合(ffa)結(jié)構(gòu)結(jié)合卷積神經(jīng)網(wǎng)絡(luò)獲取編碼特征及解碼特征的權(quán)重系數(shù)，將編碼特征、解碼特征分別與對應(yīng)權(quán)重系數(shù)相乘后再相加獲取特征融合信息；

41、反卷積模塊，用于基于卷積神經(jīng)網(wǎng)絡(luò)對特征融合信息及處理后的卷積特征信息進(jìn)行特征提取，獲取反卷積特征信息；

42、深度濾波模塊，用于基于反卷積特征信息求出多幀掩碼特征，結(jié)合多幀輸入特征求得當(dāng)前幀的輸出結(jié)果。

43、在一個(gè)實(shí)施例中，還包括構(gòu)建模塊，用于構(gòu)建語音增強(qiáng)模型。

44、綜上所述，本發(fā)明基于深度學(xué)習(xí)的語音增強(qiáng)方法及系統(tǒng)通過基于卷積神經(jīng)網(wǎng)絡(luò)及循環(huán)神經(jīng)網(wǎng)絡(luò)以通道進(jìn)行計(jì)算可以有效的保留語音信號的結(jié)構(gòu)信息，同時(shí)采用通道特征歸一化方式可以使得模型的訓(xùn)練更為穩(wěn)定，以及可以降低輸出語音幅度帶來的影響，由于循環(huán)神經(jīng)網(wǎng)絡(luò)模塊參數(shù)占模型整體參數(shù)的主要部分，因此通過lstm單元使用參數(shù)共享的方式可達(dá)到降低模型整體參數(shù)量的目的，以及對編解碼信息采用注意力機(jī)制使得模型更為有效的關(guān)注重要信息部分，此外采用深度濾波的方式來鏈接前后語音幀信息，從而進(jìn)一步可以提高輸出的語音信號質(zhì)量。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：胡光敏,仇波,楊美梅
技術(shù)所有人：世邦通信股份有限公司
我是此專利的發(fā)明人

上一篇：一種薄壁粉末冶金軸套制作模具的制作方法
上一篇：一種防水結(jié)構(gòu)及方艙的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于深度學(xué)習(xí)的語音增強(qiáng)方法及系統(tǒng)與流程