本發(fā)明涉及音頻信息處理,尤其是涉及一種基于深度學(xué)習(xí)的語音增強(qiáng)方法及系統(tǒng)。
背景技術(shù):
1、在傳統(tǒng)的單通道語音增強(qiáng)方法中,通常需要對噪聲信號與干凈語音信號之間的相互作用做出一些假設(shè)。這些假設(shè)往往是基于特定的數(shù)學(xué)模型或統(tǒng)計(jì)特性,而這限制了增強(qiáng)技術(shù)的性能和適用范圍,導(dǎo)致增強(qiáng)后的語音質(zhì)量往往不盡如人意。相比之下,基于深度學(xué)習(xí)的方法不需要對語音信號和噪聲信號之間的關(guān)系進(jìn)行明確的假設(shè)。這類方法利用大量的訓(xùn)練數(shù)據(jù)來直接學(xué)習(xí)純凈語音與噪聲之間的映射關(guān)系。這種方法的優(yōu)勢在于它能夠從數(shù)據(jù)中自動(dòng)提取特征并學(xué)習(xí)復(fù)雜的非線性關(guān)系,從而克服了傳統(tǒng)語音增強(qiáng)算法的一些固有問題,實(shí)現(xiàn)了更好的去噪效果和更強(qiáng)的泛化能力。
2、但同時(shí)帶來了新的挑戰(zhàn),深度學(xué)習(xí)算法往往需要較大的參數(shù)量和計(jì)算開銷,嵌入式設(shè)備中的計(jì)算開銷問題隨著芯片性能的發(fā)展已經(jīng)得到了一定的解決,模型參數(shù)的大小往往制約的深度學(xué)習(xí)模型在設(shè)備中的廣泛應(yīng)用,而往往參數(shù)數(shù)量又與模型的性能息息相關(guān)。
3、故而亟需提出一種語音增強(qiáng)方法來解決所提出的問題。
技術(shù)實(shí)現(xiàn)思路
1、基于此,有必要針對現(xiàn)有技術(shù)的不足,提供一種基于深度學(xué)習(xí)的語音增強(qiáng)方法及系統(tǒng),通過參數(shù)共享的方式達(dá)到降低模型整體參數(shù)量的目的。
2、為解決上述技術(shù)問題,本發(fā)明所采用的技術(shù)方案是:
3、第一方面,提供了一種基于深度學(xué)習(xí)的語音增強(qiáng)方法,其包括如下步驟:
4、獲取原始語音數(shù)據(jù)對應(yīng)的fft特征;
5、基于卷積神經(jīng)網(wǎng)絡(luò)對fft特征進(jìn)行特征提取,獲取卷積特征信息;
6、基于循環(huán)神經(jīng)網(wǎng)絡(luò)對卷積特征信息進(jìn)行處理,獲取處理后的卷積特征信息;
7、基于不同層次特征融合結(jié)構(gòu)結(jié)合卷積神經(jīng)網(wǎng)絡(luò)獲取編碼特征及解碼特征的權(quán)重系數(shù),將編碼特征、解碼特征分別與對應(yīng)權(quán)重系數(shù)相乘后再相加獲取特征融合信息;
8、基于卷積神經(jīng)網(wǎng)絡(luò)對特征融合信息及處理后的卷積特征信息進(jìn)行特征提取,獲取反卷積特征信息;
9、基于反卷積特征信息求出多幀掩碼特征,結(jié)合多幀輸入特征求得當(dāng)前幀的輸出結(jié)果。
10、在一個(gè)實(shí)施例中,所述步驟獲取原始語音數(shù)據(jù)對應(yīng)的fft特征之前,還包括:
11、構(gòu)建語音增強(qiáng)模型。
12、在一個(gè)實(shí)施例中,所述步驟基于卷積神經(jīng)網(wǎng)絡(luò)對fft特征進(jìn)行特征提取,獲取卷積特征信息的方法,包括如下步驟:
13、卷積模塊共計(jì)五層,前三層卷積通道數(shù)設(shè)置為16,后兩層卷積為分組卷積,分組數(shù)大小與輸入的通道數(shù)相等,分組數(shù)等于16,通過前三層卷積來對fft特征進(jìn)行初步特征提取,再配合后兩層卷積獲取到卷積特征信息。
14、在一個(gè)實(shí)施例中,所述步驟基于循環(huán)神經(jīng)網(wǎng)絡(luò)對卷積特征信息進(jìn)行處理,獲取處理后的卷積特征信息的方法,包括以下步驟:
15、定義每一個(gè)通道上的lstm的輸入特征為x,inter為每個(gè)lstm輸入特征在通道維度上拼接后的集合,concat表示拼接操作,則具體計(jì)算公式滿足:
16、
17、對lstm輸入特征在通道維度上拼接后的集合在特征和通道維度上計(jì)算均值和方差后進(jìn)行歸一化處理,獲取處理后的卷積特征信息;其中,
18、均值
19、方差
20、處理后的卷積特征信息y滿足如下公式:
21、
22、其中,ξ是一個(gè)常量,λ和β是可訓(xùn)練的參數(shù),c、f、x的定義分別為通道數(shù)、特征數(shù)及l(fā)stm輸入特征。
23、在一個(gè)實(shí)施例中,所述步驟基于不同層次特征融合結(jié)構(gòu)結(jié)合卷積神經(jīng)網(wǎng)絡(luò)獲取編碼特征及解碼特征的權(quán)重系數(shù),將編碼特征、解碼特征分別與對應(yīng)權(quán)重系數(shù)相乘后再相加獲取特征融合信息的方法,具體操作包括:
24、將編碼特征ef、解碼特征df進(jìn)行拼接后輸入至由兩層核為1*1的卷積中求出編解碼的掩碼特征;
25、將求得的編解碼的掩碼特征通過sigmoid函數(shù)映射到[0,1],獲取編碼特征對應(yīng)的權(quán)重系數(shù);
26、將編碼特征、解碼特征分別與對應(yīng)權(quán)重系數(shù)相乘后再相加獲取特征融合信息en=(sigmoid(k(ef,df)))*ef+(1-sigmoid(k(ef,df)))*df。
27、在一個(gè)實(shí)施例中,所述步驟基于卷積神經(jīng)網(wǎng)絡(luò)對特征融合信息及處理后的卷積特征信息進(jìn)行特征提取,獲取反卷積特征信息的方法,具體操作包括:
28、反卷積模塊與卷積模塊結(jié)構(gòu)對稱,反卷積模塊共計(jì)五層,前兩層為分組卷積,后三層為與卷積模塊的卷積層對稱設(shè)置的反卷積層,通過前兩層分組卷積進(jìn)行初步特征提取,再配合后三層反卷積獲取反卷積特征信息。
29、在一個(gè)實(shí)施例中,所述步驟基于反卷積特征信息求出多幀掩碼特征,結(jié)合多幀輸入特征求得當(dāng)前幀的輸出結(jié)果的方法,具體操作包括,
30、設(shè)定反卷積輸出特征用e表示,掩碼特征mask用m來表示,掩碼特征m與反卷積輸出特征e的關(guān)系滿足:
31、m=tanh(e);
32、將當(dāng)前幀的輸入與前一幀的輸入及后一幀的輸入拼接,得到當(dāng)前幀的輸入特征x;
33、將當(dāng)前幀的輸入特征x與輸出的掩碼特征m點(diǎn)乘求和,得到當(dāng)前幀的輸出結(jié)果。
34、在一個(gè)實(shí)施例中,所述步驟將當(dāng)前幀的輸入特征x與輸出的掩碼特征m點(diǎn)乘求和,得到當(dāng)前幀的輸出結(jié)果的方法,具體操作包括,
35、通過深度濾波方式將當(dāng)前幀的輸入特征x與輸出的掩碼特征m點(diǎn)乘求和,計(jì)算表達(dá)式如下:其中,x(ct)表示對應(yīng)幀的輸入特征,m(ct)表示多幀掩碼特征,ct表示觀測幀數(shù)。
36、第二方面,提供了一種基于深度學(xué)習(xí)的語音增強(qiáng)系統(tǒng),其包括
37、fft模塊,用于獲取原始語音數(shù)據(jù)對應(yīng)的fft特征;
38、卷積模塊,用于基于卷積神經(jīng)網(wǎng)絡(luò)對fft特征進(jìn)行特征提取,獲取卷積特征信息;
39、rnn模塊,用于基于循環(huán)神經(jīng)網(wǎng)絡(luò)對卷積特征信息進(jìn)行處理,獲取處理后的卷積特征信息;
40、ffa模塊,用于基于不同層次特征融合(ffa)結(jié)構(gòu)結(jié)合卷積神經(jīng)網(wǎng)絡(luò)獲取編碼特征及解碼特征的權(quán)重系數(shù),將編碼特征、解碼特征分別與對應(yīng)權(quán)重系數(shù)相乘后再相加獲取特征融合信息;
41、反卷積模塊,用于基于卷積神經(jīng)網(wǎng)絡(luò)對特征融合信息及處理后的卷積特征信息進(jìn)行特征提取,獲取反卷積特征信息;
42、深度濾波模塊,用于基于反卷積特征信息求出多幀掩碼特征,結(jié)合多幀輸入特征求得當(dāng)前幀的輸出結(jié)果。
43、在一個(gè)實(shí)施例中,還包括構(gòu)建模塊,用于構(gòu)建語音增強(qiáng)模型。
44、綜上所述,本發(fā)明基于深度學(xué)習(xí)的語音增強(qiáng)方法及系統(tǒng)通過基于卷積神經(jīng)網(wǎng)絡(luò)及循環(huán)神經(jīng)網(wǎng)絡(luò)以通道進(jìn)行計(jì)算可以有效的保留語音信號的結(jié)構(gòu)信息,同時(shí)采用通道特征歸一化方式可以使得模型的訓(xùn)練更為穩(wěn)定,以及可以降低輸出語音幅度帶來的影響,由于循環(huán)神經(jīng)網(wǎng)絡(luò)模塊參數(shù)占模型整體參數(shù)的主要部分,因此通過lstm單元使用參數(shù)共享的方式可達(dá)到降低模型整體參數(shù)量的目的,以及對編解碼信息采用注意力機(jī)制使得模型更為有效的關(guān)注重要信息部分,此外采用深度濾波的方式來鏈接前后語音幀信息,從而進(jìn)一步可以提高輸出的語音信號質(zhì)量。