本發(fā)明涉及語音去噪,特別是指一種用于低信噪比下的語音去噪方法及裝置。
背景技術(shù):
1、語音去噪技術(shù)通常分為時域方法和時頻域方法。時域方法方法實(shí)現(xiàn)簡單,能夠保留完整的音頻信息,可以進(jìn)行清晰明確的音頻處理。由于音頻序列具有高采樣率和不明顯的音頻特征,語音去噪模型在大參數(shù)量下并未表現(xiàn)出顯著的降噪性能?;谛盘柪碚?,時頻域方法廣泛應(yīng)用于音頻信號處理任務(wù)中,通常使用短時傅里葉變換(short-time?fouriertransform,stft)將一維音頻轉(zhuǎn)換為二維頻譜。通過滑動窗口進(jìn)行傅里葉變換,stft減少了語音時間序列并提取了音頻序列的鄰近特征,增強(qiáng)了模型識別音頻信號的能力。時頻域方法緊湊且在復(fù)雜環(huán)境和信號失真場景下表現(xiàn)出較強(qiáng)的魯棒性,因其豐富的音頻特性,在語音去噪研究中得到了廣泛應(yīng)用。
2、在現(xiàn)有的語音去噪方法中,使用自注意力機(jī)制參與計(jì)算前,雙分支全帶-子帶融合網(wǎng)絡(luò)進(jìn)行下采樣,沒有利用u型卷積網(wǎng)絡(luò)在特征融合方面的優(yōu)勢,大大增加了計(jì)算資源開銷。雙路徑自注意力機(jī)制需要計(jì)算全頻帶和子頻帶的注意力,這在從整體頻譜中提取特征時存在挑戰(zhàn)。
3、在現(xiàn)有技術(shù)中,缺乏一種結(jié)合改進(jìn)密集塊和視頻變換器的高效且清晰的低信噪比下的語音去噪方法。
技術(shù)實(shí)現(xiàn)思路
1、為了解決現(xiàn)有技術(shù)存在的計(jì)算資源開銷大且在低信噪比下去噪語音不清晰的技術(shù)問題,本發(fā)明實(shí)施例提供了一種用于低信噪比下的語音去噪方法及裝置。所述技術(shù)方案如下:
2、一方面,提供了一種用于低信噪比下的語音去噪方法,該方法由語音去噪設(shè)備實(shí)現(xiàn),該方法包括:
3、通過麥克風(fēng)錄制音頻,獲取純凈語音數(shù)據(jù);對所述純凈語音數(shù)據(jù)進(jìn)行預(yù)處理,獲得訓(xùn)練語音數(shù)據(jù);
4、根據(jù)u-net網(wǎng)絡(luò)結(jié)構(gòu)以及transformer模型結(jié)構(gòu)構(gòu)建待訓(xùn)練tfdense-net語音去噪模型;
5、基于多頻譜判別器,根據(jù)所述訓(xùn)練語音數(shù)據(jù),使用adam優(yōu)化器對所述待訓(xùn)練tfdense-net語音去噪模型進(jìn)行對抗性迭代訓(xùn)練,獲得tfdense-net語音去噪模型;
6、低信噪比環(huán)境下,通過麥克風(fēng)采集的待去噪語音數(shù)據(jù);將所述待去噪語音數(shù)據(jù)輸入所述tfdense-net語音去噪模型,獲得去噪語音數(shù)據(jù)。
7、另一方面,提供了一種用于低信噪比下的語音去噪裝置,該裝置應(yīng)用于用于低信噪比下的語音去噪方法,該裝置包括:
8、訓(xùn)練語音獲取模塊,用于通過麥克風(fēng)錄制音頻,獲取純凈語音數(shù)據(jù);對所述純凈語音數(shù)據(jù)進(jìn)行預(yù)處理,獲得訓(xùn)練語音數(shù)據(jù);
9、模型構(gòu)建模塊,用于根據(jù)u-net網(wǎng)絡(luò)結(jié)構(gòu)以及transformer模型結(jié)構(gòu)構(gòu)建待訓(xùn)練tfdense-net語音去噪模型;
10、模型訓(xùn)練模塊,用于基于多頻譜判別器,根據(jù)所述訓(xùn)練語音數(shù)據(jù),使用adam優(yōu)化器對所述待訓(xùn)練tfdense-net語音去噪模型進(jìn)行對抗性迭代訓(xùn)練,獲得tfdense-net語音去噪模型;
11、語音去噪模塊,用于低信噪比環(huán)境下,通過麥克風(fēng)采集的待去噪語音數(shù)據(jù);將所述待去噪語音數(shù)據(jù)輸入所述tfdense-net語音去噪模型,獲得去噪語音數(shù)據(jù)。
12、另一方面,提供一種語音去噪設(shè)備,所述語音去噪設(shè)備包括:處理器;存儲器,所述存儲器上存儲有計(jì)算機(jī)可讀指令,所述計(jì)算機(jī)可讀指令被所述處理器執(zhí)行時,實(shí)現(xiàn)如上述用于低信噪比下的語音去噪方法中的任一項(xiàng)方法。
13、另一方面,提供了一種計(jì)算機(jī)可讀存儲介質(zhì),所述存儲介質(zhì)中存儲有至少一條指令,所述至少一條指令由處理器加載并執(zhí)行以實(shí)現(xiàn)上述用于低信噪比下的語音去噪方法中的任一項(xiàng)方法。
14、本發(fā)明實(shí)施例提供的技術(shù)方案帶來的有益效果至少包括:
15、本發(fā)明提出一種用于低信噪比下的語音去噪方法,通過在tfdense-net的編碼器和解碼器之間引入時頻變換器模塊,能夠同時捕捉音頻信號中的時域和頻域特征。在復(fù)雜噪聲環(huán)境下,能夠有效增強(qiáng)音頻降噪性能并提高語音清晰度。此模塊還能減少由于噪聲干擾造成的特征丟失,提高音頻重建的質(zhì)量,在保持語音自然性和清晰度的同時,有效去除背景噪聲,提升音頻降噪效果。
16、對于密集塊模塊的優(yōu)化,使用了深度卷積和點(diǎn)卷積的結(jié)合來改進(jìn)稠密塊,使其不僅保留了密集網(wǎng)絡(luò)結(jié)構(gòu)中的密集連接優(yōu)勢,還通過膨脹卷積擴(kuò)展感受野,以更好地捕捉時頻域的多尺度信息。該模塊在tfdense-net的編碼器和解碼器中均有應(yīng)用,能夠有效保留和傳遞語音的細(xì)節(jié)信息。優(yōu)化了音頻信號特征的提取和融合能力,使得網(wǎng)絡(luò)能夠更好地保持語音中的關(guān)鍵信息,提升降噪效果的同時減少了細(xì)節(jié)丟失。
17、提出的tfdense-net采用u型網(wǎng)絡(luò)卷積架構(gòu),并結(jié)合時頻變換器和改進(jìn)密集塊,用于音頻信號的特征提取和重建。編碼器通過下采樣逐步壓縮時頻特征,瓶頸層利用自注意力機(jī)制進(jìn)行全局特征融合,解碼器則通過上采樣還原信號。該架構(gòu)在保持較低計(jì)算復(fù)雜度的同時,保證了模型對時頻特征的捕捉能力,適用于音頻降噪任務(wù)。在保證降噪效果的前提下,大幅降低了模型的計(jì)算復(fù)雜度和參數(shù)量,提升了模型的訓(xùn)練效率和推理速度。本發(fā)明是一種結(jié)合改進(jìn)密集塊和視頻變換器的高效且清晰的低信噪比下的語音去噪方法。
1.一種用于低信噪比下的語音去噪方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的用于低信噪比下的語音去噪方法,其特征在于,所述對所述純凈語音數(shù)據(jù)進(jìn)行預(yù)處理,獲得訓(xùn)練語音數(shù)據(jù),包括:
3.根據(jù)權(quán)利要求1所述的用于低信噪比下的語音去噪方法,其特征在于,所述tfdense-net語音去噪模型包括編碼器、解碼器和瓶頸層;
4.根據(jù)權(quán)利要求3所述的用于低信噪比下的語音去噪方法,其特征在于,所述改進(jìn)密集塊是指采用擴(kuò)張卷積層以及逐點(diǎn)卷積層優(yōu)化的密集塊;所述改進(jìn)密集塊用于輸入tfdense-net語音去噪模型數(shù)據(jù)的特征整合。
5.根據(jù)權(quán)利要求1所述的用于低信噪比下的語音去噪方法,其特征在于,所述基于多頻譜判別器,根據(jù)所述訓(xùn)練語音數(shù)據(jù),使用adam優(yōu)化器對所述待訓(xùn)練tfdense-net語音去噪模型進(jìn)行對抗性迭代訓(xùn)練,獲得tfdense-net語音去噪模型,包括:
6.根據(jù)權(quán)利要求5所述的用于低信噪比下的語音去噪方法,其特征在于,所述基于所述多頻譜判別器,根據(jù)所述訓(xùn)練語音數(shù)據(jù)以及所述訓(xùn)練語音梅爾頻譜,對所述生成對抗網(wǎng)絡(luò)進(jìn)行對抗訓(xùn)練,獲得對抗性損失函數(shù),包括:
7.根據(jù)權(quán)利要求5所述的用于低信噪比下的語音去噪方法,其特征在于,所述多頻譜判別器包括多個處理分支以及一個匯總層;
8.一種用于低信噪比下的語音去噪裝置,所述用于低信噪比下的語音去噪裝置用于實(shí)現(xiàn)如權(quán)利要求1-7任一項(xiàng)所述用于低信噪比下的語音去噪方法,其特征在于,所述裝置包括:
9.一種語音去噪設(shè)備,其特征在于,所述語音去噪設(shè)備包括:
10.一種計(jì)算機(jī)可讀取存儲介質(zhì),其特征在于,所述計(jì)算機(jī)可讀取存儲介質(zhì)中存儲有程序代碼,所述程序代碼可被處理器調(diào)用執(zhí)行如權(quán)利要求1至7任一項(xiàng)所述的方法。