本申請(qǐng)涉及音頻數(shù)據(jù)處理,具體涉及適用于復(fù)雜環(huán)境下的音頻數(shù)據(jù)增強(qiáng)方法及系統(tǒng)。
背景技術(shù):
1、音頻數(shù)據(jù)增強(qiáng)技術(shù)是指在音頻信號(hào)受到各類噪聲的干擾后,從背景噪聲中提取有用信號(hào),抑制、降低噪聲干擾的技術(shù)。語(yǔ)音信號(hào)作為音頻信號(hào)的重要組成部分,攜帶有大量的有用信息,但不可避免地會(huì)受到周圍環(huán)境背景噪聲的干擾,影響語(yǔ)音信號(hào)的質(zhì)量和可懂度。語(yǔ)音增強(qiáng)可以增強(qiáng)期望信號(hào),抑制無(wú)關(guān)信號(hào)和干擾,是解決語(yǔ)音信號(hào)的嗓聲污染的有效方法,也是語(yǔ)音信號(hào)處理的關(guān)鍵環(huán)節(jié)和步驟。
2、子空間音頻增強(qiáng)算法是將含噪聲語(yǔ)音信號(hào)空間分解為信號(hào)加噪聲子空間和噪聲子空間,通過抑制噪聲子空間中的噪聲信號(hào),并在信號(hào)子空間中進(jìn)行語(yǔ)音預(yù)測(cè)以達(dá)到音頻數(shù)據(jù)增強(qiáng)的目的,且增強(qiáng)后產(chǎn)生的剩余噪聲較少。戶外錄音的干擾源類型較多,不同的干擾相互疊加,因此戶外錄音音頻數(shù)據(jù)中的噪聲信號(hào)特征具有較強(qiáng)的時(shí)變性。目前,針對(duì)受固定功率高斯白噪聲干擾的音頻數(shù)據(jù),子空間音頻增強(qiáng)算法具有良好的增強(qiáng)效果,但在處理戶外錄音的音頻數(shù)據(jù)時(shí),無(wú)法適應(yīng)戶外噪聲信號(hào)較強(qiáng)的非平穩(wěn)性,對(duì)音頻數(shù)據(jù)的增強(qiáng)效果不佳。
技術(shù)實(shí)現(xiàn)思路
1、為了解決上述技術(shù)問題,本申請(qǐng)的目的在于提供適用于復(fù)雜環(huán)境下的音頻數(shù)據(jù)增強(qiáng)方法及系統(tǒng),所采用的技術(shù)方案具體如下:
2、第一方面,本申請(qǐng)實(shí)施例提供了適用于復(fù)雜環(huán)境下的音頻數(shù)據(jù)增強(qiáng)方法,該方法包括以下步驟:
3、獲取音頻數(shù)據(jù)在各時(shí)間幀的音頻數(shù)據(jù)序列和頻譜序列;
4、基于音頻數(shù)據(jù)序列的幅值的離散程度獲取語(yǔ)音密集時(shí)間幀;
5、基于語(yǔ)音密集時(shí)間幀的個(gè)數(shù)和音頻數(shù)據(jù)序列的幅值的大小獲取各時(shí)間幀的語(yǔ)音估計(jì)強(qiáng)度;
6、將各時(shí)間幀的頻譜序列等間隔劃分為預(yù)設(shè)個(gè)數(shù)的頻譜子序列;
7、基于語(yǔ)音估計(jì)強(qiáng)度和頻譜序列的幅值的大小獲取各時(shí)間幀的頻譜序列的各頻譜子序列的頻段干擾評(píng)估值;
8、基于頻段干擾評(píng)估值和頻譜序列的幅值,獲取各時(shí)間幀的頻譜序列中各頻譜子序列的殘余噪聲能量閾值;
9、基于殘余噪聲能量閾值對(duì)音頻數(shù)據(jù)進(jìn)行增強(qiáng)。
10、進(jìn)一步,所述語(yǔ)音密集時(shí)間幀的獲取方法為:
11、使用閾值分割算法對(duì)所有時(shí)間幀的音頻數(shù)據(jù)序列的音頻數(shù)據(jù)的幅值的絕對(duì)值進(jìn)行處理,獲取最佳分割閾值作為音頻幅值閾值;
12、對(duì)于各時(shí)間幀的音頻數(shù)據(jù)序列,計(jì)算音頻數(shù)據(jù)序列中所有音頻數(shù)據(jù)的幅值的均方差值,統(tǒng)計(jì)所述均方差值大于所述音頻幅值閾值的時(shí)間幀的數(shù)量作為語(yǔ)音密集時(shí)間幀。
13、進(jìn)一步,所述語(yǔ)音估計(jì)強(qiáng)度的獲取方法為:;式中,表示第t個(gè)時(shí)間幀的音頻數(shù)據(jù)序列的語(yǔ)音估計(jì)強(qiáng)度;qa表示語(yǔ)音密集時(shí)間幀的個(gè)數(shù),表示第t個(gè)時(shí)間幀的音頻數(shù)據(jù)序列中第n個(gè)音頻數(shù)據(jù)的幅值的絕對(duì)值,n為各時(shí)間幀的音頻數(shù)據(jù)序列的長(zhǎng)度,at表示音頻幅值閾值,為預(yù)設(shè)調(diào)參因子。
14、進(jìn)一步,所述頻段干擾評(píng)估值的獲取方法為:
15、基于頻譜序列的幅值獲取各頻譜子序列的頻譜功率和頻譜最值;
16、所述頻段干擾評(píng)估值的計(jì)算公式為:;式中,表示第t個(gè)時(shí)間幀的頻譜序列中第m個(gè)頻譜子序列的頻段干擾評(píng)估值;表示音頻數(shù)據(jù)序列第t個(gè)時(shí)間幀的語(yǔ)音估計(jì)強(qiáng)度;表示第t個(gè)時(shí)間幀的頻譜序列中的幅值的最大值;表示第t個(gè)時(shí)間幀的第m個(gè)頻譜子序列的頻譜最值;表示所有時(shí)間幀的頻譜序列中第m個(gè)頻譜子序列的頻譜功率的最大值;表示所有時(shí)間幀的頻譜序列中第m個(gè)頻譜子序列的頻譜功率的均值;表示以自然常數(shù)為底數(shù)的指數(shù)函數(shù)。
17、進(jìn)一步,所述頻譜功率的獲取方法為:
18、計(jì)算頻譜序列中各頻譜子序列中幅值的平方和作為各頻譜子序列的頻譜功率。
19、進(jìn)一步,所述頻譜最值為各時(shí)間幀的頻譜序列的各頻譜子序列中幅值的最大值。
20、進(jìn)一步,所述殘余噪聲能量閾值的獲取方法為:
21、基于頻譜功率的平均情況統(tǒng)計(jì)第一頻譜子序列個(gè)數(shù);
22、所述殘余噪聲能量閾值的計(jì)算公式為:;式中,表示第t個(gè)時(shí)間幀的頻譜序列的第m個(gè)頻譜子序列的殘余噪聲能量閾值;表示第t個(gè)時(shí)間幀的頻譜序列的第m個(gè)頻譜子序列的頻段干擾評(píng)估值;表示歸一化函數(shù);表示第t個(gè)時(shí)間幀的頻譜序列中所有頻譜數(shù)據(jù)序列的頻譜功率的最小值;表示第一頻譜子序列個(gè)數(shù);為預(yù)設(shè)調(diào)參因子。
23、進(jìn)一步,所述第一頻譜子序列個(gè)數(shù)的獲取方法為:
24、計(jì)算所有時(shí)間幀的頻譜序列的第m個(gè)頻譜子序列的頻譜功率的均值作為第一均值,統(tǒng)計(jì)所有時(shí)間幀的頻譜序列的第m個(gè)頻譜子序列中頻譜功率大于所述第一均值的頻譜子序列的個(gè)數(shù)作為第一頻譜子序列個(gè)數(shù)。
25、進(jìn)一步,所述基于殘余噪聲能量閾值對(duì)音頻數(shù)據(jù)進(jìn)行增強(qiáng),包括:
26、將各時(shí)間幀的頻譜序列的各頻譜子序列對(duì)應(yīng)的音頻數(shù)據(jù)作為子空間語(yǔ)音增強(qiáng)算法的輸入,結(jié)合殘余噪聲能量閾值獲取各時(shí)間幀的頻譜序列的各頻譜子序列對(duì)應(yīng)的音頻數(shù)據(jù)的增強(qiáng)音頻數(shù)據(jù),將各時(shí)間幀的所有頻譜序列的所有頻譜子序列對(duì)應(yīng)的音頻數(shù)據(jù)的增強(qiáng)音頻數(shù)據(jù)按照時(shí)間正序排列組成的音頻數(shù)據(jù),作為各時(shí)間幀的增強(qiáng)音頻數(shù)據(jù)。
27、第二方面,本申請(qǐng)實(shí)施例還提供了一種適用于復(fù)雜環(huán)境下的音頻數(shù)據(jù)增強(qiáng)系統(tǒng),包括存儲(chǔ)器、處理器以及存儲(chǔ)在所述存儲(chǔ)器中并在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述任意一項(xiàng)所述方法的步驟。
28、本申請(qǐng)至少具有如下有益效果:
29、根據(jù)音頻數(shù)據(jù)序列及其不同時(shí)間幀在時(shí)域和頻域的特征,依次計(jì)算語(yǔ)音估計(jì)強(qiáng)度和頻段干擾評(píng)估值,其有益效果在于通過分析音頻數(shù)據(jù)中戶外噪聲信號(hào)和語(yǔ)音信號(hào)在時(shí)域和頻域上的區(qū)別,提高對(duì)音頻數(shù)據(jù)在不同頻段所受干擾程度計(jì)算的準(zhǔn)確性,進(jìn)而提升后續(xù)子空間語(yǔ)音增強(qiáng)算法對(duì)戶外噪聲時(shí)變性的適應(yīng)能力。根據(jù)頻段干擾評(píng)估值,計(jì)算殘余噪聲能量閾值。采用子空間語(yǔ)音增強(qiáng)算法獲取得到增強(qiáng)音頻數(shù)據(jù),完成對(duì)復(fù)雜環(huán)境下的音頻數(shù)據(jù)增強(qiáng),其有益效果在于利用戶外噪聲信號(hào)和語(yǔ)音信號(hào)在不同時(shí)間尺度上非平穩(wěn)性的差異,實(shí)時(shí)調(diào)整子空間語(yǔ)音增強(qiáng)算法中的殘余噪聲能量閾值,并分別對(duì)音頻信號(hào)不同頻段分別進(jìn)行數(shù)據(jù)增強(qiáng)。提升對(duì)戶外噪聲時(shí)變性的適應(yīng)能力,減少對(duì)語(yǔ)音信號(hào)細(xì)節(jié)的錯(cuò)誤抑制,避免語(yǔ)音信號(hào)出現(xiàn)畸變,提高對(duì)復(fù)雜環(huán)境下音頻數(shù)據(jù)的增強(qiáng)效果。
1.適用于復(fù)雜環(huán)境下的音頻數(shù)據(jù)增強(qiáng)方法,其特征在于,該方法包括以下步驟:
2.如權(quán)利要求1所述的適用于復(fù)雜環(huán)境下的音頻數(shù)據(jù)增強(qiáng)方法,其特征在于,所述語(yǔ)音密集時(shí)間幀的獲取方法為:
3.如權(quán)利要求1所述的適用于復(fù)雜環(huán)境下的音頻數(shù)據(jù)增強(qiáng)方法,其特征在于,所述語(yǔ)音估計(jì)強(qiáng)度的獲取方法為:;式中,表示第t個(gè)時(shí)間幀的音頻數(shù)據(jù)序列的語(yǔ)音估計(jì)強(qiáng)度;qa表示語(yǔ)音密集時(shí)間幀的個(gè)數(shù),表示第t個(gè)時(shí)間幀的音頻數(shù)據(jù)序列中第n個(gè)音頻數(shù)據(jù)的幅值的絕對(duì)值,n為各時(shí)間幀的音頻數(shù)據(jù)序列的長(zhǎng)度,at表示音頻幅值閾值,為預(yù)設(shè)調(diào)參因子。
4.如權(quán)利要求1所述的適用于復(fù)雜環(huán)境下的音頻數(shù)據(jù)增強(qiáng)方法,其特征在于,所述頻段干擾評(píng)估值的獲取方法為:
5.如權(quán)利要求4所述的適用于復(fù)雜環(huán)境下的音頻數(shù)據(jù)增強(qiáng)方法,其特征在于,所述頻譜功率的獲取方法為:
6.如權(quán)利要求4所述的適用于復(fù)雜環(huán)境下的音頻數(shù)據(jù)增強(qiáng)方法,其特征在于,所述頻譜最值為各時(shí)間幀的頻譜序列的各頻譜子序列中幅值的最大值。
7.如權(quán)利要求4所述的適用于復(fù)雜環(huán)境下的音頻數(shù)據(jù)增強(qiáng)方法,其特征在于,所述殘余噪聲能量閾值的獲取方法為:
8.如權(quán)利要求7所述的適用于復(fù)雜環(huán)境下的音頻數(shù)據(jù)增強(qiáng)方法,其特征在于,所述第一頻譜子序列個(gè)數(shù)的獲取方法為:
9.如權(quán)利要求1所述的適用于復(fù)雜環(huán)境下的音頻數(shù)據(jù)增強(qiáng)方法,其特征在于,所述基于殘余噪聲能量閾值對(duì)音頻數(shù)據(jù)進(jìn)行增強(qiáng),包括:
10.一種適用于復(fù)雜環(huán)境下的音頻數(shù)據(jù)增強(qiáng)系統(tǒng),包括存儲(chǔ)器、處理器以及存儲(chǔ)在所述存儲(chǔ)器中并在所述處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如權(quán)利要求1-9任意一項(xiàng)所述適用于復(fù)雜環(huán)境下的音頻數(shù)據(jù)增強(qiáng)方法的步驟。