本申請涉及語音處理,尤其涉及一種語音降噪方法、裝置、介質、產(chǎn)品及設備。
背景技術:
1、隨著網(wǎng)絡的發(fā)展和移動通信設備的普及與豐富,語音識別、語音通話、電話會議、場景錄音和聽力輔助等領域對語音質量的要求越來越高,其中語音增強是提高語音質量與可懂度的關鍵技術,在上述領域具有廣泛應用前景與重要研究價值。
2、常見的語音增強一般可以是指語音降噪,在現(xiàn)有技術中,語音降噪可以使用深度學習的方法來直接對帶噪語音進行降噪,但是在深度學習方法中為了能夠準確提取出語音中的特征以直接用于降噪,其算法結構都需要設計得十分復雜,且需要大量的內(nèi)存與算力。
技術實現(xiàn)思路
1、為了解決上述技術問題,本申請實施例提出了一種語音降噪方法、裝置、介質、產(chǎn)品及設備,能夠在使得神經(jīng)網(wǎng)絡具備獲得用于降噪的關鍵信息的能力的同時,極大降低網(wǎng)絡模型的復雜度,降低對于算力、內(nèi)存的要求,且高效精準地完成語音降噪。
2、第一方面,本申請實施例提供了一種語音降噪方法,包括:
3、利用預訓練的神經(jīng)網(wǎng)絡,基于帶噪語音確定語音線性譜頻率及噪聲線性譜頻率,其中,所述神經(jīng)網(wǎng)絡基于樣本語音數(shù)據(jù)訓練得到;
4、基于所述語音線性譜頻率及所述噪聲線性譜頻率,確定濾波器增益;
5、基于所述濾波器增益,調用線性濾波器確定與所述帶噪語音匹配的降噪語音。
6、進一步的,所述利用預訓練的神經(jīng)網(wǎng)絡,基于帶噪語音確定語音線性譜頻率及噪聲線性譜頻率之前,所述方法還包括:
7、獲取所述帶噪語音,并對所述帶噪語音進行快速傅里葉變換,以將所述帶噪語音轉換為對數(shù)功率譜;
8、所述利用預訓練的神經(jīng)網(wǎng)絡,基于帶噪語音確定語音線性譜頻率及噪聲線性譜頻率,包括:
9、將所述對數(shù)功率譜輸入至所述神經(jīng)網(wǎng)絡,得到所述神經(jīng)網(wǎng)絡輸出的所述語音線性譜頻率及所述噪聲線性譜頻率;
10、所述基于所述濾波器增益,調用線性濾波器確定與所述帶噪語音匹配的降噪語音,包括:
11、確定所述帶噪語音的第一幅度譜;
12、調用所述線性濾波器,以所述濾波器增益作為加權系數(shù),對所述第一幅度譜中各個頻率的值分別進行加權計算,得到第二幅度譜;
13、對所述第二幅度譜進行傅里葉反變換,得到所述降噪語音。
14、進一步的,所述樣本語音數(shù)據(jù)包括樣本帶噪語音、與所述樣本帶噪語音對應的語音數(shù)據(jù)以及與所述樣本帶噪語音對應的噪聲數(shù)據(jù),所述神經(jīng)網(wǎng)絡的訓練方式,包括:
15、對所述樣本帶噪語音進行快速傅里葉變換,以將所述樣本帶噪語音轉換為樣本對數(shù)功率譜;
16、計算所述語音數(shù)據(jù)的線性譜頻率,并計算所述噪聲數(shù)據(jù)的線性譜頻率;
17、以所述樣本對數(shù)功率譜作為訓練輸入數(shù)據(jù)、并將所述語音數(shù)據(jù)的線性譜頻率及所述噪聲數(shù)據(jù)的線性譜頻率進行連接后作為訓練輸出數(shù)據(jù),采用隨機梯度下降算法進行網(wǎng)絡訓練,得到訓練完成后的所述神經(jīng)網(wǎng)絡。
18、進一步的,所述神經(jīng)網(wǎng)絡包括3個隱藏層,每一個隱藏層包括512個校正線性隱藏單元,所述神經(jīng)網(wǎng)絡的成本函數(shù)為歐氏距離。
19、進一步的,所述線性濾波器包括預先構建的wiener自適應濾波器,所述wiener自適應濾波器的構建方式包括:
20、將所述語音線性譜頻率轉換為語音線性預測系數(shù),以根據(jù)所述語音線性預測系數(shù)計算出語音譜形狀;
21、將所述噪聲線性譜頻率轉換為噪聲線性預測系數(shù),以根據(jù)所述噪聲線性預測系數(shù)計算出噪聲譜形狀;
22、基于所述語音譜形狀及所述噪聲譜形狀,采用gain更新規(guī)則構建所述wiener自適應濾波器。
23、進一步的,計算線性譜頻率的方式,包括:
24、對待計算數(shù)據(jù)進行傅里葉變換;
25、對于經(jīng)過傅里葉變換后的待計算數(shù)據(jù),計算其線性預測系數(shù),其中,所述線性預測系數(shù)的階數(shù)為設定階數(shù);
26、確定與所述線性預測系數(shù)匹配的反射系數(shù),并對所述反射系數(shù)進行穩(wěn)定性處理;
27、基于經(jīng)過穩(wěn)定性處理后的反射系數(shù),計算得到階數(shù)為所述設定階數(shù)的線性譜頻率。
28、第二方面,本申請實施例提供了一種語音降噪裝置,包括:
29、線性譜頻率確定模塊,用于利用預訓練的神經(jīng)網(wǎng)絡,基于帶噪語音確定語音線性譜頻率及噪聲線性譜頻率,其中,所述神經(jīng)網(wǎng)絡基于樣本語音數(shù)據(jù)訓練得到;
30、增益確定模塊,用于基于所述語音線性譜頻率及所述噪聲線性譜頻率,確定濾波器增益;
31、降噪模塊,用于基于所述濾波器增益,調用線性濾波器確定與所述帶噪語音匹配的降噪語音。
32、第三方面,本申請實施例提供了一種計算機可讀存儲介質,其上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)上述任一項所述的語音降噪方法的步驟。
33、第四方面,本申請實施例提供了一種計算機程序產(chǎn)品,包括計算機指令,該計算機指令被處理器執(zhí)行時實現(xiàn)上述任一項所述的語音降噪方法的步驟。
34、第五方面,本申請實施例提供了一種計算機設備,包括處理器、存儲器以及存儲在所述存儲器中且被配置為由所述處理器執(zhí)行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)上述任一項所述的語音降噪方法的步驟。
35、綜上,本申請實施例至少具有以下有益效果:
36、采用本申請實施例,利用預訓練的神經(jīng)網(wǎng)絡,基于帶噪語音確定語音線性譜頻率及噪聲線性譜頻率,其中,所述神經(jīng)網(wǎng)絡基于樣本語音數(shù)據(jù)訓練得到;基于所述語音線性譜頻率及所述噪聲線性譜頻率,確定濾波器增益;基于所述濾波器增益,調用線性濾波器確定與所述帶噪語音匹配的降噪語音,如此,由于降噪是通過濾波器完成,神經(jīng)網(wǎng)絡只需用于實時確定帶噪語音對應的語音線性譜頻率及噪聲線性譜頻率以得到當前的濾波器增益,而無需提取能夠直接完成語音降噪的復雜語音特征,因此可以大幅降低網(wǎng)絡復雜度,且提高語音降噪響應的及時性,最終提高不同場景下的語音質量。
1.一種語音降噪方法,其特征在于,包括:
2.如權利要求1所述的語音降噪方法,其特征在于,所述利用預訓練的神經(jīng)網(wǎng)絡,基于帶噪語音確定語音線性譜頻率及噪聲線性譜頻率之前,所述方法還包括:
3.如權利要求2所述的語音降噪方法,其特征在于,所述樣本語音數(shù)據(jù)包括樣本帶噪語音、與所述樣本帶噪語音對應的語音數(shù)據(jù)以及與所述樣本帶噪語音對應的噪聲數(shù)據(jù),所述神經(jīng)網(wǎng)絡的訓練方式,包括:
4.如權利要求3所述的語音降噪方法,其特征在于,所述神經(jīng)網(wǎng)絡包括3個隱藏層,每一個隱藏層包括512個校正線性隱藏單元,所述神經(jīng)網(wǎng)絡的成本函數(shù)為歐氏距離。
5.如權利要求1所述的語音降噪方法,其特征在于,所述線性濾波器包括預先構建的wiener自適應濾波器,所述wiener自適應濾波器的構建方式包括:
6.如權利要求1-5任一項所述的語音降噪方法,其特征在于,計算線性譜頻率的方式,包括:
7.一種語音降噪裝置,其特征在于,包括:
8.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)權利要求1-6任一項所述的語音降噪方法。
9.一種計算機程序產(chǎn)品,包括計算機指令,其特征在于,所述計算機指令被處理器執(zhí)行時實現(xiàn)權利要求1-6任一項所述的語音降噪方法。
10.一種計算機設備,其特征在于,包括處理器、存儲器以及存儲在所述存儲器中且被配置為由所述處理器執(zhí)行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)權利要求1-6任一項所述的語音降噪方法。