本申請屬于藍(lán)牙音頻,特別是涉及一種基于非負(fù)矩陣分解與深度學(xué)習(xí)的藍(lán)牙接收端語音降噪方法、裝置、存儲介質(zhì)及設(shè)備。
背景技術(shù):
1、目前主流的藍(lán)牙音頻編碼器包括:sbc:a2dp協(xié)議強制要求,使用最為廣泛,是所有的藍(lán)牙音頻設(shè)備必須支持的,但音質(zhì)一般;aac-lc:音質(zhì)較好且應(yīng)用較為廣泛,很多主流的手機都支持,但與sbc相比,內(nèi)存占用較大,且運算復(fù)雜度高,很多藍(lán)牙設(shè)備都基于嵌入式平臺,電池容量有限,處理器運算能力較差且內(nèi)存有限,而且,其專利費較高;aptx系列:音質(zhì)較好,但碼率很高,aptx需要碼率384kbps,而aptx-hd的碼率為576kbps,且為高通獨有的技術(shù),較為封閉;ldac:音質(zhì)較好,但碼率也很高,分別是330kbps,660kbps和990kbps,由于藍(lán)牙設(shè)備所處的無線環(huán)境特別復(fù)雜,穩(wěn)定支持如此高的碼率有一定的困難,且為索尼獨有的技術(shù),也很封閉;lhdc:音質(zhì)較好,但碼率也很高,典型的包括400kbps,600kbps和900kbps,如此高的碼率,對于藍(lán)牙的基帶/射頻設(shè)計提出了很高的要求?;谏鲜鲈?,藍(lán)牙國際聯(lián)盟bluetooth?sig聯(lián)合眾多廠商推出了lc3,主要面向低功耗藍(lán)牙,也可以用于經(jīng)典藍(lán)牙,其具有較低延遲、較高的音質(zhì)和編碼增益以及在藍(lán)牙領(lǐng)域無專利費的優(yōu)點,受到廣大廠商的關(guān)注。
2、在很多藍(lán)牙應(yīng)用中,如藍(lán)牙通話、藍(lán)牙麥克風(fēng)以及錄音等,都需要進(jìn)行降噪。
3、非負(fù)矩陣分解(nonnegative?matrix?factorization),簡稱nmf,使分解后的所有矩陣分量均為非負(fù)值,同時實現(xiàn)非線性的降維。nmf已逐漸成為信號處理、生物醫(yī)學(xué)工程、模式識別、計算機視覺和圖像工程等研究領(lǐng)域中最受歡迎的多維數(shù)據(jù)處理工具之一。
4、非負(fù)矩陣分解在語音降噪中有一定的應(yīng)用,但其在較低信噪比時性能一般,會引起失真。
5、深度學(xué)習(xí)在語音降噪中得到了廣泛的關(guān)注,目前有很多成熟的算法在服務(wù)器及pc端成功部署且效果良好,但由于網(wǎng)絡(luò)模型復(fù)雜且權(quán)重占據(jù)較大內(nèi)存空間,在嵌入式系統(tǒng)部署較為困難,通常需要npu的協(xié)助,而藍(lán)牙相關(guān)設(shè)備很多都是基于嵌入式系統(tǒng),具備npu的較少。
技術(shù)實現(xiàn)思路
1、針對現(xiàn)有技術(shù)中存在的上述技術(shù)問題,本申請?zhí)峁┝艘环N基于非負(fù)矩陣分解與深度學(xué)習(xí)的藍(lán)牙接收端語音降噪方法、裝置、存儲介質(zhì)及設(shè)備,在藍(lán)牙接收端,基于mdct譜系數(shù),通過在子帶上執(zhí)行非負(fù)矩陣分解生成降噪增益,再基于深度學(xué)習(xí)修正降噪增益,從而實現(xiàn)語音降噪,不但能夠保證音質(zhì),還能減小矩陣的尺寸,既避免了非負(fù)矩陣分解的不足,又避免了深度學(xué)習(xí)使用過于復(fù)雜的網(wǎng)絡(luò)模型。
2、為了實現(xiàn)上述目的,本申請采用的第一個技術(shù)方案是:提供一種基于非負(fù)矩陣分解與深度學(xué)習(xí)的藍(lán)牙接收端語音降噪方法,包括:在藍(lán)牙接收端,輸入單聲道帶噪語音碼流,并執(zhí)行解碼至變換域噪聲整形,得到mdct譜系數(shù);根據(jù)mdct譜系數(shù)計算子帶能量,并構(gòu)建子帶能量觀察矩陣;對子帶能量觀察矩陣執(zhí)行非負(fù)矩陣分解,并計算語音子帶能量值和噪聲子帶能量值;根據(jù)語音子帶能量值和噪聲子帶能量值,計算第一子帶降噪增益;將第一子帶降噪增益輸入預(yù)訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)中,輸出第二子帶降噪增益,并對第二子帶降噪增益執(zhí)行插值,得到所有的頻倉增益;根據(jù)頻倉增益和mdct譜系數(shù),得到降噪譜系數(shù);以及對降噪譜系數(shù)繼續(xù)執(zhí)行解碼過程,輸出降噪語音pcm數(shù)據(jù)。
3、本申請采用的第二個技術(shù)方案是:提供一種基于非負(fù)矩陣分解與深度學(xué)習(xí)的藍(lán)牙接收端語音降噪裝置,包括:用于在藍(lán)牙接收端,輸入單聲道帶噪語音碼流,并執(zhí)行解碼至變換域噪聲整形,得到mdct譜系數(shù)的模塊;用于根據(jù)mdct譜系數(shù)計算子帶能量,并構(gòu)建子帶能量觀察矩陣的模塊;用于對子帶能量觀察矩陣執(zhí)行非負(fù)矩陣分解,并計算語音子帶能量值和噪聲子帶能量值的模塊;用于根據(jù)語音子帶能量值和噪聲子帶能量值,計算第一子帶降噪增益的模塊;用于將第一子帶降噪增益輸入預(yù)訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)中,輸出第二子帶降噪增益,并對第二子帶降噪增益執(zhí)行插值,得到所有的頻倉增益的模塊;用于根據(jù)頻倉增益和mdct譜系數(shù),得到降噪譜系數(shù)的模塊;用于對降噪譜系數(shù)繼續(xù)執(zhí)行解碼過程,輸出降噪語音pcm數(shù)據(jù)的模塊。
4、本申請采用的第三個技術(shù)方案是:提供一種計算機可讀存儲介質(zhì),其存儲有計算機指令,其中計算機指令被操作以執(zhí)行方案一中的基于非負(fù)矩陣分解與深度學(xué)習(xí)的藍(lán)牙接收端語音降噪方法。
5、本申請采用的第四個技術(shù)方案是:提供一種計算機設(shè)備,其包括處理器和存儲器,存儲器存儲有計算機指令,其中處理器操作計算機指令以執(zhí)行方案一中的基于非負(fù)矩陣分解與深度學(xué)習(xí)的藍(lán)牙接收端語音降噪方法。
6、本申請技術(shù)方案可以達(dá)到的有益效果是:本申請的技術(shù)方案既可以應(yīng)用于經(jīng)典藍(lán)牙(br、edr),也可以應(yīng)用于低功耗藍(lán)牙(le、le?audio),在藍(lán)牙接收端,基于mdct譜系數(shù),通過在子帶上執(zhí)行非負(fù)矩陣分解生成降噪增益,再基于深度學(xué)習(xí)修正降噪增益,從而實現(xiàn)語音降噪,保證了音質(zhì),既避免了非負(fù)矩陣分解的不足,又避免了深度學(xué)習(xí)使用過于復(fù)雜的網(wǎng)絡(luò)模型?;陔x散余弦變換的處理,在逆變換時不需要相位譜,與傳統(tǒng)的傅里葉變換需要相位譜相比,避免了因純凈語音的相位譜無法獲得而只能使用帶噪語音相位譜對重建語音的損傷;在子帶上執(zhí)行非負(fù)矩陣分解,與傳統(tǒng)的幅度譜相比,矩陣的尺寸極大降低,運算量和存儲量都相應(yīng)的降低;深度學(xué)習(xí)模型主要用來修正非負(fù)矩陣分解的降噪增益,與傳統(tǒng)的端到端的基于幅度譜的深度學(xué)習(xí)降噪模型相比,網(wǎng)絡(luò)結(jié)構(gòu)更簡單,運算量和存儲量都相應(yīng)的降低。
1.一種基于非負(fù)矩陣分解與深度學(xué)習(xí)的藍(lán)牙接收端語音降噪方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的基于非負(fù)矩陣分解與深度學(xué)習(xí)的藍(lán)牙接收端語音降噪方法,其特征在于,所述根據(jù)所述mdct譜系數(shù)計算子帶能量,包括:
3.根據(jù)權(quán)利要求1所述的基于非負(fù)矩陣分解與深度學(xué)習(xí)的藍(lán)牙接收端語音降噪方法,其特征在于,所述對所述子帶能量觀察矩陣執(zhí)行非負(fù)矩陣分解,并計算語音子帶能量值和噪聲子帶能量值,包括:
4.根據(jù)權(quán)利要求1所述的基于非負(fù)矩陣分解與深度學(xué)習(xí)的藍(lán)牙接收端語音降噪方法,其特征在于,所述根據(jù)所述頻倉增益和所述mdct譜系數(shù),得到降噪譜系數(shù),包括:
5.根據(jù)權(quán)利要求2所述的基于非負(fù)矩陣分解與深度學(xué)習(xí)的藍(lán)牙接收端語音降噪方法,其特征在于,所述對所述第二子帶降噪增益執(zhí)行插值,得到所有的頻倉增益,包括:
6.根據(jù)權(quán)利要求3所述的基于非負(fù)矩陣分解與深度學(xué)習(xí)的藍(lán)牙接收端語音降噪方法,其特征在于,所述語音基礎(chǔ)矩陣和所述噪音基礎(chǔ)矩陣的訓(xùn)練過程,包括:
7.根據(jù)權(quán)利要求1所述的基于非負(fù)矩陣分解與深度學(xué)習(xí)的藍(lán)牙接收端語音降噪方法,其特征在于,所述對所述降噪譜系數(shù)繼續(xù)執(zhí)行解碼過程,包括:
8.一種基于非負(fù)矩陣分解與深度學(xué)習(xí)的藍(lán)牙接收端語音降噪裝置,其特征在于,包括:
9.一種計算機可讀存儲介質(zhì),其存儲有計算機指令,其中所述計算機指令被操作以執(zhí)行權(quán)利要求1-7任一項所述的基于非負(fù)矩陣分解與深度學(xué)習(xí)的藍(lán)牙接收端語音降噪方法。
10.一種計算機設(shè)備,其包括處理器和存儲器,所述存儲器存儲有計算機指令,其中所述處理器操作所述計算機指令以執(zhí)行權(quán)利要求1-7任一項所述的基于非負(fù)矩陣分解與深度學(xué)習(xí)的藍(lán)牙接收端語音降噪方法。