本技術(shù)涉及模型訓(xùn)練,尤其涉及一種頻帶擴(kuò)展模型訓(xùn)練方法、設(shè)備及可讀存儲介質(zhì)。
背景技術(shù):
1、骨傳導(dǎo)信號(以下簡稱骨導(dǎo)信號)是指利用固定介質(zhì)(如骨骼、顱骨)的振動特性傳導(dǎo)的信號,通常可通過傳感器拾取骨導(dǎo)信號,如骨傳導(dǎo)(voice?pick?up,vpu)傳感器通過將固體介質(zhì)的振動轉(zhuǎn)換為電信號來拾取骨導(dǎo)信號。因此,骨導(dǎo)信號具有抑制環(huán)境噪音的固有能力,這是在低信噪比條件下進(jìn)行語音增強(qiáng)的有利物理特性。近年來,骨傳導(dǎo)技術(shù)已在語音通信、輔助聽設(shè)備、虛擬現(xiàn)實、軍事應(yīng)用、礦下開采等領(lǐng)域得到廣泛應(yīng)用。
2、由于骨導(dǎo)信號特殊特性,通常拾取到的骨導(dǎo)信號仍然存在以下缺點(diǎn):與清晰的空氣傳導(dǎo)信號(簡稱氣導(dǎo)信號)相比,拾取到的骨導(dǎo)信號在高頻范圍有顯著的信息丟失,其能量分布限制在2khz以下。為實現(xiàn)對骨導(dǎo)信號的頻帶擴(kuò)展,可基于深度學(xué)習(xí)技術(shù)構(gòu)建頻帶擴(kuò)展模型,在使用訓(xùn)練數(shù)據(jù)對頻帶擴(kuò)展模型進(jìn)行訓(xùn)練,訓(xùn)練完成后得到可實現(xiàn)對骨導(dǎo)信號進(jìn)行頻帶擴(kuò)展的頻帶擴(kuò)展模型。為了準(zhǔn)備訓(xùn)練數(shù)據(jù),需要采集骨導(dǎo)語音數(shù)據(jù)與骨導(dǎo)噪聲數(shù)據(jù),然而由于骨導(dǎo)信號的特殊性,需要用戶佩戴一定的設(shè)備后才能采集,采集條件相對苛刻,導(dǎo)致訓(xùn)練數(shù)據(jù)準(zhǔn)備成本較高,進(jìn)而導(dǎo)致模型的訓(xùn)練成本高,且由于骨導(dǎo)信號的采集條件相對苛刻,通常采集到的數(shù)據(jù)規(guī)模較少,這可能會導(dǎo)致模型的出現(xiàn)過擬合現(xiàn)象、泛化能力差的問題,進(jìn)而導(dǎo)致頻帶擴(kuò)展結(jié)果的穩(wěn)定性差。
3、因此,如何降低頻帶擴(kuò)展模型的訓(xùn)練成本,以及提高頻帶擴(kuò)展結(jié)果的穩(wěn)定性是本技術(shù)領(lǐng)域亟待解決的技問題。
4、前面的敘述在于提供一般的背景信息,并不一定構(gòu)成現(xiàn)有技術(shù)。
技術(shù)實現(xiàn)思路
1、本技術(shù)的主要目的在于提供一種頻帶擴(kuò)展模型訓(xùn)練方法、設(shè)備及可讀存儲介質(zhì),旨在解決如何降低頻帶擴(kuò)展模型的訓(xùn)練成本,以及提高頻帶擴(kuò)展結(jié)果的穩(wěn)定性的技術(shù)問題。
2、為實現(xiàn)上述目的,本技術(shù)提供一種頻帶擴(kuò)展模型訓(xùn)練方法,所述頻帶擴(kuò)展模型訓(xùn)練方法包括:
3、獲取預(yù)構(gòu)建的頻帶擴(kuò)展模型,并獲取訓(xùn)練數(shù)據(jù),其中,所述訓(xùn)練數(shù)據(jù)包括窄帶氣導(dǎo)語音數(shù)據(jù)與骨導(dǎo)噪聲數(shù)據(jù);
4、以至少一個預(yù)設(shè)的信噪比混合所述窄帶氣導(dǎo)語音數(shù)據(jù)與所述骨導(dǎo)噪聲數(shù)據(jù)得到模擬骨導(dǎo)數(shù)據(jù);
5、基于所述模擬骨導(dǎo)數(shù)據(jù)訓(xùn)練所述頻帶擴(kuò)展模型,得到預(yù)先訓(xùn)練完成的所述頻帶擴(kuò)展模型。
6、在一實施例中,所述獲取訓(xùn)練數(shù)據(jù)的步驟,包括:
7、獲取預(yù)設(shè)的寬帶氣導(dǎo)語音數(shù)據(jù)與預(yù)設(shè)的骨導(dǎo)噪聲數(shù)據(jù);
8、對所述寬帶氣導(dǎo)語音數(shù)據(jù)對所述寬帶氣導(dǎo)語音依次進(jìn)行下采樣、升采樣與低通濾波處理得到窄帶氣導(dǎo)語音數(shù)據(jù),其中,所述窄帶氣導(dǎo)語音數(shù)據(jù)的采樣率與所述寬帶氣導(dǎo)語音數(shù)據(jù)的采樣率相同;
9、確定所述窄帶氣導(dǎo)語音數(shù)據(jù)與所述骨導(dǎo)噪聲數(shù)據(jù)為訓(xùn)練數(shù)據(jù)。
10、在一實施例中,所述基于所述模擬骨導(dǎo)數(shù)據(jù)訓(xùn)練所述頻帶擴(kuò)展模型的步驟之后,所述方法還包括:
11、獲取預(yù)設(shè)的驗證數(shù)據(jù),其中,所述驗證數(shù)據(jù)包括骨導(dǎo)語音數(shù)據(jù)與寬帶氣導(dǎo)語音數(shù)據(jù);
12、在所述頻帶擴(kuò)展模型的每輪訓(xùn)練過程中,依據(jù)所述驗證數(shù)據(jù)評估所述頻帶擴(kuò)展模型得到模型評估值;
13、在所述頻帶擴(kuò)展模型結(jié)束訓(xùn)練后,選擇各所述模型評估值中的最優(yōu)模型評估值對應(yīng)的頻帶擴(kuò)展模型作為預(yù)先訓(xùn)練完成的頻帶擴(kuò)展模型。
14、在一實施例中,所述基于所述模擬骨導(dǎo)數(shù)據(jù)訓(xùn)練所述頻帶擴(kuò)展模型,得到預(yù)先訓(xùn)練完成的所述頻帶擴(kuò)展模型的步驟,包括:
15、將所述模擬骨導(dǎo)數(shù)據(jù)的幅值向量與相位值向量輸入至所述頻帶擴(kuò)展模型中,得到生成結(jié)果;
16、基于所述生成結(jié)果與預(yù)設(shè)結(jié)果標(biāo)簽計算第一損失值;
17、將所述生成結(jié)果轉(zhuǎn)換為時域數(shù)據(jù),和/或計算所述時域數(shù)據(jù)的梅爾頻帶能量;
18、基于所述時域數(shù)據(jù)與預(yù)設(shè)時域標(biāo)簽計算第二損失值,和/或基于所述梅爾頻帶能量與預(yù)設(shè)能量標(biāo)簽計算第三損失值;
19、基于所述第一損失值、所述第二損失值與所述第三損失值中的至少兩個損失值優(yōu)化所述頻帶擴(kuò)展模型,返回執(zhí)行所述將所述模擬骨導(dǎo)數(shù)據(jù)的幅值向量與相位值向量輸入至所述頻帶擴(kuò)展模型中,得到生成結(jié)果的步驟,直至滿足預(yù)設(shè)訓(xùn)練結(jié)束條件后,獲得預(yù)先訓(xùn)練完成的所述頻帶擴(kuò)展模型。
20、在一實施例中,所述基于所述模擬骨導(dǎo)數(shù)據(jù)訓(xùn)練所述頻帶擴(kuò)展模型,得到預(yù)先訓(xùn)練完成的所述頻帶擴(kuò)展模型的步驟,包括:
21、獲取至少一個預(yù)設(shè)的鑒別網(wǎng)絡(luò),基于各所述模擬骨導(dǎo)數(shù)據(jù)對所述鑒別網(wǎng)絡(luò)與所述頻帶擴(kuò)展模型進(jìn)行對抗訓(xùn)練,得到預(yù)先訓(xùn)練完成的所述頻帶擴(kuò)展模型;
22、其中,所述鑒別網(wǎng)絡(luò)包括至少一個頻率鑒別網(wǎng)絡(luò)與梅爾鑒別網(wǎng)絡(luò),各所述頻率鑒別網(wǎng)絡(luò)用于鑒別不同采樣率的輸入數(shù)據(jù)是否為真實數(shù)據(jù),所述梅爾鑒別網(wǎng)絡(luò)用于鑒別輸入的梅爾頻帶能量數(shù)據(jù)是否為真實數(shù)據(jù)。
23、在一實施例中,所述獲取至少一個預(yù)設(shè)的鑒別網(wǎng)絡(luò)的步驟之前,所述方法還包括:
24、基于所述模擬骨導(dǎo)數(shù)據(jù)訓(xùn)練所述頻帶擴(kuò)展模型,直至滿足預(yù)設(shè)訓(xùn)練中止條件后,執(zhí)行所述獲取至少一個預(yù)設(shè)的鑒別網(wǎng)絡(luò),基于各所述模擬骨導(dǎo)數(shù)據(jù)對所述鑒別網(wǎng)絡(luò)與所述頻帶擴(kuò)展模型進(jìn)行對抗訓(xùn)練的步驟。
25、在一實施例中,所述頻帶擴(kuò)展模型包括低頻特征分析網(wǎng)絡(luò)、高頻信號預(yù)測網(wǎng)絡(luò)與融合網(wǎng)絡(luò),所述低頻特征分析網(wǎng)絡(luò)用于分析與融合特征,所述高頻信號預(yù)測網(wǎng)絡(luò)用于預(yù)測高頻信號,所述融合網(wǎng)絡(luò)用于融合所述高頻信號預(yù)測網(wǎng)絡(luò)的輸出與待頻帶擴(kuò)展的原始頻域信號。
26、在一實施例中,所述低頻特征分析網(wǎng)絡(luò)包括依次連接的第一深度可分離卷積網(wǎng)絡(luò)層與第二深度可分離卷積網(wǎng)絡(luò)層,所述高頻信號預(yù)測網(wǎng)絡(luò)包括依次連接的卷積層、歸一化層、門控循環(huán)單元以及激活層。
27、此外,為實現(xiàn)上述目的,本技術(shù)還提供一種頻帶擴(kuò)展模型訓(xùn)練設(shè)備,所述頻帶擴(kuò)展模型訓(xùn)練設(shè)備包括:存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運(yùn)行的計算機(jī)程序,所述計算機(jī)程序配置為實現(xiàn)如上所述的頻帶擴(kuò)展模型訓(xùn)練方法的步驟。
28、此外,為實現(xiàn)上述目的,本技術(shù)還提供一種可讀存儲介質(zhì),所述可讀存儲介質(zhì)為計算機(jī)可讀存儲介質(zhì),所述計算機(jī)可讀存儲介質(zhì)上存儲有實現(xiàn)頻帶擴(kuò)展模型訓(xùn)練方法的程序,所述實現(xiàn)頻帶擴(kuò)展模型訓(xùn)練方法的程序被處理器執(zhí)行以實現(xiàn)如上所述頻帶擴(kuò)展模型訓(xùn)練方法的步驟。
29、本技術(shù)還提供一種計算機(jī)程序產(chǎn)品,包括計算機(jī)程序,所述計算機(jī)程序被處理器執(zhí)行時實現(xiàn)如上述的頻帶擴(kuò)展模型訓(xùn)練方法的步驟。
30、本技術(shù)提出的一個或多個技術(shù)方案,至少具有以下技術(shù)效果:
31、獲取預(yù)構(gòu)建的頻帶擴(kuò)展模型,并獲取訓(xùn)練數(shù)據(jù),其中,所述訓(xùn)練數(shù)據(jù)包括窄帶氣導(dǎo)語音數(shù)據(jù)與骨導(dǎo)噪聲數(shù)據(jù);以至少一個預(yù)設(shè)的信噪比混合所述窄帶氣導(dǎo)語音數(shù)據(jù)與所述骨導(dǎo)噪聲數(shù)據(jù)得到模擬骨導(dǎo)數(shù)據(jù);基于所述模擬骨導(dǎo)數(shù)據(jù)訓(xùn)練所述頻帶擴(kuò)展模型,得到預(yù)先訓(xùn)練完成的所述頻帶擴(kuò)展模型。如此,本技術(shù)實施例以窄帶氣導(dǎo)語音數(shù)據(jù)混合骨導(dǎo)噪聲數(shù)據(jù)的方式模擬骨導(dǎo)信號,氣導(dǎo)語音數(shù)據(jù)有公開數(shù)據(jù)集,由此,訓(xùn)練頻帶擴(kuò)展模型之前只需采集骨導(dǎo)噪聲數(shù)據(jù),而骨導(dǎo)信號由于其自身的傳導(dǎo)特性,噪聲的來源很少,骨導(dǎo)噪聲數(shù)據(jù)需采集的種類較少,骨導(dǎo)噪聲數(shù)據(jù)的采集成本低,而無需采集大量的骨導(dǎo)語音數(shù)據(jù),從而降低了訓(xùn)練數(shù)據(jù)的準(zhǔn)備成本,采用遷移學(xué)習(xí)的方式以模擬骨數(shù)據(jù)對頻帶擴(kuò)展成本進(jìn)行訓(xùn)練,降低了頻帶擴(kuò)展模型的訓(xùn)練成本,并且由于氣導(dǎo)語音數(shù)據(jù)有公開的數(shù)據(jù)集,通常公開數(shù)據(jù)集的數(shù)據(jù)規(guī)模大,進(jìn)而使得混合窄帶氣導(dǎo)語音數(shù)據(jù)與骨導(dǎo)噪聲數(shù)據(jù)后,對應(yīng)可得到大規(guī)模的模擬骨導(dǎo)數(shù)據(jù),基于大規(guī)模的數(shù)據(jù)訓(xùn)練頻帶擴(kuò)展模型,可以降低頻帶擴(kuò)展模型的過擬合風(fēng)險,提高頻帶擴(kuò)展模型的泛化能力,使得頻帶擴(kuò)展模型的頻帶擴(kuò)展結(jié)果的穩(wěn)定性較好。