本發(fā)明涉及聲音信號(hào)處理,具體來說是一種環(huán)境聲音分類目標(biāo)模型構(gòu)建方法及系統(tǒng)。
背景技術(shù):
1、隨著深度學(xué)習(xí)的發(fā)展,環(huán)境聲音分類也越來越受到人們的關(guān)注。環(huán)境聲音分類具體是指在復(fù)雜的聲學(xué)環(huán)境里能夠準(zhǔn)確識(shí)別出其中的環(huán)境聲音,并對(duì)識(shí)別到的環(huán)境聲音精準(zhǔn)分類。在實(shí)際生活中,人們?cè)谠S多方面也對(duì)環(huán)境聲音分類任務(wù)提出需求,如在智能家居中,通過識(shí)別不同的聲音事件(如敲門聲、玻璃破碎聲等),可以實(shí)現(xiàn)家庭安全的自動(dòng)報(bào)警。隨著機(jī)器學(xué)習(xí)發(fā)展,目前環(huán)境聲音分類已經(jīng)超過了人類。
2、現(xiàn)有的環(huán)境聲音分類方法依賴于傳統(tǒng)的信號(hào)處理技術(shù),如梅爾頻率倒譜系數(shù)(mfcc)等,這些方法在處理非平穩(wěn)信號(hào)時(shí)存在局限性,難以準(zhǔn)確捕捉聲音信號(hào)的瞬時(shí)特性。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(cnn)在聲音信號(hào)處理上展現(xiàn)出巨大潛力,但現(xiàn)有方法在特征提取和模型泛化能力上仍有提升空間。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明所要解決的技術(shù)問題在于如何在聲學(xué)環(huán)境復(fù)雜的場(chǎng)景中準(zhǔn)確識(shí)別出各類聲音。
2、本發(fā)明通過以下技術(shù)手段實(shí)現(xiàn)解決上述技術(shù)問題的:
3、環(huán)境聲音分類目標(biāo)模型構(gòu)建方法,包括以下步驟:
4、步驟1:構(gòu)建包含inception?convolution結(jié)構(gòu)的改進(jìn)resnet50模型:
5、步驟1.1:采用edo算法,根據(jù)數(shù)據(jù)確定最佳參數(shù)配置:
6、初始化預(yù)訓(xùn)練網(wǎng)絡(luò),將其中每個(gè)卷積層均設(shè)定為包含所有可能的擴(kuò)張模式,其中卷積濾波器的權(quán)重定義為wi代表第i個(gè)卷積濾波器的權(quán)重,采樣位置定義為其中和代表第i個(gè)通道的采樣位置;
7、以為目標(biāo)函數(shù),最小化預(yù)訓(xùn)練權(quán)重w的預(yù)期輸出和采樣膨脹權(quán)重的預(yù)期輸出之間的誤差其中采樣位置范圍為
8、步驟1.2:將inception?convolution架構(gòu)融入resnet50模型中;
9、步驟1.3:改進(jìn)resnet50模型:
10、將卷積層的卷積核大小從初始的3×3修改為(2dmax+1)×(2dmax+1);選擇最佳膨脹模式以最小化誤差;
11、步驟1.4:通過將具有相同膨脹模式的濾波器合并,以重組濾波器;
12、步驟2:使用時(shí)頻特征圖對(duì)改進(jìn)resnet50模型進(jìn)行訓(xùn)練,得到目標(biāo)模型。
13、進(jìn)一步的,所述步驟2具體包括:
14、步驟2.1:將圖像比例調(diào)整為224x224以滿足ic-resnet的訓(xùn)練需求;
15、步驟2.2:應(yīng)用z-score標(biāo)準(zhǔn)化將像素值歸一化到指定范圍;
16、步驟2.3:使用反向傳播算法更新網(wǎng)絡(luò)權(quán)重。
17、進(jìn)一步的,所述時(shí)頻特征圖的獲取過程為:
18、獲取包括多種環(huán)境下的音頻數(shù)據(jù),對(duì)音頻數(shù)據(jù)進(jìn)行精確標(biāo)注,然后對(duì)標(biāo)注后的音頻數(shù)據(jù)利用wigner-ville分布對(duì)聲音信號(hào)進(jìn)行時(shí)頻變換,生成時(shí)頻特征圖。
19、進(jìn)一步的,利用wigner-ville分布對(duì)聲音信號(hào)進(jìn)行時(shí)頻變換的具體過程為:
20、定義wigner-ville分布;
21、
22、對(duì)經(jīng)過預(yù)處理的音頻信號(hào)進(jìn)行希爾伯特變換,將其轉(zhuǎn)換到復(fù)數(shù)域;
23、使用wvd量化不同時(shí)間尺度上的瞬時(shí)頻率和振幅變化,捕捉聲音信號(hào)的固有非平穩(wěn)特征;
24、通過加權(quán)窗函數(shù)的方法來調(diào)整頻率成分的時(shí)頻分辨率,利用稀疏表示理論來增強(qiáng)信號(hào)的時(shí)頻特征表示,并采用時(shí)頻分布方法來改善時(shí)頻能量的集中度。
25、進(jìn)一步的,所述改進(jìn)resnet50模型通過efficient?dilation?optimization算法優(yōu)化inception?convolution結(jié)構(gòu)的膨脹模式。
26、本發(fā)明還提供一種環(huán)境聲音分類目標(biāo)模型構(gòu)建系統(tǒng),包括:
27、改進(jìn)resnet50模型構(gòu)建模塊:構(gòu)建包含inception?convolution結(jié)構(gòu)的改進(jìn)resnet50模型:
28、步驟1.1:采用edo算法,根據(jù)數(shù)據(jù)確定最佳參數(shù)配置:
29、初始化預(yù)訓(xùn)練網(wǎng)絡(luò),將其中每個(gè)卷積層均設(shè)定為包含所有可能的擴(kuò)張模式,其中卷積濾波器的權(quán)重定義為wi代表第i個(gè)卷積濾波器的權(quán)重,采樣位置定義為其中和代表第i個(gè)通道的采樣位置;
30、以為目標(biāo)函數(shù),最小化預(yù)訓(xùn)練權(quán)重w的預(yù)期輸出和采樣膨脹權(quán)重的預(yù)期輸出之間的誤差其中采樣位置范圍為
31、步驟1.2:將inception?convolution架構(gòu)融入resnet50模型中;
32、步驟1.3:改進(jìn)resnet50模型:
33、將卷積層的卷積核大小從初始的3×3修改為(2dmax+1)×(2dmax+1);選擇最佳膨脹模式以最小化誤差;
34、步驟1.4:通過將具有相同膨脹模式的濾波器合并,以重組濾波器;
35、訓(xùn)練模塊:使用時(shí)頻特征圖對(duì)改進(jìn)resnet50模型進(jìn)行訓(xùn)練,得到目標(biāo)模型。
36、進(jìn)一步的,所述訓(xùn)練模塊具體包括:
37、步驟2.1:將圖像比例調(diào)整為224x224以滿足ic-resnet的訓(xùn)練需求;
38、步驟2.2:應(yīng)用z-score標(biāo)準(zhǔn)化將像素值歸一化到指定范圍;
39、步驟2.3:使用反向傳播算法更新網(wǎng)絡(luò)權(quán)重。
40、進(jìn)一步的,所述時(shí)頻特征圖的獲取過程為:
41、獲取包括多種環(huán)境下的音頻數(shù)據(jù),對(duì)音頻數(shù)據(jù)進(jìn)行精確標(biāo)注,然后對(duì)標(biāo)注后的音頻數(shù)據(jù)利用wigner-ville分布對(duì)聲音信號(hào)進(jìn)行時(shí)頻變換,生成時(shí)頻特征圖。
42、進(jìn)一步的,利用wigner-ville分布對(duì)聲音信號(hào)進(jìn)行時(shí)頻變換的具體過程為:
43、定義wigner-ville分布;
44、
45、對(duì)經(jīng)過預(yù)處理的音頻信號(hào)進(jìn)行希爾伯特變換,將其轉(zhuǎn)換到復(fù)數(shù)域;
46、使用wvd量化不同時(shí)間尺度上的瞬時(shí)頻率和振幅變化,捕捉聲音信號(hào)的固有非平穩(wěn)特征;
47、通過加權(quán)窗函數(shù)的方法來調(diào)整頻率成分的時(shí)頻分辨率,利用稀疏表示理論來增強(qiáng)信號(hào)的時(shí)頻特征表示,并采用時(shí)頻分布方法來改善時(shí)頻能量的集中度。
48、進(jìn)一步的,所述改進(jìn)resnet50模型通過efficient?dilation?optimization算法優(yōu)化inception?convolution結(jié)構(gòu)的膨脹模式。
49、本發(fā)明的優(yōu)點(diǎn)在于:
50、1.本發(fā)明利用wvd變換有效捕捉聲音信號(hào)的瞬時(shí)頻率和幅度變化,為聲音信號(hào)分析提供了一種新的技術(shù)手段。wvd變換能夠同時(shí)在時(shí)間和頻率兩個(gè)維度上對(duì)信號(hào)進(jìn)行分析,揭示出信號(hào)的瞬時(shí)特性,這對(duì)于理解聲音信號(hào)的復(fù)雜動(dòng)態(tài)行為至關(guān)重要。這種變換特別適合處理非線性和非平穩(wěn)信號(hào),如語音、音樂和生物醫(yī)學(xué)信號(hào)等,可以顯著提高信號(hào)處理的準(zhǔn)確性和效率。本發(fā)明利用這一技術(shù),可以更準(zhǔn)確地識(shí)別和分離聲音信號(hào)中的各種成分,為聲音信號(hào)的分類、識(shí)別和特征提取提供了強(qiáng)有力的技術(shù)支持。
51、2.本發(fā)明通過將inception?convolution(初始卷積法)結(jié)構(gòu)創(chuàng)新性地融入到resnet50模型中,不僅繼承了resnet50在深度學(xué)習(xí)中的高效特征學(xué)習(xí)能力,還通過inception模塊的多尺度并行卷積設(shè)計(jì),大幅增強(qiáng)了模型對(duì)聲音信號(hào)的多維度特征表達(dá)。這種結(jié)構(gòu)的融合使得模型能夠同時(shí)捕捉到聲音信號(hào)的細(xì)微變化和宏觀趨勢(shì),無論是快速的頻率變化還是持續(xù)的音調(diào),都能被精確地識(shí)別和分析。此外,這種改進(jìn)還顯著提高了模型對(duì)復(fù)雜聲音環(huán)境的適應(yīng)性,即使在存在背景噪聲的情況下,也能保持較高的識(shí)別準(zhǔn)確率和穩(wěn)定性。
52、3.本發(fā)明通過優(yōu)化的算法和深度學(xué)習(xí)模型,成功實(shí)現(xiàn)了在復(fù)雜環(huán)境中對(duì)環(huán)境聲音的高準(zhǔn)確度分類。這一技術(shù)突破不僅依賴于對(duì)聲音信號(hào)的深入分析和噪聲抑制技術(shù),還涉及到創(chuàng)新的特征提取方法和強(qiáng)大的分類器設(shè)計(jì)。通過這些綜合措施,本發(fā)明能夠在各種環(huán)境噪聲中準(zhǔn)確識(shí)別和區(qū)分不同的聲音源,極大地提升了聲音識(shí)別系統(tǒng)在實(shí)際應(yīng)用中的魯棒性和準(zhǔn)確性,為環(huán)境監(jiān)測(cè)、智能安防和人機(jī)交互等場(chǎng)景提供了一種高效、可靠的技術(shù)手段。