本發(fā)明涉及一種音頻聲音事件檢測方法、裝置、可讀存儲介質及設備,屬于音頻檢測。
背景技術:
1、聲音事件檢測(sound?event?detection,?sed)技術是一種重要的音頻處理技術,旨在從復雜的音頻信號中自動檢測和識別特定類型的聲音事件,如汽車喇叭、狗吠、人聲等;該項技術廣泛應用于許多領域,例如智能家居、安防監(jiān)控、環(huán)境監(jiān)測、醫(yī)療診斷等。
2、聲音事件檢測領域包括一系列先進的信號處理和機器學習技術。首先,聲音信號被采集并轉換成數字形式;然后通過預處理步驟對其進行降噪、濾波和特征提取,以提高后續(xù)處理的效果;?在聲音事件檢測中,注意力機制在特征提取中發(fā)揮著關鍵的作用,它通過動態(tài)地調整不同位置或通道的特征權重,使得模型能夠更加關注重要的信息,抑制任務中不重要的部分;
3、然而,若注意力機制的使用不當,也可能導致短時聲音事件的特征丟失,進而影響對這些事件的準確檢測;目前廣泛采用的注意力機制中,很多都使用了全局池化或壓縮的方式,將某一時間段或頻率段內的特征值轉換成單一的數值。這樣的處理可能導致短時聲音事件的信息丟失,尤其是在時頻圖中那些持續(xù)時間很短、頻譜變化快速的事件。
技術實現思路
1、本發(fā)明的目的在于克服現有技術中的不足,提供一種音頻聲音事件檢測方法、裝置、可讀存儲介質及設備,通過十字交叉注意力機制能夠有效建立不同時頻點之間的聯系,增強了特征表征能力,可準確識別聲音事件中的細微變化和關鍵特征,解決了當前聲音事件識別方法會導致短時聲音事件的信息丟失,識別內容不完整的問題。
2、為達到上述目的/為解決上述技術問題,本發(fā)明是采用下述技術方案實現的:
3、本發(fā)明一方面提供了一種音頻聲音事件檢測方法,包括:
4、獲取目標音頻的第一音頻特征圖;
5、將第一音頻特征圖輸入基于十字交叉注意力機制預先訓練好的聲音事件檢測模型中,確定目標音頻的預測時間標簽;
6、所述預先訓練好的聲音事件檢測模型包括特征提取網絡和事件識別網絡;所述特征提取網絡的輸入為第一音頻特征圖,輸出為基于第一音頻特征圖生成的第二音頻特征圖;所述事件識別網絡的輸入為第二音頻特征圖,輸出為預測時間標簽;
7、根據目標音頻的預測時間標簽,確定目標音頻中的特定聲音事件;
8、其中,所述預先訓練好的聲音事件檢測模型的訓練包括:
9、獲取訓練音頻樣本的第一音頻特征圖、與第一音頻特征圖對應的真實時間標簽;
10、將第一音頻特征圖輸入目標特征提取網絡中,獲取第二音頻特征圖;
11、將第二音頻特征圖輸入目標事件識別網絡中,獲取與第二音頻特征圖相對應的預測時間標簽;
12、通過真實時間標簽、預測時間標簽訓練目標特征提取網絡,直到目標特征提取網絡生成滿足要求的第二音頻特征圖;
13、得到訓練好的聲音事件檢測模型。
14、進一步地,所述特征提取網絡包括依次相連的第一二維卷積塊、第二二維卷積塊、十字交叉注意力機制網絡層和多個多尺度條帶卷積殘差模塊;
15、所述多尺度條帶卷積殘差模塊包括多尺度條帶卷積層、與多尺度條帶卷積層相連的殘差結構層;
16、所述事件識別網絡包括依次相連的第一雙向門控循環(huán)單元、第二雙向門控循環(huán)單元、第一全連接層和第二全連接層。
17、進一步地,所述獲取訓練音頻樣本的第一音頻特征圖、與第一音頻特征圖對應的真實時間標簽,包括:
18、計算訓練音頻樣本的能量譜;
19、對能量譜進行對數梅爾特征提取,得到第一音頻特征圖;
20、對第一音頻特征圖中時間連續(xù)的標簽進行編碼處理,得到與第一音頻特征圖對應的真實時間標簽。
21、進一步地,所述將第一音頻特征圖輸入目標特征提取網絡中,獲取第二音頻特征圖,包括:
22、對第一音頻特征圖進行卷積處理,獲取第一空間維度張量、第二空間維度張量和第三空間維度張量;
23、基于第一空間維度張量、第二空間維度張量,得到中間音頻特征圖;
24、基于第三空間維度張量、中間音頻特征圖,得到第二音頻特征圖。
25、更進一步地,所述基于第一空間維度張量、第二空間維度張量,得到中間音頻特征圖,包括:
26、采用下式計算第一空間維度張量與第二空間維度張量的相似度:其中:表示第一空間維度張量在空間維度的每個位置u對應的一個向量;表示在第二空間維度張量中提取的與位置 u在同一行同一列的特征向量;表示中的第 i個元素,, f表示第一音頻特征圖中的通道數,c表示特征圖中的類別數;,表示第一空間維度張量與第二空間維度張量的相似度,表示與的相似度;表示轉置;
27、采用softmax對第一空間維度張量與第二空間維度張量的相似度進行歸一化處理,得到中間音頻特征圖。
28、更進一步地,所述基于第三空間維度張量、中間音頻特征圖,得到第二音頻特征圖,包括:
29、采用下式將第三空間維度張量與中間音頻特征圖進行聚合處理,得到第二音頻特征圖:其中:表示第二音頻特征圖位置 u處的特征向量;表示第一音頻特征圖位置 u處的特征向量; f表示第一音頻特征圖中的通道數、表示時間步長;表示在第三空間維度張量中提取的與位置 u在同一行同一列的特征向量,表示中的第 i個元素; a表示中間音頻特征圖,表示中間音頻特征圖位置 u第 i個通道上的標量值。
30、更進一步地,所述通過真實時間標簽、預測時間標簽訓練目標特征提取網絡,直到目標特征提取網絡生成滿足要求的第二音頻特征圖,包括:
31、采用二進制交叉熵損失作為訓練目標特征提取網絡的損失函數 loss:其中:表示訓練音頻樣本,表示第 i個第一音頻特征圖的真實時間標簽,表示第 i個第一音頻特征圖的預測時間標簽。
32、本發(fā)明第二方面提供了一種音頻聲音事件檢測裝置,包括:
33、獲取模塊,用于獲取目標音頻的第一音頻特征圖;
34、檢測模塊,用于將第一音頻特征圖輸入基于十字交叉注意力機制預先訓練好的聲音事件檢測模型中,確定目標音頻的預測時間標簽;
35、處理模塊,用于根據目標音頻的預測時間標簽,確定目標音頻中的特定聲音事件。
36、本發(fā)明第三方面提供了一種計算機可讀存儲介質,其上存儲有計算機程序,該計算機程序被處理器執(zhí)行時,實現上述的音頻聲音事件檢測方法。
37、本發(fā)明還提供了一種計算機設備,包括:
38、存儲器,用于存儲指令;
39、處理器,用于執(zhí)行所述指令,使得所述設備執(zhí)行實現上述的音頻聲音事件檢測方法。
40、與現有技術相比,本發(fā)明所達到的有益效果:
41、1、本發(fā)明通過預先訓練好的聲音時間檢測模型根據目標音頻的第一音頻特征圖進行特征提取生成第二音頻特征圖,基于第二音頻特征圖獲取預測時間標簽,并根據預測時間標簽,確定目標音頻中的特定聲音事件,可準確識別聲音事件中的細微變化和關鍵特征,解決了當前聲音事件識別方法會導致短時聲音事件的信息丟失,識別內容不完整的問題。
42、2、本發(fā)明通過十字交叉注意力機制訓練聲音事件檢測模型,基于第一音頻特征圖,獲取第一空間維度張量、第二空間維度張量和第三空間維度張量,基于空間維度張量,能夠有效地聚合水平和垂直方向的長程上下文信息,建立不同時頻點之間的聯系,使得時頻點的特征表征能力得到了增強,使得模型能夠更好地捕捉到聲音事件中的細微變化和關鍵特征。