本技術(shù)涉及語音識別,特別是涉及一種行為檢測方法、系統(tǒng)、裝置、設(shè)備以及存儲介質(zhì)。
背景技術(shù):
1、隨著教育行業(yè)的不斷發(fā)展,校園安全問題日益受到廣泛關(guān)注。由于霸凌行為通常發(fā)生在校園內(nèi)的隱蔽角落或者安防攝像頭無法覆蓋的區(qū)域,因此如何有效對霸凌行為進(jìn)行預(yù)警以提高校園的安全性顯得尤為重要。
2、目前,通常通過在校園內(nèi)部署多個聲音傳感器捕獲音頻,利用設(shè)備端部署神經(jīng)網(wǎng)絡(luò)模型對音頻中的霸凌關(guān)鍵詞進(jìn)行識別,并在識別到音頻中存在霸凌關(guān)鍵詞時進(jìn)行報警。
3、但是,僅通過音頻中是否包含霸凌關(guān)鍵詞來確定是否存在霸凌行為,會導(dǎo)致較高概率的誤報問題。因此,如何有效檢測出霸凌行為成為亟需解決的技術(shù)問題。
技術(shù)實現(xiàn)思路
1、本技術(shù)實施例的目的在于提供一種行為檢測方法、系統(tǒng)、裝置、設(shè)備以及存儲介質(zhì),以有效檢測出霸凌行為。具體技術(shù)方案如下:
2、第一方面,本技術(shù)實施例提供了一種行為檢測方法,應(yīng)用于中心端設(shè)備,所述方法包括:
3、接收待檢測數(shù)據(jù);其中,所述待檢測數(shù)據(jù)為:前端設(shè)備對第一待檢測特征進(jìn)行霸凌關(guān)鍵詞識別,并在關(guān)鍵詞識別結(jié)果表示待檢測音頻中包含霸凌關(guān)鍵詞的情況下所上傳的,所述第一待檢測特征為:所述前端設(shè)備對當(dāng)前所處環(huán)境中采集到的待檢測音頻進(jìn)行頻域特征提取得到的,所述待檢測數(shù)據(jù)用于表征所述待檢測音頻;
4、利用預(yù)先訓(xùn)練的音頻大模型對所述待檢測數(shù)據(jù)進(jìn)行意圖識別,得到表示所述待檢測音頻的采集環(huán)境中是否存在霸凌行為的檢測結(jié)果。
5、可選地,所述音頻大模型包括大語言模型和第一轉(zhuǎn)換模型,所述第一轉(zhuǎn)換模型包括用于提取上下文信息的語義特征提取網(wǎng)絡(luò);
6、利用預(yù)先訓(xùn)練的音頻大模型對所述待檢測數(shù)據(jù)進(jìn)行意圖識別,得到表示所述待檢測音頻的采集環(huán)境中是否存在霸凌行為的檢測結(jié)果,包括:
7、利用所述語義特征提取網(wǎng)絡(luò)對所述待檢測數(shù)據(jù)進(jìn)行特征提取,得到第二待檢測特征;
8、將基于所述第二待檢測特征得到的指定輸入特征,輸入所述大語言模型,得到表示所述待檢測音頻的采集環(huán)境中是否存在霸凌行為的檢測結(jié)果。
9、可選地,所述音頻大模型還包括第二轉(zhuǎn)換模型,所述第二轉(zhuǎn)換模型包括用于提取情感信息的情緒特征提取網(wǎng)絡(luò);
10、在將基于所述第二待檢測特征得到的指定輸入特征,輸入所述大語言模型,得到表示所述待檢測音頻的采集環(huán)境中是否存在霸凌行為的檢測結(jié)果之前,所述方法還包括:
11、利用所述情緒特征提取網(wǎng)絡(luò)對所述待檢測數(shù)據(jù)進(jìn)行特征提取,得到第三待檢測特征;
12、基于對所述第二待檢測特征和所述第三待檢測特征進(jìn)行特征融合,得到指定輸入特征。
13、可選地,所述語義特征提取網(wǎng)絡(luò)包括串聯(lián)的第一數(shù)量個語義特征提取層,所述第二轉(zhuǎn)換模型還包括第一融合網(wǎng)絡(luò),以及第二融合網(wǎng)絡(luò);
14、在將基于所述第二待檢測特征得到的指定輸入特征,輸入所述大語言模型,得到表示所述待檢測音頻的采集環(huán)境中是否存在霸凌行為的檢測結(jié)果之前,所述方法還包括:
15、將所述語義特征提取網(wǎng)絡(luò)中前第二數(shù)量個語義特征提取層的輸出特征,輸入所述第一融合網(wǎng)絡(luò),得到第一融合特征;
16、基于對所述第二待檢測特征和所述第三待檢測特征進(jìn)行特征融合,得到指定輸入特征,包括:
17、利用所述第二融合網(wǎng)絡(luò)對所述第一融合特征和所述第三待檢測特征進(jìn)行特征融合,得到第二融合特征;
18、基于對所述第二待檢測特征和所述第二融合特征進(jìn)行特征融合,得到指定輸入特征。
19、可選地,所述第二融合網(wǎng)絡(luò)為交叉注意力網(wǎng)絡(luò);
20、利用所述第二融合網(wǎng)絡(luò)對所述第一融合特征和所述第三待檢測特征進(jìn)行特征融合,得到第二融合特征,包括:
21、對所述第一融合特征進(jìn)行映射得到所述交叉注意力網(wǎng)絡(luò)的輸入數(shù)據(jù)中的查詢q和值v,以及對所述第三待檢測特征進(jìn)行映射得到所述交叉注意力網(wǎng)絡(luò)的輸入數(shù)據(jù)中的鍵k,并將得到的查詢q、值v和鍵k輸入至所述交叉注意力網(wǎng)絡(luò)進(jìn)行特征融合,得到第二融合特征。
22、可選地,所述語義特征提取網(wǎng)絡(luò)包括串聯(lián)的第一數(shù)量個語義特征提取層,所述音頻大模型還包括第二轉(zhuǎn)換模型,所述第二轉(zhuǎn)換模型包括第一融合網(wǎng)絡(luò);
23、在將基于所述第二待檢測特征得到的指定輸入特征,輸入所述大語言模型,得到表示所述待檢測音頻的采集環(huán)境中是否存在霸凌行為的檢測結(jié)果之前,所述方法還包括:
24、將所述語義特征提取網(wǎng)絡(luò)中前第二數(shù)量個語義特征提取層的輸出特征,輸入所述第一融合網(wǎng)絡(luò),得到第一融合特征;
25、基于對所述第二待檢測特征和所述第一融合特征進(jìn)行特征融合,得到指定輸入特征。
26、可選地,所述待檢測數(shù)據(jù)為所述第一待檢測特征。
27、可選地,所述第一融合網(wǎng)絡(luò)為注意力池化網(wǎng)絡(luò),所述語義特征提取層為transformer?block。
28、可選地,所述預(yù)先訓(xùn)練的音頻大模型為初始的音頻大模型至少經(jīng)過模型預(yù)訓(xùn)練得到的;所述第二轉(zhuǎn)換模型的模型預(yù)訓(xùn)練過程包括:
29、獲取第一樣本音頻,以及表征所述第一樣本音頻的情緒類別的第一標(biāo)簽;
30、提取所述第一樣本音頻的頻域特征,作為第一樣本特征;
31、將所述第一樣本特征輸入初始的分類模型,得到所述第一樣本音頻的情緒分類結(jié)果;其中,初始的分類模型包含初始的第二轉(zhuǎn)換模型和分類網(wǎng)絡(luò),且初始的第二轉(zhuǎn)換模型的輸出數(shù)據(jù)作為所述分類網(wǎng)絡(luò)的輸入數(shù)據(jù);
32、基于得到的情緒分類結(jié)果與所述第一標(biāo)簽之間的差值,確定第一模型損失值;
33、基于所述第一模型損失值,對初始的分類模型的模型參數(shù)進(jìn)行調(diào)整,直至達(dá)到第一收斂條件。
34、可選地,所述預(yù)先訓(xùn)練的音頻大模型為初始的音頻大模型經(jīng)過模型預(yù)訓(xùn)練后再進(jìn)行模型微調(diào)得到的;經(jīng)過模型預(yù)訓(xùn)練后的音頻大模型的模型微調(diào)過程包括:
35、獲取第二樣本音頻,以及表征所述第二樣本音頻的采集環(huán)境中是否存在霸凌行為的第二標(biāo)簽;
36、提取所述第二樣本音頻的頻域特征,作為第二樣本特征;
37、將所述第二樣本特征輸入經(jīng)過模型預(yù)訓(xùn)練后的音頻大模型,得到表示所述第二樣本音頻的采集環(huán)境中是否存在霸凌行為的檢測結(jié)果;
38、基于得到的檢測結(jié)果與所述第二標(biāo)簽之間的差值,確定第二模型損失值;
39、基于所述第二模型損失值,對經(jīng)過模型預(yù)訓(xùn)練后的音頻大模型的指定模型參數(shù)進(jìn)行調(diào)整,直至達(dá)到第二收斂條件。
40、可選地,所述指定模型參數(shù)為除所述語義特征提取網(wǎng)絡(luò)的模型參數(shù)、所述情緒特征提取網(wǎng)絡(luò)的模型參數(shù)以及所述大語言模型的模型參數(shù)之外的模型參數(shù)。
41、可選地,所述方法還包括:
42、在確定出所述待檢測音頻的采集環(huán)境中存在霸凌行為時以第一報警方式進(jìn)行報警。
43、第二方面,本技術(shù)實施例提供了一種行為檢測方法,應(yīng)用于前端設(shè)備,所述方法包括:
44、采集當(dāng)前所處環(huán)境中的待檢測音頻,并提取所述待檢測音頻的頻域特征作為第一待檢測特征;
45、對所述第一待檢測特征進(jìn)行霸凌關(guān)鍵詞識別,得到表示所述待檢測音頻中是否包含霸凌關(guān)鍵詞的關(guān)鍵詞識別結(jié)果;
46、若所述關(guān)鍵詞識別結(jié)果表示所述待檢測音頻中包含霸凌關(guān)鍵詞,則向中心端設(shè)備發(fā)送待檢測數(shù)據(jù),以使所述中心端設(shè)備接收到所述待檢測數(shù)據(jù)后,利用預(yù)先訓(xùn)練的音頻大模型對所述待檢測數(shù)據(jù)進(jìn)行意圖識別,得到表示所述待檢測音頻的采集環(huán)境中是否存在霸凌行為的檢測結(jié)果。
47、可選地,對所述第一待檢測特征進(jìn)行霸凌關(guān)鍵詞識別,得到表示所述待檢測音頻中是否包含霸凌關(guān)鍵詞的關(guān)鍵詞識別結(jié)果,包括:
48、將所述第一待檢測特征輸入預(yù)先訓(xùn)練的關(guān)鍵詞識別網(wǎng)絡(luò),得到表示所述待檢測音頻中是否包含霸凌關(guān)鍵詞的關(guān)鍵詞識別結(jié)果。
49、可選地,所述方法還包括:
50、若所述關(guān)鍵詞識別結(jié)果表示所述待檢測音頻中包含霸凌關(guān)鍵詞,以第二報警方式進(jìn)行報警。
51、第三方面,本技術(shù)實施例提供了一種行為檢測系統(tǒng),所述系統(tǒng)包括中心端設(shè)備和前端設(shè)備;
52、所述中心端設(shè)備,用于執(zhí)行上述應(yīng)用于中心端設(shè)備的任一項所述的行為檢測方法;
53、所述前端設(shè)備,用于執(zhí)行上述應(yīng)用于前端設(shè)備的任一項所述的行為檢測方法。
54、可選地,所述前端設(shè)備為多個,且所述多個前端設(shè)備的部署位置不同;
55、每一前端設(shè)備,具體用于在關(guān)鍵詞識別結(jié)果表示待檢測音頻中包含霸凌關(guān)鍵詞的情況下,向所述中心端設(shè)備發(fā)送待檢測數(shù)據(jù)以及自身的位置信息;
56、所述中心端設(shè)備,還用于基于任一前端設(shè)備發(fā)送的待檢測數(shù)據(jù)確定出存在霸凌行為時,根據(jù)該前端設(shè)備的位置信息以第一報警方式進(jìn)行報警。
57、第四方面,本技術(shù)實施例提供了一種行為檢測裝置,應(yīng)用于中心端設(shè)備,所述裝置包括:
58、接收模塊,用于接收待檢測數(shù)據(jù);其中,所述待檢測數(shù)據(jù)為:前端設(shè)備對第一待檢測特征進(jìn)行霸凌關(guān)鍵詞識別,并在關(guān)鍵詞識別結(jié)果表示待檢測音頻中包含霸凌關(guān)鍵詞的情況下所上傳的,所述第一待檢測特征為:所述前端設(shè)備對當(dāng)前所處環(huán)境中采集到的待檢測音頻進(jìn)行頻域特征提取得到的,所述待檢測數(shù)據(jù)用于表征所述待檢測音頻;
59、意圖識別模塊,用于利用預(yù)先訓(xùn)練的音頻大模型對所述待檢測數(shù)據(jù)進(jìn)行意圖識別,得到表示所述待檢測音頻的采集環(huán)境中是否存在霸凌行為的檢測結(jié)果。
60、可選地,所述音頻大模型包括大語言模型和第一轉(zhuǎn)換模型,所述第一轉(zhuǎn)換模型包括用于提取上下文信息的語義特征提取網(wǎng)絡(luò);
61、所述意圖識別模塊,包括:
62、特征提取子模塊,用于利用所述語義特征提取網(wǎng)絡(luò)對所述待檢測數(shù)據(jù)進(jìn)行特征提取,得到第二待檢測特征;
63、模型處理子模塊,用于將基于所述第二待檢測特征得到的指定輸入特征,輸入所述大語言模型,得到表示所述待檢測音頻的采集環(huán)境中是否存在霸凌行為的檢測結(jié)果。
64、可選地,所述音頻大模型還包括第二轉(zhuǎn)換模型,所述第二轉(zhuǎn)換模型包括用于提取情感信息的情緒特征提取網(wǎng)絡(luò);
65、所述裝置還包括:
66、情緒特征提取模塊,用于在所述模型處理子模塊將基于所述第二待檢測特征得到的指定輸入特征,輸入所述大語言模型,得到表示所述待檢測音頻的采集環(huán)境中是否存在霸凌行為的檢測結(jié)果之前,利用所述情緒特征提取網(wǎng)絡(luò)對所述待檢測數(shù)據(jù)進(jìn)行特征提取,得到第三待檢測特征;
67、第一特征融合模塊,用于基于對所述第二待檢測特征和所述第三待檢測特征進(jìn)行特征融合,得到指定輸入特征。
68、可選地,所述語義特征提取網(wǎng)絡(luò)包括串聯(lián)的第一數(shù)量個語義特征提取層,所述第二轉(zhuǎn)換模型還包括第一融合網(wǎng)絡(luò),以及第二融合網(wǎng)絡(luò);
69、所述裝置還包括:
70、第一融合處理模塊,用于在所述模型處理子模塊將基于所述第二待檢測特征得到的指定輸入特征,輸入所述大語言模型,得到表示所述待檢測音頻的采集環(huán)境中是否存在霸凌行為的檢測結(jié)果之前,將所述語義特征提取網(wǎng)絡(luò)中前第二數(shù)量個語義特征提取層的輸出特征,輸入所述第一融合網(wǎng)絡(luò),得到第一融合特征;
71、所述第一特征融合模塊,包括:
72、第一融合子模塊,用于利用所述第二融合網(wǎng)絡(luò)對所述第一融合特征和所述第三待檢測特征進(jìn)行特征融合,得到第二融合特征;
73、第二融合子模塊,用于基于對所述第二待檢測特征和所述第二融合特征進(jìn)行特征融合,得到指定輸入特征。
74、可選地,所述第二融合網(wǎng)絡(luò)為交叉注意力網(wǎng)絡(luò);
75、所述第一融合子模塊,具體用于:
76、對所述第一融合特征進(jìn)行映射得到所述交叉注意力網(wǎng)絡(luò)的輸入數(shù)據(jù)中的查詢q和值v,以及對所述第三待檢測特征進(jìn)行映射得到所述交叉注意力網(wǎng)絡(luò)的輸入數(shù)據(jù)中的鍵k,并將得到的查詢q、值v和鍵k輸入至所述交叉注意力網(wǎng)絡(luò)進(jìn)行特征融合,得到第二融合特征。
77、可選地,所述語義特征提取網(wǎng)絡(luò)包括串聯(lián)的第一數(shù)量個語義特征提取層,所述音頻大模型還包括第二轉(zhuǎn)換模型,所述第二轉(zhuǎn)換模型包括第一融合網(wǎng)絡(luò);
78、所述裝置還包括:
79、第二融合處理模塊,用于在所述模型處理子模塊將基于所述第二待檢測特征得到的指定輸入特征,輸入所述大語言模型,得到表示所述待檢測音頻的采集環(huán)境中是否存在霸凌行為的檢測結(jié)果之前,將所述語義特征提取網(wǎng)絡(luò)中前第二數(shù)量個語義特征提取層的輸出特征,輸入所述第一融合網(wǎng)絡(luò),得到第一融合特征;
80、第二特征融合模塊,用于基于對所述第二待檢測特征和所述第一融合特征進(jìn)行特征融合,得到指定輸入特征。
81、可選地,所述待檢測數(shù)據(jù)為所述第一待檢測特征。
82、可選地,所述第一融合網(wǎng)絡(luò)為注意力池化網(wǎng)絡(luò),所述語義特征提取層為transformer?block。
83、可選地,所述預(yù)先訓(xùn)練的音頻大模型為初始的音頻大模型至少經(jīng)過模型預(yù)訓(xùn)練得到的;所述第二轉(zhuǎn)換模型的模型預(yù)訓(xùn)練過程包括:
84、獲取第一樣本音頻,以及表征所述第一樣本音頻的情緒類別的第一標(biāo)簽;
85、提取所述第一樣本音頻的頻域特征,作為第一樣本特征;
86、將所述第一樣本特征輸入初始的分類模型,得到所述第一樣本音頻的情緒分類結(jié)果;其中,初始的分類模型包含初始的第二轉(zhuǎn)換模型和分類網(wǎng)絡(luò),且初始的第二轉(zhuǎn)換模型的輸出數(shù)據(jù)作為所述分類網(wǎng)絡(luò)的輸入數(shù)據(jù);
87、基于得到的情緒分類結(jié)果與所述第一標(biāo)簽之間的差值,確定第一模型損失值;
88、基于所述第一模型損失值,對初始的分類模型的模型參數(shù)進(jìn)行調(diào)整,直至達(dá)到第一收斂條件。
89、可選地,所述預(yù)先訓(xùn)練的音頻大模型為初始的音頻大模型經(jīng)過模型預(yù)訓(xùn)練后再進(jìn)行模型微調(diào)得到的;經(jīng)過模型預(yù)訓(xùn)練后的音頻大模型的模型微調(diào)過程包括:
90、獲取第二樣本音頻,以及表征所述第二樣本音頻的采集環(huán)境中是否存在霸凌行為的第二標(biāo)簽;
91、提取所述第二樣本音頻的頻域特征,作為第二樣本特征;
92、將所述第二樣本特征輸入經(jīng)過模型預(yù)訓(xùn)練后的音頻大模型,得到表示所述第二樣本音頻的采集環(huán)境中是否存在霸凌行為的檢測結(jié)果;
93、基于得到的檢測結(jié)果與所述第二標(biāo)簽之間的差值,確定第二模型損失值;
94、基于所述第二模型損失值,對經(jīng)過模型預(yù)訓(xùn)練后的音頻大模型的指定模型參數(shù)進(jìn)行調(diào)整,直至達(dá)到第二收斂條件。
95、可選地,所述指定模型參數(shù)為除所述語義特征提取網(wǎng)絡(luò)的模型參數(shù)、所述情緒特征提取網(wǎng)絡(luò)的模型參數(shù)以及所述大語言模型的模型參數(shù)之外的模型參數(shù)。
96、可選地,所述裝置還包括:
97、第一報警模塊,用于在確定出所述待檢測音頻的采集環(huán)境中存在霸凌行為時以第一報警方式進(jìn)行報警。
98、第五方面,本技術(shù)實施例提供了一種行為檢測裝置,應(yīng)用于前端設(shè)備,所述裝置包括:
99、采集模塊,用于采集當(dāng)前所處環(huán)境中的待檢測音頻,并提取所述待檢測音頻的頻域特征作為第一待檢測特征;
100、關(guān)鍵詞識別模塊,用于對所述第一待檢測特征進(jìn)行霸凌關(guān)鍵詞識別,得到表示所述待檢測音頻中是否包含霸凌關(guān)鍵詞的關(guān)鍵詞識別結(jié)果;
101、發(fā)送模塊,用于若所述關(guān)鍵詞識別結(jié)果表示所述待檢測音頻中包含霸凌關(guān)鍵詞,則向中心端設(shè)備發(fā)送待檢測數(shù)據(jù),以使所述中心端設(shè)備接收到所述待檢測數(shù)據(jù)后,利用預(yù)先訓(xùn)練的音頻大模型對所述待檢測數(shù)據(jù)進(jìn)行意圖識別,得到表示所述待檢測音頻的采集環(huán)境中是否存在霸凌行為的檢測結(jié)果。
102、可選地,所述關(guān)鍵詞識別模塊,具體用于:
103、將所述第一待檢測特征輸入預(yù)先訓(xùn)練的關(guān)鍵詞識別網(wǎng)絡(luò),得到表示所述待檢測音頻中是否包含霸凌關(guān)鍵詞的關(guān)鍵詞識別結(jié)果。
104、可選地,所述裝置還包括:
105、第二報警模塊,用于若所述關(guān)鍵詞識別結(jié)果表示所述待檢測音頻中包含霸凌關(guān)鍵詞,以第二報警方式進(jìn)行報警。
106、第六方面,本技術(shù)實施例提供了一種電子設(shè)備,包括:
107、存儲器,用于存放計算機(jī)程序;
108、處理器,用于執(zhí)行存儲器上所存放的程序時,實現(xiàn)上述任一項所述的行為檢測方法。
109、第七方面,本技術(shù)實施例提供了一種計算機(jī)可讀存儲介質(zhì),所述計算機(jī)可讀存儲介質(zhì)內(nèi)存儲有計算機(jī)程序,所述計算機(jī)程序被處理器執(zhí)行時實現(xiàn)上述任一項所述的行為檢測方法。
110、第八方面,本技術(shù)實施例提供了一種計算機(jī)程序產(chǎn)品,所述計算機(jī)程序產(chǎn)品包含可執(zhí)行指令,當(dāng)所述可執(zhí)行指令在計算機(jī)上執(zhí)行時,使得計算機(jī)執(zhí)行上述任一項所述的行為檢測方法。
111、本技術(shù)實施例有益效果:
112、本技術(shù)實施例提供的方案,由于待檢測數(shù)據(jù)為前端設(shè)備在對第一檢測特征進(jìn)行霸凌關(guān)鍵詞識別后,關(guān)鍵詞識別結(jié)果表示待檢測音頻中包含霸凌關(guān)鍵詞的情況下所上傳的,因此,前端設(shè)備所上傳的待檢測數(shù)據(jù)為經(jīng)過前端設(shè)備初步檢測后可能存在霸凌行為的數(shù)據(jù)。中心端設(shè)備在接收到前端上傳的待檢測數(shù)據(jù)后利用預(yù)先訓(xùn)練的音頻大模型對待檢測數(shù)據(jù)進(jìn)行意圖識別,能夠進(jìn)一步分析出待檢測音頻所表達(dá)的真實意圖,從而更準(zhǔn)確地確定待檢測音頻的采集環(huán)境中是否存在霸凌行為??梢?,本方案通過前端設(shè)備和中心端設(shè)備相互配合,能夠有效檢測出霸凌行為。
113、當(dāng)然,實施本技術(shù)的任一產(chǎn)品或方法并不一定需要同時達(dá)到以上所述的所有優(yōu)點。