本申請涉及圖像處理,特別是涉及一種基于多模態(tài)信息的吸毒特征檢測方法、裝置和計算機設備。
背景技術:
1、目前,吸毒檢測技術往往是通過毛發(fā)、血液、尿液等生物檢材對受檢測人員是否吸毒進行識別。但是,這些方法存在以下缺點:(1)采集用于檢測的生物檢材的過程需要受檢測人員密切配合,較為繁瑣,同時受檢測人員會有一定的心理負擔;(2)檢測過程需要用到特殊的化學試劑和專業(yè)設備,成本較高;(3)檢測流程耗時較長,效率不高;(4)不太適用于針對海量人員的吸毒情況進行快速篩查。
2、圖像處理技術在特征檢測上的應用已經(jīng)非常廣泛,通過特征檢測,可以從圖像或視頻序列中提取出關鍵信息,如物體的形狀、顏色、位置等,為后續(xù)的目標識別、行為分析等任務提供支持。同時,隨著深度學習的發(fā)展,出現(xiàn)了利用吸毒者面部痙攣、精神萎靡等面部表情進行吸毒特征檢測的方法,根據(jù)檢測結(jié)果識別毒癮發(fā)作的行為,為戒毒所提供智能化與自動化管理方法。在基于圖像處理技術進行吸毒特征檢測的研究過程中,人們往往僅從面部表情圖像中檢測其中含有的吸毒特征,而很少關注視頻中的其他特征如言語特征,僅依據(jù)面部表情進行吸毒特征檢測會漏掉一些關鍵特征,導致檢測結(jié)果不夠準確。
技術實現(xiàn)思路
1、基于此,有必要針對上述技術問題,提供一種基于多模態(tài)信息的吸毒特征檢測方法、裝置和計算機設備。
2、一種基于多模態(tài)信息的吸毒特征檢測方法,方法包括:
3、輸入待檢測視頻圖像。
4、獲取待檢測視頻圖像中的目標人物的人臉表情圖像和語音信號。
5、對語音信號進行預處理后進行語音特征提取,得到語音模態(tài)特征。
6、采用輕量級深度學習神經(jīng)網(wǎng)絡提取人臉表情圖像的人臉表情模態(tài)特征。
7、根據(jù)語音模態(tài)特征和人臉表情模態(tài)特征,采用交叉注意力機制,得到語音模態(tài)交互特征和人臉表情模態(tài)交互特征。
8、將語音模態(tài)交互特征、人臉表情模態(tài)交互特征、語音模態(tài)特征以及人臉表情模態(tài)特征采用門控機制進行融合,得到多模態(tài)綜合特征。
9、以多模態(tài)綜合特征為輸入,采用雙向長短期記憶網(wǎng)絡為分類器檢測吸毒特征。
10、在其中一個實施例中,對語音信號進行預處理后進行語音特征提取,得到語音模態(tài)特征,包括:
11、對語音信號進行預加重處理后按照預設時間長度進行分割,得到多幀語音信號;
12、對每幀語音信號進行加窗處理,得到每幀預處理后的語音信號;
13、根據(jù)預處理后的語音信號進行語音特征提取,得到多種語音特征;多種語音特征分別為:共振峰、mfcc系數(shù)、基音頻率、短時過零率以及短時能量;
14、將所有語音特征進行串聯(lián)拼接,得到語音模態(tài)特征。
15、在其中一個實施例中,對每幀語音信號進行加窗處理,得到每幀預處理后的語音信號,包括:
16、采用漢明窗對每幀語音信號進行加窗處理,得到每幀預處理后的語音信號。
17、在其中一個實施例中,輕量級深度學習神經(jīng)網(wǎng)絡包括1個標準卷積層、1個權重稀疏化層、3個深度可分離卷積層、1個全局平均池化層以及1個全連接層。
18、在其中一個實施例中,根據(jù)語音模態(tài)特征和人臉表情模態(tài)特征,采用交叉注意力機制,得到語音模態(tài)交互特征和人臉表情模態(tài)交互特征為:
19、;
20、;
21、其中,、分別表示語音模態(tài)交互特征和人臉表情模態(tài)交互特征,為語音模態(tài)特征,為人臉表情模態(tài)特征,、、、、、為六個自適應系數(shù)矩陣,表示點積,表示鍵向量的維度,softmax表示歸一化函數(shù),、分別表示語音模態(tài)特征和人臉表情模態(tài)特征的查詢向量,,,、分別表示語音模態(tài)特征和人臉表情模態(tài)特征的鍵矩陣,,,、分別表示語音模態(tài)特征和人臉表情模態(tài)特征的值矩陣,,。
22、在其中一個實施例中,將語音模態(tài)交互特征、人臉表情模態(tài)交互特征、語音模態(tài)特征以及人臉表情模態(tài)特征采用門控機制進行融合,得到多模態(tài)綜合特征為:
23、;
24、其中,為多模態(tài)綜合特征,、分別表示語音模態(tài)交互特征和人臉表情模態(tài)交互特征,為語音模態(tài)特征,為人臉表情模態(tài)特征,表示門控函數(shù),其定義為, g為門控參數(shù)。
25、一種基于多模態(tài)信息的吸毒特征檢測裝置,裝置包括:
26、多模態(tài)數(shù)據(jù)獲取模塊,用于輸入待檢測視頻圖像;獲取待檢測視頻圖像中的目標人物的人臉表情圖像和語音信號。
27、語音模態(tài)特征提取模塊,用于對語音信號進行預處理后進行語音特征提取,得到語音模態(tài)特征。
28、人臉表情模態(tài)特征提取模塊,用于采用輕量級深度學習神經(jīng)網(wǎng)絡提取人臉表情圖像的人臉表情模態(tài)特征。
29、交互特征提取模塊,用于根據(jù)語音模態(tài)特征和人臉表情模態(tài)特征,采用交叉注意力機制,得到語音模態(tài)交互特征和人臉表情模態(tài)交互特征。
30、多模態(tài)綜合特征提取模塊,用于將語音模態(tài)交互特征、人臉表情模態(tài)交互特征、語音模態(tài)特征以及人臉表情模態(tài)特征采用門控機制進行融合,得到多模態(tài)綜合特征。
31、檢測吸毒特征模塊,用于以多模態(tài)綜合特征為輸入,采用雙向長短期記憶網(wǎng)絡為分類器檢測吸毒特征。
32、一種計算機設備,包括存儲器和處理器,所述存儲器存儲有計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)以下步驟:
33、輸入待檢測視頻圖像。
34、獲取待檢測視頻圖像中的目標人物的人臉表情圖像和語音信號。
35、對語音信號進行預處理后進行語音特征提取,得到語音模態(tài)特征。
36、采用輕量級深度學習神經(jīng)網(wǎng)絡提取人臉表情圖像的人臉表情模態(tài)特征。
37、根據(jù)語音模態(tài)特征和人臉表情模態(tài)特征,采用交叉注意力機制,得到語音模態(tài)交互特征和人臉表情模態(tài)交互特征。
38、將語音模態(tài)交互特征、人臉表情模態(tài)交互特征、語音模態(tài)特征以及人臉表情模態(tài)特征采用門控機制進行融合,得到多模態(tài)綜合特征。
39、以多模態(tài)綜合特征為輸入,采用雙向長短期記憶網(wǎng)絡為分類器檢測吸毒特征。
40、上述基于多模態(tài)信息的吸毒特征檢測方法、裝置和計算機設備,屬于圖像處理技術,所述方法對視頻圖像進行處理,提取視頻圖像中的目標人物的人臉表情圖像和語音信號,利用語音信號和人臉表情圖像兩種模態(tài),基于深度學習的方式對吸毒特征進行檢測。利用的語音和人臉表情圖像的采集都是非接觸式的,受檢測人員沒有抵觸心理,且采集過程簡單高效;使用交叉注意力機制融合語音模態(tài)特征和人臉表情模態(tài)特征,使得模型更關注重要的特征再進行特征增強融合,從而增強每種模態(tài)的表示能力,提高吸毒特征提取的準確性。將本方法用于吸毒人員檢測,使檢測過程達到秒級,提高檢測效率,適用于針對海量人員的吸毒情況進行快速篩查。
1.一種基于多模態(tài)信息的吸毒特征檢測方法,其特征在于,所述方法包括:
2.根據(jù)權利要求1所述的基于多模態(tài)信息的吸毒特征檢測方法,其特征在于,對所述語音信號進行預處理后進行語音特征提取,得到語音模態(tài)特征,包括:
3.根據(jù)權利要求2所述的基于多模態(tài)信息的吸毒特征檢測方法,其特征在于,對每幀語音信號進行加窗處理,得到每幀預處理后的語音信號,包括:
4.根據(jù)權利要求1所述的基于多模態(tài)信息的吸毒特征檢測方法,其特征在于,所述輕量級深度學習神經(jīng)網(wǎng)絡包括1個標準卷積層、1個權重稀疏化層、3個深度可分離卷積層、1個全局平均池化層以及1個全連接層。
5.根據(jù)權利要求1所述的基于多模態(tài)信息的吸毒特征檢測方法,其特征在于,根據(jù)所述語音模態(tài)特征和所述人臉表情模態(tài)特征,采用交叉注意力機制,得到語音模態(tài)交互特征和人臉表情模態(tài)交互特征為:
6.根據(jù)權利要求1所述的基于多模態(tài)信息的吸毒特征檢測方法,其特征在于,將所述語音模態(tài)交互特征、所述人臉表情模態(tài)交互特征、所述語音模態(tài)特征以及所述人臉表情模態(tài)特征采用門控機制進行融合,得到多模態(tài)綜合特征為:
7.一種基于多模態(tài)信息的吸毒特征檢測裝置,其特征在于,所述裝置包括:
8.一種計算機設備,包括存儲器和處理器,所述存儲器存儲有計算機程序,其特征在于,所述處理器執(zhí)行所述計算機程序時實現(xiàn)權利要求1至6中任一項所述的基于多模態(tài)信息的吸毒特征檢測方法。