本發(fā)明屬于基于深度學(xué)習(xí)的視頻分析,具體涉及一種基于視頻分析的可疑人員檢測方法和裝置。
背景技術(shù):
1、隨著公共安全需求的日益增長,可疑人員檢測技術(shù)已成為安防領(lǐng)域的關(guān)鍵技術(shù)之一。在智能化和信息化浪潮的推動下,計算機(jī)視覺技術(shù)迅速發(fā)展,傳統(tǒng)的依賴人工監(jiān)控來判斷可疑人員的方式已逐漸被自動化檢測系統(tǒng)所取代,當(dāng)前,基于視頻分析技術(shù)的可疑人員檢測方案層出不窮,主要分為以下幾類:
2、(1)基于身份識別的可疑人員檢測:此類方法利用人臉識別技術(shù),在實時視頻中快速捕捉并識別個體身份,將出現(xiàn)頻次高的陌生人判斷為可疑人員;
3、(2)基于外觀特征的可疑人員檢測:此類方法通過判斷人員的衣著特征、面部遮擋程度等視覺特征來判斷可疑人員;
4、(3)基于行為識別的可疑人員檢測:此類方法通過判斷人員的行為特征進(jìn)行可疑人員識別,主要包括a)行動軌跡分析:通過分析人員行動軌跡,將存在徘徊行為的人員判斷為可疑人員;b)重點(diǎn)區(qū)域監(jiān)控:通過劃定重點(diǎn)區(qū)域,將入侵該區(qū)域的人員歸為可疑人員;c)行為模式識別:通過行為識別算法對人員的行為進(jìn)行分類,將有可疑行為的人員判斷為可疑人員。
5、盡管這些方法在一定程度上減低了人工監(jiān)控的成本,提高了檢測的準(zhǔn)確性和效率,但仍存在一些局限性和挑戰(zhàn):
6、(1)檢測精度較低:目前存在的方法檢測精度較低,容易受到干擾?,F(xiàn)有的基于身份識別的可疑人員檢測和基于外觀特征的可疑人員檢測很容易受到人員角度、光線變化以及遮擋物的影響,導(dǎo)致誤報、漏報頻發(fā)。而現(xiàn)有的基于行為識別的可疑人員檢測方法對行為模式的識別多局限于簡單的統(tǒng)計分析,缺乏對復(fù)雜行為模式的深入理解和分析,尤其是在識別細(xì)微、連續(xù)和復(fù)雜的行為模式時,現(xiàn)有技術(shù)顯得力不從心;
7、(2)可疑人員處理措施不夠完善:現(xiàn)有的可疑人員識別系統(tǒng)多依賴于預(yù)設(shè)的閾值或規(guī)則進(jìn)行判斷,缺乏對可疑程度的動態(tài)評估和分級響應(yīng)機(jī)制,這導(dǎo)致所有可疑行為可能被同等對待,這不僅增加了安保人員的負(fù)擔(dān),也降低了響應(yīng)的針對性和效率。
8、因此,可疑人員檢測技術(shù)雖已取得顯著成就,但仍需在檢測精度和處理措施等方面持續(xù)探索與創(chuàng)新,以更好地服務(wù)于社會公共安全需求。
技術(shù)實現(xiàn)思路
1、鑒于上述,本發(fā)明的目的是提供一種基于視頻分析的可疑人員檢測方法和裝置,通過結(jié)合目標(biāo)檢測算法和跟蹤算法實現(xiàn)高效和準(zhǔn)確的人員及可疑物品的目標(biāo)檢測和跟蹤,并且提出了一種基于大型預(yù)訓(xùn)練模型clip和遷移學(xué)習(xí)構(gòu)建的行為識別算法sideactionclip對跟蹤到的人員進(jìn)行精確的行為識別分析,并將人員行為識別結(jié)果及可疑物品目標(biāo)檢測結(jié)果與多級可疑行為表進(jìn)行匹配評估其可疑程度,并發(fā)出不同嚴(yán)重等級的報警信號。該方法在高安全性和高保密要求的場景中表現(xiàn)優(yōu)異,能夠有效提高可疑人員檢測精度并進(jìn)一步完善可疑人員處理措施,能夠為公共安全提供有力保障。
2、為實現(xiàn)上述發(fā)明目的,本發(fā)明提供的技術(shù)方案如下:
3、第一方面,本發(fā)明實施例提供的一種基于視頻分析的可疑人員檢測方法,包括以下步驟:
4、通過目標(biāo)檢測算法對視頻幀進(jìn)行目標(biāo)檢測得到人員目標(biāo)檢測結(jié)果和可疑物品目標(biāo)檢測結(jié)果;
5、通過跟蹤算法對人員目標(biāo)檢測結(jié)果進(jìn)行前后幀關(guān)聯(lián)得到人員跟蹤結(jié)果;
6、通過基于大型預(yù)訓(xùn)練模型clip和遷移學(xué)習(xí)構(gòu)建的行為識別算法sideactionclip對人員跟蹤結(jié)果進(jìn)行識別得到人員行為識別結(jié)果,包括:將人員跟蹤結(jié)輸入經(jīng)2d卷積層后通過大型預(yù)訓(xùn)練模型clip的圖像編碼器進(jìn)行特征提取,將人員跟蹤結(jié)果輸入第一3d卷積層后與圖像編碼器提取到的特征進(jìn)行融合,將融合特征輸入側(cè)網(wǎng)絡(luò)模塊中進(jìn)一步提取特征后依次經(jīng)平均池化層、線性層和softmax層最終得到人員行為識別結(jié)果;
7、將人員行為識別結(jié)果和可疑物品目標(biāo)檢測結(jié)果與預(yù)設(shè)的多級可疑行為表進(jìn)行匹配,根據(jù)匹配結(jié)果評估行為的可疑等級并發(fā)出相應(yīng)的報警信號。
8、優(yōu)選地,目標(biāo)檢測算法采用yolo模型,yolo模型包括:主干網(wǎng)絡(luò)、頸部網(wǎng)絡(luò)和頭部網(wǎng)絡(luò),首先將視頻幀輸入主干網(wǎng)絡(luò)提取特征,再通過頸部網(wǎng)絡(luò)將來自主干網(wǎng)絡(luò)不同階段的特征進(jìn)行融合,最后將融合后的特征送入頭部網(wǎng)絡(luò)生成人員目標(biāo)檢測結(jié)果和可疑物品目標(biāo)檢測結(jié)果。
9、優(yōu)選地,跟蹤算法采用bytetrack算法,bytetrack算法包括:首先將人員目標(biāo)檢測結(jié)果中大于等于設(shè)定閾值的高置信度檢測框與已有軌跡進(jìn)行匹配,然后對于未匹配成功的軌跡利用人員目標(biāo)檢測結(jié)果中小于設(shè)定閾值的低置信度檢測框進(jìn)行二次匹配,最后通過連續(xù)幀之間軌跡的匹配與更新機(jī)制得到連貫的人員跟蹤結(jié)果。
10、優(yōu)選地,大型預(yù)訓(xùn)練模型clip的圖像編碼器采用基于vision?transformer構(gòu)建的至少一層vit模塊,每層vit模塊的結(jié)構(gòu)包括:依次連接的第一歸一化層、第一多頭自注意力模塊、第二歸一化層和第一多層感知機(jī)模塊,在第一歸一化層的輸入端和第一多頭自注意力模塊的輸出端之間建立第一殘差連接,在第二歸一化層的輸入端和第一多層感知機(jī)模塊的輸出端之間建立第二殘差連接,公式表示為:
11、zl′=msa1(ln1(zl-1))+zl-1
12、zl=mlp1(ln2(zl′))+zl′
13、其中,ln1(·)和ln2(·)分別表示第一歸一化層和第二歸一化層,msa1(·)表示第一多頭自注意力模塊,mlp1(·)表示第一多層感知機(jī)模塊,zl-1表示第l-1層vit模塊的輸出,當(dāng)l為1時z0表示2d卷積層的輸出,zl′表示第l層vit模塊中第一多頭自注意力模塊的輸出與zl-1經(jīng)過第一殘差連接后的輸出,zl表示第l層vit模塊中第一多層感知機(jī)模塊的輸出與zl′經(jīng)過第二殘差連接后的輸出,zl即為第l層vit模塊的輸出。
14、優(yōu)選地,構(gòu)建至少一層側(cè)網(wǎng)絡(luò)模塊,每層側(cè)網(wǎng)絡(luò)模塊的結(jié)構(gòu)包括:依次連接的時空卷積模塊、第三歸一化層、第二多頭自注意力模塊、第四歸一化層和第二多層感知機(jī)模塊,在時空卷積模塊的輸入端和輸出端之間建立第三殘差連接,在第三歸一化層的輸入端和第二多頭自注意力模塊的輸出端之間建立第四殘差連接,在第四歸一化層的輸入端和第二多層感知機(jī)模塊的輸出端之間建立第五殘差連接,公式表示為:
15、yl′=y(tǒng)l-1+zl
16、yl″=temporal(yl′)+yl′
17、yl″′=msa2(ln3(yl″))+yl″
18、yl=mlp2(ln4(yl″′))+yl″′
19、其中,temporal(·)表示時空卷積模塊,ln3(·)和ln4(·)分別表示第三歸一化層和第四歸一化層,msa2(·)表示第二多頭自注意力模塊,mlp2(·)表示第二多層感知機(jī)模塊,zl表示第l層vit模塊的輸出,yl-1表示第l-1層側(cè)網(wǎng)絡(luò)模塊的輸出,當(dāng)l為1時y0表示第一3d卷積層的輸出,yl′表示第l層側(cè)網(wǎng)絡(luò)模塊的輸入,yl″表示第l層時空卷積模塊的輸出與yl′經(jīng)過第三殘差連接后的輸出,yl″′表示第l層中第二多頭自注意力模塊的輸出與yl″經(jīng)過第四殘差連接后的輸出,yl表示第l層中第二多層感知機(jī)模塊的輸出與yl″′經(jīng)過第五殘差連接后的輸出,yl即為第l層側(cè)網(wǎng)絡(luò)模塊的輸出。
20、優(yōu)選地,時空卷積模塊的結(jié)構(gòu)包括:依次連接的第二3d卷積層、2d時間自適應(yīng)卷積層和第三3d卷積層;
21、2d時間自適應(yīng)卷積層的結(jié)構(gòu)包括:依次連接的空間全局平均池化層、時間全局平均池化層、全連接層、第一1d卷積層、批歸一化層、relu層和第二1d卷積層,在時間全局平均池化層的輸入端和全連接層的輸出端之間建立第六殘差連接,將第二1d卷積層的輸出作為2d時間自適應(yīng)卷積層的校準(zhǔn)權(quán)重,將校準(zhǔn)權(quán)重加1后再與2d時間自適應(yīng)卷積層的基礎(chǔ)權(quán)重相乘得到2d時間自適應(yīng)卷積層的每一幀的卷積權(quán)重。
22、優(yōu)選地,多級可疑行為表中的內(nèi)容包括:可疑等級、與各可疑等級對應(yīng)的可疑行為、以及與各可疑行為對應(yīng)的可疑物品,并對每個可疑等級添加供安保人員參考的應(yīng)對措施說明。
23、第二方面,為實現(xiàn)上述發(fā)明目的,本發(fā)明實施例還提供了一種基于視頻分析的可疑人員檢測裝置,包括:目標(biāo)檢測單元、目標(biāo)跟蹤單元、行為識別單元和匹配報警單元;
24、所述目標(biāo)檢測單元用于通過目標(biāo)檢測算法對視頻幀進(jìn)行目標(biāo)檢測得到人員目標(biāo)檢測結(jié)果和可疑物品目標(biāo)檢測結(jié)果;
25、所述目標(biāo)跟蹤單元用于通過跟蹤算法對人員目標(biāo)檢測結(jié)果進(jìn)行前后幀關(guān)聯(lián)得到人員跟蹤結(jié)果;
26、所述行為識別單元用于通過基于大型預(yù)訓(xùn)練模型clip和遷移學(xué)習(xí)構(gòu)建的行為識別算法對人員跟蹤結(jié)果進(jìn)行識別得到人員行為識別結(jié)果,包括:將人員跟蹤結(jié)輸入經(jīng)2d卷積層后通過大型預(yù)訓(xùn)練模型clip的圖像編碼器進(jìn)行特征提取,將人員跟蹤結(jié)果輸入第一3d卷積層后與圖像編碼器提取到的特征進(jìn)行融合,將融合特征輸入側(cè)網(wǎng)絡(luò)模塊中進(jìn)一步提取特征后依次經(jīng)平均池化層、線性層和softmax層最終得到人員行為識別結(jié)果;
27、所述匹配報警單元用于將人員行為識別結(jié)果和可疑物品目標(biāo)檢測結(jié)果與預(yù)設(shè)的多級可疑行為表進(jìn)行匹配,根據(jù)匹配結(jié)果評估行為的可疑等級并發(fā)出相應(yīng)的報警信號。
28、第三方面,為實現(xiàn)上述發(fā)明目的,本發(fā)明實施例還提供了一種基于視頻分析的可疑人員檢測設(shè)備,包括存儲器和一種或多種處理器,所述存儲器用于存儲計算機(jī)程序,所述處理器用于當(dāng)執(zhí)行所述計算機(jī)程序時,實現(xiàn)上述的基于視頻分析的可疑人員檢測方法。
29、第四方面,為實現(xiàn)上述發(fā)明目的,本發(fā)明實施例還提供了一種計算機(jī)可讀的存儲介質(zhì),所述存儲介質(zhì)上存儲有計算機(jī)程序,當(dāng)所述計算機(jī)程序被計算機(jī)執(zhí)行時,實現(xiàn)上述的基于視頻分析的可疑人員檢測方法。
30、與現(xiàn)有技術(shù)相比,本發(fā)明具有的有益效果至少包括:
31、(1)本發(fā)明通過目標(biāo)檢測算法和跟蹤算法對視頻幀進(jìn)行目標(biāo)檢測和人員跟蹤,并結(jié)合行為識別算法進(jìn)行可疑人員行為分析,避免了基于身份識別和外觀特征的可疑人員檢測方法容易受到人員角度、光線變化以及遮擋物的影響導(dǎo)致誤報和漏報頻發(fā)的問題,提高了可疑人員檢測效率和精度。
32、(2)本發(fā)明提出了一種基于大型預(yù)訓(xùn)練模型clip和遷移學(xué)習(xí)的行為識別算法sideactionclip,通過將大型預(yù)訓(xùn)練圖像模型遷移到視頻行為識別任務(wù),能夠使其深入理解和分析人員行為,從而得到精確的行為識別結(jié)果,提高可疑人員檢測的精度。
33、(3)本發(fā)明將人員行為識別結(jié)果和可疑物品目標(biāo)檢測結(jié)果與預(yù)設(shè)的多級可疑行為表進(jìn)行匹配,將可疑程度分級,評估行為的可疑程度,并發(fā)出相應(yīng)嚴(yán)重等級的報警信號,這樣的分級處理方式避免了所有可疑行為被同等對待的情況,大大減輕了安保人員的負(fù)擔(dān),同時提高了響應(yīng)的針對性和效率,進(jìn)一步完善了可疑人員處理措施,為公共安全提供了有力保障。