本發(fā)明涉及行為識別,更具體的說是涉及一種基于目標檢測模型的行為檢測方法及系統(tǒng)。
背景技術:
1、在現代社會,大多數年輕人在白天需要工作,導致家里可能只留有年齡超過65歲以上的老人,老人之所以容易摔倒,一般有兩種原因,第一種是由于自身疾病導致,例如,由于心臟病所引發(fā)的突然昏迷,或者腦梗等原因導致的突然昏迷,或漸凍癥患者,另一種是由于行走時沒有注意導致的被家里的物件絆倒導致的物理損傷。
2、然而,現有的摔倒檢測方法,由于背景環(huán)境復雜對于被監(jiān)控人員的摔倒檢測延后,會無法識別;甚至當視覺檢測環(huán)境不佳時,如檢測光線變化、老人站立角度等情形下,骨架坐標容易提取錯誤或無法提取,此時行為檢測效果將受到嚴重影響,會導致檢測結果不準確;此外,骨架坐標僅能反應靜態(tài)信息,不能全面反應摔倒行為,且其檢測模型未進行及時、有效地更新,一直保持初始建模狀態(tài),檢測模型的檢測識別精度有待進一步提高。
3、因此,如何提供一種檢測效率高且檢測準確的基于目標檢測模型的行為檢測方法及系統(tǒng)是本領域技術人員亟需解決的問題。
技術實現思路
1、有鑒于此,本發(fā)明提供了基于目標檢測模型的行為檢測方法及系統(tǒng),以解決現有技術的問題。
2、為了實現上述目的,本發(fā)明采用如下技術方案:
3、本發(fā)明公開了基于目標檢測模型的行為檢測方法,包括:
4、獲取拍攝的目標視頻,從所述目標視頻中得到目標待分析視頻,將所述目標待分析視頻分為n個片段,并從每個所述片段中隨機抽取一幀圖像作為待識別圖像,其中,n為大于1的整數;
5、構建改進的yolov10模型,所述改進的yolov10模型在傳統(tǒng)yolov10模型增加一個一對一的頭部,在訓練過程中,兩個一對一頭部與一個一對多頭部與模型一起優(yōu)化,允許backbone和neck享受由一對多賦值提供的豐富監(jiān)督,在推理過程中,丟棄一對多頭部,使用兩個一對一頭部進行預測,在每幀圖像獲取兩個不同尺度的候選區(qū)域;分別為背景候選框和目標候選框;所述目標候選框包括第一追蹤目標,所述背景候選框包括所述目標候選框在內的待預測所述第一跟蹤目標的位置的圖像;
6、所述背景候選框和目標候選框輸入行為識別模型中的第一特征提取網絡中,得到所述背景候選框的第一特征圖以及所述目標候選框的第二特征圖;
7、將所述第一特征圖以及所述第二特征圖輸入至所述行為識別模型中的第一預測網絡,得到所述第一預測網絡對應的第一預測圖,其中,所述第一預測網絡包括串行的m個關鍵點預測單元,所述第一預測圖用于指示所述第一跟蹤目標在所述背景候選框上的預測位置,m為大于1的整數;根據所述第一預測圖,在所述背景候選框上標注所述第一跟蹤目標的位置;
8、根據連續(xù)幀中第一跟蹤目標位置的變化,確定第一跟蹤目標的姿態(tài)。
9、優(yōu)選的,在上述的基于目標檢測模型的行為檢測方法中,改進的yolov10模型包括:在傳統(tǒng)yolov10模型基礎上在頭部網絡中增加一個一對一檢測頭;所述頭部網絡,包括第一一對一檢測頭、第二一對一檢測頭和一對多檢測頭;
10、第一一對一檢測頭、第二一對一檢測頭保留與原始一對多分支相同的結構并采用相同的優(yōu)化目標;在訓練過程中,三個檢測頭與模型共同優(yōu)化;在推理過程中,丟棄一對多的檢測頭,并利用第一一對一檢測頭、第二一對一檢測頭進行預測,得到背景候選框和目標候選框。
11、優(yōu)選的,在上述的基于目標檢測模型的行為檢測方法中,將所述第一特征圖以及所述第二特征圖輸入至所述行為識別模型中的第一預測網絡,得到所述第一預測網絡對應的第一預測圖,包括:
12、利用所述第一預測網絡中的每個關鍵點預測單元對輸入數據進行處理,得到所述目標候選框的第三特征圖以及所述背景候選框對應的融合圖,其中,第l+1個關鍵點預測單元的輸入數據為第l個關鍵點預測單元得到的所述融合圖以及所述第三特征圖,l∈{1,2,…m},所述融合圖用于指示所述第一跟蹤目標在所述背景候選框上的預測關鍵點;
13、對第m個關鍵點預測單元得到的特征圖分別進行降低通道數量的運算,得到所述第一預測圖。
14、優(yōu)選的,在上述的基于目標檢測模型的行為檢測方法中,利用所述第一預測網絡中的每個關鍵點預測單元對輸入數據進行處理,得到所述目標候選框的第三特征圖以及所述背景候選框對應的融合圖,包括:
15、利用所述第一預測網絡的第一關鍵點預測單元的第一卷積運算單元對第一目標圖進行卷積運算,得到所述目標候選框的第三特征圖;
16、利用所述第一關鍵點預測單元的第二卷積運算單元對第二目標圖進行卷積運算,得到所述背景候選框的第四特征圖;
17、利用所述第一關鍵點預測單元中的互相關運算單元,對所述第三特征圖和所述第四特征圖進行互相關運算,得到融合圖;
18、其中,所述第一關鍵點預測單元為所述第一預測網絡的第s個關鍵點預測單元,s∈{1,2,…m},在s=1的情況下,所述第一目標圖為所述第一特征圖,所述第二目標圖為所述第二特征圖;在s≠1的情況下,所述第一目標圖為輸入至所述第一關鍵點預測單元的融合圖,所述第二目標圖為輸入至所述第一關鍵點預測單元的第三特征圖。
19、優(yōu)選的,在上述的基于目標檢測模型的行為檢測方法中,利用所述第一關鍵點預測單元中的互相關運算單元,對所述第三特征圖和所述第四特征圖進行互相關運算,得到融合圖之前,所述方法還包括:
20、利用所述第一卷積運算單元將所述第三特征圖輸入至所述第一關鍵點預測單元中的第三卷積運算單元;
21、利用所述第三卷積運算單元調整所述第三特征圖的數據尺寸,并使調整后的第三特征圖的數據尺寸與所述第四特征圖的數據尺寸之間的比例在預定范圍內;
22、將數據尺寸調整后的第三特征圖輸入至所述互相關運算單元。
23、優(yōu)選的,在上述的基于目標檢測模型的行為檢測方法中,在頭部網絡中增加第一一對一檢測頭、第二一對一檢測頭,引入cib模塊,在第一一對一檢測頭的cib模塊的第二個3×3深度卷積的核大小增加到7×7,用于獲取背景候選框。
24、另一方面,本發(fā)明公開了基于目標檢測模型的行為檢測系統(tǒng),應用所述方法,包括:
25、獲取模塊,獲取拍攝的目標視頻,從所述目標視頻中得到目標待分析視頻,將所述目標待分析視頻分為n個片段,并從每個所述片段中隨機抽取一幀圖像作為待識別圖像,其中,n為大于1的整數;
26、構建模塊,構建改進的yolov10模型,所述改進的yolov10模型在傳統(tǒng)yolov10模型增加一個一對一的頭部,在訓練過程中,兩個一對一頭部與一個一對多頭部與模型一起優(yōu)化,允許backbone和neck享受由一對多賦值提供的豐富監(jiān)督,在推理過程中,丟棄一對多頭部,使用兩個一對一頭部進行預測,在每幀圖像獲取兩個不同尺度的候選區(qū)域;分別為背景候選框和目標候選框;所述目標候選框包括第一追蹤目標,所述背景候選框包括所述目標候選框在內的待預測所述第一跟蹤目標的位置的圖像;
27、輸入模塊,所述背景候選框和目標候選框輸入行為識別模型中的第一特征提取網絡中,得到所述背景候選框的第一特征圖以及所述目標候選框的第二特征圖;
28、處理模塊,將所述第一特征圖以及所述第二特征圖輸入至所述行為識別模型中的第一預測網絡,得到所述第一預測網絡對應的第一預測圖,其中,所述第一預測網絡包括串行的m個關鍵點預測單元,所述第一預測圖用于指示所述第一跟蹤目標在所述背景候選框上的預測位置,m為大于1的整數;根據所述第一預測圖,在所述背景候選框上標注所述第一跟蹤目標的位置;
29、輸出模塊,根據連續(xù)幀中第一跟蹤目標位置的變化,確定第一跟蹤目標的姿態(tài)。
30、優(yōu)選的,在上述的基于目標檢測模型的行為檢測系統(tǒng)中,構建模塊中,所述頭部網絡,包括第一一對一檢測頭、第二一對一檢測頭和一對多檢測頭;
31、第一一對一檢測頭、第二一對一檢測頭保留與原始一對多分支相同的結構并采用相同的優(yōu)化目標;在訓練過程中,三個檢測頭與模型共同優(yōu)化;在推理過程中,丟棄一對多的檢測頭,并利用第一一對一檢測頭、第二一對一檢測頭進行預測,得到背景候選框和目標候選框。
32、優(yōu)選的,在上述的基于目標檢測模型的行為檢測系統(tǒng)中,在頭部網絡中增加第一一對一檢測頭、第二一對一檢測頭,引入cib模塊,在第一一對一檢測頭的cib模塊的第二個3×3深度卷積的核大小增加到7×7,用于獲取背景候選框。
33、經由上述的技術方案可知,與現有技術相比,本發(fā)明公開提供了一種基于目標檢測模型的行為檢測方法及系統(tǒng),利用改進的yolov10模型在head部分,創(chuàng)造性地融合兩個一對一檢測頭和一個一對多檢測頭,既利用了一對多檢測頭豐富的監(jiān)督信號來訓練優(yōu)化模型參數保證模型的精度,又采取一對一檢測頭進行推斷來避免nms后處理從而提高推斷速度。其中利用兩個一對一檢測頭分別得到背景候選框和目標候選框,通過行為識別模型對背景候選框和目標候選框進行處理,得到第一預測網絡對應的第一預測圖,根據所述第一預測圖,在所述背景候選框上標注所述第一跟蹤目標的位置;根據連續(xù)幀中第一跟蹤目標位置的變化,確定第一跟蹤目標的姿態(tài)。由此實現了在背景候選框上對跟蹤目標進行跟蹤。面對不同場景,不需要確定不同的錨點框選取方案,目標跟蹤方法的適用性更好。