本發(fā)明屬于計算機視覺、模式識別、機器學習等技術領域,更為具體地講,涉及在監(jiān)控場景下一種基于區(qū)域全卷積神經網絡的人體目標檢測方法。
背景技術:
近年來,隨著科技的進步,各個行業(yè)開始越來越關注安全問題。在銀行、機場、地鐵、車站、小區(qū)等重要區(qū)域以及公共場所,人們都安裝了監(jiān)控攝像頭進行視頻監(jiān)控。這些監(jiān)控攝像頭一般都安裝在較高的位置,以俯視的角度進行監(jiān)控。而我們所說的監(jiān)控場景即是指在這種情景下拍攝的監(jiān)控畫面。
一般情況下,人是監(jiān)控場景的主體,對人體目標的跟蹤和后續(xù)的行為識別分析嚴重依賴于人體目標檢測的精度,因此如何在監(jiān)控場景下準確檢測人體目標已經成為學術界和工業(yè)界廣泛關注的熱點之一。
早期的研究者一般將人體目標檢測問題分為兩個步驟來解決,首先是基于手工設計的模型進行特征提取,然后基于目標特征設計分類器訓練檢測模型。比如,Viola和Jones將采用haar小波特征,結合adaboost級聯(lián)分類器的VJ模型應用于人體目標檢測中。具體算法原理參見:Viola P,Jones M J,Snow D.Detecting pedestrians using patterns of motion and appearance[C].Computer Vision,2003.Proceedings.Ninth IEEE International Conference on.IEEE,2003:734-741。Dalal N與Triggs B提出了一種基于梯度直方圖(Histograms of Oriented Gradients,HOG)特征和支持向量機(Support Vector Machine,SVM)框架的人體目標檢測方法,具體算法原理參見:Dalal N,Triggs B.Histograms of oriented gradients for human detection[C].Computer Vision and Pattern Recognition,2005.CVPR 2005.IEEE Computer Society Conference on.IEEE,2005,1:886-893。這些方法在簡單監(jiān)控場景下對人體目標檢測取得了較好的結果,但是對于復雜的監(jiān)控場景下的人體目標檢測結果還是不能滿足我們的實際需求。
隨著最近幾年深度學習的興起,基于深度學習的方法在圖像分類領域取得了優(yōu)異的成績。很多研究者基于此也嘗試將深度學習應用于目標檢測領域。Ren,Shaoqing提出了一種快速區(qū)域卷積神經網絡(Faster r-cnn)的方法,將人體目標檢測問題分為三個階段,首先是獲取人體目標區(qū)域候選框,然后是使用卷積神經網絡進行目標特征提取,最后目標特征進行分類訓練得到模型。相較于傳統(tǒng)的人體目標檢測方法,提高了57%的檢測準確率。具體算法原理可以參見文獻:Ren,Shaoqing,et al."Faster r-cnn:Towards real-time object detection with region proposal networks."Advances in neural information processing systems.2015。
隨后,Jifeng Dai和Yi Li等提出了一種基于區(qū)域全卷積網絡(R-FCN)的檢測模型,具體算法原理可以參見文獻[4]:Dai J,Li Y,He K,et al.R-FCN:Object Detection via Region-based Fully Convolutional Networks[J].2016。R-FCN方法使用了一種位置敏感得分圖來處理圖像檢測中的平移變換性的問題,使得該網絡可以基于整幅圖片進行全卷積計算,這種方法可以有效的降低網絡模型的訓練時間和檢測時間。同時該模型使用殘差網絡(ResNet)作為自己的特征提取模型。在通用的目標檢測平臺Pascal VOC上,相較于Faster r-cnn,R-FCN不僅提高了目標檢測的準確率同時也降低了目標檢測的時間。
雖然R-FCN方法在通用的目標檢測以及人體目標檢測方面取得了較好的檢測結果,但也還存在著一些問題,比如當人體目標之間存在遮擋時,存在將兩人檢測為單人的情況,造成漏檢,以及當人體目標尺度較小時,存在漏檢等檢測失敗的情況。此外,對于一些復雜的監(jiān)控場景中的人體目標,比如:背景復雜、人體目標數(shù)量較多、人體遮擋比較嚴重這樣的監(jiān)控場景,現(xiàn)有人體目標檢測方法還存在著一定程度的漏檢和誤檢。
技術實現(xiàn)要素:
本發(fā)明的目的在于克服現(xiàn)有技術的不足,提出一種基于區(qū)域全卷積神經網絡的人體目標檢測方法,以進一步減少漏檢率和誤檢率,提高檢測準確率。
為實現(xiàn)上述發(fā)明目的,本發(fā)明基于區(qū)域全卷積神經網絡的人體目標檢測方法,其特征在于,包括以下步驟:
(1)、采集不同監(jiān)控場景、不同角度的人體目標圖像,然后對于每一張采集的人體目標圖像,標定人體目標上半身的所在位置作為人體目標的標定框,標定了人體目標標定框的人體目標圖像構成訓練集;
人體目標圖像不僅包含單一人體目標的簡單場景,也包含一些遮擋較為嚴重,人員數(shù)量較多的復雜情景;
(2)、設置五個不同的圖像尺度,對于訓練集中的每一幅人體目標圖像,隨機選擇一個圖像尺度,將人體目標圖像的短邊縮放到該尺度下之后輸入到殘差網絡(Residual Network)進行卷積運算,得到卷積特征;
(3)、將卷積特征輸入到區(qū)域候選網絡(Region Proposal Network,簡稱RPN),生成區(qū)域候選框;其中,生成區(qū)域候選框時所需錨(anchors),選用{0.8,1.2}兩個不同比例的寬高比和{48,96,144,192,240}五個不同比例尺度作為生成anchors的規(guī)則;
(4)、根據(jù)卷積特征、區(qū)域候選框,計算位置敏感得分圖,得到區(qū)域候選框為正候選框的概率Si以及負候選框的概率Sj;同時,根據(jù)人體目標標定框,得到區(qū)域候選框的真實類別概率S;其中,區(qū)域候選框與真實的人體目標標定框的交并比大于等于0.5時,判定區(qū)域候選框為正候選框樣本,真實類別概率S為1;當候選框與真實的人體目標標定框的交并比小于0.5時,判定區(qū)域候選框為負候選框樣本,真實類別概率S為0;
(5)、采用區(qū)域候選框的交叉熵損失值作為區(qū)域候選框的分類損失值Lcls,其具體計算公式如下:
采用區(qū)域候選框的一階平滑損失值作為區(qū)域候選框的回歸損失值Lreg,其具體計算公式如下:
Lreg=smoothL1(x*-x)+smoothL1(y*-y)+smoothL1(w*-w)+smoothL1(h*-h) (2),
其中,x和y表示區(qū)域候選框的左上位置坐標,w和h分別表示區(qū)域候選框的寬和高,x*和y*表示真實的人體目標標定框的左上位置坐標,w*和h*分別表示真實的人體目標標定框的寬和高;
其中,一階平滑函數(shù)smoothL1計算公式下:
其中,σ根據(jù)具體監(jiān)控場景確定,一般取3.0,z為公式(2)中括號內的差值;
(6)、對于每一個區(qū)域候選框,計算出其損失值,其計算公式如下:
其中,λ是分類損失與回歸損失之間的平衡因子,根據(jù)具體實施情況確定,通常取值為1;
(7)、對人體目標圖像,根據(jù)步驟(4)、(5),得到每一個區(qū)域候選框計算損失值,將區(qū)域候選框損失值進行排序,選擇損失值最大的前B個區(qū)域候選框作為難例樣本,然后將這些難例樣本的損失值,反饋到區(qū)域全卷積神經網絡模型中,使用隨機梯度下降法更新區(qū)域全卷積神經網絡模型的參數(shù);
(8)、對于每一幅人體目標圖像,根據(jù)步驟(2)~(6)不斷更新區(qū)域全卷積神經網絡的參數(shù),從而得到人體目標檢測的區(qū)域全卷積神經網絡模型,用于監(jiān)控場景下采集的圖像的人體目標檢測。
本發(fā)明的目的是這樣實現(xiàn)的。
本發(fā)明基于區(qū)域全卷積神經網絡的人體目標檢測方法,標定人體目標上半身即人體頭肩模型位置為標定框,這樣減少了人體目標被遮擋的概率,減小了漏檢率;同時,設定不同的五個圖像尺度進行轉換,以及選用{0.8,1.2}兩個不同比例的寬高比和{48,96,144,192,240}五個不同比例尺度作為生成anchors的規(guī)則,在幾乎不降低檢測時間的情況下,對不同尺寸的人體目標均有較好的檢測效果,也進一步減小了漏檢率。此外,本發(fā)明還通過計算一幅人體目標圖像各區(qū)域候選框損失值,并選取損失值最大前B區(qū)域候選框作為難例樣本,其損失值反饋到區(qū)域全卷積神經網絡模型中,使用隨機梯度下降法更新區(qū)域全卷積神經網絡模型的參數(shù),以提高復雜場景下的人體目標檢測的準確率,減少漏檢率和誤檢率。
附圖說明
圖1是本發(fā)明基于區(qū)域全卷積神經網絡的人體目標檢測方法一種具體實施下的原理框圖;
圖2是本發(fā)明監(jiān)控場景下基于人體目標全身標定與基于Omega(人體目標上半身)標定的圖像對比圖,其中,(a)為監(jiān)控場景下人體目標圖像;(b)為人體目標全身標定的圖像;(c)為基于人體目標上半身標定的圖像;
圖3是本發(fā)明與R-FCN在不同殘差模型下的FPPI-MR圖;
圖4是本發(fā)明與R-FCN分別在實際場景中的檢測效果圖,其中,(a)為監(jiān)控場景下的人體目標圖像,(b)為使用R-FCN方法得到的對應檢測結果,(c)為使用本發(fā)明得到的對應檢測結果。
具體實施方式
下面結合附圖對本發(fā)明的具體實施方式進行描述,以便本領域的技術人員更好地理解本發(fā)明。需要特別提醒注意的是,在以下的描述中,當已知功能和設計的詳細描述也許會淡化本發(fā)明的主要內容時,這些描述在這里將被忽略。
圖1是本發(fā)明基于區(qū)域全卷積神經網絡的人體目標檢測方法一種具體實施下的原理框圖。
在本實施例中,如圖1所示,本發(fā)明基于區(qū)域全卷積神經網絡的人體目標檢測方法包括以下步驟:
1、人體目標標定
對于監(jiān)控場景下的圖像,如圖1(a)所示,可以明顯看出,當人體目標較多時,人體的下半身很容易被遮擋。在人體目標檢測的問題中,人們一般將人體目標的全身圖像作為人體目標的表征圖像,如圖1(b)所示。但是在監(jiān)控場景下,人體目標的下半身圖像很容易被遮擋,這樣使得兩個目標框之間存在著大量的重合。同時,采用這樣的標定數(shù)據(jù)進行訓練的網絡很難把兩個目標分開。為了降低人體目標在監(jiān)控場景下被遮擋的概率,本發(fā)明采用基于人體頭肩模型的人體目標上半身標定的圖像作為人體目標的表征圖像,如圖1(c)中所示,從圖1中可以看出,同樣的監(jiān)控場景下,基于人體上半身標定的目標框(標定框)之間具有更少的重疊,同時基于人體上半身標定的訓練集也更容易讓網絡學習。這樣讓網絡學習人體目標的上半身特征,這樣可以解決監(jiān)控場景下存在的遮擋問題,在一定程度上可以較少人體目標的漏檢。
在本實施例中,我們采用包含人體目標的14422張圖像作為實驗所用的數(shù)據(jù)集,該數(shù)據(jù)集包含不同監(jiān)控場景、不同角度的人體目標圖像,其中不僅包含單一人體目標的簡單場景,也包含一些遮擋較為嚴重,人員數(shù)量較多的復雜情景。對于每一張人體目標圖像,我們標定人體目標上半身的所在位置作為人體目標的標定框。同時,將該數(shù)據(jù)集中的8653張圖像作為訓練集,將剩余的5769張圖像作為測試集驗證本發(fā)明。
2、圖像尺度選擇
對于監(jiān)控場景下人體目標檢測存在多圖像尺度檢測的問題。本發(fā)明提出了一種多尺度訓練的算法去解決人體目標檢測中存在的多尺圖像度檢測問題。在本發(fā)明中,在訓練網絡輸入圖像時,不同于常規(guī)的單一尺度的圖像輸入,本發(fā)明預先設置了五個圖像尺度。隨機選擇一個圖像尺度將訓練圖像轉換到該尺度之后輸入到殘差網絡(Residual Network)進行卷積運算,得到卷積特征。
本發(fā)明,設置了五個不同的圖像尺度{200,400,600,800,1000},隨機選擇一個圖像尺度,將輸入圖像即標定后的人體目標圖像的短邊縮放到該圖像尺度下之后輸入網絡進行訓練。圖像尺度指的像素點數(shù)。
3、生成區(qū)域候選框
在本發(fā)明中,區(qū)域候選網絡(region proposal network,RPN)生成候選框時,采用多個不同的尺度比和長寬比來生成anchors。對于生成anchors的規(guī)則,不同于通用物體檢測時生成anchors的規(guī)則,本方法基于人體上半身圖像的大小以及長寬比的范圍,采用可以更容易訓練提取人體目標候選框的生成規(guī)則,具體為:
將卷積特征輸入到區(qū)域候選網絡(Region Proposal Network,簡稱RPN),生成區(qū)域候選框;其中,生成區(qū)域候選框時所需錨(anchors),選用{0.8,1.2}兩個不同比例的寬高比和{48,96,144,192,240}五個不同比例尺度作為生成anchors的規(guī)則。
4、計算位置敏感得分圖
對于一些背景單一、人員數(shù)量較少、人體目標較為完整等一些簡單監(jiān)控場景下的人體目標,當下的人體目標檢測方法已經取得了令人滿意的檢測結果。但是對于一些復雜的監(jiān)控場景中的人體目標,比如:背景復雜、人體目標數(shù)量較多、人體遮擋比較嚴重這樣的監(jiān)控場景,現(xiàn)有的方法還存在著一定程度的漏檢和誤檢。對于這些復雜的監(jiān)控場景,本發(fā)明提出了一種難例挖掘算法來提高對復雜監(jiān)控場景下難以檢測到的人體目標檢測能力。難例挖掘算法通過計算每一個區(qū)域候選框的損失值,然后對區(qū)域候選框進行排序,篩選前B個區(qū)域候選框作為難例樣本。最后根據(jù)難例樣本的損失值,反饋給網絡,更新模型參數(shù),這樣可以使得訓練過程更加的高效。
為此,在本發(fā)明中,首先根據(jù)卷積特征、區(qū)域候選框,計算位置敏感得分圖,得到區(qū)域候選框為正候選框的概率Si以及負候選框的概率Sj;同時,根據(jù)人體目標標定框,得到區(qū)域候選框的真實類別概率S;其中,區(qū)域候選框與真實的人體目標標定框的交并比大于等于0.5時,判定區(qū)域候選框為正候選框樣本,真實類別概率S為1;當候選框與真實的人體目標標定框的交并比小于0.5時,判定區(qū)域候選框為負候選框樣本,真實類別概率S為0。
5、計算區(qū)域候選框的分類損失值和回歸損失值
本發(fā)明中,采用區(qū)域候選框的交叉熵損失值作為區(qū)域候選框的分類損失值Lcls,其具體計算公式如下:
采用區(qū)域候選框的一階平滑損失值作為區(qū)域候選框的回歸損失值Lreg,其具體計算公式如下:
Lreg=smoothL1(x*-x)+smoothL1(y*-y)+smoothL1(w*-w)+smoothL1(h*-h) (2),
其中,x和y表示區(qū)域候選框的左上位置坐標,w和h分別表示區(qū)域候選框的寬和高,x*和y*表示真實的人體目標標定框的左上位置坐標,w*和h*分別表示真實的人體目標標定框的寬和高;
其中,一階平滑函數(shù)smoothL1計算公式下:
其中,σ根據(jù)具體監(jiān)控場景確定,一般取3.0,z為公式(2)中括號內的差值。
6、對于每一個區(qū)域候選框,計算出其損失值,其計算公式如下:
其中,λ是分類損失與回歸損失之間的平衡因子,根據(jù)具體實施情況確定,通常取值為1。
7、對人體目標圖像,根據(jù)步驟(4)、(5),得到每一個區(qū)域候選框計算損失值,將區(qū)域候選框損失值進行排序,選擇損失值最大的前B個區(qū)域候選框作為難例樣本,然后將這些難例樣本的損失值,反饋到區(qū)域全卷積神經網絡模型中,使用隨機梯度下降法更新區(qū)域全卷積神經網絡模型的參數(shù)。
8、對于每一幅人體目標圖像,根據(jù)步驟(2)~(6)不斷更新區(qū)域全卷積神經網絡的參數(shù),從而得到人體目標檢測的區(qū)域全卷積神經網絡模型,用于監(jiān)控場景下采集的圖像的人體目標檢測。
為了驗證本發(fā)明的有效性,我們首先使用自己制作的數(shù)據(jù)集進行模型的訓練,然后基于采集的復雜場景下的監(jiān)控場景人體目標圖像進行人體目標檢測效果的對比驗證。在本實施例中,采用在圖像鄰域常用的深度學習框架caffe進行訓練和測試,同時分別使用基于ImageNet圖像數(shù)據(jù)集訓練得到的ResNet-50和ResNet-101兩個殘差網絡模型作為預訓練模型。
對于網絡模型的其它參數(shù),我們設置學習率為0.001,每迭代20000次,學習率縮小10倍,總的迭代次數(shù)為40000次。動量設置為0.9,權重衰減項設置為0.0005。在訓練階段,每一次迭代輸入兩張圖片。
我們采用在人體目標檢測方法中較為通用的FPPI-MR圖作為算法優(yōu)劣的判別標準,F(xiàn)PPI(False Positive Per Image)指的是一個序列或數(shù)據(jù)集中所有圖像的平均檢測錯誤目標數(shù),這里的錯誤目標指的是被分類器錯誤判別為目標的非人體目標圖像,MR(Miss Rate)指的是一個序列或數(shù)據(jù)集中平均每一幀圖像中,正確但沒有被檢測出來的目標數(shù)量。而對于檢測框的判定,當檢測框和真實標定框的交并比大于等于0.5時,即認為檢測到了目標,否則判定為未檢測到目標。
在此分別使用殘差網絡ResNet-50和ResNet-101兩種模型進行訓練。同時,基于在實際監(jiān)控場景中采集的圖像,本發(fā)明分別與基于R-FCN方法訓練的網絡模型進行人體目標檢測效果的對比。對比實驗得到的FPPI-MR圖如圖3所示??梢钥闯龌谕瑯拥念A訓練網絡模型,本發(fā)明相對于R-FCN方法對人體目標具有更好的檢測效果。圖4是本方法與R-FCN方法在實際檢測中某一幀的檢測效果對比圖。圖4(a)為監(jiān)控場景下的原始圖像,圖4(b)所示的是使用R-FCN方法得到的對應檢測結果,圖4(c)所示的是使用本發(fā)明得到的對應檢測結果。同樣也可以看出本發(fā)明對于遮擋情況下的人體目標具有較好的檢測效果,而且,對于復雜的監(jiān)控場景下,本發(fā)明也具有更少的漏檢。
盡管上面對本發(fā)明說明性的具體實施方式進行了描述,以便于本技術領域的技術人員理解本發(fā)明,但應該清楚,本發(fā)明不限于具體實施方式的范圍,對本技術領域的普通技術人員來講,只要各種變化在所附的權利要求限定和確定的本發(fā)明的精神和范圍內,這些變化是顯而易見的,一切利用本發(fā)明構思的發(fā)明創(chuàng)造均在保護之列。