本發(fā)明涉及圖像處理技術(shù)領(lǐng)域,具體涉及一種基于形狀玻爾茲曼機的補全式行人檢測方法。
背景技術(shù):
隨著視頻監(jiān)控的迅速發(fā)展,從監(jiān)控攝像頭獲得到的視頻分辨率越來越高,存儲壓力和傳輸壓力也越來越大,由此引發(fā)的對于監(jiān)控視頻處理要求也越來越高。其中,對于監(jiān)控視頻下的行人檢測是一個十分重要的研究方向,尤其是對于步行區(qū)域等地方的人流分析、城市安全保障以及異常行人檢測與分析等均有重要意義。同時,因為行人目標是非剛體,這就意味著目標可以有多種表現(xiàn)形式,這種非剛體的特性以及目標之間的相互遮擋為行人的檢測帶來了挑戰(zhàn)。
在行人檢測領(lǐng)域里主要分為三類方法:一類是基于模型的方法,包括可變部件模型及其各種加速算法等。這種方法使用的基本特征是hog(梯度直方圖)特征,將目標看做一個可變彈簧模型,通過滑動窗口的方式對目標進行檢測,能夠較好的解決非剛體形變的問題。但是隨著圖像的分辨率越來越高,這種方法的計算量呈幾何倍數(shù)增加。并且在目標之間沒有遮擋時,其準確度相比單一模型準確率和虛警率都有降低。第二類方法是基于決策森林的方法,主要集中多通道特征上,每一個通道是獨立的特征,通過決策森林集中多個弱分類器最終得到檢測目標,決策森林能達到目前比較好的效果,并且采用積分圖計算特征,使得計算實時性能夠保證。決策森林的思想目前能達到最好的方法是采取10個通道的:6個梯度方向、1個梯度幅值和3個顏色通道,稱作hog+luv。決策森林的思想限制在于目前采用的特征均為手工特征,并且目前10通道特征的方法不能被解釋。第三類方法是基于深度學(xué)習(xí)的方法,主要方法是卷積神經(jīng)網(wǎng)絡(luò),隨著拍攝設(shè)備的普及,數(shù)據(jù)量爆發(fā)增長,很容易得到成千上萬的數(shù)據(jù),這就為使用深度學(xué)習(xí)提供了基礎(chǔ),但是深度學(xué)習(xí)目前的問題在于可解釋性及參數(shù)調(diào)節(jié)上。在數(shù)據(jù)庫中的效果很好,但是放到實際的場景中,由于視角,目標形變等原因檢測效果大打折扣。
同時對于行人檢測中遮擋問題的解決主要是兩類:第一類是通過訓(xùn)練frank classifier將行人目標特征從左至右,從上到下進行非連續(xù)切割。第二類是在深度神經(jīng)網(wǎng)絡(luò)中通過賦予隱層不同的遮擋類型,使得隱層具有檢測相應(yīng)遮擋問題的功能。但是這兩種方法對于遮擋問題的解決是一個非完備、非連續(xù)的過程,尤其是在監(jiān)控環(huán)境下,遮擋問題多種多樣。
技術(shù)實現(xiàn)要素:
有鑒于此,本發(fā)明提供了一種基于形狀玻爾茲曼機的補全式行人檢測方法,能夠解決監(jiān)控環(huán)境下行人檢測遮擋的問題。
本發(fā)明的基于形狀玻爾茲曼機的補全式行人檢測方法,包括如下步驟:
步驟1,從監(jiān)控圖像訓(xùn)練集中人工提取行人目標切片圖;
步驟2,根據(jù)監(jiān)測視角的變化,將步驟1得到的所有目標分為不同視角的子集;提取各子集中目標的多尺度hog特征;利用各子集的多尺度hog特征對子集對應(yīng)視角的分類器進行訓(xùn)練,得到各視角的訓(xùn)練好的分類器;分類器的輸出為是否是行人的概率;其中,分類器中的負樣本為背景信息,正樣本為行人目標的多尺度hog特征;
步驟3,利用步驟2得到的不同視角的訓(xùn)練好的分類器分別對待檢測圖片進行滑動窗口檢測,在同一滑窗位置上以不同分類器得到的預(yù)測概率值中的最大值作為該滑窗位置的預(yù)測概率值P,并以獲得最大值的分類器所對應(yīng)的視角為該滑窗位置處對應(yīng)切片圖的視角;
步驟4,將預(yù)測概率值位于[0.4,0.8]區(qū)間的滑窗位置對應(yīng)的切片圖做進一步處理:將這些切片圖轉(zhuǎn)變?yōu)榛叶葓D,通過形狀玻爾茲曼機對這些切片圖進行目標補全處理;
步驟5,針對步驟4補全后的目標切片,求取目標的多級直方圖;將目標多級直方圖和預(yù)先獲得的與切片視角相同的行人標準多級直方圖進行L2范數(shù)匹配,并將匹配結(jié)果歸一化到-0.4至0.4之間;
其中,所述目標多級直方圖的獲取方式為:根據(jù)人本身的物理形狀特征及視角,將人從頭部開始由上至下等分為5部分,對每一部分求基于輪廓內(nèi)二值的直方圖,將每一部分的直方圖依次拼接為一個目標多級直方圖;
步驟6,將步驟5得到的歸一化后的匹配結(jié)果和步驟3獲得的相應(yīng)切片圖的預(yù)測概率值P相疊加,得到該切片圖的最終預(yù)測概率值;
步驟7,將步驟6獲得的最終預(yù)測概率值與設(shè)定閾值進行比較,確定目標是否為行人目標。
進一步地,采用高斯金字塔提取多尺度hog特征。
進一步地,所述多尺度hog特征的提取方法如下:
首先,構(gòu)建圖像I的N/K層高斯金字塔,然后提取N/K層高斯金字塔的各層特征;在N/K層高斯金字塔中相鄰的第h層與第h+1層之間設(shè)置K-1層,形成N層高斯金字塔;其中,N/K層高斯金字塔中第h層與第h+1層之間的K-1層的特征由公式(I)計算得到:
f(I,s+h)≈f(I,h)e-λs (I)
其中,h=1,2,…,N/K;s=1,2,…,K-1;f(I,s+h)為圖像I的第s+h層的特征,所述s+h層位于第hN/K層與第(h+1)N/K層之間;f(I,h)為第h層的特征;λ是經(jīng)驗值,取1.099;K取值為3~10,N為需要構(gòu)建的高斯金字塔的總層數(shù);
由此,得到最終的N層高斯金字塔各層的特征,所述最終的N層高斯金字塔各層特征的集合即為多尺度hog特征。
進一步地,所述分類器為:支持向量機、隨機森林、決策樹或ADABOOST。
進一步地,采用RBF-SVM支持向量機,其核函數(shù)選擇histogram intersection kernel。
進一步地,所述步驟3中,滑動窗口的步長設(shè)置為1到8之間。
進一步地,所述步驟4中,事先對形狀玻爾茲曼機進行訓(xùn)練,訓(xùn)練方法為:利用各視角下完整的目標切片,采用基于gibbs采樣的梯度下降法,對形狀玻爾茲曼機進行訓(xùn)練。
進一步地,所述步驟2中,利用監(jiān)控圖像測試集對訓(xùn)練好的分類器進行測試,如果分類器在測試集中的準確率小于70%,則修改分類器參數(shù),重復(fù)步驟2,重新訓(xùn)練,直到分類器在測試集中的準確率大于或等于70%,得到最終的訓(xùn)練好的分類器,執(zhí)行步驟3。
進一步地,對監(jiān)控圖像測試集中的圖像進行基于形狀玻爾茲曼機的補全式行人檢測,如果補全式檢測結(jié)果在測試集中的準確率小于90%,則修改形狀玻爾茲曼機參數(shù),重新對切片圖的目標進行補全,執(zhí)行步驟5~7,直到基于形狀玻爾茲曼機的補全式檢測結(jié)果在測試集中的準確率大于或等于90%,得到最終的形狀玻爾茲曼機參數(shù)。
有益效果:
本發(fā)明首先通過分類器對圖像中行人目標進行初步檢測,然后使用形狀玻爾茲曼機將行人檢測中的遮擋定義為一個連續(xù)遮擋的過程,將非完備的檢測方法轉(zhuǎn)變?yōu)橥陚涞臋z測方法,滿足在監(jiān)控條件下可能發(fā)生的各種遮擋情況;最后基于人體物理模型,使用多級直方圖對形狀補全后的目標進行匹配度測試。這種匹配方式能夠根據(jù)人體每一部分的灰度直方圖的特性評估目標補全部分與原始部分的匹配程度。通過將支持向量機的預(yù)測概率值與目標補全匹配度結(jié)合,能夠?qū)⒓僬?FP)與假反例(FN)兩種錯誤分類向相反的方向拉伸,最大程度上降低漏檢率和虛警率,提高算法的魯棒性。
本發(fā)明對多尺度特征構(gòu)建方法進行改進,避免了在構(gòu)建特征時因為圖像縮放或者特征縮放而造成的對目標描述不準確和計算復(fù)雜度高的問題。
附圖說明
圖1為本發(fā)明的流程圖。
圖2為本發(fā)明形狀玻爾茲曼機示意圖。
圖3為本發(fā)明形狀玻爾茲曼機目標補全流程圖。
圖4為本發(fā)明多級直方圖生成示意圖。
具體實施方式
下面結(jié)合附圖并舉實施例,對本發(fā)明進行詳細描述。
本發(fā)明提供了一種基于形狀玻爾茲曼機的補全式行人檢測方法,本發(fā)明流程如圖1所示,具體包括如下步驟:
將所有的監(jiān)控圖像分為訓(xùn)練集和測試集,訓(xùn)練集用來訓(xùn)練分類器,測試集用來在驗證訓(xùn)練好的分類器。
步驟一、從監(jiān)控圖像訓(xùn)練集中人工提取行人目標切片圖。
訓(xùn)練集中記錄每一幅圖像中行人目標的坐標[x,y,w,h]。其中[x,y]為目標框左上角坐標,[w,h]為目標框?qū)捄透?。該坐標所框取的切片圖即為行人目標切片圖。
步驟二、根據(jù)監(jiān)測視角的變化,以60度為一個單元,將訓(xùn)練集中的目標分為6個視角的子集。一個子集對應(yīng)一個視角。
步驟三、針對每個子集,提取行人目標的多尺度hog(梯度直方圖)特征。每個分類器對應(yīng)一個視角,利用各子集的多尺度hog特征對子集對應(yīng)視角的分類器進行訓(xùn)練,得到各視角的訓(xùn)練好的分類器。分類器的輸出為是否是行人的概率。
在訓(xùn)練時,除了作為正樣本的行人目標的多尺度hog特征,還需要包括負樣本。負樣本是背景信息,也是從監(jiān)控圖像訓(xùn)練集中獲取,具體為獲取監(jiān)控圖像中不包含行人的切片圖,并提取多尺度hog特征,即為背景信息。
其中,所述分類器可以為:支持向量機、隨機森林、決策樹或ADABOOST。本實施例采用RBF-SVM支持向量機,其核函數(shù)選擇histogram intersection kernel,RBF-SVM支持向量機易于訓(xùn)練,且histogram intersection kernel核函數(shù)對于直方圖類特征敏感。
多尺度特征提取是一個離線的過程,傳統(tǒng)方法采用圖像高斯金字塔或特征高斯金字塔進行多尺度特征提?。坏请S著數(shù)據(jù)的增多與分辨率的增加,傳統(tǒng)的多尺度特征方法,如對圖像本身進行縮放或者對特征進行縮放,其一計算復(fù)雜度會幾何倍數(shù)提升;其二得到的特征因為經(jīng)過高斯金字塔模糊,造成特征模糊,不穩(wěn)定。
因此,本發(fā)明還對多尺度特征提取進行了改進,利用圖像高斯金字塔中各層特征之間的關(guān)系,估計層間特征,能夠最大限度的保留每個尺度上特征的本質(zhì),保證信息熵。具體方法如下:
首先,構(gòu)建圖像I的N/K層高斯金字塔,然后提取N/K層高斯金字塔的各層特征。在N/K層高斯金字塔中相鄰的第h層與第h+1層之間設(shè)置K-1層,形成N層高斯金字塔;其中,N/K層高斯金字塔中第h層與第h+1層之間的K-1層的特征由公式(I)計算得到:
f(I,s+h)≈f(I,h)e-λs (I)
其中,h=1,2,…,N/K;s=1,2,…,K-1;f(I,s+h)為圖像I的第s+h層的特征,所述s+h層位于第hN/K層與第(h+1)N/K層之間;f(I,h)為第h層的特征;λ是經(jīng)驗值,取1.099;K取值為3~10,N為需要構(gòu)建的高斯金字塔的總層數(shù);
由此,得到最終的N層高斯金字塔各層的特征,所述最終的N層高斯金字塔各層特征的集合即為多尺度hog特征。
這樣可以解決計算復(fù)雜度呈幾何倍數(shù)提升的問題,也可以解決特征因為高斯函數(shù)模糊造成的特征模糊、不穩(wěn)定的問題。
其中,為了進一步提高支持向量機的檢測準確率,可以采用測試集對訓(xùn)練好的支持向量機進行測試,如果支持向量機在測試集中的準確率小于70%,則修改支持向量機參數(shù),重復(fù)步驟三,重新訓(xùn)練,直到支持向量機在測試集中的準確率大于或等于70%,得到最終的訓(xùn)練好的分類器,執(zhí)行步驟四。
步驟四、通過步驟三得到的不同視角的訓(xùn)練好的支持向量機分別對待檢測圖像進行滑動窗口檢測,記錄每一個滑窗位置的預(yù)測概率值,并在同一滑窗位置上以不同分類器得到的預(yù)測概率值中的最大值作為該窗口的預(yù)測概率值,記為預(yù)測概率值P,并以獲得最大值的分類器所對應(yīng)的視角為該滑窗位置處對應(yīng)切片的視角。
其中,滑動窗口的步長設(shè)置為1到8之間。
步驟五、將預(yù)測概率值區(qū)間為0.4至0.8之間的滑窗位置對應(yīng)的切片圖做進一步處理。將這些滑動窗口對應(yīng)的切片圖轉(zhuǎn)變?yōu)榛叶葓D,通過形狀玻爾茲曼機對這些切片圖進行目標補全處理。
表1為目標檢測方法中檢測結(jié)果與實際結(jié)果之間的關(guān)系,True Positive(真正例)與True Negative(真反例)為正確的檢測結(jié)果,F(xiàn)alse Negative(假反例)與False Positive(假正例)為錯誤的檢測結(jié)果。
概率值為0.4~0.8的檢測結(jié)果主要集中在False Negative(假反例)與False Positive(假正例)中。本發(fā)明將分類器的預(yù)測概率值與基于形狀玻爾茲曼機的目標補全匹配度結(jié)合,將False Negative(假反例)與False Positive(假正例)兩種錯誤分類向相反的方向拉伸,最大程度上降低漏檢率和虛警率,提高算法的魯棒性。
表1目標檢測中預(yù)測結(jié)果與實際結(jié)果關(guān)系
圖2為本發(fā)明形狀玻爾茲曼機示意圖。圖3為形狀玻爾茲曼機目標補全流程圖。玻爾茲曼機作為深度神經(jīng)網(wǎng)絡(luò)中的基本組成單元,有多種實現(xiàn)方式,包括受限玻爾茲曼機與深度玻爾茲曼機等。在這里使用深度玻爾茲曼機中的形狀玻爾茲曼機對目標進行補全。形狀玻爾茲曼機包含兩個隱層,h1與h2,相對于深度玻爾茲曼機來說,不同之處在于:h1層對于可視層為非全連接,h2層對于h1層為全連接。
需要事先對形狀玻爾茲曼機進行訓(xùn)練:利用各視角下完整的目標切片,采用基于gibbs(吉布斯)采樣的梯度下降法,對形狀玻爾茲曼機進行訓(xùn)練,訓(xùn)練目標梯度為:
其中v為可視層,h1,h2為隱層,Θ={b,W1,W2,c1,c2};b為偏置項,{W1,c1}為h1層的權(quán)重參數(shù),{W2,c2}為h2層的權(quán)重參數(shù)。
步驟六、將步驟五得到的目標補全后的信息進行目標補全結(jié)果分析,通過計算原始部分與拼合部分的匹配度。匹配度分析采用的方法是針對目標的多級直方圖匹配方法。
圖4為本發(fā)明多級直方圖生成示意圖。
根據(jù)人本身的物理形狀特征及視角,將人從頭部開始從上至下等分為5部分,對每一部分求基于輪廓內(nèi)二值的直方圖,將每一部分的直方圖依次拼接為一個多級直方圖。
將補全后切片的目標的多級直方圖和預(yù)先獲得的與切片視角相同的行人標準多級直方圖進行L2范數(shù)匹配,歸一化到-0.4至0.4之間。
步驟七、將步驟六得到的歸一化后的匹配結(jié)果和步驟四獲得的相應(yīng)切片圖的預(yù)測概率值P相疊加,得到對應(yīng)切片的最終預(yù)測概率值。
步驟八,將步驟6獲得的最終預(yù)測概率值與設(shè)定閾值進行比較,確定目標是否為行人目標。
為了提高最終的目標檢測率,可以采用測試集對基于形狀玻爾茲曼機的補全式行人檢測方法進行測試,如果補全式檢測結(jié)果在測試集中的準確率小于90%,則修改形狀玻爾茲曼機參數(shù),重新對切片圖的目標進行補全,執(zhí)行步驟六至八,直到基于形狀玻爾茲曼機的補全式檢測結(jié)果在測試集中的準確率大于或等于90%,得到最終的形狀玻爾茲曼機參數(shù)。然后用最終的形狀玻爾茲曼機參數(shù)進行補全,得到最終的目標最終的概率預(yù)測值。
自此,就完成了監(jiān)控環(huán)境下的行人檢測。
綜上所述,以上僅為本發(fā)明的較佳實施例而已,并非用于限定本發(fā)明的保護范圍。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。