本發(fā)明涉及機器視覺領域,具體來說,涉及機器視覺領域中的行人檢測技術,更具體地說,涉及一種行人檢測模型及其訓練方法、檢測方法。
背景技術:
1、行人檢測是機器視覺領域中最重要的任務之一,其目的是在圖像或視頻中準確定位行人。當前,行人檢測技術已被廣泛應用于高級輔助駕駛、自動駕駛、區(qū)域監(jiān)控、人機交互等領域中。近年來,隨著深度卷積神經(jīng)網(wǎng)絡(convolutional?neural?networks,cnn)的飛速發(fā)展,帶動了機器視覺技術從目標識別,到通用目標檢測,再到行人檢測的發(fā)展。
2、目前,基于深度卷積神經(jīng)網(wǎng)絡的行人檢測方法主要是利用已有的深度卷積神經(jīng)網(wǎng)絡框架,通過行人數(shù)據(jù)集對深度卷積神經(jīng)網(wǎng)絡進行訓練,從而得到訓練好的行人檢測模型,并以訓練好的的行人檢測模型對圖像或視頻進行處理以準確定位行人。
3、現(xiàn)有技術中主要以r-cnn系列卷積神經(jīng)網(wǎng)絡為框架訓練行人檢測模型來做行人檢測。但是在模型訓練過程中,重點關注的是未被遮擋的行人特征,對于被遮擋的行人特征沒有進行有效的學習,使得現(xiàn)有技術下訓練得到的行人檢測模型雖然能夠實現(xiàn)行人檢測,但是只能檢測到未被遮擋或者遮擋不嚴重的行人,對遮擋嚴重的行人的檢測準確度不佳。
技術實現(xiàn)思路
1、因此,本發(fā)明的目的在于克服上述現(xiàn)有技術的缺陷,提供一種行人檢測模型,一種行人檢測模型的訓練方法和一種行人檢測方法。
2、本發(fā)明的目的是通過以下技術方案實現(xiàn)的。
3、根據(jù)本發(fā)明的第一方面,提供一種行人檢測模型,用于檢測圖像中的行人,所述模型包括:特征提取模塊,用于對圖像進行特征提取得到原始特征圖;區(qū)域生成模塊,用于采用錨框對所述原始特征圖進行候選目標框選以獲取帶錨框的特征圖;空間注意力模塊,用于對所述帶錨框的特征圖中被錨框框選部分進行掩碼處理以獲取掩碼特征圖;校準模塊,用于基于所述帶錨框的特征圖對所述掩碼特征圖進行像素校準,并用于對像素校準后的特征圖進行池化處理,以及基于池化處理后的特征圖對所述原始特征圖進行候選校準得到校準特征圖;行人識別模塊,用于對所述校準特征圖進行分類以識別行人所在位置。
4、在本發(fā)明的一些實施例中,所述區(qū)域生成模塊被配置為:采用錨框對所述原始特征圖進行候選目標框選后,按照預設的抽取規(guī)則計算原始特征圖中每一錨框被抽取的概率,并按照從大到小的順序對每一錨框被抽取的概率進行排序后選擇排序在前的預設個數(shù)的錨框并將其保留。
5、在本發(fā)明的一些實施例中,所述預設的抽取規(guī)則為:
6、
7、
8、其中,pj表示原始特征圖中第j個正侯選錨框被抽取的概率,λj表示原始特征圖中第j個正侯選錨框的遮擋因子,np表示預設個數(shù)值,n表示原始特征圖中正侯選錨框的總數(shù),表示原始特征圖中第j個正侯選錨框的遮擋率,表示原始特征圖中所有正侯選錨框的遮擋率的求和均值,k表示分類閾值。
9、在本發(fā)明的一些實施例中,所述空間注意力模塊包括依次連接的第一卷積層、第一激活函數(shù)、第二卷積層、第二激活函數(shù)、第三卷積層和歸一化層。
10、在本發(fā)明的一些實施例中,所述校準模塊包括:像素校準子模塊,用于對所述帶錨框的特征圖與所述掩碼特征圖進行特征融合以獲取融合特征圖;感興趣區(qū)域池化子模塊,用于對所述融合特征圖進行池化處理得到候選特征圖;候選校準子模塊,用于基于所述候選特征圖從所述原始特征圖中選取校準區(qū)域以獲取校準特征圖。
11、在本發(fā)明的一些實施例中,所述像素校準子模塊包括:元素乘積單元,用于對所述帶錨框的特征圖與所述掩碼特征圖進行逐元素相乘;元素相加單元,用于對所述元素乘積單元輸出的特征圖與所述帶錨框的特征圖進行逐元素相加。
12、在本發(fā)明的一些實施例中,所述感興趣區(qū)域池化子模塊采用roi?align層或roipooling層。
13、在本發(fā)明的一些實施例中,所述候選校準子模塊被配置為:以所述候選特征圖為基準,從所述原始特征圖中框選與所述候選特征圖對應的區(qū)域,并基于該區(qū)域確定第一區(qū)域校準框的大小,以及將該區(qū)域作為第一區(qū)域校準框所在的區(qū)域;按照預設的比例因子縮小第一區(qū)域校準框得到第二區(qū)域校準框,并以第二區(qū)域校準框為基準從所述原始特征圖中選擇第一區(qū)域校準框所在區(qū)域內像素總和最大的區(qū)域;按照預設的比例因子擴大第一區(qū)域校準框得到第三區(qū)域校準框,并以第三區(qū)域校準框為基準從所述原始特征圖中選擇同時包括第一區(qū)域校準框和第二區(qū)域校準框的區(qū)域。
14、在本發(fā)明的一些實施例中,所述候選校準模塊子輸出的校準特征圖為:
15、
16、其中,表示所述校準特征圖;f1表示所述原始特征圖中第一區(qū)域校準框所在的區(qū)域;f2表示所述原始特征圖中第一區(qū)域校準框所在的區(qū)域,且該區(qū)域內第二區(qū)域校準框所在的區(qū)域像素被置0;f3表示所述原始特征圖中第三區(qū)域校準框所在的區(qū)域,且該區(qū)域內第一區(qū)域校準框所在的區(qū)域像素被置0。
17、在本發(fā)明的一些實施例中,所述行人識別模塊采用兩個全連接層或一個全局平均池化層。
18、根據(jù)本發(fā)明的第二方面,提供一種行人檢測模型的訓練方法,所述方法包括:s1、獲取訓練集,所述訓練集包括多個圖像樣本,每個圖像樣本中均設置有行人標注框及其對應的邊框注釋和行人可見區(qū)域注釋;s2、采用步驟s1得到的訓練集將如第一方面所述的模型訓練至收斂,在訓練過程中基于預設的損失函數(shù)反向傳播更新模型參數(shù),所述預設的損失函數(shù)為:
19、ltotal=l1+ηlssa
20、
21、其中,ltotal表示行人檢測模型的總損失函數(shù),l1為第一損失,lssa為空間注意力模塊的損失,η為超參數(shù),m表示所述帶錨框的特征圖中錨框的數(shù)量,h表示所述帶錨框的特征圖的高,w表示所述帶錨框的特征圖的寬,pm(x,y)表示真實值,表示所述空間注意力模塊的輸出。
22、根據(jù)本發(fā)明的第三方面,提供一種行人檢測方法,所述方法包括:t1、獲取待處理圖像數(shù)據(jù);t2、采用如第一方面所述模型對步驟t1獲取到的待處理圖像數(shù)據(jù)進行行人檢測。
23、與現(xiàn)有技術相比,本發(fā)明的優(yōu)點在于:(1)設置空間注意力模塊使行人檢測模型重點關注行人的可見區(qū)域信息(特征)和具有較高辨識度的部位,使得行人檢測模型更好地檢測被遮擋的行人;(2)校準模塊的設置能夠增強行人的可見區(qū)域信息(特征),進一步提高行人檢測模型檢測行人的準確率。
1.一種行人檢測模型,用于檢測圖像中的行人,其特征在于,所述模型包括:
2.根據(jù)權利要求1所述的模型,其特征在于,所述區(qū)域生成模塊被配置為:
3.根據(jù)權利要求2所述的模型,其特征在于,所述預設的抽取規(guī)則為:
4.根據(jù)權利要求1所述的模型,其特征在于,所述空間注意力模塊包括依次連接的第一卷積層、第一激活函數(shù)、第二卷積層、第二激活函數(shù)、第三卷積層和歸一化層。
5.根據(jù)權利要求1所述的模型,其特征在于,所述校準模塊包括:
6.根據(jù)權利要求5所述的模型,其特征在于,所述像素校準子模塊包括:
7.根據(jù)權利要求6所述的模型,其特征在于,所述感興趣區(qū)域池化子模塊采用roialign層或roipooling層。
8.根據(jù)權利要求7所述的模型,其特征在于,所述候選校準子模塊被配置為:
9.根據(jù)權利要求8所述的模型,其特征在于,所述候選校準模塊子輸出的校準特征圖為:
10.根據(jù)權利要求1所述的模型,其特征在于,所述行人識別模塊采用兩個全連接層或一個全局平均池化層。
11.一種行人檢測模型的訓練方法,其特征在于,所述方法包括:
12.一種行人檢測方法,其特征在于,所述方法包括:
13.一種計算機可讀存儲介質,其特征在于,其上存儲有計算機程序,所述計算機程序可被處理器執(zhí)行以實現(xiàn)權利要求11-12任一所述方法的步驟。
14.一種電子設備,其特征在于,包括: