一種基于正負廣義最大池化的行人識別方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于計算機視覺技術(shù)領(lǐng)域,具體設(shè)及一種基于正負廣義最大池化的行人識 別方法。
【背景技術(shù)】
[0002] 行人識別在智能交通系統(tǒng)和智能監(jiān)控系統(tǒng)中具有廣泛的應(yīng)用前景,但它目前仍然 是計算機視覺領(lǐng)域公開的難題,原因是行人外觀和背景環(huán)境,如衣著、姿勢、光照、視角等變 化很大,加之背景復(fù)雜,識別的準確率不高。
[0003] 在整個行人檢測系統(tǒng)中,特征池化越來越重要。特征池化的思想來源于對紋狀皮 質(zhì)層復(fù)雜細胞的研究,它已成為圖像/視頻特征表示和編碼常用方法。用于行人識別的基本 池化方法有最大池化、求和池化、平均池化和Ip池化。最大池化是一種廣泛應(yīng)用于計算機視 覺領(lǐng)域的特征池化方法,但由于最大池化不區(qū)分編碼系數(shù)的符號而只選擇其最大絕對值, 因此減弱了其分類辨別能力。求和池化適用于任何編碼,然而由于無信息量的描述子頻繁 的影響結(jié)果表示,而潛在的具有高度信息量的描述子卻對結(jié)果表示幾乎沒有影響,使得求 和池化缺乏辨別力。平均池化是一種量化方法,在平均池化中考慮池化區(qū)域的所有元素,然 而運種方法很容易丟失每一塊的空間信息。Ip池化具有理想的辨別力池化結(jié)果,Ip池化是W 一種更詳盡的方式對其進行建模,但是Ip池化階段算法需要進一步的研究。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明是為了克服現(xiàn)有技術(shù)存在的不足之處,提供一種基于正負廣義最大池化的 行人識別方法,W期能有效地克服行人外觀形變與復(fù)雜背景環(huán)境的影響,獲得較好的分類 性能,從而有效提高行人識別率,增強行人識別算法的魯棒性。
[0005] 本發(fā)明為解決技術(shù)問題采用如下技術(shù)方案:
[0006] 本發(fā)明一種基于正負廣義最大池化的行人識別方法的特點是按如下步驟進行:
[0007] 步驟1、從交通視頻中隨機選取N個行人訓(xùn)練圖像和N個非行人訓(xùn)練圖像,對所述N 個行人訓(xùn)練圖像和N個非行人訓(xùn)練圖像分別進行預(yù)處理,獲得N個行人正樣本訓(xùn)練圖像和N 個非行人負樣本訓(xùn)練圖像;
[000引步驟2、利用冊G局部特征描述子對所述N個行人正樣本訓(xùn)練圖像和N個非行人負樣 本訓(xùn)練圖像分別進行特征提取,獲得行人特征集合X+和非行人特征集合
[0009] 步驟3、利用式(1)所示的深度分層編碼函數(shù)獲得第n個行人正樣本訓(xùn)練圖像中第j 個行人特征編碼向量zf和第n個非行人負樣本訓(xùn)練圖像中第j個非行人特征編碼向量zf ;
[0010]
[0011]式(I )中,Wj表示受限玻爾茲曼機加權(quán)矩陣W第j列的元素,WU是受限玻爾茲曼機加 權(quán)矩陣W第i行第j列的元素,fenc( ?,?)是前饋編碼函數(shù),〇( ?)是sigmoid傳輸函數(shù),I為局 部圖像描述子的維數(shù);'是第n個行人正樣本訓(xùn)練圖像的第i個行人特征,;是第n個非 行人負樣本訓(xùn)練圖像的第i個非行人特征;1 <i<I;l<n<N;l<j<J;
[001。步驟4、將所述第n個行人正樣本訓(xùn)練圖像中所有行人特征編碼向量皆。?,....#....別 進行級聯(lián),獲得第n個行人正樣本訓(xùn)練圖像的行人特征編碼向量£;
[001引將所述第n個非行人負樣本訓(xùn)練圖像的所有非行人特征編碼向量y,>,公,...,2^,....方I 進行級聯(lián),獲得第n個非行人負樣本訓(xùn)練圖像的非行人特征編碼向量之;:;
[0014] 步驟5、對所述行人特征編碼向量Zl按列排序,記為對所述非行人特征編碼向 量Z;:按列排序,記為;由Z+和構(gòu)成特征編碼向量Z;
[0015] 步驟6、采用正負廣義最大池化方法對所述特征編碼向量Z進行優(yōu)化處理,獲得特 征表不向量Y;
[0016] 步驟6.1、利用式(2)所示的最大池化式對所述特征編碼向量Z進行處理,獲得第U 個最大池化特征表示向量yu:
[0017] yu=max{ I Zui I , I Zu21 ,…,I Zunl ,, I ZuN I } (2)
[001引式(2)中,Zun為所述特征編碼向量Z的第U行第n列元素;1 < U < N;
[0019] 步驟6.2、利用式(3)對所述最大池化特征表示向量yu進行處理,獲得第U個正負最 大池化特征表不向量yu, PN-MP :
[0020]
(3)
[0021] 式(3)中,Zuv為所述特征編碼向量Z的第U行第V列;
[0022] 從而獲得所有正負最大池化表不向量{yl,PN-MP,y2,PN-MP,???,yu,PN-MP,???,yN,PN-Mp}; [002;3]對所述所有正負最大池化表不向量{yl,PN-MP,y2,PN-MP,???,yu,PN-MP,???,yN,PN-Mp}按列 排序,記為y;
[0024] 步驟6.3、利用式(4)的正負廣義最大池化式對所述正負最大池化特征表示向量y 進行處理,獲得特征表示向量Y:
[0025]
(4)
[0026] 式(4)中,yT是y的轉(zhuǎn)置矩陣,表示值全為1的N維向量,A是正則化參數(shù);
[0027] 步驟7、利用支持矢量機對所述特征表示向量Y進行訓(xùn)練,獲得分類識別模型和分 類函數(shù)闊值T;
[0028] 步驟8、對待識別的測試圖像分別按照步驟1和步驟2進行預(yù)處理和HOG特征提取, 獲得測試圖像的特征集合XC;
[0029] 步驟9、利用式(5)所示的編碼函數(shù)獲得測試圖像的第j個特征編碼向量Zw,從而獲 得測試圖像的所有特征編碼向量{ ZCl,ZC2,? ? ?,ZCj,…,ZCJ }:
[0030]
口)
[0031] 式(5)中,XCi是測試圖像特征集合XC中第i個測試圖像特征;
[0032] 對所述測試圖像的所有特征編碼向量{ ZCl,ZC2,…,ZCj,…,ZCJ}按列排序,記為Zc ;
[0033] 步驟10、采用正負廣義最大池化方法對所述測試圖像的特征編碼向量Zc進行優(yōu)化 處理,獲得測試圖像的特征表示向量Yc;
[0034] 步驟11、將所述測試圖像的特征表示向量Y。輸入所述分類識別模型中,從而獲得 識別結(jié)果;若所述識別結(jié)果大于分類函數(shù)闊值T,則表示所述測試圖像為行人圖像,否則表 示所述測試圖像為非行人圖像。
[0035] 與已有技術(shù)相比,本發(fā)明有益效果體現(xiàn)在:
[0036] 1、本發(fā)明首先采用深度學(xué)習(xí)混合分層結(jié)構(gòu)的方式對行人進行分層特征表示,W獲 得高層圖像表示向量;然后使用堆疊3個受限玻爾茲曼機的深度學(xué)習(xí)模型編碼HOG描述符, 把從一個平面編碼HOG描述符的工作擴展到了一個深度結(jié)構(gòu);接著,采用在模型內(nèi)部通過池 化方法利用空間信息;隨后,在最大池化基礎(chǔ)上提出了正負廣義最大池化方法,W提高行人 分類識別的辨別力;最后,采用支持向量機技術(shù),充分利用高層圖像特征表示向量中的信息 實現(xiàn)行人分類,從而解決了行人外觀形變與復(fù)雜背景下的行人識別問題,提高了行人識別 率,實現(xiàn)了 一種高效的行人識別方法。
[0037] 2、本發(fā)明采用深度學(xué)習(xí)混合分層結(jié)構(gòu)的方式對行人進行分層特征表示,混合分層 結(jié)構(gòu)包括:HOG局部描述符的局部特征提取,局部特征編碼,空間池化形成高層圖像特征表 示向量和利用支持向量機的行人分類識別;進行局部特征編碼時,利用一種基于受限玻爾 茲曼機的深度分層結(jié)構(gòu),充分利用了深度學(xué)習(xí)的適應(yīng)性和表達能力,提高了對外觀形變和 不同行人場景的適應(yīng)能力。
[0038] 3、本發(fā)明采用基于受限玻爾茲曼機深度分層結(jié)構(gòu)編碼HOG局部特征,既強調(diào)了網(wǎng) 絡(luò)結(jié)構(gòu)的深度又突出了特征表達的能力,使編碼冊G描述符的工作由一個平面擴展到了一 個深度結(jié)構(gòu),提高了編碼效率。
[0039] 4、本發(fā)明采用在模型內(nèi)部通過池化方法利用空間信息,在模型內(nèi)部利用池化方法 的聚合表示可W有效的利用空間信息,更多的提取有效的特征表示。
[0040] 5、本發(fā)明采用正負廣義最大池化方法對編碼局部特征進行聚合,運種池化方法充 分克服了統(tǒng)計匯總期間的空間信息不可恢復(fù)的損失和有關(guān)特征分布的底層過簡化的假設(shè), 提高了行人分類識別的辨別力。
[0041] 6、本發(fā)明采用支持向量機分類算法解決了行人分類識別問題,在機器學(xué)習(xí)中支持 向量機是一種簡單高效的分類器,高斯核函數(shù)可W有效提高數(shù)據(jù)在非線性條件下的可區(qū)分 性,提高了行人分類識別率。
【附圖說明】
[0042] 圖1為本發(fā)明的結(jié)構(gòu)示意圖;
[0043] 圖2為本發(fā)明的行人識別流程圖;
[0044] 圖3為本發(fā)明的深度分層受限玻爾茲曼機的示意圖。
【具體實施方式】
[0045] 本實施例中,如圖1和圖2所示,一種基于正負廣義最大池化的行人識別方法包括 W下過程:首先對采集的交通視頻進行預(yù)處理,獲得需要的訓(xùn)練樣本圖像,然后利用基于梯 度的冊G局部描述符提取訓(xùn)練樣本圖像的局部特征,并通過一個由空間聚集受限玻爾茲曼 機組成的深度分層編碼方法對局部特征進行編碼,形成訓(xùn)練樣本的特征編碼向量,再采用 正負廣義最大池化方法得到高層圖像特征表示向量,接著,將獲得的特征數(shù)據(jù)輸入支持向 量機分類器,完成訓(xùn)練;隨后,對待測的行人圖像進行預(yù)處理,得到測試樣本,用同樣的方式 獲得測試樣本的特征表示向量后;再將測試樣本的特征表示向量輸入訓(xùn)練完成的支持向量 機分類器,最終識別測試圖像為行人還是非行人。具體地說,是按如下步驟進行:
[0046] 步驟1、從車載系統(tǒng)的交通視頻中采集圖像,隨機選取N個行人訓(xùn)練圖像和N個非行 人訓(xùn)練圖像,對N個行人訓(xùn)練圖像和N個非行人訓(xùn)練圖像分別進行預(yù)處理,獲得N個行人正樣 本訓(xùn)練圖像和N個非行人負樣本訓(xùn)練圖像;
[0047] 步驟1. 1、從車載系統(tǒng)的交通視頻中隨機選取N個行人訓(xùn)練圖像和N個非行人訓(xùn)練 圖像,對N個行人訓(xùn)練圖像和N個非行人訓(xùn)練圖像進行歸一化處理,分別獲得像素大小為128 X 64的N個正樣本和N個負樣本;
[0048] 步驟1.2、分別對N個正樣本和N個負樣本進行灰度化處理,分別獲得N個正樣本的 灰度圖和N個負樣本的灰度圖;
[0049] 步驟1.3、對N個正樣本的灰度圖和N個負樣本的灰度圖進行灰度均衡化處理,分別 獲得N個正樣本的灰度均衡化圖像和N個負樣本的灰度均衡化圖像;
[0050] 步驟1.4、對N個正樣本的灰度均衡化圖像和N個負樣本的灰度均衡化圖像分別用 高斯濾波算法進行去噪平滑處理,從而獲得N個行人正樣本訓(xùn)練圖像和N個非行人負樣本訓(xùn) 練圖像;
[0051] 步驟2、利用冊G局部特征描述子對N個行人正樣本訓(xùn)練圖像和N個非行人負樣本訓(xùn) 練圖像分別進行特征提取,獲得行人特征集合X+和非行人特征集合
[0052] 目前,在計算機視覺和模式識別等領(lǐng)域中,可用于特征提取的方法很多,HOG是現(xiàn) 階段單一特征中性能較好的一種,主要用來描述圖像的局部紋理特征且方法簡單實用,因 此較為常用,通常通過計算和統(tǒng)計圖像局部區(qū)域的梯度方向直方圖來構(gòu)成特征。
[0053] 步驟3、利用式(1)所示的深度分層編碼函數(shù)獲得第n個行人正樣本訓(xùn)練圖像的第j 個行人特征編碼向量zf'和第n個非行人負樣本訓(xùn)練圖像的第j個非行人特征編碼向量zf;:
[0054]
(1)
[0055] 式(1)中,Wj是受限玻爾茲曼機加權(quán)矩