本發(fā)明涉及一種機器學習、模式分類和識別技術領域,特別涉及一種基于空間金字塔池化的深度網絡模型的車型識別方法。
背景技術:
城市公共交通作為市民出行的主要交通工具,在城市經濟和建設等方面起著越來越大的作用。2005年,我國城市公共交通體系中,公共汽車、電車就已占據主體,承擔了城市80%以上的客流量。隨著社會經濟的迅速發(fā)展和城鎮(zhèn)化進程速度的持續(xù)加快,城市公共交通壓力越發(fā)明顯。然而,在市民出行總量持續(xù)增長的情況下,由于缺少實時、確切的乘客流量和交通信息,經常出現(xiàn)乘客等車時間過長或車輛空車率過高等情況,使得城市公共交通分擔率連續(xù)降低,嚴重影響了市民生活水平的進步和城市的發(fā)展。
基于視頻圖像處理技術的統(tǒng)計方法已成為獲取公交車乘客流量信息的關鍵途徑。在國內外學者的努力下,針對乘客的目標檢測、跟蹤以及計數(shù)判定準則等方法得到了很大的發(fā)展,并逐漸成為研究公交車乘客人數(shù)統(tǒng)計方法的熱點。
最初的基于視頻圖像處理乘客流量技術分為行人檢測、目標跟蹤、虛擬線設置等三個步驟。d.m.gavrila等通過隨機優(yōu)化的方法針對目標輪廓建立分層模板,實現(xiàn)了行人的檢測。h.l.eng等采用背景差分法和結構分割獲得人體,計算人體部位的貝葉斯方程,實現(xiàn)計數(shù)。massimilianobozzoli等人采用光流法通過檢測場景中像素的變化對經過場景的行人目標進行統(tǒng)計計數(shù)。satarupamukherjee等針對乘客頭部的幾何特征,采用霍夫圓進行檢測計數(shù)。同時,也出現(xiàn)了去尋找行人運動軌跡特征等方法進行人數(shù)判定,該方法通過行人特征軌跡聚類或特征回歸進行人群計數(shù)。近幾年來,隨著深度學習的發(fā)展,ciregand又提出了一個適用人群計數(shù)的深度卷積神經網絡模型,相比于人工特征對人群有更好的表述能力,采用交替回歸該圖像塊的人群密度和人群總數(shù)來實現(xiàn)人數(shù)估計。zhangy等提出多列卷積神經網絡結構將圖像映射到其人群密度圖上,統(tǒng)計人數(shù)。
然而,傳統(tǒng)的采用幾何特征等方法來進行檢測并計數(shù)依賴于一個優(yōu)秀的預處理,而且往往難以分割出目標,且受光照、乘客間相互遮擋等影響大;傳統(tǒng)的針對多個攝像頭進行公交車內場景的建模并實現(xiàn)人數(shù)統(tǒng)計由于使用三維深度信息,所以對圖像中乘客判斷比較準確,受乘客間相互遮擋的影響較小,但是其也存在問題:(1)其具有成熟的模型,實用性好,但實時性有待提高;(2)通過行人特征軌跡聚類或者特征回歸進行人群計數(shù),其易于分析運動行為,但是算法復雜;(3)由于使用多個攝像頭,并需要準確標定,體積較大,系統(tǒng)成本也較高。
技術實現(xiàn)要素:
本發(fā)明的主旨在于為了克服現(xiàn)有技術中實時性差、計數(shù)不準確且速度慢、可靠性低以及虛警率高的缺點,提出實時性更好且檢測準確率高的針對公交車復雜下車內乘客人數(shù)統(tǒng)計方法,為實現(xiàn)實時獲得公交車內乘客擁擠狀況信息的公交車運營公司提供技術支持和指導。
為了解決上述技術問題,達到上述目的,本發(fā)明所采用的技術方案如下所述。
一種基于視覺的公交車內乘客人數(shù)統(tǒng)計方法,其特征在于,包括如下步驟:
步驟1:制作公交車場景下人頭樣本庫,提取人頭樣本庫中樣本的梯度方向直方圖(hog)特征,并采用支持向量機(svm)對樣本的hog特征進行線下學習,得到公交車場景下人頭分類器;
步驟2:輸入待檢測的視頻,提取待檢測的視頻的當前幀圖像并進行預處理,再對預處理后的當前幀圖像進行降采樣,對降采樣后的圖像提取興趣區(qū)域(roi),計算提取的roi內的hog特征,再通過步驟1訓練好的人頭分類器進行乘客人頭目標識別;
步驟3:若無檢測隊列和跟蹤隊列,則新建檢測隊列和跟蹤隊列,再轉入步驟4;否則直接轉入步驟4;
步驟4:判定分類器是否檢測到目標;若檢測到人頭目標,采用非極大值抑制算法(nms)進行多余框處理并標記目標區(qū)域,將目標區(qū)域加入到檢測隊列,再判定跟蹤隊列是否為空,若為空,則將目標區(qū)域加入到跟蹤隊列;若不為空,則對跟蹤隊列中已有目標采用核相關濾波跟蹤算法(kcf)進行跟蹤,并用新的目標區(qū)域更新當前跟蹤隊列;若當前幀內檢測隊列和跟蹤隊列都不為空,則進行步驟5;
步驟5:將檢測隊列和跟蹤隊列通過匈牙利算法進行數(shù)據關聯(lián),若關聯(lián)匹配成功,則將跟蹤隊列中該目標的屬性用跟蹤隊列關聯(lián)上的檢測隊列中目標的屬性更新代替,若關聯(lián)匹配失敗,則作為新目標加入到跟蹤隊列;
步驟6:對跟蹤隊列各目標進行運動軌跡分析,設置虛擬線,當有目標“越過”,則上或下車人數(shù)加或減一,得到當前幀車內乘客人數(shù);
步驟7:判定當前幀是否為最后一幀,若不是,則進入下一幀重復步驟2到步驟7;否則,步驟6所得車內乘客人數(shù)為最終車內乘客人數(shù)。
上述技術方案中,所述步驟1中具體有以下幾個步驟:
步驟1.1:獲取公交車視頻,從公交車待檢測的視頻中截取制作正負樣本,正樣本為公交車場景下人頭區(qū)域圖像,負樣本為公交車場景下非人頭區(qū)域圖像;
步驟1.2:將各個正負樣本由rgb圖像轉化為灰度圖像,轉化公式為:
gray=(r*299+g*587+b*114+500)/1000(1)
步驟1.3:計算灰度圖像中任一像素點(x,y)的梯度,計算公式為:
式中,gx(x,y)、gy(x,y)、h(x,y)分別表示輸入灰度圖像的像素點(x,y)處的水平方向梯度、垂直方向梯度和像素值;
步驟1.4:計算像素點(x,y)處的梯度幅度和梯度方向,計算公式為:
式中,g(x,y)為該點梯度幅度,α(x,y)為該點梯度方向;
步驟1.5:利用步驟1.4中求得的各像素點的梯度方向α(x,y)來構建梯度方向的直方圖,接著將窗口圖像劃分成若干個cells,統(tǒng)計每個cell的梯度方向直方圖,即可形成每個cell的描述符,然后將連續(xù)幾個cell組成一個block,一個block內所有cell的特征描述符串聯(lián)起來便得到該block的hog特征描述符,最后將圖像內的所有block的hog特征描述符串聯(lián)起來就可以得到該灰度圖像樣本的hog特征;
步驟1.6:進行區(qū)間歸一化,即對步驟1.5最后得到的該通道分量的hog特征進行歸一化,由于局部光照的變化以及前景-背景對比度的變化,使得梯度強度的變化范圍非常大,因此需要對梯度強度作歸一化。
上述技術方案中,所述步驟2具體有以下幾個步驟:
步驟2.1:對輸入待檢測的視頻的當前幀圖像進行降采樣處理,先提取圖像f(x,y)的寬和高,分別記為m和n。然后根據寬m和高n是否為偶數(shù)進行相應的處理,如果為偶數(shù)則直接進行降采樣操作,否則先舍棄圖像f(x,y)的最后一行或最后一列,再進行降采樣操作;
降采樣方式為隔行隔列降采樣,計算公式為:
式中m為輸出圖像g(x,y)的寬,n為輸出圖像g(x,y)的高;
步驟2.2:針對所檢測的公交車視頻,對降采樣圖像g(x,y)提取roi。
步驟2.3:計算興趣區(qū)域內的梯度方向直方圖特征,再通過步驟1訓練好的人頭分類器進行乘客人頭目標識別;
上述技術方案中,所述步驟4具體有以下幾個步驟:
步驟4.1:新建檢測隊列和跟蹤隊列,判定人頭分類器是否檢測到人頭目標,當人頭分類器檢測到人頭目標后,會出現(xiàn)交叉重復的矩形框,采用nms進行多余矩形框剔除,得到最佳的目標位置,并將包含最佳目標位置的當前圖像以及最佳目標位置加入到檢測隊列;
步驟4.2:判斷跟蹤隊列是否為空,若為空,則讀取跟蹤隊列中的目標,設跟蹤隊列中的樣本圖像集為m,其中一張樣本圖像為xc,記xc是1×n的向量,使用循環(huán)移位矩陣p對唯一的樣本圖像進行循環(huán)移位,得到訓練樣本集合{pixc|i=0,1,…,n-1},其中p為:
記xi為循環(huán)移動i位后的訓練樣本,xi=pixc,將x0x1…xn-1構成循環(huán)矩陣x;
x=c(x)=[x0x1…xn-1]t(6)
然后對訓練樣本集合賦予標簽yi,yi服從高斯分布;
步驟4.3:對跟蹤隊列中已有目標進行kcf分類器訓練,訓練分類器的過程可以用以下數(shù)學公式描述:
其中,λ是正則化參數(shù),用來防止過擬合,w指訓練xi與其對應標簽yi構成的點zi=(xi,yi)前面的系數(shù),通過求解使得式(7)最小,得最優(yōu)解為:
式中,ai為對應訓練樣本xi的系數(shù),
式中,xc'為與xc不同的另外一張樣本圖像,f是離散傅里葉變換;f-1為離散傅里葉逆變換,由所有訓練樣本pixc構造核矩陣k,k的元素ki,j=κ(xi,xj),其中,xi,xj就是步驟4.2中的循環(huán)移動i位和j位后的訓練樣本;
參考線性最小二乘法求解方法對式(7)進行求解,得到基于核函數(shù)的嶺回歸的解為
a=(k+λi)-1y(10)
對上式進行傅里葉變換,得
式中,
步驟4.4:快速檢測,對于新輸入的圖像區(qū)域z,z為目標的概率大小為:
ai是a中的元素,kcf同樣對新輸入的圖像z進行循環(huán)移位操作來構造候選區(qū)域樣本集pi-1z,定義矩陣kz=κ(pi-1z,pj-1xc),其滿足循環(huán)矩陣的條件:
式中,
可知f(z)為1×n向量,f(z)元素值對應所有候選區(qū)域稱為跟蹤目標的概率值,f(z)取到最大值的元素所對應區(qū)域即為跟蹤目標,并用該跟蹤目標的新信息去更新跟蹤隊列。
上技術方案中,由于檢測不一定保證每幀都能檢測到對應的目標,因此對于同一乘客的檢測框和跟蹤框需要用同一種方法進行匹配,讓計算機判定為同一目標,以防重復計數(shù),所述步驟5采用匈牙利算法,具體有以下幾個步驟:
步驟5.1:設{dk}和{tl}分別為檢測隊列和跟蹤隊列,{xk,yk}為檢測序列中第k個檢測目標的中心點,{xl,yl}為跟蹤序列中第l個檢測目標的中心點。定義二者的空間距離為:
由此可得跟蹤目標隊列和檢測目標隊列之間的距離矩陣為:
步驟5.2:如果dkl在距離矩陣a第k行和第l列中均屬于最大值,則認為檢測目標dk能和跟蹤目標tl正確關聯(lián)匹配上。然后去掉矩陣a中的k行和l列,得到新矩陣a*,在a*中繼續(xù)尋找滿足關聯(lián)條件的
與現(xiàn)有技術相比,本發(fā)明有如下有益效果:
(1)區(qū)別于傳統(tǒng)的針對多個攝像頭進行公交車內場景的建模并實現(xiàn)人數(shù)統(tǒng)計,具有實時性高,計數(shù)準確等特點;
(2)通過大量公交車內視頻樣本測試表明,本方法較于傳統(tǒng)方法識別率高、計數(shù)速度快、虛警率低且可靠性高;
(3)對公交車內復雜場景下的乘客人數(shù)統(tǒng)計技術不僅僅為實現(xiàn)實時獲得公交車內乘客擁擠狀況信息的公交車運營公司提供技術支持和指導,并且在商場、電梯等場景也能延伸應用。
附圖說明
圖1為乘客計數(shù)系統(tǒng)算法設計流程;
圖2為樣本庫正負樣本圖像;
圖3為動態(tài)場景乘客目標檢測效果圖;
圖4為動態(tài)場景乘客目標檢測及跟蹤效果圖;
圖5為動態(tài)場景乘客下車人數(shù)統(tǒng)計效果圖。
具體實施方式
下面結合試驗例及具體實施方式對本發(fā)明作進一步的詳細描述。但不應將此理解為本發(fā)明上述主題的范圍僅限于以下的實施例,凡基于本發(fā)明內容所實現(xiàn)的技術均屬于本發(fā)明的范圍。
本發(fā)明提出了一種基于視覺的公交車內乘客人數(shù)統(tǒng)計方法,在公交車內的乘客量識別上取得了良好的效果。整個算法設計方案流程如圖1所示,包括步驟:
步驟1:制作公交車場景下人頭樣本庫,提取人頭樣本庫中樣本的梯度方向直方圖(hog)特征,并采用支持向量機(svm)對樣本的hog特征進行線下學習,得到公交車場景下人頭分類器;
具體地,hog特征是一種局部區(qū)域描述符,它通過計算局部區(qū)域上的梯度方向直方圖來構成人體特征,能夠很好地描述人體的邊緣。由于hog特征對圖像幾何和光學的形變能保持很好的不變形,因此應用于行人檢測相比其他特征描述子擁有更大的優(yōu)勢。支持向量機是一種監(jiān)督式學習的方法,被廣泛應用于統(tǒng)計分類以及回歸分析中,因此采用svm來進行樣本分類和訓練,然后得到公交車場景下關于人頭的線性目標分類模型的分類器,包括以下幾個步驟:
步驟1.1:獲取公交車視頻,從公交車待檢測的視頻中截取圖像制作正負樣本,正樣本為公交車場景下人頭區(qū)域圖像,負樣本為公交車場景下非人頭區(qū)域圖像,本實例將正負樣本大小統(tǒng)一歸一化為64*64,如圖2所示;
步驟1.2:將各個正負樣本由rgb圖像轉化為灰度圖像,轉化公式為:
gray=(r*299+g*587+b*114+500)/1000(1)
步驟1.3:計算灰度圖像中任一像素點(x,y)的梯度,計算公式為:
式中,gx(x,y)、gy(x,y)、h(x,y)分別表示輸入灰度圖像的像素點(x,y)處的水平方向梯度、垂直方向梯度和像素值;
步驟1.4:計算像素點(x,y)處的梯度幅度和梯度方向,計算公式為:
式中,g(x,y)為該點梯度幅度,α(x,y)為該點梯度方向;
步驟1.5:利用步驟1.4中求得的各像素點的梯度方向α(x,y)來構建梯度方向的直方圖,接著將窗口圖像劃分成若干個cells,本實例將64*64窗口圖像劃分成8*8個cells,并統(tǒng)計每個cell的梯度方向直方圖,即可形成每個cell的描述符,再接著將連續(xù)2個cell組成一個block,總共有7*7個block,一個block內所有cell的特征描述符串聯(lián)起來便得到該block的hog特征描述符,最后將圖像內的所有block的hog特征描述符串聯(lián)起來就可以得到該通道分量的hog特征,本實例中得到的hog特征向量維數(shù)為2×2×9×7×7=1764;
步驟1.6:進行區(qū)間歸一化,即對步驟1.5最后得到的該通道分量的梯度方向直方圖特征的向量進行歸一化。由于局部光照的變化以及前景-背景對比度的變化,使得梯度強度的變化范圍非常大,因此需要對梯度強度作歸一化。本實例采用如下歸一化方式:
式中,v表示還沒有歸一化的向量,ε表示一個很小的常量;
步驟2:輸入待檢測的視頻,提取待檢測的視頻的當前幀圖像并進行預處理,再對預處理后的當前幀圖像進行降采樣,對降采樣后的圖像提取感興趣區(qū)域(roi),計算roi內的hog特征,再通過步驟1訓練好的人頭分類器進行乘客人頭目標識別;
具體地,使用roi圈定目標,可以減少處理時間,增加精度,包括以下幾個步驟:
步驟2.1:對輸入待檢測的視頻的當前幀圖像進行降采樣處理,先提取圖像f(x,y)的寬和高,分別記為m和n。本實例中,m=1280,n=780,因為寬m和高n均為偶數(shù)則直接進行降采樣操作;
降采樣方式為隔行隔列降采樣,其公式為:
式中,m為輸出圖像g(x,y)的寬,n為輸出圖像g(x,y)的高;
步驟2.2:針對所檢測的公交車視頻,對降采樣圖像g(x,y)選取合適的roi,本實例中roi區(qū)域大小為545*320;
步驟2.3:計算興趣區(qū)域內的梯度方向直方圖特征,再通過步驟1訓練好的人頭分類器進行乘客人頭目標識別。
步驟3:若無檢測隊列和跟蹤隊列,則新建檢測隊列和跟蹤隊列,再轉入步驟4;否則直接轉入步驟4;
步驟4:判定分類器是否檢測到目標;若檢測到人頭目標,采用非極大值抑制算法(nms)進行多余框處理并標記目標區(qū)域,將目標區(qū)域加入到檢測隊列,再判定跟蹤隊列是否為空,若為空,則將目標區(qū)域加入到跟蹤隊列;若不為空,則對跟蹤隊列中已有目標采用核相關濾波跟蹤算法(kcf)進行跟蹤,并用新的目標區(qū)域更新當前跟蹤隊列;若當前幀內檢測隊列和跟蹤隊列都不為空,則進行步驟5;
具體地,若檢測到人頭目標,采用nms可以過濾掉一些內部窗口等,達到窗口融合效果,從而使檢測的準確率更高。在判定跟蹤隊列若不為空時,對跟蹤隊列中已有目標采用kcf算法,其跟蹤效果和跟蹤速度優(yōu)秀,可以進行有效地跟蹤,具體步驟如下:
步驟4.1:判定人頭分類器是否檢測到人頭目標,當人頭分類器檢測到人頭目標后,會出現(xiàn)交叉重復的矩形框,于是采用nms進行多余矩形框剔除,得到最佳的目標位置,并將包含最佳目標位置的當前圖像和最佳目標位置加入到檢測隊列。本實例人頭分類器進行人頭檢測效果如圖3所示,其中乘客人頭的檢測框用外接矩形框來表示;
步驟4.2:判斷跟蹤隊列是否為空,若為空,則讀取跟蹤隊列中的目標,設跟蹤隊列中的樣本圖像為xc,記xc是1×n的向量,使用循環(huán)移位矩陣p對唯一的樣本圖像進行循環(huán)移位,得到訓練樣本集合{pixc|i=0,1,…,n-1},其中p為:
記xi為循環(huán)移動i位后的訓練樣本,xi=pix,將x0x1…xn-1構成循環(huán)矩陣x;
x=c(x)=[x0x1…xn-1]t(6)
然后對訓練樣本集合賦予標簽yi,yi服從高斯分布;
步驟4.3:對跟蹤隊列中已有目標進行kcf分類器訓練,訓練分類器的過程可以用以下數(shù)學公式描述:
λ是正則化參數(shù),用來防止過擬合,w指訓練xi與其對應標簽yi構成的點zi=(xi,yi)前面的系數(shù),通過求解使得式(7)最小,得最優(yōu)解為:
式中,ai為對應訓練樣本xi的系數(shù),
式中,xc'為與xc不同的另外一張樣本圖像,f是離散傅里葉變換;f-1為離散傅里葉逆變換。由所有訓練樣本pixc構造核矩陣k,k的元素ki,j=κ(xi,xj),其中,xi,xj就是步驟4.2中的循環(huán)移動i位和j位后的訓練樣本;
參考線性最小二乘法求解方法對式(7)進行求解,得到基于核函數(shù)的嶺回歸的解為:
a=(k+λi)-1y(10)
對上式進行傅里葉變換,得
式中,
步驟4.4:快速檢測,對于新輸入的圖像區(qū)域z,z為目標的概率大小為:
其中,ai是a中的元素,kcf同樣對新輸入的圖像z進行循環(huán)移位操作來構造候選區(qū)域樣本集pi-1z,定義矩陣kz=κ(pi-1z,pj-1xc),其滿足循環(huán)矩陣的條件:
式中,
可知f(z)為1×n向量,f(z)元素值對應所有候選區(qū)域稱為跟蹤目標的概率值,f(z)取到最大值的元素所對應區(qū)域即為跟蹤目標,并用該跟蹤目標的新信息去更新跟蹤隊列。本實例中某段視頻跟蹤效果如圖4所示,其中乘客的跟蹤框用外接圓形框來表示;
步驟5:將檢測隊列和跟蹤隊列通過匈牙利算法進行數(shù)據關聯(lián),若關聯(lián)匹配成功,則將跟蹤隊列中該目標的屬性用跟蹤隊列關聯(lián)上的檢測隊列中目標的屬性更新代替,若關聯(lián)匹配失敗,則作為新目標加入到跟蹤隊列;
具體地,由于檢測不一定保證每幀都能檢測到對應的目標,因此對于同一乘客的檢測框和跟蹤框需要用一種方法進行匹配,讓計算機判定為同一目標,以防重復計數(shù)。本實例中數(shù)據關聯(lián)匹配采用匈牙利算法,包括以下幾個步驟:
步驟5.1:設{dk}和{tl}分別為檢測隊列和跟蹤隊列,{xk,yk}為檢測序列中第k個檢測目標的中心點,{xl,yl}為跟蹤序列中第l個檢測目標的中心點,定義二者的空間距離為:
由此可得跟蹤目標隊列和檢測目標隊列之間的距離矩陣為:
步驟5.2:如果dkl在距離矩陣a第k行和第l列中均屬于最大值,則認為檢測目標dk能和跟蹤目標tl正確關聯(lián)匹配上,然后去掉矩陣a中的k行和l列,得到新矩陣a*,在a*中繼續(xù)尋找滿足關聯(lián)條件的
步驟6:對跟蹤隊列各目標進行運動軌跡分析,設置虛擬線,若有目標“越過”,則上或下車人數(shù)加或減一,得到當前幀車內乘客人數(shù),本實例測試出的下車人數(shù)如圖5所示,其中下車人數(shù)用變量exitnum來表示,該視頻當前幀數(shù)用變量framenum來表示;
步驟7:判定當前幀是否為最后一幀,若不是,則進入下一幀重復步驟2到步驟7;否則,步驟6所得車內乘客人數(shù)為最終車內乘客人數(shù)。