本發(fā)明屬于目標檢測
技術(shù)領(lǐng)域:
,尤其是一種基于深度學習框架對圖像進行特征提取的目標檢測方法。
背景技術(shù):
:視覺是人類與周圍世界交互所依賴的重要的感官形式。在人類大腦中處理信息有超過80%的部分來自于視覺信息,從而保證我們能夠在日常生活中智能感知世界并做出適當?shù)男袨?,尤其是在移動智能設(shè)備快速發(fā)展的今天,越來越多的圖像傳感器分布在我們周圍,被我們自己所使用。人類視覺系統(tǒng)可從復(fù)雜的環(huán)境中檢測到目標物體并對其定位,這是人類視覺的基本功能。計算機的目標檢測與識別,旨在利用機器針對特定的目標進行檢測與定位,是進行目標搜索和跟蹤的基礎(chǔ)。目標檢測與識別在計算機視覺中具有重要的研究地位,并受到國內(nèi)外研究者的廣泛關(guān)注。隨著計算機視覺技術(shù)及硬件技術(shù)的發(fā)展,基于機器視覺的產(chǎn)品己有較多應(yīng)用,如軍事、航空航天等,特別在較為危險的環(huán)境,如礦井、火災(zāi)、火山中,其應(yīng)用較為突出。AndrewNg也提到圖像和語音是未來發(fā)展的新的方向。因此,目標檢測與識別是圖像分析和理解的基礎(chǔ),深入研究目標檢測與識別算法,在學術(shù)界和工業(yè)界都有著非常重要的意義。然而,對于機器而言,目標檢測和識別還存在較大的問題,如識別的準確度、實時性都有待于提高。目標檢測算法可以分為兩類基于滑動窗日模型的目標檢測和基于廣義霍夫變換的目標檢測?;瑒哟翱谀P途褪峭ㄟ^使用訓練好的模板,在輸入圖像上滑動獲得最大的響應(yīng),比較簡單有效。而廣義霍夫變換則是通過霍夫投票在對應(yīng)的霍夫圖像上進行權(quán)值累加,通過計算局部極值得到目標物體的位置。Darmstadt在2005年P(guān)ASCAL競賽中物體檢測類任務(wù)采用了廣義霍夫變換,先對物體進行興趣點檢測,建立興趣點直方圖,提取物體的將征向量,通過廣義霍夫投票來推測物體尺度與位置。Dalai和Triggs提出了Hog模型,并在滑動窗口檢測的框架下,使用線性分類器進行分類,并獲得了好的效果。但是Dalai的模型是一個全局剛性的模型,需要對整個物體進行全局匹配,對物體形變不能很好的匹配。Hog特征是物體檢測領(lǐng)域的使用最廣泛的特征之一。2007年P(guān)edroFelzenszwalb等人提出了形變部件模型,并獲得了當年的PASCAL物體檢測的冠軍。形變部件模型由一個根模型和若干個可形變部件組成,并且在支持向量機中引入隱變量,底層使用了Hog特征。形變部件模型的提出,在物體檢測領(lǐng)域具有里程碑式的意義,當今,物體檢測的基本框架大都是基于形變部件模型。Hinton教授在2012年Imagenet競賽上首次使用了深度卷積神經(jīng)網(wǎng)絡(luò),獲得了前所未有的成功,其方法主要是通過構(gòu)造多層卷積網(wǎng)絡(luò),采用半監(jiān)督學習的方法,機器自動學習特征,并進行分類。Hinton教授的成功,吸引了國內(nèi)外大量學者的關(guān)注。同時,工業(yè)界加入深度學習的研究中來。百度、google、facebook紛紛建立深度學習實驗室,通過深度學習,進行圖像識別與分類。但是,雖然深度學習獲得了如此大的成功,但是訓練時間花銷大、需要數(shù)據(jù)量多、沒有理論支撐等問題依然沒有解決。近年來,為了提高物體檢測的速度,有關(guān)候選物體建議的方法先后被提出并應(yīng)用到物體檢測中來。R.Girshick使用selectivesearch的候選物體框作為物體識別的圖片在PASCALVOC種取得了最好的效果,并具有較快的執(zhí)行速度。國內(nèi)的中科院自動化研究所模式識別實驗室在物體檢測方面同樣取的了非常大的成功。中科院自動化研究所在2010年和2011年獲得了FPASCALVOC物體檢測的冠軍,其基本都是基于形變部件模型的基礎(chǔ)上,在滑動窗口框架下,引入上下文學習,取得了當時最好的效果。但是特征提取的計算量大、前期處理優(yōu)化的問題還沒有得到解決。技術(shù)實現(xiàn)要素:本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,提供一種設(shè)計合理、準確度高且計算簡便的基于深度學習框架對圖像進行特征提取的目標檢測方法。本發(fā)明解決其技術(shù)問題是采取以下技術(shù)方案實現(xiàn)的:一種基于深度學習框架對圖像進行特征提取的目標檢測方法,包括以下步驟:步驟1、基于MCG算法對圖像進行預(yù)處理,提取出可能存在的目標位置的圖像塊;步驟2、基于MTSE算法優(yōu)化已提取出來的圖像塊;步驟3、將得到的圖像塊利用超像素優(yōu)化的方法迭代調(diào)整到caffe框架輸入要求的大??;步驟4、利用caffe深度學習框架對步驟3得到的圖像塊進行特征提取,其中模型的配置利用R-CNN算法完成;對得到的特征利用SVM算法進行分類,得到最終結(jié)果。所述步驟1包括以下處理步驟:(1)通過邊緣檢測算法得到圖像的邊緣圖,進一步得到圖像的輪廓圖,通過對輪廓圖進行一系列處理得到UCM圖;(2)利用UCM圖獲取圖像的超像素點,任意兩個相鄰的區(qū)域之間均有一個不相似度值;(3)對得到的區(qū)域進行合并,將N個葉子節(jié)點兩兩合并,最終得到N-1個非葉子節(jié)點,構(gòu)造了一顆完全二叉樹,二叉樹的根部是整個圖像區(qū)域,葉子節(jié)點就是一開始得到的超像素點;(4)通過上述步驟得到結(jié)果集合,提取每個圖像塊2D基本特征,用這些特征組成向量來表示該圖像塊,然后訓練隨機森林回歸器來對這些圖像塊排名,得到最終結(jié)果。所述步驟2包括以下處理步驟:(1)將得到的圖像塊利用超像素擴張的方法與目標物體邊緣對準,使得圖像塊包含超像素點的一個子集;(2)定義與超像素相似度比較的參數(shù)該參數(shù)表示在圖像塊b的超像素區(qū)域像素點個數(shù)|s∩b|占超像素區(qū)域s的比重,給定圖像塊b,通過SD(s,b)參數(shù)值來擴大圖像塊;(3)定義參數(shù)Sδ(b)為Sin(b)∪{s∈Sθ|SD(s,b)≥δ},通過計算包含Sδ(b)最小的圖像塊得到新的圖像塊b;(4)組合不同的δ值,得到最終的圖像塊集合。所述步驟3包括以下處理步驟:(1)利用超像素點能夠保存圖像邊緣的特性,對圖像塊進行對準預(yù)處理;(2)給定圖像塊b,計算圖像的超像素點Sθ,并按下式計算參數(shù)Sin和Sst的值:Sin={s∈Sθ|SD(s,b)=1},Sst={s∈Sθ|0<SD(s,b)<1}(3)令b(S)表示包含超像素集合的最小圖像塊,O(bi,bj)表示圖像塊bi和bj的相交區(qū)域,通過相交區(qū)域?qū)蟂st排序,使得其元素滿足:O(b(Sin∪{si}),b)≥O(b(Sin∪{sj}),b),Vi<j]]>(4)通過迭代地在圖像塊b(Sin)上增加超像素點,使得圖像塊與原圖像塊不斷接近,從而使得圖像邊緣更好地得到利用,最終得到圖像塊集合;(5)將圖像塊切割成caffe框架要求的輸入大小。所述步驟4包括以下處理步驟:(1)利用R-CNN框架的caffe模型參數(shù),對步驟3得到的圖像塊進行處理,得到特征矩陣;(2)將數(shù)據(jù)庫中的給定的理想情況圖像塊作為正樣本,與正樣本的相交區(qū)域少于50%的作為負樣本,利用SVM分類器和得到的特征對圖像進行分類,得到最終的目標檢測器。本發(fā)明的優(yōu)點和積極效果是:本發(fā)明利用深度學習框架caffe進行特征提取,得到圖像塊的深度特征,能更好地表示物體,提高目標檢測的準確性;同時,為了減少特征提取的計算量,使其更加高效,首先對圖像進行預(yù)處理,代替R-CNN框架的selectivesearch算法,使用更加高效的MCG算法,得到的圖像塊的回歸率和準確度都有所提升,并使用MTSE算法解決定位偏差的問題,進一步提高圖像塊包含目標物體的概率;為了將得到的圖像塊作為caffe模型的輸入,要將其大小變成固定的,意味著對圖像塊進行裁剪,為了使得圖像塊中目標物體的邊緣不受到破壞,利用超像素能更好地保存物體邊緣的特性,對圖像塊進行超像素對準處理,提高準確度;將圖像塊輸入到R-CNN算法的深度學習模型中進行特征提取,得到了優(yōu)于R-CNN算法的結(jié)果。附圖說明圖1是對PASCALVOC數(shù)據(jù)庫中的部分圖片進行處理得到結(jié)果圖;圖2是采用不同算法所獲得的圖像塊準確度的對比圖。具體實施方式以下結(jié)合附圖對本發(fā)明實施例做進一步詳述:一種基于深度學習框架對圖像進行特征提取的目標檢測方法,包括以下步驟:步驟1、采用基于MCG算法將圖像進行預(yù)處理,提取出可能存在的目標位置的圖像塊。具體包括以下步驟:(1)通過邊緣檢測算法得到圖像的邊緣圖,進一步得到圖像的輪廓圖,通過對輪廓圖進行一系列處理得到UCM圖。(2)利用UCM圖,獲取圖像的超像素點,也就是一個個連通域,任意兩個相鄰的區(qū)域之間都有一個不相似度值。(3)對上述步驟得到的區(qū)域進行合并,將N個葉子節(jié)點兩兩合并,最終得到N-1個非葉子節(jié)點,這樣就構(gòu)造了一顆完全二叉樹,二叉樹的根部是整個圖像區(qū)域,葉子節(jié)點就是一開始得到的超像素點。這樣一張UCM圖可以得到一個分層分割結(jié)果。(4)通過上述步驟得到結(jié)果集合,提取每個圖像塊的面積、周長、邊界強度等2D基本特征,用這些特征組成向量來表示該圖像塊,然后訓練隨機森林回歸器來對這些圖像塊排名,得到最終結(jié)果。本步驟可以降低后面提取圖像塊特征的計算量。步驟2、利用MTSE算法優(yōu)化步驟1提取出來的圖像塊。具體包含以下步驟:(1)將上面得到的圖像塊利用超像素擴張的方法與目標物體邊緣對準,使得圖像塊包含超像素點的一個子集。(2)定義與超像素相似度比較的參數(shù)該參數(shù)表示在圖像塊b的超像素區(qū)域像素點個數(shù)|s∩b|占超像素區(qū)域s的比重。給定圖像塊b,通過SD(s,b)參數(shù)值來擴大圖像塊。(3)定義參數(shù)Sδ(b)為Sin(b)∪{s∈Sθ|SD(s,b)≥δ},通過計算包含Sδ(b)最小的圖像塊得到新的圖像塊b。(4)組合不同的δ值,得到最終的圖像塊集合。本步驟可以減少圖像塊的數(shù)量,使定位更加準確,進一步為特征提取做準備。步驟3、將得到的圖像塊利用超像素優(yōu)化的方法迭代調(diào)整到caffe框架輸入要求的大小。具體包含以下步驟:(1)為了讓圖像切割的過程中使得圖像塊更大程度上保留目標物體的邊緣,并滿足caffe深度學習框架對輸入大小的要求,利用超像素點能夠保存圖像邊緣的特性,對圖像塊進行對準預(yù)處理。(2)對給定圖像塊b,計算圖像的超像素點Sθ,計算參數(shù)Sin和Sst的值,其中:Sin={s∈Sθ|SD(s,b)=1},Sst={s∈Sθ|0<SD(s,b)<1}(3)令b(s)表示包含超像素集合的最小圖像塊,O(bi,bj)表示圖像塊bi和bj的相交區(qū)域,通過相交區(qū)域?qū)蟂st排序,使得其元素滿足:O(b(Sin∪{si}),b)≥O(b(Sin∪{sj}),b),Vi<j]]>(4)通過迭代地在圖像塊b(Sin)上增加超像素點,使得圖像塊與原圖像塊不斷接近,從而使得圖像邊緣更好地得到利用,最終得到圖像塊集合。(5)將圖像塊切割成caffe框架要求的輸入大小。步驟4、利用caffe深度學習框架對上述步驟得到的圖像塊進行特征提取,其中模型的配置利用R-CNN算法的配置過程完成;對得到的特征利用SVM算法進行分類,得到最終結(jié)果。具體方法為:(1)利用R-CNN框架的caffe模型參數(shù),處理上述步驟得到的圖像塊,得到特征矩陣。(2)將數(shù)據(jù)庫中的給定的理想情況圖像塊作為正樣本,與正樣本的相交區(qū)域少于50%的作為負樣本,利用SVM分類器和得到的特征對圖像進行分類,得到最終的目標檢測器。下面按照本發(fā)明的方法進行實驗,說明本發(fā)明的實驗效果。測試環(huán)境:MATLAB2013b測試序列:如圖1所示,所選測試序列和其對應(yīng)標準目標檢測結(jié)果圖(GroundTruth)來自PASCALVOC數(shù)據(jù)庫(M.Everingham,L.VanGool,C.K.Williams,J.Winn,andA.Zisserman,“Thepascalvisualobjectclasses(voc)challenge,”Internationaljournalofcomputervision,vol.88,no.2,pp.303–338,2007.)其中包含的圖例有20個類別,分別為人類;動物(鳥、貓、牛、狗、馬、羊);交通工具(飛機、自行車、船、公共汽車、小轎車、摩托車、火車);室內(nèi)(瓶子、椅子、餐桌、盆栽植物、沙發(fā)、電視)。都是一些日常中最常見的物體,為的就是能更好的體現(xiàn)算法的實用性,共包含9963張圖片,有24,640個被標記的目標物體。測試指標:使用了兩種評價指標,分別為fideal和mAP,其中fideal=IoU(yi,y),其中yi是圖像xi的理想目標檢測結(jié)果,此參數(shù)是為了評判對圖像的前期處理得到的圖像塊的準確度,使用PASCALVOC2007test數(shù)據(jù)庫中的圖片,得到前期處理的不同算法的參數(shù)值,證明本文算法的優(yōu)越性;mAP是目標檢測結(jié)果的平均準確度測量,與理想目標檢測結(jié)果進行比較并對數(shù)據(jù)庫中所有物體類別進行加權(quán)平均計算,對不同算法計算此參數(shù)值,證明本文算法在目標檢測領(lǐng)域得到較好的結(jié)果。測試結(jié)果如下:表1、R-CNN方法、SDFV方法以及本發(fā)明的平均測試結(jié)果方法mAPR-CNN58.5SDFV40.5本專利61.9上述SDFV方法是指:R.G.Cinbis,J.Verbeek,andC.Schmid,“Segmentationdrivenobjectdetectionwithfishervectors,”inComputerVision(ICCV),2013IEEEInternationalConferenceon.IEEE,2013,pp.2968–2975。通過表1給出的PASCALVOC中所有圖像類別測試的平均結(jié)果,可以看出本發(fā)明在mAP上相比其他方法有明顯提高,這說明本發(fā)明所產(chǎn)生的目標檢測結(jié)果擁有更高的準確度。另外,采用不同算法所獲得的ROC曲線如圖2所示,本發(fā)明計算獲得的曲線相比其他算法的曲線更靠近左上,說明本發(fā)明的圖像塊獲取方法比其他算法有更高的回歸率和準確度,能更好地解決物體定位的偏差問題。需要強調(diào)的是,本發(fā)明所述的實施例是說明性的,而不是限定性的,因此本發(fā)明包括并不限于具體實施方式中所述的實施例,凡是由本領(lǐng)域技術(shù)人員根據(jù)本發(fā)明的技術(shù)方案得出的其他實施方式,同樣屬于本發(fā)明保護的范圍。當前第1頁1 2 3