欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于深層卷積網(wǎng)絡(luò)的RGB?D圖像的物體檢測和語義分割方法與流程

文檔序號:12064413閱讀:233來源:國知局
基于深層卷積網(wǎng)絡(luò)的RGB?D圖像的物體檢測和語義分割方法與流程

本發(fā)明屬于深度學(xué)習(xí)及機器視覺領(lǐng)域,尤其涉及一種包含RGB-D圖像的物體檢測和語義分割方法,這在現(xiàn)實場景中具有非常廣泛的應(yīng)用,例如在監(jiān)控視頻中對行人進(jìn)行檢測與跟蹤、無人機導(dǎo)航、自動駕駛等。



背景技術(shù):

物體檢測和語義分割是計算機視覺的兩個重要研究領(lǐng)域,物體檢測主要用于檢測圖像中物體的位置以及物體的類別,物體檢測的主要有兩個任務(wù),一是找出物體的區(qū)域方案(Region Proposals),區(qū)域方案是一種預(yù)選邊框,代表著一個物體在圖像中的大致位置;二是對預(yù)選邊框中的物體進(jìn)行分類。語義分割解決的問題是對圖像的每一個像素點賦以正確的標(biāo)簽,語義分割主要應(yīng)用于場景理解并且存在很多潛在的應(yīng)用。隨著深層卷積神經(jīng)網(wǎng)絡(luò)的興起,基于深層卷積神經(jīng)網(wǎng)絡(luò)的物體檢測已成為目前最為盛行的檢測算法,同樣基于(Region Proposals)的語義分割已成為目前最為盛行的語義分割算法。

一、比較盛行的用于產(chǎn)生Region Proposals的方法如下。

傳統(tǒng)的產(chǎn)生Region Proposals的方法有很多種,比如選擇性搜索(Selective Search),根據(jù)圖像的不同顏色特征(如HSV顏色空間,Lab顏色空間等)合并超像素(具有相似特征的相鄰像素塊),一張圖像在CPU模式下使用選擇性搜索產(chǎn)生Region Proposals的時間為2s。多尺度組合分組(MCG),需要在多種縮放尺度下根據(jù)輪廓特征合并超像素產(chǎn)生區(qū)域候選方案,然后根據(jù)區(qū)域方案的面積、周長、邊界強度等二維特征進(jìn)行排名。邊緣邊框(EdgeBoxes),使用滑動窗口的方法產(chǎn)生區(qū)域方案,利用邊緣信息(邊框內(nèi)的輪廓個數(shù)和與邊框邊緣重疊的輪廓個數(shù)),對Region Proposals進(jìn)行排序。上面這些方法都是在CPU模式下進(jìn)行。區(qū)域方案網(wǎng)絡(luò)(Region Proposals Network,簡稱RPN)能夠在GPU模式下利用深層卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征的同時產(chǎn)生的Region Proposals。這使得物體檢測的速度得到很大提高。

二、快速的用于物體檢測的區(qū)域深層卷積神經(jīng)網(wǎng)絡(luò)如下。

隨著快速的區(qū)域深層卷積神經(jīng)網(wǎng)絡(luò)在物體檢測的速度和準(zhǔn)確率上的明顯提高,隨后出現(xiàn)了很多更快的深層卷積神經(jīng)網(wǎng)絡(luò),比如Faster-RCNN由兩個網(wǎng)絡(luò)組成,一個是RPN,用于產(chǎn)生Region Proposals,一個是快速的區(qū)域深層卷積神經(jīng)網(wǎng)絡(luò),用于物體識別;YOLO把物體邊框的選擇與識別進(jìn)行了結(jié)合,經(jīng)過一次網(wǎng)絡(luò)同步完成,但是YOLO對一幅圖像產(chǎn)生的區(qū)域方案只有98個,導(dǎo)致物體邊框的精確度比較低;SSD是在每一層特征圖像上產(chǎn)生默認(rèn)邊框,優(yōu)點是對于低分辨率的輸入圖像,也能產(chǎn)生高精確度的邊框,缺點是檢測系統(tǒng)對邊框的大小很敏感,對于小物體,檢測性能較差;R-FCN是一種基于FCN的物體檢測網(wǎng)絡(luò),該網(wǎng)絡(luò)舍棄了分類器層,把全連接層轉(zhuǎn)變?yōu)榫矸e層,主干網(wǎng)絡(luò)選擇ResNet-101,并且提出了一種對物體位置敏感的映射方法來解決物體的平移可變性。

三、語義分割網(wǎng)絡(luò)如下。

全卷積網(wǎng)絡(luò)改編自卷積神經(jīng)網(wǎng)絡(luò),它使用卷積層代替全連接層。為了實現(xiàn)圖像的語義分割,F(xiàn)CN采用的方法是對深層特征圖像執(zhí)行一個或多個反卷積操作,使得深層特征圖像的尺寸和原圖像尺寸一樣,然后利用Softmax分類器對每一個像素點進(jìn)行分類,它實現(xiàn)了針對整張圖片的端到端的像素到像素的語義分割,但反卷積操不能考慮到下采樣過程中失真信息。SegNet不采取反卷積操作,而是對深層特征圖像執(zhí)行逐層上采樣操作,同樣使得深層特征圖像的尺寸和原圖像尺寸一樣,然后利用Softmax分類器對每一個像素點進(jìn)行分類,它考慮了圖像在卷積過程因為下采樣而失去的失真信息,但這樣會帶來很大的內(nèi)存消耗。DeepLab模型在FCN之后添加一個條件隨機場(Conditional Random Field,簡稱CRF)的后處理操作,對分割后的圖像在邊緣細(xì)節(jié)方面進(jìn)行優(yōu)化,但是這個處理過程不是端到端的處理過程,為了解決這個問題,CRFasRNN把CRF和深度學(xué)習(xí)技術(shù)進(jìn)行結(jié)合,使得整個網(wǎng)絡(luò)結(jié)構(gòu)是一個端到端的可訓(xùn)練的網(wǎng)絡(luò)。

以上這些研究工作主要集中在RGB彩色圖像上,隨著深度圖像傳感器的普及,例如Intel RealSense 3D Camera、Asus Xtion PRO LIVE、Microsoft Kinect,越來越多的研究者都把研究重心轉(zhuǎn)移到RGB-D圖像上,例如物體檢測、三維重建、機器人視覺、虛擬現(xiàn)實、圖像分割等。圖像分割主要集中在語義分割、實例分割、情景標(biāo)簽等領(lǐng)域。

關(guān)于RGB-D圖像的研究,其中最典型的是Gupta等人在RCNN的基礎(chǔ)上充分使用了RGB-D圖像研究物體檢測,以及基于超像素特征的語義分割。物體檢測過程中他們提出一種新穎的把深度圖像轉(zhuǎn)變?yōu)槿ǖ缊D像的轉(zhuǎn)變方法,并把這三通道命名為HHA,首先使用多尺度組合分組的方法產(chǎn)生區(qū)域方案,然后分別訓(xùn)練RGB和HHA的RCNN,合并這兩個網(wǎng)絡(luò)提取的特征,最后使用支持向量機對每個區(qū)域方案進(jìn)行分類。語義分割過程中,基于超像素的深度特征(以地球為中心的姿態(tài))和幾何特征(大小、形狀)利用支持向量機對超像素進(jìn)行類別標(biāo)簽的預(yù)言,但是該方法非常緩慢,使用多尺度組合分組的方法產(chǎn)生區(qū)域方案是一種非常緩慢的過程,使用速度緩慢并且冗余的RCNN,訓(xùn)練分為多個流水線階段,計算超像素的特征是一個復(fù)雜并緩慢的過程。



技術(shù)實現(xiàn)要素:

為了解決上面這些問題,本方法采用的技術(shù)方案中使用Faster-RCNN替換原來緩慢的RCNN,F(xiàn)aster-RCNN使用GPU不僅在提取特征方面擁有很快速度,而且在網(wǎng)絡(luò)中能同時產(chǎn)生區(qū)域方案,能夠?qū)崿F(xiàn)整個訓(xùn)練過程是端到端的訓(xùn)練,同時使用FCN執(zhí)行RGB-D圖像的語義分割,F(xiàn)CN使用GPU和深層卷積網(wǎng)絡(luò)快速提取圖像的深層特征,利用反卷積操作把圖像卷積的深層特征和淺層特征進(jìn)行融合,把圖像的局部語義信息融入到全局語義信息中。

為了實現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案為基于深層卷積網(wǎng)絡(luò)的RGB-D圖像的物體檢測和語義分割方法,關(guān)于物體檢測和語義分割任務(wù),本方法的內(nèi)容在于:

S1、通過RGB圖像計算灰度圖像,通過灰度圖像和HHA圖像合并成HHG圖像。如圖2所示,HHA三個通道的離散傅里葉變換的光學(xué)圖像中,有最明顯的區(qū)別是A通道的離散傅里葉變換,其體現(xiàn)在直流分量即橫縱坐標(biāo)軸的強度很微弱,故舍去這個通道。由于RGB三個通道的離散傅里葉變換的光學(xué)圖像都相似而且直流分量的強度也強烈,使用RGB圖像的灰度圖像替換HHA圖像的中的A通道圖像,所以使用融合RGB圖像和深度圖像的三通道圖像為HHG圖像。

S2、使用Faster-RCNN作為HHG圖像的物體檢測系統(tǒng)。使用HHG圖像作為網(wǎng)絡(luò)的輸入數(shù)據(jù),通過Faster-RCNN中的RPN產(chǎn)生Region Proposals,通過Fast-RCNN提取Region Proposals的特征,然后對每一個Region Proposals進(jìn)行分類,本方法的檢測結(jié)果為,在HHG圖像中用一個矩形框標(biāo)出物體的位置和范圍,并且標(biāo)出該矩形框中物體的類別,如圖1中物體檢測圖所示。

S3、改變非極大值抑制(Non-Maximum Suppression,簡稱NMS)保留邊框的機制,把邊框周圍的邊框數(shù)量作為評價因素。如圖3所示。具體的步驟如下:

每一個邊框是一個5元組(x1,y1,x2,y2,score),其中(x1,y1)是邊框左上角的坐標(biāo),(x2,y2)是邊框右下角的坐標(biāo),score是邊框中包含物體的置信度。邊框首先按照score值對每一個元組進(jìn)行升序排序。按如下公式計算邊框的交比并(Intersection-over-union)重疊率。

其中,O(i,j)表示邊框i和邊框j的交比并重疊率,inter(i,j)表示邊框i和邊框j的重疊面積,area(i)表示邊框i的面積,area(j)表示框j的面積。對于邊框i,統(tǒng)計的數(shù)量Sumi,如果Sumi≥δ,舍去邊框i,反之保留,n代表邊框總數(shù)量,δ代表取舍閾值。

S4、利用HHG圖像和FCN完成RGB-D圖像的語義分割任務(wù)。使用HHG圖像作為FCN的輸入數(shù)據(jù),通過FCN提取語義特征并分類后,輸出HHG圖像中每一個像素點的類別標(biāo)簽,用標(biāo)簽值作為該像素點的像素值。本方法的分割結(jié)果為HHG圖像中屬于同一類別的像素點顯示相同的顏色如圖1中語義分割圖所示。

本文的物體檢測和語義分割的結(jié)構(gòu)框架如圖1所示。

附圖說明

圖1 RGB-D圖像的物體檢測和語義分割的流程圖以及效果圖

圖2 HHG圖像和RGB圖像,HHA圖像對比圖

圖3減少邊框時nms’和top2000對比圖

具體實施方式

以下將結(jié)合附圖和實施例對本發(fā)明作進(jìn)一步詳細(xì)說明。

本發(fā)明將會從以下幾個方面進(jìn)行闡述:RGB圖像和深度圖像的融合、修改過的NMS、模型的訓(xùn)練以及實驗結(jié)果。

基于深層卷積網(wǎng)絡(luò)的RGB-D圖像的物體檢測和語義分割方法包括如下步驟:

第一、按照上述方法把RGB圖像和深度圖像融合成HHG圖像;

第二、訓(xùn)練物體檢測系統(tǒng)模型;

Faster-RCNN的訓(xùn)練方式有三種:一是交替訓(xùn)練(Alternating Training),二是近似聯(lián)合訓(xùn)練(Approximate Joint Training),三是非近似聯(lián)合訓(xùn)練(Non-approximate Joint Training)。本方法使用的是交替訓(xùn)練方案,交替訓(xùn)練方案的思路是使區(qū)域方案網(wǎng)絡(luò)和Fast-RCNN共享卷積層參數(shù),微調(diào)屬于各自網(wǎng)絡(luò)的參數(shù),這種方案首先訓(xùn)練區(qū)域方案網(wǎng)絡(luò),其次根據(jù)區(qū)域方案網(wǎng)絡(luò)產(chǎn)生的區(qū)域方案訓(xùn)練Fast-RCNN模型,然后使用Fast-RCNN模型初始化區(qū)域方案網(wǎng)絡(luò)。這個過程能夠重復(fù)執(zhí)行。

本方法使用的是4-步交替訓(xùn)練方案:第一步,使用在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練的模型初始化網(wǎng)絡(luò),訓(xùn)練區(qū)域方案網(wǎng)絡(luò);第二步,使用第一步的區(qū)域方案網(wǎng)絡(luò)產(chǎn)生的區(qū)域方案作為Fast-RCNN的預(yù)檢測邊框,使用在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練的模型初始化網(wǎng)絡(luò),訓(xùn)練Fast-RCNN。第三步,使用第二步訓(xùn)練的網(wǎng)絡(luò)初始化區(qū)域方案網(wǎng)絡(luò)并訓(xùn)練網(wǎng)絡(luò),因為使用了共享卷積層參數(shù),所以這里只微調(diào)屬于區(qū)域方案網(wǎng)絡(luò)的網(wǎng)絡(luò)層參數(shù)。第四步,同樣共享卷積層參數(shù),使用第二步訓(xùn)練的網(wǎng)絡(luò)初始化Fast-RCNN并微調(diào)只屬于該網(wǎng)絡(luò)的網(wǎng)絡(luò)層參數(shù)。我們把第一步和第二步統(tǒng)稱為第一階段,第三步和第四步統(tǒng)稱為第二階段。

本文損失函數(shù)的計算方法參考于Faster-RCNN的多任務(wù)損失(Multi-task loss)公式,公式表達(dá)式如下:

其中,pi表示第i個錨點邊框(Anchors box)包含物體的預(yù)言概率,表示地面真值(Ground-Truth)標(biāo)簽,如果錨點邊框是正例,如果錨點邊框是反例,ti表示預(yù)言邊框i的坐標(biāo)(4個參數(shù)),表示與正例錨點邊框有關(guān)聯(lián)的地面真值邊框。Lcls表示Softmax分類損失,表示邊框回歸損失,Ncls表示塊大小,實驗中Ncls=256。Nreg表示錨點邊框的數(shù)量,λ表示一個均衡系數(shù),實驗中取λ=10,的計算方法參考于Fast-RCNN,公式如下:

第三、訓(xùn)練語義分割系統(tǒng)模型

全卷積的訓(xùn)練時,反向傳播同樣使用隨機梯度下降(Stochastic gradient descent,簡稱SGD)進(jìn)行反向傳播,損失是對每一個像素點的Softmax損失進(jìn)行求和。全卷積的訓(xùn)練網(wǎng)絡(luò)(本文中只使用Vgg-16網(wǎng)絡(luò))分為三種。第一種是在conv7卷積層后執(zhí)行一個跨步(Stride)為32的反卷積操作(FCN-32s);第二種是對conv7卷積層執(zhí)行一個跨步為2的反卷積結(jié)果與pool4池化層結(jié)果執(zhí)行一個融合(均值),然后對這個融合結(jié)果執(zhí)行一個跨步為16的反卷積操作(FCN-16s);第三種是對三種結(jié)果進(jìn)行融合,這三種結(jié)果分別為對conv7執(zhí)行一個跨步為4的反卷積結(jié)果,對pool4池化層執(zhí)行一個跨步為2的反卷積結(jié)果,pool3池化層。利用這個融合結(jié)果再進(jìn)行一次跨步為8的反卷積操作(FCN-8s);其中第二種和第三種方式被稱為全卷積網(wǎng)絡(luò)的跳躍框架。

全卷積網(wǎng)絡(luò)訓(xùn)練過程通常是使用一個訓(xùn)練好的模型微調(diào)FCN-32s網(wǎng)絡(luò),然后FCN-16s基于FCN-32s模型微調(diào)跳躍框架的模型,最后使用FCN-16s的模型微調(diào)FCN-8s的模型。本文沿用這種訓(xùn)練模式,使用FCN-8s訓(xùn)練的模型進(jìn)行測試,并作為最后的實驗結(jié)果。

第四、實驗結(jié)果;

使用RGB彩色圖像和深度圖像的融合圖像---HHG圖像進(jìn)行實驗,使用HHG圖像實現(xiàn)物體檢測的平均正確率為37.6%(表1,第6列),比Gupta等人的結(jié)果提高5.1%。

表1:1,2,3列是Gupta等人的實驗結(jié)果,4-8列是本方法的實驗結(jié)果,其中nms’代表的是使用修改過的非極大值抑制后的實驗。實驗結(jié)果是平均準(zhǔn)確率的百分?jǐn)?shù)。

經(jīng)過區(qū)域方案網(wǎng)絡(luò)產(chǎn)生的邊框數(shù)量約有17000個,再經(jīng)過非極大值抑制處理重疊的邊框,剩下2000到3000個邊框,這個過程需要的平均時間為0.71s,然后再進(jìn)行一次修改后的非極大值抑制讓邊框的數(shù)量降低到2,000(±50),這個過程需要的平均時間為0.133s。其中關(guān)于δ的取值請參考表2。當(dāng)邊框數(shù)量在不同區(qū)域(2050到3000之間)時δ的取值(δ∈[8,13])有所不同,當(dāng)數(shù)量低于2050時,不執(zhí)行修改過的非極大值抑制,當(dāng)數(shù)量大于3000時(這種情況很少出現(xiàn)),取score值最高的2000個框。實驗結(jié)果的平均正確率在HHG圖像的基礎(chǔ)上提高1.6%(表1,第7列)。

最后使用VGG-16網(wǎng)絡(luò)模型作為最終的物體檢測實驗結(jié)果,平均正確率為43.7%(表1,第8列),比Gupta等人的實驗結(jié)果提高11.2%。

表2:第一行代表經(jīng)過第一次非極大值抑制處理剩下的邊框數(shù)量區(qū)間,第二行代表δ在不同區(qū)間的取值。

關(guān)于分割結(jié)果如表3所示。本方法使用HHG圖像在FCN-8s網(wǎng)絡(luò)下獲得了最好的分割結(jié)果,平均交比并從Gupta等人的28.6%提高到30.9%。

表3:40種語義分割標(biāo)簽的IU(%),第一行是Gupta等人的語義分割結(jié)果,第二行到第四行是我們使用HHG圖像分別在FCN-32s,F(xiàn)CN-16s,F(xiàn)CN-8s網(wǎng)絡(luò)下的語義分割結(jié)果。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
佳木斯市| 宝丰县| 紫云| 恩平市| 丹阳市| 沂水县| 根河市| 正宁县| 江安县| 阜南县| 修武县| 巍山| 万荣县| 长泰县| 桂阳县| 大冶市| 航空| 汾阳市| 调兵山市| 东平县| 盱眙县| 青田县| 清原| 德格县| 濉溪县| 新绛县| 勃利县| 百色市| 马龙县| 江北区| 宝清县| 饶平县| 岳普湖县| 罗平县| 沈丘县| 东明县| 鹤岗市| 林州市| 南投市| 昌宁县| 曲靖市|