1.基于深層卷積網(wǎng)絡的RGB-D圖像的物體檢測和語義分割方法,其特征在于:
S1、通過RGB圖像計算灰度圖像,通過灰度圖像和HHA圖像合并成HHG圖像;HHA三個通道的離散傅里葉變換的光學圖像中,有最明顯的區(qū)別是A通道的離散傅里葉變換,其體現(xiàn)在直流分量即橫縱坐標軸的強度很微弱,故舍去這個通道;由于RGB三個通道的離散傅里葉變換的光學圖像都相似而且直流分量的強度也強烈,使用RGB圖像的灰度圖像替換HHA圖像的中的A通道圖像,所以使用融合RGB圖像和深度圖像的三通道圖像為HHG圖像;
S2、使用Faster-RCNN作為HHG圖像的物體檢測系統(tǒng);使用HHG圖像作為網(wǎng)絡的輸入數(shù)據(jù),通過Faster-RCNN中的RPN產(chǎn)生Region Proposals,通過Fast-RCNN提取Region Proposals的特征,然后對每一個Region Proposals進行分類,本方法的檢測結(jié)果為,在HHG圖像中用一個矩形框標出物體的位置和范圍,并且標出該矩形框中物體的類別;
S3、改變非極大值抑制即NMS保留邊框的機制,把邊框周圍的邊框數(shù)量作為評價因素;具體的步驟如下:
每一個邊框是一個5元組(x1,y1,x2,y2,score),其中(x1,y1)是邊框左上角的坐標,(x2,y2)是邊框右下角的坐標,score是邊框中包含物體的置信度;邊框首先按照score值對每一個元組進行升序排序;按如下公式計算邊框的交比并重疊率;
其中,O(i,j)表示邊框i和邊框j的交比并重疊率,inter(i,j)表示邊框i和邊框j的重疊面積,area(i)表示邊框i的面積,area(j)表示框j的面積;對于邊框i,統(tǒng)計的數(shù)量Sumi,如果Sumi≥δ,舍去邊框i,反之保留,n代表邊框總數(shù)量,δ代表取舍閾值;
S4、利用HHG圖像和FCN完成RGB-D圖像的語義分割任務;使用HHG圖像作為FCN的輸入數(shù)據(jù),通過FCN提取語義特征并分類后,輸出HHG圖像中每一個像素點的類別標簽,用標簽值作為該像素點的像素值。
2.根據(jù)權(quán)利要求1所述的基于深層卷積網(wǎng)絡的RGB-D圖像的物體檢測和語義分割方法,其特征在于:
Faster-RCNN的訓練方式有三種:一是交替訓練,二是近似聯(lián)合訓練,三是非近似聯(lián)合訓練;本方法使用的是交替訓練方案,交替訓練方案的思路是使區(qū)域方案網(wǎng)絡和Fast-RCNN共享卷積層參數(shù),微調(diào)屬于各自網(wǎng)絡的參數(shù),這種方案首先訓練區(qū)域方案網(wǎng)絡,其次根據(jù)區(qū)域方案網(wǎng)絡產(chǎn)生的區(qū)域方案訓練Fast-RCNN模型,然后使用Fast-RCNN模型初始化區(qū)域方案網(wǎng)絡;這個過程能夠重復執(zhí)行。
3.根據(jù)權(quán)利要求2所述的基于深層卷積網(wǎng)絡的RGB-D圖像的物體檢測和語義分割方法,其特征在于:
本方法使用的是4-步交替訓練方案:第一步,使用在ImageNet數(shù)據(jù)集上預訓練的模型初始化網(wǎng)絡,訓練區(qū)域方案網(wǎng)絡;第二步,使用第一步的區(qū)域方案網(wǎng)絡產(chǎn)生的區(qū)域方案作為Fast-RCNN的預檢測邊框,使用在ImageNet數(shù)據(jù)集上預訓練的模型初始化網(wǎng)絡,訓練Fast-RCNN;第三步,使用第二步訓練的網(wǎng)絡初始化區(qū)域方案網(wǎng)絡并訓練網(wǎng)絡,因為使用了共享卷積層參數(shù),所以這里只微調(diào)屬于區(qū)域方案網(wǎng)絡的網(wǎng)絡層參數(shù);第四步,同樣共享卷積層參數(shù),使用第二步訓練的網(wǎng)絡初始化Fast-RCNN并微調(diào)只屬于該網(wǎng)絡的網(wǎng)絡層參數(shù);我們把第一步和第二步統(tǒng)稱為第一階段,第三步和第四步統(tǒng)稱為第二階段;
本文損失函數(shù)的計算方法參考于Faster-RCNN的多任務損失公式,公式表達式如下:
其中,pi表示第i個錨點邊框包含物體的預言概率,表示地面真值標簽,如果錨點邊框是正例,如果錨點邊框是反例,ti表示預言邊框i的坐標(4個參數(shù)),表示與正例錨點邊框有關(guān)聯(lián)的地面真值邊框;Lcls表示Softmax分類損失,表示邊框回歸損失,Ncls表示塊大小,實驗中Ncls=256;Nreg表示錨點邊框的數(shù)量,λ表示一個均衡系數(shù),實驗中取λ=10,的計算方法參考于Fast-RCNN,公式如下:
4.根據(jù)權(quán)利要求1所述的基于深層卷積網(wǎng)絡的RGB-D圖像的物體檢測和語義分割方法,其特征在于:
全卷積的訓練時,反向傳播同樣使用隨機梯度下降進行反向傳播,損失是對每一個像素點的Softmax損失進行求和;全卷積的訓練網(wǎng)絡分為三種;第一種是在conv7卷積層后執(zhí)行一個跨步為32的反卷積操作FCN-32s;第二種是對conv7卷積層執(zhí)行一個跨步為2的反卷積結(jié)果與pool4池化層結(jié)果執(zhí)行一個融合,然后對這個融合結(jié)果執(zhí)行一個跨步為16的反卷積操作FCN-16s;第三種是對三種結(jié)果進行融合,這三種結(jié)果分別為對conv7執(zhí)行一個跨步為4的反卷積結(jié)果,對pool4池化層執(zhí)行一個跨步為2的反卷積結(jié)果,pool3池化層;利用這個融合結(jié)果再進行一次跨步為8的反卷積操作FCN-8s;其中第二種和第三種方式被稱為全卷積網(wǎng)絡的跳躍框架;
全卷積網(wǎng)絡訓練過程通常是使用一個訓練好的模型微調(diào)FCN-32s網(wǎng)絡,然后FCN-16s基于FCN-32s模型微調(diào)跳躍框架的模型,最后使用FCN-16s的模型微調(diào)FCN-8s的模型;本文沿用這種訓練模式,使用FCN-8s訓練的模型進行測試,并作為最后的實驗結(jié)果。