從圖像中檢測物體的方法及裝置與流程

文檔序號：12786869閱讀：來源：國知局

技術(shù)特征：

1.一種從圖像中檢測物體的方法，其特征在于，包括：

將待檢測圖像輸入深度學習模型進行處理，通過深度學習模型的卷積層提取待檢測圖像的特征，通過深度學習模型的Proposal建議層獲得物體在待檢測圖像中的初步預測坐標，通過深度學習模型的全連接層提取待檢測圖像中物體的坐標回歸信息和分類信息；

將物體在待檢測圖像中的初步預測坐標、待檢測圖像中物體的坐標回歸信息和分類信息輸入級聯(lián)處理層，利用待檢測圖像中物體的坐標回歸信息和分類信息將物體在待檢測圖像中的初步預測坐標修正為物體在待檢測圖像中的預測坐標；

將待檢測圖像的特征以及物體在待檢測圖像中的預測坐標輸入級聯(lián)ROIPooling感興趣區(qū)域池化層進行池化處理，得到物體在待檢測圖像中的預測坐標所對應圖像區(qū)域的特征；

將物體在待檢測圖像中的預測坐標所對應圖像區(qū)域的特征輸入級聯(lián)全連接層進行坐標回歸處理，得到待檢測圖像中物體的修正分類信息和修正坐標回歸信息；

根據(jù)待檢測圖像中物體的修正分類信息確定待檢測圖像中物體的分類，并利用待檢測圖像中物體的修正坐標回歸信息對物體在待檢測圖像中的預測坐標進行修正，確定物體在待檢測圖像中的修正坐標。

2.如權(quán)利要求1所述的方法，其特征在于，所述利用待檢測圖像中物體的坐標回歸信息和分類信息將物體在待檢測圖像中的初步預測坐標修正為物體在待檢測圖像中的預測坐標包括：

確定每個物體在待檢測圖像中的初步預測坐標所對應的置信度最高的坐標回歸信息和分類信息；

利用待檢測圖像中每個物體的置信度最高的坐標回歸信息和分類信息，將每個物體在待檢測圖像中的初步預測坐標修正為每個物體在待檢測圖像中的預測坐標。

3.如權(quán)利要求1所述的方法，其特征在于，所述方法還包括：

在所述深度學習模型的輸出端依次接入級聯(lián)處理層、級聯(lián)ROI-data感興趣區(qū)域數(shù)據(jù)層、級聯(lián)ROIPooling層以及級聯(lián)全連接層，構(gòu)建級聯(lián)神經(jīng)網(wǎng)絡(luò)模型；其中，所述級聯(lián)ROI-data層存有物體在圖像中的實際坐標，所述級聯(lián)ROIPooling層接收所述深度學習模型中的卷積層輸出的圖像的特征；

將訓練圖像輸入所述級聯(lián)神經(jīng)網(wǎng)絡(luò)模型，將訓練圖像中物體的分類信息和物體在訓練圖像中的實際坐標輸入級聯(lián)ROI-data層以及所述深度學習模型中的ROI-data層，將訓練圖像中物體的分類信息輸入級聯(lián)全連接層以及所述深度學習模型中的全連接層，從而對所述級聯(lián)神經(jīng)網(wǎng)絡(luò)模型進行訓練。

4.如權(quán)利要求1所述的方法，其特征在于，

所述通過卷積層獲得待檢測圖像的特征包括：提取第五個卷積層中的信息作為待檢測圖像的特征；

所述通過全連接層獲得待檢測圖像中物體的坐標回歸信息和分類信息包括：

提取全連接層的回歸結(jié)果層中的信息作為待檢測圖像中物體的坐標回歸信息；

提取全連接層的分類結(jié)果層中的信息作為待檢測圖像中物體的分類信息。

5.如權(quán)利要求1所述的方法，其特征在于，所述深度學習模型為更快速基于圖像區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)Faster-RCNN。

6.如權(quán)利要求1所述的方法，其特征在于，所述方法還包括：

確定置信度大于預設(shè)值的物體在待檢測圖像中的修正坐標和待檢測圖像中物體的分類；

將置信度大于預設(shè)值的物體在待檢測圖像中的修正坐標和待檢測圖像中物體的分類顯示在圖片中。

7.一種從圖像中檢測物體的裝置，其特征在于，包括：

初步信息獲取模塊，用于將待檢測圖像輸入深度學習模型進行處理，通過深度學習模型的卷積層提取待檢測圖像的特征，通過深度學習模型的Proposal層獲得物體在待檢測圖像中的初步預測坐標，通過深度學習模型的全連接層提取待檢測圖像中物體的坐標回歸信息和分類信息；

預測坐標修正模塊，用于將物體在待檢測圖像中的初步預測坐標、待檢測圖像中物體的坐標回歸信息和分類信息輸入級聯(lián)處理層，利用待檢測圖像中物體的坐標回歸信息和分類信息將物體在待檢測圖像中的初步預測坐標修正為物體在待檢測圖像中的預測坐標；

區(qū)域特征獲取模塊，用于將待檢測圖像的特征以及物體在待檢測圖像中的預測坐標輸入級聯(lián)ROIPooling層進行池化處理，得到物體在待檢測圖像中的預測坐標所對應圖像區(qū)域的特征；

修正信息獲取模塊，用于將物體在待檢測圖像中的預測坐標所對應圖像區(qū)域的特征輸入級聯(lián)全連接層進行坐標回歸處理，得到待檢測圖像中物體的修正分類信息和修正坐標回歸信息；

物體信息確定模塊，用于根據(jù)待檢測圖像中物體的修正分類信息確定待檢測圖像中物體的分類，并利用待檢測圖像中物體的修正坐標回歸信息對物體在待檢測圖像中的預測坐標進行修正，確定物體在待檢測圖像中的修正坐標。

8.如權(quán)利要求7所述的裝置，其特征在于，所述預測坐標修正模塊包括：

信息確定單元，用于確定每個物體在待檢測圖像中的初步預測坐標所對應的置信度最高的坐標回歸信息和分類信息；

坐標修正單元，用于利用待檢測圖像中每個物體的置信度最高的坐標回歸信息和分類信息，將每個物體在待檢測圖像中的初步預測坐標修正為每個物體在待檢測圖像中的預測坐標。

9.如權(quán)利要求7所述的裝置，其特征在于，所述裝置還包括：

級聯(lián)神經(jīng)網(wǎng)絡(luò)模型構(gòu)建模塊，用于在所述深度學習模型的輸出端依次接入級聯(lián)處理層、級聯(lián)ROI-data層、級聯(lián)ROIPooling層以及級聯(lián)全連接層，構(gòu)建級聯(lián)神經(jīng)網(wǎng)絡(luò)模型；其中，所述級聯(lián)ROI-data層存有物體在圖像中的實際坐標，所述級聯(lián)ROIPooling層接收所述深度學習模型中的卷積層輸出的圖像的特征；

級聯(lián)神經(jīng)網(wǎng)絡(luò)模型訓練模塊，用于將訓練圖像輸入所述級聯(lián)神經(jīng)網(wǎng)絡(luò)模型，將訓練圖像中物體的分類信息和物體在訓練圖像中的實際坐標輸入級聯(lián)ROI-data層以及所述深度學習模型中的ROI-data層，將訓練圖像中物體的分類信息輸入級聯(lián)全連接層以及所述深度學習模型中的全連接層，從而對所述級聯(lián)神經(jīng)網(wǎng)絡(luò)模型進行訓練。

10.如權(quán)利要求7所述的裝置，其特征在于，所述初步信息獲取模塊用于：

提取第五個卷積層中的信息作為待檢測圖像的特征；

提取全連接層的回歸結(jié)果層中的信息作為待檢測圖像中物體的坐標回歸信息；

提取全連接層的分類結(jié)果層中的信息作為待檢測圖像中物體的分類信息。

11.如權(quán)利要求7所述的裝置，其特征在于，所述深度學習模型為更快速基于圖像區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)Faster-RCNN。

12.如權(quán)利要求7所述的裝置，其特征在于，所述裝置還包括：

類別確定模塊，用于確定置信度大于預設(shè)值的物體在待檢測圖像中的修正坐標和圖像中物體的分類；

顯示模塊，用于將置信度大于預設(shè)值的物體在待檢測圖像中的修正坐標和待檢測圖像中物體的分類顯示在圖片中。

13.一種從圖像中檢測物體的裝置，其特征在于，包括：

存儲器；以及

耦接至所述存儲器的處理器，所述處理器被配置為基于存儲在所述存儲器中的指令，執(zhí)行如權(quán)利要求1至6中任一項所述的從圖像中檢測物體的方法。

14.一種計算機可讀存儲介質(zhì)，其特征在于，所述計算機可讀存儲介質(zhì)上存儲有計算機指令，所述指令被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至6中任一項所述的從圖像中檢測物體的方法。