專利名稱:檢測視頻圖像中的目標的方法和裝置的制作方法
技術領域:
本發(fā)明涉及圖像處理技術,具體地,涉及一種檢測視頻圖像中的目標的方法和裝置。
背景技術:
圖像中的物體檢測技術是計算機視覺的一個重要分支。同一類物體之間存在或多 或少的外形上的差異,在成像時受到光照、視角、姿態(tài)等多重因素的影響在圖像中可能產(chǎn)生 出截然不同的狀態(tài),這給圖像中的物體檢測技術帶來很大困難。視頻圖像中的物體檢測技術又有其自身的特點,一般來說視頻圖像的圖像質(zhì)量要 差許多,分辨率低、存在運動模糊、噪點顯著等,給目標檢測帶來了新的困難。當目標的檢測 和分類在視頻圖像中進行時,由于圖像質(zhì)量的下降和運動模糊等噪聲的存在,處理性能會 有較大下降。
發(fā)明內(nèi)容
在下文中給出關于本發(fā)明的簡要概述,以便提供關于本發(fā)明的某些方面的基本理 解。應當理解,這個概述并不是關于本發(fā)明的窮舉性概述。它并不是意圖確定本發(fā)明的關 鍵或重要部分,也不是意圖限定本發(fā)明的范圍。其目的僅僅是以簡化的形式給出某些概念, 以此作為稍后論述的更詳細描述的前序。根據(jù)本發(fā)明的一個方面,提供了一種檢測視頻圖像中的目標的方法,所述方法包 括幀檢測步驟對包含目標幀的多幀圖像分別進行檢測,以得到一個或多個第一候選目 標及其置信度;及合并步驟對所述多幀圖像中的第一候選目標及其置信度進行合并,得 到目標幀中的一個或多個第二候選目標。根據(jù)本發(fā)明的另一方面,提供了一種檢測視頻圖像中的目標的裝置,該裝置包括 目標檢測與分類器,用于對視頻序列中包括目標幀的多幀圖像進行檢測,以得到一個或多 個第一候選目標及其置信度;以及合并模塊,用于對所述多幀圖像中的第一候選目標的置 信度進行合并,以得到目標幀中的一個或多個第二候選目標。另外,本發(fā)明的實施例還提供了用于實現(xiàn)上述檢測視頻圖像中的目標的方法的計 算機程序。此外,本發(fā)明的實施例還提供了至少計算機可讀介質(zhì)形式的計算機程序產(chǎn)品,其 上記錄有用于實現(xiàn)上述檢測視頻圖像中的目標的方法的計算機程序代碼。
參照下面結(jié)合附圖對本發(fā)明實施例的說明,會更加容易地理解本發(fā)明的以上和其 它目的、特點和優(yōu)點。附圖中的部件只是為了示出本發(fā)明的原理。在附圖中,相同的或類似 的技術特征或部件將采用相同或類似的附圖標記來表示。圖1-6分別是示出了根據(jù)本發(fā)明實施例的檢測視頻圖像中的目標的方法的示意性流程圖;圖7和圖8是示出了檢測視頻圖像中的目標的方法的一個應用示例的流程圖;圖9-13分別是示出了根據(jù)本發(fā)明實施例的檢測視頻圖像中的目標的裝置的示意 性框圖;圖14是示出了根據(jù)本發(fā)明一個實施例的目標檢測與分類器的結(jié)構的示意性框 圖;圖15是示出了目標檢測與分類器的一個應用示例的示意性框圖;及圖16是示出用于實現(xiàn)本發(fā)明的計算機的結(jié)構的示例性框圖。
具體實施例方式下面參照附圖來說明本發(fā)明的實施例。在本發(fā)明的一個附圖或一種實施方式中描 述的元素和特征可以與一個或更多個其它附圖或?qū)嵤┓绞街惺境龅脑睾吞卣飨嘟Y(jié)合。應 當注意,為了清楚的目的,附圖和說明中省略了與本發(fā)明無關的、本領域普通技術人員已知 的部件和處理的表示和描述。圖1是示出了根據(jù)本發(fā)明的一個實施例的檢測視頻圖像中的目標的方法的示意 流程圖。如圖1所示,該方法可包括下文所述的步驟SlOl和S103。步驟SlOl用于對多幀圖像進行檢測,也稱為幀檢測步驟。具體而言,在該步驟中, 在獲取要檢測的視頻圖像序列中的包括目標幀的多幀圖像后,對多幀圖像分別進行檢測, 得到一個或多個候選目標(為了敘述方便,下文中稱為第一候選目標)及其置信度。在步驟S103中,將在步驟SlOl中檢測到的所述多幀圖像中的第一候選目標及其 置信度進行合并,從而得到目標幀中的一個或多個候選目標(為了敘述方便,下文中稱為 第二候選目標)。步驟S103也稱為合并步驟。所獲取的多幀圖像可以是在時間上連續(xù)的,也可以是在時間上不連續(xù)的。為了方 便敘述,假設對視頻序列中的P幀圖像Image0, ... , Imagei,... , Imagep^1分別進行處理,其 中Imagei為目標幀,P為整數(shù)且P > 1,i = 0,· · ·,P-1。例如,可以利用目標幀Imagei之前的 多幀圖像ImageH,Image^2,· · ·,也可以利用該幀之后的多幀圖像Imagei+1,Imagei+2,· · ·, 還可以利用該幀前后的多幀圖像... ,Image^2, Image^1, Imagei+1, Imagei+2, · · ·。選取的圖 像幀數(shù)也可以根據(jù)實際應用而定。應理解,本發(fā)明不應被視為局限于任何具體的實施例或 示例。還應理解,可以采用目標檢測與分類器對圖像進行檢測。所述目標檢測與分類器 可以采用任何適當?shù)募夹g來實現(xiàn),這里省略對它的描述。作為一個示例,檢測得到的候選目標的信息可以包括各候選目標在每幀圖像中的 位置、尺寸和置信度等。在一個示例中,目標檢測與分類器在對輸入的圖像樣本進行處理后 可以輸出響應值,例如,所述響應值可以是一個0到1之間的數(shù),當然,也可以是其他數(shù)值。 根據(jù)所述響應值,可以確定相應的置信度的值??梢圆捎萌魏芜m當?shù)姆椒?、利用所述響應?來確定目標或候選目標的置信度,這里不再贅述。在一個示例中,所采用的目標檢測與分類器可以用固定尺寸的圖像樣本作為輸 入。在該情況下,輸入到目標檢測與分類器且可為目標檢測與分類器接受的圖像樣本在原圖像中的位置及其尺寸即可作為輸出的候選目標在原圖像中的位置及尺寸。在一個示例中,將檢測到的所述多幀圖像中的第一候選目標及其置信度進行合并 的步驟可以包括根據(jù)在步驟SlOl中所檢測到的第一候選目標在各幀圖像中的位置和尺 寸,將各圖像中位置相鄰、尺寸相近的候選目標的置信度合并。在本文所描述的各實施例和/或示例中,所述目標或者候選目標可以是靜止目 標,也可以是運動目標。在運動目標的情況下,同一目標在多個圖像幀中的位置和尺寸是 變化的。例如,當目標由遠及近時,其在按時間順序排列的各圖像中的尺寸會越來越大,而 所檢測到的其在各圖像中位置也會根據(jù)其運動方向而變化;反之亦然。在靜止目標的情況 下,在對包括該靜止目標的多幀圖像進行檢測時,由于圖像質(zhì)量等因素,也可能導致檢測到 的位置在各種圖像中略有不同。在本文所描述的各實施例和/或示例中,所謂的“位置相鄰尺寸相近”是指在各幀 圖像中檢測到的候選目標所對應的區(qū)域具有相鄰的中心位置和大小相近的尺寸。例如,中 心位置相鄰可以指各中心位置相差一個或多個像素,本領域的技術人員可以理解,像素數(shù) 可以根據(jù)實際需要檢測的目標狀態(tài)(如運動速度、方向等)而定。這里不一一列舉。又如, 尺寸相近可以指尺寸相差一個或多個像素。本領域的技術人員可以理解,這里相差的像素 數(shù)可以根據(jù)實際需要檢測的目標狀態(tài)(如目標大小、運動速度等)而定。這里不一一列舉。 作為一個例子,取決于應用的場景,例如可以先驗地知曉對象的可能路徑和可能速度,則可 以據(jù)此設定相鄰幀之間視為同一目標的候選目標的中心位置和尺寸變化的范圍。在一個示例中,還可以根據(jù)步驟S103中的合并結(jié)果來確定在目標幀(如圖像 Imagei)中是否存在目標。例如,如果合并結(jié)果大于或等于某一預定的閾值(稱為第一閾 值),則確定在圖像Imagei的相應位置上存在目標;否則,則確定在圖像Imagei的相應位置 上不存在目標。在某些情況下,P幀圖像中的某些幀圖像中可能沒有檢測到對應的候選目標。在 這些情況下,在進行合并時,可以默認對這些幀進行檢測得到的置信度值為0。在一個示例中,對置信度進行合并的步驟可以包括計算各置信度的和。在另一個 示例中,對置信度進行合并的步驟可以包括將各置信度歸一化,并對歸一化后的置信度求 和或求平均值。在一個示例中,對置信度進行合并的步驟可以包括計算各置信度的平均 值。應理解,在此所述的對置信度進行合并的方法僅僅是示例性的,并非意欲將本發(fā)明限制 于此。在本發(fā)明的范圍內(nèi),本領域的普通技術人員可以利用各種其他適當?shù)暮喜⒎椒?例 如計算直方圖等)對所述置信度進行合并。在上述方法中,通過綜合連續(xù)多幀圖像(如Image0, ... , Imagei,... , Imagep^1)的 檢測和分類信息來得到其中目標幀(如Imagei)的結(jié)果。這樣,對該幀單獨進行檢測時置 信度較低的響應可以通過前后幀的支持而得到強化,從而能夠被檢測出來。而隨機性出現(xiàn) 的虛假響應也會因為得不到連續(xù)幀的持續(xù)支持而被抑制。與僅僅利用單幀圖像相比,利用 連續(xù)的視頻圖像序列可提高檢測或分類的效果。在一個示例中,為了檢測多類目標,可以采用包括多個子分類器的目標檢測與分 類器。圖14示出了這種目標檢測與分類器的示意性結(jié)構框圖。如圖14所示,該目標檢測 和分類器可以包括N個子分類器(N> 1),其中每個子分類器可以檢測一類目標。子分類 器的數(shù)量N可以根據(jù)實際應用中需要檢測的目標類別的數(shù)量來設置。另外,本領域的普通技術人員應理解,上述及下文實施例和或示例中的子分類器可以采用任何適用的技術來實 現(xiàn),這里省略了對它們的詳細描述。在一個示例中,當使用用于檢測不同類別的目標的多個子分類器時,還可以判定 目標的類別。例如,當將某個圖像樣本輸入多個子分類器后,如果某個子分類器輸出一定的 置信度而其他子分類器輸出的置信度為0,則可以根據(jù)輸出該置信度的子分類器所對應的 類別來確定目標的類別,而該置信度則作為該目標的置信度。如果有多于一個的子分類器 輸出一定的置信度,則可以根據(jù)最大置信度值所對應的類別(即輸出最大置信度值的子分 類器所對應的類別)來確定該目標的類別;在這種情況下,可以將最大的置信度作為該目 標的置信度,也可以將各子分類器輸出的置信度值合并。如果存在兩個或更多個置信度值 與最大值相等且分別對應于不同的類別,則可將此目標的類別屬性標記為“不確定”,在這 種情況下,可以將最大的置信度作為該目標的置信度,也可以將各子分類器輸出的置信度 值合并。另外,在對置信度的合并處理中可以忽略各候選目標的屬性。例如,在對所檢測到 的多幀圖像中的第一候選目標及其置信度進行合并時,可以將各第一候選目標的置信度合 并,而不考慮其目標屬性。又如,在對于某個圖像樣本存在多于一個的子分類器輸出一定的 置信度的情況下,可以將這些子分類器輸出的各置信度合并作為相應候選目標的置信度, 而不考慮各子分類器的屬性。對置信度進行合并的方法可以如前所述的那樣進行求和、求 平均值、對歸一化后的置信度求和或求平均值等,這里不一一列舉。在該方法中,由于綜合了多幀圖像的檢測信息,因此,對目標類別屬性的檢測具有 良好的魯棒性。另外,應當注意,上文中所謂的“第一候選目標”和“第二候選目標”以及下文將要 提到的“第三候選目標”和“第四候選目標”等用語僅僅是為了區(qū)分處理過程中不同階段的 檢測和處理結(jié)果,與候選目標的類別無關。圖2是示出了根據(jù)本發(fā)明的另一實施例的檢測視頻圖像中的目標的方法的示意 流程圖。圖2所示的實施例與圖1所示的實施例類似。不同之處在于,在圖2所示的實施 例中,在該對各幀圖像進行檢測的過程中還包括對每幀圖像進行遍歷處理,從而使得檢測 結(jié)果更準確。在步驟S201中,利用預定的窗口(下文稱作第一窗口)以預定的步長(下文稱作 第一步長)對多幀圖像中的每幀圖像進行遍歷,并對所得到的每個窗口圖像進行檢測,得 到一個或多個候選目標(下文稱第三候選目標)及其置信度。為了敘述方便,步驟S201也 稱為第一遍歷步驟。在步驟S203中,將位置相鄰尺寸相近的第三候選目標及其置信度合并,作為第一 候選目標及其置信度。為了敘述方便,步驟S203也稱為第一遍歷結(jié)果合并步驟。當在步驟S201和S203中對多幀圖像中的每幀圖像進行了上述遍歷與合并處理之 后,則執(zhí)行步驟S205。步驟S205與圖1所示的步驟S103類似,這里不再贅述。在該實施例中,對每幀圖像進行遍歷,并將對得到的所有窗口圖像的檢測結(jié)果合 并,作為對該圖像的檢測結(jié)果。作為一個示例,遍歷所使用的窗口的尺寸可以根據(jù)所使用的 目標檢測與分類器能夠檢測的圖像樣本的尺寸來確定。假設在圖像的某一區(qū)域中存在待檢測的目標,則在對該圖像進行遍歷時該目標可能會被多個遍歷窗口“框”到。換言之,可能 會有多個窗口圖像包含該目標的全部或部分,對這些窗口圖像進行檢測則可得到對應于該 同一目標的多個第三候選目標及其置信度。這些第三候選目標即屬于位置相鄰尺寸相近的 候選目標。在這種情況下,可以在步驟S203中將這些位置相鄰尺寸相近的第三候選目標及 其置信度合并。上文中已經(jīng)說明了對置信度進行合并的方法,這里不再贅述。在一個示例中,在執(zhí)行了步驟S203之后,所述方法還可以包括一個第一判斷步 驟。具體而言,在第一判斷步驟中,判斷位置相鄰尺寸相近的第三候選目標的置信度的合并 結(jié)果是否小于某一預定的閾值(稱為第二閾值),如果是,則丟棄該合并結(jié)果,否則保留該 合并結(jié)果,作為第一候選目標的置信度。所得到的第一候選目標所對應的區(qū)域可以與具有 最大置信度的第三候選目標的區(qū)域相對應,還可以覆蓋所有對應的第三候選目標的區(qū)域。在圖2所示的實施例中,利用窗口對每幀圖像作遍歷,處理過程比圖1所示的實施 例復雜,但檢測結(jié)果更為準確。在一個示例中,所述窗口可以是矩形窗口,其尺寸可以根據(jù) 實際需要而定。所述第一步長也可以根據(jù)實際需要而定,例如,該步長可以是一個或多個像 素,還可以與當前窗口的尺寸成比例關系。所述遍歷的順序和方式也是任意的,可以是從左 到右、從上到下的,還可以是從右到左、從下到上的。本發(fā)明對此不作任何限制。圖3是示出了根據(jù)本發(fā)明的另一實施例的檢測視頻圖像中的目標的方法的示意 流程圖。圖3所示的實施例與圖2所示的實施例相似。不同之處在于,在圖3的實施例中, 在進行了第一遍歷步驟之后,對可能存在目標的區(qū)域還要更精細的遍歷,從而使檢測結(jié)果 更為準確。如圖3所示,步驟S301-S302與圖2所示實施例中的步驟S201-S203相似,分別為
第一遍歷步驟和第一遍歷結(jié)果合并步驟,這里不再重復。在步驟S305中,根據(jù)步驟S303 (即第一遍歷結(jié)果合并步驟)中得到的合并結(jié)果, 建立每幀圖像的一個或多個關注區(qū)域ROI (Regions OfInterest)。每個關注區(qū)域ROI覆蓋 與相應的第三候選目標的合并結(jié)果對應的區(qū)域。步驟S305也可以稱為關注區(qū)域建立步驟。在步驟S307中,利用預定的窗口(下文稱作第二窗口)以預定的步長(下文稱作 第二步長)對每個關注區(qū)域進行遍歷,對所得到的每個窗口圖像進行檢測,得到一個或多 個候選目標(下文稱為第四候選目標)。步驟S307也可以稱為第二遍歷步驟。在一個實施例中,可以通過將與合并結(jié)果對應的區(qū)域適當?shù)財U大來確定每個關注 區(qū)域,即適度擴大第二遍歷的范圍。這樣,能夠進一步降低漏檢和誤檢的可能性,因此能夠 進一步提高檢測的準確度。例如,如果與合并結(jié)果對應的區(qū)域是矩形的,則可以根據(jù)目標的 大小、運動速度和方向等將該區(qū)域在長度和寬度上分別擴展一個或多個像素,從而獲得對 應的關注區(qū)域。又如,如果與合并結(jié)果對應的區(qū)域是圓形的,則可以根據(jù)目標的大小、運動 速度和方向等將該區(qū)域在半徑擴展一個或多個像素,從而獲得對應的關注區(qū)域。第二遍歷的方式可以與步驟S201中的第一遍歷的方式相似,這里不再贅述。第二 窗口在尺寸或形狀上可以與第一窗口相同,也可以不同。為了進行更精細的遍歷,第二步長 可以小于第一步長。在其他示例中,第二步長也可以等于或大于第一步長。在一個示例中, 可以避免重復遍歷,即,在第一窗口和第二窗口大小相同而步長不同的情況下,避免重復搜 索已經(jīng)搜索過的窗口位置,從而加快處理的速度。在步驟S309中,將位置相鄰尺寸相近的第三候選目標和第四候選目標及其置信度合并,作為第一候選目標及其置信度。步驟S309也稱為第二遍歷結(jié)果合并步驟。步驟S311與步驟S205或S103相同,這里不再贅述。在一個示例中,在執(zhí)行了步驟S303之后、執(zhí)行步驟S305之前,所述方法還可以包 括第一判斷步驟。具體而言,在第一判斷步驟中,判斷位置相鄰尺寸相近的第三候選目標 的置信度的合并結(jié)果是否小于某一預定的閾值(稱為第三閾值),如果是,則丟棄該合并結(jié) 果,否則保留該合并結(jié)果并執(zhí)行步驟S305,以根據(jù)該合并結(jié)果來建立ROI。在一個示例中,在執(zhí)行步驟S309之后,所述方法還可以包括第二判斷步驟。具體 而言,在第二判斷步驟中,如果位置相鄰尺寸相近的第四候選目標的置信度合并結(jié)果小于 某一預定的閾值(稱為第四閾值),則丟棄該合并結(jié)果,否則,保留該合并結(jié)果,作為第一候 選目標的置信度。所得到的第一候選目標所對應的區(qū)域可以與具有最大置信度的第四候選 目標的區(qū)域相對應,還可以覆蓋所有對應的第四候選目標的區(qū)域。在上述實施例中,對圖像進行了兩次遍歷(對圖像的第一遍歷步驟和對ROI的第 二遍歷步驟)。通過建立每幀圖像的一個或多個R0I、對各ROI進行更精細的遍歷,可以進 一步提高目標檢測的準確度。圖4是示出了根據(jù)本發(fā)明的另一實施例的檢測視頻圖像中的目標的方法的示意 流程圖。圖4所示的實施例與圖2所示的實施例相似。不同之處在于,在圖4所示的實施 例中,第一遍歷步驟還包括建立每幀圖像的多尺度金字塔圖像并對每幀圖像的多尺度金字 塔圖像進行處理的過程,以進一步提高檢測的準確度,減少漏檢和誤檢。所謂的多尺度金字 塔圖像是基于原圖像的尺度(即尺寸)連續(xù)變化生成的一組圖像,尺度相鄰的兩圖像間的 尺寸相差一個常數(shù)因子。將原圖縮小或放大生成其他尺度圖像時,可以添加其他處理,例如 高斯濾波,所得新圖像因其施加的預處理算法和尺度縮放算法的不同而有差異,這里不再 詳述。如圖4所示,在步驟S401中,建立多幀圖像中每幀圖像的多尺度金字塔圖像(假 設該金字塔圖像包括K層,K > 1)。為了敘述方便,該步驟S410也稱為幀金字塔建立步驟。所述多尺度金字塔圖像可以采用任何適當?shù)姆椒▉斫ⅲ诖耸÷詫ζ涞拿枋觥?所述金字塔圖像的層數(shù)可以根據(jù)實際應用的需要來設定,本發(fā)明不對其作任何限定。在步驟403中,利用預定的窗口(為了敘述簡明,這里假設采用第一窗口)以預定 的步長(為了敘述簡明,這里假設采用第一步長)對金字塔圖像中的每個進行遍歷,對所得 到的每個窗口圖像進行檢測,從而得到一個或多個候選目標(為了敘述簡明,這里也稱為 第三候選目標)及其置信度。步驟S403也稱為第三遍歷步驟。第三遍歷的方式可以與步 驟S201中的第一遍歷的方式相似,這里不再贅述。在一個示例中,可以將對金字塔圖像進 行檢測而得到的第三候選目標所對應的區(qū)域映射到原圖像中,從而確定第三候選目標在原 圖像中所對應的區(qū)域。步驟S405-S407與圖2所示實施例中的步驟S203-S205相似,這里不再重復。在圖4所示的方法中,通過建立圖像的多尺度金字塔圖像并對金字塔圖像進行遍 歷和檢測,可以進一步提高對視頻圖像進行多目標檢測的準確度,減少漏檢和誤檢的可能 性。圖5是示出了根據(jù)本發(fā)明的另一實施例的檢測視頻圖像中的目標的方法的示意 流程圖。圖5所示的實施例與圖4所示的實施例相似。不同之處在于,在圖5所示的實施例中,第三遍歷步驟是從所建立的金字塔圖像中的最小尺寸的圖像開始處理的。每隔一定的 尺度跨度即進行一次階段性的置信度合并。如果該階段性合并結(jié)果足夠大(即合并的置信 度足夠高),則可以建立目標掩模Mask,該目標掩模對應于相應的候選目標。這樣,在對剩 余的金字塔圖像進行處理時,可以不處理這些目標掩模所對應的區(qū)域,以便加快檢測速度。如圖5所示,步驟S501與圖4所示實施例中的步驟S401相似,這里不再重復。為了 敘述方便,假設圖像Imagei的多尺度金字塔圖像包括K層,即Pyramid。,· · .,Pyramid」,· ·., Pyramid^,其中,j = 0,. . .,K-I, K > 1。步驟S503與步驟S403相似。不同之處在于,在步驟S503中,遍歷是從最小尺寸 (即分辨率最低)的金字塔圖像開始的。假設Pyramidtl為金字塔圖像中最小尺寸的圖像, 從0到K-I依次遞增,Pyramid^為金字塔圖像中最大尺寸(即分辨率最高)的圖像。為了 敘述方便,將步驟S503分為兩個子步驟S5031、S5032。在步驟S5031中,從Pyramid。開始對金字塔圖像中的每個圖像進行遍歷,對所 得到的每個窗口圖像進行檢測,從而得到一個或多個第三候選目標。當處理完N個圖像 Pyramid0, · · ·,Pyramid^1 (N < K)時,執(zhí)行步驟S5032。為了敘述方便,步驟S5031也稱為
第三遍歷步驟。在步驟S5032中,基于對金字塔圖像中的N個圖像Pyramid。,... , Pyrami C^1 (1彡N <K)進行檢測而得到的一個或多個第三候選目標,建立一個或多個目標掩模Mask。每個目 標掩模Mask的區(qū)域可根據(jù)相應的第三候選目標的區(qū)域來確定。例如目標掩??梢愿采w相 應的第三候選目標,也可以近似等于或小于相應的第三候選目標的區(qū)域。然后,重復執(zhí)行步 驟S5031對剩余的K-N個圖像進行處理,在處理過程中,將所述目標掩模Mask所對應的區(qū) 域作為不處理的區(qū)域。為了敘述方便,步驟S5032也稱為掩模建立步驟。上述步驟S5031和S5032可以反復執(zhí)行,直到處理完金字塔圖像中的所有K層圖 像,得到一個或多個第三候選目標及其置信度。上述實施例根據(jù)階段性檢測結(jié)果來建立目標掩模,并在后續(xù)處理中不處理目標掩 模所對應的區(qū)域。這樣可以加快檢測的速度。但是,如果目標掩模設置得過大,則在后續(xù)處 理中可能會增大漏檢的可能性。在一個示例中,可以通過將與相應第三候選目標的區(qū)域適 當?shù)乜s小來確定所述目標掩模Mask,從而避免出現(xiàn)因目標掩模過大而導致的漏檢。例如,如 果與相應第三候選目標對應的區(qū)域是矩形的,則可以根據(jù)目標的大小、運動速度和方向等 將該區(qū)域在長度和寬度上分別縮小一個或多個像素,從而獲得對應的目標掩模。又如,如果 與相應第三候選目標對應的區(qū)域是圓形的,則可以根據(jù)目標的大小、運動速度和方向等將 該區(qū)域在半徑縮小一個或多個像素,從而獲得對應的目標掩模Mask。另外,目標掩模雖然是在當前尺度的圖象中確定的,但其代表了在圖像中確定的 相對位置和相對大小。也就是說,在對后續(xù)的金字塔圖像處理時,由于圖像尺度的變化,需 要將目標掩模Mask分別映射到剩余的K-N個金字塔圖像PyramidN,. . .,Pyrami C^1,從而獲 得在當前尺度金字塔圖像中的掩模區(qū)域MaskN,Maslv1,但它們在圖像中的相對位置和 大小并未改變?;谶@個理由,在下文中,不再重復描述上述映射步驟。另外可以用“目標 掩?!敝阜Q所有后續(xù)金字塔圖像中的所有對應的掩模區(qū)域。作為一個示例,在步驟S5032中還可以包括一個合并判斷步驟,即將從所述N個圖 像Pyramidtl,... , Pyramid,^中得到的位置相鄰尺寸相近的第三候選目標合并,如果合并結(jié)果大于或等于預定的閾值(稱為第五閾值),則建立目標掩模Mask,否則不建立目標掩模 Mask。在該示例中,僅當候選目標的置信度足夠高時,才建立目標掩模。與上述實施例相比, 可以減少漏檢的可能性。步驟S505-S507分別與圖4所示的實施例中的步驟S405-S407相似,這里不再重
Μ. ο上述階段性合并的步長(即N)可以根據(jù)實際情況來選擇,這里不作任何限制。根 據(jù)步長N的不同以及金字塔圖像的層數(shù)K,可以多次建立目標掩模,逐步排除已經(jīng)確定的候 選目標所對應的區(qū)域,從而加快處理速度。圖6是示出了根據(jù)本發(fā)明的另一實施例的檢測視頻圖像中的目標的方法的示意 流程圖。圖6的方法與圖3所示的實施例相似,不同之處在于,在圖6的實施例中,還可以 建立各關注區(qū)域的多尺度金字塔并進行相應的遍歷處理,從而使得檢測結(jié)果更加準確。如圖6所示,步驟S601-S605分別與圖3所示實施例的步驟S301-S305相似這里
不再重復。在步驟S606中,建立每個關注區(qū)域的多尺度金字塔圖像??梢岳萌魏芜m當?shù)姆椒▉斫⒍喑叨冉鹱炙D像,這里不再贅述。在一個示 例中,還可以將每個關注區(qū)域投影(映射)到原圖像Imagei的金字塔圖像Pyramid。, Pyramidiw,從而得到該關注區(qū)域的多尺度金字塔圖像。在步驟S607中,利用預定的窗口(如第二窗口)以預定的步長(如第二步長)對 關注區(qū)域的金字塔圖像中的每個進行遍歷,對所得到的每個窗口圖像進行檢測,以得到一 個或多個候選目標(為了敘述簡明,稱為第四候選目標)及其置信度。在一個示例中,所述 第二步長可以小于所述第一步長,以進行更精細的遍歷。當然,所述第二步長也可以大于或 等于所述第一步長。在一個示例中,為了加快處理速度,對于已經(jīng)遍歷過的窗口可以不再進行重復遍 歷。步驟S609-S611分別與圖3所示的實施例中的步驟S309-S311相似,這里不再贅 述。圖7和圖8示出了根據(jù)本發(fā)明一個實施例的檢測視頻圖像中的目標的方法的一個 應用示例,而圖15示意性地示出了圖7和圖8的示例中使用的目標檢測與分類器的工作模 式。在該示例中,將多類汽車作為要檢測的目標,示例性地,將轎車、巴士和卡車(正面視 角)作為要檢測的目標。圖7示出了該示例的示意性流程圖,而圖8示出了圖7所示的窗 口遍歷和ROI精細遍歷的詳細流程圖。如圖15所示,目標檢測與分類器包括三個子分類器,即轎車⑶C(ClaSSifier for Detection and Classif ication)、巴士 CDC和卡車CDC。對于輸入樣本,如果某個CDC的輸 出為一個正數(shù),則可以認為樣本以某個置信度通過了這個CDC,樣本具有此類目標屬性。若 某個⑶C輸出為一個負數(shù),則可以認為樣本被此⑶C以某個置信度拒絕。多個⑶C在聯(lián)合 工作時可以采用不同的模式。本示例采用并行模式。當然,在實際應用中,還可以采用其他 適當?shù)哪J?,如串行模式。例如在串行模式下,輸入樣本向由一個CDC處理后,再由下一 CDC 處理。如圖15所示。在并行模式下,待檢測樣本同時輸入三個類別的CDC。某個待測樣本 可能對于多個CDC均有正響應,因而可以具有多重類別屬性。
如圖7所示,在步驟S701,對多幀圖像中的每幀圖像進行窗口遍歷。如圖8所示,從用于檢測的多幀圖像中取圖像Imagei,建立圖像Imagei的多尺度 金字塔圖像 Pyramid。,. . .,Pyramid」,...,Pyramid^1, j = 0,1,. . .,K-I, K > 1。然后,從 金字塔圖像的塔頂(即尺寸最小的金字塔圖像Pyramidtl)開始,使用預定的窗口進行遍歷, 對每個窗口圖像應用圖15所示的目標檢測與分類器,記錄其正響應結(jié)果。當對于當前尺寸的圖像Pyramidj遍歷結(jié)束時,切換到下一較大尺寸的金字塔圖像 Pyrami dJ+1繼續(xù)進行遍歷。每隔一定的尺度跨度,進行一次階段性合并(與圖5所示的實施例中的階段性合 并相似)。具體地,將當前得到的所有正響應值對應的區(qū)域映射到原圖像Imagei,忽略其類 別屬性,將位置相鄰尺寸相近的正響應值合并。如果某個合并后的結(jié)果大于某個預定的閾 值T1,則將合并區(qū)域適當向內(nèi)縮小(采用與前述實施例和/或示例相似的方法)得到一個 目標掩模Mask。對所有的正響應合并結(jié)果,得到對應于一個或多個候選目標的一組目標掩 模 Mask。將各目標掩模Mask投影(映射)到多尺度金字塔圖像中所有未檢測的圖像,得到 一組映射掩模區(qū)域,將映射掩模區(qū)域標注為非檢測區(qū)域。之后,重復上述步驟,對多尺度金 字塔圖像中所有未檢測的圖像進行檢測和處理,其中,不對非檢測區(qū)域進行處理,從而在盡 量不漏檢的情況下加快處理速度。在步驟S702,進行第一次合并。具體地,將針對圖像Imagei進行上述窗口遍歷而得到的所有正響應結(jié)果映射到原 圖像Imagei,忽略其類別屬性,將位置相鄰尺寸相近的正響應值合并,如果合并結(jié)果小于某 預定閾值T2,則忽略此合并結(jié)果。否則,將合并結(jié)果的所對應的區(qū)域適當向外擴大(與圖3 所示的實施例中的方法相似)得到一組關注區(qū)域R0I。在步驟S703,進行ROI的精細遍歷。具體地,對第i-Ι幀Image^進行上述步驟S701中的窗口遍歷。根據(jù)第i_l幀 Imagei^1的合并結(jié)果生成另一組R0I,與圖像Imagei的ROI合并為一組。對每個R0I,將之 投射到相應的多尺度金字塔圖像,記當前尺度為Scalei ;以Scalei為中心,將此ROI同時投 射到相鄰的數(shù)個金字塔圖像(例如Scalei (i =_2,_1,0,1,2)),形成ROI金字塔(或者直 接用ROI圖像生成尺度更精細的ROI金字塔)。以更精細的遍歷步長對ROI金字塔進行補 充遍歷。所謂補充遍歷,是指所要遍歷的窗口與已經(jīng)遍歷過的窗口不重復。在步驟S704,進行第二次合并。具體地,將在步驟S701 (窗口遍歷)和步驟S703(R0I精細遍歷)中得到的所有正 響應結(jié)果映射到原圖像,忽略其類別屬性,將位置相鄰尺寸相近的正響應合并,對每個合并 結(jié)果記錄所有的類別屬性及相應的置信度。在步驟S705,進行多幀信息的時域合并。具體地,將第i_2、i_l、i幀圖像共連續(xù)三幀圖像的第二次合并結(jié)果進行“位置相 鄰尺寸相近”的再次合并,即統(tǒng)計上述合并結(jié)果的所有類別屬性,并合并相應置信度(即上 述正響應值的合并結(jié)果)。如果置信度的合并結(jié)果小于某個預定的閾值,則舍棄此合并結(jié)^ ο最后,對于時域合并的每個結(jié)果,取其所有類別屬性中置信度最大的那個為此檢測結(jié)果的最終類別屬性,如果存在兩個以上的類別屬性其置信度相等且最大,則標記此檢 測結(jié)果的類別屬性為“不確定”。本領域的普通技術人員應理解,這里選取第i_2、i_l、i幀圖像僅僅是一個示例。 在實際應用中,選取哪些圖像以及選取的圖像幀數(shù)可以根據(jù)具體需要而定。本發(fā)明不應被 視為局限于任何具體的實施例或示例。在上述示例中,尺度空間由粗到細的遍歷策略既加速了檢測過程,又減小了在目 標圖像內(nèi)部出現(xiàn)虛假響應的可能。另外,基于第一次合并結(jié)果的ROI精細遍歷,特別是基于 i-1幀結(jié)果的R0I,是對連續(xù)幀信息的有效利用,使得漏檢的可能性大大降低。雖然誤檢的 可能性也有所提高,但總體上說是效果增益的。減小漏檢非常有利于當發(fā)生漏檢時會產(chǎn)生 巨大風險的應用場景(例如安全監(jiān)控)。圖9示出了根據(jù)本發(fā)明一實施例的檢測視頻圖像中的目標的裝置的結(jié)構示意圖。 如圖9所示,檢測視頻圖像中的目標的裝置可以包括目標檢測與分類器901和合并模塊 902。目標檢測與分類器901用于對視頻序列中包括目標幀的多幀圖像進行檢測,并輸 出一個或多個候選目標(為了敘述方便,也稱為第一候選目標)及其置信度。與前述實施例相同,所述多幀圖像可以是在時間上連續(xù)的,也可以是在時間上 不連續(xù)的。為了方便敘述,假設獲取了視頻序列中的P幀圖像Image。,... , Imagei,..., Images,其中Imagei為目標幀,P為整數(shù)且P > I,i =0,...,P-1。例如,可以利用目 標幀Imagei之前的多幀圖像Image^,Imagei^2,...,也可以利用該幀之后的多幀圖像 Imagei+1,Imagei+2,· · ·,還可以利用該幀前后的多幀圖像..·,Imagei^2, Imagei+ Imagei+1, Imagei+2,...。選取的圖像幀數(shù)也可以根據(jù)實際應用而定。應理解,本發(fā)明不應被視為局限 于任何具體的實施例或示例。目標檢測與分類器901可以采用任何適當?shù)募夹g來實現(xiàn),這里省略對它的描述。合并模塊902用于將目標檢測與分類器901檢測得到的所述多幀圖像中的第一 候選目標的置信度進行合并,以得到目標幀中的一個或多個候選目標(也稱為第二候選目 標)°上述裝置通過綜合多幀圖像(如Image0, ... , Imagei, ... , Imagep^1)的檢測和分 類信息來得到其中目標幀(如Imagei)的結(jié)果。這樣,對該幀單獨進行檢測時置信度較低 的響應可以通過前后幀的支持而得到強化,從而能夠被檢測出來。而隨機性出現(xiàn)的虛假響 應也會因為得不到連續(xù)幀的持續(xù)支持而被抑制。與僅僅利用單幀圖像相比,利用連續(xù)的視 頻圖像序列可提高檢測或分類的效果。在一個示例中,所述合并模塊902還用于判斷所述多幀圖像中的第一候選目標的 置信度的合并結(jié)果是否大于或等于某一預定的閾值(如第一閾值),如果是,則判定在目標 幀Imagei的相應位置上存在目標;否則,則確定在圖像Imagei的相應位置上不存在目標。在某些情況下,P幀圖像中的某些幀圖像中可能沒有檢測到某個對應的候選目標。 在這些情況下,合并模塊902在進行合并時,可以默認這些幀檢測輸出的置信度值為0。在一個示例中,合并模塊902還用于將所述多幀圖像中位置相鄰尺寸相近的第一 候選目標的置信度合并,以得到目標幀中的一個或多個第二候選目標。所謂的“位置相鄰尺 寸相近”以及置信度的合并方法均已在上文中解釋,這里不再重復。
圖10示出了根據(jù)本發(fā)明另一實施例的檢測視頻圖像中的目標的裝置的結(jié)構示意 圖。與圖9所示的實施例相似,圖10所示的檢測視頻圖像中的目標的裝置包括目標檢測與 分類器1001和合并模塊1002,這二個模塊的功能與圖9的相應模塊相似。與圖9的實施例 不同的是,圖10所示的裝置還可以包括遍歷模塊1003。在該實施例中,利用遍歷模塊1003 對每幀圖像進行遍歷,并將對得到的所有窗口圖像的檢測結(jié)果合并,作為對該圖像的檢測 結(jié)果。然后,將多幀圖像的檢測結(jié)果合并,以得到目標幀中的候選目標。遍歷模塊1003用于利用預定的窗口(如第一窗口)以預定的步長(如第一步長) 對視頻序列中包括目標幀的多幀圖像中的每幀圖像進行遍歷,并將所得到的每個窗口圖像 輸出到目標檢測與分類器1001。目標檢測與分類器1001對來自遍歷模塊1003的每個窗口圖像進行檢測,得到一 個或多個候選目標(為了敘述方便,稱為第三候選目標)及其置信度。合并模塊1002用于將目標檢測與分類器1001輸出的位置相鄰尺寸相近的第三候 選目標的置信度合并,以得到一個或多個第一候選目標及其置信度。合并模塊1002還用于將從多幀圖像中檢測到的一個或多個第一候選目標及其置 信度進行合并,從而得到目標幀中的一個或多個第二候選目標。作為一個示例,遍歷模塊1003所使用的窗口的尺寸可以根據(jù)目標檢測與分類器 1001能夠檢測的圖像樣本的尺寸來確定。假設在圖像的某一區(qū)域中存在待檢測的目標,則 在遍歷模塊1003對該圖像進行遍歷時該目標可能會被多個遍歷窗口“框”到。換言之,可 能會有多個窗口圖像包含該目標的全部或部分,對這些窗口圖像進行檢測則可得到對應于 該同一目標的多個第三候選目標及其置信度。這些第三候選目標即屬于位置相鄰尺寸相近 的候選目標。在一個示例中,合并模塊1002還可以判斷位置相鄰尺寸相近的第三候選目標的 置信度的合并結(jié)果是否小于某一預定的閾值(稱為第二閾值),如果是,則丟棄該合并結(jié) 果,否則保留該合并結(jié)果,作為第一候選目標的置信度。所得到的第一候選目標所對應的區(qū) 域可以與具有最大置信度的第三候選目標的區(qū)域相對應,還可以覆蓋所有對應的第三候選 目標的區(qū)域。圖10所示的裝置可以利用預定的窗口和步長對每幀圖像作遍歷,使得檢測結(jié)果 更為準確。在一個示例中,所述窗口可以是矩形窗口,其尺寸可以根據(jù)實際需要而定。所述 第一步長也可以根據(jù)實際需要而定,例如,該步長可以是一個或多個像素,還可以與當前窗 口的尺寸成比例關系。所述遍歷的順序和方式也是任意的,可以是從左到右、從上到下的, 還可以是從右到左、從下到上的。本發(fā)明對此不作任何限制。圖11示出了根據(jù)本發(fā)明另一實施例的檢測視頻圖像中的目標的裝置的結(jié)構示意 圖。與圖10所示的實施例相似,圖11所示的檢測視頻圖像中的目標的裝置包括目標檢測 與分類器1101、合并模塊1102和遍歷模塊1103,這些模塊具有與圖10所示的相應模塊相 似的功能。不同之處在于,圖11所示的裝置還可以包括關注區(qū)域建立模塊1104。在該實施例中,合并模塊1102將第三候選目標的置信度合并之后,還可以將合并 結(jié)果反饋給關注區(qū)域建立模塊1104。關注區(qū)域建立模塊1104用于根據(jù)合并模塊1102反饋的合并結(jié)果,建立一個或多 個關注區(qū)域R0I,并輸出到遍歷模塊1103。每個關注區(qū)域ROI覆蓋與相應的第三候選目標的合并結(jié)果對應的區(qū)域。遍歷模塊1103還用于利用預定的窗口(下文稱作第二窗口)以預定的步長(下 文稱作第二步長)對每個關注區(qū)域進行遍歷,并輸出給目標檢測與分類器1101。目標檢測與分類器1101用于對所得到的每個窗口圖像進行檢測,得到一個或多 個候選目標(下文稱為第四候選目標)。合并模塊1102還用于將目標檢測與分類器1101輸出的位置相鄰尺寸相近的第三 候選目標和第四候選目標及其置信度合并,作為第一候選目標及其置信度。然后,合并模塊 1102將從多幀圖像中檢測到的一個或多個第一候選目標及其置信度進行合并,從而得到目 標幀中的一個或多個第二候選目標。在該實施例中,在對每幀圖像進行遍歷(第一次遍歷)之后,根據(jù)檢測結(jié)果建立關 注區(qū)域,并對關注區(qū)域進行進一步的遍歷(第二次遍歷),從而進一步提高檢測的準確度, 減少漏檢和誤檢。在一個實施例中,可以通過將與合并結(jié)果對應的區(qū)域適當?shù)財U大來確定 每個關注區(qū)域,即適度擴大關注區(qū)域的范圍。這樣能夠進一步降低漏檢和誤檢的可能性。例 如,如果與合并結(jié)果對應的區(qū)域是矩形的,則可以根據(jù)目標的大小、運動速度和方向等將該 區(qū)域在長度和寬度上分別擴展一個或多個像素,從而獲得對應的關注區(qū)域。又如,如果與合 并結(jié)果對應的區(qū)域是圓形的,則可以根據(jù)目標的大小、運動速度和方向等將該區(qū)域在半徑 擴展一個或多個像素,從而獲得對應的關注區(qū)域。第二次遍歷的方式可以與第一次遍歷的方式相似,這里不再贅述。第二窗口在尺 寸或形狀上可以與第一窗口相同,也可以不同。為了進行更精細的遍歷,第二步長可以小于 第一步長。在其他示例中,第二步長也可以等于或大于第一步長。在一個示例中,可以避免 重復遍歷,即,在第一窗口和第二窗口大小相同而步長不同的情況下,避免重復搜索已經(jīng)搜 索過的窗口位置,從而加快處理的速度。在一個示例中,關注區(qū)域建立模塊1104在建立關注區(qū)域之前,還可以判斷位置相 鄰尺寸相近的第三候選目標的置信度的合并結(jié)果是否小于某一預定的閾值(稱為第三閾 值),如果是,則丟棄該合并結(jié)果,否則保留該合并結(jié)果并建立關注區(qū)域。在一個示例中,合并模塊1102在合并了位置相鄰尺寸相近的第四候選目標的置 信度之后,還可以進一步判斷該合并結(jié)果是否小于某一預定的閾值(稱為第四閾值),如果 是,則丟棄該合并結(jié)果,否則,保留該合并結(jié)果,作為第一候選目標的置信度。所得到的第一 候選目標所對應的區(qū)域可以與具有最大置信度的第四候選目標的區(qū)域相對應,還可以覆蓋 所有對應的第四候選目標的區(qū)域。圖12示出了根據(jù)本發(fā)明另一實施例的檢測視頻圖像中的目標的裝置的結(jié)構示意 圖。與圖10的實施例相似,圖12所示的檢測視頻圖像中的目標的裝置包括目標檢測與分 類器1201、合并模塊1202和遍歷模塊1203,這些模塊具有與圖10所示的相應模塊相似的 功能。不同之處在于,圖12的裝置還可以包括金字塔圖像建立模塊1205。假設視頻序列中包括目標幀的多幀圖像用Image0, ... , Imagei, .... , Imagep^1來 表不。金字塔圖像建立模塊1205用于建立所述多幀圖像中的每幀圖像(如Imagei)的 多尺度金字塔圖像Pyramid。,. . .,Pyramid」,...,Pyramid^,并將金字塔圖像中的每個圖像 輸出給遍歷模塊1203。j = 0,. . .,K-I, K > 1。
遍歷模塊1203用于利用預定的窗口(如第一窗口)以預定的步長(如第一步長) 對金字塔圖像中的每個圖像進行遍歷,并將所得到的每個窗口圖像輸出到目標檢測與分類 器 1201。目標檢測與分類器1201對來自遍歷模塊1203的每個窗口圖像進行檢測,得到一 個或多個第三候選目標及其置信度。合并模塊1202用于將目標檢測與分類器1201輸出的位置相鄰尺寸相近的第三候 選目標的置信度合并,以得到一個或多個第一候選目標及其置信度。然后,合并模塊1202 將從多幀圖像中檢測到的一個或多個第一候選目標及其置信度進行合并,從而得到目標幀 中的一個或多個第二候選目標。所述多尺度金字塔圖像可以采用任何適當?shù)姆椒▉斫?,在此省略對其的描述?所述金字塔圖像的層數(shù)可以根據(jù)實際應用的需要來設定,本發(fā)明不對其作任何限定。遍歷 的方式與前述實施例和/或示例相似,這里不再贅述。在一個示例中,合并模塊I202還可以將對金字塔圖像進行檢測而得到的第三候 選目標所對應的區(qū)域映射到原圖像中,從而確定第三候選目標在原圖像中所對應的區(qū)域。在上述實施例中,通過建立圖像的多尺度金字塔圖像并對金字塔圖像進行遍歷和 檢測,可以進一步提高對視頻圖像進行多目標檢測的準確度,減少漏檢和誤檢的可能性。圖13示出了根據(jù)本發(fā)明另一實施例的檢測視頻圖像中的目標的裝置的結(jié)構示意 圖。與圖12所示的實施例相似,圖13所示的檢測視頻圖像中的目標的裝置可以包括目標 檢測與分類器1301、合并模塊1302、遍歷模塊1303和金字塔圖像建立模塊1305,這些模塊 具有與圖12所示的相應模塊相似的功能。不同之處在于,圖13的裝置還可包括掩模建立 模塊1306。遍歷模塊1303對金字塔圖像建立模塊1305建立的金字塔圖像中的每個圖像進行 遍歷時從最小尺寸的圖像(如Pyramid。)開始。所得到的每個窗口圖像由目標檢測與分類 器1301進行檢測,得到一個或多個第三候選目標及其置信度。在目標檢測與分類器1301已處理完金字塔圖像中的N個圖像(如Pyramid。,..., Pyramid^,N< K)之后,合并模塊1302可以將目標檢測與分類器檢測得到的第三候選目標 的置信度合并,并將合并結(jié)果輸出到掩模建立模塊1306。掩模建立模塊1306用于根據(jù)該合并結(jié)果來建立一個或多個目標掩模,并反饋給 遍歷模塊1303。每個目標掩模對應于與相應的第三候選目標對應的區(qū)域。遍歷模塊1303 對剩余的K-N個圖像Pyramid,,... , Pyramidiw進行處理時,不對目標掩模所對應的區(qū)域進 行遍歷。上述階段性合并的步長(即N)可以根據(jù)實際情況來選擇,這里不作任何限制。根 據(jù)步長N的不同以及金字塔圖像的層數(shù)K,可以多次建立目標掩模,逐步排除已經(jīng)確定的候 選目標所對應的區(qū)域,從而加快處理速度。模塊1303、1301、1302和1306可以反復執(zhí)行上述操縱,直到處理完金字塔圖像中 的所有K層圖像。在得到多幀圖像的一個或多個第三候選目標及其置信度之后,由合并模 塊1302進一步進行處理,處理過程與合并模塊1202相同,這里不再贅述。上述實施例根據(jù)階段性檢測結(jié)果來建立目標掩模,并在后續(xù)處理中不處理目標掩 模所對應的區(qū)域。這樣可以加快檢測的速度。但是,如果目標掩模設置得過大,則在后續(xù)處理中可能會增大漏檢的可能性。在一個示例中,可以通過將與相應第三候選目標的區(qū)域適 當?shù)乜s小來確定所述目標掩模Mask,從而避免出現(xiàn)因目標掩模過大而導致的漏檢。例如,如 果與相應第三候選目標對應的區(qū)域是矩形的,則可以根據(jù)目標的大小、運動速度和方向等 將該區(qū)域在長度和寬度上分別縮小一個或多個像素,從而獲得對應的目標掩模。又如,如果 與相應第三候選目標對應的區(qū)域是圓形的,則可以根據(jù)目標的大小、運動速度和方向等將 該區(qū)域在半徑縮小一個或多個像素,從而獲得對應的目標掩模Mask。作為一個示例,掩模建立模塊1306在建立目標掩模之前,還可以判斷所述N個圖 像Pyramidtl, ... , Pyramid,^中的位置相鄰尺寸相近的第三候選目標的置信度合并結(jié)果是 否大于或等于預定的閾值(稱為第五閾值),如果是,則建立目標掩模Mask,否則不建立目 標掩模Mask。在該示例中,僅當候選目標的置信度足夠高時,才建立目標掩模。與上述實施 例相比,可以減少漏檢的可能性。作為一個示例,圖13所示的裝置還可以包括關注區(qū)域建立模塊1304。關注區(qū)域建 立模塊1304還可用于將所建立的每個關注區(qū)域輸出給金字塔圖像建立模塊1305。金字塔 圖像建立模塊1305還可以建立每個關注區(qū)域的金字塔圖像,并輸出給遍歷模塊1303。遍歷 模塊1303還可以利用預定的窗口(如第二窗口)以預定的步長(如第二步長)對每個關 注區(qū)域的金字塔圖像進行遍歷,并將每個窗口圖像輸出給目標檢測與分類器1301,以得到 一個或多個第四候選目標及其置信度。在一個示例中,為了檢測多類目標,目標檢測與分類器1301可以如圖14所示的那 樣包括多個子分類器,其中每個子分類器可以檢測一類目標。子分類器的數(shù)量N可以根據(jù) 實際應用中需要檢測的目標類別的數(shù)量來設置。作為一個示例,如果目標檢測與分類器1301包括用于檢測不同類別的目標的多 個子分類器,則圖13所示裝置還可以包括目標類別判斷模塊1307。目標類別判斷模塊1307 可以用于根據(jù)最大置信度值所對應的子分類器的類別屬性來判定目標的類別。例如,當將 某個圖像樣本輸入多個子分類器后,如果某個子分類器輸出一定的置信度而其他子分類器 輸出的置信度為0,則目標類別判斷模塊1307可以根據(jù)輸出該置信度的子分類器所對應的 類別來確定目標的類別,而該置信度則作為該目標的置信度。如果有多于一個的子分類器 輸出一定的置信度,則目標類別判斷模塊1307可以根據(jù)最大置信度值所對應的類別(即輸 出最大置信度值的子分類器所對應的類別)來確定該目標的類別。如果存在兩個或更多個 置信度值與最大值相等且分別對應于不同的類別,則可將此目標的類別屬性標記為“不確 定”。在該示例中,由于綜合了多幀圖像的檢測信息,因此,對目標類別屬性的檢測具有良好 的魯棒性。在上述實施例和示例中,所述閾值(例如第一閾值、第二閾值、第三閾值、第四閾 值和第五閾值等)可以根據(jù)具體的應用場景來設置和調(diào)整,比如當閾值設置得較大時,目 標漏檢率可能會增加,而當閾值設置得較小時,目標誤檢率可能會增加,因此,需要根據(jù)實 際需求來選擇適當?shù)拈撝?,這里不再贅述。另外,本領域的普通技術人員應理解,在上述各 實施例和示例中,所述的一個或多個子分類器可以采用并行模式來工作,還可以采用如串 行模式等其他模式來工作,在此不作詳述。在上述實施例和/或示例的描述中,使用了“第一窗口 ”、“第二窗口,,以及“第一 步長”、“第二步長”等用語對遍歷處理進行了描述。在對不同的實施例的描述中,可能采用了相同的用語,如圖2、圖4的實施例都采用了“第一窗口”和“第一步長”這樣的用語。本 領域的普通技術人員應理解,這樣的描述僅僅是為了敘述的方便,并非意味著這兩個實施 例必須采用相同的窗口或步長。實際上,進行遍歷時,窗口和步長均可以根據(jù)實際需要來選 取,并不限于上述的描述。在上述實施例和示例中,所述第一窗口和第二窗口可以是矩形窗口,其尺寸可以 根據(jù)實際需要而定。所述第一步長和第二步長也可以根據(jù)實際需要而定,例如,步長可以是 一個或多個像素,還可以與當前窗口的尺寸成比例關系。為了對ROI進行更精細的遍歷,可 以將第二步長設置得小于第一步長。在上述實施例和示例中,所述遍歷的順序和方式也是任意的,可以是從左到右、從 上到下的,還可以是從右到左、從下到上的。在本說明書中,“第一”、“第二”、“第三”及“第N”等表述僅僅是為了將所描述的特 征在文字上區(qū)分開,以清楚地描述本發(fā)明。因此,不應將其視為具有任何限定性的含義。上述實施例和示例的方法和裝置可用于視頻圖像中的多類目標檢測和分類。這 里,多類之間可以存在一定的相似性,比如卡車、轎車、巴士等類別。上述裝置中各個組成模塊、模塊可通過軟件、固件、硬件或其組合的方式進行配 置。配置可使用的具體手段或方式為本領域技術人員所熟知,在此不再贅述。在通過軟件 或固件實現(xiàn)的情況下,從存儲介質(zhì)或網(wǎng)絡向具有專用硬件結(jié)構的計算機(例如圖16所示的 通用計算機1600)安裝構成該軟件的程序,該計算機在安裝有各種程序時,能夠執(zhí)行各種 功能等。在圖16中,中央處理單元(CPU) 1601根據(jù)只讀存儲器(ROM) 1602中存儲的程序或 從存儲部分1608加載到隨機存取存儲器(RAM) 1603的程序執(zhí)行各種處理。在RAM 1603中, 也根據(jù)需要存儲當CPU 1601執(zhí)行各種處理等等時所需的數(shù)據(jù)。CPU 160UROM 1602和RAM 1603經(jīng)由總線1604彼此連接。輸入/輸出接口 1605也連接到總線1604。下述部件連接到輸入/輸出接口 1605 輸入部分1606 (包括鍵盤、鼠標等等)、輸 出部分1607 (包括顯示器,比如陰極射線管(CRT)、液晶顯示器(LCD)等,和揚聲器等)、存 儲部分1608 (包括硬盤等)、通信部分1609 (包括網(wǎng)絡接口卡比如LAN卡、調(diào)制解調(diào)器等)。 通信部分1609經(jīng)由網(wǎng)絡比如因特網(wǎng)執(zhí)行通信處理。根據(jù)需要,驅(qū)動器1610也可連接到輸 入/輸出接口 1605??刹鹦督橘|(zhì)1611比如磁盤、光盤、磁光盤、半導體存儲器等等根據(jù)需要 被安裝在驅(qū)動器1610上,使得從中讀出的計算機程序根據(jù)需要被安裝到存儲部分1608中。在通過軟件實現(xiàn)上述系列處理的情況下,從網(wǎng)絡比如因特網(wǎng)或存儲介質(zhì)比如可拆 卸介質(zhì)1611安裝構成軟件的程序。本領域的技術人員應當理解,這種存儲介質(zhì)不局限于圖16所示的其中存儲有程 序、與設備相分離地分發(fā)以向用戶提供程序的可拆卸介質(zhì)1611??刹鹦督橘|(zhì)1611的例子 包含磁盤(包含軟盤(注冊商標))、光盤(包含光盤只讀存儲器(⑶-ROM)和數(shù)字通用盤 (DVD))、磁光盤(包含迷你盤(MD)(注冊商標))和半導體存儲器?;蛘撸鎯橘|(zhì)可以是 ROM 1602、存儲部分1608中包含的硬盤等等,其中存有程序,并且與包含它們的設備一起 被分發(fā)給用戶。本發(fā)明還提出一種存儲有機器可讀取的指令代碼的程序產(chǎn)品。所述指令代碼由機 器讀取并執(zhí)行時,可執(zhí)行上述根據(jù)本發(fā)明實施例的方法。
相應地,用于承載上述存儲有機器可讀取的指令代碼的程序產(chǎn)品的存儲介質(zhì)也包 括在本發(fā)明的公開中。所述存儲介質(zhì)包括但不限于軟盤、光盤、磁光盤、存儲卡、存儲棒等寸。在上面對本發(fā)明具體實施例的描述中,針對一種實施方式描述和/或示出的特征 可以以相同或類似的方式在一個或更多個其它實施方式中使用,與其它實施方式中的特征 相組合,或替代其它實施方式中的特征。應該強調(diào),術語“包括/包含”在本文使用時指特征、要素、步驟或組件的存在,但 并不排除一個或更多個其它特征、要素、步驟或組件的存在或附加。此外,本發(fā)明的方法不限于按照說明書中描述的時間順序來執(zhí)行,也可以按照其 他的時間順序地、并行地或獨立地執(zhí)行。因此,本說明書中描述的方法的執(zhí)行順序不對本發(fā) 明的技術范圍構成限制。盡管上面已經(jīng)通過對本發(fā)明的具體實施例的描述對本發(fā)明進行了披露,但是,應 該理解,上述的所有實施例和示例均是示例性的,而非限制性的。本領域的技術人員可在所 附權利要求的精神和范圍內(nèi)設計對本發(fā)明的各種修改、改進或者等同物。這些修改、改進或 者等同物也應當被認為包括在本發(fā)明的保護范圍內(nèi)。
權利要求
一種檢測視頻圖像中的目標的方法,包括幀檢測步驟對包含目標幀的多幀圖像分別進行檢測,以得到一個或多個第一候選目標及其置信度;及合并步驟對所述多幀圖像中的第一候選目標及其置信度進行合并,得到目標幀中的一個或多個第二候選目標。
2.如權利要求1所述的方法,其中,所述幀檢測步驟包括第一遍歷步驟利用第一窗口以第一步長對所述多幀圖像中的每幀圖像進行遍歷,對 每個窗口圖像進行檢測以得到一個或者多個第三候選目標及其置信度;第一遍歷結(jié)果合并步驟將位置相鄰、尺寸相近的第三候選目標及其置信度合并,以得 到所述第一候選目標及其置信度。
3.如權利要求2所述的方法,其中,所述幀檢測步驟還包括關注區(qū)域建立步驟根據(jù)所述第一遍歷結(jié)果合并步驟的結(jié)果,建立一個或多個關注區(qū) 域,每個關注區(qū)域覆蓋相應的第三候選目標;第二遍歷步驟利用第二窗口以第二步長對每個關注區(qū)域進行遍歷,對每個窗口圖像 進行檢測以得到一個或者多個第四候選目標及其置信度;第二遍歷結(jié)果合并步驟將位置相鄰、尺寸相近的第三候選目標和第四候選目標及其 置信度合并,以得到所述第一候選目標及其置信度。
4.如權利要求2所述的方法,其中,所述第一遍歷步驟包括幀金字塔建立步驟建立每幀圖像的多尺度金字塔圖像,該多尺度金字塔圖像包括K 層,K> 1 ;第三遍歷步驟,利用所述第一窗口以所述第一步長對所述金字塔圖像中的每個進行遍 歷,對每個窗口圖像進行檢測以得到一個或者多個第三候選目標及其置信度。
5.如權利要求4所述的方法,其中所述第三遍歷步驟是從所述金字塔圖像中最小尺寸的圖像開始處理的,并且還包括掩模建立步驟基于對第一到第N金字塔圖像的檢測結(jié)果而建立一個或多個目標掩 模,每個目標掩模對應于相應的第三候選目標,其中,在對其余K-N個圖像進行處理時,不對所述K-N個圖像中與各目標掩模對應的區(qū) 域進行遍歷,其中1<Ν<Κ。
6.如權利要求3所述的方法,其中所述關注區(qū)域建立步驟之后,所述方法還包括建立每個關注區(qū)域的多尺度金字塔圖像,所述第二遍歷步驟包括利用所述第二窗口以所述第二步長對每個關注區(qū)域的金字塔 圖像進行遍歷,對每個窗口圖像進行檢測以得到一個或者多個第四候選目標及其置信度。
7.如權利要求1所述的方法,其中,所述合并步驟包括將所述多幀圖像中的位置相鄰 尺寸相近的第一候選目標的置信度合并。
8.如權利要求7所述的方法,其中,將所述多幀圖像中位置相鄰尺寸相近的第一候選 目標的置信度合并包括對所述多幀圖像中的位置相鄰尺寸相近的第一候選目標的置信度 求和或平均值,或者對所述多幀圖像中的位置相鄰尺寸相近的第一候選目標的置信度進行 歸一化并對歸一化后的置信度求和或求平均值。
9.如權利要求1所述的方法,其中,所述幀檢測步驟是利用包括多個子分類器的目標 檢測和分類器進行的,每個子分類器能夠檢測一類目標。
10.如權利要求9所述的方法,還包括根據(jù)輸出最大置信度的子分類器所對應的類 別,來確定目標的類別。
11.一種檢測視頻圖像中的目標的裝置,包括目標檢測與分類器,用于對視頻序列中包括目標幀的多幀圖像進行檢測,以得到一個 或多個第一候選目標及其置信度;合并模塊,用于對所述多幀圖像中的第一候選目標的置信度進行合并,以得到目標幀 中的一個或多個第二候選目標。
12.如權利要求11所述的裝置,還包括遍歷模塊,所述遍歷模塊用于利用第一窗口以第一步長對每個圖像進行遍歷,并將每個窗口圖像 輸出到所述目標檢測與分類器,以得到一個或多個第三候選目標及其置信度,所述合并模塊還用于將位置相鄰尺寸相近的第三候選目標的置信度合并,以得到所述 第一候選目標及其置信度。
13.如權利要求12所述的裝置,還包括關注區(qū)域建立模塊,所述關注區(qū)域建立模塊用于根據(jù)所述合并模塊反饋的所述第三候選目標的置信度的 合并結(jié)果,建立一個或多個關注區(qū)域,并輸出到所述遍歷模塊,每個關注區(qū)域覆蓋相應的第 三候選目標;所述遍歷模塊還用于利用第二窗口以第二步長對每個關注區(qū)域進行遍歷,并將每個窗 口圖像輸出到所述目標檢測與分類器,以得到一個或多個第四候選目標及其置信度;所述合并模塊還用于將位置相鄰尺寸相近的第三候選目標和第四候選目標的置信度 合并,以得到所述第一候選目標及其置信度。
14.如權利要求12所述的裝置,還包括金字塔圖像建立模塊,所述金字塔圖像建立模塊用于建立每幀圖像的包括K層的多尺度金字塔圖像,并將所 述金字塔圖像中的每個圖像輸出給所述遍歷模塊,其中,K > 1,所述遍歷模塊還用于利用所述第一窗口以所述第一步長對所述金字塔圖像中的每個 圖像進行遍歷,并將每個窗口圖像輸出到所述目標檢測與分類器,以得到一個或多個第三 候選目標及其置信度。
15.如權利要求14所述的裝置,其中,,所述遍歷模塊被配置為從所述金字塔圖像中最小尺寸的圖像開始進行遍歷, 所述合并模塊被配置為將對第一到第N金字塔圖像進行檢測而得到的第三候選目標 的置信度合并,并將合并結(jié)果輸出到所述掩模建立模塊,該裝置還包括掩模建立模塊,用于根據(jù)該合并結(jié)果來建立一個或多個目標掩模,并輸 出到所述遍歷模塊,使得所述遍歷模塊不對所述K-N個圖像中與各目標掩模對應的區(qū)域進 行遍歷,其中1 < N < K,每個目標掩模對應于相應的第三候選目標。
16.如權利要求13所述的裝置,其中所述關注區(qū)域建立模塊還用于將每個關注區(qū)域輸出給所述金字塔圖像建立模塊,所述 金字塔圖像建立模塊還用于建立每個關注區(qū)域的金字塔圖像,并輸出給所述遍歷模塊, 所述遍歷模塊還用于利用所述第二窗口以所述第二步長對每個關注區(qū)域的金字塔圖像進行遍歷,并將每個窗口圖像輸出給所述目標檢測與分類器,以得到一個或多個第四候 選目標及其置信度。
17.如權利要求11所述的裝置,其中,所述合并模塊還用于通過合并所述多幀圖像中 位置相鄰、尺寸相近的候選目標的置信度來對所述多幀圖像中的第一候選目標的置信度進 行合并。
18.如權利要求17所述的裝置,其中,所述合并模塊還用于通過對所述多幀圖像中位 置相鄰、尺寸相近的候選目標的置信度求和或平均值,或者對所述多幀圖像中位置相鄰、尺 寸相近的候選目標的置信度進行歸一化并對歸一化后的置信度求和或求平均值來對所述 多幀圖像中的第一候選目標的置信度進行合并。
19.如權利要求11所述的裝置,其中,所述目標檢測和分類器包括多個子分類器,每個 子分類器能夠檢測一類目標。
20.如權利要求19所述的裝置,還包括目標類別判定模塊,用于根據(jù)輸出最大置信度 的子分類器所對應的類別,來確定目標的類別。
全文摘要
本發(fā)明提供了檢測視頻圖像中的目標的方法和裝置。所述方法包括對包含目標幀的多幀圖像分別進行檢測,以得到一個或多個第一候選目標及其置信度;及對所述多幀圖像中的第一候選目標及其置信度進行合并,得到目標幀中的一個或多個第二候選目標。
文檔編號G06T7/00GK101968884SQ200910161669
公開日2011年2月9日 申請日期2009年7月28日 優(yōu)先權日2009年7月28日
發(fā)明者吳偉國, 梅樹起 申請人:索尼株式會社