使用合成訓(xùn)練數(shù)據(jù)的實(shí)時(shí)騎車人檢測(cè)的制作方法
【專利摘要】本發(fā)明的各實(shí)施方式總體上涉及使用合成訓(xùn)練數(shù)據(jù)的實(shí)時(shí)騎車人檢測(cè)。具體地,涉及實(shí)時(shí)地進(jìn)行關(guān)于騎車人是否存在于目標(biāo)圖像中的確定。接收目標(biāo)圖像。使用線性分類器對(duì)目標(biāo)圖像分類并且確定目標(biāo)圖像的誤差值。如果誤差值不超過(guò)閾值,則輸出分類。否則,如果誤差值超過(guò)閾值,則使用非線性分類器對(duì)目標(biāo)圖像分類。
【專利說(shuō)明】使用合成訓(xùn)練數(shù)據(jù)的實(shí)時(shí)騎車人檢測(cè)
[0001]相關(guān)申請(qǐng)
[0002]本申請(qǐng)要求2012年12月21日提交的第61/745,225號(hào)美國(guó)臨時(shí)申請(qǐng)的權(quán)益,該臨時(shí)申請(qǐng)通過(guò)引用全文結(jié)合于此。
【技術(shù)領(lǐng)域】
[0003]本申請(qǐng)總體上涉及對(duì)象檢測(cè)的領(lǐng)域,并且尤其涉及使用層級(jí)分類器檢測(cè)騎車人的存在。
【背景技術(shù)】
[0004]“對(duì)象檢測(cè)”是指自動(dòng)檢測(cè)視頻圖像或靜止圖像中對(duì)象的存在的任務(wù)。例如,檢測(cè)系統(tǒng)可以檢測(cè)靜止圖像中人或騎車人(bicyclist)的存在。如本文所使用的,“騎車人”是指自行車及其騎行者的組合。
[0005]對(duì)象檢測(cè)例如可以在車輛(例如,汽車)中使用以提高車輛駕駛員、乘客、騎車人以及與車輛分享道路的任意其他人的安全性。
[0006]當(dāng)前的對(duì)象檢測(cè)系統(tǒng)存在許多問(wèn)題。對(duì)象檢測(cè)系統(tǒng)所存在的一個(gè)問(wèn)題是缺少用于訓(xùn)練對(duì)象檢測(cè)模型的擴(kuò)展訓(xùn)練集合。包括正樣本(positive sample)(包括所要檢測(cè)的對(duì)象的圖像)和負(fù)樣本(negative sample)(不包括所要檢測(cè)的對(duì)象的圖像)的訓(xùn)練集合被提供給機(jī)器學(xué)習(xí)算法以產(chǎn)生對(duì)象檢測(cè)模型。正樣本對(duì)于有限數(shù)量的對(duì)象類型(例如,行人)可能是可用的,但是可能難以找出用于其它類型的對(duì)象(例如,騎車人)的正樣本。
[0007]此外,當(dāng)生成用于某個(gè)類型的對(duì)象的新的訓(xùn)練集合時(shí),利用某些信息對(duì)圖像進(jìn)行手動(dòng)注釋。例如,可以將對(duì)象存在于圖像中這一指示和/或?qū)ο蟮哪承﹨?shù)(例如,對(duì)象的顏色以及對(duì)象在圖像中的位置)添加至圖像。機(jī)器學(xué)習(xí)算法使用那些注釋和圖像來(lái)生成用于檢測(cè)對(duì)象的模型。該注釋過(guò)程可能是冗長(zhǎng)的和耗時(shí)的。
[0008]此外,準(zhǔn)確檢測(cè)某些類型的對(duì)象的存在可能是過(guò)于復(fù)雜的,并且因此對(duì)于實(shí)時(shí)應(yīng)用而言可能是過(guò)于緩慢的。例如,騎車人識(shí)別比行人識(shí)別更復(fù)雜,因?yàn)樵隍T車人中由于視角所產(chǎn)生的外表變化遠(yuǎn)比在行人中更明顯。而且,騎車人的上部身體姿態(tài)比典型的行人的姿態(tài)變化大。此外,騎車人移動(dòng)得更快,并且他們經(jīng)常極其接近車輛。這導(dǎo)致了對(duì)象大小的較大變化以及通過(guò)運(yùn)動(dòng)模糊和散焦的降低的圖像質(zhì)量。與行人檢測(cè)相比,騎車人檢測(cè)的復(fù)雜度的增加意味著大多數(shù)檢測(cè)系統(tǒng)不適用于實(shí)時(shí)應(yīng)用。因此,某些應(yīng)用(例如,車輛系統(tǒng)中的騎車人檢測(cè))可能受益于更快的對(duì)象識(shí)別方案。
【發(fā)明內(nèi)容】
[0009]以上問(wèn)題和其它問(wèn)題通過(guò)一種用于實(shí)時(shí)確定騎車人是否存在于目標(biāo)圖像中的方法、非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)和系統(tǒng)而得以解決。該方法的實(shí)施例包括接收目標(biāo)圖像。使用線性分類器對(duì)目標(biāo)圖像分類并且確定目標(biāo)圖像的誤差值。如果誤差值不超過(guò)閾值,則輸出分類。否則,如果誤差值超過(guò)閾值,則使用非線性分類器對(duì)目標(biāo)圖像分類。[0010]該介質(zhì)的實(shí)施例存儲(chǔ)用于實(shí)時(shí)確定騎車人是否存在于目標(biāo)圖像中的可執(zhí)行計(jì)算機(jī)程序指令。該指令接收目標(biāo)圖像。該指令隨后使用線性分類器對(duì)目標(biāo)圖像分類并且確定目標(biāo)圖像的誤差值。如果誤差值不超過(guò)閾值,則輸出分類。否則,如果誤差值超過(guò)閾值,則該指令使用非線性分類器對(duì)目標(biāo)圖像分類。
[0011]用于實(shí)時(shí)確定騎車人是否存在于目標(biāo)圖像中的系統(tǒng)的實(shí)施例包括至少一個(gè)存儲(chǔ)可執(zhí)行計(jì)算機(jī)程序指令的非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。該指令接收目標(biāo)圖像。該指令隨后使用線性分類器對(duì)目標(biāo)圖像分類并且確定目標(biāo)圖像的誤差值。如果誤差值不超過(guò)閾值,則輸出分類。否則,如果誤差值超過(guò)閾值,則該指令使用非線性分類器對(duì)目標(biāo)圖像分類。
[0012]說(shuō)明書(shū)中所描述的特征和優(yōu)勢(shì)并非是無(wú)所不包的,并且特別地,考慮到附圖、說(shuō)明書(shū)和權(quán)利要求,許多附加的特征和優(yōu)勢(shì)對(duì)本領(lǐng)域普通技術(shù)人員而言將是顯而易見(jiàn)的。此外,應(yīng)當(dāng)注意到,已經(jīng)主要出于可讀性和指導(dǎo)性的目的對(duì)說(shuō)明書(shū)中所使用的語(yǔ)言進(jìn)行了選擇,而并非被選擇以限制或限定本發(fā)明主題。
【專利附圖】
【附圖說(shuō)明】
[0013]圖1是依據(jù)實(shí)施例的圖示騎車人檢測(cè)系統(tǒng)的高層次框圖。
[0014]圖2是依據(jù)實(shí)施例的圖示用于用作圖1中圖示的騎車人檢測(cè)系統(tǒng)的計(jì)算機(jī)的示例的高層次框圖。
[0015]圖3A是依據(jù)實(shí)施例的圖示圖1中圖示的正訓(xùn)練圖像生成模塊的詳細(xì)視圖的高層次框圖。
[0016]圖3B是依據(jù)實(shí)施例的圖示圖1中圖示的檢測(cè)模塊的詳細(xì)視圖的高層次框圖。
[0017]圖4A是依據(jù)實(shí)施例的圖示用于生成用于訓(xùn)練騎車人檢測(cè)模型的正樣本的方法的流程圖。
[0018]圖4B是依據(jù)實(shí)施例的圖示用于確定靜止圖像中騎車人的存在的方法的流程圖。
[0019]附圖僅出于說(shuō)明的目的而描繪了實(shí)施例中的各個(gè)實(shí)施例。本領(lǐng)域技術(shù)人員從以下討論將容易地認(rèn)識(shí)到,可以采用本文所圖示的結(jié)構(gòu)和方法的備選實(shí)施例而不背離本文所描述的實(shí)施例的原理。
【具體實(shí)施方式】
[0020]現(xiàn)在參考附圖對(duì)實(shí)施例進(jìn)行描述,其中相同的附圖標(biāo)記指示相同或功能上相似的部件。而且,在圖中,每個(gè)附圖標(biāo)記最左側(cè)的數(shù)字對(duì)應(yīng)于其中首次使用該附圖標(biāo)記的附圖。
[0021]圖1是依據(jù)實(shí)施例的圖示騎車人檢測(cè)系統(tǒng)100的高層次框圖。騎車人檢測(cè)系統(tǒng)100包括正訓(xùn)練圖像生成模塊105、學(xué)習(xí)模塊110和檢測(cè)模塊120。騎車人檢測(cè)系統(tǒng)100可以在車輛中被用來(lái)確定在車輛周邊存在(或不存在)騎車人。如本文所使用的,“騎車人”是指自行車及其騎行者的組合。
[0022]騎車人檢測(cè)系統(tǒng)100例如可以在車輛中使用,以提高車輛內(nèi)人員的安全性以及與車輛分享道路的騎車人的安全性。在駕駛車輛時(shí),駕駛員可能需要注意多個(gè)對(duì)象以及在其周邊發(fā)生的事件。例如,駕駛員可能需要注意交通信號(hào)(例如,交通燈、速度標(biāo)志和警告標(biāo)志)、車輛參數(shù)(例如,車輛速度、發(fā)動(dòng)機(jī)速度、機(jī)油溫度和汽油水平)、分享道路的其它車輛、試圖穿越街道的行人,等等。有時(shí),同樣與車輛分享道路的騎車人可能被忽視并且可能被卷入事故之中。
[0023]騎車人檢測(cè)系統(tǒng)100可以被用來(lái)檢測(cè)騎車人的存在。如果檢測(cè)到這樣的存在,則駕駛員能夠被警告存在騎車人。駕駛員還能夠被警告騎車人的位置(例如,車輛右側(cè)、車輛左側(cè)和車輛前方)、騎車人的速度、騎車人前進(jìn)的方向、車輛與騎車人之間的距離,等等。
[0024]正訓(xùn)練圖像生成模塊105接收騎車人的三維(3D)虛擬模型作為輸入,生成騎車人的二維(2D)圖像,并且輸出所生成的2D圖像。由于2D圖像必然包括騎車人,所以該2D圖像被用作用于訓(xùn)練對(duì)象檢測(cè)模型的“正樣本”。正訓(xùn)練圖像生成模塊105還可以接收一組參數(shù),以在生成騎車人的2D圖像時(shí)使用。
[0025]學(xué)習(xí)模塊110接收正訓(xùn)練圖像生成模塊105所生成的2D圖像(正樣本)以及不包括騎車人的圖像(負(fù)樣本)作為輸入。學(xué)習(xí)模塊110隨后使用正樣本和負(fù)樣本來(lái)訓(xùn)練用于在圖像中檢測(cè)騎車人的存在的層級(jí)分類器,并且輸出經(jīng)訓(xùn)練的層級(jí)分類器。以下參考圖3A對(duì)正樣本進(jìn)一步進(jìn)行描述。通過(guò)以隨機(jī)的尺度和位置隨機(jī)地裁剪街景的自然圖像來(lái)生成負(fù)樣本。
[0026]檢測(cè)模塊120接收通過(guò)學(xué)習(xí)模塊110訓(xùn)練的層級(jí)分類器和靜止圖像,生成對(duì)象假設(shè),并且輸出該假設(shè)。在一些實(shí)施例中,通過(guò)安裝在車輛上的相機(jī)來(lái)捕捉靜止圖像。例如,可以使用具有1/1.8英寸傳感器的電荷耦合器件(CCD)相機(jī)來(lái)捕捉靜止圖像。為了提高相機(jī)的快門(mén)速度并且減少圖像模糊,還可以使用具有更大傳感器的相機(jī)。在一些實(shí)施例中,通過(guò)從視頻提取所選擇的幀來(lái)獲得靜止圖像。該對(duì)象假設(shè)可以是二元結(jié)果(例如,是/否或者騎車人存在/不存在)。
[0027]圖2是依據(jù)實(shí)施例的圖示用于用作圖1中圖示的騎車人檢測(cè)系統(tǒng)100的計(jì)算機(jī)200的示例的高層次框圖。圖示了耦合至芯片組204的至少一個(gè)處理器202。芯片組204包括存儲(chǔ)器控制器集線器250和輸入/輸出(I/O)控制器集線器255。存儲(chǔ)器206和圖形適配器213耦合至存儲(chǔ)器控制器集線器250,并且顯示設(shè)備218耦合至圖形適配器213。存儲(chǔ)設(shè)備208、鍵盤(pán)210、指向設(shè)備214和網(wǎng)絡(luò)適配器216耦合至I/O控制器集線器255。計(jì)算機(jī)200的其它實(shí)施例具有不同架構(gòu)。例如,在一些實(shí)施例中,存儲(chǔ)器206直接耦合至處理器202。
[0028]存儲(chǔ)設(shè)備208包括一個(gè)或多個(gè)非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),諸如硬盤(pán)驅(qū)動(dòng)器、緊致盤(pán)只讀存儲(chǔ)器(⑶-ROM)、DVD或固態(tài)存儲(chǔ)器設(shè)備。存儲(chǔ)器206保存由處理器202使用的指令和數(shù)據(jù)。指向設(shè)備214與鍵盤(pán)210結(jié)合使用以將數(shù)據(jù)輸入到計(jì)算機(jī)系統(tǒng)200中。圖形適配器213在顯示設(shè)備218上顯示圖像和其它信息。在一些實(shí)施例中,顯示設(shè)備218包括用于接收用戶輸入和選擇的觸摸屏功能。網(wǎng)絡(luò)適配器216將計(jì)算機(jī)系統(tǒng)200耦合至通信網(wǎng)絡(luò)或其它計(jì)算機(jī)系統(tǒng)(未示出)。
[0029]計(jì)算機(jī)200的一些實(shí)施例具有與圖2中所示的那些組件相比不同和/或其它的組件。例如,計(jì)算機(jī)200可以是嵌入式系統(tǒng)并且缺少圖形適配器213、顯示設(shè)備218、鍵盤(pán)210、指向設(shè)備214和其它組件。
[0030]計(jì)算機(jī)200適于執(zhí)行用于提供本文所描述的功能的計(jì)算機(jī)程序模塊。如本文所使用的,術(shù)語(yǔ)“模塊”是指用來(lái)提供指定功能的計(jì)算機(jī)程序指令和/或其它邏輯。因此,模塊能夠以硬件、固件和/或軟件來(lái)實(shí)施。在一個(gè)實(shí)施例中,由可執(zhí)行計(jì)算機(jī)程序指令所形成的程序模塊被存儲(chǔ)在存儲(chǔ)設(shè)備208上,加載到存儲(chǔ)器206中并且被處理器202執(zhí)行。[0031]圖3A是依據(jù)實(shí)施例的圖示圖1中圖示的正訓(xùn)練圖像生成模塊105的詳細(xì)視圖的高層次框圖。正訓(xùn)練圖像生成模塊105包括騎車人呈現(xiàn)模塊301、背景合并模塊303、圖像后處理模塊305和圖像注釋模塊307。
[0032]騎車人呈現(xiàn)模塊301接收騎車人(自行車和騎自行車的人)的三維(3D)虛擬模型和參數(shù)集合作為輸入,基于所接收的參數(shù)呈現(xiàn)騎車人的二維(2D)圖像,并且輸出所呈現(xiàn)的2D圖像。該參數(shù)集合例如可以包括自行車的顏色、騎自行車的人的性別、騎自行車的人的衣著、騎自行車的人的姿勢(shì)、騎車人的照明,等等。
[0033]在一個(gè)實(shí)施例中,騎車人呈現(xiàn)模塊301接收自行車模型和人類模型作為輸入,并且將兩個(gè)模型組合以生成騎車人模型。人類模型可以接收一個(gè)或多個(gè)參數(shù)(諸如性別(例如,男性或女性)、體型(瘦型體質(zhì)、胖型體質(zhì)或中型體質(zhì))、發(fā)型(長(zhǎng)發(fā)、短發(fā)、禿頂?shù)?、頭發(fā)顏色(黑色、棕色、金色等),等等)作為輸入。此外,人類模型還可以包括一件或多件衣著(襯衫、褲子、鞋等)和/或配飾(帽子、背包、手表等)的模型。在一些實(shí)施例中,衣著和/或配飾模型可以存儲(chǔ)在數(shù)據(jù)庫(kù)或儲(chǔ)存庫(kù)中。
[0034]自行車模型可以接收一個(gè)或多個(gè)參數(shù)(諸如顏色、大小、反光性、紋理等)作為輸入。在一些實(shí)施例中,騎車人檢測(cè)系統(tǒng)100可以包括存儲(chǔ)多個(gè)自行車模型的自行車模型數(shù)據(jù)存儲(chǔ)(未示出),正訓(xùn)練圖像生成模塊105能夠從中選擇要使用的自行車模型以生成騎車人模型。
[0035]此外,正訓(xùn)練圖像生成模塊105還可以接收照明參數(shù)(例如,照明光源方位、照明光源高度、照明光源強(qiáng)度和環(huán)境光能量)、相機(jī)參數(shù)(例如,相機(jī)方位、相機(jī)高度和相機(jī)旋度)和呈現(xiàn)參數(shù)(圖像大小、邊框大小等)。
[0036]背景合并模塊303接收通過(guò)騎車人呈現(xiàn)模塊301生成的2D騎車人圖像和2D背景圖像作為輸入,將騎車人圖像和背景圖像組合,并且輸出組合的2D圖像。在一些實(shí)施例中,背景圖像選自背景圖像庫(kù)。背景合并模塊303還可以接收指示騎車人應(yīng)當(dāng)在背景圖像內(nèi)放在哪里的位置作為參數(shù),并且將騎車人圖像放在所接收的位置。例如,背景合并模塊303可以接收指示在背景圖像內(nèi)要在哪里放置騎車人圖像的坐標(biāo)點(diǎn)作為參數(shù)。備選地,背景合并模塊303可以接收定義應(yīng)當(dāng)將騎車人圖像置于其中的方塊的兩個(gè)點(diǎn)作為參數(shù)。
[0037]圖像后處理模塊305接收具有背景的騎車人的2D圖像,編輯所接收的圖像以使得其能夠被學(xué)習(xí)模塊110使用,并且輸出所編輯的圖像。例如,圖像后處理模塊305可以平滑圖像、降采樣圖像、裁剪圖像等。
[0038]圖像注釋模塊307接收由圖像后處理模塊305輸出的圖像作為輸入,使用所接收?qǐng)D像的地面實(shí)況注釋所接收的圖像,并且輸出經(jīng)注釋的圖像。在一些實(shí)施例中,地面實(shí)況是二元值,或者為“是”(存在騎車人)或者為“否”(不存在騎車人)。在其它實(shí)施例中,地面實(shí)況還包括用來(lái)呈現(xiàn)圖像的一個(gè)或多個(gè)參數(shù)(例如,關(guān)于騎自行車的人的信息,諸如姿勢(shì);或者關(guān)于自行車自身的信息,諸如自行車的類型)。該地面實(shí)況還可以包括騎車人在圖像中的位置。例如,圖像注釋模塊307可以使用指示騎車人位于圖像中何處的坐標(biāo)點(diǎn)(或定義方塊的兩個(gè)點(diǎn))來(lái)注釋圖像。
[0039]圖3B是依據(jù)實(shí)施例的圖示圖1中圖示的檢測(cè)模塊120的詳細(xì)視圖的高層次框圖。檢測(cè)模塊120包括面向直方圖的梯度(HOG)提取模塊311、線性分類模塊313和非線性分類模塊315。[0040]面向直方圖的梯度(HOG)提取模塊311接收靜止圖像,從所接收的靜止圖像提取HOG特征,并且輸出所提取的特征。如本文所使用的,面向直方圖的梯度(HOG)是出于對(duì)象檢測(cè)的目的在計(jì)算機(jī)視覺(jué)和圖像處理中使用的特征描述符。HOG特征指示在圖像的局部部分中出現(xiàn)梯度方向的數(shù)量。
[0041]HOG提取模塊311通過(guò)將所接收的圖像劃分為多個(gè)單元來(lái)提取HOG特征。例如,HOG提取模塊311可以使用8X8像素的單元大小來(lái)計(jì)算HOG特征。對(duì)于每個(gè)單元,HOG提取模塊311在該單元的像素上計(jì)算梯度方向的一維(1D)直方圖。在一些實(shí)施例中,HOG提取模塊311通過(guò)將圖像劃分成塊、計(jì)算塊的局部直方圖能量并且基于所計(jì)算的局部直方圖能量歸一化塊內(nèi)的單元來(lái)針對(duì)貫穿所接收的圖像的照明變化歸一化該圖像。例如,HOG提取模塊311可以使用2X2個(gè)單元的塊大小來(lái)計(jì)算局部直方圖能量。
[0042]在一個(gè)實(shí)施例中,HOG提取模塊311從具有預(yù)定義大小的圖像提取HOG特征。例如,HOG提取模塊311可以從48X48像素的圖像提取HOG特征。如果所接收的圖像的大小更大或更小,則HOG提取模塊縮小或放大該圖像,直至圖像大小等于預(yù)定義圖像大小。
[0043]線性分類模塊313接收HOG圖像特征的集合作為輸入,使用線性分類器(例如,線性支持向量機(jī)或“線性SVM”)和HOG特征來(lái)確定騎車人是否存在于與該特征相關(guān)聯(lián)的圖像中,并且輸出分類和誤差值。該誤差值指示該分類不正確的概率。如本文所使用的,線性分類器基于對(duì)象的特性或特征的線性組合(或函數(shù))來(lái)識(shí)別對(duì)象(例如,靜止圖像)屬于哪個(gè)類(例如,騎車人存在/不存在)。在一個(gè)實(shí)施例中,線性分類器的輸出由
[0044]y = f ( ω.χ)
[0045]給出,其中y是線性分類模塊的輸出,ω是由學(xué)習(xí)模塊110確定的權(quán)重向量,并且X是包含正在被分類的對(duì)象的特征值的特征向量。
[0046]非線性分類 模塊315接收HOG圖像特征的集合作為輸入,使用非線性分類器(例如,徑向基函數(shù)支持向量機(jī)或RBF-SVM^P HOG特征來(lái)確定騎車人是否存在于與該特征相關(guān)聯(lián)的圖像中,并且輸出該分類。如本文所使用的,非線性分類器基于對(duì)象的特征的非線性組合(或函數(shù))來(lái)識(shí)別對(duì)象(例如,圖像)屬于哪個(gè)類(例如,騎車人存在/不存在)。
[0047]圖4Α是依據(jù)實(shí)施例的圖示用于生成用于訓(xùn)練騎車人檢測(cè)模型的正樣本的方法的流程圖。正訓(xùn)練圖像生成模塊105接收401騎車人模型和正訓(xùn)練圖像參數(shù)。
[0048]騎車人呈現(xiàn)模塊301基于所接收的騎車人模型和所接收的正訓(xùn)練圖像參數(shù)呈現(xiàn)403騎車人的圖像。
[0049]背景合并模塊303將背景添加405至所呈現(xiàn)的騎車人圖像。
[0050]在一些實(shí)施例中(未不出),圖像后處理模塊305可以向具有背景的騎車人的圖像應(yīng)用圖像后處理技術(shù)(例如,平滑、降采樣、裁剪)。
[0051]圖像注釋模塊307使用地面實(shí)況注釋407所組合的圖像(騎車人加背景)。例如,圖像注釋模塊307可以使用指示圖像是正樣本的二元值注釋圖像。在其它實(shí)施例中,圖像注釋模塊307進(jìn)一步使用用來(lái)呈現(xiàn)騎車人圖像的一個(gè)或多個(gè)所接收的正訓(xùn)練圖像參數(shù)(諸如騎自行車的人的姿勢(shì)或自行車的類型)來(lái)注釋圖像。
[0052]圖4Α中圖示的步驟可以多次重復(fù)(使用不同的騎車人模型、正訓(xùn)練圖像參數(shù)和/或背景)以生成多個(gè)正樣本。例如,圖4Α的步驟可以被重復(fù)數(shù)千次以產(chǎn)生數(shù)千個(gè)正樣本。
[0053]圖4Β是依據(jù)實(shí)施例的圖示用于確定靜止圖像中騎車人的存在的方法的流程圖。檢測(cè)模塊120接收411要被分類的靜止圖像。在一些實(shí)施例中,可以使用安裝在車輛中的相機(jī)來(lái)捕捉該圖像。
[0054]HOG提取模塊311分析所接收的靜止圖像并且從所接收的靜止圖像提取413H0G特征。
[0055]線性分類模塊313使用線性分類器和由HOG提取模塊311提取的HOG特征對(duì)圖像分類415,輸出分類和誤差值。
[0056]將由線性分類模塊313輸出的誤差值與閾值比較417。如果由線性分類模塊313輸出的誤差值小于閾值,則由線性分類模塊313輸出的分類被用來(lái)確定騎車人是否存在于圖像中。否則,如果由線性分類模塊313輸出的誤差值大于閾值,則由非線性分類模塊315使用非線性分類器和由HOG提取模塊311提取的HOG特征來(lái)對(duì)所接收的圖像分類419,輸出分類。
[0057]分類結(jié)果被輸出421。在一些實(shí)施例中,騎車人檢測(cè)系統(tǒng)100的輸出是二元結(jié)果(例如,騎車人存在/不存在)。在其它實(shí)施例中,騎車人檢測(cè)系統(tǒng)100輸出諸如騎車人相對(duì)于所接收的圖像的位置之類的附加信息。騎車人檢測(cè)系統(tǒng)100的輸出例如可以被用來(lái)警告車輛駕駛員附近的騎車人的存在。
[0058]在一些實(shí)施例中,騎車人檢測(cè)系統(tǒng)100使用分辨率金字塔(resolution pyramid)和滑動(dòng)的固定大小檢測(cè)窗口來(lái)確定在接收的靜止圖像中騎車人的存在。例如,檢測(cè)模塊120可以使用以原始圖像分辨率開(kāi)始、具有10級(jí).#的因數(shù)的分辨率金字塔以及48X48像素的
檢測(cè)窗口大小和4像素的步幅長(zhǎng)度。也就是說(shuō),使用4像素的步幅長(zhǎng)度從原始圖像中提取48X48像素的子圖像,并且所提取的圖像被發(fā)送至檢測(cè)模塊120以確定騎車人是否存在于48X48像素的子圖像中。在每個(gè)子圖像被檢測(cè)模塊分析之后,使用#的因數(shù)縮小原始圖像。從縮小的圖像中提取48X48像素的子圖像并且將其發(fā)送至檢測(cè)模塊120以確定騎車人是否存在于48X48像素的子圖像中。重復(fù)該處理,直至已經(jīng)分析了來(lái)自每個(gè)等級(jí)(例如,10個(gè)等級(jí))的子圖像。
[0059]騎車人檢測(cè)系統(tǒng)100可以進(jìn)一步抑制冗余檢測(cè)(例如,在兩個(gè)不同等級(jí)檢測(cè)到的相同騎車人)。在一個(gè)實(shí)施例中,對(duì)于給定的原始分辨率的圖像,為了抑制冗余檢測(cè),每個(gè)檢測(cè)被添加至檢測(cè)列表并且根據(jù)逐漸降低的檢測(cè)強(qiáng)度(例如,逐漸降低的SVM值)分類。列表中的第一元素被選擇為當(dāng)前最大值,并且對(duì)于在其余檢測(cè)的檢測(cè)窗口中與當(dāng)前最大值的重疊來(lái)測(cè)試其余檢測(cè)。對(duì)于給定的檢測(cè),如果該檢測(cè)和當(dāng)前最大值的交集和并集之間的比率大于閾值(例如,25%),則該檢測(cè)被添加至被當(dāng)前最大值抑制的檢測(cè)群組。一旦被抑制或被選擇為最大值,該檢測(cè)就從檢測(cè)列表移除。重復(fù)該處理,直至所有檢測(cè)從檢測(cè)列表移除。隨后,通過(guò)在處于群組的中等級(jí)別之內(nèi)的窗口上取平均值來(lái)對(duì)于每個(gè)群組計(jì)算單個(gè)檢測(cè)窗□。
[0060]說(shuō)明書(shū)中對(duì)“一個(gè)實(shí)施例”或者對(duì)“實(shí)施例”的引用意味著結(jié)合該實(shí)施例所描述的特定特征、結(jié)構(gòu)或特性包括在至少一個(gè)實(shí)施例中。在說(shuō)明書(shū)中各處出現(xiàn)的短語(yǔ)“一個(gè)實(shí)施例”或“實(shí)施例”并非必然都指代相同的實(shí)施例。
[0061]【具體實(shí)施方式】的一些部分以對(duì)計(jì)算機(jī)存儲(chǔ)器內(nèi)的數(shù)據(jù)比特的運(yùn)算的算法和符號(hào)表示的形式呈現(xiàn)。這些算法描述和表示是數(shù)據(jù)處理領(lǐng)域的技術(shù)人員用來(lái)向該領(lǐng)域的其他技術(shù)人員最為有效地傳遞其工作實(shí)質(zhì)的手段。這里以及總體上,算法被理解為導(dǎo)致所期望結(jié)果的步驟(指令)的自洽序列。步驟是需要對(duì)物理量進(jìn)行物理操控的那些步驟。通常,雖然并非必要,這些量采取能夠被存儲(chǔ)、傳輸、組合、比較以及以其它方式操控的電信號(hào)、磁信號(hào)或光信號(hào)的形式。主要出于一般使用的原因,將這些信號(hào)稱作比特、數(shù)值、元素、符號(hào)、字符、項(xiàng)、數(shù)字等有時(shí)是方便的。此外,不失一般性,將需要物理量或物理量的表示的物理操控或變換的步驟的某些布置稱作模塊或代碼設(shè)備有時(shí)也是方便的。
[0062]然而,所有這些術(shù)語(yǔ)和類似的術(shù)語(yǔ)將與適當(dāng)?shù)奈锢砹肯嚓P(guān)聯(lián)并且僅是被應(yīng)用于這些量的方便標(biāo)簽。除非如從以下討論顯而易見(jiàn)的那樣另外特別指出,否則應(yīng)當(dāng)意識(shí)到,貫穿整個(gè)描述,使用諸如“處理”或“運(yùn)算”或“計(jì)算”或“確定”或“顯示”等術(shù)語(yǔ)的討論是指計(jì)算機(jī)系統(tǒng)或類似電子計(jì)算設(shè)備(諸如特定計(jì)算機(jī)器)的動(dòng)作和處理,其操控和變換在計(jì)算機(jī)系統(tǒng)存儲(chǔ)器或寄存器或其它這樣的信息存儲(chǔ)、傳輸或顯示設(shè)備內(nèi)被表示為物理(電子)量的數(shù)據(jù)。
[0063]實(shí)施例的某些方面包括本文以算法形式描述的處理步驟和指令。應(yīng)當(dāng)注意的是,實(shí)施例的處理步驟和指令可以以軟件、固件或硬件來(lái)體現(xiàn),并且當(dāng)以軟件體現(xiàn)時(shí),能夠被下載以駐留在由各種操作系統(tǒng)使用的不同平臺(tái)上并且從該不同平臺(tái)進(jìn)行操作。實(shí)施例還能夠處于能夠在計(jì)算系統(tǒng)上執(zhí)行的計(jì)算機(jī)程序產(chǎn)品中。
[0064]實(shí)施例還涉及用于執(zhí)行本文的操作的裝置。該裝置可以出于例如特定計(jì)算機(jī)的目的而被特別構(gòu)造,或者其可以包括被存儲(chǔ)在計(jì)算機(jī)中的計(jì)算機(jī)程序選擇性地激活或重新配置的通用計(jì)算機(jī)。這樣的計(jì)算機(jī)程序可以存儲(chǔ)在計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)(諸如但不限于任意類型的碟片,包括軟盤(pán)、光盤(pán)、CD-ROM、磁性光盤(pán)、只讀存儲(chǔ)器(ROM)、隨機(jī)訪問(wèn)存儲(chǔ)器(RAM)、EPROM、EEPR0M、磁性或光學(xué)卡、專用集成電路(ASIC)或者適于存儲(chǔ)電子指令的任意類型的介質(zhì),并且各自耦合至計(jì)算機(jī)系統(tǒng)總線)中。存儲(chǔ)器可以包括能夠存儲(chǔ)信息/數(shù)據(jù)/程序的任意以上設(shè)備和/或其它設(shè)備,并且可以為暫態(tài)或非暫態(tài)介質(zhì),其中非瞬態(tài)或非暫態(tài)介質(zhì)可以包括比最小持續(xù)時(shí)間更久地存儲(chǔ)信息的存儲(chǔ)器/儲(chǔ)存器。此外,說(shuō)明書(shū)中提到的計(jì)算機(jī)可以包括單個(gè)處理器,或者可以是為了提高計(jì)算能力而采用多個(gè)處理器設(shè)計(jì)的架構(gòu)。
[0065]本文提出的算法和顯示并非固有地涉及任何特定計(jì)算機(jī)或其它裝置。各種通用系統(tǒng)也可以與依據(jù)本文的教導(dǎo)的程序一起使用,或者構(gòu)造更為專用的裝置來(lái)執(zhí)行方法步驟可以證明是便利的。用于各種這些系統(tǒng)的結(jié)構(gòu)將源自本文的描述。此外,實(shí)施例未參考任何特定的編程語(yǔ)言進(jìn)行描述。將要意識(shí)到的是,可以使用各種編程語(yǔ)言來(lái)實(shí)施如本文所描述的實(shí)施例的教導(dǎo),并且本文對(duì)特定語(yǔ)言的任何引用是為了公開(kāi)實(shí)現(xiàn)和最佳模式而被提供。
[0066]此外,已經(jīng)主要出于可讀性和指示性的目的對(duì)說(shuō)明書(shū)中所使用的語(yǔ)言進(jìn)行了選擇,而并非被選擇以限制或限定本發(fā)明主題。因此,實(shí)施例的公開(kāi)旨在說(shuō)明而非限制權(quán)利要求中提出的實(shí)施例的范圍。
[0067]雖然本文已經(jīng)說(shuō)明并描述了特定的實(shí)施例和應(yīng)用,但是應(yīng)當(dāng)理解的是,實(shí)施例不限于本文所公開(kāi)的確切構(gòu)造和組件,并且可以在實(shí)施例的方法和裝置的布置、操作和細(xì)節(jié)方面進(jìn)行各種修改、改變和變化而不背離如所附權(quán)利要求中所定義的實(shí)施例的精神和范圍。
【權(quán)利要求】
1.一種用于實(shí)時(shí)確定騎車人是否存在于目標(biāo)圖像中的方法,包括以下步驟: 接收所述目標(biāo)圖像; 使用線性分類器確定所述目標(biāo)圖像的第一分類和誤差值,其中所述誤差值指示所述第一分類不正確的概率; 響應(yīng)于所述誤差值不超過(guò)閾值: 輸出所述第一分類;以及 響應(yīng)于所述誤差值超過(guò)所述閾值: 使用非線性分類器確定所述目標(biāo)圖像的第二分類;以及 輸出所述第二分類。
2.根據(jù)權(quán)利要求1所述的方法,進(jìn)一步包括: 基于騎車人的三維模型生成所述騎車人的多個(gè)合成圖像;以及 使用所生成的多個(gè)合成圖像訓(xùn)練所述線性分類器和所述非線性分類器。
3.根據(jù)權(quán)利要求2所述的方法,其中生成所述騎車人的所述多個(gè)合成圖像包括: 基于所述騎車人的所述三維模型呈現(xiàn)騎自行車的人的圖像;以及 將背景添加至所呈現(xiàn)的圖像,由此生成組合圖像。
4.根據(jù)權(quán)利要求3所述的方法,其中生成所述騎車人的所述多個(gè)合成圖像進(jìn)一步包括以下各項(xiàng)中的至少一 項(xiàng):降采樣所述組合圖像、平滑所述組合圖像以及裁剪所述組合圖像。
5.根據(jù)權(quán)利要求3所述的方法,其中生成所述騎車人的所述多個(gè)合成圖像基于所述騎車人的所述三維模型以及基于參數(shù)來(lái)執(zhí)行。
6.根據(jù)權(quán)利要求5所述的方法,其中所述參數(shù)包括以下各項(xiàng)中的一項(xiàng):關(guān)于所述人的信息、關(guān)于所述自行車的信息以及關(guān)于所述騎車人在所呈現(xiàn)的圖像內(nèi)的位置的信息。
7.根據(jù)權(quán)利要求5所述的方法,進(jìn)一步包括使用所述參數(shù)注釋所述組合圖像。
8.根據(jù)權(quán)利要求2所述的方法,進(jìn)一步包括基于自行車的三維模型和人的三維模型來(lái)生成所述騎車人的所述三維模型。
9.根據(jù)權(quán)利要求1所述的方法,進(jìn)一步包括: 接收多個(gè)負(fù)訓(xùn)練圖像,其中負(fù)訓(xùn)練圖像不顯示騎車人;以及 使用所述多個(gè)負(fù)訓(xùn)練圖像訓(xùn)練所述線性分類器和所述非線性分類器。
10.根據(jù)權(quán)利要求1所述的方法,其中所述線性分類器包括線性支持向量機(jī)(SVM)。
11.根據(jù)權(quán)利要求1所述的方法,其中所述非線性分類器包括徑向基函數(shù)(RBF)支持向量機(jī)(SVM)。
12.根據(jù)權(quán)利要求1所述的方法,其中所述線性分類器基于方向梯度直方圖(HOG)圖像特征來(lái)執(zhí)行分類。
13.根據(jù)權(quán)利要求12所述的方法,進(jìn)一步包括從所述目標(biāo)圖像提取HOG圖像特征。
14.一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),被配置為存儲(chǔ)用于實(shí)時(shí)確定騎車人是否存在于目標(biāo)圖像中的指令,當(dāng)被處理器執(zhí)行時(shí),所述指令使得所述處理器: 接收所述目標(biāo)圖像; 使用線性分類器確定所述目標(biāo)圖像的第一分類和誤差值,其中所述誤差值指示所述第一分類不正確的概率; 響應(yīng)于所述誤差值不超過(guò)閾值:輸出所述第一分類;以及 響應(yīng)于所述誤差值超過(guò)所述閾值: 使用非線性分類器確定所述目標(biāo)圖像的第二分類;以及 輸出所述第二分類。
15.根據(jù)權(quán)利要求14所述的非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中當(dāng)被所述處理器執(zhí)行時(shí),所述指令進(jìn)一步使得所述處理器: 基于騎車人的三維模型生成所述騎車人的多個(gè)合成圖像;以及 使用所生成的多個(gè)合成圖像訓(xùn)練所述線性分類器和所述非線性分類器。
16.根據(jù)權(quán)利要求15所述的非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中生成所述騎車人的所述多個(gè)合成圖像包括: 基于所述騎車人的所述三維模型呈現(xiàn)騎自行車的人的圖像;以及 將背景添加至所呈現(xiàn)的圖像,由此生成組合圖像。
17.根據(jù)權(quán)利要求16所述的非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中生成所述騎車人的所述多個(gè)合成圖像基于所述騎車人的所述三維模型以及基于參數(shù)來(lái)執(zhí)行。
18.—種用于實(shí)時(shí)確定騎車人是否存在于目標(biāo)圖像中的系統(tǒng),包括: 處理器;以及 存儲(chǔ)指令的非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì), 當(dāng)被所述處理器執(zhí)行時(shí),所述指令使得所述處理器: 接收所述目標(biāo)圖像;` 使用線性分類器確定所述目標(biāo)圖像的第一分類和誤差值,其中所述誤差值指示所述第一分類不正確的概率; 響應(yīng)于所述誤差值不超過(guò)閾值: 輸出所述第一分類;以及 響應(yīng)于所述誤差值超過(guò)所述閾值: 使用非線性分類器確定所述目標(biāo)圖像的第二分類;以及 輸出所述第二分類。
19.根據(jù)權(quán)利要求18所述的系統(tǒng),其中當(dāng)被所述處理器執(zhí)行時(shí),所述指令進(jìn)一步使得所述處理器: 基于騎車人的三維模型生成所述騎車人的多個(gè)合成圖像;以及 使用所生成的多個(gè)合成圖像訓(xùn)練所述線性分類器和所述非線性分類器。
20.根據(jù)權(quán)利要求19所述的系統(tǒng),其中生成所述騎車人的所述多個(gè)合成圖像包括: 基于所述騎車人的所述三維模型呈現(xiàn)騎自行車的人的圖像;以及將背景添加至所呈現(xiàn)的圖像,由此生成組合圖像。
【文檔編號(hào)】G06K9/00GK103886279SQ201310625897
【公開(kāi)日】2014年6月25日 申請(qǐng)日期:2013年11月28日 優(yōu)先權(quán)日:2012年12月21日
【發(fā)明者】B·海斯勒 申請(qǐng)人:本田技研工業(yè)株式會(huì)社