專(zhuān)利名稱(chēng):改進(jìn)的變換和編碼技術(shù)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明針對(duì)用于從2D圖像得出深度圖的改進(jìn)的技術(shù),特別是,本發(fā)明涉及一種從與一圖像序列相關(guān)聯(lián)的一組稀疏的3D點(diǎn)中恢復(fù)密集深度圖(densedepth map)的方法。
背景技術(shù):
從運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)(Structure-from-MotionSfM)技術(shù)是用于恢復(fù)投影到攝像機(jī)的平面2D膜底面上的場(chǎng)景的3D信息的方法的集合。從SfM算法得出的結(jié)構(gòu)信息一般采用一組投影矩陣(projection matrices)的形式,每個(gè)圖像幀一個(gè)投影矩陣,表示圖像平面中的特定的2D點(diǎn)與其對(duì)應(yīng)的3D點(diǎn)之間的關(guān)系。SfM算法依賴(lài)于跟蹤特定的圖像特征以確定有關(guān)場(chǎng)景的這種結(jié)構(gòu)信息。一般來(lái)說(shuō),僅僅能精確地跟蹤圖像的一小部分——這些點(diǎn)通常位于邊緣和角落上,在這些地方,明顯的強(qiáng)度不連續(xù)性提供了明確的跟蹤線索。
類(lèi)似地,可使用立體的或多視覺(jué)(multi-ocular)不一致分析(disparityanalysis)從2D圖像確定3D點(diǎn)。如用SfM分析一樣,只能對(duì)位于有足夠?qū)Ρ榷瓤删_確定與第二圖像對(duì)應(yīng)關(guān)系的位置的小部分圖像建立3D點(diǎn)。
在許多應(yīng)用中,包括但不限制于立體圖像透射圖(stereoscopic imagerendering)、機(jī)器人導(dǎo)航和特定效果動(dòng)畫(huà)制作應(yīng)用,這種稀疏3D點(diǎn)是不夠的。這些應(yīng)用要求圖像中的每個(gè)2D點(diǎn)與一3D點(diǎn)相關(guān)聯(lián)的密集深度圖。
用于將稀疏3D點(diǎn)變換到密集深度圖的現(xiàn)有技術(shù)依賴(lài)于稀疏3D數(shù)據(jù)的空間內(nèi)插或假設(shè)檢驗(yàn)方法,例如RANSAC算法。所有這些方法僅使用每個(gè)單獨(dú)的圖像幀上可用的稀疏3D點(diǎn)數(shù)據(jù)。這導(dǎo)致兩個(gè)主要的缺陷——首先,在任一單個(gè)圖像中可用的稀疏點(diǎn)的數(shù)量可能不足以精確地導(dǎo)出密集深度圖,其次,從一幀到下一幀的深度圖的連續(xù)性可能是拙劣的。本發(fā)明揭示了一種針對(duì)這些缺陷的用于從稀疏3D數(shù)據(jù)導(dǎo)出密集深度圖的方法。
申請(qǐng)人在共同待批的PCT申請(qǐng)?zhí)朠CT/AU01/00975中揭示了一種用于從一個(gè)或多個(gè)圖像產(chǎn)生深度圖的方法,該申請(qǐng)的內(nèi)容通過(guò)引用而被揭示于此。該方法涉及兩步處理。在第一步中,使用與單個(gè)圖像相關(guān)聯(lián)的稀疏深度數(shù)據(jù)來(lái)為該圖像產(chǎn)生深度圖。在第二階段中,使用在第一階段中產(chǎn)生的結(jié)果產(chǎn)生一圖像序列中的各圖像的深度圖。雖然該方法在理想情況下起作用,但是對(duì)處理具有許多限制。在申請(qǐng)人的在先申請(qǐng)中,必須選擇圖像序列中的一定數(shù)量的關(guān)鍵幀。對(duì)于這些關(guān)鍵幀的每一幀,必須知道該關(guān)鍵幀中的足夠數(shù)量的像素的深度數(shù)據(jù),使得可以產(chǎn)生用以產(chǎn)生對(duì)應(yīng)的深度圖的方程。也就是說(shuō),給出關(guān)鍵幀中的足夠數(shù)量的像素的深度數(shù)據(jù),可以得出一函數(shù),使得可以確定每一其它像素的深度。一旦對(duì)關(guān)鍵幀產(chǎn)生了這些函數(shù),那么就隨后可以使用這些函數(shù)來(lái)產(chǎn)生用于剩余的幀的函數(shù)。
申請(qǐng)人在先處理的局限之一是必須要求兩個(gè)階段。將理解到,如果由于某種原因而在第一階段中引入了差錯(cuò),那么該差錯(cuò)就會(huì)在整個(gè)第二階段中傳遞。在這種情況下,最后得出的深度圖可能是不令人滿(mǎn)意的。
更為關(guān)注的是,為了令人滿(mǎn)意地完成第一階段,必須知道關(guān)鍵幀中的足夠數(shù)量的像素的深度,以便求解方程來(lái)產(chǎn)生該關(guān)鍵幀的深度圖。例如,如果一關(guān)鍵幀具有350,000個(gè)像素,那么理想地應(yīng)當(dāng)知道17,500個(gè)像素(或像素總數(shù)的5%)的深度,以便能生成深度圖的函數(shù)。如果深度已知的像素?cái)?shù)量不夠,那么所產(chǎn)生的深度圖的質(zhì)量將不夠質(zhì)量。如果不能為一關(guān)鍵幀產(chǎn)生精確的深度圖,則不可能成功地完成第二階段。因此,需要一種產(chǎn)生深度圖的簡(jiǎn)化的處理過(guò)程。
發(fā)明目的因此,本發(fā)明的一個(gè)目的是提供一種從2D圖像序列產(chǎn)生深度圖的改進(jìn)的系統(tǒng),不要求兩階段處理,也不依賴(lài)于已知一關(guān)鍵幀中必需數(shù)量的像素的深度。
發(fā)明概述考慮上述目的,本發(fā)明的一個(gè)方面中提供一種對(duì)一圖像序列建立至少一個(gè)深度圖的方法,包括以下步驟接收多個(gè)幀的圖像數(shù)據(jù);
接收所述多個(gè)幀中至少一個(gè)幀的多個(gè)點(diǎn)的深度數(shù)據(jù);使用所述圖像數(shù)據(jù)和所述深度數(shù)據(jù)來(lái)確定一算法,以確定作為圖像數(shù)據(jù)的函數(shù)的深度特性;使用所述算法對(duì)所述至少一個(gè)幀確定深度圖。
在本發(fā)明的進(jìn)一步的方面中,提供一種對(duì)包括多個(gè)幀的2D圖像序列建立至少一個(gè)深度圖的方法,每個(gè)幀包括多個(gè)點(diǎn),所述方法包括以下步驟接收至少一個(gè)幀中的多個(gè)點(diǎn)的深度數(shù)據(jù);確定具有所述深度數(shù)據(jù)的所述點(diǎn)的圖像數(shù)據(jù);將所述深度數(shù)據(jù)和所述圖像數(shù)據(jù)輸入分類(lèi)器,以對(duì)所述圖像數(shù)據(jù)和所述深度數(shù)據(jù)之間的關(guān)系進(jìn)行編碼;使用經(jīng)編碼的關(guān)系來(lái)得出2D圖像的至少一個(gè)幀的深度圖。
在本發(fā)明的又一方面中,提供一種對(duì)一圖像序列建立深度圖的方法,包括以下步驟接收所述圖像序列中的多個(gè)點(diǎn)的深度數(shù)據(jù);利用所述深度數(shù)據(jù)訓(xùn)練分類(lèi)器,以確定作為圖像特性和相對(duì)位置的函數(shù)的深度特性;使用所述圖像特性對(duì)所述圖像序列的每個(gè)幀建立深度圖。
在本發(fā)明的又一方面中,提供一種對(duì)一圖像序列建立深度圖的方法,包括以下步驟將所述圖像序列劃分成多個(gè)圖像像片;對(duì)于每個(gè)圖像像片,接收多個(gè)點(diǎn)的深度數(shù)據(jù),并使用所述深度數(shù)據(jù)訓(xùn)練各自的分類(lèi)器以建立初始算法,以確定作為圖像特性和相對(duì)位置的函數(shù)的深度特性;通過(guò)從多個(gè)所述像片組合至少兩個(gè)初始算法建立至少一個(gè)組合算法;使用所述至少一個(gè)組合算法對(duì)所述圖像序列的每個(gè)幀建立深度圖。
在本發(fā)明的又一方面中提供一種對(duì)一圖像序列建立至少一個(gè)深度圖的方法,包括以下步驟將所述圖像序列劃分成多個(gè)圖像像片;接收至少一個(gè)圖像像片中的多個(gè)點(diǎn)的深度數(shù)據(jù);
使用所述深度數(shù)據(jù)和分類(lèi)器來(lái)確定作為圖像特性和相對(duì)位置的函數(shù)的深度特性;使用所述圖像特性對(duì)所述至少一個(gè)圖像像片的至少一個(gè)幀建立深度圖。
圖像數(shù)據(jù)可包括每個(gè)點(diǎn)或像素的RGB值,并還可包括xy位置。本發(fā)明還可包括對(duì)圖像中的若干點(diǎn)確定深度數(shù)據(jù)的初始化步驟。可人工地、自動(dòng)地或人工和自動(dòng)手段的組合來(lái)確定深度數(shù)據(jù)。
當(dāng)把圖像序列劃分成一系列像片時(shí),本發(fā)明的較佳實(shí)施例將組合每個(gè)幀的兩側(cè)的兩個(gè)分類(lèi)器的輸出。
附圖簡(jiǎn)述
圖1說(shuō)明了申請(qǐng)人的共同待批的專(zhuān)利申請(qǐng)的工作方式。
圖2說(shuō)明了本發(fā)明的操作。
圖3說(shuō)明了在本發(fā)明的一個(gè)實(shí)施例中的分類(lèi)器的使用。
圖4說(shuō)明了通過(guò)使用相鄰的分類(lèi)器的本發(fā)明的較佳實(shí)施例。
發(fā)明詳述深度圖表示從某一特定角度觀看到的場(chǎng)景的3D輪廓。當(dāng)密集深度圖與2D圖像相關(guān)聯(lián)時(shí),它對(duì)圖像中的每個(gè)像素對(duì)用于捕捉圖像的攝像機(jī)與所觀察到的對(duì)象之間的距離進(jìn)行編碼。本發(fā)明的一個(gè)目的是僅給定稀疏的一組3D點(diǎn)就恢復(fù)出深度圖,這可從下述的手段之一獲得。
為了實(shí)現(xiàn)這個(gè)目的,包含若干圖像幀的圖像序列可分解成一系列的像片(shot)。一張像片理想地包含一個(gè)或多個(gè)圖像幀,其中的幀間差異相對(duì)較小。圖像序列中的像片邊界的頻率和位置可取決于序列中的運(yùn)動(dòng)??捎刹僮髡呷斯さ刈R(shí)別或者可使用像片檢測(cè)算法來(lái)自動(dòng)地識(shí)別像片邊界。像片檢測(cè)算法采用圖像幀序列作為輸入,輸出一個(gè)或多個(gè)像片邊界。像片邊界有效地將圖像序列劃分成一個(gè)或多個(gè)組,使得任一組中的連續(xù)圖像之間的差異相對(duì)較小。自動(dòng)像片檢測(cè)算法通?;趫D像差異。例如,為了確定是否要在序列的兩個(gè)連續(xù)的圖像之間插入像片邊界,要計(jì)算該兩個(gè)圖像的每個(gè)像素之間的總差異。如果該差異超過(guò)預(yù)定的閾值,則插入像片邊界。
3D點(diǎn)可定義成具有關(guān)聯(lián)深度值的2D點(diǎn),關(guān)聯(lián)深度值表示點(diǎn)離攝像機(jī)的距離,并可根據(jù)下述過(guò)程中的任一個(gè)或任何組合來(lái)產(chǎn)生1.從運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)算法這種算法最初將識(shí)別首幅圖像中的若干特征點(diǎn),并試圖在后續(xù)的圖像中定位相同的特征點(diǎn)。諸如對(duì)象的角落和邊緣之類(lèi)的高對(duì)比區(qū)域一般是最可靠的用于跟蹤的識(shí)別特征。一旦定位了足夠的對(duì)應(yīng)的2D點(diǎn),就可能得出3D點(diǎn)。例如,如果已知兩個(gè)圖像之間的8個(gè)對(duì)應(yīng)的2D點(diǎn),則可使用Longuet-Higgens算法來(lái)恢復(fù)圖像之間的核面幾何(epipolar geometry)。與攝像機(jī)校準(zhǔn)矩陣相結(jié)合,可對(duì)對(duì)應(yīng)的2D點(diǎn)作三角測(cè)量,已尋找它們的恢復(fù)的3D位置。
2.立體的或多視覺(jué)算法如果使用以固定相對(duì)配置的兩個(gè)或多個(gè)攝像機(jī)捕捉圖像序列,則可使用每個(gè)攝像機(jī)的圖像之間的對(duì)應(yīng)關(guān)系,通過(guò)三角測(cè)量得出深度估計(jì)。如用SfM算法一樣,對(duì)應(yīng)的點(diǎn)僅可能在高對(duì)比區(qū)域中可靠地識(shí)別出,這限制了可通過(guò)這種算法確定的精確的3D點(diǎn)的數(shù)量。
3.人工點(diǎn)對(duì)應(yīng)或直接深度指定可通過(guò)指示兩個(gè)或多個(gè)圖像中的點(diǎn)之間的對(duì)應(yīng)關(guān)系或通過(guò)直接將一深度值與單個(gè)2D點(diǎn)相關(guān)聯(lián),來(lái)人工地識(shí)別3D點(diǎn)。
本發(fā)明使用分類(lèi)器對(duì)2D點(diǎn)(輸入)和3D點(diǎn)(輸出)之間關(guān)系進(jìn)行編碼。分類(lèi)器可被認(rèn)為是對(duì)一組輸入和一組輸出之間的關(guān)系進(jìn)行編碼的算法。分類(lèi)器具有內(nèi)部配置,可處于若干不同的狀態(tài)中。在監(jiān)督分類(lèi)中,分類(lèi)器使用輸入和輸出之間的關(guān)系的例子來(lái)改變(adapt)其內(nèi)部狀態(tài)。該處理過(guò)程可稱(chēng)為訓(xùn)練分類(lèi)器??墒褂脧纳鲜鲞^(guò)程中得出的3D點(diǎn)來(lái)訓(xùn)練分類(lèi)器??蛇x地,可選擇不要求訓(xùn)練的分類(lèi)器。
為了清楚起見(jiàn),我們將圖像序列中時(shí)刻t出現(xiàn)的圖像中的位置x,y處的2D點(diǎn)描述為P{x,y,t,I},其中,I是點(diǎn)P的圖像特性集。在較佳實(shí)施例中,圖像特性I由2D點(diǎn)P的紅、綠、籃顏色分量組成。包括紅、綠、籃分量的線性或非線性組合或高階統(tǒng)計(jì)的任何其它的圖像特性都可使用,而不影響本發(fā)明的本質(zhì),但不限于這些。
3D點(diǎn)定義成R={x,y,z,t,I},
其中,z對(duì)應(yīng)于深度或離開(kāi)點(diǎn)R的攝像機(jī)的距離??墒褂蒙鲜黾夹g(shù)產(chǎn)生的3D點(diǎn)來(lái)訓(xùn)練分類(lèi)器。分類(lèi)器對(duì)一組2D點(diǎn)及其對(duì)應(yīng)的3D點(diǎn)之間的關(guān)系進(jìn)行編碼。由于這種關(guān)系隨著時(shí)間變化,因此以一規(guī)定的時(shí)間間隔T來(lái)訓(xùn)練分類(lèi)器。在較佳實(shí)施例中,該時(shí)間間隔與通過(guò)像片檢測(cè)識(shí)別的圖像序列的分解相符合。應(yīng)注意到,單個(gè)時(shí)間間隔T可包括時(shí)間上不相鄰的一個(gè)或多個(gè)像片。一個(gè)圖像序列可能在兩個(gè)或多個(gè)不同的場(chǎng)景之間交替變換,例如,在攝像機(jī)交替地聚焦于訪問(wèn)者和被訪問(wèn)者的新聞訪問(wèn)節(jié)目期間。在這些情況下,時(shí)間間隔T可包含來(lái)自一個(gè)場(chǎng)景(例如訪問(wèn)者)的所有圖像。圖3示出了使用像片檢測(cè)算法分解的圖像序列,圖中央的三個(gè)幀屬于一單個(gè)像片2。幀1是前一像片14中的圖像,幀5是后一像片15中的圖像。像片中的每個(gè)圖像幀具有與之相關(guān)聯(lián)的若干3D點(diǎn)4。各3D點(diǎn)的深度Z是人工地還是自動(dòng)地得出,這無(wú)關(guān)緊要,所要求的是深度已知的一系列點(diǎn)。為簡(jiǎn)單起見(jiàn),這些3D點(diǎn)通過(guò)它們?cè)?D圖像平面上的投影來(lái)表示。當(dāng)前像片中的所有3D點(diǎn)輸入到分類(lèi)器,作為訓(xùn)練數(shù)據(jù),而不管它們處于哪個(gè)幀中。
經(jīng)訓(xùn)練的分類(lèi)器3可表示2D點(diǎn)P與3D點(diǎn)R之間在時(shí)間間隔T上的關(guān)系或映射如果t處于時(shí)間間隔T之內(nèi),C{T}P{x,y,t,I}≡R{x,y,z,t,I}。
換言之,現(xiàn)在可使用用在一組特定的圖像幀上得出的3D點(diǎn)訓(xùn)練的分類(lèi)器來(lái)在相同的時(shí)間間隔上為任何其它2D點(diǎn)恢復(fù)深度值。
將分類(lèi)器限制于特定的時(shí)間間隔提高了從2D點(diǎn)恢復(fù)3D點(diǎn)的精確性,但可能導(dǎo)致時(shí)間上不一致的結(jié)果。這些不一致一般在兩個(gè)分類(lèi)器之間的時(shí)間邊界處明顯。
例如,考慮圖像序列分解成兩個(gè)像片的情況。對(duì)于每個(gè)像片中的所有3D點(diǎn),對(duì)分類(lèi)器進(jìn)行訓(xùn)練。還假設(shè)第一個(gè)像片占據(jù)從t1至t2(包含的)的圖像幀,第二個(gè)像片占據(jù)從t3至t4(包含的)的圖像幀。t2處的圖像幀將使用第一分類(lèi)器進(jìn)行分類(lèi),t3處的圖像幀將使用第二分類(lèi)器進(jìn)行分類(lèi)。在某些情況下,這可能在恢復(fù)出的深度圖中引起可注意到的不連續(xù)。也就是說(shuō),第一個(gè)像片中的對(duì)象可能由于分類(lèi)的結(jié)果而以某一深度表現(xiàn)出來(lái),而第一個(gè)像片中的那些相同的對(duì)象可能由于第二分類(lèi)器的結(jié)果而以一不同的深度表現(xiàn)在第二個(gè)像片中。在該情況下,對(duì)于觀眾來(lái)說(shuō),圖像看上去是跳躍的。
在這可能成為問(wèn)題的情況下,本發(fā)明的較佳實(shí)施例以?xún)煞N方式來(lái)解決一致性問(wèn)題。
在訓(xùn)練之前,分類(lèi)器一般初始化到某一隨機(jī)狀態(tài)。根據(jù)分類(lèi)器的特性,該初始狀態(tài)可能對(duì)訓(xùn)練后的分類(lèi)器的最終狀態(tài)產(chǎn)生顯著的影響。為了提高兩個(gè)分類(lèi)器C1和C2(C2出現(xiàn)在C1之后)之間的一致性,C2可初始化到與分類(lèi)器C1的初始狀態(tài)相同的狀態(tài)??蛇x地,可使用分類(lèi)器C1的部分地或完全地訓(xùn)練的狀態(tài)來(lái)初始化C2。例如,如果我們假設(shè)第一分類(lèi)器初始化到隨機(jī)狀態(tài)s1。在訓(xùn)練期間,分類(lèi)器可反復(fù)地改變其狀態(tài),例如從s1到s50。接著第一分類(lèi)器的第二分類(lèi)器可初始到例如狀態(tài)s10而不是一隨機(jī)狀態(tài)。用第二分類(lèi)器的某一狀態(tài)初始化第一分類(lèi)器的過(guò)程稱(chēng)為自舉(bootstrap)第一分類(lèi)器。自舉具有提高訓(xùn)練分類(lèi)器的速度的額外優(yōu)點(diǎn),因?yàn)槠鹗紶顟B(tài)一般更為接近于最終訓(xùn)練狀態(tài)。
為了進(jìn)一步提高結(jié)果的一致性,可組合兩個(gè)或多個(gè)分類(lèi)器,從2D點(diǎn)確定3D點(diǎn)。例如,考慮在從時(shí)刻t1到時(shí)刻t2的時(shí)間間隔上經(jīng)訓(xùn)練的分類(lèi)器與作為t1與t2之間的中點(diǎn)的特定時(shí)間點(diǎn)相關(guān)聯(lián)。
對(duì)于我們希望確定3D點(diǎn)的任一點(diǎn)P{x,y,t,I}來(lái)說(shuō),我們確定其時(shí)間中點(diǎn)緊接著出現(xiàn)在時(shí)刻t之前或之后的兩個(gè)最接近的分類(lèi)器。圖4示出了由若干圖像幀組成的圖像序列,該圖像序列被分解成兩個(gè)像片12和13。時(shí)間t從左向右隨著每個(gè)連續(xù)的圖像幀而增加。為了對(duì)作為圖像序列的像片12中的圖像7的一部分的給定2D點(diǎn)6確定3D點(diǎn),可以組合具有直接位于2D點(diǎn)6的時(shí)間t之前的時(shí)間中點(diǎn)的第一分類(lèi)器14和具有緊接著2D點(diǎn)6的時(shí)間t之后的時(shí)間中點(diǎn)的第二分類(lèi)器15。
假設(shè)第一分類(lèi)器14輸出3D點(diǎn)R1,第二分類(lèi)器15輸出3D點(diǎn)R2,假設(shè)2D點(diǎn)P作為輸入,組合裝置18可以通過(guò)組合R1和R2來(lái)產(chǎn)生改進(jìn)的3D點(diǎn)R2。組合裝置181可以簡(jiǎn)單的對(duì)R1和R2作平均,但是理想地使用其輸入的加權(quán)組合。在較佳實(shí)施例中,權(quán)重基于點(diǎn)P和分類(lèi)器的時(shí)間中點(diǎn)之間的時(shí)間距離。作為該過(guò)程的進(jìn)一步說(shuō)明,考慮在t1與t2之間的時(shí)間間隔上經(jīng)訓(xùn)練的第一分類(lèi)器14的時(shí)間中點(diǎn)定義為T(mén)m1=0.5*(t1+t2)。類(lèi)似地,在t3與t4之間的時(shí)間間隔上經(jīng)訓(xùn)練的第二分類(lèi)器15的時(shí)間中點(diǎn)定義為T(mén)m2=0.5*(t3+t4)。
我們可以通過(guò)分別對(duì)第一分類(lèi)器14計(jì)算權(quán)重w1=(t-tm1)/(tm2-tm1),對(duì)第二分類(lèi)器15計(jì)算權(quán)重w2=(tm2-t)/(tm2-tm1),來(lái)確定兩個(gè)分類(lèi)器的相對(duì)貢獻(xiàn)。然后,可如下計(jì)算改進(jìn)的3D點(diǎn)R3R3=w1*R1+w2*R2。
在另一實(shí)施例中,通過(guò)與時(shí)間接近度相對(duì)的分類(lèi)差錯(cuò)估計(jì)來(lái)確定加權(quán)。
將理解到,本系統(tǒng)與申請(qǐng)人的在先系統(tǒng)具有顯著的不同,并且從而與用于為圖像序列產(chǎn)生深度圖的任何其它方法有顯著不同。如圖1所示,申請(qǐng)人的在先過(guò)程要求選擇若干關(guān)鍵幀,并且對(duì)各關(guān)鍵幀中足夠數(shù)量的像素的深度要已知。對(duì)于每個(gè)關(guān)鍵幀,假設(shè)足夠的像素被指定了深度,則可在第一階段中建立深度圖。然后在第二階段中使用每個(gè)關(guān)鍵幀的深度圖為剩余的幀產(chǎn)生隨后的深度圖。該過(guò)程與圖2所例示的本發(fā)明顯著不同。圖2示出了沒(méi)有必要從圖像序列中選擇關(guān)鍵幀。此外,沒(méi)有必要確保某一幀或關(guān)鍵幀的足夠數(shù)量的像素或點(diǎn)具有指定的深度。相反,本發(fā)明采用多個(gè)幀的若干數(shù)量的像素的深度和圖像數(shù)據(jù),來(lái)建立深度圖。將理解到,用于分類(lèi)器的數(shù)據(jù)可來(lái)自于單個(gè)幀,尤其是圖像序列是關(guān)于靜止對(duì)象時(shí)更是如此,但是,即使是在這種情況下,本發(fā)明也與申請(qǐng)人的在先申請(qǐng)不同,不同在于使用分類(lèi)器來(lái)對(duì)像片的每個(gè)幀產(chǎn)生深度圖,相反,現(xiàn)有系統(tǒng)對(duì)兩個(gè)關(guān)鍵幀產(chǎn)生兩個(gè)深度圖,然后使用這些關(guān)鍵幀深度圖來(lái)產(chǎn)生隨后的深度圖。
將理解到,在各情況下,每個(gè)像素的圖像數(shù)據(jù)是已知的。也就是說(shuō),如果我們考慮RGB分量,對(duì)于每個(gè)像素而言,系統(tǒng)已知相對(duì)XY位置以及RGB值。所要求的是像片序列中的若干像素具有一指定給它們的深度??赏ㄟ^(guò)人工地、或自動(dòng)地、或人工或自動(dòng)的組合來(lái)指定深度。然后可把該信息傳送給本發(fā)明的分類(lèi)器,從而對(duì)像片的每個(gè)幀建立深度圖。
可通過(guò)利用相鄰像片中的分類(lèi)器來(lái)進(jìn)一步改進(jìn)本發(fā)明的系統(tǒng)。也就是說(shuō),對(duì)由相鄰分類(lèi)器產(chǎn)生的深度進(jìn)行參考,而不是依賴(lài)于單個(gè)分類(lèi)器單獨(dú)產(chǎn)生的深度圖。再次,這例示于圖5中。在該情況中,第一像片12包括四個(gè)幀,它們的數(shù)據(jù)饋入分類(lèi)器14。類(lèi)似地,相鄰的像片13包括6個(gè)幀,它們的數(shù)據(jù)饋入第二分類(lèi)器15。為了確定第一至第十幀中的任何一個(gè)幀中的任何一個(gè)點(diǎn)的深度,例如,第四幀17中的點(diǎn)16的深度,將兩個(gè)分類(lèi)器的輸出加以組合以確定該點(diǎn)的深度。理想地,取決于考慮哪個(gè)幀,對(duì)任一分類(lèi)器的依賴(lài)性將根據(jù)有利于某一分類(lèi)器來(lái)進(jìn)行加權(quán)。例如,在圖4的例子中,與第一幀相比,第五幀中分類(lèi)器15的加權(quán)將更多。類(lèi)似地,對(duì)于第五幀來(lái)說(shuō),分類(lèi)器14的加權(quán)將比對(duì)第十幀的更多。
把加權(quán)設(shè)計(jì)成考慮圖像中對(duì)象的深度可能隨時(shí)間變化。還理解到對(duì)象的深度將對(duì)于對(duì)象的歷史深度以及未來(lái)深度具有某種相關(guān)性。通過(guò)對(duì)各種分類(lèi)器進(jìn)行加權(quán),可以實(shí)現(xiàn)像片之間的更為平滑的過(guò)渡。
將理解到,在更為復(fù)雜的系統(tǒng)中,可能組合不止兩個(gè)分類(lèi)器,以便提高過(guò)渡平滑性。例如,可使用三個(gè)分類(lèi)器,這包括用于某一像片的分類(lèi)器以及位于該像片兩側(cè)的兩個(gè)相鄰的分類(lèi)器。
考慮到申請(qǐng)人的在先系統(tǒng)在當(dāng)時(shí)作出了顯著的改進(jìn)。本系統(tǒng)對(duì)申請(qǐng)人的在先系統(tǒng)又作了進(jìn)一步的改進(jìn)。沒(méi)有必要進(jìn)行兩階段處理,以便對(duì)任一圖像序列中的幀確定深度圖。此外,沒(méi)有必要已知單個(gè)幀中的足夠數(shù)量的像素,以便在第一階段得出深度圖。相反,雖然本發(fā)明可依賴(lài)于單個(gè)幀,但是它能夠從一系列幀中得出信息,從而對(duì)這些幀的每一個(gè)幀產(chǎn)生深度圖。此外,即使對(duì)于某一幀不知道任何深度數(shù)據(jù),本系統(tǒng)也將能夠進(jìn)行,例如圖4的第九幀的例子所示。在該情況下,分類(lèi)器使用剩余幀中的已知的深度數(shù)據(jù)。
雖然通過(guò)示例性的應(yīng)用概括和闡述了本發(fā)明的方法和裝置,但是本領(lǐng)域的技術(shù)人員將理解到,許多廣泛改變的實(shí)施例和應(yīng)用都處于本發(fā)明的教示和范圍之內(nèi),這里所給出的例子僅僅是說(shuō)明性的,而不應(yīng)被解釋成對(duì)本發(fā)明的范圍的限制。
權(quán)利要求
1.一種對(duì)一圖像序列建立至少一個(gè)深度圖的方法,其特征在于,包括以下步驟接收所述圖像序列中的多個(gè)點(diǎn)的深度數(shù)據(jù);利用所述深度數(shù)據(jù)和分類(lèi)器來(lái)確定作為圖像特性和相對(duì)位置的函數(shù)的深度特性;使用所述圖像特性對(duì)所述圖像序列的至少一個(gè)幀建立深度圖。
2.如權(quán)利要求1所述的方法,其特征在于,所述圖像特性包括RGB值。
3.如權(quán)利要求1或2所述的方法,其特征在于,所述圖像特性包括相對(duì)xy位置。
4.如上述任一權(quán)利要求所述的方法,其特征在于,還包括為所述圖像序列中的至少預(yù)定數(shù)量的點(diǎn)確定深度數(shù)據(jù)的初始化步驟。
5.如權(quán)利要求1至3中任一項(xiàng)所述的方法,其特征在于,包括自舉所述分類(lèi)器的初始化步驟。
6.一種對(duì)一圖像序列建立至少一個(gè)深度圖的方法,其特征在于,包括以下步驟將所述圖像序列劃分成多個(gè)圖像像片;接收所述圖像像片中至少一個(gè)圖像像片中的多個(gè)點(diǎn)的深度數(shù)據(jù);使用所述深度數(shù)據(jù)和分類(lèi)器來(lái)確定作為圖像特性和相對(duì)位置的函數(shù)的深度特性;使用所述圖像特性對(duì)所述至少一個(gè)圖像像片的至少一個(gè)幀建立深度圖。
7.如權(quán)利要求6所述的方法,其特征在于,向每個(gè)像片指定一對(duì)應(yīng)的分類(lèi)器。
8.如權(quán)利要求7所述的方法,其特征在于,將至少一個(gè)對(duì)應(yīng)的分類(lèi)器初始化成與前一分類(lèi)器類(lèi)似的狀態(tài)。
9.一種對(duì)一圖像序列建立至少一個(gè)深度圖的方法,其特征在于,包括以下步驟接收多個(gè)幀的圖像數(shù)據(jù);接收所述幀中至少一個(gè)幀的多個(gè)點(diǎn)的深度數(shù)據(jù);使用所述圖像數(shù)據(jù)和所述深度數(shù)據(jù)來(lái)確定一算法,以確定作為圖像數(shù)據(jù)的函數(shù)的深度特性;使用所述算法對(duì)所述幀中所述至少一個(gè)幀確定深度圖。
10.如權(quán)利要求9所述的方法,其特征在于,所述圖像數(shù)據(jù)包括RGB值。
11.如權(quán)利要求9或10所述的方法,其特征在于,所述圖像數(shù)據(jù)包括相對(duì)xy位置。
12.如權(quán)利要求9至11中任一項(xiàng)所述的方法,其特征在于,還包括對(duì)所述圖像序列中的至少預(yù)定數(shù)量的點(diǎn)確定深度數(shù)據(jù)的初始化步驟。
13.一種對(duì)一圖像序列建立至少一個(gè)深度圖的方法,其特征在于,包括以下步驟將所述圖像序列劃分成多個(gè)圖像像片;對(duì)于每個(gè)圖像像片,接收多個(gè)點(diǎn)的深度數(shù)據(jù),并使用所述深度數(shù)據(jù)和各自的分類(lèi)器來(lái)建立初始算法,以確定作為圖像特性和相對(duì)位置的函數(shù)的深度特性;通過(guò)從多個(gè)所述像片組合至少兩個(gè)初始算法建立至少一個(gè)組合算法;使用所述至少一個(gè)組合算法對(duì)所述圖像序列的至少一個(gè)幀建立深度圖。
14.如權(quán)利要求13所述的方法,其特征在于,所述圖像特性包括RGB值。
15.如權(quán)利要求13或14所述的方法,其特征在于,所述圖像特性包括相對(duì)xy位置。
16.如權(quán)利要求13至15中任一項(xiàng)所述的方法,其特征在于,還包括對(duì)所述圖像序列中的至少預(yù)定數(shù)量的點(diǎn)確定深度數(shù)據(jù)的初始化步驟。
17.如權(quán)利要求13至16中任一項(xiàng)所述的方法,其特征在于,使用所述至少兩個(gè)初始算法的平均來(lái)確定所述組合算法。
18.如權(quán)利要求13至16中任一項(xiàng)所述的方法,其特征在于,使用所述至少兩個(gè)初始算法的加權(quán)平均來(lái)確定所述組合算法。
19.如權(quán)利要求13至18中任一項(xiàng)所述的方法,其特征在于,包括將所述分類(lèi)器初始化到一隨機(jī)狀態(tài)的初始化步驟。
20.如權(quán)利要求13至18中任一項(xiàng)所述的方法,其特征在于,至少一個(gè)所述分類(lèi)器初始化到與前一分類(lèi)器類(lèi)似的狀態(tài)。
21.一種參考附圖中的附圖2至4在前文中描述的方法。
全文摘要
一種對(duì)一圖像序列建立至少一個(gè)深度圖的方法,包括以下步驟接收所述圖像序列中的多個(gè)點(diǎn)的深度數(shù)據(jù);利用所述深度數(shù)據(jù)和分類(lèi)器來(lái)確定作為圖像特性和相對(duì)位置的函數(shù)的深度特性;使用所述圖像特性對(duì)所述圖像序列的至少一個(gè)幀建立深度圖。
文檔編號(hào)G06T7/00GK1669053SQ03816879
公開(kāi)日2005年9月14日 申請(qǐng)日期2003年6月2日 優(yōu)先權(quán)日2002年6月7日
發(fā)明者S·R·弗克斯, J·C·弗拉克, P·V·H·哈曼 申請(qǐng)人:動(dòng)態(tài)數(shù)字視距研究有限公司