一種全自動的基于單幅圖像的三維場景構(gòu)建方法
【專利摘要】發(fā)明公開了一種全自動的基于單幅圖像的三維場景模型構(gòu)建方法,包括:基于機(jī)器學(xué)習(xí)的方法,利用訓(xùn)練圖像集訓(xùn)練得到能夠?qū)斎氲膱D像進(jìn)行粗略分類標(biāo)注的分類器。利用所述的分類器將輸入的圖像劃分成豎立、地面和天空三種子區(qū)域,獲得圖像區(qū)域的粗略分類標(biāo)注結(jié)果。基于所述的粗略分類標(biāo)注結(jié)果中的“可信”區(qū)域,利用GrabCut圖像分割算法來修正粗略分類標(biāo)注結(jié)果并獲得圖像幾何區(qū)域之間精準(zhǔn)的邊界。在獲取了所述的圖像幾何區(qū)域的精確分類標(biāo)注結(jié)果和圖像幾何區(qū)域之間精準(zhǔn)邊界的基礎(chǔ)上,利用計算機(jī)圖形學(xué)的方法進(jìn)行具有真實感三維場景的建模。通過采用本發(fā)明公開的方法實現(xiàn)了全自動的基于單幅圖像的三維場景構(gòu)建。
【專利說明】一種全自動的基于單幅圖像的三維場景構(gòu)建方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及基于圖像的建模領(lǐng)域,尤其涉及一種全自動的基于單幅圖像的三維場景構(gòu)建方法。
【背景技術(shù)】
[0002]基于圖像的三維重建技術(shù)能夠從二維圖像出發(fā)構(gòu)造具有真實感的三維圖形?;趫D像的建模是最近幾年興起的一門新技術(shù),它使用直接拍攝到的圖像,采用盡量少的交互操作,重建場景。其最大的特點(diǎn)就是克服了傳統(tǒng)的基于幾何建模和繪制技術(shù)的不足,可以在只具有普通計算能力的計算機(jī)上實現(xiàn)具有照片般真實感場景的實時漫游。傳統(tǒng)的三維建模工具雖然日益改進(jìn),但構(gòu)建稍顯復(fù)雜的三維模型依舊是一件非常耗時費(fèi)力的工作??紤]到要構(gòu)建的很多三維模型都能在現(xiàn)實世界中找到或加以塑造,因此三維掃描技術(shù)和基于圖像建模技術(shù)就成了人們心目中理想的建模方式;又由于前者一般只能獲取景物的幾何信息,而后者為生成具有照片級真實感的合成圖像提供了一種自然的方式,因此它迅速成為目前計算機(jī)圖形學(xué)領(lǐng)域中的研究熱點(diǎn)。
[0003]基于圖像的模型重建是計算機(jī)圖形學(xué)研究的前沿問題。該技術(shù)結(jié)合了計算機(jī)圖形學(xué)、圖像處理以及計算機(jī)視覺等諸多領(lǐng)域的理論和方法,通過圖像場景所包含的二維信息來獲取用于模型重建的三維數(shù)據(jù),實現(xiàn)在虛擬場景中的模型重建,因此在計算機(jī)輔助設(shè)計和逆向工程中有很好的應(yīng)用前景?;趫D像的建模技術(shù)是在二維圖像的基礎(chǔ)上進(jìn)行圖像理解并最終重建三維立體,它是計算機(jī)視覺要解決的主要問題之一,廣泛應(yīng)用于機(jī)器人導(dǎo)航、模糊識別、虛擬現(xiàn)實和建筑物重建等各個領(lǐng)域。
[0004]最初關(guān)于三維重建的研究是基于幾何信息方法的,如點(diǎn)云等。近些年基于圖像的三維重建技術(shù)興起,它使用直接拍攝到的照片進(jìn)行重建,克服了傳統(tǒng)的基于幾何重建技術(shù)中的標(biāo)定問題,其具有很大的優(yōu)越性,因而基于圖像的三維重建技術(shù)成為眾多學(xué)者研究的重要課題。
[0005]目前大部分研究是針對兩幅或多幅(序列)圖像的三維重建。多幅圖重建技術(shù)上需要先對每幅圖像進(jìn)行繁雜的預(yù)處理,尋找圖像間用于匹配的特征點(diǎn),而特征點(diǎn)匹配又是圖像處理中的難點(diǎn),因此利用多幅圖像進(jìn)行三維重建操作上存在重建成本高、操作復(fù)雜、計算量大,不適用于動態(tài)場景重建等問題。
[0006]基于單幅圖像的三維重建的主要思想是通過單張數(shù)碼影像提取目標(biāo)的顏色、形狀、共面性等二維、三維幾何信息,從而利用少量已知條件獲取該目標(biāo)的空間三維信息。單幅圖像的三維重建操作上避免了多幅圖像重建的麻煩,它重建過程簡單、速度快、只需拍攝一張角度合適的數(shù)碼相片即可獲得該目標(biāo)的三維幾何信息;它投入少,不需要多個攝像機(jī)或投影儀進(jìn)行標(biāo)定,大大減少了人力、物力的投資;而且技術(shù)上只對一幅圖像進(jìn)行預(yù)處理,無需多幅圖像的匹配,避開了多幅圖像重建的匹配難點(diǎn),大大節(jié)約了時間,提高了效率。因此,用單幅圖像進(jìn)行三維重建越來越多地得到人們的重視。
[0007]目前的研究方法中,單幅圖像的三維重建方法包括交互式的三維場景構(gòu)建方法和全自動的三維場景構(gòu)建方法。交互式的三維場景構(gòu)建方法需要用戶的交互進(jìn)行指導(dǎo),全自動的三維場景構(gòu)建方法一般是基于圖像特征利用機(jī)器學(xué)習(xí)的方法獲得相應(yīng)的場景結(jié)構(gòu)分類器,利用分類器將圖像區(qū)域進(jìn)行分類標(biāo)注,在此基礎(chǔ)上進(jìn)行三維場景的建模。交互式的建模方法精度高,但需要用戶交互指導(dǎo)。全自動的三維場景構(gòu)建方法是近年來的研究熱點(diǎn),如何快速準(zhǔn)確地估計圖像區(qū)域類別,提高自動重建的精確度是全自動的單幅圖像三維重建方法面臨的主要問題。
【發(fā)明內(nèi)容】
[0008]本發(fā)明的目的是提供一種全自動的基于單幅圖像的三維場景構(gòu)建方法,在有效獲取圖像幾何區(qū)域分類標(biāo)注結(jié)果及圖像中幾何區(qū)域之間精準(zhǔn)邊界的基礎(chǔ)上進(jìn)行具有真實感的三維場景的構(gòu)建。
[0009]本發(fā)明的目的是通過以下技術(shù)方案實現(xiàn)的:一種全自動的基于單幅圖像的三維場景構(gòu)建方法,包括以下步驟:
[0010]步驟1:利用訓(xùn)練圖像集獲得能夠進(jìn)行圖像幾何區(qū)域劃分的分類器
[0011]圖像幾何區(qū)域劃分的分類器是基于機(jī)器學(xué)習(xí)獲得的,首先需要收集訓(xùn)練圖像集,然后利用訓(xùn)練圖像集獲得一組訓(xùn)練樣本,最后利用訓(xùn)練樣本訓(xùn)練分類器;所述訓(xùn)練樣本的是在訓(xùn)練圖像集上獲得,包括樣本標(biāo)注和樣本提??;
[0012]所述樣本標(biāo)注是指對訓(xùn)練圖像集里面的每一幅圖進(jìn)行幾何區(qū)域的標(biāo)注,即把每一幅圖像的整個區(qū)域劃分成多個幾何子區(qū)域,每個幾何子區(qū)域應(yīng)當(dāng)歸屬為三種類別中的一種,這三種類別分別是:豎立區(qū)域、地面區(qū)域和天空區(qū)域;
[0013]經(jīng)過樣本標(biāo)注后,需要提取真正用于訓(xùn)練的樣本集。為了盡可能精確的對圖像區(qū)域進(jìn)行幾何子區(qū)域的劃分,以30*40的矩形塊作為樣本單元,把每一幅圖像以10為間隔步長劃分成一系列具有一定重疊區(qū)域的30*40的樣本矩形塊。對于每個樣本矩形塊,提取1031維的樣本特征;從而對于每一幅訓(xùn)練圖像可以獲得一組訓(xùn)練樣本(一個訓(xùn)練樣本集),而所有訓(xùn)練圖像的訓(xùn)練樣本集形成最終的訓(xùn)練樣本集;
[0014]提取了訓(xùn)練樣本集,采用有監(jiān)督的訓(xùn)練方式獲得能夠進(jìn)行圖像幾何區(qū)域劃分的分類器,即采用支持向量機(jī)SVM(Support Vector Machine)分類器,訓(xùn)練得到的分類器模型能夠輸出一個測試樣本分別屬于三種類別的概率;
[0015]步驟2:利用訓(xùn)練得到的分類器對用戶輸入的圖像進(jìn)行幾何區(qū)域的劃分,得到粗略分類標(biāo)注的結(jié)果;
[0016]輸入一幅圖像,先以10為間隔步長將圖像區(qū)域劃分成一系列具有一定重疊區(qū)域的30*40的樣本矩形塊,對于每一個樣本矩形塊提取1031維度的樣本特征;對于每一個樣本矩形塊,分類器根據(jù)其1031維的樣本特征,輸出該樣本分別屬于三種類別的概率:P (V I PD、p(g|Pi)和P (s I Pi),其中P (V I Pi)表示樣本Pi屬于豎立區(qū)域的概率,P(g|Pi)和P(SlPi)分別表示樣本Pi屬于地面區(qū)域和天空區(qū)域的概率;
[0017]對于圖像區(qū)域每一個10*10的決策單元Cj其屬于三種類別的概率由N個包含該決策單元的樣本矩形塊的類別共同決定,每一個決策單元&其屬于三種類別的概率計算為:
[0018]+K,) =去
丄 V ?=1
[0019]+|c,.)=4i>(g|/:)
\ " /V
[0020]P(Hc7)
上、/=1
[0021]其中N表示包含決策單元的樣本矩形塊的個數(shù),Pi表示N個矩形塊中的某個,從而獲得決策單元G分別屬于三種類別的概率大?。籶(v|Cj表示決策單元&屬于豎立區(qū)域的概率,P (g Icp和P (si ?_)分別表示決策單元屬于地面區(qū)域和天空區(qū)域的概率;
[0022]當(dāng)且僅當(dāng)決策單元&屬于某種類別的概率P* > 0.5時,才標(biāo)注該決策單元為該類另IJ,否則將其標(biāo)注為未知類別;
[0023]步驟3:利用基于GrabCut圖像分割算法修正步驟2中獲得的粗略分類標(biāo)注結(jié)果,并優(yōu)化圖像幾何區(qū)域之間的邊界,獲得圖像幾何區(qū)域之間精準(zhǔn)的邊界
[0024]利用基于GrabCut圖像分割算法時,以粗略分類結(jié)果中“可信的”的區(qū)域作為GrabCut的初始輸入進(jìn)行全自動地優(yōu)化粗略標(biāo)注結(jié)果,所述“可信”區(qū)域為具有較大可能性屬于某種類別的像素的集合,即屬于某種類別的概率大于0.5且在屬于該類別的所有像素集合中屬于概率較大的前90%;對于每一個類別均計算相應(yīng)的“可信”區(qū)域,獲得對于圖像區(qū)域中某種類別P*的“可信”區(qū)域;通過基于GrabCut圖像分割算法的輸出來修正粗略分類的結(jié)果,以獲得圖像中幾何區(qū)域之間精準(zhǔn)的邊界;
[0025]步驟4:針對步驟3輸出的標(biāo)注結(jié)果,利用計算機(jī)圖形學(xué)的方法進(jìn)行三維場景的建模,提供用戶具有真實感的三維場景漫游。
[0026]根據(jù)圖像中幾何區(qū)域之間精準(zhǔn)的邊界信息,把圖像區(qū)域裁剪成不同的幾何區(qū)域;在設(shè)定相機(jī)參數(shù)的基礎(chǔ)上,通過參考地面引入相對深度信息,從而恢復(fù)出圖像場景中幾何區(qū)域的重要頂點(diǎn)的三維坐標(biāo);最終利用平面近似各個幾何子區(qū)域,并把各個區(qū)域按照幾何關(guān)系放置在三維場景中,從而生成具有真實感的三維場景漫游。
[0027]所述步驟I中,1031維的樣本特征包括:1000維的Bag of Visual Words特征、30維的顏色特征和I維的位置特征。
[0028]所述步驟I中,SVM分類器中的基函數(shù)選為徑向基函數(shù),模型類別選為多類別的分類器,概率估計參數(shù)b設(shè)置為1,即訓(xùn)練得到的分類器能夠輸出一個測試樣本分別屬于三種類別的概率。
[0029]所述步驟3具體實現(xiàn)為:
[0030](I)中對于圖像區(qū)域中某種類別P*的“可信”區(qū)域的計算方法為:
[0031]>對粗略標(biāo)注結(jié)果中屬于該類別P*的所有像素按照它們屬于該類別的概率大小降序排列,移除概率較小的像素,其百分比為k% ;
[0032]>產(chǎn)生一個與P*對應(yīng)的二值模板圖像M*,M*和原圖大小一樣,凡屬于集合P*中的像素,其在模板圖像的對應(yīng)像素位置值為1,否則值為O ;
[0033]>檢測模板圖像M*中的連通區(qū)域,對于連通區(qū)域內(nèi)部存在的面積小于A的O值區(qū)域,以I值覆蓋填充;
[0034]>以大小為β的結(jié)構(gòu)元素腐蝕模板圖像隊。對于被腐蝕的像素視為可能屬于該類別的像素,其集合記為<,經(jīng)過腐蝕后模板圖像Μ*中值為I的像素,視為該類別的“可信”像素,其集合記為C;
[0035]根據(jù)所述的計算“可信”區(qū)域的方法分別獲得三種類別(地面、豎立和天空區(qū)域)的“可信”像素集<、<和< 以及“可能”像素集<、<和<,計算參數(shù)分別為:對于豎立區(qū)域,k, A, β分別取10,5000,20,針對地面區(qū)域和天空區(qū)域,k, A, β取分別O, 5000,10 ;
[0036](2) GrabCut算法進(jìn)行全自動地優(yōu)化粗略標(biāo)注結(jié)果的實現(xiàn)為:
[0037]根據(jù)所述的“可信”像素集和“可能”像素集分別對每個類別進(jìn)行單獨(dú)分割,對三類中某個類別的單獨(dú)分割,其計算方法為:將該類別區(qū)域視為前景,另外兩個類別區(qū)域視為背景。具體地,將該類別中“可信”的像素視為前景像素,另外兩個類別的“可信”像素視為背景像素,并將該類別中的“可能”像素視為可能的前景,而剩下的其他像素均看作可能的背景;利用上述信息初始化GrabCut分割算法,分別建立前景和背景的混合高斯模型,經(jīng)過分割后可以獲得以某類別區(qū)域為前景的單獨(dú)分割結(jié)果;
[0038]根據(jù)所述的單獨(dú)分割的結(jié)果進(jìn)一步優(yōu)化標(biāo)注結(jié)果,方法為:在三步單獨(dú)分割結(jié)果的基礎(chǔ)上,按照單獨(dú)分割某個區(qū)域的方法,再次以豎立區(qū)域為前景進(jìn)行前景背景的分離從而獲得最終的圖像分割結(jié)果;
[0039]根據(jù)天空和地面單獨(dú)分割的結(jié)果可以大致估計出地平線的位置,利用地平線將最終的圖像分割結(jié)果中的背景區(qū)域劃分成天空和地面區(qū)域,其方法為:位于地平線之上的背景區(qū)域標(biāo)注為天空區(qū)域,位于地平線之下的背景區(qū)域標(biāo)注為地面區(qū)域。
[0040]在所述的圖像幾何區(qū)域標(biāo)注的結(jié)果之上,利用計算機(jī)圖形學(xué)的方法進(jìn)行三維場景的建模,提供用戶具有真實感的三維場景漫游,包括:
[0041]根據(jù)所述的圖像幾何區(qū)域標(biāo)注結(jié)果,獲得圖像幾何區(qū)域之間的精準(zhǔn)邊界,用Douglas-Peucker算法對地面和豎立區(qū)域的邊界用多邊形近似獲得邊界的擬合多邊形;
[0042]其中上述利用計算機(jī)圖形學(xué)的方法進(jìn)行三維場景的建模的步驟為:
[0043](I)對所述的場景建模,使用針孔相機(jī)模型,光軸通過圖像中心,世界坐標(biāo)系和相機(jī)坐標(biāo)系重合,相機(jī)視野設(shè)置為1.431rad ;
[0044](2)利用參考地平面,獲得場景中重要頂點(diǎn)的三維坐標(biāo),方法為:引入?yún)⒖嫉仄矫妫仄矫娴母叨仍O(shè)置為-5 ;根據(jù)上述建模信息獲得投影矩陣,在地面高度確定的條件下,通過反投影,計算出圖像中地面區(qū)域的每個像素所對應(yīng)的在三維場景中的三維坐標(biāo),特別地,可以獲得地面區(qū)域和豎立區(qū)域邊界點(diǎn)的三維坐標(biāo);
[0045](3)根據(jù)所述的地面區(qū)域和豎立區(qū)域邊界點(diǎn)的三維坐標(biāo)以及地面區(qū)域和豎立區(qū)域邊界的擬合多邊形,獲得一系列豎直平面,方法為:將地面區(qū)域和豎立區(qū)域邊界的擬合多邊形上的每一條折線視為某個豎直平面和地面的區(qū)域的交線,每個豎直平面的上邊界由所述的圖像標(biāo)注結(jié)果中豎立區(qū)域和天空區(qū)域的邊界確定;
[0046](4)對所述的豎直平面和地面區(qū)域,利用紋理映射獲得具有真實感的三維場景模型;真實感的場景漫游包括:變換相機(jī)的視角、調(diào)節(jié)焦距和變換觀察位置觀察場景模型。
[0047]由上述本發(fā)明提供的技術(shù)方案可以看出,通過基于機(jī)器學(xué)習(xí)的方法訓(xùn)練得到一個能將輸入的圖像粗略劃分成不同幾何子區(qū)域的支持向量機(jī)(SVM)。這些子區(qū)域?qū)儆谌箢惖囊环N(豎立區(qū)域、地面區(qū)域和天空區(qū)域)。由于粗略分類標(biāo)注的結(jié)果中,圖像幾何區(qū)域之間的邊界常出現(xiàn)錯分和混淆,從而提出利用圖像分割的算法來修正粗略分類標(biāo)注的結(jié)果,以獲得幾何區(qū)域之間精準(zhǔn)的邊界。利用精準(zhǔn)的邊界信息,在進(jìn)行三維場景的構(gòu)建中可以避免由于邊界不精確導(dǎo)致的失真,從而生成具有真實感的三維場景模型。
[0048]本發(fā)明與現(xiàn)有技術(shù)相比的優(yōu)點(diǎn)在于:
[0049](I)本發(fā)明結(jié)合了機(jī)器學(xué)習(xí)和圖像分割的優(yōu)勢,以圖像分割方法修正機(jī)器學(xué)習(xí)獲得的粗略分類標(biāo)注結(jié)果,獲得更為精準(zhǔn)的幾何區(qū)域之間的邊界,從而在進(jìn)行三維場景的構(gòu)建中可以更好地避免由于邊界不精確導(dǎo)致的場景模型失真。
[0050](2)在本發(fā)明獲得的圖像分類標(biāo)注精確度和現(xiàn)有技術(shù)具有可比性的基礎(chǔ)上,本發(fā)明提出的技術(shù)解決方法更加簡單?,F(xiàn)有的技術(shù)側(cè)重于利用更多有效的圖像特征和構(gòu)建復(fù)雜的分類標(biāo)注模型來達(dá)到更高的分類標(biāo)注精確度。就圖像特征而言,本發(fā)明僅使用了少量有效的圖像特征。就分類標(biāo)注模型而言,本發(fā)明僅采用單分類器模型。在獲得具有可比性的分類標(biāo)注精確度的基礎(chǔ)上,相較于現(xiàn)有技術(shù)需要使用更多圖像特征以及需要構(gòu)建復(fù)雜的分類模型的而言,本發(fā)明提出的技術(shù)方案顯得更為簡單,復(fù)雜度低,易于實現(xiàn)。
【專利附圖】
【附圖說明】
[0051]圖1為本發(fā)明的技術(shù)方案的系統(tǒng)流程示意圖;
[0052]圖2為本發(fā)明的實施例一中使用的訓(xùn)練圖像集中的部分圖像;
[0053]圖3為本發(fā)明技術(shù)方案中的基于圖像分割算法來修正粗略分類標(biāo)注結(jié)果的算法流程圖;
[0054]圖4為本發(fā)明技術(shù)方案涉及的GrabCut圖像分割算法在不同初始化方法下的分割結(jié)果對比圖;
[0055]圖5為本發(fā)明實施例一中的輸入圖像在本發(fā)明技術(shù)方案提出的基于粗略分類標(biāo)注結(jié)果的“四步”GrabCut算法下獲得的地面區(qū)域和豎立區(qū)域之間的精準(zhǔn)邊界;
[0056]圖6為本發(fā)明實施例一的輸入圖像的三維場景模型在不同視角下觀察的結(jié)果圖;
[0057]圖7是按照本發(fā)明的技術(shù)方案,在數(shù)據(jù)庫I上進(jìn)行分類標(biāo)注獲得的混淆矩陣;
[0058]圖8是按照本發(fā)明的技術(shù)方案,在數(shù)據(jù)庫2上以6折交叉驗證的方式獲得的分類標(biāo)注結(jié)果的精確度和現(xiàn)有技術(shù)在該數(shù)據(jù)庫上分類標(biāo)注結(jié)果的對比;
[0059]圖9是按照本發(fā)明的技術(shù)方案,在數(shù)據(jù)庫I和數(shù)據(jù)庫2上采用支持向量機(jī)為分類器進(jìn)行粗略分類標(biāo)注獲得的分類標(biāo)注精確度和采用圖像分割算法進(jìn)行標(biāo)注結(jié)果修正的精確度的對比。
【具體實施方式】
[0060]下面結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明的保護(hù)范圍。
[0061]本發(fā)明實施例所述的場景圖像是針對室外場景圖像,由于室外場景圖像內(nèi)容可以由三種類型的幾何區(qū)域構(gòu)成:豎立區(qū)域、地面區(qū)域和天空區(qū)域。一般情況下,室外場景圖像內(nèi)容可以由以上三種類型的幾何區(qū)域組合構(gòu)成,例如圖2所示的幾種常見的室外場景圖像中,地面區(qū)域可以是草地、道路等,豎立區(qū)域可以是建筑、樹木等,天空區(qū)域即為天空。由于本發(fā)明不僅僅要對圖像內(nèi)容進(jìn)行精準(zhǔn)的標(biāo)注,還需要根據(jù)標(biāo)注結(jié)果進(jìn)行三維場景的構(gòu)建,而三維場景構(gòu)建中假設(shè)有參考地面的存在,所以適用于本發(fā)明技術(shù)方案進(jìn)行三維場景構(gòu)建的室外場景圖像至少包括地面區(qū)域。如果僅用本發(fā)明技術(shù)方案進(jìn)行圖像內(nèi)容的分類標(biāo)注,則適用范圍不受限于圖像需要包括地面區(qū)域的假設(shè)。
[0062]由于室外場景圖像內(nèi)容可以由三種類型的幾何區(qū)域構(gòu)成:豎立區(qū)域、地面區(qū)域和天空區(qū)域。不同的幾何區(qū)域其圖像特征具有一些可以區(qū)分性的特征,比如顏色,天空的顏色常見的可以有藍(lán)色,草地的顏色一般是綠色。基于這些觀察,本發(fā)明首先利用圖像數(shù)據(jù)集來訓(xùn)練一個具有將圖像內(nèi)容按照三種幾何區(qū)域進(jìn)行劃分判別的分類器,即通過訓(xùn)練得到的分類器能夠把輸入圖像按照圖像的局部特征將其劃分成不同的幾何子區(qū)域。本發(fā)明實施例中使用的圖像特征包括:Dense SIFT(稠密的尺度不變特征轉(zhuǎn)換,Dense Scale InvariantFeature Transform)特征、Bag of Visual Words (視覺詞袋特征),顏色特征(采用LUV或者RGB),位置特征(采用歸一化的高度值h)。訓(xùn)練的分類器采用支持向量機(jī)SVM (SupportVector Machine),訓(xùn)練采用的基函數(shù)選為徑向基函數(shù),模型類別選為多類別的分類器,概率估計參數(shù)b設(shè)置為1,即訓(xùn)練得到的模型能夠輸出一個測試樣本分別屬于三種類別的概率,其余設(shè)置均選用默認(rèn)參數(shù)。
[0063]上述采用機(jī)器學(xué)習(xí)訓(xùn)練的圖像幾何區(qū)域的分類器所使用的圖像特征是局部特征,其對圖像內(nèi)容進(jìn)行幾何區(qū)域判別分類時,雖然可以獲得有效的分類結(jié)果,但由于缺乏全局的約束會導(dǎo)致一些語義上的錯分以及區(qū)域之間的邊界不夠精準(zhǔn)等問題,所以利用GrabCut圖像分割算法,進(jìn)一步引入圖像區(qū)域之間的約束,以優(yōu)化和修正由分類器輸出的粗略分類標(biāo)注的結(jié)果,從而獲得圖像幾何區(qū)域之間更為精準(zhǔn)的邊界。利用精準(zhǔn)的邊界信息,在進(jìn)行三維場景的建模中可以避免由于邊界不明確導(dǎo)致的失真,從而生成具有真實感的三維場景模型。
[0064]實施例一
[0065]圖1為本發(fā)明實施例一提供的全自動的基于單幅圖像的三維場景建模方法的系統(tǒng)流程圖。實施例一的主要步驟包括:
[0066]步驟1、利用訓(xùn)練圖像集獲得能夠進(jìn)行圖像幾何區(qū)域劃分的分類器。
[0067]因為本發(fā)明實施例中圖像幾何區(qū)域劃分的分類器是基于機(jī)器學(xué)習(xí)獲得的,所以首先需要收集訓(xùn)練圖像集,然后利用訓(xùn)練圖像集獲得一組訓(xùn)練樣本,最后利用訓(xùn)練樣本訓(xùn)練分類器。
[0068]訓(xùn)練圖像集的收集可以通過互聯(lián)網(wǎng)搜索獲得。由于室外場景圖像的內(nèi)容千變?nèi)f化,收集的訓(xùn)練圖像應(yīng)當(dāng)具有代表性,盡量多的涵蓋各種可能的室外場景。附圖2中展示了實施例一中使用的訓(xùn)練圖像集中的部分圖像,這些圖像是幾種常見的室外場景圖像,它們至少包含了三種類別(地面、豎立和天空)中的一種。三種類別中的地面區(qū)域可以是草地、道路等,豎立區(qū)域可以是建筑、樹木等,天空區(qū)域即為天空。當(dāng)然,如果只是有針對特定室外場景的應(yīng)用,訓(xùn)練圖像集可以更具針對性,比如僅僅針對室外街景圖像進(jìn)行構(gòu)建,則可以收集不同類別的街景圖作為訓(xùn)練圖像集。
[0069]訓(xùn)練樣本的是在訓(xùn)練圖像集上獲得,包括樣本標(biāo)注和樣本提取。
[0070]樣本標(biāo)注是指對訓(xùn)練圖像集里面的每一幅圖進(jìn)行幾何區(qū)域的標(biāo)注,即把每一幅圖像的整個區(qū)域劃分成多個幾何子區(qū)域,每個幾何子區(qū)域應(yīng)當(dāng)歸屬為三種類別中的一種。這三種類別分別是:豎立區(qū)域、地面區(qū)域和天空區(qū)域。因為在本發(fā)明中采用有監(jiān)督的方式訓(xùn)練分類器,所以樣本標(biāo)注需要人為手動進(jìn)行標(biāo)注。
[0071]經(jīng)過樣本標(biāo)注后,需要提取真正由于訓(xùn)練的樣本集。本發(fā)明的目的是盡可能精確的對圖像區(qū)域進(jìn)行幾何子區(qū)域的劃分,因此本發(fā)明的實施例中均以10*10的矩形塊作為決策單元,以30*40的矩形塊作為樣本單元。本發(fā)明的實施例中把每一幅圖像以10為間隔步長劃分成一系列具有一定重疊區(qū)域的30*40的樣本矩形塊,以800*600的圖像為例,可以獲得58*77 = 4466個樣本矩形塊。對于每個樣本矩形塊,提取1031維的樣本特征,具體包括1000維的Bag of Visual Words特征,30維的顏色特征,I維的位置信息。
[0072]要提取1000維的Bag of Visual Words特征,首先需要預(yù)先提取每幅訓(xùn)練圖像的Dense SIFT特征形成SIFT特征集,然后利用聚類算法對特征集進(jìn)行聚類,獲得SIFT特征的1000個聚類中心。本發(fā)明實施例中Dense SIFT特征提取采用的間隔步長為4,聚類算法采用K-means(K-均值)聚類算法。對于一幅訓(xùn)練圖像中的每個30*40的樣本矩形塊,根據(jù)SIFT特征的聚類中心統(tǒng)計該矩形區(qū)域的SIFT特征詞頻直方圖,形成1000維的Bag ofVisual Words特征。本發(fā)明實施例中采用的顏色特征采用30維直方圖特征,在LUV空間,每個通道統(tǒng)計10個維度的直方圖特征。本發(fā)明實施例中采用的位置信息為I維度的相對高度信息,即每個樣本矩形塊在圖像中的相對高度。對于每個樣本矩形塊提取1031維度的特征作為該樣本的特征描述。對于每一幅訓(xùn)練圖像可以獲得一組訓(xùn)練樣本,而所有訓(xùn)練圖像的樣本集形成最終的訓(xùn)練樣本集。本發(fā)明實施例中僅使用純的訓(xùn)練樣本用于訓(xùn)練分類器,即訓(xùn)練樣本所在的矩形區(qū)域均屬于同一個類別的訓(xùn)練樣本構(gòu)成最終的訓(xùn)練樣本集(最終的訓(xùn)練樣本集包含三種類別的訓(xùn)練樣本)。
[0073]提取了訓(xùn)練樣本集,本發(fā)明實例采用有監(jiān)督的訓(xùn)練方式獲得能夠進(jìn)行圖像幾何區(qū)域劃分的分類器。具體地,分類器采用支持向量機(jī)SVM(Support Vector Machine),基函數(shù)選為徑向基函數(shù),模型類別選為多類別的分類器,概率估計參數(shù)b設(shè)置為1,即訓(xùn)練得到的模型能夠輸出一個測試樣本分別屬于三種類別的概率。
[0074]步驟2、對用戶輸入的圖像,利用訓(xùn)練得到的分類器對其進(jìn)行幾何區(qū)域的劃分,得到粗略分類標(biāo)注的結(jié)果。
[0075]步驟2的目的是通過訓(xùn)練得到的分類器對輸入的圖像進(jìn)行區(qū)域類別的粗略標(biāo)注。輸入一幅圖像,先以10為間隔步長將圖像區(qū)域劃分成一系列具有一定重疊區(qū)域的30*40的樣本矩形塊,對于每一個樣本矩形塊提取1031維度的樣本特征。對于每一個樣本矩形塊,分類器根據(jù)其1031維的樣本特征,輸出該樣本分別屬于三種類別的概率=P(VlPi)WfelPi)和P (s I Pi),其中P (V I Pi)表示樣本Pi屬于豎立區(qū)域的概率,P (g I Pi)和P (s I Pi)分別表示樣本Pi屬于地面區(qū)域和天空區(qū)域的概率。
[0076]本發(fā)明的目的是盡可能精確的對圖像區(qū)域進(jìn)行子區(qū)域的劃分,因此本發(fā)明的實施例中以10*10的矩形塊作為決策單元(互相之間沒有重疊),在圖像中每一個決策單元包含在多個樣本矩形塊中。本發(fā)明實施例中采用30*40的樣本矩形塊,采樣間隔步驟是10,則在圖像內(nèi)部區(qū)域,每一個決策單元將包含于12個樣本矩形塊中。因此,對于每一個決策單元Cj其屬于三種類別的概率可以由N個包含該決策單元的樣本矩形塊的類別共同決定。本發(fā)明實施例中,每一個決策單元&其屬于三種類別的概率計算為:
[0077]+IG) =去
▲V ι=1
[0078]+Ici)
[0079]^(^|C ) = ^Σ^|Ρ)
[0080]其中N表示包含決策單元&的樣本矩形塊的個數(shù),Pi表示N個矩形塊中的某個,從而獲得決策單元G分別屬于三種類別的概率大小。P (V I CJ表示決策單元&屬于豎立區(qū)域的概率,P (g Icp和P (si ?_)分別表示決策單元屬于地面區(qū)域和天空區(qū)域的概率。
[0081]本發(fā)明實施例中,當(dāng)且僅當(dāng)決策單元屬于某種類別的概率P* > 0.5時,才標(biāo)注該決策單元為該類別,否則將其標(biāo)注為未知類別。輸入圖像經(jīng)過分類器(實施例中采用SVM)輸出的分類標(biāo)注結(jié)果比較粗略。一些錯分主要發(fā)生在幾何區(qū)域之間的邊界處,區(qū)域內(nèi)部也存在一些語義錯分。為了修正粗略分類標(biāo)注的結(jié)果獲得幾何區(qū)域之間精準(zhǔn)的邊界,從而利于真實感三維場景的建模,本發(fā)明提出一種基于圖像分割的修正方法。
[0082]步驟3、利用圖像分割算法修正步驟2中獲得的粗略分類標(biāo)注結(jié)果,修正分類結(jié)果并優(yōu)化圖像幾何區(qū)域之間的邊界。
[0083]針對粗略標(biāo)注的一些錯分以及幾何區(qū)域邊界的不精準(zhǔn),本發(fā)明提出一種基于GrabCut圖像分割算法的修正方法。GrabCut是一種有效的交互式的分離前景背景的圖像分割算法。通過用戶給定的一些初始標(biāo)注信息來初始化前景背景的高斯混合模型。附圖4中展示了不同的初始化方式下以豎立區(qū)域為前景的GrabCut圖像分割算法的結(jié)果,圖4中的(a)是僅用矩形框作為分割范圍約束的GrabCut圖像分割算法獲得的豎立區(qū)域的分割結(jié)果,圖4中的(b)和(c)是在矩形框約束的基礎(chǔ)上,由用戶交互標(biāo)注了前景信息(豎立區(qū)域的線條)和背景信息(天空和地面區(qū)域的線條)作為GrabCut的分割輸入的分割結(jié)果,圖4中的(b)和(c)的區(qū)別在于(c)的用戶交互更多,標(biāo)注了更多前景和背景信息。圖4中的(d)是本發(fā)明提出的基于圖像粗略分類標(biāo)注結(jié)果的全自動的GrabCut圖像分割算法獲得的豎立區(qū)域的分割結(jié)果。由于GrabCut圖像分割算法需要用戶交互,而本發(fā)明的旨在建立一個基于單幅圖像的全自動的三維場景構(gòu)建系統(tǒng),所以不能直接利用GrabCut算法。注意到步驟2中產(chǎn)生的粗略分類結(jié)果,雖然存在一些錯分,但是圖像中仍然存在大部分標(biāo)注正確的區(qū)域。因此,本發(fā)明提出利用粗略分類標(biāo)注結(jié)果中“可信的”的區(qū)域作為GrabCut的初始輸入?!翱尚拧眳^(qū)域在這里定義為具有較大可能性屬于某種類別的像素的集合,即屬于某種類別的概率大于0.5且在屬于該類別的所有像素集合中屬于概率較大的前90%。在本發(fā)明實施例中,對于每一個類別都計算相應(yīng)的“可信”區(qū)域。以三種類別中的某類別區(qū)域為例,“可信”區(qū)域的計算方法如下:
[0084]>粗略標(biāo)注結(jié)果中屬于某類別區(qū)域的所有像素集合記為if",將該集合里面的像素按照屬于該類別區(qū)域的概率大小降序排列。經(jīng)過降序排列后,移除集合后k%的像素獲得新的集合P*。即集合〃中概率較小的后k%的像素視為“不可靠”像素并給予移除。
[0085]>產(chǎn)生一個與P*對應(yīng)的二值模板圖像Μ*。M*和原圖大小一樣,凡屬于集合P*中的像素,其在模板圖像的對應(yīng)像素位置值為1,否則值為O。
[0086]>檢測模板圖像M*中的連通區(qū)域,對于連通區(qū)域內(nèi)部存在的面積小于A的O值區(qū)域,以I值覆蓋填充。
[0087]>以大小為β的結(jié)構(gòu)元素腐蝕模板圖像Μ*。對于被腐蝕的像素視為“可能”屬于該類別區(qū)域的像素,其集合記為經(jīng)過腐蝕后模板圖像Μ*中值為I的像素,視為該類別區(qū)域的“可信”像素,其集合記為K。
[0088]經(jīng)過以上4步,可以獲得某類別區(qū)域的“可信”像素集尺和“可能”屬于該類別區(qū)域的像素集C。采用上述方法,針對地面區(qū)域、豎立區(qū)域和天空區(qū)域可以分別獲得“可信”像素集C、<'和< 以及“可能”像素集<、!和P本發(fā)明實施例中,對于豎立區(qū)域,(k,A,β)
取(10,5000,20),針對地面區(qū)域和天空區(qū)域,(k, A,β )取(O, 5000,10)。
[0089]由于GrabCut是針對前景背景分離的交互式的二值分割算法,而本發(fā)明實施例中涉及三種類別的區(qū)域:豎立、地面和天空。因此,本發(fā)明技術(shù)方案提出一種基于粗略分類標(biāo)注結(jié)果的“四步” GrabCut算法進(jìn)行全自動地優(yōu)化粗略標(biāo)注結(jié)果。
[0090]當(dāng)獲取了<、P:.、P:、K、5和'乙后,本發(fā)明實施例中先對每個類別分別進(jìn)行單獨(dú)分割。對三類中某個類別的單獨(dú)分割,其計算方法為:將該類別區(qū)域視為前景,另外兩個類別區(qū)域視為背景。具體地,將該類別中“可信”的像素視為前景像素,另外兩個類別的“可信”像素視為背景像素,并將該類別中的“可能”像素視為可能的前景,而剩下的其他所有像素均看作可能的背景;利用上述信息初始化GrabCut分割算法,分別建立前景和背景的混合高斯模型,經(jīng)過分割后可以獲得以某類別區(qū)域為前景的單獨(dú)分割結(jié)果。
[0091]單獨(dú)分割的結(jié)果可以修正粗略分類標(biāo)注中不少的錯分并且區(qū)域之間的邊界更準(zhǔn)確,但是豎立區(qū)域和地面區(qū)域,以豎立區(qū)域和天空區(qū)域之間仍然存在一些錯分,為了進(jìn)一步優(yōu)化標(biāo)注結(jié)果,本發(fā)明技術(shù)方案提出的“四步”GrabCut算法的第四步,以豎立區(qū)域為前景區(qū)域,地面和天空區(qū)域視為背景區(qū)域。在三步單獨(dú)分割結(jié)果的基礎(chǔ)上,按照單獨(dú)分割豎立區(qū)域的方法,再次以豎立區(qū)域為前景進(jìn)行前景背景的分割。圖3中描述了利用GrabCut圖像分割算法修正圖像區(qū)域粗略分類標(biāo)注結(jié)果的算法流程。相較于粗略分類標(biāo)注結(jié)果而言,經(jīng)過GrabCut圖像分割算法后的分類標(biāo)注結(jié)果,修正了粗略分類標(biāo)注的不少錯分并且?guī)缀螀^(qū)域之間的邊界更加精確。利用天空和地面單獨(dú)分割的結(jié)果可以大致估計出地平線的位置,從而可以進(jìn)行幾何校正,即利用地平線將最終的圖像分割結(jié)果中的背景區(qū)域劃分成天空和地面區(qū)域,其方法為:位于地平線之上的背景區(qū)域標(biāo)注為天空區(qū)域,位于地平線之下的背景區(qū)域標(biāo)注為地面區(qū)域
[0092]圖4中展示了 GrabCut分割算法在不同初始化條件下的分割結(jié)果。對于較復(fù)雜的背景,GrabCut算法需要不少的用戶交互才能獲得較好的分割結(jié)果。而本發(fā)明技術(shù)方案提出的基于粗略分類標(biāo)注結(jié)果的“四步”GrabCut分割算法在全自動的情況下可以獲得不錯的分割結(jié)果。
[0093]步驟4、針對步驟3輸出的標(biāo)注結(jié)果,利用計算機(jī)圖形學(xué)的方法進(jìn)行三維場景的建模,提供用戶具有真實感的三維場景漫游。
[0094]步驟3獲得的圖像幾何區(qū)域的分類標(biāo)注結(jié)果提供了幾何區(qū)域之間精準(zhǔn)的邊界,如圖5所示,曲線ABCDEF(白色線條)為地面區(qū)域和豎立區(qū)域之間的邊界,其很好的區(qū)分開了豎立物體和地面。雖然僅僅由以上步驟獲得的結(jié)果(幾何標(biāo)注區(qū)域、地平線的位置和區(qū)域邊界)無法精確的恢復(fù)出三維場景模型,但仍然可以通過已有的信息,在合理的假設(shè)下對場景進(jìn)行建模,提供用戶具有真實感的三維場景漫游。
[0095]本發(fā)明實施例中,使用針孔相機(jī)模型,光軸通過圖像中心,同時假設(shè)世界坐標(biāo)系和相機(jī)坐標(biāo)系重合,相機(jī)視野設(shè)置為1.431rad。由于模型中參考地面的高度影響著場景模型的尺度,在本發(fā)明實施例中地平面的高度設(shè)置為-5。由以上條件可以獲得投影矩陣,在地面高度確定的情況下,通過反投影,可以計算出圖像中地面區(qū)域的每個像素所對應(yīng)的在三維場景中的三維坐標(biāo)。由于步驟3提供了地面和豎立區(qū)域的精確邊界,則通過反投影,這些邊界點(diǎn)所對應(yīng)的三維坐標(biāo)可以計算得到。為了獲得豎立區(qū)域的三維坐標(biāo),本發(fā)明實施例中先用Douglas-Peucker算法對地面和豎立區(qū)域的邊界用多邊形近似獲得邊界的擬合多邊形。擬合多邊形上的每一條折線,可以看作是某個豎直平面和地面的交線。每一條折線對應(yīng)一個豎直平面,每個豎直平面的上邊界由標(biāo)注結(jié)果中豎立區(qū)域和天空區(qū)域的邊界確定。從而可以獲得場景的幾何模型,通過紋理映射可以獲得具有真實感的三維場景。用戶可以變換相機(jī)的視角、觀察位置和調(diào)節(jié)焦距等操作進(jìn)行場景漫游。附圖6展示了本發(fā)明實施例一的輸入圖像的三維場景模型在不同視角下觀察的結(jié)果圖,圖6中的(a) (b) (c)分別表示視角
1、視角2和視角3下觀察場景模型的結(jié)果圖。
[0096]按照本發(fā)明提出的技術(shù)方案,分別在兩個公認(rèn)的用于測試分類標(biāo)注精確度的數(shù)據(jù)庫 Popup 數(shù)據(jù)庫(Derek Hoiem, Alexei A.Efros, and Martial Hebert, “Automatic photopop-up, ” in ACM Transact1ns on Graphics (TOG).ACM, 2005, vol.24, pp.577 - 584.),簡稱“數(shù)據(jù)庫 I,,和 Geometric context 數(shù)據(jù)庫(Derek Hoiem, Alexei A.Efros, and MartialHebert, “Geometric context from a single image, ”in Internat1nal Conference ofComputer Vis1n (ICCV).2005, vol.1, pp.654 - 661.),簡稱“數(shù)據(jù)庫 2” 上進(jìn)行評測本發(fā)明技術(shù)方案的有效性。數(shù)據(jù)庫I包含144張圖像,其中82張訓(xùn)練圖像和62張測試圖像。數(shù)據(jù)庫2包含300張圖像,以50張圖像為一份,分成了 6份。數(shù)據(jù)庫2的標(biāo)準(zhǔn)測試方法采用6折交叉驗證:測試時輪流將其中I份作為訓(xùn)練圖像集,另外5份為測試圖像集。附圖7是在按照本發(fā)明的技術(shù)方案,在數(shù)據(jù)庫I上以82張訓(xùn)練圖像訓(xùn)練獲得粗略標(biāo)注的分類器,并對62張測試圖像進(jìn)行分類標(biāo)注獲得的混淆矩陣。與該混淆矩陣相對應(yīng)的本發(fā)明的分類標(biāo)注精確度為92%,即在測試圖像集上,92%的圖像像素被正確分類標(biāo)注,而該數(shù)據(jù)庫的分類標(biāo)注精確度的基準(zhǔn)線為87%。圖8是按照本發(fā)明的技術(shù)方案在數(shù)據(jù)庫2上以6折交叉驗證的方式獲得的分類標(biāo)注結(jié)果的精確度和現(xiàn)有技術(shù)在該數(shù)據(jù)庫上分類標(biāo)注結(jié)果的對比。數(shù)據(jù)顯示,在標(biāo)準(zhǔn)測試數(shù)據(jù)庫2上,分類標(biāo)注精確度的基準(zhǔn)線為86.0%,目前最好的分類標(biāo)注結(jié)果為88.9%,而本發(fā)明的分類方法獲得的分類標(biāo)注結(jié)果的精確度為88.7%。結(jié)果表明,本發(fā)明的分類方法可以獲得和現(xiàn)有技術(shù)具有可比性的分類標(biāo)注精確度。需要注意的是:就圖像特征而言,本發(fā)明僅使用了少量有效的圖像特征;就分類標(biāo)注模型而言,本發(fā)明僅采用單分類器模型。因此在獲得和現(xiàn)有技術(shù)具有可比性的分類標(biāo)注精確度的基礎(chǔ)上,相較于現(xiàn)有技術(shù)需要使用更多圖像特征以及需要構(gòu)建復(fù)雜的分類模型的而言,本發(fā)明提出的技術(shù)方案顯得更為簡單,復(fù)雜度低,易于實現(xiàn)。圖9是按照本發(fā)明的技術(shù)方案在數(shù)據(jù)庫I和數(shù)據(jù)庫2上采用支持向量機(jī)為分類器進(jìn)行粗略標(biāo)注獲得的分類標(biāo)注精確度和采用圖像分割算法進(jìn)行標(biāo)注結(jié)果修正的精確度的對比。數(shù)據(jù)顯示,在數(shù)據(jù)庫I和數(shù)據(jù)庫2上標(biāo)注結(jié)果修正后的精確度比粗略標(biāo)注的精確度分別提高4.6 %和3.5 %。結(jié)果表明,通過本發(fā)明提出的利用圖像分割算法對粗略標(biāo)注結(jié)果進(jìn)行修正的方法可以有效地提高分類標(biāo)注的精確度。
[0097]通過以上的實施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到上述實施例可以通過軟件實現(xiàn),也可以借助軟件加必要的通用硬件平臺的方式來實現(xiàn)?;谶@樣的理解,上述實施例的技術(shù)方案可以以軟件產(chǎn)品的形式體現(xiàn)出來,該軟件產(chǎn)品可以存儲在一個非易失性存儲介質(zhì)(可以是⑶-ROM,U盤,移動硬盤等)中,包括若干指令用以使得一臺計算機(jī)設(shè)備(可以是個人計算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明實施例所述的方法。
[0098]以上所述,僅為本發(fā)明較佳的【具體實施方式】,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本【技術(shù)領(lǐng)域】的技術(shù)人員在本發(fā)明披露的技術(shù)范圍內(nèi),可輕易想到的變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求書的保護(hù)范圍為準(zhǔn)。
【權(quán)利要求】
1.一種全自動的基于單幅圖像的三維場景構(gòu)建方法,其特征在于包括以下步驟: 步驟1:利用訓(xùn)練圖像集獲得能夠進(jìn)行圖像幾何區(qū)域劃分的分類器; 圖像幾何區(qū)域劃分的分類器是基于機(jī)器學(xué)習(xí)獲得的,首先需要收集訓(xùn)練圖像集,然后利用訓(xùn)練圖像集獲得一組訓(xùn)練樣本,最后利用訓(xùn)練樣本訓(xùn)練分類器;所述訓(xùn)練樣本的是在訓(xùn)練圖像集上獲得,包括樣本標(biāo)注和樣本提??; 所述樣本標(biāo)注是指對訓(xùn)練圖像集里面的每一幅圖進(jìn)行幾何區(qū)域的標(biāo)注,即把每一幅圖像的整個區(qū)域劃分成多個幾何子區(qū)域,每個幾何子區(qū)域應(yīng)當(dāng)歸屬為三種類別中的一種,這三種類別分別是:豎立區(qū)域、地面區(qū)域和天空區(qū)域; 經(jīng)過樣本標(biāo)注后,需要提取真正用于訓(xùn)練的樣本集;為了盡可能精確的對圖像區(qū)域進(jìn)行幾何子區(qū)域的劃分,以30*40的矩形塊作為樣本單元,把每一幅圖像以10為間隔步長劃分成一系列具有一定重疊區(qū)域的30*40的樣本矩形塊;對于每個樣本矩形塊,提取1031維的樣本特征;對于每一幅訓(xùn)練圖像獲得一組訓(xùn)練樣本(一個訓(xùn)練樣本集),而所有訓(xùn)練圖像的訓(xùn)練樣本集形成最終的訓(xùn)練樣本集; 提取了訓(xùn)練樣本集,采用有監(jiān)督的訓(xùn)練方式獲得能夠進(jìn)行圖像幾何區(qū)域劃分的分類器,即采用支持向量機(jī)SVM(Support Vector Machine)分類器,訓(xùn)練得到的模型能夠輸出一個測試樣本分別屬于三種類別的概率; 步驟2:利用訓(xùn)練得到的分類器對用戶輸入的圖像進(jìn)行幾何區(qū)域的劃分,得到粗略分類標(biāo)注的結(jié)果; 輸入一幅圖像,先以10為間隔步長將圖像區(qū)域劃分成一系列具有一定重疊區(qū)域的30*40的樣本矩形塊,對于每一個樣本矩形塊提取1031維度的樣本特征;對于每一個樣本矩形塊,分類器根據(jù)其1031維的樣本特征,輸出該樣本分別屬于三種類別的概率=P(VlPi)、P (g I Pi)和P (S I Pi),其中P (V I Pi)表示樣本Pi屬于豎立區(qū)域的概率,P (g I Pi)和P (S I Pi)分別表示樣本Pi屬于地面區(qū)域和天空區(qū)域的概率; 對于每一個決策單元G其屬于三種類別的概率由N個包含該決策單元的樣本矩形塊的類別共同決定,每一個決策單元&其屬于三種類別的概率計算為:
其中N表示包含決策單元&的樣本矩形塊的個數(shù),Pi表示N個矩形塊中的某個,從而獲得決策單元G分別屬于三種類別的概率大?。籶(v|Cj表示決策單元&屬于豎立區(qū)域的概率,P (g I CJ和P (s| CJ分別表示決策單元屬于地面區(qū)域和天空區(qū)域的概率; 當(dāng)且僅當(dāng)決策單元&屬于某種類別的概率P* > 0.5時,才標(biāo)注該決策單元為該所述屬類別,否則將其標(biāo)注為未知類別; 步驟3:利用基于GrabCut圖像分割算法修正步驟2中獲得的粗略分類標(biāo)注結(jié)果,并優(yōu)化圖像幾何區(qū)域之間的邊界,獲得圖像幾何區(qū)域之間精準(zhǔn)的邊界; 利用基于GrabCut圖像分割算法時,以粗略分類結(jié)果中“可信的”的區(qū)域作為GrabCut的初始輸入進(jìn)行全自動地優(yōu)化粗略標(biāo)注結(jié)果;所述“可信”區(qū)域為具有較大可能性屬于某種類別的像素的集合,即屬于某種類別的概率大于0.5且在屬于該類別的所有像素集合中屬于概率較大的前90% ;對于每一個類別均計算相應(yīng)的“可信”區(qū)域,獲得對于圖像區(qū)域中某種類別P*的“可信”區(qū)域;基于粗略分類標(biāo)注的“可信”區(qū)域,利用GrabCut圖像分割算法的輸出來修正粗略分類標(biāo)注的結(jié)果,以獲得圖像中幾何區(qū)域之間精準(zhǔn)的邊界; 步驟4:針對步驟3輸出的標(biāo)注結(jié)果,利用計算機(jī)圖形學(xué)的方法進(jìn)行三維場景的建模,提供用戶具有真實感的三維場景漫游; 根據(jù)圖像中幾何區(qū)域之間精準(zhǔn)的邊界信息,把圖像區(qū)域裁剪成不同的幾何區(qū)域;在設(shè)定相機(jī)參數(shù)的基礎(chǔ)上,通過參考地面引入相對深度信息,從而恢復(fù)出圖像場景中幾何區(qū)域的重要頂點(diǎn)的三維坐標(biāo);最終利用平面近似各個幾何子區(qū)域,并把各個區(qū)域按照幾何關(guān)系放置在三維場景中,從而生成具有真實感的三維場景漫游。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于:所述步驟I中,1031維的樣本特征包括:1000維的Bag of Visual Words特征、30維的顏色特征和I維的位置特征。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于:所述步驟I中,SVM分類器中的基函數(shù)選為徑向基函數(shù),模型類別選為多類別的分類器,概率估計參數(shù)b設(shè)置為1,即訓(xùn)練得到的分類器能夠輸出一個測試樣本分別屬于三種類別的概率。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于:所述步驟3具體實現(xiàn)為: (1)中對于圖像區(qū)域中某種類別P*的“可信”區(qū)域的計算方法為: >對粗略標(biāo)注結(jié)果中屬于該類別P*的所有像素按照它們屬于該類別的概率大小降序排列,移除概率較小的像素,其百分比為k% ; >產(chǎn)生一個與P*對應(yīng)的二值模板圖像MyM*和原圖大小一樣,凡屬于集合P*中的像素,其在模板圖像的對應(yīng)像素位置值為1,否則值為O ; >檢測模板圖像中的連通區(qū)域,對于連通區(qū)域內(nèi)部存在的面積小于A的O值區(qū)域,以I值覆蓋填充; <以大小為β的結(jié)構(gòu)元素腐蝕模板圖像隊,對于被腐蝕的像素視為可能屬于該類別的像素,其集合記為#,經(jīng)過腐蝕后模板圖像Μ,中值為I的像素,視為該類別的“可信”像素,其集合記為P ; 根據(jù)所述的計算“可信”區(qū)域的方法分別獲得三種類別的“可信”像素集<、iT和f以及“可能”像素集〃、〃和C,計算參數(shù)分別為:對于豎立區(qū)域,k,A,β分別取10,5000,20,針對地面區(qū)域和天空區(qū)域,k, A, β取分另Ij O, 5000,10 ; (2)GrabCut算法進(jìn)行全自動地優(yōu)化粗略標(biāo)注結(jié)果的實現(xiàn)為: 根據(jù)所述的“可信”像素集和“可能”像素集分別對每個類別進(jìn)行單獨(dú)分割,對三類中某個類別的單獨(dú)分割,計算方法為:將該類別區(qū)域視為前景,另外兩個類別區(qū)域視為背景,即將該類別中“可信”的像素視為前景像素,另外兩個類別的“可信”像素視為背景像素,并將該類別中的“可能”像素視為可能的前景,而剩下的所有其他像素均看作可能的背景;利用上述信息初始化GrabCut分割算法,分別建立前景和背景的混合高斯模型,經(jīng)過分割后可以獲得以某類別區(qū)域為前景的單獨(dú)分割結(jié)果; 根據(jù)所述的單獨(dú)分割的結(jié)果進(jìn)一步優(yōu)化標(biāo)注結(jié)果,方法為:在三步單獨(dú)分割結(jié)果的基礎(chǔ)上,按照單獨(dú)分割豎立區(qū)域的方法,再次以豎立區(qū)域為前景進(jìn)行前景背景的分離從而獲得最終的圖像分割結(jié)果; 根據(jù)天空和地面單獨(dú)分割的結(jié)果可以大致估計出地平線的位置,利用地平線將最終的圖像分割結(jié)果中的背景區(qū)域劃分成天空和地面區(qū)域,其方法為:位于地平線之上的背景區(qū)域標(biāo)注為天空區(qū)域,位于地平線之下的背景區(qū)域標(biāo)注為地面區(qū)域。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于:在所述的圖像幾何區(qū)域標(biāo)注的結(jié)果之上,利用計算機(jī)圖形學(xué)的方法進(jìn)行三維場景的建模,提供用戶具有真實感的三維場景漫游,包括: 根據(jù)所述的圖像幾何區(qū)域標(biāo)注結(jié)果,獲得圖像幾何區(qū)域之間的精準(zhǔn)邊界,用Douglas-Peucker算法對地面和豎立區(qū)域的邊界用多邊形近似獲得邊界的擬合多邊形; 利用計算機(jī)圖形學(xué)的方法進(jìn)行三維場景的建模,包括: (1)對所述的場景建模,使用針孔相機(jī)模型,光軸通過圖像中心,世界坐標(biāo)系和相機(jī)坐標(biāo)系重合,相機(jī)視野設(shè)置為1.431rad ; (2)利用參考地平面,獲得場景中重要頂點(diǎn)的三維坐標(biāo),方法為:引入?yún)⒖嫉仄矫?,地平面的高度設(shè)置為-5 ;根據(jù)上述建模信息獲得投影矩陣,在地面高度確定的條件下,通過反投影,計算出圖像中地面區(qū)域的每個像素所對應(yīng)的在三維場景中的三維坐標(biāo),獲得地面區(qū)域和豎立區(qū)域邊界點(diǎn)的三維坐標(biāo); (3)根據(jù)所述的地面區(qū)域和豎立區(qū)域邊界點(diǎn)的三維坐標(biāo)以及地面區(qū)域和豎立區(qū)域邊界的擬合多邊形,獲得一系列豎直平面,方法為:將地面區(qū)域和豎立區(qū)域邊界的擬合多邊形上的每一條折線視為某個豎直平面和地面的區(qū)域的交線,每個豎直平面的上邊界由所述的圖像標(biāo)注結(jié)果中豎立區(qū)域和天空區(qū)域的邊界確定; (4)對所述的豎直平面和地面區(qū)域,利用紋理映射獲得具有真實感的三維場景模型;真實感的場景漫游包括:變換相機(jī)的視角、調(diào)節(jié)焦距和變換觀察位置觀察場景模型。
【文檔編號】G06T17/00GK104134234SQ201410340189
【公開日】2014年11月5日 申請日期:2014年7月16日 優(yōu)先權(quán)日:2014年7月16日
【發(fā)明者】陳雪錦, 王貴杭, 胡思宇 申請人:中國科學(xué)技術(shù)大學(xué)