本發(fā)明涉及一種基于信息邊緣和多模態(tài)特征的室內(nèi)場(chǎng)景布局估計(jì)方法,特別涉及一種基于信息邊緣由粗到精布局候選項(xiàng)生成和多模態(tài)異構(gòu)特征融合的室內(nèi)場(chǎng)景布局估計(jì)方法。
背景技術(shù):
:圖像場(chǎng)景理解是計(jì)算機(jī)視覺研究中的一項(xiàng)必要工作,籠統(tǒng)的來說,場(chǎng)景理解就是一個(gè)對(duì)傳感器捕捉的場(chǎng)景、通過一系列視覺信息和知識(shí)信息的處理分析、最終得到圖像語(yǔ)義解釋的過程。圖像場(chǎng)景理解其實(shí)是一種相對(duì)寬泛的概念,它包含了計(jì)算機(jī)視覺里的諸多研究范圍和應(yīng)用領(lǐng)域,諸如圖像搜索引擎、自動(dòng)導(dǎo)航、計(jì)算機(jī)攝影、圖像視覺、人機(jī)交互、虛擬現(xiàn)實(shí)以及其他應(yīng)用上的需求。圖像場(chǎng)景理解有著廣泛的應(yīng)用前景和巨大的經(jīng)濟(jì)商業(yè)價(jià)值,能更好的提高人們的生活質(zhì)量。在這些需求的推動(dòng)下,基于視覺的圖像場(chǎng)景理解能夠有效地幫助和提高計(jì)算機(jī)對(duì)于復(fù)雜多變室內(nèi)外場(chǎng)景的分析和認(rèn)知能力,是計(jì)算機(jī)視覺領(lǐng)域研究的最終愿景?,F(xiàn)實(shí)世界中,室內(nèi)場(chǎng)景作為人類的主要生活場(chǎng)所,與室外場(chǎng)景相比具有更重要的地位。室內(nèi)場(chǎng)景布局估計(jì)是圖像場(chǎng)景理解的重要研究?jī)?nèi)容,是全局場(chǎng)景理解的分支?;灸繕?biāo)是通過給定的圖像把握其所示場(chǎng)景空間中的幾何結(jié)構(gòu)。比如在智能家居中設(shè)計(jì)移動(dòng)機(jī)器人,機(jī)器人通過攝像頭看到的畫面是室內(nèi)二維圖像,如何通過這個(gè)場(chǎng)景圖像判斷室內(nèi)各個(gè)物體的位置和尺寸?如何判斷機(jī)器人自由安全的行走路徑?如何分析機(jī)器人工作的內(nèi)容范圍?這些都需要其能理解未知環(huán)境空間的結(jié)構(gòu)化幾何信息。本文室內(nèi)場(chǎng)景的布局估計(jì)是對(duì)這方面的研究,可以說室內(nèi)場(chǎng)景布局估計(jì)是計(jì)算機(jī)視覺領(lǐng)域的基礎(chǔ)研究,為更高層級(jí)的研究和應(yīng)用打下了堅(jiān)實(shí)的基礎(chǔ),已成為計(jì)算機(jī)視覺領(lǐng)域的研究熱點(diǎn)。在透視投影理論下,室內(nèi)場(chǎng)景布局估計(jì)問題的方法主要在模型設(shè)計(jì)和特征選取兩方面有不同。模型建立方面,文獻(xiàn)[hoiemd,efrosaa,hebertm."recoveringsurfacelayoutfromanimage,"ininternationaljournalofcomputervision,75(1):151-172,2007]通過消失點(diǎn)產(chǎn)生投影射線,以投影射線夾角的角度形式化此類問題,整個(gè)模型主要有三個(gè)步驟:提取蘊(yùn)含空間布局有用視覺線索的特征(如消失點(diǎn)、特征直線以及三維點(diǎn)云等);產(chǎn)生場(chǎng)景空間盒布局候選集;選取最好的空間結(jié)構(gòu)化布局。文獻(xiàn)[wangh,goulds,rollerd."discriminativelearningwithlatentvariablesforclutteredindoorsceneunderstanding,"incommunicationsoftheacm,56(4):92-99,2013.]中加入隱變量的概念計(jì)算雜亂,將室內(nèi)空間中的家居和裝飾品等雜亂都定義為隱變量,文獻(xiàn)[jianzhang;chenkan;schwing,a.g.;urtasun,r.,"estimatingthe3dlayoutofindoorscenesanditsclutterfromdepthsensors,"inieeeinternationalconferenceon,vol.,no.,pp.1273-1280,1-8dec.2013.]將室內(nèi)場(chǎng)景中的布局與雜物放在同一個(gè)模型框架下進(jìn)行聯(lián)合預(yù)測(cè),文獻(xiàn)[chaoyw,choiw,pantofaruc,etal.“l(fā)ayoutestimationofhighlyclutteredindoorscenesusinggeometricandsemanticcues,”ininternationalconferenceonimageanalysisandprocessing:489-499,2013.]利用空間中人的視角和物體的三維幾何關(guān)系來約束消失點(diǎn)。傳統(tǒng)的特征主要分為線結(jié)構(gòu)特征和區(qū)域特征,比如消失點(diǎn)、消失線和邊界檢測(cè)特征都是線結(jié)構(gòu)特征;外觀、紋理、幾何上下文和方向圖等都是基于像素或者像素塊的區(qū)域特征。文獻(xiàn)liu,f.,etal."learningdepthfromsinglemonocularimagesusingdeepconvolutionalneuralfields,"inieeetransactionsonpatternanalysis&machineintelligence38.10:1-1,2015]引入了深度特征;文獻(xiàn)[dollar,p.;zitnick,c.l.,"structuredforestsforfastedgedetection,"inieeeinternationalconferenceon,vol.,no.,pp.1841-1848,1-8dec.2013.]提出了結(jié)構(gòu)化森林的方法提取邊界線結(jié)構(gòu)特征,文獻(xiàn)[mallyaa,lazebniks.learninginformativeedgemapsforindoorscenelayoutprediction.internationalconferenceoncomputervision.2015:936-944.]提出的fcn結(jié)構(gòu)模型將邊緣線特征通過學(xué)習(xí),得出信息邊緣圖用于生成布局檢測(cè)的特征。技術(shù)實(shí)現(xiàn)要素:針對(duì)上述方法難于弱化圖像中家居等生活用品對(duì)候選項(xiàng)的干擾及未充分利用多特征和特征基元間二元關(guān)系問題,本發(fā)明提供一種基于信息邊緣和多模態(tài)特征的室內(nèi)場(chǎng)景布局估計(jì)方法,利用信息邊緣由粗到精生成候選項(xiàng)并基于區(qū)域多特征推論布局估計(jì)的分步室內(nèi)場(chǎng)景布局估計(jì)框架。本發(fā)明針對(duì)圖像用邊緣檢測(cè)提取直線段由此估計(jì)出圖像消失點(diǎn),從消失點(diǎn)出發(fā)做采樣射線粗劃分圖像區(qū)域;用全卷積神經(jīng)網(wǎng)絡(luò)(fcns)獲取信息邊緣圖,選取圖中能量較高區(qū)域并細(xì)采樣產(chǎn)生布局候選項(xiàng);基于積分幾何提取圖像的線段、幾何上下文、深度、法向量特征;考慮布局候選項(xiàng)與區(qū)域級(jí)特征一元和二元的映射關(guān)系,設(shè)計(jì)布局估計(jì)的結(jié)構(gòu)化回歸模型,引入結(jié)構(gòu)化學(xué)習(xí)算法,能量函數(shù)最小的即為室內(nèi)場(chǎng)景布局估計(jì)。本發(fā)明為解決上述技術(shù)問題采用以下技術(shù)方案:本發(fā)明提供一種基于信息邊緣和多模態(tài)特征的室內(nèi)場(chǎng)景布局估計(jì)方法,包括以下具體步驟:步驟a,針對(duì)室內(nèi)場(chǎng)景圖像,根據(jù)檢測(cè)出的邊緣直線段進(jìn)行消失點(diǎn)估計(jì),從消失點(diǎn)出發(fā)以設(shè)定第一采樣頻率對(duì)場(chǎng)景圖像區(qū)域進(jìn)行粗劃分;步驟b,針對(duì)室內(nèi)場(chǎng)景圖像,采用卷積神經(jīng)網(wǎng)絡(luò)獲取場(chǎng)景圖像的信息邊緣圖,選取步驟1中粗劃分后場(chǎng)景圖像區(qū)域中能量高出設(shè)定閾值的區(qū)域,并對(duì)該區(qū)域進(jìn)行以設(shè)定第二采樣頻率進(jìn)行細(xì)劃分,產(chǎn)生布局候選項(xiàng);步驟c,針對(duì)室內(nèi)場(chǎng)景圖像,提取其線組成員、幾何上下文、深度、法向量特征,并采用積分幾何累加計(jì)算方法對(duì)四個(gè)特征進(jìn)行累加,得到場(chǎng)景圖像的區(qū)域級(jí)特征;步驟d,根據(jù)布局候選項(xiàng)到特征的一元和二元映射關(guān)系,設(shè)計(jì)布局估計(jì)的結(jié)構(gòu)化回歸模型,引入結(jié)構(gòu)化學(xué)習(xí)算法對(duì)結(jié)構(gòu)化回歸模型進(jìn)行訓(xùn)練學(xué)習(xí),通過訓(xùn)練學(xué)習(xí)完成的模型進(jìn)行室內(nèi)場(chǎng)景布局估計(jì)。作為本發(fā)明的進(jìn)一步技術(shù)方案,a1,針對(duì)室內(nèi)場(chǎng)景圖像,利用邊緣檢測(cè)算子對(duì)其進(jìn)行邊緣檢測(cè)以獲取場(chǎng)景圖像中的邊緣輪廓,并設(shè)定長(zhǎng)度閾值篩選出邊緣輪廓中的直線段;a2,采用rother’s算法的投票策略,根據(jù)a1中獲得的直線段進(jìn)行消失點(diǎn)估計(jì),得到空間直角坐標(biāo)系中x、y、z方向上的三個(gè)正交消失點(diǎn);a3,分別從x、y方向上的消失點(diǎn)出發(fā),以z方向上的消失點(diǎn)為參照,等角度間隔、以設(shè)定第一采樣頻率做出射線對(duì)場(chǎng)景圖像區(qū)域進(jìn)行粗劃分。作為本發(fā)明的進(jìn)一步技術(shù)方案,步驟a1中邊緣檢測(cè)算子為canny算子或roberts算子或sobel算子或prewitt算子。作為本發(fā)明的進(jìn)一步技術(shù)方案,步驟a2中采用rother’s算法的投票策略,根據(jù)a1中獲得的直線段進(jìn)行消失點(diǎn)估計(jì),具體為:1)將a1中獲得的篩選后的直線段進(jìn)行x、y、z方向上線段的劃分,分別用于估計(jì)x、y、z方向上的消失點(diǎn);2)x方向的線段集合記為{lvi},1≤i≤n,n為x上的線段數(shù)目,pk為{lvi}中線段兩兩相交的形成第k個(gè)交點(diǎn),1≤k≤k,k為{lvi}中線段兩兩相交的形成的交點(diǎn)數(shù)目,則第i個(gè)x方向線段lvi對(duì)pk的得分貢獻(xiàn)為:其中,α表示lvi與pk和lvi中點(diǎn)的連線之間的夾角,γ是設(shè)定閾值;3)將所有x方向線段對(duì)pk的得分貢獻(xiàn)進(jìn)行求和,得到pk的得分4)所有k個(gè)交點(diǎn)中得分最高的即為x方向上的消失點(diǎn)vp1;5)基于如2)至4)中相同的投票得分機(jī)制,分別獲得y方向上的消失點(diǎn)vp2與z方向上的消失點(diǎn)vp3。作為本發(fā)明的進(jìn)一步技術(shù)方案,步驟b具體為:b1,針對(duì)室內(nèi)場(chǎng)景圖像,利用全卷積神經(jīng)網(wǎng)絡(luò)、通過多個(gè)卷積層提取圖像像素級(jí)的特征圖,并將最后一層的特征圖用反卷積層進(jìn)行上采樣,產(chǎn)生信息邊緣圖和幾何上下文標(biāo)簽圖;b2,分別統(tǒng)計(jì)步驟a中粗劃分后的每個(gè)場(chǎng)景圖像區(qū)域中的能量項(xiàng)高于設(shè)定能量閾值的數(shù)量;b3,以z方向上的消失點(diǎn)作為參考點(diǎn),在其上、下、左、右四個(gè)方向各選取一個(gè)能量項(xiàng)數(shù)量最高的區(qū)域;b4,分別計(jì)算b3中選取的四個(gè)區(qū)域上兩條射線的夾角角度,并以設(shè)定第二采樣頻率作出細(xì)采樣射線對(duì)每個(gè)夾角進(jìn)行等角度間隔劃分,各細(xì)采樣射線間的交點(diǎn)形成布局候選項(xiàng)的中墻角點(diǎn),產(chǎn)生布局候選項(xiàng)。作為本發(fā)明的進(jìn)一步技術(shù)方案,步驟b1中采用caffe深度學(xué)習(xí)基于vgg-16的全卷積神經(jīng)網(wǎng)絡(luò),產(chǎn)生信息邊緣圖和幾何上下文標(biāo)簽圖。作為本發(fā)明的進(jìn)一步技術(shù)方案,步驟c具體為:c1,線組成員特征和幾何上下文特征即為分別由步驟a1中獲得的直線段信息和步驟b1獲得的幾何上下文信息;c2,基于單一多尺度卷積網(wǎng)絡(luò)結(jié)構(gòu),在像素級(jí)別獲取室內(nèi)場(chǎng)景圖像的深度特征和表面法向量特征;c3,采用積分幾何累加計(jì)算方法,累加計(jì)算c1和c2中獲取的所有特征,得到場(chǎng)景圖像的區(qū)域級(jí)特征。作為本發(fā)明的進(jìn)一步技術(shù)方案,步驟d具體為:d1,基于步驟b中產(chǎn)生的布局候選項(xiàng),將步驟c3中的區(qū)域級(jí)特征映射到布局候選項(xiàng)多邊形中形成一元映射特征,基于室內(nèi)墻面間的位置設(shè)計(jì)布局候選項(xiàng)空間約束關(guān)系,形成二元映射特征;d2,將布局估計(jì)問題轉(zhuǎn)化為步驟b中產(chǎn)生的場(chǎng)景布局候選項(xiàng)的最優(yōu)選取問題,定義結(jié)構(gòu)化回歸問題模型,其目標(biāo)函數(shù)為:其中,y*表示最優(yōu)的布局估計(jì),f(x,y;ω)表示室內(nèi)場(chǎng)景圖像x和其布局候選項(xiàng)y之間的映射關(guān)系,ω表示權(quán)重向量,ω=ωo+ωb;f={左墻,右墻,前墻,天花板,地面},yα和yβ均表示布局候選項(xiàng)y中的多邊形,表示一元特征的權(quán)重向量,ψo(hù)(x,yα)表示針對(duì)布局候選項(xiàng)多邊形提取的區(qū)域級(jí)特征,表示二元特征的權(quán)重向量,ψb(yα,yβ)表示候選項(xiàng)多邊形兩兩之間的位置關(guān)系的區(qū)域級(jí)特征;d3,根據(jù)布局候選項(xiàng)與基準(zhǔn)圖像之間的關(guān)系,設(shè)計(jì)基于多邊形面缺失、多邊形質(zhì)心位置和多邊形像素誤差和三方面的損失函數(shù);d4,根據(jù)特征映射關(guān)系和損失函數(shù),采用結(jié)構(gòu)化svm的學(xué)習(xí)算法對(duì)結(jié)構(gòu)化回歸問題模型進(jìn)行訓(xùn)練學(xué)習(xí),求解權(quán)重參數(shù),完成結(jié)構(gòu)化回歸問題模型的訓(xùn)練學(xué)習(xí);d5,將d4中完成訓(xùn)練學(xué)習(xí)的結(jié)構(gòu)化回歸問題模型,用測(cè)試圖像進(jìn)行測(cè)試。作為本發(fā)明的進(jìn)一步技術(shù)方案,步驟d3中的損失函數(shù)為:δ(yi,y)=δt(yi,y')+δc(yi,y')+δp(yi,y')δt(yi,y')=∑k∈[1,5]δ(fik,fk)δc(yi,y')=∑k∈[1,5]||cik-ck||2其中,y'表示基準(zhǔn)布局,yi表示第i個(gè)布局候選項(xiàng);fk∈{f1,f2,f3,f4,f5}表示基準(zhǔn)布局標(biāo)注表示,f1表示地面,f2表示中墻,f3表示右墻,f4表示左墻,f5表示天花板;fik∈{fi1,fi2,fi3,fi4,fi5}是第i個(gè)布局候選項(xiàng)標(biāo)注表示,1≤i≤i,i表示訓(xùn)練圖像集中室內(nèi)場(chǎng)景圖像的數(shù)目,fi1表示地面,fi2表示中墻,fi3表示右墻,fi4表示左墻,fi5表示天花板;δt(yi,y')表示多邊形面缺失誤差和,以判斷布局中是否有多邊形缺失;δ(fik,fk)是激勵(lì)函數(shù),當(dāng)基準(zhǔn)圖像多邊形存在而候選項(xiàng)多邊形不存在、或者基準(zhǔn)圖像多邊形不存在而候選項(xiàng)多邊形存在時(shí)激勵(lì)函數(shù)置1,當(dāng)候選項(xiàng)多邊形和基準(zhǔn)圖像多邊形同時(shí)存在或者同時(shí)不存在則激勵(lì)函數(shù)置0;δc(yi,y')表示多邊形質(zhì)心位置誤差和,cik表示第i個(gè)布局候選項(xiàng)中第k個(gè)多邊形區(qū)域面的質(zhì)心,ck表示圖像基準(zhǔn)布局第k個(gè)多邊形區(qū)域面的質(zhì)心;δp(yi,y')表示多邊形像素誤差和,以檢測(cè)是否完整覆蓋。作為本發(fā)明的進(jìn)一步技術(shù)方案,步驟d4具體為:將目標(biāo)函數(shù)轉(zhuǎn)化為以下問題:ωtψ(xi,yi)-ωtψ(xi,y')≥δ(yi,y')-ξi,其中,xi表示訓(xùn)練圖像集中第i個(gè)室內(nèi)場(chǎng)景圖像,ξi是xi松弛變量;c是比例系數(shù);權(quán)重向量ω=ωo+ωb;y表示xi經(jīng)過步驟a和b后得到的布局候選項(xiàng)集合,yi表示集合y中的元素,y'表示基準(zhǔn)標(biāo)注布局,ψ(xi,yi)表示xi對(duì)應(yīng)的布局候選項(xiàng)yi所提取的特征,ψ(xi,y')表示xi對(duì)應(yīng)的基準(zhǔn)標(biāo)注布局y所提取的特征,δ(yi,y')表示用于量化yi和y'兩種布局之間的測(cè)度的損失函數(shù)。本發(fā)明采用以上技術(shù)方案與現(xiàn)有技術(shù)相比,具有以下技術(shù)效果:(1)本發(fā)明基于消失點(diǎn)設(shè)計(jì)由粗到精估計(jì)布局候選項(xiàng)的框架,由消失點(diǎn)粗劃分場(chǎng)景圖像區(qū)域,利用全卷積網(wǎng)絡(luò)產(chǎn)生的信息邊緣圖選取能量項(xiàng)概率最高區(qū)域,最后對(duì)該區(qū)域進(jìn)行采樣細(xì)化分,產(chǎn)生布局候選項(xiàng);該方法能縮小布局候選項(xiàng)可能的區(qū)域范圍并能提高候選項(xiàng)產(chǎn)生的精度,得到更好的估計(jì)結(jié)果;(2)本發(fā)明在原有特征的基礎(chǔ)上引入對(duì)空間方向有約束的法向量特征和與空間距離有關(guān)的深度特征,同時(shí)考慮候選項(xiàng)多邊形間的空間位置關(guān)系,使得有更好的特征進(jìn)行模型參數(shù)學(xué)習(xí)和模型推論以獲取更佳的布局候選項(xiàng)。附圖說明圖1是本專利方法的流程示意圖。圖2是信息邊緣估計(jì)全卷積神經(jīng)網(wǎng)絡(luò)模型框架圖。圖3多尺度卷積神經(jīng)網(wǎng)絡(luò)模型圖。具體實(shí)施方式下面結(jié)合附圖對(duì)本發(fā)明的技術(shù)方案做進(jìn)一步的詳細(xì)說明:如圖1所示,本發(fā)明公開了一種基于信息邊緣由粗到精布局候選項(xiàng)生成和多模態(tài)異構(gòu)特征融合的室內(nèi)場(chǎng)景布局估計(jì)方法。首先,針對(duì)室內(nèi)場(chǎng)景圖像使用自適應(yīng)閾值邊緣檢測(cè)算子提取場(chǎng)景直線段,根據(jù)直線段的方向聚類估計(jì)得到場(chǎng)景圖像消失點(diǎn),從水平和豎直方向消失點(diǎn)出發(fā)等角度間隔引出離散采樣射線粗劃分整個(gè)場(chǎng)景圖像區(qū)域;然后,采用vgg-16全卷積神經(jīng)網(wǎng)絡(luò)得到室內(nèi)場(chǎng)景圖像信息邊緣能量圖,基于信息邊緣圖和圖像粗劃分區(qū)域從水平和豎直角度分別選取圖中能量較高的區(qū)域,細(xì)采樣所選區(qū)域產(chǎn)生布局候選項(xiàng);接著,利用空間多尺度vgg-16卷積神經(jīng)網(wǎng)絡(luò),得到場(chǎng)景圖像表面的方向法向量和幾何深度特征,結(jié)合場(chǎng)景圖像結(jié)構(gòu)底層的線組成員特征和語(yǔ)義屬性的幾何上下文特征,采用積分幾何累加計(jì)算方法得到場(chǎng)景圖像區(qū)域級(jí)的特征;最后,結(jié)合場(chǎng)景布局候選項(xiàng)多邊形一元共生呈現(xiàn)與相應(yīng)多邊形區(qū)域之間二元約束關(guān)系,從候選項(xiàng)得分排序角度出發(fā)建模室內(nèi)布局估計(jì)問題;采用結(jié)構(gòu)化svm算法學(xué)習(xí)模型參數(shù);推理出得分最高的候選項(xiàng)即為室內(nèi)場(chǎng)景布局估計(jì)。本發(fā)明逐步縮小候選項(xiàng)生成區(qū)域,并結(jié)合多種模態(tài)特征對(duì)布局候選項(xiàng)進(jìn)行約束,提高了室內(nèi)估計(jì)布局精度。本發(fā)明利用信息邊緣的多特征室內(nèi)場(chǎng)景布局估計(jì)的框架,在實(shí)際應(yīng)用過程當(dāng)中,利用信息邊緣從粗到細(xì)產(chǎn)生候選項(xiàng),基于區(qū)域級(jí)多特征一二元關(guān)系進(jìn)行布局估計(jì),包括如下步驟:步驟a、針對(duì)室內(nèi)場(chǎng)景圖像,用邊緣檢測(cè)算子提取邊緣輪廓,篩選輪廓中的直線段并估計(jì)圖像消失點(diǎn),從消失點(diǎn)出發(fā)做采樣射線粗劃分場(chǎng)景圖像區(qū)域。其中,邊緣檢測(cè)算子有canny算子、roberts算子、sobel算子、prewitt算子等,本實(shí)施例中采用canny算子。步驟a1、利用canny算子邊緣檢測(cè)的方法對(duì)室內(nèi)場(chǎng)景圖像進(jìn)行處理,輸入場(chǎng)景圖像通過高斯濾波器獲取平滑效果,再對(duì)其進(jìn)行一階偏導(dǎo)的有限差分,計(jì)算出梯度的幅值和方向,僅僅得到全局的梯度并不足以確定邊緣,通過保留局部梯度最大的點(diǎn)抑制非極大值來確定邊緣,最后進(jìn)行雙閾值算法檢測(cè)和連接邊緣,以獲取場(chǎng)景圖像中的邊緣直線段。為了獲取消失點(diǎn)方向,本發(fā)明設(shè)計(jì)閾值只篩選出像素點(diǎn)長(zhǎng)度大于30的直線段,這樣每個(gè)圖像只需要計(jì)算約100-200條直線段。步驟a2、用rother’s算法的投票策略,計(jì)算點(diǎn)和線段間角度的偏差得分。本發(fā)明中,定義直線段l與候選消失點(diǎn)p的關(guān)系如下,其中,l表示線段,|l|表示線段長(zhǎng)度,α是直線段l和消失點(diǎn)p與直線段中點(diǎn)連線的夾角。γ是魯棒的閾值,在實(shí)驗(yàn)中設(shè)為γ=0.1。為了獲取消失點(diǎn)方向,太短的直線段方向性不強(qiáng)易造成實(shí)驗(yàn)的復(fù)雜度,所以篩選出像素點(diǎn)長(zhǎng)度大于30的直線段,這樣每個(gè)場(chǎng)景圖像只需要計(jì)算約100-200條直線段。所有的候選點(diǎn)都是三個(gè)一組的消失點(diǎn),檢測(cè)到的直線段相交形成的交點(diǎn)。使用一個(gè)交替貪婪策略選擇得票最高的點(diǎn),然后去除得票最高點(diǎn)對(duì)應(yīng)的消失線,在場(chǎng)景圖像平面上,將剩下的相交點(diǎn)從場(chǎng)景圖像中心向外延伸。消失點(diǎn)的位置誤差越靠近場(chǎng)景圖像的中心對(duì)盒布局的估計(jì)越重要,所以使用可變大小的變量。場(chǎng)景圖像中的大部分線都會(huì)位于三個(gè)正交方向中的一個(gè)上面,所以上述操作大大減少了搜索空間的復(fù)雜性并且對(duì)室內(nèi)場(chǎng)景的作用效果明顯。一旦最優(yōu)消失點(diǎn)被確定,場(chǎng)景圖像中所有檢測(cè)到的直線段都能夠?qū)R三個(gè)消失點(diǎn)中的一個(gè),投給同一個(gè)消失點(diǎn)的線段稱為線成員。通過消失點(diǎn)計(jì)算能選取空間直角坐標(biāo)系xyz方向上的三個(gè)正交消失點(diǎn)vp1,vp2,vp3,其中vp1是橫軸x方向消失點(diǎn),vp2是縱軸y方向消失點(diǎn),vp3是豎軸z方向消失點(diǎn)。本實(shí)施例中,根據(jù)a1中獲得的直線段進(jìn)行消失點(diǎn)估計(jì)的方法,具體為:1)將a1中獲得的篩選后的直線段進(jìn)行x、y、z方向上線段的劃分,分別用于估計(jì)x、y、z方向上的消失點(diǎn);2)x方向的線段集合記為{lvi},1≤i≤n,n為x上的線段數(shù)目,pk為{lvi}中線段兩兩相交的形成第k個(gè)交點(diǎn),1≤k≤k,k為{lvi}中線段兩兩相交的形成的交點(diǎn)數(shù)目,則第i個(gè)x方向線段lvi對(duì)pk的得分貢獻(xiàn)為:其中,α表示lvi與pk和lvi中點(diǎn)的連線之間的夾角,γ是設(shè)定閾值;3)將所有x方向線段對(duì)pk的得分貢獻(xiàn)進(jìn)行求和,得到pk的得分4)所有k個(gè)交點(diǎn)中得分最高的即為方向上的的消失點(diǎn)vp1;5)再基于如2)至4)中相同的投票得分機(jī)制,分別計(jì)算y方向和z方向上的直線段,即可得到最終的y方向的消失點(diǎn)vp2與z方向的消失點(diǎn)vp3。步驟a3、分別從消失點(diǎn)vp1和vp2出發(fā),以vp3為參照,等間距做出成對(duì)射線劃分場(chǎng)景圖像區(qū)域,其中,消失點(diǎn)射線的采樣頻率可以調(diào)整。本實(shí)施例中,為了粗劃分場(chǎng)景圖像區(qū)域,采樣頻率n=10,即分別從x方向和y方向做十條采樣射線。步驟b、采用基于vgg-16的全卷積神經(jīng)網(wǎng)絡(luò)獲取場(chǎng)景圖像信息邊緣圖,結(jié)合粗劃分場(chǎng)景圖像區(qū)域,選取圖中能量較高區(qū)域,并細(xì)采樣該區(qū)域產(chǎn)生布局候選項(xiàng)。步驟b1、針對(duì)輸入圖像,利用深度學(xué)習(xí)的基于vgg-16的全卷積神經(jīng)網(wǎng)絡(luò)框架,網(wǎng)絡(luò)框架如圖2所示,具體參數(shù)如表1所示,通過多個(gè)卷積層提取圖像像素級(jí)的特征圖,將最后一層的特征圖用反卷積層進(jìn)行上采樣,以獲取濃密的像素輸出,產(chǎn)生信息邊緣圖和幾何上下文標(biāo)簽圖。表1全卷積神經(jīng)網(wǎng)絡(luò)具體參數(shù)全卷積網(wǎng)絡(luò)(fcns)在像素標(biāo)注問題上有很好的表現(xiàn),本發(fā)明受其啟發(fā),聯(lián)合訓(xùn)練全卷積網(wǎng)絡(luò)完成兩個(gè)任務(wù):產(chǎn)生信息邊緣圖和產(chǎn)生幾何上下文標(biāo)簽圖。用caffe學(xué)習(xí)vgg-16結(jié)構(gòu)的全卷積網(wǎng)絡(luò),使用32像素預(yù)測(cè)步長(zhǎng)的fcn(fcn-32)訓(xùn)練nyudv2rgbd數(shù)據(jù)集中40類的室內(nèi)語(yǔ)義分割任務(wù)。原始的網(wǎng)絡(luò)有兩個(gè)輸入流,一個(gè)輸入rgb圖像,一個(gè)輸入深度特征,本文舍棄深度輸入層,使用剩下的rgb層初始化fcn網(wǎng)絡(luò)。然后在微調(diào)網(wǎng)絡(luò)的學(xué)習(xí)率基準(zhǔn)為10-4并且高動(dòng)量為0.99,新加入的最后一個(gè)卷積和反卷積層有一個(gè)更高的學(xué)習(xí)率設(shè)為10-3。通過共享fcn除反卷積層外的所有層來進(jìn)行聯(lián)合訓(xùn)練,在最后的反卷積層中,本發(fā)明產(chǎn)生對(duì)應(yīng)各自類別輸出結(jié)果的不同softmax概率圖。該網(wǎng)絡(luò)的總損失是兩個(gè)交叉熵分類損失的總和:一個(gè)是信息邊緣標(biāo)簽預(yù)測(cè),一個(gè)是幾何上下文標(biāo)簽預(yù)測(cè)。最終實(shí)驗(yàn)也證明聯(lián)合的損失優(yōu)化的確對(duì)信息邊界的精準(zhǔn)度有提高。步驟b2、利用步驟b1獲取的信息邊緣圖,結(jié)合粗劃分場(chǎng)景圖像區(qū)域,選取合適的能量項(xiàng)最高區(qū)域。信息邊緣圖中邊界信息具有較高能量,也反映出室內(nèi)場(chǎng)景圖像空間布局的信息。本發(fā)明以信息邊緣信息為先驗(yàn)條件,在消失射線劃分場(chǎng)景圖像區(qū)域后,分別計(jì)算步驟a中以vp1劃分和以vp2劃分的區(qū)域中各個(gè)區(qū)域所含高能項(xiàng)的數(shù)量。在信息邊緣圖中,每個(gè)像素點(diǎn)都有一個(gè)數(shù)值,表示該點(diǎn)能量項(xiàng)的大小,能量項(xiàng)數(shù)值區(qū)間在[0,1]之間,本發(fā)明中設(shè)置能量項(xiàng)>0.75的像素點(diǎn)為高能項(xiàng)。比較每個(gè)區(qū)域中所包含像素點(diǎn)能量項(xiàng)數(shù)值大小,統(tǒng)計(jì)各區(qū)域中高能項(xiàng)像素點(diǎn)的數(shù)值。最后,以vp3作為參考點(diǎn),將粗劃分的場(chǎng)景圖像區(qū)域劃分類成上、下、左、右四個(gè)方向類型,比較每個(gè)方向類型中區(qū)域高能項(xiàng)數(shù)量多少,在每個(gè)方向類型中都選取一個(gè)高能量項(xiàng)最多區(qū)域。步驟b3、分別計(jì)算步驟b2中選取的四個(gè)區(qū)域上兩條射線的夾角角度θ,夾角角度根據(jù)細(xì)采樣頻率m進(jìn)行等間距劃分,分別從消失點(diǎn)vp1和vp2出發(fā)以角度θ/m再次做出采樣射線,以細(xì)分概率較高的區(qū)域,其中,細(xì)采樣頻率可以根據(jù)需要選取。四個(gè)區(qū)域都進(jìn)行細(xì)采樣后,新射線的交點(diǎn)會(huì)形成布局估計(jì)候選項(xiàng)的中墻角點(diǎn),消失點(diǎn)vp3和四個(gè)角點(diǎn)的連線與場(chǎng)景圖像四周邊框相交,以產(chǎn)生布局候選項(xiàng)。步驟c、提取場(chǎng)景圖像的線組成員、幾何上下文、深度、法向量特征,采用積分幾何累加計(jì)算方法得到場(chǎng)景圖像區(qū)域級(jí)的特征。步驟c1、線組成員特征和幾何上下文特征即為分別由步驟a1中獲得的直線段信息和步驟b1獲得的幾何上下文信息。線組成員特征是根據(jù)檢測(cè)場(chǎng)景圖像直線段時(shí)獲取的線組成特征,其中包含顏色、文理、透視線索等線性特征。對(duì)于空間布局估計(jì)中的任意一個(gè)多邊形fk,其無權(quán)重的線組成員特征fl定義如下:其中,lk表示檢測(cè)出的線段中位于多邊形fk內(nèi)部的所有線段的集合,ck表示檢測(cè)出的線段中可以歸屬為構(gòu)成多邊性fk的所涉及到兩個(gè)消失點(diǎn)的所有線段的集合。需要注意的是公式中的|l|表示線段l的長(zhǎng)度。幾何上下文特征由步驟b1產(chǎn)生信息邊緣圖的全卷積網(wǎng)絡(luò)雙輸出中另一個(gè)輸出結(jié)果得到。步驟c2、設(shè)計(jì)了一個(gè)單一多尺度卷積網(wǎng)絡(luò)結(jié)構(gòu),在像素級(jí)別獲取場(chǎng)景圖像的深度特征和表面法向量特征;多尺度卷積網(wǎng)絡(luò)結(jié)構(gòu)使用序列化的尺度逐步細(xì)化預(yù)測(cè),從輸入場(chǎng)景圖像中直接產(chǎn)生像素級(jí)特征圖,并不使用任何超像素或低層次的分割來捕獲場(chǎng)景圖像的細(xì)節(jié),且使用一系列卷積網(wǎng)絡(luò)可以對(duì)齊到許多場(chǎng)景圖像的細(xì)節(jié)大大提高分辨率。基于vgg-16的多尺度卷積網(wǎng)絡(luò)結(jié)構(gòu)模型比較深,有較多的卷積層,同時(shí)具有三個(gè)尺度模型如圖3所示,具體參數(shù)如表2所示,所以最終的輸出分辨率較高能提高到輸入的一半。第一個(gè)尺度是完整圖像視角尺度,其預(yù)測(cè)出一個(gè)粗燥的但是對(duì)整個(gè)圖像區(qū)域具有空間變化的特征,該尺度中對(duì)整幅圖像使用了兩個(gè)全連接層。第二個(gè)尺度是預(yù)測(cè)尺度,在這個(gè)尺度中進(jìn)行中等分辨率的預(yù)測(cè),結(jié)合一個(gè)從較窄圖像視角考慮更詳細(xì)信息以及上一層尺度提供的完整圖像視角信息,通過卷積和池化獲取特征中等分辨率的映射。第三個(gè)尺度是高分辨率尺度,該尺度結(jié)合原始圖像輸出和尺度2的特征映射,使用更精細(xì)的步數(shù),能分辨出圖像較多細(xì)節(jié),得到高分辨率的結(jié)果輸出。該模型從尺度1和尺度2并不傳遞輸出預(yù)測(cè)結(jié)果而是傳遞多通道特征圖,這樣做時(shí),可以能夠聯(lián)合輸入圖像和前兩個(gè)尺度的網(wǎng)絡(luò)一起訓(xùn)練,這樣簡(jiǎn)化訓(xùn)練過程并且取得性能增益。表2多尺度卷積神經(jīng)具體網(wǎng)絡(luò)參數(shù)對(duì)于深度預(yù)測(cè)和法向量預(yù)測(cè)只需要使用不同的損失函數(shù)就可以輸出不同的目標(biāo)數(shù)據(jù),深度預(yù)測(cè)和法向量預(yù)測(cè)的損失函數(shù)如下:在深度預(yù)測(cè)的損失函數(shù)中,d和d*分別表示預(yù)測(cè)和基準(zhǔn)深度圖,d=d-d*表示兩者的差值,i表示場(chǎng)景圖像中某一像素點(diǎn),n表示場(chǎng)景圖像中所有像素點(diǎn)的個(gè)數(shù)之和。和分別是水平和豎直方向上像素點(diǎn)之間深度的變化值。在法向量預(yù)測(cè)的損失函數(shù)中,n和n*分別表示預(yù)測(cè)和基準(zhǔn)法向量圖。步驟d、根據(jù)布局候選項(xiàng)到特征的一元和二元映射關(guān)系,設(shè)計(jì)布局估計(jì)的結(jié)構(gòu)化回歸模型,引入結(jié)構(gòu)化學(xué)習(xí)算法,能量函數(shù)最小的即為室內(nèi)場(chǎng)景布局估計(jì)。步驟d1、基于多個(gè)布局候選項(xiàng)中選取一個(gè)最后作為布局估計(jì)的情況進(jìn)行問題形式化,設(shè)計(jì)成候選項(xiàng)得分排序問題。產(chǎn)生多個(gè)室內(nèi)場(chǎng)景布局候選項(xiàng)后,每個(gè)輸入場(chǎng)景圖像最多可分成五個(gè)多邊形組成的圖像,需對(duì)其和真實(shí)空間布局對(duì)比,獲取誤差得分進(jìn)行排序,最優(yōu)的一個(gè)即為布局估計(jì),本文將其定義成最大邊界結(jié)構(gòu)化回歸問題。給定一個(gè)輸入場(chǎng)景圖像,最優(yōu)的布局估計(jì)表示為y*,則其中,y*表示最優(yōu)的布局估計(jì),f(x,y;ω)表示室內(nèi)場(chǎng)景圖像x和其布局候選項(xiàng)y之間的映射關(guān)系,ω表示權(quán)重向量,通過在給定的訓(xùn)練圖像集(室內(nèi)場(chǎng)景圖像與其對(duì)應(yīng)基準(zhǔn)標(biāo)注布局)上進(jìn)行訓(xùn)練學(xué)習(xí),求得上述映射關(guān)系f。步驟d2、將步驟c3中的區(qū)域級(jí)特征映射到布局候選項(xiàng)多邊形中形成一元映射特征,基于室內(nèi)墻面間的位置設(shè)計(jì)布局候選項(xiàng)空間約束關(guān)系,形成二元映射特征。室內(nèi)場(chǎng)景圖像空間中雜物對(duì)布局估計(jì)的干擾比較大,為了獲取更好的布局估計(jì),本文利用多特征對(duì)空間布局進(jìn)行一元關(guān)系和二元關(guān)系的約束。特征映射關(guān)系表示為:其中,α,β∈f={左墻,右墻,前墻,天花板,地面},x是輸入圖像,yα和yβ表示候選項(xiàng)中某個(gè)多邊形。表示一元特征的權(quán)重向量,ψo(hù)(x,yα)表示針對(duì)候選多邊形提取的區(qū)域級(jí)特征。表示二元特征的權(quán)重向量,ψb(yα,yβ)表示候選項(xiàng)多邊形兩兩之間的位置關(guān)系特征;ω=ωo+ωb。第一部分表示一元映射關(guān)系,本發(fā)明中采用多特征,其特征可以細(xì)分為四部分:式中,α∈f={左墻,右墻,前墻,天花板,地面},x表示輸入圖像,y表示布局候選項(xiàng),yα表示布局候選項(xiàng)中某一個(gè)面。ψlm(x,y)表示線組成員特征,通過直線段檢測(cè)獲取了線段的梯度特征、色彩特征、hog特征等;ψgc(x,y)表示全卷積神經(jīng)網(wǎng)絡(luò)獲得的幾何上下文信息;ψn(x,y)是通過三維幾何理解的方式獲取的法向量特征約束多邊形的方向;ψd(x,y)是深度特征,數(shù)據(jù)集沒有提供深度特征,通過步驟c2獲得深度特征。第二部分表示候選項(xiàng)多邊形對(duì)應(yīng)室內(nèi)三維空間墻面間的位置關(guān)系,利用室內(nèi)墻面之間的位置關(guān)系約束多邊形間可能的存在。其位置關(guān)系如表3所示,其中,1表示a不可能高于b,2表示a不可能低于b,3表示a不可能在b右邊,4表示a不可能在b左邊,5表示a不可能在b前面,6表示a不可能在b后面。表3多邊形位置關(guān)系表示a-b天花板地面左墻前墻右墻天花板22,42,52,3地面11,41,51,3左墻1,32,33,53前墻1,62,64,63,6右墻1,42,444,5表中,a表示第一列的區(qū)域名稱,b表示第一行的區(qū)域名稱,表中的數(shù)值1-6表示a與b的位置關(guān)系,比如1可以表示成地面不可能高于天花板。通過這種約束關(guān)系,可以理清多邊形之間在三維空間上的位置關(guān)系,比如一個(gè)多邊形總是低于其他多邊形區(qū)域,則說明該多邊形為地面的可以能性最高,若檢測(cè)到一個(gè)多邊形區(qū)域在某多邊形的左側(cè),則說明該多邊形肯定不會(huì)是右墻,就不需要和基準(zhǔn)圖像中右墻的特征向量比較。將三維的幾何關(guān)系通過二維圖像表示,本文利用多邊形區(qū)域中點(diǎn)的坐標(biāo)比較其區(qū)域高低和左右關(guān)系,再根據(jù)區(qū)域中心點(diǎn)深度值的大小判斷區(qū)域的前后關(guān)系。假設(shè)區(qū)域q的中心坐標(biāo)為(xq,yq),區(qū)域p中心坐標(biāo)為(xp,yp),若xq>xp,yq>yp說明區(qū)域b不可能在區(qū)域q的右側(cè),也不可能高于區(qū)域q。即滿足條件1和3。步驟d3、根據(jù)布局候選項(xiàng)與準(zhǔn)基圖像之間的關(guān)系,設(shè)計(jì)基于多邊形面缺失、多邊形質(zhì)心位置和多邊形像素誤差和三方面的損失函數(shù),具體公式表示如下:δ(yi,y)=δt(yi,y')+δc(yi,y')+δp(yi,y')δt(yi,y')=∑k∈[1,5]δ(fik,fk)δc(yi,y')=∑k∈[1,5]||cik-ck||2公式中,y'是基準(zhǔn)布局,yi是第i個(gè)布局候選項(xiàng);fk∈{f1,f2,f3,f4,f5}是基準(zhǔn)布局標(biāo)注表示,其中f1表示地面,f2表示中墻,f3表示右墻,f4表示左墻,f5表示天花板;fik∈{fi1,fi2,fi3,fi4,fi5}是布局候選項(xiàng)標(biāo)注表示,i表示第i個(gè)候選項(xiàng),1≤i≤i,i表示訓(xùn)練圖像集中室內(nèi)場(chǎng)景圖像的數(shù)目。其中fi1表示地面,fi2表示中墻,fi3表示右墻,fi4表示左墻,fi5表示天花板。δt(yi,y')表示多邊形面缺失誤差和,判斷布局中是否有多邊形缺失,δ(fik,fk)是激勵(lì)函數(shù),當(dāng)基準(zhǔn)圖像多邊形存在而候選項(xiàng)多邊形不存在,或者基準(zhǔn)圖像多邊形不存在而候選項(xiàng)多邊形存在,這兩種情況下激勵(lì)函數(shù)置1;若候選項(xiàng)多邊形和基準(zhǔn)圖像多邊形同時(shí)存在或者同時(shí)不存在,在激勵(lì)函數(shù)一直是0。δc(yi,y')表示多邊形質(zhì)心位置誤差和,測(cè)量候選項(xiàng)多邊形區(qū)域面的質(zhì)心cik和基準(zhǔn)圖像多邊形區(qū)域面的質(zhì)心ck的移位差,通過計(jì)算區(qū)域面所有像素點(diǎn)坐標(biāo)的平均值就可以得到質(zhì)心,質(zhì)心的位移差則通過計(jì)算兩個(gè)像素點(diǎn)的距離計(jì)算,若基準(zhǔn)圖像和候選項(xiàng)多邊形都缺失則位移差為0。δp(yi,y')表示多邊形像素誤差和,來檢測(cè)是否完整覆蓋,若候選多邊形區(qū)域和基準(zhǔn)多邊形區(qū)域完全覆蓋,則損失函數(shù)為0,說明這兩個(gè)區(qū)域完全重合;若損失函數(shù)有值,損失函數(shù)的值越大,說明兩個(gè)區(qū)域覆蓋度越低,很有可能不是同一個(gè)區(qū)域。步驟d4、根據(jù)特征映射關(guān)系和損失函數(shù),采用結(jié)構(gòu)化svm(suportvectormachine,svm)的學(xué)習(xí)算法進(jìn)行參數(shù)學(xué)習(xí)。將一幅圖不同的候選項(xiàng)進(jìn)行得分排序,以得到最好的一個(gè)候選項(xiàng)與groundtruth的布局對(duì)應(yīng)。這是一個(gè)結(jié)構(gòu)化回歸問題,所以用結(jié)構(gòu)化svm這樣的學(xué)習(xí)框架來定義:ωtψ(xi,yi)-ωtψ(xi,y')≥δ(yi,y')-ξi,其中,xi表示訓(xùn)練圖像集中第i個(gè)室內(nèi)場(chǎng)景圖像,1≤i≤i,i表示訓(xùn)練圖像集中室內(nèi)場(chǎng)景圖像的數(shù)目,ξi是xi松弛變量;c是比例系數(shù),本發(fā)明中c=1。ω是權(quán)重向量ω=ωo+ωb。y表示布局候選項(xiàng)集合,yi表示集合y中的元素,y'表示基準(zhǔn)標(biāo)注布局,ψ(xi,yi)表示xi對(duì)應(yīng)的布局候選項(xiàng)yi所提取的特征,ψ(xi,y')表示xi對(duì)應(yīng)的基準(zhǔn)標(biāo)注布局y所提取的特征,δ(yi,y')表示用于量化yi和y’兩種布局之間的測(cè)度的損失函數(shù)。步驟d5、將學(xué)習(xí)到的參數(shù)帶入到步驟d1的推理模型中,對(duì)測(cè)試圖像進(jìn)行推理測(cè)試。以上所述,僅為本發(fā)明中的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉該技術(shù)的人在本發(fā)明所揭露的技術(shù)范圍內(nèi),可理解想到的變換或替換,都應(yīng)涵蓋在本發(fā)明的包含范圍之內(nèi),因此,本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求書的保護(hù)范圍為準(zhǔn)。當(dāng)前第1頁(yè)12