基于dct系數(shù)熵的二維單視圖像深度估計(jì)方法
【專利摘要】基于DCT系數(shù)熵的二維單視圖像深度估計(jì)方法,涉及一種二維單視圖像深度估計(jì)方法。它解決了現(xiàn)有二維單視圖像深度估計(jì)方法準(zhǔn)確度低的問(wèn)題。其方法:對(duì)于待處理圖像中的每個(gè)像素(i,j),以該像素為中心選取N×N大小的窗口作為子圖像;N為正整數(shù);i和j均為正整數(shù);然后并對(duì)該子圖像做DCT變換;設(shè)定量化步長(zhǎng),然后對(duì)子圖像DCT系數(shù)進(jìn)行量化,然后計(jì)算其系數(shù)熵,并將該熵作為像素點(diǎn)(i,j)的模糊程度的度量;采用步驟一和步驟二的方法遍歷圖像中的每個(gè)像素點(diǎn),得到每個(gè)像素點(diǎn)所對(duì)應(yīng)的小波系數(shù)熵,然后通過(guò)線性映射把熵值映射到8bit的深度值域,得到像素級(jí)的深度圖,完成基于DCT系數(shù)熵的二維單視圖像深度估計(jì)。本發(fā)明適用于二維單視圖像深度估計(jì)。
【專利說(shuō)明】基于DCT系數(shù)熵的二維單視圖像深度估計(jì)方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種二維單視圖像深度估計(jì)方法。
【背景技術(shù)】
[0002]三維顯示是未來(lái)圖像信息的一種重要表現(xiàn)形式。相比二維圖像,三維圖像具有層次分明、色彩鮮艷、駐景時(shí)間長(zhǎng)、印象深刻的特點(diǎn)。三維圖像攜帶的信息量要遠(yuǎn)遠(yuǎn)超過(guò)二維圖像,其視覺(jué)沖擊力強(qiáng)、藝術(shù)欣賞價(jià)值高,能夠使受眾產(chǎn)生更強(qiáng)的視覺(jué)體驗(yàn)。
[0003]隨著三維顯示器的出現(xiàn),消費(fèi)者面臨著一個(gè)嚴(yán)重的問(wèn)題,即當(dāng)前三維媒體資源的稀缺。由于三維顯示剛剛進(jìn)入普及階段,目前人們觀看的三維媒體資源由專用的立體拍攝設(shè)備獲取,或者是3D工作室精心制作而成。因此,三維片源因其制作成本高,拍攝困難等原因嚴(yán)重匱乏。這一問(wèn)題不但影響人們的三維體驗(yàn)效果,而且制約了三維顯示設(shè)備的普及。因?yàn)楫?dāng)前三維顯示設(shè)備的推廣所面臨的主要問(wèn)題是片源素材的問(wèn)題,市場(chǎng)中三維片源的數(shù)量遠(yuǎn)遠(yuǎn)少于傳統(tǒng)二維片源,這將導(dǎo)致消費(fèi)者需求的下降。針對(duì)這一現(xiàn)狀,若能夠利用計(jì)算機(jī)視覺(jué)等技術(shù)將現(xiàn)有的二維圖像資源轉(zhuǎn)換為三維,不但可以解決三維片源匱乏的問(wèn)題,更因?yàn)槿S資源的增加有利于三維顯示設(shè)備的普及和發(fā)展,具有非常重要的應(yīng)用價(jià)值。
[0004]二維圖像轉(zhuǎn)三維的關(guān)鍵在于深度信息的獲取。2003年,Christoph Fehn提出了基于深度的三維圖像生成方式DIBR。根據(jù)光學(xué)與相機(jī)成像原理,闡述了如何根據(jù)二維圖像的深度信息生成其三維圖像。因此,深度信息提取方法的研究也成為熱點(diǎn)。針對(duì)深度估計(jì),國(guó)內(nèi)外學(xué)者做了大量的研究,提出了很多算法。這些方法大體上分為兩類(lèi):其一,基于幀間運(yùn)動(dòng)視差的方法;其二,基于 幀內(nèi)線索的方法。第一類(lèi)方法主要應(yīng)用于視頻序列(動(dòng)態(tài)圖像)的深度提取,該類(lèi)方法利用幀間的運(yùn)動(dòng)信息,提取出運(yùn)動(dòng)視差并映射到深度。這類(lèi)算法具體有塊匹配法,像素遞歸法,光流法等等。但是,這類(lèi)算法的適用條件是相機(jī)運(yùn)動(dòng)而場(chǎng)景靜止,并且?guī)g要存在視差。第二類(lèi)方法,并沒(méi)有考慮幀間的信息,而主要考慮幀內(nèi)的各種信息和線索。例如,基于幾何線索的線性透視法和紋理梯度法,基于顏色和亮度線索的大氣散射法和輪廓場(chǎng)景感知法等等。在第二類(lèi)方法中,散焦和模糊作為重要的幀內(nèi)線索,也被越來(lái)越多的學(xué)者所關(guān)注。
[0005]利用散焦模糊線索提取深度,主要是依據(jù)照相機(jī)光學(xué)成像中遠(yuǎn)離成像聚焦平面的物體會(huì)發(fā)生散焦模糊現(xiàn)象,且離成像平面越遠(yuǎn),物體的模糊越嚴(yán)重。1987年,A.P.Pentland提出了頻域解卷積的方法,開(kāi)創(chuàng)了利用散焦模糊線索提取深度信息的先河。隨后,很多學(xué)者提出了各種深度提取算法。主要分為兩類(lèi)。
[0006]第一類(lèi):對(duì)同一場(chǎng)景采用不同聚焦條件成像,結(jié)合照相機(jī)參數(shù),利用各個(gè)圖像模糊程度的不同提取深度信息。例如,Gokstorp.M在1994年提出了多分辨率局部頻率算法(multiresolution local frequency),該方法利用子采樣尺度空間的金字塔結(jié)構(gòu)和局部頻率表不兩個(gè)圖像,并計(jì)算兩個(gè)圖像之間的模糊差異從而估計(jì)深度?目息。2001年,Rayala.J和Gupta.S提出了基于多項(xiàng)式擬合的傳導(dǎo)函數(shù)法,該算法認(rèn)為散焦現(xiàn)象可以用線性系統(tǒng)來(lái)模擬,并且采用了一種二元方程誤差算法來(lái)計(jì)算傳導(dǎo)函數(shù)的多項(xiàng)式系數(shù)。Mendapara.P和Minhas.R在2009年提出了基于SUSAN算子的指數(shù)衰減測(cè)度算法。2012年,Paramanand.C和Rajagopalan.A.N.通過(guò)設(shè)計(jì)卡爾曼濾波器來(lái)檢測(cè)深度,該算法不但適用于散焦模糊情況,也適用于運(yùn)動(dòng)模糊情況,此外,該算法并不要求點(diǎn)擴(kuò)散函數(shù)(PSF)約束為高斯形式。盡管這些方法深度估計(jì)的效果較好,但必須利用同場(chǎng)景不同散焦情況的多幅圖像,而滿足這種條件的片源十分缺乏,限制了這類(lèi)算法的應(yīng)用。
[0007]第二類(lèi):對(duì)單幅圖像的各個(gè)像素的模糊程度測(cè)量,提出模糊信息,建立像素深度到模糊程度的一個(gè)映射。這種方式提取的深度信息一般為場(chǎng)景中各個(gè)目標(biāo)的相對(duì)深度(relative depth)。盡管目標(biāo)的實(shí)際深度(ground depth)信息無(wú)法恢復(fù),但相對(duì)深度信息對(duì)于二維圖像的三維渲染而言已經(jīng)是足夠的了。比較第一類(lèi)方式,第二類(lèi)方式因?yàn)榫哂懈鼜?qiáng)的適應(yīng)性而得到更多的關(guān)注。1993年,Ens.J和Lawrence.P發(fā)展了頻域解卷積算法,并揭示了一些逆濾波的基本問(wèn)題。同年,Xiong.Y和Shafer S.A提出了結(jié)合Fibonacci搜索和曲線擬合的深度估計(jì)算法;該算法建立的模型不但考慮了圖像模糊,同時(shí)也考慮了幾何模糊。1994年,Jahne.B和Geissler.P進(jìn)一步證明了從單幅圖像中利用散焦模糊線索提取深度的可行性,他們提出的方法基于兩點(diǎn):一、精確已知的三維點(diǎn)擴(kuò)散函數(shù);二、場(chǎng)景中目標(biāo)的亮度均勻并且具有簡(jiǎn)單形狀。2003年,S.A.Valenecia等提出了基于宏塊級(jí)小波分解的深度估計(jì)方法;但是,該方法生成的深度圖存在橫條紋噪聲。2006年,Wong E把尺度空間理論引入到深度提取中來(lái)。2007年,MalikA.S等利用具有帶通特性的光學(xué)傳遞函數(shù)來(lái)估計(jì)模糊程度。2008年,Hue1-Yung Lin和Ka1-Da Gu提出利用圖像灰度直方圖分析度量模糊程度的方法。同年,北京大學(xué)的Guo等將S.A.Valenecia于2003年提出的算法進(jìn)行改進(jìn),并結(jié)合邊緣增強(qiáng)和色彩分割得到了更為精細(xì)的深度圖。同年,Namboodir1.V.P提出了不均勻逆向熱傳導(dǎo)方程的模型來(lái)模擬散焦模糊現(xiàn)象,并采用逆向熱擴(kuò)散參數(shù)來(lái)度量模糊和深度。以上文獻(xiàn)中所提的方法,都試圖建立某種數(shù)學(xué)模型或物理模型,并利用相應(yīng)的模型參數(shù)來(lái)度量模糊和深度,很明顯,這些算法深度估計(jì)的準(zhǔn)確性直接取決于模型的準(zhǔn)確性。2011年,Cheng-Wei Chen等提出利用階梯邊緣處的點(diǎn)擴(kuò)散函數(shù)頻譜能量來(lái)估計(jì)深度的方法。同年,Shaojie Zhuo等對(duì)散焦圖像利用已知的高斯函數(shù)進(jìn)行再模糊,并利用再模糊圖像和原圖像在邊緣處的梯度比率來(lái)度量邊緣處的模糊。這兩種方法都能得到圖像邊緣處的稀疏深度圖,盡管這兩種方法無(wú)需估計(jì)點(diǎn)擴(kuò)散函數(shù)的具體參數(shù),但仍建立在點(diǎn)擴(kuò)散函數(shù)是高斯形式的基礎(chǔ)之上。對(duì)比前面的方法,這兩種方法在邊緣處理效果以及場(chǎng)景深度估計(jì)準(zhǔn)確度方面有所提高,但對(duì)不同的邊緣類(lèi)型泛化能力較差。
【發(fā)明內(nèi)容】
[0008]本發(fā)明是為了解決現(xiàn)有的二維單視圖像深度估計(jì)方法的準(zhǔn)確度低的問(wèn)題,從而提供一種基于DCT系數(shù)熵的二維單視圖像深度估計(jì)方法。
[0009]基于DCT系數(shù)熵的二維單視圖像深度估計(jì)方法,它由以下步驟實(shí)現(xiàn):
[0010]步驟一、對(duì)于待處理圖像中的每個(gè)像素(i,j),以該像素為中心選取NXN大小的窗口作為子圖像;N為正整數(shù);i和j均為正整數(shù);然后并對(duì)該子圖像做DCT變換;
[0011]步驟二、設(shè)定量化步長(zhǎng),然后對(duì)子圖像DCT系數(shù)進(jìn)行量化,然后計(jì)算其系數(shù)熵,并將該熵作為像素點(diǎn)(i,j)的模糊程度的度量;
[0012]步驟三、采用步驟一和步驟二的方法遍歷圖像中的每個(gè)像素點(diǎn),得到每個(gè)像素點(diǎn)所對(duì)應(yīng)的小波系數(shù)熵,然后通過(guò)線性映射把熵值映射到8bit的深度值域,得到像素級(jí)的深度圖,完成基于DCT系數(shù)熵的二維單視圖像深度估計(jì)。
[0013]本發(fā)明的二維單視圖像深度估計(jì)方法的準(zhǔn)確度高。
【專利附圖】
【附圖說(shuō)明】
[0014]圖1是本發(fā)明中相機(jī)所用透鏡的光學(xué)成像模型示意圖;
[0015]圖2是【具體實(shí)施方式】一中Iena圖像的原始圖像;
[0016]圖3是【具體實(shí)施方式】一中Iena圖像在Ss為1.5時(shí)的模糊圖像;
[0017]圖4是【具體實(shí)施方式】一中Iena圖像在Ss為3時(shí)的模糊圖像;
[0018]圖5是【具體實(shí)施方式】一中DCT系數(shù)的熵和點(diǎn)擴(kuò)散函數(shù)的均方差Ss之間的關(guān)系圖;
[0019]圖6是【具體實(shí)施方式】一的實(shí)驗(yàn)用的原始圖像;
[0020]圖7是分塊級(jí)小波方法獲得的初始深度圖像;
[0021]圖8是現(xiàn)有像素級(jí)方法獲得的初始深度圖像;
[0022]圖9是本發(fā)明獲得的深度圖;
[0023]圖10是其它圖像和本發(fā)明的方法獲得的深度圖對(duì)比示意圖。
【具體實(shí)施方式】
[0024]【具體實(shí)施方式】一、基 于DCT系數(shù)熵的二維單視圖像深度估計(jì)方法,它由以下步驟實(shí)現(xiàn):
[0025]步驟一、對(duì)于待處理圖像中的每個(gè)像素(i,j),以該像素為中心選取NXN大小的窗口作為子圖像#為正整數(shù);i和j均為正整數(shù);然后對(duì)該子圖像做type-1I型DCT變換;
[0026]步驟二、設(shè)定量化步長(zhǎng),然后對(duì)子圖像DCT系數(shù)進(jìn)行量化,然后計(jì)算其系數(shù)熵,并將該熵作為像素點(diǎn)(i,j)的模糊程度的度量;
[0027]步驟三、采用步驟一和步驟二的方法遍歷圖像中的每個(gè)像素點(diǎn),得到每個(gè)像素點(diǎn)所對(duì)應(yīng)的小波系數(shù)熵,然后通過(guò)線性映射把熵值映射到8bit的深度值域,得到像素級(jí)的深度圖,完成基于DCT系數(shù)熵的二維單視圖像深度估計(jì)。
[0028]N=9。步驟二設(shè)定的量化步長(zhǎng)為I。
[0029]原理:模糊與深度的關(guān)系:
[0030]散焦模糊現(xiàn)象是從單視圖像提取深度信息的重要線索。一般來(lái)講,當(dāng)物體不處在場(chǎng)景的聚焦平面(DoF)時(shí),散焦現(xiàn)象就會(huì)發(fā)生。物體偏離DoF越遠(yuǎn),模糊就越嚴(yán)重??梢?jiàn),模糊的程度與物體的深度是有關(guān)聯(lián)的。模糊的程度可以用模糊直徑來(lái)度量。通過(guò)透鏡成像模型,以下將首先分析模糊直徑與物體深度的關(guān)系。
[0031]相機(jī)所用透鏡的光學(xué)成像模型如圖1所示,此時(shí)散焦物體的距離比場(chǎng)景聚焦平面大。這里L(fēng)為透鏡孔徑,f為透鏡焦距,P為場(chǎng)景聚焦平面與透鏡的物距,q為成像平面與透鏡的距離,z為物體的物距(等價(jià)于深度),V為物體的像距。很明顯,處于P的點(diǎn)目標(biāo),在成像平面聚焦為一點(diǎn);而在u處的點(diǎn)目標(biāo),將會(huì)在成像平面產(chǎn)生一個(gè)直徑為d的模糊光圈。由透鏡光學(xué)成像原理和幾何關(guān)系,可得如下關(guān)系式:
I I I I I I d q- V
[0032]—+ -= —, -+ -=—,—=-
P q f Z V f L V[0033]將以上等式聯(lián)立,整理得:
【權(quán)利要求】
1.基于DCT系數(shù)熵的二維單視圖像深度估計(jì)方法,它由以下步驟實(shí)現(xiàn): 步驟一、對(duì)于待處理圖像中的每個(gè)像素(i,j),以該像素為中心選取NXN大小的窗口作為子圖像;N為正整數(shù);i和j均為正整數(shù);然后并對(duì)該子圖像做DCT變換; 步驟二、設(shè)定量化步長(zhǎng),然后對(duì)子圖像DCT系數(shù)進(jìn)行量化,然后計(jì)算其系數(shù)熵,并將該熵作為像素點(diǎn)(i,j)的模糊程度的度量; 步驟三、采用步驟一和步驟二的方法遍歷圖像中的每個(gè)像素點(diǎn),得到每個(gè)像素點(diǎn)所對(duì)應(yīng)的小波系數(shù)熵,然后通過(guò)線性映射把熵值映射到8bit的深度值域,得到像素級(jí)的深度圖,完成基于DCT系數(shù)熵的二維單視圖像深度估計(jì)。
2.根據(jù)權(quán)利要求1所述的基于DCT系數(shù)熵的二維單視圖像深度估計(jì)方法,其特征在于N=9。
3.根據(jù)權(quán)利要求1所述的基于DCT系數(shù)熵的二維單視圖像深度估計(jì)方法,其特征在于步驟二設(shè)定的量化步長(zhǎng)為I。
【文檔編號(hào)】H04N13/00GK103559701SQ201310444856
【公開(kāi)日】2014年2月5日 申請(qǐng)日期:2013年9月26日 優(yōu)先權(quán)日:2013年9月26日
【發(fā)明者】孫華東, 金雪松, 趙志杰, 潘慶和, 牛連丁, 陳銘, 張立志, 范智鵬 申請(qǐng)人:哈爾濱商業(yè)大學(xué)