本發(fā)明屬于計算機視覺和圖像處理領(lǐng)域,尤其是一種基于單視圖多平面圖像引導的3d水墨風格遷移方法。
背景技術(shù):
1、在圖形學和計算機視覺領(lǐng)域,圖像風格遷移是一項具有挑戰(zhàn)性的任務(wù),旨在將一幅圖像的視覺風格轉(zhuǎn)換為另一幅圖像,同時保留原始圖像的語義內(nèi)容,這項技術(shù)已經(jīng)在許多領(lǐng)域得到了廣泛應(yīng)用,包括藝術(shù)創(chuàng)作、電影特效、游戲設(shè)計等。
2、傳統(tǒng)的圖像風格遷移方法通常依賴于優(yōu)化算法,例如基于gatys等人提出的基于神經(jīng)風格遷移的方法,這些方法通過最小化原始圖像與目標風格圖像之間的內(nèi)容損失和風格損失來實現(xiàn)圖像的風格轉(zhuǎn)換,然而,這些方法在處理大規(guī)模圖像和復雜場景時往往效率較低,需要耗費大量計算資源和時間。
3、隨著深度學習技術(shù)的發(fā)展,基于深度神經(jīng)網(wǎng)絡(luò)的圖像風格遷移方法逐漸成為主流,生成對抗網(wǎng)絡(luò)(gan)和卷積神經(jīng)網(wǎng)絡(luò)(cnn)等深度學習模型被廣泛應(yīng)用于圖像風格遷移任務(wù)中,取得了更好的效,這些方法通常包括一個生成器網(wǎng)絡(luò)和一個判別器網(wǎng)絡(luò),通過對抗訓練來實現(xiàn)圖像風格的轉(zhuǎn)換。
4、然而,目前大部分的圖像風格遷移方法都是針對2d圖像進行的,對于3d場景的風格化渲染仍然存在挑戰(zhàn)。,特別是在將傳統(tǒng)的水墨畫風格應(yīng)用于3d場景時,由于水墨畫的獨特特點,如筆觸、留白、墨漬效果等,現(xiàn)有的3d風格遷移方法往往無法有效捕捉和表達水墨畫的獨特特點。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的是通過結(jié)合深度學習和傳統(tǒng)圖像處理技術(shù),將水墨畫風格遷移到單視圖多平面圖像mpi?s,其中包含了多個平面的rgb-σ圖像,其中每個平面表達場景在某個深度中的內(nèi)容。旨在更好地表達水墨畫的分層結(jié)構(gòu)特性,約束不同空間層次物體的邊緣,來提升邊緣筆觸的效果和干凈的留白效果,其次,采用nnfm利用有效特征來提升模型的風格遷移效果,最后預測相機視錐的三維表達,使用可微分渲染技術(shù)渲染具有水墨風格的新視角圖像。
2、為實現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:
3、一種基于單視圖多平面圖像引導的3d水墨風格遷移方法,包括以下步驟:
4、步驟1:構(gòu)建多平面圖像mpi?s;
5、1-1:采用全卷積網(wǎng)絡(luò)的encoder-decoder結(jié)構(gòu)從單張圖像中生成單視圖多平面圖像mpi?s,encoder使用resnet-50模型,輸入為圖像ic,輸出為特征表示fc,decoder設(shè)計類似于monodepth2,輸入為encoder輸出的特征fc和視差值輸出為不同深度z∈[zf,zg]下的rgb-σ圖像,其中包含rgb值cz以及體積密度σz;
6、1-2:深度層離散化;
7、1-3:推理過程,推理時,encoder僅運行一次以提取特征,而decoder運行n次以生成rgb-σ圖像的集合每次對應(yīng)深度z,生成整個mpi?s;
8、步驟2:提取水墨畫風格特征,定義is為提供風格的水墨畫圖像,是深度為z的內(nèi)容圖像;
9、2-1:特征提取,運行vgg-19網(wǎng)絡(luò),從水墨畫圖像is中提取水墨風格特征fs,運行n次vgg-19網(wǎng)絡(luò),從內(nèi)容圖像中提取n個內(nèi)容特征得到內(nèi)容特征集合令表示特征在像素位置(i,j)處的特征向量;
10、2-2:最近鄰特征匹配nnfm損失:使用nnfm損失將水墨畫的風格筆觸細節(jié)遷移到內(nèi)容圖像內(nèi),獲取具有風格特征的內(nèi)容圖像
11、步驟3,視圖合成;
12、3-1:預測相機視錐的三維表達,定義具有風格特征的內(nèi)容圖像上的每個像素坐標點為[x,y]t∈r2,使用相機內(nèi)參k∈r3×3將2d像素坐標轉(zhuǎn)換為3d點的坐標表達:[x,y,z]t;
13、3-2:可微分渲染,用可微分渲染技術(shù)將重建的相機視錐體渲染為新視圖的圖像;
14、3-3:渲染新視角圖像,渲染一個相機旋轉(zhuǎn)r∈r3×3和平移t∈r3的新視角圖像。
15、優(yōu)選的,所述步驟1中,所述多平面圖像mpis是一種三維表達,由n個平行于參考攝像機的平面組成,這些平面位于攝像機視錐內(nèi),且在深度z和視差d上等間距排列。
16、優(yōu)選的,每個所述rgb-σ圖像是一個4通道圖像,用于表示深度為z的平面內(nèi)容,包含rgb值cz:[x,y]t→r3以及體積密度σz:[x,y]t→r+;
17、其中,[x,y]t轉(zhuǎn)置符號t,表示列向量,r3指三維實數(shù)空間。一個三維向量通常表示為[x,y,z],r+表示正實數(shù)集,即所有大于零的實數(shù)。
18、優(yōu)選的,步驟1-2中,深度層離散化的具體過程為:在源相機的視錐里,定義視錐重建的深度范圍[zf,zg],其中zf為近平面,zg為遠平面,這些值是預定義的超參數(shù),用于確定場景的深度感知范圍,將連續(xù)的深度范圍[zf,zg]離散化為n個等間距的間隔,每個間隔定義了一個深度層,每個深度層有一個邊界值用于表示不同深度范圍內(nèi)的視差值,每個區(qū)間的邊界值dn通過以下公式計算:
19、dn=df+(n-1)/n·(dg-df)
20、其中,df=1/zf是最小視差值,dg=1/zg是最大視差值,n是當前深度層的索引。
21、優(yōu)選的,步驟2-2中:使用最近鄰特征匹配nnfm損失將水墨畫的風格筆觸細節(jié)從水墨風格特征fs分別遷移到n個深度層級內(nèi)容特征可以寫為:
22、
23、其中m是中的像素數(shù),表示特征在像素位置(i,j)處的特征向量,fs(i‘,j’)表示特征fs在像素位置(i‘,j’)處的特征向量。對于中的每個特征,我們最小化其到vgg-19特征空間中最近鄰的余弦距離,定義余弦距離d(v1,v2)為向量v1和v2之間的夾角的余弦值,用于測量風格特征fs和內(nèi)容特征之間的相似度:
24、
25、對于的每個特征,本文將其余弦距離最小化到其在風格圖像的vgg-19特征空間fs中的最近鄰進行特征匹配。
26、優(yōu)選的,步驟3-1:從透視三維坐標[x,y,z]t到笛卡爾坐標[x,y,z]t的轉(zhuǎn)換為ζ(·):
27、
28、其中,ζ(·)表示從相機坐標系到世界坐標系的變換,是一個常數(shù),代表第i層和第i+1層之間的距離:
29、二維實數(shù)空間r2到正實數(shù)集r+的映射為:
30、
31、優(yōu)選的,步驟3-2可表示為:
32、
33、其中,是渲染的圖像,n是深度層級的數(shù)量,ti是從第一層到第i層的累積透明度,σzj和δzj分別表示j=1,即第1層mpi的體積密度值和rgb值,r2指二維實數(shù)空間,r+表示正實數(shù)集,即所有大于零的實數(shù)。
34、優(yōu)選的,步驟3-3渲染任意新視角下的rgb圖像需要額外的步驟:
35、
36、其中m=[0,0,1]t為平面的法向量,把這個操作定義為然后計算目標攝像機的投影其中
37、表示兩個相交點之間的歐幾里得距離:
38、
39、完成這步之后,將c,σ,δ分別替換為c',σ',δ',就可以通過可微分渲染公式渲染新視角圖像。
40、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:
41、本發(fā)明能夠更好地利用單視圖多平面圖像(mpi?s)表達水墨畫的分層結(jié)構(gòu),大大提升邊緣筆觸的效果和干凈的留白效果,于此同時,通過采用單視圖多平面圖像引導的3d水墨風格遷移技術(shù)路線,大大提升水墨風格遷移效果,并實現(xiàn)水墨風格場景的新視角合成;
42、本發(fā)明通過單視圖多平面圖像引導方法預測出相機視錐的三維表達,利用這個三維表達,給出目標相機相對于源相機的在三維空間中的相對位置和角度變化,從而達到高效地渲染出在目標相機視圖下的rgb圖像得目的。