本發(fā)明屬于計(jì)算機(jī)視覺,具體涉及一種基于神經(jīng)基和張量分解的神經(jīng)輻射場渲染方法和裝置。
背景技術(shù):
1、三維重建在數(shù)字孿生、虛擬現(xiàn)實(shí)、自動(dòng)駕駛和機(jī)器人等多個(gè)領(lǐng)域有著重要的應(yīng)用價(jià)值。在眾多三維重建技術(shù)中,基于神經(jīng)輻射場(參考文獻(xiàn)題目為nerf:?representingscenes?as?neural?radiance?fields?for?view?synthesis(nerf:以神經(jīng)輻射場表示場景用于視圖合成))的三維重建技術(shù)以其獨(dú)特的優(yōu)勢(shì),在生成高質(zhì)量新視角圖像和深度估計(jì)方面展示出了巨大潛力。相較于傳統(tǒng)方法,nerf在生成高質(zhì)量的新視角圖像和深度估計(jì)方面,利用多層感知器網(wǎng)絡(luò)(multilayer?perceptron,mlp)將三維場景表示為輻射場,這一表示方式使得場景中每個(gè)點(diǎn)的顏色和密度都與觀察角度緊密相關(guān),從而能夠捕捉到光線在場景中的傳播與累積過程,從而生成具有逼真效果的新視角圖像。
2、nerf的核心在于其可微分的體積渲染技術(shù),這一技術(shù)使得nerf能夠?qū)⑤椛鋱鲞B續(xù)地渲染為圖像,從而實(shí)現(xiàn)了對(duì)新視角圖像的精準(zhǔn)合成。在訓(xùn)練過程中,nerf通過計(jì)算訓(xùn)練圖像的重建損失,并利用梯度反向傳播來優(yōu)化表示輻射場的mlp網(wǎng)絡(luò)。這一優(yōu)化過程使得nerf能夠不斷地調(diào)整其內(nèi)部參數(shù),以更好地?cái)M合真實(shí)場景,進(jìn)一步提升新視角圖像的質(zhì)量與逼真度。這一技術(shù)突破為計(jì)算機(jī)視覺領(lǐng)域的研究開辟了新的道路,也為虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)等技術(shù)的發(fā)展提供了有力的支持。
3、然而,盡管nerf在生成新視角圖像質(zhì)量方面取得了顯著進(jìn)展,但在處理具有復(fù)雜表面反射效果的場景時(shí),仍面臨一定的挑戰(zhàn)。這一問題的根源在于,nerf主要依賴于體積渲染技術(shù)來合成圖像,體積渲染技術(shù)往往難以準(zhǔn)確捕捉并模擬光線與物體表面的交互過程,在處理具有復(fù)雜表面反射效果的場景時(shí),nerf可能會(huì)出現(xiàn)圖像質(zhì)量下降、細(xì)節(jié)丟失等問題。因此,nerf仍需不斷改進(jìn)與優(yōu)化,以更好地適應(yīng)實(shí)際應(yīng)用的需求。
4、綜上,如何在保持nerf優(yōu)勢(shì)的基礎(chǔ)上,進(jìn)一步提升其在處理復(fù)雜表面反射效果方面的能力和圖像渲染質(zhì)量,成為了當(dāng)前計(jì)算機(jī)視覺領(lǐng)域亟待解決的重要課題。
技術(shù)實(shí)現(xiàn)思路
1、鑒于上述,本發(fā)明的目的是提供一種基于神經(jīng)基和張量分解的神經(jīng)輻射場渲染方法和裝置,能夠高效地從多視角圖像數(shù)據(jù)中重建出高質(zhì)量的三維場景,有效重建復(fù)雜表面反射效果,實(shí)現(xiàn)新視角下的逼真圖像渲染。
2、為實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明提供的技術(shù)方案如下:
3、本發(fā)明實(shí)施例提供的一種基于神經(jīng)基和張量分解的神經(jīng)輻射場渲染方法,包括以下步驟:
4、預(yù)處理階段:對(duì)采集的多視角圖像進(jìn)行預(yù)處理并獲取每張圖像的相機(jī)參數(shù),將預(yù)處理后的圖像及其相機(jī)參數(shù)構(gòu)建為數(shù)據(jù)集;
5、訓(xùn)練階段:根據(jù)選定訓(xùn)練視角下的相機(jī)參數(shù)對(duì)張量分解的輻射場進(jìn)行采樣得到密度特征張量和紋理特征張量,將密度特征張量轉(zhuǎn)換為密度值,將紋理特征張量轉(zhuǎn)換為神經(jīng)基;基于神經(jīng)基通過系數(shù)網(wǎng)絡(luò)計(jì)算得到仿射矩陣和偏置,利用仿射矩陣、偏置和觀測方向進(jìn)行仿射變換得到神經(jīng)基的系數(shù);將神經(jīng)基及其系數(shù)一同輸入神經(jīng)混合網(wǎng)絡(luò)得到單個(gè)采樣點(diǎn)的顏色,利用體積渲染技術(shù)將采樣點(diǎn)的顏色按照密度值沿光線進(jìn)行加權(quán)計(jì)算出最終的像素顏色;基于數(shù)據(jù)集和圖像重建損失函數(shù)進(jìn)行訓(xùn)練階段的網(wǎng)絡(luò)訓(xùn)練;
6、渲染階段:設(shè)定新視角并獲取相應(yīng)的相機(jī)參數(shù),加載訓(xùn)練好的網(wǎng)絡(luò)參數(shù),按照訓(xùn)練階段的流程進(jìn)行渲染并得到最終的渲染圖片。
7、優(yōu)選地,所述對(duì)采集的多視角圖像進(jìn)行預(yù)處理并獲取每張圖像的相機(jī)參數(shù),包括:
8、對(duì)采集的多視角圖像進(jìn)行統(tǒng)一分辨率預(yù)處理,使用運(yùn)動(dòng)結(jié)構(gòu)恢復(fù)(structurefrom?motion,sfm)算法獲取每張圖像的相機(jī)參數(shù),相機(jī)參數(shù)包括相機(jī)位姿和焦距。
9、優(yōu)選地,所述根據(jù)選定訓(xùn)練視角下的相機(jī)參數(shù)對(duì)張量分解的輻射場進(jìn)行采樣得到密度特征張量和紋理特征張量,包括:
10、通過張量分解的輻射場對(duì)場景進(jìn)行建模,張量分解公式如下:
11、,
12、其中,表示采樣點(diǎn)處的特征張量,表示哈達(dá)瑪乘積,表示秩的總數(shù),表示秩的索引,、和分別表示采樣點(diǎn)在、和軸的張量,、和分別表示采樣點(diǎn)在、和方向上的張量;
13、選定訓(xùn)練視角,并根據(jù)訓(xùn)練視角的相機(jī)參數(shù)進(jìn)行投影,根據(jù)采樣點(diǎn)的坐標(biāo),通過網(wǎng)格采樣提取得到特征張量,將特征張量在特征通道維度的進(jìn)行劃分得到密度特征張量和紋理特征張量。
14、優(yōu)選地,所述將密度特征張量轉(zhuǎn)換為密度值,包括:
15、使用relu激活函數(shù)將密度特征張量轉(zhuǎn)換為實(shí)際的密度值。
16、優(yōu)選地,所述將紋理特征張量轉(zhuǎn)換為神經(jīng)基,包括:
17、將紋理特征張量通過無偏置和無激活的線性層生成神經(jīng)基,公式如下:
18、,
19、其中,表示神經(jīng)基,表示線性層的權(quán)重矩陣,表示神經(jīng)基的通道數(shù)量,、和分別為張量分解在、和軸的與紋理特征張量相關(guān)的秩。
20、優(yōu)選地,所述基于神經(jīng)基通過系數(shù)網(wǎng)絡(luò)計(jì)算得到仿射矩陣和偏置,利用仿射矩陣、偏置和觀測方向進(jìn)行仿射變換得到神經(jīng)基的系數(shù),包括:
21、將神經(jīng)基、經(jīng)位置編碼處理后的采樣點(diǎn)的坐標(biāo)張量、環(huán)境光照張量以及經(jīng)位置編碼處理后的相機(jī)觀測方向張量輸入系數(shù)網(wǎng)絡(luò)中,計(jì)算得到仿射矩陣和偏置,公式如下:
22、,
23、神經(jīng)基的系數(shù)通過對(duì)觀測方向進(jìn)行仿射變換得到,公式如下:
24、,
25、其中,表示哈達(dá)瑪乘積。
26、優(yōu)選地,系數(shù)網(wǎng)絡(luò)采用多層感知器網(wǎng)絡(luò)構(gòu)建。
27、優(yōu)選地,所述將神經(jīng)基及其系數(shù)一同輸入神經(jīng)混合網(wǎng)絡(luò)得到單個(gè)采樣點(diǎn)的顏色,利用體積渲染技術(shù)將采樣點(diǎn)的顏色按照密度值沿光線進(jìn)行加權(quán)計(jì)算出最終的像素顏色,包括:
28、將神經(jīng)基及其系數(shù)輸入神經(jīng)混合網(wǎng)絡(luò),得到單個(gè)采樣點(diǎn)的顏色,公式如下:
29、,
30、沿光線進(jìn)行多次采樣,利用體積渲染技術(shù)獲得每個(gè)采樣點(diǎn)的像素顏色,公式如下:
31、,
32、,
33、其中,表示沿光線采樣點(diǎn)的總數(shù),表示沿光線采樣點(diǎn)的索引,表示前n-1個(gè)采樣點(diǎn)的累積透射率,表示第個(gè)采樣點(diǎn)對(duì)應(yīng)的密度值,表示第個(gè)采樣點(diǎn)對(duì)應(yīng)的光線采樣步長,表示用于計(jì)算累計(jì)透射率的前-1個(gè)采樣點(diǎn)的索引。
34、優(yōu)選地,神經(jīng)混合網(wǎng)絡(luò)采用多層感知器網(wǎng)絡(luò)構(gòu)建。
35、優(yōu)選地,圖像重建損失函數(shù)包括渲染損失函數(shù)和正則項(xiàng),公式如下:
36、,
37、其中,表示圖像重建損失函數(shù),表示渲染損失函數(shù),表示真實(shí)的像素顏色,表示渲染的像素顏色,表示l2范數(shù)的平方,表示正則項(xiàng)的超參數(shù);
38、正則項(xiàng)的公式如下:
39、,
40、其中,表示張量分解的參數(shù)總數(shù),表示相鄰參數(shù)之間的平方差,和分別表示張量分解的向量和矩陣,和表示用于調(diào)節(jié)平滑度的超參數(shù)。
41、為實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明實(shí)施例還提供了一種基于神經(jīng)基和張量分解的神經(jīng)輻射場渲染裝置,包括:預(yù)處理模塊、訓(xùn)練模塊和渲染模塊;
42、所述預(yù)處理模塊用于對(duì)采集的多視角圖像進(jìn)行預(yù)處理并獲取每張圖像的相機(jī)參數(shù),將預(yù)處理后的圖像及其相機(jī)參數(shù)構(gòu)建為數(shù)據(jù)集;
43、所述訓(xùn)練模塊用于根據(jù)選定訓(xùn)練視角下的相機(jī)參數(shù)對(duì)張量分解的輻射場進(jìn)行采樣得到密度特征張量和紋理特征張量,將密度特征張量轉(zhuǎn)換為密度值,將紋理特征張量轉(zhuǎn)換為神經(jīng)基;基于神經(jīng)基通過系數(shù)網(wǎng)絡(luò)計(jì)算得到仿射矩陣和偏置,利用仿射矩陣、偏置和觀測方向進(jìn)行仿射變換得到神經(jīng)基的系數(shù);將神經(jīng)基及其系數(shù)一同輸入神經(jīng)混合網(wǎng)絡(luò)得到單個(gè)采樣點(diǎn)的顏色,利用體積渲染技術(shù)將采樣點(diǎn)的顏色按照密度值沿光線進(jìn)行加權(quán)計(jì)算出最終的像素顏色;基于數(shù)據(jù)集和圖像重建損失函數(shù)進(jìn)行訓(xùn)練模塊的網(wǎng)絡(luò)訓(xùn)練;
44、所述渲染模塊用于設(shè)定新視角并獲取相應(yīng)的相機(jī)參數(shù),加載訓(xùn)練好的網(wǎng)絡(luò)參數(shù),按照訓(xùn)練模塊的流程進(jìn)行渲染并得到最終的渲染圖片。
45、與現(xiàn)有技術(shù)相比,本發(fā)明具有的有益效果至少包括:
46、本發(fā)明通過張量分解緊湊地存儲(chǔ)高維度的密度和紋理特征張量,通過紋理特征張量模擬逼真的與視角相關(guān)的表面反射效果,并基于得到的神經(jīng)基及其系數(shù)的組合通過體積渲染技術(shù)來渲染與視角相關(guān)的表面顏色,能夠高效地從多視角圖像數(shù)據(jù)中重建出高質(zhì)量的三維場景,并有效重建復(fù)雜表面反射效果,實(shí)現(xiàn)新視角下的逼真圖像渲染。