本發(fā)明屬于計算機視覺領(lǐng)域,具體涉及一種基于相機位姿光場編碼的新視點圖像合成方法。
背景技術(shù):
1、新視點合成任務(wù)是計算機視覺領(lǐng)域中的一項重要任務(wù),旨在通過算法手段基于單個或多個已知視點圖像生成新視點下的圖像。新視點合成在多個領(lǐng)域都有著廣泛的應(yīng)用前景和研究意義,如:場景漫游、虛擬現(xiàn)實、三維物體和場景重建等。
2、傳統(tǒng)的視點合成方法通?;趲缀沃亟ɑ驁D像插值等,但它們在實際應(yīng)用中面臨一定的局限性。幾何重建依賴準(zhǔn)確的深度估計或點云數(shù)據(jù),對于遮擋區(qū)域和不規(guī)則表面難以處理。圖像插值方法容易出現(xiàn)模糊或失真,尤其是在視差較大的情況下。這些傳統(tǒng)方法難以在真實場景中實現(xiàn)高質(zhì)量、逼真的視點合成。近年來,基于深度學(xué)習(xí)的視點合成方法取得了顯著進(jìn)展。它們利用深度神經(jīng)網(wǎng)絡(luò)的強大表示能力,從數(shù)據(jù)中直接學(xué)習(xí)視點合成的映射關(guān)系,彌補了傳統(tǒng)方法的不足。
3、目前的新視點合成算法主要可以分為三個方向:基于三維幾何場的方法,如神經(jīng)輻射場(nerf)、三維高斯濺射等;基于生成模型的方法,如結(jié)合擴散模型等;基于特征提取與特征融合的方法,如使用?cnn、transformer?等。
4、其中,基于三維幾何場的方法存在泛化性差的問題,需要對每個場景進(jìn)行單獨訓(xùn)練;而基于生成模型尤其是擴散模型的方法存在生成速度較慢的問題,需要較多的去噪步長才能生成合理的新視點圖像。相比之下,基于特征提取與特征融合的方法泛化性強,生成速度快,但是也有如下缺陷:
5、1、現(xiàn)有的基于特征提取與特征融合的新視點合成方法仍然會引入額外的幾何信息,增加了算法的復(fù)雜度,同時也對輸入視點的視差等三維要素產(chǎn)生了限制,而沒有引入額外幾何信息的算法則沒有完全實現(xiàn)對場景特征的有效表示。
6、2、現(xiàn)有的基于特征提取與特征融合的新視點合成方法仍然使用逐像素光線渲染的算法得到最終的目標(biāo)像素值,這也導(dǎo)致了算法復(fù)雜度的增加。
技術(shù)實現(xiàn)思路
1、為解決上述問題,本發(fā)明公開了一種基于相機位姿光場編碼的新視點圖像合成方法,利用了預(yù)訓(xùn)練后的?transformer?模型豐富的先驗,同時引入位姿光場編碼,極大地提高了模型的泛化能力,使得場景新視點合成的生成速度和可控性大大增強。
2、為達(dá)到上述目的,本發(fā)明的技術(shù)方案如下:
3、一種基于相機位姿光場編碼的新視點圖像合成方法,包括如下步驟:
4、步驟1:構(gòu)建包含多個場景下多個視點的圖像和位姿的多場景視點數(shù)據(jù)集;
5、步驟2:對步驟1中的數(shù)據(jù)集中的視點數(shù)據(jù)進(jìn)行預(yù)處理,劃分為輸入視點、訓(xùn)練目標(biāo)視點和測試目標(biāo)視點,并對視點圖像進(jìn)行尺寸調(diào)整與線性歸一化,對視點位姿應(yīng)用位姿光場編碼;
6、步驟3:確定第一階段學(xué)習(xí)框架,將步驟2所得輸入視點圖像輸入vae自編碼器的編碼器部分,生成輸入視點的壓縮圖像特征;
7、步驟4:將步驟3所得輸入視點的壓縮圖像特征與步驟2所得輸入視點的位姿光場進(jìn)行拼接,并送入場景潛在表示編碼模塊,生成得到場景潛在表示;
8、步驟5:將步驟4生成的場景潛在表示送入場景潛在表示解碼模塊進(jìn)行解碼,得到輸入視點的重建圖像特征;
9、步驟6:將步驟5所得輸入視點的重建圖像特征與步驟3所得輸入視點的壓縮圖像特征對比,根據(jù)第一損失函數(shù)進(jìn)行損失值計算,進(jìn)而優(yōu)化損失為全局最小值,得到訓(xùn)練好的第一階段場景潛在表示編碼模塊網(wǎng)絡(luò)模型;
10、步驟7:確定第二階段學(xué)習(xí)框架,凍結(jié)步驟6所得場景潛在表示編碼模塊的網(wǎng)絡(luò)參數(shù),根據(jù)步驟4獲得場景潛在表示;
11、步驟8:將步驟7所得場景潛在表示與步驟2所得訓(xùn)練目標(biāo)視點的位姿光場送入場景新視點合成模塊中,并僅在訓(xùn)練過程中對步驟2的訓(xùn)練目標(biāo)視點位姿進(jìn)行隨機加噪處理,生成得到訓(xùn)練目標(biāo)視點的合成圖像特征;
12、步驟9:將步驟2所得訓(xùn)練目標(biāo)視點圖像輸入vae自編碼器的編碼器部分,生成訓(xùn)練目標(biāo)視點的壓縮圖像特征;
13、步驟10:將步驟8所得訓(xùn)練目標(biāo)視點的合成圖像特征與步驟9所得訓(xùn)練目標(biāo)視點的壓縮圖像特征對比,根據(jù)第二損失函數(shù)進(jìn)行損失值計算,進(jìn)而優(yōu)化損失為全局最小值,得到訓(xùn)練好的第二階段場景新視點合成模塊網(wǎng)絡(luò)模型;
14、步驟11:凍結(jié)步驟10所得場景新視點合成模塊的網(wǎng)絡(luò)參數(shù),獲取一組場景測試目標(biāo)視點數(shù)據(jù),將輸入視點圖像、輸入視點位姿、測試目標(biāo)視點位姿按步驟2進(jìn)行預(yù)處理,依次執(zhí)行步驟3、7、8,得到測試目標(biāo)視點的合成圖像特征;
15、步驟12:將步驟11所得測試目標(biāo)視點的合成圖像特征輸入vae自編碼器的解碼部分,得到最終的測試目標(biāo)視點合成圖像。
16、進(jìn)一步地,步驟2中的預(yù)處理使用了一種可變分辨率的位姿光場編碼;
17、可變分辨率的位姿光場編碼將給定的相機位姿,編碼到目標(biāo)分辨率的特征光場中。
18、其表達(dá)式如下:
19、;
20、其中,k是相機位姿內(nèi)參矩陣,r是相機位姿外參旋轉(zhuǎn)矩陣,t是相機位姿外參平移矩陣;lf是目標(biāo)特征光場;(o,d)是目標(biāo)特征光場的通道結(jié)構(gòu),其中o是光場原點,d是光場方向;h是目標(biāo)特征光場的長;w是目標(biāo)特征光場的寬;c是目標(biāo)特征光場的通道數(shù);
21、更具體來說,
22、;
23、;
24、;
25、;
26、其中,u,v是圖像的像素坐標(biāo),l是由o,d在通道維度上拼接得到的,n是所用余弦位置編碼的長度,默認(rèn)取n=15。
27、進(jìn)一步地,步驟3-6中所采用的第一階段學(xué)習(xí)框架采用?stencoder-dncoder模型架構(gòu),由圖像特征壓縮模塊和場景潛在表示編解碼模塊構(gòu)成;圖像特征壓縮模塊使用了預(yù)訓(xùn)練的vae自編碼器;場景潛在表示編解碼模塊由8個自注意力stblock構(gòu)成,自注意力stblock由殘差自注意力transformer塊和mlp組成;輸入的圖像特征zs由分塊模塊分割為多個1x1的圖像塊,在經(jīng)過一次圖像位置編碼和視點位置編碼后輸入第一個stblock,經(jīng)過線性層作為q、k、v經(jīng)過殘差自注意力transformer塊,再經(jīng)過mlp輸出后,作為下一層自注意力stblock的輸入,依次通過共8個stblock后輸出場景潛在表示sr。
28、進(jìn)一步地,步驟6中所采用的第一損失函數(shù)表示為:
29、;
30、;
31、;
32、;
33、其中是輸入視點圖像,和分別表示輸入視點圖像特征和重建圖像特征,是輸入視點的相機位姿光場,是編碼模塊生成的場景潛在表示,將作為第二階段場景新視點圖像生成模型的輸入。
34、進(jìn)一步地,步驟7-10中所采用的第二階段學(xué)習(xí)框架采用nvsdncoder模型架構(gòu),由場景新視點合成模塊和圖像特征解碼模塊構(gòu)成;圖像特征解碼模塊使用了vae自編碼器;場景新視點合成模塊由2個交叉注意力stblock塊組成,交叉注意力stblock由殘差交叉注意力transformer塊和mlp組成;輸入的場景潛在表示sr在經(jīng)過線性層后轉(zhuǎn)換為k、v,而目標(biāo)視點的位姿光場在經(jīng)過一次圖像位置編碼后被分割為多個1x1的圖像塊,經(jīng)過線性層后轉(zhuǎn)換為q,q、k、v經(jīng)過殘差交叉注意力transformer塊,再經(jīng)過mlp輸出后,作為下一個交叉自注意力stblock的場景潛在表示sr輸入,經(jīng)過第二個stblock后通過最后的mlp層直接輸出目標(biāo)視點的圖像特征塊組,通過歸一化和線性層恢復(fù)成完整的圖像特征。
35、進(jìn)一步地,步驟8中所采用的隨機加噪處理,其具體實施方法為對訓(xùn)練目標(biāo)視點的相機位姿矩陣k、r、t增加一個偏移噪聲,該噪聲為隨機采樣的高斯噪聲,并通過系數(shù)因子控制其擾動大小不高于場景標(biāo)準(zhǔn)尺度的0.1%。
36、進(jìn)一步地,步驟10中所采用的第二損失函數(shù)表示為:
37、;
38、;
39、;
40、其中和'分別表示訓(xùn)練目標(biāo)視點圖像特征和生成的目標(biāo)視點圖像特征,是訓(xùn)練目標(biāo)視點圖像,是目標(biāo)視點的相機位姿光場,是第一階段場景潛在表示編碼模塊生成的場景潛在表示,是第二損失函數(shù)。
41、進(jìn)一步地,步驟6與步驟10分別執(zhí)行了兩個階段的模型訓(xùn)練,先訓(xùn)練場景潛在表示編碼模塊,再對場景新視點合成模塊進(jìn)行訓(xùn)練,而非對兩個模型進(jìn)行聯(lián)合優(yōu)化的同時訓(xùn)練。
42、本發(fā)明的有益效果為:
43、1、本發(fā)明既利用了預(yù)訓(xùn)練后的?transformer?模型豐富的先驗,極大地提高了模型的泛化能力,同時又引入了一種位姿光場編碼,使得場景新視點合成的生成速度和可控性大大增強。相較于神經(jīng)輻射場等三維幾何方法,不需要對單一場景進(jìn)行單獨訓(xùn)練;相較于zero123等擴散模型方法,實現(xiàn)了視點位姿的精確控制;與最近的基于圖像特征的同類方法相比,生成速度提高了3倍以上。
44、2、本發(fā)明使用兩階段的transformer編解碼器架構(gòu),依次訓(xùn)練場景潛在表示編碼模塊和場景新視點圖像生成模塊,避免了共同訓(xùn)練時由于第一階段不理想而導(dǎo)致的整體訓(xùn)練失敗。
45、3、本發(fā)明在訓(xùn)練中引入了一個目標(biāo)位姿的隨機加噪過程,通過極小的位姿噪聲擾動在不影響位姿控制的前提下有效避免了第二階段訓(xùn)練中對特定目標(biāo)位姿的過擬合現(xiàn)象,使得生成模型的泛化性與生成質(zhì)量都得到了較大提升,在完全未知的視點位置仍然能夠產(chǎn)生高質(zhì)量且三維一致的視點圖像。