本技術(shù)涉及計算機視覺與虛擬場景拍攝,特別地涉及一種虛擬相機位姿調(diào)整方法、系統(tǒng)以及計算機程序產(chǎn)品。
背景技術(shù):
1、此處提供的背景技術(shù)描述的目的是總體地給出本技術(shù)的背景,本部分的陳述僅僅是提供了與本技術(shù)相關(guān)的背景,并不必然構(gòu)成現(xiàn)有技術(shù)。
2、現(xiàn)有技術(shù)下,對于一個傳統(tǒng)的演藝節(jié)目而言,真實視頻拍攝過程一般包括場景設(shè)計、表演安排、情節(jié)設(shè)計和相機位置設(shè)定等多個步驟。每個拍攝的鏡頭都受到上述因素的影響,由于客觀條件的限制,視頻制作者可能無法拍攝出最好的鏡頭。同時,這類節(jié)目由于其不確定性,導(dǎo)演往往會選擇提前進行一次預(yù)演的拍攝,這需要耗費大量的人力物力,也會受到時間和天氣等各種因素影響。所以高成本、低可控性和需要提前彩排是目前傳統(tǒng)演藝節(jié)目的主要問題。但如果能將節(jié)目轉(zhuǎn)移到虛擬場景中進行拍攝,則可以減少各種因素帶來的影響,幫助導(dǎo)演方便快速的找到最佳拍攝方案,獲得最佳的視覺效果,提高節(jié)目的制作效率并且減少大量的成本消耗。然而,雖然虛擬場景中拍攝有諸多優(yōu)點,但是目前虛擬場景通常使用虛擬引擎人為搭建,手工建模相關(guān)的演藝場景這一過程過于復(fù)雜耗時,需要人為創(chuàng)建物體的材質(zhì)、紋理和光照等,同時對于建模的逼真度也難以保證,部分特殊材質(zhì)(如玻璃,霧氣等)的物體難以很好通過手工建模的方式呈現(xiàn)出來,導(dǎo)致了重建虛擬場景耗時耗力,效果差的問題。綜上,目前仍熱缺少快速表達出一個虛擬場景的方法。
3、在虛擬場景中拍攝演藝節(jié)目,除了演藝本身的創(chuàng)意和質(zhì)量外,相機的運鏡也非常重要,因為它直接和觀眾的觀感掛鉤。合理運用鏡頭語言將更好地增強數(shù)字演藝內(nèi)容的藝術(shù)表現(xiàn)力,提高數(shù)字演藝內(nèi)容的質(zhì)量和創(chuàng)造性,從而更好地滿足觀眾的需求和沉浸式體驗,因此,如何確定虛擬場景中的相機軌跡也至關(guān)重要。為了方便的確定一條拍攝軌跡,傳統(tǒng)節(jié)目拍攝中會使用“視覺致敬”方法,即演藝拍攝者往往會模仿一些電影或演藝節(jié)目中的經(jīng)典鏡頭,可以幫助拍攝者更好地傳達特定的情感或者主題,從而增強作品的深度并引起觀眾的共鳴,受到“視覺致敬”的啟發(fā),對于演藝拍攝者來說,在虛擬場景中,如果能根據(jù)已有的拍攝視頻,智能分析其中相機的拍攝軌跡和手法,將其應(yīng)用到虛擬演藝場景之中,則可以在并不深入了解鏡頭語言知識和相機操作技術(shù)的情況下確定虛擬場景中的相機位姿,同時只需要改變已有的參考視頻,就能獲得不同靈活多變的虛擬場景視頻片段。這種能夠方便精確操作和再現(xiàn)攝像機運動等視覺元素的技術(shù)將有助于創(chuàng)作出更具創(chuàng)意和視覺沖擊力的演藝作品。
4、為了優(yōu)化相機的位姿從而保證參考視頻和渲染視頻拍攝手法一致,需要考慮到兩者之間的多個特征是否一致?,F(xiàn)有的方法往往會考慮人物動作、構(gòu)圖、相機運動和美學(xué)評價等方面的特征。其中,構(gòu)圖特征一般考慮的是人物的構(gòu)圖,使用人物的關(guān)節(jié)點特征來表示人物的位置和大小等,但人物在屏幕上的位置只是一種2d的構(gòu)圖信息,在真實的拍攝中,往往還需要全面考慮畫面中的透視關(guān)系,即3d的構(gòu)圖信息。因此,目前仍然缺少一種特征能表示人物3d的構(gòu)圖信息來輔助指導(dǎo)相機的位姿優(yōu)化。
5、因此,亟需一種新的相機位姿優(yōu)化方法,以能夠克服并解決如上所述的缺陷。
技術(shù)實現(xiàn)思路
1、針對上述問題,本技術(shù)提出一種虛擬相機位姿調(diào)整方法、虛擬相機位姿調(diào)整系統(tǒng)以及存儲介質(zhì)。
2、本技術(shù)的第一個方面,提供了一種虛擬相機位姿調(diào)整方法,包括:
3、通過動態(tài)神經(jīng)輻射場確定預(yù)設(shè)參考視頻對應(yīng)的隱式表達模型,并根據(jù)預(yù)設(shè)相機軌跡位姿集合中的任一相機軌跡位姿,通過所述隱式表達模型確定當(dāng)前相機軌跡位姿下的渲染視頻;
4、將所述渲染視頻和所述預(yù)設(shè)參考視頻輸入至預(yù)設(shè)虛擬相機位姿優(yōu)化模型,以分別確定所述預(yù)設(shè)參考視頻和所述渲染視頻中各視頻幀的光流圖、人物關(guān)節(jié)點熱力圖和深度圖;
5、分別確定所述光流圖對應(yīng)的光流損失函數(shù)、所述人物關(guān)節(jié)點熱力圖對應(yīng)的關(guān)節(jié)點損失函數(shù)和所述深度圖對應(yīng)的深度損失函數(shù);
6、根據(jù)所述預(yù)設(shè)參考視頻和所述渲染視頻的光流圖、人物關(guān)節(jié)點熱力圖和深度圖,通過預(yù)設(shè)引導(dǎo)區(qū)域確定模型確定引導(dǎo)區(qū)域,以突出顯示對梯度貢獻滿足預(yù)設(shè)條件的關(guān)鍵區(qū)域;
7、針對所述渲染視頻中視頻幀的任一像素點,根據(jù)所述光流損失函數(shù)確定第一梯度、根據(jù)所述關(guān)節(jié)點損失函數(shù)確定第二梯度并根據(jù)所述深度損失函數(shù)確定第三梯度;并根據(jù)所述引導(dǎo)區(qū)域分別確定所述第一梯度對應(yīng)的第一回傳梯度、所述第二梯度對應(yīng)的第二回傳梯度以及所述第三梯度對應(yīng)的第三回傳梯度,并將所述第一回傳梯度、所述第二回傳梯度和所述第三回傳梯度進行回傳,以優(yōu)化虛擬相機的拍攝參數(shù)。
8、進一步地,所述預(yù)設(shè)虛擬相機位姿優(yōu)化模型包括:
9、
10、其中,為相機的外參矩陣,為時間,φ為相機的焦距,fθ()為隱式表達模型,為參考視頻的視頻幀;其中,
11、
12、
13、其中,i為參考視頻的視頻幀標(biāo)號,i*為渲染視頻的視頻幀。
14、進一步地,所述預(yù)設(shè)引導(dǎo)區(qū)域確定模型包括:
15、
16、其中,為第二特征差分圖,h*為渲染視頻幀的關(guān)節(jié)點熱力圖,為參考視頻幀的關(guān)節(jié)點熱力圖;為第一特征差分圖,o*為渲染視頻幀的光流圖,為參考視頻幀的光流圖;為第三特征差分圖,d*為渲染視頻幀的深度圖,為參考視頻幀的深度圖;f*()表示歸一化處理。
17、進一步地,所述根據(jù)所述光流損失函數(shù)確定第一梯度、根據(jù)所述關(guān)節(jié)點損失函數(shù)確定第二梯度并根據(jù)所述深度損失函數(shù)確定第三梯度,包括:
18、對所述光流損失函數(shù)進行求導(dǎo)操作,獲得所述第一梯度;
19、對所述關(guān)節(jié)點損失函數(shù)進行求導(dǎo)操作,獲得所述第二梯度;
20、對所述深度損失函數(shù)進行求導(dǎo)操作,獲得所述第三梯度。
21、進一步地,所述根據(jù)所述引導(dǎo)區(qū)域分別確定所述第一梯度對應(yīng)的第一回傳梯度、所述第二梯度對應(yīng)的第二回傳梯度以及所述第三梯度對應(yīng)的第三回傳梯度,包括:
22、將所述引導(dǎo)區(qū)域和所述第一梯度的點乘結(jié)果,作為所述第一回傳梯度;
23、將所述引導(dǎo)區(qū)域和所述第二梯度的點乘結(jié)果,作為所述第二回傳梯度;
24、將所述引導(dǎo)區(qū)域和所述第三梯度的點乘結(jié)果,作為所述第三回傳梯度。
25、進一步地,所述光流損失函數(shù)包括:
26、
27、其中,和分別表示渲染視頻的水平光流分量和垂直光流分量,和分別表示參考視頻的水平光流分量和垂直光流分量。
28、進一步地,所述關(guān)節(jié)點損失函數(shù)包括:
29、
30、其中,dw為wasserstein距離,h*和分別代表渲染視頻幀和參考視頻幀的人物關(guān)節(jié)點熱力圖,hi表示人物關(guān)節(jié)點熱力圖中第i個關(guān)節(jié)點的值,m為關(guān)節(jié)點數(shù)量。
31、進一步地,所述深度損失函數(shù)包括:
32、
33、其中,n為視頻幀中像素點的數(shù)量,和分別表示渲染視頻幀和參考視頻幀的第i個像素點的深度值,h為參考視頻幀的高度,w為參考視頻幀的寬度。
34、本技術(shù)的第二個方面,提供了一種虛擬相機位姿調(diào)整系統(tǒng),包括:
35、場景視頻渲染模塊,用于通過動態(tài)神經(jīng)輻射場確定預(yù)設(shè)參考視頻對應(yīng)的隱式表達模型,并根據(jù)預(yù)設(shè)相機軌跡位姿集合中的任一相機軌跡位姿,通過所述隱式表達模型確定當(dāng)前相機軌跡位姿下的渲染視頻;
36、特征估計模塊,用于將所述渲染視頻和所述預(yù)設(shè)參考視頻輸入至預(yù)設(shè)虛擬相機位姿優(yōu)化模型,以分別確定所述預(yù)設(shè)參考視頻和所述渲染視頻中各視頻幀的光流圖、人物關(guān)節(jié)點熱力圖和深度圖;
37、損失函數(shù)確定模塊,用于分別確定所述光流圖對應(yīng)的光流損失函數(shù)、所述人物關(guān)節(jié)點熱力圖對應(yīng)的關(guān)節(jié)點損失函數(shù)和所述深度圖對應(yīng)的深度損失函數(shù);
38、引導(dǎo)區(qū)域確定模塊,用于根據(jù)所述預(yù)設(shè)參考視頻和所述渲染視頻的光流圖、人物關(guān)節(jié)點熱力圖和深度圖,通過預(yù)設(shè)引導(dǎo)區(qū)域確定模型確定引導(dǎo)區(qū)域,以突出顯示對梯度貢獻滿足預(yù)設(shè)條件的關(guān)鍵區(qū)域;
39、梯度回傳模塊,用于針對所述渲染視頻中視頻幀的任一像素點,根據(jù)所述光流損失函數(shù)確定第一梯度、根據(jù)所述關(guān)節(jié)點損失函數(shù)確定第二梯度并根據(jù)所述深度損失函數(shù)確定第三梯度;并根據(jù)所述引導(dǎo)區(qū)域分別確定所述第一梯度對應(yīng)的第一回傳梯度、所述第二梯度對應(yīng)的第二回傳梯度以及所述第三梯度對應(yīng)的第三回傳梯度,并將所述第一回傳梯度、所述第二回傳梯度和所述第三回傳梯度進行回傳,以優(yōu)化虛擬相機的拍攝參數(shù)。
40、本技術(shù)的第三個方面,提供了一種計算機程序產(chǎn)品,所述計算機程序產(chǎn)品包括計算機程序或指令,所述計算機程序或指令被處理器執(zhí)行時實現(xiàn)如上所述方法的步驟。
41、與現(xiàn)有技術(shù)相比,本技術(shù)的技術(shù)方案所具備的優(yōu)點或有益效果包括:
42、本技術(shù)基于演藝場景隱式神經(jīng)表達以及使用光流、關(guān)節(jié)點熱力圖和深度三個特征協(xié)同優(yōu)化的方法,更加適用于演藝場景上相機的位姿優(yōu)化,能達到的效果與參考視頻較為一致,可以顯著提高生成相機位姿序列的質(zhì)量以及減少場景重建的工作量。
43、本技術(shù)基于現(xiàn)有相機位姿優(yōu)化方案中存在的問題,以現(xiàn)有工作中的部分預(yù)訓(xùn)練模型為數(shù)據(jù)預(yù)處理基礎(chǔ),公開了一個基于演藝場景隱式神經(jīng)表達的多特征協(xié)同虛擬相機位姿優(yōu)化模型。使用動態(tài)神經(jīng)輻射場對場景進行隱式神經(jīng)表達,從而獲得不同相機軌跡下的渲染視頻。同時還設(shè)計了三個可微分的下游網(wǎng)絡(luò),分別用于提取渲染視頻和參考視頻中的光流、人物關(guān)節(jié)點熱力圖和深度特征,計算這三個特征之間的損失,用于衡量參考視頻和神經(jīng)輻射場渲染視頻之間相機和人物的運動、人物構(gòu)圖和畫面透視關(guān)系上的差異,最終反向傳播優(yōu)化相機的位姿。由于整體模型是可微分的,所以可以端到端地對相機位姿進行迭代優(yōu)化,減少累積誤差,最終得到和參考視頻拍攝效果相似的渲染視頻。同時為了解決所有像素的梯度反向傳播會導(dǎo)致計算消耗過大以及部分損失中的背景像素提供的信息較少的問題,本技術(shù)提出了通過生成的關(guān)節(jié)點熱力圖、光流圖和深度圖之間的聯(lián)合差分圖計算得出指導(dǎo)圖,以突出顯示對梯度貢獻滿足預(yù)設(shè)條件的關(guān)鍵區(qū)域,并選擇性反向傳播這部分區(qū)域的梯度,來減少內(nèi)存消耗并提供類似于注意力的機制,幫助收斂關(guān)注信息豐富的區(qū)域。