本發(fā)明屬于計(jì)算機(jī)視覺(jué)領(lǐng)域,具體屬于視頻會(huì)議場(chǎng)景的新視點(diǎn)合成方法。
背景技術(shù):
1、隨著計(jì)算機(jī)技術(shù)和通信技術(shù)的持續(xù)發(fā)展,對(duì)視頻會(huì)議技術(shù)在質(zhì)量和適用性上的要求顯著提高?;谕ㄐ偶夹g(shù)實(shí)現(xiàn)遠(yuǎn)程協(xié)作和溝通的方式,可以有效地節(jié)省溝通成本、提高人們的工作效率。視頻會(huì)議技術(shù)在教育、工作、人際交往和娛樂(lè)等不同領(lǐng)域得到了廣泛應(yīng)用,市場(chǎng)需求日益增長(zhǎng)。其中,3d視頻會(huì)議系統(tǒng)作為視頻會(huì)議技術(shù)最有前景的應(yīng)用之一,進(jìn)一步提高了視頻會(huì)議系統(tǒng)的沉浸式體驗(yàn)感。
2、然而,盡管近年來(lái)新視點(diǎn)合成技術(shù)取得了快速發(fā)展,但針對(duì)3d視頻會(huì)議系統(tǒng)進(jìn)行優(yōu)化的方法仍然有限。3d視頻會(huì)議不僅需要高質(zhì)量的單幀密集視點(diǎn)渲染,還需要對(duì)生成視點(diǎn)的時(shí)間一致性(即視頻的連貫性)實(shí)現(xiàn)有效控制,以進(jìn)一步增強(qiáng)3d視頻的沉浸式體驗(yàn)感和保真度。雖然目前主流的方法已經(jīng)通過(guò)引入新的場(chǎng)景表達(dá)方式實(shí)現(xiàn)了顯著的進(jìn)步,但在保真度和時(shí)間一致性方面仍有相當(dāng)大的提升空間。
3、神經(jīng)輻射場(chǎng)作為一種基于場(chǎng)景體渲染的隱式場(chǎng)景表達(dá)方法,文獻(xiàn)1:mildenhallb,srinivasan?p?p,tancik?m,et?al.nerf:representing?scenes?as?neural?radiancefields?for?view?synthesis[j].communications?ofthe?acm,2021,65(1):99-106.最先引入隱式場(chǎng)景表達(dá)并得到了高質(zhì)量的新視點(diǎn)重建結(jié)果。相比于傳統(tǒng)幾何三維重建,隱式場(chǎng)景表達(dá)方法在場(chǎng)景保真度方面提升顯著,但在訓(xùn)練和推理速度、去噪和去模糊過(guò)程以及稀疏視圖輸入場(chǎng)景方面仍有欠缺,限制了其在實(shí)際應(yīng)用中的廣泛使用。雖然近年來(lái)基于隱式場(chǎng)景表達(dá)的場(chǎng)景泛化研究減少了跨場(chǎng)景表達(dá)的訓(xùn)練時(shí)間,但要實(shí)現(xiàn)高質(zhì)量的合成結(jié)果仍需要較長(zhǎng)的訓(xùn)練時(shí)間。并且,對(duì)于涉及大視差且稀疏輸入的場(chǎng)景,現(xiàn)有的隱式場(chǎng)景表達(dá)存在合成質(zhì)量不穩(wěn)定的現(xiàn)象,這些因素共同限制了隱式場(chǎng)景表達(dá)在3d視頻會(huì)議領(lǐng)域的應(yīng)用。
4、三維高斯?jié)姙R方法是一種使用各向異性3d高斯函數(shù)作為場(chǎng)景表示的顯式三維重建方法,文獻(xiàn)2:kerbl?b,kopanas?g,leimkühler?t,et?al.3d?gaussian?splatting?forreal-time?radiance?field?rendering[j].acm?trans.graph.,2023,42(4):139:1-139:14..結(jié)合基于梯度的優(yōu)化和顯式結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)的優(yōu)點(diǎn),可以實(shí)現(xiàn)高質(zhì)量的實(shí)時(shí)渲染。然而,該方法依賴于自適應(yīng)密度控制的優(yōu)化方法擬合場(chǎng)景,限制了其只能進(jìn)行單場(chǎng)景優(yōu)化。因此,許多基于三維高斯?jié)姙R的拓展方法被提出,這些方法提高了在稀疏視點(diǎn)輸入下的表達(dá)能力,有效地解決了原始三維高斯?jié)姙R的局限性,特別是在場(chǎng)景泛化和動(dòng)態(tài)場(chǎng)景表達(dá)等領(lǐng)域。
5、在視頻會(huì)議場(chǎng)景中的新視點(diǎn)合成往往面臨以下困難:1)大視差問(wèn)題。在視頻會(huì)議中,用戶與相機(jī)之間的距離通常較近。這導(dǎo)致采集的視點(diǎn)之間存在較大視差(即不同視角看到的圖像差異),進(jìn)而帶來(lái)遮擋關(guān)系復(fù)雜、深度估計(jì)困難、圖像變換誤差增大等問(wèn)題。2)稀疏輸入問(wèn)題。出于成本考慮,商業(yè)應(yīng)用中的3d視頻會(huì)議系統(tǒng)往往限制相機(jī)數(shù)量。因此,新視點(diǎn)合成常常需要依賴于稀疏的輸入視點(diǎn)。3)視頻會(huì)議場(chǎng)景不僅要求高質(zhì)量的單幀合成結(jié)果,還需要保證新視點(diǎn)視頻的整體質(zhì)量。這意味著合成方法需要在保證單幀質(zhì)量的同時(shí),維持不同幀之間的時(shí)間一致性。當(dāng)前方法在面對(duì)稀疏輸入和大視差時(shí),常因信息不足而在渲染的新視點(diǎn)中產(chǎn)生偽影(即圖像中的虛假或不自然部分)。此外,合成視頻的時(shí)間一致性也往往不夠理想。綜上所述,視頻會(huì)議場(chǎng)景下的新視點(diǎn)合成方法需要同時(shí)解決以下關(guān)鍵問(wèn)題:
6、1)在大視差條件下保證高質(zhì)量合成
7、2)適應(yīng)稀疏輸入
8、3)維持視頻的時(shí)間一致性
9、鑒于現(xiàn)有技術(shù)的局限性,該領(lǐng)域仍需進(jìn)一步的優(yōu)化與創(chuàng)新。
技術(shù)實(shí)現(xiàn)思路
1、為了解決大視差下稀疏輸入視點(diǎn)時(shí)新視點(diǎn)視頻合成時(shí)域一致性較差問(wèn)題,本發(fā)明提出一種面向視頻會(huì)議場(chǎng)景的新視點(diǎn)合成方法,在大視差條件下,將稀疏視點(diǎn)圖像作為輸入,通過(guò)圖像處理技術(shù)和深度學(xué)習(xí)網(wǎng)絡(luò),對(duì)視頻會(huì)議場(chǎng)景進(jìn)行高質(zhì)量的密集新視點(diǎn)重建。本發(fā)明對(duì)于未見(jiàn)過(guò)的場(chǎng)景無(wú)需額外訓(xùn)練,具備完全泛化能力;通過(guò)明確且具有幾何意義的數(shù)學(xué)模型和算法,利用完全顯式表達(dá)方式實(shí)現(xiàn)了訓(xùn)練加速,同時(shí)提高了視頻會(huì)議場(chǎng)景的適應(yīng)性和計(jì)算效率。
2、本發(fā)明具體技術(shù)方案的步驟如下:
3、步驟s1、通過(guò)雙目深度估計(jì)方法對(duì)輸入視點(diǎn)圖像進(jìn)行預(yù)測(cè)得到深度圖d's;
4、步驟s2、通過(guò)縮小場(chǎng)景深度范圍對(duì)深度圖d's進(jìn)行精細(xì)矯正,得到矯正深度圖ds;
5、步驟s3、根據(jù)ds計(jì)算目標(biāo)視點(diǎn)深度圖dt;
6、步驟s4、計(jì)算輸入視點(diǎn)圖像的投影圖像ws與平面掃描體(plane?sweep?volume,psv);
7、步驟s5、構(gòu)建融合網(wǎng)絡(luò);
8、步驟s6、獲取psv的融合權(quán)重與不透明度;
9、步驟s7、利用alpha融合算法獲得目標(biāo)視點(diǎn)圖像it。
10、步驟s1中,所述深度圖d's預(yù)測(cè)過(guò)程具體如下:
11、步驟s11,雙目相機(jī)拍攝獲取兩張輸入視點(diǎn)圖像,雙目相機(jī)包括輸入相機(jī)和目標(biāo)相機(jī)(不要寫(xiě)封閉式表述),兩張輸入視點(diǎn)圖像分別為i1和i2,通過(guò)特征提取網(wǎng)絡(luò)提取i1和i2的圖像特征,圖像特征分別為f1和f2;所述特征提取網(wǎng)絡(luò)選用transformer網(wǎng)絡(luò);
12、步驟s12,通過(guò)深度序列變換,得到f2在f1對(duì)應(yīng)相機(jī)位姿下的圖像特征所述深度序列變換過(guò)程如下:
13、首先,人工給定場(chǎng)景深度范圍,給定深度范圍為200mm-5000mm,在給定深度范圍內(nèi),深度序列為ai,i=1,2,…,n,n的取值范圍是32≤n≤128;根據(jù)深度序列計(jì)算網(wǎng)格坐標(biāo),網(wǎng)格坐標(biāo)變換過(guò)程為:
14、
15、其中,h(·)表示齊次網(wǎng)格坐標(biāo)的轉(zhuǎn)換,為f1對(duì)應(yīng)相機(jī)位姿下的網(wǎng)格坐標(biāo),g2d為f2對(duì)應(yīng)相機(jī)位姿下的網(wǎng)格坐標(biāo),k1表示i1對(duì)應(yīng)相機(jī)內(nèi)參數(shù)矩陣,k2表示i2對(duì)應(yīng)相機(jī)內(nèi)參數(shù)矩陣,e1表示i1對(duì)應(yīng)相機(jī)外參數(shù)矩陣,e2表示i2對(duì)應(yīng)相機(jī)外參數(shù)矩陣,h和w代表f2的高度和寬度;
16、然后,規(guī)范化將h×w×2分解成兩個(gè)h×w×1形狀的和將除以w,得到將除以h,得到再重新將和拼接成形狀為h×w×2的網(wǎng)格坐標(biāo)按下式計(jì)算規(guī)范化后的
17、
18、最后,將規(guī)范化的和f1一起輸入pytorch網(wǎng)絡(luò)的grid_sample函數(shù),輸出圖像特征
19、步驟s13,計(jì)算圖像特征相關(guān)性ci;所述圖像特征相關(guān)性ci的計(jì)算公式如下:
20、
21、其中,d為f1的特征數(shù)通道的維度;
22、步驟s14,根據(jù)圖像特征相關(guān)性ci計(jì)算得到深度圖d's;所述深度圖d's的計(jì)算過(guò)程如下:
23、首先,將ci集合,得到cd=[c1,c2,…,cn];
24、然后,將cd歸一化后得md,歸一化公式為:md=softmax(cd);
25、最后,利用pytorch的傳播機(jī)制將md與ad相乘,得到輸入視點(diǎn)圖像的深度圖d's,其中,s表示不同的輸入視點(diǎn)圖像,ad為ai構(gòu)成的深度序列,ad=[a1,a2,…,an]。
26、步驟s2中,所述精細(xì)矯正過(guò)程如下:
27、步驟s21,將步驟s12深度范圍縮小至200mm-500mm,重復(fù)步驟s12至步驟s14;過(guò)程中,深度序列圖bi的合集為bd=[b1,b2,…,bn],變換后的圖像特征為
28、步驟s22,計(jì)算n個(gè)與f1的方差qd,將qd輸入u-net網(wǎng)絡(luò)中,得到深度概率pd,根據(jù)公式ds=bd·ρd,得到矯正后的輸入視點(diǎn)圖像深度圖ds。
29、步驟s3中,所述目標(biāo)視點(diǎn)深度圖dt的計(jì)算方法如下:
30、由于深度圖ds包含輸入視點(diǎn)圖像中每個(gè)像素的對(duì)應(yīng)深度,將ds(us,vs)經(jīng)過(guò)反投影得到3d點(diǎn)云os(us,vs),反投影計(jì)算公式:
31、
32、其中,為輸入圖像的相機(jī)外參增廣矩陣逆;輸入圖像的相機(jī)內(nèi)參增廣矩陣的逆;ds為1/ds(us,vs),為os(us,vs)對(duì)應(yīng)的3d點(diǎn),移除1所在的維度,保留os的前三個(gè)維度得到o‘s,利用pytorch3d庫(kù)中的pointsrasterizer類(lèi),將o‘s投影到目標(biāo)視點(diǎn)圖像下渲染出目標(biāo)視點(diǎn)圖像下的z-buffer,z-buffer即是目標(biāo)視點(diǎn)深度圖dt。
33、步驟s4中,所述投影圖像ws計(jì)算方法如下:
34、首先,利用s3生成目標(biāo)視點(diǎn)深度圖dt,按如下公式得到目標(biāo)視點(diǎn)圖像的每個(gè)像素在輸入視點(diǎn)圖像is中對(duì)應(yīng)的網(wǎng)格坐標(biāo)gt(u't,v't):
35、
36、其中,為輸入視點(diǎn)圖像中像素的齊次坐標(biāo),u's為輸入視點(diǎn)圖像is中的像素在圖像坐標(biāo)系x軸上的坐標(biāo),v's為輸入視點(diǎn)圖像is中的像素在圖像坐標(biāo)系y軸上的坐標(biāo),ds為1/ds(u‘s,v‘s),為目標(biāo)視點(diǎn)圖像中像素的齊次坐標(biāo),u't為目標(biāo)視點(diǎn)圖像中的像素在圖像坐標(biāo)系x軸上的坐標(biāo),v't為目標(biāo)視點(diǎn)圖像中的像素在圖像坐標(biāo)系y軸上的坐標(biāo),dt為1/dt(u‘t,v‘t),ps為輸入圖像的相機(jī)外參增廣矩陣,ks為輸入圖像的相機(jī)內(nèi)參增廣矩陣,pt為目標(biāo)視點(diǎn)的相機(jī)外參增廣矩陣,為目標(biāo)視點(diǎn)的相機(jī)外參增廣矩陣的逆,kt為目標(biāo)視點(diǎn)的相機(jī)內(nèi)參增廣矩陣,為目標(biāo)視點(diǎn)的相機(jī)內(nèi)參增廣矩陣的逆;
37、最后,將gs與is一起輸入pytorch網(wǎng)絡(luò)的grid_sample函數(shù),得到變換圖像ws;
38、步驟s4中,所述psv生成方法具體為:
39、在dt的最大值和最小值之間按照如下公式取y個(gè)深度值,y的取值范圍是32≤y≤256,
40、
41、得到zd=[z1,z2,…,zy],計(jì)算psv的網(wǎng)格坐標(biāo)gpsv(u”t,v”t):
42、
43、其中,與分別表示輸入視點(diǎn)圖像和目標(biāo)視點(diǎn)圖像在圖像坐標(biāo)系下同一3d點(diǎn)投影得到的不同像素的齊次坐標(biāo),圖像坐標(biāo)系下輸入視點(diǎn)圖像像素和目標(biāo)視點(diǎn)圖像對(duì)應(yīng)像素的齊次坐標(biāo),u's',v's'分別表示輸入視點(diǎn)圖像中像素對(duì)應(yīng)圖像坐標(biāo)系x軸和y軸的坐標(biāo),n為平面的法向量,θ為平面偏置,n=[0,0,1],θ=-zi,r和t表示相機(jī)之間的相對(duì)姿態(tài)。
44、步驟s5中,所述融合網(wǎng)絡(luò)通過(guò)融合自注意力機(jī)制編碼器和軟注意力機(jī)制解碼器構(gòu)建而成;所述編碼器包含三個(gè)模塊,分別為swin-transformer網(wǎng)絡(luò)模塊,帶有殘差連接的卷積神經(jīng)網(wǎng)絡(luò)模塊以及特征調(diào)制模塊;
45、將swin-transformer網(wǎng)絡(luò)模塊的深度參數(shù)設(shè)置為4,輸入ws,經(jīng)過(guò)swin-transformer網(wǎng)絡(luò)模塊輸出transformer特征特征fμ的分辨率按順序依次為(w×h),
46、帶有殘差連接的卷積神經(jīng)網(wǎng)絡(luò)模塊是一種具有輸入跳過(guò)卷積層直接與輸出相加的殘差塊的卷積神經(jīng)網(wǎng)絡(luò)模塊,卷積神經(jīng)網(wǎng)絡(luò)模塊包含四個(gè)子網(wǎng)絡(luò),四個(gè)子網(wǎng)絡(luò)分別為cnn1、cnn2、cnn3和cnn4,其中,cnn1含有2個(gè)殘差塊,cnn2含有2個(gè)殘差塊,cnn3含有6個(gè)殘差塊,cnn4含有2個(gè)殘差塊;將ws輸入至卷積神經(jīng)網(wǎng)絡(luò)模塊后,首先ws經(jīng)過(guò)cnn1中的2個(gè)殘差塊得到然后經(jīng)過(guò)cnn2中的2個(gè)殘差塊后進(jìn)行下采樣得到接著經(jīng)過(guò)cnn3中的6個(gè)殘差塊后進(jìn)行下采樣得到最后經(jīng)過(guò)cnn4中的2個(gè)殘差塊后進(jìn)行下采樣得到最終ws經(jīng)過(guò)卷積神經(jīng)網(wǎng)絡(luò)模塊得到cnn特征fv的分辨率與fμ的分辨率相同;
47、特征fv經(jīng)過(guò)特征調(diào)制模塊得到特征后得到調(diào)制后特征fm,調(diào)制過(guò)程如下:
48、
49、其中,in表示的實(shí)例規(guī)范化,jγ(·)和jβ(·)表示一個(gè)參數(shù)不共享的卷積層,分別表示元素級(jí)乘法和元素級(jí)加法;fm為四個(gè)不同分辨率的調(diào)制特征
50、步驟s5中,所述解碼器包含兩個(gè)核心模塊,分別是skff模塊(selectivekernelfeature?fusion?module,選擇性內(nèi)核特性融合模塊)和dau模塊(dual?attentionunitmodule,雙注意力單元模塊);
51、skff模塊接受m個(gè)形狀均為h×w×x的特征,32≤m≤128,首先將輸入skff模塊的m個(gè)特征直接相加得到混合特征b,對(duì)b計(jì)算全局平均池化,得到通道特征fb,fb的長(zhǎng)度為x,此時(shí)使用一個(gè)卷積層對(duì)fb進(jìn)行降采樣,輸出長(zhǎng)度為x/8的降采樣通道特征f'b,最后使用m個(gè)并行的卷積層處理f'b并計(jì)算softmax,得到m個(gè)上采樣的通道分配權(quán)重最后,將zf與m個(gè)特征相乘作為skff模塊的輸出;
52、dau模塊接受尺寸為h×w×x'的特征fd,fd首先經(jīng)過(guò)兩個(gè)卷積層得到f'd,將f'd送入兩個(gè)分支;第一個(gè)分支中,在特征通道計(jì)算f's的全局平均池化和全局最大池化,得到兩個(gè)h×w×1的空間特征,將這兩個(gè)空間特征拼接在一起得到尺寸為h×w×2的預(yù)備空間特征s',將s'經(jīng)一層卷積層處理后輸出得到最終空間注意力第二個(gè)分支中,在空間通道計(jì)算對(duì)f'd的全局平均池化,得到1×1×x'的預(yù)備通道特征,預(yù)備通道特征經(jīng)過(guò)兩層卷積層處理后輸出通道注意力根據(jù)pytorch網(wǎng)絡(luò)的傳播機(jī)制,直接將f'd分別與和相乘,得到通道注意力特征和接著,將與拼接后輸出尺寸為h×w×2x'的組合特征將經(jīng)過(guò)一個(gè)卷積層后與fd相加,作為dau模塊的輸出;
53、步驟s5中,利用所述融合網(wǎng)絡(luò)對(duì)新視點(diǎn)進(jìn)行合成,得到初步圖像,具體過(guò)程如下:
54、首先,融合網(wǎng)絡(luò)對(duì)編碼器輸出的調(diào)制特征fm經(jīng)過(guò)3-5個(gè)卷積層進(jìn)行上采樣和下采樣,通過(guò)控制卷積層的步長(zhǎng)和輸出通道參數(shù),即可控制上采樣和下采樣的倍率以及輸出通道數(shù),在采樣過(guò)程中,所有的上采樣塊和下采樣塊中卷積層參數(shù)不共享;通過(guò)采樣,得到3組分辨率依次為(h×w),的特征,每組特征包括調(diào)制特征fm,將3組特征分別輸入3個(gè)skff模塊,經(jīng)過(guò)skff模塊輸出后,分別輸入至3個(gè)dau模塊,得到3個(gè)dau模塊的輸出特征;將3個(gè)dau模塊的輸出特征采樣到分辨率為h×w,再輸入至一個(gè)skff模塊;fm經(jīng)過(guò)解碼器,得到視頻會(huì)議場(chǎng)景目標(biāo)視點(diǎn)下融合后的新視點(diǎn)的初步圖像i*;
55、步驟s6中,所述獲取psv融合權(quán)重與不透明度的過(guò)程如下:
56、首先,將s4得到的psv和s5得到新視點(diǎn)初步圖像i*在通道層進(jìn)行拼接得到iin,psv的尺寸為h×w×3(y×v),v為輸入視點(diǎn)的個(gè)數(shù),i*的尺寸為h×w×3,iin的尺寸為h×w×3(y×v+1);
57、然后,將iin輸入到u-net網(wǎng)絡(luò)中,經(jīng)過(guò)u-net網(wǎng)絡(luò),輸出圖像融合權(quán)重ω與不透明度σ,其中,ω的尺寸為h×w×(y×v),σ的尺寸為h×w×(y+1)。
58、步驟s7中,利用alpha融合算法對(duì)初步圖像i*進(jìn)行融合,得到目標(biāo)視點(diǎn)圖像it,具體過(guò)程如下:
59、利用s6得到的融合權(quán)重ω與psv,將psv轉(zhuǎn)換為h×w×3×y×v的形狀,基于pytorch的傳播機(jī)制,將ω與psv直接相乘,利用pytorch的sum函數(shù),設(shè)定sum函數(shù)的求和通道為-1,輸出形狀為h×w×3×y的psvω;
60、最后,使用psvω與i*拼接,得到尺寸為h×w×3×(y+1)的psv';將psv'與σ進(jìn)行alpha融合,即得到最終目標(biāo)視點(diǎn)圖像it。
61、一種電子設(shè)備,包括一個(gè)或多個(gè)處理器;以及存儲(chǔ)器;一個(gè)或多個(gè)程序,其特征在于,所述一個(gè)或多個(gè)程序被存儲(chǔ)在所述存儲(chǔ)器中并被配置為由所述一個(gè)或多個(gè)處理器執(zhí)行,所述一個(gè)或多個(gè)程序配置用于執(zhí)行上述步驟s1至步驟s7所述的新視點(diǎn)合成方法。
62、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有程序代碼,所述程序代碼可被處理器調(diào)用執(zhí)行上述步驟s1至步驟s7所述的新視點(diǎn)合成方法。
63、本發(fā)明的有益效果在于:在大視差條件下,將稀疏視點(diǎn)圖像作為輸入,通過(guò)圖像處理技術(shù)和深度學(xué)習(xí)網(wǎng)絡(luò),對(duì)視頻會(huì)議場(chǎng)景進(jìn)行高質(zhì)量的密集新視點(diǎn)重建;本發(fā)明對(duì)于未見(jiàn)過(guò)的場(chǎng)景無(wú)需額外訓(xùn)練,具備完全泛化能力;本發(fā)明通過(guò)明確且具有幾何意義的數(shù)學(xué)模型和算法,利用完全顯式表達(dá)方式實(shí)現(xiàn)了訓(xùn)練加速,同時(shí)提高了視頻會(huì)議系統(tǒng)的適應(yīng)性和計(jì)算效率。