本發(fā)明涉及計(jì)算機(jī)視覺領(lǐng)域,特別是涉及一種基于場景流預(yù)測和神經(jīng)隱式表達(dá)的單目動態(tài)視頻三維重建方法、系統(tǒng)及裝置。
背景技術(shù):
1、在經(jīng)典的視頻新視角合成任務(wù)中,主要目標(biāo)是重建給定單目視頻的3d場景,并為每幀合成新視角。為了實(shí)現(xiàn)這一點(diǎn),通常使用不同相機(jī)姿勢的圖像來補(bǔ)充當(dāng)前幀的特征。傳統(tǒng)的多視角幾何理論需要同一時(shí)刻的多視角輸入;當(dāng)與基于圖像的渲染方法相結(jié)合時(shí),可以使用多層感知機(jī)、點(diǎn)云和體素等表示實(shí)現(xiàn)高保真場景新視角合成。
2、聚集來自相鄰幀的特征對于單幀新視角合成是至關(guān)重要的,因?yàn)槟繕?biāo)幀的被遮擋信息可能出現(xiàn)在相鄰幀中,并且如果獨(dú)立渲染每一幀,在視圖一致性和復(fù)雜的對象遮擋方面容易出現(xiàn)問題。然而神經(jīng)隱式表達(dá)給動態(tài)場景建模帶來了障礙,因?yàn)閳鼍氨唤殪o態(tài)連續(xù)分布,無法匯聚相鄰幀的圖像信息、運(yùn)動信息,通常對于運(yùn)動部分會出現(xiàn)偽影等圖像質(zhì)量差的問題。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明目的在于針對現(xiàn)有技術(shù)中的不足,提供了一種基于場景流預(yù)測和神經(jīng)隱式表達(dá)的單目動態(tài)視頻三維重建方法、系統(tǒng)及裝置。
2、如背景技術(shù)中提到的,現(xiàn)有技術(shù)對于解決單目視頻的動態(tài)場景的新視角合成還存在大量不足的地方,整合來自時(shí)空域和頻域的信號變得至關(guān)重要。本發(fā)明提出了一種新的分解可微小波變換,主要在頻域,以粗略估計(jì)視頻中隱式點(diǎn)云之間的場景流,并提出了一種專注于時(shí)空域的隱式場景流誤差濾波模型,用于場景流校正。此外,提出了形狀匹配和點(diǎn)云配準(zhǔn)作為剛性約束,以改進(jìn)預(yù)測的隱式場景流,實(shí)現(xiàn)高質(zhì)量的新視角合成。通過預(yù)測的對應(yīng)點(diǎn)云將相鄰幀特征聚合到當(dāng)前幀中,可以合成新的視圖。
3、本發(fā)明的目的是通過以下技術(shù)方案來實(shí)現(xiàn)的:一種基于場景流預(yù)測和神經(jīng)隱式表達(dá)的單目動態(tài)視頻三維重建方法,該方法包括以下步驟:
4、(1)分解可微小波變換系數(shù)預(yù)測:獲取動態(tài)場景中拍攝的單目視頻進(jìn)行采樣獲得采樣點(diǎn)(x,y,z,t),并采用四維分解可微小波方法將小波系數(shù)和小波基函數(shù)分為三個(gè)維度:(x,t),(y,t),(z,t),其中,x,y,z分別表示三個(gè)空間維度,t表示時(shí)間維度,代表屬于視頻中的第幾幀;對于給定的點(diǎn)pt,將其分解為三維pt(m),其中m∈u=x,y,z;然后使用三個(gè)獨(dú)立的多層感知機(jī)預(yù)測小波變換系數(shù),在每個(gè)維度m有:其中k為小波基函數(shù)的數(shù)量;
5、(2)分解可微小波變換基函數(shù)優(yōu)化:將小波基函數(shù)θt分解為三個(gè)正交坐標(biāo){θt(m)}m∈u,并使用多層感知機(jī)wθ(m)在單目視頻每幀it的迭代中對它們進(jìn)行優(yōu)化;基函數(shù)初始化為:
6、
7、其中t為視頻幀數(shù),參數(shù)i∈[1,m],j∈[0,n],t描述了第t幀中的一個(gè)小波基函數(shù),其中ki控制小波基函數(shù)的頻率,j控制小波基函數(shù)的中心偏移量,n,m為超參數(shù);
8、(3)分解可微小波變換隱式場景流預(yù)測:預(yù)測神經(jīng)隱式表達(dá)動態(tài)場景中的隱式場景流并建立單目視頻相鄰幀中位置與當(dāng)前幀it之間的對應(yīng)關(guān)系,包括使用多層感知機(jī)預(yù)測和更新與小波變換的可學(xué)習(xí)小波系數(shù)和小波基函數(shù),然后計(jì)算隱式場景流;從步驟(1)和步驟(2)中獲得的分解可微小波變換系數(shù)和優(yōu)化基函數(shù)之后,對于采樣點(diǎn)在相鄰幀的運(yùn)動進(jìn)行預(yù)測,從而聚集相鄰幀的視頻信息,對于四維采樣點(diǎn)(x,y,z,t)進(jìn)行軌跡預(yù)測(x′,y′,z′,t′)輸入到步驟(1)中的多層感知機(jī)預(yù)測小波變換系數(shù),使用該系數(shù)與步驟(2)中可優(yōu)化小波基函數(shù)進(jìn)行點(diǎn)乘獲得初步估計(jì)的隱式場景流;
9、(4)隱式場景流誤差修正:對于步驟(3)中得到的初步估計(jì)的隱式場景流進(jìn)行修正得到誤差修正后場景流
10、
11、其中,表示初步估計(jì)得到的隱式場景流,表示初步預(yù)測的t+1時(shí)刻的點(diǎn)云:ht+1表示來自t時(shí)刻的點(diǎn)云的估計(jì)的可信度的權(quán)重,kt+1表示測量與預(yù)測之間差異的顯著性,∈表示真實(shí)值和預(yù)測值的偏差;
12、最終使用修正后的場景流預(yù)測t+1時(shí)刻的點(diǎn)云
13、
14、(5)隱式場景流束調(diào)整:對于步驟(4)中得到的誤差修正后場景流,引入形狀匹配和倒角距離約束,得到單目動態(tài)視頻三維重建結(jié)果。
15、進(jìn)一步地,獲取動態(tài)場景中拍攝的單目視頻之后需要進(jìn)行預(yù)處理,包括:深度預(yù)測、視頻幀動靜態(tài)部分分割。
16、進(jìn)一步地,所述倒角距離約束具體為:給定第t幀點(diǎn)云和其相鄰幀t′幀點(diǎn)云以及兩者之間預(yù)測的場景流重新計(jì)算于是計(jì)算兩個(gè)點(diǎn)云之間的倒角距離:
17、
18、其中dist,index分別表示點(diǎn)云中的每一個(gè)點(diǎn),在另一個(gè)點(diǎn)云中最近點(diǎn)的距離和最近點(diǎn)的編號的集合,于是
19、
20、其中disti表示點(diǎn)云中第i個(gè)點(diǎn)在另一個(gè)點(diǎn)云中最近點(diǎn)的距離,n為點(diǎn)云數(shù)量。
21、進(jìn)一步地,所述形狀匹配約束具體為:對于點(diǎn)云p0和p,目標(biāo)為尋找旋轉(zhuǎn)矩陣r最小化目標(biāo)函數(shù):
22、
23、其中c和c0分別表示對應(yīng)點(diǎn)云p0和p點(diǎn)云的質(zhì)心,pi和分別表示對應(yīng)點(diǎn)云中的點(diǎn),a為待優(yōu)化變量,表示旋轉(zhuǎn)平移矩陣,mi表示點(diǎn)的質(zhì)量,將上述式子簡化為:
24、
25、其中,qi=pi-c,求導(dǎo)求最值得到a=(∑imiuiqit)(∑imiqiqit)-1=auqaqq,此時(shí)目標(biāo)函數(shù)最小,其中第二項(xiàng)為對稱矩陣純移動不包含旋轉(zhuǎn)分量,得到和于是:
26、
27、其中n為點(diǎn)云數(shù)量,和pi分別表示估計(jì)和真值中的點(diǎn)云中的點(diǎn)。
28、第二方面,本發(fā)明還提供了一種基于場景流預(yù)測和神經(jīng)隱式表達(dá)的單目動態(tài)視頻三維重建系統(tǒng),該系統(tǒng)包括:分解可微小波變換模塊、隱式場景流誤差修正模塊和隱式場景流束調(diào)整模塊;
29、所述分解可微小波變換模塊用于初步預(yù)測場景流,包括使用多層感知機(jī)預(yù)測和更新與傳統(tǒng)小波變換相關(guān)的可學(xué)習(xí)小波系數(shù)和小波基函數(shù),將四維點(diǎn)云坐標(biāo)進(jìn)行嵌入編碼后進(jìn)行場景流的初步預(yù)測;
30、所述隱式場景流誤差修正模塊用于修正場景流預(yù)測誤差,使用卡爾曼濾波方法對分解可微小波變換模塊輸出的初步預(yù)測場景流進(jìn)行誤差修正;
31、所述隱式場景流束調(diào)整模塊用于對隱式場景流誤差修正模塊輸出的修正場景流預(yù)測引入形狀匹配和倒角距離進(jìn)行物理約束。
32、第三方面,本發(fā)明還提供了一種基于場景流預(yù)測和神經(jīng)隱式表達(dá)的單目動態(tài)視頻三維重建裝置,包括存儲器和一個(gè)或多個(gè)處理器,所述存儲器中存儲有可執(zhí)行代碼,所述處理器執(zhí)行所述可執(zhí)行代碼時(shí),實(shí)現(xiàn)所述的一種基于場景流預(yù)測和神經(jīng)隱式表達(dá)的單目動態(tài)視頻三維重建方法。
33、第四方面,本發(fā)明還提供了一種計(jì)算機(jī)可讀存儲介質(zhì),其上存儲有程序,所述程序被處理器執(zhí)行時(shí),實(shí)現(xiàn)所述的一種基于場景流預(yù)測和神經(jīng)隱式表達(dá)的單目動態(tài)視頻三維重建方法。
34、第五方面,本發(fā)明還提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí),實(shí)現(xiàn)所述的一種基于場景流預(yù)測和神經(jīng)隱式表達(dá)的單目動態(tài)視頻三維重建方法。
35、本發(fā)明的有益效果在于:
36、1、融合了小波變換、神經(jīng)隱式場的優(yōu)勢,提高了聚集單目視頻相鄰幀視頻信息能力和特征提取能力,有效的提高了模型的訓(xùn)練穩(wěn)定性和收斂速度。
37、2、采用四維分解可微小波方法,包括使用多層感知機(jī)預(yù)測和更新與傳統(tǒng)小波變換相關(guān)的可學(xué)習(xí)小波系數(shù)和小波基函數(shù),然后計(jì)算隱式場景流。將小波系數(shù)和小波基函數(shù)分為三個(gè)維度,增強(qiáng)模型能力以提高性能。
38、3、使用小波變換的方式取代現(xiàn)有技術(shù)通常使用的余弦變換對隱式場景流進(jìn)行預(yù)測,提高了隱式場景流預(yù)測的準(zhǔn)確性,并且對于訓(xùn)練收斂的速度也有提高。
39、4、引入卡爾曼濾波方法對于分解可微小波變換模塊初步預(yù)測的隱式場景流進(jìn)行誤差修正,提高了場景流預(yù)測的準(zhǔn)確性。
40、5、僅僅依靠原始的rgb渲染約束可能不足以實(shí)現(xiàn)最佳性能為了保證剛性和形狀一致性,于是引入了兩個(gè)幾何物理約束,即形狀匹配和倒角距離,以增強(qiáng)模型的預(yù)測能力。
41、綜上所述,本發(fā)明提供了一種基于場景流預(yù)測和神經(jīng)隱式表達(dá)的單目動態(tài)視頻三維重建方法與系統(tǒng),可廣泛應(yīng)用于視頻監(jiān)控、智能駕駛、體育分析等領(lǐng)域。該方法能夠有效地提高單目視頻動態(tài)場景重建的準(zhǔn)確性禾魯棒性,具有較好的應(yīng)用前景和商業(yè)價(jià)值。