本發(fā)明一般涉及用于基于神經(jīng)網(wǎng)絡的輻射場緊湊編碼以促進流媒體自由視點視頻的裝置和方法。
背景技術:
1、神經(jīng)輻射場(nerf)在對靜態(tài)對象的建模和自由視角渲染方面的成功激發(fā)了對動態(tài)場景的無數(shù)嘗試。目前利用神經(jīng)渲染來促進自由視角視頻(fvv)的技術局限于離線渲染,或者只能處理具有最小運動的短序列。本發(fā)明描述了一種新技術,殘差輻射場或rerf,作為一種高度緊湊的神經(jīng)表示,以實現(xiàn)對長時間動態(tài)場景的實時fvv渲染。。
技術實現(xiàn)思路
1、說明書的各種實施例包括但不限于使用神經(jīng)網(wǎng)絡進行輻射場緊湊編碼以促進流媒體自由視點視頻的系統(tǒng)、方法和非暫時性計算機可讀介質(zhì)。
2、在一些方面,本發(fā)明描述的技術涉及一種計算機實現(xiàn)的方法,包括:訓練針對動態(tài)輻射場的多層感知器(mlp)特征解碼器(例如,從動態(tài)輻射場的起始幀訓練);捕獲動態(tài)輻射場中的第一幀(例如,第一幀在起始幀之后);估計從第一幀到第二幀的高分辨率運動場,其中第二幀在動態(tài)輻射場中緊接在第一幀之前,并且高分辨率運動場包括指向第二幀中的對應體素的第一幀中體素的運動向量;通過對高分辨率運動場執(zhí)行運動池化來構建用于第一幀的低分辨率運動網(wǎng)格;通過使用經(jīng)訓練的mlp解碼器扭曲第二幀和低分辨率運動網(wǎng)格的特征來構建用于第一幀的殘差網(wǎng)格;以及基于動態(tài)輻射場中一幀(例如,起始幀)的特征網(wǎng)格表示以及在動態(tài)輻射場的每個時間步構建的一系列低分辨率運動網(wǎng)格和殘差網(wǎng)格,將動態(tài)輻射場編碼為低分辨率表示。
3、在一些方面,本發(fā)明描述的技術涉及一種方法,其中動態(tài)輻射場包括長時間rgb視頻輸入。
4、在一些方面,本發(fā)明描述的技術涉及一種方法,其中用于第一幀的低分辨率運動網(wǎng)格包括第一幀中的多個體素與第二幀中的對應體素之間的體素偏移。
5、在一些方面,本發(fā)明描述的技術涉及一種方法,其中殘差網(wǎng)格包括對第一幀中的相鄰扭曲誤差和新觀察到的區(qū)域的稀疏補償。
6、在一些方面,本發(fā)明描述的技術涉及一種方法,其中構建低分辨率運動網(wǎng)格包括:將高分辨率運動場分割成多個三維立方體;對于多個三維立方體中的每一個,應用平均池化以迫使每個立方體共享同一運動向量;以及將高分辨率運動場下采樣成低分辨率運動網(wǎng)格。
7、在一些方面,本發(fā)明描述的技術涉及一種方法,其中應用平均池化包括:選擇第二幀中平均運動向量指向的體素作為三維立方體的體素運動向量。
8、在一些方面,本發(fā)明描述的技術涉及一種方法,其中構建用于第一幀的殘差網(wǎng)格包括:獲得第二幀的特征網(wǎng)格;將第二幀的特征網(wǎng)格和低分辨率運動網(wǎng)格扭曲成第一幀的基礎網(wǎng)格,其中基礎網(wǎng)格粗略補償由幀間運動引起的特征差異;以及通過固定第一幀的基礎網(wǎng)格和所述經(jīng)訓練的mlp并反向傳播梯度以僅更新殘差網(wǎng)格的參數(shù),學習用于第一幀的殘差網(wǎng)格。
9、在一些方面,本發(fā)明描述的技術涉及一種方法,還包括解碼低分辨率表示,其中解碼包括:基于第二幀的特征網(wǎng)格、用于第一幀的低分辨率運動網(wǎng)格和用于第一幀的殘差網(wǎng)格,生成用于第一幀的特征網(wǎng)格。
10、在一些方面,本發(fā)明描述的技術涉及一種方法,其中生成用于第一幀的特征網(wǎng)格包括:將用于第一幀的低分辨率運動網(wǎng)格應用于第二幀的特征網(wǎng)格,以提取幀間冗余并獲得用于第一幀的基礎特征網(wǎng)格;以及將殘差網(wǎng)格中的殘差補償添加到用于第一幀的基礎特征網(wǎng)格,以獲得用于第一幀的特征網(wǎng)格。
11、在一些方面,本發(fā)明描述的技術涉及一種方法,還包括將動態(tài)輻射場的低分辨率表示傳送到用于自由視點觀看的播放器。
12、在一些方面,本發(fā)明描述的技術涉及一種系統(tǒng),包括一個或多個處理器和耦合到一個或多個處理器并配置有指令的一個或多個非暫時性計算機可讀存儲器,所述指令可由一個或多個處理器執(zhí)行以使系統(tǒng)執(zhí)行操作,所述操作包括:訓練針對動態(tài)輻射場的多層感知器(mlp)特征解碼器(例如,從動態(tài)輻射場的起始幀訓練);捕獲動態(tài)輻射場中的第一幀(例如,第一幀在起始幀之后);估計從第一幀到第二幀的高分辨率運動場,其中第二幀在動態(tài)輻射場中緊接在第一幀之前,并且高分辨率運動場包括指向第二幀中的對應體素的第一幀中體素的運動向量;通過對高分辨率運動場執(zhí)行運動池化來構建用于第一幀的低分辨率運動網(wǎng)格;通過使用經(jīng)訓練的mlp解碼器扭曲第二幀和低分辨率運動網(wǎng)格的特征來構建用于第一幀的殘差網(wǎng)格;以及基于動態(tài)輻射場中一幀(例如,起始幀)的特征網(wǎng)格表示以及在動態(tài)輻射場的每個時間步構建的一系列低分辨率運動網(wǎng)格和殘差網(wǎng)格,將動態(tài)輻射場編碼為低分辨率表示。
13、在一些方面,本發(fā)明描述的技術涉及一種系統(tǒng),其中動態(tài)輻射場包括長時間rgb視頻輸入。
14、在一些方面,本發(fā)明描述的技術涉及一種系統(tǒng),其中用于第一幀的低分辨率運動網(wǎng)格包括第一幀中的多個體素與第二幀中的對應體素之間的體素偏移。
15、在一些方面,本發(fā)明描述的技術涉及一種系統(tǒng),其中用于第一幀的低分辨率運動網(wǎng)格包括第一幀中的多個體素與第二幀中的對應體素之間的體素偏移。
16、在一些方面,本發(fā)明描述的技術涉及一種系統(tǒng),其中殘差網(wǎng)格包括對第一幀中的相鄰扭曲誤差和新觀察到的區(qū)域的稀疏補償。
17、在一些方面,本發(fā)明描述的技術涉及一種系統(tǒng),其中構建低分辨率運動網(wǎng)格包括:將高分辨率運動場分割成多個三維立方體;對于多個三維立方體中的每一個,應用平均池化以迫使每個立方體共享同一運動向量;以及將高分辨率運動場下采樣成低分辨率運動網(wǎng)格。
18、在一些方面,本發(fā)明描述的技術涉及一種非暫時性計算機可讀存儲介質(zhì),配置有指令,所述指令可由一個或多個處理器執(zhí)行以使一個或多個處理器執(zhí)行操作,所述操作包括:訓練針對動態(tài)輻射場的多層感知器(mlp)特征解碼器(例如,從動態(tài)輻射場的起始幀訓練);捕獲動態(tài)輻射場中的第一幀(例如,第一幀在起始幀之后);估計從第一幀到第二幀的高分辨率運動場,其中第二幀在動態(tài)輻射場中緊接在第一幀之前,并且高分辨率運動場包括指向第二幀中的對應體素的第一幀中體素的運動向量;通過對高分辨率運動場執(zhí)行運動池化來構建用于第一幀的低分辨率運動網(wǎng)格;通過使用經(jīng)訓練的mlp解碼器扭曲第二幀和低分辨率運動網(wǎng)格的特征來構建用于第一幀的殘差網(wǎng)格;以及基于動態(tài)輻射場中一幀(例如,起始幀)的特征網(wǎng)格表示以及在動態(tài)輻射場的每個時間步構建的一系列低分辨率運動網(wǎng)格和殘差網(wǎng)格,將動態(tài)輻射場編碼為低分辨率表示。
19、在一些方面,本發(fā)明描述的技術涉及一種非暫時性計算機可讀存儲介質(zhì),其中構建用于第一幀的殘差網(wǎng)格包括:獲得第二幀的特征網(wǎng)格;將第二幀的特征網(wǎng)格和低分辨率運動網(wǎng)格扭曲成第一幀的基礎網(wǎng)格,其中基礎網(wǎng)格粗略補償由幀間運動引起的特征差異;以及通過固定第一幀的基礎網(wǎng)格和所述經(jīng)訓練的mlp并反向傳播梯度以僅更新殘差網(wǎng)格的參數(shù),學習用于第一幀的殘差網(wǎng)格。
20、在一些方面,本發(fā)明描述的技術涉及一種非暫時性計算機可讀存儲介質(zhì),其中所述操作還包括解碼低分辨率表示,其中解碼包括:基于第二幀的特征網(wǎng)格、用于第一幀的低分辨率運動網(wǎng)格和用于第一幀的殘差網(wǎng)格,生成用于第一幀的特征網(wǎng)格。
21、在一些方面,本發(fā)明描述的技術涉及一種非暫時性計算機可讀存儲介質(zhì),其中生成用于第一幀的特征網(wǎng)格包括:將用于第一幀的低分辨率運動網(wǎng)格應用于第二幀的特征網(wǎng)格,以提取幀間冗余并獲得用于第一幀的基礎特征網(wǎng)格;以及將殘差網(wǎng)格中的殘差補償在時間上添加到用于該幀的基礎特征網(wǎng)格,以獲得用于第一幀的特征網(wǎng)格。
22、本發(fā)明所公開的系統(tǒng)、方法和非暫時性計算機可讀介質(zhì)的這些和其他特征,以及結(jié)構的相關元件的操作方法和功能和部件的組合以及制造經(jīng)濟性,在參考附圖考慮以下描述和所附權利要求后將變得更加明顯,所有附圖均構成本說明書的一部分,其中相同的附圖標記表示各個附圖中的對應部分。然而,應當明確理解,附圖僅用于說明和描述,并不意圖作為本發(fā)明限制的定義。