本發(fā)明涉及三維圖像重建領域,尤其是涉及了一種基于驗證轉換圖像生成網(wǎng)絡的三維視圖合成方法。
背景技術:
三維圖像的重建一直是計算機領域關注的重點,人們欲通過二維圖像來完成對三維世界的認知。三維重建的技術,其低成本、易操作、重建的三維模型真實感強等特點,已經逐漸成為研究的熱點,尤其在計算機視覺、圖形圖像學的理論研究領域和醫(yī)學圖像重構、機器人視覺等工程領域,都具有較高的研究價值。此外,三維圖像的重建還可以應用在無人導航系統(tǒng)、人體手術輔助系統(tǒng)和遠程視覺觸摸系統(tǒng)等,甚至在移動設備領域中社交、購物及娛樂方面有著極大的發(fā)展?jié)摿?,諸如vr產業(yè)等新興經濟領域的振興與該技術密不可分。
根據(jù)單幅平面圖像對其進行三維視圖的轉換,重建非連通區(qū)域的隱蔽內容,如何準確重現(xiàn)仍然是一個具有挑戰(zhàn)性的問題。由于涉及圖像的比例縮放、光照條件、紋理特征等諸多因素,三維圖像的重建不僅需要利用空間幾何知識、內容補償?shù)?,還需要調整合理需求,分辨重建內容的真?zhèn)?,這對單純的圖像還原造成較高難度。
本發(fā)明提出了一種基于深度學習損失函數(shù)的新框架。使用rgb-d數(shù)據(jù)進行訓練與測試圖像的生成,然后將輸入圖像與輸入圖像進行像素匹配與轉移,使用非連通域表面流體網(wǎng)絡猜測與生成隱蔽區(qū)域內容,再使用深度學習網(wǎng)絡計算損失函數(shù)從而控制內容的修補。本發(fā)明可以有效處理三維圖像的合成,尤其體現(xiàn)出給定圖像經過一定旋轉角度后原有非聯(lián)通隱蔽區(qū)域的復原能力,有效提高圖像重建過程中的控制能力與精確性。
技術實現(xiàn)要素:
針對解決在三維圖像重建中隱蔽區(qū)域還原的問題,本發(fā)明的目的在于提供一種基于驗證轉換圖像生成網(wǎng)絡的三維視圖合成方法,提出了一種基于深度學習損失函數(shù)的新框架。
為解決上述問題,本發(fā)明提供一種基于驗證轉換圖像生成網(wǎng)絡的三維視圖合成方法,其主要內容包括:
(一)圖像集合生成;
(二)非連通域表面流體網(wǎng)絡;
(三)視圖填補網(wǎng)絡。
其中,所述的數(shù)據(jù)輸入,使用rgb-d數(shù)據(jù)進行圖像集合的生成與訓練測試;
(1)rgb-d:該數(shù)據(jù)庫廣泛用于三維圖像模型訓練,使用其中數(shù)據(jù)集中汽車類別模型7497個、椅子類別模型698個,均具有充分的紋理特征;
(2)對所有模型圖像進行渲染,根據(jù)標高0、10、20和三維轉換角度0到340度(間隔20度)生成共54種視圖;
(3)所有經過渲染的模型圖像,五分之四用作訓練,另外五分之一用作測試。
進一步地,所述的非連通域表面流體網(wǎng)絡,包括表面流體網(wǎng)絡定義、可視化映射、已知對稱性可視化映射和背景虛化。
進一步地,所述的表面流體網(wǎng)絡定義,基于特殊的圖像采樣層來學習如何從輸入源圖像is移動所需像素點到目標圖像it:
其中f使用深度卷積編碼解碼網(wǎng)絡的流體預測函數(shù),
進一步地,所述的可視化映射,給定源圖像is和目標三維圖像的轉換角度θ,對于目標圖像it中某個像素位置(i,j)的可視化映射值mvis定義為:
其中,
由公式(2),首先由像素坐標得到三維目標的坐標,然后根據(jù)給定轉換角度θ得到視角投影可得,當且僅當視圖向量與表面均值的點積為正值的時候,可視化映射值mvis等于1。
進一步地,所述的已知對稱性可視化映射,對于在x,y平面上對稱的物體,它的已知對稱性可視化映射msym可由公式(2)經過z字形翻轉得到,具體地,目標圖像it中某個像素位置(i,j)的最終可視化映射值mvis定義為:
其中
進一步地,所述的背景虛化,將源圖像is和目標圖像it中都出現(xiàn)的物體定義為前景,剩余不變的像素定義為背景,源圖像和目標圖像的背景用bs和bt表示,則二者統(tǒng)一化背景虛化為:
則由公式(1)(2)(3)(4)可得,輸入圖像is經過非連通域表面流體網(wǎng)絡后得到中間結果idoafn:
idoafn=is⊙mbg+it⊙ms-vis(5)
其中⊙表示點積運算。
進一步地,所述的視圖填補網(wǎng)絡,包括想象填補和深度學習修復。
進一步地,所述的想象填補,在網(wǎng)絡的各層之間使用跳躍橋接的方法合并局部信息與全局信息;
(1)中間結果產生前,保留高階信息的條件下,網(wǎng)絡生成與輸入源圖像is有持續(xù)特征的內容,尤其在非連通域個體面積較大的物體;
(2)中間結果產生時,網(wǎng)絡保留得到期望角度的視圖和其諸如顏色及紋理等低階信息;
(3)中間結果產生后,網(wǎng)絡不止填補非連通遮掩區(qū)域,還對填補的人工痕跡進行修補。
進一步地,所述的深度學習修復,搭建16層深度卷積網(wǎng)絡,計算特征重建的損失值,以控制視圖填補的程度;
(1)深度學習網(wǎng)絡中的視覺損失及對抗學習損失是互補的,因此增加總偏差均一化項去微調圖像,其定義為:
-logd(g(is))+αl2(fd(g(is)),fd(g(it)))+βl2(fvgg(g(is)),fvgg(g(it)))+γl1(is,it)
+λltv(g(is))(6)
其中,is是輸入圖像,g(is)是生成圖像,it是目標圖像,log(d)是用對抗訓練損失網(wǎng)絡估計生成圖像g(is)真實性的概率,d稱作為分類器;
(2)公式(6)中fd和fvgg是用分類器和16層深度網(wǎng)絡提取的特征,在第一層和第三層提出的特征合并起來作為分類特征效果最為明顯;
(3)生成圖像g(is)和真實圖像it輸入d分類器和16層深度網(wǎng)絡計算損失值,提取各自生成的特征,計算這兩類特征的平均歐幾里得距離;
(4)d分類器的損失函數(shù)定義為:
-logd(is)-log(1-d(g(is)))(7)
(5)根據(jù)實驗,公式(6)中的參數(shù)值分別設置為α=100,β=0.001,γ=1,λ=0.0001。
附圖說明
圖1是本發(fā)明一種基于驗證轉換圖像生成網(wǎng)絡的三維視圖合成方法的系統(tǒng)流程圖。
圖2是本發(fā)明一種基于驗證轉換圖像生成網(wǎng)絡的三維視圖合成方法的中間過程結果的比較圖。
具體實施方式
需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互結合,下面結合附圖和具體實施例對本發(fā)明作進一步詳細說明。
圖1是本發(fā)明一種基于驗證轉換圖像生成網(wǎng)絡的三維視圖合成方法的系統(tǒng)流程圖。主要包括圖像集合生成;非連通域表面流體網(wǎng)絡;視圖填補網(wǎng)絡。
其中,使用rgb-d數(shù)據(jù)進行圖像集合的生成與訓練測試;
(1)rgb-d:該數(shù)據(jù)庫廣泛用于三維圖像模型訓練,使用其中數(shù)據(jù)集中汽車類別模型7497個、椅子類別模型698個,均具有充分的紋理特征;
(2)對所有模型圖像進行渲染,根據(jù)標高0、10、20和三維轉換角度0到340度(間隔20度)生成共54種視圖;
(3)所有經過渲染的模型圖像,五分之四用作訓練,另外五分之一用作測試。
非連通域表面流體網(wǎng)絡,包括表面流體網(wǎng)絡定義、可視化映射、已知對稱性可視化映射和背景虛化。
表面流體網(wǎng)絡定義,基于特殊的圖像采樣層來學習如何從輸入源圖像is移動所需像素點到目標圖像it:
其中f使用深度卷積編碼解碼網(wǎng)絡的流體預測函數(shù),
可視化映射,給定源圖像is和目標三維圖像的轉換角度θ,對于目標圖像it中某個像素位置(i,j)的可視化映射值mvis定義為:
其中,
由公式(2),首先由像素坐標得到三維目標的坐標,然后根據(jù)給定轉換角度θ得到視角投影可得,當且僅當視圖向量與表面均值的點積為正值的時候,可視化映射值mvis等于1。
已知對稱性可視化映射,對于在x,y平面上對稱的物體,它的已知對稱性可視化映射msym可由公式(2)經過z字形翻轉得到,具體地,目標圖像it中某個像素位置(i,j)的最終可視化映射值mvis定義為:
其中
背景虛化,將源圖像is和目標圖像it中都出現(xiàn)的物體定義為前景,剩余不變的像素定義為背景,源圖像和目標圖像的背景用bs和bt表示,則二者統(tǒng)一化背景虛化為:
則由公式(1)(2)(3)(4)可得,輸入圖像is經過非連通域表面流體網(wǎng)絡后得到中間結果idoafn:
idoafn=is⊙mbg+it⊙ms-vis(5)
其中⊙表示點積運算。
視圖填補網(wǎng)絡,包括想象填補和深度學習修復。
想象填補,在網(wǎng)絡的各層之間使用跳躍橋接的方法合并局部信息與全局信息;
(1)中間結果產生前,保留高階信息的條件下,網(wǎng)絡生成與輸入源圖像is有持續(xù)特征的內容,尤其在非連通域個體面積較大的物體;
(2)中間結果產生時,網(wǎng)絡保留得到期望角度的視圖和其諸如顏色及紋理等低階信息;
(3)中間結果產生后,網(wǎng)絡不止填補非連通遮掩區(qū)域,還對填補的人工痕跡進行修補。
深度學習修復,搭建16層深度卷積網(wǎng)絡,計算特征重建的損失值,以控制視圖填補的程度;
(1)深度學習網(wǎng)絡中的視覺損失及對抗學習損失是互補的,因此增加總偏差均一化項去微調圖像,其定義為:
-logd(g(is))+αl2(fd(g(is)),fd(g(it)))+βl2(fvgg(g(is)),fvgg(g(it)))+γl1(is,it)
+λitv(g(is))(6)
其中,is是輸入圖像,g(is)是生成圖像,it是目標圖像,log(d)是用對抗訓練損失網(wǎng)絡估計生成圖像g(is)真實性的概率,d稱作為分類器;
(2)公式(6)中fd和fvgg是用分類器和16層深度網(wǎng)絡提取的特征,在第一層和第三層提出的特征合并起來作為分類特征效果最為明顯;
(3)生成圖像g(is)和真實圖像it輸入d分類器和16層深度網(wǎng)絡計算損失值,提取各自生成的特征,計算這兩類特征的平均歐幾里得距離;
(4)d分類器的損失函數(shù)定義為:
-logd(is)-log(1-d(g(is)))(7)
(5)根據(jù)實驗,公式(6)中的參數(shù)值分別設置為α=100,β=0.001,γ=1,λ=0.0001。
圖2本發(fā)明一種基于驗證轉換圖像生成網(wǎng)絡的三維視圖合成方法的中間過程結果的比較圖。如圖所示,從上至下分別是四輛不同車輛的實驗結果,從左至右分別是每輛車輛的輸入圖像、轉換圖像、單純16層網(wǎng)絡結果、單純對抗網(wǎng)絡結果,16層網(wǎng)絡加對抗網(wǎng)絡結果,可以觀察到最后一列即合成方法的效果最好,紋理特征最接近驗證結果,即第二列。
對于本領域技術人員,本發(fā)明不限制于上述實施例的細節(jié),在不背離本發(fā)明的精神和范圍的情況下,能夠以其他具體形式實現(xiàn)本發(fā)明。此外,本領域的技術人員可以對本發(fā)明進行各種改動和變型而不脫離本發(fā)明的精神和范圍,這些改進和變型也應視為本發(fā)明的保護范圍。因此,所附權利要求意欲解釋為包括優(yōu)選實施例以及落入本發(fā)明范圍的所有變更和修改。