一種基于驗證轉換圖像生成網(wǎng)絡的三維視圖合成方法與流程

文檔序號：11520731閱讀：517來源：國知局

本發(fā)明涉及三維圖像重建領域，尤其是涉及了一種基于驗證轉換圖像生成網(wǎng)絡的三維視圖合成方法。

背景技術：

三維圖像的重建一直是計算機領域關注的重點，人們欲通過二維圖像來完成對三維世界的認知。三維重建的技術，其低成本、易操作、重建的三維模型真實感強等特點，已經逐漸成為研究的熱點，尤其在計算機視覺、圖形圖像學的理論研究領域和醫(yī)學圖像重構、機器人視覺等工程領域，都具有較高的研究價值。此外，三維圖像的重建還可以應用在無人導航系統(tǒng)、人體手術輔助系統(tǒng)和遠程視覺觸摸系統(tǒng)等，甚至在移動設備領域中社交、購物及娛樂方面有著極大的發(fā)展?jié)摿?，諸如vr產業(yè)等新興經濟領域的振興與該技術密不可分。

根據(jù)單幅平面圖像對其進行三維視圖的轉換，重建非連通區(qū)域的隱蔽內容，如何準確重現(xiàn)仍然是一個具有挑戰(zhàn)性的問題。由于涉及圖像的比例縮放、光照條件、紋理特征等諸多因素，三維圖像的重建不僅需要利用空間幾何知識、內容補償?shù)?，還需要調整合理需求，分辨重建內容的真?zhèn)?，這對單純的圖像還原造成較高難度。

本發(fā)明提出了一種基于深度學習損失函數(shù)的新框架。使用rgb-d數(shù)據(jù)進行訓練與測試圖像的生成，然后將輸入圖像與輸入圖像進行像素匹配與轉移，使用非連通域表面流體網(wǎng)絡猜測與生成隱蔽區(qū)域內容，再使用深度學習網(wǎng)絡計算損失函數(shù)從而控制內容的修補。本發(fā)明可以有效處理三維圖像的合成，尤其體現(xiàn)出給定圖像經過一定旋轉角度后原有非聯(lián)通隱蔽區(qū)域的復原能力，有效提高圖像重建過程中的控制能力與精確性。

技術實現(xiàn)要素：

針對解決在三維圖像重建中隱蔽區(qū)域還原的問題，本發(fā)明的目的在于提供一種基于驗證轉換圖像生成網(wǎng)絡的三維視圖合成方法，提出了一種基于深度學習損失函數(shù)的新框架。

為解決上述問題，本發(fā)明提供一種基于驗證轉換圖像生成網(wǎng)絡的三維視圖合成方法，其主要內容包括：

(一)圖像集合生成；

(二)非連通域表面流體網(wǎng)絡；

(三)視圖填補網(wǎng)絡。

其中，所述的數(shù)據(jù)輸入，使用rgb-d數(shù)據(jù)進行圖像集合的生成與訓練測試；

(1)rgb-d：該數(shù)據(jù)庫廣泛用于三維圖像模型訓練，使用其中數(shù)據(jù)集中汽車類別模型7497個、椅子類別模型698個，均具有充分的紋理特征；

(2)對所有模型圖像進行渲染，根據(jù)標高0、10、20和三維轉換角度0到340度(間隔20度)生成共54種視圖；

(3)所有經過渲染的模型圖像，五分之四用作訓練，另外五分之一用作測試。

進一步地，所述的非連通域表面流體網(wǎng)絡，包括表面流體網(wǎng)絡定義、可視化映射、已知對稱性可視化映射和背景虛化。

進一步地，所述的表面流體網(wǎng)絡定義，基于特殊的圖像采樣層來學習如何從輸入源圖像is移動所需像素點到目標圖像it：

其中f使用深度卷積編碼解碼網(wǎng)絡的流體預測函數(shù)，是目標圖像在位置(i,j)的像素值，和表示一個目標位置的坐標。

進一步地，所述的可視化映射，給定源圖像is和目標三維圖像的轉換角度θ，對于目標圖像it中某個像素位置(i,j)的可視化映射值mvis定義為：

其中，是三維目標的坐標，是it中某個像素位置(i,j)的表面均值，給定轉換角度θ的旋轉矩陣，是視角投影矩陣，h,w是橫縱坐標x,y上經過投影之后的坐標值，是三維攝像中心點；

由公式(2)，首先由像素坐標得到三維目標的坐標，然后根據(jù)給定轉換角度θ得到視角投影可得，當且僅當視圖向量與表面均值的點積為正值的時候，可視化映射值mvis等于1。

進一步地，所述的已知對稱性可視化映射，對于在x,y平面上對稱的物體，它的已知對稱性可視化映射msym可由公式(2)經過z字形翻轉得到，具體地，目標圖像it中某個像素位置(i,j)的最終可視化映射值mvis定義為：

其中指的是1范數(shù)。

進一步地，所述的背景虛化，將源圖像is和目標圖像it中都出現(xiàn)的物體定義為前景，剩余不變的像素定義為背景，源圖像和目標圖像的背景用bs和bt表示，則二者統(tǒng)一化背景虛化為：

則由公式(1)(2)(3)(4)可得，輸入圖像is經過非連通域表面流體網(wǎng)絡后得到中間結果idoafn：

idoafn＝is⊙mbg+it⊙ms-vis(5)

其中⊙表示點積運算。

進一步地，所述的視圖填補網(wǎng)絡，包括想象填補和深度學習修復。

進一步地，所述的想象填補，在網(wǎng)絡的各層之間使用跳躍橋接的方法合并局部信息與全局信息；

(1)中間結果產生前，保留高階信息的條件下，網(wǎng)絡生成與輸入源圖像is有持續(xù)特征的內容，尤其在非連通域個體面積較大的物體；

(2)中間結果產生時，網(wǎng)絡保留得到期望角度的視圖和其諸如顏色及紋理等低階信息；

(3)中間結果產生后，網(wǎng)絡不止填補非連通遮掩區(qū)域，還對填補的人工痕跡進行修補。

進一步地，所述的深度學習修復，搭建16層深度卷積網(wǎng)絡，計算特征重建的損失值，以控制視圖填補的程度；

(1)深度學習網(wǎng)絡中的視覺損失及對抗學習損失是互補的，因此增加總偏差均一化項去微調圖像，其定義為：

-logd(g(is))+αl2(fd(g(is)),fd(g(it)))+βl2(fvgg(g(is)),fvgg(g(it)))+γl1(is,it)

+λltv(g(is))(6)

其中，is是輸入圖像，g(is)是生成圖像，it是目標圖像，log(d)是用對抗訓練損失網(wǎng)絡估計生成圖像g(is)真實性的概率，d稱作為分類器；

(2)公式(6)中fd和fvgg是用分類器和16層深度網(wǎng)絡提取的特征，在第一層和第三層提出的特征合并起來作為分類特征效果最為明顯；

(3)生成圖像g(is)和真實圖像it輸入d分類器和16層深度網(wǎng)絡計算損失值，提取各自生成的特征，計算這兩類特征的平均歐幾里得距離；

(4)d分類器的損失函數(shù)定義為：

-logd(is)-log(1-d(g(is)))(7)

(5)根據(jù)實驗，公式(6)中的參數(shù)值分別設置為α＝100，β＝0.001，γ＝1，λ＝0.0001。

附圖說明

圖1是本發(fā)明一種基于驗證轉換圖像生成網(wǎng)絡的三維視圖合成方法的系統(tǒng)流程圖。

圖2是本發(fā)明一種基于驗證轉換圖像生成網(wǎng)絡的三維視圖合成方法的中間過程結果的比較圖。

具體實施方式

需要說明的是，在不沖突的情況下，本申請中的實施例及實施例中的特征可以相互結合，下面結合附圖和具體實施例對本發(fā)明作進一步詳細說明。

圖1是本發(fā)明一種基于驗證轉換圖像生成網(wǎng)絡的三維視圖合成方法的系統(tǒng)流程圖。主要包括圖像集合生成；非連通域表面流體網(wǎng)絡；視圖填補網(wǎng)絡。

其中，使用rgb-d數(shù)據(jù)進行圖像集合的生成與訓練測試；

(1)rgb-d：該數(shù)據(jù)庫廣泛用于三維圖像模型訓練，使用其中數(shù)據(jù)集中汽車類別模型7497個、椅子類別模型698個，均具有充分的紋理特征；

(2)對所有模型圖像進行渲染，根據(jù)標高0、10、20和三維轉換角度0到340度(間隔20度)生成共54種視圖；

(3)所有經過渲染的模型圖像，五分之四用作訓練，另外五分之一用作測試。

非連通域表面流體網(wǎng)絡，包括表面流體網(wǎng)絡定義、可視化映射、已知對稱性可視化映射和背景虛化。

表面流體網(wǎng)絡定義，基于特殊的圖像采樣層來學習如何從輸入源圖像is移動所需像素點到目標圖像it：

其中f使用深度卷積編碼解碼網(wǎng)絡的流體預測函數(shù)，是目標圖像在位置(i,j)的像素值，和表示一個目標位置的坐標。

可視化映射，給定源圖像is和目標三維圖像的轉換角度θ，對于目標圖像it中某個像素位置(i,j)的可視化映射值mvis定義為：

已知對稱性可視化映射，對于在x,y平面上對稱的物體，它的已知對稱性可視化映射msym可由公式(2)經過z字形翻轉得到，具體地，目標圖像it中某個像素位置(i,j)的最終可視化映射值mvis定義為：

其中指的是1范數(shù)。

背景虛化，將源圖像is和目標圖像it中都出現(xiàn)的物體定義為前景，剩余不變的像素定義為背景，源圖像和目標圖像的背景用bs和bt表示，則二者統(tǒng)一化背景虛化為：

則由公式(1)(2)(3)(4)可得，輸入圖像is經過非連通域表面流體網(wǎng)絡后得到中間結果idoafn：

idoafn＝is⊙mbg+it⊙ms-vis(5)

其中⊙表示點積運算。

視圖填補網(wǎng)絡，包括想象填補和深度學習修復。

想象填補，在網(wǎng)絡的各層之間使用跳躍橋接的方法合并局部信息與全局信息；

(1)中間結果產生前，保留高階信息的條件下，網(wǎng)絡生成與輸入源圖像is有持續(xù)特征的內容，尤其在非連通域個體面積較大的物體；

(2)中間結果產生時，網(wǎng)絡保留得到期望角度的視圖和其諸如顏色及紋理等低階信息；

(3)中間結果產生后，網(wǎng)絡不止填補非連通遮掩區(qū)域，還對填補的人工痕跡進行修補。

深度學習修復，搭建16層深度卷積網(wǎng)絡，計算特征重建的損失值，以控制視圖填補的程度；

(1)深度學習網(wǎng)絡中的視覺損失及對抗學習損失是互補的，因此增加總偏差均一化項去微調圖像，其定義為：

-logd(g(is))+αl2(fd(g(is)),fd(g(it)))+βl2(fvgg(g(is)),fvgg(g(it)))+γl1(is,it)

+λitv(g(is))(6)

其中，is是輸入圖像，g(is)是生成圖像，it是目標圖像，log(d)是用對抗訓練損失網(wǎng)絡估計生成圖像g(is)真實性的概率，d稱作為分類器；

(2)公式(6)中fd和fvgg是用分類器和16層深度網(wǎng)絡提取的特征，在第一層和第三層提出的特征合并起來作為分類特征效果最為明顯；

(3)生成圖像g(is)和真實圖像it輸入d分類器和16層深度網(wǎng)絡計算損失值，提取各自生成的特征，計算這兩類特征的平均歐幾里得距離；

(4)d分類器的損失函數(shù)定義為：

-logd(is)-log(1-d(g(is)))(7)

(5)根據(jù)實驗，公式(6)中的參數(shù)值分別設置為α＝100，β＝0.001，γ＝1，λ＝0.0001。

圖2本發(fā)明一種基于驗證轉換圖像生成網(wǎng)絡的三維視圖合成方法的中間過程結果的比較圖。如圖所示，從上至下分別是四輛不同車輛的實驗結果，從左至右分別是每輛車輛的輸入圖像、轉換圖像、單純16層網(wǎng)絡結果、單純對抗網(wǎng)絡結果，16層網(wǎng)絡加對抗網(wǎng)絡結果，可以觀察到最后一列即合成方法的效果最好，紋理特征最接近驗證結果，即第二列。

對于本領域技術人員，本發(fā)明不限制于上述實施例的細節(jié)，在不背離本發(fā)明的精神和范圍的情況下，能夠以其他具體形式實現(xiàn)本發(fā)明。此外，本領域的技術人員可以對本發(fā)明進行各種改動和變型而不脫離本發(fā)明的精神和范圍，這些改進和變型也應視為本發(fā)明的保護范圍。因此，所附權利要求意欲解釋為包括優(yōu)選實施例以及落入本發(fā)明范圍的所有變更和修改。

完整全部詳細技術資料下載

當前第1頁1 2

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：夏春秋
技術所有人：深圳市唯特視科技有限公司
我是此專利的發(fā)明人

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于驗證轉換圖像生成網(wǎng)絡的三維視圖合成方法與流程