一種基于無監(jiān)督自動編碼器的面部重建方法與流程

文檔序號：12035842閱讀：433來源：國知局

本發(fā)明涉及面部重建領域，尤其是涉及了一種基于無監(jiān)督自動編碼器的面部重建方法。

背景技術：

人體最重要的生物特征之一就是人臉，臉部重建是計算機視覺領域熱門的領域之一。人臉重建具有廣闊的實際應用，在人臉識別系統(tǒng)、醫(yī)學、電影廣告、計算機動畫、游戲、視頻會議以及可視電話、人機交互等領域具有廣闊的應用前景。在公共安全領域，人臉重建和識別對公安刑偵、預防犯罪等方面有著越來越大且難以忽視的作用。近年來，恐怖活動、暴力事件、暴力犯罪等嚴重威脅公共安全的時間頻繁出現(xiàn)，人臉識別能夠方便地對重點區(qū)域的進出人員進行控制、對各個場合進行隱蔽監(jiān)控等，這些都能有效保護公共安全。然而，面部姿態(tài)、形狀、表情、膚色和場景照明等都會給重建帶來影響，提高重建的難度。

本發(fā)明提出了一種基于無監(jiān)督自動編碼器的面部重建方法，以語義碼矢量的形式給出場景描述，參數(shù)解碼器生成對應面部的合成圖像，通過標準反向傳播反轉(zhuǎn)圖像形成，實現(xiàn)無人監(jiān)督的端到端訓練，包括圖像形成模型、照明模型、圖像形成和反向傳播，由三個項定義損失函數(shù)，包括密集的光度校準、稀疏地標對齊、統(tǒng)計正則化和反向傳播。本發(fā)明可以編碼面部的細節(jié)，如姿態(tài)、形狀、表情、膚色和場景照明等，而且更加精細，無須監(jiān)督，并且允許端到端學習；與合成人臉數(shù)據(jù)訓練的網(wǎng)絡相比，此網(wǎng)絡能更好地推廣到現(xiàn)實數(shù)據(jù)中。

技術實現(xiàn)要素：

針對面部姿態(tài)、形狀、表情、膚色和場景照明等會產(chǎn)生影響的問題，本發(fā)明的目的在于提供一種基于無監(jiān)督自動編碼器的面部重建方法，以語義碼矢量的形式給出場景描述，參數(shù)解碼器生成對應面部的合成圖像，通過標準反向傳播反轉(zhuǎn)圖像形成，實現(xiàn)無人監(jiān)督的端到端訓練，包括圖像形成模型、照明模型、圖像形成和反向傳播，由三個項定義損失函數(shù)，包括密集的光度校準、稀疏地標對齊、統(tǒng)計正則化和反向傳播。

為解決上述問題，本發(fā)明提供一種基于無監(jiān)督自動編碼器的面部重建方法，其主要內(nèi)容包括：

(一)語義碼矢量；

(二)基于參數(shù)模型的解碼器；

(三)損失層。

其中，所述的語義碼矢量，語義碼矢量參數(shù)化面部表情形狀膚色相機旋轉(zhuǎn)t∈so(3)和平移場景照明

x＝(α,δ,β,t,t,γ)(1)

由上式以統(tǒng)一的方式顯示；

臉部表示為具有n＝24k頂點的流形三角形網(wǎng)格；使用本地單環(huán)鄰域計算相關的頂點法線空間嵌入v由仿射面模型參數(shù)化：

其中，平均臉部形狀as基于200個(100個男性，100個女性)高質(zhì)量面部掃描計算；線性主成分分析基礎和分別編碼具有最高形狀和表情變化的模式；通過將主成分分析混合形狀組合獲得表情基礎，使用變形傳遞將其重新定位為面部拓撲；主成分分析基礎涵蓋原始混合形狀的99％以上的差異；

除面部幾何外，根據(jù)仿射參數(shù)模型對每個頂點膚色進行參數(shù)化：

這里計算了平均膚色ar，并且正交主成分分析基礎捕獲最高變化的模式；所有基向量已經(jīng)用適當?shù)臉藴势?imgfile="bda00013308188000000215.gif"wi="50"he="54"img-content="drawing"img-format="gif"orientation="portrait"inline="no"/>縮放，使得

其中，所述的基于參數(shù)模型的解碼器，以語義碼矢量x的形式給出場景描述，參數(shù)解碼器生成對應面部的逼真合成圖像；圖像形成模型是完全分析和可微分的，通過標準反向傳播反轉(zhuǎn)圖像形成，這使網(wǎng)絡可以實現(xiàn)無人監(jiān)督的端到端訓練；其包括圖像形成模型、照明模型、圖像形成和反向傳播。

進一步地，所述的圖像形成模型，透視相機在全視角投影下，使用針孔相機模型渲染逼真的面部圖像π:將相機空間映射到屏幕空間；相機在空間中的位置和方向由剛體變換給出，基于旋轉(zhuǎn)t∈so(3)和全局平移參數(shù)化；因此，函數(shù)φt,t(v)＝t^-1(v-t)和將任意點v映射到相機空間，并進一步映射到屏幕空間。

進一步地，所述的照明模型，使用球形諧波(sh)代表場景照明；因此，用正常表面ni和膚色ri評估頂點vi處的輻射度如下：

hb:是sh基函數(shù)，b²＝9系數(shù)(b＝3波段)使用紅色、綠色和藍色通道參數(shù)化彩色照明。

進一步地，所述的圖像形成和反向傳播，使用呈現(xiàn)的相機和照明模型渲染場景的逼真圖像；為此，在正向通過中，對于每個頂點vi，計算屏幕空間位置ui(x)和相關聯(lián)的像素顏色ci(x)：

tni將空間法線轉(zhuǎn)換為相機空間，并在相機空間中將γ模型照射；

訓練實現(xiàn)了反轉(zhuǎn)圖像形成的反向傳遞：

這需要相對于面部和場景參數(shù)計算圖像形成模型的梯度；為了在訓練過程中實現(xiàn)高效率，以數(shù)據(jù)并行方式評估梯度。

其中，所述的損失層，損失函數(shù)結合了三個項：

eloss(x)＝wlandeland(x)+wphotoephoto(x)+wregereg(x)(7)

其中，eland為執(zhí)行稀疏的地標對齊，ephoto為密集的光度對齊，freg為統(tǒng)計似然性的模型面孔；二進制權重wland∈{0,1}切換此約束；恒權重wphoto＝1.92，wreg＝2.9×10^-5；

損失層包括密集的光度校準、稀疏地標對齊、統(tǒng)計正則化和反向傳播。

進一步地，所述的密集的光度校準，編碼器的目標是預測導致與所提供的單目輸入圖像匹配的合成人臉圖像的模型參數(shù)；為此，使用密集光度對齊，在每頂點水平上使用魯棒的l2,1范數(shù)：

其中，是訓練語料庫的一個圖像，迭代一組前面的頂點基于當前的前向傳遞計算遮擋。

進一步地，所述的稀疏地標對齊，除了密集的測光對齊，提出了基于檢測到的面部特征點的可選替代丟失；使用46個地標的一個子集(66個地圖)；給定了檢測到的2d地標的子集具有置信cj∈[0,1]和相應的模型頂點索引kj∈{1,…,n}，強制投影的3d頂點接近于2d檢測：

這種替代損失是可選的，網(wǎng)絡可以完全無人訓練，而不提供這些稀疏約束；訓練后，不需要地標。

進一步地，所述的統(tǒng)計正則化和反向傳播，在訓練過程中，使用統(tǒng)計正則化進一步約束優(yōu)化問題對模型參數(shù)的影響：

該約束通過優(yōu)選接近于平均值的值來限制面部形狀α、表情δ和膚色β；參數(shù)wβ＝1.7×10^-3和wδ＝0.8平衡項；為了實現(xiàn)基于隨機梯度下降的訓練，在反向傳播過程中，魯棒損耗的梯度向后傳遞到基于模型的解碼器，并使用鏈規(guī)則與相結合。

附圖說明

圖1是本發(fā)明一種基于無監(jiān)督自動編碼器的面部重建方法的系統(tǒng)框架圖。

圖2是本發(fā)明一種基于無監(jiān)督自動編碼器的面部重建方法的流程示意圖。

具體實施方式

需要說明的是，在不沖突的情況下，本申請中的實施例及實施例中的特征可以相互結合，下面結合附圖和具體實施例對本發(fā)明作進一步詳細說明。

圖1是本發(fā)明一種基于無監(jiān)督自動編碼器的面部重建方法的系統(tǒng)框架圖。主要包括語義碼矢量，基于參數(shù)模型的解碼器和損失層。

語義碼矢量，語義碼矢量參數(shù)化面部表情形狀膚色相機旋轉(zhuǎn)t∈so(3)和平移場景照明

x＝(α,δ,β,t,t,γ)(1)

由上式以統(tǒng)一的方式顯示；

臉部表示為具有n＝24k頂點的流形三角形網(wǎng)格；使用本地單環(huán)鄰域計算相關的頂點法線空間嵌入v由仿射面模型參數(shù)化：

除面部幾何外，根據(jù)仿射參數(shù)模型對每個頂點膚色進行參數(shù)化：

這里計算了平均膚色ar，并且正交主成分分析基礎捕獲最高變化的模式；所有基向量已經(jīng)用適當?shù)臉藴势?imgfile="bda0001330818800000054.gif"wi="47"he="54"img-content="drawing"img-format="gif"orientation="portrait"inline="no"/>縮放，使得

基于參數(shù)模型的解碼器，以語義碼矢量x的形式給出場景描述，參數(shù)解碼器生成對應面部的逼真合成圖像；圖像形成模型是完全分析和可微分的，通過標準反向傳播反轉(zhuǎn)圖像形成，這使網(wǎng)絡可以實現(xiàn)無人監(jiān)督的端到端訓練；其包括圖像形成模型、照明模型、圖像形成和反向傳播。

圖像形成模型，透視相機在全視角投影下，使用針孔相機模型渲染逼真的面部圖像π:將相機空間映射到屏幕空間；相機在空間中的位置和方向由剛體變換給出，基于旋轉(zhuǎn)t∈so(3)和全局平移參數(shù)化；因此，函數(shù)φt,t(v)＝t^-1(v-t)和將任意點v映射到相機空間，并進一步映射到屏幕空間。

照明模型，使用球形諧波(sh)代表場景照明；因此，用正常表面ni和膚色ri評估頂點vi處的輻射度如下：

hb:是sh基函數(shù)，b²＝9系數(shù)(b＝3波段)使用紅色、綠色和藍色通道參數(shù)化彩色照明。

圖像形成和反向傳播，使用呈現(xiàn)的相機和照明模型渲染場景的逼真圖像；為此，在正向通過中，對于每個頂點vi，計算屏幕空間位置ui(x)和相關聯(lián)的像素顏色ci(x)：

tni將空間法線轉(zhuǎn)換為相機空間，并在相機空間中將γ模型照射；

訓練實現(xiàn)了反轉(zhuǎn)圖像形成的反向傳遞：

這需要相對于面部和場景參數(shù)計算圖像形成模型的梯度；為了在訓練過程中實現(xiàn)高效率，以數(shù)據(jù)并行方式評估梯度。

損失層，損失函數(shù)結合了三個項：

eloss(x)＝wlandeland(x)+wphotoephoto(x)+wregereg(x)(7)

其中，eland為執(zhí)行稀疏的地標對齊，ephoto為密集的光度對齊，ereg為統(tǒng)計似然性的模型面孔；二進制權重wland∈{0,1}切換此約束；恒權重wphoto＝1.92，wreg＝2.9×10^-5；

損失層包括密集的光度校準、稀疏地標對齊、統(tǒng)計正則化和反向傳播。

密集的光度校準，編碼器的目標是預測導致與所提供的單目輸入圖像匹配的合成人臉圖像的模型參數(shù)；為此，使用密集光度對齊，在每頂點水平上使用魯棒的l2,1范數(shù)：

其中，是訓練語料庫的一個圖像，迭代一組前面的頂點基于當前的前向傳遞計算遮擋。

稀疏地標對齊，除了密集的測光對齊，提出了基于檢測到的面部特征點的可選替代丟失；使用46個地標的一個子集(66個地圖)；給定了檢測到的2d地標的子集具有置信cj∈[0,1]和相應的模型頂點索引kj∈{1,…,n}，強制投影的3d頂點接近于2d檢測：

這種替代損失是可選的，網(wǎng)絡可以完全無人訓練，而不提供這些稀疏約束；訓練后，不需要地標。

統(tǒng)計正則化和反向傳播，在訓練過程中，使用統(tǒng)計正則化進一步約束優(yōu)化問題對模型參數(shù)的影響：

圖2是本發(fā)明一種基于無監(jiān)督自動編碼器的面部重建方法的流程示意圖。以語義碼矢量的形式給出場景描述，參數(shù)解碼器生成對應面部的合成圖像，通過標準反向傳播反轉(zhuǎn)圖像形成，實現(xiàn)無人監(jiān)督的端到端訓練，包括圖像形成模型、照明模型、圖像形成和反向傳播，由三個項定義損失函數(shù)，包括密集的光度校準、稀疏地標對齊、統(tǒng)計正則化和反向傳播。

對于本領域技術人員，本發(fā)明不限制于上述實施例的細節(jié)，在不背離本發(fā)明的精神和范圍的情況下，能夠以其他具體形式實現(xiàn)本發(fā)明。此外，本領域的技術人員可以對本發(fā)明進行各種改動和變型而不脫離本發(fā)明的精神和范圍，這些改進和變型也應視為本發(fā)明的保護范圍。因此，所附權利要求意欲解釋為包括優(yōu)選實施例以及落入本發(fā)明范圍的所有變更和修改。

完整全部詳細技術資料下載

當前第1頁1 2

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：夏春秋
技術所有人：深圳市唯特視科技有限公司
我是此專利的發(fā)明人

上一篇：一種三維模型與照片融合方法與流程
上一篇：一種虛擬仿真護理檢測方法及系統(tǒng)與流程

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于無監(jiān)督自動編碼器的面部重建方法與流程