欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于深度學習的多模態(tài)人臉識別方法與流程

文檔序號:12786875閱讀:598來源:國知局
一種基于深度學習的多模態(tài)人臉識別方法與流程

本發(fā)明涉及一種人臉識別方法,尤其涉及一種基于深度學習的多模態(tài)人臉識別方法。



背景技術:

三維人臉識別相對于二維人臉識別,有著其對光照魯棒、受姿態(tài)以及表情等因素影響較小等優(yōu)點,因此在三維數據采集技術飛速發(fā)展以及三維數據的質量和精度大大提升之后,很多學者都將他們的研究投入到該領域中。

人臉不同模態(tài)的圖像容易受到不同因素等的影響,這些因素在一定程度上影響了單模態(tài)人臉識別系統(tǒng)的穩(wěn)定性及準確性。CN104778441A提出了一種融合灰度信息和深度信息的多模態(tài)人臉識別裝置及方法,其核心方法是通過提取多模態(tài)的人臉特征后(發(fā)明中所使用的特征為手工設計的特征),拼接起來形成一個特征池,為特征池的每一個特征構建一個弱分類器,然后利用Adaboost算法,在特征池中挑選出對于分類最為有效的特征,最后基于多模態(tài)特征層融合得到的特征,利用最近鄰分類器計算出匹配分數,以此實現多模態(tài)人臉識別。但是該發(fā)明所使用的特征均為人工設計的特征,表達能力不夠強;且該發(fā)明的特征利用Adaboost算法進行特征融合和特征選擇,效率較低;且該發(fā)明是為特定兩種模態(tài)設計的,具有局限性。



技術實現要素:

為了解決上述問題中的不足之處,本發(fā)明提供了一種基于深度學習的多模態(tài)人臉識別方法。

為了解決以上技術問題,本發(fā)明采用的技術方案是:一種基于深度學習的多模態(tài)人臉識別方法,包括以下步驟:

(1)對RGB人臉圖像進行人臉檢測,特征點定位,對齊,裁切,制作裁切后的RGB模態(tài)人臉數據集S0;根據RGB模態(tài)和其他模態(tài)之間的坐標映射關系,找到其他模態(tài)人臉的特征點,并裁切制作其他模態(tài)的人臉數據集S1,S2……;

(2)設計一個多模態(tài)融合的深度卷積神經網絡結構N1,在這個結構中,前半部分是幾個獨立的神經網絡分支,每個分支的輸入對應一個模態(tài),然后用特定的網絡結構把多個模態(tài)分支融合成一個分支,再連接一系列神經網絡結構單元;然后將S0,S1,S2……送入到N1的不同分支中,訓練N1網絡,訓練好的模型用M1來表示;

上述神經網絡結構單元包括但不限于卷積層、歸一化層、非線性層、池化層和全連接層和分布歸一化層;模態(tài)包括但不限于RGB模態(tài)、深度模態(tài)和近紅外模態(tài);特定的網絡結構中,每個分支有各自的分類損失作為各個模態(tài)各自的監(jiān)督信號,結構融合方法包括但不限于簡單的特征拼接;

(3)設計一個多模態(tài)共享的深度卷積神經網絡結構N2,將S0,S1,S2……不加區(qū)分的一起送入N2中,訓練N2網絡,訓練好的模型用M2來表示;

(4)提取特征階段,對于注冊集和查詢集的圖像,其模態(tài)范圍在訓練集模態(tài)范圍內。某圖像的不同模態(tài)可以表示為I0,I1,I2……,然后把I0,I1,I2……分別在模型M1和M2上提取特征,特征可用F0,F0C,F1,F1C,F2,F2C……表示,C表示是從M2上提取的特征;

(5)分別計算GF0和PF0之間的相似度S00,GF1和PF1的相似度S11,GF2和PF2的相似度S22;計算GF0C和PF1C之間的相似度S01,類似的計算出跨模態(tài)相似度S02,S03,S12,S13,S23……;

上述GF0表示注冊集圖像的F0,PF0表示查詢集圖像的F0,GF0C表示注冊集圖像的F0C,PF1C表示查詢集圖像的F1C;

(6)對所有的注冊集和查詢集相似度進行加權求和融合,得到最終的融合相似度S,在融合相似度S構成的相似度矩陣上進行人臉識別和人臉確認。

步驟(2)中,訓練N1網絡的時候,損失層可以使用softmax with loss或者使用其他損失層。

步驟(3)中,將S0,S1,S2……不加區(qū)分的送入N2中的時候,如果它們的通道數不同,則可以采取全部變?yōu)閱瓮ǖ赖姆绞綒w一化為相同通道,或者重復單通道至通道數相同,然后再送入網絡結構中進行訓練。

步驟(4)中,對于注冊集和查詢集的圖像,其模態(tài)范圍在訓練集模態(tài)范圍以內。

本發(fā)明采用多模態(tài)系統(tǒng),通過進行多種人臉模態(tài)數據的采集,利用多種模態(tài)信息各自的優(yōu)點,通過融合策略來克服單模態(tài)系統(tǒng)的某些內在弱點,同時充分的利用多種模態(tài)信息,有效地提升了人臉識別系統(tǒng)的性能,使得人臉識別更加快捷準確。

附圖說明

下面結合附圖和具體實施方式對本發(fā)明作進一步詳細的說明。

圖1是本發(fā)明人臉識別算法的流程圖。

圖2是本發(fā)明多模態(tài)融合的深度卷積神經網絡的結構框圖。

圖3是圖2中Loss4的具體結構框圖。

具體實施方式

如圖1所示,本發(fā)明具體包括以下步驟:

(1)對RGB人臉圖像進行人臉檢測,特征點定位,對齊,裁切,制作裁切后的RGB模態(tài)人臉數據集S0;然后根據RGB模態(tài)和其他模態(tài)(如深度信息,近紅外信息等)之間的坐標映射關系,找到其他模態(tài)人臉的特征點,并裁切制作其他模態(tài)的人臉數據集S1,S2……;

(2)設計一個多模態(tài)融合的深度神經網絡結構N1,在這個結構中,前半部分是幾個獨立的神經網絡分支,每個分支的輸入對應一個模態(tài)(如RGB模態(tài),深度模態(tài),近紅外模態(tài)等),然后用特定的網絡結構把多個模態(tài)分支融合為一個合成的神經網絡分支(例如把這些特征連接起來,或按通道堆疊起來,或其他的連接結構,例如附圖3那樣的結構等),再連接一系列神經網絡結構單元(如卷積層、歸一化層、非線性層、池化層、全連接層等);然后將S0,S1,S2……送入到N1的不同分支中,訓練N1網絡,訓練好的模型用M1來表示;

(3)設計一個多模態(tài)共享的深度神經網絡結構N2,將S0,S1,S2……不加區(qū)分的一起送入N2中,訓練N2網絡,訓練好的模型用M2來表示;

(4)提取特征階段,對于注冊集和查詢集的圖像,其模態(tài)范圍在訓練集模態(tài)范圍內,某圖像的不同模態(tài)可以表示為I0,I1,I2……,然后把I0,I1,I2……分別在模型M1和M2上提取特征,特征可用F0,F0C,F1,F1C,F2,F2C……表示,C表示是從M2上提取的特征;

(5)計算GF0和PF0(分別表示注冊集圖像的F0和查詢集圖像的F0)之間的相似度S00,GF1和PF1的相似度S11,GF2和PF2的相似度S22;計算GF0C和PF1C(分別表示注冊集圖像的F0C和查詢集圖像的F1C)之間的相似度S01,類似的計算出跨模態(tài)相似度S02,S03,S12,S13,S23……;

(6)對所有的注冊集和查詢集的相似度進行加權求和融合,得到最終的融合相似度S,在融合相似度S構成的相似度矩陣上進行人臉識別和人臉確認。

上述加權求和融合的公式可以表示為:S=p1*S1+p2*S2+p3*S3……,其中p1:p2:p3可以是S1,S2,S3單獨進行人臉識別實驗得到的識別正確率(r1,r2,r3)的反比(1/r1:1/r2:1/r3)。

在步驟(2)中的深度神經網絡結構N1中,網絡結構單元可以包括但不限于卷積層,池化層,非線性函數層,全連接層,分布歸一化層等,并且包括但不限于這些層的任意組合;網絡結構單元的簡單組合可以是全新設計的,也可以是基于已有的公開網絡結構修改的,網絡結構單元的簡單組合本身不是保護的范圍,但凡是符合本發(fā)明所敘述的,前半部分是幾個獨立的神經網絡分支,通過特定結構融合為一個合成的分支,且特定結構中每個模態(tài)分支都有各自的獨立監(jiān)督信號,合成后的分支之后再接一系列神經網絡結構單元的結構形式,則屬于保護的范圍。

如圖2所示給出了一個基于谷歌Inception-v2(谷歌所提出的一種深度網絡結構)依照上述規(guī)則修改而來的網絡結構,在該網絡結構中,若去掉Loss4損失結構,去掉深度模態(tài)和近紅外模態(tài)分支,只剩下RGB分支直接接到3*Inception結構(*表示多個類似的結構串聯,如此處,為3個Inception結構串聯,Inception結構為谷歌定義的一種子網絡結構,在[2]中的Figure 3中有對Inception結構的表示)上,則完全就是谷歌Inception-v2網絡結構本身,[1]的Figure 5中,附圖2的2*(卷積+池化)對應Figure 5的convolution(卷積層),max pool(最大池化層),convolution(卷積層),max pool(最大池化層)這四層,而從下向上的第一個3*Inception則對應[1]中的inception(3a),inception(3b),inception(3c),其上的4*Inception則對應[1]中的inception(4a),inception(4b),inception(4c),inception(4d),再其上的3*Inception則對應[1]中的inception(4e),inception(5a),inception(5b),Loss3池化層則對應[1]中的avg pool(平均池化層)。

在我們的網絡結構中,我們先讓不同模態(tài)的數據(RGB,深度信息,近紅外信息等)通過一系列神經網絡結構,學習到模態(tài)特有的特征(融合結構中各模態(tài)各自的監(jiān)督信號可以保證和促使模態(tài)特有特征的學習),然后融合連接起來經過一系列神經網絡結構,以幫助網絡進行模態(tài)互補的特征學習,融合連接的時候可以使用按通道(channel)堆疊的方式將特征圖堆疊起來。對于Loss4結構而言,其為特殊設計的結構,除了可以促進網絡收斂,也可以促進網絡學習模態(tài)互補特征,附圖3中示出了Loss4的一種結構,三個分支分別對應三個模態(tài),從附圖2的三個分支接出去,結構中FC是表示全連接層,FC之后或之下的數字是表示該全連接層的結點數量;平均池化層池化區(qū)間為5*5,間隔步長為3;卷積層卷積核大小為1*1,間隔步長為1;訓練集的總人數,是標簽(label)的類別數量;+表示輸入到其中的三個512結點的全連接層按結點求平均(fc3[i]=(fcc3[i]+fcd3[i]+fcn3[i])/3,i=1,2,3…512),顯然得到的還是一個512結點的全連接層,也即fc3;FC2048即是三個模態(tài)的512全連接層和三模態(tài)融合的512全連接層串接起來以后得到的2048維的全連接層;

本發(fā)明訓練N1網絡的時候,損失層可以使用softmax with loss(經典的分類損失層),也可以使用其他損失層。訓練所采用的算法是Back Propagation反向回傳算法,通過回傳損失層的誤差來更新每一層的參數,使得網絡參數得到更新,最終得到收斂。其具體的訓練步驟,以本發(fā)明實驗時所使用的數據集(非公開,與合作方合作采集的)為例,該數據集的訓練集規(guī)模為約五十萬樣本,約五百人。使用32的batch(數據塊)規(guī)模,基礎學習率0.045,每6400迭代學習率乘以0.9,weight decay(權值衰減)為0.0002,momentum(動量參數)為0.9.訓練約四十萬次迭代。

本發(fā)明在深度神經網絡結構N2中,同樣的,網絡結構單元可以包括但不限于卷積層,池化層,非線性函數層,全連接層,分布歸一化層等,并且包括但不限于這些層的任意組合;在該步驟中,網絡結構不是保護的范圍,通過不區(qū)分模態(tài)的方式訓練多模態(tài)公共特征空間的方法是保護的范圍,網絡結構可以全新設計,也可以使用學術界公開的網絡結構如AlexNet,GoogleNet,ResNet等網絡。將S0,S1,S2等不加區(qū)分的一起送入N2中的時候,如果它們的通道數不同,則可以采取全部變?yōu)閱瓮ǖ赖姆绞綒w一化為相同通道(如RGB三通道變?yōu)榛叶葓D單通道),或者重復單通道至通道數相同(如重復近紅外單通道圖三次至三通道),然后再送入網絡結構中進行訓練。

本實施例以RGB,深度信息,近紅外信息為例,由于深度信息和近紅外信息均為單通道,可以把所有樣本的RGB圖轉為單通道灰度圖,再送入N2網絡中訓練。以谷歌Inception-v2[1]為例,將五十萬訓練集的所有樣本不分模態(tài)的看作一百五十萬樣本(RGB,深度,近紅外三種模態(tài),其中RGB在此轉為灰度圖),輸入Inception-v2中進行訓練學習,使用32的batch數據塊規(guī)模,基礎學習率0.045,每19200次迭代學習率乘以0.9,weight decay(權值衰減)為0.0002,momentum(動量參數)為0.9,訓練約一百二十萬次迭代。得到的模型設為M2。則對于模型的特征,可認為是跨模態(tài)的特征,一個樣本的RGB(已轉為灰度圖)特征可與其深度信息特征相比,查詢集的RGB特征可與注冊集的深度信息特征進行相似度比較,這是本發(fā)明跨模態(tài)識別部分的基本算法。

在提取特征階段,對于注冊集和查詢集圖像的模態(tài)范圍可以是訓練集模態(tài)范圍的全集,也可以是真子集,但不能超出訓練集模態(tài)范圍以外;提取特征的位置可以在模型M1和M2的頂層,也可以在非頂層(如中間的某一層等)。

在上述的步驟(5)中,計算相似度的距離度量方法可以是余弦距離,也可以是歐式距離,或者馬氏距離等其他距離度量。本發(fā)明以余弦距離為例,對于兩個特征向量x1,x2,其余弦距離d=x1’*x2/(|x1|*|x2|)。其中,假設x1,x2均為列向量,x1’為x1的轉置,x1’*x2為x1’與x2的點乘,|x1|,|x2|為x1,x2的模長,其中模長滿足|x1|2=x1’*x1。

本發(fā)明人臉識別實驗指的是給定一個注冊集,注冊集中有一系列不同的人臉圖像,當給定一張查詢圖像時,找到該查詢圖像是注冊集中的哪一個人,方法可以是認為注冊集圖像與查詢圖像相似度最高的那個人;人臉確認實驗指的是,給定兩張查詢圖像,確定這兩張圖像是否是同一個人,方法可以是確定一個閾值,若兩張圖像相似度高于閾值,則認為是同一個人,否則認為不是同一個人。

本發(fā)明具有幾個關鍵技術點:1)使用網絡結構進行多模態(tài)融合,融合位置在網絡的中部,既非底層輸入位置也非頂層損失層位置,融合的模態(tài)數量可以是兩個,也可以是多個,融合結構中為每個模態(tài)提供了單獨的監(jiān)督信號,以使得每個模態(tài)自身的特征可以被充分挖掘而不至于被其他模態(tài)特征湮沒。因此可以獲得對于人臉識別而言的最充分泛化性能的特征表達和融合效果,并且不局限于兩個模態(tài),可以適應多個模態(tài),更加靈活。2)對于跨模態(tài)公共特征空間的學習方式,把多種模態(tài)的人臉圖像數據不加區(qū)分的作為輸入加入到深度神經網絡中進行訓練,模態(tài)數量可以是兩個,也可以是多個,圖像的標簽是人的標簽,不對模態(tài)做區(qū)分,訓練得到的公共特征空間可以選取網絡的頂層,也可以選擇網絡的非頂層;技術效果是可以獲得多種人臉模態(tài)之間跨模態(tài)的識別效果。3)對所有多模態(tài)模態(tài)內部相似度和跨模態(tài)模態(tài)之間相似度進行加權求和融合的方式,得到最終兩個圖像的多模態(tài)融合相似度,對于測試圖像而言模態(tài)可以完整也可以不完整,其模態(tài)類型集合可以是訓練集合模態(tài)類型集合的全集也可以是真子集;技術效果是使得多模態(tài)人臉識別獲得很強的靈活性和適用性,可以適用于多模態(tài)人臉識別的很多場景(如僅注冊集多模態(tài),查詢圖像單模態(tài)等)。

因此,本發(fā)明通過設計多模態(tài)和跨模態(tài)的深度學習網絡,充分的挖掘和學習人臉多模態(tài)之間的互補特征,極大的提高了人臉識別的性能,并提供了很強的多模態(tài)和跨模態(tài)人臉識別應用的靈活性和適用性。

上述實施方式并非是對本發(fā)明的限制,本發(fā)明也并不僅限于上述舉例,本技術領域的技術人員在本發(fā)明的技術方案范圍內所做出的變化、改型、添加或替換,也均屬于本發(fā)明的保護范圍。

當前第1頁1 2 3 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
鹤庆县| 荆门市| 海丰县| 龙游县| 固始县| 巴彦淖尔市| 内江市| 临邑县| 老河口市| 安仁县| 郯城县| 阜南县| 高淳县| 新竹县| 江北区| 宣恩县| 光山县| 三原县| 姚安县| 淮滨县| 湖南省| 洛阳市| 资溪县| 延川县| 宝兴县| 德化县| 上高县| 西和县| 昌宁县| 内乡县| 徐汇区| 手游| 安泽县| 牟定县| 鸡东县| 石屏县| 泰和县| 平潭县| 当雄县| 响水县| 上思县|