基于定序神經(jīng)網(wǎng)絡(luò)模型的人臉識別方法及裝置的制造方法
【專利摘要】本發(fā)明公開一種基于定序神經(jīng)網(wǎng)絡(luò)模型的人臉識別方法及裝置。該方法包括:對輸入的人臉圖像進(jìn)行預(yù)處理操作,校正人臉圖像的角度與表情;使用包含定序操作的神經(jīng)網(wǎng)絡(luò)提取已校正人臉圖像/視頻的特征;根據(jù)人臉圖像的特征表達(dá)計算圖像對間的相似度,從而得知輸入人臉圖像中特定對象的身份。本發(fā)明針對人臉識別問題中,基于神經(jīng)網(wǎng)絡(luò)的人臉識別模型參數(shù)多,計算開銷大的問題,提出定序神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),通過不同特征間的定序表示有效地減少網(wǎng)絡(luò)參數(shù),節(jié)省計算時間;并針對訓(xùn)練數(shù)據(jù)較少的問題,提出了基于對比損失、三元組損失的訓(xùn)練方法。
【專利說明】
基于定序神經(jīng)網(wǎng)絡(luò)模型的人臉識別方法及裝置
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及人工智能,模式識別,數(shù)字圖像處理等技術(shù)領(lǐng)域,具體涉及一種基于定 序神經(jīng)網(wǎng)絡(luò)模型的人臉識別方法及裝置。
【背景技術(shù)】
[0002] 作為生物特征識別技術(shù)的一種,人臉識別由于其非接觸性以及采集方便的特點, 具有良好的發(fā)展和應(yīng)用前景。人臉識別技術(shù)在諸多應(yīng)用場景中都發(fā)揮了十分重要的作用, 比如機場安檢,邊檢通關(guān)等。近幾年隨著互聯(lián)網(wǎng)金融的高速發(fā)展,人臉識別技術(shù)在移動支付 上表現(xiàn)出極大的應(yīng)用優(yōu)勢。人臉識別的目的是根據(jù)獲取的用戶人臉圖像或視頻得知用戶的 身份。目前,人臉識別技術(shù)在室外非受控環(huán)境下仍無法滿足實用要求,其主要難點在于光照 變化、用戶姿態(tài)表情變化、年齡體型變化及遮擋。
[0003] 近年來,深度學(xué)習(xí)在機器視覺的眾多領(lǐng)域都取得了令人矚目的效果。其中最為矚 目的模型當(dāng)屬卷積神經(jīng)網(wǎng)絡(luò),該類模型使用多層卷積層與池化層,可以抽取圖像或視頻數(shù) 據(jù)中有效的層級化特征,實現(xiàn)較強的非線性表達(dá)。卷積神經(jīng)網(wǎng)絡(luò)在物體分類,動作識別,圖 像分割以及人臉識別等領(lǐng)域,均取得了顯著強于傳統(tǒng)方法的效果。在一些低層視覺問題中, 比如圖像去噪,圖像超分辨率增強,圖像去模糊等問題中,深度學(xué)習(xí)技術(shù)也都取得了不錯的 效果。在人臉識別領(lǐng)域,基于神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)的人臉識別方法也由于其優(yōu)異的性能而 備受關(guān)注,目前國內(nèi)外領(lǐng)先的人臉識別算法大多基于深度學(xué)習(xí)模型?;谏疃葘W(xué)習(xí)的人臉 識別方法通常分為兩個步驟:首先使用神經(jīng)網(wǎng)絡(luò)模型對輸入的人臉圖像計算一個特征表 達(dá);然后根據(jù)特征表達(dá)間的相似性得到人臉圖像的。
[0004] 隨著大數(shù)據(jù)時代的來臨,我們需處理的數(shù)據(jù)規(guī)模往往非常大,人臉識別算法的速 度的高效性愈發(fā)重要。尤其是在移動支付領(lǐng)域,人臉識別算法的內(nèi)存要求和速度直接影響 用戶的等待時間。因此,目前迫切需要開發(fā)一種人臉識別算法,其可以在保證高識別率的同 時,滿足輕量級、泛化性能高的要求。
【發(fā)明內(nèi)容】
[0005] (一)要解決的技術(shù)問題
[0006] 為了解決提高人臉識別算法的準(zhǔn)確率,同時保證識別算法的快速高效,本發(fā)明提 出了一種基于定序神經(jīng)網(wǎng)絡(luò)模型的人臉識別方法。使用定序神經(jīng)單元,通過保持不同層級 特征間的定序關(guān)系挖掘出輸入圖像或視頻中的有效特征。由于定序神經(jīng)單元自身具備的特 征選擇特性,使得包含定序神經(jīng)單元的神經(jīng)網(wǎng)絡(luò)模型往往參數(shù)量較小,具備輕量級的特點, 從而保證了人臉識別算法較快的計算速度和較小的存儲需求。
[0007] (二)技術(shù)方案
[0008] 本發(fā)明提出了一種基于定序神經(jīng)網(wǎng)絡(luò)模型的人臉識別方法,包括:
[0009] 步驟S1、讀入輸入的待識別圖像,檢測待識別圖像中的人臉位置和關(guān)鍵點位置信 息;
[0010] 步驟S2、根據(jù)所述人臉位置信息和關(guān)鍵點信息對待識別圖像進(jìn)行預(yù)處理操作;
[0011] 步驟S3、將預(yù)處理后的待識別圖像輸入至定序神經(jīng)網(wǎng)絡(luò)模型中,得到待識別圖像 的特征表達(dá);
[0012] 步驟S4、計算待識別圖像的特征表達(dá)與數(shù)據(jù)庫中已知人臉圖像特征的相似度,以 識別待識別圖像。
[0013] 本發(fā)明還提出了一種基于定序神經(jīng)網(wǎng)絡(luò)模型的人臉識別裝置,其特征在于,包括:
[0014] 輸入模塊,用于讀入輸入的待識別圖像,檢測待識別圖像中的人臉位置和關(guān)鍵點 位置信息;
[0015] 預(yù)處理模塊,用于根據(jù)所述人臉位置信息和關(guān)鍵點信息對待識別圖像進(jìn)行預(yù)處理 操作;
[0016] 特征獲取模塊,用于將預(yù)處理后的待識別圖像輸入至定序神經(jīng)網(wǎng)絡(luò)模型中,得到 待識別圖像的特征表達(dá);
[0017] 識別模塊,用于計算待識別圖像的特征表達(dá)與數(shù)據(jù)庫中已知人臉圖像特征的相似 度,以識別待識別圖像。
[0018] 本發(fā)明針對人臉識別問題中,基于神經(jīng)網(wǎng)絡(luò)的人臉識別模型參數(shù)多,計算開銷大 的問題,提出定序神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),通過不同特征間的定序表示有效地減少網(wǎng)絡(luò)參數(shù),節(jié)省計 算時間;并針對訓(xùn)練數(shù)據(jù)較少的問題,提出了基于對比損失、三元組損失的訓(xùn)練方法。本發(fā) 明采用的定序神經(jīng)網(wǎng)絡(luò)模型可用于圖像視頻分類、圖像檢索、人臉識別等諸多問題中,在保 證高準(zhǔn)確率的同時,相比現(xiàn)有的神經(jīng)網(wǎng)絡(luò)模型的具備更少的網(wǎng)絡(luò)參數(shù),使得存儲成本、計算 成本大大降低,更加適應(yīng)于大數(shù)據(jù)場景下的各項任務(wù)。對于人臉識別,發(fā)明所采用的方法不 僅有效減少了神經(jīng)網(wǎng)絡(luò)模型的參數(shù)量,并能明顯提升人臉表示的泛化能力,相比同等參數(shù) 量與計算時間的模型來說大幅度提高了人臉識別準(zhǔn)確率。
【附圖說明】
[0019] 圖1是本發(fā)明中基于定序神經(jīng)網(wǎng)絡(luò)模型的人臉識別方法的方法流程圖。
【具體實施方式】
[0020] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚明白,以下結(jié)合具體實例,并參照詳 細(xì)附圖,對本發(fā)明進(jìn)一步詳細(xì)說明。但所描述的實施例子僅旨在便于對本發(fā)明的理解,而對 其不起任何限定作用。
[0021] 圖1是本發(fā)明提出的基于定序神經(jīng)網(wǎng)絡(luò)模型的人臉識別方法的方法流程圖,如圖1 所示,本發(fā)明提出的基于定序神經(jīng)網(wǎng)絡(luò)模型的人臉識別方法包括以下幾個步驟:
[0022] 步驟S1、讀入輸入的人臉圖像或視頻,檢測輸入圖像或視頻幀中的人臉位置信息 和關(guān)鍵點位置信息;
[0023] 在一實施例中,根據(jù)所述輸入的人臉圖像或視頻,應(yīng)用圖像識別算法檢測人臉位 置信息,并根據(jù)所得人臉位置信息,應(yīng)用圖像識別算法獲取人臉的關(guān)鍵點位置信息。其中, 人臉的關(guān)鍵點為預(yù)先定義的,如雙眼、鼻尖、嘴輪廓、臉周輪廓等等。
[0024] 步驟S2、根據(jù)所述人臉位置信息和關(guān)鍵點位置信息對輸入圖像或視頻幀中的人臉 圖像進(jìn)行預(yù)處理操作。所述預(yù)處理操作包括姿態(tài)校正和光線校正;
[0025]在一實施例中,所述姿態(tài)校正包括:確定標(biāo)準(zhǔn)臉的關(guān)鍵點位置和光照條件,然后根 據(jù)步驟S1獲取的人臉位置信息和關(guān)鍵點信息將輸入圖像的人臉關(guān)鍵點位置對齊至標(biāo)準(zhǔn)臉 關(guān)鍵點位置,以達(dá)到校正人臉姿態(tài)的目的;其中,可預(yù)先定義標(biāo)準(zhǔn)臉的關(guān)鍵點位置和光照條 件,或直接使用在訓(xùn)練集上計算得到平均臉作為標(biāo)準(zhǔn)臉,然后確定其關(guān)鍵點位置信息和光 照條件標(biāo)準(zhǔn)臉;
[0026]在一實施例中,所述光線校正包括通過圖像處理算法,將人臉圖像的光照變換至 與標(biāo)準(zhǔn)臉一致。
[0027]姿態(tài)校正與光線校正的操作次數(shù)不限,且其先后順序可互換。
[0028]步驟S3、將經(jīng)過預(yù)處理后的人臉圖像輸入至定序神經(jīng)網(wǎng)絡(luò)模型中,得到人臉圖像 的特征表達(dá);所述定序神經(jīng)網(wǎng)絡(luò)模型預(yù)先經(jīng)過訓(xùn)練得到。
[0029] 進(jìn)一步地,所述步驟S3包括:
[0030] 步驟S3-1、訓(xùn)練一個用來從已經(jīng)過預(yù)處理的人臉圖像中計算特征表達(dá)的定序神經(jīng) 網(wǎng)絡(luò)模型。所述神經(jīng)網(wǎng)絡(luò)模型包含定序神經(jīng)網(wǎng)絡(luò)單元。定序神經(jīng)網(wǎng)絡(luò)單元是神經(jīng)網(wǎng)絡(luò)模型 中的一類激活函數(shù)。與深度學(xué)習(xí)中常用的sigm 〇i、ReLU等單輸入單輸出的激活函數(shù)不同,定 序神經(jīng)網(wǎng)絡(luò)單元采取多輸入的形式,可獲取多個輸入間的定序表達(dá)。
[0031] 在一實施例中,所述定序神經(jīng)網(wǎng)絡(luò)單元的一個典型形式為:
[0032] YiJ - max(/,;/, Vi)
[0033] 其中分別為定序神經(jīng)網(wǎng)絡(luò)單元的兩個輸入,Y為定序神經(jīng)網(wǎng)絡(luò)單元的輸出。i, j分別是輸入、輸出圖像在兩X,y個方向上的索引。從上式可看出,定序神經(jīng)網(wǎng)絡(luò)單元的最大 值操作是按位進(jìn)行的,即輸出圖像每一位為各輸入對應(yīng)位的最大值。即該定序神經(jīng)網(wǎng)絡(luò)單 元的輸出為對輸入的一個定序表達(dá)。值得注意的是,式中的取最大值操作并非定序神經(jīng)單 元的唯一操作形式,最大值操作還可替換為最小值、平均值、和差、積商等常見數(shù)學(xué)操作。定 序神經(jīng)網(wǎng)絡(luò)單元的輸入也不限于兩個,可以是多個輸入的組合。即定序神經(jīng)網(wǎng)絡(luò)單元還可 擴展為以下形式:
[0039] 定序神經(jīng)網(wǎng)絡(luò)使用定序神經(jīng)網(wǎng)絡(luò)單元作為激活函數(shù),可自動學(xué)習(xí)出輸出對目標(biāo)任 務(wù)有效的特征間的定序表達(dá)。
[0040] 具體的,步驟S3-1進(jìn)一步包括:
[0041]使用softmax損失、對比損失和三元組損失作為目標(biāo)函數(shù)訓(xùn)練一個人臉圖像特征 提取模型,該網(wǎng)絡(luò)的輸入為標(biāo)準(zhǔn)大小的人臉圖像X,輸出為固定長度的人臉圖像特征表達(dá)f (X)。
[0042]步驟S3-1-1、利用收集的訓(xùn)練數(shù)據(jù),訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)分類模型,用來對訓(xùn)練樣本 中的人臉圖像分類。卷積神經(jīng)網(wǎng)絡(luò)分類模型的輸出層即為一個分類器,其接受人臉圖像特 征表達(dá)f(x)作為輸入,輸出值可用于計算輸入圖像的類別。對于具有N類的分類模型,網(wǎng)絡(luò) 的輸出具有N個節(jié)點。
[0043]該步驟中,利用softmax損失函數(shù)為代表的一系列分類損失函數(shù)作為優(yōu)化目標(biāo),訓(xùn) 練得到人臉圖像分類模型,其中softmax損失函數(shù)如下所示:
[0045]其中,N是類別數(shù)目;X是輸入人臉圖像;yeRNxl是表示人臉圖像類別的類別向量, 若訓(xùn)練樣本屬于第i類,則類別向量y中僅有第i維為1,其他維均等于〇;爐代表神經(jīng)網(wǎng)絡(luò)學(xué) 到的分類器,代表神經(jīng)網(wǎng)絡(luò)在輸出層第i個節(jié)點的輸出。
[0046] S3-1-2:將步驟S3-1-1中已訓(xùn)練好的人臉圖像分類神經(jīng)網(wǎng)絡(luò)模型作為預(yù)訓(xùn)練的模 型,使用對比損失(contrastive loss)和三元組損失(triplet loss)繼續(xù)對神經(jīng)網(wǎng)絡(luò)模型 進(jìn)行優(yōu)化訓(xùn)練。
[0047]去除S3-1-1中訓(xùn)練得到模型的輸出層,得到模型剩余層的輸出f(x)即為人臉圖像 的特征表達(dá)。
[0048]對比損失的優(yōu)化目標(biāo)為:
[0050] 其中f(x)為步驟S3-1-1中分類模型輸出層的輸入,即次末層的輸出,為人臉圖像 的特征表達(dá)。d(.)可為以L2距離、余弦距離為代表的一系列距離函數(shù)。訓(xùn)練過程中,可隨機 組合訓(xùn)練集中的樣本,構(gòu)建類內(nèi)樣本對與類間樣本對。Θ為控制類內(nèi)類間距離差異的一個參 數(shù),根據(jù)經(jīng)驗值進(jìn)行設(shè)定。
[0051] 三元組損失的優(yōu)化目標(biāo)為:
[0052] L=max(d(f(xa),f(xp))_d(f(xa)+a,f(x n)),〇)
[0053] 其中f(x)為步驟S3-1-1中分類模型輸出層的輸入,即次末層的輸出,為人臉圖像 的特征表達(dá)。d(.)可為以L2距離、余弦距離為代表的一系列距離函數(shù)。#稱為中心樣本,#為 與中心樣本,屬于同一類的正樣本, xn為與中心樣本,屬于不同類的負(fù)樣本。a為控制類內(nèi) 類間距離差異的一個參數(shù),根據(jù)經(jīng)驗值進(jìn)行設(shè)定。訓(xùn)練過程中,可在訓(xùn)練集合中隨機挑選樣 本作為中心樣本,然后在剩余樣本中選取與其同類/不同類的樣本構(gòu)建三元組。
[0054] 在一實施例中,步驟S3-1-2的訓(xùn)練過程中,篩選出難樣本組合作為訓(xùn)練數(shù)據(jù)。難樣 本篩選的具體步驟為:
[0055] 對于大容量訓(xùn)練集,隨機生成二元組合和三元組,分別計算其對應(yīng)的對比損失和 三元組損失,剔除損失值低于預(yù)設(shè)閾值的組合,僅保留損失值較大的一批訓(xùn)練樣本組合送 入模型進(jìn)行訓(xùn)練。
[0056] 對于小容量訓(xùn)練集,首先計算所有樣本間的相似度。然后選取相似度最低的同類 樣本作為難正樣本,以及相似度最高的不同類樣本作為難負(fù)樣本,最后以篩選出的難正樣 本與難負(fù)樣本作為訓(xùn)練樣本送入模型進(jìn)行訓(xùn)練。
[0057]隨著網(wǎng)絡(luò)訓(xùn)練的進(jìn)行,不斷調(diào)整學(xué)習(xí)率并篩選難樣本送入訓(xùn)練,直至訓(xùn)練損失不 再降低,從而得到最終的模型。
[0058] 步驟S3-2、使用步驟S3-1中訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)模型,將步驟S2中得到的預(yù)處理 后的人臉圖像作為神經(jīng)網(wǎng)絡(luò)的輸入,執(zhí)行神經(jīng)網(wǎng)絡(luò)模型的前向計算,得到的神經(jīng)網(wǎng)絡(luò)模型 的輸出即為輸入人臉圖像的特征表達(dá)。
[0059] 步驟S4、計算步驟S3得到的人臉圖像特征與數(shù)據(jù)庫中人臉圖像特征的相似度,判 斷輸入人臉圖像中的用戶身份。
[0060] 實施案例:
[0061] 為了詳細(xì)說明本發(fā)明的【具體實施方式】及驗證本發(fā)明的有效性,我們將本發(fā)明提出 的方法應(yīng)用于一個公開的人臉數(shù)據(jù)庫一一LFW人臉數(shù)據(jù)庫。該數(shù)據(jù)庫包括5749個人,共 13233幅圖像。
[0062]在我們的實施例中,我們采用LFW數(shù)據(jù)集的標(biāo)準(zhǔn)測試協(xié)議來證明本發(fā)明的有效性。 LFW數(shù)據(jù)集的標(biāo)準(zhǔn)測試協(xié)議由6000對人臉圖像組成,其中包含3000對相同人的人臉圖像以 及3000對不同人的人臉圖像。
[0063] 具體步驟如下:
[0064] 訓(xùn)練過程:
[0065] 步驟S3-1,收集大量人臉圖像作為訓(xùn)練數(shù)據(jù),設(shè)計神經(jīng)網(wǎng)絡(luò)模型。特別地,我們所 使用神經(jīng)網(wǎng)絡(luò)模型包含4個卷積層與4個池化層,在每個池化層后將輸出分為兩組,連接最 大值操作的定序神經(jīng)單元。根據(jù)步驟S3-1的順序,使用softmax損失、對比損失與三元組損 失作為優(yōu)化目標(biāo)函數(shù)對模型進(jìn)行訓(xùn)練。隨著網(wǎng)絡(luò)訓(xùn)練的進(jìn)行,不斷調(diào)整學(xué)習(xí)率并篩選難樣 本送入訓(xùn)練,直至訓(xùn)練損失不再降低,從而得到最終的模型。
[0066] 測試過程:
[0067] 步驟S1,我們首先對所有輸入圖像進(jìn)行人臉檢測與關(guān)鍵點檢測,得到所有輸入圖 像的人臉位置信息與關(guān)鍵點位置信息。
[0068] 步驟S2,根據(jù)上一步獲取的人臉位置信息和關(guān)鍵點信息對人臉圖像進(jìn)行姿態(tài)校 正、光照平衡等預(yù)處理操作。具體地,對于LFW數(shù)據(jù)集,我們使用旋轉(zhuǎn)和尺度縮放將輸入人臉 圖像校正至正面人臉。
[0069] 步驟S3,步驟S2得到的預(yù)處理后的人臉圖像作為神經(jīng)網(wǎng)絡(luò)的輸入,執(zhí)行神經(jīng)網(wǎng)絡(luò) 模型的前向計算,得到6000對人臉圖像的特征表達(dá)。
[0070] 步驟S4,計算6000對人臉圖像的余弦距離作為其相似度。調(diào)整相似度閾值,即可得 到在各閾值下的正確通過率、誤識率與識別率。
[0072 ]表1是本發(fā)明在LFW數(shù)據(jù)庫上的識別準(zhǔn)確率
[0073] 表1展示了我們方法在誤識率為0、0.1%、1%時的正確通過率,以及在最優(yōu)閾值下 的識別率。表1還展示了我們的深度學(xué)習(xí)模型參數(shù)文件需要的存儲空間大小與單張圖片特 征提取所用時間。和國際上性能相當(dāng)?shù)娜四樧R別模型相比,我們的方法計算速度更快、存儲 開銷更小。
[0074] 以上所述的具體實施例,對本發(fā)明的目的、技術(shù)方案和有益效果進(jìn)行了進(jìn)一步詳 細(xì)說明,所應(yīng)理解的是,以上所述僅為本發(fā)明的具體實施例而已,并不用于限制本發(fā)明,凡 在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保 護(hù)范圍之內(nèi)。
【主權(quán)項】
1. 一種基于定序神經(jīng)網(wǎng)絡(luò)模型的人臉識別方法,其特征在于,包括: 步驟S1、讀入輸入的待識別圖像,檢測待識別圖像中的人臉位置和關(guān)鍵點位置信息; 步驟S2、根據(jù)所述人臉位置信息和關(guān)鍵點信息對待識別圖像進(jìn)行預(yù)處理操作; 步驟S3、將預(yù)處理后的待識別圖像輸入至定序神經(jīng)網(wǎng)絡(luò)模型中,得到待識別圖像的特 征表達(dá); 步驟S4、計算待識別圖像的特征表達(dá)與數(shù)據(jù)庫中已知人臉圖像特征的相似度,W識別 待識別圖像。2. 根據(jù)權(quán)利要求1所述的基于定序神經(jīng)網(wǎng)絡(luò)模型的人臉識別方法,其特征在于,步驟S1 還包括: 對于待識別圖像,應(yīng)用圖像識別算法檢測人臉位置信息,并根據(jù)所得的人臉位置信息, 應(yīng)用圖像識別算法獲取人臉的關(guān)鍵點位置信息;其中,人臉的關(guān)鍵點為預(yù)先定義。3. 根據(jù)權(quán)利要求1所述的基于定序神經(jīng)網(wǎng)絡(luò)模型的人臉識別方法,其特征在于,所述步 驟S2中所述預(yù)處理操作包括姿態(tài)校正和光線校正;所述姿態(tài)校正包括:確定標(biāo)準(zhǔn)臉的關(guān)鍵 點位置和光照條件,然后根據(jù)所述人臉位置信息和關(guān)鍵點信息將輸入圖像的人臉關(guān)鍵點位 置對齊至標(biāo)準(zhǔn)臉關(guān)鍵點位置,W達(dá)到校正人臉姿態(tài)的目的;其中,可預(yù)先定義標(biāo)準(zhǔn)臉的關(guān)鍵 點位置和光照條件,或直接使用在訓(xùn)練集上計算得到平均臉作為標(biāo)準(zhǔn)臉,然后確定其關(guān)鍵 點位置信息和光照條件標(biāo)準(zhǔn)臉; 所述光線校正包括通過圖像處理算法,將人臉圖像的光照變換至與標(biāo)準(zhǔn)臉一致。4. 根據(jù)權(quán)利要求1所述的基于定序神經(jīng)網(wǎng)絡(luò)模型的人臉識別方法,其特征在于,所述步 驟S3中的所述定序神經(jīng)網(wǎng)絡(luò)模型包括定序神經(jīng)網(wǎng)絡(luò)單元,用于獲取多個輸入之間的定序表 達(dá)。5. 根據(jù)權(quán)利要求4所述的基于定序神經(jīng)網(wǎng)絡(luò)模型的人臉識別方法,其特征在于,所述定 序表達(dá)包括最大值、最小值、平均值、和差或積商。6. 如權(quán)利要求1-5任一項所述的基于定序神經(jīng)網(wǎng)絡(luò)模型的人臉識別方法,其特征在于, 所述定序神經(jīng)網(wǎng)絡(luò)模型如下訓(xùn)練獲得: 利用訓(xùn)練集中的訓(xùn)練樣本,采用分類損失函數(shù)作為優(yōu)化目標(biāo),訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)分類 模型,用W對訓(xùn)練樣本中的人臉進(jìn)行分類; 將訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)分類模型作為預(yù)訓(xùn)練的模型,使用對比損失函數(shù)和Ξ元組損 失函數(shù)繼續(xù)對所述卷積神經(jīng)網(wǎng)絡(luò)分類模型進(jìn)行訓(xùn)練。7. 如權(quán)利要求6所述的基于定序神經(jīng)網(wǎng)絡(luò)模型的人臉識別方法,其特征在于,所述分類 損失函數(shù)為softmax損失函數(shù),如下表示:其中,N是類別數(shù)目;X是輸入;yeRWx堪表示輸出的類別向量;參代表訓(xùn)練得到的分類 器,巧,以|,/二1,2,…,W代表卷積神經(jīng)網(wǎng)絡(luò)分類模型輸出層第i個節(jié)點的輸出。8. 如權(quán)利要求6所述的的基于定序神經(jīng)網(wǎng)絡(luò)模型的人臉識別方法,其特征在于,所述使 用對比損失函數(shù)和/或Ξ元組損失函數(shù)繼續(xù)對所述卷積神經(jīng)網(wǎng)絡(luò)分類模型進(jìn)行訓(xùn)練中對比 損失函數(shù)如下表示:其中,Θ為對比損失函數(shù)中控制類內(nèi)類間距離差異的參數(shù),所述Ξ元組損失函數(shù)如下表 示: L=max(d(f (χ3) ,f (xP))-d(f(xa)+a,f (x。)),Q) 其中f(x)為所述預(yù)訓(xùn)練的模型輸出層的輸入,即預(yù)訓(xùn)練的模型次末層的輸出;d(.)為 距離函數(shù),稱為中屯、樣本,χΡ為與中屯、樣本屬于同一類的正樣本,χη為與中屯、樣本屬于 不同類的負(fù)樣本;訓(xùn)練過程中,中屯、樣本為在訓(xùn)練集合中隨機挑選的樣本,a為Ξ元組損 失函數(shù)中控制類內(nèi)類間距離差異的參數(shù)。9. 如權(quán)利要求6所述的的基于定序神經(jīng)網(wǎng)絡(luò)模型的人臉識別方法,其特征在于,所述使 用對比損失函數(shù)和/或Ξ元組損失函數(shù)繼續(xù)對所述卷積神經(jīng)網(wǎng)絡(luò)分類模型進(jìn)行訓(xùn)練中篩選 出難樣本組合作為訓(xùn)練數(shù)據(jù),所述難樣本組合篩選的具體步驟為: 對于大容量訓(xùn)練集,隨機生成二元組合和Ξ元組,分別計算其對應(yīng)的對比損失和/或Ξ 元組損失,剔除損失值低于預(yù)設(shè)闊值的組合,利用保留下來的訓(xùn)練樣本組合進(jìn)行訓(xùn)練; 對于小容量訓(xùn)練集,首先計算所有訓(xùn)練樣本間的相似度,然后選取相似度最低的同類 訓(xùn)練樣本作為難正樣本,W及相似度最高的不同類樣本作為難負(fù)樣本,最后W篩選出的難 正樣本與難負(fù)樣本作為訓(xùn)練樣本進(jìn)行訓(xùn)練。10. -種基于定序神經(jīng)網(wǎng)絡(luò)模型的人臉識別裝置,其特征在于,包括: 輸入模塊,用于讀入輸入的待識別圖像,檢測待識別圖像中的人臉位置和關(guān)鍵點位置 信息; 預(yù)處理模塊,用于根據(jù)所述人臉位置信息和關(guān)鍵點信息對待識別圖像進(jìn)行預(yù)處理操 作; 特征獲取模塊,用于將預(yù)處理后的待識別圖像輸入至定序神經(jīng)網(wǎng)絡(luò)模型中,得到待識 別圖像的特征表達(dá); 識別模塊,用于計算待識別圖像的特征表達(dá)與數(shù)據(jù)庫中已知人臉圖像特征的相似度, W識別待識別圖像。
【文檔編號】G06K9/00GK106096538SQ201610403028
【公開日】2016年11月9日
【申請日】2016年6月8日
【發(fā)明人】孫哲南, 赫然, 譚鐵牛, 宋凌霄, 曹冬, 侯廣琦
【申請人】中國科學(xué)院自動化研究所