本申請(qǐng)涉及用于臉部識(shí)別的方法和系統(tǒng)。
背景技術(shù):
臉部識(shí)別系統(tǒng)的性能主要取決于面部表示,這自然與很多類型的臉部變化相關(guān),諸如,臉部視角、照明度和視角表情(view expression)。由于經(jīng)常在不同的視角上觀察臉部圖像,因此,主要的挑戰(zhàn)在于解開(kāi)(untangle)臉部身份和視角表示。
大量的工作已經(jīng)致力于手工提取身份特征,諸如,LBP、Gabor和SIFT。臉部識(shí)別的最佳實(shí)踐以多重尺度在臉部圖像的標(biāo)定上提取上述特征,并且將它們連接成高維特征矢量。深度神經(jīng)網(wǎng)絡(luò)已經(jīng)應(yīng)用于從原始像素中學(xué)習(xí)特征。
深度神經(jīng)網(wǎng)絡(luò)的啟示來(lái)源于理解人腦的分層皮質(zhì)和模仿人腦活動(dòng)的一些方面。人類不僅可識(shí)別身份,而且可在不同的視角下想象人的臉部圖像,從而使得人腦中的臉部識(shí)別對(duì)視角改變較穩(wěn)健。在某種程度上,人腦可以從2D臉部圖像中推斷出3D模型,甚至在沒(méi)有實(shí)際上感知到3D數(shù)據(jù)時(shí)也可如此。
技術(shù)實(shí)現(xiàn)要素:
在本申請(qǐng)的一方面,公開(kāi)了用于多視角感知器的方法,其包括:
確定輸入臉部圖像在所述圖像的給定視角上的多個(gè)身份特征;
捕獲所述輸入臉部圖像的視角表示;
從確定的身份特征和所述視角表示來(lái)確定用于臉部復(fù)原的一個(gè)或多個(gè)特征;以及
根據(jù)生成的復(fù)原特征生成臉部圖像,隨后將生成的臉部圖像與捕獲的視角表示結(jié)合成用于所生成的臉部圖像的視角標(biāo)簽。
在本申請(qǐng)的一方面,還公開(kāi)了多視角感知器系統(tǒng),其包括:
身份特征確定單元,配置成確定輸入臉部圖像在所述圖像的給定視角上的多個(gè)身份特征;
視角表示捕獲單元,配置成捕獲所述輸入臉部圖像的視角表示;
特征組合單元,配置成從確定的身份特征和所述視角表示來(lái)產(chǎn)生用于臉部復(fù)原的一個(gè)或多個(gè)特征;以及
復(fù)原單元,配置成基于生成的復(fù)原臉部生成臉部圖像,并且隨后將生成的臉部圖像與所述視角表示結(jié)合成所述生成的臉部圖像的視角標(biāo)簽。
根據(jù)本申請(qǐng)的實(shí)施方式,身份特征確定單元、視角表示捕獲單元、特征組合單元和復(fù)原單元可接合在一起以形成生物神經(jīng)網(wǎng)絡(luò)。通過(guò)使概率分布的下限最大化,可確定所述生物神經(jīng)網(wǎng)絡(luò)的參數(shù),即,權(quán)重和偏差,所述概率分布由生成的臉部圖像、視角表示和輸入臉部圖像的視角標(biāo)簽形成。
在本申請(qǐng)的一方面,還公開(kāi)了用于記錄可由一個(gè)或多個(gè)處理器執(zhí)行的指令的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),以便:
確定輸入臉部圖像在所述圖像的給定視角上的多個(gè)身份特征;
捕獲所述輸入臉部圖像的視角表示;
從確定的身份特征和所述視角表示來(lái)確定用于臉部復(fù)原的一個(gè)或多個(gè)特征;以及
從生成的復(fù)原特征中生成臉部圖像,并且隨后將生成的臉部圖像與捕獲的視角表示結(jié)合成所生成的臉部圖像的視角標(biāo)簽。
附圖說(shuō)明
下文參考附圖描述本發(fā)明的示例性非限制實(shí)施方式。附圖是說(shuō)明性的,并且一般不按精確比例繪制。不同附圖上的相同或相似元件以相同的參考數(shù)字進(jìn)行參考。
圖1是示出符合一個(gè)公開(kāi)實(shí)施方式的用于臉部識(shí)別的系統(tǒng)的示意圖。
圖2是示出根據(jù)本申請(qǐng)的一個(gè)實(shí)施方式的對(duì)用于臉部識(shí)別的系統(tǒng)進(jìn)行模擬的神經(jīng)網(wǎng)絡(luò)的示意圖。
圖3是示出與本申請(qǐng)的一些公開(kāi)實(shí)施方式相一致的臉部識(shí)別的示意性流程圖。
圖4是示出與本申請(qǐng)的一些公開(kāi)實(shí)施方式相一致的用于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程的示意性流程圖。
圖5是示出與本申請(qǐng)的另一公開(kāi)實(shí)施方式相一致的用于臉部識(shí)別的系統(tǒng)的示意圖。
圖6是示出與本申請(qǐng)的一些公開(kāi)實(shí)施方式相一致的臉部測(cè)試程序的示意性流程圖。
具體實(shí)施方式
現(xiàn)在將詳細(xì)參考示例性實(shí)施方式,示例性實(shí)施方式的實(shí)例在附圖中示出。在適當(dāng)?shù)臅r(shí)候,在整個(gè)附圖中相同的參考數(shù)字指代相同或相似部分。
圖1是示出根據(jù)本申請(qǐng)的一個(gè)實(shí)施方式的示例性多視角感知器系統(tǒng)100的示意圖。
多視角感知器系統(tǒng)100接收不同視角的臉部圖像并且輸出不同視角上的相同身份的圖像y和它們的視角標(biāo)簽v,即,其中xij是第j個(gè)視角下的第i個(gè)身份的輸入圖像,yik表示第k個(gè)視角的相同身份的輸出圖像,以及vik是輸出的視角標(biāo)簽并且它可以是M維的二進(jìn)制矢量,其中第k個(gè)元素是1并且其他元素為零。
應(yīng)理解,系統(tǒng)100可使用特定硬件、軟件或它們的組合來(lái)實(shí)施。此外,本發(fā)明的實(shí)施方式可適合于具體化在一個(gè)或多個(gè)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)(包括但不限于,磁盤存儲(chǔ)器、CD-ROM、光學(xué)存儲(chǔ)器等)上的計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)含有計(jì)算機(jī)程序代碼。
在利用軟件實(shí)施系統(tǒng)100的情況下,系統(tǒng)100可包括通用計(jì)算機(jī)、計(jì)算機(jī)集群、主流計(jì)算機(jī)、專用于提供在線內(nèi)容的計(jì)算裝置,或者計(jì)算機(jī)網(wǎng)絡(luò),所述計(jì)算機(jī)網(wǎng)絡(luò)包括一組以集中或分布方式操作的計(jì)算機(jī)。
再次參考圖1,其中設(shè)備1000由硬件實(shí)施,設(shè)備1000可包括:被配置成在給定的任意視角中學(xué)習(xí)輸入臉部圖像x的身份特征hid的確定性單元(神經(jīng)元)10,以及被配置成捕獲輸入臉部圖像x的視角表示hv的隨機(jī)單元(神經(jīng)元)20。視角表示hv自然地與許多類型的臉部變化相關(guān)聯(lián),諸如,視角、照明度和臉部表情。
在本申請(qǐng)的一個(gè)實(shí)施方式中,身份特征確定單元10操作以在圖像的給定視角中確定輸入臉部圖像的多個(gè)身份特征。在本申請(qǐng)的一個(gè)實(shí)施方式中,身份特征確定單元10可根據(jù)激活函數(shù),即,雙彎曲函數(shù)σ(x),從輸入臉部圖像中生成多個(gè)第一身份特征并且隨后基于生成的第一身份特征而生成多個(gè)第二身份特征例如,根據(jù)下列規(guī)則,身份特征確定單元10可生成多個(gè)第一身份特征并且隨后基于生成的第一身份特征而生成身份特征
其中U0和U1是預(yù)定權(quán)值,如后面將討論的那樣可以是從0到1范圍內(nèi)的數(shù)。
如圖1所示,多視角感知器系統(tǒng)100還包括特征組合單元30,該特征組合單元30被配置成從從確定的身份特征和視角表示產(chǎn)生用于臉部復(fù)原的一個(gè)或多個(gè)特征。在一個(gè)實(shí)施方式中,特征組合單元30可將生成的第二身份特征與生成的視角表示hv組合,以產(chǎn)生用于臉部復(fù)原的一個(gè)或多個(gè)第三特征并且隨后從產(chǎn)生的第三特征生成用于臉部復(fù)原的一個(gè)或多個(gè)第四特征例如,用于臉部復(fù)原的第三特征和第四特征可由下列規(guī)則確定:
其中{U2,V2}和{U3,V3}是預(yù)定權(quán)值,并且可以是從0到1范圍內(nèi)的數(shù)。
再次參考圖1,多視角感知器系統(tǒng)100還可包括復(fù)原單元40,復(fù)原單元40被配置成從生成的復(fù)原特征生成臉部圖像y,并且隨后將生成的臉部圖像y與視角表示hv結(jié)合成生成的臉部圖像的視角標(biāo)簽。在本申請(qǐng)的一個(gè)實(shí)施方式中,臉部圖像的視點(diǎn)y和視角標(biāo)簽v可由下列規(guī)則確定:
v=σ([U5y,W5V]) 公式6)
其中U4和U5是預(yù)定權(quán)值,其可以是從0到1范圍內(nèi)的數(shù)。
在本申請(qǐng)的一個(gè)實(shí)施方式中,系統(tǒng)100可被實(shí)施為模擬生物神經(jīng)網(wǎng)絡(luò)并且由連接在一起的多個(gè)人工節(jié)點(diǎn)形成的網(wǎng)絡(luò),其中,所述人工節(jié)點(diǎn)被稱為“神經(jīng)元”或“單元”。理論上,人工神經(jīng)元是被構(gòu)想成生物神經(jīng)元的模型的數(shù)學(xué)函數(shù)。人工神經(jīng)元接收一個(gè)或多個(gè)輸入(代表樹(shù)突),并且將它們合計(jì)起來(lái),以產(chǎn)生輸出(代表神經(jīng)元的軸突)。上述U0、U1、U2、U3、U4、V2、V3、W2和W3代表所形成的神經(jīng)網(wǎng)絡(luò)的權(quán)重和偏差。換言之,可基于神經(jīng)網(wǎng)絡(luò)獨(dú)立地確定上述U0、U1、U2、U3、U4、V2、V3、W2和W3。圖2示出根據(jù)本申請(qǐng)的一個(gè)實(shí)施方式的神經(jīng)網(wǎng)絡(luò)的示意性配置。
通過(guò)使數(shù)據(jù)對(duì)數(shù)似然最大化,來(lái)學(xué)習(xí)MVP系統(tǒng)的參數(shù)(本文中也稱為“權(quán)值和偏差”),即,U0、U1、U2、U3、U4、V2、V3、W2和W3:
通過(guò)令q(hv)=p(hv|y,v;Θold),達(dá)到下限。重要性抽樣用來(lái)估計(jì)真實(shí)后驗(yàn)p(hv|y,v;Θold)。聯(lián)合概率p(y,v|hv;Θold)是重要性權(quán)值。
在下文中,將參考圖4論述具體的訓(xùn)練過(guò)程400。
在步驟S401中,利用0到1范圍內(nèi)的值對(duì)參數(shù)Θ,即,U0、U1、U2、U3、U4、V2、V3、W2和W3進(jìn)行隨機(jī)初始化。
在步驟S402中,基于當(dāng)前參數(shù)Θ,對(duì)多個(gè)視角表示hv進(jìn)行抽樣。具體而言,基于先驗(yàn)分布q(hv),即,均勻分布對(duì)視角表示進(jìn)行抽樣。換言之,向hv的集合分配值,從而使得具有均勻分布,即,{hv}~U(0,1)。隨后,通過(guò)當(dāng)前參數(shù)Θ的W2,從生成
在步驟S403中,將臉部圖像x輸入到身份特征確定單元10,即,如圖2所示的模擬網(wǎng)絡(luò)中的最低層,以便基于隨機(jī)初始化的U0和U1,根據(jù)公式1)和2)生成第一和第二身份特征。組合單元30隨后操作以將生成的第二身份特征與分配的組合,以便根據(jù)公式3)和4)產(chǎn)生用于臉部復(fù)原的一個(gè)或多個(gè)第三特征并且隨后基于產(chǎn)生的第三特征生成用于臉部復(fù)原的一個(gè)或多個(gè)第四特征通過(guò)公式5)和6)的規(guī)則,復(fù)原單元40隨后基于生成的復(fù)原特征生成臉部圖像y,并且隨后將生成的臉部圖像y和被分配以值的視角表示hv結(jié)合成所生成的臉部圖像的視角標(biāo)簽。
在步驟S404中,其使用生成的臉部圖像y和視角標(biāo)簽v來(lái)形成/計(jì)算對(duì)應(yīng)于不同視角表示hv的先驗(yàn)分布(即,重要性權(quán)值),所述先驗(yàn)分布可表示為p(hv|y,v;Θold)。具體而言,基于均勻分布,即,{hv}~U(0,1)抽樣視角表示hv,那么預(yù)期得到的便是重要性權(quán)值p(y,v|hv;Θold)的加權(quán)求和,這可根據(jù)公式7)來(lái)表示。
在步驟S405中,使用梯度上升來(lái)最大化重要性權(quán)值p(y,v|hv;Θold)的下限。如公式7)所示,可將下限具體化為隨后,計(jì)算下限的梯度,即,其中通過(guò)相對(duì)于重要性樣本在所有梯度上求平均值來(lái)計(jì)算梯度。重要性抽樣是基本抽樣算法,其利用建議分布q(x)來(lái)估計(jì)復(fù)雜分布p(x)。由于p(x)太復(fù)雜而不能直接抽樣,因此,在本申請(qǐng)的實(shí)施方式中,可以從一個(gè)簡(jiǎn)單的分布,即,均勻分布進(jìn)行抽樣,并且p(x)/q(x)的比被稱為重要性權(quán)值,從而校正因基于不同的分布進(jìn)行抽樣而引入的偏差,如下:
其中是重要性權(quán)值。
在步驟S406中,通過(guò)下列規(guī)則,由梯度上升來(lái)更新參數(shù):
在步驟S407中,確定是否達(dá)到下限或者觀察到聯(lián)合概率的數(shù)據(jù)似然的收斂;如果沒(méi)有,則重復(fù)步驟S402到S407,否則,學(xué)習(xí)到/確定參數(shù)(U0、U1、U2、U3、U4、V2、V3、W2和W3)。
在下文中,將論述與一些公開(kāi)實(shí)施方式一致的用于臉部識(shí)別的過(guò)程200。如圖3所示,過(guò)程200包括一系列步驟,所述步驟可由嵌入或布置在計(jì)算機(jī)上的處理器中的一個(gè)或多個(gè)執(zhí)行、可由系統(tǒng)100的每個(gè)模塊/單元執(zhí)行,以實(shí)施數(shù)據(jù)處理操作。出于描述的目的,參考以硬件或者硬件和軟件的組合制成系統(tǒng)100的每個(gè)模塊/單元的情況進(jìn)行以下論述。所屬領(lǐng)域的技術(shù)人員應(yīng)了解,其他合適的裝置或系統(tǒng)可適用于實(shí)施下列過(guò)程,并且系統(tǒng)100僅用作實(shí)施該過(guò)程的例示。
在步驟S201中,將確定輸入臉部圖像在圖像的給定視角上的多個(gè)身份特征。在本申請(qǐng)的一個(gè)實(shí)施方式中,根據(jù)激活函數(shù)從輸入臉部圖像生成多個(gè)第一身份特征并且隨后基于生成的第一身份特征來(lái)生成多個(gè)第二身份特征例如,通過(guò)公式1)和公式2)的規(guī)則,可生成多個(gè)第一身份特征以及基于生成的第一身份特征來(lái)生成第二身份特征
在步驟S202中,過(guò)程100捕獲輸入臉部圖像x的視角表示hv。
在步驟S203中,該過(guò)程基于確定的身份特征和視角表示產(chǎn)生用于臉部復(fù)原的一個(gè)或多個(gè)特征。在本申請(qǐng)的一個(gè)實(shí)施方式中,將生成的第二身份特征與生成的視角表示hv組合,以產(chǎn)生用于臉部復(fù)原的一個(gè)或多個(gè)第三特征并且隨后從產(chǎn)生的第三特征生成用于臉部復(fù)原的一個(gè)或多個(gè)第四特征例如,通過(guò)如上文論述的公式3)和公式4)的規(guī)則,可確定用于臉部復(fù)原的第三特征和第四特征
在步驟S204中,將基于生成的復(fù)原特征生成臉部圖像y,并且隨后將生成的y與視角表示hv結(jié)合成所生成的臉部圖像的視角標(biāo)簽。在本申請(qǐng)的一個(gè)實(shí)施方式中,臉部圖像y和v可由公式5)和公式6)的規(guī)則確定。
圖5示出根據(jù)本申請(qǐng)的另一實(shí)施方式的多視角感知器系統(tǒng)500。系統(tǒng)500可針對(duì)給定圖像的所有可能視角標(biāo)簽v來(lái)重建全部光譜的多視角圖像。
如圖5所示,系統(tǒng)500可包括身份特征確定單元10、視角表示捕獲單元20、特征組合單元30、復(fù)原單元40,以及圖像選擇單元50。圖6示出用于系統(tǒng)500針對(duì)給定圖像的所有可能視角標(biāo)簽v來(lái)重建全部光譜的多視角圖像的過(guò)程600。下文將參考圖6論述單元10到50的協(xié)作。
在步驟S601中,身份特征確定單元10操作以學(xué)習(xí)具有給定視角標(biāo)簽v的輸入臉部圖像x的多個(gè)身份特征。在步驟S601中,視角表示捕獲單元20操作以捕獲輸入臉部圖像x的視角表示hv。在步驟S603中,特征組合單元30操作以將生成的第二身份特征與生成的視角表示hv組合,以產(chǎn)生用于臉部復(fù)原的一個(gè)或多個(gè)第三特征并且隨后從產(chǎn)生的第三特征生成用于臉部復(fù)原的一個(gè)或多個(gè)第四特征在步驟S604中,復(fù)原單元40操作以從生成的復(fù)原特征生成臉部圖像y,并且隨后生成的y(其可表示為輸出的集合)和視角表示hv形成所生成的臉部圖像的視角標(biāo)簽。由于單元10到40的配置與圖1的那些單元相同,并且步驟S601到S604的過(guò)程與步驟S201到S204相同,因此,省略其詳細(xì)描述。
隨后在步驟S605中,圖像選擇單元50操作以計(jì)算的概率p(v|yS,hv),并且隨后從ys的集合中選擇產(chǎn)生最大概率的那個(gè)ys,即,確定與輸入圖像x最類似的圖像。對(duì)于具有所有可能視角標(biāo)簽v的輸入圖像x而言,系統(tǒng)500重復(fù)以上程序以獲得與具有不同視角標(biāo)簽v的輸入x最類似的圖像,從而使得針對(duì)輸入圖像x的所有可能視角標(biāo)簽v來(lái)重建全部光譜的多視角圖像。
根據(jù)本申請(qǐng)的一個(gè)實(shí)施方式,在給定臉部圖像x的情況下,可通過(guò)上述步驟S601到S605來(lái)生成對(duì)應(yīng)輸出圖像的集合{yz},其中z表示所生成(或插入)的視角的值的指數(shù)。如果從輸出圖像{yz}中選出與x最類似的圖像的一個(gè)yz,那么第z個(gè)輸出yz的視角標(biāo)簽可分配到臉部圖像x。
盡管已描述了本發(fā)明的優(yōu)選實(shí)例,但在了解本發(fā)明基本概念后,所屬領(lǐng)域的技術(shù)人員可對(duì)這些實(shí)例進(jìn)行變化或更改。所附權(quán)利要求書旨在被視作包括落入本發(fā)明的范圍內(nèi)的優(yōu)選實(shí)例和所有變化或更改。
顯然,在不脫離本發(fā)明的精神和范圍的情況下,所屬領(lǐng)域的技術(shù)人員可對(duì)本發(fā)明進(jìn)行變化或更改。因此,如果這些變化或更改屬于權(quán)利要求書和其等同的范圍,那么它們也可落入本發(fā)明的范圍內(nèi)。