背景技術:
在消費和工作環(huán)境中使用的電子設備越來越多地結合了面向用戶的攝像機。此類設備包括個人計算機和膝上型計算機、平板計算機、智能手機、機頂盒、銷售點系統(tǒng)和物理訪問控制系統(tǒng)。一般來說,這些攝像機旨在與視覺通信服務(例如skype視頻個人對人呼叫)一起使用,或者使用戶能夠拍攝自身的照片和視頻以捕獲某一時刻并可能進行分享。對于這些用途,用戶非常希望能夠在捕獲和/或發(fā)送自己的圖像時看到自己的圖像。這樣做的原因可以包括能夠確保一個人的面部表情在分享時具有足夠的吸引力,或者確保圖像中顯示的細節(jié)足夠良好以實現(xiàn)預期目的。在這些情況下,用戶通常會仔細地將攝像機置于能夠呈現(xiàn)其臉部的良好形象并且愉悅自己眼睛的距離和角度。
對于前置攝像機而言,還存在另一類用途,可以將這種用途描述為人臉檢驗和人臉識別。人臉檢驗是使用圖像對用戶執(zhí)行驗證。此類驗證可能是必須的以便訪問在線服務、訪問在線數(shù)據(jù),或能夠執(zhí)行交易或進行支付??赡苄枰祟愹炞C來獲得對諸如鑰匙之類的物體的物理接觸、打開保險箱或儲物柜、或被允許通過門禁。另一個例子是使用圖像來借助人臉識別標識用戶,或者確認用戶圖像與剛被提供或訪問的身份文件的相似性。在注冊金融服務或訪問交通或醫(yī)療服務期間,此類驗證可能作為必要的“了解您的客戶”程序的一部分而發(fā)生。
已知的方法存在以下問題:即,交易的速度和性質有時不允許對用戶姿勢進行細致的美學優(yōu)化。
技術實現(xiàn)要素:
因此,本發(fā)明旨在提供向用戶提供快速視覺反饋,以針對設備的前置攝像機的此類用途實現(xiàn)適當?shù)娜四樁ㄎ坏南到y(tǒng)、方法和計算機程序產(chǎn)品。
根據(jù)本發(fā)明,提供了一種根據(jù)權利要求1所述的捕獲圖像的方法。優(yōu)選實施例在從屬權利要求中公開。
本文所描述的系統(tǒng)、方法和計算機程序產(chǎn)品向啟用攝像機的設備的用戶提供近實時反饋,以在用戶處于相對于設備的攝像機和/或顯示器的期望位置和方位時引導用戶捕獲自身圖像。期望的位置和方位優(yōu)化當圖像并非主要用于用戶使用,而是滿足在移動設備和/或在與該設備進行數(shù)據(jù)通信的本地或遠程系統(tǒng)上運行的應用的用途時捕獲的自身圖像的各方面??梢詫Ψ答佭M行抽象以避免因審美考慮而使用戶產(chǎn)生偏見。
在這些用途中,由攝像機捕獲的用戶的圖像或視頻通常不被用戶看到,也不被他所認識的任何人看到,而是由計算機進行分析,以確定用戶的身份、真實性、誠實度、健康狀況或情感。這里重點考慮人臉靠近攝像機、或者處于相對于攝像機的特定角度或處于相對于攝像機的一個或多個特定位置。當前的方法向用戶提供了太多的視覺反饋信息,無關的細節(jié)破壞了對準過程。在本發(fā)明的方法中,去除冗余細節(jié),保留用戶快速完成對準操作所必需的細節(jié)。本發(fā)明的解決方案有利地提高了用戶體驗的質量和便利性。已知的方法要求用戶將其臉部置于屏幕的非常規(guī)部分,這增加了用戶的復雜性,導致成功率降低和/或過程變緩慢。這些已知的方法存在攝像機向用戶呈現(xiàn)其面部圖像的問題,當用戶從不使人滿意的距離和角度看到自己的形象時,會產(chǎn)生焦慮和分心,從而導致采用安全性較差的替代方法。
通常,在一方面,一種捕獲用戶的圖像的方法包括:使用攝像機捕獲所述用戶的定位圖像;基本實時地處理所述定位圖像以生成所述用戶的抽象定位圖像;在面向所述用戶的顯示器上顯示所述用戶的所述抽象定位圖像,其中所述抽象定位圖像提供用于引導所述用戶移動到相對于所述攝像機的期望位置的視覺反饋,并且所述抽象定位圖像不提供用于使所述用戶評估所述定位圖像的視覺質量的足夠視覺信息;以及當所述用戶處于相對于所述攝像機的所述期望位置時,捕獲所述用戶的應用圖像;以及將所述用戶的被捕獲的應用圖像提供給應用,而不向所述用戶顯示所述被捕獲的應用圖像。
各個示例性實施例包括以下特征中的一者或多者。所述抽象定位圖像提供用于引導所述用戶移動到相對于所述顯示器的期望位置的視覺反饋,并且其中當所述用戶處于相對于所述顯示器的所述期望位置時,捕獲所述用戶的所述應用圖像。當所述用戶處于相對于所述攝像機的所述期望位置時,所述顯示器能夠照亮所述用戶的最接近所述顯示器并被包括在所述攝像機的視場內(nèi)的部位。當所述用戶處于相對于所述攝像機的所述期望位置時,所述顯示器的質心的法線在距所述用戶的鼻尖小于約兩英寸(五厘米)的點處與所述用戶的頭部相交。當所述用戶處于相對于所述攝像機的所述期望位置時,所述用戶位于距所述顯示器的最近舒適距離處。當所述用戶處于相對于所述攝像機的所述期望位置時,所述攝像機向上朝向所述用戶傾斜。顯示所述抽象圖像包括:當所述用戶在被捕獲的定位圖像內(nèi)偏離中心時,使所述用戶的圖像移位以在所述顯示器內(nèi)居中。所述被捕獲的圖像和所述應用圖像中的每一者包括靜止圖像和/或視頻圖像。所述顯示器用于在捕獲所述用戶的所述應用圖像期間照亮所述用戶。所述攝像機和所述顯示器被連接到具有網(wǎng)絡連接的基于本地計算機的系統(tǒng),并且在所述基于本地計算機的系統(tǒng)處,經(jīng)由所述網(wǎng)絡連接接收用于控制所述顯示器的數(shù)據(jù),以及在捕獲所述應用圖像期間,使用所述基于本地計算機的系統(tǒng),利用經(jīng)由所述網(wǎng)絡連接在所述基于計算機的系統(tǒng)處接收的所述數(shù)據(jù)來控制所述顯示器。所接收的數(shù)據(jù)使所述顯示器充當所述用戶的受控照明源。所述抽象定位圖像包括以下一者或多者:在所述用戶的被捕獲的定位圖像中以小空間尺度表示顯著亮度變化的線;所述用戶的模糊圖像;以及圓形特征,所述圓形特征具有基于被捕獲的定位圖像的顏色的顏色。當捕獲所述應用圖像時,向所述用戶發(fā)出警告。評估所述定位圖像的視覺質量包括評估所述定位圖像的美學質量。在捕獲所述用戶的應用圖像之后,在面向所述用戶的所述顯示器上顯示所述用戶的第二抽象定位圖像,其中所述第二抽象定位圖像提供用于引導用戶移動到相對于所述攝像機的第二期望位置的視覺反饋;當用戶處于相對于所述攝像機的所述第二期望位置時,捕獲所述用戶的第二應用圖像;以及將所述用戶的第二被捕獲的應用圖像提供給所述應用,而不向所述用戶顯示所述被捕獲的應用圖像。連接所述第一提及的期望位置和所述第二期望位置的線基本上平行于所述顯示器的平面。所述第一提及的期望位置和所述第二期望位置之間的位移使得所述應用能夠使用所述第一提及的被捕獲的應用圖像和所述第二被捕獲的應用圖像來提取有關所述用戶的三維信息。
通常,在另一方面,一種移動設備包括:cpu;以及存儲器,其存儲由所述cpu執(zhí)行的指令,其中所述指令在所述cpu上的執(zhí)行實現(xiàn)一種捕獲所述移動設備的用戶的圖像的方法,所述方法包括:使用攝像機捕獲所述用戶的定位圖像;基本實時地處理所述定位圖像以生成所述用戶的抽象定位圖像;在面向所述用戶的顯示器上顯示所述用戶的所述抽象定位圖像,其中所述抽象定位圖像提供用于引導所述用戶移動到相對于所述攝像機的期望位置的視覺反饋,并且所述抽象定位圖像不提供用于使所述用戶評估所述定位圖像的視覺質量的足夠視覺信息;以及當所述用戶處于相對于所述攝像機的所述期望位置時,捕獲所述用戶的應用圖像;以及將所述用戶的被捕獲的應用圖像提供給應用,而不向所述用戶顯示所述被捕獲的應用圖像。
通常,在進一步的方面,一種捕獲用戶的圖像的方法包括:使用攝像機捕獲所述用戶的定位圖像;基本實時地處理所述定位圖像以生成所述用戶的抽象圖像;在面向所述用戶的顯示器上顯示所述用戶的所述抽象圖像,其中所述抽象圖像提供用于引導所述用戶移動到相對于所述顯示器的期望位置的視覺反饋,并且所述抽象圖像不提供用于使所述用戶評估被捕獲的定位圖像的視覺質量的足夠視覺信息;以及當所述用戶處于相對于所述顯示器的所述期望位置時,捕獲所述用戶的應用圖像;以及將所述用戶的被捕獲的應用圖像提供給應用,而不向所述用戶顯示所述被捕獲的應用圖像。
各個實施例包括以下特征中的一者或多者。所述抽象圖像部分地基于所述攝像機相對于所述顯示器的位置。從分析所述被捕獲的定位圖像來推斷所述攝像機相對于所述顯示器的位置,以便確定所述用戶的姿勢和注視中的至少一者。當引導所述用戶觀看所述顯示器上顯示的視覺元素時,從分析所述被捕獲的定位圖像來推斷所述攝像機相對于所述顯示器的位置。本發(fā)明的一個用途是驗證或檢驗人臉,特別是活人的人臉。這具有廣泛的應用,其中一個應用領域是訪問控制領域。本發(fā)明的另一用途是用于診斷目的,以確定患者的身體和/或精神健康。再一用途是僅推斷情緒,以便確定被認證的人是否處于某種形式的脅迫(形式為可能引起壓力和恐懼的身體或情感威脅)之下。或者,為了市場調(diào)查或服務設計改進的目的,可以使用人對刺激(例如應用體驗,一段媒體內(nèi)容或一些營銷內(nèi)容)的反應。
附圖說明
將參考附圖更詳細地描述本發(fā)明的示例性實施例,其中:
圖1是用于在向用戶提供抽象視覺反饋的同時捕獲用戶圖像的基于移動設備的系統(tǒng)的高級框圖;
圖2是用于在向用戶提供抽象視覺反饋的同時捕獲用戶圖像的具有單獨攝像機和顯示器的基于計算機的系統(tǒng)的高級框圖;
圖3是正在向用戶提供抽象視覺反饋的啟用攝像機的設備的顯示器的屏幕截圖的圖示;
圖4a是示出用戶相對于具有垂直偏移和橫向居中的攝像機的移動設備的顯示器的最佳定位的視覺反饋的側視圖;
圖4b是圖4a的移動設備的前視圖,其示出了用戶相對于圖4a的移動設備的顯示器的最佳定位的視覺反饋;
圖5a是示出用戶相對于具有垂直和橫向偏移攝像機的移動設備的顯示器的最佳定位的視覺反饋的側視圖;
圖5b是圖5a的移動設備的前視圖,其示出了用戶相對于圖5a的移動設備的顯示器的最佳定位的視覺反饋;
圖5c是圖5a所示的用戶的前視圖,其示出了圖5a的移動設備的最佳定位。
具體實施方式
越來越多的應用需要捕獲人的頭部或臉部,但是根本不向用戶顯示圖像,特定情況除外。這些應用分析用戶臉部的圖像,以便推斷對于向用戶傳遞價值的服務提供商或服務或軟件有用的用戶信息。一類這樣的應用通過將圖像與先前存儲的圖像進行比較,檢查面部圖像以便推斷有關用戶身份的信息。另一類這樣的應用推斷有關用戶圖像的真實性的信息,以確定是真人而非該人的物理或數(shù)字復制品在攝像機前面。另一類這樣的應用通過分析其頭部圖像中包含的特征、面部肌肉運動、心跳或其它信息的細節(jié)來推斷有關用戶的情緒狀況或健康狀況的信息。圖像可以由移動設備用戶攜帶的移動設備中內(nèi)嵌的前置攝像機捕獲。圖1示出了這樣的系統(tǒng):其中設備102具有面向用戶108的嵌入式顯示器104和攝像機106。所述設備可以經(jīng)由網(wǎng)絡110與遠程服務器112進行數(shù)據(jù)通信。備選地,如圖2所示,可以通過安裝在基于計算機的系統(tǒng)206(例如膝上型計算機,個人計算機或工作站)的外部顯示監(jiān)視器204上方或以其他方式與其相鄰的攝像機202捕獲圖像,其中用戶208位于攝像機的視場內(nèi)并且靠近顯示器。所述計算機系統(tǒng)可以經(jīng)由網(wǎng)絡210連接到遠程服務器212。在這樣的應用中,顯示用戶頭部或臉部的忠實再現(xiàn)的圖像可能會適得其反,或不必要地消耗計算資源。然而,雖然用戶的圖像不會被顯示,但是應用仍可能需要捕獲滿足特定約束的用戶臉部圖像。例如,在某些應用中,重要的是捕獲近處用戶的圖像,以確保他們的臉部被屏幕良好地照亮。為了實現(xiàn)這一點,用戶應該比通常以令人滿意、無失真的角度捕獲圖像時更靠近屏幕,并且因此也更靠近內(nèi)嵌式攝像機。作為一個實例,以水平面以下30度的角度從30厘米的距離處捕獲的圖像產(chǎn)生用戶極力避免的令人不悅、甚至丑陋的圖像。類似地,如果應用需要捕獲用戶鼻孔的良好圖像,則攝像機視點應位于比通常用于令人滿意的面部圖像的角度低得多的角度。
通常,對于本文討論的應用,前置攝像機和用戶的頭部或臉部之間的最佳相對位置應由圖像旨在被用于的應用而非美學考慮來確定。此類考慮包括被捕獲圖像的分辨率、包括在被捕獲視場內(nèi)的面部特征或背景元素、以及用戶臉部的環(huán)境照明。應用可以進一步?jīng)Q定用戶頭部相對于用戶面部的受控照明源的最佳位置。在這里描述的各個實施例中,受控照明源是顯示器屏幕,例如膝上型計算機或桌面計算機的監(jiān)視器、或諸如智能電話、平板手機或平板計算機之類的移動設備的內(nèi)置顯示器。對于通過從顯示器發(fā)出的光照亮用戶臉部的應用,用戶頭部的最佳定位可主要由相對于顯示器的位置來確定。其他受控照明源可以包括外部光源,例如與從前置攝像機接收圖像的設備或膝上型計算機、桌面計算機或遠程系統(tǒng)進行數(shù)據(jù)通信的led。
可以捕獲用戶的圖像,但是當被捕獲的圖像用于分析用戶的外表或環(huán)境或其外貌的某些部位以推斷有關用戶的信息的一系列應用時,不向用戶顯示圖像,也不向用戶知道的任何人顯示圖像。此類信息可以包括他們的身份、他們與先前捕獲的圖像的相似性、他們作為真實人類的本質而非根據(jù)對他們的頭部或臉部圖像中包含的面部特征、面部肌肉活動、心跳或其它信息進行圖像分析而推斷出的他們的健康狀態(tài)或情緒的照片、視頻、打印頭部或合成圖像。
在此類應用中,盡管用戶可能看不到所捕獲的圖像,但是可能需要向用戶提供足夠的視覺反饋以使用戶能夠以最適合應用的方式定位他或她的頭部或臉部或頭部或臉部上的某些部位,但是這可能不對應于設備的攝像機前面的正常定位,也不產(chǎn)生美觀的結果。
盡管用于此類應用的最佳位置可以共享對向用戶顯示的圖像的部分或全部要求(例如要求用戶的臉部至少主要落在攝像機的視場范圍內(nèi)),但它們在其它方面可能不同。例如,當針對用戶使用而捕獲的圖像不會因為切掉頭部或臉部的一小部分而受損時,該部分的存在對于由應用執(zhí)行的分析而言可能是至關重要的。實際上,在某些情況下,如果沒有所缺失的部分,應用可能無法實現(xiàn)其目的或給出錯誤的結果。在另一實例中,用戶背后強光的存在可能會使用戶的臉部變暗或導致攝像機使臉部曝光不足,這對某些應用可能是有問題的。在每種情況下,都需要適當?shù)囊曈X反饋來引導用戶移到避免對應用需求不利的情況的位置。
最適合使用面向用戶的顯示器作為照明源的應用的位置包括將用戶的頭部置于顯示器的前面,以使得顯示器的平面能夠照亮臉上最接近顯示器并被包括在其視場中的部位,例如鼻子、嘴巴、眼睛或耳朵。這可以通過將與用戶臉部相對的顯示器居中來實現(xiàn),結果是位于顯示器上方的攝像機被大致定位成其法線指向用戶的發(fā)際線。在各個實施例中,顯示器的平面被定向為基本上平行于用戶臉部的平面,即在約10-20度內(nèi)。在某些情況下,希望將顯示器定位成以舒適的方式接近用戶的臉部,以便最大化能夠通過顯示器投射到臉上的照明。
另外,希望提供視覺反饋以使用戶知道該設備正在捕獲其頭部、臉部或頭部和臉部的某一部位的圖像。否則,用戶可能對所發(fā)生的事情感到困惑,甚至在了解到他們的圖像在未知情的情況下被捕獲時會生氣。即使用戶被書面通知他們的圖像被捕獲,也可能發(fā)生這種反應,因為用戶通常無法完全理解書面公開。視覺反饋以隱含地理解的方式提供此類公開。難題是向用戶提供足夠的視覺反饋以解決上述目的,但不顯示對捕獲的圖像的足夠忠實的表示,該足夠忠實的表示使得任何負面的審美質量具有令用戶分心或沮喪的風險。
捕獲用戶面部圖像以進行面部檢驗或人臉識別的系統(tǒng)的實現(xiàn)通常以使圖像高度可識別的保真度在捕獲時向用戶顯示用戶圖像。邊界控制中使用的一些系統(tǒng)顯示黑白圖像,其圖像分辨率和色調(diào)渲染足以作為幾十年前的個人照片。在個人計算機或移動智能手機上使用的一些人臉識別系統(tǒng)以屏幕的一部分中的色彩向用戶顯示圖像。以對于圖像大小而言可能的最大分辨率,通過全彩色和正常對比度來顯示圖像。這樣的系統(tǒng)通常不能克服上述難題,即,所顯示圖像的性質有可能擾亂和/或分散用戶的注意力,使其無法專注于手頭的任務。
這里描述的視覺反饋方法和系統(tǒng)被設計為向用戶提供他們需要的引導,以便針對捕獲用戶圖像而非主要用于用戶自己使用的應用進行正確定位。對此類反饋的要求可以包括:顯示的圖像尺寸足夠大以輕松、詳細地提供頭部或臉部位置的可視性;足夠的圖像細節(jié)以實現(xiàn)視覺反饋;以及足夠的抽象、失真、變形、印象或符號象征,以使用戶難以或不可能評估其美學質量或主體的吸引力。符號象征包括使用表示期望的設備方位或設備方位的期望變化的感知元素(不包括用戶臉部或頭部的表示)通過信號向用戶通知設備的期望方位或設備方位的期望變化的方法。此類感知元素可以包括設備屏幕上的視覺圖形元素,例如閃爍的箭頭、人字紋或動畫,或對設備上可用的其它可視指示器(例如led指示器或閃爍器、使用設備揚聲器或振鈴器的可聽信號、或使用設備的振動或點擊發(fā)生器的觸覺反饋)的使用。
生成視覺反饋可以包括從被捕獲的用戶圖像生成抽象圖像的圖像處理方法。一種方法涉及處理由攝像機看到的用戶圖像以提取邊緣,并且在黑暗或黑色背景上實時顯示橫向反轉(鏡像)邊緣作為白色或淺色線條,或者做相反的操作,這有些類似于黑白的線條繪制的卡通。這在圖3中示出,其中具有內(nèi)置的前置攝像機304和顯示觸摸屏306的移動設備302顯示用戶頭部的實時或近實時的繪制圖像308。
邊緣提取涉及在所捕獲的用戶圖像中識別小空間尺度上的顯著亮度變化的位置,其中假設這些位置中的亮度輪廓對應于面部特征的邊緣或用戶頭部的輪廓。當邊緣在白色背景上顯示為黑色時,最終顯示的抽象圖像類似于打印的卡通??梢酝ㄟ^用兩個不同空間距離帶寬的空間濾波器對圖像進行濾波并用結果中的一個減去另一個來提取邊緣。用于執(zhí)行此操作的高度完善的方法被包括在公知的開源圖像處理程序(被稱為opencv以及cannyedgedetector)中。影響最終圖像質量的圖像處理算法參數(shù)根據(jù)上述要求來選擇,即產(chǎn)生足夠詳細的圖像以向用戶提供必要的指導,但詳細度未達到使所產(chǎn)生的圖像具有令人不悅細節(jié),或包含太多的快速變化以致令人困擾的程度。
生成用于提供視覺反饋的抽象圖像的各種方法包括以下方面中的一個或多個:對所捕獲的圖像應用模糊,例如通過使用大塊像素化;將圖像轉變?yōu)榫哂蓄愃频讓訄D像的顏色的圓形或氣泡;夸大對比度;使用水彩畫變換;以及使用圖像調(diào)整軟件(如
所采用的圖像處理算法的參數(shù)可以在捕獲期間根據(jù)主要的光條件進行調(diào)整,以優(yōu)化呈現(xiàn)給用戶的圖像的特性。這涉及對攝像機捕獲的圖像的實時處理以提取諸如曝光度、對比度和焦點等關鍵圖像特征,并且使用這種處理的結果來調(diào)整應用于圖像處理的參數(shù)。
經(jīng)處理的用戶圖像被示為運動圖像,該運動圖像近似于具有大于每秒5幀的幀速率的視頻,從而使得用戶快速看到移動其頭部或攝像機的效果,并且反饋過程收斂于期望的結果。如果運動和圖像反饋之間的延遲太長,例如大于四分之一秒,效果可能不令人滿意,并可能導致不穩(wěn)定的運動集,并且不會收斂于預期的結果。為此,可能需要在用戶設備而不是遠程系統(tǒng)上處理圖像,以便獲得可接受的延遲。如果用戶具有足夠高的帶寬網(wǎng)絡連接,則可以遠程執(zhí)行圖像處理任務,并以可接受的延遲通過網(wǎng)絡發(fā)送回經(jīng)處理的運動圖像。
一旦用戶處于相對于攝像機的期望位置,則會向用戶發(fā)出警告并且捕獲圖像。可以使用視覺或音頻提示來提供警告。在收斂處理期間,系統(tǒng)可以顯示用戶放置其頭部的框架。一個視覺提示包括在用戶找到正確位置時改變框架的顏色或厚度。例如,當用戶不在正確的位置時,框架可以是顯示為三像素厚的藍色線的橢圓形,例如圖3中的橢圓形310,并且可以在找到正確位置時變成另一種顏色(例如綠色)。然后,用戶例如通過按下按鈕312來使攝像機304捕獲圖像。
盡管所捕獲的用戶圖像不是主要用于用戶使用,但是可能存在其中向用戶實際顯示圖像的特殊情況。例如,當與諸如第9,075,975號美國專利中描述的在線認證系統(tǒng)一起使用時,可能有必要在可疑地欺詐的情況下向用戶顯示所捕獲的圖像,以便在有爭議時證實他實際是有效地進行驗證的用戶,或者表明他實際上是另一人。
除了將用戶引導到相對于攝像機的優(yōu)選位置(在該位置中,用戶的臉部將定位成確保所有關鍵特征被包括在圖像中)之外,系統(tǒng)還可以將用戶引導到相對于顯示器的優(yōu)選位置。相對于顯示器的最佳定位通常不同于相對于攝像機的最佳定位,因為攝像機幾乎總是偏離顯示器的中心。在移動設備中,內(nèi)嵌式攝像機位于顯示器的上方和/或其側面。當攝像機和顯示器是單獨的單元(如圖2所示的具有單獨的攝像機和顯示器的系統(tǒng))時,攝像機從顯示器的偏離可能特別大。用戶越靠近顯示器,給定的顯示器質心到攝像機位移的角度偏移越大。
為了幫助將用戶引導到相對于顯示器(與攝像機不同)的最佳位置,可以向用戶顯示反饋圖像,在該反饋圖像中,用戶的頭部或臉部所在的屏幕部分不同于在攝像機捕獲的整個圖像以正常方式呈現(xiàn)在設備屏幕上(即,攝像機的視場直接映射到顯示區(qū)域上)的情況下用戶的頭部或臉部所在的部分。這可以通過在顯示被捕獲的圖像之前對其進行預處理來實現(xiàn),具體方法是裁剪圖像并對屏幕上的裁剪部分執(zhí)行線性平移,從而引導用戶定位攝像機,以使得顯示器處于相對于他們的頭部或面部的最佳位置。線性平移可以是垂直的、水平的或呈一定角度,將在下文對此進行描述。因此,面部圖像可被顯示為在用于顯示抽象圖像的屏幕部分內(nèi)居中,盡管該圖像可能在遠離攝像機視場中心的位置處被捕獲。
對于尋求最大化顯示器照亮用戶面部以對用戶進行驗證的能力的應用,當盡可能多的顯示屏幕部分垂直于與用戶臉部而非頸部或耳朵上的特征相交的線條時,產(chǎn)生最佳位置。當獲得這樣的最佳位置時,臉部的中心(即,鼻子和嘴部之間的某處)與顯示器的質心正好相對。對于智能電話之類的手持設備(其中以攝像機在顯示器上方的縱向姿態(tài)握持設備),該最佳位置將用戶的臉部置于在攝像機視場中心的下方。當觀看攝像機輸出(無論是抽象形式還是視頻)的用戶無法再相對于顯示器最佳地定位時,該用戶會自然地重新定位設備以使其臉部在攝像機視場中心。為了引導用戶將設備定位在期望的位置,在顯示器上向用戶顯示的捕獲圖像在顯示之前被處理以向上移位,只有當用戶已經(jīng)到達期望位置時,經(jīng)處理的圖像中的用戶臉部才在顯示器上居中。對于攝像機在大約4x21/4英寸(10x5.6厘米)的顯示屏的上方居中的移動設備,這種視覺反饋將導致通過攝像機鏡頭中心的法線軸大致在用戶的發(fā)際線處與用戶的臉部相交。圖4a和4b示出了這樣的配置,當攝像機406的法線與用戶410的發(fā)際線408相交時,具有顯示器404的移動設備402的中心大致正對用戶面部。對于具有在顯示器上方橫向居中的攝像機鏡頭的設備,如圖4a和4b所示,軸線沿著面部的中間部分(即,用戶頭部的中矢狀面(mid-sagittalplane)上)與發(fā)際線相交,但是在平行于用戶頭部的橫向軸線的垂直方向上偏離頭部的中心。對于攝像機鏡頭位于顯示器上方并相對于顯示器的平分法向平面橫向偏移的設備,最佳位置對應于在平行于矢狀軸橫向移位的點處與用戶頭部相交的攝像機透鏡軸,其中橫向位移量等于攝像機透鏡從顯示器的平分法向平面的橫向位移量。這種情況在圖5a、5b和5c中示出,具有橫向移位的攝像機504的設備502被最佳地放置,以便當攝像機法線在用戶發(fā)際線附近的點508(點508按照大致對應于攝像機504與顯示器506的中平面514的偏移512的量相對于用戶頭部的中矢狀面510橫向偏移)處與用戶的臉部相交時,使得頭部相對于設備顯示器506居中。
通常,為了使用戶將法線置于顯示屏質心以便其與用戶臉部的中心相交,抽象圖像在被顯示之前沿著將顯示屏質心連接到攝像機鏡頭中心的矢量平移。如圖4a和4b以及5a-c所示,當顯示屏的平面和用戶臉部的平面彼此大致平行時,該平移達到期望的結果。當顯示屏的平面與用戶的臉部不平行,但是以最多大約30度的角向其傾斜時,可以使用相同的平移使用戶獲得最佳位置。在這兩種情況下,當盡可能多的與顯示器垂直的線與面部特征相交,而不是與頸部或耳朵相交時,產(chǎn)生最佳位置。
當捕獲用戶圖像時,具有前置攝像機的設備可以以橫向位置定向。以這種姿態(tài),當用戶的臉部相對于顯示器居中時,攝像機橫向移位,即沿矢狀軸線移位。對于具有大約4×2.25英寸(10cm×5.7厘米)的顯示器的設備,在顯示器的前面將用戶的臉部置中對應于通過攝像機透鏡中心引導法向軸線穿過用戶的耳朵。對于具有較大顯示器的設備,例如具有在約5×23/4英寸(12.5×6.9厘米)至約9×6英寸(22.5×15厘米)的范圍的顯示器的智能手機、平板手機或平板計算機,位移將相應地更大,具體由攝像機鏡頭與顯示器質心之間的距離決定。如圖2所示,當攝像機和顯示器是單獨的單元時,也可以提供類似的視覺反饋。在這些情況的每一者中,視覺反饋引導用戶將設備置于相對于顯示器的最佳位置。對于使用抽象用戶圖像的視覺反饋,當獲得最佳位置時,抽象圖像呈現(xiàn)為位于被用于顯示抽象圖像的屏幕部分中央,盡管用戶不在攝像機視場的中心,這分別如圖4b和5b中的抽象用戶圖像412和514的位置所示。
為了確定如何調(diào)整反饋圖像以優(yōu)化用戶相對于顯示器的位置,向系統(tǒng)提供指定顯示器和攝像機的相對(或絕對)位置的信息。如果沒有提供這樣的信息,則可以通過顯示測試圖像和請求用戶來識別顯示器上的某些特征,或者通過從用戶的姿勢或注視推斷這些特征來確定相對間距。用戶的姿勢或注視可以是自發(fā)的,也可以通過要求用戶觀看顯示器上的特定位置(例如,觀看所顯示的靜態(tài)或移動的可視元素)來被引導。可以控制可視元素以引起姿勢和/或注視方向的變化,這些變化明顯地受將顯示器質心和攝像機主軸相連接的矢量的大小和方向的影響。這種技術可以部署在具有內(nèi)置的前置攝像機和顯示器的移動設備以及具有外部連接的攝像機和監(jiān)視器的基于計算機的系統(tǒng)中。
擴大或減小反饋圖像的尺寸也可以用于幫助用戶將他們的頭部或臉部置于離顯示器的最佳距離處。這可以通過改變攝像機的有效焦距,或簡單地通過放大或縮小顯示給用戶的圖像的處理來實現(xiàn)。最佳的設備到頭部距離部分地取決于顯示器的尺寸,對于移動設備中特有的小型顯示器,通常希望較小的距離,而在使用連接到膝上型計算機或工作站的較大監(jiān)視器的情況下,需要較大的距離。也可能希望控制縮放以幫助最大化被捕獲的用戶圖像的分辨率,同時保持舒適的用戶觀看體驗。
某些應用可能尋求從用戶設備的前置攝像機捕獲的用戶圖像中獲得三維信息。換句話說,除了投射到二維圖像的x、y平面上的信息之外,還尋求z軸信息。此深度信息可以通過分析x和y方向移動的視差效應,并且通過改變由設備的攝像機和用戶頭部在x、y以及z方向上的相對位置的變化導致的臉部圖像中的遮擋、特征的相對間距、失真和透視度來獲得。在大致平行于設備顯示器的平面的平面中,在約1/4英寸(0.6厘米)和4英寸(10厘米)之間的任何位置的設備運動產(chǎn)生視角的變化,從該視角可以通過視差確定所需的深度信息。
足以獲得這種三維信息的運動可伴隨用戶使用上述反饋方法相對于攝像機和顯示器執(zhí)行自我對準的自然嘗試。然而,如果用戶不能自然地產(chǎn)生足夠的視差,或者獲得更準確或不同的深度信息,則可以使用視覺反饋來引導用戶改變其相對于設備的位置。引導可能是隱含的,例如方式為改變所顯示的抽象捕獲圖像相對于攝像機的視場的位移,以使得用戶將抽象圖像置于中心的嘗試導致用戶執(zhí)行所需的移動。引導也可以是顯式的,例如通過顯示或說出的指令,或通過靜態(tài)或動態(tài)的符號提示,例如要求用戶沿指定的方向移動設備或其頭部的箭頭、人字紋或動畫。
當用戶執(zhí)行這些移動時,可以使用來自設備的內(nèi)置加速度計的數(shù)據(jù)跟蹤設備的絕對位置。加速度計提供實時位置信息,其提供用于從視差推導圖像中的深度信息的視角變化的基線。通過將在視角變化期間捕獲的圖像與來自加速度計的同時期實時位置數(shù)據(jù)相結合,與通過自行分析被捕獲的圖像而獲得的三維信息相比,能夠獲得更可靠和準確的三維信息。
也可以使用設備顯示器上的抽象視覺反饋來引起設備和/或用戶頭部的某些移動,以確定由內(nèi)置設備攝像機捕獲的圖像與由設備的機載加速度計和陀螺儀提供的姿態(tài)和位置數(shù)據(jù)之間的一致性水平。這種一致性可以通過致力于驗證設備用戶的活躍性和/或身份的應用來發(fā)現(xiàn)。例如,可以引起設備的左右和上下移動,其位置變化由機載加速度計跟蹤。然后可以將被捕獲的用戶圖像中產(chǎn)生的變化與預期由三維的人頭部的變化視角產(chǎn)生的視差進行比較。
在另一實例中,可以使用抽象圖像或視覺提示來使用戶改變設備的姿態(tài),例如方式為圍繞大致垂直于用戶臉部前方的軸線(即,圍繞冠狀軸)樞轉設備。為了引起這種運動,在向用戶顯示之前,可以對前置攝像機圖像進行抽象并且圍繞冠狀軸旋轉該圖像。然后用戶可以通過旋轉設備本能地嘗試保持其圖像直立,或者可以顯式地要求用戶保持其圖像直立,同時在顯示之前將變化的旋轉角度應用于圖像。被捕獲的圖像中的最終變化可以被與內(nèi)置陀螺儀捕獲的同期姿態(tài)數(shù)據(jù)進行比較,并且確定預期圖像和被捕獲的圖像之間的一致性水平。
視覺反饋還可以引起用戶朝向或遠離移動設備或系統(tǒng)(其中攝像機和顯示器作為單獨的單元與該移動設備或系統(tǒng)連接)的顯示器和/或攝像機(即,z方向)移動。合適的視覺反饋包括預處理用戶的抽象圖像以放大或縮小頭部的尺寸,并且要求用戶重新定位自身,以使得所顯示的圖像具有一定的尺寸。因此,如果預處理縮小圖像,則用戶通過靠近攝像機移動自然地補償,反之亦然。為了便于進行這樣的調(diào)整,抽象圖像可以在方框或橢圓形輪廓中顯示,并且要求用戶移動得更近或更遠,直到他們的外形正好填滿輪廓。備選地,不改變所顯示的抽象圖像的尺寸,而是可以改變橢圓或方框輪廓的大小,并且要求用戶調(diào)整他們與攝像機的距離,直至他們的外形正好填滿輪廓。這兩種方法可以按照不同的比例使用以引起所需的z方向移動。
由這種朝向或遠離攝像機的移動導致的視角變化造成捕獲圖像的變化,用戶頭部越靠近攝像機,就變得越突出。通過分析整體圖像尺度變化與面部特征的內(nèi)部布置和相對位置的變化之間的關系,可將被捕獲的圖像中的這種變化與三維物體預期的變化進行比較。此外,從機載加速度計捕獲的實時數(shù)據(jù)可以提供設備的絕對z方向位移,并提供進一步的數(shù)據(jù),利用該數(shù)據(jù)評估圖像與三維的人頭部的一致性。
還可能需要引起朝向和遠離攝像機和顯示器的移動,以確保前置攝像機捕獲合適的視場。需要用戶圖像的應用可能要求該用戶足夠遠,以使得整個面部出現(xiàn)在視場內(nèi)。然而,該應用還可能需要面部圖像具有盡可能多的分辨率,這樣最好使用戶的臉部盡可能靠近攝像機,使頭部填滿視場。此類應用相對于攝像機和顯示器對用戶的臉部進行最佳定位對應于使用戶面部的中心沿著法線矢量盡可能靠近顯示器的質心,所述法線矢量通過受約束的顯示器質心,該約束要求包括嘴、鼻子和耳朵的面部主要特征都落入攝像機的視場內(nèi)。當不能滿足該約束時,按照使關鍵特征在攝像機視場內(nèi)所必需的最小量將最佳位置(以及給予用戶的相應視覺反饋)朝著攝像機軸線移動。
用于相對于前置攝像機和/或顯示器定位用戶的視覺反饋也可以包括類似游戲的元素。通過玩游戲,用戶以這樣的方式移動所述設備:根據(jù)需要由攝像機捕獲的圖像的應用所期望的一個或多個位置來定位該設備。一類這樣的視覺反饋涉及要求用戶將可視元素定位在屏幕上的特定目標位置。這樣的目標位置可以是顯示器上的靜態(tài)點或由顯示圖像中的陰影、輪廓或特征限定的區(qū)域。由用戶定位的可視元素可以是幾何形狀、圖標、簡單的動畫人物或虛擬對象,例如通過搖動顯示器以模仿球在重力作用下在上面滾動的傾斜表面,從而在屏幕上來回滾動的虛擬球。目標位置可以是靜態(tài)或動態(tài)的。靜態(tài)目標包括屏幕中心處的點或突出顯示的區(qū)域,或由顯示器上顯示的靜態(tài)圖形或圖像限定的區(qū)域。動態(tài)目標可以以連續(xù)、平滑的方式在顯示器上來回移動,或者可以在屏幕上從一點跳到另一點。這些目標可以被顯示為移動的圖形元素、動畫圖案或移動的圖像,其中包括動畫或視頻。在每種情況下,要求用戶以可控的方式將可視元素置于所顯示的目標位置,并且在執(zhí)行此操作時,以在設備上運行的應用所需的方式移動其設備的位置和/或姿態(tài)。
所描述的用于相對于攝像機和顯示器定位用戶的實時用戶反饋的實施例可以使用通用計算機系統(tǒng)實現(xiàn)為計算機程序。這樣的計算機系統(tǒng)通常包括連接到向用戶顯示信息的輸出設備和從用戶接收輸入的輸入設備兩者的主單元。主單元通常包括經(jīng)由互連機制連接到存儲系統(tǒng)的處理器。輸入設備和輸出設備也通過互連機制連接到處理器和存儲系統(tǒng)。
一個或多個輸出設備可以連接到計算機系統(tǒng)。示例輸出設備包括但不限于液晶顯示器(lcd)、等離子體顯示器、諸如eink之類的反射顯示器、陰極射線管、視頻投影系統(tǒng),以及其它視頻輸出設備、打印機、用于在低或高帶寬網(wǎng)絡上通信的設備,其中包括網(wǎng)絡接口設備、電纜調(diào)制解調(diào)器和存儲設備(如磁盤或磁帶)。一個或多個輸入設備可以連接到計算機系統(tǒng)。示例輸入設備包括但不限于鍵盤、小鍵盤、軌跡球、鼠標、筆和平板計算機、觸摸屏、攝像機、通信設備和數(shù)據(jù)輸入設備。本發(fā)明不限于與計算機系統(tǒng)或本文所描述的那些設備組合使用的特定輸入或輸出設備。
所描述的用于相對于攝像機和顯示器定位用戶的實時用戶反饋的實施例可以使用諸如啟用攝像機的智能電話、平板計算機或平板手機之類的移動設備實現(xiàn)為計算機程序。移動設備可以以獨立模式操作,或者可以通過固定或無線連接而連接到其它計算機,其中包括可執(zhí)行本文所述的一些計算步驟的一個或多個遠程服務器。
存儲系統(tǒng)通常包括計算機可讀介質。介質可以是易失性的或非易失性的,可寫的或不可寫的,和/或可重寫的或不可重寫的。存儲系統(tǒng)通常以二進制形式存儲數(shù)據(jù)。這樣的數(shù)據(jù)可以定義要由微處理器執(zhí)行的應用程序,或存儲在盤上以供應用程序處理的信息。本發(fā)明不限于特定的存儲系統(tǒng)。數(shù)據(jù)庫信息、面部圖像和語音信息以及其它在線用戶識別信息可以被存儲在/輸入自磁的、光的或固態(tài)驅動器,這些驅動器可以包括本地盤或網(wǎng)絡連接盤的陣列。
諸如本文描述的系統(tǒng)可以以軟件、硬件或固件或三者的組合來實現(xiàn)。采取單獨或組合形式的各個系統(tǒng)元件可以被實現(xiàn)為一個或多個計算機程序產(chǎn)品,其中計算機程序指令存儲在計算機可讀介質上以供計算機執(zhí)行,或者經(jīng)由連接的局域網(wǎng)或廣域網(wǎng)傳輸?shù)接嬎銠C系統(tǒng)。計算機程序指令也可以經(jīng)由諸如載波信號之類的通信介質發(fā)送??梢杂蓤?zhí)行這樣的計算機程序指令的計算機執(zhí)行處理的各個步驟。計算機系統(tǒng)可以是多處理器計算機系統(tǒng),或者可以包括在計算機網(wǎng)絡上連接的多個計算機。本文描述的組件可以是計算機程序的單獨模塊,或者可以是在單獨的計算機上操作的單獨的計算機程序。由這些組件產(chǎn)生的數(shù)據(jù)可以存儲在存儲系統(tǒng)中或在計算機系統(tǒng)之間傳輸。