專利名稱:一種基于人臉姿態(tài)估計的人機交互方法
技術領域:
本發(fā)明涉及包含以下步驟 a)經(jīng)光學鏡頭及CMOS圖像傳感器組件得到的人臉數(shù)字圖像序列,通過DSP的數(shù)字視頻高速通道實現(xiàn)數(shù)據(jù)采集。
b)對人臉數(shù)字圖像進行預處理。
①圖像消噪。由于圖像噪聲點與它們的近鄰像素在灰度值、統(tǒng)計特征或分布規(guī)律上有顯著的區(qū)別,由此可以進行圖像濾波實現(xiàn)噪聲抑制,使有用信息更容易檢測與識別。非線性擴散是一種良好的圖像消噪方法,具有很好的保邊特性,但要經(jīng)過多次迭代,計算復雜度高。本發(fā)明中采用目標點四個方向帶狀區(qū)域的方差構造邊緣映射,應用于非線性擴散圖像消噪算法中,減少迭代次數(shù),并采用積分圖實現(xiàn)快速計算。
②人臉檢測與區(qū)域劃分。手工標注多張人臉,將這些人臉變換到相同尺寸,再求平均得到人臉模板,用模板匹配方法得到人臉的大概位置,然后根據(jù)人臉結構特征先驗知識將人臉劃分成左右眼、鼻和嘴四個區(qū)域。
③邊緣檢測。由于5個特征點都位于人臉器官的角點上,需要提取輪廓或角點信息以提高定位精度。傳統(tǒng)的邊緣檢測方法有Canny算子、Sobel算子、形態(tài)學方法以及小波變換方法等。此外,SUSAN角點檢測算法能夠很好反映邊緣及角點信息,但效果受到閾值影響。本發(fā)明中采用方向濾波方法獲取邊緣圖像。
c)定位人臉的5個特征點(2個眼角、2個嘴角和鼻尖)。
①定位眼角。首先,在前面確定的人眼區(qū)域內(nèi),對消噪后圖像進行水平和垂直兩個方向的灰度投影,分別取谷點位置作為眼球中心的二維坐標,并以此劃定矩形區(qū)域作為眼睛的確切位置;然后,考察這一區(qū)域,對邊緣圖像進行二值化處理,并檢測任意連通區(qū)域的點數(shù),去掉連通點數(shù)太少的區(qū)域。最后,對選中的人眼連通區(qū)域提取最左(右)點作為眼角點。
②定位嘴角。嘴角定位也是角點檢測,方法與眼角定位類似,但由于嘴的灰度變化不象眼睛一樣存在高對比度的瞳孔,造成其輪廓不分明。先采用唇色樣本訓練建立高斯混合概率模型,將嘴區(qū)域所有點代入模型計算其概率,并規(guī)格化后作為新的灰度信息,再應用眼角定位相同的方法提取嘴角位置。
③定位鼻尖。鼻尖不在輪廓上,定位鼻尖要依靠其與眼角與嘴角的幾何位置關系確定。由于鼻尖離鼻孔較近,而且位于兩個鼻孔連線上方,先采用灰度投影法在鼻子區(qū)域內(nèi)搜索兩個鼻孔位置,然后在鼻孔上方查找高光點作為鼻尖位置。在人臉偏轉角度較大時,鼻尖定位容易造成誤差,但在本發(fā)明中,鼻尖位置只影響偏轉角度的符號,即確定轉動方向,并不影響角度大小計算,因而對誤差并不敏感。
d)估計人臉的3個偏轉角度 3個偏轉角度是生成人機交互信息的基礎。在偏轉角度不太大,人臉大小相對固定并處于畫面中心,有良好光照的條件下,可以準確得到5個特征點,用下面步驟求取3個偏轉角。
①坐標變換。先計算左右眼角點的中心,并作為圖像原點,其余所有坐標點根據(jù)其與原點的相對位置進行坐標變換,得到新的坐標值。然后計算兩個嘴角點的中心位置并記錄,得到兩個眼角、眼角中心、鼻尖、嘴角中心共5個特征點,這5個特征點是進行人臉三個三維偏轉角度估計的基礎。
②確定一幅正面圖像,以兩個眼角連線為水平線,該連線與嘴角中心點確定的平面與攝像鏡頭法線垂直時為正面,設此時三個偏轉角0。定位正面圖像的5個特征點,根據(jù)d)①方法完成坐標變換,計算5個特征點坐標并記錄,在后續(xù)的姿態(tài)估計中作為參考信息。
③對任意時刻采集的人臉圖像,需要估計其姿態(tài)以生成人機交互信息。首先定位5個特征點,再按照d)②相同的方法得到5個點的坐標。參照d)②得到的正面圖像的特征點,對這些坐標按照幾何約束關系進行驗證,對明顯不符合條件的定位結果作放棄處理,不生成交互信息。
④利用d)②、d)③兩步所確定的兩幅圖像對應5點的坐標,利用針孔攝像機模型,根據(jù)算法特點作出一些合乎情理及不影響結果的簡化假設,最后利用對極幾何原理進行推導,計算出任意圖像中人臉的姿態(tài),得到三個偏轉角度。
e)生成人機交互信息 由前面獲得的三個偏轉角度定義鼠標位置和操作方式。計算機-鼠標交互方法包括指針在二位平面內(nèi)任意移動,鼠標左、右鍵的單雙擊等操作。本發(fā)明根據(jù)其中兩個角度值定位鼠標指針位置,用另一角度的幀間突變量定義鼠標的操作,從而生成人機交互信息。
f)連接計算機實現(xiàn)通信 裝置中開發(fā)USB接口,按照標準USB鼠標的通信協(xié)議編寫驅動程序,將前面獲取的人機交互信息傳送到計算機。計算機不需要任何專門的程序支持,降低了目標計算機的負擔,不影響操作者應用計算機運行復雜的軟件。
本發(fā)明作為傳統(tǒng)人機交互方法的補充,適用于一些特殊的交互人群(如肢殘人士)和交互環(huán)境(如多媒體游戲),具有顯著的應用價值。
圖1是本發(fā)明的人機交互信息處理流程圖 圖2是人臉初定位采用的人臉模板圖 圖3是正面人臉器官模板及本方法中5個特征點位置圖 圖4是本發(fā)明中人臉3個偏轉角度的定義方法示意圖
具體實施例方式 下面結合一個非限定性實例對本發(fā)明作進一步的說明 參見圖1、圖2、圖3、圖4。
本發(fā)明圖像采集、時序生成及控制采用CPLD器件實現(xiàn),圖像預處理、特征點定位和姿態(tài)估計相關算法采TI公司的達芬奇處理器TMS32C6446完成,USB接口用Cypress控制芯片實現(xiàn)。依據(jù)信息處理流程完成所有算法及硬件模塊設計,模擬鼠標操作實現(xiàn)人機交互。
主要模塊內(nèi)容介紹如下 (1)人臉圖像預處理 I.圖像消噪。由于光學系統(tǒng)或電子器件影響,圖像不可避免會受到噪聲干擾,需要進行消噪處理以提高特征點的定位精度。應用非線性擴散消噪算法原理,并利用目標點鄰域四個方向帶狀區(qū)域灰度的方差值作為圖像的邊緣映射,每個像素點的擴散量由鄰域八像素與該點的差值以及相應的方向權系數(shù)決定,從而增強適應能力,減少迭代次數(shù)少,加快運算速度。其迭代公式為 為了在迭帶過程中不產(chǎn)生新的極值點,λ取0.125,σp,q根據(jù)p、q值不同代表四個方向帶狀區(qū)域方差。
為叉分方法計算的梯度。擴散函數(shù)g(σ)定義為 II.人臉定位與區(qū)域劃分。由于本發(fā)明應用于特殊的人機交互環(huán)境,可以保證一系列客觀條件良好的光照,人臉大小比較統(tǒng)一并處于圖像中心,背景影響較小,減少了人臉定位負擔。先采用手工標注100張人臉,在尺寸歸一化后求平均得到人臉模板,用模板匹配方法提取人臉的位置。設ai,j為待檢測像素灰度,ti,j為模板像素灰度,Ea、Et分別為二者均值,則匹配系數(shù)定義為 m>0.55為侯選人臉區(qū)域。在檢測范圍內(nèi)若出現(xiàn)多個符合條件的區(qū)域,則對連續(xù)出現(xiàn)的人臉區(qū)域求平均得到人臉位置。然后根據(jù)人臉結構特征先驗知識將人臉劃分成左右眼、鼻和嘴四個區(qū)域。
III.邊緣檢測。人臉的眼、鼻、嘴等器官包含了顯著的輪廓信息,可以通過邊緣檢測算法提取輪廓信息,為特征點檢測打下基礎。本發(fā)明中采用方向濾波方法先用差分法計算每個點的梯度大小和方向,再對目標點及其相鄰8點的梯度進行矢量疊加,用其模值作為該點新的灰度值,從而得到邊緣圖像。
(2)定位人臉的5個特征點(2個眼角、2個嘴角和鼻尖)。
I.定位眼角。首先,針對(1)I得到的預處理圖像和(1)II確定的人眼大致區(qū)域,進行水平和垂直灰度投影,先對投影波形進行平滑,再分別取谷點位置為眼球中心點的縱向和橫向坐標,并以此劃定矩形區(qū)域作為眼睛的位置;其次,對該區(qū)域的(1)III邊緣圖像采用最大類間方差法確定閾值進行二值化處理;再次,對二值圖像進行連通區(qū)域檢測,對連通點少于20的區(qū)域作為干擾排除,并對候選連通區(qū)進行形狀驗證;最后,對選中的人眼連通區(qū)域提取最左(右)點,若存在多點則最下面的點作為眼角點。
II.定位嘴角。采用與眼角定位相似的方法,只是由于嘴的灰度變化不如眼睛明顯,所以在對嘴唇區(qū)域進行邊沿檢測之前,先通過高斯混合模型(GMMs)進行膚色變換手工收集大量嘴唇樣本,根據(jù)其顏色先計算所有樣本點的Cr、Cb色差信息,并以此為二維坐標,建立由兩個高斯模型組成的高斯混合概率模型,代入所有樣本點進行膚色訓練,獲得模型參數(shù)。將(1)II步確定的嘴巴區(qū)域所有點的顏色信息代入模型,計算屬于嘴唇的概率,將概率變換到0-255區(qū)間,作為新的灰度圖,然后用(1)III方法進行邊緣檢測。后續(xù)的嘴角定位步驟與眼角提取相同。
III.定位鼻尖。首先定位兩個鼻孔位置,以找到的兩個眼角位置為基礎,定義其距離為h,根據(jù)眼角、嘴角和鼻孔的位置關系,在眼角連線以下的1.2h到1.6h,寬度為h的矩形區(qū)域內(nèi)分別進行水平和垂直灰度投影,由水平投影的谷點位置作為鼻孔位置的縱坐標,以垂直投影的兩個谷點分別作為兩個鼻孔的橫坐標。然后在鼻孔上方0.3h內(nèi)查找高光點,作為鼻尖位置。
(3)估計人臉的3個偏轉角度 在偏轉角度不太大(在20°以內(nèi)),并且有良好光照的條件下,前面步驟能夠準確定位5個特征點A~E,用下面步驟求取3個偏轉角。
I.坐標預處理。對A、B兩點坐標求平均,得到中心點F。指定F為坐標原點,水平向右為橫軸u,豎直向上為縱軸v,對后面所有圖像點的二維坐標均以此為參考進行變換。對兩個嘴角點D、E坐標求平均得到中心點G,連同兩個眼角、眼角中心點和鼻尖共5個特征點A、B、C、F、G,用下面步驟求取3個偏轉角。
II.首先確定一幅正面圖像,設定其三個偏轉角α、β、γ為0,定位5個特征點A~E,按照上面(3)I方法計算A、B、C、F、G點的坐標并記錄。作為參考圖像,在下面表述中,以下標1作為標記。于是這些坐標點描述為A點(uA1,vA1),B點(uB1,vB1),C點(uC1,vC1),F(xiàn)點(uF1,vF1),G點(uG1,vG1)。
III.對任意時刻采集的人臉圖像,首先定位5個特征點,再按照(3)II相同的方法得到5個點的坐標,以下標2為標記A點(uA2,vA2),B點(uB2,vB2),C點(uC2,vC2),F(xiàn)點(uF2,vF2),G點(uG2,vG2)。
IV.利用(3)II、(3)III兩步所確定的兩幅圖像對應5點的坐標,利用針孔攝像機模型和對極幾何原理進行數(shù)學推導,計算出圖像2中人臉的姿態(tài),得到三個偏轉角度α、β、γ。針孔攝像機模型 其中s為尺度因子,圖像點的齊次坐標,K為像機的內(nèi)部參數(shù)矩陣,可以定義成diag(f,f,1)。T=[tx,ty,tz]T是平移矩陣,是空間人臉三維點的齊次坐標。R是以α,β和γ為基礎的旋轉矩陣。本步驟的任務是根據(jù)兩幅已知圖像的5個特征點的
信息,通過一些合理的假設,在不知道
的情況下估算R中的三個角度值。
由于只涉及角度估計,算法中的運算式全部以差-商方式出現(xiàn),可以對針孔像機模型的參數(shù)作如下假設s=1,K=diag(1,1,1),T=
T。設 c=cosγ d=sinγ h=sinβ 可以推導出 γ=arc tan(M) 由于在計算過程中,β存在一個正負符號問題,不能由A、B、F、G四點唯一確定,所以需要引入C點,根據(jù)C與F、G連線的相對位置決定其符號。
(4)生成人機交互信息 由α、β、γ三個角度信息定義鼠標位置和操作方式。α、β為0定義為屏幕中心,α變化時鼠標上下移動,β變化時鼠標左右移動,角度大于或等于20°時鼠標定位到屏幕邊沿。γ角度的突變定義鼠標操作方式,γ為正且連續(xù)兩幀之間角度變化介于3°~8°為單擊左鍵,超過8°為雙擊左鍵,γ為負且連續(xù)兩幀之間角度變化介于-3°~-8°為單擊右鍵,超過-8°為雙擊右鍵。
(5)通過USB連接到PC機上形成鼠標裝置 裝置上應用Cypress芯片開發(fā)USB接口,以標準USB鼠標方式實現(xiàn)與PC機的通信。用上面方法產(chǎn)生的鼠標位置和操作方式取代傳統(tǒng)鼠標的操作信息傳送到PC機,形成一種基于人臉姿態(tài)估計的視覺鼠標裝置。
權利要求
1、一種基于人臉姿態(tài)估計的人機交互方法,方法包括以下步驟
a)將經(jīng)光學鏡頭及CMOS圖像傳感器組件得到的人臉數(shù)字圖像序列,通過DSP的數(shù)字視頻高速通道實現(xiàn)數(shù)據(jù)采集,并由DSP完成視頻處理算法;
b)對人臉數(shù)字圖像進行預處理
首先進行圖像降噪采用非線性擴散方法實現(xiàn)噪聲抑制,其中邊緣映射采用目標點鄰域四個方向帶狀區(qū)域的方差計算法;方差計算過程中的區(qū)域求和采用積分圖實現(xiàn),以減少計算量;其次,對圖像中的人臉進行定位,并進行區(qū)域劃分,用模板匹配方法得到人臉的大概位置,然后根據(jù)人臉結構特征先驗知識將人臉劃分成左右眼、鼻和嘴四個區(qū)域;最后進行邊緣檢測,考查任意圖像點梯度的大小和方向,根據(jù)圖像點與鄰域8點的梯度方向的一致性,將所有9點的梯度求矢量和,用其模值作為該圖像點新的灰度值,得到邊緣圖像;
c)定位人臉的2個兩個眼睛的內(nèi)眼角、2個嘴角和鼻尖共5個特征點
①定位眼角首先,在人眼的初步區(qū)域內(nèi)采用灰度投影法確定眼球中心位置,并以此劃出矩形區(qū)域作為眼睛的確切位置;然后,在該區(qū)域內(nèi)采用最大類間方差法確定閾值,對邊緣圖像進行二值化處理,并限制連通點數(shù);最后,對人眼連通區(qū)域提取最左(右)點作為眼角點;
②定位嘴角先采用唇色樣本訓練含兩個高斯函數(shù)的混合高斯模型,計算嘴巴區(qū)域內(nèi)任意點屬于嘴唇的概率,并規(guī)格化后作為該點新的灰度信息,再應用眼角定位相同的方法提取嘴角位置;
③定位鼻尖先在鼻子區(qū)域內(nèi)采用灰度投影法搜索兩個鼻孔位置,然后在鼻孔上方查找高光點作為鼻尖位置;
d)估計人臉的3個偏轉角度
①坐標變換首先,計算兩個眼角的中心位置,作為圖像原點將所有特征點進行坐標變換;其次,計算兩個嘴角點的中心位置并記錄,得到兩個眼角、眼角中心、鼻尖、嘴角中心共5個新的特征點;
②對一幅正面圖像以及有偏轉角度的實時圖像分別獲得5個特征點的坐標,完成坐標變換并建立對應關系;
③利用兩幅圖像對應5點的坐標,由針孔攝像機模型,根據(jù)算法特點作出一些合乎情理且不影響結果的簡化假設,最后利用對極幾何原理進行推導,估計任意圖像中人臉的姿態(tài),得到三個偏轉角度;
e)生成人機交互信息
由三個偏轉角度定義鼠標位置和操作方式,根據(jù)其中兩個角度值定位鼠標指針位置,用另一角度的幀間變化量定義鼠標的操作,生成人機交互信息;
f)連接計算機實現(xiàn)通信
按照標準USB鼠標的通信協(xié)議開發(fā)USB接口并編寫驅動程序,將前面獲取的人機交互信息傳送到計算機,形成一種新的視覺鼠標裝置。
2、根據(jù)權利要求1所述的基于人臉姿態(tài)估計的人機交互方法,其特征是對一幅正面參考圖像和有偏轉角度的實時圖像分別定位5個特征點,其中確定兩個嘴角點是為了得到其中點參與姿態(tài)估計;由人臉的偏轉角度定義人機交互信息并以USB鼠標方式與計算機通信;該視覺鼠標裝置適合于多媒體應用及肢殘人士使用計算機。
全文摘要
本發(fā)明涉及一種基于人臉姿態(tài)估計的人機交互裝置及方法,實現(xiàn)的步驟是經(jīng)攝像頭得到人臉圖像序列,在進行預處理后自動提取兩個眼角、兩個嘴角和鼻尖5個特征點;以一幅正面圖像為參考,根據(jù)5個特征點的位置及對應關系估計任意圖像中人臉的3個偏轉角度;由這些姿態(tài)信息定義鼠標指針位置和操作方式,生成人機交互信息;通過USB接口連接到計算機,形成一種新的視覺鼠標裝置。該裝置作為傳統(tǒng)人機交互方法的補充,適用于一些特殊的交互人群(如肢殘人士)和交互環(huán)境(如多媒體游戲),具有顯著的應用價值。
文檔編號G06F3/01GK101561710SQ20091010388
公開日2009年10月21日 申請日期2009年5月19日 優(yōu)先權日2009年5月19日
發(fā)明者毛玉星, 張占龍, 為 何, 成華安, 饒 傅 申請人:重慶大學