專利名稱:多目標優(yōu)化人體運動跟蹤方法
技術(shù)領(lǐng)域:
本發(fā)明屬于圖像處理技術(shù)領(lǐng)域,更進一步涉及計算機視覺領(lǐng)域中實現(xiàn)人體運動跟蹤的一種方法,采用一種多目標優(yōu)化的方法實現(xiàn)人體運動跟蹤和三維姿態(tài)估計,可用于體育訓練和動畫制作等領(lǐng)域。
背景技術(shù):
人體運動跟蹤的主要任務是從視頻圖像中檢測出人體輪廓,再對人體的關(guān)節(jié)點進行定位,在此基礎(chǔ)上識別出人體運動姿態(tài),最終重建三維人體運動姿態(tài)。由于目前視頻圖像是三維場景中的人體輪廓在二維圖像上的投影,所以,丟失了大量的深度信息,并且人體運動過程中,人體四肢自遮擋現(xiàn)象時常發(fā)生,視頻圖像存在歧義性,這使得很難從無標記單目視頻中恢復人體運動姿態(tài)。但是,由于基于單目視頻的人體運動跟蹤在醫(yī)學治療、體育訓練、動畫制作、智能監(jiān)控系統(tǒng)等各個方面都有潛在的應用和經(jīng)濟價值,所以受到了很多學者的關(guān)注。至今,基于視頻的人體運動跟蹤的方法主要分為兩大類基于學習的人體運動跟蹤和基于模型的人體運動跟蹤。第一種,基于學習的人體運動跟蹤方法。該方法首先在訓練的視頻圖像和目標視頻圖像數(shù)據(jù)庫里提取精確的圖像特征,然后學習訓練視頻圖像數(shù)據(jù)庫的圖像特征與運動捕捉數(shù)據(jù)之間的映射,最后在目標視頻圖像上直接使用人體特征恢復三維姿態(tài)。 Urtasun et al. (R. Urtasun and Τ. Darrel1. Local Probabilistic Regression for Activity-Independent Human Pose Inference IEEE Conference on Computer Vision md Pattern Recognition (CVPR),2008)使用平衡高斯過程動態(tài)模型指導在單目視頻序列中跟蹤三維人體運動,該動態(tài)模型是從較少的包含多種模式的訓練運動數(shù)據(jù)中學習 得至LU Sigal et al. (L. Sigal andM. Black. Measure Locally, Reason Globally Occlusion-sensitive articulated pose estimation.IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2006.)提出一個貝葉斯框架,包含序貫重要性采樣和退火粒子濾波,跟蹤時使用了多種運動模型。為了使三維恢復更加符合解剖關(guān)節(jié)限制和降低搜索空間,從訓練數(shù)據(jù)中學習運動模型,使用虛擬標記的歐式距離差作為誤差量測。該方法的缺點是提取精確的圖像特征需要花費大量的時間,而且跟蹤視頻受到學習數(shù)據(jù)庫是否存在的限制,不存在學習數(shù)據(jù)庫時無法完成跟蹤。第二種,基于模型的人體運動跟蹤方法。該方法不需要學習數(shù)據(jù)庫,直接在目標視頻圖像上提取圖像信息,建立相似度函數(shù),對相似度函數(shù)進行優(yōu)化從而在高維的狀態(tài)空間中搜索最優(yōu)的狀態(tài)。從而獲得更準確的人體姿態(tài)。法國國家信息與自動化研究所(INRIA) 的C. Sminchisescu采用此種方法實現(xiàn)了多種人體模型和跟蹤方法(C. Sminchisescu and A. Jepson. GenerativeModeling for Continuous Non-Linearly Embedded Visual Inference. International Conference on Machine Learning (IGML),2004)。 Deutscher et al.使用邊界和側(cè)影作為圖像特征構(gòu)建加權(quán)的相似度函數(shù),應用退火粒子濾波框架實現(xiàn)人體運動β艮蹤(J. Deutscher and I. Reid. Articulated body motion captureby stochastic search. International Journal of Computer Vision(IJCV),61 (2) 185-205,2004.)。由于該方法只建立一個相似度函數(shù),而用于優(yōu)化相似度函數(shù)的單目標的方法在搜索最優(yōu)結(jié)果時很容易陷入局部最優(yōu),導致跟蹤到的人體姿態(tài)不準確,而且算法的時間復雜度高。湖南大學申請的專利“基于屬性關(guān)系圖外觀模型的多人體跟蹤方法”(專利申請?zhí)?200910043537. 5,公開號CN101561928),該專利首先對當前幀人體檢測區(qū)域建立屬性關(guān)系圖外觀模型,計算與上一幀跟蹤人體的屬性關(guān)系圖外觀模型的相似度,根據(jù)相似度確定幀間人體的匹配,從而確定人體跟蹤情況及獲取運動軌跡。該專利申請公開的方法存在的不足是,只能對固定的場景進行人體跟蹤,外觀模型的相似度不足以準確的跟蹤人體姿態(tài)。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有技術(shù)中的不足,提出一種基于模型的多目標優(yōu)化的人體運動跟蹤方法,采用基于模型的方法,建立人體骨架模型,利用視頻圖像提取關(guān)節(jié)點的位置和灰度信息,構(gòu)建兩個相似度函數(shù),在人體骨骼長度的限制下采用多目標優(yōu)化算法得到人體運動姿態(tài)的跟蹤。為實現(xiàn)上述目的,本發(fā)明具體實現(xiàn)步驟包括如下(1)建立人體骨架模型。將人體骨架按照15個關(guān)節(jié)劃分為14個部分,每部分由一根桿狀骨骼模型表達,在虛擬空間用14條具有三維坐標的關(guān)節(jié)點之間的直線段表示這14根桿狀骨骼模型,在相應的關(guān)節(jié)點的連接下組成整個三維人體骨架模型,當輸入一組對應人體運動時15個關(guān)節(jié)點的三維坐標值,人體骨架模型將模擬出運動的三維人體姿態(tài)。(2)預處理視頻圖像。2a)輸入人體視頻圖像,通過背景差分獲得人體側(cè)影,提取人體輪廓,對人體輪廓進行細化處理形成人體骨架線;2b)在人體骨架線上沿骨架線搜索得到頭、根、膝、腳節(jié)點坐標位置,使用粒子濾波預測檢測出其余的人體關(guān)節(jié)點坐標位置;2c)在人體側(cè)影圖像上使用sobel算子得到圖像的灰度值;(3)初始化。3a)對步驟2b)得到的初始時刻視頻圖像關(guān)節(jié)點位置進行手工標定,得到初始時刻的人體骨架模型;3b) t-1時刻跟蹤得到的人體姿態(tài)將作為t時刻的初始化人體骨架模型(t > 0)。(4)構(gòu)建相似度函數(shù)。4a)將初始化的人體骨架模型投影到二維圖像空間得到每個關(guān)節(jié)點的坐標位置;4b)分別建立投影的關(guān)節(jié)點與檢測到的關(guān)節(jié)點的距離相似度函數(shù)和灰度相似度函數(shù);(5)優(yōu)化目標函數(shù)。利用非支配鄰域免疫算法,對距離相似度函數(shù)和灰度相似度函數(shù)進行優(yōu)化,獲得k 時刻所有可能的人體運動姿態(tài);(6)選擇人體最佳運動姿態(tài)。
對所有可能人體運動姿態(tài)與t_l時刻跟蹤到的人體最佳運動姿態(tài)相減,選擇出差異最小的姿態(tài)作為t時刻跟蹤到的人體最佳運動姿態(tài)。本發(fā)明與現(xiàn)有的技術(shù)相比具有以下優(yōu)點1、由于本發(fā)明使用了粒子濾波預測人體關(guān)節(jié)點獲得更精確的人體關(guān)節(jié)點圖像位置,較之現(xiàn)有技術(shù)本發(fā)明的算法簡單,時間復雜度低。2、由于本發(fā)明使用了基于模型的人體跟蹤方法,直接對視頻圖像跟蹤,較之現(xiàn)有技術(shù)基于學習的人體跟蹤方法,本發(fā)明不受學習數(shù)據(jù)庫的限制,可以適用普遍的視頻跟蹤。3、由于本發(fā)明在跟蹤過程中采用了兩個相似度函數(shù),可以更好的利用視頻圖像信息,同時多目標進化算法的非支配鄰域免疫算法,較之現(xiàn)有的單目標優(yōu)化人體跟蹤方法可以避免陷入局部最優(yōu),提高了人體運動跟蹤的精確度。
圖1為本發(fā)明的流程圖;圖2為本發(fā)明的人體關(guān)節(jié)點檢測流程圖;圖3為本發(fā)明仿真實驗的三維跟蹤結(jié)果圖;圖4為本發(fā)明仿真實驗三維結(jié)果投影與檢測關(guān)節(jié)點的誤差圖。
具體實施例方式下面結(jié)合附圖對本發(fā)明做進一步的描述。圖1中,本發(fā)明的具體實現(xiàn)過程如下步驟1,建立人體骨架模型。根據(jù)解剖學知識,人體骨架雖然受年齡和健康的影響而不斷發(fā)生變化,但是骨架的組成是不變的,人體大致包括脛骨、股骨、胯骨、軀干部、橈骨、肱骨、鎖骨、頸、頭。在這種情況下本發(fā)明把人體表示為由15個關(guān)節(jié)點和14跟桿狀骨骼組成的骨架模型。在虛擬空間用14條具有三維坐標的關(guān)節(jié)點之間的直線段表示這14根桿狀骨骼模型,每一個關(guān)節(jié)點的坐標表示為Vi = [Xi,Zi]T,整個人體骨架表示為V= [V1, V2,…,νη]τ,相鄰兩個關(guān)節(jié)點的骨骼長度表示為I Ivp-YtlI I = 1m。由此可以得到人體骨架模型的限制條件I ILiVl I = li,i = 1,2,...,m。其中1^是3父311矩陣,Ii是第i根骨骼的長度,m是總的骨骼數(shù)。在相應的關(guān)節(jié)點的連接下組成整個三維人體骨架模型,當輸入一組對應人體運動時15個關(guān)節(jié)點的三維坐標值,人體骨架模型將模擬出運動的三維人體姿態(tài)。步驟2,預處理視頻圖像。參照圖2,本步驟的具體實現(xiàn)如下2a)輸入人體視頻圖像,通過背景差獲得人體側(cè)影,提取人體輪廓,對人體輪廓進行細化處理形成人體骨架線。采用最小平方中值LMedS方法獲取背景圖像,人體運動圖像與背景圖像做像素差,獲得背景差圖像;采用形態(tài)學方法清除背景差圖像中的分割噪聲,得到清晰的人體側(cè)影;采用邊緣跟蹤算法獲得人體側(cè)影外輪廓;細化人體側(cè)影,得到人體側(cè)影的骨架線。2b)在人體骨架線上沿骨架線搜索得到頭、根、膝、腳節(jié)點坐標位置,使用粒子濾波預測檢測出其余的人體關(guān)節(jié)點的坐標位置。使用同心圓模板沿著骨架線搜索,將落入圓環(huán)的人體側(cè)影輪廓點最多時的圓心作為頭節(jié)點;選取人體側(cè)影重心部位為根節(jié)點,將所有人體側(cè)影點X坐標值的算術(shù)平均值作為根節(jié)點的X坐標,將y坐標值的算術(shù)平均值作為根節(jié)點的y坐標;將三維人體骨架模型以根節(jié)點為基準在視頻圖像上投影,得到人體軀干中心點、鎖骨關(guān)節(jié)點和左右臀部關(guān)節(jié)點。使用粒子濾波檢測手、肘、肩關(guān)節(jié)點位置根據(jù)關(guān)節(jié)點位置生成以關(guān)節(jié)點為中心的矩形框,將關(guān)節(jié)點先驗特征記作矩形框中像素的不變距特征。采用二階自回歸模型更新 t-Ι時刻獲得的關(guān)節(jié)點位置檢測關(guān)節(jié)點Xt時,更新關(guān)節(jié)點位置,獲得一個采樣粒子,根據(jù)矩形框大小,獲得以采樣粒子為中心的模板圖像,計算采樣粒子i的不變距特征Ph^的權(quán)重 Weight
權(quán)利要求
1.一種多目標優(yōu)化人體運動跟蹤方法,包括如下步驟(1)建立人體骨架模型;(2)預處理視頻圖像2a)輸入人體視頻圖像,通過背景差分獲得人體側(cè)影,提取人體輪廓,對人體輪廓進行細化處理形成人體骨架線;2b)在人體骨架線上沿骨架線搜索得到頭、根、膝、腳節(jié)點坐標位置,使用粒子濾波預測檢測出其余的人體關(guān)節(jié)點坐標位置;2c)在人體側(cè)影圖像上使用sobel算子得到圖像的灰度值;(3)初始化3a)對步驟2b)得到的初始時刻視頻圖像關(guān)節(jié)點位置進行手工標定,得到初始時刻的人體骨架模型;3b)t-l時刻跟蹤得到的人體姿態(tài)將作為t時刻的初始化人體骨架模型(t > 0);(4)構(gòu)建相似度函數(shù)4a)將初始化的人體骨架模型投影到二維圖像空間得到每個關(guān)節(jié)點的坐標位置;4b)分別建立投影關(guān)節(jié)點與檢測關(guān)節(jié)點的距離相似度函數(shù)和灰度相似度函數(shù);(5)優(yōu)化目標函數(shù)利用非支配鄰域免疫算法,對距離相似度函數(shù)和灰度相似度函數(shù)進行優(yōu)化,獲得k時刻所有可能的人體運動姿態(tài);(6)選擇人體最佳運動姿態(tài)。對所有可能人體運動姿態(tài)與t-Ι時刻跟蹤到的人體最佳運動姿態(tài)做差,選擇出差異最小的姿態(tài)作為t時刻跟蹤到的人體最佳運動姿態(tài)。
2.根據(jù)權(quán)利要求1所述的多目標優(yōu)化人體運動跟蹤方法,其特征在于所述步驟(1) 人體骨架模型按如下過程構(gòu)建,將人體骨架按照15個關(guān)節(jié)劃分為14個部分,每部分由一根桿狀骨骼模型表達,在虛擬空間用14條具有三維坐標的關(guān)節(jié)點之間的直線段表示這14根桿狀骨骼模型,在相應的關(guān)節(jié)點的連接下組成整個三維人體骨架模型,當輸入一組對應人體運動時15個關(guān)節(jié)點的三維坐標值,人體骨架模型將模擬出運動的三維人體姿態(tài)。
3.根據(jù)權(quán)利要求1所述的多目標優(yōu)化人體運動跟蹤方法,其特征在于所述步驟2a) 背景差分的步驟如下,輸入人體視頻圖像,采用最小平方中值LMedS方法獲取背景圖像,人體運動圖像與背景圖像做像素差,獲得背景差圖像;采用形態(tài)學方法清除背景差圖像中的分割噪聲,得到清晰的人體側(cè)影。
4.根據(jù)權(quán)利要求1所述的多目標優(yōu)化人體運動跟蹤方法,其特征在于所述步驟2b) 的粒子濾波預測的步驟如下,在檢測手、肘、肩關(guān)節(jié)點位置時,根據(jù)關(guān)節(jié)點位置生成以關(guān)節(jié)點為中心的矩形框,將關(guān)節(jié)點先驗特征記作矩形框中像素的不變距特征;采用二階自回歸模型更新t-Ι時刻獲得的關(guān)節(jié)點位置檢測關(guān)節(jié)點Xt時,更新關(guān)節(jié)點位置,獲得一個采樣粒子,根據(jù)矩形框大小,獲得以采樣粒子為中心的模板圖像,計算采樣粒子i的不變距特征(的權(quán)重 Weight f phi' · phif 、Weightl = -exp 1----I norm(phi') χ norm{phi)其中,/^“〗是第i個采樣粒子不變距特征,Phit為采樣粒子對應關(guān)節(jié)點的關(guān)節(jié)點先驗特征,norm為2范數(shù);關(guān)節(jié)點Xi的位置計算公式如下
5.根據(jù)權(quán)利要求1所述的多目標優(yōu)化人體運動跟蹤方法,其特征在于所述步驟(5) 非支配鄰域免疫算法是優(yōu)化的步驟是,在t時刻,非支配鄰域免疫算法優(yōu)化目標函數(shù)時,以人體初始化的姿態(tài)Vtl作為初始種群,對所有個體按照擁擠距離排序,選擇少數(shù)相對獨立的非支配個體進行克隆、重組、變異,搜索全局最優(yōu)解的,設定的進化代數(shù)下,更新種群最終得到一組最優(yōu)解。
全文摘要
本發(fā)明公開了一種多目標優(yōu)化的人體運動跟蹤方法,它涉及計算機視覺領(lǐng)域,用于人體運動跟蹤和姿態(tài)估計。其過程為(1)建立人體骨架模型;(2)預處理視頻圖像;(3)初始化;(4)構(gòu)建相似度函數(shù);(5)優(yōu)化目標函數(shù);(6)選擇人體最佳運動姿態(tài)。該方法具有不受學習數(shù)據(jù)庫的限制,可以適用普遍的視頻的優(yōu)點,采用了兩個相似度函數(shù),可以更好的利用視頻圖像信息,同時多目標進化算法的非支配鄰域免疫算法,較之現(xiàn)有的單目標優(yōu)化人體跟蹤方法可以避免陷入局部最優(yōu),提高了人體運動跟蹤的精確度。
文檔編號G06T17/00GK102184541SQ20111011462
公開日2011年9月14日 申請日期2011年5月4日 優(yōu)先權(quán)日2011年5月4日
發(fā)明者馮光潔, 李陽陽, 王瑞, 白靜, 茍靖翔, 韓紅 申請人:西安電子科技大學