專利名稱::一種基于關(guān)鍵幀的實(shí)時(shí)攝像機(jī)跟蹤方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及攝像機(jī)跟蹤方法,尤其涉及一種基于關(guān)鍵幀的實(shí)時(shí)攝像機(jī)跟蹤方法。
背景技術(shù):
:實(shí)時(shí)攝像機(jī)跟蹤技術(shù)指在自然場(chǎng)景中根據(jù)攝像機(jī)的視頻圖像輸入,實(shí)時(shí)恢復(fù)攝像機(jī)的方位。該技術(shù)可分為基于硬件或者基于視覺(jué)的攝像機(jī)跟蹤,在增強(qiáng)現(xiàn)實(shí),視頻編輯,機(jī)器導(dǎo)航中都是最關(guān)鍵的組成部分。硬件設(shè)備包括陀螺儀,GPS導(dǎo)航設(shè)備,深度掃描儀等。硬件設(shè)備的優(yōu)點(diǎn)是誤差范圍穩(wěn)定,通用性強(qiáng);但是誤差比較大,經(jīng)濟(jì)成本也比較高?;谝曈X(jué)的方法主要利用計(jì)算機(jī)視覺(jué)算法從圖像感應(yīng)器中提取特征,分析特征,并恢復(fù)攝像機(jī)在空間中的方位?,F(xiàn)有的攝像機(jī)全局定位技術(shù)主要可參考IrynaSkrypnykandDavidG.Lowe.Scenemodeling,recognitionandtrackingwithinvariantimagefeatures.InISMAR’04Proceedingsofthe3rdIEEE/ACMInternationalSymposiumonMixedandAugmentedReality,pages110-119。他們采用的方法是用從運(yùn)動(dòng)推斷結(jié)構(gòu)方法恢復(fù)出場(chǎng)景的稀疏三維SIFT特征點(diǎn)結(jié)構(gòu)(可參考GuofengZhang,XueyingQin,WeiHua,Tien-TsinWong,Pheng-AnnHeng,andHujunBao.RobustMetricReconstructionfromChallengingVideoSequences.IEEEConferenceonComputerVisionandPatternRecognition(CVPR),2007.),然后將輸入圖像上的二維SIFT特征點(diǎn)與場(chǎng)景的三維SIFT特征點(diǎn)匹配,得到二維SIFT特征點(diǎn)的三維信息,然后求解攝像機(jī)方位。該方法的缺點(diǎn)是當(dāng)場(chǎng)景變大,特征點(diǎn)變多,SIFT描述量的匹配性能下降,跟蹤變得不穩(wěn)定;而且匹配時(shí)間上升,不能滿足實(shí)時(shí)跟蹤的要求。為了改進(jìn)是攝像機(jī)跟蹤的性能,一些研究者提出關(guān)鍵幀技術(shù)(主要可參考LucaVacchetti,VincentLepetit,PascalFua,StableReal-Time3DTrackingUsingOnlineandOfflineInformation,IEEETransactionsonPatternAnalysisandMachineIntelligence,Volume26,Issue10,Pages1385-1391,2004),從索引圖像序列中選取一定數(shù)目的關(guān)鍵幀,而在實(shí)時(shí)攝像機(jī)跟蹤過(guò)程中,輸入圖像的上特征點(diǎn)之和最接近的關(guān)鍵幀上的特征點(diǎn)匹配。他們的關(guān)鍵幀是用戶手工選取的,相對(duì)來(lái)說(shuō)是一個(gè)不穩(wěn)定的,且耗時(shí)間的過(guò)程。另一方面,圖像識(shí)別技術(shù)也被用來(lái)做快速位置識(shí)別,可參考IrscharaArnold,ChristopherZach,Jan-MichaelFrahm,BischofHorst,F(xiàn)romStructure-from-MotionPointCloudstoFastLocationRecognition,inIEEEComputerSocietyConferenceonComputerVisionandPatternRecognition(CVPR2009),2009.他們利用從運(yùn)動(dòng)推斷結(jié)構(gòu)技術(shù)恢復(fù)出場(chǎng)景的稀疏三維SIFT特征點(diǎn)結(jié)構(gòu),并自動(dòng)選擇關(guān)鍵幀代表場(chǎng)景中需要識(shí)別的位置,然后利用特征詞匯樹(shù)(可參考DavidNistér,HenrikStewénius,ScalableRecognitionwithaVocabularyTree,IEEEComputerSocietyConferenceonComputerVisionandPatternRecognition,Vol.2(2006),pp.2161-2168.)快速識(shí)別攝像機(jī)所在的位置。
發(fā)明內(nèi)容本發(fā)明的目的在于針對(duì)現(xiàn)有攝像機(jī)全局定位技術(shù)的不足,提出一種基于關(guān)鍵幀的實(shí)時(shí)攝像機(jī)跟蹤方法?;陉P(guān)鍵幀的實(shí)時(shí)攝像機(jī)跟蹤方法包括如下步驟1)捕獲索引圖像序列,利用從運(yùn)動(dòng)推斷結(jié)構(gòu)方法,恢復(fù)場(chǎng)景的稀疏三維特征點(diǎn)結(jié)構(gòu);2)給定索引圖像序列和稀疏三維特征點(diǎn)結(jié)構(gòu),通過(guò)優(yōu)化與關(guān)鍵幀相關(guān)的能量函數(shù),自動(dòng)選擇關(guān)鍵幀;3)在實(shí)時(shí)攝像機(jī)跟蹤過(guò)程中,對(duì)于每一幀實(shí)時(shí)輸入圖像,先利用圖像識(shí)別的特征詞匯樹(shù)方法,快速?gòu)年P(guān)鍵幀集合中定位與實(shí)時(shí)輸入圖像相似的候選關(guān)鍵幀;4)實(shí)時(shí)輸入圖像上提取的特征點(diǎn)與候選關(guān)鍵幀上的特征點(diǎn)匹配,得到圖像上特征點(diǎn)對(duì)應(yīng)的三維坐標(biāo),求得攝像機(jī)的方位參數(shù)。所述的捕獲索引圖像序列,利用從運(yùn)動(dòng)推斷結(jié)構(gòu)方法,恢復(fù)場(chǎng)景的稀疏三維特征點(diǎn)結(jié)構(gòu)步驟為1)從每一幀索引圖像中提取特征點(diǎn);2)每一幀索引圖像中的特征點(diǎn)與前一幀索引圖像的特征點(diǎn)匹配,得到同一個(gè)特征點(diǎn)在多幅索引圖像上的位置信息;3)根據(jù)特征點(diǎn)在多幅索引圖像上觀察到的位置信息,恢復(fù)出特征點(diǎn)的三維坐標(biāo)。所述的給定索引圖像序列和稀疏三維特征點(diǎn)結(jié)構(gòu),通過(guò)優(yōu)化與關(guān)鍵幀相關(guān)的能量函數(shù),自動(dòng)選擇關(guān)鍵幀步驟為與關(guān)鍵幀相關(guān)的能量函數(shù)定義為其中F是索引圖像集合,是關(guān)鍵幀集合,Ec(F)是完備項(xiàng),Er(F)是冗余項(xiàng),λ是權(quán)重。完備項(xiàng)Ec(F)定義如下其中V(F)是關(guān)鍵幀包含的三維特征點(diǎn),是索引圖像序列包含的三維特征點(diǎn),即所有特征點(diǎn),χ表示一個(gè)特征點(diǎn)。特征明銳項(xiàng)s(χ)=D(χ)·min(|f(χ)|,T),D(χ)是特征點(diǎn)特征反應(yīng)值絕對(duì)值大小,|f(χ)|是可觀察到這個(gè)特征點(diǎn)的索引圖像的數(shù)目,稱為特征匹配長(zhǎng)度,T控制最大的特征匹配長(zhǎng)度,min(,)是取兩個(gè)變量的較小值函數(shù)。特征密度項(xiàng)d(χ)定義如下d(xi)是χ在第i幀索引圖像上對(duì)應(yīng)的特征點(diǎn)xi的特征密度,是在圖像上的一個(gè)局部窗口內(nèi)的特征點(diǎn)的個(gè)數(shù)。冗余項(xiàng)Er(F)定義如下其中是歸一化;|f(χ)∩F|是χ在關(guān)鍵幀集合F中出現(xiàn)的次數(shù)?;谏鲜龅哪芰亢瘮?shù)定義,利用貪婪法優(yōu)化能量,自動(dòng)選取使能量值最小的關(guān)鍵幀集合;關(guān)鍵幀集合初始化為空集合,貪婪法優(yōu)化的每一次迭代,將最大減少能量函數(shù)的索引圖像加入關(guān)鍵幀集合,直到能量函數(shù)不能下降為止。所述的在實(shí)時(shí)攝像機(jī)跟蹤過(guò)程中,對(duì)于每一幀實(shí)時(shí)輸入圖像,先利用圖像識(shí)別的特征詞匯樹(shù)方法,快速?gòu)年P(guān)鍵幀集合中定位與實(shí)時(shí)輸入圖像相似的候選關(guān)鍵幀步驟為1)將關(guān)鍵幀中所包含的所有特征點(diǎn)組織成特征詞匯樹(shù)的搜索結(jié)構(gòu),特征詞匯樹(shù)的每一個(gè)節(jié)點(diǎn)對(duì)于判斷關(guān)鍵幀相似值的重要性由節(jié)點(diǎn)的權(quán)值決定,權(quán)值定義為該節(jié)點(diǎn)所包含的特征點(diǎn)覆蓋的關(guān)鍵幀數(shù)目的倒數(shù);2)對(duì)于每一幀實(shí)時(shí)輸入圖像,所有關(guān)鍵幀與輸入圖像的相似值初始為0;對(duì)于實(shí)時(shí)輸入圖像上的每一個(gè)特征點(diǎn),在特征詞匯樹(shù)中搜索與之最接近的節(jié)點(diǎn),包含在這個(gè)節(jié)點(diǎn)中的每一個(gè)關(guān)鍵幀與輸入圖像的相似值加上該節(jié)點(diǎn)的權(quán)值;所有特征點(diǎn)搜索完成后,相似值最大的關(guān)鍵幀被選為輸入圖像的候選關(guān)鍵幀。所述的實(shí)時(shí)輸入圖像上提取的特征點(diǎn)與候選關(guān)鍵幀上的特征點(diǎn)匹配,得到圖像上特征點(diǎn)對(duì)應(yīng)的三維坐標(biāo),求得攝像機(jī)的方位參數(shù)步驟為1)實(shí)時(shí)輸入圖像與候選關(guān)鍵幀匹配特征點(diǎn);2)所有得到的匹配包括特征點(diǎn)在當(dāng)前圖像上的圖像坐標(biāo)和在空間的三維坐標(biāo),通過(guò)優(yōu)化所有特征點(diǎn)三維坐標(biāo)在圖像上的投影和圖像坐標(biāo)之間的誤差,求得攝像機(jī)的旋轉(zhuǎn)和位置參數(shù),完成攝像機(jī)跟蹤過(guò)程。本發(fā)明的關(guān)鍵幀選擇方法是全自動(dòng)的方法,僅需要用戶指定能量函數(shù)的一個(gè)權(quán)值;而且本發(fā)明利用了貪婪法優(yōu)化能量函數(shù),可以很快速地確定關(guān)鍵幀;對(duì)于幾千幀圖像序列,僅僅需要十幾秒。本發(fā)明還結(jié)合快速圖像識(shí)別技術(shù),通過(guò)首先確認(rèn)候選關(guān)鍵幀,再進(jìn)行特征匹配的方法,充分利用關(guān)鍵幀提升匹配效率和性能;大大地增強(qiáng)了實(shí)時(shí)攝像機(jī)跟蹤在大型場(chǎng)景中的穩(wěn)定性和實(shí)用性。本發(fā)明計(jì)算效率高,求解結(jié)果穩(wěn)定,由該方法得到的攝像機(jī)跟蹤結(jié)果可直接用于增強(qiáng)現(xiàn)實(shí),虛擬交互等應(yīng)用;而且,該方法自動(dòng)選擇關(guān)鍵幀的方法也適用于圖像序列數(shù)據(jù)壓縮。圖1是本發(fā)明的特征詞匯樹(shù)及關(guān)鍵幀投票法的示意圖;圖2是基于關(guān)鍵幀的實(shí)時(shí)攝像機(jī)跟蹤方法的流程圖;圖3是本發(fā)明實(shí)施例的索引圖像序列的稀疏三維特征點(diǎn)結(jié)構(gòu)。圖4是本發(fā)明實(shí)施例的關(guān)鍵幀集合的示意圖。圖5是本發(fā)明實(shí)施例的實(shí)時(shí)攝像機(jī)跟蹤用于增強(qiáng)現(xiàn)實(shí)的結(jié)果圖。具體實(shí)施例方式本發(fā)明提升了攝像機(jī)實(shí)時(shí)跟蹤技術(shù)的穩(wěn)定性,延展性和實(shí)時(shí)性,在現(xiàn)實(shí)環(huán)境中能得到魯棒的攝像機(jī)跟蹤結(jié)果。1.為了達(dá)到這個(gè)目的,本發(fā)明采取以下技術(shù)方案1)捕獲索引圖像序列,利用從運(yùn)動(dòng)推斷結(jié)構(gòu)方法,恢復(fù)場(chǎng)景的稀疏三維特征點(diǎn)結(jié)構(gòu);2)給定索引圖像序列和稀疏三維特征點(diǎn)結(jié)構(gòu),通過(guò)優(yōu)化與關(guān)鍵幀相關(guān)的能量函數(shù),自動(dòng)選擇關(guān)鍵幀;3)在實(shí)時(shí)攝像機(jī)跟蹤過(guò)程中,對(duì)于每一幀實(shí)時(shí)輸入圖像,先利用圖像識(shí)別的特征詞匯樹(shù)方法,快速?gòu)年P(guān)鍵幀集合中定位與實(shí)時(shí)輸入圖像相似的候選關(guān)鍵幀;4)實(shí)時(shí)輸入圖像上提取的特征點(diǎn)與候選關(guān)鍵幀上的特征點(diǎn)匹配,得到圖像上特征點(diǎn)對(duì)應(yīng)的三維坐標(biāo),求得攝像機(jī)的方位參數(shù)。2.所述的捕獲索引圖像序列,利用從運(yùn)動(dòng)推斷結(jié)構(gòu)方法,恢復(fù)場(chǎng)景的稀疏三維特征點(diǎn)結(jié)構(gòu)步驟為捕獲索引圖像序列利用從運(yùn)動(dòng)推斷結(jié)構(gòu)方法,恢復(fù)場(chǎng)景的稀疏三維特征點(diǎn)結(jié)構(gòu)。每一個(gè)三維特征點(diǎn)表示為χ={xi|i∈f(χ))},f(χ)是可觀察到特征點(diǎn)χ的索引圖像集合。χ同時(shí)包含特征描述量和三維位置。χ的三維位置表示為奇次坐標(biāo)(xχ,yχ,zχ,1)。1)從每一幀索引圖像中提取特征點(diǎn);2)每一幀索引圖像中的特征點(diǎn)與前一幀索引圖像的特征點(diǎn)匹配,得到同一個(gè)特征點(diǎn)在多幅索引圖像上的位置信息;3)根據(jù)特征點(diǎn)在多幅索引圖像上觀察到的位置信息,恢復(fù)出特征點(diǎn)的三維坐標(biāo)。3.所述的給定索引圖像序列和稀疏三維特征點(diǎn)結(jié)構(gòu),通過(guò)優(yōu)化與關(guān)鍵幀相關(guān)的能量函數(shù),自動(dòng)選擇關(guān)鍵幀步驟為給定索引圖像序列需要自動(dòng)選擇關(guān)鍵幀集合F,優(yōu)化使能量函數(shù)最小。包含兩個(gè)項(xiàng)完備項(xiàng)和冗余項(xiàng)。完備項(xiàng)使更多的索引圖像會(huì)被選為關(guān)鍵幀;冗余項(xiàng)控制關(guān)鍵幀的數(shù)目。1)關(guān)鍵幀選擇通過(guò)優(yōu)化能量函數(shù)完成的,能量函數(shù)為其中Ec(F)是完備項(xiàng),即關(guān)鍵幀應(yīng)該包含盡可能多的三維特征點(diǎn);Er(F)是冗余項(xiàng),即關(guān)鍵幀之間重復(fù)的特征點(diǎn)應(yīng)盡可能少;λ是權(quán)重,控制關(guān)鍵幀數(shù)目和包含的特征點(diǎn)。完備項(xiàng)Ec(F)定義如下其中V(F)是關(guān)鍵幀包含的三維特征點(diǎn);是索引圖像序列包含的三維特征點(diǎn),即所有特征點(diǎn)。本發(fā)明將優(yōu)先選擇重要性強(qiáng)的特征點(diǎn)所屬于的索引圖像作為關(guān)鍵幀,而特征點(diǎn)的重要性取決于明銳項(xiàng)和穩(wěn)定性。特征明銳項(xiàng)s(χ)取決于SIFT特征點(diǎn)高斯層差的反應(yīng)值絕對(duì)值大小D(χ),穩(wěn)定性表示為可觀察到這個(gè)特征點(diǎn)的索引圖像的數(shù)目|f(χ)|,稱為特征匹配長(zhǎng)度。s(χ)定義如下s(χ)=D(χ)·min(f|f(χ)|,T)。其中T控制最大的特征匹配長(zhǎng)度,防止部分過(guò)大的特征長(zhǎng)度壓制其它特征點(diǎn)。本發(fā)明要求特征點(diǎn)在二維圖像空間均勻分布,以利于攝像機(jī)求解的穩(wěn)定性。特征密度項(xiàng)d(χ)控制選取的特征點(diǎn)在圖像上的分布密度,定義如下d(xi)是χ在第i幀索引圖像上對(duì)應(yīng)的特征點(diǎn)xi的特征密度,計(jì)算方法是在一個(gè)局部的窗口內(nèi)計(jì)算存在的特征點(diǎn)的個(gè)數(shù),見(jiàn)表1冗余項(xiàng)Er(F)的作用是使關(guān)鍵幀之間重疊的特征點(diǎn)盡可能少,即使χ在盡可能少的關(guān)鍵幀中出現(xiàn),以此簡(jiǎn)化特征匹配?;谝阎膄(χ),Er(F)定義如下其中是歸一化;|f(χ)∩F|是χ在關(guān)鍵幀集合F中出現(xiàn)的次數(shù);如果僅僅出現(xiàn)一次,即|f(χ)∩F|=1,則沒(méi)有冗余。2)計(jì)算的所有子集的能量函數(shù)可以確定使最小的全局最優(yōu)子集,即關(guān)鍵幀集合;然而常常包含幾百上千幀,窮舉計(jì)算太費(fèi)時(shí)間。利用貪婪法求取關(guān)鍵幀雖然只能得到局部的最優(yōu)子集,但是可以極大縮短時(shí)間,而且并不影響系統(tǒng)性能。這個(gè)方法類似于最速下降優(yōu)化,每一次迭代,都將最大減少能量函數(shù)的索引圖像加入關(guān)鍵幀集合;直到能量函數(shù)不能下降為止;具體算法見(jiàn)表2。4.所述的在實(shí)時(shí)攝像機(jī)跟蹤過(guò)程中,對(duì)于每一幀實(shí)時(shí)輸入圖像,先利用圖像識(shí)別的特征詞匯樹(shù)方法,快速?gòu)年P(guān)鍵幀集合中定位與實(shí)時(shí)輸入圖像相似的候選關(guān)鍵幀步驟為在實(shí)時(shí)攝像機(jī)跟蹤過(guò)程中,對(duì)于每一幀在線輸入圖像,如果與所有關(guān)鍵幀進(jìn)行匹配,將會(huì)非常耗時(shí),不能達(dá)到實(shí)時(shí)性能。因?yàn)樵诰€輸入圖像一般只與部分關(guān)鍵幀重疊,所以本發(fā)明提出先確定與輸入圖像最相似的少數(shù)候選關(guān)鍵幀。利用圖像識(shí)別的特征詞匯樹(shù)技術(shù),快速?gòu)腇中定位當(dāng)前輸入圖像所對(duì)應(yīng)的若干候選關(guān)鍵幀,然后進(jìn)行特征匹配,見(jiàn)圖1。1)利用圖像檢索的特征詞匯樹(shù)技術(shù)可以快速定位相似圖像。首先,在關(guān)鍵幀集合F的基礎(chǔ)上,構(gòu)建有l(wèi)層b個(gè)分支的特征詞匯樹(shù)V。V的根節(jié)點(diǎn)Root包括所有在關(guān)鍵幀中的特征點(diǎn),K-Means方法根據(jù)特征點(diǎn)的SIFT描述量,將Root分成b個(gè)類,每類都成為Root的子節(jié)點(diǎn)。然后用K-Means方法將Root的每一個(gè)子節(jié)點(diǎn)分成b類,對(duì)應(yīng)創(chuàng)建b個(gè)子節(jié)點(diǎn),以此類推,直到達(dá)到第l層子節(jié)點(diǎn),完成V的構(gòu)建。每一個(gè)節(jié)點(diǎn)i包含關(guān)鍵幀鏈表Li,即Li中的關(guān)鍵幀有特征點(diǎn)被分類到節(jié)點(diǎn)i中。Ni(k)表示關(guān)鍵幀k中被分到節(jié)點(diǎn)i的特征點(diǎn)的數(shù)目。V的每一個(gè)節(jié)點(diǎn)i對(duì)于關(guān)鍵幀的識(shí)別的重要性由節(jié)點(diǎn)的權(quán)重wi決定,定義如下其中K是關(guān)鍵幀數(shù)目??梢钥闯?,節(jié)點(diǎn)i包含的關(guān)鍵幀越少,權(quán)重越大,識(shí)別能力越強(qiáng)。2)在實(shí)時(shí)攝像機(jī)跟蹤過(guò)程中,利用基于V的關(guān)鍵幀投票法快速識(shí)別候選關(guān)鍵幀。對(duì)于每一幀實(shí)時(shí)輸入圖像,所有關(guān)鍵幀與輸入圖像的相似值初始為0;對(duì)于實(shí)時(shí)輸入圖像上的每一個(gè)特征點(diǎn),在特征詞匯樹(shù)中搜索與之最接近的節(jié)點(diǎn),包含在這個(gè)節(jié)點(diǎn)中的每一個(gè)關(guān)鍵幀與輸入圖像的相似值加上該節(jié)點(diǎn)的權(quán)值;所有特征點(diǎn)搜索完成后,相似值最大的關(guān)鍵幀被選為輸入圖像的候選關(guān)鍵幀;具體算法見(jiàn)表3。由于有些節(jié)點(diǎn)覆蓋了太多的關(guān)鍵幀,導(dǎo)致對(duì)于關(guān)鍵幀區(qū)分性很低,本發(fā)明通過(guò)閾值τ(等于30)直接忽略這些節(jié)點(diǎn)。這個(gè)方法的復(fù)雜度是是在特征搜索遍歷V的過(guò)程中訪問(wèn)的節(jié)點(diǎn)中包含的關(guān)鍵幀數(shù)目的平均值。算法的運(yùn)行時(shí)間主要取決于輸入圖像的特征點(diǎn)數(shù)目,因?yàn)榇蟛糠謺r(shí)間都在計(jì)算特征描述量之間的距離。5.所述的實(shí)時(shí)輸入圖像上提取的特征點(diǎn)與候選關(guān)鍵幀上的特征點(diǎn)匹配,得到圖像上特征點(diǎn)對(duì)應(yīng)的三維坐標(biāo),求得攝像機(jī)的方位參數(shù)步驟為1)實(shí)時(shí)輸入圖像與候選關(guān)鍵幀匹配特征點(diǎn);2)所有得到的匹配包括特征點(diǎn)在當(dāng)前圖像上的圖像坐標(biāo)和在空間的三維坐標(biāo),通過(guò)優(yōu)化所有特征點(diǎn)三維坐標(biāo)在圖像上的投影和圖像坐標(biāo)之間的誤差,求得攝像機(jī)的旋轉(zhuǎn)和位置參數(shù),完成攝像機(jī)跟蹤過(guò)程。實(shí)施例本發(fā)明提出一種基于關(guān)鍵幀的實(shí)時(shí)攝像機(jī)跟蹤方法,主要包括四個(gè)步驟1.從索引圖像序列中恢復(fù)場(chǎng)景的稀疏三維特征點(diǎn)結(jié)構(gòu);2.自動(dòng)從索引圖像中選擇關(guān)鍵幀;3.實(shí)時(shí)攝像機(jī)跟蹤時(shí),快速選擇候選關(guān)鍵幀;4.實(shí)時(shí)輸入圖像和候選關(guān)鍵幀進(jìn)行特征匹配得到包含二維三維信息的匹配點(diǎn),最后求解攝像機(jī)方位。具體實(shí)施過(guò)程分為預(yù)處理部分和實(shí)時(shí)攝像機(jī)跟蹤部分,流程如圖2所示,以下介紹處理一個(gè)校園場(chǎng)景實(shí)時(shí)例的步驟。1.預(yù)處理部分1)利用從運(yùn)動(dòng)推斷結(jié)構(gòu)技術(shù),從索引圖像序列恢復(fù)場(chǎng)景的稀疏SIFT三維特征點(diǎn)結(jié)構(gòu)。現(xiàn)有許多種用于恢復(fù)場(chǎng)景三維信息的算法,一般采用從運(yùn)動(dòng)推斷結(jié)構(gòu)的離線攝像機(jī)跟蹤方法,即可對(duì)大部分的圖像序列高精度地恢復(fù)場(chǎng)景稀疏三維信息?,F(xiàn)有許多軟件都可以完成這個(gè)步驟,如2D3公司的boujou5、開(kāi)放的免費(fèi)軟件VoodooCameraTracker或ACTS自動(dòng)攝像機(jī)跟蹤系統(tǒng)。實(shí)施例的稀疏三維特征點(diǎn)結(jié)構(gòu)見(jiàn)圖3.2)從索引圖像序列中自動(dòng)選擇關(guān)鍵幀集合F,使能量函數(shù)最小。實(shí)施例的關(guān)鍵幀見(jiàn)圖4。3)在選取的關(guān)鍵幀集合F的基礎(chǔ)上,建立用于快速候選關(guān)鍵幀識(shí)別的特征詞匯樹(shù)V。2.實(shí)時(shí)跟蹤攝像機(jī)部分1)利用網(wǎng)絡(luò)攝像頭實(shí)時(shí)捕獲圖像數(shù)據(jù),可用任何一款彩色網(wǎng)絡(luò)攝像頭。微軟公司的DirectShow多媒體開(kāi)發(fā)API提供通用的應(yīng)用程序框架,可從USB或者1394接口讀取攝像頭輸入。2)從輸入圖像提取一定數(shù)量的SIFT特征點(diǎn),控制數(shù)量的原因是跟蹤攝像機(jī)不需要太多三維點(diǎn),而且提取的特征點(diǎn)越多,這個(gè)步驟越耗時(shí)。3)利用基于特征詞匯樹(shù)V的關(guān)鍵幀投票法快速識(shí)別候選關(guān)鍵幀。實(shí)施例的候選關(guān)鍵幀見(jiàn)圖5第2行。4)當(dāng)前輸入圖像上提取的SIFT特征點(diǎn)與每一個(gè)幀候選關(guān)鍵幀上的特征點(diǎn)匹配,得到圖像上特征點(diǎn)對(duì)應(yīng)的三維坐標(biāo)。為了加速特征點(diǎn)的匹配速度,一般只取K=3~4幀關(guān)鍵幀;而且每一個(gè)關(guān)鍵幀上的特征點(diǎn)用K-D樹(shù)數(shù)據(jù)結(jié)構(gòu)組織,單個(gè)特征點(diǎn)的算法復(fù)雜度只有l(wèi)ogm,可以達(dá)到實(shí)時(shí)性能。5)得到當(dāng)前輸入圖像上二維特征點(diǎn)和三維特征點(diǎn)的匹配信息之后,可以通過(guò)優(yōu)化投影誤差求得攝像機(jī)的方位參數(shù),完成攝像機(jī)跟蹤過(guò)程。投影誤差公式是其中R和t是攝像機(jī)的旋轉(zhuǎn)和平移參數(shù),R是3×3正交矩陣,t是三維向量。mi=[u,v,1]T和Mi=[x,y,z,1]T表示第i個(gè)匹配特征點(diǎn)的二維圖像坐標(biāo)和三維坐標(biāo)。K表示攝像機(jī)的內(nèi)部參數(shù),其中f是攝像機(jī)的焦距,(cx,cy)是圖像平面的中心。以上所有的非線性優(yōu)化都使用Levenberg-Marquardt算法。6)利用求解的攝像機(jī)方位,設(shè)置虛擬攝像機(jī),繪制虛擬物體。實(shí)施例的攝像機(jī)跟蹤結(jié)果用于增強(qiáng)現(xiàn)實(shí)見(jiàn)圖5第1行。權(quán)利要求1.一種基于關(guān)鍵幀的實(shí)時(shí)攝像機(jī)跟蹤方法,其特征在于包括如下步驟1)捕獲索引圖像序列,利用從運(yùn)動(dòng)推斷結(jié)構(gòu)方法,恢復(fù)場(chǎng)景的稀疏三維特征點(diǎn)結(jié)構(gòu);2)給定索引圖像序列和稀疏三維特征點(diǎn)結(jié)構(gòu),通過(guò)優(yōu)化與關(guān)鍵幀相關(guān)的能量函數(shù),自動(dòng)選擇關(guān)鍵幀;3)在實(shí)時(shí)攝像機(jī)跟蹤過(guò)程中,對(duì)于每一幀實(shí)時(shí)輸入圖像,先利用圖像識(shí)別的特征詞匯樹(shù)方法,快速?gòu)年P(guān)鍵幀集合中定位與實(shí)時(shí)輸入圖像相似的候選關(guān)鍵幀;4)實(shí)時(shí)輸入圖像上提取的特征點(diǎn)與候選關(guān)鍵幀上的特征點(diǎn)匹配,得到圖像上特征點(diǎn)對(duì)應(yīng)的三維坐標(biāo),求得攝像機(jī)的方位參數(shù)。2.根據(jù)權(quán)利要求1中所述的一種基于關(guān)鍵幀的實(shí)時(shí)攝像機(jī)跟蹤方法,其特征在于所述的捕獲索引圖像序列,利用從運(yùn)動(dòng)推斷結(jié)構(gòu)方法,恢復(fù)場(chǎng)景的稀疏三維特征點(diǎn)結(jié)構(gòu)步驟為1)從每一幀索引圖像中提取特征點(diǎn);2)每一幀索引圖像中的特征點(diǎn)與前一幀索引圖像的特征點(diǎn)匹配,得到同一個(gè)特征點(diǎn)在多幅索引圖像上的位置信息;3)根據(jù)特征點(diǎn)在多幅索引圖像上觀察到的位置信息,恢復(fù)出特征點(diǎn)的三維坐標(biāo)。3.根據(jù)權(quán)利要求1中所述的一種基于關(guān)鍵幀的實(shí)時(shí)攝像機(jī)跟蹤方法,其特征在于所述的給定索引圖像序列和稀疏三維特征點(diǎn)結(jié)構(gòu),通過(guò)優(yōu)化與關(guān)鍵幀相關(guān)的能量函數(shù),自動(dòng)選擇關(guān)鍵幀步驟為與關(guān)鍵幀相關(guān)的能量函數(shù)定義為其中F是索引圖像集合,是關(guān)鍵幀集合,Ec(F)是完備項(xiàng),Er(F)是冗余項(xiàng),λ是權(quán)重。完備項(xiàng)Ec(F)定義如下其中V(F)是關(guān)鍵幀包含的三維特征點(diǎn),是索引圖像序列包含的三維特征點(diǎn),即所有特征點(diǎn),χ表示一個(gè)特征點(diǎn)。特征明銳項(xiàng)s(χ)=D(χ)·min(|f(χ)|,T),D(χ)是特征點(diǎn)特征反應(yīng)值絕對(duì)值大小,|f(χ)|是可觀察到這個(gè)特征點(diǎn)的索引圖像的數(shù)目,稱為特征匹配長(zhǎng)度,T控制最大的特征匹配長(zhǎng)度,min(,)是取兩個(gè)變量的較小值函數(shù)。特征密度項(xiàng)d(χ)定義如下d(xi)是χ在第i幀索引圖像上對(duì)應(yīng)的特征點(diǎn)xi的特征密度,是在圖像上的一個(gè)局部窗口內(nèi)的特征點(diǎn)的個(gè)數(shù)。冗余項(xiàng)Er(F)定義如下其中是歸一化;|f(χ)∩F|是χ在關(guān)鍵幀集合F中出現(xiàn)的次數(shù)?;谏鲜龅哪芰亢瘮?shù)定義,利用貪婪法優(yōu)化能量,自動(dòng)選取使能量值最小的關(guān)鍵幀集合;關(guān)鍵幀集合初始化為空集合,貪婪法優(yōu)化的每一次迭代,將最大減少能量函數(shù)的索引圖像加入關(guān)鍵幀集合,直到能量函數(shù)不能下降為止。4.根據(jù)權(quán)利要求1中所述的一種基于關(guān)鍵幀的實(shí)時(shí)攝像機(jī)跟蹤方法,其特征在于所述的在實(shí)時(shí)攝像機(jī)跟蹤過(guò)程中,對(duì)于每一幀實(shí)時(shí)輸入圖像,先利用圖像識(shí)別的特征詞匯樹(shù)方法,快速?gòu)年P(guān)鍵幀集合中定位與實(shí)時(shí)輸入圖像相似的候選關(guān)鍵幀步驟為1)將關(guān)鍵幀中所包含的所有特征點(diǎn)組織成特征詞匯樹(shù)的搜索結(jié)構(gòu),特征詞匯樹(shù)的每一個(gè)節(jié)點(diǎn)對(duì)于判斷關(guān)鍵幀相似值的重要性由節(jié)點(diǎn)的權(quán)值決定,權(quán)值定義為該節(jié)點(diǎn)所包含的特征點(diǎn)覆蓋的關(guān)鍵幀數(shù)目的倒數(shù);2)對(duì)于每一幀實(shí)時(shí)輸入圖像,所有關(guān)鍵幀與輸入圖像的相似值初始為0;對(duì)于實(shí)時(shí)輸入圖像上的每一個(gè)特征點(diǎn),在特征詞匯樹(shù)中搜索與之最接近的節(jié)點(diǎn),包含在這個(gè)節(jié)點(diǎn)中的每一個(gè)關(guān)鍵幀與輸入圖像的相似值加上該節(jié)點(diǎn)的權(quán)值;所有特征點(diǎn)搜索完成后,相似值最大的關(guān)鍵幀被選為輸入圖像的候選關(guān)鍵幀。5.根據(jù)權(quán)利要求1中所述的一種基于關(guān)鍵幀的實(shí)時(shí)攝像機(jī)跟蹤方法,其特征在于所述的實(shí)時(shí)輸入圖像上提取的特征點(diǎn)與候選關(guān)鍵幀上的特征點(diǎn)匹配,得到圖像上特征點(diǎn)對(duì)應(yīng)的三維坐標(biāo),求得攝像機(jī)的方位參數(shù)步驟為1)實(shí)時(shí)輸入圖像與候選關(guān)鍵幀匹配特征點(diǎn);2)所有得到的匹配包括特征點(diǎn)在當(dāng)前圖像上的圖像坐標(biāo)和在空間的三維坐標(biāo),通過(guò)優(yōu)化所有特征點(diǎn)三維坐標(biāo)在圖像上的投影和圖像坐標(biāo)之間的誤差,求得攝像機(jī)的旋轉(zhuǎn)和位置參數(shù),完成攝像機(jī)跟蹤過(guò)程。全文摘要本發(fā)明公開(kāi)了一種基于關(guān)鍵幀的實(shí)時(shí)攝像機(jī)跟蹤方法。包括如下步驟1)捕獲索引圖像序列,利用從運(yùn)動(dòng)推斷結(jié)構(gòu)方法,恢復(fù)場(chǎng)景的稀疏三維特征點(diǎn)結(jié)構(gòu);2)給定索引圖像序列和稀疏三維特征點(diǎn)結(jié)構(gòu),通過(guò)優(yōu)化與關(guān)鍵幀相關(guān)的能量函數(shù),自動(dòng)選擇關(guān)鍵幀;3)在實(shí)時(shí)攝像機(jī)跟蹤過(guò)程中,對(duì)于每一幀實(shí)時(shí)輸入圖像,先利用圖像識(shí)別的特征詞匯樹(shù)方法,快速?gòu)年P(guān)鍵幀集合中定位與實(shí)時(shí)輸入圖像相似的候選關(guān)鍵幀;4)實(shí)時(shí)輸入圖像上提取的特征點(diǎn)與候選關(guān)鍵幀上的特征點(diǎn)匹配,得到圖像上特征點(diǎn)對(duì)應(yīng)的三維坐標(biāo),求得攝像機(jī)的方位參數(shù)。本發(fā)明計(jì)算效率高,求解結(jié)果穩(wěn)定,由該方法得到的攝像機(jī)跟蹤結(jié)果可直接用于增強(qiáng)現(xiàn)實(shí),虛擬交互等應(yīng)用。文檔編號(hào)G06T7/20GK101763647SQ201010104078公開(kāi)日2010年6月30日申請(qǐng)日期2010年2月2日優(yōu)先權(quán)日2010年2月2日發(fā)明者章國(guó)鋒,鮑虎軍,董子龍申請(qǐng)人:浙江大學(xué)