專利名稱:攝像機(jī)運(yùn)動(dòng)參數(shù)估計(jì)方法
技術(shù)領(lǐng)域:
本發(fā)明涉及攝像機(jī)運(yùn)動(dòng)參數(shù)估計(jì)方法,所說的參數(shù)要成為MPEG-7中的用于作為圖像索引框中的描述符。
過去的十年已經(jīng)看到了可由許多人訪問的大信息數(shù)據(jù)庫的發(fā)展。這些數(shù)據(jù)庫包括例如文本、圖像、聲音等幾個(gè)介質(zhì)類型。這種信息的表征、顯示、索引、存儲(chǔ)、傳輸及檢索構(gòu)成了該技術(shù)的有用的重要內(nèi)容(issue)。不管能夠考慮進(jìn)行圖像索引的分集的等級(jí)如何,每一信息分集都能夠根據(jù)若干判據(jù),例如根據(jù)語義信息內(nèi)容、場(chǎng)景屬性、攝像機(jī)運(yùn)動(dòng)參數(shù)等被隨后索引。稱為“多媒體內(nèi)容描述接口”并且旨在根據(jù)信息內(nèi)容的檢索問題的MPEG-7將把描述這種多媒體內(nèi)容的類屬方法標(biāo)準(zhǔn)化,其使用與多媒體資料相關(guān)的描述符和描述方案,以便根據(jù)例如文本、色彩、組構(gòu)、運(yùn)動(dòng)和語義內(nèi)容的各種類型而實(shí)現(xiàn)快速和有效率的檢索。該標(biāo)準(zhǔn)將實(shí)現(xiàn)能夠被儲(chǔ)存(聯(lián)機(jī)或脫機(jī))或成為數(shù)據(jù)串流(例如在互聯(lián)網(wǎng)絡(luò)中的廣播或圖像)的應(yīng)用,并且能夠以實(shí)時(shí)和非實(shí)時(shí)環(huán)境操作。
圖1示出并且提供用于處理任何多媒體內(nèi)容的一個(gè)可能的MPEG-7處理鏈路的方框示意圖包括一個(gè)在編碼一側(cè)的對(duì)所說的內(nèi)容進(jìn)行操作的特征提取子部件11;建立基準(zhǔn)子部件12,包括用于得出MPEG-7定義語言的模塊121和定義MPEG-7描述符及描述方案的模塊122;標(biāo)準(zhǔn)描述子部件13;以及編碼子部件14。MPEG-7標(biāo)準(zhǔn)的范圍是子部件12,并且本發(fā)明定位在子部件12和13中。圖1還示出解碼一側(cè),包括解碼子部件16(剛好在編碼數(shù)據(jù)的傳輸之后,即儲(chǔ)存編碼數(shù)據(jù)的一個(gè)讀操作),和一個(gè)搜索引擎17,應(yīng)答用戶控制的功能進(jìn)行操作。
在MPEG-7結(jié)構(gòu)中,必須生成用于許多主題的有效工具,像用于場(chǎng)景分析即運(yùn)動(dòng)分析,尤其用于攝像機(jī)運(yùn)動(dòng)特征提取的方法。針對(duì)運(yùn)動(dòng)表示,能夠建議兩個(gè)解決方案作為可能的用于總的運(yùn)動(dòng)描述符提取的基礎(chǔ)透視模式,以及數(shù)據(jù)塊匹配方法。前者很好地適合于攝像機(jī)全局運(yùn)動(dòng),但是不能表示三維的變換,致使不得不分別地描述每次全局運(yùn)動(dòng)的可能的三維變換。
數(shù)據(jù)塊匹配運(yùn)動(dòng)補(bǔ)償被用作預(yù)測(cè)編碼處理的一部分,該預(yù)測(cè)編碼處理廣泛地使用在圖像傳輸中,用于降低編碼一個(gè)圖像程序所需要的信息量。的確,從一幀到下一幀的一個(gè)圖像的僅一小部分的變化,實(shí)現(xiàn)從所說的在先幀的直接預(yù)測(cè)。更確切地說,每一幀(i+1)被分成固定數(shù)目的數(shù)據(jù)塊(通常正方形)。對(duì)于每一數(shù)據(jù)塊(通常8×8像素)來說,在一個(gè)預(yù)定的區(qū)域上執(zhí)行與一個(gè)在先基準(zhǔn)幀(i)中的最相似的數(shù)據(jù)塊的搜索。搜索準(zhǔn)則通常是,最佳匹配數(shù)據(jù)塊的搜索給出最小的預(yù)測(cè)誤差,通常計(jì)算為平均絕對(duì)值差(其比例如均方差更容易計(jì)算)。對(duì)于以(x,y)定位的每一數(shù)據(jù)塊(在本例中是8×8像素),則根據(jù)關(guān)系(1)從圖像(i)計(jì)算預(yù)測(cè)的圖像(i+1)B(i+1)[x,y]=B(i)[x-dx,y-dy] (1)利用(dx,dy)=v=運(yùn)動(dòng)矢量,從圖像(i)中的B(i)導(dǎo)引到圖像(i+1)中的B(i+1)。
當(dāng)從數(shù)據(jù)塊匹配運(yùn)動(dòng)矢量開始估算攝像機(jī)運(yùn)動(dòng)時(shí),主要的問題是,矢量的估計(jì)器的效率僅是從一個(gè)編碼準(zhǔn)則的角度測(cè)量的。運(yùn)動(dòng)矢量未必是對(duì)應(yīng)于場(chǎng)景的真實(shí)運(yùn)動(dòng)。例如,在場(chǎng)景中的均勻組構(gòu)的一個(gè)區(qū)域中,估計(jì)器能夠選擇該組構(gòu)內(nèi)部的任何數(shù)據(jù)塊,即便該運(yùn)動(dòng)矢量不表示該全局運(yùn)動(dòng)。但是,雖然數(shù)據(jù)塊匹配表示一個(gè)不總是一致的運(yùn)動(dòng),但是該方法將是最好的,因?yàn)橛锌赡茏儞Q必須每次區(qū)別地描述,并且該透視模式不能夠做這件事。從如此確定的運(yùn)動(dòng)矢量出發(fā),隨后定義某些攝像機(jī)參數(shù)。在描述相應(yīng)的定義方法之前,首先提出使用在當(dāng)前描述中的攝像機(jī)模式。
考慮移動(dòng)通過一個(gè)靜態(tài)環(huán)境的單眼攝像機(jī)。如能夠在圖2中看到,假設(shè)O是攝像機(jī)的光學(xué)中心,OXYZ是相對(duì)于這臺(tái)攝像機(jī)固定的一個(gè)外部坐標(biāo)系,OZ是光軸。假設(shè)Tx,Ty、Tz是OXYZ相對(duì)于場(chǎng)景的平移速度,而Rx、Ry、Rz是其角速度。如果(X,Y,Z)是點(diǎn)P在三維的場(chǎng)景中的瞬時(shí)坐標(biāo),則P的速度分量將是X=-Tx-Ry.z+Rz.Y (2)Y=-Ty-Rz.X+Rx.Z (3)Z=-Tz-Rx.Y+Ry.X (4)P的圖像位置,即p通過關(guān)系(5)在圖像平面中給出 (其中f是攝像機(jī)的焦距),并且以一個(gè)引入速度移動(dòng)通過該圖像平面(ux,uy)=(x,y) (6)在計(jì)算和替換之后,獲得下面關(guān)系ux=f.X-Z-f.X.Z-Z2]]>ux=fZ(-Tx-Ry.Z+Rz.Y)-f.XZ2(-Tz-Rx.Y+Ry.X)(8)]]>和uy=f.Y-Z-f.Y.Z-Z2]]>uy=fZ(-Ty-Rz.X+Rx.Z)-f.YZ2(-Tz-Rx.Y+Ry.X)(10)]]>還可以被寫入成ux(x,y)=-fZ.(Tx-x.Tz)+x.yf.Rx-f(1+x2f2)Ry+y.Rz(11)]]>uy(x,y)=-fZ.(Ty-y.Tz)-x.yf.Ry+f(1+y2f2)Rx-x.Rz(12)]]>而且,為了在這臺(tái)攝像機(jī)模式中包括變焦距,假定一個(gè)變焦能夠通過單一角度域中的放大率近似。如果在該場(chǎng)景中的最近的目標(biāo)的距離比用于產(chǎn)生該變焦的焦距的變化大,則這樣一個(gè)假設(shè)是成立的,通常是這種情況。
圖3考慮了一個(gè)純變焦。給出在時(shí)間t在的圖像平面中定位的一個(gè)點(diǎn)(x,y)和在下一個(gè)時(shí)間t’的定位(x’,y’),由變焦沿x引入的圖像速度ux=x’-x能夠被表示為如下所示的Rzoom的一個(gè)函數(shù)(Rzoom由圖3顯示的關(guān)系(θ’-θ)/θ定義)。
可以確定tan(θ’)=x’/f和tan(θ)=x/f,其導(dǎo)致ux= x′- x=[tan(θ′)-tan(θ)].f (13)tan(θ’)的表示式可以寫成tan(θ′)=tan[(θ′-θ)+θ]=tan(θ′-θ)+tan(θ)1-tan(θ).tan(θ′-θ)(14)]]>隨后假設(shè)角度差(θ’-θ)是小值,即tan(θ’-θ)可以由(θ’-θ)近似,并且(θ’-θ).tanθ<<1,則獲得ux=x′-x=f.[(θ′-θ)+tan(θ)1-(θ′-θ).tanθ-tanθ](15)]]>ux=f.(θ′-θ).(1+tan2(θ)1-(θ′-θ).tanθ(16)]]>ux=f.θ.RZOOM.1+tan2(θ)1-(θ′-θ).tanθ(17)]]>其實(shí)際等于ux=x′-x=f.θ.Rzoom.(1+tan2θ)(18)]]>該結(jié)果能夠被重新寫成ux=f.tan-1(xf).Rzoom.(1+x2f2)(19)]]>并且,類似地,uy由下式給出uy=f.tan-1(yf).Rzoom.(1+y2f2)(20)]]>速度u=(ux,uy)對(duì)應(yīng)于在圖像平面中由單一變焦引入的運(yùn)動(dòng)。因此能邏輯地定義考慮了旋轉(zhuǎn)、移動(dòng)(沿著X和Y軸)和變焦全部因素的總模式。
總模式能夠被寫為表示轉(zhuǎn)動(dòng)和變焦運(yùn)動(dòng)的轉(zhuǎn)動(dòng)速度與表示X和Y移動(dòng)的平移速度的一個(gè)和(即分別地跟蹤和急變)。 利用 方程式中僅平移項(xiàng)取決于目標(biāo)距離Z。
M.V.Srinivasan和al.的文章“從圖像序列估計(jì)攝像機(jī)運(yùn)動(dòng)參數(shù)的質(zhì)量”(模式識(shí)別,卷30,第4期,1997年,593-605頁)描述了使用攝像機(jī)方程式(21)到(23)從圖像的一個(gè)序列提取攝像機(jī)運(yùn)動(dòng)參數(shù)的技術(shù)。更具體地說,在所說文章的部分3(595-597頁)中解釋了該技術(shù)的基本原理。通過在從原始的光學(xué)流場(chǎng)相減時(shí)尋找產(chǎn)生一個(gè)流場(chǎng)的Rx、Ry、Rz和Rzoom的最佳值、隨后產(chǎn)生其中的全部矢量是平行矢量的一個(gè)剩余流場(chǎng)執(zhí)行的該技術(shù)利用基于優(yōu)勢(shì)扇區(qū)的準(zhǔn)則而使用一個(gè)對(duì)來自該剩余流矢量的平行性的漂移進(jìn)行最小化的迭代法。
在迭代法的每一步驟,由于當(dāng)前攝像機(jī)運(yùn)動(dòng)參數(shù)引起的光流被根據(jù)兩個(gè)不同攝像機(jī)模式之一計(jì)算。第一模式假定,該視野(或焦距f)的角度大小是公知的這意味著方程式(23)中的比例x/f和y/f可以針對(duì)圖像中的每一點(diǎn)計(jì)算,所說的方程式隨后實(shí)現(xiàn)該光流的精確計(jì)算。
第二模式假定不知道該攝像機(jī)的視野。在執(zhí)行方程式(23)之前需要小場(chǎng)近似(x/f和y/f比1小),這將導(dǎo)致方程式(24)和(25)urotx□-f.Ry+y.Rz+x.Rzoom(24)uroty□-f.Rx-x.Rz+y.Rzoom(25)當(dāng)攝像機(jī)的視野大且已知時(shí),考慮了全景拍攝或傾斜失真的第一模式似乎產(chǎn)生更準(zhǔn)確的結(jié)果。遺憾的是通常不知道焦距,當(dāng)視野被猜想是大視野時(shí),將導(dǎo)致僅在圖像的有限范圍上使用第二模式。但是,因?yàn)榈诙J讲豢赡軈^(qū)別全景拍攝和跟蹤,所以該模式不是一個(gè)滿意的解決方案。
雖然水平和垂直的跟蹤產(chǎn)生的流場(chǎng)中全部的矢量是真正平行的,但是利用搖攝全景和傾斜產(chǎn)生的流場(chǎng)不是這樣,除非攝像機(jī)的視野是小視野,例如20°×20°(大視野導(dǎo)致源于焦面的平面的幾何的速度場(chǎng)中的失真)。由變焦產(chǎn)生的流場(chǎng)也失真(遠(yuǎn)離中心,運(yùn)動(dòng)矢量不再是放射狀地取向)。如果是大視野,則產(chǎn)生失真可用于把平移運(yùn)動(dòng)從搖攝全景和傾斜中唯一地區(qū)別開。
因此,本發(fā)明的一個(gè)目的是改進(jìn)用于從運(yùn)動(dòng)矢量中估計(jì)攝像機(jī)運(yùn)動(dòng)特征的方案,通過建議一個(gè)攝像機(jī)運(yùn)動(dòng)參數(shù)估計(jì)方法,當(dāng)在大視野時(shí),即便在視野未知的情況下,每次在物理構(gòu)成上有可能實(shí)現(xiàn)在跟蹤和全景拍攝之間的區(qū)別以及不同地執(zhí)行,但當(dāng)小視野時(shí)不做這種區(qū)別。
為此目的,本發(fā)明涉及一種估計(jì)方法,提供用于考慮被細(xì)分為數(shù)據(jù)塊的連續(xù)圖像幀的一個(gè)序列并且處理該序列,其中所說的處理操作包括對(duì)應(yīng)的連續(xù)步驟-從所說的圖像序列提取對(duì)應(yīng)于兩個(gè)連續(xù)的幀之間的運(yùn)動(dòng)的矢量,所說的運(yùn)動(dòng)矢量形成該攝像機(jī)速度場(chǎng);-預(yù)處理該攝像機(jī)速度場(chǎng),以便降低數(shù)據(jù)量和所說提取的運(yùn)動(dòng)矢量的多相性;-從所說的預(yù)處理場(chǎng)估計(jì)用于每一個(gè)幀對(duì)的在兩個(gè)考慮幀之間的攝像機(jī)特征;-根據(jù)所說的估計(jì)實(shí)施一個(gè)長項(xiàng)運(yùn)動(dòng)分析,以便獲得對(duì)應(yīng)于該估算攝像機(jī)運(yùn)動(dòng)參數(shù)的運(yùn)動(dòng)描述符。
該主要構(gòu)思是,在大多數(shù)情況下,如果大視野產(chǎn)生在速度場(chǎng)中的失真,則相同的失真應(yīng)該還是可用的。換句話說,如果焦距(或視野,其是與圖像規(guī)模標(biāo)度因數(shù)相同的信息)被包括在使用上述第一模式的最小化處理中,當(dāng)視野不太小時(shí)以及當(dāng)實(shí)際上存在變焦、搖攝全景、傾斜或滾動(dòng)分量之一時(shí)(表示真實(shí)情況的一個(gè)重要的部分;如果視野太小或如果僅存在一個(gè)跟蹤運(yùn)動(dòng)的話,則該焦距估計(jì)將不再有意義),該焦距應(yīng)該被正確地估算。
將以實(shí)例的方式,參照附圖描述本發(fā)明,其中圖1是一個(gè)有可能的MPEG-7處理鏈的一個(gè)示意方框圖;圖2示出與攝像機(jī)一起移動(dòng)的一個(gè)攝像機(jī)外部的坐標(biāo)系OXYZ,并且示出針對(duì)焦距f的在三維場(chǎng)景中的一個(gè)對(duì)應(yīng)點(diǎn)P的視網(wǎng)膜的坐標(biāo)(x,y);圖3示出包括在攝像機(jī)模式中的一個(gè)變焦模式;圖4給出執(zhí)行根據(jù)本發(fā)明的估計(jì)方法的一個(gè)完整攝像機(jī)運(yùn)動(dòng)分析系統(tǒng)的總圖;圖5示出使用在根據(jù)本發(fā)明的系統(tǒng)中的濾波技術(shù);圖6示出當(dāng)執(zhí)行下傾(downhill)單形法時(shí)的構(gòu)造一個(gè)新的單形的方式;圖7示出一個(gè)流程圖,說明用于該平行價(jià)值函數(shù)的向下單純形算法。
實(shí)施根據(jù)本發(fā)明的估計(jì)方法的一個(gè)完整方案在圖4中示出??梢灾赋?,因?yàn)镸PEG-7將是一個(gè)多媒體內(nèi)容描述標(biāo)準(zhǔn),所以來指定一個(gè)具體編碼類型。因此,描述符格式的一個(gè)處理必須對(duì)所有的編碼數(shù)據(jù)的類型(壓縮或未壓縮的)都有效。然而,由于從輸入幀獲得的大部分視頻數(shù)據(jù)通常是MPEG格式(因此存在壓縮),直接地使用由MPEG運(yùn)動(dòng)補(bǔ)償提供的運(yùn)動(dòng)矢量是有益的。如果該視頻數(shù)據(jù)是以未壓縮域得到的,則在一個(gè)運(yùn)動(dòng)矢量產(chǎn)生裝置41中執(zhí)行一個(gè)數(shù)據(jù)塊匹配方法。
不管是那種情況,一旦已經(jīng)讀出或從圖像序列(在兩個(gè)連續(xù)幀之間)提取了運(yùn)動(dòng)矢量,則都提供一個(gè)下采樣和濾波裝置42。濾波該速度場(chǎng)的目標(biāo)是降低該數(shù)據(jù)量和運(yùn)動(dòng)矢量的多相性。該操作之后是裝置43中的攝像機(jī)特征的瞬時(shí)估計(jì)。該估計(jì)是根據(jù)預(yù)先描述的方法改進(jìn)的,以便使用運(yùn)動(dòng)矢量并且在最小化處理中包括該焦距,并且實(shí)現(xiàn)用于每一對(duì)幀的一個(gè)特征向量。在整個(gè)所考慮的序列中的特征矢量組則最終由一個(gè)長期運(yùn)動(dòng)分析裝置44接收,該裝置44輸出運(yùn)動(dòng)描述符,可用于在以內(nèi)容為基礎(chǔ)的檢索組織結(jié)構(gòu)中索引攝象機(jī)運(yùn)動(dòng)的序列,特別是按照MPEG-7圖像索引結(jié)構(gòu)索引該序列。
裝置42中的預(yù)處理步驟要解決兩個(gè)主要問題運(yùn)動(dòng)矢量的多相性,首先是該圖像的低頻部分中的或在非常均勻組構(gòu)場(chǎng)合中的運(yùn)動(dòng)矢量的多相性,以及該數(shù)據(jù)塊的尺寸太小。根據(jù)全局信息,通過下采樣該原始場(chǎng)并且同時(shí)抑制不一致的矢量,下采樣和濾波處理被提供用于降低該矢量的總數(shù)。使用針對(duì)每一矢量計(jì)算出的一個(gè)置信掩碼根據(jù)每一運(yùn)動(dòng)矢量的置信等級(jí)在0和1之間的變化的判別標(biāo)準(zhǔn),并且決定該矢量是否被考慮。置信掩碼的一個(gè)實(shí)例可以被認(rèn)為,針對(duì)任何理論的攝像機(jī)運(yùn)動(dòng),是一個(gè)不能變化太多的運(yùn)動(dòng)矢量具有接近值的相近矢量。因此能根據(jù)每一矢量到其鄰近矢量的距離測(cè)量一個(gè)置信度,能夠由例如其平均值表示,最好由中值表示(因?yàn)橹兄祵?duì)大隔離誤差敏感更小)。因此該置信掩碼Cij由方程式(26)定義Ci,j=e-‖vi,j-vmedian‖2(26)圖5示出濾波技術(shù)濾波場(chǎng)(右側(cè))包括原始場(chǎng)(左側(cè))四倍分之一的數(shù)據(jù)塊數(shù)目。根據(jù)四個(gè)原始數(shù)據(jù)塊的運(yùn)動(dòng)矢量計(jì)算表示新數(shù)據(jù)塊的運(yùn)動(dòng)的矢量,并且根據(jù)顯示的鄰近數(shù)據(jù)塊計(jì)算其置信度。用于新的數(shù)據(jù)塊的運(yùn)動(dòng)矢量是原較小數(shù)據(jù)塊的加權(quán)平均值v-m,n(filt)=Σi=2(m-1)+12(m-1)+2Σj=2(n-1)+12(n-1)+2Ci,j-vi,j-Σi=2(m-1)+12(m-1)+2Σj=2(n-1)+12(n-1)+2(27)]]>裝置43被提供用于針對(duì)幀的每一對(duì),從濾波的運(yùn)動(dòng)矢量場(chǎng)計(jì)算一個(gè)特征矢量、包括兩個(gè)被考慮幀之間的攝像機(jī)運(yùn)動(dòng)信息,現(xiàn)在詳細(xì)說明該裝置43執(zhí)行的一個(gè)估計(jì)算法。
首先從方程式(26)計(jì)算置信掩碼。隨后開始并行化(parallelisation)處理。在產(chǎn)生的矢量的價(jià)值函數(shù)的計(jì)算中每次考慮一個(gè)運(yùn)動(dòng)矢量,由其置信掩碼加權(quán)。隨后下面方程式實(shí)現(xiàn)給出一個(gè)其中的全部矢量是平行的剩余(residual)場(chǎng)的Rx、Ry、Rz、Rzoom和焦距f的最佳值的計(jì)算R-estim=[R^x,R^y,R^z,Rzoom,f^]=argmin{P(R^)}(28)]]>whereP(R-)=ΣiΣj||v-i,jresidual(R-)||2·θi,j·Ci,j(29)]]>具有v-i,jresidual(R→)=v-i,j-[uyrot(R→)uxrot(R→)](30)]]>andθi,j=angle(v-i,jresidual,v-residual),]]>v-residual=ΣiΣjv-i,jresidual.Ci,jΣiΣjCi,j(31)]]>在大視野中的非移動(dòng)運(yùn)動(dòng)的情況下,該剩余矢量將不是平行的,但是應(yīng)該理想地接近于零。該見解導(dǎo)致由給出的方程式(32)計(jì)算β比例β=||Σv→i,jresidual(R→estim)||Σ||v→i,jresidual(R→estim)||(32)]]>其指示該剩余場(chǎng)的平行性。該是剩余流矢量的生成幅值對(duì)剩余流矢量的幅值和的比例β=1意味著該剩余矢量被完全校準(zhǔn),而β=0意味著該剩余矢量彼此相互隨機(jī)取向。而且,為了檢測(cè)攝像機(jī)運(yùn)動(dòng)中重要跟蹤分量的出現(xiàn),通過計(jì)算下面由方程式(33)給出的比例α,該剩余流場(chǎng)的強(qiáng)度與原始流場(chǎng)的強(qiáng)度比較a=mean(*)(||v→i,jresidual(R→estim)||)mean(*)(||v→i,j||)(33)]]>該"mean(*)"算子表示根據(jù)該置信掩碼的參數(shù)的加權(quán)平均值。這兩個(gè)比例使得能夠如下所示地檢測(cè)跟蹤分量的存在以及總量A)如果β~0,沒有跟蹤運(yùn)動(dòng);B)如果β~1如果α~0,可忽略的跟蹤運(yùn)動(dòng);如果α~1,重要的跟蹤運(yùn)動(dòng);T^x=-Vxresidual]]>T^y=-Vyresidual]]>這些比例還給出結(jié)果相關(guān)的一個(gè)概念。
必須指出,平移運(yùn)動(dòng)的估算分量,即 x和 y不表示該第一模式的確切成份,而是表示在f.Tx/z和f.Ty/z的整個(gè)圖像之內(nèi)的一個(gè)加權(quán)平均值,因?yàn)椴恢烂恳粩?shù)據(jù)塊的深度。但是,它們是該成像中的明顯的跟蹤運(yùn)動(dòng)的良好的表示。
對(duì)于該平行性價(jià)值函數(shù)來說,已經(jīng)選擇了下傾單形最小化算法,因?yàn)槠洳话瑢?dǎo)數(shù)的計(jì)算,由于該原始場(chǎng)是該價(jià)值函數(shù)的一部分,所以該導(dǎo)數(shù)的計(jì)算將是不可能的。下傾單形法是僅需要函數(shù)求值的一個(gè)多維的方法,不象許多其他方法,例如基于全梯度方法那樣。該下傾單形法沒有變形。在這里它是一個(gè)本性點(diǎn),因?yàn)闆]有該價(jià)值函數(shù)的解析形式。一個(gè)單形是幾何圖形,包括在N維中的N+1點(diǎn)(即頂點(diǎn))以及所有它們的互連線段、多角形面等…兩維中單形是一個(gè)三角形,三維中單形是一個(gè)四面體等等。通常,僅考慮非退化的單形(即有限的N維體積的封閉體)。如果一個(gè)單形的任何點(diǎn)被取作原點(diǎn),則其它N個(gè)點(diǎn)定義跨該N矢量空間的矢量方向。在一維最小化中,有可能標(biāo)界一個(gè)最小值(兩分法),以保證隔離成功。
即便在多維空間中沒有模擬程序,該下傾單形法也是一個(gè)最適合這概念的一個(gè)單形法。該算法以獨(dú)立變量的N個(gè)矢量開始,作為首先嘗試點(diǎn),然后假定構(gòu)成其自己的方式下傾通過該空間,直到其相遇將要封閉的至少一個(gè)局部的最小值為止。這種方法必須不只是以單一點(diǎn)開始,而是以定義一個(gè)初始的單形的N+1個(gè)點(diǎn)開始。隨后在每一步驟構(gòu)造一個(gè)新的單形。如圖6所示(左部分),主要步驟把函數(shù)是最大值(“最高最”)的該單形的脊點(diǎn)(tile point)移動(dòng)通過該單形的對(duì)面而到一個(gè)較低點(diǎn)(反射)。這些種類的步驟節(jié)約了該單形的體積。對(duì)于擴(kuò)展和收縮的過程使該單形法能夠加速沿著一個(gè)改進(jìn)的成功軌跡并且在最佳條件上到最終位置(home)。當(dāng)獲得要求的目標(biāo)時(shí),實(shí)際是當(dāng)函數(shù)值中的減小量是小于某些容差ε的部分時(shí),停止該算法。
使用的整個(gè)算法在圖7的流程圖給出。在初始化(開始操作)和借助函數(shù)值順序排列(步驟62)之后,執(zhí)行測(cè)試(f(.)<f(.)?)63、64、65、66、67、681)f(R)<f(W’)?a)如果“是”(Y),f(R)<f(B’)?ⅰ)如果“是”(Y),f(E)<f(B’)?-如果“是”(Y),由E替換W(輸出71)-如果“否”(N),由R替換W(輸出72)ⅱ)如果“否”(N),由R替換W;b)如果“否”(N),f(R)<f(W)?ⅰ)如果“是”(Y),由R替換W;ⅱ)如果“否”(N),由表達(dá)式(34)定義C(計(jì)算C)C=arg min[f(x)]pour×ε{C(+),C(-)}(34)并且執(zhí)行進(jìn)一步的測(cè)試2)f(C)<f(W)?(a)如果“是”(Y),由C替換W(輸出73)(b)如果“否”(N),構(gòu)成多倍收縮(輸出74);3)在輸出71到74之后,f(W)-f(B)<ε?-如果“否”(N),反饋連接朝向步驟62;-如果“是”(Y),結(jié)束該算法(停止)。
利用下面的符號(hào)表示-f=RN→R,最小化函數(shù)(這里是一個(gè)平行性函數(shù));-W,C(-),C(+),R,E,N維點(diǎn)(C(-)=負(fù)收縮,C(+)=正收縮,R=反射,E=擴(kuò)展,如圖6中右邊部分示出)-W’,B,B’f的次最差、最佳、和次最佳值的前提(則f(B)<f(B’)<…<f(W’)<f(W));有可能終點(diǎn)的計(jì)算由下式給出 由于對(duì)于最佳性能的影響難于控制,所以該系數(shù)被設(shè)置為最簡(jiǎn)單的值,即γ=2,β(+)=β(-)=0,5。
權(quán)利要求
1.一種攝像機(jī)運(yùn)動(dòng)參數(shù)估計(jì)方法,提供用于考慮被細(xì)分為數(shù)據(jù)塊的連續(xù)圖像幀的一個(gè)序列并且處理該序列,其中所說的處理操作包括對(duì)應(yīng)的連續(xù)步驟-從所說的圖像序列提取對(duì)應(yīng)于兩個(gè)連續(xù)的幀之間的運(yùn)動(dòng)的矢量,所說的運(yùn)動(dòng)矢量形成該攝像機(jī)速度場(chǎng);-預(yù)處理該攝像機(jī)速度場(chǎng),以便降低數(shù)據(jù)量和所說提取的運(yùn)動(dòng)矢量的多相性;-從所說的預(yù)處理場(chǎng)估計(jì)用于每一個(gè)幀對(duì)的在兩個(gè)考慮幀之間的攝像機(jī)特征;-根據(jù)所說的估計(jì)實(shí)施一個(gè)長項(xiàng)運(yùn)動(dòng)分析,以便獲得對(duì)應(yīng)于該估算攝像機(jī)運(yùn)動(dòng)參數(shù)的運(yùn)動(dòng)描述符。
2.根據(jù)權(quán)利要求1的方法,為了降低矢量的總量,其中所說的預(yù)處理步驟包括子步驟-下采樣所說的運(yùn)動(dòng)矢量的原始速度場(chǎng);-同時(shí)根據(jù)全局信息抑制不一致的矢量。
3.根據(jù)權(quán)利要求2的方法,其中所說的預(yù)處理子步驟包括根據(jù)四個(gè)原始數(shù)據(jù)塊的運(yùn)動(dòng)矢量以及一個(gè)相關(guān)的置信度對(duì)表示一個(gè)新數(shù)據(jù)塊的運(yùn)動(dòng)的一個(gè)矢量的計(jì)算操作。
4.根據(jù)權(quán)利要求3的方法,其中所說的置信度是通過從每一矢量到其鄰近值的距離給出的。
5.根據(jù)權(quán)利要求4的方法,其中所說的鄰近值由例如平均值或中值的一個(gè)值v(m)表示,把置信掩碼導(dǎo)引到具有以下類型表示的值CijCij=e-‖vi,j-v(m)‖2其中(i,j)定義該原始數(shù)據(jù)塊,并且vi,j定義其原始運(yùn)動(dòng)矢量。
全文摘要
本發(fā)明涉及攝像機(jī)運(yùn)動(dòng)參數(shù)的估計(jì)方法。被用于細(xì)分為數(shù)據(jù)塊的連續(xù)圖像幀的序列,并且包括下面步驟:從所說的圖像序列提取對(duì)應(yīng)于兩個(gè)連續(xù)的幀之間的運(yùn)動(dòng)的矢量,所說的運(yùn)動(dòng)矢量形成該攝像機(jī)速度場(chǎng),預(yù)處理如此獲得的該攝像機(jī)速度場(chǎng),以便降低數(shù)據(jù)量和該提取的運(yùn)動(dòng)矢量的多相性,從所說的預(yù)處理場(chǎng)估計(jì)用于每一個(gè)幀對(duì)的在兩個(gè)考慮幀之間的攝像機(jī)特征,并且根據(jù)所說的估計(jì)實(shí)施一個(gè)長項(xiàng)運(yùn)動(dòng)分析,以便獲得對(duì)應(yīng)于該估算攝像機(jī)運(yùn)動(dòng)參數(shù)的運(yùn)動(dòng)描述符。應(yīng)用于MIPEG-7之內(nèi)描述符的實(shí)施方案。
文檔編號(hào)H04N5/14GK1300503SQ99806129
公開日2001年6月20日 申請(qǐng)日期1999年12月24日 優(yōu)先權(quán)日1999年1月12日
發(fā)明者B·莫賴 申請(qǐng)人:皇家菲利浦電子有限公司