一種基于關(guān)鍵幀的在線學(xué)習(xí)的離線視頻跟蹤方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及計(jì)算機(jī)視覺跟蹤技術(shù)領(lǐng)域,具體設(shè)及一種基于關(guān)鍵帖的在線學(xué)習(xí)的離 線視頻跟蹤方法。
【背景技術(shù)】
[0002] 根據(jù)視頻來源的不同可W簡單地把視頻目標(biāo)跟蹤分為兩大類:在線視頻目標(biāo)跟蹤 和離線視頻目標(biāo)跟蹤。在線視頻的目標(biāo)跟蹤只有當(dāng)前帖之前的視頻數(shù)據(jù),因此在線視頻的 目標(biāo)跟蹤問題是一個(gè)開環(huán)控制系統(tǒng),使得誤差不可避免地發(fā)生積累。而離線視頻的目標(biāo)跟 蹤在跟蹤之前已具有完整的視頻,因此可W通過對少量的關(guān)鍵帖進(jìn)行標(biāo)注,從將開環(huán)控制 系統(tǒng)轉(zhuǎn)化為閉環(huán)控制系統(tǒng),使得離線視頻跟蹤可W用于視頻標(biāo)注、視頻檢索、事件分析W及 基于運(yùn)動(dòng)目標(biāo)的視頻壓縮等。
[0003] 總的來說,目前的目標(biāo)跟蹤算法主要兩個(gè)關(guān)鍵性的問題;(1)表觀模型;(2)跟蹤 框架。表觀模型就是如何對目標(biāo)物體進(jìn)行有效的表達(dá),并且進(jìn)行實(shí)時(shí)的更新。因此,如何構(gòu) 建一個(gè)好的表觀模型對目標(biāo)視覺跟蹤起著至關(guān)重要的作用。
[0004] 目標(biāo)灰度模板,是一種最直接的目標(biāo)建模方法,不過該模型缺乏判別性和魯椿性。 盡管目標(biāo)區(qū)域的顏色直方圖對于目標(biāo)尺度、旋轉(zhuǎn)W及非剛性形變較為魯椿,但是由于其忽 略了目標(biāo)表觀的顏色空間分布信息,存在一定的缺陷。雖然基于核密度估計(jì)的表觀模型很 好的解決了該一缺陷,不過換來的代價(jià)是計(jì)算與存儲復(fù)雜度的增長。另外,基于條件隨機(jī)場 的表觀模型通過馬爾可夫隨機(jī)場來建模鄰近像素之間的內(nèi)在關(guān)系,但是其訓(xùn)練代價(jià)非常巨 大?;谧涌臻g學(xué)習(xí)的表觀模型由于其子空間不變假設(shè)更為合理,因而被廣泛地應(yīng)用于視 覺跟蹤領(lǐng)域。但是該模型在訓(xùn)練時(shí)需要足夠多的樣本,在實(shí)際運(yùn)用中很難達(dá)到實(shí)時(shí)性的要 求?;诖?,Levy 和 Lindenbaum 提出了序列 KL(Sequential Karhunen-Loeve)變換算法 用于增量地學(xué)習(xí)圖像的特征基。Lim等擴(kuò)展了序列化變換算法,同時(shí)對目標(biāo)圖像的均值和 特征基進(jìn)行增量更新,并將該算法首次應(yīng)用于目標(biāo)的視覺跟蹤。而后,魯椿估計(jì)策略,Yang 的基于數(shù)據(jù)驅(qū)動(dòng)的加強(qiáng)自適應(yīng)方法,Liao的基于魯椿卡爾曼濾波的跟蹤方法W及Gai和 Stevenson基于動(dòng)態(tài)模型的方法,雖然在某些特定的場景中獲得了較好的跟蹤性能,但是 有一定的不足之處;即上述所有基于子空間的跟蹤算法首先要將圖像展成一維向量,目標(biāo) 表觀的空間分布信息幾乎完全丟失,從而使得模型對目標(biāo)表觀的全局性變化W及噪音非常 敏感。針對該一缺點(diǎn),化等引入張量思想,在一定程度上起到了效用。不過由于其在使用 R-SVD更新過程中只保留了前R個(gè)較大特征值所對應(yīng)的特征向量,從而帶來了一定的誤差, 并且隨著跟蹤的進(jìn)行,誤差會(huì)逐步累計(jì),導(dǎo)致模型漂移。雖然基于動(dòng)態(tài)張量分析的模型避免 了上述誤差,得到了更加精確的結(jié)果,但是由于小樣本問題使得計(jì)算得到的協(xié)方差矩陣無 法描述樣本的分布情況,從而導(dǎo)致子空間的計(jì)算退化。
[0005] 近年來,基于L1正則化稀疏表示的目標(biāo)表觀模型受到人們的廣泛關(guān)注。稀疏表 示模型描述了 W下問題:給定一個(gè)候選的目標(biāo)區(qū)域,用盡量少的模板對其進(jìn)行重構(gòu)。在稀 疏表示的框架下,模板字典由一系列目標(biāo)模板(object template)和自定義的輔助模板 (trivial template)組成,新的候選樣本將通過模板字典的線性稀疏重構(gòu)來表示。目標(biāo)模 板表示的是待跟蹤目標(biāo)的視覺特征,自定義的輔助模板是為了表示噪聲和遮擋,每個(gè)輔助 模板只有一個(gè)元素的值為1,其他元素均為0,因此不同的輔助模板對應(yīng)著目標(biāo)模板不同位 置的像素。如果某個(gè)輔助模板的重構(gòu)系數(shù)不為零,則表明其對應(yīng)位置的像素有可能被噪聲 污染或者被其他物體遮擋。所W在稀疏表示的框架下,通過輔助模板與目標(biāo)模板的組合,可 W有效地處理圖像噪聲和遮擋,而不需要采用其他額外的策略。
[0006] 盡管基于稀疏表示的表觀模型在處理遮擋和噪聲方面取得了巨大的成功,然而該 模型還是存在如下問題;模板字典中目標(biāo)模板的數(shù)量過少(一般為10),遠(yuǎn)遠(yuǎn)沒有達(dá)到稀 疏表示理論對字典模板過完備(over-complete)的要求。此外,傳統(tǒng)的稀疏表示跟蹤算 法只是簡單的用最新得到的跟蹤結(jié)果去代替舊的目標(biāo)模板,很容易將跟蹤結(jié)果中的誤差 (如噪聲、遮擋引起的)引入到模板字典中,當(dāng)誤差積累到一定程度就會(huì)導(dǎo)致模型漂移問題 (model化ifting)。對于在線視頻跟蹤,由于無法獲取整段視頻,建立過完備字典是很難 的;而離線視頻在目標(biāo)跟蹤之前提供所有視頻數(shù)據(jù),為構(gòu)建一個(gè)完備充分的目標(biāo)模板字典 提供了基礎(chǔ)。在跟蹤過程中字典的更新也是重要環(huán)節(jié),在線跟蹤字典的更新是根據(jù)當(dāng)前跟 蹤到的區(qū)域與已有字典進(jìn)行相似性度量,如果大于預(yù)先設(shè)定的閥值就更新,否則就不更新。 該樣的字典更新方法也可能導(dǎo)致誤差積累,如果更新頻率過快誤差累積量就大。而另一方 面,如果更新太慢,則難W適應(yīng)目標(biāo)表觀的變化。
【發(fā)明內(nèi)容】
[0007] 針對現(xiàn)有技術(shù)存在的不足,本發(fā)明的目的在于提供一種可W避免每次模板更新所 帶來的誤差累積,采用循環(huán)跟蹤的策略將開環(huán)問題轉(zhuǎn)化為閉環(huán)問題,從而有效的提高目標(biāo) 跟蹤的魯椿性的基于關(guān)鍵帖的在線學(xué)習(xí)的離線視頻跟蹤方法。
[000引為實(shí)現(xiàn)上述目的,本發(fā)明提供了如下技術(shù)方案;一種基于關(guān)鍵帖的在線學(xué)習(xí)的離 線視頻跟蹤方法,包括W下步驟:
[0009] (1)對于給定的離線視頻,選擇一定數(shù)量的關(guān)鍵帖進(jìn)行標(biāo)注,并由此構(gòu)建完備的模 板字典,該模板字典包含=個(gè)部分:純凈模板、動(dòng)態(tài)模板和輔助模板;
[0010] (2)在跟蹤過程中,對于每一個(gè)候選圖像區(qū)域,計(jì)算其與純凈模板子塊之間的距 離,從而有效對純凈模板子塊進(jìn)行選擇,提高計(jì)算效率;
[0011] (3)為了減少跟蹤誤差的積累,采用循環(huán)跟蹤的策略將開環(huán)問題轉(zhuǎn)化為閉環(huán)問題, 從而有效地提局目標(biāo)跟蹤的魯椿性;
[0012] (4)利用跟蹤的結(jié)果,對動(dòng)態(tài)模板進(jìn)行在線地半監(jiān)督學(xué)習(xí),W適應(yīng)目標(biāo)表觀的變 化。
[0013] 通過采用上述技術(shù)方案,在跟蹤過程中對目標(biāo)模板字典進(jìn)行有效地在線學(xué)習(xí),從 而避免每次模板更新所帶來的誤差累積;采用循環(huán)跟蹤的策略將開環(huán)問題轉(zhuǎn)化為閉環(huán)問 題,從而有效的提高目標(biāo)跟蹤的魯椿性。
[0014] 本發(fā)明進(jìn)一步設(shè)置為:所述的步驟(1)具體包括W下子步驟:
[0015] (1. 1),從整個(gè)視頻中選擇一定數(shù)量的關(guān)鍵帖,手工標(biāo)定目標(biāo)區(qū)域;
[0016] (1.2),在每個(gè)關(guān)鍵帖標(biāo)定的區(qū)域中,上下左右各擾動(dòng)1-2個(gè)像素產(chǎn)生十個(gè)純凈模 板;相鄰關(guān)鍵帖之間,由對應(yīng)的純凈模板線性組合生產(chǎn)一系列動(dòng)態(tài)模板;
[0017] (1. 3),構(gòu)建產(chǎn)生一系列輔助模板,每個(gè)輔助模板只有一個(gè)元素的值為1,其他元素 均為0,不同的輔助模板對應(yīng)著目標(biāo)模板不同位置的像素;如某個(gè)輔助模板的重構(gòu)系數(shù)不 為零,則表明其對應(yīng)的像素有可能被噪聲污染或者被其他物體遮擋。
[0018] 本發(fā)明還進(jìn)一步設(shè)置為:
[0019] 所述的步驟(2)具體包括W下子步驟:
[0020] (2. 1),將純凈模板根據(jù)產(chǎn)生它的關(guān)鍵帖分成不同的子塊;
[0021] (2. 2),對于每一個(gè)候選圖像區(qū)域,計(jì)算其與純凈模板子塊之間的距離;
[0022] (2. 3),只要候選區(qū)域與純凈模板子塊中任一模板之間的距離小于一定的闊值,就 采用該純凈模板子塊對候選區(qū)域進(jìn)行稀疏重構(gòu);否則就不采用該純凈模板子塊對候選區(qū)域 進(jìn)行稀疏重構(gòu)。
[0023] 本發(fā)明還進(jìn)一步設(shè)置為;所述的步驟(3)具體包括W下子步驟:
[0024] (3. 1),將整段視頻序列根據(jù)關(guān)鍵帖分成若干段子序列;
[0025] (3. 2),在每段子序列上,從兩個(gè)關(guān)鍵帖節(jié)點(diǎn)開始,分別進(jìn)行跟蹤,在跟蹤過程中, 采用步驟(2)中所選擇的模板字典進(jìn)行對所有候選區(qū)域進(jìn)行稀疏重構(gòu),按重構(gòu)誤差從小到 大排序,選擇重構(gòu)誤差最小的候選區(qū)域作為跟蹤結(jié)果;
[0026] (3. 3),將兩個(gè)關(guān)鍵帖節(jié)點(diǎn)循環(huán)跟蹤的結(jié)果進(jìn)行