專利名稱:一種視頻中的人物動作檢測方法
技術(shù)領(lǐng)域:
本發(fā)明屬于基于內(nèi)容的視頻檢測方法,是通過對視頻內(nèi)容的人物動作進(jìn) 行提取與高效索引,使其對于一般意義的視角變換,持續(xù)時間變換具有較強(qiáng) 的魯棒性,從而實現(xiàn)基于動作的視頻索引與檢索的方法。
背景技術(shù):
互聯(lián)網(wǎng)上多媒體信息的大規(guī)模涌現(xiàn),使得多媒體信息的整理、索引、檢 索技術(shù)為大家所關(guān)注。但是,目前多媒體檢索主要采用關(guān)鍵字匹配(如
Google, Baidu的視頻檢索引擎)來進(jìn)行檢索?;陉P(guān)鍵字匹配的方法沒有 對視頻內(nèi)容進(jìn)行理解,是基于網(wǎng)頁制作者或視頻的拍攝、制作者對該視頻的 理解來進(jìn)行定義和分類的。
近年來,基于內(nèi)容的多媒體信息檢索技術(shù)逐漸發(fā)展起來,通過對多媒體 素材的內(nèi)容進(jìn)行分析,抽取其底層特征(如顏色特征,紋理特征等),并以此 作為新的匹配準(zhǔn)則進(jìn)行檢索。雖然利用底層特征匹配的方法可以在一定程度 上反映兩組多媒體信息在內(nèi)容上的相似性,但客觀存在的語義鴻溝依然是該 技術(shù)尚未攻克的難題。對多媒體內(nèi)容,特別是圖像和視頻的中層語義進(jìn)行提 取被認(rèn)為是填補(bǔ)語義鴻溝的一種重要途徑,這在體育視頻分析問題上已經(jīng)得 到了驗證。動作信息,在視頻素材中,是一種非常重要的語義信息,特別是 在一些影視劇視頻中,故事的展開往往會在特定的動作上得以呈現(xiàn),也是用 戶瀏覽和檢索的熱點。如果能按照動作信息對視頻素材進(jìn)行索引,將非常有 利于用戶瀏覽和檢索其感興趣的視頻片斷。
發(fā)明內(nèi)容
本發(fā)明為解決現(xiàn)有的多媒體信息檢索方法不能夠檢測視頻素材中的動作 信息的問題,提供一種視頻中的人物動作檢測方法。本發(fā)明包括以下步驟-
步驟一、通過基于Graph Partition Model的鏡頭邊界檢測方法對視頻的 鏡頭進(jìn)行分割;
步驟二、對于連續(xù)的視頻幀,通過在各幀顯著圖的基礎(chǔ)上建立動態(tài)顯著 模型的方法得到時空顯著圖;步驟三、通過公式
卩 Ce她rD&(,,力〉rc and Z)/am"erFiar < rD 幼訴 io Ce"fer£fc(/,力<or D/a附eter Fiaf/- > ro
計算得到時空顯著圖的注意力轉(zhuǎn)移變量A歸
其中Ce^w£fo 0表示相鄰各幀注意力焦點的中心之間的距離, r^mdw松0表示相鄰各幀注意力焦點的外接圓的半徑變化;
步驟四、設(shè)置一個閾值并將超過閾值的注意力轉(zhuǎn)移值A(chǔ)^分離出來;
步驟五、在同一個動作內(nèi),對分離出的注意力轉(zhuǎn)移值4一進(jìn)行各幀疊加 的3D序列切片,建立動作檢測模型。
有益效果可以將大量的視頻素材按照其包含的人物動作語義信息進(jìn)行 索引,方便用戶對視頻進(jìn)行快速的瀏覽與檢索,觀看自己感興趣的內(nèi)容。一 方面,本發(fā)明提供了一種基于顯著性跳轉(zhuǎn)的模型進(jìn)行視頻動作的切分;另一 方面,本發(fā)明提出了一種可通過分析鏡頭內(nèi)部的物理關(guān)聯(lián)關(guān)系,有效提取出 了視頻素材中的地點語義信息;再有,本發(fā)明提供一種新穎的相似度計算模 型,使得動作相似性計算對于視角變化,尺度變化,表觀漸變,和持續(xù)時間 變化不敏感;最后,本發(fā)明提出了一種分層局部特征聚類索引結(jié)構(gòu)上,本發(fā) 明采用進(jìn)行3D視覺詞匯的索引,從而在實時檢索中達(dá)到較高的準(zhǔn)確度。
本發(fā)明的目的是要提取并利用視頻素材中的演員動作語義信息,建立視 頻素材庫的索引,進(jìn)而實現(xiàn)用戶按人物動作對視頻素材進(jìn)行瀏覽或檢索。本 發(fā)明的意義在于提出一種基于分片視覺詞匯生成和可伸縮相似性匹配的算 法,結(jié)合人言關(guān)注度模型分析和分層局部特征聚類,實現(xiàn)視頻中人物動作的 高效搜索與瀏覽。
具體實施例方式
具體實施方式
一本實施方式由以下步驟組成
步驟一、通過基于Graph Partition Model的鏡頭邊界檢測方法對視頻的 鏡頭進(jìn)行分割;
步驟二、對于連續(xù)的視頻幀,通過在各幀顯著圖的基礎(chǔ)上建立動態(tài)顯著 模型的方法得到時空顯著圖; 步驟三、通過公式J" 1 Ce"欣Zto(,,力> Tc and D〖aweterKa尸< a辨_ jo Ce ,erD&(i,力< rc or Z)/awefer > rD
計算得到時空顯著圖的注意力轉(zhuǎn)移變量A,
其中Ce^wD/s 6)表示相鄰各幀注意力焦點的中心之間的距離, D/am故r^^表示相鄰各幀注意力焦點的外接圓的半徑變化;
步驟四、設(shè)置一個閾值并將超過閾值的注意力轉(zhuǎn)移值A(chǔ)/^分離出來,一 旦A,的注意力轉(zhuǎn)移值超出閾值范圍,便認(rèn)為此時有鏡頭內(nèi)的焦點動作切換 的產(chǎn)生;
步驟五、在同一個動作內(nèi),對分離出的注意力轉(zhuǎn)移值A(chǔ),進(jìn)行各幀疊加 的3D序列切片,建立動作檢測模型。這個步驟將生成的切片可以看作一個 多幀疊加的時空貫序集合,.這些集合的全體,構(gòu)成了動作索引模型的構(gòu)造基 元。
本實施方式首先使用角色占有率用來去除視頻中的近距特寫鏡頭,然后 利用視覺注意計算模型過濾場景中的背景信息,隨后采用時序分片局部特征 生成與量化,結(jié)合動態(tài)時間配準(zhǔn)技術(shù),有效進(jìn)行對應(yīng)動作相似性的計算。在 動作數(shù)據(jù)索引上,該發(fā)明提出了基于分層局部特征聚類思想的索引算法,有 效滿足了檢索實時性的要求,從而實現(xiàn)快速準(zhǔn)確的基于人物動作的視頻瀏覽 與檢索。
具體實施方式
二本實施方式在具體實施方式
一的基礎(chǔ)上進(jìn)一步限定了 步驟五中所述的建立動作檢測模型包括以下步驟
步驟A1、對于時空中的每一個3D序列切片,采用3D-SIFT時空聚步特 征進(jìn)行特征描述;
步驟A2、通過層次K均值聚類將所有提取出來的3D-SIFT時空聚步特
征進(jìn)行高位空間上的量化,將其量化結(jié)果構(gòu)成層次聚類模型;
步驟A3、在這個層次聚類模型的末端,將每個所聚成的特征空間描述為 一個視覺詞匯,這個視覺詞匯將所有匯聚到這個聚類中心的3D-SIFT特征量 化到一個詞中,并且針對抽取出這些3D-SIFT特征的3D-序列切片,進(jìn)行倒
排索引。
本實施方式把經(jīng)過這種倒排索引的動作序列,稱之為3D視覺語句,因為它們是由3D視覺詞匯組成,并且有著先后的時間順序;進(jìn)一步,本實施 方式采用文本檢索中的Term Frequency - Inverted Document Frequency (TF-IDF)進(jìn)行3D視覺語句中每一個詞的重要性的計算,進(jìn)而對于視覺語句中 的每個3D視覺詞匯賦予不同的權(quán)重;在這個3D視覺詞匯中,包含了一個動 作的時間信息,空間對應(yīng)關(guān)系,運動信息和運動物體表觀屬性。
具體實施方式
三、本實施方式在具體實施方式
二的基礎(chǔ)上進(jìn)一步限定了 步驟A3中所述的層次聚類模型的建立方法包括以下步驟
步驟B1、通過模型的層次結(jié)構(gòu)進(jìn)行兩個待匹配的3D詞匯的査找,判斷 兩個詞匯中是否有大于閾值數(shù)量的視覺詞共生,判斷結(jié)果為是,則進(jìn)入步驟 B2,判斷結(jié)果為否,則重復(fù)執(zhí)行步驟B1重新査找;
步驟B2、通過動態(tài)時間配準(zhǔn)進(jìn)行相似度的計算。
為了能夠在動作匹配的過程中達(dá)到旋轉(zhuǎn),縮放,和視點不變性,本實施 方式針對這個問題提出了一種基于動態(tài)時間配準(zhǔn)的3D視覺語句匹配算法。 動態(tài)時間配準(zhǔn)算法是被用來衡量兩端時間序上的不等長特征串。動態(tài)時間配 準(zhǔn)在每一個特征匹配上均尋找當(dāng)前生于特征里面的最佳匹配特征點。其采用 了動態(tài)規(guī)劃的思想,因此具有算法的近似最優(yōu)匹配效果。
首先定義兩個3D視覺語句如下為C=<G, G, C…,G〉和C =〈C , ,…,〉,每個3D視覺語句都表示具體實施方式
一所提取出來 的每一個動作,其長m和m'并不一定相等。為了衡量這兩個3D視覺語句 的相似性,我們定義視覺語句截尾為r&7(6) = 〈G, G,…,G〉,進(jìn)而,我 們利用公式二計算兩個3D視覺語句的相似性
<formula>formula see original document page 6</formula>
這個相似性的計算過程采用動態(tài)規(guī)劃進(jìn)行。 一般而言,Mc,-c」l可以是 兩個3D視覺詞匯之間的L2或者余弦距離。在實現(xiàn)中,由于事先提取了所有 的3D視覺語句,因此該計算過程可以在高效時間內(nèi)完成。
權(quán)利要求
1、一種視頻中的人物動作檢測方法,其特征在于它包括以下步驟步驟一、通過基于Graph Partition Model的鏡頭邊界檢測方法對視頻的鏡頭進(jìn)行分割;步驟二、對于連續(xù)的視頻幀,通過在各幀顯著圖的基礎(chǔ)上建立動態(tài)顯著模型的方法得到時空顯著圖;步驟三、通過公式計算得到時空顯著圖的注意力轉(zhuǎn)移變量Ashift其中CenterDis()表示相鄰各幀注意力焦點的中心之間的距離,Diameter Var()表示相鄰各幀注意力焦點的外接圓的半徑變化;步驟四、設(shè)置一個閾值并將超過閾值的注意力轉(zhuǎn)移值A(chǔ)shift分離出來;步驟五、在同一個動作內(nèi),對分離出的注意力轉(zhuǎn)移值A(chǔ)shift進(jìn)行各幀疊加的3D序列切片,建立動作檢測模型。
2、 根據(jù)權(quán)利要求1所述的一種視頻中的人物動作檢測方法,其特征在于 步驟五中所述的建立動作檢測模型包括以下步驟步驟Al、對于時空中的每一個3D序列切片,采用3D-SIFT時空聚步特 征進(jìn)行特征描述;步驟A2、通過層次K均值聚類將所有提取出來的3D-SIFT時空聚步特征 進(jìn)行高位空間上的量化,將其量化結(jié)果構(gòu)成層次聚類模型;步驟A3、在步驟A2獲得的層次聚類模型的末端,將每個所聚成的特征 空間描述為一個視覺詞匯,所述視覺詞匯是將所有匯聚到每一個聚類中心的 3D-SIFT特征量化獲得的一個詞,并且針對每一個3D-SIFT特征的3D-序列切 片按特征量化的值進(jìn)行倒排索引。
3、 根據(jù)權(quán)利要求2所述的一種視頻中的人物動作檢測方法,其特征在于 步驟A3中所述的層次聚類模型的建立方法包括以下步驟步驟Bl、通過模型的層次結(jié)構(gòu)進(jìn)行兩個待匹配的3D詞匯的査找,判斷 兩個詞匯中是否有大于閾值數(shù)量的視覺詞共生,判斷結(jié)果為是,則進(jìn)入步驟 B2,判斷結(jié)果為否,則重復(fù)執(zhí)行步驟B1重新查找;步驟B2、通過動態(tài)時間配準(zhǔn)進(jìn)行相似度的計算。
全文摘要
一種視頻中的人物動作檢測方法,它涉及一種基于內(nèi)容的視頻檢測方法,以解決現(xiàn)有的多媒體信息檢索方法不能夠檢測視頻素材中的動作信息的問題。本發(fā)明通過基于Graph Partition Model的鏡頭邊界檢測方法對視頻的鏡頭進(jìn)行分割;對于連續(xù)的視頻幀,通過在各幀顯著圖的基礎(chǔ)上建立動態(tài)顯著模型的方法得到時空顯著圖;計算得到時空顯著圖的注意力轉(zhuǎn)移設(shè)置一個閾值并將超過閾值的注意力轉(zhuǎn)移值分離出來;在同一個動作內(nèi),對分離出的注意力轉(zhuǎn)移值進(jìn)行各幀疊加的3D序列切片,建立動作檢測模型。本發(fā)明可以將大量的視頻素材按照其包含的人物動作語義信息進(jìn)行索引,方便用戶對視頻進(jìn)行快速的瀏覽與檢索,觀看自己感興趣的內(nèi)容。
文檔編號G06F17/30GK101430689SQ200810137508
公開日2009年5月13日 申請日期2008年11月12日 優(yōu)先權(quán)日2008年11月12日
發(fā)明者姚鴻勛, 孫曉帥, 紀(jì)榮嶸, 許鵬飛 申請人:哈爾濱工業(yè)大學(xué)