專利名稱:一種視頻檢索方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)字視頻技術(shù)領(lǐng)域,尤其涉及一種視頻檢索方法和系統(tǒng)。
背景技術(shù):
近年來,數(shù)字視頻信息出現(xiàn)了飛速膨脹。新的視頻應(yīng)用,例如數(shù)字圖書館、視頻點 播、數(shù)字電視、視頻會議、遠(yuǎn)程教育等,已經(jīng)為越來越多的人所接受和熟悉。面對海量的視頻 數(shù)據(jù),如何找到所需的視頻信息就成為一個亟需解決的問題。上個世紀(jì)90年代以來,出現(xiàn) 了基于內(nèi)容的視頻分析和檢索研究,其目的就是通過對視頻內(nèi)容進(jìn)行計算機(jī)處理、分析和 理解,建立結(jié)構(gòu)和索引,以實現(xiàn)方便有效的視頻信息獲取。因此,基于內(nèi)容的視頻分析與檢 索研究從一開始就得到了廣泛的重視,并取得了豐碩的研究成果?;趦?nèi)容的視頻分析從提出到現(xiàn)在,大致經(jīng)歷過3個階段。第一階段的研究主要 集中在視頻結(jié)構(gòu)的分析和瀏覽上,其中涉及的關(guān)鍵技術(shù)有鏡頭邊界檢測、關(guān)鍵幀提取和場 景的合并。第二階段的研究主要圍繞相似性檢索展開,核心問題是特征的提取和特征空間 距離的量度。前兩個階段的研究在一定程度上解決了視頻檢索和瀏覽的問題.并對視頻管 理和獲取技術(shù)進(jìn)行了有價值的探索。第三階段的工作提出了面向語義的信息提取,這也是 目前基于內(nèi)容視頻分析研究的熱點。該階段工作的根本目標(biāo)是構(gòu)建從底層特征到高層語義 之間的橋梁,最終形成符合人類思維形式的信息索引和檢索方式。視頻鏡頭的檢測
鏡頭檢測的關(guān)鍵是確定從鏡頭到鏡頭的轉(zhuǎn)換處,并利用鏡頭之間的轉(zhuǎn)換方式找到鏡頭 圖像之間的差別,鏡頭之間的轉(zhuǎn)變包括切變、漸變和數(shù)字特技,針對不同的情況往往需要使 用不同的算法。其中切變檢測的算法最為成熟,漸變和數(shù)字特技的檢測算法往往依賴一定 的先驗假設(shè),技術(shù)還有待進(jìn)一步完善。常用的自動鏡頭檢測方法主要有以下幾種
(1)基于像素的鏡頭檢測方法,利用視頻兩幀對應(yīng)像素之間的差別來檢測鏡頭邊界,這 種方法的缺點在于容易受到噪聲的影響;
(2)基于像素平均值,方差等統(tǒng)計特征的鏡頭檢測方法;
(3)基于視頻特征的鏡頭檢測方法,包括基于邊緣特征的比較方法(提取視頻每幀圖 像的邊緣特征,通過檢測邊緣的突然變化來確定邊界),采用顏色比率特征(Color Ratio Feature)的方法、基于光流特征的方法等,這些方法的計算復(fù)雜性都比較大;
(4)基于直方圖的鏡頭檢測方法,此方法利用視頻幀圖像的灰度直方圖或者顏色直方 圖的比較來檢測邊界,在鏡頭檢測的精度和速度之間達(dá)到了較好的平衡,因此使用最為普 遍。另外,近年來開始出現(xiàn)了直接對壓縮視頻進(jìn)行鏡頭檢測的算法,壓縮域內(nèi)對鏡頭切變的 檢測多是利用DCT系數(shù)、運(yùn)動向量及運(yùn)動補(bǔ)償宏塊等信息進(jìn)行的Yasuyuki利用I幀的DC 序列考查前后兩個I幀DC圖的色度相似度,在鏡頭切換時,色度變化一般較大,從而確定切 換點。另一種方法是利用B幀中進(jìn)行運(yùn)動補(bǔ)償?shù)暮陦K數(shù)量來進(jìn)行切變的檢測。在壓縮域內(nèi) 鏡頭漸變的檢測方法也較多,典型的有以下幾種Yeo等借助從MPEG縮碼流中提取出的DC 系數(shù)可以檢測閃光、淡人、淡出,同時該方法也可以區(qū)分疊化和切變;利用MPEG壓縮碼流中宏塊種類的信息可以獲得B幀的預(yù)測方向,并進(jìn)而檢測到各幀中場景發(fā)生變化的區(qū)域,通 過對這些變化區(qū)域的分析,就可以檢測比較復(fù)雜的擦除轉(zhuǎn)換,還可以確定擦除的種類。關(guān)鍵幀提取
在鏡頭分割以后,為提供給用戶瀏覽.一般要進(jìn)行鏡頭關(guān)鍵幀(Key Frame)的提取工 作。一個鏡頭的關(guān)鍵幀就是反映該鏡頭主要內(nèi)容的一幀圖像或若干幀圖像。關(guān)鍵幀的選取 一方面必須能夠反映鏡頭中的主要事件,因而描述應(yīng)盡可能完全律確;另一方面,為便于管 理,數(shù)據(jù)量應(yīng)盡量小,且計算不宜太復(fù)雜。關(guān)鍵幀提取方法主要包括以下幾種
(1)最簡單的關(guān)鍵幀提取方法是提取鏡頭固定位置上的幀作為關(guān)鍵幀。例如第一幀、中 間幀或最后一幀,或者相隔固定幀數(shù)采樣一幀,這種方法操作簡單,但不夠靈活,因此不能 有效地反映鏡頭內(nèi)容;
(2)較為復(fù)雜的方法包括基于內(nèi)容復(fù)雜性、鏡頭活動性等特征來提取關(guān)鍵幀,這些方法 能較為準(zhǔn)確地反映鏡頭內(nèi)容;
(3)較理想的方法是通過分析視頻視覺內(nèi)容(顏色直方網(wǎng)、運(yùn)動信息)隨時間的變化情 況,確定所需關(guān)鍵幀的數(shù)日,并按照一定的規(guī)則為鏡頭抽取關(guān)鍵幀;
(4)還有一種常用的關(guān)鍵幀提取方法是采用圖像拼接(Mosaic)技術(shù),也稱全景圖生成 技術(shù),即對分割得到的鏡頭各幀進(jìn)行拼接,融合鏡頭中多幀的背景信息,生成一個全景的拼 接圖像束代表視頻片斷的內(nèi)容,雖然全景圖能較為全面地反映鏡頭內(nèi)容,但由于算法對前 景運(yùn)動的敏感,這種技術(shù)的應(yīng)用受到一定的限制,還有其他方法,例如用無監(jiān)督聚類技術(shù)來 選擇關(guān)鍵幀等?;趦?nèi)容的相似性檢索
目前的視頻檢索主要依賴視頻內(nèi)容的相似性,稱相似性檢索。相似性檢索要求用戶提 交感興趣的視頻片斷,檢索過程將樣本片斷與視頻庫中的其它片斷作相似性比較,并按相 似性大小返回檢索結(jié)果。視頻相似性檢索的研究主要解決兩個問題如何提取反映視頻內(nèi) 容的特征;如何度量特征之間的相似性。在特征提取方面,日前的視頻檢索技術(shù)主要是從傳統(tǒng)的圖像檢索技術(shù)直接或問接 地繼承過來的,顏色、紋理和形狀是圖像檢索中廣泛使用的底層特征,相應(yīng)地,它們也是視 頻檢索中十分重要的特征。但是,視頻并不是簡單的同像序列,相鄰視頻幀之間表現(xiàn)出非常 強(qiáng)的相關(guān)性。在近期研究中,越來越多的工作開始利用視頻的運(yùn)動信息為視頻檢索提供時 序線索,視頻檢索中使用的運(yùn)動信息主要有物體運(yùn)動軌跡、塊運(yùn)動矢量的主分量、時序紋理 和攝像機(jī)運(yùn)動幾種在相似性量度方面。相似性量度一般可以分為局部匹配和全局匹配兩 種,局部相似性量度方法利用了視頻片斷間的時序關(guān)系,但僅局限在簡單的線性關(guān)系上,更 有計算復(fù)雜的缺點;相反.全局相似性量度方法具有索引信息少、檢索速度快等優(yōu)點。但卻 對視頻的時序關(guān)系缺乏描述,因此,更復(fù)雜的相似性量度方法被提出,例如運(yùn)動物體軌跡、 基于流形假設(shè)的最短特征線等?;趦?nèi)容的視頻檢索一直是計算機(jī)科學(xué)研究的熱點和難點問題。目前該技術(shù)仍然 只是對底層特征的檢索,與人們思維中的高層語義概念相去甚遠(yuǎn),如何跨越語義鴻溝還需 要做更多的研究。
發(fā)明內(nèi)容
本發(fā)明的目的在于提出一種視頻檢索方法和系統(tǒng),能夠解決視頻片段情感特征提 取和視頻內(nèi)容相似度匹配的問題,實現(xiàn)通過高層語義進(jìn)行視頻內(nèi)容的檢索。為達(dá)此目的,本發(fā)明采用以下技術(shù)方案 一種視頻檢索方法,包括以下步驟
A、將視頻片段存儲在視頻數(shù)據(jù)庫中,并提取每個視頻片段對應(yīng)的情感特征向量存儲在 特征數(shù)據(jù)庫中;
B、輸入待檢索視頻片段,并提取所述待檢索視頻片段的情感特征向量;
C、將所述待檢索視頻片段的情感特征向量與特征數(shù)據(jù)庫中的每個情感特征向量進(jìn)行匹 配,計算兩者之間的相似度,并對相似度進(jìn)行排序,選取預(yù)設(shè)數(shù)量的相似度最大的視頻片段;
D、將選取出來的視頻片段作為檢索結(jié)果輸出。步驟A和步驟B中,提取視頻片段的情感特征向量進(jìn)一步包括以下步驟 對視頻片段從語義層分割成場景;
從每個場景中提取關(guān)鍵幀;
提取場景中每個關(guān)鍵幀的情感特征向量,對場景中所有關(guān)鍵幀的情感特征向量求均 值,獲得場景的情感特征向量;
對視頻片段中所有場景的情感特征向量求均值,獲得視頻片段的情感特征向量。提取關(guān)鍵幀的情感特征向量進(jìn)一步包括以下步驟 提取關(guān)鍵幀的底層特征向量;
定義關(guān)鍵幀語義層的情感特征向量;
利用模糊集建立底層特征向量和情感特征向量之間的模糊關(guān)系矩陣; 根據(jù)底層特征向量獲得關(guān)鍵幀語義層的情感特征向量。底層特征向量包括亮度、飽和度、鏡頭切換速度和顏色能量,情感特征向量包括悲 傷、高興、恐懼。步驟C中,計算所述待檢索視頻片段的情感特征向量與特征數(shù)據(jù)庫中的每個情感 特征向量之間的相似度進(jìn)一步包括以下步驟
采用余弦評估公式計算兩個情感特征向量之間的距離,公式如下
權(quán)利要求
1.一種視頻檢索方法,其特征在于,包括以下步驟A、將視頻片段存儲在視頻數(shù)據(jù)庫中,并提取每個視頻片段對應(yīng)的情感特征向量存儲在 特征數(shù)據(jù)庫中;B、輸入待檢索視頻片段,并提取所述待檢索視頻片段的情感特征向量;C、將所述待檢索視頻片段的情感特征向量與特征數(shù)據(jù)庫中的每個情感特征向量進(jìn)行 匹配,計算兩者之間的相似度,并對相似度進(jìn)行排序,選取預(yù)設(shè)數(shù)量的相似度最大的視頻片 段;D、將選取出來的視頻片段作為檢索結(jié)果輸出。
2.根據(jù)權(quán)利要求1所述的一種視頻檢索方法,其特征在于,步驟A和步驟B中,提取視 頻片段的情感特征向量進(jìn)一步包括以下步驟對視頻片段從語義層分割成場景; 從每個場景中提取關(guān)鍵幀;提取場景中每個關(guān)鍵幀的情感特征向量,對場景中所有關(guān)鍵幀的情感特征向量求均 值,獲得場景的情感特征向量;對視頻片段中所有場景的情感特征向量求均值,獲得視頻片段的情感特征向量。
3.根據(jù)權(quán)利要求2所述的一種視頻檢索方法,其特征在于,提取關(guān)鍵幀的情感特征向 量進(jìn)一步包括以下步驟提取關(guān)鍵幀的底層特征向量; 定義關(guān)鍵幀語義層的情感特征向量;利用模糊集建立底層特征向量和情感特征向量之間的模糊關(guān)系矩陣; 根據(jù)底層特征向量獲得關(guān)鍵幀語義層的情感特征向量。
4.根據(jù)權(quán)利要求3所述的一種視頻檢索方法,其特征在于,底層特征向量包括亮度、飽 和度、鏡頭切換速度和顏色能量,情感特征向量包括悲傷、高興、恐懼。
5.根據(jù)權(quán)利要求1所述的一種視頻檢索方法,其特征在于,步驟C中,計算所述待檢索 視頻片段的情感特征向量與特征數(shù)據(jù)庫中的每個情感特征向量之間的相似度進(jìn)一步包括 以下步驟采用余弦評估公式計算兩個情感特征向量之間的距離,公式如下Σ、*兄DLS (X3T) = Cos (XjF) = —-_,其中,X和Y分別表示進(jìn)行比較的情感特征向量,χ 和兄分別表示情感特征向量的第·個元素,.為正整數(shù),iV^o: Y)ιI表示兩個情感特征向量之間的距離;再采用以下公式計算兩個情感特征向量之間的相似度SIM(X^Y) 二 1 - DJS(X^T),其中,χ和Y分別表示進(jìn)行比較的情感特征向量,SIM(X,Y)表示兩個情感特征向量之間的相似度。
6.根據(jù)權(quán)利要求1所述的一種視頻檢索方法,其特征在于,步驟C中,預(yù)設(shè)數(shù)量是10。
7.一種視頻檢索系統(tǒng),其特征在于,包括查詢接口單元、相似度匹配單元、數(shù)據(jù)庫單元、 情感特征向量生成單元和數(shù)據(jù)庫更新單元,數(shù)據(jù)庫單元進(jìn)一步包括視頻數(shù)據(jù)庫和特征數(shù)據(jù) 庫,查詢接口單元分別與情感特征向量生成單元、相似度匹配單元和數(shù)據(jù)庫單元連接,數(shù)據(jù) 庫單元分別與查詢接口單元、相似度匹配單元和數(shù)據(jù)庫更新單元連接,數(shù)據(jù)庫更新單元與 情感特征向量生成單元,其中,查詢接口單元用于輸入待檢索視頻片段給情感特征向量生成單元,接收情感特征向量 生成單元返回的待檢索視頻片段的情感特征向量,發(fā)送給相似度匹配單元,并接收數(shù)據(jù)庫 單元發(fā)送的作為檢索結(jié)果的視頻片段;相似度匹配單元用于接收查詢接口單元發(fā)送的待檢索視頻片段的情感特征向量和數(shù) 據(jù)庫單元發(fā)送的所有視頻片段的情感特征向量,并計算兩者之間的相似度,對相似度進(jìn)行 排序,將結(jié)果發(fā)送給數(shù)據(jù)庫單元;數(shù)據(jù)庫單元的視頻數(shù)據(jù)庫用于存儲數(shù)據(jù)庫更新單元發(fā)送的視頻片段,并根據(jù)相似度匹 配單元發(fā)來的結(jié)果,將對應(yīng)的視頻片段發(fā)送給查詢接口單元,數(shù)據(jù)庫單元的特征數(shù)據(jù)庫用 于存儲數(shù)據(jù)庫更新單元發(fā)送的視頻片段對應(yīng)的情感特征向量,并發(fā)送給相似度匹配單元;情感特征向量生成單元用于接收數(shù)據(jù)庫更新單元發(fā)來的視頻片段,提取視頻片段的情 感特征向量返還給數(shù)據(jù)庫更新單元,并接收查詢接口單元發(fā)來的視頻片段,提取視頻片段 的情感特征向量返還給查詢接口單元;數(shù)據(jù)庫更新單元用于發(fā)送視頻片段給情感特征向量生成單元,從情感特征向量生成單 元接收視頻片段的情感特征向量,并將視頻片段和與其對應(yīng)的情感特征向量發(fā)送給數(shù)據(jù)庫 單元。
全文摘要
本發(fā)明公開了一種視頻檢索方法和系統(tǒng),將視頻片段存儲在視頻數(shù)據(jù)庫中,并提取每個視頻片段對應(yīng)的情感特征向量存儲在特征數(shù)據(jù)庫中;輸入待檢索視頻片段,并提取所述待檢索視頻片段的情感特征向量;將所述待檢索視頻片段的情感特征向量與特征數(shù)據(jù)庫中的每個情感特征向量進(jìn)行匹配,計算兩者之間的相似度,并對相似度進(jìn)行排序,選取預(yù)設(shè)數(shù)量的相似度最大的視頻片段;將選取出來的視頻片段作為檢索結(jié)果輸出。采用了本發(fā)明的技術(shù)方案,能夠解決視頻片段情感特征提取和視頻內(nèi)容相似度匹配的問題,實現(xiàn)通過高層語義進(jìn)行視頻內(nèi)容的檢索。
文檔編號G06F17/30GK102117313SQ20101061019
公開日2011年7月6日 申請日期2010年12月29日 優(yōu)先權(quán)日2010年12月29日
發(fā)明者趙百泉 申請人:天脈聚源(北京)傳媒科技有限公司