一種基于倒排索引的粗細(xì)粒度視頻檢索方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于視頻檢索領(lǐng)域,更為具體地講,涉及一種基于倒排索引的粗細(xì)粒度視 頻檢索方法。
【背景技術(shù)】
[0002] 隨著多媒體技術(shù)與網(wǎng)絡(luò)技術(shù)的快速發(fā)展,數(shù)字視頻的數(shù)量在互聯(lián)網(wǎng)上呈現(xiàn)爆炸式 的增長。如何在浩瀚的視頻資源中快速準(zhǔn)確地搜索到目標(biāo)視頻是目前互聯(lián)網(wǎng)視頻安全監(jiān)管 以及檢索亟待解決的技術(shù)難題。因此,不少研宄人員在視頻識(shí)別與檢索技術(shù)上投入了大量 精力,而在眾多解決方案中,視頻指紋成為近年來相關(guān)技術(shù)的研宄重點(diǎn)。
[0003] 視頻指紋按照應(yīng)用范圍可以分為嵌入式指紋和非嵌入式指紋。嵌入式指紋技術(shù)將 與視頻內(nèi)容相關(guān)的指紋信息嵌入到數(shù)字視頻產(chǎn)品內(nèi)作為版權(quán)標(biāo)識(shí),主要應(yīng)用于版權(quán)保護(hù)領(lǐng) 域。而非嵌入視頻指紋技術(shù)通過提取視頻內(nèi)容的特征信息,并基于特征信息計(jì)算得到一組 與視頻內(nèi)容唯一對(duì)應(yīng)并且能唯一標(biāo)識(shí)視頻的數(shù)字序列,最后通過視頻指紋的比對(duì)檢索實(shí)現(xiàn) 視頻的檢索。由于非嵌入式指紋與視頻內(nèi)容緊密相關(guān)并且檢索方式更為簡(jiǎn)單高效,因此主 要應(yīng)用于主要應(yīng)用于視頻安全監(jiān)控和內(nèi)容檢索領(lǐng)域。
[0004] 在現(xiàn)有技術(shù)中,基于低方差的近似字符串視頻指紋序列匹配算法,該算法通過改 進(jìn)原有字符串匹配算法以獲得更低的方差,在一定程度上提高了匹配的準(zhǔn)確度而不會(huì)增加 算法復(fù)雜度;基于假設(shè)檢驗(yàn)的視頻拷貝檢測(cè)算法,該算法利用概率學(xué)中的假設(shè)檢驗(yàn)思想對(duì) 相似視頻和非相似視頻進(jìn)行區(qū)分,拷貝后的視頻與原視頻通過算法計(jì)算后會(huì)有很大概率被 劃分為同一類,這樣就能確定視頻是否經(jīng)過非法拷貝,從而起到保護(hù)版權(quán)的作用。此算法的 開銷較低,但是魯棒性較差,若視頻受到亮度改變,剪切,縮放等攻擊后將很大程度影響算 法準(zhǔn)確度;基于DNA序列比對(duì)算法的視頻指紋比對(duì)算法,該算法將視頻指紋比作類似于生 物學(xué)中DNA的視頻基因,并利用生物學(xué)中序列分析方法FASTA算法對(duì)視頻指紋進(jìn)行分析,由 于FASTA算法在兩兩比對(duì)的過程中涉及到回溯,算法開銷較大,其時(shí)間效率無法滿足實(shí)時(shí) 性的要求;一種利用視覺詞袋模型對(duì)視頻內(nèi)容進(jìn)行建模與匹配的方法,該算法通過量化后 的視頻特征構(gòu)建視覺詞典,將視頻鏡頭表示成若干視覺關(guān)鍵詞集合,在此基礎(chǔ)上構(gòu)建鏡頭 關(guān)鍵詞詞組的倒排索引,用于視頻的檢索匹配。該算法有效壓縮了視頻表達(dá),并通過倒排索 引提尚了檢索的效率,但檢索準(zhǔn)確度還有待提尚。
[0005] 從以上研宄可以看出,大多數(shù)對(duì)視頻指紋檢索匹配算法的探宄主要集中在算法的 魯棒性以及準(zhǔn)確度上,而實(shí)時(shí)性上還有待提高;也有少數(shù)研宄方向集中在提高算法的檢索 速度,但同時(shí)也犧牲了檢索的準(zhǔn)確度。而面向互聯(lián)網(wǎng)視頻安全監(jiān)控的視頻檢索不僅要求檢 索速度具有一定的實(shí)時(shí)性,還需要檢索結(jié)果具有較高的準(zhǔn)確度和魯棒性,因此,本發(fā)明為了 有效地平衡檢索的實(shí)時(shí)性與準(zhǔn)確性,提出了基于非嵌入式視頻指紋的視頻檢索方式,并借 鑒倒排索引和生物序列分析的思想,實(shí)現(xiàn)對(duì)視頻的快速而準(zhǔn)確地檢索。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,提供一種基于倒排索引的粗細(xì)粒度視頻 檢索方法,在有效地平衡檢索的實(shí)時(shí)性與準(zhǔn)確性下,實(shí)現(xiàn)對(duì)視頻的快速而準(zhǔn)確地檢索。
[0007] 為實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明基于倒排索引的粗細(xì)粒度視頻檢索方法,其特征在 于,包括以下步驟:
[0008] (1)、對(duì)整個(gè)視頻庫構(gòu)建倒排索引文件
[0009] (1. 1)、設(shè)視頻庫中存放有N條視頻;利用鏡頭分割技術(shù)對(duì)第一條視頻進(jìn)行關(guān)鍵幀 提取,再通過SURF算法提取該條視頻關(guān)鍵幀中的特征點(diǎn);
[0010] (1. 2)、利用預(yù)先訓(xùn)練的視覺詞典對(duì)所有特征點(diǎn)進(jìn)行分類處理:計(jì)算每個(gè)特征點(diǎn)與 視覺詞典中所有詞匯的歐氏距離,將每個(gè)特征點(diǎn)劃分到歐氏距離最小的詞匯中,再統(tǒng)計(jì)每 個(gè)詞匯類別中特征點(diǎn)個(gè)數(shù),并將特征點(diǎn)個(gè)數(shù)作為該詞匯在視頻中出現(xiàn)的頻率;
[0011] (1. 3)、統(tǒng)計(jì)出視覺詞典中所有詞匯在視頻中出現(xiàn)的頻率,提取頻率最高的k個(gè)詞 匯作為視頻的關(guān)鍵視覺詞匯,并存入到倒排索引文件的詞匯表中,同時(shí)將這k個(gè)詞匯對(duì)應(yīng) 的視頻信息存入到倒排索引文件的倒排列表中;
[0012] (1. 4)、按照步驟(1. 1)~步驟(1. 3)所述的方法,繼續(xù)對(duì)視頻庫中的下一條視頻 進(jìn)行處理,直到第N條視頻,從而對(duì)整個(gè)視頻庫構(gòu)建出完整的倒排索引文件;
[0013] (2)、視頻檢索
[0014] (2. 1)、基于倒排索引文件的視頻粗粒度檢索
[0015] (2. 1. 1)、按照步驟(1. 1)~步驟(1. 3)所述的方法提取待檢索視頻q的k個(gè)關(guān)鍵 視覺詞匯;
[0016] (2. 1. 2)、利用這k個(gè)關(guān)鍵視覺詞匯在倒排索引文件中進(jìn)行查找,找到與這k個(gè)詞 匯匹配的所有視頻,并將找到的視頻依次標(biāo)記為視頻h,i = 1,2,…,n,n表示找到的視頻 總個(gè)數(shù);
[0017] (2. 2)、基于改進(jìn)的BLAST算法的視頻細(xì)粒度檢索
[0018] (2. 2. 1)、設(shè)置窗口滑動(dòng)步長N ;
[0019] (2. 2. 2)、對(duì)待檢索的視頻q和視頻匕進(jìn)行窗口值計(jì)算
[0020] 設(shè)置一滑動(dòng)窗口,滑動(dòng)窗口的起始位置為視頻比的第一位,即滑動(dòng)窗口第一位在 視頻h的第一位上,將該滑動(dòng)窗口分別在待檢索的視頻q以及視頻h i上從起始位置向后滑 動(dòng)至末尾,每次滑動(dòng)的長度為窗口滑動(dòng)步長N,并計(jì)算出每次滑動(dòng)時(shí),滑動(dòng)窗口所覆蓋的二 進(jìn)制序列的值作為窗口值,并依次排列,構(gòu)成窗口值序列;
[0021] (2. 2. 3)、比對(duì)待檢索的視頻q與視頻比的窗口值;
[0022] 將視頻比與待檢索視頻q的窗口值序列的位置點(diǎn)同時(shí)從第一位依次向后移動(dòng),直 到位置點(diǎn)前出現(xiàn)相同的窗口值為止,以視頻匕、待檢索視頻q窗口值相同的位置點(diǎn)為基準(zhǔn)即 對(duì)齊,比對(duì)視頻匕、待檢索視頻q該位置點(diǎn)前后的所有窗口值,并統(tǒng)計(jì)相似度,將視頻指紋比 以及相似度作為檢索結(jié)果返回。
[0023] 本發(fā)明的發(fā)明目的是這樣實(shí)現(xiàn)的:
[0024] 本發(fā)明基于倒排索引的粗細(xì)粒度視頻檢索方法,通過分層分粒度的檢索方式對(duì)視 頻進(jìn)行檢索比對(duì)。首先利用倒排索引算法對(duì)視頻數(shù)據(jù)庫中的所有視頻建立倒排索引表,再 在檢索階段通過倒排索引技術(shù)計(jì)算獲得相應(yīng)的候選視頻集以此縮小精確查找范圍,完成粗 粒度的查找,有效的降低了視頻檢索的時(shí)間開銷;其次,基于改進(jìn)的BLAST算法進(jìn)行視頻細(xì) 粒度檢索,從而在視頻數(shù)據(jù)庫中快速找到與待檢索的視頻相匹配的視頻,通過對(duì)待檢索視 頻和查找視頻的相似度統(tǒng)計(jì),進(jìn)而得到檢索結(jié)果,具有視頻查找快速、準(zhǔn)確和實(shí)時(shí)等特點(diǎn)。
【附圖說明】
[0025] 圖1是本發(fā)明基于倒排索引的粗細(xì)粒度視頻檢索的原理框圖;
[0026] 圖2是本發(fā)明基于倒排索引的粗細(xì)粒度視頻檢索方法的流程圖;
[0027] 圖3是利用鏡頭分割技術(shù)提取關(guān)鍵幀的示意圖;
[0028] 圖4是提取關(guān)鍵幀中的特征點(diǎn)不意圖;
[0029] 圖5是視覺詞典中所有詞匯在視頻中出現(xiàn)的頻率示意圖。
【具體實(shí)施方式】
[0030] 下面結(jié)合附圖對(duì)本發(fā)明的【具體實(shí)施方式】進(jìn)行描述,以便本領(lǐng)域的技術(shù)人員更好地 理解本發(fā)明。需要特別提醒注意的是,在以下的描述中,當(dāng)已知功能和設(shè)計(jì)的詳細(xì)描述也許 會(huì)淡化本發(fā)明的主要內(nèi)容時(shí),這些描述在這里將被忽略。
[0031] 實(shí)施例
[0032] 圖1是本發(fā)明基于倒排索引的粗細(xì)粒度視頻檢索的原理框圖。
[0033] 在本實(shí)施例中,如圖1所示,本發(fā)明基于倒排索引的粗細(xì)粒度視頻檢索方法,主要 包括建立索引階段和視頻檢索階段,如圖2所示,其具體步驟如下:
[0034] T1、建立索引階段
[0035](1)、基于倒排索引的視頻粗粒度檢索
[0036] (Tl. 1)、對(duì)整個(gè)視頻庫構(gòu)建倒排索引文件
[0037](Tl. 1. 1)、設(shè)視頻庫中存放有N條視頻;利用鏡頭分割技術(shù)對(duì)第一條視頻進(jìn)行關(guān) 鍵幀提?。辉O(shè)視頻庫中存放有N條視頻;利用鏡頭分割技術(shù)對(duì)第一條視頻進(jìn)行關(guān)鍵幀提取, 如圖3所示;
[0038](Tl. 1. 2)、采用SURF算法對(duì)關(guān)鍵幀中的特征點(diǎn)進(jìn)行提取,在本實(shí)施例中,如圖4所 示,對(duì)該條視頻提取的特征點(diǎn)總數(shù)為5373個(gè);
[0039](Tl. 1. 3)、利用預(yù)先訓(xùn)練的視覺詞典對(duì)所有特征點(diǎn)進(jìn)行分類處理:計(jì)算每個(gè)特征 點(diǎn)與視覺詞典中所有詞匯的歐氏距離,將每個(gè)特征點(diǎn)劃分到歐氏距離最小的詞匯中,再統(tǒng) 計(jì)每個(gè)詞匯類別中特征點(diǎn)個(gè)數(shù),并將特征點(diǎn)個(gè)數(shù)作為該詞匯在視頻中出現(xiàn)的頻率;在本實(shí) 施例中,如圖5所示,對(duì)5373個(gè)特征點(diǎn)進(jìn)行分類處理后,得到所有出現(xiàn)詞匯在視頻中出現(xiàn)的 頻率;
[0040](Tl. 1. 4)、統(tǒng)計(jì)出視覺詞典中所有詞匯在視頻中出現(xiàn)的頻率,提取頻率最高的k =4個(gè)詞匯作為視頻的關(guān)鍵視覺詞匯,并存入到倒排索引文件的詞匯表中,同時(shí)將這k = 4 個(gè)詞匯對(duì)應(yīng)的視頻信息存入到倒排索引文件的倒排列表中;
[0041](Tl. 1. 5)、按照步驟(Tl. 1. 1)~步驟(Tl. 1. 4)所述的方法,繼續(xù)對(duì)視頻庫中的下 一條視頻進(jìn)行處理,直到第N條視頻,從而對(duì)整個(gè)