本發(fā)明屬于視頻檢索和機器學習領域,具體的說是一種基于隨機多視角哈希的大規(guī)模近重復視頻檢索方法。
背景技術(shù):
:在互聯(lián)網(wǎng)高度發(fā)達的21世紀,大量的視頻相關(guān)的應用和服務不斷的涌現(xiàn)在互聯(lián)網(wǎng)上,如視頻分享、視頻推薦和視頻廣播等,互聯(lián)網(wǎng)上充斥著海量的視頻數(shù)據(jù)并呈現(xiàn)高速增長的趨勢。豐富的視頻內(nèi)容越來越吸引著網(wǎng)絡用戶去編輯、上傳、下載和搜索各種各樣的視頻。據(jù)comScore公司報道,僅2014年8月電腦用戶就瀏覽了近3000億段視頻,平均每個用戶瀏覽202段,合計952分鐘。研究表明,在量如此巨大的視頻中存在著大量的潛在的內(nèi)容近重復的視頻。因此,對于例如版權(quán)保護、視頻推薦和冗余去除等現(xiàn)實的問題,如何檢索和去除這些近重復視頻正吸引著大量的研究。由于視頻內(nèi)容的豐富和復雜的特性,大多數(shù)的近重復視頻檢索方法采用如下三個步驟:首先,通過時間間隔采樣或片段邊界提取的方法來提取視頻的關(guān)鍵幀;其次,提取關(guān)鍵幀的低級別特征信息;最后,通過關(guān)鍵幀的特征信息來計算視頻的差異,實現(xiàn)視頻檢索的功能。目前,一些采用完全比較每對視頻之間所有關(guān)鍵幀之間的差異,然后計算其相似關(guān)鍵幀對的比例來決定是否為近重復視頻的方法取得了較好的檢索效果,但是其檢索速度遠不能滿足工程上的要求。而一些通過生成視頻內(nèi)容標簽的算法速度上較快,但是效果仍有待進步。還有一些采用如樹、哈希等檢索結(jié)構(gòu)的算法,雖然有克服上面兩種方法的缺陷,但是在檢索準確性和可擴展性上仍有限制,并且大多數(shù)都只能利用關(guān)鍵幀的單一特征信息,如全局特征或者局部特征。因此,目前的方法在工程應用上還有很大的進步空間。技術(shù)實現(xiàn)要素:本發(fā)明為解決上述現(xiàn)有技術(shù)中存在的不足之處,提出一種基于隨機多視角哈希的大規(guī)模近重復視頻檢索方法,以期能利用視頻多視角的特征信息,并通過哈希映射來提高檢索效率和準確性,從而實現(xiàn)大規(guī)模的近重復視頻的快速檢索。本發(fā)明為解決技術(shù)問題采用如下技術(shù)方案:本發(fā)明一種基于隨機多視角哈希的大規(guī)模近重復視頻檢索方法的特點是按如下步驟進行:步驟一、訓練階段:步驟1、對數(shù)據(jù)集中的V段視頻采用時間間隔采樣的方法提取關(guān)鍵幀,從而獲得n幀關(guān)鍵幀;步驟2、提取n幀關(guān)鍵幀的HSV顏色直方圖特征矩陣和LBP局部二值模式特征矩陣表示所述HSV顏色直方圖特征矩陣X(1)中第i行第j列元素;表示所述LBP局部二值模式特征矩陣X(2)中第i行第j列元素;所述HSV顏色直方圖特征矩陣X(1)的大小為n×d1,其中,d1為所述HSV顏色直方圖特征的量化級數(shù);所述LBP局部二值模式特征矩陣X(2)的大小為n×d2,其中,d2為所述LBP局部二值模式特征的維度;所述HSV顏色直方圖特征矩陣X(1)中第i行行向量表示第i幀關(guān)鍵幀所對應的特征向量;所述LBP局部二值模式特征矩陣X(2)中第i行行向量表示第i幀關(guān)鍵幀所對應的特征向量;令X(g)表示任一特征矩陣,其中,g=1表示HSV顏色直方圖特征矩陣;g=2表示LBP局部二值模式特征矩陣;步驟3、生成所述n幀關(guān)鍵幀中任一關(guān)鍵幀所對應的s位哈希碼;步驟3.1、利用式(1)對第i幀關(guān)鍵幀所對應的特征向量進行線性映射,得到第i行特征向量的第l個線性映射值z~il=Σg=12Σj=1dgxij(g)wjl(g)+bl---(1)]]>式(1)中,為線性映射的第j行第l列結(jié)合系數(shù),bl為第l個偏置參數(shù);步驟3.2、利用sigmoid函數(shù)對所述第i行特征向量的第l個線性映射值進行處理,得到sigmoid函數(shù)映射值zil;從而將線性映射值所在的實數(shù)空間映射為sigmoid函數(shù)映射值所在的準哈??臻g;步驟3.3、對所述sigmoid函數(shù)映射值zil進行閾值化處理,判斷zil>0.5是否成立,若成立,則令hil為1,否則令hil為0;從而獲得第i幀關(guān)鍵幀的哈希碼序列hi=[hi1,hi2,…,hil,…,his];hil表示第i幀關(guān)鍵幀的第l位哈希碼;步驟4、在所述HSV顏色直方圖特征矩陣和所述LBP局部二值模式特征矩陣中,利用高斯模型分別計算在給定第i幀關(guān)鍵幀時,第j幀關(guān)鍵幀與所述第i幀關(guān)鍵幀的相似程度的條件概率且令從而獲得n幀關(guān)鍵幀之間的條件概率矩陣為步驟5、判斷第i幀關(guān)鍵幀與第j幀關(guān)鍵幀是否屬于同一視頻,若屬于,則令第i幀關(guān)鍵幀與第j幀關(guān)鍵幀的所屬關(guān)系否則令從而獲得n幀關(guān)鍵幀之間的所屬關(guān)系矩陣判斷第i幀關(guān)鍵幀與第j幀關(guān)鍵幀在數(shù)據(jù)集真值表中是否為近重復視頻,若是,則令第i幀關(guān)鍵幀與第j幀關(guān)鍵幀的監(jiān)督關(guān)系否則,令從而獲得n幀關(guān)鍵幀之間的監(jiān)督關(guān)系矩陣步驟6、利用式(2)計算得到n幀關(guān)鍵幀之間相似程度的概率矩陣P,并進行歸一化處理,得到歸一化后的概率矩陣P=Σg=12αgP(g)+βP(V)+γP(S)---(2)]]>式(2)中,表示條件概率矩陣系數(shù);β表示所屬關(guān)系矩陣系數(shù);γ表示監(jiān)督關(guān)系矩陣系數(shù);且系數(shù)β、γ均大于0且小于1,系數(shù)β、γ之和為1;步驟7、在所述準哈??臻g中,利用方差為1的高斯模型計算n幀關(guān)鍵幀之間的條件概率矩陣Q;步驟8、利用復合的Kullback-Leibler(KL)散度計算概率矩陣和條件概率矩陣Q之間的差異SKL;步驟9、利用式(3)優(yōu)化目標方程O:minwjl(g),blO=SKL+μ2Σg=12Σl=1sΣj=1dg(wjl(g))2---(3)]]>式(3)中、μ為所設定的正則項系數(shù);步驟10、采用標準的梯度下降算法優(yōu)化第j行第l列結(jié)合系數(shù)以及第l個偏置參數(shù)bl;步驟11、利用優(yōu)化后的第j行第l列結(jié)合系數(shù)以及第l個偏置參數(shù)bl,并按照步驟1至步驟3對所述數(shù)據(jù)集中的所有視頻進行處理,得到所有視頻的關(guān)鍵幀的s位哈希碼序列;步驟12、利用式(4)計算獲得所有視頻中任一視頻的s位哈希碼序列中第e位哈希碼h~e=T(1|Ind|Σy∈Indhye)---(4)]]>式(4)中,Ind表示任一視頻的關(guān)鍵幀集合,|Ind|表示任一視頻的關(guān)鍵幀集合Ind的勢;hye表示任一視頻中第y幀關(guān)鍵幀的第e位哈希碼;步驟二、檢索階段:步驟13、在所有視頻中選定一個待檢索視頻,并利用漢明距離來衡量所述待檢索視頻與所有其他視頻的s位哈希碼序列之間的差異,從而根據(jù)待檢索視頻與其他視頻之間的差異大小來判斷是否為近重復視頻。與已有技術(shù)相比,本發(fā)明有益效果體現(xiàn)在:1,本發(fā)明提出了一種新的基于多視角的哈希方法,采用了基于隨機多視角的哈希方法來表示視頻,利用了視頻全局的HSV顏色直方圖內(nèi)容信息和局部的LBP局部二值模式內(nèi)容信息,并結(jié)合了視頻的關(guān)鍵幀之間的所屬關(guān)系信息和監(jiān)督關(guān)系信息,最后通過快速的漢明距離來檢索近重復的視頻,從而達到了實時檢索效果,實驗表明多特征信息能夠更準確的表達一段視頻的內(nèi)容。2,本發(fā)明設計的哈希方法是一種隨機的多視角的哈希方法,該方法不僅利用了視頻的多特征信息,還利用了視頻關(guān)鍵幀的所屬關(guān)系信息和監(jiān)督關(guān)系信息來構(gòu)建視頻關(guān)鍵幀的概率空間模型。本發(fā)明的哈希函數(shù)為線性映射和sigmoid函數(shù)相結(jié)合的混合函數(shù),該設計的函數(shù)優(yōu)于傳統(tǒng)的線性函數(shù),能夠?qū)⑸傻臏使4a非線性的接近于0或1,準哈希碼代替哈希碼的方法能夠很好的避免了優(yōu)化過程中的非確定性多項式(NP-hard)問題。最后通過一個新穎的復合Kullback-Leibler(KL)散度來衡量準哈希空間和原始空間的概率模型的差異,從而得到了更準確可靠的哈希映射函數(shù)。3,本發(fā)明的優(yōu)化算法采用簡單有效的標準梯度下降算法,訓練過程簡單明了,訓練出的哈希函數(shù)可以直接應用于新的視頻,很好的解決了可擴展性問題。檢索過程采用快速的漢明距離度量,檢索速度可以達到實時檢索級別,可獲得良好的用戶體驗。具體實施方式本實施例中的方法,是首先通過時間間隔采樣的方法提取視頻關(guān)鍵幀,并提取關(guān)鍵幀的顏色直方圖HSV特征和局部二值模式LBP特征;然后,通過線性映射和sigmoid函數(shù)將顏色直方圖HSV特征和局部二值模式LBP特征映射到準哈希空間,并通過閾值化處理生成的準哈希碼來獲得最終代表視頻的哈希碼;最后,分別在特征空間和準哈希空間計算關(guān)鍵幀間的高斯條件概率,通過一種復合的Kullback-Leibler(KL)散度來衡量兩個條件概率模型的一致性,并采用標準的梯度下降法來優(yōu)化哈希函數(shù)的結(jié)合系數(shù)和偏置參數(shù)。哈希函數(shù)的參數(shù)訓練完畢后,每個視頻將會由一串二進制的哈希碼表示,快速的漢明距離度量可以用來計算視頻之間的差異性。具體的說,近重復視頻檢索是按如下步驟進行:步驟一、訓練階段:步驟1、對數(shù)據(jù)集中的V段視頻采用時間間隔采樣的方法提取關(guān)鍵幀,從而獲得n幀關(guān)鍵幀;訓練過程可以隨機選取V段視頻作為訓練數(shù)據(jù),如在數(shù)據(jù)集分類明確的視頻中選取240段視頻,在未分類的視頻中選取120段視頻,共計選取V=360段視頻;關(guān)鍵幀提取的時間間隔可以選擇1秒,即每秒提取一幀作為關(guān)鍵幀;步驟2、提取n幀關(guān)鍵幀的HSV顏色直方圖特征矩陣和LBP局部二值模式特征矩陣表示HSV顏色直方圖特征矩陣X(1)中第i行第j列元素;表示LBP局部二值模式特征矩陣X(2)中第i行第j列元素;HSV顏色直方圖特征矩陣X(1)的大小為n×d1,其中,d1為HSV顏色直方圖特征的量化級數(shù);LBP局部二值模式特征矩陣X(2)的大小為n×d2,其中,d2為LBP局部二值模式特征的維度;HSV顏色直方圖特征矩陣X(1)中第i行行向量表示第i幀關(guān)鍵幀所對應的特征向量;LBP局部二值模式特征矩陣X(2)中第i行行向量表示第i幀關(guān)鍵幀所對應的特征向量;令X(g)表示任一特征矩陣,其中,g=1表示HSV顏色直方圖特征矩陣;g=2表示LBP局部二值模式特征矩陣;提取HSV顏色直方圖特征可以采用非均勻量化的方法,例如,H(色調(diào))、S(飽和度)、V(明度)三個分量的量化級數(shù)分別選擇18、3、3,共162級,即d1=162;LBP算子的窗口大小可以采用原始的3×3,因此像素位置關(guān)系共有256種,也即d2=256;步驟3、生成n幀關(guān)鍵幀中任一關(guān)鍵幀所對應的s位哈希碼;該步驟包含的三個子步驟也是設計了本算法的哈希函數(shù),該哈希函數(shù)由步驟3.1中的線性映射、步驟3.2中的sigmoid函數(shù)和步驟3.3中的閾值化處理組合而成;步驟3.1、利用式(1)對第i幀關(guān)鍵幀所對應的特征向量進行線性映射,得到第i行特征向量的第l個線性映射值z~il=Σg=12Σj=1dgxij(g)wjl(g)+bl---(1)]]>式(1)中,為線性映射的第j行第l列結(jié)合系數(shù),bl為第l個偏置參數(shù);步驟3.2、利用sigmoid函數(shù)對第i行特征向量的第l個線性映射值進行處理,得到sigmoid函數(shù)映射值zil;從而將線性映射值所在的實數(shù)空間映射為sigmoid函數(shù)映射值所在的準哈希空間;步驟3.3、對sigmoid函數(shù)映射值zil進行閾值化處理,判斷zil>0.5是否成立,若成立,則令hil為1,否則令hil為0;從而獲得第i幀關(guān)鍵幀的哈希碼序列hi=[hi1,hi2,…,hil,…,his];hil表示第i幀關(guān)鍵幀的第l位哈希碼;此處的哈希碼也是0/1二進制碼,這樣在計算機存儲中可以大大減少存儲空間的大??;步驟4、在HSV顏色直方圖特征矩陣和LBP局部二值模式特征矩陣中,利用高斯模型分別計算在給定第i幀關(guān)鍵幀時,第j幀關(guān)鍵幀與第i幀關(guān)鍵幀的相似程度的條件概率且令從而獲得n幀關(guān)鍵幀之間的條件概率矩陣為此處的高斯模型可以參考《StochasticNeighborEmbedding》文章中的高維空間條件概率求解公式去求解,如該模型的方差可以通過二分查找法去搜索能夠使得條件概率分布的信息熵接近或者等于最大信息熵的值;步驟5、判斷第i幀關(guān)鍵幀與第j幀關(guān)鍵幀是否屬于同一視頻,若屬于,則令第i幀關(guān)鍵幀與第j幀關(guān)鍵幀的所屬關(guān)系否則令從而獲得n幀關(guān)鍵幀之間的所屬關(guān)系矩陣判斷第i幀關(guān)鍵幀與第j幀關(guān)鍵幀在數(shù)據(jù)集真值表中是否為近重復視頻,若是,則令第i幀關(guān)鍵幀與第j幀關(guān)鍵幀的監(jiān)督關(guān)系否則,令從而獲得n幀關(guān)鍵幀之間的監(jiān)督關(guān)系矩陣步驟6、利用式(2)計算得到n幀關(guān)鍵幀之間相似程度的概率矩陣P,并進行歸一化處理,得到歸一化后的概率矩陣P=Σg=12αgP(g)+βP(V)+γP(S)---(2)]]>式(2)中,表示條件概率矩陣系數(shù);β表示所屬關(guān)系矩陣系數(shù);γ表示監(jiān)督關(guān)系矩陣系數(shù);且系數(shù)β、γ均大于0且小于1,系數(shù)β、γ之和為1;對概率矩陣P進行歸一化處理可以使得概率矩陣P的行向量滿足KL散度計算的要求;公式(2)中的系數(shù)β、γ可以人為設定,本發(fā)明提供的參考值為:α1=0.4、α2=0.3、β=0.01、γ=0.29;步驟7、在準哈??臻g中,利用方差為1的高斯模型計算n幀關(guān)鍵幀之間的條件概率矩陣Q;準哈希空間為關(guān)鍵幀的HSV顏色直方圖特征和LBP局部二值模式特征所在的空間通過線性映射和sigmoid函數(shù)處理后生成的空間,為了使得步驟8中的優(yōu)化目標函數(shù)平滑可導,方便求解運算,這里采用了準哈希空間來代替真正的哈??臻g,最后可以通過步驟3.3的閾值化處理將生成的準哈希碼變換成真正的哈希碼;準哈??臻g中的n幀關(guān)鍵幀之間的條件概率矩陣Q的計算可以參考文章《VisualizingDatausingt-SNE》中第二章第二個公式;步驟8、利用復合的Kullback-Leibler(KL)散度計算概率矩陣和條件概率矩陣Q之間的差異SKL;復合的Kullback-Leibler(KL)散度可以參考文章《Informationretrievalperspectivetononlineardimensionalityreductionfordatavisualization》中的公式4;步驟9、利用式(3)優(yōu)化目標方程O:minwjl(g),blO=SKL+μ2Σg=12Σl=1sΣj=1dg(wjl(g))2---(3)]]>式(3)中、μ為所設定的正則項系數(shù);μ的參考值為0.01;步驟10、采用標準的梯度下降算法優(yōu)化第j行第l列結(jié)合系數(shù)以及第l個偏置參數(shù)bl;標準梯度下降算法中的各個參數(shù)設定可以參考表1;參數(shù)數(shù)值總循環(huán)次數(shù)1200學習速率0.05運動項(循環(huán)次數(shù)小于等于250)0.5運動項(循環(huán)次數(shù)大于250)0.75表1本發(fā)明采用的標準梯度下降算法的各參數(shù)選擇步驟11、利用優(yōu)化后的第j行第l列結(jié)合系數(shù)以及第l個偏置參數(shù)bl,并按照步驟1至步驟3對數(shù)據(jù)集中的所有視頻進行處理,得到所有視頻的關(guān)鍵幀的s位哈希碼序列;步驟12、利用式(4)計算獲得所有視頻中任一視頻的s位哈希碼序列中第e位哈希碼h~e=T(1|Ind|Σy∈Indhye)---(4)]]>式(4)中,Ind表示任一視頻的關(guān)鍵幀集合,|Ind|表示任一視頻的關(guān)鍵幀集合Ind的勢;hye表示任一視頻中第y幀關(guān)鍵幀的第e位哈希碼;步驟二、檢索階段:步驟13、在所有視頻中選定一個待檢索視頻,并利用漢明距離來衡量待檢索視頻與所有其他視頻的s位哈希碼序列之間的差異,從而根據(jù)待檢索視頻與其他視頻之間的差異大小來判斷是否為近重復視頻。漢明距離度量通過簡單的異或操作能夠快速的計算哈希碼序列間的距離;最后檢索結(jié)果可以按照距離的從小到大排列呈現(xiàn)給用戶;表2給出了本發(fā)明在兩個常用的近重復視頻檢索公共數(shù)據(jù)集上的檢索準確率,結(jié)果表明本發(fā)明能夠達到很好的檢索效果。數(shù)據(jù)集平均準確率(MAP)CC_WEB_VIDEO97.1%UQ_VIDEO88.8%表2本發(fā)明在CC_WEB_VIDEO和UQ_VIDEO數(shù)據(jù)集上檢索的平均準確率。當前第1頁1 2 3