本發(fā)明涉及視頻處理、分類,具體講,涉及基于流形排序的視頻摘要方法。
背景技術(shù):
隨著信息技術(shù)的快速發(fā)展,圖像和視頻等多媒體數(shù)據(jù)大量涌現(xiàn),成為人們獲取信息的重要途徑之一。然而,由于視頻數(shù)量的劇增,降低了用戶瀏覽的效率,這就需要一種技術(shù)能夠有效地管理視頻數(shù)據(jù),使用戶更加有效地獲取他們想要的信息。視頻摘要定義為一組靜止的或運(yùn)動(dòng)圖片序列,它以一種簡潔的方式將視頻的主要內(nèi)容呈現(xiàn)出來。
目前視頻摘要技術(shù)主要從視頻的冗余性,重要性和覆蓋率三個(gè)方面考慮。冗余性指視頻中存在多余的信息,在提取視頻摘要時(shí)需要設(shè)計(jì)去除視頻冗余信息的方法。重要性指提取視頻摘要時(shí)需要提取視頻的主要內(nèi)容。覆蓋性指設(shè)計(jì)視頻摘要方法時(shí)要考慮提取的關(guān)鍵幀能夠代表視頻的主要內(nèi)容,使視頻摘要盡可能地覆蓋視頻的重要內(nèi)容。
視頻摘要技術(shù)主要有兩種模式:基于關(guān)鍵幀的靜態(tài)視頻摘要和基于視頻梗概的動(dòng)態(tài)視頻摘要。靜態(tài)視頻摘要模式通過一系列的關(guān)鍵幀組成相應(yīng)的語義單元,概括表示鏡頭的內(nèi)容。靜態(tài)視頻摘要生成摘要的速度比較快,表達(dá)形式直觀簡潔。動(dòng)態(tài)視頻摘要模式則是由小視頻片段組成,保持了視頻內(nèi)容隨時(shí)間變化的固有特征,易于用戶的理解。
目前常用的視頻摘要技術(shù)主要有基于聚類的方法,幀間最小相似度的方法,最小重構(gòu)誤差的方法以及基于對(duì)象或事件檢測的方法。其中,基于聚類的視頻摘要把視頻中的幀看作是特征空間中的點(diǎn),把每類中距離聚類中心點(diǎn)最近的點(diǎn)看作關(guān)鍵幀,形成靜態(tài)視頻摘要。由于聚類方法在數(shù)據(jù)分析領(lǐng)域大量使用,研究較為成熟,因此成為了一種常用的視頻摘要方法。此外,聚類方法能夠滿足提取視頻的全局特征,滿足了視頻摘要的覆蓋率標(biāo)準(zhǔn)。但是,這種全局聚類不易對(duì)視頻內(nèi)容的重要性做出判斷,較難滿足重要性標(biāo)準(zhǔn)。另外,由于語義鴻溝的存在,要準(zhǔn)確地實(shí)現(xiàn)有意義的聚類也較為困難。幀間最小相似度的方法目的是使關(guān)鍵幀之間的相似度最小,例如序列決定點(diǎn)過程(sequential determinal point process,seqDPP)相似度方法是其中的一個(gè)代表性方法。它可以用來生成低冗余度的視頻摘要。最小重構(gòu)誤差的方法目的是使原始視頻幀與關(guān)鍵幀插值得到的重構(gòu)誤差最小。基于對(duì)象或事件檢測的方法使用視頻中的語義信息來生成摘要,常用的信息有對(duì)象、動(dòng)作、事件等。例如,對(duì)于體育視頻,可以檢測進(jìn)球,犯規(guī)等重要事件,進(jìn)行排序,組成摘要。
以上方法僅從視頻摘要的某一個(gè)標(biāo)準(zhǔn)出發(fā)(如冗余性標(biāo)準(zhǔn)或重要性標(biāo)準(zhǔn)),而未綜合考慮三個(gè)標(biāo)準(zhǔn),使得視頻摘要的效果并未達(dá)到理想效果。
技術(shù)實(shí)現(xiàn)要素:
為克服現(xiàn)有技術(shù)的不足,本發(fā)明旨在提出一種基于流形排序的視頻摘要方法。由于傳統(tǒng)的視頻摘要方法主要利用歐式距離計(jì)算幀之間的相似性,忽略了視頻的幀間數(shù)據(jù)的內(nèi)在低維流形結(jié)構(gòu)。本發(fā)明利用數(shù)據(jù)之間的內(nèi)在流形結(jié)構(gòu),從數(shù)據(jù)的全局特征計(jì)算數(shù)據(jù)之間的相似性,對(duì)于現(xiàn)實(shí)世界的許多數(shù)據(jù)來講,這種方法明顯優(yōu)于基于數(shù)據(jù)的局部歐氏距離的相似性計(jì)算方法,并同時(shí)結(jié)合視頻的重要性、覆蓋率以及冗余性三個(gè)標(biāo)準(zhǔn),構(gòu)造基于流形排序算法的視頻摘要。本發(fā)明采用的技術(shù)方案是,基于流形排序的視頻摘要方法,首先提取視頻幀的視覺特征,并把視頻幀看作空間中的點(diǎn),然后利用流形排序算法對(duì)數(shù)據(jù)點(diǎn)進(jìn)行排序;流形排序描述為以下過程:首先根據(jù)數(shù)據(jù)構(gòu)造一個(gè)帶權(quán)重的網(wǎng)絡(luò),將一個(gè)正的排序分?jǐn)?shù)分配給與查詢相關(guān)的點(diǎn),將零排序分?jǐn)?shù)分配給剩下的待排序的點(diǎn);然后,所有的點(diǎn)通過權(quán)重網(wǎng)絡(luò)將他們的分?jǐn)?shù)傳遞給與他們鄰近的點(diǎn),重復(fù)這一傳播過程直到整個(gè)網(wǎng)絡(luò)達(dá)到穩(wěn)定狀態(tài),此時(shí)所有的點(diǎn)均獲得他們最后的排序分?jǐn)?shù)。
流形排序的具體過程如下:
給定數(shù)據(jù)點(diǎn)集X={x1,x2,...,xn},xi∈Rm,假定x1作為查詢幀,則其余的幀為待排序的幀,f:X→R表示排序函數(shù),它分配每一個(gè)點(diǎn)xi相應(yīng)的排序值,1≤i≤n,f=[f1,f2,...fn]T,此外,定義每一個(gè)數(shù)據(jù)點(diǎn)的初始排序分?jǐn)?shù)y=[y1,y2,...,yn]T,若第j幀為查詢幀則yj=1,否則yj=0,1≤j≤n,流形排序的代價(jià)函數(shù)如下:
式中,第一項(xiàng)是鄰近點(diǎn)變化成本,是平滑性條件,第二項(xiàng)是初始分?jǐn)?shù)分配變化成本,兩者之間用參數(shù)μ來平衡之間的關(guān)系,其中,Wij=exp(-||xi-xj||2/(2σ2)),i≠j;Wij=0,i=j(luò),D是對(duì)角矩陣,且D中的元素通過排序算法得到近似解為:f*=β(1-αS)-1y,其中α+β=1,S=D-1/2WD-1/2;
其次計(jì)算視頻幀的重要性,首先根據(jù)每一幀與其余各幀之間的相似性權(quán)重Wij,計(jì)算其與視頻的平均相似向量I,并將其歸一化,具體計(jì)算過程如下:
最后,計(jì)算視頻的覆蓋率,具體計(jì)算公式如下:
其中,Cov(S,V)表示摘要集S與原視頻集V的相似性,d(xi,g)表示兩者之間的歐式距離。
本發(fā)明的特點(diǎn)及有益效果是:
本發(fā)明主要是針對(duì)現(xiàn)有的視頻摘要技術(shù)采用的方法主要是在歐式空間計(jì)算視頻幀之間的關(guān)系并沒有考慮視頻數(shù)據(jù)特征之間內(nèi)在的低維流形結(jié)構(gòu)這一特點(diǎn),設(shè)計(jì)適用于視頻數(shù)據(jù)特點(diǎn)的視頻摘要方法,使之在有限的數(shù)據(jù)信息下,充分地利用數(shù)據(jù)的特有性質(zhì)。其優(yōu)勢(shì)主要體現(xiàn)在:
(1)新穎性:首次把流形排序算法引入到視頻摘要技術(shù)中,并在此基礎(chǔ)上消除視頻的冗余信息,不僅考慮視頻的冗余性,而且同時(shí)考慮了視頻幀的重要性和摘要集的覆蓋率等標(biāo)準(zhǔn),設(shè)計(jì)了適用于視頻數(shù)據(jù)特征的摘要方法。
(2)有效性:通過主觀和客觀實(shí)驗(yàn)證明了,與目前的某些視頻摘要方法相比較,本發(fā)明設(shè)計(jì)的基于流形排序的視頻摘要方法性能相對(duì)有所提高,因此更適用于視頻摘要問題中。
(3)實(shí)用性:簡單可行,可以用在多媒體鄰域中的視頻信息管理、視頻預(yù)覽,視頻推薦等相關(guān)的領(lǐng)域。
附圖說明:
圖1是本發(fā)明的基于流形排序算法的視頻摘要技術(shù)的流程圖。
具體實(shí)施方式
本發(fā)明涉及一種面向多媒體信息檢索領(lǐng)域的視頻摘要技術(shù),它針對(duì)多媒體視頻數(shù)據(jù)的冗余性等特點(diǎn),利用視頻數(shù)據(jù)的性質(zhì),對(duì)現(xiàn)有的視頻摘要技術(shù)的不足進(jìn)行了改進(jìn),設(shè)計(jì)適用于視頻數(shù)據(jù)特點(diǎn)的基于流形排序的視頻摘要技術(shù),提高了用戶瀏覽視頻的效率。
本發(fā)明所提供的方法在分析單視頻摘要技術(shù)存在的缺陷的基礎(chǔ)上,引入流形排序算法來計(jì)算視頻幀之間的相關(guān)性,并同時(shí)考慮視頻摘要中的冗余性、重要性和覆蓋率三個(gè)標(biāo)準(zhǔn),設(shè)計(jì)了適用于視頻數(shù)據(jù)結(jié)構(gòu)的視頻摘要技術(shù)。下面將從三個(gè)方面闡述該技術(shù)方案。
為了去除視頻數(shù)據(jù)之間的冗余性,首先提出了視頻幀之間的相關(guān)性測量。流形排序算法是常用的排序算法,它根據(jù)數(shù)據(jù)內(nèi)在的流形結(jié)構(gòu)對(duì)數(shù)據(jù)進(jìn)行排序。在流形排序算法中一般認(rèn)為1)鄰近的點(diǎn)更可能具有相同的排序分?jǐn)?shù);2)點(diǎn)在同一結(jié)構(gòu)中(一般指的是一個(gè)類別或一個(gè)流形)更可能有相同的排序分?jǐn)?shù)?;诖?,流形排序可以簡單地描述為以下過程:首先根據(jù)數(shù)據(jù)構(gòu)造一個(gè)帶權(quán)重的網(wǎng)絡(luò)圖,將一個(gè)正的排序分?jǐn)?shù)分配給與查詢相關(guān)的點(diǎn),將零排序分?jǐn)?shù)分配給剩下的待排序的點(diǎn)。然后,所有的點(diǎn)通過權(quán)重網(wǎng)絡(luò)將他們的分?jǐn)?shù)傳遞給與他們鄰近的點(diǎn),重復(fù)這一傳播過程直到整個(gè)網(wǎng)絡(luò)達(dá)到穩(wěn)定狀態(tài),此時(shí)所有的點(diǎn)均獲得他們最后的排序分?jǐn)?shù)。本發(fā)明首先提取視頻幀的視覺特征,并把視頻幀看作空間中的點(diǎn),然后利用流形排序算法對(duì)數(shù)據(jù)點(diǎn)進(jìn)行排序。流形排序的具體過程如下:
給定數(shù)據(jù)點(diǎn)集X={x1,x2,...,xn},xi∈Rm,假定x1作為查詢幀,則其余的幀為待排序的幀。f:X→R表示排序函數(shù),它分配每一個(gè)點(diǎn)xi(1≤i≤n)相應(yīng)的排序值,f=[f1,f2,...fn]T。此外,本發(fā)明還定義了每一個(gè)數(shù)據(jù)點(diǎn)的初始排序分?jǐn)?shù)y=[y1,y2,...,yn]T,若第j幀為查詢幀則yj=1,否則yj=0,(1≤j≤n)。流形排序的代價(jià)函數(shù)如下:
式中,第一項(xiàng)是鄰近點(diǎn)變化成本,是平滑性條件。第二項(xiàng)是初始分?jǐn)?shù)分配變化成本,兩者之間用參數(shù)μ來平衡之間的關(guān)系。其中,Wij表示在權(quán)重網(wǎng)絡(luò)圖中第i個(gè)點(diǎn)和第j個(gè)點(diǎn)之間的權(quán)重系數(shù),且Wij=exp(-||xi-xj||2/(2σ2)),i≠j;Wij=0,i=j(luò),D是對(duì)角矩陣,且通過排序算法可得到近似解為:f*=β(1-αS)-1y,其中α+β=1,S=D-1/2WD-1/2,W是帶權(quán)重圖的權(quán)重矩陣。
其次計(jì)算視頻幀的重要性。觀察可以發(fā)現(xiàn),一個(gè)視頻中重復(fù)出現(xiàn)的幀,一般認(rèn)為是視頻中的重要內(nèi)容?;诖?,計(jì)算視頻的每幀的重要性。首先根據(jù)每一幀與其余各幀之間的相似性權(quán)重Wij,計(jì)算其與視頻的平均相似向量I,并將其歸一化。具體計(jì)算過程如下:
最后,計(jì)算視頻的覆蓋率。本發(fā)明中通過計(jì)算視頻摘要集與原視頻集之間的相似性,來衡量視頻摘要的覆蓋率,一般認(rèn)為兩者之間相似性越大,說明視頻摘要的覆蓋率越大。具體計(jì)算公式如下:
其中,Cov(S,V)表示摘要集S與原視頻集V的相似性,d(xi,g)表示兩者之間的歐式距離。
該方案在滿足冗余性、重要性兩個(gè)標(biāo)準(zhǔn)下盡可能最大化摘要集和原視頻集之間的相似性,即最大化覆蓋率,從而生成視頻摘要。
下面結(jié)合附圖和實(shí)例進(jìn)一步詳細(xì)說明本發(fā)明。
圖1描述了所提出的基于流形排序算法的視頻摘要流程圖,假設(shè)視頻幀集合為X={x1,x2,...,xn},xi∈Rm表示視頻幀的視覺特征信息。S表示摘要集,C表示候選摘要集,V表示視頻集,且S∪C=V。
1)初始化摘要集,根據(jù)公式(4)選取視頻摘要集的第一幀,則原視頻中剩余的幀作為該視頻的候選摘要集C。
2)并將該幀作為流形排序的查詢幀,C集中的幀作為待排序的幀,利用流形排序的方法獲取C中與該幀相關(guān)性較強(qiáng)的幀,并刪除相關(guān)性大于一定閾值的幀,剩余的幀構(gòu)成C1集合。
3)根據(jù)視頻幀的重要性度量公式(2)獲得每一幀的重要性.利用公式(3)計(jì)算摘要集的覆蓋率Cov(S,V),結(jié)合視頻幀的重要性I和覆蓋率Cov(S,V)在C1中選取下一個(gè)幀構(gòu)成摘要集,具體如下:
其中ρ∈(0,1)是平衡前后兩項(xiàng)的權(quán)重系數(shù)。
4)將上一步選取的關(guān)鍵幀作為下一個(gè)查詢幀,候選摘要集變?yōu)镃=V\S,迭代2、3步直到C1的元素少于一定的閾值(比如閾值設(shè)定為10),此時(shí)完成視頻的關(guān)鍵幀的提取。