專利名稱:一種高滿意度視頻摘要生成方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種高滿意度視頻摘要生成方法,屬于多媒體信息處理領(lǐng)域,具體來說,屬于視頻信息處理領(lǐng)域。
背景技術(shù):
隨著數(shù)字視頻資源數(shù)量的迅速增加,表示、理解和提取視頻結(jié)構(gòu)來提供視頻內(nèi)容瀏覽和檢索服務(wù)變得十分重要。其中,基于內(nèi)容的視頻分析技術(shù)就是其主要任務(wù)。基于內(nèi)容的視頻分析是指使用計算機(jī)對包含圖像和聲音的視頻數(shù)據(jù)進(jìn)行語義上的分析和理解。它的快速發(fā)展產(chǎn)生了很多新的相關(guān)技術(shù)研究成果和應(yīng)用。在這些新興的研究領(lǐng)域中,有一些應(yīng)用和研究針對的問題是如何利用對視頻內(nèi)容的分析來減小視頻存儲、分類和索引的代價,以及如何提高視頻的使用效率,可用性和可訪問性。這就是視頻摘要技術(shù)。視頻摘要技術(shù)是以自動或半自動的方式對視頻的結(jié)構(gòu)和內(nèi)容進(jìn)行分析,從原視頻中提取出有意義的部分,并將它們以某種方式進(jìn)行組合,形成簡潔的能夠充分表現(xiàn)視頻語義內(nèi)容的概要。它是對長視頻內(nèi)容的簡短總結(jié),通常用一段靜態(tài)或者動態(tài)的圖像序列來表示,并對原始信息予以保留[2]。因此它可以提供給人們一個有關(guān)原始視頻基本內(nèi)容的較為精練的信息,其內(nèi)容可以概括原始視頻的主要內(nèi)容,但其長度卻要比原始視頻短得多。目前視頻摘要的生成方法大致可以分為四類:1.簡單的生成方法。主要有兩種。一是基于時間對視頻進(jìn)行采樣,即每隔一段時間抽取一個代表幀或者一個片段;二是快速回放的方法,通過加快幀率達(dá)到縮短播放時間的目的。這兩種方法比較簡單,但完全沒有基于視頻的內(nèi)容,效果很不可靠。2.基于視覺信息的生成方法。根據(jù)視頻中顏色、紋理、形狀、運(yùn)動方向和強(qiáng)度等視覺信息,應(yīng)用各種視頻和圖像處理技術(shù),進(jìn)行鏡頭探測、關(guān)鍵幀提取、場景聚類、運(yùn)動特征提取等一系列操作,最終生成具有代表性的關(guān)鍵幀序列或縮略視頻。這種算法完全基于視覺特征,而忽略了音頻、字幕等信息對表現(xiàn)視頻所起的作用。美國Palo Alto實(shí)驗(yàn)室生成的故事板(漫畫書)的研究是其中的典型代表。3.融合多特征的生成方法。該方法在基于視覺方法的基礎(chǔ)上融入其它媒體提供的信息,來更準(zhǔn)確的判斷視頻片段的重要程度。例如,采用人臉識別技術(shù)來探測新聞中重要人物的出現(xiàn),采用音頻處理技術(shù)來探測體育視頻中的精彩片段等等。這種算法是目前研究的熱點(diǎn),當(dāng)前大多數(shù)視頻摘要方法都是基于這種思想的。4.基于視頻句法語義的生成方法。該方法不追求用模式識別技術(shù)獲取視頻中的數(shù)據(jù)語義,而是從視頻的句法結(jié)構(gòu)分析入手,探尋鏡頭與鏡頭之間、場景與場景之間的結(jié)構(gòu)規(guī)貝U,從中分析出編導(dǎo)人員試圖借此表現(xiàn)的情感和氛圍,并以此為基礎(chǔ),將視頻的句法語義盡可能完整地保存到摘要當(dāng)中。這種方法的典型代表是Columbia大學(xué)Harri等人提出的基于句法語義的效用模型。這是一種新的思路,在視頻模式識別技術(shù)還遠(yuǎn)遠(yuǎn)不夠完善的今天,這種方法不失為生成視頻摘要的一個新途徑??偟膩碚f,視頻摘要生成問題是十分復(fù)雜的,如果真正做到對環(huán)境不加任何限制,要想實(shí)現(xiàn)既實(shí)時快速又穩(wěn)定高效的摘要生成系統(tǒng)是非常困難的。摘要生成技術(shù)研究比較早,從現(xiàn)有資料來看,還存在許多問題,沒有一個實(shí)現(xiàn)穩(wěn)定實(shí)時的實(shí)際系統(tǒng),特別是從用戶滿意度的角度來看,滿意度不足,仍是各種方法普遍存在的問題。
發(fā)明內(nèi)容
本發(fā)明的目標(biāo)是:實(shí)現(xiàn)一種基于鏡頭聚類的視頻摘要系統(tǒng),該系統(tǒng)主要功能包括:多類型視頻文件的編解碼和播放,鏡頭邊界檢測,關(guān)鍵幀提取,鏡頭聚類,靜態(tài)視頻摘要,用戶輸入時間動態(tài)摘要的生成等。本發(fā)明的技術(shù)方案是通過如下步驟實(shí)現(xiàn)的:(I)檢測鏡頭;⑵提取每個鏡頭的關(guān)鍵幀;(3)將所有鏡頭按照視覺相似性分組;
(4)從鏡頭組中提取代表幀作為靜態(tài)摘要;(5)在前3步基礎(chǔ)上,首先確定各鏡頭組的重要程度,再為重要程度高的鏡頭組分配更多的幀數(shù),最終使用從個鏡頭組選取的視頻幀生成摘要視頻,整體過程如
圖1所示。上述處理流程的具體步驟為:步驟I,檢測鏡頭,整體流程如圖2所示,具體步驟為:步驟1.1圖像預(yù)處理。即對圖像進(jìn)行中值濾波預(yù)處理,提高檢測的準(zhǔn)確度。步驟1.2閃光檢測。采用基于亮度幀差的方法,整體過程如圖2所示,具體方法如下:(I)在一個窗口中取16幀圖像,計算得到15個相鄰幀間的亮度幀間差;(2)計算這15個幀間亮度差值的平均值,記為VDiff_avl5 ;(3)獲取閃光檢測的閾值,T_flush= O XVDiff_avl5,選取 o =5.5 ;(4)依次比較幀間差與T_flush的大小;定義當(dāng)前幀差為第n幀和第n+1幀的幀間差,若當(dāng)前幀差大于T_f lush,且下一相鄰幀差也大于T_f lush,則判定第n+1幀處有閃光發(fā)生;否則,沒有閃光發(fā)生。步驟1.3切變檢測。采用亮度幀差作為切變檢測特征,具體過程描述如下:(I)在一個窗口中計算得到15個相鄰幀間的亮度幀間差;(2)計算這15個幀間亮度差值的平均值VDiff_15av ;(3)計算15個亮度幀差到該視頻段亮度幀差均值VDiff_15av的距離VDist⑴;(4)計算切變檢測的高閾值(Th_shot)和低閾值(Tl_shot);(5)依次比較當(dāng)前相鄰幀差與該視頻段亮度幀差均值VDiff_15av,同時比較各VDist (i)與切變的高閾值Th_shot和低閾值Tl_shot,若滿足判定條件,則發(fā)生切變,否則,移窗,轉(zhuǎn)(I)。所述切變的判別條件為:(I)視頻段中第j個亮度幀差大于該視頻段亮度幀差均值,且第j_l和第j + 1個亮度幀差小于均值;(2)視頻段中第j個亮度幀差到該視頻段亮度幀差均值距離大于高閾值,且第j_l和第j+1個亮度幀差到均值距離小于低閾值。同時滿足上述兩個條件,則認(rèn)為第j_l與第j幀之間發(fā)生了切變。步驟1.4漸變檢測
漸變檢測以步驟1.3切變檢測的結(jié)果為基礎(chǔ),對連續(xù)兩次切變之間的視頻幀序列進(jìn)行漸變檢測。具體過程描述如下:(I)取兩個切變鏡頭之間的所有幀,計算相鄰幀間的顏色幀差;(2)統(tǒng)計該視頻段中顏色幀差的數(shù)量級直方圖,以直方圖最大的顏色幀差數(shù)量級為基準(zhǔn)值,對顏色幀差進(jìn)行O、I量化;(3)對量化結(jié)果進(jìn)行平滑,剔除毛刺;(4)根據(jù)判定依據(jù)確定漸變段、漸變起始幀號和終止幀號。漸變檢測是在完成切變檢測后,依據(jù)切變檢測結(jié)果,依次讀取相鄰兩次切變之間的視頻幀序列進(jìn)行漸變檢測,直到源視頻幀序列的末尾。步驟2,在步驟I的基礎(chǔ)上,提取每個鏡頭的關(guān)鍵幀。整體流程如圖3所示,具體過程如下:步驟2.1按時間將鏡頭分為子鏡頭,具體描述如下:(I)計算鏡頭內(nèi)所有相鄰幀間的顏色直方圖距離的均值av_CDiff,公式如下。
權(quán)利要求
1.一種基于鏡頭聚類的高理解度視頻摘要系統(tǒng),其特征在于,所述方法包括以下步驟: 步驟I,鏡頭檢測。
步驟2,提取每個鏡頭的關(guān)鍵幀。
步驟3,將所有鏡頭按照視覺相似性分組。
步驟4,從鏡頭組中提取代表幀作為靜態(tài)摘要。
步驟5,動態(tài)摘要生成。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述鏡頭檢測方法的具體步驟為: 步驟I圖像預(yù)處理。即對圖像進(jìn)行中值濾波預(yù)處理,提高檢測的準(zhǔn)確度。
步驟2閃光檢測。采用基于亮度幀差的方法,整體過程如圖2所示,具體方法如下: (1)在一個窗口中取16幀圖像,計算得到15個相鄰幀間的亮度幀間差; (2)計算這15個幀間亮度差值的平均值,記為VDiff_avl5; (3)獲取閃光檢測的閾值,T_fIush=σ XVDiff_avl5,選取σ =5.5 ; (4)依次比 較幀間差與T_flush的大小;定義當(dāng)前幀差為第η幀和第η+1幀的幀間差,若當(dāng)前幀差大于T_f lush,且下一相鄰幀差也大于T_f lush,則判定第η+1幀處有閃光發(fā)生;否則,沒有閃光發(fā)生。
步驟3切變檢測。采用亮度幀差作為切變檢測特征,具體過程描述如下: (1)在一個窗口中計算得到15個相鄰幀間的亮度幀間差; (2)計算這15個幀間亮度差值的平均值VDiff_15av;(3)計算15個亮度幀差到該視頻段亮度幀差均值VDiff_15av的距離VDist(i); (4)計算切變檢測的高閾值(Th_shot)和低閾值(Tl_shot); (5)依次比較當(dāng)前相鄰幀差與該視頻段亮度幀差均值VDiff_15av,同時比較各VDist (i)與切變的高閾值Th_shot和低閾值Tl_shot,若滿足判定條件,則發(fā)生切變,否則,移窗,轉(zhuǎn)(I) O 所述切變的判別條件為: (1)視頻段中第j個亮度幀差大于該視頻段亮度幀差均值,且第j-Ι和第j+ι個亮度幀差小于均值; (2)視頻段中第j個亮度幀差到該視頻段亮度幀差均值距離大于高閾值,且第j_l和第j+Ι個亮度幀差到均值距離小于低閾值。
同時滿足上述兩個條件,則認(rèn)為第j_l與第j幀之間發(fā)生了切變。
步驟4漸變檢測 漸變檢測以步驟1.3切變檢測的結(jié)果為基礎(chǔ),對連續(xù)兩次切變之間的視頻幀序列進(jìn)行漸變檢測。具體過程描述如下: (1)取兩個切變鏡頭之間的所有幀,計算相鄰幀間的顏色幀差; (2)統(tǒng)計該視頻段中顏色幀差的數(shù)量級直方圖,以直方圖最大的顏色幀差數(shù)量級為基準(zhǔn)值,對顏色幀差進(jìn)行O、I量化; (3)對量化結(jié)果進(jìn)行平滑,剔除毛刺; (4)根據(jù)判定依據(jù)確定漸變段、漸變起始幀號和終止幀號。
漸變檢測是在完成切變檢測后,依據(jù)切變檢測結(jié)果,依次讀取相鄰兩次切變之間的視頻幀序列進(jìn)行漸變檢測,直到源視頻幀序列的末尾。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述每個鏡頭的關(guān)鍵幀的提取步驟具體包括: 步驟I按時間將鏡頭分為子鏡頭,具體描述如下: (1)計算鏡頭內(nèi)所有相鄰幀間的顏色直方圖距離的均值av_CDiff,公式如下。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將所有鏡頭按照視覺相似性分組的方法為: 步驟1,使用層次聚類確定初始分類 (I)計算視頻內(nèi)兩兩鏡頭相似度的均值av_Sim,公式如下;
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述從鏡頭組中提取代表幀作為靜態(tài)摘要的具體方法為: 從每個鏡頭組的關(guān)鍵幀集合中提取一幀作為代表幀;再集合所有代表幀,就可以得到靜態(tài)視頻摘要。所述鏡頭組代表幀的計算方法為:依次計算關(guān)鍵幀集合中每個元素與其余各元素的相似度之和,該值最大的關(guān)鍵幀即為本鏡頭組的代表幀。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述動態(tài)摘要的具體步驟為: 步驟1,剔除貢獻(xiàn)度較小的鏡頭組 確定各鏡頭組權(quán)重之前,先剔除那些對反映內(nèi)容貢獻(xiàn)很小的鏡頭組,算法如下: (1)計算每個鏡頭組包含的圖像幀總數(shù)Fi; (2)計算閾值
全文摘要
本發(fā)明涉及一種高滿意度視頻摘要生成方法。本發(fā)明基于視頻數(shù)據(jù)結(jié)構(gòu)的特點(diǎn),設(shè)計、實(shí)現(xiàn)了一種基于鏡頭聚類的視頻摘要系統(tǒng),該系統(tǒng)主要功能包括多類型視頻文件的編解碼和播放,鏡頭邊界檢測,關(guān)鍵幀提取,鏡頭聚類,靜態(tài)視頻摘要,用戶輸入時間動態(tài)摘要的生成等。本發(fā)明適合多媒體文件管理、視頻檢索、影視庫建設(shè)等應(yīng)用場合。
文檔編號G06F17/30GK103150373SQ20131007514
公開日2013年6月12日 申請日期2013年3月8日 優(yōu)先權(quán)日2013年3月8日
發(fā)明者羅森林, 謝爾曼, 潘麗敏, 馬舒潔, 高曉芳, 呂英 申請人:北京理工大學(xué)