專利名稱:基于字幕信息的視頻自動(dòng)切分及標(biāo)注方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及可以用于視頻內(nèi)容的碎片化處理、視頻內(nèi)容的編目、檢索等技術(shù)領(lǐng)域,尤其涉及基于字幕信息的視頻自動(dòng)切分及標(biāo)注方法及系統(tǒng)。
背景技術(shù):
網(wǎng)絡(luò)時(shí)代最明顯的特征就是傳播的碎片化。在社區(qū)化時(shí)代到來的如今,由微博引領(lǐng)的信息碎片化傳播已經(jīng)逐步深入人心,“短小精悍”日益成為內(nèi)容傳播和分享的精髓。在視頻行業(yè),以分享、編目及檢索為目的的技術(shù)創(chuàng)新正在以同樣的方式,將視頻傳播帶入碎片化時(shí)代。視頻中的文字信息無疑是實(shí)現(xiàn)這些需求的重要線索。
傳統(tǒng)的視頻切分是由人工完成的,需要耗費(fèi)大量的人力與時(shí)間?;谧帜恍畔⒌囊曨l自動(dòng)切分及標(biāo)注技術(shù)可將視頻內(nèi)容快速、準(zhǔn)確、自動(dòng)地切分,實(shí)現(xiàn)視頻內(nèi)容的碎片化。
發(fā)明內(nèi)容
針對(duì)上述技術(shù)缺陷,本發(fā)明提出一種于字幕信息的視頻自動(dòng)切分及標(biāo)注方法及系統(tǒng)。為了解決上述技術(shù)問題,本發(fā)明的技術(shù)方案如下基于字幕信息的視頻自動(dòng)切分及標(biāo)注方法,包括如下步驟11)分析視頻格式,獲得視頻的幀率η ;12)每隔η幀利用文字定位技術(shù)確定視頻幀中的文字區(qū)域,并將首次出現(xiàn)文字的視頻幀的時(shí)間,定為該字幕的起始時(shí)間;13)對(duì)于步驟12)的文字區(qū)域定位結(jié)果,每隔η幀計(jì)算相同位置的文字區(qū)域之間的相似度如相似度Se大于一定閾值,則認(rèn)為文字沒有消失,返回執(zhí)行步驟12);否則,認(rèn)為文字消失,記錄文字消失所在視頻幀的時(shí)間點(diǎn)為當(dāng)前字幕的消失時(shí)間,繼續(xù)執(zhí)行步驟14);14)對(duì)于步驟12)的文字區(qū)域定位結(jié)果,利用文字識(shí)別技術(shù)進(jìn)行文字識(shí)別,若視頻處理完畢,執(zhí)行步驟15);否則,返回執(zhí)行步驟12);15)根據(jù)字幕的起始時(shí)間和當(dāng)前字幕的結(jié)束時(shí)間確定待切分視頻的所有切分時(shí)間區(qū)間,基于切分時(shí)間區(qū)間,利用視頻轉(zhuǎn)碼技術(shù)對(duì)視頻進(jìn)行切分,并利用字幕中的文字信息對(duì)視頻進(jìn)行標(biāo)注。進(jìn)一步的,所述文字定位技術(shù)包括如下步驟21)視頻巾貞圖像設(shè)為f (X,y),利用Sobel算子處理f (x, y),得到邊緣圖像g(x, y);22)利用最大類間方差法對(duì)所述邊緣圖像g(x,y) 二值化,得到二值圖像Id1 (x,y);23)如果文字屬于暗底亮字情況,計(jì)算二值圖像Id1 (x,y)中值為I的像素的筆畫強(qiáng)度特征,所述像素的筆畫強(qiáng)度特征的計(jì)算公式為
_7] DEJx,) ) = maxj=0 {/(x, v)-min^ {h(x,y,i,cf)}}其中,h (x,y,i,d) =max (f (x_i X dxdJ y-i X dyd),f (x+ (W+l~i) X dxdJ y+ (W+l~i) X dyd)}式中 d=0,1,2,3,dx0=-l,dy0=0,Cix1=-I, Ciy1=-I, dx2=0,dy2=_l,dx3=l,dy3=_l,表示筆畫最常見的O 四個(gè)方向,W是筆畫寬度的上限;24)將字符的筆畫特征圖像Sw(x,y)定義為
權(quán)利要求
1.基于字幕信息的視頻自動(dòng)切分及標(biāo)注方法,其特征在于,包括如下步驟 11)分析視頻格式,獲得視頻的幀率η; 12)每隔η幀利用文字定位技術(shù)確定視頻幀中的文字區(qū)域,并將首次出現(xiàn)文字的視頻幀的時(shí)間,定為該字幕的起始時(shí)間; 13)對(duì)于步驟12)的文字區(qū)域定位結(jié)果,每隔η幀計(jì)算相同位置的文字區(qū)域之間的相似度Se,如相似度Se大于一定閾值,則認(rèn)為文字沒有消失,返回執(zhí)行步驟12);否則,認(rèn)為文字消失,記錄文字消失所在視頻幀的時(shí)間點(diǎn)為當(dāng)前字幕的消失時(shí)間,繼續(xù)執(zhí)行步驟14); 14)對(duì)于步驟12)的文字區(qū)域定位結(jié)果,利用文字識(shí)別技術(shù)進(jìn)行文字識(shí)別,若視頻處理完畢,執(zhí)行步驟15);否則,返回執(zhí)行步驟12); 15)根據(jù)字幕的起始時(shí)間和當(dāng)前字幕的結(jié)束時(shí)間確定待切分視頻的所有切分時(shí)間區(qū)間,基于切分時(shí)間區(qū)間,利用視頻轉(zhuǎn)碼技術(shù)對(duì)視頻進(jìn)行切分,并利用字幕中的文字信息對(duì)視頻進(jìn)行標(biāo)注。
2.根據(jù)權(quán)利要求I所述的基于字幕信息的視頻自動(dòng)切分及標(biāo)注方法,其特征在于,所述文字定位技術(shù)包括如下步驟 21)視頻巾貞圖像設(shè)為f(X,y),利用Sobel算子處理f (x, y),得到邊緣圖像g(x, y); 22)利用最大類間方差法對(duì)所述邊緣圖像g(x,y)二值化,得到二值圖像I3l(Xj); 23)如果文字屬于暗底亮字情況,計(jì)算二值圖像匕“^)中值為I的像素的筆畫強(qiáng)度特征,所述像素的筆畫強(qiáng)度特征的計(jì)算公式為
3.根據(jù)權(quán)利要求I所述的基于字幕信息的視頻自動(dòng)切分及標(biāo)注方法,其特征在于,相同位置的文字區(qū)域之間的相似度Se的計(jì)算方法包括如下步驟 31)視頻幀a的第i個(gè)文字對(duì)象在圖像中的位置為rectai,與a相鄰的視頻幀b的第j個(gè)文字對(duì)象在圖像中的位置為rec%,它們位置重合的比例S。為
4.根據(jù)權(quán)利要求I所述的基于字幕信息的視頻自動(dòng)切分及標(biāo)注方法,其特征在于,步驟15)的切分方法具體包括如下步驟 41)利用步驟12)至步驟13)中記錄的視頻中每條字幕的出現(xiàn)時(shí)間、消失時(shí)間,計(jì)算出視頻的一個(gè)切分區(qū)間,所述切分區(qū)間的起始時(shí)間點(diǎn)為一條字幕的出現(xiàn)時(shí)間,結(jié)束時(shí)間點(diǎn)為下一條字幕的出現(xiàn)時(shí)間; 42)根據(jù)所述切分區(qū)間的起始時(shí)間點(diǎn),定位到切分時(shí)間區(qū)間之前的第一個(gè)關(guān)鍵幀; 43)逐幀進(jìn)行解碼,分析每個(gè)視頻幀的時(shí)間信息; 44)將屬于切分時(shí)間區(qū)間范圍內(nèi)的視頻幀進(jìn)行編碼,寫入新的視頻片段中,生成切分后的視頻; 45)利用步驟14)中記錄的視頻中每條字幕的文字信息,將對(duì)應(yīng)的切分后的視頻片段進(jìn)行標(biāo)注;重復(fù)步驟41),繼續(xù)切分,直到視頻中所有切分區(qū)間處理完畢。
5.基于字幕信息的視頻自動(dòng)切分及標(biāo)注系統(tǒng),其特征在于,包括兩個(gè)部分,字幕信息提取系統(tǒng)和視頻切分及標(biāo)注系統(tǒng); 所述字幕信息提取系統(tǒng)對(duì)視頻中的字幕信息進(jìn)行提取,獲得字幕的出現(xiàn)時(shí)間及消失時(shí)間,并利用字符識(shí)別技術(shù)對(duì)字幕進(jìn)行識(shí)別,獲得文字信息; 所述在視頻切分及標(biāo)注系統(tǒng),利用字幕信息的時(shí)間信息計(jì)算出視頻切分時(shí)間區(qū)間,分別定位到每個(gè)視頻切分時(shí)間區(qū)間內(nèi)的第一個(gè)關(guān)鍵幀,將符合視頻切分時(shí)間區(qū)間內(nèi)的每個(gè)視頻幀逐一解碼、再重新編碼為新的視頻,最后利用字幕的文字信息對(duì)形成的新視頻進(jìn)行標(biāo)注,完成視頻的切分及標(biāo)注工作。
全文摘要
本發(fā)明公開了基于字幕信息的視頻自動(dòng)切分及標(biāo)注方法及系統(tǒng),其特征在于對(duì)視頻中的字幕信息進(jìn)行提取,并基于字幕信息對(duì)視頻進(jìn)行碎片化處理,其包括以下步驟(1)利用視頻字幕信息提取技術(shù),將視頻中的字幕信息提取出來,具體包括字幕的時(shí)間信息及文字信息;(2)根據(jù)字幕的出現(xiàn)時(shí)間和下段字幕的出現(xiàn)時(shí)間確定待切分視頻的所有切分時(shí)間區(qū)間,基于切分時(shí)間區(qū)間,利用視頻轉(zhuǎn)碼技術(shù)對(duì)視頻進(jìn)行切分,并利用字幕中的文字信息對(duì)視頻進(jìn)行標(biāo)注,本發(fā)明結(jié)合字幕提取技術(shù)與視頻切分技術(shù),提出了基于字幕信息的視頻自動(dòng)切分及標(biāo)注方法,實(shí)現(xiàn)視頻內(nèi)容的自動(dòng)化切分及標(biāo)注,可以用于視頻內(nèi)容的碎片化處理、視頻內(nèi)容的編目、檢索等技術(shù)領(lǐng)域。
文檔編號(hào)H04N21/83GK102833638SQ20121026250
公開日2012年12月19日 申請(qǐng)日期2012年7月26日 優(yōu)先權(quán)日2012年7月26日
發(fā)明者劉杰, 李雷, 趙志峰, 張衛(wèi) 申請(qǐng)人:北京數(shù)視宇通技術(shù)有限公司, 華數(shù)傳媒網(wǎng)絡(luò)有限公司