欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

用于視頻中文本區(qū)域檢測與定位的方法

文檔序號:6444201閱讀:311來源:國知局
專利名稱:用于視頻中文本區(qū)域檢測與定位的方法
技術(shù)領(lǐng)域
本發(fā)明屬于模式識別與計算機(jī)視覺領(lǐng)域,特別是涉及一種用于視頻中文本區(qū)域檢測與定位方法。
背景技術(shù)
如今,視頻作為一種最為流行的媒體形式,通過電視臺、網(wǎng)絡(luò)廣泛地傳播。為了使用戶更方便、快捷的尋找到感興趣的視頻內(nèi)容,視頻檢索與分類逐漸成為模式識別與計算機(jī)視覺領(lǐng)域研究的焦點(diǎn)。在這其中,視頻中的文本信息,特別是字幕信息對于視頻的檢索以及分類效果最為顯著。這是因?yàn)?1)視頻中的文本信息與視頻的當(dāng)前內(nèi)容緊密相關(guān);(2) 視頻中的字符有非常明顯的視覺特征,便于提取;C3)字符識別(OCR)技術(shù)較目前的語音識別技術(shù)和圖像分類技術(shù)更為準(zhǔn)確、成熟。視頻中的文本識別過程包括三個主要步驟(1)文本檢測與定位,( 文本提取,字符識別。其中,步驟(1)文本檢測與定位所得結(jié)果的優(yōu)劣,直接影響到后面文本提取與字符識別的精度。針對步驟(1)涌現(xiàn)出了很多方法如中國知識產(chǎn)權(quán)局2005年8月M 日公開的公開號為1658227的專利(“檢測視頻文本的方法和裝置”)主要根據(jù)幀間圖像變化檢測文本區(qū)域。然而,在現(xiàn)有的方法中,文字多變的字體、顏色、大小,復(fù)雜的背景與光照, 中英文混合等,仍然是沒有解決的難題。傳統(tǒng)的方法很多都是針對單一語言、通過假設(shè)文本區(qū)域特定背景來部分地解決問題。然而在視頻內(nèi)容快速發(fā)展的今天,這些方法已經(jīng)不能滿足人們的需要。針對上述未解決的技術(shù)問題,本發(fā)明提出了一種魯棒高效的用于視頻中文本區(qū)域檢測與定位的方法。

發(fā)明內(nèi)容
本發(fā)明的目的是為了克服視頻中文本區(qū)域中字符的字體、顏色、大小的多變性,語言的多樣性,以及背景區(qū)域的高度復(fù)雜性,從而提出一種魯棒的對視頻中的文本進(jìn)行快速檢測和定位的方法。本發(fā)明提出的一種用于視頻中文本區(qū)域檢測與定位方法采用的技術(shù)方案為步驟 Sl 輸入視頻,按等時間間隔對輸入視頻進(jìn)行采樣;步驟S2 對采樣得到的圖像進(jìn)行邊緣檢測;步驟S3 生成文本置信度圖;步驟S4 根據(jù)得到的文本置信度圖提取文本候選區(qū)域;步驟S5 對文本候選區(qū)域近似相同的多幀圖像的文本候選區(qū)域進(jìn)行融合;步驟S6 對融合后的文本區(qū)域圖像進(jìn)行分行。本發(fā)明還提出一種用于視頻中文本區(qū)域檢測與定位的系統(tǒng),該系統(tǒng)包括視頻輸入模塊,用于獲取視頻圖像;文本置信度生成模塊,對采樣得到的圖像進(jìn)行邊緣檢測,利用檢測后得到的圖像生成文本置信度圖;文本候選區(qū)域生成模塊,根據(jù)生成的文本置信度圖提取文本候選區(qū)域;融合分行模塊,對文本候選區(qū)域近似相同的多幀圖像的文本候選區(qū)域進(jìn)行融合,并對融合后的文本區(qū)域圖像進(jìn)行分行。
6
本發(fā)明提出的視頻中文本檢測和定位方法的有益效果為能夠?qū)σ曨l中出現(xiàn)的不同字體、顏色、大小的文本進(jìn)行定位;能夠同時對視頻中出現(xiàn)的中文、英文進(jìn)行定位;能夠克服視頻中復(fù)雜的背景;本發(fā)明通過對文本候選區(qū)域近似相同的多幀圖像進(jìn)行融合,得到對比度較高、背景相對單一的文本區(qū)域圖像;本發(fā)明提出的方法對視頻中文本的檢測和定位速度快,能夠做到實(shí)時處理。本發(fā)明的文本檢測與定位方法能夠?qū)崟r地對視頻中出現(xiàn)的多語言文本進(jìn)行準(zhǔn)確定位??梢赃m用于視頻內(nèi)容編輯、索引與檢索等多種用途。


圖1為本發(fā)明的視頻中文本檢測與定位方法流程圖;圖2為本發(fā)明中對邊緣點(diǎn)進(jìn)行8方向分類的示意圖;圖3為本發(fā)明中生成文本置信度圖的流程圖;圖4為本發(fā)明中對得到的文本置信度圖進(jìn)行文本候選區(qū)域提取的流程圖。圖5為本發(fā)明的視頻中文本檢測與定位方法的實(shí)現(xiàn)原理圖;圖6為本發(fā)明中生成文本候選區(qū)域的圖像示例;圖7為本發(fā)明中多幀融合和文本區(qū)域分行的圖像示例。
具體實(shí)施例方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,以下結(jié)合具體實(shí)施例,并參照附圖,對本發(fā)明進(jìn)一步詳細(xì)說明。本發(fā)明視頻中文本檢測與定位方法的原理主要是對輸入視頻進(jìn)行采樣,對采樣所得到的視頻圖像進(jìn)行邊緣檢測,利用檢測后得到的圖像生成文本置信度圖,從生成的文本置信度圖中提取到文本候選區(qū)域,對文本候選區(qū)域近似相同的多幀圖像的文本候選區(qū)域進(jìn)行融合,得到最終的文本區(qū)域,并根據(jù)水平和垂直投影對文本區(qū)域進(jìn)行分行。圖1為本發(fā)明的視頻中文本檢測與定位方法流程圖。參照圖1,在步驟Sl輸入視頻,按等時間間隔對輸入視頻進(jìn)行采樣,其中每隔3幀抽取一幀圖像進(jìn)行處理。在步驟S2對采樣得到的圖像進(jìn)行邊緣檢測。步驟S2進(jìn)一步包括步驟S21和S22。在步驟S21,將輸入的圖像轉(zhuǎn)化為灰度圖,具體過程是設(shè)輸入圖像中的每一個像素點(diǎn)的R、G、B值分別為r、g、b,則變換后的灰度圖中該像素點(diǎn)的灰度值為gray = 0. 299Xr+0. 587Xg+0. 114Xb。在步驟S22,計算灰度圖像每個像素點(diǎn)的邊緣強(qiáng)度和方向,具體為利用Sobel梯度算子計算每個像素點(diǎn)水平和豎直方向的邊緣強(qiáng)度dx、dy,則每個像素點(diǎn)的邊緣強(qiáng)度為
0, 如果 J
權(quán)利要求
1.一種用于視頻中文本區(qū)域檢測與定位的方法,其特征在于,該方法包含步驟 步驟Si,輸入視頻,按等時間間隔對輸入視頻進(jìn)行采樣;步驟S2,對采樣得到的圖像進(jìn)行邊緣檢測;步驟S3,利用檢測后得到的圖像生成文本置信度圖;步驟S4,根據(jù)生成的文本置信度圖提取文本候選區(qū)域;步驟S5,對文本候選區(qū)域近似相同的多幀圖像的文本候選區(qū)域進(jìn)行融合;步驟S6,對融合后的文本區(qū)域圖像進(jìn)行分行。
2.根據(jù)權(quán)利要求1所述的用于視頻中文本區(qū)域檢測與定位的方法,其特征在于,所述步驟S2包括步驟S21,將抽取的圖像轉(zhuǎn)化為灰度圖;步驟S22,計算灰度圖像每個像素點(diǎn)的邊緣強(qiáng)度和方向,根據(jù)邊緣強(qiáng)度確定該像素點(diǎn)是否為邊緣點(diǎn)。
3.根據(jù)權(quán)利要求2所述的用于視頻中文本區(qū)域檢測與定位的方法,其特征在于, 步驟S21進(jìn)一步包括將抽取的圖像中的每一個像素點(diǎn)的R、G、B值分別設(shè)為r、g、b,則變換后的灰度圖中的該像素點(diǎn)的灰度值為gray = 0. 299Xr+0. 587Xg+0. 114Xb ;步驟S22進(jìn)一步包括利用Sobel梯度算子計算每個像素點(diǎn)水平和豎直方向的邊緣強(qiáng)O, 如果 Jdx2+dy2 <50,度dx、dy,則每個像素點(diǎn)的邊緣強(qiáng)度KU)= 廠7~-^^將r(x,y){^dx2+dy\其他.線性變換到O到255之間,當(dāng)r > O時,記該點(diǎn)為邊緣點(diǎn)。
4.根據(jù)權(quán)利要求3所述的用于視頻中文本區(qū)域檢測與定位的方法,其特征在于,步驟 S22進(jìn)一步包括將得到的邊緣點(diǎn)按方向分為八類,用參數(shù)θ,λ來表示,其中θ表示四個基本方向,θ e {0,45,90,13 ,O表示水平、45表示右上到左下、90表示豎直、135表示左上到右下,λ表示每個基本方向的極性,λ e {+1,-1},+1表示一個基本方向中向上或向左的方向,-1表示一個基本方向中向下或者向右的方向。
5.根據(jù)權(quán)利要求1所述的用于視頻中文本區(qū)域檢測與定位的方法,其特征在于,所述步驟S3包括步驟S31,計算采樣得到的圖像中的每一像素點(diǎn)的邊緣強(qiáng)度;步驟S32,計算該圖像中每一像素點(diǎn)周圍邊緣的方向多樣性;步驟S33,計算圖像中每一像素點(diǎn)周圍極性相反的邊緣點(diǎn)對含量; 步驟S34,基于步驟S31,S23,S33的結(jié)果,計算圖像中每個像素點(diǎn)的文本置信度; 步驟S35,將得到的每一點(diǎn)的文本置信度線性歸一化到W,255],得到最終的文本置信度圖。
6.根據(jù)權(quán)利要求5所述的用于視頻中文本區(qū)域檢測與定位的方法,其特征在于, 步驟S31包括以每個像素點(diǎn)的位置( ,y0)為中心取寬W、高h(yuǎn)的矩形鄰域δ,計算該鄰域內(nèi)的平均邊緣強(qiáng)度DO^ytl)作為該中心點(diǎn)的邊緣強(qiáng)度,計算公式為
7.根據(jù)權(quán)利要求1所述的用于視頻中文本區(qū)域檢測與定位的方法,其特征在于,步驟 S4包括步驟S41,利用大津法(Otsu)對得到的文本置信度圖進(jìn)行二值化; 步驟S42,對得到的二值圖像,進(jìn)行連通部件提取,計算每個連通部件外接矩形的寬 text_box_width,高text_box_height,去掉滿足下面條件之一的連通部件(1)min(text_box_width,text_box_height) < 15,(2)max(text_box_width,text_box_height) < 40。
8.根據(jù)權(quán)利要求1所述的用于視頻中文本區(qū)域檢測與定位的方法,其特征在于,步驟 S5包括步驟S50,如果兩幀圖像的文本候選區(qū)域的面積重疊率大于0. 9且文本內(nèi)容相似度大于0. 8,即認(rèn)為文本候選區(qū)域近似相同,文本候選區(qū)域面積重疊率I 。VCTlaP計算公式為
9.根據(jù)權(quán)利要求1所述的用于視頻中文本區(qū)域檢測與定位的方法,其特征在于,步驟 S6包括步驟S61,對融合后得到的圖像用Sobel梯度算子進(jìn)行邊緣提取,得到二值的邊緣圖像,邊緣點(diǎn)為1,非邊緣點(diǎn)為O ;步驟S62,判斷文字排列方向,如排列方向?yàn)樨Q直方向,需要將圖像旋轉(zhuǎn); 步驟S63,對旋轉(zhuǎn)后的圖像進(jìn)行水平投影,即分別統(tǒng)計每一個像素行中的邊緣點(diǎn)數(shù)Iii ; 步驟S64,對每一像素行的邊緣點(diǎn)數(shù)Iii進(jìn)行平滑,得到平滑后每一像素行最終的邊緣點(diǎn) 1 1+1數(shù)Ni,計算公式為
10.一種視頻中文本區(qū)域檢測與定位的系統(tǒng),該系統(tǒng)包括視頻輸入模塊,用于獲取視頻圖像;文本置信度生成模塊,對采樣得到的圖像進(jìn)行邊緣檢測,利用檢測后得到的圖像生成文本置信度圖;文本候選區(qū)域生成模塊,根據(jù)生成的文本置信度圖提取文本候選區(qū)域; 融合分行模塊,對文本候選區(qū)域近似相同的多幀圖像的文本候選區(qū)域進(jìn)行融合,并對融合后的文本區(qū)域圖像進(jìn)行分行。
全文摘要
一種用于視頻中文本區(qū)域檢測與定位的方法,其特征在于,包含如下步驟輸入視頻,按等時間間隔對輸入視頻進(jìn)行采樣;對采樣得到的圖像進(jìn)行邊緣檢測;利用檢測后得到的圖像生成文本置信度圖;根據(jù)生成的文本置信度圖提取文本候選區(qū)域;對文本候選區(qū)域近似相同的多幀圖像的文本候選區(qū)域進(jìn)行融合;對融合后的文本區(qū)域圖像進(jìn)行分行。本發(fā)明的文本檢測與定位方法能夠?qū)崟r地對視頻中出現(xiàn)的多語言文本進(jìn)行準(zhǔn)確定位。可以適用于視頻內(nèi)容編輯、索引與檢索等多種用途。
文檔編號G06K9/32GK102542268SQ20111045182
公開日2012年7月4日 申請日期2011年12月29日 優(yōu)先權(quán)日2011年12月29日
發(fā)明者劉成林, 殷飛, 白博 申請人:中國科學(xué)院自動化研究所
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
普安县| 汾阳市| 杭州市| 灵寿县| 赫章县| 北川| 晋城| 荔浦县| 海丰县| 报价| 兴城市| 牙克石市| 新沂市| 文成县| 潞城市| 梨树县| 红原县| 商水县| 连南| 平阴县| 颍上县| 库车县| 宜阳县| 仪陇县| 莫力| 临江市| 刚察县| 伊金霍洛旗| 咸宁市| 宣武区| 息烽县| 翁牛特旗| 南投县| 佛学| 老河口市| 阜城县| 舟山市| 双城市| 太和县| 威宁| 吉木乃县|