用于視頻中文本區(qū)域檢測與定位的方法

文檔序號：6444201閱讀：311來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：用于視頻中文本區(qū)域檢測與定位的方法
技術(shù)領(lǐng)域：
本發(fā)明屬于模式識別與計算機(jī)視覺領(lǐng)域，特別是涉及一種用于視頻中文本區(qū)域檢測與定位方法。
背景技術(shù)：
如今，視頻作為一種最為流行的媒體形式，通過電視臺、網(wǎng)絡(luò)廣泛地傳播。為了使用戶更方便、快捷的尋找到感興趣的視頻內(nèi)容，視頻檢索與分類逐漸成為模式識別與計算機(jī)視覺領(lǐng)域研究的焦點(diǎn)。在這其中，視頻中的文本信息，特別是字幕信息對于視頻的檢索以及分類效果最為顯著。這是因?yàn)?1)視頻中的文本信息與視頻的當(dāng)前內(nèi)容緊密相關(guān)；(2) 視頻中的字符有非常明顯的視覺特征，便于提取；C3)字符識別(OCR)技術(shù)較目前的語音識別技術(shù)和圖像分類技術(shù)更為準(zhǔn)確、成熟。視頻中的文本識別過程包括三個主要步驟(1)文本檢測與定位，( 文本提取，字符識別。其中，步驟(1)文本檢測與定位所得結(jié)果的優(yōu)劣，直接影響到后面文本提取與字符識別的精度。針對步驟(1)涌現(xiàn)出了很多方法如中國知識產(chǎn)權(quán)局2005年8月M 日公開的公開號為1658227的專利(“檢測視頻文本的方法和裝置”)主要根據(jù)幀間圖像變化檢測文本區(qū)域。然而，在現(xiàn)有的方法中，文字多變的字體、顏色、大小，復(fù)雜的背景與光照，中英文混合等，仍然是沒有解決的難題。傳統(tǒng)的方法很多都是針對單一語言、通過假設(shè)文本區(qū)域特定背景來部分地解決問題。然而在視頻內(nèi)容快速發(fā)展的今天，這些方法已經(jīng)不能滿足人們的需要。針對上述未解決的技術(shù)問題，本發(fā)明提出了一種魯棒高效的用于視頻中文本區(qū)域檢測與定位的方法。

發(fā)明內(nèi)容
本發(fā)明的目的是為了克服視頻中文本區(qū)域中字符的字體、顏色、大小的多變性，語言的多樣性，以及背景區(qū)域的高度復(fù)雜性，從而提出一種魯棒的對視頻中的文本進(jìn)行快速檢測和定位的方法。本發(fā)明提出的一種用于視頻中文本區(qū)域檢測與定位方法采用的技術(shù)方案為步驟 Sl 輸入視頻，按等時間間隔對輸入視頻進(jìn)行采樣；步驟S2 對采樣得到的圖像進(jìn)行邊緣檢測；步驟S3 生成文本置信度圖；步驟S4 根據(jù)得到的文本置信度圖提取文本候選區(qū)域；步驟S5 對文本候選區(qū)域近似相同的多幀圖像的文本候選區(qū)域進(jìn)行融合；步驟S6 對融合后的文本區(qū)域圖像進(jìn)行分行。本發(fā)明還提出一種用于視頻中文本區(qū)域檢測與定位的系統(tǒng)，該系統(tǒng)包括視頻輸入模塊，用于獲取視頻圖像；文本置信度生成模塊，對采樣得到的圖像進(jìn)行邊緣檢測，利用檢測后得到的圖像生成文本置信度圖；文本候選區(qū)域生成模塊，根據(jù)生成的文本置信度圖提取文本候選區(qū)域；融合分行模塊，對文本候選區(qū)域近似相同的多幀圖像的文本候選區(qū)域進(jìn)行融合，并對融合后的文本區(qū)域圖像進(jìn)行分行。
6
本發(fā)明提出的視頻中文本檢測和定位方法的有益效果為能夠?qū)σ曨l中出現(xiàn)的不同字體、顏色、大小的文本進(jìn)行定位；能夠同時對視頻中出現(xiàn)的中文、英文進(jìn)行定位；能夠克服視頻中復(fù)雜的背景；本發(fā)明通過對文本候選區(qū)域近似相同的多幀圖像進(jìn)行融合，得到對比度較高、背景相對單一的文本區(qū)域圖像；本發(fā)明提出的方法對視頻中文本的檢測和定位速度快，能夠做到實(shí)時處理。本發(fā)明的文本檢測與定位方法能夠?qū)崟r地對視頻中出現(xiàn)的多語言文本進(jìn)行準(zhǔn)確定位?？梢赃m用于視頻內(nèi)容編輯、索引與檢索等多種用途。

圖1為本發(fā)明的視頻中文本檢測與定位方法流程圖；圖2為本發(fā)明中對邊緣點(diǎn)進(jìn)行8方向分類的示意圖；圖3為本發(fā)明中生成文本置信度圖的流程圖；圖4為本發(fā)明中對得到的文本置信度圖進(jìn)行文本候選區(qū)域提取的流程圖。圖5為本發(fā)明的視頻中文本檢測與定位方法的實(shí)現(xiàn)原理圖；圖6為本發(fā)明中生成文本候選區(qū)域的圖像示例；圖7為本發(fā)明中多幀融合和文本區(qū)域分行的圖像示例。
具體實(shí)施例方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白，以下結(jié)合具體實(shí)施例，并參照附圖，對本發(fā)明進(jìn)一步詳細(xì)說明。本發(fā)明視頻中文本檢測與定位方法的原理主要是對輸入視頻進(jìn)行采樣，對采樣所得到的視頻圖像進(jìn)行邊緣檢測，利用檢測后得到的圖像生成文本置信度圖，從生成的文本置信度圖中提取到文本候選區(qū)域，對文本候選區(qū)域近似相同的多幀圖像的文本候選區(qū)域進(jìn)行融合，得到最終的文本區(qū)域，并根據(jù)水平和垂直投影對文本區(qū)域進(jìn)行分行。圖1為本發(fā)明的視頻中文本檢測與定位方法流程圖。參照圖1，在步驟Sl輸入視頻，按等時間間隔對輸入視頻進(jìn)行采樣，其中每隔3幀抽取一幀圖像進(jìn)行處理。在步驟S2對采樣得到的圖像進(jìn)行邊緣檢測。步驟S2進(jìn)一步包括步驟S21和S22。在步驟S21，將輸入的圖像轉(zhuǎn)化為灰度圖，具體過程是設(shè)輸入圖像中的每一個像素點(diǎn)的R、G、B值分別為r、g、b，則變換后的灰度圖中該像素點(diǎn)的灰度值為gray = 0. 299Xr+0. 587Xg+0. 114Xb。在步驟S22，計算灰度圖像每個像素點(diǎn)的邊緣強(qiáng)度和方向，具體為利用Sobel梯度算子計算每個像素點(diǎn)水平和豎直方向的邊緣強(qiáng)度dx、dy，則每個像素點(diǎn)的邊緣強(qiáng)度為
0, 如果 J
權(quán)利要求
1.一種用于視頻中文本區(qū)域檢測與定位的方法，其特征在于，該方法包含步驟步驟Si，輸入視頻，按等時間間隔對輸入視頻進(jìn)行采樣；步驟S2，對采樣得到的圖像進(jìn)行邊緣檢測；步驟S3，利用檢測后得到的圖像生成文本置信度圖；步驟S4，根據(jù)生成的文本置信度圖提取文本候選區(qū)域；步驟S5，對文本候選區(qū)域近似相同的多幀圖像的文本候選區(qū)域進(jìn)行融合；步驟S6，對融合后的文本區(qū)域圖像進(jìn)行分行。
2.根據(jù)權(quán)利要求1所述的用于視頻中文本區(qū)域檢測與定位的方法，其特征在于，所述步驟S2包括步驟S21，將抽取的圖像轉(zhuǎn)化為灰度圖；步驟S22，計算灰度圖像每個像素點(diǎn)的邊緣強(qiáng)度和方向，根據(jù)邊緣強(qiáng)度確定該像素點(diǎn)是否為邊緣點(diǎn)。
3.根據(jù)權(quán)利要求2所述的用于視頻中文本區(qū)域檢測與定位的方法，其特征在于，步驟S21進(jìn)一步包括將抽取的圖像中的每一個像素點(diǎn)的R、G、B值分別設(shè)為r、g、b，則變換后的灰度圖中的該像素點(diǎn)的灰度值為gray = 0. 299Xr+0. 587Xg+0. 114Xb ；步驟S22進(jìn)一步包括利用Sobel梯度算子計算每個像素點(diǎn)水平和豎直方向的邊緣強(qiáng)O, 如果 Jdx2+dy2 <50,度dx、dy，則每個像素點(diǎn)的邊緣強(qiáng)度KU)= 廠7~-^^將r(x，y){^dx2+dy\其他.線性變換到O到255之間，當(dāng)r > O時，記該點(diǎn)為邊緣點(diǎn)。
4.根據(jù)權(quán)利要求3所述的用于視頻中文本區(qū)域檢測與定位的方法，其特征在于，步驟 S22進(jìn)一步包括將得到的邊緣點(diǎn)按方向分為八類，用參數(shù)θ，λ來表示，其中θ表示四個基本方向，θ e {0，45，90，13 ，O表示水平、45表示右上到左下、90表示豎直、135表示左上到右下，λ表示每個基本方向的極性，λ e {+1，-1}，+1表示一個基本方向中向上或向左的方向，-1表示一個基本方向中向下或者向右的方向。
5.根據(jù)權(quán)利要求1所述的用于視頻中文本區(qū)域檢測與定位的方法，其特征在于，所述步驟S3包括步驟S31，計算采樣得到的圖像中的每一像素點(diǎn)的邊緣強(qiáng)度；步驟S32，計算該圖像中每一像素點(diǎn)周圍邊緣的方向多樣性；步驟S33，計算圖像中每一像素點(diǎn)周圍極性相反的邊緣點(diǎn)對含量；步驟S34，基于步驟S31，S23，S33的結(jié)果，計算圖像中每個像素點(diǎn)的文本置信度；步驟S35，將得到的每一點(diǎn)的文本置信度線性歸一化到W，255]，得到最終的文本置信度圖。
6.根據(jù)權(quán)利要求5所述的用于視頻中文本區(qū)域檢測與定位的方法，其特征在于，步驟S31包括以每個像素點(diǎn)的位置( ，y0)為中心取寬W、高h(yuǎn)的矩形鄰域δ，計算該鄰域內(nèi)的平均邊緣強(qiáng)度DO^ytl)作為該中心點(diǎn)的邊緣強(qiáng)度，計算公式為
7.根據(jù)權(quán)利要求1所述的用于視頻中文本區(qū)域檢測與定位的方法，其特征在于，步驟 S4包括步驟S41，利用大津法(Otsu)對得到的文本置信度圖進(jìn)行二值化；步驟S42，對得到的二值圖像，進(jìn)行連通部件提取，計算每個連通部件外接矩形的寬 text_box_width,高text_box_height，去掉滿足下面條件之一的連通部件(1)min(text_box_width，text_box_height) < 15，(2)max(text_box_width，text_box_height) < 40。
8.根據(jù)權(quán)利要求1所述的用于視頻中文本區(qū)域檢測與定位的方法，其特征在于，步驟 S5包括步驟S50，如果兩幀圖像的文本候選區(qū)域的面積重疊率大于0. 9且文本內(nèi)容相似度大于0. 8，即認(rèn)為文本候選區(qū)域近似相同，文本候選區(qū)域面積重疊率I 。VCTlaP計算公式為
9.根據(jù)權(quán)利要求1所述的用于視頻中文本區(qū)域檢測與定位的方法，其特征在于，步驟 S6包括步驟S61，對融合后得到的圖像用Sobel梯度算子進(jìn)行邊緣提取，得到二值的邊緣圖像，邊緣點(diǎn)為1，非邊緣點(diǎn)為O ；步驟S62，判斷文字排列方向，如排列方向?yàn)樨Q直方向，需要將圖像旋轉(zhuǎn)；步驟S63，對旋轉(zhuǎn)后的圖像進(jìn)行水平投影，即分別統(tǒng)計每一個像素行中的邊緣點(diǎn)數(shù)Iii ；步驟S64，對每一像素行的邊緣點(diǎn)數(shù)Iii進(jìn)行平滑，得到平滑后每一像素行最終的邊緣點(diǎn) 1 1+1數(shù)Ni,計算公式為
10.一種視頻中文本區(qū)域檢測與定位的系統(tǒng)，該系統(tǒng)包括視頻輸入模塊，用于獲取視頻圖像；文本置信度生成模塊，對采樣得到的圖像進(jìn)行邊緣檢測，利用檢測后得到的圖像生成文本置信度圖；文本候選區(qū)域生成模塊，根據(jù)生成的文本置信度圖提取文本候選區(qū)域；融合分行模塊，對文本候選區(qū)域近似相同的多幀圖像的文本候選區(qū)域進(jìn)行融合，并對融合后的文本區(qū)域圖像進(jìn)行分行。
全文摘要
一種用于視頻中文本區(qū)域檢測與定位的方法，其特征在于，包含如下步驟輸入視頻，按等時間間隔對輸入視頻進(jìn)行采樣；對采樣得到的圖像進(jìn)行邊緣檢測；利用檢測后得到的圖像生成文本置信度圖；根據(jù)生成的文本置信度圖提取文本候選區(qū)域；對文本候選區(qū)域近似相同的多幀圖像的文本候選區(qū)域進(jìn)行融合；對融合后的文本區(qū)域圖像進(jìn)行分行。本發(fā)明的文本檢測與定位方法能夠?qū)崟r地對視頻中出現(xiàn)的多語言文本進(jìn)行準(zhǔn)確定位。可以適用于視頻內(nèi)容編輯、索引與檢索等多種用途。
文檔編號G06K9/32GK102542268SQ20111045182
公開日2012年7月4日申請日期2011年12月29日優(yōu)先權(quán)日2011年12月29日
發(fā)明者劉成林, 殷飛, 白博申請人:中國科學(xué)院自動化研究所

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉成林;白博;殷飛
技術(shù)所有人：中國科學(xué)院自動化研究所
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

用于視頻中文本區(qū)域檢測與定位的方法