基于模板匹配及曲線擬合的視頻字幕細(xì)化方法
【專利摘要】基于模板匹配及曲線擬合的視頻字幕細(xì)化方法,涉及多媒體信息處理領(lǐng)域。本發(fā)明結(jié)合漢字的結(jié)構(gòu)特征,對漢字筆劃進(jìn)行提取與重繪,從而達(dá)到漢字細(xì)化的效果,解決了其他細(xì)化算法在對該類對象進(jìn)行細(xì)化時(shí)產(chǎn)生的筆劃扭曲、丟失及識別率低的問題。本發(fā)明技術(shù)要點(diǎn)包括:獲取視頻字幕中漢字圖像;確定漢字圖像的連通區(qū)域;提出模板匹配法提取同一連通區(qū)域內(nèi)漢字筆劃;提出用水平、豎直線段重繪?“橫”、“豎”筆劃,二次Bezier曲線重繪“撇”、“捺”筆劃,斜線段重繪“點(diǎn)”筆劃的方法,從而實(shí)現(xiàn)漢字圖像的細(xì)化效果。本發(fā)明保持了漢字的形狀及筆劃結(jié)構(gòu),避免了扭曲現(xiàn)象;保證了筆劃的橫平豎直及撇捺的彎曲度,更好地重繪出漢字的形態(tài);提高了視頻字幕的識別效果。
【專利說明】基于模板匹配及曲線擬合的視頻字幕細(xì)化方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于多媒體信息處理領(lǐng)域,具體地說,是涉及一種基于視頻字幕的漢字圖像細(xì)化方法。
【背景技術(shù)】
[0002]視頻字幕中包含的豐富語義知識,為多媒體檢索提供了重要的信息。因此,如何自動(dòng)、有效地檢測、分割、識別視頻字幕,成為學(xué)術(shù)界、企業(yè)界、政界監(jiān)管部門所面臨的一大挑戰(zhàn)。近年來,在視頻字幕檢測、分割方面存在較多有效方法,但對于低像素的視頻字幕識別仍然是個(gè)研究難題。
[0003]目前,對于中文字符的識別已存在成熟的OCR識別技術(shù)。但該技術(shù)僅對具有高分辨率的掃描字體可達(dá)到較高識別準(zhǔn)確率,而對于低分辨率的視頻字幕,由于其筆劃粗細(xì)不均勻,二值化后像素丟失等問題導(dǎo)致識別結(jié)果不是很理想。因此,需要通過對輸入OCR的字幕圖像進(jìn)行細(xì)化處理,來提高最終的識別效果。目前,經(jīng)典的圖像細(xì)化算法在用于漢字圖像時(shí),會使?jié)h字筆劃發(fā)生扭曲、歪斜、丟失等現(xiàn)象,導(dǎo)致無法有效地識別。而其他針對漢字圖像的細(xì)化方法,如基于字符骨架的漢字細(xì)化算法、基于數(shù)學(xué)形態(tài)學(xué)細(xì)化算法、基于圖形集合運(yùn)算方法等,同樣僅適用于清晰漢字圖像,對于視頻字幕這種低分辨率的漢字圖像,不具有很強(qiáng)的適用性。
[0004]通過對漢字國標(biāo)(GB2312-80) —級、二級字庫的6763個(gè)漢字的統(tǒng)計(jì)與分析發(fā)現(xiàn),標(biāo)準(zhǔn)漢字字體主要由“橫”、“豎”、“撇”、“捺”四種基本筆劃組成,其他筆劃可視為復(fù)合筆劃。
[0005]為此,依據(jù)漢字的結(jié)構(gòu)特征,本發(fā)明提出了一種基于模板匹配及曲線擬合的視頻字幕細(xì)化方法,通過設(shè)計(jì)模板提取漢字筆劃,設(shè)計(jì)不同的擬合方式對“橫”、“豎”、“撇”、“捺”四種基本筆劃進(jìn)行重繪,為低分辨率中文視頻字幕的細(xì)化及視頻字幕識別提供了一種有效的途經(jīng)。
【發(fā)明內(nèi)容】
[0006]本發(fā)明的目的是提出一種針對視頻中文字幕的有效細(xì)化方法,結(jié)合漢字的結(jié)構(gòu)特征,對漢字筆劃進(jìn)行提取與重繪,達(dá)到漢字細(xì)化的效果,解決其他細(xì)化算法對該類對象進(jìn)行細(xì)化時(shí)產(chǎn)生的筆劃扭曲、丟失等問題。
[0007]本發(fā)明提供的一種基于模板匹配及曲線擬合的視頻字幕細(xì)化方法,其包括步驟:
[0008]步驟A,視頻字幕中漢字圖像的獲?。?br>
[0009]視頻字幕存在于組成視頻的各個(gè)幀中,因此本發(fā)明采用FFMPEG工具對輸入的視頻(AOl)進(jìn)行解碼抽幀(A02),并使用不等權(quán)策略將每一幀轉(zhuǎn)換為8位灰度圖;刪除視頻中空字幕幀,并對重復(fù)字幕的幀進(jìn)行去重,提取有效幀(A03);從有效幀中提取字幕區(qū)域,并對字幕區(qū)進(jìn)行二值化,設(shè)置背景色為白色,前景色即漢字顏色為黑色(A04);對字幕區(qū)進(jìn)行掃描分割獲取各個(gè)漢字圖像(A05)。
[0010]步驟B,確定漢字圖像的連通區(qū)域;[0011]連通區(qū)域由前景像素構(gòu)成,可定義如下:兩個(gè)前景像素P、Q是連通的當(dāng)且僅當(dāng)存在一條路徑P1P2…Pr..Pn,使得P1=P, Pn=Q,I ( i≤n-1,有?1與?1+1相鄰。
[0012]采用八連通域法確定漢字圖像的連通區(qū)域,獲取屬于同一個(gè)連通域的像素點(diǎn),并計(jì)算連通域個(gè)數(shù)。
[0013]步驟C,模板匹配法提取同一連通區(qū)域內(nèi)漢字筆劃;
[0014]本發(fā)明將同一連通區(qū)域內(nèi)漢字筆劃劃分為簡單筆劃及復(fù)雜筆劃。所謂簡單筆劃是指在一個(gè)連通域中僅有一個(gè)“橫 ”、“豎”或“點(diǎn)”筆劃,如“問”中的“豎”、“點(diǎn)”屬于簡單筆劃;復(fù)雜筆劃是指在一個(gè)連通域中包含多種筆劃的連接或包含“撇”、“捺”筆劃,如“直”僅有一個(gè)連通域,且該連通域內(nèi)筆劃屬于復(fù)雜筆劃。
[0015]為提高漢字筆劃提取效率,本發(fā)明根據(jù)連通區(qū)域形狀特征,判別漢字筆劃是簡單筆劃還是復(fù)雜筆劃,并分類處理兩類筆劃。
[0016]以漢字圖像的左上角為坐標(biāo)原點(diǎn),向右、向下方向分別為X軸、Y軸的正方向建立直角坐標(biāo)系。對任一連通域,獲取區(qū)域內(nèi)像素點(diǎn)個(gè)數(shù)num, X軸方向上的最小值minx、最大值 maxx,y 軸方向上的最小值miny、最大值maxy。
[0017]判別簡單筆劃。當(dāng)式子
【權(quán)利要求】
1.一種基于模板匹配及曲線擬合的視頻字幕細(xì)化方法,其特征在于,包括步驟: A視頻子眷中漢子圖像的犾取; B確定漢字圖像的連通區(qū)域; C模板匹配法提取同一連通區(qū)域內(nèi)漢字筆劃; D曲線擬合法重繪漢字筆劃,實(shí)現(xiàn)視頻字幕細(xì)化。
2.根據(jù)權(quán)利要求1所述的基于模板匹配及曲線擬合的視頻字幕細(xì)化方法,其特征在于,所述視頻字幕中漢字圖像的獲取包括: 將一段視頻的每一幀保存為8位的灰度圖;對含有重復(fù)字幕的幀進(jìn)行去重,對空字幕的幀進(jìn)行刪除,獲取有效幀;將獲得的字幕區(qū)進(jìn)行二值化,并設(shè)置背景色為白色,前景色即漢字顏色為黑色;通過對字幕的掃描及分割,獲取每個(gè)漢字的上、下、左、右邊界,從而提取視頻子眷中漢子圖像。
3.根據(jù)權(quán)利要求1所述的基于模板匹配及曲線擬合的視頻字幕細(xì)化方法,其特征在于,采用八連通域法確定漢字圖像的連通區(qū)域,獲取屬于同一個(gè)連通域的像素點(diǎn),并計(jì)算連通域個(gè)數(shù)。
4.根據(jù)權(quán)利要求1和權(quán)利要求3所述的基于模板匹配及曲線擬合的視頻字幕細(xì)化方法,其特征在于,將同一連通區(qū)域內(nèi)漢字筆劃分為簡單筆劃及復(fù)雜筆劃兩類進(jìn)行處理: 簡單筆劃是指在一個(gè)連通域中僅有一個(gè)“橫”、“豎”或“點(diǎn)”筆劃,如“問”中的“豎”、“點(diǎn)”屬于簡單筆劃; 復(fù)雜筆劃是指在一個(gè)連通域中包含多種筆劃的連接或包含“撇”、“捺”筆劃,如“直”僅有一個(gè)連通域,且該連通域內(nèi)筆劃屬于復(fù)雜筆劃。
5.根據(jù)權(quán)利要求4所述的基于模板匹配及曲線擬合的視頻字幕細(xì)化方法,其特征在于,根據(jù)像素覆蓋情況判斷同一連通域漢字筆劃類別: 以漢字圖像的左上角為坐標(biāo)原點(diǎn),向右、向下方向分別為X軸、Y軸的正方向建立直角坐標(biāo)系;當(dāng)式子
6.根據(jù)權(quán)利要求1所述的基于模板匹配及曲線擬合的視頻字幕細(xì)化方法,其特征在于,設(shè)計(jì)模板匹配法提取同一連通區(qū)域內(nèi)漢字筆劃,其基本思想是指: 采用長度分別為Ip 12、13、I4個(gè)像素大小的橫線段、豎線段、斜率為I的斜線段、斜率為-1的斜線段做模板,應(yīng)用四種模板分別對連通域內(nèi)像素點(diǎn)進(jìn)行掃描匹配,提取“橫”、“豎”、“撇”、“捺”筆劃。
7.根據(jù)權(quán)利要求6所述的基于模板匹配及曲線擬合的視頻字幕細(xì)化方法,其特征在于: 采用長度為I1個(gè)像素的橫線段做模板,對連通域內(nèi)像素點(diǎn)進(jìn)行逐行迭代掃描并標(biāo)記,即當(dāng)點(diǎn)(X。,y0)與點(diǎn)(Xc^l1-1, y0)及其中間像素點(diǎn)均為黑點(diǎn)時(shí),對點(diǎn)(xQ,y0)到點(diǎn)(xo+lrl, y0)之間的所有像素點(diǎn)作標(biāo)記,并將模板向右移動(dòng)一個(gè)像素,掃描完成后,對做標(biāo)記的點(diǎn)形成的一幅新圖像采用四連通域法進(jìn)行連通域掃描,得到每個(gè)連通域即為一個(gè)“橫”筆劃; “豎”筆劃的提取與“橫”筆劃的提取類似,以長度為I2個(gè)像素的豎線段做模板,對連通域內(nèi)像素點(diǎn)進(jìn)行逐列迭代掃描并標(biāo)記提取筆劃; 采用長度為I3個(gè)像素、斜率為I的斜線段做模板,對連通域內(nèi)像素點(diǎn)以模板方向進(jìn)行掃描標(biāo)記,即當(dāng)點(diǎn)(X(i,yd和點(diǎn)(Χ(τ13+1, yd+l3-l)及中間點(diǎn)均為黑點(diǎn)時(shí),對點(diǎn)(Xtl, yj到點(diǎn)(x0-l3+l, y0+l3-D之間的所有像素點(diǎn)作標(biāo)記,并將模板向右移動(dòng)一個(gè)像素,在完成全部掃描后,對標(biāo)記的點(diǎn)形成的新圖像采用八連通域法進(jìn)行連通域掃描,得到的每一個(gè)連通域即為一個(gè)“撇”筆劃; “捺”筆劃的提取與“橫”筆劃的提取類似,采用長度為I4個(gè)像素、斜率為-1的斜線段做模板,對連通域內(nèi)像素點(diǎn)以模板的方向進(jìn)行掃描并標(biāo)記提取筆劃。
8.根據(jù)權(quán)利要求1和權(quán)利要求7所述的基于模板匹配及曲線擬合的視頻字幕細(xì)化方法,其特征在于,對提取的漢字筆劃采用不同的曲線擬合重繪: 對提取的“橫”、“豎”筆劃分別用水平、豎直線段進(jìn)行重繪;對提取的“撇”、“捺”筆劃,采用二次Bezier曲線進(jìn)行重繪;對提取的“點(diǎn)”筆劃,采用斜線段進(jìn)行重繪。
9.根據(jù)權(quán)利要求8所述的基于模板匹配及曲線擬合的視頻字幕細(xì)化方法,其特征在于,采用水平、豎直 線段重繪“橫”、“豎”筆劃: 對提取的“橫”筆劃,若其像素點(diǎn)在坐標(biāo)系中的縱坐標(biāo)從Y1化到y(tǒng)2 ( Y1 < I2),橫坐標(biāo)從X1變化到X2 (X1 < χ2),則細(xì)化“橫”筆劃的水平線段,縱坐標(biāo)為,橫坐標(biāo)從Xl+bre到x2-bre依次遞增,其中bre設(shè)為漢字筆劃的平均像素寬度的一半; 同“橫”筆劃的重繪相似,細(xì)化“豎”筆劃的豎直線段,橫坐標(biāo)為備,縱坐標(biāo)從Yi+bre到y(tǒng)2-bre依次遞增。
10.根據(jù)權(quán)利要求8所述的基于模板匹配及曲線擬合的視頻字幕細(xì)化方法,其特征在于,采用二次Bezier曲線重繪“撇”、“捺”筆劃是指: 設(shè)PciU1, Y1)、P2 (x2,12)為“撇”或“捺”的兩個(gè)端點(diǎn),以線段PtlP2為斜邊,作直角三角形P0PP2^gP1(XJ)為 Rt Λ PtlPP2 的內(nèi)心,由 P。、PpP2K決定的二次 Bezier 曲線B(t) = (1~ if P0 + 2r(l ~I)J? +1%, I e [0,1] 為擬合“撇”、“捺”筆劃的曲線。
11.根據(jù)權(quán)利要求8所述的基于模板匹配及曲線擬合的視頻字幕細(xì)化方法,其特征在于,采用斜線段重繪“點(diǎn)”筆劃: 設(shè)“點(diǎn)”筆劃的兩端點(diǎn)分別為P1 (X1, yx)、P2(χ2, y2),該線段斜率為;
?Λ-η Λ-? 當(dāng)-1 < k < O時(shí),“點(diǎn)”筆劃趨于更坡的方向,此時(shí)使用X表示y的函數(shù)進(jìn)行重繪“點(diǎn)”筆劃:y=kX (X-X1); 當(dāng)k < -1時(shí),“點(diǎn)”筆劃趨于更陡的方向,此時(shí)使用y表示X的函數(shù)進(jìn)行重繪“點(diǎn)”筆劃=X=(Yi1)/k+Xp
【文檔編號】G06K9/20GK104021385SQ201310066629
【公開日】2014年9月3日 申請日期:2013年3月2日 優(yōu)先權(quán)日:2013年3月2日
【發(fā)明者】呂學(xué)強(qiáng), 李欽瑞 申請人:北京信息科技大學(xué)