文檔圖像識別方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及多媒體信息處理領(lǐng)域,具體地說,是涉及文檔圖像識別方法。
【背景技術(shù)】
[0002] 圖像文件中有一類圖像以文字、表格等為主要內(nèi)容的,這些圖像是記錄在紙張上、 電子文檔上的文字經(jīng)過掃描、拍照、截圖等方式轉(zhuǎn)化而來的,這類圖像通常被定義為文檔圖 像。隨著互聯(lián)網(wǎng)和多媒體技術(shù)的迅速發(fā)展,文檔圖像以其固有的優(yōu)勢,一方面能提供較大的 信息量,另一方面可以規(guī)避現(xiàn)有的采集、監(jiān)測,越來越多的在互聯(lián)網(wǎng)上呈現(xiàn)。
[0003] 為此,對文檔圖像的識別,挖掘其包含的信息、實現(xiàn)圖像內(nèi)容的監(jiān)控和預(yù)警,是互 聯(lián)網(wǎng)信息挖掘及互聯(lián)網(wǎng)信息安全規(guī)范不可避免的道路。但文檔圖像通常和大量的非文檔圖 像混雜在一起,以人工方法將文檔圖像挑選出來,費時費力,且容易產(chǎn)生主觀偏見,導(dǎo)致結(jié) 果不一致;另外有一些自動識別方法,利用文檔圖像與非文檔圖像在顏色與紋理上的差異 來識別,這些方法主要根據(jù)灰度值利用概率模型進行識別,對于彩色圖像容易誤識別,且需 要配置較多的經(jīng)驗參數(shù);隨著光學(xué)字符識別(OCR)的發(fā)展,基于OCR的文檔圖像識別逐漸受 重視,OCR識別雖然準確性高,但是效率比較低,無法滿足海量數(shù)據(jù)時代的需求。
[0004] 為此,針對當(dāng)前海量圖像識別、監(jiān)測、檢索的實時性需求,本發(fā)明提出一種文檔圖 像識別方法,將單個文字看作是文檔圖像上的一個小區(qū)域,基于聚類的思想識別圖像上的 連通區(qū)域,抽取每個區(qū)域上的形狀特征、顏色特征,設(shè)計概率模型,實現(xiàn)文檔圖像的識別,以 解決當(dāng)前海量圖像識別時效率低、準確性不高的問題。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明要解決的技術(shù)問題是提供一種基于區(qū)域特征的文檔圖像識別方法,提高海 量圖像處理的效率和準確性。
[0006] 為解決當(dāng)前海量圖像識別的準確性低、效率低的問題,本發(fā)明提供了一種文檔圖 像識別方法,該方法包括: S10,圖像預(yù)處理,對圖像進行去噪和二值化處理; S20,獲取圖像連通區(qū)域,抽取圖像上所有連通區(qū)域; S30,連通區(qū)域特征抽??; S40,文檔圖像判別。
[0007] 更進一步,圖像連通區(qū)域由像素點構(gòu)成,可定義如下:對于像素點PlP Pxy,如果滿 足i-Ι彡X彡i+Ι且j-Ι彡y彡j+Ι,則ΡιΡΡΧ?屬于同一個連通區(qū)域。
[0008] 基于聚類思想,采用8連通準則,對圖像上灰度為0和255的像素點分別聚類,獲 取連通區(qū)域&={&,R 2,…,RJ,并統(tǒng)計連通區(qū)域個數(shù)記為Α。
[0009] 更進一步地,S30,連通區(qū)域特征主要從連通區(qū)域的形狀特征、顏色特征層面抽取。
[0010] S301,疑似字符識別; 二值圖像的區(qū)域填充率FR0U,定義為:區(qū)域像素點1占所有像素的比值。
[0011] 疑似字符SQ,定義為:區(qū)域長寬比AR0U小于一定閾值,且區(qū)域填充率在一定閾 值區(qū)間的連通區(qū)域。疑似字符集記為SC s,可判定如下:
其中,Ri e Rs,Υ、α、β為對應(yīng)的閾值,滿足條件的民即為疑似字符SCp SCs包含于 Rs。記圖像中疑似字符集SCsS個數(shù)為B。
[0012] S302, 一致性字符發(fā)現(xiàn); 一致性字符是指區(qū)域大小相似的疑似字符,區(qū)域大小可以通過區(qū)域面積來描述; 每個疑似字符在圖像上實際是一塊塊區(qū)域,這些區(qū)域具有一定的面積值,記每一塊區(qū) 域的面積值為SQ(S(;),這些面積值中一定存在一個或多個面積值,出現(xiàn)的次數(shù)最多,則該 次數(shù)記為C,這些面積值對應(yīng)的區(qū)域即為一致性字符。
[0013] S303,真實字符判斷; 通過疑似字符的前景色和背景色的色差來判斷,其判別方法如下: δ 0 (SC,) + δ ! (SC,) ^ 0. 6*ABS (E〇 (SC,) -Ei (SC,)) 其中,EJSCJ和SJSCJ為疑似字符背景色的均值和方差,EJSQ)和SJSCJ為疑似 字符前景色的均值和方差。滿足這個條件的疑似字符稱為真實字符,其個數(shù)記為D。
[0014] 更進一步,S40,文檔圖像判別,本發(fā)明綜合以上特征,設(shè)計概率模型來判別文檔圖 像,其判別方法如下: P=a1*Q?)+ a2*Q(C)+ a3*Q(D)+a4*B/A+a5*C/B+ a6*D/B 其中a2, ···,&(;為經(jīng)驗值,且81 + 82+…+ a6=l;(2)
概率值大于一定閾值即被識別為文檔圖像。
[0015] 本發(fā)明技術(shù)方案提供的文檔圖像識別方法,挖掘文檔圖像的區(qū)域形狀特征、顏色 特征,設(shè)計文檔圖像判別概率模型,解決了 OCR文檔圖像識別效率低、常用識別方法識別準 確性不高的問題,為文檔圖像信息抽取提供了基礎(chǔ)技術(shù)保障。
【附圖說明】
[0016] 圖1為本發(fā)明實施例提供的文檔圖像識別方法流程圖。 具體實施方案
[0017] 為使本發(fā)明實施例的目的、技術(shù)方法、及優(yōu)點更加清楚明白,以下結(jié)合附圖對本發(fā) 明實施例提供的技術(shù)方案進行詳細說明。
[0018] 如圖1所示為本發(fā)明實施例提供的文檔圖像識別方法流程圖。
[0019] S10,圖像預(yù)處理 利用小波去噪法對圖像進行去噪處理,保持圖像細節(jié),主要實現(xiàn)方式:對圖像信號進行 小波分解;對經(jīng)過層次分解后的高頻系統(tǒng)進行閾值量化;利用二維小波重構(gòu)圖像信號。采 用基于局部均值自適應(yīng)的二值化算法,以像素點局部區(qū)域的均值作為閾值,將圖像上點的 灰度置為〇或255,實現(xiàn)圖像的二值化。
[0020] S20,獲取圖像連通區(qū)域 圖像的連通區(qū)域,可定義為:對于像素點PpPq,如果滿足i-1 < X < i+Ι且 j-1彡y彡j+1,則ΡιΡΡΧ?屬于同一個連通區(qū)域; 采用區(qū)域生長算法依次完成圖像上灰度為0和255的像素點的聚類,獲取圖像上所有 連通區(qū)域札=取,R2,…,RJ,并統(tǒng)計聯(lián)通區(qū)域個數(shù)記為Α。
[0021] S30,連通區(qū)域特征抽取 主要從連通區(qū)域的形狀特征、顏色特征兩個層面抽取特征。
[0022] S301,疑似字符識別 二值圖像的區(qū)域填充率FR (民),定義為:區(qū)域像素點1占所有像素的比值; 疑似字符SQ,定義為:區(qū)域的長寬比AR0U小于一定閾值,填充率達在一定閾值區(qū)間 的連通區(qū)域??膳卸ㄈ缦拢?br>其中,民e Rs,Υ、α、β為對應(yīng)的閾值,一般Υ=2, α =〇· 1,β =〇· 9,滿足條件的民即 為疑似字符SQ,SCs包含于Rs。記圖像中疑似字符集SCs總個數(shù)為Β。
[0023] S302, 一致性字符發(fā)現(xiàn) 一致性字符是指區(qū)域大小相似的疑似字符,區(qū)域大小可以通過區(qū)域面積來描述; 計算疑似字符的區(qū)域面積,并統(tǒng)計每種面積的疑似字符數(shù)量,數(shù)量最多的區(qū)域面積對 應(yīng)的疑似字符即為一致性字符,其個數(shù)為C。
[0024] S303,真實字符判斷 通過疑似字符的前景色和背景色的色差來判斷,其判別方法如下: δ 0 (SC,) + δ ! (SC,) ^ 0. 6*ABS (E〇 (SC,) -Ei (SC,)) 其中,EJSCJ和SJSCJ為疑似字符背景色的均值和方差,EJSQ)和SJSCJ為疑似 字符前景色的均值和方差。滿足這個條件的疑似字符稱為真實字符,其個數(shù)記為D。
[0025] S40,文檔圖像判別 綜合以上多特征,設(shè)計概率模型,其判別方法如下: P=a1*Q?)+ a2*Q(C)+ a3*Q(D)+a4*B/A+a5*C/B+ a6*D/B 其中:(1)31,32,*",36為經(jīng)驗值,且3 1+32+*"+36=1,可取經(jīng)驗值為 {0. 2,0. 15,0. 1,0. 25,0. 2,0. 1} ;(2)
概率值大于一定閾值即被識別為文檔圖像,一般取P>〇. 5。
【主權(quán)項】
1. 文檔圖像識別方法,其特征在于,包括W下步驟: S10,圖像預(yù)處理,對圖像進行去噪和二值化處理; S20,獲取圖像連通區(qū)域,抽取圖像上所有連通區(qū)域; S30,連通區(qū)域內(nèi)特征抽??; S40,文檔圖像判別。2. 根據(jù)權(quán)利要求1所述的文檔圖像識別方法,其特征在于,圖像連通區(qū)域是指,圖像上 的像素點PiP Pq滿足i-1《X《i+1且j-1《y《j+1,則Pii、Pq屬于同一個連通區(qū)域。3. 根據(jù)權(quán)利要求1和權(quán)利要求2所述的文檔圖像識別方法,其特征在于,基于聚類的思 想,采用8連通準則,對圖像上灰度為O和255的像素點分別聚類,獲取連通區(qū)域,并統(tǒng)計連 通區(qū)域個數(shù),記為A。4. 根據(jù)權(quán)利要求1所述的文檔圖像識別方法,其特征在于,從區(qū)域的形狀特征、顏色特 征抽取連通區(qū)域特征,主要包括: S301,疑似字符識別; 疑似字符是指區(qū)域的長寬比小于一定闊值,填充率在一定闊值區(qū)間的連通區(qū)域,其中 填充率通過區(qū)域像素點1占所有像素的比值來描述; 5302, 一致性字符發(fā)現(xiàn); 一致性字符是指區(qū)域大小相似的疑似字符,區(qū)域大小可W通過區(qū)域面積來描述,一致 性字符的總個數(shù)記為C ; 5303, 真實字符判斷; 真實字符通過區(qū)域的前景色和背景色的色差來判定。5. 如權(quán)利要求1和權(quán)利要求4所述的文檔圖像識別方法,其特征在于,疑似字符識別方 法為:其中,氏為連通區(qū)域,AR(Ri)為區(qū)域長寬比,F(xiàn)R(Ri)為區(qū)域填充率,Y、a、目為對應(yīng)的 闊值,滿足條件的Ri即為疑似字符SCi,記圖像中疑似字符集總個數(shù)為B。6. 如權(quán)利要求1和權(quán)利要求4所述的文檔圖像識別方法,其特征在于,真實字符的判定 方法為: 5。(SCi) + 5 1 (SCi)《0. 6*ABS (E〇 (SCi) -Ei (SCi)) 其中,Ee(SCi)和6 U(SCi)為疑似字符背景色的均值和方差,Ei (SCi)和Si(SCi)為疑似 字符前景色的均值和方差。7. 滿足送個條件的疑似字符稱為真實字符,其個數(shù)記為D。8. 如權(quán)利要求1所述的文檔圖像識別方法,其特征在于,文檔圖像判別概率模型設(shè)計 如下: P=ai*Q 度)+ 曰2*0(〇+ 曰3*0 值)+曰4 地/A+as*C/B+ ae*D/B 其中:(I ) a I,a 2,…,a 6為經(jīng)驗值,且a 1+ a 2 +…+ a 6 = I ;概率值大于一定闊值即被識別為文檔圖像。
【專利摘要】文檔圖像識別方法,包括圖像預(yù)處理、獲取圖像連通區(qū)域、連通區(qū)域特征抽取、文檔圖像判別,圖像連通區(qū)域的獲取借助了聚類的思想,應(yīng)用8連通準則,對灰度值為0和255的像素點分別聚類,準確識別連通區(qū)域。連通區(qū)域特征包括形狀特征、顏色特征,主要分三種方式抽取,依次為疑似字符識別、一致性字符發(fā)現(xiàn)、真實字符判斷,特征抽取簡潔、復(fù)雜度低。實現(xiàn)了文檔圖像的準確、高效的識別,解決了文檔圖像識別性能低下的問題。
【IPC分類】G06K9/20, G06K9/00
【公開號】CN105590082
【申請?zhí)枴緾N201410563687
【發(fā)明人】施水才, 程濤
【申請人】北京拓爾思信息技術(shù)股份有限公司
【公開日】2016年5月18日
【申請日】2014年10月22日