一種基于數(shù)字圖像處理的光學(xué)字符識(shí)別方法
【專利摘要】本發(fā)明公開了一種基于數(shù)字圖像處理的光學(xué)字符識(shí)別方法,包括以下步驟:步驟一、對(duì)原始彩色數(shù)字圖像進(jìn)行灰度化處理,得到灰度圖像;步驟二、對(duì)所述灰度圖像進(jìn)行二值化處理,得到二值化圖像;步驟三、判斷所述二值化圖像的大小是否超出圖像大小閾值,如果是,則對(duì)所述二值化圖像的大小進(jìn)行調(diào)整,得到待識(shí)別圖像,否則將二值化圖像作為待識(shí)別圖像;步驟四、對(duì)所述待識(shí)別圖像進(jìn)行光學(xué)字符識(shí)別,得到所述待識(shí)別圖像中的文本信息。本發(fā)明對(duì)原始彩色數(shù)字圖像進(jìn)行分析處理,但并未影響原始彩色數(shù)字圖像本身的質(zhì)量,大大提高了OCR識(shí)別的識(shí)別速度和識(shí)別率。
【專利說明】一種基于數(shù)字圖像處理的光學(xué)字符識(shí)別方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種光學(xué)字符識(shí)別方法,尤其涉及一種基于數(shù)字圖像處理的光學(xué)字符識(shí)別方法。
【背景技術(shù)】
[0002]數(shù)字圖像是生產(chǎn)生活各領(lǐng)域視覺信息的主要媒介,OCR技術(shù)是從數(shù)字圖像的一個(gè)重要應(yīng)用方面。0CR(0ptical Character Recognition,光學(xué)字符識(shí)別)技術(shù)是通過檢測(cè)圖像像素灰度值、分析像素點(diǎn)分布構(gòu)成的形狀計(jì)算得出計(jì)算機(jī)識(shí)別的字符的過程,節(jié)省人力且避免手工輸入帶來的疏漏,更準(zhǔn)確真實(shí)的還原圖像中的文字信息。近些年,信息自動(dòng)化、辦公自動(dòng)化以及硬件設(shè)備的發(fā)展給OCR技術(shù)的進(jìn)步帶來了機(jī)會(huì)和挑戰(zhàn)。
[0003]影響OCR技術(shù)發(fā)展的因素很多,而數(shù)字圖像本身的質(zhì)量問題則是其中主要的原因。衡量OCR技術(shù)的標(biāo)準(zhǔn)主要包括:字符識(shí)別率、拒識(shí)率、識(shí)別速度等。數(shù)字圖像形成過程中的光照及噪音等因素影響、掃描儀或照相機(jī)等電子設(shè)備本身(圖像分辨率、圖像大小等)的性能因素以及圖像制作人技術(shù)的能力,可能造成圖像曝光過度、曝光不足、分辨率過低、圖像過大或過小、圖像文字不完整等問題。因此,造成圖像OCR識(shí)別速度慢、識(shí)別率低。
【發(fā)明內(nèi)容】
[0004]針對(duì)上述技術(shù)問題,本發(fā)明提供一種基于數(shù)字圖像處理的光學(xué)字符識(shí)別方法,本方法在OCR識(shí)別之前,先對(duì)原始彩色數(shù)字圖像進(jìn)行分析、加工和處理,大大提高了圖像OCR的識(shí)別速度和識(shí)別率。
[0005]本發(fā)明提供的技術(shù)方案為:
[0006]一種基于數(shù)字圖像處理的光學(xué)字符識(shí)別方法,包括以下步驟:
[0007]步驟一、對(duì)原始彩色數(shù)字圖像進(jìn)行灰度化處理,得到灰度圖像;
[0008]步驟二、對(duì)所述灰度圖像進(jìn)行二值化處理,得到二值化圖像;
[0009]步驟三、判斷所述二值化圖像的大小是否超出圖像大小范圍,如果是,則對(duì)所述二值化圖像的大小進(jìn)行調(diào)整,得到待識(shí)別圖像,否則將二值化圖像作為待識(shí)別圖像;
[0010]步驟四、對(duì)所述待識(shí)別圖像進(jìn)行光學(xué)字符識(shí)別,得到所述待識(shí)別圖像中的文本信肩、O
[0011]優(yōu)選的是,所述的基于數(shù)字圖像處理的光學(xué)字符識(shí)別方法中,所述步驟一中,對(duì)原始彩色數(shù)字圖像進(jìn)行灰度化處理,得到灰度圖像,具體通過以下過程實(shí)現(xiàn):
[0012]逐個(gè)處理所述原始彩色數(shù)字圖像中所有的像素點(diǎn),從而得到灰度圖像,其中,對(duì)于所述原始彩色數(shù)字圖像中的任一個(gè)像素點(diǎn),先計(jì)算該像素點(diǎn)的灰度值Gray (i,j),再將灰度值Gray(i,j)賦予該像素點(diǎn)的R分量、G分量和B分量,灰度值的計(jì)算公式為:Gray(i,j) =0.299 X R(i,j) +0.587 XG (i,j) +0.114XB (i,j),其中,R(i,j)、G (i,j)和 B (i,j)分別代表所述原始彩色數(shù)字圖像中一個(gè)像素點(diǎn)(i,j)的R分量值、G分量值和B分量值,(i,j)代表一個(gè)像素點(diǎn)在所述原始彩色數(shù)字圖像中的坐標(biāo)。[0013]優(yōu)選的是,所述的基于數(shù)字圖像處理的光學(xué)字符識(shí)別方法中,所述步驟二中,對(duì)所述灰度圖像進(jìn)行二值化處理,得到二值化圖像,具體通過以下過程實(shí)現(xiàn):
[0014]利用OTSU算法獲取所述灰度圖像的二值化閾值,逐個(gè)比較所述灰度圖像中的所有的像素點(diǎn)的灰度值與二值化閾值,如一個(gè)像素點(diǎn)的灰度值大于二值化閾值,則為該像素點(diǎn)賦值255,否則為該像素點(diǎn)賦值O。
[0015]優(yōu)選的是,所述的基于數(shù)字圖像處理的光學(xué)字符識(shí)別方法中,所述步驟三中,對(duì)所述二值化圖像的大小進(jìn)行調(diào)整,得到待識(shí)別圖像,具體通過以下過程實(shí)現(xiàn):
[0016]依據(jù)所述原始彩色數(shù)字圖像的高寬比例,等比例縮小所述二值化圖像,從而得到待識(shí)別圖像。
[0017]優(yōu)選的是,所述的基于數(shù)字圖像處理的光學(xué)字符識(shí)別方法中,所述步驟四中,對(duì)所述待識(shí)別圖像進(jìn)行光學(xué)字符識(shí)別,得到所述待識(shí)別圖像中的文本信息,具體通過以下過程實(shí)現(xiàn):
[0018]先判斷所述待識(shí)別圖像中字符語言類別,根據(jù)所判斷出的字符語言類別,利用微軟MODI進(jìn)行光學(xué)字符識(shí)別,得到待識(shí)別圖像中的文本信息。
[0019]優(yōu)選的是,所述的基于數(shù)字圖像處理的光學(xué)字符識(shí)別方法中,所述步驟四之后,還包括步驟五:
[0020]對(duì)所述文本信息進(jìn)行處理,使所述文本信息保持原始彩色數(shù)字圖像的版面樣式。
[0021]本發(fā)明所述的光學(xué)字符識(shí)別方法首先對(duì)原始彩色數(shù)字圖像依次進(jìn)行灰度化、二值化以及圖像大小的調(diào)整,之后再對(duì)得到的待識(shí)別圖像進(jìn)行光學(xué)字符識(shí)別,從待識(shí)別圖像中獲取文本信息。本發(fā)明對(duì)原始彩色數(shù)字圖像進(jìn)行分析處理,但并未影響原始彩色數(shù)字圖像本身的質(zhì)量,大大提高了 OCR識(shí)別的識(shí)別速度和識(shí)別率。
【專利附圖】
【附圖說明】
[0022]圖1為本發(fā)明所述的基于數(shù)字圖像處理的光學(xué)字符識(shí)別方法的流程圖。
【具體實(shí)施方式】
[0023]下面結(jié)合附圖對(duì)本發(fā)明做進(jìn)一步的詳細(xì)說明,以令本領(lǐng)域技術(shù)人員參照說明書文字能夠據(jù)以實(shí)施。
[0024]如圖1所示,本發(fā)明提供一種基于數(shù)字圖像處理的光學(xué)字符識(shí)別方法,包括以下步驟:
[0025]步驟一、對(duì)原始彩色數(shù)字圖像進(jìn)行灰度化處理,得到灰度圖像;
[0026]步驟二、對(duì)所述灰度圖像進(jìn)行二值化處理,得到二值化圖像;
[0027]步驟三、判斷所述二值化圖像的大小是否超出圖像大小范圍,如果是,則對(duì)所述二值化圖像的大小進(jìn)行調(diào)整,得到待識(shí)別圖像,否則將二值化圖像作為待識(shí)別圖像;
[0028]步驟四、對(duì)所述待識(shí)別圖像進(jìn)行光學(xué)字符識(shí)別,得到所述待識(shí)別圖像中的文本信肩、O
[0029]本發(fā)明主要可以分為兩個(gè)部分:處理原始彩色數(shù)字圖像(步驟一至步驟三)以及OCR識(shí)別(步驟四)。具體來說:
[0030](I)處理原始彩色數(shù)字圖像步驟:[0031]原始彩色數(shù)字圖像的各像素點(diǎn)可由三個(gè)字節(jié)表示,其數(shù)值分別對(duì)應(yīng)著R、G、B三個(gè)分量,其中任何一個(gè)分量值與其他分量值不同均表現(xiàn)為彩色圖像,通過計(jì)算將彩色圖像三個(gè)分量值修改為相同值,就可以得到與之對(duì)應(yīng)的灰度圖像。本發(fā)明采用準(zhǔn)確度最高的灰度化算法:Gray(i,j)=0.299XR(i,j)+0.587XG(i,j)+0.114XB(i,j)來處理輸入原始圖像,得到新的灰度圖像。
[0032]即步驟一中,對(duì)原始彩色數(shù)字圖像進(jìn)行灰度化處理,得到灰度圖像,具體通過以下過程實(shí)現(xiàn):逐個(gè)處理所述原始彩色數(shù)字圖像中所有的像素點(diǎn),從而得到灰度圖像,其中,對(duì)于所述原始彩色數(shù)字圖像中的任一個(gè)像素點(diǎn),先計(jì)算該像素點(diǎn)的灰度值Gray (i,j),再將灰度值Gray(i,j)賦予該像素點(diǎn)的R分量、G分量和B分量,灰度值的計(jì)算公式為:Gray(i,j) =0.299 X R (i,j) +0.587 XG (i,j) +0.114XB (i,j),其中,R(i,j)、G (i,j)和 B (i,j)分別代表所述原始彩色數(shù)字圖像中一個(gè)像素點(diǎn)(i,j)的R分量值、G分量值和B分量值,(i,j)代表一個(gè)像素點(diǎn)在所述原始彩色數(shù)字圖像中的坐標(biāo)。
[0033]確定二值化閾值是二值化處理中最首要最關(guān)鍵的部分,本發(fā)明使用OTSU算法自動(dòng)獲取灰度圖像的二值化閾值。OTSU算法是首先設(shè)定一個(gè)值,從而將灰度圖像分為背景與目標(biāo)兩個(gè)類別,計(jì)算兩類的方差數(shù),在類內(nèi)最小方差數(shù)而類間最大方差數(shù)對(duì)應(yīng)的值即為灰度圖像的最優(yōu)閾值。
[0034]灰度圖像二值化處理過程中,二值化是指以閾值為標(biāo)志,將灰度圖像的各像素點(diǎn)二值化處理,最終使圖像呈現(xiàn)黑白兩色(顏色值表示為:0或255),使圖像輪廓對(duì)比更清晰,線條更明顯,從而字符形狀更突出,達(dá)到更好的OCR識(shí)別效果。
[0035]具體來說,所述步驟二中,對(duì)所述灰度圖像進(jìn)行二值化處理,得到二值化圖像,具體通過以下過程實(shí)現(xiàn):利用OTSU算法獲取所述灰度圖像的二值化閾值,逐個(gè)比較所述灰度圖像中的所有的像素點(diǎn)的灰度值與二值化閾值,如一個(gè)像素點(diǎn)的灰度值大于二值化閾值,則為該像素點(diǎn)賦值255,否則為該像素點(diǎn)賦值O。
[0036]原始彩色數(shù)字圖像以字節(jié)表示大小,而原始彩色數(shù)字圖像過大會(huì)影響OCR識(shí)別速度以及識(shí)別率。因此,在所述步驟三中,判斷所述二值化圖像的大小是否超出圖像大小范圍,如果是,則保持原始彩色數(shù)字圖像高寬比例,等比例縮小二值化圖像,從而得到大小適度的待識(shí)別圖像,否則將二值化圖像作為待識(shí)別圖像。在一個(gè)優(yōu)選的實(shí)施方式中,所述圖像大小范圍即像素(Height高與Width寬)控制在(100*100至2000*2000)范圍內(nèi)。此范圍值大小為最適合MODI技術(shù)識(shí)別區(qū)域,對(duì)識(shí)別圖像大小判定做等比例縮小或放大得到大小合適的圖像。
[0037](2) OCR 識(shí)別步驟:
[0038]在一種實(shí)施方式中,所述步驟四中,對(duì)所述待識(shí)別圖像進(jìn)行光學(xué)字符識(shí)別,得到所述待識(shí)別圖像中的文本信息,具體通過以下過程實(shí)現(xiàn):先判斷所述待識(shí)別圖像中字符語言類別,根據(jù)所判斷出的字符語言類別,利用微軟MODI進(jìn)行光學(xué)字符識(shí)別,得到待識(shí)別圖像中的文本信息。
[0039]具體來說,針對(duì)上述字符語言類別參數(shù)判定,所輸入的原始彩色數(shù)字圖像對(duì)象應(yīng)包含字符語言類別參數(shù),如中文、英文、日文等。針對(duì)不同來源的原始彩色數(shù)字圖像,微軟MODI的枚舉類MiLANGUAGES提供了 21類語言,能準(zhǔn)確識(shí)別出不同語言文本信息。本發(fā)明還可以選擇其他的OCR識(shí)別工具,都可以取得提高識(shí)別率和識(shí)別速度的效果。[0040]之后由微軟MODI進(jìn)行OCR識(shí)別,使用MOD1.Document實(shí)例的Create方法,取出文檔實(shí)例的Images [O]賦值給MOD1.1mage實(shí)例,再用圖像實(shí)例的OCR方法識(shí)別字符信息,獲取圖像對(duì)象的Layout實(shí)例并判定其字符數(shù)NumChars屬性,若不為O,則取其Text屬性即為OCR識(shí)別出的文本信息。
[0041]在更為優(yōu)選的一種實(shí)施方式中,在所述步驟四之后還包括步驟五,還對(duì)所述文本信息進(jìn)行處理,使所述文本信息保持原始彩色數(shù)字圖像的版面樣式。即上述OCR識(shí)別過程中,字符串返回,處理得到的Text文本信息,使其保持原始彩色數(shù)字圖像的版面樣式,即分段、換行等不能錯(cuò)亂。
[0042]盡管本發(fā)明的實(shí)施方案已公開如上,但其并不僅僅限于說明書和實(shí)施方式中所列運(yùn)用,它完全可以被適用于各種適合本發(fā)明的領(lǐng)域,對(duì)于熟悉本領(lǐng)域的人員而言,可容易地實(shí)現(xiàn)另外的修改,因此在不背離權(quán)利要求及等同范圍所限定的一般概念下,本發(fā)明并不限于特定的細(xì)節(jié)和這里示出與描述的圖例。
【權(quán)利要求】
1.一種基于數(shù)字圖像處理的光學(xué)字符識(shí)別方法,其特征在于,包括以下步驟: 步驟一、對(duì)原始彩色數(shù)字圖像進(jìn)行灰度化處理,得到灰度圖像; 步驟二、對(duì)所述灰度圖像進(jìn)行二值化處理,得到二值化圖像; 步驟三、判斷所述二值化圖像的大小是否超出圖像大小范圍,如果是,則對(duì)所述二值化圖像的大小進(jìn)行調(diào)整,得到待識(shí)別圖像,否則將二值化圖像作為待識(shí)別圖像; 步驟四、對(duì)所述待識(shí)別圖像進(jìn)行光學(xué)字符識(shí)別,得到所述待識(shí)別圖像中的文本信息。
2.如權(quán)利要求1所述的基于數(shù)字圖像處理的光學(xué)字符識(shí)別方法,其特征在于,所述步驟一中,對(duì)原始彩色數(shù)字圖像進(jìn)行灰度化處理,得到灰度圖像,具體通過以下過程實(shí)現(xiàn): 逐個(gè)處理所述原始彩色數(shù)字圖像中所有的像素點(diǎn),從而得到灰度圖像,其中,對(duì)于所述原始彩色數(shù)字圖像中的任一個(gè)像素點(diǎn),先計(jì)算該像素點(diǎn)的灰度值Gray (i,j),再將灰度值Gray(i,j)賦予該像素點(diǎn)的R分量、G分量和B分量,灰度值的計(jì)算公式為:Gray(i,j) =0.299 X R(i,j) +0.587 XG (i,j) +0.114XB (i,j),其中,R(i,j)、G (i,j)和 B (i,j)分別代表所述原始彩色數(shù)字圖像中一個(gè)像素點(diǎn)(i,j)的R分量值、G分量值和B分量值,(i,j)代表一個(gè)像素點(diǎn)在所述原始彩色數(shù)字圖像中的坐標(biāo)。
3.如權(quán)利要求1所述的基于數(shù)字圖像處理的光學(xué)字符識(shí)別方法,其特征在于,所述步驟二中,對(duì)所述灰度圖像進(jìn)行二值化處理,得到二值化圖像,具體通過以下過程實(shí)現(xiàn): 利用OTSU算法獲取所述灰度圖像的二值化閾值,逐個(gè)比較所述灰度圖像中的所有的像素點(diǎn)的灰度值與二值化閾值,如一個(gè)像素點(diǎn)的灰度值大于二值化閾值,則為該像素點(diǎn)賦值255,否則為該像素點(diǎn)賦值O。
4.如權(quán)利要求1所述的基于數(shù)字圖像處理的光學(xué)字符識(shí)別方法,其特征在于,所述步驟三中,對(duì)所述二值化圖像的大小進(jìn)行調(diào)整,得到待識(shí)別圖像,具體通過以下過程實(shí)現(xiàn): 依據(jù)所述原始彩色數(shù)字圖像的高寬比例,等比例縮小或放大所述二值化圖像,從而得到待識(shí)別圖像。
5.如權(quán)利要求1至4中任一項(xiàng)所述的基于數(shù)字圖像處理的光學(xué)字符識(shí)別方法,其特征在于,所述步驟四中,對(duì)所述待識(shí)別圖像進(jìn)行光學(xué)字符識(shí)別,得到所述待識(shí)別圖像中的文本信息,具體通過以下過程實(shí)現(xiàn): 先判斷所述待識(shí)別圖像中字符語言類別,根據(jù)所判斷出的字符語言類別,利用微軟MODI進(jìn)行光學(xué)字符識(shí)別,得到待識(shí)別圖像中的文本信息。
6.如權(quán)利要求5所述的基于數(shù)字圖像處理的光學(xué)字符識(shí)別方法,其特征在于,所述步驟四之后,還包括步驟五: 對(duì)所述文本信息進(jìn)行處理,使所述文本信息保持原始彩色數(shù)字圖像的版面樣式。
【文檔編號(hào)】G06K9/20GK103530625SQ201310517718
【公開日】2014年1月22日 申請(qǐng)日期:2013年10月28日 優(yōu)先權(quán)日:2013年10月28日
【發(fā)明者】龍曉春, 楊愛民 申請(qǐng)人:北京金和軟件股份有限公司