欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

圖像處理方法和裝置與流程

文檔序號(hào):12041852閱讀:159來(lái)源:國(guó)知局
圖像處理方法和裝置與流程
本發(fā)明一般涉及圖像處理,更具體地,涉及用于識(shí)別文檔圖像的取向的方法和裝置。

背景技術(shù):
在對(duì)文檔圖像(諸如掃描頁(yè)面)進(jìn)行處理時(shí),由于例如通過(guò)掃描儀、照相機(jī)等圖像輸入設(shè)備獲取的文檔圖像有可能相對(duì)于其實(shí)際取向發(fā)生了旋轉(zhuǎn)(例如,旋轉(zhuǎn)了90°、180°、270°),因此需要對(duì)文檔圖像進(jìn)行取向識(shí)別。下列文獻(xiàn)提供了文檔圖像取向識(shí)別的方法的示例:RanjithUnnikrishnan,“CombinedScriptandPageOrientationEstimationusingtheTesseractOCRengine”,ICDAR2009;萬(wàn)鑫,“文本圖像的校正方法”,CN101833648A;ZhigangFan,“Pageorientationdetectionbasedonselectivecharacterrecognition”,US2009/0274392A1。

技術(shù)實(shí)現(xiàn)要素:
傳統(tǒng)的方法所針對(duì)的對(duì)象主要是比較標(biāo)準(zhǔn)的文檔圖像,但如果待處理的文檔圖像是圖文混雜,或者以圖像為主的話,上面所列舉的這些方法的處理效果就不佳了。本發(fā)明提供一種對(duì)文檔圖像進(jìn)行取向識(shí)別方法和裝置,其能夠快速地以高準(zhǔn)確度判斷整個(gè)文檔圖像的取向。根據(jù)本發(fā)明的一個(gè)實(shí)施例,一種圖像處理方法包括步驟:生成圖像的第一尺度的二值圖,其中第一尺度小于圖像的原始尺度;基于第一尺度的二值圖,檢測(cè)圖像中的至少一個(gè)文本行;生成圖像的第二尺度的二值圖,其中第二尺度大于第一尺度;針對(duì)每個(gè)文本行,計(jì)算第一尺度的二值圖中的相應(yīng)部分與第二尺度的二值圖中的相應(yīng)部分之間的相似度,并將相似度低于預(yù)定水平的文本行作為噪聲去除;針對(duì)未被去除的文本行中的一個(gè)或更多個(gè),對(duì)第二尺度的二值圖中的相應(yīng)部分進(jìn)行光學(xué)字符識(shí)別以確定相應(yīng)文本行的文字取向;以及根據(jù)所確定的文字取向確定圖像的取向?;诘谝怀叨鹊亩祱D檢測(cè)文本行的步驟包括:基于第一尺度的二值圖,檢測(cè)水平文本行和豎直文本行;以及在檢測(cè)到的水平文本行和豎直文本行重疊的情況下,基于第一尺度的二值圖檢測(cè)重疊區(qū)域的文本塊取向,并將與文本塊取向不一致的文本行作為噪聲去除。根據(jù)本發(fā)明的另一個(gè)實(shí)施例,一種圖像處理裝置包括:第一尺度二值圖生成部分,被配置為生成圖像的第一尺度的二值圖,其中第一尺度小于圖像的原始尺度;文本行檢測(cè)部分,被配置為基于第一尺度的二值圖,檢測(cè)圖像中的至少一個(gè)文本行;第二尺度二值圖生成部分,被配置為生成圖像的第二尺度的二值圖,其中第二尺度大于第一尺度;噪聲去除部分,被配置為針對(duì)每個(gè)文本行,計(jì)算第一尺度的二值圖中的相應(yīng)部分與第二尺度的二值圖中的相應(yīng)部分之間的相似度,并將相似度低于預(yù)定水平的文本行作為噪聲去除;光學(xué)字符識(shí)別部分,被配置為對(duì)第二尺度的二值圖中的相應(yīng)部分進(jìn)行光學(xué)字符識(shí)別以確定相應(yīng)文本行的文字取向;以及圖像取向確定部分,被配置為根據(jù)所確定的文字取向確定圖像的取向。文本行檢測(cè)部分被配置為:基于第一尺度的二值圖,檢測(cè)水平文本行和豎直文本行;以及在檢測(cè)到的水平文本行和豎直文本行重疊的情況下,基于第一尺度的二值圖檢測(cè)重疊區(qū)域的文本塊取向,并將與文本塊取向不一致的文本行作為噪聲去除。附圖說(shuō)明參照以下結(jié)合附圖對(duì)本發(fā)明實(shí)施例的說(shuō)明,會(huì)更加容易地理解本發(fā)明的以上和其它目的、特點(diǎn)和優(yōu)點(diǎn)。為了避免因不必要的細(xì)節(jié)而模糊了本發(fā)明,在附圖中僅示出了與根據(jù)本發(fā)明的方案密切相關(guān)的裝置結(jié)構(gòu)和/或處理步驟,而省略了與本發(fā)明關(guān)系不大的其它細(xì)節(jié)。圖1是圖解根據(jù)本發(fā)明實(shí)施例的圖像處理方法的流程圖;圖2a和圖2b是示出文本行檢測(cè)的示例的示意圖;圖3a至圖3c是示出在水平文本行和豎直文本行重疊的情況下,基于重疊部分的文本塊的取向確定噪聲文本行的示例的示意圖;圖4a和圖4b是分別示出利用基于二值圖的像素投影和筆畫(huà)投影來(lái)識(shí)別噪聲文本行的示例的示意圖;圖5是示出基于第一尺度二值圖和第二尺度二值圖的比較來(lái)確定噪聲文本行的示例的示意圖;圖6是圖解根據(jù)本發(fā)明實(shí)施例的圖像處理裝置的配置示例的框圖;以及圖7是示出實(shí)現(xiàn)本發(fā)明的方法和裝置的計(jì)算機(jī)的示例性結(jié)構(gòu)的框圖。具體實(shí)施方式下面參照附圖說(shuō)明本發(fā)明的實(shí)施例。應(yīng)當(dāng)注意,為了清楚的目的,附圖和說(shuō)明中省略了與本發(fā)明無(wú)關(guān)的、本領(lǐng)域普通技術(shù)人員已知的部件和處理的表示和描述。下面參照?qǐng)D1的流程圖說(shuō)明根據(jù)本發(fā)明實(shí)施例的圖像處理方法的處理過(guò)程。在步驟S110,生成圖像的第一尺度的二值圖,其中第一尺度小于圖像的原始尺度。這里,圖像的尺度是指以像素為單位的圖像尺寸,其中,大尺度對(duì)應(yīng)于高分辨率,小尺度對(duì)應(yīng)于低分辨率??梢酝ㄟ^(guò)對(duì)處理目標(biāo)圖像的灰度圖像進(jìn)行下采樣和二值化來(lái)生成第一尺度二值圖。其中,可以采用多種方式對(duì)圖像進(jìn)行下采樣,例如,可以將圖像縮小為其原尺度的1/N,或者將圖像縮小到某個(gè)指定的尺度。另外,可以采用多種已有方法進(jìn)行圖像的二值化處理,例如:Otsu方法(http://en.wikipedia.org/wiki/Otsu's_method);或者J.Sauvola,M.Pietikainen,“Adaptivedocumentimagebinarization”,PatternRecognition33,2000,pp.225-236中所述的方法。接下來(lái),在步驟S120,基于第一尺度的二值圖,檢測(cè)圖像中的至少一個(gè)文本行?;谛〕叨鹊亩祱D進(jìn)行文本行檢測(cè)的一個(gè)目的是提高文本行檢測(cè)的速度??梢圆捎帽绢I(lǐng)域已知的多種方法基于二值圖檢測(cè)圖像中的文本行。下面結(jié)合圖2描述一種示例方式:首先,通過(guò)連通部件(CC)分析找出二值圖中的連通部件,可以利用連通部件的大小過(guò)濾掉一些明顯不屬于文字的連通部件。然后,基于經(jīng)過(guò)濾的連通部件檢測(cè)可能的水平文本行和豎直文本行。以檢測(cè)水平文本行為例,如圖2所示,可以選擇某一連通部件作為初始連通部件,以初始連通部件的大小作為初始文本行的大小,分別向左和向右進(jìn)行搜索。搜索的范圍可以由當(dāng)前文本行的高度決定,例如,搜索高度可以設(shè)置為初始連通部件的高度tl_h,搜索寬度可以設(shè)置為2×tl_h。如果在該搜索范圍內(nèi)存在目標(biāo)連通部件,則比較該目標(biāo)連通部件和當(dāng)前文本行沿水平方向的投影的重合度(例如在圖2b中,tl_h和cc_h沿水平方向的投影的重合部分的比例),如果該重合度在預(yù)定的范圍內(nèi),則將候選連通部件加入到當(dāng)前文本行中,將文本行的范圍進(jìn)行更新,并繼續(xù)向左或向右搜索,直到搜索范圍內(nèi)沒(méi)有符合條件的連通部件為止。另外,豎直方向的文本行檢測(cè)也可以通過(guò)類似方式實(shí)現(xiàn)。應(yīng)理解,本發(fā)明的方法和裝置可采用的檢測(cè)文本行的方式不限于上述具體方式,也可以采用本領(lǐng)域已知的其它方法,例如基于投影的方法、基于紋理的方法等。另外,在基于第一尺度的二值圖分別檢測(cè)水平文本行和豎直文本行時(shí),有可能出現(xiàn)這樣的情況:某一區(qū)域內(nèi)的聯(lián)通部件既被檢測(cè)為水平文本行的部分,又被檢測(cè)為豎直文本行的部分,也就是說(shuō),檢測(cè)出的某些水平文本行和豎直文本行彼此重疊。顯然,在這種情況下,其中的一種文本行很可能是噪聲文本行。針對(duì)這種情況,根據(jù)本發(fā)明一個(gè)實(shí)施例的圖像處理方法可以包括步驟:基于第一尺度的二值圖檢測(cè)重疊區(qū)域的文本塊取向,并將與文本塊取向不一致的文本行作為噪聲去除。例如,如圖3a至圖3c所示,對(duì)于同一區(qū)域,分別通過(guò)水平文本行檢測(cè)和豎直文本行檢測(cè)得到了水平文本行H-1至H-4(如圖3a所示)以及豎直文本行V-1和V-2(如圖3b所示),在這種情況下,可以利用已有的方法,例如基于投影的方法或者如CN102375988A中所述的方法來(lái)確定重疊區(qū)域(例如圖3c所示)的文本塊的取向(即,水平取向或豎直取向),并將與該文本塊的取向不一致的文本行作為噪聲去除,在所示出的示例中,在確定圖3c的文本塊為水平取向的情況下,將圖3b所示的豎直文本行V-1和V-2識(shí)別為噪聲。此外,除了上述水平文本行和豎直文本行重疊的情況之外,由于背景噪聲等原因,還可能存在其它的噪聲文本行。因此,根據(jù)本發(fā)明的一個(gè)實(shí)施例,基于第一尺度的二值圖檢測(cè)文本行的步驟還可以包括:基于第一尺度的二值圖,利用基于紋理的方法和/或二值投影方法估計(jì)文本行的置信度,并將置信度低于預(yù)定水平的文本行作為噪聲去除。其中,基于紋理的方法例如可以采用XiangrongChen,AlanL.Yuille:DetectingandReadingTextinNaturalScenes.CVPR(2)2004:366-373中所述的基于灰度圖像的噪聲文本去除方法,該方法利用灰度圖像中的紋理特征來(lái)判斷圖像塊中是文字還是背景噪聲。另外,也可以采用其它方法,例如K.I.Kim,et,al."Texture-BasedApproachforTextDetectioninImagesUsingSupportVectorMachinesandContinuouslyAdaptiveMeanShiftAlgorithm",IEEETransactiononPatternAnalysisandMachineIntelligence,v25,n12,2003,pp1631-1639或者Y.F.Pan,et,al."TextLocalizationinNaturalSceneImagesbasedonConditionalRandomField",InternationalConferenceonDocumentAnalysisandRecognition,pp.6-10中所述的方法,基于紋理特征估計(jì)文本行的置信度。另一方面,二值投影方法是基于二值圖像進(jìn)行的,該方法利用水平方向或豎直方向的像素投影和/或筆畫(huà)投影來(lái)確定噪聲文本行。圖4a和圖4b是分別示出利用基于二值圖的像素投影和筆畫(huà)投影來(lái)識(shí)別噪聲文本行的示例的示意圖。其中,圖4a中所示的噪聲文本行HF-1被錯(cuò)誤地識(shí)別為單個(gè)文本行,而其實(shí)際上包含兩行文字。在這種情況下,可以通過(guò)對(duì)文本行HF-1執(zhí)行沿水平方向的黑像素投影,并根據(jù)黑像素分布特征(例如,對(duì)于HF-1,黑像素分布在其實(shí)際包含的兩行文字之間會(huì)存在顯著的波谷)來(lái)確定其是否為噪聲文本行。另外,圖4b中所示的噪聲文本行HF-2被錯(cuò)誤地識(shí)別為一個(gè)水平文本行,而其實(shí)際上包含多個(gè)豎直文本行,其中每個(gè)豎直文本行被錯(cuò)誤地當(dāng)成了單個(gè)文字。對(duì)于這種情況,可以利用沿豎直方向的筆畫(huà)投影來(lái)統(tǒng)計(jì)平均的筆畫(huà)個(gè)數(shù),由于豎直文本行的筆畫(huà)數(shù)量顯著多于單個(gè)文字的筆畫(huà)數(shù)量,因此可以根據(jù)由筆畫(huà)投影得到的筆畫(huà)數(shù)量去除由于文本行取向判斷錯(cuò)誤而產(chǎn)生的噪聲文本行。本領(lǐng)域技術(shù)人員能夠明白,基于紋理的方法和/或二值投影方法確定噪聲文本行的方式不限于以上所述的具體方式。另外,為了進(jìn)一步提高處理速度,可以不對(duì)檢測(cè)出的全部文本行進(jìn)行后續(xù)的處理,而是可以選取若干文本行作為候選文本行,并只對(duì)候選文本行進(jìn)行后續(xù)處理。根據(jù)本發(fā)明的一個(gè)實(shí)施例,僅針對(duì)長(zhǎng)寬比大于預(yù)定閾值的文本行中尺寸最大的N個(gè)文本行執(zhí)行下面將要描述的基于第二尺度的二值圖的步驟,其中N≥1。根據(jù)具體實(shí)施例,長(zhǎng)寬比的閾值例如是3:1。另外,可以以水平文本行的高度或豎直文本行寬度作為文本行的尺寸。下面,返回參照?qǐng)D1,在步驟S130,生成圖像的第二尺度的二值圖,其中第二尺度大于第一尺度。根據(jù)一個(gè)實(shí)施例,第二尺度是圖像的原始尺度。生成第二尺度的二值圖時(shí)所采用的二值化方法可以是與生成第一尺度二值圖的方法相同或不同的方法。另外,在生成第二尺度二值圖之后,還可以基于第二尺度二值圖對(duì)先前檢測(cè)出的文本行進(jìn)行進(jìn)一步的去噪處理。類似地,基于第二尺度二值圖的去噪處理也可以采用基于紋理的方法和/或二值投影方法。然而,由于基于紋理的方法需要較大計(jì)算量,為了進(jìn)一步提高處理速度,對(duì)于第二尺度的二值圖,可以只采用基于二值投影方法進(jìn)行噪聲文本行去除。因此,根據(jù)一個(gè)實(shí)施例,在生成第二尺度的二值圖的步驟之后還可以包括步驟:基于第二尺度的二值圖,利用二值投影方法估計(jì)所述文本行的置信度,并將置信度低于預(yù)定水平的文本行作為噪聲去除。接下來(lái),在步驟S140,針對(duì)每個(gè)文本行,計(jì)算第一尺度的二值圖中的相應(yīng)部分與第二尺度的二值圖中的相應(yīng)部分之間的相似度,并將相似度低于預(yù)定水平的文本行作為噪聲去除。該步驟主要基于對(duì)以下事實(shí)的認(rèn)識(shí):對(duì)于真正的文本行來(lái)說(shuō),小尺度和大尺度下的二值化結(jié)果具有較高的相似度,而對(duì)于噪聲文本行來(lái)說(shuō),基于不同尺度、或者利用不同二值化方法得到的二值圖像的區(qū)別通常較大。例如,如圖5所示,對(duì)于文本行而言,雖然其在第一尺度二值圖和第二尺度二值圖中的相應(yīng)部分(例如圖中所示的圖中所示的文本行二值圖1和文本行二值圖2)的尺度不同,但其相似度(即形狀匹配程度)較高。而對(duì)于背景圖像部分而言,兩個(gè)二值圖中的相應(yīng)部分(例如圖中所示的背景二值圖1和背景二值圖2)之間的相似度較低。因此,可以利用兩個(gè)二值化結(jié)果的相似度來(lái)判斷一個(gè)文本行是否是噪聲文本行。如本領(lǐng)域技術(shù)人員已知的,可以采用多種具體方式表征相似度,即形狀匹配程度。例如,如以下參考文獻(xiàn)所述:K.Siddiqi,A.Shokoufandeh,"Shockgraphsandshapematching",InternationalJournalofComputerVision,30,1,1999;S.Belongie,J.Malik,J.Puzicha,"Shapecontext:anewdescriptorforshapematchingandobjectrecognition",NeuralInformationProcessingSystems(NISP),pp831-837,2000。以下給出計(jì)算第一尺度的二值圖與第二尺度的二值圖中的相應(yīng)部分之間的相似度,以及根據(jù)所計(jì)算的相似度確定相應(yīng)文本行是否為噪聲文本行的一個(gè)具體實(shí)施方式,當(dāng)然,步驟S140的實(shí)施方式不限于此。假設(shè)NS代表第一尺度二值圖中的黑像素點(diǎn)的個(gè)數(shù),對(duì)于第一尺度二值圖中的黑像素點(diǎn)中的每個(gè),找到第二尺度二值圖中的對(duì)應(yīng)點(diǎn),如果這個(gè)對(duì)應(yīng)點(diǎn)也是黑像素,或者這個(gè)對(duì)應(yīng)點(diǎn)的上下左右4個(gè)點(diǎn)中有一點(diǎn)是黑像素,那么在將計(jì)數(shù)器MS的計(jì)數(shù)加1。其中,MS代表第一尺度二值圖的黑像素點(diǎn)中能夠在第二尺度二值圖中找到匹配點(diǎn)的點(diǎn)計(jì)數(shù)。類似地,假設(shè)NL代表第二尺度二值圖中的黑像素點(diǎn)個(gè)數(shù),對(duì)于第二尺度二值圖中的黑像素點(diǎn)中的每個(gè),找到第一尺度二值圖中的對(duì)應(yīng)點(diǎn),如果這個(gè)點(diǎn)是黑像素,或者這個(gè)對(duì)應(yīng)點(diǎn)的上下左右4個(gè)點(diǎn)中有一點(diǎn)是黑像素,那么在ML這個(gè)計(jì)數(shù)器中增加1。ML代表第二尺度二值圖的黑像素點(diǎn)中能夠在第一尺度二值圖中找到匹配點(diǎn)的點(diǎn)計(jì)數(shù)。如果MS>r1×NS并且ML>r2×NL,則相應(yīng)文本行為真,否則將其作為噪聲去除,其中例如r1=r2=0.9。返回參考圖1,在步驟S150,針對(duì)未被作為噪聲去除的文本行中的一個(gè)或更多個(gè),對(duì)第二尺度的二值圖中的相應(yīng)部分進(jìn)行光學(xué)字符識(shí)別(OCR)以確定相應(yīng)文本行的文字取向。接下來(lái),在步驟S160,根據(jù)所確定的文字取向確定圖像的取向?yàn)榱颂岣咛幚硭俣?,可以不根?jù)所有文本行的文字取向,而僅根據(jù)部分文本行的文字取向確定整個(gè)圖像的取向。另一方面,為了提高取向識(shí)別的準(zhǔn)確度,應(yīng)選取最有利于獲得可靠的光學(xué)字符識(shí)別結(jié)果的文本行,并基于這些文本行的文字取向確定圖像的取向。因此,根據(jù)一個(gè)實(shí)施例,在確定文字取向的步驟之前還包括步驟:基于第二尺度的二值圖,根據(jù)以下因素中的一個(gè)或更多個(gè)確定文本行的優(yōu)先級(jí):文本行的尺寸;基于紋理確定的文本行置信度;以及文本行的灰度方差。其中:文本行的尺寸可以是水平文本行的高度或豎直文本行的寬度。文本行的尺寸越大,越有利于光學(xué)字符識(shí)別,因此將尺寸較大的文本行賦予較高的優(yōu)先級(jí);基于紋理確定的文本行置信度可以是如上所述作為去除噪聲文本行的參考的利用基于紋理的方法估計(jì)的文本行置信度。該置信度通常是一個(gè)(-1,1)范圍內(nèi)的數(shù),例如,該置信度越大代表越有可能是文本行,該置信度越小代表越有可能是背景噪聲,因此將文本行置信度較高的文本行賦予較高的優(yōu)先級(jí);文本行的灰度方差越大,意味著文本行中的字符的清晰程度越大,也就越有利于光學(xué)字符識(shí)別,因此將灰度方差較大的文本行賦予較高的優(yōu)先級(jí)。可以將這些要素中的一個(gè)或更多個(gè)通過(guò)相加或相乘等方式結(jié)合在一起,以綜合地決定文本行的優(yōu)先級(jí)。從而,在確定文字取向的步驟中,可以按照所確定的優(yōu)先級(jí)順序依次確定文本行的文字取向。另外,根據(jù)本發(fā)明的一個(gè)實(shí)施例,在根據(jù)文本行的文字取向確定圖像的取向的步驟中,可以通過(guò)以下方式確定圖像的取向:根據(jù)按照所確定的優(yōu)先級(jí)的順序依次確定的文字取向進(jìn)行投票,并且當(dāng)?shù)闷弊疃嗟娜∠虻钠睌?shù)與得票第二多的取向的票數(shù)之差達(dá)到預(yù)定閾值時(shí),將圖像的取向確定為得票最多的取向,如果投票過(guò)程中未檢測(cè)到票數(shù)之差達(dá)到該預(yù)定閾值,則將圖像的取向確定為最終得票最多的取向。例如,對(duì)于按照優(yōu)先級(jí)排序的文本行,基于第二尺度二值圖,對(duì)文本行圖像旋轉(zhuǎn)4個(gè)方向(0°,90°,180°,270°)后的圖像分別進(jìn)行光學(xué)字符識(shí)別??梢越⒁粋€(gè)投票表,累計(jì)每個(gè)取向的投票數(shù)。對(duì)于每個(gè)文本行,將光學(xué)字符識(shí)別中的平均識(shí)別置信度最高的取向確定為該文本行的取向,并給對(duì)應(yīng)取向投一票,將得票最多的取向識(shí)別為整個(gè)圖像的取向。此外,為了進(jìn)一步提高處理速度,可以實(shí)時(shí)監(jiān)視票數(shù)最多的取向的票數(shù)和票數(shù)第二多的取向的票數(shù)的差值,當(dāng)該差值大于預(yù)定數(shù)值(例如,2)時(shí),可以不再進(jìn)行后續(xù)的文本行識(shí)別,并將票數(shù)最多的取向確定為整個(gè)文檔圖像的取向識(shí)別的結(jié)果。如果根據(jù)所有文本行的取向進(jìn)行了投票之后仍未檢測(cè)到上述票數(shù)差值大于預(yù)定數(shù)值,則將最終得票最多的取向確定為整個(gè)文檔圖像的取向。最后,在通過(guò)上述步驟沒(méi)有檢測(cè)到文本行的情況下,可以對(duì)圖像進(jìn)行反色處理,并進(jìn)行同樣的處理過(guò)程。圖6是圖解根據(jù)本發(fā)明實(shí)施例的圖像處理裝置600的配置示例的框圖。圖像處理裝置600包括:第一尺度二值圖生成部分610、文本行檢測(cè)部分620、第二尺度二值圖生成部分630、噪聲去除部分640、光學(xué)字符識(shí)別部分650以及圖像取向確定部分660。第一尺度二值圖生成部分610被配置為生成圖像的第一尺度的二值圖,其中第一尺度小于所述圖像的原始尺度;文本行檢測(cè)部分620被配置為基于第一尺度的二值圖,檢測(cè)圖像中的至少一個(gè)文本行;第二尺度二值圖生成部分630被配置為生成圖像的第二尺度的二值圖,其中第二尺度大于所述第一尺度;噪聲去除部分640被配置為針對(duì)每個(gè)文本行,計(jì)算第一尺度的二值圖中的相應(yīng)部分與第二尺度的二值圖中的相應(yīng)部分之間的相似度,并將相似度低于預(yù)定水平的文本行作為噪聲去除;光學(xué)字符識(shí)別部分650被配置為對(duì)第二尺度的二值圖中的相應(yīng)部分進(jìn)行光學(xué)字符識(shí)別以確定相應(yīng)文本行的文字取向;圖像取向確定部分660被配置為根據(jù)文字取向確定所述圖像的取向。根據(jù)本發(fā)明的一個(gè)實(shí)施例,圖像處理裝置還包括優(yōu)先級(jí)確定部分,被配置為基于第二尺度的二值圖,根據(jù)以下因素中的一個(gè)或更多個(gè)確定文本行的優(yōu)先級(jí):文本行的尺寸;基于紋理確定的文本行置信度;以及文本行的灰度方差,并且光學(xué)字符識(shí)別部分按照所確定的優(yōu)先級(jí)的順序依次確定文本行的文字取向。根據(jù)本發(fā)明的一個(gè)實(shí)施例,圖像取向確定部分包括投票單元,被配置為根據(jù)光學(xué)字符識(shí)別部分依次確定的文字取向進(jìn)行投票,并且圖像取向確定部分被配置為當(dāng)?shù)闷弊疃嗟娜∠虻钠睌?shù)與得票第二多的取向的票數(shù)之差達(dá)到預(yù)定閾值時(shí),將圖像的取向確定為得票最多的取向,如果投票過(guò)程中未檢測(cè)到票數(shù)之差達(dá)到預(yù)定閾值,則將圖像的取向確定為最終得票最多的取向。根據(jù)本發(fā)明的一個(gè)實(shí)施例,噪聲去除部分還被配置為基于第一尺度的二值圖,利用基于紋理的方法和/或二值投影方法估計(jì)文本行的置信度,并將置信度低于預(yù)定水平的文本行作為噪聲去除。根據(jù)本發(fā)明的一個(gè)實(shí)施例,噪聲去除部分還被配置為基于第二尺度的二值圖,利用二值投影方法估計(jì)文本行的置信度,并將置信度低于預(yù)定水平的文本行作為噪聲去除。根據(jù)本發(fā)明一個(gè)實(shí)施例的圖像處理裝置還包括文本行篩選部分,被配置為僅選取長(zhǎng)寬比大于預(yù)定閾值的文本行中尺寸最大的N個(gè)文本行,并且圖像處理裝置僅針對(duì)文本行篩選部分選取的文本行執(zhí)行與第二尺度的二值圖有關(guān)的部分的處理。根據(jù)本發(fā)明一個(gè)實(shí)施例的圖像處理裝置還包括文本塊取向檢測(cè)部分,被配置為在文本行檢測(cè)部分檢測(cè)到的水平文本行和豎直文本行重疊的情況下,基于第一尺度的二值圖檢測(cè)重疊區(qū)域的文本塊取向,并且噪聲去除部分還被配置為,將重疊的水平文本行和豎直文本行中與文本塊取向不一致的文本行作為噪聲去除。利用根據(jù)本發(fā)明實(shí)施例的圖像處理方法和裝置,通過(guò)基于小尺度的二值圖進(jìn)行文本行檢測(cè),能夠顯著減小文本行檢測(cè)所需的計(jì)算量,從而提高處理速度;另外,通過(guò)將小尺度二值圖與大尺度二值圖進(jìn)行比較來(lái)去除噪聲文本行,能夠提高文本行檢測(cè)的準(zhǔn)確度,從而以更高的準(zhǔn)確度識(shí)別整個(gè)文檔圖像的取向。此外,通過(guò)按照優(yōu)先級(jí)的順序?qū)λR(shí)別的文本行進(jìn)行光學(xué)字符識(shí)別,并通過(guò)投票的方式根據(jù)文本行的取向確定圖像的取向,能夠在保證識(shí)別準(zhǔn)確度的情況下進(jìn)一步提高圖像取向識(shí)別的速度。所屬技術(shù)領(lǐng)域的技術(shù)人員知道,本發(fā)明可以體現(xiàn)為裝置、方法或計(jì)算機(jī)程序產(chǎn)品。因此,本發(fā)明可以具體實(shí)現(xiàn)為以下形式,即,可以是完全的硬件、完全的軟件(包括固件、駐留軟件、微代碼等)、或者軟件部分與硬件部分的組合。此外,本發(fā)明還可以采取體現(xiàn)在任何有形的表達(dá)介質(zhì)中的計(jì)算機(jī)程序產(chǎn)品的形式,該介質(zhì)中包含計(jì)算機(jī)可用的程序碼??梢允褂靡粋€(gè)或多個(gè)計(jì)算機(jī)可讀介質(zhì)的任何組合。計(jì)算機(jī)可讀介質(zhì)可以是計(jì)算機(jī)可讀信號(hào)介質(zhì)或計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)例如可以是,但不限于,電的、磁的、光的、電磁的、紅外線的、或半導(dǎo)體的系統(tǒng)、裝置、器件或傳播介質(zhì)、或前述各項(xiàng)的任何適當(dāng)?shù)慕M合。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)的更具體的例子(非窮舉的列表)包括:有一個(gè)或多個(gè)導(dǎo)線的電連接、便攜式計(jì)算機(jī)磁盤、硬盤、隨機(jī)存取存儲(chǔ)器(RAM)、只讀存儲(chǔ)器(ROM)、可擦式可編程只讀存儲(chǔ)器(EPROM或閃存)、光纖、便攜式緊湊磁盤只讀存儲(chǔ)器(CD-ROM)、光存儲(chǔ)器件、磁存儲(chǔ)器件、或前述各項(xiàng)的任何適當(dāng)?shù)慕M合。在本文語(yǔ)境中,計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)可以是任何含有或存儲(chǔ)供指令執(zhí)行系統(tǒng)、裝置或器件使用的或與指令執(zhí)行系統(tǒng)、裝置或器件相聯(lián)系的程序的有形介質(zhì)。用于執(zhí)行本發(fā)明的操作的計(jì)算機(jī)程序碼,可以以一種或多種程序設(shè)計(jì)語(yǔ)言的任何組合來(lái)編寫,所述程序設(shè)計(jì)語(yǔ)言包括面向?qū)ο蟮某绦蛟O(shè)計(jì)語(yǔ)言—諸如Java、Smalltalk、C++之類,還包括常規(guī)的過(guò)程式程序設(shè)計(jì)語(yǔ)言—諸如”C”程序設(shè)計(jì)語(yǔ)言或類似的程序設(shè)計(jì)語(yǔ)言。程序碼可以完全地在用戶的計(jì)算機(jī)上執(zhí)行、部分地在用戶的計(jì)算機(jī)上執(zhí)行、作為一個(gè)獨(dú)立的軟件包執(zhí)行、部分在用戶的計(jì)算機(jī)上部分在遠(yuǎn)程計(jì)算機(jī)上執(zhí)行、或者完全在遠(yuǎn)程計(jì)算機(jī)或服務(wù)器上執(zhí)行。在后一種情形中,遠(yuǎn)程計(jì)算機(jī)可以通過(guò)任何種類的網(wǎng)絡(luò)—包括局域網(wǎng)(LAN)或廣域網(wǎng)(WAN)—連接到用戶的計(jì)算機(jī),或者,可以(例如利用因特網(wǎng)服務(wù)提供商來(lái)通過(guò)因特網(wǎng))連接到外部計(jì)算機(jī)。圖7是示出實(shí)現(xiàn)本發(fā)明的設(shè)備和方法的計(jì)算機(jī)700的示例性結(jié)構(gòu)的框圖。在圖7中,中央處理單元(CPU)701根據(jù)只讀存儲(chǔ)器(ROM)702中存儲(chǔ)的程序或從存儲(chǔ)部分708加載到隨機(jī)存取存儲(chǔ)器(RAM)703的程序執(zhí)行各種處理。在RAM703中,也根據(jù)需要存儲(chǔ)當(dāng)CPU701執(zhí)行各種處理等等時(shí)所需的數(shù)據(jù)。CPU701、ROM702和RAM703經(jīng)由總線704彼此連接。輸入/輸出接口705也連接到總線704。下述部件連接到輸入/輸出接口705:輸入部分706,包括鍵盤、鼠標(biāo)等等;輸出部分707,包括顯示器,比如陰極射線管(CRT)、液晶顯示器(LCD)等等,和揚(yáng)聲器等等;存儲(chǔ)部分708,包括硬盤等等;和通信部分709,包括網(wǎng)絡(luò)接口卡比如LAN卡、調(diào)制解調(diào)器等等。通信部分709經(jīng)由網(wǎng)絡(luò)比如因特網(wǎng)執(zhí)行通信處理。根據(jù)需要,驅(qū)動(dòng)器710也連接到輸入/輸出接口705??梢瞥橘|(zhì)711比如磁盤、光盤、磁光盤、半導(dǎo)體存儲(chǔ)器等等根據(jù)需要被安裝在驅(qū)動(dòng)器710上,使得從中讀出的計(jì)算機(jī)程序根據(jù)需要被安裝到存儲(chǔ)部分708中。在通過(guò)軟件實(shí)現(xiàn)上述步驟和處理的情況下,從網(wǎng)絡(luò)比如因特網(wǎng)或存儲(chǔ)介質(zhì)比如可移除介質(zhì)711安裝構(gòu)成軟件的程序。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,這種存儲(chǔ)介質(zhì)不局限于圖7所示的其中存儲(chǔ)有程序、與方法相分離地分發(fā)以向用戶提供程序的可移除介質(zhì)711。可移除介質(zhì)711的例子包含磁盤、光盤(包含光盤只讀存儲(chǔ)器(CD-ROM)和數(shù)字通用盤(DVD))、磁光盤(包含迷你盤(MD))和半導(dǎo)體存儲(chǔ)器?;蛘撸鎯?chǔ)介質(zhì)可以是ROM702、存儲(chǔ)部分708中包含的硬盤等等,其中存有程序,并且與包含它們的方法一起被分發(fā)給用戶。權(quán)利要求中的對(duì)應(yīng)結(jié)構(gòu)、操作以及所有功能性限定的裝置或步驟的等同替換,旨在包括任何用于與在權(quán)利要求中具體指出的其它單元相組合地執(zhí)行該功能的結(jié)構(gòu)或操作。所給出的對(duì)本發(fā)明的描述其目的在于示意和描述,并非是窮盡性的,也并非是要把本發(fā)明限定到所表述的形式。對(duì)于所屬技術(shù)領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),在不偏離本發(fā)明范圍和精神的情況下,顯然可以作出許多修改和變型。對(duì)實(shí)施例的選擇和說(shuō)明,是為了最好地解釋本發(fā)明的原理和實(shí)際應(yīng)用,使所屬技術(shù)領(lǐng)域的普通技術(shù)人員能夠明了,本發(fā)明可以有適合所要的特定用途的具有各種改變的各種實(shí)施方式。附記附記1.一種圖像處理方法,包括步驟:生成圖像的第一尺度的二值圖,其中所述第一尺度小于所述圖像的原始尺度;基于所述第一尺度的二值圖,檢測(cè)所述圖像中的至少一個(gè)文本行;生成所述圖像的第二尺度的二值圖,其中所述第二尺度大于所述第一尺度;針對(duì)每個(gè)所述文本行,計(jì)算所述第一尺度的二值圖中的相應(yīng)部分與所述第二尺度的二值圖中的相應(yīng)部分之間的相似度,并將所述相似度低于預(yù)定水平的文本行作為噪聲去除;針對(duì)未被去除的所述文本行中的一個(gè)或更多個(gè),對(duì)所述第二尺度的二值圖中的相應(yīng)部分進(jìn)行光學(xué)字符識(shí)別以確定相應(yīng)文本行的文字取向;以及根據(jù)所述文字取向確定所述圖像的取向。附記2.如附記1所述的方法,在確定所述文字取向的步驟之前還包括步驟:基于所述第二尺度的二值圖,根據(jù)以下因素中的一個(gè)或更多個(gè)確定所述文本行的優(yōu)先級(jí):文本行的尺寸;基于紋理確定的文本行置信度;以及文本行的灰度方差,并且在確定所述文字取向的步驟中,按照所述優(yōu)先級(jí)的順序依次確定所述文本行的文字取向。附記3.如附記2所述的方法,在根據(jù)所述文字取向確定所述圖像的取向的步驟中,通過(guò)以下方式確定所述圖像的取向:根據(jù)按照所述優(yōu)先級(jí)的順序依次確定的所述文字取向進(jìn)行投票,并且當(dāng)?shù)闷弊疃嗟娜∠虻钠睌?shù)與得票第二多的取向的票數(shù)之差達(dá)到預(yù)定閾值時(shí),將所述圖像的取向確定為所述得票最多的取向,如果投票過(guò)程中未檢測(cè)到所述票數(shù)之差達(dá)到所述預(yù)定閾值,則將所述圖像的取向確定為最終得票最多的取向。附記4.如附記1所述的方法,其中,基于所述第一尺度的二值圖檢測(cè)文本行的步驟還包括:基于所述第一尺度的二值圖,利用基于紋理的方法和/或二值投影方法估計(jì)所述文本行的置信度,并將置信度低于預(yù)定水平的文本行作為噪聲去除。附記5.如附記1所述的方法,在生成所述第二尺度的二值圖的步驟之后還包括步驟:基于所述第二尺度的二值圖,利用二值投影方法估計(jì)所述文本行的置信度,并將置信度低于預(yù)定水平的文本行作為噪聲去除。附記6.如附記1-5中任一項(xiàng)所述的方法,其中,僅針對(duì)長(zhǎng)寬比大于預(yù)定閾值的文本行中尺寸最大的N個(gè)文本行執(zhí)行基于所述第二尺度的二值圖的步驟,其中N≥1。附記7.如附記1-5中任一項(xiàng)所述的方法,其中,基于所述第一尺度的二值圖檢測(cè)文本行的步驟包括:基于所述第一尺度的二值圖,檢測(cè)水平文本行和豎直文本行;以及在檢測(cè)到的水平文本行和豎直文本行重疊的情況下,基于所述第一尺度的二值圖檢測(cè)重疊區(qū)域的文本塊取向,并將與所述文本塊取向不一致的文本行作為噪聲去除。附記8.一種圖像處理裝置,包括:第一尺度二值圖生成部分,被配置為生成圖像的第一尺度的二值圖,其中所述第一尺度小于所述圖像的原始尺度;文本行檢測(cè)部分,被配置為基于所述第一尺度的二值圖,檢測(cè)所述圖像中的至少一個(gè)文本行;第二尺度二值圖生成部分,被配置為生成所述圖像的第二尺度的二值圖,其中所述第二尺度大于所述第一尺度;噪聲去除部分,被配置為針對(duì)每個(gè)所述文本行,計(jì)算所述第一尺度的二值圖中的相應(yīng)部分與所述第二尺度的二值圖中的相應(yīng)部分之間的相似度,并將所述相似度低于預(yù)定水平的文本行作為噪聲去除;光學(xué)字符識(shí)別部分,被配置為針對(duì)未被去除的所述文本行中的一個(gè)或更多個(gè),對(duì)所述第二尺度的二值圖中的相應(yīng)部分進(jìn)行光學(xué)字符識(shí)別以確定相應(yīng)文本行的文字取向;以及圖像取向確定部分,被配置為根據(jù)所述文字取向確定所述圖像的取向。附記9.如附記8所述的裝置,還包括優(yōu)先級(jí)確定部分,被配置為基于所述第二尺度的二值圖,根據(jù)以下因素中的一個(gè)或更多個(gè)確定所述文本行的優(yōu)先級(jí):文本行的尺寸;基于紋理確定的文本行置信度;以及文本行的灰度方差,并且所述光學(xué)字符識(shí)別部分按照所述優(yōu)先級(jí)的順序依次確定所述文本行的文字取向。附記10.如附記9所述的裝置,其中,所述圖像取向確定部分包括投票單元,被配置為根據(jù)所述光學(xué)字符識(shí)別部分依次確定的所述文字取向進(jìn)行投票,并且所述圖像取向確定部分被配置為:當(dāng)?shù)闷弊疃嗟娜∠虻钠睌?shù)與得票第二多的取向的票數(shù)之差達(dá)到預(yù)定閾值時(shí),將所述圖像的取向確定為所述得票最多的取向,如果投票過(guò)程中未檢測(cè)到所述票數(shù)之差達(dá)到所述預(yù)定閾值,則將所述圖像的取向確定為最終得票最多的取向。附記11.如附記8所述的裝置,其中,所述噪聲去除部分還被配置為基于所述第一尺度的二值圖,利用基于紋理的方法和/或二值投影方法估計(jì)所述文本行的置信度,并將置信度低于預(yù)定水平的文本行作為噪聲去除。附記12.如附記8所述的裝置,其中,所述噪聲去除部分還被配置為:基于所述第二尺度的二值圖,利用二值投影方法估計(jì)所述文本行的置信度,并將置信度低于預(yù)定水平的文本行作為噪聲去除。附記13.如附記8-12中任一項(xiàng)所述的裝置,還包括文本行篩選部分,被配置為選取長(zhǎng)寬比大于預(yù)定閾值的文本行中尺寸最大的N個(gè)文本行,其中N≥1,并且所述圖像處理裝置被配置為僅針對(duì)所述篩選部分選取的文本行執(zhí)行基于所述第二尺度的二值圖的處理。附記14.如附記8-12中任一項(xiàng)所述的裝置,還包括:文本塊取向檢測(cè)部分,被配置為在所述文本行檢測(cè)部分檢測(cè)到的水平文本行和豎直文本行重疊的情況下,基于所述第一尺度的二值圖檢測(cè)重疊區(qū)域的文本塊取向,并且所述噪聲去除部分還被配置為,將重疊的水平文本行和豎直文本行中與所述文本塊取向不一致的文本行作為噪聲去除。
當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
宁晋县| 淮安市| 昭通市| 丁青县| 潼南县| 鄂温| 西青区| 滨海县| 建宁县| 大埔区| 南宫市| 蒲江县| 达孜县| 舒城县| 社旗县| 岑巩县| 昌吉市| 呼图壁县| 土默特左旗| 天柱县| 开原市| SHOW| 上林县| 松原市| 巫山县| 黄平县| 赫章县| 克拉玛依市| 科尔| 屯留县| 柳林县| 内江市| 广饶县| 南丰县| 新安县| 辽宁省| 遂平县| 磐石市| 佳木斯市| 方山县| 桦川县|