欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種復(fù)雜結(jié)構(gòu)文檔圖像傾斜快速檢測(cè)方法

文檔序號(hào):6613639閱讀:240來(lái)源:國(guó)知局
專利名稱:一種復(fù)雜結(jié)構(gòu)文檔圖像傾斜快速檢測(cè)方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種復(fù)雜結(jié)構(gòu)文檔圖像傾斜快速檢測(cè)方法,屬于文檔圖像處理范疇。

背景技術(shù)
文檔圖像處理一般包括圖像獲取,圖像增強(qiáng),噪聲減除,傾斜檢測(cè)和校正,頁(yè)面分析,圖像檢索或者光學(xué)字符識(shí)別(OCR)等內(nèi)容。其中,文檔圖像的獲取過(guò)程是通過(guò)掃描儀或者數(shù)碼相機(jī)等數(shù)字化設(shè)備將紙張文檔轉(zhuǎn)化成數(shù)字圖像,在這個(gè)過(guò)程中,由于紙張擺放等原因,難以避免地會(huì)造成生成圖像存在一定程度上的傾斜。
以O(shè)CR或者圖像檢索為目的的文檔處理系統(tǒng),傾斜檢測(cè)通常在系統(tǒng)中屬于預(yù)處理部分。由于文檔圖像后續(xù)處理通常對(duì)圖像的傾斜非常敏感,因而傾斜檢測(cè)是這些系統(tǒng)的重要組成部分,對(duì)系統(tǒng)的性能有很大的影響,因而對(duì)傾斜檢測(cè)問(wèn)題的研究就逐漸成為文檔圖像處理的一個(gè)重要的獨(dú)立分支。
隨著時(shí)代的發(fā)展,科技的進(jìn)步,國(guó)際化交流的日益頻繁,現(xiàn)在的文檔已經(jīng)不再是傳統(tǒng)意義上單種語(yǔ)言文字的純文本了,取而代之的是包含大量圖表,混合多種語(yǔ)言文字和版式的復(fù)雜結(jié)構(gòu)文檔。在這種背景下,為適應(yīng)現(xiàn)代化文檔圖像處理系統(tǒng)的需要,研究和開(kāi)發(fā)適合復(fù)雜結(jié)構(gòu)文檔圖像特點(diǎn)的傾斜檢測(cè)算法就成了一項(xiàng)意義重大并富有挑戰(zhàn)性的工作。本文的研究目的就是針對(duì)復(fù)雜結(jié)構(gòu)文檔圖像的傾斜檢測(cè)問(wèn)題展開(kāi)研究,在兼容普通文檔圖像的基礎(chǔ)上,設(shè)計(jì)并實(shí)現(xiàn)可以適用于復(fù)雜結(jié)構(gòu)文檔圖像的傾斜檢測(cè)算法。
由于傾斜檢測(cè)在文檔圖像處理中的重要性和必要性,因而近些年來(lái)吸引了國(guó)內(nèi)外大量科研人員和機(jī)構(gòu)致力于文檔圖像傾斜檢測(cè)問(wèn)題的研究,取得了許多成果?,F(xiàn)有的文檔圖像傾斜檢測(cè)方法可分為如下幾類(1)截面投影法(Project Profile);(2)交叉相關(guān)法(CrossCorrelation);(3)Hough變換法(Hough Transform);(4)近鄰聚類法(Nearest Neighbor); 但是,對(duì)于復(fù)雜結(jié)構(gòu)的文檔圖像(這類圖像在現(xiàn)實(shí)生活中十分常見(jiàn)),以上所列的一些方法都存在缺陷,而本發(fā)明也正是在針對(duì)處理復(fù)雜結(jié)構(gòu)文檔圖像上,比之前的方法效果上有明顯改進(jìn)。
圖像結(jié)構(gòu)的復(fù)雜性主要體現(xiàn)在以下幾點(diǎn) (1)文檔中不僅有純文本,還包括圖表等各種非文本區(qū)域,甚至非文本區(qū)域占明顯優(yōu)勢(shì)。
(2)文檔的版式結(jié)構(gòu)復(fù)雜,包括橫版(文字主方向?yàn)闄M向)/縱版(文字主方向?yàn)榭v向);單欄/多欄等。
(3)文檔中包含多種語(yǔ)言文字,包括中文、英文、日文。
(4)文檔中文字的字體和字號(hào)多種多樣。
(5)文檔中文字部分可能分布零散或稀少。
本文算法的輸入是傾斜的二值文檔圖像,經(jīng)過(guò)傾斜檢測(cè)計(jì)算圖像的傾斜角度,按照傾斜角度進(jìn)行旋轉(zhuǎn)校正后,輸出為校正后的二值文檔圖像,

發(fā)明內(nèi)容
本文設(shè)計(jì)一個(gè)基于魯棒邊界段的文檔圖像傾斜檢測(cè)方法(以下簡(jiǎn)稱RBL算法),其流程如圖1所示,主要包括如下幾個(gè)步驟 預(yù)處理這部分的目的是為后續(xù)處理做準(zhǔn)備,主要包括噪聲減除,圖像增強(qiáng)等。
第一次提取邊界段經(jīng)過(guò)預(yù)處理后,文檔圖像中可能存在一些大連通區(qū)域。這些大連通區(qū)域絕大多數(shù)由非文字區(qū)域的對(duì)象構(gòu)成,它們的存在會(huì)影響到后面的處理;另一方面,這些非文字區(qū)域的大連通區(qū)域可能存在可靠的傾斜特征。因此,在預(yù)處理后,提取大連通區(qū)域的邊界段,之后將這些區(qū)域從圖像中移除。
Run-Length算法連接文字行經(jīng)過(guò)上一步,圖像中剩下的基本上是文字區(qū)域了。此時(shí)的文字區(qū)域中,文字大多是單獨(dú)的連通區(qū)域,文字行之間并不連通。為了便于文字行區(qū)域的傾斜特征提取,需要使處于同一行的文字相連通,并盡量避免不同行的文字相連通。在這里,先判斷圖像的主方向,即是橫向還是縱向。之后沿圖像的主方向,采用Run-Length算法對(duì)文字行進(jìn)行連接。
第二次提取邊界段通過(guò)上一步,文字行得以連通,形成大的連通區(qū)域。從這些大的文字行連通區(qū)域中提取邊界段,作為候選的傾斜特征。
邊界段過(guò)濾通過(guò)一個(gè)基于PCA(Principle Component Analysis,又稱主成分分析)分析的過(guò)濾算法,判斷邊界段的線性程度,從中選取線性程度足夠好的邊界段,作為可靠的傾斜特征,用來(lái)進(jìn)行傾斜角度計(jì)算。
邊界段優(yōu)化通過(guò)一個(gè)基于加權(quán)PCA分析的迭代優(yōu)化方法,減弱線性邊界段中少量噪聲點(diǎn)的影響,使邊界段成為魯棒邊界段,并計(jì)算得到每個(gè)魯棒邊界段的傾斜角度。
計(jì)算傾斜角度選取所有魯棒邊界段傾斜角度的加權(quán)中值作為整幅文檔圖像的傾斜角度。
旋轉(zhuǎn)校正圖像按照得到的傾斜角度,對(duì)圖像進(jìn)行旋轉(zhuǎn)校正,得到校正后的文檔圖像。
本發(fā)明為一種復(fù)雜結(jié)構(gòu)文檔圖像傾斜快速檢測(cè)方法,其步驟為 1)預(yù)處理文檔圖像,對(duì)原始圖像進(jìn)行噪聲減除,標(biāo)定連通區(qū)域; 2)提取大連通區(qū)域邊界段,同時(shí)移除大連通區(qū)域,若不存在大連通區(qū)域則跳到下一步; 3)連接文字行和相鄰區(qū)域,提取邊界段; 4)對(duì)提取的邊界段進(jìn)行過(guò)濾,得到可靠的傾斜特征; 5)根據(jù)傾斜特征計(jì)算整幅文檔圖像的傾斜角度。
進(jìn)一步,所述預(yù)處理文檔圖像還包括對(duì)噪聲減除后的圖像進(jìn)行歸一化處理,圖像增強(qiáng),填補(bǔ)小背景區(qū)域。
進(jìn)一步,所述填補(bǔ)小背景區(qū)域的方法為首先反著用LC算法標(biāo)定連通背景區(qū)域;對(duì)于該區(qū)域所包含的前景像素的個(gè)數(shù)sum值小于一定閾值的連通背景區(qū)域,將屬于該區(qū)域的所有背景像素設(shè)為前景像素。
進(jìn)一步,連接文字行和相鄰區(qū)域的方法為 1)計(jì)算橫向和縱向平均距離,其方法如下 ①定義兩個(gè)參數(shù)橫向有效距離個(gè)數(shù)h_sum和總距離dist,并將二者初始化為0; ②對(duì)圖像進(jìn)行逐行遍歷對(duì)于同一行的兩個(gè)相鄰的前景像素,計(jì)算相鄰兩個(gè)像素之間背景像素的個(gè)數(shù)n,如果滿足0<n<n_max,則有h_sum=h_sum+1,dist=dist+n,其中n_max為最大間隔閾值; ③通過(guò)h_dist=dist/h_sum得到橫向平均距離h_dist; 同理,定義并求出縱向有效距離個(gè)數(shù)v_sum,縱向平均距離v_dist; 2)判斷文檔圖像的主方向,其規(guī)則如下 ①若h_sum>3×v_sum,則主方向?yàn)闄M向; ②若v_sum>3×h_sum,則主方向?yàn)榭v向; ③若①,②均不滿足,則比較h_dist,v_dist,如果h_dist<v_dist,則主方向?yàn)闄M向,反之,主方向?yàn)榭v向; 3)采用Run-Length算法沿主方向進(jìn)行相鄰區(qū)域連接。
進(jìn)一步,上述提取邊界段的方法為 (1)對(duì)每個(gè)連通區(qū)域,判斷其寬度大小,如果其寬度大于某一閾值min_size,則轉(zhuǎn)到(2),否則,轉(zhuǎn)到(7); (2)從上到下提取該區(qū)域的上邊界從左到右,對(duì)該區(qū)域的每一列進(jìn)行遍歷,記錄遇到的第一個(gè)前景像素的位置(x,y),然后退出對(duì)這一列的遍歷,開(kāi)始對(duì)下一列進(jìn)行遍歷; (3)對(duì)(2)已經(jīng)提取的邊界點(diǎn)序列,按從左到右的順序,每10個(gè)點(diǎn)一組,選取最靠上的一個(gè)點(diǎn),如果有若干個(gè)點(diǎn)y值相同,選x最小的一點(diǎn);將選出的點(diǎn)組成抽樣邊界序列; (4)抽樣邊界點(diǎn)序列可記做pi(xi,yi),i=1,2,…,n,其中,pi-1是pi左鄰的抽樣點(diǎn),初始化兩個(gè)變量start和end,令它們的值為1; (5)遍歷抽樣點(diǎn),對(duì)每個(gè)i,如果(i=n)或者(dv=|yi-yi+1|>max_fall),則令end=i;其中,max_fall為落差閾值; (6)如果(end-start)>min_length則記錄i值從start到end的抽樣點(diǎn),作為候選邊界段,令start=end+1;其中,min_length為邊界段長(zhǎng)度閾值; (7)結(jié)束;同理可以實(shí)現(xiàn)其他邊界的提取。
進(jìn)一步,所述邊界段包括文字區(qū)域邊界段和圖表區(qū)域邊界段。
進(jìn)一步,上述邊界段過(guò)濾的方法為 1)采用主成分分析方法計(jì)算邊界段的兩個(gè)特征值λbig和λsmall,其對(duì)應(yīng)的特征向量表示該邊界段的主方向和垂直主方向的方向; 2)定義參數(shù)δ,δ=λsmall/λbig,用于度量邊界段的線性程度; 3)判斷每個(gè)邊界段的δ值,如果δ大于設(shè)定的閾值,則將該邊界段視為不可靠邊界段,予以舍棄;反之,則視該邊界段為可靠的傾斜特征。
進(jìn)一步,采用迭代算法進(jìn)行邊界段優(yōu)化得到魯棒邊界段。
進(jìn)一步,所述迭代算法中采用指數(shù)形式的權(quán)重函數(shù)w(p)=exp(-dis)計(jì)算邊界段的權(quán)重值,其中dis為點(diǎn)p到擬合直線的距離。
進(jìn)一步,采用加權(quán)中值的方法計(jì)算整幅圖像的傾斜角度,其步驟為假設(shè)圖像中N條魯棒邊界段,每個(gè)邊界段對(duì)應(yīng)的含有其傾斜角度s_ai和采樣點(diǎn)數(shù)量mi,i=1,2,...,N (1)通過(guò)計(jì)算傾斜角度的數(shù)目,記做Angle_Sum; (2)建立長(zhǎng)度為Angle_Sum的數(shù)組Weight_Angle,用來(lái)儲(chǔ)存所有的傾斜角度,從i=1到i=n,在數(shù)組中存儲(chǔ)mi個(gè)s_ai,然后對(duì)該數(shù)組進(jìn)行排序; (3)如果Angle_Sum是奇數(shù),則加權(quán)中值為數(shù)組中第K1大的值;如果Angle_Sum是偶數(shù),則加權(quán)中值為數(shù)組中第K2大的和第K3大的值的平均值,其中K1=(Angle_Sum+1)/2,K2=Angle_Sum/2,K3=(Angle_Sum+2)/2,計(jì)算出的加權(quán)中值,為整幅圖像的傾斜角度。
本發(fā)明的積極效果如下 一、實(shí)驗(yàn)環(huán)境和數(shù)據(jù)庫(kù) 為了檢驗(yàn)RBL算法,本發(fā)明從CJDIR系統(tǒng)(馮所前,“大規(guī)模復(fù)雜文檔圖像檢索系統(tǒng)的研究與實(shí)現(xiàn)”,2005,北京大學(xué)碩士畢業(yè)論文)的轉(zhuǎn)換數(shù)據(jù)庫(kù)中(包含10385幅無(wú)傾斜的文檔圖像)隨機(jī)選取了2000幅文檔圖像作為測(cè)試數(shù)據(jù)庫(kù)的數(shù)據(jù)來(lái)源。CJDIR系統(tǒng)轉(zhuǎn)換數(shù)據(jù)庫(kù)的特點(diǎn)是混合了多種語(yǔ)言文字(Chinese,Japanese,English),頁(yè)面結(jié)構(gòu)復(fù)雜(包括單欄,多欄,橫排,縱排,混合字符圖像表格),其中大約30%為中文文檔,20%為英文文檔,15%為日文文檔,其余的為混合文檔或者非文字區(qū)域占明顯優(yōu)勢(shì)的文檔圖像;超過(guò)60%的圖像都含有非文字區(qū)域。
本發(fā)明將隨機(jī)選取的文檔圖像通過(guò)PhotoShop進(jìn)行二值化和旋轉(zhuǎn)處理,最終形成本發(fā)明的測(cè)試數(shù)據(jù)庫(kù)。由于原始數(shù)據(jù)沒(méi)有傾斜,因此用PhotoShop進(jìn)行旋轉(zhuǎn)時(shí)的旋轉(zhuǎn)角度即為測(cè)試圖像的傾斜真值,傾斜角度的范圍為[-10°,10°]。根據(jù)圖像中文字區(qū)域占的比例,本發(fā)明將2000幅測(cè)試圖像分為(A),(B),(C)三組。其中(A)為文字區(qū)域占有明顯優(yōu)勢(shì)的文檔圖像,共有1079幅;(B)為文字區(qū)域和非文字區(qū)域大致相當(dāng)?shù)奈臋n圖像,共有700幅;(C)為非文字區(qū)域占明顯優(yōu)勢(shì)的文檔圖像,共有221幅。
實(shí)驗(yàn)在一臺(tái)CPU主頻2.8GHz,內(nèi)存512MB的臺(tái)式電腦上進(jìn)行,算法用C++編寫(xiě)。
為了檢驗(yàn)算法的相對(duì)性能,本發(fā)明還實(shí)現(xiàn)了3種現(xiàn)有的有代表性的傾斜檢測(cè)算法用作對(duì)比實(shí)驗(yàn),包括Lu(Y.Lu,C.L.Tan,“A Nearest-Neighbor Chain based Approach to SkewEstimation in Document Images”,Pattern Recognition Letters,2003,Vol.24,Page(s)2315-2323),Das的算法(A.K.Das,B.Chanda,“A Fast Algorithm for SkewDetection of Document Images using Morphology”,International Journal on DocumentAnalysis and Recognition,2001,Page(s)109-114),以及基于Hough變換的傾斜檢測(cè)算法(D.S.Le,G.R.Thoma,H.Wechsler,“Automatic Page Orientation and Skew AngleDetection for Binary Document Images”,Pattern Recognition,1994,Vol.27,Page(s)1325-1344)。
二、RBL算法的檢測(cè)結(jié)果 表1-1各種算法的檢測(cè)正確率 A,B,C圖像分組(A),(B),(C) 表1-2各種算法的檢測(cè)精度 表1-1和1-2給出了RBL算法和對(duì)比算法對(duì)2000幅測(cè)試圖像進(jìn)行檢測(cè)的結(jié)果。其中,表1-1為檢測(cè)結(jié)果的正確率,即檢測(cè)結(jié)果中誤差小于0.1°的結(jié)果所占的比例,A,B,C對(duì)應(yīng)的表示上述測(cè)試圖像所分的三個(gè)組(A),(B),(C);表1-2則顯示了結(jié)果的精度,包括平均誤差和誤差的標(biāo)準(zhǔn)偏差兩項(xiàng)。從表1-2中可以看到,另三種算法在正確率和精度上表現(xiàn)不相上下,而RBL算法則具有明顯的優(yōu)勢(shì)。具體到每個(gè)組的結(jié)果,由于Hough變換方法采用全局特征,因而對(duì)于組(A)的結(jié)果相對(duì)其他兩個(gè)算法較好;對(duì)應(yīng)的,Lu的方法采用局部特征,因而在非文字區(qū)域占優(yōu)的組(C)中結(jié)果相對(duì)較好。同時(shí),由于這些算法沒(méi)有從非文字區(qū)域提取傾斜特征,因而對(duì)于非文字區(qū)域占優(yōu)的(C)組圖像,檢測(cè)的正確率均有較為明顯的下降,這表明非文字區(qū)域?qū)τ趦A斜檢測(cè)的影響是客觀存在的;而RBL算法由于同時(shí)利用文字區(qū)域和非文字區(qū)域的傾斜特征,并通過(guò)PCA分析過(guò)濾非線性邊界段,最大限度的利用了文檔圖像中存在的魯棒傾斜特征,因而在三組中表現(xiàn)比較一致,且明顯好于其它三個(gè)算法。而表1-2從統(tǒng)計(jì)的角度顯示了各個(gè)算法的精度期望和穩(wěn)定性。從中可以看出,RBL相對(duì)于其他三個(gè)算法,不僅檢測(cè)精度高(平均誤差小),而且穩(wěn)定性好(誤差的標(biāo)準(zhǔn)偏差小)。
本實(shí)施例詳細(xì)地介紹了為檢驗(yàn)RBL算法各項(xiàng)性能所設(shè)計(jì)的實(shí)驗(yàn)及實(shí)驗(yàn)結(jié)果,并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了深入的分析。通過(guò)對(duì)比實(shí)驗(yàn)結(jié)果及實(shí)驗(yàn)分析,可以發(fā)現(xiàn)本發(fā)明的RBL算法確實(shí)具備精度和準(zhǔn)確率高,算法速度快、魯棒性強(qiáng)的特點(diǎn)。



圖1本發(fā)明實(shí)現(xiàn)流程圖 圖2Run-Length算法進(jìn)行鄰近區(qū)域連接示意圖 圖3邊界段提取過(guò)程示意圖 其中(a)連通區(qū)域 (b)頂部邊界 (c)抽樣的頂部邊界 (d)提取的邊界段 圖4邊界段的過(guò)濾圖 其中(a)一幅傾斜的原始圖像 (b)提取的邊界段 (c)經(jīng)過(guò)PCA過(guò)濾后的邊界段結(jié)果圖
具體實(shí)施例方式 一、預(yù)處理 預(yù)處理部分的目的是對(duì)輸入的二值圖像作一些必要的處理,使之適合RBL算法后續(xù)部分的需要。預(yù)處理部分主要由以下幾個(gè)步驟組成 噪聲減除通過(guò)掃描等方式得到的文檔圖像,或多或少都會(huì)存在噪聲。由于二值圖像的噪聲一般從概率的角度認(rèn)為是均勻分布的,因而噪聲大多是以孤立點(diǎn)的形式存在。基于此,RBL算法通過(guò)移除小連通區(qū)域的方法進(jìn)行噪聲減除。首先通過(guò)LC算法(L.Di Stefano,A.Bulgarelli,“A simple and efficient connected components labeling algorithm”.International Conference on Image Analysis and Processing,1999,Page(s)322-327)對(duì)圖像進(jìn)行連通區(qū)域標(biāo)定,定義sum為該區(qū)域所包含的前景像素的個(gè)數(shù),然后將sum值小于一定閾值的連通區(qū)域移除。
歸一化對(duì)于RBL算法,不需要輸入圖像具有很高的分辨率,一般100dpi足夠。而高分辨率的文檔圖像數(shù)據(jù)量大,會(huì)影響算法的運(yùn)行速度。因此,預(yù)處理部分首先根據(jù)圖像的分辨率,采用等距采樣的方法,將圖像歸一化到100dpi。
圖像增強(qiáng)歸一化的缺點(diǎn)是會(huì)造成原圖像連通區(qū)域的連通性的改變,這種改變會(huì)給后續(xù)處理帶來(lái)麻煩。為保持原有的連通性,RBL算法對(duì)歸一化后的圖像作如下增強(qiáng)處理將每個(gè)前景像素的上、下、左、右四個(gè)位置設(shè)為前景像素。
填補(bǔ)小背景區(qū)域常見(jiàn)的語(yǔ)言文字,都會(huì)有一些字/字母是由閉合曲線組成的。如“O”,“日”。這樣就會(huì)有一些小的連通背景區(qū)域存在,這些小的連通區(qū)域的存在會(huì)影響對(duì)圖像主方向的判斷,因此需要填涂這些小的背景區(qū)域,使其變成前景像素。具體做法如下 (1)首先反著用LC算法,即標(biāo)定連通背景區(qū)域。
(2)對(duì)于sum值小于一定閾值的連通背景區(qū)域,將屬于該區(qū)域的所有背景像素設(shè)為前景像素。
二、Run-Length算法連接文字行 2.1、Run-Length算法的基本原理 Run-Length意即行程長(zhǎng),是指從圖像中某點(diǎn)開(kāi)始沿某個(gè)方向連續(xù)具有相同特征的像素個(gè)數(shù)。Run-Length在圖像處理中有廣泛的應(yīng)用,如圖像的邊緣噪聲去除(K.Fan,Y.Wang,T.Lay,“Marginal noise removal of document images”,International Conference on DocumentAnalysis and Recognition,2001,Page(s)317-321),壓縮編碼(Y.Wang,J.M.Wu,“VectorRun-Length coding of Bi-level images”,Data Compression Conference,1992,Page(s)279-288)等。具體到文檔圖像處理,通常利用Run-Length算法連接相鄰的前景區(qū)域(B.Gatos,N.Papamarkos,“Applying fast segmentation techniques at a binary imagerepresented by a set of non-ovcrlapping blocks”,IEEE International Conference onDocument Analysis and Recognition,2001,Pagc(s)1147-1151),使之形成以行或段落為單位的大連通區(qū)域。
Run-Length算法對(duì)相鄰區(qū)域進(jìn)行連接的方法如下 對(duì)于一幅二值圖像,逐行(或逐列)地掃描圖像。對(duì)于處于同一行(或列)的兩個(gè)相鄰的前景像素,如果兩像素間的背景像素個(gè)數(shù)小于某一閾值r,則將這兩個(gè)像素之間的背景像素全部變?yōu)榍熬跋袼?。圖2為用Run-Length算法進(jìn)行鄰近區(qū)域連接的示意圖,這里r=3。
2.2、圖像主方向判斷 采用Run-Length算法進(jìn)行相鄰區(qū)域連接,最主要的是要判斷圖像的主方向--即實(shí)施Run-Length算法的方向。RBL算法通過(guò)兩個(gè)直觀的原理對(duì)圖像的主方向進(jìn)行判斷(1)文字區(qū)域的行間距大于字間距。(2)如果一個(gè)方向上有效的距離(run length)數(shù)目遠(yuǎn)大于另一方向,則圖像的主方向?yàn)檫@個(gè)方向。為了有效的利用這兩個(gè)原理對(duì)圖像的主方向進(jìn)行判斷,RBL算法的具體做法如下 (1)去除非文字區(qū)域。由于主方向判斷的原理是基于文字區(qū)域的特點(diǎn)的,因而為了能夠準(zhǔn)確的判斷圖像的主方向,應(yīng)當(dāng)盡可能的將非文字區(qū)域去除。經(jīng)過(guò)預(yù)處理部分后,圖像中的非文字區(qū)域大多以大連通區(qū)域的形式存在,因而在預(yù)處理之后,先對(duì)圖像中具有一定長(zhǎng)度或?qū)挾鹊拇筮B通區(qū)域進(jìn)行邊界段提取,之后將這些連通區(qū)域從圖像中移除,為主方向判斷做好準(zhǔn)備。
(2)計(jì)算橫向和縱向平均距離以計(jì)算橫向平均距離為例,平均距離的計(jì)算方法如下 ①定義兩個(gè)參數(shù)橫向有效距離個(gè)數(shù)h_sum和總距離dist,并將他們初始化為0。
②對(duì)圖像進(jìn)行逐行遍歷。對(duì)于同一行的兩個(gè)相鄰的前景像素,計(jì)算相鄰兩個(gè)像素之間背景像素的個(gè)數(shù)n,如果滿足0<n<n_max,其中,n_max為最大間隔閾值,則有h_sum=h_sum+1,dist=dist+n。
之所以要設(shè)定最大間隔閾值n_max,是因?yàn)榧词刮臋n的主方向?yàn)闄M向,也會(huì)有屬于同一行的兩個(gè)相鄰前景像素的距離較大的情況。比如處于同一文字行但相隔較遠(yuǎn)的i,j或p,y;按分欄進(jìn)行排版的文檔等等。而對(duì)于傾斜的文檔圖像,由于傾斜造成的遮擋,使這種情況更為普遍。這樣,如果沒(méi)有設(shè)定n_max,則會(huì)使平均距離大大增加,從而造成主方向判斷的錯(cuò)誤。
③橫向平均距離h_dist可通過(guò)下式得到 h_dist=dist/h_sum (1.1) 同理,還可以求出縱向有效距離個(gè)數(shù)v_sum,縱向平均距離v_dist。
(3)判斷主方向主方向判斷的規(guī)則如下 ①若h_sum>3×v_sum,則主方向?yàn)闄M向。
②若v_sum>3×h_sum,則主方向?yàn)榭v向。
③若①,②均不滿足,則比較h_dist,v_dist。如果h_dist<v_dist,則主方向?yàn)闄M向,反之,主方向?yàn)榭v向。
2.3、Run-Length算法連接相鄰區(qū)域 判斷出主方向后,就可以對(duì)整幅圖像用Run-Length算法沿主方向進(jìn)行相鄰區(qū)域連接了。用Run-Length算法進(jìn)行相鄰區(qū)域連接的算法在已經(jīng)在2.1節(jié)中說(shuō)明了,這里主要討論一下Run-Length算法中閾值r如何設(shè)定。
閾值的設(shè)定一般有兩種方式——固定閾值和可變閾值,其中,可變閾值又可細(xì)分為分段閾值,分段函數(shù)閾值和函數(shù)閾值。固定閾值是指對(duì)所有的情況都采用同一個(gè)閾值,而可變閾值是指通過(guò)和該閾值相關(guān)的一些特征進(jìn)行閾值設(shè)定。通常,固定閾值根據(jù)經(jīng)驗(yàn)進(jìn)行設(shè)定,具有簡(jiǎn)單,開(kāi)銷小的特點(diǎn),但對(duì)于一些極端的情況,其適應(yīng)性往往較差,與之相對(duì)應(yīng)的可變閾值,由于需要對(duì)相關(guān)特征進(jìn)行提取和計(jì)算,往往需要一定的開(kāi)銷,但其適應(yīng)性也相對(duì)較強(qiáng)。
具體到RBL算法的鄰近區(qū)域連接問(wèn)題,可行的閾值定義方向有如下兩種 (1)固定閾值固定閾值是最直觀簡(jiǎn)單的閾值定義方式。如果能夠找到一個(gè)固定閾值,對(duì)于絕大多數(shù)情況都能較好的適應(yīng),那么就可以節(jié)省下為計(jì)算閾值而進(jìn)行的特征提取和閾值計(jì)算的開(kāi)銷。權(quán)衡極少數(shù)情況的不適應(yīng),這些開(kāi)銷的節(jié)省在一些場(chǎng)合是值得的。
(2)函數(shù)閾值一般的,可以把主方向上前景像素的行程距離分布看作正態(tài)的,因此主方向上前景像素的平均行程距離mean和標(biāo)準(zhǔn)差s var是與Run-Length閾值相關(guān)的主要特征,采用mean+λ×svar計(jì)算閾值具有統(tǒng)計(jì)上的意義,并且可以通過(guò)λ的值來(lái)估計(jì)主方向前景像素的連接程度。一般說(shuō)來(lái),λ的值不能太小,因?yàn)樾枰鞣较蛏系那熬跋袼剡M(jìn)行較為充分的連接才能得到較為完整的邊界段;λ的值也不能太大,因?yàn)檫@樣會(huì)造成誤連接,從而影響結(jié)果的精度。
由于RBL算法自身的適應(yīng)性較強(qiáng),因而采用兩種方式都能找到較好的閾值,可以根據(jù)具體系統(tǒng)對(duì)于時(shí)間開(kāi)銷的要求而選擇閾值的定義方式。
三、邊界段提取 邊界段提取的目的是從連通區(qū)域的上,下,左,右四個(gè)方向提取邊界段,作為候選的傾斜特征。之所以提取的是邊界段,而不是整條邊界,是因?yàn)橛行┣闆r下,區(qū)域邊界的某一部分可能準(zhǔn)確反映傾斜方向,而整條邊界不能。為了適應(yīng)這些情況,盡可能多地提取有效特征,因而本發(fā)明首先提取整條邊界,然后對(duì)邊界進(jìn)行裁減,將邊界中不符合條件要求的部分去掉,保留符合要求的邊界段作為選取魯棒邊界段的候選者。具體的操作步驟如下(以提取上部邊界段為例) (1)對(duì)每個(gè)連通區(qū)域,判斷其寬度大小。如果其寬度大于某一閾值min_size,則轉(zhuǎn)到(2),否則,轉(zhuǎn)到(7)。
(2)從上到下提取該區(qū)域的上邊界從左到右,對(duì)該區(qū)域的每一列進(jìn)行遍歷,記錄遇到的第一個(gè)前景像素的位置(x,y),然后退出對(duì)這一列的遍歷,開(kāi)始對(duì)下一列進(jìn)行遍歷。
(3)對(duì)(2)已經(jīng)提取的邊界點(diǎn)序列,按從左到右(x從小到大)的順序,每10個(gè)點(diǎn)一組,選取最靠上的一個(gè)點(diǎn)(即y最小的一個(gè)點(diǎn))。如果有若干個(gè)點(diǎn)y值相同,選x最小的一點(diǎn);將選出的點(diǎn)組成抽樣邊界序列。
(4)抽樣邊界點(diǎn)序列可記做pi(xi,yi),i=1,2,…,n,其中,pi-1是pi左鄰的抽樣點(diǎn)。初始化兩個(gè)變量start和end,令它們的值為1。
(5)遍歷抽樣點(diǎn)。對(duì)每個(gè)i,如果(i=n)或者(dv=|yi-yi+1|>max_fall),則令end=i。
(6)如果(end-start)>min_length則記錄i值從start到end的抽樣點(diǎn),作為候選邊界段。令start=end+1。
(7)結(jié)束。
其中,max_fall為落差閾值,min_length為邊界段長(zhǎng)度閾值。如圖3所示,為邊界段提取過(guò)程的示意圖。
四、邊界段分析 4.1、基于PCA的邊界段分析方法 PCA分析簡(jiǎn)介PCA分析(Principle Component Analysis,又稱主成分分析)是一種常用的數(shù)據(jù)分析方法,在模式識(shí)別(邊肇祺,張學(xué)工等,《模式識(shí)別》第二版,2000,清華大學(xué)出版社),三維視覺(jué)計(jì)算,醫(yī)學(xué)分析等領(lǐng)域有著廣泛的應(yīng)用。
PCA算法的基本原理對(duì)于一個(gè)n維的樣本空間X,對(duì)其協(xié)方差矩陣A(A=(Xi-EX)T(Xi-EX),其中,Xi表示樣本空間的一個(gè)向量,EX為樣本空間的期望)進(jìn)行最優(yōu)的正交線性變換(K-L變換),得到矩陣A的一組正交基(η1,η2,……,ηn),使得其中,λ1≥λ2≥……≥λn。經(jīng)過(guò)上述變換得到的λ1為A的特征值,對(duì)應(yīng)的ηi為A的特征向量。每個(gè)特征向量對(duì)應(yīng)n維空間的一個(gè)方向,且這些方向在n維空間中是彼此垂直(正交)的。而與其相對(duì)應(yīng)的特征值的大小則表明樣本空間在該特征向量方向上的分量大小。
PCA算法的主要應(yīng)用在模式識(shí)別領(lǐng)域,經(jīng)常用PCA的方法進(jìn)行特征提取。在進(jìn)行PCA變換后,樣本空間的特征集中分布在若干個(gè)特征值較大的方向上,選取樣本在這些方向上的投影作為新的特征向量,可以在盡量保持樣本特征的情況下達(dá)到降維的目的。而在三維視覺(jué)計(jì)算領(lǐng)域,則通常用PCA方法計(jì)算若十的空間點(diǎn)主方向(即最大的特征值對(duì)應(yīng)的方向)。
基于PCA的邊界段分析如果不考慮權(quán)值因素,文檔圖像中任意一個(gè)像素可由有序?qū)?x,y)確定。而考慮到邊界段不同點(diǎn)對(duì)于計(jì)算該邊界段傾斜方向的貢獻(xiàn)可能不同,因而在實(shí)際的邊界段分析中,本發(fā)明加入權(quán)重因素??紤]空間一組點(diǎn)pi(xi,yi),其對(duì)應(yīng)的含有權(quán)重wi,權(quán)重的含義為該點(diǎn)的“質(zhì)量”(mass)。協(xié)方差矩陣為可通過(guò)下式得到 其中,這些點(diǎn)的質(zhì)心(x,y)為 由于矩陣A為2*2的實(shí)對(duì)稱矩陣,因而有兩個(gè)非負(fù)特征根。該特征根可通過(guò)下式求得 其中,Δ=(a11+a12)2-4(a11a22-a12a21)。
通過(guò)大特征根λbig可求出對(duì)應(yīng)的特征向量該特征向量對(duì)應(yīng)這些點(diǎn)的主方向;而與小特征值λsmall相對(duì)應(yīng)的特征向量則表示與主方向垂直的方向。通過(guò)表示主方向的特征向量

可得到這些點(diǎn)的擬合直線方程 yb(x-x)-xb(y-y)=0 (1.4) 4.2、基于PCA的邊界段過(guò)濾 在RBL算法中,為了最大限度地利用文檔圖像中的有用信息,不但要從文字區(qū)域提取邊界段,而且需要從圖表區(qū)域提取邊界段。從圖表區(qū)域提取的邊界段當(dāng)中,不僅有向頁(yè)眉、頁(yè)腳、表格邊界等與文檔圖像傾斜角度一致的邊界段,也有很多涉及圖表內(nèi)容的,與文檔圖像傾斜角度偏差較大的邊界段。圖4為邊界段的過(guò)濾圖,其中(a)為一幅傾斜的文檔圖像,(b)為從該圖像中提取的邊界段。從圖中可以看出,由于原始圖像中間區(qū)域?yàn)閳D像區(qū)域,且該區(qū)域得圖形很不規(guī)則,因此從這部分區(qū)域提取的邊界段大多與文檔圖像的傾斜角度偏差較大。
除了圖表區(qū)域可能提取出與文檔圖像的傾斜角度無(wú)關(guān)的邊界段外,掃描過(guò)程中的噪聲污染,不佳的二值化效果,不同文字行之間的誤連接都可能會(huì)使提取的邊界段與文檔圖像的傾斜角度有較大偏差。這些偏差較大的邊界段如果存在過(guò)多,就會(huì)在很大程度上影響檢測(cè)結(jié)果的精度。
通過(guò)大量的觀察和分析,發(fā)現(xiàn)絕大部分在上述因素影響下提取的邊界段具有一個(gè)共同的特點(diǎn)邊界段具有較強(qiáng)的非線性。因此,如果能夠有很好的方法度量一個(gè)邊界段的線性程度,就可以將線性程度不好的邊界段過(guò)濾掉,從而最大限度的消除上述因素對(duì)結(jié)果精度的影響。
在4.1節(jié)中,通過(guò)邊界段的協(xié)方差矩陣可求得兩個(gè)特征值λbig和λsmall,其對(duì)應(yīng)的特征向量表示該邊界段的主方向和垂直主方向的方向,而其值的大小表示這些點(diǎn)在對(duì)應(yīng)方向上的貢獻(xiàn)。因此,若λsmall相對(duì)于λbig較大,則說(shuō)明這些點(diǎn)在垂直主方向的方向上有較大的能量或聚集程度,偏離擬合直線的成分較多,也就說(shuō)明這些點(diǎn)的線性程度不夠好。基于上述分析,本發(fā)明定義參數(shù)δ來(lái)度量邊界段的線性程度 δ=λsmall/λbig(1.5) 在RBL算法實(shí)際應(yīng)用中,對(duì)每個(gè)邊界段,初始化每個(gè)點(diǎn)的權(quán)重為1,通過(guò)公式(1.2)、(1.3)和(1.5)計(jì)算δ。如果δ大于某一給定的閾值,則將該邊界視為不可靠邊界段,予以舍棄。反之,則視該邊界段為可靠的傾斜特征,應(yīng)用于RBL算法的后續(xù)環(huán)節(jié)。圖4(c)即為圖4(b)的)的邊界段經(jīng)過(guò)上述方法過(guò)濾所剩下的線性邊界段結(jié)果圖。
4.3、邊界段的迭代優(yōu)化 對(duì)于線性邊界段,其線性程度雖然較好,但仍不排除有少量的諸如噪聲或文字的上(下)凸點(diǎn)這樣的“干擾點(diǎn)”存在。由于4.2節(jié)中PCA分析所采用的點(diǎn)的權(quán)值相等,因而這些點(diǎn)的存在會(huì)對(duì)擬合的結(jié)果產(chǎn)生一定的影響,影響最終結(jié)果的精度。如果能夠找到一種方法去除掉干擾點(diǎn)或盡量減低干擾點(diǎn)的作用,則可使結(jié)果更加精確。另一方面,由于邊界段通過(guò)了PCA線性過(guò)濾器,因而其中的大部分點(diǎn)是正常點(diǎn)(與前面的干擾點(diǎn)相對(duì))。由于擬合直線是所有點(diǎn)共同作用的結(jié)果,因此對(duì)于按(1.4)求出的擬合直線而言,占絕大多數(shù)的正常點(diǎn)到擬合直線的距離相對(duì)于干擾點(diǎn)到擬合直線的距離必然較小。因而,到擬合直線的距離就成為度量邊界段中的點(diǎn)是否為正常點(diǎn),或者度量其正常程度的一個(gè)標(biāo)準(zhǔn)。因此,如果根據(jù)到擬合直線的距離遠(yuǎn)近來(lái)改變點(diǎn)的權(quán)重(即點(diǎn)對(duì)擬合直線的貢獻(xiàn)),則可以使擬合結(jié)果得到優(yōu)化。進(jìn)一步地,如果不斷地通過(guò)擬合結(jié)果調(diào)整權(quán)重,則可以不斷地優(yōu)化結(jié)果,直到達(dá)到滿意的效果為止。實(shí)際上,本發(fā)明采用的以距離為參量的權(quán)重函數(shù)為 w(p)=exp(-dis) (1.6) 其中,dis為點(diǎn)p到擬合直線的距離。而整個(gè)迭代優(yōu)化的具體做法如下 (1)通過(guò)公式(1.7)計(jì)算邊界段的傾斜角度skew_angle1 其中k=y(tǒng)b/xb為邊界段擬合直線的斜率。如果xb=0,則Skew_Anglei為0。
(2)按照(1.6)更新邊界段的權(quán)重。
(3)通過(guò)(1.2)、(1.3)、(1.4)和(1.7)重新擬合直線并計(jì)算傾斜角度skew_angle2。
(4)如果|skew_angle1-skew_angle2|足夠小,則轉(zhuǎn)到(5),否則將skew_angle2的值賦給skew_angle1,然后轉(zhuǎn)到(2)-(4)直到迭代收斂。
(5)邊界段的傾斜角度是skew_angle1和skew_angle2的中值。
由于該迭代算法采用的指數(shù)形式的權(quán)重函數(shù),因而可以迅速降低干擾點(diǎn)權(quán)重的相對(duì)大小,使迭代快速收斂。經(jīng)過(guò)迭代優(yōu)化的邊界段,在RBL算法中被認(rèn)為是魯棒邊界段,可以作為檢測(cè)整幅圖像傾斜角度的傾斜特征。
五、整幅圖像的傾斜角度計(jì)算 通過(guò)大量的觀察分析,發(fā)現(xiàn)對(duì)于RBL算法中的邊界段,邊界段的長(zhǎng)度和結(jié)果的精度是正相關(guān)的,即邊界段越長(zhǎng),其結(jié)果在統(tǒng)計(jì)上就越精確。這是由于邊界段越長(zhǎng),就越有可能是從頁(yè)眉、頁(yè)腳、圖片邊框或完整的文字行中提取出來(lái)的。因此,為了結(jié)合中值和加權(quán)的優(yōu)點(diǎn),在RBL算法中,本發(fā)明嘗試采用加權(quán)中值的方式來(lái)計(jì)算整幅圖像的傾斜角度。權(quán)值即為邊界段包含的采樣點(diǎn)的數(shù)目。
假設(shè)圖像中N條魯棒邊界段,每個(gè)邊界段對(duì)應(yīng)的含有其傾斜角度s_ai和采樣點(diǎn)數(shù)量mi,i=1,2,...,N。則所有魯棒邊界段傾斜角度的加權(quán)中值可通過(guò)如下方法進(jìn)行計(jì)算 (1)通過(guò)下式計(jì)算傾斜角度的數(shù)目,記做Angle_Sum。
(2)建立長(zhǎng)度為Angle_Sum的數(shù)組Weight_Angle,用來(lái)儲(chǔ)存所有的傾斜角度。從i=1到i=n,在數(shù)組中存儲(chǔ)mi個(gè)s_ai,然后對(duì)該數(shù)組進(jìn)行排序。
(3)如果Angle_Sum是奇數(shù),則加權(quán)中值為數(shù)組中第K1大的值;如果Angle_Sum是偶數(shù),則e加權(quán)中值為數(shù)組中第K2大的和第K3大的值的平均值。這里K1=(Angle_Sum+1)/2,K2=Angle_Sum/2,K3=(Angle_Sum+2)/2。
經(jīng)過(guò)上述步驟計(jì)算出的加權(quán)中值,就被認(rèn)為整幅圖像的傾斜角度。
六、旋轉(zhuǎn)校正圖像 求得文檔圖像的傾斜角度后,就可以根據(jù)傾斜角度對(duì)文檔圖像進(jìn)行旋轉(zhuǎn)校正了。下面就來(lái)介紹一下圖像旋轉(zhuǎn)的方法。
圖像的旋轉(zhuǎn)是一種比較耗時(shí)的結(jié)構(gòu)變換。一般以圖像的中心為原點(diǎn),旋轉(zhuǎn)一定角度。旋轉(zhuǎn)后,圖像的大小一般會(huì)改變。可以把轉(zhuǎn)出顯示區(qū)域的圖像截去,也可擴(kuò)大圖像范圍顯示所有圖像。在本發(fā)明的算法里,采用的是后一種顯示方式。
設(shè)點(diǎn)(x0,y0)經(jīng)過(guò)旋轉(zhuǎn)θ后坐標(biāo)變成(x1,y1)。
旋轉(zhuǎn)前 其中, 旋轉(zhuǎn)后 寫(xiě)成矩陣表達(dá) 其逆運(yùn)算如下 上面的旋轉(zhuǎn)繞坐標(biāo)軸原點(diǎn)(0,0)的,如果是繞一個(gè)指定點(diǎn)(a,b)旋轉(zhuǎn),則先要將坐標(biāo)系平移到該點(diǎn),再進(jìn)行旋轉(zhuǎn),然后平移回新的坐標(biāo)原點(diǎn)。假設(shè)圖像旋轉(zhuǎn)前中心坐標(biāo)為(a,b),旋轉(zhuǎn)后中心坐標(biāo)為(c,d),則旋轉(zhuǎn)變換的矩陣表達(dá)式為 其逆變換矩陣表達(dá)式為 即 由上面的轉(zhuǎn)換公式,可以非常容易的編寫(xiě)實(shí)現(xiàn)圖像旋轉(zhuǎn)的函數(shù)。在實(shí)現(xiàn)過(guò)程中,首先應(yīng)計(jì)算幾個(gè)參數(shù),即,原圖像的原點(diǎn)坐標(biāo)(a,b),旋轉(zhuǎn)后圖像的原點(diǎn)坐標(biāo)(c,d)以及旋轉(zhuǎn)后圖像的寬度NewWidth和高度NewHeight。其中,圖像的原點(diǎn)為圖像的中心。設(shè)原圖像的寬度和高度分別為Width和Height,則原始圖像的四個(gè)角的坐標(biāo)分別為旋轉(zhuǎn)后的新圖中,這四個(gè)點(diǎn)的坐標(biāo)分別為 則NewWidth=max(|fDstX4-fDstX1|,fDstX3-fDstX2|)(1.21) NewHeight=max(|fDstY4-fDstY1|,|fDstY3-fDstY2|)(1.22) 此外, 令 則 由(1.24),對(duì)新圖像中的每個(gè)(x1,y1)進(jìn)行遍歷,找到對(duì)應(yīng)的原圖中的(x0,y0),并將(x0,y0)的值賦給(x1,y1),若(x1,y1)對(duì)應(yīng)的(x0,y0)不在原圖的顯示范圍內(nèi),則(x1,y1)點(diǎn)為背景像素。
經(jīng)過(guò)旋轉(zhuǎn)校正之后,就可以得到一幅基本無(wú)傾斜的文檔圖像了。
權(quán)利要求
1.一種復(fù)雜結(jié)構(gòu)文檔圖像傾斜快速檢測(cè)方法,其步驟為
1)預(yù)處理文檔圖像,對(duì)原始圖像進(jìn)行噪聲減除,標(biāo)定連通區(qū)域;
2)提取大連通區(qū)域邊界段,同時(shí)移除大連通區(qū)域,若不存在大連通區(qū)域則跳到下一步;
3)連接文字行和相鄰區(qū)域,提取邊界段;
4)對(duì)提取的邊界段進(jìn)行過(guò)濾,得到可靠的傾斜特征;
5)根據(jù)傾斜特征計(jì)算整幅文檔圖像的傾斜角度。
2.如權(quán)利要求1所述的方法,其特征在于所述預(yù)處理文檔圖像還包括對(duì)噪聲減除后的圖像進(jìn)行歸一化處理,圖像增強(qiáng),填補(bǔ)小背景區(qū)域。
3.如權(quán)利要求2所述的方法,其特征在于所述填補(bǔ)小背景區(qū)域的方法為首先反著用LC算法標(biāo)定連通背景區(qū)域;對(duì)于該區(qū)域所包含的前景像素的個(gè)數(shù)sum值小于一定閾值的連通背景區(qū)域,將屬于該區(qū)域的所有背景像素設(shè)為前景像素。
4.如權(quán)利要求1所述的方法,其特征在于所述步驟2)中連接文字行和相鄰區(qū)域的方法為
1)計(jì)算橫向和縱向平均距離,其方法如下
①定義兩個(gè)參數(shù)橫向有效距離個(gè)數(shù)h_sum和總距離dist,并將二者初始化為0;
②對(duì)圖像進(jìn)行逐行遍歷對(duì)于同一行的兩個(gè)相鄰的前景像素,計(jì)算相鄰兩個(gè)像素之間背景像素的個(gè)數(shù)n,如果滿足0<n<n_max,則有h_sum=h_sum+1,dist=dist+n,其中n_max為最大間隔閾值;
③通過(guò)h_dist=dist/h_sum得到橫向平均距離h_dist;
同理,定義并求出縱向有效距離個(gè)數(shù)v_sum,縱向平均距離v_dist;
2)判斷文檔圖像的主方向,其規(guī)則如下
①若h_sum>3×v_sum,則主方向?yàn)闄M向;
②若v_sum>3×h_sum,則主方向?yàn)榭v向;
③若①,②均不滿足,則比較h_dist,v_dist,如果h_dist<v_dist,則主方向?yàn)闄M向,反之,主方向?yàn)榭v向;
3)采用Run-Length算法沿主方向進(jìn)行相鄰區(qū)域連接。
5.如權(quán)利要求1所述的方法,其特征在于所述提取邊界段的方法為
1)對(duì)每個(gè)連通區(qū)域,判斷其寬度大小,如果其寬度大于某一閾值min_size,則轉(zhuǎn)到2),否則,轉(zhuǎn)到7);
2)從上到下提取該區(qū)域的上邊界從左到右,對(duì)該區(qū)域的每一列進(jìn)行遍歷,記錄遇到的第一個(gè)前景像素的位置(x,y),然后退出對(duì)這一列的遍歷,開(kāi)始對(duì)下一列進(jìn)行遍歷;
3)對(duì)2)已經(jīng)提取的邊界點(diǎn)序列,按從左到右的順序,每10個(gè)點(diǎn)一組,選取最靠上的一個(gè)點(diǎn),如果有若干個(gè)點(diǎn)y值相同,選x最小的一點(diǎn);將選出的點(diǎn)組成抽樣邊界序列;
4)抽樣邊界點(diǎn)序列可記做pi(xi,yi),i=1,2,…,n,其中,pi-1是pi左鄰的抽樣點(diǎn),初始化兩個(gè)變量start和end,令它們的值為1;
5)遍歷抽樣點(diǎn),對(duì)每個(gè)i,如果(i=n)或者(dv=|yi-yi+1|>max_fall),則令end=i;其中,max_fall為落差閾值;
6)如果(end-start)>min_length則記錄i值從start到end的抽樣點(diǎn),作為候選邊界段,令start=end+1;其中,min_length為邊界段長(zhǎng)度閾值;
7)結(jié)束;
同理可以實(shí)現(xiàn)其他邊界的提取。
5.如權(quán)利要求1所述的方法,其特征在于所述邊界段過(guò)濾的方法為
1)采用主成分分析方法計(jì)算邊界段的兩個(gè)特征值λbig和λsmall,其對(duì)應(yīng)的特征向量表示該邊界段的主方向和垂直主方向的方向;
2)定義參數(shù)δ,δ=λsmall/λbig,用于度量邊界段的線性程度;
3)判斷每個(gè)邊界段的δ值,如果δ大于設(shè)定的閾值,則將該邊界段視為不可靠邊界段,予以舍棄;反之,則視該邊界段為可靠的傾斜特征。
6.如權(quán)利要求6所述的方法,其特征在于采用迭代算法進(jìn)行邊界段優(yōu)化得到魯棒邊界段。
7.如權(quán)利要求7所述的方法,其特征在于所述迭代算法中采用指數(shù)形式的權(quán)重函數(shù)w(p)=exp(-dis)計(jì)算邊界段的權(quán)重值,其中dis為點(diǎn)p到擬合直線的距離。
8.如權(quán)利要求1所述的方法,其特征在于采用加權(quán)中值的方法計(jì)算整幅圖像的傾斜角度,其步驟為假設(shè)圖像中N條魯棒邊界段,每個(gè)邊界段對(duì)應(yīng)的含有其傾斜角度s_ai和采樣點(diǎn)數(shù)量mi,i=1,2,...,N
1)通過(guò)計(jì)算傾斜角度的數(shù)目,記做Angle_Sum;
2)建立長(zhǎng)度為Angle_Sum的數(shù)組Weight_Angle,用來(lái)儲(chǔ)存所有的傾斜角度,從i=1到i=n,在數(shù)組中存儲(chǔ)mi個(gè)s_ai,然后對(duì)該數(shù)組進(jìn)行排序;
3)如果Angle_Sum是奇數(shù),則加權(quán)中值為數(shù)組中第K1大的值;如果Angle_Sum是偶數(shù),則加權(quán)中值為數(shù)組中第K2大的和第K3大的值的平均值,其中K1=(Angle_Sum+1)/2,K2=Angle_Sum/2,K3=(Angle_Sum+2)/2,計(jì)算出的加權(quán)中值,為整幅圖像的傾斜角度。
9.如權(quán)利要求5所述的方法,其特征在于所述邊界段包括文字區(qū)域邊界段和圖表區(qū)域邊界段。
全文摘要
本發(fā)明涉及一種復(fù)雜結(jié)構(gòu)文檔圖像傾斜快速檢測(cè)方法,屬于文檔圖像處理范疇。本發(fā)明首先從圖像中的文本區(qū)域及非文本區(qū)域提取連通區(qū)域的邊界段作為傾斜特征,然后通過(guò)對(duì)提取的邊界段進(jìn)行過(guò)濾,得到魯棒邊界段及其對(duì)應(yīng)的傾斜角度,最后通過(guò)傾斜角度的加權(quán)中值得到整幅圖像的傾斜角度。通過(guò)大量對(duì)比實(shí)驗(yàn)表明,該算法具有速度快,精度高,適用范圍廣的特點(diǎn)。
文檔編號(hào)G06K9/32GK101149801SQ200710176208
公開(kāi)日2008年3月26日 申請(qǐng)日期2007年10月23日 優(yōu)先權(quán)日2007年10月23日
發(fā)明者宏 劉, 奇 吳, 查紅彬, 葉 陸 申請(qǐng)人:北京大學(xué)
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
德兴市| 沁阳市| 昌平区| 湟源县| 抚宁县| 新邵县| 县级市| 弋阳县| 册亨县| 临汾市| 莒南县| 黎川县| 长兴县| 阿克苏市| 闽侯县| 景宁| 嵊泗县| 宕昌县| 黎城县| 丰原市| 昆山市| 庆云县| 三门县| 铜川市| 莎车县| 皮山县| 毕节市| 伊川县| 四子王旗| 瑞安市| 翁牛特旗| 元阳县| 高邮市| 巫山县| 安西县| 南陵县| 平泉县| 古浪县| 连平县| 谷城县| 东宁县|