專利名稱:印刷體阿拉伯字符集文本切分方法
技術(shù)領(lǐng)域:
印刷體阿拉伯字符集文本切分方法屬于光學(xué)字符識(shí)別(OCR)中的字符切分領(lǐng)域。
背景技術(shù):
阿拉伯語(yǔ)是聯(lián)合國(guó)工作語(yǔ)言之一,在埃及、阿爾及利亞、摩洛哥、沙特阿拉伯等國(guó)家廣泛使用。維吾爾、哈薩克、柯?tīng)柨俗握Z(yǔ)是我國(guó)重要的少數(shù)民族語(yǔ)言,雖然和阿拉伯語(yǔ)不屬于同一語(yǔ)系,但是都借用阿拉伯字符書(shū)寫(xiě),只是字符集稍有不同。在本發(fā)明中,阿拉伯、維吾爾、哈薩克等使用阿拉伯字符集書(shū)寫(xiě)的文本統(tǒng)稱為阿拉伯字符集文本,并簡(jiǎn)記為阿文文本。無(wú)論是國(guó)內(nèi)還是國(guó)際,識(shí)別阿文文本都有迫切的現(xiàn)實(shí)需求和廣泛的應(yīng)用前景。
阿文文本中,阿文字符從右向左書(shū)寫(xiě),其他語(yǔ)言的文字(例如漢字、英文、數(shù)字)從左向右書(shū)寫(xiě)。標(biāo)準(zhǔn)阿拉伯文有28個(gè)基本字符,維吾爾文有32個(gè)基本字符。每個(gè)阿文字符有1-4種書(shū)寫(xiě)形式尾部與下一字符連接的首寫(xiě)形式;首尾與相鄰字符連接的中間形式;首部與上一字符連接的尾寫(xiě)形式;首尾與相鄰字符都不相連的獨(dú)立形式。每個(gè)阿文字符由一個(gè)主體部分和若干個(gè)與主體部分不連接的附加部分組成,附加部分的位置可以在主體部分的上方、下方或者中間,標(biāo)準(zhǔn)阿拉伯文字符的附加部分是1-3個(gè)點(diǎn)以及 維吾爾文的附加部分還包括 等。許多字符的主體部分相同,僅是與主體部分不連通的附加部分的數(shù)目或形狀不同。無(wú)論是手寫(xiě)還是印刷體阿文文本,能夠連接的字符總是連接書(shū)寫(xiě)或者印刷,字符連接的部分叫做基線。一個(gè)單詞由一個(gè)或多個(gè)不相連的聯(lián)體字符段組成。圖1是標(biāo)準(zhǔn)阿拉伯文的基本字符表,圖2反映了阿文文本的部分特征。
一般的印刷體阿文文本識(shí)別系統(tǒng)如圖3所示預(yù)處理部分增強(qiáng)輸入的文本圖像;文字行切分部分把多行文本區(qū)域切分成文字行;聯(lián)體字符段切分部分把文字行分割成互不相連的聯(lián)體字符段;切割部分把聯(lián)體字符段分解成字符或筆畫(huà)等基本部件;識(shí)別部分提取有效特征,利用分類器識(shí)別切割出來(lái)的部件;后處理部分利用詞典、語(yǔ)言模型等手段,修正識(shí)別錯(cuò)誤,提高文本識(shí)別率。
根據(jù)切割和識(shí)別之間的關(guān)系,系統(tǒng)可分為先切割后識(shí)別,邊切割邊識(shí)別和不切割整體識(shí)別三類第一,先切割后識(shí)別(圖3中路徑(1)和路徑(2)無(wú)效)。該類系統(tǒng)首先把聯(lián)體字符段切割成字符或者筆畫(huà),然后識(shí)別切割得到的部件,并組合這些部件為字符識(shí)別結(jié)果。該類方法不受詞典大小的限制,可以識(shí)別任意字符串的組合,能夠處理大(無(wú)限)詞匯情況。
第二,邊切割邊識(shí)別(圖3中路徑(1)有效無(wú)效均可,路徑(2)有效)。該類系統(tǒng)在識(shí)別之前不必須進(jìn)行字符切割(路徑1無(wú)效時(shí),則預(yù)先進(jìn)行切割),而是借助識(shí)別結(jié)果獲得字符切分結(jié)果。字符邊界是識(shí)別結(jié)果的伴隨產(chǎn)物。該類方法依賴于字體,計(jì)算量大,對(duì)形變敏感。如果中間某個(gè)字符識(shí)別錯(cuò)誤,或者一個(gè)字符是另外字符的一部分,其后的字符識(shí)別結(jié)果都會(huì)受到影響。
第三,不切割整體識(shí)別(圖3中路徑(1)有效,路徑(2)無(wú)效)。該類系統(tǒng)不需要識(shí)別出每個(gè)字符,而是直接識(shí)別整個(gè)聯(lián)體字符段,從而避免了切割。該類方法從語(yǔ)音識(shí)別發(fā)展過(guò)來(lái),只能處理小(有限)詞匯情況。
因?yàn)橐话愕挠∷Ⅲw阿文文本,具有詞匯量大,使用字體多,但是排版比較規(guī)范的特點(diǎn),所以先切割后識(shí)別的方法是最合適的。因此,設(shè)計(jì)印刷體阿文文本切分算法是實(shí)現(xiàn)印刷體阿文文本識(shí)別系統(tǒng)的關(guān)鍵。目前,印刷體阿文文本識(shí)別的研究遠(yuǎn)遠(yuǎn)落后于其它廣泛使用的文字(如拉丁字母、漢字、日文等)的原因,主要就在于沒(méi)能很好解決印刷體阿文文本切分的問(wèn)題。例如水平投影切分文字行的方法不能處理傾斜文本或者文字行之間存在粘連字符的情況;大量的字符附加部分會(huì)模糊文字行之間的界限,或者產(chǎn)生偽文字行;豎直投影切分聯(lián)體字符段的方法不能處理相鄰聯(lián)體字符段水平重疊的情況;一般的字符切分方法只是在基線上尋找字符切點(diǎn),但是實(shí)際上部分字符可能在基線上方或者下方粘連。
發(fā)明目的本發(fā)明的目的就是要提供一種可靠的多字體多字號(hào)印刷體阿文文本切分的方法。如圖4所示本發(fā)明在字符塊分類的基礎(chǔ)上,切分文本圖像為文字行,然后估計(jì)文字行的基線和頭線位置,切分文字行成聯(lián)體字符段,最后根據(jù)字符切點(diǎn)位置的特點(diǎn)尋找所有的候選切點(diǎn)。根據(jù)本發(fā)明實(shí)現(xiàn)的印刷體阿文文本切分方法,已經(jīng)應(yīng)用于一個(gè)印刷體阿文文本識(shí)別系統(tǒng)。
技術(shù)方案本發(fā)明的特征在于通過(guò)如下措施把輸入的印刷體阿文文本圖像正確切分成單個(gè)的字符圖像。
1文字行切分文字行切分的目的是把文本區(qū)域切分成連續(xù)的文字行。水平投影是最直接的行切分方法,但是不能處理傾斜文本。此外,由于阿文文本中存在大量與字符主體部分不相連的字符附加部分,所以水平投影得到的空白間隙既可能是文字行間的空白,也可能是文字行內(nèi)字符附加部分和主體部分之間的空白。部分投影和部分輪廓跟蹤相結(jié)合的方法能夠處理傾斜方向不變的文本,但是不能處理行間字符粘連的情況。
為了解決上述問(wèn)題,本發(fā)明提出了如下文字行切分方法(圖5)在字符塊分類的基礎(chǔ)上,選擇部分字符塊水平投影,把輸入文本圖像分割成子區(qū)域;然后檢測(cè)多行子區(qū)域,歸并字符塊實(shí)現(xiàn)多行子區(qū)域的文字行切分;最后切割行間粘連的字符塊,并根據(jù)距離信息把小字符塊歸入所屬文字行。該文字行切分方法不僅能夠處理無(wú)傾斜的文本,還能夠處理傾斜、行間字符存在粘連的文本。
1.1字符塊分類令I(lǐng)表示輸入的文本圖像,H是I的高度,W是I的寬度。I上的字符塊C表示為C=C(0,0)C(0,1)LC(0,w-1)C(1,0)C(1,1)L(1,w-1)MMLMC(h-1,0)C(h-1,1)LC(h-1,w-1)[l,t,r,b].]]>其中C(y,x)=1表示黑像素,C(y,x)=0表示白像素,l、t、r、b、w和h分別表示C的左邊界、上邊界、右邊界、下邊界、寬度和高度(圖6)。I上所有的字符塊BLOCK={CnB|nB=1,2,...,nBlock}。在本發(fā)明中,使用附加了各種上下標(biāo)的C表示特定的字符塊(例如CnB,C(line)等),附加了同樣上下標(biāo)的l、t、r、b、w和h分別表示該字符塊的左邊界、上邊界、右邊界、下邊界、寬度和高度(例如hnB,r(line)等)。
根據(jù)高度和寬度信息,可以把所有的字符塊分成三類MIDDLE類是一般的阿文聯(lián)體字符段,高度比較固定;BIG類包括行間粘連的字符,高度最高;SMALL類包括較小的孤立字符、字符附加部分以及標(biāo)點(diǎn)等,高度矮,寬度也短。
本發(fā)明由下式確定CnB的類別, 其中h‾=1nBlockΣnB=1nBlockhnB,]]>是所有字符塊的平均高度。
1.2子區(qū)域切分為了去除字符附加部分以及行間粘連字符的影響,只保留MIDDLE類字符塊進(jìn)行水平投影。則水平投影值為0的位置把文本區(qū)域分割成多個(gè)子區(qū)域。每個(gè)子區(qū)域包含一條或多條文字行。
1.3多行子區(qū)域檢測(cè)如圖7所示,多行子區(qū)域一定存在多組水平重疊、豎直不重疊的聯(lián)體字符段,而單行子區(qū)域不存在滿足條件的聯(lián)體字符段組。
因此,在每個(gè)子區(qū)域內(nèi)找到所有水平重疊、豎直不重疊的MIDDLE類字符塊組CC={(CI,DJ)|XOL(CI,CJ)>0,YOL(CI,CJ)=0,CI∈MIDDLE,CJ∈MIDDLE}。
其中,XOL(CI,CJ)=max(min(rI,rJ)-max(lI,lJ),0),表示CI和CJ在水平方向上的重疊長(zhǎng)度,YOL(CI,CJ)=max(min(bI,bJ)-max(tI,tJ),0),表示CI和CJ在豎直方向上的重疊長(zhǎng)度。如果‖CC‖>10,就可以判定該子區(qū)域是多行子區(qū)域。
1.4多行子區(qū)域切分因?yàn)榘⑽奈谋緩挠蚁蜃髸?shū)寫(xiě),所以按照右邊界降序排列多行子區(qū)域內(nèi)部所有的MIDDLE類字符塊。按順序每次取出一個(gè)字符塊,第n次取出的字符塊表示為Cn。Cn和已經(jīng)取出的所有字符塊C1,C2,...,Cn-1比較,找到豎直方向上重疊最多的字符塊CY,即CY=argmaxCi(YOL(Cn,Ci)),i=1,2,...,n-1.]]>若Cn和CY豎直重疊部分足夠大,即YOL(Cn,CY)>h/2,Cn和CY就屬于同一文字行,否則Cn屬于新文字行。取出所有字符塊后,就得到了多行子區(qū)域的文字行切分結(jié)果。
1.5切分BIG類字符塊因?yàn)锽IG類字符塊是行間粘連的字符塊,所以需要在跨越文字行處進(jìn)行切分。如果字符塊CB∈BIG跨越了多條文字行,那么在跨越的每條文字行內(nèi),在CB附近一定都存在字符塊和CB豎直重疊。
因此,本發(fā)明采用下面的辦法切分BIG類字符塊對(duì)于每個(gè)字符塊CB∈BIG,在文字行L(nL)內(nèi)尋找字符塊C(nL)(nL=1,2,..,nLine),即C(nL)=argminCNB(nL)(|lB+rB2-lNB(nL)+rNB(nL)2|),CNB(nL)∈NB(nL).]]>其中
NB(nL)={CNB(nL)|CNB(nL)∈L(nL),CNB(nL)∈MIDDLE,]]>HDIS(CNB(nL),CB)<h‾×5,YOL(CNB(nL),CB)>h‾/3},]]>表示第nL條文字行內(nèi),在CB附近和CB豎直重疊的所有MIDDLE類字符塊,HDIS(CNB(nL),CB)=max(max(lNB(nL),lB)-min(rNB(nL),rB),0),]]>表示CNB(nL)和CB之間的水平距離。這樣C(nL)就是在NB(nL)中和CB水平距離最近的字符塊。
若C(m)和C(m+1)存在,就說(shuō)明CB跨越了第m條和m+1條文字行,需要在y=b(m)+t(m+1)2]]>也就是跨越文字行的地方切分CB。
在所有跨越文字行處切分CB,標(biāo)記每個(gè)部分為MIDDLE類,然后分配到相應(yīng)的文字行。
1.6插入SMALL類字符塊對(duì)于每個(gè)字符塊CS∈SMALL,計(jì)算CS和每條文字行的距離,并把其分配到距離最近的文字行。計(jì)算CS和文字行L(nL)的距離的方法如下首先,在L(nL)內(nèi)CS的左側(cè)尋找水平距離CS最近的MIDDLE類字符塊Cl,即Cl=argminCLB(nL)(lS-lLB(nL)),CLB(nL)∈LB(nL),]]>其中LB(nL)={CLB(nL)|CLB(nL)∈L(nL),CLB(nL)∈MIDDLE,lS>lLB(nL)}.]]>然后,在L(nL)內(nèi)CS的右側(cè)尋找水平距離CS最近的MIDDLE類字符塊Cr,即Cr=argminCRB(nL)(rRB(nL)-rS),CRB(nL)∈RB(nL),]]>其中RB(nL)={CRB(nL)|CRB(nL)∈L(nL),CRB(nL)∈MIDDLE,rS>rRB(nL)}.]]>那么,CS和文字行L(nL)的距離為 2基線和頭線估計(jì)因?yàn)榘⑽淖址诨€上連接,所以文字行基線定位對(duì)于字符切分非常關(guān)鍵。當(dāng)前處理的文字行圖像用L表示,HL是L的高度,WL是L的寬度。
2.1基線高度估計(jì)從圖2可以看出,文字行L中連接字符的基線的高度是相同的。因此,L中出現(xiàn)頻率最高的豎直黑像素游程的長(zhǎng)度就是基線的高度。
本發(fā)明用三元組(y(s),y(e),x(se))表示豎直黑像素游程,其中y(s)是游程的豎直起始位置,y(e)是游程的豎直終止位置,x(se)是游程的水平位置。VRUN={(ynR(s),ynR(e),xnR(se))|nR=1,2,...,nRun}]]>是L中的所有豎直黑像素游程。
則L中高度為runH的豎直黑像素游程的數(shù)目為VH(runH)=||{ynR(s),ynR(e),xnR(se)|(ynR(s),ynR(e),xnR(se))∈VRUN,ynR(e)-ynR(s)=runH}||,]]>runH=1,2,...,HL。
由此可得基線的高度為H0=argmaxrunH(VH(runH)),runH=1,2,...,HL.]]>2.2基線位置估計(jì)理想情況下,文字行內(nèi)所有聯(lián)體字符段的基線都在同一水平直線上。但是實(shí)際的掃描文本圖像中,文字行通常存在小角度的傾斜或者彎曲形變,導(dǎo)致不同聯(lián)體字符段的基線位置不一定相同。為了解決上述問(wèn)題,本發(fā)明把較長(zhǎng)的文字行分成多個(gè)較短部分分別估計(jì)基線位置,這樣就可以認(rèn)為每個(gè)部分內(nèi)的基線位置是相同的。
把文字行L分成 個(gè)部分,每個(gè)部分的長(zhǎng)度為α×H0。令HP(nP)(y)(y=0,1,...,HL-1)是L只保留第nP部分圖像的水平投影結(jié)果,那么第nP部分的基線位置為,BTop(nP)=argmaxy(Σk=0H0-1HP(nP)(y+k)),y=0,1,...,HL-H0,]]>BBtm(nP)=BTop(nP)+H0-1,]]>其中BTop(nP)和BBtm(nP)分別表示基線的上邊界和下邊界。在實(shí)際系統(tǒng)中,α可以在10~15之間取值。這樣就可以得到L任意處的基線位置,BTop(x)=BTop(nP)l(nP)xr(nP)BBtm(x)=BBtm(nP)l(nP)xr(nP),]]>其中l(wèi)(nP)和r(nP)分別是第nP部分的左、右邊界。
2.3頭線位置估計(jì)如圖2所示,去除附加部分后,阿文字符的頂端和基線上邊界的距離可以明顯分成兩類一類為高字符頂端和基線上邊界的距離;一類為低字符頂端和基線上邊界的距離。頭線位置指的是低字符頂端的位置。
令UL(x)(x=0,1,...,WL-1)是文字行L去除附加部分后的上輪廓,則EL={x|UL(x)<UL(x-1),UL(x)<UL(x+1),1≤x<WL-1},是UL(x)極小點(diǎn)的集合。
本發(fā)明利用兩次求距離均值的方法,區(qū)分高字符頂端和低字符頂端到基線上邊界的距離。
定義BU(x)=BTop(x)-UL(x)x∈EL0x∉EL,]]>則可得h′=1||EL||Σ{x|x∈EL}BU(x).]]>再令E′={x|BU(x)<h′,x∈EL},可得H1=1||E′||Σ{x|x∈E′}BU(x).]]>H1就是頭線和基線上邊界之間的距離。
3聯(lián)體字符段切分得到文字行后,需要把文字行切分成聯(lián)體字符段。每個(gè)聯(lián)體字符段由一個(gè)主體部分和若干附加部分組成。豎直投影的方法不能處理相鄰聯(lián)體字符段在水平方向重疊的情況,因此本發(fā)明根據(jù)基線位置和字符塊類別標(biāo)記聯(lián)體字符段的主體部分,然后根據(jù)距離信息歸并聯(lián)體字符段的主體部分和附加部分。
本發(fā)明面認(rèn)定下面兩種類型的字符塊是聯(lián)體字符段的主體部分被基線穿過(guò)的MIDDLE類字符塊;被基線穿過(guò)并且在水平方向上不和其他字符塊重疊的SMALL類字符塊。部分SMALL類字符塊之所以被認(rèn)為是聯(lián)體字符段主體部分,是因?yàn)檫@些字符塊可能是標(biāo)點(diǎn)或者孤立字符。剩余的SMALL類字符塊則屬于聯(lián)體字符段的附加部分。
對(duì)每個(gè)屬于聯(lián)體字符段附加部分的SMALL類字符塊CS搜索最近的屬于聯(lián)體字符段主體部分的字符塊CM,則CS和CM是同一個(gè)聯(lián)體字符段的附加部分和主體部分。CS和CM的距離定義為DIS(CS,CM)=|lS+rS-lM-rM|。
4字符切分字符切割是把聯(lián)體字符段切分成單個(gè)字符的過(guò)程。當(dāng)前處理的聯(lián)體字符段圖像用P表示,HP是P的高度,WP是P的寬度。本發(fā)明把字符切點(diǎn)分成在基線上的切點(diǎn),在基線上方的切點(diǎn)及在基線下方的切點(diǎn)三類。依圖8所示,本發(fā)明依次搜索每類所有可能的切點(diǎn)位置,然后檢查切點(diǎn)的合法性,最后把附加部分分配給相應(yīng)的字符主體部分。
4.1在基線上的候選切點(diǎn)如圖9所示,在基線上的切點(diǎn)處滿足如下情形之一(A)游程數(shù)目改變。字符左邊界,豎直游程數(shù)目從1增加到2以上;字符右邊界,豎直游程數(shù)目從2以上減少為1。
(B)游程數(shù)目不變,但長(zhǎng)度發(fā)生較大變化。字符左邊界,上輪廓和/或下輪廓的位置遠(yuǎn)離基線區(qū)域;字符右邊界,上輪廓和/或下輪廓的位置回歸基線區(qū)域。
(C)游程數(shù)目不變,上輪廓位置逐漸變化,導(dǎo)致上輪廓位置累積發(fā)生較大變化。字符左邊界,上輪廓位置逐漸遠(yuǎn)離基線區(qū)域;字符右邊界,上輪廓位置逐漸回歸基線區(qū)域。
定義函數(shù)D(x)描述P的上、下輪廓和基線之間的距離,D(x)=max(BTop(x)-UP(x),0)+max(VP(x)-BBtm(x),0),x=0,1,...,WP-1,其中UP(x)和VP(x)分別是P去除附加部分后的上輪廓和下輪廓。
這樣,在基線上的候選切點(diǎn)xO滿足下述條件(1)和(2)或者條件(1)和(3),條件(1)(2)(3)各式中的“+”運(yùn)算和“-”運(yùn)算分別對(duì)應(yīng)字符的左側(cè)切點(diǎn)和右側(cè)切點(diǎn)(1)切點(diǎn)xO在基線上D(xO)≤2;(2)切點(diǎn)情形(A)或(B)D(xO±1)-D(xO)>1.5×H0;(3)切點(diǎn)情形(C)D(xO±i)-D(xO)>0.75×H0i=eD(xO±i)≥D(xO±iml)i=1,2,K,e,]]>其中e滿足xO±e∈EP,EP是RP(x)極小點(diǎn)的集合;4.2基線上方的候選切點(diǎn)如圖10所示,如果位置xT是基線上方的候選切點(diǎn),那么xT必須滿足如下條件(1)切點(diǎn)本身是上輪廓的極低點(diǎn)UP(xT)>UP(xT-1),UP(xT)>UP(xT+1);(2)上輪廓在切點(diǎn)位置處于頭線上方UP(xT)<BTop(xT)-H1;(3)切點(diǎn)左側(cè)下輪廓的最低點(diǎn)在基線的下方
maxx<xT(VP(x))>BBtm(xT);]]>(4)切點(diǎn)右側(cè)下輪廓的最低點(diǎn)在基線的下方maxxT<x<wP-1(VP(x))>BBtm(xT).]]>4.3基線下方的候選切點(diǎn)如圖11所示,如果位置xB是基線下方的候選切點(diǎn),那么xB必須滿足如下條件(1)切點(diǎn)左側(cè)3列上輪廓的最高點(diǎn)TL在基線的上方(TL=minxB-3<x<xB(VP(x)))<BTop(xB);]]>(2)切點(diǎn)本身及右側(cè)3列上輪廓的最高點(diǎn)TR在基線的下方(TR=minxB≤k<xB+3(VP(x)))<BBtm(xB);]]>(3)TL和TR高度差大于兩倍基線高度TR-TL>2×H0。
4.4檢查切點(diǎn)的合法性從右到左依次檢查每個(gè)切點(diǎn)的合法性,并刪除不合法切點(diǎn)。如果相鄰兩個(gè)切點(diǎn)之間的距離小于基線的高度而且兩個(gè)切點(diǎn)之間的字符高度小于2倍基線高度,那么左側(cè)的切點(diǎn)就是一個(gè)不合法的切點(diǎn)。具體方法如下設(shè)xr和xl是兩個(gè)相鄰的切點(diǎn),其中xr>xl,若xr-xl≤H02maxxl<x<xr(VP(x))-minxl<x<xr(UP(x))≤H0×2,]]>則刪除切點(diǎn)xl。
4.5附加部分分配當(dāng)連續(xù)兩個(gè)字符都擁有附加部分時(shí),附加部分(圖12)也有可能粘連。如果一個(gè)附加部分和多個(gè)字符的主體部分在水平方向上重疊,則該附加部分是粘連的。若該附加部分跨越xR和xL兩個(gè)相鄰切點(diǎn),則在xB和xL之間附加部分豎直投影值最小處切分附加部分。
粘連的附加部分切分完畢后,就要把每一個(gè)附加部分分配給最近的字符主體部分。附加部分CA和字符主體部分CM的距離為DIS(CA,CM)=|lA+rA-lM-rM|。
根據(jù)本發(fā)明實(shí)現(xiàn)的阿文文本切分算法,已經(jīng)應(yīng)用于一個(gè)印刷體阿文文本識(shí)別系統(tǒng)。300DPI分辨率掃描的黑白二值阿拉伯文及維吾爾文的報(bào)紙和期刊用來(lái)測(cè)試該系統(tǒng),識(shí)別結(jié)果如表1。其中只有30%左右的錯(cuò)誤是因?yàn)榍蟹皱e(cuò)誤引起的,也就是說(shuō)字符切分的準(zhǔn)確率在99%以上。試驗(yàn)結(jié)果能夠說(shuō)明本發(fā)明提出的印刷體阿文文本切分方法的有效性。
表1試驗(yàn)結(jié)果本發(fā)明提出的多字體多字號(hào)印刷體阿文文本切分方法在實(shí)驗(yàn)中獲得了優(yōu)異的文本切分性能,具有廣泛的應(yīng)用前景。綜上所述,本發(fā)明具有以下優(yōu)點(diǎn)第一,本發(fā)明提出的在字符塊分類的基礎(chǔ)上,先水平投影把文本區(qū)域分割成子區(qū)域,然后在多行子區(qū)域內(nèi)部歸并字符塊實(shí)現(xiàn)文字行切分的方法不僅能夠處理水平無(wú)傾斜的文本,還能處理傾斜角度大,存在行間字符粘連的文本。
第二,本發(fā)明提出的基線、頭線位置估計(jì)方法準(zhǔn)確率高。
第三,本發(fā)明提出的聯(lián)體字符段切分方法,能夠處理相鄰聯(lián)體字符段在水平方向重疊的情況。
第四,本發(fā)明能夠?qū)ふ以诨€上的切點(diǎn),在基線上方的切點(diǎn)及在基線下方的切點(diǎn),能夠切割粘連附加部分,并且利用結(jié)構(gòu)規(guī)則刪除經(jīng)常出現(xiàn)的過(guò)切分點(diǎn)。字符切點(diǎn)查全率高,偽切點(diǎn)數(shù)目少。
圖1標(biāo)準(zhǔn)阿拉伯文基本字符集圖2阿文文本特點(diǎn)圖3印刷體阿文文本識(shí)別系統(tǒng)結(jié)構(gòu)4發(fā)明主要內(nèi)容的流程圖5文字行切分流程圖6坐標(biāo)系及變量說(shuō)明圖7多行子區(qū)域檢測(cè)圖8字符切分流程圖9在基線上的切點(diǎn)特點(diǎn)圖10基線上方切點(diǎn)特點(diǎn)圖11基線下方切點(diǎn)特點(diǎn)圖12附加部分切分具體實(shí)施方式
一個(gè)印刷體阿文文本識(shí)別系統(tǒng)在硬件上由圖像采集設(shè)備和計(jì)算機(jī)兩部分構(gòu)成。圖像采集設(shè)備一般是掃描儀,用來(lái)獲取待識(shí)別文本的數(shù)字圖像。計(jì)算機(jī)用于對(duì)數(shù)字圖像進(jìn)行處理,完成文本的最終識(shí)別。
對(duì)于一篇阿文文本樣張,首先通過(guò)掃描儀將其掃入計(jì)算機(jī),使之變?yōu)閿?shù)字圖像。對(duì)數(shù)字圖像采取二值化、去除噪聲等預(yù)處理措施,得到二值圖像。再對(duì)輸入圖像進(jìn)行行切分得到文本行,估計(jì)文本行的基線、頭線位置,把文本行切分成聯(lián)體字符段。在此基礎(chǔ)上對(duì)每一個(gè)連體字符段進(jìn)行單字切分,得到單個(gè)字符,然后識(shí)別單個(gè)字符。每個(gè)階段的錯(cuò)誤可以用手工方式改正。
因此,實(shí)現(xiàn)實(shí)用的印刷體阿文文本識(shí)別系統(tǒng),在文本切分方面需要考慮如下幾個(gè)方面文字行切分;基線和頭線位置估計(jì);聯(lián)體字符段切分;字符切分。下面分別對(duì)這四個(gè)方面進(jìn)行詳細(xì)介紹第一,文字行切分1.1字符塊分類根據(jù)高度和寬度信息,把文本圖像I上的所有字符塊{CnB|nB=1,2,...,nBlock}分成三類 其中h‾=1nBlockΣnB=1nBlockhnB.]]>1.2子區(qū)域切分只保留MIDDLE類字符塊水平投影,水平投影值為0的位置把文本區(qū)域分割成多個(gè)子區(qū)域。每個(gè)子區(qū)域包含一條或多條文字行。
1.3多行子區(qū)域檢測(cè)對(duì)每個(gè)子區(qū)域求出CC={(CI,CJ)|XOL(CI,CJ)>0,YOL(CI,CJ)=0,CI∈MIDDLE,CJ∈MIDDLE}。
其中,XOL(CI,CJ)=max(min(rI,rJ)-max(lI,lJ),0),YOL(CI,CJ)=max(min(bI,bJ)-max(tI,tJ),0)。
如果‖CC‖>10,就判定該子區(qū)域是多行子區(qū)域。
1.4多行子區(qū)域切分按照右邊界降序排列多行子區(qū)域內(nèi)部所有的MIDDLE類字符塊。按順序每次取出一個(gè)字符塊Cn和已經(jīng)取出的所有字符塊C1,C2,...,Cn-1比較,找到豎直方向上重疊最多的字符塊CY,即CY=argmaxCi(YOL(Cn,Ci)),i=1,2,...,n-1.]]>若Cn和CY豎直重疊部分足夠大,即YOL(Cn,CY)>h/2,Cn和CY就屬于同一文字行,否則Cn屬于新文字行。取出所有字符塊后,就得到了多行子區(qū)域的文字行切分結(jié)果。最后把所有子區(qū)域的所有文字行按照從上到下的順序排列。
1.5切分BIG類字符塊對(duì)于每個(gè)字符塊CB∈BIG,在文字行L(nL)內(nèi)尋找字符塊C(nL)(nL=1,2,..,nLine),即C(nL)=argminCNB(nL)(|lB+rB2-lNB(nL)+rNB(nL)2|),CNB(nL)∈NB(nL).]]>其中NB(nL)={CNB(nL)|CNB(nL)∈L(nL),CNB(nL)∈MIDDLE,]]>HDIS(CNB(nL),CB)<h‾×5,YOL(CNB(nL),CB)>h‾/3},]]>HDIS(CNB(nL),CB)=max(max(lNB(nL),lB)-min(rNB(nL),rB),0).]]>若C(m)和C(m+1)存在,就說(shuō)明CB跨越了第m條和m+1條文字行,需要在y=b(m)+t(m+1)2,]]>處切分CB。在所有跨越文字行的位置把CB切分成多個(gè)部分,標(biāo)記每個(gè)部分為MIDDLE類,然后分配到相應(yīng)的文字行。
1.6插入SMALL類字符塊對(duì)于每個(gè)字符塊CS∈SMALL,計(jì)算CS和每條文字行的距離,并把其分配到距離最近的文字行。
計(jì)算CS和文字行L(nL)的距離的方法如下尋找滿足條件的字符塊Cl和Cr,即Cl=argminCLB(nL)(lS-lLB(nL)),CLB(nL)∈LB(nL),]]>Cr=argminCRB(nL)(rRB(nL)-rS),CRB(nL)∈RB(nL),]]>其中LB(nL)={CLB(nL)|CLB(nL)∈L(nL),CLB(nL)∈MIDDLE,lS>lLB(nL)},]]>RB(nL)={CRB(nL)|CRB(nL)∈L(nL),CRB(nL)∈MIDDLE,rS<rRB(nL)}.]]>則CS和文字行L(nL)的距離為 第二,基線和頭線估計(jì)當(dāng)前處理的文字行圖像用L表示,HL是L的高度,WL是L的寬度。
2.1基線高度估計(jì)令VRUN={(ynR(s),ynR(e),xnR(se))|nR=1,2,...,nRun}]]>是L中的所有豎直黑像素游程,VH(runH)=||{(ynR(s),ynR(e),xnR(se))|(ynR(s),ynR(e),xnR(se))∈VRUN,ynR(e)-ynR(s)=runH}||,]]>runH=1,2,...,HL。
則可得基線的高度為H0=argmaxrunH(VH(runH)),runH=1,2,...,HL.]]>2.2基線位置估計(jì)把文字行L分成 個(gè)部分,每個(gè)部分的長(zhǎng)度為15×H0。令HP(nP)(y)(y=0,1,...,HL-1)是L只保留第nP部分圖像的水平投影結(jié)果,那么第nP部分的基線位置為,BTop(nP)=argmaxy(Σk=0H0-1HP(nP)(y+k)),y=0,1,...,HL-H0,]]>BBtm(nP)=BTop(nP)+H0-1,]]>其中BTop(nP)和BBtm(nP)分別表示基線的上邊界和下邊界。這樣就可以得到L任意處的基線位置,
BTop(x)=BTop(nP)l(nP)≤x<r(nP)BBtm(x)=BBtm(nP)l(nP)≤x<r(nP),]]>其中l(wèi)(nP)和r(nP)分別是第nP部分的左、右邊界。
2.3頭線位置估計(jì)令UL(x)(x=0,1,...,WL-1)是文字行L去除附加部分后的上輪廓,則EL={x|UL(x)<UL(x-1),UL(x)<UL(x+1),1≤x<WL-1},是UL(x)極小點(diǎn)的集合。
定義BU(x)=BTop(x)-UL(x)x∈EL0x∉EL,]]>則可得h′=1||EL||Σ{x|x∈EL}BU(x).]]>再令E′={x|BU(x)<h′,x∈EL},可得H1=1||E′||Σ{x|x∈E′}BU(x).]]>H1就是頭線和基線上邊界之間的距離。
第三,聯(lián)體字符段切分每個(gè)聯(lián)體字符段由一個(gè)主體部分和若干附加部分組成。被基線穿過(guò)的MIDDLE類字符塊以及被基線穿過(guò)并且在水平方向上不和其他字符塊重疊的SMALL類是聯(lián)體字符段的主體部分。剩余的SMALL類字符塊則屬于聯(lián)體字符段的附加部分。
對(duì)每個(gè)屬于聯(lián)體字符段附加部分的SMALL類字符塊CS搜索最近的屬于聯(lián)體字符段主體部分的字符塊CM,則CS和CM是同一個(gè)聯(lián)體字符段的附加部分和主體部分。CS和CM的距離定義為DIS(CS,CM)=|lS+rS-lM-rM|。
第四,字符切分當(dāng)前處理的聯(lián)體字符段圖像用P表示,HP是P的高度,WP是P的寬度。
4.1在基線上的候選切點(diǎn)定義D(x)=max(BTop(x)-UP(x),0)+max(VP(x)-BBtm(x),0),x=0,1,...,WP-1,其中UP(x)和VP(x))分別是P去除附加部分后的上輪廓和下輪廓。
在基線上的候選切點(diǎn)xO滿足(1)和(2)或者(1)和(3),下面各式中的“+”運(yùn)算和“-”運(yùn)算分別對(duì)應(yīng)字符的左側(cè)切點(diǎn)和右側(cè)切點(diǎn)(1)切點(diǎn)xO在基線上
D(xO)≤2;(2)切點(diǎn)情形(A)或(B)D(xO±1)-D(xO)>1.5×H0;(3)切點(diǎn)情形(C)D(xO±i)-D(xO)>0.75×H0i=eD(xO±i)≥D(xO±im1)i=1,2,K,e,]]>其中e滿足xO±e∈EP,EP是UP(x)極小點(diǎn)的集合。
4.2基線上方的候選切點(diǎn)基線上方的切點(diǎn)xT必須滿足如下條件(1)切點(diǎn)本身是上輪廓的極低點(diǎn)UP(xT)>UP(xT-1),UP(xT)>UP(xT+1);(2)上輪廓在切點(diǎn)位置處于頭線上方UP(xT)<BTop(xT)-H1;(3)切點(diǎn)左側(cè)下輪廓的最低點(diǎn)在基線的下方maxx<xT(VP(x))>BBtm(xT);]]>(4)切點(diǎn)右側(cè)下輪廓的最低點(diǎn)在基線的下方maxxT<x<wP-1(VP(x))>BBtm(xT).]]>4.3基線下方的候選切點(diǎn)基線下方的切點(diǎn)xB必須滿足如下條件(1)切點(diǎn)左側(cè)3列上輪廓的最高點(diǎn)TL在基線的上方(TL=minxB-3<x<xB(VP(x)))<BTop(xB);]]>(2)切點(diǎn)本身及右側(cè)3列上輪廓的最高點(diǎn)TR在基線的下方(TR=minxB≤k<xB+3(VP(x)))>BBtm(xB);]]>(3)TL和TR高度差大于兩倍基線高度TR-TL>2×H0。
4.4檢查切點(diǎn)的合法性從右到左依次檢查每個(gè)切點(diǎn)的合法性,并刪除不合法切點(diǎn)。具體方法如下設(shè)xr和xl是兩個(gè)相鄰的切點(diǎn),其中xr>xl,若
xr-xl≤H02maxxl<x<xr(VP(x))-minxl<x<xr(UP(x))≤H0×2']]>則刪除切點(diǎn)xl。
4.5附加部分分配如果附加部分和多個(gè)字符的主體部分在水平方向上重疊,則附加部分是粘連的。若該附加部分跨越xR和xL兩個(gè)相鄰切點(diǎn),則在xR和xL之間附加部分豎直投影值最小處切分附加部分。
最后把每個(gè)附加部分分配給最近的字符主體部分。附加部分CA和字符主體部分CM的距離計(jì)算公式為DIS(CA,CM)=|lA+rA-lM-rM|。
權(quán)利要求
1.印刷體阿拉伯文字符集文本切分的方法,其特征在于首先在字符塊分類的基礎(chǔ)上,先選擇部分字符塊水平投影把輸入文本圖像分割成子區(qū)域,然后檢測(cè)多行子區(qū)域歸并字符塊實(shí)現(xiàn)多行子區(qū)域的文字行切分;然后估計(jì)文字行的基線和頭線位置;隨后把文字行切分成聯(lián)體字符段;最后根據(jù)字符切點(diǎn)的特點(diǎn)尋找在基線上的切點(diǎn),在基線上方的切點(diǎn)及在基線下方的切點(diǎn);在由圖像采集設(shè)備和計(jì)算機(jī)組成的系統(tǒng)中,該方法依次含有以下步驟第1步,文字行切分令I(lǐng)表示輸入的文本圖像,H是I的高度,W是I的寬度,字符塊C的左邊界、上邊界、右邊界、下邊界、寬度和高度分別表示為l、t、r、b、w和h,附加了各種上下標(biāo)的C表示特定的字符塊(例如CnB,C(line)等),附加了相同上下標(biāo)的l、t、r、b、w和h分別表示該字符塊的左邊界、上邊界、右邊界、下邊界、寬度和高度(例如hnB,r(line)等);第1.1步,字符塊分類根據(jù)高度和寬度信息,把輸入文本圖像I上所有的字符塊{CnB|nB=1,2,...,nBlock}分成三類 其中h‾=1nBlockΣnB=1nBlockhnB,]]>是所有字符塊的平均高度;第1.2步,子區(qū)域切分對(duì)MIDDLE類字符塊水平投影,水平投影值為0的位置把文本區(qū)域分割成多個(gè)子區(qū)域,每個(gè)子區(qū)域包含一條或多條文字行;第1.3步,多行子區(qū)域檢測(cè)對(duì)每個(gè)子區(qū)域求出所有水平重疊、豎直不重疊的MIDDLE類字符塊組CC={(CI,CJ|XOL(CI,CJ)>0,YOL(CI,CJ)=0,CI∈MIDDLE,CJ∈MIDDLE},其中,XOL(CI,CJ)=max(min(rI,rJ)-max(lI,lJ),0),XOL(CI,CJ)表示字符塊CI和字符塊CJ在水平方向上的重疊長(zhǎng)度,YOL(CJ,CJ)=max(min(bI,bJ)-max(tI,tJ),0),YOL(CI,CJ)表示字符塊CI,和字符塊CJ在豎直方向上的重疊長(zhǎng)度;如果‖CC‖>10,就判定該子區(qū)域是多行子區(qū)域;第1.4步,多行子區(qū)域切分按照右邊界降序排列多行子區(qū)域內(nèi)部所有的MIDDLE類字符塊,按順序每次取出一個(gè)字符塊Cn和已經(jīng)取出的所有字符塊C1,C2,...,Cn-1比較,找到豎直方向上重疊最多的字符塊CY,即CY=argmaxCi(YOL(Cn,Ci)),i=1,2,...,n-1,]]>若Cn和CY豎直重疊部分足夠大,即YOL(Cn,CY)>h/2,Cn和CY就屬于同一文字行,否則Cn屬于新文字行,取出所有字符塊后,就得到了多行子區(qū)域的文字行切分結(jié)果;第1.5步,切分BIG類字符塊對(duì)于每個(gè)字符塊CB∈BIG,在文字行L(nL)內(nèi)尋找字符塊C(nL)(nL=1,2,..,nLine),即C(nL)=argmaxCNB(nL)(|lB+rB2-lNB(nL)+rNB(nL)2|),CNB(nL)∈NB(nL),]]>其中NB(nL)={CNB(nL)|CNB(nL)∈L(nL),CNB(nL)∈MIDDLE,]]>HDIS(CNB(nL),CB)<h‾×5,YOL(CNB(nL),CB)>h‾/3},]]>NB(nL)表示第nL條文字行內(nèi),在CB附近和CB豎直重疊的所有MIDDLE類字符塊,HDIS(CNB(nL),CB)=max(max(lNB(nL),lB)-min(rNB(nL),rB),0),]]>HDIS(CNB(nL),CB)表示CNB(nL)和CB之間的水平距離,則C(nL)是在NB(nL)中和CB水平距離最近的字符塊;若C(m)和C(m+1)存在,就說(shuō)明在第m條和m+1條文字行內(nèi),在CB附近都存在字符塊和CB豎直重疊,也就是說(shuō)CB跨越了第m條和m+1條文字行,需要在y=b(m)+t(m+1)2,]]>處切分CB,在所有跨越文字行的位置把CB切分成多個(gè)部分,標(biāo)記每個(gè)部分為MIDDLE類,然后分配到相應(yīng)的文字行;第1.6步,插入SMALL類字符塊對(duì)于每個(gè)字符塊CS∈SMALL,計(jì)算CS和每條文字行的距離,并把其分配到距離最近的文字行計(jì)算CS和文字行L(nL)的距離的方法如下尋找滿足條件的字符塊Cl和Cr,即Cl=argminCLB(nL)(lS-lLB(nL)),CLB(nL)∈LB(nL),]]>Cr=argminCEB(nL)(rRB(nL)-rS),CRB(nL)∈RB(nL),]]>其中LB(nL)={CLB(nL)|CLB(nL)∈L(nL),CLB(nL)∈MIDDLE,lS>LLB(nL)},]]>RB(nL)={CRB(nL)|CRB(nL)∈L(nL),CRB(nL)∈MIDDLE,rS<rRB(nL)},]]>則CS和文字行L(nL)的距離為 第2步,基線和頭線估計(jì)當(dāng)前處理的文字行圖像用L表示,HL是L的高度,WL是L的寬度;第2.1步,基線高度估計(jì)令VRUN={(ynR(s),ynR(e),xnR(se))|nR=1,2,...,nRun}]]>是L中的所有豎直黑像素游程,則VH(runH)=||{(ynR(s),ynR(e),xnR(se))|(ynR(s),ynR(e),xnR(se))∈VRUN,ynR(e)-ynR(s)=runH}||,]]>runH=1,2,...,HL,由此可得基線的高度為H0=argminrunH(VH(runH)),runH=1,2,...,HL;]]>第2.2步,基線位置估計(jì)把文字行L分成 個(gè)部分,每個(gè)部分的長(zhǎng)度為α×H0,α在10~15之間取值,令HP(nP)(y)(y=0,1,...,HL-1)是L只保留第nP部分圖像的水平投影結(jié)果,那么第nP部分的基線位置為,BTop(nP)=argmaxy(Σk=0H0-1HP(nP)(y+k)),y=0,1,...,HL-H0,]]>BBtm(nP)=BTop(nP)+H0-1,]]>其中BTop(nP)和BBtm(nP)分別表示基線的上邊界和下邊界,這樣就可以得到L任意處的基線位置,BTop(x)=BTop(nP)l(nP)≤x<r(nP)BBtm(x)=BBtm(nP)l(nP)≤x<r(nP),]]>其中l(wèi)(nP)和r(nP)分別是第nP部分的左、右邊界;第2.3步,頭線位置估計(jì)令UL(x)(x=0,1,...,WL-1)是文字行L去除附加部分后的上輪廓,則EL={x|UL(x)<UL(x-1),UL(x)<UL(x+1),1≤x<WL-1},是UL(x)極小點(diǎn)的集合;定義BU(x)=BTop(x)-UL(x)x∈EL0x∉EL,]]>則可得h′=1||EL||Σ{x|x∈EL}BU(x),]]>再令E′={x|BU(x)<h′,x∈EL},可得H1=1||E′||Σ{x|x∈E′}BU(x),]]>H1就是頭線和基線上邊界之間的距離;第3步,聯(lián)體字符段切分每個(gè)聯(lián)體字符段由一個(gè)主體部分和若干附加部分組成,被基線穿過(guò)的MIDDLE類字符塊以及被基線穿過(guò)并且在水平方向上不和其他字符塊重疊的SMALL類是聯(lián)體字符段的主體部分,剩余的SMALL類字符塊則屬于聯(lián)體字符段的附加部分;對(duì)每個(gè)屬于聯(lián)體字符段附加部分的SMALL類字符塊CS搜索最近的屬于聯(lián)體字符段主體部分的字符塊CM,則CS和CM是同一個(gè)聯(lián)體字符段的附加部分和主體部分,CS和CM的距離定義為DIS(CS,CM)=|lS+rS-lM-rM|;第4步,字符切分當(dāng)前處理的聯(lián)體字符段的圖像用戶表示,HP是P的高度,WP是P的寬度;第4.1步,在基線上的候選切點(diǎn)在基線上的切點(diǎn)處滿足如下情形之一(A)游程數(shù)目改變字符左邊界,豎直游程數(shù)目從1增加到2以上;字符右邊界,豎直游程數(shù)目從2以上減少為1;(B)游程數(shù)目不變,但長(zhǎng)度發(fā)生較大變化字符左邊界,上輪廓和/或下輪廓的位置遠(yuǎn)離基線區(qū)域;字符右邊界,上輪廓和/或下輪廓的位置回歸基線區(qū)域;(C)游程數(shù)目不變,上輪廓位置逐漸變化,導(dǎo)致上輪廓位置累積發(fā)生較大變化字符左邊界,上輪廓位置逐漸遠(yuǎn)離基線區(qū)域;字符右邊界,上輪廓位置逐漸回歸基線區(qū)域;定義函數(shù)D(x)描述P的上、下輪廓和基線之間的距離,D(x)=max(BTop(x)-UP(x),0)+max(VP(x)-BBtm(x),0),x=0,1,...,WP-1,其中UP(x)和VP(x)分別是P去除附加部分后的上輪廓和下輪廓;在基線上的候選切點(diǎn)xO滿足下述條件(1)和(2)或者條件(1)和(3),條件(1)(2)(3)各式中的“+”運(yùn)算和“-”運(yùn)算分別對(duì)應(yīng)字符的左側(cè)切點(diǎn)和右側(cè)切點(diǎn)(1)切點(diǎn)xO在基線上D(xO)≤2;(2)切點(diǎn)情形(A)或(B)D(xO±1)-D(xO)>1.5×H0;(3)切點(diǎn)情形(C)D(xO±i)-D(xO)>0.75×Hi=eD(xO±i)≥D(xO±iml)i=1,2,K,e,]]>其中e滿足xO±e∈EP,EP是UP(x)極小點(diǎn)的集合;第4.2步,基線上方的候選切點(diǎn)基線上方的切點(diǎn)xT必須滿足如下條件(1)切點(diǎn)本身是上輪廓的極低點(diǎn)UP(xT)>UP(xT-1),UP(xT)>UP(xT+1);(2)上輪廓在切點(diǎn)位置處于頭線上方UP(xT)<BTop(xT)-H1;(3)切點(diǎn)左側(cè)下輪廓的最低點(diǎn)在基線的下方maxx<xT(VP(x))>BBtm(xT);]]>(4)切點(diǎn)右側(cè)下輪廓的最低點(diǎn)在基線的下方maxxT<x<wP-1(VP(x))>BBtm(xT);]]>第4.3步,基線下方的候選切點(diǎn)基線下方的切點(diǎn)XB必須滿足如下條件(1)切點(diǎn)左側(cè)3列上輪廓的最高點(diǎn)TL在基線的上方(TL=minxB-3<x<xB(VP(x)))<BTop(xB);]]>(2)切點(diǎn)本身及右側(cè)3列上輪廓的最高點(diǎn)TR在基線的下方(TR=minxB≤k<xB+3(VP(x)))>BBtm(xB);]]>(3)TL和TR高度差大于兩倍基線高度TR-TL>2×H0;第4.4步,檢查切點(diǎn)的合法性從右到左依次檢查每個(gè)切點(diǎn)的合法性,并刪除不合法切點(diǎn),判斷依據(jù)如下設(shè)xr和xl是兩個(gè)相鄰的切點(diǎn),其中xr>xl,若xr-xl≤H02maxxl<x<xr(VP(x))-minxl<x<xr(UP(x))≤H0×2,]]>則刪除切點(diǎn)xl;第4.5步,附加部分分配如果附加部分和多個(gè)字符的主體部分在水平方向上重疊,則附加部分是粘連的,若該附加部分跨越xR和xL兩個(gè)相鄰切點(diǎn),則在xR和xL之間附加部分豎直投影值最小處切分附加部分;最后把每個(gè)附加部分分配給最近的字符主體部分,附加部分CA和字符主體部分CM的距離計(jì)算公式為DIS(CA,CM)=|lA+rA-lM-rM|。
全文摘要
印刷體阿拉伯字符集文本切分方法屬于光學(xué)字符識(shí)別中的字符切分領(lǐng)域。本發(fā)明特征在于在字符塊分類的基礎(chǔ)上,選擇部分字符塊水平投影分割文本圖像成子區(qū)域,然后檢測(cè)多行子區(qū)域歸并字符塊實(shí)現(xiàn)多行子區(qū)域的文字行切分;隨后估計(jì)文字行的基線和頂線位置,并把文字行切分成聯(lián)體字符段;最后根據(jù)字符切點(diǎn)的特點(diǎn)尋找在基線上、基線上方及基線下方的切點(diǎn),并且利用結(jié)構(gòu)規(guī)則刪除過(guò)切分點(diǎn)。本發(fā)明在多字體多字號(hào)印刷體阿拉伯文本測(cè)試集上的字符切分正確率達(dá)到99%以上。
文檔編號(hào)G06K9/00GK1741035SQ200510086478
公開(kāi)日2006年3月1日 申請(qǐng)日期2005年9月23日 優(yōu)先權(quán)日2005年9月23日
發(fā)明者丁曉春, 靳簡(jiǎn)明, 王 華, 彭良瑞, 劉長(zhǎng)松, 方馳 申請(qǐng)人:清華大學(xué)