專利名稱:基于阿拉伯字符集的印刷體字符識(shí)別方法
技術(shù)領(lǐng)域:
基于阿拉伯字符集的印刷體字符識(shí)別方法屬于字符識(shí)別領(lǐng)域。
背景技術(shù):
我國(guó)的維吾爾、哈薩克、柯爾克孜等少數(shù)民族的文字采用阿拉伯字符集體系中的字符來(lái)書寫,其文字構(gòu)成規(guī)則與書寫形式變化均與阿拉伯文相一致。因此,對(duì)維吾爾、哈薩克、柯爾克孜、阿拉伯等字符的識(shí)別可以運(yùn)用統(tǒng)一的方法進(jìn)行處理。在本發(fā)明中,把維吾爾、哈薩克、柯爾克孜、阿拉伯字符識(shí)別統(tǒng)稱為基于阿拉伯字符集的字符識(shí)別。采用阿拉伯字符集書寫的維吾爾、哈薩克、柯爾克孜、阿拉伯等文字均由30~40個(gè)基本字母構(gòu)成。根據(jù)在詞中出現(xiàn)的位置的不同,每個(gè)基本字母都有1-4種不同的書寫形式——首寫形式、中間形式、尾寫形式、獨(dú)立形式。于是,在實(shí)際文本中,30~40個(gè)基本字母就可以演化成100多個(gè)字符形式(圖5)?;诎⒗址奈淖中形姆较?yàn)閺挠业阶?,字符前后相連形成一個(gè)或幾個(gè)連體字符段,在連體段中,字符沿著基線相連(圖6)。
維吾爾文、哈薩克文和柯爾克孜文是我國(guó)重要的少數(shù)民族文字,開展維吾爾、哈薩克、柯爾克孜字符識(shí)別技術(shù)研究是中文多文種信息處理系統(tǒng)發(fā)展的迫切需要。而以阿拉伯字符作為書寫載體的阿拉伯語(yǔ)是世界上主要語(yǔ)言之一,使用人口超過3億,阿拉伯字符識(shí)別系統(tǒng)具有迫切的現(xiàn)實(shí)需求和廣泛的應(yīng)用前景。目前,從總體上說,針對(duì)阿拉伯字符集的字符識(shí)別的研究要遠(yuǎn)遠(yuǎn)落后于其它廣泛使用的文字(如拉丁字母、漢字、日文等)字符識(shí)別的研究,現(xiàn)有的主要方法可以分成兩大類1.結(jié)構(gòu)方法。對(duì)于給定的字符集,抽取數(shù)量有限的不可分割的最小子模式(基元),將這些基元按照特定的順序和規(guī)則組合起來(lái)可以構(gòu)成該字符集中的任何字符。這樣,利用字符結(jié)構(gòu)與語(yǔ)言之間的相似性,字符識(shí)別可以借助形式語(yǔ)言學(xué)的文法(包含了句法規(guī)則)來(lái)描述和剖析字符的結(jié)構(gòu)。由于基于阿拉伯字符集的文本僅由30多個(gè)基本字母拼寫而成,而且阿拉伯字符集中的字符筆劃往往不多,結(jié)構(gòu)不是非常復(fù)雜,所以按照拼音文字常用的方法,采用結(jié)構(gòu)分析方法來(lái)識(shí)別字符,在理論上可期望得到非常高的識(shí)別率。迄今為止,絕大多數(shù)學(xué)者的研究均側(cè)重于該類方法。但由于結(jié)構(gòu)方法本身的局限性(易受各種噪聲影響,魯棒性不強(qiáng))和阿拉伯字符集的特殊性(大量相似字符的存在),所以,此種方法的實(shí)際應(yīng)用效果極不理想。
2.統(tǒng)計(jì)方法。抽取字符的統(tǒng)計(jì)特征,每個(gè)字符模式用一個(gè)特征向量表示,它被看成是特征空間中的一個(gè)點(diǎn)。識(shí)別的過程就是運(yùn)用統(tǒng)計(jì)分類器在特征空間中將待識(shí)別字符模式正確地劃分到所屬的類別中。該方法具有抗噪性能好,可推廣性強(qiáng)的優(yōu)點(diǎn)。但如何選取簡(jiǎn)潔有效的特征來(lái)表示字符以及如何設(shè)計(jì)合理的分類器,是直接影響識(shí)別性能的關(guān)鍵環(huán)節(jié)。目前雖有少量基于統(tǒng)計(jì)方法的阿拉伯字符識(shí)別技術(shù)見諸文獻(xiàn),但選用的特征基本局限于矩特征,分類判決則采用象歐氏距離這樣比較簡(jiǎn)單的準(zhǔn)則。因?yàn)樘卣鞯木植靠坍嬆芰?yán)重不足,又未能充分利用特征空間的高階信息,現(xiàn)有統(tǒng)計(jì)方法的識(shí)別性能距離實(shí)用需求尚有不小差距。
字符筆劃數(shù)少且筆劃構(gòu)成以弧線為主,筆劃結(jié)構(gòu)信息欠豐富且不易提取、字符集中相似字子集多,相似程度極高、字符寬度和高度都不具有一致性、字符左右邊界存在不確定性、不同字體間字型差異大,某些字體接近手寫草體、常用字號(hào)偏小等特點(diǎn)給基于阿拉伯字符集的字符識(shí)別研究帶來(lái)了極大挑戰(zhàn)。
本發(fā)明提出了一種基于統(tǒng)計(jì)模式識(shí)別方法針對(duì)阿拉伯字符集的多字體多字號(hào)印刷體字符識(shí)別的完整的方法。根據(jù)字符本身的特點(diǎn)(空間區(qū)域信息、字符形式、字符構(gòu)成部件信息)進(jìn)行預(yù)分類,提取方向特征,經(jīng)特征優(yōu)化處理,由修正二次鑒別函數(shù)完成分類判決,實(shí)現(xiàn)了高性能的基于阿拉伯字符集的印刷體字符識(shí)別方法,這是目前所有其他文獻(xiàn)里都沒有使用過的方法。
發(fā)明內(nèi)容
本發(fā)明的目的在于實(shí)現(xiàn)一個(gè)多字體多字號(hào)的基于阿拉伯字符集的印刷體字符識(shí)別的方法。以單個(gè)印刷體字符作為處理對(duì)象,首先對(duì)字符對(duì)象進(jìn)行預(yù)分類處理,確定其所屬的字符類別子集,然后提取能很好反映字符特點(diǎn)的方向特征,再經(jīng)過特征整形和LDA(線性鑒別分析)方法、K-L變換對(duì)特征進(jìn)行優(yōu)化,最后運(yùn)用MQDF(改進(jìn)的二次鑒別函數(shù))統(tǒng)計(jì)分類器進(jìn)行分類判決。由此,可以得到極高的單字識(shí)別正確率。根據(jù)該方法,實(shí)現(xiàn)了一個(gè)基于阿拉伯字符集的印刷體字符識(shí)別系統(tǒng)。
作為一個(gè)基于阿拉伯字符集的印刷體字符識(shí)別系統(tǒng)還包括單字樣本的采集,即系統(tǒng)首先掃描輸入印刷體維吾爾文、哈薩克文、柯爾克孜文或阿拉伯文的文本,采用自動(dòng)的方式進(jìn)行字符切分和字符預(yù)分類信息提取,得到單字符的訓(xùn)練樣本庫(kù)和相應(yīng)的預(yù)分類信息集。利用預(yù)分類信息集,對(duì)字符全集進(jìn)行初始劃分,形成字符類別子集庫(kù);利用采集建立的訓(xùn)練樣本數(shù)據(jù)庫(kù),進(jìn)行方向特征的抽取和特征優(yōu)化,得到訓(xùn)練樣本的特征數(shù)據(jù)庫(kù)。在訓(xùn)練樣本的特征數(shù)據(jù)庫(kù)的基礎(chǔ)上,通過實(shí)驗(yàn)確定分類器的參數(shù)。對(duì)未知的輸入字符樣本,先對(duì)其進(jìn)行預(yù)分類以確定其所屬字符類別子集,然后采用同樣的方法抽取特征,再送入分類器與特征庫(kù)進(jìn)行分類比較,從而判斷輸入字符的類別屬性。
本發(fā)明由以下幾部分組成預(yù)分類、特征提取、特征優(yōu)化、分類器設(shè)計(jì)。
1.預(yù)分類預(yù)分類信息I空間區(qū)域信息ZI(Zone Information)因阿拉伯字符集中的字符的高度各不相同,在垂直方向上占據(jù)的空間區(qū)域也不一樣。文本行的引線(Headline)和基線(Baseline)將空間區(qū)域在垂直方向上分為三個(gè)區(qū),從上到下依次為引線上方的上層區(qū)域(Upper Zone)、基線和引線之間的基準(zhǔn)區(qū)域(Base Zone)、基線下方的下層區(qū)域(Lower Zone),如圖7所示。
根據(jù)占據(jù)區(qū)域的不同,可將實(shí)際文本中出現(xiàn)的字符分為5種類型,通過對(duì)ZI賦予不同的數(shù)值來(lái)加以區(qū)分。ZI的5種合法取值對(duì)應(yīng)于字符的5種類型,如下表所示表1ZI的取值與對(duì)應(yīng)的字符占據(jù)空間區(qū)域的關(guān)系
預(yù)分類信息II字符形式信息FI(Form Information)由于阿拉伯字符集中的基本字母在實(shí)際文本表現(xiàn)為4種字符形式首寫形式(InitialForm)、中間形式(Medial Form)、尾寫形式(Final Form)和獨(dú)立形式(Isolated Form),所以出現(xiàn)在實(shí)際文本中的每個(gè)字符必定為這4種字符形式中的一種。假設(shè)χ為實(shí)際文本中的一個(gè)字符,判斷其字符形式的準(zhǔn)則為若χ在其右側(cè)不與其它字符直接相連,而在其左側(cè)與其它字符直接相連,則χ為首寫形式字符,令FI=1表示;若χ在其右側(cè)和左側(cè)均與其它字符直接相連,則χ為中間形式字符,令FI=2表示;若χ在其右側(cè)與其它字符直接相連,而在其左側(cè)不與其它字符直接相連,則χ為尾寫形式字符,令FI=3表示;
若χ在其右側(cè)和左側(cè)均不與其它字符直接相連,則χ為獨(dú)立形式字符,令FI=4表示。
在以上準(zhǔn)則中,兩個(gè)字符“直接相連”是指這兩個(gè)字符在基線位置處連結(jié)在一起,中間不存在空隙。
這樣,根據(jù)字符形式信息,可將實(shí)際文本中出現(xiàn)的字符集劃分為4個(gè)不同的子集。
預(yù)分類信息III構(gòu)成部件信息CI(Component Information)對(duì)阿拉伯字符集中字符的連通性進(jìn)行分析可知,字符可根據(jù)其部件的構(gòu)成情況分成兩類1)由主體部件和附加部件兩部分重疊組成的字符,如圖7中第1、2、5、7、12、13、15字符,令CI=1來(lái)表示;2)僅由一個(gè)不可分割的部件構(gòu)成的字符,令CI=2來(lái)表示,如圖7中第3、4、6、8、9、10、11、14、16字符。根據(jù)部件信息,整個(gè)字符集可劃分成2個(gè)子集。
基于上述分析,一組包含區(qū)域信息ZI、字符形式信息FI和字符構(gòu)成部件信息CI的預(yù)分類信息可將整個(gè)待處理字符集Ω={ω1,ω2,…,ωc},c為字符集Ω中字符類別的數(shù)量,劃分成5×4×2=40個(gè)字符類別子集Ωk,k=1,2,…,40,ck為字符類別子集Ωk中字符類別的數(shù)量,c和ck,k=1,2,…,40均為正整數(shù),有Ωm∩Ωn=,m≠n Σk=140ck=c]]>其中表示空集。而且,劃分子集后可使每個(gè)ck均遠(yuǎn)小于c。
將預(yù)分類信息表示為向量形式IPC=[ZI,F(xiàn)I,CI]T,其分量分別表示區(qū)域信息、字符形式信息和構(gòu)成部件信息,記IPCΩk和IPCωm分別表示字符集合Ωk的預(yù)分類信息向量和單個(gè)字符類別ωm的預(yù)分類信息向量。由以上分析可知,每個(gè)字符子集Ωk均為具有完全相同的預(yù)分類信息的字符類別組成的集合,即∀ωl,ωn∈Ωk,IPCωl≡IPCωn]]>Ωk={ωm|ωm∈Ω,IPCωm=IPCΩk}]]>對(duì)于輸入未知類別的字符χ,用IPCχ表示其預(yù)分類信息向量,將IPCχ與IPCΩk比較可確定χ所屬的字符類別子集Ωkχ=argmin1≤k≤40Ωk||IPCΩk-IPCχ||,]]>其中‖·‖表示歐氏距離。
2.特征提取2.1提取字符的輪廓設(shè)原始二值字符圖像為[B(i,j)]H×W=B(0,0),B(0,1),···,B(0,W-1)B(1,0),B(1,1),···,B(1,W-1)············B(H-1,0),B(H-1,1),···,B(H-1,W-1)]]>其中W為圖像寬度,H為圖像高度,圖像位于第i行、第j列的象素點(diǎn)的值為B(i,j),i=0,1,…,H-1,j=0,1,…,W-1。采用雙線性插值方法對(duì)[B(i,j)]H×W進(jìn)行歸一化處理得到高度為M、寬度為N的字符點(diǎn)陣圖像[G(i,j)]M×N=G(0,0),G(0,1),···,G(0,N-1)G(1,0),G(1,1),···,G(1,N-1)············G(M-1,0),G(M-1,1),···,G(M-1,N-1)]]>假定字符圖像其筆劃所對(duì)應(yīng)的點(diǎn)為黑象素點(diǎn),用“1”表示、背景所對(duì)應(yīng)的點(diǎn)為白象素點(diǎn),用“0”表示,即 其中δstroke和δbackground分別表示圖像中由字符筆劃對(duì)應(yīng)的點(diǎn)和背景點(diǎn)所組成的點(diǎn)的集合。對(duì)于任意(i,j)∈δstroke,若其8鄰域中既有白象素點(diǎn)又有黑象素點(diǎn),則稱該筆劃象素點(diǎn)(i,j)為輪廓點(diǎn)。提取輪廓圖像的方法是掃描整個(gè)字符點(diǎn)陣,對(duì)于某個(gè)位置的黑象素點(diǎn),檢測(cè)其8鄰域中象素點(diǎn)的分布情況,如果它的8鄰域中的黑象素個(gè)數(shù)和白象素個(gè)數(shù)均大于0,則保留該黑象素,否則將字符點(diǎn)陣在該位置的值改為0。這樣,從歸一化后的字符圖像[G(i,j)]M×N就得到了其輪廓圖像[Q(i,j)]M×N[Q(i,j)]M×N=Q(0,0),Q(0,1),···,Q(0,N-1)Q(1,0),Q(1,1),···,Q(1,N-1)············Q(M-1,0),Q(M-1,1),···,Q(M-1,N-1)]]>
2.2象素特征分配本發(fā)明采用12種基本方向特征元模板[R(k)(i,j)]3×3,k=1,2,…,12,來(lái)進(jìn)行象素特征的分配,每個(gè)基本特征元模板大小均為3×3,如圖10所示。將這12個(gè)模板分別作用于字符輪廓圖像[Q(i,j)]M×N,得到字符的12個(gè)基本特征平面[P(k)(i,j)]M×N=P(k)(0,0),P(k)(0,1),···,P(k)(0,N-1)P(k)(1,0),P(k)(1,1),···,P(k)(1,N-1)············P(k)(M-1,0),P(k)(M-1,1),···,P(k)(M-1,N-1),k=1,2,···,12]]>其中[P(k)(i,j)]M×N中的各元素P(k)(i,j),i=0,1,…,M-1,j=0,1,…,N-1,是[R(k)(i,j)]3×3與[Q(i,j)]M×N進(jìn)行如下計(jì)算得到的 ρ(k)(i,j)=Σm=0m=2Σn=0n=2R(k)(m,n)Q′(i+m-1,j+n-1)]]> 2.3分塊壓縮將每個(gè)M×N的基本特征平面[P(k)(i,j)]M×N,k=1,2,…,12均勻劃分成高為u0、寬為v0的子區(qū)域(圖11),每個(gè)子區(qū)域跟相鄰的子區(qū)域之間在垂直方向有u1個(gè)象素的重合、在水平方向上有v1個(gè)象素的重合,故由每個(gè)M×N基本特征平面得到M′×N′個(gè)子區(qū)域,其中M′=(M-u0u0-u1+1),]]>N′=(N-v0v0-v1+1).]]>將基本特征平面中每一個(gè)大小為u0×v0的子區(qū)域映射成大小為M′×N′的平面上一個(gè)點(diǎn),得到壓縮特征平面為[E(k)(i,j)]M′×N′=E(k)(0,0),E(k)(0,1),···,E(k)(0,N′-1)E(k)(1,0),E(k)(1,1),···,E(k)(1,N′-1)············E(k)(M′-1,0),E(k)(M′-1,1),···,E(k)(M′-1,N′-1),k=1,2,···,12]]> M′×N′中各元素的值為E(k)(i,j)=Σm=0u0-1Σn=0v0-1Θ(k)(m,n)P(k)((u0-u1)i+m,(v0-v1)j+n),i=0,1,···,M′-1,j=0,1,···,N′-1]]>式中Θ(k)(m,n),0≤m<u0,0≤n<v0為加權(quán)系數(shù)Θ(k)(m,n)=12πσ1σ2exp(-(m-u02)22σ12-(n-v02)22σ22)]]>其中σ1=2πu1,]]>σ2=2πv1.]]>2.4特征向量形成將壓縮特征平面[E(k)(i,j)]M′×N′,k=1,2,…,12中的各元素按照順序排列成一個(gè)維數(shù)為d=12×M′×N′的向量X=[x0,x1,…,xd-1]T,就得到了表示輸入字符的d維原始特征的向量X。
其中xt=E(kt)(it,jt),t=0,1,···,d-1]]>it,jt,kt與t之間的關(guān)系為 INT(·)表示向下取整函數(shù)。
3.特征優(yōu)化特征維數(shù)的增大和訓(xùn)練樣本的不足,將給分類器參數(shù)估計(jì)和識(shí)別計(jì)算量都帶來(lái)很大的問題。根據(jù)一般的分類器設(shè)計(jì)經(jīng)驗(yàn),對(duì)訓(xùn)練樣本的數(shù)目的要求是能夠達(dá)到特征維數(shù)的10倍以上。為了減少過高的特征維數(shù)和訓(xùn)練樣本的相對(duì)不足給分類器設(shè)計(jì)和參數(shù)估計(jì)帶來(lái)的困難,本發(fā)明在將原始方向特征送入分類器進(jìn)行字符類別判決前,對(duì)特征進(jìn)行優(yōu)化降維(圖13)。
3.1特征整形由于后續(xù)的LDA變換和MQDF分類器均以高斯分布為基礎(chǔ),提取的特征越接近高斯分布,系統(tǒng)識(shí)別性能就越好。為改善特征分布,使之更接近高斯分布,對(duì)原始特征向量X=[x0,x1,…,xd-1]T進(jìn)行整形,得到新的特征向量Y=[y0,y1,…,yd-1]T,yt與xt之間的關(guān)系為yt=xtα-1α,t=0,1,···,d-1]]>其中α∈(0,1)為整形常數(shù)。
3.2特征變換高維的特征向量Y包含很多冗余的信息。這些信息的存在不僅加大了計(jì)算的開銷,而且會(huì)干擾字符識(shí)別的結(jié)果,本發(fā)明采用LDA(線性鑒別分析)和K-L變換的混合變換矩陣對(duì)Y進(jìn)行特征變換,盡可能去除冗余信息,有效提取最具有鑒別能力的特征。
如“預(yù)分類”一節(jié)中所述,待處理字符集為Ω={ω1,ω2,…,ωc},c為集Ω中字符類別數(shù),通過預(yù)分類被劃分成40個(gè)字符類別子集Ωk,k=1,2,…,40,ck為字符子集Ωk中字符類別的數(shù)量。設(shè)第m類字符ωm的訓(xùn)練樣本數(shù)為Oωm,m=1,2,…,c,對(duì)該字符類別的訓(xùn)練樣本采用上述方法提取特征并經(jīng)特征整形后,得到的d維特征向量集合為{Y1ωm,Y2ωm,…,YOωmωm}。
3.2.1計(jì)算統(tǒng)計(jì)量計(jì)算每個(gè)字符類ωm特征向量的中心μωm和類內(nèi)散度矩陣Sωmμωm=1OωmΣl=1OωmYlωm,m=1,2,···,c]]>Sωm=1OωmΣl=1Oωm(Ylωm-μωm)(Ylωm-μωm)T,m=1,2,···,c]]>計(jì)算各子集中所有字符類的特征向量的中心μ(Ωk)μ(Ωk)=1ckΣωm∈Ωk1≤m≤cμωm,k=1,2,···,40]]>計(jì)算各子集的類間散度矩陣Sb(Ωk)和平均類內(nèi)散度矩陣Sw(Ωk);Sb(Ωk)=1ckΣωm∈Ωk1≤m≤c(μωm-μ(Ωk))(μωm-μ(Ωk))T,k=1,2,···,40]]>Sw(Ωk)=1ckΣωm∈Ωk1≤m≤c1OωmΣl=1Oωm(Ylωm-μωm)(Ylωm-μωm)T=1ckΣ1≤m≤cωm∈ΩkSωm,k=1,2,···,40]]>3.2.2 LDA變換用矩陣計(jì)算工具計(jì)算矩陣(Sw(Ωk))-1Sb(Ωk)的本征值ξ0(Ωk),ξ1(Ωk),…,ξd-1(Ωk),k=1,2,…,40和與各本征值相對(duì)應(yīng)的本征向量0(Ωk),1(Ωk),…,d-1(Ωk),k=1,2,…,40,使得下列方程成立 或等價(jià)于 由LDA的理論知若采用使矩陣[(Φ1(Ωk))TSw(Ωk)Φ1(Ωk)]-1[(Φ1(Ωk))TSb(Ωk)Φ1(Ωk)],k=1,2,…,40的跡tr([(Φ1(Ωk)TSw(Ωk)Φ1(Ωk)]-1[(Φ1(Ωk))TSb(Ωk)Φ1(Ωk)]),k=1,2,…,40達(dá)到最大的d×r1(r1為L(zhǎng)DA變換后截取的特征維數(shù))矩陣Φ1(Ωk)作為特征變換矩陣,則能使變換后的特征類內(nèi)散度方差與類間散度方差的比值達(dá)到最大,從而達(dá)到增加子集中各模式類別間的可分性的目的。同時(shí),數(shù)學(xué)上已經(jīng)證明,使tr([(Φ1(Ωk))TSw(Ωk)Φ1(Ωk)]-1[(Φ1(Ωk))TSb(Ωk)Φ1(Ωk)])達(dá)到最大的Φ1(Ωk)是由矩陣(Sw(Ωk))-1Sb(Ωk)的最大的r1個(gè)非零本征值對(duì)應(yīng)的本征向量構(gòu)成的。所以,將(Sw(Ωk))-1Sb(Ωk)的本征值按照從大到小的順序排列,使得ξ0(Ωk)≥ξ1(Ωk)≥···≥ξd-1(Ωk),]]>同時(shí),0(Ωk),1(Ωk),…,d-1(Ωk)的順序也作相應(yīng)的調(diào)整,使得它們保持與ξ0(Ωk),ξ1(Ωk),…,ξd-1(Ωk)的對(duì)應(yīng)關(guān)系,即滿足 由于(Sw(Ωk))-1Sb(Ωk)的秩rank((Sw(Ωk))-1Sb(Ωk))=ck-1,]]>即(Sw(Ωk))-1Sb(Ωk)的非零本征值最多為ck-1個(gè),所以本專利選取r1可選擇為區(qū)間(0,ck-1]上的正整數(shù)。于是得到 這就是LDA變換矩陣。
3.2.3 K-L變換本發(fā)明采用K-L變換得目的是將輸入特征向量經(jīng)過d×r2(r2為K-L變換后截取的特征維數(shù))的矩陣Φ2(Ωk)變換后的生成新的特征向量各分量互不相關(guān),并且提取蘊(yùn)涵在二階統(tǒng)計(jì)量Sωm,ωm∈Ωk中的鑒別信息,以彌補(bǔ)單獨(dú)使用由LDA提取的蘊(yùn)涵在類平均向量μωm中鑒別信息的不足。
用矩陣計(jì)算工具計(jì)算矩陣Sw(Ωk)的本征值ξ0(Ωk),ξ1(Ωk),…,ξd-1(Ωk),k=1,2,…,40和與各本征值相對(duì)應(yīng)的本征向量Ψ0(Ωk),Ψ1(Ωk),…,Ψd-1(Ωk),k=1,2,…,40,使得下列方程成立Sw(Ωk)ψl(Ωk)=ζl(Ωk)ψl(Ωk),k=1,2,···,40,l=0,1,···,d-1]]>令ηlm(Ωk)=(ψl(Ωk))TSωmψl(Ωk),k=1,2,···,40,l=0,1,···,d-1,ωm∈Ωk]]>由K-L變換的理論可知,ηlm(Ωk)表示類ωm的輸入特征向量在坐標(biāo)軸ψl(Ωk)上投影后分布的方差。對(duì)某個(gè)固定的坐標(biāo)軸ψl(Ωk),ηlm(Ωk)的分散度或不確定性表征了輸入特征在該坐標(biāo)軸上的投影對(duì)Ωk中各模式類的區(qū)分能力,所以,應(yīng)該選取那些使得ηlm(Ωk)不確定性小的坐標(biāo)軸來(lái)組成K-L變換矩陣。而熵是隨機(jī)變量不確定性的一種有效的度量,熵越大,表明隨機(jī)變量的不確定性越大。為此,先對(duì)ηlm(Ωk)進(jìn)行歸一化η‾lm(Ωk)=ηlm(Ωk)Σωn∈Ωk1≤n≤cηln(Ωk),k=1,2,···,40,l=0,1,···,d-1,ωm∈Ωk]]>使得Σ1≤m≤cωm∈Ωkη‾lm(Ωk)=1,k=1,2,···,40,l=0,1,···,d-1]]>令熵函數(shù)為H(ψl(Ωk))=-Σωm∈Ωk1≤m≤cη‾lm(Ωk)log2η‾lm(Ωk),k=1,2,···,40,l=0,1,···,d-1]]>計(jì)算對(duì)應(yīng)于各本征向量ψ0(Ωk),ψ1(Ωk),…,ψd-1(Ωk)的熵函數(shù)的值H(ψ0(Ωk)),H(ψ1(Ωk)),…,H(ψd-1(Ωk)),將ψ0(Ωk),ψ1(Ωk),…,ψd-1(Ωk)按各自熵值從小到大的順序排列,使H(ψ0(Ωk))≤H(ψ1(Ωk))≤···≤H(ψd-1(Ωk)).]]>這樣,排在最前面的r2個(gè)本征向量ψ0(Ωk),ψ1(Ωk),…,ψr2-1(Ωk)就是所求的目標(biāo)向量,由它們組成了K-L變換矩陣Φ2(Ωk)=[ψ0(Ωk),ψ1(Ωk),···,ψr2-1(Ωk)],k=1,2,···,40.]]>3.2.4特征變換矩陣將LDA變換矩陣Φ1(Ωk)和K-L變換矩陣Φ2(Ωk)的列向量排列在一起,就形成了總的d×r的特征變換矩陣φ(Ωk)
r=r1+r2]]>將整形后的d維特征Y=[y0,y1,…,yd-1]T經(jīng)過Φ(Ωk)變換就得到了r維優(yōu)化特征Z=[z0,z1,…,zr-1]T,變換的過程為Z=(Φ(Ωk))TY]]>這就形成了最終送入分類器作為字符類型判決依據(jù)的特征向量。
4.分類器設(shè)計(jì)分類器設(shè)計(jì)是字符識(shí)別的核心技術(shù)之一,研究者針對(duì)不同的問題提出了許多模式分類器。但在多種因素制約下,最小距離分類器以其簡(jiǎn)單有效而得到極大的應(yīng)用。貝葉斯分類器是理論上最優(yōu)的統(tǒng)計(jì)分類器,在處理實(shí)際問題時(shí),人們希望盡量去逼近它。當(dāng)在字符的特征為高斯分布且各類特征分布的先驗(yàn)概率相等的條件下,貝葉斯分類器簡(jiǎn)化為馬氏距離分類器。但該條件在實(shí)際中通常不易滿足,而且馬氏距離分類器的性能隨著協(xié)方差矩陣估計(jì)誤差的產(chǎn)生而嚴(yán)重劣化。本發(fā)明采用MQDF(修正二次鑒別函數(shù))作為分類度量,它是馬氏距離的一個(gè)變形。MQDF鑒別函數(shù)形式為g(Ωk)(Z,Z‾ωm)=Σl=0r-1(zl-z‾lωm)2h2-Σl=0K-1λlωm-h2h2λlωm[(Z-Z‾ωM)Tφlωm]2+ln(h2(r-K)Πl=0K-1λlωm),ωm∈Ωk]]>其中Z=[z0,z1,…,zd-1]T為送入分類器的未知字符的優(yōu)化特征向量,Z‾ωm=[z‾0ωm,z‾1ωm,···,z‾r-1ωm]T]]>為字符類別ωm的標(biāo)準(zhǔn)特征向量,λlωm和φl(shuí)ωm分別為第ωm類樣本的優(yōu)化特征向量的協(xié)方差矩陣∑ωm的第l個(gè)本征值和本征向量,K表示所截取的主本征向量的個(gè)數(shù),也是模式類的主子空間維數(shù),其最優(yōu)值由實(shí)驗(yàn)確定,h2是對(duì)小本征值的實(shí)驗(yàn)估計(jì)。
Z‾ωm=(Φ(Ωk))TμωM,ωm∈Ωk,k=1,2,···,40]]>Σωm=(Φ(Ωk))TSωmΦ(Ωk),ωm∈Ωk,k=1,2,···,40]]>MQDF產(chǎn)生的是二次判決曲面,因只需估計(jì)每個(gè)類別協(xié)方差陣的前K個(gè)主本征向量,避免了小本征值估計(jì)誤差的負(fù)面影響。MQDF鑒別距離可看作是在K維主子空間內(nèi)的馬氏距離和剩余的(r-K)維空間內(nèi)的歐氏距離的加權(quán)和,加權(quán)因子為1/h2。
對(duì)每一個(gè)輸入未知字符χ的特征向量進(jìn)行分類判決時(shí),搜索范圍限定于對(duì)該輸入字符預(yù)分類得到的特定子集Ωkχ。g(Ωkχ)(Z,Z‾ωτ)=minωm∈Ωkχg(Ωkχ)(Z,Z‾ωm),]]>則判定該輸入字符屬于字符類別ωτ,即ωτ=argminωm∈Ωkχg(Ωkχ)(Z,Z‾ωm).]]>本發(fā)明的特征在于,它是一種能夠識(shí)別多字體多字號(hào)的基于阿拉伯字符集的印刷體字符識(shí)別技術(shù)。它依次含有以下步驟1.基于阿拉伯字符集的印刷體字符識(shí)別方法,其特征在于,它在對(duì)字符對(duì)象進(jìn)行必要預(yù)處理后,首先對(duì)輸入的單個(gè)字符進(jìn)行預(yù)分類,將其劃分到恰當(dāng)?shù)淖址悇e子集中去,然后提取能很好反映字符結(jié)構(gòu)特點(diǎn)的方向特征,在此基礎(chǔ)上,利用特征整形、LDA變換和K-L變換提取最具鑒別性的優(yōu)化特征,把該特征送入MQDF分類器判定字符所屬類別;在由圖像采集設(shè)備和計(jì)算機(jī)組成的系統(tǒng)中,它依次含有以下步驟訓(xùn)練階段第1步在計(jì)算機(jī)中設(shè)定以下參數(shù)字符類別總數(shù)c;歸一化后字符高度M、字符寬度N;基本特征平面分塊參數(shù)u0、v0、u1、v1,其中u0為基本特征平面中子區(qū)域的高度,v0為基本特征平面中子區(qū)域的寬度,u1為基本特征平面中子區(qū)域與相鄰子區(qū)域之間在垂直方向上重合的象素個(gè)數(shù),v1為基本特征平面中子區(qū)域與相鄰子區(qū)域之間在水平方向上重合的象素個(gè)數(shù);原始特征向量經(jīng)特征整形形成更符合高斯分布的新特征向量時(shí)采用的整形參數(shù)α∈(0,1);特征變換時(shí)LDA截取維數(shù)r1、K-L變換截取維數(shù)r2;第2步字符樣本的采集第2.1步用圖像采集設(shè)備掃描輸入多字體多字號(hào)基于阿拉伯字符集的維吾爾文、哈薩克文、柯爾克孜文、阿拉伯文的文本,利用已有算法進(jìn)行去噪聲、二值化等必要的預(yù)處理;第2.2步對(duì)文本圖像依次進(jìn)行行切分、連體字符段切分、單字切分處理以分離單個(gè)字符,再對(duì)每個(gè)字符的圖像標(biāo)定其對(duì)應(yīng)的正確的字符內(nèi)碼,然后把相同字符類別對(duì)應(yīng)的原始字符圖像提取出來(lái),保存為用以訓(xùn)練和測(cè)試的單字樣本集;第2.3步定義并標(biāo)定每個(gè)字符類別的空間區(qū)域信息、字符形式信息和字符組成部件信息,保存標(biāo)定結(jié)果,形成字符類別預(yù)分類信息集;它依次含有以下步驟第2.3.1步形成字符空間區(qū)域信息,用ZI表示用文本行的引線Headline和基線Baseline將字符空間區(qū)域在垂直方向上分為三個(gè)區(qū),從上到下依次為引線上方的上層區(qū)域Upper Zone、基線和引線之間的基準(zhǔn)區(qū)域Base Zone、基線下方的下層區(qū)域Lower Zone;檢測(cè)輸入字符χ在三個(gè)空間區(qū)域中的分布情況,根據(jù)χ占據(jù)的區(qū)域,給ZI賦值如下若χ僅占據(jù)上層區(qū)域,則ZI=1;若χ同時(shí)占據(jù)上層區(qū)域和基準(zhǔn)區(qū)域,則ZI=2;若χ同時(shí)占據(jù)上層區(qū)域、基準(zhǔn)區(qū)域和下層區(qū)域,則ZI=3;若χ僅占據(jù)基準(zhǔn)區(qū)域,則ZI=4;若χ同時(shí)占據(jù)基準(zhǔn)區(qū)域和下層區(qū)域,則ZI=5;第2.3.2步形成字符形式信息,用FI表示阿拉伯字符集中的基本字母在實(shí)際文本中表現(xiàn)為4種字符形式首寫形式、中間形式、尾寫形式、獨(dú)立形式;輸入字符χ必定為這4種字符形式中的一種,依據(jù)χ與其左右字符的連接關(guān)系判斷它的形式信息若χ在其右側(cè)不與其它字符直接相連,而在其左側(cè)與其它字符直接相連,則χ為首寫形式字符,令FI=1;若χ在其右側(cè)和左側(cè)均與其它字符直接相連,則χ為中間形式字符,令FI=2;若χ在其右側(cè)與其它字符直接相連,而在其左側(cè)不與其它字符直接相連,則χ為尾寫形式字符,令FI=3;若χ在其右側(cè)和左側(cè)均不與其它字符直接相連,則χ為獨(dú)立形式字符,令FI=4;第2.3.3步形成字符構(gòu)成部件信息,用CI表示對(duì)輸入字符χ進(jìn)行連通性分析,根據(jù)其部件的構(gòu)成情況分成兩類若χ由主體部件和附加部件兩部分組成,則CI=1;若χ僅由一個(gè)不可分割的部件構(gòu)成,則CI=2;
第2.3.4步依據(jù)同一字符類別的不同單字樣本的預(yù)分類信息相一致的準(zhǔn)則對(duì)屬于各字符類別的單字樣本的預(yù)分類信息進(jìn)行檢查糾錯(cuò)后保存起來(lái),形成字符類別預(yù)分類信息集;第3步字符類別子集的劃分設(shè)待處理字符全集為Ω={ω1,ω2,…,ωc};將第2.3步得到的字符類別預(yù)分類信息,用一個(gè)向量IPCωm=[ZI,FI,CI]T]]>表示,m=1,2,…,c;依據(jù)IPCωm將Ω劃分成5×4×2個(gè)字符類別子集Ωk,k=1,2,…,40,Ωk包含的字符類別數(shù)為ck,使Ωm∩Ωn=,m≠n, Σk=140ck=c;]]>其中表示空集;由以上劃分得∀ωl,ωn∈Ωk,IPCωl≡IPCωn]]>若用IPCΩk表示Ωk中各字符類別子集的共同的預(yù)分類信息向量,則Ωk表示為Ωk={ωm|ωm∈Ω,IPCωm=IPCΩk},k=1,2,···,40]]>第4步特征提取第4.1步提取字符輪廓,它依次含有以下步驟第4.1.1步設(shè)原始二值字符圖像為[B(i,j)]H×W=B(0,0),B(0,1),···,B(0,W-1)B(1,0),B(1,1),···,B(1,W-1)············B(H-1,0),B(H-1,1),···,B(H-1,W-1),]]>其中W為原始二值字符圖像寬度,H為原始二值字符圖像高度,B(i,j)為圖像位于第i行、第j列的象素點(diǎn)的值,i=0,1,…,H-1,j=0,1,…,W-1;用雙線性插值方法對(duì)[B(i,j)]H×W進(jìn)行歸一化處理得到高度為M、寬度為N的歸一化字符點(diǎn)陣圖像[G(i,j)]M×N=G(0,0),G(0,1),···,G(0,N-1)G(1,0),G(1,1),···,G(1,N-1)············G(M-1,0),G(M-1,1),···,G(M-1,N-1);]]>第4.1.2步設(shè)字符圖像其筆劃所對(duì)應(yīng)的點(diǎn)為黑象素點(diǎn),用“1”表示、背景所對(duì)應(yīng)的點(diǎn)為白象素點(diǎn),用“0”表示,即 其中δstroke表示圖像中由字符筆劃對(duì)應(yīng)的點(diǎn)所組成的點(diǎn)的集合,δbackground表示圖像中由背景點(diǎn)所組成的點(diǎn)的集合;對(duì)于任意(i,j)∈δstroke,若其8鄰域中既有白象素點(diǎn)又有黑象素點(diǎn),則稱該筆劃象素點(diǎn)(i,j)為輪廓點(diǎn);第4.1.3步掃描整個(gè)字符點(diǎn)陣,對(duì)于某個(gè)位置的黑象素點(diǎn),檢測(cè)其8鄰域中象素點(diǎn)的分布情況,如果它的8鄰域中的黑象素個(gè)數(shù)和白象素個(gè)數(shù)均大于0,則保留該黑象素,否則將字符點(diǎn)陣在該位置的值改為0;由歸一化后的字符圖像[G(i,j)]M×N得到其輪廓圖像[Q(i,j)]M×N[Q(i,j)]M×N=Q(0,0),Q(0,1),···,Q(0,N-1)Q(1,0),Q(1,1),···,Q(1,N-1)············Q(M-1,0),Q(M-1,1),···,Q(M-1,N-1);]]>第4.2步象素特征分配設(shè)定12種大小均為3×3的基本方向特征元模板[R(k)(i,j)]3×3,k=1,2,…,12[R(1)(i,j)]3×3=0,0,01,1,10,0,0,]]>[R(2)(i,j)]3×3=0,1,00,1,00,1,0,]]>[R(3)(i,j)]3×3=0,0,10,1,01,0,0,]]> 3×3=0,0,01,1,00,0,1,]]>[R(5)(i,j)]3×3=0,0,11,1,00,0,0,]]>[R(6)(i,j)]3×3=0,0,01,1,00,0,1,]]>[R(7)(i,j)]3×3=1,0,00,1,10,0,0,]]>[R(8)(i,j)]3×3=0,0,00,1,11,0,0,]]>[R(9)(i,j)]3×3=0,1,00,1,01,0,0,]]>[R(10)(i,j)]3×3=0,1,00,1,00,0,1,]]>[R(11)(i,j)]3×3=1,0,00,1,00,1,0,]]>[R(12)(i,j)]3×3=0,0,10,1,00,1,0;]]>將上述12種模板分別作用于字符輪廓圖像[Q(i,j)]M×N,得到字符的12個(gè)基本特征平面[P(k)(i,j)]M×N=P(k)(0,0),P(k)(0,1),···,P(k)(0,N-1)P(k)(1,0),P(k)(1,1),···,P(k)(1,N-1)············P(k)(M-1,0),P(k)(M-1,1),···,P(k)(M-1,N-1),k=1,2,···,12,]]>其中[P(k)(i,j)]M×N中的各元素P(k)(i,j),i=0,1,…,M-1,j=0,1,…,N-1,為 而ρ(k)(i,j)=Σm=0m=2Σn=0n=2R(k)(m,n)Q′(i+m-1,j+n-1),]]>而 第4.3步分塊壓縮將每個(gè)大小為M×N的基本特征平面[P(k)(i,j)]M×N,k=1,2,…,12,均勻劃分成高為u0、寬為v0的子區(qū)域,每個(gè)子區(qū)域跟相鄰的子區(qū)域之間在垂直方向有u1個(gè)象素的重合、在水平方向上有v1個(gè)象素的重合;由每個(gè)M×N基本特征平面得到M′×N′個(gè)子區(qū)域,其中M′=(M-u0u0-u1+1),]]>N′=(N-v0v0-v1+1);]]>
將每個(gè)基本特征平面中每一個(gè)大小為u0×v0的子區(qū)域映射成大小為M′×N′的平面上的一個(gè)點(diǎn),形成壓縮特征平面[E(k)(i,j)]M′×N′=E(k)(0,0),E(k)(0,1),···,E(k)(0,N′-1)E(k)(1,0),E(k)(1,1),···,E(k)(1,N′-1)············E(k)(M′-1,0),E(k)(M′-1,1),···,E(k)(M′-1,N′-1),k=1,2,···,12,]]>其中[E(k)(i,j)]M′×N′中各元素的值為E(k)(i,j)=Σm=0u0-1Σn=0v0-1Θ(k)(m,n)P(k)((u0-u1)i+m,(v0-v1)j+n),]]>而Θ(k)(m,n),0≤m<u0,0≤n<v0為加權(quán)系數(shù)Θ(k)(m,n)=12πσ1σ2exp(-(m-u02)22σ12-(n-v02)22σ22),]]>其中σ1=2πu1,]]>σ2=2πv1;]]>第4.4步特征向量形成將壓縮特征平面[E(k)(i,j)]M′×N′,k=1,2,…,12,中的各元素按照順序排列成一個(gè)維數(shù)為d=12×M′×N′的矢量X=[x0,x1,…,xd-1]T,得到了表示輸入字符的d維原始方向特征向量其中xt=E(kt)(it,jt),t=0,1,···,d-1;]]>而it,jt,kt與t之間的關(guān)系為 INT(·)表示向下取整函數(shù)第5步特征優(yōu)化第5.1步特征整形對(duì)原始特征向量X=[x0,x1,…,xd-1]T進(jìn)行整形,得到新的特征向量Y=[y0,y1,…,yd-1]T,yt與xt之間的關(guān)系為yt=xtα-1α,t=0,1,···,d-1,]]>其中α∈(0,1)為整形常數(shù);第5.2步特征變換第5.2.1步獲取字符類別的特征向量集合如“第3步字符類別子集的劃分”所述,待處理字符集為Ω={ω1,ω2,…,ωc},c為集Ω中字符類別數(shù),通過預(yù)分類處理被劃分為40個(gè)字符類別子集Ωk,k=1,2,…,40,ck為字符類別子集Ωk中字符類別的數(shù)量;設(shè)第m類字符ωm的訓(xùn)練樣本數(shù)為Oωm,m=1,2,…,c,對(duì)該字符類別的訓(xùn)練樣本采用“第4步特征提取”所述方法提取特征得到的d維原始特征向量集合為{X1ωm,X2ωm,…,XOωmωm};則經(jīng)“第5.1步特征整形”后,得到的d維特征向量集合為{Y1ωm,Y2ωm,…,YOωmωm};第5.2.2步統(tǒng)計(jì)量計(jì)算計(jì)算每個(gè)字符類ωm特征向量的中心μωm和類內(nèi)散度矩陣Sωmμωm=1OωmΣl=1OωmYlωm,m=1,2,···,c,]]>Sωm=1OωmΣl=1Oωm(Ylωm-μωm)(Ylωm-μωm)T,m=1,2,···,c;]]>計(jì)算各子集中所有字符類的特征向量的中心μ(Ωk)μ(Ωk)=1ckΣωm∈Ωk1≤m≤cμωm,k=1,2,···,40;]]>計(jì)算各子集的類間散度矩陣Sb(Ωk)和平均類內(nèi)散度矩陣Sw(Ωk)Sb(Ωk)=1ckΣωm∈Ωk1≤m≤c(μωm-μ(Ωk))(μωm-μ(Ωk))T,k=1,2,···,40,]]>
Sw(Ωk)=1ckΣωm∈Ωk1≤m≤c1OωmΣl=1Oωm(Ylωm-μωm)(Ylωm-μωm)T=1ckΣ1≤m≤cωm∈ΩkSωm,k=1,2,···,40;]]>第5.2.3步LDA變換,它依次含有以下步驟第5.2.3.1步用矩陣計(jì)算工具計(jì)算矩陣(Sw(Ωk))-1Sb(Ωk)的本征值ξ0(Ωk),ξ1(Ωk),…,ξd-1(Ωk),k=1,2,…,40和與各本征值相對(duì)應(yīng)的本征向量0(Ωk),1(Ωk),…,d-1(Ωk),k=1,2,…,40,使得下列方程成立 第5.2.3.2步將(Sw(Ωk))-1Sb(Ωk)的本征值按從大到小的順序排列,使ξ0(Ωk)≥ξ1(Ωk)≥···≥ξd-1(Ωk),]]>同時(shí),0(Ωk),1(Ωk),…,d-1(Ωk)的順序也作相應(yīng)的調(diào)整,使得它們保持與ξ0(Ωk),ξ1(Ωk),…,ξd-1(Ωk)的對(duì)應(yīng)關(guān)系;第5.2.3.2步取(Sw(Ωk))-1Sb(Ωk)的前r1個(gè)非零本征值對(duì)應(yīng)的本征向量構(gòu)成LDA變換矩陣 r1的有效值可根據(jù)需要選取為小于或等于矩陣(Sw(Ωk))-1Sb(Ωk)的秩rank((Sw(Ωk))-1Sb(Ωk))=ck-1]]>的正整數(shù)第5.2.4步K-L變換,它依次含有以下步驟第5.2.4.1步用矩陣計(jì)算工具計(jì)算矩陣Sw(Ωk)的本征值ξ0(Ωk),ξ1(Ωk),…,ξd-1(Ωk),k=1,2,…,40和與各本征值相對(duì)應(yīng)的本征向量ψ0(Ωk),ψ1(Ωk),…,ψd-1(Ωk),k=1,2,…,40,使下列方程成立Sw(Ωk)ψl(Ωk)=ζl(Ωk)ψl(Ωk),k=1,2,···,40,l=0,1,···,d-1;]]>第5.2.4.2步令ηlm(Ωk)=(ψl(Ωk))TSωmψl(Ωk),k=1,2,···,40,l=0,1,···,d-1,ωm∈Ωk;]]>對(duì)ηlm(Ωk)進(jìn)行歸一化η‾lm(Ωk)=ηlm(Ωk)Σωn∈Ωk1≤n≤cηln(Ωk),k=1,2,···,40,l=0,1,···,d-1,ωm∈Ωk;]]>使
Σ1≤m≤cωm∈Ωkη‾lm(Ωk)=1,k=1,2,···,40,l=0,1,···,d-1;]]>第5.2.4.3步;定義熵函數(shù)H(ψl(Ωk))=-Σωm∈Ωk1≤m≤cη‾lm(Ωk)log2η‾lm(Ωk),k=1,2,···,40,l=0,1,···,d-1;]]>計(jì)算對(duì)應(yīng)于各向量ψ0(Ωk),ψ1(Ωk),…,ψd-1(Ωk)的熵函數(shù)的值H(ψ0(Ωk)),H(ψ1(Ωk)),…,H(ψd-1(Ωk)),將ψ0(Ωk),ψ1(Ωk),…,ψd-1(Ωk)按熵從小到大的順序進(jìn)行排列,使H(ψ0(Ωk))≤H(ψ1(Ωk))≤···≤H(ψd-1(Ωk));]]>第5.2.4.4步取排在最前面的r2個(gè)本征向量ψ0(Ωk),ψ1(Ωk),…,ψr2-1(Ωk)組成了K-L變換矩陣Φ2(Ωk)=[ψ0(Ωk),ψ1(Ωk),···,ψr2-1(Ωk)],k=1,2,···,40;]]>r2為K-L變換截取的特征維數(shù);第5.2.5步特征變換矩陣形成將LDA變換矩陣Φ1(Ωk)和K-L變換矩陣Φ2(Ωk)的列向量排列在一起,形成總的大小為d×r的特征變換矩陣Φ(Ωk) r=r1+r2;]]>將整形后的d維特征Y=[y0,y1,…,yd-1]T經(jīng)過Φ(Ωk)變換得到r維優(yōu)化特征Z=[z0,z1,…,zr-1]T,變換的過程為Z=(Φ(Ωk))TY]]>形成最終送入分類器作為字符類型判決依據(jù)的字符特征向量Z;將Φ(Ωk),k=1,2,…,40,存入文件,形成優(yōu)化參數(shù)庫(kù);第6步設(shè)計(jì)分類器對(duì)于每個(gè)字符子集Ωk,計(jì)算包含在Ωk中的各字符類別的優(yōu)化特征的均值向量Zωm和協(xié)方差矩陣∑ωmZ‾ωm=(Φ(Ωk))Tμωm,ωm∈Ωk]]>Σωm=(Φ(Ωk))TSωmΦ(Ωk),ωm∈Ωk]]>
利用矩陣計(jì)算工具求取∑ωm的本征值λlωm和對(duì)應(yīng)得本征向量φl(shuí)ωm,l=0,1,…,r-1,通過實(shí)驗(yàn)確定MQDF分類器的相關(guān)參數(shù)K、h2;將Zωm、K、h2、λlωm、φl(shuí)ωm存入文件中;對(duì)所有的Ωk,k=1,2,…,40,依次進(jìn)行如上操作,得到了用于分類判決的字符特征庫(kù);識(shí)別階段第1步預(yù)分類,即對(duì)輸入的未知字符,判定其所屬的字符類別子集;它依次包含以下步驟第1.1步獲取字符預(yù)分類信息依照“訓(xùn)練階段第3.2步”所述的方法,分別檢測(cè)輸入未知字符χ的空間區(qū)域信息ZI、字符形式信息FI和構(gòu)成部件信息CI,形成χ的預(yù)分類信息向量IPCχ=[ZI,FI,CI]T;]]>第2.2步確定輸入字符所屬子集設(shè)χ所屬的字符類別子集為Ωkχ,則Ωkχ由下式給出Ωkχ=argmin1≤k≤40Ωk||IPCΩk-IPCχ||,]]>其中‖·‖表示歐氏距離,IPCΩk為字符子集Ωk的預(yù)分類信息;得到Ωkχ后,完成了對(duì)χ的預(yù)分類;第2步特征提取按照“訓(xùn)練階段第4步”所述的方法,提取輸入未知字符χ的d維原始方向特征向量Xχ=[x0χ,x1χ,···,xd-1χ]T;]]>第3步特征優(yōu)化第3.1步特征整形以“訓(xùn)練部分第一步”所設(shè)定的整形參數(shù)α對(duì)原始方向特征向量Xχ=[x0χ,x1χ,···,xd-1χ]T]]>進(jìn)行整形,得到整形特征Yχ=[y0χ,y1χ,···,yd-1χ]T,]]>其中ytχ=(xtχ)α-1α,t=0,1,···,d-1;]]>第3.2步特征變換從“訓(xùn)練階段第第5.2.5步”所生成的優(yōu)化參數(shù)庫(kù)文件中讀取對(duì)應(yīng)于輸入字符χ所屬字符類別子集Ωkχ的LDA和K-L混合變換矩陣Φ(Ωkχ),將d維整形方向特征向量Yχ=[y0χ,y1χ,···,yd-1χ]T]]>變換成r維變換特征向量Zχ=[z0χ,z1χ,···,zr-1χ]T,]]>變換的過程為Zχ=(Φ(Ωkχ))TYχ;]]>第4步分類判決,即將未知類別的字符的特征向量與識(shí)別庫(kù)中已有的數(shù)據(jù)進(jìn)行比較,以確定輸入字符對(duì)應(yīng)的正確的字符代碼;它依次含有以下步驟第4.1步從“訓(xùn)練階段第6步”所生成的字符特征庫(kù)文件中讀取輸入字符χ所屬字符類別子集Ωkχ中的所有字符類別的均值向量Z‾ωm=[z‾0ωm,z‾1ωm,···,z‾r-1ωm]T,ωm∈Ωkχ,]]>和相應(yīng)的分類參數(shù);第4.2步分別計(jì)算Zχ到Ωkχ中各字符類別的MQDF鑒別距離g(Ωkχ)(Zχ,Z‾ωm)=Σl=0r-1(zlχ-z‾lωm)2h2-Σl=0K-1λlωm-h2h2λlωm[(Zχ-Z‾ωm)Tφlωm]2+ln(h2(r-K)Πl=0K-1λlωm),ωm∈Ωkχ;]]>若g(Ωkχ)(Zχ,Z‾ωτ)=minωm∈Ωkχg(Ωkχ)(Zχ,Z‾ωm),]]>則判定該輸入字符χ屬于字符類別ωτ,即ωτ=argminωm∈Ωkχg(Ωkχ)(Zχ,Z‾ωm).]]>實(shí)驗(yàn)證明,本發(fā)明在基于阿拉伯字符集的印刷體單字測(cè)試集上的識(shí)別正確率達(dá)到99.4%以上。
圖1一個(gè)典型的基于阿拉伯字符集的字符識(shí)別系統(tǒng)的硬件構(gòu)成。
圖2基于阿拉伯字符集的字符識(shí)別系統(tǒng)的單字樣本生成。
圖3基于阿拉伯字符集的字符識(shí)別系統(tǒng)的構(gòu)成。
圖4采用的圖像坐標(biāo)系示意。
圖5 4種基于阿拉伯字符集的文字的字符集。
(a)阿拉伯文字符集;(b)柯爾克孜文字符集;(c)維吾爾文字符集;(d)哈薩克文字符集;(e)維/哈/柯/阿文常用符號(hào)、數(shù)字。
圖6基于阿拉伯字符集的文字構(gòu)成特點(diǎn)示意。
1從右向左的書寫方向;2基線;3五個(gè)字符相連的連體字符段;4首寫形式字符;5中間形式字符;6尾寫形式字符;7獨(dú)立形式字符;8插入的直杠
a由三個(gè)字符、兩個(gè)字符段構(gòu)成的詞;b由六個(gè)字符、四個(gè)字符段構(gòu)成的詞;c由五個(gè)字符、一個(gè)字符段構(gòu)成的詞;d由七個(gè)字符、兩個(gè)字符段構(gòu)成的詞圖7預(yù)分類信息示意。
圖8預(yù)分類流程。
圖9方向特征抽取流程。
圖10 12種基本方向特征元模板。
圖11基本特征平面分塊示意。
圖12方向特征抽取示意。
圖13特征優(yōu)化流程。
圖14基于本算法的多字體多字號(hào)維/哈/柯/阿印刷體字符識(shí)別系統(tǒng)。
具體實(shí)施例方式
如圖1所示,一個(gè)基于阿拉伯字符集的印刷體字符識(shí)別系統(tǒng)在硬件上由兩部分構(gòu)成圖像采集設(shè)備和計(jì)算機(jī)。圖像采集設(shè)備一般是掃描儀,用來(lái)獲取待識(shí)別字符的數(shù)字圖像。計(jì)算機(jī)用于對(duì)數(shù)字圖像進(jìn)行處理,并完成判決分類。
圖2所示的是單字訓(xùn)練樣本和單字測(cè)試樣本的生成過程。對(duì)于一篇印刷體維吾爾文、哈薩克文、柯爾克孜文或阿拉伯文樣張,首先通過掃描儀將其掃入計(jì)算機(jī),使之變?yōu)閿?shù)字圖像。對(duì)數(shù)字圖像采取二值化、去除噪聲等預(yù)處理措施,得到二值化的圖像。再對(duì)輸入圖像進(jìn)行行切分以得到文本行,對(duì)文本行進(jìn)行連體字符段切分得到連體字符段,在此基礎(chǔ)上對(duì)每一個(gè)連體字符段進(jìn)行單字切分,得到單個(gè)字符,然后標(biāo)定每個(gè)字符圖像所屬的字符類別。此后,要進(jìn)行一次檢查,對(duì)行文本切分、連體字符段切分、單字切分階段和字符類別標(biāo)定階段產(chǎn)生的錯(cuò)誤采用手動(dòng)方式改正。最后,將相同的字符類別對(duì)應(yīng)的原始字符圖像提取出來(lái),并保存,完成單字樣本的采集。同時(shí),對(duì)每個(gè)字符類別的空間區(qū)域信息、字符形式信息和字符構(gòu)成部件信息進(jìn)行標(biāo)定,將標(biāo)定結(jié)果保存在文件中,從而完成字符預(yù)分類信息的采集。
如圖3所示,基于阿拉伯文的印刷體字符識(shí)別算法分為兩個(gè)部分訓(xùn)練系統(tǒng)和測(cè)試系統(tǒng)。訓(xùn)練系統(tǒng)中,對(duì)輸入的單字訓(xùn)練樣本集中的每一個(gè)字符類別的所有樣本,依據(jù)預(yù)分類信息將其劃分至恰當(dāng)?shù)淖址蛹?,形成子集?kù)。對(duì)屬于各字符子集的所有字符類別的各單字樣本,提取反映其組成信息的方向特征,利用特征整形和特征變換進(jìn)行優(yōu)化,然后,采用合適的分類器,訓(xùn)練分類器,得到字符特征庫(kù)。在測(cè)試系統(tǒng)中,對(duì)輸入的未知類別字符圖像,提取預(yù)分類信息確定其所屬的字符子集,采用和訓(xùn)練系統(tǒng)同樣的特征提取和特征優(yōu)化方法形成表示字符的特征向量,然后送入分類器進(jìn)行分類,判斷輸入字符所屬的類別。
因而,實(shí)用的基于阿拉伯字符集的印刷體字符識(shí)別系統(tǒng)的實(shí)現(xiàn)需要考慮如下幾個(gè)方面A)字符樣本的采集B)訓(xùn)練系統(tǒng)的實(shí)現(xiàn)C)測(cè)試系統(tǒng)的實(shí)現(xiàn)下面分別對(duì)這三個(gè)方面進(jìn)行詳細(xì)介紹。
A)字符樣本的采集A.1文本圖像的獲取基于阿拉伯文字符集的印刷體單字樣本的獲取過程如圖2所示。輸入的一篇紙質(zhì)印刷體維吾爾文、哈薩克文、柯爾克孜文或阿拉伯文文檔,通過掃描儀得到數(shù)字圖像,完成從紙質(zhì)文檔到計(jì)算機(jī)存儲(chǔ)圖像的轉(zhuǎn)換。然后對(duì)該圖像進(jìn)行噪聲去除、二值化等預(yù)處理措施。利用各種濾波方法去除噪聲在現(xiàn)有文獻(xiàn)中已經(jīng)有大量記載。二值化方法可采用已有的全局二值化或局部自適應(yīng)二值化。接著對(duì)文檔進(jìn)行版面分析,得到字符區(qū)域。
A.2單字樣本集的形成對(duì)字符區(qū)域分別利用水平投影直方圖進(jìn)行文本行切分得到單個(gè)文本行,再對(duì)各文本行采用垂直投影直方圖分析進(jìn)行連體字符段切分得到單個(gè)連體字符段,進(jìn)而采用垂直象素游程分析方法切分連體字符段,得到單個(gè)字符圖像。在此階段的切分錯(cuò)誤采用手動(dòng)的方式進(jìn)行更正。對(duì)得到的單個(gè)字符的類別進(jìn)行標(biāo)定,一般采用計(jì)算機(jī)自動(dòng)標(biāo)定,對(duì)其中的錯(cuò)誤進(jìn)行人工處理(更改、刪除等)。最后,把具有相同內(nèi)碼的字符所對(duì)應(yīng)的不同字體、不同字號(hào)的原始字符圖像保存起來(lái),就得到了基于阿拉伯字符集的印刷體單字樣本。
A.3預(yù)分類信息檢測(cè)對(duì)單行文本進(jìn)行水平象素投影分析,確定行引線Headline和行基線Baseline,將該行文本所占的空間區(qū)域劃分成上層區(qū)域Upper zone、基準(zhǔn)區(qū)域Base zone和下層區(qū)域Lower zone,從而在進(jìn)行單字切分得到單個(gè)字符的同時(shí)也根據(jù)該單字所占的空間區(qū)域得到了其空間區(qū)域信息ZI。對(duì)各連體字符段進(jìn)行單字切分的同時(shí),檢測(cè)切割出來(lái)的單字左右邊界與其它字符之間的連接關(guān)系,從而確定其字符形式信息CI。對(duì)單個(gè)字符進(jìn)行連通性分析,確定其字符構(gòu)成部件信息CI。從而確定了每個(gè)字符的預(yù)分類信息。具體包含如下步驟(令χ表示輸入未知字符)A.3.1檢測(cè)空間區(qū)域信息ZI文本行的引線(Headline)和基線(Baseline)將字符空間區(qū)域在垂直方向上分為三個(gè)區(qū),從上到下依次為引線上方的上層區(qū)域(Upper Zone)、基線和引線之間的基準(zhǔn)區(qū)域(BaseZone)、基線下方的下層區(qū)域(Lower Zone)。檢測(cè)輸入字符在三個(gè)空間區(qū)域中的分布情況,
根據(jù)χ占據(jù)區(qū)域的不同,給ZI賦予不同的取值,對(duì)應(yīng)關(guān)系為若χ僅占據(jù)上層區(qū)域,則ZI=1;若χ同時(shí)占據(jù)上層區(qū)域和基準(zhǔn)區(qū)域,則ZI=2;若χ同時(shí)占據(jù)上層區(qū)域、基準(zhǔn)區(qū)域和下層區(qū)域,則ZI=3;若χ僅占據(jù)基準(zhǔn)區(qū)域,則ZI=4;若χ同時(shí)占據(jù)基準(zhǔn)區(qū)域和下層區(qū)域,則ZI=5。
A.3.2檢測(cè)字符形式信息FI阿拉伯字符集中的基本字母在實(shí)際文本中表現(xiàn)為4種字符形式首寫形式、中間形式、尾寫形式、獨(dú)立形式,χ必定為這4種字符形式中的一種,依據(jù)χ與其左右字符的連接關(guān)系可判斷它的形式信息若χ在其右側(cè)不與其它字符直接相連,而在其左側(cè)與其它字符直接相連,則χ為首寫形式字符,此時(shí)FI=1;若χ在其右側(cè)和左側(cè)均與其它字符直接相連,則χ為中間形式字符,此時(shí)FI=2;若χ在其右側(cè)與其它字符直接相連,而在其左側(cè)不與其它字符直接相連,則χ為尾寫形式字符,此時(shí)FI=3;若χ在其右側(cè)和左側(cè)均不與其它字符直接相連,則χ為獨(dú)立形式字符,此時(shí)FI=4。
A.3.3檢測(cè)字符構(gòu)成部件信息CI對(duì)χ進(jìn)行連通性分析,根據(jù)其部件的構(gòu)成情況分成兩類若χ由主體部件和附加部件兩部分重疊組成,則CI=1;若χ僅由一個(gè)不可分割的部件構(gòu)成,則CI=2。
A.3.4檢查糾錯(cuò)和保存屬于同一字符類別的不同單字樣本的預(yù)分類信息相同,依據(jù)該原則對(duì)屬于各字符類別的單字樣本的預(yù)分類信息進(jìn)行檢查,對(duì)預(yù)分類信息提取過程中產(chǎn)生的錯(cuò)誤通過人機(jī)交互的方式進(jìn)行糾正。最后,將每個(gè)字符類別的預(yù)分類信息保存起來(lái),形成字符類別預(yù)分類信息集。
B)訓(xùn)練系統(tǒng)的實(shí)現(xiàn)
B.1預(yù)分類根據(jù)樣本采集環(huán)節(jié)得到各字符類別的預(yù)分類信息向量IPCωm=[ZI,FI,CI]T,m=1,2,···,c,]]>將包含c不同字符類別的待處理字符全集Ω={ω1,ω2,…,ωc}劃分成5×4×2=40個(gè)字符類別子集Ωk,k=1,2,…,40,每個(gè)Ωk字符包含的字符類別數(shù)為ck,使Ωm∩Ωn=,m≠n Σk=140ck=c]]>k=1,2,…,40,其中表示空集。
將各Ωk所含的字符類別的內(nèi)碼和相應(yīng)的預(yù)分類信息保存在文件中,形成子集庫(kù)。
B.2特征提取B.2.1提取字符的輪廓設(shè)原始二值字符圖像為[B(i,j)]H×W=B(0,0),B(0,1),···,B(0,W-1)B(1,0),B(1,1),···,B(1,W-1)············B(H-1,0),B(H-1,1),···,B(H-1,W-1)]]>其中W為圖像寬度,H為圖像高度。采用雙線性插值方法對(duì)[B(i,j)]H×W進(jìn)行歸一化處理得到高度為M、寬度為N的字符點(diǎn)陣圖像[G(i,j)]M×N=G(0,0),G(0,1),···,G(0,N-1)G(1,0),G(1,1),···,G(1,N-1)············G(M-1,0),G(M-1,1),···,G(M-1,N-1)]]>掃描整個(gè)字符點(diǎn)陣,對(duì)于某個(gè)位置的黑象素點(diǎn),檢測(cè)其8鄰域中象素的分布情況,如果它的8鄰域中的黑象素個(gè)數(shù)和白象素個(gè)數(shù)均大于0,則保留該黑象素,否則將字符點(diǎn)陣在該位置的值改為0。這樣,由歸一化后的字符圖像[Gi,j)]M×N得到了其輪廓圖像 M×N=Q(0,0),Q(0,1),···,Q(0,N-1)Q(1,0),Q(1,1),···,Q(1,N-1)············Q(M-1,0),Q(M-1,1),···,Q(M-1,N-1)]]>B.2.2象素特征分配采用12種3×3基本特征元模板[R(k)(i,j)]3×3,k=1,2,…,12分別作用于字符輪廓圖像[Q(i,j)]M×N,得到字符的12個(gè)基本特征平面[P(k)(i,j)]M×N=P(k)(0,0),P(k)(0,1),···,P(k)(0,N-1)P(k)(1,0),P(k)(1,1),···,P(k)(1,N-1)············P(k)(M-1,0),P(k)(M-1,1),···,P(k)(M-1,N-1),k=1,2,···,12]]>其中[P(k)(i,j)]M×N中的各元素P(k)(i,j),i=0,1,…,M-1,j=0,1,…,N-1,是[R(k)(i,j)]3×3與[Q(i,j)]M×N進(jìn)行如下計(jì)算得到的 ρ(k)(i,j)=Σm=0m=2Σn=0n=2R(k)(m,n)Q′(i+m-1,j+n-1)]]> B.2.3分塊壓縮將每個(gè)M×N的基本特征平面[P(k)(i,j)]M×N,k=1,2,…,12均勻劃分成高為u0、寬為v0的子區(qū)域,每個(gè)子區(qū)域跟相鄰的子區(qū)域之間在垂直方向有u1個(gè)象素的重合、在水平方向上有v1個(gè)象素的重合,故由每個(gè)M×N基本特征平面得到M′×N′個(gè)子區(qū)域,其中M′=(M-u0u0-u1+1),]]>N′=(N-v0v0-v1+1).]]>將基本特征平面中每一個(gè)大小為u0×v0的子區(qū)域映射成一個(gè)大小為M′×N′的平面上的一個(gè)點(diǎn),得到壓縮特征平面為 M′×N′=E(k)(0,0),E(k)(0,1),···,E(k)(0,N′-1)E(k)(1,0),E(k)(1,1),···,E(k)(1,N′-1)············E(k)(M′-1,0),E(k)(M′-1,1),···,E(k)(M′-1,N′-1),k=1,2,···,12]]>[E(k)(i,j)]M′×N′中各元素的值表示為E(k)(i,j)=Σm=0u0-1Σn=0v0-1Θ(k)(m,n)P(k)((u0-u1)i+m,(v0-v1)j+n)]]>式中Θ(k)(m,n),0≤m<u0,0≤n<v0為加權(quán)系數(shù)Θ(k)(m,n)=12πσ1σ2exp(-(m-u02)22σ12-(n-v02)22σ22)]]>其中σ1=2πu1,]]>σ2=2πv1.]]>B.2.4特征向量形成將壓縮特征平面[E(k)(i,j)]M′×N′,k=1,2,…,12中的各元素按照順序排列成一個(gè)維數(shù)為d=12×M′×N′的矢量X=[x0,x1,…,xd-1]T,就得到了表示輸入字符的d維原始特征的向量。
其中xt=E(kt)(it,jt),t=0,1,···,d-1]]>it,jt,kt與t之間的關(guān)系為 INT(·)表示向下取整函數(shù)。
B.3特征優(yōu)化B.3.1特征整形對(duì)原始特征向量X=[x0,x1,…,xd-1]T進(jìn)行整形,得到新的特征向量Y=[y0,y1,…,yd-1]T,yt與xt之間的關(guān)系為
yt=xtα-1α,t=0,1,···,d-1]]>其中α∈(0,1)為整形常數(shù)。
B.3.2特征變換待處理字符集為Ω={ω1,ω2,…,ωc},c為集Ω中字符類別數(shù),通過預(yù)分類已被劃分成40個(gè)字符子集Ωk,k=1,2,…,40,ck為字符子集Ωk中字符類別的數(shù)量。設(shè)第m類字符ωm的訓(xùn)練樣本數(shù)為0ωm,m=1,2,…,c,對(duì)該字符類別的訓(xùn)練樣本采用上述方法提取特征并經(jīng)特征整形后,得到的d維特征向量集合為{Y1ωm,Y2ωm,…,YOωmωm}。
B.3.2.1計(jì)算統(tǒng)計(jì)量計(jì)算每個(gè)字符類ωm特征向量的中心μωm和類內(nèi)散度矩陣Sωmμωm=1OωmΣl=1OωmYlωm,m=1,2,···,c]]>Sωm=1OωmΣl=1Oωm(Ylωm-μωm)(Ylωm-μωm)T,m=1,2,···,c]]>計(jì)算各子集中所有字符類的特征向量的中心μ(Ωk)μ(Ωk)=1ckΣωm∈Ωk1≤m≤cμωm,k=1,2,···,40]]>計(jì)算各子集的類間散度矩陣Sb(Ωk)和平均類內(nèi)散度矩陣Sw(Ωk);Sb(Ωk)=1ckΣωm∈Ωk1≤m≤c(μωm-μ(Ωk))(μωm-μ(Ωk))T,k=1,2,···,40]]>Sw(Ωk)=1ckΣωm∈Ωk1≤m≤c1OωmΣl=1Oωm(Ylωm-μωm)(Ylωm-μωm)T=,1ckΣ1≤m≤cωm∈ΩkSωm,k=1,2,···,40]]>B.3.2.2 LDA變換用矩陣計(jì)算工具計(jì)算矩陣(Sw(Ωk))-1Sb(Ωk)的本征值ξ0(Ωk),ξ1(Ωk),…,ξd-1(Ωk),k=1,2,…,40和與各本征值相對(duì)應(yīng)的本征向量0(Ωk),1(Ωk),…,d-1(Ωk),k=1,2,…,40,使得下列方程成立
將(Sw(Ωk))-1Sb(Ωk)的本征值按照從大到小的順序排列,使得ξ0(Ωk)≥ξ1(Ωk)≥···≥ξd-1(Ωk),]]>同時(shí),0(Ωk),1(Ωk),…,d-1(Ωk)的順序也作相應(yīng)的調(diào)整,使得它們保持與ξ0(Ωk),ξ1(Ωk),…,ξd-1(Ωk)的對(duì)應(yīng)關(guān)系。r1可根據(jù)需要設(shè)定為不大于rank((Sw(Ωk))-1Sb(Ωk))=ck-1]]>的正整數(shù),這樣得到的LDA變換矩陣為 B.3.2.3 K-L變換用矩陣計(jì)算工具計(jì)算矩陣Sw(Ωk)的本征值ξ0(Ωk),ξ1(Ωk),…,ξd-1(Ωk),k=1,2,…,40和與各本征值相對(duì)應(yīng)的本征向量ψ0(Ωk),ψ1(Ωk),…,ψd-1(Ωk),k=1,2,…,40,使得下列方程成立Sw(Ωk)ψl(Ωk)=ζl(Ωk)ψl(Ωk),k=1,2,···,40,l=0,1,···,d-1]]>令ηlm(Ωk)=(ψl(Ωk))TSωmψl(Ωk),k=1,2,···,40,l=0,1,···,d-1,ωm∈Ωk]]>對(duì)ηlm(Ωk)進(jìn)行歸一化η‾lm(Ωk)=ηlm(Ωk)Σωn∈Ωk1≤n≤cηln(Ωk),k=1,2,···,40,l=0,1,···,d-1,ωm∈Ωk]]>使得Σ1≤m≤cωm∈Ωkη‾lm(Ωk)=1,k=1,2,···,40,l=0,1,···,d-1]]>定義熵函數(shù)H(ψl(Ωk))=-Σωm∈Ωk1≤m≤cη‾lm(Ωk)log2η‾lm(Ωk),k=1,2,···,40,l=0,1,···,d-1]]>計(jì)算對(duì)應(yīng)于各向量ψ0(Ωk),ψ1(Ωk),…,ψd-1(Ωk)的熵函數(shù)的值H(ψ0(Ωk)),H(ψ1(Ωk)),…,H(ψd-1(Ωk)),將ψ0(Ωk),ψ1(Ωk),…,ψd-1(Ωk)按熵從小到大的順序進(jìn)行排列,使H(ψ0(Ωk))≤H(ψ1(Ωk))≤···≤H(ψd-1(Ωk)).]]>由排在最前面的r2個(gè)本征向量ψ0(Ωk),ψ1(Ωk),…,ψr2-1(Ωk)組成了K-L變換矩陣Φ2(Ωk)=[ψ0(Ωk),ψ1(Ωk),···,ψr2-1(Ωk)],k=1,2,···,40;]]>r2為K-L變換截取的特征維數(shù)。
B.3.2.4特征變換矩陣將LDA變換矩陣Φ1(Ωk)和K-L變換矩陣Φ2(Ωk)的列向量排列在一起,就形成了總的大小為d×r的特征變換矩陣Φ(Ωk) r=r1+r2]]>整形后的d維特征Y=[y0,y1,…,yd-1]T經(jīng)過Φ(Ωk)變換得到了r維優(yōu)化特征Z=[z0,z1,…,zr-1]T,變換的過程為Z=(Φ(Ωk))TY]]>將特征整形參數(shù)α和各字符類別子集的特征變換矩陣Φ(Ωk)保存起來(lái),形成特征優(yōu)化參數(shù)庫(kù)文件。
B.4設(shè)計(jì)分類器對(duì)于每個(gè)字符子集Ωk,計(jì)算包含在Ωk中的各字符類別的優(yōu)化特征的均值向量Zωm和協(xié)方差矩陣∑ωmZ‾ωm=(Φ(Ωk))Tμωm,ωm∈Ωk]]>Σωm=(Φ(Ωk))TSωmΦ(Ωk),ωm∈Ωk]]>利用矩陣計(jì)算工具求取∑ωm的本征值λlωm和本征向量φl(shuí)ωm,l=0,1,…,r-1,通過實(shí)驗(yàn)確定MQDF分類器的相關(guān)參數(shù)K、h2。將Zωm、K、h2、λlωm、φl(shuí)ωm存入庫(kù)文件中。對(duì)所有的Ωk,k=1,2,…,40,依次進(jìn)行如上操作,得到了用于分類判決的字符特征庫(kù)。
C)測(cè)試系統(tǒng)的實(shí)現(xiàn)令χ為輸入未知字符。
C.1輸入字符的預(yù)分類判決C.1.2檢測(cè)輸入字符的預(yù)分類信息依據(jù)“A.3.1~A.3.3”所述的方法分別檢測(cè)χ的空間區(qū)域信息ZI、字符形式信息FI和字符部件構(gòu)成信息CI,并將其表示成向量形式IPCχ=[ZI,FI,CI]T.]]>C.1.2確定輸入字符所屬子集設(shè)χ所屬的字符類別子集為Ωkχ,則Ωkχ由下式給出Ωkχ=argminΩk1≤k≤40||IPCΩk-IPCχ||,]]>其中‖·‖表示歐氏距離,IPCΩk為字符子集Ωk的預(yù)分類信息C.2特征提取依據(jù)“測(cè)試系統(tǒng)”中特征提取的相同辦法,提取輸入字符χ的原始d維特征向量Xχ=[x0χ,x1χ,···,xd-1χ]T.]]>C.3特征優(yōu)化從優(yōu)化參數(shù)庫(kù)文件中讀取訓(xùn)練得到特征優(yōu)化參數(shù)α和對(duì)應(yīng)于χ所屬的字符類別子集Ωkχ的LDA與K-L混合變換矩陣Φ(Ωkχ)。
用α為參數(shù)對(duì)Xχ=[x0χ,x1χ,···,xd-1χ]T]]>進(jìn)行特征整形,得到Y(jié)χ=[y0χ,y1χ,···,yd-1χ]T,]]>其中ytχ=(xtχ)α-1α,t=0,1,···,d-1]]>對(duì)Yχ=[y0χ,y1χ,···,yd-1χ]T]]>進(jìn)行特征變換Zχ=(Φ(Ωkχ))TYχ]]>得到r維特征向量Zχ=[z0χ,z1χ,···,zr-1χ]T.]]>C.4分類判決從特征庫(kù)文件中讀取Ωkχ中所有字符類的均值向量Z‾ωm=[z‾0ωm,z‾1ωm,···,z‾r-1ωm]T,ωm∈Ωkχ]]>和相應(yīng)的分類參數(shù),計(jì)算Zχ到Ωkχ中各字符類別的MQDF鑒別距離g(Ωkχ)(Zχ,Z‾ωm)=Σl=0r-1(zlχ-z‾lωm)2h2-Σl=0K-1λlωm-h2h2λlωm[(Zχ-Z‾ωm)Tφlωm]2+ln(h2(r-K)Πl=0K-1λlωm),ωm∈Ωkχ]]>若g(Ωkχ)(Zχ,Z‾ωτ)=minωm∈Ωkχg(Ωkχ)(Zχ,Z‾ωm),]]>則判定該輸入字符χ屬于字符類別ωτ,即ωτ=argminωm∈Ωkχg(Ωkχ)(Zχ,Z‾ωm).]]>以下給出一個(gè)具體的實(shí)現(xiàn)例子。
實(shí)施例1基于網(wǎng)拉伯字符集的多字體多字號(hào)印刷體字符識(shí)別系統(tǒng)基于本發(fā)明的多字體多字號(hào)印刷體字符識(shí)別系統(tǒng)如圖14所示,實(shí)驗(yàn)的硬件設(shè)備平臺(tái)為掃描儀(型號(hào);紫光Uniscan 1248US)和普通PC機(jī)(CPUIntelPentium4 2.40GHz;Memory512MB RAM;OSMicrosoftWindowsXP)實(shí)驗(yàn)在收集到維吾爾文、哈薩克文、柯爾克孜文和阿拉伯文各1600套印刷體文檔上進(jìn)行的,這些樣本文檔大部分采自當(dāng)今主要的印刷體維/哈/柯出版系統(tǒng)和阿拉伯文出版系統(tǒng),也有少量由Windows TrueType字體直接打印生成。字體包括大部分最常用的、部分次常用的和少量不常用的字體,每類樣本的字體至少有6種。字號(hào)從小五號(hào)到初號(hào)。樣本質(zhì)量不等,正常、斷裂、粘連字符的比例約為2∶1∶1。經(jīng)過掃描輸入、文本行切分、單字切分和內(nèi)碼標(biāo)定過程,將每個(gè)語(yǔ)種的1600套文檔轉(zhuǎn)換為1600套單字樣本(即每個(gè)字符類別有1600個(gè)單字樣本),從中隨機(jī)抽出1200套組成訓(xùn)練集,其余400套留作測(cè)試樣本。
實(shí)驗(yàn)中,采用本發(fā)明的方法將輸入字符歸一化為32×32的點(diǎn)陣,即取M=N=32。在特征提取時(shí)基本特征平面按圖11所示的方式劃分,取u0=v0=8,u1=v1=4,故M′=N′=7。依圖9所示的流程提取原始方向特征后,采用α=0.75進(jìn)行特征整形,再采用LDA與K-L的混合變換矩陣進(jìn)行特征變換,變換后特征維數(shù)r選定為96,其中各字符子集的LDA變換矩陣的列向量個(gè)數(shù)r1取該字符類別子集中包含的字符類別的數(shù)目減去1,為保證r=96,取K-L變換矩陣的列向量個(gè)數(shù)為r2=96-r1。分類器MQDF中的參數(shù)K=24,h2用各字符類的協(xié)方差陣的第K個(gè)本征值的均值作為估計(jì)值。在測(cè)試集上的實(shí)驗(yàn)結(jié)果如下表所示。
表2系統(tǒng)在維、哈、柯、阿4種字符測(cè)試樣本集上的識(shí)別率
從表2可見,系統(tǒng)對(duì)維吾爾、哈薩克、柯爾克孜、阿拉伯等4種基于阿拉伯字符集的印刷體字符在測(cè)試集上的識(shí)別正確率均達(dá)到99.4%以上,表明本發(fā)明所提的方法的有效性。
綜上所述,本發(fā)明提出的基于阿拉伯字符集的印刷體字符識(shí)別方法具有以下優(yōu)點(diǎn)1)基于阿拉伯字符集的獨(dú)特特點(diǎn)而提出的預(yù)分類方法,縮小了后續(xù)分類判決的搜索范圍,不僅降低了計(jì)算量,而且提高整體識(shí)別性能。
2)本發(fā)明采用的方向特征符合阿拉伯字符集中字符的筆劃構(gòu)成特點(diǎn),計(jì)算方便。
3)本發(fā)明提出的特征整形和LDA與K-L相結(jié)合的特征變換方法可以很好改善特征分布,去除冗余信息,提高特征的鑒別能力。
4)本發(fā)明提出的方法具有很好的推廣性,能夠快速方便地移植到其它基于阿拉伯字符集的字符(如波斯、烏爾都、克什米爾等等)識(shí)別中去并可望取得良好的識(shí)別性能。
本發(fā)明提出的方法在實(shí)驗(yàn)中獲得了優(yōu)異的識(shí)別性能,具有廣泛的應(yīng)用前景。
權(quán)利要求
1.基于阿拉伯字符集的印刷體字符識(shí)別方法,其特征在于,它在對(duì)字符對(duì)象進(jìn)行必要預(yù)處理后,首先對(duì)輸入的單個(gè)字符進(jìn)行預(yù)分類,將其劃分到恰當(dāng)?shù)淖址悇e子集中去,然后提取能很好反映字符結(jié)構(gòu)特點(diǎn)的方向特征,在此基礎(chǔ)上,利用特征整形、LDA變換和K-L變換提取最具鑒別性的優(yōu)化特征,把該特征送入MQDF分類器判定字符所屬類別;在由圖像采集設(shè)備和計(jì)算機(jī)組成的系統(tǒng)中,它依次含有以下步驟訓(xùn)練階段第1步在計(jì)算機(jī)中設(shè)定以下參數(shù)字符類別總數(shù)c;歸一化后字符高度M、字符寬度N;基本特征平面分塊參數(shù)u0、v0、u1、v1,其中u0為基本特征平面中子區(qū)域的高度,v0為基本特征平面中子區(qū)域的寬度,u1為基本特征平面中子區(qū)域與相鄰子區(qū)域之間在垂直方向上重合的象素個(gè)數(shù),v1為基本特征平面中子區(qū)域與相鄰子區(qū)域之間在水平方向上重合的象素個(gè)數(shù);原始特征向量經(jīng)特征整形形成更符合高斯分布的新特征向量時(shí)采用的整形參數(shù)α∈(0,1);特征變換時(shí)LDA截取維數(shù)r1、K-L變換截取維數(shù)r2;第2步字符樣本的采集第2.1步用圖像采集設(shè)備掃描輸入多字體多字號(hào)基于阿拉伯字符集的維吾爾文、哈薩克文、柯爾克孜文、阿拉伯文的文本,利用已有算法進(jìn)行去噪聲、二值化等必要的預(yù)處理;第2.2步對(duì)文本圖像依次進(jìn)行行切分、連體字符段切分、單字切分處理以分離單個(gè)字符,再對(duì)每個(gè)字符的圖像標(biāo)定其對(duì)應(yīng)的正確的字符內(nèi)碼,然后把相同字符類別對(duì)應(yīng)的原始字符圖像提取出來(lái),保存為用以訓(xùn)練和測(cè)試的單字樣本集;第2.3步定義并標(biāo)定每個(gè)字符類別的空間區(qū)域信息、字符形式信息和字符組成部件信息,保存標(biāo)定結(jié)果,形成字符類別預(yù)分類信息集;它依次含有以下步驟第2.3.1步形成字符空間區(qū)域信息,用ZI表示用文本行的引線Headline和基線Baseline將字符空間區(qū)域在垂直方向上分為三個(gè)區(qū),從上到下依次為引線上方的上層區(qū)域Upper Zone、基線和引線之間的基準(zhǔn)區(qū)域Base Zone、基線下方的下層區(qū)域Lower Zone;檢測(cè)輸入字符χ在三個(gè)空間區(qū)域中的分布情況,根據(jù)χ占據(jù)的區(qū)域,給ZI賦值如下若χ僅占據(jù)上層區(qū)域,則ZI=1;若χ同時(shí)占據(jù)上層區(qū)域和基準(zhǔn)區(qū)域,則ZI=2;若χ同時(shí)占據(jù)上層區(qū)域、基準(zhǔn)區(qū)域和下層區(qū)域,則ZI=3;若χ僅占據(jù)基準(zhǔn)區(qū)域,則ZI=4;若χ同時(shí)占據(jù)基準(zhǔn)區(qū)域和下層區(qū)域,則ZI=5;第2.3.2步形成字符形式信息,用FI表示阿拉伯字符集中的基本字母在實(shí)際文本中表現(xiàn)為4種字符形式首寫形式、中間形式、尾寫形式、獨(dú)立形式;輸入字符χ必定為這4種字符形式中的一種,依據(jù)χ與其左右字符的連接關(guān)系判斷它的形式信息若χ在其右側(cè)不與其它字符直接相連,而在其左側(cè)與其它字符直接相連,則χ為首寫形式字符,令FI=1;若χ在其右側(cè)和左側(cè)均與其它字符直接相連,則χ為中間形式字符,令FI=2;若χ在其右側(cè)與其它字符直接相連,而在其左側(cè)不與其它字符直接相連,則χ為尾寫形式字符,令FI=3;若χ在其右側(cè)和左側(cè)均不與其它字符直接相連,則χ為獨(dú)立形式字符,令FI=4;第2.3.3步形成字符構(gòu)成部件信息,用CI表示對(duì)輸入字符χ進(jìn)行連通性分析,根據(jù)其部件的構(gòu)成情況分成兩類若χ由主體部件和附加部件兩部分組成,則CI=1;若χ僅由一個(gè)不可分割的部件構(gòu)成,則CI=2;第2.3.4步依據(jù)同一字符類別的不同單字樣本的預(yù)分類信息相一致的準(zhǔn)則對(duì)屬于各字符類別的單字樣本的預(yù)分類信息進(jìn)行檢查糾錯(cuò)后保存起來(lái),形成字符類別預(yù)分類信息集;第3步字符類別子集的劃分設(shè)待處理字符全集為Ω={ω1,ω2,…,ωc};將第2.3步得到的字符類別預(yù)分類信息,用一個(gè)向量IPCωm=[ZI,FI,CI]T]]>表示,m=1,2,…,c;依據(jù)IPCωm將Ω劃分成5×4×2個(gè)字符類別子集Ωk,k=1,2,…,40,Ωk包含的字符類別數(shù)為ck,使Ωm∩Ωn=,m≠n,Ω=∪k=140Ωk,]]>Σk=140ck=c;]]>其中表示空集;由以上劃分得∀ωl,ωn∈Ωk,IPCωl≡IPCωn]]>若用IPCΩk表示Ωk中各字符類別子集的共同的預(yù)分類信息向量,則Ωk表示為Ωk={ωm|ωm∈Ω,IPCωm=IPCΩk},k=1,2,···,40]]>第4步特征提取第4.1步提取字符輪廓,它依次含有以下步驟第4.1.1步設(shè)原始二值字符圖像為[B(i,j)]H×W=B(0,0),B(0,1),···,B(0,W-1)B(1,0),B(1,1),···,B(1,W-1)············B(H-1,0),B(H-1,1)···,B(H-1,W-1)]]>其中W為原始二值字符圖像寬度,H為原始二值字符圖像高度,B(i,j)為圖像位于第i行、第j列的象素點(diǎn)的值,i=0,1,…,H-1,j=0,1,…,W-1;用雙線性插值方法對(duì)[B(i,j)]H×W進(jìn)行歸一化處理得到高度為M、寬度為N的歸一化字符點(diǎn)陣圖像[G(i,j)]M×N=G(0,0),G(0,1),···,G(0,N-1)G(1,0),G(1,1),···,G(1,N-1)············G(M-1,0),G(M-1,1)···,G(M-1,N-1);]]>第4.1.2步設(shè)字符圖像其筆劃所對(duì)應(yīng)的點(diǎn)為黑象素點(diǎn),用“1”表示、背景所對(duì)應(yīng)的點(diǎn)為白象素點(diǎn),用“0”表示,即 其中δstroke表示圖像中由字符筆劃對(duì)應(yīng)的點(diǎn)所組成的點(diǎn)的集合,δbackground表示圖像中由背景點(diǎn)所組成的點(diǎn)的集合;對(duì)于任意(i,j)∈δstroke,若其8鄰域中既有白象素點(diǎn)又有黑象素點(diǎn),則稱該筆劃象素點(diǎn)(i,j)為輪廓點(diǎn);第4.1.3步掃描整個(gè)字符點(diǎn)陣,對(duì)于某個(gè)位置的黑象素點(diǎn),檢測(cè)其8鄰域中象素點(diǎn)的分布情況,如果它的8鄰域中的黑象素個(gè)數(shù)和白象素個(gè)數(shù)均大于0,則保留該黑象素,否則將字符點(diǎn)陣在該位置的值改為0;由歸一化后的字符圖像[G(i,j)]M×N得到其輪廓圖像[Q(i,j)]M×N[Q(i,j)]M×N=Q(0,0),Q(0,1),···,Q(0,N-1)Q(1,0),Q(1,1),···,Q(1,N-1)············Q(M-1,0),Q(M-1,1)···,Q(M-1,N-1);]]>第4.2步象素特征分配設(shè)定12種大小均為3×3的基本方向特征元模板[R(k)(i,j)]3×3,k=1,2,…,12[R(1)(i,j)]3×3=0,0,01,1,10,0,0,]]>[R(2)(i,j)]3×3=0,1,00,1,00,1,0,]]>[R(3)(i,j)]3×3=0,0,10,1,01,0,0,]]>[R(4)(i,j)]3×3=1,0,00,1,00,0,1,]]>[R(5)(i,j)]3×3=0,0,11,1,00,0,0,]]>[R(6)(i,j)]3×3=0,0,01,1,00,0,1,]]>[R(7)(i,j)]3×3=1,0,00,1,10,0,0,]]>[R(8)(i,j)]3×3=0,0,00,1,11,0,0,]]>[R(9)(i,j)]3×3=0,1,00,1,01,0,0,]]>[R(10)(i,j)]3×3=0,1,00,1,00,0,1,]]>[R(11)(i,j)]3×3=1,0,00,1,00,1,0,]]>[R(12)(i,j)]3×3=0,0,10,1,00,1,0,]]>將上述12種模板分別作用于字符輪廓圖像[Q(i,j)]M×N,得到字符的12個(gè)基本特征平面[P(k)(i,j)]M×N=P(k)(0,0),P(k)(0,1),···,P(k)(0,N-1)P(k)(1,0),P(k)(1,1),···,P(k)(1,N-1)············P(k)(M-1,0),P(k)(M-1,1)···,P(k)(M-1,N-1),k=1,2,···,12,]]>其中[P(k)(i,j)]M×N中的各元素P(k)(i,j),i=0,1,…,M-1,j=0,1,…,N-1,為 而ρ(k)(i,j)=Σm=0m=2Σn=0n=2R(k)(m,n)Q′(i+m-1,j+n-1),]]>而 第4.3步分塊壓縮將每個(gè)大小為M×N的基本特征平面[P(k)(i,j)]M×N,k=1,2,…,12,均勻劃分成高為u0、寬為v0的子區(qū)域,每個(gè)子區(qū)域跟相鄰的子區(qū)域之間在垂直方向有u1個(gè)象素的重合、在水平方向上有v1個(gè)象素的重合;由每個(gè)M×N基本特征平面得到M′×N′個(gè)子區(qū)域,其中M′=(M-u0u0-u1+1),]]>N′=(N-v0v0-v1+1);]]>將每個(gè)基本特征平面中每一個(gè)大小為u0×v0的子區(qū)域映射成大小為M′×N′的平面上的一個(gè)點(diǎn),得到壓縮特征平面[E(k)(i,j)]M′×N′=E(k)(0,0),E(k)(0,1),···,E(k)(0,N′-1)E(k)(1,0),E(k)(1,1),···,E(k)(1,N′-1)············E(k)(M′-1,0),E(k)(M′-1,1)···,E(k)(M′-1,N′-1),k=1,2,···,12,]]>其中[E(k)(i,j)]M′×N′中各元素的值為E(k)(i,j)=Σm=0u0-1Σn=0v0-1Θ(k)(m,n)P(k)((u0-u1)i+m,(v0-v1)j+n),]]>而Θ(k)(m,n),0≤m<u0,0≤n<v0為加權(quán)系數(shù)Θ(k)(m,n)=12πσ1σ2exp(-(m-u02)22σ12-(n-v02)22σ22),]]>其中σ1=2πu1,σ2=2πv1;]]>第4.4步特征向量形成將壓縮特征平面[E(k)(i,j)]M′×N′,k=1,2,…,12,中的各元素按照順序排列成一個(gè)維數(shù)為d=12×M′×N′的矢量X=[x0,x1,…,xd-1]T,得到了表示輸入字符的d維原始方向特征向量其中xt=E(kt)(it,jt),t=0,1,···,d-1;]]>而it,jt,kt與t之間的關(guān)系為 INT(·)表示向下取整函數(shù);第5步特征優(yōu)化第5.1步特征整形對(duì)原始特征向量X=[x0,x1,…,xd-1]T進(jìn)行整形,得到新的特征向量Y=[y0,y1,…,yd-1]T,yt與xt之間的關(guān)系為yt=xtα-1α,t=0,1,···,d-1,]]>其中α∈(0,1)為整形常數(shù);第5.2步特征變換第5.2.1步獲取字符類別的特征向量集合如“第3步字符類別子集的劃分”所述,待處理字符集為Ω={ω1,ω2,…,ωc},c為集Ω中字符類別數(shù),通過預(yù)分類處理被劃分為40個(gè)字符類別子集Ωk,k=1,2,…,40,ck為字符類別子集Ωk中字符類別的數(shù)量;設(shè)第m類字符ωm的訓(xùn)練樣本數(shù)為Oωm,m=1,2,…,c,對(duì)該字符類別的訓(xùn)練樣本采用“第4步特征提取”所述方法提取特征得到的d維原始特征向量集合為{X1ωm,X2ωm,…,XOωmωm};則經(jīng)“第5.1步特征整形”后,得到的d維特征向量集合為{Y1ωm,Y2ωm,…,YOωmωm};第5.2.2步統(tǒng)計(jì)量計(jì)算計(jì)算每個(gè)字符類ωm特征向量的中心μωm和類內(nèi)散度矩陣Sωmμωm=1OωmΣl=1OωmYlωm,m=1,2,···,c,]]>Sωm=1OωmΣl=1Oωm(Ylωm-μωm)(Ylωm-μωm)T,m=1,2,···,c;]]>計(jì)算各子集中所有字符類的特征向量的中心μ(Ωk)μ(Ωk)=1ckΣωm∈Ωk1≤m≤cμωjm,k=1,2,···,40;]]>計(jì)算各子集的類間散度矩陣Sb(Ωk)和平均類內(nèi)散度矩陣Sw(Ωk)Sb(Ωk)=1ckΣωm∈Ωk1≤m≤c(μωm-μ(Ωk))(μωm-μ(Ωk))T,k=1,2,···,40,]]>Sw(Ωk)=1ckΣωm∈Ωk1≤m≤c1OωmΣl=1Oωm(Ylωn-μωm)(Ylωm-μωm)T=1ckΣωm∈Ωk1≤m≤cSωm,k=1,2,···,40;]]>第5.2.3步LDA變換,它依次含有以下步驟第5.2.3.1步用矩陣計(jì)算工具計(jì)算矩陣(Sw(Ωk))-1Sb(Ωk)的本征值ξ0(Ωk),ξ1(Ωk),…,ξd-1(Ωk),k=1,2,…,40和與各本征值相對(duì)應(yīng)的本征向量0(Ωk),1(Ωk),…,d-1(Ωk),k=1,2,…,40,使得下列方程成立 第5.2.3.2步將(Sw(Ωk))-1Sb(Ωk)的本征值按從大到小的順序排列,使ξ0(Ωk)≥ξ1(Ωk)≥···≥ξd-1(Ωk),]]>同時(shí),0(Ωk),1(Ωk),…,d-1(Ωk)的順序也作相應(yīng)的調(diào)整,使得它們保持與ξ0(Ωk),ξ1(Ωk),…,ξd-1(Ωk)的對(duì)應(yīng)關(guān)系;第5.2.3.2步取(Sw(Ωk))-1Sb(Ωk)的前r1個(gè)非零本征值對(duì)應(yīng)的本征向量構(gòu)成LDA變換矩陣 r1的有效值可根據(jù)需要選取為小于或等于矩陣(Sw(Ωk))-1Sb(Ωk)的秩rank((Sw(Ωk))-1Sb(Ωk))=ck-1]]>的正整數(shù)第5.2.4步K-L變換,它依次含有以下步驟第5.2.4.1步用矩陣計(jì)算工具計(jì)算矩陣Sw(Ωk)的本征值ζ0(Ωk),ζ1(Ωk),…,ζd-1(Ωk),k=1,2,…,40和與各本征值相對(duì)應(yīng)的本征向量ψ0(Ωk),ψ1(Ωk),…,ψd-1(Ωk),k=1,2,…,40,使下列方程成立Sw(Ωk)ψl(Ωk)=ξl(Ωk)ψl(Ωk),k=1,2,···,40,l=0,1,···,d-1;]]>第5.2.4.2步令ηlm(Ωk)=(ψl(Ωk))TSωmψl(Ωk),k=1,2,···,40,l=0,1,···,d-1,ωm∈Ωk;]]>對(duì)ηlm(Ωk)進(jìn)行歸一化η‾lm(Ωk)=ηlm(Ωk)Σ1≤n≤cωn∈Ωkηln(Ωk),k=1,2,···,40,l=0,1,···,d-1,ωm∈Ωk;]]>使Σ1≤m≤cωm∈Ωkη‾lm(k)=1,k=1,2,···,40,l=0,1,···,d-1;]]>第5.2.4.3步定義熵函數(shù)H(ψl(Ωk))=-Σ1≤m≤cωm∈Ωkη‾lm(Ωk)log2η‾lm(Ωk),k=1,2,···,40,l=0,1,···,d-1;]]>計(jì)算對(duì)應(yīng)于各向量ψ0(Ωk),ψ1(Ωk),…,ψd-1(Ωk)的熵函數(shù)的值H(ψ0(Ωk)),H(ψ1(Ωk)),…,H(ψd-1(Ωk)),將ψ0(Ωk),ψ1(Ωk),…,ψd-1(Ωk)按熵從小到大的順序進(jìn)行排列,使H(ψ0(Ωk))≤H(ψ1(Ωk))≤···≤H(ψd-1(Ωk));]]>第5.2.4.4步取排在最前面的r2個(gè)本征向量ψ0(Ωk),ψ1(Ωk),…,ψr2-1(Ωk)組成了K-L變換矩陣Φ2(Ωk)=[ψ0(Ωk),ψ1(Ωk),···,ψr2-1(Ωk)],k=1,2,···,40;]]>r2為K-L變換截取的特征維數(shù);第5.2.5步特征變換矩陣形成將LDA變換矩陣Φ1(Ωk)和K-L變換矩陣Φ2(Ωk)的列向量排列在一起,形成總的大小為d×r的特征變換矩陣Φ(Ωk) r=r1+r2;]]>將整形后的d維特征Y=[y0,y1,…,yd-1]T經(jīng)過Φ(Ωk)變換得到r維優(yōu)化特征Z=[z0,z1,…,zr-1]T,變換的過程為Z=(Φ(Ωk))TY]]>形成最終送入分類器作為字符類型判決依據(jù)的字符特征向量Z;將Φ(Ωk),k=1,2,…,40,存入文件,形成優(yōu)化參數(shù)庫(kù);第6步設(shè)計(jì)分類器對(duì)于每個(gè)字符子集Ωk,計(jì)算包含在Ωk中的各字符類別的優(yōu)化特征的均值向量Zωm和協(xié)方差矩陣∑ωmZ‾ωm=(Φ(Ωk))Tμωm,ωm∈Ωk]]>Σωm=(Φ(Ωk))TSωmΦ(Ωk),ωm∈Ωk]]>利用矩陣計(jì)算工具求取∑ωm的本征值λlωm和對(duì)應(yīng)得本征向量φl(shuí)ωm,l=0,1,…,r-1,通過實(shí)驗(yàn)確定MQDF分類器的相關(guān)參數(shù)K、h2;將Zωm、K、h2、λlωm、φl(shuí)ωm存入文件中;對(duì)所有的Ωk,k=1,2,…,40,依次進(jìn)行如上操作,得到了用于分類判決的字符特征庫(kù);識(shí)別階段第1步預(yù)分類,即對(duì)輸入的未知字符,判定其所屬的字符類別子集;它依次包含以下步驟第1.1步獲取字符預(yù)分類信息依照“訓(xùn)練階段第3.2步”所述的方法,分別檢測(cè)輸入未知字符χ的空間區(qū)域信息ZI、字符形式信息FI和構(gòu)成部件信息CI,形成χ的預(yù)分類信息向量IPCχ=[ZI,FI,CI]T;]]>第2.2步確定輸入字符所屬子集設(shè)χ所屬的字符類別子集為Ωkχ,則Ωkχ由下式給出Ωkχ=argminΩk1≤k≤40||IPCΩk-IPCχ||,]]>其中‖·‖表示歐氏距離,IPCΩk為字符子集Ωk的預(yù)分類信息;得到Ωkχ后,完成了對(duì)χ的預(yù)分類;第2步特征提取按照“訓(xùn)練階段第4步”所述的方法,提取輸入未知字符χ的d維原始方向特征向量Xχ=[x0χ,x1χ,···,xd-1χ]T;]]>第3步特征優(yōu)化第3.1步特征整形以“訓(xùn)練部分第一步”所設(shè)定的整形參數(shù)α對(duì)原始方向特征向量Xχ=[x0χ,x1χ,···,xd-1χ]T]]>進(jìn)行整形,得到整形特征Yχ=[y0χ,y1χ,···,yd-1χ]T,]]>其中ytχ=(xtχ)α-1α,t=0,1,···,d-1;]]>第3.2步特征變換從“訓(xùn)練階段第第5.2.5步”所生成的優(yōu)化參數(shù)庫(kù)文件中讀取對(duì)應(yīng)于輸入字符χ所屬字符類別子集Ωkχ的LDA和K-L混合變換矩陣Φ(Ωkχ),將d維整形方向特征向量Yχ=[y0χ,y1χ,···,yd-1χ]T]]>變換成r維變換特征向量Zχ=[z0χ,z1χ,···zr-1χ]T,]]>變換的過程為Zχ=(Φ(Ωxχ))TYχ;]]>第4步分類判決,即將未知類別的字符的特征向量與識(shí)別庫(kù)中已有的數(shù)據(jù)進(jìn)行比較,以確定輸入字符對(duì)應(yīng)的正確的字符代碼;它依次含有以下步驟第4.1步從“訓(xùn)練階段第6步”所生成的字符特征庫(kù)文件中讀取輸入字符χ所屬字符類別子集Ωkχ中的所有字符類別的均值向量Z‾ωm=[z‾0ωm,z‾1ωm,···,z‾r-1ωm]T,ωm∈Ωkχ,]]>和相應(yīng)的分類參數(shù);第4.2步分別計(jì)算Zχ到Ωkχ中各字符類別的MQDF鑒別距離g(Ωkχ)(Zχ,Z‾ωm)=Σl=0r-1(ziχ-z‾lωm)2h2-Σl=0K-1λlωm-h2h2λlωm[(Zχ-Z‾ωm)Tφlωm]2+ln(h2(r-K)Πl=0K-1λlωm),ωm∈Ωkχ;]]>若g(Ωkχ)(Zχ,Z‾ωx)=minωm∈Ωkχg(Ωkχ)(Zχ,Z‾ωm),]]>則判定該輸入字符χ屬于字符類別ωτ,即ωτ=argminωk∈Ωkχg(Ωkχ)(Zχ,Z‾ωm).]]>
全文摘要
基于阿拉伯字符集的印刷體字符識(shí)別方法屬于字符識(shí)別領(lǐng)域,其特征在于,提取阿拉伯字符集中字符獨(dú)特的區(qū)域信息、字符形式信息、構(gòu)成部件信息進(jìn)行預(yù)分類,確定輸入字符所屬的字符類別子集,然后抽取能很好反映字符筆劃構(gòu)成信息的方向特征,在此基礎(chǔ)上采用兩個(gè)步驟進(jìn)行特征優(yōu)化處理1.特征整形;2.由LDA(線性鑒別分析)和K-L變換相結(jié)合的特征變換,最后運(yùn)用MQDF(改進(jìn)的二次鑒別函數(shù))統(tǒng)計(jì)分類器進(jìn)行分類判決。本發(fā)明在多字體多字號(hào)維吾爾、哈薩克、柯爾克孜和阿拉伯印刷體字符測(cè)試集上的識(shí)別正確率均達(dá)到99.4%以上。
文檔編號(hào)G06K9/00GK1606028SQ20041000978
公開日2005年4月13日 申請(qǐng)日期2004年11月12日 優(yōu)先權(quán)日2004年11月12日
發(fā)明者丁曉青, 王 華, 靳簡(jiǎn)明, 彭良瑞, 劉長(zhǎng)松, 方馳 申請(qǐng)人:清華大學(xué)