欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

多字體多字號印刷體藏文字符識別方法

文檔序號:6398374閱讀:324來源:國知局
專利名稱:多字體多字號印刷體藏文字符識別方法
技術領域
多字體多字號印刷體藏文字符識別方法屬于字符識別領域。
背景技術
藏文字符識別技術是中文多文種信息處理系統(tǒng)的重要組成部分,具有極高的理論價值和廣闊的應用前景。字符識別方法可以歸結為兩類統(tǒng)計決策方法和句法結構方法。在統(tǒng)計決策方法中,每個字符模式用一個特征矢量表示,它被看成是特征空間中的一個點,識別的過程就是在特征空間中將待識別字符模式正確地劃分到所屬的類別中。而句法結構方法則對于給定的字符集,抽取數(shù)量有限的不可分割的最小子模式(基元),將這些基元按照特定的順序和規(guī)則組合起來可以構成該字符集中的任何字符。這樣,利用字符結構與語言之間的相似性,字符識別可以借助形式語言學的文法(包含了句法規(guī)則)來描述剖析字符的結構。
字符數(shù)量大、字型結構復雜、字體種類多、相似字比例高給藏文字符識別研究帶來了挑戰(zhàn)。目前國內外對藏文識別的研究基本上還非常有限,尚未見到有成功的算法和系統(tǒng)出現(xiàn)。藏文雖然是拼音文字,每個字符都由若干個部件(字母及某些字母的變體)組成,但由于部件的結構及其相互間的連接方式復雜,使得正確分離字符中各部件非常困難,又考慮到句法結構方法的抗干擾性差等顯著的弱點,所以本發(fā)明采用統(tǒng)計決策的方法來進行多字體多字號印刷體藏文字符識別的研究,以單個藏文字符的整體作為基本的識別單位。
在漢字識別中,方向線素很好地描述了它在所占空間的不同位置上橫、豎、撇、捺四種基本單元的數(shù)量關系,從而全面、準確、穩(wěn)定地反映了漢字的組成信息。藏文字符由各部件按照一定的次序縱向疊加在一起構成,而部件又由筆劃組成,各部件中筆劃之間的連接關系是固定不變的。這樣,每個藏文字符都有特定的結構,并且這種結構可以被從層次、局部和細節(jié)三方面反映出來,而方向線素正是刻畫這些結構特征的有效手段。
本發(fā)明在全面細致考察藏文字符特點的基礎上,根據(jù)藏文字符的特殊形態(tài),選擇了恰當?shù)臍w一化方法,抽取描述能力強的方向線素特征,利用基于置信度分析的兩級統(tǒng)計分類器獲得識別結果,實現(xiàn)了高性能的多字體多字號藏文字符識別方法,這是目前所有其他文獻里都沒有使用過的方法。

發(fā)明內容
本發(fā)明的目的在于實現(xiàn)一個多字體多字號印刷體藏文字符識別的方法。以單個藏文字符作為處理對象,首先對字符對象進行必要的歸一化處理,包括位置歸一化和大小歸一化,然后提取能很好反映字符特點的四方向線素特征并采用LDA(線性鑒別分析)方法對特征進行壓縮變換,采用基于置信度分析的粗、細兩級統(tǒng)計分類器進行分類判決。由此,可以得到極高的單字識別正確率。根據(jù)該方法,實現(xiàn)了一個多字體多字號印刷體藏文字符識別系統(tǒng)。
作為一個印刷體藏文字符識別系統(tǒng)還包括單字樣本的采集,即系統(tǒng)首先掃描輸入印刷體藏文的文本,采用自動的方式進行字符切分。利用采集建立的訓練樣本數(shù)據(jù)庫,進行方向線素特征抽取和特征變換,得到訓練樣本的特征數(shù)據(jù)庫。在訓練樣本的特征數(shù)據(jù)庫的基礎上,通過實驗確定分類器的參數(shù)。對未知的輸入字符樣本,采用同樣的方法抽取特征,然后送入分類器與特征庫進行分類比較,從而判斷輸入字符的類別屬性。
本發(fā)明由以下幾部分組成字符歸一化、四方向線素特征提取、特征變換、分類器設計。
1.字符歸一化1.1位置歸一化設原始字符圖像為[F(i,j)]W×H,圖像寬度為W,高度為H,圖像位于第i行第j列的象素點的值為F(i,j),i=1,2,…,H,j=1,2,…,W。根據(jù)藏文字符的特點,[F(i,j)]W×H可以看作兩個互不重疊的子圖像[F1(i,j)]W×H1、[F2(i,j)]W×H2的縱向拼接而成,其中[F1(i,j)]W×H1為基線(上平線)以上部分圖像,即上元音部分,[F2(i,j)]W×H2為基線以下部分,且H1+H2=H。設字符圖像的水平投影V(i),i=1,2,…,H由下式計算V(i)=Σj=1WF(i,j)]]>則基線所在位置的縱坐標值PI為PI=argmaxi(V(i)-V(i-1)),i=2,3,···,H]]>根據(jù)PI和字符頂部的縱坐標的值就可以確定H1,而在本發(fā)明所采用的坐標系(圖4)中,H1在數(shù)值上等于PI。
設歸一化后字符圖像為[G(i,j)]M×N,圖像寬度為M,高度為N,圖像位于第i行第j列的象素點的值為G(i,j),i=1,2,…,N,j=1,2,…,M。同樣的,[G(i,j)]M×N也可看作兩個互不重疊子圖像[G1(i,j)]M×N1、[G2(i,j)]M×N2的縱向拼接而成,其中[G1(i,j)]M×N1為基線以上部分圖像,[G2(i,j)]M×N2為基線以下部分,根據(jù)對藏文字符中基線的位置特性分析,此處設定N1=N/4,N2=3N/4。這樣,歸一化可以看成是將輸入圖像點陣[F1(i,j)]W×H1、[F2(i,j)]W×H2分別映射成目標圖像點陣[G1(i,j)]M×N1、[G2(i,j)]M×N2的處理過程。在此過程中,選定輸入圖像點陣[Fk(i,j)]W×Hk,k=1,2中的參考點Uk(uIk,uJk),k=1,2,移動輸入圖像點陣,使該參考點位于目標點陣[Gk(i,j)]M×Nk,k=1,2的中心,從而完成輸入字符的位置歸一化。
令[Fk(i,j)]W×Hk,k=1,2重心和外邊框幾何的中心分別為Ak(aIk,aJk),k=1,2和Bk(bIk,bJk),k=1,2,則有 令Uk(uIk,uJk),k=1,2為介于Ak(aIk,aJk),k=1,2與Bk(bIk,bJk),k=1,2之間的一點,即 其中β為常數(shù)且0≤β≤1。
1.2大小歸一化藏文字符是非方塊字,字符寬度具有相對穩(wěn)定性,而各字符間高度差異很大,無法象漢字那樣歸一化為方形點陣。據(jù)對收集到的1200套藏文字符樣本中共710,400個(6種字體、7種字號,每套樣本592個字符)字符的高寬比特性所做的統(tǒng)計,取歸一化之后的藏文字符的高寬比為2較合理,它是差別各異的各字體字符高寬比的一個折衷。
考察輸入輸入字符圖像[Fk(i,j)]W×Hk,k=1,2,與歸一化后目標字符點陣為[Gk(i,j)]M×Nk,k=1,2,之間的關系可知Gk(i,j)=Fk(i/ri,j/rj),k=1,2
其中ri和rj分別為i和j方向的尺度變換因子ri=Nk/Hk,rj=M/W。根據(jù)上式,輸出圖像點陣中的點(i,j)對應于輸入字符中的點(i/ri,j/rj)。Fk(i,j)為離散函數(shù),而i/ri、j/rj的取值一般不為整數(shù),故需要根據(jù)Fk中已知的離散點處的值來估計其在(i/ri,j/rj)處的取值。本發(fā)明采用三次B樣條函數(shù)來進行插值運算,以減少歸一化后字符點陣出現(xiàn)諸如階梯狀邊緣等畸變。對于給定(i,j),令 其中 [·]為取整函數(shù)。插值過程可表示為Gk(i,j)=Fk(p0+Δp,q0+Δq)=Σm=-12Σl=-12Fk(p0+m,q0+l)RB(m-Δp)RB(-(l-Δq))]]>式中的RB(z)為三次B樣條函數(shù)RB(z)=16[(z+2)3W(z+2)-4(z+1)3W(z+1)+6z3W(z)-4(z-1)3W(z-1)]]]>其中W(z)為階躍函數(shù), 2.方向線素特征提取2.1提取字符的輪廓假定特征字圖像其筆劃所對應的點為黑象素點,背景點為白象素點。對于筆劃象素點,如果其8鄰域有白象素點且當前黑象素不是孤立黑象素點(8鄰域黑象素點的個數(shù)為0),則稱該筆劃象素點為輪廓點。提取輪廓圖像的方法是掃描整個字符點陣,對于某個位置的黑象素,如果它的8鄰域中的黑象素個數(shù)和白象素個數(shù)均大于0,則保留該黑象素,否則將字符點陣在該位置的值改為0。這樣,從歸一化后的字符圖像[G(i,j)]M×N得到了其輪廓圖像[G′(i,j)]M×N。
2.2分塊和特征矢量的構成對于字符輪廓點陣[G′(i,j)]M×N中的每一個黑象素,根據(jù)它與相鄰的另外兩個黑象素的位置關系,賦予它橫(0°)、豎(90°)、撇(45°)、捺(135°)四種線素。考慮兩種情況一種是3個黑象素在同一直線上,則只給該中心象素分配一種線素特征并且賦值為2(圖9a-d);另一種3個黑象素不在同一直線上,那么就同時給中心象素分配兩種線素特征并分別賦值為1(圖9e-p),如圖9k所示的情況則給中心線素分配的線素是捺和豎,數(shù)值均為1,其余情況類推。按照這些原則對字符點陣中的各黑象素的進行線素特征的分配,對每個黑象素點(i,j),都可以得到一個4維向量X(i,j)=(xv,xk,xp,xo)T,其分量分別表示該黑象素點處的4種線素的數(shù)量。
完成上述工作以后,將M×N的點陣均勻分成寬為M0、高為N0的子區(qū)域(圖10),每個子區(qū)域跟相鄰的子區(qū)域之間在水平方向有M0/2、在垂直方向上有N0/2個象素的重合,故從整個M×N點陣可以得到的子區(qū)域個數(shù)為(2MM0-1)×(2NN0-1).]]>然后,將每個子區(qū)域劃分成互相嵌套A、B、C、D四個小方塊(圖11),A、B、C、D的大小依次為(M0/4)×(N0/4)、(M0/2)×(N0/2)、(3M0/4)×(3N0/4)和M0×N0。對于每個小方塊,分別定義一個4維向量XA=(xv,xk,xp,xo)T、XB=(xv,xk,xp,xo)T、XC=(xv,xk,xp,xo)T、XD=(xv,xk,xp,xo)T,表示各自的方塊內各象素的在0°、90°、45°、135°方向上的線素數(shù)量的總和,即XA=Σ(i,j)∈AX(i,j)]]>XB=Σ(i,j)∈BX(i,j)]]>XC=Σ(i,j)∈CX(i,j)]]>XD=Σ(i,j)∈DX(i,j)]]>而整個子區(qū)域的方向線素特征向量XS=(xv,xk,xp,xo)T由該子區(qū)域中各方塊特征向量的加權和來表示,即XS=αAXA+αBXB+αCXC+αDXD其中αA,αB,αC,αD為介于0和1之間的常數(shù),它們刻畫了不同方塊內的特征向量對本子區(qū)域整體特征向量的貢獻的重要程度。這樣,從每個子區(qū)域都可以得到一個4維特征向量后,將所有子區(qū)域的特征向量按順序排列在一起組成的4(2MM0-1)×(2NN0-1)]]>維特征向量,這就是表示該字符的方向線素特征。
3.特征變換特征維數(shù)的增大和訓練樣本的不足,將給分類器參數(shù)估計和識別計算量都帶來很大的問題。根據(jù)一般的分類器設計的經驗,對訓練樣本數(shù)的要求是達到特征維數(shù)的10倍以上。為了減少過高的特征維數(shù)和訓練樣本的相對不足給分類器設計和參數(shù)估計帶來的困難,本發(fā)明利用LDA方法對高維的原始特征進行了壓縮。
設字符類別數(shù)為c(在藏文字符識別中c=592),第ω類字符的訓練樣本數(shù)為Oω,ω=1,2,…,c,則對第該字符類別的訓練樣本采用上述方法提取四方向線素特征后,得到特征向量集合為{X1ω,X2ω,···,XOωω},]]>其中Xkω(k=1,2,…,Oω)是4(2MM0-1)×(2NN0-1)]]>維向量。
首先計算每個字符類ω(1≤ω≤c)特征向量的中心μω和所有字符類的特征向量的中心μμr=1OωΣk=1OωXkω]]>μ=1cΣω=1cμω]]>然后計算類間散度矩陣Sb和平均類內散度矩陣SwSb=1cΣω=1c(μω-μ)(μω-μ)T]]>Sw=1cΣω=1c1OωΣk=1Oω(Xkω-μω)(Xkω-μω)T]]>尋找變換矩陣Φ,使得tr[(ΦTSwΦ)-1(ΦTSbΦ)]達到最大,從而使模式類內散度方差與類間散度方差的比值達到最大以增加各模式類別間的可分性。
用矩陣計算工具計算矩陣Sw-1Sb的前d(d≤4(2MM0-1)×(2NN0-1))]]>個最大的非零本征值ξk(k=1,2,…,d)和相應的本征向量k(k=1,2,…,d), 則LDA變換的變換矩陣Φ=[1,2,…,d]。相應的特征變換為Y=ΦTX,這里Y是最具判別性的d維特征。
4.分類器設計分類器設計是字符識別的核心技術之一,研究者針對不同的問題提出了許多模式分類器。但在多種因素制約下,目前在處理大字符集識別問題時,往往還是選擇最小距離分類器。本發(fā)明采用基于置信度分析的粗、細兩級分類策略(圖13)來完成輸入待識別藏文字符所屬類別的判斷。
4.1粗分類粗分類的目的是在一個大的字符集中快速選出一個數(shù)目相對很小的候選字子集,并保證候選集中包含待識別字符所屬正確類別的概率盡可能大。這就要求粗分類器結構簡單、運算速度快。為此,本發(fā)明設計了一種帶偏差的歐氏距離(EDD)分類器。
令Y=(y1,y2,…,yd)T為輸入未知字符的d維特征向量,Yω=(yω1,yω2,…,yωd)T為第ω類字符的標準特征向量,帶偏差的歐氏距離定義如下D(Y,Yω)=Σk=1d[t(yk,yωk)]2]]>式中 其中,σωk是第ω類字符特征向量的第k個分量的均方差,θω,γω為與ω相關的常數(shù),C為與字符類別無關的常量。上式的一個最重要的特性是在歐氏距離中引入了字符特征的二階統(tǒng)計量,這使得分類器對特征在空間上的分布具有一定的刻畫能力。
4.2細分類貝葉斯分類器是理論上最優(yōu)的統(tǒng)計分類器,在處理實際問題時,人們希望盡量去逼近它。當在字符的特征為高斯分布且各類特征分布的先驗概率相等的條件下,貝葉斯分類器簡化為馬氏距離分類器。但該條件在實際中通常不易滿足,而且馬氏距離分類器的性能隨著協(xié)方差矩陣估計誤差的產生而嚴重劣化。本發(fā)明采用MQDF(修正二次鑒別函數(shù))作為細分類度量,它是馬氏距離的一個變形。MQDF鑒別函數(shù)形式為Q(Y,Yω)=1h2{Σl=1d(yl-yωl)2-Σl=1K(1-h2λωl)[(Y-Yω)Tφωl]2}+ln(h2(d-K)Πl=1Kλωl)]]>其中λωl和φωl分別為第ω類樣本的協(xié)方差矩陣∑ω的第l個特征值和特征向量,K表示所截取的主本征向量的個數(shù),也是模式類的主子空間維數(shù),其最優(yōu)值由實驗確定,h2是對小本征值的實驗估計。MQDF產生的是二次判決曲面,因只需估計每個類別協(xié)方差陣的前K個主本征向量,避免了小本征值估計誤差的負面影響。MQDF鑒別距離可以看作是在K維主子空間內的馬氏距離和剩余的(d-K)維空間內的歐氏距離的加權和,加權因子為1/h2。
4.3置信度計算設粗分類器的輸出候選集為CanSet={(e1,D1),(e2,D2)…,(eL,DL)},k為候選集容量,ek和Dk分別為候選字符和對應的粗分類距離,D1≤D2≤…≤DL。細分類器的作用是根據(jù)重新計算的鑒別距離對CanSet進行再排序,找到輸入字符所屬的最可能的類別。如果粗分類結果的可靠性相當高,換言之,若e1已經為輸入字符的正確分類時,則細分類完全沒必要進行。本發(fā)明對候選集CanSet進行置信度分析以決定是否需要進行細分類,采用EDD輸出的距離作為度量,依下式計算置信度Conf(CanSet)=D2-D1D1]]>當置信度低于一定的閾值ConfTH時,將CanSet送入細分類器處理,否則直接輸出CanSet。本發(fā)明的特征在于,它是一種能夠識別多種字體和多種字號的印刷體藏文字符識別技術。它依次含有以下步驟它首先對輸入的單個藏文字符進行適當?shù)奈恢脷w一化和大小歸一化,以最大限度地消除輸入字符因字號和字體的不同而造成的形狀、姿態(tài)等方面的差異,然后提取能很好反映藏文字符結構特點的四方向線素特征,在此基礎上,利用LDA變換提取最具鑒別性的特征以降低特征維數(shù),把變換后特征送入基于識別置信度分析的粗、細兩級分類器判定字符所屬類別。在由圖像采集設備和計算機組成的系統(tǒng)中,它依次含有以下步驟1.字符樣本的采集掃描輸入印有多字體多字號藏文字符的文本,利用已有算法進行去除噪聲、二值化等必要預處理后,將藏文文本進行切分以分離單個字符,對每個字符的圖像標定其對應的正確的字符的內碼,由此完成用以訓練和測試的藏文字符單字樣本的采集,建立訓練樣本數(shù)據(jù)庫。
2.歸一化處理,包含字符位置和大小的線性歸一化2.1定位單個藏文字符的基線位置設原始字符圖像為[F(i,j)]W×H,其中W為圖像寬度,H為圖像高度,圖像位于第i行第j列的象素點的值為F(i,j),i=1,2,…,H,j=1,2,…,W由下式計算字符圖像的水平投影V(i),i=1,2,…,H
V(i)=Σj=1WF(i,j)]]>則基線的位置PL為PL=argmaxi(V(i)-V(i-1)),i=2,3,···,H]]>2.2以基線為分界點將輸入圖像分離成兩個子圖像[F(i,j)]W×H可以看作兩個子圖像[F1(i,j)]W×H1、[F2(i,j)]W×H2的縱向拼接其中[F1(i,j)]W×H1為基線以上部分,即上元音部分;[F2(i,j)]W×H2為基線以下部分。兩者沒有交疊而是縱向組合在一起合成[F(i,j)]W×H,且H1+H2=H對應的,歸一化后的目標字符圖像[G(i,j)]M×N也可以看作兩個子圖像[G1(i,j)]M×N1、[G2(i,j)]M×N2的縱向拼接其中M為目標圖像的寬度,N為圖像高度。[G1(i,j)]M×N1為基線以上部分圖像,即上元音部分;[G2(i,j)]M×N2為基線以下部分。兩者也沒有交疊而是縱向組合成[G(i,j)]M×N,且設定N1=N/4,N2=3N/4。
2.3位置歸一化參考點Uk(uIk,uJk),k=1,2的選擇[Fk(i,j)]W×Hk,k=1,2重心和外邊框中心分別為Ak(aIk,aJk),k=1,2和Bk(bIk,bJl),k=1,2其中 令Uk(uIk,uJk),k=1,2為介于Ak(aIk,aJk),k=1,2與Bk(bIk,bJk),k=1,2之間的一點,即 其中β為常數(shù)且0≤β≤1。
移動輸入圖像點陣,使該參考點位于目標點陣[Gk(i,j)]M×Nk,k=1,2的幾何中心,從而完成輸入字符的位置歸一化2.4大小歸一化因[Fk(i,j)]W×Hk,k=1,2與[Gk(i,j)]M×Nk,k=1,2之間的關系為Gk(i,j)=Fk(i/ri,j/rj),k=1,2其中ri和rj分別為i和j方向的尺度變換因子ri=Nk/Hk,rj=M/W。故采用三次B樣條函數(shù)進行插值運算,以減少歸一化后字符出現(xiàn)諸如階梯狀邊緣等畸變。對于給定(i,j),令 其中 [·]為取整函數(shù)。插值過程可表示為Gk(i,j)=Fk(p0+Δp,q0+Δq)=Σm=-12Σl=-12Fk(p0+m,q0+l)RB(m-Δp)RB(-(l-Δq))]]>式中的RB(z)為三次B樣條函數(shù)RB(z)=16[(z+2)3W(z+2)-4(z+1)3W(z+1)+6z3W(z)-4(z-1)3W(z-1)]]]>其中W(z)為階躍函數(shù), 3.提取藏文字符的四方向線素特征3.1字符輪廓提取掃描整個字符點陣,對于某個位置的黑象素,根據(jù)它的8鄰域中的象素分布情況決定是否保留該黑象素。這樣,可以得到歸一化后的字符圖像[G(i,j)]M×N的輪廓圖像[G′(i,j)]M×N。
3.2方向線素特征的提取首先,對于字符輪廓點陣[G′(i,j)]M×N中的每一個黑象素(i,j),根據(jù)它與相鄰的另外兩個黑象素的之間的位置關系,賦予它橫(0°)、豎(90°)、撇(45°)、捺(135°)四種線素。并記為一個4維向量X(i,j)=(xv,xk,xp,xo)T。
將整個大小為M×N的字符輪廓圖像[G′(i,j)]M×N均勻劃分為(2MM0-1)×(2NN0-1)]]>個子區(qū)域,每個子區(qū)域又進一步劃分成互相嵌套的、大小依次為(M0/4)×(N0/4)、(M0/2)×(N0/2)、(3M0/4)×(3N0/4)和M0×N0的A、B、C、D等4個小方塊。每個上小方塊的特征向量XA=(xv,xk,xp,xo)T、XB=(xv,xk,xp,xo)T、XC=(xv,xk,xp,xo)T、XD=(xv,xk,xp,xo)T表示為該方塊內所有黑象素特征向量的和XA=Σ(i,j)∈AX(i,j)]]>XB=Σ(i,j)∈BX(i,j)]]>XC=Σ(i,j)∈CX(i,j)]]>XD=Σ(i,j)∈DX(i,j)]]>整個子區(qū)域的方向線素特征向量XS=(xv,xk,xp,xo)T由該子區(qū)域中各方塊特征向量的加權和來表示XS=αAXA+αBXB+αCXC+αDXD這樣,從每個子區(qū)域都可以得到一個4維特征向量后,將所有子區(qū)域的特征向量按順序排列在一起組成的表示輸入字符的4(2MM0-1)×(2NN0-1)]]>維方向線素特征向量。
4.特征變換設字符類別數(shù)為c,第ω類字符的訓練樣本數(shù)為Oω,ω=1,2,…,c,則對第該字符類別的訓練樣本采用上述方法提取四方向線素特征后,得到特征向量集合為{X1ω,X2ω,···,XOωω},]]>其中Xkω(k=1,2,…,Oω)是4(2MM0-1)×(2NN0-1)]]>維向量。
利用LDA變換對原始特征壓縮如下首先計算每個字符類ω(1≤ω≤c)特征向量的中心μω、所有字符類的特征向量的中心μ、類間散度矩陣Sb和平均類內散度矩陣Swμr=1OωΣk=1OωXkω]]>μ=1cΣω=1cμω]]>
Sb=1cΣω=1c(μω-μ)(μω-μ)T]]>Sw=1cΣω=1c1OωΣk=1Oω(Xkω-μω)(Xkω-μω)T]]>尋找變換矩陣Φ,使得tr(ΦTSwΦ)-1(ΦTSbΦ)]達到最大,則LDA相應的特征變換為Y=ΦTX,這里Y是最具判別性的d維特征。
5.對輸入字符所屬類別的判斷,即對未知類別的字符圖像,提取特征,與識別庫中已有的數(shù)據(jù)進行比較,以確定其正確的字符代碼。
5.1設計分類器對由LDA壓縮得到的特征向量Y,計算各字符的均值向量Yω‾(ω=1,2,···,c)]]>和各字符的特征向量在每一維上的方差σsω(ω=1,2,…,c,s=1,2,…,d),d為Y的維數(shù),Yω‾=1OωΣk=1OωYkω,]]>σsω=1OωΣk=1Oω(yωks-yω‾s)2]]>其中每個藏文字符類別ω(1≤ω≤c)的特征集合為{Y1ω,Y2ω,···,YOωω},]]>將各字符的鑒別特征均值向量和各維的方差存入鑒別特征數(shù)據(jù)庫文件中,同時將通過實驗得到的分類器的參數(shù)存入庫文件中。
5.2分類判決對未知類別的輸入字符圖像,首先進行位置歸一化和大小歸一化處理,再提取四方向線素特征X,利用LDA線性變換矩陣Φ將原始方向線素特征X變換成Y=ΦTX=(y1,y2,…,yd)T,d是變換后特征的維數(shù)。
從庫文件中讀取所有字符類的均值向量Yω‾=(y1ω‾,y2ω‾,···ydω‾)T,]]>(ω=1,2,…,c)和各字符類的各維的方差σsω(ω=1,2,…,c,s=1,2,…,d)。計算Y到 的帶偏差的歐氏距離 D(Y,Yω‾)=Σs=1d[t(ys,yωs‾)]2]]>其中
將所有經過計算的 ω=1,2,…,c按照由小到大的順序重新排序,選出前L(1≤L≤c)個距離及其所代表的字符類別碼ek,k=1,2,…,L組成粗分類候選集CanSet={(e1,D1),(e2,D2)…,(eL,DL)},D1≤D2≤…≤DL。
計算CanSet中首字符的識別置信度Conf(CanSet)Conf(CanSet)=D2-D1D1]]>若Conf(CanSet)高于一定的閾值ConfTH,直接將(e1,D1)作為輸入字符的識別結果輸出,即認為輸入字符屬于e1所對應的字符類別,且識別距離是D1。否則,計算Y到CanSet中各內碼所對應的字符類別的MQDF鑒別距離 ω=1,2,…,LQ(Y,Yω‾)=1h2{Σl=1d(yl-yωl‾)2-Σl=1K(1-h2λωl)[(Y-Yω‾)Tφωl]2}+ln(h2(d-K)Πl=1Kλωl)]]>若Q(Y.Yτ‾)=min1≤ω≤LQ(Y,Yω‾),]]>則該輸入字符屬于eτ所對應的字符類別,即τ=argmin1≤ω≤LQ(Y,Yω‾).]]>實驗證明,本發(fā)明在多字體多字號印刷體藏文單字測試集上的識別正確率達到99.83%,對實際文本的識別率也可達99%以上。


圖1一個典型的藏文字符識別系統(tǒng)的硬件構成。
圖2藏文單字樣本的生成。
圖3藏文字符識別系統(tǒng)的構成。
圖4采用的圖像坐標系示意。
圖5字符歸一化流程圖6字符歸一化示例圖7方向線素特征提取流程。
圖8歸一化后字符及其輪廓。
圖9四方向線素特征中的橫、豎、撇、捺四種方向屬性。
圖10圖像子區(qū)域的劃分方法。
圖11構成子區(qū)域的小方塊示意。
圖12LDA特征變換流程圖。
圖13分類策略圖14基于本算法的多字體多字號印刷藏文字符識別系統(tǒng)。
圖15多字體印刷藏文(混排漢英)文檔識別系統(tǒng)具體實施方式
如圖1所示,一個印刷體藏文字符識別系統(tǒng)在硬件上由兩部分構成圖像采集設備和計算機。圖像采集設備一般是掃描儀,用來獲取藏文字符的數(shù)字圖像。計算機用于對數(shù)字圖像進行處理,并進行判決分類。
圖2所示的是訓練藏文單字樣本和測試藏文單字樣本的生成過程。對于一篇印刷體藏文樣張,首先通過掃描儀將其掃入計算機,使之變?yōu)閿?shù)字圖像。對數(shù)字圖像二值化、去除噪聲等預處理措施,得到二值化的圖像。再對輸入圖像進行行切分,得到文本行,在此基礎上對每一個文本行進行字切分,得到單個藏文字符,然后標定每個字符圖像所屬的字符類別。此后,要進行一次檢查,對行、字切分階段和字符類別標定階段產生的錯誤采用手動方式改正。最后,將相同的字符類別對應的原始字符圖像提取出來,并保存,完成藏文單字樣本的采集。
如圖3所示,印刷體藏文字符識別算法分為兩個部分訓練系統(tǒng)和測試系統(tǒng)。訓練系統(tǒng)中,對輸入的藏文單字訓練樣本集中的每一個樣本,恰當?shù)剡M行歸一化處理,提取反映其組成信息的四方向線素特征,利用LDA對特征進行變換,降低原始特征維數(shù),然后,采用合適的分類器,訓練分類器,得到特征庫文件。在測試系統(tǒng)中,對輸入的未知類別字符圖像,采用和訓練系統(tǒng)同樣的歸一化和特征提取方法,并用訓練系統(tǒng)得到的變換矩陣對特征進行變換,然后送入分類器進行分類,判斷輸入字符所屬的類別。
因而,實用的多字體多字號印刷體藏文字符識別系統(tǒng)的實現(xiàn)需要考慮如下幾個方面A)藏文字符單字樣本的獲??;B)訓練系統(tǒng)的實現(xiàn);C)測試系統(tǒng)的實現(xiàn)。
下面分別對這三個方面進行詳細介紹。
A)藏文字符單字本的獲取印刷體藏文單字樣本的獲取過程如圖2所示。輸入的一篇紙質印刷體藏文文檔通過掃描儀得到數(shù)字圖像,輸入計算機。然后對該圖像進行噪聲去除、二值化等預處理措施。利用各種慮波方法去除噪聲在現(xiàn)有文獻中已經有大量記載。二值化方法可采用已有的全局二值化或局部自適應二值化。接著對文檔進行版面分析,得到字符區(qū)域。對字符區(qū)域分別利用水平投影直方圖和垂直投影直方圖進行行切分和字切分得到單個字符。在此階段的切分錯誤采用手動的方式進行更正。對得到的單個藏文字符的類別進行標定,一般采用計算機自動標定,對其中的錯誤進行人工處理(更該、刪除等)。最后,把具有相同內碼的字符所對應的不同字體、不同字號的原始字符圖像保存起來,就得到了多字體多字號印刷體藏文單字樣本。
B)訓練系統(tǒng)的實現(xiàn)B.1字符歸一化B.1.1位置歸一化設原始字符圖像為[F(i,j)]W×H,圖像寬度為W,高度為H,圖像位于第i行第j列的象素點的值為F(i,j),i=1,2,…,H,j=1,2,…,W。[F(i,j)]W×H可以看作由兩個子圖像——基線以上部分[F1(i,j)]W×H1和基線以下部分[F2(i,j)]W×H2的縱向拼接而成,H1+H2=H。設字符圖像的水平投影為V(i),i=1,2,…,H,可由下式計算V(i)=Σj=1WF(i,j)]]>則基線所在位置的縱坐標值PI為PI=argmaxi(V(i)-V(i-1)),i=2,3,···,H]]>根據(jù)PI和字符頂部的縱坐標的值就可以確定H1,而在本發(fā)明所采用的坐標系(圖4)中,H1在數(shù)值上等于PI。
設歸一化后字符圖像為[G(i,j)]M×N,圖像寬度為M,高度為N,圖像位于第i行第j列的象素點的值為G(i,j),i=1,2,…,N,j=1,2,…,M。同樣的,[G(i,j)]M×N也可以看作兩個子圖像——基線以上部分[G1(i,j)]M×N1和基線以下部分[G2(i,j)]M×N2的縱向拼接而成,此處設定N1=N/4,N2=3N/4。這樣,歸一化可以看成是將輸入圖像點陣[F1(i,j)]W×H1、[F2(i,j)]W×H2分別映射成目標圖像點陣[G1(i,j)]M×N1、[G2(i,j)]M×N2的處理過程。在此過程中,選定輸入圖像點陣[Fk(i,j)]W×Hk,k=1,2中的參考點Uk(uIk,uJk),k=1,2,移動輸入圖像點陣,使該參考點,位于目標點陣[Gk(i,j)]M×Nk,k=1,2的中心,從而完成輸入字符的位置歸一化。
令[Fk(i,j)]W×Hk,k=1,2重心和外邊框幾何的中心分別為Ak(aIk,aJk),k=1,2和Bk(bIk,bJk),k=1,2,則有 令Uk(uIk,uJk),k=1,2為介于Ak(aIk,aJk),k=1,2與Bk(bIk,bJk),k=1,2之間的一點,即 其中β為常數(shù)且0≤β≤1。
B.1.2大小歸一化考察輸入字符圖像[Fk(i,j)]W×Hk,k=1,2與歸一化后目標字符點陣為[Gk(i,j)]M×Nk,k=1,2之間的關系可知Gk(i,j)=Fk(i/ri,j/rj),k=1,2其中ri和rj分別為i和j方向的尺度變換因子ri=Nk/Hk,rj=M/W。根據(jù)上式,輸出圖像點陣中的點(i,j)對應于輸入字符中的點(i/ri,j/rj)。Fk(i,j)為離散函數(shù),而i/ri、j/rj的取值一般不為整數(shù),故需要根據(jù)Fk中已知的離散點處的值來估計其在(i/ri,j/rj)處的取值。采用三次B樣條函數(shù)進行插值運算,以減少歸一化后字符出現(xiàn)畸變。對于給定(i,j),令 其中 [·]為取整函數(shù)。插值過程可表示為
Gk(i,j)=Fk(p0+Δp,q0+Δq)=Σm=-12Σl=-12Fk(p0+m,q0+l)RB(m-Δp)RB(-(l-Δq))]]>式中的RB(z)為三次B樣條函數(shù)RB(z)=16[(z+2)3W(z+2)-4(z+1)3W(z+1)+6z3W(z)-4(z-1)3W(z-1)]]]>其中W(z)為階躍函數(shù), B.2方向線素特征提取B.2.1取字符的輪廓掃描整個字符點陣,對于某個位置的黑象素,如果它的8鄰域中黑象素個數(shù)和白象素個數(shù)均大于0,則保留該黑象素,否則將字符點陣在該位置的值改為0。這樣,可以從歸一化后的字符圖像[G(i,j)]M×N的輪廓圖像[G′(i,j)]M×N。
B.2.2分塊和特征矢量的構成對于字符輪廓點陣[G′(i,j)]M×N中的每一個黑象素,根據(jù)它與相鄰的另外兩個黑象素的位置關系,賦予它橫(0°)、豎(90°)、撇(45°)、捺(135°)四種線素??紤]兩種情況一種是3個黑象素在同一直線上,則只給該中心象素分配一種線素特征并且賦值為2;另一種3個黑象素不在同一直線上,那么就同時給中心象素分配兩種線素特征并分別賦值為1。按照這些原則對字符點陣中的各黑象素的進行線素特征的分配,對每個黑象素點(i,j),都可以得到一個4維向量X(i,j)=(xv,xk,xp,xo)T,其分量分別表示該黑象素點處的4種線素數(shù)量。
完成上述工作以后,將M×N的點陣均勻劃分成寬為M0、高為N0的子區(qū)域,每個子區(qū)域跟相鄰的子區(qū)域之間在水平方向有M0/2、在垂直方向上有N0/2個象素的重合,故子區(qū)域的總個數(shù)為(2MM0-1)×(2NN0-1)]]>然后,將每個子區(qū)域劃分成互相嵌套、大小依次為(M0/4)×(N0/4)、(M0/2)×(N0/2)、(3M0/4)×(3N0/4)和M0×N0的A、B、C、D等4個小方塊。對每個小方塊,分別定義一個4維向量XA=(xv,xk,xp,xo)T、XB=(xv,xk,xp,xo)T、XC=(xv,xk,xp,xo)T、XD=(xv,xk,xp,xo)T,它們表示各自方塊內各象素的0°、90°、45°、135°方向線素數(shù)量的總和,即
XA=Σ(i,j)∈AX(i,j)]]>XB=Σ(i,j)∈BX(i,j)]]>XC=Σ(i,j)∈CX(i,j)]]>XD=Σ(i,j)∈DX(i,j)]]>而整個子區(qū)域的方向線素特征向量XS=(xv,xk,xp,xo)T表示為該子區(qū)域中各方塊特征向量的加權和,即XS=αAXA+αBXB+αCXC+αDXD其中αA,αB,αC,αD為介于0和1之間的常數(shù),它們刻畫了不同方塊內的特征向量對本子區(qū)域總體特征向量的貢獻的重要程度。這樣,從每個子區(qū)域都可以得到一個4維特征向量后,將所有子區(qū)域的特征向量按順序排列在一起組成的4(2MM0-1)×(2NN0-1)]]>維方向線素特征向量。
B.3特征變換設字符類別數(shù)為c(在藏文字符識別中c=592),第ω類字符的訓練樣本數(shù)為Oω,ω=1,2,…,c,原始方向線素特征向量集合為{X1ω,X2ω,···,XOωω},]]>其中Xkω(k=1,2,…,Oω)是4(2MM0-1)×(2NN0-1)]]>維向量。
首先計算每個字符類ω(1≤ω≤c)特征向量的中心μω、所有字符類的特征向量的中心μ、類間散度矩陣Sb和平均類內散度矩陣Swμr=1OωΣk=1OωXkω]]>μ=1cΣω=1cμω]]>Sb=1cΣω=1c(μω-μ)(μω-μ)T]]>Sw=1cΣω=1c1OωΣk=1Oω(Xkω-μω)(Xkω-μω)T]]>
尋找變換矩陣Φ,使得tr[(ΦTSwΦ)-1(ΦTSbΦ)]達到最大,從而使模式類內散度方差與類間散度方差的比值達到最大以增加各模式類別間的可分性。
用矩陣計算工具計算矩陣Sw-1Sb的前d(d≤4(2MM0-1)×(2NN0-1))]]>個最大的非零本征值ξk(k=1,2,…,d)和相應的本征向量k(k=1,2,…,d), 則LDA變換的變換矩陣Φ=[1,2,…,d]。相應的特征變換為Y=ΦTX,這里Y是最具判別性的d維特征。
B.4設計分類器對經LDA變換得到特征向量Y,計算各字符的均值向量Yω‾(ω=1,2,···,c)]]>和各字符的特征向量在每一維上的方差σsω(ω=1,2,…,c,s=1,2,…,d),d為Y的維數(shù),Yω‾=1OωΣk=1OωYkω,]]>σsω=1OωΣk=1Oω(yωks-yω‾s)2]]>其中每個藏文字符類別ω(1≤ω≤c)的最具可分性的特征集合為{Y1ω,Y2ω,···,YOωω},]]>將各字符的鑒別特征均值向量和各維上的方差存入鑒別特征數(shù)據(jù)庫文件中,同時將通過實驗調整分類器的各相關參數(shù)的值并存入庫文件中。這樣就完成了分類器的設計和訓練。
C)測試系統(tǒng)的實現(xiàn)對未知類別的輸入字符圖像,首先進行位置歸一化和大小歸一化處理,再提取四方向線素特征X,利用LDA線性變換矩陣Φ將原始方向線素特征X變換成Y=ΦTX=(y1,y2,…,yd)T,d是變換后特征的維數(shù)。
從庫文件中讀取所有字符類的均值向量Yω‾=(y1ω‾,y2ω‾,···ydω‾)T,]]>(ω=1,2,…,c)和各字符類的各維的方差σsω(ω=1,2,…,c,s=1,2,…,d)。計算Y到 的帶偏差的歐氏距離 D(Y,Yω‾)=Σs=1d[t(ys,yωs‾)]2]]>其中
將所有經過計算的 ω=1,2,…,c按照由小到大的順序重新排序,選出前L(1≤L≤c)個距離及其所代表的字符類別碼ek,k=1,2,…,L組成粗分類候選集CanSet={(e1,D1),(e2,D2)…,(eL,DL)},D1≤D2≤…≤DL。
計算CanSet中首字符的識別置信度Conf(CanSet)Conf(CanSet)=D2-D1D1]]>若Conf(CanSet)高于一定的閾值ConfTH,直接將(e1,D1)作為輸入字符的識別結果輸出,即認為輸入字符屬于e1所對應的字符類別,且識別距離是D1。否則,計算Y到CanSet中各內碼所對應的字符類別的MQDF鑒別距離 ω=1,2,…,LQ(Y,Yω‾)=1h2{Σl=1d(y1-yωl‾)2-Σl=1K(1-h2λωl)[(Y-Yω‾)Tφωl]2}+ln(h2(d-K)Πl=1Kλωl)]]>若Q(Y,Yτ‾)=min1≤ω≤LQ(Y,Yω‾),]]>則該輸入字符屬于eτ所對應的字符類別,即τ=argmin1≤ω≤LQ(Y,Yω‾).]]>以下給出兩個具體的實現(xiàn)例子。
實施例1多字體多字號印刷體藏文字符識別系統(tǒng)基于本發(fā)明的多字體多字號印刷體藏文字符識別系統(tǒng)如圖14a所示,實驗在收集到的1200套印刷體藏文文檔(每個文檔包涵全部592個現(xiàn)代藏文字符)上進行的,這些樣本文檔大部分采自當今主要的印刷藏文出版系統(tǒng)(方正、華光),也有少量由TureType字體直接打印形成。字體不僅有最常用的白體、黑體和通用體,還包括圓體、長體、竹體,字號從六號到初號。樣本質量不等,正常、斷裂、粘連字符的比例約為2∶1∶1。經過掃描輸入、行、字切分和內碼標定等過程,將這1200套藏文文檔轉換為1200套單字樣本(即每個字符類別有1200個單字樣本),從中隨機抽出900套組成訓練集,其余300套留作測試樣本。
實驗中,采用本發(fā)明的方法將每個藏文字符歸一化為48×96的點陣,歸一化參數(shù)β=0.5。四方向線素特征提取中子區(qū)域的如圖10所示方式劃分,取M0=N0=16,子區(qū)域中各方塊的特征向量對整個子區(qū)域特征向量的加權系數(shù)αA,αB,αC,αD分別為0.4,0.3,0.2,0.1。按照圖7所示的流程提取方向線素特征后,采用LDA線性變換進行特征壓縮,變換后特征維數(shù)d選定為128(圖14c)。粗分類器EDD中的參數(shù)θ1=θ2=…=θ592=0.8,γ1=γ2=…=γ592=2.2,C=20,粗分類置信度分析時采用閾值ConfTH=0.9,細分類器MQDF中的參數(shù)K=32(圖14b),h2用各字符類的協(xié)方差陣的第K個本征值的均值作為估計值。在測試集上的實驗結果如表1所示表1系統(tǒng)在六種藏文字體測試樣本集上的識別率

從表1可見,多字體多字號藏文字符的平均識別正確率達到99.83%,表明本發(fā)明所提的方法的有效性。
實施例2多字體印刷藏文(混排漢英)文檔識別系統(tǒng)多字體印刷藏文(混排漢英)文檔識別系統(tǒng)的研究是為適應藏族地區(qū)辦公自動化和促進中文多文種信息處理技術發(fā)展的需求而展開的,它的系統(tǒng)框圖如圖15所示。主要包括圖像輸入和預處理子系統(tǒng)、行字切分子系統(tǒng)、字符識別子系統(tǒng)和后處理子系統(tǒng)。本發(fā)明是字符識別子系統(tǒng)的主要組成部分,在漢字和英文識別核心的配合下對藏文占主體、夾雜一定漢字和英文、數(shù)字、符號的多字體印刷文檔進行自動識別,將文檔圖像轉換為計算機可“閱讀”的文本。
在該系統(tǒng)中的藏文字符識別部分采用本發(fā)明提出的方法,具體參數(shù)與實施例1一致,移植了實施例1中的字符特征庫。該系統(tǒng)于2003年11月通過了教育部主持的專家鑒定。在鑒定測試時,從由西北民族大學提供的500余頁,共52萬余字的實際印刷體藏文文檔(采自書籍、報刊、雜志等出版物)中隨機選出62頁,共95583個字符進行了測試,結果如下表2多字體印刷藏文(混排漢英)文檔識別系統(tǒng)的測試性能


注ACE為可判斷的識別錯誤率 ASE為可判斷的切分錯誤率 UTE為不可判斷錯誤類型的錯誤率該結果表明,本發(fā)明提出的多字體多字號印刷體藏文字符識別完全適應實際應用的需要,能夠獲得良好的識別性能,具有廣泛的應用前景。
權利要求
1.多字體多字號印刷體藏文字符識別方法,其特征在于,提出了針對屬于非方塊字的印刷體藏文字符特點的歸一化方案將字符圖像以基線,即上平線,為分界點分解成互不交疊的兩個子圖像,對每個子圖像分別采用以重心和邊框相結合的位置歸一化和基于三次B樣條函數(shù)插值的大小歸一化方法;提取能充分反映藏文字符組成信息的四方向線素特征,利用線性鑒別分析LDA壓縮降維后得到緊湊的字符特征向量;采用基于置信度分析的粗、細兩級分類策略進行字符類別的判決,粗、細分類器分別采用帶偏差的歐氏距離EDD和修正的二次鑒別函數(shù)MQDF;在由圖像采集設備和計算機組成的系統(tǒng)中,它依次含有以下步驟(1)設定(1.1)本發(fā)明處理的藏文字符類別總數(shù)c=592;(1.2)歸一化后字符寬度M、高度N;位置歸一化參數(shù)β;(1.3)提取方向線素特征時,劃分的子區(qū)域寬度M0、高度N0;子區(qū)域中各方塊的特征向量對整個子區(qū)域特征向量的加權系數(shù)αA,αB,αC,αD;(1.4)粗分類器EDD中的參數(shù)C,θk,γk,其中k=1,2,…,592;(1.5)置信度閾值ConfTH;(2)字符樣本的采集通過掃描儀向計算機輸入印有多字體多字號藏文字符的文本,利用已有方法進行除噪聲、二值化等必要預處理后,將藏文文本進行切分以分離單個字符,對每個字符的圖像標定其對應的正確的字符的內碼,由此完成用以訓練和測試的藏文字符單字樣本的采集,建立訓練樣本數(shù)據(jù)庫;(3)歸一化處理,包含字符位置和大小的歸一化(3.1)定位單個藏文字符的基線位置設原始字符圖像為[F(i,j)]W×H,其中W為圖像寬度,H為圖像高度,圖像位于第i行第j列的象素點的值為F(i,j),i=1,2,…,H,j=1,2,…,W,計算字符圖像的水平投影V(i),i=1,2,…,H為V(i)=Σj=1wF(i,j),]]>則基線所在位置的縱坐標值P1為PI=argmaxi(V(i)-V(i-1)),i=2,3,···,H;]]>(3.2)以基線為分界點將輸入圖像分離成兩個子圖像[F(i,j)W×H可以看作兩個子圖像 的縱向拼接,其中 為基線以上部分,即上元音部分; 為基線以下部分,兩者沒有交疊而是縱向組合在一起合成[F(i,j)]W×H,且H1+H2=H,由P1和字符頂部的縱坐標的差值可確定出H1的大??;對應的,歸一化后的目標字符圖像[G(i,j)]M×N也可以看作兩個子圖像 的縱向拼接,其中M為目標圖像的寬度,N為圖像高度; 為基線以上部分圖像,即上元音部分; 為基線以下部分;兩者也沒有交疊而是縱向組合成[G(i,j)]M×N,且設定N1=N/4,N2=3N/4;(3.3)位置歸一化參考點Uk(uIk,uJk),k=1,2的選擇[Fk(i,j)]W×Hk,k=1,2]]>重心和外邊框中心分別為Ak(αIk,αJk),k=1,2和Bk(bIk,bJk),k=1,2其中 則Uk(uIk,uJk),k=1,2取介于Ak(aIk,aJk),k=1,2與Bk(bIk,bJk),k=1,2之間的一點,即 其中β為常數(shù)且0≤β≤1;移動輸入圖像點陣,使該參考點,位于目標點陣[Gk(i,j)]M×Nk,k=1,2]]>的幾何中心,從而完成輸入字符的位置歸一化;(3.4)大小歸一化因[Fk(i,j)]W×Hk,k=1,2]]>與[Gk(i,j)]M×Nk,k=1,2]]>之間的關系為Gk(i,j)=Fk(i/ri,j/rj),k=1,2,其中ri和rj分別為i和j方向的尺度變換因子ri=Nk/Hk,rj=M/W;采用三次B樣條函數(shù)進行插值運算;對于給定(i,j),令 其中 [·]為取整函數(shù);插值過程可表示為Gk(i,j)=Fk(p0+Δp,q0+Δq)=Σm=-12Σl=-12Fk(p0+m,q0+l)RB(m-Δp)RB(-(l-Δq)),]]>式中的RB(z)為三次B樣條函數(shù)RB(z)=16[(z+2)3W(z+2)-4(z+1)3W(z+1)+6z3W(z)-4(z-1)3W(z-1)],]]>其中W(z)為階躍函數(shù), (4)提取藏文字符的四方向線素特征(4.1)字符輪廓提取掃描整個字符點陣,對于某個位置的黑象素,若它的8鄰域中的黑象素和背景象素的個數(shù)均大于0,則保留該黑象素,否則,將該黑象素設為背景象素;這樣,得到歸一化后的字符圖像[G(i,j)M×N的輪廓圖像[G′(i,j)M×N;(4.2)方向線素特征的形成首先,對于字符輪廓點陣[G′(i,j)]M×N中的每一個黑象素(i,j),根據(jù)它與相鄰的另外兩個黑象素的之間的位置關系,賦予它橫、豎、撇、捺四種線素,并記為一個4維向量X(i,j)=(xv,xk,xp,xo)T;將整個大小為M×N的字符輪廓圖像[G′(i,j)]M×N均勻劃分為(2MM0-1)×(2NN0-1)]]>個寬度為M0、高度為N0的子區(qū)域,每個子區(qū)域又進一步劃分成互相嵌套的、大小依次為(M0/4)×(N0/4)、(M0/2)×(N0/2)、(3M0/4)×(3N0/4)和M0×N0的A、B、C、D等4個小方塊;每個上小方塊的特征向量XA=(xv,xk,xp,xo)T、XB=(xv,xk,xp,xo)T、XC=(xv,xk,xp,xo)T、XD=(xv,xk,xp,xo)T表示為該方塊內所有黑象素特征向量的和XA=Σ(i,j)∈AX(i,j),]]>XB=Σ(i,j)∈BX(i,j),]]>XC=Σ(i,j)∈CX(i,j),]]>XD=Σ(i,j)∈DX(i,j),]]>整個子區(qū)域的方向線素特征向量XS=(xv,xk,xp,xo)T由該子區(qū)域中各方塊特征向量的加權和來表示XS=αAXA+αBXB+αCXC+αDXD,其中αA,αB,αC,αD為介于0和1之間的常數(shù);這樣,從每個子區(qū)域都可以得到一個4維特征向量后,將所有子區(qū)域的特征向量按順序排列在一起組成的表示輸入字符的4(2MM0-1)×(2NN0-1)]]>維原始方向線素特征向量;(5)特征變換設藏文字符類別數(shù)為c,第ω類字符的訓練樣本數(shù)為Oω,ω=1,2,…,c,則對該字符類別的訓練樣本采用上述方法提取四方向線素特征后,得到特征向量集合為{X1ω,X2ω,…,XOωω},其中Xkω(k=1,2,…,Oω)是4(2MM0-1)×(2NN0-1)]]>維向量;利用LDA變換對原始特征壓縮如下首先計算每個字符類ω(1≤ω≤c)特征向量的中心μω、所有字符類的特征向量的中心μ、類間散度矩陣Sb和平均類內散度矩陣Swμr=1OωΣk=1OωXkω,]]>μ=1cΣω=1cμω,]]>Sb=1cΣω=1c(μω-μ)(μω-μ)T,]]>Sw=1cΣω=1c1OωΣk=1Oω(Xkω-μω)(Xkω-μω)T,]]>尋找變換矩陣Φ,使得tr[(ΦTSwΦ)-1(ΦTSbΦ)]達到最大,則LDA相應的特征變換為Y=ΦTX,這里Y是最具判別性的d維特征;(6)對輸入字符所屬類別的判斷,即對未知類別的字符圖像,提取特征,與識別庫中已有的數(shù)據(jù)進行比較,以確定其正確的字符代碼;(6.1)設計分類器對由LDA壓縮得到的特征向量Y,計算各字符的均值向量Yω‾(ω=1,2,···,c)]]>和各字符的特征向量在每一維上的方差σsω(ω=1,2,…,c,s=1,2,…,d),d為Y的維數(shù),Yω‾=1OωΣk=1OωYkω,]]>σsω=1OωΣk=1Oω(yωks-yω‾s)2,]]>其中每個藏文字符類別ω(1≤ω≤c)的特征集合為 將各字符的鑒別特征均值向量和各維的方差存入鑒別特征數(shù)據(jù)庫文件中,同時將通過實驗得到的分類器的參數(shù)存入庫文件中;(6.2)分類判決對未知類別的輸入字符圖像,首先進行位置歸一化和大小歸一化處理,再提取四方向線素特征X,利用LDA線性變換矩陣Φ將原始方向線素特征X變換成Y=ΦTX=(y1,y2,…,yd)T,d是變換后特征的維數(shù);從庫文件中讀取所有字符類的均值向量Yω‾=(y1ω‾,y2ω‾,···ydω‾)T(ω=1,2,···,c)]]>和各字符類的各維的方差σsω(ω=1,2,…,c,s=1,2,…,d),計算Y到 的帶偏差的歐氏距離D(Y,Yω‾):]]>D(Y,Yω‾)=Σs=1d[t(ys,yωs‾)]2,]]>其中 將所有經過計算的D(Y,Yω‾),ω=1,2,···,]]>按照由小到大的順序重新排序,選出前L(1≤L≤c)個距離及其所代表的字符類別碼ek,k=1,2,…,L組成粗分類候選集CanSet={(e1,D1),(e2,D2)…,(eL,DL)},D1≤D2≤…≤DL;計算CanSet中首字符的識別置信度Conf(CanSet)Conf(CanSet)=D2-D1D1,]]>若Conf(CanSet)高于一定的閾值ConfTH,直接將(e1,D1)作為輸入字符的識別結果輸出,即認為輸入字符屬于e1所對應的字符類別,且識別距離是D1;否則,計算Y到CanSet中各內碼所對應的字符類別的MQDF鑒別距離Q(Y,Yω‾),ω=1,2,···,L:]]>Q(Y,Yω‾)=1h2{Σl=1d(yl-yωl‾)2-Σl=1K(1-h2λωl)[(Y-Yω‾)Tφωl]2}+ln(h2(d-K)Πl=1Kλωl),]]>若Q(Y,Yτ‾)=min1≤ω≤LQ(Y,Yω‾),]]>則該輸入字符屬于eτ所對應的字符類別,即τ=argmin1≤ω≤LQ(Y,Yω‾).]]>
全文摘要
多字體多字號印刷體藏文字符識別方法屬于字符識別領域,其特征在于,提出了針對屬于非方塊字的印刷體藏文字符特點的歸一化方案將字符圖像以基線,即上平線,為分界點分解成互不交疊的兩個子圖像,對每個子圖像分別采用以重心和邊框相結合的位置歸一化和基于三次B樣條函數(shù)插值的大小歸一化方法;提取能充分反映藏文字符組成信息的四方向線素特征,利用線性鑒別分析LDA壓縮降維后得到緊湊的字符特征向量。采用基于置信度分析的粗、細兩級分類策略進行字符類別的判決,粗、細分類器分別采用帶偏差的歐氏距離EDD和修正的二次鑒別函數(shù)MQDF。本發(fā)明在多字體多字號印刷體藏文單字測試集上的識別正確率達到99.83%,對實際文本的識別率也可達99%以上。
文檔編號G06K9/54GK1570958SQ20041003410
公開日2005年1月26日 申請日期2004年4月23日 優(yōu)先權日2004年4月23日
發(fā)明者丁曉青, 王 華, 劉長松, 彭良瑞, 方馳 申請人:清華大學
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
读书| 永靖县| 高台县| 安阳市| 当涂县| 佛坪县| 浪卡子县| 枣强县| 乡城县| 陇西县| 雷波县| 肇东市| 汽车| 平利县| 田阳县| 二手房| 进贤县| 新巴尔虎左旗| 临澧县| 错那县| 丰镇市| 仁怀市| 临沧市| 渝北区| 翼城县| 方正县| 辽源市| 新宁县| 保亭| 攀枝花市| 溧水县| 阳城县| 马山县| 霍州市| 虹口区| 六枝特区| 阿鲁科尔沁旗| 从江县| 勃利县| 南涧| 柳江县|