專利名稱:基于貝葉斯分類器的文字字體判斷設(shè)備及其方法
技術(shù)領(lǐng)域:
本發(fā)明涉及漢字自動識別技術(shù)領(lǐng)域,特別涉及待識別文字污染嚴重的情況下,手寫體和印刷體漢字判別的設(shè)備和方法。該設(shè)備適用于對識別精度要求嚴格的文字識別系統(tǒng)中,如銀行支票識別系統(tǒng)、信函地址識別系統(tǒng)、表格識別系統(tǒng)等。
由于字體判斷的重要性,目前國內(nèi)外已經(jīng)開展了多年的研究,也提出了許多方法①基于聚類的模板匹配方法(J.Hochberg,P.Kelly,T.Thomas,L.Kerms,1997-IEEE PAMI,Automatic Script Identification From Document Images UsingCluster-Based Templates);②基于旋轉(zhuǎn)不變性紋理特征的字體判別(T.N.Tan,1998-IEEE PAMI,Rotation Invariant Texture Features and Their Use inAutomatic Script Identification);③基于文字印刷特征的字體識別方法(A.Zramdini,R.Ingold,1998-IEEE PAMI,Optical Font Recognition UsingTypographical Features);④基于全局紋理分析的字體判別(Y.Zhu,T.N.Tan,Y.H.Wang,2001-IEEE PAMI,F(xiàn)ont Recognition Based on Global TextureAnalysis);⑤基于梯度矢量、灰度直方圖和神經(jīng)網(wǎng)絡(luò)的日文手寫體和印刷體字體判斷(S.Imade,S.Tatsuta,1993-Proc.2nd Intl.Conf,Segmentation andclassification for mixed text/image documents using neural network);⑥基于方向特征、對稱特征和神經(jīng)網(wǎng)絡(luò)的英文手寫體和印刷體字體判斷(K.Kuhnke,1995-Int.Conf.Document Analysis and Recognition2,A system for machine-written andhand-written character distinction),⑦基于文字塊版面方差空間特征的繁體漢字手寫體和印刷體字體判斷(K.C.Fan,L.S.Wang,Y.T.Tu,1997-Pattern Recognition,Classification of of machine-printed and handwritten texts using character block layoutvariance)。
雖然以上這些方法都用于字體判別,但它們也有所不同。①~④方法主要用于判別印刷體文字的不同字體;⑤~⑦雖然專門用于手寫體和印刷體字體判斷,但它們針對的語言文字分別為日文、英文和繁體漢字。目前還未發(fā)現(xiàn)針對簡體漢字的手寫體和印刷體字體判斷的文章和專利。另外,雖然上述方法都各有特色,但是它們也存在如下的共同缺點 都是針對無污染的干凈文字圖像的處理方法,都需要很多文字,如一段文字,來判別字體,需要較多的人工設(shè)定參數(shù)和依賴人的經(jīng)驗。
PCA變換器,用于根據(jù)PCA分析器確定的參數(shù)對樣本的特征進行PCA變換;分類器參數(shù)估計器,用于根據(jù)PCA變換器提供的所有學習訓練樣本來自動估計貝葉斯分類器的全部參數(shù);貝葉斯分類器,用于根據(jù)由分類器參數(shù)估計器確定的參數(shù)判別字體;可信度估計裝置,用于評估貝葉斯分類器輸出結(jié)果的可信程度;判斷結(jié)果輸出裝置,用于把本裝置的分析結(jié)果輸出給其它設(shè)備;控制處理器,用于控制上述的各個裝置,以便協(xié)調(diào)不同裝置,實現(xiàn)所述裝置的自動學習和自動字體判斷。
所述的文字圖像輸入裝置與前端處理裝置包括文字圖像輸入裝置和測試窗定位器。
所述的特征提取器包括排字特征提取器、形態(tài)特征提取器、灰度梯度分布特征提取器和紋理特征提取器。
所述的排字特征提取器用于提取文字的排列方式上的特征,這些特征包括文字高度特征、平均字寬特征、字寬絕對差特征、平均字間距特征和最大字間距特征。
所述的形態(tài)特征提取器用于提取文字筆劃形態(tài)上的特征,它包括縱向投影值特征、垂直平均游程特征、水平平均游程特征、長游程優(yōu)勢特征和長游程的均值特征。
所述的灰度梯度分布特征提取器用于提取測試窗的灰度-梯度二維直方圖中的特征,它包括第一二維直方圖特征和第二二維直方圖特征兩個特征。
紋理特征提取器,用于提取圖像中的紋理特征。
所述的輸出結(jié)果包括分析的圖像序號,字體判斷結(jié)果和字體判斷的可信程度。
所述的基于貝葉斯分類器的文字字體判斷方法,在設(shè)備的控制處理器的控制下,該方法包括步驟從外界輸入圖像,以及在圖像中確定待識別文字的位置;從文字圖像輸入裝置與前端處理裝置的測試窗中提取用于判別文字字體的特征;把所有學習訓練樣本的特征保存在一起,以便于貝葉斯分類器的自動學習;對訓練樣本存儲器所保存的全部訓練樣本的特征進行主成分分析,從而得到PCA變換;根據(jù)PCA分析器確定的參數(shù)對樣本的特征進行PCA變換;
根據(jù)PCA變換器提供的所有學習訓練樣本來自動估計貝葉斯分類器的全部參數(shù);根據(jù)分類器參數(shù)估計器確定的參數(shù)判別字體;評估貝葉斯分類器輸出結(jié)果的可信程度;將判斷分析結(jié)果輸出給其它設(shè)備。
所述的提取用于判別文字字體的特征包括排字特征、形態(tài)特征、灰度梯度分布特征和紋理特征。
所述的排字特征表示文字的排列方式上的特征,包括文字高度特征、平均字寬特征、字寬絕對差特征、平均字間距特征和最大字間距特征,它們的計算公式分別為 其中待識別文字共有N個字,Wi是第i個字的字寬,W0是印刷體文字的標準寬度,Si是得到的第i個字間距。
所述的形態(tài)特征表示文字筆劃形態(tài)上的特征,包括縱向投影值特征、垂直平均游程特征、水平平均游程特征、長游程優(yōu)勢特征和長游程的均值特征。它們的計算公式分別為 其中P(i)表示測試窗第i列的縱向投影值,T是閾值,ml和mg表示游程長度為l和g的游程數(shù)目,Nl和Ng分別表示水平和垂直方向游程的最大長度。Nt是由經(jīng)驗取定的閾值。
所述的灰度梯度分布特征表示測試窗的灰度-梯度二維直方圖中的特征,包括第一二維直方圖特征和第二二維直方圖特征兩個特征。
這兩個特征的計算公式分別為 hist(x,y)表示二維直方圖在點(x,y)的取值。
紋理特征表示圖像中的紋理特征。
所述的輸出結(jié)果包括分析的圖像序號,字體判斷結(jié)果和字體判斷的可信程度。
根據(jù)訓練樣本,利用統(tǒng)計處理方法自動學習知識,從而準確判斷文字字體的設(shè)備。該設(shè)備結(jié)構(gòu)化好,操作簡單,判別精度高,并且對于被印章和底紋嚴重污染的文字,同樣可以獲得高精度;只需4~5個漢字即可準確判斷字體,而且人工設(shè)定參數(shù)少,不依賴人的經(jīng)驗;回避了復雜而且容易出錯的文字切分步驟;不需要對圖像進行二值化。該設(shè)備適用于對識別精度要求嚴格的文字識別系統(tǒng)中,如銀行支票識別系統(tǒng)、信函地址識別系統(tǒng)、表格識別系統(tǒng)等。
下面結(jié)合附圖的詳細描述,可以更好地理解本發(fā)明技術(shù)方案的實質(zhì)內(nèi)容,附圖中相同的標記表示相同的裝置。
圖6是本裝置的自動訓練學習工作模式流程圖;圖7是本裝置的自動字體判斷工作模式流程圖。
圖1是基于貝葉斯分類器的文字字體判斷設(shè)備框圖。如圖1所示,所述的設(shè)備包括文字圖像輸入裝置與前端處理裝置1,用于從外界輸入圖像,以及在圖像中確定待識別文字的位置。所述的文字圖像輸入裝置的前端接外部設(shè)備,外部設(shè)備可以是掃描儀或類似功能的圖象輸入設(shè)備。如圖2所示,文字圖像輸入裝置與前端處理裝置1由文字圖像輸入裝置11和測試窗定位器12兩個基本裝置組成。文字圖像輸入裝置11把從外部設(shè)備輸入的任何格式的圖像文件轉(zhuǎn)變成以矩陣形式表示的256級灰度圖像。從文字圖像輸入裝置與前端處理裝置1輸出的灰度圖像矩陣既包括待識別的文字,又包括大量的無用圖形。測試窗定位器12為測試窗定位器,它的功能就是確定測試窗的位置,使得待識別的文字被包括在測試窗當中。
特征提取器2,用于從文字圖像輸入裝置與前端處理裝置1的測試窗中提取用于判別文字字體的特征。提取和選擇充分且有效的特征非常重要,本裝置所提取的特征和提取特征的方法是其具有高精度判別能力的關(guān)鍵。特征提取器2使用4個子裝置用以提取4大類,共15種特征。這4個子裝置分別是排字特征提取器、形態(tài)特征提取器、灰度梯度分布特征提取器和紋理特征提取器。排字特征提取器用于提取文字的排列方式上的特征,這些特征包括文字高度特征、平均字寬特征、字寬絕對差特征、平均字間距特征和最大字間距特征。
它們的計算公式為
其中待識別文字共有N個字,Wi是第i個字的字寬,W0是印刷體文字的標準寬度,Si是得到的第i個字間距。形態(tài)特征提取器用于提取文字筆劃形態(tài)上的特征,包括縱向投影值特征、垂直平均游程特征、水平平均游程特征、長游程優(yōu)勢特征和長游程的均值特征。它們的計算公式為 其中P(i)表示測試窗第i列的縱向投影值,T是閾值,ml和mg表示游程長度為l和g的游程數(shù)目,Nl和Ng分別表示水平和垂直方向游程的最大長度。Nt是由經(jīng)驗取定的閾值?;叶忍荻确植继卣魈崛∑魈崛y試窗的灰度-梯度二維直方圖中的特征,包括第一二維直方圖特征和第二二維直方圖特征兩個特征。
圖3中是印刷體和手寫體文字的圖像。圖中的黑框標出了測試窗。圖4是圖3的文字圖像對應(yīng)的灰度梯度分布圖。圖4中的區(qū)域1和區(qū)域2用于提取第一二維直方圖特征和第二二維直方圖特征2,這兩個特征的計算公式為 hist(x,y)表示二維直方圖在點(x,y)的取值,即圖4所示圖像。紋理特征提取器用于提取圖像中的紋理特征,包括紋理特征1至特征3。紋理特征的值就是測試窗中包含每一類紋理特征模板的數(shù)量。每一類紋理特征的模板見圖5。
訓練樣本存儲器3,用于把所有學習訓練樣本的特征保存在一起,以利于貝葉斯分類器7的自動學習;PCA分析器4,用于對訓練樣本存儲器3所保存的全部訓練樣本的特征進行主成分分析(Principal Component Analysis),從而得到PCA變換;
PCA變換器5,用于根據(jù)PCA分析器4確定的參數(shù)對樣本的特征進行PCA變換;分類器參數(shù)估計器6,用于根據(jù)PCA變換器5提供的所有學習訓練樣本來自動估計貝葉斯分類器7的全部參數(shù);貝葉斯分類器7,用于根據(jù)由分類器參數(shù)估計器6確定的參數(shù)判別字體;可信度估計裝置9,用于評估貝葉斯分類器7輸出結(jié)果的可信程度;判斷結(jié)果輸出裝置10,用于把本裝置的分析結(jié)果輸出給其它設(shè)備;控制處理器8,用于控制上述的各個裝置,以便協(xié)調(diào)不同裝置,實現(xiàn)所述裝置的自動學習和自動字體判斷。
所述的輸出結(jié)果包括分析的圖像序號,字體判斷結(jié)果和字體判斷的可信程度。
本發(fā)明的基于貝葉斯分類器的文字字體判斷設(shè)備和方法,通過如下的描述可以更為清楚地理解。基于貝葉斯分類器的文字字體判斷設(shè)備由上述12個基本裝置組成,該設(shè)備有兩個工作模式自動訓練學習模式和自動字體判斷模式。
自動訓練學習工作模式需要完成的功能是對根據(jù)學習訓練樣本進行分析,從而確定PCA變換器的全部參數(shù);根據(jù)學習訓練樣本,估計出貝葉斯分類器的全部參數(shù)。在該模式下,參與工作的裝置主要有裝置1至裝置8。
圖6是自動訓練學習工作模式的流程圖。其具體步驟如下步驟61從輸入裝置讀入一個學習訓練圖像,輸入裝置可以由掃描儀或類似功能的圖象輸入設(shè)備組成,圖像可以為彩色、灰度或黑白圖像,圖像的格式可以是BMP,TIF,JPG,GIF等國際標準格式;步驟62把輸入圖像的格式轉(zhuǎn)換成256級灰度的矩陣形式表示,以便于對其進行處理;步驟63準確確定測試窗口的位置,用以判定字體的全部信息都從測試窗口提??;步驟64從測試窗口提取4類,共15種特征;步驟65把該學習訓練訓練樣本的特征存儲到訓練樣本存儲器中;步驟61~步驟65完成從一個訓練樣本中提取特征,并保存到訓練樣本存儲器中的功能;步驟66判斷是否還有新的訓練樣本,如果判斷結(jié)果是“是”,則轉(zhuǎn)到步驟61;如果判斷結(jié)果是“否”,則轉(zhuǎn)到步驟67;步驟61~步驟66不斷的重復,直到所有訓練樣本的特征都保存到訓練樣本存儲器中;步驟67對訓練樣本存儲器中的所有訓練樣本的特征進行主成分分析,從而得到PCA變換器;步驟68根據(jù)訓練樣本存儲器中的所有訓練樣本,同時利用分類器參數(shù)估計器,從而得到貝葉斯分類器,最終完成學習訓練過程。
自動字體判斷工作模式完成的功能是根據(jù)自動樣本學習訓練模式所獲取的知識,利用貝葉斯分類器判定輸入文字圖像的字體。在該模式下,參與工作的裝置主要有文字圖像輸入裝置與前端處理裝置1、特征提取器2、PCA變換器5、貝葉斯分類器7、控制處理器8、可信度估計裝置9和判斷結(jié)果輸出裝置10構(gòu)成。由于分類器參數(shù)估計器6并不參與工作,所以PCA變換器5的輸出直接傳到貝葉斯分類器7,作為貝葉斯分類器7的輸入。
圖7是自動字體判斷工作模式的流程圖。其具體步驟如下步驟71從輸入裝置讀入一個文字圖像,輸入裝置可以由掃描儀或類似功能的圖象輸入設(shè)備組成,圖像可以為彩色、灰度或黑白圖像,格式可以是BMP,TIF,JPG等;步驟72把輸入圖像的格式轉(zhuǎn)換成256級灰度的矩陣形式表示,以便于對其進行處理;步驟73準確確定測試窗口的位置,用以判定字體的全部信息都從測試窗口提取;步驟74從測試窗口提取4類,共15種特征;步驟75對該文字圖像的特征進行PCA變換,得到彼此統(tǒng)計獨立的新特征;步驟76利用貝葉斯分類器判斷該文字圖像的字體,并估計該結(jié)果的可信程度;步驟77輸出該文字圖像的序號、字體判斷結(jié)果和結(jié)果的可信程度,完成對該文字圖像的字體判斷。
基于貝葉斯分類器的文字字體判斷裝置可以在任何的操作系統(tǒng)平臺下,利用任何一種編程語言,利用軟件方式來實現(xiàn),也可以采用合適的硬件來實現(xiàn),具有良好的可實現(xiàn)性,并可以靈活的集成到其他的文字識別系統(tǒng)中。
以上描述僅僅借助于實施例提供本發(fā)明的實現(xiàn)方法。對于本領(lǐng)域的技術(shù)人員是顯而易見的,本發(fā)明不限于上面提供的實施細節(jié),可以在不脫離本發(fā)明特征的情況下以另外的實施例實現(xiàn),實施例中的一些部件進行分解、合并或使用微處理器實現(xiàn)。因此,提供的實施例應(yīng)當被認為是說明性的,而不是限制性的。因此,實現(xiàn)和使用本發(fā)明的可能性是由所附的權(quán)利要求限定。因而,由權(quán)利要求確定的實現(xiàn)本發(fā)明的各種選擇包括等效實施例也屬于本發(fā)明的范圍。
權(quán)利要求
1.一種基于貝葉斯分類器的文字字體判斷設(shè)備,其特征在于所述的設(shè)備包括文字圖像輸入裝置與前端處理裝置(1),用于從外界輸入圖像,以及在圖像中確定待識別文字的位置;特征提取器(2),用于從文字圖像輸入裝置與前端處理裝置(1)的測試窗中提取用于判別文字字體的特征;訓練樣本存儲器(3),用于把所有學習訓練樣本的特征保存在一起,以利于貝葉斯分類器的自動學習;PCA分析器(4),用于對訓練樣本存儲器所保存的全部訓練樣本的特征進行主成分分析,從而得到PCA變換;PCA變換器(5),用于根據(jù)PCA分析器(4)確定的參數(shù)對樣本的特征進行PCA變換;分類器參數(shù)估計器(6),用于根據(jù)PCA變換器(5)提供的所有學習訓練樣本來自動估計貝葉斯分類器(6)的全部參數(shù);貝葉斯分類器(7),用于根據(jù)由分類器參數(shù)估計器(6)確定的參數(shù)判別字體;可信度估計裝置(9),用于評估貝葉斯分類器(7)輸出結(jié)果的可信程度;判斷結(jié)果輸出裝置(10),用于把本裝置的分析結(jié)果輸出給其它設(shè)備;控制處理器(8),用于控制上述的各個裝置,以便協(xié)調(diào)不同裝置,實現(xiàn)所述裝置的自動學習和自動字體判斷。
2.根據(jù)權(quán)利要求1的設(shè)備,其特征在于 所述的文字圖像輸入裝置與前端處理裝置(1)包括文字圖像輸入裝置(11)和測試窗定位器(12)。
3.根據(jù)權(quán)利要求2的設(shè)備,其特征在于所述的特征提取器包括排字特征提取器、形態(tài)特征提取器、灰度梯度分布特征提取器和紋理特征提取器。
4.根據(jù)權(quán)利要求3的設(shè)備,其特征在于所述的排字特征提取器用于提取文字的排列方式上的特征,這些特征包括文字高度特征、平均字寬特征、字寬絕對差特征、平均字間距特征和最大字間距特征。
5.根據(jù)權(quán)利要求4的設(shè)備,其特征在于所述的形態(tài)特征提取器用于提取文字筆劃形態(tài)上的特征,它包括縱向投影值特征、垂直平均游程特征、水平平均游程特征、長游程優(yōu)勢特征和長游程的均值特征。
6.根據(jù)權(quán)利要求5的設(shè)備,其特征在于 所述的灰度梯度分布特征提取器用于提取測試窗的灰度-梯度二維直方圖中的特征,它包括第一二維直方圖特征和第二二維直方圖特征兩個特征。
7.根據(jù)權(quán)利要求6的設(shè)備,其特征在于所述的紋理特征提取器,用于提取圖像中的紋理特征。
8.根據(jù)權(quán)利要求1或6的設(shè)備,其特征在于 所述的輸出結(jié)果包括分析的圖像序號,字體判斷結(jié)果和字體判斷的可信程度。
9.一種基于貝葉斯分類器的文字字體判斷方法,其特征在于在設(shè)備的控制處理器的控制下,該方法包括步驟從外界輸入圖像,以及在圖像中確定待識別文字的位置;從文字圖像輸入裝置與前端處理裝置的測試窗提取用于判別文字字體的特征;把所有學習訓練樣本的特征保存在一起,以便于貝葉斯分類器的自動學習;對訓練樣本存儲器所保存的全部訓練樣本的特征進行主成分分析,從而得到PCA變換;根據(jù)PCA分析器確定的參數(shù)對樣本的特征進行PCA變換;根據(jù)PCA變換器提供的所有學習訓練樣本來自動估計貝葉斯分類器全部參數(shù);根據(jù)分類器參數(shù)估計器確定的參數(shù)判別字體;評估貝葉斯分類器輸出結(jié)果的可信程度;將判斷分析結(jié)果輸出給其它設(shè)備。
10.根據(jù)權(quán)利要求9的方法,其特征在于所述的提取用于判別文字字體的特征包括排字特征、形態(tài)特征、灰度梯度分布特征和紋理特征。
11.根據(jù)權(quán)利要求10的方法,其特征在于所述的排字特征表示文字的排列方式上的特征,包括文字高度特征、平均字寬特征、字寬絕對差特征、平均字間距特征和最大字間距特征,它們的計算公式分別為 其中待識別文字共有N個字,Wi是第i個字的字寬,W0是印刷體文字的標準寬度,Si是得到的第i個字間距。
12.根據(jù)權(quán)利要求11的方法,其特征在于所述的形態(tài)特征表示文字筆劃形態(tài)上的特征,包括縱向投影值特征、垂直平均游程特征、水平平均游程特征、長游程優(yōu)勢特征和長游程的均值特征。它們的計算公式分別為 其中P(i)表示測試窗第i列的縱向投影值,T是閾值,ml和mg表示游程長度為l和g的游程數(shù)目,Nl和Ng分別表示水平和垂直方向游程的最大長度。Nt是由經(jīng)驗取定的閾值。
13.根據(jù)權(quán)利要求12的方法,其特征在于所述的灰度梯度分布特征表示測試窗的灰度-梯度二維直方圖中的特征,包括第一二維直方圖特征和第二二維直方圖特征兩個特征。這兩個特征的計算公式分別為 hist(x,y)表示二維直方圖在點(x,y)的取值。
14.根據(jù)權(quán)利要求9或13的方法,其特征在于所述的輸出結(jié)果包括分析的圖像序號,字體判斷結(jié)果和字體判斷的可信程度。
全文摘要
本發(fā)明公開了一種基于貝葉斯分類器的文字字體判斷設(shè)備及其方法。所述的設(shè)備包括文字圖像輸入裝置與前端處理裝置、特征提取器、訓練樣本存儲器、PCA分析器,PCA變換器、分類器參數(shù)估計器、貝葉斯分類器、可信度估計裝置、判斷結(jié)果輸出裝置和控制處理器。根據(jù)訓練樣本,利用統(tǒng)計處理方法自動學習知識,從而準確判斷文字字體的設(shè)備。該設(shè)備結(jié)構(gòu)化好,操作簡單,判別精度高,并且對于被印章和底紋嚴重污染的文字,同樣可以獲得高精度,只需4~5個漢字即可準確判斷字體,而且人工設(shè)定參數(shù)少,不依賴人的經(jīng)驗,回避了復雜而且容易出錯的文字切分步驟,不需要對圖像進行二值化。該設(shè)備適用于對識別精度要求嚴格的文字識別系統(tǒng)中,如銀行支票識別系統(tǒng)、信函地址識別系統(tǒng)、表格識別系統(tǒng)等。
文檔編號G06K9/72GK1438604SQ0215795
公開日2003年8月27日 申請日期2002年12月23日 優(yōu)先權(quán)日2002年12月23日
發(fā)明者徐蔚然, 劉剛, 郭軍, 張洪剛 申請人:北京郵電大學