專利名稱:在字符識別系統(tǒng)中選取候選字符的方法
技術(shù)領(lǐng)域:
本發(fā)明總的來說涉及在字符識別系統(tǒng)中選取候選字符的方法,即利用統(tǒng)計的方式識別字符,更具體地說,涉及這樣的在字符識別系統(tǒng)中選取候選字符的方法,它能夠在串長(run-lengths)的基礎(chǔ)上對組合型字符如朝語,漢語字符通過選取字符特征,迅速準(zhǔn)確地選出候選字符。
根據(jù)現(xiàn)有技術(shù)的一種統(tǒng)計字符識別系統(tǒng)中對候選字符的識別是這樣的,首先根據(jù)所有字符得出基本特征,然后,根據(jù)基本特征的相似性將這些字符劃分成樹形結(jié)構(gòu)。然后,輸入要識別的字符,得到輸入字符的基本特征,然后在基本特征的基礎(chǔ)上,沿著預(yù)先存儲的樹,找出對應(yīng)于輸入字符的候選字符。也就是說,在樹上與要識別的輸入字符相對應(yīng)的位置的字符(或字符組)被確定作為輸入字符的候選字符。
對于根據(jù)所有字符獲得基本特征以及根據(jù)基本特征的相似性將這些字符分成樹形結(jié)構(gòu)的方法,下面幾種是人所周知的,即利用網(wǎng)格字符分類法,根據(jù)字符的象素距離利用平行特征的字符分類法,以及利用時間/頻率變換的字符分類法等。
參見
圖1,這里顯示了根據(jù)現(xiàn)有技術(shù)利用網(wǎng)格對字符分類的方法。如該圖所示,每個字符都被n×n個格子形空間所覆蓋,這些格子形空間稱為網(wǎng)格。包括在單個網(wǎng)格中的每個字符的象素(例如黑色象素)的個數(shù)被計算出來。計算出的數(shù)值被作為字符的基本特征。在對應(yīng)的網(wǎng)格單元中即可得出字符的基本特征的相似性。然后,這些字符被劃分成如圖2所示的在基本特征相似性的基礎(chǔ)上形成的樹形結(jié)構(gòu)。
例如,n×n個網(wǎng)格都標(biāo)上數(shù)字,而且每個字符都被標(biāo)有數(shù)字的n×n個網(wǎng)格所覆蓋。根據(jù)從1到NN(在n×n個的情形)的每個相同數(shù)字的網(wǎng)格的基本特征,計算出不同字符的相似性。在相似性的基礎(chǔ)上,將這些字符劃分到同一類別的字符中。劃分到同一類別的字符再分成從第2個到第N×N個的組,從而形成如圖2所示的顧大的樹形結(jié)構(gòu)。計算相同數(shù)字的每個網(wǎng)格的字符的相似性的方法有幾種,主要是利用費雪(Fisher)定律,歐氏(Euclidian)距離,馬氏(Mahal-anobis)距離等進行計算。
因此,根據(jù)輸入的未知字符,將輸入字符覆蓋網(wǎng)格,該網(wǎng)格已標(biāo)有數(shù)字,然后根據(jù)網(wǎng)格中輸入字符的象素數(shù),得出輸入字符的基本特征。根據(jù)該未知字符的基本特征,在先前限定的如圖2所示的樹形結(jié)構(gòu)中檢索,找出屬于未知字符的在樹中的位置。當(dāng)與未知字符最相似的樹位置被找到后,在選取的樹位置的字符(字符組)即被確定為未知字符的候選字符。
另外,可以選取少數(shù)最確定的特征來取代使用n×n個的總體特征,這樣可以減少樹的數(shù)量。并可使字符分類實現(xiàn)高速。
參見圖3,這里顯示了在字符象素距離基礎(chǔ)上利用平行特征的字符分類法。如該圖所示,從圍住每個字符的框的左邊到每個字符的第一個象素(例如黑色象素)被以線的單位選取出作為分類特征(平行特征)。因此,上述方法即是以上述方式得到的分類特征為基礎(chǔ)對字符分類。在該方法中,測量點是根據(jù)在限定字符的框上互相之間以恒定的間隔選擇的,直線由字符限制框的測量點畫到字符的第一象素。直線的長度作為字符的基本特征。
參見圖4,這里顯示了利用時間/頻率變換的字符分類方法。如該圖所示,上述方法強調(diào)每個字符都具有的特征,利用付氏(Fourier)變換,或拉氏(Laplace)變換在二維平面上將時域。因此,上述方法就是根據(jù)由上述變換強調(diào)的字符特征來區(qū)分字符。
但是,利用網(wǎng)格的字符分類法遇到的困難是找出分割并覆蓋一個字符的最有效個數(shù)的網(wǎng)格。盡管分割的網(wǎng)格的個數(shù)越多,字符分類越準(zhǔn)確,但網(wǎng)格個數(shù)增加會引起更多的時間損失用于獲取相似性。從而使字符識別速度降低。由于這個原因,在朝語的大部分情況下,主要使用8×8(64)個網(wǎng)格,而在漢語的情況下,主要使用16×16(256)個網(wǎng)格。如果個數(shù)高于所述,則字符識別速度下降。
利用網(wǎng)格的字符分類法還有另一個不利之處,即當(dāng)字符趨于失真變形時,字符可能被誤認,由于樹形結(jié)構(gòu)是先前限定的,而字符的候選字符是在樹形結(jié)構(gòu)的基礎(chǔ)上確定的。也就是說,在某個字符趨于失真變形時,一個或多個字符網(wǎng)格的特征超出臨界值,樹形結(jié)構(gòu)中搜索出一個非正常的樹位置。因此,搜索落入該局部最小值,造成字符的誤識。
而且,利用網(wǎng)格的字符分類法還有一個缺點,就是由于較高次的網(wǎng)格增加了特征的個數(shù),所以需要更多的時間進行處理。另外,由于在輸入字符的周圍混有干擾,在字符限制框的大小不同于輸入字符的原來大小時,因在網(wǎng)格的位置上的變化,輸入字符誤識的可能性變高。
如圖3所示的利用平行特征的字符分類法的優(yōu)點在于與利用網(wǎng)格的字符分類法比,特征個數(shù)被減少了。這可使樹形結(jié)構(gòu)簡化并減少字符識別處理時間。但是,利用平行特征的字符分類法的缺點在于字符分類特征的分支的個數(shù)很小。這可造成字符分類不準(zhǔn)確。與利用網(wǎng)格的字符分類法類似,由于當(dāng)字符中有干擾時,字符限制框的大小是變化的,在對字符限制框定位中會引起瓶頸效應(yīng)。
利用時間/頻率變換的字符分類法的優(yōu)點在于字符的特征可確切地分類,但是缺點是在變換中需要較長時間。而且在組合型字符如朝語、漢語等字符的情況下,由于字符的結(jié)構(gòu)問題,特征位置不能確切地區(qū)別。
因此,本發(fā)明就是考慮到上述問題而作出的,本發(fā)明的目的在于提供一種在字符識別系統(tǒng)中選出候選字符的方法,與現(xiàn)有技術(shù)相比它能夠減少字符識別時間并增加字符識別的準(zhǔn)確率。
按照本發(fā)明,上述目的可以通過這樣一種在字符識別系統(tǒng)中選出候選字符的方法實現(xiàn),包括在字符的串長信息基礎(chǔ)上取出字符的基本特征的取出字符的基本特征的步驟;在取出的字符的基本特征的基礎(chǔ)上確定字符的位置信息的分布選取步驟;在存儲器中將字符的確定的位置作為字符分類基準(zhǔn)數(shù)據(jù)器存儲的字符分類基準(zhǔn)數(shù)據(jù)存儲步驟;取出屬于在存儲器中存儲的與要識別的輸入字符相對應(yīng)的位置的一個具體的字符作為輸入字符的候選字符的候選字符選取步驟。
本發(fā)明的上述的以及其它的目的、特征和優(yōu)點從下面的結(jié)構(gòu)附圖的詳細描述中將會得到更好的理解圖1顯示了根據(jù)現(xiàn)有技術(shù)的利用網(wǎng)格的字符分類方法,其中字符被8×8個網(wǎng)格所覆蓋;
圖2顯示了根據(jù)現(xiàn)有技術(shù)的樹形結(jié)構(gòu);
圖3顯示了根據(jù)現(xiàn)有技術(shù)的利用平行特征的字符分類法;
圖4顯示了根據(jù)本發(fā)明的利用時間/頻率變換的字符分類方法;
圖5為根據(jù)本發(fā)明的統(tǒng)計字符識別系統(tǒng)的方框圖;
圖6為根據(jù)本發(fā)明顯示字符特征選取操作的流程圖;
圖7為根據(jù)本發(fā)明顯示候選字符選取操作的流程圖;
圖8為根據(jù)本發(fā)明顯示統(tǒng)計字符識別控制操作的流程圖;
圖9為根據(jù)本發(fā)明顯示X-Y坐標(biāo)上字符特征圖;
圖10顯示了根據(jù)本發(fā)明的以X-Y矩形圖基礎(chǔ)得到的字符分布空間;以及圖11顯示了根據(jù)本發(fā)明最終得到的候選字符區(qū)域。
在傳統(tǒng)的統(tǒng)計字符識別方法中,對輸入字符的識別是通過從所有的預(yù)先存儲的字符中選取出與輸入字符最相似的特征。因此,對于組合型字符,如朝語和漢語,需預(yù)先存儲的字符數(shù)達14000個,其中2350個是目前使用的?;谶@個原因,需要大量時間將輸入字符與預(yù)先存儲的字符逐個比較。這造成了識別速度的降低。而且也需較大容量的存儲器。
因而,本發(fā)明就是針對以上問題而提出的。根據(jù)本發(fā)明,作為要被識別的客體的所有字符的特征首先被選取出來,然后,這些字符被分成具有相同特征的組。分成具有相同特征的組的字符被在組單元中預(yù)先存儲。然后,輸入要識別的字符,隨后,輸入的字符與相同特征的字符組的代表值比較以找出與輸入字符最相近的字符組。最相近的字符組找到后,屬于找到的組的字符被選出并劃分為輸入字符的候選字符。然后,通過將輸入字符的特征與候選字符的每一個特征比較,進行字符識別處理。
根據(jù)本發(fā)明,在字符識別系統(tǒng)中選取候選字符的方法,包括取出字符特征,在取出的特征的基礎(chǔ)上得出分類基準(zhǔn)數(shù)據(jù)及存儲得到的分類基準(zhǔn)數(shù)據(jù)的字符識別處理前序步驟,以及取出要識別字符的特征及在取出的特征的基礎(chǔ)上在特征基準(zhǔn)數(shù)據(jù)中選取出候選字符的字符識別處理步驟。
字符識別處理的前序步驟包括字符特征取出步驟S10,形成限制色字符的框,在字符限制框中得出在水平(X軸)和垂直(Y軸)方向相繼的白象素的長度(以下列為白色串)信息以及相繼的黑色象素的長度(以下稱黑色串)信息,根據(jù)得到的信息得出X軸特征和Y軸特征,這些特征表示定位于X-Y坐標(biāo)的字符的特征點,并對所有字符進行上述操作。將這些字符特征表示成為X-Y坐標(biāo)值,字符分布選取步驟S20得出X-Y坐標(biāo)值的矩形圖,并用一個經(jīng)驗得出的臨界值去除得到的X-Y坐標(biāo)值的矩形圖,將其劃分成字符分布空間,字符就分布在這些空間中,還包括一個分類基準(zhǔn)數(shù)據(jù)存儲步驟S30,存儲將在字符分布選取步驟S20劃分的字符分布空間的位置坐標(biāo)以及屬于字符分布空間的字符。
在字符識別處理前序步驟以上述方式準(zhǔn)備分類基準(zhǔn)數(shù)據(jù)之后,即進行字符識別處理步驟。字符識別處理步驟包括針對輸入字符進行字符特征提取步驟S10的候選字符的選取步驟S40,以獲得輸入字符在X-Y坐標(biāo)上的位置特征,提取與獲得的輸入字符的位置特征相對應(yīng)的位置的一個字符分布空間,選取屬于提取的字符分布空間的字符作為輸入字符的候選字符。
字符特征提取步驟S10包括字符限制框形成步驟S10,形成準(zhǔn)確包圍字符的框;白色/黑色串檢測步驟S12,在字符限制框內(nèi)從左到右以線為單位掃描字符象素以檢測白色串及相繼的字符的黑色串并存儲檢測值(象素數(shù))〔Wx(i),Bx(i)〕(這里i當(dāng)隨著白色串之后檢測到黑色串時以1遞增的變量);白-黑色串對值檢測步驟S13,如果在白/黑色串檢測步驟S12在X軸方向掃描字符完成后,檢測字符的白色串+黑白串對值〔WBx(i)=Wx(i)+Bx(i)〕;X軸特征提取步驟S14,在檢測的白色串值,黑色串值和白-黑色串對值的基礎(chǔ)上,得出字符的X軸特征,可由下述等式表示F(x)=Σi(Wx(i)/Σi(WBx(i))]]>Y軸特征提取步驟S15,在字符限制框內(nèi)從上到下以線為單位掃描字符象素,以上述相同的方式獲得字符的Y軸特征;步驟S16,對同一字符重復(fù)進行上述步驟以獲得平均位置矢量(Fak(X),F(xiàn)ak(Y))及字符的標(biāo)準(zhǔn)偏差(△k(X),△k(Y))(其中a代表平均,k第k個字符,△標(biāo)準(zhǔn)偏差);步驟S17,以上述相同的方式針對所有字符獲得X軸和Y軸特征,以字樣的平均位置矢量和標(biāo)準(zhǔn)偏差為基礎(chǔ),確定在X-Y平面上表示的字符的位置坐標(biāo)。
字符分布提取步驟S20包括步驟S21,以獲得字符的平均標(biāo)準(zhǔn)偏差(△T(X),△T(Y)),并可用下述等式表示
其中,m代表字符的總數(shù),△T表示平均標(biāo)準(zhǔn)偏差,還包括步驟S22,在字符的平均標(biāo)準(zhǔn)偏差的基礎(chǔ)上得到X軸和Y軸矩形圖,并用經(jīng)驗得到的臨界值去除得到的矩形圖,將它們分成字符分布的字符分布空間。
參見圖5,這里顯示了利用根據(jù)本發(fā)明的選取候選字符的方法的字符識別系統(tǒng)的框圖。如該圖所示,該字符識別系統(tǒng)包括一個通用計算機10用來控制字符識別處理過程,一個字符識別處理器20用于在通用計算機控制下進行字符識別,以及一個字符輸入單元30用于在通用計算機10控制下掃描文件閱讀字符圖象。
通用計算機10包括用于鍵入的鍵盤11,一個主處器12用于控制字符識別處理,一個主接口單元14,用于與來自主處理器口的數(shù)據(jù)信號D和控制信號接口,一個用于顯示圖象的圖象顯示單元13及輔助存儲單元15。
字符識別處理器20包括數(shù)據(jù)信號處理器21用于字符識別的候選字符選取操作,一個緩沖器22用于緩沖輸入/輸出字符數(shù)據(jù),一個數(shù)據(jù)存儲單元24用于存儲字符數(shù)據(jù)以及還有一個解碼器23用于對來自通用計算機10中的主處理器12的地址信息解碼,給數(shù)據(jù)存儲單元24編址。
字符輸入單元30提供有掃描器接口31和掃描器32,用于在通用計算機10控制下掃描文件以閱讀字符圖象。
這里標(biāo)號DS代表數(shù)據(jù)選擇信號,IS代表輸入/輸出選擇信號,ST代表選通信號,INT代表輸入信號,ENB代表啟動信號,S代表選擇信號。
下面描述根據(jù)本發(fā)明利用上述結(jié)構(gòu)的字符識別系統(tǒng)的選取候選字符的方法。
首先,為了得出字符分類基準(zhǔn)數(shù)據(jù),用戶將所有字符裝入掃描器32,并通過鍵盤11給通用計算機10中的主處理器12一個字符識別處理前序步驟指令,伴隨系統(tǒng)的總體操作的控制,主處理器12進行字符識別處理前序步驟。
即,當(dāng)接收到通過鍵盤發(fā)出的開始命令后,主處理器12進行控制使得進行的情況通過圖象顯示單元13進行顯示,并且一個字符輸入指令通過主接口單元14傳遞到字符輸入單元30。
掃描器啟動信號/ENB被送到掃描器接口31,于是,該信息通過掃描器接口31加到掃描器32。由于施加了掃描器啟動信號/ENB,掃描器32閱讀字符圖象數(shù)據(jù)D。
閱讀的圖象數(shù)據(jù)D通過緩沖器22傳送到數(shù)據(jù)存儲器單元24及輔助存儲單元15。
然后,當(dāng)掃描器32的掃描完成以后,一個來自掃描器接口31的掃描完成信號通過主接口單元14傳送到主處理器12。隨著掃描完成信號的傳送,主處理器12輸出地址信號A給地址解碼器23,給數(shù)據(jù)存儲單元24編址。結(jié)果,存儲在數(shù)據(jù)存儲單元24的已編址的位置的字符圖象數(shù)據(jù)通過緩沖器22被加到數(shù)據(jù)信號處理器21。于是,字符特征提取步驟S10得以進行以得出字符分類基準(zhǔn)數(shù)據(jù)。
在如圖6所示的由數(shù)據(jù)信號處理器21執(zhí)行的字符特征提取步驟S10,首先進行步驟S11,輸入字符圖象數(shù)據(jù)并形成準(zhǔn)確圍住字符的框。
然后進行步驟S12,在字符限制框中從左到右以線為單位掃描字符象素,以檢測白色串和相繼的字符的黑色串并存儲檢測值(象素個數(shù))〔Wx(i),Bx(i)〕(這里之為當(dāng)在白色串后檢測到黑色串時以1遞增的變量)。
如果在白/黑色串檢測步驟S12在X軸對字符掃描完成,在步驟S13檢測字符的白色串+黑色串對值〔Wx(i),Bx(i)〕。
然后進行步驟14,在檢測的白色串值,黑色串值和白色-黑色串對值的基礎(chǔ)上得出字符的X軸特征,可用下述等式表示
這里i為白-黑串對個數(shù)。
然后進行步驟S15,在字符限制框內(nèi)從上到下以線為單位掃描字符象素,以獲得字符的X軸特征相同的方式得出字符的Y軸特征。即,在字符限制框中從上到下以線為單位掃描字符象素,以檢測字符的白色串值Wy(i),相繼的黑色串值By(i)和白色串-黑色串對值〔Wx(i),Bx(i)〕。在檢測的白色串值、黑色串值和白-黑色串對值的基礎(chǔ)上,提取出字符串的Y軸特征,可以用下式表示F(y)=Σi(Wy(i)×Wy(i))/Σi(WBy(i))]]>在步驟S16,上述步驟針對同一字符重復(fù)進行以獲得字符的平均位置矢量(Fak(X),F(xiàn)ak(Y))和標(biāo)準(zhǔn)偏差(△K(X),△K(Y))(這里,a表示平均,k表示k個字符,△表示標(biāo)準(zhǔn)偏差)。這樣,字符的特征被提取出作為X-Y坐標(biāo)上的點。
對同一字符重復(fù)進行上述步驟的原因是由于劃分基準(zhǔn)數(shù)據(jù)到一定程度需具有客體。即,要針對同一字符的不同體和大小進行分類程序,并在平均值的基礎(chǔ)上確定該相同的字符特征標(biāo)準(zhǔn)。
提取的字符特征表示為兩維特征,即X-Y坐標(biāo)上的點。
然后,進行步驟S17,針對所有的字符以上述描述的相同的方式取得X軸和Y軸特征(F(X),F(xiàn)(Y)),在字符的平均位置矢量和標(biāo)準(zhǔn)矢量的基礎(chǔ)上,檢測在X-Y平面上表示的字符的位置坐標(biāo)。結(jié)果,字符的特征可以如圖9所示那樣分別被表示成兩維平面上的點。
如果所有字符的特征都以上述方式檢測后,則進行步驟S20,在檢測到的字符的特征的基礎(chǔ)上形成字符分布的字符分布空間。
在步驟S20后首先進行步驟S21,得到字符的平均標(biāo)準(zhǔn)偏差(△T(X),△T(Y),并可用下式表示
其中,m代表字符數(shù),△T代表平均標(biāo)準(zhǔn)偏差。
在步驟S22,在字符的標(biāo)準(zhǔn)偏差的基礎(chǔ)上得到X軸和Y軸矩形圖,然后用一個經(jīng)驗得到的臨界值去除得到的矩形圖,將其分成字符分布的字符分布空間。該臨界值是個由經(jīng)驗得到的常數(shù),使得X軸和Y軸矩形圖的總和分別高于一個預(yù)定值(例如,50)。被經(jīng)驗得到的臨界值除以后,矩形圖被分布如圖10所示的字符分布空間。很明顯,在字符分布較密位置,劃分的字符分布空間即小到該程度。相應(yīng)地,在字符分布不密集的位置,劃分的字符分布空間也大到該程度。
在步驟S30,在字符識別處理前序步驟中得到的字符分布空間的位置坐標(biāo)以及屬于該字符分布空間的字符被作為字符分類基準(zhǔn)數(shù)據(jù)存入輔助存儲單元15中。
然后在字符識別處理步驟,字符分類基準(zhǔn)數(shù)據(jù)被從輔助存儲單元15中讀出并存入數(shù)據(jù)存儲單元中,用于選取出要識別的字符的候選字符。
在字符識別處理中,用戶將要識別的字符裝入掃描器32,并通過鍵盤10向通用計算機10發(fā)出字符識別指令。響應(yīng)于用戶發(fā)出的字符識別指令,通過計算機10首先進行控制,使字符圖象數(shù)據(jù)被掃描器32讀出,然后存儲到數(shù)據(jù)存儲單元24。在該情況下,通用計算機10控制字符識別處理。
在字符識別處理步驟,以與獲得字符分類基準(zhǔn)數(shù)據(jù)相同方式提取要識別字符的特征。然后,取出處于與要識別的字符的已提取的特征相對應(yīng)的位置字符分布空間的一個。結(jié)果,屬于已提取的字符分布空間的字符作為待識別字符的候選字符。
字符識別處理步驟包括候選字符處理步驟S40,如圖7所示由數(shù)據(jù)信號處理器21進行。在要識別的字符圖象信輸入后,首先形成準(zhǔn)確圍住字符的框。通過在X和Y方向掃描字符限制框,檢測出字符的白色串值,黑色串值,和白-黑色串對值。在從X軸方向檢測的白色串值和黑色串值,及白-黑串對值的基礎(chǔ)上,提取出字符的X軸特征。在從Y軸方向檢測的白色串值,黑色串值和白-黑色串值的基礎(chǔ)上,提取出字符的Y軸特征。
然后,搜索與要識別字符的提取的X-Y軸特征相對應(yīng)的位置的一個字符分布空間。也就是說,作為字符分類基準(zhǔn)數(shù)據(jù)的字符分布空間被搜索出來作為要識別字符所屬的位置。如圖11所示,如果對應(yīng)的空間的大小小于△X,△Y,屬于包含在距離△X,△Y之內(nèi)的所有空間的字符被選出來作為候選字符(其中,Xn,Yn代表輸入字符的坐標(biāo)值;△X,△Y代表先前得到的標(biāo)準(zhǔn)偏差;Z代表最終的候選字符區(qū))。
然后,如圖11所示,在字符所屬位置的可變范圍基礎(chǔ)上,最終候選字符位置Z被提取出。結(jié)果,屬于最終候選字符位置Z的字符被選取出作為要識別字符的候選字符。
如前面所述,根據(jù)本發(fā)明,提供了一種在字符識別系統(tǒng)中選取候選字符的方法,它將字符的特征表示成坐標(biāo)以得出字符分類基準(zhǔn)數(shù)據(jù),預(yù)先存儲得出的字符分類基準(zhǔn)數(shù)據(jù)并在預(yù)先存儲的字符分類基準(zhǔn)數(shù)據(jù)基礎(chǔ)上迅速選出要識別字符的候選字符。因此,在組合字符,如朝語和漢語字符情況下,字符可被迅速識別。而且也只需相對較小的存儲容量取得經(jīng)濟的效果。
盡管本發(fā)明的最佳實施例為顯示的目的而進行了描述,本領(lǐng)域技術(shù)人員可進行各種改進補充和替換,而不脫離本發(fā)明的精神和范圍。
權(quán)利要求
1.一種在字符識別系統(tǒng)中選取候選字符的方法,包括字符特征提取步驟,以字符的串長信息為基礎(chǔ)、提取字符的特征;字符分布提取步驟,在提取的字符特征基礎(chǔ)上確定字符的位置信息;字符分類基準(zhǔn)數(shù)據(jù)存儲步驟,在存儲器中存儲作為字符分類基準(zhǔn)數(shù)據(jù)的確定的字符位置信息;以及候選字符選取步驟,選取屬于存儲在存儲器中的與要識別的輸入字符的特征相對應(yīng)的一個具體位置的字符作為輸入字符的候選字符。
2.如權(quán)利要求1的方法,其中所述的字符特征提取步驟包括字符限制框形成步驟,形成一個準(zhǔn)確圍住通過掃描器輸入的一個字符的框;白/黑色串檢測步驟,在字符限制框中從左到右以線為單位掃描字符象素,檢測字符的白色串和黑色串并存儲檢測值(象素數(shù))〔Wx(i),Bx(i)〕(這里i為當(dāng)在白色串之后檢測到黑色串時以1遞增的變量);白-黑色串對值檢測步驟,如果在白/黑色串檢測步驟在X軸方向字符的掃描完成以后,檢測字符的白色串+黑色串對值〔Wx(i),Bx(i)〕;X軸特征提取步驟,在檢測的白色串值,黑白串值和白-黑色串對值的基礎(chǔ)上得出字符的X軸特征,并可由下述等式表示F(x)=Σi(Wx(i)×Wx(i))/Σi(WB×(i))]]>Y軸特征提取步驟,在字符限制框內(nèi)從上到下以線為單位掃描字符象素以與獲得字符X軸特征相同方式獲得字符Y軸特征;針對同一字符重復(fù)進行上述步驟的步驟,以獲得字符的平均位置矢量(Fak(X),F(xiàn)ak(Y))和標(biāo)準(zhǔn)偏差(△K(X)△K(Y))(這里,a代表平均,k代表k個字符,△代表標(biāo)準(zhǔn)偏差);以及針對由掃描器輸入的所有字符以上述相同的方式得出x軸和Y軸特征(F(X),F(xiàn)(Y)的步驟,并在字符的平均位置矢量和標(biāo)準(zhǔn)偏差的基礎(chǔ)上,檢測表示在X-Y平面上的字符的位置坐標(biāo)。
3.如權(quán)利要求1的方法,其中所述的字符分布提取步驟包括取得由掃描器輸入的所有字符的平均標(biāo)準(zhǔn)偏差(△T(X),△T(Y)的步驟,并可表示如下ΔT(x)=(Σi=0mΔi(x))/m]]>ΔT(r)=(Σi=0mΔi(r))/m]]>其中m代表字符數(shù),△T代表平均標(biāo)準(zhǔn)偏差;以及在字符的平均標(biāo)準(zhǔn)偏差的基礎(chǔ)上獲得X軸和Y軸矩形圖的步驟,并用一個經(jīng)驗得到的臨界值去除得到的X軸Y軸矩形圖,將它們分成字符分布的字符分布空間。
全文摘要
一種在字符識別系統(tǒng)中選取候選字符的方法,包括字符特征提取步驟,以字符的串長度信息為基礎(chǔ),提取字符的特征;字符分布提取步驟,在提取的字符特征基礎(chǔ)上確定字符的位置信息;字符分類基準(zhǔn)數(shù)據(jù)存儲步驟,在存儲器中存儲作為字符分類基準(zhǔn)數(shù)據(jù)的確定的字符位置信息;以及候選字符選取步驟,選取屬于存儲在存儲器中的與要識別的輸入字符的特征相對應(yīng)的一個具體位置的字符作為輸入字符的候選字符。與現(xiàn)有技術(shù)相比,依照本發(fā)明,字符識別時間為減少,而字符識別的準(zhǔn)確率為增加。
文檔編號G06K9/46GK1071527SQ9211143
公開日1993年4月28日 申請日期1992年10月9日 優(yōu)先權(quán)日1991年10月9日
發(fā)明者崔宰均 申請人:株式會社金星社