專利名稱:字符識(shí)別系統(tǒng)的制作方法
本發(fā)明涉及到一種字符識(shí)別系統(tǒng),具體地說,是一種能夠?qū)κ謱懽址M(jìn)行快速分類和
別處理的字符處理系統(tǒng)。
輸入字符的快速分類和
別是利用硬件對(duì)每個(gè)輸入字符提取出許多不同類型的特征,并把這些特征和每個(gè)標(biāo)準(zhǔn)字符的特征進(jìn)行比較來(lái)實(shí)現(xiàn)的。輸入字符和標(biāo)準(zhǔn)字符的各種類型特征是按特征類型加以檢驗(yàn)的。而每類特征又含有多維特征分量(multidimensionaL feature Components),具有相應(yīng)維的同類特征分量順次地進(jìn)行比較以檢驗(yàn)其失配程度逐次對(duì)同類型中相應(yīng)維的特征分量進(jìn)行比較,其失配度即失配值將累加起來(lái),并把累加的結(jié)果和相對(duì)該類特征參數(shù)確定的閾值進(jìn)行比較。當(dāng)累加的結(jié)果超過閾值時(shí),和當(dāng)前標(biāo)準(zhǔn)字符的比較在此刻停下來(lái),并跳過該字符去和下一個(gè)標(biāo)準(zhǔn)字符進(jìn)行比較。因此,在同類型中無(wú)須比較全部特征分量,從而提高了分類和
別的速度。
標(biāo)準(zhǔn)字符的特征參數(shù)根據(jù)字符的類別分組,并按字符以字符串的形式存儲(chǔ)在詞典存儲(chǔ)器中,而不屬于具體種類的,或者和其他字符組合使用的一個(gè)或幾個(gè)字符,例如無(wú)效字符,可定位在多個(gè)位置上。因此,被搜索的字符范圍能夠用指令檢索詞典存儲(chǔ)器的起始位置和終止位置來(lái)規(guī)定,把無(wú)效字符作為標(biāo)準(zhǔn)字符來(lái)對(duì)待,使識(shí)別過程變得簡(jiǎn)單。
未經(jīng)審查的日本專利公告號(hào)NO、201184/83公開了一種手寫字符識(shí)別系統(tǒng),該系統(tǒng)采用三種不同類型的特征參數(shù),并按以下三個(gè)步驟去識(shí)別字符即,初步分類Ⅰ;初步分類Ⅱ和
別階段。把用字符讀入器,例如光學(xué)字符識(shí)別器〔OCR),讀入的輸入字符二進(jìn)制化,規(guī)格化和變細(xì)。通過掃描變細(xì)了的字符圖形提取出字符的特征。三種特征參數(shù)是每個(gè)方向上字符線的數(shù)目;從字符圖形輪廓的四邊算起的實(shí)際字符線的深度以及在每個(gè)方向和位置上字符線的數(shù)目。在初步分類Ⅰ階段,通過把輸入字符圖形每個(gè)方向上的字符線的數(shù)目和標(biāo)準(zhǔn)字符圖形每個(gè)方向上的字符線的數(shù)目相比較進(jìn)行分類。在初級(jí)分類Ⅱ階段,根據(jù)字符線的深度進(jìn)行分類;在
別階段,根據(jù)在每個(gè)方向和位置上的字符線的數(shù)目,選擇出一個(gè)或幾個(gè)最終的候選字符。
上述專利中已公開的技術(shù),以較簡(jiǎn)單的算法得到了高的識(shí)別精度。但是,總的說來(lái),在識(shí)別包括漢字即中國(guó)字在內(nèi)的手寫字符的時(shí)候,由于有大量的字符存在,因此用于分類和
別所需要的時(shí)間大大超過予處理,例如規(guī)格化和變化所需要的時(shí)間。在上述專利申請(qǐng)中,第一次縮小識(shí)別范圍是在初步分類Ⅰ這個(gè)步驟實(shí)現(xiàn)的;第二次縮小識(shí)別范圍是在初步分類Ⅱ這個(gè)步驟實(shí)現(xiàn)的。一個(gè)或幾個(gè)最終后選字符,在最后的步驟-
別階段實(shí)現(xiàn)的。因此達(dá)到了相當(dāng)快速的處理。然而,由于上述三種特征參數(shù)中的每一種都含有多維特征分量,而且在上述專利申請(qǐng)中,因?yàn)楹拖鄳?yīng)類型的閾值的比較是在特征分量所有維上的誤差即失配度總和已經(jīng)得到的階段進(jìn)行的,所以即使僅僅特征分量部分維上的失配度總和就超過了閾值,也不停止進(jìn)行比較,因此在先有技術(shù)中的這種方法是低效率、又不經(jīng)濟(jì)的。
還存在一個(gè)問題,即如果僅用軟件來(lái)處理,分類和
別處理是緩慢的。雖然,分類和
別能用硬件來(lái)實(shí)施,但需要大規(guī)模的硬件配置,且控制系統(tǒng)變得復(fù)雜,因?yàn)樯鲜鋈N特征是用分別含有不同的運(yùn)算的方程來(lái)表示的。
為了改善字符識(shí)別的精度和提高識(shí)別速度,通常根據(jù)輸入字符種類,來(lái)規(guī)定將要用來(lái)比較的標(biāo)準(zhǔn)字符圖形的范圍,而那些規(guī)定種類之外的其他字符不再參加比較或被選作候選字符。慣用的字符類型選擇過程包括〔a〕將
別字符類型〔字母、數(shù)字和假名等〕的代碼標(biāo)準(zhǔn)在標(biāo)準(zhǔn)圖形上。只有具有規(guī)定代碼的標(biāo)準(zhǔn)字符圖形才能被用來(lái)進(jìn)行識(shí)別。
〔b〕對(duì)OCR文件的每一區(qū)域,以字符類型選擇表的形式,建立說明所采用字符類型的標(biāo)志,并參照字符類型選擇表,對(duì)每一區(qū)域確定出用于進(jìn)行識(shí)別的字符。
但是,在處理方法(a)中,在每個(gè)標(biāo)準(zhǔn)字符圖形里需要附加位信息組,為了傳送這個(gè)位信息組,需附加硬件設(shè)置,由于要發(fā)出和傳送這個(gè)位信息組,從而使得處理過程緩慢。另一方面,在過程(b)中,因?yàn)橐粋€(gè)漢字OCR至少需要2000字符×32區(qū)域=64000位,(=8000字節(jié)),雖然,通常字母數(shù)字一假名形式的OCR只需要128字符×32信息組=4096位〔=512字節(jié)〕,這不僅增加了硬件負(fù)擔(dān),而且還需要對(duì)字符類型選擇表進(jìn)行訪問,并用表對(duì)標(biāo)準(zhǔn)圖形進(jìn)行訪問控制。
為此,本發(fā)明的目的在于提供一個(gè)能夠快速處理的字符識(shí)別系統(tǒng)。
本發(fā)明的另一個(gè)目的在于提供一個(gè)能夠快速處理的字符識(shí)別系統(tǒng),在該系統(tǒng)中,用于識(shí)別的字符類型能靈活而方便地確定出來(lái)。
本發(fā)明又一個(gè)目的在于提供一個(gè)字符識(shí)別系統(tǒng),在該系統(tǒng)中利用多種類型特征的分類和
別處理,能用簡(jiǎn)單的硬件設(shè)置??焖俚貙?shí)現(xiàn)。
用從輸入字符中提取出來(lái)的特征與標(biāo)準(zhǔn)字符的特征參數(shù)進(jìn)行比較的方法來(lái)實(shí)現(xiàn)字符識(shí)別。對(duì)每種類型特征參數(shù)都要進(jìn)行比較,一種類型特征參數(shù)又包括多維特征分量,而在同類特征參數(shù)中,將相應(yīng)維的特征分量順序地進(jìn)行比較,以檢驗(yàn)其失配程度。逐次把相應(yīng)維的特征分量進(jìn)行比較并將失配度累加起來(lái)。累加的結(jié)果和相對(duì)該類型特征確定的閾值進(jìn)行比較。當(dāng)累加的結(jié)果超過閾值時(shí),和當(dāng)前標(biāo)準(zhǔn)字符的比較,在此刻停下來(lái),并跳過當(dāng)前的標(biāo)準(zhǔn)字符,去和下一個(gè)標(biāo)準(zhǔn)字符進(jìn)行比較。
含有標(biāo)準(zhǔn)字符特征參量的詞典存儲(chǔ)器,包括分布在許多位置上的無(wú)效字符。因此,識(shí)別時(shí)被搜索的字符范圍,能夠通過給定檢索的始址和末址方便地確定出來(lái)。
參照程序框圖2,詳細(xì)地說明本發(fā)明字符識(shí)別系統(tǒng)的處理流程。
首先,用掃描器讀入字符,隨后進(jìn)行予處理。把讀入的字符互相隔開,并進(jìn)行諸如規(guī)格化和變細(xì)處理。由于規(guī)格化和變細(xì)之類的處理在技術(shù)里大家都已熟知。因此,這兒不作詳細(xì)說明。在特征提取過程中,這些在后面分類和
別處理過程中所用的特征參數(shù),從上述處理過的字符圖形中被提取出來(lái)。
后面的分類和
別處理機(jī)構(gòu)是本發(fā)明改進(jìn)的部分。
為了促進(jìn)對(duì)本發(fā)明的理解,將對(duì)上述日本未經(jīng)審查的專利公布號(hào)NO、201184/83中已經(jīng)公開了的特征參數(shù)提取處理方法,予以簡(jiǎn)單說明,然后,利用由作為實(shí)例的處理過程中提取的特征參數(shù),對(duì)本發(fā)明作說明。
在上述專利申請(qǐng)中,輸入字符規(guī)格化成60×60點(diǎn)的大小,并用像檢測(cè)對(duì)8個(gè)鄰域連通性的赫爾德克(Hilditch)法那樣進(jìn)行變細(xì)。按三個(gè)步驟進(jìn)行識(shí)別即;初步分類Ⅰ;初步分類Ⅱ和
別階段,在初步分類Ⅰ階段中,變細(xì)了的60×60點(diǎn)的字符圖形的每個(gè)方向上的字符線的數(shù)目,被用作為一種類型特征參數(shù)。每個(gè)方向上字符線的數(shù)目是在這個(gè)方向上連接單元的總數(shù),這里連接單元定義成兩個(gè)相鄰的黑點(diǎn),并作為字符線的最小單位。連接單元有四個(gè)方向即,水平方向;垂直方向;右下(或左上)和左下(或右上)。對(duì)每個(gè)方向計(jì)算出連接單元的總數(shù)。
在初步分類Ⅰ階段中,由下列方程定義的差距DⅠ是根據(jù)每個(gè)方向上累加的4種連接單元的數(shù)目和每個(gè)標(biāo)準(zhǔn)字符相應(yīng)的連接單元的數(shù)目計(jì)算出來(lái)的。而那些差距DⅠ超過了相對(duì)該類型特征參數(shù)所確定的閾值的字符將被舍去。
DI=Σi = 14Wi | Gi-f i |GT+ a〔 1 〕]]>式中i=四種連接單元的數(shù)(i=1-4)Wi=與連接單元長(zhǎng)度有關(guān)的加權(quán)因子〔對(duì)于水平和垂直連接為2;對(duì)于右下和左下連接為3〕。
Gi=在輸入字符圖形每個(gè)方向上的連接單元的數(shù)目。
fi=相應(yīng)于Gi的在標(biāo)準(zhǔn)字符圖形每個(gè)方向上的連接單元的數(shù)目。
GT=在輸入字符圖形中,總的連接單元的加權(quán)數(shù)。
=Σi = 14]]>WiGiα=為了減小線數(shù)影響的常數(shù)(通常約為200)在初步分類Ⅰ階段中采用的特征類型包括4維特征分量。
i=1至4在初步分類階段Ⅱ中,從字符圖形輪廓每邊算起的字符線的深度作為第二種類型特征參數(shù)。60×60點(diǎn)的字符圖形區(qū)域的每一邊分成段,例如6段,從每邊向?qū)呌?jì)算每一段上白色點(diǎn)的總數(shù),直至遇到字符線上的第一個(gè)黑點(diǎn),或者達(dá)到予先確定的深度。這相應(yīng)于其面積。在這種情況下,第二種類型特征有4邊×6段=24維的特征分量。
在識(shí)別處理的初步分類Ⅱ中,對(duì)于已通過了初級(jí)分類Ⅰ處理的兩個(gè)或更多的字符,計(jì)算由下列方程確定的差距DⅡ,那些差距DⅡ超過了相對(duì)于該種類型特征所確定的閾值的字符,將被淘汰掉DⅡ=Σi = 14Σj = 16| gi j-fi j|]]>式中g(shù)ij表示在輸入字符圖形中第i邊上第j段的深度總和。fij表示標(biāo)準(zhǔn)字符圖形的相應(yīng)值。
在鑒別處理階段,每個(gè)方向和位置上字符線的數(shù)目被用作第三類特征參數(shù)。這一類型特征參數(shù)是這樣得到的對(duì)60×60點(diǎn)的字符圖形區(qū)域確定8個(gè)觀察方向,即0°,22.5°,45°,67.5°90°,112.5°,135°和157.5°。在每個(gè)觀察方向上把字符圖形分割為12段,并對(duì)每個(gè)觀測(cè)方向上的每段,把在垂直、水平、右下、左下等四個(gè)方向的每個(gè)方向上的連接單元加起來(lái)。因此在本例中,第三類型特征參數(shù)含有4個(gè)連接方向×8個(gè)觀察方向×12段=384維特征分量。
在鑒別階段處理中,對(duì)于已通過初級(jí)步類Ⅱ處理的兩個(gè)或者更多的字符,計(jì)算由下列方程確定的差距DⅢ,并且把具有最小差距位的字符輸出作為被識(shí)別的字符。
DⅢ=Σi = 14Σj = 18Σk = 112Wi j| gi j k- fi j k| (3)]]>
式中g(shù)ijk表示在一個(gè)輸入字符中,在第i個(gè)連接單元方向,第j個(gè)觀察方向和第k段上的連接單元數(shù);fijk表示標(biāo)準(zhǔn)字符圖形相應(yīng)于gijk的值;及Wij表示在第i個(gè)連接單元方向上和第j個(gè)觀察方向上的權(quán)。
在上述專利申請(qǐng)中,只有當(dāng)在初步分類Ⅰ和初步分類Ⅱ中,每一類型的所有特征分量的誤差總和求出之后,差距DⅠ和DⅡ才和它們?cè)谙鄳?yīng)階段各自的閾值進(jìn)行比較。但實(shí)際上,由于部分特征分量的誤差總和就有可能超過閾值,因此,計(jì)算所有特征分量的辦法會(huì)大大浪費(fèi)時(shí)間。雖然上述的專利申請(qǐng),用硬件設(shè)置去實(shí)現(xiàn)分類和鑒別處理也是可能的,但是對(duì)于每種處理需要設(shè)置獨(dú)立的硬件設(shè)備,因?yàn)檎鐝姆匠?1),(2)和(3)中看到的那樣,這些方程需進(jìn)行不同的運(yùn)算,其結(jié)果使得設(shè)備昂貴,控制復(fù)雜。
但是,應(yīng)當(dāng)注意到,在獲得輸入字符圖形和標(biāo)準(zhǔn)字符圖形每一個(gè)特征分量之間的差的絕對(duì)值的和這一點(diǎn)上,方程(1),(2)和(3)是共同的。因此,通過將方程(1)和方程(3)分別地修改成下列方程(1′)和(3′),方程(1)-(3)就能重新寫成相同的運(yùn)算形式。
DⅠ(gT+ a )=Σi = 14| Wigi- Wifi| (1 ′)]]>DⅢ=Σi = 14Σj = 18Σk = 112|Wi jgi j k- Wijfi j k| (3 ′)]]>由于Wi和Wij是由i和ij確定的權(quán)常數(shù),因此,被提取的特征分量gi和gijk可以從被Wi和Wij修正過的Wigi和Wijgij的形式儲(chǔ)存。另一方面,存儲(chǔ)在詞典存儲(chǔ)器中的標(biāo)準(zhǔn)字符的特征分量也可以以權(quán)常數(shù)Wi和Wijk修改過的Wifi和Wijfijk的形式存儲(chǔ)。于是,在初步分類Ⅰ和鑒別處理階段中,可以得到這些修正的特征分量之間的差的絕對(duì)值之和。對(duì)初步分類Ⅱ的特征分量沒有進(jìn)行修正,gij和fij仍和原來(lái)一樣,因此,通過使用加權(quán)值表示初步分類Ⅰ和鑒別處理階段的特征分量,所有運(yùn)算過程皆可以只依靠加法運(yùn)算和減法運(yùn)算去實(shí)現(xiàn),這樣就減輕了硬件的負(fù)擔(dān)。而且,如果對(duì)各種類型特征處理是按照串行方式執(zhí)行的,則可采用公用的硬件設(shè)置,從而進(jìn)一步地簡(jiǎn)化了硬件設(shè)備。
圖1示出了根據(jù)上述概念組成的本發(fā)明的分類和鑒別處理的結(jié)構(gòu)實(shí)例。輸入字符圖形在字符讀入部分2被讀入,諸如規(guī)格化和變細(xì)等。予處理,在予處理部分4進(jìn)行;上述的初步分類Ⅰ,初步分類Ⅱ和鑒別階段的三種特征參數(shù),在特征提取部分6提取出來(lái)。雖然,任何一種技術(shù)均可用來(lái)提取特征參數(shù),但是采用在日本專利申請(qǐng)?zhí)?97018/84和197016/84中已公開了的技術(shù)№5將是有好處的。對(duì)于規(guī)格化,也可采用在日本專利申請(qǐng)?zhí)?48725/84中已公開了的技術(shù)。
提取出來(lái)的特征按其類型存儲(chǔ)在特征數(shù)緩沖存儲(chǔ)器中。如上所述,初步分類Ⅰ和鑒別階段的特征分量在特征提取部分6中分別地以Wigi和Wijgijk的形式予以加權(quán),而且加權(quán)后的值存儲(chǔ)在特征緩沖存儲(chǔ)器8中作為初步分類Ⅰ和鑒別階段的特征分量。初步分類Ⅱ的特征分量gij存儲(chǔ)形式不變。
在上述未審查的專利公告予201184/83中,(初步分類Ⅰ,4維)+(初步分類Ⅱ,24維)+(鑒別,384維)=412維特征分量將被使用。但在本例中,由于鑒別階段的觀察方向?qū)⒑?jiǎn)化成0°,45°,98°,和135°等4個(gè)方向(j=1-4),因此,(初步分類Ⅰ,4維)+(初步分類Ⅱ,24維)+(鑒別,192維)=220維特征分量將被使用。
另一方面,從標(biāo)準(zhǔn)字符圖形中提取出來(lái)的每種類型的相應(yīng)特征分量存儲(chǔ)在RAM(隨機(jī)存儲(chǔ)器)組成的詞典存儲(chǔ)器中。當(dāng)然,初步分類Ⅰ和鑒別階段的特征分量是用加權(quán)的形式Wifi和Wijfijk來(lái)存儲(chǔ)的,而初步分類Ⅱ的特征分量是以其原來(lái)的形式fij存儲(chǔ)的。
這里對(duì)詞典存儲(chǔ)器之結(jié)構(gòu)予以說明。圖3示出了在詞典存儲(chǔ)器10中的標(biāo)準(zhǔn)字符圖形排列的例子。在垂直方向標(biāo)準(zhǔn)字符圖形詞典,對(duì)被采用的所有字符(N),按字符排列成一個(gè)串行的系列;在水平方向,對(duì)每個(gè)字符賦值256個(gè)字節(jié)。即,初步分類Ⅰ的4維特征分量(Wifi);初步分類Ⅱ的24維特征分量(fij);鑒別的192維特征分量Wijfijk,它們是以每維一個(gè)字節(jié)的方法被存儲(chǔ)的,其后跟著2-字節(jié)的字符代碼,以確定標(biāo)準(zhǔn)字符的圖形,剩余的34個(gè)字節(jié)是作為被用的區(qū)域。
詞典存儲(chǔ)器10的結(jié)構(gòu)特點(diǎn)在于標(biāo)準(zhǔn)字符的排列方式,使得將要和存儲(chǔ)在特征緩沖寄存器8中(從S到E)的特征分量進(jìn)行比較的標(biāo)準(zhǔn)字符的范圍,能夠僅用給起始和終止的字符位置賦值就能確定下來(lái)。圖4為標(biāo)準(zhǔn)字符排列方式的例子。該圖說明讀入漢字和非漢字字符的標(biāo)準(zhǔn)排列方式,例如,由日本工業(yè)標(biāo)準(zhǔn)(JIS)C6235)定義的“用日語(yǔ)處理文件的字符板排列”。在第一項(xiàng)中的全-寬符號(hào)是一種專用字符,他們是未列入日本工業(yè)標(biāo)準(zhǔn)8位代碼制的字符(×,÷,§和
);在第六項(xiàng)中的假名符號(hào)是假名的專用字符(、,。,·,〔,〕和-);在第十四項(xiàng)中的半寬字符是包含在JIS8位代碼制中的專用字符(,;,★,@,等)。在第四,八和十三項(xiàng)中是無(wú)效字符(空格符)的標(biāo)準(zhǔn)圖形。至今,識(shí)別處理通常是跳過無(wú)效字符(空格符)并對(duì)無(wú)效字符(空格符)進(jìn)行特殊的處理。但是,由于無(wú)效字符(空格符)頻繁地在文件中出現(xiàn),因此使得識(shí)別處理和硬件設(shè)置變得復(fù)雜。把無(wú)效字符作為一種字符種類中的標(biāo)準(zhǔn)圖形并執(zhí)行相同的預(yù)處理和特征參數(shù)的提取,而不管被讀入的字符是不是無(wú)效字符,則字符識(shí)別就可以以通用的處理方法去完成,無(wú)須考慮無(wú)效字符。進(jìn)而通過在類別組(1-3,5-7,9-12和14項(xiàng))之間安排無(wú)效字符作為字符類別的方法,僅用起始和結(jié)束的字符位置就能夠確定搜索的范圍。
圖5示出了用于各種輸入字符類型的圖4的字符類別選擇的一個(gè)例子。由于標(biāo)準(zhǔn)圖形是按順序存儲(chǔ)在詞典存儲(chǔ)器中,因此,通過指定選擇的字符類型范圍內(nèi)的第一個(gè)和最后一個(gè)字符位置并簡(jiǎn)單地對(duì)該范圍進(jìn)行掃描就可以完成字符的分類和識(shí)別。
存儲(chǔ)在詞典存儲(chǔ)器10中的字符分類,每種字符類型在存儲(chǔ)器中的排列和對(duì)無(wú)效字符插入的最佳位置,能夠根據(jù)所采用的OCR的型號(hào)進(jìn)行最佳選擇。除無(wú)效字符外,也還有一些字符可和多種字符一起使用,或者和其它字符組合使用,這些字符可以放在許多位置上。例如,如果符號(hào)“
”希望在文件的數(shù)字區(qū)域讀出,于是“
”的標(biāo)準(zhǔn)圖形可以被包含在第十項(xiàng)的字符類中和第十四項(xiàng)的字符類中,或者符號(hào)“
”可以插入在第十項(xiàng)字符類之后作為一個(gè)附加的字符種類。
例如要識(shí)別的字符包括,例如平假名和數(shù)字,且標(biāo)準(zhǔn)圖形排列成如圖4所示的形式,于是它們能用指定第五項(xiàng)到第九項(xiàng)的字符種類來(lái)處理。但是,由于假名類也包含在這個(gè)范圍內(nèi),因此,一些不必要的處理也會(huì)進(jìn)行。在這種情況下,如果RAM被用作詞典存儲(chǔ)器,那末,標(biāo)準(zhǔn)圖形就可以根據(jù)所用OCR和它的使用條件靈活地排列成最佳狀態(tài)。
現(xiàn)在回到圖1,當(dāng)實(shí)際的識(shí)別過程開始的時(shí)候,在啟動(dòng)分類和鑒別系統(tǒng)之前,必需予置一些必要的參數(shù)。這些參數(shù)是對(duì)于識(shí)別所需的搜索范圍(即在圖3中從S到E)和閾值。放在這個(gè)范圍內(nèi)的第一個(gè)字符位置的地址S將輸入起始指針22中。而在該范圍內(nèi),E+1個(gè)字符的位置(該字符緊靠最后一個(gè)字符E)的地址將裝入末指針24中。初步分類Ⅰ,初步分類Ⅱ和鑒別階段的閾值,即分別地規(guī)定方程(1′),(2)和(3′)的上限的閾值TH1,TH2和TH3,將分別地裝入閾值寄存器40,42和44中。
當(dāng)從一個(gè)輸入字符圖形中提取出來(lái)的每一類型特征分量(Wigi,gij和Wijgijk)裝入到特征參數(shù)緩沖存儲(chǔ)器8中之后,分類和鑒別系統(tǒng)被啟動(dòng)時(shí),起始指針22的值首先被裝入指針H12中。
指針H12和指針L14相結(jié)合產(chǎn)生出訪問詞典存儲(chǔ)器10的地址。指針L14是一個(gè)計(jì)數(shù)器,計(jì)數(shù)范圍從0到221,并由連線16接到特征緩沖存儲(chǔ)器8和詞典存儲(chǔ)器10。正像下面所講的那樣,每當(dāng)特征存儲(chǔ)器8中的輸入字符和由指針H12所指出的標(biāo)準(zhǔn)圖形的一對(duì)相應(yīng)的特征分量進(jìn)行比較時(shí),時(shí)間/控制電路28發(fā)出L+1的增量信號(hào),指針L14由于指針L的增量信號(hào)L+1的作用而加1。并從特征緩沖器8和詞典存儲(chǔ)器中讀出下一對(duì)相應(yīng)的特征分量。因此,指針L14在連線16上為220維的特征分量產(chǎn)生出0-219個(gè)地址,當(dāng)標(biāo)準(zhǔn)圖形被判定作為候選字符的時(shí)候,為了讀出標(biāo)準(zhǔn)圖形的2-字節(jié)字符代碼,指針L14還在連線18上進(jìn)一步產(chǎn)生出220到221的地址。
指針H12是一個(gè)計(jì)數(shù)器,其計(jì)數(shù)的數(shù)值足可以指出存儲(chǔ)在詞典存儲(chǔ)器10中的全部字符。當(dāng)通過對(duì)220維特征分量進(jìn)行比較而找到了候選字符的時(shí)候,由指針L14的溢出輸出,H12加1;或者當(dāng)發(fā)現(xiàn),正在比較的標(biāo)準(zhǔn)圖形不可能成為候選字符的時(shí)候,即使此時(shí)220維特征分量的比較尚未全部進(jìn)行完畢,時(shí)間/控制電路28也會(huì)發(fā)出一個(gè)H指針的遞增信號(hào)H+1,這也使得H12計(jì)數(shù)器加1。指針H16的計(jì)數(shù)值將由連線20提供給詞典存儲(chǔ)器10以及選擇字符。
在運(yùn)算中,通過指針L14讀入的特征參數(shù)緩沖寄存器8的第一個(gè)特征分量(初步分類Ⅰ的第一維特征分量)和由指針H12指出的標(biāo)準(zhǔn)圖形的相應(yīng)的特征分量都輸入到差分絕對(duì)值計(jì)算電路32中。差分絕對(duì)值計(jì)算電路32的輸出和加法寄存器36的輸出在加法器34中相加。加法寄存器36可以在每類特征分量(初級(jí)分類Ⅰ,初級(jí)分類Ⅱ和識(shí)別)開始進(jìn)行比較時(shí)的指針L14的計(jì)數(shù)值0,4和28被清除為0。由于開始運(yùn)算的時(shí)候,指針L=0,因此加法寄存器36也被清除為0,然后把加法器34的輸出裝入加法寄存器36。
加法寄存器36的輸出加到比較器38的一個(gè)輸入端,多路轉(zhuǎn)接器MP×46的輸出加到比較器38的另一個(gè)輸入端。多路轉(zhuǎn)接器46響應(yīng)指針L14的計(jì)數(shù)0,4和8的輸出,在初步分類Ⅰ進(jìn)行特征分量比較時(shí)(指針L=0到3),選通閾值TH1到比較器38;在初步分類Ⅱ進(jìn)行比較時(shí)(指針L=4到27),選通閾值TH2到比較器38;在鑒別處理進(jìn)行比較時(shí),(指針L=28到219),選通閾值TH3到比較器38。
比較器38把加法寄存器36的值和由多路轉(zhuǎn)接器46選擇的閾值(在這種情況下是TH1)進(jìn)行比較,并當(dāng)加法寄存器36的值超過閾值TH1時(shí),比較器38將其輸出信號(hào)加到時(shí)間/控制電路28上。時(shí)間/控制電路28響應(yīng)該信號(hào),并產(chǎn)生復(fù)位信號(hào)R使指針L14復(fù)位,同時(shí)也產(chǎn)生指針H的遞增信號(hào)H+1以使得指針H12加1。于是,當(dāng)比較器38產(chǎn)生的輸出信號(hào)指出,目前正被比較的標(biāo)準(zhǔn)圖形和輸入圖形有很大差異時(shí),對(duì)下一個(gè)標(biāo)準(zhǔn)圖形立即進(jìn)行訪問,于是,輸入圖形和下一個(gè)標(biāo)準(zhǔn)圖形的比較即告開始。
如果比較器38無(wú)輸出信號(hào)產(chǎn)生,則時(shí)間/控制電路28將繼續(xù)正常的操作,產(chǎn)生指針L的遞增信號(hào)L+1去使指針L的計(jì)數(shù)加1,并從特征參數(shù)緩沖存儲(chǔ)器8和詞典存儲(chǔ)器10中讀出下一對(duì)相應(yīng)的特征分量去執(zhí)行類似的操作步驟。對(duì)于在加法寄存器36中的每次比較加法器34的輸出都被累加,并在比較器38中進(jìn)行比較,在輸出超過閾值TH1時(shí),如上所述,就立即開始和下一個(gè)標(biāo)準(zhǔn)圖形的比較。
如果加法寄存器36累加的差分值,在初步分類Ⅰ的4維特征分量都比較完了之后,還沒有超過閾值TH1,加法寄存器36的值數(shù)要被指針L的計(jì)數(shù)輸出4清除為0。多路轉(zhuǎn)接器46選擇閾值TH2,并在初步分類Ⅱ中開始對(duì)當(dāng)前的標(biāo)準(zhǔn)字符進(jìn)行比較。在初步分類Ⅱ中,對(duì)于24維特征分量順序地進(jìn)行比較。
在初步分類Ⅱ處理期間,當(dāng)加法寄存器36的累加差分值超過閾值TH2時(shí),和下一個(gè)標(biāo)準(zhǔn)圖形的比較立即開始。如果這個(gè)值沒有超過閾值TH2,則加法寄存器36由指針L的計(jì)數(shù)28復(fù)位,多路轉(zhuǎn)接器46將選擇閾值TH3以開始鑒別處理,并對(duì)192維特征分量重復(fù)其比較運(yùn)算步驟。
當(dāng)累加的差分值超過TH3時(shí),這就意味著當(dāng)前的標(biāo)準(zhǔn)圖形不是一個(gè)候選字符,并立即開始和下一個(gè)標(biāo)準(zhǔn)字符的比較。但是,如果這個(gè)值沒有超過閾值TH3,時(shí)間/控制電路28遞增指針L14在連線18上輸出計(jì)數(shù)值220和221,從詞典存儲(chǔ)器10中讀出標(biāo)準(zhǔn)圖形的2-字節(jié)字符代碼,并將這個(gè)字符代碼和作為差距值的加法寄存器36的累加差分值存儲(chǔ)在結(jié)果緩沖存儲(chǔ)器50中。計(jì)數(shù)器48為結(jié)果緩沖存儲(chǔ)器50提供地址,并被指針L14的最后計(jì)數(shù)值221所遞增,去指出結(jié)果緩沖存儲(chǔ)器50的下一個(gè)地址。指針L的溢出輸出加在指針H12上,使H12加1,并使得在下一個(gè)標(biāo)準(zhǔn)圖形上進(jìn)行的類似比較步驟從初級(jí)分類Ⅰ開始。
對(duì)于每個(gè)標(biāo)準(zhǔn)圖形進(jìn)行重復(fù)的操作,以便在指定的區(qū)域內(nèi)搜索出全部候選字符。一個(gè)或者多個(gè)已經(jīng)通過了鑒別處理的標(biāo)準(zhǔn)圖形和它們的差距值都按順序裝入緩沖器50中。指針H12的計(jì)數(shù)值受比較器26監(jiān)視,且當(dāng)指針H12的計(jì)數(shù)值等于結(jié)束指針24的設(shè)定值時(shí),比較器26便通知時(shí)間/控制電路28,對(duì)指定區(qū)域的搜索已結(jié)束,以停止分類和鑒別處理。在此刻,結(jié)束緩沖存儲(chǔ)器50可以含有一個(gè)或更多的候選字符,結(jié)果緩沖存儲(chǔ)器50的內(nèi)容和計(jì)數(shù)器48的值(指示候選字符的個(gè)數(shù))都由控制處理器(圖中未畫出)讀出來(lái),從最小差距值開始按順序存儲(chǔ),第一個(gè)候選字符在打印機(jī)或CRT(未畫出)上輸出。
通過選擇在閾值寄存器40,42和44中設(shè)定的閾值,能夠快速縮小識(shí)別范圍。
在上述例子中,初步分類Ⅰ,初步分類Ⅱ和鑒別階段的三種特征分量由公用硬件順序地進(jìn)行了處理,而且硬件設(shè)置簡(jiǎn)單得多。如果需要,可用一組差分絕對(duì)值計(jì)算電路32去執(zhí)行并行的處理以改善處理的速度。為了這個(gè)目的,需要一個(gè)電路從特征參數(shù)緩沖器8和詞典存儲(chǔ)器10中同時(shí)讀出一組數(shù)據(jù)或者幾個(gè)字節(jié),并把用一組差分絕對(duì)值計(jì)算電路計(jì)算它們之后的結(jié)果相加,但其他部分都是相同的。例如,若裝上兩個(gè)差分絕對(duì)值計(jì)算電路,且這些差分絕對(duì)值的輸出的和加在加法器34上,于是,當(dāng)閾值被超過時(shí),跳過當(dāng)前標(biāo)準(zhǔn)圖形,這樣增加處理速度和指出被搜索范圍的優(yōu)點(diǎn)都能夠保留下來(lái),從而得到兩倍的處理速度。
(1)在依次進(jìn)行的許多特征分量的每一比較階段,將累加的差分值和閾值進(jìn)行比較,當(dāng)超過閾值時(shí),和當(dāng)前標(biāo)準(zhǔn)圖形的比較停止下來(lái),并立即跳過該標(biāo)準(zhǔn)圖形去和下一個(gè)標(biāo)準(zhǔn)圖形進(jìn)行比較。
(2)用于使識(shí)別范圍縮小的初步分類Ⅰ和初步分類Ⅱ及用于識(shí)別的鑒別處理能夠由單個(gè)硬件來(lái)完成,從而使硬件簡(jiǎn)單并實(shí)現(xiàn)高速處理。
(3)通過適當(dāng)?shù)卦O(shè)計(jì)詞典存儲(chǔ)器1,使得搜索的范圍能夠僅用檢索起始地址和結(jié)束地址確定下來(lái),這樣,不需采用專門附加電路進(jìn)行字符類別選擇就能夠縮小檢索的范圍,因此避免了浪費(fèi)時(shí)間的計(jì)算操作。
(4)在處理無(wú)效字符時(shí),不把它和普通字符區(qū)分開來(lái),因此,對(duì)無(wú)效字符不必特殊處理和設(shè)置硬件,這樣就簡(jiǎn)化了硬件和控制裝置。
圖1示出了本發(fā)明的一個(gè)實(shí)施例。
圖2是說明字符識(shí)別流程的框圖。
圖3是解釋詞典存儲(chǔ)器結(jié)構(gòu)的示意圖。
圖4是解釋標(biāo)準(zhǔn)圖形在詞典存儲(chǔ)器中的排列的示意圖。
圖5是解釋在詞典存儲(chǔ)器中選擇標(biāo)準(zhǔn)圖形的示意圖。
8……特征參數(shù)緩沖存儲(chǔ)器;10……詞典存儲(chǔ)器;12,14……指針;22……起始指針;24……結(jié)束指針;28……時(shí)間/控制電路;32……差分絕對(duì)值計(jì)算電路;34……加法器;36……加法寄存器;38……比較器;40,42,44……閾值寄存器;46……多路轉(zhuǎn)接器;50……結(jié)果緩沖存儲(chǔ)器。
權(quán)利要求
1.字符識(shí)別系統(tǒng)含有詞典存儲(chǔ)器,用于對(duì)于每個(gè)標(biāo)準(zhǔn)字符至少存儲(chǔ)一種類型含有多維特征分量的特征參數(shù);特征參數(shù)存儲(chǔ)器裝置,用于存儲(chǔ)從一個(gè)將被識(shí)別輸入字符中提取出來(lái)的特征參數(shù),并將和上述的標(biāo)準(zhǔn)字符的特征參數(shù)進(jìn)行比較;尋址裝置,用于根據(jù)維的次序依次讀出存儲(chǔ)在上述特征參數(shù)存儲(chǔ)器裝置中的特征分量,并用于從上述詞典存儲(chǔ)器裝置中順次讀出每個(gè)標(biāo)準(zhǔn)字符的相應(yīng)維的特征分量;第一比較裝置,用于順序地比較從上述特征參數(shù)存儲(chǔ)器裝置中和從上述的詞典存儲(chǔ)器中讀出的相應(yīng)維的特征分量,以產(chǎn)生一個(gè)指示失配度的比較輸出;累加裝置,用于對(duì)同類特征分量,累加上述的比較輸出。該字符識(shí)別系統(tǒng)的特征在于包含了下述裝置閾值裝置,用于提供為在上述第一種比較裝置中將要比較的那種類型特征分量而確定的閾值,第二比較裝置,用于把上述累加裝置的輸出和上述閾值逐次進(jìn)行比較,并累加上述比較輸出,控制裝置,用于當(dāng)上述累加裝置的輸出超過上述的閾值時(shí),響應(yīng)上述第二比較裝置的輸出,使上述尋址裝置的訪問跳過當(dāng)前字符,以便進(jìn)行和上述詞典存儲(chǔ)器裝置中的下一個(gè)標(biāo)準(zhǔn)字符進(jìn)行比較。
2.根據(jù)權(quán)利要求
(1)的字符識(shí)別系統(tǒng),其特征在于上述詞典存儲(chǔ)器裝置存儲(chǔ)多種類型特征參數(shù),每種特征參數(shù)又含有多維特征分量,上述尋址裝置根據(jù)特征類型和維的次序從上述特征存儲(chǔ)裝置和上述詞典存儲(chǔ)器中,順序讀出相應(yīng)維的特征分量,上述閾值裝置具有一個(gè)寄存器用以保持對(duì)每種類型特征確定的閾值,上述閾值裝置還具有另一個(gè)裝置,用于選擇與上述第一種比較裝置中正在被比較的那種特征分量有關(guān)的閾值。
3.根據(jù)權(quán)利要求
(1)和(2)的字符識(shí)別系統(tǒng),其特征在于上述詞典存儲(chǔ)器裝置按字符類別分組以字符串的形式存儲(chǔ)標(biāo)準(zhǔn)字符的特征參數(shù),并且,在多個(gè)位置上至少包含一個(gè)字符。上述尋址裝置有一個(gè)指出檢索開始位置的開始指針和一個(gè)指出檢索結(jié)束位置的結(jié)束指針,并且標(biāo)準(zhǔn)字符的特征參數(shù)在由上述開始和結(jié)束指針?biāo)付ǖ姆秶鷥?nèi)被訪問。
4.根據(jù)權(quán)利要求
(3)的字符識(shí)別系統(tǒng),其特征在于排列在上述多個(gè)位置上的字符,包括無(wú)效字符。
專利摘要
對(duì)于每一個(gè)輸入字符,借助于硬件提取許多不同類型的特征,并把這些特征參數(shù)和每個(gè)標(biāo)準(zhǔn)字符的特征參數(shù)進(jìn)行比較,從而完成對(duì)輸入字符的快速分類和鑒別。輸入字符和標(biāo)準(zhǔn)字符的特征參數(shù),按其類型進(jìn)行核對(duì)。每類特征參數(shù)又含有多維特征分量,同類特征分量依其相應(yīng)的維數(shù)順序進(jìn)行比較,以檢查其失配程度,在同類型中,相應(yīng)維的特征分量逐次進(jìn)行比較并累加其失配度。累加的結(jié)果與相對(duì)于該類設(shè)定的閾值進(jìn)行比較;當(dāng)累加的結(jié)果超過閾值時(shí),和當(dāng)前標(biāo)準(zhǔn)字符的比較在此刻停下來(lái),并跳過去和下一個(gè)標(biāo)準(zhǔn)字符進(jìn)行比較。
文檔編號(hào)G06K9/68GK86100220SQ86100220
公開日1986年8月27日 申請(qǐng)日期1986年1月16日
發(fā)明者加藤真, 曾根広尚, 高橋弘晏 申請(qǐng)人:國(guó)際商業(yè)機(jī)器公司導(dǎo)出引文BiBTeX, EndNote, RefMan