本發(fā)明涉及一種文字識(shí)別處理,尤其涉及一種能夠高速識(shí)別劣化的文字圖像的文字識(shí)別處理。
背景技術(shù):
作為光學(xué)讀取并識(shí)別手寫或印刷文字的光學(xué)文字識(shí)別(Optical Character Recognition,OCR)中的課題之一,有時(shí)要精度良好地識(shí)別發(fā)生了劣化的文字圖像。在文字識(shí)別處理中,若是識(shí)別對(duì)象的文字圖像的尺寸充分大且沒有模糊或飛白、破損、噪聲(noise)等的理想狀態(tài),則識(shí)別精度高。但是,若文字圖像的尺寸小,或者存在模糊或飛白、破損、噪聲,則文字的識(shí)別精度將下降。例如,若文字圖像的尺寸小,則通過標(biāo)準(zhǔn)化處理來放大文字尺寸會(huì)產(chǎn)生模糊,因此使用根據(jù)理想的文字圖像所制作的字典的文字識(shí)別的精度將下降。在如此般識(shí)別對(duì)象的文字圖像偏離理想狀態(tài)的情況下,可以說文字圖像發(fā)生了劣化。
例如,作為OCR的應(yīng)用,已知有一種牌照(number plate)識(shí)別系統(tǒng),其利用攝像機(jī)(camera)來拍攝行駛在道路上的車輛上所揭示的牌照,并對(duì)所描繪的文字進(jìn)行識(shí)別。以往,主流的做法是針對(duì)每個(gè)車道而在道路上方設(shè)置攝像機(jī),但近年來,考慮到設(shè)備條件的限制或成本的觀點(diǎn),出現(xiàn)了將攝像機(jī)固定設(shè)置于豎立在道路路側(cè)的燈桿上的做法。當(dāng)在多車道的道路上使用設(shè)置于道路路側(cè)的方式時(shí),根據(jù)車道而距攝像機(jī)的距離不同,因此靠近攝像機(jī)的車道的牌照大小與遠(yuǎn)離攝像機(jī)的車道的牌照大小將不同。遠(yuǎn)的車道的牌照中的文字圖像變小,通過標(biāo)準(zhǔn)化處理,文字圖像有可能產(chǎn)生劣化。
作為針對(duì)劣化的文字圖像的識(shí)別方法,可列舉專利文獻(xiàn)1。專利文獻(xiàn)1中公開了:預(yù)先制作好各種劣化等級(jí)(level)的字典,基于識(shí)別對(duì)象的文字圖像與相同劣化等級(jí)的測(cè)試樣本(test sample)的類似度,來決定要利用的字典的劣化等級(jí)。
現(xiàn)有技術(shù)文獻(xiàn)
專利文獻(xiàn)
專利文獻(xiàn)1:日本專利特開2006-59351號(hào)公報(bào)
專利文獻(xiàn)2:國(guó)際公開第2012/173205號(hào)說明書
技術(shù)實(shí)現(xiàn)要素:
發(fā)明所要解決的課題
但是,專利文獻(xiàn)1的方法存在如下所述的問題。該方法中,是基于測(cè)試樣本來決定要利用的字典。因此,在如室外環(huán)境下的車輛牌照中的文字圖像的識(shí)別,識(shí)別對(duì)象圖像的尺寸或模糊程度存在偏差,而對(duì)應(yīng)于每個(gè)圖像或者每個(gè)文字為最佳的字典的劣化等級(jí)不同的案例(case)中,字典的決定很困難,而且,所決定的字典有時(shí)也并非最佳的字典。
作為解決該問題的方法,考慮相對(duì)于所制作的各種劣化等級(jí)的字典而一一輪流地進(jìn)行識(shí)別。但是,相對(duì)于所輸入的文字圖像的比對(duì)次數(shù)將增大(若設(shè)一個(gè)字典中所含的文字?jǐn)?shù)為k,劣化字典的數(shù)量為n,則需要進(jìn)行k×n次比對(duì)),處理時(shí)間將增大。
本發(fā)明是鑒于所述實(shí)際情況而完成,其提供一種能夠精度良好且高速地識(shí)別劣化的文字圖像的技術(shù)。
解決課題的技術(shù)手段
為了達(dá)成所述目的,本發(fā)明具有以下的結(jié)構(gòu)。
本發(fā)明的第一形態(tài)是一種文字識(shí)別裝置,包括:存儲(chǔ)部件,存儲(chǔ)多個(gè)字典數(shù)據(jù)庫(data base),所述多個(gè)字典數(shù)據(jù)庫是根據(jù)使原始(original)文字圖像以多個(gè)不同的劣化等級(jí)劣化而成的圖像所生成,且分別對(duì)應(yīng)于多個(gè)劣化等級(jí);圖像輸入部件,接受圖像的輸入;提取部件,從所述圖像中提取文字圖像;利用順序決定部件,基于所提取的文字圖像的劣化度,來決定所述多個(gè)字典數(shù)據(jù)庫的利用順序;以及文字識(shí)別部件,是按照所述利用順序來使用字典數(shù)據(jù)庫進(jìn)行所述所提取的文字圖像中所含文字的識(shí)別的文字識(shí)別部件,且在識(shí)別結(jié)果不滿足規(guī)定條件時(shí),進(jìn)行使用下個(gè)利用順序的字典數(shù)據(jù)庫的文字識(shí)別,當(dāng)識(shí)別結(jié)果滿足所述規(guī)定條件時(shí),不進(jìn)行使用下個(gè)利用順序的字典數(shù)據(jù)庫的識(shí)別而輸出所述識(shí)別結(jié)果。
根據(jù)此種結(jié)構(gòu),由于保有多個(gè)劣化等級(jí)的字典數(shù)據(jù)庫,因此能夠精度良好地進(jìn)行劣化的文字圖像的識(shí)別。進(jìn)而,不需要進(jìn)行使用所有字典數(shù)據(jù)庫的識(shí)別處理,在識(shí)別結(jié)果滿足規(guī)定條件的時(shí)刻結(jié)束識(shí)別處理,因此比起使用所有劣化等級(jí)的字典數(shù)據(jù)庫來進(jìn)行識(shí)別的情況,能夠進(jìn)行更高速的文字識(shí)別。
而且,優(yōu)選的是,本發(fā)明中的所述利用順序決定部件預(yù)先存儲(chǔ)有所述文字圖像的劣化度與所述字典數(shù)據(jù)庫的對(duì)應(yīng)關(guān)系,使用所述對(duì)應(yīng)關(guān)系來決定所述利用順序。
而且,也優(yōu)選的是,本發(fā)明中的所述利用順序決定部件根據(jù)所述對(duì)應(yīng)關(guān)系來求出與所述文字圖像的劣化度對(duì)應(yīng)的劣化等級(jí),且將所述利用順序決定為:將與所求出的劣化等級(jí)對(duì)應(yīng)的字典數(shù)據(jù)庫作為最先利用者,并從與跟所求出的劣化等級(jí)接近的劣化等級(jí)對(duì)應(yīng)的字典數(shù)據(jù)庫開始依次利用。
而且,優(yōu)選的是,所述對(duì)應(yīng)關(guān)系是基于使用與所述多個(gè)劣化等級(jí)對(duì)應(yīng)的所有字典數(shù)據(jù)庫來對(duì)多個(gè)測(cè)試圖像進(jìn)行比對(duì)所得的結(jié)果而生成。
根據(jù)此種結(jié)構(gòu),根據(jù)識(shí)別對(duì)象的文字圖像的劣化度,將越是期待能夠準(zhǔn)確識(shí)別的字典數(shù)據(jù)庫決定為越早的利用順序,因此能夠期待識(shí)別結(jié)果在較早的階段便滿足規(guī)定條件,從而能夠進(jìn)一步實(shí)現(xiàn)處理的高速化。
而且,所述規(guī)定條件可包含:使用所述字典數(shù)據(jù)庫的文字識(shí)別中的最高的比對(duì)得分(score)為規(guī)定閾值以上這一條件。
而且,所述規(guī)定條件可包含:使用所述字典數(shù)據(jù)庫的文字識(shí)別中的最高的比對(duì)得分與第二高的比對(duì)得分之差為規(guī)定閾值以上這一條件。
若滿足此種條件,則可以說文字識(shí)別的可靠性高,因此能夠避免輸出可靠性低的識(shí)別結(jié)果,從而能夠兼顧處理的高速化與識(shí)別精度的提高。
而且,優(yōu)選的是,所述文字圖像的劣化度是基于由所述提取部件所提取的文字圖像中所含的文字的大小與標(biāo)準(zhǔn)化處理后的大小相比較而小多少來決定。進(jìn)而,也優(yōu)選的是,所述標(biāo)準(zhǔn)化處理中,將文字圖像變形為具有規(guī)定大小的正方形,所述文字圖像的劣化度是基于從所述正方形的一邊的長(zhǎng)度減去由所述提取部件所提取的文字圖像的縱向尺寸或橫向尺寸中的較大者所得的值來決定。在文字識(shí)別中,對(duì)所提取的文字圖像的尺寸進(jìn)行標(biāo)準(zhǔn)化并進(jìn)行識(shí)別處理,若所提取的文字圖像的尺寸小于標(biāo)準(zhǔn)化后的尺寸,則會(huì)因標(biāo)準(zhǔn)化處理(放大處理)導(dǎo)致文字圖像發(fā)生劣化。因此,能夠基于標(biāo)準(zhǔn)化處理前的文字圖像的尺寸來決定文字圖像的劣化度。
而且,除了所提取的文字圖像的大小比標(biāo)準(zhǔn)化尺寸小的情況以外,還會(huì)因模糊的產(chǎn)生、文字的飛白、文字的破損、噪聲的重疊而導(dǎo)致文字圖像發(fā)生劣化。因此,作為文字圖像的劣化度,也可采用對(duì)模糊量的大小、文字的飛白程度、文字的破損程度、噪聲的重疊量等進(jìn)行評(píng)價(jià)所得的值。
而且,也優(yōu)選的是,所述圖像包含車輛的至少一部分,所述提取部件從所述圖像中提取揭示于所述車輛的牌照上所描繪的文字來作為所述文字圖像。
另外,本發(fā)明能夠作為包含所述部件的至少一部分的文字識(shí)別裝置而掌握。而且,本發(fā)明也能夠作為文字識(shí)別方法而掌握。而且,也能夠作為用于使計(jì)算機(jī)(computer)執(zhí)行這些方法的各步驟的計(jì)算機(jī)程序(program)、非暫時(shí)性地存儲(chǔ)有該程序且計(jì)算機(jī)可讀取的存儲(chǔ)介質(zhì)而掌握。所述結(jié)構(gòu)及處理能夠分別在不產(chǎn)生技術(shù)矛盾的范圍內(nèi)彼此組合而構(gòu)成本發(fā)明。
發(fā)明的效果
根據(jù)本發(fā)明,能夠精度良好且高速地識(shí)別劣化的文字圖像。
附圖說明
圖1是表示實(shí)施方式的文字識(shí)別裝置的硬件結(jié)構(gòu)及功能結(jié)構(gòu)的框圖。
圖2是說明劣化字典的制作處理的圖。
圖3是表示劣化字典的制作處理的流程的流程圖。
圖4是表示文字識(shí)別處理的整體流程的流程圖。
圖5是表示針對(duì)所提取的一文字的文字識(shí)別處理的詳細(xì)流程的流程圖。
圖6是說明文字圖像的劣化度的圖。
圖7是說明劣化度與字典的劣化等級(jí)的對(duì)應(yīng)表、及利用順序決定算法(algorithm)的圖。
圖8是說明文字識(shí)別處理中的識(shí)別結(jié)果的可靠性判定處理的圖。
具體實(shí)施方式
以下,參照附圖來例示性地詳細(xì)說明用于實(shí)施本發(fā)明的優(yōu)選形態(tài)。但是,以下的實(shí)施方式中記載的構(gòu)成零件的尺寸、材質(zhì)、形狀、其相對(duì)配置等只要未特別記載,則并非將本發(fā)明的范圍僅限定于這些內(nèi)容的主旨。
(第1實(shí)施方式)
本實(shí)施方式的文字識(shí)別裝置是即使在輸入圖像中的文字大小比規(guī)定的標(biāo)準(zhǔn)化尺寸小的情況下,也能夠精度良好且高速地識(shí)別的裝置。在文字圖像(一個(gè)文字量)的大小比標(biāo)準(zhǔn)化尺寸小的情況下,文字圖像會(huì)因轉(zhuǎn)換為標(biāo)準(zhǔn)化尺寸時(shí)的放大處理而變成模糊的圖像,從而導(dǎo)致文字的識(shí)別精度下降。輸入圖像中的文字圖像的大小理想的是標(biāo)準(zhǔn)化尺寸以上,比標(biāo)準(zhǔn)尺寸小的文字圖像可以說發(fā)生了劣化。本實(shí)施方式中,即便是此種發(fā)生了劣化的文字圖像,也能夠精度良好且高速地識(shí)別。
<結(jié)構(gòu)>
圖1(a)是表示本實(shí)施方式的文字識(shí)別裝置10的硬件結(jié)構(gòu)的圖。文字識(shí)別裝置10包含圖像輸入部11、運(yùn)算裝置12、存儲(chǔ)裝置13、輸入裝置14、輸出裝置15及通信裝置16。圖像輸入部11是從攝像機(jī)20接受圖像數(shù)據(jù)的接口(interface)。另外,本實(shí)施方式中,是從攝像機(jī)20直接接受圖像數(shù)據(jù),但也可經(jīng)由通信裝置16來接受圖像數(shù)據(jù),或者經(jīng)由記錄介質(zhì)來接受圖像數(shù)據(jù)。運(yùn)算裝置12為中央處理器(Central Processing Unit,CPU)等通用的處理器(processor),執(zhí)行保存在存儲(chǔ)裝置13中的程序,實(shí)現(xiàn)后述的處理。存儲(chǔ)裝置13包含主存儲(chǔ)裝置及輔助存儲(chǔ)裝置,保存由運(yùn)算裝置12所執(zhí)行的程序,并且保存圖像數(shù)據(jù)或程序執(zhí)行中的臨時(shí)數(shù)據(jù)。輸入裝置14是包含鍵盤(keyboard)或鼠標(biāo)(mouse)等,供用戶(user)對(duì)文字識(shí)別裝置輸入指示的裝置。輸出裝置15是包含顯示裝置或揚(yáng)聲器(speaker)等,供文字識(shí)別裝置進(jìn)行對(duì)用戶的輸出的裝置。通信裝置16是供文字識(shí)別裝置10與外部的計(jì)算機(jī)進(jìn)行通信的裝置。通信的形態(tài)既可為有線也可為無線,通信規(guī)格可為任意。
運(yùn)算裝置12通過執(zhí)行程序,從而實(shí)現(xiàn)圖1(b)所示的功能。即,運(yùn)算裝置12實(shí)現(xiàn)文字提取部110、文字識(shí)別部111、文字識(shí)別用字典數(shù)據(jù)庫116的功能部。文字識(shí)別部111包含劣化度評(píng)價(jià)部112、利用順序決定部113、特征量獲取部114及比對(duì)部115。各部的處理內(nèi)容在以下說明。
<字典制作處理>
在文字識(shí)別用字典數(shù)據(jù)庫116中,保存多個(gè)劣化等級(jí)的字典(文字識(shí)別用數(shù)據(jù)庫)。如圖2所示,各劣化等級(jí)的字典是根據(jù)使鮮明的文字圖像(原始文字圖像)以各劣化等級(jí)劣化所得的圖像而生成。例如,原始文字圖像是65×65像素的鮮明的圖像。圖中,對(duì)于一個(gè)文字僅示出了一個(gè)圖像,但實(shí)際上,對(duì)于一個(gè)文字而將多個(gè)圖像用于字典制作。
以下,對(duì)于字典制作處理,參照?qǐng)D3的流程圖來進(jìn)行說明。另外,既可由文字識(shí)別裝置10自身執(zhí)行該字典制作處理,也可由其他裝置執(zhí)行該字典制作處理,并將制作而成的字典數(shù)據(jù)保存到文字識(shí)別用字典數(shù)據(jù)庫116中。
在字典制作處理中,首先指定要制作的字典的劣化等級(jí)(S10)。此處,假設(shè)制作劣化等級(jí)0、3、5、7、9、11的字典。步驟S10中的劣化等級(jí)的指定順序可為任意。接下來,指定要制作字典的對(duì)象文字(S11)。文字的指定順序可為任意。
步驟S12中,實(shí)施依照所指定的劣化等級(jí)來使所指定的文字的原始文字圖像發(fā)生劣化的轉(zhuǎn)換處理(以下稱作劣化處理)(若所指定的劣化等級(jí)為0,則不進(jìn)行任何操作)。如上所述,對(duì)于所指定的文字,存在多個(gè)原始文字圖像,因此對(duì)該所有圖像實(shí)施轉(zhuǎn)換處理。本實(shí)施方式中,采用將各像素值置換為周邊像素的像素值的平均值(簡(jiǎn)單平均或加權(quán)平均)的模糊處理(模糊附加處理)來作為轉(zhuǎn)換處理。劣化等級(jí)對(duì)應(yīng)于模糊處理中的模糊強(qiáng)度。另外,只要是能夠?qū)D像附加模糊的處理,則也可采用其他轉(zhuǎn)換處理,例如也可實(shí)施縮小處理至與劣化等級(jí)相應(yīng)的尺寸后,實(shí)施恢復(fù)到原始尺寸的放大處理。
步驟S13中,將實(shí)施了劣化處理的各個(gè)文字圖像轉(zhuǎn)換為規(guī)定的標(biāo)準(zhǔn)化尺寸。本實(shí)施方式中,通過該標(biāo)準(zhǔn)化而轉(zhuǎn)換為50×50像素的正方形。本實(shí)施方式中,原始圖像的尺寸大于標(biāo)準(zhǔn)化尺寸,但原始圖像的尺寸與標(biāo)準(zhǔn)化尺寸也可相同。文字尺寸的轉(zhuǎn)換處理可通過雙線性(bilinear)插值、雙三次(bicubic)插值、最近鄰(nearest neighbor)插值等已知的任意算法來執(zhí)行。在文字圖像并非正方形而是縱橫的長(zhǎng)度不同的長(zhǎng)方形的情況下,也可在維持縱橫比的狀態(tài)下以使縱橫中的任一較長(zhǎng)者成為標(biāo)準(zhǔn)化尺寸的方式進(jìn)行放大或縮小轉(zhuǎn)換,并將其結(jié)果配置在圖像的中心。此時(shí),對(duì)于空白部分的像素的亮度值,也可根據(jù)轉(zhuǎn)換結(jié)果的文字圖像來算出外周像素的亮度值的平均值以進(jìn)行設(shè)定。
步驟S14中,從劣化處理及標(biāo)準(zhǔn)化處理后的各個(gè)文字圖像中,獲取表示文字特征的文字特征量(特征量矢量(vector))。作為獲取文字特征的方法,廣泛使用有像素特征提取法、輪廓特征提取法、梯度特征提取法等,但也可使用任何文字特征提取方法。例如,也可針對(duì)每個(gè)像素而以鏈碼(chain code)來表示輪廓線的方向,并將各小區(qū)域中的鏈碼的直方圖作為文字特征量,還可將每個(gè)小區(qū)域的像素值的總和作為文字特征量。
步驟S15中,使用通過步驟S14而獲取的多個(gè)文字特征量,來制作用于識(shí)別所指定的文字的字典數(shù)據(jù)。字典被用于計(jì)算所輸入的文字(的文字特征量)、與字典視為對(duì)象的文字(的文字特征量)的類似度。本申請(qǐng)中,將使用從劣化處理后的文字圖像獲取的文字特征量而制作的字典稱作劣化字典。作為文字識(shí)別的方法,可采用局部空間法、神經(jīng)網(wǎng)絡(luò)(neural network)、支持向量機(jī)(Support Vector Machine,SVM)、判別分析等已知的任意方法,只要根據(jù)所采用的方式而通過公知的方法來制作字典即可。
通過至此為止的處理,對(duì)于步驟S10中所指定的劣化等級(jí)中的、步驟S11中所指定的文字的字典制作完成。步驟S16中,判定在該劣化等級(jí)中對(duì)于所有文字的字典制作是否已完成,若未完成,則返回至步驟s11,對(duì)于未處理的文字制作字典。若在所指定的劣化等級(jí)中對(duì)于所有文字的字典制作已完成,則前進(jìn)至步驟S17,判定對(duì)于所有劣化等級(jí)的字典制作是否已完成。若未完成,則返回至步驟S10來對(duì)未處理的劣化等級(jí)制作字典。若在所有劣化等級(jí)中字典制作已完成,則字典制作處理結(jié)束。
<文字識(shí)別處理>
圖4是表示由文字識(shí)別裝置10所進(jìn)行的文字識(shí)別處理的整體流程的流程圖。在步驟S20中,文字識(shí)別裝置10經(jīng)由圖像輸入部11而從攝像機(jī)20獲取拍到文字的圖像數(shù)據(jù)。在步驟S21中,文字提取部110從所接受的圖像中提取字符串,并從其中進(jìn)一步提取逐個(gè)文字的文字圖像。在文字提取處理中,優(yōu)選的是,實(shí)施線性轉(zhuǎn)換以修正文字的傾斜,以提取無傾斜的矩形狀文字區(qū)域。在步驟S22中,文字識(shí)別部111對(duì)所摳出的文字與文字識(shí)別用字典數(shù)據(jù)庫116中的字典內(nèi)的各文字進(jìn)行比對(duì),對(duì)所摳出的文字圖像中所含的文字進(jìn)行識(shí)別。
參照?qǐng)D5的流程圖來說明步驟S22中的文字識(shí)別處理的詳情。圖5所示的流程圖的處理是對(duì)在步驟S21中提取的文字圖像分別執(zhí)行。而且,此處的說明中,所謂文字圖像,是指作為一個(gè)文字而提取的區(qū)域的圖像。
在步驟S220中,劣化度評(píng)價(jià)部112根據(jù)文字圖像來算出其劣化度。對(duì)于文字圖像的劣化度,數(shù)值越大,則表示劣化越大。參照?qǐng)D6來說明劣化度的計(jì)算方法的一例。圖6是表示在步驟S21中所提取的文字圖像的圖。設(shè)文字圖像為矩形,且其橫向尺寸(像素?cái)?shù))為w,縱向尺寸(像素?cái)?shù))為h。另外,假設(shè)在至此為止的處理中實(shí)施了修正文字傾斜的處理。但是,假設(shè)未實(shí)施對(duì)圖像的尺寸進(jìn)行轉(zhuǎn)換的處理(放大縮小處理),且設(shè)尺寸w及h與輸入圖像上的大小相同。本實(shí)施方式中,如下所述決定劣化度r。
r=R0-max(w,h)
此處,R0是正方形的標(biāo)準(zhǔn)化圖像的一邊的長(zhǎng)度(像素?cái)?shù)),本實(shí)施方式中為50像素。而且,max是表示最大值的函數(shù)。
另外,當(dāng)max(w,h)大于R0時(shí),劣化度r為零。
本實(shí)施方式中的劣化度可以說是對(duì)文字圖像的大小與標(biāo)準(zhǔn)化后的尺寸相比較而小多少進(jìn)行評(píng)價(jià)的參數(shù)。另外,只要能夠進(jìn)行此種評(píng)價(jià),則也可通過所述以外的方法來決定劣化度。例如,也可不論橫向尺寸與縱向尺寸的大小關(guān)系如何而將其中任一者與標(biāo)準(zhǔn)化圖像尺寸的一邊的長(zhǎng)度之差設(shè)為劣化度?;蛘?,也可將從標(biāo)準(zhǔn)化圖像的面積減去文字圖像的面積所得的值設(shè)為劣化度。但是,通過基于縱向尺寸與橫向尺寸中的較大者來決定劣化度,即便是如同數(shù)字“1”、字母(alphabet)“1”(1)或中文數(shù)字“一”為縱長(zhǎng)或橫長(zhǎng)的文字圖像,也能夠適當(dāng)?shù)赜?jì)算劣化度。
在步驟S221中,利用順序決定部113基于文字圖像的劣化度來決定字典的利用順序(優(yōu)先順位)。利用順序決定部113預(yù)先保存有圖7所示的、表示根據(jù)文字圖像的劣化度應(yīng)使用何種劣化等級(jí)的字典的、文字圖像的劣化度與字典的劣化等級(jí)的對(duì)應(yīng)關(guān)系。利用順序決定部113根據(jù)該對(duì)應(yīng)關(guān)系來求出與在步驟S220中算出的劣化度對(duì)應(yīng)的劣化等級(jí),并將所求出的劣化等級(jí)的字典決定為最先利用的字典。并且,從跟與所算出的劣化度對(duì)應(yīng)的劣化等級(jí)接近的劣化等級(jí)的字典開始依次利用,如此決定字典的利用順序。劣化等級(jí)間的差距只要通過適當(dāng)?shù)臏y(cè)度來定義即可,本實(shí)施方式中,將劣化等級(jí)(數(shù)值)之差作為劣化等級(jí)間的差距。此處,若存在多個(gè)具有與對(duì)應(yīng)于劣化度的劣化等級(jí)為相同近似度的劣化等級(jí)的字典,則先利用哪一個(gè)皆可,但在本實(shí)施方式中,先利用劣化等級(jí)低的字典。
另外,在文字識(shí)別處理中,未必需要使用所有劣化等級(jí)的字典。因此,所決定的利用順序中也可不包含所有劣化等級(jí)。例如,與根據(jù)文字圖像的劣化度所求出的劣化等級(jí)之差相距規(guī)定值以上的劣化等級(jí)的字典也可不用于文字識(shí)別。這是因?yàn)?,若劣化等?jí)之差大,則無法進(jìn)行準(zhǔn)確識(shí)別的可能性高。
對(duì)圖7所示的劣化度與劣化等級(jí)的對(duì)應(yīng)關(guān)系的制作方法進(jìn)行簡(jiǎn)單說明。對(duì)應(yīng)關(guān)系例如可事先進(jìn)行使用測(cè)試樣本(測(cè)試圖像)的比對(duì)而制作。具體而言,可對(duì)各種劣化度(圖像尺寸)的測(cè)試樣本與所有劣化等級(jí)的字典一一輪流進(jìn)行比對(duì),基于比對(duì)結(jié)果的準(zhǔn)確度來求出劣化度與劣化等級(jí)的對(duì)應(yīng)關(guān)系。即,可將整體上能夠最準(zhǔn)確地識(shí)別某劣化度的測(cè)試樣本的、字典的劣化等級(jí),決定為與該劣化度對(duì)應(yīng)的劣化等級(jí)。而且,對(duì)應(yīng)關(guān)系也可在理論上決定。例如,也可根據(jù)在制作劣化字典時(shí)使原始文字圖像進(jìn)行了何種程度的模糊,來求出劣化度與劣化等級(jí)的對(duì)應(yīng)關(guān)系。
在步驟S223中,特征量獲取部114從文字圖像中獲取文字特征量。文字特征量的獲取處理與字典制作處理時(shí)的處理相同,因此省略重復(fù)的說明。另外,優(yōu)選的是,在文字特征量的提取前,對(duì)大小、位置、粗度、傾斜等進(jìn)行標(biāo)準(zhǔn)化,以盡可能消除文字的變動(dòng)。尤其,在文字圖像的大小的標(biāo)準(zhǔn)化處理中,轉(zhuǎn)換成與字典制作時(shí)的標(biāo)準(zhǔn)化尺寸(本實(shí)施方式中為50×50像素)相同的尺寸。
在步驟S225~步驟S228的處理中,比對(duì)部115依照在步驟S221中決定的利用順序來進(jìn)行字典與文字的比對(duì),并輸出識(shí)別結(jié)果。首先,在步驟S224中,將1代入變量i。在步驟S225中,使用利用順序?yàn)榈趇的字典來進(jìn)行輸入文字與字典內(nèi)的各文字的比對(duì)。作為該比對(duì)的結(jié)果,獲得利用順序?yàn)榈趇的字典內(nèi)的各文字與輸入文字之間的類似度(比對(duì)得分)。得到最高的比對(duì)得分的文字為輸入文字的識(shí)別結(jié)果。在步驟S226中,比對(duì)部115判定所獲得的識(shí)別結(jié)果是否為可靠的結(jié)果。具體而言,判定在步驟S225中獲得的比對(duì)得分是否滿足規(guī)定條件。作為規(guī)定條件,例如可采用:最高的比對(duì)得分為規(guī)定閾值以上這一條件、或者最高的比對(duì)得分與第二高的比對(duì)得分之差為規(guī)定閾值以上這一條件。當(dāng)判定為使用第i個(gè)字典的識(shí)別結(jié)果滿足此種條件而為可靠的結(jié)果時(shí),前進(jìn)至步驟S228,比對(duì)部115將得到最高的比對(duì)得分的文字作為輸入文字的識(shí)別結(jié)果而輸出。另一方面,若不滿足所述條件,則前進(jìn)至步驟S227,對(duì)變量i進(jìn)行增量(increment),進(jìn)行使用下個(gè)利用順序的字典的比對(duì)。另外,當(dāng)盡管使用了所有劣化等級(jí)的字典來進(jìn)行比對(duì)而仍未獲得可靠結(jié)果時(shí),既可返回表示無法進(jìn)行文字識(shí)別的意旨的錯(cuò)誤(error),也可基于至此為止的比對(duì)處理的結(jié)果來決定輸入文字的識(shí)別結(jié)果。
參照?qǐng)D8來說明文字比對(duì)處理的動(dòng)作例。此處,假定文字圖像的劣化度r為33,因此,劣化字典的利用順序?yàn)榱踊燃?jí)9、7、11、5、3的順序。首先,使用利用順序?yàn)榈?的劣化等級(jí)9的字典來進(jìn)行文字的比對(duì)。圖中的劣化文字圖像之下所示的數(shù)字表示與輸入文字的比對(duì)得分(滿分為100分)。此處,將判定比對(duì)結(jié)果為可靠的條件設(shè)為最高的比對(duì)得分為80分以上這一條件。于是,由于在與劣化等級(jí)9的字典的比對(duì)中最高的比對(duì)得分為78分,因此判定為未能進(jìn)行可靠的識(shí)別。然后,進(jìn)行使用利用順序?yàn)榈?的劣化等級(jí)7的字典的比對(duì)。此時(shí),最高的比對(duì)得分為81分,滿足所述條件。因此,將得到最高的比對(duì)得分的文字“き”作為識(shí)別結(jié)果而輸出。
<有利的效果>
根據(jù)本實(shí)施方式,在使用多個(gè)劣化等級(jí)的字典的文字識(shí)別處理中,無須與所有劣化等級(jí)的字典一一輪流便能夠獲得文字的識(shí)別結(jié)果,因此與一一輪流地實(shí)施的方法相比,能夠?qū)崿F(xiàn)處理的高速化。此時(shí),作為用于獲得最終的文字識(shí)別結(jié)果的條件,進(jìn)行了確保比對(duì)結(jié)果為可靠的判定,因此也能夠保證識(shí)別處理的精度。進(jìn)而,由于根據(jù)輸入文字圖像的劣化度來決定要利用的字典的順序,因此不需要為了獲得可靠的結(jié)果而進(jìn)行使用多個(gè)劣化等級(jí)的字典的比對(duì),只要進(jìn)行與一個(gè)至數(shù)個(gè)字典的比對(duì),便能夠獲得可靠的結(jié)果。
另外,所述說明中,以文字圖像發(fā)生了劣化時(shí)的處理為中心進(jìn)行了說明,但本實(shí)施方式的文字識(shí)別裝置能夠精度良好且高速地識(shí)別未劣化的文字圖像。若文字圖像未劣化,則將劣化等級(jí)0的字典決定為最先使用者,由于可期待使用該字典的識(shí)別結(jié)果為可靠,因此通過與一個(gè)字典的比對(duì)處理便能夠獲得準(zhǔn)確的識(shí)別結(jié)果。
(其他實(shí)施方式)
所述實(shí)施方式的說明不過是例示性地說明本發(fā)明者,本發(fā)明并不限定于所述的具體形態(tài)。本發(fā)明能夠在該技術(shù)思想的范圍內(nèi)進(jìn)行各種變形。
所述實(shí)施方式的說明中,作為輸入文字圖像從理想狀態(tài)發(fā)生劣化的原因,舉輸入文字圖像的尺寸小的情況為例進(jìn)行了說明,但輸入文字圖像的劣化也可由其他原因產(chǎn)生。例如,也會(huì)因模糊、文字的飛白、文字的破損、噪聲的重疊等而產(chǎn)生劣化。即使在產(chǎn)生了這些劣化的情況下,借助與所述實(shí)施方式同樣的方法,也能夠精度良好且高速地進(jìn)行文字識(shí)別。以文字的飛白為例進(jìn)行說明,只要對(duì)原始文字圖像實(shí)施多個(gè)強(qiáng)度(劣化等級(jí))的飛白的附加處理,由此分別制作劣化字典,對(duì)輸入文字圖像的飛白程度(劣化度)進(jìn)行評(píng)價(jià),并依照與模糊程度相應(yīng)的利用順序來決定字典的比對(duì)順序即可。以噪聲的重疊為例進(jìn)行說明,只要對(duì)原始文字圖像附加高斯噪聲(Gaussian noise),由此分別制作劣化圖像,對(duì)輸入文字圖像的噪聲量進(jìn)行評(píng)價(jià),并依照與噪聲量相應(yīng)的利用順序來決定字典的比對(duì)順序即可。噪聲量例如可通過下述方式來求出,所述方式是如國(guó)際公開WO2012/173205中所揭示,將由輸入文字圖像的多個(gè)局部區(qū)域所算出的標(biāo)準(zhǔn)偏差制作成直方圖,算出頻率達(dá)到峰值時(shí)的標(biāo)準(zhǔn)偏差的值。
而且,即使在產(chǎn)生了因多個(gè)原因造成的劣化的情況下,也能夠精度良好而準(zhǔn)確地進(jìn)行識(shí)別。例如,以應(yīng)對(duì)文字尺寸小與文字飛白這兩種劣化的情況為例進(jìn)行說明。首先,對(duì)于原始文字圖像,實(shí)施模糊附加處理及飛白附加處理這兩種劣化處理而制作劣化字典。此時(shí),將模糊附加的強(qiáng)度與飛白附加的強(qiáng)度進(jìn)行多種組合而實(shí)施劣化處理,以分別制作劣化字典。然后,只要依照基于輸入文字圖像的大小及飛白程度而決定的利用順序來使用劣化字典即可。
所述說明中,對(duì)通過通用處理器執(zhí)行軟件程序而提供功能的示例進(jìn)行了說明,但也可使用專用的硬件(hardware)電路來提供所述功能。
本實(shí)施方式的文字識(shí)別裝置能夠安裝于桌面(desktop)型計(jì)算機(jī)、筆記(note)型計(jì)算機(jī)、平板(slate)型計(jì)算機(jī)、智能電話終端等任意裝置中。而且,所述中說明的文字識(shí)別裝置的各功能不需要由一個(gè)裝置來執(zhí)行,也可由多個(gè)裝置分擔(dān)各自的功能來執(zhí)行。
本發(fā)明的文字識(shí)別裝置能夠適用于牌照識(shí)別系統(tǒng)。牌照識(shí)別系統(tǒng)例如包含設(shè)置在豎立于道路路側(cè)的燈桿上的攝像機(jī)(攝像裝置)與所述中所說明的文字識(shí)別裝置,攝像機(jī)拍攝道路上的車輛的至少一部分,文字識(shí)別裝置從拍攝圖像中提取及識(shí)別揭示于車輛的牌照上所描繪的文字。根據(jù)此種牌照識(shí)別系統(tǒng),即使在車輛位于遠(yuǎn)離攝像機(jī)的位置而只能獲得小的文字圖像的情況下,仍能夠精度良好且高速地識(shí)別安裝于車輛的牌照上所描繪的文字。
[符號(hào)的說明]
10:文字識(shí)別裝置
110:文字提取部
111:文字識(shí)別部
112:劣化度評(píng)價(jià)部
113:利用順序決定部
114:特征量獲取部
115:比對(duì)部
116:文字識(shí)別用字典數(shù)據(jù)庫