專利名稱:字符識別裝置、字符識別方法、字符識別系統(tǒng)以及字符識別程序的制作方法
技術(shù)領域:
本發(fā)明涉及字符識別裝置、字符識別方法、字符識別系統(tǒng)以及字符識別程序。
背景技術(shù):
以往,如下述專利文獻I 2、非專利文獻I 3中例示的那樣,公知有從情景圖像中識別存在于廣告牌等三維空間中的字符的技術(shù)。在這些技術(shù)中,為了對應明暗變動或字符失真等情景圖像特有的問題,使用單詞知識或攝影場所的位置信息等外部數(shù)據(jù)而提高了識別精度。例如,在專利文獻I中,將從圖像中的廣告牌等中提取的字符串與電話簿數(shù)據(jù)庫進行對照,通過判定與電話簿數(shù)據(jù)庫中包含的廣告主數(shù)據(jù)或電話號碼數(shù)據(jù)的一致度,判定提取的字符串是否與廣告主關(guān)聯(lián)。此外,在專利文獻2中,使用在字符識別裝置中裝備的位置信息取得單元以及方位信息取得單元,確定攝影的位置和方向,使用確定的位置、方位與地圖數(shù)據(jù)庫進行對照,使用符合的店鋪名或地名信息作為單詞知識,由此提高了識別精度。此外,使用加權(quán)有限狀態(tài)轉(zhuǎn)換器(Weighted Finite State Transducer,以下稱作“WFST”。)作為語音識別或語言處理領域中的高速且具有較高的通用性和擴展性的方法,該加權(quán)有限狀態(tài)轉(zhuǎn)換器將符號串轉(zhuǎn)換與權(quán)重的集合表現(xiàn)為狀態(tài)轉(zhuǎn)移。與該WFST關(guān)聯(lián)地,在字符識別的領域中,如非專利文獻1、非專利文獻2例示的那樣,提出了以取得英語那樣分隔書寫的以詞匯為單位的字符串為前提,取得字符識別的結(jié)果的方法。此外,在非專利文獻3中,提出了在日語中在輸出字符識別結(jié)果后,使用WFST進行糾錯的方法?,F(xiàn)有技術(shù)文獻專利文獻專利文獻1:日本專利第3360030號公報專利文獻2:日本專利第4591353號公報非專利文獻非專利文獻1:,,A Weighted Finite-State Framework for Correcting Errorsin NaturalScene OCR”,ICDAR2007Vol.2,pp.889-893非專利文獻2: ” The image Text Recognition Graph (iTRG),,,ICME2009,pp.266-269非專利文獻3:重 付務有限狀態(tài)卜’ 少'二一寸f用P亡文字誤>9訂正、言語処理學會年次大會発表論文集C2-5,pp.332-335,2009
發(fā)明內(nèi)容
發(fā)明要解決的問題然而,在專利文獻I中記載的方法中,需要與電話簿數(shù)據(jù)庫等中包含的大量的單詞知識進行對照,可能無法充分地實現(xiàn)字符識別處理的高速化。此外,在專利文獻2中記載的方法中,另外需要位置信息取得單元或方位信息取得單元,裝置結(jié)構(gòu)有可能復雜化。此外,在非專利文獻I和非專利文獻2中,以在詞匯之間存在分隔的分隔書寫的語言為前提。即,以WFST處理涉及的詞匯已經(jīng)預先切出為前提。此外,在非專利文獻2中,在字符識別的以字符為單位的切出中,利用重復的切出位置進行字符識別,利用WFST來表現(xiàn),但是在字符識別的結(jié)果中出現(xiàn)了誤識別的情況下可能無法進行應對。此外,在非專利文獻I和非專利文獻3中,通過字符的融合/分離來應對因重復的切出位置引起的誤識別的問題,但是日語的字符種類較多,并且在實際環(huán)境中存在各種各樣的字符設計,因此需要網(wǎng)羅龐大的組合。此外,在非專利文獻3中,暫且使用了進行字符識別的結(jié)果,前提為在一定程度上高精度地得到字符識別結(jié)果。因此,在原本的字符識別中進行了較多的基于語言處理的修正的情況下,進行基于字符形狀的修正可能變得困難。此夕卜,可能無法應對原本的字符識別中的字符區(qū)域的檢測遺漏的修正。因此,本發(fā)明正是鑒于上述問題而完成的,其目的在于,提供一種能夠不使用外部的電話簿等數(shù)據(jù)庫而使用被簡單化的裝置結(jié)構(gòu),高精度且高速地從情景圖像進行字符識別的字符識別裝置、字符識別方法、字符識別系統(tǒng)以及字符識別程序。用于解決問題的手段為了解決上述課題,本發(fā)明的字符識別裝置的特征在于,具有:圖像輸入單元,其輸入包含識別對象的字符的圖像;字符區(qū)域檢測單元,其檢測所述圖像中的、所述字符存在的區(qū)域即字符區(qū)域;字符區(qū)域分割單元,其以單個字符為單位分割所述字符區(qū)域;字符識別單元,其對存在于所述字符區(qū)域分割單元所分割的分割區(qū)域中的所述字符進行每個單個字符的字符識別處理,對單個字符輸出I個以上的字符識別處理結(jié)果的候選;第I字符串轉(zhuǎn)移數(shù)據(jù)生成單元,其被輸入所述候選,計算針對向所述候選的轉(zhuǎn)移的權(quán)重值,生成基于所述候選與所述權(quán)重值的組的字符串轉(zhuǎn)移數(shù)據(jù)即第I字符串轉(zhuǎn)移數(shù)據(jù);以及有限狀態(tài)轉(zhuǎn)換單元,其根據(jù)所述第I字符串轉(zhuǎn)移數(shù)據(jù)依次進行狀態(tài)轉(zhuǎn)移,將各狀態(tài)轉(zhuǎn)移中的權(quán)重值累計而計算每個狀態(tài)轉(zhuǎn)移的累計權(quán)重值,根據(jù)所述累計權(quán)重值輸出一個以上的所述狀態(tài)轉(zhuǎn)移的結(jié)果O此外,本發(fā)明的字符識別方法的特征在于,具有:圖像輸入步驟,圖像輸入單元輸入包含識別對象的字符的圖像;字符區(qū)域檢測步驟,字符區(qū)域檢測單元檢測所述圖像中的、所述字符存在的區(qū)域即字符區(qū)域;字符區(qū)域分割步驟,字符區(qū)域分割單元以單個字符為單位分割所述字符區(qū)域;字符識別步驟,字符識別單元對存在于所述字符區(qū)域分割單元所分割的分割區(qū)域中的所述字符進行每個單個字符的字符識別處理,對單個字符輸出I個以上的字符識別處理結(jié)果的候選;第I字符串轉(zhuǎn)移數(shù)據(jù)生成步驟,第I字符串轉(zhuǎn)移數(shù)據(jù)生成單元輸入所述候選,計算針對向所述候選的轉(zhuǎn)移的權(quán)重值,生成基于所述候選與所述權(quán)重值的組的字符串轉(zhuǎn)移數(shù)據(jù)即第I字符串轉(zhuǎn)移數(shù)據(jù);以及有限狀態(tài)轉(zhuǎn)換步驟,有限狀態(tài)轉(zhuǎn)換單元根據(jù)所述第I字符串轉(zhuǎn)移數(shù)據(jù)依次進行狀態(tài)轉(zhuǎn)移,將各狀態(tài)轉(zhuǎn)移中的權(quán)重值累計而計算每個狀態(tài)轉(zhuǎn)移的累計權(quán)重值,根據(jù)所述累計權(quán)重值輸出一個以上的所述狀態(tài)轉(zhuǎn)移的結(jié)果。此外,本發(fā)明的字符識別系統(tǒng)包含終端和服務器,該字符識別系統(tǒng)的特征在于,所述終端具有:圖像輸入單元,其輸入包含識別對象的字符的圖像;字符區(qū)域檢測單元,其檢測所述圖像中的、所述字符存在的區(qū)域即字符區(qū)域;字符區(qū)域分割單元,其以單個字符為單位分割所述字符區(qū)域;字符識別單元,其對存在于所述字符區(qū)域分割單元所分割的分割區(qū)域中的所述字符進行每個單個字符的字符識別處理,對單個字符輸出I個以上的字符識別處理結(jié)果的候選,所述服務器具有 第I字符串轉(zhuǎn)移數(shù)據(jù)生成單元,其被輸入所述候選,計算針對向所述候選的轉(zhuǎn)移的權(quán)重值,生成基于所述候選與所述權(quán)重值的組的字符串轉(zhuǎn)移數(shù)據(jù)即第I字符串轉(zhuǎn)移數(shù)據(jù);以及有限狀態(tài)轉(zhuǎn)換單元,其根據(jù)所述第I字符串轉(zhuǎn)移數(shù)據(jù)依次進行狀態(tài)轉(zhuǎn)移,將各狀態(tài)轉(zhuǎn)移中的權(quán)重值累計而計算每個狀態(tài)轉(zhuǎn)移的累計權(quán)重值,根據(jù)所述累計權(quán)重值輸出一個以上的所述狀態(tài)轉(zhuǎn)移的結(jié)果。此外,本發(fā)明的字符識別程序,其特征在于,使計算機作為以下單元進行動作:圖像輸入單元,其輸入包含識別對象的字符的圖像;字符區(qū)域檢測單元,其檢測所述圖像中的、所述字符存在的區(qū)域即字符區(qū)域;字符區(qū)域分割單元,其以單個字符為單位分割所述字符區(qū)域;字符識別單元,其對存在于所述字符區(qū)域分割單元所分割的分割區(qū)域中的所述字符進行每個單個字符的字符識別處理,對單個字符輸出I個以上的字符識別處理結(jié)果的候選;第I字符串轉(zhuǎn)移數(shù)據(jù)生成單元,其輸入所述候選,計算針對向所述候選的轉(zhuǎn)移的權(quán)重值,生成基于所述候選與所述權(quán)重值的組的字符串轉(zhuǎn)移數(shù)據(jù)即第I字符串轉(zhuǎn)移數(shù)據(jù);以及有限狀態(tài)轉(zhuǎn)換單元,其根據(jù)所述第I字符串轉(zhuǎn)移數(shù)據(jù)依次進行狀態(tài)轉(zhuǎn)移,將各狀態(tài)轉(zhuǎn)移中的權(quán)重值累計而計算每個狀態(tài)轉(zhuǎn)移的累計權(quán)重值,根據(jù)所述累計權(quán)重值輸出一個以上的所述狀態(tài)轉(zhuǎn)移的結(jié)果。根據(jù)這樣的本發(fā)明的字符識別裝置、字符識別方法、字符識別系統(tǒng)以及字符識別程序,由于不使用外部的電話簿等數(shù)據(jù)庫,因此不需要與該電話簿數(shù)據(jù)庫等中包含的大量的單詞知識進行對照,能夠?qū)崿F(xiàn)字符識別處理的高速化。此外,由于不需要位置信息取得單元或方位信息取得單元等,因此能夠使裝置結(jié)構(gòu)簡單化。使用這樣的裝置結(jié)構(gòu),可以高精度且高速地從情景圖像進行字符識別。此外,也可以是,在本發(fā)明中,所述字符識別裝置還具有第2字符串轉(zhuǎn)移數(shù)據(jù)生成單元,從用戶輸入關(guān)鍵字,該第2字符串轉(zhuǎn)移數(shù)據(jù)生成單元生成所述關(guān)鍵字的字符串轉(zhuǎn)移數(shù)據(jù)即第2字符串轉(zhuǎn)移數(shù)據(jù),所述有限狀態(tài)轉(zhuǎn)換單元對所述第I字符串轉(zhuǎn)移數(shù)據(jù)和所述第2字符串轉(zhuǎn)移數(shù)據(jù)進行合成運算,由 此判定在所述圖像中是否存在所述關(guān)鍵字。根據(jù)本發(fā)明,能夠利用字符識別候選組的第I字符串轉(zhuǎn)移數(shù)據(jù)本身作為對圖像的檢索用表,將本發(fā)明的字符識別裝置有效地應用為判定在圖像中是否存在用戶輸入關(guān)鍵字的裝置。此外,也可以是,在本發(fā)明中,所述字符識別裝置還具有第3字符串轉(zhuǎn)移數(shù)據(jù)生成單元,該第3字符串轉(zhuǎn)移數(shù)據(jù)生成單元生成在詞匯數(shù)據(jù)庫中存在的各詞匯的字符串轉(zhuǎn)移數(shù)據(jù)即第3字符串轉(zhuǎn)移數(shù)據(jù),所述有限狀態(tài)轉(zhuǎn)換單元對所述第I字符串轉(zhuǎn)移數(shù)據(jù)和所述第3字符串轉(zhuǎn)移數(shù)據(jù)進行合成運算,由此檢測在所述圖像中存在的詞匯。根據(jù)本發(fā)明,通過對字符識別候選組的第I字符串轉(zhuǎn)移數(shù)據(jù)和詞匯數(shù)據(jù)庫中的第3字符串轉(zhuǎn)移數(shù)據(jù)進行合成運算,能夠有效地將本發(fā)明的字符識別裝置應用為詞匯檢測裝置。此外,也可以是,在本發(fā)明中,所述字符識別單元對多個所述候選分別賦予優(yōu)先次序并進行輸出,所述第I字符串轉(zhuǎn)移數(shù)據(jù)生成單元根據(jù)所述優(yōu)先次序計算所述權(quán)重值。根據(jù)本發(fā)明,可以提供用于第I字符串轉(zhuǎn)移數(shù)據(jù)生成單元計算權(quán)重值的具體的方法。此外,也可以是,在本發(fā)明中,所述字符識別單元使用至少兩種以上不同的識別方式進行所述字符識別處理,所述第I字符串轉(zhuǎn)移數(shù)據(jù)生成單元根據(jù)所述不同的識別方式中的所述候選的輸出數(shù)量和所述優(yōu)先次序來計算所述權(quán)重值。根據(jù)本發(fā)明,可以提供用于第I字符串轉(zhuǎn)移數(shù)據(jù)生成單元計算權(quán)重值的具體的方法。此外,也可以是,在本發(fā)明中,所述第I字符串轉(zhuǎn)移數(shù)據(jù)生成單元考慮在語言數(shù)據(jù)庫中登記的單詞的字符串轉(zhuǎn)移來計算所述權(quán)重值。根據(jù)本發(fā)明,可以提供用于第I字符串轉(zhuǎn)移數(shù)據(jù)生成單元計算權(quán)重值的具體的手法。此外,也可以是,在本發(fā)明中,所述第I字符串轉(zhuǎn)移數(shù)據(jù)生成單元根據(jù)所述候選在所述圖像內(nèi)的位置、或者所述候選的字符大小來修正所述權(quán)重值。根據(jù)本發(fā)明,可以提供用于第I字符串轉(zhuǎn)移數(shù)據(jù)生成單元修正權(quán)重值的具體的方法。此外,通過權(quán)重值的修正能夠提高詞匯的檢測精度。此外,也可以是,在本發(fā)明中,在所述字符區(qū)域分割單元使用多個分割模式來分割所述字符區(qū)域,生成了多種所述分割區(qū)域的情況下,所述字符識別單元對所述多種分割區(qū)域分別進行所述字符識別處理,所述第I字符串轉(zhuǎn)移數(shù)據(jù)生成單元對所述多種分割區(qū)域各自的所述候選生成所述第I字符串轉(zhuǎn)移數(shù)據(jù),所述有限狀態(tài)轉(zhuǎn)換單元輸出在所述多種分割區(qū)域全部中所述累計權(quán)重值為上位的狀態(tài)轉(zhuǎn)移的結(jié)果作為所述結(jié)果。根據(jù)本發(fā)明,即便在字符區(qū)域分割單元進行了過分割(Over segmentation)的情況下也可以適當?shù)貞獙?。此外,也可以是,在本發(fā)明中,所述第I字符串轉(zhuǎn)移數(shù)據(jù)生成單元將從字符串轉(zhuǎn)移的初始狀態(tài)向所述候選的空轉(zhuǎn)移即第I空轉(zhuǎn)移、從所述候選向字符串轉(zhuǎn)移的最終狀態(tài)的空轉(zhuǎn)移即第2空轉(zhuǎn)移、用于以單個字符為單位跳過所述候選的空轉(zhuǎn)移即第3空轉(zhuǎn)移包含在內(nèi)而生成所述第I字符串轉(zhuǎn)移數(shù)據(jù)。根據(jù)本發(fā)明,使第I字符串轉(zhuǎn)移數(shù)據(jù)包含第I空轉(zhuǎn)移、第2空轉(zhuǎn)移以及第3空轉(zhuǎn)移,由此能夠提高第I字符串轉(zhuǎn)移數(shù)據(jù)與第2字符串轉(zhuǎn)移數(shù)據(jù)或第3字符串轉(zhuǎn)移數(shù)據(jù)的合成運算的精度。此外,也可以是,在本發(fā)明中,所述字符識別單元在輸出所述字符識別處理結(jié)果的所述候選時,一并輸出表示單詞間的分隔的識別信息,所述第I字符串轉(zhuǎn)移數(shù)據(jù)生成單元附加所述識別信息來生成所述第I字符串轉(zhuǎn)移數(shù)據(jù),所述有限狀態(tài)轉(zhuǎn)換單元在進行所述狀態(tài)轉(zhuǎn)移時,以被兩個所述識別信息分隔的部分為單位來進行所述狀態(tài)轉(zhuǎn)移。根據(jù)本發(fā)明,通過使用表示分隔的識別信息,對分隔書寫的語言也能夠高精度地進行字符識別。此外,也可以是,在本發(fā)明中,所述字符識別單元在輸出所述字符識別處理結(jié)果的所述候選時,一并輸出該候選在所述圖像內(nèi)的位置信息,所述第I字符串轉(zhuǎn)移數(shù)據(jù)生成單元附加所述位置信息來生成所述第I字符串轉(zhuǎn)移數(shù)據(jù),所述有限狀態(tài)轉(zhuǎn)換單元附加所述位置信息來輸出所述結(jié)果。根據(jù)本發(fā)明,通過使用位置信息,能夠確定字符識別的結(jié)果位于圖像內(nèi)的哪個位置。此外,也可以是,在本發(fā)明中,所述詞匯數(shù)據(jù)庫具有對詞匯的分類信息,所述第2字符串轉(zhuǎn)移數(shù)據(jù)生成單元或者所述第3字符串轉(zhuǎn)移數(shù)據(jù)生成單元附加所述分類信息來生成所述第2字符串轉(zhuǎn)移數(shù)據(jù)或者所述第3字符串轉(zhuǎn)移數(shù)據(jù),所述有限狀態(tài)轉(zhuǎn)換單元附加所述分類信息來輸出所述結(jié)果。根據(jù)本發(fā)明,通過使用分類信息,能夠確定字符識別的結(jié)果屬于哪個類別。此外,也可以是,在本發(fā)明中,所述字符識別裝置具有詞匯分類關(guān)聯(lián)性矢量存儲單元,該詞匯分類關(guān)聯(lián)性矢量存儲單元存儲表示詞匯與所述分類信息的關(guān)聯(lián)性的詞匯分類關(guān)聯(lián)性矢量,所述第I字符串轉(zhuǎn)移數(shù)據(jù)生成單元將所述第I字符串轉(zhuǎn)移數(shù)據(jù)中的所述候選以及所述權(quán)重值與所述詞匯分類關(guān)聯(lián)性矢量的值相加,將值最大的分類信息作為與所述候選對應的分類信息,基于該分類信息修正對于該候選的所述權(quán)重值。根據(jù)本發(fā)明,可以提供用于第I字符串轉(zhuǎn)移數(shù)據(jù)生成單元修正權(quán)重值的具體的方法。此外,通過權(quán)重值的修正能夠提高詞匯的檢測精度。發(fā)明的效果根據(jù)本發(fā)明,能夠提供一種能夠不使用外部的電話簿等數(shù)據(jù)庫而使用被簡單化的裝置結(jié)構(gòu),高精度且高速地從情景圖像進行字符識別的字符識別裝置、字符識別方法、字符識別系統(tǒng)以及字符識別程序。
圖1是示出字符識別裝置I的功能性的結(jié)構(gòu)要素的結(jié)構(gòu)概要圖。圖2是字符識別裝置I的硬件結(jié)構(gòu)圖。圖3是示出本實施方式的全體處理流程的流程圖。圖4是用于說明字符區(qū)域分割部104的動作的圖。圖5是示出第I字符串轉(zhuǎn)移數(shù)據(jù)生成部106生成的第IWFST數(shù)據(jù)的一例的圖。圖6是示出字符區(qū)域分割部104進行了過分割的情況下的處理的圖。圖7是用于說明第I字符串轉(zhuǎn)移數(shù)據(jù)生成部106根據(jù)字符的大小/位置等調(diào)整權(quán)重值的圖。圖8是示出WFST運算處理的流程圖。圖9是示出WFST合成運算的映像的圖。圖10示出WFST合成運算的變形I中的處理的一例。圖11示出WFST合成運算的變形I中的處理的一例。圖12示出WFST合成運算的變形I中的處理的一例。圖13是示出WFST合成運算的變形2中的字符識別裝置I的功能性的結(jié)構(gòu)要素的結(jié)構(gòu)概要圖。圖14示出WFST合成運算的變形2中的處理的一例。圖15示出WFST合成運算的變形2中的處理的一例。圖16示出WFST合成運算的變形3中的處理的一例。圖17示出WFST合成運算的變形4中的處理的一例。圖18示出WFST合成運算的變形4中的處理的一例。
圖19是示出字符識別系統(tǒng)100的功能性的結(jié)構(gòu)要素的結(jié)構(gòu)概要圖。
具體實施例方式以下,參照附圖詳細地說明本發(fā)明的字符識別裝置、字符識別方法、字符識別系統(tǒng)以及字符識別程序的優(yōu)選實施方式。另外,在附圖的說明中,對相同的要素標注相同的標號,省略重復的說明。(字符識別裝置I的整體結(jié)構(gòu))本發(fā)明的實施方式的字符識別裝置I用于從情景圖像檢測字符區(qū)域,并進行字符識別(例如,關(guān)鍵字檢測,檢索用表生成等)。圖1是示出字符識別裝置I的功能性的結(jié)構(gòu)要素的結(jié)構(gòu)概要圖,圖2是字符識別裝置I的硬件結(jié)構(gòu)圖。如圖2所示,字符識別裝置I構(gòu)成為通常的計算機系統(tǒng),該計算機系統(tǒng)在物理上除包含CPU11、ROMl2和RAM13等主存儲裝置、鍵盤、鼠標外,還包含照相機等作為用于讀入圖像的裝置或者用于從外部裝置讀入數(shù)據(jù)的裝置的輸入設備14、顯示器等輸出設備15、用于與其他裝置之間進行數(shù)據(jù)的發(fā)送接收的網(wǎng)卡等通信模塊16、硬盤等輔助存儲裝置17等。輸入設備14進行的圖像的讀入可以是由自裝置攝影的圖像,或者也可以是由其他裝置攝影的圖像。通過在CPU11、R0M12、RAM13等硬件上讀入預定的計算機軟件,在CPUll的控制下使輸入設備14、輸出設備15、通信模塊16動作,并且,進行主存儲裝置12、13或輔助存儲裝置17中的數(shù)據(jù)的讀出和寫入,由此實現(xiàn)后述的字符識別裝置I的各功能。如圖1所示,字符識別裝置I具有以下部分作為功能性的結(jié)構(gòu)要素:圖像讀入部101 (相當于權(quán)利要求書中的“圖像輸入單元”)、圖像二值化部102、字符區(qū)域檢測部103 (相當于權(quán)利要求書中的“字符區(qū)域檢測單元”)、字符區(qū)域分割部104 (相當于權(quán)利要求書中的“字符區(qū)域分割單元”)、字符識別部105 (相當于權(quán)利要求書中的“字符識別單元”)、第I字符串轉(zhuǎn)移數(shù)據(jù)生成部106 (相當于權(quán)利要求書中的“第I字符串轉(zhuǎn)移數(shù)據(jù)生成單元”)、第2字符串轉(zhuǎn)移數(shù)據(jù)生成部107 (相當于權(quán)利要求書中的“第2字符串轉(zhuǎn)移數(shù)據(jù)生成單元”)、第3字符串轉(zhuǎn)移數(shù)據(jù)生成部108 (相當于權(quán)利要求書中的“第3字符串轉(zhuǎn)移數(shù)據(jù)生成單元”)、WFST處理部109 (相當于權(quán)利要求書中的“有限狀態(tài)轉(zhuǎn)換單元”)、字符串檢測部110 (相當于權(quán)利要求書中的“字符串檢測單元”)以及詞匯DBlll (相當于權(quán)利要求書中的“詞匯數(shù)據(jù)庫”)。以下,參照圖3的流程圖對字符識別裝置I的各結(jié)構(gòu)要素的動作進行說明。(I)圖像的讀入圖像讀入部101輸入包含識別對象的字符的圖像(步驟SI,相當于權(quán)利要求書中的“圖像輸入步驟”)。關(guān)于通過掃描儀取入印刷文件那樣的文檔圖像已經(jīng)有技術(shù),可以高速/高精度地進行識別,因此通過既有的文檔OCR引擎進行作為文檔圖像的字符識別(步驟S2)。然后,第I字符串轉(zhuǎn)移數(shù)據(jù)生成部106根據(jù)識別結(jié)果的候選組生成由WFST表示的數(shù)據(jù)(以下稱作“第IWFST數(shù)據(jù)”。相當于權(quán)利要求書中的“第I字符串轉(zhuǎn)移數(shù)據(jù)”)(步驟S3,權(quán)利要求書中的“相當于第I字符串轉(zhuǎn)移數(shù)據(jù)生成步驟”)。另外,在通過既有的文檔OCR引擎得到的識別結(jié)果的字符數(shù)為規(guī)定數(shù)以上且識別精度為規(guī)定值以上的情況下,判定為文檔,不進行步驟SlO的WFST運算處理。對于分辨率過小或過大的圖像,調(diào)整尺寸以成為適合字符識別的大小。(2)圖像二值化
在步驟SI中輸入的圖像不是文檔圖像的情況下,圖像二值化部102進行圖像二值化(步驟S4)。圖像二值化根據(jù)局部的明暗來進行,也可以應對低對比度的狀況。在白底上進行黑色字符的檢測,也可以反轉(zhuǎn)原圖像的明暗,在黑底上進行白色字符的檢測。此外,對于明顯的字符以外的區(qū)域,通過膨脹收縮等遮擋處理進行噪聲除去。(3)字符區(qū)域檢測字符區(qū)域檢測部103檢測字符區(qū)域(步驟S5,相當于權(quán)利要求書中的“字符區(qū)域檢測步驟”)。“字符區(qū)域”是指在步驟SI中輸入的圖像中,識別對象的字符存在的區(qū)域,或者存在該可能性的區(qū)域。關(guān)于該字符區(qū)域的檢測,公知有如下述的參考文獻I那樣,通過統(tǒng)計地學習形狀的特征而進行檢測的方法。在本裝置中,通過進行標記處理對每個區(qū)域附加標記,根據(jù)各區(qū)域的形狀特征(圓形度、孔數(shù)、構(gòu)成的區(qū)域數(shù)、外周矩形大小/縱橫比、標記區(qū)域與非標記區(qū)域的面積比等)判定是否是字符區(qū)域而進行檢測。< 參考文獻 1> “A learning-based method to detect andsegment text fromscene images”, JOURNAL OF ZHEJIANG UNIVERSITY-SCIENCE A Volume8, Number4,pp.568-574在本實施方式中,為了通過后述的WFST處理進行過濾,相比于從開始就不檢測非字符的噪聲區(qū)域,優(yōu)先使用預先盡可能多地檢測可能是字符的區(qū)域的方法,以便不產(chǎn)生遺漏。因此,將通過膨脹收縮處理連接了接近區(qū)域的方式、分解了連接區(qū)域的方式、除去了字符周圍的噪聲的方式也作為檢測字符區(qū)域的方式。此外,關(guān)于該檢測方式,能夠追加各種方法(利用邊緣或色調(diào)的方法、高度的字符區(qū)域連接處理等)。(4)字符串候選檢測,以單個字符為單位的切出字符區(qū)域分割部104檢測字符區(qū)域內(nèi)的字符串候選,以單個字符為單位進行分割字符區(qū)域(以下稱作“切出”。)(步驟S6,相當于權(quán)利要求書中的“字符區(qū)域分割步驟”)。具體而言,字符區(qū)域分割部104首先檢測字符行。假定字符行由3個字符以上構(gòu)成,根據(jù)字符區(qū)域的區(qū)域大小/間隔/角度的推移進行檢測。對檢測到的每個字符行進行標記處理,根據(jù)賦予了標記的每個區(qū)域的角度的中央值、平均值、最頻值等來縮減字符行。圖4是用于說明字符區(qū)域分割部104的動作的圖。如圖4所示,按照每個字符行L通過進行基于字符行的角度的搜索進行水平方向/垂直方向的剪切變形,并且,對字符的剪切/旋轉(zhuǎn)雙方的變形失真進行校正。在圖4中,圖像Al示出寫有旋轉(zhuǎn)后的字符串的校正前的圖像,圖像A2示出通過將字符行在垂直方向上剪切變形而校正了字符串方向的傾斜后的圖像。字符區(qū)域分割部104從校正了失真后的圖像A2中除去噪聲,然后,求出字符行方向的字符間隔,以單個字符為單位進行切出。以單個字符為單位的切出是利用將相對于字符串方向為垂直方向的像素相加而得到的直方圖,求出成為字符之間的候選,以在字符行檢測時求出的區(qū)域大小的中央值、平均值、最頻值等為基準,決定多個重疊的切出位置來進行的。在圖4中示出對校正后的圖像A2中的字符串M—邊一點一點地改變角度一邊進行水平方向的剪切變形,由此生成多個字符串M1、M2、M3,并對這些字符串M1、M2、M3以單個字符為單位進行了切出的情況。字符串Y2示出對字符串M2進行了以單個字符為單位的切出后得到的字符串,該情況下的空白區(qū)域數(shù)是4?!翱瞻讌^(qū)域”是指字符之間的區(qū)域,在圖4中由標號K示出。此外,標號Y3示出對字符串M3進行了以單個字符為單位的切出后得到的字符串,該情況下的空白區(qū)域數(shù)是7。在本實施方式中,字符區(qū)域分割部104采用空白區(qū)域的數(shù)量和面積最大的情況作為字符區(qū)域分割的結(jié)果。在圖4的例中,字符串Y3是最終選擇的字符區(qū)域分割后的字符串。此外,通過既有的OCR引擎進行單個字符行的字符識別等基于多個方法/參數(shù)的字符位置檢測/字符識別處理,在每個可能是字符的切出位置進行單個字符為單位的切出,求出容許位置重復那樣的成為過分割的狀態(tài)轉(zhuǎn)移。(5)字符識別字符識別部105對存在于字符區(qū)域分割部104在步驟S6中分割后的分割區(qū)域(圖4中由標號D顯示)中的各字符進行每個字符的字符識別處理,對每個字符輸出I個以上的字符識別處理結(jié)果的候選(以下,稱作“字符識別候選組”,或者僅稱作“候選”。)(步驟S7,相當于權(quán)利要求書中的“字符識別步驟”)。以通過多個引擎取得字符識別結(jié)果的方式進行單個字符為單位的字符識別。(6) WFST 數(shù)據(jù)生成第1字符串轉(zhuǎn)移數(shù)據(jù)生成部106從在步驟S7中得到的識別結(jié)果的候選組中匯總重復候選,生成WFST數(shù)據(jù)(以下也稱作“第IWFST數(shù)據(jù)”。相當于權(quán)利要求書中的“第I字符串轉(zhuǎn)移數(shù)據(jù)”)(步驟S8,相當于權(quán)利要求書中的“第I字符串轉(zhuǎn)移數(shù)據(jù)生成步驟”)。SP,第I字符串轉(zhuǎn)移數(shù)據(jù)生成部106從字符識別部105輸入字符識別處理結(jié)果的候選(每個字符I個以上的候選),計算對于向該候選的轉(zhuǎn)移的權(quán)重值,生成基于這些候選和權(quán)重值的組的第IWFST數(shù)據(jù)。在字符識別部105對多個字符識別處理結(jié)果的候選分別賦予優(yōu)先次序并輸出的情況下,第I字符串轉(zhuǎn)移數(shù)據(jù)生成部106基于該優(yōu)先次序計算上述權(quán)重值。此外,在字符識別部105使用至少兩種以上不同的識別方式進行了字符識別處理的情況下,第I字符串轉(zhuǎn)移數(shù)據(jù)生成部106根據(jù)該不同的識別方式下的字符識別處理結(jié)果的候選的輸出數(shù)量和上述優(yōu)先次序來計算上述權(quán)重值。在此,通過積/和來合成重復候選的權(quán)重值,由此在各字符識別結(jié)果中同一候選出現(xiàn)次數(shù)越多,權(quán)重值就越小。即,在本實施方式中,可以說權(quán)重值越小,越是接近實際正確結(jié)果的候選。此外,第I字符串轉(zhuǎn)移數(shù)據(jù)生成部106也可以考慮在語言數(shù)據(jù)庫中登記的單詞的字符串轉(zhuǎn)移來計算上述權(quán)重值。圖5示出第I字符串轉(zhuǎn)移數(shù)據(jù)生成部106生成的第IWFST數(shù)據(jù)的一例。如圖5所示,第IWFST數(shù)據(jù)為被賦予了多個候選及其權(quán)重值的狀態(tài)轉(zhuǎn)移。在存在多個字符識別結(jié)果的情況下,具有相同的初始狀態(tài)的狀態(tài)轉(zhuǎn)移成為并列排列的形式。圖5的例中,示出例如字符識別處理的實際的正確結(jié)果是“卜'' ^ 的情況下,字符識別處理中的多個候選是例如“ K ”、“ 卜”、“人”、“ ^ ”、“二”、“口 ”、“ 乇”、“毛”、“t” 等、并且各自的權(quán)重值是“0.2”、“0.4”、“0.6”、“0.2”、“0.5”、“0.6”、“0.2”、“0.4”、“0.5” 的情況。為了檢測文章中間的關(guān)鍵字,在根據(jù)字符識別候選組生成的第IWFST數(shù)據(jù)中包含從字符串轉(zhuǎn)移的初始狀態(tài)向各字符候選的ε轉(zhuǎn)移(不具有輸入輸出的空轉(zhuǎn)移,相當于權(quán)利要求書中的“第I空轉(zhuǎn)移”)、從各字符候選向字符串轉(zhuǎn)移的最終狀態(tài)的ε轉(zhuǎn)移(相當于權(quán)利要求書中的“第2空轉(zhuǎn)移”)、為了避免將噪聲捕捉為字符而賦予權(quán)重值并且以單個字符為單位跳過各字符候選的ε轉(zhuǎn)移(相當于權(quán)利要求書中的“第3空轉(zhuǎn)移”)。在圖5中,第I空轉(zhuǎn)移由標號El示出,第2空轉(zhuǎn)移由標號Ε2示出,第3空轉(zhuǎn)移由標號Ε3示出,第3空轉(zhuǎn)移的權(quán)重值例如示出為“2.0”。另外,為了能夠以最適合的處理大小進行運算,將第IWFST數(shù)據(jù)設為能夠在分割為多行單位或一定字符數(shù)單位的基礎上進行運算,并組合其結(jié)果來進行利用。在此,在步驟S6中成為了過分割的情況下,如圖6所示,按照每個重復位置進行以單個字符為單位的字符識別,將重復的字符切出位置的轉(zhuǎn)移表現(xiàn)為一個第IWFST數(shù)據(jù)。換言之,在字符區(qū)域分割部104使用多個分割模式來分割字符區(qū)域,生成了多種分割區(qū)域的情況下(即在過分割的情況下),字符識別部105分別對該多種分割區(qū)域進行字符識別處理,第I字符串轉(zhuǎn)移數(shù)據(jù)生成部106對該多種分割區(qū)域各自中的字符候選生成第IWFST數(shù)據(jù)。圖6的例子示出字符識別處理的實際的正確結(jié)果是例如“Forum”的情況下(圖6的(A)),通過多個方法、切出參數(shù)決定分割位置,并且在多個分割位置進行了單個字符識別處理的結(jié)果(圖6的(B)和(C))。在圖6的(B)所示的結(jié)果中得出“fbnim”的識別結(jié)果,在圖6的(C)所示的結(jié)果中得出“石rurn”的識別結(jié)果。另外,在圖6的(B)的結(jié)果中的“b”的部分中,由于噪聲,第一候選是“b”,第二候選是“O”。認為噪聲是由于在切出時“F”的右上的一部分進入而產(chǎn)生的。對于這樣的兩個結(jié)果,第I字符串轉(zhuǎn)移數(shù)據(jù)生成部106生成圖6的(D)所示那樣的一個第IWFST數(shù)據(jù)。另外,在圖6的例子中,省略了從初始狀態(tài)向中間狀態(tài)的ε轉(zhuǎn)移、從中間狀態(tài)向最終狀態(tài)的ε轉(zhuǎn)移、用于跳過字符的加權(quán)ε轉(zhuǎn)移。此外,將所生成的一個第IWFST數(shù)據(jù)在之后用于與詞匯數(shù)據(jù)的WFST合成運算(參照圖6的(E)和(F)), WFST處理部109輸出在多種分割區(qū)域的全體中累計權(quán)重值為上位的(在圖6的例中,與詞匯數(shù)據(jù)匹配的“forum”)作為結(jié)果,這將在后面記述。此外,為了進一步提高從情景圖像等中檢測有意義的詞匯的精度,第I字符串轉(zhuǎn)移數(shù)據(jù)生成部106根據(jù)字符識別結(jié)果的候選在圖像內(nèi)的位置或者字符識別結(jié)果的候選的字符大小等來修正權(quán)重值。在圖7的例子中,圖7的(A)示出有字符進入的圖像A3。圖7的(B)示出第I字符串轉(zhuǎn)移數(shù)據(jù)生成部106最初計算出的權(quán)重值。對于字符候選“ 二 O先”計算出權(quán)重值“0.13”。同樣地,對于“株式會社”、“10km”、“清水寺”、“旅館”分別計算出權(quán)重值“0.15”、“0.15”、“0.20”、“0.21”。在此,第I字符串轉(zhuǎn)移數(shù)據(jù)生成部106使用由圖7的(C)和(D)示出的信息來調(diào)整最初計算出的權(quán)重值。圖7的(C)是示出作為關(guān)鍵字的價值的統(tǒng)計性的空間分布的信息。在該例中,圖像的中央、左上、右下等是作為關(guān)鍵字的價值較高的部分,在圖7的(C)中,用顏色深淺來顯示作為關(guān)鍵字的價值。在顏色顯示為較深的部分中,由于作為關(guān)鍵字的價值較高,因此分配“I”作為權(quán)重系數(shù)。在顏色顯示較淺的部分,由于作為關(guān)鍵字的價值較低,因此分配“2.5”作為權(quán)重系數(shù)。圖7的(D)示出與字符大小對應的權(quán)重系數(shù)表。大小為“24”的字符由于大小較大而假定作為關(guān)鍵字的價值較高,分配“I”作為權(quán)重系數(shù)。大小為“8”的字符由于大小較小而假定作為關(guān)鍵字的價值較低,分配“2.2”作為權(quán)重系數(shù)。圖7的(E)示出第I字符串轉(zhuǎn)移數(shù)據(jù)生成部106使用由圖7的(C)和(D)示出的信息,調(diào)整最初計算出的權(quán)重值后得到的結(jié)果。通過將最初計算出的權(quán)重值與圖7的(C)和
(D)的權(quán)重系數(shù)相乘來進行加權(quán),以提高位于較大的字符區(qū)域或者作為詞匯位于價值較高的位置處的詞匯的優(yōu)先次序。例如,對于詞匯“清水寺”,將最初計算出的權(quán)重值“0.20”與圖7的(C)的空間分布權(quán)重值“1.5”和字符大小權(quán)重值“1.0”相乘,被賦予“0.3”作為調(diào)整后的權(quán)重值。通過以上的處理,在權(quán)重值調(diào)整前,例如詞匯“二 O先”具有比詞匯“清水寺”小的權(quán)重值,但通過權(quán)重值調(diào)整,詞匯O先”的權(quán)重值大于詞匯“清水寺”的權(quán)重值。即,可以說通過權(quán)重值調(diào)整,實際上具有作為關(guān)鍵字的價值的詞匯被調(diào)整成為具有較小的權(quán)重值。(7) WFST 運算處理(WFST運算處理全體的流程)WFST處理部109和字符串檢測部110將在步驟S3和S8中生成的第IWFST數(shù)據(jù)匯總成一個第IWFST數(shù)據(jù)(步驟S9),然后進行WFST運算處理(步驟S10,相當于權(quán)利要求書中的“有限狀態(tài)轉(zhuǎn)換步驟”)。WFST處理部109和字符串檢測部110進行的“WFST運算處理”,包含WFST合成運算(相當于權(quán)利要求書中的“合成運算”),并且包含以下一系列處理:WFST處理部109根據(jù)WFST數(shù)據(jù)依次進行狀態(tài)轉(zhuǎn)移,將各狀態(tài)轉(zhuǎn)移中的權(quán)重值累計來計算每個狀態(tài)轉(zhuǎn)移的累計權(quán)重值,當根據(jù)累計權(quán)重值將一個以上的狀態(tài)轉(zhuǎn)移的結(jié)果輸出到字符串檢測部110時,字符串檢測部110根據(jù)該累計權(quán)重值檢測出I個以上的字符串作為字符串識別結(jié)果。圖8是示出WFST運算處理的流程圖。根據(jù)字符識別候選組生成的第IWFST數(shù)據(jù)除了用于與詞匯DBlll (圖1參照)的WFST運算處理的詞匯檢測外,還能夠利用字符識別候選組的第IWFST數(shù)據(jù)本身作為對圖像的檢索用表。在圖8中,由步驟S10-1、S10-2、S10-3以及S10-4構(gòu)成的處理流程是利用字符識別候選組的第IWFST數(shù)據(jù)本身作為對圖像的檢索用表,判定在圖像中是否存在用戶輸入關(guān)鍵字的情況的處理流程。該情況下,WFST處理部109對通過步驟SI S9的一系列處理生成的第IWFST數(shù)據(jù)以及針對用戶輸入的關(guān)鍵字的WFST數(shù)據(jù)(相當于權(quán)利要求書中的“第2字符串轉(zhuǎn)移數(shù)據(jù)”,以下稱作“第2WFST數(shù)據(jù)”。)進行WFST運算處理,由此判定在圖像中是否存在關(guān)鍵字。具體而言,首先,從用戶輸入關(guān)鍵字,第2字符串轉(zhuǎn)移數(shù)據(jù)生成部107生成對該關(guān)鍵字的第2WFST數(shù)據(jù)(步驟S10-1 )。在圖8的(A)中將對用戶輸入的關(guān)鍵字(檢索詞匯)生成的第2WFST數(shù)據(jù)映像。接著,WFST處理部109使用在步驟S10-1中生成的第2WFST數(shù)據(jù)和通過步驟SI S9的一系列的處理生成的第IWFST數(shù)據(jù)進行WFST合成運算(步驟S10-2)。接著,WFST處理部109根據(jù)在步驟S10-2中的WFST合成運算的結(jié)果進行求出最佳路徑的運算(步驟S10-3)。最后,字符串檢測部110根據(jù)最佳路徑的運算結(jié)果輸出有無用戶輸入關(guān)鍵字的判定結(jié)果,或者該判定結(jié)果中的權(quán)重(步驟S10-4)。此外,在圖8中,由步驟S10-5、S10-6、S10-7、S10-8以及S10-9構(gòu)成的處理流程是與詞匯DBlll的WFST運算處理的詞匯檢測的情況下的處理流程。該情況下,WFST處理部109對通過步驟SI S9的一系列處理生成的第IWFST數(shù)據(jù)和在詞匯DBlll中存在的各詞匯的WFST數(shù)據(jù)(相當于權(quán)利要求書中的“第3字符串轉(zhuǎn)移數(shù)據(jù)”,以下稱作“第3WFST數(shù)據(jù)”。)進行WFST運算處理,由此檢測在圖像中存在的詞匯。具體而言,首先,第3字符串轉(zhuǎn)移數(shù)據(jù)生成部108生成在詞匯DBlll中存在的各詞匯的第3WFST數(shù)據(jù)(步驟S10-5)。接著,WFST處理部109使用在步驟S10-5中生成的第3WFST數(shù)據(jù)和通過步驟SI S9的一系列處理生成的第IWFST數(shù)據(jù)進行WFST合成運算(步驟S10-6)。接著,WFST處理部109根據(jù)在步驟S10-6中的WFST合成運算的結(jié)果,進行求出最佳路徑的運算(步驟S10-7)。最后,字符串檢測部110按照最佳路徑中的權(quán)重值順序輸出詞匯(步驟S10-8)。并且,在辭典處于分類別的情況下,或者存在分類信息辭典的情況下,輸出分類信息(步驟S10-9)。(WFST合成運算)
圖9中示出WFST合成運算(圖8的步驟S10-2和10-6)映像。WFST合成運算是對由兩個WFST數(shù)據(jù)表現(xiàn)的狀態(tài)轉(zhuǎn)移進行比較,并取出以共同的單個字符為單位的詞匯的轉(zhuǎn)移的運算。至于WFST合成運算的結(jié)果,根據(jù)合成的兩個轉(zhuǎn)移的權(quán)重值重新計算各轉(zhuǎn)移具有的權(quán)重值,WFST合成運算的結(jié)果為根據(jù)狀態(tài)轉(zhuǎn)移的權(quán)重值計算出最佳路徑(權(quán)重小的轉(zhuǎn)移)上位而得到的結(jié)果。另外,在過分割的情況下,WFST處理部109輸出在多種分割區(qū)域的全體中累計權(quán)重值為上位的狀態(tài)轉(zhuǎn)移的結(jié)果,作為WFST合成運算的結(jié)果。在詞匯檢測(由步驟S10-5 S10-9構(gòu)成的處理流程)中,進行圖9的(A)中示出那樣的字符識別候選組的第IWFST數(shù)據(jù)(與圖5所示的相同)與圖9的(B)中示出那樣的詞匯DBlll中的詞匯數(shù)據(jù)的第3WFST數(shù)據(jù)的WFST合成運算,取出轉(zhuǎn)移的權(quán)重為上位的詞匯(即僅取出與詞匯數(shù)據(jù)匹配的路徑),由此按照權(quán)重值的順序檢測詞匯。圖9的(C)示出取得了“卜'' =“人毛”、“人口”作為WFST合成運算的結(jié)果,各自的權(quán)重值分別是“0.2+0.2+0.2=0.6'“0.6+2.0+0.4=2.8,,、“0.6+0.6=1.2”的情況。因此,檢測到權(quán)重值最小的“ F ^ ”作為最佳路徑,字符串檢測部110輸出“ F ^ ”作為詞匯檢測的結(jié)果。此外,由于存在用于跳過字符的ε轉(zhuǎn)移,還能夠進行將“天X 6杉tr + K”檢測為“天& 等的略稱檢測。此外,在詞匯DBlll為大規(guī)模的結(jié)構(gòu)的情況下,存在即便沒有完全一致的詞匯也可以取出詞匯的一部分作為正確結(jié)果詞匯的情況。在檢索用表的情況下(由步驟S10-1 S10-4構(gòu)成的處理流程),通過第2WFST數(shù)據(jù)來表現(xiàn)想要在圖像中查找的檢索關(guān)鍵字,進行與字符識別候選組的第IWFST數(shù)據(jù)的WFST合成運算。判定在該WFST合成運算中,是否通過合成的兩個WFST數(shù)據(jù)的轉(zhuǎn)移得到從初始狀態(tài)向最終狀態(tài)的轉(zhuǎn)移。由此,能夠判定字符識別候選組中是否存在檢索關(guān)鍵字,即在圖像中是否存在用戶輸入的關(guān)鍵字。此外,還能夠根據(jù)轉(zhuǎn)移的權(quán)重值對多個圖像賦予次序。在圖9的例中,當用戶輸入的關(guān)鍵字例如是“ K - “人毛”,“人口”中的任意一個時,能夠通過合成的兩個WFST數(shù)據(jù)的轉(zhuǎn)移得到從初始狀態(tài)向最終狀態(tài)的轉(zhuǎn)移,因此判定為該用戶輸入的關(guān)鍵字存在于圖像中。但是,“ K - * 人毛”、“人口”的權(quán)重值分別是“0.2+0.2+0.2=0.6,,、“0.6+2.0+0.4=2.8,,、“0.6+0.6=1.2”,因此檢測出權(quán)重值最小的“ K 口
作為最佳路徑。在用 戶輸入的關(guān)鍵字是“ F' - ”的情況下,字符串檢測部110輸出最小的權(quán)重值作為詞匯檢索的結(jié)果。如圖9的(C)所示,通過將初始狀態(tài)設為相同的逐個字符的詞匯的轉(zhuǎn)移來表示圖9的(B)中例示的詞匯數(shù)據(jù)。此外,也可以利用由另行統(tǒng)計處理等得到的頻度信息、利用者輸入的學習信息或者詞匯的字符串長度等來賦予權(quán)重。此外,作為比較的對象的第IWFST數(shù)據(jù)與第2WFST數(shù)據(jù)以及第IWFST數(shù)據(jù)與第3WFST數(shù)據(jù)并不需要分別一定是相同形式的數(shù)據(jù),只要是表示字符的狀態(tài)轉(zhuǎn)移的數(shù)據(jù),并且是可以進行比較的程度的數(shù)據(jù)形式即可。(WFST合成運算,變形I)在本實施方式中,在WFST合成運算中假定了各種變形,以下,對變形I進行說明。在變形I中,詞匯DBlll具有對詞匯的分類信息,第2字符串轉(zhuǎn)移數(shù)據(jù)生成部107或者第3字符串轉(zhuǎn)移數(shù)據(jù)生成部108附加該分類信息而生成第2WFST數(shù)據(jù)或者第3WFST數(shù)據(jù),WFST處理部109附加該分類信息而進行WFST合成運算,并輸出其結(jié)果。S卩,在變形I中,作為詞匯DB111,通過將輸入作為詞匯、將輸出作為分類信息的WFST數(shù)據(jù)與附加了分類信息的詞匯DB 111的WFST數(shù)據(jù)的合成運算,能夠在檢測關(guān)鍵字的同時取得用于分類的信息或者對關(guān)鍵字附加分類信息。該情況下,為了能夠使同一詞匯具有多個分類信息,在詞匯DBlll的最終狀態(tài)的輸入中附加分類信息的連續(xù)編號,在輸出中附加分類信息(即分類信息的內(nèi)容)。此外,在根據(jù)字符識別生成的第IWFST數(shù)據(jù)的最終狀態(tài)中,附加向在詞匯DBlll上的同一詞匯中使用的分類信息的最大數(shù)量個連續(xù)編號的轉(zhuǎn)移。圖10示出變形I中的處理的一例。圖10的(A)示出附加了分類信息的詞匯數(shù)據(jù)的一例。在檢索用表的情況下,圖10的(A)示出第2字符串轉(zhuǎn)移數(shù)據(jù)生成部107生成的帶分類信息的第2WFST數(shù)據(jù)。在詞匯檢測的情況下,則圖10的(A)示出第3字符串轉(zhuǎn)移數(shù)據(jù)生成部108生成的帶分類信息的第3WFST數(shù)據(jù)。分類信息是用于識別同一詞匯的多個類別的信息。例如,對詞匯“I A ”附加了連續(xù)編號為“0000”和“0001”這兩個分類信息即“新干線”和“鳥類”。另外,圖10的(A)中的“〈印s>”是示出WFST運算處理中的空的轉(zhuǎn)移的標號,是各字符(例如“ ο ”、“ ”、“辦”等)是輸入的情況下的輸出。圖10的(B)示出對字符識別的結(jié)果附加分類信息的連續(xù)編號并轉(zhuǎn)換為第IWFST數(shù)據(jù)的情況。例如,在字符識別的結(jié)果“ ^ A ”中,在其WFST數(shù)據(jù)的最終狀態(tài)中,附加了向詞匯DBl 11中在詞匯“。(i'辦”中使用的分類信息的最大數(shù)量個連續(xù)編號(在圖10的例中為連續(xù)編號“0000”和“0001”這兩個編號)的轉(zhuǎn)移。進行圖10的(A)所示的第2WFST數(shù)據(jù)或者第3WFST數(shù)據(jù)與圖10的(B)所示的第IWFST數(shù)據(jù)的合成運算,圖10的(C)示出合成運算的結(jié)果。在比較了兩個WFST數(shù)據(jù)之后,僅取出了兩個匹配的路徑,但是,通過<epS>空轉(zhuǎn)移,作為圖10的(C)的結(jié)果僅示出了分類信息。圖11示出與圖10的情況同樣的情況,但不同之處在于字符識別的結(jié)果是“ + f辦”。圖11的(C)中示出了合成運算的結(jié)果,在比較了兩個WFST數(shù)據(jù)之后,僅取出了一個匹配的路徑,但是,與圖10的(C)同樣,通過<eps>空轉(zhuǎn)移,作為結(jié)果僅示出分類信息。圖12示出與圖10的情況同樣的情況,但不同之處在于沒有<eps>轉(zhuǎn)移。圖12的
(C)中示出了合成運算的結(jié)果,在比較了兩個WFST數(shù)據(jù)之后,僅取出了兩個匹配的路徑,但是,由于沒有<eps>轉(zhuǎn)移,因 此作為結(jié)果示出了詞匯和分類信息雙方。(WFST合成運算,變形2)接著,對變形2進行說明。在變形2中,如圖13所示,字符識別裝置I還具有詞匯分類關(guān)聯(lián)性矢量存儲部112(相當于權(quán)利要求書中的“詞匯分類關(guān)聯(lián)性矢量存儲單元”)。詞匯分類關(guān)聯(lián)性矢量存儲部112用于存儲示出詞匯與分類信息的關(guān)聯(lián)性的詞匯分類關(guān)聯(lián)性矢量。第I字符串轉(zhuǎn)移數(shù)據(jù)生成部106將自身生成的第IWFST數(shù)據(jù)中的字符識別處理結(jié)果的候選和該候選的權(quán)重值與詞匯分類關(guān)聯(lián)性矢量的值相加。接著,第I字符串轉(zhuǎn)移數(shù)據(jù)生成部106將值最大的分類信息作為與該候選對應的分類信息,基于該分類信息修正對于該候選的權(quán)重值。然后,WFST處理部109根據(jù)該修正后的權(quán)重值進行WFST合成運算。S卩,在變形2中,利用同義關(guān)系數(shù)據(jù)庫預先將分類信息與詞匯的關(guān)聯(lián)性作為表進行準備,由此能夠變更分類信息的優(yōu)先級。例如,如圖14那樣,如果具有食物菜單作為詞匯,具有以矢量表示食物類別的關(guān)系性的排列(圖14的(B),詞匯分類關(guān)聯(lián)性矢量)作為分類信息,則將檢測詞匯的矢量相加,能夠檢測出矢量最大的食物類別作為檢測詞匯的食物類別。相反,通過根據(jù)取得的類別的順序或矢量值重新決定詞匯的權(quán)重,還能夠變更所檢測到的食物菜單的優(yōu)先級。圖14的(A)示出在字符識別中檢測到的詞匯(“餃子”,一等,各食物菜單),圖14的(B)示出各食物菜單與食物類別的對應表(詞匯分類關(guān)聯(lián)性矢量)。圖14的(C)示出參照圖14的(B)的對應表,計算與圖14的(A)的各食物菜單對應的矢量值的例子。在該例中,由于對“中餐”計算出最高的矢量值,因此將圖14的(A)所示的詞匯的類別判斷為“中餐”。最后,圖14的(D)示出反映了圖14的(C)中判斷出的類別“中餐”,并修正了對圖14的(A)的各食物菜單的權(quán)重值后的情況。圖15是示出圖14的(D)所示的修正權(quán)重值的計算過程的圖。通過圖15的(A)
(D)的步驟,計算圖14的(D)所示的修正權(quán)重值。圖15的(A)示出檢測到的類別權(quán)重值的和,相當于圖14的(B)和(C)。圖15的(B)示出取圖14的(A)所示的詞匯權(quán)重值的倒數(shù),即取(I/詞匯權(quán)重值),并乘以各詞匯的類別權(quán)重值的情況。例如,對于“餃子”,取圖14的(A)所示的詞匯權(quán)重值即“0.3”的倒數(shù),即取“1/0.3”,并分別與圖15的(A)所示的類別權(quán)重值“0,1.0,O”相乘,由此得到“0,3.33,O”的計算結(jié)果。同樣地,對于一 7° ”,取圖14的(A)所示的詞匯權(quán)重值即“0.45”的倒數(shù),即“1/0.45”,并分別乘以圖15的(A)所示的類別權(quán)重值“0,0.3,0.7”,由此得到“0,0.67,1.56”的計算結(jié)果。圖15的(C)示出將圖15的(B)的結(jié)果與圖15的(A)的和相乘的情況。例如,對于“餃子”,將圖15的(B)的結(jié)果即“0,3.33,O”分別與圖15的(A)的和即“0.5,2.8,0.7”相乘,由此得到“0,9.33,0”的計算結(jié)果。同樣地,對于7”’,將圖15的(B)的結(jié)果即“0,0.67,1.56” 分別與圖 15 的(A)的和即 “0.5,2.8,0.7” 相乘,由此得到 “0,1.87,1.09”
的計算結(jié)果。最后,圖15的(D)示出對各詞匯按照每個類別分別將圖15的(C)的計算結(jié)果相力口,并將相加得到的值的倒數(shù)作為修正權(quán)重值的情況。例如,對于“餃子”,對圖15的(C)的結(jié)果即“0,9.33,O”將每個類別的數(shù)值全部相加得到“9.33”的計算結(jié)果。然后,取其倒數(shù)而得到修正權(quán)重值“0.11”的計算結(jié)果。同樣地,對于一 7° ”,對圖15的(C)的結(jié)果即“0,1.87,1.09”將每個類別的數(shù)值全部相加得到“2.96”的計算結(jié)果。然后,取其倒數(shù)而得到修正權(quán)重值“0.34”的計算結(jié)果。(WFST合成運算,變形3)接著,對變形3進行說明。在變形3中,在WFST數(shù)據(jù)中附加“位置信息”。S卩,當輸出字符識別處理結(jié)果的候選時,字符識別部105—并輸出該候選在圖像內(nèi)的位置信息??梢栽O置用于取得圖像內(nèi)的位置信息的另外的單元,也可以由字符識別部105進行該取得。而且,第I字符串轉(zhuǎn)移數(shù)據(jù)生成部106附加該位置信息而生成第IWFST數(shù)據(jù),WFST處理部109和字符串檢測部110附加該位置信息而進行WFST合成運算,并輸出其結(jié)果。在變形3中,由于通過WFST合成運算本身無法確定到檢測詞匯的位置,因此另外準備表(參照下述的圖16的(C))來存儲原來的位置信息,并將該表編號附加到狀態(tài)轉(zhuǎn)移中。這樣,所檢測到的結(jié)果中也帶有該表編號,因此能夠確定原來的位置信息(參照圖16的(D)和(E))。圖16是用于示出變形3中的各功能要素的動作的圖。圖16的(C)示出字符識別部105輸出的位置信息。位置信息作為位置信息表被輸出,通過Xl和yl示出各字符的左上的坐標,通過x2和y2示出各字符的右下的坐標。此外,各位置信息通過“0000”、“0001”等連續(xù)編號來識別。當輸出字符識別處理結(jié)果的候選時,字符識別部105 —并輸出圖16的(C)所示那樣的連續(xù)編號。圖16的(B)示出第I字符串轉(zhuǎn)移數(shù)據(jù)生成部106生成的帶位置信息的第IWFST數(shù)據(jù)。與圖5的第IWFST數(shù)據(jù)相比,不同點在于附加了位置信息的連續(xù)編號。另外,省略了用于跳過字符的加權(quán)ε轉(zhuǎn)移。圖16的(A)示出附加了位置信息(更準確地講是位置信息的連續(xù)編號)的詞匯數(shù)據(jù)的一例。在檢索用表的情況下,圖16的(A)示出第2字符串轉(zhuǎn)移數(shù)據(jù)生成部107生成的帶位置信息的第2WFST數(shù)據(jù)。在詞匯檢測的情況下,圖16的(A)示出第3字符串轉(zhuǎn)移數(shù)據(jù)生成部108生成的帶位置信息的第3WFST數(shù)據(jù)。如圖16的(A)所示,在轉(zhuǎn)移的最初和最后附加有位置信息的連續(xù)編號,所附加的連續(xù)編號的數(shù)量與圖16的(C)所示的位置信息的數(shù)量的最大數(shù)相同。在該例中,位置信息的數(shù)量的最大數(shù)是從“0000”到“9999”的I萬個。圖16的(D)示出進行了圖16的(A)的第2WFST數(shù)據(jù)或者第3WFST數(shù)據(jù)與圖16的
(B)的第IWFST數(shù)據(jù)的合成運算的結(jié)果。在合成運算的結(jié)果中附加了位置信息的連續(xù)編號。而且,如圖16的(E)所示,通過對照在合成運算的結(jié)果中附加的連續(xù)編號與圖16的(C)的位置信息表,能夠確定“9 4 >”、“> 等字符識別的結(jié)果位于圖像內(nèi)的哪個位置。在僅利用一個重復位置的詞匯的情況下,另外生成已經(jīng)檢測出字符位置的判定用排列,將從最佳路徑上位起與檢測詞匯的字符位置對應的排列位置設為已經(jīng)檢測。在已經(jīng)檢測出排列的情況下,判定為詞匯重疊,僅利用從同一位置檢測到的關(guān)鍵字的優(yōu)先次序高的詞匯。這樣,以填補間隙的方式配置詞匯,由此可以利用優(yōu)先次序高的詞匯來進行字符識別結(jié)果的校正。(WFST合成運算,變形4)接著,對變形4進行說明。在以分隔書寫為前提的語言的情況下,與日語相比,構(gòu)成的字符的變形較少,因此在利用圖5那樣的字符識別候選組的WFST數(shù)據(jù)的情況下,可能會像例如從“pencil”的一部分中僅檢測到“pen”那樣,僅檢測出單詞的一部分。因此,在變形4中,在WFST數(shù)據(jù)中附加“分隔識別信息(相當于權(quán)利要求書中的“識別信息”)”。S卩,當輸出字符識別處理結(jié)果的候選時,字符識別部105 —并輸出表示單詞間的分隔的分隔識別信息。在字符識別中,在識別為是分隔的字符的情況下,即識別出的字符是例如空格、句號、括號等符號的情況下,輸出分隔識別信息。然后,第I字符串轉(zhuǎn)移數(shù)據(jù)生成部106附加該分隔識別信息而生成帶分隔識別信息的第IWFST數(shù)據(jù)。此外,第2字符串轉(zhuǎn)移數(shù)據(jù)生成部107和第3字符串轉(zhuǎn)移數(shù)據(jù)生成部108也附加分隔識別信息而分別生成帶分隔識別信息的第2WFST數(shù)據(jù)和第3WFST數(shù)據(jù)。除了在上述空格、句號、括號等符號的情況下附加分隔識別信息外,還在單詞的最初和最后附加。然后,當進行用于WFST處理的狀態(tài)轉(zhuǎn)移時,WFST處理部109以被兩個分隔識別信息而分隔的部分為單位進行該狀態(tài)轉(zhuǎn)移。圖17是用于示出變形4中的各功能要素的動作的圖。圖17的(B)示出圖像中的字符串是“ {two pens} ”的情況下,第I字符串轉(zhuǎn)移數(shù)據(jù)生成部106生成的帶分隔識別信息的第IWFST數(shù)據(jù)。識別出符號“ {”的字符識別部105輸出該字符識別處理結(jié)果,并輸出分隔識別信息。第I字符串轉(zhuǎn)移數(shù)據(jù)生成部106取得這些信息后,生成以符號“ {”為輸入、分隔識別信息“<sp>”為輸出的帶識別信息的第IWFST數(shù)據(jù)。關(guān)于符號也是同樣的。關(guān)于“two”與“pens”之間的空格,當字符識別部105將字符識別的結(jié)果是空格的情況輸出后,第I字符串轉(zhuǎn)移數(shù)據(jù)生成部106生成對該空格分配了分隔識別信息后的帶分隔識別信息的第IWFST數(shù)據(jù)。另外,在圖17中,省略了從初始狀態(tài)向中間狀態(tài)的ε轉(zhuǎn)移、從中間狀態(tài)向最終狀態(tài)的ε轉(zhuǎn)移、以及用于跳過字符的加權(quán)ε轉(zhuǎn)移。圖17的(A)示出附加了分隔識別信息的分隔書寫用的詞匯數(shù)據(jù)的一例。在檢索用表的的情況下,圖17的(A)示出第2字符串轉(zhuǎn)移數(shù)據(jù)生成部107生成的帶分隔識別信息的第2WFST數(shù)據(jù)。在詞匯檢測的的情況下,圖17的(A)示出第3字符串轉(zhuǎn)移數(shù)據(jù)生成部108生成的帶分隔識別信息的第3WFST數(shù)據(jù)。如圖17的(A)中所示,在單詞的最初和最后附加了分隔識別信息“<sp>”。此外,對于在英語中表示復數(shù)形式的“s”,使輸出為“〈esp〉”。由此,能夠使復數(shù)形式的“s”在合成運算的結(jié)果中不產(chǎn)生影響。圖17的(C)中示出進行了圖17的(B)所示的第IWFST數(shù)據(jù)與圖17的(A)所示的第2WFST數(shù)據(jù)或者第3WFST數(shù)據(jù)的合成運算的結(jié)果。WFST處理部109在進行狀態(tài)轉(zhuǎn)移時,以被兩個分隔識別信息分隔的部分為單位進行該狀態(tài)轉(zhuǎn)移,即以圖17的(B)所示的“two”或“pens”為單位進行該狀態(tài)轉(zhuǎn)移,進行與圖17的(A)的第IWFST數(shù)據(jù)的合成運算,因此輸出“pen”作為結(jié)果。與此相對,圖17的(D)示出在圖像中的字符串是“pencil.”的情況下,第I字符串轉(zhuǎn)移數(shù)據(jù)生成部106生成的帶分隔識別信息的第IWFST數(shù)據(jù)。字符識別部105識別出符號”后輸出該字符識別處理結(jié)果,并輸出分隔識別信息。第I字符串轉(zhuǎn)移數(shù)據(jù)生成部106收到這些信息后,生成以符號“.”為輸入、分隔識別信息“〈sp>”為輸出的帶識別信息的第IWFST數(shù)據(jù)。在圖17的(E)中示出進行了圖17的(D)所示的第IWFST數(shù)據(jù)與圖17的(A)所示的第2WFST數(shù)據(jù)或者第3WFST數(shù)據(jù)的合成運算的結(jié)果。WFST處理部109在進行狀態(tài)轉(zhuǎn)移時,以被兩個分隔識別信息分隔的部分為單位進行該狀態(tài)轉(zhuǎn)移,即以圖17的(D)所示的“pencil”為單位進行該狀態(tài)轉(zhuǎn)移,進行與圖17的(A)的第IWFST數(shù)據(jù)的合成運算,因此未檢測到匹配的詞匯。由此,能夠防止從“pencil”的一部分中僅檢測出“pen”等僅檢測出單詞的部分拼寫的情況。圖18是用于示出對于組合了分隔書寫的語言的詞匯與非分隔書寫的語言的詞匯的情況下的、變形4中的各功能要素的動作的圖。在以下說明的方法中,在字母與字母以外的字符之間的轉(zhuǎn)移中附加分隔的識別信息的轉(zhuǎn)移和ε轉(zhuǎn)移。由此,即便字母與字母以外的字符沒有分隔地存在的情況下,也能夠同時進行由字母構(gòu)成的詞匯的檢測,以及組合了字母和字母以外的字符的詞匯的檢測。圖18的(A)示出第I字符串轉(zhuǎn)移數(shù)據(jù)生成部106最初生成的帶分隔識別信息的第IWFST數(shù)據(jù)。以與圖17相同的要領生成第IWFST數(shù)據(jù),在單詞的最初和最后附加分隔識別信息“<sp>”。圖18的(B)示出第I字符串轉(zhuǎn)移數(shù)據(jù)生成部106修正圖18的(A)而生成的帶分隔識別信息的第IWFST數(shù)據(jù)。在字母與字母以外的字符之間的轉(zhuǎn)移中,即在分隔書寫的語言的詞匯與非分隔書寫的語言的詞匯之間的轉(zhuǎn)移中,附加了分隔識別信息。此外,與分隔識別信息一起附加ε轉(zhuǎn)移“〈印s>”,由此還能夠?qū)M合了字母和字母以外的字符的詞匯。即,考慮由字母構(gòu)成的轉(zhuǎn)移和由字母以外的字符構(gòu)成的轉(zhuǎn)移并列地排列,在字符間的轉(zhuǎn)移中附加如圖18的(C)所示那樣的狀態(tài)轉(zhuǎn)移。由此,成為在字母與字母以外的字符之間的轉(zhuǎn)移中附加分隔識別信息“<sp>”的轉(zhuǎn)移的結(jié)構(gòu)。另外,在圖18中,省略了從初始狀態(tài)向中間狀態(tài)的ε轉(zhuǎn)移、從中間狀態(tài)向最終狀態(tài)的ε轉(zhuǎn)移以及用于跳過字符的加權(quán)ε轉(zhuǎn)移。(作為字符識別系統(tǒng)100的結(jié)構(gòu)例)接著,對本實施方式的其他結(jié)構(gòu)例進行說明。以上,對本發(fā)明構(gòu)成為字符識別裝置I的情況進行了說明,但不限于此,如圖19所示,本發(fā)明也可以構(gòu)成為具有終端200和服務器300的字符識別系統(tǒng)100。圖19是該情況下的結(jié)構(gòu)概要圖,終端200和服務器300能夠通過通信網(wǎng)絡以彼此能夠通信的方式連接。終端200具有以下部分作為功能性的結(jié)構(gòu)要素:圖像讀入部101 (相當于權(quán)利要求書中的“圖像輸入單元”)、圖像二值化部102、字符區(qū)域檢測部103 (相當于權(quán)利要求書中的“字符區(qū)域檢測單元”)、字符區(qū)域分割部104 (相當于權(quán)利要求書中的“字符區(qū)域分割單元”)、字符識別部105(相當于權(quán)利要求書中的“字符識別單元”)、第I字符串轉(zhuǎn)移數(shù)據(jù)生成部106 (相當于權(quán)利要求書中的“第I字符串轉(zhuǎn)移數(shù)據(jù)生成單元”)以及第2字符串轉(zhuǎn)移數(shù)據(jù)生成部107 (相當于權(quán)利要求書中的“第2字符串轉(zhuǎn)移數(shù)據(jù)生成單元”)。服務器300具有以下部分作為功能性的結(jié)構(gòu)要素 第3字符串轉(zhuǎn)移數(shù)據(jù)生成部108 (相當于權(quán)利要求書中的“第3字符串轉(zhuǎn)移數(shù)據(jù)生成單元”)、WFST處理部109 (相當于權(quán)利要求書中的“有限狀態(tài)轉(zhuǎn)換單元”)、字符串檢測部110 (相當于權(quán)利要求書中的“字符串檢測單元”)以及詞匯DBlll (相當于權(quán)利要求書中的“詞匯數(shù)據(jù)庫”)。關(guān)于終端200和服務器300具有的功能性的結(jié)構(gòu)要素各自的說明,與字符識別裝置I中說明的內(nèi)容重復,因而此處省略說明。另外,在本實施方式中,舉出了第I字符串轉(zhuǎn)移數(shù)據(jù)生成部106和第2字符串轉(zhuǎn)移數(shù)據(jù)生成部107存在于終端200內(nèi)、第3字符串轉(zhuǎn)移數(shù)據(jù)生成部108存在于服務器300內(nèi)的結(jié)構(gòu)例,但不限于此,第I字符串轉(zhuǎn)移數(shù)據(jù)生成部106、第2字符串轉(zhuǎn)移數(shù)據(jù)生成部107以及第3字符串轉(zhuǎn)移數(shù)據(jù)生成部108可以存在于終端200、服務器300中的任意一方中。能夠?qū)D2作為終端200的硬件結(jié)構(gòu)圖來參照。如圖2所示,終端200構(gòu)成為通常的計算機系統(tǒng),該計算機系統(tǒng)在物理上除包含CPU21、R0M22和RAM23等主存儲裝置、鍵盤、鼠標外,還包含照相機等用于讀入圖像的裝置或者用于從外部裝置讀入數(shù)據(jù)的裝置即輸入設備24、顯示器等輸出設備25、用于在與其他裝置之間進行數(shù)據(jù)的發(fā)送接收的網(wǎng)卡等通信模塊26、以及硬盤等輔助存儲裝置27等。輸入設備24進行的圖像的讀入可以是由自裝置攝影的圖像,或者也可以是由其他裝置攝影的圖像。通過在CPU21、R0M22、RAM23等硬件上讀入預定的計算機軟件, 在CPU21的控制下使輸入設備24、輸出設備25、通信模塊26進行動作,并且進行主存儲裝置22、23或輔助存儲裝置27中的數(shù)據(jù)的讀出和寫入,由此實現(xiàn)上述終端200的各功能。能夠?qū)D2作為服務器300的硬件結(jié)構(gòu)圖來參照。如圖2所示,服務器300構(gòu)成為通常的計算機系統(tǒng),該計算機系統(tǒng)在物理上除包含CPU31、R0M32和RAM33等主存儲裝置、鍵盤、鼠標外,還包含從外部裝置讀入數(shù)據(jù)的裝置即輸入設備34、顯示器等輸出設備35、用于在與其他裝置之間進行數(shù)據(jù)的發(fā)送接收的網(wǎng)卡等通信模塊36、以及硬盤等輔助存儲裝置37等。通過在CPU31、R0M32、RAM33等硬件上讀入預定的計算機軟件,在CPU31的控制下使輸入設備34、輸出設備35、通信模塊36進行動作,并且進行主存儲裝置32、33或輔助存儲裝置37中的數(shù)據(jù)的讀出和寫入,由此實現(xiàn)上述的服務器300的各功能。(作為字符識別程序的結(jié)構(gòu)例)本發(fā)明還能夠構(gòu)成為字符識別程序,能夠?qū)㈥P(guān)于以上的字符識別裝置I的說明理解為關(guān)于使計算機作為字符識別裝置I進行動作的字符識別程序的說明。雖然省略重復的說明,但字符識別程序使計算機作為以上說明的圖像讀入部101、圖像二值化部102、字符區(qū)域檢測部103、字符區(qū)域分割部104、字符識別部105、第I字符串轉(zhuǎn)移數(shù)據(jù)生成部106、第2字符串轉(zhuǎn)移數(shù)據(jù)生成部107、第3字符串轉(zhuǎn)移數(shù)據(jù)生成部108、WFST處理部109以及字符串檢測部110發(fā)揮作用。例如將字符識別程序存儲在記錄介質(zhì)中來提供。另外,作為記錄介質(zhì),可例示軟盤、⑶、DVD等記錄介質(zhì)、ROM等記錄介質(zhì)、或者半導體存儲器等。(本實施方式的作用和效果)接著,對本實施方式的字符識別裝置I的作用和效果進行說明。根據(jù)本實施方式的字符識別裝置1,由于不利用外部的電話簿等數(shù)據(jù)庫,因此不需要與在該電話簿數(shù)據(jù)庫等中包含的大量的單詞知識進行對照,能夠?qū)崿F(xiàn)字符識別處理的高速化。即,根據(jù)本實施方式,不是根據(jù)字符識別結(jié)果來檢測單詞而進行與外部的單詞數(shù)據(jù)庫的對照,而是利用有限狀態(tài)轉(zhuǎn)換器(WFST)來表現(xiàn)在字符識別裝置I內(nèi)存在的單詞/分類信息數(shù)據(jù)庫與字符識別候選組,并進行WFST的合成運算,由此可以高速地進行單詞提取/分類信息提取/字符位置提取處理。此外,由于也不需要位置信息取得單元或方位信息取得單元等,因此能夠使裝置結(jié)構(gòu)簡單化。即,可以不使用位置信息取得裝置或方位信息取得裝置,而僅使用字符識別裝置I內(nèi)的信息進行字符識別。使用這樣的裝置結(jié)構(gòu),可以高精度且高速地從情景圖像進行字符識別。此外,在本實施方式中,即便以在圖像中會出現(xiàn)噪聲的形式來提取字符區(qū)域,也可以施加基于WFST運算處理的高度的語言的制約。由此,除了能夠除去該噪聲外,還能夠降低優(yōu)先次序。因此,即便在明暗的變動或字符的失真等具有情景圖像特有的問題的情況下,也能夠提高識別精度。此外,通過在既有方法得到的字符識別結(jié)果中應用由本實施方式檢測到的詞匯,由此能夠利用本實施方式的字符識別裝置I等作為用于對既有方法的字符識別結(jié)果進行糾錯的裝置。此外,根據(jù)本實施方式,能夠利用字符識別候選組的第IWFST數(shù)據(jù)本身作為對圖像的檢索用表,將本實施方式的字符識別裝置I等有效地利用為判定在圖像中是否存在用戶輸入關(guān)鍵字的裝置等。此外,根據(jù)本實施方式,對字符識別候選組的第IWFST數(shù)據(jù)和詞匯DBlll中的第3WFST數(shù)據(jù)進行合成運算,由此能夠有效地將本實施方式的字符識別裝置I等應用為詞匯檢測裝置等。此外,根據(jù)本實施方式,提供用于第I字符串轉(zhuǎn)移數(shù)據(jù)生成部106計算權(quán)重值的具體的方法。此外,根據(jù)本實施方式,提供用于第I字符串轉(zhuǎn)移數(shù)據(jù)生成部106修正權(quán)重值的具體的方法。此外,通過權(quán)重值的修正能夠提高詞匯的檢測精度。此外,根據(jù)本實施方式,即便在字符區(qū)域分割部104進行了過分割的情況下也可以適當?shù)貞獙?。此外,根?jù)本實施方式,使第IWFST數(shù)據(jù)中包含第I空轉(zhuǎn)移、第2空轉(zhuǎn)移以及第3空轉(zhuǎn)移,由此能夠提高第IWFST數(shù)據(jù)與第2WFST數(shù)據(jù)或者第3WFST數(shù)據(jù)的合成運算的精度。此外,根據(jù)本實施方式,通過使用表示分隔的識別信息,對于分隔書寫的語言也能夠高精度地進行字符識別。此外,對于英語那樣的分隔書寫的語言和日語那樣的非分隔書寫的語言的辭典,能夠?qū)υ~匯進行共同的處理。此外,根據(jù)本實施方式,通過使用位置信息,能夠確定字符識別的結(jié)果位于圖像內(nèi)的哪個位置。此外,根據(jù)本實施方式,通過使用分類信息,能夠確定字符識別的結(jié)果屬于哪個類別。標號說明I...字符識別裝置,100...字符識別系統(tǒng),101...圖像讀入部,102...圖像二值化部,103…字符區(qū)域檢測部,1 04…字符區(qū)域分割部,105…字符識別部,106…第I字符串轉(zhuǎn)移數(shù)據(jù)生成部,107…第2字符串轉(zhuǎn)移數(shù)據(jù)生成部,108…第3字符串轉(zhuǎn)移數(shù)據(jù)生成部,109…處理部,110...字符串檢測部,111...詞匯DB,200...終端,300...服務器。產(chǎn)業(yè)上的可用性本發(fā)明提供一種能夠不使用外部的電話簿等數(shù)據(jù)庫而使用被簡單化的裝置結(jié)構(gòu),高精度且高速地進行字符識別的字符識別裝置、字符識別方法、字符識別系統(tǒng)以及字符識別程序。
權(quán)利要求
1.一種字符識別裝置,其特征在于,具有: 圖像輸入單元,其輸入包含識別對象字符的圖像; 字符區(qū)域檢測單元,其檢測所述圖像中的、所述字符存在的區(qū)域即字符區(qū)域; 字符區(qū)域分割單元,其以單個字符為單位分割所述字符區(qū)域; 字符識別單元,其對存在于所述字符區(qū)域分割單元所分割的分割區(qū)域中的所述字符進行每個單個字符的字符識別處理,對單個字符輸出I個以上的字符識別處理結(jié)果的候選;第I字符串轉(zhuǎn)移數(shù)據(jù)生成單元,其輸入所述候選,計算針對向所述候選的轉(zhuǎn)移的權(quán)重值,生成基于所述候選與· 所述權(quán)重值的組的字符串轉(zhuǎn)移數(shù)據(jù)即第I字符串轉(zhuǎn)移數(shù)據(jù);以及有限狀態(tài)轉(zhuǎn)換單元,其根據(jù)所述第I字符串轉(zhuǎn)移數(shù)據(jù)依次進行狀態(tài)轉(zhuǎn)移,將各狀態(tài)轉(zhuǎn)移中的權(quán)重值累計而計算每個狀態(tài)轉(zhuǎn)移的累計權(quán)重值,根據(jù)所述累計權(quán)重值輸出一個以上的所述狀態(tài)轉(zhuǎn)移的結(jié)果。
2.根據(jù)權(quán)利要求1所述的字符識別裝置,其特征在于, 所述字符識別裝置還具有第2字符串轉(zhuǎn)移數(shù)據(jù)生成單元,該第2字符串轉(zhuǎn)移數(shù)據(jù)生成單元從用戶輸入關(guān)鍵字,生成所述關(guān)鍵字的字符串轉(zhuǎn)移數(shù)據(jù)即第2字符串轉(zhuǎn)移數(shù)據(jù), 所述有限狀態(tài)轉(zhuǎn)換單元對所述第I字符串轉(zhuǎn)移數(shù)據(jù)與所述第2字符串轉(zhuǎn)移數(shù)據(jù)進行合成運算,由此判定在所述圖像中是否存在所述關(guān)鍵字。
3.根據(jù)權(quán)利要求1所述的字符識別裝置,其特征在于, 所述字符識別裝置還具有第3字符串轉(zhuǎn)移數(shù)據(jù)生成單元,該第3字符串轉(zhuǎn)移數(shù)據(jù)生成單元生成在詞匯數(shù)據(jù)庫中存在的各詞匯的字符串轉(zhuǎn)移數(shù)據(jù)即第3字符串轉(zhuǎn)移數(shù)據(jù), 所述有限狀態(tài)轉(zhuǎn)換單元對所述第I字符串轉(zhuǎn)移數(shù)據(jù)與所述第3字符串轉(zhuǎn)移數(shù)據(jù)進行合成運算,由此檢測在所述圖像中存在的詞匯。
4.根據(jù)權(quán)利要求1 3中的任意一項所述的字符識別裝置,其特征在于, 所述字符識別單元對多個所述候選分別賦予優(yōu)先次序并進行輸出, 所述第I字符串轉(zhuǎn)移數(shù)據(jù)生成單元根據(jù)所述優(yōu)先次序計算所述權(quán)重值。
5.根據(jù)權(quán)利要求4所述的字符識別裝置,其特征在于, 所述字符識別單元使用至少兩種以上不同的識別方式進行所述字符識別處理, 所述第I字符串轉(zhuǎn)移數(shù)據(jù)生成單元根據(jù)所述不同的識別方式中的所述候選的輸出數(shù)量和所述優(yōu)先次序來計算所述權(quán)重值。
6.根據(jù)權(quán)利要求1 5中的任意一項所述的字符識別裝置,其特征在于, 所述第I字符串轉(zhuǎn)移數(shù)據(jù)生成單元考慮在語言數(shù)據(jù)庫中登記的單詞的字符串轉(zhuǎn)移來計算所述權(quán)重值。
7.根據(jù)權(quán)利要求1 6中的任意一項所述的字符識別裝置,其特征在于, 所述第I字符串轉(zhuǎn)移數(shù)據(jù)生成單元根據(jù)所述候選在所述圖像內(nèi)的位置、或者所述候選的字符大小來修正所述權(quán)重值。
8.根據(jù)權(quán)利要求1 7中的任意一項所述的字符識別裝置,其特征在于, 在所述字符區(qū)域分割單元使用多個分割模式來分割所述字符區(qū)域,生成了多種所述分割區(qū)域的情況下, 所述字符識別單元對所述多種分割區(qū)域分別進行所述字符識別處理, 所述第I字符串轉(zhuǎn)移數(shù)據(jù)生成單元對所述多種分割區(qū)域各自的所述候選生成所述第I字符串轉(zhuǎn)移數(shù)據(jù), 所述有限狀態(tài)轉(zhuǎn)換單元輸出在所述多種分割區(qū)域全部中所述累計權(quán)重值為上位的狀態(tài)轉(zhuǎn)移結(jié)果作為所述結(jié)果。
9.根據(jù)權(quán)利要求1 8中的任意一項所述的字符識別裝置,其特征在于, 所述第I字符串轉(zhuǎn)移數(shù)據(jù)生成單元將從字符串轉(zhuǎn)移的初始狀態(tài)向所述候選的空轉(zhuǎn)移即第I空轉(zhuǎn)移、從所述候選向字符串轉(zhuǎn)移的最終狀態(tài)的空轉(zhuǎn)移即第2空轉(zhuǎn)移、用于以單個字符為單位跳過所述候選的空轉(zhuǎn)移即第3空轉(zhuǎn)移包含在內(nèi)而生成所述第I字符串轉(zhuǎn)移數(shù)據(jù)。
10.根據(jù)權(quán)利要求1 9中的任意一項所述的字符識別裝置,其特征在于, 所述字符識別單元在輸出所述字符識別處理結(jié)果的所述候選時,一并輸出表示單詞間的分隔的識別信息, 所述第I字符串轉(zhuǎn)移數(shù)據(jù)生成單元附加所述識別信息來生成所述第I字符串轉(zhuǎn)移數(shù)據(jù), 所述有限狀態(tài)轉(zhuǎn)換單元在進行所述狀態(tài)轉(zhuǎn)移時,以被兩個所述識別信息分隔的部分為單位來進行所述狀態(tài)轉(zhuǎn)移。
11.根據(jù)權(quán)利要求1 10中的任意一項所述的字符識別裝置,其特征在于, 所述字符識別單元在輸出所述字符識別處理結(jié)果的所述候選時,一并輸出該候選在所述圖像內(nèi)的位置信息, 所述第I字符串轉(zhuǎn)移數(shù)據(jù)生成單元附加所述位置信息來生成所述第I字符串轉(zhuǎn)移數(shù) 據(jù), 所述有限狀態(tài)轉(zhuǎn)換單元附加所述位置信息來輸出所述結(jié)果。
12.根據(jù)權(quán)利要求2 11中的任意一項所述的字符識別裝置,其特征在于, 所述詞匯數(shù)據(jù)庫具有對詞匯的分類信息, 所述第2字符串轉(zhuǎn)移數(shù)據(jù)生成單元或者所述第3字符串轉(zhuǎn)移數(shù)據(jù)生成單元附加所述分類信息來生成所述第2字符串轉(zhuǎn)移數(shù)據(jù)或者所述第3字符串轉(zhuǎn)移數(shù)據(jù), 所述有限狀態(tài)轉(zhuǎn)換單元附加所述分類信息來輸出所述結(jié)果。
13.根據(jù)權(quán)利要求12所述的字符識別裝置,其特征在于, 所述字符識別裝置具有詞匯分類關(guān)聯(lián)性矢量存儲單元,該詞匯分類關(guān)聯(lián)性矢量存儲單元存儲表示詞匯與所述分類信息的關(guān)聯(lián)性的詞匯分類關(guān)聯(lián)性矢量, 所述第I字符串轉(zhuǎn)移數(shù)據(jù)生成單元將所述第I字符串轉(zhuǎn)移數(shù)據(jù)中的所述候選以及所述權(quán)重值與所述詞匯分類關(guān)聯(lián)性矢量的值相加,將值最大的分類信息作為與所述候選對應的分類信息,基于該分類信息修正對于該候選的所述權(quán)重值。
14.一種字符識別方法,其特征在于,具有: 圖像輸入步驟,圖像輸入單元輸入包含識別對象字符的圖像; 字符區(qū)域檢測步驟,字符區(qū)域檢測單元檢測所述圖像中的、所述字符存在的區(qū)域即字符區(qū)域; 字符區(qū)域分割步驟,字符區(qū)域分割單元以單個字符為單位分割所述字符區(qū)域; 字符識別步驟,字符識別單元對存在于所述字符區(qū)域分割單元所分割的分割區(qū)域中的所述字符進行每個單個字符的字符識別處理,對單個字符輸出I個以上的字符識別處理結(jié)果的候選;第I字符串轉(zhuǎn)移數(shù)據(jù)生成步驟,第I字符串轉(zhuǎn)移數(shù)據(jù)生成單元輸入所述候選,計算針對向所述候選的轉(zhuǎn)移的權(quán)重值,生成基于所述候選與所述權(quán)重值的組的字符串轉(zhuǎn)移數(shù)據(jù)即第I字符串轉(zhuǎn)移數(shù)據(jù);以及 有限狀態(tài)轉(zhuǎn)換步驟,有限狀態(tài)轉(zhuǎn)換單元根據(jù)所述第I字符串轉(zhuǎn)移數(shù)據(jù)依次進行狀態(tài)轉(zhuǎn)移,將各狀態(tài)轉(zhuǎn)移中的權(quán)重值累計而計算每個狀態(tài)轉(zhuǎn)移的累計權(quán)重值,根據(jù)所述累計權(quán)重值輸出一個以上的所述狀態(tài)轉(zhuǎn)移的結(jié)果。
15.一種字符識別系統(tǒng),其包含終端和服務器,該字符識別系統(tǒng)的特征在于, 所述終端具有: 圖像輸入單元,其輸入包含作為識別對象的字符的圖像; 字符區(qū)域檢測單元,其檢測所述圖像中的、所述字符存在的區(qū)域即字符區(qū)域; 字符區(qū)域分割單元,其以單個字符為單位分割所述字符區(qū)域; 字符識別單元,其對存在于所述字符區(qū)域分割單元所分割的分割區(qū)域中的所述字符進行每個單個字符的字符識別處理,對單個字符輸出I個以上的字符識別處理結(jié)果的候選;以及 第I字符串轉(zhuǎn)移數(shù)據(jù)生成單元,其輸入所述候選,計算針對向所述候選的轉(zhuǎn)移的權(quán)重值,生成基于所述候選與所述權(quán)重值的組的字符串轉(zhuǎn)移數(shù)據(jù)即第I字符串轉(zhuǎn)移數(shù)據(jù), 所述服務器具有: 有限狀態(tài)轉(zhuǎn)換單元,其根據(jù)所述第I字符串轉(zhuǎn)移數(shù)據(jù)依次進行狀態(tài)轉(zhuǎn)移,將各狀態(tài)轉(zhuǎn)移中的權(quán)重值累計而計算每個狀態(tài)轉(zhuǎn)移的累計權(quán)重值,根據(jù)所述累計權(quán)重值輸出一個以上的所述狀態(tài) 轉(zhuǎn)移的結(jié)果。
16.一種字符識別程序,其特征在于,使計算機作為以下單元進行動作: 圖像輸入單元,其輸入包含作為識別對象的字符的圖像; 字符區(qū)域檢測單元,其檢測所述圖像中的、所述字符存在的區(qū)域即字符區(qū)域; 字符區(qū)域分割單元,其以單個字符為單位分割所述字符區(qū)域; 字符識別單元,其對存在于所述字符區(qū)域分割單元所分割的分割區(qū)域中的所述字符進行每個單個字符的字符識別處理,對單個字符輸出I個以上的字符識別處理結(jié)果的候選;第I字符串轉(zhuǎn)移數(shù)據(jù)生成單元,其輸入所述候選,計算針對向所述候選的轉(zhuǎn)移的權(quán)重值,生成基于所述候選與所述權(quán)重值的組的字符串轉(zhuǎn)移數(shù)據(jù)即第I字符串轉(zhuǎn)移數(shù)據(jù);以及有限狀態(tài)轉(zhuǎn)換單元,其根據(jù)所述第I字符串轉(zhuǎn)移數(shù)據(jù)依次進行狀態(tài)轉(zhuǎn)移,將各狀態(tài)轉(zhuǎn)移中的權(quán)重值累計而計算每個狀態(tài)轉(zhuǎn)移的累計權(quán)重值,根據(jù)所述累計權(quán)重值輸出一個以上的所述狀態(tài)轉(zhuǎn)移的結(jié)果。
全文摘要
字符識別裝置(1)具有圖像讀入部(101),其輸入圖像;字符區(qū)域檢測部(103),其檢測圖像的字符區(qū)域;字符區(qū)域分割部(104),其以單個字符為單位分割字符區(qū)域;字符識別部(105),其對存在于分割區(qū)域中的字符進行每個單個字符的字符識別,對單個字符輸出1個以上的字符識別處理結(jié)果的候選;第1字符串轉(zhuǎn)移數(shù)據(jù)生成部(106),其被輸入所述候選,計算針對向候選的轉(zhuǎn)移的權(quán)重值,生成基于候選和權(quán)重值的組的第1字符串轉(zhuǎn)移數(shù)據(jù);以及WFST處理部(109),其根據(jù)第1字符串轉(zhuǎn)移數(shù)據(jù)依次進行狀態(tài)轉(zhuǎn)移,將各狀態(tài)轉(zhuǎn)移中的權(quán)重值累計并計算每個狀態(tài)轉(zhuǎn)移的累計權(quán)重值,根據(jù)累計權(quán)重值輸出一個以上的狀態(tài)轉(zhuǎn)移的結(jié)果。
文檔編號G06K9/72GK103154974SQ201280003349
公開日2013年6月12日 申請日期2012年2月24日 優(yōu)先權(quán)日2011年3月7日
發(fā)明者山添隆文, 榮藤稔, 吉村健, 辻野孝輔 申請人:株式會社Ntt都科摩