字符檢測裝置、方法及程序的制作方法
【技術領域】
[0001]本發(fā)明涉及字符檢測裝置、方法及程序
【背景技術】
[0002]通過智能電話、可穿戴設備的普及,有將存在于招牌、標識及餐廳的菜單等實際空間中的字符串用照相機攝影、想要根據(jù)攝影的圖像檢測字符串的要求。由照相機攝影的圖像通過向字符部分照射的照明的條件及影子的影響,字符串的觀看方式各種各樣地變化。作為根據(jù)這樣的圖像檢測字符串的方法,例如有使用將圖像中的像素連結的連結成分的方法、及使用基于機械學習的檢測器的方法。
[0003]專利文獻
[0004]專利文獻1:特開2005 - 309771號公報
[0005]專利文獻2:特開2006 - 268825號公報
[0006]專利文獻3:特許第4901676號說明書
[0007]非專利文獻
[0008]非專利文獻1:J.Lee,P.Lee,S.Lee,A.Yuille,and C.Koch.Adaboost for textdetect1n.1n Proceedings of Internat1nal Conferenceon Document Analysis andRecognit1n,pp.429 — 434,2011.
[0009]但是,使用連結成分的方法如果不能正確地檢測連結成分則不能檢測字符串。由此,例如在字符與背景的一部分為同系色的情況下、或因背景反射或影子而字符色較大地變化的情況下,有不能正確地檢測連結成分而不能檢測出字符串的情況。此外,在使用基于機械學習的檢測器的情況下,是否能夠檢測到字符串依存于學習數(shù)據(jù),所以在特殊的徽標、筆記體、裝飾字符等與學習時的數(shù)據(jù)較大地不同的情況下,不能檢測這些字符串。
【發(fā)明內容】
[0010]發(fā)明的概要
[0011]發(fā)明要解決的課題
[0012]本公開是為了解決上述課題而做出的,目的是提供一種能夠提高字符串的檢測精度及再現(xiàn)性的字符檢測裝置、方法及程序。
[0013]解決課題的手段
[0014]有關本實施方式的字符檢測裝置包括特征提取部、決定部及合并部。提取部提取包含1個以上的字符串的圖像的特征量。決定部對于不同的多個字符檢測方式,分別決定與對于具有與上述特征量對應的特征的圖像區(qū)域的字符檢測精度對應的優(yōu)先級。合并部將作為分別使用上述多個字符檢測方式檢測上述字符串的結果、即包含該字符串的區(qū)域的候選的各個字符檢測方式的字符行候選合并,在表示在該字符行候選間重疊的區(qū)域的比例的重疊度是第1閾值以上的情況下,選擇通過上述優(yōu)先級最高的字符檢測方式檢測出的字符行候選作為字符行。
【附圖說明】
[0015]圖1是表示有關本實施方式的字符檢測裝置的塊圖。
[0016]圖2是表示字符候選區(qū)域檢測部的檢測處理的圖。
[0017]圖3是表示字符候選區(qū)域檢測部的檢測處理的檢測結果的圖。
[0018]圖4是表示第2字符行生成部的字符行生成處理的圖。
[0019]圖5是說明優(yōu)先級決定部的一致度的計算方法的圖。
[0020]圖6是表示字符檢測方式與特征量的對應的一例的圖。
[0021]圖7是說明字符行的長度與寬度的概念的圖。
[0022]圖8是表示合并部的合并處理的流程圖。
[0023]圖9是表示合并部的合并處理結果的一例的圖。
[0024]圖10是表示合并部的合并處理結果的另一例的圖。
[0025]圖11是表示字符檢測裝置的檢測精度的評價結果的曲線圖。
【具體實施方式】
[0026]以下,參照附圖對有關本實施方式的字符檢測裝置、方法及程序詳細地說明。另夕卜,在以下的實施方式中,帶有相同的標號的部分進行同樣的動作,將重復的說明適當省略。
[0027]參照圖1的塊圖對有關本實施方式的字符檢測裝置進行說明。
[0028]有關本實施方式的字符檢測裝置100包括圖像取得部101、第1字符行檢測部102(第1檢測部)、第2字符行檢測部103(第2檢測部)、特征提取部104、優(yōu)先級決定部105及合并部106。第1字符行檢測部102包括連結成分提取部107及第1字符行生成部108,第2字符行檢測部103包括字符候選區(qū)域檢測部109及第2字符行生成部110。
[0029]圖像取得部101取得包含1個以上的字符串的圖像。圖像在這里設想了將存在于招牌、標識及餐廳的菜單等實際空間中的字符串用照相機攝影的圖像,但只要是包含至少1個字符串的圖像就可以。
[0030]第1字符行檢測部102從圖像取得部101獲取圖像,使用作為用來檢測字符串的方式的第1字符檢測方式檢測1個以上的字符行候選(也稱作第1字符行候選)。字符行候選在本實施方式中是包含字符串的區(qū)域的候選,例如是用矩形、梯形或其他四邊形、或者閉多邊形表示的區(qū)域。用矩形、梯形或其他四邊形表示的字符行候選通過表示區(qū)域那樣的坐標值、起點及終點的坐標值、字符串的中央線和寬度等表示。另外,在本實施方式中,設想了字符串為橫向書寫的情況,但也可以是縱向書寫,字符行也只要為匹配于字符串的方向而在縱向上較長的區(qū)域就可以。
[0031]第2字符行檢測部103從圖像取得部101獲取圖像,使用作為與第1字符檢測方式不同的方式的第2字符檢測方式,檢測1個以上的字符行候選(也稱作第2字符行候選)。另外,由于對相同的圖像檢測第1字符行候選及第2字符行候選,所以坐標系相同,以相同的字符串為對象,檢測第1字符行候選及第2字符行候選。
[0032]特征提取部104分別從第1字符行檢測部102獲取第1字符行候選,從第2字符行檢測部103獲取第2字符行候選,提取圖像的特征量。作為圖像的特征量,例如只要提取亮度值及字符行的長度就可以。
[0033]優(yōu)先級決定部105從特征提取部104獲取圖像的特征量,根據(jù)對于具有與特征量對應的特征的圖像中的區(qū)域(也稱作圖像區(qū)域)的字符檢測精度,決定表示以第1字符檢測方式及第2字符檢測方式的哪個為優(yōu)先的優(yōu)先級。關于優(yōu)先級的決定方法參照圖5后述。
[0034]合并部106分別從第1字符行檢測部102獲取第1字符行候選、從第2字符行檢測部103獲取第2字符行候選、從優(yōu)先級決定部105獲取優(yōu)先級。合并部106根據(jù)表示第1字符行候選及第2字符行候選重疊的區(qū)域的比例的重疊度、圖像的特征量及優(yōu)先級,選擇第1字符行候選及第2字符行候選進行合并,生成字符行。關于合并部106的具體的處理參照圖8后述。
[0035]接著,對第1字符行檢測部102具體地說明。
[0036]連結成分提取部107從圖像取得部101獲取圖像,在圖像中的像素中的相鄰的像素間,將像素的色信息等特征類似的像素彼此連結,生成1個以上的連結成分。這里,將圖像中的像素用白及黑二值化,在二值化的像素中的為黑的像素相鄰兩個以上連續(xù)的情況下,生成連續(xù)的像素的集合作為連結成分。
[0037]第1字符行生成部108從連結成分提取部107獲取連結成分,根據(jù)連結成分間的位置關系和連結成分的類似度,將排列在大致相同直線上的連結成分組合,生成第1字符行候選。具體而言,按照連結成分生成特征向量,將兩個連結成分間的位置關系和特征的類似度用特征向量的距離定義。如果特征向量的距離未滿閾值,則兩個連結成分類似,可以認為在相同直線上排列,所以將兩個連結成分連接。作為特征向量的各要素,例如可以舉出表示連結成分的中心點的X坐標及1坐標、各連結成分的平均色、連結成分的尺寸(高度、寬度、周圍的長度等)。另外,所謂中心點,例如只要是相對于連結成分外接的四邊形的中央點就可以。此外,也可以使用在Neumann L.,Matas J.:Text Localizat1n in Real — worldImages using Efficiently Pruned Exhaustive Search,ICDAR 2011(Beijing,China)‘‘C.Exhaustive search”中公開的方法生成字符行候選。將以上的第1字符行生成部108的處理稱作使用連結成分的行檢測(CC行檢測)。
[0038]接著,對第2字符行檢測部103具體地說明。
[0039]字符候選區(qū)域檢測部109從圖像取得部101獲取圖像,預先學習了字符的圖像數(shù)據(jù),檢測具有特定的形狀的圖像區(qū)域,生成字符候選區(qū)域。關于圖像數(shù)據(jù)的學習,只要進行通常的學習處理就可以,所以這里的說明省略。
[0040]第2字符行生成部110從字符候選區(qū)域檢測部109獲取字符候選區(qū)域,將相同尺寸的字符候選區(qū)域大致在相同直線上排列的連結成分組合,生成第2字符行候選。這里,第2字符行生成部110中的處理設想為使用字符候選區(qū)域的行檢測。
[0041]接著,對字符候選區(qū)域檢測部109的檢測處理參照圖2及圖3進行說明。
[0042]作為字符候選區(qū)域提取處理的一例,如圖2所示,對圖像201整體使