專利名稱:模式識別設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及模式識別設(shè)備,尤其涉及可以實時識別照相機拍攝到的字符或象形圖的設(shè)備。
背景技術(shù):
基于照相機的模式識別由于各種可能的應用而受到相當多的關(guān)注。令人信服的應用之一是作為與照相機和字符識別設(shè)備集成在一起的翻譯裝置的“翻譯照相機”(參見非專利文獻1和2)。另一可能的應用是識別照相機拍攝到的字符并且將識別出的字符轉(zhuǎn)換成語音從而將這些語音告知視覺障礙者。還考慮了以下情況識別照相機拍攝到的所有模式,并且在這些模式中,僅將預先已登記的且為用戶所需的信息提供給該用戶。該應用對于視覺障礙者而言是有用的。在視覺障礙者中,存在難以找到字符的人。因此,可被稱為“機器視覺”的應用極其有用。為了實現(xiàn)以上應用,需要實用的基于照相機的字符識別技術(shù),其中該字符識別技術(shù)(1)可以進行實時處理、(2)對幾何失真具有魯棒性并且(3)不受布局約束。首先,為了不使用戶的便利性劣化,實時處理是不可缺少的。對于幾何失真,當對象局限于字符時,已實現(xiàn)了一些已知的技術(shù)(例如,參見非專利文獻3和4)。特別地,非專利文獻4已說明了實時進行工作的技術(shù)。在這些技術(shù)中,從利用照相機拍攝到的圖像中提取文本行,對作為對具有最高的失真自由度的射影失真(projective distortion)的近似的仿射失真(affine distortion)進行校正,并且最終識別出所提取的字符。然而,在非專利文獻4的技術(shù)中,例如,基于文本行來校正射影失真,從而使得無法識別沒有形成文本行的字符。該技術(shù)不能應對旋轉(zhuǎn)的字符。因此,無法識別圖1所示的對象,這意味著該技術(shù)不滿足上述要求(3)。具體地,該技術(shù)不能滿足上述能夠識別各種布局的模式的要求。另一方面,作為滿足上述要求(2)和(3)的技術(shù),Kusachi等人或Li等人已提出了逐一識別字符的技術(shù)(例如,參見非專利文獻5和6)。由于非專利文獻5和6所述的技術(shù)逐一識別字符,因此不會引起涉及文本行的問題,但需要大量時間來進行處理,從而導致該技術(shù)無法被認為實現(xiàn)了上述要求(1)的實時處理。已期望同時滿足要求(1) (3)的技術(shù)?,F(xiàn)有技術(shù)文獻非專利文獻# # ^lJ ^; K 1 :Y. Watanabe, Y. Okada, Y. -B. Kim and Τ. Takeda, "Translation camera, ”Proc.ICPR 1998,pp.613—617,1998。非專利文獻 2 :H. Fujisawa, H. Sako, Y. Okada and S. -ff. Lee, " Information capturing camera and developmental issues, "proc. ICDAR1999, pp.205-208, Sept. 1999。# 禾Ij i: ■ 3 :X. Chen, J. Yang and A. ffaibel, "Automatic detection and recognition of signs from natural scenes," IEEE Trans. Image Processing,vol. 13,no. 1,pp. 87-99,Jan. 2004。非專利文 M 4 :G. K. Myers, R. C. Bolles, Q. -Τ. Luong, J. Α. Herson and H. B. Aradhye, "Rectification and recognition of text in 3-d scene,,,IJDAR, vol. 7, no. 2-3,pp.147-158,2004。非專利文獻5 :Y. Kusachi,A. Suzuki,N. Ito and K. Arakawa,"Kanji recognition in scene images without detection of text fields-robust against variation of viewpoint, contrast, and background texture-,,,Proc.ICPR2004, 2004。__ 專禾1J 文獻 6 :L. Li and C. L. Tan, "Character recognition under severe perspective distortion, "Proc.ICPR2008,2008。非專利文獻 7 :Kazuto Noguchi, Koichi Kise, and Masakazu Iwamura, "Experimental evaluation of balancing the recognition rate, processing time, and memory requirement for large-scale recognition of specific objects,,,IEICE trans. D, vol. J92—D,pp. 1135—1143,Aug. 2009。
發(fā)明內(nèi)容
發(fā)明要解決的問題考慮到以上情形,本發(fā)明提供一種基于簡單但高效的技術(shù)的模式識別設(shè)備,其可以實現(xiàn)諸如字符和象形圖等的模式的實時識別,從而實現(xiàn)了滿足上述要求的模式識別技術(shù)。用于解決問題的方案本發(fā)明提供一種模式識別設(shè)備,包括提取部,用于從包括至少一個模式成分且預先經(jīng)過幾何變換的查詢圖像中提取模式成分;特征獲取部,用于獲取所述模式成分的相對于所述幾何變換保持不變的特征作為查詢特征,其中,所述查詢特征由包括各自位于所述模式成分上并且基于預定的規(guī)則從所述模式成分中檢索到的第一特征點、第二特征點和第三特征點的至少三個特征點來表示;比較部,用于將所述查詢特征與多個參考特征進行比較,其中,所述參考特征各自表示被準備作為模式識別的候選的不同的參考模式;以及模式確定部,用于基于進行比較的特征之間的類似度來確定所述候選中的特定參考模式作為識別結(jié)果,其中,各參考特征是使用基于與所述查詢特征的規(guī)則相同的規(guī)則從各參考模式檢索到的特征點來表示的,以及基于所述規(guī)則,所述第一特征點的位置是在位于所述模式成分上且相對于所述幾何變換保持不變的點中指定的,所述第二特征點的位置是使用與所述模式成分的形狀有關(guān)的、相對于所述幾何變換保持不變的特性所指定的,并且所述第三特征點的位置是根據(jù)相對于所述幾何變換保持不變的預定值以及所指定的所述第一特征點和所述第二特征點的位置所指定的。發(fā)明的效果在根據(jù)本發(fā)明的模式識別設(shè)備中,第一特征點的位置是在位于模式成分上且相對于幾何變換保持不變的點中指定的,第二特征點的位置是使用與模式成分的形狀有關(guān)且相對于幾何變換保持不變的特性指定的,并且第三特征點的位置是根據(jù)相對于幾何變換保持不變的預定值以及所指定的第一特征點和第二特征點的位置指定的。因此,不變坐標系的組數(shù)局限于將滿足預定標準的像素之一確定為第一特征點的組合的數(shù)量。因此,與已知的幾何哈希法相比,根據(jù)本發(fā)明的方法可以大幅縮短處理時間。具體地,根據(jù)本發(fā)明,當確定了第一特征點時,唯一地確定出與該第一特征點相對應的第二特征點和第三特征點。已知的幾何哈希法需要與不變坐標系有關(guān)的pPn次處理,其中pPn次處理被排列成從構(gòu)成模式區(qū)域的所有特征點的P個特征點中選擇預定數(shù)量的η個特征點,而本發(fā)明僅進行與不變坐標系有關(guān)的用于選擇第一點的J1次處理。因此,可以根據(jù)利用幾何變換所獲取到的圖像來實現(xiàn)模式的實時識別。首先確定第一特征點和第二特征點中的哪一個是任選的。在本發(fā)明中,查詢圖像是包含要識別的模式的圖像。該模式包括一個或多個或者一塊連接成分。一塊連接成分表示要識別的模式在區(qū)域上相連接從而形成塊的成分。例如, 諸如“I”和“J”等的字符是包括一個區(qū)域連接成分的識別對象的例子。另一方面,存在諸如“i”或“j”等的作為包括多個連接成分的一個字符的分離字符或分離模式。在本發(fā)明中,前提是查詢圖像是在經(jīng)過幾何變換之后獲取到的。例如,當利用圖像掃描器讀取用作識別對象的字符時,讀取中存在諸如縮放或旋轉(zhuǎn)等的幾何失真。在這種情況下,查詢圖像存在由相似變換而產(chǎn)生的失真。當利用照相機拍攝包含要識別的字符的圖像時,由此產(chǎn)生的圖像存在由于偏離正確位置而產(chǎn)生的射影失真。如果偏離量小,則可以近似該圖像,其中,該失真被當作未伴隨有深度方向上的倍率變化的仿射失真。將各模式的圖像特征與表示該特征的矢量相關(guān)聯(lián)地存儲在圖像數(shù)據(jù)庫中。圖像特征的例子包括形狀特征、濃度分布特征、色度特征以及它們的組合。圖像數(shù)據(jù)庫中的各矢量是在利用哈希表進行系統(tǒng)化的狀態(tài)下初步登記的,這使得能夠進行快速矢量比較??梢酝ㄟ^利用計算機執(zhí)行預定程序來實現(xiàn)提取部、特征獲取部和比較部的功能。 可選地,例如,可以利用安裝在半導體芯片上的硬件來實現(xiàn)這些功能的全部或部分處理。在后面所述的實施例中,利用個人計算機的硬件和軟件來實現(xiàn)各個部的功能。在本發(fā)明中使用自適應二值化和輪廓提取來提取模式。將幾何哈希法進行改進以用于本發(fā)明的模式識別??紤]到仿射變換的幾何哈希法的計算量為O(P4),其中P是特征點的數(shù)量。而在本發(fā)明中,通過利用不變量的計算原理,計算量可以縮減為0(P2)。借助于利用投票系統(tǒng)的方法,即使在具有網(wǎng)絡(luò)照相機的筆記本個人計算機上,本發(fā)明也良好地實時工作。
圖1是示出作為根據(jù)本發(fā)明的識別對象的圖像的一個示例的說明圖。圖2是示出已知的幾何哈希法中用于確定不變坐標系的方法的第一說明圖。圖3是示出已知的幾何哈希法中用于確定不變坐標系的方法的第二說明圖。圖4是示出作為根據(jù)本發(fā)明的一種幾何變換的仿射變換的不變量的一個示例的說明圖。圖5是示出根據(jù)本發(fā)明的模式區(qū)域的形狀示例的說明圖。圖6是示出根據(jù)本發(fā)明實施例的用于根據(jù)模式區(qū)域的重心和作為仿射不變量的預定面積比來確定第三特征點的第一技術(shù)的說明圖。圖7是示出根據(jù)本發(fā)明實施例的用于根據(jù)模式區(qū)域的重心和作為仿射不變量的預定面積比來確定第三特征點的第二技術(shù)的說明圖。圖8是示出根據(jù)本發(fā)明實施例的、在不指定重心作為特征點的情況下根據(jù)作為仿射不變量的預定面積比來確定第二特征點的技術(shù)的說明圖。圖9是示出包括在根據(jù)本發(fā)明的數(shù)據(jù)庫中的哈希表的結(jié)構(gòu)的說明圖。圖10是示出根據(jù)本發(fā)明的分離字符的描述方法的說明圖。圖11是示出根據(jù)本發(fā)明的模式識別設(shè)備所執(zhí)行的處理的流程的說明圖。圖12是示出根據(jù)本發(fā)明的特征矢量的計算方法的一個示例的說明圖。圖13是示出根據(jù)本發(fā)明的實施例中姿勢估計方法的過程的一個示例的說明圖。圖14是示出根據(jù)本發(fā)明的實驗所使用的字體和象形圖的一個示例的說明圖。圖15是示出根據(jù)本發(fā)明的實驗例1和2所使用的識別對象的紙張的一個示例的說明圖。圖16是示出根據(jù)本發(fā)明的實驗例1的第一結(jié)果的圖,其中,示出相對于多種字體的累積識別率。圖17是示出根據(jù)本發(fā)明的實驗例1的第二結(jié)果的圖,其中,示出當特征矢量的大小改變時象形圖的識別率和處理時間之間的關(guān)系。圖18是示出在存在幾何變換的情況下拍攝圖1中的作為根據(jù)本發(fā)明的識別對象的圖像的狀態(tài)的說明圖。圖19是示出根據(jù)本發(fā)明的實驗例2的第一結(jié)果的圖,其中,示出相對于多種字體的識別率、拒絕率和錯誤率。圖20是示出根據(jù)本發(fā)明的實驗例2的第二結(jié)果的圖,其中,示出相對于圖14的象形圖的識別率、拒絕率和錯誤率。圖21是示出作為根據(jù)本發(fā)明的實驗例2的識別對象的圖像的一個示例的說明圖。圖22是示出在相對于紙張的角度分別為0度、30度和45度的情況下拍攝到的圖 21中的圖像的說明圖。圖23是示出通過查詢特征矢量的位反轉(zhuǎn)來創(chuàng)建新的查詢特征矢量的說明圖。圖M是示出根據(jù)本發(fā)明的實驗例3中用作識別對象的圖像的說明圖。圖25是示出根據(jù)本發(fā)明的實驗例3中進行識別所使用的100種字體的一部分和實驗例4中進行識別所使用的10種字體的說明圖。圖沈是示出根據(jù)本發(fā)明的實驗例3和4中連接成分的分組處理的示例的說明圖。圖27是示出根據(jù)本發(fā)明的實驗例3中相對于登記字體數(shù)的識別率的圖。圖觀是示出根據(jù)本發(fā)明的實驗例3中針對每字符的平均處理時間的圖。圖四是示出根據(jù)本發(fā)明的實驗例3中相對于登記字體數(shù)的組數(shù)的圖。圖30是示出根據(jù)本發(fā)明的實驗例3中相對于登記字體數(shù)的存儲量的圖。圖31是示出根據(jù)本發(fā)明的實驗例4所使用的演示系統(tǒng)的概述的說明圖。圖32是示出根據(jù)本發(fā)明的實驗例4所使用的演示系統(tǒng)中用以確定字符的流程的說明圖。圖33是示出根據(jù)本發(fā)明的實驗例4中不具有文本行但可識別的文本的一個示例的說明圖。圖34是示出根據(jù)本發(fā)明的實驗例4所使用的演示系統(tǒng)中用于獲取單詞區(qū)域的方法的說明圖。圖35是示出根據(jù)本發(fā)明的實驗例4所使用的演示系統(tǒng)中按估計出的排列順序的
7圖34的單詞區(qū)域2中的各個字符的候選的圖。圖36是用于說明根據(jù)本發(fā)明的實驗例4所使用的演示系統(tǒng)中沿著涉及“從左向右讀取單詞”規(guī)則的上方向的臨時過程的說明圖。圖37是示出根據(jù)本發(fā)明的實驗例4中用作識別對象的文本的說明圖。圖38是示出根據(jù)本發(fā)明的實驗例4中針對每單詞的處理時間的圖。圖39是示出根據(jù)本發(fā)明的實驗例4中單詞識別的結(jié)果的圖。圖40是示出根據(jù)本發(fā)明的實驗例4中單詞識別和字符識別的失敗示例的說明圖。圖41是示出根據(jù)本發(fā)明的實驗例4中基于字符的識別的識別率的圖。圖42是示出根據(jù)本發(fā)明的實驗例4中在讀取數(shù)據(jù)庫時的存儲量的圖。
具體實施例方式在以不同的方式表現(xiàn)用以解決前述問題的本發(fā)明時,本發(fā)明涉及一種模式識別設(shè)備,包括提取處理部(所述提取部),用于根據(jù)以一個或多個模式預先進行了幾何變換的方式獲取到的查詢圖像,從構(gòu)成所述模式的多個像素中提取一塊連接成分(所述模式成分)作為模式區(qū)域;特征矢量生成部(所述特征獲取部),用于針對基于預定規(guī)則從一個模式區(qū)域確定了三個以上的特征點的各組合,根據(jù)以各自連接獲取到的三個特征點中的兩個特征點的兩個線性獨立矢量為底邊并且相對于所述幾何變換保持不變的不變坐標系來生成表示所述模式區(qū)域的圖像特征的特征矢量作為查詢特征矢量;索引計算部,用于通過將預定哈希函數(shù)應用于所生成的查詢特征矢量來計算索引值;比較部,用于針對作為識別結(jié)果的候選的多個參考模式,利用所述索引來參考將表示各參考模式的形狀的特征的參考特征矢量與相應的參考模式相關(guān)聯(lián)并且預先進行存儲且分類到多個區(qū)間中的哈希表,從而對計算出索引的查詢特征矢量與存儲在參考目的地的區(qū)間中的一個或多個參考特征矢量進行比較;以及模式確定部,用于基于比較來確定應當被指定為識別結(jié)果的參考模式,其中 針對用于從通過與所述查詢特征矢量的過程相同的過程確定出的特征點中選擇三個特征點的各組合生成所述參考特征矢量,所述特征矢量生成部基于確定特征點所應用的規(guī)則來將與所述模式區(qū)域有關(guān)的像素中滿足預定標準的像素之一確定為第一特征點,將使用與所述模式區(qū)域的形狀有關(guān)的、相對于所述幾何變換保持不變的特性所確定出的一個點確定為第二特征點,并且將基于相對于所述幾何變換保持不變的預定值以及所述第一特征點和所述第二特征點所確定出的一個點確定為第三特征點。在上述模式識別設(shè)備中,基于確定特征點所應用的規(guī)則,所述特征矢量生成部將與所述模式區(qū)域有關(guān)的像素中滿足預定標準的像素之一確定為第一特征點,將使用與所述模式區(qū)域的形狀有關(guān)的特性所確定出的一個點確定為第二特征點,其中,所述特性相對于所述幾何變換保持不變,并且將基于相對于所述幾何變換保持不變的預定值以及所述第一特征點和所述第二特征點所確定出的一個點確定為第三特征點。因此,不變坐標系的組數(shù)局限于將滿足預定標準的像素之一確定為第一特征點的組合的數(shù)量。因此,與已知的幾何哈希法相比較,可以大幅縮短處理時間。以下將說明本發(fā)明的優(yōu)選實施例。所述第一特征點的位置可以在位于所述模式成分的輪廓上的像素中指定。據(jù)此, 提取出模式區(qū)域的輪廓,并且可以確定地將第一特征點確定為輪廓上的一個點。
所述特性可以是重心相對于作為所述幾何變換的一種的仿射變換保持不變的特性,以及可以使用所述特性將所述模式成分的重心指定為所述第二特征點的位置。重心是相對于仿射變換的不變量。據(jù)此,可以將第二特征點唯一確定為對象模式區(qū)域的重心。所述特性可以是面積比相對于作為所述幾何變換的一種的仿射變換保持不變的特性,以及所述第三特征點的位置可以根據(jù)所述模式成分的輪廓并且使用所述特性基于以下面積比的預定值所指定的,其中,所述面積比是所述模式成分的面積相對于由與所述第一特征點、所述第二特征點和所述第三特征點相對應的頂點所定義的三角形的面積之比。 該面積比是相對于仿射變換的不變量。據(jù)此,可以根據(jù)預定的不變量以及第一特征點和第二特征點來唯一確定第三特征點。所述特征獲取部可以使用以分別連接獲取到的三個特征點中的兩個特征點的兩個線性獨立矢量為底邊且相對于所述幾何變換保持不變的坐標系來獲取相對于所述幾何變換保持不變的特征。所述比較部可以將所述查詢特征和與相應的參考模式有關(guān)且存儲在哈希表中的參考特征進行比較,其中,所述哈希表可以具有多個區(qū)間;各參考特征可以預先被分類并存儲到通過根據(jù)該參考特征計算預定哈希函數(shù)所確定出的區(qū)間之一中;并且所述比較部可以使用通過根據(jù)獲取到的查詢特征計算所述哈希函數(shù)所獲得的索引來參考適當?shù)膮^(qū)間,以進行所述比較。據(jù)此,可以利用所述哈希表來比較與查詢特征矢量相對應的參考特征矢量,以使得可以在短的時間段內(nèi)進行查詢特征矢量和參考特征矢量之間的比較。所述模式確定部可以基于所述特征矢量生成部針對所述查詢圖像的模式區(qū)域所確定出的特征點的坐標與存儲在所述哈希表中的特征點的坐標之間的對應關(guān)系來估計所述模式區(qū)域的姿勢,從而通過對各次估計進行多數(shù)決定原則來估計所述查詢圖像的姿勢。 據(jù)此,可以基于特征點的坐標的對應關(guān)系來估計獲取到的查詢圖像的姿勢,由此可以校正查詢圖像的幾何失真,并且與沒有進行該校正的情況相比,可以以較高的精度進行匹配。所述模式確定部可以具有存儲至少一個離散模式組的離散模式表,其中,各離散模式與所述參考模式之一相對應并且各離散模式組提供一個識別結(jié)果;所述模式確定部可以參考所述離散模式表來判斷所述候選中確定出的特定參考模式與離散模式組中的一個離散模式之間是否存在對應關(guān)系;以及當存在所述對應關(guān)系,并且之前已確定與該離散模式組中的其它離散模式的對應關(guān)系存在時,所述模式確定部可以將由與確定出的特定參考模式相對應的離散模式所屬的離散模式組所提供的識別結(jié)果確定為識別結(jié)果。據(jù)此,可以針對離散模式確定識別結(jié)果。所述離散模式表可以存儲該離散模式組中一個離散模式相對于另一離散模式的相對位置,并且當另一確定出的特定參考模式位于由所存儲的、相對于與一個確定出的特定參考模式相對應的離散模式的相對位置所指定的位置時,所述模式確定部可以確定識別結(jié)果。據(jù)此,考慮到離散模式和與其組合有關(guān)的另一模式之間的位置關(guān)系,可以以較高的精度確定識別結(jié)果。在所述模式識別設(shè)備中,所述查詢圖像可以包括包含多個字符的單詞模式,并且所述模式識別設(shè)備還可以包括單詞候選確定部,用于獲得對所述模式確定部識別出的各字符追蹤一次的最短的路徑,并且確定所獲得的路徑的順序和逆序作為所述單詞的候選; 旋轉(zhuǎn)角確定部,用于獲得各字符相對于所述查詢圖像的預定方向的旋轉(zhuǎn)角;以及讀取順序確定部,其中,將按所述路徑的順序或逆序彼此相鄰的兩個字符之間的旋轉(zhuǎn)角之差指定為第一評價指標,基于朝著與位于各候選的任一端的第一字符相鄰的第二字符的方向以及與讀取方向有關(guān)的預定規(guī)則來估計所述第一字符應當具有的旋轉(zhuǎn)角,并且將估計出的旋轉(zhuǎn)角與所述旋轉(zhuǎn)角確定部所確定出的所述第一字符的旋轉(zhuǎn)角之差指定為第二評價指標,選擇使所述第一評價指標和所述第二評價指標最小的候選,從而確定構(gòu)成單詞的字符的讀取順序。據(jù)此,可以進行單詞識別,其中,該單詞識別適用于以下的語言如英語那樣在特定單詞與其它單詞之間以空格進行分離,并且根據(jù)預定讀取方向、例如根據(jù)從左向右書寫單詞的規(guī)則來讀取單詞。 這里例示的各種優(yōu)選實施例可以進行相互組合。
將說明本發(fā)明和以下所述的實施例之間的對應關(guān)系。在本發(fā)明中,查詢圖像與如后面所述的圖1所示的包含多個字符或標記的薄片相對應。模式成分是與連接成分相對應的詞語。在本發(fā)明中,查詢特征是表示查詢圖像的各模式成分的特性的矢量值。在本發(fā)明中,參考模式與表示字符識別時的各字符的連接成分相對應。例如,參考模式與后面所述的圖14(a)中的各字符、圖14(b)中的各象形圖以及圖10的分離字符表第 1列(并非第2列)上的各模式相對應。參考特征表示各參考模式的特征,并且與查詢特征進行比較(匹配)。離散模式表與后面所述的圖10中的分離字符表相對應。在圖10的例子中,離散模式表包括構(gòu)成字符(j)的組和構(gòu)成字符(i)的組。在本發(fā)明中,離散模式例如與圖10的分離字符表中第1列(并非第2列)上的各模式相對應。將參考附圖更詳細地說明本發(fā)明。以下說明的所有方面都應當被看作為示例性的并且不限制本發(fā)明。1.本發(fā)明的前提在詳細說明本發(fā)明之前,首先將說明本發(fā)明的前提。根據(jù)該技術(shù)領(lǐng)域內(nèi)的傳統(tǒng)研究,為了簡化而假定在白色紙張上書寫黑色字符?!昂谏眱H是示例性的,并且根據(jù)本發(fā)明, 可以指定具有能夠與背景區(qū)分開的預定顏色和/或濃度的像素塊以及具有在預定范圍內(nèi)的顏色和/或濃度的像素塊作為模式區(qū)域。為了方便,將構(gòu)成模式區(qū)域的像素稱為“黑色像素”。由于利用照相機來拍攝字符圖像,因此這些字符圖像可能存在射影失真并且可能因散焦和低分辨率而劣化。然而,假定利用簡單的處理可以提取字符的連接成分、即形成圖像中黑色像素彼此相鄰的塊的成分。還假定該圖像中的所有字符都存在于同一平面上。在本發(fā)明中,要解決的問題有三個⑴快速識別所提取出的連接成分,( )提高識別的魯棒性,(iii)識別諸如“i”和“j”等的包括多于一個的連接成分的分離字符。對于⑴快速識別,在以下第2節(jié)中將說明如下的快速識別方法,在該快速識別方法中,將幾何哈希法適用于連接成分的匹配,并且利用了幾何不變量計算原理。對于(ii) 提高識別的魯棒性,在以下第4節(jié)中將說明考慮到連接成分的姿勢的識別方法。對于(iii) 識別分離字符,以下第3節(jié)所述的技術(shù)解決了該問題。2. fTi午將/1 , ^ 用于本發(fā)日月Pi實現(xiàn),高諫度的改講2. 1幾何哈希法幾何哈希法是通過使用不變量坐標系來描述和檢索存在一定幾何失真的圖像的強有力的方法。為了說明本發(fā)明提出的幾何哈希法的改進方法,將簡要說明幾何哈希法。如需詳細說明請參見以下所述的文獻Y. Lamdan and H. J. ffolfson, "Geometric hashing -.a general and efficient model-based recognition scheme. "Proc. ICCV1988, pp.238-249,1988。2. 1. 1存儲處理存儲參考圖像。假設(shè)具有從參考圖像中提取出的特征點。隨機選擇這些特征點中的三個特征點,并且如圖2(a)所示,考慮到所選擇的特征點的順序來定義兩個底邊 (base)。然后,通過使用這兩個底邊如圖2(b)所示來創(chuàng)建新的坐標系,并且將這些特征點投影到該新的坐標系上。由于即使圖像經(jīng)過了仿射變換也可以以相同的方式創(chuàng)建該坐標系,因此該坐標系是仿射不變坐標系。當如圖2(b)所示將該仿射不變坐標系分成多個子區(qū)域時,各子區(qū)域與二維哈希表的區(qū)間(bin)相對應。將圖像ID和底邊組ID存儲在各特征點所存在的各區(qū)間中。對所有可能的底邊執(zhí)行該處理,由此完成一個參考圖像的存儲。在存儲了所有的參考圖像之后該存儲處理完成。創(chuàng)建仿射不變坐標系需要0(P3)的計算量, 并且投影特征點需要O(P)的計算量,由此使得存儲一個參考圖像的計算量為0(P4)。這里,O(P)或0(P3)是用于解決問題的粗略計算量的描述方法,其中,在P確定時, O(P)表示計算量落入P的一次方的量級內(nèi),即該計算量不大于aP+b,而0(P3)表示計算量落入P的三次方的量級內(nèi),即不大于aP3+bP2+cP+d。這里,a、b、c和d為常數(shù)。這同樣適用于0(P4)和其它情況。2. 1. 2檢索處理檢索處理的初始階段與存儲處理的初始階段幾乎相同。假設(shè)具有從查詢圖像提取出的特征點。選擇這些特征點中的三個特征點,并且如圖2(a)所示,考慮到所選擇的特征點的順序來定義兩個底邊。然后,通過使用這兩個底邊來創(chuàng)建仿射不變坐標系。該仿射不變坐標系在存儲處理期間被分成多個子區(qū)域,其中各子區(qū)域與二維哈希表的區(qū)間相對應。從各特征點所存在的各區(qū)間中提取所存儲的圖像ID和底邊組ID,并且對圖像ID和底邊組ID 進行投票(投票表為二維形式)。針對所有底邊組執(zhí)行以上過程,從而確定得票數(shù)最高的圖像ID和底邊組ID。輸出該對的圖像ID作為檢索結(jié)果。如果對所有底邊組執(zhí)行該過程之前輸出圖像是顯而易見的,則可以退出該處理。創(chuàng)建仿射不變坐標系需要0(P3)的計算量,并且投影特征點需要O(P)的計算量,由此使得總計算量為0(P4)。2. 2所提出的幾何哈希法的改進2.2.1問題定義的差異本發(fā)明涉及幾何哈希法的改進。在說明本發(fā)明之前,將說明幾何哈希法和本發(fā)明之間在問題定義方面的差異。幾何哈希法解決的問題是當給出特征點時,僅利用這些特征點的配置來識別對象。具體地,幾何哈希法不考慮特征點是從何處提取的。相反,在本發(fā)明中,當給出圖形時,通過使用從該圖形中獲取到的特征點的配置和該圖形的特征這兩者來識別該圖形。具體地,通過對模式區(qū)域應用預定規(guī)則來確定該圖形。因此,可以使用諸如從圖形獲取到的邊角或拐點等的、即使經(jīng)過了幾何變換也不改變的點作為特征點,但在本發(fā)明中,原則上指定位于圖形的輪廓上的像素作為特征點。后面將說明利用該處理的該方法與幾何哈希法有何不同。2. 2. 2計算量的縮減幾何哈希法的缺點是計算量巨大。對于數(shù)量為P的檢索處理,幾何哈希法的仿射不變版本需要的計算量為0 (P4)。如果有100個點,則所需的計算量為0(100,000,000)。這
意味著幾何哈希法從未應用于實時應用。另一方面,如果使用所提出的方法,則在考慮計算量最小的仿射變換的情況下,可以將計算量縮減為0(P2)。以下將說明幾何哈希法所需的計算量非常大的原因(參見M. Iwamura, Τ.Nakai and K. Kise,"Improvement of retrieval speed and required amount of memory for geometric hashing by combining local invariants, Proc. BMVC2997, ” Vol. 2. pp. 1010-1019, Sept. 2007)。在幾何哈希法中,為了實現(xiàn)成功的檢索,存儲處理所使用的底邊的組必須在檢索處理中經(jīng)過計算。然而,在該計算完成之前無法確定存儲處理期間的底邊的組與檢索處理期間的底邊的組是否一致,由此幾何哈希法必須通過檢查所有的(或許多的)底邊的組來搜索對應關(guān)系。如果可以在存儲處理和檢索處理中選擇同一底邊,則可以縮減計算量。考慮到該情況,在所提出的幾何哈希法的改進中,在存儲處理和檢索處理中選擇相同的特征點,以便縮減計算相同的底邊組所需的計算量。將說明本發(fā)明中用于選擇特征點以縮減計算量的方法。首先將說明仿射變換中選擇三個點的方法作為一個例子。在仿射變換中,存儲圖形的重心,以指定該重心作為第一特征點(無法保證重心存在于輪廓上,但這不是問題)。與幾何哈希法相同,適當選擇第二點。根據(jù)以前獲取到的兩個點和以下所述的不變量的特性自動確定第三點。首先,將利用作為最簡單例子的圖4的例子來說明不變量的特性。當如圖4所示在一條直線上給出三個點A、B和C時,AB/AC是針對仿射變換不存在變化的不變量。通常根據(jù)點的坐標來計算不變量的值。另一方面,在本發(fā)明中,利用不變量的值以及A和B的坐標來確定C的坐標。 假定A、B和C位于同一直線上,其中C可以位于A的左側(cè)或B的右側(cè)。如果預先定義了諸如“以A、B和C按該順序位于同一直線上的方式來確定C”等的用于確定C的方法,則可以唯一地確定C的位置。該原理的一般形式是“如果已知不變量的值和η個點的坐標中η-1 個點的坐標,則可以確定剩余的點(第η點)”。這種唯一地確定用于創(chuàng)建底邊的特征點的位置有助于縮減計算量。由于唯一確定了兩個點,因此該過程使計算量從0(P4)縮減為0(Ρ2)。然而,以上過程確定了三個點存在于同一直線上,從而導致不能利用第三點來創(chuàng)建相對于在第一點和第二點處所創(chuàng)建的底邊線性獨立的底邊(要注意,可以向后面所述的特征矢量添加第三點,以用于計算后面所述的哈希索引)。以下將說明用以確定圖5所示的面積為&的圖形的第三點的另一方法。根據(jù)該方法,可以創(chuàng)建相對于在第一點和第二點處所創(chuàng)建的底邊線性獨立的底邊。表1示出仿射變換中所存儲的特性。^ 1仿射變換中所存儲的特性
特性1將直線存儲為直線。特性2存儲圖形的重心。特性3存儲由同一直線上的三個點所創(chuàng)建的線段比。
12特性4 存儲兩個區(qū)域的面積比。詵擇特征點的方法1假設(shè)如圖6所示給出三個特征點。假設(shè)穿過第一點和第二點的半直線以及穿過第一點和第三點的半直線,其中將從該圖形提取出的面積指定為Si。在這種情況下,根據(jù)表1 的特性4,S1ZX變?yōu)榉律洳蛔兞康闹怠R虼?,可以以使S1ZX等于預定值的方式來確定第三點。為了唯一確定第三點,可以使用順時針順序或逆時針順序。詵擇特征點的方法2與方法1相同,假設(shè)如圖7所示給出三個特征點。當將由三個特征點所形成的三角形的面積指定SS1時,根據(jù)表1的特性4,S1Z^變?yōu)榉律洳蛔兞康闹?。因此,可以以Hs1/ &等于預定值的方式來確定第三點。S1Z^不總是局限于預定值,還可以是最大值或最小值。 為了唯一確定第三點,可以使用順時針順序或逆時針順序。當考慮以S1恒定的方式確定第三點時,如圖7所示,第三點的軌跡是與通過第一點和第二點的直線平行的直線。因此,可以容易地將第三點確定為該直線和外部輪廓的交點,這意味著可以容易地計算出第三點。 如果存在多個交點,則例如還可以將更靠近第二點的點作為第三點??梢酝ㄟ^與上述方法不同的方法來確定最初的兩個點。具體地,與幾何哈希法相同,從P個點中適當選擇第一點,并且利用面積比來確定第二點。當如圖8所示給出兩個特征點時,面積比S1ZiStl變?yōu)榉律洳蛔兞康闹?。因此,可以以使S1ZiStl等于預定值的方式來確定
~-點。2.2.3圖形的特征的使用在幾何哈希法中,將圖像ID和底邊組ID存儲在數(shù)據(jù)庫中。另一方面,在本發(fā)明中, 代替底邊組ID,存儲根據(jù)圖像計算出的特征矢量和用于創(chuàng)建底邊的特征點的坐標(參見圖 9)。使用根據(jù)圖像計算出的特征矢量的原因是圖像的特征的表現(xiàn)力更高。在幾何哈希法的問題定義中,僅給出了從檢索對象提取出的特征點的坐標。然而,在本實施例的問題中,給出了作為檢索對象的圖形本身。因此,可以使用從圖形提取出的特征矢量。存儲用于創(chuàng)建底邊的特征矢量的坐標的原因是可以通過在后面所述的投票處理期間使用這些坐標來提高姿勢的估計精度和識別精度。為了專門描述根據(jù)本發(fā)明的模式識別的代表例子的字符識別,以下將“圖像ID”稱為“字符ID”。將“檢索”稱為“識別”。將“模式識別設(shè)備”稱為“字符識別設(shè)備”。3.分離字符的識別在前一節(jié)中,已說明了用于高速識別包括單個連接成分的字符的方法。在本節(jié)中, 將說明諸如“i”和“j”等的包括多于一個的連接成分的分離字符的識別方法。圖10是示出根據(jù)本發(fā)明的分離字符的描述方法的說明圖。圖10(a)示出利用構(gòu)成分離字符的各連接成分的面積和表示這些成分的相對位置的矢量來說明分離字符。圖 10(b)示出用于描述分離字符的分離字符表的一個例子。為了處理分離字符,在參考圖像的存儲處理中,對圖像內(nèi)的連接成分的數(shù)量進行計數(shù)。對于包含兩個以上的連接成分的參考圖像,將各連接成分作為不同的字符進行處理,單獨存儲各連接成分,并且將各連接成分登記到圖10(b)的分離字符表中。
該表存儲有字符的連接成分之間的相對位置和大小以識別分離字符,其中,可以通過在識別期間檢查預定連接成分是否存在于預定位置處來識別分離字符。圖10(b)的分離字符表包括5個元素,其中這5個元素從左端起順次被編號為第一元素 第五元素。第一元素表示連接成分的形狀和/或連接成分的數(shù)量。第二元素表示包含連接成分的分離字符。第三元素是表示連接成分的相對位置的矢量。第四元素表示連接成分的面積。第五元素表示應當成組的連接成分的面積。在Arial字體的情況下,“ i ”的下部連接成分具有“ I (大寫ai) ”和“1(小寫el),, 的相同形狀,并且這兩者難以區(qū)分。因而,為了正確地識別“i”,必須檢查諸如“I”和“1”等的相同形狀的各連接成分是否是“i”的一部分。如果“i”的上部連接成分以正確的位置和大小存在,則將該組連接部分識別為“ i ”,否則將其識別為“ I ”或“ 1 ”。為了實現(xiàn)以上處理,相同形狀的所有連接成分被存儲為具有相同的連接成分ID。 即,逐一進行參考圖像的存儲,并且針對各圖像檢查是否已登記相同形狀的連接成分。更詳細地,在存儲參考圖像之前,使用創(chuàng)建過程中的數(shù)據(jù)庫進行識別,并且如果找到了相同形狀的連接成分,則分配相同的連接成分ID。理想地,“i”、“I”和“1”的下部連接成分具有相同的連接成分ID。然而,該方法與以下所述的生成型學習法的相關(guān)性變差,并且一部分連接成分不具有相同的連接成分ID。因此,在本實施例中,根據(jù)表2所示的類似字符列表來手動設(shè)置連接成分ID。4.考虎到連接成分的姿勢的樽式識別圖11示出根據(jù)本發(fā)明的模式識別設(shè)備的概述。該設(shè)備大致包括圖像存儲部11和圖像識別部13。根據(jù)本發(fā)明的字符識別設(shè)備包括至少可訪問數(shù)據(jù)庫15的圖像識別部13。 以下將說明各個部。4.1圖像存儲部在圖像存儲部11中,將參考圖像存儲在數(shù)據(jù)庫15中。假定參考圖像是二值圖像。4. 1. 1劣化圖像的生成為了應對由散焦和低分辨率所引起的劣化,采用對參考圖像應用高斯(Gaussian) 模糊的生成型學習法(參見 H. Ishida,S. Yanadume,T. Takahasi, I. Ide, Y. Mekada and H. Murase, "Recognition of low-resolution characters by a generative learning method,”Proc.CBDAR2005,pp. 45-51,2005)。將原始圖像的位置(x,y)處的像素的亮度定義為ItlO^y),通過以下的數(shù)學式給出所生成的劣化圖像的位置(x,y)處的亮度Ig(x,y)。數(shù)學式權(quán)利要求
1.一種模式識別設(shè)備,包括提取部,用于從包括至少一個模式成分且預先經(jīng)過幾何變換的查詢圖像中提取模式成分;特征獲取部,用于獲取所述模式成分的相對于所述幾何變換保持不變的特征作為查詢特征,其中,所述查詢特征由包括各自位于所述模式成分上并且基于預定的規(guī)則從所述模式成分中檢索到的第一特征點、第二特征點和第三特征點的至少三個特征點來表示;比較部,用于將所述查詢特征與多個參考特征進行比較,其中,所述參考特征各自表示被準備作為模式識別的候選的不同的參考模式;以及模式確定部,用于基于進行比較的特征之間的類似度來確定所述候選中的特定參考模式作為識別結(jié)果,其中,各參考特征是使用基于與所述查詢特征的規(guī)則相同的規(guī)則從各參考模式檢索到的特征點來表示的,以及基于所述規(guī)則,在位于所述模式成分上且相對于所述幾何變換保持不變的點中指定所述第一特征點的位置,使用與所述模式成分的形狀有關(guān)且相對于所述幾何變換保持不變的特性來指定所述第二特征點的位置,并且根據(jù)相對于所述幾何變換保持不變的預定值以及所指定的所述第一特征點和所述第二特征點的位置來指定所述第三特征點的位置。
2.根據(jù)權(quán)利要求1所述的模式識別設(shè)備,其特征在于,在位于所述模式成分的輪廓上的像素中指定所述第一特征點的位置。
3.根據(jù)權(quán)利要求1或2所述的模式識別設(shè)備,其特征在于,所述特性是重心相對于作為一種所述幾何變換的仿射變換保持不變的特性,以及使用所述特性將所述模式成分的重心指定為所述第二特征點的位置。
4.根據(jù)權(quán)利要求1至3中任一項所述的模式識別設(shè)備,其特征在于,所述特性是面積比相對于作為一種所述幾何變換的仿射變換保持不變的特性,以及根據(jù)所述模式成分的輪廓并且使用所述特性基于以下面積比的預定值來指定所述第三特征點的位置,其中,所述面積比是所述模式成分的面積相對于由與所述第一特征點、所述第二特征點和所述第三特征點相對應的頂點所定義的三角形的面積之比。
5.根據(jù)權(quán)利要求1至4中任一項所述的模式識別設(shè)備,其特征在于,所述特征獲取部使用以分別連接獲取到的三個特征點中的兩個特征點的兩個線性獨立矢量為底邊且相對于所述幾何變換保持不變的坐標系來獲取相對于所述幾何變換保持不變的特征。
6.根據(jù)權(quán)利要求1至5中任一項所述的模式識別設(shè)備,其特征在于,所述比較部將所述查詢特征和與相應的參考模式有關(guān)且存儲在哈希表中的參考特征進行比較,其中,所述哈希表具有多個區(qū)間;各參考特征預先被分類并存儲到通過根據(jù)參考特征計算預定的哈希函數(shù)所確定出的區(qū)間之一中;以及針對每次比較,所述比較部使用通過根據(jù)獲取到的查詢特征計算所述哈希函數(shù)所獲得的索引來參考適當?shù)膮^(qū)間。
7.根據(jù)權(quán)利要求6所述的模式識別設(shè)備,其特征在于,2各參考特征存儲在與獲取到的三個特征點的坐標數(shù)據(jù)有關(guān)且與對應于所述參考特征的參考模式的識別符有關(guān)的區(qū)間中;以及所述模式確定部基于與所述查詢特征有關(guān)的各坐標數(shù)據(jù)相對于與存儲在所參考的區(qū)間中的各參考特征有關(guān)的各坐標數(shù)據(jù)的匹配,并且基于所述匹配的多數(shù)決定原則,來估計所述查詢圖像的姿勢。
8.根據(jù)權(quán)利要求1至7中任一項所述的模式識別設(shè)備,其特征在于,所述模式確定部具有存儲有至少一個離散模式組的離散模式表,其中,各離散模式與所述參考模式之一相對應并且各離散模式組提供一個識別結(jié)果;所述模式確定部參考所述離散模式表,以判斷從所述候選中確定出的特定參考模式與離散模式組中的一個離散模式之間是否存在對應關(guān)系;并且當存在所述對應關(guān)系且之前已確定與該離散模式組的其它離散模式的對應關(guān)系存在時,所述模式確定部將由與確定出的特定參考模式相對應的離散模式所屬的離散模式組所提供的識別結(jié)果確定為識別結(jié)果。
9.根據(jù)權(quán)利要求8所述的模式識別設(shè)備,其特征在于,所述離散模式表存儲離散模式組中一個離散模式相對于另一離散模式的相對位置,以及當另一確定出的特定參考模式位于由所存儲的、相對于與一個確定出的特定參考模式相對應的離散模式的相對位置所指定的位置時,所述模式確定部確定識別結(jié)果。
10.根據(jù)權(quán)利要求1至9中任一項所述的模式識別設(shè)備,其特征在于所述查詢圖像包括包含多個字符的單詞模式,以及所述模式識別設(shè)備還包括單詞候選確定部,用于獲得對所述模式確定部識別出的各字符追蹤一次的最短的路徑,并且確定所獲得的路徑的順序和逆序作為單詞的候選;旋轉(zhuǎn)角確定部,用于獲得各字符相對于所述查詢圖像的預定方向的旋轉(zhuǎn)角;以及讀取順序確定部,其中,將按所述路徑的順序或逆序彼此相鄰的兩個字符之間的旋轉(zhuǎn)角之差指定為第一評價指標,基于朝著與位于各候選的任一端的第一字符相鄰的第二字符的方向以及與讀取方向有關(guān)的預定規(guī)則來估計所述第一字符應當具有的旋轉(zhuǎn)角,并且將估計出的旋轉(zhuǎn)角與所述旋轉(zhuǎn)角確定部所確定出的所述第一字符的旋轉(zhuǎn)角之差指定為第二評價指標,選擇使所述第一評價指標和所述第二評價指標最小的候選,從而確定構(gòu)成單詞的字符的讀取順序。
全文摘要
一種模式識別裝置,按照如下進行配置從已經(jīng)過幾何變換的查詢圖像提取模式元素,獲取模式元素中由模式元素的三個特征點所表示且相對于幾何變換保持不變的特征作為查詢特征,將分別表示參考模式的特征的多個參考特征與查詢特征進行比較,并將利用上述比較所指定的參考模式確定為識別結(jié)果,其中,使用根據(jù)規(guī)則從各參考模式確定出的特征點來表示各參考特征,第一特征點的位置是在位于模式元素中且相對于幾何變換保持不變的點處所指定的,第二特征點的位置是使用與模式元素的形狀有關(guān)且相對于幾何變換保持不變的性質(zhì)所指定的,并且第三特征點的位置是根據(jù)相對于幾何變換保持不變的指定量以及所確定出的第一特征點和第二特征點的位置所指定的。
文檔編號G06T7/00GK102388392SQ201080016158
公開日2012年3月21日 申請日期2010年2月9日 優(yōu)先權(quán)日2009年2月10日
發(fā)明者巖村雅一, 黃瀨浩一 申請人:公立大學法人大阪府立大學