本發(fā)明總體上涉及用于進(jìn)行字符識別的方法和系統(tǒng)。更具體地,本發(fā)明涉及用于識別圖像內(nèi)存在的一連串字母數(shù)字字符的方法和系統(tǒng)。
背景技術(shù):在某些特別的情況下,為了某些特定的目的,人們用移動電話照相機(jī)多次拍攝車輛識別碼(VIN)的圖像。在拍攝的過程中進(jìn)行的人工干預(yù)、照明不均勻并且不足以及復(fù)雜的聚焦系統(tǒng)的無效導(dǎo)致產(chǎn)生劣質(zhì)圖像。由于圖像質(zhì)量受到各種噪聲的影響,所以由移動電話拍攝的VIN圖像上的可用開放源碼光學(xué)字符識別(OCR)系統(tǒng)的性能極差。因此,在將掃描圖像作為輸入提供給光學(xué)字符識別系統(tǒng)之前,需要使用圖像增強(qiáng)技術(shù)。二值化技術(shù)用作圖像增強(qiáng)技術(shù),以從復(fù)雜的背景(更具體地,背景文本)中獲得文本區(qū)域。移動電話拍攝的圖像內(nèi)的文本的OCR具有各種缺點(diǎn)。在現(xiàn)有系統(tǒng)中,需要提取嵌入式移動平臺上的各個字符,該平臺具有低存儲和處理速度。二值化技術(shù)用作圖像增強(qiáng)技術(shù),以從復(fù)雜的背景(更具體地,背景文本)中獲得文本區(qū)域。已經(jīng)提出許多種二值化技術(shù),來提高圖像的識別準(zhǔn)確度?,F(xiàn)有的二值化技術(shù)僅可將圖像的識別準(zhǔn)確度至多提高至5.89%。因此,需要能夠提供合適的低復(fù)雜度二值化技術(shù)的系統(tǒng)和方法,該技術(shù)將更大程度上提高圖像的識別準(zhǔn)確度。本發(fā)明的目的本發(fā)明的主要目的在于,提供一種用于識別圖像內(nèi)存在的一連串字母數(shù)字字符的系統(tǒng)和方法。本發(fā)明的另一個目的在于,提供一種將這樣拍攝的圖像進(jìn)行二值化的系統(tǒng)和方法。本發(fā)明的又一個實(shí)施方式在于,提供一種用于從二值化圖像中去除不需要的、過度分割和分割不足的部分的系統(tǒng)和方法。本發(fā)明的又一個目的在于,提供一種用于應(yīng)用形態(tài)閉合以將有效的字母數(shù)字字符內(nèi)的多個元素標(biāo)簽合并的系統(tǒng)和方法。
技術(shù)實(shí)現(xiàn)要素:本發(fā)明提供了一種用于識別圖像內(nèi)存在的一連串字母數(shù)字字符的方法。所述方法包括處理器,其執(zhí)行以下步驟:拍攝包括一連串字母數(shù)字字符的圖像并且處理圖像,以從所述一連串字母數(shù)字字符中產(chǎn)生一組可識別字符。所述處理進(jìn)一步包括:計算圖案,以在圖像中識別像素強(qiáng)度分布,從而確定背景峰值和前景峰值;通過選擇背景峰值和前景峰值之間的多個動態(tài)閾值,生成多個二值化圖像;并且通過從多個圖像中去除不需要的元素,過濾所生成的二值化圖像,以識別一個或多個有效字符。所述處理進(jìn)一步包括:通過比較有效字符和已知的基礎(chǔ)真值,識別一個或多個候選圖像;通過組合候選圖像,生成最終的候選圖像,從而候選圖像的組合取決于預(yù)定的條件;以及將最終的候選圖像分成預(yù)定的部分,并且識別與其內(nèi)的每個部分相關(guān)聯(lián)的有效字母數(shù)字字符。本發(fā)明還提供了一種用于識別圖像內(nèi)存在的一連串字母數(shù)字字符的系統(tǒng)。所述系統(tǒng)包括:圖像拍攝裝置,用于拍攝包括一連串字母數(shù)字字符的圖像;以及處理器,其被配置成從所述一連串字母數(shù)字字符中產(chǎn)生一組可識別的字符。所述處理器進(jìn)一步包括:計算模塊,其被配置成計算圖案,以在圖像中識別像素強(qiáng)度分布,從而確定背景峰值和前景峰值;二值化模塊,其被配置成通過選擇背景峰值和前景峰值之間的多個動態(tài)閾值,生成多個二值化圖像;以及濾波器,其被配置成從多個圖像中去除不需要的元素,以識別一個或多個有效字符。所述處理器進(jìn)一步包括:比較器,其被配置成比較有效字符和已知的基礎(chǔ)真值,以識別一個或多個候選圖像;以及圖像生成器,其被配置成通過組合候選圖像,生成最終的候選圖像,從而候選圖像的組合取決于預(yù)定的條件。所述系統(tǒng)進(jìn)一步包括輸出生成模塊,其被配置成將最終的候選圖像分成預(yù)定的部分,并且識別與其內(nèi)的每個部分相關(guān)聯(lián)的有效字母數(shù)字字符。附圖說明圖1示出了根據(jù)本發(fā)明實(shí)施方式的系統(tǒng)架構(gòu);圖2示出了根據(jù)本發(fā)明可替換實(shí)施方式的示范性流程圖。圖3示出了在應(yīng)用根據(jù)系統(tǒng)的可替換實(shí)施方式的形態(tài)閉合(closing)之后的圖像的形式;圖4示出了根據(jù)本發(fā)明實(shí)施方式的本發(fā)明的二值化技術(shù)和現(xiàn)有技術(shù)的二值化技術(shù)的比較分析。具體實(shí)施方式現(xiàn)在,將討論本發(fā)明的某些實(shí)施方式,這些實(shí)施方式示出了本發(fā)明的特征。詞語“包括(comprising)”、“具有(having)”、“包含(containing)”和“含有(including)”及其的其他形式意旨具有相同的意義,并且是開放用語,即,這些詞語中的任一個之后的一項(xiàng)或多項(xiàng)并不表示該項(xiàng)或這些項(xiàng)的詳盡列表,也并不表示僅僅限于所列出的一項(xiàng)或多項(xiàng)。還要注意的是,除非文中另有明確規(guī)定,否則本文中所使用的以及所附權(quán)利要求書內(nèi)的單數(shù)形式“一(a)”、“一(an)”、以及“該(the)”包括復(fù)數(shù)指示物。雖然與本文中所描述那些等同或類似的任何系統(tǒng)、方法、設(shè)備以及裝置可用于實(shí)踐或測試本發(fā)明的實(shí)施方式,但是現(xiàn)在所描述的是優(yōu)選的系統(tǒng)和部分。為了進(jìn)行解釋和有助于理解,在以下描述中,所涉及的多個實(shí)施方式的目的并非在于限制本發(fā)明的范圍。為了理解本說明書,本發(fā)明的一個或多個元素將被描述為模塊。例如,模塊可包括包含邏輯門的硬件電路內(nèi)的獨(dú)立元素、半導(dǎo)體器件、集成電路或任何其他分立元素。該模塊也可為任何軟件程序的一部分,該軟件程序由任何硬件實(shí)體(例如,處理器)執(zhí)行。模塊作為軟件程序的實(shí)施方式可包括由處理器或任何其他硬件實(shí)體執(zhí)行的一組邏輯指令。而且,通過接口,模塊可結(jié)合有這組指令或程序。所公開的實(shí)施方式僅僅為本發(fā)明的示例,該示例可以以多個形式來實(shí)施。本發(fā)明涉及一種用于識別圖像內(nèi)存在的一連串字母數(shù)字字符的方法和系統(tǒng)。在第一步驟中,從灰度圖像的圖案中識別兩個主要的峰值,并且獲得大量二值化圖像。從二值化圖像中去除不需要的元素。此外,分割一個或多個候選圖像,使得每個部分包含有效字符,從而生成一個最終的候選圖像。根據(jù)實(shí)施方式,參照圖1,系統(tǒng)(100)包括圖像拍攝裝置(102),用于拍攝包括一連串字母數(shù)字字符的圖像(如圖2中的步驟202中所示)。該系統(tǒng)進(jìn)一步包括處理器(104),配置成從所述一連串字母數(shù)字字符中產(chǎn)生一組可識別字符(如圖2中的步驟206中所示)。處理器進(jìn)一步包括:計算模塊(106)、二值化模塊(108)、濾波器(110)、比較器(112)以及圖像生成器(114)。根據(jù)實(shí)施方式,依然參照圖1,圖像拍攝裝置拍攝灰度圖像。圖像拍攝裝置可包括照相機(jī)。這種照相機(jī)可與一些其他的電子裝置耦接。通過具體示例,照相機(jī)可位于移動電話內(nèi)。圖像拍攝裝置(102)以多個幀拍攝圖像。這些圖像可再次包括要進(jìn)一步識別的一連串字母數(shù)字字符,并且因此可包括一種或多種噪聲。由處理器進(jìn)一步處理所拍攝的圖像。處理器(104)然后從圖像內(nèi)存在的一連串字母數(shù)字字符中產(chǎn)生一組可識別字符。通過具體示例,一連串字母數(shù)字字符的數(shù)量可包括但不限于17個字母數(shù)字字符。處理器(104)進(jìn)一步包括計算模塊(106),其被配置成計算圖案,以識別圖像中的像素強(qiáng)度分布,從而確定背景峰值和前景峰值。以直方圖的形式識別像素強(qiáng)度。計算模塊(106)通過應(yīng)用視網(wǎng)膜增強(qiáng)算法(retinex)策略,增強(qiáng)輸入圖像的質(zhì)量(如圖2中的步驟204中所示)。根據(jù)具有兩個噪聲源的兩種主要觀察,增強(qiáng)圖像。一種本質(zhì)上為由背景文本和玻璃的反射所呈現(xiàn)的乘積。計算模塊(106)進(jìn)一步將圖像轉(zhuǎn)換成灰度圖像?;叶葓D像為僅僅顏色為灰色陰影的圖像。計算灰度圖像的強(qiáng)度直方圖,其為示出圖像內(nèi)具有在圖像內(nèi)發(fā)現(xiàn)的各個不同強(qiáng)度值的像素的數(shù)量的示圖(如圖2的步驟208中所示)。通過具體示例,對于8位灰度圖像而言,具有256個可能不同的強(qiáng)度,因此,該直方圖用圖形顯示了256個數(shù)字,其示出了在那些灰度值之間的像素分布。而且,通過這個強(qiáng)度分布,識別兩個主要的峰值,一個峰值位于0值附近,并且另一個位于255值附近(如圖2的步驟210中所示)。這些峰值分別由圖像的背景部分和前景部分表示。處理器(104)進(jìn)一步包括二值化模塊(108),其被配置成生成多個二值化圖像。根據(jù)一個實(shí)施方式,所公開的二值化方法是基于兩個主要的觀察的,即,在背景文本(BGT)和興趣文本(TOI)之間具有輕微的灰度變化,并且在所拍攝的圖像內(nèi)確實(shí)具有17個字母數(shù)字字符。背景峰值和前景峰值之間的動態(tài)閾值(像素值)的具體數(shù)量(n)用于進(jìn)行二值化(如圖2的步驟212中所示)。對于具有每個像素8位的格式的圖像而言,這個數(shù)量為啟發(fā)式獲得的16。因此,從單個灰度圖像中獲得n個二值化圖像(如圖2的步驟214中所示)。根據(jù)實(shí)施方式,使用連接元素標(biāo)記方法,標(biāo)記每個這種圖像的前景像素。連接元素標(biāo)記為圖論的一種算法應(yīng)用,其中,根據(jù)規(guī)定的啟發(fā)法,唯一地標(biāo)記連接元素的子集。包含頂點(diǎn)和連接邊的圖形由輸入圖像構(gòu)成。頂點(diǎn)包含比較啟發(fā)法所需要的信息,而邊表示連接的‘鄰居’。算法通過圖形,根據(jù)連接性和其鄰居的相對值,標(biāo)記頂點(diǎn)。在標(biāo)記階段之后,可將該圖形分成子集,隨后,可恢復(fù)和處理原始信息。處理器(104)進(jìn)一步包括濾波器(110),其被配置成從n個數(shù)量的二值化圖像中去除不需要的元素,以識別一個或多個有效字符(如圖2的步驟216中所示)。去除太小或太大的元素。如果具有特定水平的像素的數(shù)量小于100或者如果元素的高度(h)或?qū)挾龋╳)小于3像素,那么將元素定義為太小。類似地,如果具有特定水平的像素的數(shù)量大于寬度/4,或者如果h>(ht_image/3)或w>(wd_image/4),那么將元素定義為太大,其中,ht_image為圖像的高度,并且wd_image為圖像的寬度。處理器(104)進(jìn)一步包括比較器(112),其被配置成比較有效字符和已知的基礎(chǔ)(ground)真值,以識別一個或多個候選圖像。已知的基礎(chǔ)真值(k)等于一連串字母數(shù)字字符的數(shù)量。比較器(112)用于去除不需要的元素,以識別候選圖像。如果元素的數(shù)量小于k/2,那么這表示實(shí)際的k個數(shù)量的字符的分割非常不足或者二值化的圖像不包括作為前景的所有有效值(如圖2的步驟218中所示)。因此,不將這種二值化圖像視為候選圖像。同樣,如果元素的數(shù)量大于k*3,那么平均將一個有效字符過度分割成三個以上的部分(如圖2的步驟218中所示)。忽視過度分割和分割不足的二值化圖像。將剩下的二值化圖像視為候選圖像。因此,n個二值化圖像中只剩下幾個有效圖像。通常,用于每個輸入圖像的這種候選圖像的數(shù)量小于或等于3(對于一連串字母數(shù)字字符的數(shù)量為17的情況而言)。處理器(104)進(jìn)一步包括圖像生成器(114),其被配置成通過組合候選圖像,生成最終的候選圖像(如圖2的步驟220中所示)。只有在一半以上的候選圖像被確定為背景文本,那么就通過將像素標(biāo)記為背景文本(BGT),組合候選圖像。一旦這個預(yù)定的條件滿足,就構(gòu)建最終的候選圖像。系統(tǒng)(100)進(jìn)一步包括輸出生成模塊(116),其被配置成將最終的候選圖像分成預(yù)定的部分,以使得每個部分包含僅一個有效字符。將候選圖像分成等于一連串字母數(shù)字字符數(shù)量的數(shù)量(如圖2的步驟222中所示)。根據(jù)一個實(shí)施方式,在分割之前,使用傳統(tǒng)的傾斜校正方法。以下分割方法是基于以下觀察:有效字符的數(shù)量等于一連串字母數(shù)字字符的數(shù)量(k)。字符和數(shù)字分割以及識別方法所包括的步驟如下:●無需任何前景像素,識別列。如果獲得連續(xù)的這種行,那么將這些列的中間視為候選切割列(CCC)。假設(shè)所獲得的CCC的數(shù)量為n?!裾页鲞B續(xù)的CCC之間的距離(δ)。假設(shè)第i和第(i+1)個CCC之間的距離定義為δi=|CCCi+1-CCCi|?!裾页靓膇i∈(1,2,LL,n)的中數(shù)(medδ),其中,n為圖像內(nèi)CCC的數(shù)量。啟發(fā)式獲得的容差因子用于限定閾值(Thδ),其被限定為Thδ=(medδ-τ)?!袢绻@得k-1個元素,這些元素基本上均等地間隔地排成列,那么每個部分用作候選部分?!袢绻鹡>k-1,那么結(jié)論是,某個有效字符水平上過度分割。隨后,反復(fù)地將這種CCC合并并且將n減小1?!袢绻鹡<k-1,那么結(jié)論是,肯定具有彼此接觸的某些有效字符。因此,獲得k數(shù)量的部分,每個部分具有有效字符。所獲得的這些部分可具有過度分割的形式。根據(jù)實(shí)施方式,參照圖3,如果任何這種部分包括多個元素標(biāo)簽,那么通過應(yīng)用形態(tài)閉合將其合并(如圖2的步驟224中所示)。圖(3a)示出了過度分割的字符,并且圖(3b)示出了應(yīng)用形態(tài)閉合之后的同一個字符。閉合類似于逆向執(zhí)行開運(yùn)算。將其簡單地定義為先擴(kuò)大再減少,這兩個操作使用相同的結(jié)構(gòu)元素。因此,閉合符需要兩個輸入:要被閉合的圖像以及結(jié)構(gòu)元素?;叶乳]合直接包括灰度擴(kuò)展,然后包括灰度減少。閉合為雙重打開,即,使用特定的結(jié)構(gòu)元素閉合前景像素,其等同于使用相同的元素閉合背景。根據(jù)實(shí)施方式,圖4(g)示出了相對于圖4(a)、(b)、(c)、(d)、(e)以及(f)中所示的現(xiàn)有技術(shù),本發(fā)明中所公開的二值化技術(shù)的改進(jìn)結(jié)果。本發(fā)明操作的最佳方式/示例通過以下段落中所闡述的實(shí)施例,可示意性給出用于識別圖像內(nèi)一連串字母數(shù)字字符的示意性系統(tǒng)和方法;該處理不僅僅限于所述示例??紤]人們通過其移動電話上兩百萬像素分辨率的攝像頭拍攝的車輛識別碼(VIN)的圖像。考慮該圖像受到多種噪聲(車牌上的污泥、一些其他車輛的陰影等)的影響。假設(shè)該號碼原始為MH05142466720087(包括2個字母的17個號碼)。其中,清晰的號碼和/或字母包括M-0514-4---2008-(剩下的號碼可部分識別)。通過上述方法和系統(tǒng),增強(qiáng)在由OCR(光學(xué)字符識別)識別之前包括數(shù)字和字母的這個圖像。首先計算直方圖,提供背景和前景的峰值點(diǎn)。這就提供了獲得多個二值化圖像所利用的閾值(例如16)。進(jìn)一步過濾這些二值化圖像,去除不需要的圖像,并且獲得某些有效字符。這些有效字符用于通過與地面真值(在本文中為17)相比,識別候選圖像?,F(xiàn)在,通過組合這些小候選圖像,生成一個最終的候選圖像,從而識別缺失的字符。重復(fù)該處理,以識別所有缺失的或受噪聲影響的字符,并且在由OCR進(jìn)行處理之前,最終增強(qiáng)圖像質(zhì)量。