本發(fā)明屬于計算機視覺
技術領域:
:,具體涉及復雜場景下的文本定位研究。
背景技術:
::文本定位是指將場景圖像中的文本精確地定位出來,它是獲取場景圖像中文本信息的基礎和前提,也是光學字符識別(opticalcharacterrecognition)的一個關鍵組成部分;因此,文本定位算法作為當今計算機視覺領域研究熱點之一,一直受到研究者重視,并在紙質(zhì)文檔的字符分割識別,車牌號碼的定位識別等方面具有廣泛的應用。現(xiàn)今對于簡單場景下的文本定位算法都有很出色的表現(xiàn),尤其是背景單一、干凈的人工文檔文本定位應用,基本都有95%以上的定位準確率;然而,針對復雜場景下的文本定位算法仍存在定位準確率低的問題,尤其是鐵路場景,其具有背景復雜、目標微弱和對比度低等特點,目前還沒有一種針對此特定應用場景下的有效文本定位算法?,F(xiàn)有的文本檢測方法主要有:基于邊緣的方法、基于紋理的方法和基于區(qū)域的方法。在文獻“textlocalizationinreal-worldimagesusingefficientlyprunedexhaustivesearch.2011:687-691”中,利用最大穩(wěn)定極值區(qū)域(mser:maximumstableextremalregions)的穩(wěn)定性和仿射不變性,以檢測出的mser作為文本候選區(qū)域然后進行文本定位,該方法在簡單應用場景中檢測率高,但在復雜場景中,虛警特別多;在文獻“detectingtextinnaturalsceneswithstrokewidthtransform.2010,119(5):2963-2970”中,提出了筆畫寬度變換的概念,首先在canny邊緣圖像上尋找邊緣像素對,兩個像素間的歐式距離就是兩者及之間像素的筆畫寬度,然后根據(jù)筆畫寬度的變化來檢測文本,此方法能有效的利用字符特有的筆畫特征實現(xiàn)準確的檢測,但由于依賴于邊緣檢測的效果,在復雜場景下筆畫寬度難以準確獲得。綜上,單獨使用上述方法是無法適用于復雜場景下的文本定位,由此提出一種綜合二者優(yōu)點的復雜場景文本定位算法。技術實現(xiàn)要素:本發(fā)明的目的是針對現(xiàn)有的文本定位方法只能應用于簡單場景的局限,研究一種應用場景為鐵路場景的文本定位算法,針對鐵路號牌文本檢測場景具有背景復雜、目標微弱和對比度低等特點,提出了一種基于最大穩(wěn)定極值區(qū)域與筆畫寬度相結合的文本定位算法。本發(fā)明的技術方案為:采用局部直方圖均衡算法提高圖像的對比度,通過檢測預處理圖像中的最大穩(wěn)定極值區(qū)域獲得文本候選區(qū)域,進一步采取文本筆畫寬度等特征去除非文本區(qū)域,最后通過文本行生成策略得到文本定位結果。該方法有效解決了在復雜的鐵路場景下無法有效檢測到文本和受環(huán)境干擾嚴重的問題,從而實現(xiàn)對鐵路場景中的文本進行有效檢測和準確定位。本發(fā)明提出了一種基于最大穩(wěn)定極值區(qū)域與筆畫寬度相結合的鐵路場景文本定位方法,具體包括如下步驟:s1.采集待檢圖像,將數(shù)字攝像采集裝置固定于車輛前視擋風玻璃上,視角平行于地面,持續(xù)采集待檢圖像;s2.圖像預處理:將待檢圖像轉(zhuǎn)換成灰度圖,采用局部直方圖均衡化算法對灰度圖像進行對比度增強;s3.獲取全圖的最大極值穩(wěn)定區(qū)域:通過對步驟s2獲得的圖像用0到255的變化閾值分別進行二值化,在閾值變化過程中,有一些區(qū)域會在一定范圍的閾值變化中保持穩(wěn)定,這些穩(wěn)定的區(qū)域就是最大穩(wěn)定極值區(qū)域;經(jīng)過上述操作只能檢測出暗文本區(qū)域,對原圖進行反轉(zhuǎn)后再檢測一次mser,檢測出亮文本區(qū)域;s4.初步形成字符候選區(qū)域:步驟4.1:對步驟s3得到的最大穩(wěn)定極值區(qū)域標記一個外接的檢測框,根據(jù)檢測框的大小和連通區(qū)域的占有率去除明顯不是字符的區(qū)域,連通區(qū)域的占有率表示連通區(qū)域面積與該連通區(qū)域外接檢測框面積的比值;步驟4.2:去重復檢測框:若兩個檢測框的左上角坐標接近,檢測框尺寸也接近,則認為這兩個區(qū)域重復,任意去除一個;步驟4.3:去除具有包含關系的檢測框:若兩個區(qū)域具有包含關系,則將大面積檢測框保留,到此留存的檢測框內(nèi)的區(qū)域為字符候選區(qū)域;s5.獲取筆畫寬度圖像:提取出各字符候選區(qū)域的骨架圖像,對骨架圖像進行距離變換得到筆畫寬度圖像;s6.筆畫特征過濾:利用筆畫寬度和骨架端點數(shù)目來濾除非文本區(qū)域;s7.文本行生成:鐵路號牌文本只有兩個方向:水平方向和垂直方向,通過并行的文本行生成策略將相鄰的文本連接起來得到文本行;s8.步驟7判斷完成后輸出的文本行中會有重復的文本行,將重復的文本行刪除,得到原始圖像中文本行的最終結果。進一步的,所述步驟s5的具體方法為:步驟5.1:獲取字符候選區(qū)域的灰度圖像,對灰度圖像進行二值化,二值化的方法為將字符候選區(qū)域的前景像素點的位置賦值為0,背景像素點的位置賦值為255;步驟5.2:在二值圖的基礎上,遍歷值為0的像素點,與兩側(cè)背景像素點距離最近或相等的點即為骨架中心點,從而獲取候選區(qū)域骨架圖像;步驟5.3:獲取候選區(qū)域筆畫寬度圖像的方法:在二值圖中尋找出骨架中心p到與其最近的背景像素點q的歐式距離||p-q||,將數(shù)值2||p-q||替換圖像前景中射線qp經(jīng)過的每個像素點的灰度值,遍歷整個骨架圖像,獲得該候選區(qū)域的筆畫寬度圖像。進一步的,所述步驟s6的具體方法為:步驟6.1:利用筆畫寬度變異系數(shù)濾除非文本區(qū)域;筆畫寬度的變異系數(shù)可以用來度量筆畫寬度變化的大小,其定義為筆畫寬度的標準差與均值的比值:式中的meansw是在筆畫寬度圖像中求得的筆畫寬度的均值,n是筆畫寬度圖像中前景像素的個數(shù),xi是圖像中某一點像素的筆畫寬度;由于一個連通區(qū)域內(nèi)文本的筆畫寬度一般都會保持穩(wěn)定,varsw值越小就表示筆畫寬度的變化越小,此區(qū)域是文本的概率就越高;步驟6.2:根據(jù)骨架圖像的端點數(shù)目濾除非文本區(qū)域;骨架端點的判斷方法為:遍歷每一個骨架中心像素,若該像素的八鄰域中只有一個連通像素點則認為它是筆畫端點。進一步的,所述步驟s7的具體方法為:步驟7.1:將整個原圖像劃分為若干行,按照候選區(qū)域中心點橫坐標位置從左至右依次提取出屬于第1,2行的候選區(qū)域;步驟7.2:對兩兩相鄰的候選區(qū)域從左至右依次判斷是否符合水平文本行關聯(lián)規(guī)則,得出所有相鄰候選區(qū)的判斷結果,將判斷為文本行的相鄰候選區(qū)進行組合輸出;步驟7.3:按照步驟7.2相同的方法輸出劃分圖像第2、3行中的文本行;依次類推,直到遍歷完整張圖像,至此完成水平文本行的提??;步驟7.4:再將整個原圖像劃分為若干列,按照候選區(qū)域中心點縱坐標位置從上至下依次提取出屬于第1,2列的候選區(qū)域;步驟7.5:對兩兩相鄰的候選區(qū)域從上至下依次判斷是否符合垂直文本行關聯(lián)規(guī)則,得出所有相鄰候選區(qū)的判斷結果,將判斷為文本行的相鄰候選區(qū)進行組合輸出;步驟7.6:按照步驟7.5相同的方法輸出劃分圖像第2、3列中的文本行;依次類推,直到遍歷完整張圖像,至此完成垂直文本行的提取;進一步的,所述步驟s7中判斷水平/垂直的相鄰候選區(qū)域是否為文本行的方法為:1)相鄰候選區(qū)的檢測框中心點橫/縱坐標的距離是否小于規(guī)定閾值;2)相鄰候選區(qū)的檢測框的高度/寬度的差值是否小于規(guī)定閾值;3)相鄰候選區(qū)的距離是否小于規(guī)定閾值;4)相鄰候選區(qū)中前景的筆畫寬度的均值和平均灰度值的差值是否小于閾值;滿足上述所有條件則認為相鄰區(qū)域為文本行。本發(fā)明的有益效果:本發(fā)明基于改進的直方圖均衡算法對原始圖像進行預處理,有效的提高了圖像的對比度,然后利用mser算法有效的將鐵路場景下的微弱目標區(qū)域檢測出來,接著通過字符的筆畫寬度特征有效的去除了非文本區(qū)域,降低誤檢率,從而解決了鐵路場景下的文本檢測困難、準確定位文本難以實現(xiàn)的問題。本發(fā)明的優(yōu)點是利用文本行的空間結構特點,采取了區(qū)塊滑窗搜索策略,有效的降低了計算復雜度。本發(fā)明可以應用于復雜的鐵路字符定位場景。附圖說明圖1為本發(fā)明的基于mser與筆畫寬度相結合的鐵路場景文本定位方法示意圖。圖2為圖1方法以某幾幀圖像為例,進行圖像預處理、mser提取以及文本定位效果圖。具體實施方式下面結合附圖和具體實施例對本發(fā)明作進一步的說明實施例一種基于mser與筆畫寬度相結合的鐵路場景文本定位方法,該方法如圖1所示,以圖2中的第一幀樣本為例,進行文本定位,其具體步驟如下:s1.采集待檢圖像,將數(shù)字攝像采集裝置固定于車輛前視擋風玻璃上,視角平行于地面,持續(xù)采集待檢圖像;s2:圖像預處理:將原始圖像(a)轉(zhuǎn)換成灰度圖,采用局部直方圖均衡化算法對灰度圖像進行對比度增強,得到圖像(b);s3.獲取全圖的最大極值穩(wěn)定區(qū)域:通過對灰度圖像用0到255的閾值分別進行二值化,在閾值變化過程中,有一些區(qū)域會在一定范圍的閾值變化中保持穩(wěn)定,這些穩(wěn)定的區(qū)域就是最大穩(wěn)定極值區(qū)域;它的數(shù)學定義為q(i)=|qi+δ-qi-δ|/qiqi表示閾值為i時的某一連通區(qū)域,δ為灰度閾值的微小變化量,q(i)為閾值是i時的區(qū)域的變化率;當q(i)為局部極小值時,qi為最大穩(wěn)定極值區(qū)域;經(jīng)過上述操作只能檢測出暗文本,對原圖進行反轉(zhuǎn)后再檢測一次mser,就可以檢測出亮文本;s4.初步形成字符候選區(qū)域:首先利用一些簡單的啟發(fā)式規(guī)則可以將明顯不是字符的區(qū)域去除;mser算法會對同一個連通區(qū)域形成多個檢測框,有必要設置去重復策略去除重復的區(qū)域;另外,具有相互包含關系的矩形框也要選擇只保留一個;(1)連通區(qū)域矩形框面積大?。鸿F路號牌單個字符區(qū)域的矩形面積滿足一定的大小,考慮到粘連字符情況下矩形區(qū)域面積的上限難以確定,采用單字符的下限值過濾小面積的非字符區(qū)域,一個經(jīng)驗值大小為200;(2)區(qū)域占有率:區(qū)域占有率的定義是ratio=pfg/pre式中的pfg指連通區(qū)域的前景像素數(shù)目,pre是區(qū)域外接矩形框的面積;字符區(qū)域占有率的經(jīng)驗取值范圍:0.3≤ratio≤0.65;(3)去重復策略:若兩個矩形區(qū)域的左上角坐標相差無幾,且區(qū)域的寬高幾乎一致,則認為這兩個區(qū)域重復,任意去除一個即可。(4)具有包含關系的區(qū)域:若兩個區(qū)域具有包含關系,則將大面積區(qū)域保留,這樣可以確保字符區(qū)域不被去除;在具體實現(xiàn)時,首先需要根據(jù)矩形區(qū)域的中心點將數(shù)據(jù)劃分到不同的區(qū)塊中,因為只有相鄰的區(qū)塊中的區(qū)域才有可能具有包含關系,利用區(qū)塊進行操作可以減少計算復雜度;然后以4個區(qū)塊為單位進行滑窗處理,這樣做的好處是不會出現(xiàn)漏檢;在每一次滑窗的過程中,都需要對大區(qū)塊內(nèi)的區(qū)域按照面積大小進行升序排序,方便后續(xù)的大小比較;最后,遍歷全圖去除包含關系中小面積區(qū)域,并將保留下來的區(qū)域保存在相應的區(qū)塊中。s5.獲取筆畫寬度圖像:提取候選區(qū)域的骨架圖像,并在二值圖的基礎上進行距離變換得到筆畫寬度圖像。獲取候選區(qū)域二值圖像的方法:候選連通區(qū)域中前景像素點的位置賦值為0,背景像素點的位置賦值為255;獲取候選區(qū)域骨架圖像的方法:在二值圖的基礎上,遍歷值為0的像素點,與兩側(cè)背景像素點距離最近且相等的點即為骨架中心點;獲取候選區(qū)域筆畫寬度圖像的方法:在二值圖中計算骨架中心p到與其最近的背景像素點q的歐式距離||p-q||,可以近似認為該距離值相當于筆畫寬度的一半,將此距離值的2倍標記像素點p及在[p,q]這條線路上的每個像素點,遍歷整個骨架圖像即可獲得此區(qū)域的筆畫寬度圖像。s6.筆畫特征過濾:利用筆畫寬度變異系數(shù)(上限值為0.65)和筆畫端點數(shù)目(上限值為7)來濾除非文本區(qū)域,得到圖2中的圖(c);筆畫寬度的變異系數(shù)可以用來度量筆畫寬度變化的大小,其定義為筆畫寬度的標準差與均值的比值:式中的meansw是在筆畫寬度圖像中求得的筆畫寬度的均值,n是筆畫寬度圖像中前景像素的個數(shù),xi是圖像中某一點像素的筆畫寬度。由于一個連通區(qū)域內(nèi)文本的筆畫寬度一般都會保持穩(wěn)定,varsw值越小就表示筆畫寬度的變化越小,此區(qū)域是文本的概率就越高,而一般的雜草、樹葉等干擾區(qū)域不滿足此特征。針對阿拉伯數(shù)字0到9的筆畫端點數(shù)極少,而雜草、象形區(qū)域的端點數(shù)較多的特點,可以采用連通區(qū)域的筆畫端點數(shù)κ來濾除非文本區(qū)域。一種比較簡單粗略的計算方法是在骨架圖像中遍歷每一個骨架中心像素,若該像素的八鄰域中只有一個連通像素點則認為它是筆畫端點。s7.文本行生成:鐵路號牌文本只有兩個方向:水平方向和垂直方向,通過并行的文本行生成策略將相鄰的文本連接起來得到文本行。(1)區(qū)塊滑窗式搜索策略真正的文本行肯定是在相鄰的區(qū)塊內(nèi)才可能存在相鄰關系。水平方向上,以由橫向小區(qū)塊組成的兩個水平長形區(qū)塊為單位,自上而下遍歷整張圖像,執(zhí)行水平方向文本行生成策略;垂直方向上,以由豎向小區(qū)塊組成的兩個垂直長形區(qū)塊為單位,自左向右遍歷整張圖像,執(zhí)行垂直方向文本行生成策略。(2)水平方向的文本行生成策略首先針對第一個字符和第二個字符進行如下判斷:1)兩個矩形區(qū)域的中心點縱坐標是否一致2)兩個矩形區(qū)域的高度是否一致3)左邊區(qū)域橫坐標的最大值與右邊區(qū)域橫坐標的最小值之差δx是否滿足區(qū)域相鄰的條件4)兩個矩形區(qū)域的筆畫寬度的均值、灰度值是否一致;若滿足上述條件,則繼續(xù)對第二個字符和第三個字符進行同樣的判斷,依次類推,直到最后一個字符結點,完成文本行的生成。(3)垂直方向的文本行生成策略首先針對第一個字符和第二個字符進行如下判斷:1)兩個矩形區(qū)域的中心點橫坐標是否一致2)兩個矩形區(qū)域的寬度是否一致3)上邊區(qū)域縱坐標的最大值與下邊區(qū)域縱坐標的最小值之差是否滿足區(qū)域相鄰的條件4)兩個矩形區(qū)域的筆畫寬度的均值、灰度值是否一致;若滿足上述條件,則繼續(xù)對第二個字符和第三個字符進行同樣的判斷,依次類推,直到最后一個字符結點,完成文本行的生成。s8.去除重復的文本行:區(qū)塊滑窗式搜索策略雖然減少了計算復雜度,卻存在文本行重復的問題。兩個文本行進行比較,若同時滿足下述條件:1)文本行包含的區(qū)域數(shù)目相等2)所有相應區(qū)域的左上角的坐標都相同則刪除任意一個文本行。當前第1頁12當前第1頁12