專利名稱:自然場景圖像文字檢測方法
技術(shù)領(lǐng)域:
本發(fā)明屬圖像處理與理解的技術(shù)范疇,是通過采用紋理描述子LHBP來 描述圖像紋理特征并采用多尺度向性濾波的方法進(jìn)行圖像中的文字檢測方 法。
背景技術(shù):
多媒體技術(shù)的發(fā)展促進(jìn)了以圖像視頻為代表的多媒體數(shù)據(jù)的增長。為了 有效地對多媒體數(shù)據(jù)進(jìn)行瀏覽與管理,基于內(nèi)容的多媒體訪問和內(nèi)容理解是 一個亟待解決的重大技術(shù)挑戰(zhàn),針對于視覺場景的文字檢測算法對于多媒體 的語義理解有著重要的意義。
目前圖像中的文字檢測方法主要有基于邊緣、基于連接成份分析和基 于紋理的三類方法。基于邊緣特征的方法利用文字區(qū)域存在的較多邊緣的特 點(diǎn)使用形態(tài)學(xué)膨脹等方法將文字塊進(jìn)行分類和篩選;基于連接成分分析的方 法利用顏色等特征從圖像中提取出連通區(qū)域,再根據(jù)區(qū)域幾何特征使用閾值 規(guī)則確定文字區(qū)域;基于紋理的方法認(rèn)為文字區(qū)域具有特定模式的紋理分布。 但是上述方法均存在一定的問題,基于邊緣特征的方法當(dāng)背景復(fù)雜或者文字 邊緣特征不明顯時,誤檢率較高;基于鏈接成份分析的方法當(dāng)圖像背景復(fù)雜 時很難提取出準(zhǔn)確的連通區(qū)域,且該算法中所使用的幾何規(guī)則和閾值更缺乏 魯棒性,很難推廣;基于紋理的方法不受圖像質(zhì)量下降和背景噪聲干擾的影 響,這類方法與前兩類方法相比,對文字檢測具有更好的魯棒性。然而目前 這類方法中仍然有兩個問題沒有解決好其一,復(fù)雜光照,如強(qiáng)光或變化光 照導(dǎo)致信息細(xì)節(jié)弱化,使其淹沒于光照差異和噪聲之中而無法檢測;其二, 文字-背景對比度變化,會直接影響前景與背景的界定,紋理的改變導(dǎo)致閾值 判斷錯誤或者漏檢。
發(fā)明內(nèi)容
本發(fā)明為解決基于紋理的文字檢測方法存在的光照復(fù)雜、文字與背景對 比度變化對文字檢測影響較大的問題,提供一種自然場景圖像文字檢測方法。 本發(fā)明包括以下步驟步驟一,通過公式:
"0
其中戶"力=2] 《2"力,SW = <
獲得LHBP向性紋理編碼及其根據(jù)位置權(quán)重變化而產(chǎn)生的相應(yīng)編碼,
1, x 2 77zms/zoW 、0,x < 777ms/zo/<i ,
式中的(x,力表示第A:個尺度在(x,力處的小波能量,《2 (jc,力表示點(diǎn) "力的第A個尺度的Haar小波高頻子帶能量,(&,力)為中心像素,p為中 心像素近鄰編號,而( ,力)為近鄰像素,2P為編碼權(quán)值;
步驟二,通過多尺度向性分析的方法確定文字區(qū)域。
有益效果本發(fā)明采用LHBP紋理描述算子在多尺度的小波特征上提取 局部紋理模式,能夠濾掉復(fù)雜和文字-背景對比度變化情況的影響,有效地提 取文字區(qū)域的紋理特征;同時多尺度向性濾波有效的利用了文字區(qū)域的紋理 方向特性確定出最終的文字區(qū)域。該方法在圖像中復(fù)雜光照、文字-背景對比 度變化以及文字的大小、筆畫粗細(xì)變化等方面,具有很好的魯棒性。
本發(fā)明的目的主要針對傳統(tǒng)的文字檢測方法無法克服光照變化、圖像中 文字-背景對比度變化對圖像紋理描述及圖像中文字檢測的影響,并對圖像中 文字大小、筆畫粗細(xì)、顏色變化等具有較強(qiáng)的魯棒性,為復(fù)雜光照下自然場 景圖像中的文字檢測提供了一種有效的解決方法。
圖1是LHBP描述子中的位置權(quán)重分布示意圖。
具體實(shí)施例方式
具體實(shí)施方式
一參見圖l,本實(shí)施方式由以下步驟組成
步驟一,首先取得圖像資源,可以是任意圖像格式的圖像文件,如bmp、
jpg、 gif或tiff等,圖像文件的來源可以是互聯(lián)網(wǎng)上提供的圖像資源、專門的
圖片庫或者個人收集的圖片資料; 步驟二,通過公式
丄朋/UXe,;g:t(,(Xp,力)-,(xje))*2P
p=0其中<formula>formula see original document page 5</formula>
式中,/、x,力表示第A:個尺度在(x,力處的小波能量,Af0c,力表示點(diǎn) (x,力的第&個尺度的Haar小波高頻子帶能量,&,又)為中心像素,p為中 心像素近鄰編號,而( ,々)為近鄰像素,2^為編碼權(quán)值;
并經(jīng)過對LHBP紋理描述子的分析,獲得如下表所示的LHBP向性紋理 編碼及其根據(jù)位置權(quán)重變化而產(chǎn)生的相應(yīng)編碼(表中的編碼值是按圖1位置 權(quán)重分布獲得的,表中的編碼值依賴于位置權(quán)重的選擇)
步驟三,通過多尺度向性分析的方法確定文字區(qū)域。
具體實(shí)施方式
二,本實(shí)施方式在具體實(shí)施方式
一的基礎(chǔ)上進(jìn)一步限定了 步驟三中所述的多尺度向性分析的方法由以下步驟組成
步驟Al、在對應(yīng)的尺度上依次使用mXn的檢測窗口模板在LHBP圖像 上滑動,根據(jù)LHBP向性紋理編碼表在當(dāng)前窗口中統(tǒng)計水平、豎直、對角線、 反對角線四個方向上的像素個數(shù),判斷是否有上述四個方向中的其中任兩個 以上的方向上的像素個數(shù)同時達(dá)到對應(yīng)的閾值,判斷結(jié)果為是,則將該窗口 對應(yīng)的區(qū)域標(biāo)定為候選文字區(qū)域,判斷結(jié)果為否,則重新執(zhí)行步驟Al繼續(xù) 滑動判斷;
步驟A2、通過基于LHBP直方圖的支持向量機(jī)來分類候選文字區(qū)域, 最終確定文字區(qū)域。
紋理方向
加權(quán)的LHBP編碼
水平 豎直 對角線 反對角線
7、 112、 119 28、 193、 221 4、 14、 64、 224 1、 16、 56、 13權(quán)利要求
1、自然場景圖像文字檢測方法,其特征在于它包括以下步驟步驟一,通過公式獲得LHBP向性紋理編碼及其根據(jù)位置權(quán)重變化而產(chǎn)生的相應(yīng)編碼,其中式中的fk(x,y)表示第k個尺度在(x,y)處的小波能量,(x,y)表示點(diǎn)(x,y)的第k個尺度的Haar小波高頻子帶能量,(xc,yc)為中心像素,p為中心像素近鄰編號,而(xp,yp)為近鄰像素,2p為編碼權(quán)值;步驟二,通過多尺度向性分析的方法確定文字區(qū)域。
2、 根據(jù)權(quán)利要求l所述的自然場景圖像文字檢測方法,其特征在于步驟 二中所述的多尺度向性分析的方法由以下步驟組成-步驟Al、在對應(yīng)的尺度上依次使用mXn的檢測窗口模板在LHBP圖像 上滑動,根據(jù)LHBP向性紋理編碼表在當(dāng)前窗口中統(tǒng)計水平、豎直、對角線、 反對角線四個方向上的像素個數(shù),判斷是否有上述四個方向中的其中任兩個以 上的方向上的像素個數(shù)同時達(dá)到對應(yīng)的閾值,判斷結(jié)果為是,則將該窗口對應(yīng) 的區(qū)域標(biāo)定為候選文字區(qū)域,判斷結(jié)果為否,則重新執(zhí)行步驟Al繼續(xù)滑動判 斷;步驟A2、通過基于LHBP直方圖的支持向量機(jī)來分類候選文字區(qū)域,最 終確定文字區(qū)域。
全文摘要
自然場景圖像文字檢測方法,它涉及一種通過采用紋理描述子LHBP來描述圖像紋理特征并采用多尺度向性濾波的方法進(jìn)行圖像中的文字檢測的方法,以解決基于紋理的文字檢測方法存在的對光照的要求較復(fù)雜、文字與背景對比度變化對檢測影響較大的問題。獲得LHBP向性紋理編碼及其根據(jù)位置權(quán)重變化而產(chǎn)生的相應(yīng)編碼,通過多尺度向性分析的方法確定文字區(qū)域。本發(fā)明采用LHBP紋理描述算子在多尺度的小波特征上提取局部紋理模式,能夠濾掉復(fù)雜和文字-背景對比度變化情況的影響,有效地提取文字區(qū)域的紋理特征;并利用了文字區(qū)域的紋理方向特性確定最終文字區(qū)域,在復(fù)雜光照、文字-背景對比度變化以及文字的大小、筆畫粗細(xì)變化等方面,具有很好的魯棒性。
文檔編號G06K9/20GK101436299SQ20081013757
公開日2009年5月20日 申請日期2008年11月19日 優(yōu)先權(quán)日2008年11月19日
發(fā)明者劉先明, 劉天強(qiáng), 姚鴻勛, 孫曉帥, 紀(jì)榮嶸, 許鵬飛 申請人:哈爾濱工業(yè)大學(xué)