專利名稱:基于ocr技術(shù)的票證票號識別方法
技術(shù)領(lǐng)域:
本發(fā)明屬于票據(jù)票證信息識別方法技術(shù)領(lǐng)域,具體涉及一種基于OCR技術(shù)的票證票號識別方法。
背景技術(shù):
隨著電子客票與EMD在全球的推廣,各種票據(jù)票證特別是民航客運票證的電子化程度越來越高,但仍存在大量的紙質(zhì)票證,特別是紙質(zhì)行李票與MC0。在民航客運結(jié)算系統(tǒng)中,上述紙質(zhì)票證的影像,通過掃描,被采集進系統(tǒng)。票號,作為票證影像的關(guān)鍵檢索項,需從影像中被自動識別出來,以降低人工成本,提高工作效率。光學字符識別(Optical Character Recognition, OCR)是指對文本資料的圖像文件進行分析處理,獲取文字及版面信息的過程?,F(xiàn)有技術(shù)中均是直接利用OCR技術(shù),對客運票證的票號進行識別。直接利用OCR技術(shù)對客運票證的票號識別,一般需要預先指定票號區(qū)域,但不同航空公司、不同類型的票證,票號位置有所不同,再加上票證印刷、運輸與掃描過程的干擾因素,造成票號識別率相對較低。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種基于OCR技術(shù)的票證票號識別方法,利用本發(fā)明的票證票號識別方法,可以不需要預先指定票號區(qū)域,且識別正確率高。本發(fā)明的技術(shù)方案如下:一種基于OCR技術(shù)的票證票號識別方法,依次進行如下步驟:步驟1、采集票證圖像;步驟2、對票據(jù)圖像進行二值化處理;步驟3、利用Freeman直線檢測算法,以獲得可能的票號區(qū)域并進入步驟4,如無可能的票號區(qū)域則跳轉(zhuǎn)到步驟7 ;步驟4、根據(jù)系統(tǒng)預先設(shè)定的票號識別特征進行細化識別,以獲得票號在步驟3得到的可能的票號區(qū)域中的具體位置并進入步驟5,否則跳轉(zhuǎn)到步驟3 ;步驟5、使用OCR識別方法,在步驟4獲得的具體位置進行識別,以獲得票號識別結(jié)果;步驟6、根據(jù)系統(tǒng)預先設(shè)定的票號校驗特征對步驟5的票號識別結(jié)果進行校驗,校驗成功,則輸出識別結(jié)果并進入步驟7,否則進入步驟3 ;步驟7、結(jié)束。進一步的,步驟4中,票號識別特征為票號位數(shù)和票號字符間間距。進一步的,步驟6中,票號校驗特征為票號長度和票號檢查號計算規(guī)則。本發(fā)明的技術(shù)效果在于:本發(fā)明基于OCR技術(shù)的票證票號識別方法,能自動快速定位票號位置,并對識別結(jié)果進行校驗,具有較高的識別速度與正確率,能夠降低人力成本,提高工作效率。
圖1所示為本發(fā)明基于OCR技術(shù)的票證票號識別方法的流程圖。
具體實施例方式以下結(jié)合附圖對本發(fā)明做進一步說明。如圖1所示,本發(fā)明一種基于OCR技術(shù)的票證票號識別方法,依次進行如下步驟:步驟1、采集票證圖像。步驟2、對票據(jù)圖像進行二值化處理。圖像二值化是指將圖像上的灰度設(shè)置為O或255,也就是將整個圖像呈現(xiàn)出明顯的黑白效果,降低干擾因素的影響,凸顯票號區(qū)域輪廓。本實施例中,設(shè)定特定的閾值,對圖像進行二值化處理,降低干擾因素的影響,凸顯票號區(qū)域輪廓。步驟3、利用Freeman直線檢測算法,以獲得可能的票號區(qū)域并進入步驟4,如無可能的票號區(qū)域則跳轉(zhuǎn)到步驟7。Freeman直線檢測算法,相對于現(xiàn)有其它算法,是一種簡單而高效的在二值圖像中檢測目標物體直線邊界的算法。本實施例中,如為第一次票號區(qū)域識別,則以圖像的右下角為起點,否則以上一次識別出的可能的票號區(qū)域左下角為起點應用Freeman直線檢測算法,向左查找垂直于底邊、與底邊相交且寬度大于一定值的直線。如找到符合條件的直線,則以當前直線為高,寬為直線的低端到起點的矩形區(qū)域,為可能的票號區(qū)域,則進行步驟4操作,否則跳轉(zhuǎn)到步驟7。步驟4、根據(jù)系統(tǒng)預先設(shè)定的票號識別特征進行細化識別,以獲得票號在步驟3得到的可能的票號區(qū)域中的具體位置并進入步驟5,否則跳轉(zhuǎn)到步驟3。通常,票號識別特征為票號位數(shù)和票號字符間間距。步驟5、使用OCR識別方法,在步驟4獲得的具體位置進行識別,以獲得票號識別結(jié)
果O步驟6、根據(jù)系統(tǒng)預先設(shè)定的票號校驗特征對步驟5的票號識別結(jié)果進行校驗,校驗成功,則輸出識別結(jié)果并進入步驟7,否則進入步驟3。通常,票號校驗特征為票號長度和票號檢查號計算規(guī)則。步驟7、結(jié)束。綜上所述,與現(xiàn)有的直接利用ORC技術(shù)進行民航客運票證票號相比,本發(fā)明的基于ORC技術(shù)的票證票號識別方法可自動快速定位票號位置,并對識別結(jié)果進行校驗,提高識別速度與正確率,降低人力成本,提高工作效率。
權(quán)利要求
1.一種基于OCR技術(shù)的票證票號識別方法,其特征在于,依次進行如下步驟: 步驟1、采集票證圖像; 步驟2、對票據(jù)圖像進行二值化處理; 步驟3、利用Freeman直線檢測算法,以獲得可能的票號區(qū)域并進入步驟4,如無可能的票號區(qū)域則跳轉(zhuǎn)到步驟7; 步驟4、根據(jù)系統(tǒng)預先設(shè)定的票號識別特征進行細化識別,以獲得票號在步驟3得到的可能的票號區(qū)域中的具體位置并進入步驟5,否則跳轉(zhuǎn)到步驟3 ; 步驟5、使用OCR識別方法,在步驟4獲得的具體位置進行識別,以獲得票號識別結(jié)果;步驟6、根據(jù)系統(tǒng)預先設(shè)定的票號校驗特征對步驟5的票號識別結(jié)果進行校驗,校驗成功,則輸出識別結(jié)果并進入步驟7,否則進入步驟3 ; 步驟7、結(jié)束。
2.按照權(quán)利要求1所述基于OCR技術(shù)的票證票號識別方法,其特征在于,步驟4中,所述票號識別特征為票號位數(shù)和票號字符間間距。
3.按照權(quán)利要求1所述基于OCR技術(shù)的票證票號識別方法,其特征在于,步驟6中,所述票號校驗特征為票號長度和票號檢查號計算規(guī)則。
全文摘要
本發(fā)明提供一種基于OCR技術(shù)的票證票號識別方法,依次進行如下步驟采集票證圖像;對票據(jù)圖像進行二值化處理;利用Freeman直線檢測算法,以獲得可能的票號區(qū)域;根據(jù)系統(tǒng)預先設(shè)定的票號識別特征進行細化識別;使用OCR識別方法獲得票號識別結(jié)果;進行校驗后結(jié)束。本發(fā)明在識別過程中不需要預先指定票號區(qū)域,且識別正確率高。
文檔編號G06K9/20GK103093219SQ20131003066
公開日2013年5月8日 申請日期2013年1月28日 優(yōu)先權(quán)日2013年1月28日
發(fā)明者杜國洪, 袁永俊, 鄭朝暉, 劉智恒, 李樟標, 奚兵, 韓征, 楊崢, 孫巍巍, 蔡琪, 王雷, 耿謹, 其他發(fā)明人請求不公開姓名 申請人:中國航空結(jié)算有限責任公司