一種用于復(fù)雜文字識別的隨機樣本產(chǎn)生方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及圖像識別領(lǐng)域,特別涉及一種用于復(fù)雜文字識別的隨機樣本產(chǎn)生方 法。
【背景技術(shù)】
[0002] 圖片識別在智能識別領(lǐng)域具有十分重要的意義,隨著科技的進步和社會的發(fā)展, 對圖片中文字的自動識別的需求量也急速增加。傳統(tǒng)的光學(xué)文字識別(OCR)系統(tǒng)常常用于 識別使用光學(xué)設(shè)備掃描生成的文檔,比如數(shù)字化古籍,識別名片、發(fā)票、表單等。通常這類 掃描文檔有著比較高的分辨率和對比度,而且打印字體一般都比較單一規(guī)整,提取用于識 別的單個文字變得比較簡單。所以這類文檔識別的核心是消除噪音,噪音的消除方法比較 多:比如使用高斯進行平滑化處理,然后使用閾值化對圖片進行二值化,最后提取工程化設(shè) 計好的特征向量進行模版匹配或者交付給分類器進行識別。
[0003] 隨著互聯(lián)網(wǎng)的發(fā)展和移動設(shè)備的普及,產(chǎn)生了大量含有復(fù)雜噪音或者各種變形的 文字圖片,比如驗證碼圖片、隨手拍照片、車輛車牌等。復(fù)雜噪音產(chǎn)生的原因既包括了客觀 因素,比如拍照狀況的復(fù)雜性、拍照設(shè)備的質(zhì)量偏低;也包括了主觀因素,比如為了網(wǎng)站安 全,將驗證碼的噪音和扭曲都人為設(shè)計得很復(fù)雜。為了從大量公開的多媒體數(shù)據(jù)中挖掘出 有價值的信息,識別這些復(fù)雜文字圖片開始變得很有意義。
[0004] 識別這些復(fù)雜文字時,使用傳統(tǒng)的OCR方法,在識別速度和準確性方面已經(jīng)難以 滿足龐大數(shù)據(jù)的識別要求。隨著人工神經(jīng)網(wǎng)絡(luò)的出現(xiàn),使得圖像和語音識別變得簡單高效; 而深度神經(jīng)網(wǎng)絡(luò)在圖像和語音識別領(lǐng)域都得到了突破性的進展,但是使用神經(jīng)網(wǎng)絡(luò)來進行 文字或者語音識別之前,需要輸入大量的標注數(shù)據(jù)來完成神經(jīng)網(wǎng)絡(luò)的訓(xùn)練;而深度神經(jīng)網(wǎng) 絡(luò)所需要的標注數(shù)據(jù)量更加巨大,比如谷歌的語音識別系統(tǒng)使用了上萬小時的帶標注的語 音訓(xùn)練數(shù)據(jù),這就需要消耗大量的人力成本。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的目的在于克服現(xiàn)有技術(shù)中所存在的上述不足,提供一種用于復(fù)雜文字識 別的隨機樣本產(chǎn)生方法。通過分析文字復(fù)雜性的原因,自動生成大量的可供深度神經(jīng)網(wǎng)絡(luò) 使用的包含各種噪聲和扭曲特征的訓(xùn)練樣本,解決了現(xiàn)有技術(shù)中使用深度神經(jīng)網(wǎng)絡(luò)識別文 字時需要大量的人力標注的問題,顯著的節(jié)約了人力成本;提高識別的效率。
[0006] 為了實現(xiàn)上述發(fā)明目的,本發(fā)明提供了以下技術(shù)方案:
[0007] -種用于復(fù)雜文字識別的隨機樣本產(chǎn)生方法,包括以下實現(xiàn)步驟:
[0008] (1-1)選取一定數(shù)量的待處理樣本(比如說500個)。將目標樣本圖片中所包含 的字符切分出來,將待處理圖片中的字符串切分成僅包含單個字符的待處理子圖片。其中 所述待處理樣本圖片從待識別圖片集中選取,包含待識別圖片的一般噪聲特征和、或扭曲 特征。本發(fā)明隨機樣本生成方法的目的是用于復(fù)雜文字識別;因此在進行樣本分析時,選取 的待處理圖片也應(yīng)該是具有待識別圖片的一般特征,比如說待識別圖片中包含點狀背景噪 聲和線條噪聲,那么選取的待處理圖片中也應(yīng)該包含這些特征,以便于在接下來步驟中來 構(gòu)建相應(yīng)的模型。
[0009] (1-2)對上述待處理子圖片進行分析,選取與目標圖片字符最相似的字體庫(字 體庫的選擇可以依經(jīng)驗進行人工選擇,也可以通過機器自動對比,通過機器自動對比時:通 過分析各個字體庫與目標圖片中對應(yīng)字符的特征,計算字體的相似度,選擇相似度最高的 字體);分析目標圖片字符的字符集(比如說待處理圖片中僅僅包含數(shù)字,那么只需要對 應(yīng)研宄數(shù)字集"〇、1、2、3、4、5、6、7、8、9"而不需要研宄漢字集;當(dāng)待識別圖片中既包括字 母又包括數(shù)字還包括漢字,比如說常見的車牌號識別,就需要對漢字、字母以及數(shù)字都進行 研宄;而且本發(fā)明所說的字符集是指待識別圖片集中所包含的所有字符構(gòu)成的集合,比如 說待識別圖片集中包含1000個漢字,那么只需要選擇這1000個漢字作為進行處理的字符 集)。
[0010] (1-3)分析待處理子圖片的噪聲情況和扭曲特征,在已選擇字體庫的標準字符的 基礎(chǔ)上構(gòu)建相應(yīng)的噪聲模型和,或扭曲模型。所謂構(gòu)建噪聲模型是指將待處理子圖片中所 包含的各類噪聲進行相應(yīng)的歸類,在歸類的基礎(chǔ)上對每類噪聲分布情況和復(fù)雜程度進統(tǒng)計 和計算,將噪聲參數(shù)模型化;復(fù)雜文字識別可能遇到的噪聲種類很多,比如說背景噪聲、線 條噪聲和,或污染物噪聲等;所述構(gòu)建扭曲模型是指將待處理子圖片中所包含的扭曲特性 進行相應(yīng)的歸類,在分類的基礎(chǔ)上對扭曲的程度和扭曲范圍進行統(tǒng)計和計算,將扭曲參數(shù) 模型化;待處理目標圖片的扭曲特征包括由仿射變換產(chǎn)生的平移、壓縮、拉伸、旋轉(zhuǎn)和,或扭 曲。
[0011] (1-4)根據(jù)噪聲模型和扭曲的復(fù)雜程度,選擇一定的變化步長在已選擇字體庫標 準字符的基礎(chǔ)上生成大量的隨機樣本。
[0012] 比如說步驟(3)中已分析出的噪聲模型包括背景中的點狀噪聲、線條噪聲;扭 曲特征為旋轉(zhuǎn),其中點狀噪聲的灰度值分布在10-90之間,線條噪聲的長度和寬度分布在 0-100和1-3(這里指像素點的個數(shù))之間,旋轉(zhuǎn)度在-30°到30°之間,這樣根據(jù)這些噪聲 模型和扭曲特征的復(fù)雜度可以在已選擇字體庫中的標準字的基礎(chǔ)上,生成包括背景噪聲像 素灰度值為1〇、11、12.........90 ;線條噪聲長度為0、1、2、3............1〇〇,寬度為1、 2、3 ;旋轉(zhuǎn)度在-30°、-29°、-28° ......0° ......28°、29°、30°等特征組合的隨機樣 本;假定產(chǎn)生隨機樣本的尺寸為50*50像素大小,那么針對單個字符可產(chǎn)生的隨機樣本個 數(shù)為805W5°*100*3*60數(shù)量巨大(事實上旋轉(zhuǎn)度用浮點數(shù)表示,可以選擇步長值可以為浮點 數(shù),這樣所可以產(chǎn)生的樣本個數(shù)非常巨大,可滿足各種復(fù)雜神經(jīng)網(wǎng)絡(luò)的訓(xùn)練需要)。
[0013] 作為一種優(yōu)選,實際工作中為了避免因構(gòu)造點狀背景噪聲產(chǎn)生數(shù)量過大的隨機樣 本;點狀背景噪聲產(chǎn)生方式為:通過計算待處理圖片中點狀噪聲的平均灰度以及方差值, 在構(gòu)造點狀噪聲時,通過使用高斯采樣的方式隨機設(shè)置噪聲的灰度值。
[0014] 進一步的,待識別圖片的表面具有污染物的時候,比如車牌上的泥漿點,泥漿點的 表現(xiàn)為字體的表面具有類似橢圓狀或者放射狀的斑點,可以選擇橢圓或者放射狀形狀的像 素塊,通過設(shè)置這些像素塊的灰度值從而實現(xiàn)表面污染物噪聲的構(gòu)建。
[0015] 進一步的,圖片的扭曲特征如:平移、壓縮、拉伸、旋轉(zhuǎn)和扭曲都可以根據(jù)仿射變 換來構(gòu)建,仿射變換一般可用下列公式來進行表示:
為為原像素 點的位置向量,X為橫坐標,y為縱坐標,
為系數(shù)矩陣,T為仿射變換后 的對應(yīng)像素點的位置向量;
為常數(shù)向量;上述公式還可以寫成:T=M? [X, y,l]T,M仿射變化系數(shù)矩陣,,具體的,平移變化的情況:在系數(shù)矩
陣為單位矩陣的情況下,加上常數(shù)向量就可實現(xiàn);縮放變化的系數(shù)矩陣為對角矩陣分別 調(diào)整x和y坐標的縮放倍數(shù);而旋轉(zhuǎn)變換的系數(shù)矩陣.
和常數(shù)向量
1其中c是旋轉(zhuǎn)的中心點(c.x為中心的橫坐標值,c.y為中心的 縱坐標值),0是旋轉(zhuǎn)的角度;而且通過步驟(1-3)中對待處理圖片中扭曲程度和模式統(tǒng)計 分析,也可以計算出對應(yīng)系數(shù)矩陣的取值范圍,這樣在進行扭曲樣本構(gòu)建時,通過在所述取 值范圍內(nèi),隨機選取相關(guān)參數(shù)來設(shè)置系數(shù)矩陣,將該系數(shù)矩陣乘以標準字符的位置向量,就 可以得到不同扭曲程度的隨機樣本。
[0016] 進一步的,可以根據(jù)待處理樣本的特點,僅僅選取字符的某一部分進行仿射變換, 這樣所產(chǎn)生的對應(yīng)隨機樣本僅僅在字符中的對應(yīng)區(qū)域具有扭曲特征。
[0017] 進一步的,生成隨機樣本時,諸如背景噪聲、線條噪聲、污染物噪聲等為可加噪聲, 即可以通過將字符與噪聲進行疊加形成完整的樣本圖片。扭曲特征可對具有噪聲的字