基于端到端的圖片文字序列連續(xù)識別方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及圖像文字識別領(lǐng)域,特別涉及基于端到端的圖片文字序列連續(xù)識別方 法。
【背景技術(shù)】
[0002] 隨著社會的發(fā)展,產(chǎn)生了大量對古籍、文檔、票據(jù)、名片等紙質(zhì)媒體數(shù)字化的需求, 這里的數(shù)字化不僅僅限于使用掃描儀或者相機進行"照片化",更重要的是將這些紙質(zhì)文件 轉(zhuǎn)化成以可讀、可編輯的文檔來進行存儲,實現(xiàn)這一過程需要對掃描出的圖片進行圖像文 字識別,而傳統(tǒng)的圖像文字識別為光學(xué)文字識別(0CR),光學(xué)文字識別在將待識別紙質(zhì)文件 掃描成電子圖像的基礎(chǔ)上進行識別。但是考慮到掃描效果的好壞、紙質(zhì)文件本身的品質(zhì)(別 如印刷質(zhì)量、字體清晰度,字體規(guī)范度等)、內(nèi)容布局(文字的排列情況,比普通文本與表格 文本和票據(jù))的差異,OCR的實際效果不總是讓人滿意。而針對不同的紙質(zhì)文檔的識別準確 率的要求有差異,比如票據(jù)的識別,對準確率的要求是非常高的,因為如果一個數(shù)字識別錯 誤就可能導(dǎo)致致命的后果,傳統(tǒng)的OCR識別不能滿足這樣高精度的識別要求。
[0003] 常規(guī)的OCR方法包括了圖片的切分,特征提取,單字符識別等處理過程,其中圖片 的切分包含了大量的圖像預(yù)處理過程,比如傾斜矯正,背景去噪,單字符的提取;這些處理 過程不僅繁瑣耗時,而且可能使得圖片損失很多可用信息;而且當待識別圖片中包含多個 文字的字符串時,傳統(tǒng)的OCR方法需要將原字符串切分成若干包含單個文字的小圖片進行 分別識別,該方法主要問題在于:一單字符圖片的切分困難,特別是混合了左右偏旁的漢 子、字母、數(shù)字、符號,或者背景噪音、字符扭曲、粘合等情況下,切分更加困難。而一旦切分 出現(xiàn)了問題,就很難得到準確的識別結(jié)果。面對巨大的識別需要急需能夠快速高效的圖像 文字識別方法。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的目的在于克服現(xiàn)有技術(shù)中所存在的上述不足,提供基于端到端的圖片文 字序列連續(xù)識別方法。本發(fā)明應(yīng)用了卷積神經(jīng)網(wǎng)絡(luò)(CNN)和遞歸神經(jīng)網(wǎng)絡(luò)(RNN)的技術(shù),通 過CNN對包含多個字符的整個圖片進行特征提取,然后將同樣的特征送入RNN進行遞歸重復(fù) 使用,以實現(xiàn)連續(xù)預(yù)測多個字符的目的。本發(fā)明方法實現(xiàn)的光學(xué)文字序列識別,系統(tǒng)的克服 了 OCR識別前先要進行圖片切分的弊端,極大的提高了圖像文字的識別效率。
[0005] 為了實現(xiàn)上述發(fā)明目的,本發(fā)明提供了以下技術(shù)方案:
[0006] 基于端到端的圖片文字序列連續(xù)識別方法,包含以下實現(xiàn)步驟:
[0007] (1)構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)模型,其中所述遞歸神經(jīng)網(wǎng)絡(luò)各個時刻輸 入信號包括:所述卷積神經(jīng)網(wǎng)絡(luò)提取的樣本特征數(shù)據(jù),上一時刻遞歸神經(jīng)網(wǎng)絡(luò)的輸出數(shù)據(jù) 以及上一時刻遞歸神經(jīng)網(wǎng)絡(luò)識別出的字詞轉(zhuǎn)化成的向量數(shù)據(jù);
[0008] (2)使用訓(xùn)練樣本集來訓(xùn)練所述卷積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)模型;
[0009] (3)將待識別圖像文字序列輸入訓(xùn)練好的所述卷積神經(jīng)網(wǎng)絡(luò)及遞歸神經(jīng)網(wǎng)絡(luò)中, 由所述卷積神經(jīng)網(wǎng)絡(luò)提取待識別圖片的特征數(shù)據(jù),輸入到所述遞歸神經(jīng)網(wǎng)絡(luò)中,經(jīng)過所述 遞歸神經(jīng)網(wǎng)絡(luò)的依次迭代,輸出待識別圖像文字序列的完整識別結(jié)果。
[0010] 具體的,本發(fā)明方法中所使用的遞歸神經(jīng)網(wǎng)絡(luò)向前算法的計算公式如下:
[0011]
[0012]
[0013]
[0014]
[0015] 其中I是輸入向量的維度,Η是隱層的神經(jīng)元個數(shù),K是輸出層的神經(jīng)元個數(shù),X為卷 積神經(jīng)網(wǎng)絡(luò)提取出來的特征數(shù)據(jù),為當前時刻遞歸神經(jīng)網(wǎng)絡(luò)中隱含層神經(jīng)元的輸入,€ 為當前時刻遞歸神經(jīng)網(wǎng)絡(luò)隱含層神經(jīng)元的輸出;Wihdt/h,為/<4對應(yīng)的權(quán)重參數(shù)。 為當前時刻遞歸神經(jīng)網(wǎng)絡(luò)輸出層神經(jīng)元的輸入;whk為輸出層各神經(jīng)元對應(yīng)的權(quán)重;為 當前時刻遞歸神經(jīng)網(wǎng)絡(luò)輸出層神經(jīng)元的輸出,為一個概率值,表示當前時刻對應(yīng)神經(jīng)元 輸出值相對于輸出層所有神經(jīng)元輸出值的加和的比例。
[0016] 進一步的,本發(fā)明方法中,信號正向傳遞時用到的參數(shù)《&^^都是跨時序共享的, 這樣避免了模型復(fù)雜度的線性增長,導(dǎo)致可能的過擬合。
[0017] 進一步的,本發(fā)明采用上述向前算法在卷積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)中來逐級傳 輸運算數(shù)據(jù),在輸出層獲取到識別(預(yù)測)數(shù)據(jù),當預(yù)測結(jié)果與訓(xùn)練樣本的標注結(jié)果具有偏 差時,通過神經(jīng)網(wǎng)絡(luò)中經(jīng)典的誤差反向傳播算法來調(diào)整神經(jīng)網(wǎng)絡(luò)中的各個權(quán)重。
[0018] 進一步的,在神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中,通過開發(fā)集來檢驗神經(jīng)網(wǎng)絡(luò)的訓(xùn)練結(jié)果,及 時調(diào)整神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方向,防止過擬合情況的發(fā)生,在模型訓(xùn)練過程中,僅僅保留在開發(fā) 集上識別準確率最高的訓(xùn)練模型。
[0019] 進一步的,本基于端到端的圖片文字序列連續(xù)識別方法的神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程包含 以下實現(xiàn)步驟:
[0020] (2-1)將人工標注的訓(xùn)練樣本輸入到卷積神經(jīng)網(wǎng)絡(luò)中;
[0021] (2-2)通過所述卷積網(wǎng)絡(luò)對輸入訓(xùn)練樣本進行特征提取;
[0022] (2-3)將所述卷積神經(jīng)網(wǎng)絡(luò)提取出來的特征數(shù)據(jù)作為第一數(shù)據(jù)輸入第一時刻遞歸 神經(jīng)網(wǎng)絡(luò)中;
[0023] (2-4)經(jīng)過第一時刻遞歸神經(jīng)網(wǎng)絡(luò)的計算輸出第一預(yù)測數(shù)據(jù);根據(jù)第一預(yù)測數(shù)據(jù) 得到該時刻遞歸神經(jīng)網(wǎng)絡(luò)的字詞識別結(jié)果,將該結(jié)果定義為:第一識別結(jié)果;
[0024] (2-5)并將第一識別結(jié)果轉(zhuǎn)化成對應(yīng)的向量數(shù)據(jù);
[0025] (2-6)將第一數(shù)據(jù),第一預(yù)測數(shù)據(jù)以及向量化的第一識別結(jié)果作為第二時刻遞歸 神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù),經(jīng)過遞歸神經(jīng)網(wǎng)絡(luò)的計算輸出第二預(yù)測數(shù)據(jù),并得到由第二預(yù)測數(shù) 據(jù)對應(yīng)的第二識別結(jié)果;
[0026] (27)將第一數(shù)據(jù)以及第二預(yù)測數(shù)據(jù)作為第三時刻遞歸神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù);
[0027] 依次遞歸,直到達到設(shè)定的遞歸次數(shù),終止識別;將每個時刻RNN預(yù)測出得字(或者 詞)依次記錄下來就最終獲得完整的字符串內(nèi)容。
[0028]進一步的,在進行模型訓(xùn)練時,包含將訓(xùn)練樣本圖標進行歸一化處理和人工標注 過程,其中歸一化處理過程包括:設(shè)定圖片句子可能的最長字(或者詞)數(shù),比如設(shè)定句子的 長度為25。
[0029]進一步的,在進行歸一化處理過程中,為了避免數(shù)據(jù)變形,尺寸的放大縮小使用等 比例的方式,與目標尺寸缺失的區(qū)域用背景色補齊。
[0030] 進一步的,將歸一化的圖片進行人工標注,可以先對自然語言進行分詞處理,比如 將"這個東西真好"變成"這個東西真好";如果標注的句子字數(shù)不足25,使用一個特殊的詞 語:<E0S>進行補齊(至25的長度),然后隨機選取75%的數(shù)據(jù)作為訓(xùn)練集,25%的數(shù)據(jù)作為 開發(fā)集。
[0031] 與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果:本發(fā)明提供基于端到端的圖片文字序列連 續(xù)識別方法,本發(fā)明采用卷積神經(jīng)網(wǎng)絡(luò)對待識別文字序列圖片進行整體征提取,并將提取 到的特征數(shù)據(jù)作為第一數(shù)據(jù)輸入到各個時刻的遞歸神經(jīng)網(wǎng)絡(luò)中,本發(fā)明方法實現(xiàn)的圖像文 字序列識別,通過卷積神經(jīng)網(wǎng)絡(luò)提取圖片整體特征,在不需要進行單個字符切分和噪聲過 濾的基礎(chǔ)上實現(xiàn)了整個文字序列的識別,相對于傳統(tǒng)的OCR方法,本發(fā)明避免了文字切分不 準確可能導(dǎo)致的不可逆轉(zhuǎn)的識別錯誤,極大的簡化了圖像文字識別的前期處理過程,顯著 提尚了文字識別的效率。
[0032] 此外本發(fā)明方法通過遞歸神經(jīng)網(wǎng)絡(luò)來實現(xiàn)文字序列中字符的連續(xù)識別,在使用遞 歸神經(jīng)網(wǎng)絡(luò)來識別字符時,每個時刻遞歸神經(jīng)網(wǎng)絡(luò)的輸入信號還包含上一時刻遞歸神經(jīng)網(wǎng) 絡(luò)的輸出數(shù)據(jù),每個時刻遞歸神經(jīng)網(wǎng)絡(luò)在進行對應(yīng)的文字識別時,即依賴了卷積神經(jīng)網(wǎng)絡(luò) 所提取的圖片整體特征,也依賴了上一時刻遞歸神經(jīng)網(wǎng)絡(luò)的輸出數(shù)據(jù),相比于OCR方法,識 別準確率更高,且簡化了識別文字的后期處理過程,識別效率更高,識別結(jié)果更加準確可 與巨〇
[0033]總之,本發(fā)明方法簡化了圖像文字序列識別的處理過程,顯著提高了識別效率和 準確率,使開發(fā)者可以更加關(guān)注于模型的調(diào)優(yōu)和數(shù)據(jù)的儲備,提升了開發(fā)效率,本發(fā)明方 法在圖像文字識別領(lǐng)域具有極高的應(yīng)用價值和廣泛的應(yīng)用前景。
【附圖說明】:
[0034]圖1為本發(fā)明方法的實現(xiàn)過程示意圖。
[0035]圖2為卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖。
[0036]圖3為本發(fā)明方法文字序列識別過程信號流向示意圖。
【具體實施方式】
[0037] 下面結(jié)合試驗例及【具體實施方式】對本發(fā)明作進一步的詳細描述。但不應(yīng)將此理解 為本發(fā)明上述主題的范圍僅限于以下的實施例,凡基于本
【發(fā)明內(nèi)容】
所實現(xiàn)的技術(shù)均屬于本 發(fā)明的范圍。
[0038] 本發(fā)明提供基于端到端的圖片文字序列連續(xù)識別方法。本發(fā)明應(yīng)用了卷積神經(jīng)網(wǎng) 絡(luò)(CNN)和遞歸神經(jīng)網(wǎng)絡(luò)(RNN)的技術(shù),通過CNN對包含多個字符的整個圖片進行特征提取, 然后將同樣的特征送入RNN進行遞歸重復(fù)使用,以實現(xiàn)連續(xù)預(yù)測多個字符的目的。本發(fā)明方 法實現(xiàn)的光學(xué)文字序列識別,系統(tǒng)的克服了 OCR識別前先要進行圖片切分的弊端,極大的提 高了圖像文字的識別效率,使得開發(fā)者更加關(guān)注于模型的調(diào)優(yōu)和數(shù)據(jù)的儲備,提升了開發(fā) 效率,又由于在模型訓(xùn)練和應(yīng)用的過程中RNN遞歸使用了上一輪的輸出數(shù)據(jù),識別的準確較 尚。
[0039] 為了實現(xiàn)上述發(fā)明目的本發(fā)明提供了以下技術(shù)方案:基于端到端的圖片文字序列 連續(xù)識別方法,包含如圖1所示的以下實現(xiàn)步驟:
[0040] (1)構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)模型,其中所述遞歸神經(jīng)網(wǎng)絡(luò)各個時刻輸 入信號包括:所述卷積神經(jīng)網(wǎng)絡(luò)提取的樣本特征數(shù)據(jù),上一時刻遞歸神經(jīng)網(wǎng)絡(luò)的輸出數(shù)據(jù) 以及上一時刻遞歸神經(jīng)網(wǎng)絡(luò)識別出的字詞轉(zhuǎn)化成的向量數(shù)據(jù);如圖2所示:所述卷積神經(jīng)網(wǎng) 絡(luò)主要是用于圖片特征的自動學(xué)習(xí)。其中,每一個特征圖(feature map,圖中的豎排長方形 所示)的產(chǎn)生都是通過自有的一個卷積核(即如圖2中的小矩形框,在指定的特征圖里是共 享的)進行初步的特征抽取,二次采樣層對卷積層所提取的特征進行采樣主要解決卷積層 所抽取特征的