基于端到端的圖片文字序列連續(xù)識別方法

文檔序號：9888730閱讀：561來源：國知局

基于端到端的圖片文字序列連續(xù)識別方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及圖像文字識別領(lǐng)域，特別涉及基于端到端的圖片文字序列連續(xù)識別方法。
【背景技術(shù)】
[0002] 隨著社會的發(fā)展，產(chǎn)生了大量對古籍、文檔、票據(jù)、名片等紙質(zhì)媒體數(shù)字化的需求，這里的數(shù)字化不僅僅限于使用掃描儀或者相機進行"照片化"，更重要的是將這些紙質(zhì)文件轉(zhuǎn)化成以可讀、可編輯的文檔來進行存儲，實現(xiàn)這一過程需要對掃描出的圖片進行圖像文字識別，而傳統(tǒng)的圖像文字識別為光學(xué)文字識別(0CR)，光學(xué)文字識別在將待識別紙質(zhì)文件掃描成電子圖像的基礎(chǔ)上進行識別。但是考慮到掃描效果的好壞、紙質(zhì)文件本身的品質(zhì)(別如印刷質(zhì)量、字體清晰度，字體規(guī)范度等）、內(nèi)容布局（文字的排列情況，比普通文本與表格文本和票據(jù)）的差異，OCR的實際效果不總是讓人滿意。而針對不同的紙質(zhì)文檔的識別準確率的要求有差異，比如票據(jù)的識別，對準確率的要求是非常高的，因為如果一個數(shù)字識別錯誤就可能導(dǎo)致致命的后果，傳統(tǒng)的OCR識別不能滿足這樣高精度的識別要求。
[0003] 常規(guī)的OCR方法包括了圖片的切分，特征提取，單字符識別等處理過程，其中圖片的切分包含了大量的圖像預(yù)處理過程，比如傾斜矯正，背景去噪，單字符的提取;這些處理過程不僅繁瑣耗時，而且可能使得圖片損失很多可用信息；而且當待識別圖片中包含多個文字的字符串時，傳統(tǒng)的OCR方法需要將原字符串切分成若干包含單個文字的小圖片進行分別識別，該方法主要問題在于：一單字符圖片的切分困難，特別是混合了左右偏旁的漢子、字母、數(shù)字、符號，或者背景噪音、字符扭曲、粘合等情況下，切分更加困難。而一旦切分出現(xiàn)了問題，就很難得到準確的識別結(jié)果。面對巨大的識別需要急需能夠快速高效的圖像文字識別方法。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明的目的在于克服現(xiàn)有技術(shù)中所存在的上述不足，提供基于端到端的圖片文字序列連續(xù)識別方法。本發(fā)明應(yīng)用了卷積神經(jīng)網(wǎng)絡(luò)(CNN)和遞歸神經(jīng)網(wǎng)絡(luò)(RNN)的技術(shù)，通過CNN對包含多個字符的整個圖片進行特征提取，然后將同樣的特征送入RNN進行遞歸重復(fù) 使用，以實現(xiàn)連續(xù)預(yù)測多個字符的目的。本發(fā)明方法實現(xiàn)的光學(xué)文字序列識別，系統(tǒng)的克服了 OCR識別前先要進行圖片切分的弊端，極大的提高了圖像文字的識別效率。
[0005] 為了實現(xiàn)上述發(fā)明目的，本發(fā)明提供了以下技術(shù)方案：
[0006] 基于端到端的圖片文字序列連續(xù)識別方法，包含以下實現(xiàn)步驟：
[0007] (1)構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)模型，其中所述遞歸神經(jīng)網(wǎng)絡(luò)各個時刻輸入信號包括:所述卷積神經(jīng)網(wǎng)絡(luò)提取的樣本特征數(shù)據(jù)，上一時刻遞歸神經(jīng)網(wǎng)絡(luò)的輸出數(shù)據(jù) 以及上一時刻遞歸神經(jīng)網(wǎng)絡(luò)識別出的字詞轉(zhuǎn)化成的向量數(shù)據(jù)；
[0008] (2)使用訓(xùn)練樣本集來訓(xùn)練所述卷積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)模型；
[0009] (3)將待識別圖像文字序列輸入訓(xùn)練好的所述卷積神經(jīng)網(wǎng)絡(luò)及遞歸神經(jīng)網(wǎng)絡(luò)中，由所述卷積神經(jīng)網(wǎng)絡(luò)提取待識別圖片的特征數(shù)據(jù)，輸入到所述遞歸神經(jīng)網(wǎng)絡(luò)中，經(jīng)過所述遞歸神經(jīng)網(wǎng)絡(luò)的依次迭代，輸出待識別圖像文字序列的完整識別結(jié)果。
[0010] 具體的，本發(fā)明方法中所使用的遞歸神經(jīng)網(wǎng)絡(luò)向前算法的計算公式如下：
[0011]
[0012]
[0013]
[0014]
[0015] 其中I是輸入向量的維度，Η是隱層的神經(jīng)元個數(shù)，K是輸出層的神經(jīng)元個數(shù)，X為卷積神經(jīng)網(wǎng)絡(luò)提取出來的特征數(shù)據(jù)，為當前時刻遞歸神經(jīng)網(wǎng)絡(luò)中隱含層神經(jīng)元的輸入，€ 為當前時刻遞歸神經(jīng)網(wǎng)絡(luò)隱含層神經(jīng)元的輸出;Wihdt/h，為/<4對應(yīng)的權(quán)重參數(shù)。為當前時刻遞歸神經(jīng)網(wǎng)絡(luò)輸出層神經(jīng)元的輸入;whk為輸出層各神經(jīng)元對應(yīng)的權(quán)重；為當前時刻遞歸神經(jīng)網(wǎng)絡(luò)輸出層神經(jīng)元的輸出，為一個概率值，表示當前時刻對應(yīng)神經(jīng)元輸出值相對于輸出層所有神經(jīng)元輸出值的加和的比例。
[0016] 進一步的，本發(fā)明方法中，信號正向傳遞時用到的參數(shù)《&^^都是跨時序共享的，這樣避免了模型復(fù)雜度的線性增長，導(dǎo)致可能的過擬合。
[0017] 進一步的，本發(fā)明采用上述向前算法在卷積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)中來逐級傳輸運算數(shù)據(jù)，在輸出層獲取到識別(預(yù)測)數(shù)據(jù)，當預(yù)測結(jié)果與訓(xùn)練樣本的標注結(jié)果具有偏差時，通過神經(jīng)網(wǎng)絡(luò)中經(jīng)典的誤差反向傳播算法來調(diào)整神經(jīng)網(wǎng)絡(luò)中的各個權(quán)重。
[0018] 進一步的，在神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中，通過開發(fā)集來檢驗神經(jīng)網(wǎng)絡(luò)的訓(xùn)練結(jié)果，及時調(diào)整神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方向，防止過擬合情況的發(fā)生，在模型訓(xùn)練過程中，僅僅保留在開發(fā) 集上識別準確率最高的訓(xùn)練模型。
[0019] 進一步的，本基于端到端的圖片文字序列連續(xù)識別方法的神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程包含以下實現(xiàn)步驟：
[0020] (2-1)將人工標注的訓(xùn)練樣本輸入到卷積神經(jīng)網(wǎng)絡(luò)中；
[0021] (2-2)通過所述卷積網(wǎng)絡(luò)對輸入訓(xùn)練樣本進行特征提取；
[0022] (2-3)將所述卷積神經(jīng)網(wǎng)絡(luò)提取出來的特征數(shù)據(jù)作為第一數(shù)據(jù)輸入第一時刻遞歸神經(jīng)網(wǎng)絡(luò)中；
[0023] (2-4)經(jīng)過第一時刻遞歸神經(jīng)網(wǎng)絡(luò)的計算輸出第一預(yù)測數(shù)據(jù);根據(jù)第一預(yù)測數(shù)據(jù) 得到該時刻遞歸神經(jīng)網(wǎng)絡(luò)的字詞識別結(jié)果，將該結(jié)果定義為:第一識別結(jié)果；
[0024] (2-5)并將第一識別結(jié)果轉(zhuǎn)化成對應(yīng)的向量數(shù)據(jù)；
[0025] (2-6)將第一數(shù)據(jù)，第一預(yù)測數(shù)據(jù)以及向量化的第一識別結(jié)果作為第二時刻遞歸神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù)，經(jīng)過遞歸神經(jīng)網(wǎng)絡(luò)的計算輸出第二預(yù)測數(shù)據(jù)，并得到由第二預(yù)測數(shù) 據(jù)對應(yīng)的第二識別結(jié)果；
[0026] (27)將第一數(shù)據(jù)以及第二預(yù)測數(shù)據(jù)作為第三時刻遞歸神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù)；
[0027] 依次遞歸，直到達到設(shè)定的遞歸次數(shù)，終止識別;將每個時刻RNN預(yù)測出得字(或者詞)依次記錄下來就最終獲得完整的字符串內(nèi)容。
[0028]進一步的，在進行模型訓(xùn)練時，包含將訓(xùn)練樣本圖標進行歸一化處理和人工標注過程，其中歸一化處理過程包括:設(shè)定圖片句子可能的最長字(或者詞)數(shù)，比如設(shè)定句子的長度為25。
[0029]進一步的，在進行歸一化處理過程中，為了避免數(shù)據(jù)變形，尺寸的放大縮小使用等比例的方式，與目標尺寸缺失的區(qū)域用背景色補齊。
[0030] 進一步的，將歸一化的圖片進行人工標注，可以先對自然語言進行分詞處理，比如將"這個東西真好"變成"這個東西真好"；如果標注的句子字數(shù)不足25,使用一個特殊的詞語:<E0S>進行補齊(至25的長度），然后隨機選取75%的數(shù)據(jù)作為訓(xùn)練集，25%的數(shù)據(jù)作為開發(fā)集。
[0031] 與現(xiàn)有技術(shù)相比，本發(fā)明的有益效果:本發(fā)明提供基于端到端的圖片文字序列連續(xù)識別方法，本發(fā)明采用卷積神經(jīng)網(wǎng)絡(luò)對待識別文字序列圖片進行整體征提取，并將提取到的特征數(shù)據(jù)作為第一數(shù)據(jù)輸入到各個時刻的遞歸神經(jīng)網(wǎng)絡(luò)中，本發(fā)明方法實現(xiàn)的圖像文字序列識別，通過卷積神經(jīng)網(wǎng)絡(luò)提取圖片整體特征，在不需要進行單個字符切分和噪聲過濾的基礎(chǔ)上實現(xiàn)了整個文字序列的識別，相對于傳統(tǒng)的OCR方法，本發(fā)明避免了文字切分不準確可能導(dǎo)致的不可逆轉(zhuǎn)的識別錯誤，極大的簡化了圖像文字識別的前期處理過程，顯著提尚了文字識別的效率。
[0032] 此外本發(fā)明方法通過遞歸神經(jīng)網(wǎng)絡(luò)來實現(xiàn)文字序列中字符的連續(xù)識別，在使用遞歸神經(jīng)網(wǎng)絡(luò)來識別字符時，每個時刻遞歸神經(jīng)網(wǎng)絡(luò)的輸入信號還包含上一時刻遞歸神經(jīng)網(wǎng) 絡(luò)的輸出數(shù)據(jù)，每個時刻遞歸神經(jīng)網(wǎng)絡(luò)在進行對應(yīng)的文字識別時，即依賴了卷積神經(jīng)網(wǎng)絡(luò) 所提取的圖片整體特征，也依賴了上一時刻遞歸神經(jīng)網(wǎng)絡(luò)的輸出數(shù)據(jù)，相比于OCR方法，識別準確率更高，且簡化了識別文字的后期處理過程，識別效率更高，識別結(jié)果更加準確可與巨〇
[0033]總之，本發(fā)明方法簡化了圖像文字序列識別的處理過程，顯著提高了識別效率和準確率，使開發(fā)者可以更加關(guān)注于模型的調(diào)優(yōu)和數(shù)據(jù)的儲備，提升了開發(fā)效率，本發(fā)明方法在圖像文字識別領(lǐng)域具有極高的應(yīng)用價值和廣泛的應(yīng)用前景。
【附圖說明】：
[0034]圖1為本發(fā)明方法的實現(xiàn)過程示意圖。
[0035]圖2為卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖。
[0036]圖3為本發(fā)明方法文字序列識別過程信號流向示意圖。
【具體實施方式】
[0037] 下面結(jié)合試驗例及【具體實施方式】對本發(fā)明作進一步的詳細描述。但不應(yīng)將此理解為本發(fā)明上述主題的范圍僅限于以下的實施例，凡基于本
【發(fā)明內(nèi)容】
所實現(xiàn)的技術(shù)均屬于本發(fā)明的范圍。
[0038] 本發(fā)明提供基于端到端的圖片文字序列連續(xù)識別方法。本發(fā)明應(yīng)用了卷積神經(jīng)網(wǎng) 絡(luò)(CNN)和遞歸神經(jīng)網(wǎng)絡(luò)(RNN)的技術(shù)，通過CNN對包含多個字符的整個圖片進行特征提取，然后將同樣的特征送入RNN進行遞歸重復(fù)使用，以實現(xiàn)連續(xù)預(yù)測多個字符的目的。本發(fā)明方法實現(xiàn)的光學(xué)文字序列識別，系統(tǒng)的克服了 OCR識別前先要進行圖片切分的弊端，極大的提高了圖像文字的識別效率，使得開發(fā)者更加關(guān)注于模型的調(diào)優(yōu)和數(shù)據(jù)的儲備，提升了開發(fā) 效率，又由于在模型訓(xùn)練和應(yīng)用的過程中RNN遞歸使用了上一輪的輸出數(shù)據(jù)，識別的準確較尚。
[0039] 為了實現(xiàn)上述發(fā)明目的本發(fā)明提供了以下技術(shù)方案:基于端到端的圖片文字序列連續(xù)識別方法，包含如圖1所示的以下實現(xiàn)步驟：
[0040] (1)構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)模型，其中所述遞歸神經(jīng)網(wǎng)絡(luò)各個時刻輸入信號包括:所述卷積神經(jīng)網(wǎng)絡(luò)提取的樣本特征數(shù)據(jù)，上一時刻遞歸神經(jīng)網(wǎng)絡(luò)的輸出數(shù)據(jù) 以及上一時刻遞歸神經(jīng)網(wǎng)絡(luò)識別出的字詞轉(zhuǎn)化成的向量數(shù)據(jù);如圖2所示:所述卷積神經(jīng)網(wǎng) 絡(luò)主要是用于圖片特征的自動學(xué)習(xí)。其中，每一個特征圖（feature map，圖中的豎排長方形所示）的產(chǎn)生都是通過自有的一個卷積核（即如圖2中的小矩形框，在指定的特征圖里是共享的）進行初步的特征抽取，二次采樣層對卷積層所提取的特征進行采樣主要解決卷積層所抽取特征的

完整全部詳細技術(shù)資料下載

當前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉世林;何宏靖;陳炳章;吳雨濃;姚佳;
技術(shù)所有人：成都數(shù)聯(lián)銘品科技有限公司;
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于端到端的圖片文字序列連續(xù)識別方法