[0058] (2-1)將人工標(biāo)注的訓(xùn)練樣本輸入到卷積神經(jīng)網(wǎng)絡(luò)中;
[0059] (2-2)通過所述卷積網(wǎng)絡(luò)對輸入訓(xùn)練樣本進(jìn)行特征提??;
[0060] (2-3)將所述卷積神經(jīng)網(wǎng)絡(luò)提取出來的特征數(shù)據(jù)作為第一數(shù)據(jù)輸入第一時(shí)刻遞歸 神經(jīng)網(wǎng)絡(luò)中;
[0061] (2-4)經(jīng)過第一時(shí)刻遞歸神經(jīng)網(wǎng)絡(luò)的計(jì)算輸出第一預(yù)測數(shù)據(jù);根據(jù)第一預(yù)測數(shù)據(jù) 得到該時(shí)刻遞歸神經(jīng)網(wǎng)絡(luò)的字詞識(shí)別結(jié)果,將該結(jié)果定義為:第一識(shí)別結(jié)果;
[0062] (2-5)并將第一識(shí)別結(jié)果轉(zhuǎn)化成對應(yīng)的向量數(shù)據(jù);
[0063] (2-6)將第一數(shù)據(jù),第一預(yù)測數(shù)據(jù)以及向量化的第一識(shí)別結(jié)果作為第二時(shí)刻遞歸 神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù),經(jīng)過遞歸神經(jīng)網(wǎng)絡(luò)的計(jì)算輸出第二預(yù)測數(shù)據(jù),并得到由第二預(yù)測數(shù) 據(jù)對應(yīng)的第二識(shí)別結(jié)果;
[0064] (2-7)并將第二識(shí)別結(jié)果轉(zhuǎn)化為對應(yīng)的向量數(shù)據(jù);
[0065] (2-8)將第一數(shù)據(jù),第二預(yù)測數(shù)據(jù)以及向量化的第二識(shí)別結(jié)果作為第三時(shí)刻遞歸 神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù);
[0066]依次遞歸,將CNN提取的特征數(shù)據(jù)(第一數(shù)據(jù))、上一時(shí)刻RNN的輸出數(shù)據(jù)(預(yù)測數(shù) 據(jù))以及上一時(shí)刻RNN識(shí)別出的字詞(識(shí)別結(jié)果)對應(yīng)的向量,作為當(dāng)前時(shí)刻RNN的輸入數(shù)據(jù), 經(jīng)過RNN的預(yù)測輸出一個(gè)字(或詞);直到達(dá)到設(shè)定的遞歸次數(shù)時(shí),終止識(shí)別;將每個(gè)時(shí)刻RNN 預(yù)測出得字(或者詞)依次記錄下來就最終獲得完整的字符串內(nèi)容。
[0067]具體的,所述步驟(2-5)和(2-7)中,通過詞典映射表進(jìn)行向量化,所述詞典映射表 為一個(gè)二維矩陣,行數(shù)為詞典的大小,列數(shù)根據(jù)詞典的大小和數(shù)據(jù)的規(guī)模來設(shè)定,詞典映射 表的目的為將字(或詞)特征化,向量化,簡單說來,詞典映射表就是一個(gè)二維矩陣,其中每 一個(gè)行向量對應(yīng)一個(gè)字或者一個(gè)詞,而這種行向量與字詞的對應(yīng)關(guān)系是在構(gòu)建這個(gè)詞典映 射表時(shí)設(shè)置的。
[0068]進(jìn)一步的,在構(gòu)建詞典映射表的過程中,可以先對自然語言進(jìn)行分詞處理,比如將 "這個(gè)東西真好"變成"這個(gè)東西真好"。
[0069]進(jìn)一步的,在進(jìn)行模型訓(xùn)練時(shí),包含將訓(xùn)練樣本圖標(biāo)進(jìn)行歸一化處理和人工標(biāo)注 過程,歸一化處理樣本,使得樣本的基本參數(shù)均一,降低模型訓(xùn)練時(shí)數(shù)據(jù)無關(guān)復(fù)雜度,有利 于簡化模型訓(xùn)練過程;其中歸一化處理過程包括:設(shè)定圖片句子可能的最長字(或者詞)數(shù), 比如設(shè)定句子的長度為20,待識(shí)別文字序列的長度與遞歸神經(jīng)網(wǎng)絡(luò)的最大遞歸次數(shù)相對 應(yīng),在進(jìn)行訓(xùn)練樣本準(zhǔn)備時(shí)設(shè)置待識(shí)別文字序列的最長字符數(shù)可以對應(yīng)的預(yù)設(shè)遞歸神經(jīng)網(wǎng) 絡(luò)的最大遞歸次數(shù),增加模型的穩(wěn)定性和可預(yù)見性。
[0070] 進(jìn)一步的,在進(jìn)行歸一化處理過程中,為了避免數(shù)據(jù)變形,尺寸的放大縮小使用等 比例的方式,與目標(biāo)尺寸缺失的區(qū)域用背景色補(bǔ)齊。
[0071] 進(jìn)一步的,將歸一化的圖片進(jìn)行人工標(biāo)注,如果標(biāo)注的句子字(或者詞)數(shù)小于設(shè) 置的最大字(或者詞)數(shù)(不足20),使用一個(gè)特殊的詞語進(jìn)行補(bǔ)齊(比如使用"<SP>"將不足 20個(gè)字符(或者詞)的樣本圖片補(bǔ)齊至20個(gè)字符(或者詞)的長度)。
[0072] 進(jìn)一步的,通過上述歸一化處理和人工標(biāo)注后,隨機(jī)選取75%的數(shù)據(jù)作為訓(xùn)練樣 本集,選取25%的數(shù)據(jù)作為開發(fā)樣本集。神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中僅保存在開發(fā)集上識(shí)別準(zhǔn) 確率最1?的t旲型,開發(fā)樣本與訓(xùn)練樣本的格式統(tǒng)一,有利于提1?神經(jīng)網(wǎng)絡(luò)的訓(xùn)練效率D
【主權(quán)項(xiàng)】
1. 一種光學(xué)文字序列識(shí)別方法,其特征在于,包含W下實(shí)現(xiàn)步驟: (1) 構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)模型,其中所述遞歸神經(jīng)網(wǎng)絡(luò)每個(gè)時(shí)刻輸入信 號(hào)包括:所述卷積神經(jīng)網(wǎng)絡(luò)提取的樣本特征數(shù)據(jù),上一時(shí)刻遞歸神經(jīng)網(wǎng)絡(luò)的輸出數(shù)據(jù)W及 上一時(shí)刻遞歸神經(jīng)網(wǎng)絡(luò)識(shí)別出的字詞轉(zhuǎn)化成的向量數(shù)據(jù); (2) 使用訓(xùn)練樣本集來訓(xùn)練所述卷積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)模型; (3) 將待識(shí)別圖像文字序列輸入訓(xùn)練好的所述卷積神經(jīng)網(wǎng)絡(luò)及遞歸神經(jīng)網(wǎng)絡(luò)中,輸出 待識(shí)別圖像文字序列的完整識(shí)別結(jié)果。2. 如權(quán)利要求1所述的方法,其特征在于:本方法中所使用的遞歸神經(jīng)網(wǎng)絡(luò)模型中采用 W下向前算法公式:其中I是輸入向量的維度,V是向量化的字或者詞的維度,H是隱層的神經(jīng)元個(gè)數(shù),K是輸 出層的神經(jīng)元個(gè)數(shù),X為卷積神經(jīng)網(wǎng)絡(luò)提取出來的特征數(shù)據(jù),V為遞歸神經(jīng)網(wǎng)絡(luò)識(shí)別出的字 或者詞轉(zhuǎn)化成的向量數(shù)據(jù),4為當(dāng)前時(shí)刻遞歸神經(jīng)網(wǎng)絡(luò)中隱含層神經(jīng)元的輸入,K為當(dāng)前 時(shí)刻遞歸神經(jīng)網(wǎng)絡(luò)隱含層神經(jīng)元的輸出;式。為當(dāng)前時(shí)刻遞歸神經(jīng)網(wǎng)絡(luò)輸出層神經(jīng)元的輸 入;乂為當(dāng)前時(shí)刻遞歸神經(jīng)網(wǎng)絡(luò)輸出層神經(jīng)元的輸出,為一個(gè)概率值,表示當(dāng)前時(shí)刻對 應(yīng)神經(jīng)元輸出值相對于輸出層所有神經(jīng)元輸出值的加和的比例。3. 如權(quán)利要求2所述的方法,其特征在于:在一次信號(hào)向前傳遞過程中各個(gè)時(shí)刻所使用 的 Wih,Wlh,Wh' h值相同。4. 如權(quán)利要求3所述的方法,其特征在于:神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中,通過開發(fā)集來檢驗(yàn)神 經(jīng)網(wǎng)絡(luò)的訓(xùn)練結(jié)果,僅保留在開發(fā)集上識(shí)別準(zhǔn)確率最高的卷積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)模 型。5. 如權(quán)利要求1至3之一所述的方法,其特征在于:包含W下實(shí)現(xiàn)步驟: (2-1)將人工標(biāo)注的訓(xùn)練樣本輸入到卷積神經(jīng)網(wǎng)絡(luò)中; (2-2)通過所述卷積網(wǎng)絡(luò)對輸入訓(xùn)練樣本進(jìn)行特征提??; (2-3)將所述卷積神經(jīng)網(wǎng)絡(luò)提取出來的特征數(shù)據(jù)作為第一數(shù)據(jù)輸入第一時(shí)刻遞歸神經(jīng) 網(wǎng)絡(luò)中; (2-4)經(jīng)過第一時(shí)刻遞歸神經(jīng)網(wǎng)絡(luò)的計(jì)算輸出第一預(yù)測數(shù)據(jù);根據(jù)第一預(yù)測數(shù)據(jù)得到 該時(shí)刻遞歸神經(jīng)網(wǎng)絡(luò)的字詞識(shí)別結(jié)果,將該結(jié)果定義為:第一識(shí)別結(jié)果; (2-5)并將第一識(shí)別結(jié)果轉(zhuǎn)化成對應(yīng)的向量數(shù)據(jù); (2-6)將第一數(shù)據(jù),第一預(yù)測數(shù)據(jù)W及向量化的第一識(shí)別結(jié)果作為第二時(shí)刻遞歸神經(jīng) 網(wǎng)絡(luò)的輸入數(shù)據(jù),經(jīng)過遞歸神經(jīng)網(wǎng)絡(luò)的計(jì)算輸出第二預(yù)測數(shù)據(jù),并得到由第二預(yù)測數(shù)據(jù)對 應(yīng)的第二識(shí)別結(jié)果; (2-7)并將第二識(shí)別結(jié)果轉(zhuǎn)化為對應(yīng)的向量數(shù)據(jù); (2-8)將第一數(shù)據(jù),第二預(yù)測數(shù)據(jù)W及向量化的第二識(shí)別結(jié)果作為第S時(shí)刻遞歸神經(jīng) 網(wǎng)絡(luò)的輸入數(shù)據(jù); 依次遞歸,直到達(dá)到設(shè)定的遞歸次數(shù)或者輸出空值時(shí),終止計(jì)算。6. 如權(quán)利要求5所述的方法,其特征在于:所述步驟(2-5)和(2-7)中,通過詞典映射表 進(jìn)行向量化,所述詞典映射表是一個(gè)二維矩陣,其中每一個(gè)行向量對應(yīng)一個(gè)字或者一個(gè)詞, 而運(yùn)種行向量與字詞的對應(yīng)關(guān)系是在構(gòu)建運(yùn)個(gè)詞典映射表時(shí)設(shè)置的。7. 如權(quán)利要求6所述的方法,其特征在于:構(gòu)建詞典映射表的過程中,如基本單位是詞 語,則對自然語言進(jìn)行分詞處理。8. 如權(quán)利要求7所述的方法,其特征在于:在準(zhǔn)備訓(xùn)練樣本和開發(fā)樣本時(shí),將樣本圖片 進(jìn)行歸一化處理,所述歸一化處理包括:設(shè)置待識(shí)別圖片允許的最長字?jǐn)?shù)或者詞數(shù)。9. 如權(quán)利要求8所述的方法,其特征在于:對進(jìn)行歸一化處理的樣本進(jìn)行人工標(biāo)注時(shí), 當(dāng)樣本圖片中包含的字?jǐn)?shù)少于設(shè)置的最長字?jǐn)?shù)時(shí),使用<SP>標(biāo)記符將樣本圖片中的字?jǐn)?shù)補(bǔ) 齊。
【專利摘要】本發(fā)明涉及圖像文字識(shí)別領(lǐng)域,特別涉及一種光學(xué)文字序列識(shí)別方法,本發(fā)明應(yīng)用了CNN和RNN的技術(shù),通過CNN對包含多個(gè)字符的整個(gè)圖片進(jìn)行特征提取,然后將同樣的特征送入RNN進(jìn)行重復(fù)遞歸使用,以實(shí)現(xiàn)連續(xù)預(yù)測多個(gè)字符的目的。本發(fā)明方法系統(tǒng)的克服了OCR識(shí)別前先要進(jìn)行圖片切分的弊端,簡化了圖像文字識(shí)別的前期處理過程,顯著提高了文字識(shí)別的效率。又由于RNN遞歸使用了上一輪的輸出和識(shí)別結(jié)果,在模型訓(xùn)練的同時(shí)將字、詞之間依賴關(guān)系的語言模型也一并學(xué)習(xí)得到了,避免了OCR方法識(shí)別單個(gè)字符后需要額外構(gòu)建語言模型來進(jìn)行后處理的步驟,在更好的提升字、詞序列的識(shí)別準(zhǔn)確率的同時(shí)進(jìn)一步提高了文字識(shí)別的處理效率。
【IPC分類】G06N3/08, G06K9/62
【公開號(hào)】CN105654129
【申請?zhí)枴?br>【發(fā)明人】劉世林, 何宏靖, 陳炳章, 吳雨濃, 姚佳
【申請人】成都數(shù)聯(lián)銘品科技有限公司
【公開日】2016年6月8日
【申請日】2015年12月30日