欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于自學(xué)習(xí)的手寫表格數(shù)字字符串快速識(shí)別的方法

文檔序號(hào):9433084閱讀:454來源:國知局
一種基于自學(xué)習(xí)的手寫表格數(shù)字字符串快速識(shí)別的方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及基于自學(xué)習(xí)的手寫表格數(shù)字字符串快速識(shí)別的方法。
【背景技術(shù)】
[0002] 在日常生活中,人們每天都要接觸到數(shù)字表格,如財(cái)務(wù)、成績統(tǒng)計(jì)、實(shí)驗(yàn)數(shù)據(jù)等,這 些表格數(shù)字的數(shù)據(jù)處理不僅工作量大,而且枯燥。所以,如果找到一種自動(dòng)識(shí)別掃描后的 表格文檔的方法,把數(shù)據(jù)的處理交給電腦來做,就極大地節(jié)省了時(shí)間,提高了效率。想要識(shí) 別出表格文檔的數(shù)據(jù)首先要對(duì)表格的結(jié)構(gòu)進(jìn)行處理。首先,表格的格式千變?nèi)f化,目前還沒 有找到一種方法能使用于所有的表格的情況,表格結(jié)構(gòu)的識(shí)別處理仍需要進(jìn)一步深入的研 究;其次,盡管表格的格式復(fù)雜,但是,需要待識(shí)別的往往是那些簡單的矩陣形式的單元格, 只要找到它們的位置并識(shí)別就可以了,利用這種方法就可以節(jié)約了處理多余的復(fù)雜表格框 的情況,提高了運(yùn)行速度。
[0003] 通常的表格文檔的結(jié)構(gòu)是由一系列的直線所構(gòu)成的單元格所組成的,表格的內(nèi)容 部分(即手寫數(shù)字部分)的單元格通常是矩形的單元格,這些單元格比起三角形或者其他 形狀的單元格相對(duì)容易處理。通常情況下,表格手寫數(shù)字字符識(shí)別的處理過程如下:(1)根 據(jù)表格線的結(jié)構(gòu),對(duì)表格進(jìn)行處理,得到表格內(nèi)容部分;(2)對(duì)單元格進(jìn)行定位并提取出里 面的數(shù)字字符圖像;(3)對(duì)這些數(shù)字進(jìn)行分割并分類結(jié)果。
[0004] 目前的一些表格數(shù)字識(shí)別軟件不能很好的將字符與背景區(qū)分開,不能進(jìn)行字符的 分割識(shí)別,不能對(duì)單元格字符串的整體特征進(jìn)行識(shí)別,導(dǎo)致表格識(shí)別率低。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明的目的是為了解決現(xiàn)有方法表格識(shí)別率低的問題,而提出了一種基于自學(xué) 習(xí)的手寫表格數(shù)字字符串快速識(shí)別的方法。
[0006] 上述的發(fā)明目的是通過以下技術(shù)方案實(shí)現(xiàn)的:
[0007] 步驟一、對(duì)表格圖像進(jìn)行預(yù)處理;
[0008] 步驟二、對(duì)預(yù)處理后的表格圖像中的數(shù)字字符進(jìn)行提取與分割;
[0009] 步驟三、對(duì)提取分割后的數(shù)字字符進(jìn)行識(shí)別。
[0010] 發(fā)明效果
[0011] 采用本發(fā)明的一種基于自學(xué)習(xí)的手寫表格數(shù)字字符串快速識(shí)別的方法,
[0012] -、預(yù)處理時(shí),采用大津法進(jìn)行二值化,有效地將字符與背景區(qū)分開;
[0013] 二、利用連接成分的思想來提取單元格字符串的筆畫,同時(shí)記錄單元格的頂點(diǎn)的 位置信息,以方便再次掃描同類型表格直接定位單元格,采用連接成分進(jìn)行筆畫提取能很 好地提取出一個(gè)完整的字符筆畫,能夠獲取字符的筆畫位置信息,方便字符的分割識(shí)別;
[0014] 三、本發(fā)明設(shè)計(jì)了一個(gè)整體識(shí)別的神經(jīng)網(wǎng)絡(luò),提取單元格字符串的整體特征進(jìn)行 識(shí)別;
[0015] 四、平均識(shí)別率達(dá)到98. 2%,運(yùn)行時(shí)間為35s。
【附圖說明】
[0016] 圖1為【具體實(shí)施方式】四中BP神經(jīng)網(wǎng)絡(luò)模型;
[0017] 圖2為【具體實(shí)施方式】三中數(shù)字字符串分割流程圖;
[0018] 圖3為【具體實(shí)施方式】四中初期神經(jīng)網(wǎng)絡(luò)的訓(xùn)練流程;
[0019] 圖4為【具體實(shí)施方式】四中后期識(shí)別框圖;
[0020] 圖5為【具體實(shí)施方式】三中斷裂點(diǎn)修補(bǔ)模板圖;
[0021] 圖6為【具體實(shí)施方式】三中數(shù)字"78"輪廓分析圖;
[0022] 圖7為【具體實(shí)施方式】三中數(shù)字"78"候選切分點(diǎn)圖;
[0023] 圖8為【具體實(shí)施方式】三中提取出的表頭內(nèi)容圖;
[0024] 圖9為實(shí)施例中表格文檔的局部圖像;
[0025] 圖10為實(shí)施例中局部識(shí)別結(jié)果;
[0026] 圖11為實(shí)施例中識(shí)別軟件界面。
【具體實(shí)施方式】
【具體實(shí)施方式】 [0027] 一:一種基于自學(xué)習(xí)的手寫表格數(shù)字字符串快速識(shí)別的方法,其特 征在于,一種基于自學(xué)習(xí)的手寫表格數(shù)字字符串快速識(shí)別的方法具體是按照以下步驟進(jìn)行 的:
[0028] 步驟一、對(duì)表格圖像進(jìn)行預(yù)處理;
[0029] 步驟二、對(duì)預(yù)處理后的表格圖像中的數(shù)字字符進(jìn)行提取與分割;
[0030] 步驟三、對(duì)提取分割后的數(shù)字字符進(jìn)行識(shí)別。
[0031 ]
【具體實(shí)施方式】二、本實(shí)施方式與【具體實(shí)施方式】一不同的是,所述步驟一中對(duì)表格 圖像進(jìn)行預(yù)處理;具體過程為:
[0032] 步驟--、對(duì)表格圖像二值化;
[0033] 設(shè)0為前景(即目標(biāo))值即為黑色,255為背景值即白色,閾值Tth選擇為使類間 方差δ最大;
[0034] 步驟一二、對(duì)表格圖像去噪;
[0035] 采用中值濾波法去噪。
[0036] 其它步驟及參數(shù)與【具體實(shí)施方式】一相同。
【具體實(shí)施方式】 [0037] 三、本實(shí)施方式與一或二不同的是,所述步驟二中對(duì) 預(yù)處理后的表格圖像中的數(shù)字字符進(jìn)行提取與分割;具體過程為:
[0038] 步驟二一、檢測預(yù)處理后的表格圖像中各個(gè)單元格的行坐標(biāo)和列坐標(biāo),對(duì)檢測出 的預(yù)處理后的表格圖像中各個(gè)單元格的行坐標(biāo)和列坐標(biāo)定位,具體過程為:單元格的行坐 標(biāo)即單元格的水平線,單元格的列坐標(biāo)即單元格的垂直線;采用Viterbi算法進(jìn)行單元格 的水平線和垂直線檢測,Viterbi算法是一種動(dòng)態(tài)規(guī)劃算法,用于尋找最有可能產(chǎn)生觀測事 件序列的維特比路徑,檢測直線(水平線和豎直線),即把水平線和豎直線中的每個(gè)前景點(diǎn) 作為當(dāng)前水平線和豎直線的點(diǎn),保存檢測出的每個(gè)單元格的水平線和豎直線的點(diǎn),用數(shù)組A 存儲(chǔ)行的坐標(biāo),用數(shù)組B存儲(chǔ)列的坐標(biāo),建立一個(gè)表格圖像中各個(gè)單元格的行坐標(biāo)和列坐 標(biāo)位置的信息庫;當(dāng)再次掃描到同一類型的表格圖像時(shí),則在已經(jīng)保存的表格圖像中各個(gè) 單元格的行坐標(biāo)和列坐標(biāo)位置的信息庫里面的信息中確定再次掃描到同一類型的表格圖 像中各個(gè)單元格的行坐標(biāo)和列坐標(biāo)位置的信息;節(jié)省了時(shí)間;
[0039] 若不同表格圖像的表頭的harris角點(diǎn)特征相同,則表格為同一類型的表格;
[0040] 步驟二二、去除檢測出的預(yù)處理后的表格圖像中各個(gè)單元格的水平線和垂直線, 并對(duì)數(shù)據(jù)斷裂點(diǎn)進(jìn)行修補(bǔ);具體過程為:
[0041] 去除檢測出的表格圖像中各個(gè)單元格的水平線和垂直線的過程為:把檢測到的每 個(gè)單元格的水平線和豎直線像素值設(shè)為225,即白色背景色;
[0042] 修補(bǔ)數(shù)據(jù)斷裂點(diǎn)的方法為掃描直線的像素,具體過程為:如圖5所示模板進(jìn)行判 斷:
[0043] 設(shè)P22為當(dāng)前表格圖像中像素點(diǎn)的位置,設(shè)置一個(gè)三行三列的表格,Pll位于第一 行第一列,P12位于第一行第二列,P13位于第一行第三列,P21位于第二行第一列,P22位 于第二行第二列,P23位于第二行第三列,P31位于第三行第一列,P32位于第三行第二列, P33位于第三行第三列,判斷Pll,P12, P13, P21,P22, P23, P31,P32, P33中是否至少有兩個(gè) 點(diǎn)的像素為〇,若是,則將當(dāng)前表格圖像中像素點(diǎn)設(shè)置為〇,即為前景點(diǎn);若否,則將當(dāng)前表 格圖像中像素點(diǎn)設(shè)置為255,即為背景點(diǎn),去除背景點(diǎn)的表格圖像中像素;
[0044] 步驟二三、對(duì)預(yù)處理后的表格圖像中各個(gè)單元格中的數(shù)字字符進(jìn)行連接成分提 ??;
[0045] 對(duì)預(yù)處理后的表格圖像中各個(gè)單元格中的數(shù)字字符進(jìn)行連接成分提取可將不粘 連的數(shù)字字符分開;連接成分為在預(yù)處理后的表格圖像中把相互連接的相同像素匯集為一 組的像素組;
[0046] 將匯集為一組的像素組視為一個(gè)手寫數(shù)字,如單元格中的手寫數(shù)字若為8. 97,個(gè) 位數(shù)"8"其像素值相同且相互連接,匯集起來就組成了 "8",同理可用相同的且相互連接的 像素值點(diǎn)匯集出小數(shù)點(diǎn)后的"9"和"7",這樣就完成了連接成分提?。?br>[0047] 步驟二四、字符分割;具體過程為:
[0048] 步驟二三中已將不粘連的數(shù)字字符分開,對(duì)于粘連的數(shù)字字符用sobel算子進(jìn)行 輪廓提取、輪廓線分析選擇候選分割點(diǎn)及切分線;
[0049] sobel算子進(jìn)行輪廓提取:
[0050] Sobel算子利用一階導(dǎo)數(shù)進(jìn)行提取邊界的算子,其原理是,利用一個(gè)窗口逐行掃描 圖像,該窗口是3X3的模板,然后與圖像中每個(gè)像素點(diǎn)做卷積和運(yùn)算,確定閾值,提取出邊 界部分;
[0051] 輪廓線分析選擇候選分割點(diǎn)及切分線:
[0052] 經(jīng)輪廓提取后得到數(shù)字字符的上下輪廓,候選分割點(diǎn)往往為上輪廓的最低點(diǎn)即波 谷點(diǎn)及下輪廓的最高點(diǎn)即波峰點(diǎn),兩點(diǎn)連接得到切分線;如圖6和圖7所示:
[0053] 候選分割點(diǎn)大于等于一對(duì),切分線大于等于一條,需要對(duì)η條切分線進(jìn)行篩選,η 為正整數(shù),根據(jù)切分線對(duì)數(shù)字字符進(jìn)行分割,每分割一次就用已經(jīng)訓(xùn)練好的初期BP神經(jīng)網(wǎng) 絡(luò)對(duì)切分出來的字符進(jìn)行識(shí)別,計(jì)算識(shí)別結(jié)果的置信度,若置信度大于或等于0. 9,則分割
當(dāng)前第1頁1 2 3 4 5 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
琼结县| 富平县| 沙雅县| 瑞安市| 道孚县| 呼和浩特市| 西藏| 奉新县| 宣汉县| 卫辉市| 新巴尔虎右旗| 井研县| 阳春市| 丹棱县| 老河口市| 广德县| 渝中区| 庆城县| 辉南县| 始兴县| 常宁市| 左云县| 武川县| 天祝| 布拖县| 兖州市| 抚州市| 深泽县| 吴堡县| 兰考县| 辛集市| 阳西县| 玉山县| 翁源县| 华亭县| 闻喜县| 乌拉特中旗| 峡江县| 冷水江市| 丽水市| 左云县|