基于OCR的格式化傳真的分類和信息提取方法與流程

文檔序號：11387270閱讀：382來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及圖像處理領(lǐng)域，特別是一種基于ocr的格式化傳真的分類和信息提取方法。

背景技術(shù)：

隨著科技的進(jìn)步，跨國跨地區(qū)的業(yè)務(wù)交流也越來越頻繁，由于傳真較其他文件傳輸方式具有特別的法律效應(yīng)，使得其在辦公系統(tǒng)中被大量使用。格式化傳真文件中包含了大量有用信息，目前這些傳真文件都需要人工進(jìn)行分類，并手動提取其中的重要信息，效率底下。亟需一種高效快捷的文件分類和信息提取方法，提升員工的工作效率，降低人力成本，釋放生產(chǎn)力。

中國專利公開號cn101876999公開了一種生成傳真索引的方法、報文分析裝置和傳真檢索系統(tǒng)，該系統(tǒng)對傳真報文進(jìn)行版面分析，提取所述傳真報文中的特征信息，根據(jù)所述提取的特征信息為傳真報文建立標(biāo)簽，將所述標(biāo)簽作為所述傳真報文的索引，以便用戶根據(jù)所述標(biāo)簽查找相對應(yīng)的傳真報文。但該系統(tǒng)只能夠?qū)崿F(xiàn)文件的分類和索引，難以實現(xiàn)文件中關(guān)鍵信息的提取。

中國專利公開號cn102222289公開了一種基于ocr的手機(jī)財務(wù)管理方法及系統(tǒng)，該系統(tǒng)借助ocr技術(shù)對財務(wù)票據(jù)進(jìn)行分析識別，但不能針對格式化的掃描傳真件，無法實現(xiàn)傳真影像的分類和信息提取。

技術(shù)實現(xiàn)要素：

本發(fā)明所要解決的技術(shù)問題是針對上述現(xiàn)有技術(shù)的不足提供一種基于ocr的格式化傳真的分類和信息提取方法，本基于ocr的格式化傳真的分類和信息提取方法具有提高辦公的工作效率，解放員工生產(chǎn)力，實現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)向結(jié)構(gòu)化數(shù)據(jù)的轉(zhuǎn)變，本發(fā)明適應(yīng)于格式化傳真，即表格圖像的傳真，例如規(guī)范化合同、自制憑證、票據(jù)等。

為實現(xiàn)上述技術(shù)目的，本發(fā)明采取的技術(shù)方案為：

一種基于ocr的格式化傳真的分類和信息提取方法,具體包括以下步驟：

步驟1：獲取傳真的圖像文件，對圖像進(jìn)行自適應(yīng)閾值的二值化，降低噪聲的干擾；

步驟2：確定圖像的傾斜角度，對圖像進(jìn)行校正；

步驟3：找到校正后的圖像中表格的最大包圍框的輪廓，從圖像中表格的最大包圍框的上部區(qū)域截取圖像的表頭區(qū)域；

步驟4：篩選表頭區(qū)域中的字體輪廓并對字體輪廓進(jìn)行融合，從而將字體輪廓合并成完整字段；

步驟5：檢測表頭區(qū)域合并后的字段的數(shù)量，根據(jù)表頭區(qū)域的字段的數(shù)量和字段的內(nèi)容對圖像進(jìn)行分類；

步驟6：提取分類成功的圖像，對圖像中待識別區(qū)域進(jìn)行定位；

步驟7：根據(jù)待識別的區(qū)域在表格中的位置以及ocr識別技術(shù)對表格中的待識別的區(qū)域的字段進(jìn)行識別；

步驟8：優(yōu)化已識別的字段。

作為本發(fā)明進(jìn)一步改進(jìn)的技術(shù)方案，所述的步驟1具體包括以下步驟：

（1）獲取傳真的圖像文件，將圖像轉(zhuǎn)到hsv色域的圖像，去除落在紅色區(qū)間的像素點(diǎn)；

（2）根據(jù)圖像的像素的鄰域塊的像素值分布來確定該像素位置上的二值化閾值，對圖像進(jìn)行自適應(yīng)閾值的二值化，降低噪聲的干擾。

作為本發(fā)明進(jìn)一步改進(jìn)的技術(shù)方案，所述的步驟2包括找到圖像中的最長直線，根據(jù)最長直線與水平方向的夾角，從而對圖像進(jìn)行旋轉(zhuǎn)校正。

作為本發(fā)明進(jìn)一步改進(jìn)的技術(shù)方案，所述的步驟4包括以下步驟：

（1）設(shè)定字體輪廓的長度閾值的范圍和寬度閾值的范圍；

（2）對表頭區(qū)域進(jìn)行輪廓檢索，篩選出長度在字體輪廓的長度閾值的范圍內(nèi)且寬度在字體輪廓的寬度閾值的范圍內(nèi)的輪廓，篩選出的輪廓即為字體輪廓；

（3）對字體輪廓進(jìn)行融合，提取字體輪廓的顏色，將顏色相近的字體輪廓且每個字體輪廓之間的距離小于字體輪廓本身的寬度的一半的字體合并成完整字段。

作為本發(fā)明進(jìn)一步改進(jìn)的技術(shù)方案，所述的步驟5包括以下步驟：

（1）檢測表頭區(qū)域的字段的數(shù)量；

（2）如果字段的數(shù)量是0，則不對圖像進(jìn)行分類；

（3）如果字段的數(shù)量是1，則采用機(jī)器學(xué)習(xí)svm分類器的方法對圖像進(jìn)行分類；

（4）如果字段的數(shù)量大于1，則通過ocr識別表頭區(qū)域的字體，將表頭區(qū)域的字體與圖像識別庫中的類型名稱進(jìn)行匹配，從而實現(xiàn)分類，將匹配的總字?jǐn)?shù)除以匹配正確的字段總字?jǐn)?shù)并將得到的結(jié)果與預(yù)先設(shè)定的閾值進(jìn)行對比，如果大于預(yù)先設(shè)定的閾值，則分類成功，否則，分類失敗。

作為本發(fā)明進(jìn)一步改進(jìn)的技術(shù)方案，所述的步驟6包括以下步驟：

（1）加載事先制作好模板信息；

（2）提取步驟5分類成功的圖像，找到圖像中最大包圍框的輪廓中所有的內(nèi)含包圍框的輪廓；

（3）設(shè)定包圍框的長度閾值范圍和寬度閾值范圍，篩選出長度在包圍框的長度閾值范圍內(nèi)且寬度在包圍框的寬度閾值的范圍內(nèi)的包圍框；

（4）根據(jù)篩選出的包圍框的位置信息，按照從上到下，從左到右的順序?qū)λ邪鼑蜻M(jìn)行掃描并排序，實現(xiàn)表格的定位，根據(jù)模版信息尋找表格內(nèi)待識別的區(qū)域；

（5）根據(jù)模板信息判斷是否需要識別表格外部，如果需要識別表格外部的信息，則需要對表格外部進(jìn)行字段輪廓提取，采用步驟4的方法篩選表格外部的字體輪廓并對字體輪廓進(jìn)行融合，從而將字體輪廓合并成完整字段，根據(jù)模板信息中記錄的字段與圖像中的最大包圍框的相對位置確定表格外部的待識別的區(qū)域，根據(jù)模板信息中記錄的字段對最大包圍框以外需要識別的字段位置進(jìn)行定位。

作為本發(fā)明進(jìn)一步改進(jìn)的技術(shù)方案，所述的步驟7包括以下步驟：

（1）根據(jù)步驟6中待識別區(qū)域的位置信息，截取字段圖片；

（2）通過ocr識別，對定位好的字段進(jìn)行識別。

作為本發(fā)明進(jìn)一步改進(jìn)的技術(shù)方案，所述的步驟8包括以下步驟：

（1）提取ocr識別的字段；

（2）針對字段類型不同進(jìn)行優(yōu)化，對小寫類字段，去除其中的非數(shù)字部分；對日期字段，將空格以及非數(shù)字及年月日進(jìn)行篩除；

（3）字典優(yōu)化，通過建立字典庫的形式，將ocr識別的字段與字典庫中字段進(jìn)行匹配，如果匹配分?jǐn)?shù)大于預(yù)先設(shè)定的閾值，則將字典庫中字段替換為ocr識別的字段從而對字典庫中的字段進(jìn)行優(yōu)化更新，同時，將人工確認(rèn)的正確字段補(bǔ)充進(jìn)字典庫中，所述匹配分?jǐn)?shù)等于ocr識別正確的字總數(shù)除以當(dāng)前與字典庫中匹配字總數(shù)。

本發(fā)明能夠快速對格式化傳真文件進(jìn)行分類和信息提取，分類速度快，分類準(zhǔn)確，信息提取準(zhǔn)確率高?，F(xiàn)有技術(shù)中有對傳真圖像進(jìn)行檢索分類的，但無法實現(xiàn)字段信息的提?。挥袑D像進(jìn)行識別的，但無法實現(xiàn)格式化傳真圖像的識別功能。因此，目前還沒有一種針對格式化傳真文件信息提取的有效方法，本文提出的方法補(bǔ)全了這一技術(shù)空缺，提升了辦公工作效率，釋放了生產(chǎn)力，節(jié)約了人力成本。

附圖說明

圖1為本發(fā)明的流程圖。

具體實施方式

下面根據(jù)圖1對本發(fā)明的具體實施方式作出進(jìn)一步說明：

參見圖1，本實施例適應(yīng)于任何格式化的傳真，其中格式化的傳真即具有表格的圖像傳真，本實施例以票據(jù)的傳真為例，具體如下：

一種基于ocr的格式化傳真的分類和信息提取方法，具體包括以下步驟：

步驟1：獲取票據(jù)的傳真的圖像文件，對圖像進(jìn)行自適應(yīng)閾值的二值化，降低噪聲的干擾；

步驟2：確定圖像的傾斜角度，對圖像進(jìn)行校正；

步驟3：找到校正后的圖像中表格的最大包圍框的輪廓，從圖像中表格的最大包圍框的上部區(qū)域截取圖像的票頭區(qū)域；

步驟4：篩選表頭區(qū)域中的字體輪廓并對字體輪廓進(jìn)行融合，從而將字體輪廓合并成完整字段；

步驟5：檢測表頭區(qū)域合并后的字段的數(shù)量，根據(jù)表頭區(qū)域的字段的數(shù)量和字段的內(nèi)容對圖像進(jìn)行分類；

步驟6：提取分類成功的圖像，對圖像中待識別區(qū)域進(jìn)行定位（包括表格內(nèi)部和表格外部）；

步驟7：根據(jù)待識別的區(qū)域在表格中的位置以及ocr識別技術(shù)對表格中的待識別的區(qū)域的字段進(jìn)行識別；

步驟8：優(yōu)化已識別的字段。

本實施例中，所述的步驟1具體包括以下步驟：

（1）獲取傳真的圖像文件，將圖像轉(zhuǎn)到hsv色域的圖像，去除落在紅色區(qū)間的像素點(diǎn)（去紅章）；

（2）根據(jù)圖像的像素的鄰域塊的像素值分布來確定該像素位置上的二值化閾值，對圖像進(jìn)行自適應(yīng)閾值的二值化，降低噪聲的干擾。

優(yōu)選的，所述的步驟2具體為找到圖像中的最長直線，根據(jù)最長直線與水平方向的夾角，從而對圖像進(jìn)行旋轉(zhuǎn)校正。

本實施例中，所述的步驟4包括以下步驟：

（1）設(shè)定字體輪廓的長度閾值的范圍和寬度閾值的范圍；

（2）對表頭區(qū)域進(jìn)行輪廓檢索，篩選出輪廓的長度在字體輪廓的長度閾值的范圍內(nèi)且輪廓的寬度在字體輪廓的寬度閾值的范圍內(nèi)的輪廓，篩選出的輪廓即為字體輪廓；

（3）對字體輪廓進(jìn)行融合，提取字體輪廓的顏色，將顏色相同的字體輪廓且每個字體輪廓之間的距離小于字體輪廓本身的寬度的一半的字體合并成完整字段。

本實施例中，所述的步驟5包括以下步驟：

（1）檢測表頭區(qū)域的字段的數(shù)量；

（2）如果字段的數(shù)量是0，則不對圖像進(jìn)行分類，退出；

（3）如果字段的數(shù)量是1，則采用機(jī)器學(xué)習(xí)svm分類器的方法對圖像進(jìn)行分類，svm分類器需要事先進(jìn)行對大量表頭進(jìn)行訓(xùn)練，未被svm分類器區(qū)分出的票據(jù)直接退出，本實施例采用現(xiàn)有技術(shù)中的機(jī)器學(xué)習(xí)svm分類器；

（4）如果字段的數(shù)量大于1，則通過ocr識別表頭區(qū)域的字體，將表頭區(qū)域的字體與圖像識別庫中的類型名稱進(jìn)行匹配，從而實現(xiàn)分類，將匹配的總字?jǐn)?shù)除以匹配正確的字段總字?jǐn)?shù)并將得到的結(jié)果與預(yù)先設(shè)定的閾值thr進(jìn)行對比，如果大于預(yù)先設(shè)定的閾值，則分類成功，否則，分類失敗，退出。

優(yōu)選的，所述的步驟6包括以下步驟：

（1）制作模板信息，加載事先制作好模板信息；

（2）提取分類成功的圖像，找到圖像中最大包圍框的輪廓中所有的內(nèi)含包圍框的輪廓；

（3）設(shè)定包圍框的長度閾值范圍和寬度閾值范圍，篩選出包圍框的長度在包圍框的長度閾值范圍內(nèi)且包圍框的寬度在包圍框的寬度閾值的范圍內(nèi)的包圍框；

（4）根據(jù)篩選出的包圍框的位置信息，按照從上到下，從左到右的順序?qū)λ邪鼑蜻M(jìn)行掃描并排序，實現(xiàn)表格的定位，根據(jù)模板信息尋找表格中待識別的區(qū)域（根據(jù)模板信息，判斷待識別的區(qū)域在表格中的位置從而判斷待識別的區(qū)域是否在表格外；如果待識別的區(qū)域均在表格的內(nèi)部，則只需要對表格內(nèi)的待識別的區(qū)域進(jìn)行定位提取，如果待識別的區(qū)域在表格外，執(zhí)行下面步驟）；

（5）根據(jù)模板信息確定是否需要識別表格外部，如果需要識別表格外部信息，則需要對表格外部進(jìn)行字段輪廓提取，采用步驟4的方法篩選表格外部的字體輪廓并對字體輪廓進(jìn)行融合，從而將字體輪廓合并成完整字段，根據(jù)模板信息中記錄的字段與圖像中的最大包圍框的相對位置確定表格外的待識別的區(qū)域，根據(jù)模板信息中記錄的字段對最大包圍框以外需要識別的字段位置進(jìn)行定位。

本實施例中，所述的步驟7包括以下步驟：

（1）根據(jù)步驟6中待識別區(qū)域的位置信息，截取字段圖片；

（2）通過ocr識別，對定位好的字段進(jìn)行識別。

本實施例中，所述的步驟8包括以下步驟：

（1）提取ocr識別的字段；

（2）針對字段類型不同進(jìn)行優(yōu)化，對小寫類字段，去除其中的非數(shù)字部分；對日期字段，對其中的空格以及非數(shù)字及“年月日”進(jìn)行篩除；

（3）字典優(yōu)化，通過建立字典庫的形式，將ocr識別的的字段與字典庫中字段進(jìn)行匹配，如果匹配分?jǐn)?shù)大于預(yù)先設(shè)定的閾值scorethr，則將字典庫中字段替換為ocr識別的字段從而對字典庫中的字段進(jìn)行優(yōu)化更新，同時，將人工確認(rèn)的正確字段不斷補(bǔ)充進(jìn)字典庫中，所述匹配分?jǐn)?shù)等于ocr識別正確的字總數(shù)除以當(dāng)前與字典庫中匹配字總數(shù)。

本發(fā)明能夠快速對格式化傳真文件進(jìn)行分類和信息提取，分類速度快，分類準(zhǔn)確，信息提取準(zhǔn)確率高。現(xiàn)有技術(shù)中有對傳真圖像進(jìn)行檢索分類的，但無法實現(xiàn)字段信息的提??；有對圖像進(jìn)行識別的，但無法實現(xiàn)格式化傳真圖像的識別功能。因此，目前還沒有一種針對格式化傳真文件信息提取的有效方法，本文提出的方法補(bǔ)全了這一技術(shù)空缺，提升了辦公工作效率，釋放了生產(chǎn)力，節(jié)約了人力成本。

本發(fā)明的保護(hù)范圍包括但不限于以上實施方式，本發(fā)明的保護(hù)范圍以權(quán)利要求書為準(zhǔn)，任何對本技術(shù)做出的本領(lǐng)域的技術(shù)人員容易想到的替換、變形、改進(jìn)均落入本發(fā)明的保護(hù)范圍。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：于志文;車少帥;胡笳;吳洲洋;周玲
技術(shù)所有人：江蘇鴻信系統(tǒng)集成有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于OCR的格式化傳真的分類和信息提取方法與流程