專利名稱:后光學(xué)字符識(shí)別處理中的形狀聚類的制作方法
技術(shù)領(lǐng)域:
本說(shuō)明書涉及形狀聚類和光學(xué)字符識(shí)別。
背景技術(shù):
光學(xué)字符識(shí)別(OCR)使用一般將被稱作OCR引擎的計(jì)算機(jī)軟件來(lái)對(duì)原本在紙張、縮影膠片或其它介質(zhì)上印刷的、打字的、手寫的或其它書寫文本的數(shù)字圖像進(jìn)行處理,并且從所述圖像產(chǎn)生機(jī)器可識(shí)別和可編輯的文本。通過(guò)OCR引擎處理的文檔的數(shù)字圖像可包括多頁(yè)書寫材料的圖像。要由OCR引擎進(jìn)行處理的文本的圖像可通過(guò)各種成像方法來(lái)獲取,包括使用圖像掃描儀來(lái)捕捉文本的數(shù)字圖像。OCR引擎通常產(chǎn)生矩形邊框旨在共同地圍住每個(gè)頁(yè)面上所寫的文本。通常,當(dāng)文檔圖像具有灰度或色彩信息時(shí),OCR引擎對(duì)所述圖像進(jìn)行二進(jìn)制化以使得將每個(gè)圖像像素確定為前景像素(例如,黑色文本)或背景像素(例如,白色區(qū)域)。每個(gè)邊框通常圍住OCR引擎所感知(perceive)的一個(gè)字符的文本像素的一個(gè)或多個(gè)連接群組,但是也可以與相鄰字符的一部分重疊,或者在極端情況下,可以完全重疊。在這樣的情形中,現(xiàn)有幾種方法將OCR引擎識(shí)別為屬于所述邊框內(nèi)部的像素與屬于不同但重疊邊框的像素分離。這些方法 包括通過(guò)閾值和所連接成分的分析來(lái)生成掩膜圖像,構(gòu)建輪廓多邊形,并且構(gòu)建并行四邊形的邊框。OCR引擎通常為每個(gè)邊框指派一個(gè)或多個(gè)OCR字符碼。每個(gè)OCR碼識(shí)別所述引擎已認(rèn)出在該邊框內(nèi)的一個(gè)或多個(gè)字符。如果OCR引擎無(wú)法認(rèn)出邊框中的任何字符,則其可不向該邊框指派OCR字符碼。OCR字符碼所識(shí)別的每個(gè)字符可以以標(biāo)準(zhǔn)字符編碼進(jìn)行表示,例如ASCII或統(tǒng)一字符編碼。每個(gè)邊框可被認(rèn)為是對(duì)文檔圖像的一部分或小圖像進(jìn)行隔離的剪切(clipping)路徑,無(wú)論其為原始形式或經(jīng)二進(jìn)制化的二進(jìn)制形式。由于這些小圖像可被認(rèn)為是由其相應(yīng)的邊框從文檔圖像剪切而來(lái),所以這些小圖像將被稱作剪切(clip)或剪切圖像。由于每個(gè)剪切圖像被綁定到邊框、OCR字符碼,所以指派給邊框的字符也能夠被稱作或識(shí)別為指派給所述剪切圖像的代碼或字符。除非另外指出,術(shù)語(yǔ)剪切或剪切圖像是指作為文檔圖像的一部分并且由OCR引擎所處理以便進(jìn)行字符識(shí)別的圖像。OCR引擎在該處理期間可能產(chǎn)生錯(cuò)誤。例如,OCR引擎通過(guò)例如僅包括邊框中的部分字符或包括在單個(gè)邊框中被認(rèn)作單個(gè)字符的多個(gè)字符而對(duì)原始圖像進(jìn)行了不正確分割。作為另一個(gè)示例,OCR引擎由于邊框所圍住的剪切圖像和用于不同字符碼的參考圖像之間的一些圖像相似性或者由于該OCR引擎所接收的數(shù)字圖像的低圖像質(zhì)量而對(duì)邊框指派不正確的OCR字符。
發(fā)明內(nèi)容
除其它內(nèi)容之外,該說(shuō)明書描述了用于在包括光學(xué)字符識(shí)別(OCR)處理的輸出在內(nèi)的各種文檔的處理中進(jìn)行形狀聚類和應(yīng)用的技術(shù)和系統(tǒng)。在一個(gè)方面,一種方法可包括以下將在所接收的由OCR處理所處理的文檔的OCR輸出中限定的剪切圖像歸類為剪切圖像的集群;處理每個(gè)集群中的剪切圖像以生成每個(gè)集群的集群圖像;比較所述集群圖像來(lái)檢測(cè)所述OCR處理對(duì)其錯(cuò)誤指派了一個(gè)或多個(gè)OCR字符碼的集群;對(duì)OCR輸出中被檢測(cè)為具有錯(cuò)誤指派的一個(gè)或多個(gè)OCR字符碼的第一集群指派一個(gè)或多個(gè)新的OCR字符碼;并且在所述OCR輸出中的第一集群的剪切圖像之一每次出現(xiàn)時(shí)使用所述一個(gè)或多個(gè)新的OCR字符碼替代錯(cuò)誤指派的OCR字符碼以產(chǎn)生經(jīng)修改的OCR輸出。每個(gè)集群包括被OCR處理指派了相同的一個(gè)或多個(gè)字符碼的剪切圖像。在另一個(gè)方面,一種用于光學(xué)字符識(shí)別(OCR)的系統(tǒng)可包括OCR引擎和后OCR引擎。所述OCR引擎可操作來(lái)處理文檔的原始圖像以產(chǎn)生包括從所述原始圖像提取的剪切圖像的OCR輸出并且向每個(gè)剪切圖像指派一個(gè)或多個(gè)字符。所述后OCR引擎可操作來(lái)將所述OCR輸出的剪切圖像歸類為剪切圖像的集群。每個(gè)集群包括被OCR引擎指派了相同的一個(gè)或多個(gè)字符碼的剪切圖像。所述后OCR引擎可操作來(lái)對(duì)每個(gè)集群中的剪切圖像進(jìn)行處理以生成每個(gè)集群的集群圖像并且將所述集群圖像進(jìn)行比較以檢測(cè)被OCR引擎錯(cuò)誤指派了一個(gè)或多個(gè)OCR字符碼的集群。所述后OCR引擎進(jìn)一步被操作來(lái)對(duì)OCR輸出中被檢測(cè)為具有錯(cuò)誤指派的一個(gè)或多個(gè)OCR字符碼的第一集群指派一個(gè)或多個(gè)新的OCR字符碼,并且在所述OCR輸出中的第一集群的剪切圖像之一每次出現(xiàn)時(shí)使用所述一個(gè)或多個(gè)新的OCR字符碼替代錯(cuò)誤指派的OCR字符碼以產(chǎn)生經(jīng)修改的OCR輸出。在另一個(gè)方面,一種用于后光學(xué)字符識(shí)別(OCR)處理的方法可包括將在所接收的由光學(xué)字符識(shí)別(OCR)處理所處理的文檔的OCR輸出中限定的剪切圖像歸類為剪切圖像的集群;處理每個(gè)集群中的剪切圖像以生成每個(gè)集群的集群圖像。每個(gè)集群包括大小相同或相似并且被OCR處理指派了相同的一個(gè)或多個(gè)字符碼的剪切圖像。對(duì)于被指派了一個(gè)或多個(gè)第一 OCR字符碼的第一集群,該方法識(shí)別(I)被指派了與所述一個(gè)或多個(gè)第一 OCR字符碼不同的一個(gè)或多個(gè)第二 OCR字符碼的第二集群,其中所述第二集群的集群圖像在形狀上相比被指派了與所述一個(gè)或多個(gè)第一 OCR字符碼不同的一個(gè)或多個(gè)OCR字符的其它集群的集群圖像更接近所述第一集群的集群圖像,和(2)被指派了與第一集群相同的一個(gè)或多個(gè)第一 OCR字符碼的第三集群,其中所述第三集群的集群圖像在形狀上比被指派了一個(gè)或多、個(gè)第一 OCR字符碼的其它集群的集群圖像更接近所述第一集群的集群圖像。該方法至少使用第一集群和第二集群的集群圖像之間的形狀差異以及第一集群和第三集群的集群圖像之間的形狀差異來(lái)確定指派給第一集群的一個(gè)或多個(gè)第一 OCR字符碼的置信等級(jí)。在另一個(gè)方面,一種用于光學(xué)字符識(shí)別(OCR)的系統(tǒng)可包括OCR引擎和后OCR引擎。所述OCR引擎可操作來(lái)處理文檔的原始圖像以產(chǎn)生包括從所述原始圖像提取的剪切圖像的OCR輸出并且向每個(gè)剪切圖像指派一個(gè)或多個(gè)字符;并且所述后OCR引擎可操作來(lái)將所述OCR輸出的剪切圖像歸類為剪切圖像的集群。每個(gè)集群包括大小相同或相似并且被OCR引擎指派了相同的一個(gè)或多個(gè)字符碼的剪切圖像。所述后OCR引擎可操作來(lái)對(duì)每個(gè)集群中的剪切圖像進(jìn)行處理以生成每個(gè)集群的集群圖像。所述后OCR引擎還可操作來(lái)對(duì)于被指派了一個(gè)或多個(gè)第一 OCR字符碼的第一集群識(shí)別(I)被指派了與所述一個(gè)或多個(gè)第一OCR字符碼不同的一個(gè)或多個(gè)第二 OCR字符碼的第二集群,其中所述第二集群的集群圖像在形狀上相比被指派了與所述一個(gè)或多個(gè)第一 OCR字符碼不同的一個(gè)或多個(gè)OCR字符的其它集群的集群圖像更接近所述第一集群的集群圖像,和(2)被指派了與第一集群相同的一 個(gè)或多個(gè)第一 OCR字符碼的第三集群,其中所述第三集群的集群圖像在形狀上比被指派了一個(gè)或多個(gè)第一 OCR字符碼的其它集群的集群圖像更接近所述第一集群的集群圖像。在該系統(tǒng)中,所述后OCR引擎可操作來(lái)至少使用第一集群和第二集群的集群圖像之間的形狀差異以及第一集群和第三集群的集群圖像之間的形狀差異來(lái)確定指派給第一集群的一個(gè)或多個(gè)第一 OCR字符碼的置信等級(jí)。在另一個(gè)方面,一種用于光學(xué)字符識(shí)別(OCR)的系統(tǒng)可包括集群生成引擎和集群處理引擎。所述集群生成引擎可操作來(lái)接收OCR輸出,該OCR輸出具有OCR引擎在處理文檔的原始圖像時(shí)所產(chǎn)生的分離圖像以及由所述OCR引擎向每個(gè)分離圖像指派的一個(gè)或多個(gè)字符。所述集群生成引擎可操作來(lái)將所述OCR輸出中的分離圖像歸類為具有特定圖像大小并且被OCR引擎指派了相同的一個(gè)和多個(gè)OCR字符碼的分離圖像的集群。所述集群處理引擎可操作來(lái)獲取一個(gè)集群的集群圖像和其它集群的集群圖像之間的形狀量度距離并且基于所獲取的形狀量度距離來(lái)檢測(cè)在所述OCR引擎指派給每個(gè)集群的一個(gè)或多個(gè)OCR字符碼的指派中是否存在錯(cuò)誤。所述集群處理引擎可進(jìn)一步被操作來(lái)校正對(duì)集群錯(cuò)誤指派的一個(gè)或多個(gè)OCR字符碼。在另一方面,一種用于光學(xué)字符識(shí)別(OCR)的方法可包括接收OCR輸出,該OCR輸出包括OCR引擎在處理文檔的原始圖像時(shí)所產(chǎn)生的分離圖像以及由所述OCR引擎向每個(gè)分離圖像指派的一個(gè)或多個(gè)字符,將所述OCR輸出中的分離圖像歸類為具有特定圖像大小并且被OCR引擎指派了相同的一個(gè)和多個(gè)OCR字符碼的分離圖像的集群;獲取一個(gè)集群的集群圖像和其它集群的集群圖像之間的形狀量度距離并且基于所獲取的形狀量度距離來(lái)檢測(cè)在所述OCR引擎對(duì)每個(gè)集群指派的一個(gè)或多個(gè)OCR字符碼的指派中是否存在錯(cuò)誤;并且校正對(duì)集群錯(cuò)誤指派的一個(gè)或多個(gè)OCR字符碼。在另一方面,一種方法可包括將從對(duì)原始文檔圖像進(jìn)行處理的光學(xué)字符識(shí)別(OCR)處理所接收的OCR輸出中限定的剪切圖像歸類為剪切圖像的集群。每個(gè)集群包括被OCR處理指派了相同的一個(gè)或多個(gè)特定字符的圖像大小和形狀相同或相似的剪切圖像。在每個(gè)集群的剪切圖像的求平均中應(yīng)用來(lái)自所述原始文檔圖像的灰度和色彩信息以生成每個(gè)集群的平均圖像。
在另一方面,一種用于光學(xué)字符識(shí)別(OCR)的系統(tǒng)可包括OCR引擎和后OCR引擎。所述OCR引擎可操作來(lái)處理文檔的原始圖像以產(chǎn)生具有從所述原始圖像提取的剪切圖像的OCR輸出并且對(duì)每個(gè)剪切圖像指派一個(gè)或多個(gè)字符。所述后OCR引擎可操作來(lái)將所述OCR輸出中的剪切圖像歸類為剪切圖像的集群。每個(gè)集群包括被所述OCR引擎指派了相同的一個(gè)或多個(gè)特定字符的圖像大小和形狀相同或相似的剪切圖像。所述后OCR引擎可操作來(lái)在每個(gè)集群的剪切圖像的求平均中應(yīng)用來(lái)自所述原始文檔圖像的灰度和色彩信息以生成每個(gè)集群的平均圖像。在另一個(gè)方面,一種用于對(duì)來(lái)自光學(xué)字符識(shí)別(OCR)處理的輸出進(jìn)行處理的方法可包括將從處理文檔的原始圖像所生成的OCR處理的輸出中的分離圖像歸類為分離圖像的集群;使用集群圖像來(lái)表示相應(yīng)的集群中的分離圖像;選擇具有低置信等級(jí)的集群以獲取一個(gè)或多個(gè)字符與所選擇集群的集群圖像 的人工指派;并且使用所述人工指派所獲取的一個(gè)或多個(gè)字符來(lái)驗(yàn)證或替代先前由所述OCR處理在OCR處理的輸出中所指派的相應(yīng)的一個(gè)或多個(gè)特定字符。在該方法中,每個(gè)集群包括被所述OCR處理指派了相同的一個(gè)或多個(gè)特定字符的圖像大小和形狀相似的分離圖像。在另一方面,一種用于光學(xué)字符識(shí)別(OCR)的系統(tǒng)可包括OCR引擎和后OCR引擎。所述OCR引擎可操作來(lái)對(duì)文檔的原始圖像進(jìn)行處理以產(chǎn)生從所述原始圖像提取的分離圖像并且向每個(gè)分離圖像指派一個(gè)或多個(gè)字符。所述后OCR引擎可操作來(lái)將OCR輸出中的分離圖像歸類為分離圖像的集群。每個(gè)集群包括被所述OCR引擎指派了相同的一個(gè)或多個(gè)特定字符的圖像大小和形狀相似的分離圖像。所述后OCR引擎可操作來(lái)生成表示相應(yīng)的集群中的分隔圖像的集群圖像,選擇具有低置信等級(jí)的集群來(lái)獲取一個(gè)或多個(gè)字符與所選擇集群的集群圖像的人工指派,并且使用所述人工指派所獲取的一個(gè)或多個(gè)字符來(lái)驗(yàn)證或替代先前由所述OCR引擎所指派的相應(yīng)的一個(gè)或多個(gè)特定字符。在另一方面,一種方法可包括將所接收的由光學(xué)字符識(shí)別(OCR)處理所處理的文檔的OCR輸出中限定的剪切圖像歸類為剪切圖像的集群;生成集群圖像來(lái)表示每個(gè)集群中的剪切圖像;選擇特定集群的集群圖像作為在線挑戰(zhàn)-響應(yīng)(challenge-response)測(cè)試的一部分來(lái)請(qǐng)求對(duì)該特定集群的集群圖像的用戶識(shí)別;并且使用從所述在線挑戰(zhàn)-響應(yīng)測(cè)試接收的用戶識(shí)別來(lái)驗(yàn)證或校正由所述OCR處理對(duì)所述特定集群所指派的一個(gè)或多個(gè)特定字符。在該方法中,每個(gè)集群包括被所述OCR處理指派了相同的一個(gè)或多個(gè)特定字符的圖像大小和形狀相似的剪切圖像。在另一方面,一種方法可包括將所接收的由光學(xué)字符識(shí)別(OCR)處理所處理的文檔的OCR輸出中限定的剪切圖像分類為剪切圖像的集群;使用集群圖像來(lái)表示每個(gè)集群中的剪切圖像;使用在線游戲向所述在線游戲的一個(gè)或多個(gè)用戶提供特定集群的集群圖像用于作為所述在線游戲的一部分的用戶響應(yīng);并且使用從所述在線游戲所接收的用戶響應(yīng)來(lái)驗(yàn)證或校正由所述OCR處理對(duì)所述特定集群所指派的一個(gè)或多個(gè)特定字符。在該方法中,每個(gè)集群包括被所述OCR處理指派了相同的一個(gè)或多個(gè)特定字符的圖像大小和形狀相似的剪切圖像。在另一方面,一種用于光學(xué)字符識(shí)別(OCR)的系統(tǒng)可包括OCR引擎、后OCR處理引擎和表決處理引擎。每個(gè)OCR引擎可操作來(lái)對(duì)文檔的原始圖像進(jìn)行處理并且產(chǎn)生相應(yīng)的OCR輸出。每個(gè)后OCR處理引擎可可操作來(lái)從相應(yīng)的OCR引擎接收OCR輸出并且可操作來(lái)產(chǎn)生所述文檔的相應(yīng)的經(jīng)修改的OCR輸出。所述表決處理引擎可操作來(lái)從所述經(jīng)修改的OCR輸出選擇部分并且將所選擇的部分組合為所述文檔的最終OCR輸出。每個(gè)后OCR處理引擎可操作來(lái)將在所接收的所述文檔的OCR輸出中限定的剪切圖像歸類為剪切圖像的集群并且每個(gè)集群包括由對(duì)應(yīng)的OCR引擎所指派的相同的一個(gè)或多個(gè)特定字符的圖像大小和形狀類似的剪切圖像。每個(gè)后OCR引擎可操作來(lái)生成表示每個(gè)集群中的剪切圖像的集群圖像。所述表決處理引擎可操作來(lái)使用每個(gè)集群的集 群圖像和其它集群的集群圖像之間的形狀差異來(lái)檢測(cè)由對(duì)應(yīng)的OCR引擎對(duì)每個(gè)集群所指派的一個(gè)或多個(gè)特定字符中是否存在錯(cuò)誤;通過(guò)向特定集群新指派一個(gè)或多個(gè)特定字符來(lái)校正在所述特定集群中所檢測(cè)到的每個(gè)錯(cuò)誤;并且使用對(duì)所述特定集群新指派的一個(gè)或多個(gè)特定字符來(lái)替代在對(duì)應(yīng)的經(jīng)修改的OCR輸出中先前由對(duì)應(yīng)的OCR引擎所指派的相應(yīng)的一個(gè)或多個(gè)特定字符。在另一個(gè)方面,一種用于光學(xué)字符識(shí)別(OCR)的方法可包括使用OCR引擎來(lái)處理文檔的原始圖像并且分別產(chǎn)生OCR輸出;獨(dú)立于其它OCR輸出的處理而對(duì)每個(gè)OCR輸出進(jìn)行處理以產(chǎn)生所述文檔的相應(yīng)的經(jīng)修改的OCR輸出,所述處理包括將所接收的所述文檔的OCR輸出中限定的剪切圖像歸類為剪切圖像的集群,生成集群圖像來(lái)表示每個(gè)集群中的剪切圖像,使用每個(gè)集群的集群圖像和其它集群的集群圖像之間的形狀差異來(lái)檢測(cè)由對(duì)應(yīng)的OCR引擎對(duì)每個(gè)集群所指派的一個(gè)或多個(gè)特定字符中是否存在錯(cuò)誤。每個(gè)集群包括由對(duì)應(yīng)的OCR引擎所指派的相同的一個(gè)或多個(gè)特定字符的圖像大小和形狀類似的剪切圖像。該方法進(jìn)一步包括通過(guò)向特定集群新指派一個(gè)或多個(gè)特定字符來(lái)校正在所述特定集群中所檢測(cè)到的每個(gè)錯(cuò)誤,使用對(duì)所述特定集群新指派的一個(gè)或多個(gè)特定字符來(lái)替代對(duì)應(yīng)的經(jīng)修改的OCR輸出中先前由對(duì)應(yīng)的OCR引擎所指派的相應(yīng)的一個(gè)或多個(gè)特定字符;并且從所述經(jīng)修改的OCR輸出選擇部分并將所選擇的部分組合為所述文檔的最終OCR輸出。在另一方面,一種方法可包括利用第一光學(xué)字符識(shí)別(OCR)引擎來(lái)處理文檔圖像以生成第一 OCR輸出并且利用第二 OCR引擎來(lái)處理所述文檔圖像以生成第二 OCR輸出。所述第一 OCR輸出包括識(shí)別位于所述文檔圖像中的第一剪切圖像的第一邊框以及對(duì)每個(gè)第一剪切圖像指派的相應(yīng)的一個(gè)或多個(gè)字符。所述第二 OCR輸出包括識(shí)別位于所述文檔圖像中的第二剪切圖像的第二邊框以及對(duì)每個(gè)第二剪切圖像指派的相應(yīng)的一個(gè)或多個(gè)字符。該方法進(jìn)一步包括對(duì)所述第一 OCR輸出應(yīng)用形狀聚類來(lái)產(chǎn)生具有第一剪切圖像的第一集群以及對(duì)第一剪切圖像的一個(gè)或多個(gè)字符的每個(gè)指派的相應(yīng)的置信分值;對(duì)所述第二 OCR輸出應(yīng)用形狀聚類來(lái)產(chǎn)生具有第二剪切圖像的第二集群以及對(duì)第二剪切圖像的一個(gè)或多個(gè)字符的每個(gè)指派的相應(yīng)的置信分值;并且根據(jù)所述第一 OCR輸出和第二 OCR輸出生成最終的OCR輸出。所述最終的OCR輸出包括邊框并且使用對(duì)所述第一剪切圖像和第二剪切圖像的一個(gè)或多個(gè)字符的指派的置信分值來(lái)對(duì)每個(gè)邊框選擇和指派相應(yīng)的一個(gè)或多個(gè)字符。在另一方面,一種用于光學(xué)字符識(shí)別(OCR)的系統(tǒng)可包括第一 OCR引擎、第一后OCR引擎、第二 OCR引擎、第二后OCR引擎和表決處理引擎。所述第一 OCR引擎可操作來(lái)處理文檔圖像以生成第一 OCR輸出,所述第一 OCR輸出包括識(shí)別位于所述文檔圖像中的第一剪切圖像的第一邊框以及對(duì)每個(gè)第一剪切圖像指派的相應(yīng)的一個(gè)或多個(gè)字符。所述第一后OCR引擎可操作來(lái)對(duì)所述第一 OCR輸出應(yīng)用形狀聚類來(lái)產(chǎn)生具有第一剪切圖像的第一集群以及對(duì)第一剪切圖像的一個(gè)或多個(gè)字符的每個(gè)指派的相應(yīng)的置信分值。所述第二 OCR引擎可操作來(lái)處理文檔圖像以生成第二 OCR輸出,所述第二 OCR輸出包括識(shí)別位于所述文檔圖像中的第二剪切圖像的第二邊框以及分別對(duì)每個(gè)第二剪切圖像指派的一個(gè)或多個(gè)字符。所述第二后OCR引擎可操作來(lái)對(duì)所述第二 OCR輸出應(yīng)用形狀聚類來(lái)產(chǎn)生具有第二剪切圖像的第二集群以及對(duì)第二剪切圖像的一個(gè)或多個(gè)字符的每個(gè)指派的相應(yīng)的置信分值。所述表決處理引擎被用來(lái)接收和處理所述第一 OCR輸出和第二 OCR輸出,并且基于置信分值從所述第一和第二集群產(chǎn)生最終的OCR輸出。在另一方面,一種方法可包括利用第一光學(xué)字符識(shí)別(OCR)引擎處理文檔圖像以生成第一 OCR輸出,并且利用第二光學(xué)字符識(shí)別(OCR)引擎處理文檔圖像以生成第二 OCR輸出。所述第一 OCR輸出包括識(shí)別位于所述文檔圖像中的第一剪切圖像的第一邊框以及對(duì)每個(gè)第一剪切圖像指派的相應(yīng)的一個(gè)或多個(gè)字符。所述第二 OCR輸出包括識(shí)別位于所述文檔圖像中的第二剪切圖像的第二邊框以及對(duì)每個(gè)第 二剪切圖像指派的相應(yīng)的一個(gè)或多個(gè)字符。該方法進(jìn)一步包括將所述第一剪切圖像和第二剪切圖像歸類為集群,其中每個(gè)集群僅包括對(duì)其指派了相同的一個(gè)或多個(gè)字符的剪切圖像;生成每個(gè)集群的集群圖像;使用所述集群圖像來(lái)驗(yàn)證或校正對(duì)剪切圖像的字符指派并且確定對(duì)剪切圖像的一個(gè)或多個(gè)字符的每個(gè)指派的置信分值;并且使用對(duì)所述集群圖像的字符指派來(lái)生成最終的OCR輸出。在另一方面,一種用于光學(xué)字符識(shí)別(OCR)的系統(tǒng)可包括第一 OCR引擎、第二 OCR引擎、后OCR引擎和表決處理引擎。所述第一 OCR引擎可操作來(lái)處理文檔圖像以生成第一OCR輸出。該第一 OCR輸出包括識(shí)別位于所述文檔圖像中的第一剪切圖像的第一邊框以及對(duì)每個(gè)第一剪切圖像指派的相應(yīng)的一個(gè)或多個(gè)字符。所述第二 OCR引擎可操作來(lái)處理文檔圖像以生成第二 OCR輸出。該第二 OCR輸出包括識(shí)別位于所述文檔圖像中的第二剪切圖像的第二邊框以及對(duì)每個(gè)第二剪切圖像指派的相應(yīng)的一個(gè)或多個(gè)字符。所述后OCR引擎被用來(lái)接收所述第一和第二 OCR輸出并且將所述第一剪切圖像和第二剪切圖像歸類為集群。每個(gè)集群僅包括對(duì)其指派了相同的一個(gè)或多個(gè)字符的剪切圖像以及表示每個(gè)集群的剪切圖像的集群圖像。所述表決處理引擎可操作來(lái)基于從所述后OCR引擎對(duì)所述集群圖像的字符指派來(lái)生成最終的OCR輸出。在另一方面,一種方法可包括利用第一光學(xué)字符識(shí)別(OCR)引擎處理文檔圖像以生成第一 OCR輸出;對(duì)所述第一 OCR輸出應(yīng)用形狀聚類以產(chǎn)生第一經(jīng)修改的OCR輸出。所述第一 OCR輸出包括識(shí)別位于所述文檔圖像中的剪切圖像的第一邊框以及對(duì)每個(gè)剪切圖像指派的相應(yīng)的一個(gè)或多個(gè)字符。所述第一經(jīng)修改的OCR輸出包括對(duì)于剪切圖像的字符指派的修改以及在所述文檔圖像中認(rèn)出的詞。該方法進(jìn)一步包括識(shí)別所述第一經(jīng)修改的OCR輸出中的可疑詞,所述可疑詞是具有被識(shí)別為可疑字符的字符的詞;并且利用第二 OCR引擎對(duì)所述可疑詞進(jìn)行處理以認(rèn)出所述可疑詞。在另一方面,一種用于光學(xué)字符識(shí)別(OCR)的系統(tǒng)可包括第一 OCR引擎、第一后OCR引擎和第二 OCR引擎。所述第一 OCR引擎可操作來(lái)處理文檔圖像以生成第一 OCR輸出,所述第一 OCR輸出包括識(shí)別位于所述文檔圖像中的第一剪切圖像的第一邊框以及對(duì)每個(gè)第一剪切圖像指派的相應(yīng)的一個(gè)或多個(gè)字符。所述第一后OCR引擎可操作來(lái)對(duì)所述第一OCR輸出應(yīng)用形狀聚類以產(chǎn)生第一經(jīng)修改的OCR輸出,所述第一經(jīng)修改的OCR輸出包括對(duì)于剪切圖像的字符指派的修改以及在所述文檔圖像中認(rèn)出的詞。所述第一后OCR引擎可操作來(lái)識(shí)別所述第一經(jīng)修改的OCR輸出中的可疑詞,并且所述可疑詞是具有被識(shí)別為可疑字符的字符的詞。所述第二 OCR引擎可操作來(lái)接收并處理所述可疑詞以認(rèn)出所述可疑詞。
在另一方面,一種方法可包括處理文檔圖像以產(chǎn)生所述圖像的非重疊子區(qū)域的集合,其中每個(gè)子區(qū)域?yàn)榈谝环直媛?;生成視覺(jué)上類似的剪切子區(qū)域的多個(gè)集群,其中所述集合中的每個(gè)子區(qū)域包括在集群之一中;以高于所述第一分辨率的第二分辨率根據(jù)在相應(yīng)的集群中的所述子區(qū)域?qū)λ龆鄠€(gè)集群中每一個(gè)生成代表性集群圖像;并且通過(guò)利用其中包括相應(yīng)的子區(qū)域的集群的代表性集群圖像替代所述圖像中的子區(qū)域來(lái)產(chǎn)生所述文檔的副本圖像。在另一方面,一種方法可包括對(duì)文檔的原始圖像應(yīng)用光學(xué)字符識(shí)別(OCR)處理以產(chǎn)生所述原始圖像的不同位置的剪切圖像,其中每個(gè)剪切圖像為第一分辨率;將所述剪切圖像歸類為剪切圖像的集群,其中每個(gè)集群包括被所述OCR處理指派了相同的一個(gè)或多個(gè)字符碼并且大小相同或相似的剪切圖像;將每個(gè)集群中的每個(gè)剪切圖像轉(zhuǎn)換為高于所述第一分辨率的第二分辨率的經(jīng)轉(zhuǎn)換的剪切圖像;對(duì)在每個(gè)集群中的經(jīng)轉(zhuǎn)換的剪切圖像求平均以產(chǎn)生集群圖像;并且使用所述集群的集群圖像來(lái)替代由所述OCR處理最初產(chǎn)生的對(duì)應(yīng)的剪切圖像從而以第二分辨率生成所述文檔的原始圖像的副本。
在又另一個(gè)方面,一種系統(tǒng)可包括光學(xué)字符識(shí)別(OCR)引擎和后OCR引擎。所述OCR引擎可操作來(lái)處理文檔的原始圖像以產(chǎn)生包括所述原始圖像不同位置的剪切圖像的OCR輸出。每個(gè)剪切圖像為第一分辨率。所述后OCR引擎與所述OCR引擎進(jìn)行通信以接收所述OCR輸出。所述后OCR引擎可操作來(lái)將所述剪切圖像歸類為剪切圖像的集群,其中每個(gè)集群包括被所述OCR引擎指派了相同的一個(gè)或多個(gè)字符碼并且大小相同或相似的剪切圖像。所述后OCR引擎可操作來(lái)將每個(gè)集群中的每個(gè)剪切圖像轉(zhuǎn)換為高于所述第一分辨率的第二分辨率的經(jīng)轉(zhuǎn)換剪切圖像;對(duì)每個(gè)集群中的經(jīng)轉(zhuǎn)換剪切圖像求平均以生成集群圖像;并且使用所述集群的集群圖像來(lái)替代由所述OCR引擎最初產(chǎn)生的對(duì)應(yīng)的剪切圖像從而以第二分辨率生成所述文檔的原始圖像的副本??蓪?shí)施本發(fā)明的特定實(shí)施例來(lái)實(shí)現(xiàn)一個(gè)或多個(gè)優(yōu)勢(shì)。例如,來(lái)自以普通方式印刷或書寫的長(zhǎng)篇文檔的大量樣本包括圖像信息,所述圖像信息可在樣本數(shù)量足夠大時(shí)被訪問(wèn)。這樣的信息可被用來(lái)提高識(shí)別字符時(shí)的精度。該說(shuō)明書中所描述的形狀聚類技術(shù)可被應(yīng)用來(lái)對(duì)大量樣本進(jìn)行處理以提取關(guān)于圖案相似度和相異度的附加圖像信息。本發(fā)明的一個(gè)或多個(gè)實(shí)施例的細(xì)節(jié)在附圖和在以下描述中進(jìn)行闡述。根據(jù)所述描述、附圖和權(quán)利要求,本發(fā)明的其它特征、方面和優(yōu)勢(shì)將變得顯而易見(jiàn)。
圖I圖示了從特定OCR引擎的輸出獲取的OCR所生成的邊框、相關(guān)的剪切圖像和指派的OCR字符碼的示例。圖2示出了在后OCR處理中應(yīng)用形狀聚類的示例性方法。圖3是示出對(duì)OCR輸出應(yīng)用形狀聚類以產(chǎn)生經(jīng)修改的OCR輸出的示例性后OCR處理引擎的示例的框圖。圖4是示出用于由圖3的集群生成引擎進(jìn)行的集群歸類的示例性處理的流程圖。圖5圖示了通過(guò)對(duì)集群中在其質(zhì)心對(duì)齊的剪切圖像求平均來(lái)計(jì)算集群圖像的一個(gè)示例性處理。圖6圖示了能夠由集群處理軟件330執(zhí)行以使用用于OCR字符碼指派的形狀聚類的方法 示例。圖7、8和9示出了從OCR引擎的輸出獲取的集群以及由圖3的集群處理引擎所計(jì)算的相關(guān)集群參數(shù)的示例。圖10示出了滑動(dòng)窗口處理的示例,其中通過(guò)使用具有高置信分值的集群作為用于對(duì)可疑集群圖像進(jìn)行重新分割的集群圖像模板來(lái)將可疑集群圖像重新分割為更小的集群圖像。圖IlA和IlB示出了圖10中的滑動(dòng)窗口處理的操作細(xì)節(jié)。圖12圖示了自動(dòng)人工校正的一種實(shí)施方式,其中人工校正處理可被包括為圖3中的集群處理軟件的一部分。圖13示出了在表決配置中包括兩個(gè)或更多OCR引擎和后OCR處理引擎的示例性O(shè)CR系統(tǒng)。圖14示出了在表決配置中包括兩個(gè)或多個(gè)OCR引擎和單個(gè)后OCR處理引擎的另一種不例性O(shè)CR系統(tǒng)。圖15示出了使用第一 OCR引擎處理原始文檔圖像并且使用第一后OCR引擎處理來(lái)自所述第一 OCR引擎的OCR輸出以產(chǎn)生經(jīng)修改的OCR輸出的示例性O(shè)CR系統(tǒng)。圖16圖示了用來(lái)產(chǎn)生文檔的高分辨率版本的一種示例性處理。圖17圖示了示例性的高分辯率按需打印系統(tǒng)。圖18示出了實(shí)施OCR處理和后OCR處理的示例性計(jì)算機(jī)系統(tǒng)。圖19示出了基于OCR和后OCR處理提供在線OCR服務(wù)的示例性計(jì)算機(jī)系統(tǒng)。類似的附圖標(biāo)記和標(biāo)號(hào)在各附圖中指示類似元素。
具體實(shí)施例方式不同OCR引擎的OCR輸出可有所變化,但是許多包括字符邊框和所述邊框的OCR指派的字符碼。圖I圖示了從特定OCR引擎的輸出所獲取的OCR生成的邊框、相關(guān)的剪切圖像和指派的OCR字符碼的示例。所述OCR引擎對(duì)文檔的原始數(shù)字圖像進(jìn)行處理并且將該原始圖像分割為與被獨(dú)立認(rèn)出的字符相對(duì)應(yīng)的獨(dú)立剪切圖像。所述OCR引擎產(chǎn)生并使用邊框來(lái)圍住和識(shí)別一個(gè)或多個(gè)單獨(dú)認(rèn)出的字符。例如,圖I中的邊框110、120、140和160分別圍住標(biāo)點(diǎn)符號(hào)的句點(diǎn)、字母“F”、字母“ο”和數(shù)字“4”。每個(gè)OCR字符碼能夠表示一個(gè)或多個(gè)字符。每個(gè)字符可包括一個(gè)或多個(gè)語(yǔ)言標(biāo)記,其中語(yǔ)言標(biāo)記是語(yǔ)言的基本單元,并且可包括例如字母、數(shù)字以及符號(hào)或標(biāo)志。符號(hào)或標(biāo)記可以是例如標(biāo)點(diǎn)符號(hào)、排字標(biāo)記或變音符(diacritical mark)。因此,字符的示例可以是字母、數(shù)字、符號(hào)或標(biāo)志以及兩個(gè)或更多語(yǔ)言標(biāo)記的連字(ligature)。圖I包括根據(jù)對(duì)字母、數(shù)字和標(biāo)點(diǎn)符號(hào)相應(yīng)指派的OCR字符碼而生成的OCR字符的特定示例。根據(jù)OCR引擎指派的OCR字符碼生成文本字符130和150,其中對(duì)在邊框120和邊框160內(nèi)所包含的文檔圖像部分分別生成字母“F”和數(shù)字“4”。在圖I所示的示例中,OCR引擎所生成的邊框?yàn)榫匦?,并且其大小和縱橫比隨所圍住的獨(dú)立字符的大小和縱橫比而變化。在該示例中,每個(gè)邊框圍住一個(gè)字符的圖像像素。所要處理的文檔的原始圖像可以是二進(jìn)制圖像、灰度圖像或彩色圖像中的一個(gè)或多個(gè)。灰度數(shù)據(jù)或色彩數(shù)據(jù)通常比二進(jìn)制數(shù)據(jù)包含更為詳細(xì)的圖像信息,因此對(duì)于提取細(xì)致或詳細(xì)的圖像特征可以是有價(jià)值的。在一些OCR引擎中,原始圖像首先被轉(zhuǎn)換為二進(jìn)制圖像,并且接著對(duì)所轉(zhuǎn)換的二進(jìn)制圖像進(jìn)行處理以便進(jìn)行光學(xué)字符識(shí)別。該轉(zhuǎn)換可對(duì)OCR處理和后OCR處理的質(zhì)量造成逆向影響。因此,以下所描述的一些技術(shù)訪問(wèn)原始圖像以獲取灰度信息或色彩信息以便在后OCR處理中使用并由此提高了處理精度。該說(shuō)明書中所描述的技術(shù)可被用來(lái)充分利用嵌入在來(lái)自以普通方式印刷或書寫的長(zhǎng)篇文檔的大量樣本中的圖像信息,以提高識(shí)別字符時(shí)的精度。形狀聚類技術(shù)被用來(lái)處理所述大量樣本來(lái)提取關(guān)于圖案類似度和相異度的附加圖像信息。適于應(yīng)用形狀聚類技術(shù)的長(zhǎng)篇文檔的示例包括書、諸如報(bào)紙、期刊和雜志之類的周期性印刷出版物的集合以及由同一人或具有類似書寫風(fēng)格的不同人所書寫的文檔的集合等。圖2示出了在后OCR處理中應(yīng)用形狀聚類的示例性方法。文檔的原始數(shù)字圖像首先被OCR引擎處理,以產(chǎn)生包括獨(dú)立邊框的OCR輸出,所述邊框包圍著所述原始數(shù)字圖像內(nèi)的剪切圖像。所述OCR引擎還分別為所述邊框指派OCR字符碼。該OCR輸出的后OCR處理可如下執(zhí)行。在步驟210,所述OCR輸出中的邊框所限定的剪切圖像被歸類為剪切圖像的不同集群。被歸類在一個(gè)集群中的剪切圖像已經(jīng)被OCR弓丨擎指派了一個(gè)或多個(gè)共同的OCR字符碼且被識(shí)別為相同或相似的大小,并且被后OCR處理基于諸如形狀距離之類的適當(dāng)形狀量度確定為具有相同或相似的形狀。例如,這樣的集群可包括處于特定剪切圖像大小或與之近似的用于字母“C”的相同或相似的剪切圖像。因此,以上歸類處理使用適當(dāng)?shù)男螤盍慷葘?duì)被指派具有一個(gè)或多個(gè)共同OCR字符碼并且大小相同或相似的不同剪切圖像的形狀進(jìn)行比較。例如,可計(jì)算兩個(gè)這樣的剪切圖像之間的形狀距離來(lái)確定形狀相似度的程度。該形狀比較將剪切圖像分離成集群,其中每個(gè)集群具有被形狀量度測(cè)量為形狀相同或相似、被相應(yīng)的邊框的大小(例如,沿邊框的一個(gè)維度的像素?cái)?shù)目)測(cè)量為大小相同或相似并且被指派具有一個(gè)或多個(gè)共同的OCR字符碼的剪切圖像。可生成集群圖像來(lái)表示每個(gè)集群中的剪切圖像(步驟220)。所述集群圖像可以是每個(gè)集群的剪切圖像的代表性圖像,并且可以利用不同方法來(lái)生成。例如,可將集群中的剪切圖像進(jìn)行平均來(lái)產(chǎn)生平均圖像作為集群圖像。作為另一個(gè)示例,可選擇集群中的一個(gè)剪切圖像作為集群圖像。在對(duì)每個(gè)集群生成集群圖像之后,在各種后OCR處理操作中可由所述集群圖像以及指派到集群的一個(gè)或多個(gè)OCR字符碼來(lái)表示每個(gè)集群。可注意到,在形成集群之后,一些后續(xù)處理操作可以以集群的級(jí)別進(jìn)行?;谛螤钕嗨贫葘⒚總€(gè)集群圖像與其它集群圖像進(jìn)行比較來(lái)驗(yàn)證OCR輸出中對(duì)集群的一個(gè)或多個(gè)OCR字符碼的指派以及檢測(cè)對(duì)集群錯(cuò)誤指派的一個(gè)或多個(gè)OCR字符碼(步驟230)。如果在比較不同集群圖像時(shí)沒(méi)有檢測(cè)到錯(cuò)誤,則由OCR引擎指派給集群的一個(gè)或多個(gè)OCR字符碼被驗(yàn)證為正確。如果檢測(cè)到錯(cuò)誤,則生成一個(gè)或多個(gè)新的OCR字符碼并指派給所述集群(步驟240)。該基于不同集群之間的形狀相似度檢查每個(gè)集群中的一個(gè)或多個(gè)OCR字符碼指派并且校正錯(cuò)誤指派的處理可被部分用于確定對(duì)集群圖像的每個(gè)指派的置信分值,該置信分值指示每個(gè)指派的可信度級(jí)別。在生成了一個(gè)或多個(gè)新的OCR字符碼后,所述一個(gè)或多個(gè)新的OCR字符碼被用來(lái)在OCR輸出中該集群的集群圖像每次出現(xiàn)時(shí)替代錯(cuò)誤指派的一個(gè)或多個(gè)OCR字符碼,以產(chǎn)生經(jīng)修改的OCR輸出(步驟250)。OCR錯(cuò)誤的這種校正以集群級(jí)別執(zhí)行并且被應(yīng)用到該集群中的所有圖像。該集群級(jí)別的處理比每次對(duì)原始圖像中的一個(gè)圖像實(shí)例或出現(xiàn)執(zhí)行錯(cuò)誤校正的技術(shù)更為高效。至少出于該原因,該集群級(jí)別的處理在OCE處理中有效處理長(zhǎng)篇文檔時(shí)是有利的。、
當(dāng)基于形狀相似度對(duì)集群圖像所進(jìn)行的比較沒(méi)有發(fā)現(xiàn)OCR引擎對(duì)集群所進(jìn)行的一個(gè)或多個(gè)OCR字符碼的指派中存在錯(cuò)誤時(shí),該比較已經(jīng)驗(yàn)證了所述OCR引擎所進(jìn)行的指派。該驗(yàn)證是有價(jià)值的,原因在于在驗(yàn)證之后會(huì)提高對(duì)所述集群的一個(gè)或多個(gè)OCR字符碼指派的置信等級(jí)。因此,及時(shí)沒(méi)有對(duì)OCR引擎最初生成的一個(gè)或多個(gè)OCR字符碼指派進(jìn)行校正,集群圖像的比較也能夠提高后OCR處理中的OCR質(zhì)量。置信分值還可以被其它因素所影響,例如對(duì)集群的一個(gè)或多個(gè)OCR字符碼的指派是否由人工識(shí)別進(jìn)行了驗(yàn)證以及集群中的剪切圖像數(shù)目。出于該說(shuō)明的原因,人工意味著需要諸如人的獨(dú)立實(shí)體的作用。人工識(shí)別所進(jìn)行的驗(yàn)證可被用來(lái)對(duì)集群指派高的置信分值。在統(tǒng)計(jì)上,與具有較小的剪切圖像數(shù)量的集群相比,集群中剪切圖像的數(shù)量大會(huì)表明高的集群置信分值。圖3是示出示例性后OCR處理引擎310的框圖,所述后OCR處理引擎310對(duì)OCR輸出應(yīng)用形狀聚類以產(chǎn)生經(jīng)修改的OCR輸出。OCR引擎300是對(duì)文檔的數(shù)字圖像301進(jìn)行處理并且產(chǎn)生OCR輸出302的OCR軟件模塊。后OCR處理引擎310是進(jìn)一步對(duì)OCR輸出302進(jìn)行處理以對(duì)任意OCR錯(cuò)誤進(jìn)行校正并由此產(chǎn)生OCR精度得以提高的經(jīng)修改的OCR輸出的軟件模塊。在該示例中,后OCR處理引擎310包括集群生成軟件320、集群處理軟件330和輸出處理軟件340。集群生成軟件320可操作來(lái)接收OCR輸出302,并且基于剪切圖像的形 狀相似度將OCR輸出302中的獨(dú)立剪切圖像歸類為集群322。集群處理軟件330處理集群322并且能夠?qū)?22進(jìn)行表征和修改以產(chǎn)生經(jīng)修改的集群332,其中一些集群被進(jìn)一步表征并且OCR輸出302中的一些OCR錯(cuò)誤基于從集群處理獲取的屬性而得以校正。集群處理軟件330能夠應(yīng)用形狀聚類來(lái)從每個(gè)集群中的剪切圖像提取形狀信息。所提取的形狀信息可被用來(lái)將不同集群的集群圖像的形狀進(jìn)行比較并且獲取不同集群的形狀差異,尤其是具有不同的指派OCR字符碼的集群之間的形狀差異。該形狀比較可接著被用來(lái)確定OCR輸出302中的所指派的OCR字符碼中是否存在錯(cuò)誤。輸出處理軟件340可對(duì)OCR輸出302應(yīng)用經(jīng)修改的集群332并且在生成經(jīng)修改的OCR輸出350時(shí)校正在OCR輸出302中所檢測(cè)到的錯(cuò)誤。錯(cuò)誤可以是對(duì)集群的一個(gè)或多個(gè)OCR字符碼不正確指派。輸出處理軟件330還可以使用經(jīng)修改的集群332中的集群信息來(lái)校正詞中的剪切圖像的不正確分割。在以下討論剪切圖像的不正確分割,例如參考圖10、IlA和11B。圖3所示的后OCR處理系統(tǒng)及其變化形式可以在通信網(wǎng)絡(luò)中的一個(gè)或多個(gè)計(jì)算機(jī)服務(wù)器中實(shí)施。所述一個(gè)或多個(gè)計(jì)算機(jī)服務(wù)器可被用來(lái)提供OCR引擎300和后OCR引擎310。所述網(wǎng)絡(luò)中的客戶端計(jì)算機(jī)可向所述一個(gè)或多個(gè)計(jì)算機(jī)服務(wù)器發(fā)送文檔圖像301來(lái)請(qǐng)求文檔301的OCR輸出。OCR引擎300和后OCR引擎310對(duì)客戶端的文檔圖像進(jìn)行處理并且產(chǎn)生OCR輸出350,所述OCR輸出350可通過(guò)所述通信網(wǎng)絡(luò)發(fā)送到所述客戶端計(jì)算機(jī)。如圖3所示,在一些實(shí)施方式中,集群生成軟件320可直接訪問(wèn)文檔的原始圖像并且獲取在OCR輸出302中可能無(wú)法獲得的文檔原始圖像的灰度或色彩數(shù)據(jù),以生成集群322。因此,在該示例中,所述原始圖像的灰度或色彩數(shù)據(jù)被用來(lái)驗(yàn)證并修改對(duì)于集群的OCR字符碼指派并且提高后OCR處理引擎310的處理精度。在其它實(shí)施方式中,集群處理軟件330可選擇具有所指派的一個(gè)或多個(gè)有疑問(wèn)的OCR字符碼的集群,并且獲取對(duì)所選擇集群的圖像的人工識(shí)別。該人工識(shí)別生成具有所選擇集群的圖像的一個(gè)或多個(gè)字符的人工指派。該說(shuō)明書在以下描述了一些實(shí)施方式將所指派的一個(gè)或多個(gè)OCR字符碼確定為有疑問(wèn)的方式。
集群處理軟件330的輸出為經(jīng)修改的集群332。輸出處理軟件340使用經(jīng)修改的集群332的OCR字符碼來(lái)更新OCR輸出320中的OCR字符碼以產(chǎn)生經(jīng)修改的OCR輸出350。與集群處理軟件330中的處理類似,輸出處理軟件340在更新OCR輸出320中的OCR字符碼時(shí)以集群級(jí)別進(jìn)行操作。輸出處理軟件340還可以選擇包括具有一個(gè)或多個(gè)OCR字符碼的有疑問(wèn)指派的可疑集群的詞,以便進(jìn)行重新分割,即將相關(guān)的集群圖像重新分割為兩個(gè)或更多新的集群圖像并且基于來(lái)自具有高置信分值的所選擇集群的匹配圖像對(duì)新的集群圖像指派OCR字符碼,所述具有高置信分值的所選擇集群諸如具有大量剪切圖像的集群、具有經(jīng)由人工識(shí)別獲取的字符碼的集群。
圖4是示出能夠由圖3的集群生成軟件320執(zhí)行的集群生成的示例性處理的流程圖。在該處理中,除OCR引擎300所指派的OCR字符碼之外,集群生成軟件320使用OCR輸出302中關(guān)于剪切圖像的形狀和大小的信息將剪切圖像歸類為集群、組塊(bucket)和類。歸類于一個(gè)集群中的剪切圖像已經(jīng)被OCR引擎300指派了一個(gè)或多個(gè)共同的OCR字符碼,并且被OCR引擎300基于相應(yīng)的邊框的大小而識(shí)別為近似為特定剪切圖像大小。特別地,在該處理中,基于與另一個(gè)集群形狀相同或相似的形狀量度來(lái)選擇一個(gè)集群中的剪切圖像。在一些實(shí)施方式中,在集群生成軟件320所進(jìn)行的集群生成中并不明確使用字體類型信息。然而,在生成集群中使用的形狀比較處理意在將字體相同或相似并且為相同或相似字體大小的字符置入相同集群中。例如,Time Roman字體且為12點(diǎn)大小的字母“g”的剪切圖像可被歸類于一個(gè)集群中,而TimeRoman字體且為10點(diǎn)大小的字母“g”的剪切圖像可被歸類于不同集群中。集群可被分組為組塊,其中每個(gè)組塊具有被指派以相同或相似大小的一個(gè)或多個(gè)共同OCR字符碼的集群。被指派以一個(gè)或多個(gè)共同OCR字符碼的所有組塊可被分組在一起作為所述一個(gè)或多個(gè)共同OCR字符碼所識(shí)別的集群類。例如,不同字體和字體大小的字母“c”的剪切圖像的所有集群在“c”類中。因此,英文中26個(gè)字母的剪切圖像被歸類于26個(gè)不同類中。在圖4的示例性集群生成中,集群生成軟件320首先將剪切圖像劃分為類,其中一個(gè)類中的剪切圖像無(wú)論其形狀和大小如何都被指派一個(gè)或多個(gè)共同的OCR字符碼(步驟410)。在每個(gè)類中,集群生成軟件320將剪切圖像劃分為組塊,其中一個(gè)組塊中的剪切圖像具有相同或相似的大小但是可能形狀有所不同,諸如不同的字體類型(步驟420)。在所有類中進(jìn)行該操作。在每個(gè)組塊中,集群生成軟件320基于其形狀與另一剪切圖像的距離將剪切圖像劃分為集群,其中一個(gè)集群中的剪切圖像具有相同或相似的形狀,例如,字體類型和大小相同或相似的字符(步驟430)。在將剪切圖像歸類到集群之后,集群生成軟件320為每個(gè)集群生成表示集群形狀的集群圖像。所述集群圖像是集群中的剪切圖像的代表性圖像,并且可以例如通過(guò)對(duì)每個(gè)集群中的剪切圖像進(jìn)行平均或者從剪切圖像中選擇特定的剪切圖像來(lái)生成(步驟440)。結(jié)果,每個(gè)集群可由所述集群圖像以及指派到所述集群的相應(yīng)的一個(gè)或多個(gè)OCR字符碼來(lái)表示(步驟450)。在后OCR引擎310所進(jìn)行的后續(xù)處理中,能夠以集群級(jí)別進(jìn)行各種后OCR處理操作而不是處理各個(gè)剪切圖像??蓱?yīng)用多種求平均技術(shù)來(lái)獲取集群圖像。圖5圖示了一種用于通過(guò)對(duì)在其質(zhì)心對(duì)齊的剪切圖像進(jìn)行平均來(lái)計(jì)算集群圖像的示例性處理。每個(gè)剪切圖像的邊框內(nèi)的圖像信息可被用來(lái)計(jì)算每個(gè)剪切圖像的質(zhì)心(步驟510)。集群內(nèi)不同剪切圖像的邊框相對(duì)于其所計(jì)算的質(zhì)心對(duì)齊(步驟520)。對(duì)集群的所對(duì)齊剪切圖像的像素值進(jìn)行平均來(lái)生成平均圖像作為集群圖像(步驟530)。根據(jù)集群生成軟件320在集群生成期間比較不同剪切圖像的形狀時(shí)所最初使用的剪切圖像的像素值,每個(gè)像素值可以是二進(jìn)制值、灰度值或色彩值。剪切圖像像素的灰度或色彩值可被用來(lái)生成集群并且計(jì)算具有詳細(xì)和細(xì)致特征的集群圖像,從二進(jìn)制像素值獲取的集群圖像可能無(wú)法獲得所述詳細(xì)和細(xì)致特征。當(dāng)OCR引擎300在OCR輸出302中僅提供二進(jìn)制圖像信息時(shí),后處理引擎310可直接訪問(wèn)文檔301的原始圖像以獲取灰度或色彩信息。OCR輸出302中每個(gè)獨(dú)立剪切圖像的邊框的位置坐標(biāo)是已知的,并且所述邊框可基于已知位置坐標(biāo)被應(yīng)用到文檔301的原始圖像以從文檔301的原始圖像獲取對(duì)應(yīng)的灰度或彩色像素信息。所獲取的每個(gè)剪切圖像的灰度或色彩信息接著被用來(lái)比較剪切圖像的形狀以便生成集群320,并且計(jì)算每個(gè)集群內(nèi)的剪切圖像的平均圖像作為對(duì)應(yīng)的集群圖像。如上所述,作為集群的基本單元的剪切圖像可以是表示一個(gè)或多個(gè)OCR字符碼的圖像。因此,可對(duì)單個(gè)剪切圖像指派兩個(gè)或更多OCR字符碼。許多OCR引擎被設(shè)計(jì)為使用單個(gè)邊框作為基本單元來(lái)向與每個(gè)單個(gè)邊框相關(guān)聯(lián)的剪切圖像指派一個(gè)或多個(gè)OCR字符碼。在實(shí)施該說(shuō)明書中的聚類技術(shù)時(shí),集群的基本單元可以是與OCR引擎所產(chǎn)生的單個(gè)邊框相關(guān)聯(lián)的剪切圖像,以及與所述OCR引擎所產(chǎn)生的兩個(gè)或更多相鄰邊框相關(guān)聯(lián)的剪切圖像。在后者的情況下,相連的剪切圖像時(shí)作為分別與在所接收的OCR輸出中的兩個(gè)或更多相鄰邊框相關(guān)聯(lián)的兩個(gè)或更多剪切圖像的組合的“相連”剪切圖像。因此,集群生成軟件320可被設(shè)計(jì)成將在所接收的OCR輸出中的相連剪切圖像歸類為形狀和大小相同或相似并且與所述OCR引擎指派給相應(yīng)的相鄰邊框的相同字符相關(guān)聯(lián)的相連剪切圖像的相連集群。當(dāng)與OCR引擎所產(chǎn)生的兩個(gè)或更多相鄰邊框相關(guān)聯(lián)的相連剪切圖像被用作形成集群的基本單元時(shí),圖3中的集群生成軟件320在確定剪切圖像的大小時(shí)實(shí)質(zhì)上分別將兩個(gè)或更多的相鄰邊框當(dāng)作相連的單個(gè)邊框。這樣的相連邊框并非由OCR引擎所產(chǎn)生,而是由所給出的后OCR處理引擎310中的集群生成軟件320所生成并作為其產(chǎn)生結(jié)果。在該說(shuō)明書中所描述的各種處理操作中,處理或使用這種具有兩個(gè)或更多相鄰的OCR所生成邊框的相連邊框可以與使用或處理單個(gè)OCR所生成邊框類似,包括計(jì)算與邊框相關(guān)聯(lián)的剪切圖像的形狀距離、邊框質(zhì)心、不同邊框的對(duì)齊、對(duì)與邊框相關(guān)聯(lián)的剪切圖像求平均、獲取人工識(shí)別以及內(nèi)插(interpolation)邊框中的剪切圖像。因此,該說(shuō)明書中的邊框可以是OCR引擎所生成的單個(gè)邊框或者將OCR引擎所生成的兩個(gè)或更多相鄰邊框相連接的邊框。因此,與將OCR引擎所生成的兩個(gè)或更多相鄰邊框相連接的相連邊框相關(guān)聯(lián)的相連剪切圖像可以是分別與將OCR引擎所生成的兩個(gè)或更多相鄰邊框相關(guān)聯(lián)的各個(gè)剪切圖像的組合,并且可以在集群處理中以和關(guān)聯(lián)于OCR引擎所生成的單個(gè)邊框的剪切圖像相同的方式來(lái)對(duì)待。可注意到,與每一個(gè)連接OCR引擎所生成的兩個(gè)或更多相鄰邊框的邊框相關(guān)聯(lián)的相連剪切圖像可以在該說(shuō)明書中所描述的聚類處理中進(jìn)行聚類。因此,在將每個(gè)集群與不同字符的所有集群進(jìn)行比較時(shí),所述比較包括其中每個(gè)集群成員具有將兩個(gè)或更多OCR所生成的邊框相連接并且由此被指派多個(gè)字符的邊框的集群。結(jié)果,聚類處理中的比較可由于不同集群而產(chǎn)生多個(gè)不一致。 例如,被指派字符“r”的OCR字符碼的“r”集群包括字符“r”的剪切圖像樣本?!皉”集群中的這些剪切圖像樣本中的一些,例如臨近“η”剪切圖像的“r”剪切圖像,還可包括在被指派“rn”的OCR字符連字的2字符集群中作為“rn”的剪切圖像的一部分。與包括“r”和“η”集群的許多其它集群相比,“rn”集群的集群圖像在形狀上可能與“m”集群更為接近。雖然會(huì)有沖突的情況,但是用于確定每個(gè)集群是否為可疑集群、不可接受集群或獨(dú)立集群的整體處理保持相同。以上η = 2的示例擴(kuò)展到η階(n-gram)集群,并且隨著η的增力口,計(jì)算需求會(huì)有所增加且返回精度會(huì)降低。集群處理軟件330對(duì)每個(gè)集群322進(jìn)行估算來(lái)確定由OCR引擎300最初對(duì)每個(gè)集群指派的一個(gè)或多個(gè)OCR字符碼是否充分可靠以便在經(jīng)修改的OCR輸出350中使用。當(dāng)由OCR引擎300最初對(duì)集群指派的一個(gè)或多個(gè)OCR字符碼被確定為不可靠時(shí),集群處理軟件330可對(duì)所述集群執(zhí)行附加處理來(lái)獲取一個(gè)或多個(gè)更為可靠的OCR字符碼來(lái)表示集群圖像。該處理修改了一些集群322以產(chǎn)生經(jīng)修改的集群332。對(duì)經(jīng)修改的集群322所指派的OCR字符碼接著被用來(lái)產(chǎn)生經(jīng)修改的OCR輸出350。對(duì)特定集群指派的一個(gè)或多個(gè)OCR字符碼的可靠度級(jí)別也被稱作置信等級(jí),并且可由置信分值進(jìn)行數(shù)字表示??梢詫?duì)集群處理軟件330設(shè)置置信分值閾值以便將具有所述置信分值閾值以上的置信分值的那些集群識(shí)別為可接收的集群,并且將具有所述置信分值 閾值以下的置信分值的那些集群識(shí)別為可疑集群??瑟?dú)立或以特定組合使用多個(gè)因素或參數(shù)來(lái)決定置信分值。一種相關(guān)因素是集群中剪切圖像的數(shù)目。在統(tǒng)計(jì)上,與具有較小的剪切圖像數(shù)量的集群相比,集群中剪切圖像的數(shù)量大表明高的集群置信分值。另一種相關(guān)因素是獲取剪切圖像的一個(gè)或多個(gè)OCR字符碼或能夠反映特定的一個(gè)或多個(gè)OCR字符碼的可靠度的集群圖像的方式。例如,集群圖像可由人進(jìn)行人工識(shí)別,并且基于人工識(shí)別所生成的對(duì)應(yīng)的一個(gè)或多個(gè)OCR字符碼可被認(rèn)為是高度可靠的指派并且由此被指派高的置信分值。以下所描述的示例提供了關(guān)于如何使用集群中的多個(gè)剪切圖像以及集群和其它集群之間的形狀相似度來(lái)確定置信分值并且基于這樣的分值對(duì)集群排名的細(xì)節(jié)。集群處理軟件330能夠?qū)⒓荷绍浖?20所生成的不同集群的形狀信息相關(guān)聯(lián),以便檢測(cè)和校正OCR引擎300所指派的OCR字符碼中的錯(cuò)誤并且驗(yàn)證OCR引擎300所指派的OCR字符碼。在該處理期間,軟件330能夠通過(guò)校正OCR輸出302中的錯(cuò)誤來(lái)修改一些集群而產(chǎn)生經(jīng)修改的集群332,更具體地,通過(guò)對(duì)每個(gè)集群圖像的字符碼指派進(jìn)行驗(yàn)證(和校正,如果需要)來(lái)產(chǎn)生集群圖像和字符碼的關(guān)聯(lián)。在一些實(shí)施方式中,集群處理軟件330應(yīng)用形狀量度來(lái)計(jì)算形狀距離,作為兩個(gè)集群的集群圖像之間的形狀差異的度量并且作為確定集群的置信分值的一個(gè)因素。這種使用形狀量度用于比較形狀還可被用于在集群生成軟件320首次生成集群320時(shí)對(duì)剪切圖像進(jìn)行比較。因此,集群處理軟件330中用于計(jì)算兩個(gè)集群圖像之間的形狀距離的以下示例性技術(shù)可被用來(lái)在集群生成軟件320中計(jì)算剪切圖像之間的形狀距離。在集群處理軟件330中可使用多個(gè)形狀量度。例如,對(duì)于二進(jìn)制圖像,可使用基于Hausdorff距離的各種形狀距離。與在集群生成軟件320中獲取集群圖像類似,可在計(jì)算形狀距離時(shí)使用剪切圖像的像素值的色彩或灰度表示來(lái)實(shí)現(xiàn)形狀比較中的更高的精度。當(dāng)OCR輸出302僅提供了剪切圖像的二進(jìn)制圖像信息時(shí),可由后OCR引擎310從OCR引擎所處理的文檔的原始圖像301直接獲取色彩或灰度信息。當(dāng)集群生成軟件320在計(jì)算集群322的集群圖像時(shí)已經(jīng)從原始圖像301獲取了色彩或灰度信息時(shí),集群處理軟件330可使用相同的色彩或灰度信息來(lái)計(jì)算形狀距離。否則,集群處理軟件330可訪問(wèn)原始圖像301來(lái)獲取所述色彩或灰度信息。為了確定兩個(gè)集群圖像I和J之間的形狀距離,基于其邊框質(zhì)心對(duì)齊集群圖像I和J。在一些實(shí)施方式中,所對(duì)齊的集群圖像I和J之間的形狀距離可如下計(jì)算
權(quán)利要求
1.一種用于光學(xué)字符識(shí)別(OCR)的方法,包括 利用第一光學(xué)字符識(shí)別(OCR)引擎處理文檔圖像以生成第一 OCR輸出,所述第一 OCR輸出包括識(shí)別位于所述文檔圖像中的第一剪切圖像的第一邊框以及指派給每個(gè)第一剪切圖像的相應(yīng)的一個(gè)或多個(gè)字符; 使用第二 OCR引擎處理所述文檔圖像以生成第二 OCR輸出,所述第二 OCR輸出包括識(shí)別位于所述文檔圖像中的第二剪切圖像的第二邊框以及指派給每個(gè)第二剪切圖像的相應(yīng)的一個(gè)或多個(gè)字符; 對(duì)所述第一 OCR輸出應(yīng)用形狀聚類來(lái)產(chǎn)生具有第一剪切圖像的第一集群以及對(duì)第一剪切圖像的一個(gè)或多個(gè)字符的每個(gè)指派的相應(yīng)的置信分值; 對(duì)所述第二 OCR輸出應(yīng)用形狀聚類來(lái)產(chǎn)生具有第二剪切圖像的第二集群以及對(duì)第二 剪切圖像的一個(gè)或多個(gè)字符的每個(gè)指派的相應(yīng)的置信分值;并且 從所述第一 OCR輸出和所述第二 OCR輸出生成最終的OCR輸出,所述最終的OCR輸出包括邊框并且使用對(duì)所述第一剪切圖像和所述第二剪切圖像的所述一個(gè)或多個(gè)字符的指派的所述置信分值來(lái)對(duì)每個(gè)所述邊框選擇和指派相應(yīng)的一個(gè)或多個(gè)字符。
2.如權(quán)利要求I所述的方法,其中 所述集群包括(I)其中每個(gè)剪切圖像與相應(yīng)的OCR引擎所產(chǎn)生的單個(gè)邊框相關(guān)聯(lián)的集群和⑵其中每個(gè)剪切圖像與相應(yīng)的OCR引擎所產(chǎn)生的兩個(gè)或更多相鄰邊框相關(guān)聯(lián)的集群。
3.如權(quán)利要求I所述的方法,進(jìn)一步包括 至少利用第三OCR引擎處理所述文檔圖像以生成第三OCR輸出,所述第三OCR輸出包括識(shí)別位于所述文檔圖像中的第三剪切圖像的第三邊框以及指派給每個(gè)第三剪切圖像的相應(yīng)的一個(gè)或多個(gè)字符,并且 其中生成所述最終的OCR輸出包括使用所述第一、第二和第三OCR輸出并且使用對(duì)所述第一、第二和第三剪切圖像的字符指派的置信分值在所述最終的OCR輸出中對(duì)每個(gè)邊框選擇和指派相應(yīng)的一個(gè)或多個(gè)字符。
4.如權(quán)利要求I所述的方法,其中 形狀聚類對(duì)多個(gè)集群中的每個(gè)集群指派相應(yīng)的一個(gè)或多個(gè)字符,每個(gè)集群包括一個(gè)或多個(gè)剪切圖像;并且 應(yīng)用形狀聚類包括訪問(wèn)原始文檔圖像并且獲取灰度或色彩數(shù)據(jù)來(lái)確認(rèn)或修改對(duì)集群的字符指派。
5.如權(quán)利要求I所述的方法,進(jìn)一步包括 在生成所述最終的OCR輸出之前,處理所述第一集群以修改或驗(yàn)證所述第一 OCR輸出中對(duì)所述第一剪切圖像的字符指派;并且 在生成所述最終的OCR輸出之前,處理所述第二集群以修改或驗(yàn)證所述第二 OCR輸出中對(duì)所述第二剪切圖像的字符指派。
6.一種用于光學(xué)字符識(shí)別(OCR)的系統(tǒng),所述系統(tǒng)包括 用于利用第一光學(xué)字符識(shí)別(OCR)引擎處理文檔圖像以生成第一 OCR輸出的裝置,所述第一 OCR輸出包括識(shí)別位于所述文檔圖像中的第一剪切圖像的第一邊框以及指派給每個(gè)第一剪切圖像的相應(yīng)的一個(gè)或多個(gè)字符;用于利用第二 OCR引擎處理所述文檔圖像以生成第二 OCR輸出的裝置,所述第二 OCR輸出包括識(shí)別位于所述文檔圖像中的第二剪切圖像的第二邊框以及指派給每個(gè)第二剪切圖像的相應(yīng)的一個(gè)或多個(gè)字符; 用于對(duì)所述第一 OCR輸出應(yīng)用形狀聚類來(lái)產(chǎn)生具有第一剪切圖像的第一集群以及對(duì)第一剪切圖像的一個(gè)或多個(gè)字符的每個(gè)指派的相應(yīng)的置信分值的裝置; 用于對(duì)所述第二 OCR輸出應(yīng)用形狀聚類來(lái)產(chǎn)生具有第二剪切圖像的第二集群以及對(duì)第二剪切圖像的一個(gè)或多個(gè)字符的每個(gè)指派的相應(yīng)的置信分值的裝置;并且 用于從所述第一 OCR輸出和所述第二 OCR輸出生成最終的OCR輸出的裝置,所述最終的OCR輸出包括邊框并且使用對(duì)所述第一剪切圖像和所述第二剪切圖像的所述一個(gè)或多個(gè)字符的指派的所述置信分值來(lái)對(duì)每個(gè)所述邊框選擇和指派相應(yīng)的一個(gè)或多個(gè)字符。
7.一種用于光學(xué)字符識(shí)別(OCR)的系統(tǒng),包括 第一 OCR引擎,可操作來(lái)處理文檔圖像以生成第一 OCR輸出,所述第一 OCR輸出包括識(shí)別位于所述文檔圖像中的第一剪切圖像的第一邊框以及對(duì)每個(gè)第一剪切圖像指派的相應(yīng)的一個(gè)或多個(gè)字符; 第一后OCR引擎,可操作來(lái)對(duì)所述第一 OCR輸出應(yīng)用形狀聚類來(lái)產(chǎn)生具有第一剪切圖像的第一集群以及對(duì)第一剪切圖像的一個(gè)或多個(gè)字符的每個(gè)指派的相應(yīng)的置信分值; 第二 OCR引擎,可操作來(lái)處理所述文檔圖像以生成第二 OCR輸出,所述第二 OCR輸出包括識(shí)別位于所述文檔圖像中的第二剪切圖像的第二邊框以及指派給每個(gè)第二剪切圖像的相應(yīng)的一個(gè)或多個(gè)字符; 第二后OCR引擎,可操作來(lái)對(duì)所述第二 OCR輸出應(yīng)用形狀聚類來(lái)產(chǎn)生具有第二剪切圖像的第二集群以及對(duì)第二剪切圖像的一個(gè)或多個(gè)字符的每個(gè)指派的相應(yīng)的置信分值;以及表決處理引擎,用來(lái)接收和處理所述第一 OCR輸出和所述第二 OCR輸出,并且基于置信分值從所述第一和所述第二集群產(chǎn)生最終的OCR輸出。
8.如權(quán)利要求7所述的系統(tǒng),其中 所述第一后OCR引擎可操作來(lái)獲取對(duì)集群圖像的人工識(shí)別以驗(yàn)證或校正對(duì)所述集群圖像的一個(gè)或多個(gè)字符的指派。
9.如權(quán)利要求7所述的系統(tǒng),其中 所述第一和第二 OCR引擎、所述第一和第二后OCR引擎和所述表決處理引擎處于一個(gè)或多個(gè)服務(wù)器計(jì)算機(jī)上;并且 所述一個(gè)或多個(gè)服務(wù)器計(jì)算機(jī)與通信網(wǎng)絡(luò)進(jìn)行通信,所述通信網(wǎng)絡(luò)可操作來(lái)將所述文檔的所述原始圖像從客戶端計(jì)算機(jī)導(dǎo)引到所述第一和第二 OCR引擎并且將來(lái)自所述表決處理引擎的最終OCR輸出導(dǎo)引到所述客戶端計(jì)算機(jī)。
10.如權(quán)利要求9所述的系統(tǒng),其中 所述第一和第二 OCR引擎、所述第一和第二后OCR引擎和所述表決處理引擎分別處于不同的服務(wù)器計(jì)算機(jī)上。
11.如權(quán)利要求7所述的系統(tǒng),其中 所述第一和第二 OCR引擎、所述第一和第二后OCR引擎和所述表決處理引擎處于一個(gè)或多個(gè)服務(wù)器計(jì)算機(jī)上; 所述一個(gè)或多個(gè)服務(wù)器計(jì)算機(jī)與通信網(wǎng)絡(luò)進(jìn)行通信;一個(gè)或多個(gè)OCR存儲(chǔ)服務(wù)器計(jì)算機(jī)與所述通信網(wǎng)絡(luò)進(jìn)行通信并且存儲(chǔ)所述第一和第二 OCR引擎、所述第一和第二后OCR引擎和所述表決處理引擎產(chǎn)生的所選擇文檔的圖像的最終OCR輸出;并且 所述通信網(wǎng)絡(luò)提供在客戶端計(jì)算機(jī)和所述一個(gè)或多個(gè)OCR存儲(chǔ)服務(wù)器計(jì)算機(jī)之間的通信以允許所述客戶端計(jì)算機(jī)從所述一個(gè)或多個(gè)OCR存儲(chǔ)服務(wù)器計(jì)算機(jī)獲取現(xiàn)有的最終OCR輸出。
12.一種用于光學(xué)字符識(shí)別(OCR)的方法,包括 利用第一光學(xué)字符識(shí)別(OCR)引擎處理文檔圖像以生成第一 OCR輸出,所述第一 OCR輸出包括識(shí)別位于所述文檔圖像中的第一剪切圖像的第一邊框,所述第一 OCR輸出進(jìn)一步 包括指派給每個(gè)第一剪切圖像的相應(yīng)的一個(gè)或多個(gè)字符; 利用第二 OCR引擎處理所述文檔圖像以生成第二 OCR輸出,所述第二 OCR輸出包括識(shí)別位于所述文檔圖像中的第二剪切圖像的第二邊框,所述第二 OCR輸出進(jìn)一步包括指派給每個(gè)第二剪切圖像的相應(yīng)的一個(gè)或多個(gè)字符; 將所述第一剪切圖像和所述第二剪切圖像歸類為集群,每個(gè)集群僅包括對(duì)其指派了相同的一個(gè)或多個(gè)字符的剪切圖像; 生成每個(gè)集群的集群圖像; 使用所述集群圖像來(lái)驗(yàn)證或校正對(duì)剪切圖像的字符指派并且確定對(duì)剪切圖像的一個(gè)或多個(gè)字符的每個(gè)指派的置信分值;以及 使用對(duì)所述集群圖像的字符指派來(lái)生成最終的OCR輸出。
13.如權(quán)利要求12所述的方法,其中 通過(guò)對(duì)所述集群中的剪切圖像求平均來(lái)生成所述集群的集群圖像。
14.如權(quán)利要求12所述的方法,進(jìn)一步包括 在生成所述最終的OCR輸出中,確定任意一個(gè)所述第一剪切圖像是否與任意一個(gè)所述第二剪切圖像共享所述文檔圖像中的位置,以及指派給所述一個(gè)第一剪切圖像的一個(gè)或多個(gè)字符與指派給所述一個(gè)第二剪切圖像的一個(gè)或多個(gè)字符是否不同,如果是,則使用所述一個(gè)第一剪切圖像和所述一個(gè)第二剪切圖像的相應(yīng)的置信分值來(lái)選擇所述位置的一個(gè)或多個(gè)字符。
15.如權(quán)利要求12所述的方法,其中 所述集群包括(I)其中每個(gè)剪切圖像與相應(yīng)的OCR引擎所產(chǎn)生的單個(gè)邊框相關(guān)聯(lián)的集群和(2)其中每個(gè)剪切圖像與相應(yīng)的OCR引擎所產(chǎn)生的兩個(gè)或更多相鄰邊框相關(guān)聯(lián)的集群。
16.—種用于光學(xué)字符識(shí)別(OCR)的系統(tǒng),所述系統(tǒng)包括 用于利用第一光學(xué)字符識(shí)別(OCR)引擎處理文檔圖像以生成第一 OCR輸出的裝置,所述第一 OCR輸出包括識(shí)別位于所述文檔圖像中的第一剪切圖像的第一邊框,所述第一 OCR輸出進(jìn)一步包括指派給每個(gè)第一剪切圖像的相應(yīng)的一個(gè)或多個(gè)字符; 用于利用第二 OCR引擎處理所述文檔圖像以生成第二 OCR輸出的裝置,所述第二 OCR輸出包括識(shí)別位于所述文檔圖像中的第二剪切圖像的第二邊框,所述第二 OCR輸出進(jìn)一步包括指派給每個(gè)第二剪切圖像的相應(yīng)的一個(gè)或多個(gè)字符; 用于將所述第一剪切圖像和所述第二剪切圖像歸類為集群的裝置,每個(gè)集群僅包括對(duì)其指派了相同的一個(gè)或多個(gè)字符的剪切圖像; 用于生成每個(gè)集群的集群圖像的裝置; 用于使用所述集群圖像來(lái)驗(yàn)證或校正對(duì)剪切圖像的字符指派并且確定對(duì)剪切圖像的一個(gè)或多個(gè)字符的每個(gè)指派的置信分值的裝置;以及 用于使用對(duì)所述集群圖像的字符指派來(lái)生成最終的OCR輸出的裝置。
17.—種用于光學(xué)字符識(shí)別(OCR)的系統(tǒng),包括 第一 OCR引擎,可操作來(lái)處理文檔圖像以生成第一 OCR輸出,所述第一 OCR輸出包括識(shí)別位于所述文檔圖像中的第一剪切圖像的第一邊框,所述第一 OCR輸出進(jìn)一步包括指派給每個(gè)第一剪切圖像的相應(yīng)的一個(gè)或多個(gè)字符; 第二 OCR引擎,可操作來(lái)處理所述文檔圖像以生成第二 OCR輸出,所述第二 OCR輸出包括識(shí)別位于所述文檔圖像中的第二剪切圖像的第二邊框,所述第二 OCR輸出進(jìn)一步包括指派給每個(gè)第二剪切圖像的相應(yīng)的一個(gè)或多個(gè)字符; 后OCR引擎,用來(lái)接收所述第一和第二 OCR輸出并且將所述第一剪切圖像和所述第二剪切圖像歸類為集群,每個(gè)集群僅包括對(duì)其指派了相同的一個(gè)或多個(gè)字符的剪切圖像以及表示每個(gè)集群的剪切圖像的集群圖像;和 表決處理引擎,可操作來(lái)基于從所述后OCR引擎對(duì)所述集群圖像的字符指派來(lái)生成最終的OCR輸出。
18.如權(quán)利要求17所述的系統(tǒng),其中 所述第一和第二 OCR引擎、所述后OCR引擎和所述表決處理引擎處于一個(gè)或多個(gè)服務(wù)器計(jì)算機(jī)上;和 所述一個(gè)或多個(gè)服務(wù)器計(jì)算機(jī)與通信網(wǎng)絡(luò)進(jìn)行通信,所述通信網(wǎng)絡(luò)可操作來(lái)將所述文檔的所述原始圖像從客戶端計(jì)算機(jī)導(dǎo)引到所述第一和第二 OCR引擎并且將來(lái)自所述表決處理引擎的最終OCR輸出導(dǎo)引到所述客戶端計(jì)算機(jī)。
19.如權(quán)利要求18所述的系統(tǒng),其中 所述第一和第二 OCR引擎、所述后OCR引擎和所述表決處理引擎分別處于不同的服務(wù)器計(jì)算機(jī)上。
20.如權(quán)利要求17所述的系統(tǒng),其中 所述第一和第二 OCR引擎、所述后OCR引擎和所述表決處理引擎處于一個(gè)或多個(gè)服務(wù)器計(jì)算機(jī)上; 所述一個(gè)或多個(gè)服務(wù)器計(jì)算機(jī)與通信網(wǎng)絡(luò)進(jìn)行通信; 一個(gè)或多個(gè)OCR存儲(chǔ)服務(wù)器計(jì)算機(jī)與所述通信網(wǎng)絡(luò)進(jìn)行通信并且存儲(chǔ)所述第一和第二 OCR引擎、所述后OCR引擎和所述表決處理引擎產(chǎn)生的所選擇文檔的圖像的最終OCR輸出;并且 所述通信網(wǎng)絡(luò)提供在客戶端計(jì)算機(jī)和所述一個(gè)或多個(gè)OCR存儲(chǔ)服務(wù)器計(jì)算機(jī)之間的通信以允許所述客戶端計(jì)算機(jī)從所述一個(gè)或多個(gè)OCR存儲(chǔ)服務(wù)器計(jì)算機(jī)獲取現(xiàn)有的最終OCR輸出。
21.一種用于光學(xué)字符識(shí)別(OCR)的方法,包括 利用第一光學(xué)字符識(shí)別(OCR)引擎處理文檔圖像以生成第一 OCR輸出,所述第一 OCR輸出包括識(shí)別位于所述文檔圖像中的剪切圖像的邊框以及對(duì)每個(gè)剪切圖像指派一個(gè)或多個(gè)字符的字符指派; 對(duì)所述第一 OCR輸出應(yīng)用形狀聚類以產(chǎn)生第一經(jīng)修改的OCR輸出,所述第一經(jīng)修改的OCR輸出包括對(duì)于剪切圖像的字符指派的修改,所述第一經(jīng)修改的OCR輸出進(jìn)一步包括在所述文檔圖像中認(rèn)出的詞; 識(shí)別所述第一經(jīng)修改的OCR輸出中的可疑詞,所述可疑詞是具有被識(shí)別為可疑字符的字符的詞;并且 利用第二 OCR引擎對(duì)所述可疑詞進(jìn)行處理以認(rèn)出所述可疑詞。
22.如權(quán)利要求21所述的方法,進(jìn)一步包括 作為正確認(rèn)出所述可疑詞來(lái)選擇所述第一經(jīng)修改的OCR輸出或所述第二 OCR引擎的輸出。
23.如權(quán)利要求21所述的方法,進(jìn)一步包括 在所述第一經(jīng)修改的OCR輸出中應(yīng)用形狀聚類來(lái)產(chǎn)生對(duì)剪切圖像的一個(gè)或多個(gè)字符的每個(gè)指派的相應(yīng)的置信分值; 利用所述第二 OCR引擎處理所述文檔圖像以生成第二 OCR輸出; 對(duì)所述第二 OCR輸出應(yīng)用形狀聚類以產(chǎn)生第二經(jīng)修改的OCR輸出,所述第二經(jīng)修改的OCR輸出包括所述第二 OCR弓丨擎對(duì)剪切圖像的字符指派的修改,所述第二經(jīng)修改的OCR輸出包括對(duì)剪切圖像的一個(gè)或多個(gè)字符的每個(gè)指派的相應(yīng)的置信分值,所述第二經(jīng)修改的OCR輸出進(jìn)一步包括在所述文檔圖像中認(rèn)出的詞; 使用所述第一經(jīng)修改的OCR輸出的置信分值和所述第二經(jīng)修改的OCR輸出的置信分值,作為正確認(rèn)出所述可疑詞來(lái)選擇所述第一經(jīng)修改的OCR輸出或所述第二 OCR引擎的輸出。
24.如權(quán)利要求23所述的方法,其中 對(duì)所述第二 OCR輸出應(yīng)用形狀聚類包括 將所述第二 OCR引擎所定位的剪切圖像歸類為集群,每個(gè)集群僅包括被所述第二 OCR引擎指派了相同的一個(gè)或多個(gè)字符的剪切圖像; 對(duì)每個(gè)集群生成集群圖像,所述集群的集群圖像是通過(guò)對(duì)所述集群中的剪切圖像求平均而生成的; 使用所述集群圖像以生成對(duì)所述剪切圖像的經(jīng)校正的字符指派;并且 使用所述經(jīng)校正的指派的經(jīng)校正的指派字符來(lái)認(rèn)出詞。
25.—種用于光學(xué)字符識(shí)別(OCR)的系統(tǒng),所述系統(tǒng)包括 用于利用第一光學(xué)字符識(shí)別(OCR)引擎處理文檔圖像以生成第一 OCR輸出的裝置,所述第一 OCR輸出包括識(shí)別位于所述文檔圖像中的剪切圖像的邊框以及對(duì)每個(gè)剪切圖像指派一個(gè)或多個(gè)字符的字符指派; 用于對(duì)所述第一 OCR輸出應(yīng)用形狀聚類以產(chǎn)生第一經(jīng)修改的OCR輸出的裝置,所述第一經(jīng)修改的OCR輸出包括對(duì)于剪切圖像的字符指派的修改,所述第一經(jīng)修改的OCR輸出進(jìn)一步包括在所述文檔圖像中認(rèn)出的詞; 用于識(shí)別所述第一經(jīng)修改的OCR輸出中的可疑詞的裝置,所述可疑詞是具有被識(shí)別為可疑字符的字符的詞;并且 用于利用第二 OCR引擎對(duì)所述可疑詞進(jìn)行處理以認(rèn)出所述可疑詞的裝置。
26.—種用于光學(xué)字符識(shí)別(OCR)的系統(tǒng),包括 第一 OCR引擎,可操作來(lái)處理文檔圖像以生成第一 OCR輸出,所述第一 OCR輸出包括識(shí)別位于所述文檔圖像中的剪切圖像的邊框以及對(duì)每個(gè)剪切圖像指派一個(gè)或多個(gè)字符的字符指派; 第一后OCR引擎,可操作來(lái)對(duì)所述第一 OCR輸出應(yīng)用形狀聚類以產(chǎn)生第一經(jīng)修改的OCR輸出,所述第一經(jīng)修改的OCR輸出包括對(duì)于剪切 圖像的字符指派的修改,所述第一經(jīng)修改的OCR輸出進(jìn)一步包括在所述文檔圖像中認(rèn)出的字,其中所述第一后OCR引擎可操作來(lái)識(shí)別所述第一經(jīng)修改的OCR輸出中的可疑詞,所述可疑詞是具有被識(shí)別為可疑字符的字符的字;和 第二 OCR引擎,可操作來(lái)接收并處理所述可疑詞以認(rèn)出所述可疑詞。
27.如權(quán)利要求26所述的系統(tǒng),其中 所述第一和第二 OCR引擎和所述第一后OCR引擎處于一個(gè)或多個(gè)服務(wù)器計(jì)算機(jī)上;并且 所述一個(gè)或多個(gè)服務(wù)器計(jì)算機(jī)與通信網(wǎng)絡(luò)進(jìn)行通信,所述通信網(wǎng)絡(luò)可操作來(lái)將所述文檔的所述原始圖像從客戶端計(jì)算機(jī)導(dǎo)引到所述第一 OCR引擎并且將來(lái)自所述第二 OCR引擎的OCR輸出導(dǎo)引到所述客戶端計(jì)算機(jī)。
28.一種用于光學(xué)字符識(shí)別(OCR)的方法,包括 處理文檔圖像以產(chǎn)生所述圖像的非重疊子區(qū)域的集合,每個(gè)子區(qū)域?yàn)榈谝环直媛剩簧梢曈X(jué)上類似的剪切子區(qū)域的多個(gè)集群,其中所述集合中的每個(gè)所述子區(qū)域包括在所述集群的一個(gè)中; 以高于所述第一分辨率的第二分辨率從在所述相應(yīng)的集群中的所述子區(qū)域?qū)λ龆鄠€(gè)集群中每一個(gè)生成代表性集群圖像;并且 通過(guò)利用其中包括子區(qū)域的集群的代表性集群圖像替代所述圖像中的相應(yīng)的子區(qū)域來(lái)產(chǎn)生所述文檔的副本圖像。
29.如權(quán)利要求28所述的方法,其中 所述文檔是多個(gè)頁(yè)面的文檔;并且 每個(gè)子區(qū)域是所述文檔的一個(gè)頁(yè)面的一部分。
30.如權(quán)利要求29所述的方法,其中 每個(gè)原始子區(qū)域由矩形邊框所限定。
31.如權(quán)利要求28所述的方法,其中 所速文檔包括多個(gè)不同的子文檔。
32.如權(quán)利要求31所述的方法,其中 所述多個(gè)不同的子文檔以共同的風(fēng)格被打印。
33.如權(quán)利要求32所述的方法,其中 所述多個(gè)不同的子文檔是期刊或書本中的文章。
34.如權(quán)利要求28所述的方法,其中 所述圖像的所述子區(qū)域包括灰度或色彩數(shù)據(jù);并且 使用所述灰度或色彩數(shù)據(jù)生成所述第二分辨率的代表性集群圖像。
35.如權(quán)利要求28所述的方法,其中所述圖像的所述子區(qū)域包括灰度或色彩數(shù)據(jù)并且從所述集群生成的所述代表性圖像是二進(jìn)制圖像。
36.如權(quán)利要求28所述的方法,進(jìn)一步包括 通過(guò)對(duì)所述子區(qū)域的集合應(yīng)用分級(jí)凝聚集群算法生成所述視覺(jué)上相似的子區(qū)域的多個(gè)集群。
37.如權(quán)利要求28所述的方法,進(jìn)一步包括 使用光學(xué)字符識(shí)別(OCR)引擎來(lái)處理為所述第一分辨率的圖像以識(shí)別所述子區(qū)域并且對(duì)每個(gè)子區(qū)域指派一個(gè)或多個(gè)字符;并且 通過(guò)對(duì)所述子區(qū)域的多個(gè)集群指派子區(qū)域來(lái)生成所述視覺(jué)上相似的子區(qū)域的多個(gè)集群以使得每個(gè)集群僅包括被所述OCR引擎指派了相同的一個(gè)或多個(gè)特定字符并且大小近似相同的子區(qū)域。
38.如權(quán)利要求28所述的方法,進(jìn)一步包括 打印所述副本圖像。
39.如權(quán)利要求28所述的方法,進(jìn)一步包括 使用所述文檔的圖像中的灰度或色彩信息以所述第二分辨率生成每個(gè)集群的平均圖像。
40.如權(quán)利要求28所述的方法,其中生成平均圖像進(jìn)一步包括 獲取相應(yīng)的集群中的每個(gè)子區(qū)域的灰度或色彩信息; 使用所述灰度或色彩信息獲取每個(gè)子區(qū)域的質(zhì)心位置; 重疊所述集群內(nèi)的子區(qū)域的質(zhì)心位置;并且 使用所述集群中的重疊的子區(qū)域獲取所述平均圖像。
41.如權(quán)利要求28所述的方法,進(jìn)一步包括 在對(duì)每個(gè)集群中的子區(qū)域求平均時(shí)執(zhí)行內(nèi)插以獲取對(duì)應(yīng)的平均圖像。
42.如權(quán)利要求41所述的方法,其中 對(duì)所述內(nèi)插應(yīng)用雙線性內(nèi)插算法。
43.一種用于光學(xué)字符識(shí)別(OCR)的系統(tǒng),所述系統(tǒng)包括 用于處理文檔圖像以產(chǎn)生所述圖像的非重疊子區(qū)域的集合的裝置,每個(gè)子區(qū)域?yàn)榈谝环直媛剩? 用于生成視覺(jué)上類似的剪切子區(qū)域的多個(gè)集群的裝置,所述集合中的每個(gè)所述子區(qū)域包括在所述集群的一個(gè)中; 用于以高于所述第一分辨率的第二分辨率從在相應(yīng)的集群中的所述子區(qū)域?qū)λ龆鄠€(gè)集群中每一個(gè)生成代表性集群圖像的裝置;以及 用于通過(guò)利用其中包括子區(qū)域的集群的代表性集群圖像替代所述圖像中的相應(yīng)的子區(qū)域來(lái)產(chǎn)生所述文檔的副本圖像的裝置。
44.一種用于光學(xué)字符識(shí)別(OCR)的方法,包括 對(duì)文檔的原始圖像應(yīng)用光學(xué)字符識(shí)別(OCR)處理以產(chǎn)生所述原始圖像的不同位置的剪切圖像,每個(gè)剪切圖像為第一分辨率; 將所述剪切圖像歸類為剪切圖像的多個(gè)集群,每個(gè)集群包括被所述OCR處理指派了相同的一個(gè)或多個(gè)字符碼并且大小相同或相似的剪切圖像;將每個(gè)集群中的每個(gè)剪切圖像轉(zhuǎn)換為高于所述第一分辨率的第二分辨率的經(jīng)轉(zhuǎn)換剪切圖像; 對(duì)每個(gè)集群中的經(jīng)轉(zhuǎn)換剪切圖像求平均以生成集群圖像;并且使用所述多個(gè)集群的集群圖像來(lái)替代由所述OCR處理最初產(chǎn)生的對(duì)應(yīng)的剪切圖像從而以所述第二分辨率生成所述文檔的所述原始圖像的副本。
45.如權(quán)利要求44所述的方法,進(jìn)一步包括 對(duì)每個(gè)集群中的每個(gè)剪切圖像應(yīng)用內(nèi)插算法以產(chǎn)生相應(yīng)的經(jīng)轉(zhuǎn)換的剪切圖像。
46.如權(quán)利要求45所述的方法,其中 所述內(nèi)插算法是雙線性內(nèi)插算法。
47.如權(quán)利要求44所述的方法,進(jìn)一步包括 使用所述文檔的所述原始圖像中的灰度或色彩數(shù)據(jù)來(lái)形成每個(gè)集群中的所述剪切圖像。
48.如權(quán)利要求44所述的方法,進(jìn)一步包括 以所述第二分辨率打印所述副本。
49.如權(quán)利要求44所述的方法,進(jìn)一步包括 獲取每個(gè)集群中的每個(gè)經(jīng)轉(zhuǎn)換剪切圖像的質(zhì)心位置; 重疊所述集群內(nèi)的經(jīng)轉(zhuǎn)換剪切圖像的質(zhì)心位置;并且 對(duì)所述集群中重疊的經(jīng)轉(zhuǎn)換剪切圖像求平均以獲取所述集群圖像。
50.如權(quán)利要求44所述的方法,其中 每個(gè)剪切圖像由所接收的OCR輸出中的邊框來(lái)限定,并且 所述集群包括(I)其中每個(gè)剪切圖像與所述OCR引擎產(chǎn)生的單個(gè)邊框相關(guān)聯(lián)的集群和(2)其中每個(gè)剪切圖像與所述OCR引擎產(chǎn)生的兩個(gè)或更多相鄰邊框相關(guān)聯(lián)的集群。
51.—種用于光學(xué)字符識(shí)別(OCR)的系統(tǒng),所述系統(tǒng)包括 用于對(duì)文檔的原始圖像應(yīng)用光學(xué)字符識(shí)別(OCR)處理以產(chǎn)生所述原始圖像的不同位置的剪切圖像的裝置,每個(gè)剪切圖像為第一分辨率; 用于將所述剪切圖像歸類為剪切圖像的多個(gè)集群的裝置,每個(gè)集群包括被所述OCR處理指派了相同的一個(gè)或多個(gè)字符碼并且大小相同或相似的剪切圖像; 用于將每個(gè)集群中的每個(gè)剪切圖像轉(zhuǎn)換為高于所述第一分辨率的第二分辨率的經(jīng)轉(zhuǎn)換剪切圖像的裝置; 用于對(duì)每個(gè)集群中的經(jīng)轉(zhuǎn)換剪切圖像求平均以生成集群圖像的裝置;以及用于使用所述多個(gè)集群的集群圖像來(lái)替代由所述OCR處理最初產(chǎn)生的對(duì)應(yīng)的剪切圖像從而以所述第二分辨率生成所述文檔的所述原始圖像的副本的裝置。
52.—種用于光學(xué)字符識(shí)別(OCR)的系統(tǒng),包括 光學(xué)字符識(shí)別(OCR)引擎,可操作來(lái)處理文檔的原始圖像以產(chǎn)生包括在所述原始圖像的不同位置的剪切圖像的OCR輸出,每個(gè)剪切圖像為第一分辨率; 后OCR引擎,與所述OCR引擎進(jìn)行通信以接收所述OCR輸出, 其中所述后OCR引擎可操作來(lái) 將所述剪切圖像歸類為剪切圖像的集群,每個(gè)集群包括被所述OCR引擎指派了相同的一個(gè)或多個(gè)字符碼并且大小相同或相似的剪切圖像;將每個(gè)集群中的每個(gè)剪切圖像轉(zhuǎn)換為高于所述第一分辨率的第二分辨率的經(jīng)轉(zhuǎn)換剪切圖像; 對(duì)每個(gè)集群中的經(jīng)轉(zhuǎn)換剪切圖像求平均以生成集群圖像;并且 使用所述多個(gè)集群的集群圖像來(lái)替代由所述OCR引擎最初產(chǎn)生的對(duì)應(yīng)的剪切圖像從而以所述第二分辨率生成所述文檔的所述原始圖像的副本。
53.如權(quán)利要求52所述的系統(tǒng),其中 所述OCR引擎和所述后OCR引擎處于一個(gè)或多個(gè)服務(wù)器計(jì)算機(jī)上;并且 所述一個(gè)或多個(gè)服務(wù)器計(jì)算機(jī)與通信網(wǎng)絡(luò)進(jìn)行通信,所述通信網(wǎng)絡(luò)可操作來(lái)將所述文檔的所述原始圖像從客戶端計(jì)算機(jī)導(dǎo)引到所述OCR引擎。
54.如權(quán)利要求52所述的系統(tǒng),其中 所述OCR引擎和所述后OCR引擎處于不同的服務(wù)器計(jì)算機(jī)上。
55.如權(quán)利要求52所述的系統(tǒng),其中 所述OCR引擎和所述后OCR引擎處于一個(gè)或多個(gè)服務(wù)器計(jì)算機(jī)上; 所述一個(gè)或多個(gè)服務(wù)器計(jì)算機(jī)與通信網(wǎng)絡(luò)進(jìn)行通信; 一個(gè)或多個(gè)存儲(chǔ)服務(wù)器計(jì)算機(jī)與所述通信網(wǎng)絡(luò)進(jìn)行通信并且存儲(chǔ)所述OCR引擎和所述后OCR引擎所產(chǎn)生的為第二分辨率的所選擇原始圖像的副本;并且 所述通信網(wǎng)絡(luò)提供在客戶端計(jì)算機(jī)和所述一個(gè)或多個(gè)存儲(chǔ)服務(wù)器計(jì)算機(jī)之間的通信以允許所述客戶端計(jì)算機(jī)從所述一個(gè)或多個(gè)存儲(chǔ)服務(wù)器計(jì)算機(jī)獲取所述OCR引擎和所述后OCR引擎所產(chǎn)生的原始圖像的為所述第二分辨率的現(xiàn)有副本。
56.如權(quán)利要求52所述的系統(tǒng),其中 打印機(jī)連接到所述通信網(wǎng)絡(luò)以打印所述后OCR引擎所產(chǎn)生的所述副本。
全文摘要
本申請(qǐng)涉及后光學(xué)字符識(shí)別處理中的形狀聚類。用于在包括光學(xué)字符識(shí)別(OCR)處理的輸出的各種文檔處理中的應(yīng)用和形狀聚類的技術(shù)和系統(tǒng)。
文檔編號(hào)G06K9/20GK102637256SQ20111042505
公開(kāi)日2012年8月15日 申請(qǐng)日期2007年9月7日 優(yōu)先權(quán)日2006年9月8日
發(fā)明者路克·文森特, 雷蒙德·W·史密斯 申請(qǐng)人:谷歌公司