介質(zhì)處理設(shè)備、介質(zhì)處理方法及介質(zhì)處理系統(tǒng)的制作方法

文檔序號：6558775閱讀：86來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：介質(zhì)處理設(shè)備、介質(zhì)處理方法及介質(zhì)處理系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種用于基于通過讀取其上表示有信息的介質(zhì)而獲得的圖像數(shù)據(jù)來鑒別介質(zhì)(例如文檔、分類帳頁)的技術(shù)，具體地，涉及一種用于高精度地識別表示在介質(zhì)中的信息內(nèi)容的技術(shù)。
背景技術(shù)：
對于通過將其上表示有諸如字符、代碼、數(shù)字字符、圖片、劃線、條碼等的數(shù)據(jù)介質(zhì)(例如文檔、分類帳頁)作為圖像數(shù)據(jù)進(jìn)行讀取來執(zhí)行數(shù)據(jù)介質(zhì)識別或字符識別的設(shè)備，這些年來已開發(fā)出諸如光學(xué)字符讀取設(shè)備[OCR(光學(xué)字符識別/讀取器)設(shè)備]等的文檔識別設(shè)備。各種企業(yè)廣泛使用文檔識別設(shè)備以例如提高業(yè)務(wù)效率。
例如，在金融機(jī)構(gòu)等中進(jìn)行窗口工作的操作員使用文檔識別設(shè)備來有效地處理文檔介質(zhì)(以下簡稱為文檔)，從而提高他/她的工作效率。
對于這種文檔識別設(shè)備，存在這樣一種技術(shù)，其不僅用于處理大量相同類型的文檔而且用于自動處理各種格式的文檔，以更高效地執(zhí)行文檔處理(例如，參見以下專利文獻(xiàn)1和2)。
在某些情況下，為了提高文檔處理作業(yè)的效率，要求綜合地并且自動地處理不同類型的多個文檔組。例如，如在金融機(jī)構(gòu)的合并和撤銷之后經(jīng)?？吹降?，當(dāng)應(yīng)當(dāng)將均具有不同金融機(jī)構(gòu)的不同格式的多個文檔組統(tǒng)一成一個系統(tǒng)時，或者當(dāng)應(yīng)當(dāng)由總部(總店)組織等綜合地處理多個分部(分店)的文檔組時(集中式外理)，要求一起處理類型均不同的多個文檔組。
同時，對于用于高效并且高精度地處理不同類型的多個文檔組的常規(guī)技術(shù)，在各文檔組的前頭插入有識別文檔，在該識別文檔上記錄(表示)有用于識別該文檔組的類型、內(nèi)容以及頁數(shù)等的文檔組信息，介質(zhì)識別設(shè)備在處理文檔組中的各文檔之前首先識別該識別文檔，在按照該識別文檔識別了文檔組的類型和頁數(shù)之后，執(zhí)行對這些文檔組的處理。
具體來說，例如，將如圖48所示的識別文檔100置于各文檔組的前頭，然后執(zhí)行對文檔組的讀取。即，將文檔ID(在本示例中是數(shù)字字符“1234”)記錄(添加)到識別文檔100，以對識別文檔100本身進(jìn)行識別，并且還記錄有文檔組信息，如隨后的文檔組的類型(在本示例中是“P”)、頁數(shù)(在本示例中是“500頁”)等。
因此，在通過掃描儀設(shè)備將該識別文檔100和文檔組讀取為圖像數(shù)據(jù)之后，文檔識別設(shè)備首先對前頭處的識別文檔100的文檔ID進(jìn)行識別并辯識識別文檔100。
換句話說，文檔識別設(shè)備基于預(yù)先保持在數(shù)據(jù)庫等中的示出了文檔ID與識別文檔中的文檔組信息的記錄部分位置和記錄項之間的對應(yīng)的信息，辯識在識別文檔100中記錄有什么文檔組信息，然后識別這種文檔組信息的內(nèi)容。
由此，文檔識別設(shè)備可以有效地執(zhí)行對識別文檔100之后的文檔組的內(nèi)容的識別，并且可以有效地執(zhí)行對類型均不同的多個文檔組的識別處理。
此外，類似于識別文檔100，在文檔組中的每個文檔中都記錄有文檔ID，當(dāng)文檔識別設(shè)備對各文檔進(jìn)行識別時，它通過首先識別該文檔ID來辯識在該文檔的何處記載了什么信息。
由此，該文檔識別設(shè)備可以針對各文檔有效地執(zhí)行識別處理。
順便指出，對于上述常規(guī)文檔識別設(shè)備，用于對識別文檔中的文檔ID進(jìn)行識別的處理和用于對構(gòu)成文檔組的各文檔中的文檔ID進(jìn)行識別的處理是非常重要的。
因此，應(yīng)當(dāng)高精度地識別這些文檔ID。
然而，文檔識別設(shè)備不一定能夠按100％的識別率識別字符，并且字符識別的精度存在限制，因而有可能錯誤地識別文檔ID，此外，有可能丟棄構(gòu)成文檔ID的字符(也就是說，不能將一個字符識別為一個字符)，或者在最差的情況下，根本就不能識別文檔ID。
當(dāng)如上所示的情況那樣未正確地識別文檔ID時，在文檔識別設(shè)備的自動文檔處理(識別處理)一旦被中斷之后需要進(jìn)行校正處理，并且應(yīng)當(dāng)通過掃描儀設(shè)備再次讀取未正確識別其文檔ID的文檔，或者由操作員輸入該文檔的文檔ID。
當(dāng)文檔識別設(shè)備正在自動識別類型均不同的多個文檔組時由于如上所述的校正處理而使處理中斷一次時，導(dǎo)致了處理的很大延遲。
因此，希望應(yīng)當(dāng)高精度地識別文檔ID，以使得可以高精度地對文檔進(jìn)行辯識。
順便指出，為了實現(xiàn)更高精度的識別處理，出現(xiàn)了一個想法提高用于將文檔讀取為圖像數(shù)據(jù)的掃描儀設(shè)備的分辨率。然而，如果提高掃描儀設(shè)備的分辨率，則處理速度相反地降低了，或者字符識別精度降低了(盡管稍微地降低了)。與中等速度機(jī)器相比，對于高速掃描儀，該趨勢非常明顯。
國際公報WO97/05561號[專利文獻(xiàn)1]日本專利特開2003-168075號公報發(fā)明內(nèi)容鑒于上述多個問題提出了本發(fā)明，本發(fā)明的一個目的是基于通過讀取介質(zhì)(例如，其上表示有信息的文檔)而獲得的圖像數(shù)據(jù)來對介質(zhì)進(jìn)行高精度的識別，特別地，另一目的是對記錄在介質(zhì)中的信息的內(nèi)容進(jìn)行高精度的識別。
一種用于實現(xiàn)上述目的的介質(zhì)處理設(shè)備包括提取單元，用于從通過讀取其上在多個區(qū)中表示有滿足預(yù)定關(guān)系的多個信息項的介質(zhì)而獲得的圖像數(shù)據(jù)提取所述多個信息項中的每一個；識別單元，用于對所述提取單元所提取的所述多個信息項中的每一個的內(nèi)容進(jìn)行識別；以及確認(rèn)單元，其基于所述預(yù)定關(guān)系對所述識別單元所識別的所述多個信息項的內(nèi)容是否正確進(jìn)行評估，如果該評估顯示了肯定的結(jié)果，則將所述多個信息項的內(nèi)容確認(rèn)為被所述識別單元識別出，如果該評估顯示了否定的結(jié)果，則基于所述預(yù)定關(guān)系對由所述識別單元識別的識別內(nèi)容進(jìn)行校正，以確認(rèn)所述多個信息項的內(nèi)容。
優(yōu)選地，所述介質(zhì)處理設(shè)備還包括介質(zhì)辯識單元，該介質(zhì)辯識單元用于在所述確認(rèn)單元確認(rèn)了所述信息的內(nèi)容之后基于所述信息的內(nèi)容對所述介質(zhì)進(jìn)行辯識。
此外，為了實現(xiàn)上述目的，本發(fā)明的介質(zhì)處理方法包括以下步驟從通過讀取其上在多個區(qū)中表示有滿足預(yù)定關(guān)系的多個信息項的介質(zhì)而獲得的圖像數(shù)據(jù)提取所述多個信息項中的每一個；對所提取的所述多個信息項中的每一個的內(nèi)容進(jìn)行識別；基于所述預(yù)定關(guān)系對所識別的所述多個信息項的內(nèi)容是否正確進(jìn)行評估；如果所述評估顯示了肯定的結(jié)果，則將所述多個信息項的內(nèi)容確認(rèn)為被識別出；如果所述評估顯示了否定的結(jié)果，則基于所述預(yù)定關(guān)系對所識別的識別內(nèi)容進(jìn)行校正，以確認(rèn)所述多個信息項的內(nèi)容。
此外，為了實現(xiàn)上述目的，本發(fā)明的介質(zhì)處理系統(tǒng)包括介質(zhì)，在該介質(zhì)上的多個區(qū)中表示有滿足預(yù)定關(guān)系的多個信息項；掃描儀設(shè)備，用于通過讀取所述介質(zhì)獲得所述介質(zhì)的圖像數(shù)據(jù)；以及介質(zhì)處理設(shè)備，用于基于通過所述掃描儀設(shè)備獲得的圖像數(shù)據(jù)對所述信息的內(nèi)容進(jìn)行識別，其中，所述介質(zhì)處理設(shè)備包括提取單元，用于從所述圖像數(shù)據(jù)提取所述多個信息項中的每一個；識別單元，用于對所述提取單元所提取的所述多個信息項中的每一個的內(nèi)容進(jìn)行識別；以及確認(rèn)單元，其基于所述預(yù)定關(guān)系對所述識別單元所識別的所述多個信息項的內(nèi)容是否正確進(jìn)行評估，如果該評估顯示了肯定的結(jié)果，則將所述多個信息項的內(nèi)容確認(rèn)為被所述識別單元識別出，如果該評估顯示了否定的結(jié)果，則基于所述預(yù)定關(guān)系對由所述識別單元識別的識別內(nèi)容進(jìn)行校正，以確認(rèn)所述多個信息項的內(nèi)容。
此外，為了實現(xiàn)上述目的，本發(fā)明的計算機(jī)可讀記錄介質(zhì)記錄有介質(zhì)處理程序，該介質(zhì)處理程序使得計算機(jī)實現(xiàn)用于基于通過讀取其上在多個區(qū)中表示有滿足預(yù)定關(guān)系的多個信息項的介質(zhì)而獲得的圖像數(shù)據(jù)對所述信息的內(nèi)容進(jìn)行識別的功能，所述介質(zhì)處理程序使得所述計算機(jī)充當(dāng)提取單元，用于從所述圖像數(shù)據(jù)提取所述多個信息項中的每一個；識別單元，用于對所述提取單元所提取的所述多個信息項中的每一個的內(nèi)容進(jìn)行識別；以及確認(rèn)單元，其基于所述預(yù)定關(guān)系對所述識別單元所識別的所述多個信息項的內(nèi)容是否正確進(jìn)行評估，如果該評估顯示了肯定的結(jié)果，則將所述多個信息項的內(nèi)容確認(rèn)為被所述識別單元識別出，如果該評估顯示了否定的結(jié)果，則基于所述預(yù)定關(guān)系對由所述識別單元識別的識別內(nèi)容進(jìn)行校正，以確認(rèn)所述多個信息項的內(nèi)容。
如上所述，根據(jù)本發(fā)明，所述確認(rèn)單元在對其上表示有滿足預(yù)定關(guān)系的多個信息項的介質(zhì)進(jìn)行識別時對所述識別單元的識別內(nèi)容是否正確進(jìn)行評估，當(dāng)評定為不正確時，基于所述預(yù)定關(guān)系對所述介質(zhì)中的所述多個信息項進(jìn)行校正，以確認(rèn)這些信息的內(nèi)容，因此，可以高精度地執(zhí)行對表示在所述介質(zhì)中的所述多個信息項的內(nèi)容的識別。
此外，由于可以高精度地對表示在介質(zhì)中的所述多個信息項的內(nèi)容進(jìn)行識別，因此介質(zhì)辯識單元可以確信地對介質(zhì)執(zhí)行辯識，結(jié)果，可以抑制諸如掃描儀設(shè)備對介質(zhì)的再讀取、操作員的手動輸入等(其中斷了本發(fā)明的文檔識別設(shè)備的自動處理)的耗時的事件，從而使得可以高效并且高速地對介質(zhì)執(zhí)行辯識處理。

圖1是示出作為本發(fā)明一個實施例的文檔識別系統(tǒng)的構(gòu)成的框圖。
圖2是示出作為本發(fā)明一個實施例的文檔識別系統(tǒng)的文檔的一個示例的圖。
圖3是對圖2所示的文檔的第一文檔ID與第二文檔ID之間的關(guān)系進(jìn)行說明的圖。
圖4是對圖2所示的文檔的構(gòu)成第一文檔ID的字符與構(gòu)成第二文檔ID的字符之間的一對一的對應(yīng)關(guān)系進(jìn)行說明的圖。
圖5是對圖2所示的文檔的第一文檔ID與第二文檔ID之間的關(guān)系進(jìn)行說明的圖。
圖6(a)和圖6(b)是分別對圖2所示的文檔的構(gòu)成第一文檔ID和第二文檔ID的字符進(jìn)行說明的圖，其中圖6(a)是示出各字符的識別率的圖，圖6(b)是示出各字符的一對一的對應(yīng)關(guān)系的圖。
圖7是對其中圖2所示的文檔的第一文檔ID和第二文檔ID滿足圖4所示的一對一的對應(yīng)關(guān)系的情況的識別率進(jìn)行說明的圖。
圖8(a)到8(d)是分別對構(gòu)成待記錄在作為本發(fā)明一個實施例的文檔識別系統(tǒng)的文檔中的文檔ID的字符的一個示例進(jìn)行說明的圖，其中圖8(a)是示出它們的候選字符的識別率的圖，圖8(b)和圖8(c)是分別對候選字符中的類似字符進(jìn)行說明的圖，圖8(d)是示出構(gòu)成文檔每個字符的識別率和各字符的圖。
圖9(a)到9(e)是分別示出構(gòu)成待記錄在作為本發(fā)明一個實施例的文檔識別系統(tǒng)的文檔中的文檔ID的字符的一個示例的圖，其中圖9(a)是示出構(gòu)成該文檔的字符的識別率的圖，圖9(b)到9(d)是分別對圖9(a)所示的字符的類似字符進(jìn)行說明的圖，圖9(e)是示出使用圖9(a)所示的字符記錄了其文檔ID的文檔的示例的圖。
圖10是示出作為本發(fā)明一個實施例的文檔識別系統(tǒng)的文檔的一個示例的圖。
圖11是示出由作為本發(fā)明一個實施例的文檔識別系統(tǒng)的掃描儀設(shè)備讀取的圖2所示的介質(zhì)的圖像數(shù)據(jù)的圖。
圖12是示出計算機(jī)的構(gòu)成示例的圖，通過該計算機(jī)實現(xiàn)了作為本發(fā)明一個實施例的文檔識別系統(tǒng)的文檔識別設(shè)備。
圖13是示出由作為本發(fā)明一個實施例的文檔識別系統(tǒng)的文檔識別設(shè)備的文檔ID數(shù)據(jù)庫保持的表的一個示例的圖。
圖14是示出由作為本發(fā)明一個實施例的文檔識別系統(tǒng)的文檔識別設(shè)備的文檔ID數(shù)據(jù)庫保持的表的一個示例的圖。
圖15是示出由作為本發(fā)明一個實施例的文檔識別系統(tǒng)的文檔識別設(shè)備的文檔ID數(shù)據(jù)庫保持的表的一個示例的圖。
圖16是對作為本發(fā)明一個實施例的文檔識別系統(tǒng)的文檔識別設(shè)備的提取單元的構(gòu)成進(jìn)行說明的圖。
圖17是示出當(dāng)由作為本發(fā)明一個實施例的文檔識別系統(tǒng)的文檔識別設(shè)備的提取單元提取文檔ID時使用的搜索模板的一個示例的圖。
圖18是說明了由作為本發(fā)明一個實施例的文檔識別系統(tǒng)的文檔識別設(shè)備的提取單元使用圖17所示的搜索模板進(jìn)行的搜索處理的圖。
圖19是示出當(dāng)由作為本發(fā)明一個實施例的文檔識別系統(tǒng)的文檔識別設(shè)備的提取單元通過圖17所示的搜索模板搜索文檔ID時的搜索模板的圖。
圖20是說明了由作為本發(fā)明一個實施例的文檔識別系統(tǒng)的文檔識別設(shè)備的識別單元進(jìn)行的字符識別處理的圖。
圖21(a)和圖21(b)是分別說明了由作為本發(fā)明一個實施例的文檔識別系統(tǒng)的文檔識別設(shè)備的識別單元對文檔ID進(jìn)行的識別處理的一個示例的圖，其中圖21(a)是示出識別對象的文檔ID的圖，圖21(b)是示出識別結(jié)果的圖。
圖22(a)和圖22(b)是分別說明了由作為本發(fā)明一個實施例的文檔識別系統(tǒng)的文檔識別設(shè)備的識別單元對文檔ID進(jìn)行的識別處理的一個示例的圖，其中圖22(a)是示出識別對象的文檔ID的圖，圖22(b)是示出識別結(jié)果的圖。
圖23(a)到圖23(c)是分別說明了由作為本發(fā)明一個實施例的文檔識別系統(tǒng)的文檔識別設(shè)備的校正單元對文檔ID進(jìn)行的校正處理的一個示例的圖，其中圖23(a)是示出校正對象的文檔ID的圖，圖23(b)是示出用于進(jìn)行校正處理的計算的圖，圖23(c)是示出校正結(jié)果的圖。
圖24(a)到圖24(c)是分別示出了由作為本發(fā)明一個實施例的文檔識別系統(tǒng)的文檔識別設(shè)備的校正單元對文檔ID進(jìn)行的校正處理的一個示例的圖，其中圖24(a)是示出校正對象的文檔ID的圖，圖24(b)是示出用于進(jìn)行校正處理的計算的圖，圖24(c)是示出校正結(jié)果的圖。
圖25(a)到圖25(c)是分別說明了由作為本發(fā)明一個實施例的文檔識別系統(tǒng)的文檔識別設(shè)備的校正單元對文檔ID進(jìn)行的校正處理的一個示例的圖，其中圖25(a)是示出校正對象的文檔ID的圖，圖25(b)是示出用于進(jìn)行校正處理的計算的圖，圖25(c)是示出校正結(jié)果的圖。
圖26(a)和圖26(b)是分別示出了由作為本發(fā)明一個實施例的文檔識別系統(tǒng)的文檔識別設(shè)備的確認(rèn)單元對文檔ID的內(nèi)容進(jìn)行的確認(rèn)處理的一個示例的圖，其中圖26(a)是示出內(nèi)容確認(rèn)對象的文檔ID的圖，圖26(b)是示出內(nèi)容確認(rèn)結(jié)果的圖。
圖27(a)和圖27(b)是分別說明了由作為本發(fā)明一個實施例的文檔識別系統(tǒng)的文檔識別設(shè)備的確認(rèn)單元對文檔ID的內(nèi)容進(jìn)行的確認(rèn)處理的一個示例的圖，其中圖27(a)是示出內(nèi)容確認(rèn)對象的文檔ID的圖，圖27(b)是示出內(nèi)容確認(rèn)結(jié)果的圖。
圖28(a)和圖28(b)是分別示出了由作為本發(fā)明一個實施例的文檔識別系統(tǒng)的文檔識別設(shè)備的確認(rèn)單元對文檔ID的內(nèi)容進(jìn)行的確認(rèn)處理的一個示例的圖，其中圖28(a)是示出內(nèi)容確認(rèn)對象的文檔ID的圖，圖28(b)是示出內(nèi)容確認(rèn)結(jié)果的圖。
圖29(a)和圖29(b)是分別示出了由作為本發(fā)明一個實施例的文檔識別系統(tǒng)的文檔識別設(shè)備的確認(rèn)單元對文檔ID的內(nèi)容進(jìn)行的確認(rèn)處理的一個示例的圖，其中圖29(a)是示出內(nèi)容確認(rèn)對象的文檔ID的圖，圖29(b)是示出內(nèi)容確認(rèn)結(jié)果的圖。
圖30是示出由作為本發(fā)明一個實施例的文檔識別系統(tǒng)的文檔識別設(shè)備的文檔信息數(shù)據(jù)庫保持的表的一個示例的圖。
圖31是對作為本發(fā)明一個實施例的文檔識別系統(tǒng)的文檔識別設(shè)備的文檔辯識單元的構(gòu)成進(jìn)行說明的圖。
圖32(a)和圖32(b)是分別對由作為本發(fā)明一個實施例的文檔識別系統(tǒng)的文檔識別設(shè)備的判斷單元進(jìn)行的判斷示例進(jìn)行說明的圖，其中圖32(a)是示出判斷對象文檔的圖，圖32(b)是示出該識別單元對圖32(a)所示的文檔進(jìn)行識別的結(jié)果的圖。
圖33(a)和圖33(b)是分別對由作為本發(fā)明一個實施例的文檔識別系統(tǒng)的文檔識別設(shè)備的判斷單元進(jìn)行的判斷示例進(jìn)行說明的圖，其中圖33(a)是示出判斷對象文檔的圖，圖33(b)是示出該識別單元對圖33(a)所示的文檔進(jìn)行識別的結(jié)果的圖。
圖34是示出作為本發(fā)明一個實施例的文檔識別系統(tǒng)的文檔識別設(shè)備的圖像狀態(tài)檢測單元的圖像狀態(tài)檢測對象的區(qū)的一個示例的圖。
圖35(a)和圖35(b)是分別示出了由作為本發(fā)明一個實施例的文檔識別系統(tǒng)的文檔識別設(shè)備的圖像狀態(tài)檢測單元進(jìn)行的圖像狀態(tài)檢測處理的一個示例的圖，其中圖35(a)是示出檢測對象文檔的圖，圖35(b)是示出檢測結(jié)果的圖。
圖36(a)和圖36(b)是分別示出了由作為本發(fā)明一個實施例的文檔識別系統(tǒng)的文檔識別設(shè)備的圖像狀態(tài)檢測單元對圖像狀態(tài)進(jìn)行的檢測處理的一個示例的圖，其中圖36(a)是示出檢測對象文檔的圖，圖36(b)是示出檢測結(jié)果的圖。
圖37(a)和圖37(b)是分別示出了由作為本發(fā)明一個實施例的文檔識別系統(tǒng)的文檔識別設(shè)備的圖像狀態(tài)檢測單元對圖像狀態(tài)進(jìn)行的檢測處理的一個示例的圖，其中圖37(a)是示出檢測對象文檔的圖，圖37(b)是示出檢測結(jié)果的圖。
圖38(a)到圖38(e)是分別示出了由作為本發(fā)明一個實施例的文檔識別系統(tǒng)的文檔識別設(shè)備的圖像狀態(tài)檢測單元對圖像狀態(tài)進(jìn)行的檢測處理的一個示例的圖，其中圖38(a)是示出檢測對象文檔的圖，圖38(b)是示出對含有圖38(a)所示的文檔的第一文檔ID的預(yù)定區(qū)進(jìn)行檢測的結(jié)果的圖，圖38(c)是示出對含有圖38(a)所示的文檔的第二文檔ID的預(yù)定區(qū)進(jìn)行檢測的結(jié)果的圖，圖38(d)是示出對含有圖38(a)所示的文檔的第三文檔ID的預(yù)定區(qū)進(jìn)行檢測的結(jié)果的圖，圖38(e)是示出對含有圖38(a)所示的文檔的第四文檔ID的預(yù)定區(qū)進(jìn)行檢測的結(jié)果的圖。
圖39是示出作為本發(fā)明一個實施例的文檔識別系統(tǒng)的文檔識別設(shè)備的操作過程的一個示例的流程圖。
圖40是示出作為本發(fā)明一個實施例的文檔識別系統(tǒng)的文檔識別設(shè)備的操作過程的一個示例的流程圖。
圖41(a)到41(c)是分別對與圖40所示的操作過程相對應(yīng)的文檔識別設(shè)備的處理內(nèi)容的實施例進(jìn)行說明的圖，其中圖41(a)是示出處理對象文檔的圖，圖41(b)是示出該識別單元的識別結(jié)果的圖，圖41(c)是對確認(rèn)單元的相互校正單元的校正處理進(jìn)行說明的圖。
圖42(a)到42(c)是分別對作為本發(fā)明一變型例的文檔識別設(shè)備的校正單元的校正處理的一個示例進(jìn)行說明的圖，其中圖42(a)是示出識別對象文檔的圖，圖42(b)是示出識別單元進(jìn)行的識別的結(jié)果的圖，圖42(c)是對校正單元的校正處理進(jìn)行說明的圖。
圖43(a)和43(b)是分別對作為本發(fā)明一變型例的文檔識別設(shè)備的相互校正單元的校正處理的一個示例進(jìn)行說明的圖，其中圖43(a)是示出識別單元對作為校正對象的文檔ID進(jìn)行的識別的結(jié)果的圖，圖43(b)是示出由文檔信息數(shù)據(jù)庫保持的表的一個示例的圖。
圖44(a)到44(e)是分別對作為本發(fā)明一變型例的文檔識別設(shè)備的相互校正單元的校正處理的一個示例進(jìn)行說明的圖，其中圖44(a)是示出處理對象文檔的圖，圖44(b)是示出識別單元的識別結(jié)果的圖，圖44(c)和圖44(d)是分別示出了包括由識別單元計算出的一致度的識別結(jié)果的圖，圖44(e)是示出了與預(yù)先保持的由識別單元計算出的一致度有關(guān)的表的圖。
圖45是對作為本發(fā)明一變型例的文檔識別設(shè)備的判斷單元的判斷處理的操作過程進(jìn)行說明的流程圖。
圖46是對作為本發(fā)明一變型例的文檔識別設(shè)備的判斷單元的判斷處理的操作過程進(jìn)行說明的流程圖。
圖47是示出作為本發(fā)明一變型例的文檔識別設(shè)備的文檔(用于識別的文檔)的一個示例的圖。
圖48是示出可對其應(yīng)用常規(guī)文檔識別設(shè)備的文檔的一個示例的圖。
具體實施例方式
下面參照附圖，對本發(fā)明的多個實施例進(jìn)行描述。
本發(fā)明的一個實施例[1-1]介質(zhì)處理系統(tǒng)的構(gòu)成首先，參照圖1所示的框圖，對作為本發(fā)明一個實施例的文檔識別系統(tǒng)(介質(zhì)處理系統(tǒng))1的構(gòu)成進(jìn)行描述。如圖1所示，文檔識別系統(tǒng)1是識別(處理)客體，并包括其上在多個區(qū)處記錄有滿足預(yù)定關(guān)系的多個信息項[字符、符號、數(shù)字字符圖片、條碼等(以下通稱為字符)]的多個文檔(介質(zhì))30、用于通過讀取多個文檔30中的每一個來獲得文檔30的圖像數(shù)據(jù)的掃描儀設(shè)備40、以及用于基于由掃描儀設(shè)備40獲得的圖像數(shù)據(jù)來識別在文檔30中記錄(表示)的信息的文檔識別設(shè)備(介質(zhì)處理設(shè)備)10。
在以下描述中，分別對介質(zhì)30、掃描儀設(shè)備40以及文檔識別設(shè)備10的構(gòu)成進(jìn)行描述。
關(guān)于文檔首先，對文檔識別系統(tǒng)1中的文檔30進(jìn)行說明。如圖2所示，在文檔30中，在區(qū)31中記錄(表示)有作為信息項的第一文檔ID 31a(在圖中被表示為“ID1”)并在區(qū)32中記錄有作為信息項的第二文檔ID 32a(在圖中被表示為“ID2”)。
將第一文檔ID 31a(以下也稱為文檔ID 31a)和第二文檔ID 32a(以下也稱為文檔ID 32a)設(shè)置為滿足稍后要描述的預(yù)定關(guān)系(相互關(guān)系或覆蓋關(guān)系)。
關(guān)于第一文檔ID與第二文檔ID之間的預(yù)定關(guān)系通過給出一實施例對文檔30的第一文檔ID 31a與第二文檔ID 32a之間的預(yù)定關(guān)系進(jìn)行說明。例如，在文檔ID 31a與文檔ID 32a之間，設(shè)置有這兩個文檔ID相同的關(guān)系，或者如圖3所示的文檔ID 31a與文檔ID 32a之和恒定的關(guān)系。
根據(jù)圖3所示的關(guān)系，文檔ID 31a和文檔ID 32a均由具有3個數(shù)位數(shù)字的大于100的數(shù)字字符組成，并且文檔ID 31a和文檔ID 32a滿足它們的和始終為“1000”的關(guān)系。
作為另一示例，在某些情況下，將構(gòu)成文檔ID 31a的各字符與構(gòu)成文檔ID 32a的各字符設(shè)置成相互具有一對一的對應(yīng)關(guān)系，但是均仍由不同的字符組成。
即，如圖4所示，當(dāng)文檔ID 31a和32a由數(shù)字字符組成時，例如，通過具有相對于文檔ID 31a中的各數(shù)字字符0到9的一對一的對應(yīng)關(guān)系的不同數(shù)字字符來設(shè)置文檔ID 32a中的數(shù)字字符。在本示例中，文檔ID31a中的各“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”、“9”分別對應(yīng)于文檔ID 32a中的“5”、“8”、“9”、“6”、“7”、“0”、“3”、“4”、“1”、“2”。
換句話說，將構(gòu)成文檔ID 31a和32a的數(shù)字字符設(shè)置成使得在文檔ID 31a與文檔ID 32a之間“0”與“5”呈彼此一對一的對應(yīng)關(guān)系、“1”與“8”呈彼此一對一的對應(yīng)關(guān)系、“2”與“9”呈彼此一對一的對應(yīng)關(guān)系、“3”與“6”呈彼此一對一的對應(yīng)關(guān)系以及“4”與“7”呈彼此一對一的對應(yīng)關(guān)系。
因此，如圖5所示，當(dāng)文檔ID 31a和ID 32a是具有3個數(shù)位的數(shù)字字符并且文檔ID 31a在100到500的范圍內(nèi)時，例如，當(dāng)文檔ID 31a是“100”時，文檔ID 32a變成“855”，當(dāng)文檔ID 31a是“237”時，文檔ID 32a變成“964”，當(dāng)文檔ID 31a是“500”時，文檔ID 32a變成“055”。按此方式，基于圖4所示的對應(yīng)關(guān)系，通過不同的數(shù)字字符設(shè)置文檔ID 31a和文檔ID 32a，使得這兩個文檔ID可以具有彼此一對一的覆蓋關(guān)系。
同時，優(yōu)選地，基于文檔識別設(shè)備10(具體地，后述識別單元15)對各數(shù)字字符的識別率來確定圖4所示的一對一的對應(yīng)關(guān)系。
即，如圖6(a)所示，在文檔識別設(shè)備10中字符(在本示例中為數(shù)字字符0到9)的識別率(其為對字符的正確識別的比率)是不同的。
因此，按圖4所示的一對一的對應(yīng)關(guān)系，優(yōu)選地，基于圖6(a)所示的文檔識別設(shè)備10對各數(shù)字字符0到9的識別率，設(shè)置成最高識別率“1”與最低識別率“8”相互對應(yīng)，第二高識別率“3”與第九高識別率“6”、第三高識別率“7”與第八高識別率“4”、第四高識別率“5”與第七高識別率“0”以及第五高識別率“9”與第六高識別率“2”相互對應(yīng)，并且顯示出上述一對一的對應(yīng)性的數(shù)字字符對的總識別率可以變得盡可能地均勻。
按此考慮，可以減少構(gòu)成文檔ID 31a和32a的數(shù)字字符的識別率的變化，并且與構(gòu)成文檔ID 31a和32a的字符無關(guān)地，文檔識別設(shè)備10可以以穩(wěn)定的識別率執(zhí)行字符識別。
此外，當(dāng)將文檔30的文檔ID 31a和文檔ID 32a設(shè)置成滿足如圖4所示的一對一的對應(yīng)關(guān)系時，與其中簡單地使文檔ID 31a與文檔ID 32a相同的情況相比，可以改進(jìn)文檔識別設(shè)備10的識別率。
即，例如，如圖7所示，當(dāng)文檔ID 31a是“8888”并且文檔ID 32a也是“8888”時(情況1)，和當(dāng)文檔ID 31a是“8888”并且文檔ID 32a是基于上述圖4的覆蓋關(guān)系而設(shè)置的“1111”時(情況2)，如果對這兩種情況進(jìn)行比較，則文檔識別設(shè)備10對“8”的識別率是99.99％，并且文檔識別設(shè)備10對“1”的識別率是99.999％，在情況1中對文檔ID 31a和32a的識別率分別為99.99％的四次方，并且可以將對文檔ID 31a與文檔ID 32a的組合識別率(文檔辯識率)表示為“(99.99％×99.99％)^4”，因此，文檔不可辯識率(即，不能識別這些文檔ID 31a和32a的可能性)變成“0.08％”。
與之對照的是，在情況2中，對文檔ID 31a的識別率是99.99％的四次方，并且對文檔ID 32a的識別率變成99.999％的四次方。因此，可以將對這些文檔ID 31a與32a的識別率表示為“(99.99％×99.999％)^4”，因此文檔不可辯識率變成“0.044％”。
按此方式，在情況1與情況2之間文檔不可辯識率之差為0.036％，因此與文檔ID 31a與32a簡單地相同的情況1相比，在將文檔ID 31a與32a設(shè)置成滿足圖4所示的覆蓋關(guān)系的情況2中對識別率的提高更顯著。
構(gòu)成第一文檔ID和第二文檔ID的字符接下來，對構(gòu)成文檔ID 31a和32a中的每一個的字符進(jìn)行說明。如圖8(a)所示，當(dāng)使用數(shù)字字符和字母字符(在此情況下是首字母)作為構(gòu)成文檔ID 31a和32a中的每一個的字符時，基于各字符的識別率，不使用具有低于預(yù)定級的識別率的字符作為構(gòu)成文檔ID 31a和32a的字符。
此外，如圖8(b)所示，當(dāng)使用數(shù)字字符和字母字符時，由于作為數(shù)字字符的“0”與作為字母字符的“O”和“Q”非常類似，因此文檔識別設(shè)備10難于以清楚的辨識率來識別這些類似字符(如圖中的“類似字符組1”所示)。
此外，如圖8(c)所示，對于文檔識別設(shè)備10，作為數(shù)字字符的“1”與作為字母字符的“I”也是類似字符(如圖中的“類似字符組2”所示)。
因此，確定出對于這些類似字符，在各組中可以使用一個字符。例如，如圖8(d)所示，應(yīng)當(dāng)優(yōu)先使用數(shù)字字符，使得在類似字符組1中，從構(gòu)成文檔ID 31a和32a的字符中排除字母字符“O”和“Q”。此外，在類似字符組2中排除字母字符“I”。
按此方式，當(dāng)將構(gòu)成文檔ID 31a和32a的字符局限于具有預(yù)定識別率的那些字符時，可以提高文檔識別設(shè)備10對文檔ID 31a和32a的識別率，并且文檔識別設(shè)備10可以按更高的精度對文檔30進(jìn)行識別。
此外，當(dāng)使用多種類型的字符作為構(gòu)成文檔ID 31a和32a的字符時，對于文檔識別設(shè)備10難以辯識的字符，只使用類似字符組中的一個字符作為構(gòu)成文檔ID 31a和32a的字符，從而提高文檔識別設(shè)備10的識別率。
此外，盡管在圖8(a)到8(d)中對使用兩種類型(數(shù)字字符和字母字符)的字符的情況進(jìn)行了說明，但是如圖9(a)到9(e)所示可以由三種類型(在此情況下是數(shù)字字符、字母字符以及符號)以上的字符來組成文檔ID 31a和32a。在此情況下，如圖9(b)所示，在三種類型中的每一個之間并且在所有三種類型之中存在類似字符，當(dāng)如圖9(c)和圖9(d)所示只使用類似字符組中的一個字符作為構(gòu)成文檔ID 31a和32a的字符時(見圖9(a))，可以通過文檔識別設(shè)備10實現(xiàn)高精度的字符識別。
同時，圖9(e)示出了由數(shù)字字符與符號的組合所組成的文檔ID 31a的示例。
文檔的變型例如圖10所示，作為本文檔識別系統(tǒng)1中的文檔的變型例，除文檔ID31a和32a以外，文檔30a還可以包括區(qū)33和34中的文檔ID 33a(在圖中表示為“ID3”)和文檔ID 34a(在圖中表示為“ID4”)，以具有不小于三個(在此情況下為四個)的文檔ID31a至34a。
關(guān)于掃描儀設(shè)備接下來，給出對文檔識別系統(tǒng)1的掃描儀設(shè)備40的說明，其中，掃描儀設(shè)備40用于將介質(zhì)(在本情況下是文檔30)作為圖像數(shù)據(jù)光學(xué)地進(jìn)行讀取。
在圖11中，示出了掃描儀設(shè)備40通過讀取圖2所示的文檔30而獲得的圖像數(shù)據(jù)40a。如前面參照圖2所述的，文檔30具有其中記錄有第一文檔ID 31a(在圖中表示為“ID1”)的區(qū)31和其中記錄有第二文檔ID 32a(在圖中表示為“ID2”)的區(qū)32。
關(guān)于文檔識別設(shè)備的構(gòu)成接下來，給出對文檔識別系統(tǒng)1中的本發(fā)明的文檔識別設(shè)備10的構(gòu)成的說明，其中，如圖1所示，文檔識別設(shè)備10包括圖像數(shù)據(jù)讀取單元11、ID數(shù)據(jù)庫(IDDB)12、IDDB讀取單元13、提取單元14、識別單元15、檢查單元16、校正單元17、確認(rèn)單元18、文檔信息數(shù)據(jù)庫(文檔信息DB)21、文檔辯識單元(介質(zhì)辯識單元)22、判斷單元23、圖像狀態(tài)檢測單元24以及選擇單元25。
同時，例如，如圖12所示，由包括顯示單元3、作為輸入接口的鍵盤4和鼠標(biāo)5以及存儲單元6的計算機(jī)2的操作單元7(例如，CPU中央處理器)來實現(xiàn)文檔識別設(shè)備10。
即，當(dāng)將文檔識別系統(tǒng)1的掃描儀設(shè)備40連接到操作單元7并且操作單元7執(zhí)行預(yù)定應(yīng)用程序(例如，后述介質(zhì)處理程序)時，實現(xiàn)了文檔識別設(shè)備10的圖像數(shù)據(jù)讀取單元11、IDDB讀取單元13、提取單元14、識別單元15、檢查單元16、校正單元17、確認(rèn)單元18、文檔辯識單元22、判斷單元23、圖像狀態(tài)檢測單元24以及選擇單元25。
在以下說明中，除非特別指出，否則參照其中文檔識別設(shè)備10對圖2所示的文檔30進(jìn)行識別的情況(即，圖11所示的圖像數(shù)據(jù)40a)給出說明。
圖像數(shù)據(jù)讀取單元11用于讀取由掃描儀設(shè)備40通過讀取文檔30而獲得的圖像數(shù)據(jù)40a。
IDDB 12是用于保持示出了文檔類型與關(guān)于文檔中的文檔ID的信息之間的對應(yīng)的表的數(shù)據(jù)庫，例如，作為與文檔30中的第一文檔ID 31a和第二文檔ID 32a有關(guān)的信息，保持有以下信息(1)到(6)(1)文檔30中的各區(qū)31和32的原點坐標(biāo)(在此情況下是區(qū)中的左上端)。即，圖11中的坐標(biāo)(X1，Y1)和(X2，Y2)。
(2)第一文檔ID 31a和第二文檔ID 32a中的每一個的位數(shù)(字符數(shù))。
(3)在第一文檔ID 31a和第二文檔ID 32a中的每一個中校驗位的位置。
(4)第一文檔ID 31a和第二文檔ID 32a中的每一個的字符類型。
(5)區(qū)31和32中的每一個的尺寸。
(6)在提取單元14用以提取區(qū)31和32的搜索模板中的空白區(qū)(空余部分)。
這里，在圖13到15中示出了由IDDB 12保持的表的組成的示例。首先，在圖13所示的第一示例中，由IDDB 12保持的表12a以圖11所示的文檔30為處理對象，并保持有上述項(1)到(4)的信息。在表12a中，“ID”項的“1”表示第一文檔ID 31a，“2”表示第二文檔ID 32a。
如圖11所示，表12a保持區(qū)31的原點坐標(biāo)(X1，Y1)和區(qū)32的原點坐標(biāo)(X2，Y2)作為以上信息(1)。
此外，表12a保持第一文檔ID 31a和第二文檔ID 32a中的每一個的位數(shù)“4”作為以上信息(2)。
此外，表12a保持第一文檔ID 31a的校驗位的位置“前端”(在圖中由“CD”表示)和第二文檔ID 32a的校驗位的位置“末端”作為以上信息(3)。其中，“前端”表示文檔ID 31a和32a的左端，“末端”表示文檔ID 31a和32a的右端。
最后，表12a保持第一文檔ID 31a和第二文檔ID 32a中的每一個的字符類型“數(shù)字字符”作為以上信息(4)。
此外，給出關(guān)于作為圖14所示的第二示例的表12b的說明，在該示例中，文檔識別設(shè)備10以多種類型的文檔為識別對象，并且對于各文檔類型(在本示例中為“類型01”和“類型02”)表12b保持圖13所示的表12a的相同的內(nèi)容。在表12b中，“類型01”的文檔的第一文檔ID的原點坐標(biāo)是(X11，Y11)，第二文檔ID的原點坐標(biāo)是(X12，Y12)，類似地，“類型02”的文檔的第一文檔ID的原點坐標(biāo)是(X21，Y21)，第二文檔ID的原點坐標(biāo)是(X22，Y22)。此外，“類型02”的文檔的第一文檔ID和第二文檔ID的位數(shù)是“6”并且字符類型是“字母字符”。
此外，給出關(guān)于作為圖15所示的第三示例的表12c的說明，在該示例中，表12c保持主要是提取單元14用以從文檔30提取文檔ID(即，區(qū)31和32)所需的信息并保持以上信息(2)到(6)。
其中，以上信息(2)到(4)與表12a的信息(2)到(4)相同。在表12c中，與表12a類似，“ID”項的“1”表示第一文檔ID 31a，“2”表示第二文檔ID 32a。
對于文檔ID 31a和32a中的每一個，表12c保持表示區(qū)31和32中的每一個的大小的尺寸(區(qū)31和32是矩形，因此這里是高度和寬度)“3mm×10mm”作為以上信息(5)。
此外，表12c保持由提取單元14用以提取文檔ID 31a和32a中的每一個中的區(qū)31和32的搜索模板(見后述圖17)中的空白區(qū)(在圖中簡單地表示為“空白區(qū)”)“上下左右5mm”作為以上信息(6)。
IDDB讀取單元13用于讀取提取單元14用以從IDDB 12(例如，從表12a到12c中的任一個)提取文檔ID 31a和32a所需的信息。
提取單元14基于由IDDB讀取單元13讀取的信息從正在由圖像數(shù)據(jù)讀取單元11讀取的文檔30的圖像數(shù)據(jù)40a提取各文檔ID 31a和32a。
具體來說，提取單元14通過使用基于由IDDB讀取單元13獲得的上述信息項(1)、(5)、(6)中的至少一項的搜索模板14a(見后述圖17)對圖像數(shù)據(jù)40a執(zhí)行搜索。
這里，參照其中提取單元14基于表12c所示的上述信息(5)和(6)提取區(qū)31的情況的圖16到19給出說明。
如圖16所示，提取單元14包括文檔ID特征分析單元14-1和文檔ID搜索單元14-2，其中文檔ID特征分析單元14-1對由IDDB讀取單元13正在讀取的IDDB 12中的表12c的信息進(jìn)行分析。特別地，文檔ID特征分析單元基于作為表12c中的上述信息(5)的區(qū)31和32的尺寸(“3mm×10mm”)并基于作為上述信息(6)的空白區(qū)[上(上側(cè))下(下側(cè))左(左側(cè))右(右側(cè))5mm]來確定圖17所示的搜索模板14a。
即，提取單元14的文檔ID特征分析單元14-1生成具有與區(qū)31和32相同的尺寸“3mm×10mm”的矩形陰影區(qū)14b，和從該區(qū)14b的各側(cè)垂直地相隔5mm(見各方向箭頭a到d)的矩形搜索模板14a。
然后提取單元14的文檔ID搜索單元14-2使用搜索模板14a對圖像數(shù)據(jù)40a中的文檔30執(zhí)行橫向搜索。對于該橫向搜索，通過從文檔30的左上端向右方向移動搜索模板14a來開始進(jìn)行搜索，當(dāng)?shù)竭_(dá)了文檔30的右端時，將搜索模板14a向下移動預(yù)定間隔，并將其從左端向右方向移動，以繼續(xù)進(jìn)行搜索。文檔ID搜索單元14-2一直執(zhí)行該搜索處理，直到提取了文檔ID 31a和32a(在此情況下只有文檔ID 31a)。
例如，當(dāng)?shù)谝晃臋nID 31a是“1237”時，如果如圖19所示，在區(qū)31中，在搜索模板14a的陰影區(qū)14b的內(nèi)部清楚地表示有“1237”(即，陰影區(qū)14b與區(qū)31相互重合)，則提取單元14提取文檔ID 31a(區(qū)31)，由此完成了處理。
根據(jù)使用該搜索模板14a的處理，提取單元14可以在沒有上述信息(1)的情況下從圖像數(shù)據(jù)40a的文檔30提取區(qū)31和32。
此外，下面將給出對與通過提取單元14使用搜索模板14a提取區(qū)31和32的文檔ID 31a和32a的方法不同的實施例的說明，在該情況下，提取單元14可以使用上述信息(1)和(2)提取區(qū)31和32的文檔ID 31a和32a。
即，例如，提取單元14利用保持在表12a和12b中的區(qū)31和32的原點坐標(biāo)和文檔ID 31a和32a的字符數(shù)量從圖像數(shù)據(jù)40a直接提取記錄在區(qū)31和32中的文檔ID 31a和32a。
識別單元15對由提取單元14提取的區(qū)31的第一文檔ID 31a和區(qū)32的第二文檔ID 32a中的每一個的內(nèi)容(即，字符)進(jìn)行識別，并利用由IDDB讀取單元13讀取的上述信息(2)和(4)執(zhí)行字符識別。
即，識別單元15針對文檔ID 31a和32a中的每一個的每個字符對與多個候選字符的一致度(確定度)進(jìn)行計算，并將具有計算出的最高一致度的候選字符識別為文檔ID 31a和32a中的每一個的一個字符。
這里，參照通過提取單元14提取的區(qū)31中的文檔ID 31a是“1237”的示例對識別單元15針對文檔ID 31a進(jìn)行的字符識別處理的詳情進(jìn)行說明。
即，如圖20所示，將識別單元15連接到包括日本字符字典15a-1、數(shù)字字符字典15a-2、字母字符字典15a-3以及符號字典15a-4的字符字典15a，當(dāng)通過提取單元14提取的文檔ID 31a是“1237”時，識別單元15基于由IDDB讀取單元13讀取的上述信息(4)(字符類型信息)識別出文檔ID 31a是數(shù)字字符，并使用字符字典15a中的數(shù)字字符字典15a-2來執(zhí)行字符識別。
此外，識別單元15基于由IDDB讀取單元13讀取的上述信息(2)(字符數(shù)量信息)識別出文檔ID 31a具有4個字符，并執(zhí)行字符識別。
然后，識別單元15針對由提取單元14提取的文檔ID 31a的每個字符基于數(shù)字字符字典15a-2計算關(guān)于候選字符的一致度，并采用具有計算出的最高第一位一致度的候選字符作為構(gòu)成文檔ID 31a的字符。在本示例中針對每個4位字符執(zhí)行該作業(yè)，并且識別單元15將文檔ID 31a識別為“1237”。
然而，例如，當(dāng)如圖21(a)所示在數(shù)字字符“1”上寫有諸如X標(biāo)記的涂寫(覆寫)作為文檔30中的文檔ID 31a時，盡管識別單元15針對被覆寫的“1”計算關(guān)于候選字符的一致度，但是涂寫導(dǎo)致了操作噪聲，識別單元15如圖21(b)所示地不能正確地識別文檔ID 31a，在某些情況下，丟棄數(shù)字字符“1”或者不能將其識別為字符(在圖中由“？”表示)。
其中，識別單元進(jìn)行丟棄是指識別單元不能將識別對象字符識別為一個字符的情況，如其中存在多個候選字符具有第一位一致度或者第一位候選字符與第二位候選字符之間的一致度差很小的情況。
此外，其中識別單元15不能將對象識別為字符的情況例如是其中所有候選字符的一致度等于或小于預(yù)定值的情況。
如圖22(a)所示，當(dāng)在由掃描儀設(shè)備40讀取的圖像數(shù)據(jù)40a上作為文檔ID 31a的數(shù)字字符“2”部分由于文檔30的原始污染或皺褶、或由于在由掃描儀設(shè)備40讀取時附著的污染或皺褶而被污染時，該污染導(dǎo)致了操作噪聲，識別單元15如圖22(b)所示地不能正確地識別數(shù)字字符“2”(在圖中由“？”表示)。
檢查單元16針對由識別單元15識別出的文檔ID 31a和32a中的每一個的字符使用校驗位來執(zhí)行檢查。
即，檢查單元16利用由IDDB讀取單元13從IDDB 12讀取的上述信息(3)從上述文檔ID 31a和32a中的每一個提取校驗位，并基于由此提取的校驗位檢查識別單元15是否正確地識別了文檔ID 31a和32a。
例如，當(dāng)通過識別單元15將文檔ID 31a識別為“1247”時，如圖13的表12a所示，文檔ID 31a的校驗位的位置位于“前端(左端)”處，因此檢查單元16基于該信息提取“1”作為校驗位。
這里使用的校驗位算法是這樣的在4位文檔ID中，將表示最后3個數(shù)位的數(shù)字(在此情況下是“247”)除以右端數(shù)字(在此情況下是“7”)，并將該右端數(shù)字減去該除法的余數(shù)，其差等于校驗位。
檢查單元16基于上述算法執(zhí)行以下(A)和(B)的計算247/7＝35...2…(A)7-2＝5…(B)檢查單元16接著判斷上述計算(B)的結(jié)果“5”與校驗位“1”是否相同，在此情況下，這兩者不相同，因此，檢查單元16判斷識別單元15對文檔ID 31a的“1247”的識別不正確。
當(dāng)通過由檢查單元16使用校驗位進(jìn)行的檢查揭示出由識別單元15識別的文檔ID 31a和32a不正確、或者在由識別單元15進(jìn)行的字符識別中丟棄或未識別出文檔ID 31a或32a中的任一個的字符時，校正單元17要么利用這種校驗位來校正文檔ID 31a和32a的內(nèi)容，要么基于由識別單元15計算出的一致度來校正文檔ID 31a和32a的內(nèi)容。
例如，如圖23(a)所示，當(dāng)識別單元15丟棄了校驗位(在圖中的表示為“CD”)時(即，將文檔ID識別為“？237”)，校正單元17執(zhí)行圖23(b)所示的計算(C)和(D)，并將計算(D)的結(jié)果“1”視為所丟棄的校驗位。即，如圖23(c)所示，將由識別單元15識別的文檔ID校正為“1237”。
此外，如圖24(a)所示，當(dāng)由識別單元15丟棄了從左端起第三數(shù)位的字符時(即，將文檔ID識別為“12？7”)，校正單元17執(zhí)行圖24(b)所示的計算(E)和(F)。然后，如圖24(c)所示，作為計算(F)的結(jié)果，校正單元17將丟棄的字符“？”校正為“3”，以將由識別單元15識別的文檔ID校正為“1237”。
此外，如圖25(a)所示，當(dāng)由識別單元15丟棄了從左端起第二數(shù)位的字符時(即，將文檔ID識別為“1？37”)，校正單元17執(zhí)行圖25(b)所示的計算(G)和(H)。然后，如圖25(c)所示，作為計算(H)的結(jié)果，校正單元17將丟棄的字符“？”校正為“2”或“9”。
同時，在識別單元15中基于這些“2”、“9”的一致度執(zhí)行對上述“2”或“9”的選擇，并且校正單元17使用具有由識別單元15計算出的最高一致度的數(shù)字字符對文檔ID進(jìn)行校正。
確認(rèn)單元18對由識別單元15識別的文檔ID 31a和32a的內(nèi)容(字符)進(jìn)行確認(rèn)，并且包括如圖1所示的判斷單元19和相互校正單元20。
判斷單元19基于預(yù)先設(shè)置的在這些文檔ID 31a與32a之間的預(yù)定關(guān)系，判斷由識別單元15識別的文檔ID 31a和32a的每個字符是否正確，或者判斷由校正單元17執(zhí)行了校正處理后的文檔ID 31a和32a的每個字符是否正確，參照上述圖3到圖6(a)和6(b)對此進(jìn)行了說明。
同時，與檢查單元16的檢查結(jié)果無關(guān)地，判斷單元19執(zhí)行判斷處理。
當(dāng)判斷單元19判斷由識別單元15執(zhí)行的字符識別是正確的時，相互校正單元20確認(rèn)文檔ID 31a和32a的字符為被由識別單元15識別出。
同時，當(dāng)判斷單元判斷由識別單元15執(zhí)行的字符識別不正確時，相互校正單元20基于文檔ID 31a與32a之間的預(yù)定關(guān)系對識別單元15的識別內(nèi)容進(jìn)行校正，并確認(rèn)文檔ID 31a和32a的字符。
這里，將參照圖26(a)和26(b)到圖29(a)和29(b)對確認(rèn)單元18(判斷單元19和相互校正單元20)的具體操作示例進(jìn)行說明。圖26(a)和26(b)所示的實施例示出了其中不執(zhí)行由校正單元17進(jìn)行的校正處理的情況，而圖27(a)和27(b)到圖29(a)和29(b)所示的實施例示出了其中執(zhí)行校正單元17進(jìn)行的校正處理的情況。
首先，圖26(a)和26(b)所示的示例是這樣的如圖26(a)所示，丟棄了文檔ID 31a的從左端起的第二數(shù)位(即，識別為“1？37”)并且丟棄了文檔ID 32a的左端(即，識別為“？237”)。在此情況下，如果在文檔30中滿足文檔ID 31a與32a相同的關(guān)系，則判斷單元19判斷圖26(a)所示的識別單元15的識別內(nèi)容不正確。
由于在文檔ID 31a和32a中丟棄了互不相同的數(shù)位，因此相互校正單元20通過使用在文檔ID 31a和32a中未丟棄的數(shù)字字符校正各數(shù)位的數(shù)字字符，將文檔ID 31a和32a校正并確認(rèn)為如圖26(b)所示的“1237”。
此外，如圖27(a)所示，當(dāng)校正單元17計算出多個文檔ID 31a時(即，計算出“1237”和“1937”)，判斷單元19判斷該識別內(nèi)容不正確，因為存在多個內(nèi)容。當(dāng)在文檔30中滿足文檔ID 31a與32a相同的關(guān)系時，相互校正單元20接著基于對文檔ID 32a的識別結(jié)果(即，“1237”)如圖27(b)所示地將文檔ID 31a的內(nèi)容確認(rèn)為“1237”。
此外，如圖28(a)所示，當(dāng)與圖27(a)類似地由校正單元17計算出多個文檔ID 31a并且在文檔30中滿足各文檔ID 31a與32a的總和分別為“10000”的關(guān)系時，如圖28(b)所示，相互校正單元20求多個候選文檔ID 31a與文檔ID 32a“8763”的總和，并將結(jié)果是“10000”的內(nèi)容“1237”確認(rèn)為文檔ID 31a。
此外，如圖29(a)所示，當(dāng)與圖27(a)類似地由校正單元17計算出多個文檔ID 31a時，并且在文檔30中由不同的字符構(gòu)成文檔ID 31a和32a使得文檔ID 31a與32a滿足上述圖4所示的一對一的對應(yīng)關(guān)系時，如圖29(b)所示，相互校正單元20將通過將文檔ID 32a“8964”的各字符轉(zhuǎn)換成具有圖4所示的對應(yīng)關(guān)系的其他字符而獲得的“1237”確認(rèn)為文檔ID 31a。
文檔信息DB 21針對各文檔ID保持與記錄了文檔ID的類型和記載內(nèi)容有關(guān)的文檔信息(即，關(guān)于在文檔中的何處記載了什么信息的信息)，并且例如保持根據(jù)如圖30所示的構(gòu)成的表21a，該表21a示出了在文檔ID與對應(yīng)于該文檔ID(文檔信息)的類型和記載內(nèi)容等之間的對應(yīng)。
同時，在該表21a中，針對第一文檔ID和第二文檔ID的3種類型中的每一個，保持有項名稱(坐標(biāo)、字符類型、字符數(shù)量)和日期類型(日本日歷或西方日歷)作為文檔的類型和字符識別項(記載項)。
在確認(rèn)單元18確認(rèn)了文檔30的文檔ID 31a和32a的內(nèi)容之后，文檔辯識單元22基于確認(rèn)的文檔ID 31a和32a的內(nèi)容對文檔30進(jìn)行辯識，并包括如圖31所示的文檔ID驗核單元22a、定義信息辯識單元22b以及記載內(nèi)容識別單元22c。
文檔ID驗核單元22a基于保持在文檔信息DB 21中的表21a對與文檔ID 31a或文檔ID 32a相對應(yīng)的文檔類型和記載內(nèi)容(例如，在文檔30的何處以什么類型的字符和多少數(shù)量的字符記載了什么項)進(jìn)行辯識，具體來說，對在保持在文檔信息DB 21中的表21a的文檔ID中是否存在由確認(rèn)單元18確認(rèn)的文檔ID 31a和32a進(jìn)行驗核，如果作為該驗核的結(jié)果從表21a檢測到相同的文檔ID，則提取與所檢測的文檔ID相對應(yīng)的文檔類型和字符識別項(即，文檔信息)。
當(dāng)文檔ID驗核單元22a沒有從表21a檢測到與文檔ID 31a和32a相同的文檔ID時，即，確認(rèn)單元18沒有確認(rèn)文檔30的文檔ID 31a和32a的內(nèi)容，或者盡管當(dāng)確認(rèn)單元18確認(rèn)了文檔ID 31a和32a但是在表21a中不存在所確認(rèn)的文檔ID 31a和32a時，則定義信息辯識單元22b例如基于用于識別除預(yù)先保持在文檔信息DB 21中的文檔ID 31a和32a以外的文檔的信息(定義信息)對文檔30進(jìn)行辯識。
同時，對于定義信息，例如，考慮與文檔30的版面有關(guān)的信息(例如，關(guān)于刻度線和項配置的信息)、或預(yù)定特殊符號(標(biāo)記)及其位置以及與文檔的設(shè)計有關(guān)的信息。
然后定義信息辯識單元22b基于辯識的文檔30的類型從表21a提取文檔30的文檔信息。
記載內(nèi)容識別單元22c基于由文檔ID驗核單元22a或定義信息辯識單元22b辯識的文檔30的文檔信息，從文檔30的圖像數(shù)據(jù)40a識別出除在文檔30中記載的文檔ID 31a和32a以外的記載內(nèi)容，并且記載內(nèi)容識別單元22c例如使得以上圖12所示的顯示單元3顯示所識別的記載內(nèi)容(識別結(jié)果)，或者將其作為數(shù)據(jù)記錄在存儲單元6中。
當(dāng)文檔辯識單元不能辯識文檔30時，判斷單元23基于識別單元15對文檔30的文檔ID 31a和32a的識別狀態(tài)，評估是否使得掃描儀設(shè)備40再讀取文檔30或者使得操作員手動輸入除文檔30的文檔ID 31a和32a以外的記載內(nèi)容。操作員例如通過使用圖12所示的鍵盤4或鼠標(biāo)5來執(zhí)行手動輸入過程。
例如，當(dāng)識別單元15識別出文檔ID 31a和32a中的每一個的2個或2個以上字符時，判斷單元23進(jìn)行評估以使得掃描儀設(shè)備40再讀取文檔30，而當(dāng)未識別出文檔ID 31a和32a中的任一個的3個或3個以上字符時，判斷單元23進(jìn)行評估以使得操作員進(jìn)行手動輸入。
具體來說，例如當(dāng)如圖32(a)所示在文檔30的文檔ID 31a和32a的部分處存在皺褶23a時，并且當(dāng)如圖32(b)所示作為識別單元15對文檔ID 31a和32a的識別的結(jié)果若針對文檔ID 31a和32a中的每一個不能識別出2個字符時，判斷單元23判定應(yīng)當(dāng)通過掃描儀設(shè)備40重新讀取該文檔30。
然而，當(dāng)如圖33(a)所示在文檔30的文檔ID 31a處存在皺褶23a并且蓋印有個人印章(印戳)23b，此外在文檔ID 32a處還寫有字跡23c時，并且當(dāng)如圖33(b)所示作為識別單元15對文檔ID 31a和32a的識別的結(jié)果所有字符都不能識別時，判斷單元23判定應(yīng)當(dāng)由操作員手動輸入該文檔30。
當(dāng)判斷單元23判定應(yīng)當(dāng)由操作員進(jìn)行手動輸入時，例如通過使圖12所示的顯示單元3相應(yīng)地顯示該意圖來向操作員通知手動輸入處理。
圖像狀態(tài)檢測單元24用于在通過掃描儀設(shè)備40獲得的圖像數(shù)據(jù)40a(見圖11)中檢測出包括文檔ID 31a和32a(即，區(qū)31和32)在內(nèi)的這些文檔ID 31a和32a的各周緣區(qū)域的圖像狀態(tài)(即，文檔30的紙張狀態(tài))，并且例如通過計算與目標(biāo)區(qū)中的顏色(在此情況下是黑和白的梯度0到255)有關(guān)的直方圖來檢測圖像狀態(tài)。
例如，如圖34所示，如果針對其中圖像狀態(tài)檢測單元24檢測其中記錄有文檔ID 31a的區(qū)31的周圍的預(yù)定區(qū)(圖中的陰影區(qū))31x的圖像狀態(tài)的情況進(jìn)行說明，當(dāng)如圖35(a)所示在文檔30的區(qū)30x中即沒有污染又沒有褶皺時，如圖35(b)所示，在由圖像狀態(tài)檢測單元24計算出的直方圖中表示有表示字符(黑)的部分和表示背景(白)的部分。
然而，當(dāng)如圖36(a)所示在文檔30的區(qū)31的附近附著有皺褶24a時，皺褶24a充當(dāng)了噪聲，并且，如圖36(b)所示，如在由圖像狀態(tài)檢測單元24計算出的直方圖中示出的那樣，字符部分和背景部分受到了影響。
在圖36(b)所示的示例中，與圖35(b)所示的表示正常狀態(tài)(文檔30處于良好狀態(tài))的直方圖相比，表示字符部分的區(qū)變得更厚并且更大同時靠近背景部分。此外，背景部分變形了，呈梯形，并且其面積也增大了。
此外，當(dāng)如圖37(a)所示存在個人印章24b或字跡24c時，個人印戳24b或字跡24c充當(dāng)噪聲，并且，如圖37(b)所示，字符部分和背景部分在由圖像狀態(tài)檢測單元24檢測到的直方圖中受到了很大影響。
在圖37(b)所示的示例中，相對于圖35(b)所示的正常狀態(tài)，表示字符部分的區(qū)變得厚并且大很多，同時，表示背景部分的區(qū)也變得厚并且大很多。
按此方式，使用圖像狀態(tài)檢測單元24，可以通過計算直方圖來確定地檢測出圖像狀態(tài)(文檔30的狀態(tài))。
選擇單元25用于基于由圖像狀態(tài)檢測單元24檢測的圖像狀態(tài)使得識別單元15選擇用于執(zhí)行字符識別的文檔ID。
這里，參照圖38(a)到38(e)給出對識別單元15、圖像狀態(tài)檢測單元24以及選擇單元25的操作的說明，其中，在文檔識別設(shè)備10中，尤其是在對其中如上述圖10所示地記錄有3個或3個以上文檔ID 31a到34a的文檔30a執(zhí)行識別處理時對圖像狀態(tài)檢測單元24和選擇單元25進(jìn)行操作。
即，當(dāng)提取單元14提取3個或3個以上文檔ID 31a到34a時，圖像狀態(tài)檢測單元24對包括3個或3個以上文檔ID 31a到34a在內(nèi)的各文檔ID 31a到34a的周緣區(qū)的圖像狀態(tài)進(jìn)行檢測。
在此情況下，如果如圖38(a)所示在文檔30a的第一文檔ID 31a的周圍存在皺褶24a并且在第四文檔ID 34a上存在字跡24c，則圖像狀態(tài)檢測單元24計算出包括第一文檔ID 31a的預(yù)定區(qū)的如圖38(b)所示的直方圖，計算出包括第二文檔ID 32a的預(yù)定區(qū)的如圖38(c)所示的直方圖，計算出包括第三文檔ID 33a的預(yù)定區(qū)的如圖38(d)所示的直方圖，并計算出包括第四文檔ID 34a的預(yù)定區(qū)的如圖38(e)所示的直方圖。
接著，選擇單元25基于圖38(b)到38(e)所示的圖像狀態(tài)檢測單元24的檢測結(jié)果，選擇2個文檔ID 32a和33a。
然后識別單元15對選擇單元25選擇的2個文檔ID 32a和33a執(zhí)行字符識別。
按此方式，選擇單元25基于由圖像狀態(tài)檢測單元24檢測的圖像狀態(tài)選擇處于良好狀態(tài)的圖像作為識別單元15的字符識別對象，因此，識別單元15可以高效地并且以更高精度執(zhí)行字符識別。此外，最終減少了在識別單元15執(zhí)行的識別處理中的諸如丟棄等的錯誤，并且可以高效地執(zhí)行對文檔30的辯識和對文檔ID 31a和32a的內(nèi)容識別。
文檔識別設(shè)備的操作示例接下來，參照附圖給出對文檔識別設(shè)備10的具體操作示例的說明。在以下說明中，也將文檔30用作文檔識別設(shè)備10的處理對象。
第一操作示例首先，參照圖39所示的流程圖(步驟S1到S10)對文檔識別設(shè)備10(文檔處理方法)的第一操作示例進(jìn)行說明。首先，圖像數(shù)據(jù)讀取單元11讀取由掃描儀設(shè)備40讀取的文檔30的圖像數(shù)據(jù)40a(步驟S1)。
此外，IDDB讀取單元13從IDDB 12讀取與文檔30的文檔ID 31a和32a有關(guān)的信息(步驟S2)。
接著提取單元14從圖像數(shù)據(jù)40a提取其中記錄有文檔ID 31a的區(qū)31和其中記錄有文檔ID 32a的區(qū)32(步驟S3)。
接著，識別單元15對由提取單元14提取的文檔ID 31a和32a的內(nèi)容(字符)進(jìn)行識別(步驟S4)。
接著，檢查單元16基于由IDDB讀取單元13讀取的與文檔ID 31a和32a有關(guān)的信息，對由識別單元15識別的文檔ID 31a和32a中的每一個的校驗位進(jìn)行識別，并進(jìn)行檢查以利用該校驗位來判斷文檔ID 31a和32a中的每一個是否正確(步驟S5)。
其中，如果作為檢查單元16的檢查的結(jié)果識別單元15的識別內(nèi)容是正確的(在步驟S5中的“是”路線)，則確認(rèn)單元18的判斷單元19基于預(yù)先設(shè)置的文檔ID 31a與32a之間的預(yù)定關(guān)系(見上述圖3到圖6(a)和6(b))再次對識別單元15的識別內(nèi)容是否正確進(jìn)行評估(步驟S8)。
同時，當(dāng)識別單元15的識別內(nèi)容不正確時(在步驟S5中的“否”路線)，校正單元17評估是否可以使用校驗位進(jìn)行校正(步驟S6)，如果判定這里可以使用校驗位進(jìn)行校正(在步驟S6中的“是”路線)，則校正單元17使用校驗位對文檔ID 31a和32a的內(nèi)容進(jìn)行校正(步驟S7)。
當(dāng)校正單元17不能使用校驗位進(jìn)行校正時(在步驟S6中的“否”路線)，跳過上述步驟S7的校正處理。
在由校正單元17使用校驗位執(zhí)行校正處理的情況下，確認(rèn)單元18的判斷單元19還基于所述預(yù)定關(guān)系來評估由校正單元17向其施加了校正處理的文檔ID 31a和32a的識別內(nèi)容是否正確(步驟S8)。
當(dāng)作為判斷單元19的判斷的結(jié)果，判定文檔ID 31a和32a的識別內(nèi)容不正確時(在步驟S8中的“否”路線)，相互校正單元20基于所述預(yù)定關(guān)系對文檔ID 31a和32a的識別內(nèi)容進(jìn)行校正(步驟S9)。
當(dāng)作為判斷單元19的判斷的結(jié)果，判定文檔ID 31a和32a的識別內(nèi)容正確時(在步驟S8中的“是”路線)，跳過上述步驟S9的處理。
最后，文檔辯識單元22基于文檔信息DB 21，利用文檔ID 31a和32a的識別內(nèi)容對文檔30進(jìn)行評估(步驟S10)，并結(jié)束處理。
按此方式，根據(jù)文檔識別設(shè)備10的第一操作示例，由于針對由識別單元15識別的文檔ID 31a和32a的內(nèi)容執(zhí)行了由檢查單元16使用校驗位進(jìn)行的檢查和由判斷單元19基于預(yù)定關(guān)系進(jìn)行的判斷，因此最終對識別內(nèi)容進(jìn)行了兩次核驗，由此以更高的精度識別了文檔ID 31a和32a的內(nèi)容。
此外，可以通過校正單元17和相互校正單元20對識別單元15的識別內(nèi)容執(zhí)行校正處理，因此，可以更確定地識別文檔ID 31a和32a的內(nèi)容。
第二操作示例接下來，參照圖40所示的流程圖(步驟S1到S4、S5a以及S8到S10)對文檔識別設(shè)備10(文檔處理方法)的第二操作示例進(jìn)行說明。圖40中的與前述處理步驟相同的處理步驟具有與前述處理步驟相同或接近相同的處理步驟，因此這里將略去對其的詳細(xì)說明。
除了不執(zhí)行校正單元17的使用校驗位進(jìn)行的校正處理以外，圖40所示的第二操作示例與上述圖39所示的第一操作示例相同。
即，在圖40所示的第二操作示例中，在由識別單元15對文檔ID 31a和32a執(zhí)行了字符識別之后(步驟S4)，檢查單元16使用校正位執(zhí)行檢查(步驟S5a)。
然而，這里不執(zhí)行校正單元17的基于檢查的結(jié)果進(jìn)行的校正處理，并且與檢查單元16的檢查結(jié)果無關(guān)地，進(jìn)行到確認(rèn)單元18的判斷單元19的判斷處理(步驟S8)。
例如，如圖41(a)所示，根據(jù)第二操作示例，當(dāng)識別單元15由于由折疊紙張導(dǎo)致的折線30b而未正確地識別文檔30的文檔ID 31a的一部分(在此情況下是左端處的“1”部分)時(在圖中由“？”表示)，相互校正單元20如圖41(c)所示地執(zhí)行校正處理，而不進(jìn)行校正單元17使用校驗位的校正處理。即，當(dāng)丟棄了文檔ID 31a或32a的校驗位時，校正單元17不執(zhí)行校正處理。這里，相互校正單元20基于文檔ID 31a與32a相同的預(yù)定關(guān)系將文檔ID 31a和32a唯一地校正為“1237”。
因此，根據(jù)文檔識別設(shè)備10的第二操作示例，可以獲得與在上述第一操作示例中獲得的操作效果相同的操作效果，同時，在校正單元17不執(zhí)行校正處理的情況下，可以按比上述第一操作示例更高的速度執(zhí)行識別處理。
文檔識別系統(tǒng)的效果按此方式，根據(jù)作為本發(fā)明一個實施例的文檔識別系統(tǒng)1，當(dāng)對其中記錄有滿足預(yù)定關(guān)系的多個文檔ID 31a和32a的文檔30進(jìn)行識別時，文檔識別設(shè)備10的確認(rèn)單元18基于預(yù)先設(shè)置給文檔ID 31a和32a的預(yù)定關(guān)系來評估識別單元15的識別內(nèi)容是否正確，當(dāng)判定為不正確時，確認(rèn)單元18基于所述預(yù)定關(guān)系對文檔ID 31a和32a進(jìn)行校正，并對其進(jìn)行確認(rèn)。
因此，通過使用多個文檔ID 31a和32a對這些文檔ID 31a和32a的內(nèi)容進(jìn)行了識別，而不是僅通過一個文檔ID對文檔ID的內(nèi)容進(jìn)行識別，從而使得可以高精度地對文檔ID 31a和32a的內(nèi)容進(jìn)行識別。此外，基于這些文檔ID 31a與32a之間的預(yù)定關(guān)系對識別內(nèi)容是否正確執(zhí)行判斷處理，并執(zhí)行校正處理，從而使得可以按更高的精度對文檔ID 31a和32a的內(nèi)容進(jìn)行識別。
此外，由于可以按更高的精度對文檔ID 31a和32a的內(nèi)容進(jìn)行識別，因此文檔辯識單元22可以按更高的精度對文檔30執(zhí)行判斷。結(jié)果，使用該文檔識別系統(tǒng)1，可以抑制諸如掃描儀設(shè)備40對文檔30的再讀取、操作員的手動輸入等(其中斷了文檔識別設(shè)備10的自動處理)的耗時的處理，從而使得可以高效并且高速地對文檔30執(zhí)行高效并且高速的辯識處理。
此外，當(dāng)確認(rèn)單元18未確認(rèn)文檔ID 31a和32a的內(nèi)容時，文檔辯識單元22基于定義信息對文檔30進(jìn)行評估，由此可以更確定地對文檔30進(jìn)行辯識。
此外，由于檢查單元16使用校驗位執(zhí)行檢查，因此檢查單元16和判斷單元19最終對由識別單元15識別的文檔ID 31a和32a的識別內(nèi)容檢查了兩次，結(jié)果，可以執(zhí)行更精確的字符識別。
注意，當(dāng)可以使用校驗位進(jìn)行校正時，校正單元17使用校驗位校正文檔ID 31a和32a的內(nèi)容，因此在不通過相互校正單元20進(jìn)行校正的情況下可以通過識別單元15有效地校正識別內(nèi)容。
此外，當(dāng)識別單元15丟棄了文檔ID 31a或32a的校驗位時，校正單元17不執(zhí)行使用校驗位的校正處理，因此，可以避免諸如對校驗位的逆運(yùn)算的處理(其處理時間相對較長)，在此情況下，在相互校正單元20執(zhí)行校正處理時，識別單元15可以非常高效地執(zhí)行對識別內(nèi)容的校正處理。
本發(fā)明的變型例順便指出，本發(fā)明并不限于上述多個實施例，在不脫離本發(fā)明的范圍和精神的情況下可以進(jìn)行修改。
第一變型例在上述實施例中，對其中文檔識別設(shè)備10的校正單元17基于校驗位執(zhí)行校正處理的情況進(jìn)行了說明，然而本發(fā)明并不限于該實施例，可以構(gòu)造出這樣的構(gòu)成，即，校正單元17基于由識別單元15計算出的一致度執(zhí)行校正處理，通過該構(gòu)成可以獲得與通過上述實施例獲得的操作效果類似的操作效果。
同時，當(dāng)作為檢查單元16的檢查結(jié)果將文檔ID 31a和32a均判定為不正確時，優(yōu)選地，校正單元17基于由識別單元15計算出的一致度執(zhí)行校正處理。
即，如圖42(a)所示，當(dāng)文檔30的各文檔ID 31a和32a分別為“1237”和“2964”時，如圖42(b)所示，考慮識別單元15將文檔ID 31a識別為“1737”并將文檔ID 32a識別為“2984”的情況。
在此情況下，如圖42(c)所示，當(dāng)根據(jù)檢查單元16使用校驗位進(jìn)行檢查的結(jié)果判定文檔ID 31a和32a均不正確(在圖中由匹配性“X”表示)時，針對文檔ID 31a，校正單元17將在“1737”中具有最低一致度的從左端起的第二數(shù)位的“7”校正為具有第二位一致度的“2”(即，校正為“1237”)，并使得檢查單元16執(zhí)行檢查。然后，如圖42(c)所示，當(dāng)檢查單元16判定為正確的(在圖中由匹配性“0”表示)時，將該數(shù)字字符視為文檔ID 31a。
另一方面，針對文檔ID 32a，將在“2984”中具有最低一致度的右端的“4”校正為具有第二位一致度的“9”(即，校正為“2989”)。
然后，當(dāng)作為檢查單元16的檢查結(jié)果再次判定為不正確時，將在識別單元15最初識別出的“2984”中的具有第二最低一致度的從左端起的第三數(shù)位的“8”校正為具有第二位一致度的“6”(即，校正為“2964”)。
然后，再次經(jīng)受檢查單元的檢查，當(dāng)此時判定為正確的時，將該數(shù)字字符視為文檔ID 32a。
由此，可以獲得與通過上述實施例獲得的效果類似的效果。
第二變型例盡管在上述實施例中使用的構(gòu)成是當(dāng)判斷單元19將識別單元15的識別內(nèi)容判定為不正確時，確認(rèn)單元18的相互校正單元20必定執(zhí)行校正處理，但是本發(fā)明并不限于該構(gòu)成，例如，當(dāng)如圖43(a)所示滿足文檔ID 31a與32a相同的關(guān)系時，并且當(dāng)識別單元15丟棄了這些文檔ID 31a和32a中的每一個的校驗位(在此情況下，參見左端處的“？”)時，并且由排除文檔ID 31a和32a的校驗位以外的部分構(gòu)成由文檔信息DB 21(在此情況下是表21b)保持的文檔信息，相互校正單元20不執(zhí)行校正處理。
即，確認(rèn)單元18僅將后3個數(shù)位“237”確認(rèn)為文檔ID 31a和32a，在此情況下，文檔辯識單元22基于文檔ID 31a、32a“237”和表21b來對文檔30進(jìn)行評估。
因此，在此情況下，可以略去相互校正單元20的校正處理，由此使得可以對文檔ID 31a和32a高效地進(jìn)行識別，同時，在不執(zhí)行由相互校正單元20進(jìn)行校正處理的情況下，可以高速地執(zhí)行對文檔30的判斷處理。
第三變型例盡管在上述實施例中對其中確認(rèn)單元18的相互校正單元20基于預(yù)先設(shè)置的文檔ID 31a與32a之間的預(yù)定關(guān)系執(zhí)行校正處理的示例進(jìn)行了說明，但是本發(fā)明并不限于該示例，例如，可以構(gòu)造這樣的構(gòu)成，即，相互校正單元20基于由識別單元15計算出的一致度執(zhí)行校正。
例如，如圖44(a)所示，當(dāng)在文檔30中文檔ID 31a與32a相同時，由于從文檔ID 32a的左端起的第三數(shù)位的“3”處產(chǎn)生了折線30b，因此如圖44(b)所示識別單元15的識別結(jié)果是“8”，如圖44(c)所示，相互校正單元20基于從文檔ID 31a和32a中的每一個的左端起第三數(shù)位的數(shù)字字符的一致度執(zhí)行校正處理。
在本示例中，對圖44(c)所示的文檔ID 31a和32a中的每一個的第一位字符的一致度進(jìn)行比較，當(dāng)為了利用具有最高一致度的“3”對從左端起第三數(shù)位數(shù)字字符進(jìn)行確認(rèn)時，將文檔ID 32a的“8”校正為“3”。
由此，可以獲得與通過上述實施例獲得的效果類似的效果。
同時，如圖44(d)所示，當(dāng)文檔ID 31a中的“3”的一致度(在此情況下為90％)與文檔ID 32a中的“8”的一致度(在此情況下為90％)相同時，相互校正單元20對由識別單元15針對文檔ID 31a和32a中的每一個計算出的具有第一位一致度的內(nèi)容的一致度與具有第二位一致度的內(nèi)容的一致度之差進(jìn)行計算(在此情況下，文檔ID 31a的是“50％”，文檔ID 32a的是“20％”)，并執(zhí)行校正，以將具有較大差值的文檔ID 31a和32a的第一位的內(nèi)容確認(rèn)為文檔ID 31a和32a的內(nèi)容。
在本示例中，當(dāng)為了利用具有較大一致度差的文檔ID 32a的“3”對從左端起第三數(shù)位的數(shù)字字符進(jìn)行確認(rèn)時，將文檔ID 32a的“8”校正為“3”。
由此，可以更確定地識別文檔ID 31a和32a的內(nèi)容。
此外，當(dāng)預(yù)先準(zhǔn)備了如圖44(e)所示的示出了由識別單元15計算出的一致度(第一位和第二位候選字符的一致度)的表15b時，并且相互校正單元20對圖44(c)或圖44(d)所示的一致度與該表15b所示的一致度進(jìn)行比較，如果存在差異，則可以作出具有不同一致度的字符不正確的判定，因此通過本構(gòu)成也可以獲得與通過上述實施例獲得的效果類似的效果。
即，在本示例中，由于文檔ID 32a的“8”的一致度(見圖44(c)、圖44(d))與表15b的“8”的一致度不同，因此相互校正單元20判定該“8”不正確，并將其校正為“3”。
由此，可以獲得與通過上述實施例獲得的效果類似的效果。
第四變型例在上述實施例中對其中判斷單元23基于識別單元15對文檔ID 31a和32a的識別狀態(tài)執(zhí)行判斷處理的示例進(jìn)行了說明，可以構(gòu)造這樣的構(gòu)成，即，判斷單元23基于掃描儀設(shè)備40對文檔30的再讀取次數(shù)確定是否應(yīng)當(dāng)由操作員進(jìn)行手動輸入。
即，如圖45的流程圖(步驟S20到S25)所示，當(dāng)文檔辯識單元22最初不能進(jìn)行判斷時，將再讀取次數(shù)(Nre)設(shè)置為“1”(步驟S20)，判斷單元23使得掃描儀設(shè)備40執(zhí)行再讀取，并由文檔辯識單元22執(zhí)行處理(步驟S21)。
當(dāng)此時可以對文檔進(jìn)行評估時(在步驟S22中的“是”路線)，處理結(jié)束。
然而，如果此時尚不可以對文檔進(jìn)行評估(在步驟S22中的“否”路線)，則判斷單元23對再讀取次數(shù)進(jìn)行一次計數(shù)(步驟S23)，進(jìn)而對再讀取次數(shù)是否小于預(yù)定次數(shù)(NreMax)進(jìn)行評估(步驟S24)。
當(dāng)再讀取次數(shù)小于預(yù)定次數(shù)時(在步驟S24中的“否”路線)，再次執(zhí)行上述步驟S21到S24的處理。
同時，當(dāng)再讀取次數(shù)超過了預(yù)定次數(shù)時(在步驟S24中的“是”路線)，判斷單元23判定應(yīng)當(dāng)由操作員進(jìn)行手動輸入(步驟S25)，從而結(jié)束該處理。
由此，可以與上述實施例類似地高效并且以更高精度地執(zhí)行對文檔的判斷處理。
此外，優(yōu)選地，例如，如圖46的流程圖(步驟S30到S36)所示的預(yù)定時間之后或在達(dá)到了預(yù)定頁數(shù)之后執(zhí)行判斷單元23所判斷的操作員的手動輸入，由此，操作員可以在一定程度上集中地執(zhí)行手動輸入處理，并且可以在不中斷文檔識別設(shè)備10的自動識別處理的情況下執(zhí)行高效的識別處理。
即，文檔辯識單元22從處理時間Tng(NG時間)到當(dāng)前時間(Now)執(zhí)行判斷處理(步驟S31)，并且文檔辯識單元22不能評估而應(yīng)當(dāng)由操作員手動輸入的文檔的頁數(shù)(NG頁數(shù)Nng)的初始狀態(tài)是“0”(步驟S30)，然后判斷單元23評估是否使操作員進(jìn)行手動輸入(步驟S32)。
當(dāng)作為該判斷的結(jié)果不判定進(jìn)行手動輸入處理時(在步驟S32中的“是”路線)，文檔辯識單元22對下一文檔進(jìn)行評估(步驟S31)。
同時，當(dāng)判定進(jìn)行手動輸入處理時(在步驟S32中的“否”路線)，判斷單元23對NG頁數(shù)進(jìn)行一次計數(shù)(步驟S33)，以對NG頁數(shù)是否小于預(yù)定頁數(shù)進(jìn)行評估(步驟S34)。
這里，當(dāng)NG頁數(shù)等于或大于預(yù)定級時(在步驟S34中的“否”路線)，判斷單元23判定應(yīng)當(dāng)由操作員執(zhí)行手動輸入，并使得操作員執(zhí)行手動輸入處理(步驟S36)。
與之對照的是，當(dāng)NG頁數(shù)小于預(yù)定級時(在步驟S34中的“是”路線)，判斷單元23對當(dāng)前時間是否到了預(yù)先設(shè)置的預(yù)定時間(TngMax)進(jìn)行評估(步驟S35)。
此時，當(dāng)尚未到預(yù)定時間時(在步驟S35中的“否”路線)，再次執(zhí)行上述步驟S31到S34的處理。
同時，當(dāng)?shù)搅祟A(yù)定時間時(在步驟S35中的“是”路線)，判斷單元23執(zhí)行上述步驟S36的處理。
按此方式，在從文檔識別處理開始起的預(yù)定時間之后或者在達(dá)到了預(yù)定頁數(shù)的NG頁數(shù)之后，可以由操作員執(zhí)行手動輸入。
第五變型例盡管在上述實施例中對其中確認(rèn)單元18基于預(yù)先設(shè)置的多個文檔ID之間的預(yù)定關(guān)系對文檔ID的內(nèi)容進(jìn)行確認(rèn)的示例進(jìn)行了說明，但是本發(fā)明并不限于該示例，例如，確認(rèn)單元18可以基于圖像狀態(tài)檢測單元24檢測的圖像狀態(tài)對文檔ID的內(nèi)容進(jìn)行確認(rèn)，根據(jù)該構(gòu)成，可以獲得與通過上述實施例獲得的效果類似的效果。
即，當(dāng)在識別對象的文檔中記錄有3個或3個以上文檔ID時，并且當(dāng)確認(rèn)單元18的判斷單元19判定這些文檔ID的內(nèi)容不正確時，圖像狀態(tài)檢測單元24對3個或3個以上文檔ID的周緣區(qū)的各圖像狀態(tài)進(jìn)行檢測，并且確認(rèn)單元18可以排除從識別對象檢測到的具有最差圖像狀態(tài)的文檔ID，并且可以將具有良好圖像狀態(tài)的文檔ID的內(nèi)容確認(rèn)為在文檔中記載的文檔ID的內(nèi)容。
由此，確認(rèn)單元18可以高效地并且以更高精度地執(zhí)行確認(rèn)處理。
其他同時，通過由計算機(jī)(包括CPU、信息處理裝置以及各種中斷設(shè)備)執(zhí)行預(yù)定應(yīng)用程序(文檔識別程序)，可以實現(xiàn)上述文檔識別設(shè)備10的圖像數(shù)據(jù)讀取單元11、IDDB讀取單元13、提取單元14、識別單元15、檢查單元16、校正單元17、確認(rèn)單元18、文檔辯識單元22、判斷單元23、圖像狀態(tài)檢測單元24以及選擇單元25的功能。
以記錄在計算機(jī)可讀記錄介質(zhì)中的形式來提供該程序，例如，軟盤、CD(CD-ROM、CD-R、CD-RW等)、DVD(DVD-ROM、DVD-RAM、DVD-R、DVD-RW、DVD+R、DVD+RW等)。在此情況下，計算機(jī)從記錄介質(zhì)讀取文檔識別程序，將其傳送給內(nèi)部存儲器或外部存儲器，并將其存儲起來以供使用。
此外，可以先將程序記錄在存儲單元(記錄介質(zhì))(例如，磁盤、光盤、磁光盤等)中，并可以通過通信線路從存儲單元將其提供給計算機(jī)。
在此情況下，計算機(jī)是包括硬件和OS(操作系統(tǒng))的概念，并表示該硬件在OS的控制下進(jìn)行操作。
此外，在不需要OS并且單獨(dú)由應(yīng)用程序來操作硬件的情況下，硬件本身對應(yīng)于計算機(jī)。
硬件至少配備有諸如CPU的微處理器和用于讀取記錄在記錄介質(zhì)中的計算機(jī)程序的裝置。
上述文檔識別程序的應(yīng)用程序包括使得上述計算機(jī)實現(xiàn)以下單元的功能的程序代碼圖像數(shù)據(jù)讀取單元11、IDDB讀取單元13、提取單元14、識別單元15、檢查單元16、校正單元17、確認(rèn)單元18、文檔辯識單元22、判斷單元23、圖像狀態(tài)檢測單元24以及選擇單元25。此外，OS可以代替應(yīng)用程序來實現(xiàn)這些功能的一部分。
順便指出，對于作為本實施例的記錄介質(zhì)，除上述軟盤、CD、DVD、磁盤、光盤以及磁光盤以外，可以使用其上記錄有諸如條碼等的符號的各種計算機(jī)可讀介質(zhì)，如IC卡、盒式ROM、磁帶、穿孔卡、計算機(jī)的內(nèi)部存儲器(諸如RAM或ROM的存儲器)、外部存儲器或印刷品等。[4]本發(fā)明的工業(yè)應(yīng)用性如上所述，根據(jù)本發(fā)明，對于其中記錄有滿足預(yù)定關(guān)系的多個文檔ID的文檔，基于這種預(yù)定關(guān)系可以高精度地識別多個文檔ID。
因此，優(yōu)選地，本發(fā)明用于文檔識別系統(tǒng)，當(dāng)對類型不同的多個文檔組進(jìn)行處理時，在識別文檔中在各文檔組的前頭插入了用于識別文檔組的識別信息，在處理文檔組中的各文檔之前首先識別該識別文檔，在確認(rèn)了該識別文檔之后的文檔組的類型和頁數(shù)之后，對這些文檔組執(zhí)行處理，本發(fā)明的應(yīng)用性被認(rèn)為非常高。
在此情況下，例如，考慮在該文檔識別系統(tǒng)中使用如圖47所示的識別文檔30c。即，在識別文檔30c中記錄有多個文檔ID 31a和32a，同時，記錄有隨后的文檔組的類型(在此情況下為“P”)和頁數(shù)(在此情況下為“500頁”)作為識別信息。
根據(jù)本發(fā)明，通過使用這種識別文檔30c，可以對類型不同的多個文檔組高精度并且高效地執(zhí)行識別處理。
權(quán)利要求
1.一種介質(zhì)處理設(shè)備，其包括提取單元，用于從通過讀取其上在多個區(qū)中表示有滿足預(yù)定關(guān)系的多個信息項的介質(zhì)而獲得的圖像數(shù)據(jù)中提取所述多個信息項中的每一個；識別單元，用于對所述提取單元所提取的所述多個信息項中的每一個的內(nèi)容進(jìn)行識別；以及確認(rèn)單元，其執(zhí)行以下操作(i)基于所述預(yù)定關(guān)系，對所述識別單元所識別的所述多個信息項的內(nèi)容是否正確進(jìn)行評估；(ii)如果所述評估顯示了肯定的結(jié)果，則將所述多個信息項的內(nèi)容確認(rèn)為被所述識別單元識別出；(iii)如果所述評估顯示了否定的結(jié)果，則基于所述預(yù)定關(guān)系對所述識別單元所識別的識別內(nèi)容進(jìn)行校正，以確認(rèn)所述多個信息項的內(nèi)容。
2.根據(jù)權(quán)利要求1所述的介質(zhì)處理設(shè)備，還包括介質(zhì)辯識單元，該介質(zhì)辯識單元用于在所述確認(rèn)單元確認(rèn)了所述信息的內(nèi)容之后基于所述信息的內(nèi)容對所述介質(zhì)進(jìn)行辯識。
3.根據(jù)權(quán)利要求2所述的介質(zhì)處理設(shè)備，其中，當(dāng)所述信息的內(nèi)容不被所述確認(rèn)單元確認(rèn)時，所述介質(zhì)辯識單元基于所述介質(zhì)的定義信息對所述介質(zhì)進(jìn)行辯識。
4.根據(jù)權(quán)利要求2所述的介質(zhì)處理設(shè)備，還包括判斷單元，該判斷單元用于當(dāng)所述介質(zhì)辯識單元不能對所述介質(zhì)進(jìn)行辯識時，根據(jù)所述識別單元對所述介質(zhì)的信息的識別狀態(tài)進(jìn)行判斷使所述介質(zhì)辯識單元再讀取不能被辯識的所述介質(zhì)，還是使操作員進(jìn)行手動輸入。
5.根據(jù)權(quán)利要求4所述的介質(zhì)處理設(shè)備，其中，當(dāng)對所述介質(zhì)的再讀取次數(shù)超過了規(guī)定值時，所述判斷單元決定將手動輸入保持在所述介質(zhì)中的所述多個信息項。
6.根據(jù)權(quán)利要求1所述的介質(zhì)處理設(shè)備，還包括檢查單元，該檢查單元用于在所述多個信息項中的每一個都包含校驗位時，基于所述校驗位對所述識別單元所識別的所述多個信息項中的每一個的內(nèi)容進(jìn)行檢查。
7.根據(jù)權(quán)利要求6所述的介質(zhì)處理設(shè)備，還包括校正單元，所述校正單元用于當(dāng)作為所述檢查單元使用所述校驗位進(jìn)行檢查的結(jié)果，所述識別單元所識別的信息的內(nèi)容不正確時，使用所述校驗位對所述信息的內(nèi)容進(jìn)行校正。
8.根據(jù)權(quán)利要求7所述的介質(zhì)處理設(shè)備，其中，當(dāng)所述識別單元將多個字符作為所述信息進(jìn)行識別時，針對每個候選字符計算一致度，并且當(dāng)作為所述檢查單元進(jìn)行的所述檢查的結(jié)果，作為所述識別單元所識別的信息的多個字符不正確時，所述校正單元基于所述一致度使用所述多個候選字符對所述信息進(jìn)行校正。
9.根據(jù)權(quán)利要求8所述的介質(zhì)處理設(shè)備，其中，所述多個信息項由第一信息和第二信息構(gòu)成，并且當(dāng)作為所述檢查單元進(jìn)行的所述檢查的結(jié)果第一信息和第二信息均不正確時，所述校正單元執(zhí)行所述校正。
10.根據(jù)權(quán)利要求7所述的介質(zhì)處理設(shè)備，其中，當(dāng)所述識別單元丟棄了或未識別出所述多個信息項中的任何一個的校驗位時，所述校正單元不使用校驗位執(zhí)行校正。
11.根據(jù)權(quán)利要求2所述的介質(zhì)處理設(shè)備，還包括檢查單元，用于在所述多個信息項中的每一個都包含校驗位時，基于所述校驗位對所述識別單元所識別的所述多個信息項中的每一個的內(nèi)容進(jìn)行檢查，校正單元，用于當(dāng)作為所述檢查單元使用所述校驗位進(jìn)行檢查的結(jié)果，所述識別單元所識別的信息的內(nèi)容不正確時，使用所述校驗位對信息的內(nèi)容進(jìn)行校正，其中，當(dāng)在所述多個信息項中的每一個中所述識別單元只丟棄了或未識別出校驗位時，所述校正單元不使用校驗位執(zhí)行校正，并且所述介質(zhì)辯識單元使用所述多個信息項中的每一個中的除校驗位以外的內(nèi)容對所述介質(zhì)進(jìn)行辯識。
12.根據(jù)權(quán)利要求1所述的介質(zhì)處理設(shè)備，其中，將所述識別單元構(gòu)成為在識別出所述信息的內(nèi)容時，針對所述內(nèi)容計算一致度，并且，其中，當(dāng)所述識別單元所識別的所述多個信息項中的每一個的內(nèi)容不滿足所述預(yù)定關(guān)系時，那么所述確認(rèn)單元判定所述識別單元的識別內(nèi)容不正確，并針對其中所述多個信息項中的每一個中的所述內(nèi)容不相同的部分，基于所述識別單元的所述一致度來執(zhí)行所述校正。
13.根據(jù)權(quán)利要求12所述的介質(zhì)處理設(shè)備，其中，將所述識別單元構(gòu)成為使得當(dāng)所述識別單元識別了所述信息的內(nèi)容時，采用多個候選中的具有最高的所述一致度的第一位內(nèi)容作為針對所述信息的識別內(nèi)容，其中，當(dāng)所述識別單元所識別的所述多個信息項中的每一個的內(nèi)容不滿足所述預(yù)定關(guān)系時，那么所述確認(rèn)單元針對所述多個信息項中的每一個對所述識別單元中的具有最高的所述一致度的第一位內(nèi)容的一致度與第二位內(nèi)容的一致度之差進(jìn)行計算，并基于計算出的所述多個信息項中的每一個的差值來執(zhí)行所述校正。
14.根據(jù)權(quán)利要求1所述的介質(zhì)處理設(shè)備，還包括圖像狀態(tài)檢測單元，用于在所述提取單元提取了3條或3條以上信息時，對所述圖像數(shù)據(jù)中的包括所述3條或3條以上信息在內(nèi)的這些3條或3條以上信息的周緣區(qū)中的每一個中的圖像的狀態(tài)進(jìn)行檢測；和選擇單元，用于基于所述圖像狀態(tài)檢測單元所檢測的圖像狀態(tài)，從所述3條或3條以上信息選擇至少2條信息，其中，所述識別單元對所述選擇單元所選擇的所述至少2條信息項的內(nèi)容進(jìn)行識別。
15.根據(jù)權(quán)利要求1所述的介質(zhì)處理設(shè)備，還包括圖像狀態(tài)檢測單元，用于在所述確認(rèn)單元判定所述識別單元所識別的所述多個信息項的內(nèi)容不正確時并且在所述多個信息項的數(shù)量等于或多于3個時，對包括所述3條或3條以上信息在內(nèi)的這些3條或3條以上信息的周緣區(qū)中的每一個中的圖像的狀態(tài)進(jìn)行檢測；并且其中，所述確認(rèn)單元基于所述圖像狀態(tài)檢測單元所檢測的圖像狀態(tài)，對所述多個信息項的內(nèi)容進(jìn)行確認(rèn)。
16.一種介質(zhì)處理方法，其包括以下步驟從通過讀取其上在多個區(qū)中表示有滿足預(yù)定關(guān)系的多個信息項的介質(zhì)而獲得的圖像數(shù)據(jù)中提取所述多個信息項中的每一個；對所述提取單元所提取的所述多個信息項中的每一個的內(nèi)容進(jìn)行識別；基于所述預(yù)定關(guān)系對所述識別單元所識別的所述多個信息項的內(nèi)容是否正確進(jìn)行評估；如果所述評估顯示了肯定的結(jié)果，則將所述多個信息項的內(nèi)容確認(rèn)為被所述識別單元識別出；如果所述評估顯示了否定的結(jié)果，則基于所述預(yù)定關(guān)系對所述識別單元所識別的識別內(nèi)容進(jìn)行校正，以確認(rèn)所述多個信息項的內(nèi)容。
17.一種介質(zhì)處理系統(tǒng)，其包括介質(zhì)，在其上的多個區(qū)中表示有滿足預(yù)定關(guān)系的多個信息項；掃描儀設(shè)備，用于通過讀取所述介質(zhì)獲得所述介質(zhì)的圖像數(shù)據(jù)；以及介質(zhì)處理設(shè)備，用于基于通過所述掃描儀設(shè)備獲得的圖像數(shù)據(jù)來對所述信息的內(nèi)容進(jìn)行識別，其中，所述介質(zhì)處理設(shè)備包括提取單元，用于從所述圖像數(shù)據(jù)提取所述多個信息項中的每一個；識別單元，用于對所述提取單元所提取的所述多個信息項中的每一個的內(nèi)容進(jìn)行識別；以及確認(rèn)單元，其執(zhí)行以下操作(i)基于所述預(yù)定關(guān)系對所述識別單元所識別的所述多個信息項的內(nèi)容是否正確進(jìn)行評估；(ii)如果所述評估顯示了肯定的結(jié)果，則將所述多個信息項的內(nèi)容確認(rèn)為被所述識別單元識別出；(iii)如果所述評估顯示了否定的結(jié)果，則基于所述預(yù)定關(guān)系對所述識別單元所識別的識別內(nèi)容進(jìn)行校正，以確認(rèn)所述多個信息項的內(nèi)容。
18.根據(jù)權(quán)利要求17所述的介質(zhì)處理系統(tǒng)，其中，將第一信息和第二信息表示為針對所述介質(zhì)的所述多個信息項，構(gòu)成所述第一信息的每個字符和構(gòu)成所述第二信息的每個字符由均具有一對一的對應(yīng)關(guān)系的不同字符構(gòu)成，并且所述介質(zhì)處理設(shè)備的所述確認(rèn)單元基于所述對應(yīng)關(guān)系來執(zhí)行所述判斷。
19.根據(jù)權(quán)利要求18所述的介質(zhì)處理系統(tǒng)，其中，通過所述介質(zhì)處理設(shè)備的所述識別單元由具有不低于規(guī)定值的識別率的字符來構(gòu)成所述介質(zhì)的第一信息和第二信息，并且還通過所述識別率確定所述對應(yīng)關(guān)系。
20.一種計算機(jī)可讀記錄介質(zhì)，其上記錄有介質(zhì)處理程序，該介質(zhì)處理程序使得計算機(jī)實現(xiàn)基于通過讀取其上在多個區(qū)中表示有滿足預(yù)定關(guān)系的多個信息項的介質(zhì)而獲得的圖像數(shù)據(jù)來對所述信息的內(nèi)容進(jìn)行識別，所述介質(zhì)處理程序使得所述計算機(jī)充當(dāng)提取單元，用于從所述圖像數(shù)據(jù)中提取所述多個信息項中的每一個；識別單元，用于對所述提取單元所提取的所述多個信息項中的每一個的內(nèi)容進(jìn)行識別；以及確認(rèn)單元，其執(zhí)行以下操作(i)基于所述預(yù)定關(guān)系對所述識別單元所識別的所述多個信息項的內(nèi)容是否正確進(jìn)行評估；(ii)如果所述評估顯示了肯定的結(jié)果，則將所述多個信息項的內(nèi)容確認(rèn)為被所述識別單元識別出；(iii)如果所述評估顯示了否定的結(jié)果，則基于所述預(yù)定關(guān)系對所述識別單元所識別的識別內(nèi)容進(jìn)行校正，以確認(rèn)所述多個信息項的內(nèi)容。
全文摘要
介質(zhì)處理設(shè)備、介質(zhì)處理方法、介質(zhì)處理系統(tǒng)以及其上記錄有介質(zhì)處理程序的計算機(jī)可讀記錄介質(zhì)。為了使得能夠基于通過讀取介質(zhì)而獲得的圖像數(shù)據(jù)來精確地識別表示在該介質(zhì)中的信息的內(nèi)容，本發(fā)明包括提取單元，用于從通過讀取其中在多個區(qū)中表示有滿足預(yù)定關(guān)系的多個信息項的介質(zhì)而獲得的圖像數(shù)據(jù)中提取所述多個信息項中的每一個；識別單元，用于對所述多個信息項中的每一個的內(nèi)容進(jìn)行識別；以及確認(rèn)單元，其基于所述預(yù)定關(guān)系對識別單元所識別的多個信息項的內(nèi)容是否正確進(jìn)行評估，如果正確，則將多個信息項的內(nèi)容確認(rèn)為被識別單元識別出，如果不正確，則基于所述預(yù)定關(guān)系對所述識別單元所識別的識別內(nèi)容進(jìn)行校正，以確認(rèn)多個信息項的內(nèi)容。
文檔編號G06K9/20GK1991863SQ200610082620
公開日2007年7月4日申請日期2006年5月19日優(yōu)先權(quán)日2005年12月28日
發(fā)明者金元浩一, 江口真一申請人:富士通株式會社, 富士通先端科技株式會社

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：金元浩一;江口真一
技術(shù)所有人：富士通株式會社;富士通先端科技株式會社
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>