專利名稱:賬票種類識別程序、賬票種類識別方法以及賬票種類識別裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及使計算機執(zhí)行賬票種類識別處理的賬票種類識別程序、 與該賬票種類識別程序相對應(yīng)的賬票種類識別方法以及賬票種類識別 裝置,該賬票種類識別處理即接受與賬票上填寫的字符串有關(guān)的字符信 息以及與格線有關(guān)的格線信息的輸入,并對填寫了該字符信息以及該格 線信息的賬票的賬票種類進行識別的處理。
背景技術(shù):
以往,以對紙賬票上所寫入的字符信息等進行辨認(rèn)并自動輸入辨認(rèn) 后得到的數(shù)據(jù)為目的,存在基于預(yù)先保持的賬票識別信息暫時識別賬票 種類的技術(shù)。這里,賬票識別信息是指賬票上的字符信息及格線信息、
用于確定賬票種類的識別ID等。
例如,在專利文獻(xiàn)l中公開了如下技術(shù),即通過將基于字符辨認(rèn)結(jié) 果所抽取出的組字符串、和對于各賬票種類預(yù)先保持的賬票識別用的關(guān) 鍵字(按每個賬票對頻繁使用的字符進行管理而得到的字符)進行對照 來識別賬票種類,該字符辨認(rèn)結(jié)果與接受輸入而得到的賬票數(shù)據(jù)對應(yīng)。
專利文獻(xiàn)l:日本特開2001 - 202466號^^艮
發(fā)明內(nèi)容
然而,上述的現(xiàn)有技術(shù)因諸如以下將說明的原因而存在有時候無法 實現(xiàn)高精度的賬票種類識別之類的問題點。
即,在接受輸入而得到的賬票數(shù)據(jù)之中包含很多說明詞句及注釋之 類的無用字符串,所以抽取諸如與預(yù)先保持的賬票識別用的關(guān)鍵字對應(yīng) 那樣的組字符串本身就較為困難。所以,存在如下的問題點例如在將 "交貨單"作為與任意賬票有關(guān)的賬票識別用的一個關(guān)鍵字來保持,并 從所輸入的賬票數(shù)據(jù)抽取出"交貨單(兼收據(jù))"這樣的組字符串的情 況下,賬票種類識別用的關(guān)鍵字對于組字符串的對照就不起作用,有時
6候無法實現(xiàn)高精度的賬票種類識別。
另外,在接受輸入而得到的賬票數(shù)據(jù)之中,由3字符組成的字符串 以l個字符錯誤的狀態(tài)存在時,此字符串的字符辨認(rèn)率為67%,通常被 認(rèn)為不合適而不作為關(guān)鍵字進行抽取。所以,當(dāng)在賬票數(shù)據(jù)之中由3字 符組成的字符串以l個字符錯誤的狀態(tài)存在時,由于為了識別賬票種類 而作為重要的標(biāo)題字符串所使用的、例如"申請書"、"交貨單"、"報價 單"等這樣的3字符組成的字符串不會作為關(guān)鍵字被抽取出來,結(jié)果就 存在有時候無法實現(xiàn)高精度的賬票種類識別之類的問題點。
因而,本發(fā)明就是為了解決上述的現(xiàn)有技術(shù)的i果題而完成的,其目 的是提供一種可以實現(xiàn)高精度的賬票種類識別的賬票種類識別程序、賬 票種類識別方法以及賬票種類識別裝置。
為了解決上述課題而達(dá)到目的,本發(fā)明之1提供一種賬票種類識別 程序,其特征在于,使計算機執(zhí)行賬票種類識別處理,該賬票種類識別 處理是接受與賬票上所填寫的字符串有關(guān)的字符信息以及與格線有關(guān) 的格線信息的輸入,對填寫了該字符信息以及該格線信息的賬票的賬票 種類進行識別的處理,該賬票種類識別程序使計算機執(zhí)行以下步驟賬 票種類識別信息存儲步驟,與各賬票種類對應(yīng)地分別在存儲部中存儲成 為用于識別賬票種類的關(guān)鍵的多個關(guān)鍵字信息;部分字符串生成步驟, 使用通過上述賬票種類識別信息存儲步驟在存儲部中所存儲的上述多 個關(guān)鍵字信息,按每個關(guān)鍵字信息分別生成用于與賬票上所填寫的字符 串進行對照的多個部分字符串;字符串排列步驟,基于上述字符信息以 及上述格線信息,在橫方向上觀看賬票上所填寫的字符串的情況下,分 別生成在字符高度重疊的范圍對該字符串進行分割后的組字符串,并且 對該生成的各組字符串進行排列;部分字符串對照步驟,分別對照通過 上述字符串排列步驟排列的各組字符串和通過上述部分字符串生成步 驟生成的各部分字符串,按每個上述關(guān)鍵字信息取得各部分字符串相對 于各組字符串的對照率最大時的一致字符數(shù),并使用該取得的各一致字 符數(shù)對每個賬票種類計算出評價了是該賬票種類的可能性的評價值;以 及賬票種類決定步驟,基于通過上述部分字符串對照步驟對每個賬票種 類計算出的各評價值,來決定與填寫了上述字符信息以及上述格線信息 的賬票相對的賬票種類。
7另外,本發(fā)明之2的特征是,在上述發(fā)明的基礎(chǔ)上,上述賬票種類決 定步驟判定通過上述部分字符串對照步驟對每個賬票種類計算出的各 評價值是否超過了對每個賬票種類所規(guī)定的閾值,以決定與填寫了上述 字符信息以及上述格線信息的賬票相對的賬票種類。
另外,本發(fā)明之3的特征是,在上述發(fā)明的基礎(chǔ)上,上述賬票種類 決定步驟判定通過上述部分字符串對照步驟對每個賬票種類計算出的 各評價值是否超過了對每個賬票種類所規(guī)定的閾值,在與被判定為超過 了該閾值的評價值相對應(yīng)的賬票種類存在多個的情況下,根據(jù)該評價值 的高低將該存在多個的賬票種類排序。
另外,本發(fā)明之4的特征是,在上述發(fā)明的基礎(chǔ)上,上述賬票種類 決定步驟判定通過上述部分字符串對照步驟對每個賬票種類計算出的 各評價值是否超過了對每個賬票種類所規(guī)定的閾值,在與被判定為超過 了該閾值的評價值相對應(yīng)的賬票種類存在多個的情況下,決定為評價值 最高的賬票種類。
另外,本發(fā)明之5的特征是,在上述發(fā)明的基礎(chǔ)上,上述字符串排 列步驟在根據(jù)上述字符信息以及上述格線信息判明了在上述組字符串 內(nèi)存在格線的情況下,用格線來分割該組字符串。
另外,本發(fā)明之6的特征是,在上述發(fā)明的基礎(chǔ)上,上述賬票種類 識別信息存儲步驟進一步在存儲部中存儲對每個上述關(guān)鍵字規(guī)定了可 否使用的使用可否信息,使計算機進一步執(zhí)行關(guān)鍵字選擇步驟,在該關(guān) 鍵字選擇步驟中基于通過上述賬票種類識別信息存儲步驟在存儲部中 所存儲的上述使用可否信息,從該存儲部中所存儲的多個關(guān)鍵字信息之 中選擇已被許可使用的關(guān)鍵字信息,上述部分字符串生成步驟使用通過 上述關(guān)鍵字選擇步驟所選擇出的關(guān)鍵字信息分別生成上述多個部分字 符串。
另外,本發(fā)明之7的特征是,在上述發(fā)明的基礎(chǔ)上,在上述賬票種 類決定步驟中,每當(dāng)通過上述部分字符串對照步驟對每個賬票種類計算 出各評價值時,基于該各評價值對該賬票種類的候補進行縮選,使計算 機進一步執(zhí)行關(guān)鍵字信息變更步驟,在該關(guān)鍵字信息變更步驟中,每當(dāng) 通過上述賬票種類決定步驟對賬票種類的候補進行了縮選時,從通過上述賬票種類識別信息存儲步驟在存儲部中所存儲的上述多個關(guān)鍵字信 息之中,考慮該縮選后的賬票種類的候補來變更關(guān)鍵字信息,在上述部 分字符串生成步驟中,每當(dāng)通過上述關(guān)鍵字信息變更步驟變更了關(guān)鍵字 信息時,使用該變更后的關(guān)鍵字信息分別生成上述多個部分字符串,在 上述部分字符串對照步驟中,每當(dāng)通過上述部分字符串生成步驟生成了 上述多個部分字符串時,分別對照通過上述字符串排列步驟所排列的各 組字符串和通過上述部分字符串生成步驟所生成的各部分字符串,并對 每個賬票種類計算出對構(gòu)成各組字符串的字符串與各部分字符串的一 致度進行了評價的評價值。
另外,本發(fā)明之8的特征是,在上述發(fā)明的基礎(chǔ)上,在上述賬票種 類識別信息存儲步驟中,與各賬票種類對應(yīng)地,按每個含義相同的組, 分別在存儲部中存儲上述多個關(guān)鍵字信息,在上述部分字符串對照步驟 中,分別對照通過上述字符串排列步驟所排列的各組字符串、和通過上 述部分字符串生成步驟所生成的各部分字符串,從上述各組內(nèi)的多個關(guān) 鍵字之中分別抽取各部分字符串相對于各組字符串的對照率最大的關(guān) 鍵字,對于該抽取出的各關(guān)鍵字分別取得一致字符數(shù),并使用該取得的 各一致字符數(shù)對每個賬票種類計算出評價了是該賬票種類的可能性的 評價值。
另外,本發(fā)明之9提供一種賬票種類識別方法,其特征在于,是接 受與賬票上所填寫的字符串有關(guān)的字符信息以及與格線有關(guān)的格線信 息的輸入,對填寫了該字符信息以及該格線信息的賬票的賬票種類進行 識別的賬票種類識別方法,包括以下工序賬票種類識別信息存儲工序, 與各賬票種類對應(yīng)地分別在存儲部中存儲成為用于識別賬票種類的關(guān) 鍵的多個關(guān)鍵字信息;部分字符串生成工序,使用通過上述賬票種類識 別信息存儲工序在存儲部中所存儲的上述多個關(guān)鍵字信息,按每個關(guān)鍵 字信息分別生成用于與賬票上所填寫的字符串進行對照的多個部分字 符串;字符串排列工序,基于上述字符信息以及上述格線信息,在橫方 向上觀看賬票上所填寫的字符串的情況下,分別生成在字符高度重疊的 范圍對該字符串進行分割后的組字符串,并且對該生成的各組字符串進 行排列;部分字符串對照工序,分別對照通過上述字符串排列工序排列 的各組字符串和通過上述部分字符串生成工序生成的各部分字符串,按 每個上述關(guān)鍵字信息取得各部分字符串相對于各組字符串的對照率最大時的一致字符數(shù),并使用該取得的各一致字符數(shù)對每個賬票種類計算
出評價了是該賬票種類的可能性的評價值;以及賬票種類決定工序,基 于通過上述部分字符串對照工序?qū)γ總€賬票種類計算出的各評價值,來 決定與填寫了上述字符信息以及上述格線信息的賬票相對的賬票種類。
另外,本發(fā)明之io提供一種賬票種類識別裝置,其特征在于,是 接受與賬票上所填寫的字符串有關(guān)的字符信息以及與格線有關(guān)的格線 信息的輸入,對填寫了該字符信息以及該格線信息的賬票的賬票種類進
行識別的賬票種類識別裝置,包括賬票種類識別信息存儲單元,與各 賬票種類對應(yīng)地分別存儲成為用于識別賬票種類的關(guān)鍵的多個關(guān)鍵字
信息;部分字符串生成單元,使用由上述賬票種類識別信息存儲單元所 存儲的上述多個關(guān)鍵字信息,按每個關(guān)鍵字信息分別生成用于與賬票上 所填寫的字符串進行對照的多個部分字符串;字符串排列單元,基于上 述字符信息以及上述格線信息,在橫方向上觀看賬票上所填寫的字符串 的情況下,分別生成在字符高度重疊的范圍對該字符串進行分割后的組 字符串,并且對該生成的各組字符串進行排列;部分字符串對照單元, 分別對照由上述字符串排列單元排列的各組字符串和由上述部分字符
串生成單元生成的各部分字符串,按每個上述關(guān)鍵字信息取得各部分字 符串相對于各組字符串的對照率最大時的一致字符數(shù),并使用該取得的 各一致字符數(shù)對每個賬票種類計算出評價了是該賬票種類的可能性的 評價值;以及賬票種類決定單元,基于通過上述部分字符串對照單元對 每個賬票種類計算出的各評價值,來決定與填寫了上述字符信息以及上 述格線信息的賬票相對的賬票種類。
根據(jù)本發(fā)明,與各賬票種類(例如"申請書"或"交貨單"、"報價 單"等)對應(yīng)地分別在存儲部中存儲成為用于識別賬票種類的關(guān)鍵的多 個關(guān)鍵字信息(例如若是"申請書"就是"申請書"、"申請日"、"住所"、 "姓名"等賬票上所填寫的信息),并利用存儲部中所存儲的多個關(guān)鍵 字,按每個關(guān)鍵字信息分別生成用于與賬票上所填寫的字符串進行對照 的多個部分字符串(例如若是"申請書"就是"申請"、"請書"以及"申 書"等由3個字符中的2個字符組成的字符串),并基于與賬票上所填 寫的字符串有關(guān)的字符信息以及與格線有關(guān)的格線信息,在橫方向上觀 看賬票上所填寫的字符串的情況下,分別生成在字符高度重疊的范圍對 該字符串進行分割后的組字符串并且進行排列,分別對照各組字符串和各部分字符串,按每個關(guān)鍵字信息取得各部分字符串相對于各組字符串 的對照率最大時的一致字符數(shù),利用所取得的各一致字符數(shù)對每個賬票 種類計算出評價了是該賬票種類的可能性的評價值(例如,將組字符串 和部分字符串的一致字符數(shù)用全關(guān)鍵字的字符數(shù)進行了除法運算后的 值),并基于對每個賬票種類計算出的各評價值來決定與已填寫了字符 信息以及格線信息的賬票相對的賬票種類,所以可以實現(xiàn)高精度的賬票 種類識別而不會局限于與預(yù)先保持的賬票識別用的關(guān)鍵字對應(yīng)的那樣 的組字符串的抽取。另外,即使在賬票上所填寫的字符串之中存在錯誤、 或者在字符串的辨認(rèn)結(jié)果中有錯誤的情況下,也能夠計算出通過利用了 部分字符串的對照而考慮了部分一致的評價值,可以實現(xiàn)高精度的賬票 種類識別。
另外,根據(jù)本發(fā)明,判斷對每個賬票種類計算出的各評價值是否超 過對每個賬票種類規(guī)定的閾值來決定與已填寫字符信息以及格線信息 的賬票相對的賬票種類,所以就可以用簡易的方法來決定賬票種類。
另外,根據(jù)本發(fā)明,判定對每個賬票種類計算出的各評價值是否超 過對每個賬票種類所規(guī)定的閾值,并在與被判定為超過閾值的評價值相 對應(yīng)的賬票種類存在多個的情況下根據(jù)評價值的高低將存在多個的賬 票種類排序,所以就可以將賬票種類的候補排序后提供給用戶。
另外,根據(jù)本發(fā)明,判定對每個賬票種類計算出的各評價值是否超 過對每個賬票種類規(guī)定的閾值,并在與被判定為超過閾值的評價值相對
應(yīng)的賬票種類存在多個的情況下,決定為評價值最高的賬票種類,所以 就可以將最可能的賬票種類作為賬票種類的候補提供給用戶。
另外,根據(jù)本發(fā)明,在根據(jù)字符信息以及格線信息判明了在組字符 串內(nèi)存在格線的情況下,用格線來分割組字符串,所以就可以在構(gòu)成正 規(guī)詞句的范圍對組字符串進行分割。
另外,根據(jù)本發(fā)明,在存儲部中進一步存儲對多個關(guān)鍵字的每個規(guī) 定了可否使用的使用可否信息,并基于存儲部中所存儲的使用可否信息 從多個關(guān)鍵字信息之中選擇已許可使用的關(guān)鍵字信息,使用所選擇的關(guān) 鍵字信息分別生成多個部分字符串,所以能夠僅僅使用預(yù)先保持的關(guān)鍵 字之中的需要的關(guān)鍵字,另外與用所有關(guān)鍵字進行處理相比較可以減少處理時間。
另外,根據(jù)本發(fā)明,每當(dāng)對每個賬票種類計算出各評價值時,基于 各評價值對賬票種類的候補進行縮選(例如將評價值最低的除外等,縮 選成有可能性作為賬票種類的候補),每當(dāng)賬票種類的候補被縮選時, 從存儲部中所存儲的多個關(guān)鍵字信息之中,根據(jù)縮選后的賬票種類的候 補來變更關(guān)鍵字信息,每當(dāng)關(guān)鍵字信息被變更時,使用經(jīng)過變更的關(guān)鍵 字信息分別生成多個部分字符串,每當(dāng)生成了多個部分字符串時,分別 對照各組字符串和各部分字符串,對每個賬票種類計算對構(gòu)成各組字符 串的字符串與各部分字符串的一致度進行了評價的評價值,所以不會使
用明顯不需要的賬票種類的關(guān)鍵字進行處理而可以使處理時間以及處 理次數(shù)減少,并且可以實現(xiàn)精度更高的賬票種類識別。
另外,根據(jù)本發(fā)明,與各賬票種類對應(yīng)地按含義相同的每組分別在 存儲部中存儲上述多個關(guān)鍵字信息,分別對照各組字符串和各部分字符 串,并從各組內(nèi)的多個關(guān)鍵字之中分別抽取各部分字符串相對于各組字 符串的對照率最大的關(guān)鍵字,對于所抽取出的各關(guān)鍵字分別取得一致字 符數(shù),并使用所取得的各一致字符數(shù)對每個賬票種類計算評價了是該賬 票種類的可能性的評價值,所以可以實現(xiàn)高精度的賬票種類識別。即, 例如,對于賬票種類"申請書",將"申請日"和"填寫日"作為持有 相同含義的一個組來處理,如果在根據(jù)"申請日"以及"填寫日"所生 成的部分字符串和根據(jù)輸入的字符信息以及格線信息所生成的組字符 串的一致度之中的、與根據(jù)"申請日"所生成的部分字符串的一致度較 高,則使用與根據(jù)"申請日"所生成的部分字符串的一致字符數(shù)來計算 評價值,所以能夠?qū)崿F(xiàn)高精度的賬票種類識別而不會使評價值降低。
圖1是用于說明實施例1所涉及的賬票種類識別裝置之概要以及特 征的圖。
圖2是用于說明實施例1所涉及的部分字符串之生成的圖。
圖3是表示實施例1所涉及的賬票種類識別裝置之構(gòu)成的框圖。
圖4是表示實施例1所涉及的賬票種類識別信息DB中所存儲的信息之構(gòu)成例的圖。
圖5是表示實施例l所涉及的字符串之排列例的圖。
圖6是表示實施例l所涉及的組字符串之生成方法的圖。
圖7是表示實施例1所涉及的組字符串和部分字符串之對照方法的圖。
圖8是表示實施例1所涉及的組字符串和部分字符串之對照方法的圖。
圖9是表示實施例1所涉及的組字符串和部分字符串之對照方法的圖。
圖10是表示實施例1所涉及的組字符串和部分字符串之對照例的圖。
圖11是表示實施例1所涉及的換算表之構(gòu)成例的圖。
圖12是表示實施例l所涉及的賬票種類之輸出例的圖。
圖13是表示實施例1所涉及的字符串排列處理之流程的流程圖。
圖14是表示實施例1所涉及的部分字符串生成處理之流程的流程圖。
圖15是表示實施例1所涉及的賬票種類決定處理之流程的流程圖。
圖16是表示實施例2所涉及的賬票種類識別信息DB之構(gòu)成例的圖。
圖17是表示實施例2所涉及的關(guān)鍵字之選擇例的圖。
圖18是表示實施例3所涉及的賬票種類識別裝置之構(gòu)成的框圖。
圖19是表示實施例3所涉及的關(guān)鍵字變更之流程的圖。
圖20是表示實施例4所涉及的賬票種類識別信息DB之構(gòu)成例的圖。
圖21是表示執(zhí)行賬票種類識別程序的計算機的圖。附圖標(biāo)記說明
10賬票種類識別裝置
11輸入部
12輸出部
13存儲部
13a賬票種類識別信息DB
14控制部
14a字符辨認(rèn)部
14b字符信息排列部
14c部分字符串生成部
14d字符串對照部
14e賬票種類決定部
14f關(guān)鍵字選擇部
20計算機
21輸入部
22輸出部
23 HDD ( Hard Disk Drive)
24 RAM ( Random Access Memory )
25 ROM ( Read Only Memory)
26 CPU ( CentralProcessingUnit) 30總線以下參照附圖詳細(xì)地說明本發(fā)明所涉及的賬票種類識別程序、賬票 種類識別方法以及賬票種類識別裝置之實施例。此外,下面在將本發(fā)明 所涉及的賬票種類識別裝置作為實施例l進行說明以后,對本發(fā)明所包 含的其他實施例進行說明。
實施例1
首先,利用圖1以及圖2來說明實施例1所涉及的賬票種類識別裝 置之概要以及特征。圖l是用于說明實施例l所涉及的賬票種類識別裝 置之概要以及特征的圖。圖2是用于說明實施例1所涉及的部分字符串 之生成的圖。
實施例1所涉及的賬票種類識別裝置其概要如下接受與賬票上所 填寫的字符串有關(guān)的字符信息(賬票上的坐標(biāo)組成的位置信息及用于確 定字符的字符代碼組成的信息)以及與格線有關(guān)的格線信息(用賬票上 的坐標(biāo)來表示格線的起點以及終點的信息及單元格信息組成的信息)的 輸入,并對填寫了字符信息以及格線信息的賬票的賬票種類(例如"申 請書"或"交貨單"等賬票類別)進行識別,但主要特征在于可以實現(xiàn) 高精度的賬票種類識別這一點。
對這一主要特征具體地進行說明,就是實施例1所涉及的賬票種類 識別裝置如圖1所示那樣與各賬票種類對應(yīng)地預(yù)先保持賬票種類識別信 息DB,該賬票種類識別信息DB存儲了成為用于識別賬票種類的關(guān)鍵 (key)的多個關(guān)鍵字(keyword).
而且,若接受了與賬票上所填寫的字符串有關(guān)的字符信息以及與格 線有關(guān)的格線信息的輸入,則實施例l所涉及的賬票種類識別裝置,對 賬票上所填寫的字符串進行排列(參照圖l的(l))。具體地進行說明, 就是基于字符信息以及格線信息使賬票上所填寫的所有字符從左起排 成一列,并在橫方向上觀看經(jīng)過排列的字符串的情況下,分別生成在字 符高度重疊的范圍對字符串進行分割后的組字符串并進行排列。此外, 實施例1所涉及的賬票種類識別裝置在生成了組字符串以后,當(dāng)在組字符串內(nèi)包含格線的情況下用格線進一步分割組字符串并進行排列。
另外,實施例1所涉及的賬票種類識別裝置利用賬票種類識別信息
DB中所存儲的多個關(guān)鍵字,對每個關(guān)鍵字分別生成用于與賬票上所填 寫的字符串進行對照的多個部分字符串(參照圖l的(2))。
利用圖2具體地進行說明,就是實施例1所涉及的賬票種類識別裝 置,例如,若從用戶接受了部分字符串的字符數(shù)的輸入,則從賬票種類 識別信息DB13a按每個賬票種類讀入所有關(guān)鍵字。而且,例如在作為 賬票種類"申請書"的關(guān)鍵字從賬票種類識別信息DB中所存儲的3字 符的關(guān)鍵字"申請書"生成2字符的部分字符串的情況下,將關(guān)鍵字上 的各個字符"申"、"請"、"書"當(dāng)作"0"或者"1",不重復(fù)地僅對2 字符分配"1"。接著,通過挑選所有將被分配"1"的部分看作字符而 成的字符串來生成部分字符串(0:"申書"、1:"申請"、2:"請書")。 此外,通過用二進制數(shù)來表達(dá)3到6來取得分配"1"的位置。
接著,實施例l所涉及的賬票種類識別裝置分別對照經(jīng)過排列的各 組字符串和所生成的各部分字符串(參照圖1的(3))。若具體地進行 說明,則,首先實施例1所涉及的賬票種類識別裝置采用DP (Dynamic Programming )匹配或圖表理論等一般的字符辨認(rèn)方法來對照各組字符 串和各部分字符串。
而且,實施例l所涉及的賬票種類識別裝置對于對照成功了的各部 分字符串,按每個關(guān)鍵字取得各部分字符串相對于各組字符串的對照率 最大時的正確解字符數(shù)。例如,在某3個組字符串和從關(guān)鍵字"申請書" 所生成的2字符的各部分字符串("申書"、"申請"、"請書"三個)的 對照率(將部分字符串的正確解數(shù)用成為該部分字符串來源的關(guān)鍵字的 字符數(shù)進行了除法運算的值)為66%、 50%、 25%的情況下,取得對照 率最大即66%時的正確解字符數(shù)。此外,通過使用部分字符串的字符數(shù) 和部分字符串相對于組字符串的正確解數(shù)進行換算來取得正確解字符 數(shù)。
在按每個關(guān)鍵字取得了各正確解字符數(shù)以后,實施例l所涉及的賬 票種類識別裝置使用各正確解字符數(shù)對每個賬票種類計算出評價了是 該賬票種類的可能性的評價值以決定賬票種類(參照圖1的(4))。具體地進行說明,就是,實施例l所涉及的賬票種類識別裝置對每個賬票 種類將各正確解字符數(shù)的總數(shù)用各關(guān)鍵字中所使用的字符的總數(shù)進行 除法運算來計算評價值。而且,判定對每個賬票種類計算出的各評價值 是否超過對每個賬票種類所規(guī)定的閾值,作為判定結(jié)果,舍棄與未超過 閾值的評價值相對應(yīng)的賬票種類。另一方面,在作為判斷結(jié)果與超過閾 值的評價值相對應(yīng)的賬票種類僅存在一個的情況下,決定為該賬票種類 并進行輸出,在與超過閾值的評價值相對應(yīng)的賬票種類存在多個的情況 下,根據(jù)評價值的高低將各賬票種類排序并進行輸出。
通過這樣做,實施例l所涉及的賬票種類識別裝置,可以如上述的 主要特征那樣實現(xiàn)高精度的賬票種類識別。
下面,利用圖3 ~圖12來說明實施例1所涉及的賬票種類識別裝置 之構(gòu)成。圖3是表示實施例1所涉及的賬票種類識別裝置之構(gòu)成的框圖。 圖4是表示實施例1所涉及的賬票種類識別信息DB中所存儲的信息之 構(gòu)成例的圖。圖5是表示實施例l所涉及的字符串之排列例的圖。圖6 是表示實施例l所涉及的組字符串之生成方法的圖。圖7~圖9是表示實 施例1所涉及的組字符串和部分字符串之對照方法的圖。圖IO是表示 實施例1所涉及的組字符串和部分字符串之對照例的圖。圖11是表示 實施例1所涉及的換算表之構(gòu)成例的圖。圖12是表示實施例1所涉及 的賬票種類之輸出例的圖。
如圖3所示那樣,實施例1所涉及的賬票種類識別裝置10由輸入 部ll、輸出部12、存儲部13、控制部14所構(gòu)成。此外,在該圖中,僅 僅記栽在實現(xiàn)實施例1所涉及的賬票種類識別裝置上所需要的處理部, 對于其他的處理部則省略記載。
其中,輸入部ll是接受各種信息輸入的輸入部,具備鍵盤及鼠標(biāo)、 麥克風(fēng)等而構(gòu)成,例如接受并輸入由關(guān)鍵字生成的部分字符串長度(字 符數(shù))等。此外,在輸入部11中還進一步具備數(shù)據(jù)讀取功能,讀取賬 票的圖像數(shù)據(jù)并輸出到后述的字符辨認(rèn)部14a。
另外,輸出部12是輸出各種信息的輸出部,具備監(jiān)視器(或者是顯示器、觸摸面板)及揚聲器而構(gòu)成,例如除顯示輸出通過輸入部11
所讀入的賬票的圖《象數(shù)據(jù)外,還顯示輸出后述的賬票種類決定部14e的 處理結(jié)果。
存儲部13是存儲基于控制部14的各種處理所需要的數(shù)據(jù)以及程序 的存儲部,尤其是作為與本發(fā)明密切關(guān)聯(lián)的部件具備賬票種類識別信息 DB13a。
此賬票種類識別信息DB13a是存儲后述的部分字符串生成部14c的 部分字符串生成處理所需要的信息的存儲部,具體而言,如圖4所例示 那樣,與賬票種類(例如、"交貨單"、"報價單"、"申請書"等)對應(yīng) 地存儲成為用于識別賬票種類的關(guān)鍵的多個關(guān)鍵字(例如、"交貨單"、 "交貨日"、"合計金額"等)而構(gòu)成。
控制部14是具有用于保存規(guī)定的控制程序、規(guī)定了各種處理步驟 等的程序以及所需數(shù)據(jù)的內(nèi)部存儲器,并通過它們來執(zhí)行各種處理的處 理部,尤其是作為與本發(fā)明密切關(guān)聯(lián)的部件具備字符辨認(rèn)部14a、字符 信息排列部14b、部分字符串生成部14c、字符串對照部14d、賬票種 類決定部14e。
其中,字符辨認(rèn)部14a是從賬票的圖像數(shù)據(jù)中取得字符信息以及格 線信息的處理部。若具體地進行說明,則,從由輸入部11所接受的賬 票的圖像數(shù)據(jù)中取得字符信息(賬票上的坐標(biāo)組成的位置信息及用于確 定字符的字符代碼組成的信息)、以及與格線有關(guān)的格線信息(用賬票 上的坐標(biāo)來表示格線的起點以及終點的信息及單元格信息組成的信息) 并輸出到字符信息排列部14b。
字符信息排列部14b是基于從字符辨認(rèn)部14a所接受的字符信息以 及格線信息來排列賬票上所填寫的字符串的處理部。若具體地進行說 明,則,如圖5所例示那樣,在基于字符信息以及上述格線信息使全部 字符從左起排成一列后,在橫方向上觀看經(jīng)過排列的字符串的情況下, 分別生成在字符高度重疊的范圍對字符串進行了分割后的組字符串(例 如從第1組到第7組的組字符串)并進行排列。
即,字符信息排列部14b在使全部字符從左起排成一列后,在橫方向上觀看經(jīng)過排列的字符串,如圖6所例示那樣,例如觀看"申"的字 符的高度和位于"申"右側(cè)的"請"的字符的高度是否重疊。而且,在 "申"的字符的高度和"請"的字符的高度重疊的情況下作為一組來進 行處理,觀看"申請"的字符串的高度和位于"請"的右側(cè)的"書"字 符的高度是否重疊,在重疊的情況下作為一組來進行處理。此外,在生 成了組字符串以后,在組字符串內(nèi)包含格線的情況下,進一步用格線分 割組字符串并進行排列。
此外,在賬票上所填寫的字符串以豎寫方式存在的情況下,如上述 所說明的那樣,進行與賬票上所填寫的字符串以橫寫方式存在的情況同 樣的處理。即,字符信息排列部14b在將全部字符從上起排成一列后, 在縱方向上觀看經(jīng)過排列的字符串,例如在字符的寬度重疊的情況下, 作為組字符串來處理。
部分字符串生成部14c是利用賬票種類識別信息DB13a中所存儲的 多個關(guān)鍵字,對每個關(guān)鍵字分別生成用于與賬票上所填寫的字符串進行 對照的多個部分字符串的處理部。
具體地進行說明,若經(jīng)由輸入部11接受了部分字符串的字符數(shù)的輸 入,部分字符串生成部14c,則從賬票種類識別信息DB13a按每個賬票 種類讀入所有關(guān)鍵字。而且,例如在作為賬票種類"申請書"的關(guān)鍵字, 從賬票種類識別信息DB13a中所存儲的3字符關(guān)鍵字"申請書"生成2 字符部分字符串的情況下,將關(guān)鍵字上的各個字符"申"、"請"、"書" 當(dāng)作"0"或者"1",不重復(fù)地僅對2字符分配"1"。接著,通過挑選 所有將被分配"1"的部分看作字符而成的字符串來生成部分字符串(0: "申書"、1:"申請"、2:"請書")。
此外,例如在從3字符關(guān)鍵字生成2字符部分字符串的情況下通過 用二進制數(shù)對3到6進行變換,并生成由"0"以及"1"組成的2值表 示來取得分配"1"的位置。
字符串對照部14d是對由字符信息排列部14b所生成排列的各組字 符串、和由部分字符串生成部14c所生成的各部分字符串分別進行對照 的處理部。若具體地進行說明,則,首先如圖7~圖9所示例那樣,采 用DP (Dynamic Programming)匹配或圖表理論等一般的字符辨認(rèn)方法來對照各組字符串和各部分字符串。
而且,字符串對照部14d對于對照成功了的各部分字符串,對每個 關(guān)鍵字取得各部分字符串相對于各組字符串的對照率最大時的正確解 字符數(shù)。
首先,如圖10所例示那樣,若對照組字符串"申請書"和從關(guān)鍵 字"申請書"所生成的2字符的各部分字符串("申書"、"申請"、"請 書"三個),則部分字符串的正確解數(shù)為"3",而部分字符串的字符數(shù) 為"2"。通過將此部分字符串的正確解數(shù)"3"以及部分字符串的字符 數(shù)"2"適用于圖ll所例示那樣的換算表來換算正確解字符數(shù)。詳細(xì)而 言,在部分字符串的字符數(shù)為"2"的情況下將換算表的"m=2"行前 進到部分字符串的正確解數(shù)為"3"的位置。而且,在該列的最上段所 記載的換算表的"n,"的值、也就是"n, =3"就成為關(guān)鍵字"申請 書"的正確解字符數(shù)。
同樣,若以對照組字符串"申邊書"和從關(guān)鍵字"申請書"所生成 的2字符的各部分字符串("申書"、"申請"、"請書"三個)的情況(參 照圖IO)為例,則部分字符串的正確解數(shù)為"1",部分字符串的字符數(shù) 為"2",所以若適用于換算表則正確解字符數(shù)就成為"n, =2"。
這樣,即便是相同的關(guān)鍵字,正確解字符數(shù)也因組字符串而異,所 以例如在某3個組字符串和從關(guān)鍵字"申請書"所生成的2字符的各部 分字符串("申書"、"申請"、"請書"三個)的對照率為66%、 50%、 25°/。的情況下,取得對照率最大即66%時的正確解字符數(shù)。這里,所謂 對照率,設(shè)為將部分字符串的正確解數(shù)用作為該部分字符串來源的關(guān)鍵 字的字符數(shù)進行了除法運算后的值。這樣,通過用從關(guān)鍵字所生成的部 分字符串進行對照,即便在組字符串中有錯誤字符的情況下也能夠應(yīng) 對。
賬票種類決定部14e是使用在字符串對照部14d中對每個關(guān)鍵字所 取得的各正確解字符數(shù),對每個賬票種類計算出評價了是該賬票種類的 可能性的評價值以決定賬票種類的處理部。若具體地進行^L明,則,對 每個賬票種類將各正確解字符數(shù)的總數(shù)用各關(guān)鍵字中所使用的字符的 總數(shù)進行除法運算來計算評價值。而且,判定對每個賬票種類計算出的各評價值是否超過對每個賬票種類所規(guī)定的閾值,作為判斷結(jié)果,分別 舍棄與未超過閾值的各評價值相對應(yīng)的賬票種類,在與超過閾值的評價 值相對應(yīng)的賬票種類僅存在一個的情況下,決定為該賬票種類并進行輸
另外,賬票種類決定部14e,在作為判定對每個賬票種類計算出的 評價值是否超過對每個賬票種類規(guī)定的閾值的結(jié)果,存在多個與判定為 超過閾值的評價值相對應(yīng)的賬票種類的情況下,也可以根據(jù)評價值的高 低將各賬票種類排序后進行輸出(參照圖12),也可以決定為評價值最 高的賬票種類并進行輸出。
接著,利用圖13 ~圖15來說明實施例1所涉及的賬票種類識別裝 置之處理。圖13是表示實施例1所涉及的字符串排列處理之流程的流 程圖。圖14是表示實施例1所涉及的部分字符串生成處理之流程的流 程圖。圖15是表示實施例1所涉及的賬票種類決定處理之流程的流程 圖。
首先,利用圖13來說明實施例l所涉及的字符串排列處理之流程。 如該圖所示那樣,字符信息排列部14b基于從字符辨認(rèn)部14a所接受的 字符信息以及格線信息使賬票上所填寫的全部字符從左起排成一列(步 驟S1301 )。
接著,字符信息排列部14b將經(jīng)過排列的字符串分成組(步驟 S1302),并生成組字符串。具體而言,就是在橫方向上觀看經(jīng)過排列的 字符串的情況下,在字符高度重疊的范圍(參照圖5)來分割字符串。
在生成了組字符串以后,字符信息排列部14b在組字符串內(nèi)包含格 線的情況下利用格線來分割組字符串(步驟S1303)并將其排列。
此外,在賬票上所填寫的字符串以豎寫方式存在的情況下,如上述 所說明的那樣,進行與賬票上所填寫的字符串以橫寫方式存在的情況同 樣的處理。即,字符信息排列部14b在將全部字符從上起排成一列后,在縱方向上觀看經(jīng)過排列的字符串,例如在字符的寬度重疊的情況下作 為組字符串來處理。
接著,利用圖14來說明實施例1所涉及的部分字符串生成處理之 流程。如該圖所示那樣,若經(jīng)由輸入部11接受了部分字符串的字符數(shù) 的輸入(步驟S1401 ),部分字符串生成部14c,則從賬票種類識別信息 DB13a按每個賬票種類讀入所有關(guān)鍵字(步驟S1402 )。
而且,部分字符串生成部14c利用賬票種類識別信息DB13a中所存 儲的多個關(guān)鍵字,對每個關(guān)鍵字分別生成用于與賬票上所填寫的字符串 進行對照的多個部分字符串(步驟S1403)。
若具體地進行說明,則,部分字符串生成部14c,例如在作為賬票
種類"申請書"的關(guān)鍵字從賬票種類識別信息DB13a中所存儲的3字
符的關(guān)鍵字"申請書"生成2字符的部分字符串的情況下,將關(guān)鍵字上 的各個字符"申"、"請"、"書"當(dāng)作"o"或者"r,不重復(fù)地僅對2
字符分配"1"。接著,通過挑選所有將被分配"1"的部分看作字符而 成的字符串來生成部分字符串(0:"申書"、1:"申請"、2:"請書")。
此外,例如在從3字符的關(guān)鍵字生成2字符的部分字符串的情況下 通過用二進制數(shù)對3到6進行變換,并生成由"0"以及"1"組成的2 值表示來取得分配"1"的位置。
接著,利用圖15來說明實施例1所涉及的賬票種類決定處理之流 程。如該圖所示那樣,賬票種類決定部14e利用在字符串對照部14d中 對每個關(guān)鍵字所取得的各正確解字符數(shù),對每個賬票種類計算出評價了 是該賬票種類的可能性的評價值(步驟S1501)。
而且,賬票種類決定部14e判定對每個賬票種類計算出的各評價值 是否超過對每個賬票種類規(guī)定的閾值,作為判定結(jié)果,分別舍棄與未超 過閾值的各評價值相對應(yīng)的賬票種類(步驟S1502),在與超過閾值的 評價值相對應(yīng)的賬票種類僅存在一個的情況下,決定為該賬票種類并進行輸出。
另外,在作為判定結(jié)果,與被判定為超過閾值的評價值相對應(yīng)的賬 票種類存在多個的情況下,根據(jù)評價值的高低將各賬票種類排序并進行
輸出(步驟S1503)。
如上述那樣,根據(jù)實施例1,與各賬票種類(例如"申請書"或"交 貨單"、"報價單"等)對應(yīng)地分別在存儲部中存儲成為用于識別賬票種 類的關(guān)鍵的多個關(guān)鍵字(例如若是"申請書"就是"申請書"、"申請日"、 "住所"、"姓名"等賬票上所填寫的信息),并利用存儲部中所存儲的 多個關(guān)鍵字,對每個關(guān)鍵字分別生成用于與賬票上所填寫的字符串進行 對照的多個部分字符串(例如若是"申請書"則是"申請"、"請書"以 及"申書"等3字符中2字符組成的字符串),并基于與賬票上所填寫 的字符串有關(guān)的字符信息以及與格線有關(guān)的格線信息,在橫方向上觀看
賬票上所填寫的字符串的情況下,分別生成在字符高度重疊的范圍對該 字符串進行分割后的組字符串并且進行排列,分別對照各組字符串和各 部分字符串,對每個關(guān)鍵字取得各部分字符串相對于各組字符串的對照 率最大時的一致字符數(shù),利用所取得的各一致字符數(shù)對每個賬票種類計 算評價了是該賬票種類的可能性的評價值(例如,將組字符串和部分字 符串的一致字符數(shù)用全關(guān)鍵字的字符數(shù)進行了除法運算的值),并基于 對每個賬票種類計算出的各評價值來決定與已填寫字符信息以及格線 信息的賬票相對的賬票種類,所以就可以實現(xiàn)高精度的賬票種類識別而 不會局限于如與預(yù)先保持的賬票識別用的關(guān)鍵字對應(yīng)那樣的組字符串 的抽取。另外,即便在賬票上所填寫的字符串之中存在錯誤、或者在字 符串的辨認(rèn)結(jié)果中有錯誤的情況下,也能夠通過利用了部分字符串的對 照而計算出考慮了部分一致的評價值,可以實現(xiàn)高精度的賬票種類識 別。
另外,根據(jù)實施例1,判定對每個賬票種類計算出的各評價值是否 超過對每個賬票種類所規(guī)定的閾值來決定與已填寫字符信息以及格線 信息的賬票相對的賬票種類,所以就可以用簡易的方法來決定賬票種 類。
23另外,根據(jù)實施例1,判定對每個賬票種類計算出的各評價值是否 超過對每個賬票種類所規(guī)定的閾值,并在與被判定為超過閾值的評價值 相對應(yīng)的賬票種類存在多個的情況下根據(jù)評價值的高低將存在多個的 賬票種類排序,所以就可以將賬票種類的候補排序后提供給用戶。
另外,根據(jù)實施例1,判定對每個賬票種類計算出的各評價值是否 超過對每個賬票種類所規(guī)定的閾值,并在與被判定為超過閾值的評價值 相對應(yīng)的賬票種類存在多個的情況下,決定為評價值最高的賬票種類, 所以就可以將最有可能的賬票種類作為賬票種類的候補提供給用戶。
另外,根據(jù)實施例1,在根據(jù)字符信息以及格線信息判明了在組字 符串內(nèi)存在格線的情況下,用格線來分割組字符串,所以就可以在構(gòu)成 正規(guī)詞句的范圍對組字符串進行分割。
實施例2
雖然在上述實施例1中說明了從賬票種類識別信息DB13a中按每 個賬票種類讀入所有關(guān)鍵字,并對每個關(guān)鍵字生成多個部分字符串的情 況,但本發(fā)明并不限定于此,還可以任意地選擇將要使用的關(guān)鍵字。
若具體地進行說明,則,如圖16所示例那樣,將對每個關(guān)鍵字規(guī) 定了可否使用的使用標(biāo)志(將使用的情況設(shè)為"0"、不使用的情況設(shè)為 "- 1"的標(biāo)志)存儲在賬票種類識別信息DB13a中。而且,部分字符 串生成部14c選擇使用標(biāo)志為"0"的關(guān)鍵字,并從賬票種類識別信息 DB13a中按每個賬票種類進行讀入(參照圖17),對所讀入的每個關(guān)鍵 字生成多個部分字符串。
通過這樣,才艮據(jù)實施例2,在賬票種類識別信息DB13a中進一步存 儲對多個關(guān)鍵字的每個規(guī)定了可否使用的使用標(biāo)志,并基于所存儲的使 用標(biāo)志從多個關(guān)鍵字信息之中選擇已許可使用的關(guān)鍵字信息,使用所選 擇的關(guān)鍵字信息對每個賬票種類分別生成多個部分字符串,所以就能夠 僅僅使用預(yù)先保持的關(guān)鍵字之中的需要的關(guān)鍵字,另外與用所有關(guān)鍵字 進行處理相比較可以減少處理時間。
實施例3雖然在上述實施例1中,說明了根據(jù)各組字符串和各部分字符串的對 照結(jié)果直接決定賬票種類的情況,但本發(fā)明并不限定于此,還可以利用 賬票種類決定處理的結(jié)果來變更關(guān)鍵字,并使用變更后的關(guān)鍵字以遞歸
的方式反復(fù)進行了處理以后,決定賬票種類。因而,在下面利用圖18 以及圖19對實施例3所涉及的賬票種類識別裝置的構(gòu)成進行了說明以 后,說明實施例3的效果。圖18是表示實施例3所涉及的賬票種類識 別裝置之構(gòu)成的框圖。圖19是表示實施例3所涉及的關(guān)鍵字變更之流 程的圖。
首先,利用圖18來說明實施例3所涉及的賬票種類識別裝置之構(gòu) 成。實施例3所涉及的賬票種類識別裝置之構(gòu)成與實施例1所涉及的賬 票種類識別裝置的構(gòu)成基本上相同,但以下將要說明的幾點不同。
即,賬票種類識別信息DB13a對每個賬票種類存儲按規(guī)定的層次劃 分后的關(guān)鍵字(參照圖19)。作為按層次進行劃分的方法之一例,可以 根據(jù)賬票種類固有的關(guān)鍵字按順序以第"0"層次、第"1"層次這樣的 形式來進行劃分。
關(guān)鍵字選擇部14f向部分字符串生成部14c輸出指示以使僅僅選擇 第"0"層次的關(guān)鍵字來生成部分字符串(參照圖19)。
與上述實施例1中所說明的相同,在字符信息排列部14b、部分字 符串生成部14c以及字符串對照部14d中進行了處理以后,賬票種類決 定部14e判定對每個賬票種類計算出的各評價值是否超過對每個賬票種 類規(guī)定的閾值,作為判斷結(jié)果,分別舍棄與未超過閾值的各評價值相對 應(yīng)的賬票種類,將與超過閾值的各評價值相對應(yīng)的賬票種類進行縮選, 并將縮選后的各賬票種類的信息分別輸出給關(guān)鍵字選擇部14f。此外, 在各評價值全部未超過閾值的情況下賬票種類決定部14e對關(guān)鍵字選擇 部14f輸出表示不存在與超過閾值的評價值相對應(yīng)的賬票種類的信息。
若從賬票種類決定部14e接受了各賬票種類的信息,則,關(guān)鍵字選 擇部14f,對部分字符串生成部14c輸出指示,從使從與所接受的賬票 種類的信息相對應(yīng)的關(guān)鍵字信息之中僅僅選擇第"1"層次的關(guān)鍵字并生成部分字符串。此外,關(guān)鍵字選擇部14f,在從賬票種類決定部14e 接受到表示不存在與超過閾值的評價值相對應(yīng)的賬票種類的信息的情 況下,對部分字符串生成部14c輸出指示,以使對于全部賬票種類僅僅 選擇第"1"層次的關(guān)鍵字并生成部分字符串(參照圖19)。
而且,再次在部分字符串生成部14c以及字符串對照部14d中進行
了處理以后,賬票種類決定部14e判定對每個賬票種類計算出的各評價
值是否超過對每個賬票種類規(guī)定的閾值,作為判斷結(jié)果,舍棄與未超過
閾值的評價值相對應(yīng)的賬票種類。另一方面,在與超過閾值的各評價值
相對應(yīng)的賬票種類例如被縮選成規(guī)定數(shù)量的情況下,既可以根據(jù)評價值
的高低將各賬票種類排序后進行輸出,也可以決定為評價值最高的賬票 拙泉乂^仁払山
此外,還可以預(yù)先設(shè)定在部分字符串生成部14c、字符串對照部14d、 賬票種類決定部14e以及關(guān)鍵字選擇部14f之間以遞歸方式反復(fù)進行處 理的處理次數(shù),將到達(dá)了所設(shè)定的處理次數(shù)的時間點的賬票種類進行輸 出。
如上述那樣,根據(jù)實施例3,每當(dāng)對每個賬票種類計算出各評價值 時,基于各評價值將賬票種類的候補進行縮選(例如將評價值最低的除 去等,縮選成有可能性作為賬票種類的賬票種類的候補),每當(dāng)賬票種 類的候補被縮選時,從存儲部中所存儲的多個關(guān)鍵字信息之中,根據(jù)已 縮選的賬票種類的候補來變更關(guān)鍵字信息,每當(dāng)關(guān)鍵字信息被變更時, 使用經(jīng)過變更的關(guān)鍵字信息分別生成多個部分字符串,每當(dāng)生成多個部 分字符串時,分別對照各組字符串和各部分字符串,對每個關(guān)鍵字信息 取得各部分字符串相對于各組字符串的對照率最大時的一致字符數(shù),并 利用所取得的各一致字符數(shù),按每個賬票種類計算出對每個賬票種類評 價了是該賬票種類的可能性的評價值,所以不會使用明顯不需要的賬票 種類的關(guān)鍵字進行處理而可以使處理時間以及處理次數(shù)減少,并且可以 實現(xiàn)精度更高的賬票種類識別。
實施例4那么,到此為止對本發(fā)明的實施例1~實施例3進行了說明,但本 發(fā)明除上述的實施例以外還可以以各種各樣不同的方式來實施。因而, 在下面i兌明本發(fā)明所包含的其他實施例。
(1) 按每組保持關(guān)鍵字
在上述實施例中還可以按含義相同的每個組分別在賬票種類識別 信息DB13a中存儲多個關(guān)鍵字。具體而言,如圖20所示例那樣,對于 賬票種類"交貨單"將含義相同的"交貨日"、"搬入日"以及"寄送日" 作為"交貨日"關(guān)鍵字組分別進行存儲。
而且,分別對照各組字符串和各部分字符串,并從各組內(nèi)的多個關(guān) 鍵字之中分別抽取各部分字符串相對于各組字符串的對照率最大的關(guān) 鍵字(例如如果是關(guān)鍵字組"交貨日",則從"交貨日"、"搬入日"、"寄 送日"之中抽取對照率最大的關(guān)鍵字),與上述所說明的實施例同樣地, 對于所抽取出的各關(guān)鍵字分別取得一致字符數(shù),并使用所取得的各一致
字符數(shù)對每個賬票種類計算出評價了是該賬票種類的可能性的評價值, 所以可以實現(xiàn)高精度的賬票種類識別。
即,例如,對于賬票種類"申請書",將"申請日"和"填寫日" 作為持有相同含義的一個組來處理,如果在根據(jù)"申請日"以及"填寫 日"所生成的部分字符串和根據(jù)賬票的字符信息以及格線信息所生成的 組字符串的吻合度之中的、與根據(jù)"申請日"所生成的部分字符串的吻 合度較高則使用與根據(jù)"申請日"所生成的部分字符串之間的一致字符 數(shù)來計算評價值,所以就能夠?qū)崿F(xiàn)高精度的賬票種類識別而不會使評價 值降低。
(2) 裝置構(gòu)成等
另外,圖3以及圖18所示的賬票種類識別裝置10的各構(gòu)成要素是 功能概念性的要素,不需要在物理上務(wù)必如圖示那樣來構(gòu)成。即,賬票 種類識別裝置10的分散/合并的具體方式并不限于圖示情形,例如還能 夠?qū)⒆址畬φ詹?4d和賬票種類決定部14e進行合并等、根據(jù)各種負(fù) 荷及使用狀況等將其全部或者一部分以任意的單位在功能上或者物理 上進行分散/合并而構(gòu)成。進而,由賬票種類識別裝置10所進行的各處理功能其全部或者任意一部分還可以用CPU以及由CPU所解析執(zhí)行的
程序來實現(xiàn),或者作為基于布線邏輯的硬件來實現(xiàn)。
(3)賬票種類識別程序
可是,能夠通過將預(yù)先準(zhǔn)備好的程序在個人計算機或工作站等計算 機系統(tǒng)上執(zhí)行來實現(xiàn)上述實施例所說明的各種處理。因而,以下利用圖 21來說明執(zhí)行具有與上述實施例相同功能的賬票種類識別程序的計算 機之一例。圖21是表示執(zhí)行賬票種類識別程序的計算機的圖。
如該圖所示那樣,計算機20作為賬票種類識別裝置利用總線30將 輸入部21、輸出部22、 HDD23、 RAM24、 ROM25以及CPU26連接起 來而構(gòu)成。此外,輸入部21以及輸出部22分別對應(yīng)于圖3或者圖18 所示的賬票種類識別裝置10的輸入部11以及輸出部12。
而且,在ROM25中預(yù)先存儲有發(fā)揮與上述實施例所示的賬票種類 識別裝置相同的功能的賬票種類識別程序、也就是說如圖21所示那樣 預(yù)先存儲有字符辨認(rèn)程序25a、字符信息排列程序25b、部分字符串生 成程序25c、字符串對照程序25d、賬票種類決定程序25e以及關(guān)鍵字 選捧程序25f。此外,關(guān)于這些程序25a、 25b、 25c、 25d、 25e以及25f 還可以與圖3或者圖18所示的賬票種類識別裝置10的各構(gòu)成要素同樣, 適當(dāng)?shù)剡M行合并或者分散。此外,ROM25也可以是非易失性的"RAM"。
而且,CPU26從ROM25讀出這些程序25a、 25b、 25c、 25d、 25e 以及25f并執(zhí)行,由此如圖21所示那樣各程序25a、 25b、 25c、 25d、 25e以及25f作為字符辨認(rèn)進程26a、字符信息排列進程26b、部分字符 串生成進程26c、字符串對照進程26d、賬票種類決定進程26e以及關(guān) 鍵字選擇進程26f而發(fā)揮功能。此外,各進程26a、 26b、 26c、 26d、 26e 以及26f分別對應(yīng)于圖3或者圖18所示的賬票種類識別裝置IO的字符 辨認(rèn)部14a、字符信息排列部14b、部分字符串生成部14c、字符串對照 部14d、賬票種類決定部14e以及關(guān)鍵字選擇部14f。
另外,在HDD23中,如圖21所示那樣設(shè)置有賬票種類識別信息數(shù) 據(jù)表23a。此外,賬票種類識別信息數(shù)據(jù)表23a對應(yīng)于圖3或者圖18 所示的賬票種類識別信息DB13a。而且,CPU26從賬票種類識別信息數(shù)據(jù)表23a中讀出賬票種類識別信息數(shù)據(jù)24a并保存在RAM24中,并 基于RAM24中所保存的賬票種類識別信息數(shù)據(jù)24a來執(zhí)行處理。
此外,關(guān)于上述的各程序25a、 25b、 25c、 25d、 25e以及25f,未 必需要最初就將其存儲在ROM25中,例如還可以將各程序存儲在計算 機20上所插入的軟盤(FD )、 CD-ROM、 DVD盤、光磁盤、IC卡等 "可移動物理介質(zhì)"中,或者,存儲在計算機20的內(nèi)外所具備的HDD 等"固定用物理介質(zhì)"中,進而,存儲在通過公共線路、因特網(wǎng)、LAN、 WAN等連接到計算機20的"其他計算機(或者服務(wù)器)"等中,計算 機20從它們中讀出各程序并進行執(zhí)行。
工業(yè)上的可利用性
如以上那樣,本發(fā)明所涉及的賬票種類識別程序、賬票種類識別 方法以及賬票種類識別裝置,在使計算機執(zhí)行賬票種類識別處理,即接 受與賬票上所填寫的字符串有關(guān)的字符信息以及與格線有關(guān)的格線信 息的輸入,并對填寫了該字符信息以及該格線信息的賬票的賬票種類進 行識別,等情況下有用,尤其適合于實現(xiàn)高精度的賬票種類識別。
權(quán)利要求
1.一種賬票種類識別程序,其特征在于,使計算機執(zhí)行賬票種類識別處理,該賬票種類識別處理是接受與賬票上所填寫的字符串有關(guān)的字符信息以及與格線有關(guān)的格線信息的輸入,對填寫了該字符信息以及該格線信息的賬票的賬票種類進行識別的處理,該賬票種類識別程序使計算機執(zhí)行以下步驟賬票種類識別信息存儲步驟,與各賬票種類對應(yīng)地分別在存儲部中存儲成為用于識別賬票種類的關(guān)鍵的多個關(guān)鍵字信息;部分字符串生成步驟,使用通過上述賬票種類識別信息存儲步驟在存儲部中所存儲的上述多個關(guān)鍵字信息,按每個關(guān)鍵字信息分別生成用于與賬票上所填寫的字符串進行對照的多個部分字符串;字符串排列步驟,基于上述字符信息以及上述格線信息,在橫方向上觀看賬票上所填寫的字符串的情況下,分別生成在字符高度重疊的范圍對該字符串進行分割后的組字符串,并且對該生成的各組字符串進行排列;部分字符串對照步驟,分別對照通過上述字符串排列步驟排列的各組字符串和通過上述部分字符串生成步驟生成的各部分字符串,按每個上述關(guān)鍵字信息取得各部分字符串相對于各組字符串的對照率最大時的一致字符數(shù),并使用該取得的各一致字符數(shù)對每個賬票種類計算出評價了是該賬票種類的可能性的評價值;以及賬票種類決定步驟,基于通過上述部分字符串對照步驟對每個賬票種類計算出的各評價值,來決定與填寫了上述字符信息以及上述格線信息的賬票相對的賬票種類。
2. 按照權(quán)利要求l所述的賬票種類識別程序,其特征在于,上述賬票種類決定步驟判定通過上述部分字符串對照步驟對每個 賬票種類計算出的各評價值是否超過了對每個賬票種類所規(guī)定的閾值, 以決定與填寫了上述字符信息以及上述格線信息的賬票相對的賬票種 類。
3. 按照權(quán)利要求l所述的賬票種類識別程序,其特征在于,上述賬票種類決定步驟判定通過上述部分字符串對照步驟對每個 賬票種類計算出的各評價值是否超過了對每個賬票種類所規(guī)定的閾值,在與被判定為超過了該閾值的評價值相對應(yīng)的賬票種類存在多個的情 況下,根據(jù)該評價值的高低將該存在多個的賬票種類排序。
4. 按照權(quán)利要求l所述的賬票種類識別程序,其特征在于,上述賬票種類決定步驟判定通過上述部分字符串對照步驟對每個 賬票種類計算出的各評價值是否超過了對每個賬票種類所規(guī)定的閾值, 在與被判定為超過了該閾值的評價值相對應(yīng)的賬票種類存在多個的情 況下,決定為評價值最高的賬票種類。
5. 按照權(quán)利要求l所述的賬票種類識別程序,其特征在于,上述字符串排列步驟在根據(jù)上述字符信息以及上述格線信息判明 了在上述組字符串內(nèi)存在格線的情況下,用格線來分割該組字符串。
6. 按照權(quán)利要求l所述的賬票種類識別程序,其特征在于,上述賬票種類識別信息存儲步驟進一步在存儲部中存儲對每個上 述關(guān)鍵字規(guī)定了可否使用的使用可否信息,使計算機進一步執(zhí)行關(guān)鍵字選擇步驟,在該關(guān)鍵字選擇步驟中基于 通過上述賬票種類識別信息存儲步驟在存儲部中所存儲的上述使用可 否信息,從該存儲部中所存儲的多個關(guān)鍵字信息之中選擇已被許可使用 的關(guān)鍵字信息,上述部分字符串生成步驟使用通過上述關(guān)鍵字選擇步驟所選擇出 的關(guān)鍵字信息分別生成上述多個部分字符串。
7. 按照權(quán)利要求l所述的賬票種類識別程序,其特征在于,在上述賬票種類決定步驟中,每當(dāng)通過上述部分字符串對照步驟對 每個賬票種類計算出各評價值時,基于該各評價值對該賬票種類的候補 進行縮選,使計算機進一步執(zhí)行關(guān)鍵字信息變更步驟,在該關(guān)鍵字信息變更步 驟中,每當(dāng)通過上述賬票種類決定步驟對賬票種類的候補進行了縮選 時,從通過上述賬票種類識別信息存儲步驟在存儲部中所存儲的上述多 個關(guān)鍵字信息之中,根據(jù)該縮選后的賬票種類的候補來變更關(guān)鍵字信 息,在上述部分字符串生成步驟中,每當(dāng)通過上述關(guān)鍵字信息變更步驟 變更了關(guān)鍵字信息時,使用該變更后的關(guān)鍵字信息分別生成上述多個部分字符串,在上述部分字符串對照步驟中,每當(dāng)通過上述部分字符串生成步驟 生成了上述多個部分字符串時,分別對照通過上述字符串排列步驟所排 列的各組字符串和通過上述部分字符串生成步驟所生成的各部分字符 串,并對每個賬票種類計算出對構(gòu)成各組字符串的字符串與各部分字符 串的 一致度進行了評價的評價值。
8. 按照權(quán)利要求l所述的賬票種類識別程序,其特征在于,在上述賬票種類識別信息存儲步驟中,與各賬票種類對應(yīng)地,按每 個含義相同的組,分別在存儲部中存儲上述多個關(guān)鍵字信息,在上述部分字符串對照步驟中,分別對照通過上述字符串排列步驟 所排列的各組字符串、和通過上述部分字符串生成步驟所生成的各部分 字符串,從上述各組內(nèi)的多個關(guān)鍵字之中分別抽取各部分字符串相對于 各組字符串的對照率最大的關(guān)鍵字,對于該抽取出的各關(guān)鍵字分別取得 一致字符數(shù),并使用該取得的各一致字符數(shù)對每個賬票種類計算出評價 了是該賬票種類的可能性的評價值。
9. 一種賬票種類識別方法,其特征在于,是接受與賬票上所填寫 的字符串有關(guān)的字符信息以及與格線有關(guān)的格線信息的輸入,對填寫了該字符信息以及該格線信息的賬票的賬票種類進行識別的賬票種類識 別方法,包括以下工序賬票種類識別信息存儲工序,與各賬票種類對應(yīng)地分別在存儲部中 存儲成為用于識別賬票種類的關(guān)鍵的多個關(guān)鍵字信息;部分字符串生成工序,使用通過上述賬票種類識別信息存儲工序在 存儲部中所存儲的上述多個關(guān)鍵字信息,按每個關(guān)鍵字信息分別生成用于與賬票上所填寫的字符串進行對照的多個部分字符串;字符串排列工序,基于上述字符信息以及上述格線信息,在橫方向 上觀看賬票上所填寫的字符串的情況下,分別生成在字符高度重疊的范 圍對該字符串進行分割后的組字符串,并且對該生成的各組字符串進行 排列;部分字符串對照工序,分別對照通過上述字符串排列工序排列的各 組字符串和通過上述部分字符串生成工序生成的各部分字符串,按每個上述關(guān)鍵字信息取得各部分字符串相對于各組字符串的對照率最大時的一致字符數(shù),并使用該取得的各一致字符數(shù)對每個賬票種類計算出評價了是該賬票種類的可能性的評價值;以及賬票種類決定工序,基于通過上述部分字符串對照工序?qū)γ總€賬票 種類計算出的各評價值,來決定與填寫了上述字符信息以及上述格線信 息的賬票相對的賬票種類。
10. —種賬票種類識別裝置,其特征在于,是接受與賬票上所填寫的字符串有關(guān)的字符信息以及與格線有關(guān) 的格線信息的輸入,對填寫了該字符信息以及該格線信息的賬票的賬票 種類進行識別的賬票種類識別裝置,包括賬票種類識別信息存儲單元,與各賬票種類對應(yīng)地分別存儲成為用 于識別賬票種類的關(guān)鍵的多個關(guān)鍵字信息;部分字符串生成單元,使用由上述賬票種類識別信息存儲單元所存 儲的上述多個關(guān)鍵字信息,按每個關(guān)鍵字信息分別生成用于與賬票上所 填寫的字符串進行對照的多個部分字符串;字符串排列單元,基于上述字符信息以及上述格線信息,在橫方向 上觀看賬票上所填寫的字符串的情況下,分別生成在字符高度重疊的范 圍對該字符串進行分割后的組字符串,并且對該生成的各組字符串進行 排列;部分字符串對照單元,分別對照由上述字符串排列單元排列的各組 字符串和由上述部分字符串生成單元生成的各部分字符串,按每個上述 關(guān)鍵字信息取得各部分字符串相對于各組字符串的對照率最大時的一 致字符數(shù),并使用該取得的各一致字符數(shù)對每個賬票種類計算出評價了 是該賬票種類的可能性的評價值;以及賬票種類決定單元,基于通過上述部分字符串對照單元對每個賬票 種類計算出的各評價值,來決定與填寫了上述字符信息以及上述格線信 息的賬票相對的賬票種類。
全文摘要
一種賬票種類識別裝置,與各賬票種類對應(yīng)地預(yù)先保持存儲了成為用于識別賬票種類的關(guān)鍵的多個關(guān)鍵字的賬票種類識別信息DB,對賬票上所填寫的字符串進行排列,使用賬票種類識別信息DB中所存儲的多個關(guān)鍵字,對每個關(guān)鍵字分別生成用于與賬票上所填寫的字符串進行對照的多個部分字符串,分別對照排列后的各組字符串和所生成的各部分字符串,對于對照成功了的各部分字符串,在對每個關(guān)鍵字取得各部分字符串相對于各組字符串的對照率最大時的正確解字符數(shù)以后,使用各正確解字符數(shù)對每個賬票種類計算出評價了是該賬票種類的可能性的評價值以決定賬票種類。
文檔編號G06K9/72GK101622632SQ20078005206
公開日2010年1月6日 申請日期2007年3月8日 優(yōu)先權(quán)日2007年3月8日
發(fā)明者武部浩明, 皆川明洋, 藤本克仁 申請人:富士通株式會社