專利名稱:文檔圖像處理裝置和文檔圖像處理方法
技術(shù)領(lǐng)域:
本發(fā)明涉及將文檔作為圖像來輸入并存儲的文檔圖像處理裝置和文 檔圖像處理方法,特別是涉及具有對于所存儲的文檔的檢索功能的文檔圖 像處理裝置和文檔圖《象處理方法。
背景技術(shù):
一種利用圖^43描儀等圖#^^置將文檔轉(zhuǎn)換成圖像,并以電子方
式進行存儲,且在之后可以檢索的文檔歸檔裝置已得到實用化。關(guān)于這樣
的文檔歸檔裝置的技術(shù)已公開在中國公開專利公報CN1402854A、中國公 開專利公報CN1535430A以及中國公開專利公報CN1851713A中。
在對于作為圖像數(shù)據(jù)而讀取的文檔圖^^行檢索時,需要進行對各文 檔圖像人工附加用于檢索的索引信息的作業(yè),因而非常消耗勞力。
另外,還提出了一種定位文檔圖像的文字區(qū)域(文本區(qū)域),進行 OCR (Optical Character Reader)識別,并可利用文本內(nèi)容進行全文檢索 的裝置。作為利用了 OCR識別的以往技術(shù),例如有日本專利特開平 7-152774號^>報所述的技術(shù)。
然而,在OCR識別中存在著需要進行大量的計算而消耗時間的問題。 并且,由于文字識別率不高,所以還存在著因誤識別而檢索不到的可能性, 在檢索精度上存在問題。
另 一方面,在日本專利特開平10-74250號公報中,公開了 一種不使用 OCR識別,而可自動進行全文檢索的技術(shù)。
上述公報的構(gòu)成中,準(zhǔn)備好將預(yù)先利用圖像特征對文字進行類似的每 一個文字分類到類似文字類別中的類別字典。然后,在登記文檔圖4象時, 對文本區(qū)域(文字區(qū)域)的各文字不進行文字識別,而抽出圖4象特征,并 根據(jù)圖像特征分類到文字類別中,將對按照每一個文字識別出來的類別列 與輸入圖像一同儲存。在進行檢索時,將檢索關(guān)鍵詞的各文字轉(zhuǎn)換為對應(yīng) 的類別,且將在一部分中包含被轉(zhuǎn)換的類別列的文檔圖像作為檢索結(jié)果取
而且,作為基于該構(gòu)成的效果,記載了可提供一種在文檔登記時能夠 以少的計算機能力高速地進行登記處理,并且在檢索時可實現(xiàn)遺漏少的檢 索的文檔歸檔裝置。
例如,在基于日本專利特開平10-74250號公報的技術(shù),來制作用于進 行檢索的索引信息時,對于構(gòu)成標(biāo)題的各文字,將圖像特征近似的文字, 按照類似度的順序,作為候補文字記載在索引信息中。
在將檢索關(guān)鍵詞與索引信息進行比較時,主要利用索引信息所具有的 類似度。
由于類似度只不過是針對各文字分別獨立設(shè)定的參數(shù),標(biāo)題語的作為 慣用語的特征未反映在索引信息中,所以在檢索精度上還不夠充分。
發(fā)明內(nèi)容
本發(fā)明的目的是,通過改進索引信息,而提供一種檢索精度更高的文 檔圖像處理裝置、文檔圖像處理方法。
本發(fā)明提供一種文檔圖像處理裝置,其特征在于,具有 字形特征字典,其以單個文字為單位儲存有文字圖像的圖像特征;
文字列抽出部,其以由兩個或兩個以上文字構(gòu)成的文字列為單位,抽 取出所輸入的文檔圖像中存在的文字圖像;
圖《象特;^出部,其將由上述文字列抽出部抽取出的文字列的文字圖 像以1個文字為單位進行分割,并抽出各文字圖像的圖像特征;
特征匹配部,其以由上述圖像特征抽出部抽出的文字圖像的圖像特征 為基礎(chǔ),從上述字形特征字典中,按照圖像特征的匹配度從高到低的順序 選擇N個(N>1的整數(shù))文字圖像作為候補文字,在將上述文字列的文字 數(shù)設(shè)為M個(MH的整數(shù))時,制作MxN維的第1索引矩陣,并且對于 由構(gòu)成該第1索引矩陣的第1列的兩個或兩個以上候補文字構(gòu)成的候補文 字列,適用基于預(yù)定的語言模型的詞匯解析,而制作出調(diào)整成有意義的文 字列的第2索引矩陣;
索引信息儲存部,其將由上述特征匹配部制作的第2索引矩陣與上述 所輸入的文檔圖傳湘對應(yīng)地進行儲存;
檢索部,其在檢索時,以所輸入的檢索式中的構(gòu)成檢索關(guān)鍵詞的l個 檢索文字為單位,檢索上述索引信息儲存部,而取出具有包含檢索文字的 第2索引矩陣的文檔圖像。
根據(jù)本發(fā)明,圖像特征抽出部將由文字列抽出部定位并抽取出的文檔 圖像中的文字列的圖像以1個文字為單位進行分割,并抽出各文字圖像的 圖像特征。然后,特征匹配部基于該圖像特征,從以單個文字為單位儲存 有文字圖像的圖像特征的字形特征字典中,按照圖像特征的匹配度從高到 低的順序選擇N個(N>1的整數(shù))文字圖像作為候補文字,并制作抽取出 的文字?jǐn)?shù)為MxN維的第1索引矩陣。
并且,對于由構(gòu)成該第1索引矩陣的第1列的兩個或兩個以上候補文 字構(gòu)成的候補文字列,通過適用基于預(yù)定的語言模型的詞匯解析,而制作 出將候補文字列調(diào)整成有意義的文字列的第2索引矩陣。
制作的第2索引矩陣,與所輸入的文檔圖^f目對應(yīng)地被儲存在索引信 息儲存部中,在檢索時,該索引矩陣被用作用于檢索文檔圖像的索引信息。
由此,無須用戶的人工操作,而且也無須使用OCR識別,即可自動 地定位文檔圖像的文字區(qū)域中存在的文字列,利用定位的文字列的圖像特 征來生成文檔圖4象的索引信息。
而且,由于抽出各文字圖像的圖像特征,并選擇兩個或兩個以上圖像 特征近似的候補文字,所以通過適當(dāng)?shù)卦O(shè)定選擇的候補文字?jǐn)?shù)量,不會像 OCR識別那樣在文字識別中花費時間,可無識別遺漏地進行正確的檢索。
并且,由于在檢索關(guān)鍵詞中輸入有意義的文字列,所以通過使第2索 引矩陣的候補文字列成為有意義的文字列,可進一步提高檢索精度。
另外,由于字形特征字典將全部單個文字的文字圖像的圖像特征作為 單位來制作,特征匹配部將抽取出的文字列的圖像分割成單個文字的文字 圖像,來進行圖像特征的匹配,所以,所生成的索引矩陣的精度高。
在檢索時,檢索部以所輸入的檢索式中的構(gòu)成檢索關(guān)鍵詞的l個檢索 文字為單位,檢索索引信息儲存部,并取出具有包含檢索文字的索引矩陣
的文檔圖像。
這樣,通過以構(gòu)成檢索關(guān)鍵詞的檢索文字為單位分析索引矩陣,并檢 索出包含檢索關(guān)鍵詞的索引矩陣,可保證基于單個文字檢索的全面檢索。
另外,根據(jù)本發(fā)明,上述特征匹配部,使用雙字母組模型或多字母組 模型來作為語言模型。
另外,根據(jù)本發(fā)明,上述特征匹配部,基于詞匯解析,將上述第l索 引矩陣的第l列的候補文字與同一行的其它候補文字進行替換,從而調(diào)整 成有意義的候補文字列。
由此,能夠以與第1索引矩陣的匹配度相同的匹配度來調(diào)^^矣補文字列。
并且,本發(fā)明的文檔圖像處理裝置的特征在于,也可以使上述文字列 抽出部抽取出上述所輸入的文檔圖像中的標(biāo)題區(qū)域。
根據(jù)上述的構(gòu)成,由于上iiiL字列抽出部抽取出文檔圖像中的標(biāo)題區(qū) 域,所以針對文檔圖像的標(biāo)題制作索引矩陣。
從而,與以文檔圖像的整個文本區(qū)域為對象制作索引矩陣的情況相 比,可減少針對l個文檔圖像制作的索引矩陣的數(shù)量,能夠以標(biāo)題為對象 進行文檔圖像的檢索,從而能夠?qū)崿F(xiàn)高效率的關(guān)鍵詞檢索。
并且,本發(fā)明的文檔圖像處理裝置,還具有如下特征,即上述文字 列抽出部利用投影法和連通區(qū)域統(tǒng)計分析法來抽取出文檔圖像中的重要 區(qū)域。
由此,能夠容易實現(xiàn)上述文字列抽出部對文檔圖像中的標(biāo)題區(qū)域的抽取。
并且,本發(fā)明的文檔圖像處理裝置,還具有如下特征,即上述圖像 特征抽出部利用網(wǎng)格方向特征和文字圖像夕卜圍特征的組合,來抽出文字圖 像的圖像特征。
由此,.可高效率地抽出基于不同字形的圖像特征。
并且,本發(fā)明的文檔圖像處理裝置,還具有如下特征,即上述特征
匹配部將所抽出的文字圖像的圖像特征與在上述字形特征字典中儲存的
全部文字圖傳ii行匹配,并選^^候補文字。
由此,可按照最正確的順序選#^候補文字,并制作索引矩陣。
并且,本發(fā)明的文檔圖像處理裝置,還具有如下特征,即上述特征 匹配部選擇的候補文字?jǐn)?shù)N是可變更的。
通過4吏候補文字?jǐn)?shù)N設(shè)為可變更的,可制作與用戶的要求相應(yīng)的索引 矩陣。例如,通過減少候補文字?jǐn)?shù)N,使索引矩陣的維數(shù)減少,可縮短檢 索時間,提高檢索精度和查準(zhǔn)率。反之,通過增加候補文字?jǐn)?shù)N,使索引 矩陣的維數(shù)增大,可減少檢索遺漏,提高查全率。
并且,本發(fā)明的文檔圖像處理裝置,還具有如下特征,即上述檢索 部,從具有構(gòu)成檢索關(guān)鍵詞的各檢索文字在索引矩陣內(nèi)的匹配位置高的索 引矩陣的文檔圖像中,按順序進行取出。
根據(jù)上述的專利文獻2的構(gòu)成,由于是將檢索關(guān)鍵詞轉(zhuǎn)換成代表文字 代碼列的檢索,所以不能進行具體到類似文字類別中的位置的分析。因此, 屬于同一類似文字類別內(nèi)的各文字,無論是相似度高的文字還是低的都成 為相同的關(guān)聯(lián)程度,不能從關(guān)聯(lián)性高的文檔圖像按順序正確地進行提示。
然而,根據(jù)上述構(gòu)成,由于從具有構(gòu)成檢索關(guān)鍵詞的各檢索文字在索 引矩陣內(nèi)的匹配位置高的索引矩陣的文檔圖像中,按順序進行取出,所以 能夠從關(guān)聯(lián)性高的文檔圖像按順序提示檢索結(jié)果。
并且,本發(fā)明的文檔圖像處理裝置,也可以具有如下特征,即對上 述索引矩陣的M素,設(shè)定有與位置相應(yīng)的相關(guān)值,而且,上逸險索部具 有索引矩陣檢索處理部,其以構(gòu)成檢索關(guān)鍵詞的l個檢索文字為單位檢 索索引矩陣,而檢索出包含檢索文字的索引矩陣,并將該索引矩陣內(nèi)的檢 索文字的匹配位置的信息,與具有索引矩陣的文檔圖像的信息一同儲存在 保存部中;相關(guān)度計算部,其根據(jù)在上述保存部中儲存的匹配位置的信息, 累計各檢索文字的相關(guān)值,并計算出檢索關(guān)鍵詞與索引矩陣的相關(guān)度;順 序決定部,其基于上i^目關(guān)度計算部的計算結(jié)果,來決定文檔圖像的取出 順序。
根據(jù)上述構(gòu)成,對上述索引矩陣的M素,設(shè)定有與位置相應(yīng)的相關(guān)
值。該相關(guān)值是檢索文字與索引矩陣內(nèi)的候補文字之間的相關(guān)值,其由特 征匹配部按照選擇的候補文字的順序來設(shè)定,通常是列編號越小的要素設(shè) 定為越大的值。
檢索部的索引矩陣檢索處理部,以構(gòu)成檢索關(guān)鍵詞的1個檢索文字為 單位檢索索引矩陣,而檢索出包^、檢索文字的索引矩陣,并將該索引矩陣 內(nèi)的檢索文字的匹配位置的信息,與具有索引矩陣的文檔圖4象的信息一同 保存在保存部中。
然后,檢索部的相關(guān)度計算部利用在該保存部中儲存的匹配位置的信 息,累計各檢索文字的相關(guān)值,并計算出檢索關(guān)鍵詞與索引矩陣之間的相 關(guān)度,順序決定部^目關(guān)度高的文檔圖像按順序取出文檔圖像。
由此,能夠從具有構(gòu)成檢索關(guān)鍵詞的各檢索文字在索引矩陣內(nèi)的匹配 位置高的索引矩陣的文檔圖像中,按順序進行取出,從而可簡單地實現(xiàn)從 關(guān)聯(lián)性高的文檔圖4象按順序提示檢索結(jié)果的動作。
并且,還具有如下特征,上勤目關(guān)度計算部在由上述匹配位置的信息 而判斷為與索引矩陣中的相鄰的行相匹配時,對相鄰的各行的相關(guān)值,在 利用相關(guān)度加權(quán)因數(shù)進行了加權(quán)的^ftfe上進行累計。
由此,上述相關(guān)度計算部在判斷為與索引矩陣中的相鄰的行相匹配 時,對于對應(yīng)的行的相關(guān)值,利用行的相關(guān)度加權(quán)因數(shù)進行加權(quán)。即,在 以文字單位進行檢索時,連續(xù)地包含有檢索關(guān)鍵詞的各檢索文字的情況 下,具有該索引矩陣的文檔圖像的檢索結(jié)果具有更高的相關(guān)度。由此可通 過簡單的計算實施有效的檢索。
在本發(fā)明的文檔圖像處理裝置中,還具有如下特征,即上述索引矩 陣的M素設(shè)定的相關(guān)值是可變更的。
通過將相關(guān)值設(shè)為可變更,可實現(xiàn)與用戶要4M目應(yīng)的檢索。例如,即 4吏候補文字?jǐn)?shù)N相同,也可以通過使與N個候補文字的列編號相應(yīng)的相關(guān) 值,以在第A個之前設(shè)定為高且之后為低的方式進行變化,使檢索結(jié)果發(fā) 生變化,因此可相應(yīng)于用戶的要求采取靈活的對策。
在本發(fā)明的文檔圖像處理裝置,還具有如下的特征,即上述行的相 關(guān)^a權(quán)因lbi可變更的。
通過使行的相關(guān)度加權(quán)因數(shù)設(shè)為可變更,可實現(xiàn)與用戶的要求相應(yīng)的 檢索。例如,通過增大行的相關(guān)度加權(quán)因數(shù),使對于計算出的相關(guān)度的貢
獻度而言,連續(xù)匹配的2行的相關(guān)值中增大,接近以詞匯作為l個單位進 行檢索的結(jié)果。反之,通過減小行的相關(guān)度加權(quán)因數(shù),使其接近以字為1 個單位進行檢索的結(jié)果。由此,可采取靈活的對策,以便實現(xiàn)與用戶的要 求相應(yīng)的檢索。
并且,在本發(fā)明的文檔圖像處理裝置中,還具有如下特征,即具有 使用上述圖像特征抽出部來制作上述字形特征字典的字形特征字典生成部。
由此,由于字形特征字典生成部兼用圖4象特征抽出部,來制作字形特 征字典,所以用戶可筒單地針對不同的字體、字號、字形,來抽出字形的 特征,并制作字形特征字典。另外,不僅針對字體等,還針對不同語種的 文字,也可以針對各字體、字號、字形來筒單地制作字形特征字典。
另外,本發(fā)明提供一種文檔圖像處理方法,其特征在于,具有
文字列抽出步驟,以由兩個或兩個以上文字構(gòu)成的文字列為單位,抽 出所輸入的文檔圖像中存在的文字圖像;
圖像特征抽出步驟,將在上述文字列抽出步驟中抽出的文字列的文字 圖像以l個文字為單位進行分割,并抽出各文字圖像的圖像特征;
特征匹配步驟,以在上述圖像特征抽出步驟中抽出的文字圖像的圖像 特征為基礎(chǔ),從以單個文字為單位儲存有文字圖像的圖像特征的字形特征 字典中,按照圖像特征的匹配度從高到低的順序選擇N個(]\>1的整數(shù)) 文字圖像作為候補文字,并且在將上述文字列的文字?jǐn)?shù)設(shè)為M個(M>1 的整數(shù))時,制作MxN維的索引矩陣,并且對于由構(gòu)成該第1索引矩陣 的第l列的兩個或兩個以上4矣補文字構(gòu)成的候補文字列,適用基于預(yù)定的 語言模型的詞匯解析,而制作出調(diào)整成有意義的文字列的第2索引矩陣;
索引信息儲存步驟,將在上述特征匹配步驟中制作的第2索引矩陣, 與上述所輸入的文檔圖像相對應(yīng)地進行儲存;
檢索步驟,在檢索時,以所輸入的檢索式中的構(gòu)成檢索關(guān)鍵詞的l個 檢索文字為單位,檢索在上述索引信息儲存步驟中儲存的索引信息,并取 出具有包含檢索文字的第2索引矩陣的文檔圖像。
根據(jù)本發(fā)明,在圖像特征抽出步驟中,將在文字列抽出步驟中定位并 抽出的文檔圖像中的文字列的圖像以l個文字為單位進行分割,并抽出各 文字圖像的圖像特征。然后,在特征匹配步驟中,基于該圖像特征,從以 單個文字為單位儲存有文字圖像的圖像特征的字形特征字典中,按照圖像 特征的匹配度從高到低的順序選擇N個(N>1的整數(shù))文字圖像作為候補 文字,而制作抽取出的文字?jǐn)?shù)為MxN維的第l索引矩陣。
并且,對于由構(gòu)成該第1索引矩陣的第1列的兩個或兩個以上4矣補文 字構(gòu)成的候補文字列,適用基于預(yù)定的語言模型的詞匯解析,而制作出調(diào) 整成有意義的文字列的第2索引矩陣。
所制作的第2索引矩陣,在索引信息儲存步驟中,與所輸入的文檔圖 #4目對應(yīng)地#:儲存,在檢索時,該索引矩陣用作用于檢索文檔圖4象的索引 信息。
由此,無須用戶的人工^Mt,也無須^"吏用OCR識別,即可自動地定 位文檔圖像的文字區(qū)域中的文字列,利用定位的文字列的圖像特征來生成 文檔圖像的索引信息。
而且,由于抽出各文字圖像的圖像特征,并選擇兩個或兩個以上圖像 特征近似的候補文字,所以通過適當(dāng)?shù)卦O(shè)定所選擇的候補文字?jǐn)?shù),不會像 OCR識別那樣在文字識別時花費時間,可無識別遺漏地進行正確的檢索。
并且,由于在檢索關(guān)鍵詞中輸入有意義的文字列,所以通過使第2索 引矩陣的候補文字列成為有意義的文字列,可進一步提高檢索精度。
另外,由于字形特征字典是以全部單個文字的文字圖像的圖像特征為 單位進行制作的,且在特征匹配步驟中,將抽取出的文字列的圖4象分割成 單個文字的文字圖4象,來進行圖像特征的匹配,所以,所生成的索引矩陣 的精度高。
在檢索步驟中,以所輸入的檢索式中的構(gòu)成檢索關(guān)鍵詞的1個檢索文 字為單位,檢索上述索引信息儲存部,并取出具有包含檢索文字的索引矩 陣的文檔圖像。
這樣,通過以構(gòu)成檢索關(guān)鍵詞的檢索文字為單位分析索引矩陣,并檢
索出包含檢索關(guān)鍵詞的索引矩陣,可保證基于單個文字檢索的全面檢索。
本發(fā)明的目的、特點及優(yōu)點,可通過以下的詳細說明和附圖而變得更 明確。
圖1是筒要表示文檔圖像處理裝置10的構(gòu)成的方框圖。
圖2是詳細表示文檔圖像處理裝置10的構(gòu)成的方框圖。
圖3是表示字體正規(guī)化處理部12制作字形樣本DB13的處理的圖。
圖4是文字圖像外圍特征的說明圖。
圖5是網(wǎng)格方向特征的說明圖。
圖6是表示由文字圖像特征柚出部14制作字形特征字典15的處理的圖。
圖7是表示對于文檔圖像50,將T1、 T2、 T3這3個區(qū)域作為標(biāo)題區(qū) 域進行了定位的狀態(tài)的圖。
圖8^1表示制作索引信息DB17的處理的圖。
圖9是_表示由特征匹配部16制作索引矩陣的處理的一例的圖。
圖io a示使用詞匯解析法對制作的索引矩陣進g整,而使第1
列的文字列成為有意義的文字列的具體例的i兌明圖。
圖11是表示在雙字母組模型中使用的字典數(shù)據(jù)300的構(gòu)成例的圖。
圖12是表示使用了雙字母組模型的索引矩陣的調(diào)整方法的流程圖。
圖13是表示檢索部22的功能和檢索處理的說明圖。
圖14是表示檢索部22中的檢索步驟的流程圖。
圖15是表示計算出檢索關(guān)鍵詞與索引矩陣的相關(guān)度的方法的說明圖。
圖16是使用具體例來表示檢索關(guān)鍵詞與索引矩陣的相關(guān)度的計算的
說明圖。
圖17是表示具備詞匯解析功能的檢索處理的^兌明圖。 圖18是表示文檔圖〗象管理部中的處理的說明圖。 圖19表示文檔圖像顯示部53中顯示的被儲存在文檔圖像DB19中的 文檔圖〗象的閱覽畫面的一例。
圖20是表示使用了多字母組模型的索引矩陣的調(diào)整方法的流程圖。
具體實施例方式
下面,參照附圖,對本發(fā)明的優(yōu)選實施方式進行詳細說明。
圖1是簡要表示文檔圖像處理裝置10的構(gòu)成的方框圖。文檔圖像處理 裝置10包括處理器4、和儲存用于使處理器4進行實際處理的軟件等的外 部存儲裝置5。
處理器4在實際中進行從文檔圖像中抽出進行檢索所需要的標(biāo)題區(qū)
域的文檔圖像特;N^出處理;生成能夠進行對于文檔圖像的檢索的索引信 息的索引信息生成處理;使用了索引信息的檢索處理;使用索引信息來制 作后述的有意義的文檔名,并管理文檔圖像的文檔圖像管理處理等。
處理器4中的實際的處理,根據(jù)在外部存儲裝置5中儲存的軟件來執(zhí)
行。處理器4例如由通常的計算機主體等來構(gòu)成。在本實施方式中,處理 器4還執(zhí)行制作在索引信息生成處理中使用的后述的字形特征字典15的字 形特征字典制作處理。
外部存儲裝置5,例如可由能夠進行高速訪問的硬盤等來構(gòu)成。為了 大量M文檔圖像,外部存儲裝置5也可以是使用光盤等的大容量i殳備的 構(gòu)成。后述的字形特征字典15、索引信息DB(數(shù)據(jù)庫)17、文檔圖像Dm9、 字形樣本DB13等由外部存儲裝置5構(gòu)成。
文檔圖像處理裝置10與g 1連接,且與顯示裝置3連接。M 1 用于輸入檢索關(guān)鍵詞。另外,鍵盤l還用于在閱覽文檔圖像時輸入指示。 并且,鍵盤1還用于進行后述的候補文字?jǐn)?shù)、相關(guān)值、以及行的相關(guān)度加 權(quán)因數(shù)Q等的設(shè)定值的變更。顯示裝置3輸出并顯示文檔圖像等。在顯示 裝置3中顯示的內(nèi)容中還包含相關(guān)度的信息、以及圖像名稱等信息。
文檔圖像處理裝置10還與圖像掃描儀2或數(shù)碼相機6連接。圖像掃描 儀2和數(shù)碼相機6用于取得文檔圖像。文檔圖像的取得不限于通過圖像掃 描儀2和數(shù)碼相機6,也可以通過進行利用網(wǎng)絡(luò)等的通信來取得。另外, 也可以進行使用了圖像掃描儀2或數(shù)碼相機6的檢索關(guān)鍵詞的輸入。
圖2是詳細表示文檔圖像處理裝置10的構(gòu)成的方框圖。文檔圖4象處理 裝置10包括文字?jǐn)?shù)據(jù)庫輸入部(文字DB輸入部)11、文字正規(guī)化處理 部12、字形樣本DB13、文字圖像特征抽出部(圖像特征抽出部)14、字
形特征字典15、特征匹配部16、索引信息DB17、標(biāo)題區(qū)域初始處理部18、 文檔圖像DB19、文檔圖像特征數(shù)據(jù)庫(文檔圖像特征DB) 20、文檔圖像 輸入部21、檢索部22、詞匯解析部23、關(guān)鍵詞輸入部24、檢索結(jié)果顯示 部25、文檔名制作部51、文檔圖像DB管理部52、文檔圖像顯示部53、 指示輸入部54。
其中,由文字DB輸入部ll、字體正規(guī)化處理部12、字形樣本DB13、 文字圖《象特征抽出部14、字形特征字典15構(gòu)成實施上述的字形特征字典 制作處理的字形特征字典生成部30。
首先,對構(gòu)成字形特征字典生成部30的文字DB輸入部11、字體正 規(guī)化處理部12、字形樣本DM3、文字圖像特征抽出部14、字形特征字典 15進行說明。
文字DB輸入部11用于輸^入為制作字形特征字典15所需的成為M 的文字?jǐn)?shù)據(jù)庫。如果本裝置是例如中文對應(yīng)的裝置,則輸入中華人民共和 國GB2312的全部6763個文字等。另外,如果本裝置是日語對應(yīng)的裝置, 則輸入JIS第l標(biāo)準(zhǔn)的約3, 000個字種等。即,這里所說的文字中包含符 號。這樣的文字DB輸入部11由處理器4構(gòu)成,且文字?jǐn)?shù)據(jù)庫由記錄:^體、 或通過利用了網(wǎng)絡(luò)的數(shù)據(jù)通信等來供給。
字體正規(guī)/化處理部12用于對由文字DB輸入部11輸入的文字lt據(jù)庫 中所包含的4^P文字,制作不同字體和字號的文字圖像。不同字體和字號 的文字圖像被儲存在字形樣本DB13中。
圖3是表示字體正規(guī)化處理部12制作字形樣本DB13的處理的圖。在 字體正規(guī)化處理部12中,如果本裝置是中文對應(yīng)的裝置,則具備例如宋體、 仿宋體、黑體、楷體等字形樣本12a。另外,如果本裝置是日語對應(yīng)的裝 置,則具備明朝體、Go仇ic體…等字形樣本。
字體正規(guī)化處理部12中的變形處理部12b,對文字?jǐn)?shù)據(jù)庫的文字進行 圖傳>化,并對文字圖傳進行標(biāo)準(zhǔn)化處理。然后,變形處理部12b參照字形 樣本12a,對標(biāo)準(zhǔn)化處理后的文字圖像實施變形處理,并進一步改變?yōu)椴?同字體和大小的文字圖〗象。變形處理中,包括例如^^糊化處理、擴h縮小 化處理、細^t化處理等。字體基準(zhǔn)部12c將這樣變形處理后的文字圖像作 為基準(zhǔn)文字圖像儲存到字形樣本DB13中。
在字形樣本DB13中,針對文字?jǐn)?shù)據(jù)庫的所有文字,即使是相同的文 字,也儲存有對應(yīng)每個由字體、大小決定的字形的基準(zhǔn)文字圖像。如果舉 例說明,則,即使文字種類都是"中",也存在似目當(dāng)于所決定的字體的數(shù) 量的不同形狀的基準(zhǔn)文字圖像的"中",另外,還儲存有似目當(dāng)于所決定的 大小的數(shù)量的不同大小的基準(zhǔn)文字圖像的"中"。
文字圖像特征抽出部14是抽出文字圖像的特征(圖像特征),并儲存 到字形特征字典15中的部分。在本實施方式中,文字圖像特征抽出部14 根據(jù)文字圖像夕卜圍特征與網(wǎng)格方向的組合,來抽出文字圖像的特征,并設(shè) 為特征矢量。另外,文字圖像的特征不限于這些,也可以抽出其他特征來 形成特征矢量。
這里,預(yù)先對文字圖像夕卜圍特征和網(wǎng)格方向特征進行說明。圖4是文 字圖像外圍特征的說明圖。所謂文字圖像外圍特征是指從文字圖像的外部 觀察的輪廓的特征。如圖4所示,從文字圖像的外接矩形的4邊進行掃描, 并將從白像素變化為黑像素時的點為止的距離作為特征,取出最初變化的 位置和第二次變化的位置。
例如,在將外接矩形分割成X行Y列的場合下,以行為單位分別從左 方向和右方向掃描圖^f象,以列為單位分別從上方向和下方向掃描圖4象。另 外,圖4是表示以行為單位從左進行掃描的圖。
另外,在圖4中,用實線箭頭A表示最初從白像素變化為黑像素時的 點為止的掃描軌跡。虛線箭頭B表示第二次從白像素變化為黑像素時的點 為止的掃描軌跡。實線箭頭C表示最終也未能檢測到從白像素變化為黑像 素的點的情況下的掃描軌跡,在這種沒有變化點的場合下,距離值為0。
圖5是網(wǎng)格方向特征的說明圖。將文字圖像分割成粗網(wǎng)格,對各格子 區(qū)域內(nèi)的黑4象素,向預(yù)先確定的兩個或兩個以上方向延伸觸手。然后,對 在各方向上連接的黑像素的像素數(shù)進行計數(shù),并將表示該黑像素按各方向 成分的分布狀況的方向影響度,作為識別函數(shù)采用歐幾里得距離,并利用 與黑像素數(shù)之差相應(yīng)的值,對距離值進行除法運算,而計算出距離值。
在圖5(a)中,將文字圖像分割成4x4共16個格子,且以在X軸方 向上最接近于格子交點的從黑像素變化為白像素的點為中心,向X軸方向 (0° )、 45°方向、Y軸方向(卯° )的3個方向延伸觸手。
在本實施例中,將文字圖像分割成8x8的4角的網(wǎng)格,并如圖5(b) 所示,向0° 、 45° 、卯° 、 135。 、 180° 、 225° 、 270° 、 315°這8個 方向延伸觸手。
另外,作為網(wǎng)格方向的特征的抽出方法,有設(shè)置觸手的延伸方向、延 伸觸手的中心點的方法等各種方法,例如記載在日本專利特開2000-181994 號公報等中。
文字圖像特征抽出部14,對儲存在文字形狀樣本DB13中的所有的基 準(zhǔn)文字圖像進行這樣的文字圖像的特征的抽出。然后,文字圖像特征抽出 部14將儲存在字形樣本DB13中的基準(zhǔn)文字圖像的抽出結(jié)果儲存到字形特 征字典15中,而生成字形特征字典15。
圖6是表示制作基于文字圖像特征抽出部14的字形特征字典15的處 理的圖。文字圖像特征抽出部14中的字形標(biāo)準(zhǔn)化部14a從字形樣本DB13 中取出基準(zhǔn)文字圖像,文字圖像特;WL出部14b從由字形標(biāo)準(zhǔn)化部14a取 出的基準(zhǔn)文字圖像中取出其特征。然后,特征分類部14c參照字形樣本 DB13,對從按每個基準(zhǔn)文字圖像抽出的特征進行分類,并儲存到字形特征 字典15中。
在文字圖像特征取出部14b中,如上述那樣,^個單個文字,求出 基于帶加權(quán)的不同基準(zhǔn)文字圖像的特征的適應(yīng)值,并取得基準(zhǔn)文字圖像的 標(biāo)準(zhǔn)特征。
文字圖像特^出部14b通it^不同字體字號進行加權(quán),可制作不同 的字形特征字典。通過融合多字體的圖像特征,且以單個文字圖像特征為 單位來制作字形特征字典,可滿足多字體/字號文檔圖像的自動檢索和管 理。
下面,說明構(gòu)成實施文檔圖像特征抽出處理的文檔圖像特4i^出部31 的文檔圖像DB19、文檔圖像特征DB20、標(biāo)題區(qū)域初始處理部18、文字 圖像特征抽出部14。
文檔圖像DB19是在由文檔圖^%入部21輸入文檔圖像時,對其附加 用于識別的文檔ID并進行M的數(shù)據(jù)庫。
標(biāo)題區(qū)域初始處理部18是在文檔圖像DB19中絲了新的文檔圖像
時,根據(jù)其圖像數(shù)據(jù)來定位并抽出文檔圖像中的標(biāo)題區(qū)域,然后將文字圖
像送到上述的文字圖像特征抽出部14的。
圖7表示對文檔圖像50以T1、 T2、 T3這3個區(qū)域定位為標(biāo)題區(qū)域的 狀態(tài)。根據(jù)該圖7也可以看出,將文檔圖像50中的標(biāo)題部分作為標(biāo)題區(qū)域 T抽出。
由標(biāo)題區(qū)域初始處理部18抽出并送到文字圖像特征抽出部14的文字 圖像,通常是包含兩個或兩個以上文字的文字列的圖像。從而,在以下的 說明中,將由標(biāo)題區(qū)域初始處理部18送來的文字圖像設(shè)為文字列的圖像。
在本實施方式中,標(biāo)題區(qū)域初始處理部18利用投影法和連通區(qū)域統(tǒng)計 分析來進行標(biāo)題區(qū)域T的定位和抽出。另夕卜,這樣的標(biāo)題區(qū)域T主要相當(dāng) 于標(biāo)題部分,例如可以采用在日本專利特開平9-319747號公報、日本專利 特開平8-153110等所記栽的方法等各種以往的方法。
由于不是將文檔圖像的全部文字區(qū)域(文本區(qū)域)作為對象,而是如 上所述僅將標(biāo)題區(qū)域T定位并抽出,所以可減少成為檢索對象的信息量, 并縮短檢索時間。
其中,不是對4^5的文本區(qū)域進行定位而^t標(biāo)題區(qū)域T進行定位的 事項,對于檢索而言并不是必須的構(gòu)成要素,也可以對全文的文本區(qū)域進 行定位并抽出。但是,對于后述的有意義的文檔名的制作而言,M標(biāo)題 區(qū)域T進行定位是必須的構(gòu)成要素。
文字圖像特征抽出部14,對于從標(biāo)題區(qū)域初始處理部18輸入的文字 列的圖像,分割成單個文字的文字圖像,然后與字形特征字典15的制作時 同樣,抽出各文字圖像的特征。然后,將抽出的特征,在文檔圖像特征DB20 中M個文檔圖^ii行儲存。
在文檔圖像特征DB20中,由標(biāo)題區(qū)域初始處理部18抽出的標(biāo)題區(qū)域 T中所包含的文字列的圖像的特征信息,作為構(gòu)成文字列的各文字的各自 的特征(特征矢量)而被儲存。
如圖7所示,對于1個文檔圖像50,將在所抽出的全部標(biāo)題區(qū)域T1、 T2、 T3…中所包含的文字列的文字圖像的特征,即構(gòu)成文字列的各文字的 文字圖像的特征,與文檔圖像50的文檔ID—同儲存。
下面,說明構(gòu)成實施索引信息制作處理的索引信息生成部32的文字圖 像特征抽出部14、字形特征字典15、特征匹配部16、索引信息DB17、文 檔圖像特征DB20。
文字圖像特征抽出部14、字形特征字典15、文檔圖像特征DB20的功 能,與上述的說明相同。
特征匹配部16是從文檔圖像特征DB20中讀出在文檔圖像的標(biāo)題區(qū)域 T中所包含的文字圖像的特征,基于該讀出的特征,參照字形特征字典15, 如后述那樣制作索引矩陣,并生成文檔圖# 的索引信息的部分。
這里,對應(yīng)l個文檔圖像生成l個索引信息,并按每個標(biāo)題區(qū)域T制 作索引信息中所包含的索引矩陣。從而,在l個文檔圖像內(nèi)存在兩個或兩 個以上標(biāo)題區(qū)域T的場合下,在該文檔圖像的索引信息中包含兩個或兩個 以上索引矩陣。
圖8表示制作索引信息DB17的處理。如上所述,當(dāng)某個文檔圖像被 輸入并被儲存到文檔圖像DB19中時,文字圖像特,出部14b抽出在各 標(biāo)題區(qū)域T中所包含的文字列的文字圖像的特征,并儲存到文檔圖像特征 DB20中。
特征匹配部16從文檔圖像特征DB20中讀出各標(biāo)題區(qū)域T中所包含 的文字列的圖像的特征,且按每個單個文字與字形特征字典15內(nèi)的基準(zhǔn)文 字圖像進行匹配,而制作標(biāo)題區(qū)域T各自的索引矩陣。
然后,特征匹配部16將該文檔圖像的其他信息,即文檔ID和iL檔圖 像DB19內(nèi)的該當(dāng)?shù)奈臋n圖像的保存位置的信息等包含在這些索引矩陣 中,而作為索引信息儲存到索引信息DB17中。
圖9表示基于特征匹配部16的制作索引矩陣的處理的一例。圖9是說 明針對圖7中的標(biāo)題區(qū)域T3中所包含的文字列"去神仙居住的地方"這8 個文字圖像,制作索引矩陣的說明圖。
文字列"去神仙居住的地方"被分割成單個文字圖像"去""神""仙" "居""住""的""地""方"。將這樣的文字列的圖像分割成單個文字的 圖像的處理,可利用以往的方法。
在"去"..."方"這8個文字中,按照排列順序附加1 8的編號,即
對"去,,附加l、對"神"附加2、…對"方"附加8。該編號相當(dāng)于索引 矩陣的行編號。
對這樣的所有的8個文字圖像,實施如下的處理,即取出針對被儲 存在圖9中參照符號X所示的文檔圖像特征DB20中的文字圖像"去"的 特征(Sl),并參照字形特征字典15,按照特;M目近(匹配度高)的順序, 選擇N個候補文字(S2)。
對按照匹配度從高到低的順序抽出的N個候補文字,附加與抽出順序 相應(yīng)的編號,該編號相當(dāng)于索引矩陣的列編號。然后,根據(jù)該列編號,來 設(shè)定表示檢索關(guān)鍵詞中所包含的各檢索文字與候補文字之間的匹配度的 文字相關(guān)值(相關(guān)值)。
在圖9中,由參照符號IOO所表示的表表示文字列"去神仙居住的地方" 的索引矩陣的內(nèi)容。例如,對于第5個文字的"住"的文字圖像,在行編 號為5的行中,從匹配度高的第l列,順序地抽出"任"、"佳"、"住"、 、 "仁"的候補文字。在表100中,例如候補文字"去"的索引矩陣內(nèi)的位 置是[l, l],候補文字"屑"的位置是[4, 2],候補文字"仁"的位置是 [5, N]。
另外,在圖9的表100中,為了有助于理解,對于與文字列的各文字 對應(yīng)的候補文字附加O進行表示。
對于這樣的索引矩陣的行數(shù)M,根據(jù)由標(biāo)題區(qū)域初始處理部18作為 標(biāo)題區(qū)域T而抽出的文字列的圖像的文字?jǐn)?shù)來決定。另夕卜,列數(shù)N是根據(jù) 針對l個文字所選擇出的候補文字?jǐn)?shù)來決定。從而,根據(jù)本發(fā)明,可通過 改變索引矩陣的維數(shù)(列數(shù)),來靈活地設(shè)定索引矩陣內(nèi)的要素數(shù),即候 補文字?jǐn)?shù)量。因此,在文檔圖像的檢索中,可以進行正確且?guī)缀鯚o遺漏的 檢索。
在索引矩陣中,可以與檢索關(guān)鍵詞的輸入方法相應(yīng)地適當(dāng)設(shè)定所選擇 的候補文字的信息賦予方式。例如,如果是由鍵盤l來輸入檢索關(guān)鍵詞的 構(gòu)成,則以文字代碼等信息的形式儲存候補文字,從而能夠?qū)腗輸入 的檢索關(guān)鍵詞進行檢索。
另外,如果是采用圖像掃描儀2等以圖傳教據(jù)的形式輸入檢索關(guān)鍵詞 的構(gòu)成,則也可以抽出檢索關(guān)鍵詞的特征(特征矢量),以特征(特征矢量)信息的形式儲存候補文字,從而能夠?qū)μ卣魇噶勘舜诉M行比較。
返回到圖7,對索引信息DB17中的索引信息的數(shù)據(jù)配置例進^fi兌明。 在存在兩個或兩個以上標(biāo)題區(qū)域T1、 T2、 T3、…、Tn的文檔圖像50的 索引信息中,針對兩個或兩個以上標(biāo)題區(qū)域T1、 T2、 T3、…、Tn制作的 索引矩陣配置成線形。在圖7的例中,文檔ID被配置在先頭,接下來配 置兩個或兩個以上索引矩陣,最后配置保存位置的信息。這里,5xN表示 索引矩陣的大小,表示5行N列的情況。
通過預(yù)先將索引信息進行這樣的數(shù)據(jù)配置,可以i2^地定位文檔圖像 DB19內(nèi)的文檔圖像的儲存位置、和文檔圖像中的標(biāo)題區(qū)域T的位置,并 用于檢索結(jié)果的顯示。
另夕卜,也可以根據(jù)實際要求,在索引信息中妙文檔圖像的其它屬性。
本發(fā)明中,進而對索引矩陣100適用使用了語言模型的詞匯解析法, 而調(diào)整構(gòu)成候補文字列的各候補文字,使其成為有意義的候補文字列。
更具體地講,特征匹配部16基于所制作的索引矩陣100,制作將位于 該索引矩陣中的第1列的^ft的候補文字按順序排列的候補文字列。然后, 對由構(gòu)成該候補文字列的連續(xù)的各行的候補文字構(gòu)成的單詞的詞義進行 解析,并調(diào)整各行的第一列的候補文字,從而使候補文字列帶有意義。
圖10是表示調(diào)整所制作的索引矩陣而使第一列的文字列成為具有意 義的文字列,為此采用詞匯解析法來進行調(diào)整的具體例的說明圖。
由圖10的上部分所示的調(diào)整前的索引矩陣100制作成的4吳補文字列為 "去伸仙居任酌地方",不具有意義。
用作有意義的文檔名的候補文字列中,主語、謂語、以及賓語的連接 詞關(guān)系等必須在意義上正確。在此,利用詞匯解析,變換成有意義的候補 文字列。具體地i兌,對于兩個或兩個以上M候補文字,4吏用概念詞典, 分析兩個或兩個以上錯誤候補文字與候補文本的其它單詞之間的意義信 息,而將候補文字列修改為有意義的文字列。
在這種詞匯解析中所采用的語言模型61,只要提供由所有的漢字開始 的活字的統(tǒng)計數(shù)據(jù)即可。換言之,利用該語言模型61的主要概念,可以在 技術(shù)上確立自動搜索系統(tǒng),能夠得到與中文報紙(例如"People,s Daily (人
民日報)")的稿本有關(guān)的統(tǒng)計數(shù)據(jù)。
在本實施方式中,使用雙字母組(Bi-gram)模型來作為語言模型。
雙字母組模型是兩個文字、兩個音節(jié)、或者兩個單詞的群(group), 且作為文本的簡單統(tǒng)計分析的基礎(chǔ)被廣泛使用。
圖11是表示使用雙字母組模型的字典數(shù)據(jù)300的構(gòu)成例的圖。
字典數(shù)據(jù)的第1列301表示兩字組合的第1個文字。第2行302表示 與第1個文字共同構(gòu)成了組合的文字的個數(shù)。第3行303表示與第1個文 字共同構(gòu)成了組合的文字,第4行304表示構(gòu)成了組合的次數(shù)。并且,第 5行305表示組合的中文的文字個數(shù)。這里,由于使用雙字母組模型,所 以文字個數(shù)全是2。
在候補文字列的調(diào)整中,基于馬爾可夫過程,主要使用文字的推移以 及混合的概率等單詞內(nèi)的上下文信息,來進行基于Viterbi算法的最優(yōu)路 徑檢索。
使用上述那樣的中文字典的幫助,自動地調(diào)整索引矩陣,而將全部的 最適合的候補調(diào)整到第1行。
基于只根據(jù)每個文字的匹配度決定的索引矩陣100,首先對第1列的 文字列進行基于使用了前后檢索的雙字母組模型的調(diào)整,由此可提高匹配 的候補的正確性和效率性。
并且為了提高其正確性,對文字列的一部分進行基于以單詞為基礎(chǔ)的 雙字母組模型的調(diào)整。由此,雖然處理速度下降,但可獲得高正確性。
以下,以索引矩陣100為例說明具體的調(diào)整方法。
使用以文字為基礎(chǔ)的雙字母組模型,首先根據(jù)第2行與第3行的關(guān)系, 將第2行的第2候補"神"與"伸"替換,作為第1候補。另外,根據(jù)第4行 與第5行的關(guān)系,將第5行的笫3候補"住"與"任"替換,作為第1候補。
并且,進行基于以單詞為基礎(chǔ)的雙字母組模型的調(diào)整,根據(jù)"神仙"以 及"居住,,的單詞的屬性,以及它們的關(guān)聯(lián)性,將第6行的第2候補"的,,與 "酌"替換,調(diào)整為第l候補。在這樣地被調(diào)整的索引矩陣200的第1列中所含的候補文字列成為"去 神仙居住的地方",成為具有意義的文字列。另外,特征匹配部16,也可 以將這樣的調(diào)整后的索引矩陣200儲存到索引信息DB17中。
圖12 A^示使用了雙字母組模型的索引矩陣的調(diào)整方法的流程圖。
在步驟Sl中,判斷是否到達了索引矩陣的最后行。如果未到達,則 ii^步驟S2,如果已到達,則進入步驟S5。
在步驟S2中,對所關(guān)注的行,即第1次的處理的情況下,取出第1 行的笫l候補。在步驟S3中,適用雙字母組模型,對于所關(guān)注的行的第1 候補和與其相鄰的行的^^矣補的組合,在字典內(nèi)的出現(xiàn)頻度進行統(tǒng)計性計 數(shù)。
在步驟S4中,將計數(shù)值與預(yù)定的閾值進行比較,將計數(shù)值超過了闊 值的組合作為第l候補。
在步驟S5中,從最初一行分析所決定的第1候補的連接關(guān)系,并決 定單詞。在步驟S6中,決定所決定的單詞之間的第l候補。
在步驟S7中,判斷在所關(guān)注的第1候補文字列中存在的文字集合是 否符合字典數(shù)據(jù)的詞B則。如果符合,則進入步驟S8,結(jié)束處理,獲得 調(diào)整后的索引矩陣。如果不符合,則l步驟S9,調(diào)整不符合的行的第l 候補,并返回到步驟S6。
下面,對實施使用了索引信息的檢索處理的檢索部22進行說明。圖 13是表示檢索部22的功能和檢索處理的說明圖。檢索部22具有索引矩陣 檢索處理部22a、文字相關(guān)值M部(M部)22b、相關(guān)度計算部22c、 顯示順序決定部(順序決定部)22d、以及文檔圖,出部22e。
對于索引矩陣檢索處理部22a,由關(guān)^l詞輸入部24輸入檢索關(guān)^t詞。 作為關(guān)鍵詞輸入部24,相當(dāng)于上述的#1或圖^43描儀2等。
索引矩陣檢索處理部22a是對索引信息DB17進行檢索,而檢索出包 含所輸入的檢索關(guān)鍵詞的索引矩陣的部分。索引矩陣檢索處理部22a將檢 索關(guān)鍵詞分割成單個文字,搜索包含各檢索文字的索引矩陣,在包含檢索 文字的場合下,取得該檢索文字在索引矩陣內(nèi)的匹配位置的信息。另外, 關(guān)于索引矩陣的抽出順序例,將在下面采用圖ll的流程圖來進行i兌明。
文字相關(guān)值保存部22b是保存由索引矩陣檢索處理部22a取得的匹配 位置的信息、和與該匹配位置的列編號相應(yīng)的文字相關(guān)值的部分。
相關(guān)度計算部22c是在索引矩陣檢索處理部22a中完成了對全部索引 矩陣的檢索時,計算出所檢索出的索引矩陣與檢索關(guān)鍵詞之間的相關(guān)度的 部分。
相關(guān)度的計算,是采用被保存在文字相關(guān)值M部22b中的匹配位置 和文字相關(guān)值的信息,并按照預(yù)先設(shè)定的相關(guān)度計算方法來進行計算的。 關(guān)于相關(guān)度的計算,將在下面采用圖15、圖16來進行說明。
另外,這里,構(gòu)成為文字相關(guān)值保存部221)*匹配位置的信息、和 與該匹配位置的列編號相應(yīng)的文字相關(guān)值,但也可以構(gòu)成為文字相關(guān)值 ^MHP 22b只*匹配位置,相關(guān)度計算部22c由匹配位置的信息取得文 字相關(guān)值。
顯示順序決定部22d是基于由相關(guān)度計算部22c計算出的相關(guān)度的信 息來決定顯示順序的部分。顯示順序決定部22d按如下方式?jīng)Q定顯示順序, 即從包含相關(guān)度高的索引矩陣的文檔圖像開始,依次在檢索結(jié)果顯示部 25中顯示文檔圖像的內(nèi)容。
文檔圖像抽出部22e是,以按照由顯示順序決定部22d所決定的順序 顯示文檔圖像的方式,從文檔圖像DB19中讀出文檔圖像的圖^Jt據(jù),并 輸出到檢索結(jié)果顯示部25來進行顯示。
檢索結(jié)果顯示部25按照顯示順序來顯示文檔圖像。也可以采用縮略圖 顯示等的方式。作為檢索結(jié)果顯示部25,相當(dāng)于上述的顯示裝置3等。
這里,說明檢索順序。圖14是表示檢索部22中的檢索順序的流程圖。 當(dāng)輸入了由R個文字列構(gòu)成的檢索關(guān)鍵詞,并指示進行檢索時,索引矩陣 檢索處理部22a首先取出檢索關(guān)鍵詞的第1個檢索文字(S11 )。
然后,索引矩陣檢索處理部22a對索引信息DB17內(nèi)的全部索引矩陣 進行第1個檢索文字的檢索(S12 )。
在完成了對全部索引矩陣的檢索時,判斷是否檢索到第1個檢索文字, 在l個也沒有檢索到的場合下,轉(zhuǎn)移到S19,在檢索到的場合下^S14。
在S14中,索引矩陣檢索處理部22a將包含第1個檢索文字的索引矩 陣中的匹配位置和文字相關(guān)值保存到文字相關(guān)值保存部22b中。
接著,索引矩陣檢索處理部22a取出包含有第1個檢索文字的4^P的 索引矩陣(S15)。然后,取出作為檢索關(guān)鍵詞的下一個文字的第2個檢索 文字,并對在S15中取出的包含有第1個檢索文字的索引矩陣ii行檢索 (S16)。
在完成對在S15中取出的全部索引矩陣的檢索時,判斷是否檢索到第 2個檢索文字(S17)。在l個也沒有檢索到的場合下,與上述同樣地轉(zhuǎn)移 到S19,在檢索到的場合下lS18。
在S18中,索引矩陣檢索處理部22a將包含有第2個檢索文字的索引 矩陣中的匹配位置和文字相關(guān)值保存到文字相關(guān)值保存部22b中。
接下來,索引矩陣檢索處理部22a再次返回到S16,取出作為檢索關(guān) 鍵詞中的再下一個文字的第3個檢索文字,并對在S15中取出的包含有第 1個檢索文字的索引矩陣進行檢索。
然后,在這里,也在完成檢索時,索引矩陣檢索處理部22a判斷是否 檢索到第3個檢索文字(S17 ),在1個也沒有檢索到的場合下,轉(zhuǎn)移到S19, 在檢索到的場合下,再次l S18,進行關(guān)于檢索關(guān)鍵詞的再下一個檢索 文字的檢索。
索引矩陣檢索處理部22a, 一直進行這樣的S16 S18的處理,即以在 S15中抽出的包^^有第1個檢索文字的索引矩陣為對象的、第2個以后的 各檢索文字的收縮檢索,直到在S17中判斷為1個也沒有檢索到、或完成 了對檢索關(guān)鍵詞內(nèi)的全部檢索文字的檢索為止,然后轉(zhuǎn)移到S19。
在S19中,取出作為檢索關(guān)鍵詞中的下一個文字的第2個檢索文字。 然后,判斷檢索文字是否都已被檢索,即,是否完成了對全部的檢索文字 的檢索(S20),在未完成的場合下,返回到S12。
然后,與上述同樣,索引矩陣檢索處理部22a對索引信息DB17內(nèi)的 4^P索引矩陣進行第2個檢索文字的檢索。在檢索到的場合下,M索引 矩陣的匹配位置和文字相關(guān)值,然后tS15,對包含有第2個檢索文字 的全部索引矩陣,針對檢索關(guān)鍵詞的下一個文字,即作為第2個之后的第
3個以后的各檢索文字,反復(fù)進行S16 S18,從而進行收縮檢索。
索引矩陣檢索處理部22a,對第3個以后的各檢索文字依次進行如下 處理,即在S19中進行對一個檢索文字的如上述的檢索,并取出包含進 行檢索的檢索文字的索引矩陣,且用其以后的檢索文字來進行收縮檢索。
然后,在由S19取出了檢索關(guān)鍵詞內(nèi)的4^P檢索文字,并且由S20判 斷為完成了對全部檢索文字的檢索的場合下,進入S21。
在S21中,相關(guān)度計算部22c如后述那樣根據(jù)相關(guān)度基準(zhǔn),來計算出 檢索關(guān)鍵詞與各索引矩陣的相關(guān)度。
然后,顯示順序決定部22d以從包含相關(guān)度高的索引矩陣的文檔圖像 開始進行顯示的方式?jīng)Q定顯示順序,文檔圖係"抽出部22e從文檔圖4象DB19 中取得文檔圖像的圖像數(shù)據(jù),檢索結(jié)果顯示部25按相關(guān)度高的順序來顯示 文檔圖像(S22)。
接下來,采用圖15、圖16,對相關(guān)度計算部22c中的根據(jù)相關(guān)庋基準(zhǔn) 來計算索引矩陣與檢索關(guān)鍵詞的相關(guān)度計算方法進^i兌明。
在圖15的參照符號101的方框中,記載有檢索條件。而且,在參照符 號102的方框中,記載有用于計算相關(guān)度的某個假設(shè)的檢索關(guān)鍵詞與索引 矩陣的相對關(guān)系。在方框101所示的檢索M下,在檢索關(guān)鍵詞與索引矩 陣為如方框102所示的相對關(guān)系的場合下,可以通過由方框103所示的計 算式來計算出檢索關(guān)^^詞與索引矩陣的相關(guān)度。
首先,對方框101的檢索^Ht進行說明。檢索關(guān)鍵詞的文字?jǐn)?shù)為R個, 第1個檢索文字為C1、第2個為C2、…、第R個為Cr。
成為檢索對象的索引矩陣為MxN維矩陣。即,作為標(biāo)題區(qū)域T而抽 取出的文字列圖像的文字?jǐn)?shù)為M個,作為文字列的各文字的M補而選擇 出的候補文字?jǐn)?shù)為N個。
由于作為檢索文字與M補文字的相關(guān)值的文字相關(guān)值,是相應(yīng)于索 引矩陣的M置來決定的,所以成為與索引矩陣相同維數(shù)的矩陣。即,文 字相關(guān)值矩陣的權(quán)重為MxN維矩陣。例如,權(quán)重[i] [j]表示位于索引矩陣 中的位置[i, j] ( = Index[i, j])上的候補文字匹配的場合下的文字相關(guān)值。 在本實施方式中,如果索引矩陣的列編號[j]相同,則與行編號[i]無關(guān),
文字相關(guān)值相同。
行的相關(guān)度加權(quán)因數(shù)Q是在索引矩陣中相鄰的2行中檢索文字匹配的 場合下,對這些2行的文字相關(guān)值附加的加權(quán)。在相鄰的2行中檢索文字 匹配的場合下,包^^檢索關(guān)鍵詞的連續(xù)的2個文字的可能性大。
在將行的相關(guān)度加權(quán)因數(shù)Q設(shè)定得高時,對于相關(guān)度計算部22c計算 出的相關(guān)度的影響度,在連續(xù)匹配的2行的文字相關(guān)值中變大,但是在不 相鄰的^ft的文字相關(guān)值中變小。即,通過將行的相關(guān)度加權(quán)因數(shù)Q設(shè)定 得高,接近以詞匯為單位進行檢索的結(jié)果,反之,通過將行的相關(guān)度加權(quán) 因數(shù)Q設(shè)定得小,接近以單字為單位進行檢索的結(jié)果。
將檢索文字Cl匹配的文字相關(guān)值表示為Wl,將檢索文字C2匹配的 文字相關(guān)值表示為W2,…,將檢索文字Cr匹配的文字相關(guān)值表示為Wr。
接下來,對方框圖102所示的為了計算相關(guān)度而假設(shè)的檢索關(guān)鍵詞與 索引矩陣之間的相對關(guān)系進行說明。
檢索關(guān)^t詞與索引矩陣之間具有全部的檢索文字Cl, C2,…,Cr與 索引矩陣內(nèi)的任意候補文字相匹配的關(guān)系。將檢索文字Cl, C2,…,Cr 匹配的^^矣補文字在索引矩陣內(nèi)的位置,即匹配位置表示為[Cli, Clj]、 [C2i, C2j],…,[Cri, Crj]。
而且,作為進一步的相對關(guān)系,具有方框102所示的式(1)的關(guān)系,
即
<formula>formula see original document page 27</formula>
在該式中,k、 m表示構(gòu)成檢索關(guān)^詞的各檢索文字的相對位置。另 外,C (k+l) i表示與檢索關(guān)鍵詞的第k+l個檢索文字匹配的候補文字的 索引矩陣內(nèi)的行編號,Cki表示與檢索關(guān)鍵詞的第k個檢索文字匹配的候 補文字的索引矩陣內(nèi)的行編號。
從而,C (k+l) i = Cki+1表示與檢索關(guān)鍵詞的第k+l個檢索文字匹 配的候補文字在索引矩陣內(nèi)的行編號,和在與檢索關(guān)^^詞的第k個檢索文 字匹配的候補文字在索引矩陣內(nèi)的行編號上加1的編號相同。換言之,C (k+l) i = Cki+1表示檢索關(guān)^詞的第k+l個檢索文字和第k個檢索文字 具有分別與索引矩陣中的相鄰的2行相匹配的關(guān)系。 C (m+l) i = Cmi+1也同樣,表示檢索關(guān)鍵詞的第m+l個檢索文字和 第m個檢索文字具有分別與索引矩陣中的相鄰的2行相匹配的關(guān)系。
在檢索關(guān)鍵詞與索引矩陣具有這樣的相對關(guān)系的場合下,可以通過方 框103所示的式(2)來計算出檢索關(guān)鍵詞與索引矩陣的相關(guān)度。
SimDegree = Wl+W2+"' +W (k-l) + Q * (Wk+W (k+l)) +
+W (m-l) +Q * (Wm + W (m+l" +…十Wr
在該式中,Wl是第1個檢索文字C1匹配的文字相關(guān)值,W2是第2 個檢索文字C2匹配的文字相關(guān)值,W (k-l)是第(k-l)個檢索文字C (k-l)匹配的文字相關(guān)值。同樣,W (k)是第k個檢索文字Ck匹配的 文字相關(guān)值,W (k+l)是第(k+l)個檢索文字C (k+l)匹配的文字相 關(guān)值。另外,W (m-l)是第(m-l)個檢索文字C (m-l)匹配的文字相 關(guān)值。同樣,W (m)是第(m)個檢索文字C (m)匹配的文字相關(guān)值, W (m+l)是第(m+l)個檢索文字C (m+l)匹配的文字相關(guān)值,另夕卜, 最后的Wr是第r個的最后的檢索文字Cl匹配的文字相關(guān)值。
這樣,在相關(guān)度的計算中,構(gòu)成檢索關(guān)鍵詞的全部檢索文字的文字相 關(guān)值W被累加(累計)計算。
而且,在式(2)中的Q * (Wk+W (k+l))表示由于檢索關(guān)^t詞 中的第k個檢索文字Ck和第(k+l)個檢索文字C (k+l)分別與索引矩 陣中的相鄰的2行相匹配,所以對文字相關(guān)值Wk和文字相關(guān)值W (k+l) 乘以行的相關(guān)度加權(quán)因數(shù)Q。關(guān)于Q, (Wm + W (m+l))也同樣。
另外,檢索關(guān)鍵詞的第k-l個檢索文字與第k個檢索文字,由于不具 有與相鄰的2行相匹配的關(guān)系,所以對W (k-l)和Wk雙方不乘以相關(guān) 度加權(quán)因數(shù)Q。關(guān)于W (m-l)和Wm也同樣。
另外,由于圖15的方框102所示的檢索關(guān)鍵詞與索引矩陣的相對關(guān)系 中,具有4^P的檢索文字C1、 C2、…、Cr與索引矩陣內(nèi)的任意候補文字 相匹配的關(guān)系,所以在式(2)中,將Wl Wr的全部的檢索文字的文字相 關(guān)值累計計算。
但是,這只是一例,例如,在雖然具有式(l)的相對關(guān)系,但險索文 字Cl和檢索文字Cr不與索引矩陣內(nèi)的任意候補文字相匹配的場合下,計
算相關(guān)度的計算式為如下計算式,相應(yīng)于累積項的減少,當(dāng)然其相關(guān)度會 降低。
SimDegree = W2+…+W (k-l) + Q* (Wk+W (k+l)) +…
+W (m-l) +Q* (Wm + W (m+l)) ++W (r-l)
另外,在具有全部檢索文字C1、 C2、…、Cr與索引矩陣內(nèi)的任意候 補文字相匹配的關(guān)系,并且,具有檢索關(guān)鍵詞的第k+l個檢索文字和第k 個檢索文字、以及第k+2個檢索文字和第k+l個檢索文字分別與相鄰的2 行相匹配的關(guān)系的場合下,計算相關(guān)度的計算式為如下計算式。
SimDegree = Wl + W2 +…+ W (k-l)
+ Q * (Wk+W (k+l) +W (k + 2))…+WR
在該場合下,由于檢索關(guān)鍵詞的第k-l個檢索文字和第k個檢索文字 不具有與相鄰的2行相匹配的關(guān)系,所以對W (k-l)和Wk雙方不乘以 相關(guān)度加權(quán)因數(shù)Q。
下面,采用圖16,對相關(guān)度計算的具體例進^i兌明。這里,求出圖10 所示的文字列"去神仙居住的地方"的索引矩陣(參照表200)與檢索關(guān)鍵 詞"神仙"的相關(guān)度。
圖16的方框104表示檢索M。相關(guān)值矩陣Weight是MxN維,文 字相關(guān)值是AVeight[i] = [1, l-l/N, l-2/N,…,1/N] (i = 0, 1,…,M-l), 行的相關(guān)度加權(quán)因數(shù)Q。
檢索關(guān)鍵詞"神仙"分別被分割成第1個檢索文字"神"和第2個檢索文 字"仙",對于這兩個字,分別在索引矩陣內(nèi)的候補文字中進行檢索。
參照圖10的表200可看出,檢索文字"神"與索引矩陣中的位置[i、 j] 的[2、 l]相匹配,檢索文字"仙"與索引矩陣中的[3、 l]相匹配。
從而,如方框105所示,檢索文字"神"的文字相關(guān)值為1,檢索文字"仙" 的文字相關(guān)值為1。
而且,檢索文字"神"的行編號為[2],檢索文字"仙"的行編號為[3], 如圖10的表200所示,這2個檢索文字分別與索引矩陣中的相鄰的2行相
匹配。
從而,如方框106所示那樣,對檢索文字"神"的文字相關(guān)值1和檢索 文字"仙"的文字相關(guān)值1乘以行的相關(guān)度加權(quán)因數(shù)Q,檢索關(guān)鍵詞的"神 仙"與文字列"去神仙居住的地方"的索引矩陣之間的相關(guān)度為SimDegree =Q* (1+1) =2Q。
檢索關(guān)鍵詞與索引矩陣之間的相關(guān)度,通過按照用戶的要求靈活地調(diào) 整相關(guān)值矩陣中的加權(quán)(文字相關(guān)值)和行的相關(guān)度加權(quán)因數(shù)Q等的參數(shù), 可以獲得更理想的檢索結(jié)果。
用戶可采用鍵盤l等,相應(yīng)于需要而適當(dāng)設(shè)定相關(guān)值矩陣中的加權(quán)(文 字相關(guān)值)和行的相關(guān)度加權(quán)因數(shù)Q等的參數(shù)。
而且,基于這樣的圖像特征的索引和匹配方式,可以滿足多種語言的 文檔圖像的索引和檢索。不需要進行文字識別,計算量少。本發(fā)明不限于 中文,可以應(yīng)用于各種語言的文檔圖像。
最后,對具備詞匯解析功能(語義分析功能)的檢索處理進行說明。 如圖13所示那樣,在本實施方式的文檔圖像處理裝置10中,在關(guān)鍵詞輸 入部24與檢索部22之間,設(shè)有詞匯解析部23。圖17中表示具備詞匯解 析功能的檢索處理。
詞匯解析部23由語義分析處理部23a和語義詞典23b構(gòu)成。語義分 析處理部23a,在從關(guān)鍵詞輸入部24輸入檢索關(guān)鍵詞時,參照語義詞典 23b,對檢索關(guān)鍵詞的詞匯進行分析。
例如,在作為檢索關(guān)鍵詞輸入"中日關(guān)系"時,語義分析處理部23a 作為與"中日關(guān)系"相關(guān)的單詞,將例如"中國"、"日本"、"關(guān)系"這3 個輸入到檢索部22。這些"中國"、"日本"、"關(guān)系"具有或的關(guān)系,檢索 式為"中國"或"日本"或"關(guān)系"。
將該檢索式"中國"或"日本"或"關(guān)系"輸入到檢索部22,檢索部 22對索引信息DB17進行檢索,抽出包含"中國"的文檔圖像、包含"曰 本"的文檔圖像、和包含"關(guān)系"的文檔圖像。
由此,不僅能夠檢索出直接包含所輸入的檢索關(guān)鍵詞的文檔圖像,而 且還能夠檢索出相關(guān)的文檔圖像。
接下來,對實施文檔圖像管理處理的文檔圖^象管理部57進行說明。文 檔圖像管理部57由文字圖像特征抽出部14、字形特征字典15、特征匹配 部16、標(biāo)題區(qū)域初始處理部18、文檔圖像DB19、文檔圖4象特征DB20、 文檔名制作部51、文檔圖像DB管理部52、文檔圖像顯示部53、指示輸 入部54構(gòu)成,下面對這些進^S兌明。
關(guān)于文字圖像特征抽出部14、字形特征字典15、特征匹配部16、標(biāo) 題區(qū)域初始處理部18、文檔圖像DB19、文檔圖^象特征DB20的功能已進 行了說明。在此,僅對為實施文檔圖像管理處理而進一步所需的功能進行 適當(dāng)說明,該文檔圖像管理處理中制作有意義的文檔名并對文檔圖<象特征 DB20的文檔圖像進行管理。
采用圖18說明文檔圖像管理處理。從由圖像掃描儀2及數(shù)字?jǐn)z影裝置 6構(gòu)成的文檔圖傳瑜入部21,輸入文檔圖4象1 N。
對于所輸入的文檔圖像1 ~N,標(biāo)題區(qū)域初始處理部18對各文檔圖像 的內(nèi)容進行分析,并抽取出標(biāo)題區(qū)域獲取文字列。接著,雖然未圖示,但 文字圖像特征抽出部14與上述同樣,將所抽取出的標(biāo)題區(qū)域中包含的文字 列的文字圖像以1個文字為單位進行分割,并抽出各文字圖像的圖像特征。
然后,以這樣抽出的文字圖像的圖像特征為^Jftij,由字形特征字典15 及特征匹配部16構(gòu)成的候補文字列生成部55,選擇圖像特征的匹配度高 的文字圖像作為候補文字,并制作成與所抽取出的標(biāo)題區(qū)域中包含的文字 列相應(yīng)的候補文字列,而且如上述那樣采用詞匯解析法來調(diào)整構(gòu)成該候補 文字列的M補文字,并"i殳為有意義的候補文字列。
由候補文字列生成部55這樣生成的有意義的候補文字列被送到文檔 名制作部51。
文檔名制作部51,對所輸入的文檔圖像,制作出包含有由候補文字列 生成部55生成的有意義的候補文字列的文檔名。以下,將包含有該有意義 的候補文字列的文檔名稱為"有意義的文檔名"。
從時間數(shù)據(jù)等發(fā)生部60向文檔名制作部51,還輸入表示文檔圖像被 輸入的時間及輸入路徑的數(shù)據(jù)等其它數(shù)據(jù)。文檔名制作部51還可以采用至 少包含從時間數(shù)據(jù)等發(fā)生部60輸入的時間數(shù)據(jù)的其它數(shù)據(jù),來生成文檔 名。
例如,也可以構(gòu)成為將時間數(shù)據(jù)等其它數(shù)據(jù)之中的時間數(shù)據(jù)包含在 有意義的文檔名中,且將有意義的文檔名由時間數(shù)據(jù)和有意義的候補文字 列來構(gòu)成。
或者,也可以采用時間數(shù)據(jù)等其它數(shù)據(jù),來對相同的文檔圖像制作另 外的文檔名。以下,將由時間數(shù)據(jù)等其它數(shù)據(jù)等構(gòu)成的文檔名稱為原始的 文檔名。
通過這樣構(gòu)成,對一個文檔圖像,可以利用有意義的文檔名、以及由 時間數(shù)據(jù)等其它數(shù)據(jù)等構(gòu)成的原始的文檔名來進行管理。
對于每一個文檔圖像生成的有意義的文檔名、以及原始的文檔名,被 送到文檔圖像DB管理部52,且在文檔圖像DB19中,與文檔圖像的圖像 數(shù)據(jù)相對應(yīng)地ii行儲存。
文檔圖像DB管理部52,當(dāng)用戶采用由鍵盤l等構(gòu)成的圖l所示的指 示輸入部54,來輸入文檔圖像DB19中所存儲的文檔圖像的閱覽指示等時, 在由顯示裝置3等構(gòu)成的圖l的文檔圖4象顯示部53上,顯示閱覽畫面。
圖19中表示在文檔圖像顯示部53上顯示的、文檔圖像DB19中所儲 存的文檔圖^f象的閱覽畫面的一個例子。
圖中,左側(cè)所示畫面201表示所存儲的文檔圖<|^原始的文檔名列表 表示的狀態(tài)。在畫面201的上面,示出了各文檔圖像的輸入順序。在紙面 上最靠前的帶有"AR - C262M一20060803一103140"的原始的文檔名的文 檔圖像,是在該畫面中最先被輸入的文檔S像。"20060803"表示輸入的日 期(2006年8月3日),"103140"表示時間(10點31分40秒)。
在這樣的顯示狀態(tài)下,通iti^擇畫面上所顯示的"有意義的文檔名" 的標(biāo)識符等的^Mt,閱覽畫面的顯示在圖中將轉(zhuǎn)移到右側(cè)所示的畫面202。 畫面202表示所存儲的文檔圖H^有意義的文檔名列4^示的狀態(tài)。
該畫面202與畫面201對應(yīng),在此,畫面201的上部所示的、紙面上 最靠前的帶有"定格惠州西湖"的有意義的文檔名的文檔圖像,是在該畫 面中最先被輸入的文檔圖像。
這樣,能夠按有意義的文檔名來進行閱覽,由此用戶可容易實施所存 儲的文檔圖像的管理及搜索。此外, 一并制作出原始的文檔名,由此可同
時看到時間數(shù)據(jù)等信息與文檔名。
另外,在該文檔圖l象處理裝置中,采用制作成的索引矩陣來制作索引
信息,并用于檢索處理中。因此,標(biāo)題區(qū)域初始處理部18抽出文檔圖4象中 包含的兩個或兩個以上標(biāo)題區(qū)域T,并制作各自的索引矩陣。然而,如果 僅僅以對文檔圖像制作有意義的文檔名為目的的話,則沒有必要抽出文檔 圖像中包含的兩個或兩個以上標(biāo)題并制作各自的索引矩陣。
換言之,可以構(gòu)成為對于最能表示出文檔圖像的標(biāo)題區(qū)域中包含的 標(biāo)題的文字列(文字圖像列),制作出索引矩陣,并基于此,使用特征匹 配的文字列,來制作帶有意義的名稱。
作為最能表示出文檔圖像的標(biāo)題區(qū)域,例如可以設(shè)為所抽出的兩個或 兩個以上標(biāo)題區(qū)域之中、存在于文檔圖像的最上面一行的區(qū)域。這是因為 重要的標(biāo)題很多場合下配置在文檔圖像的最上面 一行。
此外,也可以將標(biāo)題區(qū)域中包含的文字的大小設(shè)為比某個閾值大,且 比所抽出的其它標(biāo)題區(qū)域中的文字大。這是因為重要的標(biāo)題很多場合下用 比其它標(biāo)題大的文字大小來記載。
或者,也可以將標(biāo)題區(qū)域中包含的文字的字體(字形)類型,設(shè)為與
所抽出的其它標(biāo)題區(qū)域的文字不同的字體類型。這是因為重要的標(biāo)J^4艮多 場合下用與其它標(biāo)題不同的字體(字形)來記載。此外,也可以附加其他
基準(zhǔn),并且各基準(zhǔn)可以分別采用,也可以組合來采用。
此外,如該文檔圖4象處理裝置那樣,在對于一個文檔圖像抽出兩個或 兩個以上標(biāo)題區(qū)域,并制作出各自的索引矩陣的構(gòu)成中,通過標(biāo)題區(qū)域的 配置位置、文字大小、或字體,來特定最重要的標(biāo)題區(qū)域的索引矩陣即可。 此外,如果是這種場合,則特別優(yōu)選為,從所抽出的兩個或兩個以上標(biāo)題 區(qū)域的索引矩陣中,制作出最頻繁出現(xiàn)的單詞包含在候補文字列中的索引 矩陣。
作為本發(fā)明的其它實施方式,也可以取代雙字母組模型而使用多字母 組模型進行索引矩陣的調(diào)整。
由于上述的實施方式,只是在候補文字列的調(diào)整方法中使用多字母組 模型這一方面不同,其它構(gòu)成相同,所以省略詳細說明。
圖20是表示使用了多字母組模型的索引矩陣的調(diào)整方法的流程圖。
在步驟S31中,判斷是否到達了索引矩陣的最后一行。如果未到達, 則進入步驟S32,如果到達,則進入步驟S40。
在步驟S32中,取出所關(guān)注的行,即在第l次的處理的情況下,取出 第l行的第l候補。在步驟S33中,適用多字母組模型,來對所關(guān)注的行 的第l候補和與其相鄰的行的^^矣補的組合,在字典內(nèi)的出現(xiàn)頻度進行統(tǒng) 計性計數(shù)。
在步驟S34中,對計數(shù)值與預(yù)定的閾值進行比較,并判斷計數(shù)值是否 超過了閾值。如果超過了閾值,則l步驟S35,如果未超過閾值,則進 入步驟S36。
在步驟S35中,決定相鄰的行的第l候補,然后進入步驟S36。在步 驟S26中,再次適用多字母組模型,對所關(guān)注的行和與其連續(xù)的兩個或兩 個以上行的^^矣補的組合,在字典內(nèi)出現(xiàn)的頻度進行統(tǒng)計性計數(shù)。
在步驟S37中,對計數(shù)值與預(yù)定的閾值進行比較,判斷計數(shù)值是否超 過了閾值。如果超過了閾值,則進入步驟S38,決定在所關(guān)注的行之后連 續(xù)的兩個或兩個以上行的第l候補。如果未超過閾值,則選擇表示最大頻 度的文字,暫定為第l候補。
在步驟S40中,基于所決定的詞或語句之間的相關(guān)性,暫定第l候補。 在步驟S41中,判斷第1候補文字列中的文字集合是否符合字典數(shù)據(jù)的詞 義規(guī)則。如果符合,則i^步驟S42,結(jié)束處理,獲得被調(diào)整的索引矩陣。 如果不符合,則進入步驟S43,調(diào)整不符合的行的第l候補,并結(jié)束處理。
這樣,通過適用多字母組模型,相比于雙字母組模型,可制作更正確 的候補文字列。
最后,文檔圖像處理裝置的各部分,特別是字體正規(guī)化處理部12、文 字圖像特征抽出部14、特征匹配部16、標(biāo)題區(qū)域初始處理部18、檢索步 22、詞匯解析部23、文檔名制作部51、以及文檔圖像DB管理部52等, 可以由硬件邏輯電路構(gòu)成,也可以如下那樣使用CPU通過軟件來實現(xiàn)。
即,文檔圖像處理裝置10具有執(zhí)行用于實現(xiàn)各功能的控制程序的命令 的CPU (central processing unit)、儲存有上述程序的ROM (read only
memory )、展開上述程序的RAM (random access memory )、儲存上述程 序和各種數(shù)據(jù)的存儲器等存儲裝置(記錄媒體)等。而且,本發(fā)明的目的 可通過如下過程來達到,即將記錄有計算機可讀取的、實現(xiàn)上述的功能 的軟件即文檔圖像處理裝置10的控制程序的程序代碼(執(zhí)行形式程序、中 間代碼程序、源程序)的記錄媒體,提供給上述文檔圖像處理裝置IO,且 由該計算機(或CPU、 MPU)讀出記M記錄^^上的程序代碼并執(zhí)行。
作為上述的記錄媒體,例如可以采用磁帶或盒式磁帶等的磁帶類、包 括軟(注冊商標(biāo))盤/硬盤等磁盤和CD-ROM/MO/MD/DVD/CD-R等光盤 的盤類、IC卡(包括存儲卡)/光卡等的卡類、或掩模ROM/EPROM /EEPROM/閃存ROM等的半導(dǎo)體存儲器類等。
另夕卜,也可以將文檔圖像處理裝置IO構(gòu)成為能夠與通信網(wǎng)絡(luò)連接,通
im信網(wǎng)絡(luò)來供給上述程序代碼。作為該通信網(wǎng)絡(luò),沒有特別的限定,例
如可以利用互聯(lián)網(wǎng)、內(nèi)部網(wǎng)、外聯(lián)網(wǎng)、LAN、 ISDN、 VAN、 CATV通信 網(wǎng)、虛擬專用網(wǎng)(virtual private network)、電話線路網(wǎng)、移動體通信網(wǎng)、 衛(wèi)星通信網(wǎng)等。另外,作為構(gòu)成通信網(wǎng)絡(luò)的傳送媒體,沒有特別的限定, 例如既可以利用IEEE1394、 USB、電力線輸送、有線TV線路、電話線、 ADSL線路等的有線,也可以利用IrDA、遠程控制那樣的紅外線、Bluetooth (注冊商標(biāo))、802.11無線、HDR、移動電話網(wǎng)、衛(wèi)星線路、地面波數(shù)字 網(wǎng)等的無線。另外,本發(fā)明也能夠以上述程序代碼通過電子傳送而具體化 的被疊加在載波中的計算積Jt據(jù)信號的形式來實現(xiàn)。
本發(fā)明在不脫離其精神或主要特征的范圍內(nèi),能夠以其它各種形式實 施。從而,上述的實施方式只不過;^在所有方面上的一種示例,本發(fā)明的 范圍由本發(fā)明的權(quán)利要求書來表示,不受本說明書的任何限定。并且,在 權(quán)利要求書范圍內(nèi)的變形和變更,均屬于本發(fā)明的范圍內(nèi)。
權(quán)利要求
1.一種文檔圖像處理裝置,其特征在于,具有字形特征字典,其以單個文字為單位儲存有文字圖像的圖像特征;文字列抽出部,其以由兩個或兩個以上文字構(gòu)成的文字列為單位,抽取出所輸入的文檔圖像中存在的文字圖像;圖像特征抽出部,其將由上述文字列抽出部抽取出的文字列的文字圖像以1個文字為單位進行分割,并抽出各文字圖像的圖像特征;特征匹配部,其以由上述圖像特征抽出部抽出的文字圖像的圖像特征為基礎(chǔ),從上述字形特征字典中,按照圖像特征的匹配度從高到低的順序選擇N個文字圖像作為候補文字,其中N為N>1的整數(shù),在將上述文字列的文字?jǐn)?shù)設(shè)為M個時,其中M為M>1的整數(shù),制作M×N維的第1索引矩陣,并且對于由構(gòu)成該第1索引矩陣的第1列的兩個或兩個以上候補文字構(gòu)成的候補文字列,適用基于預(yù)定的語言模型的詞匯解析,而制作出調(diào)整成有意義的文字列的第2索引矩陣;索引信息儲存部,其將由上述特征匹配部制作的第2索引矩陣與上述所輸入的文檔圖像相對應(yīng)地進行儲存;檢索部,其在檢索時,以所輸入的檢索式中的構(gòu)成檢索關(guān)鍵詞的1個檢索文字為單位,檢索上述索引信息儲存部,而取出具有包含檢索文字的第2索引矩陣的文檔圖像。
2. 根據(jù)權(quán)利要求l所述的文檔圖像處理裝置,其特征在于,上述特征 匹配部,使用雙字母組模型或多字母組模型作為語言模型,來進行候補文 字列的詞匯解析。
3. 根據(jù)權(quán)利要求l所述的文檔圖像處理裝置,其特征在于,上述特征 匹配部,基于詞匯解析,將上述第1索引矩陣的第1列的候補文字與同一 行的其它候補文字進e^換,由此調(diào)整成有意義的候補文字列。
4. 根據(jù)權(quán)利要求l所述的文檔圖像處理裝置,其特征在于,上述文字 列抽出部抽取出上述被輸入的文檔圖像中的標(biāo)題區(qū)域。
5. 根據(jù)權(quán)利要求l所述的文檔圖像處理裝置,其特征在于,上述文字 列抽出部基于連通域統(tǒng)計分析的方法來抽取出文檔圖像中的重要區(qū)域。
6. 根據(jù)權(quán)利要求l所述的文檔圖像處理裝置,其特征在于,上述圖像 特征抽出部利用網(wǎng)格方向特征和文字圖像外圍特征的組合,來抽出文字圖像的圖像特征。
7.根據(jù)權(quán)利要求l所述的文檔圖像處理裝置,其特征在于,上述特征全部文字圖係進行匹配,并選^Ht補文字。
8. 根據(jù)權(quán)利要求l所述的文檔圖像處理裝置,其特征在于,上述特征 匹配部選擇的候補文字?jǐn)?shù)N是可變更的。
9. 根據(jù)權(quán)利要求l所述的文檔圖像處理裝置,其特征在于,上述檢索 部,從具有構(gòu)成檢索關(guān)鍵詞的各檢索文字在索引矩陣內(nèi)的匹配位置高的索 引矩陣的文檔圖像中,按順序進行取出。
10. 根據(jù)權(quán)利要求l所述的文檔圖像處理裝置,其特M于, 對上述索引矩陣的M素,設(shè)定有與位置相應(yīng)的相關(guān)值, 上述檢索部具有索引矩陣檢索處理部,其以構(gòu)成檢索關(guān)鍵詞的1個檢索文字為單位檢 索索引矩陣,而檢索出包含檢索文字的第2索引矩陣,并將該第2索引矩 陣內(nèi)的檢索文字的匹配位置的信息,與具有第2索引矩陣的文檔圖像的信 息一同儲存在M部中;相關(guān)度計算部,其根據(jù)在上述保存部中儲存的匹配位置的信息,累計 各檢索文字的相關(guān)值,并計算出檢索關(guān)鍵詞與第2索引矩陣的相關(guān)度;順序決定部,其基于上i^目關(guān)度計算部的計算結(jié)果,來決定文檔圖像 的取出順序。
11. 根據(jù)權(quán)利要求10所述的文檔圖像處理裝置,其特征在于,上勤目 關(guān)度計算部,在根據(jù)上述匹配位置的信息,而判斷為與索引矩陣中的相鄰 行相匹配時,對相鄰的各行的相關(guān)值,在利用行的相關(guān)度加權(quán)因數(shù)進行了 加權(quán)的^ftfe上,進行累計。
12. 根據(jù)權(quán)利要求10所述的文檔圖像處理裝置,其特征在于,上述第 2索引矩陣的M素設(shè)定的相關(guān)值是可變更的。
13. 根據(jù)權(quán)利要求ll所述的文檔圖像處理裝置,其特征在于,上述行 的相關(guān)度加權(quán)因lbl可變更的。
14. 根據(jù)權(quán)利要求1所述的文檔圖像處理裝置,其特征在于,具有使
15. —種文檔圖像處理方法,其特征在于,具有 文字列抽出步驟,以由兩個或兩個以上文字構(gòu)成的文字列為單位,抽出所輸入的文檔圖像中存在的文字圖像;圖像特征抽出步驟,將在上述文字列抽出步驟中抽出的文字列的文字 圖像以1個文字為單位進行分割,并抽出各文字圖像的圖像特征;特征匹配步驟,以在上述圖像特征抽出步驟中抽出的文字圖像的圖像 特征為基礎(chǔ),從以單個文字為單位儲存有文字圖像的圖像特征的字形特征 字典中,按照圖像特征的匹配度從高到低的順序選擇N個文字圖l象作為候 補文字,其中N為N^的整數(shù),并且在將上述文字列的文字?jǐn)?shù)i殳為M個 時,其中M為MH的整數(shù),制作MxN維的索引矩陣,并且對于由構(gòu)成 該第1索引矩陣的第1列的兩個或兩個以上候補文字構(gòu)成的候補文字列, 適用基于預(yù)定的語言模型的詞匯解析,而制作出調(diào)整成有意義的文字列的 第2索引矩陣;索引信息儲存步驟,將在上述特征匹配步驟中制作的第2索引矩陣, 與上述所輸入的文檔圖^^目對應(yīng)地進行儲存;檢索步驟,在檢索時,以所輸入的檢索式中的構(gòu)成檢索關(guān)鍵詞的l個 檢索文字為單位,檢索在上述索引信息儲存步驟中儲存的索引信息,并取 出具有第2索引矩陣的文檔圖像,該第2索引矩陣包含檢索文字。
全文摘要
本發(fā)明提供一種文檔圖像處理裝置及文檔圖像處理方法。其中,抽取出文檔圖像中的文字?jǐn)?shù)為M的文字列的圖像,將其以1個文字為單位進行分割,并抽出各文字圖像的圖像特征,基于該圖像特征,從以單個文字為單位儲存有文字圖像的圖像特征的字形特征字典(15)中,按照匹配度從高到低的順序選擇N(N>1的整數(shù))個文字圖像作為候補文字,而制作抽取出的文字列的文字?jǐn)?shù)為M×N維的第1索引矩陣。并且,對于由構(gòu)成該第1索引矩陣的第1列的兩個或兩個以上候補文字構(gòu)成的候補文字列,通過適用基于預(yù)定的語言模型的詞匯解析,來制作出調(diào)整成有意義的文字列的第2索引矩陣,并在語言模型的基礎(chǔ)上統(tǒng)計后進行詞匯解析。
文檔編號G06K9/72GK101354703SQ20071012960
公開日2009年1月28日 申請日期2007年7月23日 優(yōu)先權(quán)日2007年7月23日
發(fā)明者寧 樂, 波 吳, 吳亞棟, 竇建軍, 靖 賈 申請人:夏普株式會社