專利名稱:搜索文檔的文檔處理裝置及其控制方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種搜索文檔的文檔處理裝置、其控制方法、執(zhí)行該方法的程序、以及存儲該程序的存儲介質(zhì),尤其涉及一種基于多個搜索方法搜索文檔的文檔處理裝置、其控制方法、執(zhí)行該方法的程序、以及存儲該程序的存儲介質(zhì)。
背景技術(shù):
作為用于搜索所期望的文檔(文檔數(shù)據(jù))的基本搜索方法,傳統(tǒng)上已知的有基于關(guān)鍵詞的搜索,其基于給定的一個關(guān)鍵詞或多個關(guān)鍵詞(搜索查詢)是否包含在文檔中進(jìn)行搜索。然而,通過基于關(guān)鍵詞的搜索,難以迅速找到所期望的文檔。因此,已發(fā)明了各種其它的搜索方法和搜索引擎。
所發(fā)明的用于搜索所期望的文檔的搜索引擎包括使用關(guān)鍵詞之間的關(guān)系或語法信息的相似度的搜索引擎;以及使用表現(xiàn)文檔內(nèi)容特征的文檔矢量的搜索引擎。作為使用文檔矢量的搜索引擎,已提出了一種搜索引擎,其根據(jù)與通過文檔內(nèi)容的含義、領(lǐng)域或單詞分類的各維度(分類)相對應(yīng)的特征量,采用矢量表示方法,以通過使用各文檔間的矢量的內(nèi)積(標(biāo)量積)來判定文檔之間的相似度,并基于該相似度找到所期望的文檔。此外,已提出一種文檔搜索裝置,其具有使用安裝在其中的各種搜索方法的多個搜索引擎,通過切換多個搜索引擎進(jìn)行搜索,并/或基于多個搜索引擎的搜索結(jié)果進(jìn)行全面的搜索。
此外,已提出一種搜索方法,其將給定的關(guān)鍵詞分成每個具有n個字符的部分字符串,并搜索包括所有部分字符串的文檔,從而縮窄搜索的范圍(參見日本特開平05-174064)。
另外,已提出了一種技術(shù),其對來自有布局信息的文檔的每對文本塊,將第一文本塊的最后一個句子和可能是第一文本塊最后一個句子的延續(xù)部分的第二文本塊的頭一個(第一個)句子合并為合并的字符串,對所合并的字符串進(jìn)行詞素(morphological)分析,評價所合并的字符串的自然性,從而以判定文本塊最自然的連接順序,并根據(jù)所判定的順序重新排列文本塊(參見日本特開平11-015826)。
然而,根據(jù)以上提出的基于多個搜索方法進(jìn)行文檔搜索的文檔搜索裝置,盡管可被高效和準(zhǔn)確地找到的文檔(文檔內(nèi)容、文檔種類等)根據(jù)各搜索引擎或搜索方法而變化,但無論使用哪種搜索引擎或方法進(jìn)行搜索,都是基于將整個文檔作為搜索的單個對象來創(chuàng)建搜索索引。
因此,當(dāng)搜索對象為包含多個主題的文檔時,通過從作為搜索的單個對象的整個文檔所創(chuàng)建的索引,傳統(tǒng)的基于文檔矢量的搜索引擎不能準(zhǔn)確地找到該對象。此外,傳統(tǒng)的基于關(guān)鍵詞、基于關(guān)鍵詞關(guān)系和基于語法信息的搜索引擎都不能快速找到包含大量信息的文檔。
發(fā)明內(nèi)容
因此,本發(fā)明的目的在于提供一種能夠快速和準(zhǔn)確地找到搜索的對象的文檔處理裝置及其控制方法,以及執(zhí)行該方法的程序,和存儲該程序的存儲介質(zhì)。
為達(dá)到以上目的,在本發(fā)明的第一方面,提供一種文檔處理裝置,用來根據(jù)多個搜索方法搜索文檔,該裝置包括分割單元,其根據(jù)多個搜索方法中的每個搜索方法將目標(biāo)文檔分割成多個塊;以及創(chuàng)建單元,其根據(jù)每一搜索方法,基于包括在由所述分割單元獲得的每一塊中的字符串,來創(chuàng)建目標(biāo)文檔的索引。
通過以上裝置,在使用多個搜索方法進(jìn)行文檔搜索的環(huán)境下,可快速和準(zhǔn)確地進(jìn)行文檔搜索。
優(yōu)選地,該多個搜索方法包括第一搜索方法,該第一搜索方法基于包括在字符串中的單詞間的關(guān)系搜索文檔,其中,所述分割單元根據(jù)該第一搜索方法,將字符串分割成文本塊,每一文本塊形成一個句子。
更優(yōu)選地,該多個搜索方法包括第二搜索方法,該第二搜索方法基于包括在字符串中的單詞的概念搜索文檔,其中,所述分割單元根據(jù)該第二搜索方法,以比第一搜索方法大的單位,將字符串分割成文本塊。
還有更優(yōu)選地,該多個搜索方法包括第三搜索方法,該第三搜索方法基于字符串中是否出現(xiàn)至少一個單詞搜索文檔,其中,所述分割單元根據(jù)該第三搜索方法,以比第二搜索方法大的單位,將字符串分割成文本塊。
為達(dá)到以上目的,在本發(fā)明的第二方面,提供一種文檔處理裝置,用來根據(jù)多個搜索方法搜索文檔,該裝置包括分割單元,其根據(jù)多個搜索方法中的每個搜索方法,將包括在從其中創(chuàng)建用于搜索的查詢的文檔中的字符串分割成多個塊;以及創(chuàng)建單元,其基于包括在由所述分割單元獲得的每一塊中的字符串,來創(chuàng)建用于搜索的查詢。
通過以上裝置,在使用多個搜索方法進(jìn)行文檔搜索的環(huán)境下,可快速和準(zhǔn)確地進(jìn)行文檔搜索。
優(yōu)選地,該多個搜索方法包括第一搜索方法,該第一搜索方法基于包括在字符串中的單詞間的關(guān)系搜索文檔,其中,所述分割單元根據(jù)該第一搜索方法,將字符串分割成文本塊,每一文本塊形成一個句子。
更優(yōu)選地,該多個搜索方法包括第二搜索方法,該第二搜索方法基于包括在字符串中的單詞的概念搜索文檔,其中,所述分割單元根據(jù)該第二搜索方法,以比第一搜索方法大的單位,將字符串分割成文本塊。
還有更優(yōu)選地,該多個搜索方法包括第三搜索方法,該第三搜索方法基于字符串中是否出現(xiàn)至少一個單詞搜索文檔,其中,所述分割單元根據(jù)該第三搜索方法,以比第二搜索方法大的單位,將字符串分割成文本塊。
為達(dá)到以上目的,在本發(fā)明的第三方面,提供一種文檔處理裝置的控制方法,用于根據(jù)多個搜索方法搜索文檔,該控制方法包括分割步驟,其根據(jù)多個搜索方法中的每個搜索方法,將目標(biāo)文檔分割成多個塊;以及創(chuàng)建步驟,其根據(jù)每一搜索方法,基于包括在由所述分割步驟獲得的每一塊中的字符串,來創(chuàng)建目標(biāo)文檔的索引。
優(yōu)選地,該多個搜索方法包括第一搜索方法,該第一搜索方法基于包括在字符串中的單詞間的關(guān)系搜索文檔,其中,在所述分割步驟中,根據(jù)該第一搜索方法,將字符串分割成文本塊,每一文本塊形成一個句子。
更優(yōu)選地,該多個搜索方法包括第二搜索方法,該第二搜索方法基于包括在字符串中的單詞的概念搜索文檔,其中,在所述分割步驟中,根據(jù)該第二搜索方法,以比第一搜索方法大的單位,將字符串分割成文本塊。
還有更優(yōu)選地,該多個搜索方法包括第三搜索方法,該第三搜索方法基于字符串中是否出現(xiàn)至少一個單詞搜索文檔,其中,在所述分割步驟中,根據(jù)該第三搜索方法,以比第二搜索方法大的單位,將字符串分割成文本塊。
為達(dá)到以上目的,在本發(fā)明的第四方面,提供一種文檔處理裝置的控制方法,用于根據(jù)多個搜索方法搜索文檔,該控制方法包括分割步驟,其根據(jù)多個搜索方法中的每個搜索方法,將包括在從其中創(chuàng)建用于搜索的查詢的文檔中的字符串分割成多個塊;以及創(chuàng)建步驟,其基于包括在由所述分割步驟獲得的每一塊中的字符串,來創(chuàng)建用于搜索的查詢。
優(yōu)選地,該多個搜索方法包括第一搜索方法,該第一搜索方法基于包括在字符串中的單詞間的關(guān)系搜索文檔,其中,在所述分割步驟中,根據(jù)該第一搜索方法,將字符串分割成文本塊,每一文本塊形成一個句子。
更優(yōu)選地,該多個搜索方法包括第二搜索方法,該第二搜索方法基于包括在字符串中的單詞的概念搜索文檔,其中,在所述分割步驟中,根據(jù)該第二搜索方法,以比第一搜索方法大的單位,將字符串分割成文本塊。
還有更優(yōu)選地,該多個搜索方法包括第三搜索方法,該第三搜索方法基于字符串中是否出現(xiàn)至少一個單詞搜索文檔,其中,在所述分割步驟中,根據(jù)該第三搜索方法,以比第二搜索方法大的單位,將字符串分割成文本塊。
為達(dá)到以上目的,在本發(fā)明的第五方面,提供一種程序,用來使計算機(jī)執(zhí)行根據(jù)多個搜索方法搜索文檔的文檔處理裝置的控制方法,該程序包括分割模塊,其根據(jù)多個搜索方法中的每個搜索方法,將目標(biāo)文檔分割成多個塊;以及創(chuàng)建模塊,其根據(jù)每一搜索方法,基于包括在由所述分割模塊獲得的每一塊中的字符串,來創(chuàng)建目標(biāo)文檔的索引。
為達(dá)到以上目的,在本發(fā)明的第六方面,提供一種程序,用來使計算機(jī)執(zhí)行根據(jù)多個搜索方法搜索文檔的文檔處理裝置的控制方法,該程序包括分割模塊,其根據(jù)多個搜索方法中的每個搜索方法,將包括在從其中創(chuàng)建用于搜索的查詢的文檔中的字符串分割成多個塊;以及創(chuàng)建模塊,其基于包括在由所述分割模塊獲得的每一塊中的字符串,來創(chuàng)建用于搜索的查詢。
為達(dá)到以上目的,在本發(fā)明的第七方面,提供一種存儲根據(jù)本發(fā)明的第五方面的程序的計算機(jī)可讀取的存儲介質(zhì)。
為達(dá)到以上目的,在本發(fā)明的第八方面,提供一種存儲根據(jù)本發(fā)明的第六方面的程序的計算機(jī)可讀取的存儲介質(zhì)。
通過以下結(jié)合附圖對實施例的詳細(xì)說明,本發(fā)明的上述和其它目的、特征和優(yōu)點是顯而易見的。
圖1是示出根據(jù)本發(fā)明的第一實施例的作為文檔處理裝置的文檔搜索裝置的配置的示意框圖;圖2是示出應(yīng)用了圖1中的文檔搜索裝置的通信網(wǎng)絡(luò)的配置的第一個例子(例如LAN)的圖;圖3是示出應(yīng)用了圖1中的文檔搜索裝置的通信網(wǎng)絡(luò)的配置的第二個例子(因特網(wǎng))的圖;圖4是示出圖2中由通信網(wǎng)絡(luò)執(zhí)行的文檔搜索處理的流程圖;圖5是示出圖2中由通信網(wǎng)絡(luò)執(zhí)行的建立索引處理的流程圖;圖6是示出圖4中的步驟S403和圖5中的步驟S504執(zhí)行的文本塊優(yōu)化處理的流程圖;圖7是示出響應(yīng)于圖4中的步驟S404的搜索命令而執(zhí)行的作為搜索處理(基于相似性的搜索處理)的第一個例子的短語搜索處理的流程圖;圖8A~8E是用來說明圖6的文本塊優(yōu)化處理的具體例子的圖;圖9是示出響應(yīng)于圖5中的步驟S505的建立索引處理而執(zhí)行的索引登記處理的流程圖;圖10是示出響應(yīng)于圖4中的步驟S404的搜索命令而執(zhí)行的作為搜索處理(基于相似性的搜索處理)的第二個例子的概念搜索處理的流程圖;圖11是示出在圖4的步驟S405顯示的搜索結(jié)果的例子的視圖;圖12A是示出在圖7的短語搜索處理中從其中獲取查詢詞的文本塊的例子的圖;圖12B和12C是示出在圖7的短語搜索處理中目標(biāo)文檔的數(shù)據(jù)的例子的圖;圖13是用來說明在圖9的索引登記處理中所使用的基本矢量字典的圖;圖14是用來說明在圖9的索引登記處理中所使用的索引表的例子的圖;圖15是示出根據(jù)本發(fā)明的第二實施例由文檔處理裝置執(zhí)行的文檔搜索處理的流程圖;以及圖16是示出根據(jù)本發(fā)明的第三實施例由文檔處理裝置執(zhí)行的文檔搜索處理的流程圖。
具體實施例方式
現(xiàn)在,將參考示出本發(fā)明優(yōu)選實施例的附圖來詳細(xì)說明本發(fā)明。
圖1是示出根據(jù)本發(fā)明的第一實施例的作為文檔處理裝置的文檔搜索裝置的配置的示意框圖。
本文檔搜索裝置是通過計算機(jī)例如個人計算機(jī)來實現(xiàn)的,并具有使用安裝在其中的各種搜索方法的多個搜索引擎。如圖1所示,該文檔搜索裝置包括中央處理器1、存儲裝置2、輸入裝置3、顯示裝置4、存儲介質(zhì)讀取裝置5、以及圖像讀取裝置6。通過這些裝置,該文檔處理裝置執(zhí)行索引功能,用來創(chuàng)建將作為搜索對象的文檔數(shù)據(jù)(包括圖像數(shù)據(jù))的索引;以及文檔搜索功能,用來通過使用所創(chuàng)建的索引來執(zhí)行文檔搜索處理。
中央處理器1由CPU(中央處理單元)、MPU(微處理單元)等來實現(xiàn)。通過執(zhí)行存儲在存儲裝置2中的程序,中央處理器1根據(jù)本實施例執(zhí)行各種處理,包括建立索引處理和文檔搜索處理。存儲裝置2由硬盤等來實現(xiàn),并存儲數(shù)據(jù)庫,其中包括待搜索的文檔數(shù)據(jù)(目標(biāo)文檔數(shù)據(jù))、帶注解的圖像數(shù)據(jù)、程序、字典(包括基本矢量字典)等。輸入裝置3包括鍵盤、鼠標(biāo)等,用來輸入各種數(shù)據(jù)和命令。顯示裝置4由液晶顯示器等來實現(xiàn),并顯示搜索結(jié)果等。存儲介質(zhì)讀取裝置5讀取存儲在存儲介質(zhì)例如軟盤(floppy,注冊商標(biāo))、CD-ROM、ROM和磁帶中的程序(包括對應(yīng)于下述流程圖的控制程序,以及對應(yīng)于多個搜索引擎的程序)和數(shù)據(jù),并將讀取的程序和數(shù)據(jù)存儲在存儲裝置2中。圖像讀取裝置6由掃描儀等來實現(xiàn),并光學(xué)讀取或掃描在原稿等上形成的圖像,并將讀取的圖像轉(zhuǎn)換成電子圖像數(shù)據(jù)。此外,圖像讀取裝置6具有OCR(optical character reader,光學(xué)字符閱讀器)功能,用來識別圖像數(shù)據(jù)中的字符串(文本),以將其轉(zhuǎn)換為字符代碼。
圖1所示的文檔搜索裝置不僅適用于單機(jī)型,而且適用于在網(wǎng)絡(luò)N例如局域網(wǎng)(LAN)中的服務(wù)器裝置100和200,以及客戶裝置101、102、201和202,如圖2所示。該文檔搜索裝置還適用于連接到因特網(wǎng)300的終端400和服務(wù)器裝置(未示出),如圖3所示。
參考圖2,每一服務(wù)器裝置100和200具有在其中提供的文檔數(shù)據(jù)庫,并將從數(shù)據(jù)庫中找到的文檔數(shù)據(jù)提供給客戶裝置101、102、201和202。任一服務(wù)器裝置100和200以及客戶裝置101、102、201和202可具有文檔搜索功能,以用作文檔搜索裝置。在本實施例中,假設(shè)用來選擇搜索方法(搜索引擎)的處理是通過客戶裝置101、102、201和202來執(zhí)行的。在本實施例中,下述圖4的文檔搜索處理是通過客戶裝置101、102、201和202來執(zhí)行的,并且圖4中的步驟S404所指示的搜索是通過服務(wù)器裝置100和200來執(zhí)行的,即,服務(wù)器裝置100和200用作搜索引擎。下述圖5的建立索引處理是通過客戶裝置101、102、201和202來執(zhí)行的,服務(wù)器裝置100和200執(zhí)行在圖5的步驟S505中所創(chuàng)建的索引的登記。
現(xiàn)在參考圖4的流程圖來說明在圖2的通信網(wǎng)絡(luò)中執(zhí)行的文檔搜索處理的概況。圖4的文檔搜索處理是通過圖2中的任一客戶裝置101、102、201和202來執(zhí)行的。
文檔搜索處理包括圖像獲取處理,用來獲取文檔圖像數(shù)據(jù)(步驟S401);分析處理,用來分析獲取的文檔圖像數(shù)據(jù)(步驟S402);文本塊優(yōu)化處理(步驟S403);搜索指示處理,用來發(fā)出搜索命令(步驟S404);以及搜索結(jié)果顯示處理,用來顯示搜索結(jié)果(步驟S405)。
在圖像獲取處理(步驟S401)中,通過圖像讀取裝置6例如掃描儀掃描文檔圖像來獲取文檔圖像數(shù)據(jù)。在分析處理(步驟S402)中,將在步驟S401所獲取的文檔圖像數(shù)據(jù)分割成圖片圖像塊和文本塊(字符串塊)。為了通過分割獲取文本塊,使用OCR功能以識別文檔圖像數(shù)據(jù)的字符串。
在執(zhí)行步驟S403前,用戶提前從下述使用各種搜索方法的多個搜索引擎中選擇或指定期望的搜索引擎(搜索方法)。在文本塊優(yōu)化處理(步驟S403)中,通過根據(jù)提前指定的搜索引擎的特征合并(聯(lián)結(jié))文本塊、或者通過根據(jù)搜索引擎的特征分離(分割)文本塊,來優(yōu)化在步驟S402獲取的文本塊。在搜索指示處理(步驟S404)中,通過客戶裝置來指示作為所期望的搜索引擎的服務(wù)器裝置100和200,以使用在步驟S403獲取的文本塊作為其文檔數(shù)據(jù)庫的詢問(查詢)的詞,來執(zhí)行文檔搜索。在搜索結(jié)果顯示處理(步驟S405)中,客戶裝置從服務(wù)器裝置接收作為搜索結(jié)果的文檔列表,并如圖11所示,在顯示裝置4上按照與查詢匹配程度(相似度)的順序?qū)⑽臋n顯示在列表中(或?qū)⒔邮盏降牧斜泶鎯υ诖鎯ρb置2中)。
現(xiàn)在參考圖5的流程圖來說明圖2中的通信網(wǎng)絡(luò)執(zhí)行的建立索引處理的概況。通過任一客戶裝置101、102、201和202來執(zhí)行建立索引處理,以產(chǎn)生用于文檔搜索的索引。
建立索引處理包括文檔圖像數(shù)據(jù)獲取處理,用來獲取文檔圖像數(shù)據(jù)(步驟S501);分析處理,用來分析所獲取的文檔圖像數(shù)據(jù)(步驟S502);索引完成判定處理,用來判定關(guān)于所有搜索引擎的建立索引處理是否完成(步驟S503);文本塊優(yōu)化處理,用來根據(jù)每一搜索引擎來優(yōu)化文本塊(步驟S504);以及建立索引處理,用來根據(jù)每一搜索引擎來執(zhí)行建立索引(步驟S505)。
在文檔圖像獲取處理(步驟S501)中,通過圖像讀取裝置6例如掃描儀掃描文檔圖像數(shù)據(jù)來獲取文檔圖像。在分析處理(步驟S502)中,在步驟S501中獲取的文檔圖像被分割成圖片圖像塊和文本塊。為了通過分割獲取文本塊,使用ORC功能以識別文檔圖像數(shù)據(jù)的字符串。
在索引完成判定處理(步驟S503)中,判定關(guān)于安裝在文檔搜索裝置中的所有搜索引擎是否完成建立索引處理。在文本塊優(yōu)化處理(步驟S504)中,通過根據(jù)每一搜索引擎或方法的特征合并或結(jié)合文本塊、或者通過根據(jù)每一搜索引擎或方法的特征分離(分割)文本塊,來優(yōu)化在步驟S502獲取的文本塊。在建立索引處理(步驟S505)中,從優(yōu)化的文本塊來創(chuàng)建索引(索引文件或索引表),并且客戶裝置將所創(chuàng)建的索引發(fā)送給服務(wù)器裝置100和200。在接收到所創(chuàng)建的索引時,每一服務(wù)器裝置100和200將接收到的索引同文檔圖像數(shù)據(jù)一起存儲在存儲裝置2中。
接下來,參考圖6中的流程圖和圖8A~8E所示的示意圖來詳細(xì)說明在圖4的步驟S403和圖5的步驟S504中所執(zhí)行的文本塊優(yōu)化處理。在本實施例中,基于通過文本塊優(yōu)化處理根據(jù)每一搜索方法而優(yōu)化的文本塊,創(chuàng)建適當(dāng)?shù)牟樵兒退饕?br>
在文本塊優(yōu)化處理中,如圖6所示,首先,中央處理器1獲取圖片塊和文本塊(步驟S601),作為圖4的步驟S402中和圖5的步驟S502中分析文檔圖像數(shù)據(jù)的分析處理的執(zhí)行結(jié)果(分析結(jié)果)。例如,在分析圖8A所示的文檔圖像數(shù)據(jù)的情況下,獲得圖片塊,即被框包圍的圖片;和文本塊,即每一被框包圍的文本塊,“text1”、“text1-1”、“text1-2”、“text2”、“text2-1”、“text2-2”、以及“text3、text3-1、text3-2”,如圖8B所示。接著,中央處理器1判定關(guān)于在圖8B中所獲得的所有文本塊的文本塊優(yōu)化是否完成(步驟S602)。通過塊合并或者塊分離,對獲得的文本塊依次進(jìn)行優(yōu)化。每次優(yōu)化文本塊后,在步驟S602判定對在步驟S601中所獲得的所有文本塊的優(yōu)化處理是否完成。
如果優(yōu)化處理沒有完成,則中央處理器1根據(jù)當(dāng)前指定的搜索引擎的特征判定是否對還未被優(yōu)化的感興趣的文本塊進(jìn)行分離(步驟S603)。例如,如果通過由短語或單詞進(jìn)行搜索的搜索引擎來執(zhí)行文檔搜索(關(guān)鍵字關(guān)系搜索引擎,其基于所分割的單詞,例如,“market”、“size”、“of”、“mobile”、“devices”、“and”、“related”以及“devices”)之間的關(guān)系,搜索與關(guān)鍵詞具有高相似度的文檔,例如,“market size of mobile devices andrelated devices”),則當(dāng)在逐句基礎(chǔ)上創(chuàng)建索引時,將獲得更高效的搜索。因此,中央處理器1判定如果文本塊包含多于一個句子,則感興趣的文本塊應(yīng)該被進(jìn)一步分離(步驟S603)。然后,將文本塊分離成每個形成一個句子的文本塊(步驟S604)。假設(shè)在圖8B的例子中,每一文本塊“text1”、“text1-1”、“text1-2”、“text2”、“text2-1”、“text2-2”、以及“text3”、“text3-1”和“text3-2”都形成單個句子,則文本塊“text3、text3-1、text3-2”形成三個句子。因此,在步驟S604,文本塊“text3、text3-1、text3-2”被分離成三個文本塊“text3”、“text3-1”和“text3-2”,每一個都形成一個句子,如圖8C所示。
如果中央處理器1判定感興趣的文本塊無需分割,則根據(jù)當(dāng)前指定的搜索引擎的特征,判定是否將感興趣的文本塊與下一文本塊(還未被優(yōu)化)合并(步驟S605)。例如,如果指定的搜索引擎是基于概念矢量的搜索引擎,其基于用來評價表示單詞概念的多維語義(multidimensional semantic)屬性的概念矢量來執(zhí)行搜索,則當(dāng)單個文本塊包含在含義或主題上(概念矢量)相似的單詞時,即使文本塊中不包含與關(guān)鍵詞相同的單詞,也將獲得更高效和準(zhǔn)確的搜索。因此,如果感興趣的文本塊和下一文本塊具有相同的或相似的含義或主題,則為了更高效地搜索,應(yīng)將它們合并成單個文本塊。因此,如果段落(文本部分)可能具有共同的主題,則因此判定感興趣的文本塊應(yīng)當(dāng)與下一文本塊合并,以形成大于一個句子的段落(步驟S605)。然后,將它們合并為單個文本塊(步驟S606)。
假設(shè)在圖8B的例子中,文本塊“text1”、“text1-1”和“text1-2”具有共同的主題(概念矢量),并且同樣文本塊“text2”、“text2-1”和“text2-2”具有共同的主題,則將文本塊“text1”、“text1-1”和“text1-2”合并在一起,并且同樣將文本塊“text2”、“text2-1”和“text2-2”合并在一起,如圖8E所示。
參考圖7和12如后面所述,當(dāng)接收到基于例如“移動裝置和相關(guān)裝置的市場規(guī)?!辈樵兊乃阉鞯乃阉髡埱髸r,基于概念矢量的搜索引擎基于關(guān)鍵詞“市場”、“移動”和“裝置”來創(chuàng)建概念矢量,并判定每一所創(chuàng)建的概念矢量和目標(biāo)文檔的概念矢量之間的相似度。結(jié)果,搜索引擎找到在整體上內(nèi)容相似的文檔,而不管該文檔是否包含與查詢相關(guān)的關(guān)鍵詞。
類似地,如圖8D所示,在僅基于文檔中的單詞的出現(xiàn)/未出現(xiàn)來判定文檔之間的相似度的基于矢量的搜索引擎的情況下,文檔圖像數(shù)據(jù)被分割成比關(guān)鍵字關(guān)系搜索引擎或基于概念矢量的搜索引擎的文本塊單位大的文本塊。然后,例如,通過將整個文檔圖像數(shù)據(jù)用作單個文本塊來判定相似度。
參考圖7和12來說明響應(yīng)于圖4中的步驟S404的搜索命令而執(zhí)行的作為搜索處理(基于相似性的搜索處理)的第一個例子的短語搜索處理。通過服務(wù)器裝置100和200中、在步驟S404接收到搜索命令的一個服務(wù)器裝置來執(zhí)行該短語搜索處理。
如圖7所示,該短語搜索處理包括查詢詞獲取處理(步驟S701);關(guān)系獲取處理,用來獲取所獲取的查詢詞之間的關(guān)系(步驟S702);以及相似度計算處理(步驟S703)。
在查詢詞獲取處理(步驟S701)中,對圖4的步驟S403中所優(yōu)化的文本塊的文檔數(shù)據(jù)(字符串)執(zhí)行詞素分析,而后基于分析結(jié)果獲取查詢詞。
例如,在圖4的步驟S403中優(yōu)化的文本塊的文檔數(shù)據(jù)包含字符串“perform printing of an image”。然后,在步驟S701,執(zhí)行對字符串“perform printing of an image”的詞素分析,從而獲取三個查詢詞和短語“perform”、“printing of”和“an image”。
在關(guān)系獲取處理(步驟S702)中,獲取在步驟S701所獲取的查詢詞的語法信息。對于上例中獲取的查詢詞和短語“perform”、“printing of”和“an image”,獲取表示“printing of”是被“animage”所修飾的語法信息。
在相似度計算處理(步驟S703)中,將在步驟S701和步驟S702獲取的單詞和短語之間的關(guān)系(搜索條件)與文檔數(shù)據(jù)庫中登記的每一目標(biāo)文檔中的單詞和短語之間的關(guān)系進(jìn)行比較,然后計算它們之間的相似度。
例如,在圖12B的文檔中字符串“perform quick printing ofan image”包括單詞和短語“perform”、“quick”、“printing of”和“an image”,并示出“printing of”被“an image”修飾,以及“printing of”被“quick”修飾。因為“printing of”被“animage”修飾,因而查詢(圖12A)與圖12B中的文檔彼此相似。
因此,假設(shè)當(dāng)兩個字符串包含完全相同的短語時相似度被設(shè)置為1(基準(zhǔn)相似度),當(dāng)任一字符串缺少一個單詞或短語時基準(zhǔn)相似度下降0.7;當(dāng)詞間間距不同時,基準(zhǔn)相似度對每個單詞下降0.1;以及當(dāng)被不同的單詞修飾時基準(zhǔn)相似度下降0.5。當(dāng)與圖12A中的查詢相比較時,圖12B中的文檔包含相同的短語,因此相似度不下降,并因此等于1,但是,具有一個單詞和一個短語的不同的詞間(即“perform”到“printing”)間距,于是相似度下降0.2,即,相似度等于0.8(=1-0.2)。類似地,圖12C所示包含字符串“readan image.perform printing of a document”的文檔具有不匹配的修飾關(guān)系,即,“printing”被“a document”而不是被圖12A中的“an image”所修飾,因此,給出的相似度等于0.5(=1-0.5),而沒有應(yīng)用由于單詞或短語的缺少的下降。
因此,由于圖12B中的文檔具有高于圖12C中的文檔的相似度,在圖4的步驟S405中,圖12B中的文檔被顯示在顯示裝置2上,或被顯示在類似于圖11中所示的搜索結(jié)果的列表中比圖12C中的文檔更靠近頂部的位置上。
參考圖10的流程圖來說明響應(yīng)于圖4中的步驟S404的搜索命令而執(zhí)行的作為搜索處理(基于相似性的搜索處理)的第二個例子的概念搜索處理。通過服務(wù)器裝置100和200中的、在步驟S404接收到搜索命令的一個服務(wù)器裝置來執(zhí)行該概念搜索處理。
如圖10所示,該概念搜索處理包括查詢獲取處理(步驟S1001);查詢矢量創(chuàng)建處理(步驟S1002);以及相似度計算處理(步驟1003)。
在查詢獲取處理(步驟S1001)中,對圖4的步驟S403中所優(yōu)化的文本塊的字符串執(zhí)行詞素分析,而后基于分析結(jié)果獲取查詢詞。
在查詢矢量創(chuàng)建處理(步驟S1002)中,創(chuàng)建表示在步驟S1001中獲取的查詢詞的特征矢量的查詢矢量。在相似度計算處理(步驟S1003)中,將步驟S1002中所創(chuàng)建的查詢矢量與存儲在存儲裝置2中的每一文檔的文檔矢量進(jìn)行比較,以計算它們之間的相似度,并將那些具有相對較高的相似度的文檔作為搜索結(jié)果顯示在列表中。
現(xiàn)在參考圖9、13和14來說明響應(yīng)于圖5的步驟S505中的建立索引處理而執(zhí)行的索引登記處理。通過服務(wù)器裝置100和200中的、接收到在圖5的步驟S505中所創(chuàng)建的索引的一個服務(wù)器裝置來執(zhí)行索引登記處理。
如圖9所示,該索引登記處理包括語言分析結(jié)果獲取處理(步驟S901);文檔矢量創(chuàng)建處理(步驟S902);以及索引登記執(zhí)行處理(步驟S903)。
當(dāng)在存儲裝置2中登記文檔(文檔數(shù)據(jù))時,執(zhí)行語言分析結(jié)果獲取處理(步驟S901),以獲取包括在用來登記的文檔中的單詞。接著,執(zhí)行文檔矢量創(chuàng)建處理(步驟S902),通過下述圖13中的基本矢量字典來搜索在步驟S901中獲取的單詞,以獲得各單詞的各維度的特征量,并從各單詞的特征量的總和創(chuàng)建文檔矢量。然后,執(zhí)行索引登記執(zhí)行處理(步驟S903),以在存儲裝置2中將在步驟S902中創(chuàng)建的文檔矢量與其相應(yīng)的文檔(文檔數(shù)據(jù))或文檔標(biāo)識符相關(guān)聯(lián)登記。
圖13是用來說明基本矢量字典的圖。如圖13所示,對于每一單詞,基本矢量字典將以矢量表示方法表達(dá)的單詞的各維度(Dim.)的特征量存儲在其中。維度是基于根據(jù)單詞的原始含義分類的標(biāo)準(zhǔn),和/或基于根據(jù)單詞的正確含義或使用單詞的領(lǐng)域的分類來獲取的。在圖13的例子中,最上一行的單詞的維度“Dim.01”的特征量為“0”、維度“Dim.02”的特征量為“23”等等,而在最上第二行的單詞的維度“Dim.01”的特征量為“34”、維度“Dim.02”的特征量為“0”等等。這樣,可從基本矢量字典中找到單詞的各維度的特征量。單詞的維度的特征量可被認(rèn)為是對包含該單詞的文檔具有多少類(即維度)特征的測量。基于與所有維度(類)相關(guān)的文檔的所有組成單詞的特征量,將整個文檔的特征量用矢量來表示。
然后,在索引登記執(zhí)行處理(步驟S903)中,矢量通過模=1標(biāo)準(zhǔn)化為文檔矢量,然后將其作為索引存儲在圖14所示的索引表中。如圖14所示,與“文檔ID=6947”相對應(yīng)的文檔的文檔矢量的維度“Dim.01”的特征量為“0.183”、維度“Dim.02”的特征量為“0.214”等等,與“文檔ID=6948”相對應(yīng)的文檔的文檔矢量的維度“Dim.01”的特征量為“0.035”、維度“Dim.02”的特征量為“0.025”等等。
如上所述,根據(jù)第一實施例,包含字符串的目標(biāo)文檔根據(jù)多個搜索方法中的每一個被分割成多個文本塊?;诿恳凰指畹奈谋緣K的字符串,創(chuàng)建對應(yīng)于多個搜索方法中的每一個的目標(biāo)文檔的索引。此外,根據(jù)多個搜索方法中的每一個,將從其中創(chuàng)建搜索查詢的字符串分割成多個塊(查詢詞)?;诿恳凰指畹膲K的字符串,創(chuàng)建搜索查詢。結(jié)果,當(dāng)使用多個搜索方法進(jìn)行文檔搜索時,可快速和準(zhǔn)確地執(zhí)行文檔搜索。
圖15是示出根據(jù)本發(fā)明的第二實施例的文檔搜索處理的流程圖。文檔搜索處理通過任一客戶裝置101、102、201和202來執(zhí)行。
如圖15所示,文檔搜索處理包括文檔圖像數(shù)據(jù)獲取處理,用來獲取文檔圖像數(shù)據(jù)(步驟S1501);文檔圖像數(shù)據(jù)分析處理,用來分析所獲取的文檔圖像數(shù)據(jù)(步驟S1502);用于第一搜索引擎的文本塊優(yōu)化處理(步驟S1503);第一搜索命令發(fā)出處理(步驟S1504);用于第二搜索引擎的文本塊優(yōu)化處理(步驟S1505);第二搜索命令發(fā)出處理(步驟S1506);以及搜索結(jié)果顯示處理,用來顯示搜索結(jié)果(步驟S1507)。
在文檔圖像數(shù)據(jù)獲取處理(步驟S1501)中,例如,通過圖像讀取裝置6如掃描儀掃描文檔來獲取文檔圖像數(shù)據(jù)。在文檔圖像數(shù)據(jù)分析處理(步驟S1502)中,將在步驟S1501中獲取的文檔圖像分割成圖片圖像塊和文本塊。在用于第一搜索引擎的文本塊優(yōu)化處理(步驟S1503)中,通過根據(jù)第一搜索引擎的特征合并(聯(lián)結(jié))文本塊、或者通過根據(jù)第一搜索引擎的特征分離(分割)文本塊,來優(yōu)化在步驟S1502獲取的文本塊。在第一搜索命令發(fā)出處理步驟S1504中,將第一搜索命令從客戶裝置發(fā)送到圖2中的作為第一搜索引擎的服務(wù)器裝置,以通過使用在步驟S1503中獲得的作為查詢的文本塊,來執(zhí)行文檔搜索。在用于第二搜索引擎的文本塊優(yōu)化處理(步驟S1505)中,通過根據(jù)第二搜索引擎的特征合并(聯(lián)結(jié))文本塊、或者通過根據(jù)第二搜索引擎的特征分離(分割)文本塊,來優(yōu)化在步驟S1502獲取的文本塊。在第二搜索命令發(fā)出處理步驟S1506中,將第二搜索命令從客戶裝置發(fā)送到圖2中的作為第二搜索引擎的服務(wù)器裝置,以通過使用在步驟S1505中獲得的作為查詢的文本塊,來執(zhí)行文檔搜索或縮小范圍搜索(refine search)。在搜索結(jié)果顯示處理(步驟S1507)中,通過響應(yīng)于步驟S1504和S1506中的搜索命令而獲得的搜索結(jié)果,如圖11所示,將作為搜索結(jié)果的文檔以列表的形式按照匹配程度(相似度)的順序顯示在顯示裝置4上,或者將該列表存儲在存儲裝置2中。
如上所述,根據(jù)第二實施例,根據(jù)兩個搜索引擎的每一個對文本塊進(jìn)行優(yōu)化,并且使兩個搜索引擎相互協(xié)作,以通過這些被優(yōu)化的作為查詢的文本塊執(zhí)行文檔搜索。因此,與第一實施例中提前指定單個搜索引擎,然后使該指定的搜索引擎執(zhí)行文檔搜索相比,可執(zhí)行更準(zhǔn)確的文檔搜索??蛇x地,可使用三個或更多的搜索引擎以上述方式協(xié)作來執(zhí)行文檔搜索。
圖16是示出根據(jù)本發(fā)明的第三實施例的文檔搜索處理的流程圖。通過任一客戶裝置101、102、201和202來執(zhí)行該文檔搜索處理。
如圖16所示,文檔搜索處理包括文檔圖像數(shù)據(jù)獲取處理,用來獲取文檔圖像數(shù)據(jù)(步驟S1601);文檔圖像數(shù)據(jù)分析處理,用來分析所獲取的文檔圖像數(shù)據(jù)(步驟S1602);選擇處理(步驟S1603),用來從第一和第二搜索引擎(搜索引擎)中選擇搜索方法(搜索引擎);用于所選擇的第一搜索引擎的文本塊優(yōu)化處理(步驟S1604);用于所選擇的第二搜索引擎的文本塊優(yōu)化處理(步驟S1606);第一命令發(fā)出處理(步驟S1605);第二命令發(fā)出處理(步驟S1607);以及搜索結(jié)果顯示處理,用來顯示響應(yīng)于第一或第二搜索命令而執(zhí)行的搜索的搜索結(jié)果(步驟1608)。
在文檔圖像數(shù)據(jù)獲取處理(步驟S1601)中,例如,通過圖像讀取裝置6如掃描儀掃描文檔圖像來獲取文檔圖像數(shù)據(jù)。在文檔圖像數(shù)據(jù)分析處理(步驟S1602)中,將在步驟S1601中所獲取的文檔圖像分割成圖片圖像塊和文本塊。
在選擇處理(步驟S1603)中,基于在步驟S1602中獲取的文本塊的特征,自動選擇根據(jù)第一搜索引擎的搜索方法和根據(jù)第二搜索引擎的搜索方法中的任一個。在用于第一搜索引擎的文本塊優(yōu)化處理(步驟S1604)中,當(dāng)選擇根據(jù)第一搜索引擎的搜索方法時,通過根據(jù)第一搜索引擎的特征合并文本塊、或者通過根據(jù)第一搜索引擎的特征分離(分割)文本塊,來優(yōu)化步驟S1602中獲取的文本塊。在第一搜索命令發(fā)出步驟S1605中,將第一搜索命令從客戶裝置發(fā)送到圖2中的作為第一搜索引擎的服務(wù)器裝置,以通過使用在步驟S1604中獲得的作為查詢的文本塊,來執(zhí)行文檔搜索。在用于第二搜索引擎的文本塊優(yōu)化處理(步驟S1606)中,當(dāng)選擇根據(jù)第二搜索引擎的搜索方法時,通過根據(jù)第二搜索引擎的特征合并文本塊、或者通過根據(jù)第二搜索引擎的特征分離文本塊,來優(yōu)化在步驟S1602獲取的文本塊。在第二搜索命令發(fā)出步驟S1607中,將第二搜索命令從客戶裝置發(fā)送到圖2中的作為第二搜索引擎的服務(wù)器裝置,以通過使用在步驟S1606中獲得的作為查詢的文本塊,來執(zhí)行文檔搜索。
如上所述,根據(jù)第三實施例,基于通過文檔圖像數(shù)據(jù)的分析所獲得的文本塊的特征,來自動選擇搜索方法或引擎。然后,根據(jù)所選擇的搜索引擎的特征,通過合并或分離來優(yōu)化文本塊。此外,使所選擇的搜索引擎通過作為搜索查詢的優(yōu)化后的文本塊來執(zhí)行文檔搜索。因此,用戶無需為從其中創(chuàng)建搜索查詢的文檔的內(nèi)容指定選擇合適的搜索引擎,由此增強(qiáng)了用戶友好性。第三實施例還可適用于安裝有三個或更多的搜索引擎的情況。
本發(fā)明不局限于上述實施例。本發(fā)明既適用于由多個裝置組成的系統(tǒng),也適用于單個裝置。
應(yīng)該理解,本發(fā)明的目的也可通過將存儲有實現(xiàn)任一上述實施例的功能的軟件的程序代碼的存儲介質(zhì)提供給系統(tǒng)或裝置、并使該系統(tǒng)或裝置的計算機(jī)(或CPU或MPU)讀取并執(zhí)行存儲在存儲介質(zhì)中的程序代碼來實現(xiàn)。
在這種情況下,從存儲介質(zhì)中讀取的程序代碼本身實現(xiàn)任一上述實施例的功能,因此,程序代碼和存儲有程序代碼的存儲介質(zhì)構(gòu)成本發(fā)明的一部分。
用于提供程序代碼的存儲介質(zhì)的例子包括軟盤(floppy,注冊商標(biāo))、硬盤、磁光盤、CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW、磁帶、非易失性存儲卡、以及ROM。程序代碼也可通過網(wǎng)絡(luò)下載。
此外,應(yīng)該理解,任一上述實施例的功能不僅可以通過執(zhí)行由計算機(jī)讀取的程序代碼來實現(xiàn),而且還可以通過使計算機(jī)上運(yùn)行的OS(操作系統(tǒng))等基于程序代碼的指令執(zhí)行部分或全部實際操作來實現(xiàn)。
此外,應(yīng)該理解,任一上述實施例的功能可通過將從存儲介質(zhì)中讀取的程序代碼寫入插入到計算機(jī)的擴(kuò)展板所提供的存儲器,或者寫入連接到計算機(jī)的擴(kuò)展單元所提供的存儲器,然后使擴(kuò)展板或擴(kuò)展單元所提供的CPU等基于程序代碼的指令執(zhí)行全部或部分實際操作來實現(xiàn)。
權(quán)利要求
1.一種文檔處理裝置,用來根據(jù)多個搜索方法搜索文檔,該裝置包括分割單元,其根據(jù)多個搜索方法中的每個搜索方法將目標(biāo)文檔分割成多個塊;以及創(chuàng)建單元,其根據(jù)每一搜索方法,基于包括在由所述分割單元獲得的每一塊中的字符串,來創(chuàng)建目標(biāo)文檔的索引。
2.根據(jù)權(quán)利要求1所述的文檔處理裝置,其特征在于該多個搜索方法包括第一搜索方法,該第一搜索方法基于包括在字符串中的單詞間的關(guān)系搜索文檔,其中,所述分割單元根據(jù)該第一搜索方法,將字符串分割成文本塊,每一文本塊形成一個句子。
3.根據(jù)權(quán)利要求2所述的文檔處理裝置,其特征在于該多個搜索方法包括第二搜索方法,該第二搜索方法基于包括在字符串中的單詞的概念搜索文檔,其中,所述分割單元根據(jù)該第二搜索方法,以比第一搜索方法大的單位,將字符串分割成文本塊。
4.根據(jù)權(quán)利要求3所述的文檔處理裝置,其特征在于該多個搜索方法包括第三搜索方法,該第三搜索方法基于字符串中是否出現(xiàn)至少一個單詞搜索文檔,其中,所述分割單元根據(jù)該第三搜索方法,以比第二搜索方法大的單位,將字符串分割成文本塊。
5.一種文檔處理裝置,用來根據(jù)多個搜索方法搜索文檔,該裝置包括分割單元,其根據(jù)多個搜索方法中的每個搜索方法,將包括在從其中創(chuàng)建用于搜索的查詢的文檔中的字符串分割成多個塊;以及創(chuàng)建單元,其基于包括在由所述分割單元獲得的每一塊中的字符串,來創(chuàng)建用于搜索的查詢。
6.根據(jù)權(quán)利要求5所述的文檔處理裝置,其特征在于該多個搜索方法包括第一搜索方法,該第一搜索方法基于包括在字符串中的單詞間的關(guān)系搜索文檔,其中,所述分割單元根據(jù)該第一搜索方法,將字符串分割成文本塊,每一文本塊形成一個句子。
7.根據(jù)權(quán)利要求6所述的文檔處理裝置,其特征在于該多個搜索方法包括第二搜索方法,該第二搜索方法基于包括在字符串中的單詞的概念搜索文檔,其中,所述分割單元根據(jù)該第二搜索方法,以比第一搜索方法大的單位,將字符串分割成文本塊。
8.根據(jù)權(quán)利要求7所述的文檔處理裝置,其特征在于該多個搜索方法包括第三搜索方法,該第三搜索方法基于字符串中是否出現(xiàn)至少一個單詞搜索文檔,其中,所述分割單元根據(jù)該第三搜索方法,以比第二搜索方法大的單位,將字符串分割成文本塊。
9.一種文檔處理裝置的控制方法,用于根據(jù)多個搜索方法搜索文檔,該控制方法包括分割步驟,其根據(jù)多個搜索方法中的每個搜索方法,將目標(biāo)文檔分割成多個塊;以及創(chuàng)建步驟,其根據(jù)每一搜索方法,基于包括在由所述分割步驟獲得的每一塊中的字符串,來創(chuàng)建目標(biāo)文檔的索引。
10.根據(jù)權(quán)利要求9所述的文檔處理裝置的控制方法,其特征在于該多個搜索方法包括第一搜索方法,該第一搜索方法基于包括在字符串中的單詞間的關(guān)系搜索文檔,其中,在所述分割步驟中,根據(jù)該第一搜索方法,將字符串分割成文本塊,每一文本塊形成一個句子。
11.根據(jù)權(quán)利要求10所述的文檔處理裝置的控制方法,其特征在于該多個搜索方法包括第二搜索方法,該第二搜索方法基于包括在字符串中的單詞的概念搜索文檔,其中,在所述分割步驟中,根據(jù)該第二搜索方法,以比第一搜索方法大的單位,將字符串分割成文本塊。
12.根據(jù)權(quán)利要求11所述的文檔處理裝置的控制方法,其特征在于該多個搜索方法包括第三搜索方法,該第三搜索方法基于字符串中是否出現(xiàn)至少一個單詞搜索文檔,其中,在所述分割步驟中,根據(jù)該第三搜索方法,以比第二搜索方法大的單位,將字符串分割成文本塊。
13.一種文檔處理裝置的控制方法,用于根據(jù)多個搜索方法搜索文檔,該控制方法包括分割步驟,其根據(jù)多個搜索方法中的每個搜索方法,將包括在從其中創(chuàng)建用于搜索的查詢的文檔中的字符串分割成多個塊;以及創(chuàng)建步驟,其基于包括在由所述分割步驟獲得的每一塊中的字符串,來創(chuàng)建用于搜索的查詢。
14.根據(jù)權(quán)利要求13所述的文檔處理裝置的控制方法,其特征在于該多個搜索方法包括第一搜索方法,該第一搜索方法基于包括在字符串中的單詞間的關(guān)系搜索文檔,其中,在所述分割步驟中,根據(jù)該第一搜索方法,將字符串分割成文本塊,每一文本塊形成一個句子。
15.根據(jù)權(quán)利要求14所述的文檔處理裝置的控制方法,其特征在于該多個搜索方法包括第二搜索方法,該第二搜索方法基于包括在字符串中的單詞的概念搜索文檔,其中,在所述分割步驟中,根據(jù)該第二搜索方法,以比第一搜索方法大的單位,將字符串分割成文本塊。
16.根據(jù)權(quán)利要求15所述的文檔處理裝置的控制方法,其特征在于該多個搜索方法包括第三搜索方法,該第三搜索方法基于字符串中是否出現(xiàn)至少一個單詞搜索文檔,其中,在所述分割步驟中,根據(jù)該第三搜索方法,以比第二搜索方法大的單位,將字符串分割成文本塊。
全文摘要
一種搜索文檔的文檔處理裝置及其控制方法,能夠快速和準(zhǔn)確地找到待搜索的對象。根據(jù)多個搜索引擎的每一個,將目標(biāo)文檔分割成多個文本塊。根據(jù)每一搜索引擎,基于包括在每一文本塊中的字符串,來創(chuàng)建目標(biāo)文檔的索引。
文檔編號G06F17/21GK1744087SQ20051009857
公開日2006年3月8日 申請日期2005年9月2日 優(yōu)先權(quán)日2004年9月2日
發(fā)明者工藤朋紀(jì) 申請人:佳能株式會社