專利名稱:文件內(nèi)容檢索系統(tǒng)及方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種文件內(nèi)容檢索系統(tǒng)及方法。
背景技術(shù):
隨著計算機(jī)技術(shù)的普及與發(fā)展,電子文件在我們的工作與生活中被廣泛應(yīng)用,逐步取代 傳統(tǒng)的紙本文件。信息的e化大大加速了信息傳遞的速度,降低了成本,同時也提高了我們 的工作效率。
但在我們享受它為我們帶來巨大便利的同時,如何高效率的査找和利用我們的電子文件 資料成為不得不解決的問題。傳統(tǒng)的文件索引系統(tǒng)將文件資料全部導(dǎo)入數(shù)據(jù)庫,利用數(shù)據(jù)庫 的強(qiáng)大搜索功能完成文件索引。然而,將硬盤中的資料導(dǎo)入到數(shù)據(jù)庫里以利于文件索引作業(yè) ,工作量很大,同時造成資源浪費(fèi),并且當(dāng)文件資料中帶有圖片時,圖片必須通過程序來査 看,還沒有直接存放在硬盤上査看更方便,其效果并不理想。
發(fā)明內(nèi)容
鑒于以上內(nèi)容,有必要提供一種文件內(nèi)容檢索系統(tǒng),可以建立一個比較全面的詞庫,根 據(jù)該詞庫中詞組依次對文件內(nèi)容進(jìn)行檢索,得到一個以詞庫中詞組為目錄的檢索信息表,以 備用戶在對文件進(jìn)行檢索時直接調(diào)用,提高了工作效率。
鑒于以上內(nèi)容,有必要提供一種文件內(nèi)容檢索方法,可以建立一個比較全面的詞庫,根 據(jù)該詞庫中詞組依次對文件內(nèi)容進(jìn)行檢索,得到一個以詞庫中詞組為目錄的檢索信息表,以 備用戶在對文件進(jìn)行檢索時直接調(diào)用,提高了工作效率。
一種文件內(nèi)容檢索系統(tǒng),包括計算機(jī)主機(jī)及與該計算機(jī)主機(jī)相連的詞庫及檢索信息庫, 該計算機(jī)主機(jī)包括獲取模塊,用于依次獲取該詞庫中所有詞組,及獲取該計算機(jī)主機(jī)中所
存儲的需進(jìn)行內(nèi)容檢索文件的格式,并根據(jù)獲取的文件格式打開需進(jìn)行內(nèi)容檢索文件以獲取
文件內(nèi)容;檢索模塊,用于根據(jù)所獲取的詞庫中的詞組及從詞庫中獲取詞組的順序依次對所 述需進(jìn)行內(nèi)容檢索文件的內(nèi)容進(jìn)行檢索以生成各個詞組對應(yīng)的檢索信息,并根據(jù)生成的檢索 信息為所述需進(jìn)行內(nèi)容檢索文件建立一個以詞庫中的詞組為目錄的檢索信息表;保存模塊, 用于將所述檢索信息表保存至該檢索信息庫中;輸入模塊,用于輸入需檢索的詞組;及査詢 模塊,用于在詞庫中査詢所輸入詞組,及根據(jù)所述詞組在檢索信息庫中査詢該詞組所對應(yīng)的 檢索信息。一種文件內(nèi)容檢索方法,該方法包括如下步驟依次獲取詞庫中所有詞組;獲取計算機(jī) 主機(jī)中所存儲的需進(jìn)行內(nèi)容檢索文件的格式,并根據(jù)獲取的文件格式打開需進(jìn)行內(nèi)容檢索文 件以獲取文件內(nèi)容;根據(jù)所獲取的詞庫中的所有詞組及從詞庫中獲取詞組的順序依次對所述 需進(jìn)行內(nèi)容檢索文件的內(nèi)容進(jìn)行檢索以生成各個詞組對應(yīng)的檢索信息,并根據(jù)生成的檢索信 息為所述需進(jìn)行內(nèi)容檢索文件建立一個以詞庫中的詞組為目錄的檢索信息表;將所述檢索信 息表保存至該檢索信息庫中;輸入需檢索的詞組;在詞庫中査詢所輸入詞組;及根據(jù)所述詞 組在檢索信息庫中査詢該詞組所對應(yīng)的檢索信息。
相較于現(xiàn)有技術(shù),本發(fā)明所提供的文件內(nèi)容檢索系統(tǒng)及方法,可根據(jù)詞庫中詞組對文件 內(nèi)容進(jìn)行檢索,得到一個以詞庫中詞組為目錄的檢索信息表,以備用戶在對文件進(jìn)行檢索時 直接調(diào)用,提高了工作效率。
圖1是本發(fā)明文件內(nèi)容檢索系統(tǒng)較佳實施例的硬件架構(gòu)圖。 圖2是圖1中計算機(jī)主機(jī)的功能模塊圖。 圖3是本發(fā)明文件內(nèi)容檢索方法較佳實施例的流程圖。
具體實施例方式
如圖1所示,是本發(fā)明文件內(nèi)容檢索系統(tǒng)較佳實施例的系統(tǒng)架構(gòu)圖。該系統(tǒng)主要包括計 算機(jī)主機(jī)l、詞庫2、檢索信息庫3、顯示器4、鍵盤5及鼠標(biāo)6。該詞庫2及檢索信息庫3分別與 該計算機(jī)主機(jī)l相連,該詞庫2用于存儲常用的詞組,該檢索信息庫4用于存儲對文件內(nèi)容進(jìn) 行檢索的結(jié)果。該計算機(jī)主機(jī)1根據(jù)詞庫2中所有詞組對該計算機(jī)主機(jī)l中需進(jìn)行內(nèi)容檢索文 件的內(nèi)容進(jìn)行檢索,并將檢索的結(jié)果保存至檢索信息庫3中。所述顯示器4、鍵盤5及鼠標(biāo)6分 別與計算機(jī)主機(jī)l相連,用于在文件內(nèi)容檢索過程中相關(guān)信息的輸入和輸出。
如圖2所示,是圖l中計算機(jī)主機(jī)l的功能模塊圖。所述計算機(jī)主機(jī)1包括判斷模塊10、更 新模塊12、獲取模塊14、檢索模塊16、保存模塊18、輸入模塊20、査詢模塊22及顯示模塊 24。
所述判斷模塊10用于判斷該系統(tǒng)中是否出現(xiàn)新的詞組。當(dāng)用戶輸入的檢索詞組不存在于 詞庫2中時,判斷模塊12判斷該系統(tǒng)中出現(xiàn)新的詞組;當(dāng)用戶輸入的檢索詞組存在于詞庫2中 時,判斷模塊12判斷該系統(tǒng)中沒有出現(xiàn)新的詞組。
所述更新模塊12用于當(dāng)該系統(tǒng)中出現(xiàn)新的詞組時,將所述新的詞組更新至該詞庫2中。
所述獲取模塊14用于依次獲取該詞庫2中所有詞組。
所述獲取模塊14還用于獲取計算機(jī)主機(jī)1中所存儲的需進(jìn)行內(nèi)容檢索文件的格式,并根據(jù)獲取的文件格式打開需進(jìn)行內(nèi)容檢索文件以獲取文件內(nèi)容。所述需進(jìn)行內(nèi)容檢索文件包括 ,但不限于,后綴名為.DOC的文件,后綴名為.PDF的文件,各種格式的圖片及Excel文件。
所述檢索模塊16用于根據(jù)所獲取的詞庫2中的詞組及從詞庫2中獲取詞組的順序依次對所 述需進(jìn)行內(nèi)容檢索文件的內(nèi)容進(jìn)行檢索得到檢索信息表。所述檢索模塊16依次檢索所獲取詞 組出現(xiàn)的文件名稱和路徑、在對應(yīng)文件中出現(xiàn)的頻率和相對應(yīng)的位置以生成各個詞組對應(yīng)的 檢索信息,并按照從詞庫中獲取詞組的順序?qū)ι傻母鱾€詞組對應(yīng)的檢索信息進(jìn)行歸納和記 錄,對所述需進(jìn)行內(nèi)容檢索文件建立一個以詞庫2中的詞組為目錄的檢索信息表。所述檢索 信息包括詞組出現(xiàn)的文件名稱和路徑、詞組在文件中出現(xiàn)的頻率和相對應(yīng)的位置。該檢索信 息表包括,但不限于,各個詞組對應(yīng)的標(biāo)識符,每一個標(biāo)識符對應(yīng)的詞組的檢索信息,即每 一個標(biāo)識符對應(yīng)的詞組出現(xiàn)的文件名稱和路徑,每一個標(biāo)識符對應(yīng)的詞組在對應(yīng)文件中出現(xiàn) 的頻率及相對應(yīng)的位置。
所述保存模塊18用于將所述檢索信息表保存至檢索信息庫3中。
所述輸入模塊20用于用戶輸入需檢索的詞組。
所述査詢模塊22用于在詞庫中査詢所輸入詞組的標(biāo)識符。
所述査詢模塊22還用于根據(jù)輸入詞組的標(biāo)識符在檢索信息庫3中査詢該標(biāo)識符所對應(yīng)的 檢索信息。
所述顯示模塊24用于將所述査詢到的檢索信息以列表形式顯示出來。所述列表包括用戶 輸入的檢索詞組、輸入的檢索詞組出現(xiàn)的文件名稱和路徑、輸入的檢索詞組在每一個文件中 出現(xiàn)的頻率及相應(yīng)位置。該列表中各文件的排列順序可按照輸入的檢索詞組在各文件中出現(xiàn) 的頻率從大到小的順序確定。
如圖3所示,是本發(fā)明文件內(nèi)容檢索方法較佳實施例的流程圖。首先,步驟SIO,判斷模 塊10判斷該系統(tǒng)中是否出現(xiàn)新的詞組。當(dāng)用戶輸入的檢索詞組不存在于詞庫2中時,判斷模 塊10判斷該系統(tǒng)中出現(xiàn)新的詞組;當(dāng)用戶輸入的檢索詞組存在于詞庫2中時,判斷模塊12判 斷該系統(tǒng)中沒有出現(xiàn)新的詞組。
步驟S12,當(dāng)該系統(tǒng)中出現(xiàn)新的詞組時,更新模塊12將所述新的詞組更新至該詞庫2中。
步驟S 14,獲取模塊l4依次獲取該詞庫2中所有詞組。
步驟S16,獲取模塊14獲取該計算機(jī)主機(jī)1中所存儲的需進(jìn)行內(nèi)容檢索文件的格式,并根 據(jù)獲取的文件格式打開需進(jìn)行內(nèi)容檢索文件以獲取文件內(nèi)容。
步驟S 18,檢索模塊16根據(jù)所獲取的詞庫2中的詞組及從詞庫2中獲取詞組的順序依次對 所述需進(jìn)行內(nèi)容檢索文件的內(nèi)容進(jìn)行檢索得到檢索信息表。所述檢索模塊16依次檢索所獲取詞組出現(xiàn)的文件名稱和路徑、在對應(yīng)文件中出現(xiàn)的頻率和相對應(yīng)的位置以生成各個詞組對應(yīng) 的檢索信息,并按照從詞庫中獲取詞組的順序?qū)ι傻母鱾€詞組對應(yīng)的檢索信息進(jìn)行歸納和 記錄,對所述需進(jìn)行內(nèi)容檢索文件建立一個以詞庫中的詞組為目錄的檢索信息表。所述檢索 信息包括詞組出現(xiàn)的文件名稱和路徑、詞組在文件中出現(xiàn)的頻率和相對應(yīng)的位置。該檢索信 息表包括,但不限于,各個詞組對應(yīng)的標(biāo)識符,每一個標(biāo)識符對應(yīng)的詞組的檢索信息,即每 一個標(biāo)識符對應(yīng)的詞組出現(xiàn)的文件名稱和路徑,每一個標(biāo)識符對應(yīng)的詞組在對應(yīng)文件中出現(xiàn) 的頻率及相對應(yīng)的位置。
步驟S20,保存模塊18將所述檢索信息表保存至檢索信息庫3中。
步驟S22,用戶利用輸入模塊20輸入需檢索的詞組。
步驟S24,査詢模塊22在詞庫中査詢所輸入詞組的標(biāo)識符。
步驟S26,査詢模塊22根據(jù)輸入詞組的標(biāo)識符在檢索信息庫3中査詢該標(biāo)識符所對應(yīng)的檢 索信息。
步驟S28,顯示模塊24將所述査詢到的檢索信息以列表形式顯示出來。所述列表包括用 戶輸入的檢索詞組、輸入的檢索詞組出現(xiàn)的文件名稱和路徑、輸入的檢索詞組在每一個文件 中出現(xiàn)的頻率及相應(yīng)位置。該列表中各文件的排列順序可按照輸入的檢索詞組在各文件中出 現(xiàn)的頻率從大到小的順序確定。
權(quán)利要求
1.一種文件內(nèi)容檢索系統(tǒng),包括計算機(jī)主機(jī)及與該計算機(jī)主機(jī)相連的詞庫及檢索信息庫,其特征在于,該計算機(jī)主機(jī)包括獲取模塊,用于依次獲取該詞庫中所有詞組,及獲取該計算機(jī)主機(jī)中所存儲的需進(jìn)行內(nèi)容檢索文件的格式,并根據(jù)獲取的文件格式打開需進(jìn)行內(nèi)容檢索文件以獲取文件內(nèi)容;檢索模塊,用于根據(jù)所獲取的詞庫中的詞組及從詞庫中獲取詞組的順序依次對所述需進(jìn)行內(nèi)容檢索文件的內(nèi)容進(jìn)行檢索以生成各個詞組對應(yīng)的檢索信息,并根據(jù)生成的檢索信息為所述需進(jìn)行內(nèi)容檢索文件建立一個以詞庫中的詞組為目錄的檢索信息表;保存模塊,用于將所述檢索信息表保存至該檢索信息庫中;輸入模塊,用于輸入需檢索的詞組;及查詢模塊,用于在詞庫中查詢所輸入詞組,及根據(jù)所述詞組在檢索信息庫中查詢該詞組所對應(yīng)的檢索信息。
2 如權(quán)利要求l所述的文件內(nèi)容檢索系統(tǒng),其特征在于,該系統(tǒng)還包括更新模塊,用于當(dāng)該系統(tǒng)中出現(xiàn)新的詞組時,將所述新的詞組更新至該詞庫中。
3 如權(quán)利要求l所述的文件內(nèi)容檢索系統(tǒng),其特征在于,該系統(tǒng)還包括顯示模塊,用于將所述査詢到的檢索信息以列表形式顯示出來。
4 如權(quán)利要求l, 2或3所述的文件內(nèi)容檢索系統(tǒng),其特征在于,所 述檢索信息表包括各個詞組對應(yīng)的標(biāo)識符,及每一個標(biāo)識符對應(yīng)的詞組的檢索信息,在檢索 信息表中査詢該詞組所對應(yīng)的檢索信息是根據(jù)該詞組所對應(yīng)的標(biāo)識符進(jìn)行。
5 如權(quán)利要求4所述的文件內(nèi)容檢索系統(tǒng),其特征在于,所述檢索 信息包括詞組出現(xiàn)的文件名稱和路徑、詞組在文件中出現(xiàn)的頻率和相對應(yīng)的位置。
6 一種文件內(nèi)容檢索方法,其特征在于,該方法包括如下步驟 依次獲取詞庫中所有詞組;獲取計算機(jī)主機(jī)中所存儲的需進(jìn)行內(nèi)容檢索文件的格式,并根據(jù)獲取的文件格式打開 需進(jìn)行內(nèi)容檢索文件以獲取文件內(nèi)容;根據(jù)所獲取的詞庫中的所有詞組及從詞庫中獲取詞組的順序依次對所述需進(jìn)行內(nèi)容檢 索文件的內(nèi)容進(jìn)行檢索以生成各個詞組對應(yīng)的檢索信息,并根據(jù)生成的檢索信息為所述需進(jìn) 行內(nèi)容檢索文件建立一個以詞庫中的詞組為目錄的檢索信息表;將所述檢索信息表保存至該檢索信息庫中;輸入需檢索的詞組;在詞庫中査詢所輸入詞組;及根據(jù)所述詞組在檢索信息庫中査詢該詞組所對應(yīng)的檢索信息。
7.如權(quán)利要求6所述的文件內(nèi)容檢索方法,其特征在于,在依次獲 取該詞庫中所有詞組的步驟之前還包括步驟當(dāng)系統(tǒng)中出現(xiàn)新的詞組時,將所述新的詞組更新至詞庫中;
8.如權(quán)利要求6所述的文件內(nèi)容檢索方法,其特征在于,該方法還包括步驟將所述査詢到的檢索信息以列表形式顯示出來。
9.如權(quán)利要求6, 7或8所述的文件內(nèi)容檢索方法,其特征在于,所 述檢索信息表包括各個詞組對應(yīng)的標(biāo)識符,及每一個標(biāo)識符對應(yīng)的詞組的檢索信息,在檢索 信息表中査詢該詞組所對應(yīng)的檢索信息是根據(jù)該詞組所對應(yīng)的標(biāo)識符進(jìn)行。
10.如權(quán)利要求9所述的文件內(nèi)容檢索方法,其特征在于,所述檢索 信息包括詞組出現(xiàn)的文件名稱和路徑、詞組在文件中出現(xiàn)的頻率和相對應(yīng)的位置。
全文摘要
一種文件內(nèi)容檢索方法,該方法包括如下步驟依次獲取詞庫中所有詞組;獲取計算機(jī)主機(jī)中所存儲的需進(jìn)行內(nèi)容檢索文件的格式,并根據(jù)獲取的文件格式打開需進(jìn)行內(nèi)容檢索文件以獲取文件內(nèi)容;根據(jù)所獲取的詞庫中的所有詞組及從詞庫中獲取詞組的順序依次對所述需進(jìn)行內(nèi)容檢索文件的內(nèi)容進(jìn)行檢索以生成各個詞組對應(yīng)的檢索信息,并根據(jù)生成的檢索信息為所述需進(jìn)行內(nèi)容檢索文件建立一個以詞庫中的詞組為目錄的檢索信息表;將所述檢索信息表保存至該檢索信息庫中;輸入需檢索的詞組;在詞庫中查詢所輸入詞組;及根據(jù)所述詞組在檢索信息庫中查詢該詞組所對應(yīng)的檢索信息。另外,本發(fā)明還提供一種文件內(nèi)容檢索系統(tǒng)。
文檔編號G06F17/30GK101576897SQ20081030152
公開日2009年11月11日 申請日期2008年5月9日 優(yōu)先權(quán)日2008年5月9日
發(fā)明者常小軍 申請人:鴻富錦精密工業(yè)(深圳)有限公司;鴻海精密工業(yè)股份有限公司