專利名稱:一種電子文檔全文檢索的方法及系統(tǒng)的制作方法
技術領域:
本發(fā)明涉及信息管理領域,具體涉及信息管理中的一種進行電子文檔 全文搜索的系統(tǒng)和方法。
背景技術:
傳統(tǒng)的信息管理的方式是采用以紙張為載體的信息分類管理,容量 小,保存難。隨著計算機產(chǎn)業(yè)的發(fā)展,以計算機存儲設備為載體的電子文 檔隨即出現(xiàn),但是,現(xiàn)在多數(shù)企業(yè)仍然沿用傳統(tǒng)的分類管理的方式來管理 這些電子文檔,這樣就無法將這些信息有效的管理和利用,造成了信息巨 大的浪費。同時,對于企業(yè)來說,往往會迷失在海量的信息中,無法快速 找到自己需要的信息。
發(fā)明內(nèi)容
本發(fā)明要解決的技術問題是提供一種電子文檔全文檢索的系統(tǒng)和方 法,便于用戶快速檢索不同類型的電子文檔提供的信息,得到準確的或者 是全面的搜索文檔搜索結(jié)果,使得用戶可迅速定位所需要的文件信息。
為了解決上述問題,本發(fā)明提供了一種電子文檔全文檢索的方法,包
括以下步驟
(1) 根據(jù)用戶配置的數(shù)據(jù)源、索引創(chuàng)建與更新的策略,對該數(shù)據(jù)源 的文檔屬性信息以及與其對應的文本內(nèi)容信息進行信息抽取,并為其中每 個詞分別建立索引,構(gòu)建與該數(shù)據(jù)源對應的全文檢索索引庫;
(2) 接收用戶輸入的查詢內(nèi)容,并根據(jù)其確定查詢條件,在所述全 文檢索索引庫中對該索? 1文件進行查找,得到匹配的文檔屬性信息以及對應的文本內(nèi)容信息;
(3)提取該文本內(nèi)容信息中與用戶搜索相關的摘要信息,并將該摘 要信息與對應的文檔屬性信息 一 同返回給用戶;
進一步的,本發(fā)明所述的方法,其中,步驟(l)中,所述用戶配置 的數(shù)據(jù)源,為一個或者多個電子文檔庫;
進一步的,本發(fā)明所述的方法,其中,步驟(l)中,在所述數(shù)據(jù)源 更新同時,自動同步更新所述全文檢索索引庫內(nèi)的信息,包括以下步驟
(i) 定時掃描電子文檔庫的文檔屬性信息與文本內(nèi)容信息;
(ii) 提取所述文檔的當前信息,并與全文檢索索引庫中電子文檔的 歷史信息進4于對比;
(iii) 將有更新操作的文檔,在全文檢索索引庫中同步進行更新操作; 進一步的,本發(fā)明所述的方法,其中,步驟(2)中,進一步包括以
下步驟
(2a)接收用戶輸入的查詢內(nèi)容,根據(jù)關鍵詞提取策略對用戶提供的 查詢內(nèi)容進行關鍵詞提??;
(2b)根據(jù)提取出的關鍵詞所形成的查詢條件,在所述全文檢索索引 庫中對該索? 1文件進行查找,得到匹配的文檔屬性信息與對應的文本內(nèi)容 信息;
進一步的,本發(fā)明所述的方法,其中,所述查詢內(nèi)容,包括以下內(nèi)容 之一或多個的組合文檔內(nèi)容、文檔摘要、文檔標題、文檔創(chuàng)建時間、文 檔更新時間、文檔作者、文檔類型、文檔大小以及文檔路徑;
進一步的,本發(fā)明所述的方法,其中,所述文檔屬性信息,包括文 檔標題、文檔創(chuàng)建時間、文檔更新時間、文檔作者、文檔類型、文檔大小 以及文檔路徑;所述文本內(nèi)容信息,包括文檔內(nèi)容、與文檔摘要;
本發(fā)明所述的方法,其中,步驟(3)中,進一步包括
當用戶輸入的查詢內(nèi)容未包括文檔內(nèi)容時,提取該文本內(nèi)容信息中的 文檔摘要作為摘要信息,與對應的文檔屬性信息一同返回給用戶;當用戶輸入的查詢內(nèi)容包括文檔內(nèi)容時,根據(jù)關鍵詞對文本內(nèi)容信息 中的文檔內(nèi)容進行檢索,提取其中命中關鍵字的文檔內(nèi)容片段作為摘要信
息,與對應的文檔屬性信息一同返回給用戶;
為了解決上述問題,本發(fā)明還提供了一種電子文檔全文搜索系統(tǒng),包
括
索引模塊,根據(jù)用戶配置的數(shù)據(jù)源、索引更新與重建的策略對全文索 1進行維護,抽取該數(shù)據(jù)源中文檔屬性信息以及與其對應的文本內(nèi)容信 息,并為其中的每個詞分別創(chuàng)建索引信息,構(gòu)建與該數(shù)據(jù)源對應的全文檢 索索引庫;
查詢?nèi)肟谀K,用于接收用戶輸入的查詢內(nèi)容,并將其發(fā)送給查詢模 塊進行處理,還用于調(diào)用查詢模塊在文本內(nèi)容信息中提取摘要信息,并將 查詢模塊返回的摘要信息與對應的文檔屬性信息 一起反饋給用戶;
查詢模塊,用于根據(jù)輸入的查詢內(nèi)容確定查詢條件,在所述全文檢索 索引庫中對索引文件進行查詢,經(jīng)查詢?nèi)肟?^莫塊調(diào)用,在查詢到的文本內(nèi)
容信息中提取摘要信息,并將其與對應的文檔屬性信息一起返回給查詢?nèi)?br>
口模塊;
進一步的,本發(fā)明所述的系統(tǒng),其中,所述查詢內(nèi)容,包括以下內(nèi)容 之一或多個的組合文檔內(nèi)容、文檔摘要、文檔標題、文檔創(chuàng)建時間、文 檔更新時間、文檔作者、文檔類型、文檔大小以及文檔路徑;所述文檔屬 性信息,包括文檔標題、文檔創(chuàng)建時間、文檔更新時間、文檔作者、文 檔類型、文檔大小以及文檔路徑;所述文本內(nèi)容信息,包括文檔內(nèi)容、 與文檔摘要;
進一步的,本發(fā)明所述的系統(tǒng),其中,所述查詢模塊,包括
摘要生成模塊,經(jīng)查詢?nèi)肟谀K調(diào)用,用于在查詢到的文本內(nèi)容信息 中提取與用戶搜索相關的摘要信息,并將其與對應的文檔屬性信息一起返 回給查詢?nèi)肟谀K;
關鍵詞提取模塊,用于接收查詢?nèi)肟谀K發(fā)送來的查詢內(nèi)容,根據(jù)關 鍵詞提取策略,對用戶輸入的查詢內(nèi)容進行關鍵詞提取,并將提取的關鍵詞返回查詢?nèi)肟谀K來向數(shù)據(jù)查詢模塊轉(zhuǎn)發(fā);
數(shù)據(jù)查詢模塊,用于接收由查詢?nèi)肟谀K發(fā)送來的關鍵詞信息,并根
據(jù)關鍵詞所形成的查詢條件,在所述全文檢索索引庫中對索引文件進行查
詢,得到匹配用戶查詢要求的文檔屬性信息以及與其對應的文本內(nèi)容信 自
進一步的,本發(fā)明所述的系統(tǒng),其中,當用戶輸入的查詢內(nèi)容未包括 文檔內(nèi)容時,所述摘要生成模塊,提取該文本內(nèi)容信息中的文檔摘要作為
摘要信息,與對應的文檔屬性信息一同返回給查詢?nèi)肟谀K;
當用戶輸入的查詢內(nèi)容包括文檔內(nèi)容時,所述摘要生成模塊,根據(jù)關 鍵詞對文本內(nèi)容信息中的文檔內(nèi)容進行檢索,提取其中命中關鍵字的文檔 內(nèi)容片段作為摘要信息,與對應的文檔屬性信息一同返回給查詢?nèi)肟谀?br>
塊;
進一步的,本發(fā)明所述的系統(tǒng),其中,所述查詢?nèi)肟谀K,還用于將
用戶的查詢內(nèi)容發(fā)送給關鍵詞提取模塊進行處理;并接收從關鍵詞提取模 塊返回的關鍵詞信息,將該信息發(fā)送給數(shù)據(jù)查詢模塊進行查詢;在數(shù)據(jù)查 詢模塊得到匹配用戶查詢要求的文檔屬性信息以及與其對應的文本內(nèi)容 信息后,調(diào)用摘要生成模塊在該文本內(nèi)容信息中提取與用戶搜索相關的摘 要信息,與對應的文檔屬性信息一同返回給用戶;
進一步的,本發(fā)明所述的系統(tǒng),其中,所述索引模塊,包括
索引維護模塊,根據(jù)用戶配置的數(shù)據(jù)源、索引更新與重建的策略對全
文索引進行維護,調(diào)用文檔信息抽取模塊對該數(shù)據(jù)源中的文檔屬性信息以
及與其對應的文本內(nèi)容信息進行信息抽取,并調(diào)用索引創(chuàng)建模塊為其中的
每個詞分別創(chuàng)建索引信息,構(gòu)建與該數(shù)據(jù)源對應的全文檢索索引庫;在用
戶配置的數(shù)據(jù)源更新的同時,自動同步更新所述全文檢索索引庫內(nèi)的信 自
文本信息抽取模塊,用于從不同格式的數(shù)據(jù)源中提取文檔屬性信息以
及與其對應的文本內(nèi)容信息;
索引創(chuàng)建模塊,用于對所述文檔屬性信息以及與其對應的文本內(nèi)容信息中的每個詞分別建立索引,指明該詞所在的文檔及在文檔中出現(xiàn)的次數(shù)
和位置;
進一步的,本發(fā)明所述的系統(tǒng),其中,所述用戶配置的數(shù)據(jù)源,為一 個或者多個電子文檔庫。
與現(xiàn)有技術相比,本發(fā)明所述系統(tǒng)和方法,具有如下主要有益效果
1) 用戶可通過輸入文件的名稱、作者、修改日期等信息得到文檔信
息;
2) 用戶可通過輸入文檔相關內(nèi)容得到文檔信息;
3) 用戶可以通過輸入完備的條件得到準確的文檔結(jié)果,或者模糊的 條件得到更多的文檔結(jié)果;
4) 用戶得到搜索結(jié)果后,可以通過瀏覽文檔的摘要信息,快速掌握 文檔相關內(nèi)容;
5) 用戶配置文檔庫信息后,文檔庫中的變動的信息自動同步到索引 庫。用戶搜索的文檔信息均為最新的文檔信息。
圖l是本發(fā)明實施例的電子文檔全文搜索系統(tǒng)的框圖2是本發(fā)明另一實施例的電子文檔全文搜索系統(tǒng)的框圖3是圖1和圖2所示的搜索系統(tǒng)進行電子文檔全文搜索的方法流程圖。
具體實施例方式
本發(fā)明為了解決傳統(tǒng)技術方案存在的弊端,通過以下具體實施例進一 步闡述本發(fā)明所述的一種電子文檔全文檢索的方法及系統(tǒng),以下對具體實 施方式進行詳細描述,^fa不作為對本發(fā)明的限定。本發(fā)明的系統(tǒng)和方法,可以自動形成與一個或者多個電子文檔庫(數(shù) 據(jù)源)對應的全文檢索索引庫。在用戶進行查詢時,可對用戶的輸入進行 分析,自動提取用戶輸入的關鍵詞匯,并利用這些關鍵詞在該系統(tǒng)的索引 庫中進行搜索,返回符合用戶要求的文檔搜索結(jié)果。用戶的搜索條件,可 包括文檔標題、文檔內(nèi)容、文檔摘要、文檔更新時間、文檔作者等。搜索 結(jié)果中可包括文檔標題,文檔更新時間,文檔類型,文檔大小,文檔內(nèi)容, 文檔摘要,文檔路徑等文檔信息。
圖1與圖2分別為兩種電子文檔全文搜索系統(tǒng)。我們以圖1為例,進 行具體描述。
如圖l所示,是本發(fā)明實施例的電子文檔全文搜索系統(tǒng)的框圖,該系 統(tǒng)包括查詢?nèi)肟谀KIO,以及索引模塊30和查詢模塊20;
其中,查詢模塊20,又包括
摘要生成模塊201,經(jīng)查詢?nèi)肟谀KIO調(diào)用,用于在查詢到的文本 內(nèi)容信息中提取與用戶搜索相關的摘要信息,并將其與對應的文檔屬性信 息一起返回給查詢?nèi)肟谀K;
當用戶輸入的查詢內(nèi)容未包括文檔內(nèi)容時,所述摘要生成模塊201提 取該文本內(nèi)容信息中的文檔摘要作為摘要信息;
當用戶輸入的查詢內(nèi)容包括文檔內(nèi)容時,所述摘要生成模塊201根據(jù) 關鍵詞對文本內(nèi)容信息中的文檔內(nèi)容進行檢索,提取其中命中關鍵字的文 檔內(nèi)容片段作為摘要信息;
關鍵詞提取模塊202,用于接收查詢?nèi)肟谀KIO發(fā)送來的查詢內(nèi)容, 根據(jù)不同的關鍵詞提取策略,對用戶輸入的查詢內(nèi)容進行關鍵詞提取,并 將提取的關鍵詞返回給查詢?nèi)肟谀K10來向數(shù)據(jù)查詢模塊203轉(zhuǎn)發(fā);如 果將查詢方式限定為輸入關鍵詞,也可以不設置該模塊;
所述查詢內(nèi)容,包括以下內(nèi)容之一或多個的組合文檔內(nèi)容、文檔摘 要、文檔標題、文檔更新時間、文檔創(chuàng)建時間、文檔作者、文檔類型、文檔大小以及文檔路徑等等;
其關鍵詞提取策略可采用機械分詞法中的最大左匹配法的方式對用 戶輸入內(nèi)容進行分詞操作,并將分詞結(jié)果作為關鍵詞;所述關鍵詞查找方 法也可以是其他的查找方法,如基于理解的分詞法、基于統(tǒng)計的分詞法等 等;
數(shù)據(jù)查詢模塊203,用于接收由查詢?nèi)肟谀KIO發(fā)送來的關鍵詞信 息,并根據(jù)關鍵詞所形成的查詢條件,在全文檢索索引庫中對索引文件進 行查詢,得到匹配用戶查詢要求的文檔屬性信息以及與其對應的文本內(nèi)容 信息;所述文檔屬性信息,包括文檔標題、文檔創(chuàng)建時間、文檔更新時 間、文檔作者、文檔類型、文檔大小以及文檔路徑;所述文本內(nèi)容信息, 包括文檔內(nèi)容、與文檔摘要;
其中,索引模塊30,又包括
索引維護模塊301,根據(jù)用戶配置的數(shù)據(jù)源、索引更新與重建的策略 對全文索引進行維護,調(diào)用文檔信息抽取模塊302對該數(shù)據(jù)源中的文檔屬 性信息以及與其對應的文本內(nèi)容信息進行信息抽取,并調(diào)用索引創(chuàng)建模塊 303創(chuàng)建索引信息,構(gòu)建與該數(shù)據(jù)源對應的全文檢索索引庫;在用戶配置 的數(shù)據(jù)源更新的同時,自動同步更新所述全文檢索索引庫內(nèi)的信息;
所述更新方法可以采取定時掃描電子文檔庫的信息,提取文檔的當前 信息,并與索引庫中的電子文檔的歷史信息進行對比,對于有更新梯:作的 文檔在索引庫中同步進行更新操作;
文本信息抽取模塊302,用于從不同格式的數(shù)據(jù)源中提取文檔屬性信 息以及與其對應的文本內(nèi)容信息;
該數(shù)據(jù)源電子文檔的類型包括但不限于文本文檔、WORD文檔、PPT 文檔、PDF文檔、EXCEL文檔、HTML文檔等文檔類型;
索引創(chuàng)建模塊303 ,用于對所述文檔屬性信息以及與其對應的文本內(nèi) 容信息中的每一個詞分別建立索引,指明該詞所在的文檔及在文檔中出現(xiàn) 的次數(shù)和位置,當用戶查詢時,檢索程序就根據(jù)事先建立的索引進行查找;其中,查詢?nèi)肟谀K10,通過與外部網(wǎng)絡的交互,接收用戶輸入的
查詢內(nèi)容,并將其發(fā)送給關鍵詞提取模塊202進行處理;并接收從關鍵詞 提取模塊202返回的關鍵詞信息,將該信息發(fā)送給數(shù)據(jù)查詢模塊203進行 查詢;在數(shù)據(jù)查詢模塊得到匹配用戶查詢要求的文檔屬性信息以及與其對 應的文本內(nèi)容信息后,調(diào)用摘要生成模塊201在該文本內(nèi)容信息中提取與 用戶搜索相關的摘要信息,將摘要生成模塊201返回的摘要信息與對應的 文檔屬性信息一起反饋給用戶;
外部網(wǎng)絡,包括IP網(wǎng)絡、WAP網(wǎng)絡等多種網(wǎng)絡,通過HTTP、 TCP/IP 等協(xié)議接入電子文檔全文搜索系統(tǒng);
用戶的查詢條件可以包括 一個或者多個子條件,這些子條件可以使 用邏輯連接符進行連接;文檔的查詢條件可以包括文檔的名稱、文檔的創(chuàng) 建時間、文檔的修改時間、文檔的內(nèi)容、文檔的大小、文檔的類型、文檔 的內(nèi)容等。
如圖3所示,是圖1和圖2所示的搜索系統(tǒng)進行電子文檔全文搜索的 方法流程圖,包括以下步驟
Sl,根據(jù)用戶配置的數(shù)據(jù)源,索引創(chuàng)建與更新的策略,對該數(shù)據(jù)源中 的文檔屬性信息以及與其對應的文本內(nèi)容信息進行信息抽取,并為其中每 個詞分別建立索引,構(gòu)建與該數(shù)據(jù)源對應的全文^r索索引庫;
S2,接收用戶輸入的查詢內(nèi)容;
S3,根據(jù)不同的關鍵詞提取策略對用戶提供的查詢內(nèi)容進行關鍵詞提
取;
S4,根據(jù)提取出的關鍵詞所形成的查詢條件,在所述全文檢索索引庫 中對該索SI文件進行查找,得到匹配的文檔屬性信息以及對應的文本內(nèi)容 4呂息;
S5,提取該文本內(nèi)容信息中與用戶搜索相關的摘要信息,并將該摘要 信息與對應的文檔屬性信息一同返回給用戶;當用戶輸入的查詢內(nèi)容未包括文檔內(nèi)容時,提取該文本內(nèi)容信息中的
文檔摘要作為摘要信息,與對應的文檔屬性信息一同返回給用戶;
當用戶輸入的查詢內(nèi)容包括文檔內(nèi)容時,根據(jù)關鍵詞對文本內(nèi)容信息 中的文檔內(nèi)容進行檢索,提取其中命中關鍵字的文檔內(nèi)容片段作為摘要信 息,與對應的文檔屬性信息一同返回給用戶。
當然,本發(fā)明還可有其他多種實施例,在不背離本發(fā)明精神及其實質(zhì) 的情況下,熟悉本領域的技術人員可根據(jù)本發(fā)明做出各種相應的改變和變 形,但這些相應的改變和變形都應屬于本發(fā)明所附的權(quán)利要求的保護范圍。
權(quán)利要求
1、一種電子文檔全文檢索的方法,其特征在于,包括以下步驟(1)根據(jù)用戶配置的數(shù)據(jù)源、索引創(chuàng)建與更新的策略,對該數(shù)據(jù)源的文檔屬性信息以及與其對應的文本內(nèi)容信息進行抽取,并為其中每個詞分別建立索引,構(gòu)建與該數(shù)據(jù)源對應的全文檢索索引庫;(2)接收用戶輸入的查詢內(nèi)容,并根據(jù)其確定查詢條件,在所述全文檢索索引庫中對該索引文件進行查找,得到匹配的文檔屬性信息以及對應的文本內(nèi)容信息;(3)提取該文本內(nèi)容信息中與用戶搜索相關的摘要信息,并將該摘要信息與對應的文檔屬性信息一同返回給用戶。
2、 如權(quán)利要求l所述的方法,其特征在于,步驟(l)中,所述用戶 配置的數(shù)據(jù)源,為一個或者多個電子文檔庫。
3、 如權(quán)利要求l所述的方法,其特征在于,步驟(l)中,在所述數(shù) 據(jù)源更新同時,自動同步更新所述全文檢索索引庫內(nèi)的信息,包括以下步 驟(i) 定時掃描電子文檔庫的文檔屬性信息與文本內(nèi)容信息;(ii) 提取所述文檔的當前信息,并與全文檢索索引庫中電子文檔的 歷史信息進4于對比;(iii) 將有更新操作的文檔,在全文檢索索引庫中同步進行更新操作。
4、 如權(quán)利要求l所述的方法,其特征在于,步驟(2)中,進一步包 括以下步驟(2a)接收用戶輸入的查詢內(nèi)容,根據(jù)關鍵詞提取策略對用戶提供的 查詢內(nèi)容進行關鍵詞提?。?2b)根據(jù)提取出的關鍵詞所形成的查詢條件,在所述全文檢索索引 庫中對該索引文件進行查找,得到匹配的文檔屬性信息與對應的文本內(nèi)容4呂息。
5、 如權(quán)利要求1或4所述的方法,其特征在于,所述查詢內(nèi)容,包 括以下內(nèi)容之一或多個的組合文檔內(nèi)容、文檔摘要、文檔標題、文檔創(chuàng) 建時間、文檔更新時間、文檔作者、文檔類型、文檔大小以及文檔路徑。
6、 如權(quán)利要求1或3或4所述的方法,其特征在于,所述文檔屬性 信息,包括文檔標題、文檔創(chuàng)建時間、文檔更新時間、文檔作者、文檔 類型、文檔大小以及文檔路徑;所述文本內(nèi)容信息,包括文檔內(nèi)容、與文檔摘要。
7、 如權(quán)利要求5或6所述的方法,其特征在于,步驟(3)中,進一 步包括當用戶輸入的查詢內(nèi)容未包括文檔內(nèi)容時,提取該文本內(nèi)容信息中的 文檔摘要作為摘要信息,與對應的文檔屬性信息一同返回給用戶;當用戶輸入的查詢內(nèi)容包括文檔內(nèi)容時,根據(jù)關鍵詞對文本內(nèi)容信息 中的文檔內(nèi)容進行檢索,提取其中命中關鍵字的文檔內(nèi)容片段作為摘要信 息,與對應的文檔屬性信息一同返回給用戶。
8、 一種電子文檔全文搜索系統(tǒng),其特征在于,包括索引模塊,根據(jù)用戶配置的數(shù)據(jù)源、索引更新與重建的策略對全文索 引進行維護,抽取該數(shù)據(jù)源中文檔屬性信息以及與其對應的文本內(nèi)容信 息,并為其中的每個詞分別創(chuàng)建索引信息,構(gòu)建與該數(shù)據(jù)源對應的全文檢 索索引庫;查詢?nèi)肟谀K,用于接收用戶輸入的查詢內(nèi)容,并將其發(fā)送給查詢模 塊進行處理,還用于調(diào)用查詢模塊在文本內(nèi)容信息中提取摘要信息,并將 查詢模塊返回的摘要信息與對應的文檔屬性信息一起反饋給用戶;查詢模塊,用于根據(jù)輸入的查詢內(nèi)容確定查詢條件,在所述全文檢索 索引庫中對索引文件進行查詢,經(jīng)查詢?nèi)肟谀K調(diào)用,在查詢到的文本內(nèi) 容信息中提取摘要信息,并將其與對應的文檔屬性信息一起返回給查詢?nèi)?口模塊。
9、 如權(quán)利要求8所述的系統(tǒng),其特征在于,所述查詢內(nèi)容,包括以下內(nèi)容之一或多個的組合文檔內(nèi)容、文檔摘要、文檔標題、文檔創(chuàng)建時 間、文檔更新時間、文檔作者、文檔類型、文檔大小以及文檔路徑;所述文檔屬性信息,包括文檔標題、文檔創(chuàng)建時間、文檔更新時間、 文檔作者、文檔類型、文檔大小以及文檔路徑;所述文本內(nèi)容信息,包括文檔內(nèi)容、與文檔摘要。
10、 如權(quán)利要求9所述的系統(tǒng),其特征在于,所述查詢模塊,包括摘要生成模塊,經(jīng)查詢?nèi)肟谀K調(diào)用,用于在查詢到的文本內(nèi)容信息 中提取與用戶搜索相關的摘要信息,并將其與對應的文檔屬性信息一起返 回給查詢?nèi)肟谀K;關鍵詞提取模塊,用于接收查詢?nèi)肟谀K發(fā)送來的查詢內(nèi)容,根據(jù)關 鍵詞提取策略,對用戶輸入的查詢內(nèi)容進行關鍵詞提取,并將提取的關鍵 詞返回查詢?nèi)肟谀K來向數(shù)據(jù)查詢模塊轉(zhuǎn)發(fā);數(shù)據(jù)查詢模塊,用于接收由查詢?nèi)肟谀K發(fā)送來的關鍵詞信息,并根 據(jù)關鍵詞所形成的查詢條件,在所述全文檢索索引庫中對索引文件進行查詢,得到匹配用戶查詢要求的文檔屬性信息以及與其對應的文本內(nèi)容信自
11、 如權(quán)利要求10所述的系統(tǒng),其特征在于,當用戶輸入的查詢內(nèi) 容未包括文檔內(nèi)容時,所述摘要生成模塊,提取該文本內(nèi)容信息中的文檔 摘要作為摘要信息,與對應的文檔屬性信息 一 同返回給查詢?nèi)肟谀K;當用戶輸入的查詢內(nèi)容包括文檔內(nèi)容時,所述摘要生成模塊,根據(jù)關 鍵詞對文本內(nèi)容信息中的文檔內(nèi)容進行檢索,提取其中命中關鍵字的文檔 內(nèi)容片段作為摘要信息,與對應的文檔屬性信息一同返回給查詢?nèi)肟谀K。
12、 如權(quán)利要求10所述的系統(tǒng),其特征在于,所述查詢?nèi)肟谀K, 還用于將用戶的查詢內(nèi)容發(fā)送給關鍵詞提取模塊進行處理;并接收從關鍵 詞提取模塊返回的關鍵詞信息,將該信息發(fā)送給數(shù)據(jù)查詢模塊進行查詢; 在數(shù)據(jù)查詢模塊得到匹配用戶查詢要求的文檔屬性信息以及與其對應的文本內(nèi)容信息后,調(diào)用摘要生成模塊在該文本內(nèi)容信息中提取與用戶搜索 相關的摘要信息,與對應的文檔屬性信息一同返回給用戶。
13、 如權(quán)利要求8所述的系統(tǒng),其特征在于,所述索引模塊,包括索引維護模塊,根據(jù)用戶配置的數(shù)據(jù)源、索引更新與重建的策略對全 文索引進行維護,調(diào)用文檔信息抽取模塊對該數(shù)據(jù)源中的文檔屬性信息以 及與其對應的文本內(nèi)容信息進行信息抽取,并調(diào)用索引創(chuàng)建模塊為其中的每個詞分別創(chuàng)建索引信息,構(gòu)建與該數(shù)據(jù)源對應的全文檢索索引庫;在用 戶配置的數(shù)據(jù)源更新的同時,自動同步更新所述全文檢索索引庫內(nèi)的信息;文本信息抽取模塊,用于從不同格式的數(shù)據(jù)源中提取文檔屬性信息以及與其對應的文本內(nèi)容信息;索引創(chuàng)建模塊,用于對所述文檔屬性信息以及與其對應的文本內(nèi)容信 息中的每個詞分別建立索引,指明該詞所在的文檔及在文檔中出現(xiàn)的次數(shù) 和位置。
14、 如權(quán)利要求8或13所述的系統(tǒng),其特征在于,所述用戶配置的 數(shù)據(jù)源,為一個或者多個電子文檔庫。
全文摘要
本發(fā)明公開了一種電子文檔全文搜索系統(tǒng)及方法,其中,所述方法,包括以下步驟(1)根據(jù)用戶配置的數(shù)據(jù)源、索引創(chuàng)建與更新的策略,對該數(shù)據(jù)源的文本信息進行抽取,并為其中每個詞分別建立索引,構(gòu)建與該數(shù)據(jù)源對應的全文檢索索引庫;(2)接收用戶輸入的查詢內(nèi)容,并根據(jù)其確定查詢條件,在所述全文檢索索引庫中對該索引文件進行查找,得到匹配的文檔信息;(3)對所述匹配的文檔信息進行調(diào)整,提取該文檔信息中與用戶搜索相關的摘要信息,并將其返回給用戶。本發(fā)明所述的系統(tǒng)和方法,便于用戶快速檢索不同類型的電子文檔提供的信息,得到準確的或者是全面的搜索文檔搜索結(jié)果,使得用戶可迅速定位所需要的文件信息。
文檔編號G06F17/30GK101408876SQ200710140688
公開日2009年4月15日 申請日期2007年10月9日 優(yōu)先權(quán)日2007年10月9日
發(fā)明者劉麗麗, 英 李 申請人:中興通訊股份有限公司