欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于打印文檔的全文檢索方法

文檔序號:6375812閱讀:385來源:國知局
專利名稱:一種基于打印文檔的全文檢索方法
技術領域
本發(fā)明涉及打印相關的信息管理與信息安全領域,即涉及一種基于打印文檔的全文檢索方法。
背景技術
政府、企業(yè)、軍隊、軍工單位的打印管理、打印安全系統(tǒng),對打印相關的身份認證、水印添加、日志跟蹤、審計、統(tǒng)計分析等進行了管理,但是對于打印文檔數(shù)據(jù)庫的關鍵信息追查、數(shù)據(jù)庫深度挖掘還沒有成熟的方案。沒有全文檢索技術的支持,在海量的打印文檔庫中,涉密關鍵信息的查詢、分類統(tǒng)計猶如大海撈針,為打印信息的管理、監(jiān)控、跟蹤帶來了很大的困難。同時,深度數(shù)據(jù)挖掘、統(tǒng)計分析企業(yè)打印記錄,為企業(yè)戰(zhàn)略發(fā)展提供決策分析更是無從下手。搜索技術廣泛應用于互聯(lián)網(wǎng)環(huán)境,即對檢索對象數(shù)據(jù)源,經(jīng)過加工處理建立信 息數(shù)據(jù)庫和索引數(shù)據(jù)庫,從而對用戶提出的各種檢索做出響應,提供用戶所需的信息或相關指針。用戶的檢索途徑主要包括自由詞全文檢索、關鍵詞檢索、分類檢索及其他特殊信息的檢索。搜索技術是對數(shù)據(jù)源進行整理,按照用戶要求把信息反饋給用戶。搜索技術的工作主要分三點;建立索引數(shù)據(jù)庫、在索引數(shù)據(jù)庫中搜索并排序、將數(shù)據(jù)庫記錄反饋給用戶。索引技術是搜索的核心技術之一,對收集到的信息進行整理、分類、索引以產(chǎn)生索引庫,中文搜索核心是分詞技術。分詞技術是利用一定的規(guī)則和詞庫,切分出一個句子中的詞,為搜索做好準備。索引器生成從關鍵詞到索引資源單元的關系索引表。索引表一般使用某種形式的倒排表,即由索引項查找相對應的索引資源單元。索引表也要記錄索引項在文檔中出現(xiàn)過的位置,以便檢索器計算索引項之間的相鄰關系或者相近關系,并以特定的數(shù)據(jù)結構進行物理存儲。搜索器主要是根據(jù)用戶錄入的關鍵詞在索引器形成的倒排表中進行檢索,同時完成頁面與檢索之間的相關度評價,對將要輸出的結果進行排序,并實現(xiàn)某種用戶相關性反饋機制。通過搜索引擎獲得的檢索結果往往成百上千,為了得到有用的信息,常用的技術是按搜索單元的重要性或相關性給搜索單元評級,進行相關性排序。這里的相關度是指搜索關鍵字在文檔中出現(xiàn)的額度。當額度越高時,則認為該文檔的相關程度越高?,F(xiàn)有的搜索技術廣泛應用于互聯(lián)網(wǎng)、電子圖書、行業(yè)應用系統(tǒng)等,但針對打印管理、打印安全系統(tǒng)的應用還是個空白。在實現(xiàn)本發(fā)明過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有打印系統(tǒng)關注點多停留在身份認證、打印文檔管理、打印文檔閉環(huán)跟蹤、打印文檔統(tǒng)計分析,但針對打印文檔的數(shù)據(jù)搜索、打印文檔數(shù)據(jù)關鍵信息統(tǒng)計分析沒有實現(xiàn)。

發(fā)明內(nèi)容
本發(fā)明旨在提供一種基于打印文檔的全文檢索方法,能夠解決現(xiàn)有系統(tǒng)中針對打印文檔庫關鍵信息沒有深度挖掘的問題,導致涉密文檔安全預警不夠全面、沒有完善的數(shù)據(jù)統(tǒng)計分析、泄密文檔追查不夠徹底、涉密文檔統(tǒng)計不夠準確?;诖蛴∥臋n的全文檢索方法的實現(xiàn),為打印系統(tǒng)的智能化進行了鋪墊。一種基于打印文檔的全文檢索方法,包括打印內(nèi)容文字提取模塊,用于提取打印文檔中的文字信息,作為全文搜索的數(shù)據(jù)源;搜索引擎模塊,用于對用戶錄入關鍵信息進行搜索、分析,并將搜索結果反饋給用戶。優(yōu)選地,所述打印內(nèi)容文字提取模塊包括打印任務截獲單元,用于截獲所有打印任務,為提取打印文檔內(nèi)容做準備;提取文字內(nèi)容單元,用于提取打印文檔的文字內(nèi)容;保存文字內(nèi)容單元,用于將提取出來的文字內(nèi)容,保存到文件中,以便進行全文檢索。優(yōu)選地,所述搜索引擎模塊包括搜索Π單元,用于用戶交互,接收用戶錄入的搜索條件,并顯示搜索結果;索引器單元,用于以打印文檔為基礎,以每份打印文檔為單位,抽取該打印文檔的索引項并記錄到索引數(shù)據(jù)庫中;檢索器單元,用于根據(jù)用戶的檢索,在索引庫中找出打印文檔,進行相關度匹配,搜索相關度匹配的打印文檔搜索結果。優(yōu)選地,搜索Π單元包括搜索范圍設定、關鍵詞設定、關鍵詞搜索、搜索結果排序、打印任務搜索結果列表顯示單元;用戶在Π頁面輸入組織類型、個人信息、文檔密級、 文檔用途、打印時間等搜索范圍信息,根據(jù)本次查詢的關鍵詞,將搜索范圍設定、關鍵詞信息提交搜索引擎進行搜索,根據(jù)搜索引擎的搜索結果,對搜索結果進行顯示排序,最終將打印任務列表信息顯示給用戶,用戶可對打印任務列表顯示的詳細列進行靈活配置,以顯示用戶關心的打印任務信息。優(yōu)選地,所述索引器單元是根據(jù)提取的打印文檔文字信息,將打印文檔信息表示為一種便于檢索的方式并存儲在索引數(shù)據(jù)庫中生成文檔庫的索引表;由索引項找相應的打印文檔,將打印文檔集合排序存儲的同時有一個排好序的關鍵詞列表,用于存儲關鍵詞到打印文檔的映射關系索引表。優(yōu)選地,所述檢索器單元是根據(jù)用戶的查詢,在索引庫中找出相關打印文檔,進行打印文檔與查詢的相關度評價,返回符合設定閥值的打印文檔集合。在上述方案中,通過對打印文檔的文字提取,對打印文檔的文字內(nèi)容建立索引,對用戶關心的關鍵字信息,能夠?qū)ο嚓P打印文檔進行搜索、統(tǒng)計、分析,克服了現(xiàn)有方法中對于打印文檔關鍵字信息的全面檢索、大量分析的缺失現(xiàn)象。導致企事業(yè)單位對于打印文檔庫的文檔內(nèi)容無法全面、立體、深度分析,泄密文檔的內(nèi)容排查帶來了很大的困難,同時由于沒有對文檔庫深度挖掘,對于單位今后涉密信息管控的決策制定也缺乏數(shù)據(jù)支持和理論指導。


此處所說明的附圖用來提供對本發(fā)明的進一步理解,構成本申請的一部分,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構成對本發(fā)名的不當限定。在附圖中
圖I示出了基于打印文檔的全文檢索方法的示意 圖2示出了打印文檔文字提取模塊的流程 圖3示出了搜索引擎模塊的結構 圖4示出了搜索引擎模塊的搜索Π子模塊的流程 圖5示出了搜索引擎模塊的索引器子模塊的流程 圖6示出了搜索引擎模塊的檢索器子模塊的流程圖。
具體實施例方式下面將參考附圖并結合實施例,來詳細說明本發(fā)明。圖I示出了基于打印文檔的全文檢索方法的構成圖,包括 打印內(nèi)容文字提取模塊S1001,用于提取打印文檔中的文字信息,作為全文搜索的數(shù)
據(jù)源;
搜索引擎模塊S1002,用于對用戶錄入關鍵信息進行搜索、分析,并將搜索結果反饋
給用戶。圖2示出了打印內(nèi)容文字提取模塊的流程圖。打印內(nèi)容文字提取模塊包括截獲打印任務單元S2001,用于獲取用戶發(fā)起的打印任務信息,包括用戶帳號、文檔名稱、打印任務ID、打印任務內(nèi)容;提取文字內(nèi)容單元S2002,用于根據(jù)截獲的打印任務信息,提取文檔中的所有文字信息;保存文字內(nèi)容單元S2003,當用戶發(fā)起的打印任務成功打印后,將提取出的文字信息進行保存,保存形式為文件形式。圖3示出了搜索引擎的構成圖。搜索引擎模塊S1002包括搜索Π單元S3002,用于用戶S3001交互,接收用戶錄入的搜索條件,并顯示搜索結果;索引器單元S3004,用于以打印文檔為基礎,以每份打印文檔為單位,抽取該打印文檔的索引項并記錄到索引數(shù)據(jù)庫中;檢索器單元S3005,用于基于索引數(shù)據(jù)庫,根據(jù)用戶搜索的關鍵詞,將關鍵詞與索引數(shù)據(jù)庫進行相關度匹配,搜索相關度匹配的打印文檔搜索結果。如圖4所示,搜索Π單元由搜索范圍設定S4001、關鍵詞設定S4002、關鍵詞搜索S4003、搜索結果排序S4004、打印任務搜索結果列表顯示單元S4005構成。用戶在Π頁面輸入組織類型(單位、部門、組)、個人信息(賬戶名)、文檔密級(內(nèi)部、非密、秘密、機密)、文檔用途(留存、流轉(zhuǎn))、打印時間等搜索范圍信息,根據(jù)本次查詢的關鍵詞,將搜索范圍設定、關鍵詞信息提交搜索引擎進行搜索,根據(jù)搜索引擎的搜索結果,對搜索結果進行顯示排序,最終將打印任務列表信息顯示給用戶,用戶可對打印任務列表顯示的詳細列進行靈活配置,以顯示用戶關心的打印任務信息。如圖5所示,索引器單元是根據(jù)提取的打印文檔S5001文字信息,將打印文檔信息表示為一種便于檢索的方式并存儲在索引數(shù)據(jù)庫中生成文檔庫的索引表。由索引項找相應的打印文檔,將打印文檔集合排序存儲的同時有一個排好序的關鍵詞列表用于存儲關鍵詞一〉打印文檔的映射關系索引表。如圖6所示,檢索器單元是根據(jù)用戶的查詢,在索引庫中找出相關打印文檔,進行打印文檔與查詢的相關度評價,返回符合設定閥值的打印文檔集合。檢索方法采用基于關鍵詞的檢索、基于概念的檢索、基于內(nèi)容的檢索。從以上的描述中,可以看出,本發(fā)明上述的實施例實現(xiàn)了如下方法效果通過方法手段來實現(xiàn)打印文檔的文字信息提取,為打印文檔的數(shù)據(jù)提供資源庫,經(jīng)過對打印文檔文字信息的分析,為每個打印文檔建立索引數(shù)據(jù)庫,提供用戶進行打印文檔查詢的用戶界面,根據(jù)用戶提供的打印文檔的屬性信息和關鍵詞信息,結合打印文檔索引數(shù)據(jù)庫對打印文檔數(shù)據(jù)庫進行相關度查詢,返回符合查詢條件的打印文檔類表,每份打印文檔中與關鍵詞相匹配的文檔部分會進行標識。顯然,本發(fā)明的上述實施例僅僅是為清楚地說明本發(fā)明所作的舉例,而并非是對本發(fā)明的實施方式的限定。對于所屬領域的普通方法人員來說,在上述說明的基礎上還可 以做出其他不同形式的變化和變動。這里無法對所有的實施方式予以窮舉。凡是屬于本發(fā)明的方法方案所引申出的顯而易見的變化或變動仍處于本發(fā)明的保護范圍之列。
權利要求
1.一種基于打印文檔的全文檢索方法,其特征在于,包括 打印內(nèi)容文字提取模塊,用于提取打印文檔中的文字信息,作為全文搜索的數(shù)據(jù)源; 搜索引擎模塊,用于對用戶錄入關鍵信息進行搜索、分析,并將搜索結果反饋給用戶。
2.根據(jù)權利要求I所述的基于打印文檔的全文檢索方法,其特征在于,所述打印內(nèi)容文字提取模塊包括 打印任務截獲單元,用于截獲所有打印任務,為提取打印文檔內(nèi)容做準備; 提取文字內(nèi)容單元,用于提取打印文檔的文字內(nèi)容; 保存文字內(nèi)容單元,用于將提取出來的文字內(nèi)容,保存到文件中,以便進行全文檢索。
3.根據(jù)權利要求I所述的基于打印文檔的全文檢索方法,其特征在于,所述搜索引擎模塊包括 搜索UI單元,用于用戶交互,接收用戶錄入的搜索條件,并顯示搜索結果; 索引器單元,用于以打印文檔為基礎,以每份打印文檔為單位,抽取該打印文檔的索引項并記錄到索引數(shù)據(jù)庫中; 檢索器單元,用于根據(jù)用戶的檢索,在索引庫中找出打印文檔,進行相關度匹配,搜索相關度匹配的打印文檔搜索結果。
4.根據(jù)權利要求3所述的基于打印文檔的全文檢索方法,其特征在于,所述搜索UI單元包括搜索范圍設定、關鍵詞設定、關鍵詞搜索、搜索結果排序、打印任務搜索結果列表顯示單元;用戶在Π頁面輸入組織類型、個人信息、文檔密級、文檔用途、打印時間等搜索范圍信息,根據(jù)本次查詢的關鍵詞,將搜索范圍設定、關鍵詞信息提交搜索引擎進行搜索,根據(jù)搜索引擎的搜索結果,對搜索結果進行顯示排序,最終將打印任務列表信息顯示給用戶,用戶可對打印任務列表顯示的詳細列進行靈活配置,以顯示用戶關心的打印任務信息。
5.根據(jù)權利要求3所述的基于打印文檔的全文檢索方法,其特征在于,所述索引器單元是根據(jù)提取的打印文檔文字信息,將打印文檔信息表示為一種便于檢索的方式并存儲在索弓I數(shù)據(jù)庫中生成文檔庫的索引表;由索引項找相應的打印文檔,將打印文檔集合排序存儲的同時有一個排好序的關鍵詞列表,用于存儲關鍵詞到打印文檔的映射關系索引表。
6.根據(jù)權利要求3所述的基于打印文檔的全文檢索方法,其特征在于,所述檢索器單元是根據(jù)用戶的查詢,在索引庫中找出相關打印文檔,進行打印文檔與查詢的相關度評價,返回符合設定閥值的打印文檔集合。
全文摘要
本發(fā)明提供了一種基于打印文檔的全文檢索技術,包括打印內(nèi)容文字提取模塊、搜索引擎模塊。打印內(nèi)容文字提取模塊,用于提取打印成功文檔中的文字內(nèi)容。搜索引擎模塊,用于對提取的打印內(nèi)容進行分析,形成索引數(shù)據(jù)庫。對于用戶搜索的關鍵字,對索引數(shù)據(jù)庫進行檢索,返回符合搜索條件的打印文檔列表。
文檔編號G06F17/30GK102819612SQ20121031069
公開日2012年12月12日 申請日期2012年8月29日 優(yōu)先權日2012年8月29日
發(fā)明者谷宏兵 申請人:北京鼎盾信息科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
屏山县| 双峰县| 教育| 锦州市| 葵青区| 尼勒克县| 宜川县| 高青县| 邵武市| 新田县| 酉阳| 彰武县| 饶阳县| 黔南| 大邑县| 公主岭市| 华安县| 略阳县| 宣恩县| 玉山县| 林甸县| 陆河县| 谷城县| 尤溪县| 哈巴河县| 青冈县| 望都县| 洛宁县| 年辖:市辖区| 察隅县| 昌黎县| 大同市| 岳阳县| 罗山县| 海南省| 淅川县| 尼玛县| 尚义县| 安平县| 兴和县| 集安市|