專利名稱:重復(fù)文檔檢測及表示功能的制作方法
技術(shù)領(lǐng)域:
本發(fā)明的各種實(shí)施例涉及信息檢索系統(tǒng),例如那些提供新聞文檔或其它有關(guān)內(nèi)容的系統(tǒng)。
背景技術(shù):
一些公司如Thomson Legal & Regulatory,Inc.of St.Paul,Minnesota(經(jīng)營與Thomson West公司相同的業(yè)務(wù))搜集并存儲各種類型的文檔,包括來自世界各地的新聞,用于在名為WestlawTM的數(shù)據(jù)庫和檢索工具的系統(tǒng)中在線訪問。該Westlaw系統(tǒng)使用戶能夠檢索超過1億的文檔。
本發(fā)明人認(rèn)識到的一個問題是對新聞或其它數(shù)據(jù)庫進(jìn)行的檢索經(jīng)常提供包括重復(fù)文檔——即彼此完全或?qū)嵸|(zhì)相同的文檔的結(jié)果。該問題發(fā)端于新聞提供商,如出售它們的用于再版的新聞報(bào)道給全世界的多個出版者的美聯(lián)社(Associated PressAP)。這轉(zhuǎn)而意味著提供給用戶對來自大量出版商的新聞報(bào)道的集合的可檢索訪問的系統(tǒng),如Westlaw系統(tǒng),通常在它們的搜索結(jié)果中表示給用戶許多重復(fù)的新聞報(bào)道副本。不幸的是,該重復(fù)的報(bào)道一般是根據(jù)與其它不同的報(bào)道的相關(guān)性混合的,留給用戶的是人工地對付標(biāo)識和/或篩選它們的復(fù)雜問題。
從而,本發(fā)明認(rèn)識到需要有效地致力于信息檢索系統(tǒng)如Westlaw系統(tǒng)如何應(yīng)付其文檔集合中尤為重要的是在其用戶的搜索結(jié)果中重復(fù)文檔的存在。
發(fā)明內(nèi)容
為滿足該需要和其它需要,本發(fā)明提供了有助于在搜索結(jié)果中將重復(fù)文檔標(biāo)識和/或分組的系統(tǒng)、方法和軟件。一示范性系統(tǒng)包括三個主要部分1)基于長度、時間和/或內(nèi)容分量來生成文檔簽名的簽名生成模塊;2)使用文檔簽名來標(biāo)識“精確的”或“模糊的”重復(fù)文檔的重復(fù)檢測模塊;以及3)允許用戶控制它們的搜索結(jié)果中的重復(fù)文檔如何被表示的用戶界面(或表示)模塊。例如,用戶可選擇是否從它們的搜索結(jié)果中排除重復(fù)文檔或在結(jié)果表示中分組重復(fù)文檔。在一些實(shí)施例中,標(biāo)識和分組最終簡化了用戶理解和訪問包含重復(fù)文檔的搜索結(jié)果的過程。
圖1是本發(fā)明一個或多個實(shí)施例的示范性信息檢索系統(tǒng)100的示意圖;圖2是操作系統(tǒng)100及本發(fā)明一個或多個實(shí)施例的一個或多個示范性方法的流程圖;圖3是本發(fā)明一個或多個實(shí)施例的示范性文檔簽名及IDF表的示意圖;
圖4是本發(fā)明一個或多個實(shí)施例的示范性查詢窗400的示圖;圖5是本發(fā)明一個或多個實(shí)施例的示范性用戶界面500的示圖;圖6是本發(fā)明一個或多個實(shí)施例的示范性用戶界面600的示圖;圖7是本發(fā)明一個或多個實(shí)施例的示范性HTML格式電子消息的示圖;圖8是本發(fā)明一個或多個實(shí)施例的示范性用戶界面800的示圖;以及圖9是本發(fā)明一個或多個實(shí)施例的示范性歸倉(binning)方案的示意圖。
具體實(shí)施例方式
本說明書參照并結(jié)合上述的附圖描述了本發(fā)明一個或多個具體實(shí)施例。所提供的非限制的示范型的本發(fā)明的這些實(shí)施例被足夠詳細(xì)地說明和描述,以使本領(lǐng)域技術(shù)人員實(shí)現(xiàn)或?qū)嵺`本發(fā)明。于是,在適當(dāng)?shù)牡胤?,為使本發(fā)明更加清晰,本說明書會省略本領(lǐng)域技術(shù)人員已知的某些信息。
示范性定義本說明書包括很多詞語,它們具有源于其技術(shù)應(yīng)用或來自說明書語境的意思。然而,為進(jìn)一步幫助閱讀,提供了下面示范性的定義。
“文檔”指機(jī)器可讀數(shù)據(jù)如文本數(shù)據(jù)的任何可尋址排列。
“數(shù)據(jù)庫”包括文檔的任何邏輯排列。在一些實(shí)施例中,一個或多個數(shù)據(jù)庫與一個或多個其它數(shù)據(jù)庫共享內(nèi)容。
“復(fù)本”一般指任何與至少一個其它文檔具有大量相同內(nèi)容的文檔。時間、長度和/或內(nèi)容準(zhǔn)則被用于判定一個文檔是否是另一個文檔的復(fù)本。根據(jù)內(nèi)容準(zhǔn)則,一些實(shí)施例中標(biāo)識一組文檔的各文檔中的一組最罕見的詞或其它特征并認(rèn)為那些在相似的相對位置上具有同一組最罕見詞的文檔為“精確”復(fù)本。其它實(shí)施例中標(biāo)識各文檔中的一組最罕見的詞,并將超過這些罕見詞組中的重疊閾值的文檔的文檔視為“模糊”復(fù)本。
示范性信息檢索系統(tǒng)圖1表示示范性的在線信息檢索系統(tǒng)100。系統(tǒng)100包括一個或多個數(shù)據(jù)庫110、一個或多個服務(wù)器120及一個或多個存取設(shè)備130。
數(shù)據(jù)庫110包括代表數(shù)據(jù)庫112、114和116。在示范性實(shí)施例中,數(shù)據(jù)庫112包括新聞報(bào)道,例如商業(yè)或金融信息;數(shù)據(jù)庫114包括科技信息;數(shù)據(jù)庫116包括知識產(chǎn)權(quán)信息,例如美國及外國專利。在一些實(shí)施例中,一個或多個數(shù)據(jù)庫根據(jù)金融、科學(xué)或保健數(shù)據(jù)來組織。
采用一個或多個電子、磁性或光學(xué)數(shù)據(jù)存儲設(shè)備的示范性形式的數(shù)據(jù)庫112、114和116包含112N、114N和116N或以其他方式與索引相關(guān)聯(lián)。各索引包括與對應(yīng)的文檔地址、標(biāo)識符和其它常規(guī)信息相關(guān)聯(lián)的詞和短語。
數(shù)據(jù)庫112、114和116通過無線或有線通信網(wǎng)絡(luò)如局域網(wǎng)、廣域網(wǎng)、專用網(wǎng)或虛擬專用網(wǎng)與服務(wù)器120連接或可與之連接。
服務(wù)器120一般代表一個或多個用于以網(wǎng)頁形式或其它具有相關(guān)applet、ActiveX控制、遠(yuǎn)程調(diào)用對象或其它有關(guān)的或類似的軟件及數(shù)據(jù)結(jié)構(gòu)的標(biāo)記語言形式來提供數(shù)據(jù)以服務(wù)各種“厚度(thickness)”的客戶機(jī)。更具體地說,服務(wù)器120包括處理器模塊121、存儲器模塊122、搜索模塊123、用戶數(shù)據(jù)庫124、簽名數(shù)據(jù)庫125及復(fù)本處理模塊126。
處理器模塊121包括一個或多個局部或分布式處理器、控制器或虛擬機(jī)。在此示范性實(shí)施例中,處理模塊121采用任何便利的或理想的形式。
采用一個或多個電子、磁性或光學(xué)數(shù)據(jù)存儲設(shè)備的示范性形式的存儲模塊122包含搜索模塊123、用戶數(shù)據(jù)庫124、簽名數(shù)據(jù)庫125和復(fù)本處理模塊126。
搜索模塊123包括一個或多個搜索引擎和有關(guān)的用戶界面組件,用于接收并處理用戶對一個或多個數(shù)據(jù)庫110的查詢。在此示范性實(shí)施例中,與搜索模塊123相關(guān)聯(lián)的一個或多個搜索引擎提供布爾或自然語言檢索功能。用戶數(shù)據(jù)庫124包括用于控制、支配和管理充值付款(pay-as-you-go)或基于收費(fèi)的數(shù)據(jù)庫110訪問。在此示范性實(shí)施例中,用戶數(shù)據(jù)庫124包括一個或多個復(fù)本首選項(xiàng)數(shù)據(jù)結(jié)構(gòu),其中數(shù)據(jù)結(jié)構(gòu)1241是代表。數(shù)據(jù)結(jié)構(gòu)1241包括與一個或多個復(fù)本處理首選項(xiàng)如首選項(xiàng)1241B、1241C和1241D邏輯相關(guān)的客戶或用戶標(biāo)識符部分1241A。首選項(xiàng)1241B包括在檢索選擇數(shù)據(jù)庫時控制復(fù)本檢測是啟用或禁用的默認(rèn)值。首選項(xiàng)1241C包括在向外部輸出搜索結(jié)果時例如在打印、存儲或電郵期間控制復(fù)本是否被包括的默認(rèn)值。首選項(xiàng)1241D包括在復(fù)本檢測期間控制兩個或更多復(fù)本文檔定義和/或檢測算法中哪個被使用的默認(rèn)值。在一些實(shí)施例中,附加的首選項(xiàng)被存儲以控制復(fù)本檢測或表示功能的一個或多個方面,例如一組復(fù)本文檔中的最長的、最近的或最相關(guān)的文檔哪個被首先列出。
簽名數(shù)據(jù)庫125包括一個或多個數(shù)據(jù)庫110中各文檔的一個或多個文檔簽名數(shù)據(jù)結(jié)構(gòu),如示范性數(shù)據(jù)結(jié)構(gòu)1251。在此示范性實(shí)施例中,數(shù)據(jù)結(jié)構(gòu)1251包括與一個或多個長度相關(guān)的字段或部分1251B、一個或多個時間相關(guān)的字段或部分1251C和/或一個或多個內(nèi)容相關(guān)的字段或部分1251D邏輯相關(guān)的文檔標(biāo)識符字段或部分1251A。(如本文中使用的,時間相關(guān)的字段一般包含時間和/或日期)。這些字段的結(jié)構(gòu)和內(nèi)容由復(fù)本處理模塊126確定。
復(fù)本處理模塊126包括簽名生成模塊1261、復(fù)本檢測模塊1262和復(fù)本表示模塊1263。(在一些實(shí)施例中,軟件模塊或它們的組件分布在多個服務(wù)器上。)簽名生成模塊1261包括一個或多個逆文本頻率指數(shù)(idf)表,其中通常以idf表1261A為代表。此示范性實(shí)施例使用含有約一百萬個詞的二進(jìn)制編碼idf表,這些詞從一個相關(guān)文檔集合的結(jié)合組的1/3抽樣中選出。在該表中,各idf詞與對應(yīng)的序數(shù)(或序列數(shù))的3字節(jié)(24比特)表示相關(guān)聯(lián),以使idf詞可由其對應(yīng)的序數(shù)或序列數(shù)唯一表示,而不是由實(shí)際文本來表示,從而有助于快速處理并減少了idf表的存儲量要求。(用于代表各idf詞的恒定字節(jié)數(shù)取決于表中的總詞量。)此示范性idf表不包含數(shù)字標(biāo)記、字母數(shù)字標(biāo)記、帶有如.,-\&+等特殊字符的標(biāo)記以及少于3個字符的標(biāo)記。然而,有些實(shí)施例也可選擇包括這些標(biāo)記的方式。(下面借助圖2進(jìn)一步描述簽名生成、復(fù)本檢測和復(fù)本表示模塊及它們的示范性操作。)服務(wù)器120通過無線或有線的通信網(wǎng)絡(luò)如局域網(wǎng)、廣域網(wǎng)、專用網(wǎng)或虛擬專用網(wǎng)與一個或多個存取設(shè)備如存取設(shè)備130通信連接或可與之連接。
存取設(shè)備130一般地表示一個或多個存取設(shè)備。在此示范性實(shí)施例中,存取設(shè)備130采用個人計(jì)算機(jī)、工作站、個人數(shù)字助理、移動電話或其它任何能夠提供與服務(wù)器或數(shù)據(jù)庫的有效的用戶界面的設(shè)備形式。具體說,存取設(shè)備130包括處理器模塊131、存儲器模塊132、顯示器133、鍵盤134和圖像指示器或選擇器(或鼠標(biāo))135。
處理器模塊131包括一個或多個處理器、處理電路或控制器。在此示范性實(shí)施例中,處理器模塊131采用任何便利的或需要的形式。存儲器132與處理器模塊131連接。
存儲器132存儲操作系統(tǒng)136、瀏覽器137和圖形用戶界面(GUI)138的代碼(機(jī)器可讀或可執(zhí)行指令)。在此示范性實(shí)施例中,操作系統(tǒng)136采用微軟視窗操作系統(tǒng)的一個版本,瀏覽器137采用微軟因特網(wǎng)瀏覽器的一個版本。操作系統(tǒng)136和瀏覽器137不僅接收來自鍵盤134和選擇器135的輸入,也支持在顯示器133上顯示GUI138。在表現(xiàn)時,GUI138表示與一個或多個交互控制部(或用戶界面單元)相關(guān)的數(shù)據(jù)。(此示范性實(shí)施例用服務(wù)器120中的applet或其它程序?qū)ο蠡蚪Y(jié)構(gòu)來定義界面138的一個或多個部分。)
更具體地說,圖形用戶界面138確定或提供一個或多個顯示區(qū),如查詢區(qū)1381和搜索結(jié)果區(qū)1382。查詢區(qū)1381定義在存儲器中并且在表示時包括一個或多個交互控制部(單元元或窗口小部件),如查詢輸入?yún)^(qū)1381A、查詢提交按鈕1381B和復(fù)本處理選擇1381C。搜索結(jié)果區(qū)1382也定義在存儲器中并且在表示時包括一個或多個用以通過服務(wù)器120訪問和檢索一個或多個數(shù)據(jù)庫110中的一個或多個對應(yīng)文檔的交互控制部,如控制部1382A、1382B、1382C、1382D及1382E。
各控制部包括各文檔標(biāo)識符或標(biāo)簽,如DOC X、DOC Y、DOC Z、DOC Z1和DOC Z2,它們標(biāo)識對應(yīng)文檔并與對應(yīng)的鏈接或與整體或部分的統(tǒng)一資源定位器(URL)相關(guān)聯(lián)。(一些實(shí)施例中使用URL格式,如同時待審美國專利申請09/237219中講授的(代理人摘要962.002US1)、1999年1月25日提交,通過引用被結(jié)合在本文中。)由用戶選擇控制件可使得界面138(圖中未顯示)的區(qū)域內(nèi)檢索或顯示至少部分的對應(yīng)文檔??刂撇?382D和1382E相對于控制部1362C縮進(jìn),以指示它們對應(yīng)的文檔DOC Z1和DOC Z2作為與控制部1362C相對應(yīng)的文檔DOC Z的復(fù)本的狀態(tài)??刂撇?382C包括指示存在兩個復(fù)本文檔的標(biāo)簽“2復(fù)本”。在此示范性實(shí)施例中,各控制部采用超鏈接或與其它瀏覽器兼容的命令輸入,并提供對查詢區(qū)1381及搜索結(jié)果區(qū)的訪問和控制。盡管圖1將查詢區(qū)1381和結(jié)果區(qū)1382表示為同時顯示,但有些實(shí)施例也可在不同的時間顯示這兩個區(qū)域。
示范性操作方法圖2表示操作系統(tǒng)如系統(tǒng)100的一個或多個示范性方法的流程圖。流程圖200包括步驟210-270,它們類似于本說明書中在示范性實(shí)施例中被順序地排列并描述的其它步驟。然而,有些實(shí)施例使用被組織為兩個或更多虛擬機(jī)或子處理器的多處理器或類似處理器的設(shè)備或單處理器來并行地執(zhí)行兩個或更多步驟。有些實(shí)施例還改變過程順序或提供不同的功能部分來獲得類似的結(jié)果。例如,有些實(shí)施例可將客戶機(jī)-服務(wù)器的功能分配,例如使表示或描述在服務(wù)器上的功能改變?yōu)槿炕虿糠衷诳蛻魴C(jī)上實(shí)現(xiàn),或者相反。此外,其它一些實(shí)施例將這些步驟實(shí)施為兩個或更多的互連的硬件模塊,有關(guān)的控制和數(shù)據(jù)信號在模塊間和通過模塊進(jìn)行通信的。從而,該示范性流程(本說明書圖2中和別處的)可以軟件、硬件和固件實(shí)現(xiàn)。
在步驟210,該示范性方法開始自動生成用于在線信息檢索系統(tǒng)的一個或多個可檢索文檔的元數(shù)據(jù)(如數(shù)字簽名)。在此示范性實(shí)施例中,這根據(jù)一組選擇的數(shù)據(jù)庫如新聞數(shù)據(jù)庫中文檔的批處理進(jìn)行。(在有些實(shí)施例中,該過程在按文檔和/或?qū)崟r查詢驅(qū)動的基礎(chǔ)上執(zhí)行。)該批處理一般需要為各文檔生成并存儲文檔簽名數(shù)據(jù)結(jié)構(gòu)。該示范性實(shí)施例使用一般由流程圖210A和210B表示的兩個或更多簽名生成過程之一。(在一些可能實(shí)時計(jì)算簽名的實(shí)施例中,過程的選擇借助于用戶首選項(xiàng)來控制;然而在其它實(shí)施例中,兩個過程都被用于提供具有兩個文檔簽名的各文檔,并且用戶首選項(xiàng)被用以在檢測期間判定使用哪個簽名或檢測方法。在一些實(shí)施例中,簽名的選擇是一種管理上的決定。)流程圖210A表示有助于根據(jù)更精確的復(fù)本準(zhǔn)則的復(fù)本檢測的簽名生成,而流程圖210B則表示根據(jù)不太精確的或“模糊的”準(zhǔn)則幫助復(fù)本檢測的簽名生成。
精確簽名生成更具體地說,生成具有長度標(biāo)量和指紋(例如,散列值)的簽名的流程圖210A包括步驟211A-216A。該過程開始于步驟211A,它需要確定一個或多個文檔長度特征或值。為此,此示范性實(shí)施例確定長度標(biāo)量,該標(biāo)量被定義為標(biāo)記中的文檔長度,不包括報(bào)紙、標(biāo)題、作者及其它報(bào)頭信息。
接著,步驟212A需要確定或標(biāo)識文檔的一個或多個語義或詞匯的(更一般地說是內(nèi)容)值,并將該值排序。在此示范性實(shí)施例中,這需要確定“指紋”即詞向量,其被定義包括文檔的最大X(例如6)個唯一最高等級的逆文本頻率指數(shù)(idf)詞(不包括題目、作者及其它報(bào)頭信息或元數(shù)據(jù)。)給定詞的idf被定義為詞的文檔頻率的倒數(shù),即在包含該詞的條件的集合中文檔數(shù)量的倒數(shù)。一些實(shí)施例使用歸一化的IDF,它被定義為IDF=log(N+0.5n)log(N+1.0)---(1)]]>其中n代表包含給定詞的文檔的數(shù)量;N代表集合中的文檔總數(shù);分子和分母中的常數(shù)作為比例因子用于有稀疏數(shù)據(jù)存在處。
在具體定義向量時,此示范性實(shí)施例出于考慮將文檔標(biāo)題和其它題目中的詞排除了作為頭個idf詞,因?yàn)檫@些詞可在重復(fù)的報(bào)紙文章中顯著變化。還有,它從頭X個idf詞中排除了具有異常高的idf的詞一一例如具有大于或等于0.8的idf的詞,因?yàn)檫@些詞很可能是文本誤差,如打印錯誤和拼寫錯誤。(其它實(shí)施例可使用更多或更少的詞和/或更多或更少的idf排除準(zhǔn)則。一些實(shí)施例可能不使用任何idf排除準(zhǔn)則。一些實(shí)施例甚至可能使用短語或詞組(如詞對),而不是使用單詞或與單詞結(jié)合的詞組。)一旦內(nèi)容特征被標(biāo)識并排序,就在步驟213A繼續(xù)執(zhí)行。
步驟213A需要在文檔內(nèi)確定idf詞的相對位置。該位置可定義為絕對或相對位置。絕對位置是詞相對于文檔中的第一標(biāo)記的位置。一個樣本向量包括下列詞prevarication[76],hostage
,conspicuous[25],intransigence[121],brutality[163],theater[13]其中,詞以idf值的降序被排序并表示,方括號中所示的位置以相對于文檔中第一標(biāo)記的標(biāo)記數(shù)測量。
一些實(shí)施例測量各idf詞相對于前面最高等級idf詞的位置。并且,一些提供復(fù)本文檔的不嚴(yán)格或更寬容定義的實(shí)施例中,將相對位置偏移舍入而歸倉(into bins)。例如,一個實(shí)施例中將各對應(yīng)的頭個idf詞的位置偏移量舍入到一系列10-標(biāo)記“倉”中的最接近的倉中,倉的數(shù)量由標(biāo)記表示的文檔大小除以10來確定。這種位置歸倉在使本實(shí)施例能夠應(yīng)付如下情況是有效的,這種情況是一個文檔已有插入或簡短替換時一般仍被視為另一個不同(否則為相同)的文檔的復(fù)本。下表表示以降序表示的六個idf詞的樣本組并在第二列中示出它們在文檔內(nèi)的初始(或絕對)位置、在第三列中示出它們的相對位置、在第四列中示出它們的歸倉(或被舍入)的相對位置。
注意所有用在位置歸倉中的舍入是向上舍入,且以0結(jié)尾的差保持不變(例如,看表中ignoble的歸倉的相對位置)。并請注意在本實(shí)施例中,出現(xiàn)在文檔題目中(也在任何相關(guān)標(biāo)題及子標(biāo)題中)的詞不參與(即不計(jì)入)文檔內(nèi)的偏移量生成。在定義指紋后,進(jìn)入步驟214A。
步驟214A需要基于指紋確定散列值(或其他唯一值)。具體地說,此示范性實(shí)施例中,將頭幾個idf詞和位置信息鏈級成單個字符串,如irate20flabbergasted30dishonorable30disgraceful10outrageous20ignoble40”,然后根據(jù)算法將結(jié)果得到的字符串散列,以確定散列值。在此示范性實(shí)施例中,這需要采用國家準(zhǔn)則技術(shù)協(xié)會(National Institute ofStandard and Technology)的SHA1散列算法將該向量散列成20字節(jié)的關(guān)鍵字。一些實(shí)施例可使用其它確定散列值的方法。
步驟215A需要基于一個或多個長度值和被確定的指紋數(shù)(如基于內(nèi)容的散列值)來形成或定義文檔簽名(即數(shù)據(jù)結(jié)構(gòu))。在此示范性實(shí)施例中,這需要例如使用文檔標(biāo)識符或指針將標(biāo)量長度值和指紋數(shù)字整合成與對應(yīng)文檔邏輯上相關(guān)的數(shù)據(jù)結(jié)構(gòu)。
步驟216A需要將文檔簽名數(shù)據(jù)結(jié)構(gòu)存入存儲設(shè)備。為此,此示范性實(shí)施例將數(shù)據(jù)結(jié)構(gòu)存入索引或元數(shù)據(jù)數(shù)據(jù)庫,如圖1中的文檔簽名數(shù)據(jù)庫125中。
模糊簽名生成表示基于文檔時間、長度及內(nèi)容分量來生成文檔簽名數(shù)據(jù)結(jié)構(gòu)(或字符特征集)的流程圖210B包括步驟211B-215B。
具體地說,模塊211B需要確定文檔的一個或多個時間分量或值。在此示范性實(shí)施例中,該確定需要從文檔日期中提取出版日期或時間戳,然后相對于參考日期如1950年1月1日將日期或時間戳轉(zhuǎn)換為代表小時、日期、星期或月數(shù)的單整數(shù)。其它文檔可使用與文檔相關(guān)聯(lián)的或包含在文檔中的其它日期,如該文檔中的第一或最后出現(xiàn)的日期或者第一或最后出現(xiàn)日期的一部分。例如,一些實(shí)施例可提取并使用文檔中第一出現(xiàn)的年作為時間分量的基礎(chǔ)。其它實(shí)施例可基于文檔內(nèi)的多個日期確定時間分量,例如兩個或更多日期的平均值。接著,在步驟212B繼續(xù)進(jìn)行。
步驟212B確定文檔的一個或多個長度分量或值。在此示范性實(shí)施例中,長度值基于文檔的長度,并通過從與文檔相關(guān)聯(lián)的預(yù)定的字計(jì)數(shù)字段提取文檔長度指示符來確定。然而,其它實(shí)施例獨(dú)立確定字計(jì)數(shù)并作為長度值使用。接著,在步驟213B繼續(xù)進(jìn)行。
步驟213B需要確定文檔的一個或多個內(nèi)容值或特征。在此示范性實(shí)施例中,這需要標(biāo)識文檔的一個或多個詞匯特征并形成“指紋”或詞向量。該指紋一般包括最高的Y,例如60,文檔的最高等級idf詞(不包括題目、作者和其它標(biāo)題信息或元數(shù)據(jù))。
更具體地說,在此示范性實(shí)施例中,將文檔標(biāo)記化或解析成詞,然后根據(jù)它們相關(guān)的idf將這些詞分類。任何不在idf表中的詞以及任何包括在無用詞列表中的詞被排除在詞(或特征)向量之外。如果文檔中idf詞y的數(shù)量小于10,則不為該文檔創(chuàng)建簽名。然而,如果y在10和Y-1之間(包含Y-1),則此示范性實(shí)施例中用附加詞裝填詞向量以保證包含Y個詞。
示范性裝填如下進(jìn)行。如果文檔的idf詞y的數(shù)量落在30和59之間,則在此示范性實(shí)施例中將總共30個不同的字母數(shù)字詞裝填向量,如“pad1”、“pad2”、“pad3”、……、“padn”,其中n=Y(jié)-y。如果y在10和29之間,則在此示范性實(shí)施例中將某個由n個預(yù)定非idf詞和m個隨機(jī)選擇的非idf詞構(gòu)成的組合裝填詞向量中,以使y+n+m=Y(jié)。在一些實(shí)施例中,該n個預(yù)定非idf表詞是(如上的)字母數(shù)字詞,如“pad1”、“pad2”、……、“padn”,它們具有共同的文本部分和順序的數(shù)字部分。在一些實(shí)施例中,該m個隨機(jī)生成的非idf表詞是字母數(shù)字詞R1、R2、Rm,它們代表與現(xiàn)有idf詞不匹配的詞。下表說明了在此示范性實(shí)施例中采用的裝填方案。
下一步,在步驟214B將詞向量編碼。為此,此示范性實(shí)施例中用基于排序的idf表內(nèi)詞位置的編碼來分別給各詞編碼。具體說,此示范性實(shí)施例中將各詞向量標(biāo)記編碼成唯一的3字節(jié)(24比特)序列號或索引,它們不僅與idf表(包括大約100萬個詞)中的標(biāo)記唯一對應(yīng),而且(在此示范性實(shí)施例中)指示idf表中詞的等級。(此示范性實(shí)施例中,詞被從最高idf值到最低idf值組織成向量的以加速匹配計(jì)算從而減少計(jì)算時間。)在詞向量編碼后,流程進(jìn)行到步驟215B。
步驟215B需要將文檔簽名數(shù)據(jù)結(jié)構(gòu)存入存儲設(shè)備。為此,此示范性實(shí)施例中將簽名存入元數(shù)據(jù)數(shù)據(jù)庫,如簽名數(shù)據(jù)庫125(圖1)。(有些實(shí)施例中將文檔簽名數(shù)據(jù)添加到文檔上。)一些實(shí)施例致力于圍繞集合統(tǒng)計(jì)及idf表更新維持的問題。例如,在一個根據(jù)流程圖210A和/或210B創(chuàng)建簽名的實(shí)施例中,辨認(rèn)這些文檔簽名的敏感性以更新idf表,這一般在給定集合或數(shù)據(jù)庫中增加、刪除或修改文檔時發(fā)生。本實(shí)施例為那些在接近idf表更新的日期(例如,以更新日期為中心的兩個月范圍內(nèi))出版的那些文檔提供了一對簽名。其中一個簽名是預(yù)更新簽名,它基于更新前的idf表,另一個簽名是后更新簽名,它基于更新后的idf表。(使用中,例如在步驟250,如果兩個簽名中至少一個匹配另一個文檔的簽名中的至少一個,這兩個文檔就被認(rèn)為是復(fù)本。)圖3表示文檔簽名300如何通過它的內(nèi)容分量310關(guān)聯(lián)到idf表340。具體地說,文檔簽名300包括長度分量310、時間分量320及內(nèi)容分量330。內(nèi)容分量330采用包括詞T0-T59的60-詞向量330的示范性形式。如圖3所示,一個或多個詞,例如所有詞,映射到含有100萬個詞和對應(yīng)idf值的idf表340中的詞。
在根據(jù)流程圖210A或210B所示的一個或兩個方法生成并存儲選擇數(shù)據(jù)庫的所有文檔的文檔簽名后,示范性執(zhí)行過程最終進(jìn)行到步驟220。
步驟220需要給用戶展現(xiàn)檢索界面。在此示范性實(shí)施例中,這需要用戶將客戶機(jī)存取設(shè)備中的瀏覽器指引到在線信息檢索系統(tǒng)如Westlaw系統(tǒng)的互連網(wǎng)協(xié)議(IP)地址,然后登錄該系統(tǒng)。成功登錄導(dǎo)致從服務(wù)器120輸出一個基于網(wǎng)絡(luò)的檢索界面,如圖1中的界面138或圖4中的界面300(或它們的一個或多個部分),該界面存入存儲器132并由客戶機(jī)存取設(shè)備130顯示。
如圖4所示,界面400包括一些交互控制部,包括查詢輸入?yún)^(qū)410、查詢域限制區(qū)420、復(fù)本檢測區(qū)430及查詢提交命令440。查詢輸入?yún)^(qū)410接收定義查詢的文本輸入。查詢目標(biāo)區(qū)420使用戶能夠?qū)⒁粋€字段數(shù)據(jù)庫(fielded database)中的文檔的特定分段、標(biāo)題及主要段落查詢作為目標(biāo)。(其它實(shí)施例可具有一個或多個其它可選分段。)復(fù)本指示區(qū)430使用戶能夠各別地啟用被定義的查詢的搜索結(jié)果內(nèi)的復(fù)本文檔標(biāo)識。該指示區(qū)的初始狀態(tài)由存儲在用戶數(shù)據(jù)庫如數(shù)據(jù)庫124中的默認(rèn)的用戶首選項(xiàng)值確定。在此示范性實(shí)施例中,指示區(qū)的狀態(tài)改變會改變對當(dāng)前查詢的指示;除非被改變到更高的控制級別,默認(rèn)首選項(xiàng)值不受影響。
使用界面138或400,用戶可定義或提交一個查詢并使它輸出到服務(wù)器,如服務(wù)器120。在其它實(shí)施例中,查詢可已經(jīng)由用戶作了定義或選擇,以基于調(diào)度或事件驅(qū)動來自動執(zhí)行。在這些例子中,查詢可已存于信息檢索系統(tǒng)的服務(wù)器的存儲器中(如為剪輯服務(wù)),因而不必要與服務(wù)器重復(fù)通信。然后進(jìn)行到步驟230(圖2)。
模塊230需要接收查詢。在此示范性實(shí)施例中,查詢包括查詢字符串和/或一組目標(biāo)數(shù)據(jù)庫,其中包括一個或多個選擇數(shù)據(jù)庫。在一些實(shí)施例中,查詢字符串包括一組詞和/或連接符號,在其它實(shí)施例中,查詢包括自然語言字符串。還有,在一些實(shí)施例中,該組目標(biāo)數(shù)據(jù)庫被自動定義或由基于系統(tǒng)或檢索界面形式的默認(rèn)值來定義。再有,在一些實(shí)施例中,被接收的查詢可附有其它信息,如確定是否如上面討論的那樣檢查復(fù)本文檔的信息。在任何情況下,都在步驟240繼續(xù)執(zhí)行。
步驟240需要基于或根據(jù)被接收的查詢來識別一組文檔或搜索結(jié)果。在此示范性實(shí)施例中,這需要服務(wù)器或服務(wù)器控制或命令下的部件來執(zhí)行對目標(biāo)數(shù)據(jù)庫組的查詢并識別滿足查詢條件的文檔。執(zhí)行進(jìn)行到步驟250。
步驟250需要識別搜索結(jié)果中的復(fù)本文檔組。(在一些實(shí)施例中,復(fù)本識別步驟的執(zhí)行視默認(rèn)值或用戶選項(xiàng)中規(guī)定是否識別復(fù)本文檔而定。一些實(shí)施例使用戶或管理員能夠選擇使用兩個或更多復(fù)本檢測方法或算法中的一個。)在此示范性實(shí)施例中,復(fù)本識別一般需要將一個或多個文檔簽名的一個或多個特征與其它文檔簽名的對應(yīng)特征進(jìn)行比較并基于構(gòu)成復(fù)本文檔的“精確”或“模糊”(不太精確)準(zhǔn)則來確定文檔是否為復(fù)本。
更具體地說,此示范性實(shí)施例采用流程圖250A所示的方法,其中包括精確或更精確檢測算法的步驟251A-254A,或采用流程圖250B所示的方法,其中包括“模糊”檢測算法的步驟251B-255B。一些使用上述的兩種簽名類型的實(shí)施例使用兩種與其對應(yīng)的方法。
精確復(fù)本檢測在流程圖250A中,此示范性方法開始于模塊251A,它需要選擇搜索結(jié)果中的兩個或更多文檔用于比較。在此示范性實(shí)施例中,這需要在基于文檔標(biāo)識符來檢索搜索結(jié)果中各文檔的文檔簽名數(shù)據(jù)結(jié)構(gòu),并確定一些用于實(shí)時復(fù)本檢測或比較的文檔對。文檔對的確定需要選擇主文檔并用搜索結(jié)果中的各其它文檔與主文檔(或更確切地說是其文檔簽名)配對,然后選擇第二主文檔并用其它所有還沒有被配對的文檔與它配對。類似地,各文檔可被選為主文檔能并用所有其它還沒有被與之配對的文檔與它配對,最終確定一組完整的用于比較的唯一文檔對。(在一些實(shí)施例中,主文檔按照它們在搜索結(jié)果內(nèi)的相關(guān)等級被選擇。還有,一些實(shí)施例將復(fù)本檢測過程的應(yīng)用限于超過某相關(guān)閾值或具有某個最小等級的文檔。)然后,進(jìn)行到步驟252A。
步驟252A需要確定被選擇用于比較的文檔組的長度準(zhǔn)則是否被滿足。在此示范性實(shí)施例中,這需要確定被選的文檔簽名數(shù)據(jù)結(jié)構(gòu)對的長度標(biāo)量是否在預(yù)定范圍內(nèi),如彼此±40個標(biāo)記或±10%。固定的或相對的范圍考慮到文檔中的潛在差異,這些潛在差異接近于標(biāo)題材料,例如DatelineAmsterdam。如果確定結(jié)果是長度準(zhǔn)則(或條件)不被滿足,則返回到步驟251A來選擇另一組用于比較的文檔。但是,如果長度準(zhǔn)則被滿足,則推進(jìn)到步驟253A。
步驟253A確定被選文檔的內(nèi)容準(zhǔn)則是否被滿足。在此示范性實(shí)施例中,這需要互相比較被選文檔的文檔指紋。如果兩個指紋不相同,執(zhí)行返回到步驟251A來選擇另一組用于比較的文檔。如果指紋相同,則執(zhí)行進(jìn)入步驟254A。
步驟254A需要將被選文檔標(biāo)示為互為復(fù)本。在此示范性實(shí)施例中,這種表示需要將被認(rèn)為是復(fù)本的文檔的文檔標(biāo)識符存入復(fù)本組緩沖器中。(在其它實(shí)施例中,這種表示包括將被選文檔的文檔標(biāo)識符加到主復(fù)本文檔數(shù)據(jù)庫或加到被選文檔各自的文檔簽名數(shù)據(jù)結(jié)構(gòu)上,它們可被重新用于特殊復(fù)本文檔查詢。)執(zhí)行然后回到步驟251A來選擇下一組用于比較的文檔。在此示范性實(shí)施例中,步驟251A包括用于在所有被選文檔組被處理之后終止比較過程的邏輯處理。
模糊復(fù)本檢測流程圖250B描述了一個可選用的檢測過程,它一般需要實(shí)時多級處理在搜索結(jié)果中被識別的文檔的簽名數(shù)據(jù)結(jié)構(gòu)。(一些實(shí)施例中,可在用戶查詢之前而不是響應(yīng)用戶查詢來執(zhí)行復(fù)本檢測。)流程圖250B包括步驟251B-255B。
在步驟251B,接著檢索出搜索結(jié)果中被識別的文檔的至少兩個文檔簽名數(shù)據(jù)結(jié)構(gòu)。在此示范性實(shí)施例中,這需要以類似于模塊251A描述的方式從簽名數(shù)據(jù)庫125(如圖1所示)中檢索出搜索結(jié)果中各文檔的簽名數(shù)據(jù)結(jié)構(gòu)。一旦簽名被檢索出,一組兩個或更多文檔的簽名被選用于確定它們的對應(yīng)文檔是否為復(fù)本。然后執(zhí)行在步驟252B繼續(xù)。
步驟252B確定與兩個或更多文檔簽名相關(guān)聯(lián)的分量的時間準(zhǔn)則是否在彼此的特定時間段內(nèi)。在示范性實(shí)施例中,這需要判定被選文檔簽名的時間分量是否在彼此的30天之內(nèi)。(一些實(shí)施例使用更小或更大的時間窗。)否定的判定導(dǎo)致文檔被視為非復(fù)本并且執(zhí)行返回步驟251B以獲得另一組用于比較的文檔簽名,然而肯定的判定將處理延伸到步驟253B。
步驟253B判定一個或多個對應(yīng)文檔的簽名數(shù)據(jù)結(jié)構(gòu)的長度分量是否在彼此的某范圍內(nèi)。在此示范性實(shí)施例中,這需要實(shí)時判定長度分量是否在彼此的±20%之內(nèi)。如果該長度判定結(jié)果為否定,則文檔被視為非復(fù)本,并且執(zhí)行返回到步驟251B來選擇另一組用于比較的文檔簽名。但是,如果判定是肯定的,則表示文檔長度是足夠接近的,執(zhí)行在步驟254B繼續(xù)。
步驟254B需要判定該組文檔簽名是否滿足復(fù)本文檔的指紋或內(nèi)容準(zhǔn)則。在此示范性實(shí)施例中,這需要判定是否一個文檔的詞向量中至少80%的詞被包含在另一個文檔的詞向量中。一些實(shí)施例可使用可選用的臨界值,例如60、65、70、75、80、85、90或95%。其它實(shí)施例可使用基于文檔類型或數(shù)據(jù)庫變化的動態(tài)臨界值;有一些實(shí)施例甚至允許用戶選擇臨界值。
更具體地說,在判定內(nèi)容準(zhǔn)則是否符合的過程中,此示范性實(shí)施例進(jìn)行實(shí)時的逐詞比較,每次詞不匹配則不匹配計(jì)數(shù)器加一,每次詞匹配則匹配計(jì)數(shù)器加一。該逐詞比較在不匹配計(jì)數(shù)器超過非復(fù)本臨界值如12時終止,這表示內(nèi)容臨界值不能被滿足(因?yàn)?,例如超過20%的詞不匹配)?;蛘?,逐詞比較也可在匹配計(jì)數(shù)器達(dá)到復(fù)本臨界值(如49)時終止,這表示超過80%的詞匹配。在任何情況下,如果內(nèi)容準(zhǔn)則不滿足,執(zhí)行就返回步驟251B。而如果內(nèi)容準(zhǔn)則滿足,則執(zhí)行進(jìn)行到步驟255B。
步驟255B需要將文檔組中的文檔標(biāo)示為復(fù)本。在此示范性實(shí)施例中,這種標(biāo)示需要將被視為復(fù)本的文檔的文檔標(biāo)識符存入復(fù)本組緩沖器中。在搜索結(jié)果內(nèi)識別復(fù)本后,進(jìn)入步驟260。
步驟260需要將搜索結(jié)果展現(xiàn)給用戶。在此示范性實(shí)施例中,這需要將搜索結(jié)果以排序列表的形式輸出到客戶端存取設(shè)備,如圖1中的客戶端存取設(shè)備130。具體說,此示范性實(shí)施例在圖形用戶界面如圖1中的界面138(具體說是區(qū)域1382或圖5中的界面500)的語境內(nèi)提供列表。
界面500表示可選擇文檔引用或超鏈接的結(jié)果列表510以及用于顯示結(jié)果列表510中至少一個文檔的正文的窗口520。結(jié)果列表510包括一個或多個組或分組的復(fù)本文檔標(biāo)識符或引用,其中,復(fù)本組512是代表。在此示范性實(shí)施例中,結(jié)果列表510內(nèi)的組512的位置基于組中或與該組關(guān)聯(lián)的最高等級文檔的逆時序列表、相關(guān)等級或分值來確定。例如,如果原始組包括復(fù)本的文檔3和5(按等級)并且文檔5是主文檔,則整個復(fù)本組被顯示在引用列表中的3號位置。組512包括主文檔標(biāo)識符5121、復(fù)本計(jì)數(shù)指示符5122和復(fù)本標(biāo)識符5123。
主文檔標(biāo)識符5121識別主文檔,在示范性實(shí)施例中將主文檔規(guī)定為復(fù)本組中最長的文檔。如果兩個或更多復(fù)本文檔長度相同(即具有相同字?jǐn)?shù)),那么更近的文檔作為主文檔被列表。在一些實(shí)施例中,主文檔標(biāo)識符對應(yīng)于具有最高相關(guān)分值或最近出版日期的文檔。
復(fù)本計(jì)數(shù)指示符5122指示搜索結(jié)果中被認(rèn)為是主文檔復(fù)本(即包含大量實(shí)質(zhì)上重復(fù)主文檔內(nèi)容復(fù)本的內(nèi)容的文檔)的數(shù)量。在所說明的例中,主文檔被指出在結(jié)果列表中有一個復(fù)本。
復(fù)本列表5123列出一個或多個可選文檔引文或標(biāo)識符,如文檔引文或標(biāo)識符5123A,各與被視為與搜索查詢有關(guān)且被認(rèn)為包含大量與主文檔中內(nèi)容重復(fù)的內(nèi)容的文檔(或文檔URL)相關(guān)聯(lián)。(在此示范性實(shí)施例中,復(fù)本根據(jù)本文給出的方法和規(guī)則確定;然而,其它實(shí)施例可使用其他可選方法和/或規(guī)則。)在復(fù)本列表中,列出多個復(fù)本的順序可由長度、復(fù)本日期、文檔相關(guān)度或訪問頻率來確定。在一些實(shí)施例中,這些鏈接的標(biāo)簽包含文檔、出版日期及字計(jì)數(shù)。
一些實(shí)施例顯示與主文檔標(biāo)識符相關(guān)聯(lián)的容器圖標(biāo)如復(fù)本文件夾,而不是表示結(jié)果列表中的復(fù)本列表。該復(fù)本文件夾是用戶可選圖標(biāo),一被選擇就打開窗口來顯示復(fù)本文檔(或?qū)?yīng)的URL)列表以及文獻(xiàn)目錄信息。
執(zhí)行從步驟260的搜索結(jié)果表示進(jìn)行到步驟270,該步驟需要從搜索結(jié)果輸出一個或多個選擇文檔。在此示范性實(shí)施例中,響應(yīng)用戶選擇,該輸出需要打印、電郵或?qū)⒁粋€或多個被識別的文檔保存到與客戶端存取設(shè)備相關(guān)聯(lián)的存儲器如存取設(shè)備130中。為簡化用戶控制或指示該輸出,此示范性實(shí)施例中給用戶顯示圖形用戶界面,如圖6中的界面600,該界面通如圖1的界面138結(jié)合并訪問。
界面600包括輸出目標(biāo)區(qū)610、范圍定義區(qū)620、內(nèi)容定義區(qū)630及請求提交區(qū)640。輸出目標(biāo)區(qū)610允許用戶為搜索結(jié)果的一個或多個部分指定打印機(jī)、電子郵件或存儲目標(biāo)。(見圖7及樣本電郵消息的支持文本。)范圍定義區(qū)620讓用戶能夠在搜索結(jié)果內(nèi)識別文檔,這些文檔將被輸出到區(qū)域610中定義的目標(biāo)。
允許用戶識別在范圍定義區(qū)620部分選擇用于輸出的文檔的特定部分的內(nèi)容定義區(qū)630,除了其它之外還包括復(fù)本輸出控制部631。該部允許用戶指示并控制是否包括將任何為被識別文檔的復(fù)本的文檔作為輸出的一部分。如果用戶沒有修改其對應(yīng)的首選項(xiàng),如圖1中的用戶數(shù)據(jù)庫124中的首選項(xiàng)設(shè)置1241D,該默認(rèn)是從輸出中排除復(fù)本文檔,這意味著復(fù)本輸出控制區(qū)最初指示從輸出中排除復(fù)本。
在此示范性實(shí)施例中,包含復(fù)本特征的選擇或調(diào)用不僅造成對于范圍定義區(qū)中除了被選文檔或引文選項(xiàng)之外的所有選項(xiàng)的復(fù)本文檔的輸出,而且影響界面600內(nèi)的顯示。區(qū)域620中的“所有文檔”范圍選項(xiàng)包括指示搜索結(jié)果中主文檔數(shù)量的標(biāo)簽,該主文檔組是搜索結(jié)果減掉任何復(fù)本的整組。如果搜索結(jié)果包括總共30個文檔并且文檔1、5和7為復(fù)本,則區(qū)域620中的“所有文檔”選項(xiàng)旁邊的標(biāo)簽通常會指示“28個文檔”。然而,如果用戶調(diào)用復(fù)本包含部(人工或默認(rèn)),該標(biāo)簽將指示主文檔和復(fù)本文檔,即依照本例的“30個文檔”。
圖7表示示范性HTML格式電子消息700,除了其它部分它還包括識別復(fù)本文檔的結(jié)果列表。具體地說,消息700包括標(biāo)題710、查詢區(qū)720及結(jié)果列表區(qū)730,消息700也可響應(yīng)為重復(fù)的、周期性的或時間驅(qū)動的執(zhí)行定義的查詢的自動運(yùn)行而發(fā)送。
標(biāo)題710包括from、sent、to和subject區(qū),它們分別標(biāo)識發(fā)送者、發(fā)送時間、接收者和電子郵件主題。查詢區(qū)720包括數(shù)據(jù)庫識別字段722和查詢字段724。數(shù)據(jù)庫識別字段722識別被搜索的數(shù)據(jù)庫,而查詢字段724列出查詢的文本。在此示范性實(shí)施例中,特定的查詢采用布爾或自然語言查詢的形式。
結(jié)果列表區(qū)730包括一個或多個文檔引文或超鏈接,如標(biāo)識符732和734,它們可被選來調(diào)用各對應(yīng)文檔的全部或一部分的檢索和顯示。在有些實(shí)施例中,選擇超鏈接之一就立即導(dǎo)致瀏覽器窗口中對應(yīng)文檔的檢索。在其它實(shí)施例中,所述選擇導(dǎo)致瀏覽器窗口中簽入畫面的顯示,催促用戶在文檔顯示之前輸入恰當(dāng)?shù)牡卿浐?或客戶事務(wù)識別數(shù)據(jù)。與文檔標(biāo)識符732相關(guān)聯(lián)的是一個或多個可選擇復(fù)本文檔標(biāo)識符或鏈接構(gòu)成的組7322。在此示范性實(shí)施例中,這些鏈接的標(biāo)簽包含各自的出版日期和字計(jì)數(shù)。
示范性選項(xiàng)控制界面圖8表示示范性的選項(xiàng)控制界面800,它作為圖1中界面138的一部分起作用并允許用戶設(shè)置用戶數(shù)據(jù)庫123中的首選項(xiàng)值,如那些有關(guān)復(fù)本處理和/或表示的首選項(xiàng)值。在此示范性實(shí)施例中,界面800包括識別復(fù)本控制部810、復(fù)本包含或排除控制部820、主復(fù)本選擇部830及保存命令部840。
識別復(fù)本控制部810,本實(shí)施例中的復(fù)選框,使用戶能夠?yàn)槭欠裨诤细竦乃阉鹘Y(jié)果上執(zhí)行復(fù)本處理設(shè)置默認(rèn)值。
復(fù)本包含或排除控制部820包括控制部821和822。在本實(shí)施例中,控制部821和822采用單選按鈕的形式并分別允許用戶選擇復(fù)本是否將被包含在顯示的結(jié)果列表中或從顯示的結(jié)果列表中排除。
主復(fù)本選擇部830包括選擇部831和832,該部也采用單選按鈕(radio button)的形式,分別允許用戶指定復(fù)本文檔組中哪個文檔將在結(jié)果列表中作為主文檔顯示。在本實(shí)施例中,用戶可選擇將最長文檔或者最近或最相關(guān)文檔作為主文檔。如果復(fù)本將被排除在搜索結(jié)果之外,該選項(xiàng)支配一組復(fù)本中的哪個文檔顯示在結(jié)果列表中,然而如果文檔將被包含在列表之內(nèi),該選項(xiàng)支配哪個文檔將在列表中首先被顯示。
保存控件部840使用戶能夠?qū)⑼ㄟ^控制部810、820、830作出的改變保存到用戶數(shù)據(jù)庫124中,以供剩余的當(dāng)前檢索對話期間及以后的檢索對話期間使用。
時間和長度倉(bin)的使用一些實(shí)施例通過定義潛在復(fù)本文檔的組或倉來綜合步驟252B和253B(圖2)的時間和長度比較。例如,一些實(shí)施例從簽名數(shù)據(jù)庫124中檢索出如流程圖210B中定義的一組對應(yīng)簽名數(shù)據(jù)結(jié)構(gòu),并基于它們各自的時間分量以逆時序排列。
在該時間排序之后,這些實(shí)施例通過將固定時間窗沿排序的文檔列表向下“移動”來定義一個或多個時間組或倉。第一時間倉包含第一排序文檔和第一排序文檔的所有具有如30天內(nèi)的時間值的文檔。第二時間倉包含第二排序文檔和第二排序文檔的所有具有30天之內(nèi)時間值的文檔。附加倉被類似地定義,沿排序文檔列表向下移動。(一些實(shí)施例中,定義相互排除的文檔組或倉。)一旦這些時間組或倉被定義,這些實(shí)施例在各被定義的時間倉內(nèi)定義一個或多個基于長度的簽名倉或組。這需要以它們對應(yīng)的簽名中的長度分量的降序來排列各時間倉中的簽名,然后將長度窗沿排序的列表向下“移動”來定義一個或多個長度倉和組。第一時間倉內(nèi)的第一長度倉包含該倉中長度等級列表中的第一簽名(即時間倉中最長文檔)和比最長文檔長度短20%以下的第一時間倉內(nèi)的所有文檔。
換句話說,各后續(xù)簽名具有第一長度倉中各其它簽名的至少80%的長度。第二長度倉包括第一時間倉中第二長的文檔及所有比它短20%以下的文檔。后續(xù)的長度倉類似地被定義,直到各時間倉中的所有文檔被分配給長度倉。因此,如果兩個文檔的時間分量(例如,出版日期)在同一個30日窗之內(nèi)并且文檔中較短者的長度不少于較長文檔長度的80%,則二者為同一長度倉的成員。第一時間倉和任何其它時間倉的更多的長度倉被類似地定義。
為說明這種歸倉(binning),圖9給出了示意圖900。示意圖900包括逆時序排列的文檔標(biāo)識符或文檔簽名D1-D20的列表910,它被組織成三個時間倉或組TB1、TB2和TB3,各倉識別或?qū)?yīng)于互為30天內(nèi)出版的一組文檔。時間倉TB1包含文檔標(biāo)識符或文檔簽名D1-D7?;谄湮臋n簽名的長度分量將時間倉TB1的內(nèi)容排序,結(jié)果生成一個長度排序的列表920。如所示,列表920構(gòu)成為兩個長度倉LB1和LB2,各倉標(biāo)識或?qū)?yīng)于比倉中最長文檔的長度短20%以下的一組文檔。一旦各時間倉的所有長度倉被定義,各長度倉中的所有唯一文檔對均按步驟254B(圖2)的內(nèi)容比較過程被比較。
一些實(shí)施例省略了長度倉的實(shí)際定義,而是比較當(dāng)前時間倉中各文檔的長度和各其它文檔的長度并只對那些彼此之間長度差在±20%之內(nèi)的文檔進(jìn)行內(nèi)容比較。這些實(shí)施例中,以實(shí)際的方式有效地定義長度倉。
結(jié)論為促進(jìn)技術(shù)發(fā)展,本發(fā)明不僅認(rèn)識到有效解決信息檢索系統(tǒng)如何處理它們的文檔組中的復(fù)本文檔存在的必要性,而且在本申請中提供了有助于在搜索結(jié)果中根據(jù)用戶首選項(xiàng)識別和/或分組復(fù)本文檔的系統(tǒng)、方法及軟件。該識別和分組最終簡化了用戶訪問并審閱包含復(fù)本文檔的搜索結(jié)果的過程。
以上所述的實(shí)施例只是出于說明及教授操作和使用本發(fā)明的一個或多個方法之目的,而不是對本發(fā)明范圍的限制。本發(fā)明的實(shí)際范圍包括所有實(shí)施或?qū)崿F(xiàn)本發(fā)明的教導(dǎo)的方法,只由所提出的一項(xiàng)或多項(xiàng)專利權(quán)利要求及其等同物確定。
權(quán)利要求
1.一種信息檢索系統(tǒng),包括一個或多個數(shù)據(jù)庫;一個或多個協(xié)助客戶通過網(wǎng)絡(luò)訪問數(shù)據(jù)庫的服務(wù)器,各服務(wù)器包含查詢定義部件,協(xié)助用戶提交查詢并協(xié)助用戶選擇與包含一個或多個其它搜索結(jié)果文檔的重復(fù)內(nèi)容的搜索結(jié)果文檔之識別相關(guān)聯(lián)的選項(xiàng);以及復(fù)本判定部件,用于判定一個或多個搜索結(jié)果文檔是否包括一個或多個其它搜索結(jié)果文檔內(nèi)容中的重復(fù)內(nèi)容,所述復(fù)本判定部件包含用于比較第一和第二文檔各自的第一和第二特征向量的部件,各特征向量包含多個從各自文檔中選擇的特征的等長二進(jìn)制表示,各二進(jìn)制表示基于一個或多個數(shù)據(jù)庫的逆文本頻率指數(shù)(idf)表內(nèi)的特征中的一個對應(yīng)特征的順序位置;以及用于基于第一和第二特征向量的比較結(jié)果來判定第一和第二文檔是否為復(fù)本的部件,以及用于基于選定的選項(xiàng)控制搜索結(jié)果文檔的顯示的部件,至少一個顯示結(jié)果被指示為包含結(jié)果內(nèi)一個或多個其它文檔內(nèi)容中的重復(fù)內(nèi)容。
2.權(quán)利要求1所述的系統(tǒng),其中所述服務(wù)器還包含用于比較第一和第二文檔各自的第一和第二長度的部件,以及只根據(jù)具有預(yù)定關(guān)系的第一和第二長度來比較第一和第二文檔各自的第一和第二特征向量的部件。
3.權(quán)利要求1所述的系統(tǒng),其中各特征向量包含至少30個從各自文檔中選擇的詞,并且所述復(fù)本判定部件在第一和第二特征向量中至少80%的詞匹配時判定文檔為復(fù)本。
4.權(quán)利要求1所述的系統(tǒng),其中idf表以idf值的降序排序。
5.權(quán)利要求1所述的系統(tǒng),其中各部件包含一組或多組機(jī)器可讀指令。
6.一種運(yùn)行信息檢索系統(tǒng)的方法,包括比較第一和第二文檔各自的第一和第二特征向量,各特征向量包含多個從各自文檔中選擇的特征的二進(jìn)制表示,各二進(jìn)制表示基于逆文本頻率指數(shù)(idf)表內(nèi)的特征中的一個對應(yīng)特征的順序位置;以及基于比較第一和第二特征向量的結(jié)果判定第一和第二文檔是否為復(fù)本。
7.權(quán)利要求6所述方法,還包括響應(yīng)用戶查詢而比較被標(biāo)識的第一和第二文檔各自的第一和第二長度;根據(jù)指示第一和第二長度具有預(yù)定關(guān)系的第一和第二長度的比較而發(fā)生第一和第二文檔的比較。
8.權(quán)利要求6所述的方法,還包括比較各與第一和第二文檔關(guān)聯(lián)的第一和第二時間值。
9.權(quán)利要求6所述的方法,其中實(shí)時響應(yīng)通過互連網(wǎng)提交給系統(tǒng)的查詢而發(fā)生第一和第二特征向量的比較。
10.權(quán)利要求7所述的方法,其中當(dāng)且僅當(dāng)?shù)谝惶卣飨蛄烤哂兄辽匍撝禂?shù)量的特征與第二特征向量相同時,作出關(guān)于第一和第二文檔是否為復(fù)本的判定的肯定判定。
11.權(quán)利要求6所述的方法,其中所述二進(jìn)制表示是等長的,且各特征基于idf表中其對應(yīng)的idf值的相對量值從各自的文檔中選出。
12.權(quán)利要求11所述的方法,其中idf表以idf值的降序排列,且排除了具有大于0.8的idf值的特征。
13.一種機(jī)器可讀介質(zhì),包括用于執(zhí)行如下步驟的指令比較第一和第二文檔各自的第一和第二特征向量,各特征向量包含多個從各自文檔中選擇的特征的二進(jìn)制表示,且各二進(jìn)制表示基于逆文本頻率指數(shù)(idf)表內(nèi)的特征中的一個對應(yīng)特征的位置;以及基于第一和第二特征向量的比較結(jié)果判定第一和第二文檔是否為復(fù)本。
14.權(quán)利要求13所述的介質(zhì),還包括用于執(zhí)行如下步驟的指令響應(yīng)用戶查詢而比較被標(biāo)識的第一和第二文檔各自的第一和第二長度;其中根據(jù)指示第一和第二長度具有預(yù)定關(guān)系的第一和第二長度的比較而發(fā)生第一和第二文檔的比較。
15.權(quán)利要求13所述的介質(zhì),還包括用于比較分別與第一和第二文檔關(guān)聯(lián)的第一和第二時間值的指令。
全文摘要
很多公司提供了使用戶進(jìn)行計(jì)算機(jī)化的文檔檢索的在線檢索設(shè)備。不幸的是,這些檢索通常提供包括重復(fù)的文檔,即彼此完全或?qū)嵸|(zhì)上相同的文檔的結(jié)果。這個問題在例如檢索新聞報(bào)道時尤其令人煩惱。此外,重復(fù)文檔混雜在搜索結(jié)果中,讓用戶去人工應(yīng)付對它們進(jìn)行復(fù)雜的標(biāo)識和/或篩選。本發(fā)明提供了有助于在搜索結(jié)果中重復(fù)文檔的標(biāo)識和/或分組的系統(tǒng)、方法和軟件。一示范性系統(tǒng)包括基于長度、時間和/或內(nèi)容分量產(chǎn)生文檔簽名的簽名生成模塊;使用文檔簽名來標(biāo)識“精確的”或“模糊的”重復(fù)文檔的實(shí)時復(fù)本檢測模塊;以及控制搜索結(jié)果中的重復(fù)文檔如何被表示或抑制的用戶界面或表示模塊。
文檔編號G06F17/30GK101076800SQ200580035487
公開日2007年11月21日 申請日期2005年8月23日 優(yōu)先權(quán)日2004年8月23日
發(fā)明者J·G·康拉德, J·R·S·克勞森, J·林 申請人:湯姆森環(huán)球資源公司