專利名稱:導出文檔相似性索引的制作方法
技術領域:
本發(fā)明涉及文檔索引,尤其涉及文檔相似性索引。
背景技術:
1.背景和相關技術計算機系統(tǒng)和相關技術影響社會的許多方面。的確,計算機系統(tǒng)處理信息的能力已轉變了人們生活和工作的方式。計算機系統(tǒng)現(xiàn)在通常執(zhí)行在計算機系統(tǒng)出現(xiàn)以前手動執(zhí)行的許多任務(例如,文字處理、日程安排和會計等)。最近,計算機系統(tǒng)彼此耦合并耦合到其他電子設備以形成計算機系統(tǒng)和其他電子設備可以在其上傳輸電子數(shù)據(jù)的有線和無線計算機網(wǎng)絡。因此,許多計算任務的執(zhí)行跨多個不同的計算機系統(tǒng)和/或多個不同的計算環(huán)境分布。對于許多組織而言,文檔很容易按量構成最大信息資產(chǎn)。如此,按其顯著特征(諸如其關鍵詞和短語)來表征文檔是一種重要的功能。用于表征文檔的一種技術包括使用在全文本倒排索引中挖掘文檔的全文本搜索解決方案。用于表征文檔的另一技術挖掘文檔級語義(例如,以標識文檔之間的相似性)。 在一些實施例中,術語相似性和/或文檔相似性是經(jīng)由諸如潛在語義索引(“LSI”)和潛在 Direchlet分配(“LDA”)等計算密集的算法來計算的。LSI是使用稱為奇異值分解(“SVD”)的數(shù)學技術來標識文本的非結構化集合中包含的各術語和各概念之間的各個關系中的模式的索引和檢索方法。LSI基于以下原理 在相同上下文中使用的詞語趨向于具有相似的意義。LSI的一個特征是它能通過建立出現(xiàn)在類似上下文中的各術語之間的關聯(lián)來提取文本正文的概念性內(nèi)容。LDA是允許由解釋數(shù)據(jù)的一些部分為什么相似的未觀察到的各組來解釋各觀察結果集合的生成性模型。例如,如果觀察結果是被收集到文檔中的詞語,則假定每一文檔是少量主題的混合并且每一詞語的創(chuàng)建可歸因于該文檔的主題之一。然而,全文本搜索和文檔相似性技術的正確實現(xiàn)可能需要在計算機硬件和人力資源兩方面進行大量投資。此外,文檔解析、挖掘等操作通常在這兩種技術之間是重復的。如此,最終用戶因必須投資(可能多達雙倍)資源來支付另外的成本,才能獲得對他們的文檔的搜索和語義洞察的好處。另外,許多更復雜的文檔挖掘技術需要將不同的系統(tǒng)集成在一起,并且導致進一步的成本才能滿足一組織的文檔處理需求。
發(fā)明內(nèi)容
本發(fā)明涉及用于導出文檔相似性索引的方法、系統(tǒng)以及計算機程序產(chǎn)品。本發(fā)明的各實施例包括導出多個文檔的文檔相似性索引。訪問一文檔。計算該文檔的標簽索引。 標簽索引包括一個或多個關鍵詞/權重對。每一關鍵詞/權重對將關鍵詞映射到該關鍵詞的對應權重,以指示該關鍵詞在文檔內(nèi)的顯著性?;跇撕炈饕械臋嘀貋順俗R文檔中的指定數(shù)量的最顯著的關鍵詞。
6
對于該指定數(shù)量的最顯著的關鍵詞中的每一關鍵詞,從多個文檔中的每一文檔內(nèi)確定該關鍵詞的對應權重。基于多個文檔中的指定數(shù)量的最顯著的關鍵詞的對應權重來從該多個文檔中標識多個候選文檔。文檔中的指定數(shù)量的最顯著的關鍵詞中的至少一些也是該多個候選文檔中的每一個文檔中的顯著關鍵詞。對于該多個候選文檔中的每一候選文檔,通過確定來自該文檔的附加關鍵詞在候選文檔內(nèi)的權重來計算該文檔與候選文檔之間的完全相似性。選擇規(guī)定數(shù)量的候選文檔的完全相似性以包括在文檔相似性索引中,來指示與該文檔相似的文檔。對規(guī)定數(shù)量的候選文檔的完全相似性的選擇是基于完全相似性計算并根據(jù)硬限制或明確閾值之一的。硬限制或明確閾值對可被選擇以包括在文檔相似性索引中的候選文檔的數(shù)量進行限制。對于規(guī)定數(shù)量的候選文檔中包括的每一候選文檔,來自該文檔與候選文檔之間的完全相似性的信息被存儲在文檔相似性索引中。本發(fā)明的其他實施例包括更新多個文檔的文檔相似性索引。訪問一批文檔。對于該批文檔中的每一文檔,計算該文檔的標簽索引。標簽索引包括一個或多個關鍵字/權重對。每一關鍵詞/權重對將關鍵詞映射到該關鍵詞的對應權重,以指示該關鍵詞在文檔內(nèi)的顯著性。對于該批文檔中的每一文檔,在計算了標簽索引之后,基于標簽索引中的權重來標識該文檔中的指定數(shù)量的最顯著的關鍵字。對于該指定數(shù)量的最顯著的關鍵詞中的每一關鍵詞,從多個文檔中的每一文檔內(nèi)以及該批文檔的文檔中確定該關鍵詞的對應權重。從該多個文檔和該批文檔中標識多個候選文檔?;谠摱鄠€文檔和該批文檔中的指定數(shù)量的最顯著的關鍵詞的對應權重來標識該多個候選文檔。該文檔中的指定數(shù)量的最顯著的關鍵詞中的至少一些也是該多個候選文檔中的每一個候選文檔中的顯著關鍵字。對于從該多個文檔內(nèi)標識的任何候選文檔,通過確定來自該文檔的附加關鍵詞在該候選文檔內(nèi)的權重來標識該文檔與該候選文檔之間的完全相似性。從文檔相似性索引中標識該候選文檔的來自指定數(shù)量的最高相似性中的最弱相似性。該最弱相似性指示該候選文檔與該多個文檔中的另一文檔之間的相似性。通過將計算得到的完全相似性與所標識的最弱相似性進行比較來確定該候選文檔和該文檔比該候選文檔和另一文檔更相似。用來自計算得到的完全相似性的信息來替換文檔相似性索引內(nèi)的該最弱相似性,該替換是基于該確定的;以及對于從該批文檔標識的任何候選文檔,通過確定來自該文檔的附加關鍵詞在該候選文檔內(nèi)的權重來標識該文檔與該候選文檔之間的完全相似性。選擇規(guī)定數(shù)量的候選文檔來作為與該文檔相似的文檔以包括在文檔相似性索引中。對規(guī)定數(shù)量的候選文檔的選擇是基于完全相似性計算并根據(jù)硬限制或明確閾值之一的。硬限制或明確閾值對可被選擇以包括在文檔相似性索引中的候選文檔的數(shù)量進行限制。來自該文檔與該候選文檔之間的計算得到的完全相似性的信息被存儲在文檔相似性索引中。提供本發(fā)明內(nèi)容以便以簡化的形式介紹將在以下的具體實施方式
中進一步描述的一些概念。本發(fā)明內(nèi)容并非旨在標識所要求保護的主題的關鍵特征或必要特征,也不旨在用于幫助確定所要求保護的主題的范圍。本發(fā)明的附加特征和優(yōu)點將在以下描述中敘述,且其一部分根據(jù)本描述將是顯而易見的,或可通過對本發(fā)明的實踐來獲知。本發(fā)明的特征和優(yōu)點可通過在所附權利要求書中特別指出的工具和組合來實現(xiàn)和獲得。本發(fā)明的這些和其他特征將通過以下描述和所附權利要求書變得更加顯而易見,或可通過對下文中所述的本發(fā)明的實踐來領會。
為了描述可獲得本發(fā)明的上述和其他優(yōu)點和特征的方式,將通過參考附圖中示出的本發(fā)明的具體實施例來呈現(xiàn)以上簡要描述的本發(fā)明的更具體描述??梢岳斫?,這些附圖僅描述本發(fā)明的典型實施例,從而不被認為是對其范圍的限制,本發(fā)明將通過使用附圖用附加特征和細節(jié)來描述和說明,在附圖中圖1示出了便于導出文檔相似性索引的示例計算機體系結構。圖2示出了用于導出文檔相似性索引的示例方法的流程圖。圖3示出了便于更新文檔相似性索引的示例計算機體系結構。圖4示出了用于更新文檔相似性索引的示例方法的流程圖。
具體實施例方式本發(fā)明涉及用于導出文檔相似性索引的方法、系統(tǒng)以及計算機程序產(chǎn)品。本發(fā)明的各實施例包括導出多個文檔的文檔相似性索引。訪問一文檔。計算該文檔的標簽索引。 標簽索引包括一個或多個關鍵詞/權重對。每一關鍵詞/權重對將關鍵詞映射到該關鍵詞的對應權重,以指示該關鍵詞在文檔內(nèi)的顯著性。基于標簽索引中的權重來標識文檔中的指定數(shù)量的最顯著的關鍵詞。對于該指定數(shù)量的最顯著的關鍵詞中的每一關鍵詞,從多個文檔中的每一文檔內(nèi)確定該關鍵詞的對應權重?;诙鄠€文檔中的指定數(shù)量的最顯著的關鍵詞的對應權重來從該多個文檔中標識多個候選文檔。文檔中的指定數(shù)量的最顯著的關鍵詞中的至少一些也是該多個候選文檔中的每一個文檔中的顯著關鍵詞。對于該多個候選文檔中的每一候選文檔,通過確定來自該文檔的附加關鍵詞在候選文檔內(nèi)的權重來計算該文檔與候選文檔之間的完全相似性。選擇規(guī)定數(shù)量的候選文檔的完全相似性以包括在文檔相似性索引中,來指示與該文檔相似的文檔。對規(guī)定數(shù)量的候選文檔的完全相似性的選擇是基于完全相似性計算并根據(jù)硬限制或明確閾值之一的。硬限制或明確閾值對可被選擇以包括在文檔相似性索引中的候選文檔的數(shù)量進行限制。對于規(guī)定數(shù)量的候選文檔中包括的每一候選文檔,來自該文檔與候選文檔之間的完全相似性的信息被存儲在文檔相似性索引中。本發(fā)明的其他實施例包括更新多個文檔的文檔相似性索引。訪問一批文檔。對于該批文檔中的每一文檔,計算該文檔的標簽索引。標簽索引包括一個或多個關鍵詞/權重對。每一關鍵詞/權重對將關鍵詞映射到該關鍵詞的對應權重,以指示該關鍵詞在文檔內(nèi)的顯著性。對于該批文檔中的每一文檔,在計算了標簽索引之后,基于標簽索引中的權重來標識該文檔中的指定數(shù)量的最顯著的關鍵詞。對于該指定數(shù)量的最顯著的關鍵詞中的每一關鍵詞,從多個文檔中的每一文檔內(nèi)以及該批文檔的文檔中確定該關鍵詞的對應權重。從該多個文檔和該批文檔中標識多個候選文檔。基于該多個文檔和該批文檔中的指定數(shù)量的最顯著的關鍵詞的對應權重來標識該多個候選文檔。該文檔中的指定數(shù)量的最顯著的關鍵詞中的至少一些也是該多個候選文檔中的每一個候選文檔中的顯著關鍵詞。對于從該多個文檔標識的任何候選文檔,通過確定來自該文檔的附加關鍵詞在該候選文檔內(nèi)的權重來標識該文檔與該候選文檔之間的完全相似性。從文檔相似性索引中標識該候選文檔的來自指定數(shù)量的最高相似性中的最弱相似性。該最弱相似性指示該候選文檔與該多個文檔中的另一文檔之間的相似性。通過將計算得到的完全相似性與所標識的最弱相似性進行比較來確定該候選文檔和該文檔比該候選文檔和另一文檔更相似。用來自計算得到的完全相似性的信息來替換文檔相似性索引內(nèi)的該最弱相似性,該替換是基于該確定的;以及對于從該批文檔標識的任何候選文檔,通過確定來自該文檔的附加關鍵詞在該候選文檔內(nèi)的權重來標識該文檔與該候選文檔之間的完全相似性。選擇規(guī)定數(shù)量的候選文檔來作為與該文檔相似的文檔以包括在文檔相似性索引中。對規(guī)定數(shù)量的候選文檔的選擇是基于完全相似性計算并根據(jù)硬限制或明確閾值之一的。硬限制或明確閾值限制了可被選擇以包括在文檔相似性索引中的候選文檔的數(shù)量。來自該文檔與該候選文檔之間的計算得到的完全相似性的信息被存儲在文檔相似性索引中。本發(fā)明的各實施例可包括或利用專用或通用計算機,該專用或通用計算機包括諸如例如一個或多個處理器和系統(tǒng)存儲器等計算機硬件,如以下更詳細討論的。本發(fā)明范圍內(nèi)的各實施例還包括用于攜帶或存儲計算機可執(zhí)行指令和/或數(shù)據(jù)結構的物理介質和其他計算機可讀介質。這些計算機可讀介質可以是通用或專用計算機系統(tǒng)能夠訪問的任何可用介質。存儲計算機可執(zhí)行指令的計算機可讀介質是物理存儲介質。攜帶計算機可執(zhí)行指令的計算機可讀介質是傳輸介質。由此,作為示例而非限制,本發(fā)明的各實施例可包括至少兩種明顯不同類型的計算機可讀介質計算機存儲介質和傳輸介質。計算機存儲介質包括RAM、ROM、EEPROM、CD-ROM、DVD或其他光盤存儲、磁盤存儲或其他磁存儲設備、或可用于存儲計算機可執(zhí)行指令或數(shù)據(jù)結構形式的所需程序代碼裝置 (軟件)且可由通用或專用計算機訪問的任何其他介質。“網(wǎng)絡”被定義為允許在計算機系統(tǒng)和/或模塊和/或其他電子設備之間傳輸電子數(shù)據(jù)的一個或多個數(shù)據(jù)鏈路。當信息通過網(wǎng)絡或另一個通信連接(硬連線、無線、或者硬連線或無線的組合)傳輸或提供給計算機時,該計算機將該連接適當?shù)匾暈閭鬏斀橘|。傳輸介質可包括可用于攜帶以計算機可執(zhí)行指令或數(shù)據(jù)結構形式的所需程序代碼裝置且可由通用或專用計算機訪問的網(wǎng)絡和/或數(shù)據(jù)鏈路。上述的組合也應被包括在計算機可讀介質的范圍內(nèi)。此外,在到達各種計算機系統(tǒng)組件之后,以計算機可執(zhí)行指令或數(shù)據(jù)結構形式的程序代碼裝置可從傳輸介質自動傳輸?shù)接嬎銠C存儲介質(或反之亦然)。例如,通過網(wǎng)絡或數(shù)據(jù)鏈路接收到的計算機可執(zhí)行指令或數(shù)據(jù)結構可被緩存在網(wǎng)絡接口模塊(例如,“OTC”) 內(nèi)的RAM中,然后最終被傳輸?shù)接嬎銠C系統(tǒng)RAM和/或計算機系統(tǒng)處的較不易失性的計算機存儲介質。因而,應當理解,計算機存儲介質可被包括在還利用(或甚至主要利用)傳輸介質的計算機系統(tǒng)組件中。計算機可執(zhí)行指令例如包括,當在處理器處執(zhí)行時使通用計算機、專用計算機、或專用處理設備執(zhí)行某一功能或某組功能的指令和數(shù)據(jù)。計算機可執(zhí)行指令可以是例如二進制代碼、諸如匯編語言之類的中間格式指令、或甚至源代碼。盡管用結構特征和/或方法動作專用的語言描述了本主題,但可以理解,所附權利要求書中定義的主題不必限于上述特征或動作。相反,上述特征和動作是作為實現(xiàn)權利要求的示例形式而公開的。本領域的技術人員將理解,本發(fā)明可以在具有許多類型的計算機系統(tǒng)配置的網(wǎng)絡計算環(huán)境中實踐,這些計算機系統(tǒng)配置包括個人計算機、臺式計算機、膝上型計算機、消息處理器、手持式設備、多處理器系統(tǒng)、基于微處理器的或可編程消費電子設備、網(wǎng)絡PC、小型計算機、大型計算機、移動電話、PDA、尋呼機、路由器、交換機等等。本發(fā)明也可在其中通過網(wǎng)絡鏈接(或者通過硬連線數(shù)據(jù)鏈路、無線數(shù)據(jù)鏈路,或者通過硬連線和無線數(shù)據(jù)鏈路的組合)的本地和遠程計算機系統(tǒng)兩者都執(zhí)行任務的分布式系統(tǒng)環(huán)境中實施。在分布式系統(tǒng)環(huán)境中,程序模塊可位于本地和遠程存儲器存儲設備兩者中。本發(fā)明的各實施例可被用來導出文檔相似性索引。圖1示出了便于導出文檔相似性索引的示例計算機體系結構100。參考圖1,計算機體系結構100包括標簽索引生成器 101、關鍵詞選擇器102、候選文檔標識器103、完全相似性計算器106、以及候選文檔選擇器 107。所描繪的組件中的每一個可通過諸如例如局域網(wǎng)(“LAN”)、廣域網(wǎng)(“WAN”)和甚至因特網(wǎng)等網(wǎng)絡(或作為網(wǎng)絡的一部分)彼此連接。因此,所描繪的組件中的每一個以及任何其他連接的計算機系統(tǒng)及其組件都可以創(chuàng)建消息相關數(shù)據(jù)并通過網(wǎng)絡交換消息相關數(shù)據(jù)(例如,網(wǎng)際協(xié)議(“IP”)數(shù)據(jù)報和利用IP數(shù)據(jù)報的其他更高層協(xié)議,諸如傳輸控制協(xié)議(“TCP”)、超文本傳輸協(xié)議(“HTTP”)、簡單郵件傳輸協(xié)議(“SMTP)等)?!币话愣?,標簽索引生成器101被配置成接收文檔并生成該文檔的標簽索引。標簽索引包括將來自文檔的關鍵詞映射到該關鍵詞在該文檔內(nèi)的對應權重的一個或多個關鍵詞/權重對。關鍵詞可以是書面語(例如,英語、日語、德語等)的詞。權重指示該關鍵詞在該文檔內(nèi)的顯著性。各種不同類型的自由參數(shù)(如術語頻率、文檔長度等)可被用于權重函數(shù)中以生成標簽索引中包括的權重值,并被用于選擇/閾值函數(shù)中,該選擇/閾值函數(shù)被用來選擇標簽索引內(nèi)的標簽。權重函數(shù)和選擇/閾值函數(shù)的函數(shù)形式可任意選擇。例如,一些可能的函數(shù)類型包括函數(shù)形式示例線性f(. ) = axl+bx2+c多項式FO=Bxl1^bxZn-1比例f(.) = axln/bx2m指數(shù)2fC),efC)關鍵詞選擇器102被配置成接收標簽索引并從標簽索引中提取多個顯著關鍵詞。 顯著關鍵詞可以基于權重來進行選擇。所選擇的顯著關鍵詞的數(shù)量可以基于限制或閾值。候選文檔標識器103被配置成標識候選文檔以因其與另一文檔相似而被包括在文檔相似性索引中。候選文檔可以基于關鍵詞來標識。關鍵詞比較器104可以將來自文檔的顯著關鍵詞與來自多個其他文檔的標簽索引進行比較。在來自一個文檔的顯著關鍵詞在另一文檔的標簽索引中也被更重地加權時,該一個文檔至少有某種可能性與該另一文檔相似。候選文檔標識器103可以輸出具有與另一文檔的潛在相似性的對應一組候選文檔的一組標簽索引。完全相似性計算器106被配置成計算一文檔與該潛在相似候選文檔的集合中的
10每一文檔之間的完全相似性。完全相似性可以從該文檔的標簽索引和來自每一潛在相似的候選文檔的標簽來計算。因此,來自一文檔的前幾個顯著關鍵詞可被用來標識潛在相似候選文檔,并且隨后該文檔的完全標簽索引可被用來計算該文檔與潛在相似候選文檔中的每一個之間的完全相似性。候選文檔選擇器107被配置成選擇規(guī)定數(shù)量的候選文檔的完全相似性以包括在文檔相似性索引中。候選文檔選擇器107根據(jù)候選選擇規(guī)則IM來選擇完全相似性以包括在文檔相似性索引中。候選選擇規(guī)則1 可包括對可被選擇以包括在文檔相似性索引中的候選文檔的數(shù)量進行限制的硬限制或明確閾值。來自所選文檔相似性的信息可被存儲在文檔相似性索引中以指示各文檔之間的相似性(例如,兩個文檔包含多個相同的詞或短語)。圖2示出了用于導出文檔相似性索引的示例方法200的流程圖。方法200將參考計算機體系結構100的組件和數(shù)據(jù)來描述。方法200包括訪問文檔的動作(動作201)。例如,標簽索引生成器101可以訪問文檔112(例如,書面語的文檔)。方法200包括計算文檔的標簽索引,該標簽索引包括一個或多個關鍵詞/權重對,每一關鍵詞/權重對將關鍵詞映射到該關鍵詞的對應權重以指示該關鍵詞在該文檔內(nèi)的顯著性的動作(動作202)。例如,標簽索引生成器101可以生成文檔112的標簽索引113。標簽索引113包括關鍵詞/權重對,例如指示每一關鍵詞114A、 關鍵詞114B等在文檔112內(nèi)的顯著性的關鍵詞114A/權重114B、關鍵詞116A/權重116B寸。方法200包括基于標簽索引中的權重來標識該文檔中的指定數(shù)量的最顯著的關鍵詞的動作(動作203)。例如,關鍵詞選擇器102可以訪問標簽索引113。關鍵詞選擇器 102可以基于標簽索引113中的權重來標識文檔112(包括關鍵詞1144、116々、118幻中包含的顯著關鍵詞117。例如,權重114B、116B等可以指示關鍵詞114A、116A等在文檔112中更顯著。關鍵詞選擇器102可被配置成從文檔中選擇指定數(shù)量(例如,前10個)的顯著關鍵詞。方法200包括對于指定數(shù)量的最顯著關鍵詞中的每一關鍵詞,確定該關鍵詞在多個文檔中的每一文檔中的對應權重的動作(動作204)。候選文檔標識器103可以接收(文檔111的)顯著關鍵詞117和標簽索引119。標簽索引119中的每一標簽索引可以對應于諸文檔111中的文檔。例如,標簽索引119A對應于文檔111A,標簽索引119B對應于文檔 111B,標簽索引119C對應于文檔111C,諸如此類。標簽索引生成器102可被用來生成文檔 111的標簽索引119。因此,標簽索引119中的每一標簽索引的格式可以是標簽索引113的格式。對于顯著關鍵詞117中的每一關鍵詞,候選文檔標識器103可以掃描標簽索引119 以尋找該關鍵詞。對于包括該關鍵詞的任何標簽索引,可臨時保存該關鍵詞在對應文檔內(nèi)的權重。例如,如果在標簽索引119A中找到了關鍵詞114A,則可臨時保存該關鍵詞114A在文檔IllA內(nèi)的權重。方法200包括基于指定數(shù)量的最顯著關鍵詞在多個文檔中的對應權重從該多個文檔中標識多個候選文檔的動作,該文檔中的指定數(shù)量的最顯著關鍵詞中的至少一些也是該多個候選文檔中的每一個中的顯著關鍵詞(動作20幻。候選文檔標識器103可以(從諸文檔111中)將與標簽索引121(標簽索引119的子集)相對應的文檔標識為可能與文檔112相似的候選文檔。例如,候選文檔標識器103可以將與標簽索引119A相對應的文檔 IllA標識為可能與文檔112相似。類似地,候選文檔標識器103可以將與標簽索引119C相對應的文檔IllC標識為可能與文檔112相似。同樣,候選文檔標識器103可以(從諸文檔 111中)將與標簽索引119C相對應的某一其他文檔標識為可能與文檔112相似。顯著關鍵詞117中的至少一些也可被包括在候選文檔111A、11 IC等中的每一個中。為了標識可能與文檔112相似的候選文檔,關鍵詞比較器104可以將在每一文檔中找到的每一關鍵詞的諸關鍵詞權重彼此進行比較。不同算法可被用來標識候選,這些算法可以基于顯著關鍵詞117中有多少被包含在文檔中以及在該文檔中每一顯著關鍵詞的權重是什么。因此,包含較大數(shù)量的在該文檔中具有較小顯著性的顯著關鍵詞117的文檔可被標識為候選文檔。類似地,包含較少數(shù)量的在該文檔中具有較大顯著性的顯著關鍵詞 117的文檔也可被標識為候選文檔。方法200包括對于多個候選文檔中的每一候選文檔,通過確定來自該文檔的附加關鍵詞在候選文檔內(nèi)的權重來計算該文檔與該候選文檔之間的完全相似性的動作(動作 206)。例如,完全相似性計算器102可以訪問標簽索引113和標簽索引122。完全相似性計算器102可以計算完全相似性123。完全相似性123可以指示文檔112與對應于各標簽索引121中的標簽索引的每一文檔之間的完全相似性。例如,完全相似性123可以基于標簽索引113和119A中的(顯著關鍵詞117之外的)關鍵詞和權重來指示文檔112與文檔IllA之間的完全相似性。同樣,完全相似性123 可以基于標簽索引113和119C中的(顯著關鍵詞117之外的)關鍵詞和權重來指示文檔 112與文檔IllC之間的完全相似性。文檔112與其他文檔之間的完全相似性還可以基于標簽索引113和其他對應的標簽索引中的關鍵詞和權重來指示。方法200包括選擇規(guī)定數(shù)量的候選文檔的完全相似性以包括在文檔相似性索引中來指示與該文檔相似的文檔的動作,基于完全相似性計算并根據(jù)硬限制或明確閾值之一來選擇規(guī)定數(shù)量的候選文檔的完全相似性,該硬限制或明確閾值對可被選擇以包括在文檔相似性索引中的候選文檔的數(shù)量進行限制(動作207)。例如,候選文檔選擇器107可以選擇規(guī)定的完全相似性126以包括在文檔相似性索引127中。規(guī)定的相似性1 包括文檔 112與完全相似性123中所表示的候選文檔的縮減子集之間的完全相似性。候選文檔選擇器107可以基于完全相似性123并根據(jù)候選選擇規(guī)則IM中的硬限制或明確閾值來選擇規(guī)定的完全相似性126。硬限制或明確閾值對來自完全相似性123的可被包括在規(guī)定的完全相似性126中的完全相似性的數(shù)量進行限制。例如,硬限制可以將可被包括在規(guī)定的完全相似性中的完全相似性的數(shù)量限制為10或更少。方法200包括對于規(guī)定數(shù)量的候選文檔中包括的每一候選文檔,將來自該文檔與該候選文檔之間的完全相似性的信息存儲在文檔相似性索引中的動作(動作208)。例如, 對于規(guī)定的完全相似性126中表示的每一候選文檔,來自文檔112與候選文檔之間的相似性的信息可被存儲在文檔相似性索引127中。例如,來自標簽索引113和標簽索引119A的信息可被存儲在文檔相似性索引127中以指示文檔112和IllA是相似的。本發(fā)明的各實施例還可被用來更新文檔相似性索引。圖3示出了便于導出文檔相似性索引的示例計算機體系結構300。參考圖3,計算機體系結構300包括標簽索引生成器 301、關鍵詞選擇器302、候選文檔標識器303、完全相似性計算器306、候選文檔選擇器307、文檔位置檢測器309、以及相似性比較器374。所描繪的組件中的每一個可通過諸如例如局域網(wǎng)(“LAN”)、廣域網(wǎng)(“WAN”)和甚至因特網(wǎng)等網(wǎng)絡(或作為網(wǎng)絡的一部分)彼此連接。 因此,所描繪的組件中的每一個以及任何其他連接的計算機系統(tǒng)及其組件都可以創(chuàng)建消息相關數(shù)據(jù)并通過網(wǎng)絡交換消息相關數(shù)據(jù)(例如,網(wǎng)際協(xié)議(“IP”)數(shù)據(jù)報和利用IP數(shù)據(jù)報的其他更高層協(xié)議,諸如傳輸控制協(xié)議(“TCP”)、超文本傳輸協(xié)議(“HTTP”)、簡單郵件傳輸協(xié)議(“SMTP”)等)。相同命名的組件與計算機體系結構100中的對應組件相似地運作。例如,標簽索引生成器301、關鍵詞選擇器302、候選文檔標識器303、完全相似性計算器306、候選文檔選擇器307可以分別與標簽索引生成器101、關鍵詞選擇器102、候選文檔標識器103、完全相似性計算器106、以及候選文檔選擇器107相似地運作。文檔位置檢測器309被配置成從該文檔的標簽索引中確定文檔所處的位置(例如,處于哪一批文檔)。相似性比較器374被配置成將不同的相似性彼此進行比較以確定哪一相似性是最強的(較相似)和/或最弱的(較不相似)。例如,相似性比較器374可以將第一文檔與第二文檔之間的相似性與該第一文檔與第三文檔之間的相似性進行比較以確定該第一文檔是更相似于該第二文檔還是該第三文檔。圖4示出了用于更新文檔相似性索引的示例方法400的流程圖。方法400將參考計算機體系結構300的組件和數(shù)據(jù)來描述。如圖所示,標簽索引生成器301可以生成文檔311的標簽索引319。例如,標簽索引319A可對應于文檔311A,標簽索引319B可對應于文檔311B,標簽索引319C可對應于文檔311C,諸如此類。方法400包括訪問一批文檔的動作(動作401)。例如,標簽索引生成器401可以訪問包括文檔312A、312B、312C等的批量文檔312。對于該批文檔中的每一文檔,計算該文檔的標簽索引的動作,該標簽索引包括一個或多個關鍵詞/權重對,每一關鍵詞/權重對將關鍵詞映射到該關鍵詞的對應權重以指示該關鍵詞在該文檔內(nèi)的顯著性(動作402)。標簽索引生成器301可以生成批量文檔312的諸標簽索引364。例如,標簽索引生成器301可以生成文檔312A的標簽索引313、文檔312B的標簽索引393,等等。例如,標簽索引313包括關鍵詞/權重對,例如指示每一關鍵詞314A、關鍵詞314B等在文檔312A內(nèi)的顯著性的關鍵詞314A/權重314B、關鍵詞316A/權重316B等。類似地,標簽索引393包括關鍵詞/權重對,例如指示每一關鍵詞394A、關鍵詞394B等在文檔312B內(nèi)的顯著性的關鍵詞394A/權重 394B、關鍵詞396A/權重396B等。標簽索引397可以是批量文檔312中的某一其他文檔的類似地格式化的標簽索引。方法400包括對于該批文檔中的每一文檔,在計算了標簽索引之后,基于標簽索引中的權重來標識該文檔中的指定數(shù)量的最顯著的關鍵字的動作(動作403)。例如,關鍵詞選擇器302可以訪問標簽索引313。關鍵詞選擇器302可以基于標簽索引313中的權重來標識文檔112(包括關鍵詞114A、116A、118A)中包含的顯著關鍵詞317。例如,權重314B、 316B等可以指示關鍵詞314A、316A等在文檔312中較顯著。關鍵詞選擇器302可被配置成從文檔中選擇指定數(shù)量(例如,前10個)的顯著關鍵詞。方法400包括對于指定數(shù)量的最顯著關鍵詞中的每一關鍵詞,確定該關鍵詞在多個文檔中和該批文檔中的每一文檔中的對應權重的動作(動作404)。候選文檔標識器303 可以接收顯著關鍵詞317、(批量文檔312的)諸標簽索引364、(諸文檔311的)諸標簽索引319。諸標簽索引364中的每一標簽索引可對應于批量文檔312中的文檔,例如,標簽索引393可對應于文檔312B。標簽索引319中的每一標簽索引可以對應于諸文檔311中的文檔。例如,標簽索引319A對應于文檔311A,標簽索引319B對應于文檔311B,標簽索引 319C對應于文檔311C,諸如此類。對于顯著關鍵詞317中的每一關鍵詞,候選文檔標識器303可以掃描標簽索引 364(可忽略標簽索引313)和標簽索引319以尋找該關鍵詞。對于包括該關鍵詞的任何標簽索引,可臨時保存該關鍵詞在對應文檔內(nèi)的權重。例如,如果在標簽索引319A中找到了關鍵詞314A,則可臨時保存該關鍵詞314A在文檔311A內(nèi)的權重。類似地,如果在標簽索引 393中找到了關鍵詞316A,則可臨時保存該關鍵詞316A在文檔312B內(nèi)的權重。方法400包括基于指定數(shù)量的最顯著關鍵詞在該多個文檔中和該批文檔中的對應權重從該多個文檔中和該批文檔中標識多個候選文檔的動作,該文檔中的指定數(shù)量的最顯著關鍵詞中的至少一些也是該多個候選文檔中的每一個中的顯著關鍵詞(動作405)。候選文檔標識器303可以(從批量文檔312和諸文檔312中)將與標簽索引321 (標簽索引 364和319的子集)相對應的文檔標識為可能與文檔312A相似的候選文檔。例如,候選文檔標識器303可以將與標簽索引319A相對應的文檔311A標識為可能與文檔112相似。類似地,候選文檔標識器303可以將與標簽索引319C相對應的文檔 311C標識為可能與文檔112相似。同樣,候選文檔標識器303可以將與標簽索引393相對應的文檔312B標識為可能與文檔312A相似。顯著關鍵詞317中的至少一些也可被包括在候選文檔111A、111C、112B等中的每一個中。為了標識可能與文檔312A相似的候選文檔, 關鍵詞比較器304可以將在每一文檔中找到的每一關鍵詞的諸關鍵詞權重彼此進行比較。文檔位置檢測器309可以訪問標簽索引321并檢測與標簽索引相對應的文檔是位于諸文檔311中還是位于批量文檔312中。文檔位置檢測器可以將諸文檔311中的候選文檔的標簽索引與批量文檔312中的候選文檔的標簽索引分開。標簽索引331包括例如與批量文檔312中的文檔相對應的標簽索引393、397等。標簽索引332包括例如與諸文檔311 中的文檔相對應的標簽索引319、319A等。方法400包括對于從該多個文檔標識的任何候選文檔,通過確定來自該文檔的附加關鍵詞在候選文檔內(nèi)的權重來計算該文檔與該候選文檔之間的完全相似性的動作(動作406)。例如,完全相似性計算器302可以訪問標簽索引313和標簽索引332。完全相似性計算器302可以計算完全相似性334。完全相似性334可以指示文檔312A與對應于諸標簽索引332中的標簽索引的每一文檔之間的完全相似性。例如,完全相似性334可以基于標簽索引313和319A中的(顯著關鍵詞317之外的)關鍵詞和權重來指示文檔312A與文檔311A之間的完全相似性。同樣,完全相似性334 可以基于標簽索引313和319C中的(顯著關鍵詞317之外的)關鍵詞和權重來指示文檔 312A與文檔311C之間的完全相似性。文檔312A與諸文檔311中的其他文檔之間的完全相似性還可以基于標簽索引113和其他對應的標簽索引中的關鍵詞和權重來指示。轉向圖3的續(xù)頁,在一些實施例中,文檔相似性由聯(lián)系兩文檔的相似性值來表示。 例如,在完全相似性334內(nèi),相似性值372表示文檔312A與文檔311C之間的相似性。類似地,在文檔相似性索引327內(nèi),相似性值371表示文檔361 (某一其他文檔)與文檔31IC之間的相似性。方法400包括從文檔相似性索引中候選文檔的指定數(shù)量的在前的相似性中標識最弱相似性的動作,該最弱相似性指示該候選文檔與該多個文檔中的另一文檔之間的相似性(動作407)。例如,相似性比較器374可以從文檔相似性索引327中訪問文檔311C的指定數(shù)量的在前的相似性。指定數(shù)量的在前的相似性表示文檔311C與其他文檔之間的相似性。相似性比較器374可以將指定數(shù)量的在前的相似性彼此進行比較以標識該指定數(shù)量的在前的相似性中的最弱相似性(例如,按值來比較)。例如,相似性比較器374可以基于相似性值371將文檔361與文檔311C之間的相似性標識為文檔311C的最弱在前相似性。如此,相似性比較器374可以將文檔361與文檔311C之間的相似性看作文檔相似性索引327內(nèi)的替換的候選。相似性比較器374還可訪問完全相似性334。相似性比較器可以將相似性值372 與相似性值371進行比較以確定文檔311C是更相似于文檔312A還是更相似于文檔361。方法400包括通過將計算得到的完全相似性與所標識的最弱相似性進行比較來確定該候選文檔和該文檔比該候選文檔和該另一文檔更相似的動作(動作408)。例如,基于相似性值371和372,相似性比較器374可以確定文檔312A和31IC比文檔361和31IC 更相似。方法400包括用來自計算得到的完全相似性的信息替換文檔相似性索引內(nèi)的最弱相似性的動作,該替換是基于該確定的(動作409)。例如,來自文檔312A與文檔311C之間的完全相似性的信息可以替換文檔相似性索引327內(nèi)的文檔311C與文檔361之間的相似性。如此,基于更近接收到的文檔的相似性被檢測為比現(xiàn)有文檔之間的相似性更大來遞增地更新文檔相似性索引327(而不必完全重建文檔相似性索引327)。例如,基于相似性值371和372,相似性比較器374可以確定文檔361和31IC比文檔312A和31IC更相似。如此,文檔361與文檔31IC之間的相似性保留在文檔相似性索引 327 中。方法400包括對于從該批文檔標識的任何候選文檔,通過確定來自該文檔的附加關鍵詞在候選文檔內(nèi)的權重來計算該文檔與該候選文檔之間的完全相似性的動作(動作 410)。返回圖3,完全相似性計算器302可以訪問標簽索引313和標簽索引331。完全相似性計算器302可以計算完全相似性333。完全相似性333可以指示文檔312A與對應于諸標簽索引331中的標簽索引的每一文檔之間的完全相似性。例如,完全相似性333可以基于標簽索引313和393中的(顯著關鍵詞317之外的)關鍵詞和權重來指示文檔312A與文檔312B之間的完全相似性。同樣,完全相似性333 可以基于標簽索引313和397中的(顯著關鍵詞317之外的)關鍵詞和權重來指示文檔 312A與批量文檔312中的另一文檔之間的完全相似性。文檔312A與批量文檔312中的其他文檔之間的完全相似性還可以基于標簽索引113和其他對應的標簽索引中的關鍵詞和權重來指示。方法400包括選擇規(guī)定數(shù)量的候選文檔以包括在文檔相似性索引中來作為與該文檔相似的文檔的動作,基于完全相似性計算并根據(jù)硬限制或明確閾值之一來選擇規(guī)定數(shù)量的候選文檔,該硬限制或明確閾值對可被選擇以包括在文檔相似性索引中的候選文檔的數(shù)量進行限制(動作411)。再次轉向圖3的續(xù)頁,候選文檔選擇器307可以選擇規(guī)定的完全相似性326以包括在文檔相似性索引327中。規(guī)定的相似性3 包括文檔312A與完全相似性333中所表示的候選文檔的縮減子集之間的完全相似性。候選文檔選擇器307可以基于完全相似性333并根據(jù)候選選擇規(guī)則3M中的硬限制或明確閾值來選擇規(guī)定的完全相似性326。硬限制或明確閾值對來自完全相似性333的可被包括在規(guī)定的完全相似性3 中的完全相似性的數(shù)量進行限制。方法300包括將來自計算得到的該文檔和該候選文檔之間的完全相似性的信息存儲在文檔相似性索引中的動作(動作411)。例如,對于規(guī)定的完全相似性326中表示的每一候選文檔,來自文檔312A與該候選文檔之間的相似性的信息可被存儲在文檔相似性索引327中。例如,來自標簽索引313和標簽索引393的信息可被存儲在文檔相似性索引 327中以指示文檔312A和312B是相似的。在一些實施例中,標簽索引包括標簽列表和每一標簽的對應權重,如文檔1 :{(標簽11,權重11),(標簽12,權重12),···,(標簽lk,權重lk)}文檔2 {(標簽21,權重21),(標簽22,權重22),· · ·,(標簽2k,權重2k)}因此,文檔可被看作標簽空間中的向量(每一標簽是不同的維度并且每一權重是對應維度中的值)。因此,(用于計算向量差的)余弦相似性函數(shù)(CosineSimilarity)可被用來計算兩個文檔之間的相似性。例如CosineSimilarity (docl, do c 2) = Dotproduct (docl, do c 2) / (Norm(doc1)*Norm(doc2))其中Dotproduct (docl, doc2) = Sum (Weight (tag, docl) ^Weight (tag, doc2) | )(寸于 docl (文檔1)和doc2(文檔幻所共有的每一標簽)且Norm (doc) = Sqrt (Sum (Weight (tag, docl) "2 | 對于 doc (文檔)中的每一標簽)標簽索引的示例物理數(shù)據(jù)布局如下CREATE TABLE sys. tag_index AS (doc_id BIGINT,phrase_id BIGINT,weight DOUBLE,PRIMAY KEY(doc_id, phrase_id))CREATE INDEX tag_index_phrase_id on tag_index(phrase_id, doc_id)CREATE INDEX doc_index_phrase_id on tag_index(doc_id)因此,以下算法可被用來導出文檔相似性索引For每一未經(jīng)處理的docID (文檔ID) //找出topKl (前Kl)個候選
topK ICandidates = S electS imilarityC andi dates (Tl, docld)
//計算相對于各候選的相似性
resultsHeap =最大數(shù)量topK (前K)的空堆
For topKICandidates (前 Kl 個候選)中的每一 candidateDocId (候選文檔
Id)
similarity = CosineSimilarity(TI, docld, candidateDocId) resultsHeap.Add(candidateDocId, similarity) End For
//選擇topK個結果
For resultsHeap (結果堆)中的每一(candidateDocId, similarity) 將(docld, candidateDocId, similarity)寫到 DSI 表 End For End For其中SelectSimilarityCandidates (選擇相似性候選)函數(shù)是
SelectSimilarityCandidates(TI, docld)
resultsSet = empty Map<int, double> //將文檔id映射到作為候選的值 For TI[docId]中的每一(tag, weight 1)
For (從 TI[tag]選擇 topKl 個文檔)中的每一(candida^DocId,weight2) If (resultSet 不包含(candida^DocId))
resultSet.Add(candidateDocId, 0) End If
resultSet[candidateDocId] += weight 1 *weight2; End For End For在resultsSet (結果集)中返回topK個項為了“從TI [tag]中選擇前Kl個文檔”,可以按權重的降序找出具有給定標簽的所有文檔,以便可以選擇前K個文檔。最近最少使用的(“LRU”)高速緩存可被用在標簽索引行上以提高選擇前K個文檔的效率(至少部分因為在處理文檔資料庫的相似性時該操作可例如對流行標簽重復多次)。對應于一行的各單獨的(標簽,文檔ID,權重)元組可被存儲在高速緩存中??墒褂靡韵率纠涌?
class TILookupKey
{
string m_tag
float mjpreviousEntry Weight long m_previousEntryDocid
class TIEntry {
TILookupKey m_key; float m_weight long m_docid
//給定標簽查找的先前條目,找出下一個。
//
TIEntry GetNextEntry(TIEntry previous)使用示例接口,文檔相似性索引構建算法可以調用GetNextEntryC .)(獲取下一條目),直至它具有了所需文檔id(docid)的集合為止。高速緩存中的查找可基于先前條目權重/文檔id來鍵控。如果高速緩存中不存在下一條目,則可以使用先前條目來在盤上查找它(即,使用適當?shù)乃饕齺聿檎覙撕炈饕到y(tǒng)表上的基于權重排序的下一條目)。隨后可以將該條目進行高速緩存。同一 LRU高速緩存(具有不同的查找鍵)也可被用來通過對先前標簽進行排序來查找按給定文檔的權重來排序的標簽。不同文檔id的文檔相似性可在不同線程上處理以將文檔相似性構建算法并行化 (即,外部的“For每一未處理的docID”循環(huán)可被拆分在多個線程上)。如此,LRU高速緩存可以通過選取高速緩存的條目的隨機樣本來使用近似(例如,以減輕對高速緩存的并發(fā)需求的影響,該并發(fā)需求可使得使用真實LRU資源密集)。使用該樣本,可以確定LRU截止。 LRU截止可被用來將條目的指定百分比(例如,25%)設置為比該LRU截止更老。在高速緩存充滿時,鐘針溢出該高速緩存并驅逐其LRU值低于預先計算的LRU截止的條目來將高速緩存保持在其最大大小之下。一旦鐘針對整個高速緩存作出了清掃,就重新計算LRU截止。因此,近似可以用最小鎖定來完成,從而在增加插入/查找的數(shù)量方面提升高速緩存的效率。本發(fā)明的各實施例包括用于導出和更新多個文檔的文檔相似性索引的可擴展且高效的機制。所維護的相似性的數(shù)量可被控制來減少N2CPU和存儲需求。
本發(fā)明可具體化為其他具體形式而不背離其精神或本質特征。所描述的實施例在所有方面都應被認為僅是說明性而非限制性的。因此,本發(fā)明的范圍由所附權利要求書而非前述描述指示。落入權利要求書的等效方案的含義和范圍內(nèi)的所有改變被權利要求書的范圍所涵蓋。
權利要求
1.一種在計算機系統(tǒng)上的用于導出多個文檔(111)的文檔相似性索引(127)方法,所述計算機系統(tǒng)包括一個或多個處理器和系統(tǒng)存儲器,所述方法包括訪問文檔(112)的動作;計算所述文檔(11 的標簽索引(11 的動作,所述標簽索引(11 包括一個或多個關鍵詞/權重對(1144/1148,116々/1168),每一關鍵詞/權重對將關鍵詞(114A,116A)映射到該關鍵詞的對應權重(114B,116B)以指示該關鍵詞在所述文檔(11 內(nèi)的顯著性;基于所述標簽索引(117)中的權重(114B,116B)來標識所述文檔中的指定數(shù)量的最顯著的關鍵詞的動作;對于所述指定數(shù)量的最顯著關鍵詞中的每一關鍵詞,確定所述關鍵詞在所述多個文檔 (111)中的每一文檔(111A,111B,111C)中的對應權重的動作;基于所述指定數(shù)量的最顯著關鍵詞在所述多個文檔中的對應權重從所述多個文檔中標識多個候選文檔的動作,所述文檔中的所述指定數(shù)量的最顯著關鍵詞中的至少一些也是所述多個候選文檔中的每一個中的顯著關鍵詞;對于所述多個候選文檔中的每一候選文檔,通過確定來自所述文檔的附加關鍵詞在所述候選文檔內(nèi)的權重來計算所述文檔與所述候選文檔之間的完全相似性(123)的動作;選擇規(guī)定數(shù)量的候選文檔的完全相似性(126)以包括在所述文檔相似性索引(127) 中來指示與所述文檔相似的文檔的動作,基于完全相似性計算并根據(jù)硬限制或明確閾值 (124)之一來選擇所述規(guī)定數(shù)量的候選文檔的完全相似性(1 ),所述硬限制或明確閾值對可被選擇以包括在所述文檔相似性索引中的候選文檔的數(shù)量進行限制;以及對于所述規(guī)定數(shù)量的候選文檔中包括的每一候選文檔,將來自所述文檔與所述候選文檔之間的完全相似性的信息存儲在所述文檔相似性索引(127)中的動作。
2.如權利要求1所述的方法,其特征在于,所述訪問文檔的動作包括訪問包括書面語的詞語的文檔的動作。
3.如權利要求1所述的方法,其特征在于,計算所述文檔的標簽索引的動作包括基于所述文檔內(nèi)的關鍵詞頻率和文檔長度來計算關鍵詞權重。
4.如權利要求1所述的方法,其特征在于,基于所述指定數(shù)量的最顯著關鍵詞在所述多個文檔中的對應權重從所述多個文檔中標識多個候選文檔的動作包括從最近最少使用的(“LRU”)高速緩存中訪問至少一個關鍵詞/權重對的動作。
5.如權利要求1所述的方法,其特征在于,對于所述多個候選文檔中的每一候選文檔, 計算所述文檔與候選文檔之間的完全相似性的動作包括使用余弦相似性函數(shù)來計算所述文檔與所述候選文檔之間的相似性的動作。
6.一種在計算機系統(tǒng)處更新文檔相似性索引的方法,所述計算機系統(tǒng)包括一個或多個處理器和系統(tǒng)存儲器,所述計算機系統(tǒng)還包括多個文檔(311)和所述文檔相似性索引 (327),所述文檔相似性索引指示所述多個文檔中的不同文檔之間的相似性,所述方法包括訪問一批文檔(312)的動作;對于所述一批文檔(312A,312B,312C)中的每一文檔,計算所述文檔的標簽索引(313, 393,397)的動作,所述標簽索引包括一個或多個關鍵詞/權重對(314A/314B,394A/394B), 每一關鍵詞/權重對將關鍵詞映射到該關鍵詞的對應權重以指示該關鍵詞在所述文檔內(nèi)的顯著性;對于所述一批文檔(312)中的每一文檔(312A,312B,312C),在計算了所述標簽索引之后基于所述標簽索引(31 中的權重來標識所述文檔中的指定數(shù)量的最顯著的關鍵詞 (317)的動作;對于所述指定數(shù)量的最顯著關鍵詞中的每一關鍵詞,確定所述關鍵詞在所述多個文檔(311)中和所述一批文檔(312)中的每一文檔中的對應權重的動作;基于所述指定數(shù)量的最顯著關鍵詞(317)在所述多個文檔(311)中和所述一批文檔(312)中的對應權重從所述多個文檔中和所述一批文檔中標識多個候選文檔的動作,所述文檔中的所述指定數(shù)量的最顯著關鍵詞中的至少一些也是所述多個候選文檔中的每一個中的顯著關鍵詞;對于從所述多個文檔內(nèi)標識的至少一個候選文檔(311A)通過確定來自所述文檔(312A)的附加關鍵詞在候選文檔(311C)內(nèi)的權重來計算所述文檔與所述候選文檔之間的完全相似性的動作;從所述文檔相似性索引(327)內(nèi)所述候選文檔的指定數(shù)量的前幾個相似性中標識最弱相似性(371)的動作,所述最弱相似性指示所述候選文檔與所述多個文檔中的另一文檔之間的相似性;通過將計算得到的完全相似性(37 與所標識的最弱相似性進行比較來確定所述候選文檔和所述文檔比所述候選文檔(311C)和所述另一文檔(361)更相似的動作;以及用來自計算得到的完全相似性的信息來替換所述文檔相似性索引(327)內(nèi)的所述最弱相似性(371)以遞增地更新所述文檔相似性索引(327)的動作,所述替換是基于所述確定的;以及對于從所述一批文檔(312)中標識的任何候選文檔通過確定來自所述文檔的附加關鍵詞在候選文檔內(nèi)的權重來計算所述文檔與所述候選文檔之間的完全相似性(333)的動作;選擇規(guī)定數(shù)量(3 )的候選文檔以包括在所述文檔相似性索引中來作為與所述文檔相似的文檔的動作,基于所述完全相似性計算并根據(jù)硬限制或明確閾值(324)之一來選擇所述規(guī)定數(shù)量的候選文檔,所述硬限制或明確閾值對可被選擇以包括在所述文檔相似性索引中的候選文檔的數(shù)量進行限制;以及將來自計算得到的所述文檔和所述候選文檔之間的完全相似性(3 )的信息存儲在所述文檔相似性索引(327)中的動作。
7.如權利要求6所述的方法,其特征在于,還包括對于從所述多個文檔中標識的至少一個其他候選文檔通過確定來自所述文檔的附加關鍵詞在候選文檔內(nèi)的權重來計算所述文檔與所述候選文檔之間的完全相似性的動作;從所述文檔相似性索引內(nèi)所述候選文檔的指定數(shù)量的前幾個相似性中標識最弱相似性的動作,所述最弱相似性指示所述候選文檔與所述多個文檔中的第二另一文檔之間的相似性;通過將計算得到的完全相似性與所標識的最弱相似性進行比較來確定所述候選文檔3和所述第二另一文檔比所述候選文檔和所述文檔更相似的動作;以及基于所述確定將所述最弱相似性保留在所述文檔相似性索引內(nèi)的動作。
8.如權利要求6所述的方法,其特征在于,用來自計算得到的完全相似性的信息來替換所述文檔相似性索引內(nèi)的所述最弱相似性的動作包括用對所述候選文檔與所述文檔之間的相似性進行量化的相似性值來蓋寫對所述候選文檔與所述另一文檔之間的相似性進行量化的相似性值的動作。
9.如權利要求6所述的方法,其特征在于,將來自所述完全相似性的信息存儲在所述文檔相似性索引中的動作包括存儲對所述文檔與所述候選文檔之間的相似性進行量化的映射到相似性值中的動作。
10.一種供在計算機系統(tǒng)處使用的計算機程序產(chǎn)品,所述計算機程序產(chǎn)品實現(xiàn)一種用于導出多個文檔的文檔相似性索引的方法,所述計算機程序產(chǎn)品包括其上存儲有計算機可執(zhí)行指令的一個或多個計算機可讀設備,所述計算機可執(zhí)行指令當在處理器處執(zhí)行時使所述計算機系統(tǒng)執(zhí)行所述方法,其特征在于,所述方法包括以下動作訪問包含書面語的詞語的文檔;計算所述文檔的標簽索引,所述標簽索引包括一個或多個關鍵詞/權重對,每一關鍵詞/權重對將關鍵詞映射到該關鍵詞的對應權重以指示該關鍵詞在所述文檔內(nèi)的顯著性; 基于所述標簽索引中的權重來標識所述文檔中的指定數(shù)量的最顯著的關鍵詞; 對于所述指定數(shù)量的最顯著的關鍵詞中的每一關鍵詞,確定所述關鍵詞在所述多個文檔中的每一文檔內(nèi)的對應權重;基于所述指定數(shù)量的最顯著的關鍵詞在所述多個文檔中的對應權重來從所述多個文檔中標識多個候選文檔,所述指定數(shù)量的最顯著的關鍵詞中的至少一些是從最近最少使用的高速緩存中訪問的;對于所述多個候選文檔中的每一候選文檔,通過確定來自所述文檔的附加關鍵詞在所述候選文檔內(nèi)的權重來使用余弦相似性函數(shù)計算所述文檔與所述候選文檔之間的完全相似性;對于第一一個或多個候選文檔選擇規(guī)定數(shù)量的候選文檔的完全相似性以包括在所述文檔相似性索引中來指示與所述文檔相似的文檔,基于所述完全相似性計算并根據(jù)硬限制或明確閾值之一來選擇所述規(guī)定數(shù)量的候選文檔的完全相似性,所述硬限制或明確閾值對可被選擇以包括在所述文檔相似性索引中的候選文檔的數(shù)量進行限制;以及對于所述規(guī)定數(shù)量的候選文檔中包括的每一候選文檔,將來自所述文檔與所述候選文檔之間的完全相似性的信息存儲在所述文檔相似性索引中。 對于第二一個或多個候選文檔從所述文檔相似性索引內(nèi)所述候選文檔的指定數(shù)量的前幾個相似性中標識最弱相似性,所述最弱相似性指示所述候選文檔與所述多個文檔中的另一文檔之間的相似性;通過將計算得到的完全相似度與所標識的最弱相似度進行比較來確定所述候選文檔和所述文檔是否比所述候選文檔和所述另一文檔更相似;在候選文檔和所述文檔比所述候選文檔和所述另一文檔更相似的情況下,用來自計算得到的完全相似性的信息來替換所述文檔相似性索引內(nèi)的最弱相似性;以及在候選文檔和所述文檔不比所述候選文檔和所述另一文檔更相似的情況下保留所述最弱相似性。
全文摘要
本發(fā)明涉及導出文檔相似性索引。本發(fā)明涉及用于導出文檔相似性索引的方法、系統(tǒng)以及計算機程序產(chǎn)品。本發(fā)明的各實施例包括用于導出和更新多個文檔的文檔相似性索引的可擴展且高效的機制。所維護的相似性的數(shù)量可被控制來節(jié)省CPU和存儲資源。
文檔編號G06F17/30GK102436505SQ20111044015
公開日2012年5月2日 申請日期2011年12月15日 優(yōu)先權日2010年12月16日
發(fā)明者A·普勞特, K·慕克吉, S·蓋爾曼 申請人:微軟公司