欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

信息檢索系統(tǒng)中基于短語的搜索的制作方法

文檔序號:6428646閱讀:177來源:國知局
專利名稱:信息檢索系統(tǒng)中基于短語的搜索的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種用于對諸如互聯(lián)網(wǎng)(Internet)的大規(guī)模語料庫中的文獻(xiàn)編制索引、搜索與分類的信息檢索系統(tǒng)。
背景技術(shù)
信息檢索系統(tǒng)通常稱作搜索引擎,如今它們是一種用于在諸如互聯(lián)網(wǎng)的大規(guī)模、 多樣化并不斷增長的語料庫中尋找信息的基本工具。一般來說,搜索引擎創(chuàng)建索引以使文獻(xiàn)(或“頁”)與各文獻(xiàn)中存在的個(gè)別字相關(guān)。響應(yīng)一含有多個(gè)查詢項(xiàng)的查詢來檢索文獻(xiàn), 此通常是基于在文獻(xiàn)中存在一定數(shù)量的查詢項(xiàng)而實(shí)現(xiàn)的。根據(jù)諸如查詢項(xiàng)出現(xiàn)的頻率、主域、鏈接分析等其它統(tǒng)計(jì)度量來對檢索到的文獻(xiàn)分等級。然后,通常按分等級后的次序?qū)z索到的文獻(xiàn)呈現(xiàn)給用戶,而不進(jìn)行任何其他分組或強(qiáng)制分級。在某些狀況下,僅呈現(xiàn)文獻(xiàn)文本的選定部分以便使用戶能夠粗略了解所述文獻(xiàn)的內(nèi)容。查詢項(xiàng)的直接“布爾(Boolean)”匹配具有多個(gè)熟知的限制,并且尤其無法識別那些不具有查詢項(xiàng)但具有相關(guān)字的文獻(xiàn)。舉例來說,在典型的布爾系統(tǒng)中,搜索“Australian Shepherds (澳大利亞牧羊犬)”時(shí)將不會(huì)返回不具有確切查詢項(xiàng)的關(guān)于其它herding dogs (牧羊犬)(例如,Border Collies (博得牧羊犬))的文獻(xiàn)。反而,所述系統(tǒng)通??赡芡瑫r(shí)檢索到關(guān)于Australia(澳大利亞)(并且與dogs (狗)無關(guān))的文獻(xiàn)與關(guān)于"shepherds (牧羊犬),,的文獻(xiàn),并且將這些文獻(xiàn)排在較高等級。這里的問題是傳統(tǒng)的系統(tǒng)是根據(jù)個(gè)別項(xiàng)而不是概念來編制文獻(xiàn)索引。概念通常以短語表示,如"Australian Sh印herd (澳大利亞牧羊犬)”、"President of the United Mates (美國總統(tǒng))”或者“Sundance Film Festival (圣丹斯電影節(jié))”等。某些現(xiàn)有系統(tǒng)最多是就預(yù)定且非常有限的“已知”短語集合來編制文獻(xiàn)索引,這些“已知”短語一般是由人工操作員選擇的。因?yàn)椴煊X到識別由(比如)三個(gè)、四個(gè)或五個(gè)或更多個(gè)字組成的所有可能的短語需要計(jì)算與存儲(chǔ)器,所以一般會(huì)避免對短語編制索引。舉例來說,如果假定任意五個(gè)字可構(gòu)成一個(gè)短語并且一個(gè)大的語料庫將具有至少200,000個(gè)唯一項(xiàng),那么將存在約3. 2*1026個(gè)可能短語,此明顯超出任何現(xiàn)有系統(tǒng)能夠存儲(chǔ)于存儲(chǔ)器中的量或者其可另外編程操縱的量。另一個(gè)問題是短語不斷輸入并會(huì)超出其在詞典中的用法,此比發(fā)明新的個(gè)別字頻繁得多。新短語總是從諸如技術(shù)、藝術(shù)、世界事件與法律等來源中產(chǎn)生。其它短語將隨時(shí)間降低使用。某些現(xiàn)有信息檢索系統(tǒng)試圖通過使用個(gè)別字同時(shí)出現(xiàn)的模式來提供概念檢索。在這些系統(tǒng)中,搜索一個(gè)字,例如“President (總統(tǒng))”,將同時(shí)檢索到具有頻繁地與 "President (總統(tǒng))”一起出現(xiàn)的其它字(如“White (白色)”及“House (房子)”)的文獻(xiàn)。 盡管這種方法可能產(chǎn)生具有在個(gè)別字水平上概念性地相關(guān)的文獻(xiàn)的搜索結(jié)果,但其一般無法俘獲在同時(shí)出現(xiàn)的短語之間存在的主題關(guān)系。因此,需要一種信息檢索系統(tǒng)與方法,其能夠全面地識別大規(guī)模語料庫中的短語、 根據(jù)短語編制文獻(xiàn)索引、根據(jù)其短語搜索文獻(xiàn)并將文獻(xiàn)分等級、并提供關(guān)于所述文獻(xiàn)的另外的群集與說明性信息。

發(fā)明內(nèi)容
本發(fā)明涉及一種信息檢索系統(tǒng)與方法,其使用短語來對文獻(xiàn)庫中的文獻(xiàn)編制索弓丨、進(jìn)行搜索、分等級及說明。所述系統(tǒng)適合于識別那些在文獻(xiàn)庫中具有足夠頻繁及/或獨(dú)特用法的短語以指示其為“有效”或“好”短語。以此方式,可識別多字短語,例如由四個(gè)、 五個(gè)或更多項(xiàng)組成的短語。這就避免了必須識別由給定數(shù)量的字的所有可能序列所產(chǎn)生的每個(gè)可能的短語并對其編制索引的問題。該系統(tǒng)還適合于根據(jù)短語預(yù)測文獻(xiàn)中存在其它短語的能力來識別彼此相關(guān)的短語。更具體地說,利用使兩個(gè)短語的實(shí)際同時(shí)出現(xiàn)率與這兩個(gè)短語的預(yù)期同時(shí)出現(xiàn)率相關(guān)的預(yù)測度量。一種此類預(yù)測度量是信息增益,即實(shí)際同時(shí)出現(xiàn)率與預(yù)期同時(shí)出現(xiàn)率的比率。 在預(yù)測度量超過一預(yù)定閾值時(shí),兩個(gè)短語相關(guān)。在那種狀況下,第二短語相對于第一短語具有顯著的信息增益。語義上,相關(guān)短語將是那些共同用來討論或描述一給定主題或概念的短語,如 “President of the United Mates (美國總統(tǒng))”與 “White House (白宮)”。對于一給定短語,相關(guān)短語可根據(jù)其相關(guān)性或有效性基于其各自的預(yù)測度量來定序。信息檢索系統(tǒng)通過有效或好短語來對文獻(xiàn)庫中的文獻(xiàn)編制索引。對于每一個(gè)短語,一個(gè)記入列表識別那些含有所述短語的文獻(xiàn)。此外,對于一給定短語,使用第二列表、向量或其它結(jié)構(gòu)來存儲(chǔ)指示在含有所述給定短語的每一文獻(xiàn)中還存在給定短語的哪些相關(guān)短語的數(shù)據(jù)。以此方式,所述系統(tǒng)不僅能夠響應(yīng)搜索查詢而輕易地識別出哪些文獻(xiàn)含有哪些短語,而且能夠識別出哪些文獻(xiàn)還含有與查詢短語相關(guān)、并且因此更可能特定地關(guān)于查詢短語所表示的主題或概念的短語。使用短語與相關(guān)短語還創(chuàng)建并使用了相關(guān)短語的群集,其在語義上代表短語的有意義的分組。從在群集中的所有短語之間具有非常高的預(yù)測度量的相關(guān)短語來識別群集。 群集可用來組織搜索結(jié)果,包括選擇搜索結(jié)果中包括哪些文獻(xiàn)及其次序,以及從搜索結(jié)果去除文獻(xiàn)。信息檢索系統(tǒng)還適合于在響應(yīng)查詢而搜索文獻(xiàn)時(shí)使用短語。處理查詢以便識別在查詢中存在的任何短語,從而檢索查詢短語的相伴記入列表與相關(guān)短語信息。此外,在有些情況下,用戶可以在搜索查詢中輸入不完整的短語,如“!Resident of the (……總統(tǒng))”??梢宰R別象這樣的不完整短語并且用擴(kuò)展短語來代替,如“!^resident ofthe United Mates (美國總統(tǒng))”。這有助于確保實(shí)際執(zhí)行用戶最有可能的搜索。系統(tǒng)也可使用相關(guān)短語信息來識別或選擇搜索結(jié)果中包括哪些文獻(xiàn)。對于一給定短語與一給定文獻(xiàn),相關(guān)短語信息指出在所述給定文獻(xiàn)中存在所述給定短語的哪些相關(guān)短語。因此,對于一含有兩個(gè)查詢短語的查詢來說,先處理第一查詢短語的記入列表以識別含有第一查詢短語的文獻(xiàn),接著處理相關(guān)短語信息以識別這些文獻(xiàn)中哪些文獻(xiàn)還含有第二查詢短語。接著,將后面這些文獻(xiàn)包括在搜索結(jié)果中。這就不需要系統(tǒng)接著單獨(dú)處理第二查詢短語的記入列表,由此提供更快的搜索時(shí)間。當(dāng)然,此方法也可以擴(kuò)展到查詢中有任意數(shù)量的短語,從而能夠顯著節(jié)約計(jì)算與時(shí)間。系統(tǒng)還可適合于使用短語與相關(guān)短語信息來對一組搜索結(jié)果中的文獻(xiàn)分等級。一給定短語的相關(guān)短語信息較佳以諸如位向量的格式存儲(chǔ),其表示每一相關(guān)短語相對于所述給定短語的有效性。舉例來說,一個(gè)相關(guān)短語位向量對于給定短語的每一個(gè)相關(guān)短語均具有一個(gè)位,這些位根據(jù)相關(guān)短語的預(yù)測度量(例如,信息增益)來定序。相關(guān)短語位向量的最有效的位與具有最高預(yù)測度量的相關(guān)短語相關(guān),并且最低有效位與具有最低預(yù)測度量的相關(guān)短語相關(guān)。以此方式,對于一給定文獻(xiàn)與一給定短語,相關(guān)短語信息可用來對文獻(xiàn)計(jì)分。位向量本身(作為一個(gè)值)的值可用作文獻(xiàn)分?jǐn)?shù),以此方式,含有查詢短語的高級相關(guān)短語的文獻(xiàn)比具有低級相關(guān)短語的文獻(xiàn)更可能在主題上與查詢相關(guān)。位向量值也可用作更復(fù)雜的計(jì)分函數(shù)中的一個(gè)分量,并且還可以加權(quán)。接著,可以根據(jù)文獻(xiàn)分?jǐn)?shù)來對文獻(xiàn)分等級。短語信息也可以用在信息檢索系統(tǒng)中以使用戶的搜索個(gè)性化。將用戶模擬為一個(gè)從(例如)所述用戶曾經(jīng)訪問過(例如,在屏幕上看、打印、存儲(chǔ)等等)的文獻(xiàn)所獲得的短語集合。更特定地說,給定用戶訪問過的文獻(xiàn),則在用戶模型或概況中就會(huì)包括在此文獻(xiàn)中存在的相關(guān)短語。在隨后的搜索期間,使用用戶模型中的短語來過濾搜索查詢的短語并對檢索到的文獻(xiàn)的文獻(xiàn)分?jǐn)?shù)加權(quán)。短語信息也可以用在信息檢索系統(tǒng)中以創(chuàng)建(例如)包括在一組搜索結(jié)果中的文獻(xiàn)的文獻(xiàn)說明。給定一搜索查詢,所述系統(tǒng)識別出查詢中存在的短語以及其相關(guān)短語與其擴(kuò)展短語。對于一給定文獻(xiàn),所述文獻(xiàn)的每一個(gè)句子都具有一個(gè)在句子中存在多少個(gè)查詢短語、相關(guān)短語與擴(kuò)展短語的計(jì)數(shù)??梢酝ㄟ^這些計(jì)數(shù)(個(gè)別或組合)來對文獻(xiàn)句子分等級,并且選擇一定數(shù)量的最高等級的句子(例如,五個(gè)句子)來形成文獻(xiàn)說明。當(dāng)搜索結(jié)果中包括所述文獻(xiàn)時(shí),可以接著向用戶呈現(xiàn)文獻(xiàn)說明,使得相對于查詢用戶能夠更好地了解所述文獻(xiàn)。
進(jìn)一步改進(jìn)這種產(chǎn)生文獻(xiàn)說明的方法,以使系統(tǒng)能夠提供反映用戶興趣所在的個(gè)性化說明。如上所述,用戶模型存儲(chǔ)了識別用戶感興趣的相關(guān)短語的信息。此用戶模型與一列與查詢短語相關(guān)的短語相交,以識別這兩組共有的短語。然后,根據(jù)相關(guān)短語信息來對所述共有集合定序。接著,使用所得相關(guān)短語集合來根據(jù)每一文獻(xiàn)中存在的這些相關(guān)短語的實(shí)例數(shù)來對文獻(xiàn)的句子分等級。選擇具有最高數(shù)量的共有相關(guān)短語的多個(gè)句子作為個(gè)性化文獻(xiàn)說明。當(dāng)對文獻(xiàn)庫編制索引(爬行)或當(dāng)處理搜索查詢時(shí),信息檢索系統(tǒng)也可以使用短語信息來識別并去除重復(fù)文獻(xiàn)。對于一給定文獻(xiàn),所述文獻(xiàn)的每一個(gè)句子都具有一個(gè)在句子中存在多少個(gè)相關(guān)短語的計(jì)數(shù)??梢酝ㄟ^此計(jì)數(shù)來對文獻(xiàn)句子分等級,并且選擇多個(gè)最高等級的句子(例如,五個(gè)句子)來形成文獻(xiàn)說明。然后,將與文獻(xiàn)相關(guān)的此說明存儲(chǔ)(例如)為所述句子的字符串或散列。在編制索引期間,以相同方式處理新爬行的文獻(xiàn)以產(chǎn)生文獻(xiàn)說明。新的文獻(xiàn)說明可與先前的文獻(xiàn)說明匹配(例如,散列),并且如果發(fā)現(xiàn)匹配,那么這個(gè)新的文獻(xiàn)就是一個(gè)重復(fù)文獻(xiàn)。類似地,在準(zhǔn)備搜索查詢的結(jié)果期間,可以處理搜索結(jié)果集合中的文獻(xiàn)以去除重復(fù)文獻(xiàn)。本發(fā)明的系統(tǒng)與軟件架構(gòu)、計(jì)算機(jī)程序產(chǎn)品及計(jì)算機(jī)實(shí)施的方法與計(jì)算機(jī)產(chǎn)生的用戶界面與呈現(xiàn)具有其它實(shí)施例。上文僅僅是基于短語的信息檢索系統(tǒng)與方法的一些特征。信息檢索領(lǐng)域的技術(shù)人員將了解,短語信息普遍性的靈活性使其能夠在文獻(xiàn)分析與處理的編制索引、文獻(xiàn)注釋、搜索、分等級與其它領(lǐng)域中廣泛使用與應(yīng)用。


圖1是本發(fā)明的一個(gè)實(shí)施例的軟件架構(gòu)的方塊圖。圖2說明一種用于識別文獻(xiàn)中的短語的方法。圖3說明一具有短語窗口與二級窗口的文獻(xiàn)。圖4說明一種用于識別相關(guān)短語的方法。圖5說明一種對相關(guān)短語的文獻(xiàn)編制索引的方法。圖6說明一種基于短語檢索文獻(xiàn)的方法。圖7說明用于顯示搜索結(jié)果的顯示系統(tǒng)的操作。圖及圖8b說明引用文獻(xiàn)與被引用文獻(xiàn)之間的關(guān)系。這些圖式僅僅是為了說明的目的而描繪本發(fā)明的一較佳實(shí)施例。從以下討論,所屬技術(shù)領(lǐng)域的技術(shù)人員將容易地了解,在不偏離本文所述的本發(fā)明的原理下,可采用本文所述的結(jié)構(gòu)與方法的替代實(shí)施例。
具體實(shí)施例方式I.系統(tǒng)概述現(xiàn)在參看圖1,其展示了根據(jù)本發(fā)明的一個(gè)實(shí)施例的搜索系統(tǒng)100的一實(shí)施例的軟件架構(gòu)。在此實(shí)施例中,系統(tǒng)包括一索引系統(tǒng)100、一搜索系統(tǒng)120、一顯示系統(tǒng)130與一前端服務(wù)器140。索引系統(tǒng)110負(fù)責(zé)識別文獻(xiàn)中的短語并根據(jù)其短語通過訪問不同網(wǎng)站190與其它文獻(xiàn)庫來對文獻(xiàn)編制索引。前端服務(wù)器140從用戶端170的用戶接收查詢,并且向搜索系統(tǒng)120提供那些查詢。搜索系統(tǒng)120負(fù)責(zé)搜索與搜索查詢相關(guān)的文獻(xiàn)(搜索結(jié)果),包括識別搜索查詢中的任何短語,接著使用出現(xiàn)的短語對搜索結(jié)果中的文獻(xiàn)分等級以影響等級次序。搜索系統(tǒng)120向顯示系統(tǒng)130提供搜索結(jié)果。顯示系統(tǒng)130負(fù)責(zé)修正搜索結(jié)果(包括除去接近重復(fù)的文獻(xiàn)和產(chǎn)生文獻(xiàn)的主題說明),并將修正后的搜索結(jié)果返回給前端服務(wù)器 140,即將結(jié)果提供給用戶端170。系統(tǒng)100進(jìn)一步包括一用于存儲(chǔ)關(guān)于文獻(xiàn)的索引信息的索引150與一用于存儲(chǔ)短語與相關(guān)統(tǒng)計(jì)信息的短語數(shù)據(jù)存儲(chǔ)160。就本申請案而言,“文獻(xiàn)” 應(yīng)理解為可以由搜索引擎編制索引并檢索的任何類型的媒體,包括網(wǎng)頁文獻(xiàn)、圖像、多媒體文件、文本文獻(xiàn)、PDF或其它圖像格式的文件等等。一個(gè)文獻(xiàn)可以具有一或多個(gè)頁、分區(qū)、段或其他適合其內(nèi)容與類型的組成部分。同等地,文獻(xiàn)可以稱為“頁”,其常用來指互聯(lián)網(wǎng)上的文獻(xiàn)。使用通用術(shù)語“文獻(xiàn)”并不意味對本發(fā)明的范疇進(jìn)行任何限制。搜索系統(tǒng)100可對大的文獻(xiàn)語料庫進(jìn)行操作,如互聯(lián)網(wǎng)與萬維網(wǎng),但其同樣可用于更有限的集合中,如用于圖書館或私營企業(yè)的文獻(xiàn)庫。在任一情形下應(yīng)了解,文獻(xiàn)一般分布在許多不同的計(jì)算機(jī)系統(tǒng)與站點(diǎn)中。于是,不喪失一般性,不管格式或位置(例如,哪個(gè)網(wǎng)站或數(shù)據(jù)庫),將文獻(xiàn)統(tǒng)稱為語料庫或文獻(xiàn)庫。每個(gè)文獻(xiàn)都具有一個(gè)唯一識別所述文獻(xiàn)的相伴識別符;所述識別符較佳為URL,但也可以使用其它類型的識別符(例如,文獻(xiàn)號)。在本揭示中,假定使用URL來識別文獻(xiàn)。II.索引系統(tǒng)在一實(shí)施例中,索引系統(tǒng)110提供三個(gè)主要功能性操作1)識別短語與相關(guān)短語, 2)關(guān)于短語對文獻(xiàn)編制索引,及幻產(chǎn)生并維持基于短語的分類。所屬技術(shù)領(lǐng)域的技術(shù)人員將了解,在傳統(tǒng)索引功能的支持下,索引系統(tǒng)110還將執(zhí)行其它功能,因此本文不再進(jìn)一步說明這些其它操作。索引系統(tǒng)110對短語數(shù)據(jù)的索引150與數(shù)據(jù)儲(chǔ)存庫160進(jìn)行操作。下文進(jìn)一步說明這些數(shù)據(jù)儲(chǔ)存庫。1.短語識別索引系統(tǒng)110的短語識別操作識別文獻(xiàn)庫中的“好”與“壞”短語,這些短語有助于對文獻(xiàn)編制索引并搜索。一方面,好短語是那些往往出現(xiàn)在文獻(xiàn)庫中超過某一百分比的文獻(xiàn)中的短語,且/或表示為在所述文獻(xiàn)中具有不同的外觀,如由置標(biāo)標(biāo)簽或其它形態(tài)、格式或語法標(biāo)記來定界。好短語的另一方面是其能夠預(yù)測其它好短語,而不僅僅是出現(xiàn)在詞典中的字序列。舉例來說,短語“President of the United States (美國總統(tǒng))”是一個(gè)預(yù)測諸如“George Bush (喬治·布什)”與“Bill Clinton (比爾·克林頓)”等其它短語的短語。然而,諸如"fell down the stairs”或"top of the morning,,、“out of the blue” 的其它短語不具預(yù)測性,這是因?yàn)橄筮@些的成語與習(xí)語往往與許多其它不同且無關(guān)的短語一起出現(xiàn)。因此,短語識別階段確定哪些短語是好短語而哪些是壞短語(即,缺乏預(yù)測能力)。現(xiàn)在參看圖2,短語識別過程具有以下功能性階段200 收集可能且好的短語,以及所述短語的頻率與同時(shí)出現(xiàn)的統(tǒng)計(jì)值;202 基于頻率統(tǒng)計(jì)值將可能短語分為好短語或壞短語;204:基于從同時(shí)出現(xiàn)的統(tǒng)計(jì)值獲得的預(yù)測性度量來精簡好短語列表。現(xiàn)在將進(jìn)一步詳細(xì)地說明這些階段的每個(gè)階段。
第一階段200是這樣一個(gè)過程,通過該過程,索引系統(tǒng)110爬行(crawl)文獻(xiàn)庫中的一組文獻(xiàn),隨時(shí)間形成所述文獻(xiàn)庫的多個(gè)重復(fù)分區(qū)。每遍處理一個(gè)分區(qū)。每遍爬行的文獻(xiàn)數(shù)可能變化,較佳為每個(gè)分區(qū)約1,000,000個(gè)文獻(xiàn)。較佳僅處理每個(gè)分區(qū)中先前未爬行的文獻(xiàn),直到處理完所有文獻(xiàn),或滿足某一其它終止準(zhǔn)則。實(shí)際上,由于新文獻(xiàn)不斷地添加到文獻(xiàn)庫中,所以爬行不斷繼續(xù)。索引系統(tǒng)110對爬行后的每個(gè)文獻(xiàn)采取下列步驟。以η的短語窗口長度遍歷所述文獻(xiàn)的各字,其中η是期望的最大短語長度。窗口的長度一般為至少2項(xiàng),較佳為4或5項(xiàng)(字)。短語較佳包括短語窗口中的所有字,包括那些否則會(huì)被表征為結(jié)束字的字,如“a”、“the”等等。短語窗口可以由行尾、段落返回、置標(biāo)標(biāo)簽或其他內(nèi)容或格式變化的標(biāo)志來終止。圖3說明遍歷期間文獻(xiàn)300的一部分,其展示短語窗口 302從字“stock”開始并向右擴(kuò)展5個(gè)字。窗口 302中的第一個(gè)字是候選短語i,并且序列i+l、i+2、i+3、i+4與i+5 中的每個(gè)短語同樣為候選短語。因此,在此實(shí)例中,候選短語為“st0Ck”、“St0Ck dogs”、 "stock dogs for "λ" stock dogs for the,,、"stock dogs for the Basque,,與"stock dogs for the Basque shepherds,,。在每個(gè)短語窗口 302中,依次檢查每個(gè)候選短語以確定其是否已經(jīng)存在于好短語列表208或可能短語列表206中。如果候選短語未出現(xiàn)在好短語列表208或可能短語列表 206中,那就確定所述候選短語為“壞”短語并將其跳過。如果候選短語出現(xiàn)在好短語列表208中,如款目&,那就更新短語&的索引150款目以包括所述文獻(xiàn)(例如,其URL或其它文獻(xiàn)識別符),以指示此候選短語&出現(xiàn)在當(dāng)前文獻(xiàn)中。短語&的索引150中的款目(或項(xiàng))稱作短語&的記入列表。記入列表包括其中出現(xiàn)短語的一列文獻(xiàn)d(通過其文獻(xiàn)識別符,例如文獻(xiàn)號或者URL)。此外,如下文進(jìn)一步解釋,更新同時(shí)出現(xiàn)矩陣212。在最初的第一遍中,好的與壞的列表都將為空,因此往往會(huì)將大多數(shù)短語添加到可能短語列表206中。如果候選短語沒有出現(xiàn)在好短語列表208中,那就將其添加到可能短語列表206 中,除非其中已經(jīng)存在所述候短語??赡芏陶Z列表206上的每個(gè)款目ρ都具有三個(gè)相伴計(jì)數(shù)P(p)存在可能短語的文獻(xiàn)數(shù);S(p)可能短語的所有實(shí)例數(shù);及M(p)可能短語的引起注意的實(shí)例數(shù)。在可能短語與文獻(xiàn)中的相鄰內(nèi)容的不同之處在于語法或格式標(biāo)記,例如黑體或下劃線或?yàn)槌溄踊蛞栔械腻^文本時(shí),可能短語的實(shí)例“引起注意”。這些(與其它)區(qū)別外觀由各種HTML置標(biāo)語言標(biāo)簽與語法標(biāo)記來指示。 當(dāng)一個(gè)短語被放在好短語列表208中時(shí),所述短語的這些統(tǒng)計(jì)值仍被保留。除了各列表外,還保留好短語的同時(shí)出現(xiàn)矩陣212(G)。矩陣G具有mxm維,其中m 是好短語的數(shù)量。矩陣中的每個(gè)款目G(j,k)代表一對好短語(gj,&)。同時(shí)出現(xiàn)矩陣212 在邏輯上(但在物理上不一定)保留每對好短語(gj,gk)關(guān)于二級窗口 304的三個(gè)獨(dú)立計(jì)數(shù),所述窗口 304的中心位于當(dāng)前字i,并且擴(kuò)展+/_h個(gè)字。在一實(shí)施例中,例如如圖3所述,二級窗口 304有30個(gè)字。因此,同時(shí)出現(xiàn)矩陣212保留R(j,k):原始的同時(shí)出現(xiàn)計(jì)數(shù),即短語&與短語& 一起出現(xiàn)在二級窗口 304中的次數(shù);
D(j,k)分離的引起注意的計(jì)數(shù),即短語&或短語&作為特異文本出現(xiàn)在二級窗口中的次數(shù);及C(j,k)連接的引起注意的計(jì)數(shù),即短語&與短語&同時(shí)作為特異文本出現(xiàn)在二級窗口中的次數(shù)。使用連接的引起注意的計(jì)數(shù)尤其有利于避免短語(例如,版權(quán)通知)頻繁出現(xiàn)在側(cè)邊欄、頁腳或頁眉中并因此實(shí)際上無法預(yù)測其它文本的情形。參看圖3的實(shí)例,假定“stock dogs”以及短語“Australian Shepherd"與 "Australian Shepard Club of America”都位于好短語列表208上。后兩個(gè)短語出現(xiàn)在二級窗口 304 內(nèi)當(dāng)前短語“stock dogs”周圍。然而,短語“Australian Shepherd Club of America”作為網(wǎng)站的超鏈接(由下劃線指示)的錨文本出現(xiàn)。因此,所述對{“stock dogs”, "Australian Shepherd"}的原始同時(shí)出現(xiàn)計(jì)數(shù)遞增,并且{ "stock dogs”,“Australian Shepherd Club of America"}的原始同時(shí)出現(xiàn)計(jì)數(shù)和分離的引起注意的計(jì)數(shù)都遞增,這是因?yàn)楹笳呤亲鳛樘禺愇谋境霈F(xiàn)的。對分區(qū)中的每個(gè)文獻(xiàn)重復(fù)以序列窗口 302與二級窗口 304遍歷每個(gè)文獻(xiàn)的過程。在遍歷完分區(qū)中的文獻(xiàn)后,編制索引操作的下一階段就是從可能短語列表206更新202好短語列表208。如果可能短語列表206上的一個(gè)可能短語ρ的出現(xiàn)頻率與出現(xiàn)所述短語的文獻(xiàn)數(shù)指示其足夠用作語義上有意義的短語,那就將所述短語移到好短語列表208 中。在一實(shí)施例中,其測試如下。從可能短語列表206取一個(gè)可能短語ρ并且將其放在好短語列表208中,前提條件是a)P(ρ) >10并且S(p) > 20 (含有ρ的文獻(xiàn)數(shù)大于10,并且短語ρ的出現(xiàn)次數(shù)大于20);或者b)M(p) > 5(短語ρ的引起注意的實(shí)例數(shù)大于5)。這些閾值與分區(qū)中的文獻(xiàn)數(shù)成比例;例如,如果一個(gè)分區(qū)中爬行2,000,000個(gè)文獻(xiàn),那閾值大約加倍。當(dāng)然,所屬技術(shù)領(lǐng)域的技術(shù)人員將了解,這些閾值的具體值或測試其的邏輯可隨需要而變化。如果短語ρ沒有資格進(jìn)入好短語列表208,則檢查其成為壞短語的資格。短語ρ是一個(gè)壞短語的條件是a)含有短語的文獻(xiàn)數(shù)P(P) < 2 ;并且b)短語的引起注意的實(shí)例數(shù)M(p) = 0。這些條件指示所述短語既不頻繁,也不能用來指示有效內(nèi)容,同樣地,這些閾值可與分區(qū)中的文獻(xiàn)數(shù)成比例。應(yīng)注意,如上所述,除了多字短語外,好短語列表208自然將包括個(gè)別字作為短語。這是因?yàn)槎陶Z窗口 302中的每個(gè)第一字總是一個(gè)候選短語,并且適當(dāng)?shù)膶?shí)例計(jì)數(shù)將累積。因此,索引系統(tǒng)110可以自動(dòng)地對個(gè)別字(即,具有單個(gè)字的短語)與多字短語編制索引。好短語列表208也將比基于m個(gè)短語的所有可能組合的理論最大值短很多。在典型實(shí)施例中,好短語列表208將包括約6. 5x10s個(gè)短語。由于系統(tǒng)只需要明了可能短語和好短語,所以不需要存儲(chǔ)壞短語列表。通過最后一遍檢查文獻(xiàn)庫,由于大語料庫中短語使用的預(yù)期分布,所以可能短語的列表將相對較短。因此,如果在第10遍(例如,10,000, 000個(gè)文獻(xiàn)),一個(gè)短語第一次出現(xiàn),那么其在那次中是極不可能成為一個(gè)好短語的。其可能是剛開始使用的新短語,因此在隨后爬行中變得越來越常見。在那種狀況下,其相應(yīng)計(jì)數(shù)將增大,并且可能最終滿足成為一個(gè)好短語的閾值。編制索引操作的第三階段是使用從同時(shí)出現(xiàn)矩陣212獲得的預(yù)測性度量來精簡 204好短語列表208。不經(jīng)過精減,好短語列表208很可能包括許多盡管合理地出現(xiàn)在字典中但本身無法充分預(yù)測其它短語的存在或本身是更長短語的子序列的短語。除去這些較弱的好短語后更可能有力地獲得好短語。為了識別好短語,使用一預(yù)測性度量,其表示給定一短語的存在,在文獻(xiàn)中出現(xiàn)另一短語的可能性增加。在一實(shí)施例中,此完成如下。如上所述,同時(shí)出現(xiàn)矩陣212是存儲(chǔ)與好短語相關(guān)聯(lián)的數(shù)據(jù)的mxm矩陣。矩陣中的每行j代表好短語&,并且每列k代表好短語&。對于每個(gè)好短語&,計(jì)算期望值E (gj)。 期望值E是庫中預(yù)期含有&的文獻(xiàn)的百分比。例如,其計(jì)算為含有&的文獻(xiàn)數(shù)與庫中已爬行的文獻(xiàn)總數(shù)T的比率P(j)/T。如上所述,當(dāng)&每次出現(xiàn)在文獻(xiàn)中時(shí),即更新含有&的文獻(xiàn)數(shù)。每次&的計(jì)數(shù)增加時(shí)或在此第三階段期間,可更新E (gj)的值。接著,對于每個(gè)其它好短語&(例如,矩陣的各列),確定&是否預(yù)測了 &。&的預(yù)測性度量的確定如下i)計(jì)算期望值E(gk)。如果是無關(guān)短語,則其預(yù)期同時(shí)出現(xiàn)率E(j,k)為 E(gj)*E(gk);ii)計(jì)算的實(shí)際同時(shí)出現(xiàn)率A(j,k)。即將原始同時(shí)出現(xiàn)計(jì)數(shù)R(j,k)除以文獻(xiàn)總數(shù)T ;iii)據(jù)說當(dāng)實(shí)際同時(shí)出現(xiàn)率A(j,k)超過預(yù)期同時(shí)出現(xiàn)率E(j,k) 一臨界量時(shí),gj 預(yù)測gk。在一實(shí)施例中,預(yù)測性度量為信息增益。因此,當(dāng)在短語&面前另一短語&的信息增益I超過一閾值時(shí),短語&預(yù)測短語&。在一實(shí)施例中,此計(jì)算如下I(j,k) =A(j,k)/E(j,k)。并且當(dāng)滿足下列條件時(shí),好短語&預(yù)測好短語& I(j,k) >信息增益閾值。在一實(shí)施例中,信息增益閾值為1. 5,但較佳在1. 1與1. 7之間。將閾值升高到超過1.0是為了減少兩個(gè)原本無關(guān)的短語同時(shí)出現(xiàn)超過隨機(jī)預(yù)測的可能性。如上所述,相對于給定行j,對矩陣G的每列k重復(fù)信息增益的計(jì)算。在一行完成后,如果好短語&中無一短語的信息增益超過信息增益閾值,那這就意味著短語&無法預(yù)測任何其它好短語。在那種狀況下,從好短語列表208除去&,其基本上就變?yōu)閴亩陶Z。注意,不除去短語&的列j,因?yàn)檫@個(gè)短語本身可由其它好短語來預(yù)測。當(dāng)評估完同時(shí)出現(xiàn)矩陣212中的所有行后,結(jié)束這個(gè)步驟。該階段的最后一個(gè)步驟是精簡好短語列表208以除去不完整短語。一個(gè)不完整短語是一個(gè)僅預(yù)測其擴(kuò)展短語并且從所述短語的最左側(cè)(即,短語的開始處)開始的短語。 短語P的“擴(kuò)展短語”是一個(gè)以短語P開始的超序列。舉例來說,短語“President of”預(yù) IlJ "President of the United States'\"President of Mexico'\"President of AT&T” 等等。由于所有后面這些短語都是以“!Resident of”開始并且是其超序列,所以他們都是"President of ”的擴(kuò)展短語。因此,保留在好短語列表208上的每個(gè)短語&都將基于前述信息增益閾值來預(yù)測一定量的其它短語。現(xiàn)在,對于每個(gè)短語&,索引系統(tǒng)110執(zhí)行其與其所預(yù)測的每個(gè)短語& 的字符串匹配。字符串匹配測試每個(gè)預(yù)測短語&是否是短語&的擴(kuò)展短語。如果所有預(yù)測短語&都是短語&的擴(kuò)展短語,那么&就不完整,將其從好短語列表208中除去并添加到不完整短語列表216中。因此,如果存在至少一個(gè)不是&的擴(kuò)展短語的短語&,那&就是完整的,并且會(huì)保留在好短語列表208中。于是舉例來說,當(dāng)“!^resident of the United” 所預(yù)測的唯一其它短語是“!Resident of the United States”并且這個(gè)預(yù)測短語是所述短語的擴(kuò)展短語時(shí),“!Resident of the United”就是一個(gè)不完整短語。不完整短語列表216本身在實(shí)際搜索過程中非常有用。當(dāng)接收到搜索查詢時(shí),可將其與不完整列表216比較。如果所述查詢(或其一部分)與所述列表中的一個(gè)款目匹配, 那搜索系統(tǒng)120就可以查找這個(gè)不完整短語的最可能的擴(kuò)展短語(給定不完整短語,具有最高信息增益的擴(kuò)展短語),并且向用戶建議此短語或?qū)U(kuò)展短語自動(dòng)搜索。例如,如果搜索查詢是“President of the United”,那搜索系統(tǒng)120可以自動(dòng)向用戶建議“President of the United Mates”作為搜索查詢。在完成編制索引過程的最后一個(gè)階段后,好短語列表208將含有在語料庫中發(fā)現(xiàn)的大量好短語。這些好短語中的每一個(gè)短語都將預(yù)測至少一個(gè)不是其擴(kuò)展短語的其它短語。S卩,每一個(gè)好短語都以足夠的頻率使用,并且獨(dú)立代表語料庫中所表示的有意義的概念或思想。與使用預(yù)定或人工選擇的短語的現(xiàn)有系統(tǒng)不同,好短語列表反映了語料庫中正在實(shí)際使用的短語。此外,由于新文獻(xiàn)添加到文獻(xiàn)庫中使得周期性地重復(fù)上述爬行與編制索引過程,所以索引系統(tǒng)110在新短語進(jìn)入詞典時(shí)自動(dòng)檢測所述新短語。2.識別相關(guān)短語與相關(guān)短語的群集參看圖4,相關(guān)短語識別過程包括以下功能性操作400 識別具有高信息增益值的相關(guān)短語;402 識別相關(guān)短語的群集;404 存儲(chǔ)群集位向量與群集號。 現(xiàn)在詳細(xì)描述這些操作中的每一個(gè)操作。首先回想,同時(shí)出現(xiàn)矩陣212含有好短語&,其中每一個(gè)短語都預(yù)測至少一個(gè)具有大于信息增益閾值的信息增益的其它好短語&。然后,為了識別400相關(guān)短語,對于每一對好短語(gj,,將信息增益與相關(guān)短語閾值(例如,100)進(jìn)行比較。S卩,當(dāng)gk) > 100 時(shí),是相關(guān)短語。使用此高閾值來識別很好地超過統(tǒng)計(jì)期望率的好短語的同時(shí)出現(xiàn)。在統(tǒng)計(jì)上,其意指短語&與&同時(shí)出現(xiàn)率超過預(yù)期同時(shí)出現(xiàn)率的100倍。舉例來說,給定文獻(xiàn)中的短語 "Monica Lewinsky”,如果短語“Bill Clinton”在相同文獻(xiàn)中更可能出現(xiàn)率是其100倍,則短語“Bill Clinton”可能出現(xiàn)在任意隨機(jī)選擇的文獻(xiàn)中。因?yàn)槌霈F(xiàn)率是100 1,所以另一種表述方式是預(yù)測精確度為99. 999%。因此,將小于相關(guān)短語閾值的任何款目(gj,&)調(diào)零,以指示短語不相關(guān)?,F(xiàn)在,同時(shí)出現(xiàn)矩陣212中任何剩余款目都指示所有相關(guān)短語。
接著,通過信息增益值I (gj,gk)來對同時(shí)出現(xiàn)矩陣212的各行g(shù)j中的列&排序, 使得首先列出具有最高信息增益的相關(guān)短語&。因此,此排序?yàn)橐唤o定短語g^識別出按照信息增益哪些其它短語最可能相關(guān)。下一步驟是確定402哪些相關(guān)短語一起形成相關(guān)短語群集。群集是相關(guān)短語的集合,其中每個(gè)短語相對于至少一個(gè)其它短語而具有高信息增益。在一實(shí)施例中,群集的識別如下。在矩陣的每行&中,將存在一或多個(gè)與短語&相關(guān)的其它短語。這個(gè)集合就是相關(guān)短語集合Rj,其中R = {gk gl. · · gj。對于Rj中的每個(gè)相關(guān)短語m,索引系統(tǒng)110確定R中的各其它相關(guān)短語是否也與 gj相關(guān)。因此,如果I(gk,gl)也非零,那gj、&與gl是群集的一部分。對R中的每一對(gl, gm)重復(fù)此群集測試。舉例來說,假定好短語“BillClinton” 與短語“President”、“Monica Lewinsky,, 相關(guān),這是因?yàn)槊恳粋€(gè)這些短語相對于“Bill Clinton"的信息增益都超過相關(guān)短語閾值。 另外,假定短語“Monica Lewinsky”與短語“purse designer”相關(guān)。這些短語于是形成集合 R0為確定群集,索引系統(tǒng)110通過確定這些短語的相應(yīng)信息增益來評估每個(gè)短語相對于其它短語的信息增益。因此,索引系統(tǒng)110確定R中的所有對短語的信息增益I (“President”, "Monica Lewinsky”)、I ( “President”,“purse designer”)等等。在此實(shí)例中,“Bill Clinton”、“President”與“Monica Lewinsky”形成一群集,“Bill Clinton”與“President” 形成第二群集,并且“Monica Lewinsky”與“purse designer”形成第三群集,并且“Monica Lewinsky”、“Bill Clinton” 與 “purse designer” 形成第四群集。這是因?yàn)楸M管 “Bill Clinton”沒有足夠的信息增益來預(yù)測“purse designer”,但“Monica Lewinsky”仍預(yù)測這兩個(gè)短語。為記錄404群集信息,向每一個(gè)群集指派一個(gè)唯一的群集號(群集ID)。然后,結(jié)合每一個(gè)好短語g^ —起記錄此信息。在一實(shí)施例中,群集號是由群集位向量來確定,群集位向量還指示短語之間的正交關(guān)系。群集位向量是長度為η的位的序列,其中η是好短語列表208中的好短語的數(shù)量。 對于一給定好短語gp位位置對應(yīng)于g^的排序后的相關(guān)短語R。如果R中的相關(guān)短語&與短語g^在同一個(gè)群集中,則設(shè)定一個(gè)位。更一般來說,這意味著如果在g^與&之間的任一方向上存在信息增益,則設(shè)定群集位向量中的相應(yīng)位。于是,群集號就是所得位串的值。此實(shí)施例具有這樣一個(gè)特性,即具有多向或單向信息增益的相關(guān)短語出現(xiàn)在相同群集中。如下是使用上述短語的群集位向量的一個(gè)實(shí)例
權(quán)利要求
1.一種響應(yīng)查詢而在文獻(xiàn)集中選擇文獻(xiàn)的計(jì)算機(jī)實(shí)現(xiàn)的方法,所述方法包含 接收包括第一短語和第二短語的查詢;檢索含有所述第一短語的文獻(xiàn)的記入列表; 針對所述記入列表中的每一個(gè)文獻(xiàn)存取指示在所述文獻(xiàn)中存在的所述第一短語的相關(guān)短語的列表,所述第一短語預(yù)測所述相關(guān)短語中的每一個(gè)在所述文獻(xiàn)集中的出現(xiàn);以及響應(yīng)指示在文獻(xiàn)中存在所述第二短語的相關(guān)短語列表,選擇所述文獻(xiàn)以將其包括在所述查詢的結(jié)果中,而不檢索含有所述第二短語的文獻(xiàn)的記入列表。
2.如權(quán)利要求1所述的方法,其中,當(dāng)所述相關(guān)短語相對于第一短語的信息增益超過預(yù)定閾值時(shí),所述第一短語預(yù)測相關(guān)短語。
3.如權(quán)利要求2所述的方法,其中,當(dāng)所述相關(guān)短語和所述第一短語在所述文獻(xiàn)集中的實(shí)際同時(shí)出現(xiàn)率的度量超過預(yù)期同時(shí)出現(xiàn)率時(shí),所述預(yù)定閾值被超過,所述相關(guān)短語和所述第一短語的預(yù)期同時(shí)出現(xiàn)率是所述相關(guān)短語和所述第一短語在所述文獻(xiàn)集中的多個(gè)出現(xiàn)的函數(shù)。
4.如權(quán)利要求1所述的方法,進(jìn)一步包含將所選擇的文獻(xiàn)作為搜索結(jié)果的一部分保存到存儲(chǔ)器中。
5.如權(quán)利要求1所述的方法,其進(jìn)一步包含響應(yīng)指示所述第二短語是所述第一短語的相關(guān)短語且不存在于文獻(xiàn)中的相關(guān)短語的列表,將所述文獻(xiàn)從所述查詢結(jié)果中排除,而不檢索含有所述第二短語的文獻(xiàn)的記入列表。
6.如權(quán)利要求1所述的方法,進(jìn)一步包含響應(yīng)指示所述第二短語不是所述第一短語的相關(guān)短語的相關(guān)短語的列表,使所述第一短語的文獻(xiàn)的所述記入列表與所述第二短語的文獻(xiàn)的記入列表相交以選擇同時(shí)含有所述第一短語和所述第二短語的文獻(xiàn)。
7.如權(quán)利要求1所述的方法,進(jìn)一步包含將第一短語關(guān)于文獻(xiàn)的相關(guān)短語列表存儲(chǔ)在位向量中,其中,所述位向量中的一位為存在于所述文獻(xiàn)中的所述第一短語的每一個(gè)相關(guān)短語設(shè)定,并且所述位向量中的一位為不存在于所述文獻(xiàn)中的所述第一短語的每一個(gè)相關(guān)短語復(fù)位,其中所述位向量具有數(shù)值。
8.如權(quán)利要求7所述的方法,進(jìn)一步包含根據(jù)為存在于所述文獻(xiàn)中的所述第一短語的相關(guān)短語而設(shè)定的所述位來確定所述位向量的調(diào)整值,通過所述調(diào)整值來對所選擇的文獻(xiàn)計(jì)分。
9.一種方法,其包含自動(dòng)識別文獻(xiàn)集中的短語,所述文獻(xiàn)集包括多個(gè)文獻(xiàn),其中所述短語含有多字短語; 根據(jù)所述文獻(xiàn)中含有的短語對所述文獻(xiàn)編制索引;接收為了從文獻(xiàn)集中選出文獻(xiàn)而進(jìn)行的查詢,所述查詢包括第一短語和第二短語; 檢索含有所述第一短語的文獻(xiàn)的記入列表; 為所述記入列表中的每一個(gè)文獻(xiàn)存取指示在所述文獻(xiàn)中存在的所述第一短語的相關(guān)短語的列表,所述第一短語預(yù)測所述相關(guān)短語中的每一個(gè)在所述文獻(xiàn)集中的出現(xiàn);響應(yīng)指示在文獻(xiàn)中存在所述第二短語的相關(guān)短語列表,選擇所述文獻(xiàn)以將其包括在所述查詢的結(jié)果中,而不檢索含有所述第二短語的文獻(xiàn)的記入列表;以及根據(jù)所識別的短語來對所選擇的文獻(xiàn)分等級。
10.如權(quán)利要求9所述的方法,其中,當(dāng)所述相關(guān)短語相對于第一短語的信息增益超過預(yù)定閾值時(shí),所述第一短語預(yù)測相關(guān)短語。
11.如權(quán)利要求10所述的方法,當(dāng)所述相關(guān)短語和所述第一短語在所述文獻(xiàn)集中的實(shí)際同時(shí)出現(xiàn)率的度量超過預(yù)期同時(shí)出現(xiàn)率時(shí),所述預(yù)定閾值被超過,所述相關(guān)短語和所述第一短語的預(yù)期同時(shí)出現(xiàn)率是所述相關(guān)短語和所述第一短語在所述文獻(xiàn)集中的多個(gè)出現(xiàn)的函數(shù)。
12.如權(quán)利要求9所述的方法,其進(jìn)一步包含將所選擇的文獻(xiàn)作為搜索結(jié)果的一部分保存到存儲(chǔ)器中。
13.如權(quán)利要求9所述的方法,其進(jìn)一步包含響應(yīng)指示所述第二短語是所述第一短語的相關(guān)短語且不存在于文獻(xiàn)中的相關(guān)短語的列表,將所述文獻(xiàn)從所述查詢結(jié)果中排除,而不檢索含有所述第二短語的文獻(xiàn)的記入列表。
14.如權(quán)利要求9所述的方法,其進(jìn)一步包含響應(yīng)指示所述第二短語不是所述第一短語的相關(guān)短語的相關(guān)短語的列表,使所述第一短語的文獻(xiàn)的所述記入列表與所述第二短語的文獻(xiàn)的記入列表相交以選擇同時(shí)含有所述第一短語和所述第二短語的文獻(xiàn)。
15.如權(quán)利要求9所述的方法,其進(jìn)一步包含將第一短語關(guān)于文獻(xiàn)的相關(guān)短語列表存儲(chǔ)在位向量中,其中,所述位向量中的一位為存在于所述文獻(xiàn)中的所述第一短語的每一個(gè)相關(guān)短語設(shè)定,并且所述位向量中的一位為不存在于所述文獻(xiàn)中的所述第一短語的每一個(gè)相關(guān)短語復(fù)位,其中所述位向量具有數(shù)值。
16.如權(quán)利要求15所述的方法,其進(jìn)一步包含根據(jù)為存在于所述文獻(xiàn)中的所述第一短語的相關(guān)短語而設(shè)定的所述位來確定所述位向量的調(diào)整值,通過所述調(diào)整值來對所選擇的文獻(xiàn)計(jì)分。
全文摘要
本發(fā)明涉及信息檢索系統(tǒng)中基于短語的搜索。本發(fā)明涉及一種信息檢索系統(tǒng),其使用短語來編制索引、檢索、組織并描述文獻(xiàn)。識別預(yù)測文獻(xiàn)中存在其它短語的短語。根據(jù)文獻(xiàn)中所包括的短語來對文獻(xiàn)編制索引。同時(shí)識別相關(guān)短語與擴(kuò)展短語。識別并使用查詢中的短語來檢索文獻(xiàn)并對文獻(xiàn)分等級。同時(shí)使用短語來群集搜索結(jié)果中的文獻(xiàn)、創(chuàng)建文獻(xiàn)說明并從搜索結(jié)果與索引中去除重復(fù)文獻(xiàn)。
文檔編號G06F17/30GK102289462SQ201110198640
公開日2011年12月21日 申請日期2005年7月26日 優(yōu)先權(quán)日2004年7月26日
發(fā)明者安娜·林恩·帕特森 申請人:咕果公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1
遂溪县| 通江县| 江口县| 东乌珠穆沁旗| 来安县| 炎陵县| 新野县| 万山特区| 拜泉县| 崇明县| 历史| 玉田县| 延吉市| 金门县| 中卫市| 靖远县| 崇阳县| 嘉黎县| 牙克石市| 哈尔滨市| 休宁县| 榆中县| 平阴县| 伊川县| 诸暨市| 罗源县| 册亨县| 河源市| 环江| 锡林浩特市| 武义县| 翁牛特旗| 北碚区| 资阳市| 菏泽市| 嘉荫县| 昌都县| 宁陕县| 穆棱市| 张家口市| 台前县|