專利名稱:用于排列搜索結(jié)果的文檔以改進(jìn)多樣性和信息豐富度的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
所述的技術(shù)一般涉及由提交給一個(gè)搜索引擎裝置的一個(gè)搜索請(qǐng)求所識(shí)別的一個(gè)搜索結(jié)果的文檔的排列。
背景技術(shù):
許多搜索引擎裝置,例如Google和Overture,提供用來(lái)搜索經(jīng)由Internet可以被訪問(wèn)的信息。這些搜索引擎裝置允許用戶搜索用戶關(guān)心的顯示頁(yè),例如web頁(yè)。在用戶提交一個(gè)包含搜索條件的搜索請(qǐng)求后,該搜索引擎裝置識(shí)別可能與這些條件相關(guān)聯(lián)的web頁(yè)。為了快速地識(shí)別相關(guān)的web頁(yè),該搜索引擎裝置可以保持一個(gè)web頁(yè)的關(guān)鍵詞映射。該映射依靠“爬行”該web(即,環(huán)球信息網(wǎng))以提取每一個(gè)web頁(yè)的關(guān)鍵詞來(lái)產(chǎn)生。為了爬行該web,一個(gè)搜索引擎裝置可以利用根web頁(yè)的列表來(lái)識(shí)別所有的可以通過(guò)這些根web頁(yè)而被訪問(wèn)的web頁(yè)。任何特定web頁(yè)的關(guān)鍵詞可以使用各種公知的信息檢索技術(shù)被提取,例如識(shí)別一個(gè)標(biāo)題的詞、在web頁(yè)的元數(shù)據(jù)中所提供的詞、突出顯示的詞,等等。該搜索引擎裝置可以計(jì)算一個(gè)關(guān)聯(lián)性分?jǐn)?shù),該關(guān)聯(lián)性分?jǐn)?shù)指出每一個(gè)web頁(yè)與基于每一個(gè)匹配的接近性、web頁(yè)普及性(例如,Google的PageRank)等等的搜索請(qǐng)求在多大程度上相關(guān)聯(lián)。該搜索引擎裝置然后用基于這些web頁(yè)的關(guān)聯(lián)性的一個(gè)順序顯示給用戶這些web頁(yè)的鏈接。搜索引擎可能更普遍地提供用于任何文檔的集合中的信息的搜索。例如,該文檔的集合可以包括所有的美國(guó)專利、所有的聯(lián)邦法庭的意見(jiàn)、一個(gè)公司的所有存檔文檔等等。
由一個(gè)基于web的搜索引擎裝置提供的搜索結(jié)果的最高排列的web頁(yè)可能被全部指向相同的受歡迎的主題。例如,如果一個(gè)用戶利用搜索條件“Spielberg”提出一個(gè)搜索請(qǐng)求,然后該搜索結(jié)果的最高排列的web頁(yè)將可能與StevenSpielberg相關(guān)。然而,如果用戶對(duì)Steven Spielberg不感興趣,而是對(duì)定位于一個(gè)具有同姓的數(shù)學(xué)教授的主頁(yè)感興趣的話,則該web頁(yè)的排列對(duì)用戶是沒(méi)有幫助的。盡管該教授的主頁(yè)可能被包含在搜索結(jié)果中,但該用戶仍然需要去瀏覽鏈接于該搜索結(jié)果的web頁(yè)的許多頁(yè),以定位該教授的主頁(yè)的鏈接。通常,當(dāng)沒(méi)有被識(shí)別為搜索結(jié)果的第一頁(yè)時(shí),對(duì)于用戶來(lái)說(shuō)定位一個(gè)期望的文檔是困難的。此外,當(dāng)用戶不得不翻閱多頁(yè)搜索結(jié)果以找到感興趣的文檔時(shí),他們會(huì)感到很灰心。
人們會(huì)期望一種用于排列文檔的技術(shù),它可以提供更多樣化的存在于最高排列文檔中的主題,人們會(huì)更進(jìn)一步地期望每個(gè)這樣的最高排列文檔具有與它的主題相關(guān)的豐富的信息內(nèi)容。
發(fā)明概述一種基于主題的信息的豐富度和多樣性而排列搜索結(jié)果的文檔的系統(tǒng)。一種排列系統(tǒng)基于它們的關(guān)聯(lián)性而將搜索結(jié)果的文檔分組,意味著它們被指向類似的主題。該排列系統(tǒng)為文檔排序以保證最高排列文檔包含覆蓋每一個(gè)主題的至少一篇文檔。該排列系統(tǒng)然后從在該組中具有文檔的最高信息豐富度的每一組中選擇文檔,作為最高排列文檔中的一篇。
附圖的簡(jiǎn)要說(shuō)明
圖1是說(shuō)明在一個(gè)實(shí)施例中的一個(gè)相關(guān)性曲線圖的圖表。
圖2是說(shuō)明在一個(gè)實(shí)施例中的排列系統(tǒng)的部件的方塊圖。
圖3是說(shuō)明在一個(gè)實(shí)施例中的排列系統(tǒng)的全部處理的流程圖。
圖4是說(shuō)明在一個(gè)實(shí)施例中的一個(gè)構(gòu)造相關(guān)性曲線圖部件的處理的流程圖。
圖5是說(shuō)明在一個(gè)實(shí)施例中的一個(gè)排列文檔部件的處理的流程圖。
詳細(xì)說(shuō)明一種用于基于主題的信息的豐富度和多樣性來(lái)排列搜索結(jié)果的文檔的方法和系統(tǒng)被提供。在一個(gè)實(shí)施例中,一個(gè)排列系統(tǒng)決定在搜索結(jié)果中的每一個(gè)文檔的信息的豐富度。信息的豐富度是一個(gè)文檔包含有多少與它的主題相關(guān)的信息的尺度。具有高信息豐富度的文檔(例如,web頁(yè))可能包含包含有與同一主題相關(guān)但卻具有更低的信息豐富度的文檔信息的信息。該排列系統(tǒng)基于它們的關(guān)聯(lián)性而將搜索結(jié)果的文檔分組,意味著它們被指向類似的主題。該排列系統(tǒng)將文檔排序以保證最高排列文檔可以包含覆蓋每一個(gè)主題的至少一篇文檔,也就是說(shuō),來(lái)自于每一個(gè)組的一篇文檔。該排列系統(tǒng)從在該組中具有文檔的最高信息豐富度的每一組中選擇文檔。當(dāng)這些文檔以排列順序被提供給用戶時(shí),用戶可能將在搜索結(jié)果的第一頁(yè)中發(fā)現(xiàn)覆蓋各種主題的文檔,而不僅僅是單一的受歡迎主題。例如,如果搜索請(qǐng)求包含搜索條件“Spielberg”,則在搜索結(jié)果的第一頁(yè)中的一篇文檔可能與Steven Spielberg相關(guān),而在搜索結(jié)果的第一頁(yè)中的另一篇文檔可能與spielberg教授相關(guān)。這樣,用戶很可能在搜索結(jié)果的第一頁(yè)被呈現(xiàn)覆蓋多樣化主題的文檔,且當(dāng)感興趣的主題不是與搜索請(qǐng)求關(guān)聯(lián)的最受歡迎的主題時(shí),用戶將不會(huì)太沮喪。此外,因?yàn)樵撆帕邢到y(tǒng)排列具有更高信息豐富度的文檔高于具有更低信息豐富度的文檔,因此用戶將很可能在搜索結(jié)果的第一頁(yè)給出的文檔中找到期望的信息。
在一個(gè)實(shí)施例中,該排列系統(tǒng)根據(jù)一個(gè)相關(guān)性曲線圖計(jì)算搜索結(jié)果的文檔的信息豐富度。相關(guān)性是衡量一篇文檔中的信息被包含在另一篇文檔的信息中的程度。例如,一篇描述Spielberg的電影中的一部電影的文檔與所有詳細(xì)描述Spielberg的電影的文檔表面上可能具有一個(gè)高的相關(guān)性。相反地,所有詳細(xì)描述Spielberg的電影的文檔對(duì)這篇表面上描述Spielberg的電影中的一部電影的文檔可能具有一個(gè)相對(duì)低的相關(guān)性。與不同主題相關(guān)聯(lián)的文檔彼此之間沒(méi)有相關(guān)性。每一篇文檔與每一篇其他文檔的相關(guān)性的匯集表示為相關(guān)性曲線圖。一篇具有許多其他的與它具有高相關(guān)性的文檔的文檔將可能具有高的信息豐富度,因?yàn)樗男畔S多其他文檔的信息。此外,如果那些具有高的相關(guān)性的其他文檔自身也有相對(duì)高的信息豐富度的話,則該文檔的信息豐富度也將很高。
在一個(gè)實(shí)施例中,該排列系統(tǒng)還利用一個(gè)相關(guān)似性曲線圖來(lái)幫助保證該搜索結(jié)果的高排列文檔的多樣性。該排列系統(tǒng)根據(jù)一個(gè)傳統(tǒng)的排列技術(shù)(例如,關(guān)聯(lián)性)、一種信息豐富度技術(shù)或者一些其他的排列技術(shù)可以具有文檔的初始排列分?jǐn)?shù)。該排列系統(tǒng)最初選擇具有最高初始排列分?jǐn)?shù)的文檔作為具有最高最終排列分?jǐn)?shù)的文檔。該排列系統(tǒng)然后減少具有與已選擇的文檔高相關(guān)性的每一篇文檔的排列分?jǐn)?shù)。因?yàn)槟切┪臋n的內(nèi)容可能被已選擇的文檔所包含且代表了多余的信息,所以該排列系統(tǒng)減少該排列分?jǐn)?shù)。該排列系統(tǒng)然后選擇余下的具有其后更高排列分?jǐn)?shù)的文檔中的文檔。該排列系統(tǒng)減少具有與新的已選擇的文檔高相關(guān)性的每一篇文檔的排列分?jǐn)?shù)。該排列系統(tǒng)重復(fù)這樣的處理直到期望數(shù)目的文檔具有一個(gè)最終的排列分?jǐn)?shù)、所有的文檔都有一個(gè)最終的排列分?jǐn)?shù)或者一些其他的中止條件被滿足。在一個(gè)實(shí)施例中,多樣性代表了在文檔的集合中的不同的主題的數(shù)目,在集合中的文檔的信息豐富度表示與整個(gè)集合相關(guān)的文檔的信息度。
本領(lǐng)域的普通技術(shù)人員能夠理解該搜索結(jié)果的文檔可以基于單獨(dú)的信息豐富度或單獨(dú)的多樣性而被排列,而不是根據(jù)信息豐富度和多樣性的結(jié)合。例如,一個(gè)搜索引擎裝置可以單獨(dú)利用信息豐富度,通過(guò)識(shí)別與相似的主題相關(guān)的多組文檔并確定在它的組中的每一篇文檔的信息豐富度。該搜索引擎裝置然后將已確定的信息豐富度分解為該文檔的排列,因而它們組的具有最高的信息豐富度的文檔將比他們組中的其他的文檔排列得更高。例如,該搜索引擎裝置可能單獨(dú)利用多樣性,通過(guò)識(shí)別與相似主題相關(guān)的多組文檔并保證來(lái)自每一組的至少一篇文檔在與它的信息豐富度無(wú)關(guān)的搜索結(jié)果中被排列得很高。例如,該搜索引擎裝置可以選擇在搜索結(jié)果的第一頁(yè)顯示來(lái)自于在組中具有最高關(guān)聯(lián)性的每一組中的文檔。
相關(guān)性曲線圖表示作為結(jié)點(diǎn)的文檔和作為在結(jié)點(diǎn)之間的有向邊的權(quán)的相關(guān)性值。該排列系統(tǒng)代表一個(gè)相關(guān)性曲線圖,它通過(guò)一個(gè)將每一篇文檔映射到在文檔集合中的每一個(gè)其他文檔的矩形矩陣表示。該排列系統(tǒng)將該矩陣元素的值設(shè)置為相應(yīng)文檔的相關(guān)性。如果M是該矩陣,那么Mij代表文檔i到文檔j的相關(guān)性。該排列系統(tǒng)依靠將每一篇文檔表示為一個(gè)向量來(lái)計(jì)算文檔的相關(guān)性。該向量表示文檔的信息化內(nèi)容。例如,每一個(gè)向量可以包含該文檔的最重要的25個(gè)關(guān)鍵詞。該排列系統(tǒng)可以根據(jù)下述公式計(jì)算相關(guān)性aff(di,dj)=d→i·d→j||d‾i||---(1)]]>其中aff(di,dj)是文檔di到文檔dj的相關(guān)性,di代表文檔di的向量,dj代表文檔dj的向量,同時(shí) 代表向量di的長(zhǎng)度。公式1設(shè)定了從dj到di的投影的長(zhǎng)度的相關(guān)性。本領(lǐng)域的技術(shù)人員可以理解該相關(guān)性可以以許多種方式來(lái)定義。例如,一篇文檔對(duì)另一篇文檔的相關(guān)性可以基于這一篇文檔中的關(guān)鍵詞存在于其他文檔的關(guān)鍵詞之中的百分比而被定義。在設(shè)置理論條件時(shí),一篇文檔對(duì)另一篇文檔的相關(guān)性可以被表示成存在于被其他文檔中的關(guān)鍵詞的數(shù)目所分割的兩篇文檔的交集中的關(guān)鍵詞的數(shù)目。矩陣M的每一個(gè)元素代表從一篇文檔的結(jié)點(diǎn)到另一篇文檔的結(jié)點(diǎn)的相關(guān)性曲線圖中的有向邊。在一個(gè)實(shí)施例中,該排列系統(tǒng)設(shè)定一個(gè)低于一個(gè)相關(guān)性門限值(例如,.2)到0的相關(guān)性值。概念地,這意味著在相關(guān)性為低時(shí),在相關(guān)性曲線圖中沒(méi)有從一篇文檔的結(jié)點(diǎn)到另一篇文檔的結(jié)點(diǎn)的有向邊。該相關(guān)性矩陣可以表示如下 其中,Mij是矩陣的一個(gè)元素,afft是相關(guān)性門限值。在它們之間具有許多邊的一組結(jié)點(diǎn)可以代表一個(gè)單獨(dú)的主題,因?yàn)樵谠摻M中的許多文檔具有一個(gè)大于它們彼此之間的門限相關(guān)性的相關(guān)性。相反地,在他們之間沒(méi)有鏈接的結(jié)點(diǎn)代表指向不同的主題的文檔。
通過(guò)將邊分析算法應(yīng)用到相關(guān)性曲線圖該排列系統(tǒng)為每一篇文檔計(jì)算信息的豐富度。該排列系統(tǒng)規(guī)格化該相關(guān)性矩陣,從而在每一行中值被增加到1。該規(guī)格化相關(guān)性矩陣可以表示為如下 其中, 是該規(guī)格化矩陣的一個(gè)元素。該排列系統(tǒng)根據(jù)如下公式計(jì)算信息的豐富度 其中InfoRich(di)是文檔di的信息豐富度。因此,信息豐富度被遞歸定義。公式4可以按如下表示為矩陣形式λ=M~Tλ---(5)]]>其中λ=[InfoRich(di)]n×1是該規(guī)范化相關(guān)性矩陣 的特征向量。由于該規(guī)范化相關(guān)性矩陣 典型地為一個(gè)稀疏矩陣,所以全0的行可能在它里面出現(xiàn),這意味著一些文檔沒(méi)有其他的文檔與它們有有意義的相關(guān)性。為了計(jì)算一個(gè)有意義的特征向量,該排列系統(tǒng)使用一個(gè)卸載因子(例如,.85),它可以是基于文檔普及性的一個(gè)文檔排列。使用卸載因子的該信息豐富度可以表示如下 其中,c是卸載因子,n是在集合中的文檔的數(shù)目。公式6可以用矩陣形式表示如下λ=cM~Tλ+(1-c)ne→---(7)]]>其中, 是一個(gè)具有所有元素都為1的單位向量。該信息豐富度的計(jì)算可以被類推為一個(gè)信息流程和接收器模型。根據(jù)該模型,在每一次迭代時(shí),信息在結(jié)點(diǎn)間流動(dòng)。文檔di具有一組與它具有相關(guān)性的文檔A(di),文檔A(di)可以如下表示A(di)={dj|j≠i,aff(di,dj)>afft} (8)在每一次迭代中,信息可以按照下列的一種規(guī)則流動(dòng)1.根據(jù)概率c(即,該卸載因子),該信息可以流入A(di)中的一篇文檔,同時(shí),流入文檔dj的概率與aff(di,dj)成比例。
2.根據(jù)概率1-c,該信息可以隨機(jī)地流入該集合中的任何文檔。
從上述的處理中能夠推導(dǎo)出一個(gè)馬爾可夫鏈,其中,狀態(tài)由文檔給出,而轉(zhuǎn)換(或者流動(dòng))矩陣由下式給出cM~T+(1-c)nU---(9)]]>其中U=[1n]n×n.]]>每一種狀態(tài)的固定概率分布由該轉(zhuǎn)換矩陣的首要的特征向量給出。
在一個(gè)實(shí)施例中,該排列系統(tǒng)通過(guò)將信息豐富度與相似性懲罰相組合,來(lái)計(jì)算一個(gè)相關(guān)性排列,從而指向相同主題的多篇文檔沒(méi)有全部被很高地排列而排斥指向其他主題的文檔。該相似性懲罰的使用導(dǎo)致了在大多數(shù)高排列文檔中的主題的多樣性的增加。該排列系統(tǒng)可以在一篇文檔的初始相關(guān)性排列被設(shè)置為它的信息豐富度時(shí),利用一個(gè)迭代貪婪算法來(lái)計(jì)算該相似性懲罰。在每一次迭代中,該算法選擇具有次高相關(guān)性排列的文檔,并通過(guò)一個(gè)相似性懲罰減少該指向相同主題的文檔的相關(guān)性排列。因此,一旦一個(gè)文檔被選擇,所有的其他的指向該相同主題的文檔將使它們自己的相關(guān)性排列減少,以改進(jìn)代表不同主題的最高排列文檔的機(jī)會(huì)。該排列系統(tǒng)可以根據(jù)下式減少文檔的相關(guān)性排列ARj=ARj-M~ij·InfoRich(di)---(10)]]>其中,ARj表示文檔j的相關(guān)性排列,i是被選擇的文檔。因?yàn)橄嗨菩詰土P是基于相關(guān)性矩陣的,一個(gè)文檔與選擇的文檔越相似,它的相似性懲罰就越大。
在一個(gè)實(shí)施例中,該排列系統(tǒng)將一個(gè)基于文本的排列(例如,傳統(tǒng)的關(guān)聯(lián)性)與一個(gè)相關(guān)性排列相結(jié)合,以產(chǎn)生一個(gè)全排列。該排列可以基于分?jǐn)?shù)或者排列而被結(jié)合。對(duì)于該組合的分?jǐn)?shù),該基于文本的分?jǐn)?shù)被與相關(guān)性排列組合,以給出一個(gè)代表該文檔的最終分?jǐn)?shù)的全分?jǐn)?shù)。該組合的分?jǐn)?shù)可基于一個(gè)基于文本的分?jǐn)?shù)和該相關(guān)性排列的線性組合。因?yàn)樵摲謹(jǐn)?shù)可能具有不同等級(jí)的順序,該排列系統(tǒng)規(guī)格化該分?jǐn)?shù)。該組合的分?jǐn)?shù)可以表示如下Score(q,di)=α·Sim(q,di)Sim‾Θ(q)+β·logAR‾ΘlogARi,∀di∈Θ---(11)]]>其中,α+β=1,Θ代表用于搜索請(qǐng)求q的搜索結(jié)果,Sim(q,di)代表搜索請(qǐng)求q的文檔di的相似性,和Sim‾Θ(q)=Max∀di∈ΘSim(q,di)---(12)]]>AR‾Θ=Max∀di∈ΘARi---(13)]]>利用組合排列,該基于文本的排列與該相關(guān)性排列相結(jié)合,以提供一個(gè)文檔的最終排列。該組合排列可以基于一個(gè)基于文本的排列和該相關(guān)性排列的線性組合。該組合排列可以表示如下Score(q,di)=α·RankSim(q,di)+β·Rank∀Ri,∀di∈Θ---(14)]]>其中,Score代表用于搜索請(qǐng)求q的文檔di的最終排列。RankSim(q,d1)代表該基于文本的排列,RankARi代表該相關(guān)性排列。在兩個(gè)組合算法中的α和β都是可以被調(diào)整的參數(shù)。當(dāng)α=1和β=0時(shí),沒(méi)有再排列被執(zhí)行,而該搜索結(jié)果根據(jù)基于文本的搜索而被排列。當(dāng)β>α?xí)r,在再排列時(shí),更多的權(quán)被增加給該相關(guān)性排列。當(dāng)β=1和α=0時(shí),該再排列單獨(dú)地基于該相關(guān)性排列而被執(zhí)行。
圖1是說(shuō)明在一個(gè)實(shí)施例中的一個(gè)相關(guān)性曲線圖的圖表。該相關(guān)性曲線圖100包括結(jié)點(diǎn)111-115、結(jié)點(diǎn)121-124和結(jié)點(diǎn)131,它們每一個(gè)代表一篇文檔。在結(jié)點(diǎn)之間的有向邊表示一個(gè)結(jié)點(diǎn)與另一個(gè)結(jié)點(diǎn)的相關(guān)性。例如,結(jié)點(diǎn)111與結(jié)點(diǎn)115具有一個(gè)相關(guān)性,但是結(jié)點(diǎn)115與結(jié)點(diǎn)111沒(méi)有相關(guān)性(或者有一個(gè)低于門限水平的相關(guān)性)。在這個(gè)例子中,結(jié)點(diǎn)組110包括指向同樣的主題的結(jié)點(diǎn)111-115,因?yàn)樵谠摻Y(jié)點(diǎn)組中的結(jié)點(diǎn)之間有許多邊。類似地,結(jié)點(diǎn)組120包括指向同一的主題的結(jié)點(diǎn)121-124。結(jié)點(diǎn)組130只有一個(gè)結(jié)點(diǎn),因?yàn)槟莻€(gè)結(jié)點(diǎn)與其他任何結(jié)點(diǎn)都沒(méi)有相關(guān)性,也沒(méi)有結(jié)點(diǎn)與它有相關(guān)性。結(jié)點(diǎn)115可能具有在結(jié)點(diǎn)組110中的所有結(jié)點(diǎn)的最高信息豐富度,而結(jié)點(diǎn)124也可能具有在結(jié)點(diǎn)組120中的所有結(jié)點(diǎn)的最高的信息豐富度,因?yàn)槊恳粋€(gè)結(jié)點(diǎn)都有最大數(shù)目的與它有相關(guān)性的結(jié)點(diǎn)。
圖2是說(shuō)明在一個(gè)實(shí)施例中的排列系統(tǒng)的部件的方塊圖。該排列系統(tǒng)200包括數(shù)據(jù)存儲(chǔ)器201-204和部件211-216。該文檔存儲(chǔ)器201包含文檔的集合且可代表所有經(jīng)由Internet的可用的web頁(yè)。該產(chǎn)生相關(guān)性曲線圖部件211基于文檔存儲(chǔ)器中的文檔產(chǎn)生一個(gè)相關(guān)性曲線圖。該產(chǎn)生相關(guān)性曲線圖部件在相關(guān)性曲線圖存儲(chǔ)器202中存儲(chǔ)該相關(guān)性。該計(jì)算信息豐富度部件212輸入來(lái)自相關(guān)性曲線圖存儲(chǔ)器的相關(guān)性曲線圖,并為每一篇文檔計(jì)算一個(gè)信息豐富度分?jǐn)?shù)。該部件將已計(jì)算的信息豐富度分?jǐn)?shù)存儲(chǔ)在信息豐富度存儲(chǔ)器203中。在一個(gè)實(shí)施例中,該產(chǎn)生相關(guān)性曲線圖部件和該計(jì)算信息豐富度部件可以在一個(gè)搜索進(jìn)行之前脫機(jī)執(zhí)行以產(chǎn)生該相關(guān)性曲線圖和信息豐富度分?jǐn)?shù)。進(jìn)行搜索部件213從用戶接收一個(gè)搜索請(qǐng)求并從文檔存儲(chǔ)器的文檔中識(shí)別搜索結(jié)果。該進(jìn)行搜索部件在搜索結(jié)果存儲(chǔ)器204中存儲(chǔ)該搜索結(jié)果以及搜索結(jié)果的每一篇文檔與搜索請(qǐng)求的關(guān)聯(lián)性的一個(gè)表示。該計(jì)算相似性懲罰部件214基于該搜索結(jié)果存儲(chǔ)器、相關(guān)性曲線圖存儲(chǔ)器和信息豐富度存儲(chǔ)器的信息計(jì)算一個(gè)相似性懲罰以提供給該相關(guān)性排列。該計(jì)算相關(guān)性排列部件215為搜索結(jié)果中的每一篇文檔產(chǎn)生一個(gè)相關(guān)性排列。該計(jì)算相關(guān)性排列部件在文檔的信息豐富度、相關(guān)性曲線圖分?jǐn)?shù)和搜索結(jié)果中分解。該計(jì)算最終分?jǐn)?shù)部件216結(jié)合該相關(guān)性排列和關(guān)聯(lián)性分?jǐn)?shù)來(lái)計(jì)算最終分?jǐn)?shù)。
在其上該排列系統(tǒng)被執(zhí)行的該計(jì)算裝置可以包括一個(gè)中央處理單元、存儲(chǔ)器、輸入裝置(例如,鍵盤和指示裝置)、輸出裝置(例如,顯示裝置)和存儲(chǔ)裝置(例如,磁盤驅(qū)動(dòng)器)。該存儲(chǔ)器和存儲(chǔ)裝置是包括執(zhí)行該排列系統(tǒng)的指令的計(jì)算機(jī)可讀介質(zhì)。此外,該數(shù)據(jù)結(jié)構(gòu)和信息結(jié)構(gòu)可以被存儲(chǔ)或者經(jīng)由一個(gè)數(shù)據(jù)傳輸介質(zhì)例如一個(gè)在通訊鏈路上的信號(hào)而被傳送。各種各樣的通訊鏈路可以被使用,例如Internet局域網(wǎng)、廣域網(wǎng)或者點(diǎn)對(duì)點(diǎn)撥號(hào)上網(wǎng)連接器。
該排列系統(tǒng)可以在各種各樣的操作環(huán)境中被執(zhí)行。各種公知的適合于使用的計(jì)算系統(tǒng)、環(huán)境和配置包括個(gè)人計(jì)算機(jī)、服務(wù)器計(jì)算機(jī)、手提式或者膝上型裝置、多處理機(jī)系統(tǒng)、基于微處理器的系統(tǒng)、可編程消費(fèi)電子裝置、網(wǎng)絡(luò)PC、小型計(jì)算機(jī)、大型計(jì)算機(jī),包含任何上述系統(tǒng)和裝置的分布式計(jì)算環(huán)境等等。
該排列系統(tǒng)可以被描述為普通的計(jì)算機(jī)可執(zhí)行指令的內(nèi)容,例如,由一個(gè)或多個(gè)計(jì)算機(jī)或者其他裝置執(zhí)行的程序模塊。通常,程序模塊包括執(zhí)行特定任務(wù)或者執(zhí)行特定的抽象數(shù)據(jù)類型的常規(guī)程序、程序、對(duì)象、組件、數(shù)據(jù)結(jié)構(gòu)等等。典型地,該程序模塊的功能可以是在各種實(shí)施例中期望的組合式或者分布式的。
圖3是說(shuō)明在一個(gè)實(shí)施例中的排列系統(tǒng)的全部處理的流程圖。該排列系統(tǒng)被提供了一個(gè)可以代表一個(gè)搜索結(jié)果的文檔的集合。在塊301中,該部件為該文檔的集合構(gòu)造了一個(gè)相關(guān)性曲線圖。該部分還可以構(gòu)造覆蓋一個(gè)在脫機(jī)的文檔的語(yǔ)言資料庫(kù)中(例如,所有的web頁(yè))的所有文檔或者僅僅覆蓋實(shí)時(shí)采集的文檔的相關(guān)性曲線圖。在塊302中,該部件計(jì)算該集合的每一篇文檔的信息豐富度。在塊303中,該部件排列該集合的文檔,而后結(jié)束。
圖4是說(shuō)明在一個(gè)實(shí)施例中的一個(gè)構(gòu)造相關(guān)性曲線圖部件的處理的流程圖。該部件通過(guò)了一個(gè)文檔的集合并構(gòu)造一個(gè)用于那些文檔的相關(guān)性曲線圖。在塊401-403中,該部件為文檔的集合中的每一篇文檔循環(huán)產(chǎn)生文檔向量。在塊401中,該部件選擇在集合中的下一篇文檔。在決定塊402中,如果在集合中的所有的文檔已經(jīng)被選擇,然后,該部件繼續(xù)到塊404,否則該部件繼續(xù)到塊403。在塊403中,該部件為已選擇的文檔產(chǎn)生文檔向量,然后循環(huán)到塊401以選擇集合中的下一篇文檔。在塊404-408中,該部件為集合中的每一對(duì)文檔計(jì)算相關(guān)性。在塊404中,該部件從第一篇文檔開(kāi)始選擇在集合中的下一篇文檔。在決定塊405中,如果所有的文檔都已經(jīng)被選擇,則該部件返回該相關(guān)性曲線圖,否則該部件繼續(xù)到塊406。在塊406-408中,該部件循環(huán)挑選集合中的每一篇文檔。在塊406中,該部件從第一篇文檔開(kāi)始挑選在集合中的下一篇文檔。在決定塊407中,如果在集合中的所有的文檔已經(jīng)被挑選,則該部件循環(huán)到塊404以選擇集合中的下一篇文檔,否則該部件繼續(xù)到塊408。在塊408中,該部件根據(jù)公式1計(jì)算從選擇的文檔到已挑選的文檔的相關(guān)性,然后循環(huán)到塊406以挑選集合中的下一篇文檔。
圖5是說(shuō)明在一個(gè)實(shí)施例中的一個(gè)排列文檔部件的處理的流程圖。該部件通過(guò)了一個(gè)已經(jīng)具有它的已產(chǎn)生的相關(guān)性曲線圖和已計(jì)算過(guò)的每一篇文檔的信息豐富度的文檔的集合。在塊501-503中,該部件循環(huán)初始化集合中的每個(gè)文檔的相關(guān)性排列到它的信息豐富度。在塊501中,該部件選擇集合中的下一篇文檔。在決定塊502中,如果所有的文檔都已經(jīng)被選擇,則該部件繼續(xù)到塊504,否則該部件繼續(xù)到塊503。在塊503中,該部件設(shè)置已選擇的文檔的相關(guān)性排列到已選擇的文檔的信息豐富度,然后循環(huán)到塊501以選擇在集合中的下一篇文檔。在塊504-508中,該部件循環(huán)識(shí)別多對(duì)文檔并通過(guò)一個(gè)相似性懲罰調(diào)整相關(guān)性排列。在塊504中,該部分件選擇具有最高相關(guān)性排列的下一篇文檔。在決定塊505中,如果一個(gè)中止條件被達(dá)到,則該部件返回已排列的文檔,否則該部件繼續(xù)到塊506。在塊506-508中,該部件循環(huán)挑選文檔并用一個(gè)相似性懲罰調(diào)整相關(guān)性排列。在塊506中,該部件挑選在相關(guān)性曲線圖中,具有相對(duì)已選擇的文檔的相關(guān)性被指示為非0值的下一篇文檔,用于從已挑選的文檔到已選擇的文檔的相關(guān)性。在決定塊507中,如果所有的文檔已經(jīng)被挑選,則該部件循環(huán)到塊504以選擇具有最高相關(guān)性排列的下一篇文檔。在塊508中,該部件根據(jù)公式10用一個(gè)相似性懲罰為已挑選的文檔調(diào)整相關(guān)性排列。該部件然后循環(huán)到塊506以挑選具有與已選擇的文檔的相關(guān)性的下一篇文檔。
本領(lǐng)域的技術(shù)人員可以理解盡管在這里已經(jīng)被描述的本排列系統(tǒng)的特定實(shí)施例是用于說(shuō)明的目的,但在不脫離本發(fā)明的精神和范圍的前提下,可以做各種各樣的改變。在一個(gè)實(shí)施例中,該排列系統(tǒng)可以在一塊接一塊的基礎(chǔ)上計(jì)算相關(guān)性和信息豐富度而不是在文檔接文檔的基礎(chǔ)上。一個(gè)塊代表通常與一個(gè)單一主題相關(guān)的web頁(yè)的信息。該web頁(yè)的排列可以部分基于一個(gè)塊對(duì)它的web頁(yè)的重要性。該塊的重要性被描述在美國(guó)專利申請(qǐng)?zhí)枺撸撸撸哳}目為“用于計(jì)算在顯示頁(yè)中的塊的重要性的方法和系統(tǒng)”并在____公開(kāi),在這里僅結(jié)合作為參考。因此,除了附加的權(quán)利要求之外,本發(fā)明沒(méi)有被限制。
權(quán)利要求
1.一種在計(jì)算機(jī)系統(tǒng)中用于排列一個(gè)搜索結(jié)果的文檔的方法,該方法包括為該搜索結(jié)果的每一篇文檔,基于用于該文檔的信息豐富度初始化一個(gè)相關(guān)性排列;和對(duì)于每一組相似的文檔,調(diào)整該組中的文檔的相關(guān)性排列以使除最高相關(guān)性排列之外的相關(guān)性排列低于相關(guān)的在該組中的一篇文檔的最高相關(guān)性排列。
2.如權(quán)利要求1所述的方法,其中,用于該組中的文檔的相關(guān)性排列的調(diào)整包括減少該組中的每一篇文檔的相關(guān)性排列,除了在該組中具有最高相關(guān)性排列的文檔的相關(guān)性排列。
3.如權(quán)利要求2所述的方法,其中與具有最高相關(guān)性排列的文檔更相似的一篇文檔,它的相關(guān)性排列由多于一篇的與具有最高相關(guān)性排列的文檔不太相似的文檔來(lái)減少。
4.如權(quán)利要求1所述的方法,其中用于該組中的文檔的相關(guān)性排列的調(diào)整包括從該組中移走該具有最高相關(guān)性排列的文檔,并減少該組中剩余的文檔的相關(guān)性排列,其中文檔的移走順序代表了該搜索結(jié)果的文檔的排列。
5.如權(quán)利要求1所述的方法,包括用于每一篇文檔的,基于該已調(diào)整的相關(guān)性排列和一個(gè)基于搜索的相關(guān)性來(lái)計(jì)算文檔的一個(gè)相關(guān)性。
6.一種在計(jì)算機(jī)系統(tǒng)中用來(lái)排序一個(gè)搜索結(jié)果的文檔以增加高排序文檔的主題的多樣性的方法,該方法包括識(shí)別搜索結(jié)果的相似的文檔的組;從已識(shí)別的每一組中選擇一篇文檔;和將已選擇的文檔排列在搜索結(jié)果的其它文檔之上。
7.如權(quán)利要求6所述的方法,其中每一篇文檔有一個(gè)初始化排列,且該排列包括排列已選擇的文檔高于另一篇具有更高的初始化排列的文檔。
8.如權(quán)利要求6所述的方法,其中每一篇文檔有一個(gè)初始化排列,且來(lái)自每個(gè)已識(shí)別的組中的該選擇的文檔是具有最高初始化排列的文檔。
9.如權(quán)利要求6所述的方法,包括基于它們與該組的已選擇的文檔的相似性再排列該組中沒(méi)有被選擇的文檔。
10.如權(quán)利要求9所述的方法,其中該再排列給予與該組中的已選擇的文檔最相似的該組中的還沒(méi)有選擇的文檔最大的在該組文檔的排列中的減少。
11.如權(quán)利要求10所述的方法,其中該組中還沒(méi)有被選擇的文檔根據(jù)它們的再排列而被排列。
12.如權(quán)利要求10所述的方法,包括在再排列之后從已被識(shí)別的組中的每一組中選擇一篇文檔,且將那些文檔排列在還沒(méi)有被選擇的其他文檔之上。
13.如權(quán)利要求9所述的方法,其中該再排列應(yīng)用一個(gè)相似性懲罰。
14.如權(quán)利要求6所述的方法,其中從每一組中選擇出的文檔具有在該組中的文檔的最高信息豐富度。
15.如權(quán)利要求6所述的方法,其中該組是利用一個(gè)相關(guān)性曲線圖來(lái)識(shí)別的。
16.一種在計(jì)算機(jī)系統(tǒng)中用于計(jì)算一個(gè)文檔的集合中的一篇文檔的信息豐富度的方法,該方法包括識(shí)別在集合中的每一篇文檔與該文檔的相關(guān)性;和基于在該集合中其他的文檔與該文檔的相關(guān)性決定該文檔的信息豐富度。
17.如權(quán)利要求16所述的方法,其中每一篇文檔的相關(guān)性的識(shí)別包括產(chǎn)生一個(gè)相關(guān)性曲線圖。
18.如權(quán)利要求16所述的方法,其中相關(guān)性是衡量一篇文檔中的信息內(nèi)容被包含在另一篇文檔中的程度。
19.如權(quán)利要求16所述的方法,其中相關(guān)性被定義為aff(di,dj)=d→i·d→j||d→i||.]]>
20.如權(quán)利要求16所述的方法,其中信息豐富度是衡量一篇文檔中的信息內(nèi)容包含其它文檔的信息內(nèi)容的程度。
21.如權(quán)利要求16所述的方法,其中的信息豐富度被定義為
22.一種包含使一個(gè)計(jì)算機(jī)系統(tǒng)通過(guò)一個(gè)方法排列文檔的指令的計(jì)算機(jī)可讀介質(zhì),包括對(duì)于每一篇文檔,基于文檔的信息豐富度初始化一個(gè)相關(guān)性排列;和當(dāng)一篇文檔具有一個(gè)高相關(guān)性排列時(shí),減少與其相關(guān)的文檔的相關(guān)似性排列,其中該相關(guān)性排列代表該文檔的排列。
23.如權(quán)利要求22所述的計(jì)算機(jī)可讀介質(zhì),其中一篇文檔的信息豐富度是基于每一對(duì)文檔的相關(guān)性而被計(jì)算的。
24.如權(quán)利要求23所述的計(jì)算機(jī)可讀介質(zhì),其中信息豐富度被定義為
25.如權(quán)利要求23所述的計(jì)算機(jī)可讀介質(zhì),其中,該相關(guān)性被定義為aff(di,dj)=d→i·d→j||d→i||.]]>
26.如權(quán)利要求22所述的計(jì)算機(jī)可讀介質(zhì),其中與具有高相關(guān)性排列的該文檔更相似的一篇相關(guān)文檔,它的相關(guān)性排列由多于一篇的與具有最高相關(guān)性排列的文檔不太相似的文檔來(lái)減少。
27.如權(quán)利要求22所述的計(jì)算機(jī)可讀介質(zhì),包括為每一篇文檔,基于該文檔的相關(guān)性排列和用于該文檔的基于搜索的相關(guān)性計(jì)算用于該文檔的一個(gè)相關(guān)性。
28.一種用于計(jì)算存在于一個(gè)文檔的集合中的一篇文檔的信息豐富度的計(jì)算機(jī)系統(tǒng),包括識(shí)別每一篇在集合中的文檔與該文檔的相關(guān)性的部件;和基于在該集合中的其他的文檔與該文檔的相關(guān)性確定該文檔的信息豐富度的部件。
29.如權(quán)利要求28所述的系統(tǒng),其中該用于識(shí)別的部件產(chǎn)生一個(gè)相關(guān)性曲線圖。
30.如權(quán)利要求28所述的系統(tǒng),其中相關(guān)性是衡量一篇文檔中的信息內(nèi)容被包含在另一篇文檔中的程度。
31.如權(quán)利要求28所述的系統(tǒng),其中信息豐富度是衡量一篇文檔中的信息內(nèi)容包含其它文檔的信息內(nèi)容的程度。
全文摘要
一種基于主題的信息豐富度和多樣性來(lái)排列搜索結(jié)果的文檔的方法和系統(tǒng)。該排列系統(tǒng)決定在搜索結(jié)果中的每一個(gè)文檔的信息豐富度。該排列系統(tǒng)基于它們的關(guān)聯(lián)性而將搜索結(jié)果的文檔分組,意味著它們被指向相似的主題。該排列系統(tǒng)將文檔排序以保證最高排列文檔可以包含覆蓋每一個(gè)主題的至少一篇文檔,那就是說(shuō),來(lái)自每一個(gè)組的一篇文檔。該排列系統(tǒng)從在該組中具有最高信息豐富度的文檔的每一組中選擇文檔。當(dāng)這些文檔以某個(gè)排列順序提供給用戶時(shí),用戶將在搜索結(jié)果的第一頁(yè)中發(fā)現(xiàn)覆蓋各種類型的主題的文檔,而不僅僅是單一的受歡迎的主題。
文檔編號(hào)G06F17/30GK1758244SQ20051008964
公開(kāi)日2006年4月12日 申請(qǐng)日期2005年4月30日 優(yōu)先權(quán)日2004年4月30日
發(fā)明者B·章, H-J·曾, 馬維英, 陳正 申請(qǐng)人:微軟公司