專利名稱:可縮放群集的制作方法
可縮放群集
背景技術(shù):
基于某種相似度概念對項(xiàng)進(jìn)行群集是許多應(yīng)用中經(jīng)常產(chǎn)生的問題。例如,對于信息檢索應(yīng)用、文檔分析應(yīng)用以及其他任務(wù),需要將文檔群集成相關(guān)文檔組。要群集的項(xiàng)可以是文檔、電子郵件、網(wǎng)頁、廣告、圖像、視頻、或任何其他類型的項(xiàng)。群集還可被稱為歸類或分類。某些先前方法已涉及受監(jiān)督的分類模式。在這些模式中,為了訓(xùn)練機(jī)器學(xué)習(xí)系統(tǒng), 需要對要分類的項(xiàng)的重要部分手動加標(biāo)簽,以便自動地實(shí)現(xiàn)分類。然而,這一方法對于諸如在web規(guī)模應(yīng)用中非常大的項(xiàng)集合不是切實(shí)可行的。在這樣的情形中,提供對項(xiàng)的重要部分的手動加標(biāo)簽不是切實(shí)可行的。不受監(jiān)督的群集方法也是已知的,借此群集系統(tǒng)自由創(chuàng)建最適合數(shù)據(jù)的任何類別。這樣的方法的示例包括k均值群集和凝聚群集。然而,這些示例中的許多對于大型數(shù)據(jù)集(要群集成成百群集的成百上千各項(xiàng))不能很好地按比例增加,因?yàn)樗栌?xùn)練時(shí)間非常長和/或結(jié)果的質(zhì)量是差的。另一類型的不受監(jiān)督的群集方法涉及使用柏努利剖析的混合來形成群集模型以及使用最大似然方法來學(xué)習(xí)模型參數(shù)的最佳值。這樣的最大似然方法包括直接梯度上升和期望值最大化(EM)。然而,這樣的最大似然方法在訓(xùn)練期間需要對數(shù)據(jù)經(jīng)過若干遍以便收斂,因此這些方法不適于非常大的數(shù)據(jù)集合。在這些方法中,由于似然的多個(gè)模式,初始化是至關(guān)重要的,但在涉及高維度數(shù)據(jù)的應(yīng)用中實(shí)現(xiàn)是非常困難的。文本描述的各實(shí)施例不限于解決已知群集系統(tǒng)的缺點(diǎn)中的任一個(gè)或全部的實(shí)現(xiàn)。
發(fā)明內(nèi)容
下面提供本發(fā)明的簡要概述以便向讀者提供基本的理解。本概述不是本發(fā)明的詳盡概觀,并且既不標(biāo)識本發(fā)明的關(guān)鍵/重要元素,也不描繪本發(fā)明的范圍。其唯一目的是以簡化形式提供在此公開一些概念作為稍后提供的更詳細(xì)描述的序言。描述了可縮放群集系統(tǒng)。在一個(gè)實(shí)施例中,群集系統(tǒng)可用于極大規(guī)模應(yīng)用,其中具有數(shù)千萬特征的數(shù)百萬個(gè)項(xiàng)被群集。在一個(gè)實(shí)施例中,群集系統(tǒng)使用概率群集模型,該模型對數(shù)據(jù)集中的不確定性進(jìn)行建模,其中數(shù)據(jù)集可以是例如訂閱關(guān)鍵詞的廣告、包括文本關(guān)鍵詞的文本文檔、具有相關(guān)聯(lián)的特征的圖像或其他項(xiàng)。在一個(gè)實(shí)施例中,群集系統(tǒng)用于生成附加特征來與給定項(xiàng)進(jìn)行相關(guān)聯(lián)。例如,建議了廣告商可能想訂閱的附加關(guān)鍵詞。所生成的附加特征具有相關(guān)聯(lián)的概率值,在某些實(shí)施例中,該概率值可用于對這些特征進(jìn)行排序。 在某些示例中,用戶對所生成的特征的反饋被接收并用于修訂特征生成過程。許多附帶特征將隨著參考下面的詳細(xì)描述并結(jié)合附圖進(jìn)行理解而得到更好的認(rèn)識。附圖描述根據(jù)附圖閱讀以下詳細(xì)描述,將更好地理解本發(fā)明,在附圖中
圖1是群集系統(tǒng)的示意圖2是要在數(shù)據(jù)結(jié)構(gòu)中保持的模型參數(shù)的示意圖;圖3是訓(xùn)練群集模型的方法的示意圖;圖4是具有關(guān)鍵詞訂閱且示出兩個(gè)群集的廣告的示意圖;圖5是示出添加的廣告的圖4的示意圖;圖6是訓(xùn)練群集模型的方法的流程圖;圖7是供在群集系統(tǒng)中使用的示例有向圖形模型;圖8是供在群集系統(tǒng)中使用的示例因素圖;圖9是混亂群集引擎和垃圾收集引擎的示意圖;圖10是垃圾收集引擎處的方法的流程圖;圖11是垃圾收集引擎處的另一方法的流程圖;圖12是垃圾收集引擎處的另一方法的流程圖;圖13是使用并行處理來訓(xùn)練群集系統(tǒng)的方法的流程圖;圖14是向廣告商建議關(guān)鍵詞的方法的流程圖;圖15是兩個(gè)不同群集中最突出的特征的表;圖16示出可在其中實(shí)現(xiàn)群集系統(tǒng)的實(shí)施例的示例性的基于計(jì)算的設(shè)備。附圖中使用相同的附圖標(biāo)記來指代相同的部分。詳細(xì)描述下面結(jié)合附圖提供的詳細(xì)描述旨在作為對本示例的描述,而非表示用于解釋或利用本示例的唯一形式。本說明書闡述本示例的功能以及用于構(gòu)造和操作本示例的步驟序列。然而,相同或等效的功能與序列可由不同的示例來實(shí)現(xiàn)。雖然在本文中將本發(fā)明的示例描述并示出為在用于對廣告所訂閱的關(guān)鍵詞進(jìn)行群集的群集系統(tǒng)中實(shí)現(xiàn),但是所描述的系統(tǒng)只是作為示例而非限制來提供。本領(lǐng)域的技術(shù)人員將理解,本示例適于在各種不同類型的群集系統(tǒng)中應(yīng)用。圖1是群集系統(tǒng)101的示意圖,該群集系統(tǒng)101將關(guān)于具有特征的項(xiàng)100的信息作為輸入。例如,項(xiàng)可以是廣告,而特征可以是廣告者已訂閱的關(guān)鍵詞。然而,這不是必需的,項(xiàng)可以是文本文檔,而特征可以是那些文檔中的文本文字。在其他示例中,項(xiàng)可以是圖像或視頻剪輯,而特征可以是視覺字、詞匯(texton)或其他特征。即,項(xiàng)可以是任何合適的類型,諸如文檔、文件、電子郵件、網(wǎng)頁、廣告、音頻文件、語言消息、文本片段、圖像、名稱、或其他項(xiàng)。特征是與項(xiàng)相關(guān)聯(lián)的任何特性。在此處描述的實(shí)施例中,在對群集系統(tǒng)的輸入中存在高維度,因?yàn)閷τ诮o定項(xiàng)存在高的可能特征數(shù)(例如,數(shù)百至數(shù)百萬的可能特征)。在此處描述的實(shí)施例中以二元向量的形式提供了對群集系統(tǒng)的輸入。例如,如果項(xiàng)是文檔并且特征是文本文字,則對于給定文檔的輸入是1和0的向量,1指示文檔中存在的文本文字。0指示文檔中沒有的文本文字。在另一示例中,項(xiàng)可以是股票,而特征可以是在特定時(shí)間間隔期間股票賣出的價(jià)格??芍付▋r(jià)值的范圍或價(jià)值的“柱”,使得可為每一股票形成二元向量并作為輸入提供給群集系統(tǒng)。在另一示例中,項(xiàng)是廣告,而特征是廣告訂閱的關(guān)鍵詞。在這一情況下下,廣告的二元向量包括針對廣告訂閱的每一關(guān)鍵詞的1以及針對廣告訂閱中沒有的每一關(guān)鍵詞的0。群集系統(tǒng)101包括具有保留數(shù)據(jù)結(jié)構(gòu)102的存儲器的群集引擎。數(shù)據(jù)結(jié)構(gòu)保留群集模型,該群集模型以默認(rèn)狀態(tài)開始并且使用大型訓(xùn)練數(shù)據(jù)集來訓(xùn)練。訓(xùn)練數(shù)據(jù)包括如上所述的二元向量。訓(xùn)練過程由使用以下更詳細(xì)地描述的貝葉斯更新過程的更新引擎103來執(zhí)行。在訓(xùn)練過程期間,學(xué)習(xí)模型的參數(shù)以及關(guān)于這些模型參數(shù)的不確定性。群集系統(tǒng)101 提供諸如關(guān)于所學(xué)群集的細(xì)節(jié)和模型的參數(shù)等群集信息104作為輸入。模型被安排,以便考慮關(guān)于模型參數(shù)的不確定性并且在訓(xùn)練或更新過程期間有效地學(xué)習(xí)這一不確定性。以前的方法并不能以此方式考慮不確定性。圖2以示意方式示出群集模型102的細(xì)節(jié)。模型包括多個(gè)群集201。出于簡明僅示出三個(gè)群集,但實(shí)際上可使用成百或上千(或更多)的群集。所使用的群集的數(shù)量取決于具體實(shí)現(xiàn)以及可用的處理資源。模型還包括每一群集的群集先驗(yàn)200。這是表示相信項(xiàng)中的任一個(gè)都是該群集中的成員的先驗(yàn)概率分布。這些群集先驗(yàn)使用描述先驗(yàn)群集概率分布的統(tǒng)計(jì)量(或參數(shù))來存儲。任何合適類型的概率分布可用于表示群集先驗(yàn),并且在此處描述的實(shí)施例中使用狄利克雷(Dirichlet)分布。然而,這不是必需的,可使用其他類型的分布。通過以此方式使用群集先驗(yàn),模型具有對群集的“軟”表示,因?yàn)樽鳛槿杭某蓡T的項(xiàng)是以概率方式來定義的。當(dāng)模型被初始化時(shí),對于哪些項(xiàng)是哪些群集的成員有較大的不確定性,但隨著訓(xùn)練的進(jìn)展,這一不確定性可降低。模型能夠捕捉關(guān)于這一不確定性的知識,因?yàn)槿杭闰?yàn)是模型的參數(shù)。模型還包括對每一群集201和特征202組合的特征先驗(yàn)概率分布204。例如,在圖 2中,對于群集1的特征先驗(yàn)概率分布,特征A為t1A。特征先驗(yàn)分布概率t1A表示相信群集 1中的項(xiàng)具有特征A。特征先驗(yàn)被存儲作為描述先驗(yàn)特征分布的統(tǒng)計(jì)量或參數(shù)。任何合適類型的概率分布可用于表示特征先驗(yàn),并且在此處描述的實(shí)施例中使用β (Beta)分布。β 分布可通過參數(shù)α和β來描述,并且這些參數(shù)可由模型針對特征先驗(yàn)中的每一個(gè)來存儲。 為了提供稀疏表示,對于群集和特征組合中的許多,特征先驗(yàn)概率分布可被設(shè)置成默認(rèn)。這在下面將更詳細(xì)地描述。如上所述,模型以參數(shù)被設(shè)置成默認(rèn)值的初始狀態(tài)開始。學(xué)習(xí)或訓(xùn)練過程隨后發(fā)生以在大的數(shù)據(jù)集上訓(xùn)練模型。例如,數(shù)據(jù)集可包括數(shù)百或數(shù)千或更多的項(xiàng)。模型的參數(shù)作為隨機(jī)變量來對待。推斷包括計(jì)算參數(shù)的后驗(yàn)分布,該后驗(yàn)分布捕捉關(guān)于其真值的不確定性。這允許在對關(guān)于剩下多少不確定性的參數(shù)值的解釋中施加警告。它還允許實(shí)驗(yàn)設(shè)計(jì), 因?yàn)槟P吐暶髁怂畈淮_定的參數(shù)值是什么。另外,如果訓(xùn)練過程僅訪問每一數(shù)據(jù)點(diǎn)(或項(xiàng))一次則是不夠的。這使得該過程能夠成功地縮放至諸如web應(yīng)用中典型的那些等大型語料庫。圖3是訓(xùn)練群集模型102的方法的流程圖。群集系統(tǒng)存儲300保存群集模型的數(shù)據(jù)結(jié)構(gòu)。群集模型具有如上所述的捕捉關(guān)于其最佳值的不確定性的參數(shù)。參數(shù)被初始化 301,并且群集系統(tǒng)從要用于訓(xùn)練的項(xiàng)的存儲中接收301包括具有特征的項(xiàng)的第一數(shù)據(jù)點(diǎn)。 可任選地將噪聲引入模型參數(shù)303、并且貝葉斯更新過程用于基于觀察的基礎(chǔ)來更新先驗(yàn)概率分布以便獲取后驗(yàn)概率分布。處理一個(gè)數(shù)據(jù)點(diǎn)之后所獲取的后驗(yàn)分布被傳遞,作為處理下一數(shù)據(jù)點(diǎn)的先驗(yàn)分布。這通過更新數(shù)據(jù)結(jié)構(gòu)304并可任選地刪除所存儲的觀察305來實(shí)現(xiàn)。如圖3中所示,該過程為下一數(shù)據(jù)點(diǎn)繼續(xù),并且每一數(shù)據(jù)點(diǎn)僅需要被處理一次。艮口, 如果需要訓(xùn)練過程可用于不止一次地訪問每一數(shù)據(jù)點(diǎn),但這不是必需的。圖4是具有關(guān)鍵詞訂閱401并示出以群集模型所表示的兩個(gè)群集403的廣告400 的示意圖。對于每一群集,為每一特征404示出特征先驗(yàn)405,在該示例中特征404為關(guān)鍵詞。每一群集具有群集先驗(yàn)(未示出)。在這一示例中,對于群集1的關(guān)鍵詞訂閱先驗(yàn)β 分布,辦公室具有均值0. 8,指示相對強(qiáng)的相信群集1中的任何廣告訂閱了關(guān)鍵詞“辦公室”。在這一示例中,盡管該方法能夠在相信這些均值的情況下考慮不確定性,但僅示出了 β概率分布的均值。還給出了對于其他群集和特征組合的關(guān)鍵詞訂閱先驗(yàn)。假設(shè)下一數(shù)據(jù)點(diǎn)是從訓(xùn)練項(xiàng)中獲取的并且在訓(xùn)練期間用于更新模型。這里在與圖 4相同但示出另一廣告500的圖5中示出。這一附加廣告500具有關(guān)鍵詞“辦公室”、“電視節(jié)目”以及“喜劇”。在這一示例中,關(guān)鍵詞“喜劇”之前沒有由模型觀察過,并且因此這一關(guān)鍵詞被添加至帶有默認(rèn)關(guān)鍵詞訂閱先驗(yàn)(在該示例中為0. 的每一群集。更新過程隨后發(fā)生。在這一更新過程期間,為每一群集計(jì)算責(zé)任402。群集的責(zé)任可被認(rèn)為是如該群集生成特定項(xiàng)(在這一情況下為廣告500)的概率。責(zé)任402總計(jì)為1。更新過程導(dǎo)致特征先驗(yàn)(在這一情況下為關(guān)鍵詞訂閱先驗(yàn))的改變,并且這在圖5中由箭頭502所指示。向上指的箭頭指示特征先驗(yàn)概率增加了由箭頭大小表示的量。向下指的箭頭指示特征先驗(yàn)概率減小了由箭頭大小表示的量。對特征先驗(yàn)的更新的量級與責(zé)任有關(guān),并且還與該特征先驗(yàn)的不確定性的量相關(guān)。例如,與非常不確定的特征先驗(yàn)相比,已知帶有相對高的確定性的特征先驗(yàn)較不可能由更新過程改變許多。同樣,如果責(zé)任為高,則對特征先驗(yàn)的改變的量級比低責(zé)任更大。在對于單個(gè)數(shù)據(jù)點(diǎn)(廣告500)的更新過程之后,責(zé)任值可被丟棄,并且過程移至下一數(shù)據(jù)點(diǎn)。還可將群集模型存儲在數(shù)據(jù)結(jié)構(gòu)中作為因素圖。參考圖6,創(chuàng)建600因素圖,并且對帶有模型的默認(rèn)參數(shù)值的因素圖的節(jié)點(diǎn)實(shí)例化601。在訓(xùn)練期間,從訓(xùn)練項(xiàng)集中取第一項(xiàng),并且這一“所觀察的”項(xiàng)603的信息是對因素圖的輸入。對因素圖可執(zhí)行消息傳遞602 以便使用貝葉斯推斷來更新參數(shù)。該過程隨后移至訓(xùn)練集中的下一項(xiàng)并重復(fù),直到來自訓(xùn)練集中的每一項(xiàng)都被處理過一次。供群集模型中使用的示例因素圖的一部分在圖8中示出,并且在本文中稍后更詳細(xì)地描述。現(xiàn)在描述群集系統(tǒng)的詳細(xì)示例,其中項(xiàng)是廣告而特征是廣告訂閱的關(guān)鍵詞。然而, 注意到這一示例還適用于其他類型的項(xiàng)和特征??紤]一組N個(gè)對象,其中第i個(gè)對象是由二元變量的D維度向量所描述的^。在具體應(yīng)用中,這些對象是在付費(fèi)搜索中的在線廣告,由其訂閱的關(guān)鍵詞集描述。存在總計(jì)D個(gè)獨(dú)特關(guān)鍵詞,并且向量^包含對于第i個(gè)廣告已訂閱的這些關(guān)鍵詞的1 如果第i個(gè)廣告訂閱了第d個(gè)關(guān)鍵詞,則Xid = 1,,否則xid = 0。廣告的關(guān)鍵詞向量由K個(gè)群集中的一個(gè)或混合組件來生成。每一廣告^具有與其相關(guān)聯(lián)的變量Ci e {1,...,K},該變量指示廣告屬于的群集的索引。如果第i個(gè)廣告屬于群集j,則Ci = j。在群集內(nèi),廣告訂閱遵循獨(dú)立的柏努利概率分布的關(guān)鍵詞。如果第i個(gè)廣告屬于群集j,則其訂閱第d個(gè)關(guān)鍵詞的概率由、=p (Xid= Ilci = j)給出。結(jié)果,第 i個(gè)廣告屬于群集j的概率由群集相關(guān)的柏努利剖析給出
權(quán)利要求
1.一種群集項(xiàng)的計(jì)算機(jī)實(shí)現(xiàn)的方法,每一項(xiàng)具有至少一個(gè)相關(guān)聯(lián)的特征,所述方法包括將數(shù)據(jù)結(jié)構(gòu)存儲在存儲器中,所述數(shù)據(jù)結(jié)構(gòu)保留多個(gè)群集O01);對于每一項(xiàng),一個(gè)或多個(gè)相關(guān)聯(lián)的特征O02);對于每一群集,與先驗(yàn)概率分布有關(guān)的至少一個(gè)群集成員資格參數(shù)000),所述先驗(yàn)概率分布表示相信所述項(xiàng)中的任一個(gè)是否為該群集的成員;對于每一群集和特征組合,與先驗(yàn)概率分布有關(guān)的至少一個(gè)特征參數(shù)(20 ,所述先驗(yàn)概率分布表示相信該群集中的項(xiàng)中的任一個(gè)與該特征相關(guān)聯(lián);接收并存儲包括具有觀察到的相關(guān)聯(lián)的特征的受觀察項(xiàng)的輸入(302);在所接收的輸入的基礎(chǔ)上并使用貝葉斯更新過程來更新(304)所述數(shù)據(jù)結(jié)構(gòu)中的參數(shù);迭代所述接收和更新多個(gè)這樣的輸入的步驟。
2.如權(quán)利要求1所述的方法,其特征在于,還包括,在更新所述數(shù)據(jù)結(jié)構(gòu)中的參數(shù)之后,刪除所存儲的輸入,并且迭代這一刪除步驟以及其他所迭代的步驟。
3.如權(quán)利要求1或2所述的方法,其特征在于,所述數(shù)據(jù)結(jié)構(gòu)被存儲以便其保留群集模型(102),所述群集模型(10 基于是柏努利分布的乘積的柏努利剖析的混合。
4.如前述任一項(xiàng)權(quán)利要求所述的方法,其特征在于,所述數(shù)據(jù)結(jié)構(gòu)被存儲以便其使用因素圖來保留群集模型(102)。
5.如權(quán)利要求4所述的方法,其特征在于,所述數(shù)據(jù)結(jié)構(gòu)被存儲以便其保留因素圖作為樹結(jié)構(gòu)。
6.如前述任一項(xiàng)權(quán)利要求所述的方法,其特征在于,所述數(shù)據(jù)結(jié)構(gòu)被存儲以便每一群集成員資格參數(shù)與狄利克雷分布相關(guān)。
7.如前述任一項(xiàng)權(quán)利要求所述的方法,其特征在于,所述數(shù)據(jù)結(jié)構(gòu)被存儲以便每一特征參數(shù)與β分布相關(guān)。
8.如前述任一項(xiàng)權(quán)利要求1所述的方法,其特征在于,還包括標(biāo)識(1000)對所有群集具有相似特征參數(shù)的特征,以及使用(1001)那些特征參數(shù)的相同的默認(rèn)值。
9.如前述任一項(xiàng)權(quán)利要求所述的方法,其特征在于,還包括,在群集內(nèi),檢查(1101)用默認(rèn)值替換特征參數(shù)是否顯著地改變所述群集方法的結(jié)果,以及在沒有顯著改變的情況下,使用(110 該特征參數(shù)的默認(rèn)值。
10.如前述任一項(xiàng)權(quán)利要求所述的方法,其特征在于,還包括標(biāo)識(1200)具有低于指定閾值的多個(gè)項(xiàng)的群集,以及將那些所標(biāo)識的群集吸收(1201)到單個(gè)群集。
11.如權(quán)利要求1所述的方法,其特征在于,還包括使用訓(xùn)練數(shù)據(jù)來串行地訓(xùn)練所述數(shù)據(jù)結(jié)構(gòu);創(chuàng)建并存儲(1303)所述數(shù)據(jù)結(jié)構(gòu)的多個(gè)子副本;訪問一組進(jìn)一步的訓(xùn)練數(shù)據(jù),并且將該訓(xùn)練數(shù)據(jù)形成為多個(gè)批量;使用每一子副本的不同批量來并行地訓(xùn)練所述數(shù)據(jù)結(jié)構(gòu)的子副本;使用經(jīng)訓(xùn)練的子副本來更新所述數(shù)據(jù)結(jié)構(gòu);使用所更新的數(shù)據(jù)結(jié)構(gòu)來創(chuàng)建新的子副本;使用先前沒有使用的批量來訓(xùn)練所述新的子副本并且更新所述數(shù)據(jù)結(jié)構(gòu);以及重復(fù)這一過程。
12.—種標(biāo)識附加關(guān)鍵詞以在具有多個(gè)訂閱的關(guān)鍵詞的廣告的基礎(chǔ)上向廣告商建議的計(jì)算機(jī)實(shí)現(xiàn)的方法,所述方法包括接收(1400)具有多個(gè)訂閱的關(guān)鍵詞的廣告;訪問包括保留概率群集模型(102)的數(shù)據(jù)結(jié)構(gòu)的群集系統(tǒng)(101),所述概率群集模型 (102)在包括多個(gè)具有訂閱的關(guān)鍵詞的廣告的數(shù)據(jù)集上被訓(xùn)練并且所述群集模型被安排以便對所述數(shù)據(jù)集中的不確定性進(jìn)行建模;在所接收的廣告的基礎(chǔ)上,使用所述群集系統(tǒng)來生成(140 關(guān)鍵詞和相關(guān)聯(lián)的概率;以及輸出所生成的關(guān)鍵詞作為對所述廣告商的建議。
13.如權(quán)利要求12所述的方法,其特征在于,所述輸出包括使用相關(guān)聯(lián)的概率的評估來排序的所生成的關(guān)鍵詞的至少某些的列表。
14.如權(quán)利要求16所述的方法,其特征在于,還包括接收與所生成的關(guān)鍵詞的至少某些有關(guān)的用戶反饋,并且使用所述用戶反饋來修訂關(guān)鍵詞生成過程。
15.一種群集系統(tǒng)(101),包括:存儲保留概率群集模型的數(shù)據(jù)結(jié)構(gòu)(10 的存儲器(1602),所述概率群集模型已在包括具有相關(guān)聯(lián)的特征的多個(gè)文檔的數(shù)據(jù)集上被訓(xùn)練,并且所述群集模型被安排以對所述數(shù)據(jù)集中的不確定性進(jìn)行建模;被安排成接收關(guān)于文檔的信息(100)的輸入,用于群集包括那些文檔的特征的信息; 被安排成提供關(guān)于所述文檔的群集的信息(104)的輸出。
全文摘要
描述了可縮放群集系統(tǒng)。在一個(gè)實(shí)施例中,群集系統(tǒng)可用于極大規(guī)模的應(yīng)用,其中具有數(shù)千萬的特征的數(shù)百萬的項(xiàng)被群集。在一個(gè)實(shí)施例中,群集系統(tǒng)使用對數(shù)據(jù)集中的不確定性進(jìn)行建模的概率群集模型,其中數(shù)據(jù)集可以是例如訂閱關(guān)鍵詞的廣告、包含文本關(guān)鍵詞的文本文檔、具有相關(guān)聯(lián)的特征的圖像或其他項(xiàng)。在一個(gè)實(shí)施例中,群集系統(tǒng)被用于生成附加特征用于與給定項(xiàng)相關(guān)聯(lián)。例如,建議廣告者可能想訂閱的附加關(guān)鍵詞。在某些實(shí)施例中,所生成的附加特征具有可用于對那些特征進(jìn)行排序的相關(guān)聯(lián)的概率值。在某些示例中,用戶對所生成的特征的返回被接收,并且用于修訂特征生成過程。
文檔編號G06F17/00GK102388382SQ201080016627
公開日2012年3月21日 申請日期2010年4月1日 優(yōu)先權(quán)日2009年4月10日
發(fā)明者A·施瓦格夫, J·Q·坎德拉, R·赫布里希, T·博徹特, T·格雷佩 申請人:微軟公司