專利名稱:用于使用傾向分析進(jìn)行搜索查詢處理的系統(tǒng)和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及以下共同轉(zhuǎn)讓的待審美國專利申請于2003年4月4日提交的題為“Universal Interface System and Methods”的臨時(shí)申請第60/460,222號;以及于2003年10月9日提交的題為“Systemand Methods for Search Processing Using Clustering of Units”的臨時(shí)申請第60/510,220號。所有這些申請的披露均結(jié)合于此作為參考。
背景技術(shù):
隨著互聯(lián)網(wǎng)和用戶通過萬維網(wǎng)(網(wǎng)絡(luò))可用的大量網(wǎng)頁及媒體內(nèi)容的出現(xiàn),需要向用戶提供用于從網(wǎng)絡(luò)過濾和獲取期望信息的改進(jìn)的方法。已開發(fā)了搜索系統(tǒng)和程序以滿足用戶對獲取期望信息的需要。這些技術(shù),例如,可以通過Yahoo!、Google和其它站點(diǎn)來訪問。典型地,用戶輸入查詢并且搜索程序返回一個(gè)或多個(gè)關(guān)于查詢的鏈接(在搜索網(wǎng)絡(luò)的情況下)、文件和/或參考資料(在不同搜索資料庫的情況下)。返回的鏈接可能與用戶實(shí)際上尋找的內(nèi)容緊密相關(guān),或者它們可能與其完全不相關(guān)。查詢結(jié)果的“相關(guān)度(relatedness)”可能部分地為所輸入的實(shí)際查詢和所使用的搜索系統(tǒng)(下層收集系統(tǒng))的魯棒性(robustness)的函數(shù)。相關(guān)度可以由用戶主觀地確定或者由用戶可能一直尋找的內(nèi)容客觀地確定。
用戶輸入的查詢典型地由一個(gè)或多個(gè)單詞(word)構(gòu)成。例如,“hawaii”是一個(gè)查詢,“new york city”也是如此,并且“new yorkcity law enforcement”也是如此。同樣地,查詢作為整體對于人的大腦不是完整的。換句話說,人們不按照查詢自然地進(jìn)行思考。它們是通過搜索引擎或查尋庫目錄的需要部分強(qiáng)加的人工構(gòu)造。人們也不根據(jù)單個(gè)單詞自然地進(jìn)行思考。人們根據(jù)自然概念進(jìn)行思考。例如,就由單詞數(shù)目衡量的長度而言,“hawaii”和“new york city”是很不同的查詢,但是它們共享一個(gè)重要的特征它們各由一個(gè)概念構(gòu)成。然而,查詢“new york city law enforcement”是不同的,因?yàn)樗蓛蓚€(gè)截然不同的概念“new york city”和“l(fā)aw enforcement”構(gòu)成。
人們還按照概念之間的邏輯關(guān)系進(jìn)行思考。例如,“l(fā)awenforcement”和“police”是相關(guān)概念,因?yàn)榫炀质欠蓪?shí)施的重要機(jī)構(gòu);鍵入這些概念之一的用戶可能對與其它概念相關(guān)的站點(diǎn)感興趣,即使那些站點(diǎn)不包括用戶正巧鍵入的特定單詞或者短語。作為這種思考模式的結(jié)果,人們生來通過輸入一個(gè)或多個(gè)自然概念建立查詢,不單單是單個(gè)單詞的可變長度序列,并且通常查詢不包括用戶可能知道的全部相關(guān)概念。同樣,用戶意圖未必反映在查詢的單個(gè)單詞中。例如,“l(fā)aw enforcement”是一個(gè)概念,而分開的單詞“l(fā)aw”和“enforcement”不單獨(dú)地傳達(dá)與單詞組合時(shí)相同的用戶意圖。
任何主要搜索提供方的當(dāng)前技術(shù),例如,MSN、Google或任何其它主要搜索引擎站點(diǎn),均不以創(chuàng)建它們的人們的相同方式理解查詢。例如,通?,F(xiàn)存的搜索引擎搜索用戶所輸入的確切單詞或短語,不是搜索潛在的自然概念或?qū)嶋H上在用戶頭腦中的相關(guān)概念。這可能是阻止搜索提供方識別用戶的意圖并且提供最佳的搜索結(jié)果和內(nèi)容的最重要的原因。
正如所看到的,需要改進(jìn)搜索和接口技術(shù)來幫助提供更符合用戶可能感興趣的實(shí)際概念的結(jié)果并且增強(qiáng)用戶的體驗(yàn)。
發(fā)明內(nèi)容
本發(fā)明的實(shí)施例提供了一種用于處理搜索請求的系統(tǒng)和方法,包括分析所接收到的查詢以提供所搜索的信息的更完善的理解。查詢被解析成單元,其可能包括例如,查詢的一個(gè)或多個(gè)單詞或標(biāo)記(token)。對查詢的單元表示執(zhí)行進(jìn)一步分析以檢測模式,例如在不同查詢中使用的單元的類似組合。在查詢中出現(xiàn)的單元連同第二(secondary)單元的類似組被分組成群集(cluster),并且可以根據(jù)與每個(gè)單元有關(guān)的第二單元的相似程度來對兩個(gè)群集成員之間的關(guān)系分配權(quán)重。
根據(jù)本發(fā)明的一個(gè)方面,對于查詢的不同子集進(jìn)行重復(fù)群集,其中,查詢按照一個(gè)或多個(gè)維度被分類為子集。在一個(gè)實(shí)施例中,維度包括時(shí)間、個(gè)人特征或者用戶的人口統(tǒng)計(jì)狀況(demographics)(例如,年齡、性別、已知的興趣、或用戶簡介)、地理維度(例如,物理位置或IP地址)、或表示查詢之前的用戶活動(dòng)或內(nèi)容的垂直維度(例如,當(dāng)輸入查詢時(shí)用戶在網(wǎng)站的何處)。這為查詢的每個(gè)子集生成子集專用群集(或概念網(wǎng)絡(luò))。通過將相應(yīng)子集專用概念網(wǎng)絡(luò)與至少兩個(gè)子集進(jìn)行比較,生成關(guān)于單元或群集的傾向信息。
下面的詳細(xì)描述與附圖一起,將為本發(fā)明的性質(zhì)和優(yōu)點(diǎn)提供更好的理解。
圖1是根據(jù)本發(fā)明的實(shí)施例的信息檢索和通信系統(tǒng)的簡化高層框圖。
圖2是根據(jù)本發(fā)明的實(shí)施例的用于傳輸媒體內(nèi)容的信息檢索和通信網(wǎng)絡(luò)的簡化框圖。
圖3是根據(jù)本發(fā)明的實(shí)施例的查詢處理引擎的簡化框圖。
圖4是根據(jù)本發(fā)明的實(shí)施例的用于執(zhí)行傾向分析的過程的流程圖。
圖5是根據(jù)本發(fā)明的實(shí)施例的包括單元詞典和相關(guān)處理信息的系統(tǒng)(包括某些方面的查詢處理引擎)的簡化框圖。
圖6是示出作為一天中時(shí)間的函數(shù)的查詢頻率的傾向數(shù)據(jù)的圖表。
具體實(shí)施例方式
圖1示出了根據(jù)本發(fā)明的實(shí)施例的包括客戶機(jī)系統(tǒng)20的信息檢索和通信網(wǎng)絡(luò)10的總體圖。在計(jì)算機(jī)網(wǎng)絡(luò)10中,客戶機(jī)系統(tǒng)20通過互聯(lián)網(wǎng)40或其它通信網(wǎng)絡(luò)(例如,通過任何LAN或WAN連接)連接到任意數(shù)目的服務(wù)器系統(tǒng)501至50N。將在此描述,根據(jù)本發(fā)明,將客戶機(jī)系統(tǒng)20配置成與任意的服務(wù)器系統(tǒng)501至50N進(jìn)行通信,例如,訪問、接收、檢索和顯示媒體內(nèi)容和其它信息(例如網(wǎng)頁)。
在圖1所示的系統(tǒng)中的若干組件包括在此不必詳細(xì)解釋的常規(guī)的、眾所周知的組件。例如,客戶機(jī)系統(tǒng)20可以包括桌面?zhèn)€人計(jì)算機(jī)、工作站、便攜式計(jì)算機(jī)、個(gè)人數(shù)字助理(PDA)、移動(dòng)電話、或任何無線應(yīng)用協(xié)議(WAP)裝置或任何能夠直接或間接連接到互聯(lián)網(wǎng)的其他計(jì)算裝置。客戶機(jī)系統(tǒng)20典型地運(yùn)行瀏覽程序,例如微軟的Internet ExplorerTM瀏覽器、Netscape NavigatorTM瀏覽器、MozillaTM瀏覽器、OperaTM瀏覽器、或在移動(dòng)電話、PDA或其它無線裝置的情況下的WAP瀏覽器等,允許客戶機(jī)系統(tǒng)20的用戶通過互聯(lián)網(wǎng)40從服務(wù)器系統(tǒng)501至50N訪問、處理和觀看瀏覽器可用的信息和網(wǎng)頁??蛻魴C(jī)系統(tǒng)20典型地還包括一個(gè)或多個(gè)用戶接口裝置22,例如鍵盤、鼠標(biāo)、觸摸屏、筆等,用來與圖形用戶界面(GUI)進(jìn)行互動(dòng),GUI以及由服務(wù)器系統(tǒng)501至50N或其它服務(wù)器提供的頁面、表格和其它信息,由瀏覽器提供在顯示器(例如,監(jiān)控器屏幕、LCD顯示器,等)上。本發(fā)明適于用在互聯(lián)網(wǎng)上,互聯(lián)網(wǎng)指網(wǎng)絡(luò)的特定全球互聯(lián)網(wǎng)絡(luò)。然而,應(yīng)當(dāng)理解,可以使用其它網(wǎng)絡(luò)或互聯(lián)網(wǎng)(例如內(nèi)聯(lián)網(wǎng)、外聯(lián)網(wǎng)、虛擬個(gè)人網(wǎng)絡(luò)(VPN)、基于非TCP/IP的網(wǎng)絡(luò)、任何LAN或WAN等)代替。
根據(jù)一個(gè)實(shí)施例,客戶機(jī)系統(tǒng)20和其所有的組件是能夠使用中央處理器單元(例如Intel PentiumTM處理器、AMD AthlonTM處理器等)或多個(gè)處理器進(jìn)行運(yùn)行以及使包括計(jì)算機(jī)代碼的應(yīng)用程序運(yùn)行的操作器。在此描述的用于操作和配置客戶機(jī)系統(tǒng)20以進(jìn)行通信、處理和顯示數(shù)據(jù)和媒體內(nèi)容的計(jì)算機(jī)代碼被優(yōu)選地下載并存儲到硬盤上,但是整個(gè)程序代碼,或其多個(gè)部分也可以被存儲在眾所周知的任何其它易失性或非易失性存儲介質(zhì)或裝置中(例如ROM或RAM),或提供在可以存儲程序代碼的任何媒體上,例如光盤(CD)介質(zhì)、數(shù)字通用盤(DVD)介質(zhì)、軟盤等。另外,整個(gè)程序代碼或其一部分可以從軟件源傳輸和下載,例如,通過互聯(lián)網(wǎng)從服務(wù)器系統(tǒng)501至50N之一至客戶機(jī)系統(tǒng)20,或通過任何其它網(wǎng)絡(luò)連接(例如,外聯(lián)網(wǎng)、VPN、LAN、或其它常規(guī)的網(wǎng)絡(luò))使用任何通信媒介和協(xié)議(例如,TCP/IP、HTTP、HTTPS、以太網(wǎng)、或其它傳統(tǒng)媒體和協(xié)議)來傳輸。
應(yīng)當(dāng)意識到用于本發(fā)明的實(shí)現(xiàn)方面的計(jì)算機(jī)代碼可以是C、C++、HTML、XML、Java、JavaScript等代碼,或任何其它適合的腳本語言(例如,VBScript),或任何其它適合的編程語言,其可以在客戶機(jī)系統(tǒng)20上執(zhí)行或被編譯,以在客戶機(jī)系統(tǒng)20上執(zhí)行。在某些實(shí)施例中,沒有代碼被下載到客戶機(jī)系統(tǒng)20,并且所需的代碼由服務(wù)器執(zhí)行,或執(zhí)行已經(jīng)存在于客戶機(jī)系統(tǒng)20的代碼。
圖2示出了根據(jù)本發(fā)明的實(shí)施例的用于傳輸媒體內(nèi)容的另一個(gè)信息檢索和通信網(wǎng)絡(luò)110。如所示,網(wǎng)絡(luò)110包括客戶機(jī)系統(tǒng)120、一個(gè)或多個(gè)內(nèi)容服務(wù)器系統(tǒng)150、和搜索服務(wù)器系統(tǒng)160。在網(wǎng)絡(luò)110中,客戶機(jī)系統(tǒng)120通過互聯(lián)網(wǎng)140或其它通信網(wǎng)絡(luò)可通信地連接到服務(wù)器系統(tǒng)150和160。如上所述,客戶機(jī)系統(tǒng)120和其組件被配置成通過互聯(lián)網(wǎng)140或其它通信網(wǎng)絡(luò)與服務(wù)器系統(tǒng)150和160以及其它服務(wù)器系統(tǒng)進(jìn)行通信。
根據(jù)一個(gè)實(shí)施例,在客戶機(jī)系統(tǒng)120上執(zhí)行的客戶機(jī)應(yīng)用程序(以模塊125表示)包括用于控制客戶機(jī)系統(tǒng)120和其組件以與服務(wù)器系統(tǒng)150和160進(jìn)行通信和處理及顯示從那里接收的數(shù)據(jù)內(nèi)容的指令。客戶機(jī)應(yīng)用程序125優(yōu)選地從軟件源傳輸和下載到客戶機(jī)系統(tǒng)120,例如遠(yuǎn)程服務(wù)器系統(tǒng)(例如,服務(wù)器系統(tǒng)150、服務(wù)器系統(tǒng)160或其它遠(yuǎn)程服務(wù)器系統(tǒng)),雖然客戶機(jī)應(yīng)用程序模塊125可以被提供在如上所述的任何軟件存儲介質(zhì)(例如軟盤、CD、DVD、等)上。例如,在一方面,客戶機(jī)應(yīng)用程序模塊125在HTML封裝器(wrapper)中可以通過互聯(lián)網(wǎng)140提供給客戶機(jī)系統(tǒng)120,其中,HTML封裝器包括用于在各種對象、框和窗口中操作數(shù)據(jù)和提供數(shù)據(jù)的各種控件,例如,諸如嵌入式JavaScript或Active X控件。
另外,客戶機(jī)應(yīng)用程序模塊125包括用于處理數(shù)據(jù)和媒體內(nèi)容的各種軟件模塊,例如用于處理搜索請求和搜索結(jié)果數(shù)據(jù)的特定搜索模塊126,用于在文本和數(shù)據(jù)框和活動(dòng)窗口(例如,瀏覽器窗口和對話框)中提供數(shù)據(jù)和媒體內(nèi)容的用戶界面(interface)模塊127,用于與在客戶機(jī)120上執(zhí)行的各種應(yīng)用程序進(jìn)行連接和通信的應(yīng)用程序界面模塊128。根據(jù)本發(fā)明的多個(gè)方面,應(yīng)用程序界面模塊128被優(yōu)選地配置成與客戶機(jī)系統(tǒng)120相連接,在客戶機(jī)系統(tǒng)120上執(zhí)行的各種應(yīng)用程序的實(shí)例包括各種電子郵件應(yīng)用程序、即時(shí)通信(IM)應(yīng)用程序、瀏覽器應(yīng)用程序、文檔管理應(yīng)用程序和其它應(yīng)用程序。另外,界面模塊127可能包括瀏覽器,例如在客戶機(jī)系統(tǒng)120上配置的缺省瀏覽器或不同的瀏覽器。在某些實(shí)施例中,客戶機(jī)應(yīng)用程序模塊125提供第60/460,222號臨時(shí)申請所描述的通用搜索界面的特征。
根據(jù)一個(gè)實(shí)施例,搜索服務(wù)器系統(tǒng)160用于向客戶機(jī)系統(tǒng)120提供搜索結(jié)果數(shù)據(jù)和媒體內(nèi)容,并且例如,響應(yīng)于在搜索服務(wù)器系統(tǒng)160提供的搜索結(jié)果頁面中所選擇的鏈接,內(nèi)容服務(wù)器系統(tǒng)150用于向客戶機(jī)系統(tǒng)120提供數(shù)據(jù)和媒體內(nèi)容(例如網(wǎng)頁)。在某些改變中,搜索服務(wù)器系統(tǒng)160也返回內(nèi)容,或者替代地,鏈接和/或內(nèi)容的其它引用。
在一個(gè)實(shí)施例中,搜索服務(wù)器系統(tǒng)160引用各種收集技術(shù),用于使用例如頁、到頁面的鏈接、表示所索引頁面的內(nèi)容的數(shù)據(jù)等來填充一個(gè)或多個(gè)頁面索引。這些收集技術(shù)包括自動(dòng)網(wǎng)絡(luò)爬行者(crawlers)、蜘蛛等,以及用于在分層結(jié)構(gòu)中分類和排列網(wǎng)頁的手動(dòng)或半自動(dòng)分類算法和界面。在某些方面,搜索服務(wù)器系統(tǒng)16也配置有用于處理和排列網(wǎng)頁的與搜索相關(guān)的算法。搜索服務(wù)器系統(tǒng)160也優(yōu)選地被用于以查詢?nèi)罩疚募男问接涗浻脩舨樵兓顒?dòng)。
搜索服務(wù)器系統(tǒng)160用于響應(yīng)于從客戶機(jī)系統(tǒng)(特別是搜索模塊126)接收到的各種搜索請求來提供數(shù)據(jù)。服務(wù)器系統(tǒng)150和160可能是單個(gè)組織的部分,例如,諸如由Yahoo!公司提供給用戶的分布式服務(wù)器系統(tǒng),或者它們可能是不同組織的部分。內(nèi)容服務(wù)器系統(tǒng)150和搜索服務(wù)器系統(tǒng)160均包括至少一個(gè)服務(wù)器和一個(gè)相關(guān)的數(shù)據(jù)庫系統(tǒng),并且可能包括多個(gè)服務(wù)器和相關(guān)數(shù)據(jù)庫系統(tǒng),并且雖然以單個(gè)框示出,但可以在地理上分散。例如,搜索服務(wù)器系統(tǒng)160的所有服務(wù)器可能是彼此靠近放置(例如,位于單個(gè)建筑物或校園中的服務(wù)器中心),或者它們可能分散在彼此遠(yuǎn)離的位置(例如,位于城市A中的一個(gè)或多個(gè)服務(wù)器和位于城市B中的一個(gè)或多個(gè)服務(wù)器)。
如在此所用的,“服務(wù)器系統(tǒng)”典型地包括一個(gè)或多個(gè)邏輯上和/或物理上連接的本地或跨越一個(gè)或多個(gè)地理位置分布的服務(wù)器。如在本領(lǐng)域中所熟知的,“服務(wù)器”通常包括計(jì)算機(jī)系統(tǒng)和相關(guān)的存儲系統(tǒng)和數(shù)據(jù)庫應(yīng)用程序。
根據(jù)一個(gè)實(shí)施例,搜索服務(wù)器系統(tǒng)160配置有一個(gè)或多個(gè)頁面索引和用于響應(yīng)于從客戶機(jī)系統(tǒng)120接收的搜索查詢來訪問頁面索引和提供搜索結(jié)果給用戶的算法。在某些方面,搜索服務(wù)器系統(tǒng)160另外用于響應(yīng)于來自客戶機(jī)系統(tǒng)120的搜索結(jié)果,來提供增強(qiáng)的搜索查詢分析和群集功能。在其它改變中,搜索服務(wù)器系統(tǒng)160包括內(nèi)容服務(wù)器系統(tǒng)150的全部內(nèi)容和功能。
在一個(gè)實(shí)施例中,在搜索服務(wù)器系統(tǒng)160上執(zhí)行的過程執(zhí)行搜索查詢和/或搜索結(jié)果的上下文分析并且用分組的搜索結(jié)果進(jìn)行響應(yīng),以反映不同上下文。根據(jù)預(yù)期的上下文,許多搜索術(shù)語可能具有不同的含義。例如,如果用戶使用術(shù)語“Java”執(zhí)行搜索,預(yù)期的上下文不清楚。用戶可能對Java計(jì)算機(jī)語言感興趣,可能對印度尼西亞的Java島感興趣,或?qū)Х雀信d趣(其經(jīng)常被通俗地稱為java)。本發(fā)明有利地分析搜索查詢和/或結(jié)果,并且為了顯示在用戶計(jì)算機(jī)120上,在上下文中將結(jié)果分組。例如,響應(yīng)于搜索術(shù)語“Java”,某些搜索服務(wù)器系統(tǒng)160的實(shí)施例返回被分組成三個(gè)(如果識別其它上下文,可能更多)上下文或單詞意義的搜索結(jié)果Java計(jì)算機(jī)語言、Java島、和咖啡java。該系統(tǒng)可以用于顯示具有與每個(gè)上下文相關(guān)的鏈接的組中的結(jié)果,或者系統(tǒng)可以僅顯示沒有任何鏈接的上下文(具有為用戶區(qū)分上下文的足夠信息)并且允許用戶選擇期望的上下文來顯示相關(guān)鏈接。在Yahoo!網(wǎng)絡(luò)系統(tǒng)中,例如,可能顯示一組上下文,其中,每個(gè)上下文具有從搜索索引到頁面的一組鏈接、與贊助商匹配相關(guān)的鏈接、與目錄匹配相關(guān)的鏈接和與Inside Yahoo!(IY)匹配相關(guān)的鏈接。
除了具有模糊含義的單詞或短語外,例如“Java”,本發(fā)明的系統(tǒng)在一個(gè)實(shí)施例中被用于將不是很模糊的搜索術(shù)語的結(jié)果分組進(jìn)上下文。一個(gè)實(shí)例是為搜索術(shù)語“Hawaii”返回的結(jié)果。術(shù)語“Hawaii”在本質(zhì)上可能不是模糊的;然而,對于這樣的術(shù)語返回的結(jié)果的特性可能非常廣泛,涉及每個(gè)討論或僅提到Hawaii的站點(diǎn)。為了給用戶提供更有用的結(jié)果,通過支持(leveraging)對結(jié)果實(shí)際涉及內(nèi)容的認(rèn)識,本發(fā)明的系統(tǒng)優(yōu)選地將搜索結(jié)果組織進(jìn)上下文。例如,對于Hawaii,系統(tǒng)可能在不同上下文分組中返回結(jié)果,例如“Hawaiitravel”、“Hawaiiclimate”、“Hawaiigeography”、“Hawaiiculture”,等。
在某些實(shí)施例中,上下文標(biāo)識符與頁面鏈接相關(guān)聯(lián)地存儲在在索引中,因此當(dāng)執(zhí)行搜索時(shí),可以根據(jù)標(biāo)識符對鏈接進(jìn)行分組。頁面鏈接可以與多個(gè)上下文標(biāo)識符相關(guān)聯(lián)。在用戶執(zhí)行相關(guān)搜索時(shí),通過系統(tǒng)優(yōu)選地將這種標(biāo)識符自動(dòng)地與鏈接進(jìn)行關(guān)聯(lián);然而,也可以由一個(gè)或多個(gè)索引編輯者的團(tuán)隊(duì)手動(dòng)地修改和使標(biāo)識符與鏈接相關(guān)。以此方式中,由眾多搜索收集的知識被反饋進(jìn)系統(tǒng),來限定或重限定上下文,以使顯示的搜索結(jié)果對請求用戶更有價(jià)值和更有用。
在一個(gè)實(shí)施例中,在搜索服務(wù)器系統(tǒng)160上的算法執(zhí)行搜索術(shù)語的概念發(fā)現(xiàn)或概念分析,以向用戶提供更有意義的結(jié)果。例如,對于搜索短語“New York City”,相當(dāng)清楚的是,相對于(as supposedto)紐約州的其它城市,用戶對涉及紐約市(市或區(qū))的站點(diǎn)感興趣。類似地,對于“New York City law enforcement”,很清楚,用戶對涉及紐約市的法律實(shí)施(例如,工作部分)的站點(diǎn)感興趣。然而,大多數(shù)搜索引擎可能僅使用單獨(dú)的術(shù)語“New”、“York”、“City”、“l(fā)aw”和“enforcement”進(jìn)行搜索,而不管在搜索短語中術(shù)語出現(xiàn)的順序。其它搜索引擎可能試圖找到在索引中出現(xiàn)的搜索短語中的最長子字符串。例如,如果索引包含“New York”、“NewYork City”和“New York City law”但不包含“New York City lawenforcement”,搜索引擎將使用“New York City law”和“enforcement”搜索,這不一定是用戶所預(yù)期的。
本發(fā)明的實(shí)施例有利地分析在搜索短語中的術(shù)語,以識別構(gòu)成搜索查詢的一個(gè)或多個(gè)概念(單元)。
圖3是根據(jù)本發(fā)明的一個(gè)實(shí)施例的用于執(zhí)行概念發(fā)現(xiàn)或包括傾向分析的概念分析的系統(tǒng)300的框圖。由查詢處理引擎(同時(shí)稱為查詢引擎)304接收一個(gè)或多個(gè)查詢?nèi)罩疚募?02(或?qū)嶋H查詢),該引擎產(chǎn)生如下所述的單元詞典306。查詢?nèi)罩疚募?或?qū)嶋H查詢)可以通過互聯(lián)網(wǎng)或通過多種網(wǎng)絡(luò)連接(例如,LAN、WAN、直接鏈接、分布介質(zhì)(例如,CD、DVD、軟盤)等)從不同的來源接收。來源的實(shí)例包括搜索服務(wù)器系統(tǒng)160(圖1)、或在搜索服務(wù)器的分布式網(wǎng)絡(luò)中的多個(gè)搜索服務(wù)器160、和一個(gè)或多個(gè)內(nèi)容服務(wù)器150。通常查詢?nèi)罩疚募碓磁c同一組織或?qū)嶓w有關(guān),例如,Yahoo!服務(wù)器,但不是必須的。由查詢引擎304使用統(tǒng)計(jì)學(xué)方法(例如在信息理論中所使用的)或概念(例如交互信息)來處理查詢?nèi)罩疚募?也稱為查詢?nèi)罩?。在優(yōu)選方面,使用日常查詢?nèi)罩?,根?jù)需要可能使用不同時(shí)期的日志,例如,小時(shí)、星期、等。查詢?nèi)罩就ǔ0ㄓ捎脩籼峤坏膶?shí)際查詢,并且也可能包括用于某些或全部查詢的額外信息,例如查詢用戶的地理位置、時(shí)間信息、客戶機(jī)系統(tǒng)的IP地址、cookies、客戶機(jī)類型(例如,瀏覽器類型)等。查詢處理引擎304處理各種的查詢?nèi)罩静⑶覐钠洚a(chǎn)生單元(unit)。單元和相關(guān)統(tǒng)計(jì)(例如出現(xiàn)的頻率)被存儲在存儲器中或在此稱為單元詞典306的數(shù)據(jù)庫文件中。可以通過搜索引擎響應(yīng)于后續(xù)查詢來使用單元詞典306,如下所述。
在一個(gè)實(shí)施例中,查詢處理器304包括單元分析模塊310和群集模塊312。單元分析模塊310處理查詢?nèi)罩?02來產(chǎn)生單元。在優(yōu)選的實(shí)施例中,系統(tǒng)使用搜索術(shù)語出現(xiàn)的順序來識別構(gòu)成查詢的單元。單元可以是單詞(例如,“java”)或經(jīng)常彼此相鄰出現(xiàn)的單詞組(例如,“new york city”)。在上面引用的第60/460,222號臨時(shí)申請中對單元的確定進(jìn)行了詳細(xì)描述。由單元分析模塊310產(chǎn)生的單元存儲在單元詞典306中;在一些實(shí)施例中,也可以包括統(tǒng)計(jì)信息(例如,出現(xiàn)的頻率或連同一個(gè)或多個(gè)其他單元一起出現(xiàn)的頻率)??梢酝ㄟ^搜索引擎響應(yīng)于后續(xù)查詢使用存儲在單元詞典306中的信息。
群集模塊312使用由單元分析模塊310識別出的單元來執(zhí)行對查詢的進(jìn)一步分析,以創(chuàng)建群集,或概念網(wǎng)絡(luò),其指示不同單元間的相似性。如在本領(lǐng)域通常所知的,概念網(wǎng)絡(luò)是用于表示關(guān)系的結(jié)構(gòu),其中每個(gè)概念對應(yīng)于一個(gè)節(jié)點(diǎn),并且概念之間的關(guān)系由連接節(jié)點(diǎn)的線(或邊)表示。可以為邊分配不同的權(quán)重,因此每個(gè)邊的權(quán)重反映了概念(節(jié)點(diǎn))之間相似性的強(qiáng)度或接近程度。根據(jù)本發(fā)明的一個(gè)實(shí)施例,通過識別傾向于與一個(gè)或多個(gè)相同組“簽名”單元一起出現(xiàn)在查詢中的不同單元(群集的“成員”),從單元產(chǎn)生群集。成員單元可以用作概念網(wǎng)絡(luò)中的節(jié)點(diǎn)。可以理解,也可以使用不同單元或概念之間的聯(lián)系或關(guān)系的其它表示,并且在此使用的“概念網(wǎng)絡(luò)”包括可選表示。
例如,假設(shè)許多用戶搜索關(guān)于它們喜愛的流行音樂節(jié)目的信息。通常,這些用戶將構(gòu)建包括節(jié)目名稱(例如,“Avril Lavigne”或“Celine Dion”)以及一些其它反映搜索信息類型的詞語(例如,“l(fā)yrics(歌詞)”、“mp3”、“guitar tabs”、“discography(音樂唱片分類目錄)”等)的查詢。群集模塊312分析這些查詢并確定“l(fā)yrics”、“mp3”、“guitar tabs”、“discography”等是用于群集的“簽名”單元,群集的成員包括不同流行音樂節(jié)目的名稱。用于創(chuàng)建群集的特定技術(shù)的實(shí)例可以在群集模塊312中實(shí)施,這些實(shí)例如第60/510,220號臨時(shí)申請中所述。群集模塊312有利地將包括涉及成員單元的數(shù)據(jù)和簽名的群集信息存儲在單元詞典306中。因此,在單元詞典306中的可用信息包括有關(guān)單元和它們的“近鄰”(也就是說,與給定單元一起出現(xiàn)在查詢中的其它單元)以及與具有相似近鄰的單元的關(guān)系的信息。
在優(yōu)選實(shí)施例中,由群集模塊312創(chuàng)建的群集傾向于反映概念的真實(shí)世界的關(guān)系(例如,屬于共同分類的分組單元),即使不需要向查詢處理引擎304提供真實(shí)世界的知識或有關(guān)特定單元或查詢的語義信息。例如,一個(gè)群集可能包括“New York City(紐約市)”、“San Francisco”、和“Chicago”、并且群集的簽名可能包括“hotel”、“restaurant”、和“night club”。這樣的群集將會反映紐約市、舊金山、和芝加哥全部是旅游目的地(或城市),但查詢引擎304(圖3)不要求具有任何概念“目的地”(或“城市”)的現(xiàn)有知識。該概念性知識可以從分析查詢的模式自動(dòng)增長。應(yīng)該理解,本說明書使用對人們帶有語義含義的術(shù)語來標(biāo)注群集,這便于促進(jìn)本公開的理解。實(shí)際上,由查詢引擎304或單元詞典306使用的任何群集標(biāo)注方案均不需要具有該屬性;例如,群集標(biāo)簽可以僅是一個(gè)數(shù)字、一個(gè)群集簽名的指示器等。
單元可能屬于多個(gè)群集;例如,模糊單元(例如“java”)可以終止于“computer programming”群集中、“food and drink”群集中、和“travel”或“place”群集中。在一些實(shí)施例中,單元可以不屬于任何群集。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,查詢處理引擎304也包括沿著多個(gè)維度尋找查詢中的傾向的傾向分析模塊320,例如時(shí)間、地理、用戶人口統(tǒng)計(jì)狀況、用戶歷史或上下文(在此稱為“垂直”維度)等。傾向分析模塊320有利地支持單元分析模塊310和群集模塊312的功能,以在查詢的不同子集上進(jìn)行概念分析和/或概念發(fā)現(xiàn),然后匯編結(jié)果。得到的傾向信息被方便地加入單元詞典306。
單元詞典306可以以任何格式實(shí)施,并且存儲在任何合適的存儲介質(zhì)上,包括磁盤或磁帶、諸如光盤(CD)的光學(xué)存儲介質(zhì)等。單元詞典306的內(nèi)容有利地包括單元,以及有關(guān)每個(gè)單元的附加信息,例如由單元分析模塊310生成的統(tǒng)計(jì)數(shù)據(jù)、由群集模塊312確定的群集信息、和由傾向分析模塊320產(chǎn)生的傾向信息。涉及單元、群集、和/或傾向的信息可以由搜索引擎使用以響應(yīng)后續(xù)查詢。
圖4是可以由傾向分析模塊320的實(shí)施例執(zhí)行的過程400的流程圖。在步驟402,包含在查詢?nèi)罩局械牟樵冄刂x擇的維度分類成子集??梢愿鶕?jù)關(guān)于日志文件提供的查詢的任何信息限定維度,并且可以沿給定維度將查詢分為任何數(shù)目的子集。
作為一個(gè)實(shí)例,如果查詢?nèi)罩咎峁┥婕岸喾N已知查詢的提交時(shí)間的信息,可以使用“時(shí)間”維度。沿著時(shí)間維度,例如,可以按星期或月份來劃分查詢,以分析用戶興趣隨著時(shí)間的傾向。也可以根據(jù)一天中的時(shí)間(例如,早上、下午、傍晚、深夜)、工作日對周末或假日、季節(jié)等劃分查詢。許多變更是可能的;僅作為一個(gè)實(shí)例,可以在一周、一個(gè)月、或另一個(gè)所需時(shí)期的時(shí)間集合在上午8時(shí)和上午10時(shí)之間收到的查詢。在一些實(shí)施例中,根據(jù)搜索服務(wù)器的本地時(shí)間來確定一天的時(shí)間。在搜索服務(wù)提供多個(gè)服務(wù)器以服務(wù)不同地理區(qū)域的情況下,服務(wù)器的本地時(shí)間大體上表示用戶的本地時(shí)間。在其它實(shí)施例中,可以使用用戶的本地時(shí)間。
作為另一個(gè)實(shí)例,如果查詢?nèi)罩咎峁╆P(guān)于查詢的地理起源的信息,可以使用“地理”維度。地理可以涉及物理地理。例如,一些IP地址可以用來識別查詢起源的可能國家;用于提交查詢的用戶的用戶簡介(profile)可以用來確認(rèn)用戶居住在何處;或者可以根據(jù)它們是否在位于不同位置的鏡像站點(diǎn)或與不同位置有關(guān)的地區(qū)/國家站點(diǎn)被接收到,來分類查詢??蛇x地,地理維度可以表示“計(jì)算機(jī)地理”,其中,用戶的IP地址(或由IP地址確定的域)被視為地理起源??梢越Y(jié)合物理的和計(jì)算機(jī)的地理維度。
作為第三實(shí)例,如果查詢?nèi)罩咎峁╆P(guān)于例如年齡、性別、等用戶的人口統(tǒng)計(jì)學(xué)特征的信息,可以使用“人口統(tǒng)計(jì)學(xué)”維度。人口統(tǒng)計(jì)學(xué)數(shù)據(jù)的任何數(shù)字和結(jié)合均可以被用來限定用于傾向分析的人口統(tǒng)計(jì)學(xué)維度。例如,人口統(tǒng)計(jì)學(xué)維度可以包括一組“年齡大于25和擁有住房的女性用戶”、另一組“年齡大于35和租房的男性用戶”、一組“年齡小于25擁有汽車的用戶”等。
作為第四實(shí)例,如果查詢?nèi)罩咎峁╆P(guān)于在查詢輸入之前的用戶活動(dòng)的信息(在此稱為“用戶歷史”或“用戶上下文”),可以使用“垂直的”或“用戶歷史”維度。例如,假設(shè)門戶站點(diǎn)(例如,在www.yahoo.com的Yahoo!站點(diǎn))包括不同區(qū)域或“屬性”,例如購物屬性、通用網(wǎng)絡(luò)目錄、音樂屬性等,每個(gè)屬性包括了使用戶輸入查詢的搜索接口的屬性。關(guān)于當(dāng)輸入查詢時(shí)用戶正在訪問這些屬性的哪一個(gè)的信息可能被存儲并且作為“垂直”維度被使用。因此,在一個(gè)實(shí)施例中,垂直維度可能包括來自在“購物”屬性的用戶的一個(gè)查詢子集和來自在“通用目錄”屬性的用戶的另一個(gè)查詢子集等。在其它實(shí)施例中,例如在任意時(shí)間用戶已經(jīng)為了輸入搜索查詢連續(xù)訪問對話框的情況下(這樣的對話框的一個(gè)實(shí)例如第60/460,222號臨時(shí)申請所述),用戶歷史信息可能也包括當(dāng)用戶輸入查詢時(shí)顯示的網(wǎng)頁的URL或其它標(biāo)識符。垂直維度可能根據(jù)URL、其一部分(例如,域名)、或關(guān)于頁面內(nèi)容的信息(例如,可能保持在頁面索引中的信息)來分開查詢。
本領(lǐng)域的技術(shù)人員將認(rèn)識到前述維度和子集的實(shí)例是說明性的,并不是限制性的;可以使用沿給定維度的查詢的任何數(shù)目的維度和子集。查詢沿著維度的分類可以包括相關(guān)維度的“未知”和/或“其它”值的子集,并且可以根據(jù)系統(tǒng)設(shè)置來分析或不分析該子集。
在步驟404,查詢的每個(gè)子集被提供給群集模塊312以產(chǎn)生一個(gè)或多個(gè)子集專用概念網(wǎng)絡(luò)。在某些實(shí)施例中,使用現(xiàn)存單元詞典306;在其它實(shí)施例中,也可以將子集提供給單元分析模塊310來產(chǎn)生子集專用單元組。單元分析和群集分析如第60/510,220號臨時(shí)申請所述。有利地為每個(gè)查詢子集獨(dú)立執(zhí)行群集分析,因此為每個(gè)子集產(chǎn)生概念網(wǎng)絡(luò)組。得到的子集專用概念網(wǎng)絡(luò)返回到傾向分析模塊320。
在步驟408,傾向分析模塊320使用子集專用概念網(wǎng)絡(luò)沿著維度執(zhí)行傾向分析,以檢測反映用戶行為的不同模式的相似性和差異。這些不同模式在此稱為“傾向”,并且傾向分析通常涉及比較由不同子集產(chǎn)生的群集(例如,概念網(wǎng)絡(luò))和/或簽名以發(fā)現(xiàn)這些差異。傾向和傾向分析可以采取廣泛多樣的形式。
作為一個(gè)實(shí)例,一個(gè)傾向分析可能比較在不同時(shí)期或?qū)τ诓煌脩羧丝诮y(tǒng)計(jì)的特定搜索術(shù)語或單元的相對頻率。比較的單元可能是,例如群集的不同成員單元或?qū)τ谌杭牟煌灻麊卧<僭O(shè),例如,有一個(gè)“歌唱家”的群集;對于該群集的一個(gè)傾向分析可能顯示對于小于21歲的用戶,“Avril Lavigne”是比“Celine Dion”更流行的查詢術(shù)語,而對于大于35歲的用戶結(jié)果是相反的?;蛘呒僭O(shè)有一個(gè)“cities(城市)”的群集并且該群集的簽名包括單元“employment”和“hotel”;對該簽名的傾向分析可能顯示在工作日期間更經(jīng)常搜索“employment”,而在周末更經(jīng)常搜索“hotel”。(這可能反映,例如,用戶傾向于在工作日期間進(jìn)行工作搜索并且在周末期間進(jìn)行度假計(jì)劃)。
在某些實(shí)施例中,傾向分析也可能被用來檢測用戶興趣和行為中更微妙的傾向。例如,假設(shè)在一個(gè)領(lǐng)域中(例如,音樂),眾所周知的名人決定進(jìn)入另一個(gè)領(lǐng)域(例如,政治)。對該名人的興趣的總體水平可能沒有改變很多,但是所搜索的關(guān)于該名人的信息的種類可能變動(dòng)。例如,對于名人的姓名加上“song”或“album(曲集)”的搜索的頻率可能減少而對于名人的姓名加上“politics”或“taxes”的術(shù)語的搜索的頻率增加。對在不同時(shí)期的名人姓名的近鄰比較將顯示這樣的傾向。
在步驟410,為了用于響應(yīng)后續(xù)查詢,傾向信息被存儲在例如單元詞典306中。信息可能與信息所屬的特定單元和/或群集、與關(guān)于單元或群集的簽名或建議等一起存儲。
將意識到,在此描述的系統(tǒng)和過程是說明性的并且可以變更和修改??梢云叫袌?zhí)行按順序描述的過程步驟,可以改變步驟的次序,并且可以修改或合并步驟??梢栽谌魏螖?shù)目的維度上同時(shí)進(jìn)行傾向分析(例如,來自“購物”區(qū)域的年齡小于21的用戶),并且沿著維度的分類根據(jù)所需可以為近似的或精細(xì)的。一個(gè)子集專用概念網(wǎng)絡(luò)可以與另一個(gè)子集專用概念網(wǎng)絡(luò)進(jìn)行比較,或者不同子集專用概念網(wǎng)絡(luò)可以與由沒有分類的查詢所產(chǎn)生的“全局”概念網(wǎng)絡(luò)進(jìn)行比較。傾向分析可以限于特定概念網(wǎng)絡(luò),例如,那些涉及用在足夠大數(shù)目的查詢中以產(chǎn)生有意義數(shù)據(jù)的單元的,或者作為用于建議相關(guān)搜索的基礎(chǔ)的單元的??梢栽趩卧?、群集、簽名、或它們的任意組合上執(zhí)行傾向分析。
像單元和群集數(shù)據(jù)一樣,經(jīng)常有利地隨時(shí)間更新或重新產(chǎn)生傾向信息,以捕獲可以反映用戶興趣的改變的用戶行為的變化(例如,特定流行音樂表演者的流行增加或減少,找工作相對旅行的興趣增加或減少等)。
在本發(fā)明的另一個(gè)實(shí)施例中,通過考慮相關(guān)傾向,傾向信息被用于幫助響應(yīng)于特定用戶的興趣修整搜索。圖5示出了可以由圖2的系統(tǒng)110使用的方法以響應(yīng)查詢??蛻魴C(jī)120發(fā)送查詢到搜索服務(wù)器系統(tǒng)160。搜索服務(wù)器系統(tǒng)160向概念服務(wù)器180發(fā)送查詢和/或其組成單元,其訪問單元詞典306。概念服務(wù)器180返回涉及查詢的概念數(shù)據(jù),例如從查詢識別的一個(gè)或多個(gè)單元以及用于多個(gè)單元的統(tǒng)計(jì)和群集信息,以及涉及單元的傾向信息。例如,可以通過混編(hashing)查詢來識別在此包含的單元,并訪問單元詞典306以檢索用于每個(gè)識別出的單元的條目(entries),來推斷該信息。在一個(gè)實(shí)施例中,返回的信息包括單元、統(tǒng)計(jì)、群集、和關(guān)于與查詢相關(guān)的傾向的信息、一個(gè)或多個(gè)其組成單元,或者一個(gè)或多個(gè)與任何組成單元相關(guān)的群集。
搜索服務(wù)器系統(tǒng)160有利地使用從響應(yīng)于查詢的概念服務(wù)器180接收到的概念數(shù)據(jù)。由搜索服務(wù)器系統(tǒng)160返回的結(jié)果有利地包括響應(yīng)于用戶查詢而給用戶的結(jié)果,以及其它相關(guān)信息,例如關(guān)于用戶下一步可能要尋找的內(nèi)容的提示和指點(diǎn),其基于在單元和它們的擴(kuò)充和結(jié)合物中所捕獲的對用戶需要的理解,其擴(kuò)充和結(jié)合物包括關(guān)于單元和/或群集的群集和傾向。
例如,假設(shè)查詢包括模糊術(shù)語,例如可能在多于一個(gè)上下文中使用的“Java,”。這樣的術(shù)語可能屬于多個(gè)群集,例如,“food anddrink”群集,“computer”群集、和“l(fā)ocation”群集。在某些實(shí)施例中,搜索服務(wù)器系統(tǒng)160可以使用傾向數(shù)據(jù)來形成響應(yīng),例如,通過選擇哪個(gè)群集將被給予最顯著的位置。例如,如果在工作日搜索“Java”的用戶很可能對計(jì)算機(jī)語言感興趣,而在周末搜索“Java”的用戶很可能對咖啡感興趣,顯示哪個(gè)搜索結(jié)果的次序可能取決于星期幾;例如,如果是工作日,涉及計(jì)算機(jī)語言的結(jié)果可能被最顯著地顯示,而如果是周末,涉及咖啡的結(jié)果可能被最顯著地顯示。(第60/510,220號參考臨時(shí)申請描述了用于根據(jù)不同群集的相關(guān)性分組搜索結(jié)果的一些技術(shù)。)作為第二實(shí)例,假設(shè)有其為打擊樂團(tuán)體名稱同時(shí)也是用于某個(gè)公司的證券報(bào)價(jià)機(jī)(stock-ticker)符號的四字母序列(“WXYZ”)。根據(jù)當(dāng)股票市場營業(yè)時(shí)所收到的查詢相對于當(dāng)市場關(guān)閉時(shí)所收到的查詢,比較概念網(wǎng)絡(luò)或群集可能顯示在前一種情況中公司W(wǎng)XYZ更經(jīng)常地被搜索,而在后一種情況中打擊樂團(tuán)體WXYZ更經(jīng)常地被搜索。因此,涉及公司的搜索結(jié)果可能被置于涉及打擊樂團(tuán)體的結(jié)果之前或之后,取決于當(dāng)接收到查詢時(shí)市場是否營業(yè)。
作為第三實(shí)例,考慮術(shù)語“party”,取決于上下文,其可以涉及社會活動(dòng)或涉及政治。包括術(shù)語“party”的某些查詢也可以包括解析(resolve)模糊的另一個(gè)術(shù)語(例如,“Republican party”或“partygames”),但其它查詢可能不包括這些術(shù)語。傾向分析可以被用于形成對模糊查詢的響應(yīng)。例如,圖6是示出了沿著一天中的時(shí)間維(每4小時(shí)增量)、包含術(shù)語“party”的查詢的頻率(以任意單位)的傾向數(shù)據(jù)的圖表。這種傾向數(shù)據(jù)可能通過分析根據(jù)上述過程400的某些組查詢來獲得。傾向數(shù)據(jù)組602(符號“×”)對應(yīng)于其中“party”與另一個(gè)清楚地涉及社會活動(dòng)(例如,“game)”、“favors”、“supplies”)的術(shù)語共同出現(xiàn)的查詢。傾向數(shù)據(jù)組604(符號“○”)對應(yīng)于其中“party”與另一個(gè)清楚地涉及政治(例如,“Republican”、“Democrat”、“candidate”)的術(shù)語共同出現(xiàn)的查詢。傾向數(shù)據(jù)組606(三角)對應(yīng)于包括“party”的查詢,其中不能通過參考查詢中的其它術(shù)語來解析模糊。
根據(jù)本發(fā)明,解析模糊的一個(gè)方法是通過比較不同傾向的形狀(例如,在圖6所示的數(shù)據(jù)組的第一和/或第二導(dǎo)數(shù)),并且確定該模糊組查詢是否比其它組與一個(gè)明確組查詢更接近地匹配。在圖6中所示的實(shí)例中,模糊傾向數(shù)據(jù)606明顯地比“political”傾向數(shù)據(jù)604更類似于“social event”傾向數(shù)據(jù)602。由此,可以推斷輸入包括“party”的模糊查詢的用戶可能對社會活動(dòng)比對政治更感興趣,并且可以相應(yīng)地顯示搜索結(jié)果,例如,通過在涉及政治的結(jié)果之前顯示涉及社會活動(dòng)的結(jié)果。
應(yīng)當(dāng)注意到兩組傾向數(shù)據(jù)之間的相似性程度也可以被考慮,并且用于建立用于所推斷意圖的置信度。在圖6中所示的實(shí)例中,模糊傾向數(shù)據(jù)606相當(dāng)接近地與“social event”傾向數(shù)據(jù)602匹配,因此,推斷的置信度水平將會很高。在其它實(shí)例中,取決于用戶行為,置信度水平可能較低或較高。這樣的置信度水平可能是形成查詢響應(yīng)的另一個(gè)因素。例如,給出足夠高置信度水平,最初可能只顯示涉及社會活動(dòng)的結(jié)果;在這種情況中,可以為用戶提供檢索涉及政治的結(jié)果的選擇。
該實(shí)例是說明性的,并且可以變更和修改。例如,沿著多個(gè)維度(例如,一天中的時(shí)間和用戶年齡)的傾向可能在確定相似性中一起考慮。傾向比較可能基于兩條曲線的相似性的任何適當(dāng)?shù)臏y量,例如實(shí)際頻率值、導(dǎo)數(shù)(變化率)、更高階導(dǎo)數(shù)、或它們的任何組合。
作為第四實(shí)例,考慮術(shù)語“poison”,其可能涉及有毒物質(zhì)或涉及重金屬樂隊(duì)。再次,某些查詢將包括解析模糊的其它術(shù)語;例如,查詢例如“rat poison”或“poison control”將涉及有毒物質(zhì),而“poisonlyrics”或“poison mp3”將涉及樂隊(duì)。然而,其它查詢將完全是不確定的。
例如在上面“party”的實(shí)例中描述的分析可以被用來解析模糊。另一個(gè)方法涉及確認(rèn)樂隊(duì)“poison”屬于音樂表演者的群集,并且該群集包括其名稱相對明確的其它表演者。(例如,實(shí)際上,每個(gè)輸入“Britney Spears”作為查詢的用戶對該著名的歌手均感興趣。)包括音樂表演者明確名稱的查詢可以被用作“控制”組,可以從中得出關(guān)于正在尋找關(guān)于音樂表演者信息的用戶的行為的推斷。為了估計(jì)模糊術(shù)語涉及表演者的可能性,可以將該行為與鍵入模糊術(shù)語(例如,“poison”)的用戶的行為進(jìn)行比較,該模糊術(shù)語可能涉及表演者或可能不涉及。
控制組和包括模糊術(shù)語的查詢之間的大量比較是可能的。例如,可以計(jì)算包括模糊術(shù)語“poison”同時(shí)包含確定地與音樂相關(guān)的術(shù)語(例如,“l(fā)yrics”)的查詢的分?jǐn)?shù),包含明確名稱(例如,“Britney Spears”)的查詢的相應(yīng)“控制”分?jǐn)?shù)也是如此??刂品?jǐn)?shù)可以視為接近于對音樂感興趣的用戶將輸入可能模糊查詢的可能性。通過將此與包含“poison”的明確音樂有關(guān)的查詢的頻率進(jìn)行比較,推斷出輸入查詢“poison”的用戶對樂隊(duì)感興趣的可能性是可能的。
為了使該實(shí)例更具體,假設(shè)包括術(shù)語“poison”同時(shí)包括術(shù)語“l(fā)yrics”的查詢的分?jǐn)?shù)為0.1,并且包括術(shù)語“Britney Spears”同時(shí)包括術(shù)語“l(fā)yrics”的查詢的分?jǐn)?shù)為0.2。由此,可以推斷出輸入術(shù)語“poison”的一半用戶可能不想涉及樂隊(duì)。在這種情況中,涉及樂隊(duì)和涉及毒物的結(jié)果都將被顯著地顯示。為了估計(jì)搜索有毒物質(zhì)的用戶不能包括模糊解析術(shù)語的可能性,也可以根據(jù)包括有毒“poison”(例如,涉及藥品的群集)的群集使用控制分?jǐn)?shù)做出類似的分析。如果在涉及藥品的群集中的術(shù)語的模糊查詢的可能性很小,將暗示模糊查詢“poison”更有可能涉及樂隊(duì)。
另外,通過將接收來自對藥品感興趣的用戶相對于對音樂感興趣的用戶的可能模糊查詢的可能性進(jìn)行比較,可以推斷用戶意圖。例如,假設(shè)來自對音樂感興趣的用戶的查詢的29%為僅包括表演者姓名的單個(gè)單元查詢,而來自對藥品感興趣的用戶的查詢只有2%包括單個(gè)單元。這可以推斷出輸入單個(gè)單元查詢“poison”的用戶更可能對樂隊(duì)感興趣。
將意識到,也可以使用該分析的更復(fù)雜改變。例如,不是僅使用一個(gè)表演者來計(jì)算控制分?jǐn)?shù),可以使用更多表演者(例如,不僅是“Britney Spears”而且包括“matchbox twenty”、“Johnny Cash”等)。類似地,不是只考慮一個(gè)模糊解析術(shù)語,可以使用多個(gè)術(shù)語(例如,不僅是“l(fā)yrics”而且包括“mp3”、“tour”、“album”等)。也可以將類似的分析用于其它模糊術(shù)語和其它群集。
作為第五實(shí)例,假設(shè)用戶輸入查詢“digital cameras”。用戶可能在尋找出售數(shù)字相機(jī)的站點(diǎn)或?qū)ふ谊P(guān)于數(shù)字相機(jī)的信息(例如產(chǎn)品評論)。可以使用沿著多個(gè)維度的先前查詢的傾向分析(包括,例如,用戶簡介和/或垂直維度)來確定哪一個(gè)更可能,因此可以相應(yīng)地修整結(jié)果。
作為第六實(shí)例,在某些實(shí)施例中,搜索服務(wù)器系統(tǒng)160可能根據(jù)傾向信息提出相關(guān)搜索。例如,如果已知小于21的用戶輸入包括歌手姓名的查詢,除了顯示與該歌手相關(guān)的站點(diǎn)的列表,搜索服務(wù)器系統(tǒng)160可能建議涉及通過傾向分析確認(rèn)為在小于21的用戶中流行(例如,“Avril Lavigne”)的一個(gè)或多個(gè)其它歌手的搜索。對于35歲的用戶,可能建議不同的歌手(例如,“Celine Dion”)。在另一個(gè)實(shí)例中,如果“new york city”的查詢在周日被輸入,可能使建議“employment”比建議“hotel”更顯著(如果這與傾向數(shù)據(jù)一致),而如果在周末輸入相同的查詢,可能使用相反的順序。
在一些實(shí)施例中,也可以由搜索服務(wù)器系統(tǒng)160使用傾向數(shù)據(jù),來推斷關(guān)于特定用戶的信息,例如,用戶的可能性別、年齡或地理位置。這種推斷可能涉及將傾向數(shù)據(jù)與由相同用戶輸入的許多查詢進(jìn)行比較,以使用戶行為與不同維度匹配。應(yīng)當(dāng)理解,這些推斷不能保證是精確的;它們反映了用戶如何行動(dòng),而不必反映用戶是誰。可以使用對特定用戶做出的任何推斷,來調(diào)整對由該用戶輸入的另外查詢的響應(yīng),再使用傾向數(shù)據(jù)作為類似用戶意圖的一個(gè)指示。因此,可以使用傾向數(shù)據(jù)定制搜索服務(wù)器對輸入查詢的特定用戶的響應(yīng)。
傾向數(shù)據(jù)也可以連同廣告決策(例如在特定場合顯示哪一個(gè)廣告和/或?yàn)樘囟◤V告放置所收取的價(jià)格)一起由搜索服務(wù)器系統(tǒng)160的提供方使用。
雖然參考特定實(shí)施例描述了本發(fā)明,本領(lǐng)域的技術(shù)人員將認(rèn)識到可能有許多修改。例如,用于傾向分析的維度的數(shù)目和特征以及查詢子集可以改變,并且不是所有收到的查詢需要用于傾向分析??梢詣?dòng)態(tài)地限定群集、簽名和傾向信息,并且可以時(shí)常執(zhí)行傾向分析(例如,每天或每周),以響應(yīng)于變化的用戶行為來更新傾向信息。在其它實(shí)施例中,可以在查詢被收到時(shí)處理它們,因此實(shí)際上實(shí)時(shí)更新群集、簽名和傾向數(shù)據(jù)。在此所描述的自動(dòng)化的系統(tǒng)和方法可以通過對所得到的單元詞典(包括群集、簽名、涉及單元、群集、和簽名的任何或全部的傾向信息等等)的全部或部分的人工檢查(human review)擴(kuò)充或補(bǔ)充。
在此描述的實(shí)施例可以涉及網(wǎng)站、鏈接、和用于其中由萬維網(wǎng)(或其子集)充當(dāng)搜索主體的實(shí)例的其它術(shù)語。應(yīng)當(dāng)理解,在此描述的系統(tǒng)和過程可以被修改用于不同的搜索主體(例如電子數(shù)據(jù)庫或文檔儲存庫),并且結(jié)果可能包括內(nèi)容和可以找到內(nèi)容的位置的鏈接或引用。
因此,雖然已經(jīng)參考特定實(shí)施例描述了本發(fā)明,將意識到本發(fā)明包括權(quán)利要求書所限定的范圍內(nèi)的所有修改及其等價(jià)物。
權(quán)利要求
1.一種用于處理查詢的方法,所述方法包括接收一組先前查詢,其中,每個(gè)所述先前查詢均包括一個(gè)或多個(gè)單元;沿著維度將所述查詢分類成子集;為所述查詢的每個(gè)子集產(chǎn)生一個(gè)或多個(gè)子集專用概念網(wǎng)絡(luò);以及比較來自至少兩個(gè)所述子集的相應(yīng)子集專用概念網(wǎng)絡(luò),從而產(chǎn)生用于單元的傾向信息。
2.根據(jù)權(quán)利要求1所述的方法,其中,所述維度是時(shí)間維度。
3.根據(jù)權(quán)利要求1所述的方法,其中,通過對用戶的一個(gè)或多個(gè)人口統(tǒng)計(jì)學(xué)特征的引用來限定所述維度。
4.根據(jù)權(quán)利要求1所述的方法,其中,所述維度是地理維度。
5.根據(jù)權(quán)利要求1所述的方法,其中,所述維度是表示所述查詢的用戶上下文的垂直維度。
6.根據(jù)權(quán)利要求1所述的方法,進(jìn)一步包括接收后續(xù)查詢;將所述后續(xù)查詢解析成一個(gè)或多個(gè)組成單元;以及在形成對所述后續(xù)查詢的響應(yīng)時(shí)使用所述傾向信息。
7.根據(jù)權(quán)利要求6所述的方法,其中,所述傾向信息用于解析所述查詢的模糊術(shù)語。
8.根據(jù)權(quán)利要求6所述的方法,其中,所述傾向信息用于建議相關(guān)搜索。
9.根據(jù)權(quán)利要求6所述的方法,其中,所述傾向信息用于將響應(yīng)數(shù)據(jù)分組。
10.根據(jù)權(quán)利要求6所述的方法,其中,所述傾向信息用于選擇用于顯示的廣告。
11.一種用于處理查詢的系統(tǒng),包括傾向分析模塊,用于沿著維度將一組查詢分類成多個(gè)子集;以及群集模塊,用于為所述多個(gè)子集中的每一個(gè)產(chǎn)生相應(yīng)概念網(wǎng)絡(luò),其中,所述傾向分析模塊還用于比較用于至少兩個(gè)所述子集的相應(yīng)概念網(wǎng)絡(luò),從而產(chǎn)生傾向信息。
12.根據(jù)權(quán)利要求11所述的系統(tǒng),其中,所述維度是時(shí)間維度。
13.根據(jù)權(quán)利要求11所述的系統(tǒng),其中,所述維度通過對用戶的一個(gè)或多個(gè)人口統(tǒng)計(jì)學(xué)特征的引用來限定。
14.根據(jù)權(quán)利要求11所述的系統(tǒng),其中,所述維度是地理維度。
15.根據(jù)權(quán)利要求11所述的系統(tǒng),其中,所述維度是表示所述查詢的用戶上下文的垂直維度。
16.根據(jù)權(quán)利要求11所述的系統(tǒng),還包括響應(yīng)模塊,用于接收后續(xù)查詢,以將所述后續(xù)查詢解析成一個(gè)或多個(gè)組成單元,并且用于至少部分基于所述傾向信息來形成對所述查詢的響應(yīng)。
17.根據(jù)權(quán)利要求16所述的系統(tǒng),其中,所述響應(yīng)模塊還用于使用所述傾向信息來分析所述查詢的模糊術(shù)語。
18.根據(jù)權(quán)利要求16所述的系統(tǒng),其中,所述響應(yīng)模塊還用于使用所述傾向信息來建議相關(guān)搜索。
19.根據(jù)權(quán)利要求16所述的系統(tǒng),其中,所述響應(yīng)模塊還用于使用所述傾向信息對響應(yīng)數(shù)據(jù)進(jìn)行分組。
20.根據(jù)權(quán)利要求16所述的系統(tǒng),其中,所述響應(yīng)模塊還用于使用所述傾向信息來選擇用于顯示的廣告。
全文摘要
本發(fā)明提供了一種用于處理搜索請求的系統(tǒng)和方法,包括分析所接收到的查詢以提供被搜索信息的更完善理解。在一個(gè)實(shí)施例中,查詢被解析為單元,其中可能包括查詢的一個(gè)或多個(gè)單詞或標(biāo)記,并且單元在概念網(wǎng)絡(luò)中相關(guān)。通過沿著感興趣的維度將查詢分類成子集和比較用于不同子集的概念網(wǎng)絡(luò)來執(zhí)行傾向分析。傾向信息可用于增強(qiáng)自動(dòng)搜索工具對后續(xù)接收到的查詢的響應(yīng)。
文檔編號G06F17/30GK1930566SQ200480036754
公開日2007年3月14日 申請日期2004年11月12日 優(yōu)先權(quán)日2003年11月12日
發(fā)明者希亞姆·卡普爾 申請人:雅虎公司