專利名稱:重排序和提高搜索結(jié)果的相關(guān)性的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及重排序和提高互聯(lián)網(wǎng)搜索結(jié)果的相關(guān)性的技術(shù),更具體地涉及使用概 念網(wǎng)絡(luò)(concept network)提高互聯(lián)網(wǎng)搜索結(jié)果的相關(guān)性并對結(jié)果進(jìn)行重排序的技術(shù)。
背景技術(shù):
隨著互聯(lián)網(wǎng)的出現(xiàn)和用戶可以通過萬維網(wǎng)(網(wǎng)絡(luò))訪問的網(wǎng)頁和媒體內(nèi)容的增 多,需要為用戶提供一種從網(wǎng)絡(luò)過濾和獲取所需信息的改進(jìn)方法。已開發(fā)出了多種搜索系 統(tǒng)和程序來滿足用戶獲取所需信息的需求。通過Yahoo!、G00gle等網(wǎng)站可以接觸到這類 技術(shù)的實例。通常,用戶輸入查詢,搜索程序返回一個或多個與查詢相關(guān)的搜索結(jié)果(鏈 接)。返回的搜索結(jié)果可能與用戶實際上所要查找的內(nèi)容非常相關(guān)或完全無關(guān)。搜索結(jié)果 與查詢的相關(guān)性部分地取決于實際輸入的查詢和所使用的搜索系統(tǒng)(基礎(chǔ)收集系統(tǒng))的穩(wěn) 健性。人類并不能自然地按照查詢的方式來思考。它們部分地是由查詢搜索引擎和查找 圖書館目錄的需求強(qiáng)加給我們的。人類也不能自然地按照單個詞的方式來思考。人類是按 照自然概念的方式來進(jìn)行思考的。搜索查詢通常包括定義一個或多個概念的幾個詞。通常,搜索查詢中的一些詞比 其它詞與定義概念更為相關(guān)。搜索引擎無法獲知搜索查詢中的哪些詞與用戶的意圖最為相 關(guān)。結(jié)果,搜索引擎常常會找到許多與用戶的意圖無關(guān)的搜索結(jié)果。搜索引擎通常根據(jù)搜索結(jié)果與搜索查詢的相關(guān)性來對搜索結(jié)果進(jìn)行排序。搜索查 詢經(jīng)常包括多個會導(dǎo)致搜索引擎返回?zé)o關(guān)的搜索結(jié)果的冗余項。搜索引擎經(jīng)常會將這些無 關(guān)的搜索結(jié)果排列在搜索結(jié)果列表靠前的位置。因此,需要提出一種提高搜索結(jié)果與用戶的最初意圖的相關(guān)性的互聯(lián)網(wǎng)搜索方 法。
發(fā)明內(nèi)容
本發(fā)明提供了一種提高互聯(lián)網(wǎng)搜索結(jié)果與用戶意圖的相關(guān)性的方法。本發(fā)明還提 供了一種通過確定搜索結(jié)果與搜索查詢中的單元、單元聯(lián)合、及單元擴(kuò)展的關(guān)聯(lián)來對搜索 查詢的搜索結(jié)果進(jìn)行重排序的方法。首先,將搜索查詢分解為多個獨(dú)立的單元。每個單元對應(yīng)于一個或多個表示自然 概念的詞。聯(lián)合單元是同時出現(xiàn)在搜索查詢中、但不足夠相關(guān)以形成新單元的兩個或多個 單元。擴(kuò)展單元是同時出現(xiàn)在搜索查詢中、并足夠相關(guān)以形成新單元的兩個或多個單元。本發(fā)明對概念網(wǎng)絡(luò)進(jìn)行分析,以定位與搜索查詢中的單元相關(guān)的概念。概念網(wǎng)絡(luò)將彼此相關(guān)的概念鏈接起來。根據(jù)特定概念與查詢中的單元的關(guān)系,從概念網(wǎng)絡(luò)中選出特 定概念。根據(jù)一個實施例,基于概念在之前提交的搜索查詢中出現(xiàn)的頻繁程度從概念網(wǎng)絡(luò) 選出概念。從選自概念網(wǎng)絡(luò)的概念中選擇在之前的搜索查詢中出現(xiàn)頻率較高的概念。對從 概念網(wǎng)絡(luò)中選出的一個或多個相關(guān)概念執(zhí)行單獨(dú)的互聯(lián)網(wǎng)搜索。將每次單獨(dú)搜索得到的搜索結(jié)果與搜索查詢進(jìn)行比較,并根據(jù)它們與查詢的相關(guān) 性進(jìn)行分類??梢曰谒阉鹘Y(jié)果與最初的搜索查詢中的單元、聯(lián)合單元、及擴(kuò)展單元的相關(guān) 性對搜索結(jié)果進(jìn)行分類。通過下面的詳細(xì)描述和附圖,本發(fā)明的其它目的、特征、和優(yōu)點(diǎn)將變得顯而易見, 其中,貫穿所有的附圖,相同的參考標(biāo)號表示相似的特征。
圖IA是能夠?qū)崿F(xiàn)本發(fā)明實施例的互聯(lián)網(wǎng)通信系統(tǒng)的示意圖;圖IB是能夠?qū)崿F(xiàn)本發(fā)明實施例的互聯(lián)網(wǎng)搜索系統(tǒng)的示意圖;圖2是示出根據(jù)本發(fā)明實施例的提高互聯(lián)網(wǎng)搜索結(jié)果的相關(guān)性的方法的流程圖; 以及圖3A至3D示出了根據(jù)本發(fā)明的能夠用于處理搜索查詢的概念網(wǎng)絡(luò)的實例。
具體實施例方式圖IA示出了根據(jù)本發(fā)明實施例的包括客戶系統(tǒng)120的信息檢索和通信網(wǎng)絡(luò)100 的總體視圖。在計算機(jī)網(wǎng)絡(luò)100中,客戶系統(tǒng)120可以通過互聯(lián)網(wǎng)140或其它通信網(wǎng)絡(luò)(例 如,通過任意的LAN或WAN連接)與多個服務(wù)器系統(tǒng)MO1至15(^通信。例如,客戶系統(tǒng)120 可以與搜索結(jié)果服務(wù)器160通信。如本文所述,根據(jù)本發(fā)明的客戶系統(tǒng)120用于與服務(wù)器 系統(tǒng)MO1至150n和160中的任意一個通信,以訪問、接收、檢索、以及顯示媒體內(nèi)容和諸如 網(wǎng)頁和網(wǎng)站的其他信息。圖IA所示系統(tǒng)中的多個元件包括不必在這里詳細(xì)說明的傳統(tǒng)公知元件。例如,客 戶系統(tǒng)120可以包括桌上型個人計算機(jī)、工作站、膝上型電腦、PDA、行動電話、或任何WAP使 能(WAP-enabled)裝置、或任何其它的能夠直接或間接地連接互聯(lián)網(wǎng)的計算裝置??蛻粝?統(tǒng)120通常運(yùn)行允許客戶系統(tǒng)120的用戶訪問、處理、及瀏覽其能夠通過互聯(lián)網(wǎng)140從服務(wù) 器系統(tǒng)1501至1501<獲取的信息和頁面的HTTP客戶程序,例如,微軟的Internet Explorer 瀏覽器、Netscape Navigator 瀏覽器、Mozilla 瀏覽器、Opera瀏覽器,或移動電話、PDA、 或其它無線裝置中的WAP使能瀏覽器等瀏覽程序??蛻粝到y(tǒng)120通常還包括一個或多個諸如鍵盤、鼠標(biāo)、觸摸屏、筆等的用戶接口裝 置122,用于與由顯示器(例如,監(jiān)視屏、LCD顯示器等)上的瀏覽器提供的圖形用戶界面 (GUI)、以及由服務(wù)器系統(tǒng)ISO1至150n及其它服務(wù)器提供的頁面、表格、及其它信息進(jìn)行交 互。本發(fā)明適用于互聯(lián)網(wǎng)(稱為特定全球互聯(lián)網(wǎng))。但是,應(yīng)該理解,可以使用其它網(wǎng)絡(luò)來 代替互聯(lián)網(wǎng)或?qū)⑵渌W(wǎng)絡(luò)和互聯(lián)網(wǎng)一起使用,例如,內(nèi)聯(lián)網(wǎng)、外聯(lián)網(wǎng)、虛擬專用網(wǎng)絡(luò)(VPN)、 非基于TCP/IP的網(wǎng)絡(luò)、以及任何LAN或WAN等。根據(jù)一個實施例,客戶系統(tǒng)120及其所有的組成部分都是能夠使用包括計算機(jī)代碼的應(yīng)用程序進(jìn)行配置的運(yùn)算符。其中,可以使用諸如Intel Pentium 處理器、AMD Athlon 處理器等、或多個處理器的中央處理單元來運(yùn)行計算機(jī)代碼。優(yōu)選地,將用于操作 和配置本文中描述的用于通訊、處理、及顯示數(shù)據(jù)和媒體內(nèi)容的客戶系統(tǒng)120的計算機(jī)代 碼下載并存儲在硬盤上,但是也可以將整個程序代碼或其多個部分存儲在任何公知的其它 易失性、或非易失性存儲介質(zhì)或裝置(例如,ROM或RAM)中,或設(shè)置在其它任何可以存儲程 序代碼的介質(zhì)(例如,壓縮磁盤(⑶)介質(zhì)、數(shù)字多功能磁盤(DVD)介質(zhì)、軟盤等)上。另外,可以使用任何公知的通信介質(zhì)和協(xié)議(例如,TCP/IP、HTTP、HTTPS,以太網(wǎng) 等),通過公知的互聯(lián)網(wǎng)或其他傳統(tǒng)的網(wǎng)絡(luò)連接(例如,外聯(lián)網(wǎng)、VPN、LAN等)將整個程序 代碼或其多個部分從軟件源(例如,服務(wù)器系統(tǒng)MO1至150n)傳送并下載至客戶系統(tǒng)120。 還應(yīng)理解,用于實現(xiàn)本發(fā)明的多個方面的計算機(jī)代碼可以通過任何能夠在客戶系統(tǒng)上執(zhí)行 的程序語言實現(xiàn),例如,通過C、C+、HTML、XML、Java、JavaScript、任何scripting語言(例 如VBScript)實現(xiàn)。在一些實施例中,不向客戶系統(tǒng)120下載任何代碼,而是通過服務(wù)器來 執(zhí)行所需的代碼,或執(zhí)行客戶系統(tǒng)120已經(jīng)存在的代碼。根據(jù)一個實施例,在客戶系統(tǒng)120上執(zhí)行的客戶應(yīng)用程序(由模塊125表示)包 括用于控制客戶系統(tǒng)120及其組件與服務(wù)器系統(tǒng)ISO1至150n和160進(jìn)行通信以及處理和 顯示從服務(wù)器系統(tǒng)接收到的數(shù)據(jù)內(nèi)容的指令。另外,客戶應(yīng)用程序模塊125包括用于處理 數(shù)據(jù)和媒體內(nèi)容的各種軟件模塊。例如,應(yīng)用程序模塊125可以包括一個或多個搜索模 塊126,用于處理搜索請求和搜索結(jié)果數(shù)據(jù);用戶界面模塊127,用于以文本、數(shù)據(jù)幀、以及 活動窗口(例如,瀏覽器窗口和對話框)的形式呈現(xiàn)數(shù)據(jù)和媒體內(nèi)容;以及應(yīng)用程序接口模 塊128,用于與客戶系統(tǒng)120上執(zhí)行的各種應(yīng)用程序連接和通信。另外,界面模塊127可以 包括瀏覽器,例如,客戶系統(tǒng)120上設(shè)置的默認(rèn)瀏覽器或其他瀏覽器。根據(jù)一個實施例,搜索結(jié)果服務(wù)器160用于向客戶系統(tǒng)120提供搜索結(jié)果數(shù)據(jù)和 媒體內(nèi)容,服務(wù)器系統(tǒng)150用于(例如)響應(yīng)于從服務(wù)器系統(tǒng)160提供的搜索結(jié)果頁面中 選出的鏈接而向客戶系統(tǒng)120提供諸如網(wǎng)頁的數(shù)據(jù)和媒體內(nèi)容。一個實施例中的服務(wù)器系 統(tǒng)160涉及用于從萬維網(wǎng)收集信息和用于將一個或多個索引與(例如)一個或多個頁面以 及頁面的鏈接等連接起來的收集方法。該收集方法包括自動網(wǎng)頁爬蟲(web crawler)、蜘蛛 (spider)等,也包括手動或半自動的用于在分級結(jié)構(gòu)中對網(wǎng)頁進(jìn)行分類和排序的分類算法 和界面。在某些方面,服務(wù)器160還配置有用于對網(wǎng)頁進(jìn)行處理和排序的搜索相關(guān)算法,例 如,Google的PageRank算法。服務(wù)器160還優(yōu)選地用于以查詢?nèi)罩疚募男问接涗浰阉?查詢。一方面,服務(wù)器160用于響應(yīng)于從客戶系統(tǒng)(特別是搜索模塊126)接收的各種搜 索請求而提供數(shù)據(jù)。服務(wù)器系統(tǒng)150和160可以是單個組織的一部分,例如,Yahoo ! Inc. 提供給用戶的分布式服務(wù)器系統(tǒng)(distributed server system),或者它們可以是完全不 同的組織的部分。服務(wù)器系統(tǒng)150和服務(wù)器系統(tǒng)160分別包括至少一個服務(wù)器和相關(guān)的數(shù) 據(jù)庫系統(tǒng),并且可以包括多個服務(wù)器和相關(guān)的數(shù)據(jù)庫系統(tǒng),并且雖然以單個框示出,但是在 地理上可以是分開的。例如,服務(wù)器系統(tǒng)160的所有服務(wù)器可以彼此緊鄰(例如,位于一個 單獨(dú)的建筑物或校園內(nèi)的服務(wù)器區(qū)中),或者可以彼此分布得很遠(yuǎn)(例如,位于城市A中的 一個或多個服務(wù)器以及位于城市B中的一個或多個服務(wù)器)。本文中使用的術(shù)語“服務(wù)器 系統(tǒng)”通常包括本地分布的或越過一個或多個地理位置的一個或多個邏輯上和/或物理上連接的服務(wù)器。另外,術(shù)語“服務(wù)器”通常包括本領(lǐng)域公知的計算機(jī)系統(tǒng)、相關(guān)的存儲系統(tǒng)、 以及數(shù)據(jù)庫應(yīng)用程序。本文中的術(shù)語“服務(wù)器”和“服務(wù)器系統(tǒng)”可以交換使用。根據(jù)一個實施例,服務(wù)器160包括響應(yīng)于從容戶系統(tǒng)120接收的搜索查詢向用戶 提供搜索結(jié)果的算法。根據(jù)本發(fā)明的實施例,服務(wù)器系統(tǒng)160用于提高從客戶系統(tǒng)120接 收的搜索查詢的相關(guān)性(以下將詳細(xì)討論)。圖IB示出了實現(xiàn)本發(fā)明實施例的互聯(lián)網(wǎng)搜索系統(tǒng)的視圖。將搜索查詢170傳送 至搜索引擎175以啟動互聯(lián)網(wǎng)搜索(例如,網(wǎng)絡(luò)搜索)。搜索引擎175從搜索語料庫(web corpus) 190定位匹配搜索查詢170的網(wǎng)絡(luò)內(nèi)容。搜索語料庫190表示可以通過萬維網(wǎng)、互 聯(lián)網(wǎng)、內(nèi)聯(lián)網(wǎng)、本地網(wǎng)、及廣域網(wǎng)訪問的內(nèi)容。搜索引擎175從搜索語料庫190檢索匹配搜索查詢170的內(nèi)容,并將匹配的內(nèi)容 (即,搜索結(jié)果)傳送至頁面匯編程序180。頁面匯編程序180根據(jù)搜索結(jié)果與搜索查詢的 相關(guān)性對搜索結(jié)果進(jìn)行分類,并以便于向用戶顯示的順序?qū)Y(jié)果進(jìn)行匯編。在搜索結(jié)果顯 示屏幕185中向用戶顯示最相關(guān)的搜索結(jié)果。本發(fā)明提供了提高互聯(lián)網(wǎng)搜索結(jié)果與用戶意圖的相關(guān)性的方法。圖2示出了根據(jù) 本發(fā)明實施例的方法的實例。應(yīng)該理解,圖2所示的具體步驟并不用于限制本發(fā)明的范圍。 對圖2所示方法的各種修改都處于本發(fā)明的范圍之內(nèi)。用戶可以通過輸入搜索查詢啟動互聯(lián)網(wǎng)搜索(例如,網(wǎng)絡(luò)搜索)。如圖2所示,本 發(fā)明的系統(tǒng)在步驟221接收來自用戶的搜索查詢。在步驟222,將搜索查詢分解成多個單兀??梢詫⑺阉鞑樵兎纸鉃槎鄠€組成部分(稱作單元)。查詢處理引擎使用統(tǒng)計學(xué)方 法將搜索查詢分解為多個單元。單元是一個或多個詞的序列,通常對應(yīng)于自然概念,如“紐 約市”或“捕食的鳥”。從搜索查詢生成概念單元的方法的進(jìn)一步細(xì)節(jié)在未決的、共同轉(zhuǎn)讓 給(co-pending and commonly-assigned) Shyam Kapur 的、于 2003 年 11 月 12 臼提交的美 國專利申請10/713,576中討論,其內(nèi)容結(jié)合于此作為參考。概念網(wǎng)絡(luò)是用于說明相關(guān)概念之間的關(guān)系的結(jié)構(gòu)。搜索查詢中的每個單元都位于 概念網(wǎng)絡(luò)中。概念網(wǎng)絡(luò)用于識別與搜索查詢單元相關(guān)的概念。當(dāng)搜索查詢單元已經(jīng)位于概 念網(wǎng)絡(luò)中之后,在步驟223,選出與該單元相關(guān)的概念網(wǎng)絡(luò)中的概念。概念網(wǎng)絡(luò)可以使用許多方法來連接相關(guān)概念。根據(jù)本發(fā)明的一個實施例,概念網(wǎng) 絡(luò)對作為同義詞的概念、具有更具體意義的概念、具有更一般意義的概念、概念的具體實際 生活實例、以及發(fā)音類似于概念或使用一些相同詞的公知術(shù)語或名字進(jìn)行連接。使用圖3A所示的實例,如果搜索查詢中的單元是摩天樓,則系統(tǒng)在概念網(wǎng)絡(luò)中定 位概念“摩天樓”并識別相關(guān)概念。圖3A示出了用于“摩天樓”的概念網(wǎng)絡(luò)的實例。在這 個概念網(wǎng)絡(luò)中,將概念“摩天樓”連接至諸如“建筑”和“大廈”的更一般的術(shù)語。還將“摩 天樓”連接至相似的術(shù)語“高層建筑”和摩天樓的著名實例“帝國大廈”。根據(jù)另一個實施例,分析先前提交的搜索查詢以確定概念網(wǎng)絡(luò)中的相關(guān)概念在先 前提交的搜索查詢中同時出現(xiàn)的頻繁程度。可以通過連接在先前提交的搜索查詢中同時出 現(xiàn)的概念來構(gòu)建概念網(wǎng)絡(luò)。在步驟223,從概念網(wǎng)絡(luò)中選出在之前提交的搜索查詢中同時出 現(xiàn)最頻繁的相關(guān)概念。將所有之前提交的搜索查詢都存儲在存儲器中,用作分析。概念網(wǎng)絡(luò)可以基于同時出現(xiàn)在所有用戶提交的查詢中的概念。作為另一個實例,概念網(wǎng)絡(luò)或其任何部分可以是連接一個特定用戶(或一組用戶)提交的搜索查詢中同時出 現(xiàn)的概念的基于會話(session)的概念網(wǎng)絡(luò)。在步驟223,選出在之前提交的搜索查詢中同 時出現(xiàn)最頻繁的相關(guān)概念。圖3B示出了基于會話的概念網(wǎng)絡(luò)的實例。在圖3B中,由于特定用戶在過去已經(jīng) 提交了將“美洲虎”連接至汽車相關(guān)概念的查詢,所以將主概念“美洲虎”連接至相關(guān)概念 “豪華汽車”、“XYZ汽車公司”、及“車賽”。不同的用戶(例如)可能提交了表示他對美洲虎 動物感興趣的在先查詢。對于該用戶,本發(fā)明創(chuàng)建將“美洲虎”連接至諸如貓、動物園、或狩 獵旅行的動物相關(guān)概念的不同概念網(wǎng)絡(luò)。根據(jù)本發(fā)明的另一個實施例,概念網(wǎng)絡(luò)可以將一個或多個用戶在特定時間內(nèi)遞交 的先前查詢中同時出現(xiàn)最頻繁的概念連接起來。圖3C示出了時間限制概念網(wǎng)絡(luò)的實例。在 該實例中,將概念“JaneDoe”連接至相關(guān)概念“Jane Doe現(xiàn)場演出”、“Jane Doe音樂⑶”、 及“樂器音樂”。這些相關(guān)概念是在特定時間間隔內(nèi)在先前的搜索查詢中與“Jone Doe”同 時出現(xiàn)最頻繁的概念。特定時間間隔可以是(例如)過去的24小時、過去的一周、或過去 的一個月。在圖3C的實例中,概念網(wǎng)絡(luò)是以基于在過去24小時中最流行的搜索查詢的與名 為Joe Doe的歌手相關(guān)的概念為基礎(chǔ)的。在接下來的24小時內(nèi),可以將包括“Jane Doe”的 最流行的搜索查詢與具有相同名字的政治家相關(guān)聯(lián)。圖3D示出了如何將用于“Jane Doe” 的概念網(wǎng)絡(luò)變?yōu)榘ǖ较嚓P(guān)概念“Jane Doe美國參議員”和“Doe立法提案權(quán)”的連接的概 念網(wǎng)絡(luò)。更新概念網(wǎng)絡(luò),以使其包括在最近的具有單元“Jane Doe”的查詢中出現(xiàn)最頻繁的 概念。根據(jù)本發(fā)明的實施例,從概念網(wǎng)絡(luò)中選出最緊密相關(guān)的概念。最緊密相關(guān)的概念 可以是(例如)直接連接至概念網(wǎng)絡(luò)中的主概念的所有概念。其它概念可以通過直接連接 的概念之一間接連接至主概念。圖3C示出了通過“樂器音樂”連接的概念“Jane Doe”和 “小提琴”之間的間接連接的實例。圖3A至圖3D僅示出了連接概念網(wǎng)絡(luò)中的概念的關(guān)系的幾個實例。提供的這些實 例僅用于闡述的目的,而不用于限制本發(fā)明的范圍。概念網(wǎng)絡(luò)中的多個概念之間也可能存 在許多其它的關(guān)系。在步驟223執(zhí)行的選擇處理可以基于任意標(biāo)準(zhǔn)。例如,可以在步驟223從概念網(wǎng) 絡(luò)中選出出現(xiàn)最頻繁的前5個相關(guān)概念。在另一個實例中,在步驟223選出出現(xiàn)最頻繁的 前50%或前25%的相關(guān)概念。根據(jù)本發(fā)明,可以使用許多其它的選擇方法。本文中討論的 實例用于闡述本發(fā)明的原理,而不用于限制本發(fā)明的范圍。在步驟224,對在步驟223選出的相關(guān)概念中的一個或多個執(zhí)行獨(dú)立的互聯(lián)網(wǎng)搜 索(例如,網(wǎng)絡(luò)搜索)。例如,如果搜索查詢中存在4個單元,并且在步驟223為每個單元 選出了一個相關(guān)概念,則在步驟224執(zhí)行4個獨(dú)立的互聯(lián)網(wǎng)搜索。根據(jù)一個實施例,如果在 步驟223選出了大量的相關(guān)概念,則只對這些概念的子集執(zhí)行互聯(lián)網(wǎng)搜索。例如,如果在步 驟223選出了 20個概念,則只對與搜索查詢中的所有單元相關(guān)的前5個概念執(zhí)行互聯(lián)網(wǎng)搜 索。搜索引擎175可以對在步驟223選出的概念執(zhí)行獨(dú)立的互聯(lián)網(wǎng)搜索??梢允褂萌?何公知的互聯(lián)網(wǎng)搜索方法(例如,使用Google或Yahoo !搜索方法)執(zhí)行互聯(lián)網(wǎng)搜索。
對搜索引擎175在步驟224執(zhí)行的單獨(dú)互聯(lián)網(wǎng)搜索中的每一個檢索單獨(dú)的搜索結(jié) 果組。搜索引擎175通常根據(jù)搜索結(jié)果與每個相關(guān)概念的相關(guān)性來對每個互聯(lián)網(wǎng)搜索的搜 索結(jié)果進(jìn)行分類。在步驟225,本發(fā)明對在步驟224執(zhí)行的互聯(lián)網(wǎng)搜索中檢索到的搜索結(jié)果進(jìn)行重 排序??梢詫⒒ヂ?lián)網(wǎng)搜索中檢索到的搜索結(jié)果與對整個原始搜索查詢執(zhí)行的互聯(lián)網(wǎng)搜索中 檢索到的搜索結(jié)果組合在一起。將每個搜索結(jié)果與原始搜索查詢中的單元、單元聯(lián)合、及單元擴(kuò)展進(jìn)行比較?;?搜索結(jié)果與原始搜索查詢的相關(guān)性,為每個搜索結(jié)果分配層級或分?jǐn)?shù)。通過對搜索結(jié)果和搜索查詢中的單元、聯(lián)合單元、及擴(kuò)展單元進(jìn)行比較,可以確定 搜索結(jié)果與原始搜索查詢的相關(guān)性。聯(lián)合單元是同時出現(xiàn)在搜索查詢中、但不足夠相關(guān)而 形成新單元的兩個或多個單元。擴(kuò)展單元是同時出現(xiàn)在搜索查詢中、且足夠相關(guān)而形成新 單元的兩個或多個單元。分析搜索結(jié)果,以確定來自搜索查詢的單元、單元聯(lián)合、及單元擴(kuò)展在搜索結(jié)果中 出現(xiàn)的頻率?;趩卧⒙?lián)合單元、和/或擴(kuò)展單元的實例在搜索結(jié)果中出現(xiàn)的頻率(或相 對頻率),為搜索結(jié)果分配新的分?jǐn)?shù)。給包括較多的單元、聯(lián)合單元、和/或擴(kuò)展單元的實例 的搜索結(jié)果分配較高的分?jǐn)?shù)。根據(jù)本發(fā)明的實施例,對在互聯(lián)網(wǎng)搜索中檢索到的搜索結(jié)果進(jìn)行重排序。根據(jù)重 排序處理,將重排序分?jǐn)?shù)分配給每個搜索結(jié)果。例如,可以通過將搜索引擎175分配的原始 層級分?jǐn)?shù)與基于搜索結(jié)果中的查詢單元、聯(lián)合單元、及擴(kuò)展單元的頻率而計算出的新分?jǐn)?shù) 相乘,來計算重排列分?jǐn)?shù)。然后基于重排序分?jǐn)?shù)對搜索結(jié)果進(jìn)行分類。在步驟225中,給從某些類型的搜索查詢中接收的搜索結(jié)果分配較高的分?jǐn)?shù)。例 如,可以對在導(dǎo)航查詢(navigational query)中檢索到的搜索結(jié)果分配高于在其它類型的 查詢中檢索到的搜索結(jié)果的層級。給導(dǎo)航查詢更高的分?jǐn)?shù)是基于導(dǎo)航查詢通常能夠檢索到 更為相關(guān)的搜索結(jié)果的公識。一旦基于搜索結(jié)果與原始搜索查詢的相關(guān)性而為每個搜索結(jié)果分配了重排序分 數(shù),則在步驟225根據(jù)從最高的重排序分?jǐn)?shù)到最低的重排序分?jǐn)?shù)的順序?qū)λ阉鹘Y(jié)果進(jìn)行分 類。最高的重排序分?jǐn)?shù)表示該內(nèi)容與原始搜索查詢最為相關(guān),最低的重排序分?jǐn)?shù)表示該內(nèi) 容與原始搜索查詢最不相關(guān)。本發(fā)明通過對與搜索查詢中的單元相關(guān)的概念匹配的內(nèi)容進(jìn)行定位,提高了在互 聯(lián)網(wǎng)搜索中檢索到的搜索結(jié)果的相關(guān)性。如上所述,從概念網(wǎng)絡(luò)中選出多個概念。然后,將 搜索結(jié)果與來自基于整個搜索查詢的標(biāo)準(zhǔn)互聯(lián)網(wǎng)搜索的搜索結(jié)果相結(jié)合,并根據(jù)搜索結(jié)果 與搜索查詢的相關(guān)性對搜索結(jié)果進(jìn)行分類。通過使用概念網(wǎng)絡(luò)提高搜索結(jié)果的數(shù)量,使得至少一部分搜索結(jié)果很可能與搜索 查詢以及用戶意圖高度相關(guān),而不論用戶意圖是什么。因為基于搜索結(jié)果與查詢的相關(guān)性 來對搜索結(jié)果進(jìn)行分類,所以最先顯示最相關(guān)的結(jié)果。使用這些方法,本發(fā)明能夠識別出大 量的相關(guān)搜索結(jié)果。盡管此處參考本發(fā)明的具體實施例來描述本發(fā)明,但是可以對本發(fā)明進(jìn)行大量的 改變、變化、及替換。在一些實例中,在不偏離上述的本發(fā)明的范圍的條件下,可以不使用相 應(yīng)特征而實現(xiàn)本發(fā)明的一些特征。因此,在不偏離本發(fā)明的實質(zhì)范圍和精神的條件下,可以對本文中公開的具體配置和方法進(jìn)行多種改變。本發(fā)明不限于所公開的具體實施例,而可 以包括所有落入權(quán)利要求范圍內(nèi)的實施例和等價物。
權(quán)利要求
一種提高在搜索中檢索到的搜索結(jié)果的相關(guān)性的方法,所述方法包括識別搜索查詢中的一個或多個單元;選出概念網(wǎng)絡(luò)中的與所述搜索查詢中的所述一個或多個單元相關(guān)的一個或多個特定概念,其中所述概念網(wǎng)絡(luò)包括多個概念;其中,所述一個或多個特定概念少于所述概念網(wǎng)絡(luò)中的全部概念;基于所述一個或多個特定概念中的至少一個執(zhí)行搜索,以檢索出多個搜索結(jié)果,其中,所述多個搜索結(jié)果中的每一個搜索結(jié)果都與排序有關(guān);以及基于所述多個搜索結(jié)果與所述搜索查詢的相關(guān)性,對所述多個搜索結(jié)果進(jìn)行分類。
2.根據(jù)權(quán)利要求1所述的方法,其中,選出所述概念網(wǎng)絡(luò)中的所述一個或多個特定概 念包括從所述概念網(wǎng)絡(luò)中選出相對于所述概念網(wǎng)絡(luò)中的其他概念而言,在在先提交的搜索查 詢中出現(xiàn)更為頻繁的一個或多個概念。
3.根據(jù)權(quán)利要求1所述的方法,其中,選出所述概念網(wǎng)絡(luò)中的所述一個或多個特定概 念包括從所述概念網(wǎng)絡(luò)中選出與所述一個或多個單元最為相關(guān)的預(yù)訂數(shù)目的概念。
4.根據(jù)權(quán)利要求1所述的方法,其中,選出所述概念網(wǎng)絡(luò)中的所述一個或多個特定概 念包括從所述概念網(wǎng)絡(luò)中選出直接鏈接至所述一個或多個單元的所有概念。
5.根據(jù)權(quán)利要求1所述的方法,其中,選出所述概念網(wǎng)絡(luò)中的所述一個或多個特定概 念包括從所述概念網(wǎng)絡(luò)中選出與所述一個或多個單元是同義詞的一個或多個特定概念。
6.根據(jù)權(quán)利要求1所述的方法,其中,選出所述概念網(wǎng)絡(luò)中的所述一個或多個特定概 念包括從所述概念網(wǎng)絡(luò)中選出直接鏈接至所述一個或多個單元的至少一個概念。
7.根據(jù)權(quán)利要求1所述的方法,其中,對在所述搜索中檢索到的所述多個搜索結(jié)果進(jìn) 行重排序還包括基于所述搜索查詢中的所述一個或多個單元在所述多個搜索結(jié)果的各個搜索結(jié)果中 出現(xiàn)的頻繁程度,為所述多個搜索結(jié)果中的各個搜索結(jié)果分配重排序分?jǐn)?shù)。
8.根據(jù)權(quán)利要求7所述的方法,其中,每個所述重排序分?jǐn)?shù)包括對所述一個或多個概 念中的每個概念執(zhí)行搜索的搜索引擎所分配的層級分?jǐn)?shù)的貢獻(xiàn)。
9.根據(jù)權(quán)利要求1所述的方法,其中,對在所述搜索中檢索到的所述多個搜索結(jié)果進(jìn) 行重排序還包括基于所述搜索查詢中的一個或多個擴(kuò)展單元在所述多個搜索結(jié)果的各個搜索結(jié)果中 出現(xiàn)的頻繁程度,為所述多個搜索結(jié)果中的各個搜索結(jié)果分配重排序分?jǐn)?shù)。
10.根據(jù)權(quán)利要求9所述的方法,其中,對在所述搜索中檢索到的所述多個搜索結(jié)果進(jìn) 行重排序還包括基于所述重排序分?jǐn)?shù)的值,對所述搜索結(jié)果進(jìn)行分類。
11.根據(jù)權(quán)利要求1所述的方法,其中,對在所述搜索中檢索到的所述多個搜索結(jié)果進(jìn) 行重排序還包括為從導(dǎo)航查詢檢索到的搜索結(jié)果分配高于在其它類型的查詢中檢索到的搜索結(jié)果的層級。
全文摘要
本發(fā)明提出了一種用于重排序和提高互聯(lián)網(wǎng)搜索的結(jié)果的相關(guān)性的方法。首先將搜索查詢分解為多個獨(dú)立的單元。每個單元對應(yīng)于一個或多個表示自然概念的詞。對概念網(wǎng)絡(luò)進(jìn)行分析,以定位與搜索查詢中的單元相關(guān)的概念。從概念網(wǎng)絡(luò)選出特定概念。對每個選出的概念執(zhí)行獨(dú)立的互聯(lián)網(wǎng)搜索。將從這些搜索得出的搜索結(jié)果與原始搜索查詢中的單元進(jìn)行比較,并根據(jù)它們與原始搜索查詢的相關(guān)性對搜索結(jié)果進(jìn)行分級。
文檔編號G06F17/30GK101882149SQ20101019047
公開日2010年11月10日 申請日期2006年3月10日 優(yōu)先權(quán)日2005年3月10日
發(fā)明者吉格納舒·帕里克, 希亞姆·卡普爾 申請人:雅虎公司