欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

多個(gè)查詢修訂模型的集成的制作方法

文檔序號(hào):6553812閱讀:199來源:國知局
專利名稱:多個(gè)查詢修訂模型的集成的制作方法
技術(shù)領(lǐng)域
本發(fā)明通常涉及信息檢索系統(tǒng),并且更具體地涉及用于修訂用 戶查詢的系統(tǒng)架構(gòu)。
背景技術(shù)
信息檢索系統(tǒng)(例如因特網(wǎng)搜索引擎) 一般能夠快速地提供通 常與用戶的查詢相關(guān)的文檔。搜索引擎可以使用詞語和文檔頻率的 各種統(tǒng)計(jì)量度,以及文檔之間和詞語之間的關(guān)聯(lián),以便確定文檔與 查詢的相關(guān)性。大多數(shù)搜索引擎設(shè)計(jì)下的關(guān)鍵技術(shù)假設(shè)是用戶查詢 準(zhǔn)確地表示用戶的期望的信息目標(biāo)。
事實(shí)上,用戶通常難以表示出良好的查詢。單個(gè)查詢經(jīng)常不能 提供期望的結(jié)果,并且用戶頻繁地輸入關(guān)于同 一主題的多個(gè)不同的
查詢。這些多個(gè)查詢將通常地包括查詢?cè)~語的寬度(breadth)和特征中 的變化、猜測(cè)的實(shí)體名稱、詞序、詞的數(shù)量等等的改變。因?yàn)椴煌?的用戶廣泛地具有各種能力來成功地修訂他們的查詢,已經(jīng)提出了 各種自動(dòng)的查詢修訂方法。
最通常地,查詢精化(refinement)用于從較一般的查詢中自動(dòng) 地生成較精確的(即較窄的)查詢。當(dāng)用戶輸入過寬的查詢時(shí),其 前面的結(jié)果包括關(guān)于用戶的信息需要的文檔的超集,主要使用查詢 精化。例如,想要關(guān)于三菱格蘭(Galant)汽車信息的用戶可能輸入查 詢"三菱,,,該查詢過于寬泛,因?yàn)槠浣Y(jié)果將包含許多不同的三菱 公司,而不僅僅是汽車公司。由此,將期望對(duì)該查詢精化(盡管在 此是困難的,因?yàn)槿鄙儆糜诖_定用戶的特定信息需要的附加上下 文)。
然而,當(dāng)用戶輸入過于具體的查詢時(shí),其中正確修訂將加寬查 詢,或者當(dāng)前面的結(jié)果與用戶的信息需要不相關(guān)時(shí),查詢精化并不 有用。例如,查詢"三菱格蘭(Galant)信息,,可能因?yàn)樵~語"信息" 而導(dǎo)致較差的結(jié)果(在這種情況下,關(guān)于三菱格蘭(Galant)汽車的結(jié) 果太少)。在這種情況下,正確修訂用來加寬對(duì)"三菱格蘭(Galant)" 的查詢。由此,盡管查詢修訂在某些情況下起作用,但是在很多情 況下,需要通過使用其他查詢修訂技術(shù)來最好地滿足用戶的信息需 要。
另一查詢修訂策略使用同義詞列表或者詞典以擴(kuò)展查詢,從而
捕捉用戶的潛在信息需要。然而,與查詢精化一樣,查詢擴(kuò)展不總 是修訂查詢的適合方式,并且結(jié)果的質(zhì)量非常依賴于查詢?cè)~語的上 下文。
因?yàn)樵诿總€(gè)實(shí)例中沒有 一 種查詢修訂技術(shù)可以提供期望的結(jié) 果,所以期望具有一種方法,其提供多個(gè)不同的查詢修訂方法(或 者策略)。

發(fā)明內(nèi)容
信息檢索系統(tǒng)包括提供多個(gè)不同查詢修訂器(reviser)的查詢修 訂架構(gòu),其中每個(gè)修訂器實(shí)現(xiàn)其自己的查詢修訂策略。每個(gè)查詢修 訂器評(píng)估用戶查詢以確定用戶查詢的 一個(gè)或者多個(gè)潛在修訂的查 詢。修訂服務(wù)器與查詢修訂器交互作用以獲得潛在修訂的查詢。修 訂服務(wù)器還與信息檢索系統(tǒng)中的搜索引擎交互作用,以針對(duì)每個(gè)潛 在修訂的查詢獲得搜索結(jié)果集。修訂服務(wù)器選擇 一 個(gè)或者多個(gè)修訂 的查詢,用于與針對(duì)每個(gè)選擇的修訂的查詢的搜索結(jié)果的子集 一 起 呈現(xiàn)給用戶。由此用戶能夠查看針對(duì)修訂的查詢的搜索結(jié)果的質(zhì)量, 并且然后選擇修訂的查詢之一 以獲得針對(duì)修訂的查詢的搜索結(jié)果全 集。
接下來參照各個(gè)附圖、圖表以及技術(shù)信息對(duì)本發(fā)明進(jìn)行描述。 附圖僅出于示意的目的描繪了本發(fā)明的各種實(shí)施方式。根據(jù)以下描 述本領(lǐng)域的技術(shù)人員將容易地認(rèn)識(shí)到在不偏離本發(fā)明原理的前提 下,可以采用所示出和描述的結(jié)構(gòu)、方法以及功能的可選實(shí)施方式。


圖1 a是提供查詢修訂的信息檢索系統(tǒng)實(shí)施方式的整體系統(tǒng)圖; 圖lb是可選的信息檢索系統(tǒng)的整體系統(tǒng)圖; 圖2是原始用戶查詢的示例結(jié)果頁面的圖示; 圖3是示例修訂查詢頁面的圖示。
具體實(shí)施方式
系統(tǒng)概述
圖la示出了根據(jù)本發(fā)明的一個(gè)實(shí)施方式的系統(tǒng)100。系統(tǒng)100 包括前端服務(wù)器102、搜索引擎104以及相關(guān)聯(lián)的內(nèi)容服務(wù)器106、 修訂服務(wù)器107以及多個(gè)查詢修訂器108。在操作期間,用戶經(jīng)由傳 統(tǒng)客戶端118通過網(wǎng)絡(luò)(諸如因特網(wǎng),未示出)訪問系統(tǒng)100,其在 任意類型的客戶端計(jì)算設(shè)備上操作,例如執(zhí)行瀏覽器應(yīng)用或者適合 用于通過因特網(wǎng)相關(guān)協(xié)議(例如TCP/IP以及HTTP )通信的其他應(yīng) 用。盡管僅示出了單個(gè)客戶端118,但是系統(tǒng)IOO可以支持與許多客 戶端的很多個(gè)并發(fā)會(huì)話。在一個(gè)實(shí)施中,系統(tǒng)100在高性能服務(wù)器 類計(jì)算機(jī)上操作,并且客戶端設(shè)備118可以是任何類型的計(jì)算設(shè)備。
已公知,在此不再贅述
前端服務(wù)器102負(fù)責(zé)接收客戶端118提交的搜索查詢。前端服 務(wù)器102向搜索引擎104提供查詢,該搜索引擎根據(jù)搜索查詢來評(píng) 估查詢以取回搜索結(jié)果集,并且將結(jié)果返回前端服務(wù)器102。搜索引 擎104與一個(gè)或者多個(gè)內(nèi)容服務(wù)器106通信以選擇關(guān)于用戶的搜索 查詢的多個(gè)文檔。內(nèi)容服務(wù)器106存儲(chǔ)從不同網(wǎng)站索引(和/或檢索) 的大量文檔??蛇x地或者附加地,內(nèi)容服務(wù)器106存儲(chǔ)在各個(gè)網(wǎng)站 上存儲(chǔ)的文檔的索引。在此將"文檔,,理解為任何形式的可索引內(nèi) 容,包括任何文本或者圖形格式的文本文檔、圖像、視頻、音頻、 多媒體、演示、網(wǎng)頁(其可以包括嵌入的超鏈^接和其他元數(shù)據(jù)和/或
程序,例如以Javascript編寫)等。在一個(gè)實(shí)施方式中,根據(jù)文檔的 鏈接結(jié)構(gòu),對(duì)每個(gè)索引的文檔賦予頁面等級(jí)。頁面等級(jí)作為文檔重 要性的獨(dú)立于查詢的度量。在美國專利No.6,285,999中描述了頁面 等級(jí)的示例性形式,在此通過參考將其并入。基于文檔的頁面等級(jí) (和/或文檔重要性的其他獨(dú)立于查詢的度量)、以及文檔重要性(例 如搜索詞語在文檔中的位置和頻率)的 一 個(gè)或者多個(gè)依賴于查詢的 信號(hào),搜索引擎104對(duì)每個(gè)文檔分配分值。
前端服務(wù)器102還向修訂服務(wù)器107提供查詢。修訂服務(wù)器107 與多個(gè)不同查詢修訂器108進(jìn)行接口連接,其中每個(gè)查詢修訂器108 實(shí)施不同的查詢修訂策略或者策略集。在一個(gè)實(shí)施方式中,查詢修 訂器108包括加寬修訂器108,1、語法修訂器108.2、精化修訂器 108.3以及基于會(huì)話的修訂器108.4。修訂服務(wù)器107向每個(gè)修訂器 108提供查詢,并且響應(yīng)于每個(gè)修訂器108而獲取一個(gè)或者多個(gè)潛在 的^f務(wù)訂查詢(在此稱為"潛在的",因?yàn)樵诖藭r(shí)它們還沒有^皮^修訂 服務(wù)器107采用)。系統(tǒng)架構(gòu)特別地設(shè)計(jì)為允許使用任何數(shù)量的不 同查詢修訂器108,因?yàn)椴缓玫膱?zhí)行查詢修訂器108將被去除,以及 因?yàn)樵趯硇枰獣r(shí)將添加新的查詢修訂器108 (由普通修訂器108.n 來指示)。這賦予了系統(tǒng)IOO特別的靈活性,并且還使得系統(tǒng)能夠 被定制以及適應(yīng)用于特定主題內(nèi)容領(lǐng)域(例如,用于在如醫(yī)藥、法 律等領(lǐng)域的修訂器)、企業(yè)(針對(duì)內(nèi)部信息檢索系統(tǒng),專用于特別 商業(yè)領(lǐng)域或者公司域的修訂器,)、或者針對(duì)不同語言(例如針對(duì) 指定語言或者方言的修訂器)。
優(yōu)選地,每個(gè)修訂的查詢與置信度度量度量(confidence measure ) 相關(guān)聯(lián),該置信度度量度量表示修訂是良好修訂的概率,良好修訂 即修訂的查詢將產(chǎn)生的結(jié)果比原始查詢產(chǎn)生的結(jié)果與用戶的信息需 要更相關(guān)。由此,每個(gè)潛在修訂的查詢可以通過元組(tuple) (Ri, Ci)來表示,其中R是潛在修訂的查詢,并且C是與該修訂的查詢 相關(guān)聯(lián)的置信度度量。在一個(gè)實(shí)施方式中,針對(duì)每個(gè)修訂器108的 每個(gè)修訂策略,預(yù)先人工地估計(jì)這些置信度度量??梢詮臏y(cè)試下的 示例查詢和修訂的查詢的結(jié)果分析中導(dǎo)出該度量。例如,精化修訂 器108.3可以對(duì)來自原始短查詢(例如三個(gè)或者更少詞語)的修訂的 查詢分配高置信度度量,以及對(duì)來自原始長查詢(四個(gè)或者更多詞 語)的修訂的查詢分配低置信度度量。這些基于經(jīng)驗(yàn)評(píng)估的分配示 出了添加詞語到短查詢有助于顯著地改進(jìn)查詢關(guān)于潛在的信息需要 的相關(guān)性(即短查詢可能過于寬泛,并且這種查詢的精化可能集中 在較窄并且較相關(guān)的結(jié)果集上)。相反地,加寬修訂器108.1可以對(duì)
從長查詢減少 一 個(gè)或者多個(gè)詞語、或者向長查詢添加同義詞的修訂 的查詢分配高置信度度量。在其他實(shí)施方式中, 一個(gè)或者多個(gè)修訂 器108可以針對(duì)其潛在修訂的查詢中的一個(gè)或者多個(gè)動(dòng)態(tài)地生成置 信度度量(例如在運(yùn)行時(shí))。結(jié)合圖lb在下文中對(duì)這種實(shí)施方式進(jìn) 一步描述。置信度度量的分配可以由其他組件執(zhí)行(例如修訂服務(wù)
器107),并且可以考慮依賴于查詢的數(shù)據(jù)和獨(dú)立于查詢的數(shù)據(jù)兩者。 修訂服務(wù)器107可以選擇一個(gè)或者多個(gè)(或者所有)潛在修訂 的查詢,并且將這些提供到搜索引擎104。搜索引擎104以與處理正 常查詢相同的方式處理修訂的查詢,并且將每個(gè)提交的修訂的查詢 的結(jié)果提供到修訂服務(wù)器107。修訂服務(wù)器107評(píng)估每個(gè)修訂的查詢 的結(jié)果,包括比較修訂的查詢的結(jié)果和原始查詢的結(jié)果。修訂服務(wù) 器107然后可以選擇一個(gè)或者多個(gè)修訂的查詢作為最佳修訂的查詢 (或者至少很好地適合于原始查詢的修訂的查詢),如下文所述。
修訂J1務(wù)器107接收所有潛在修訂的查詢R,并且通過它們的相 關(guān)聯(lián)的置信度度量C從最高到最低置信度度量對(duì)它們進(jìn)行排序。修 訂服務(wù)器107通過潛在修訂的查詢的排序表進(jìn)行迭代,并且傳送每 個(gè)潛在修訂的查詢到搜索引擎104以獲得搜索結(jié)果集。(可選地, 修訂服務(wù)器107可以首先選擇潛在修訂的查詢的子集,例如那些具 有閾值水平以上的置信度度量的潛在修訂的查詢)。在一些情況下, 可能已經(jīng)提取前面的搜索結(jié)果(例如通過修訂器108或者修訂服務(wù) 器107),同時(shí)執(zhí)行修訂策略或者估計(jì)置信度度量,在這種情況下修 訂服務(wù)器107可以使用這樣獲得的搜索結(jié)果。
針對(duì)每個(gè)潛在修訂的查詢,修訂服務(wù)器107決定是否選擇潛在 修訂的查詢還是丟棄該查詢。選擇可以依賴于針對(duì)修訂的查詢的前N 個(gè)搜索結(jié)果的評(píng)估,既獨(dú)立于又相關(guān)于原始查詢的搜索結(jié)果。通常 地,修訂的查詢應(yīng)該產(chǎn)生搜索結(jié)果,該搜索結(jié)果比原始查詢更精確 地反應(yīng)用戶的信息需要。通常評(píng)估前十個(gè)結(jié)果,但是如果期望的話 可以處理更多或者更少的結(jié)果。
在一個(gè)實(shí)施方式中,如果具有以下條件,則選擇潛在修訂的查 詢
i )修訂的查詢產(chǎn)生至少最小數(shù)量的搜索結(jié)果。例如,將該參 數(shù)設(shè)置為1將丟棄所有(并且僅丟棄)沒有搜索結(jié)果的修訂。結(jié)果 的可接受的最小數(shù)量的一般范圍是1到100。
ii )修訂的查詢?cè)谛抻喌那懊娴慕Y(jié)果中產(chǎn)生最小數(shù)量的"新" 結(jié)果。當(dāng)結(jié)果未出現(xiàn)在原始查詢或者先前選擇的修訂的查詢的前面 的結(jié)果中時(shí),該結(jié)果是"新"的。例如將該參數(shù)設(shè)置為2將要求每 個(gè)選擇的修訂具有至少兩個(gè)前面的結(jié)果,其在任何先前選擇的修訂 的查詢的前面的結(jié)果中或者原始查詢的前面的結(jié)果中都未出現(xiàn)。該 限制確保在選擇的修訂中的結(jié)果的多樣性,將證明至少 一個(gè)修訂是 有用的機(jī)會(huì)最大化。例如,如圖3中可見,針對(duì)每個(gè)修訂的查詢的 前三個(gè)結(jié)果304不同于其他結(jié)果集。這給予用戶對(duì)與修訂的查詢高 度相關(guān)的搜索結(jié)果的寬泛檢查(survey)。
iii)還沒有選擇修訂的查詢的最大數(shù)量。換言之,當(dāng)已經(jīng)選擇 了修訂的查詢的最大數(shù)量時(shí),則丟棄所有剩余修訂的查詢。在一個(gè) 實(shí)施方式中,將修訂的查詢的最大數(shù)量設(shè)置為4。在另一個(gè)實(shí)施方式 中,修訂的查詢的最大數(shù)量被設(shè)置為在2和IO之間。
前述選一奪參數(shù)的結(jié)果是將在修訂的查詢頁面300上包括選4奪的 修訂的查詢集。修訂服務(wù)器107構(gòu)建了到該頁面的鏈接,并且將該 鏈接提供到前端服務(wù)器102,如前所述。修訂服務(wù)器107確定修訂的 查詢頁面300上的修訂的查詢的順序和布局。修訂的查詢優(yōu)選地按 它們的置信度度量(從最高到最低)順序列出。
前端服務(wù)器102包括在搜索結(jié)果頁面中提供的鏈接,然后該搜 索結(jié)果頁面被傳送到客戶端118。然后用戶可以查看對(duì)于原始查詢的 搜索結(jié)果、或者選擇到修訂的查詢頁面的鏈接,并且由此查看選擇 的修訂的查詢以及其關(guān)聯(lián)結(jié)果。
修訂的查詢的呈現(xiàn)
圖2示出了提供給客戶端118的示例結(jié)果頁面200。在這個(gè)簡單 的實(shí)施中,搜索結(jié)果200頁面包括[sheets (片狀物)]的原始查詢
202以及該查詢的結(jié)果204。到-修訂的查詢集的鏈接206被包括在頁 面200的底端。然后,用戶則可以點(diǎn)擊鏈接206,并且訪問修訂的查 詢頁面。圖3中示出了示例頁面300。在此,呈現(xiàn)了前面的三個(gè)修訂 的查詢,如修訂的查詢鏈接302.1、 302.2以及302.3所示,該修訂的 查詢鏈接分別針對(duì)卩inens(亞麻布)]、[bedding(;故褥)]以及[bed sheets (床單)]的修訂的查詢。在每個(gè)修訂的查詢鏈接302以下是針對(duì)該 查詢的前面的三個(gè)搜索結(jié)果304。
在與原始結(jié)果頁面200分開的頁面300上提供修訂的查詢存在 多種優(yōu)勢(shì)。首先,屏幕區(qū)域是有限的資源,并因此,盡管可能但不 希望通過屏幕區(qū)域列出了修訂的查詢本身(不預(yù)覽它們的關(guān)聯(lián)結(jié) 果),因?yàn)橛脩艨床灰娖浣Y(jié)果的上下文中的修訂的查詢。通過將修 訂的查詢i文置在獨(dú)立頁面300上,用戶可以看見最佳修訂的查詢以 及與它們相關(guān)聯(lián)的前面的結(jié)果,使得用戶能夠在選擇修訂的查詢自 身之前,選定看起來最佳地滿足他們的信息需要的修訂的查詢。盡 管在單個(gè)(雖然很長)頁面上可能包括原始查詢和修訂的查詢的結(jié) 果兩者,該方法將要求用戶向下滾動(dòng)頁面以查看所有修訂的查詢, 或者將弄亂頁面的初始可視部分。取而代之的是,在圖2和圖3中 示出的優(yōu)選實(shí)施方式中,用戶可以看見與查詢修訂相關(guān)聯(lián)的結(jié)果, 點(diǎn)擊每個(gè)修訂的查詢鏈接302,并且訪問針對(duì)選擇的修訂的查詢的整 個(gè)搜索結(jié)果集。在許多情況下,該方法將還優(yōu)選地自動(dòng)使用修訂的 查詢,以獲得搜索結(jié)果并且自動(dòng)地將它們呈現(xiàn)給用戶(例如無須用 戶選擇或者交互)。另外,該方法還具有通過示出最佳潛在修訂而 間接教導(dǎo)用戶如何創(chuàng)建更佳查詢的附加優(yōu)勢(shì)。在另 一 實(shí)施方式中, 修訂服務(wù)器107可以強(qiáng)迫查詢修訂被顯示在原始結(jié)果頁面200上, 例如,在獨(dú)立窗口中或者在原始結(jié)果頁面200內(nèi)。
顯示附加信息(例如搜索結(jié)果304 )的方法還可以用于主要結(jié) 果頁面200上,其中該附加信息是關(guān)于查詢修訂的,以幫助用戶更 好地理解修訂。當(dāng)存在單個(gè)非常高質(zhì)量的修訂查詢(或者少量非常 高質(zhì)量修訂)時(shí),諸如在校正拼寫的修訂的情況下,這一點(diǎn)尤其有
用。校正了拼寫的修訂的查詢可以與諸如前面的結(jié)果的題目、URL
以及片段(snippet)的附加信息一起在結(jié)果頁面200上示出,以幫 助用戶確定拼寫校正建議是否是良好的建議。
在另一實(shí)施方式中,修訂服務(wù)器107使用置信度度量來決定是 否完全示出查詢修訂,并且如果決定示出,則決定如何突出地》文置 修訂或者其鏈接。將在下文對(duì)該實(shí)施方式進(jìn)4亍描述。
查詢修訂器
再次參考圖1,現(xiàn)在描述各種查詢修訂器108。加寬修訂器108.1 生成有效加寬原始查詢范圍的 一個(gè)或者多個(gè)修訂的查詢。在原始查 詢過窄的情況下,這些修訂尤其有用。存在可以由加寬修訂器108.1 使用的多個(gè)不同的策略。
首先,該修訂器108.1可以通過添加同義詞以及相關(guān)詞語作為析 取項(xiàng)(disjunct)來加寬查詢。查詢經(jīng)常過于具體,因?yàn)橛脩羟∏蛇x 定特定詞來描述一般概念。如果關(guān)注的文檔不包含該詞,則用戶的 信息需要仍然未滿足。添加同義詞作為析取項(xiàng)的查詢修訂可以加寬 查詢并且將期望的文檔帶進(jìn)結(jié)果集。類似地,有時(shí)添加相關(guān)詞而不 是添加實(shí)際的同義詞作為析取項(xiàng)更有幫助??梢栽诖耸褂萌魏芜m合 的查詢加寬方法,諸如相關(guān)詞語、同義詞、詞典或者字典等。 一種 用于查詢加寬的方法在于2005年3月30日提交的題為"Determining Query Term Synonyms Within Query Context" 的美國申^i青系歹ll號(hào)
No.ll/xxx, xxx中公開,通過參考將其并入。
第二,該修訂器108.1通過去掉一個(gè)或者多個(gè)查詢?cè)~語可以加寬 查詢。如所示出的前面的例子,有時(shí)去掉查詢?cè)~語(如例子查詢"三 菱格蘭(Gallant)信息"中的"信息")可能得到良好的查詢修訂。 在該方法中,加寬修訂器108.1確定哪些查詢?cè)~語不重要,其中因?yàn)?它們的存在與它們不存在相比未能顯著改進(jìn)搜索結(jié)果。在2005年3 月28日才是交的題為 "Determining Query Terms of Little Significance"
的美國申請(qǐng)系列號(hào)No. 11/xxx, xxx中描述了用于為搜索目的而識(shí)別
不重要的詞語的技術(shù),在此通過參考將其并入。這種技術(shù)的結(jié)果可
以用于通過去掉不重要的詞語來修訂查詢。
語法修訂器108.2可以通過對(duì)原始查詢進(jìn)行各種類型的語法改
變來修訂查詢。這些包括以下修訂策略
.如果存在引用,去除原始查詢中的任何引用。通過搜索引擎
104將引用中的查詢作為單個(gè)文字來對(duì)待,其僅返回具有整個(gè)查詢串 的文檔。通過允許搜索引擎104基于文檔與任意查詢?cè)~語的總體相 關(guān)性而返回文檔,該修訂增加了搜索結(jié)果的數(shù)量。
添加圍繞整個(gè)查詢的引用。在一些實(shí)例中,查詢更適合于被 作為完整短語來處理。
添加圍繞查詢更像實(shí)際短語的n-grams (查詢內(nèi)某個(gè)連續(xù)詞語 的數(shù)量)的引用。查詢內(nèi)n-grams的識(shí)別可以使用以下各種源來進(jìn)行
A) 常用短語的自建字典。
B) 根據(jù)頻率數(shù)據(jù)建立的短語列表。在此,基于出現(xiàn)具有統(tǒng)計(jì)上 顯著頻率的詞語的序列而識(shí)別短語。例如,良好的bi-gram [tl t2]具 有以下特性如果[tl]和[t2]兩者一起出現(xiàn)在文檔中,具有比隨機(jī)概 率更高的概率,則它們表現(xiàn)為bi-gram [tl t2]。 一種用于構(gòu)建短語列 表的方法在2004年7月26日^是交的題為"Phrase Identification in an Information Retrieval System"的美國申請(qǐng)系列號(hào)No. 10/900,021中公 開,在此通過參考將其并入。
C) 常用名和姓的列表(例如從人口調(diào)查數(shù)據(jù)或者任何其他源所 獲得)。語法修訂器108.2針對(duì)查詢?cè)~語[tl t2]的每個(gè)連續(xù)對(duì)確定[tl] 是否包含在常用名的列表中,以及[t2]是否包含在常用姓的列表中。 如果如此,則將查詢[tl t2]的子部分(subportion)置于引用標(biāo)記中, 以形成潛在修訂的查詢。
一個(gè)普遍問題是在查詢中使用停用詞(stopword)。分級(jí)算法通 常忽略頻繁的詞語,諸如"the" 、 "a" 、 "an" 、 "to"等。在一 些情況中,這些實(shí)際上是查詢中的重要詞語(考慮查詢例如"to be or nottobe")。因此,語法修訂器108.2還創(chuàng)建多個(gè)修訂的查詢,該 修訂的查詢使用"+ ,,算符(或者類似的算符),以便強(qiáng)制包括這
樣的詞語,而無論這種詞語何時(shí)出現(xiàn)在查詢中。例如查詢[the link], 將建議為[+ the link]。
除去標(biāo)點(diǎn)符號(hào)和其他符號(hào)。用戶偶然添加改變查詢意義的標(biāo)點(diǎn) 符號(hào)或者其他句法(syntax)(諸如符號(hào))。因?yàn)榇蠖鄶?shù)用戶是無意 這樣做的,所以語法修訂器108.2還通過除去標(biāo)點(diǎn)符號(hào)和其他類似的 句法(不i侖何時(shí)出現(xiàn))而產(chǎn)生》務(wù)訂的查詢。例如,針對(duì)查詢[rear window + movie],語法修訂器產(chǎn)生查詢[rear window movie], 其將防 止搜索引擎104關(guān)于字符序列"window +"進(jìn)行搜索,其根本不可 能產(chǎn)生任何結(jié)果。
精化修訂器108.3可以使用任何適合的方法來精化(即變窄)查 詢,以便更具體地描述用戶的潛在信息需要。在一個(gè)實(shí)施方式中, 精化修訂器108.3通過比較搜索查詢的詞語矢量表示和已知搜索查 詢的詞語矢量而產(chǎn)生查詢修訂,其先前已經(jīng)與它們各自的搜索結(jié)果 相關(guān)聯(lián)并根據(jù)該搜索結(jié)果加權(quán)。選擇具有最接近矢量的一個(gè)或多個(gè) 已知搜索查詢作為潛在的修訂的查詢。
更具體地,在一個(gè)實(shí)施方式中精化修訂器108.3操作如下。精化 修訂器108.3使用用戶的原始查詢以獲得從搜索引擎104選擇的多個(gè) 搜索結(jié)果(例如,前面的IOO個(gè)結(jié)果)。精化修訂器108.3訪問預(yù)先 存在的數(shù)據(jù)庫并且將這些文檔中的每一個(gè)與 一個(gè)或者多個(gè)先前使用 的搜索查詢相匹配,其中所述搜索查詢將該文檔包括在其結(jié)果中。 預(yù)先存在的數(shù)據(jù)庫存儲(chǔ)與搜索查詢相關(guān)聯(lián)的文檔,其中查詢和文檔 之間的關(guān)聯(lián)通過針對(duì)文檔的查詢的相關(guān)性分值來加權(quán)。
第二,精化修訂器108.3使用聚類算法來基于從匹配的存儲(chǔ)的查 詢的詞語以及對(duì)應(yīng)的權(quán)重形成的詞語矢量而形成搜索結(jié)果文檔群 集。詞語矢量是單位長度歸一化的多維矢量,其中每一維對(duì)應(yīng)一個(gè) 詞語,該詞語可以是單個(gè)詞或者詞組合?;谠诿總€(gè)群集中出現(xiàn)的 存儲(chǔ)文檔的數(shù)量和與匹配的存儲(chǔ)文檔相對(duì)應(yīng)的原始搜索文檔的相關(guān) 性分值來對(duì)群集進(jìn)行排名。最高排名群集被選擇作為潛在的精化群 集。群集可以使用各種聚類算法來形成,該聚類算法諸如分層合并
聚類算法(hierarchical agglomerative clustering algorithm), 如 E. Rasmussen在"Information Retrieval" ( W. Frakes &R. Baeza-Yates des. 92)中的"Clustering Algorithms"所描述的那樣,在此通過參考將 該 ^開并入。
第三,精化修訂器108.3針對(duì)每個(gè)潛在的精化群集計(jì)算群集質(zhì) 心。然后精化修訂器108.3針對(duì)每個(gè)群集確定潛在的修訂的查詢。在 給定的精化群集中,針對(duì)與群集中的文檔相關(guān)聯(lián)的每個(gè)先前存儲(chǔ)的 搜索查詢,精化修訂器108.3基于到群集質(zhì)心的搜索查詢的詞語矢量 距離和存儲(chǔ)的與該搜索查詢相關(guān)聯(lián)的文檔數(shù)量,對(duì)存儲(chǔ)的查詢進(jìn)行 評(píng)分。在每個(gè)潛在精化群集中,分值最高的先前存儲(chǔ)的查詢被選擇 作為潛在的#~訂的查詢。
最后精化修訂器108.3提供選擇的修訂的精化查詢到修訂服務(wù) 器107。 一個(gè)適合的精化修訂器的細(xì)節(jié)進(jìn)一步在2003年9月22日提 交的題為 "System and Method for Providing Search Query Refinements"的美國專利申請(qǐng)系列號(hào)No. 10/688,721中公開,在此通 過參考將其引入。
基于會(huì)話的修訂器108.4可以使用任何適合的方法,該方法基于
更正確地捕捉用戶的潛在信息需要。在一個(gè)實(shí)施方式中,基于會(huì)話 的修訂器108.4基于從多個(gè)單獨(dú)用戶會(huì)話中收集的點(diǎn)擊數(shù)據(jù)而提供 —個(gè)或者多個(gè)修訂的查詢。查詢對(duì)的出現(xiàn)頻率初始是使用由基于會(huì) 話的修訂器108.4生成的兩個(gè)表來計(jì)算的。查詢對(duì)是出現(xiàn)在單個(gè)用戶 會(huì)話中的兩個(gè)查詢的序列,例如第一查詢[sheets (片狀物)],其后 跟有第二查詢[linens (亞麻布)]或者第二查詢[silk sheets (絲質(zhì)床 單)]。重現(xiàn)單獨(dú)查詢的第一表是根據(jù)用戶會(huì)話查詢數(shù)據(jù)(例如存儲(chǔ) 在圖lb的日志文件110中的數(shù)據(jù))生成。在一個(gè)實(shí)施方式中,重現(xiàn) 查詢以最小頻率出現(xiàn),例如每天一次。重現(xiàn)查詢對(duì)的第二表也根據(jù) 曰志文件110生成,每個(gè)查詢對(duì)包括第一查詢,其后跟有第二查詢。 根據(jù)這兩個(gè)表,每個(gè)查詢對(duì)的出現(xiàn)頻率計(jì)算作為第一表中的第一查
詢的出現(xiàn)計(jì)數(shù)的一部分。例如如果查詢[sheets (片狀物)]出現(xiàn)100 次,并且100次中有30次在其后跟有第二查詢[linens (亞麻布)], 則作為第 一 查詢的出現(xiàn)計(jì)#t的 一 部分,查詢對(duì)[sheets(片狀物),1 inens (亞麻布)]的出現(xiàn)頻率是30/100或者30%。對(duì)于任何給定的第一 查詢,如果出現(xiàn)頻率超過了某個(gè)閾值,隨著第二查詢作為針對(duì)第一 查詢的候補(bǔ)修訂,保留查詢對(duì)。在一個(gè)實(shí)施方式中,該閾值是1%。 對(duì)于候補(bǔ)修訂的查詢,查詢對(duì)中第二查詢比該對(duì)中第 一查詢?cè)?質(zhì)量方面的提高是使用由基于會(huì)話的修訂器108.4從用戶點(diǎn)擊數(shù)據(jù) 而生成的兩個(gè)附加表來計(jì)算的。質(zhì)量分值表是針對(duì)該對(duì)中的每個(gè)查 詢而生成的。根據(jù)該表,計(jì)算該對(duì)中的第二查詢?cè)谫|(zhì)量方面超過該 對(duì)中的第一查詢的提高(如果有提高)。
在一個(gè)實(shí)施方式中,質(zhì)量分值是通過從點(diǎn)擊行為數(shù)據(jù)估計(jì)用戶 滿意程度來確定。 一 種這樣用于確定質(zhì)量分值的方法是使用交互簡 檔,^口2004年6月28曰才是交的題為"Systems and Methods for Deriving and Using an Interaction Profile"的美國申請(qǐng)系列號(hào)No. 10/878,926中 所描述的那樣,在此通過參考將其并入。
在一個(gè)實(shí)施方式中,質(zhì)量分值計(jì)算基于存儲(chǔ)的(例如在日志文 件110中存儲(chǔ)的)用戶點(diǎn)擊數(shù)據(jù)。質(zhì)量分值是基于搜索結(jié)果上的第 一點(diǎn)擊的估計(jì)的持續(xù)時(shí)間。在一個(gè)實(shí)施方式中,特定點(diǎn)擊的持續(xù)時(shí) 間從第 一點(diǎn)擊和隨后點(diǎn)擊發(fā)生的次數(shù)來估計(jì),其可以與其他用戶會(huì) 話查詢數(shù)據(jù)存儲(chǔ)在例如圖lb的日志文件110中。進(jìn)行評(píng)分包括對(duì)沒 有點(diǎn)擊的搜索結(jié)果分配分值為0,并且繼續(xù)沿著應(yīng)用于第一點(diǎn)擊和隨 后點(diǎn)擊之間的持續(xù)時(shí)間的S曲線,較長的點(diǎn)擊接近于分配質(zhì)量分值 為1。在一個(gè)實(shí)施方式中,20秒對(duì)應(yīng)于0.1, 40秒對(duì)應(yīng)于0.5,以及 60秒對(duì)應(yīng)于0.9。從數(shù)據(jù)中排除不相關(guān)的內(nèi)容(例如標(biāo)題廣告)上的 點(diǎn)擊。在另一實(shí)施方式中,收集針對(duì)查詢所有產(chǎn)生的點(diǎn)擊,而不僅 僅是第一點(diǎn)擊。
然后基于會(huì)話的修訂器108.4可以使用上述的頻率出現(xiàn)和質(zhì)量 分值數(shù)據(jù)來計(jì)算作為候補(bǔ)修訂的查詢的第二查詢超過第 一查詢的期
望效用。在一個(gè)實(shí)施方式中,期望的效用是查詢對(duì)的出現(xiàn)頻率與該 對(duì)中第二查詢?cè)谫|(zhì)量方面超過第一查詢的提高的乘積。在該例子中,
如果針對(duì)第二查詢的質(zhì)量分值高于針對(duì)第一查詢的質(zhì)量分值,則發(fā) 生質(zhì)量方面的改善。如果第二查詢的期望效用超過閾值,則將第二
查詢標(biāo)記為潛在的修訂的查詢。在一個(gè)實(shí)施方式中,閾值為0.02, 例如對(duì)應(yīng)于10%的頻率和在質(zhì)量方面提高0.2,或者20%的頻率和 在質(zhì)量方面提高0.1。也可以使用期望效用計(jì)算的其他變形。
如上文所述,每個(gè)修訂的查詢可以與置信度度量相關(guān)聯(lián),該置 信度度量表示修訂是良好修訂的概率。在基于會(huì)話的修訂器108.4 的情況下,修訂的查詢的期望效用可以用作針對(duì)該修訂的查詢的置 信度度量。
使用基于會(huì)話的修訂器108.4的查詢修訂的例子如下所述。第一 用戶查詢是[sheets (片狀物)]。存儲(chǔ)的數(shù)據(jù)指示跟在[sheets (片狀 物)]后面的一個(gè)常用用戶輸入的(第二 )查詢是[linens (亞麻布)] 并且另一常用輸入的第二查詢是[silk sheets (絲質(zhì)床單)]?;诖?儲(chǔ)在日志文件110中的數(shù)據(jù),查詢對(duì)[sheets (片狀物),linens (亞 麻布)]的頻率是30% ,并且查詢對(duì)[sheets (片狀物),silk sheets (絲 質(zhì)床單)]的頻率是1%,作為第一查詢[sheets (片狀物)]的出現(xiàn)百 分比。例如,如果查詢[sheets (片狀物)]在表中出現(xiàn)了 100次,則 [sheets (片狀物),linens (亞麻布)]出現(xiàn)了 30次并且[sheets (片狀 物),silksheets (絲質(zhì)床單)]出現(xiàn)了一次。假設(shè)作為候補(bǔ)修訂的第 二查詢閾值是1%,則這兩個(gè)查詢都將保留。
接下來,數(shù)據(jù)指示針對(duì)[sheets (片狀物)]的質(zhì)量分值是O.l,而 針對(duì)第二查詢[linens (亞麻布)]和[silk sheets (絲質(zhì)床單)]的質(zhì)量 分值分別是0.7和0.8。這樣,[linens(亞麻布)]在質(zhì)量方面超過[sheets] 的提高是0.6 ( 0.7-0.1 ),并且[silk sheets (絲質(zhì)床單)]在質(zhì)量方面 超過[sheets (片狀物)]的提高是0.7 ( 0.8-0.1 )。
然后,基于會(huì)話的修訂器108.4將每個(gè)修訂的期望效用計(jì)算為頻 率分值與質(zhì)量方面的提高的乘積。對(duì)于[sheets (片狀物),linens (亞
麻布)],頻率(30% )與質(zhì)量方面的提高(0.6)的乘積得出期望效
用為0J8。對(duì)于[sheets (片狀物),silk sheets (絲質(zhì)床單)],頻率 (1%)與質(zhì)量方面的提高(0.7)的乘積得出期望效用為0.007。這
樣,針對(duì)輸入第一查詢[sheets (片狀物)]的用戶,第二查詢[linens (亞麻布)]具有比查詢[silk sheets (絲質(zhì)床單)]更高的期望效用,
并且因此[linens (亞麻布)]是較好的查詢修訂建議。這些期望效用
可以用作如上所述的修訂的查詢的置信度度量。 在運(yùn)行時(shí)生成修訂置信度度量
現(xiàn)在參考圖lb,這里示出了根據(jù)本發(fā)明的信息檢索系統(tǒng)的另一 實(shí)施方式。除了先前描述的圖la的元件,還存在日志文件IIO、會(huì) 話跟蹤器114以及修訂器置信度估計(jì)器112。如上所述,查詢修訂器 108可以向置信度度量提供一個(gè)或者多個(gè)修訂的查詢,該置信度度量 是查詢修訂器108提供給修訂服務(wù)器107的。修訂服務(wù)器107使用 置信度度量來確定選擇哪個(gè)可能的修訂的查詢用于包括在修訂的查 詢頁面300上。在一個(gè)實(shí)施方式中,在運(yùn)行時(shí)可以獲得置信度度量, 至少部分地基于在關(guān)于給定原始查詢選擇修訂的查詢中的歷史用戶 活動(dòng)。
在圖lb的實(shí)施方式中,前端服務(wù)器102向會(huì)話跟蹤器114提供 用戶點(diǎn)進(jìn)行為、以及原始查詢和修訂的查詢信息。會(huì)話跟蹤器104 維持日志文件110,該日志文件存儲(chǔ)與用戶所訪問的查詢》務(wù)訂鏈4妻 302相關(guān)聯(lián)的每個(gè)用戶查詢、與每個(gè)修訂的查詢相關(guān)聯(lián)的結(jié)果、以及 與用于對(duì)修訂的查詢的質(zhì)量建模的原始查詢和修訂的查詢的各種特 征。存^t的信息可以包括,例如 對(duì)于原始查詢
原始查詢自身;
原始查詢中的每個(gè)詞;
-原始查詢的長度;
■原始查詢的主題群集;
針對(duì)原始查詢的信息檢索分值;以及
針對(duì)原始查詢的結(jié)果數(shù)量。 對(duì)于纟務(wù)改的查詢
修訂的查詢自身;
.〈奮訂的查詢中的每個(gè)詞;
產(chǎn)生其的修訂技術(shù)的標(biāo)識(shí);
修訂的查詢的長度;
與修訂的查詢相關(guān)聯(lián)的主題群集;
-針對(duì)前面的搜索結(jié)果的信息檢索分值(例如,頁面等級(jí));
針對(duì)修訂的查詢找到的結(jié)果的數(shù)量;
在修訂的查詢鏈接302上的點(diǎn)擊長度;以及
.在修訂的查詢結(jié)果304上的點(diǎn)擊長度。
使用任何適合的主題標(biāo)識(shí)方法對(duì)針對(duì)查詢的主題群集進(jìn)行標(biāo) i口、。在2003年9月30曰才是交的題為"Method and Apparatus for Characterizing Documents Based on Clusters of Related Words" 的美國申請(qǐng)系列號(hào)10/676,571中描述了一種適合的方法,在此通過 參考將其并入。
修訂器置信度估計(jì)器112使用預(yù)測(cè)模型,例如多個(gè)、邏輯回歸 模型分析日志文件110以基于修改的查詢和查詢的特征來產(chǎn)生一組 規(guī)則,該規(guī)則可以用于估計(jì)針對(duì)給定的查詢修訂的查詢是成功^奮訂 的可能性。在2003年12月15日提交的題為"Large Scale Machine Learning Systems and Methods"的美國申請(qǐng)系列號(hào)No. 10/734,584 中描述了一個(gè)適合的回歸模型,在此通過參考將其并入。修訂器置 信度估計(jì)器112基于以下假設(shè)而操作用戶對(duì)修訂的查詢鏈接302 上的長點(diǎn)擊指示了用戶對(duì)該修訂作為用戶的原始信息需要的準(zhǔn)確表 示滿意??梢哉J(rèn)為長點(diǎn)擊發(fā)生在當(dāng)用戶停留在點(diǎn)擊頁面上一段最小 時(shí)間段時(shí),例如最小為60秒。從對(duì)修訂的查詢鏈接302上的點(diǎn)擊長 度,修訂器置信度估計(jì)器112可以訓(xùn)練預(yù)測(cè)模型來預(yù)測(cè)長點(diǎn)擊符合 修訂的查詢和原始查詢的各種特征的可能性。認(rèn)為具有長點(diǎn)擊的高 預(yù)測(cè)可能性的修訂的查詢是針對(duì)其關(guān)聯(lián)原始查詢的較好(即,更成 功)的修訂。
在一個(gè)針對(duì)預(yù)測(cè)模型的實(shí)施方式中,置信度估計(jì)器112選擇與
修訂的查詢相關(guān)聯(lián)的特征;從日志文件收集點(diǎn)擊數(shù)據(jù);使用該特征 和點(diǎn)擊數(shù)據(jù)制定規(guī)則;以及添加該規(guī)則到預(yù)測(cè)模型。另外,置信度 估計(jì)器112可以使用點(diǎn)擊數(shù)據(jù)制定附加規(guī)則并且選擇性地添加該附 加規(guī)則到模型。
在運(yùn)行時(shí),修訂服務(wù)器107向修訂器置信度估計(jì)器112提供原 始查詢、以及從各種查詢修訂器108接收的修訂的查詢中的每一個(gè)。 修訂器置信度估計(jì)器112將原始查詢和修訂的查詢應(yīng)用于預(yù)測(cè)模型 以便獲得預(yù)測(cè)度量,該預(yù)測(cè)度量作為先前提及的置信度度量。可選 地,每個(gè)查詢修訂器108可以直接調(diào)用修訂器置信度估計(jì)器112以 便獲得預(yù)測(cè)度量,并且然后將這些值傳遞回到修訂服務(wù)器107。盡管 所描述的實(shí)施方式示出了修訂器置信度估計(jì)器112作為單獨(dú)的模塊, 但是修訂服務(wù)器107代替地可以提供置信度度量估計(jì)器功能。在任 一情況下,如上所述,修訂服務(wù)器107使用置信度度量,以便選擇 和排序?qū)⑹居谟脩舻男抻喌牟樵儭?br> 在一個(gè)實(shí)施方式中,修訂服務(wù)器107使用置信度度量以便確定 是否完全示出查詢修改,如果確定為示出,則確定怎樣突出地放置 修訂或者其鏈接。為了這樣做,修訂服務(wù)器107可以使用先前討論 的初始置信度度量或者上文所述的動(dòng)態(tài)生成的置信度度量。例如, 如果最佳置信度度量落入閾值以下,這可以指示沒有 一個(gè)潛在候補(bǔ) 修訂中是非常好的,在這種情況下對(duì)原始結(jié)果頁面200不進(jìn)行修改。 在另 一方面,如果一個(gè)或者多個(gè)修訂的查詢具有在另一閾值以上的 非常高的置信度度量,則修訂服務(wù)器107可以強(qiáng)制查詢修訂、或者 到修訂的查詢頁面300的鏈接在原始結(jié)果頁面200上非常突出地示 出,例如在頁面的頂部附近并且用特殊字體、或者在某個(gè)其他突出 位置示出。如果置信度度量在兩個(gè)閾值之間,則到修訂的查詢頁300 的鏈接可以放置在較不突出的位置上,例如在搜索結(jié)果頁面200末 端,例如,如4連接206所示。
可以并行地(例如,獲得針對(duì)查詢修訂的結(jié)果并且計(jì)算針對(duì)查 詢修訂的置信度度量)、和/或交織地(例如從查詢修訂器接收多個(gè) 查詢修訂并且構(gòu)建不工作的查詢修訂的排序列表,而不是接收所有 查詢修訂然后對(duì)查詢修訂的列表進(jìn)行排序)執(zhí)行處理上文所述的步 驟。另外,盡管在客戶端/服務(wù)器搜索系統(tǒng)的環(huán)境中描述了以上實(shí)施 方式,但是本發(fā)明還可以作為單獨(dú)的機(jī)器(例如,單獨(dú)PC)的部分 來實(shí)施。這可能是有用的,例如在諸如谷歌桌面搜索的桌面搜索應(yīng) 用的環(huán)境中。
本發(fā)明特別描述了關(guān)于一個(gè)可能的實(shí)施方式的細(xì)節(jié)。本領(lǐng)域技 術(shù)人員將理解本發(fā)明可以以其他實(shí)施方式實(shí)現(xiàn)。首先,對(duì)組件、詞 語的大寫開頭字母、屬性、數(shù)據(jù)結(jié)構(gòu)或者任何其他編程或者結(jié)構(gòu)方 面進(jìn)行的特別命名不是強(qiáng)制性的或重要的,并且實(shí)施本發(fā)明或者其 特征的機(jī)制可以具有不同的名稱、格式或者協(xié)議。另外,系統(tǒng)可以 通過所描述的硬件和軟件的組合來實(shí)施,或者完全用硬件元件來實(shí) 施。而且,在此描述的各種系統(tǒng)組件之間的特別的功能性劃分僅是
示例性的,并且不是強(qiáng)制的;由單個(gè)系統(tǒng)組件執(zhí)行的功能可以代替 地由多個(gè)組件來執(zhí)行,并且由多個(gè)組件執(zhí)行的功能可以代替地由單 個(gè)組件來纟丸行。
上文描述的某些部分按照關(guān)于信息的操作的算法和符號(hào)表示呈 現(xiàn)了本發(fā)明的特征。這些算法描述和表示是由數(shù)據(jù)處理領(lǐng)域的技術(shù) 人員所使用的手段,以<更對(duì)本領(lǐng)域的其他技術(shù)人員最有效地傳達(dá)他 們的工作本質(zhì)。雖然對(duì)這些操作進(jìn)行了功能性地或者邏輯地描述, 但應(yīng)理解由計(jì)算機(jī)程序來實(shí)施這些操作。而且,還證明將這些操作 布置稱作模塊或者功能名稱有時(shí)是方便的,并不損失通用性。
除非特別描述,否則根據(jù)上述描述顯然可以理解,貫穿描述, 所描述的動(dòng)作和處理是計(jì)算機(jī)系統(tǒng)或者類似的電子計(jì)算設(shè)備的描述 的動(dòng)作和處理,該計(jì)算機(jī)系統(tǒng)或者類似的電子計(jì)算設(shè)備處理和轉(zhuǎn)換 數(shù)據(jù),該數(shù)據(jù)表示為在計(jì)算機(jī)系統(tǒng)存儲(chǔ)器或者寄存器或者其他這種 信息存儲(chǔ)、傳輸或者顯示設(shè)備中的物理(電子)量。在此不提供這
種計(jì)算機(jī)系統(tǒng)的基礎(chǔ)硬件的詳細(xì)描述,因?yàn)樵撔畔?duì)于計(jì)算機(jī)工程 領(lǐng)域的技術(shù)人員是普遍公知的。
本發(fā)明的某些方面包括在此以算法形式描述的處理步驟和指 令。應(yīng)該注意到本發(fā)明的指令和處理步驟可以用軟件、固件或者硬 件來實(shí)現(xiàn),以及當(dāng)用軟件實(shí)現(xiàn)時(shí),本發(fā)明的指令和處理步驟可以被 下載以便駐留在由實(shí)時(shí)網(wǎng)絡(luò)操作系統(tǒng)使用的不同平臺(tái)上以及從所述 平臺(tái)上操作。
本發(fā)明的某些方面已經(jīng)針對(duì)獨(dú)立或者單個(gè)例子進(jìn)行了描述;然 而應(yīng)該理解,本發(fā)明的操作不限于此。因此,所有對(duì)單個(gè)元件或者 組件的涉及應(yīng)該解釋為還涉及多個(gè)這種組件。類似地,除非明確地
聲明,否則涉及"a" 、 "an"或者"the"應(yīng)該解釋為包括涉及多個(gè)。 最后,詞語"多個(gè)"的使用意味著兩個(gè)或者兩個(gè)以上實(shí)體、數(shù)據(jù)項(xiàng) 等,如適合用于討論的本發(fā)明的一部分,并且覆蓋無限的或者過多 的條目數(shù)量。
本發(fā)明還涉及用于在此執(zhí)行操作的設(shè)備。該設(shè)備可以針對(duì)所需 目的特定地構(gòu)建,或者可以包括由存儲(chǔ)在可由計(jì)算機(jī)訪問的計(jì)算機(jī) 可讀介質(zhì)上的計(jì)算機(jī)程序重新配置或者選擇性地激活的通用計(jì)算 機(jī)。這種計(jì)算機(jī)程序可以存儲(chǔ)在計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,諸如但不 限制于任何類型的盤,包括軟盤、光盤、CD-ROM、磁光盤、只讀 存儲(chǔ)器(ROM)、隨機(jī)訪問存儲(chǔ)器(RAM) 、 EPROM、 EEPROM、 磁或者光卡、或者適合用于存儲(chǔ)電子指令的任何類型介質(zhì),并且每 個(gè)均耦合到計(jì)算機(jī)系統(tǒng)總線。集成電路設(shè)計(jì)和視頻編解碼領(lǐng)域的技 術(shù)人員應(yīng)該理解,可以以各種類型的集成電路基于上述功能和結(jié)構(gòu) 描述而容易地制造本發(fā)明,包括應(yīng)用專用集成電路(AISC)。另夕卜, 本發(fā)明可以并入到各種類型的視頻編碼設(shè)備中。
在此呈現(xiàn)的算法和操作未固有地涉及任何特別的計(jì)算機(jī)或者其 他設(shè)備。各種通用系統(tǒng)還可以根據(jù)在此的教導(dǎo)與程序一起使用,或 者可以證明便于構(gòu)建更具體化的設(shè)備從而執(zhí)行所要求的方法步驟。 多種這樣的系統(tǒng)所要求的結(jié)構(gòu)以及等效變形對(duì)于本領(lǐng)域技術(shù)人員而
言是明顯的。另外,本發(fā)明未參考任何特別的編程語言進(jìn)行描述。 應(yīng)該理解,可以使用多種編程語言實(shí)施在此所描述的本發(fā)明的教導(dǎo), 并且將對(duì)特定語言的任何涉及提供給本發(fā)明的最佳模式和實(shí)現(xiàn)的公 開。
最后,應(yīng)該注意,主要為了易讀性和示教的目的而主要地選擇 本說明書中使用的語言,并且可以不為描繪或者限制本發(fā)明實(shí)質(zhì)內(nèi) 容選擇該語言。因此,本發(fā)明的公開內(nèi)容旨在示意性而并非限制本 發(fā)明的范圍。
權(quán)利要求
1.一種使用多個(gè)查詢修訂策略提供針對(duì)原始查詢的修訂的查詢的方法,該方法包括接收所述原始查詢;使用所述多個(gè)查詢修訂策略生成針對(duì)所述原始查詢的多個(gè)潛在修訂的查詢;選擇多個(gè)潛在修訂的查詢的子集作為修訂的查詢;以及提供對(duì)所述修訂的查詢的訪問。
2. 根據(jù)權(quán)利要求1所述的方法,其中所述原始查詢是當(dāng)客戶端 輸入時(shí)從前端服務(wù)器接收的。
3. 根據(jù)權(quán)利要求2所述的方法,其中所述前端服務(wù)器將所述原 始查詢的結(jié)果返回到所述客戶端。
4. 根據(jù)權(quán)利要求1所述的方法,其中生成所述多個(gè)潛在修訂的 查詢,包4舌將所述原始查詢提供到實(shí)施所述多個(gè)查詢修訂策略的修訂器;以及從所述修訂器的每 一 個(gè)接收所述多個(gè)潛在修訂的查詢中的 一 個(gè) 或者多個(gè)。
5. 根據(jù)權(quán)利要求4所述的方法,其中與所述多個(gè)潛在修訂的查 詢中的一個(gè)或者多個(gè)的每一個(gè)一起接收置信度度量。
6. 根據(jù)權(quán)利要求1所述的方法,其中選擇所述多個(gè)潛在修訂的 查詢的子集包括通過置信度度量對(duì)所述多個(gè)潛在修訂的查詢進(jìn)行排序,以創(chuàng)建所 述多個(gè)潛在修訂的查詢的等級(jí)。
7. 根據(jù)權(quán)利要求6所述的方法,進(jìn)一步包括獲得針對(duì)所述多個(gè)潛在修訂的查詢中的每一個(gè)的搜索結(jié)果;以及 通過評(píng)估所述搜索結(jié)果,從所述多個(gè)潛在修訂的查詢選擇所述修 訂的查詢。
8. 根據(jù)權(quán)利要求7所述的方法,其中選擇所述修訂的查詢包括選才奪一個(gè)或者多個(gè)所述修訂的查詢,其中針對(duì)所述潛在修訂的查詢的所述搜索結(jié)果包括最小數(shù)量的搜索結(jié)果;針對(duì)所述潛在修訂的查詢的所述搜索結(jié)果包括最小數(shù)量的新的 前面的結(jié)果;以及所述選擇的修訂的查詢不超過預(yù)定的最大數(shù)量。
9. 根據(jù)權(quán)利要求8所述的方法,其中所述搜索結(jié)果的最小數(shù)量 是l,所述新的前面的結(jié)果的最小數(shù)量是2,并且所述預(yù)定的最大數(shù) 量是4。
10. 根據(jù)權(quán)利要求7所述的方法,其中獲得針對(duì)所述多個(gè)潛在修 訂的查詢中的每個(gè)的搜索結(jié)果包括提供所述多個(gè)潛在修訂的查詢到搜索引擎;以及從所述搜索引擎接收所述多個(gè)潛在修訂的查詢的結(jié)果。
11. 根據(jù)權(quán)利要求1所述的方法,其中所述多個(gè)查詢修訂策略包 括由加寬、精化、語法修訂以及基于會(huì)話的修訂所組成的組中的至 少一個(gè)。
12. 根據(jù)權(quán)利要求1所述的方法,其中所述訪問是經(jīng)由針對(duì)所述 原始查詢的結(jié)果頁面上顯示的對(duì)所述修訂的查詢的鏈接進(jìn)行的。
13. 根據(jù)權(quán)利要求12所述的方法,其中所述鏈接提供對(duì)修訂的 查詢頁面的i方問。
14. 根據(jù)權(quán)利要求13所述的方法,其中針對(duì)所述原始查詢的所 述結(jié)果頁面上顯示的位置取決于與所述修訂的查詢相關(guān)聯(lián)的置信度 度量。
15. 根據(jù)權(quán)利要求1所述的方法,其中所述訪問是經(jīng)由針對(duì)所述 原始查詢的結(jié)果頁面上的顯示。
16. —種使用多個(gè)查詢修訂策略提供針對(duì)原始查詢的修訂的查 詢的方法,所述方法包4舌接收所述原始查詢;將所述原始查詢提供到實(shí)施多個(gè)查詢修訂策略的修訂器;從每個(gè)所述修訂器接收針對(duì)所述原始查詢的 一 個(gè)或者多個(gè)潛在1奮訂的查詢;通過置信度度量對(duì)所述潛在修訂的查詢進(jìn)行排序,以創(chuàng)建所述潛 在修訂的查詢的等級(jí);獲得針對(duì)所述潛在修訂的查詢中的每一個(gè)的搜索結(jié)果; 通過評(píng)估所述搜索結(jié)果從所述潛在修訂的查詢中選擇所述修訂的查詢;以及提供對(duì)所述修訂的查詢的訪問。
17. 根據(jù)權(quán)利要求16所述的方法,其中所述多個(gè)查詢修訂策略 包括由加寬、精化、語法修訂以及基于會(huì)話的修訂所組成的組中的 至少一個(gè)。
18. 根據(jù)權(quán)利要求16所述的方法,其中所述訪問是經(jīng)由針對(duì)所 述原始查詢的結(jié)果頁面上顯示的對(duì)所述修訂的查詢的鏈接進(jìn)行的。
19. 根據(jù)權(quán)利要求16所述的方法,其中所述訪問是經(jīng)由針對(duì)所 述原始查詢的結(jié)果頁面上的顯示。
20. —種使用多個(gè)查詢修訂策略提供針對(duì)原始查詢的修訂的查 詢的方法,該方法包4舌接收所述原始查詢;將所述原始查詢提供到實(shí)施多個(gè)查詢修訂策略的修訂器; 從每個(gè)所述修訂器接收針對(duì)所述原始查詢的多個(gè)潛在修訂的查 詢中的一個(gè)或者多個(gè);通過置信度度量對(duì)所述多個(gè)潛在修訂的查詢進(jìn)行排序,以創(chuàng)建所述多個(gè)潛在修訂的查詢的等級(jí);將所述多個(gè)潛在修訂的查詢提供到搜索引擎; 從所述搜索引擎接收所述多個(gè)潛在修訂的查詢的結(jié)果; 獲得針對(duì)所述多個(gè)潛在修訂的查詢中的每一 個(gè)的搜索結(jié)果;以及 如果滿足特定條件,則通過維持所述多個(gè)潛在修訂的查詢中的每一個(gè),從等級(jí)的前面開始來從所述多個(gè)潛在修訂的查詢中選擇所述修訂的查詢,所述條件包括針對(duì)從所述多個(gè)潛在修訂的查詢選擇的修訂的查詢的所述搜索結(jié)果產(chǎn)生最小數(shù)量的搜索結(jié)果;針對(duì)所述選擇的修訂的查詢的搜索結(jié)果;以及所述選擇的修訂的結(jié)果不引起修訂的查詢的總數(shù)量超過預(yù)定的最大數(shù)量;以及經(jīng)由在針對(duì)所述原始查詢的結(jié)果頁面上顯示的鏈接,提供對(duì)所述〈奮i丁的查詢的i方問。
21. —種存儲(chǔ)可由處理器執(zhí)行的計(jì)算機(jī)程序的計(jì)算機(jī)可讀存儲(chǔ) 器,所述計(jì)算機(jī)程序生成用戶界面,用于針對(duì)給出的原始查詢提供 一個(gè)或者多個(gè)修訂的查詢,所述用戶界面包括第一區(qū)域,用于顯示原始查詢和與所述原始查詢相關(guān)聯(lián)的結(jié)果的 列表;以及第二區(qū)域,其與所述第一區(qū)域同時(shí)顯示,用于顯示到修訂的查詢 集的鏈接。
22. 根據(jù)權(quán)利要求21所述的計(jì)算機(jī)可讀介質(zhì),其中到修訂的查 詢集的所述鏈接被顯示在與所述原始查詢相關(guān)聯(lián)的所述結(jié)果列表的 底部。
23. 根據(jù)權(quán)利要求21所述的計(jì)算機(jī)可讀介質(zhì),其中到所述修訂 的查詢集的所述鏈接被顯示在所述原始查詢上方。
24. 根據(jù)權(quán)利要求21所述的計(jì)算機(jī)可讀介質(zhì),其中使用與所述 修訂的查詢集相關(guān)聯(lián)的分值來確定所述第二區(qū)域相對(duì)于所述第 一 區(qū) 域的位置。
25. 根據(jù)權(quán)利要求24所述的計(jì)算機(jī)可讀介質(zhì),其中所述鏈接的 出現(xiàn)基于所述分值。
26. 根據(jù)權(quán)利要求21所述的計(jì)算片幾可讀介質(zhì),進(jìn)一步包括可執(zhí) 行處理過程,其響應(yīng)于對(duì)到所述修訂的查詢集的所述鏈接的點(diǎn)擊, 顯示具有所述修訂的查詢集和與每個(gè)修訂的查詢相關(guān)聯(lián)的結(jié)果的列 表的第三區(qū)域。
27. 根據(jù)權(quán)利要求21所述的計(jì)算機(jī)可讀介質(zhì),其中通過選擇使 用多個(gè)查詢修訂策略產(chǎn)生的多個(gè)潛在修訂的查詢的子集而產(chǎn)生所述 修訂的查詢集。
28. 根據(jù)權(quán)利要求27所述的計(jì)算機(jī)可讀介質(zhì),其中選擇所述多 個(gè)潛在修訂的查詢的所述子集包括通過置信度度量對(duì)所述多個(gè)潛在修訂的查詢進(jìn)行排序,以創(chuàng)建所 述多個(gè)潛在修訂的查詢的等級(jí)。
29. 根據(jù)權(quán)利要求28所述的計(jì)算機(jī)可讀介質(zhì),進(jìn)一步包括 獲得針對(duì)所述多個(gè)潛在修訂的查詢中的每一個(gè)的搜索結(jié)果;以及 通過評(píng)估所述搜索結(jié)果從所述多個(gè)潛在修訂的查詢選擇所述修訂的查詢。
30. 根據(jù)權(quán)利要求5所述的計(jì)算機(jī)可讀介質(zhì),其中所述多個(gè)查詢 修訂策略包括由加寬、精化、語法修訂以及基于會(huì)話的修訂所組成 的組中的至少一個(gè)。
31. —種計(jì)算機(jī)程序產(chǎn)品,用于使用多個(gè)查詢修訂策略來提供針 對(duì)原始查詢的修訂的查詢,所述計(jì)算機(jī)程序產(chǎn)品包括計(jì)算機(jī)可讀介質(zhì);以及在所述介質(zhì)上編碼的計(jì)算機(jī)程序代碼,用于 沖妻收所述原始查詢;使用所述多個(gè)查詢修訂策略生成針對(duì)所述原始查詢的多個(gè) 潛在修訂的查詢;選擇所述多個(gè)潛在修訂的查詢的子集作為修訂的查詢;以及 提供對(duì)所述修訂的查詢的訪問。
32. —種計(jì)算機(jī)程序產(chǎn)品,用于使用多個(gè)查詢修訂策略來提供針 對(duì)原始查詢的修訂的查詢,所述計(jì)算機(jī)程序產(chǎn)品包括計(jì)算機(jī)可讀介質(zhì);以及 在所述介質(zhì)上編碼的計(jì)算機(jī)程序代碼,用于 才秦收所述原始查詢;將所述原始查詢提供到實(shí)施多個(gè)查詢修訂策略的修訂器; 從每個(gè)所述修訂器接收針對(duì)所述原始查詢的 一 個(gè)或者多個(gè) 潛在修訂的查詢;通過置信度度量對(duì)所述潛在修訂的查詢進(jìn)行排序,以創(chuàng)建所述潛在修訂的查詢的等級(jí);獲得針對(duì)所述潛在修訂的查詢中的每一個(gè)的搜索結(jié)果; 通過評(píng)估所述搜索結(jié)果,從所述潛在修訂的查詢選擇所述修 訂的查詢;以及提供對(duì)所述修訂的查詢的訪問。
33. —種計(jì)算機(jī)程序產(chǎn)品,用于使用多個(gè)查詢修訂策略來提供針 對(duì)原始查詢的修訂的查詢,所述計(jì)算機(jī)程序產(chǎn)品包括 計(jì)算機(jī)可讀介質(zhì);以及在所述介質(zhì)上編碼的計(jì)算機(jī)程序代碼,用于 ^接收所述原始查詢;將所述原始查詢提供到實(shí)施多個(gè)查詢修訂策略的修訂器; 從每個(gè)所述修訂器接收針對(duì)所述原始查詢的多個(gè)潛在修訂 的查詢中的一個(gè)或者多個(gè);通過置信度度量對(duì)所述多個(gè)潛在修訂的 查詢進(jìn)行排序,以創(chuàng)建所述多個(gè)潛在修訂的查詢的等級(jí); 將所述多個(gè)潛在修訂的查詢提供到搜索引擎; 從所述搜索引擎接收所述多個(gè)潛在修訂的查詢的結(jié)果; 獲得針對(duì)所述多個(gè)潛在修訂的查詢中的每一個(gè)的搜索結(jié)果;以及如果滿足特定條件,則通過維持所述多個(gè)潛在修訂的查詢中的每 一 個(gè),從等級(jí)的前面開始來從所述多個(gè)潛在修訂的查詢中選擇所述修訂的查詢,所述條件包括針對(duì)從所述多個(gè)潛在修訂的查詢選擇的修訂的查詢的搜索結(jié)果產(chǎn)生最小數(shù)量的搜索結(jié)果;針對(duì)所述選擇的修訂的查詢的4叟索結(jié)果;以及 所述選擇的修訂的結(jié)果不引起修訂的查詢的總數(shù)量超過預(yù)定的最大數(shù)量;以及 經(jīng)由在針對(duì)所述原始查詢的結(jié)果頁面上顯示的鏈接,提供對(duì) 所述#~訂的查詢的訪問。
34. —種使用多個(gè)查詢修訂策略提供針對(duì)原始查詢的修訂的查 詢的系統(tǒng),所述系統(tǒng)包括用于接收所述原始查詢的裝置;用于使用所述多個(gè)查詢修訂策略生成針對(duì)所述原始查詢的多個(gè) 潛在修訂的查詢的裝置;用于選擇多個(gè)潛在修訂的查詢的子集作為修訂的查詢的裝置;以及用于提供對(duì)所述修訂的查詢的訪問的裝置。
35. 根據(jù)權(quán)利要求34所述的系統(tǒng),其中所述系統(tǒng)可被定制用于 特定主題內(nèi)容領(lǐng)域。
36. —種使用多個(gè)查詢修訂策略提供針對(duì)原始查詢的修訂的查 詢的系統(tǒng),所述系統(tǒng)包括用于接收所述原始查詢的裝置;用于將所述原始查詢提供到實(shí)施多個(gè)查詢修訂策略的修訂器的 裝置;用于從每個(gè)所述修訂器接收針對(duì)所述原始查詢的一個(gè)或者多個(gè)潛 在修訂的查詢的裝置;用于通過置信度度量對(duì)所述潛在修訂的查詢進(jìn)行排序以創(chuàng)建所 述潛在修訂的查詢的等級(jí)的裝置;用于獲得針對(duì)所述潛在修訂的查詢中的每一個(gè)的搜索結(jié)果的裝置;用于通過評(píng)估所述搜索結(jié)果從所述潛在修訂的查詢選擇所述修 訂的查詢的裝置;以及用于提供對(duì)所述修訂的查詢的訪問的裝置。
37. —種使用多個(gè)查詢修訂策略提供針對(duì)原始查詢的修訂的查 詢的系統(tǒng),所述系統(tǒng)包括用于接收所述原始查詢的裝置; 用于將所述原始查詢提供到實(shí)施多個(gè)查詢修訂策略的修訂器的裝置;用于從每個(gè)所述修訂器接收針對(duì)所述原始查詢的多個(gè)潛在修訂的查詢中的一個(gè)或者多個(gè)的裝置;用于通過置信度度量對(duì)所述多個(gè)潛在修訂的查詢進(jìn)行排序以創(chuàng)建所述多個(gè)潛在修訂的查詢的等級(jí)的裝置;用于將所述多個(gè)潛在修訂的查詢提供到搜索引擎的裝置;用于從所述搜索引擎接收所述多個(gè)潛在修訂的查詢的結(jié)果的裝置;用于獲得針對(duì)所述多個(gè)潛在修訂的查詢中的每 一 個(gè)的搜索結(jié)果 的裝置;以及用于如果滿足特定條件,則通過維持所述多個(gè)潛在修訂的查詢中 的每 一 個(gè),從等級(jí)的前面開始來從所述多個(gè)潛在修訂的查詢中選擇 所述修訂的查詢的裝置,所述條件包括針對(duì)從所述多個(gè)潛在修訂的查詢選擇的修訂的查詢的搜索 所述結(jié)果產(chǎn)生最小數(shù)量的搜索結(jié)果;針對(duì)所述選擇的修訂的查詢的搜索結(jié)果;以及 所述選擇的修訂的結(jié)果不引起修訂的查詢的總數(shù)量超過預(yù) 定的最大數(shù)量;以及用于經(jīng)由在針對(duì)所述原始查詢的結(jié)果頁面上顯示的鏈接而提供 對(duì)所述修訂的查詢的訪問的裝置。
全文摘要
一種信息檢索系統(tǒng),包括查詢修訂架構(gòu),其集成了多個(gè)不同的查詢修訂器,每個(gè)查詢修訂器實(shí)現(xiàn)一個(gè)或者多個(gè)查詢修訂策略。修訂服務(wù)器接收用戶的查詢,并且與各個(gè)查詢修訂器連接,每個(gè)查詢修訂器生成一個(gè)或者多個(gè)潛在修訂的查詢。修訂服務(wù)器評(píng)估潛在修訂的查詢,并且選擇它們中的一個(gè)或者多個(gè)提供給用戶。
文檔編號(hào)G06F17/30GK101180625SQ200580049822
公開日2008年5月14日 申請(qǐng)日期2005年3月30日 優(yōu)先權(quán)日2005年3月29日
發(fā)明者A·J·巴特爾, B·A·戈梅斯, D·R·貝利, P·P·納亞克 申請(qǐng)人:谷歌公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
会宁县| 新和县| 庆安县| 名山县| 随州市| 唐山市| 金堂县| 稷山县| 大关县| 兖州市| 康马县| 临邑县| 霍山县| 沿河| 南江县| 麻栗坡县| 吉木乃县| 沁阳市| 泸西县| 神木县| 阳春市| 固原市| 巴青县| 凤翔县| 阿坝| 始兴县| 台北市| 合水县| 达孜县| 巴林左旗| 宁海县| 玛多县| 贵港市| 缙云县| 交城县| 津南区| 渝中区| 白城市| 高碑店市| 岢岚县| 新巴尔虎右旗|