專利名稱:利用刪除預測對多項查詢中項的相對值排名的系統(tǒng)和方法
技術(shù)領(lǐng)域:
-本發(fā)明涉及計算機搜索查詢。更具體而言,本發(fā)明涉及用于確定提交 給萬維網(wǎng)(World Wide Web)搜索引擎的包括兩個或更多個字(word)、 短語(phrase)、數(shù)字和符號的搜索査詢中的各種搜索項(term)的相對 價值的方法和裝置。
背景技術(shù):
許許多多的人每天都使用因特網(wǎng)搜索引擎來査找位于越來越多的網(wǎng)站 上的信息,這些網(wǎng)站具有各種各樣的商業(yè)和非商業(yè)內(nèi)容,這些內(nèi)容散布在 不同長度的幾十億個頁面上。對于Web的大量站點中的任何站點的基本挑 戰(zhàn)是可見性,即使得盡可能多的Web用戶知悉其存在。這對于商業(yè)站點來 說尤為重要,并且與其他媒體一樣,廣告是使?jié)撛陬櫩椭獣云錁I(yè)務(wù)、其商 品和其位置的主要手段。
Web仍然是最新的媒體形式。在Web上作廣告是極有競爭力的業(yè) 務(wù),其中廣告呈遞手段仍在發(fā)展。這種發(fā)展一部分由技術(shù)措施來引導,所 述技術(shù)措施例如是彈出廣告攔截器,用于消除通過先占顯示屏"土地"來 煩擾并且常常激怒用戶的廣告或站點鏈接。并且它一部分是通過下述方式 來引導的嘗試使廣告適當?shù)蒯槍撛谟脩簟1环旁诰W(wǎng)頁上保留的空間中 的橫幅廣告經(jīng)常只是"通用廣告",這種廣告通常提供到商業(yè)站點的鏈 接,但是其對顧客的針對性卻不比公路廣告牌強。
行式廣告(linead)是置于網(wǎng)頁上為其保留的空間中的一個或多個(通常是簡短的)句子,這些行式廣告提供到商業(yè)站點的鏈接,但是其針 對性常常也不是很強-尤其是在搜索項由多個字組成的情況下更是如此。 當搜索引擎不知道兩個或更多個字中的哪一個應(yīng)當被認為是最重要的搜索 項,或者不知道一些鄰接的字是否要被認為是單個搜索項時,就會導致搜 索引擎的針對性較差。廣告的針對性較差意味著廣告的有效性變低,這對 于對購買這種廣告的興趣和廣告的價格有負面的影響。利用現(xiàn)有方法,僅
在約30%的時間中可以預測多搜索項查詢中的重要搜索項。在圖3、 4和5 中可以看到此問題的當前結(jié)果的示例。在圖3中,搜索項是單個字,即被 標注為302的"Honda"。該頁面在被標注為304的右側(cè)列中有許多廣 告。類似地,在圖4中,搜索項是被標注為402的單個字"test",并且在 被標注為404的右側(cè)列中有許多廣告。但是在圖5中,搜索項是被標注為 502的"Honda test",在被標注為504的右側(cè)列中什么廣告也沒有。
理解査詢中的兩個或更多個搜索項的相對價值的更好手段將會更好地 集中廣告機會,并且增加搜索引擎公司及其廣告客戶的收入。例如,雙字 查詢占所有美國搜索査詢的近30%,但是卻不存在用于預測任一字與搜索 相對更相關(guān)的概率的方法,盡管知悉任一字對于搜索者意圖的相對重要性 對于搜索結(jié)果的相關(guān)性以及廣告機會來說顯然都是有價值的。
發(fā)明內(nèi)容
根據(jù)本發(fā)明,兩個或更多個搜索項的搜索引擎査詢的可能相關(guān)性是其 搜索項的刪除概率得分的函數(shù)。當兩個或更多個搜索項的搜索引擎查詢的 相關(guān)性得分大于預定的數(shù)值閾值時,搜索引擎查詢的搜索項之一將被認為 是與搜索最相關(guān)的搜索項。個體搜索項的相關(guān)性不僅影響搜索結(jié)果,還影 響廣告的針對性。
兩個或更多個搜索項的搜索査詢的個體搜索項的刪除概率得分是根據(jù) 其中在搜索項中的一個或多個被刪除之后后續(xù)查詢被同一用戶提交的兩個 或更多個搜索項的搜索査詢的歷史記錄來確定的。搜索査詢的特定搜索項 的刪除概率得分被計算為以下比率在由同一用戶進行的后續(xù)搜索之前特 定搜索項本身被刪除的次數(shù)除以其中包括該給定搜索項在內(nèi)的任意一個或多個搜索項在后續(xù)搜索之前被同一用戶刪除的由同一用戶進行的后續(xù)搜索 査詢的次數(shù)。
提交給搜索引擎的搜索查詢搜索項的刪除概率得分于是可用于確定搜 索查詢的相關(guān)性是否超過目標閾值,并且如果搜索査詢相關(guān)性超過了閾 值,則可用于確定哪個搜索項是該搜索查詢中影響搜索引擎關(guān)于哪些結(jié)果 與搜索最相關(guān)以及哪些廣告最適合與搜索結(jié)果一起返回的判定的最重要搜 索項。
因此,刪除概率得分使得可以大大提高搜索査詢搜索項對于廣告針對 性以及搜索查詢結(jié)果改進的價值。
圖1是示出用來為具有多個搜索項的搜索査詢形成刪除概率得分的方 法的邏輯流程圖。
圖2是搜索查詢搜索項的刪除概率被用于將適合搜索項之一的廣告置 于搜索結(jié)果頁面上的過程的邏輯流程圖。
圖3是適合單搜索項搜索查詢的右側(cè)列行式廣告中示出的萬維網(wǎng)搜索 結(jié)果頁面。
圖4是適合另一個單搜索項搜索查詢的右側(cè)列行式廣告中示出的萬維 網(wǎng)搜索結(jié)果頁面。
圖5是一個萬維網(wǎng)搜索結(jié)果頁面,其中示出了圖3和4的兩個單搜索 項搜索查詢被組合成一個雙搜索項查詢,其結(jié)果是不顯示行式廣告。
圖6是示出用來根據(jù)本發(fā)明為具有多個搜索項的搜索查詢形成刪除概 率得分的系統(tǒng)的框圖。
圖7是示出一個系統(tǒng)的框圖,搜索引擎利用該系統(tǒng)根據(jù)本發(fā)明響應(yīng)于 多個搜索項的互聯(lián)網(wǎng)搜索査詢返回廣告。
具體實施例方式
現(xiàn)在將參考附圖中圖示的本發(fā)明的幾個優(yōu)選實 例來詳細描述本發(fā) 明。在以下描述中,闡述了許多具體細節(jié)以幫助全面理解本發(fā)明。但對于本領(lǐng)域的技術(shù)人員來說很明顯的是,沒有這些具體細節(jié)中的一些或全部也 能實現(xiàn)本發(fā)明。此外,沒有詳細描述公知的過程步驟和/或結(jié)構(gòu),以避免不 必要地喧賓奪主。參考附圖和下面的討論可以更好地理解本發(fā)明的特征和 優(yōu)點。
搜索査詢搜索項
搜索査詢由一個或多個"搜索項"組成。搜索查詢搜索項的實例包括
個體的字母字(alphabetic word)、字母字片段、非字母字(non-alphabetic word)、非字母字片段、首字母縮略詞、縮寫詞、個體的符號、字母、非 字母字成分以及數(shù)字。搜索項的實例還包括具有各種關(guān)系中的任何一種的
上述實例的群組,包括兩個或更多個鄰接的字母字或字母字片段;兩個 或更多個鄰接的非字母字或字片段;兩個或更多個鄰接的符號;兩個或更 多個鄰接的數(shù)字;兩個或更多個鄰接的首字母縮略詞;以及字母和/或非字 母字和域字片段和域符號和域首字母縮略詞和域數(shù)字和/或縮寫詞的各種 組合。
雖然在這里是聯(lián)系字母語言來討論本發(fā)明的,但是本發(fā)明適用于由包 括ASCII或Unicode數(shù)字的一個或更多個串或者任何合適的代碼的兩個或 更多個搜索項組成的任何搜索查詢。
計算刪除概率
確定兩個或更多個搜索項的搜索引擎查詢中使用的許多搜索項的相對 價值可以使得許多兩個或更多個搜索項的搜索查詢對于用作廣告鏈接和改 進搜索結(jié)果有價值。知悉在搜索項本身或同一查詢中的另一搜索項在同一 搜索引擎用戶進行的實際后續(xù)搜索中被刪除之前該搜索項出現(xiàn)在實際先前 搜索中的頻率可以給出該搜索項的刪除概率,該刪除概率可被用于計算兩 個或更多個搜索項的搜索引擎査詢的相對價值。
在圖1和6中,圖示了用于計算多搜索項搜索査詢中的搜索項的刪除 概率得分的示例性方法和系統(tǒng)。圖6示出了一個計算機系統(tǒng),該計算機系
統(tǒng)具有輸入/輸出裝置602;系統(tǒng)總線604;中央處理單元606;以及存
儲裝置614,該存儲裝置614包含歷史互聯(lián)網(wǎng)搜索查詢記錄608;計算 器610,用于確定互聯(lián)網(wǎng)搜索査詢記錄608中包含的搜索項的刪除概率得有刪除概率得分。在圖1中針對 多字搜索査詢中涉及的字,圖示了用于計算刪除概率得分的方法,其中雙 字查詢的一個字被刪除并且同一用戶進行的后續(xù)搜索被進行。雖然此示例 是利用其中每個字是一個搜索項的雙字搜索查詢來說明的,但是用于計算 刪除預測得分的方法中使用的技術(shù)也適用于三個或更多個字的搜索査詢, 包括三個或更多個搜索項的搜索査詢,以及涉及除字母字之外的其他搜索 項的搜索査詢。
在步驟106中,從步驟104中收集的雙字搜索查詢的記錄中選擇一個 搜索查詢搜索項,例如Honda。允許雙字搜索査詢中的另一個字是任何其 他單個字。步驟108發(fā)現(xiàn)在同一用戶進行的后續(xù)搜索之前,雙字査詢中存 在對Honda或其他字之一的字刪除。為了在步驟116中計算Honda的刪除 概率得分,首先將某個字在同一用戶進行的后續(xù)搜索中被從包括Honda的 雙字搜索査詢中刪除的次數(shù)制成表格。Honda在其中一個字來自在同一用 戶進行的后續(xù)搜索之前的雙字搜索査詢的數(shù)據(jù)樣本中被觀察到6059次。 在這6059次中,字Honda被刪除了 1874次。Honda被刪除的次數(shù)除以包 括Honda的雙字搜索査詢中的任何字被刪除的次數(shù)的比率是1874/6059, 或者說約0.31,這就是刪除概率得分。其他統(tǒng)計方法,包括被稱為"平 滑"的技術(shù),也可被用于計算刪除概率得分。當在步驟116中計算了 Honda的刪除概率得分之后,在步驟118中它被添加到刪除概率得分的列 表。
此計算將Honda的刪除概率與和Honda同處一個雙字查詢中的任何其 他搜索項的刪除相比較。這就是Honda的刪除概率得分與雙字查詢的"其 他任何內(nèi)容"的刪除概率得分。
更一般而言,用于計算作為個體字的兩個搜索項之一被刪除的似然的 最大似然估計的比率是該搜索項被刪除的次數(shù)除以該搜索項出現(xiàn)在同一用 戶進行的后續(xù)搜索之前的其中有字被刪除的搜索查詢中的次數(shù),在用于估 計刪除概率得分的這一方法中,該比率可被表達為
<formula>formula see original document page 9</formula>公式1給出了由個體字組成的兩個搜索項(&gram)的查詢的最大似 然估計,其中w是第一字,w,.是第二字。這種^'gmm搜索查詢的刪除概 率得分可用于利用圖2所示的方法確定査詢的搜索項的相關(guān)性。
用于確定査詢搜索項的相對價值的列表
在搜索項本身或同一查詢中的另一搜索項在同一用戶進行的實際后續(xù) 搜索中被刪除之前從該搜索項出現(xiàn)的這些實際先前搜索中提取出的刪除概 率得分的列表是以下工作的關(guān)鍵確定多搜索項查詢中的搜索項的相對價 值,以判定多搜索項查詢的任何搜索項是否要被用于伴隨著多搜索項查詢 的搜索結(jié)果顯示廣告。對搜索査詢中找到的搜索項而言,除了在搜索項本 身或同一查詢中的另一搜索項被刪除之前從該搜索項出現(xiàn)的實際先前搜索 中提取出的刪除概率得分的列表之外,還需要兩個其他列表來判定多搜索 項查詢的任何搜索項是否被用于伴隨著搜索結(jié)果顯示廣告。所需要的第二 列表是"短語"列表——短語例如可以是兩個字,這兩個字可以被預期 以出現(xiàn)在搜索窗口中的順序同時出現(xiàn)。第三列表是與可用廣告中的搜索項 有精確匹配的搜索項的列表。
刪除概率列表
一個實施例涉及由兩個字母字組成的搜索査詢。
搜索查詢由兩個字母字組成的實施例所使用的一個列表是這樣一個列 表,該列表中包括在其中一個字在同一用戶進行的后續(xù)搜索中被刪除的雙 字搜索査詢中找到的一大組字中的每一個的刪除概率得分。其中一個字在 同一用戶進行的后續(xù)搜索中被刪除的雙字搜索查詢的這個列表是通過檢查 搜索引擎查詢記錄來形成的。在步驟104中,雙字搜索査詢的集合被收 集。在步驟106中一個查詢被選擇,并且在步驟108中其査詢記錄被檢 查,以了解雙字搜索查詢中的兩個字之一是否被刪除并且由同一用戶進行 的后續(xù)搜索已被進行。如果否,則在步驟106中另一査詢被選擇。但是, 如果雙字搜索査詢中的兩個字之一被刪除并且由同一用戶進行的后續(xù)搜索 被進行了,則在步驟110中查詢數(shù)目被增加1,在步驟111中確定査詢搜 索項是兩個單獨的字,并且在步驟112中,被刪除的字被添加到刪除列 表。當步驟114發(fā)現(xiàn)沒有更多査詢要檢查時,在步驟116中,通過用每個字被刪除的次數(shù)除以兩個字中的任何一個被刪除的次數(shù),來計算其中一個 字在同一用戶進行的后續(xù)搜索中被刪除的雙字搜索査詢中的所有字的刪除
概率。在步驟118中,所有這些字及其刪除概率得分的列表被創(chuàng)建,并且 過程在步驟120結(jié)束。 短語列表
搜索項是兩個字母字的實施例中所需的第二列表是雙字短語列表。 "搜索項"這一表述既可以指短語也可以指個體字??深A期會以其出現(xiàn)在 搜索窗口中的順序同時出現(xiàn)的兩個字的示例包括名稱,例如"Tom Cruise";以及短語,例如"fighter aircraft" 、 "middle ages",以及名為 "bad attitude"的樂團??深A期會以特定順序同時出現(xiàn)的兩個字的這種例 子在這里被稱為"短語"。很明顯,如果可以預期字會以其出現(xiàn)在搜索窗 口中的順序同時出現(xiàn),則單獨搜索每個字對于發(fā)起査詢的搜索引擎用戶來 說是不適當?shù)?,而且也不太可能有什么幫助?廣告列表
搜索項是兩個字母字的實施例中所需的第三列表是與可用廣告中的搜 索項有精確匹配的搜索項的列表。
因此,在開始檢査雙字搜索查詢的過程之前,搜索引擎已經(jīng)具備了對 以下列表的訪問權(quán)限存儲在位于數(shù)據(jù)存儲裝置726中的720中的從各種 來源積累的大量雙字組合——短語——的列表;存在于位于數(shù)據(jù)存儲裝 置726中的722中的在雙字搜索査詢中找到的字的刪除概率得分的列表; 以及位于數(shù)據(jù)存儲裝置726中的724中的與可用廣告中的搜索項有精確匹 配的搜索項的列表。
雖然這里說明了使用兩個搜索項的實施例,但是應(yīng)當理解,利用所說 明技術(shù)可以實現(xiàn)用于確定任何大于2個搜索項的搜索查詢的每個搜索項的 相關(guān)性的其他實施例。并且因此,在需要時也可對三個或更多個搜索項的 相關(guān)性進行排名,而不是只專注于最相關(guān)的搜索項。
利用刪除預測來確定搜索引擎査詢中的搜索項的相關(guān)性
用于廣告目的并且針對搜索結(jié)果的多搜索項搜索引擎查詢的可能的相 關(guān)性是搜索項的刪除概率得分的函數(shù)。用于量化作為適合于具有兩個搜索項的查詢的刪除概率的函數(shù)的多搜索項搜索引擎查詢的可能相關(guān)性的有用 計算由以下公式給出 [公式2]
-0.0448(NWD) + 1.1639 (DP搜索項1) + 1.2635 (l國DP搜索項2)=査詢相關(guān) 性值
其中NWD = ^J /^^y^^^索艱屮游^^教^;
DP搜索項1 =凝#/餘潛一索艱游#/餘凝率; DP搜索項2 =凝保窗澄縈艱游蘼餘凝率。
因此,當搜索引擎接收到雙搜索項查詢時,它可以通過以下操作使用
公式2來判定兩個搜索項的搜索查詢的相關(guān)性首先刪除搜索項之一,并
且通過利用被刪除搜索項中的字的數(shù)目、被刪除搜索項的刪除概率和"被 保留搜索項"(未被刪除的搜索項)的刪除概率來計算查詢相關(guān)性。在利 用關(guān)于哪個搜索項被刪除的這些假設(shè)計算搜索查詢相關(guān)性之后,利用相反 的假設(shè)再次計算搜索查詢相關(guān)性值。也就是說,先前被刪除的搜索項現(xiàn)在 是被保留的搜索項,而先前被保留的搜索項現(xiàn)在是被刪除的搜索項,重新
計算公式2并獲得第二搜索查詢相關(guān)性值。如果這些計算出的相關(guān)性值中 的任何一個超過了搜索查詢相關(guān)性閾值,則認為查詢具有適合于連同搜索 結(jié)果返回廣告的搜索項。并且產(chǎn)生超過相關(guān)性閾值的相關(guān)性值的被保留搜 索項是被選擇為就返回廣告而言最相關(guān)的搜索項。
其他這樣的刪除概率函數(shù)也可用于確定用于廣告目的的針對搜索結(jié)果 的多搜索項搜索查詢的相關(guān)性。公式2的不那么一般化的應(yīng)用示出了兩個 搜索項的搜索查詢的可能相關(guān)性可作為刪除概率的函數(shù)被確定的方式,正 如從這里討論的實施例中所看到的,其中搜索項的刪除概率得分之間的絕 對差被計算作為搜索查詢的相關(guān)性的得分,并且如果該值超過相關(guān)性閾 值,則具有最低刪除概率得分的搜索項是被選擇為就返回廣告而言最相關(guān) 的搜索項。
搜索查詢由兩個搜索項組成并且這兩個搜索項是字母字的實施例 現(xiàn)在參考圖2和7,其中示出了用于利用刪除概率得分來確定搜索查 詢搜索項的相關(guān)性以響應(yīng)于搜索引擎査詢選擇和顯示廣告的示例性方法和系統(tǒng)。圖7示出了一個系統(tǒng),其中用戶輸入多搜索項搜索査詢到搜索査詢
窗口 708中,該搜索査詢窗口 708被顯示在客戶端web瀏覽器顯示704 中。查詢經(jīng)由互聯(lián)網(wǎng)702被發(fā)送到搜索引擎服務(wù)器710。搜索引擎服務(wù)器 710中的文檔鏈接檢索器712訪問存儲在數(shù)據(jù)存儲裝置716中的萬維網(wǎng)文 檔鏈接718,并且經(jīng)由互聯(lián)網(wǎng)702將其返回到客戶端web瀏覽器顯示 704,在這里文檔鏈接被顯示在搜索結(jié)果706中。此外,響應(yīng)于同一個互 聯(lián)網(wǎng)搜索査詢,搜索引擎服務(wù)器710中的廣告檢索器714訪問存儲在數(shù)據(jù) 存儲裝置726中的短語列表720、査詢中搜索項刪除概率得分722和廣告 列表724,然后使用圖2的方法來確定哪些廣告適合搜索查詢,并且如果 存在適合搜索查詢的廣告則經(jīng)由互聯(lián)網(wǎng)702將廣告返回到客戶端瀏覽器顯 示704,在這里它們伴隨檢索出的萬維網(wǎng)文檔鏈接被顯示在搜索結(jié)果706 中。
圖2的方法可利用雙字搜索查詢來說明。在步驟204中,通過以下操 作確定兩個字和它們出現(xiàn)在搜索窗口中的順序是或不是一個單元將搜索 引擎用戶放在搜索窗口中的字和它們出現(xiàn)在搜索窗口中的字順序與位于數(shù) 據(jù)存儲裝置726中的可預期會以特定順序同時出現(xiàn)的兩個字的短語的列表 720相比較。如果搜索引擎用戶放在搜索窗口中的兩個字以它們出現(xiàn)在搜 索窗口中的字順序存在于短語列表上,并且,在此實施例中,步驟208發(fā) 現(xiàn),査詢中除了這兩個字外沒有更多的字,那么步驟212將會發(fā)現(xiàn)在查詢 中沒有更多的搜索項,并且過程進行到步驟226。在步驟226,將該單元 與存在于廣告列表中的短語相比較,并且尋找精確匹配。如果該單元在位 于數(shù)據(jù)存儲裝置726中的廣告列表724中的廣告列表中有精確匹配,則對 搜索查詢的搜索引擎響應(yīng)是伴隨搜索結(jié)果返回廣告,其中廣告被顯示在預 先指定的區(qū)域中。過程隨后進行到步驟230,在該步驟中過程結(jié)束。如果 在廣告列表中沒有找到該單元的精確匹配,則過程直接轉(zhuǎn)到步驟230,在 該步驟中過程結(jié)束。
但是,如果在步驟204發(fā)現(xiàn)雙字査詢不是一個單元,則步驟210將每 個字分類為一個搜索項,并且步驟212發(fā)現(xiàn)該查詢由兩個搜索項組成。步 驟214詢問是否存在搜索項之一的刪除概率得分。如果在位于數(shù)據(jù)存儲裝置726中的刪除概率列表722中的刪除概率得分列表中沒有搜索項的刪除 概率得分,則在步驟216中為該搜索項分配默認的刪除概率得分,并且過 程進行到步驟220。已經(jīng)證明在步驟216分配等于0的默認刪除概率得分 既實用而且又在數(shù)學上可接受。如果相反該搜索項確實具有刪除概率得 分,則在步驟218中為該搜索項分配該刪除概率得分。在任一種情況下, 都會分配刪除概率得分,并且過程進行到步驟220,在該步驟中,由于在 査詢中有第二搜索項,因此過程返回步驟214以査明第二搜索項是否具有 位于數(shù)據(jù)存儲裝置726中的刪除概率列表722中的刪除概率得分。同樣, 如果該搜索項不具有刪除概率得分,則在步驟216中分配默認刪除概率得 分,并且過程再次進行到步驟220,以詢問是否有更多的搜索項。但是, 如果相反該第二搜索項具有刪除概率得分,則在步驟218中分配該刪除概 率得分,并且過程進行到步驟220,現(xiàn)在在該步驟中確定査詢中沒有更多 的搜索項,因此過程進行到步驟222。在步驟222中,比較査詢的兩個搜 索項的刪除概率得分。然后,在步驟224中,確定査詢的兩個搜索項的刪 除概率得分的絕對差是否大于或等于預先固定的閾值差。基于數(shù)學分析、 實驗和市場需求發(fā)現(xiàn)閾值0.50是閾值差的合適值。要等于或超過閾值 0.50, 一個搜索項被刪除的可能性必定大于不被刪除的可能性(刪除概率 大于或等于0.5),而另一搜索項被保留的可能性大于被刪除的可能性 (刪除概率小于或等于0)。如果刪除概率得分的差的絕對值不大于預先 固定的閾值差,則過程進行到步驟230,在該步驟中過程停止。但是,如 果刪除概率得分的差的量確實大于預先固定的閾值差,則在步驟226中, 在廣告列表中尋找搜索項的精確匹配。如果搜索項在被指定為數(shù)據(jù)存儲裝 置726中的廣告列表724的廣告列表中有精確匹配,則對搜索引擎査詢的 搜索引擎響應(yīng)是在步驟228中伴隨搜索結(jié)果返回廣告,其中廣告可被顯示 在頁面的預先指定的區(qū)域中。過程隨后進行到步驟230,在該步驟中過程 停止。如果在廣告列表中沒有找到搜索項的精確匹配,則過程直接轉(zhuǎn)到步 驟230,在該步驟中過程停止。
在對此實施例的說明中,對雙字查詢HONDA TEST的搜索引擎響應(yīng) 開始于搜索引擎在步驟202中接收到査詢。步驟204詢問HONDA TEST是否是一個單元。當位于數(shù)據(jù)存儲裝置726中的短語列表720被搜索并且 發(fā)現(xiàn)HONDA TEST不是一個單元時,步驟210將兩個字HONDA和TEST 中的每一個分類為一個單獨的搜索項。并且由于步驟212發(fā)現(xiàn)存在兩個或 更多個搜索項,因此步驟214搜索位于數(shù)據(jù)存儲裝置726中的DP列表 722,以確定HONDA是否具有刪除概率得分。HONDA的刪除概率得分約 為0.31,于是在步驟218中將0.31分配給搜索項HONDA。響應(yīng)于詢問在 査詢中是否有更多的搜索項的步驟220,過程返回步驟214,并且向位于 數(shù)據(jù)存儲裝置726中的列表722詢問TEST的刪除概率得分。TEST的刪除 概率得分約為0.89,于是在步驟218中將0.89分配給TEST?,F(xiàn)在,響應(yīng) 于詢問在查詢中是否有更多的搜索項的步驟220,答復是否,并且在步驟 222中搜索項HONDA和TEST的刪除概率得分的絕對差被計算。査詢中 的兩個搜索項的刪除概率得分的絕對差如果超過,則如果在步驟226中找 到具有較低刪除概率得分的搜索項(在此查詢中是HONDA)的精確匹配 的話,在步驟228中可能導致廣告被顯示在搜索結(jié)果頁面上。將會觸發(fā)步 驟226中對HONDA的精確匹配的搜索的兩個搜索項之間刪除概率得分的 合適閾值差已經(jīng)預先被固定在0.50。步驟224發(fā)現(xiàn)HONDA具有約0.31的 刪除概率得分而TEST具有約0.89的刪除概率得分,絕對差約為0.58,這 大于閾值差0.50。由于HONDA具有較低的得分,因此在步驟226中考查 位于數(shù)據(jù)存儲裝置726中的廣告列表724以尋找HONDA的精確匹配。精 確匹配被找到,從而在步驟228中HONDA廣告伴隨搜索結(jié)果被返回到客 戶端瀏覽器,顯示在頁面的預先指定的區(qū)域中,并且過程在步驟230中停 止。
圖3、 4和5示出了先前方法未能在頁面的右側(cè)列中的行式廣告空間 中產(chǎn)生任何廣告。HONDA作為單個搜索項302已在標注為304的區(qū)域中 產(chǎn)生了許多行式廣告。類似地,TEST作為單個搜索項402也已在標注為 404的區(qū)域中產(chǎn)生了許多行式廣告。但是兩個搜索項作為搜索查詢502被 一起使用時,結(jié)果是在標注為504的行式廣告空間中沒有任何廣告。
在另一實施例中,示例性的搜索査詢具 三個字,其中的兩個是一個 單元。這意味著三個字的示例性搜索査詢具有兩個搜索項。作為單元的搜索項在步驟206中將被分類為一個搜索項,不是該搜索項的一部分的字將 在步驟210中被分類為一個搜索項。在步驟212中確定存在兩個搜索項, 并且步驟214詢問一個搜索項是否具有刪除概率得分。如果有,則在步驟 218中該搜索項被分配以它的得分。如果沒有,則在步驟216中該搜索項 被分配以默認得分。然后,如果第二搜索項具有刪除概率得分則在步驟 218中它被分配以其刪除概率得分,如果沒有則被分配以默認刪除概率得 分。在步驟222中這些得分之間的絕對差被計算,并且如果在步驟224中 絕對差大于闊值,則在步驟226中尋找廣告列表中該搜索項的精確匹配, 如果找到,則廣告伴隨搜索結(jié)果被返回并被置于頁面上的指定空間中,并 且過程停止。但是,如果在步驟226中沒有精確匹配或者刪除概率得分的 絕對差小于閾值,則過程就會停止了。
也可以為其他實施例計算刪除概率得分,這些其他實施例包括具有比 這里示出的說明性示例中所討論的要多得多的搜索項的實施例。計算其中 搜索項在同一用戶進行的后續(xù)搜索中被刪除的《個搜索項(即wgmm)的 搜索査詢的更一般情況的刪除概率得分的一種方法由以下公式來表達-
<formula>formula see original document page 16</formula>公式3給出了具有任何數(shù)目的搜索項并且這些搜索項是個體字 ( gmm)的查詢最大似然估計,其中w是第一字,w"是第n字。
由圖1和6所示的針對任何數(shù)目的搜索項的搜索査詢的系統(tǒng)和方法所 確定的刪除概率得分可用于確定《gmm的搜索査詢的搜索項的相關(guān)性,并 因此可用于利用圖2和7所示的方法的系統(tǒng)來選擇和顯示有針對性的廣
告
利用雙搜索項搜索查詢的示例可以清楚看出利用刪除概率來找出兩個 或更多個搜索項的搜索査詢的更相關(guān)的字的價值的示例。在本發(fā)明之前只 能在不到30%的時間中預測雙搜索項査詢的搜索項之一的相關(guān)性,而根據(jù) 我們的實驗中的計算,可以在61%的時間中預測雙搜索項査詢的搜索項之 一的相關(guān)性。由于我們發(fā)現(xiàn)我們的歷史數(shù)據(jù)中30%的搜索查詢是兩個搜索 項的查詢,因此單對這些査詢而言,刪除預測就能具有重要應(yīng)用。并且,由于刪除預測技術(shù)被應(yīng)用到W搜索項的搜索査詢,因此刪除預測對廣告針 對性的影響相當廣泛。
但是,在搜索査詢搜索項相關(guān)性上的任何改進不僅提高廣告針對性和 廣告機會。對于搜索引擎用戶來說的一個顯然很重要的益處是通過頻繁地 幫助確定多搜索項搜索査詢中的各種搜索項的相關(guān)性,刪除概率得分也提 高了搜索結(jié)果的適當性。
例外列表
刪除預測的另一個優(yōu)點是它可用于進一步增強識別兩個或更多個搜索 項的搜索査詢中的高相關(guān)性搜索項的工作。這可以利用"例外"列表來完
成。像這里的說明(其中HONDA是雙字查詢的一個字,其中每個字是一 個搜索項)中的HONDA的刪除概率得分那樣的刪除概率得分是在以下操 作之后進行的計算的結(jié)果分析其中HONDA或另一字在同一用戶進行的 后續(xù)搜索之前被刪除的搜索查詢記錄,并將每個字被刪除的次數(shù)和被刪除 的字是HONDA的次數(shù)制成表格以進行刪除概率得分計算。刪除概率得分 是基于實際歷史數(shù)據(jù)的,其中HONDA被與<任何內(nèi)容>相比較,也就是 說,與其中一個字在同一用戶進行的后續(xù)搜索之前被刪除的雙字搜索査詢
的搜索査詢記錄中的每一個其他字相比較。同一方法被用于得到除 HONDA外的其他字的刪除概率得分。并且,正如這里所見,具有與 HONDA相差不超過閾值0.50的刪除預測得分的字當在雙字搜索査詢中與 HONDA具體配對時將會導致不伴隨搜索結(jié)果向用戶返回廣告。然而,在 歷史數(shù)據(jù)表明當與HONDA具體配對時某個字已被確定具有與HONDA相 差小于閾值量的刪除得分的情況下,該字可能是在由同一用戶進行的后續(xù) 雙字搜索查詢中通常會刪除的字。如果是這樣的話,在這種情況下存在這 樣的機會,即盡管兩個單字搜索項的刪除概率得分相差不超過閾值,卻仍 顯示HONDA廣告。雖然許多這樣的情況都不太重要或者沒有什么價值, 但在一些情況下卻不是這樣。如果識別出特別感興趣的廣告者(例如 HONDA),貝U HONDA〈任何內(nèi)容〉過程可用于拉出這樣的字其刪除概 率得分與HONDA的刪除概率得分相差不超過閾值差,但在與HONDA配 對時卻很有可能是被刪除的字,如果在同一用戶進行的后續(xù)搜索之前已經(jīng)進行過刪除的話。如果找到這樣的字,并且一些現(xiàn)有的或潛在的廣告客戶 對于這些配對特別感興趣,則這種字配對的列表被制作并被用作"例外過 濾器",以便這種情況下的廣告針對性不受刪除概率得分比較的影響。這 種過濾器可以與過程中用來嘗試使用刪除預測提高廣告針對性的其他列表 一起被存儲在數(shù)據(jù)存儲裝置中。該例外過濾器對于多于兩個搜索項的搜索 査詢也有價值。 發(fā)明范圍
雖然已經(jīng)就若干個優(yōu)選實施例描述了本發(fā)明,但是存在變更、修改、 置換和替換等同,它們都落在本發(fā)明的范圍內(nèi)。還應(yīng)當注意,存在許多實 現(xiàn)本發(fā)明的方法和裝置的替換方式。雖然提供了小節(jié)標題來幫助對本發(fā)明 的描述,但是這些標題只是說明性的,而并不意圖限制本發(fā)明的范圍。此
外,雖然以上對本發(fā)明的描述是在基于web的頁面分類的上下文中的,但
是本領(lǐng)域的技術(shù)人員將能夠在其他分類應(yīng)用中實現(xiàn)本發(fā)明。
因此,希望所附權(quán)利要求被解釋為包括落在本發(fā)明的真實精神和范圍 之內(nèi)的所有這種變更、修改、置換和替換等同。
權(quán)利要求
1.一種用于識別后續(xù)多搜索項搜索查詢中的相關(guān)搜索項的計算機實現(xiàn)的方法,該方法包括跟蹤多個多搜索項搜索查詢中的每個特定搜索項的刪除次數(shù),其中所述多個多搜索項搜索查詢中的每一個包括每個特定搜索項;跟蹤所述多個多搜索項搜索查詢中的刪除總次數(shù);通過用特定搜索項的刪除次數(shù)除以所述多個多搜索項搜索查詢中包含該特定搜索項的一個被選擇的多搜索項搜索查詢中的刪除總次數(shù),來根據(jù)每個特定搜索項的刪除次數(shù)和刪除總次數(shù)確定每個特定搜索項的刪除概率;基于所述后續(xù)多搜索項搜索查詢的每個特定搜索項的刪除概率,確定所述后續(xù)多搜索項搜索查詢的相關(guān)性值;確定所述相關(guān)性值是否超過閾值;在確定所述相關(guān)性值超過所述閾值時,識別所述后續(xù)多搜索項搜索查詢中的相關(guān)搜索項,所述相關(guān)搜索項的刪除概率小于來自所述后續(xù)多搜索項搜索查詢的其余搜索項的刪除概率;利用所述相關(guān)搜索項從推薦內(nèi)容存儲器中檢索與所述相關(guān)搜索項有關(guān)的多個推薦內(nèi)容,其中所述多個推薦內(nèi)容包括廣告鏈接和搜索結(jié)果中的至少一個;以及在客戶端瀏覽器上的預定區(qū)域中向用戶顯示所述多個推薦內(nèi)容。
2. —種用于識別后續(xù)多搜索項搜索査詢中的相關(guān)搜索項的計算機實現(xiàn) 的系統(tǒng),該系統(tǒng)包括推薦內(nèi)容存儲器,用于存儲與關(guān)鍵字有關(guān)的內(nèi)容;刪除預測器,其被配置為跟蹤多個多搜索項搜索查詢中的每個特定 搜索項的刪除次數(shù),其中所述多個多搜索項搜索査詢中的每一個包括每個 特定搜索項;跟蹤所述多個多搜索項搜索查詢中的刪除總次數(shù);以及通過 用特定搜索項的刪除次數(shù)除以所述多個多搜索項搜索査詢中包含該特定搜 索項的一個被選擇的多搜索項搜索查詢中的刪除總次數(shù),來根據(jù)每個特定搜索項的刪除次數(shù)和刪除總次數(shù)確定每個特定搜索項的刪除概率;相關(guān)性識別器,其被配置為基于所述后續(xù)多搜索項搜索査詢的每個 特定搜索項的刪除概率,確定所述后續(xù)多搜索項搜索查詢的相關(guān)性值;確 定所述相關(guān)性值是否超過閾值;以及在確定所述相關(guān)性值超過所述閾值 時,識別所述后續(xù)多搜索項搜索查詢中的相關(guān)搜索項,所述相關(guān)搜索項的 刪除概率小于來自所述后續(xù)多搜索項搜索査詢的其余搜索項的刪除概率;內(nèi)容服務(wù)器,用于接收所述相關(guān)搜索項并且從所述推薦內(nèi)容存儲器選 擇多個推薦內(nèi)容,所述選擇是基于所述相關(guān)搜索項和與所述相關(guān)搜索項有 關(guān)的所述多個推薦內(nèi)容執(zhí)行的,其中所述多個推薦內(nèi)容包括廣告鏈接和搜 索結(jié)果中的至少一個;以及顯示器,用于在客戶端瀏覽器上的預定區(qū)域中向用戶顯示所述多個推 薦內(nèi)容。
3. 如權(quán)利要求1所述的計算機實現(xiàn)的方法,包括將每個特定搜索項的 刪除概率添加到刪除概率得分列表中。
4. 如權(quán)利要求3所述的計算機實現(xiàn)的方法,其中所述基于后續(xù)多搜索 項搜索査詢的每個特定搜索項的刪除概率確定所述后續(xù)多搜索項搜索查詢 的相關(guān)性值包括從所述刪除概率得分列表中檢索所述后續(xù)多搜索項搜索查 詢的每個特定搜索項的刪除概率。
5. 如權(quán)利要求1所述的計算機實現(xiàn)的方法,其中所述基于后續(xù)多搜索 項搜索查詢的每個特定搜索項的刪除概率確定所述后續(xù)多搜索項搜索查詢 的相關(guān)性值包括確定所述后續(xù)多搜索項搜索查詢的每個特定搜索項的刪除 概率之間的絕對差。
6. 如權(quán)利要求5所述的計算機實現(xiàn)的方法,其中所述確定后續(xù)多搜索 項搜索査詢的每個特定搜索項的刪除概率之間的絕對差還包括應(yīng)用調(diào)節(jié)因 子。
7. 如權(quán)利要求2所述的計算機實現(xiàn)的系統(tǒng),包括用于存儲刪除概率得 分列表的刪除概率存儲器,其中每個刪除概率得分是每個特定搜索項的刪 除概率。
8. 如權(quán)利要求7所述的計算機實現(xiàn)的系統(tǒng),其中所述相關(guān)性識別器被配置成通過從所述刪除概率存儲器中存儲的刪除概率得分列表中檢索所述 后續(xù)多搜索項搜索査詢的每個特定搜索項的刪除概率,來基于所述后續(xù)多 搜索項搜索査詢的每個特定搜索項的刪除概率確定所述后續(xù)多搜索項搜索 査詢的相關(guān)性值。
9. 如權(quán)利要求2所述的計算機實現(xiàn)的系統(tǒng),其中所述相關(guān)性識別器被 配置成通過確定所述后續(xù)多搜索項搜索查詢的每個特定搜索項的刪除概率 之間的絕對差,來基于所述后續(xù)多搜索項搜索査詢的每個特定搜索項的刪 除概率確定所述后續(xù)多搜索項搜索查詢的相關(guān)性值。
10. 如權(quán)利要求9所述的計算機實現(xiàn)的系統(tǒng),其中被配置成確定所述后續(xù)多搜索項搜索査詢的每個特定搜索項的刪除概率之間的絕對差的所述 相關(guān)性識別器還被配置成應(yīng)用調(diào)節(jié)因子。
全文摘要
本發(fā)明公開了利用刪除預測對多項查詢中項的相對值排名的系統(tǒng)和方法。兩個或更多個搜索項的搜索引擎查詢的每個搜索項的可能相關(guān)性由它們的刪除概率得分確定。如果刪除概率得分很不相同,則刪除概率得分可用于伴隨搜索結(jié)果返回與更相關(guān)的一個或多個搜索項有關(guān)的針對性廣告。刪除概率得分是通過首先收集其中在搜索項中的一個或多個被刪除之后后續(xù)查詢被同一用戶提交的兩個或更多個搜索項的搜索查詢的歷史記錄來確定的。搜索查詢的特定搜索項的刪除概率得分被計算為以下比率在由同一用戶進行的后續(xù)搜索之前特定搜索項本身被刪除的次數(shù)除以其中包括該給定搜索項在內(nèi)的任何一個或多個搜索項在后續(xù)搜索之前被同一用戶刪除的由同一用戶進行的后續(xù)搜索查詢的次數(shù)。搜索項不限于個體的字母字。
文檔編號G06F17/30GK101615202SQ20091015147
公開日2009年12月30日 申請日期2005年12月14日 優(yōu)先權(quán)日2004年12月14日
發(fā)明者丹尼爾·C·費恩, 羅斯·瓊斯 申請人:雅虎公司