專利名稱:一種個性化網(wǎng)址導(dǎo)航的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及互聯(lián)網(wǎng)信息處理技術(shù)領(lǐng)域,特別是涉及一種針對用戶的個性化 網(wǎng)址導(dǎo)^元的方法和系統(tǒng)。
背景技術(shù):
目前隨著互聯(lián)網(wǎng)技術(shù)應(yīng)用的越來越廣泛,人們很多的日常工作和娛樂都在 網(wǎng)絡(luò)上進行,從而產(chǎn)生了眾多的互聯(lián)網(wǎng)網(wǎng)頁和海量的網(wǎng)絡(luò)資源信息,以及提供 各種信息服務(wù)的網(wǎng)站,用戶一般需要通過網(wǎng)址找到這些信息,但是人們是無法 記憶或者知悉成千上萬的網(wǎng)址的,并且,網(wǎng)址也沒有很好的規(guī)律便于用戶記憶,
因此,現(xiàn)有技術(shù)提出了網(wǎng)址導(dǎo)航的解決方案,例如,hao123網(wǎng)址之家這樣的 網(wǎng)iih導(dǎo)航網(wǎng)3占。
hao123作為網(wǎng)址導(dǎo)航網(wǎng)站,其向用戶呈現(xiàn)了數(shù)千個常用的網(wǎng)址,并進行 了分類排序等便于用戶查找的進一步處理,從而可以方便用戶進入自己所需的 網(wǎng)站。但是類似上述解決方案的現(xiàn)有技術(shù)無法針對當(dāng)前用戶提供個性化的網(wǎng)址 導(dǎo)航或者推薦服務(wù),即針對各個用戶所提供的網(wǎng)址導(dǎo)航服務(wù)都是一樣的,而盡 管各個用戶具有不同的個性化需求。
總之,需要本領(lǐng)域技術(shù)人員迫切解決的一個技術(shù)問題就是如何能夠提供 一種能夠滿足當(dāng)前用戶個性化需求的網(wǎng)址導(dǎo)航技術(shù)解決方案。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是提供一種自動生成用戶特征數(shù)據(jù)庫的方法 和系統(tǒng),能夠依據(jù)該用戶的查詢?nèi)罩竞拖嚓P(guān)網(wǎng)頁信息提取該用戶的興趣特征, 從而使得為該用戶提供個性化網(wǎng)址導(dǎo)航服務(wù)成為可能。
相應(yīng)的,本發(fā)明還提供了 一種利用上述用戶特征數(shù)據(jù)庫^Mv而實現(xiàn)個性化網(wǎng) 址導(dǎo)航的解決方案,能夠滿足當(dāng)前用戶的個性化導(dǎo)航需求。
為了解決上述問題,本發(fā)明公開了 一種生成用戶特征數(shù)據(jù)庫的方法,包括 獲取搜索日志,所述搜索日志包括查詢詞和相應(yīng)點擊的網(wǎng)頁;依據(jù)所點擊網(wǎng)頁 的分類信息,對搜索日志中的查詢詞進行分類;匯總一用戶的各個查詢詞,依
5據(jù)各個查詢詞的分類結(jié)果確定該用戶的特征參數(shù);存儲用戶標(biāo)識及其特征參 數(shù),形成用戶特征數(shù)據(jù)庫。
優(yōu)選的,可以通過以下方式完成對查詢詞的分類采用一查詢詞指向各個 網(wǎng)頁的點擊次數(shù)或者點擊比例修正各個網(wǎng)頁的分類信息,進而得到對該查詢詞 的分類結(jié)果。
優(yōu)選的,可以通過以下方式獲取用戶特征參數(shù)采用權(quán)重參數(shù)對該用戶各 個查詢詞的分類結(jié)果進行修正,進而獲得該用戶的特征參數(shù)。
依據(jù)本發(fā)明的另一實施例,還公開了一種生成用戶特征數(shù)據(jù)庫的系統(tǒng),包
括
:溲索日志凄t據(jù)庫,用于記錄查詢詞和相應(yīng)點擊的網(wǎng)頁; 查詢詞分類單元,用于依據(jù)所點擊網(wǎng)頁的分類信息,對搜索日志中的查詢 詞進行分類;
用戶特征獲取單元,用于匯總一用戶的各個查詢詞,依據(jù)各個查詢詞的分
類結(jié)果確定該用戶的特征參數(shù);
特征庫生成單元,用于存儲用戶標(biāo)識及其特征參數(shù),形成用戶特征數(shù)據(jù)庫。 優(yōu)選的,所述查詢詞分類單元可以通過以下方式完成對查詢詞的分類采
用 一查詢詞指向各個網(wǎng)頁的點擊次數(shù)或者點擊比例修正各個網(wǎng)頁的分類信息,
進而得到對該查詢詞的分類結(jié)果。
用權(quán)重參數(shù)對該用戶各個查詢詞的分類結(jié)果進行修正,進而獲得該用戶的特征 參數(shù)。
依據(jù)本發(fā)明的另一實施例,還公開了一種個性化網(wǎng)址導(dǎo)航的方法,包括 獲取搜索日志,所述搜索日志包括查詢詞和相應(yīng)點擊的網(wǎng)頁;依據(jù)所點擊網(wǎng)頁 的分類信息,對搜索日志中的查詢詞進行分類;匯總一用戶的各個查詢詞,依 據(jù)各個查詢詞的分類結(jié)果確定該用戶的特征參數(shù);接收用戶輸入的網(wǎng)址關(guān)鍵 詞,在預(yù)置的網(wǎng)址導(dǎo)航數(shù)據(jù)庫中進行檢索,匹配獲得檢索結(jié)果;所述網(wǎng)址導(dǎo)航 數(shù)據(jù)庫包括網(wǎng)址與其描述信息的對應(yīng)關(guān)系;依據(jù)當(dāng)前用戶的特征參數(shù)和所述檢 索結(jié)果中網(wǎng)址網(wǎng)頁的分類信息,對所述檢索結(jié)果進行調(diào)整,返回針對該當(dāng)前用 戶的個性化網(wǎng)址導(dǎo)^i吉果集。優(yōu)選的,可以通過以下方式完成對查詢詞的分類采用一查詢詞指向各個 網(wǎng)頁的點擊次數(shù)或者點擊比例修正各個網(wǎng)頁的分類信息,進而得到對該查詢詞 的分類結(jié)果。
優(yōu)選的,可以通過以下方式獲取用戶特征參數(shù)采用權(quán)重參數(shù)對該用戶各 個查詢詞的分類結(jié)果進行修正,進而獲得該用戶的特征參數(shù)。
優(yōu)選的,可以通過以下方式預(yù)置所述網(wǎng)址導(dǎo)航數(shù)據(jù)庫分析搜索日志信息, 獲取在一查詢詞下,用戶點擊頻率符合預(yù)置條件的網(wǎng)址;獲取針對所述網(wǎng)址的 描述信息;依據(jù)所獲得的網(wǎng)址和相應(yīng)的描述信息,建立網(wǎng)址導(dǎo)航數(shù)據(jù)庫。
優(yōu)選的,所述獲得描述信息的步驟進一步包括獲取所述網(wǎng)址相應(yīng)的錨文 本和/或相應(yīng)的主題名稱;分析所述網(wǎng)址的錨文本和/或主題名稱、以及相應(yīng)的 用戶查詢詞,獲取針對所述網(wǎng)址的描述信息。
優(yōu)選的,當(dāng)所述個性化網(wǎng)址導(dǎo)航結(jié)果集包括多個網(wǎng)址時,還可以包括記 錄用戶的選擇信息,并對該用戶的特征參^:進行相應(yīng)調(diào)整。
依據(jù)本發(fā)明的另一實施例,還公開了一種個性化網(wǎng)址導(dǎo)航的系統(tǒng),包括
搜索日志數(shù)據(jù)庫,用于記錄查詢詞和相應(yīng)點擊的網(wǎng)頁;
查詢詞分類單元,用于依據(jù)所點擊網(wǎng)頁的分類信息,對搜索日志中的查詢 詞進行分類;
用戶特征獲耳又單元,用于匯總一用戶的各個查詢詞,依據(jù)各個查詢詞的分 類結(jié)果確定該用戶的特征參數(shù);
檢索單元,用于接收用戶輸入的網(wǎng)址關(guān)鍵詞,在預(yù)置的網(wǎng)址導(dǎo)航數(shù)據(jù)庫中 進行檢索,匹配獲得檢索結(jié)果;所述網(wǎng)址導(dǎo)航數(shù)據(jù)庫包括網(wǎng)址與其描述信息的 對應(yīng)關(guān)系;
結(jié)果輸出單元,用于依據(jù)當(dāng)前用戶的特征參數(shù)和所述4企索結(jié)果中網(wǎng)址網(wǎng)頁 的分類信息,對所述^r索結(jié)果進行調(diào)整,返回針對該當(dāng)前用戶的個性化網(wǎng)址導(dǎo) 航結(jié)果集。
優(yōu)選的,所述查詢詞分類單元可以通過以下方式完成對查詢詞的分類采 用 一查詢詞指向各個網(wǎng)頁的點擊次數(shù)或者點擊比例修正各個網(wǎng)頁的分類信息, 進而得到對該查詢詞的分類結(jié)果。用權(quán)重參數(shù)對該用戶各個查詢詞的分類結(jié)果進行修正,進而獲得該用戶的特征 參數(shù)。
優(yōu)選的,該系統(tǒng)還可以包括導(dǎo)航數(shù)據(jù)庫生成單元,其進一步包括 日志分析模塊,用于分析搜索日志信息,獲取在一查詢詞下,用戶點擊頻
率符合預(yù)置條件的網(wǎng)址;
描述信息獲取J漠塊,用于獲^U十對所述網(wǎng)址的描述信息; 數(shù)據(jù)庫生成模塊,用于依據(jù)所獲得的網(wǎng)址和相應(yīng)的描述信息,建立網(wǎng)址導(dǎo)
航數(shù)據(jù)庫。
優(yōu)選的,所述描述信息獲取^f莫塊通過分析所述網(wǎng)址的錨文本和/或主題名 稱、以及相應(yīng)的用戶查詢詞,獲耳又針對所述網(wǎng)址的描述信息。
優(yōu)選的,當(dāng)所述個性化網(wǎng)址導(dǎo)航結(jié)果集包括多個網(wǎng)址時,還包括反饋單 元,用于記錄用戶的選擇信息,并對該用戶的特征參數(shù)進行相應(yīng)調(diào)整。
與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點
本發(fā)明依據(jù)用戶的查詢?nèi)罩竞拖嚓P(guān)網(wǎng)頁信息,得到針對該用戶的特征數(shù)據(jù) 庫,從而可以針對不同用戶的特征而推薦不同的網(wǎng)址,以實現(xiàn)個性化的網(wǎng)址導(dǎo) 航服務(wù),即本發(fā)明充分考慮到了用戶個體的差異性。例如,對于同一個關(guān)鍵詞, 喜歡玩游戲的用戶和喜歡閱讀的用戶所需要的網(wǎng)址很可能是不一樣的,本發(fā)明 正是考慮到了這些用戶的需求差異性,將用戶的興趣特征加入到所推薦的網(wǎng)址 排序或篩選計算中,從而使得最符合當(dāng)前用戶個性化需求的網(wǎng)址被優(yōu)先推薦出 來,以滿足當(dāng)前用戶的個性化需求。
圖1是本發(fā)明一種生成用戶特征數(shù)據(jù)庫的方法實施例的步驟流程圖; 圖2是本發(fā)明一種生成用戶特征數(shù)據(jù)庫的系統(tǒng)實施例的結(jié)構(gòu)框圖; 圖3是本發(fā)明一種個性化網(wǎng)址導(dǎo)航的方法實施例的步驟流程圖; 圖4是本發(fā)明 一種建立網(wǎng)址導(dǎo)航數(shù)據(jù)庫實施例的步驟流程圖; 圖5是本發(fā)明一種個性化網(wǎng)址導(dǎo)航系統(tǒng)的結(jié)構(gòu)框圖。
具體實施例方式
為使本發(fā)明的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結(jié)合附圖和具體實施方式
對本發(fā)明作進一步詳細(xì)的說明。
本發(fā)明可用于眾多通用或?qū)S玫挠嬎阆到y(tǒng)環(huán)境或配置中。例如個人計算 機、服務(wù)器計算機、手持設(shè)備或便攜式設(shè)備、平板型設(shè)備、多處理器系統(tǒng)以及 包括以上任何系統(tǒng)或設(shè)備的分布式計算環(huán)境等等。
本發(fā)明可以在由計算機執(zhí)行的計算機可執(zhí)行指令的一般上下文中描述,例 如程序模塊。 一般地,程序模塊包括執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的
例程、程序、對象、組件、數(shù)據(jù)結(jié)構(gòu)等等。也可以在分布式計算環(huán)境中實踐本 發(fā)明,在這些分布式計算環(huán)境中,由通過通信網(wǎng)絡(luò)而被連接的遠程處理設(shè)備來 執(zhí)行任務(wù)。在分布式計算環(huán)境中,程序模塊可以位于包括存儲設(shè)備在內(nèi)的本地 和遠程計算機存儲介質(zhì)中。
參照圖1,示出了本發(fā)明一種生成用戶特征數(shù)據(jù)庫的方法實施例,包括以 下步驟
步驟IOI、獲取搜索日志,所述搜索日志包括查詢詞和相應(yīng)點擊的網(wǎng)頁; 其中,可以通過自行記錄查詢詞和相應(yīng)點擊的網(wǎng)頁至搜索日志的方式獲取
所需信息;實際上,還可以直接從搜索51擎服務(wù)商處購買獲得搜索日志數(shù)據(jù)庫,
即可獲得所需的信息查詢詞和相應(yīng)點擊的網(wǎng)頁。
步驟102、依據(jù)所點擊網(wǎng)頁的分類信息,對搜索日志中的查詢詞進行分類; 步驟103、匯總一用戶的各個查詢詞,依據(jù)各個查詢詞的分類結(jié)果確定該
用戶的特征參數(shù);
步驟104、存儲用戶標(biāo)識及其特征參數(shù),形成用戶特征數(shù)據(jù)庫。
為了實現(xiàn)針對當(dāng)前用戶提供個性化網(wǎng)址導(dǎo)航服務(wù),需要事先獲取各個用戶
的興趣特征,以便區(qū)分各個用戶;而本實施例就提供了一種獲取用戶特征參數(shù)
的解決方案。
現(xiàn)有技術(shù)也提出了很多基于用戶網(wǎng)絡(luò)行為(例如,網(wǎng)頁瀏覽行為、電子雜 志在線閱讀行為等等)而獲取用戶特征參數(shù),以實現(xiàn)針對用戶的個性化服務(wù)。 但是本發(fā)明與W目比,明顯存在以下的優(yōu)點首先,本發(fā)明基于用戶主動的查 詢行為歷史記錄挖掘得到用戶的興趣特征,其噪音較小,準(zhǔn)確度較高,尤其適 用于在針對用戶提供個性化探詢服務(wù)(如網(wǎng)址導(dǎo)航或者搜索服務(wù))的場景;其次,本實施例可以直接以現(xiàn)有的搜索日志為數(shù)據(jù)源進行分析,而不需要額外增 加對用戶網(wǎng)絡(luò)行為的監(jiān)控,實現(xiàn)方式簡單易行,不會額外增加網(wǎng)絡(luò)的傳輸資源。
下面簡單描述步驟102中的網(wǎng)頁分類信息。
由于步驟102需要依據(jù)相應(yīng)的網(wǎng)頁分類信息對查詢詞進行分類,所以需要 預(yù)先設(shè)置網(wǎng)頁分類信息。但是本發(fā)明不需要限定具體采用何種方案獲得網(wǎng)頁分 類信息,現(xiàn)有技術(shù)也提供了不少的網(wǎng)頁分類解決方案。下面給出本發(fā)明的幾個 優(yōu)選例子進行簡單說明。
例1
直接采用人工分類,或者對網(wǎng)頁內(nèi)容分詞處理后進行人工分類; 例2
分詞+自動分類
首先,對所述文檔進行分詞等預(yù)處理,并根據(jù)分詞結(jié)果以一個詞元作為一 個屬性,基于傳統(tǒng)的TF/IDF ( term frequency/inverse document frequency, 單文本詞匯頻率/逆文本頻率)模型生成一個代表所述網(wǎng)站的特征向量;其中, 向量的每一維是所述屬性詞,每一維的值是屬性詞出現(xiàn)的次數(shù)。
然后,利用機器學(xué)習(xí)的方法或基于規(guī)則的方法,對每個網(wǎng)站向量進行分類 處理,得到一個網(wǎng)站的類別。
一種分類效果較好的方法是^f吏用Naive Bayes (簡單貝葉斯)分類法,所 述分類法計算出每個維度不同取值下對于不同分類類別的概率,然后利用所有 維度的取值計算出一個整體的屬于某一個類別的概率,然后將概率最高的類別 作為分類類別。貝葉斯決策就是在不完全情報下,對部分未知的狀態(tài)用主觀概 率估計,然后用貝葉斯公式對發(fā)生概率進行修正,最后再利用期望值和修正概 率做出最優(yōu)決策。貝葉斯決策理論方法是統(tǒng)計模型決策中的一個基本方法,其 基本思想是已知類條件概率密度參數(shù)表達式和先驗概率;利用貝葉斯公式轉(zhuǎn)換 成后驗概率;根據(jù)后驗概率大小進行決策分類。它對統(tǒng)計推理的主要貢獻是使 用了 "逆概率"這個概念,并把它作為一種普遍的推理方法。
另一種分類效果較好的方法是采用SVM分類算法。SVM分類法是一種支持 向量機方法,對線性分類器提出了另一種設(shè)計最佳準(zhǔn)則,從線性可分的情況擴展到線性不可分的情況,甚至擴展到使用非線性函數(shù)中去,這種分類器被稱為
支持向量機(Support Vector Machine,簡稱SVM)。 例3
首先以樹型結(jié)構(gòu)建立網(wǎng)頁信息的初始分類;然后執(zhí)行動態(tài)監(jiān)控,如果任一 類別下的信息數(shù)目達到預(yù)設(shè)值,則對該類別進行分裂,所述分裂包括按照網(wǎng) 頁間的相似度執(zhí)行聚類操作,將相似度達到預(yù)設(shè)量級值的網(wǎng)頁聚為 一個類別; 剩下的網(wǎng)頁設(shè)為一個孤立網(wǎng)頁類。當(dāng)然,還可以標(biāo)注所述聚類后的類別名稱。 本例所提供的基于動態(tài)分類的信息索引方式,比靜態(tài)分類的結(jié)果在分類廣度和 深度上更加全面、深入。
本例通過動態(tài)分類過程建立起來的分類體系,是一種層次性的多級索引存 儲方式,其頂層分類(不限于一層)按照人工預(yù)定的分類體系進行一次性的分 類,然后隨著各個類別中網(wǎng)頁信息的不斷添加,當(dāng)任一類別下的信息數(shù)目達到 預(yù)設(shè)值,則對該類別進行分裂,按照網(wǎng)頁間的相似度執(zhí)行聚類操作,將相似度 達到預(yù)設(shè)量級值的網(wǎng)頁聚為一個類別,剩下的網(wǎng)頁設(shè)為一個孤立網(wǎng)頁類。孤立 網(wǎng)頁類中的網(wǎng)頁信息,當(dāng)滿足聚類條件時,將分裂為各個分類。其中,所述頂 層分類并不限于一層,初始建立的分類體系可能已經(jīng)包含多層分類??傊?,所 述分裂、聚類的過程循環(huán)進行,隨著網(wǎng)頁信息的不斷變化而生成新的分類,所 述分類體系 一直處于動態(tài)變化的過程中。
下面簡單描述步驟102對查詢詞的分類。
由于搜索日志中記錄了 一查詢詞與各用戶相應(yīng)點擊的各個網(wǎng)頁,所以依據(jù) 這些被點擊網(wǎng)頁的分類信息就可以確定該查詢詞的分類情況。當(dāng)然,本發(fā)明并 不需要具體的確定方案,因為依據(jù)上述原理可能存在很多的、難以列舉的實現(xiàn)
方式。下面簡單介紹幾個本發(fā)明的優(yōu)選例子。 例1
々ii殳,4十對查詢詞"蘋果",相應(yīng)點擊的網(wǎng)頁包4舌www.a.com和www.b.com, 而前者屬于科技IT類,后者屬于水果農(nóng)業(yè)類,則簡單的,查詢詞"蘋果,,的 分類情況可以為(50。/??萍糏T類,50%水果農(nóng)業(yè)類)。例2
采用 一 查詢詞指向各個網(wǎng)頁的點擊次數(shù)或者點擊比例修正各個網(wǎng)頁的分 類信息,進而得到對該查詢詞的分類結(jié)果。
假設(shè),針對查詢詞"蘋果",相應(yīng)點擊的網(wǎng)頁包括www.a.com和www.b.com, 而前者屬于科技IT類,點擊次數(shù)為M,后者屬于水果農(nóng)業(yè)類,點擊次數(shù)為N。
則可以在查詢詞的分類中引入點擊次數(shù),以獲得更為準(zhǔn)確的分類效果。簡 單的,查詢詞"蘋果"的分類情況可以為M/(M+N)科技IT類,N/(M+N) 水果農(nóng)業(yè)類。
例3
前面例子中的網(wǎng)頁分類屬于簡單分類,本例中的網(wǎng)頁分類具有比例參凄t。 假如針對查詢詞"太陽",記錄用戶點擊的網(wǎng)頁和每個網(wǎng)頁訪問的次數(shù), 例如用戶點擊http:〃sun.sohu.com/ M次,點擊http:〃zhidao.baidu.com/question/ 16657628 N次,其中http:〃sun.sohu.com/在網(wǎng)頁分類庫中的分類屬于影視娛 樂類的概率為A%,那么"太陽"這個查詢詞屬于影視娛樂類的概率為M+ (M+N) xA%;網(wǎng)頁http:〃zhidao.baidu.com/question/16657628在網(wǎng)頁分類庫 中的分類屬于科技類的概率為B%,那么"太陽"這個查詢詞屬于科技類的概率 為N+ (M+N) xB%。
下面簡單描述步驟103用戶特征參數(shù)的獲取。
基于以上的描述可以得知,各個查詢詞具有了自己的分類情況,而將一用 戶所輸入的各個查詢詞匯總起來,就可以得到針對該用戶的分類情況,即得到 該用戶的興趣特征?;诓樵冊~的各種分類情況,可能存在很多的具體方案以 獲取用戶的興趣特征,本發(fā)明并不需要加以限定。下面簡單介紹幾個本發(fā)明的 優(yōu)選例子。
例1
假設(shè),用戶A的查詢詞為"古龍小說下載"、"金庸小說下載"、"士兵突擊 電視劇",其中,查詢詞"古龍小說下載"和"金庸小說下載"屬于小說類, 查詢詞"士兵突擊電視劇"屬于影視類,則該用戶的興趣特征參數(shù)為(67%小 說,33%影視)。
12例2
在例1的基礎(chǔ)上,采用權(quán)重參數(shù)對該用戶各個查詢詞的分類結(jié)果進行修 正,進而獲得該用戶的特征參數(shù)。
假設(shè),用戶A針對上述三個查詢詞的權(quán)重是不同的(如通過查詢次數(shù)、點
擊相關(guān)網(wǎng)頁次數(shù)等確定權(quán)重參數(shù)),如查詢詞"古龍小說下載"、"金庸小說下
載"、"士兵突擊電視劇,,的權(quán)重參數(shù)分別為1.5: 1.5: 1,則該用戶的興趣特 征參數(shù)為(75%小說,25%影視)。 例3
前面例子中的查詢詞分類屬于簡單分類,本例中的查詢詞分類具有比例參數(shù)。
假設(shè),查詢詞"蘋果"的分類情況為(6(W科技IT類,20%水果類),查詢 詞"太陽"的分類情況為(60°/。影視類,20y??萍糏T類)。由于查詢詞還可能有 部分比例屬于其他分類,但是由于比例較小,所以忽略不計。并且查詢詞的權(quán) 重參數(shù)分別為l. 5: 1,則該用戶的興趣特征參數(shù)為
(1.5/2.5x60% + 1/2,5x20%)科技IT類;
(1. 5/2. 5 x 20%)水果類;
(1/2.5x60%)影視類。
參照圖2,示出了本發(fā)明一種生成用戶特征數(shù)據(jù)庫的系統(tǒng)實施例,可以包
括
搜索日志數(shù)據(jù)庫201,用于記錄查詢詞和相應(yīng)點擊的網(wǎng)頁; 查詢詞分類單元202,用于依據(jù)所點擊網(wǎng)頁的分類信息,對搜索日志中的 查詢詞進行分類;
用戶特征獲取單元203,用于匯總一用戶的各個查詢詞,依據(jù)各個查詢詞 的分類結(jié)果確定該用戶的特征參數(shù);
特征庫生成單元204,用于存儲用戶標(biāo)識及其特征參數(shù),形成用戶特征數(shù) 據(jù)庫。
在本發(fā)明的優(yōu)選實施例中,所述查詢詞分類單元可以通過以下方式完成對查詢詞的分類采用一查詢詞指向各個網(wǎng)頁的點擊次數(shù)或者點擊比例修正各個 網(wǎng)頁的分類信息,進而得到對該查詢詞的分類結(jié)果。
在本發(fā)明的另 一優(yōu)選實施例中,所述用戶特征獲取單元可以通過以下方式 獲取用戶特征參數(shù)采用權(quán)重參數(shù)對該用戶各個查詢詞的分類結(jié)果進行修正, 進而獲得該用戶的特征參數(shù)。
上面圖l和圖2所示的實施例,可以得到針對用戶的興趣特征參數(shù),進而 為用戶提供個性化服務(wù),所述個性化服務(wù)可以包括搜索結(jié)果的個性化排序(如 將相適應(yīng)類別的網(wǎng)頁搜索結(jié)果排序在前),所述個性化服務(wù)也可以包括個性化 的網(wǎng)址導(dǎo)4元。
參照圖3,示出了本發(fā)明一種個性化網(wǎng)址導(dǎo)航的方法實施例,可以包括 步驟301、獲取搜索日志,所述搜索日志包括查詢詞和相應(yīng)點擊的網(wǎng)頁; 步驟302、依據(jù)所點擊網(wǎng)頁的分類信息,對搜索日志中的查詢詞進行分類; 步驟303、匯總一用戶的各個查詢詞,依據(jù)各個查詢詞的分類結(jié)果確定該 用戶的特征參數(shù);
步驟304、接收用戶輸入的網(wǎng)址關(guān)鍵詞,在預(yù)置的網(wǎng)址導(dǎo)航數(shù)據(jù)庫中進行 檢索,匹配獲得檢索結(jié)果;所述網(wǎng)址導(dǎo)航數(shù)據(jù)庫包括網(wǎng)址與其描述信息的對應(yīng)
關(guān)系;
步驟305、依據(jù)當(dāng)前用戶的特征參數(shù)和所述^r索結(jié)果中網(wǎng)址網(wǎng)頁的分類信 息,對所述4企索結(jié)果進行調(diào)整,返回針對該當(dāng)前用戶的個性化網(wǎng)址導(dǎo)^i吉果集。 優(yōu)選的,在向用戶返回相應(yīng)的網(wǎng)址結(jié)果集的同時,還可以展示相關(guān)的介紹信息, 以便用戶4是前了解該網(wǎng)址的大致情況。如果用戶對推薦的網(wǎng)址感興趣的話可以 直接點擊網(wǎng)址,進行跳轉(zhuǎn)(通過鏈接打開該網(wǎng)址網(wǎng)頁)。
對于當(dāng)前用戶的特征參數(shù),可以通過獲取該用戶的唯一性標(biāo)識,進而從用 戶特征數(shù)據(jù)庫中查詢得到該用戶的特征參數(shù)。具體的,可以通過用戶ID和密 碼或者cookie等方式來識別該用戶的唯一性標(biāo)識。
優(yōu)選的,可以通過以下方式完成對查詢詞的分類采用一查詢詞指向各個 網(wǎng)頁的點擊次數(shù)或者點擊比例修正各個網(wǎng)頁的分類信息,進而得到對該查詢詞 的分類結(jié)果。
14優(yōu)選的,可以通過以下方式獲取用戶特征參數(shù)采用權(quán)重參數(shù)對該用戶各 個查詢詞的分類結(jié)果進行修正,進而獲得該用戶的特征參數(shù)。
優(yōu)選的,當(dāng)所述個性化網(wǎng)址導(dǎo)航結(jié)果集包括多個網(wǎng)址時,還可以包括記 錄用戶的選擇信息,并對該用戶的特征參數(shù)進行相應(yīng)調(diào)整。即通過用戶的反饋 信息以進一步提高特征參數(shù)的準(zhǔn)確度。
步驟305所述的對所述檢索結(jié)果進行調(diào)整可以包括排序操作,也可以包括 篩選等操作,優(yōu)選的,所述個性化網(wǎng)址導(dǎo)航結(jié)果集僅僅包括少數(shù)的幾個最佳推 薦項。
對于本實施例,用于接收用戶網(wǎng)址關(guān)鍵詞和展示網(wǎng)址導(dǎo)航結(jié)果集的用戶界 面,可以是多種多樣的,本領(lǐng)域技術(shù)人員可以設(shè)計出各種貼近用戶需要的界面 接口。
例如,建立一個導(dǎo)力元網(wǎng)站,通過i殳置在該導(dǎo)4元網(wǎng)站主頁上的網(wǎng)址查詢詞專lr 入框以及頁面信息展示,而完成針對當(dāng)前用戶的個性化網(wǎng)址導(dǎo)航。
再例如,還可以在搜索引擎輸入框中集成相應(yīng)的導(dǎo)航數(shù)據(jù)和導(dǎo)航形式。具 體而言,如,當(dāng)用戶輸入查詢詞時,在點擊搜索命令之前,可以先以浮動窗口 或者下拉菜單等方式展現(xiàn)依據(jù)本發(fā)明導(dǎo)航得到的網(wǎng)址結(jié)果集,以實現(xiàn)網(wǎng)址導(dǎo) 航。如果用戶需要繼續(xù)搜索,則點擊搜索命令按鈕,完成通常的網(wǎng)頁搜索即可。 采用浮動窗口,可以讓用戶實時預(yù)覽所提示的網(wǎng)址,從而使得用戶不必輸入整 個查詢詞就可以完成導(dǎo)航,并且可以隨著用戶的輸入動態(tài)改變所提示的網(wǎng)址, 使得用戶能夠修正網(wǎng)址關(guān)4建詞。
再例如,對于通常的網(wǎng)頁搜索,在網(wǎng)頁搜索結(jié)果集的前面先展示幾項網(wǎng)址 導(dǎo)航的結(jié)果。具體而言,如,當(dāng)用戶輸入查詢詞時,在點擊搜索命令之后,返 回的結(jié)果頁面中,前兩項是依據(jù)本發(fā)明得到的網(wǎng)址導(dǎo)航的結(jié)果,而后面的才是 依據(jù)通過搜索過程得到的網(wǎng)頁搜索結(jié)果。
再例如,以各種客戶端軟件形式獨立出現(xiàn)或者結(jié)合出現(xiàn)的網(wǎng)址導(dǎo)航界面。
實際上,采用各種用戶界面完成網(wǎng)址導(dǎo)航和結(jié)果展示,對于本發(fā)明都是可 行的,因為本發(fā)明的核心并不在于導(dǎo)航界面的創(chuàng)新,在此本發(fā)明就不——詳述 了。由于本實施例的很多細(xì)節(jié)在前面的實施例中已經(jīng)被詳細(xì)描述,因此在此主 要描述一下網(wǎng)址導(dǎo)航數(shù)據(jù)庫。對于所述網(wǎng)址導(dǎo)航數(shù)據(jù)庫,可以直接采用人工整 理的方式獲取。也可以采用其他可行的方式進行收集獲取,參照圖4,下面給
出本發(fā)明的一種實現(xiàn)方式,具體可以包括
步驟401、分析搜索日志信息,獲取在一查詢詞下,用戶點擊頻率符合預(yù) 置條件的網(wǎng)址;所述搜索日志信息包括查詢詞及被用戶點擊的網(wǎng)址。
例如,針對同一個查詢詞,如果用戶的點擊集中在一個或者幾個網(wǎng)址上, 則該網(wǎng)址就是針對該查詢詞的點擊焦點,本發(fā)明的導(dǎo)航重點;
步驟402、獲取針對所述網(wǎng)址的描述信息;
步驟403、依據(jù)所獲得的網(wǎng)址和相應(yīng)的描述信息,建立網(wǎng)址導(dǎo)航數(shù)據(jù)庫。 所生成的網(wǎng)址導(dǎo)航數(shù)據(jù)庫,其包含了網(wǎng)址描述信息(如關(guān)鍵詞)、網(wǎng)址信息以 及二者之間的聯(lián)系。當(dāng)然,所述導(dǎo)航數(shù)據(jù)庫中還可以包括其他的相關(guān)信息,例 如與該網(wǎng)址相關(guān)的信息介紹等等,以便于用戶了解該網(wǎng)址所擁有的資源內(nèi)容, 方便導(dǎo)航。
為了檢索方便, 一般的,針對上述信息建立倒排表,可以形成如下的一個 數(shù)據(jù)結(jié)構(gòu)——"關(guān)4定詞網(wǎng)址l,網(wǎng)址2......"。
步驟402所述的描述信息可以為人工添加的,也可以為從指向該網(wǎng)址的各 個查詢詞中挑選出來的。優(yōu)選的,也可以通過下面的步驟獲取獲取所述網(wǎng)址 相應(yīng)的錨文本和/或相應(yīng)的主題名稱;分析所述網(wǎng)址的錨文本和/或主題名稱、 以及相應(yīng)的用戶查詢詞,獲取針對所述網(wǎng)址的描述信息。該實現(xiàn)方式可以獲得 更為準(zhǔn)確、豐富的描述信息。針對用戶的網(wǎng)址關(guān)4建詞,在所述描述信息中進行 匹配即可獲得所需的檢索結(jié)果。
因為一個網(wǎng)址的錨文本(Anchor,或者叫鏈4妄文本)和該網(wǎng)頁的主題名稱 也能夠在一定程度上起到導(dǎo)航的作用,所以實施例2引入這些輔助信息,以優(yōu) 化本發(fā)明的導(dǎo)航數(shù)據(jù)。所謂Anchor信息是指, 一個網(wǎng)頁通過超鏈接引用另一 個網(wǎng)頁時的一段文字描述,Anchor信息和主題名稱是對一網(wǎng)頁的描述。
優(yōu)選的,針對上述網(wǎng)址導(dǎo)航數(shù)據(jù)庫還可以包括依據(jù)所述搜索日志信息對所 述描述信息和網(wǎng)址進行4iU全的步驟,其中,所述^H驗可以包括去除針對描述信息中關(guān)鍵詞的點擊頻率小于或等于一定閾值的網(wǎng)址;和/或,從描述信息中
去除在用戶搜索查詢中出現(xiàn)頻率小于或等于一定閾值的關(guān)鍵詞。
當(dāng)然,對于一些知名網(wǎng)站或者網(wǎng)址,也可以通過人工添加的方式存儲到所
述導(dǎo)航數(shù)據(jù)庫中,上述實現(xiàn)方式并不排斥其他的獲取導(dǎo)航數(shù)據(jù)的方式;即上述 實現(xiàn)方式可以和人工整理方式或者其他可行方式組合應(yīng)用。由于網(wǎng)址導(dǎo)航Jt據(jù) 庫生成之后,其中的數(shù)據(jù)就處于相對靜態(tài)中,為了滿足用戶不斷變化的需求, 則本發(fā)明優(yōu)選的,還需要依據(jù)實際應(yīng)用情況更新所述網(wǎng)址導(dǎo)航數(shù)據(jù)庫。
參照圖5,示出了本發(fā)明一種個性化網(wǎng)址導(dǎo)航的系統(tǒng),其特征在于,包括 搜索日志數(shù)據(jù)庫501 ,用于記錄查詢詞和相應(yīng)點擊的網(wǎng)頁; 查詢詞分類單元502,用于依據(jù)所點擊網(wǎng)頁的分類信息,對搜索日志中的 查詢詞進行分類;
用戶特征獲取單元503,用于匯總一用戶的各個查詢詞,依據(jù)各個查詢詞 的分類結(jié)果確定該用戶的特征參數(shù);存儲用戶標(biāo)識和特征參數(shù),形成用戶特征 庫507;
檢索單元504,用于接收用戶輸入的網(wǎng)址關(guān)鍵詞,在預(yù)置的網(wǎng)址導(dǎo)航數(shù)據(jù) 庫508中進行檢索,匹配獲得檢索結(jié)果;所述網(wǎng)址導(dǎo)航數(shù)據(jù)庫508包括網(wǎng)址與 其描述信息的對應(yīng)關(guān)系;
結(jié)果輸出單元505 ,用于依據(jù)當(dāng)前用戶的特征參數(shù)和所述檢索結(jié)果中網(wǎng)址 網(wǎng)頁的分類信息,對所述^r索結(jié)果進行調(diào)整,返回針對該當(dāng)前用戶的個性化網(wǎng) 址導(dǎo)航結(jié)果集。
優(yōu)選的,所述查詢詞分類單元502通過以下方式完成對查詢詞的分類采 用 一查詢詞指向各個網(wǎng)頁的點擊次數(shù)或者點擊比例修正各個網(wǎng)頁的分類信息, 進而得到對該查詢詞的分類結(jié)果。
優(yōu)選的,所述用戶特征獲取單元503通過以下方式獲取用戶特征參數(shù)采 用權(quán)重參數(shù)對該用戶各個查詢詞的分類結(jié)果進行修正,進而獲得該用戶的特征 參數(shù)。
優(yōu)選的,還可以包括導(dǎo)航數(shù)據(jù)庫生成單元506,其進一步包括 日志分析模塊,用于分析搜索日志信息,獲取在一查詢詞下,用戶點擊頻率符合預(yù)置條件的網(wǎng)址;
描述信息獲取模塊,用于獲取針對所述網(wǎng)址的描述信息; 數(shù)據(jù)庫生成模塊,用于依據(jù)所獲得的網(wǎng)址和相應(yīng)的描述信息,建立網(wǎng)址導(dǎo)
航數(shù)據(jù)庫。
在本發(fā)明的一個優(yōu)選實施例中,所述描述信息獲耳又模塊可以通過分析所述 網(wǎng)址的錨文本和/或主題名稱、以及相應(yīng)的用戶查詢詞,獲耳又針對所述網(wǎng)址的 描述信息。
當(dāng)所述個性化網(wǎng)址導(dǎo)航結(jié)果集包括多個網(wǎng)址時,在本發(fā)明的一個優(yōu)選實施 例中,圖5所示系統(tǒng)還可以包括反饋單元,用于記錄用戶的選擇信息,并對 該用戶的特征參數(shù)進行相應(yīng)調(diào)整。
下面給出本發(fā)明一個具體的例子。
生成導(dǎo)航數(shù)據(jù)庫。例如通過分析搜索日志,發(fā)現(xiàn)對于查詢詞"天龍八部", 有50%的用戶最后點擊的網(wǎng)頁是tl.sohu.com,有20%的用戶點擊的是 www.xxsy.net/wx/1—1—3.html , 有 10% 的 用 戶 點 擊 的是 ent.sina.com.en/f/tlbb/index.html。這三個網(wǎng)頁經(jīng)過分類后,分別屬于游戲類、 小說類、影視類。同時點擊頻率超過了所設(shè)定的閾值(即可以用于導(dǎo)航),則 這3條網(wǎng)址都被選出。那么導(dǎo)航數(shù)據(jù)庫中針對"天龍八部,,這個查詢詞,存有 3條4美選網(wǎng)i止tl.sohu.com (;莽 戈類)、www.xxsy.net/wx/1—1—3.html (小i兌類)、 ent.sina.com.cn/f/tlbb/index.html ( #^一見類)。
生成用戶興趣數(shù)據(jù)庫。如果用戶A喜歡看小說,那么從搜索日志中選出 用戶A的所有查詢詞。例如A的查詢詞是"古龍小說下載"、"金庸小說下載"、 "士兵突擊電視劇",前兩個查詢詞是小說類,后一個查詢詞是影視類。于是 用戶的興趣是(67%小說,33%影視)。而用戶B的查詢詞經(jīng)過同樣分析后發(fā) 現(xiàn)用戶興趣是(5%小說,10%影視,85%游戲),這些興趣特征存入用戶特征 數(shù)據(jù)庫中。
當(dāng)用戶A輸入"天龍八部"查詢詞后,首先去導(dǎo)航數(shù)據(jù)庫中查詢,發(fā)現(xiàn) "天龍八部"這個查詢詞可能的導(dǎo)航網(wǎng)址包括tl.sohu.com 、 www.xxsy.net/wx/1—1—3.html、 ent.sina.com.cn/f/tlbb/index.html。 再去用戶特4正數(shù)據(jù)庫中提取A的特征(67%小說,33%影視),那么優(yōu)先推薦小說和影視類 網(wǎng)址給用戶A,返回的結(jié)果是
www.xxsy.net/ wx/1—1—3 .html; ent. sina. com. cn/f/tlbb/index.html 當(dāng)用戶B輸入"天龍八部"查詢詞后,首先去導(dǎo)航數(shù)據(jù)庫中查詢,發(fā)現(xiàn) "天龍八部,,這個查詢詞可能的導(dǎo)航網(wǎng)址包括tl.sohu.com 、 www.xxsy.net/wx/l_l—3.html、 ent.sina.com.cn/f/tlbb/index.html。 再去用戶特征 數(shù)據(jù)庫中提取B的特征(5%小說,10%影視,85%游戲),那么優(yōu)先推薦游戲 和影視類網(wǎng)址給用戶B,返回的結(jié)果是
tl sohu.com; ent.sina.com.cn/f/tlbb/index.html
從上述返回的結(jié)果,可以看出針對用戶A和B分別返回了不同的導(dǎo)航網(wǎng) 址,從而做到了個性化的網(wǎng)址導(dǎo)航。
本說明書中的各個實施例均采用遞進的方式描述,每個實施例重點說明的 都是與其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即 可。對于系統(tǒng)實施例而言,由于其與方法實施例基本相似,所以描述的比較筒 單,相關(guān)之處參見方法實施例的部分說明即可。
以上對本發(fā)明所提供的 一種生成用戶特征數(shù)據(jù)庫的方法和系統(tǒng),以及一種 個性化網(wǎng)址導(dǎo)航的方法和系統(tǒng)進行了詳細(xì)介紹,本文中應(yīng)用了具體個例對本發(fā) 明的原理及實施方式進行了闡述,以上實施例的說明只是用于幫助理解本發(fā)明 的方法及其核心思想;同時,對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想, 在具體實施方式
及應(yīng)用范圍上均會有改變之處,綜上所述,本說明書內(nèi)容不應(yīng) 理解為對本發(fā)明的限制。
權(quán)利要求
1、一種生成用戶特征數(shù)據(jù)庫的方法,其特征在于,包括獲取搜索日志,所述搜索日志包括查詢詞和相應(yīng)點擊的網(wǎng)頁;依據(jù)所點擊網(wǎng)頁的分類信息,對搜索日志中的查詢詞進行分類;匯總一用戶的各個查詢詞,依據(jù)各個查詢詞的分類結(jié)果確定該用戶的特征參數(shù);存儲用戶標(biāo)識及其特征參數(shù),形成用戶特征數(shù)據(jù)庫。
2、 如權(quán)利要求1所述的方法,其特征在于,通過以下方式完成對查詢詞 的分類采用 一查詢詞指向各個網(wǎng)頁的點擊次數(shù)或者點擊比例修正各個網(wǎng)頁的 分類信息,進而得到對該查詢詞的分類結(jié)果。
3、 如權(quán)利要求l所述的方法,其特征在于,通過以下方式獲取用戶特征 參數(shù)采用權(quán)重參數(shù)對該用戶各個查詢詞的分類結(jié)果進行修正,進而獲得該用 戶的特征參數(shù)。
4、 一種生成用戶特征數(shù)據(jù)庫的系統(tǒng),其特征在于,包括 :溲索日志數(shù)據(jù)庫,用于記錄查詢詞和相應(yīng)點擊的網(wǎng)頁; 查詢詞分類單元,用于依據(jù)所點擊網(wǎng)頁的分類信息,對搜索日志中的查詢詞進4于分類;用戶特征獲取單元,用于匯總一用戶的各個查詢詞,依據(jù)各個查詢詞的分 類結(jié)果確定該用戶的特征參數(shù);特征庫生成單元,用于存儲用戶標(biāo)識及其特征參數(shù),形成用戶特征數(shù)據(jù)庫。
5、 如權(quán)利要求4所述的系統(tǒng),其特征在于,所述查詢詞分類單元通過以 下方式完成對查詢詞的分類采用一查詢詞指向各個網(wǎng)頁的點擊次數(shù)或者點擊 比例修正各個網(wǎng)頁的分類信息,進而得到對該查詢詞的分類結(jié)果。
6、 如權(quán)利要求4所述的系統(tǒng),其特征在于,所述用戶特征獲取單元通過 以下方式獲取用戶特征參數(shù)采用權(quán)重參數(shù)對該用戶各個查詢詞的分類結(jié)果進 行修正,進而獲得該用戶的特征參數(shù)。
7、 一種個性化網(wǎng)址導(dǎo)航的方法,其特征在于,包括 獲取搜索日志,所述搜索日志包括查詢詞和相應(yīng)點擊的網(wǎng)頁; 依據(jù)所點擊網(wǎng)頁的分類信息,對搜索日志中的查詢詞進行分類;匯總一用戶的各個查詢詞,依據(jù)各個查詢詞的分類結(jié)果確定該用戶的特征參數(shù);接收用戶輸入的網(wǎng)址關(guān)鍵詞,在預(yù)置的網(wǎng)址導(dǎo)航數(shù)據(jù)庫中進行檢索,匹配 獲得檢索結(jié)果;所述網(wǎng)址導(dǎo)航數(shù)據(jù)庫包括網(wǎng)址與其描述信息的對應(yīng)關(guān)系;依據(jù)當(dāng)前用戶的特征參數(shù)和所述檢索結(jié)果中網(wǎng)址網(wǎng)頁的分類信息,對所述 檢索結(jié)果進行調(diào)整,返回針對該當(dāng)前用戶的個性化網(wǎng)址導(dǎo)航結(jié)果集。
8、 如權(quán)利要求7所述的方法,其特征在于,通過以下方式完成對查詢詞 的分類采用 一查詢詞指向各個網(wǎng)頁的點擊次數(shù)或者點擊比例修正各個網(wǎng)頁的 分類信息,進而得到對該查詢詞的分類結(jié)果。
9、 如權(quán)利要求7所述的方法,其特征在于,通過以下方式獲取用戶特征 參數(shù)采用權(quán)重參數(shù)對該用戶各個查詢詞的分類結(jié)果進行修正,進而獲得該用 戶的特征參數(shù)。
10、 如權(quán)利要求7所述的方法,其特征在于,通過以下方式預(yù)置所述網(wǎng)址 導(dǎo)航數(shù)據(jù)庫分析搜索日志信息,獲取在一查詢詞下,用戶點擊頻率符合預(yù)置條件的網(wǎng)址;獲取針對所述網(wǎng)址的描述信息;依據(jù)所獲得的網(wǎng)址和相應(yīng)的描述信息,建立網(wǎng)址導(dǎo)航數(shù)據(jù)庫。
11、 如權(quán)利要求10所述的方法,其特征在于,所述獲得描述信息的步驟 進一步包括獲耳又所述網(wǎng)址相應(yīng)的錨文本和/或相應(yīng)的主題名稱;分析所述網(wǎng)址的錨文本和/或主題名稱、以及相應(yīng)的用戶查詢詞,獲取針 對所述網(wǎng)址的描述信息。
12、 如權(quán)利要求7所述的方法,其特征在于,當(dāng)所述個性化網(wǎng)址導(dǎo)航結(jié)果 集包括多個網(wǎng)址時,還包括記錄用戶的選擇信息,并對該用戶的特征參數(shù)進行相應(yīng)調(diào)整。
13、 一種個性化網(wǎng)址導(dǎo)航的系統(tǒng),其特征在于,包括 搜索日志數(shù)據(jù)庫,用于記錄查詢詞和相應(yīng)點擊的網(wǎng)頁;查詢詞分類單元,用于依據(jù)所點擊網(wǎng)頁的分類信息,對^:索日志中的查詢詞進4于分類;用戶特征獲取單元,用于匯總一用戶的各個查詢詞,依據(jù)各個查詢詞的分類結(jié)果確定該用戶的特征參數(shù);檢索單元,用于接收用戶輸入的網(wǎng)址關(guān)鍵詞,在預(yù)置的網(wǎng)址導(dǎo)航數(shù)據(jù)庫中 進行檢索,匹配獲得檢索結(jié)果;所述網(wǎng)址導(dǎo)航數(shù)據(jù)庫包括網(wǎng)址與其描述信息的 對應(yīng)關(guān)系;結(jié)果輸出單元,用于依據(jù)當(dāng)前用戶的特征參數(shù)和所述4企索結(jié)果中網(wǎng)址網(wǎng)頁 的分類信息,對所述4企索結(jié)果進行調(diào)整,返回針對該當(dāng)前用戶的個性化網(wǎng)址導(dǎo) 航結(jié)果集。
14、 如 k利要求13所述的系統(tǒng),其特征在于,所述查詢詞分類單元通過 以下方式完成對查詢詞的分類采用一查詢詞指向各個網(wǎng)頁的點擊次數(shù)或者點 擊比例修正各個網(wǎng)頁的分類信息,進而得到對該查詢詞的分類結(jié)果。
15、 如權(quán)利要求13所述的系統(tǒng),其特征在于,所述用戶特征獲取單元通 過以下方式獲取用戶特征參數(shù)采用權(quán)重參數(shù)對該用戶各個查詢詞的分類結(jié)果 進行修正,進而獲得該用戶的特征參數(shù)。
16、 如權(quán)利要求13所述的系統(tǒng),其特征在于,還包括導(dǎo)航數(shù)據(jù)庫生成單 元,其進一步包括日志分析模塊,用于分析搜索日志信息,獲取在一查詢詞下,用戶點擊頻率符合預(yù)置條件的網(wǎng)址;描述信息獲取沖莫塊,用于獲取針對所述網(wǎng)址的描述信息; 數(shù)據(jù)庫生成模塊,用于依據(jù)所獲得的網(wǎng)址和相應(yīng)的描述信息,建立網(wǎng)址導(dǎo)4元數(shù)據(jù)庫。
17、 如權(quán)利要求16所述的系統(tǒng),其特征在于,所述描述信息獲取模塊通 過分析所述網(wǎng)址的錨文本和/或主題名稱、以及相應(yīng)的用戶查詢詞,獲取針對 所述網(wǎng)址的描述信息。
18、 如權(quán)利要求13所述的系統(tǒng),其特征在于,當(dāng)所述個性化網(wǎng)址導(dǎo)航結(jié) 果集包括多個網(wǎng)址時,還包括反饋單元,用于記錄用戶的選擇信息,并對該用戶的特征參數(shù)進行相應(yīng)調(diào)整。
全文摘要
本發(fā)明提供了一種生成用戶特征數(shù)據(jù)庫的方法和一種個性化網(wǎng)址導(dǎo)航的方法,其中所述生成特征庫的方法包括獲取搜索日志,所述搜索日志包括查詢詞和相應(yīng)點擊的網(wǎng)頁;依據(jù)所點擊網(wǎng)頁的分類信息,對搜索日志中的查詢詞進行分類;匯總一用戶的各個查詢詞,依據(jù)各個查詢詞的分類結(jié)果確定該用戶的特征參數(shù);存儲用戶標(biāo)識及其特征參數(shù),形成用戶特征數(shù)據(jù)庫。本發(fā)明考慮到了用戶需求的差異性,將用戶的興趣特征加入到所推薦的網(wǎng)址排序或篩選計算中,從而使得最符合當(dāng)前用戶個性化需求的網(wǎng)址被優(yōu)先推薦出來,以滿足當(dāng)前用戶的個性化需求。
文檔編號G06F17/30GK101551806SQ20081010342
公開日2009年10月7日 申請日期2008年4月3日 優(yōu)先權(quán)日2008年4月3日
發(fā)明者浩 余, 張智敏 申請人:北京搜狗科技發(fā)展有限公司