欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種網(wǎng)址導(dǎo)航的方法和系統(tǒng)的制作方法

文檔序號(hào):6613853閱讀:118來源:國知局
專利名稱:一種網(wǎng)址導(dǎo)航的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及互聯(lián)網(wǎng)信息處理技術(shù)領(lǐng)域,特別是涉及一種網(wǎng)址導(dǎo)航的方法和 系統(tǒng)。
背景技術(shù)
目前隨著互聯(lián)網(wǎng)技術(shù)應(yīng)用的越來越廣泛,人們4艮多的日常工作和娛樂都在 網(wǎng)絡(luò)上進(jìn)行,從而產(chǎn)生了眾多的互聯(lián)網(wǎng)網(wǎng)頁和海量的網(wǎng)絡(luò)資源信息,以及提供 各種信息服務(wù)的網(wǎng)站,用戶一般需要通過網(wǎng)址找到這些信息,但是人們是無法 記憶或者知悉成千上萬的網(wǎng)址的,并且,網(wǎng)址也沒有很好的規(guī)律便于用戶記憶,
因此,現(xiàn)有技術(shù)提出了網(wǎng)址導(dǎo)航的解決方案,例如,hao123網(wǎng)址之家這樣的 網(wǎng)址導(dǎo)4元網(wǎng)站。
hao123作為網(wǎng)址導(dǎo)航網(wǎng)站,其向用戶呈現(xiàn)了數(shù)千個(gè)常用的網(wǎng)址,并進(jìn)行 了分類排序等^更于用戶查找的進(jìn)一步處理,從而可以方便用戶進(jìn)入自己所需的 網(wǎng)站。
但是現(xiàn)有技術(shù)中的網(wǎng)址導(dǎo)航數(shù)據(jù)主要都是通過人工收集和整理的,該方式 成本太高,速度慢,并且難以收集更大量的網(wǎng)站,^b啦形成大規(guī)模的數(shù)據(jù)。
總之,需要本領(lǐng)域技術(shù)人員迫切解決的一個(gè)技術(shù)問題就是如何能夠提供 一種更加高效便捷的網(wǎng)址導(dǎo)航技術(shù)解決方案。

發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是提供一種生成導(dǎo)航數(shù)據(jù)庫的方法和系統(tǒng),以 及利用該導(dǎo)航數(shù)據(jù)庫進(jìn)行網(wǎng)址導(dǎo)航的方法和裝置,能夠非常方便的通過計(jì)算機(jī) 自動(dòng)發(fā)現(xiàn)導(dǎo)航數(shù)據(jù),成本低廉、收集效率高,適于收集大規(guī)模的導(dǎo)航數(shù)據(jù),進(jìn) 而向用戶提供更準(zhǔn)確、范圍更廣泛的網(wǎng)址導(dǎo)航服務(wù)。
為了解決上述問題,本發(fā)明公開了一種生成導(dǎo)航數(shù)據(jù)庫的方法,包括分 析搜索日志信息,獲取在一信息查詢?cè)~下,用戶點(diǎn)擊頻率符合預(yù)置條件的網(wǎng)址; 所述搜索日志信息包括信息查詢?cè)~及被用戶點(diǎn)擊的網(wǎng)址;依據(jù)信息查詢?cè)~獲取 針對(duì)所述網(wǎng)址的描述信息;所述描述信息包括關(guān)鍵詞;依據(jù)所獲得的網(wǎng)址和相
應(yīng)的描述信息,建立導(dǎo)航數(shù)據(jù)庫。
優(yōu)選的,所述依據(jù)信息查詢?cè)~獲得描述信息的步驟可以進(jìn)一步包括獲取 所述網(wǎng)址相應(yīng)的錨文本和/或相應(yīng)的主題名稱;分析所述網(wǎng)址的錨文本和/或主 題名稱、以及相應(yīng)的用戶查詢?cè)~,獲取針對(duì)所述網(wǎng)址的描述信息。 優(yōu)選的,所述描述信息還包括點(diǎn)擊頻率。 優(yōu)選的,所述網(wǎng)址和相應(yīng)的關(guān)鍵詞采用倒排表的數(shù)據(jù)結(jié)構(gòu)。 優(yōu)選的,所述的方法還可以包括按照點(diǎn)擊頻率,對(duì)關(guān)4定詞指向的網(wǎng)址進(jìn) 行排序。
優(yōu)選的,所述的方法還可以包括依據(jù)所述搜索日志信息對(duì)所述描述信息 和網(wǎng)址進(jìn)行校驗(yàn)的步驟,所述校驗(yàn)包括去除針對(duì)該關(guān)鍵詞的點(diǎn)擊頻率小于或 等于一定閾值的網(wǎng)址;和/或,去除在用戶搜索查詢中出現(xiàn)頻率小于或等于一 定閾值的關(guān)鍵詞。
依據(jù)本發(fā)明的另一實(shí)施例,還公開了一種網(wǎng)址導(dǎo)航的方法,可以包括分 析搜索日志信息,獲取在一信息查詢?cè)~下,用戶點(diǎn)擊頻率符合預(yù)置條件的網(wǎng)址; 所述搜索日志信息包括信息查詢?cè)~及被用戶點(diǎn)擊的網(wǎng)址;依據(jù)信息查詢?cè)~獲取 針對(duì)所述網(wǎng)址的描述信息;所述描述信息包括關(guān)鍵詞;依據(jù)所獲得的網(wǎng)址和相 應(yīng)的描述信息,建立導(dǎo)航數(shù)據(jù)庫;接收用戶的網(wǎng)址查詢?cè)~,檢索所述導(dǎo)航數(shù)據(jù) 庫,向用戶返回相應(yīng)的網(wǎng)址結(jié)果集。
優(yōu)選的,所述依據(jù)信息查詢?cè)~獲得描述信息的步驟進(jìn)一步包括獲取所述 網(wǎng)址相應(yīng)的錨文本和/或相應(yīng)的主題名稱;分析所述網(wǎng)址的錨文本和/或主題名 稱、以及相應(yīng)的用戶查詢?cè)~,獲取針對(duì)所述網(wǎng)址的描述信息。 優(yōu)選的,所述描述信息還包括點(diǎn)擊頻率。 優(yōu)選的,所述網(wǎng)址和相應(yīng)的關(guān)鍵詞釆用倒排表的數(shù)據(jù)結(jié)構(gòu)。 優(yōu)選的,所述的方法還可以包括按照點(diǎn)擊頻率,對(duì)關(guān)鍵詞指向的網(wǎng)址進(jìn) 行排序。
優(yōu)選的,所述的方法還可以包括依據(jù)所述搜索日志信息對(duì)所述描述信息 和網(wǎng)址進(jìn)行校驗(yàn)的步驟;所述校驗(yàn)包括去除針對(duì)該關(guān)鍵詞的點(diǎn)擊頻率小于或 等于一定閾值的網(wǎng)址;和/或,去除在用戶搜索查詢中出現(xiàn)頻率小于或等于一 定閾值的關(guān)鍵詞。
優(yōu)選的,所述的方法還可以包括采集與導(dǎo)航數(shù)據(jù)相關(guān)的權(quán)重參數(shù);以及, 利用所述權(quán)重參數(shù)修正導(dǎo)航數(shù)據(jù)的匹配程度和/或排序情況。
依據(jù)本發(fā)明的另一優(yōu)選實(shí)施例,還公開了一種生成導(dǎo)航數(shù)據(jù)庫的系統(tǒng),可 以包括以下部件
曰志分析單元,用于分析搜索日志信息,獲取在一信息查詢?cè)~下,用戶點(diǎn) 擊頻率符合預(yù)置條件的網(wǎng)址;所述搜索日志信息包括信息查詢?cè)~及被用戶點(diǎn)擊
的網(wǎng)址;
描述信息獲取單元,用于依據(jù)信息查詢?cè)~獲取針對(duì)所述網(wǎng)址的描述信息; 所述描述信息包括關(guān)鍵詞;
數(shù)據(jù)庫生成單元,用于依據(jù)所獲得的網(wǎng)址和相應(yīng)的描述信息,建立導(dǎo)航數(shù) 據(jù)庫。
優(yōu)選的,所述描述信息獲取單元可以進(jìn)一步包括相關(guān)信息獲取子模塊, 用于獲取所述網(wǎng)址相應(yīng)的錨文本和/或相應(yīng)的主題名稱;分析子沖莫塊,用于分 析所述網(wǎng)址的錨文本和/或主題名稱、以及相應(yīng)的用戶查詢?cè)~,獲取針對(duì)所述 網(wǎng)址的描述信息。
優(yōu)選的,所述描述信息還包括點(diǎn)擊頻率。 優(yōu)選的,所述網(wǎng)址和相應(yīng)的關(guān)4定詞采用倒排表的數(shù)據(jù)結(jié)構(gòu)。 優(yōu)選的,所述系統(tǒng)還可以包括排序模塊,用于按照點(diǎn)擊頻率,對(duì)關(guān)鍵詞 指向的網(wǎng)址進(jìn)行排序。
優(yōu)選的,所述系統(tǒng)還可以包括校驗(yàn)?zāi)K,用于依據(jù)所述搜索日志信息對(duì) 所述描述信息和網(wǎng)址進(jìn)行校驗(yàn);所述校驗(yàn)包括去除針對(duì)該關(guān)鍵詞的點(diǎn)擊頻率 小于或等于一定閾值的網(wǎng)址;和/或,去除在用戶搜索查詢中出現(xiàn)頻率小于或 等于一定閾值的關(guān)鍵詞。
依據(jù)本發(fā)明的另一優(yōu)選實(shí)施例,還公開了一種網(wǎng)址導(dǎo)航的系統(tǒng),包括 導(dǎo)航數(shù)據(jù)庫,所述導(dǎo)航數(shù)據(jù)庫存儲(chǔ)有網(wǎng)址和相應(yīng)的描述信息;所述網(wǎng)址包 括在一信息查詢?cè)~下,用戶點(diǎn)擊頻率符合預(yù)置條件的網(wǎng)址;所述信息查詢?cè)~和 相應(yīng)的用戶點(diǎn)擊頻率通過分析搜索日志信息而獲??;所述描述信息依據(jù)對(duì)信息 查詢?cè)~的分析而獲得;
導(dǎo)航接口單元,用于接收用戶的網(wǎng)址查詢?cè)~,以及展示相應(yīng)的網(wǎng)址結(jié)果集;
導(dǎo)航檢索單元,用于依據(jù)用戶的網(wǎng)址查詢?cè)~檢索所述導(dǎo)航數(shù)據(jù)庫,返回相 應(yīng)的網(wǎng)址結(jié)果集。
優(yōu)選的,可以通過以下方式獲取所述描述信息獲:f又所述網(wǎng)址相應(yīng)的錨文
本和/或相應(yīng)的主題名稱;分析所述網(wǎng)址的錨文本和/或主題名稱、以及相應(yīng)的
用戶查詢?cè)~,獲取針對(duì)所述網(wǎng)址的描述信息。 優(yōu)選的,所述描述信息還包括點(diǎn)擊頻率。 優(yōu)選的,所述網(wǎng)址和相應(yīng)的關(guān)鍵詞采用倒排表的數(shù)據(jù)結(jié)構(gòu)。 優(yōu)選的,在所述倒排表數(shù)據(jù)結(jié)構(gòu)中, 一關(guān)4建詞指向的多個(gè)網(wǎng)址是按照在該
關(guān)鍵詞下的點(diǎn)擊頻率進(jìn)行排序的。
優(yōu)選的,所述描述信息和網(wǎng)址是經(jīng)過所述搜索日志信息校驗(yàn)的;所述校驗(yàn)
的方式包括去除針對(duì)該關(guān)鍵詞的點(diǎn)擊頻率小于或等于一定閾值的網(wǎng)址;和/
或,去除在用戶搜索查詢中出現(xiàn)頻率小于或等于一定閾值的關(guān)4建詞。
優(yōu)選的,所述的系統(tǒng)還可以包括用戶參數(shù)獲取模塊,用于獲取與導(dǎo)航數(shù)
據(jù)相關(guān)的權(quán)重參數(shù);權(quán)重調(diào)整模塊,用于利用所述權(quán)重參數(shù)修正導(dǎo)航數(shù)據(jù)的匹
配程度和/或排序情況。
與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點(diǎn)
本發(fā)明通過對(duì)搜索日志信息的分析處理,可以高效的獲取大規(guī)模的導(dǎo)航數(shù) 據(jù),比現(xiàn)有的人工收集更方i更快捷,并且數(shù)據(jù)更寬泛。
其次,本發(fā)明在對(duì)搜索日志信息的分析處理中還引入了錨文本、主題名稱 等其他相關(guān)信息,以便進(jìn)一步校正或修正分析結(jié)果,從而獲取更為準(zhǔn)確的導(dǎo)航 數(shù)據(jù)??傊?,本發(fā)明可以方便快捷的獲取比較準(zhǔn)確的、大規(guī)模的導(dǎo)航數(shù)據(jù)庫, 進(jìn)而為用戶提供更好的網(wǎng)址導(dǎo)航服務(wù)。


圖1是本發(fā)明一種生成導(dǎo)航數(shù)據(jù)庫的方法實(shí)施例1的步驟流程圖; 圖2是本發(fā)明一種生成導(dǎo)航數(shù)據(jù)庫的方法實(shí)施例2的步驟流程圖; 圖3是本發(fā)明一種生成導(dǎo)航數(shù)據(jù)庫的方法實(shí)施例3的步驟流程圖; 圖4是本發(fā)明一種網(wǎng)址導(dǎo)航的方法實(shí)施例的步驟流程圖; 圖5是本發(fā)明一種生成導(dǎo)航數(shù)據(jù)庫的系統(tǒng)實(shí)施例的結(jié)構(gòu)框圖6是本發(fā)明一種網(wǎng)址導(dǎo)航的系統(tǒng)實(shí)施例的結(jié)構(gòu)框圖。
具體實(shí)施例方式
為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合附圖和具體實(shí)施方式
對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說明。
本發(fā)明可用于眾多通用或?qū)S玫挠?jì)算系統(tǒng)環(huán)境或配置中。例如個(gè)人計(jì)算 機(jī)、服務(wù)器計(jì)算機(jī)、手持設(shè)備或便攜式設(shè)備、平板型設(shè)備、多處理器系統(tǒng)、包 括以上任何系統(tǒng)或設(shè)備的分布式計(jì)算環(huán)境等等。
本發(fā)明可以在由計(jì)算機(jī)執(zhí)行的計(jì)算機(jī)可執(zhí)行指令的 一般上下文中描述,例 如程序模塊。 一般地,程序模塊包括執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的 例程、程序、對(duì)象、組件、數(shù)據(jù)結(jié)構(gòu)等等。也可以在分布式計(jì)算環(huán)境中實(shí)踐本 發(fā)明,在這些分布式計(jì)算環(huán)境中,由通過通信網(wǎng)絡(luò)而被連接的遠(yuǎn)程處理設(shè)備來 執(zhí)行任務(wù)。在分布式計(jì)算環(huán)境中,程序模塊可以位于包括存儲(chǔ)設(shè)備在內(nèi)的本地 和遠(yuǎn)程計(jì)算機(jī)存儲(chǔ)介質(zhì)中。
參照?qǐng)D1,示出了本發(fā)明一種生成導(dǎo)航數(shù)據(jù)庫的方法實(shí)施例1,具體可以 包括以下步驟
步驟IOI、分析搜索日志信息,獲取在一信息查詢?cè)~下,用戶點(diǎn)擊頻率符 合預(yù)置條件的網(wǎng)址;所述搜索日志信息包括信息查詢?cè)~及被用戶點(diǎn)擊的網(wǎng)址; 例如,針對(duì)同一個(gè)查詢?cè)~,如果用戶的點(diǎn)擊集中在一個(gè)或者幾個(gè)網(wǎng)址上,則該 網(wǎng)址就是本發(fā)明所需的,即針對(duì)該查詢?cè)~的點(diǎn)擊焦點(diǎn)。
步驟102、依據(jù)信息查詢?cè)~獲取針對(duì)所述網(wǎng)址的描述信息;所述描述信息 包括關(guān)鍵詞。
步驟103、依據(jù)所獲得的網(wǎng)址和相應(yīng)的描述信息,建立導(dǎo)航數(shù)據(jù)庫。存儲(chǔ) 有上述信息的數(shù)據(jù)庫可以采用現(xiàn)有的各種數(shù)據(jù)庫模式,本發(fā)明對(duì)此并不需要加 以限定。當(dāng)然,所述導(dǎo)航數(shù)據(jù)庫中還可以包括其他的相關(guān)信息,例如與該網(wǎng)址 相關(guān)的信息介紹等等,以便于用戶了解該網(wǎng)址所擁有的資源內(nèi)容。
網(wǎng)絡(luò)上可用的每種資源HTML文檔、圖像、視頻片段、程序等等,都可 以由一個(gè)統(tǒng)一資源標(biāo)識(shí)符(Uniform Resource Identifier,簡(jiǎn)稱"URT')進(jìn)行定位。 URI—般由三部分組成訪問資源的命名機(jī)制;存放資源的主機(jī)名;資源自身
的名一爾、路4圣或者參凄史。例i口, http:〃www.webmonkey.com.cn/html/html40/; 這個(gè)URI表示了一個(gè)可通過HTTP協(xié)議訪問的資源,位于主機(jī) www.webmonkey.com.cn上,通過路4圣'7html/html40" i方問即可。在網(wǎng)纟各二斧源 數(shù)據(jù)傳輸領(lǐng)域中比較常用的是URL (Uniform Resource Location,統(tǒng)一資源定 位符),URL是URI命名機(jī)制的一個(gè)子集。因此,在本發(fā)明具體例子中,可能 釆用URL代替"網(wǎng)址,,進(jìn)行說明。
當(dāng)用戶在搜索引擎上查詢某個(gè)詞,并點(diǎn)擊了查詢結(jié)果,則搜索引擎服務(wù)器 上就會(huì)記錄一條日志記錄;隨著大量用戶的查詢,則搜索引擎服務(wù)器端會(huì)形成 數(shù)據(jù)量巨大的搜索日志信息。 一般的,每條日志信息記錄可以包括用戶的信息 查詢?cè)~以及該用戶點(diǎn)擊的網(wǎng)頁地址。如果用戶針對(duì)某一個(gè)信息查詢?cè)~,點(diǎn)擊打 開了多個(gè)網(wǎng)址,則可以記錄為多條日志記錄,也可以記錄為一條日志記錄,并 不影響本發(fā)明的分析過程。
步驟101就是對(duì)搜索日志信息的統(tǒng)計(jì)分析,例如,針對(duì)一信息查詢?cè)~,統(tǒng) 計(jì)當(dāng)用戶以該信息查詢?cè)~為搜索條件或者搜索條件之一時(shí),都點(diǎn)擊打開了哪些 網(wǎng)址,并記錄各個(gè)網(wǎng)址的點(diǎn)擊次數(shù)。
本發(fā)明所采用的頻率信息是一個(gè)通用的稱呼,在計(jì)算機(jī)內(nèi)部表示為一個(gè) 或者一系列數(shù)據(jù),用來評(píng)價(jià)(預(yù)測(cè))針對(duì)某個(gè)查詢?cè)~,某個(gè)網(wǎng)址被用戶打開的 可能性。所述頻率信息可以為絕對(duì)值,也可以為相對(duì)值,還可以為經(jīng)過一定 策略或者算法處理過的間接表示頻率的其他數(shù)值。當(dāng)某一個(gè)輸入可能匹配多個(gè) 網(wǎng)址時(shí),可以根據(jù)這些網(wǎng)址的相對(duì)頻率大小來調(diào)整其在候選列表中的位置,使 用戶能夠更方便的選擇其所需的網(wǎng)址,進(jìn)而完成導(dǎo)航。簡(jiǎn)單的,點(diǎn)擊頻率信息 可以為該網(wǎng)址;陂點(diǎn)擊的次數(shù)。
通過圖l所示的實(shí)施例,可以很方便的獲取一導(dǎo)航數(shù)據(jù)庫,其包含了網(wǎng)址 描述信息(關(guān)鍵詞)、網(wǎng)址以及二者之間的聯(lián)系;進(jìn)而,用戶通過輸入查詢?cè)~, 即可獲得自己所需的網(wǎng)址,優(yōu)選的,當(dāng)導(dǎo)航數(shù)據(jù)庫存儲(chǔ)有與網(wǎng)址相關(guān)的文字介 紹時(shí),用戶還可以獲得這些相關(guān)的信息,以便于進(jìn)一步了解該網(wǎng)址。
當(dāng)然,對(duì)于一些知名網(wǎng)站或者網(wǎng)址,也可以通過人工添加的方式存儲(chǔ)到所
述導(dǎo)航數(shù)據(jù)庫中,即本發(fā)明并不排斥其他的獲取導(dǎo)航數(shù)據(jù)的方式。
描述信息(關(guān)鍵詞)和網(wǎng)址之間的關(guān)系可以采用正排的方式,例如,由網(wǎng)
址指向描述信息,即某一個(gè)網(wǎng)址可以擁有幾個(gè)關(guān)鍵詞,只要用戶輸入了相匹配 的查詢?cè)~,即可向該用戶4,薦該網(wǎng)址。
當(dāng)然, 一般的,為了提高檢索效率,描述信息(關(guān)鍵詞)和網(wǎng)址之間采用
倒排表的方式,即由描述信息指向網(wǎng)址,例如,描述信息網(wǎng)址l,網(wǎng)址2......。
參見圖2,示出了本發(fā)明生成導(dǎo)航數(shù)據(jù)庫的方法實(shí)施例2,其與圖1所示 的實(shí)施例1的區(qū)別在于,實(shí)施例2增加了對(duì)前述所得的導(dǎo)航數(shù)據(jù)的擴(kuò)展,尤其 是擴(kuò)展了針對(duì)網(wǎng)址的描述關(guān)鍵詞,以提高導(dǎo)航數(shù)據(jù)的擴(kuò)展度。實(shí)施例2具體可 以包括
步驟201、分析搜索日志信息,獲取在一信息查詢?cè)~下,用戶點(diǎn)擊頻率符 合預(yù)置條件的網(wǎng)址;所述搜索日志信息包括信息查詢?cè)~及被用戶點(diǎn)擊的網(wǎng)址; 步驟202、獲取所述網(wǎng)址相應(yīng)的錨文本和/或相應(yīng)的主題名稱; 步驟203、分析所述網(wǎng)址的錨文本和/或主題名稱、以及相應(yīng)的用戶查詢 詞,獲取針對(duì)所述網(wǎng)址的描述信息;所述描述信息包括關(guān)鍵詞;
步驟204、依據(jù)所獲得的網(wǎng)址和相應(yīng)的描述信息,建立導(dǎo)航數(shù)據(jù)庫。 因?yàn)橐粋€(gè)網(wǎng)址的錨文本(Anchor,或者叫鏈接文本)和該網(wǎng)頁的主題名稱 也能夠在一定程度上起到導(dǎo)航的作用,所以實(shí)施例2引入這些輔助信息,以優(yōu) 化本發(fā)明的導(dǎo)航數(shù)據(jù)。所謂Anchor信息是指, 一個(gè)網(wǎng)頁通過超鏈接引用另一 個(gè)網(wǎng)頁時(shí)的一^a文字描述,Anchor信息和主題名稱是對(duì)一網(wǎng)頁的描述。
形象的說, 一個(gè)網(wǎng)頁中所有可以點(diǎn)擊的文字,都可以稱為Anchor信息。 由于搜索引擎為了完成搜索目的,需要抓取互聯(lián)網(wǎng)上所有的網(wǎng)頁,并對(duì)每個(gè)網(wǎng) 頁進(jìn)行分析,因此,在搜索引擎的數(shù)據(jù)庫中會(huì)記錄所有網(wǎng)頁上的可點(diǎn)擊的文字 和指向的鏈接,本發(fā)明直接利用即可。當(dāng)然,本發(fā)明并不限定釆用其他方式獲 取錨文本信息。
針對(duì)步驟101中找到的每個(gè)網(wǎng)址,都可以獲得相應(yīng)的主題名稱和多個(gè)錨文 本,以及與其相關(guān)聯(lián)的信息查詢?cè)~,將這些信息都轉(zhuǎn)換為多個(gè)關(guān)4走詞,然后統(tǒng) 計(jì)各個(gè)關(guān)鍵詞出現(xiàn)的次數(shù)或者頻率,將超過一定閾值的關(guān)鍵詞作為描述信息輸 出。即將網(wǎng)址和描述該網(wǎng)址的一系列關(guān)鍵詞關(guān)聯(lián)起來。
為了檢索方便, 一般的,針對(duì)上述信息建立倒排表,形成如下的一個(gè)數(shù)據(jù)
結(jié)構(gòu)——"關(guān)鍵詞網(wǎng)址l,網(wǎng)址2......"。
優(yōu)選的,步驟203得到的描述信息還可以包括某個(gè)網(wǎng)址在某個(gè)信息查詢?cè)~ 下的點(diǎn)擊頻率,然后,在上述的婆:據(jù)結(jié)構(gòu)一一 "關(guān)4建詞網(wǎng)址l,網(wǎng)址2……" ——中,對(duì)網(wǎng)址l、網(wǎng)址2……按照點(diǎn)擊頻率進(jìn)行排序。
參照?qǐng)D3,示出了本發(fā)明生成導(dǎo)航數(shù)據(jù)庫的方法實(shí)施例3,其與圖2所示 的實(shí)施例2的區(qū)別在于,實(shí)施例3進(jìn)一步增加了對(duì)前述所得的導(dǎo)航數(shù)據(jù)的校正 或修正,以提高導(dǎo)航數(shù)據(jù)的準(zhǔn)確度。實(shí)施例3具體可以包括
步驟301、分析搜索日志信息,獲取在一信息查詢?cè)~下,用戶點(diǎn)擊頻率符 合預(yù)置條件的網(wǎng)址;所述搜索日志信息包括信息查詢?cè)~及被用戶點(diǎn)擊的網(wǎng)址;
步驟302、獲取所述網(wǎng)址相應(yīng)的錨文本和/或相應(yīng)的主題名稱;
步驟303、分析所述網(wǎng)址的錨文本和/或主題名稱、以及相應(yīng)的用戶查詢 詞,獲取針對(duì)所述網(wǎng)址的描述信息;所述描述信息包括關(guān)鍵詞;
步驟304、依據(jù)所述搜索日志信息對(duì)所述描述信息和網(wǎng)址進(jìn)行校驗(yàn);所述 校驗(yàn)可以包括去除針對(duì)該關(guān)鍵詞的點(diǎn)擊頻率小于或等于一定閾值的網(wǎng)址;和 /或,去除在用戶搜索查詢中出現(xiàn)頻率小于或等于一定閾值的關(guān)鍵詞。
步驟305、依據(jù)所獲得的網(wǎng)址和相應(yīng)的描述信息,建立導(dǎo)航數(shù)據(jù)庫。
本實(shí)施例通過對(duì)錨文本和/或主題名稱的分析,可以增加、擴(kuò)展對(duì)各網(wǎng)址 的描述信息,但是由于錨文本和/或主題名稱中可能存在一些不能準(zhǔn)確反映網(wǎng) 址屬性的信息,而相對(duì)而言,用戶查詢點(diǎn)擊的行為對(duì)網(wǎng)址導(dǎo)航的意義更大更準(zhǔn) 確一些,因此,本實(shí)施例通過步驟304采用搜索日志信息對(duì)前述得到的導(dǎo)航數(shù) 據(jù)進(jìn)行校驗(yàn)。
例如,對(duì)于倒排表結(jié)構(gòu)一一 "關(guān)鍵詞網(wǎng)址l,網(wǎng)址2......",實(shí)施例擴(kuò)展
的結(jié)果是"關(guān)4建詞網(wǎng)址l,網(wǎng)址2,網(wǎng)址3……",網(wǎng)址3是新增的;為了 驗(yàn)證網(wǎng)址3是否可以作為導(dǎo)航數(shù)據(jù),在搜索日志中查詢,發(fā)現(xiàn)用戶在查詢?cè)撽P(guān) 鍵詞時(shí),很少或者從來沒有打開網(wǎng)址3 ,則說明網(wǎng)址3與該關(guān)鍵詞的關(guān)聯(lián)度很 低,導(dǎo)航不準(zhǔn)確,因此,將其從該數(shù)據(jù)結(jié)構(gòu)中刪除。
再例如,通過對(duì)錨文本和/或主題名稱的分析,可能新增一些關(guān)鍵詞,但 是通過在搜索日志中查詢,發(fā)現(xiàn)用戶很少或者從來沒有釆用這些關(guān)鍵詞進(jìn)行查
詢,因此,可以直接將含有該關(guān)4建詞的倒排表結(jié)構(gòu)進(jìn)行刪除。
對(duì)于校驗(yàn)后的倒排表結(jié)構(gòu)一一 "關(guān)4定詞網(wǎng)址l,網(wǎng)址2……,,,按照在關(guān) 鍵詞下的點(diǎn)擊頻率,對(duì)網(wǎng)址l,網(wǎng)址2……進(jìn)行排序。
本實(shí)施例通過對(duì)錨文本和/或主題名稱的分析,擴(kuò)展了導(dǎo)航數(shù)據(jù),又進(jìn)一 步通過搜索日志信息對(duì)擴(kuò)展后的導(dǎo)航數(shù)據(jù)進(jìn)行了校正或者修正,從而可以得到 最佳的導(dǎo)航數(shù)據(jù)庫。當(dāng)然,具體的校^r邏輯可以有很多,上面僅僅是兩個(gè)舉例 而已。
參照?qǐng)D4,示出了本發(fā)明一種網(wǎng)址導(dǎo)航的方法實(shí)施例,該實(shí)施例是在前述 各種方法實(shí)施例得到的導(dǎo)航數(shù)據(jù)庫的基礎(chǔ)上幫助用戶完成網(wǎng)址導(dǎo)航的。本實(shí)施 例采用前述較佳的解決方案進(jìn)行描述,其他解決方案參照即可。本實(shí)施例具體 可以包括
步驟401、分析搜索日志信息,獲取在一信息查詢?cè)~下,用戶點(diǎn)擊頻率符 合預(yù)置條件的網(wǎng)址;所述搜索日志信息包括信息查詢?cè)~及被用戶點(diǎn)擊的網(wǎng)址; 步驟402、獲取所述網(wǎng)址相應(yīng)的錨文本和/或相應(yīng)的主題名稱; 步驟403、分析所述網(wǎng)址的錨文本和/或主題名稱、以及相應(yīng)的用戶查詢 詞,獲取針對(duì)所述網(wǎng)址的描述信息;所述描述信息包括關(guān)鍵詞;
步驟404、依據(jù)所述搜索日志信息對(duì)所述描述信息和網(wǎng)址進(jìn)行校驗(yàn);所述 沖交驗(yàn)包括去除針對(duì)該關(guān)4定詞的點(diǎn)擊頻率小于或等于一定閾值的網(wǎng)址;和/或, 去除在用戶搜索查詢中出現(xiàn)頻率小于或等于一定閾值的關(guān)鍵詞;
步驟405、依據(jù)所獲得的網(wǎng)址和相應(yīng)的描述信息,建立導(dǎo)航數(shù)據(jù)庫; 步驟406、接收用戶的網(wǎng)址查詢?cè)~,檢索所述導(dǎo)航數(shù)據(jù)庫,向用戶返回相 應(yīng)的網(wǎng)址結(jié)果集。優(yōu)選的,當(dāng)步驟405得到的所述導(dǎo)航數(shù)據(jù)庫還包括有針對(duì)網(wǎng) 址的介紹信息時(shí)(例如,文字或者圖片等形式的介紹),在向用戶返回相應(yīng)的 網(wǎng)址結(jié)果集的同時(shí),還可以展示相關(guān)的介紹信息,以便用戶提前了解該網(wǎng)址的 大致情況。
其中,優(yōu)選方案是所述網(wǎng)址和相應(yīng)的關(guān)鍵詞采用倒排表的數(shù)據(jù)結(jié)構(gòu);并 按照點(diǎn)擊頻率,對(duì)關(guān)鍵詞指向的多個(gè)網(wǎng)址進(jìn)行排序,以按照順序向用戶推薦。 在步驟406中,用戶一般都通過關(guān)鍵詞進(jìn)行查詢,在所述導(dǎo)航數(shù)據(jù)庫中對(duì)
該關(guān)鍵詞進(jìn)行匹配,即可獲得該用戶所需的與該關(guān)鍵詞高度關(guān)聯(lián)的多個(gè)網(wǎng)址,
并按照一定的順序推薦給用戶,從而實(shí)現(xiàn)面向用戶的網(wǎng)址導(dǎo)航。對(duì)于具體的對(duì)
用戶輸入查詢信息的分詞、解析以及具體的數(shù)據(jù)庫查詢匹配等數(shù)據(jù)處理過程,
現(xiàn)有的搜索技術(shù)已經(jīng)完全實(shí)現(xiàn),本發(fā)明在此不再贅述,本領(lǐng)域技術(shù)人員根據(jù)需 要參照即可。
優(yōu)選的,為了進(jìn)一步提高網(wǎng)址導(dǎo)航的精度,圖4所示的實(shí)施例還可以包括 釆集與導(dǎo)航數(shù)據(jù)相關(guān)的其他信息,以便能提供更高精度的網(wǎng)址導(dǎo)航。例如,采 集用戶的IP、導(dǎo)航查詢時(shí)間段、或者用戶的導(dǎo)航反饋情況等等,進(jìn)而對(duì)這些 權(quán)重參數(shù)統(tǒng)計(jì)匯總,依據(jù)分布情況調(diào)整所述導(dǎo)航數(shù)據(jù)庫中各個(gè)網(wǎng)址對(duì)于查詢?cè)~ 的匹配程度和/或排序情況,從而為用戶提供更為精確的導(dǎo)航數(shù)據(jù)。
即優(yōu)選的,圖4所示的實(shí)施例在普通關(guān)鍵詞匹配檢索的基礎(chǔ)上,可以進(jìn)一 步引入與導(dǎo)航過程相關(guān)的一些信息,通過權(quán)重調(diào)整而獲取更為精確的導(dǎo)航數(shù)據(jù) (對(duì)于大部分用戶而言)。
具體的,上述的權(quán)重參數(shù)在現(xiàn)有技術(shù)條件下,可以較容易的獲取。例如, IP和導(dǎo)航查詢時(shí)間段可以直接在通信過程中獲??;導(dǎo)航反饋情況可以通過日 志信息查詢獲得。進(jìn)一步,在數(shù)據(jù)采集不困難的情況下,本發(fā)明還可以引入更 多的權(quán)重參數(shù),以為用戶提供更為精確的導(dǎo)航數(shù)據(jù)。
當(dāng)然,此時(shí)的導(dǎo)航數(shù)據(jù)庫中可能需要有相應(yīng)的調(diào)整策略,至于具體的調(diào)整 策略, 一般的,與歷史數(shù)據(jù)及技術(shù)人員所選擇的修正方式有關(guān),屬于本領(lǐng)域一 般技術(shù)人員所熟知的,在此簡(jiǎn)單說明。
具體的,本發(fā)明可以在統(tǒng)計(jì)點(diǎn)擊頻率的過程中,依據(jù)前述權(quán)重參數(shù),修正
計(jì)算得到更為精確的點(diǎn)擊頻率(例如,某些IP或時(shí)間段的點(diǎn)擊權(quán)重降低,某 些IP或時(shí)間段的點(diǎn)擊權(quán)重增加)。本發(fā)明也可以直接依據(jù)前述權(quán)重參數(shù)對(duì)既定 的匹配程度和/或排序情況進(jìn)行修正(例如,某個(gè)網(wǎng)址的導(dǎo)航反饋優(yōu)于另一網(wǎng) 址,則將該網(wǎng)址排序在前)。
對(duì)于本實(shí)施例的步驟406,用于接收用戶網(wǎng)址查詢?cè)~和展示網(wǎng)址結(jié)果集的 用戶界面,可以是多種多樣的,本領(lǐng)域技術(shù)人員可以設(shè)計(jì)出各種貼近用戶需要 的界面4妄口。
例如,建立一個(gè)導(dǎo)航網(wǎng)站,通過設(shè)置在該導(dǎo)航網(wǎng)站主頁上的網(wǎng)址查詢?cè)~輸
入框以及頁面信息展示,而完成網(wǎng)址導(dǎo)航。
再例如,還可以在搜索引擎輸入框中集成相應(yīng)的導(dǎo)航數(shù)據(jù)和導(dǎo)航形式。具 體而言,如,當(dāng)用戶輸入查詢?cè)~時(shí),在點(diǎn)擊搜索命令之前,可以先以浮動(dòng)窗口 或者下拉菜單等方式展現(xiàn)依據(jù)本發(fā)明導(dǎo)航得到的網(wǎng)址結(jié)果集,以實(shí)現(xiàn)網(wǎng)址導(dǎo) 航。如果用戶需要繼續(xù)搜索,則點(diǎn)擊搜索命令按鈕,完成通常的網(wǎng)頁搜索即可。
再例如,對(duì)于通常的網(wǎng)頁搜索,在網(wǎng)頁搜索結(jié)果集的前面先展示幾項(xiàng)網(wǎng)址 導(dǎo)航的結(jié)果。具體而言,如,當(dāng)用戶輸入查詢?cè)~時(shí),在點(diǎn)擊搜索命令之后,返 回的結(jié)果頁面中,前兩項(xiàng)是依據(jù)本發(fā)明得到的網(wǎng)址導(dǎo)航的結(jié)果,而后面的才是 依據(jù)通過搜索過程得到的網(wǎng)頁搜索結(jié)果。
再例如,以各種客戶端軟件形式獨(dú)立出現(xiàn)或者結(jié)合出現(xiàn)的網(wǎng)址導(dǎo)航界面。
實(shí)際上,采用各種用戶界面完成網(wǎng)址導(dǎo)航和結(jié)果展示,對(duì)于本發(fā)明都是可 行的,因?yàn)楸景l(fā)明的核心并不在于導(dǎo)航界面的創(chuàng)新,在此本發(fā)明就不——詳述 了。
對(duì)于上述過程,下面舉例說明。 (1 )對(duì)于查詢?cè)~"搜狗",分析搜索日志得到的訪問焦點(diǎn)(即點(diǎn)擊率較高
的兩個(gè)網(wǎng)址)為
24471 http://d. sogou. com/
13240 http://www.sogou.com/
對(duì)于查詢?cè)~"Mp3 ",得到的訪問焦點(diǎn)為 35477 http://mp3.baidu.com/ 10339 http://mp3.sogou.com/
(2 )對(duì)于每個(gè)URL用Anchor信息和點(diǎn)擊信息擴(kuò)展后得到焦點(diǎn)關(guān)鍵詞(各 個(gè)焦點(diǎn)關(guān)4定詞是按照出現(xiàn)頻率排序的) http: //d. sogou. com/ 24471 搜狗 10339 mp3
http: //www. sogou. com/ 1324G 搜狗 8336 sogou
(3 )對(duì)上述信息建立倒排表,得到 搜狗 http://www.sogou.com/ http://mp3.sogou.com/ Sogou http://www.sogou.com/
mp3 http://mp3.sogou.com/ http://mp3.baidu.com/
(4) 利用搜索日志信息對(duì)上述信息進(jìn)行校驗(yàn),并排序
搜狗http://mp3.sogou.com/ http://www.sogou.com/ Sogou http://www.sogou.com/
mp3 http://mp3.sogou.com/ http://mp3.baidu.com/
(5) 對(duì)上述信息建立索引、生成導(dǎo)航數(shù)據(jù)庫;
(6 )建立網(wǎng)址導(dǎo)航查詢系統(tǒng),比如建立一個(gè)網(wǎng)站http: 〃123. sogou. com/
參照?qǐng)D5 ,示出了 一種生成導(dǎo)航數(shù)據(jù)庫的系統(tǒng)實(shí)施例,具體可以包括 曰志分析單元501,用于分析搜索日志信息,獲取在一信息查詢?cè)~下,用
戶點(diǎn)擊頻率符合預(yù)置條件的網(wǎng)址;所述搜索日志信息包括信息查詢?cè)~及被用戶
點(diǎn)擊的網(wǎng)址;
描述信息獲取單元502,用于依據(jù)信息查詢?cè)~獲取針對(duì)所述網(wǎng)址的描述信 息;所述描述信息包括關(guān)鍵詞;
凄t據(jù)庫生成單元503,用于依據(jù)所獲得的網(wǎng)址和相應(yīng)的描述信息,建立導(dǎo) 航數(shù)據(jù)庫。
一般的,描述信息獲取單元502通過收集用戶的信息查詢?cè)~,即可獲得包 括關(guān)鍵的描述信息。而在本發(fā)明的另一優(yōu)選實(shí)施例,為了得到擴(kuò)展的所述描述
信息獲取單元進(jìn)一步包括相關(guān)信息獲取子模塊,用于獲取所述網(wǎng)址相應(yīng)的錨 文本和/或相應(yīng)的主題名稱;分析子;^莫塊,用于分析所述網(wǎng)址的錨文本和/或主
題名稱、以及相應(yīng)的用戶查詢?cè)~,獲取針對(duì)所述網(wǎng)址的描述信息。
優(yōu)選的,所述網(wǎng)址和相應(yīng)的關(guān)鍵詞釆用倒排表的數(shù)據(jù)結(jié)構(gòu),并進(jìn)一步包括
用于按照點(diǎn)擊頻率,對(duì)關(guān)4建詞指向的網(wǎng)址進(jìn)行排序的排序^f莫塊504。
在本發(fā)明的另 一優(yōu)選實(shí)施例,為了校正錨文本信息和網(wǎng)頁主題名稱所可能
帶來的噪聲,本實(shí)施例還可以包括校驗(yàn)?zāi)K505,用于依據(jù)所述搜索日志信息 對(duì)所述描述信息和網(wǎng)址進(jìn)行校驗(yàn);所述校驗(yàn)可以包括去除針對(duì)該關(guān)鍵詞的點(diǎn) 擊頻率小于或等于一定閾值的網(wǎng)址;和/或,去除在用戶搜索查詢中出現(xiàn)頻率 小于或等于一定閾值的關(guān)鍵詞。
參照?qǐng)D6,示出了一種網(wǎng)址導(dǎo)航的系統(tǒng)實(shí)施例,具體可以包括 導(dǎo)航數(shù)據(jù)庫601,所述導(dǎo)航數(shù)據(jù)庫存儲(chǔ)有網(wǎng)址和相應(yīng)的描述信息;所述網(wǎng)
址包括在一信息查詢?cè)~下,用戶點(diǎn)擊頻率符合預(yù)置條件的網(wǎng)址;所述信息查詢
詞和相應(yīng)的用戶點(diǎn)擊頻率通過分析搜索日志信息而獲?。凰雒枋鲂畔⒁罁?jù)對(duì)
信息查詢?cè)~的分析而獲得;
導(dǎo)艇4妄口單元602,用于4矣收用戶的網(wǎng)址查詢?cè)~,以l艮示相應(yīng)的網(wǎng)址結(jié)
果集;
導(dǎo)航檢索單元603,用于依據(jù)用戶的網(wǎng)址查詢?cè)~檢索所述導(dǎo)航數(shù)據(jù)庫601, 返回相應(yīng)的網(wǎng)址結(jié)果集。
優(yōu)選的,所述導(dǎo)航數(shù)據(jù)庫還可以包括有針對(duì)網(wǎng)址的介紹信息(例如,文字 或者圖片等形式的介紹),當(dāng)導(dǎo)航接口單元602在向用戶展示相應(yīng)的網(wǎng)址結(jié)果 集的同時(shí),還可以展示相關(guān)的介紹信息,以便用戶提前了解該網(wǎng)址的大致情況。
一般的,通過收集用戶的信息查詢?cè)~,即可獲得包括關(guān)鍵的描述信息。而 在本發(fā)明的另一優(yōu)選實(shí)施例中,可以通過以下方式獲取所述描述信息首先, 獲取所述網(wǎng)址相應(yīng)的錨文本和/或相應(yīng)的主題名稱;然后分析所述網(wǎng)址的錨文 本和/或主題名稱、以及相應(yīng)的用戶查詢?cè)~,獲取針對(duì)所述網(wǎng)址的描述信息。
優(yōu)選的,所述網(wǎng)址和相應(yīng)的關(guān)鍵詞采用倒排表的數(shù)據(jù)結(jié)構(gòu),并且進(jìn)一步, 對(duì)于倒排表結(jié)構(gòu)一一"關(guān)4建詞網(wǎng)址l,網(wǎng)址2……,,,是按照在該關(guān)4定詞下的
點(diǎn)擊頻率,對(duì)網(wǎng)址l,網(wǎng)址2……進(jìn)行排序的。
進(jìn)一步,導(dǎo)航數(shù)據(jù)庫601中所存儲(chǔ)的導(dǎo)航數(shù)據(jù)是經(jīng)過校驗(yàn)的。例如,依據(jù)
所述搜索日志信息對(duì)所述描述信息和網(wǎng)址進(jìn)行校驗(yàn);所述校驗(yàn)可以包括去除 針對(duì)該關(guān)鍵詞的點(diǎn)擊頻率小于或等于一定閾值的網(wǎng)址;和/或,去除在用戶搜 索查詢中出現(xiàn)頻率小于或等于一定閾值的關(guān)4建詞。
優(yōu)選的,所述的系統(tǒng)還可以包括用戶參數(shù)獲取模塊,用于獲取與導(dǎo)航數(shù) 據(jù)相關(guān)的權(quán)重參數(shù);權(quán)重調(diào)整模塊,用于利用所述權(quán)重參數(shù)修正導(dǎo)航數(shù)據(jù)的匹 配程度和/或排序情況。上述兩個(gè)模塊可以用于優(yōu)化所述導(dǎo)航數(shù)據(jù)庫601。
本說明書中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說明的 都是與其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似的部分互相參見即 可。對(duì)于系統(tǒng)實(shí)施例而言,由于其與方法實(shí)施例基本相似,所以描述的比較簡(jiǎn) 單,相關(guān)之處參見方法實(shí)施例的部分說明即可。
以上對(duì)本發(fā)明所提供的一種生成導(dǎo)航數(shù)據(jù)庫的方法和裝置,以及一種網(wǎng)址 導(dǎo)航的方法和裝置,進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個(gè)例對(duì)本發(fā)明的原理 及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說明只是用于幫助理解本發(fā)明的方法及 其核心思想;同時(shí),對(duì)于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體 實(shí)施方式及應(yīng)用范圍上均會(huì)有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為 對(duì)本發(fā)明的限制。
權(quán)利要求
1、一種生成導(dǎo)航數(shù)據(jù)庫的方法,其特征在于,包括分析搜索日志信息,獲取在一信息查詢?cè)~下,用戶點(diǎn)擊頻率符合預(yù)置條件的網(wǎng)址;所述搜索日志信息包括信息查詢?cè)~及被用戶點(diǎn)擊的網(wǎng)址;依據(jù)信息查詢?cè)~獲取針對(duì)所述網(wǎng)址的描述信息;所述描述信息包括關(guān)鍵詞;依據(jù)所獲得的網(wǎng)址和相應(yīng)的描述信息,建立導(dǎo)航數(shù)據(jù)庫。
2、 如權(quán)利要求l所述的方法,其特征在于,所述依據(jù)信息查詢?cè)~獲得描 述信息的步驟進(jìn)一步包括獲取所述網(wǎng)址相應(yīng)的錨文本和/或相應(yīng)的主題名稱;分析所述網(wǎng)址的錨文本和/或主題名稱、以及相應(yīng)的用戶查詢?cè)~,獲取針 對(duì)所述網(wǎng)址的描述信息。
3、 如權(quán)利要求1或2所述的方法,其特征在于,所述描述信息還包括點(diǎn) 擊頻率。
4、 如權(quán)利要求3所述的方法,其特征在于,所述網(wǎng)址和相應(yīng)的關(guān)鍵詞采 用倒排表的數(shù)據(jù)結(jié)構(gòu)。
5、 如權(quán)利要求4所述的方法,其特征在于,還包括按照點(diǎn)擊頻率,對(duì) 關(guān)鍵詞指向的網(wǎng)址進(jìn)行排序。
6、 如權(quán)利要求3所述的方法,其特征在于,還包括依據(jù)所述搜索日志 信息對(duì)所述描述信息和網(wǎng)址進(jìn)行校驗(yàn)的步驟,所述校驗(yàn)包括去除針對(duì)該關(guān)鍵詞的點(diǎn)擊頻率小于或等于一定閾值的網(wǎng)址;和/或,去除在用戶搜索查詢中出現(xiàn)頻率小于或等于一定閾值的關(guān)4A詞。
7、 一種網(wǎng)址導(dǎo)航的方法,其特征在于,包括分析搜索日志信息,獲取在一信息查詢?cè)~下,用戶點(diǎn)擊頻率符合預(yù)置條件 的網(wǎng)址;所述^t索日志信息包括信息查詢?cè)~及^^皮用戶點(diǎn)擊的網(wǎng)址;依據(jù)信息查詢?cè)~獲取針對(duì)所述網(wǎng)址的描述信息;所述描述信息包括關(guān)鍵詞;依據(jù)所獲得的網(wǎng)址和相應(yīng)的描述信息,建立導(dǎo)航數(shù)據(jù)庫; 接收用戶的網(wǎng)址查詢?cè)~,4全索所述導(dǎo)4元數(shù)據(jù)庫,向用戶返回相應(yīng)的網(wǎng)址結(jié)果集。
8、 如權(quán)利要求7所述的方法,其特征在于,所述依據(jù)信息查詢?cè)~獲得描 述信息的步驟進(jìn)一步包括獲取所述網(wǎng)址相應(yīng)的錨文本和/或相應(yīng)的主題名稱;分析所述網(wǎng)址的錨文本和/或主題名稱、以及相應(yīng)的用戶查詢?cè)~,獲取針 對(duì)所述網(wǎng)址的描述信息。
9、 如權(quán)利要求7或8所述的方法,其特征在于,所述描述信息還包括點(diǎn) 擊頻率。
10、 如權(quán)利要求9所述的方法,其特征在于,所述網(wǎng)址和相應(yīng)的關(guān)鍵詞采 用倒排表的數(shù)據(jù)結(jié)構(gòu)。
11、 如權(quán)利要求10所述的方法,其特征在于,還包括按照點(diǎn)擊頻率, 對(duì)關(guān)鍵詞指向的網(wǎng)址進(jìn)行排序。
12、 如權(quán)利要求9所述的方法,其特征在于,還包括依據(jù)所述搜索日志 信息對(duì)所述描述信息和網(wǎng)址進(jìn)行校驗(yàn)的步驟;所述校驗(yàn)包括去除針對(duì)該關(guān)鍵詞的點(diǎn)擊頻率小于或等于一定閾值的網(wǎng)址;和/或,去除在用戶搜索查詢中出現(xiàn)頻率小于或等于一定閾值的關(guān)鍵詞。
13、 如權(quán)利要求7所述的方法,其特征在于,還包括 采集與導(dǎo)航數(shù)據(jù)相關(guān)的權(quán)重參數(shù);利用所述權(quán)重參數(shù)修正導(dǎo)航數(shù)據(jù)的匹配程度和/或排序情況。
14、 一種生成導(dǎo)航數(shù)據(jù)庫的系統(tǒng),其特征在于,包括 日志分析單元,用于分析搜索日志信息,獲取在一信息查詢?cè)~下,用戶點(diǎn)擊頻率符合預(yù)置條件的網(wǎng)址;所述搜索日志信息包括信息查詢?cè)~及被用戶點(diǎn)擊 的網(wǎng)址;描述信息獲取單元,用于依據(jù)信息查詢?cè)~獲取針對(duì)所述網(wǎng)址的描述信息; 所述描述信息包括關(guān)鍵詞;數(shù)據(jù)庫生成單元,用于依據(jù)所獲得的網(wǎng)址和相應(yīng)的描述信息,建立導(dǎo)航數(shù) 據(jù)庫。
15、 如權(quán)利要求14所述的系統(tǒng),其特征在于,所述描述信息獲取單元進(jìn) 一步包括相關(guān)信息獲取子模塊,用于獲取所述網(wǎng)址相應(yīng)的錨文本和/或相應(yīng)的主題名稱;分析子模塊,用于分析所述網(wǎng)址的錨文本和/或主題名稱、以及相應(yīng)的用 戶查詢?cè)~,獲取針對(duì)所述網(wǎng)址的描述信息。
16、 如權(quán)利要求14或15所述的系統(tǒng),其特征在于,所述描述信息還包括 點(diǎn)擊頻率。
17、 如權(quán)利要求16所述的系統(tǒng),其特征在于,所述網(wǎng)址和相應(yīng)的關(guān)鍵詞 采用倒排表的數(shù)據(jù)結(jié)構(gòu)。
18、 如權(quán)利要求17所述的系統(tǒng),其特征在于,還包括 排序模塊,用于按照點(diǎn)擊頻率,對(duì)關(guān)鍵詞指向的網(wǎng)址進(jìn)行排序。
19、 如權(quán)利要求16所述的系統(tǒng),其特征在于,還包括校驗(yàn)?zāi)K,用于依據(jù)所述搜索日志信息對(duì)所述描述信息和網(wǎng)址進(jìn)行校驗(yàn); 所述校驗(yàn)包括去除針對(duì)該關(guān)4建詞的點(diǎn)擊頻率小于或等于一定閾值的網(wǎng)址;和/或,去除在用戶搜索查詢中出現(xiàn)頻率小于或等于一定閾值的關(guān)鍵詞。
20、 一種網(wǎng)址導(dǎo)航的系統(tǒng),其特征在于,包括導(dǎo)航數(shù)據(jù)庫,所述導(dǎo)航數(shù)據(jù)庫存儲(chǔ)有網(wǎng)址和相應(yīng)的描述信息;所述網(wǎng)址包 括在一信息查詢?cè)~下,用戶點(diǎn)擊頻率符合預(yù)置條件的網(wǎng)址;所述信息查詢?cè)~和 相應(yīng)的用戶點(diǎn)擊頻率通過分析搜索日志信息而獲??;所述描述信息依據(jù)對(duì)信息 查詢?cè)~的分析而獲得;導(dǎo)航4妄口單元,用于"l妄收用戶的網(wǎng)址查詢?cè)~,以M示相應(yīng)的網(wǎng)址結(jié)果集; 導(dǎo)航檢索單元,用于依據(jù)用戶的網(wǎng)址查詢?cè)~檢索所述導(dǎo)航數(shù)據(jù)庫,返回相 應(yīng)的網(wǎng)址結(jié)果集。
21、 如權(quán)利要求20所述的系統(tǒng),其特征在于,通過以下方式獲取所述描 述信息獲取所述網(wǎng)址相應(yīng)的錨文本和/或相應(yīng)的主題名稱;分析所述網(wǎng)址的錨文本和/或主題名稱、以及相應(yīng)的用戶查詢?cè)~,獲取針 對(duì)所述網(wǎng)址的描述信息。
22、 如權(quán)利要求20或21所述的系統(tǒng),其特征在于,所述描述信息還包括點(diǎn)擊頻率。
23、 如權(quán)利要求22所述的系統(tǒng),其特征在于,所述網(wǎng)址和相應(yīng)的關(guān)鍵詞 采用倒排表的數(shù)據(jù)結(jié)構(gòu)。
24、 如權(quán)利要求23所述的系統(tǒng),其特征在于,在所述倒排表數(shù)據(jù)結(jié)構(gòu)中, 一關(guān)鍵詞指向的多個(gè)網(wǎng)址是按照在該關(guān)^l建詞下的點(diǎn)擊頻率進(jìn)行排序的。
25、 如權(quán)利要求22所述的系統(tǒng),其特征在于,所述描述信息和網(wǎng)址是經(jīng) 過所述搜索日志信息才吏-驗(yàn)的;所述校驗(yàn)的方式包括去除針對(duì)該關(guān)鍵詞的點(diǎn)擊頻率小于或等于一定閾值的網(wǎng)址;和/或,去除在用戶搜索查詢中出現(xiàn)頻率小于或等于一定閾值的關(guān)鍵詞。
26、 如權(quán)利要求20所述的系統(tǒng),其特征在于,還包括 用戶參數(shù)獲取模塊,用于獲取與導(dǎo)航數(shù)據(jù)相關(guān)的權(quán)重參數(shù); 權(quán)重調(diào)整模塊,用于利用所述權(quán)重參數(shù)修正導(dǎo)航數(shù)據(jù)的匹配程度和/或排序情況。
全文摘要
本發(fā)明提供了一種生成導(dǎo)航數(shù)據(jù)庫的方法,以及利用該導(dǎo)航數(shù)據(jù)庫完成網(wǎng)址導(dǎo)航的解決方案。所述生成導(dǎo)航數(shù)據(jù)庫的方法包括分析搜索日志信息,獲取在一信息查詢?cè)~下,用戶點(diǎn)擊頻率符合預(yù)置條件的網(wǎng)址;所述搜索日志信息包括信息查詢?cè)~及被用戶點(diǎn)擊的網(wǎng)址;依據(jù)信息查詢?cè)~獲取針對(duì)所述網(wǎng)址的描述信息;所述描述信息包括關(guān)鍵詞;依據(jù)所獲得的網(wǎng)址和相應(yīng)的描述信息,建立導(dǎo)航數(shù)據(jù)庫。本發(fā)明通過對(duì)搜索日志信息的分析處理,可以高效的獲取大規(guī)模的導(dǎo)航數(shù)據(jù),比現(xiàn)有的人工收集更方便快捷,并且數(shù)據(jù)更寬泛??傊景l(fā)明可以方便快捷的獲取比較準(zhǔn)確的、大規(guī)模的導(dǎo)航數(shù)據(jù)庫,進(jìn)而為用戶提供更好的網(wǎng)址導(dǎo)航服務(wù)。
文檔編號(hào)G06F17/30GK101178728SQ20071017782
公開日2008年5月14日 申請(qǐng)日期2007年11月21日 優(yōu)先權(quán)日2007年11月21日
發(fā)明者張智敏, 茹立云 申請(qǐng)人:北京搜狗科技發(fā)展有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
郁南县| 洪洞县| 尚志市| 新平| 当涂县| 绥中县| 隆德县| 加查县| 三门峡市| 洪洞县| 读书| 新绛县| 漠河县| 恩施市| 读书| 呼图壁县| 宁武县| 延安市| 佛教| 衡南县| 通海县| 东光县| 两当县| 怀集县| 盘锦市| 恩平市| 肇庆市| 云南省| 南郑县| 定日县| 巫山县| 上高县| 丽水市| 鹤庆县| 布尔津县| 册亨县| 灵石县| 文成县| 绍兴市| 桦南县| 和顺县|