專利名稱:網(wǎng)頁數(shù)據(jù)庫的建立方法、網(wǎng)頁搜索方法以及相關(guān)裝置的制作方法
技術(shù)領(lǐng)域:
本申請涉及計算機網(wǎng)絡(luò)技術(shù)領(lǐng)域,尤其涉及一種網(wǎng)頁數(shù)據(jù)庫的建立方法、一種網(wǎng)頁搜索方法、一種網(wǎng)頁數(shù)據(jù)庫的建立裝置和一種網(wǎng)頁搜索裝置。
背景技術(shù):
隨著互聯(lián)網(wǎng)技術(shù)的普及,網(wǎng)頁搜索引擎在互聯(lián)網(wǎng)中得到廣泛應(yīng)用。附圖1為現(xiàn)有網(wǎng)絡(luò)搜索系統(tǒng)的示意圖,人們在使用網(wǎng)頁搜索引擎時,只需要在搜索引擎客戶端(例如網(wǎng)頁瀏覽器的指定頁面)的文本框中輸入搜索關(guān)鍵詞,然后點擊搜索引擎頁面中的搜索按鍵,或者敲擊鍵盤上的回車鍵,就可以向網(wǎng)頁搜索引擎的后臺服務(wù)器發(fā)送一個攜帶有搜索關(guān)鍵詞的搜索請求。該后臺服務(wù)器將包含根據(jù)該搜索關(guān)鍵詞搜索到的相關(guān)網(wǎng)頁的鏈接地址的搜索結(jié)果反饋給客戶端,用戶可基于接收到搜索結(jié)果選擇并訪問感興趣的相關(guān)網(wǎng)頁?,F(xiàn)有網(wǎng)頁搜索引擎的后臺服務(wù)器維護(hù)有一個規(guī)模巨大(幾億至幾十億不等)的網(wǎng)頁數(shù)據(jù)庫。后臺服務(wù)器根據(jù)搜索關(guān)鍵詞獲得搜索結(jié)果的基本原理為逐一計算網(wǎng)頁數(shù)據(jù)庫中每個網(wǎng)頁中的內(nèi)容分別與搜索關(guān)鍵詞的相似度值,選取相似度值超過預(yù)定閾值的網(wǎng)頁, 將選取的網(wǎng)頁的鏈接地址作為搜索結(jié)果反饋給客戶端。通常,后臺服務(wù)器將搜索結(jié)果反饋給客戶端之前,還可以按照各網(wǎng)頁中的內(nèi)容與搜索關(guān)鍵詞的相似度值由高到底的順序,對選取的網(wǎng)頁的鏈接地址進(jìn)行排序,將排序后的各網(wǎng)頁的鏈接地址作為搜索結(jié)果反饋給客戶端。在上述后臺服務(wù)器逐一計算每個網(wǎng)頁中的內(nèi)容分別與搜索關(guān)鍵詞的相似度值時, 通??紤]各網(wǎng)頁中的內(nèi)容與搜索關(guān)鍵詞的匹配度參數(shù)(也可以理解為該網(wǎng)頁內(nèi)容中出現(xiàn)該搜索關(guān)鍵詞的次數(shù))、與網(wǎng)頁被指向的次數(shù)相關(guān)的頁面等級(PageRank)參數(shù)、各網(wǎng)頁所在站點的重要性權(quán)重、各網(wǎng)頁所在站點的垃圾比率等參數(shù)。這就導(dǎo)致有時候,用戶最先看到的檢索結(jié)果中排序靠前的鏈接地址對應(yīng)的網(wǎng)頁并不是對用戶想要訪問的網(wǎng)頁,這一點對與購物相關(guān)的搜索來說尤為嚴(yán)重。例如用戶想了解一下與“最新款的手機”相關(guān)信息,在搜索引擎客戶端中輸入搜索關(guān)鍵詞“最新款的手機”后,搜索結(jié)果中排序靠前的往往是包含一些與“最新款的手機充電器”或“最新款的手機數(shù)據(jù)線”相關(guān)的網(wǎng)頁的鏈接地址,或者是雖然包含搜索關(guān)鍵詞,但卻是多年前發(fā)布的網(wǎng)頁的鏈接地址,這些網(wǎng)頁的價值不大,即現(xiàn)有的搜索方案往往無法將與用戶的搜索意圖最相關(guān)的網(wǎng)頁的鏈接地址優(yōu)先地提供給用戶。
發(fā)明內(nèi)容
本申請實施例提供一種網(wǎng)頁搜索方法,用以解決現(xiàn)有技術(shù)中無法優(yōu)先地提供與用戶搜索意圖相關(guān)程度最高的網(wǎng)頁的鏈接地址的問題。對應(yīng)地,本申請實施例還提供了一種網(wǎng)頁數(shù)據(jù)庫的建立方法、一種網(wǎng)頁數(shù)據(jù)庫的建立裝置和一種網(wǎng)頁搜索裝置。本申請實施例提供的技術(shù)方案如下一種網(wǎng)頁數(shù)據(jù)庫的建立方法,包括設(shè)定至少一個附加參數(shù),建立并存儲每個附加參數(shù)對應(yīng)的意圖詞集合,所述意圖詞集合中包括有至少一個意圖詞,用于進(jìn)行網(wǎng)頁搜索時, 結(jié)合搜索關(guān)鍵詞選擇用于確定相關(guān)度值的附加參數(shù);設(shè)定并存儲包含各附加參數(shù)組合在確定相關(guān)度值時對應(yīng)的權(quán)重值的權(quán)重調(diào)整表;設(shè)定并存儲附加參數(shù)對應(yīng)的附加信息的確定方式,以及根據(jù)附加信息確定附加參數(shù)值的方式;獲取網(wǎng)頁;根據(jù)附加參數(shù)對應(yīng)的附加信息的確定方式,從獲取的所述網(wǎng)頁的內(nèi)容中確定并存儲所述網(wǎng)頁的附加參數(shù)所對應(yīng)的附加信肩、ο一種網(wǎng)頁搜索方法,包括根據(jù)輸入的搜索關(guān)鍵詞,確定該搜索關(guān)鍵詞對應(yīng)的附加參數(shù);根據(jù)確定出的附加參數(shù),從存儲有包含根據(jù)各不同附加參數(shù)組合計算相關(guān)度值時各參數(shù)對應(yīng)權(quán)重值的權(quán)重調(diào)整表中,選擇出根據(jù)確定出的附加參數(shù)計算相關(guān)度值時各參數(shù)分別對應(yīng)的權(quán)重值;針對網(wǎng)頁數(shù)據(jù)庫中的每個網(wǎng)頁,獲取該網(wǎng)頁的確定出的附加參數(shù)所對應(yīng)的附加信息,依照存儲的根據(jù)附加信息確定附加參數(shù)值的方式,根據(jù)獲取的附加信息確定該網(wǎng)頁的所述確定出的附加參數(shù)的參數(shù)值,并根據(jù)確定出的附加參數(shù)的參數(shù)值,以及選擇出的各參數(shù)分別對應(yīng)的權(quán)重值,確定該網(wǎng)頁與所述搜索關(guān)鍵詞的相關(guān)度值;根據(jù)計算出的相關(guān)度值由高到低的順序,對網(wǎng)頁數(shù)據(jù)庫中的每個網(wǎng)頁的鏈接地址進(jìn)行排序;返回排序后的結(jié)果。一種網(wǎng)頁數(shù)據(jù)庫的建立裝置,包括第一存儲單元,用于設(shè)定至少一個附加參數(shù), 建立并存儲每個附加參數(shù)對應(yīng)的意圖詞集合,所述意圖詞集合中包括有至少一個意圖詞, 用于進(jìn)行網(wǎng)頁搜索時,結(jié)合搜索關(guān)鍵詞選擇用于確定相關(guān)度值的附加參數(shù);第二存儲單元, 用于設(shè)定并存儲包含各附加參數(shù)及各附加參數(shù)組合在確定相關(guān)度值時對應(yīng)的權(quán)重值的權(quán)重調(diào)整表;第三存儲單元,用于設(shè)定并存儲附加參數(shù)對應(yīng)的附加信息的確定方式,以及根據(jù)附加信息確定附加參數(shù)值的方式;網(wǎng)頁獲取單元,用于獲取網(wǎng)頁;附加信息確定單元,用于根據(jù)附加參數(shù)對應(yīng)的附加信息的確定方式,從網(wǎng)頁獲取單元獲取的所述網(wǎng)頁的內(nèi)容中確定附加參數(shù)所對應(yīng)的附加信息;第四存儲單元,用于存儲附加信息確定單元確定出的附加參數(shù)所對應(yīng)的附加信息。一種網(wǎng)頁搜索裝置,包括附加參數(shù)確定單元,用于根據(jù)輸入的搜索關(guān)鍵詞,確定該搜索關(guān)鍵詞對應(yīng)的附加參數(shù);選擇單元,用于根據(jù)附加參數(shù)確定單元確定出的附加參數(shù), 從存儲的包含根據(jù)不同附加參數(shù)組合計算相關(guān)度值時各參數(shù)對應(yīng)權(quán)重值的權(quán)重調(diào)整表中, 選擇出根據(jù)確定出的附加參數(shù)計算相關(guān)度值時各參數(shù)分別對應(yīng)的權(quán)重值;獲取單元,用于針對網(wǎng)頁數(shù)據(jù)庫中的每個網(wǎng)頁,獲取該網(wǎng)頁的確定出的附加參數(shù)所對應(yīng)的附加信息;參數(shù)值確定單元,用于依照存儲的根據(jù)附加信息確定附加參數(shù)值的方式,根據(jù)獲取單元獲取的附加信息確定該網(wǎng)頁的所述附加參數(shù)確定單元確定出的附加參數(shù)的參數(shù)值;相關(guān)度值確定單元,用于根據(jù)參數(shù)值確定單元確定出的附加參數(shù)的參數(shù)值,以及選擇單元選擇出的各參數(shù)分別對應(yīng)的權(quán)重值,確定該網(wǎng)頁與所述搜索關(guān)鍵詞的相關(guān)度值;排序單元,用于根據(jù)計算出的相關(guān)度值由高到低的順序,對網(wǎng)頁數(shù)據(jù)庫中的每個網(wǎng)頁進(jìn)行排序;返回排序后的結(jié)果。本申請實施例提供的網(wǎng)頁搜索方案在進(jìn)行網(wǎng)頁搜索時,首先確定用戶輸入的搜索關(guān)鍵詞對應(yīng)的附加參數(shù),其中確定出的附加參數(shù)表明了用戶的搜索意圖,然后根據(jù)建立網(wǎng)頁數(shù)據(jù)庫時存儲的每個網(wǎng)頁對應(yīng)的用于計算各種附加參數(shù)的參數(shù)值的附加信息,計算每個網(wǎng)頁對應(yīng)的所述確定出的附加參數(shù)的參數(shù)值,并繼而結(jié)合從權(quán)重調(diào)整表中選擇出的根據(jù)所述搜索關(guān)鍵詞對應(yīng)的附加參數(shù)確定相關(guān)度值時各參數(shù)的權(quán)重值,計算該網(wǎng)頁與搜索關(guān)鍵詞的相關(guān)度值,從而能夠更為準(zhǔn)確的搜索到符合用戶搜索意圖的網(wǎng)頁,并將與用戶搜索意圖相關(guān)度高的網(wǎng)頁的鏈接地址優(yōu)先地提供給用戶。
圖1為現(xiàn)有網(wǎng)絡(luò)搜索系統(tǒng)的示意圖;圖加為本申請實施例提供的網(wǎng)頁數(shù)據(jù)庫的建立方法的原理流程圖;圖2b為本申請實施例提供的網(wǎng)頁搜索方法的原理流程圖;圖3為本申請實施例提供的網(wǎng)頁數(shù)據(jù)庫的建立裝置的結(jié)構(gòu)示意圖;圖4為本申請實施例提供的網(wǎng)頁搜索裝置的結(jié)構(gòu)示意圖。
具體實施例方式本申請發(fā)明人在進(jìn)行涉及產(chǎn)品信息的網(wǎng)頁搜索過程中發(fā)現(xiàn),現(xiàn)有網(wǎng)頁搜索方案往往無法將與用戶搜索意圖最相關(guān)的網(wǎng)頁的鏈接地址優(yōu)先地提供給用戶。發(fā)明人認(rèn)為,造成上述問題的重要原因是,網(wǎng)頁搜索引擎的后臺服務(wù)器在根據(jù)搜索請求中的搜索關(guān)鍵詞從網(wǎng)頁數(shù)據(jù)庫中選擇網(wǎng)頁時,過于依賴匹配度參數(shù)造成的。例如,假定搜索關(guān)鍵詞為“X型號的手機”,通常來說后臺服務(wù)器首先確定網(wǎng)頁數(shù)據(jù)庫中各網(wǎng)頁文本內(nèi)容中“X型號的手機”出現(xiàn)的次數(shù),將文本內(nèi)容中“X型號的手機1現(xiàn)次數(shù)最多的網(wǎng)頁作為最相關(guān)的網(wǎng)頁,將該網(wǎng)頁的鏈接地址排在搜索結(jié)果的最前面(當(dāng)然,后續(xù)可能還要結(jié)合頁面等級參數(shù)、該網(wǎng)頁所在站點的權(quán)重參數(shù)等其他參數(shù)對排序結(jié)果進(jìn)行一定程度的調(diào)整)。而事實上,上述文本內(nèi)容中 “X型號的手機”出現(xiàn)次數(shù)最多的網(wǎng)頁,有可能其中出現(xiàn)的是大量的“X型號的手機的電池”, 而并非是涉及“X型號的手機”的相關(guān)信息。基于上述分析,申請人在本申請實施例提出的網(wǎng)頁搜索方法在現(xiàn)有網(wǎng)絡(luò)搜索技術(shù)的基礎(chǔ)上,進(jìn)行了以下改進(jìn)(一 )在構(gòu)建網(wǎng)頁數(shù)據(jù)庫時,不僅保存獲取到的網(wǎng)頁,還需確定并保存網(wǎng)頁對應(yīng)的各種附加參數(shù)對應(yīng)的附加信息,附加信息的種類包括但不限于以下幾種中的至少一種產(chǎn)品名稱信息、產(chǎn)品類別信息、網(wǎng)頁發(fā)布時間信息、產(chǎn)品價格信息等,其中,每種附加信息用于計算對應(yīng)的能夠反映用戶不同搜索意圖的附加參數(shù)的參數(shù)值;( 二)后臺服務(wù)器在進(jìn)行網(wǎng)頁搜索時,首先根據(jù)輸入的搜索關(guān)鍵詞確定計算相關(guān)度值時需要的附加參數(shù);在計算網(wǎng)頁數(shù)據(jù)庫中的網(wǎng)頁內(nèi)容與搜索關(guān)鍵詞的相關(guān)度值時,不僅考慮現(xiàn)有參數(shù)的參數(shù)值,還根據(jù)與附加參數(shù)對應(yīng)的附加信息確定出的附加參數(shù)值,用于計算與搜索關(guān)鍵詞之間的相關(guān)度值。根據(jù)附加信息從網(wǎng)頁數(shù)據(jù)庫中選取網(wǎng)頁,并根據(jù)相關(guān)度值對所選取網(wǎng)頁的鏈接地址進(jìn)行排序。下面將依據(jù)本申請上述申請原理,詳細(xì)介紹一個實施例來對本申請方法的主要實現(xiàn)原理進(jìn)行詳細(xì)的闡述和說明。實施例一附圖加為本申請實施例提供的網(wǎng)頁數(shù)據(jù)庫的建立方法的流程圖,其具體包括以下步驟步驟11、設(shè)定至少一個附加參數(shù),建立并存儲每個附加參數(shù)對應(yīng)的意圖詞集合,所述意圖詞集合中包括有至少一個意圖詞;
所述附加參數(shù)的種類包括但不限于以下種類中的一種或多種產(chǎn)品名稱、產(chǎn)品類別、網(wǎng)頁公布時間、產(chǎn)品價格、產(chǎn)品銷量等附加參數(shù)。例如,設(shè)定網(wǎng)頁的附加參數(shù)包括產(chǎn)品名稱、產(chǎn)品類別、網(wǎng)頁公布時間(簡寫為“時間”)、產(chǎn)品價格、產(chǎn)品銷量等。對應(yīng)地,產(chǎn)品名稱參數(shù)的意圖詞集合為Si,Sl包括的詞語為 Sl = {NX、NT};產(chǎn)品類別參數(shù)的意圖詞集合為S2,S2包括的詞語為S2 = {手機、手機充電器、手機電池};產(chǎn)品價格參數(shù)的意圖詞集合為S3,S3包括的詞語為S3 = {便宜、廉價};網(wǎng)頁公布時間參數(shù)的意圖詞集合為S4, S4包括的詞語為S4 = {今年、時尚、新潮、IN};產(chǎn)品銷量參數(shù)的意圖詞集合為S5,S5包括的詞語為S4= {暢銷、熱賣}。需要指出的是,該實施例中的五種附加參數(shù)及對應(yīng)的意圖詞集合等只是用于說明本申請,并不是對本申請的限制。例如,附加信息還可以包含產(chǎn)品產(chǎn)地、產(chǎn)品口碑評價等其他信息及對應(yīng)的意圖詞集合。步驟12、設(shè)定并存儲包含各附加參數(shù)組合在確定相關(guān)度值時對應(yīng)權(quán)重值的權(quán)重調(diào)整表;該步驟中,在現(xiàn)有參數(shù)及其對應(yīng)的權(quán)重值的基礎(chǔ)上,可以靈活設(shè)定附加參數(shù)及其對應(yīng)的權(quán)重值。例如即可以是對單個附加參數(shù)與現(xiàn)有參數(shù)的組合的權(quán)重值的設(shè)定,也可以是多個附加參數(shù)與現(xiàn)有參數(shù)的組合的權(quán)重值的設(shè)定。具體的權(quán)重值的大小可以依據(jù)檢索中各參數(shù)的重要性、以及參數(shù)之間的相互影響進(jìn)行設(shè)定。這些現(xiàn)有參數(shù)及附加參數(shù)組成權(quán)重調(diào)整表,表1為權(quán)重調(diào)整表的一個示例。表1權(quán)重調(diào)整表示例
權(quán)利要求
1.一種網(wǎng)頁數(shù)據(jù)庫的建立方法,其特征在于,包括設(shè)定至少一個附加參數(shù),建立并存儲每個附加參數(shù)對應(yīng)的意圖詞集合,所述意圖詞集合中包括有至少一個意圖詞,用于進(jìn)行網(wǎng)頁搜索時,結(jié)合搜索關(guān)鍵詞選擇用于確定相關(guān)度值的附加參數(shù);設(shè)定并存儲包含各附加參數(shù)組合在確定相關(guān)度值時對應(yīng)權(quán)重值的權(quán)重調(diào)整表;設(shè)定并存儲附加參數(shù)對應(yīng)的附加信息的確定方式,以及根據(jù)附加信息確定附加參數(shù)值的方式;獲取網(wǎng)頁;根據(jù)附加參數(shù)對應(yīng)的附加信息的確定方式,從獲取的所述網(wǎng)頁的內(nèi)容中確定并存儲所述網(wǎng)頁的附加參數(shù)所對應(yīng)的附加信息。
2.如權(quán)利要求1所述的方法,其特征在于,所述附加參數(shù)包括下述一種或多種產(chǎn)品名稱、產(chǎn)品類別、網(wǎng)頁公布時間、產(chǎn)品價格、產(chǎn)品銷量。
3.如權(quán)利要求2所述的方法,其特征在于,根據(jù)所述網(wǎng)頁的文本內(nèi)容,確定該網(wǎng)頁的產(chǎn)品名稱附加參數(shù)對應(yīng)的附加信息,具體包括在所述網(wǎng)頁的文本內(nèi)容中包括名稱參數(shù)對應(yīng)的意圖詞集合中的產(chǎn)品名稱時,將該產(chǎn)品名稱作為該網(wǎng)頁對應(yīng)的產(chǎn)品名稱。
4.如權(quán)利要求2所述的方法,其特征在于,根據(jù)所述網(wǎng)頁的文本內(nèi)容,確定該網(wǎng)頁的產(chǎn)品類別附加參數(shù)對應(yīng)的附加信息,具體包括將該網(wǎng)頁的文本內(nèi)容輸入預(yù)定分類器模型,將所述分類器模型的輸出結(jié)果作為該網(wǎng)頁對應(yīng)的產(chǎn)品類別附加信息,所述分類器模型為基于預(yù)先選擇出的文本內(nèi)容中包含預(yù)定產(chǎn)品類別集合中至少一個產(chǎn)品類別的訓(xùn)練網(wǎng)頁獲得的,該分類器模型的輸入為待處理的網(wǎng)頁的文本內(nèi)容,輸出為輸入的文本內(nèi)容對應(yīng)的產(chǎn)品類別。
5.如權(quán)利要求2所述的方法,其特征在于,根據(jù)所述網(wǎng)頁的代碼,確定該網(wǎng)頁的網(wǎng)頁公布時間附加參數(shù)對應(yīng)的附加信息,具體包括基于預(yù)先存儲的網(wǎng)頁的代碼中網(wǎng)頁公布時間對應(yīng)的上下文字符串,將該網(wǎng)頁對應(yīng)的代碼中上下文字符串與預(yù)先存儲的上下文字符串一致的內(nèi)容作為提取到的網(wǎng)頁公布時間。
6.如權(quán)利要求2所述的方法,其特征在于,根據(jù)所述網(wǎng)頁的代碼,確定該網(wǎng)頁對應(yīng)的網(wǎng)頁公布時間附加參數(shù)對應(yīng)的附加信息,具體包括根據(jù)所述網(wǎng)頁的代碼,確定所述網(wǎng)頁格式模板對應(yīng)的文檔對象模型DOM樹;從預(yù)先存儲的各種網(wǎng)頁格式模板對應(yīng)的DOM樹中網(wǎng)頁公布時間所在節(jié)點的路徑中,選擇出所述網(wǎng)頁格式模板對應(yīng)的DOM樹中網(wǎng)頁公布時間所在節(jié)點的路徑;將該網(wǎng)頁對應(yīng)的DOM樹中所述選擇出的路徑上的節(jié)點的內(nèi)容作為提取到的網(wǎng)頁公布時間。
7.—種網(wǎng)頁搜索方法,其特征在于,包括根據(jù)輸入的搜索關(guān)鍵詞,確定該搜索關(guān)鍵詞對應(yīng)的附加參數(shù);根據(jù)確定出的附加參數(shù),從存儲有包含根據(jù)各不同附加參數(shù)組合計算相關(guān)度值時各參數(shù)對應(yīng)權(quán)重值的權(quán)重調(diào)整表中,選擇出根據(jù)確定出的附加參數(shù)計算相關(guān)度值時各參數(shù)分別對應(yīng)的權(quán)重值;針對網(wǎng)頁數(shù)據(jù)庫中的每個網(wǎng)頁,獲取該網(wǎng)頁的確定出的附加參數(shù)所對應(yīng)的附加信息,依照存儲的根據(jù)附加信息確定附加參數(shù)值的方式,根據(jù)獲取的附加信息確定該網(wǎng)頁的所述確定出的附加參數(shù)的參數(shù)值,并根據(jù)確定出的附加參數(shù)的參數(shù)值,以及選擇出的各參數(shù)分別對應(yīng)的權(quán)重值,確定該網(wǎng)頁與所述搜索關(guān)鍵詞的相關(guān)度值;根據(jù)計算出的相關(guān)度值由高到低的順序,對網(wǎng)頁數(shù)據(jù)庫中的每個網(wǎng)頁的鏈接地址進(jìn)行排序;返回排序后的結(jié)果。
8.如權(quán)利要求7所述的方法,其特征在于,根據(jù)輸入的搜索關(guān)鍵詞,確定該搜索關(guān)鍵詞對應(yīng)的附加參數(shù),具體包括將輸入的搜索關(guān)鍵詞與各附加參數(shù)對應(yīng)的意圖詞集合中的意圖詞進(jìn)行匹配,當(dāng)存在與搜索關(guān)鍵詞相匹配的意圖詞時,將該意圖詞所在的意圖詞集合對應(yīng)的附加參數(shù)作為該輸入的搜索關(guān)鍵詞對應(yīng)的附加參數(shù)。
9.一種網(wǎng)頁數(shù)據(jù)庫的建立裝置,其特征在于,包括第一存儲單元,用于設(shè)定至少一個附加參數(shù),建立并存儲每個附加參數(shù)對應(yīng)的意圖詞集合,所述意圖詞集合中包括有至少一個意圖詞,用于進(jìn)行網(wǎng)頁搜索時,結(jié)合搜索關(guān)鍵詞選擇用于確定相關(guān)度值的附加參數(shù);第二存儲單元,用于設(shè)定并存儲包含各附加參數(shù)組合在確定相關(guān)度值時對應(yīng)權(quán)重值的權(quán)重調(diào)整表;第三存儲單元,用于設(shè)定并存儲附加參數(shù)對應(yīng)的附加信息的確定方式,以及根據(jù)附加信息確定附加參數(shù)值的方式;網(wǎng)頁獲取單元,用于獲取網(wǎng)頁;附加信息確定單元,用于根據(jù)第三存儲單元存儲的附加參數(shù)對應(yīng)的附加信息的確定方式,從網(wǎng)頁獲取單元獲取的所述網(wǎng)頁的內(nèi)容中確定附加參數(shù)所對應(yīng)的附加信息;第四存儲單元,用于存儲附加信息確定單元確定出的附加參數(shù)所對應(yīng)的附加信息。
10.一種網(wǎng)頁搜索裝置,其特征在于,包括附加參數(shù)確定單元,用于根據(jù)輸入的搜索關(guān)鍵詞,確定該搜索關(guān)鍵詞對應(yīng)的附加參數(shù);選擇單元,用于根據(jù)附加參數(shù)確定單元確定出的附加參數(shù),從存儲的包含根據(jù)不同附加參數(shù)組合計算相關(guān)度值時各參數(shù)對應(yīng)權(quán)重值的權(quán)重調(diào)整表中,選擇出根據(jù)確定出的附加參數(shù)計算相關(guān)度值時各參數(shù)分別對應(yīng)的權(quán)重值;獲取單元,用于針對網(wǎng)頁數(shù)據(jù)庫中的每個網(wǎng)頁,獲取該網(wǎng)頁的確定出的附加參數(shù)所對應(yīng)的附加信息;參數(shù)值確定單元,用于依照存儲的根據(jù)附加信息確定附加參數(shù)值的方式,根據(jù)獲取單元獲取的附加信息確定該網(wǎng)頁的所述附加參數(shù)確定單元確定出的附加參數(shù)的參數(shù)值;相關(guān)度值確定單元,用于根據(jù)參數(shù)值確定單元確定出的附加參數(shù)的參數(shù)值,以及選擇單元選擇出的各參數(shù)分別對應(yīng)的權(quán)重值,確定該網(wǎng)頁與所述搜索關(guān)鍵詞的相關(guān)度值;排序單元,用于根據(jù)計算出的相關(guān)度值由高到低的順序,對網(wǎng)頁數(shù)據(jù)庫中的每個網(wǎng)頁進(jìn)行排序;返回排序后的結(jié)果。
全文摘要
本發(fā)明公開了一種網(wǎng)頁搜索方法及相關(guān)裝置,用以解決現(xiàn)有技術(shù)中無法優(yōu)先地提供與用戶搜索意圖相關(guān)程度最高的網(wǎng)頁的鏈接地址的問題。該方法包括根據(jù)輸入的搜索關(guān)鍵詞,確定該搜索關(guān)鍵詞對應(yīng)的附加參數(shù);根據(jù)確定出的附加參數(shù),從權(quán)重調(diào)整表中選擇出根據(jù)確定出的附加參數(shù)計算相關(guān)度值時各參數(shù)分別對應(yīng)的權(quán)重值;針對網(wǎng)頁數(shù)據(jù)庫中每個網(wǎng)頁,獲取該網(wǎng)頁的確定出的附加參數(shù)對應(yīng)的附加信息,根據(jù)獲取的附加信息確定該網(wǎng)頁的該確定出的附加參數(shù)的參數(shù)值,并根據(jù)確定出的參數(shù)值、選擇出的各參數(shù)的權(quán)重值,確定該網(wǎng)頁與所述搜索關(guān)鍵詞的相關(guān)度值;根據(jù)計算出的相關(guān)度值由高到低的順序,對網(wǎng)頁數(shù)據(jù)庫中的每個網(wǎng)頁的鏈接地址進(jìn)行排序;返回排序結(jié)果。
文檔編號G06F17/30GK102385585SQ20101026891
公開日2012年3月21日 申請日期2010年8月27日 優(yōu)先權(quán)日2010年8月27日
發(fā)明者邢飛 申請人:阿里巴巴集團(tuán)控股有限公司