專(zhuān)利名稱(chēng):網(wǎng)頁(yè)檢索方法和裝置的制作方法
技術(shù)領(lǐng)域:
本申請(qǐng)涉及互聯(lián)網(wǎng)領(lǐng)域,具體而言,涉及一種網(wǎng)頁(yè)檢索方法和裝置。
背景技術(shù):
在互聯(lián)網(wǎng)搜索技術(shù)領(lǐng)域中,以電子商務(wù)網(wǎng)站內(nèi)的搜索為例,目前,在電子商務(wù)搜索引擎中對(duì)各個(gè)產(chǎn)品的搜索主要是針對(duì)諸如價(jià)格、生產(chǎn)日期等每個(gè)商品都具有的屬性,然而,對(duì)于諸如“內(nèi)徑”、“外徑”這樣的概念,可能只在“軸承”這樣的特殊商品里才具有意義,因此很難作為一個(gè)通用屬性進(jìn)行查詢(xún)。在搜索引擎的系統(tǒng)中存儲(chǔ)有多個(gè)網(wǎng)頁(yè),每個(gè)網(wǎng)頁(yè)是對(duì)一個(gè)標(biāo)準(zhǔn)產(chǎn)品的全方位的描述,其記錄有比如價(jià)格、標(biāo)題、生產(chǎn)日期等通用屬性以及一些用戶(hù)自定義屬性,也稱(chēng)為非通用屬性,例如,價(jià)格、產(chǎn)地等所有商品都具有的屬性叫通用屬性,而如內(nèi)徑、外徑、厚度等某些特定商品才具有的屬性叫非通用屬性?,F(xiàn)有技術(shù)中基于屬性的產(chǎn)品檢索方案主要是采用對(duì)各個(gè)網(wǎng)頁(yè)中都記載的屬性進(jìn)行檢索,其中,現(xiàn)有技術(shù)中采用XML語(yǔ)言來(lái)存儲(chǔ)格式化的屬性信息,所謂格式化指的是:每個(gè)網(wǎng)頁(yè)記載的屬性的個(gè)數(shù)是相同的。舉例而言,假設(shè)已存儲(chǔ)在系統(tǒng)中的網(wǎng)頁(yè)A、B、C用于描述產(chǎn)品A、B、C,其中,產(chǎn)品A對(duì)應(yīng)有兩個(gè)屬性:價(jià)格和生產(chǎn)日期;產(chǎn)品B對(duì)應(yīng)有兩個(gè)屬性:價(jià)格和生產(chǎn)日期;產(chǎn)品C對(duì)應(yīng)有三個(gè)屬性:價(jià)格、生產(chǎn)日期以及內(nèi)徑。由于產(chǎn)品C對(duì)應(yīng)有產(chǎn)品A和B不具有的非通用屬性“內(nèi)徑”,因此為了實(shí)現(xiàn)格式化地存儲(chǔ),需要在網(wǎng)頁(yè)A和B中增加字段來(lái)記錄屬性“內(nèi)徑”,其中,可以利用“O”值來(lái)表示該網(wǎng)頁(yè)描述的產(chǎn)品不具有該屬性,例如,采用以下格式來(lái)描述產(chǎn)品A、B、C:
網(wǎng)頁(yè)A:“價(jià)格”,100 ;“日期”,2001-1-1 ;“內(nèi)徑”,O ;網(wǎng)頁(yè)B 價(jià)格”,200 ;“日期”,2002-1-1 ;“內(nèi)徑”,O ;網(wǎng)頁(yè)C 價(jià)格”,300 ;“日期”,2003-1-1 ;“內(nèi)徑”,50。通過(guò)上述格式化地存儲(chǔ)方案,使得在需要基于某一個(gè)屬性進(jìn)行產(chǎn)品檢索時(shí),可以只將該屬性作為查詢(xún)?nèi)肟谶M(jìn)行查詢(xún)。例如,當(dāng)需要基于內(nèi)徑這個(gè)非通用屬性進(jìn)行產(chǎn)品檢索時(shí),可以對(duì)屬性“內(nèi)徑”建立索引區(qū)間,例如,“1-50”、“50_100”等。然后,根據(jù)上述的索引區(qū)間對(duì)每個(gè)網(wǎng)頁(yè)記錄的字段“內(nèi)徑”進(jìn)行查詢(xún)。針對(duì)上述存儲(chǔ)方案,當(dāng)新存儲(chǔ)在系統(tǒng)中的網(wǎng)頁(yè)具有一個(gè)其他已存儲(chǔ)的網(wǎng)頁(yè)不具有的屬性時(shí),需要為對(duì)每個(gè)現(xiàn)有的網(wǎng)頁(yè)增加對(duì)應(yīng)的字段來(lái)記錄該屬性,以便實(shí)現(xiàn)格式化地存儲(chǔ),使得可以基于該新增的屬性進(jìn)行檢索。例如,系統(tǒng)中新存儲(chǔ)的產(chǎn)品D對(duì)應(yīng)有屬性:“價(jià)格”、“日期”、“內(nèi)徑”和“外徑”,則需要在網(wǎng)頁(yè)A、B和C中增加字段來(lái)記錄“外徑”屬性,其中,可以利用“O”值來(lái)表示該網(wǎng)頁(yè)描述的產(chǎn)品不具有該屬性,具體地記錄可以描述如下:網(wǎng)頁(yè)A:“價(jià)格”,100 ;“日期”,2001-1-1 ;“內(nèi)徑”,O ;“外徑”,O ;網(wǎng)頁(yè)B:“價(jià)格”,200 ;“日期”,2002-1-1 ;“內(nèi)徑”,O ;“外徑”,O ;網(wǎng)頁(yè)C:“價(jià)格”,300 ;“日期”,2003-1-1 ;“內(nèi)徑”,50 ;“外徑”,O ;網(wǎng)頁(yè)D:“價(jià)格”,400 ;“日期”,2004-1-1 ;“內(nèi)徑”,60 ;“外徑”,100。由于新存儲(chǔ)在系統(tǒng)中的網(wǎng)頁(yè)具有一個(gè)其他已存儲(chǔ)的網(wǎng)頁(yè)不具有的屬性時(shí),需要對(duì)現(xiàn)有網(wǎng)頁(yè)均增加對(duì)應(yīng)的字段來(lái)記錄該屬性,這樣在系統(tǒng)中存儲(chǔ)了大量無(wú)用的用于表示屬性的字段,從而造成了數(shù)據(jù)的大量冗余以及系統(tǒng)資源的浪費(fèi)。針對(duì)上述問(wèn)題,目前尚未提出有效的解決方案。
發(fā)明內(nèi)容
本申請(qǐng)的主要目的在于提供一種網(wǎng)頁(yè)檢索方法和裝置,以至少解決現(xiàn)有技術(shù)中建立對(duì)非通用屬性的檢索時(shí)造成的數(shù)據(jù)冗余以及系統(tǒng)資源的浪費(fèi)的技術(shù)問(wèn)題。根據(jù)本申請(qǐng)的一個(gè)方面,提供了一種網(wǎng)頁(yè)檢索方法,包括:根據(jù)輸入的查詢(xún)語(yǔ)句獲取待檢索網(wǎng)頁(yè)的屬性標(biāo)識(shí)和該屬性標(biāo)識(shí)下的查詢(xún)區(qū)間;根據(jù)待檢索網(wǎng)頁(yè)的屬性標(biāo)識(shí)和查詢(xún)區(qū)間得到待檢索的屬性值范圍;判斷待檢索的屬性值范圍與在接收查詢(xún)語(yǔ)句的系統(tǒng)中預(yù)先建立的多個(gè)索引區(qū)間是否存在交集;在存在交集的索引區(qū)間下的所有網(wǎng)頁(yè)中獲取屬性標(biāo)識(shí)為待檢索網(wǎng)頁(yè)的屬性標(biāo)識(shí)、且屬性值與查詢(xún)區(qū)間存在交集的網(wǎng)頁(yè);將獲取到的網(wǎng)頁(yè)作為檢索結(jié)果返回。 優(yōu)選地,在根據(jù)輸入的查詢(xún)語(yǔ)句獲取待檢索網(wǎng)頁(yè)的屬性標(biāo)識(shí)和該屬性標(biāo)識(shí)下的查詢(xún)區(qū)間之前,網(wǎng)頁(yè)檢索方法還包括:對(duì)于系統(tǒng)中待掃描的網(wǎng)頁(yè)執(zhí)行以下步驟:獲取待掃描的網(wǎng)頁(yè)的屬性標(biāo)識(shí)和屬性值;根據(jù)待掃描的網(wǎng)頁(yè)的屬性標(biāo)識(shí)和屬性值得到待掃描的網(wǎng)頁(yè)的屬性值范圍;判斷待掃描的網(wǎng)頁(yè)的屬性值范圍與預(yù)先建立的多個(gè)索引區(qū)間是否存在交集;將存在交集的索引區(qū)間與待掃描的網(wǎng)頁(yè)之間建立映射關(guān)系。優(yōu)選地,根據(jù)待掃描的網(wǎng)頁(yè)的屬性標(biāo)識(shí)和屬性值得到待掃描的網(wǎng)頁(yè)的屬性值范圍的步驟包括:將待掃描的網(wǎng)頁(yè)的屬性標(biāo)識(shí)與屬性值進(jìn)行哈希運(yùn)算得到待掃描的網(wǎng)頁(yè)的屬性值范圍。優(yōu)選地,根據(jù)待檢索網(wǎng)頁(yè)的屬性標(biāo)識(shí)和查詢(xún)區(qū)間得到待檢索的屬性值范圍的步驟包括:將待檢索網(wǎng)頁(yè)的屬性標(biāo)識(shí)與查詢(xún)區(qū)間進(jìn)行哈希運(yùn)算得到待檢索的屬性值范圍。優(yōu)選地,屬性值為離散值或預(yù)定的數(shù)值范圍。根據(jù)本申請(qǐng)的另一方面,提供了一種網(wǎng)頁(yè)檢索裝置,包括:第一獲取單元,用于根據(jù)輸入的查詢(xún)語(yǔ)句獲取待檢索網(wǎng)頁(yè)的屬性標(biāo)識(shí)和該屬性標(biāo)識(shí)下的查詢(xún)區(qū)間;第一計(jì)算單元,用于根據(jù)待檢索網(wǎng)頁(yè)的屬性標(biāo)識(shí)和查詢(xún)區(qū)間得到待檢索的屬性值范圍;第一判斷單元,用于判斷待檢索的屬性值范圍與在接收查詢(xún)語(yǔ)句的系統(tǒng)中預(yù)先建立的多個(gè)索引區(qū)間是否存在交集;第二獲取單元,用于在存在交集的索引區(qū)間下的所有網(wǎng)頁(yè)中獲取屬性標(biāo)識(shí)為待檢索網(wǎng)頁(yè)的屬性標(biāo)識(shí)、且屬性值與查詢(xún)區(qū)間存在交集的網(wǎng)頁(yè);返回單元,用于將獲取到的網(wǎng)頁(yè)作為檢索結(jié)果返回。優(yōu)選地,網(wǎng)頁(yè)檢索裝置還包括:第三獲取單元,用于在根據(jù)輸入的查詢(xún)語(yǔ)句獲取待檢索網(wǎng)頁(yè)的屬性標(biāo)識(shí)和該屬性標(biāo)識(shí)下的查詢(xún)區(qū)間之前,獲取待掃描的網(wǎng)頁(yè)的屬性標(biāo)識(shí)和屬性值;第二計(jì)算單元,用于根據(jù)待掃描的網(wǎng)頁(yè)的屬性標(biāo)識(shí)和屬性值得到待掃描的網(wǎng)頁(yè)的屬性值范圍;第二判斷單元,用于判斷待掃描的網(wǎng)頁(yè)的屬性值范圍與預(yù)先建立的多個(gè)索引區(qū)間是否存在交集;建立單元,用于將存在交集的索引區(qū)間與待掃描的網(wǎng)頁(yè)之間建立映射關(guān)系O優(yōu)選地,第二計(jì)算單元包括:第一哈希模塊,用于將待掃描的網(wǎng)頁(yè)的屬性標(biāo)識(shí)與屬性值進(jìn)行哈希運(yùn)算得到待掃描的網(wǎng)頁(yè)的屬性值范圍。
優(yōu)選地,第一計(jì)算單元包括:第二哈希模塊,用于將待檢索網(wǎng)頁(yè)的屬性標(biāo)識(shí)與查詢(xún)區(qū)間進(jìn)行哈希運(yùn)算得到待檢索的屬性值范圍。優(yōu)選地,屬性值為離散值或預(yù)定的數(shù)值范圍。通過(guò)本申請(qǐng)所保護(hù)的技術(shù)方案,將待檢索網(wǎng)頁(yè)的屬性標(biāo)識(shí)作為查詢(xún)條件之一,根據(jù)待檢索網(wǎng)頁(yè)的屬性標(biāo)識(shí)和查詢(xún)區(qū)間得到待檢索的屬性值范圍,從而進(jìn)行第一次粗略篩選,即在系統(tǒng)預(yù)定的索引區(qū)間中選擇與待檢索的屬性值范圍存在交集的索引區(qū)間,并篩選出交集的索引區(qū)間所對(duì)應(yīng)的網(wǎng)頁(yè),然后進(jìn)行第二次精細(xì)篩選,在篩選出來(lái)的網(wǎng)頁(yè)中查找屬性標(biāo)識(shí)和查詢(xún)區(qū)間都滿(mǎn)足查詢(xún)條件的網(wǎng)頁(yè)作為檢索結(jié)果進(jìn)行輸出。在上述的技術(shù)方案中,系統(tǒng)預(yù)先建立的索引區(qū)間不再是針對(duì)哪種屬性單獨(dú)建立的,而是將屬性標(biāo)識(shí)作為建立索引區(qū)間時(shí)考慮的因素之一,這樣使得建立的索引區(qū)間是針對(duì)多個(gè)屬性的,即可以在由具有多個(gè)不同屬性的網(wǎng)頁(yè)組成的集合中進(jìn)行統(tǒng)一查詢(xún),而不是如現(xiàn)有技術(shù)中那樣只能在同一個(gè)屬性中進(jìn)行查詢(xún),使得在新存儲(chǔ)在系統(tǒng)中的網(wǎng)頁(yè)具有一個(gè)其他已存儲(chǔ)的網(wǎng)頁(yè)不具有的屬性時(shí),不需要為對(duì)每個(gè)現(xiàn)有的網(wǎng)頁(yè)增加對(duì)應(yīng)的字段來(lái)記錄該屬性,從而解決了現(xiàn)有技術(shù)中建立對(duì)非通用屬性的檢索時(shí)造成的數(shù)據(jù)冗余以及系統(tǒng)資源的浪費(fèi)的技術(shù)問(wèn)題,達(dá)到了減少數(shù)據(jù)冗余,節(jié)約系統(tǒng)資源的效果,進(jìn)一步的也實(shí)現(xiàn)了對(duì)屬性的范圍檢索。當(dāng)然,實(shí)施本申請(qǐng)的任一產(chǎn)品并不一定需要同時(shí)達(dá)到以上所述的所有優(yōu)點(diǎn)。
此處所說(shuō)明的附圖用來(lái)提供對(duì)本申請(qǐng)的進(jìn)一步理解,構(gòu)成本申請(qǐng)的一部分,本申請(qǐng)的示意性實(shí)施例及其說(shuō)明用于解釋本申請(qǐng),并不構(gòu)成對(duì)本申請(qǐng)的不當(dāng)限定。在附圖中:圖1是根據(jù)本申請(qǐng)實(shí)施例的網(wǎng)頁(yè)檢索系統(tǒng)的一種優(yōu)選結(jié)構(gòu)框圖;圖2是根據(jù)本申請(qǐng)實(shí)施例的網(wǎng)頁(yè)檢索裝置的一種優(yōu)選結(jié)構(gòu)框圖;圖3是根據(jù)本申請(qǐng)實(shí)施例的網(wǎng)頁(yè)檢索裝置的另一種優(yōu)選結(jié)構(gòu)框圖;圖4是根據(jù)本申請(qǐng)實(shí)施例的網(wǎng)頁(yè)檢索裝置的又一種優(yōu)選結(jié)構(gòu)框圖;圖5是根據(jù)本申請(qǐng)實(shí)施例的網(wǎng)頁(yè)檢索裝置的又一種優(yōu)選結(jié)構(gòu)框圖;圖6是根據(jù)本申請(qǐng)實(shí)施例的網(wǎng)頁(yè)檢索方法的一種優(yōu)選流程圖;圖7是根據(jù)本申請(qǐng)實(shí)施例的網(wǎng)頁(yè)檢索方法的另一種優(yōu)選流程圖;圖8是根據(jù)本申請(qǐng)實(shí)施例的網(wǎng)頁(yè)檢索方法的又一種優(yōu)選流程圖。
具體實(shí)施例方式下文中將參考附圖并結(jié)合實(shí)施例來(lái)詳細(xì)說(shuō)明本申請(qǐng)。需要說(shuō)明的是,在不沖突的情況下,本申請(qǐng)中的實(shí)施例及實(shí)施例中的特征可以相互組合。在描述本申請(qǐng)的各實(shí)施例的進(jìn)一步細(xì)節(jié)之前,將參考圖1來(lái)描述可用于實(shí)現(xiàn)本申請(qǐng)的原理的一個(gè)合適的計(jì)算體系結(jié)構(gòu)。在以下描述中,除非另外指明,否則將參考由一個(gè)或多個(gè)計(jì)算機(jī)執(zhí)行的動(dòng)作和操作的符號(hào)表示來(lái)描述本申請(qǐng)的各實(shí)施例。由此,可以理解,有時(shí)被稱(chēng)為計(jì)算機(jī)執(zhí)行的這類(lèi)動(dòng)作和操作包括計(jì)算機(jī)的處理單元對(duì)以結(jié)構(gòu)化形式表示數(shù)據(jù)的電信號(hào)的操縱。這一操縱轉(zhuǎn)換了數(shù)據(jù)或在計(jì)算機(jī)的存儲(chǔ)器系統(tǒng)中的位置上維護(hù)它,這以本領(lǐng)域的技術(shù)人員都理解的方式重配置或改變了計(jì)算機(jī)的操作。維護(hù)數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)是具有數(shù)據(jù)的格式所定義的特定屬性的存儲(chǔ)器的物理位置。然而,盡管在上述上下文中描述本申請(qǐng),但它并不意味著限制性的,如本領(lǐng)域的技術(shù)人員所理解的,后文所描述的動(dòng)作和操作的各方面也可用硬件來(lái)實(shí)現(xiàn)。轉(zhuǎn)向附圖,其中相同的參考標(biāo)號(hào)指代相同的元素,本申請(qǐng)的原理被示為在一個(gè)合適的計(jì)算環(huán)境中實(shí)現(xiàn)。以下描述基于所述的本申請(qǐng)的實(shí)施例,并且不應(yīng)認(rèn)為是關(guān)于此處未明確描述的替換實(shí)施例而限制本申請(qǐng)。圖1示出了可用于這些設(shè)備的一個(gè)示例計(jì)算機(jī)體系結(jié)構(gòu)的示意圖。出于描述的目的,所繪的體系結(jié)構(gòu)僅為合適環(huán)境的一個(gè)示例,并非對(duì)本申請(qǐng)的使用范圍或功能提出任何局限。也不應(yīng)將該計(jì)算系統(tǒng)解釋為對(duì)圖1所示的任一組件或其組合具有任何依賴(lài)或需求。本申請(qǐng)的原理可以使用其它通用或?qū)S糜?jì)算或通信環(huán)境或配置來(lái)操作。適用于本申請(qǐng)的眾所周知的計(jì)算系統(tǒng)、環(huán)境和配置的示例包括但不限于,個(gè)人計(jì)算機(jī)、服務(wù)器,多處理器系統(tǒng)、基于微處理的系統(tǒng)、小型機(jī)、大型計(jì)算機(jī)、以及包括任一上述系統(tǒng)或設(shè)備的分布式計(jì)算環(huán)境。在其最基本的配置中,圖1中的網(wǎng)頁(yè)檢索系統(tǒng)100至少包括:一個(gè)網(wǎng)站的服務(wù)器102以及一個(gè)或多個(gè)客戶(hù)端104。服務(wù)器102可以包括但不限于微處理器MCU或可編程邏輯器件FPGA等的處理裝置、用于存儲(chǔ)數(shù)據(jù)的存儲(chǔ)裝置以及與客戶(hù)端通信的傳輸裝置;客戶(hù)端104可以包括:微處理器MCU、與服務(wù)器通信的傳輸裝置、與用戶(hù)交互的顯示裝置。在本說(shuō)明書(shū)和權(quán)利要求書(shū)中,“網(wǎng)頁(yè)檢索系統(tǒng)”也可以被定義為能夠執(zhí)行軟件、固件或微碼來(lái)實(shí)現(xiàn)功能的任何硬件組件或硬件組件的組合。網(wǎng)頁(yè)檢索系統(tǒng)100甚至可以是分布式的,以實(shí)現(xiàn)分布式功能。如本申請(qǐng)所使用的,術(shù)語(yǔ)“模塊”、“組件”或“單元”可以指在網(wǎng)頁(yè)檢索系統(tǒng)100上執(zhí)行的軟件對(duì)象或例程。此處所描述的不同組件、模塊、單元、引擎和服務(wù)可被實(shí)現(xiàn)為在網(wǎng)頁(yè)檢索系統(tǒng)100上執(zhí)行(例如,作為單獨(dú)的線(xiàn)程)的對(duì)象或進(jìn)程。盡管此處所描述的系統(tǒng)和方法較佳地以軟件來(lái)實(shí)現(xiàn),但是硬件或軟件和硬件的組合的實(shí)現(xiàn)也是可能并被構(gòu)想的。實(shí)施例1圖2是根據(jù)本申請(qǐng)實(shí)施例的網(wǎng)頁(yè)檢索裝置200的一種優(yōu)選的結(jié)構(gòu)框圖,優(yōu)選的,本實(shí)施例中的網(wǎng)頁(yè)檢索裝置200位于服務(wù)器102上或者客戶(hù)端104上。優(yōu)選的,如圖2所示的網(wǎng)頁(yè)檢索裝置200可以包括:I)第一獲取單元202,用于根據(jù)輸入的查詢(xún)語(yǔ)句獲取待檢索網(wǎng)頁(yè)的屬性標(biāo)識(shí)和該屬性標(biāo)識(shí)下的查詢(xún)區(qū)間;例如,通過(guò)用戶(hù)對(duì)用于檢索的網(wǎng)頁(yè)提供的下拉菜單進(jìn)行選擇,可以獲得查詢(xún)語(yǔ)句,假設(shè)用戶(hù)選擇在“價(jià)格”屬性中查詢(xún)“25-60”的產(chǎn)品,則可以根據(jù)預(yù)先定義的映射關(guān)系來(lái)獲得屬性“價(jià)格”對(duì)應(yīng)的屬性標(biāo)識(shí)id = 1,并得到該屬性標(biāo)識(shí)下的查詢(xún)區(qū)間“25-60” ;2)第一計(jì)算單元204,用于根據(jù)所述待檢索網(wǎng)頁(yè)的屬性標(biāo)識(shí)和所述查詢(xún)區(qū)間得到待檢索的屬性值范圍;優(yōu)選的,可以通過(guò)對(duì)待檢索網(wǎng)頁(yè)的屬性標(biāo)識(shí)和查詢(xún)區(qū)間進(jìn)行乘法運(yùn)算得到待檢索的屬性值范圍,例如,在屬性標(biāo)識(shí)id = 1、查詢(xún)區(qū)間“25-60”時(shí),通過(guò)乘法運(yùn)算可以得到待檢索的屬性值范圍為“25-60” ;3)第一判斷單元206,判斷所述待檢索的屬性值范圍與在接收所述查詢(xún)語(yǔ)句的系統(tǒng)中預(yù)先建立的多個(gè) 索引區(qū)間是否存在交集;假設(shè)系統(tǒng)預(yù)先將用于多個(gè)屬性檢索的索引區(qū)間劃分為“0-15”、“ 16-50”、“51-100”、“ 101-300”等幾個(gè)區(qū)間,則待檢索的屬性值范圍“25-60”與索引區(qū)間“ 16-50”、“51-100,,存在交集;4)第二獲取單元208,用于在存在交集的所述索引區(qū)間下的所有網(wǎng)頁(yè)中獲取屬性標(biāo)識(shí)為所述待檢索網(wǎng)頁(yè)的屬性標(biāo)識(shí)、且屬性值與所述查詢(xún)區(qū)間存在交集的網(wǎng)頁(yè);例如,可以在索引區(qū)間“16-50”、“51-100”下的所有網(wǎng)頁(yè)中獲取屬性標(biāo)識(shí)為id = 1、且屬性值與查詢(xún)區(qū)間“25-60”存在交集的網(wǎng)頁(yè);5)返回單元210,用于將獲取到的網(wǎng)頁(yè)作為檢索結(jié)果返回。在上述優(yōu)選實(shí)施方式中,將待檢索網(wǎng)頁(yè)的屬性標(biāo)識(shí)作為查詢(xún)條件之一,根據(jù)待檢索網(wǎng)頁(yè)的屬性標(biāo)識(shí)和查詢(xún)區(qū)間得到待檢索的屬性值范圍,從而進(jìn)行第一次粗略篩選,即在系統(tǒng)預(yù)定的索引區(qū)間中選擇與待檢索的屬性值范圍存在交集的索引區(qū)間,并篩選出交集的索引區(qū)間所對(duì)應(yīng)的網(wǎng)頁(yè),然后進(jìn)行第二次精細(xì)篩選,在篩選出來(lái)的網(wǎng)頁(yè)中查找屬性標(biāo)識(shí)和查詢(xún)區(qū)間都滿(mǎn)足查詢(xún)條件的網(wǎng)頁(yè)作為檢索結(jié)果進(jìn)行輸出。在上述的技術(shù)方案中,系統(tǒng)預(yù)先建立的索引區(qū)間不再是針對(duì)哪種屬性單獨(dú)建立的,而是將屬性標(biāo)識(shí)作為建立索引區(qū)間時(shí)考慮的因素之一,這樣使得建立的索引區(qū)間是針對(duì)多個(gè)屬性的,即可以在由具有多個(gè)不同屬性的網(wǎng)頁(yè)組成的集合中進(jìn)行統(tǒng)一查詢(xún),而不是如現(xiàn)有技術(shù)中那樣只能在同一個(gè)屬性中進(jìn)行查詢(xún),使得在新存儲(chǔ)在系 統(tǒng)中的網(wǎng)頁(yè)具有一個(gè)其他已存儲(chǔ)的網(wǎng)頁(yè)不具有的屬性時(shí),不需要為對(duì)每個(gè)現(xiàn)有的網(wǎng)頁(yè)增加對(duì)應(yīng)的字段來(lái)記錄該屬性,從而解決了現(xiàn)有技術(shù)中建立對(duì)非通用屬性的檢索時(shí)造成的數(shù)據(jù)冗余以及系統(tǒng)資源的浪費(fèi)的技術(shù)問(wèn)題,達(dá)到了減少數(shù)據(jù)冗余,節(jié)約系統(tǒng)資源的效果,進(jìn)一步的也實(shí)現(xiàn)了對(duì)屬性的范圍檢索。本申請(qǐng)還對(duì)索引區(qū)間和待掃描網(wǎng)頁(yè)之間的映射關(guān)系的建立進(jìn)行了改進(jìn),以便達(dá)到對(duì)網(wǎng)頁(yè)中非通用屬性的范圍的檢索技術(shù)效果。為了實(shí)現(xiàn)上述目的,具體地,在本申請(qǐng)各個(gè)優(yōu)選的實(shí)施例的基礎(chǔ)上,如圖3所示,該網(wǎng)頁(yè)檢索裝置200還包括:第三獲取單元302,用于在根據(jù)輸入的查詢(xún)語(yǔ)句獲取待檢索網(wǎng)頁(yè)的屬性標(biāo)識(shí)和該屬性標(biāo)識(shí)下的查詢(xún)區(qū)間之前,獲取所述待掃描的網(wǎng)頁(yè)的屬性標(biāo)識(shí)和屬性值;第二計(jì)算單元304,用于根據(jù)所述待掃描的網(wǎng)頁(yè)的屬性標(biāo)識(shí)和屬性值得到所述待掃描的網(wǎng)頁(yè)的屬性值范圍;第二判斷單元306,用于判斷所述待掃描的網(wǎng)頁(yè)的屬性值范圍與所述預(yù)先建立的多個(gè)索引區(qū)間是否存在交集;建立單元308,用于將存在交集的索引區(qū)間與所述待掃描的網(wǎng)頁(yè)之間建立映射關(guān)系。本申請(qǐng)還對(duì)第二計(jì)算單元304進(jìn)行了改進(jìn),以便達(dá)到通過(guò)簡(jiǎn)單的計(jì)算方法獲取網(wǎng)頁(yè)的屬性值范圍技術(shù)效果。為了實(shí)現(xiàn)上述目的,具體地,在本申請(qǐng)各個(gè)優(yōu)選的實(shí)施例的基礎(chǔ)上,如圖4所示,第二計(jì)算單元304包括但不限于:第一哈希模塊402,用于將所述待檢索網(wǎng)頁(yè)的屬性標(biāo)識(shí)與所述查詢(xún)區(qū)間進(jìn)行哈希運(yùn)算得到所述待檢索的屬性值范圍。本申請(qǐng)還對(duì)第一計(jì)算單元204進(jìn)行了改進(jìn),以便達(dá)到通過(guò)簡(jiǎn)單的計(jì)算方法查詢(xún)語(yǔ)句的屬性值范圍技術(shù)效果。為了實(shí)現(xiàn)上述目的,具體地,在本申請(qǐng)各個(gè)優(yōu)選的實(shí)施例的基礎(chǔ)上,如圖5所示,第一計(jì)算單元204包括但不限于:第二哈希模塊502,用于將所述待檢索網(wǎng)頁(yè)的屬性標(biāo)識(shí)與所述查詢(xún)區(qū)間進(jìn)行哈希運(yùn)算得到所述待檢索的屬性值范圍。優(yōu)選的,屬性值為離散值或預(yù)定的數(shù)值范圍。實(shí)施例2在圖1-圖5所示的優(yōu)選的網(wǎng)頁(yè)檢索裝置的基礎(chǔ)上,本申請(qǐng)還提供了一種優(yōu)選的網(wǎng)頁(yè)檢索方法。如圖6所示,該方法可以包括以下步驟:S602:根據(jù)輸入的查詢(xún)語(yǔ)句獲取待檢索網(wǎng)頁(yè)的屬性標(biāo)識(shí)和該屬性標(biāo)識(shí)下的查詢(xún)區(qū)間;例如,通過(guò)用戶(hù)對(duì)用于檢索的網(wǎng)頁(yè)提供的下拉菜單進(jìn)行選擇,可以獲得查詢(xún)語(yǔ)句,假設(shè)用戶(hù)選擇在“價(jià)格”屬性中查詢(xún)“25-60”的產(chǎn)品,則可以根據(jù)預(yù)先定義的映射關(guān)系來(lái)獲得屬性“價(jià)格”對(duì)應(yīng)的屬性標(biāo)識(shí)id = 1,并得到該屬性標(biāo)識(shí)下的查詢(xún)區(qū)間“25-60” ;S604:根據(jù)所述待檢索網(wǎng)頁(yè)的屬性標(biāo)識(shí)和所述查詢(xún)區(qū)間得到待檢索的屬性值范圍;優(yōu)選的,可以通過(guò)對(duì)待檢索網(wǎng)頁(yè)的屬性標(biāo)識(shí)和查詢(xún)區(qū)間進(jìn)行乘法運(yùn)算得到待檢索的屬性值范圍,例如,在屬性標(biāo)識(shí)id = 1、查詢(xún)區(qū)間“25-60”時(shí),通過(guò)乘法運(yùn)算可以得到待檢索的屬性值范圍為“25-60”;S606:判斷所述待檢索的屬性值范圍與在接收所述查詢(xún)語(yǔ)句的系統(tǒng)中預(yù)先建立的多個(gè)索引區(qū)間是否存在交集;假設(shè)系統(tǒng)預(yù)先將用于多個(gè)屬性檢索的索引區(qū)間劃分為“0-15”、“16-50”、“51-100”、“101-300”等幾個(gè)區(qū)間,則待檢索的屬性值范圍“25-60”與索引區(qū)間“16-50”、“51-100”存在交集;S608:在存在交集的所述索引區(qū)間下的所有網(wǎng)頁(yè)中獲取屬性標(biāo)識(shí)為所述待檢索網(wǎng)頁(yè)的屬性標(biāo)識(shí)、且屬性值與所述查詢(xún)區(qū)間存在交集的網(wǎng)頁(yè);例如,可以在索引區(qū)間“16-50”、“51-100”下的所有網(wǎng)頁(yè)中獲取屬性標(biāo)識(shí)為id = 1、且屬性值與查詢(xún)區(qū)間“25-60”存在交集的網(wǎng)頁(yè);S610:將獲取到的網(wǎng)頁(yè)作為檢索結(jié)果返回。在上述優(yōu)選實(shí)施方式中,將待檢索網(wǎng)頁(yè)的屬性標(biāo)識(shí)作為查詢(xún)條件之一,根據(jù)待檢索網(wǎng)頁(yè)的屬性標(biāo)識(shí)和查詢(xún)區(qū)間得到待檢索的屬性值范圍,從而進(jìn)行第一次粗略篩選,即在系統(tǒng)預(yù)定的索引區(qū)間中選擇與待檢索的屬性值范圍存在交集的索引區(qū)間,并篩選出交集的索引區(qū)間所對(duì)應(yīng)的網(wǎng)頁(yè),然后進(jìn)行第二次精細(xì)篩選,在篩選出來(lái)的網(wǎng)頁(yè)中查找屬性標(biāo)識(shí)和查詢(xún)區(qū)間都滿(mǎn)足查詢(xún)條件的網(wǎng)頁(yè) 作為檢索結(jié)果進(jìn)行輸出。在上述的技術(shù)方案中,系統(tǒng)預(yù)先建立的索引區(qū)間不再是針對(duì)哪種屬性單獨(dú)建立的,而是將屬性標(biāo)識(shí)作為建立索引區(qū)間時(shí)考慮的因素之一,這樣使得建立的索引區(qū)間是針對(duì)多個(gè)屬性的,即可以在由具有多個(gè)不同屬性的網(wǎng)頁(yè)組成的集合中進(jìn)行統(tǒng)一查詢(xún),而不是如現(xiàn)有技術(shù)中那樣只能在同一個(gè)屬性中進(jìn)行查詢(xún),使得在新存儲(chǔ)在系統(tǒng)中的網(wǎng)頁(yè)具有一個(gè)其他已存儲(chǔ)的網(wǎng)頁(yè)不具有的屬性時(shí),不需要為對(duì)每個(gè)現(xiàn)有的網(wǎng)頁(yè)增加對(duì)應(yīng)的字段來(lái)記錄該屬性,從而解決了現(xiàn)有技術(shù)中建立對(duì)非通用屬性的檢索時(shí)造成的數(shù)據(jù)冗余以及系統(tǒng)資源的浪費(fèi)的技術(shù)問(wèn)題,達(dá)到了減少數(shù)據(jù)冗余,節(jié)約系統(tǒng)資源的效果,進(jìn)一步的也實(shí)現(xiàn)了對(duì)屬性的范圍檢索。本申請(qǐng)還對(duì)索引區(qū)間和網(wǎng)頁(yè)之間的映射關(guān)系的建立進(jìn)行了改進(jìn),以便達(dá)到索引區(qū)間和網(wǎng)頁(yè)之間的映射關(guān)系的建立不再僅僅依賴(lài)于產(chǎn)品的屬性值的目的。為了實(shí)現(xiàn)上述目的,具體地,在本申請(qǐng)各個(gè)優(yōu)選的實(shí)施例的基礎(chǔ)上,在從查詢(xún)語(yǔ)句中獲取查詢(xún)語(yǔ)句的屬性標(biāo)識(shí)和該屬性標(biāo)識(shí)下的查詢(xún)區(qū)間之前,可以對(duì)于每個(gè)待掃描的網(wǎng)頁(yè)執(zhí)行以下如圖7所示的步驟從而得到索引和網(wǎng)頁(yè)之間的映射關(guān)系:S702:獲取待掃描的網(wǎng)頁(yè)的屬性標(biāo)識(shí)和屬性值;優(yōu)選的,待掃描的網(wǎng)頁(yè)可以是網(wǎng)站服務(wù)器(可以稱(chēng)為系統(tǒng))中存儲(chǔ)的網(wǎng)頁(yè)。S704:根據(jù)待掃描的網(wǎng)頁(yè)的屬性標(biāo)識(shí)和屬性值得到待掃描的網(wǎng)頁(yè)的屬性值范圍;S706:判斷待掃描的網(wǎng)頁(yè)的屬性值范圍與系統(tǒng)預(yù)先建立的多個(gè)索引區(qū)間是否存在交集;S708:將存在交集的索引區(qū)間與待掃描的網(wǎng)頁(yè)之間建立映射關(guān)系。
舉例而言,系統(tǒng)預(yù)先將用于多個(gè)屬性檢索的索引區(qū)間劃分為“0-15”、“16-50”、“51-100”、“ 101-300”等幾個(gè)區(qū)間,待掃描的網(wǎng)頁(yè)A、B、C中都具有價(jià)格的屬性,網(wǎng)頁(yè)A還具備內(nèi)徑的屬性。如表I所示,假設(shè)價(jià)格的屬性標(biāo)識(shí)id = 1,內(nèi)徑的屬性標(biāo)識(shí)id = 2 ;網(wǎng)頁(yè)A中價(jià)格的屬性值為5-10,網(wǎng)頁(yè)A中內(nèi)徑的屬性值為45-60,網(wǎng)頁(yè)B中價(jià)格的屬性值為40-55,網(wǎng)頁(yè)C中價(jià)格的屬性值為100。同時(shí),網(wǎng)頁(yè)A中存有內(nèi)徑的屬性標(biāo)識(shí)(id = 2),屬性值為45-60。在本優(yōu)選的實(shí)施例中,采用待掃描的網(wǎng)頁(yè)的屬性標(biāo)識(shí)和屬性值相乘得到屬性值范圍,判斷得到的屬性值范圍是否和索引區(qū)間存在交集,將屬性值范圍和索引區(qū)間之間存在交集的網(wǎng)頁(yè)和對(duì)應(yīng)的索引區(qū)間之間建立映射關(guān)系,通過(guò)上述步驟可以得到表2所示的對(duì)應(yīng)關(guān)系,例如,網(wǎng)頁(yè)A的價(jià)格的屬性值范圍為5-10,網(wǎng)頁(yè)A的內(nèi)徑的屬性值范圍為90-120,因此,網(wǎng)頁(yè)A的屬性值范圍與索引區(qū)間“0-15”、“51-100”以及“101-300”存在交集,因此,建立索引區(qū)間“0-15”、“51-100”以及“101-300”與網(wǎng)頁(yè)A的映射關(guān)系。上述的映射關(guān)系將用于后續(xù)的檢索步驟。此處以屬性標(biāo)識(shí)(id)乘以屬性值作為屬性值范圍為例進(jìn)行說(shuō)明,但本申請(qǐng)不限于此。表I
權(quán)利要求
1.一種網(wǎng)頁(yè)檢索方法,其特征在于,包括: 根據(jù)輸入的查詢(xún)語(yǔ)句獲取待檢索網(wǎng)頁(yè)的屬性標(biāo)識(shí)和該屬性標(biāo)識(shí)下的查詢(xún)區(qū)間; 根據(jù)所述待檢索網(wǎng)頁(yè)的屬性標(biāo)識(shí)和所述查詢(xún)區(qū)間得到待檢索的屬性值范圍; 判斷所述待檢索的屬性值范圍與在接收所述查詢(xún)語(yǔ)句的系統(tǒng)中預(yù)先建立的多個(gè)索引區(qū)間是否存在交集; 在存在交集的所述索引區(qū)間下的所有網(wǎng)頁(yè)中獲取屬性標(biāo)識(shí)為所述待檢索網(wǎng)頁(yè)的屬性標(biāo)識(shí)、且屬性值與所述查詢(xún)區(qū)間存在交集的網(wǎng)頁(yè); 將獲取到的網(wǎng)頁(yè)作為檢索結(jié)果返回。
2.根據(jù)權(quán)利要求1所 述的方法,其特征在于,在根據(jù)輸入的查詢(xún)語(yǔ)句獲取待檢索網(wǎng)頁(yè)的屬性標(biāo)識(shí)和該屬性標(biāo)識(shí)下的查詢(xún)區(qū)間之前,還包括:對(duì)于所述系統(tǒng)中待掃描的網(wǎng)頁(yè)執(zhí)行以下步驟: 獲取所述待掃描的網(wǎng)頁(yè)的屬性標(biāo)識(shí)和屬性值; 根據(jù)所述待掃描的網(wǎng)頁(yè)的屬性標(biāo)識(shí)和屬性值得到所述待掃描的網(wǎng)頁(yè)的屬性值范圍; 判斷所述待掃描的網(wǎng)頁(yè)的屬性值范圍與所述預(yù)先建立的多個(gè)索引區(qū)間是否存在交集; 將存在交集的索引區(qū)間與所述待掃描的網(wǎng)頁(yè)之間建立映射關(guān)系。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,根據(jù)所述待掃描的網(wǎng)頁(yè)的屬性標(biāo)識(shí)和屬性值得到所述待掃描的網(wǎng)頁(yè)的屬性值范圍的步驟包括: 將所述待掃描的網(wǎng)頁(yè)的屬性標(biāo)識(shí)與屬性值進(jìn)行哈希運(yùn)算得到所述待掃描的網(wǎng)頁(yè)的屬性值范圍。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)所述待檢索網(wǎng)頁(yè)的屬性標(biāo)識(shí)和所述查詢(xún)區(qū)間得到待檢索的屬性值范圍的步驟包括: 將所述待檢索網(wǎng)頁(yè)的屬性標(biāo)識(shí)與所述查詢(xún)區(qū)間進(jìn)行哈希運(yùn)算得到所述待檢索的屬性值范圍。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述屬性值為離散值或預(yù)定的數(shù)值范圍。
6.一種網(wǎng)頁(yè)檢索裝置,其特征在于,包括: 第一獲取單元,用于根據(jù)輸入的查詢(xún)語(yǔ)句獲取待檢索網(wǎng)頁(yè)的屬性標(biāo)識(shí)和該屬性標(biāo)識(shí)下的查詢(xún)區(qū)間; 第一計(jì)算單元,用于根據(jù)所述待檢索網(wǎng)頁(yè)的屬性標(biāo)識(shí)和所述查詢(xún)區(qū)間得到待檢索的屬性值范圍; 第一判斷單元,用于判斷所述待檢索的屬性值范圍與在接收所述查詢(xún)語(yǔ)句的系統(tǒng)中預(yù)先建立的多個(gè)索引區(qū)間是否存在交集; 第二獲取單元,用于在存在交集的所述索引區(qū)間下的所有網(wǎng)頁(yè)中獲取屬性標(biāo)識(shí)為所述待檢索網(wǎng)頁(yè)的屬性標(biāo)識(shí)、且屬性值與所述查詢(xún)區(qū)間存在交集的網(wǎng)頁(yè); 返回單元,用于將獲取到的網(wǎng)頁(yè)作為檢索結(jié)果返回。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,還包括: 第三獲取單元,用于在根據(jù)輸入的查詢(xún)語(yǔ)句獲取待檢索網(wǎng)頁(yè)的屬性標(biāo)識(shí)和該屬性標(biāo)識(shí)下的查詢(xún)區(qū)間之前,獲取所述待掃描的網(wǎng)頁(yè)的屬性標(biāo)識(shí)和屬性值; 第二計(jì)算單元,用于根據(jù)所述待掃描的網(wǎng)頁(yè)的屬性標(biāo)識(shí)和屬性值得到所述待掃描的網(wǎng)頁(yè)的屬性值范圍; 第二判斷單元,用于判斷所述待掃描的網(wǎng)頁(yè)的屬性值范圍與所述預(yù)先建立的多個(gè)索引區(qū)間是否存在交集; 建立單元,用于將存在交集的索引區(qū)間與所述待掃描的網(wǎng)頁(yè)之間建立映射關(guān)系。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述第二計(jì)算單元包括: 第一哈希模塊,用于將所述待掃描的網(wǎng)頁(yè)的屬性標(biāo)識(shí)與屬性值進(jìn)行哈希運(yùn)算得到所述待掃描的網(wǎng)頁(yè)的屬性值范圍。
9.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述第一計(jì)算單元包括: 第二哈希模塊,用于將所述待檢索網(wǎng)頁(yè)的屬性標(biāo)識(shí)與所述查詢(xún)區(qū)間進(jìn)行哈希運(yùn)算得到所述待檢索的屬性值范圍。
10.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述屬性值為離散值或預(yù)定的數(shù)值范圍 。
全文摘要
本申請(qǐng)公開(kāi)了一種網(wǎng)頁(yè)檢索方法和裝置,其中,該方法包括根據(jù)輸入的查詢(xún)語(yǔ)句獲取待檢索網(wǎng)頁(yè)的屬性標(biāo)識(shí)和該屬性標(biāo)識(shí)下的查詢(xún)區(qū)間;根據(jù)待檢索網(wǎng)頁(yè)的屬性標(biāo)識(shí)和查詢(xún)區(qū)間得到待檢索的屬性值范圍;判斷待檢索的屬性值范圍與在接收查詢(xún)語(yǔ)句的系統(tǒng)中預(yù)先建立的多個(gè)索引區(qū)間是否存在交集;在存在交集的索引區(qū)間下的所有網(wǎng)頁(yè)中獲取屬性標(biāo)識(shí)為待檢索網(wǎng)頁(yè)的屬性標(biāo)識(shí)、且屬性值與查詢(xún)區(qū)間存在交集的網(wǎng)頁(yè);將獲取到的網(wǎng)頁(yè)作為檢索結(jié)果返回。本申請(qǐng)解決了現(xiàn)有技術(shù)中建立對(duì)非通用屬性的檢索時(shí)造成的數(shù)據(jù)冗余以及系統(tǒng)資源的浪費(fèi)的技術(shù)問(wèn)題,達(dá)到了減少數(shù)據(jù)冗余,節(jié)約系統(tǒng)資源的效果,進(jìn)一步的也實(shí)現(xiàn)了對(duì)屬性的范圍檢索。
文檔編號(hào)G06F17/30GK103246664SQ20121002681
公開(kāi)日2013年8月14日 申請(qǐng)日期2012年2月7日 優(yōu)先權(quán)日2012年2月7日
發(fā)明者曾劍元, 孔維青, 杭海裕 申請(qǐng)人:阿里巴巴集團(tuán)控股有限公司