生成時效性種子頁集合的方法和裝置制造方法
【專利摘要】本發(fā)明提供了一種生成時效性種子頁集合的方法和裝置,該方法包括:獲取并分析多個待判斷頁面的屬性信息;在所述多個待判斷頁面中篩選出屬性信息滿足時效性種子頁屬性條件的頁面;將篩選出的滿足所述時效性種子頁屬性條件的頁面聚集,生成時效性種子頁集合。本發(fā)明能夠基于時效性種子頁屬性條件進行待判斷頁面的篩選,篩選出滿足時效性種子頁屬性條件的頁面,并聚集生成時效性種子頁集合,保證了時效性種子頁的召回率以及準確率。
【專利說明】生成時效性種子頁集合的方法和裝置
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及信息搜索領(lǐng)域,特別是一種生成時效性種子頁集合的方法和裝置,以 及一種利用生成的時效性種子頁集合進行頁面抓取的方法和搜索引擎。
【背景技術(shù)】
[0002] 搜索引擎對于互聯(lián)網(wǎng)上出現(xiàn)的實時熱點需要第一時間發(fā)現(xiàn)和收錄。搜索引擎爬蟲 有一個龐大的URL(UniformResourceLocator,統(tǒng)一資源定位符)庫,規(guī)模達到數(shù)千億甚至 上萬億量級。爬蟲所有的抓取都從這個URL庫出發(fā),即從URL庫中挑選出一批URL,對它們 實施抓取,從中發(fā)現(xiàn)新鏈接再添加到URL庫中。熱點鏈接就是從中被發(fā)現(xiàn)并通過下次選取 抓取和收錄的。
[0003] 然而,由于爬蟲把全部鏈接挑選一遍再抓一遍所處理的數(shù)據(jù)量較為龐大,需要消 耗大量的時間,因而很難保證所有的熱點都能在第一時間被發(fā)現(xiàn)和收錄。因此,如何提高爬 蟲抓取的效率成為目前亟待解決的技術(shù)問題。
【發(fā)明內(nèi)容】
[0004] 鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上 述問題的生成時效性種子頁集合的方法和裝置,以及利用生成的時效性種子頁集合進行頁 面抓取的方法和搜索引擎。
[0005] 依據(jù)本發(fā)明的一個方面,提供了一種生成時效性種子頁集合的方法,包括:獲取并 分析多個待判斷頁面的屬性信息;在所述多個待判斷頁面中篩選出屬性信息滿足時效性種 子頁屬性條件的頁面;將篩選出的滿足所述時效性種子頁屬性條件的頁面聚集,生成時效 性種子頁集合。
[0006] 可選地,所述獲取并分析多個待判斷頁面的屬性信息之前,還包括:按照指定時間 周期抓取所述多個待判斷頁面。
[0007] 可選地,在所述多個待判斷頁面中篩選出屬性信息滿足時效性種子頁屬性條件的 頁面,包括:對于每個待判斷頁面,比較該待判斷頁面中的鏈接與已收錄的鏈接;根據(jù)比較 的結(jié)果,統(tǒng)計出該待判斷頁面中的新鏈接的數(shù)量;篩選出所述多個待判斷頁面中新鏈接的 數(shù)量滿足時效性種子頁的新鏈接的數(shù)量的頁面。
[0008] 可選地,篩選出所述多個待判斷頁面中新鏈接的數(shù)量滿足時效性種子頁的新鏈接 的數(shù)量的頁面,包括:對于每個待判斷頁面,判斷該待判斷頁面中的新鏈接的數(shù)量是否大于 第一預設(shè)閾值;若是,則判斷該待判斷頁面為滿足時效性種子頁的新鏈接的數(shù)量的頁面。
[0009] 可選地,所述方法還包括:對于每個待判斷頁面,統(tǒng)計出該待判斷頁面中具備索引 價值的新鏈接的數(shù)量;判斷該待判斷頁面中具備索引價值的新鏈接的數(shù)量是否大于第二預 設(shè)閾值;若是,則判斷該待判斷頁面為滿足時效性種子頁具備索引價值的新鏈接的數(shù)量的 頁面。
[0010] 可選地,所述方法還包括:對所述多個待判斷頁面按照URL進行歸類;對于每類 URL,統(tǒng)計該類URL對應的待判斷頁面中的新鏈接的數(shù)量以及具備索引價值的新鏈接的數(shù) 量;判斷該類URL對應的待判斷頁面中的新鏈接的數(shù)量以及具備索引價值的新鏈接的數(shù)量 是否滿足時效性種子頁的新鏈接的數(shù)量以及具備索引價值的新鏈接的數(shù)量;若是,則判斷 該類URL對應的待判斷頁面為時效性種子頁。
[0011] 依據(jù)本發(fā)明的另一個方面,提供了一種頁面抓取方法,包括利用上文生成的時效 性種子頁集合進行頁面抓取。
[0012] 依據(jù)本發(fā)明的又一個方面,還提供了一種生成時效性種子頁集合的裝置,包括:
[0013] 分析器,適于獲取并分析多個待判斷頁面的屬性信息;
[0014] 頁面篩選器,適于在所述多個待判斷頁面中篩選出屬性信息滿足時效性種子頁屬 性條件的頁面;
[0015] 種子頁生成器,適于將篩選出的滿足所述時效性種子頁屬性條件的頁面聚集,生 成時效性種子頁集合。
[0016] 可選地,所述分析器獲取并分析多個待判斷頁面的屬性信息之前,還包括:
[0017] 抓取器,適于按照指定時間周期抓取所述多個待判斷頁面。
[0018] 可選地,所述頁面篩選器還適于:對于每個待判斷頁面,比較該待判斷頁面中的鏈 接與已收錄的鏈接;根據(jù)比較的結(jié)果,統(tǒng)計出該待判斷頁面中的新鏈接的數(shù)量;篩選出所 述多個待判斷頁面中新鏈接的數(shù)量滿足時效性種子頁的新鏈接的數(shù)量的頁面。
[0019] 可選地,所述頁面篩選器還適于:對于每個待判斷頁面,判斷該待判斷頁面中的新 鏈接的數(shù)量是否大于第一預設(shè)閾值;若是,則判斷該待判斷頁面為滿足時效性種子頁的新 鏈接的數(shù)量的頁面。
[0020] 可選地,所述頁面篩選器還適于:對于每個待判斷頁面,統(tǒng)計出該待判斷頁面中具 備索引價值的新鏈接的數(shù)量;判斷該待判斷頁面中具備索引價值的新鏈接的數(shù)量是否大于 第二預設(shè)閾值;若是,則判斷該待判斷頁面為滿足時效性種子頁具備索引價值的新鏈接的 數(shù)量的頁面。
[0021] 可選地,所述頁面篩選器還適于:對所述多個待判斷頁面按照URL進行歸類;對于 每類URL,統(tǒng)計該類URL對應的待判斷頁面中的新鏈接的數(shù)量以及具備索引價值的新鏈接 的數(shù)量;判斷該類URL對應的待判斷頁面中的新鏈接的數(shù)量以及具備索引價值的新鏈接的 數(shù)量是否滿足時效性種子頁的新鏈接的數(shù)量以及具備索引價值的新鏈接的數(shù)量;若是,則 判斷該類URL對應的待判斷頁面為時效性種子頁。
[0022] 依據(jù)本發(fā)明的再一個方面,還提供了一種搜索引擎,包括:上述生成時效性種子頁 集合的裝置。本發(fā)明提供的技術(shù)方案中,獲取并分析多個待判斷頁面的屬性信息,進而篩選 出多個待判斷頁面中滿足時效性種子頁屬性條件的頁面,覆蓋面廣,能夠生成較為全面、完 整的時效性種子頁集合。并且,本發(fā)明能夠基于時效性種子頁屬性條件進行待判斷頁面的 篩選,篩選出滿足時效性種子頁屬性條件的頁面,并聚集生成時效性種子頁集合,保證了時 效性種子頁的召回率以及準確率。進一步地,經(jīng)過篩選得到的時效性種子頁集合在保證召 回率的同時規(guī)模只有百萬量級,極大地減輕了爬蟲實施抓取的負擔,解決相關(guān)技術(shù)中爬蟲 需要把全部鏈接(即規(guī)模達到數(shù)千億甚至上萬億量級的鏈接)挑選一遍再抓一遍所處理的 數(shù)據(jù)量較為龐大,需要消耗大量的時間的問題,從而提高爬蟲抓取的效率,并保證了熱點能 夠在第一時間被發(fā)現(xiàn)和收錄。
[0023] 上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段, 而可依照說明書的內(nèi)容予以實施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點能夠 更明顯易懂,以下特舉本發(fā)明的【具體實施方式】。
[0024] 根據(jù)下文結(jié)合附圖對本發(fā)明具體實施例的詳細描述,本領(lǐng)域技術(shù)人員將會更加明 了本發(fā)明的上述以及其他目的、優(yōu)點和特征。
【專利附圖】
【附圖說明】
[0025] 通過閱讀下文優(yōu)選實施方式的詳細描述,各種其他的優(yōu)點和益處對于本領(lǐng)域普通 技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的,而并不認為是對本發(fā)明 的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
[0026] 圖1示出了根據(jù)本發(fā)明一個實施例的生成時效性種子頁集合的方法的流程圖;
[0027] 圖2示出了根據(jù)本發(fā)明一個實施例的生成時效性種子頁集合的裝置的結(jié)構(gòu)示意 圖;以及
[0028] 圖3示出了根據(jù)本發(fā)明另一個實施例的生成時效性種子頁集合的裝置的結(jié)構(gòu)示 意圖。
【具體實施方式】
[0029] 下面將參照附圖更詳細地描述本公開的示例性實施例。雖然附圖中顯示了本公開 的示例性實施例,然而應當理解,可以以各種形式實現(xiàn)本公開而不應被這里闡述的實施例 所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍 完整的傳達給本領(lǐng)域的技術(shù)人員。
[0030] 為解決上述技術(shù)問題,本發(fā)明實施例提供了一種生成時效性種子頁集合的方法, 圖1示出了根據(jù)本發(fā)明一個實施例的生成時效性種子頁集合的方法的流程圖。如圖1所示, 該方法至少包括以下步驟S102至步驟S106。
[0031] 步驟S102、獲取并分析多個待判斷頁面的屬性信息。
[0032] 步驟S104、在多個待判斷頁面中篩選出屬性信息滿足時效性種子頁屬性條件的頁 面。
[0033] 步驟S106、將篩選出的滿足時效性種子頁屬性條件的頁面聚集,生成時效性種子 頁集合。
[0034] 本發(fā)明提供的技術(shù)方案中,獲取并分析多個待判斷頁面的屬性信息,進而篩選出 多個待判斷頁面中滿足時效性種子頁屬性條件的頁面,覆蓋面廣,能夠生成較為全面、完整 的時效性種子頁集合。并且,本發(fā)明能夠基于時效性種子頁屬性條件進行待判斷頁面的篩 選,篩選出滿足時效性種子頁屬性條件的頁面,并聚集生成時效性種子頁集合,保證了時效 性種子頁的召回率以及準確率。進一步地,經(jīng)過篩選得到的時效性種子頁集合在保證召回 率的同時規(guī)模只有百萬量級,極大地減輕了爬蟲實施抓取的負擔,解決相關(guān)技術(shù)中爬蟲需 要把全部鏈接(即規(guī)模達到數(shù)千億甚至上萬億量級的鏈接)挑選一遍再抓一遍所處理的數(shù) 據(jù)量較為龐大,需要消耗大量的時間的問題,從而提高爬蟲抓取的效率,并保證了熱點能夠 在第一時間被發(fā)現(xiàn)和收錄。
[0035] 在上文步驟S102獲取并分析多個待判斷頁面的屬性信息之前,本發(fā)明還可以按 照指定時間周期抓取多個待判斷頁面,這里的指定時間周期如1天、1小時等。例如,以天 為單位,抓取360視頻頁面,抓取的頁面的URL地址分別為http://video,so.com/11-01、 http: //video,so.com/11-02等等,可以看出是以日期" 11-01" " 11-02"來區(qū)分每天抓取的 頁面。
[0036] 在步驟S102獲取并分析多個待判斷頁面的屬性信息之后,步驟S104在多個待判 斷頁面中篩選出屬性信息滿足時效性種子頁屬性條件的頁面。本發(fā)明實施例中,時效性種 子頁屬性條件可以是該種子頁能產(chǎn)生新鏈接,該種子頁所產(chǎn)生的新鏈接具有索引價值以及 該種子頁能持續(xù)產(chǎn)生新鏈接,等等。這里,種子頁所產(chǎn)生的新鏈接具有索引價值是指種子頁 所產(chǎn)生的新鏈接不能是重復、垃圾、作弊等類的頁面。另外,種子頁能持續(xù)產(chǎn)生新鏈接是因 為一次性產(chǎn)生的新鏈接沒有重復調(diào)度價值(這里的調(diào)度是爬蟲實施抓取調(diào)度,即爬蟲決定 哪些頁面需要發(fā)起抓取,并選取出這類頁面的過程),因而需要多次或持續(xù)產(chǎn)生新鏈接。下 面將針對各時效性種子頁屬性條件詳細介紹相應的篩選方案。
[0037] 首先,關(guān)于種子頁能產(chǎn)生新鏈接。在本發(fā)明提供的方案中,對于每個待判斷頁面, 比較該待判斷頁面中的鏈接與已收錄的鏈接,進而根據(jù)比較的結(jié)果,統(tǒng)計出該待判斷頁面 中的新鏈接的數(shù)量,從而篩選出多個待判斷頁面中新鏈接的數(shù)量滿足時效性種子頁的新鏈 接的數(shù)量的頁面。舉例來說,多個待判斷頁面分別為待判斷頁面A、B以及C,待判斷頁面A 中的鏈接為六1、4233、4435,待判斷頁面8中的鏈接為81、82、83、84,待判斷頁面(:中的 鏈接為CUC2、C3。此時,對于每個待判斷頁面,比較該待判斷頁面中的鏈接與已收錄的鏈 接,進而根據(jù)比較的結(jié)果,統(tǒng)計出該待判斷頁面中的新鏈接的數(shù)量。經(jīng)過比較和統(tǒng)計得到, 待判斷頁面A、B以及C中能產(chǎn)生新鏈接的數(shù)量分別為4、4、3。需要說明的是,這里列舉的 待判斷頁面及其數(shù)量僅是示意性的,并不用于限制本發(fā)明。隨后篩選出多個待判斷頁面中 新鏈接的數(shù)量滿足時效性種子頁的新鏈接的數(shù)量的頁面。例如,對于每個待判斷頁面,判斷 該待判斷頁面中新鏈接的數(shù)量是否大于第一預設(shè)閾值,若是,則判斷該待判斷頁面為滿足 時效性種子頁的新鏈接的數(shù)量的頁面。反之,則判斷該待判斷頁面不為滿足時效性種子頁 的新鏈接的數(shù)量的頁面。進一步地,在實際應用中可能會出現(xiàn)某個新鏈接在多個待判斷頁 面中被發(fā)現(xiàn)的情況,為避免貢獻泛濫,在本發(fā)明的優(yōu)選方案中,只將該新鏈接作為其中一個 待判斷頁面的新鏈接。
[0038] 其次,關(guān)于種子頁所產(chǎn)生的新鏈接具有索引價值,即種子頁所產(chǎn)生的新鏈接不能 是重復、垃圾、作弊等類的頁面。在本發(fā)明的實施例中,對于每個待判斷頁面,統(tǒng)計出該待判 斷頁面中具備索引價值的新鏈接的數(shù)量,進而判斷該待判斷頁面中具備索引價值的新鏈接 的數(shù)量是否大于第二預設(shè)閾值,若是,則可以判斷該待判斷頁面為滿足時效性種子頁具備 索引價值的新鏈接的數(shù)量的頁面。反之,則判斷該待判斷頁面不為滿足時效性種子頁具備 索引價值的新鏈接的數(shù)量的頁面。仍以上文多個待判斷頁面分別為待判斷頁面A、B以及C 為例(即待判斷頁面A、B以及C中產(chǎn)生新鏈接的數(shù)量分別為4、4、3),對于每個待判斷頁面, 統(tǒng)計出該待判斷頁面中具備索引價值的新鏈接的數(shù)量,經(jīng)統(tǒng)計得到待判斷頁面A、B以及C 中具備索引價值的新鏈接的數(shù)量分別為4、4、1。隨后,從待判斷頁面A、B以及C中篩選出 具備索引價值的新鏈接的數(shù)量大于第二預設(shè)閾值的頁面。需要說明的是,上文列舉的待判 斷頁面及其數(shù)量僅是示意性的,并不用于限制本發(fā)明,在實際應用中,待判斷頁面的數(shù)量規(guī) ??梢赃_到數(shù)千億甚至上萬億量級的鏈接。
[0039] 再者,關(guān)于種子頁能持續(xù)產(chǎn)生新鏈接,即一次性產(chǎn)生的新鏈接沒有重復調(diào)度價值, 因而需要多次或持續(xù)產(chǎn)生新鏈接。本發(fā)明提供了一種優(yōu)選的方案,在該方案中,對多個待判 斷頁面按照URL進行歸類,隨后對于每類URL,統(tǒng)計該類URL對應的待判斷頁面中的新鏈接 的數(shù)量以及具備索引價值的新鏈接的數(shù)量。進而判斷該類URL對應的待判斷頁面中的新鏈 接的數(shù)量以及具備索引價值的新鏈接的數(shù)量是否滿足時效性種子頁的新鏈接的數(shù)量以及 具備索引價值的新鏈接的數(shù)量,若是,則可以判斷該類URL對應的待判斷頁面為時效性種 子頁。反之,則判斷該類URL對應的待判斷頁面不為時效性種子頁。
[0040] 舉例來說,以天為單位,第1天,多個待判斷頁面分別為待判斷頁面A01、BOl以及 C01,待判斷頁面AOl中的鏈接為411、412、413、414、415,待判斷頁面即1中的鏈接為811、 812、813、814,待判斷頁面0)1中的鏈接為(:11、(:12、(:13。此時,對于每個待判斷頁面,比較 該待判斷頁面中的鏈接與已收錄的鏈接,進而根據(jù)比較的結(jié)果,統(tǒng)計出該待判斷頁面中的 新鏈接的數(shù)量,經(jīng)比較和統(tǒng)計得到待判斷頁面A0UB01以及COl中能產(chǎn)生的新鏈接的數(shù)量 分別為4、4、3,具備索引價值的新鏈接的數(shù)量分別為4、4、3。第2天,多個待判斷頁面分別 為待判斷頁面A02、B02、C02以及D02,待判斷頁面A02中的鏈接為421322323,待判斷頁 面B02中的鏈接為821、822、823、824、825,待判斷頁面〇)2中的鏈接為021、022,待判斷頁 面D02中的鏈接為D21、D22。此時,對于每個待判斷頁面,比較該待判斷頁面中的鏈接與已 收錄的鏈接,進而根據(jù)比較的結(jié)果,統(tǒng)計出該待判斷頁面中的新鏈接的數(shù)量,經(jīng)比較和統(tǒng)計 得到待判斷頁面A02、B02、C02以及D02中能產(chǎn)生的新鏈接的數(shù)量分別為1、5、1、2,具備索 引價值的新鏈接的數(shù)量分別為〇、4、1、2。以此類推,以天為單位,可以統(tǒng)計出多個待判斷頁 面中能產(chǎn)生的新鏈接的數(shù)量以及具備索引價值的新鏈接的數(shù)量,詳細信息如下表1所示。
[0041] 表 1
[0042]
【權(quán)利要求】
1. 一種生成時效性種子頁集合的方法,包括: 獲取并分析多個待判斷頁面的屬性信息; 在所述多個待判斷頁面中篩選出屬性信息滿足時效性種子頁屬性條件的頁面; 將篩選出的滿足所述時效性種子頁屬性條件的頁面聚集,生成時效性種子頁集合。
2. 根據(jù)權(quán)利要求1所述的方法,其中,所述獲取并分析多個待判斷頁面的屬性信息之 前,還包括: 按照指定時間周期抓取所述多個待判斷頁面。
3. 根據(jù)權(quán)利要求1-2任一項所述的方法,其中,在所述多個待判斷頁面中篩選出屬性 信息滿足時效性種子頁屬性條件的頁面,包括: 對于每個待判斷頁面,比較該待判斷頁面中的鏈接與已收錄的鏈接; 根據(jù)比較的結(jié)果,統(tǒng)計出該待判斷頁面中的新鏈接的數(shù)量; 篩選出所述多個待判斷頁面中新鏈接的數(shù)量滿足時效性種子頁的新鏈接的數(shù)量的頁 面。
4. 根據(jù)權(quán)利要求1-3任一項所述的方法,其中,篩選出所述多個待判斷頁面中新鏈接 的數(shù)量滿足時效性種子頁的新鏈接的數(shù)量的頁面,包括: 對于每個待判斷頁面,判斷該待判斷頁面中的新鏈接的數(shù)量是否大于第一預設(shè)閾值; 若是,則判斷該待判斷頁面為滿足時效性種子頁的新鏈接的數(shù)量的頁面。
5. 根據(jù)權(quán)利要求1-4任一項所述的方法,其中,還包括: 對于每個待判斷頁面,統(tǒng)計出該待判斷頁面中具備索引價值的新鏈接的數(shù)量; 判斷該待判斷頁面中具備索引價值的新鏈接的數(shù)量是否大于第二預設(shè)閾值; 若是,則判斷該待判斷頁面為滿足時效性種子頁具備索引價值的新鏈接的數(shù)量的頁 面。
6. 根據(jù)權(quán)利要求1-5任一項所述的方法,其中,還包括: 對所述多個待判斷頁面按照URL進行歸類; 對于每類URL,統(tǒng)計該類URL對應的待判斷頁面中的新鏈接的數(shù)量以及具備索引價值 的新鏈接的數(shù)量; 判斷該類URL對應的待判斷頁面中的新鏈接的數(shù)量以及具備索引價值的新鏈接的數(shù) 量是否滿足時效性種子頁的新鏈接的數(shù)量以及具備索引價值的新鏈接的數(shù)量; 若是,則判斷該類URL對應的待判斷頁面為時效性種子頁。
7. -種頁面抓取方法,包括利用如權(quán)利要求1-6任一項生成的時效性種子頁集合進行 頁面抓取。
8. -種生成時效性種子頁集合的裝置,包括: 分析器,適于獲取并分析多個待判斷頁面的屬性信息; 頁面篩選器,適于在所述多個待判斷頁面中篩選出屬性信息滿足時效性種子頁屬性條 件的頁面; 種子頁生成器,適于將篩選出的滿足所述時效性種子頁屬性條件的頁面聚集,生成時 效性種子頁集合。
9. 根據(jù)權(quán)利要求8所述的裝置,其中,所述分析器獲取并分析多個待判斷頁面的屬性 信息之前,還包括: 抓取器,適于按照指定時間周期抓取所述多個待判斷頁面。
10. -種搜索引擎,包括如權(quán)利要求8-9任一項所述的生成時效性種子頁集合的裝置。
【文檔編號】G06F17/30GK104484382SQ201410758178
【公開日】2015年4月1日 申請日期:2014年12月10日 優(yōu)先權(quán)日:2014年12月10日
【發(fā)明者】魏少俊 申請人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司