本發(fā)明涉及網(wǎng)頁(yè)檢測(cè)領(lǐng)域,具體而言,涉及一種導(dǎo)航網(wǎng)頁(yè)的檢測(cè)方法和裝置。
背景技術(shù):
在互聯(lián)網(wǎng)領(lǐng)域,往往需要檢測(cè)一個(gè)網(wǎng)頁(yè)是否為導(dǎo)航網(wǎng)頁(yè)(導(dǎo)航列表頁(yè)),進(jìn)而根據(jù)檢測(cè)的結(jié)果對(duì)該網(wǎng)頁(yè)進(jìn)行處理。例如,在網(wǎng)絡(luò)爬蟲的應(yīng)用中,一般會(huì)爬取網(wǎng)頁(yè),進(jìn)而對(duì)爬取的網(wǎng)頁(yè)內(nèi)容進(jìn)行檢測(cè),以判斷該網(wǎng)頁(yè)是否為導(dǎo)航網(wǎng)頁(yè)。對(duì)于被檢測(cè)為導(dǎo)航網(wǎng)頁(yè)的網(wǎng)頁(yè)會(huì)進(jìn)行重復(fù)爬取,以獲取其包含的諸多網(wǎng)頁(yè)信息。
目前,通常采用的方法是對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行分析,獲取其包含的鏈接的個(gè)數(shù)或者內(nèi)容長(zhǎng)度比(鏈接中包含的內(nèi)容長(zhǎng)度與網(wǎng)頁(yè)總的內(nèi)容長(zhǎng)度的比值)。但是,由于各個(gè)網(wǎng)站的差異性,使得該方法對(duì)導(dǎo)航網(wǎng)頁(yè)的檢測(cè)準(zhǔn)確性較差。導(dǎo)航網(wǎng)頁(yè)的檢測(cè)錯(cuò)誤,往往產(chǎn)生較為嚴(yán)重的問題。例如,在網(wǎng)絡(luò)爬蟲的應(yīng)用中,如果檢測(cè)出某網(wǎng)頁(yè)為導(dǎo)航網(wǎng)頁(yè),則后續(xù)會(huì)大量重復(fù)爬取該網(wǎng)頁(yè)。因此,如果先前的檢測(cè)出現(xiàn)錯(cuò)誤,也即,將內(nèi)容網(wǎng)頁(yè)誤認(rèn)為是導(dǎo)航網(wǎng)頁(yè),則導(dǎo)致網(wǎng)絡(luò)爬蟲后續(xù)爬取的網(wǎng)頁(yè)內(nèi)容是無效的,從而失去了原有的爬取意義,造成了資源的浪費(fèi);另外,對(duì)于內(nèi)容網(wǎng)頁(yè)的爬取造成爬取時(shí)間的增長(zhǎng),降低了爬蟲的爬取效率。
針對(duì)相關(guān)技術(shù)中檢測(cè)導(dǎo)航網(wǎng)頁(yè)的準(zhǔn)確性差的問題,目前尚未提出有效的解決方案。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的主要目的在于提供一種導(dǎo)航網(wǎng)頁(yè)的檢測(cè)方法和裝置,以解決檢測(cè)導(dǎo)航網(wǎng)頁(yè)的準(zhǔn)確性差的問題。
為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的一個(gè)方面,提供了一種導(dǎo)航網(wǎng)頁(yè)的檢測(cè)方法。
根據(jù)本發(fā)明的導(dǎo)航網(wǎng)頁(yè)的檢測(cè)方法包括:確定待檢測(cè)網(wǎng)頁(yè);獲取第一網(wǎng)頁(yè)內(nèi)容,其中,第一網(wǎng)頁(yè)內(nèi)容為待檢測(cè)網(wǎng)頁(yè)在第一時(shí)刻的網(wǎng)頁(yè)內(nèi)容;獲取第二網(wǎng)頁(yè)內(nèi)容,其中,第二網(wǎng)頁(yè)內(nèi)容為待檢測(cè)網(wǎng)頁(yè)在第二時(shí)刻的網(wǎng)頁(yè)內(nèi)容;將第一網(wǎng)頁(yè)內(nèi)容和第二網(wǎng)頁(yè)內(nèi)容進(jìn)行對(duì)比,得到第一內(nèi)容對(duì)比結(jié)果;以及根據(jù)第一內(nèi)容對(duì)比結(jié)果,判斷待檢測(cè)網(wǎng)頁(yè)是否為導(dǎo)航網(wǎng)頁(yè)。
進(jìn)一步地,將第一網(wǎng)頁(yè)內(nèi)容和第二網(wǎng)頁(yè)內(nèi)容進(jìn)行對(duì)比,得到第一內(nèi)容對(duì)比結(jié)果包括:獲取第一鏈接集合,其中,第一鏈接集合為第一網(wǎng)頁(yè)內(nèi)容中包含的所有的網(wǎng)頁(yè)鏈 接的集合;獲取第二鏈接集合,其中,第二鏈接集合為第二網(wǎng)頁(yè)內(nèi)容中包含的所有的網(wǎng)頁(yè)鏈接的集合;以及將第一鏈接集合和第二鏈接集合進(jìn)行對(duì)比,得到第一內(nèi)容對(duì)比結(jié)果。
進(jìn)一步地,將第一鏈接集合和第二鏈接集合進(jìn)行對(duì)比,得到第一內(nèi)容對(duì)比結(jié)果包括:確定第一動(dòng)態(tài)變化鏈接,其中,第一動(dòng)態(tài)變化鏈接為第一鏈接集合中包含的動(dòng)態(tài)變化鏈接;確定第二動(dòng)態(tài)變化鏈接,其中,第二動(dòng)態(tài)變化鏈接為第二鏈接集合中包含的動(dòng)態(tài)變化鏈接;以及將第一子鏈接集合與第二子鏈接集合進(jìn)行對(duì)比,得到第一內(nèi)容對(duì)比結(jié)果,其中,第一子鏈接集合為第一鏈接集合中過濾掉第一動(dòng)態(tài)變化鏈接之后的網(wǎng)頁(yè)鏈接的集合,第二子鏈接集合為第二鏈接集合中過濾掉第二動(dòng)態(tài)變化鏈接之后的網(wǎng)頁(yè)鏈接的集合。
進(jìn)一步地,將第一子鏈接集合與第二子鏈接集合進(jìn)行對(duì)比,得到第一內(nèi)容對(duì)比結(jié)果包括:對(duì)第一子鏈接集合中包含的網(wǎng)頁(yè)鏈接和第二子鏈接集合中包含的網(wǎng)頁(yè)鏈接進(jìn)行對(duì)比,得到第一內(nèi)容對(duì)比結(jié)果,根據(jù)第一內(nèi)容對(duì)比結(jié)果,判斷待檢測(cè)網(wǎng)頁(yè)是否為導(dǎo)航網(wǎng)頁(yè)包括:如果第一內(nèi)容對(duì)比結(jié)果為第一子鏈接集合和第二子鏈接集合中包含的網(wǎng)頁(yè)鏈接相同,則確定待檢測(cè)網(wǎng)頁(yè)不是導(dǎo)航網(wǎng)頁(yè);以及如果第一內(nèi)容對(duì)比結(jié)果為第一子鏈接集合和第二子鏈接集合中存在不同的網(wǎng)頁(yè)鏈接,則確定待檢測(cè)網(wǎng)頁(yè)為導(dǎo)航網(wǎng)頁(yè)。
進(jìn)一步地,將第一鏈接集合和第二鏈接集合進(jìn)行對(duì)比,得到第一內(nèi)容對(duì)比結(jié)果包括:將第一鏈接集合中的網(wǎng)頁(yè)鏈接依次與第二鏈接集合中的網(wǎng)頁(yè)鏈接進(jìn)行對(duì)比,得到第一鏈接集合與第二鏈接集合中相同的網(wǎng)頁(yè)鏈接的個(gè)數(shù);確定目標(biāo)鏈接比,其中,目標(biāo)鏈接比為相同的網(wǎng)頁(yè)鏈接的個(gè)數(shù)與第一鏈接集合中包含的網(wǎng)頁(yè)鏈接的總數(shù)的比值;以及將目標(biāo)鏈接比和預(yù)設(shè)鏈接比進(jìn)行對(duì)比,得到第一內(nèi)容對(duì)比結(jié)果,根據(jù)第一內(nèi)容對(duì)比結(jié)果,判斷待檢測(cè)網(wǎng)頁(yè)是否為導(dǎo)航網(wǎng)頁(yè)包括:如果第一內(nèi)容對(duì)比結(jié)果為目標(biāo)鏈接比大于預(yù)設(shè)鏈接比,則確定待檢測(cè)網(wǎng)頁(yè)不是導(dǎo)航網(wǎng)頁(yè);以及如果第一內(nèi)容對(duì)比結(jié)果為目標(biāo)鏈接比不大于預(yù)設(shè)鏈接比,則確定待檢測(cè)網(wǎng)頁(yè)為導(dǎo)航網(wǎng)頁(yè)。
進(jìn)一步地,根據(jù)第一內(nèi)容對(duì)比結(jié)果,判斷待檢測(cè)網(wǎng)頁(yè)是否為導(dǎo)航網(wǎng)頁(yè)之前,該方法還包括:獲取第三網(wǎng)頁(yè)內(nèi)容,其中,第三網(wǎng)頁(yè)內(nèi)容為待檢測(cè)網(wǎng)頁(yè)在第三時(shí)刻的網(wǎng)頁(yè)內(nèi)容;以及將第一網(wǎng)頁(yè)內(nèi)容和第三網(wǎng)頁(yè)內(nèi)容進(jìn)行對(duì)比,得到第二內(nèi)容對(duì)比結(jié)果,根據(jù)第一內(nèi)容對(duì)比結(jié)果,判斷待檢測(cè)網(wǎng)頁(yè)是否為導(dǎo)航網(wǎng)頁(yè)包括:根據(jù)第一內(nèi)容對(duì)比結(jié)果和第二內(nèi)容對(duì)比結(jié)果,判斷待檢測(cè)網(wǎng)頁(yè)是否為導(dǎo)航網(wǎng)頁(yè)。
為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的另一方面,提供了一種導(dǎo)航網(wǎng)頁(yè)的檢測(cè)裝置。
根據(jù)本發(fā)明的導(dǎo)航網(wǎng)頁(yè)的檢測(cè)裝置包括:確定單元,用于確定待檢測(cè)網(wǎng)頁(yè);第一獲取單元,用于獲取第一網(wǎng)頁(yè)內(nèi)容,其中,第一網(wǎng)頁(yè)內(nèi)容為待檢測(cè)網(wǎng)頁(yè)在第一時(shí)刻的 網(wǎng)頁(yè)內(nèi)容;第二獲取單元,用于獲取第二網(wǎng)頁(yè)內(nèi)容,其中,第二網(wǎng)頁(yè)內(nèi)容為待檢測(cè)網(wǎng)頁(yè)在第二時(shí)刻的網(wǎng)頁(yè)內(nèi)容;對(duì)比單元,用于將第一網(wǎng)頁(yè)內(nèi)容和第二網(wǎng)頁(yè)內(nèi)容進(jìn)行對(duì)比,得到第一內(nèi)容對(duì)比結(jié)果;以及判斷單元,用于根據(jù)第一內(nèi)容對(duì)比結(jié)果,判斷待檢測(cè)網(wǎng)頁(yè)是否為導(dǎo)航網(wǎng)頁(yè)。
進(jìn)一步地,對(duì)比單元包括:第一獲取模塊,用于獲取第一鏈接集合,其中,第一鏈接集合為第一網(wǎng)頁(yè)內(nèi)容中包含的所有的網(wǎng)頁(yè)鏈接的集合;第二獲取模塊,用于獲取第二鏈接集合,其中,第二鏈接集合為第二網(wǎng)頁(yè)內(nèi)容中包含的所有的網(wǎng)頁(yè)鏈接的集合;以及對(duì)比模塊,用于將第一鏈接集合和第二鏈接集合進(jìn)行對(duì)比,得到第一內(nèi)容對(duì)比結(jié)果。
進(jìn)一步地,對(duì)比模塊包括:第一確定子模塊,用于確定第一動(dòng)態(tài)變化鏈接,其中,第一動(dòng)態(tài)變化鏈接為第一鏈接集合中包含的動(dòng)態(tài)變化鏈接;第二確定子模塊,用于確定第二動(dòng)態(tài)變化鏈接,其中,第二動(dòng)態(tài)變化鏈接為第二鏈接集合中包含的動(dòng)態(tài)變化鏈接;以及第一對(duì)比子模塊,用于將第一子鏈接集合與第二子鏈接集合進(jìn)行對(duì)比,得到第一內(nèi)容對(duì)比結(jié)果,其中,第一子鏈接集合為第一鏈接集合中過濾掉第一動(dòng)態(tài)變化鏈接之后的網(wǎng)頁(yè)鏈接的集合,第二子鏈接集合為第二鏈接集合中過濾掉第二動(dòng)態(tài)變化鏈接之后的網(wǎng)頁(yè)鏈接的集合。
進(jìn)一步地,對(duì)比模塊包括:第二對(duì)比子模塊,用于將第一鏈接集合中的網(wǎng)頁(yè)鏈接依次與第二鏈接集合中的網(wǎng)頁(yè)鏈接進(jìn)行對(duì)比,得到第一鏈接集合與第二鏈接集合中相同的網(wǎng)頁(yè)鏈接的個(gè)數(shù);第三確定子模塊,用于確定目標(biāo)鏈接比,其中,目標(biāo)鏈接比為相同的網(wǎng)頁(yè)鏈接的個(gè)數(shù)與第一鏈接集合中包含的網(wǎng)頁(yè)鏈接的總數(shù)的比值;以及第三對(duì)比子模塊,用于將目標(biāo)鏈接比和預(yù)設(shè)鏈接比進(jìn)行對(duì)比,得到第一內(nèi)容對(duì)比結(jié)果,判斷單元包括:第一確定模塊,用于在第一內(nèi)容對(duì)比結(jié)果為目標(biāo)鏈接比大于預(yù)設(shè)鏈接比時(shí),確定待檢測(cè)網(wǎng)頁(yè)不是導(dǎo)航網(wǎng)頁(yè);以及第二確定模塊,用于在第一內(nèi)容對(duì)比結(jié)果為目標(biāo)鏈接比不大于預(yù)設(shè)鏈接比時(shí),確定待檢測(cè)網(wǎng)頁(yè)為導(dǎo)航網(wǎng)頁(yè)。
通過本發(fā)明,采用包括如下步驟的方法:確定待檢測(cè)網(wǎng)頁(yè);獲取第一網(wǎng)頁(yè)內(nèi)容,其中,第一網(wǎng)頁(yè)內(nèi)容為待檢測(cè)網(wǎng)頁(yè)在第一時(shí)刻的網(wǎng)頁(yè)內(nèi)容;獲取第二網(wǎng)頁(yè)內(nèi)容,其中,第二網(wǎng)頁(yè)內(nèi)容為待檢測(cè)網(wǎng)頁(yè)在第二時(shí)刻的網(wǎng)頁(yè)內(nèi)容;將第一網(wǎng)頁(yè)內(nèi)容和第二網(wǎng)頁(yè)內(nèi)容進(jìn)行對(duì)比,得到第一內(nèi)容對(duì)比結(jié)果;以及根據(jù)第一內(nèi)容對(duì)比結(jié)果,判斷待檢測(cè)網(wǎng)頁(yè)是否為導(dǎo)航網(wǎng)頁(yè),解決了檢測(cè)導(dǎo)航網(wǎng)頁(yè)的準(zhǔn)確性差的問題,進(jìn)而通過將第一網(wǎng)頁(yè)內(nèi)容和第二網(wǎng)頁(yè)內(nèi)容進(jìn)行對(duì)比,得到第一內(nèi)容對(duì)比結(jié)果,并根據(jù)第一內(nèi)容對(duì)比結(jié)果判斷待檢測(cè)網(wǎng)頁(yè)是否為導(dǎo)航網(wǎng)頁(yè),達(dá)到了提高檢測(cè)導(dǎo)航網(wǎng)頁(yè)的準(zhǔn)確性的效果。
附圖說明
構(gòu)成本申請(qǐng)的一部分的附圖用來提供對(duì)本發(fā)明的進(jìn)一步理解,本發(fā)明的示意性實(shí)施例及其說明用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中:
圖1是根據(jù)本發(fā)明第一實(shí)施例的導(dǎo)航網(wǎng)頁(yè)的檢測(cè)方法的流程圖;
圖2是根據(jù)本發(fā)明第二實(shí)施例的導(dǎo)航網(wǎng)頁(yè)的檢測(cè)方法的流程圖;以及
圖3是根據(jù)本發(fā)明實(shí)施例的導(dǎo)航網(wǎng)頁(yè)的檢測(cè)裝置的示意圖。
具體實(shí)施方式
需要說明的是,在不沖突的情況下,本申請(qǐng)中的實(shí)施例及實(shí)施例中的特征可以相互組合。下面將參考附圖并結(jié)合實(shí)施例來詳細(xì)說明本發(fā)明。
為了使本技術(shù)領(lǐng)域的人員更好地理解本申請(qǐng)方案,下面將結(jié)合本申請(qǐng)實(shí)施例中的附圖,對(duì)本申請(qǐng)實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本申請(qǐng)一部分的實(shí)施例,而不是全部的實(shí)施例?;诒旧暾?qǐng)中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都應(yīng)當(dāng)屬于本申請(qǐng)保護(hù)的范圍。
需要說明的是,本申請(qǐng)的說明書和權(quán)利要求書及上述附圖中的術(shù)語“第一”、“第二”等是用于區(qū)別類似的對(duì)象,而不必用于描述特定的順序或先后次序。應(yīng)該理解這樣使用的數(shù)據(jù)在適當(dāng)情況下可以互換,以便這里描述的本申請(qǐng)的實(shí)施例。此外,術(shù)語“包括”和“具有”以及他們的任何變形,意圖在于覆蓋不排他的包含,例如,包含了一系列步驟或單元的過程、方法、系統(tǒng)、產(chǎn)品或設(shè)備不必限于清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或?qū)τ谶@些過程、方法、產(chǎn)品或設(shè)備固有的其它步驟或單元。
下面根據(jù)本發(fā)明的實(shí)施例,提供了一種導(dǎo)航網(wǎng)頁(yè)的檢測(cè)方法。
圖1是根據(jù)本發(fā)明第一實(shí)施例的導(dǎo)航網(wǎng)頁(yè)的檢測(cè)方法的流程圖。如圖1所示,該方法包括如下的步驟:
步驟S102,確定待檢測(cè)網(wǎng)頁(yè)。
對(duì)于待檢測(cè)網(wǎng)頁(yè)來說,其有可能為導(dǎo)航網(wǎng)頁(yè)或者為其他類型的網(wǎng)頁(yè),如內(nèi)容網(wǎng)頁(yè)。該步驟中的待測(cè)試網(wǎng)頁(yè)可以為網(wǎng)絡(luò)爬蟲應(yīng)用中,被識(shí)別為導(dǎo)航網(wǎng)頁(yè)的網(wǎng)頁(yè)。由于根據(jù)一般的導(dǎo)航網(wǎng)頁(yè)算法識(shí)別出的導(dǎo)航網(wǎng)頁(yè)可能存在錯(cuò)誤,因此,根據(jù)本實(shí)施例的導(dǎo)航網(wǎng)頁(yè)的檢測(cè)方法可以將上述已識(shí)別出的網(wǎng)頁(yè)作為待檢測(cè)網(wǎng)頁(yè)。也即,該實(shí)施例可以作為 一種進(jìn)一步檢測(cè)導(dǎo)航網(wǎng)頁(yè)識(shí)別準(zhǔn)確性的方法。
步驟S104,獲取第一網(wǎng)頁(yè)內(nèi)容,其中,第一網(wǎng)頁(yè)內(nèi)容為待檢測(cè)網(wǎng)頁(yè)在第一時(shí)刻的網(wǎng)頁(yè)內(nèi)容。
步驟S106,獲取第二網(wǎng)頁(yè)內(nèi)容,其中,第二網(wǎng)頁(yè)內(nèi)容為待檢測(cè)網(wǎng)頁(yè)在第二時(shí)刻的網(wǎng)頁(yè)內(nèi)容。
第一網(wǎng)頁(yè)內(nèi)容和第二網(wǎng)頁(yè)內(nèi)容為待檢測(cè)網(wǎng)頁(yè)分別在不同時(shí)刻的網(wǎng)頁(yè)內(nèi)容。第一網(wǎng)頁(yè)內(nèi)容和第二網(wǎng)頁(yè)內(nèi)容可以是網(wǎng)絡(luò)爬蟲在第一時(shí)刻、第二時(shí)刻分別爬取待測(cè)試網(wǎng)頁(yè)獲取的網(wǎng)頁(yè)內(nèi)容。第一時(shí)刻和第二時(shí)刻之間的時(shí)間間隔為預(yù)先設(shè)定的時(shí)間間隔,比如一天或者一周等。由于不同的網(wǎng)頁(yè)更新的周期可能不同,因此,針對(duì)不同的檢測(cè)可以采取不同的設(shè)定第一時(shí)刻和第二時(shí)刻的方法。比如,對(duì)于新聞?lì)惖木W(wǎng)站來說,導(dǎo)航網(wǎng)頁(yè)往往每天都會(huì)更新,因此第一時(shí)刻可設(shè)置為當(dāng)前時(shí)刻,第二時(shí)刻設(shè)置為與當(dāng)前時(shí)刻間隔一天的時(shí)刻。
對(duì)于導(dǎo)航網(wǎng)頁(yè)而言,通常情況下網(wǎng)頁(yè)內(nèi)容是不斷更新的。因此,如果待檢測(cè)網(wǎng)頁(yè)為導(dǎo)航網(wǎng)頁(yè),則第一網(wǎng)頁(yè)內(nèi)容和第二網(wǎng)頁(yè)內(nèi)容往往是有差別的。而對(duì)于內(nèi)容網(wǎng)頁(yè)而言,通常情況下是不變,或者變化很小。因此,如果待檢測(cè)網(wǎng)頁(yè)為內(nèi)容網(wǎng)頁(yè),則第一網(wǎng)頁(yè)內(nèi)容和第二網(wǎng)頁(yè)內(nèi)容往往是沒有差別、或者是差別較小的。
步驟S108,將第一網(wǎng)頁(yè)內(nèi)容和第二網(wǎng)頁(yè)內(nèi)容進(jìn)行對(duì)比,得到第一內(nèi)容對(duì)比結(jié)果。
在該步驟中,通過將待檢測(cè)網(wǎng)頁(yè)不同時(shí)刻的網(wǎng)頁(yè)內(nèi)容進(jìn)行對(duì)比,可以獲取第一網(wǎng)頁(yè)內(nèi)容和第二網(wǎng)頁(yè)內(nèi)容之間的關(guān)系。如前所述,針對(duì)不同的類型的網(wǎng)頁(yè),第一網(wǎng)頁(yè)內(nèi)容和第二網(wǎng)頁(yè)內(nèi)容的對(duì)比結(jié)果往往是不同的,也即第一內(nèi)容對(duì)比結(jié)果可以表征待檢測(cè)網(wǎng)頁(yè)的類型特點(diǎn)。
步驟S110,根據(jù)第一內(nèi)容對(duì)比結(jié)果,判斷待檢測(cè)網(wǎng)頁(yè)是否為導(dǎo)航網(wǎng)頁(yè)。
由于第一網(wǎng)頁(yè)內(nèi)容和第二網(wǎng)頁(yè)內(nèi)容的對(duì)比結(jié)果可以表征待檢測(cè)網(wǎng)頁(yè)的類型特點(diǎn),因此可以根據(jù)上述對(duì)比結(jié)果對(duì)待檢測(cè)網(wǎng)頁(yè)是否為導(dǎo)航網(wǎng)頁(yè)進(jìn)行判斷。
例如,可以采用以下的方式判斷待檢測(cè)網(wǎng)頁(yè)是否為導(dǎo)航網(wǎng)頁(yè):將第一網(wǎng)頁(yè)內(nèi)容和第二網(wǎng)頁(yè)內(nèi)容進(jìn)行對(duì)比,獲取第一網(wǎng)頁(yè)內(nèi)容和第二網(wǎng)頁(yè)內(nèi)容中相同內(nèi)容的比例,將該比例與一個(gè)預(yù)設(shè)值進(jìn)行對(duì)比,如果該比例超過上述預(yù)設(shè)值,則確定該網(wǎng)頁(yè)不是導(dǎo)航網(wǎng)頁(yè);如果該比例未超過上述預(yù)設(shè)值,則確定該網(wǎng)頁(yè)為導(dǎo)航網(wǎng)頁(yè)。
另外,為了進(jìn)一步地提高檢測(cè)的準(zhǔn)確性,可以增加對(duì)同一待檢測(cè)網(wǎng)頁(yè)的檢測(cè)次數(shù),通過對(duì)多次檢測(cè)結(jié)果綜合進(jìn)行分析來判斷待檢測(cè)網(wǎng)頁(yè)是否為導(dǎo)航網(wǎng)頁(yè)。例如,可以獲取待檢測(cè)網(wǎng)頁(yè)當(dāng)前時(shí)刻的網(wǎng)頁(yè)內(nèi)容(第一網(wǎng)頁(yè)內(nèi)容)、一周以前的網(wǎng)頁(yè)內(nèi)容(第二網(wǎng)頁(yè) 內(nèi)容)以及兩周以前的網(wǎng)頁(yè)內(nèi)容(第三網(wǎng)頁(yè)內(nèi)容),通過將第一網(wǎng)頁(yè)內(nèi)容分別與第二網(wǎng)頁(yè)內(nèi)容和第三網(wǎng)頁(yè)內(nèi)容進(jìn)行對(duì)比,獲取第一網(wǎng)頁(yè)內(nèi)容與第二網(wǎng)頁(yè)內(nèi)容的重復(fù)內(nèi)容的比例(第一內(nèi)容比例),以及第一網(wǎng)頁(yè)內(nèi)容和第三網(wǎng)頁(yè)內(nèi)容的重復(fù)內(nèi)容的比例(第二內(nèi)容比例),將第一內(nèi)容比例和第二內(nèi)容比例的平均值與預(yù)設(shè)內(nèi)容比例參考值進(jìn)行比較,如果該平均值超過了預(yù)設(shè)內(nèi)容比例參考值,則確定該待檢測(cè)網(wǎng)頁(yè)不是導(dǎo)航網(wǎng)頁(yè),如果該平均值未超過預(yù)設(shè)內(nèi)容比例參考值,則確定該待檢測(cè)網(wǎng)頁(yè)為導(dǎo)航網(wǎng)頁(yè)。
需要說明的是,由于針對(duì)不同類型的導(dǎo)航網(wǎng)頁(yè)以及不同的準(zhǔn)確度的要求,可采取不同的方式來根據(jù)第一內(nèi)容對(duì)比結(jié)果判斷待檢測(cè)網(wǎng)頁(yè)是否為導(dǎo)航網(wǎng)頁(yè),因此,本發(fā)明不對(duì)根據(jù)第一內(nèi)容對(duì)比結(jié)果判斷待檢測(cè)網(wǎng)頁(yè)是否為導(dǎo)航網(wǎng)頁(yè)的具體方式進(jìn)行限定。
根據(jù)該實(shí)施例的導(dǎo)航網(wǎng)頁(yè)的檢測(cè)方法,由于包括:確定待檢測(cè)網(wǎng)頁(yè);獲取第一網(wǎng)頁(yè)內(nèi)容,其中,第一網(wǎng)頁(yè)內(nèi)容為待檢測(cè)網(wǎng)頁(yè)在第一時(shí)刻的網(wǎng)頁(yè)內(nèi)容;獲取第二網(wǎng)頁(yè)內(nèi)容,其中,第二網(wǎng)頁(yè)內(nèi)容為待檢測(cè)網(wǎng)頁(yè)在第二時(shí)刻的網(wǎng)頁(yè)內(nèi)容;將第一網(wǎng)頁(yè)內(nèi)容和第二網(wǎng)頁(yè)內(nèi)容進(jìn)行對(duì)比,得到第一內(nèi)容對(duì)比結(jié)果;以及根據(jù)第一內(nèi)容對(duì)比結(jié)果,判斷待檢測(cè)網(wǎng)頁(yè)是否為導(dǎo)航網(wǎng)頁(yè),解決了檢測(cè)導(dǎo)航網(wǎng)頁(yè)的準(zhǔn)確性差的問題,進(jìn)而通過將第一網(wǎng)頁(yè)內(nèi)容和第二網(wǎng)頁(yè)內(nèi)容進(jìn)行對(duì)比,得到第一內(nèi)容對(duì)比結(jié)果,并根據(jù)第一內(nèi)容對(duì)比結(jié)果判斷待檢測(cè)網(wǎng)頁(yè)是否為導(dǎo)航網(wǎng)頁(yè),達(dá)到了提高檢測(cè)導(dǎo)航網(wǎng)頁(yè)的準(zhǔn)確性的效果。
在一種優(yōu)選的實(shí)施例中,將第一網(wǎng)頁(yè)內(nèi)容和第二網(wǎng)頁(yè)內(nèi)容進(jìn)行對(duì)比,得到第一內(nèi)容對(duì)比結(jié)果包括:獲取第一鏈接集合,其中,第一鏈接集合為第一網(wǎng)頁(yè)內(nèi)容中包含的所有的網(wǎng)頁(yè)鏈接的集合;獲取第二鏈接集合,其中,第二鏈接集合為第二網(wǎng)頁(yè)內(nèi)容中包含的所有的網(wǎng)頁(yè)鏈接的集合;以及將第一鏈接集合和第二鏈接集合進(jìn)行對(duì)比,得到第一內(nèi)容對(duì)比結(jié)果。
由于網(wǎng)頁(yè)內(nèi)容中可能存在動(dòng)態(tài)加載的內(nèi)容,例如,動(dòng)態(tài)加載的天氣預(yù)報(bào)內(nèi)容等,這些內(nèi)容的存在會(huì)導(dǎo)致檢測(cè)準(zhǔn)確性的降低。對(duì)于導(dǎo)航網(wǎng)頁(yè)而言,其往往包含大量的網(wǎng)頁(yè)鏈接,并且這些網(wǎng)頁(yè)鏈接會(huì)進(jìn)行周期性更新;而對(duì)于內(nèi)容網(wǎng)頁(yè)來說,其包含的鏈接往往是固定不變或者有極少數(shù)發(fā)生變化的。因此,根據(jù)不同時(shí)刻待檢測(cè)網(wǎng)頁(yè)中包含的網(wǎng)頁(yè)鏈接的情況,可以對(duì)待檢測(cè)網(wǎng)頁(yè)是否為導(dǎo)航網(wǎng)頁(yè)進(jìn)行較為準(zhǔn)確地判斷。
例如,可以通過如下的方式根據(jù)第一內(nèi)容對(duì)比結(jié)果對(duì)待檢測(cè)網(wǎng)頁(yè)是否為導(dǎo)航網(wǎng)頁(yè)進(jìn)行判斷:判斷第一鏈接集合和第二鏈接集合中的網(wǎng)頁(yè)鏈接是否完全相同,如果完全相同則確定該待檢測(cè)網(wǎng)頁(yè)不是導(dǎo)航網(wǎng)頁(yè),如果不是完全相同,則確定該待檢測(cè)網(wǎng)頁(yè)為導(dǎo)航網(wǎng)頁(yè)。
由于某些內(nèi)容網(wǎng)頁(yè)中也會(huì)出現(xiàn)變化的鏈接,例如變化的廣告鏈接等,因此,為了提高檢測(cè)的準(zhǔn)確性,可以通過如下方式判斷待檢測(cè)網(wǎng)頁(yè)是否為導(dǎo)航網(wǎng)頁(yè):判斷第一鏈 接集合和第二鏈接集合中的相同的網(wǎng)頁(yè)鏈接的比例,將該比例值與預(yù)先設(shè)定的參考值進(jìn)行比較,如果比較結(jié)果為上述比例值超過了參考值,則確定該待檢測(cè)網(wǎng)頁(yè)不是導(dǎo)航網(wǎng)頁(yè),如果比較結(jié)果為上述比例值未超過參考值,則確定該待檢測(cè)網(wǎng)頁(yè)是導(dǎo)航網(wǎng)頁(yè)。
為了進(jìn)一步提高檢測(cè)的準(zhǔn)確度,可以增加對(duì)同一待檢測(cè)網(wǎng)頁(yè)的檢測(cè)次數(shù),通過對(duì)多次檢測(cè)結(jié)果綜合進(jìn)行分析來判斷待檢測(cè)網(wǎng)頁(yè)是否為導(dǎo)航網(wǎng)頁(yè)。例如,可以獲取待檢測(cè)網(wǎng)頁(yè)當(dāng)前時(shí)刻的網(wǎng)頁(yè)內(nèi)容(第一網(wǎng)頁(yè)內(nèi)容)、一周以前的網(wǎng)頁(yè)內(nèi)容(第二網(wǎng)頁(yè)內(nèi)容)以及兩周以前的網(wǎng)頁(yè)內(nèi)容(第三網(wǎng)頁(yè)內(nèi)容),通過將第一網(wǎng)頁(yè)內(nèi)容分別與第二網(wǎng)頁(yè)內(nèi)容和第三網(wǎng)頁(yè)內(nèi)容進(jìn)行對(duì)比,獲取第一網(wǎng)頁(yè)內(nèi)容與第二網(wǎng)頁(yè)內(nèi)容的重復(fù)鏈接的比例(第一鏈接比例),以及第一網(wǎng)頁(yè)內(nèi)容和第三網(wǎng)頁(yè)內(nèi)容的重復(fù)鏈接的比例(第二鏈接比例),將第一鏈接比例和第二鏈接比例的平均值與預(yù)設(shè)鏈接比例參考值進(jìn)行比較,如果該平均值超過了預(yù)設(shè)鏈接比例參考值,則確定該待檢測(cè)網(wǎng)頁(yè)不是導(dǎo)航網(wǎng)頁(yè),如果該平均值未超過預(yù)設(shè)鏈接比例參考值,則確定該待檢測(cè)網(wǎng)頁(yè)為導(dǎo)航網(wǎng)頁(yè)。
在一種優(yōu)選的實(shí)施例中,將第一鏈接集合和第二鏈接集合進(jìn)行對(duì)比,得到第一內(nèi)容對(duì)比結(jié)果包括:確定第一動(dòng)態(tài)變化鏈接,其中,第一動(dòng)態(tài)變化鏈接為第一鏈接集合中包含的動(dòng)態(tài)變化鏈接;確定第二動(dòng)態(tài)變化鏈接,其中,第二動(dòng)態(tài)變化鏈接為第二鏈接集合中包含的動(dòng)態(tài)變化鏈接;以及將第一子鏈接集合與第二子鏈接集合進(jìn)行對(duì)比,得到第一內(nèi)容對(duì)比結(jié)果,其中,第一子鏈接集合為第一鏈接集合中過濾掉第一動(dòng)態(tài)變化鏈接之后的網(wǎng)頁(yè)鏈接的集合,第二子鏈接集合為第二鏈接集合中過濾掉第二動(dòng)態(tài)變化鏈接之后的網(wǎng)頁(yè)鏈接的集合。
由于在一些網(wǎng)頁(yè)中可能包含動(dòng)態(tài)變化的網(wǎng)頁(yè)鏈接,例如,動(dòng)態(tài)變化的廣告鏈接,因此,將待檢測(cè)網(wǎng)頁(yè)中的動(dòng)態(tài)變化鏈接剔除可以提高導(dǎo)航網(wǎng)頁(yè)檢測(cè)的準(zhǔn)確性。在上述優(yōu)選實(shí)施例中,將第一鏈接集合和第二鏈接集合中的動(dòng)態(tài)變化鏈接過濾掉,對(duì)過濾后的第一鏈接集合和第二鏈接集合(即第一子鏈接集合和第二子鏈接集合)進(jìn)行對(duì)比,可以根據(jù)對(duì)比結(jié)果判斷待檢測(cè)網(wǎng)頁(yè)是否為導(dǎo)航網(wǎng)頁(yè)。
在上述實(shí)施例中,將第一子鏈接集合與第二子鏈接集合進(jìn)行對(duì)比,得到第一內(nèi)容對(duì)比結(jié)果包括如下的步驟:對(duì)第一子鏈接集合中包含的網(wǎng)頁(yè)鏈接和第二子鏈接集合中包含的網(wǎng)頁(yè)鏈接進(jìn)行對(duì)比,得到第一內(nèi)容對(duì)比結(jié)果,根據(jù)第一內(nèi)容對(duì)比結(jié)果,判斷待檢測(cè)網(wǎng)頁(yè)是否為導(dǎo)航網(wǎng)頁(yè)包括:如果第一內(nèi)容對(duì)比結(jié)果為第一子鏈接集合和第二子鏈接集合中包含的網(wǎng)頁(yè)鏈接相同,則確定待檢測(cè)網(wǎng)頁(yè)不是導(dǎo)航網(wǎng)頁(yè);以及如果第一內(nèi)容對(duì)比結(jié)果為第一子鏈接集合和第二子鏈接集合中存在不同的網(wǎng)頁(yè)鏈接,則確定待檢測(cè)網(wǎng)頁(yè)為導(dǎo)航網(wǎng)頁(yè)。
另外,為了進(jìn)一步提高檢測(cè)的準(zhǔn)確性,可以對(duì)待檢測(cè)網(wǎng)頁(yè)進(jìn)行多次檢測(cè),通過對(duì)多次檢測(cè)的檢測(cè)結(jié)果進(jìn)行綜合分析來判斷待檢測(cè)網(wǎng)頁(yè)是否為導(dǎo)航網(wǎng)頁(yè)。例如,可以采 用賦值的方式來進(jìn)行綜合分析。假設(shè)當(dāng)?shù)谝粌?nèi)容對(duì)比結(jié)果為第一子鏈接集合和第二子鏈接集合中包含的網(wǎng)頁(yè)鏈接相同,則賦予計(jì)數(shù)器數(shù)值-10,;當(dāng)?shù)谝粌?nèi)容對(duì)比結(jié)果為第一子鏈接集合和第二子鏈接集合中包含的網(wǎng)頁(yè)鏈接存在不同的網(wǎng)頁(yè)鏈接,則賦予計(jì)數(shù)器數(shù)值10。將第一時(shí)刻與第二時(shí)刻相對(duì)比,獲取相應(yīng)的第一內(nèi)容對(duì)比結(jié)果,根據(jù)第一內(nèi)容對(duì)比結(jié)果賦予計(jì)數(shù)器相應(yīng)的數(shù)值;將第三時(shí)刻與第四時(shí)刻相對(duì)比,獲取相應(yīng)的第一內(nèi)容對(duì)比結(jié)果,根據(jù)第一內(nèi)容對(duì)比結(jié)果賦予計(jì)數(shù)器相應(yīng)的數(shù)值。如此對(duì)計(jì)數(shù)器內(nèi)的數(shù)值進(jìn)行累加,當(dāng)檢測(cè)次數(shù)達(dá)到預(yù)設(shè)次數(shù)后,獲取最終計(jì)數(shù)器內(nèi)的累加值。將該累加值與一個(gè)預(yù)設(shè)值進(jìn)行對(duì)比,根據(jù)對(duì)比結(jié)果判斷該待測(cè)試網(wǎng)頁(yè)是否為導(dǎo)航網(wǎng)頁(yè)。
或者,也可以在第一內(nèi)容對(duì)比結(jié)果為第一子鏈接集合和第二子鏈接集合中包含的網(wǎng)頁(yè)鏈接相同時(shí),賦予計(jì)數(shù)器一個(gè)數(shù)值,在第一子鏈接集合和第二子鏈接集合中包含不同的網(wǎng)頁(yè)鏈接時(shí),不對(duì)計(jì)數(shù)器進(jìn)行賦值。這樣,當(dāng)計(jì)數(shù)器中的累加值超過一個(gè)預(yù)設(shè)值時(shí),則確定該待檢測(cè)網(wǎng)頁(yè)不是導(dǎo)航網(wǎng)頁(yè)。
在一種可選的實(shí)施例中,將第一鏈接集合和第二鏈接集合進(jìn)行對(duì)比,得到第一內(nèi)容對(duì)比結(jié)果包括:將第一鏈接集合中的網(wǎng)頁(yè)鏈接依次與第二鏈接集合中的網(wǎng)頁(yè)鏈接進(jìn)行對(duì)比,得到第一鏈接集合與第二鏈接集合中相同的網(wǎng)頁(yè)鏈接的個(gè)數(shù);確定目標(biāo)鏈接比,其中,目標(biāo)鏈接比為相同的網(wǎng)頁(yè)鏈接的個(gè)數(shù)與第一鏈接集合中包含的網(wǎng)頁(yè)鏈接的總數(shù)的比值;以及將目標(biāo)鏈接比和預(yù)設(shè)鏈接比進(jìn)行對(duì)比,得到第一內(nèi)容對(duì)比結(jié)果,根據(jù)第一內(nèi)容對(duì)比結(jié)果,判斷待檢測(cè)網(wǎng)頁(yè)是否為導(dǎo)航網(wǎng)頁(yè)包括:如果第一內(nèi)容對(duì)比結(jié)果為目標(biāo)鏈接比大于預(yù)設(shè)鏈接比,則確定待檢測(cè)網(wǎng)頁(yè)不是導(dǎo)航網(wǎng)頁(yè),如果第一內(nèi)容對(duì)比結(jié)果為目標(biāo)鏈接比不大于預(yù)設(shè)鏈接比,則確定待檢測(cè)網(wǎng)頁(yè)為導(dǎo)航網(wǎng)頁(yè)。
需要說明的是,為了提高檢測(cè)的準(zhǔn)確度,可以按照上述實(shí)施例多次對(duì)待檢測(cè)網(wǎng)頁(yè)進(jìn)行檢測(cè),并將多次檢測(cè)結(jié)果進(jìn)行綜合分析,以判斷待檢測(cè)網(wǎng)頁(yè)是否為導(dǎo)航網(wǎng)頁(yè)。例如,假設(shè)預(yù)設(shè)鏈接比為90%,如果目標(biāo)鏈接比大于90%,則賦予計(jì)數(shù)器10,如果計(jì)數(shù)器中累加值超過60,則確定待檢測(cè)網(wǎng)頁(yè)不是導(dǎo)航網(wǎng)頁(yè)。假設(shè)第1次至第7次檢測(cè)的目標(biāo)鏈接比分別為98%、96%、91%、98%、92%、98%以及96%,計(jì)數(shù)器七次累加的數(shù)值為70,超過了60,因此,可確定該待檢測(cè)網(wǎng)頁(yè)不是導(dǎo)航網(wǎng)頁(yè)。
在一種優(yōu)選的實(shí)施例中,根據(jù)第一內(nèi)容對(duì)比結(jié)果,判斷待檢測(cè)網(wǎng)頁(yè)是否為導(dǎo)航網(wǎng)頁(yè)之前,該方法還包括:獲取第三網(wǎng)頁(yè)內(nèi)容,其中,第三網(wǎng)頁(yè)內(nèi)容為待檢測(cè)網(wǎng)頁(yè)在第三時(shí)刻的網(wǎng)頁(yè)內(nèi)容;以及將第一網(wǎng)頁(yè)內(nèi)容和第三網(wǎng)頁(yè)內(nèi)容進(jìn)行對(duì)比,得到第二內(nèi)容對(duì)比結(jié)果,根據(jù)第一內(nèi)容對(duì)比結(jié)果,判斷待檢測(cè)網(wǎng)頁(yè)是否為導(dǎo)航網(wǎng)頁(yè)包括:根據(jù)第一內(nèi)容對(duì)比結(jié)果和第二內(nèi)容對(duì)比結(jié)果,判斷待檢測(cè)網(wǎng)頁(yè)是否為導(dǎo)航網(wǎng)頁(yè)。
在該優(yōu)選實(shí)施例中,通過綜合考慮第一網(wǎng)頁(yè)內(nèi)容和第二網(wǎng)頁(yè)內(nèi)容的對(duì)比結(jié)果,以及第一網(wǎng)頁(yè)內(nèi)容和第三網(wǎng)頁(yè)內(nèi)容的對(duì)比結(jié)果,可以提高判斷待檢測(cè)網(wǎng)頁(yè)是否為導(dǎo)航網(wǎng) 頁(yè)的準(zhǔn)確性。針對(duì)不同的檢測(cè)準(zhǔn)確度的要求,可以根據(jù)第一內(nèi)容對(duì)比結(jié)果和第二內(nèi)容對(duì)比結(jié)果采取不同的方法判斷待檢測(cè)網(wǎng)頁(yè)是否為導(dǎo)航網(wǎng)頁(yè)。例如,可以獲取第一網(wǎng)頁(yè)內(nèi)容和第二網(wǎng)頁(yè)內(nèi)容的相同內(nèi)容的比例,以及第一網(wǎng)頁(yè)內(nèi)容和第三網(wǎng)頁(yè)內(nèi)容的比例,將兩次檢測(cè)求取的比例的平均值與一個(gè)預(yù)設(shè)值進(jìn)行比較,以判斷待檢測(cè)網(wǎng)頁(yè)是否為導(dǎo)航網(wǎng)頁(yè)。
需要說明的是,本發(fā)明不對(duì)檢測(cè)次數(shù)進(jìn)行具體的限定。為了提高檢測(cè)的準(zhǔn)確度,可以進(jìn)行多次的檢測(cè)。例如,假設(shè)進(jìn)行檢測(cè)的周期為第一預(yù)設(shè)時(shí)間間隔,每次提取的兩個(gè)網(wǎng)頁(yè)內(nèi)容分別為:當(dāng)前時(shí)刻的待檢測(cè)網(wǎng)頁(yè)的網(wǎng)頁(yè)內(nèi)容;與當(dāng)前時(shí)刻間隔第二預(yù)設(shè)時(shí)間間隔的待檢測(cè)網(wǎng)頁(yè)的網(wǎng)頁(yè)內(nèi)容。通過記錄每次檢測(cè)的網(wǎng)頁(yè)內(nèi)容對(duì)比結(jié)果,并對(duì)多次網(wǎng)頁(yè)內(nèi)容對(duì)比結(jié)果進(jìn)行綜合分析,可以較為準(zhǔn)確地判斷待檢測(cè)網(wǎng)頁(yè)是否為導(dǎo)航網(wǎng)頁(yè)。
圖2是根據(jù)本發(fā)明第二實(shí)施例的導(dǎo)航網(wǎng)頁(yè)的檢測(cè)方法的流程圖。該實(shí)施例可以作為圖1所示實(shí)施例的一種優(yōu)選實(shí)施方式。如圖2所示,該方法包括如下的步驟:
步驟S202,確定待檢測(cè)網(wǎng)頁(yè),其中,待檢測(cè)網(wǎng)頁(yè)為利用導(dǎo)航列表算法識(shí)別出的所有的導(dǎo)航列表頁(yè)。
該實(shí)施例可以應(yīng)用于網(wǎng)絡(luò)爬蟲的應(yīng)用中,對(duì)于網(wǎng)絡(luò)爬蟲爬取出的導(dǎo)航網(wǎng)頁(yè)進(jìn)行二次檢測(cè),以判斷已被識(shí)別為導(dǎo)航網(wǎng)頁(yè)的網(wǎng)頁(yè)是否真的為導(dǎo)航網(wǎng)頁(yè)。在該步驟S202中,待檢測(cè)網(wǎng)頁(yè)為利用導(dǎo)航列表算法識(shí)別出的導(dǎo)航網(wǎng)頁(yè),這些導(dǎo)航網(wǎng)頁(yè)可能確實(shí)為導(dǎo)航網(wǎng)頁(yè),也可能是被導(dǎo)航列表算法誤判為導(dǎo)航網(wǎng)頁(yè)的內(nèi)容網(wǎng)頁(yè)。
步驟S204,確定預(yù)設(shè)時(shí)間間隔。
由于對(duì)于一個(gè)網(wǎng)站而言,鏈接的更新主要發(fā)生在導(dǎo)航網(wǎng)頁(yè)中,內(nèi)容網(wǎng)頁(yè)中的鏈接幾乎是不變化的,因此,在網(wǎng)絡(luò)爬蟲應(yīng)用中定期爬取的通常為導(dǎo)航網(wǎng)頁(yè)。根據(jù)不同類型的導(dǎo)航網(wǎng)頁(yè)鏈接更新的周期的不同,可以設(shè)定不同的預(yù)設(shè)時(shí)間間隔。例如,對(duì)于一些新聞?lì)惖膶?dǎo)航網(wǎng)頁(yè)通常每天都會(huì)更新,因此可以設(shè)定預(yù)設(shè)時(shí)間間隔為至少一天。
步驟S206,獲取待檢測(cè)網(wǎng)頁(yè)的當(dāng)前網(wǎng)頁(yè)內(nèi)容,和與當(dāng)前時(shí)刻間隔預(yù)設(shè)時(shí)間間隔的網(wǎng)頁(yè)內(nèi)容。
由于已預(yù)先設(shè)定了預(yù)設(shè)時(shí)間間隔,因此,可以按照該預(yù)設(shè)時(shí)間間隔獲取待檢測(cè)網(wǎng)頁(yè)分別在兩個(gè)時(shí)刻的網(wǎng)頁(yè)內(nèi)容。
步驟S208,利用鏈接提取模塊提取出兩個(gè)網(wǎng)頁(yè)內(nèi)容中的鏈接。
在該步驟中,鏈接提取模塊用于從獲取的網(wǎng)頁(yè)內(nèi)容中提取網(wǎng)頁(yè)鏈接。
步驟S210,判斷兩個(gè)網(wǎng)頁(yè)內(nèi)容中的鏈接是否相同。
由于網(wǎng)頁(yè)中有時(shí)會(huì)存在動(dòng)態(tài)加載、動(dòng)態(tài)的天氣預(yù)報(bào)等動(dòng)態(tài)信息,造成網(wǎng)頁(yè)內(nèi)容的變化,因此,采用對(duì)網(wǎng)頁(yè)鏈接進(jìn)行對(duì)比的方式,可以在一定程度上提高檢測(cè)的準(zhǔn)確度。另外,對(duì)于上述鏈接提取模塊提取出的鏈接,也可以預(yù)先剔除其中包含的動(dòng)態(tài)變化的鏈接,以進(jìn)一步提高檢測(cè)準(zhǔn)確性。
步驟S212,如果判斷出兩個(gè)網(wǎng)頁(yè)內(nèi)容中的鏈接相同,則賦予計(jì)數(shù)器第一預(yù)設(shè)值,并進(jìn)行累計(jì)。
如果判斷出兩個(gè)網(wǎng)頁(yè)內(nèi)容中的鏈接相同,則確定待檢測(cè)網(wǎng)頁(yè)不是導(dǎo)航網(wǎng)頁(yè)的概率增加。此時(shí),計(jì)數(shù)器增加第一預(yù)設(shè)值(執(zhí)行判斷之前,設(shè)定計(jì)數(shù)器內(nèi)的值為0)。
步驟S214,判斷累計(jì)值是否超過第二預(yù)設(shè)值。
每對(duì)待檢測(cè)網(wǎng)頁(yè)進(jìn)行一次檢測(cè),則在計(jì)數(shù)器中增加第一預(yù)設(shè)值,并判斷計(jì)數(shù)器中的值是否超過第二預(yù)設(shè)值。這里的第二預(yù)設(shè)值是預(yù)先設(shè)定的確定待檢測(cè)網(wǎng)頁(yè)不是導(dǎo)航網(wǎng)頁(yè)的閾值。
步驟S216,如果判斷出累計(jì)值超過第二預(yù)設(shè)值,則確定待檢測(cè)網(wǎng)頁(yè)不是導(dǎo)航網(wǎng)頁(yè)。
如果判斷出累計(jì)值未超過第二預(yù)設(shè)值,則獲取待檢測(cè)網(wǎng)頁(yè)的當(dāng)前網(wǎng)頁(yè)內(nèi)容,以及與當(dāng)前時(shí)刻間隔預(yù)設(shè)時(shí)間的網(wǎng)頁(yè)內(nèi)容,并繼續(xù)執(zhí)行后續(xù)的步驟,直到累加值超過了第二預(yù)設(shè)值,即可確定待檢測(cè)網(wǎng)頁(yè)為導(dǎo)航網(wǎng)頁(yè)。
需要說明的是,針對(duì)一個(gè)待檢測(cè)網(wǎng)頁(yè)的檢測(cè)過程在計(jì)數(shù)器中的累加值超過第二預(yù)設(shè)值時(shí)結(jié)束,或者也可以預(yù)先設(shè)定檢測(cè)次數(shù),當(dāng)檢測(cè)次數(shù)達(dá)到預(yù)設(shè)檢測(cè)次數(shù)時(shí),如果計(jì)數(shù)器中累加值未超過第二預(yù)設(shè)值,則確定待檢測(cè)網(wǎng)頁(yè)為導(dǎo)航網(wǎng)頁(yè)。
根據(jù)該實(shí)施例的導(dǎo)航網(wǎng)頁(yè)的檢測(cè)方法,由于包括上述的步驟S202至步驟S216,解決了導(dǎo)航網(wǎng)頁(yè)的檢測(cè)準(zhǔn)確性較差的問題,進(jìn)而根據(jù)預(yù)先設(shè)置的時(shí)間間隔對(duì)待檢測(cè)網(wǎng)頁(yè)進(jìn)行周期性檢測(cè),從而可以從待檢測(cè)網(wǎng)頁(yè)中檢測(cè)出先前識(shí)別錯(cuò)誤的網(wǎng)頁(yè),在后續(xù)的爬蟲應(yīng)用中將極大地提升爬取速度;另外,對(duì)檢測(cè)出的導(dǎo)航網(wǎng)頁(yè)進(jìn)行爬取時(shí),可以按照計(jì)數(shù)器中數(shù)值從低至高的順序?qū)Υ龣z測(cè)網(wǎng)頁(yè)依次進(jìn)行爬取,該方法可以更好地保證重要頁(yè)面的爬取時(shí)間。
需要說明的是,在附圖的流程圖示出的步驟可以在諸如一組計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)系統(tǒng)中執(zhí)行,并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。
下面根據(jù)本發(fā)明的實(shí)施例,提供了一種導(dǎo)航網(wǎng)頁(yè)的檢測(cè)裝置。
需要說明的是,根據(jù)本發(fā)明實(shí)施例的導(dǎo)航網(wǎng)頁(yè)的檢測(cè)裝置可以用于執(zhí)行根據(jù)本發(fā) 明實(shí)施例的導(dǎo)航網(wǎng)頁(yè)的檢測(cè)方法,根據(jù)本發(fā)明實(shí)施例的導(dǎo)航網(wǎng)頁(yè)的檢測(cè)方法也可以通過根據(jù)本發(fā)明實(shí)施例的導(dǎo)航網(wǎng)頁(yè)的檢測(cè)裝置來執(zhí)行。
圖3是根據(jù)本發(fā)明實(shí)施例的導(dǎo)航網(wǎng)頁(yè)的檢測(cè)裝置的示意圖。如圖3所示,該裝置包括:確定單元10、第一獲取單元20、第二獲取單元30、對(duì)比單元40和判斷單元50。
確定單元10,用于確定待檢測(cè)網(wǎng)頁(yè)。
第一獲取單元20,用于獲取第一網(wǎng)頁(yè)內(nèi)容,其中,第一網(wǎng)頁(yè)內(nèi)容為待檢測(cè)網(wǎng)頁(yè)在第一時(shí)刻的網(wǎng)頁(yè)內(nèi)容。
第二獲取單元30,用于獲取第二網(wǎng)頁(yè)內(nèi)容,其中,第二網(wǎng)頁(yè)內(nèi)容為待檢測(cè)網(wǎng)頁(yè)在第二時(shí)刻的網(wǎng)頁(yè)內(nèi)容。
對(duì)比單元40,用于將第一網(wǎng)頁(yè)內(nèi)容和第二網(wǎng)頁(yè)內(nèi)容進(jìn)行對(duì)比,得到第一內(nèi)容對(duì)比結(jié)果。
判斷單元50,用于根據(jù)第一內(nèi)容對(duì)比結(jié)果,判斷待檢測(cè)網(wǎng)頁(yè)是否為導(dǎo)航網(wǎng)頁(yè)。
根據(jù)該實(shí)施例的導(dǎo)航網(wǎng)頁(yè)的檢測(cè)裝置,由于包括:確定單元10,用于確定待檢測(cè)網(wǎng)頁(yè);第一獲取單元20,用于獲取第一網(wǎng)頁(yè)內(nèi)容,其中,第一網(wǎng)頁(yè)內(nèi)容為待檢測(cè)網(wǎng)頁(yè)在第一時(shí)刻的網(wǎng)頁(yè)內(nèi)容;第二獲取單元30,用于獲取第二網(wǎng)頁(yè)內(nèi)容,其中,第二網(wǎng)頁(yè)內(nèi)容為待檢測(cè)網(wǎng)頁(yè)在第二時(shí)刻的網(wǎng)頁(yè)內(nèi)容;對(duì)比單元40,用于將第一網(wǎng)頁(yè)內(nèi)容和第二網(wǎng)頁(yè)內(nèi)容進(jìn)行對(duì)比,得到第一內(nèi)容對(duì)比結(jié)果;以及判斷單元50,用于根據(jù)第一內(nèi)容對(duì)比結(jié)果,判斷待檢測(cè)網(wǎng)頁(yè)是否為導(dǎo)航網(wǎng)頁(yè),解決了檢測(cè)導(dǎo)航網(wǎng)頁(yè)的準(zhǔn)確性差的問題,進(jìn)而通過對(duì)比單元40將第一網(wǎng)頁(yè)內(nèi)容和第二網(wǎng)頁(yè)內(nèi)容進(jìn)行對(duì)比,得到第一內(nèi)容對(duì)比結(jié)果,并通過判斷單元50基于第一內(nèi)容對(duì)比結(jié)果判斷待檢測(cè)網(wǎng)頁(yè)是否為導(dǎo)航網(wǎng)頁(yè),達(dá)到了提高檢測(cè)導(dǎo)航網(wǎng)頁(yè)的準(zhǔn)確性的效果。
在一種優(yōu)選的實(shí)施例中,對(duì)比單元40包括:第一獲取模塊,用于獲取第一鏈接集合,其中,第一鏈接集合為第一網(wǎng)頁(yè)內(nèi)容中包含的所有的網(wǎng)頁(yè)鏈接的集合;第二獲取模塊,用于獲取第二鏈接集合,其中,第二鏈接集合為第二網(wǎng)頁(yè)內(nèi)容中包含的所有的網(wǎng)頁(yè)鏈接的集合;以及對(duì)比模塊,用于將第一鏈接集合和第二鏈接集合進(jìn)行對(duì)比,得到第一內(nèi)容對(duì)比結(jié)果。
在一種可選的實(shí)施例中,對(duì)比模塊包括:第一確定子模塊,用于確定第一動(dòng)態(tài)變化鏈接,其中,第一動(dòng)態(tài)變化鏈接為第一鏈接集合中包含的動(dòng)態(tài)變化鏈接;第二確定子模塊,用于確定第二動(dòng)態(tài)變化鏈接,其中,第二動(dòng)態(tài)變化鏈接為第二鏈接集合中包含的動(dòng)態(tài)變化鏈接;以及第一對(duì)比子模塊,用于將第一子鏈接集合與第二子鏈接集合進(jìn)行對(duì)比,得到第一內(nèi)容對(duì)比結(jié)果,其中,第一子鏈接集合為第一鏈接集合中過濾掉 第一動(dòng)態(tài)變化鏈接之后的網(wǎng)頁(yè)鏈接的集合,第二子鏈接集合為第二鏈接集合中過濾掉第二動(dòng)態(tài)變化鏈接之后的網(wǎng)頁(yè)鏈接的集合。
在一種可選的實(shí)施例中,對(duì)比模塊包括:第二對(duì)比子模塊,用于將第一鏈接集合中的網(wǎng)頁(yè)鏈接依次與第二鏈接集合中的網(wǎng)頁(yè)鏈接進(jìn)行對(duì)比,得到第一鏈接集合與第二鏈接集合中相同的網(wǎng)頁(yè)鏈接的個(gè)數(shù);第三確定子模塊,用于確定目標(biāo)鏈接比,其中,目標(biāo)鏈接比為相同的網(wǎng)頁(yè)鏈接的個(gè)數(shù)與第一鏈接集合中包含的網(wǎng)頁(yè)鏈接的總數(shù)的比值;以及第三對(duì)比子模塊,用于將目標(biāo)鏈接比和預(yù)設(shè)鏈接比進(jìn)行對(duì)比,得到第一內(nèi)容對(duì)比結(jié)果,判斷單元50包括:第一確定模塊,用于在第一內(nèi)容對(duì)比結(jié)果為目標(biāo)鏈接比大于預(yù)設(shè)鏈接比時(shí),確定待檢測(cè)網(wǎng)頁(yè)不是導(dǎo)航網(wǎng)頁(yè);以及第二確定模塊,用于在第一內(nèi)容對(duì)比結(jié)果為目標(biāo)鏈接比不大于預(yù)設(shè)鏈接比時(shí),確定待檢測(cè)網(wǎng)頁(yè)為導(dǎo)航網(wǎng)頁(yè)。
顯然,本領(lǐng)域的技術(shù)人員應(yīng)該明白,上述的本發(fā)明的各模塊或各步驟可以用通用的計(jì)算裝置來實(shí)現(xiàn),它們可以集中在單個(gè)的計(jì)算裝置上,或者分布在多個(gè)計(jì)算裝置所組成的網(wǎng)絡(luò)上,可選地,它們可以用計(jì)算裝置可執(zhí)行的程序代碼來實(shí)現(xiàn),從而,可以將它們存儲(chǔ)在存儲(chǔ)裝置中由計(jì)算裝置來執(zhí)行,或者將它們分別制作成各個(gè)集成電路模塊,或者將它們中的多個(gè)模塊或步驟制作成單個(gè)集成電路模塊來實(shí)現(xiàn)。這樣,本發(fā)明不限制于任何特定的硬件和軟件結(jié)合。
以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,對(duì)于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。