本發(fā)明涉及爬蟲識(shí)別領(lǐng)域,具體而言,涉及一種搜索引擎爬蟲的識(shí)別、處理方法及裝置。
背景技術(shù):
目前,云計(jì)算的發(fā)展趨勢(shì)迅猛,日益被大眾所熟知并接受,企業(yè)也逐漸將各類應(yīng)用、網(wǎng)站、服務(wù)遷移到云服務(wù)商提供的云計(jì)算環(huán)境。同時(shí),通過(guò)爬蟲程序訪問(wèn)web頁(yè)面,從網(wǎng)絡(luò)上獲取數(shù)據(jù)的現(xiàn)象越來(lái)越普遍。
爬蟲既有來(lái)自傳統(tǒng)的搜索引擎,也有來(lái)自其他渠道的爬蟲,盡管云環(huán)境中的很多網(wǎng)站,希望允許搜索引擎的爬蟲訪問(wèn),以擴(kuò)大知名度,引來(lái)更多的用戶訪問(wèn),但是由于存在來(lái)自其他渠道的爬蟲,例如一些爬蟲訪問(wèn)僅僅用于自身目的,對(duì)網(wǎng)站沒有貢獻(xiàn),但卻占用網(wǎng)站的大量網(wǎng)絡(luò)帶寬和服務(wù)資源,對(duì)網(wǎng)站造成壓力,同時(shí)還有可能影響正常用戶的訪問(wèn),因而,需要對(duì)搜索引擎爬蟲進(jìn)行識(shí)別,以能夠阻斷非搜索引擎的訪問(wèn),降低資源消耗。
而目前,針對(duì)搜索引擎爬蟲的識(shí)別,主要存在兩種方案:第一種方案是根據(jù)http請(qǐng)求中的用戶代理(UserAgent)來(lái)識(shí)別,第二種方案是根據(jù)源ip地址來(lái)識(shí)別。對(duì)于現(xiàn)有技術(shù)中的這個(gè)兩種識(shí)別方式都存在一定程度的缺陷,比如:對(duì)于第一種方案,由于http請(qǐng)求是由訪問(wèn)者構(gòu)造的,UA(UserAgent)可以隨意指定,惡意爬蟲也可以將自己的訪問(wèn)設(shè)置成搜索引擎的UA,繞過(guò)檢測(cè),存在漏報(bào)的問(wèn)題;對(duì)于第二種方案,盡管該方案可能不容易出現(xiàn)漏報(bào)的問(wèn)題,但由于爬蟲來(lái)源ip可能發(fā)生變化,然而一旦發(fā)生變化,如果后臺(tái)不及時(shí)更新,就會(huì)出現(xiàn)誤檢情況。
針對(duì)現(xiàn)有技術(shù)中的搜索引擎爬蟲識(shí)別方法存在漏報(bào)、誤檢的問(wèn)題,目前尚未提出有效的解決方案。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明實(shí)施例提供了一種搜索引擎爬蟲的識(shí)別、處理方法及裝置,以至少解決相關(guān)技術(shù)中由于搜索引擎爬蟲識(shí)別存在的漏報(bào)、誤檢測(cè)等導(dǎo)致的準(zhǔn)確性和可靠性不高的技術(shù)問(wèn)題。
根據(jù)本發(fā)明實(shí)施例的一個(gè)方面,提供了一種搜索引擎爬蟲的識(shí)別方法,包括:獲取客戶端在統(tǒng)計(jì)周期的各個(gè)統(tǒng)計(jì)時(shí)間段內(nèi)對(duì)多個(gè)網(wǎng)站進(jìn)行訪問(wèn)后統(tǒng)計(jì)得到的統(tǒng)計(jì)數(shù)據(jù),其中,各個(gè)統(tǒng)計(jì)時(shí)間段組成統(tǒng)計(jì)周期;對(duì)統(tǒng)計(jì)數(shù)據(jù)中與指定統(tǒng)計(jì)參數(shù)對(duì)應(yīng)的數(shù)據(jù)進(jìn)行預(yù)處理,得到統(tǒng)計(jì)值,其中,該統(tǒng)計(jì)值用于反映在所述各個(gè)統(tǒng)計(jì)時(shí)間段內(nèi)針對(duì)所述客戶端的訪問(wèn)行為的統(tǒng)計(jì)結(jié)果,指定統(tǒng)計(jì)參數(shù)用于反映統(tǒng)計(jì)數(shù)據(jù)的相同統(tǒng)計(jì)特征;在每個(gè)指定統(tǒng)計(jì)參數(shù)對(duì)應(yīng)的統(tǒng)計(jì)值均大于預(yù)設(shè)閾值時(shí),確定客戶端對(duì)網(wǎng)站的訪問(wèn)行為為搜索引擎爬蟲訪問(wèn)。
根據(jù)本發(fā)明實(shí)施例的另一方面,還提供了一種搜索引擎爬蟲的識(shí)別裝置,包括:獲取模塊,用于獲取客戶端在統(tǒng)計(jì)周期的各個(gè)統(tǒng)計(jì)時(shí)間段內(nèi)對(duì)多個(gè)網(wǎng)站進(jìn)行訪問(wèn)后統(tǒng)計(jì)得到的統(tǒng)計(jì)數(shù)據(jù),其中,各個(gè)統(tǒng)計(jì)時(shí)間段組成統(tǒng)計(jì)周期;預(yù)處理模塊,用于對(duì)統(tǒng)計(jì)數(shù)據(jù)中與指定統(tǒng)計(jì)參數(shù)對(duì)應(yīng)的數(shù)據(jù)進(jìn)行預(yù)處理,得到統(tǒng)計(jì)值,其中,該統(tǒng)計(jì)值用于反映在所述各個(gè)統(tǒng)計(jì)時(shí)間段內(nèi)針對(duì)所述客戶端的訪問(wèn)行為的統(tǒng)計(jì)結(jié)果,指定統(tǒng)計(jì)參數(shù)用于反映統(tǒng)計(jì)數(shù)據(jù)的相同統(tǒng)計(jì)特征;識(shí)別模塊,用于在每個(gè)指定統(tǒng)計(jì)參數(shù)對(duì)應(yīng)的統(tǒng)計(jì)值均大于預(yù)設(shè)閾值時(shí),確定客戶端的訪問(wèn)過(guò)程為搜索引擎爬蟲訪問(wèn)。
根據(jù)本發(fā)明實(shí)施例的又一方面,還提供了一種搜索引擎爬蟲的處理方法,包括:獲取客戶端在統(tǒng)計(jì)周期的各個(gè)統(tǒng)計(jì)時(shí)間段內(nèi)對(duì)多個(gè)網(wǎng)站進(jìn)行訪問(wèn)后統(tǒng)計(jì)得到的統(tǒng)計(jì)數(shù)據(jù),其中,所述各個(gè)統(tǒng)計(jì)時(shí)間段組成所述統(tǒng)計(jì)周期;對(duì)所述統(tǒng)計(jì)數(shù)據(jù)中與指定統(tǒng)計(jì)參數(shù)對(duì)應(yīng)的數(shù)據(jù)進(jìn)行預(yù)處理,得到統(tǒng)計(jì)值,其中,該統(tǒng)計(jì)值用于反映在所述各個(gè)統(tǒng)計(jì)時(shí)間段內(nèi)針對(duì)所述客戶端的訪問(wèn)行為的統(tǒng)計(jì)結(jié)果,所述指定統(tǒng)計(jì)參數(shù)用于反映所述統(tǒng)計(jì)數(shù)據(jù)的相同統(tǒng)計(jì)特征;在每個(gè)所述指定統(tǒng)計(jì)參數(shù)對(duì)應(yīng)的統(tǒng)計(jì)值均大于預(yù)設(shè)閾值時(shí),確定所述客戶端對(duì)所述網(wǎng)站的訪問(wèn)行為為搜索引擎爬蟲訪問(wèn);根據(jù)與所述網(wǎng)站對(duì)應(yīng)的安全策略對(duì)所述搜索引擎爬蟲訪問(wèn)進(jìn)行放行或攔截。
根據(jù)本發(fā)明實(shí)施例的再一方面,還提供了一種搜索引擎爬蟲的處理裝置,包括:獲取模塊,用于獲取客戶端在統(tǒng)計(jì)周期的各個(gè)統(tǒng)計(jì)時(shí)間段內(nèi)對(duì)多個(gè)網(wǎng)站進(jìn)行訪問(wèn)后統(tǒng)計(jì)得到的統(tǒng)計(jì)數(shù)據(jù),其中,所述各個(gè)統(tǒng)計(jì)時(shí)間段組成所述統(tǒng)計(jì)周期;預(yù)處理模塊,用于對(duì)所述統(tǒng)計(jì)數(shù)據(jù)中與指定統(tǒng)計(jì)參數(shù)對(duì)應(yīng)的數(shù)據(jù)進(jìn)行預(yù)處理,得到統(tǒng)計(jì)值,其中,該統(tǒng)計(jì)值用于反映在所述各個(gè)統(tǒng)計(jì)時(shí)間段內(nèi)針對(duì)所述客戶端的訪問(wèn)行為的統(tǒng)計(jì)結(jié)果,所述指定統(tǒng)計(jì)參數(shù)用于反映所述統(tǒng)計(jì)數(shù)據(jù)的相同統(tǒng)計(jì)特征;
識(shí)別模塊,用于在每個(gè)所述指定統(tǒng)計(jì)參數(shù)對(duì)應(yīng)的統(tǒng)計(jì)值均大于預(yù)設(shè)閾值時(shí),確定所述客戶端的訪問(wèn)過(guò)程為搜索引擎爬蟲訪問(wèn);
處理模塊,用于根據(jù)與所述網(wǎng)站對(duì)應(yīng)的安全策略對(duì)所述搜索引擎爬蟲訪問(wèn)進(jìn)行放行或攔截。
在本發(fā)明實(shí)施例中,采用獲取客戶端在統(tǒng)計(jì)周期的各個(gè)統(tǒng)計(jì)時(shí)間段內(nèi)對(duì)云服務(wù)商下網(wǎng)站進(jìn)行訪問(wèn)的統(tǒng)計(jì)數(shù)據(jù),并在統(tǒng)計(jì)數(shù)據(jù)中與指定參數(shù)對(duì)應(yīng)的數(shù)據(jù)的統(tǒng)計(jì)值大于預(yù)設(shè)閾值時(shí),確定當(dāng)前對(duì)網(wǎng)站的行為為搜索引擎爬蟲訪問(wèn)的方式,實(shí)現(xiàn)了對(duì)搜索引擎爬蟲準(zhǔn)確可靠地識(shí)別的技術(shù)效果,進(jìn)而解決相關(guān)技術(shù)中由于搜索引擎爬蟲識(shí)別存在的漏報(bào)、誤檢測(cè)等導(dǎo)致的準(zhǔn)確性和可靠性不高等技術(shù)問(wèn)題。
附圖說(shuō)明
此處所說(shuō)明的附圖用來(lái)提供對(duì)本發(fā)明的進(jìn)一步理解,構(gòu)成本申請(qǐng)的一部分,本發(fā)明的示意性實(shí)施例及其說(shuō)明用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中:
圖1是本發(fā)明實(shí)施例的一種搜索引擎爬蟲的識(shí)別方法的計(jì)算機(jī)終端的硬件結(jié)構(gòu)框圖;
圖2是根據(jù)本發(fā)明實(shí)施例的一種可選的搜索引擎爬蟲的識(shí)別方法的示意圖;
圖3是根據(jù)本發(fā)明實(shí)施例的一種搜索引擎爬蟲的識(shí)別裝置的結(jié)構(gòu)框圖;
圖4是根據(jù)本發(fā)明實(shí)施例的一種可選的搜索引擎爬蟲的識(shí)別裝置的結(jié)構(gòu)框圖;
圖5是根據(jù)本發(fā)明實(shí)施例的一種可選的搜索引擎爬蟲的處理方法的示意圖;
圖6是根據(jù)本發(fā)明實(shí)施例的一種搜索引擎爬蟲的處理裝置的結(jié)構(gòu)框圖;
圖7是根據(jù)本發(fā)明實(shí)施例的一種可選的搜索引擎爬蟲的處理裝置的結(jié)構(gòu)框圖;
圖8是根據(jù)本發(fā)明實(shí)施例的一種計(jì)算機(jī)終端的結(jié)構(gòu)框圖。
具體實(shí)施方式
為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明方案,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分的實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都應(yīng)當(dāng)屬于本發(fā)明保護(hù)的范圍。
需要說(shuō)明的是,本發(fā)明的說(shuō)明書和權(quán)利要求書及上述附圖中的術(shù)語(yǔ)“第一”、“第二”等是用于區(qū)別類似的對(duì)象,而不必用于描述特定的順序或先后次序。應(yīng)該理解這樣使用的數(shù)據(jù)在適當(dāng)情況下可以互換,以便這里描述的本發(fā)明的實(shí)施例能夠以除了在這里圖示或描述的那些以外的順序?qū)嵤?。此外,術(shù)語(yǔ)“包括”和“具有”以及他們的 任何變形,意圖在于覆蓋不排他的包含,例如,包含了一系列步驟或單元的過(guò)程、方法、系統(tǒng)、產(chǎn)品或設(shè)備不必限于清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或?qū)τ谶@些過(guò)程、方法、產(chǎn)品或設(shè)備固有的其它步驟或單元。
相關(guān)技術(shù)中,爬蟲既可能來(lái)自傳統(tǒng)的搜索引擎如:谷歌、百度等,也可能來(lái)自于其他渠道,對(duì)于來(lái)自傳統(tǒng)搜索引擎的爬蟲,主要用來(lái)更新搜索引擎的索引,使得更多的用戶能夠訪問(wèn)到頁(yè)面;而來(lái)自于其他渠道的爬蟲的訪問(wèn),僅僅用于自身目的,對(duì)網(wǎng)站沒有貢獻(xiàn),但卻占用網(wǎng)站的大量網(wǎng)絡(luò)帶寬和服務(wù)資源,對(duì)網(wǎng)站造成壓力,同時(shí)還有可能影響正常用戶的訪問(wèn)。
對(duì)于云環(huán)境中的很多網(wǎng)站,希望允許搜索引擎的爬蟲訪問(wèn),以擴(kuò)大知名度,引來(lái)更多的用戶訪問(wèn);同時(shí),希望阻斷非搜索引擎的訪問(wèn),降低資源消耗。
目前,針對(duì)搜索引擎爬蟲的識(shí)別,主要存在以下解決方案:
(1)根據(jù)http請(qǐng)求中的用戶代理(UserAgent)來(lái)識(shí)別,來(lái)自搜索引擎的訪問(wèn),UserAgent一般是固定的,特征比較明顯,如:
Google:Mozilla/5.0(compatible;Googlebot/2.1;
+http://www.google.com/bot.html)
百度:Baiduspider+(+http://www.baidu.com/search/spider.htm)
雅虎:Mozilla/5.0(compatible;Yahoo!Slurp;
http://help.yahoo.com/help/us/ysearch/slurp)
(2)根據(jù)源ip地址來(lái)識(shí)別,由于搜索引擎等大型公司的ip段基本是固定的,因此,可以通過(guò)配置搜索引擎公司所屬的ip地址,來(lái)識(shí)別搜索引擎訪問(wèn)。
但是上述解決方案主要存在以下問(wèn)題:
對(duì)于上述第(1)種解決方案,即基于Http請(qǐng)求中UserAgent字段識(shí)別,存在漏報(bào)的問(wèn)題,并且由于http請(qǐng)求是由訪問(wèn)者構(gòu)造的,UA(UserAgent)可以隨意指定,惡意爬蟲也可以將自己的訪問(wèn)設(shè)置成搜索引擎的UA,繞過(guò)檢測(cè),并繼續(xù)爬取數(shù)據(jù)。
對(duì)于第(2)種解決方案,即根據(jù)源ip來(lái)識(shí)別,該方案的優(yōu)點(diǎn)是不容易繞過(guò)檢測(cè),但存在誤報(bào),因?yàn)樗阉饕婀窘?jīng)常在新的互聯(lián)網(wǎng)數(shù)據(jù)中心(Internet Data Center,簡(jiǎn)稱為IDC)部署爬蟲程序,并且存在ip租用情況,這一段時(shí)間使用這個(gè)ip段,過(guò)些時(shí)間就不在使用,爬蟲來(lái)源ip一旦發(fā)生變化,后臺(tái)更新不及時(shí),就會(huì)出現(xiàn)誤檢測(cè)情況。
而本發(fā)明實(shí)施例主要基于云服務(wù)提供商的場(chǎng)景,針對(duì)web訪問(wèn)中的爬蟲問(wèn)題,解決如何將來(lái)自搜索引擎的爬蟲訪問(wèn)識(shí)別出來(lái)的問(wèn)題。以在與普通爬蟲進(jìn)行區(qū)分后,有針對(duì)性地進(jìn)行安全防護(hù)。比如:不影響用戶網(wǎng)站被搜索引擎收錄(這樣可以增加外部用戶真實(shí)訪問(wèn)量)的情況下,降低無(wú)效的惡意數(shù)據(jù)爬取行為,為客戶節(jié)約成本,降低服務(wù)器及帶寬消耗。
實(shí)施例1
根據(jù)本發(fā)明實(shí)施例,提供了一種搜索引擎爬蟲的識(shí)別方法實(shí)施例,需要說(shuō)明的是,在附圖的流程圖示出的步驟可以在諸如一組計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)系統(tǒng)中執(zhí)行,并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。
本申請(qǐng)實(shí)施例一所提供的方法實(shí)施例可以在移動(dòng)終端、計(jì)算機(jī)終端或者類似的運(yùn)算裝置中執(zhí)行。以運(yùn)行在計(jì)算機(jī)終端上為例,圖1是本發(fā)明實(shí)施例的一種搜索引擎爬蟲的識(shí)別方法的計(jì)算機(jī)終端的硬件結(jié)構(gòu)框圖。如圖1所示,計(jì)算機(jī)終端10可以包括一個(gè)或多個(gè)(圖中僅示出一個(gè))處理器102(處理器102可以包括但不限于微處理器MCU或可編程邏輯器件FPGA等的處理裝置)、用于存儲(chǔ)數(shù)據(jù)的存儲(chǔ)器104、以及用于通信功能的傳輸裝置106。本領(lǐng)域普通技術(shù)人員可以理解,圖1所示的結(jié)構(gòu)僅為示意,其并不對(duì)上述電子裝置的結(jié)構(gòu)造成限定。例如,計(jì)算機(jī)終端10還可包括比圖1中所示更多或者更少的組件,或者具有與圖1所示不同的配置。
存儲(chǔ)器104可用于存儲(chǔ)應(yīng)用軟件的軟件程序以及模塊,如本發(fā)明實(shí)施例中的搜索引擎爬蟲的識(shí)別方法對(duì)應(yīng)的程序指令/模塊,處理器102通過(guò)運(yùn)行存儲(chǔ)在存儲(chǔ)器104內(nèi)的軟件程序以及模塊,從而執(zhí)行各種功能應(yīng)用以及數(shù)據(jù)處理,即實(shí)現(xiàn)上述的應(yīng)用程序的漏洞檢測(cè)方法。存儲(chǔ)器104可包括高速隨機(jī)存儲(chǔ)器,還可包括非易失性存儲(chǔ)器,如一個(gè)或者多個(gè)磁性存儲(chǔ)裝置、閃存、或者其他非易失性固態(tài)存儲(chǔ)器。在一些實(shí)例中,存儲(chǔ)器104可進(jìn)一步包括相對(duì)于處理器102遠(yuǎn)程設(shè)置的存儲(chǔ)器,這些遠(yuǎn)程存儲(chǔ)器可以通過(guò)網(wǎng)絡(luò)連接至計(jì)算機(jī)終端10。上述網(wǎng)絡(luò)的實(shí)例包括但不限于互聯(lián)網(wǎng)、企業(yè)內(nèi)部網(wǎng)、局域網(wǎng)、移動(dòng)通信網(wǎng)及其組合。
傳輸裝置106用于經(jīng)由一個(gè)網(wǎng)絡(luò)接收或者發(fā)送數(shù)據(jù)。上述的網(wǎng)絡(luò)具體實(shí)例可包括計(jì)算機(jī)終端10的通信供應(yīng)商提供的無(wú)線網(wǎng)絡(luò)。在一個(gè)實(shí)例中,傳輸裝置106包括一個(gè)網(wǎng)絡(luò)適配器(Network Interface Controller,NIC),其可通過(guò)基站與其他網(wǎng)絡(luò)設(shè)備相連從而可與互聯(lián)網(wǎng)進(jìn)行通訊。在一個(gè)實(shí)例中,傳輸裝置106可以為射頻(Radio Frequency,RF)模塊,其用于通過(guò)無(wú)線方式與互聯(lián)網(wǎng)進(jìn)行通訊。
在上述運(yùn)行環(huán)境下,本申請(qǐng)?zhí)峁┝巳鐖D2所示的搜索引擎爬蟲的識(shí)別方法。圖2是根據(jù)本發(fā)明實(shí)施例的搜索引擎爬蟲的識(shí)別方法的流程圖。如圖2所示,該方法包括以下處理步驟:
步驟S202,獲取客戶端在統(tǒng)計(jì)周期的各個(gè)統(tǒng)計(jì)時(shí)間段內(nèi)對(duì)多個(gè)網(wǎng)站進(jìn)行訪問(wèn)后統(tǒng)計(jì)得到的統(tǒng)計(jì)數(shù)據(jù),其中,上述各個(gè)統(tǒng)計(jì)時(shí)間段組成上述統(tǒng)計(jì)周期。
此處統(tǒng)計(jì)周期可以根據(jù)實(shí)際情況設(shè)定,例如可以設(shè)定為一個(gè)月、或一個(gè)季度等。統(tǒng)計(jì)時(shí)間段也可以根據(jù)實(shí)際情況靈活設(shè)定,例如設(shè)定為24小時(shí)、48小時(shí)等。
在一個(gè)可選實(shí)施方式中,可以對(duì)一個(gè)月中客戶端每天所訪問(wèn)網(wǎng)站的數(shù)量進(jìn)行統(tǒng)計(jì)。在一個(gè)可選實(shí)施方式中,該步驟的具體實(shí)現(xiàn)方式有多種,例如,可以從第三方設(shè)備中獲取,也可以在本地獲取。
在一個(gè)可選實(shí)施方式中,步驟S202中多個(gè)網(wǎng)站可以理解為該客戶端在統(tǒng)計(jì)周期內(nèi)所訪問(wèn)的全部網(wǎng)站或部分網(wǎng)站,其中,對(duì)于“全部”,可以實(shí)現(xiàn)數(shù)據(jù)采集的完整性,但是比較浪費(fèi)資源;對(duì)于“部分”,則可以根據(jù)實(shí)際情況剔除某些不需要的網(wǎng)站統(tǒng)計(jì)數(shù)據(jù),節(jié)省資源。
步驟S204,對(duì)上述統(tǒng)計(jì)數(shù)據(jù)中與指定統(tǒng)計(jì)參數(shù)對(duì)應(yīng)的數(shù)據(jù)進(jìn)行預(yù)處理,得到統(tǒng)計(jì)值,其中,該統(tǒng)計(jì)值用于反映在所述各個(gè)統(tǒng)計(jì)時(shí)間段內(nèi)針對(duì)所述客戶端的訪問(wèn)行為的統(tǒng)計(jì)結(jié)果,上述指定統(tǒng)計(jì)參數(shù)用于反映上述統(tǒng)計(jì)數(shù)據(jù)的相同統(tǒng)計(jì)特征。
此處預(yù)處理的方式可以表現(xiàn)為多種實(shí)現(xiàn)方式,例如可以簡(jiǎn)單地表現(xiàn)為以下兩種形式:(1)對(duì)上述數(shù)據(jù)進(jìn)行匯總分類,(2)對(duì)與指定統(tǒng)計(jì)參數(shù)對(duì)應(yīng)的數(shù)據(jù)進(jìn)行不同的運(yùn)算處理。
以下以訪問(wèn)頻率和訪問(wèn)網(wǎng)站的數(shù)量為例進(jìn)行說(shuō)明。對(duì)于第(1)種實(shí)現(xiàn)方式,可以表現(xiàn)為以下形式:在一個(gè)統(tǒng)計(jì)周期內(nèi)以統(tǒng)計(jì)時(shí)間段為基本單位,匯總每個(gè)統(tǒng)計(jì)時(shí)間段內(nèi)客戶端所訪問(wèn)網(wǎng)站的數(shù)量;和/或,在一個(gè)統(tǒng)計(jì)周期內(nèi)以統(tǒng)計(jì)時(shí)間段為基本單位,匯總每個(gè)統(tǒng)計(jì)時(shí)間段內(nèi)客戶端所訪問(wèn)網(wǎng)站的數(shù)量和和/或訪問(wèn)頻率。將每個(gè)統(tǒng)計(jì)時(shí)間段內(nèi)訪問(wèn)網(wǎng)站的數(shù)量和/或頻率作為上述統(tǒng)計(jì)值。
對(duì)于第(2)種實(shí)現(xiàn)方式,可以表現(xiàn)為先進(jìn)行匯總分類,然后再對(duì)匯總分類后的統(tǒng)計(jì)數(shù)據(jù)進(jìn)行多種不同的運(yùn)算處理,將根據(jù)運(yùn)算處理后得到的值作為統(tǒng)計(jì)值,以下會(huì)詳細(xì)說(shuō)明,此處不再贅述。
步驟S206,在每個(gè)上述指定統(tǒng)計(jì)參數(shù)對(duì)應(yīng)的統(tǒng)計(jì)值均大于預(yù)設(shè)閾值時(shí),確定客戶端對(duì)上述網(wǎng)站的訪問(wèn)行為為搜索引擎爬蟲訪問(wèn)。
此處對(duì)應(yīng)于步驟S204中的第(1)種實(shí)現(xiàn)方式,步驟S206可以表現(xiàn)為將每個(gè)統(tǒng)計(jì)時(shí)間段內(nèi)客戶端訪問(wèn)網(wǎng)站的數(shù)量和/或頻率與預(yù)設(shè)閾值進(jìn)行比較,在各個(gè)統(tǒng)計(jì)時(shí)間段內(nèi)客戶端訪問(wèn)網(wǎng)站的數(shù)量和/或頻率均大于預(yù)設(shè)閾值時(shí),確定客戶端對(duì)上述網(wǎng)站的訪問(wèn)行為為搜索引擎爬蟲訪問(wèn)。此種實(shí)現(xiàn)方式,由于每個(gè)統(tǒng)計(jì)時(shí)間段均對(duì)應(yīng)一個(gè)比較過(guò)程,因此,會(huì)過(guò)多地占用運(yùn)行資源。
此處對(duì)應(yīng)于步驟S204中的第(2)種實(shí)現(xiàn)方式,步驟S206可以表現(xiàn)為:先匯總上述統(tǒng)計(jì)數(shù)據(jù)中與每個(gè)指定統(tǒng)計(jì)參數(shù)對(duì)應(yīng)的數(shù)據(jù),然后對(duì)其進(jìn)行統(tǒng)一運(yùn)算后,根據(jù)運(yùn)算后的值與預(yù)設(shè)閾值進(jìn)行比較。例如可以采用不同的運(yùn)算方式進(jìn)行計(jì)算,得到與上述運(yùn)算方式對(duì)應(yīng)的運(yùn)算結(jié)果;將各個(gè)上述運(yùn)算結(jié)果按照預(yù)設(shè)權(quán)重進(jìn)行求和運(yùn)算,得到上述統(tǒng)計(jì)值。
通過(guò)上述各個(gè)處理步驟,由于可以根據(jù)統(tǒng)計(jì)周期內(nèi)各個(gè)時(shí)間段對(duì)多個(gè)網(wǎng)站進(jìn)行訪問(wèn)后得到的統(tǒng)計(jì)數(shù)據(jù)得到與指定統(tǒng)計(jì)參數(shù)對(duì)應(yīng)的統(tǒng)計(jì)值,并根據(jù)該統(tǒng)計(jì)值識(shí)別出客戶端對(duì)網(wǎng)站的訪問(wèn)是否為搜索引擎爬蟲訪問(wèn),因此,提供了一種全新的搜索引擎爬蟲識(shí)別方法,從根本上避免了搜索引擎爬蟲識(shí)別的誤報(bào)和漏報(bào)問(wèn)題,并且能夠?qū)崿F(xiàn)對(duì)搜索引擎爬蟲訪問(wèn)行為的快速識(shí)別。
需要說(shuō)明的是,上述客戶端可以表現(xiàn)為應(yīng)用程序(APP)軟件,也可以表現(xiàn)為一設(shè)備終端。
上述各個(gè)步驟的執(zhí)行主體可以為云服務(wù)提供商側(cè)的核心交換設(shè)備,也可以為與核心網(wǎng)交換設(shè)備連接的其它設(shè)備,如:骨干網(wǎng)核心交換機(jī)。本實(shí)施例對(duì)此并不作限定。
其中,步驟S202中獲取上述統(tǒng)計(jì)數(shù)據(jù)的方式有多種,例如可以基于當(dāng)前時(shí)間點(diǎn)開始實(shí)時(shí)獲取當(dāng)前訪問(wèn)情況并統(tǒng)計(jì),也可以根據(jù)歷史記錄數(shù)據(jù)獲取,當(dāng)然也可以采用上述兩種方式相結(jié)合的方式來(lái)獲取上述統(tǒng)計(jì)數(shù)據(jù)。例如可以先匯總實(shí)時(shí)采集的數(shù)據(jù),然后結(jié)合歷史數(shù)據(jù),計(jì)算源IP地址對(duì)應(yīng)的客戶端每天所訪問(wèn)的網(wǎng)站數(shù)量、頻率。
在一個(gè)可選實(shí)施例中,步驟S202可以在云服務(wù)提供商的機(jī)房入口處(例如核心交換設(shè)備)采集客戶端在統(tǒng)計(jì)周期的各個(gè)統(tǒng)計(jì)時(shí)間段內(nèi)對(duì)所有網(wǎng)站進(jìn)行訪問(wèn)后統(tǒng)計(jì)得到的統(tǒng)計(jì)數(shù)據(jù),例如可以通過(guò)在云服務(wù)提供商的入口層面截獲來(lái)自客戶端的所有流量數(shù)據(jù),并提取http訪問(wèn)記錄,然后使用大數(shù)據(jù)分析處理技術(shù),動(dòng)態(tài)快速識(shí)別出搜索引擎爬蟲訪問(wèn)行為,以輔助安全系統(tǒng)攔截或放行這些訪問(wèn)。例如可以利用采集層面對(duì)流量數(shù)據(jù)進(jìn)行協(xié)議解析,提取每個(gè)訪問(wèn)的源IP、host等內(nèi)容,并進(jìn)行匯總。
其中,上述指定統(tǒng)計(jì)參數(shù)可以包括以下參數(shù)中的一個(gè)或多個(gè):在上述統(tǒng)計(jì)周期內(nèi)上述客戶端所訪問(wèn)網(wǎng)站的數(shù)量和訪問(wèn)頻率,即可以采用對(duì)一個(gè)或多個(gè)指定統(tǒng)計(jì)參數(shù)對(duì) 應(yīng)的數(shù)據(jù)進(jìn)行預(yù)處理后得到的統(tǒng)計(jì)值來(lái)識(shí)別搜索引擎爬蟲識(shí)別。例如,可以對(duì)網(wǎng)站的訪問(wèn)頻率和訪問(wèn)網(wǎng)站的數(shù)量進(jìn)行統(tǒng)計(jì),得到兩個(gè)統(tǒng)計(jì)值,并依據(jù)該兩個(gè)統(tǒng)計(jì)值來(lái)共同識(shí)別搜索引擎爬蟲的訪問(wèn)行為。
例如:在統(tǒng)計(jì)周期內(nèi)客戶端所訪問(wèn)網(wǎng)站的數(shù)量為N,訪問(wèn)頻率為F,對(duì)N分別取平均值、取最大值和取方差處理后得到N1、N2和N3;對(duì)F分別取平均值、取最大值和取方差處理后得到F1、F2和F3。對(duì)N1、N2和N3分別賦予不同的權(quán)重值并求和即統(tǒng)計(jì)值1=aN1+bN2+cN3,其中,a,b,c為權(quán)重值;對(duì)F1、F2和F3分別賦予不同的權(quán)重值并求和即統(tǒng)計(jì)值2=dF1+eF2+fF3,其中,d,e,f為權(quán)重值。在一種場(chǎng)景下,在統(tǒng)計(jì)值1和統(tǒng)計(jì)值2均大于其對(duì)應(yīng)的預(yù)設(shè)閾值時(shí),則確定當(dāng)前的訪問(wèn)行為為搜索引擎爬蟲行為;或者,在另一場(chǎng)景下,統(tǒng)計(jì)值1和統(tǒng)計(jì)值2中的其中一個(gè)大于其對(duì)應(yīng)的預(yù)設(shè)閾值時(shí),便可以確定當(dāng)前的訪問(wèn)行為為搜索引擎爬蟲行為。當(dāng)然,對(duì)于a,b,c的取值可以為0,但是不能同時(shí)全部為0;對(duì)于d,e,f的取值同樣可以為0,但是不能同時(shí)全部為0。
在本實(shí)施例中,為進(jìn)一步加強(qiáng)識(shí)別結(jié)果的準(zhǔn)確性和可靠性,步驟S204可以通過(guò)以下方式實(shí)現(xiàn):對(duì)上述統(tǒng)計(jì)數(shù)據(jù)中與每個(gè)指定統(tǒng)計(jì)參數(shù)對(duì)應(yīng)的數(shù)據(jù)采用不同的運(yùn)算方式進(jìn)行計(jì)算,得到與上述運(yùn)算方式對(duì)應(yīng)的運(yùn)算結(jié)果;將各個(gè)上述運(yùn)算結(jié)果按照預(yù)設(shè)權(quán)重進(jìn)行求和運(yùn)算,得到上述統(tǒng)計(jì)值??蛇x地,上述預(yù)設(shè)權(quán)重可以通過(guò)實(shí)驗(yàn)手段或經(jīng)驗(yàn)值確定。需要說(shuō)明的是,在一個(gè)優(yōu)選實(shí)施例中,在進(jìn)行求和運(yùn)算過(guò)程中,對(duì)于得到的三種運(yùn)算結(jié)果(即采用上述三種運(yùn)算方式得到的運(yùn)算結(jié)果)中的任意兩種運(yùn)算結(jié)果,為了節(jié)省運(yùn)行資源,在識(shí)別精確度要求不太高的情況下,其預(yù)設(shè)權(quán)重的取值是可以為0的,即可以僅憑借三種運(yùn)算結(jié)果中的其中一種或兩種運(yùn)算結(jié)果來(lái)識(shí)別搜索引擎爬蟲,這樣由于減少了運(yùn)算過(guò)程,因此,可以有效節(jié)省運(yùn)算資源。
結(jié)合上述預(yù)處理方式和上述運(yùn)算方式,在一個(gè)可選實(shí)施例中,上述求和運(yùn)算的過(guò)程可以表現(xiàn)為以下實(shí)現(xiàn)形式,但不限于此:
IP_SCORE=X1*AVG_NUM_HOSTS+X2*MAX_NUM_HOSTS+X3*STD_NUM_HOST,其中,AVG_NUM_HOSTS表示上述平均值,MAX_NUM_HOSTS表示上述最大值、STD_NUM_HOST表示上述方差值,IP_SCORE表示上述統(tǒng)計(jì)值,X1、X2、X3為常量,具體可以根據(jù)實(shí)際情況進(jìn)行調(diào)整,其可以通過(guò)實(shí)驗(yàn)手段或者依據(jù)經(jīng)驗(yàn)值確定。
可選地,上述運(yùn)算方式包括如下任意一種方式:求平均值、求最大值、求方差、求三倍方差和求中位值。相應(yīng)地,上述運(yùn)算結(jié)果包括以下任意一種方式:與所述指定統(tǒng)計(jì)參數(shù)對(duì)應(yīng)的數(shù)據(jù)在所述統(tǒng)計(jì)周期內(nèi)的平均值、最大值、方差值、三倍方差值和中位值。需要說(shuō)明的是,運(yùn)算方式并不限于提到的上述幾種具體運(yùn)算方式,還可以是其它的運(yùn)算方式。
為了識(shí)別出當(dāng)前訪問(wèn)的來(lái)源以便于對(duì)某個(gè)客戶端的訪問(wèn)行為進(jìn)行統(tǒng)計(jì),需要對(duì)不同客戶端的訪問(wèn)行為進(jìn)行區(qū)分,即需要在步驟S202之前進(jìn)行訪問(wèn)的來(lái)源區(qū)分,在一個(gè)可選實(shí)施例中,可以通過(guò)以下方式實(shí)現(xiàn),但不限于此:在上述統(tǒng)計(jì)周期內(nèi)接收針對(duì)上述網(wǎng)站的當(dāng)前訪問(wèn)請(qǐng)求;依據(jù)上述當(dāng)前訪問(wèn)請(qǐng)求中的IP地址識(shí)別上述當(dāng)前訪問(wèn)請(qǐng)求為來(lái)自上述客戶端的訪問(wèn)請(qǐng)求。
在一種可選的應(yīng)用場(chǎng)景下,上述搜索引擎的識(shí)別方法可以應(yīng)用于由客戶端和云服務(wù)提供商側(cè)設(shè)備的網(wǎng)絡(luò)架構(gòu)中:該客戶端具有一個(gè)IP地址(稱為源IP),其向云服務(wù)商側(cè)設(shè)備發(fā)送訪問(wèn)請(qǐng)求,云服務(wù)提供商在機(jī)房入口處(例如可以通過(guò)核心交換設(shè)備)采集來(lái)自客戶端的訪問(wèn)數(shù)據(jù),并進(jìn)行匯總解析;云服務(wù)提供商側(cè)設(shè)備實(shí)時(shí)分析層收集匯總數(shù)據(jù),結(jié)合歷史數(shù)據(jù),計(jì)算源ip所對(duì)應(yīng)客戶端在一段時(shí)間內(nèi)(如:一個(gè)月),每天訪問(wèn)的不同網(wǎng)站數(shù)量、頻率,并統(tǒng)計(jì)平均值A(chǔ)VG_NUM_HOSTS、最大值MAX_NUM_HOSTS、方差STD_NUM_HOST,代入公式:
IP_SCORE=X1*AVG_NUM_HOSTS+X2*MAX_NUM_HOSTS+X3*STD_NUM_HOST,其中,X1、X2、X3是常量,根據(jù)實(shí)際情況可調(diào)整。
根據(jù)預(yù)設(shè)的閾值與IP_SCORE的比較結(jié)果,來(lái)判斷該ip是否來(lái)自搜索引擎,若:IP_SCORE大于閾值,則識(shí)別為搜尋引擎IP地址。然后更新搜索引擎ip庫(kù),這樣攔截系統(tǒng)便可以根據(jù)不同網(wǎng)站的策略,檢查搜索引擎ip庫(kù),進(jìn)行放行或攔截。
為了擴(kuò)大對(duì)上述搜索引擎爬蟲的識(shí)別方案的應(yīng)用范圍,在通過(guò)步驟S206確定上述客戶端對(duì)上述網(wǎng)站的訪問(wèn)行為為搜索引擎爬蟲訪問(wèn)之后,還可以將上述客戶端的標(biāo)識(shí)更新至本地的搜索引擎數(shù)據(jù)庫(kù)中,并按照與上述網(wǎng)站對(duì)應(yīng)的安全策略對(duì)針對(duì)上述搜索引擎數(shù)據(jù)庫(kù)中網(wǎng)站的訪問(wèn)進(jìn)行放行或攔截。這樣,便實(shí)現(xiàn)了攔截系統(tǒng)對(duì)搜索引擎的訪問(wèn)的控制(攔截或放行)。
本實(shí)施例中客戶端的標(biāo)識(shí)可以表現(xiàn)為客戶端的IP地址,或者客戶端所在設(shè)備的MAC地址等,但不限于此。
需要說(shuō)明的是,對(duì)于前述的各方法實(shí)施例,為了簡(jiǎn)單描述,故將其都表述為一系列的動(dòng)作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明并不受所描述的動(dòng)作順序的限制,因?yàn)橐罁?jù)本發(fā)明,某些步驟可以采用其他順序或者同時(shí)進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說(shuō)明書中所描述的實(shí)施例均屬于優(yōu)選實(shí)施例,所涉及的動(dòng)作和模塊并不一定是本發(fā)明所必須的。
通過(guò)以上的實(shí)施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到根據(jù)上述實(shí)施例的方法可借助軟件加必需的通用硬件平臺(tái)的方式來(lái)實(shí)現(xiàn),當(dāng)然也可以通過(guò)硬件,但 很多情況下前者是更佳的實(shí)施方式?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說(shuō)對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來(lái),該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)(如ROM/RAM、磁碟、光盤)中,包括若干指令用以使得一臺(tái)終端設(shè)備(可以是手機(jī),計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述的方法。
實(shí)施例2
根據(jù)本發(fā)明實(shí)施例,還提供了一種用于實(shí)施上述搜索引擎爬蟲的識(shí)別方法的裝置,如圖3所示,該裝置包括:
獲取模塊30,用于獲取客戶端在統(tǒng)計(jì)周期的各個(gè)統(tǒng)計(jì)時(shí)間段內(nèi)對(duì)多個(gè)網(wǎng)站進(jìn)行訪問(wèn)后統(tǒng)計(jì)得到的統(tǒng)計(jì)數(shù)據(jù),其中,上述各個(gè)統(tǒng)計(jì)時(shí)間段組成上述統(tǒng)計(jì)周期;
此處統(tǒng)計(jì)周期可以根據(jù)實(shí)際情況設(shè)定,例如可以設(shè)定為一個(gè)月、或一個(gè)季度等。統(tǒng)計(jì)時(shí)間段也可以根據(jù)實(shí)際情況靈活設(shè)定,例如設(shè)定為24小時(shí)、48小時(shí)等。
在一個(gè)可選實(shí)施方式中,可以對(duì)一個(gè)月中客戶端每天所訪問(wèn)網(wǎng)站的數(shù)量進(jìn)行統(tǒng)計(jì)。在一個(gè)可選實(shí)施方式中,該步驟的具體實(shí)現(xiàn)方式有多種,例如,可以從第三方設(shè)備中獲取,也可以在本地獲取。
在一個(gè)可選實(shí)施方式中,獲取模塊30在獲取上述統(tǒng)計(jì)數(shù)據(jù)時(shí)所涉及的“多個(gè)網(wǎng)站”可以理解為該客戶端在統(tǒng)計(jì)周期內(nèi)所訪問(wèn)的全部網(wǎng)站或部分網(wǎng)站,其中,對(duì)于“全部”可以實(shí)現(xiàn)數(shù)據(jù)采集的完整性,但是比較浪費(fèi)資源;對(duì)于“部分”,則可以根據(jù)實(shí)際情況剔除某些不需要的網(wǎng)站統(tǒng)計(jì)數(shù)據(jù),節(jié)省資源。
預(yù)處理模塊32,連接至獲取模塊30,用于對(duì)上述統(tǒng)計(jì)數(shù)據(jù)中與指定統(tǒng)計(jì)參數(shù)對(duì)應(yīng)的數(shù)據(jù)進(jìn)行預(yù)處理,得到統(tǒng)計(jì)值,其中,該統(tǒng)計(jì)值用于反映在所述各個(gè)統(tǒng)計(jì)時(shí)間段內(nèi)針對(duì)所述客戶端的訪問(wèn)行為的統(tǒng)計(jì)結(jié)果,上述指定統(tǒng)計(jì)參數(shù)用于反映上述統(tǒng)計(jì)數(shù)據(jù)的相同統(tǒng)計(jì)特征;此處預(yù)處理的方式可以表現(xiàn)為多種實(shí)現(xiàn)方式,例如可以簡(jiǎn)單地表現(xiàn)為(1)對(duì)其進(jìn)行匯總分類,也可以表現(xiàn)為(2)對(duì)與指定統(tǒng)計(jì)參數(shù)對(duì)應(yīng)的數(shù)據(jù)進(jìn)行不同的運(yùn)算處理。
以下以訪問(wèn)頻率和訪問(wèn)網(wǎng)站的數(shù)量為例進(jìn)行說(shuō)明。對(duì)于第(1)種實(shí)現(xiàn)方式,可以表現(xiàn)為以下形式:在一個(gè)統(tǒng)計(jì)周期內(nèi)以統(tǒng)計(jì)時(shí)間段為基本單位,匯總每個(gè)統(tǒng)計(jì)時(shí)間段內(nèi)客戶端所訪問(wèn)網(wǎng)站的數(shù)量;和/或,在一個(gè)統(tǒng)計(jì)周期內(nèi)以統(tǒng)計(jì)時(shí)間段為基本單位,匯總每個(gè)統(tǒng)計(jì)時(shí)間段內(nèi)客戶端所訪問(wèn)網(wǎng)站的數(shù)量和和/或訪問(wèn)頻率。將每個(gè)統(tǒng)計(jì)時(shí)間段內(nèi)訪問(wèn)網(wǎng)站的數(shù)量和/或頻率作為上述統(tǒng)計(jì)值。
對(duì)于第(2)種實(shí)現(xiàn)方式,可以表現(xiàn)為先進(jìn)行匯總分類,然后再對(duì)匯總分類后的統(tǒng)計(jì)數(shù)據(jù)進(jìn)行多種不同的運(yùn)算處理,將根據(jù)運(yùn)算處理后得到的值作為統(tǒng)計(jì)值,以下會(huì)詳細(xì)說(shuō)明,此處不再贅述。
識(shí)別模塊34,連接至預(yù)處理模塊32,用于在每個(gè)上述指定統(tǒng)計(jì)參數(shù)對(duì)應(yīng)的統(tǒng)計(jì)值均大于預(yù)設(shè)閾值時(shí),確定上述客戶端的訪問(wèn)過(guò)程為搜索引擎爬蟲訪問(wèn)。
此處對(duì)應(yīng)于預(yù)處理模塊的第(1)種實(shí)現(xiàn)方式,可以表現(xiàn)為:將每個(gè)統(tǒng)計(jì)時(shí)間段內(nèi)客戶端訪問(wèn)網(wǎng)站的數(shù)量和/或頻率與預(yù)設(shè)閾值進(jìn)行比較,在各個(gè)統(tǒng)計(jì)時(shí)間段內(nèi)客戶端訪問(wèn)網(wǎng)站的數(shù)量和/或頻率均大于預(yù)設(shè)閾值時(shí),確定客戶端對(duì)上述網(wǎng)站的訪問(wèn)行為為搜索引擎爬蟲訪問(wèn)。此種實(shí)現(xiàn)方式,由于每個(gè)統(tǒng)計(jì)時(shí)間段均對(duì)應(yīng)一個(gè)比較過(guò)程,因此,會(huì)過(guò)多地占用運(yùn)行資源。
此處對(duì)應(yīng)于預(yù)處理模塊的第(2)種實(shí)現(xiàn)方式,可以表現(xiàn)為:先匯總上述統(tǒng)計(jì)數(shù)據(jù)中與每個(gè)指定統(tǒng)計(jì)參數(shù)對(duì)應(yīng)的數(shù)據(jù),然后對(duì)其進(jìn)行統(tǒng)一運(yùn)算后,根據(jù)運(yùn)算后的值與預(yù)設(shè)閾值進(jìn)行比較。例如可以采用不同的運(yùn)算方式進(jìn)行計(jì)算,得到與上述運(yùn)算方式對(duì)應(yīng)的運(yùn)算結(jié)果;將各個(gè)上述運(yùn)算結(jié)果按照預(yù)設(shè)權(quán)重進(jìn)行求和運(yùn)算,得到上述統(tǒng)計(jì)值。
通過(guò)上述各個(gè)模塊實(shí)現(xiàn)的功能,由于可以根據(jù)統(tǒng)計(jì)周期內(nèi)各個(gè)時(shí)間段對(duì)多個(gè)網(wǎng)站進(jìn)行訪問(wèn)后得到的統(tǒng)計(jì)數(shù)據(jù)得到與指定統(tǒng)計(jì)參數(shù)對(duì)應(yīng)的統(tǒng)計(jì)值,并根據(jù)該統(tǒng)計(jì)值識(shí)別出客戶端對(duì)網(wǎng)站的訪問(wèn)是否為搜索引擎爬蟲訪問(wèn),因此從根本上避免了搜索引擎爬蟲識(shí)別的誤報(bào)和漏報(bào)問(wèn)題,并且能夠?qū)崿F(xiàn)對(duì)搜索引擎爬蟲訪問(wèn)行為的快速識(shí)別。
在本實(shí)施例中,上述指定統(tǒng)計(jì)參數(shù)可以根據(jù)實(shí)際情況自行設(shè)定,在一個(gè)優(yōu)選實(shí)施方式中,上述指定統(tǒng)計(jì)參數(shù)可以包括以下參數(shù)中的一個(gè)或多個(gè):在上述統(tǒng)計(jì)周期內(nèi)上述客戶端所訪問(wèn)網(wǎng)站的數(shù)量和訪問(wèn)頻率,即上述預(yù)處理模塊32可以采用對(duì)一個(gè)或多個(gè)上述指定統(tǒng)計(jì)參數(shù)對(duì)應(yīng)的數(shù)據(jù)進(jìn)行預(yù)處理后得到的統(tǒng)計(jì)值來(lái)識(shí)別搜索引擎爬蟲識(shí)別。例如,可以對(duì)網(wǎng)站的訪問(wèn)頻率和訪問(wèn)網(wǎng)站的數(shù)量進(jìn)行統(tǒng)計(jì),得到兩個(gè)統(tǒng)計(jì)值,并依據(jù)該兩個(gè)統(tǒng)計(jì)值共同來(lái)識(shí)別搜索引擎爬蟲的訪問(wèn)行為。
可選地,如圖4所示,預(yù)處理模塊32可以包括以下處理單元:第一運(yùn)算單元320,用于對(duì)上述統(tǒng)計(jì)數(shù)據(jù)中與每個(gè)上述指定統(tǒng)計(jì)參數(shù)對(duì)應(yīng)的數(shù)據(jù)采用不同的運(yùn)算方式進(jìn)行計(jì)算,得到與上述運(yùn)算方式對(duì)應(yīng)的運(yùn)算結(jié)果;第二運(yùn)算單元322,連接至第一運(yùn)算單元320,用于將各個(gè)上述運(yùn)算結(jié)果按照預(yù)設(shè)權(quán)重進(jìn)行求和運(yùn)算,得到上述統(tǒng)計(jì)值??蛇x地,第二運(yùn)算單元322在進(jìn)行求和運(yùn)算過(guò)程在所使用的上述預(yù)設(shè)權(quán)重,可以通過(guò)實(shí)驗(yàn)手段或經(jīng)驗(yàn)值確定。需要說(shuō)明的是,在一個(gè)優(yōu)選實(shí)施例中,在第二運(yùn)算單元進(jìn)行求和運(yùn)算過(guò)程中,對(duì)于上述第一運(yùn)算單元得到的三種運(yùn)算結(jié)果中的任意兩種運(yùn)算結(jié)果, 其預(yù)設(shè)權(quán)重的取值是可以為0的,即可以僅憑借三種運(yùn)算結(jié)果中的其中一種或兩種運(yùn)算結(jié)果來(lái)識(shí)別搜索引擎爬蟲,這樣可以有效節(jié)省運(yùn)行資源。
例如:在統(tǒng)計(jì)周期內(nèi)客戶端所訪問(wèn)網(wǎng)站的數(shù)量為N,訪問(wèn)頻率為F,對(duì)N分別取平均值、取最大值和取方差處理后得到N1、N2和N3;對(duì)F分別取平均值、取最大值和取方差處理后得到F1、F2和F3。對(duì)N1、N2和N3分別賦予不同的權(quán)重值并求和即統(tǒng)計(jì)值1=aN1+bN2+cN3,其中,a,b,c為權(quán)重值;對(duì)F1、F2和F3分別賦予不同的權(quán)重值并求和即統(tǒng)計(jì)值2=cF1+dF2+eF3,其中,d,e,f為權(quán)重值。在一種場(chǎng)景下,在統(tǒng)計(jì)值1和統(tǒng)計(jì)值2均大于其對(duì)應(yīng)的預(yù)設(shè)閾值時(shí),則確定當(dāng)前的訪問(wèn)行為為搜索引擎爬蟲行為;或者,在另一場(chǎng)景下,統(tǒng)計(jì)值1和統(tǒng)計(jì)值2中的其中一個(gè)大于其對(duì)應(yīng)的預(yù)設(shè)閾值時(shí),便可以確定當(dāng)前的訪問(wèn)行為為搜索引擎爬蟲行為。當(dāng)然,對(duì)于a,b,c的取值可以為0,但是不能同時(shí)全部為0;對(duì)于d,e,f的取值同樣可以為0,但是不能同時(shí)全部為0。
可選地,第一運(yùn)算單元320,用于采用以下任意一種運(yùn)算方式對(duì)上述指定統(tǒng)計(jì)參數(shù)對(duì)應(yīng)的數(shù)據(jù)進(jìn)行計(jì)算:求平均值、求最大值、求方差、求三倍方差和求中位值。相應(yīng)地,上述運(yùn)算結(jié)果包括以下任意一種方式:與所述指定統(tǒng)計(jì)參數(shù)對(duì)應(yīng)的數(shù)據(jù)在所述統(tǒng)計(jì)周期內(nèi)的平均值、最大值和方差值、三倍方差值和求中位值。
本實(shí)施例中所涉及的各個(gè)模塊是可以通過(guò)相應(yīng)地軟件或硬件來(lái)實(shí)現(xiàn)的,對(duì)于后者,例如采用采用以下方式實(shí)現(xiàn),但不限于此:獲取模塊30、預(yù)處理模塊32和識(shí)別模塊34均位于同一處理器中;或者,獲取模塊30、預(yù)處理模塊32和識(shí)別模塊34分別位于第一處理器、第二處理器和第三處理器中;或者,獲取模塊30和識(shí)別模塊32位于同一處理器中,預(yù)處理模塊32位于另一處理器中;或者,獲取模塊30和預(yù)處理模塊32位于同一處理器中,而識(shí)別模塊34位于另一處理器中。
本實(shí)施例提供的搜索引擎爬蟲的識(shí)別裝置的其它功能可以參見實(shí)施例1中的描述,即本實(shí)施例中提供的識(shí)別裝置可以實(shí)現(xiàn)實(shí)施例1所述方法所體現(xiàn)的功能,例如本實(shí)施例提供的搜索引擎爬蟲的識(shí)別裝置可以實(shí)現(xiàn)以下功能:在所述統(tǒng)計(jì)周期內(nèi)接收針對(duì)所述網(wǎng)站的當(dāng)前訪問(wèn)請(qǐng)求;依據(jù)所述當(dāng)前訪問(wèn)請(qǐng)求中的IP地址識(shí)別所述當(dāng)前訪問(wèn)請(qǐng)求為來(lái)自所述客戶端的訪問(wèn)請(qǐng)求。需要說(shuō)明的是,上述功能可以通過(guò)相應(yīng)的模塊來(lái)實(shí)現(xiàn),例如可以通過(guò)接收模塊來(lái)接收上述訪問(wèn)請(qǐng)求,可以通過(guò)一個(gè)第二識(shí)別模塊來(lái)識(shí)別當(dāng)前訪問(wèn)請(qǐng)求為來(lái)自客戶端的訪問(wèn)請(qǐng)求。上述模塊可以表現(xiàn)為硬件或軟件。在一種可選的應(yīng)用場(chǎng)景下,上述搜索引擎的識(shí)別裝置可以應(yīng)用于由客戶端和云服務(wù)提供商側(cè)設(shè)備的網(wǎng)絡(luò)架構(gòu)中,該識(shí)別裝置可以位于云服務(wù)提供商側(cè)設(shè)備(例如核心交換設(shè)備)中:該客戶端具有一個(gè)IP地址(稱為源IP),其向云服務(wù)提供商側(cè)設(shè)備發(fā)送訪問(wèn)請(qǐng)求,云服務(wù)提供商在機(jī)房入口處(例如可以通過(guò)核心交換設(shè)備)采集來(lái)自客戶端的訪問(wèn)數(shù)據(jù), 并進(jìn)行匯總解析;云服務(wù)提供商側(cè)設(shè)備實(shí)時(shí)分析層收集匯總數(shù)據(jù),結(jié)合歷史數(shù)據(jù),計(jì)算源ip所對(duì)應(yīng)客戶端在一段時(shí)間內(nèi)(如:一個(gè)月),每天訪問(wèn)的不同網(wǎng)站數(shù)量、頻率,并統(tǒng)計(jì)平均值A(chǔ)VG_NUM_HOSTS、最大值MAX_NUM_HOSTS、方差STD_NUM_HOST,代入公式:
IP_SCORE=X1*AVG_NUM_HOSTS+X2*MAX_NUM_HOSTS+X3*STD_NUM_HOST,其中,X1、X2、X3是常量,根據(jù)實(shí)際情況可調(diào)整。
根據(jù)預(yù)設(shè)的閾值與IP_SCORE的比較結(jié)果,來(lái)判斷該ip是否來(lái)自搜索引擎,若:IP_SCORE大于閾值,則識(shí)別為搜尋引擎IP地址。然后更新搜索引擎ip庫(kù),這樣攔截系統(tǒng)便可以根據(jù)不同網(wǎng)站的策略,檢查搜索引擎ip庫(kù),進(jìn)行放行或攔截。
本實(shí)施例提供的搜索引擎爬蟲的識(shí)別裝置,還可以執(zhí)行以下功能:將所述客戶端的標(biāo)識(shí)更新至本地的搜索引擎數(shù)據(jù)庫(kù)中;按照與所述網(wǎng)站對(duì)應(yīng)的安全策略對(duì)針對(duì)所述搜索引擎數(shù)據(jù)庫(kù)中網(wǎng)站的訪問(wèn)進(jìn)行放行或攔截。需要說(shuō)明的是,上述功能可以通過(guò)相應(yīng)的模塊來(lái)實(shí)現(xiàn),例如可以通過(guò)更新模塊來(lái)接收上述訪問(wèn)請(qǐng)求,可以通過(guò)一個(gè)安全檢測(cè)模塊來(lái)識(shí)別當(dāng)前訪問(wèn)請(qǐng)求為來(lái)自客戶端的訪問(wèn)請(qǐng)求。上述模塊可以表現(xiàn)為硬件或軟件。
實(shí)施例3
根據(jù)本發(fā)明實(shí)施例,還提供了一種搜索引擎爬蟲的處理方法實(shí)施例,該處理方法同樣可以在移動(dòng)終端、計(jì)算機(jī)終端或者類似的運(yùn)算裝置中執(zhí)行,例如可以在圖1所述的計(jì)算機(jī)終端上運(yùn)行。圖5是根據(jù)本發(fā)明實(shí)施例的搜索引擎爬蟲的處理方法的示意圖。如圖5所示,該方法包括以下處理步驟:
步驟S502,獲取客戶端在統(tǒng)計(jì)周期的各個(gè)統(tǒng)計(jì)時(shí)間段內(nèi)對(duì)多個(gè)網(wǎng)站進(jìn)行訪問(wèn)后統(tǒng)計(jì)得到的統(tǒng)計(jì)數(shù)據(jù),其中,所述各個(gè)統(tǒng)計(jì)時(shí)間段組成所述統(tǒng)計(jì)周期;
此處統(tǒng)計(jì)周期可以根據(jù)實(shí)際情況設(shè)定,例如可以設(shè)定為一個(gè)月、或一個(gè)季度等。統(tǒng)計(jì)時(shí)間段也可以根據(jù)實(shí)際情況靈活設(shè)定,例如設(shè)定為24小時(shí)、48小時(shí)等。
在一個(gè)可選實(shí)施方式中,可以對(duì)一個(gè)月中客戶端每天所訪問(wèn)網(wǎng)站的數(shù)量進(jìn)行統(tǒng)計(jì)。在一個(gè)可選實(shí)施方式中,該步驟的具體實(shí)現(xiàn)方式有多種,例如,可以從第三方設(shè)備中獲取,也可以在本地獲取。
在一個(gè)可選實(shí)施方式中,步驟S502中多個(gè)網(wǎng)站可以理解為該客戶端在統(tǒng)計(jì)周期內(nèi)所訪問(wèn)的全部網(wǎng)站或部分網(wǎng)站,其中,對(duì)于“全部”,可以實(shí)現(xiàn)數(shù)據(jù)采集的完整性,但是比較浪費(fèi)資源;對(duì)于“部分”,則可以根據(jù)實(shí)際情況剔除某些不需要的網(wǎng)站統(tǒng)計(jì)數(shù)據(jù), 節(jié)省資源。
S504,對(duì)所述統(tǒng)計(jì)數(shù)據(jù)中與指定統(tǒng)計(jì)參數(shù)對(duì)應(yīng)的數(shù)據(jù)進(jìn)行預(yù)處理,得到統(tǒng)計(jì)值,其中,該統(tǒng)計(jì)值用于反映在所述各個(gè)統(tǒng)計(jì)時(shí)間段內(nèi)針對(duì)所述客戶端的訪問(wèn)行為的統(tǒng)計(jì)結(jié)果,所述指定統(tǒng)計(jì)參數(shù)用于反映所述統(tǒng)計(jì)數(shù)據(jù)的相同統(tǒng)計(jì)特征;
此處預(yù)處理的方式可以表現(xiàn)為多種實(shí)現(xiàn)方式,例如可以簡(jiǎn)單地表現(xiàn)為(1)對(duì)其進(jìn)行匯總分類,也可以表現(xiàn)為(2)對(duì)與指定統(tǒng)計(jì)參數(shù)對(duì)應(yīng)的數(shù)據(jù)進(jìn)行不同的運(yùn)算處理。
以下以訪問(wèn)頻率和訪問(wèn)網(wǎng)站的數(shù)量為例進(jìn)行說(shuō)明。對(duì)于第(1)種實(shí)現(xiàn)方式,可以表現(xiàn)為以下形式:在一個(gè)統(tǒng)計(jì)周期內(nèi)以統(tǒng)計(jì)時(shí)間段為基本單位,匯總每個(gè)統(tǒng)計(jì)時(shí)間段內(nèi)客戶端所訪問(wèn)網(wǎng)站的數(shù)量;和/或,在一個(gè)統(tǒng)計(jì)周期內(nèi)以統(tǒng)計(jì)時(shí)間段為基本單位,匯總每個(gè)統(tǒng)計(jì)時(shí)間段內(nèi)客戶端所訪問(wèn)網(wǎng)站的數(shù)量和和/或訪問(wèn)頻率。將每個(gè)統(tǒng)計(jì)時(shí)間段內(nèi)訪問(wèn)網(wǎng)站的數(shù)量和/或頻率作為上述統(tǒng)計(jì)值。
對(duì)于第(2)種實(shí)現(xiàn)方式,可以表現(xiàn)為先進(jìn)行匯總分類,然后再對(duì)匯總分類后的統(tǒng)計(jì)數(shù)據(jù)進(jìn)行多種不同的運(yùn)算處理,將根據(jù)運(yùn)算處理后得到的值作為統(tǒng)計(jì)值,以下會(huì)詳細(xì)說(shuō)明,此處不再贅述。
S506,在每個(gè)所述指定統(tǒng)計(jì)參數(shù)對(duì)應(yīng)的統(tǒng)計(jì)值均大于預(yù)設(shè)閾值時(shí),確定所述客戶端對(duì)所述網(wǎng)站的訪問(wèn)行為為搜索引擎爬蟲訪問(wèn);
此處對(duì)應(yīng)于步驟S504中的第(1)種實(shí)現(xiàn)方式,步驟S506可以表現(xiàn)為將每個(gè)統(tǒng)計(jì)時(shí)間段內(nèi)客戶端訪問(wèn)網(wǎng)站的數(shù)量和/或頻率與預(yù)設(shè)閾值進(jìn)行比較,在各個(gè)統(tǒng)計(jì)時(shí)間段內(nèi)客戶端訪問(wèn)網(wǎng)站的數(shù)量和/或頻率均大于預(yù)設(shè)閾值時(shí),確定客戶端對(duì)上述網(wǎng)站的訪問(wèn)行為為搜索引擎爬蟲訪問(wèn)。此種實(shí)現(xiàn)方式,由于每個(gè)統(tǒng)計(jì)時(shí)間段均對(duì)應(yīng)一個(gè)比較過(guò)程,因此,會(huì)過(guò)多地占用運(yùn)行資源。
此處對(duì)應(yīng)于步驟S504中的第(2)種實(shí)現(xiàn)方式,步驟S206可以表現(xiàn)為:先匯總上述統(tǒng)計(jì)數(shù)據(jù)中與每個(gè)指定統(tǒng)計(jì)參數(shù)對(duì)應(yīng)的數(shù)據(jù),然后對(duì)其進(jìn)行統(tǒng)一運(yùn)算后,根據(jù)運(yùn)算后的值與預(yù)設(shè)閾值進(jìn)行比較。例如可以采用不同的運(yùn)算方式進(jìn)行計(jì)算,得到與上述運(yùn)算方式對(duì)應(yīng)的運(yùn)算結(jié)果;將各個(gè)上述運(yùn)算結(jié)果按照預(yù)設(shè)權(quán)重進(jìn)行求和運(yùn)算,得到上述統(tǒng)計(jì)值。
S508,根據(jù)與所述網(wǎng)站對(duì)應(yīng)的安全策略對(duì)所述搜索引擎爬蟲訪問(wèn)進(jìn)行放行或攔截。
通過(guò)上述各個(gè)處理步驟,由于可以根據(jù)統(tǒng)計(jì)周期內(nèi)各個(gè)時(shí)間段對(duì)多個(gè)網(wǎng)站進(jìn)行訪問(wèn)后得到的統(tǒng)計(jì)數(shù)據(jù)得到與指定統(tǒng)計(jì)參數(shù)對(duì)應(yīng)的統(tǒng)計(jì)值,并根據(jù)該統(tǒng)計(jì)值識(shí)別出客戶端對(duì)網(wǎng)站的訪問(wèn)是否為搜索引擎爬蟲訪問(wèn),并根據(jù)與該網(wǎng)站對(duì)應(yīng)的安全策略對(duì)該搜索 引擎爬蟲訪問(wèn)進(jìn)行放行或攔截,因此,提供了一種全新的搜索引擎爬蟲處理方法,從根本上不僅避免了搜索引擎爬蟲識(shí)別的誤報(bào)和漏報(bào)問(wèn)題,能夠?qū)崿F(xiàn)對(duì)搜索引擎爬蟲訪問(wèn)行為的快速識(shí)別,并且在識(shí)別完成之后,能夠進(jìn)行相應(yīng)的處理,阻斷非搜索引擎的訪問(wèn),降低了資源的消耗。
需要說(shuō)明的是,上述客戶端可以表現(xiàn)為應(yīng)用程序(APP)軟件,也可以表現(xiàn)為一設(shè)備終端。
上述各個(gè)步驟的執(zhí)行主體可以為云服務(wù)提供商側(cè)的核心交換設(shè)備,也可以為與核心網(wǎng)交換設(shè)備連接的其它設(shè)備,如:骨干網(wǎng)核心交換機(jī)。本實(shí)施例對(duì)此并不作限定。
其中,上述指定統(tǒng)計(jì)參數(shù)可以包括以下參數(shù)中的一個(gè)或多個(gè):在上述統(tǒng)計(jì)周期內(nèi)上述客戶端所訪問(wèn)網(wǎng)站的數(shù)量和訪問(wèn)頻率,即可以采用對(duì)一個(gè)或多個(gè)指定統(tǒng)計(jì)參數(shù)對(duì)應(yīng)的數(shù)據(jù)進(jìn)行預(yù)處理后得到的統(tǒng)計(jì)值來(lái)識(shí)別搜索引擎爬蟲識(shí)別。例如,可以對(duì)網(wǎng)站的訪問(wèn)頻率和訪問(wèn)網(wǎng)站的數(shù)量進(jìn)行統(tǒng)計(jì),得到兩個(gè)統(tǒng)計(jì)值,并依據(jù)該兩個(gè)統(tǒng)計(jì)值來(lái)共同識(shí)別搜索引擎爬蟲的訪問(wèn)行為。
例如:在統(tǒng)計(jì)周期內(nèi)客戶端所訪問(wèn)網(wǎng)站的數(shù)量為N,訪問(wèn)頻率為F,對(duì)N分別取平均值、取最大值和取方差處理后得到N1、N2和N3;對(duì)F分別取平均值、取最大值和取方差處理后得到F1、F2和F3。對(duì)N1、N2和N3分別賦予不同的權(quán)重值并求和即統(tǒng)計(jì)值1=aN1+bN2+cN3,其中,a,b,c為權(quán)重值;對(duì)F1、F2和F3分別賦予不同的權(quán)重值并求和即統(tǒng)計(jì)值2=dF1+eF2+fF3,其中,d,e,f為權(quán)重值。在一種場(chǎng)景下,在統(tǒng)計(jì)值1和統(tǒng)計(jì)值2均大于其對(duì)應(yīng)的預(yù)設(shè)閾值時(shí),則確定當(dāng)前的訪問(wèn)行為為搜索引擎爬蟲行為;或者,在另一場(chǎng)景下,統(tǒng)計(jì)值1和統(tǒng)計(jì)值2中的其中一個(gè)大于其對(duì)應(yīng)的預(yù)設(shè)閾值時(shí),便可以確定當(dāng)前的訪問(wèn)行為為搜索引擎爬蟲行為。當(dāng)然,對(duì)于a,b,c的取值可以為0,但是不能同時(shí)全部為0;對(duì)于d,e,f的取值同樣可以為0,但是不能同時(shí)全部為0。
在本實(shí)施例中,為進(jìn)一步加強(qiáng)識(shí)別結(jié)果的準(zhǔn)確性和可靠性,步驟S504可以通過(guò)以下方式實(shí)現(xiàn):對(duì)上述統(tǒng)計(jì)數(shù)據(jù)中與每個(gè)指定統(tǒng)計(jì)參數(shù)對(duì)應(yīng)的數(shù)據(jù)采用不同的運(yùn)算方式進(jìn)行計(jì)算,得到與上述運(yùn)算方式對(duì)應(yīng)的運(yùn)算結(jié)果;將各個(gè)上述運(yùn)算結(jié)果按照預(yù)設(shè)權(quán)重進(jìn)行求和運(yùn)算,得到上述統(tǒng)計(jì)值??蛇x地,上述預(yù)設(shè)權(quán)重可以通過(guò)實(shí)驗(yàn)手段或經(jīng)驗(yàn)值確定。需要說(shuō)明的是,在一個(gè)優(yōu)選實(shí)施例中,在進(jìn)行求和運(yùn)算過(guò)程中,對(duì)于得到的三種運(yùn)算結(jié)果(即采用上述三種運(yùn)算方式得到的運(yùn)算結(jié)果)中的任意兩種運(yùn)算結(jié)果,為了節(jié)省運(yùn)行資源,在識(shí)別精確度要求不太高的情況下,其預(yù)設(shè)權(quán)重的取值是可以為0的,即可以僅憑借三種運(yùn)算結(jié)果中的其中一種或兩種運(yùn)算結(jié)果來(lái)識(shí)別搜索引擎爬蟲,這樣由于減少了運(yùn)算過(guò)程,因此,可以有效節(jié)省運(yùn)算資源。
上述求和運(yùn)算的具體實(shí)現(xiàn)過(guò)程可以參見實(shí)施例1中的描述,此處不再贅述。
實(shí)施例4
根據(jù)本發(fā)明實(shí)施例,還提供了一種用于實(shí)施上述搜索引擎爬蟲的處理方法的裝置,如圖6所示,該裝置包括:
獲取模塊60,用于獲取客戶端在統(tǒng)計(jì)周期的各個(gè)統(tǒng)計(jì)時(shí)間段內(nèi)對(duì)多個(gè)網(wǎng)站進(jìn)行訪問(wèn)后統(tǒng)計(jì)得到的統(tǒng)計(jì)數(shù)據(jù),其中,上述各個(gè)統(tǒng)計(jì)時(shí)間段組成上述統(tǒng)計(jì)周期;
在一個(gè)可選實(shí)施方式中,獲取模塊60在獲取上述統(tǒng)計(jì)數(shù)據(jù)時(shí)所涉及的“多個(gè)網(wǎng)站”可以理解為該客戶端在統(tǒng)計(jì)周期內(nèi)所訪問(wèn)的全部網(wǎng)站或部分網(wǎng)站,其中,對(duì)于“全部”可以實(shí)現(xiàn)數(shù)據(jù)采集的完整性,但是比較浪費(fèi)資源;對(duì)于“部分”,則可以根據(jù)實(shí)際情況剔除某些不需要的網(wǎng)站統(tǒng)計(jì)數(shù)據(jù),節(jié)省資源。
預(yù)處理模塊62,連接至獲取模塊60,用于對(duì)上述統(tǒng)計(jì)數(shù)據(jù)中與指定統(tǒng)計(jì)參數(shù)對(duì)應(yīng)的數(shù)據(jù)進(jìn)行預(yù)處理,得到統(tǒng)計(jì)值,其中,該統(tǒng)計(jì)值用于反映在所述各個(gè)統(tǒng)計(jì)時(shí)間段內(nèi)針對(duì)所述客戶端的訪問(wèn)行為的統(tǒng)計(jì)結(jié)果,上述指定統(tǒng)計(jì)參數(shù)用于反映上述統(tǒng)計(jì)數(shù)據(jù)的相同統(tǒng)計(jì)特征;此處預(yù)處理的方式可以表現(xiàn)為多種實(shí)現(xiàn)方式,例如可以簡(jiǎn)單地表現(xiàn)為:(1)對(duì)上述數(shù)據(jù)進(jìn)行匯總分類,(2)對(duì)與指定統(tǒng)計(jì)參數(shù)對(duì)應(yīng)的數(shù)據(jù)進(jìn)行不同的運(yùn)算處理。
以下以訪問(wèn)頻率和訪問(wèn)網(wǎng)站的數(shù)量為例進(jìn)行說(shuō)明。對(duì)于第(1)種實(shí)現(xiàn)方式,可以表現(xiàn)為以下形式:在一個(gè)統(tǒng)計(jì)周期內(nèi)以統(tǒng)計(jì)時(shí)間段為基本單位,匯總每個(gè)統(tǒng)計(jì)時(shí)間段內(nèi)客戶端所訪問(wèn)網(wǎng)站的數(shù)量;和/或,在一個(gè)統(tǒng)計(jì)周期內(nèi)以統(tǒng)計(jì)時(shí)間段為基本單位,匯總每個(gè)統(tǒng)計(jì)時(shí)間段內(nèi)客戶端所訪問(wèn)網(wǎng)站的數(shù)量和和/或訪問(wèn)頻率。將每個(gè)統(tǒng)計(jì)時(shí)間段內(nèi)訪問(wèn)網(wǎng)站的數(shù)量和/或頻率作為上述統(tǒng)計(jì)值。
對(duì)于第(2)種實(shí)現(xiàn)方式,可以表現(xiàn)為先進(jìn)行匯總分類,然后再對(duì)匯總分類后的統(tǒng)計(jì)數(shù)據(jù)進(jìn)行多種不同的運(yùn)算處理,將根據(jù)運(yùn)算處理后得到的值作為統(tǒng)計(jì)值,以下會(huì)詳細(xì)說(shuō)明,此處不再贅述。
識(shí)別模塊64,連接至預(yù)處理模塊62,用于在每個(gè)上述指定統(tǒng)計(jì)參數(shù)對(duì)應(yīng)的統(tǒng)計(jì)值均大于預(yù)設(shè)閾值時(shí),確定上述客戶端的訪問(wèn)過(guò)程為搜索引擎爬蟲訪問(wèn)。
此處對(duì)應(yīng)于預(yù)處理模塊的第(1)種實(shí)現(xiàn)方式,可以表現(xiàn)為:將每個(gè)統(tǒng)計(jì)時(shí)間段內(nèi)客戶端訪問(wèn)網(wǎng)站的數(shù)量和/或頻率與預(yù)設(shè)閾值進(jìn)行比較,在各個(gè)統(tǒng)計(jì)時(shí)間段內(nèi)客戶端訪問(wèn)網(wǎng)站的數(shù)量和/或頻率均大于預(yù)設(shè)閾值時(shí),確定客戶端對(duì)上述網(wǎng)站的訪問(wèn)行為為搜索引擎爬蟲訪問(wèn)。此種實(shí)現(xiàn)方式,由于每個(gè)統(tǒng)計(jì)時(shí)間段均對(duì)應(yīng)一個(gè)比較過(guò)程,因此,會(huì) 過(guò)多地占用運(yùn)行資源。
此處對(duì)應(yīng)于預(yù)處理模塊的第(2)種實(shí)現(xiàn)方式,可以表現(xiàn)為:先匯總上述統(tǒng)計(jì)數(shù)據(jù)中與每個(gè)指定統(tǒng)計(jì)參數(shù)對(duì)應(yīng)的數(shù)據(jù),然后對(duì)其進(jìn)行統(tǒng)一運(yùn)算后,根據(jù)運(yùn)算后的值與預(yù)設(shè)閾值進(jìn)行比較。例如可以采用不同的運(yùn)算方式進(jìn)行計(jì)算,得到與上述運(yùn)算方式對(duì)應(yīng)的運(yùn)算結(jié)果;將各個(gè)上述運(yùn)算結(jié)果按照預(yù)設(shè)權(quán)重進(jìn)行求和運(yùn)算,得到上述統(tǒng)計(jì)值。
處理模塊66,用于根據(jù)與所述網(wǎng)站對(duì)應(yīng)的安全策略對(duì)所述搜索引擎爬蟲訪問(wèn)進(jìn)行放行或攔截。
通過(guò)上述各個(gè)模塊實(shí)現(xiàn)的功能,由于可以根據(jù)統(tǒng)計(jì)周期內(nèi)各個(gè)時(shí)間段對(duì)多個(gè)網(wǎng)站進(jìn)行訪問(wèn)后得到的統(tǒng)計(jì)數(shù)據(jù)得到與指定統(tǒng)計(jì)參數(shù)對(duì)應(yīng)的統(tǒng)計(jì)值,并根據(jù)該統(tǒng)計(jì)值識(shí)別出客戶端對(duì)網(wǎng)站的訪問(wèn)是否為搜索引擎爬蟲訪問(wèn),因此從根本上避免了搜索引擎爬蟲識(shí)別的誤報(bào)和漏報(bào)問(wèn)題,能夠?qū)崿F(xiàn)對(duì)搜索引擎爬蟲訪問(wèn)行為的快速識(shí)別,并且在識(shí)別完成之后,能夠進(jìn)行相應(yīng)的處理,阻斷非搜索引擎的訪問(wèn),降低了資源的消耗。
在本實(shí)施例中,上述指定統(tǒng)計(jì)參數(shù)可以根據(jù)實(shí)際情況自行設(shè)定,在一個(gè)優(yōu)選實(shí)施方式中,上述指定統(tǒng)計(jì)參數(shù)可以包括以下參數(shù)中的一個(gè)或多個(gè):在上述統(tǒng)計(jì)周期內(nèi)上述客戶端所訪問(wèn)網(wǎng)站的數(shù)量和訪問(wèn)頻率,即上述預(yù)處理模塊62可以采用對(duì)一個(gè)或多個(gè)上述指定統(tǒng)計(jì)參數(shù)對(duì)應(yīng)的數(shù)據(jù)進(jìn)行預(yù)處理后得到的統(tǒng)計(jì)值來(lái)識(shí)別搜索引擎爬蟲識(shí)別。例如,可以對(duì)網(wǎng)站的訪問(wèn)頻率和訪問(wèn)網(wǎng)站的數(shù)量進(jìn)行統(tǒng)計(jì),得到兩個(gè)統(tǒng)計(jì)值,并依據(jù)該兩個(gè)統(tǒng)計(jì)值共同來(lái)識(shí)別搜索引擎爬蟲的訪問(wèn)行為。
可選地,如圖7所示,預(yù)處理模塊62可以包括以下處理單元:第一運(yùn)算單元620,用于對(duì)上述統(tǒng)計(jì)數(shù)據(jù)中與每個(gè)上述指定統(tǒng)計(jì)參數(shù)對(duì)應(yīng)的數(shù)據(jù)采用不同的運(yùn)算方式進(jìn)行計(jì)算,得到與上述運(yùn)算方式對(duì)應(yīng)的運(yùn)算結(jié)果;第二運(yùn)算單元622,連接至第一運(yùn)算單元620,用于將各個(gè)上述運(yùn)算結(jié)果按照預(yù)設(shè)權(quán)重進(jìn)行求和運(yùn)算,得到上述統(tǒng)計(jì)值??蛇x地,第二運(yùn)算單元622在進(jìn)行求和運(yùn)算過(guò)程在所使用的上述預(yù)設(shè)權(quán)重,可以通過(guò)實(shí)驗(yàn)手段或經(jīng)驗(yàn)值確定。需要說(shuō)明的是,在一個(gè)優(yōu)選實(shí)施例中,在第二運(yùn)算單元622進(jìn)行求和運(yùn)算過(guò)程中,對(duì)于上述第一運(yùn)算單元得到的三種運(yùn)算結(jié)果中的任意兩種運(yùn)算結(jié)果,其預(yù)設(shè)權(quán)重的取值是可以為0的,即可以僅憑借三種運(yùn)算結(jié)果中的其中一種或兩種運(yùn)算結(jié)果來(lái)識(shí)別搜索引擎爬蟲,這樣可以有效節(jié)省運(yùn)行資源。
可選地,第一運(yùn)算單元620,用于采用以下任意一種運(yùn)算方式對(duì)上述指定統(tǒng)計(jì)參數(shù)對(duì)應(yīng)的數(shù)據(jù)進(jìn)行計(jì)算:求平均值、求最大值、求方差、求三倍方差和求中位值。相應(yīng)地,上述運(yùn)算結(jié)果包括以下任意一種方式:與所述指定統(tǒng)計(jì)參數(shù)對(duì)應(yīng)的數(shù)據(jù)在所述統(tǒng)計(jì)周期內(nèi)的平均值、最大值和方差值、三倍方差值和求中位值。
本實(shí)施例中所涉及的各個(gè)模塊是可以通過(guò)相應(yīng)地軟件或硬件來(lái)實(shí)現(xiàn)的,對(duì)于后者,獲取模塊60、預(yù)處理模塊62、識(shí)別模塊64和處理模塊66可以處于同一處理器中,也可以處于不同的處理器中來(lái)實(shí)現(xiàn)。
本實(shí)施例提供的搜索引擎爬蟲的處理裝置的其它功能可以參見實(shí)施例3中的描述,即本實(shí)施例中提供的處理裝置可以實(shí)現(xiàn)實(shí)施例3所述方法所體現(xiàn)的功能。
實(shí)施例5
本發(fā)明的實(shí)施例可以提供一種計(jì)算機(jī)終端,該計(jì)算機(jī)終端可以是計(jì)算機(jī)終端群中的任意一個(gè)計(jì)算機(jī)終端設(shè)備??蛇x地,在本實(shí)施例中,上述計(jì)算機(jī)終端也可以替換為移動(dòng)終端等終端設(shè)備。
可選地,在本實(shí)施例中,上述計(jì)算機(jī)終端可以位于計(jì)算機(jī)網(wǎng)絡(luò)的多個(gè)網(wǎng)絡(luò)設(shè)備中的至少一個(gè)網(wǎng)絡(luò)設(shè)備。
在本實(shí)施例中,上述計(jì)算機(jī)終端可以執(zhí)行搜索引擎爬蟲的識(shí)別方法中以下步驟的程序代碼:獲取客戶端在統(tǒng)計(jì)周期的各個(gè)統(tǒng)計(jì)時(shí)間段內(nèi)對(duì)多個(gè)網(wǎng)站進(jìn)行訪問(wèn)后統(tǒng)計(jì)得到的統(tǒng)計(jì)數(shù)據(jù),其中,上述各個(gè)統(tǒng)計(jì)時(shí)間段組成上述統(tǒng)計(jì)周期;對(duì)上述統(tǒng)計(jì)數(shù)據(jù)中與指定統(tǒng)計(jì)參數(shù)對(duì)應(yīng)的數(shù)據(jù)進(jìn)行預(yù)處理,得到統(tǒng)計(jì)值,其中,該統(tǒng)計(jì)值用于反映在所述各個(gè)統(tǒng)計(jì)時(shí)間段內(nèi)針對(duì)所述客戶端的訪問(wèn)行為的統(tǒng)計(jì)結(jié)果,上述指定統(tǒng)計(jì)參數(shù)用于反映上述統(tǒng)計(jì)數(shù)據(jù)的相同統(tǒng)計(jì)特征;在每個(gè)上述指定統(tǒng)計(jì)參數(shù)對(duì)應(yīng)的統(tǒng)計(jì)值均大于預(yù)設(shè)閾值時(shí),確定客戶端對(duì)上述網(wǎng)站的訪問(wèn)行為為搜索引擎爬蟲訪問(wèn)。
可選地,圖8是根據(jù)本發(fā)明實(shí)施例的一種計(jì)算機(jī)終端的結(jié)構(gòu)框圖。如圖5所示,該計(jì)算機(jī)終端A可以包括:一個(gè)或多個(gè)(圖中僅示出一個(gè))處理器81、存儲(chǔ)器83、以及傳輸裝置85。
其中,存儲(chǔ)器83可用于存儲(chǔ)軟件程序以及模塊,如本發(fā)明實(shí)施例中的搜索引擎爬蟲的識(shí)別方法和裝置所對(duì)應(yīng)的程序指令/模塊,處理器81通過(guò)運(yùn)行存儲(chǔ)在存儲(chǔ)器83內(nèi)的軟件程序以及模塊,從而執(zhí)行各種功能應(yīng)用以及數(shù)據(jù)處理,即實(shí)現(xiàn)上述的系統(tǒng)漏洞攻擊的檢測(cè)方法。存儲(chǔ)器83可包括高速隨機(jī)存儲(chǔ)器,還可以包括非易失性存儲(chǔ)器,如一個(gè)或者多個(gè)磁性存儲(chǔ)裝置、閃存、或者其他非易失性固態(tài)存儲(chǔ)器。在一些實(shí)例中,存儲(chǔ)器83可進(jìn)一步包括相對(duì)于處理器81遠(yuǎn)程設(shè)置的存儲(chǔ)器,這些遠(yuǎn)程存儲(chǔ)器可以通過(guò)網(wǎng)絡(luò)連接至終端A。上述網(wǎng)絡(luò)的實(shí)例包括但不限于互聯(lián)網(wǎng)、企業(yè)內(nèi)部網(wǎng)、局域網(wǎng)、移動(dòng)通信網(wǎng)及其組合。
上述的傳輸裝置85用于經(jīng)由一個(gè)網(wǎng)絡(luò)接收或者發(fā)送數(shù)據(jù)。上述的網(wǎng)絡(luò)具體實(shí)例可包括有線網(wǎng)絡(luò)及無(wú)線網(wǎng)絡(luò)。在一個(gè)實(shí)例中,傳輸裝置85包括一個(gè)網(wǎng)絡(luò)適配器(Network Interface Controller,NIC),其可通過(guò)網(wǎng)線與其他網(wǎng)絡(luò)設(shè)備與路由器相連從而可與互聯(lián)網(wǎng)或局域網(wǎng)進(jìn)行通訊。在一個(gè)實(shí)例中,傳輸裝置85為射頻(Radio Frequency,RF)模塊,其用于通過(guò)無(wú)線方式與互聯(lián)網(wǎng)進(jìn)行通訊。
其中,具體地,存儲(chǔ)器83用于存儲(chǔ)預(yù)設(shè)動(dòng)作條件和預(yù)設(shè)權(quán)限用戶的信息、以及應(yīng)用程序。
處理器81可以通過(guò)傳輸裝置調(diào)用存儲(chǔ)器83存儲(chǔ)的信息及應(yīng)用程序,以執(zhí)行下述步驟:對(duì)上述統(tǒng)計(jì)數(shù)據(jù)(即客戶端在統(tǒng)計(jì)周期的各個(gè)統(tǒng)計(jì)時(shí)間段內(nèi)對(duì)多個(gè)網(wǎng)站進(jìn)行訪問(wèn)后統(tǒng)計(jì)得到的統(tǒng)計(jì)數(shù)據(jù))中與每個(gè)指定統(tǒng)計(jì)參數(shù)對(duì)應(yīng)的數(shù)據(jù)采用不同的運(yùn)算方式進(jìn)行計(jì)算,得到與上述運(yùn)算方式對(duì)應(yīng)的運(yùn)算結(jié)果;將各個(gè)上述運(yùn)算結(jié)果按照預(yù)設(shè)權(quán)重進(jìn)行求和運(yùn)算,得到上述統(tǒng)計(jì)值。
可選的,上述處理器81還可以執(zhí)行如下步驟的程序代碼:在上述統(tǒng)計(jì)周期內(nèi)接收針對(duì)上述網(wǎng)站的當(dāng)前訪問(wèn)請(qǐng)求;依據(jù)上述當(dāng)前訪問(wèn)請(qǐng)求中的IP地址識(shí)別上述當(dāng)前訪問(wèn)請(qǐng)求為來(lái)自上述客戶端的訪問(wèn)請(qǐng)求。
可選的,上述處理器81還可以執(zhí)行如下步驟的程序代碼:將上述客戶端的標(biāo)識(shí)更新至本地的搜索引擎數(shù)據(jù)庫(kù)中,并按照與上述網(wǎng)站對(duì)應(yīng)的安全策略對(duì)針對(duì)上述搜索引擎數(shù)據(jù)庫(kù)中網(wǎng)站的訪問(wèn)進(jìn)行放行或攔截。
采用本發(fā)明實(shí)施例,提供了一種搜索引擎爬蟲的識(shí)別方案。通過(guò)該識(shí)別方案,由于可以根據(jù)統(tǒng)計(jì)周期內(nèi)各個(gè)時(shí)間段對(duì)多個(gè)網(wǎng)站進(jìn)行訪問(wèn)后得到的統(tǒng)計(jì)數(shù)據(jù)得到與指定統(tǒng)計(jì)參數(shù)對(duì)應(yīng)的統(tǒng)計(jì)值,并根據(jù)該統(tǒng)計(jì)值識(shí)別出客戶端對(duì)網(wǎng)站的訪問(wèn)是否為搜索引擎爬蟲訪問(wèn),因此,提供了一種全新的搜索引擎爬蟲識(shí)別方法,從根本上避免了搜索引擎爬蟲識(shí)別的誤報(bào)和漏報(bào)問(wèn)題,并且能夠?qū)崿F(xiàn)對(duì)搜索引擎爬蟲訪問(wèn)行為的快速識(shí)別。
本領(lǐng)域普通技術(shù)人員可以理解,圖8所示的結(jié)構(gòu)僅為示意,計(jì)算機(jī)終端也可以是智能手機(jī)(如Android手機(jī)、iOS手機(jī)等)、平板電腦、掌上電腦以及移動(dòng)互聯(lián)網(wǎng)設(shè)備(Mobile Internet Devices,MID)等終端設(shè)備。圖8其并不對(duì)上述電子裝置的結(jié)構(gòu)造成限定。例如,計(jì)算機(jī)終端5還可包括比圖8中所示更多或者更少的組件(如網(wǎng)絡(luò)接口、顯示裝置等),或者具有與圖5所示不同的配置。
本領(lǐng)域普通技術(shù)人員可以理解上述實(shí)施例的各種方法中的全部或部分步驟是可以通過(guò)程序來(lái)指令終端設(shè)備相關(guān)的硬件來(lái)完成,該程序可以存儲(chǔ)于一計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,存儲(chǔ)介質(zhì)可以包括:閃存盤、只讀存儲(chǔ)器(Read-Only Memory,ROM)、隨機(jī)存取器(Random Access Memory,RAM)、磁盤或光盤等。
實(shí)施例6
本發(fā)明的實(shí)施例還提供了一種存儲(chǔ)介質(zhì)??蛇x地,在本實(shí)施例中,上述存儲(chǔ)介質(zhì)可以用于保存上述實(shí)施例一所提供的搜索引擎爬蟲的識(shí)別方法所執(zhí)行的程序代碼。
可選地,在本實(shí)施例中,上述存儲(chǔ)介質(zhì)可以位于計(jì)算機(jī)網(wǎng)絡(luò)中計(jì)算機(jī)終端群中的任意一個(gè)計(jì)算機(jī)終端中,或者位于移動(dòng)終端群中的任意一個(gè)移動(dòng)終端中。
可選地,在本實(shí)施例中,存儲(chǔ)介質(zhì)被設(shè)置為存儲(chǔ)用于執(zhí)行以下步驟的程序代碼:獲取客戶端在統(tǒng)計(jì)周期的各個(gè)統(tǒng)計(jì)時(shí)間段內(nèi)對(duì)多個(gè)網(wǎng)站進(jìn)行訪問(wèn)后統(tǒng)計(jì)得到的統(tǒng)計(jì)數(shù)據(jù),其中,上述各個(gè)統(tǒng)計(jì)時(shí)間段組成上述統(tǒng)計(jì)周期;對(duì)上述統(tǒng)計(jì)數(shù)據(jù)中與指定統(tǒng)計(jì)參數(shù)對(duì)應(yīng)的數(shù)據(jù)進(jìn)行預(yù)處理,得到統(tǒng)計(jì)值,其中,該統(tǒng)計(jì)值用于反映在所述各個(gè)統(tǒng)計(jì)時(shí)間段內(nèi)針對(duì)所述客戶端的訪問(wèn)行為的統(tǒng)計(jì)結(jié)果,上述指定統(tǒng)計(jì)參數(shù)用于反映上述統(tǒng)計(jì)數(shù)據(jù)的相同統(tǒng)計(jì)特征;在每個(gè)上述指定統(tǒng)計(jì)參數(shù)對(duì)應(yīng)的統(tǒng)計(jì)值均大于預(yù)設(shè)閾值時(shí),確定客戶端對(duì)上述網(wǎng)站的訪問(wèn)行為為搜索引擎爬蟲訪問(wèn)。
可選地,存儲(chǔ)介質(zhì)還可以被設(shè)置為存儲(chǔ)用于執(zhí)行以下步驟的程序代碼:對(duì)上述統(tǒng)計(jì)數(shù)據(jù)中與每個(gè)指定統(tǒng)計(jì)參數(shù)對(duì)應(yīng)的數(shù)據(jù)采用不同的運(yùn)算方式進(jìn)行計(jì)算,得到與上述運(yùn)算方式對(duì)應(yīng)的運(yùn)算結(jié)果;將各個(gè)上述運(yùn)算結(jié)果按照預(yù)設(shè)權(quán)重進(jìn)行求和運(yùn)算,得到上述統(tǒng)計(jì)值。
可選地,存儲(chǔ)介質(zhì)還可以被設(shè)置為存儲(chǔ)用于執(zhí)行以下步驟的程序代碼:在上述統(tǒng)計(jì)周期內(nèi)接收針對(duì)上述網(wǎng)站的當(dāng)前訪問(wèn)請(qǐng)求;依據(jù)上述當(dāng)前訪問(wèn)請(qǐng)求中的IP地址識(shí)別上述當(dāng)前訪問(wèn)請(qǐng)求為來(lái)自上述客戶端的訪問(wèn)請(qǐng)求。
可選地,存儲(chǔ)介質(zhì)還可以被設(shè)置為存儲(chǔ)用于執(zhí)行以下步驟的程序代碼:將上述客戶端的標(biāo)識(shí)更新至本地的搜索引擎數(shù)據(jù)庫(kù)中,并按照與上述網(wǎng)站對(duì)應(yīng)的安全策略對(duì)針對(duì)上述搜索引擎數(shù)據(jù)庫(kù)中網(wǎng)站的訪問(wèn)進(jìn)行放行或攔截。這樣,便實(shí)現(xiàn)了攔截系統(tǒng)對(duì)搜索引擎的訪問(wèn)的控制(攔截或放行)。
此處需要說(shuō)明的是,上述計(jì)算機(jī)終端群中的任意一個(gè)可以與網(wǎng)站服務(wù)器和掃描器建立通信關(guān)系,掃描器可以掃描計(jì)算機(jī)終端上php執(zhí)行的web應(yīng)用程序的值命令。
實(shí)施例7
本發(fā)明的實(shí)施例還提供了另外一種存儲(chǔ)介質(zhì)??蛇x地,在本實(shí)施例中,上述存儲(chǔ)介質(zhì)可以用于保存上述實(shí)施例一所提供的搜索引擎爬蟲的處理方法所執(zhí)行的程序代碼。
可選地,在本實(shí)施例中,上述存儲(chǔ)介質(zhì)可以位于計(jì)算機(jī)網(wǎng)絡(luò)中計(jì)算機(jī)終端群中的任意一個(gè)計(jì)算機(jī)終端中,或者位于移動(dòng)終端群中的任意一個(gè)移動(dòng)終端中。
可選地,在本實(shí)施例中,存儲(chǔ)介質(zhì)被設(shè)置為存儲(chǔ)用于執(zhí)行以下步驟的程序代碼: 獲取客戶端在統(tǒng)計(jì)周期的各個(gè)統(tǒng)計(jì)時(shí)間段內(nèi)對(duì)多個(gè)網(wǎng)站進(jìn)行訪問(wèn)后統(tǒng)計(jì)得到的統(tǒng)計(jì)數(shù)據(jù),其中,上述各個(gè)統(tǒng)計(jì)時(shí)間段組成上述統(tǒng)計(jì)周期;對(duì)上述統(tǒng)計(jì)數(shù)據(jù)中與指定統(tǒng)計(jì)參數(shù)對(duì)應(yīng)的數(shù)據(jù)進(jìn)行預(yù)處理,得到統(tǒng)計(jì)值,其中,該統(tǒng)計(jì)值用于反映在所述各個(gè)統(tǒng)計(jì)時(shí)間段內(nèi)針對(duì)所述客戶端的訪問(wèn)行為的統(tǒng)計(jì)結(jié)果,上述指定統(tǒng)計(jì)參數(shù)用于反映上述統(tǒng)計(jì)數(shù)據(jù)的相同統(tǒng)計(jì)特征;在每個(gè)上述指定統(tǒng)計(jì)參數(shù)對(duì)應(yīng)的統(tǒng)計(jì)值均大于預(yù)設(shè)閾值時(shí),確定客戶端對(duì)上述網(wǎng)站的訪問(wèn)行為為搜索引擎爬蟲訪問(wèn);根據(jù)與所述網(wǎng)站對(duì)應(yīng)的安全策略對(duì)所述搜索引擎爬蟲訪問(wèn)進(jìn)行放行或攔截。
可選地,存儲(chǔ)介質(zhì)還可以被設(shè)置為存儲(chǔ)用于執(zhí)行以下步驟的程序代碼:對(duì)上述統(tǒng)計(jì)數(shù)據(jù)中與每個(gè)指定統(tǒng)計(jì)參數(shù)對(duì)應(yīng)的數(shù)據(jù)采用不同的運(yùn)算方式進(jìn)行計(jì)算,得到與上述運(yùn)算方式對(duì)應(yīng)的運(yùn)算結(jié)果;將各個(gè)上述運(yùn)算結(jié)果按照預(yù)設(shè)權(quán)重進(jìn)行求和運(yùn)算,得到上述統(tǒng)計(jì)值。
上述本發(fā)明實(shí)施例序號(hào)僅僅為了描述,不代表實(shí)施例的優(yōu)劣。
在本發(fā)明的上述實(shí)施例中,對(duì)各個(gè)實(shí)施例的描述都各有側(cè)重,某個(gè)實(shí)施例中沒有詳述的部分,可以參見其他實(shí)施例的相關(guān)描述。
在本申請(qǐng)所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所揭露的客戶端,可通過(guò)其它的方式實(shí)現(xiàn)。其中,以上所描述的裝置實(shí)施例僅僅是示意性的,例如所述單元的劃分,僅僅為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式,例如多個(gè)單元或組件可以結(jié)合或者可以集成到另一個(gè)系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點(diǎn),所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過(guò)一些接口,單元或模塊的間接耦合或通信連接,可以是電性或其它的形式。
所述作為分離部件說(shuō)明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上??梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部單元來(lái)實(shí)現(xiàn)本實(shí)施例方案的目的。
另外,在本發(fā)明各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理單元中,也可以是各個(gè)單元單獨(dú)物理存在,也可以兩個(gè)或兩個(gè)以上單元集成在一個(gè)單元中。上述集成的單元既可以采用硬件的形式實(shí)現(xiàn),也可以采用軟件功能單元的形式實(shí)現(xiàn)。
所述集成的單元如果以軟件功能單元的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時(shí),可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說(shuō)對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的全部或部分可以以軟件產(chǎn)品的形式體現(xiàn)出來(lái),該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一 臺(tái)計(jì)算機(jī)設(shè)備(可為個(gè)人計(jì)算機(jī)、服務(wù)器或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述方法的全部或部分步驟。而前述的存儲(chǔ)介質(zhì)包括:U盤、只讀存儲(chǔ)器(ROM,Read-Only Memory)、隨機(jī)存取存儲(chǔ)器(RAM,Random Access Memory)、移動(dòng)硬盤、磁碟或者光盤等各種可以存儲(chǔ)程序代碼的介質(zhì)。
以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤(rùn)飾,這些改進(jìn)和潤(rùn)飾也應(yīng)視為本發(fā)明的保護(hù)范圍。