1.一種搜索引擎爬蟲的識別方法,其特征在于,包括:
獲取客戶端在統(tǒng)計周期的各個統(tǒng)計時間段內(nèi)對多個網(wǎng)站進(jìn)行訪問后統(tǒng)計得到的統(tǒng)計數(shù)據(jù),其中,所述各個統(tǒng)計時間段組成所述統(tǒng)計周期;
對所述統(tǒng)計數(shù)據(jù)中與指定統(tǒng)計參數(shù)對應(yīng)的數(shù)據(jù)進(jìn)行預(yù)處理,得到統(tǒng)計值,其中,該統(tǒng)計值用于反映在所述各個統(tǒng)計時間段內(nèi)針對所述客戶端的訪問行為的統(tǒng)計結(jié)果,所述指定統(tǒng)計參數(shù)用于反映所述統(tǒng)計數(shù)據(jù)的相同統(tǒng)計特征;
在每個所述指定統(tǒng)計參數(shù)對應(yīng)的統(tǒng)計值均大于預(yù)設(shè)閾值時,確定所述客戶端對所述網(wǎng)站的訪問行為為搜索引擎爬蟲訪問。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述指定統(tǒng)計參數(shù)包括以下至少之一:
在所述統(tǒng)計周期內(nèi)所述客戶端所訪問網(wǎng)站的數(shù)量和訪問頻率。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,對所述統(tǒng)計數(shù)據(jù)中與指定統(tǒng)計參數(shù)對應(yīng)的數(shù)據(jù)進(jìn)行預(yù)處理,得到統(tǒng)計值,包括:
對所述統(tǒng)計數(shù)據(jù)中與每個所述指定統(tǒng)計參數(shù)對應(yīng)的數(shù)據(jù)采用不同的運算方式進(jìn)行計算,得到與所述運算方式對應(yīng)的運算結(jié)果;
將各個所述運算結(jié)果按照預(yù)設(shè)權(quán)重進(jìn)行求和運算,得到所述統(tǒng)計值。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述運算方式包括如下任意一種方式:求平均值、求最大值、求方差、求三倍方差和求中位值。
5.根據(jù)權(quán)利要求1至4中任一項所述的方法,其特征在于,在獲取客戶端在統(tǒng)計周期的各個統(tǒng)計時間段內(nèi)對云服務(wù)商下網(wǎng)站進(jìn)行訪問的統(tǒng)計數(shù)據(jù)之前,所述方法還包括:
在所述統(tǒng)計周期內(nèi)接收針對所述網(wǎng)站的當(dāng)前訪問請求;依據(jù)所述當(dāng)前訪問請求中的IP地址識別所述當(dāng)前訪問請求為來自所述客戶端的訪問請求。
6.根據(jù)權(quán)利要求1至4中任一項所述的方法,其特征在于,確定所述客戶端對所述網(wǎng)站的訪問行為為搜索引擎爬蟲訪問之后,所述方法還包括:
將所述客戶端的標(biāo)識更新至本地的搜索引擎數(shù)據(jù)庫中;
按照與所述網(wǎng)站對應(yīng)的安全策略對針對所述搜索引擎數(shù)據(jù)庫中網(wǎng)站的訪問進(jìn) 行放行或攔截。
7.一種搜索引擎爬蟲的處理方法,其特征在于,包括:
獲取客戶端在統(tǒng)計周期的各個統(tǒng)計時間段內(nèi)對多個網(wǎng)站進(jìn)行訪問后統(tǒng)計得到的統(tǒng)計數(shù)據(jù),其中,所述各個統(tǒng)計時間段組成所述統(tǒng)計周期;
對所述統(tǒng)計數(shù)據(jù)中與指定統(tǒng)計參數(shù)對應(yīng)的數(shù)據(jù)進(jìn)行預(yù)處理,得到統(tǒng)計值,其中,該統(tǒng)計值用于反映在所述各個統(tǒng)計時間段內(nèi)針對所述客戶端的訪問行為的統(tǒng)計結(jié)果,所述指定統(tǒng)計參數(shù)用于反映所述統(tǒng)計數(shù)據(jù)的相同統(tǒng)計特征;
在每個所述指定統(tǒng)計參數(shù)對應(yīng)的統(tǒng)計值均大于預(yù)設(shè)閾值時,確定所述客戶端對所述網(wǎng)站的訪問行為為搜索引擎爬蟲訪問;
根據(jù)與所述網(wǎng)站對應(yīng)的安全策略對所述搜索引擎爬蟲訪問進(jìn)行放行或攔截。
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述指定統(tǒng)計參數(shù)包括以下至少之一:
在所述統(tǒng)計周期內(nèi)所述客戶端所訪問網(wǎng)站的數(shù)量和訪問頻率。
9.根據(jù)權(quán)利要求7所述的方法,其特征在于,對所述統(tǒng)計數(shù)據(jù)中與指定統(tǒng)計參數(shù)對應(yīng)的數(shù)據(jù)進(jìn)行預(yù)處理,得到統(tǒng)計值,包括:
對所述統(tǒng)計數(shù)據(jù)中與每個所述指定統(tǒng)計參數(shù)對應(yīng)的數(shù)據(jù)采用不同的運算方式進(jìn)行計算,得到與所述運算方式對應(yīng)的運算結(jié)果;
將各個所述運算結(jié)果按照預(yù)設(shè)權(quán)重進(jìn)行求和運算,得到所述統(tǒng)計值。
10.一種搜索引擎爬蟲的識別裝置,其特征在于,包括:
獲取模塊,用于獲取客戶端在統(tǒng)計周期的各個統(tǒng)計時間段內(nèi)對多個網(wǎng)站進(jìn)行訪問后統(tǒng)計得到的統(tǒng)計數(shù)據(jù),其中,所述各個統(tǒng)計時間段組成所述統(tǒng)計周期;
預(yù)處理模塊,用于對所述統(tǒng)計數(shù)據(jù)中與指定統(tǒng)計參數(shù)對應(yīng)的數(shù)據(jù)進(jìn)行預(yù)處理,得到統(tǒng)計值,其中,該統(tǒng)計值用于反映在所述各個統(tǒng)計時間段內(nèi)針對所述客戶端的訪問行為的統(tǒng)計結(jié)果,所述指定統(tǒng)計參數(shù)用于反映所述統(tǒng)計數(shù)據(jù)的相同統(tǒng)計特征;
識別模塊,用于在每個所述指定統(tǒng)計參數(shù)對應(yīng)的統(tǒng)計值均大于預(yù)設(shè)閾值時,確定所述客戶端的訪問過程為搜索引擎爬蟲訪問。
11.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述預(yù)處理模塊,用于對與以下至少之一所述指定統(tǒng)計參數(shù)對應(yīng)的數(shù)據(jù)進(jìn)行預(yù)處理:
在所述統(tǒng)計周期內(nèi)所述客戶端所訪問網(wǎng)站的訪問數(shù)量和訪問頻率。
12.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述預(yù)處理模塊包括:
第一運算單元,用于對所述統(tǒng)計數(shù)據(jù)中與每個所述指定統(tǒng)計參數(shù)對應(yīng)的數(shù)據(jù)采用不同的運算方式進(jìn)行計算,得到與所述運算方式對應(yīng)的運算結(jié)果;
第二運算單元,用于將各個所述運算結(jié)果按照預(yù)設(shè)權(quán)重進(jìn)行求和運算,得到所述統(tǒng)計值。
13.根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述第一運算單元,用于采用以下任意一種運算方式對所述指定統(tǒng)計參數(shù)對應(yīng)的數(shù)據(jù)進(jìn)行計算:求平均值、求最大值、求方差、求三倍方差和求中位值。
14.一種搜索引擎爬蟲的處理裝置,其特征在于,包括:
獲取模塊,用于獲取客戶端在統(tǒng)計周期的各個統(tǒng)計時間段內(nèi)對多個網(wǎng)站進(jìn)行訪問后統(tǒng)計得到的統(tǒng)計數(shù)據(jù),其中,所述各個統(tǒng)計時間段組成所述統(tǒng)計周期;
預(yù)處理模塊,用于對所述統(tǒng)計數(shù)據(jù)中與指定統(tǒng)計參數(shù)對應(yīng)的數(shù)據(jù)進(jìn)行預(yù)處理,得到統(tǒng)計值,其中,該統(tǒng)計值用于反映在所述各個統(tǒng)計時間段內(nèi)針對所述客戶端的訪問行為的統(tǒng)計結(jié)果,所述指定統(tǒng)計參數(shù)用于反映所述統(tǒng)計數(shù)據(jù)的相同統(tǒng)計特征;
識別模塊,用于在每個所述指定統(tǒng)計參數(shù)對應(yīng)的統(tǒng)計值均大于預(yù)設(shè)閾值時,確定所述客戶端的訪問過程為搜索引擎爬蟲訪問;
處理模塊,用于根據(jù)與所述網(wǎng)站對應(yīng)的安全策略對所述搜索引擎爬蟲訪問進(jìn)行放行或攔截。
15.根據(jù)權(quán)利要求14所述的裝置,其特征在于,所述預(yù)處理模塊,用于對與以下至少之一所述指定統(tǒng)計參數(shù)對應(yīng)的數(shù)據(jù)進(jìn)行預(yù)處理:
在所述統(tǒng)計周期內(nèi)所述客戶端所訪問網(wǎng)站的訪問數(shù)量和訪問頻率。
16.根據(jù)權(quán)利要求14所述的裝置,其特征在于,所述預(yù)處理模塊包括:
第一運算單元,用于對所述統(tǒng)計數(shù)據(jù)中與每個所述指定統(tǒng)計參數(shù)對應(yīng)的數(shù)據(jù)采用不同的運算方式進(jìn)行計算,得到與所述運算方式對應(yīng)的運算結(jié)果;
第二運算單元,用于將各個所述運算結(jié)果按照預(yù)設(shè)權(quán)重進(jìn)行求和運算,得到所述統(tǒng)計值。