網(wǎng)絡(luò)爬蟲檢測(cè)方法和裝置制造方法
【專利摘要】本發(fā)明實(shí)施例提供一種網(wǎng)絡(luò)爬蟲檢測(cè)方法和裝置,該方法包括:獲取客戶端訪問網(wǎng)頁(yè)中所包含的各統(tǒng)一資源定位符URL路徑信息;根據(jù)所述網(wǎng)頁(yè)的URL多插樹結(jié)構(gòu)以及所述URL路徑信息,確定所述客戶端訪問網(wǎng)頁(yè)的行為特征信息;根據(jù)所述行為特征信息,確定所述客戶端的訪問行為是否是網(wǎng)絡(luò)爬蟲。本發(fā)明實(shí)施例通過確定客戶端訪問網(wǎng)頁(yè)的行為特征信息,并判斷該行為特征信息是否符合網(wǎng)絡(luò)爬蟲的行為特征信息,從而確定客戶端的訪問是否是網(wǎng)絡(luò)爬蟲,可以提高網(wǎng)絡(luò)爬蟲檢測(cè)的準(zhǔn)確率。
【專利說(shuō)明】網(wǎng)絡(luò)爬蟲檢測(cè)方法和裝置
【技術(shù)領(lǐng)域】
[0001 ] 本發(fā)明涉及網(wǎng)絡(luò)技術(shù),尤其涉及一種網(wǎng)絡(luò)爬蟲檢測(cè)方法和裝置。
【背景技術(shù)】
[0002]網(wǎng)絡(luò)爬蟲是搜索引擎技術(shù)的基礎(chǔ)組成部分。網(wǎng)絡(luò)爬蟲技術(shù)是從一個(gè)或若干初始網(wǎng)頁(yè)的URL (Uniform Resource Locator,統(tǒng)一資源定位符)開始,獲得初始網(wǎng)頁(yè)上的URL,在抓取網(wǎng)頁(yè)信息的過程中,根據(jù)網(wǎng)頁(yè)的抓取策略,不斷從當(dāng)前頁(yè)面上抽取新的URL放入隊(duì)列,直到滿足某種停止條件。然后將抓取到的網(wǎng)頁(yè)信息存儲(chǔ)在搜索引擎的服務(wù)器中,從而可以加快用戶的搜索速度。
[0003]現(xiàn)有技術(shù)中檢測(cè)網(wǎng)絡(luò)爬蟲是通過設(shè)置閾值的方法來(lái)實(shí)現(xiàn)的,即統(tǒng)計(jì)同一時(shí)刻客戶端的IP地址訪問服務(wù)器端的IP地址時(shí)的會(huì)話連接數(shù),若訪問時(shí)的會(huì)話連接數(shù)超過了設(shè)置的閾值,則認(rèn)為該IP地址對(duì)應(yīng)的客戶端正在通過網(wǎng)絡(luò)爬蟲抓取網(wǎng)頁(yè)。
[0004]在實(shí)現(xiàn)本發(fā)明實(shí)施例的過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)中,當(dāng)客戶端的IP地址正常訪問服務(wù)器的IP地址時(shí),訪問時(shí)的會(huì)話連接數(shù)也可能會(huì)超過設(shè)置的閾值,此時(shí)現(xiàn)有技術(shù)會(huì)誤認(rèn)為是網(wǎng)絡(luò)爬蟲從而造成誤檢。
【發(fā)明內(nèi)容】
[0005]本發(fā)明實(shí)施例提供一種網(wǎng)絡(luò)爬蟲檢測(cè)方法和裝置,可以解決通過設(shè)置閾值的方法會(huì)將正常訪問網(wǎng)絡(luò)誤檢為網(wǎng)絡(luò)爬蟲的問題,從而用以提高網(wǎng)絡(luò)爬蟲檢測(cè)的準(zhǔn)確率。
[0006]在一方面中,本發(fā)明實(shí)施例提供一種網(wǎng)絡(luò)爬蟲檢測(cè)方法,包括:
[0007]獲取客戶端訪問網(wǎng)頁(yè)中所包含的各統(tǒng)一資源定位符URL路徑信息;
[0008]根據(jù)所述網(wǎng)頁(yè)的URL多插樹結(jié)構(gòu)以及所述URL路徑信息,確定所述客戶端訪問網(wǎng)頁(yè)的行為特征信息;
[0009]根據(jù)所述行為特征信息,確定所述客戶端的訪問行為是否是網(wǎng)絡(luò)爬蟲。
[0010]在上述一方面的第一種可能的實(shí)現(xiàn)方式中,所述根據(jù)所述網(wǎng)頁(yè)的URL多插樹結(jié)構(gòu)以及所述URL路徑信息,確定所述客戶端訪問網(wǎng)頁(yè)的行為特征信息,包括:根據(jù)所述網(wǎng)頁(yè)的URL多插樹結(jié)構(gòu)以及所述URL路徑信息,確定所述客戶端的行為特征信息為遞歸搜索行為特征信息;
[0011]所述根據(jù)所述行為特征信息,確定所述客戶端的訪問行為是否是網(wǎng)絡(luò)爬蟲,包括:根據(jù)所述遞歸搜索行為特征信息,確定所述客戶端的訪問行為是網(wǎng)絡(luò)爬蟲。
[0012]在上述一方面的第一種可能的實(shí)現(xiàn)方式中的第二種可能實(shí)現(xiàn)的方式中,所述根據(jù)所述網(wǎng)頁(yè)的URL多插樹結(jié)構(gòu)以及所述URL路徑信息,確定所述客戶端的行為特征信息為遞歸搜索行為特征信息,包括:根據(jù)所述網(wǎng)頁(yè)的URL多插樹結(jié)構(gòu)以及所述URL路徑信息,確定所述客戶端的遞歸搜索行為特征信息為進(jìn)行逐級(jí)廣度搜索的行為特征信息或?yàn)檫M(jìn)行逐級(jí)深度搜索的行為特征信息。
[0013]在上述一方面或上述一方面的第一種可能的實(shí)現(xiàn)方式或上述一方面的第二種可能的實(shí)現(xiàn)方式中的第三種可能的實(shí)現(xiàn)方式中,所述根據(jù)所述網(wǎng)頁(yè)的URL多插樹結(jié)構(gòu)以及所述URL路徑信息,確定所述客戶端訪問網(wǎng)頁(yè)的行為特征信息之前,還包括:采用網(wǎng)絡(luò)爬蟲技術(shù)抓取網(wǎng)頁(yè)信息,建立所述URL多插樹結(jié)構(gòu)。
[0014]在上述一方面或上述一方面的第一種可能的實(shí)現(xiàn)方式或上述一方面的第二種可能的實(shí)現(xiàn)方式中的第四種可能的實(shí)現(xiàn)方式中,所述獲取客戶端訪問網(wǎng)頁(yè)中各URL路徑信息之前,還包括:確定所述客戶端與網(wǎng)頁(yè)服務(wù)器之間的連接數(shù)超過預(yù)設(shè)閾值。
[0015]在另一方面中,本發(fā)明實(shí)施例還提供一種網(wǎng)絡(luò)爬蟲檢測(cè)裝置,包括:
[0016]獲取模塊,用于獲取客戶端訪問網(wǎng)頁(yè)中所包含的各統(tǒng)一資源定位符URL路徑信息;
[0017]第一確定模塊,用于根據(jù)所述網(wǎng)頁(yè)的URL多插樹結(jié)構(gòu)以及所述URL路徑信息,確定所述客戶端訪問網(wǎng)頁(yè)的行為特征信息;
[0018]第二確定模塊,用于根據(jù)所述行為特征信息,確定所述客戶端的訪問行為是否是網(wǎng)絡(luò)爬蟲。
[0019]在上述另一方面的第一種可能的實(shí)現(xiàn)方式中,所述第一確定模塊包括第一確定單元,所述第二確定模塊包括第二確定單元;所述第一確定單元,用于根據(jù)所述網(wǎng)頁(yè)的URL多插樹結(jié)構(gòu)以及所述URL路徑信息,確定所述客戶端的行為特征信息為遞歸搜索行為特征信息;所述第二確定單元,用于根據(jù)所述遞歸搜索行為特征信息,確定所述客戶端的訪問行為是網(wǎng)絡(luò)爬蟲。
[0020]在上述另一方面的第一種可能的實(shí)現(xiàn)方式中的第二種可能的實(shí)現(xiàn)方式中,所述第一確定單元,具體用于根據(jù)所述網(wǎng)頁(yè)的URL多插樹結(jié)構(gòu)以及所述URL路徑信息,確定所述客戶端的遞歸搜索行為特征信息為進(jìn)行逐級(jí)廣度搜索的行為特征信息或?yàn)檫M(jìn)行逐級(jí)深度搜索的行為特征信息。
[0021]在上述另一方面或上述另一方面的第一種可能的實(shí)現(xiàn)方式或上述另一方面的第二種可能的實(shí)現(xiàn)方式中的第三種可能的實(shí)現(xiàn)方式中,還包括:
[0022]預(yù)處理模塊,用于在確定所述客戶端訪問網(wǎng)頁(yè)的行為特征信息之前采用網(wǎng)絡(luò)爬蟲技術(shù)抓取網(wǎng)頁(yè)信息,建立所述URL多插樹結(jié)構(gòu)。
[0023]在上述另一方面或上述另一方面的第一種可能的實(shí)現(xiàn)方式或上述另一方面的第二種可能的實(shí)現(xiàn)方式中的第四種可能的實(shí)現(xiàn)方式中,還包括:
[0024]第三確定模塊,用于在獲取客戶端訪問網(wǎng)頁(yè)中各URL路徑信息之前,確定所述客戶端與網(wǎng)頁(yè)服務(wù)器之間的連接數(shù)超過預(yù)設(shè)閾值。
[0025]本發(fā)明實(shí)施例提供的網(wǎng)絡(luò)爬蟲檢測(cè)方法和裝置,通過確定客戶端訪問網(wǎng)頁(yè)服務(wù)器中網(wǎng)頁(yè)的各URL路徑信息,并根據(jù)該網(wǎng)頁(yè)服務(wù)器中網(wǎng)頁(yè)的URL多插樹結(jié)構(gòu)和URL路徑信息,確定客戶端訪問網(wǎng)頁(yè)的行為特征信息,并判斷該行為特征信息是否符合網(wǎng)絡(luò)爬蟲的行為特征信息,從而確定客戶端的訪問是否是網(wǎng)絡(luò)爬蟲,可以提高網(wǎng)絡(luò)爬蟲檢測(cè)的準(zhǔn)確率,解決了設(shè)置閾值法會(huì)將正常訪問行為誤檢為網(wǎng)絡(luò)爬蟲的問題。
【專利附圖】
【附圖說(shuō)明】
[0026]為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作一簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0027]圖1為本發(fā)明網(wǎng)絡(luò)爬蟲檢測(cè)方法實(shí)施例一的流程圖;
[0028]圖2為圖1中URL多插樹結(jié)構(gòu)的示意圖;
[0029]圖3為本發(fā)明網(wǎng)絡(luò)爬蟲檢測(cè)方法實(shí)施例二的流程圖;
[0030]圖4為本發(fā)明網(wǎng)絡(luò)爬蟲檢測(cè)裝置實(shí)施例一的結(jié)構(gòu)示意圖;
[0031]圖5為本發(fā)明網(wǎng)絡(luò)爬蟲檢測(cè)裝置實(shí)施例二的結(jié)構(gòu)示意圖;
[0032]圖6為包含本發(fā)明網(wǎng)絡(luò)爬蟲檢測(cè)裝置的系統(tǒng)實(shí)施例的示意圖。
【具體實(shí)施方式】
[0033]為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0034]圖1為本發(fā)明網(wǎng)絡(luò)爬蟲檢測(cè)方法實(shí)施例一的流程圖,如圖1所示,本實(shí)施例的方法可以包括:
[0035]步驟101、獲取客戶端訪問網(wǎng)頁(yè)中所包含的各URL路徑信息;
[0036]URL是用于完整描述因特網(wǎng)Internet上網(wǎng)頁(yè)和其他資源的地址的一種標(biāo)識(shí)方法,對(duì)應(yīng)地,Internet上的每一個(gè)網(wǎng)頁(yè)都具有一個(gè)唯一的URL。當(dāng)客戶端需要訪問網(wǎng)頁(yè)服務(wù)器中的網(wǎng)頁(yè)時(shí),就要先獲取到該網(wǎng)頁(yè)的URL。本實(shí)施例需要獲取到訪問該網(wǎng)頁(yè)的URL路徑信
肩、O
[0037]步驟102、根據(jù)網(wǎng)頁(yè)的URL多插樹結(jié)構(gòu)以及URL路徑信息,確定客戶端訪問網(wǎng)頁(yè)的行為特征信息;
[0038]一個(gè)網(wǎng)頁(yè)服務(wù)器的網(wǎng)站在建立時(shí),各網(wǎng)頁(yè)的URL之間的關(guān)聯(lián)關(guān)系也相應(yīng)地被建立了,即形成了 URL多插樹結(jié)構(gòu)。圖2為圖1中URL多插樹結(jié)構(gòu)的示意圖,如圖2所示,獲取首頁(yè)的URL可以訪問首頁(yè)信息,通過首頁(yè)可以獲取到該首頁(yè)包含的所有下一級(jí)網(wǎng)頁(yè)中的URLUURL2和URL3等并且可以訪問各URL對(duì)應(yīng)的網(wǎng)頁(yè)信息,還可以通過各下一級(jí)的網(wǎng)頁(yè)獲取到該各網(wǎng)頁(yè)中所包含的再下一級(jí)的網(wǎng)頁(yè)中的URLl-1、URLl-2等并且可以訪問各URL對(duì)應(yīng)的網(wǎng)頁(yè)信息,以及類推。根據(jù)URL多插樹結(jié)構(gòu),客戶端可以訪問網(wǎng)頁(yè)服務(wù)器的所有網(wǎng)頁(yè)。若客戶端訪問了網(wǎng)頁(yè)服務(wù)器中的URL1-1對(duì)應(yīng)的網(wǎng)頁(yè)和URL2-1對(duì)應(yīng)的網(wǎng)頁(yè),則客戶端訪問網(wǎng)頁(yè)的行為特征信息是 URL-URL1-URL1-1 和 URL — URL2 — URL2-1。
[0039]需要說(shuō)明的是,本實(shí)施例中的URL多插樹結(jié)構(gòu)并不限定為圖2所示結(jié)構(gòu)。
[0040]步驟103、根據(jù)行為特征信息,確定客戶端的訪問行為是否是網(wǎng)絡(luò)爬蟲。
[0041]將確定的客戶端的行為特征信息與網(wǎng)絡(luò)爬蟲的行為特征信息進(jìn)行比較;網(wǎng)絡(luò)爬蟲的行為特征信息是從任一網(wǎng)頁(yè)的URL開始,獲取該任一網(wǎng)頁(yè)的網(wǎng)頁(yè)信息,然后不斷獲取該任一網(wǎng)頁(yè)中包含的URL并抓取該URL對(duì)應(yīng)的網(wǎng)頁(yè)信息,以此類推,直到發(fā)現(xiàn)沒有未被獲取的URL為止,即網(wǎng)絡(luò)爬蟲將網(wǎng)頁(yè)服務(wù)器中網(wǎng)頁(yè)的URL多插樹結(jié)構(gòu)中所有的URL都遍歷了一次。若客戶端的行為特征符合網(wǎng)絡(luò)爬蟲的行為特征,則確定該客戶端的訪問行為是網(wǎng)絡(luò)爬蟲;若客戶端的行為特征不符合網(wǎng)絡(luò)爬蟲的行為特征,則確定該客戶端的訪問行為不是網(wǎng)絡(luò)爬蟲,而是正常訪問行為。
[0042]本實(shí)施例,通過獲取客戶端訪問網(wǎng)頁(yè)服務(wù)器中網(wǎng)頁(yè)的各URL路徑信息,并根據(jù)該網(wǎng)頁(yè)服務(wù)器中網(wǎng)頁(yè)的URL多插樹結(jié)構(gòu)和URL路徑信息,確定客戶端訪問網(wǎng)頁(yè)的行為特征信息,并判斷該行為特征信息是否符合網(wǎng)絡(luò)爬蟲的行為特征信息,從而確定客戶端的訪問是否是網(wǎng)絡(luò)爬蟲,可以提高網(wǎng)絡(luò)爬蟲檢測(cè)的準(zhǔn)確率,解決了設(shè)置閾值法會(huì)將正常訪問行為誤檢為網(wǎng)絡(luò)爬蟲的問題。
[0043]圖3為本發(fā)明網(wǎng)絡(luò)爬蟲檢測(cè)方法實(shí)施例二的流程圖,如圖3所示,本實(shí)施例的網(wǎng)絡(luò)爬蟲檢測(cè)方法在圖1所示方法實(shí)施例一的基礎(chǔ)上更加詳細(xì)的介紹本發(fā)明的技術(shù)方案,本實(shí)施例的方法具體可以包括:
[0044]步驟301、采用網(wǎng)絡(luò)爬蟲技術(shù)抓取網(wǎng)頁(yè)信息,建立URL多插樹結(jié)構(gòu)。
[0045]一個(gè)網(wǎng)頁(yè)服務(wù)器中具有非常多的URL并且各URL之間的關(guān)系也是錯(cuò)綜復(fù)雜的,為了清楚地獲取并表示URL之間的關(guān)系,可以通過建立URL多插樹結(jié)構(gòu),由于網(wǎng)絡(luò)爬蟲抓取網(wǎng)頁(yè)的速度非??於颐總€(gè)網(wǎng)頁(yè)只獲取一次,可以準(zhǔn)確抓取到每個(gè)網(wǎng)頁(yè),因此,可以采用網(wǎng)絡(luò)爬蟲軟件通過網(wǎng)絡(luò)爬蟲技術(shù)快速抓取網(wǎng)頁(yè)服務(wù)器中各網(wǎng)頁(yè)信息,并將各網(wǎng)頁(yè)中的URL建立成URL多插樹結(jié)構(gòu),以便將所有網(wǎng)頁(yè)的URL都關(guān)聯(lián)起來(lái)。
[0046]具體地,采用網(wǎng)絡(luò)爬蟲技術(shù)抓取所需保護(hù)的網(wǎng)頁(yè)信息,建立所需保護(hù)的網(wǎng)頁(yè)的URL多插樹結(jié)構(gòu)。先配置所需保護(hù)網(wǎng)頁(yè)服務(wù)器的IP地址,則該網(wǎng)頁(yè)服務(wù)器中的所有網(wǎng)頁(yè)信息均是所需保護(hù)的網(wǎng)頁(yè)信息,再設(shè)置該網(wǎng)頁(yè)服務(wù)器中的首頁(yè)URL,然后與該網(wǎng)頁(yè)服務(wù)器的IP地址建立連接,網(wǎng)絡(luò)爬蟲軟件主動(dòng)抓取到首頁(yè)URL后再抓取該網(wǎng)頁(yè)服務(wù)器的所有網(wǎng)頁(yè)的URL,相應(yīng)地,建立了所需保護(hù)的網(wǎng)頁(yè)的URL多插樹結(jié)構(gòu)。
[0047]步驟302、確定客戶端與網(wǎng)頁(yè)服務(wù)器之間的連接數(shù)是否超過預(yù)設(shè)閾值,若超過,則執(zhí)行步驟303,否則結(jié)束。
[0048]客戶端訪問網(wǎng)頁(yè)服務(wù)器的網(wǎng)頁(yè)時(shí),每獲取一個(gè)URL并訪問該網(wǎng)頁(yè)時(shí)對(duì)應(yīng)地客戶端與網(wǎng)頁(yè)服務(wù)器之間就會(huì)產(chǎn)生一個(gè)會(huì)話連接數(shù),若客戶端是通過網(wǎng)絡(luò)爬蟲抓取網(wǎng)頁(yè)時(shí),需要將網(wǎng)頁(yè)服務(wù)器的所有網(wǎng)頁(yè)都抓取到,因此,一般來(lái)說(shuō),進(jìn)行網(wǎng)絡(luò)爬蟲的客戶端與網(wǎng)頁(yè)服務(wù)器之間的會(huì)話連接數(shù)要大于正常訪問下的客戶端與網(wǎng)頁(yè)服務(wù)器之間的會(huì)話連接數(shù)。因此,可以通過預(yù)設(shè)閾值的方法對(duì)客戶端訪問網(wǎng)頁(yè)服務(wù)器的行為進(jìn)行一個(gè)預(yù)判斷,首先設(shè)置一個(gè)閾值,本領(lǐng)域普通技術(shù)人員可以理解,預(yù)設(shè)的閾值大小可以根據(jù)網(wǎng)頁(yè)服務(wù)器的情況來(lái)進(jìn)行設(shè)置,因此,本發(fā)明在此不做限制。統(tǒng)計(jì)客戶端與網(wǎng)頁(yè)服務(wù)器之間的會(huì)話連接個(gè)數(shù),若確定該會(huì)話連接個(gè)數(shù)超過預(yù)設(shè)的閾值時(shí),則說(shuō)明客戶端可能通過網(wǎng)絡(luò)爬蟲在訪問網(wǎng)頁(yè)服務(wù)器的網(wǎng)頁(yè),為了準(zhǔn)確地確定客戶端的訪問行為,可以通過上述各實(shí)施例提供的網(wǎng)絡(luò)爬蟲檢測(cè)方法對(duì)客戶端的行為進(jìn)行進(jìn)一步確定;若確定該連接個(gè)數(shù)沒有超過預(yù)設(shè)的閾值時(shí),則說(shuō)明客戶端在正常訪問網(wǎng)頁(yè)服務(wù)器,結(jié)束檢測(cè)行為。
[0049]通過預(yù)設(shè)閾值法對(duì)客戶端與網(wǎng)頁(yè)服務(wù)器之間的連接數(shù)進(jìn)行一個(gè)預(yù)判斷,確定客戶端與網(wǎng)頁(yè)服務(wù)器之間的連接數(shù)超過預(yù)設(shè)閾值后,再通過客戶端的行為特征信息進(jìn)一步確定客戶端的訪問行為是否是網(wǎng)絡(luò)爬蟲,從而可以進(jìn)一步提高網(wǎng)絡(luò)爬蟲檢測(cè)的準(zhǔn)確率,解決了設(shè)置閾值法會(huì)將正常訪問行為誤檢為網(wǎng)絡(luò)爬蟲的問題。
[0050]步驟303、獲取客戶端訪問網(wǎng)頁(yè)中所包含的各URL路徑信息;
[0051]步驟304、根據(jù)網(wǎng)頁(yè)的URL多插樹結(jié)構(gòu)以及URL路徑信息,確定客戶端的行為特征信息為遞歸搜索行為特征信息;
[0052]需要說(shuō)明的是,本實(shí)施例中的步驟301只要在步驟304之前執(zhí)行即可,例如,該步驟301也可以在步驟303之前執(zhí)行,本實(shí)施例不作限定。
[0053]步驟305、根據(jù)遞歸搜索行為特征信息,確定客戶端的訪問行為是網(wǎng)絡(luò)爬蟲。
[0054]本實(shí)施例需要根據(jù)網(wǎng)頁(yè)的URL多插樹結(jié)構(gòu)以及URL路徑信息,確定客戶端的行為特征信息,并判斷客戶端的行為特征信息是否為遞歸搜索行為特征信息。遞歸搜索的行為特征信息具體可以包括逐級(jí)廣度搜索的行為特征信息和逐級(jí)深度搜索的行為特征信息,而網(wǎng)絡(luò)爬蟲也會(huì)通過逐級(jí)廣度搜索和逐級(jí)深度搜索去抓取網(wǎng)頁(yè)。因此,只要判斷客戶的行為特征信息是否為遞歸搜索行為特征信息,即可確定客戶端訪問網(wǎng)頁(yè)的行為;若確定客戶端的行為特征信息是遞歸搜索行為特征信息,則客戶端是通過網(wǎng)絡(luò)爬蟲訪問網(wǎng)頁(yè);若確定客戶端的行為特征信息不是遞歸搜索行為特征信息,則客戶端是正常訪問網(wǎng)頁(yè)。
[0055]本實(shí)施例,通過獲取客戶端訪問網(wǎng)頁(yè)服務(wù)器中網(wǎng)頁(yè)的各URL路徑信息,并根據(jù)該網(wǎng)頁(yè)服務(wù)器中網(wǎng)頁(yè)的URL多插樹結(jié)構(gòu)和URL路徑信息,確定客戶端訪問網(wǎng)頁(yè)的行為特征信息為遞歸搜索行為特征信息時(shí),則可確定客戶端的訪問網(wǎng)頁(yè)行為是網(wǎng)絡(luò)爬蟲,從而可以提高網(wǎng)絡(luò)爬蟲檢測(cè)的準(zhǔn)確率,解決了設(shè)置閾值法會(huì)將正常訪問行為誤檢為網(wǎng)絡(luò)爬蟲的問題。
[0056]在具體實(shí)現(xiàn)時(shí),上述圖3所示實(shí)施例可以采用如下兩種具體的實(shí)施例實(shí)現(xiàn)。
[0057]在本發(fā)明網(wǎng)絡(luò)爬蟲檢測(cè)方法實(shí)施例三中,上述步驟304可以具體為:根據(jù)網(wǎng)頁(yè)的URL多插樹結(jié)構(gòu)以及URL路徑信息,確定客戶端的遞歸搜索行為特征信息為進(jìn)行逐級(jí)廣度搜索的行為特征信息;步驟305可以具體為:根據(jù)逐級(jí)廣度搜索的行為特征信息,確定客戶端的訪問行為是網(wǎng)絡(luò)爬蟲。
[0058]具體來(lái)說(shuō),逐級(jí)廣度搜索的行為特征信息是指在訪問網(wǎng)頁(yè)的過程中,在獲取完當(dāng)前級(jí)的URL對(duì)應(yīng)的網(wǎng)頁(yè)后,才獲取當(dāng)前級(jí)網(wǎng)頁(yè)中包含的下一級(jí)網(wǎng)頁(yè)的URL,以此類推,直到將網(wǎng)頁(yè)中所有的URL遍歷一次并且沒有發(fā)現(xiàn)未被獲取的URL為止,結(jié)束訪問網(wǎng)頁(yè)行為。如圖2所示,逐級(jí)廣度搜索的行為特征信息可以是第一步獲取首頁(yè)URL并訪問首頁(yè)信息,第二步獲取首頁(yè)中下一級(jí)網(wǎng)頁(yè)的URL1、URL2和URL3等并且訪問各URL對(duì)應(yīng)的各網(wǎng)頁(yè)信息,第三步獲取URLl-1和URL1-2等、URL2-1和URL2-1等以及URL3-1和URL3-2等并且訪問各URL對(duì)應(yīng)的各網(wǎng)頁(yè)信息,第四步獲取剛剛獲取過的URL對(duì)應(yīng)網(wǎng)頁(yè)中下一級(jí)網(wǎng)頁(yè)的URL并且訪問各URL對(duì)應(yīng)的各網(wǎng)頁(yè)信息,以此類推,直到發(fā)現(xiàn)沒有未被獲取的URL時(shí)則停止訪問網(wǎng)頁(yè)的行為。若根據(jù)網(wǎng)頁(yè)的URL多插樹結(jié)構(gòu)以及URL路徑信息,判斷客戶端的行為特征信息為如上所述的行為特征信息,則確定客戶端的遞歸搜索行為特征信息為進(jìn)行逐級(jí)廣度搜索的行為特征信息。根據(jù)確定逐級(jí)廣度搜索的行為特征信息,而且由于該行為特征信息符合網(wǎng)絡(luò)爬蟲抓取網(wǎng)頁(yè)的行為特征信息,所以此時(shí)可以確定該客戶端的訪問行為是網(wǎng)絡(luò)爬蟲。
[0059]本實(shí)施例,通過獲取客戶端訪問網(wǎng)頁(yè)服務(wù)器中網(wǎng)頁(yè)的各URL路徑信息,并根據(jù)該網(wǎng)頁(yè)服務(wù)器中網(wǎng)頁(yè)的URL多插樹結(jié)構(gòu)和URL路徑信息,確定客戶端訪問網(wǎng)頁(yè)的遞歸搜索行為特征信息為進(jìn)行逐級(jí)廣度搜索的行為特征信息時(shí),則確定客戶端的訪問行為是網(wǎng)絡(luò)爬蟲,從而可以提高網(wǎng)絡(luò)爬蟲檢測(cè)的準(zhǔn)確率,解決了設(shè)置閾值法會(huì)將正常訪問行為誤檢為網(wǎng)絡(luò)爬蟲的問題。
[0060]在本發(fā)明網(wǎng)絡(luò)爬蟲檢測(cè)方法實(shí)施例四中,上述步驟304可以具體為:根據(jù)網(wǎng)頁(yè)的URL多插樹結(jié)構(gòu)以及URL路徑信息,確定客戶端的遞歸搜索行為特征信息為進(jìn)行逐級(jí)深度搜索的行為特征信息;上述步驟305可以具體為:根據(jù)逐級(jí)深度搜索的行為特征信息,確定客戶端的訪問行為是網(wǎng)絡(luò)爬蟲。
[0061]具體來(lái)說(shuō),逐級(jí)深度搜索的行為特征信息是指在訪問網(wǎng)頁(yè)的過程中,在獲取完當(dāng)前級(jí)的URL對(duì)應(yīng)的網(wǎng)頁(yè)后,才獲取當(dāng)前網(wǎng)頁(yè)包含的下一級(jí)中一個(gè)網(wǎng)頁(yè)的URL,以此類推,直到這一條網(wǎng)頁(yè)連接鏈路中沒有發(fā)現(xiàn)未被獲取的URL為止,再返回獲取另一條網(wǎng)頁(yè)連接鏈路中網(wǎng)頁(yè)的URL,并且每個(gè)網(wǎng)頁(yè)的URL只能獲取一次,以此類推,直到將網(wǎng)頁(yè)中所有的URL遍歷一次并且沒有發(fā)現(xiàn)未被獲取的URL為止,結(jié)束訪問網(wǎng)頁(yè)行為。如圖2所示,逐級(jí)深度搜索的行為特征信息可以是首先獲取首頁(yè)URL并訪問首頁(yè)信息;然后,第一步獲取第一條網(wǎng)頁(yè)連接鏈路中各網(wǎng)頁(yè)的URL,即先獲取URL1,再獲取URL1-1,直到第一條網(wǎng)頁(yè)連接鏈路中沒有未被獲取的URL為止;第二步獲取第二條網(wǎng)頁(yè)連接鏈路中未被獲取的各網(wǎng)頁(yè)的URL,即獲取URL1-2,直到第二條網(wǎng)頁(yè)連接鏈路中沒有未被獲取的URL為止;第三步獲取第三條網(wǎng)頁(yè)連接鏈路中未被獲取的各網(wǎng)頁(yè)的URL,即先獲取URL2,再獲取URL2-1,直到第三條網(wǎng)頁(yè)連接鏈路中沒有未被獲取的URL為止;第四步獲取第四條網(wǎng)頁(yè)連接鏈路中未被獲取的各網(wǎng)頁(yè)的URL,即獲取URL2-2,直到第四條網(wǎng)頁(yè)連接鏈路中沒有未被獲取的URL為止;第五步獲取第五條網(wǎng)頁(yè)連接鏈路中未被獲取的各網(wǎng)頁(yè)的URL,即先獲取順序URL3,再獲取URL3-1,直到第五條網(wǎng)頁(yè)連接鏈路中沒有未被獲取的URL為止;第六步獲取第六條網(wǎng)頁(yè)連接鏈路中未被獲取的各網(wǎng)頁(yè)的URL,即獲取順序?yàn)閁RL3-2,直到第六條網(wǎng)頁(yè)連接鏈路中沒有未被獲取的URL為止;以此類推,直到發(fā)現(xiàn)沒有未被獲取的URL時(shí)則停止訪問網(wǎng)頁(yè)的行為。若根據(jù)網(wǎng)頁(yè)的URL多插樹結(jié)構(gòu)以及URL路徑信息,判斷客戶端的行為特征信息為如上所述的行為特征信息,則確定客戶端的遞歸搜索行為特征信息為進(jìn)行逐級(jí)深度搜索的行為特征信息。根據(jù)確定客戶端的遞歸搜索行為特征信息為進(jìn)行逐級(jí)深度搜索的行為特征信息,而且由于該行為特征信息符合網(wǎng)絡(luò)爬蟲抓取網(wǎng)頁(yè)的行為特征信息,所以此時(shí)可以確定該客戶端的訪問行為是網(wǎng)絡(luò)爬蟲。
[0062]本實(shí)施例,通過獲取客戶端訪問網(wǎng)頁(yè)服務(wù)器中網(wǎng)頁(yè)的各URL路徑信息,并根據(jù)該網(wǎng)頁(yè)服務(wù)器中網(wǎng)頁(yè)的URL多插樹結(jié)構(gòu)和URL路徑信息,確定客戶端訪問網(wǎng)頁(yè)的遞歸搜索行為特征信息為進(jìn)行逐級(jí)深度搜索的行為特征信息時(shí),則確定客戶端的訪問行為是網(wǎng)絡(luò)爬蟲,從而可以提高網(wǎng)絡(luò)爬蟲檢測(cè)的準(zhǔn)確率,解決了設(shè)置閾值法會(huì)將正常訪問行為誤檢為網(wǎng)絡(luò)爬蟲的問題。
[0063]例如在NAT (Network Address Translation,網(wǎng)絡(luò)地址轉(zhuǎn)換)場(chǎng)景下,也就是,一個(gè)局域網(wǎng)中具有很多個(gè)用戶,各個(gè)用戶對(duì)應(yīng)著一個(gè)私有地址,當(dāng)各個(gè)用戶通過路由器發(fā)送數(shù)據(jù)時(shí),各個(gè)用戶的私有地址會(huì)被轉(zhuǎn)換成合法的IP地址,這有助于減緩可用IP地址空間的枯竭,該IP地址可以為少量的幾個(gè),甚至也可以是一個(gè)。如果該合法的IP地址為一個(gè)時(shí),該局域網(wǎng)中的很多個(gè)用戶在同時(shí)訪問同一服務(wù)器時(shí),采用現(xiàn)有技術(shù)的預(yù)設(shè)閾值方法,此時(shí)會(huì)將這個(gè)局域網(wǎng)中很多個(gè)用戶的正常訪問行為誤認(rèn)為是該IP地址對(duì)應(yīng)的一個(gè)用戶的行為是網(wǎng)絡(luò)爬蟲行為,從而引起錯(cuò)誤的操作行為。采用上述本發(fā)明各實(shí)施例提供的網(wǎng)絡(luò)爬蟲檢測(cè)方法,就有效避免了在NAT場(chǎng)景下將正常訪問行為誤檢為網(wǎng)絡(luò)爬蟲行為。
[0064]圖4為本發(fā)明網(wǎng)絡(luò)爬蟲檢測(cè)裝置實(shí)施例一的結(jié)構(gòu)示意圖,如圖4所示,本實(shí)施例的裝置可以包括:獲取模塊11、第一確定模塊12和第二確定模塊13。其中,獲取模塊11,用于獲取客戶端訪問網(wǎng)頁(yè)中所包含的各統(tǒng)一資源定位符URL路徑信息;第一確定模塊12,用于根據(jù)網(wǎng)頁(yè)的URL多插樹結(jié)構(gòu)以及URL路徑信息,確定客戶端訪問網(wǎng)頁(yè)的行為特征信息;第二確定模塊13,用于根據(jù)行為特征信息,確定客戶端的訪問行為是否是網(wǎng)絡(luò)爬蟲。
[0065]本實(shí)施例的裝置,可以用于執(zhí)行圖1所示方法實(shí)施例的技術(shù)方案,其實(shí)現(xiàn)原理和技術(shù)效果類似,詳細(xì)可以參考上述實(shí)施例的記載,此處不再贅述。
[0066]圖5為本發(fā)明網(wǎng)絡(luò)爬蟲檢測(cè)裝置實(shí)施例二的結(jié)構(gòu)示意圖,如圖5所示,本實(shí)施例的網(wǎng)絡(luò)爬蟲檢測(cè)裝置在圖4所示裝置結(jié)構(gòu)的基礎(chǔ)上,進(jìn)一步地,第一確定模塊12可以包括第一確定單元121,第二確定模塊13可以包括第二確定單元131,第一確定單元121與第二確定單元131相連。其中,第一確定單元121,用于根據(jù)網(wǎng)頁(yè)的URL多插樹結(jié)構(gòu)以及URL路徑信息,確定客戶端的行為特征信息為遞歸搜索行為特征信息;第二確定單元131,用于根據(jù)遞歸搜索行為特征信息,確定客戶端的訪問行為是網(wǎng)絡(luò)爬蟲。
[0067]進(jìn)一步地,本實(shí)施例還可以包括預(yù)處理模塊14,該預(yù)處理模塊14用于在確定客戶端訪問網(wǎng)頁(yè)的行為特征信息之前采用網(wǎng)絡(luò)爬蟲技術(shù)抓取網(wǎng)頁(yè)信息,建立URL多插樹結(jié)構(gòu)。具體地,該預(yù)處理模塊14可以用于采用網(wǎng)絡(luò)爬蟲技術(shù)抓取所需保護(hù)的網(wǎng)頁(yè)信息,建立所需保護(hù)的網(wǎng)頁(yè)的URL多插樹結(jié)構(gòu)。
[0068]進(jìn)一步地,本實(shí)施例還可以包括第三確定模塊15,該第三確定模塊15用于在獲取客戶端訪問網(wǎng)頁(yè)中各URL路徑信息之前,確定客戶端與網(wǎng)頁(yè)服務(wù)器之間的連接數(shù)超過預(yù)設(shè)閾值。
[0069]需要說(shuō)明的是,本實(shí)施例中的預(yù)處理模塊14可以與第三確定模塊15相連,預(yù)處理模塊14也可以與獲取模塊11相連,本實(shí)施例不作限定。
[0070]本實(shí)施例的裝置,可以用于執(zhí)行圖3所示方法實(shí)施例的技術(shù)方案,其實(shí)現(xiàn)原理和技術(shù)效果類似,詳細(xì)可以參考上述實(shí)施例的記載,此處不再贅述。
[0071]在具體實(shí)現(xiàn)時(shí),上述圖5所示實(shí)施例可以采用如下兩種具體的實(shí)施例實(shí)現(xiàn)。
[0072]在本發(fā)明網(wǎng)絡(luò)爬蟲檢測(cè)裝置實(shí)施例三中,上述第一確定單元121可以具體用于根據(jù)網(wǎng)頁(yè)的URL多插樹結(jié)構(gòu)以及URL路徑信息,確定客戶端的遞歸搜索行為特征信息為進(jìn)行逐級(jí)廣度搜索的行為特征信息;上述第二確定單元131可以具體用于根據(jù)逐級(jí)廣度搜索的行為特征信息,確定客戶端的訪問行為是網(wǎng)絡(luò)爬蟲。
[0073]本實(shí)施例的裝置,可以用于執(zhí)行本發(fā)明網(wǎng)絡(luò)爬蟲檢測(cè)方法實(shí)施例三所示方法實(shí)施例的技術(shù)方案,其實(shí)現(xiàn)原理和技術(shù)效果類似,詳細(xì)可以參考上述實(shí)施例的記載,此處不再贅述。
[0074]在本發(fā)明網(wǎng)絡(luò)爬蟲檢測(cè)裝置實(shí)施例四中,上述第一確定單元121可以具體用于根據(jù)網(wǎng)頁(yè)的URL多插樹結(jié)構(gòu)以及URL路徑信息,確定客戶端的遞歸搜索行為特征信息為進(jìn)行逐級(jí)深度搜索的行為特征信息;上述第二確定單元131可以具體用于根據(jù)逐級(jí)深度搜索的行為特征信息,確定客戶端的訪問行為是網(wǎng)絡(luò)爬蟲。
[0075]本實(shí)施例的裝置,可以用于執(zhí)行本發(fā)明網(wǎng)絡(luò)爬蟲檢測(cè)方法實(shí)施例四所示方法實(shí)施例的技術(shù)方案,其實(shí)現(xiàn)原理和技術(shù)效果類似,詳細(xì)可以參考上述實(shí)施例的記載,此處不再贅述。
[0076]圖6為包含本發(fā)明網(wǎng)絡(luò)爬蟲檢測(cè)裝置的系統(tǒng)實(shí)施例的示意圖,如圖6所示,其中,服務(wù)器3、防火墻2、網(wǎng)絡(luò)爬蟲檢測(cè)裝置1、網(wǎng)關(guān)4及客戶機(jī)5可以為獨(dú)立設(shè)置的網(wǎng)絡(luò)實(shí)體設(shè)備,各設(shè)備之間的實(shí)線表示各設(shè)備之間的通信連接。而且,本實(shí)施例中的網(wǎng)絡(luò)爬蟲檢測(cè)裝置I可以采用本發(fā)明網(wǎng)絡(luò)爬蟲檢測(cè)裝置實(shí)施例一至四任一實(shí)施例所示的裝置。客戶機(jī)5可以經(jīng)過網(wǎng)關(guān)4、網(wǎng)絡(luò)爬蟲檢測(cè)裝置1、防火墻2訪問服務(wù)器3,當(dāng)網(wǎng)絡(luò)爬蟲檢測(cè)裝置I檢測(cè)到客戶機(jī)5訪問服務(wù)器3的這次行為為網(wǎng)絡(luò)爬蟲時(shí),網(wǎng)絡(luò)爬蟲檢測(cè)裝置I將客戶機(jī)5對(duì)應(yīng)的IP地址發(fā)給防火墻2,防火墻2將該IP地址設(shè)置在黑名單中,以阻止該IP地址對(duì)應(yīng)的客戶機(jī)5訪問服務(wù)器3,以保護(hù)服務(wù)器3中的資源信息。
[0077]網(wǎng)絡(luò)爬蟲檢測(cè)裝置I可以是獨(dú)立的設(shè)備,也可以設(shè)置在網(wǎng)關(guān)或者防火墻等設(shè)備中,根據(jù)具體需求而定。
[0078]需要說(shuō)明的是,有關(guān)服務(wù)器3、防火墻2、網(wǎng)關(guān)4及客戶機(jī)5的結(jié)構(gòu),以及各設(shè)備之間的通信,本領(lǐng)域普通技術(shù)人員可以理解為與現(xiàn)有技術(shù)中的一致,此處不做贅述。
[0079]本領(lǐng)域普通技術(shù)人員可以理解:實(shí)現(xiàn)上述各方法實(shí)施例的全部或部分步驟可以通過程序指令相關(guān)的硬件來(lái)完成。前述的程序可以存儲(chǔ)于一計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中。該程序在執(zhí)行時(shí),執(zhí)行包括上述各方法實(shí)施例的步驟;而前述的存儲(chǔ)介質(zhì)包括:R0M、RAM、磁碟或者光盤等各種可以存儲(chǔ)程序代碼的介質(zhì)。
[0080]最后應(yīng)說(shuō)明的是:以上各實(shí)施例僅用以說(shuō)明本發(fā)明的技術(shù)方案,而非對(duì)其限制;盡管參照前述各實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)的說(shuō)明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對(duì)前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對(duì)其中部分或者全部技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的范圍。
【權(quán)利要求】
1.一種網(wǎng)絡(luò)爬蟲檢測(cè)方法,其特征在于,包括: 獲取客戶端訪問網(wǎng)頁(yè)中所包含的各統(tǒng)一資源定位符URL路徑信息; 根據(jù)所述網(wǎng)頁(yè)的URL多插樹結(jié)構(gòu)以及所述URL路徑信息,確定所述客戶端訪問網(wǎng)頁(yè)的行為特征信息; 根據(jù)所述行為特征信息,確定所述客戶端的訪問行為是否是網(wǎng)絡(luò)爬蟲。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述網(wǎng)頁(yè)的URL多插樹結(jié)構(gòu)以及所述URL路徑信息,確定所述客戶端訪問網(wǎng)頁(yè)的行為特征信息,包括: 根據(jù)所述網(wǎng)頁(yè)的URL多插樹結(jié)構(gòu)以及所述URL路徑信息,確定所述客戶端的行為特征信息為遞歸搜索行為特征信息; 所述根據(jù)所述行為特征信息,確定所述客戶端的訪問行為是否是網(wǎng)絡(luò)爬蟲,包括: 根據(jù)所述遞歸搜索行為特征信息,確定所述客戶端的訪問行為是網(wǎng)絡(luò)爬蟲。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述網(wǎng)頁(yè)的URL多插樹結(jié)構(gòu)以及所述URL路徑信息,確定所述客戶端的行為特征信息為遞歸搜索行為特征信息,包括: 根據(jù)所述網(wǎng)頁(yè)的URL多插樹結(jié)構(gòu)以及所述URL路徑信息,確定所述客戶端的遞歸搜索行為特征信息為進(jìn)行逐級(jí)廣度搜索的行為特征信息或?yàn)檫M(jìn)行逐級(jí)深度搜索的行為特征信肩、O
4.根據(jù)權(quán)利要求f3中任一項(xiàng)所述的方法,其特征在于,所述根據(jù)所述網(wǎng)頁(yè)的URL多插樹結(jié)構(gòu)以及所述URL路徑信息,確定所述客戶端訪問網(wǎng)頁(yè)的行為特征信息之前,還包括: 采用網(wǎng)絡(luò)爬蟲技術(shù)抓取網(wǎng)頁(yè)信息,建立所述URL多插樹結(jié)構(gòu)。
5.根據(jù)權(quán)利要求1~3中任一項(xiàng)所述的方法,其特征在于,所述獲取客戶端訪問網(wǎng)頁(yè)中各URL路徑信息之前,還包括: 確定所述客戶端與網(wǎng)頁(yè)服務(wù)器之間的連接數(shù)超過預(yù)設(shè)閾值。
6.一種網(wǎng)絡(luò)爬蟲檢測(cè)裝置,其特征在于,包括: 獲取模塊,用于獲取客戶端訪問網(wǎng)頁(yè)中所包含的各統(tǒng)一資源定位符URL路徑信息; 第一確定模塊,用于根據(jù)所述網(wǎng)頁(yè)的URL多插樹結(jié)構(gòu)以及所述URL路徑信息,確定所述客戶端訪問網(wǎng)頁(yè)的行為特征信息; 第二確定模塊,用于根據(jù)所述行為特征信息,確定所述客戶端的訪問行為是否是網(wǎng)絡(luò)爬蟲。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述第一確定模塊包括第一確定單元,所述第二確定模塊包括第二確定單元; 所述第一確定單元,用于根據(jù)所述網(wǎng)頁(yè)的URL多插樹結(jié)構(gòu)以及所述URL路徑信息,確定所述客戶端的行為特征信息為遞歸搜索行為特征信息; 所述第二確定單元,用于根據(jù)所述遞歸搜索行為特征信息,確定所述客戶端的訪問行為是網(wǎng)絡(luò)爬蟲。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述第一確定單元,具體用于根據(jù)所述網(wǎng)頁(yè)的URL多插樹結(jié)構(gòu)以及所述URL路徑信息,確定所述客戶端的遞歸搜索行為特征信息為進(jìn)行逐級(jí)廣度搜索的行為特征信息或?yàn)檫M(jìn)行逐級(jí)深度搜索的行為特征信息。
9.根據(jù)權(quán)利要求51中任一項(xiàng)所述的裝置,其特征在于,還包括: 預(yù)處理模塊,用于在確定所述客戶端訪問網(wǎng)頁(yè)的行為特征信息之前采用網(wǎng)絡(luò)爬蟲技術(shù)抓取網(wǎng)頁(yè)信息,建立所述URL多插樹結(jié)構(gòu)。
10.根據(jù)權(quán)利要求51中任一項(xiàng)所述的裝置,其特征在于,還包括: 第三確定模塊,用于在獲取客戶端訪問網(wǎng)頁(yè)中各URL路徑信息之前,確定所述客戶端與網(wǎng)頁(yè) 服務(wù)器之間的連接數(shù)超過預(yù)設(shè)閾值。
【文檔編號(hào)】G06F17/30GK103631830SQ201210312492
【公開日】2014年3月12日 申請(qǐng)日期:2012年8月29日 優(yōu)先權(quán)日:2012年8月29日
【發(fā)明者】蔣武, 李世光, 曾祥祿 申請(qǐng)人:華為技術(shù)有限公司