欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

網(wǎng)頁(yè)爬蟲抓取規(guī)則替換方法、調(diào)度端和抓取端的制作方法

文檔序號(hào):6515057閱讀:189來源:國(guó)知局
網(wǎng)頁(yè)爬蟲抓取規(guī)則替換方法、調(diào)度端和抓取端的制作方法
【專利摘要】本發(fā)明公開一種網(wǎng)頁(yè)爬蟲抓取規(guī)則替換方法、調(diào)度端和抓取端。其中,網(wǎng)頁(yè)爬蟲抓取規(guī)則替換方法包括:向抓取網(wǎng)絡(luò)信息的抓取端發(fā)送抓取任務(wù),所述抓取任務(wù)包括待抓取網(wǎng)站,以及與所述待抓取網(wǎng)站對(duì)應(yīng)的調(diào)度端抓取規(guī)則文件的調(diào)度端版本號(hào);向所述抓取端發(fā)送待切換規(guī)則文件和所述待切換規(guī)則網(wǎng)站,所述待切換規(guī)則文件用于所述抓取端將保存在所述抓取端與所述待切換規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件,替換為所述待切換規(guī)則文件。本發(fā)明在抓取端將抓取規(guī)則采用了規(guī)則文件獨(dú)立保存,替換時(shí)只需要替換規(guī)則文件而無需整個(gè)抓取端進(jìn)行重啟。同時(shí),采用了調(diào)度端對(duì)所有的規(guī)則文件進(jìn)行統(tǒng)一管理保存,因此,無需對(duì)每個(gè)抓取端單獨(dú)上傳規(guī)則文件,避免管理混亂。
【專利說明】網(wǎng)頁(yè)爬蟲抓取規(guī)則替換方法、調(diào)度端和抓取端
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及網(wǎng)頁(yè)爬蟲相關(guān)【技術(shù)領(lǐng)域】,特別是網(wǎng)頁(yè)爬蟲抓取規(guī)則替換方法、調(diào)度端和抓取端。
【背景技術(shù)】
[0002]網(wǎng)頁(yè)爬蟲是獲取網(wǎng)站信息的基礎(chǔ),為了獲取網(wǎng)站的信息,需要針對(duì)不同的網(wǎng)站配置相應(yīng)的規(guī)則,然而網(wǎng)站的頁(yè)面樣式規(guī)則并不是一成不變的,一旦頁(yè)面樣式規(guī)則改變,原有的抓取規(guī)則必然失效。
[0003]現(xiàn)有的做法是針對(duì)改版后的頁(yè)面重新配置規(guī)則,然后需要重新啟動(dòng)抓取節(jié)點(diǎn)應(yīng)對(duì)頁(yè)面改版。這種方式對(duì)于單個(gè)網(wǎng)站的抓取,且網(wǎng)站的改版不頻繁的情況下是可行的,然而對(duì)于大型的爬蟲系統(tǒng),在現(xiàn)有的方式下,即使單個(gè)網(wǎng)站的改版不頻繁,但當(dāng)要抓取的網(wǎng)站數(shù)量眾多時(shí),也會(huì)導(dǎo)致頻繁重啟抓取節(jié)點(diǎn),其缺點(diǎn)非常明顯:
[0004](I)對(duì)于一個(gè)大型的爬蟲系統(tǒng)來說,抓取節(jié)點(diǎn)分布非常廣闊,且抓取節(jié)點(diǎn)的數(shù)目眾多,頻繁重啟抓取節(jié)點(diǎn)必然會(huì)影響抓取的結(jié)果。
[0005](2)抓取節(jié)點(diǎn)的重啟動(dòng)必然會(huì)帶來人力的開銷,特別是對(duì)于一個(gè)大型的爬蟲系統(tǒng)來說,頻繁重啟抓取節(jié)點(diǎn)其帶來的人力開銷是極為巨大的。
[0006](3)由于抓取節(jié)點(diǎn)眾多,因此對(duì)每個(gè)抓取節(jié)點(diǎn)單獨(dú)修改抓取規(guī)則,容易導(dǎo)致混亂,
管理困難。

【發(fā)明內(nèi)容】

[0007]基于此,有必要針對(duì)現(xiàn)有技術(shù)對(duì)大型的爬蟲系統(tǒng),對(duì)于抓取規(guī)則的替換方法容易造成抓取節(jié)點(diǎn)的頻繁重啟,且對(duì)抓取節(jié)點(diǎn)修改抓取規(guī)則的管理容易導(dǎo)致混亂的技術(shù)問題,提供網(wǎng)頁(yè)爬蟲抓取規(guī)則替換方法、調(diào)度端和抓取端。
[0008]一種網(wǎng)頁(yè)爬蟲抓取規(guī)則替換方法,包括:
[0009]向抓取網(wǎng)絡(luò)信息的抓取端發(fā)送抓取任務(wù),所述抓取任務(wù)包括待抓取網(wǎng)站,以及與所述待抓取網(wǎng)站對(duì)應(yīng)的調(diào)度端抓取規(guī)則文件的調(diào)度端版本號(hào);
[0010]接收到所述抓取端發(fā)送的包括待切換規(guī)則網(wǎng)站以及待切換規(guī)則版本號(hào)的獲取新規(guī)則文件請(qǐng)求,則向所述抓取端發(fā)送待切換規(guī)則文件和所述待切換規(guī)則網(wǎng)站,所述待切換規(guī)則文件為保存在規(guī)則文件庫(kù)中且由所述待切換規(guī)則網(wǎng)站以及所述待切換規(guī)則版本號(hào)共同標(biāo)識(shí)的調(diào)度端抓取規(guī)則文件;
[0011]所述抓取任務(wù)用于所述抓取端獲取保存在所述抓取端與所述待抓取網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件的抓取端版本號(hào),比較所述抓取端版本號(hào)與所述調(diào)度端版本號(hào),如果所述抓取端版本號(hào)與所述調(diào)度端版本號(hào)不一致,則將所述待抓取網(wǎng)站作為待切換規(guī)則網(wǎng)站,將所述調(diào)度端版本號(hào)作為待切換規(guī)則版本號(hào),并返回所述獲取新規(guī)則文件請(qǐng)求,否則不返回所述獲取新規(guī)則文件請(qǐng)求,對(duì)所述待抓取網(wǎng)站采用所述抓取端抓取規(guī)則文件抓取網(wǎng)絡(luò)信息;[0012]所述待切換規(guī)則文件用于所述抓取端將保存在所述抓取端與所述待切換規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件,替換為所述待切換規(guī)則文件。
[0013]一種網(wǎng)頁(yè)爬蟲抓取規(guī)則替換調(diào)度端,包括:
[0014]抓取任務(wù)發(fā)送模塊,用于向抓取網(wǎng)絡(luò)信息的抓取端發(fā)送抓取任務(wù),所述抓取任務(wù)包括待抓取網(wǎng)站,以及與所述待抓取網(wǎng)站對(duì)應(yīng)的調(diào)度端抓取規(guī)則文件的調(diào)度端版本號(hào);
[0015]獲取新規(guī)則文件請(qǐng)求接收模塊,用于接收到所述抓取端發(fā)送的包括待切換規(guī)則網(wǎng)站以及待切換規(guī)則版本號(hào)的獲取新規(guī)則文件請(qǐng)求,則向所述抓取端發(fā)送待切換規(guī)則文件和所述待切換規(guī)則網(wǎng)站,所述待切換規(guī)則文件為保存在規(guī)則文件庫(kù)中且由所述待切換規(guī)則網(wǎng)站以及所述待切換規(guī)則版本號(hào)共同標(biāo)識(shí)的調(diào)度端抓取規(guī)則文件;
[0016]所述抓取任務(wù)用于所述抓取端獲取保存在所述抓取端與所述待抓取網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件的抓取端版本號(hào),比較所述抓取端版本號(hào)與所述調(diào)度端版本號(hào),如果所述抓取端版本號(hào)與所述調(diào)度端版本號(hào)不一致,則將所述待抓取網(wǎng)站作為待切換規(guī)則網(wǎng)站,將所述調(diào)度端版本號(hào)作為待切換規(guī)則版本號(hào),并返回所述獲取新規(guī)則文件請(qǐng)求,否則不返回所述獲取新規(guī)則文件請(qǐng)求,對(duì)所述待抓取網(wǎng)站采用所述抓取端抓取規(guī)則文件抓取網(wǎng)絡(luò)信息;
[0017]所述待切換規(guī)則文件用于所述抓取端將保存在所述抓取端與所述待切換規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件,替換為所述待切換規(guī)則文件。
[0018]一種網(wǎng)頁(yè)爬蟲抓取規(guī)則替換方法,包括:
[0019]接收到調(diào)度網(wǎng)絡(luò)信息的調(diào)度端所發(fā)送的包括待抓取網(wǎng)站,以及與所述待抓取網(wǎng)站對(duì)應(yīng)的調(diào)度端抓取規(guī)則文件的調(diào)度端版本號(hào)的抓取任務(wù);
[0020]獲取與所述待抓取網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件的抓取端版本號(hào),比較所述抓取端版本號(hào)與所述調(diào)度端版本號(hào),如果所述抓取端版本號(hào)與所述調(diào)度端版本號(hào)不一致,則將所述待抓取網(wǎng)站作為待切換規(guī)則網(wǎng)站,將所述調(diào)度端版本號(hào)作為待切換規(guī)則版本號(hào),并向所述調(diào)度端發(fā)送包括所述待切換規(guī)則網(wǎng)站以及所述待切換規(guī)則版本號(hào)的獲取新規(guī)則文件請(qǐng)求,否則不向所述調(diào)度端發(fā)送所述獲取新規(guī)則文件請(qǐng)求,對(duì)所述待抓取網(wǎng)站采用所述抓取端抓取規(guī)則文件抓取網(wǎng)絡(luò)信息;
[0021]接收到所述調(diào)度端響應(yīng)所述獲取新規(guī)則文件請(qǐng)求發(fā)送的待切換規(guī)則文件和所述待切換規(guī)則網(wǎng)站,將保存在所述抓取端與所述待切換規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件,替換為所述待切換規(guī)則文件,對(duì)所述待抓取網(wǎng)站采用所述待切換規(guī)則文件抓取網(wǎng)絡(luò)信息;
[0022]所述待切換規(guī)則文件為保存在所述調(diào)度端的規(guī)則文件庫(kù)且由所述待切換規(guī)則網(wǎng)站以及所述待切換規(guī)則版本號(hào)共同標(biāo)識(shí)的調(diào)度端抓取規(guī)則文件。
[0023]一種網(wǎng)頁(yè)爬蟲抓取規(guī)則替換抓取端,包括:
[0024]抓取任務(wù)接收模塊,用于接收到調(diào)度網(wǎng)絡(luò)信息的調(diào)度端所發(fā)送的包括待抓取網(wǎng)站,以及與所述待抓取網(wǎng)站對(duì)應(yīng)的調(diào)度端抓取規(guī)則文件的調(diào)度端版本號(hào)的抓取任務(wù);
[0025]版本比較模塊,用于獲取與所述待抓取網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件的抓取端版本號(hào),比較所述抓取端版本號(hào)與所述調(diào)度端版本號(hào),如果所述抓取端版本號(hào)與所述調(diào)度端版本號(hào)不一致,則將所述待抓取網(wǎng)站作為待切換規(guī)則網(wǎng)站,將所述調(diào)度端版本號(hào)作為待切換規(guī)則版本號(hào),并向所述調(diào)度端發(fā)送包括所述待切換規(guī)則網(wǎng)站以及所述待切換規(guī)則版本號(hào)的獲取新規(guī)則文件請(qǐng)求,否則不向所述調(diào)度端發(fā)送所述獲取新規(guī)則文件請(qǐng)求,對(duì)所述待抓取網(wǎng)站采用所述抓取端抓取規(guī)則文件抓取網(wǎng)絡(luò)信息;
[0026]規(guī)則切換模塊,用于接收到所述調(diào)度端響應(yīng)所述獲取新規(guī)則文件請(qǐng)求發(fā)送的待切換規(guī)則文件和所述待切換規(guī)則網(wǎng)站,將保存在所述抓取端與所述待切換規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件,替換為所述待切換規(guī)則文件,對(duì)所述待抓取網(wǎng)站采用所述待切換規(guī)則文件抓取網(wǎng)絡(luò)信息;
[0027]所述待切換規(guī)則文件為保存在所述調(diào)度端的規(guī)則文件庫(kù)且由所述待切換規(guī)則網(wǎng)站以及所述待切換規(guī)則版本號(hào)共同標(biāo)識(shí)的調(diào)度端抓取規(guī)則文件。
[0028]本發(fā)明增加了調(diào)度端專門負(fù)責(zé)保存管理規(guī)則文件,并在向抓取網(wǎng)絡(luò)信息的抓取端發(fā)送抓取任務(wù)時(shí),同時(shí)提供了待抓取網(wǎng)站,以及與所述待抓取網(wǎng)站對(duì)應(yīng)的調(diào)度端抓取規(guī)則文件的調(diào)度端版本號(hào)。抓取端通過比較調(diào)度端版本號(hào)和抓取端版本號(hào),確定是否需要進(jìn)行替換,當(dāng)需要替換時(shí),抓取端直接替換抓取端抓取規(guī)則文件。由于在抓取端將抓取規(guī)則采用了規(guī)則文件獨(dú)立保存,因此,替換時(shí)只需要替換規(guī)則文件而無需整個(gè)抓取端進(jìn)行重啟。同時(shí),采用了調(diào)度端對(duì)所有的規(guī)則文件進(jìn)行統(tǒng)一管理保存,因此,無需對(duì)每個(gè)抓取端單獨(dú)上傳規(guī)則文件,避免管理混亂。
【專利附圖】

【附圖說明】
[0029]圖1為本發(fā)明一種網(wǎng)頁(yè)爬蟲抓取規(guī)則替換方法的工作流程圖;
[0030]圖2為本發(fā)明的系統(tǒng)結(jié)構(gòu)示意圖;
[0031]圖3為本發(fā)明一種網(wǎng)頁(yè)爬蟲抓取規(guī)則替換調(diào)度端的結(jié)構(gòu)模塊圖;
[0032]圖4為本發(fā)明一種網(wǎng)頁(yè)爬蟲抓取規(guī)則替換方法的工作流程圖;
[0033]圖5為本發(fā)明一種網(wǎng)頁(yè)爬蟲抓取規(guī)則替換抓取端的結(jié)構(gòu)模塊圖;
[0034]圖6為本發(fā)明一個(gè)例子調(diào)度端的工作流程圖;
[0035]圖7為本發(fā)明一個(gè)例子抓取端的工作流程圖。
【具體實(shí)施方式】
[0036]下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明做進(jìn)一步詳細(xì)的說明。
[0037]如圖1所示為本發(fā)明一種網(wǎng)頁(yè)爬蟲抓取規(guī)則替換方法的工作流程圖,包括:
[0038]步驟S101,向抓取網(wǎng)絡(luò)信息的抓取端發(fā)送抓取任務(wù),所述抓取任務(wù)包括待抓取網(wǎng)站,以及與所述待抓取網(wǎng)站對(duì)應(yīng)的調(diào)度端抓取規(guī)則文件的調(diào)度端版本號(hào);
[0039]步驟S102,接收到所述抓取端發(fā)送的包括待切換規(guī)則網(wǎng)站以及待切換規(guī)則版本號(hào)的獲取新規(guī)則文件請(qǐng)求,則向所述抓取端發(fā)送待切換規(guī)則文件和所述待切換規(guī)則網(wǎng)站,所述待切換規(guī)則文件為保存在規(guī)則文件庫(kù)中且由所述待切換規(guī)則網(wǎng)站以及所述待切換規(guī)則版本號(hào)共同標(biāo)識(shí)的調(diào)度端抓取規(guī)則文件;
[0040]所述抓取任務(wù)用于所述抓取端獲取保存在所述抓取端與所述待抓取網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件的抓取端版本號(hào),比較所述抓取端版本號(hào)與所述調(diào)度端版本號(hào),如果所述抓取端版本號(hào)與所述調(diào)度端版本號(hào)不一致,則將所述待抓取網(wǎng)站作為待切換規(guī)則網(wǎng)站,將所述調(diào)度端版本號(hào)作為待切換規(guī)則版本號(hào),并返回所述獲取新規(guī)則文件請(qǐng)求,否則不返回所述獲取新規(guī)則文件請(qǐng)求,對(duì)所述待抓取網(wǎng)站采用所述抓取端抓取規(guī)則文件抓取網(wǎng)絡(luò)信息;
[0041]所述待切換規(guī)則文件用于所述抓取端將保存在所述抓取端與所述待切換規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件,替換為所述待切換規(guī)則文件。
[0042]如圖2所示為本發(fā)明的系統(tǒng)結(jié)構(gòu)示意圖,包括一個(gè)調(diào)度端21以及多個(gè)抓取端22。其中,抓取端也可稱為抓取節(jié)點(diǎn)。本實(shí)施例的一種網(wǎng)頁(yè)爬蟲抓取規(guī)則替換方法由調(diào)度端實(shí)施。
[0043]其中,在步驟S101,調(diào)度端向每個(gè)抓取端分別發(fā)送抓取任務(wù),抓取任務(wù)包括待抓取網(wǎng)站,以及與所述待抓取網(wǎng)站對(duì)應(yīng)的調(diào)度端抓取規(guī)則文件的調(diào)度端版本號(hào)。抓取端在接收到抓取任務(wù)后,首先獲取保存在所述抓取端與所述待抓取網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件的抓取端版本號(hào),比較所述抓取端版本號(hào)與所述調(diào)度端版本號(hào),如果所述抓取端版本號(hào)與所述調(diào)度端版本號(hào)不一致,則將所述待抓取網(wǎng)站作為待切換規(guī)則網(wǎng)站,將所述調(diào)度端版本號(hào)作為待切換規(guī)則版本號(hào),并返回所述獲取新規(guī)則文件請(qǐng)求,否則不返回所述獲取新規(guī)則文件請(qǐng)求,對(duì)所述待抓取網(wǎng)站采用所述抓取端抓取規(guī)則文件抓取網(wǎng)絡(luò)信息。
[0044]在步驟S102,當(dāng)調(diào)度端接收到獲取新規(guī)則文件請(qǐng)求,則表示抓取端判斷需要更換抓取端抓取規(guī)則文件,因此,從規(guī)則文件庫(kù)中獲取相應(yīng)的調(diào)度端抓取規(guī)則文件返回給抓取端進(jìn)行替換。其中規(guī)則文件庫(kù)可以保存在調(diào)度端的服務(wù)器,也可以通過一個(gè)獨(dú)立的數(shù)據(jù)庫(kù)進(jìn)行保存。
[0045]其中,調(diào)度端抓取規(guī)則文件為保存在調(diào)度端的包括抓取規(guī)則的規(guī)則文件,抓取端抓取規(guī)則文件為保存在抓取端的包括抓取規(guī)則的規(guī)則文件,對(duì)于同一個(gè)網(wǎng)站來說,可以有多個(gè)調(diào)度端抓取規(guī)則文件保存在調(diào)度端,可以通過不同的版本號(hào)加以區(qū)分。
[0046]抓取端對(duì)規(guī)則文件的替換可能成功也可能失敗,針對(duì)不同的情況,調(diào)度端采用不同的應(yīng)對(duì)措施。
[0047]在其中一個(gè)實(shí)施例中,還包括:
[0048]接收到所述抓取端發(fā)送的包括待切換規(guī)則網(wǎng)站以及待切換規(guī)則版本號(hào)的規(guī)則熱替換失敗請(qǐng)求,則向所述抓取端發(fā)送所述待切換規(guī)則版本號(hào)對(duì)應(yīng)的所述待切換規(guī)則文件和所述待切換規(guī)則網(wǎng)站,所述待切換規(guī)則文件用于所述抓取端將保存在所述抓取端與所述待切換規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件,替換為所述待切換規(guī)則文件;
[0049]所述規(guī)則熱替換失敗請(qǐng)求為所述抓取端在發(fā)送所述獲取新規(guī)則文件請(qǐng)求后預(yù)設(shè)時(shí)間內(nèi)未收到所述待切換規(guī)則文件,則發(fā)送所述規(guī)則熱替換失敗請(qǐng)求;
[0050]接收到所述抓取端發(fā)送的包括待切換規(guī)則網(wǎng)站以及待切換規(guī)則版本號(hào)的規(guī)則熱替換成功請(qǐng)求,則將所述待切換規(guī)則網(wǎng)站以及待切換規(guī)則版本號(hào)共同標(biāo)識(shí)的調(diào)度端抓取規(guī)則文件從所述規(guī)則文件庫(kù)移至歷史規(guī)則庫(kù);
[0051]所述規(guī)則熱替換成功請(qǐng)求為所述抓取端在接收到所述待切換規(guī)則文件,并成功將保存在所述抓取端與所述待切換規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件,替換為所述待切換規(guī)則文件,則發(fā)送所述規(guī)則熱替換成功請(qǐng)求。
[0052]其中,當(dāng)接收到規(guī)則熱替換失敗請(qǐng)求,這種問題可能是由調(diào)度端往抓取端發(fā)送規(guī)則文件失敗導(dǎo)致,因此重新發(fā)送調(diào)度端抓取規(guī)則文件。
[0053]其中,當(dāng)接收到規(guī)則熱替換成功請(qǐng)求,則相應(yīng)的調(diào)度端抓取規(guī)則文件無需再保存在規(guī)則文件庫(kù)中,將其轉(zhuǎn)移到歷史規(guī)則庫(kù)中保存,以保證在規(guī)則文件庫(kù)中的調(diào)度端抓取規(guī)則文件一直都是最新的。
[0054]新的規(guī)則文件其對(duì)網(wǎng)站抓取的準(zhǔn)確率未必會(huì)比原來的規(guī)則文件要高,當(dāng)發(fā)生新的規(guī)則文件的準(zhǔn)確率低于原來的規(guī)則文件時(shí),需要重新更換為原料的規(guī)則文件。
[0055]在其中一個(gè)實(shí)施例中,還包括:
[0056]接收到所述抓取端發(fā)送的包括歷史規(guī)則網(wǎng)站以及歷史規(guī)則版本號(hào)的歷史規(guī)則切換請(qǐng)求,從所述歷史規(guī)則庫(kù)中獲取由所述歷史規(guī)則網(wǎng)站以及所述歷史規(guī)則版本號(hào)共同標(biāo)識(shí)的調(diào)度端抓取規(guī)則文件作為調(diào)度端歷史規(guī)則文件,將調(diào)度端歷史規(guī)則文件從所述歷史規(guī)則庫(kù)中移至所述規(guī)則文件庫(kù),向所述抓取端發(fā)送調(diào)度端歷史規(guī)則文件和所述歷史規(guī)則網(wǎng)站;
[0057]所述歷史規(guī)則切換請(qǐng)求為所述抓取端在接收到所述待切換規(guī)則文件,將與所述待切換規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件的抓取端版本號(hào)作為歷史規(guī)則版本號(hào),將所述待切換規(guī)則網(wǎng)站作為歷史規(guī)則網(wǎng)站,在將所述待切換規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件替換為所述待切換規(guī)則文件后,如果抓取網(wǎng)絡(luò)信息的準(zhǔn)確率降低,則發(fā)送所述歷史規(guī)則切換請(qǐng)求;
[0058]所述調(diào)度端歷史規(guī)則文件用于所述抓取端將保存在所述抓取端與所述歷史規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件,替換為所述歷史規(guī)則文件。
[0059]規(guī)則文件在調(diào)度端統(tǒng)一上傳,從而減少對(duì)規(guī)則文件管理上的混亂,避免對(duì)多個(gè)抓取端的人工操作。
[0060]在其中一個(gè)實(shí)施例中,還包括:
[0061]接收到包括待更新網(wǎng)站以及對(duì)應(yīng)的待更新規(guī)則文件的上傳規(guī)則請(qǐng)求,則將所述待更新規(guī)則文件與所述待更新網(wǎng)站關(guān)聯(lián)后作為調(diào)度端抓取規(guī)則文件保存在規(guī)則文件庫(kù),并為所述調(diào)度端抓取規(guī)則文件分配對(duì)應(yīng)的調(diào)度端版本號(hào)。
[0062]如圖2所示為本發(fā)明的一個(gè)例子的系統(tǒng)結(jié)構(gòu)示意圖,包括調(diào)度端21和多個(gè)抓取端22。
[0063]調(diào)度端21的工作流程如圖6所示,包括:
[0064]步驟S610,接收到包括待更新網(wǎng)站以及對(duì)應(yīng)的待更新規(guī)則文件的上傳規(guī)則請(qǐng)求,則將所述待更新規(guī)則文件與所述待更新網(wǎng)站關(guān)聯(lián)后作為調(diào)度端抓取規(guī)則文件保存在規(guī)則文件庫(kù),并為所述調(diào)度端抓取規(guī)則文件分配對(duì)應(yīng)的調(diào)度端版本號(hào)。
[0065]步驟S620,向抓取端發(fā)送抓取任務(wù),所述抓取任務(wù)包括待抓取網(wǎng)站,以及與所述待抓取網(wǎng)站對(duì)應(yīng)的調(diào)度端抓取規(guī)則文件的調(diào)度端版本號(hào)。
[0066]步驟S630,啟動(dòng)請(qǐng)求監(jiān)聽器不斷監(jiān)聽抓取端的規(guī)則請(qǐng)求。
[0067]步驟S640:對(duì)接收到的規(guī)則請(qǐng)求,進(jìn)行相應(yīng)的處理,分以下幾種情形:
[0068]如果接收到包括待切換規(guī)則網(wǎng)站以及待切換規(guī)則版本號(hào)的獲取新規(guī)則文件請(qǐng)求,執(zhí)行步驟S641 ;
[0069]如果接收到所述抓取端發(fā)送的包括待切換規(guī)則網(wǎng)站以及待切換規(guī)則版本號(hào)的規(guī)則熱替換成功請(qǐng)求,執(zhí)行步驟S642 ;
[0070]如果接收到所述抓取端發(fā)送的包括待切換規(guī)則網(wǎng)站以及待切換規(guī)則版本號(hào)的規(guī)則熱替換失敗請(qǐng)求,執(zhí)行步驟S643 ;
[0071]如果接收到所述抓取端發(fā)送的包括歷史規(guī)則網(wǎng)站以及歷史規(guī)則版本號(hào)的歷史規(guī)則切換請(qǐng)求,執(zhí)行步驟S643。[0072]步驟S641,保存在規(guī)則文件庫(kù)中且由所述待切換規(guī)則網(wǎng)站以及所述待切換規(guī)則版本號(hào)共同標(biāo)識(shí)的調(diào)度端抓取規(guī)則文件,向所述抓取端發(fā)送待切換規(guī)則文件和所述待切換規(guī)則網(wǎng)站。
[0073]步驟S642,將所述待切換規(guī)則網(wǎng)站以及待切換規(guī)則版本號(hào)共同標(biāo)識(shí)的調(diào)度端抓取規(guī)則文件從所述規(guī)則文件庫(kù)移至歷史規(guī)則庫(kù)。
[0074]步驟S643,向所述抓取端發(fā)送所述待切換規(guī)則版本號(hào)對(duì)應(yīng)的所述待切換規(guī)則文件和所述待切換規(guī)則網(wǎng)站。
[0075]步驟S644,從所述歷史規(guī)則庫(kù)中獲取由所述歷史規(guī)則網(wǎng)站以及所述歷史規(guī)則版本號(hào)共同標(biāo)識(shí)的調(diào)度端抓取規(guī)則文件作為調(diào)度端歷史規(guī)則文件,將調(diào)度端歷史規(guī)則文件從所述歷史規(guī)則庫(kù)中移至所述規(guī)則文件庫(kù),向所述抓取端發(fā)送調(diào)度端歷史規(guī)則文件和所述歷史規(guī)則網(wǎng)站。
[0076]如圖3所示為本發(fā)明一種網(wǎng)頁(yè)爬蟲抓取規(guī)則替換調(diào)度端的結(jié)構(gòu)模塊圖,包括:
[0077]抓取任務(wù)發(fā)送模塊301,用于向抓取網(wǎng)絡(luò)信息的抓取端發(fā)送抓取任務(wù),所述抓取任務(wù)包括待抓取網(wǎng)站,以及與所述待抓取網(wǎng)站對(duì)應(yīng)的調(diào)度端抓取規(guī)則文件的調(diào)度端版本號(hào);
[0078]獲取新規(guī)則文件請(qǐng)求接收模塊302,用于接收到所述抓取端發(fā)送的包括待切換規(guī)則網(wǎng)站以及待切換規(guī)則版本號(hào)的獲取新規(guī)則文件請(qǐng)求,則向所述抓取端發(fā)送待切換規(guī)則文件和所述待切換規(guī)則網(wǎng)站,所述待切換規(guī)則文件為保存在規(guī)則文件庫(kù)中且由所述待切換規(guī)則網(wǎng)站以及所述待切換規(guī)則版本號(hào)共同標(biāo)識(shí)的調(diào)度端抓取規(guī)則文件;
[0079]所述抓取任務(wù)用于所述抓取端獲取保存在所述抓取端與所述待抓取網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件的抓取端版本號(hào),比較所述抓取端版本號(hào)與所述調(diào)度端版本號(hào),如果所述抓取端版本號(hào)與所述調(diào)度端版本號(hào)不一致,則將所述待抓取網(wǎng)站作為待切換規(guī)則網(wǎng)站,將所述調(diào)度端版本號(hào)作為待切換規(guī)則版本號(hào),并返回所述獲取新規(guī)則文件請(qǐng)求,否則不返回所述獲取新規(guī)則文件請(qǐng)求,對(duì)所述待抓取網(wǎng)站采用所述抓取端抓取規(guī)則文件抓取網(wǎng)絡(luò)信息;
[0080]所述待切換規(guī)則文件用于所述抓取端將保存在所述抓取端與所述待切換規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件,替換為所述待切換規(guī)則文件。
[0081]在其中一個(gè)實(shí)施例中,還包括:
[0082]規(guī)則熱替換失敗請(qǐng)求接收模塊303,用于接收到所述抓取端發(fā)送的包括待切換規(guī)則網(wǎng)站以及待切換規(guī)則版本號(hào)的規(guī)則熱替換失敗請(qǐng)求,則向所述抓取端發(fā)送所述待切換規(guī)則版本號(hào)對(duì)應(yīng)的所述待切換規(guī)則文件和所述待切換規(guī)則網(wǎng)站,所述待切換規(guī)則文件用于所述抓取端將保存在所述抓取端與所述待切換規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件,替換為所述待切換規(guī)則文件;
[0083]所述規(guī)則熱替換失敗請(qǐng)求為所述抓取端在發(fā)送所述獲取新規(guī)則文件請(qǐng)求后預(yù)設(shè)時(shí)間內(nèi)未收到所述待切換規(guī)則文件,則發(fā)送所述規(guī)則熱替換失敗請(qǐng)求;
[0084]規(guī)則熱替換成功請(qǐng)求接收模塊304,用于接收到所述抓取端發(fā)送的包括待切換規(guī)則網(wǎng)站以及待切換規(guī)則版本號(hào)的規(guī)則熱替換成功請(qǐng)求,則將所述待切換規(guī)則網(wǎng)站以及待切換規(guī)則版本號(hào)共同標(biāo)識(shí)的調(diào)度端抓取規(guī)則文件從所述規(guī)則文件庫(kù)移至歷史規(guī)則庫(kù);
[0085]所述規(guī)則熱替換成功請(qǐng)求為所述抓取端在接收到所述待切換規(guī)則文件,并成功將保存在所述抓取端與所述待切換規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件,替換為所述待切換規(guī)則文件,則發(fā)送所述規(guī)則熱替換成功請(qǐng)求。
[0086]在其中一個(gè)實(shí)施例中,還包括:
[0087]歷史規(guī)則切換請(qǐng)求接收模塊305用于接收到所述抓取端發(fā)送的包括歷史規(guī)則網(wǎng)站以及歷史規(guī)則版本號(hào)的歷史規(guī)則切換請(qǐng)求,從所述歷史規(guī)則庫(kù)中獲取由所述歷史規(guī)則網(wǎng)站以及所述歷史規(guī)則版本號(hào)共同標(biāo)識(shí)的調(diào)度端抓取規(guī)則文件作為調(diào)度端歷史規(guī)則文件,將調(diào)度端歷史規(guī)則文件從所述歷史規(guī)則庫(kù)中移至所述規(guī)則文件庫(kù),向所述抓取端發(fā)送調(diào)度端歷史規(guī)則文件和所述歷史規(guī)則網(wǎng)站;
[0088]所述歷史規(guī)則切換請(qǐng)求為所述抓取端在接收到所述待切換規(guī)則文件,將與所述待切換規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件的抓取端版本號(hào)作為歷史規(guī)則版本號(hào),將所述待切換規(guī)則網(wǎng)站作為歷史規(guī)則網(wǎng)站,在將所述待切換規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件替換為所述待切換規(guī)則文件后,如果抓取網(wǎng)絡(luò)信息的準(zhǔn)確率降低,則發(fā)送所述歷史規(guī)則切換請(qǐng)求;
[0089]所述調(diào)度端歷史規(guī)則文件用于所述抓取端將保存在所述抓取端與所述歷史規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件,替換為所述歷史規(guī)則文件。
[0090]在其中一個(gè)實(shí)施例中,還包括:
[0091]上傳規(guī)則請(qǐng)求接收模塊306,用于接收到包括待更新網(wǎng)站以及對(duì)應(yīng)的待更新規(guī)則文件的上傳規(guī)則請(qǐng)求,則將所述待更新規(guī)則文件與所述待更新網(wǎng)站關(guān)聯(lián)后作為調(diào)度端抓取規(guī)則文件保存在規(guī)則文件庫(kù),并為所述調(diào)度端抓取規(guī)則文件分配對(duì)應(yīng)的調(diào)度端版本號(hào)。
[0092]如圖4所述為本發(fā)明一種網(wǎng)頁(yè)爬蟲抓取規(guī)則替換方法的工作流程圖,包括:
[0093]步驟S401,接收到調(diào)度網(wǎng)絡(luò)信息的調(diào)度端所發(fā)送的包括待抓取網(wǎng)站,以及與所述待抓取網(wǎng)站對(duì)應(yīng)的調(diào)度端抓取規(guī)則文件的調(diào)度端版本號(hào)的抓取任務(wù);
[0094]步驟S402,獲取與所述待抓取網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件的抓取端版本號(hào),比較所述抓取端版本號(hào)與所述調(diào)度端版本號(hào),如果所述抓取端版本號(hào)與所述調(diào)度端版本號(hào)不一致,則將所述待抓取網(wǎng)站作為待切換規(guī)則網(wǎng)站,將所述調(diào)度端版本號(hào)作為待切換規(guī)則版本號(hào),并向所述調(diào)度端發(fā)送包括所述待切換規(guī)則網(wǎng)站以及所述待切換規(guī)則版本號(hào)的獲取新規(guī)則文件請(qǐng)求,否則不向所述調(diào)度端發(fā)送所述獲取新規(guī)則文件請(qǐng)求,對(duì)所述待抓取網(wǎng)站采用所述抓取端抓取規(guī)則文件抓取網(wǎng)絡(luò)信息;
[0095]步驟S403,接收到所述調(diào)度端響應(yīng)所述獲取新規(guī)則文件請(qǐng)求發(fā)送的待切換規(guī)則文件和所述待切換規(guī)則網(wǎng)站,將保存在所述抓取端與所述待切換規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件,替換為所述待切換規(guī)則文件,對(duì)所述待抓取網(wǎng)站采用所述待切換規(guī)則文件抓取網(wǎng)絡(luò)信息;
[0096]所述待切換規(guī)則文件為保存在所述調(diào)度端的規(guī)則文件庫(kù)且由所述待切換規(guī)則網(wǎng)站以及所述待切換規(guī)則版本號(hào)共同標(biāo)識(shí)的調(diào)度端抓取規(guī)則文件。
[0097]本實(shí)施例在抓取端上實(shí)現(xiàn)抓取規(guī)則替換方法,由于在抓取端上的操作與在調(diào)度端上的操作是對(duì)應(yīng)的,在此不予贅述。
[0098]在其中一個(gè)實(shí)施例中,還包括:
[0099]在發(fā)送所述獲取新規(guī)則文件請(qǐng)求后預(yù)設(shè)時(shí)間內(nèi)未收到所述待切換規(guī)則文件,則向所述調(diào)度端發(fā)送包括待切換規(guī)則網(wǎng)站以及待切換規(guī)則版本號(hào)的規(guī)則熱替換失敗請(qǐng)求;
[0100]接收到所述調(diào)度端響應(yīng)所述規(guī)則熱替換失敗請(qǐng)求發(fā)送的待切換規(guī)則文件和所述待切換規(guī)則網(wǎng)站,將保存在所述抓取端與所述待切換規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件,替換為所述待切換規(guī)則文件;
[0101]在接收到所述待切換規(guī)則文件,并成功將保存在所述抓取端與所述待切換規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件,替換為所述待切換規(guī)則文件,則向所述調(diào)度端發(fā)送包括待切換規(guī)則網(wǎng)站以及待切換規(guī)則版本號(hào)的規(guī)則熱替換成功請(qǐng)求,所述熱替換成功請(qǐng)求用于所述調(diào)度端將所述待切換規(guī)則網(wǎng)站以及待切換規(guī)則版本號(hào)共同標(biāo)識(shí)的調(diào)度端抓取規(guī)則文件從所述規(guī)則文件庫(kù)移至歷史規(guī)則庫(kù)。
[0102]在其中一個(gè)實(shí)施例中,還包括:
[0103]接收到所述待切換規(guī)則文件,將與所述待切換規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件的抓取端版本號(hào)作為歷史規(guī)則版本號(hào),將所述待切換規(guī)則網(wǎng)站作為歷史規(guī)則網(wǎng)站,在將所述待切換規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件替換為所述待切換規(guī)則文件后,如果抓取網(wǎng)絡(luò)信息的準(zhǔn)確率降低,則向所述調(diào)度端發(fā)送包括歷史規(guī)則網(wǎng)站以及歷史規(guī)則版本號(hào)的歷史規(guī)則切換請(qǐng)求;
[0104]接收到調(diào)度端發(fā)送的調(diào)度端歷史規(guī)則文件和所述歷史規(guī)則網(wǎng)站,將保存在所述抓取端與所述歷史規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件,替換為所述歷史規(guī)則文件;
[0105]所述調(diào)度端歷史規(guī)則文件為所述調(diào)度端響應(yīng)歷史規(guī)則切換請(qǐng)求從所述歷史規(guī)則庫(kù)中獲取由所述歷史規(guī)則網(wǎng)站以及所述歷史規(guī)則版本號(hào)共同標(biāo)識(shí)的調(diào)度端抓取規(guī)則文件。
[0106]當(dāng)新的規(guī)則文件的準(zhǔn)確率低于原有的規(guī)則文件時(shí),即可以通過從調(diào)度端獲取調(diào)度端歷史規(guī)則文件進(jìn)行重新替換,也可以在抓取端本地進(jìn)行。
[0107]在其中一個(gè)實(shí)施例中,還包括:
[0108]接收到所述待切換規(guī)則文件,將所述待切換規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件在所述抓取端備份為抓取端歷史規(guī)則文件,將所述待切換規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件的抓取端版本號(hào)作為歷史規(guī)則版本號(hào),將所述待切換規(guī)則網(wǎng)站作為歷史規(guī)則網(wǎng)站,在將所述待切換規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件替換為所述待切換規(guī)則文件后,如果抓取網(wǎng)絡(luò)信息的準(zhǔn)確率降低,則將所述待切換規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件,重新替換為所述抓取端歷史規(guī)則文件。
[0109]本實(shí)施例在抓取端本地備份了抓取端歷史規(guī)則文件,從而無需從調(diào)度端下載原有的規(guī)則文件,減少了網(wǎng)絡(luò)數(shù)據(jù)的傳輸。
[0110]如圖2所示為本發(fā)明的一個(gè)例子的系統(tǒng)結(jié)構(gòu)示意圖,包括調(diào)度端21和多個(gè)抓取端22。
[0111]如圖7所示為抓取端22的工作流程圖,包括:
[0112]步驟S701,請(qǐng)求線程獲取調(diào)度端發(fā)送的抓取任務(wù),所述抓取任務(wù)包括待抓取網(wǎng)站,以及與所述待抓取網(wǎng)站對(duì)應(yīng)的調(diào)度端抓取規(guī)則文件的調(diào)度端版本號(hào)。比較待抓取網(wǎng)站對(duì)應(yīng)的調(diào)度端版本號(hào)與抓取端版本號(hào),如果所述抓取端版本號(hào)與所述調(diào)度端版本號(hào)不一致,即待抓取網(wǎng)站對(duì)應(yīng)的調(diào)度端抓取規(guī)則文件有更新,則將所述待抓取網(wǎng)站作為待切換規(guī)則網(wǎng)站,將所述調(diào)度端版本號(hào)作為待切換規(guī)則版本號(hào),并返回所述獲取新規(guī)則文件請(qǐng)求。如網(wǎng)站a的版本號(hào)不一致,而網(wǎng)站b —致,則向調(diào)度端發(fā)送獲取網(wǎng)站a的規(guī)則文件的請(qǐng)求。
[0113]步驟S702,如果請(qǐng)求線程接收到調(diào)度端發(fā)送的待切換規(guī)則文件和所述待切換規(guī)則網(wǎng)站,則執(zhí)行步驟S703,否則,如果請(qǐng)求線程在一定時(shí)間段內(nèi)沒有獲取調(diào)度端發(fā)送的待切換規(guī)則文件和所述待切換規(guī)則網(wǎng)站,則說明待切換規(guī)則文件在這段時(shí)間內(nèi)沒有傳送過來,也有可能是丟失了,定義如下的表達(dá)式:CurrentTime - RequestTime>Threshold,如果當(dāng)前時(shí)間(CurrentTime)減去請(qǐng)求發(fā)生的時(shí)間(RequestTime)大于某個(gè)閾值(Threshold),則執(zhí)行步驟S706 ;
[0114]步驟S703,請(qǐng)求線程獲取調(diào)度端發(fā)送的待切換規(guī)則文件和所述待切換規(guī)則網(wǎng)站,將保存在所述抓取端與所述待切換規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件,替換為所述待切換規(guī)則文件,重新構(gòu)建TaskExecutor任務(wù)執(zhí)行類對(duì)象,采用文檔解析監(jiān)聽器用來檢測(cè)抓取到的網(wǎng)絡(luò)信息的文檔解析的準(zhǔn)確率。構(gòu)建的過程如下:抓取端抓取規(guī)則文件采用Spring文件,以網(wǎng)絡(luò)流的形式替換抓取端抓取規(guī)則文件。替換成功后,啟動(dòng)Spring的Bean工廠重新加載待切換規(guī)則網(wǎng)站的抓取端抓取規(guī)則文件,生成新的Rule規(guī)則類對(duì)象,同時(shí)把Rule規(guī)則類對(duì)象注入TaskExecutor,構(gòu)建新的TaskExecutor任務(wù)執(zhí)行類對(duì)象,完成規(guī)則的熱替換。整個(gè)過程在不需要重新啟動(dòng)抓取節(jié)點(diǎn)的情況下,完成抓取端的升級(jí),執(zhí)行步驟S704;
[0115]步驟S704,調(diào)用報(bào)告線程向所述調(diào)度端發(fā)送包括待切換規(guī)則網(wǎng)站以及待切換規(guī)則版本號(hào)的規(guī)則熱替換成功請(qǐng)求;
[0116]步驟S705,采用文檔解析監(jiān)聽器用來檢測(cè)抓取到的網(wǎng)絡(luò)信息的文檔解析的準(zhǔn)確率,與前一版本的準(zhǔn)確率進(jìn)行比較,檢測(cè)的標(biāo)準(zhǔn)是核心字段(這個(gè)字段可以由用戶配置)的值有沒有抽取出來,如果新版本的準(zhǔn)確率低于之前版本的準(zhǔn)確率,則調(diào)用報(bào)告線程向所述調(diào)度端發(fā)送包括歷史規(guī)則網(wǎng)站以及歷史規(guī)則版本號(hào)的歷史規(guī)則切換請(qǐng)求,否則使用新版本的抓取端抓取規(guī)則文件;
[0117]步驟S706,調(diào)用報(bào)告線程向所述調(diào)度端發(fā)送包括待切換規(guī)則網(wǎng)站以及待切換規(guī)則版本號(hào)的規(guī)則熱替換失敗請(qǐng)求。
[0118]如圖5所示為本發(fā)明一種網(wǎng)頁(yè)爬蟲抓取規(guī)則替換抓取端的結(jié)構(gòu)模塊圖,包括:
[0119]抓取任務(wù)接收模塊501,用于接收到調(diào)度網(wǎng)絡(luò)信息的調(diào)度端所發(fā)送的包括待抓取網(wǎng)站,以及與所述待抓取網(wǎng)站對(duì)應(yīng)的調(diào)度端抓取規(guī)則文件的調(diào)度端版本號(hào)的抓取任務(wù);
[0120]版本比較模塊502,用于獲取與所述待抓取網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件的抓取端版本號(hào),比較所述抓取端版本號(hào)與所述調(diào)度端版本號(hào),如果所述抓取端版本號(hào)與所述調(diào)度端版本號(hào)不一致,則將所述待抓取網(wǎng)站作為待切換規(guī)則網(wǎng)站,將所述調(diào)度端版本號(hào)作為待切換規(guī)則版本號(hào),并向所述調(diào)度端發(fā)送包括所述待切換規(guī)則網(wǎng)站以及所述待切換規(guī)則版本號(hào)的獲取新規(guī)則文件請(qǐng)求,否則不向所述調(diào)度端發(fā)送所述獲取新規(guī)則文件請(qǐng)求,對(duì)所述待抓取網(wǎng)站采用所述抓取端抓取規(guī)則文件抓取網(wǎng)絡(luò)信息;
[0121]規(guī)則切換模塊503,用于接收到所述調(diào)度端響應(yīng)所述獲取新規(guī)則文件請(qǐng)求發(fā)送的待切換規(guī)則文件和所述待切換規(guī)則網(wǎng)站,將保存在所述抓取端與所述待切換規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件,替換為所述待切換規(guī)則文件,對(duì)所述待抓取網(wǎng)站采用所述待切換規(guī)則文件抓取網(wǎng)絡(luò)信息;
[0122]所述待切換規(guī)則文件為保存在所述調(diào)度端的規(guī)則文件庫(kù)且由所述待切換規(guī)則網(wǎng)站以及所述待切換規(guī)則版本號(hào)共同標(biāo)識(shí)的調(diào)度端抓取規(guī)則文件。
[0123]在其中一個(gè)實(shí)施例中,還包括:
[0124]規(guī)則熱替換失敗請(qǐng)求發(fā)送模塊504,用于在發(fā)送所述獲取新規(guī)則文件請(qǐng)求后預(yù)設(shè)時(shí)間內(nèi)未收到所述待切換規(guī)則文件,則向所述調(diào)度端發(fā)送包括待切換規(guī)則網(wǎng)站以及待切換規(guī)則版本號(hào)的規(guī)則熱替換失敗請(qǐng)求;
[0125]重切換模塊505,用于接收到所述調(diào)度端響應(yīng)所述規(guī)則熱替換失敗請(qǐng)求發(fā)送的待切換規(guī)則文件和所述待切換規(guī)則網(wǎng)站,將保存在所述抓取端與所述待切換規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件,替換為所述待切換規(guī)則文件;
[0126]規(guī)則熱替換成功請(qǐng)求發(fā)送模塊506,用于在接收到所述待切換規(guī)則文件,并成功將保存在所述抓取端與所述待切換規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件,替換為所述待切換規(guī)則文件,則向所述調(diào)度端發(fā)送包括待切換規(guī)則網(wǎng)站以及待切換規(guī)則版本號(hào)的規(guī)則熱替換成功請(qǐng)求,所述熱替換成功請(qǐng)求用于所述調(diào)度端將所述待切換規(guī)則網(wǎng)站以及待切換規(guī)則版本號(hào)共同標(biāo)識(shí)的調(diào)度端抓取規(guī)則文件從所述規(guī)則文件庫(kù)移至歷史規(guī)則庫(kù)。
[0127]在其中一個(gè)實(shí)施例中,還包括:
[0128]準(zhǔn)確率比較模塊507,用于接收到所述待切換規(guī)則文件,將與所述待切換規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件的抓取端版本號(hào)作為歷史規(guī)則版本號(hào),將所述待切換規(guī)則網(wǎng)站作為歷史規(guī)則網(wǎng)站,在將所述待切換規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件替換為所述待切換規(guī)則文件后,如果抓取網(wǎng)絡(luò)信息的準(zhǔn)確率降低,則向所述調(diào)度端發(fā)送包括歷史規(guī)則網(wǎng)站以及歷史規(guī)則版本號(hào)的歷史規(guī)則切換請(qǐng)求;
[0129]調(diào)度端歷史規(guī)則文件切換模塊508,用于接收到調(diào)度端發(fā)送的調(diào)度端歷史規(guī)則文件和所述歷史規(guī)則網(wǎng)站,將保存在所述抓取端與所述歷史規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件,替換為所述歷史規(guī)則文件;
[0130]所述調(diào)度端歷史規(guī)則文件為所述調(diào)度端響應(yīng)歷史規(guī)則切換請(qǐng)求從所述歷史規(guī)則庫(kù)中獲取由所述歷史規(guī)則網(wǎng)站以及所述歷史規(guī)則版本號(hào)共同標(biāo)識(shí)的調(diào)度端抓取規(guī)則文件。
[0131]在其中一個(gè)實(shí)施例中,還包括:
[0132]抓取端歷史規(guī)則文件切換模塊,用于接收到所述待切換規(guī)則文件,將所述待切換規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件在所述抓取端備份為抓取端歷史規(guī)則文件,將所述待切換規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件的抓取端版本號(hào)作為歷史規(guī)則版本號(hào),將所述待切換規(guī)則網(wǎng)站作為歷史規(guī)則網(wǎng)站,在將所述待切換規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件替換為所述待切換規(guī)則文件后,如果抓取網(wǎng)絡(luò)信息的準(zhǔn)確率降低,則將所述待切換規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件,重新替換為所述抓取端歷史規(guī)則文件。
[0133]其中,準(zhǔn)確率比較模塊507、調(diào)度端歷史規(guī)則文件切換模塊508與抓取端歷史規(guī)則文件切換模塊是可選的,即可以僅包括準(zhǔn)確率比較模塊507、調(diào)度端歷史規(guī)則文件切換模塊508,也可以僅包括抓取端歷史規(guī)則文件切換模塊。
[0134]以上所述實(shí)施例僅表達(dá)了本發(fā)明的幾種實(shí)施方式,其描述較為具體和詳細(xì),但并不能因此而理解為對(duì)本發(fā)明專利范圍的限制。應(yīng)當(dāng)指出的是,對(duì)于本領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進(jìn),這些都屬于本發(fā)明的保護(hù)范圍。因此,本發(fā)明專利的保護(hù)范圍應(yīng)以所附權(quán)利要求為準(zhǔn)。
【權(quán)利要求】
1.一種網(wǎng)頁(yè)爬蟲抓取規(guī)則替換方法,其特征在于,包括: 向抓取網(wǎng)絡(luò)信息的抓取端發(fā)送抓取任務(wù),所述抓取任務(wù)包括待抓取網(wǎng)站,以及與所述待抓取網(wǎng)站對(duì)應(yīng)的調(diào)度端抓取規(guī)則文件的調(diào)度端版本號(hào); 接收到所述抓取端發(fā)送的包括待切換規(guī)則網(wǎng)站以及待切換規(guī)則版本號(hào)的獲取新規(guī)則文件請(qǐng)求,則向所述抓取端發(fā)送待切換規(guī)則文件和所述待切換規(guī)則網(wǎng)站,所述待切換規(guī)則文件為保存在規(guī)則文件庫(kù)中且由所述待切換規(guī)則網(wǎng)站以及所述待切換規(guī)則版本號(hào)共同標(biāo)識(shí)的調(diào)度端抓取規(guī)則文件; 所述抓取任務(wù)用于所述抓取端獲取保存在所述抓取端與所述待抓取網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件的抓取端版本號(hào),比較所述抓取端版本號(hào)與所述調(diào)度端版本號(hào),如果所述抓取端版本號(hào)與所述調(diào)度端版本號(hào)不一致,則將所述待抓取網(wǎng)站作為待切換規(guī)則網(wǎng)站,將所述調(diào)度端版本號(hào)作為待切換規(guī)則版本號(hào),并返回所述獲取新規(guī)則文件請(qǐng)求,否則不返回所述獲取新規(guī)則文件請(qǐng)求,對(duì)所述待抓取網(wǎng)站采用所述抓取端抓取規(guī)則文件抓取網(wǎng)絡(luò)信息; 所述待切換規(guī)則文件用于所述抓取端將保存在所述抓取端與所述待切換規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件,替換為所述待切換規(guī)則文件。
2.根據(jù)權(quán)利要求1所述的網(wǎng)頁(yè)爬蟲抓取規(guī)則替換方法,其特征在于,還包括: 接收到所述抓取端發(fā)送的包括待切換規(guī)則網(wǎng)站以及待切換規(guī)則版本號(hào)的規(guī)則熱替換失敗請(qǐng)求,則向所述抓取端發(fā)送所述待切換規(guī)則版本號(hào)對(duì)應(yīng)的所述待切換規(guī)則文件和所述待切換規(guī)則網(wǎng)站,所述待切換規(guī)則文件用于所述抓取端將保存在所述抓取端與所述待切換規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取 規(guī)則文件,替換為所述待切換規(guī)則文件; 所述規(guī)則熱替換失敗請(qǐng)求為所述抓取端在發(fā)送所述獲取新規(guī)則文件請(qǐng)求后預(yù)設(shè)時(shí)間內(nèi)未收到所述待切換規(guī)則文件所發(fā)送的請(qǐng)求; 接收到所述抓取端發(fā)送的包括待切換規(guī)則網(wǎng)站以及待切換規(guī)則版本號(hào)的規(guī)則熱替換成功請(qǐng)求,則將所述待切換規(guī)則網(wǎng)站以及待切換規(guī)則版本號(hào)共同標(biāo)識(shí)的調(diào)度端抓取規(guī)則文件從所述規(guī)則文件庫(kù)移至歷史規(guī)則庫(kù); 所述規(guī)則熱替換成功請(qǐng)求為所述抓取端在接收到所述待切換規(guī)則文件,并成功將保存在所述抓取端與所述待切換規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件,替換為所述待切換規(guī)則文件,則發(fā)送所述規(guī)則熱替換成功請(qǐng)求。
3.根據(jù)權(quán)利要求2所述的網(wǎng)頁(yè)爬蟲抓取規(guī)則替換方法,其特征在于,還包括: 接收到所述抓取端發(fā)送的包括歷史規(guī)則網(wǎng)站以及歷史規(guī)則版本號(hào)的歷史規(guī)則切換請(qǐng)求,從所述歷史規(guī)則庫(kù)中獲取由所述歷史規(guī)則網(wǎng)站以及所述歷史規(guī)則版本號(hào)共同標(biāo)識(shí)的調(diào)度端抓取規(guī)則文件作為調(diào)度端歷史規(guī)則文件,將調(diào)度端歷史規(guī)則文件從所述歷史規(guī)則庫(kù)中移至所述規(guī)則文件庫(kù),向所述抓取端發(fā)送調(diào)度端歷史規(guī)則文件和所述歷史規(guī)則網(wǎng)站; 所述歷史規(guī)則切換請(qǐng)求為所述抓取端在接收到所述待切換規(guī)則文件,將與所述待切換規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件的抓取端版本號(hào)作為歷史規(guī)則版本號(hào),將所述待切換規(guī)則網(wǎng)站作為歷史規(guī)則網(wǎng)站,在將所述待切換規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件替換為所述待切換規(guī)則文件后,如果抓取網(wǎng)絡(luò)信息的準(zhǔn)確率降低,則發(fā)送所述歷史規(guī)則切換請(qǐng)求; 所述調(diào)度端歷史規(guī)則文件用于所述抓取端將保存在所述抓取端與所述歷史規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件,替換為所述歷史規(guī)則文件。
4.根據(jù)權(quán)利要求1所述的網(wǎng)頁(yè)爬蟲抓取規(guī)則替換方法,其特征在于,還包括: 接收到包括待更新網(wǎng)站以及對(duì)應(yīng)的待更新規(guī)則文件的上傳規(guī)則請(qǐng)求,則將所述待更新規(guī)則文件與所述待更新網(wǎng)站關(guān)聯(lián)后作為調(diào)度端抓取規(guī)則文件保存在規(guī)則文件庫(kù),并為所述調(diào)度端抓取規(guī)則文件分配對(duì)應(yīng)的調(diào)度端版本號(hào)。
5.一種網(wǎng)頁(yè)爬蟲抓取規(guī)則替換調(diào)度端,其特征在于,包括: 抓取任務(wù)發(fā)送模塊,用于向抓取網(wǎng)絡(luò)信息的抓取端發(fā)送抓取任務(wù),所述抓取任務(wù)包括待抓取網(wǎng)站,以及與所述待抓取網(wǎng)站對(duì)應(yīng)的調(diào)度端抓取規(guī)則文件的調(diào)度端版本號(hào); 獲取新規(guī)則文件請(qǐng)求接收模塊,用于接收到所述抓取端發(fā)送的包括待切換規(guī)則網(wǎng)站以及待切換規(guī)則版本號(hào)的獲取新規(guī)則文件請(qǐng)求,則向所述抓取端發(fā)送待切換規(guī)則文件和所述待切換規(guī)則網(wǎng)站,所述待切換規(guī)則文件為保存在規(guī)則文件庫(kù)中且由所述待切換規(guī)則網(wǎng)站以及所述待切換規(guī)則版本號(hào)共同標(biāo)識(shí)的調(diào)度端抓取規(guī)則文件; 所述抓取任務(wù)用于所述抓取端獲取保存在所述抓取端與所述待抓取網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件的抓取端版本號(hào),比較所述抓取端版本號(hào)與所述調(diào)度端版本號(hào),如果所述抓取端版本號(hào)與所述調(diào)度端版本號(hào)不一致,則將所述待抓取網(wǎng)站作為待切換規(guī)則網(wǎng)站,將所述調(diào)度端版本號(hào)作為待切換規(guī)則版本號(hào),并返回所述獲取新規(guī)則文件請(qǐng)求,否則不返回所述獲取新規(guī)則文件請(qǐng)求,對(duì)所述待抓取網(wǎng)站采用所述抓取端抓取規(guī)則文件抓取網(wǎng)絡(luò)信息; 所述待切換規(guī)則文件用于所述抓取端將保存在所述抓取端與所述待切換規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件,替換為所述待切換規(guī)則文件。
6.根據(jù)權(quán)利要求5所述的網(wǎng)頁(yè)爬蟲抓取規(guī)則替換調(diào)度端,其特征在于,還包括:` 規(guī)則熱替換失敗請(qǐng)求接收模塊,用于接收到所述抓取端發(fā)送的包括待切換規(guī)則網(wǎng)站以及待切換規(guī)則版本號(hào)的規(guī)則熱替換失敗請(qǐng)求,則向所述抓取端發(fā)送所述待切換規(guī)則版本號(hào)對(duì)應(yīng)的所述待切換規(guī)則文件和所述待切換規(guī)則網(wǎng)站,所述待切換規(guī)則文件用于所述抓取端將保存在所述抓取端與所述待切換規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件,替換為所述待切換規(guī)則文件; 所述規(guī)則熱替換失敗請(qǐng)求為所述抓取端在發(fā)送所述獲取新規(guī)則文件請(qǐng)求后預(yù)設(shè)時(shí)間內(nèi)未收到所述待切換規(guī)則文件,則發(fā)送所述規(guī)則熱替換失敗請(qǐng)求; 規(guī)則熱替換成功請(qǐng)求接收模塊,用于接收到所述抓取端發(fā)送的包括待切換規(guī)則網(wǎng)站以及待切換規(guī)則版本號(hào)的規(guī)則熱替換成功請(qǐng)求,則將所述待切換規(guī)則網(wǎng)站以及待切換規(guī)則版本號(hào)共同標(biāo)識(shí)的調(diào)度端抓取規(guī)則文件從所述規(guī)則文件庫(kù)移至歷史規(guī)則庫(kù); 所述規(guī)則熱替換成功請(qǐng)求為所述抓取端在接收到所述待切換規(guī)則文件,并成功將保存在所述抓取端與所述待切換規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件,替換為所述待切換規(guī)則文件,則發(fā)送所述規(guī)則熱替換成功請(qǐng)求。
7.根據(jù)權(quán)利要求6所述的網(wǎng)頁(yè)爬蟲抓取規(guī)則替換調(diào)度端,其特征在于,還包括: 歷史規(guī)則切換請(qǐng)求接收模塊,用于接收到所述抓取端發(fā)送的包括歷史規(guī)則網(wǎng)站以及歷史規(guī)則版本號(hào)的歷史規(guī)則切換請(qǐng)求,從所述歷史規(guī)則庫(kù)中獲取由所述歷史規(guī)則網(wǎng)站以及所述歷史規(guī)則版本號(hào)共同標(biāo)識(shí)的調(diào)度端抓取規(guī)則文件作為調(diào)度端歷史規(guī)則文件,將調(diào)度端歷史規(guī)則文件從所述歷史規(guī)則庫(kù)中移至所述規(guī)則文件庫(kù),向所述抓取端發(fā)送調(diào)度端歷史規(guī)則文件和所述歷史規(guī)則網(wǎng)站; 所述歷史規(guī)則切換請(qǐng)求為所述抓取端在接收到所述待切換規(guī)則文件,將與所述待切換規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件的抓取端版本號(hào)作為歷史規(guī)則版本號(hào),將所述待切換規(guī)則網(wǎng)站作為歷史規(guī)則網(wǎng)站,在將所述待切換規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件替換為所述待切換規(guī)則文件后,如果抓取網(wǎng)絡(luò)信息的準(zhǔn)確率降低,則發(fā)送所述歷史規(guī)則切換請(qǐng)求; 所述調(diào)度端歷史規(guī)則文件用于所述抓取端將保存在所述抓取端與所述歷史規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件,替換為所述歷史規(guī)則文件。
8.根據(jù)權(quán)利要求5所述的網(wǎng)頁(yè)爬蟲抓取規(guī)則替換調(diào)度端,其特征在于,還包括: 上傳規(guī)則請(qǐng)求接收模塊,用于接收到包括待更新網(wǎng)站以及對(duì)應(yīng)的待更新規(guī)則文件的上傳規(guī)則請(qǐng)求,則將所述待更新規(guī)則文件與所述待更新網(wǎng)站關(guān)聯(lián)后作為調(diào)度端抓取規(guī)則文件保存在規(guī)則文件庫(kù),并為所述調(diào)度端抓取規(guī)則文件分配對(duì)應(yīng)的調(diào)度端版本號(hào)。
9.一種網(wǎng)頁(yè)爬蟲抓取 規(guī)則替換方法,其特征在于,包括: 接收到調(diào)度網(wǎng)絡(luò)信息的調(diào)度端所發(fā)送的包括待抓取網(wǎng)站,以及與所述待抓取網(wǎng)站對(duì)應(yīng)的調(diào)度端抓取規(guī)則文件的調(diào)度端版本號(hào)的抓取任務(wù); 獲取與所述待抓取網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件的抓取端版本號(hào),比較所述抓取端版本號(hào)與所述調(diào)度端版本號(hào),如果所述抓取端版本號(hào)與所述調(diào)度端版本號(hào)不一致,則將所述待抓取網(wǎng)站作為待切換規(guī)則網(wǎng)站,將所述調(diào)度端版本號(hào)作為待切換規(guī)則版本號(hào),并向所述調(diào)度端發(fā)送包括所述待切換規(guī)則網(wǎng)站以及所述待切換規(guī)則版本號(hào)的獲取新規(guī)則文件請(qǐng)求,否則不向所述調(diào)度端發(fā)送所述獲取新規(guī)則文件請(qǐng)求,對(duì)所述待抓取網(wǎng)站采用所述抓取端抓取規(guī)則文件抓取網(wǎng)絡(luò)信息; 接收到所述調(diào)度端響應(yīng)所述獲取新規(guī)則文件請(qǐng)求發(fā)送的待切換規(guī)則文件和所述待切換規(guī)則網(wǎng)站,將保存在所述抓取端與所述待切換規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件,替換為所述待切換規(guī)則文件,對(duì)所述待抓取網(wǎng)站采用所述待切換規(guī)則文件抓取網(wǎng)絡(luò)信息;所述待切換規(guī)則文件為保存在所述調(diào)度端的規(guī)則文件庫(kù)且由所述待切換規(guī)則網(wǎng)站以及所述待切換規(guī)則版本號(hào)共同標(biāo)識(shí)的調(diào)度端抓取規(guī)則文件。
10.根據(jù)權(quán)利要求9所述的網(wǎng)頁(yè)爬蟲抓取規(guī)則替換方法,其特征在于,還包括: 在發(fā)送所述獲取新規(guī)則文件請(qǐng)求后預(yù)設(shè)時(shí)間內(nèi)未收到所述待切換規(guī)則文件,則向所述調(diào)度端發(fā)送包括待切換規(guī)則網(wǎng)站以及待切換規(guī)則版本號(hào)的規(guī)則熱替換失敗請(qǐng)求; 接收到所述調(diào)度端響應(yīng)所述規(guī)則熱替換失敗請(qǐng)求發(fā)送的待切換規(guī)則文件和所述待切換規(guī)則網(wǎng)站,將保存在所述抓取端與所述待切換規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件,替換為所述待切換規(guī)則文件; 在接收到所述待切換規(guī)則文件,并成功將保存在所述抓取端與所述待切換規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件,替換為所述待切換規(guī)則文件,則向所述調(diào)度端發(fā)送包括待切換規(guī)則網(wǎng)站以及待切換規(guī)則版本號(hào)的規(guī)則熱替換成功請(qǐng)求,所述熱替換成功請(qǐng)求用于所述調(diào)度端將所述待切換規(guī)則網(wǎng)站以及待切換規(guī)則版本號(hào)共同標(biāo)識(shí)的調(diào)度端抓取規(guī)則文件從所述規(guī)則文件庫(kù)移至歷史規(guī)則庫(kù)。
11.根據(jù)權(quán)利要求10所述的網(wǎng)頁(yè)爬蟲抓取規(guī)則替換方法,其特征在于,還包括: 接收到所述待切換規(guī)則文件,將與所述待切換規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件的抓取端版本號(hào)作為歷史規(guī)則版本號(hào),將所述待切換規(guī)則網(wǎng)站作為歷史規(guī)則網(wǎng)站,在將所述待切換規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件替換為所述待切換規(guī)則文件后,如果抓取網(wǎng)絡(luò)信息的準(zhǔn)確率降低,則向所述調(diào)度端發(fā)送包括歷史規(guī)則網(wǎng)站以及歷史規(guī)則版本號(hào)的歷史規(guī)則切換請(qǐng)求; 接收到調(diào)度端發(fā)送的調(diào)度端歷史規(guī)則文件和所述歷史規(guī)則網(wǎng)站,將保存在所述抓取端與所述歷史規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件,替換為所述歷史規(guī)則文件; 所述調(diào)度端歷史規(guī)則文件為所述調(diào)度端響應(yīng)歷史規(guī)則切換請(qǐng)求從所述歷史規(guī)則庫(kù)中獲取由所述歷史規(guī)則網(wǎng)站以及所述歷史規(guī)則版本號(hào)共同標(biāo)識(shí)的調(diào)度端抓取規(guī)則文件。
12.根據(jù)權(quán)利要求9所述的網(wǎng)頁(yè)爬蟲抓取規(guī)則替換方法,其特征在于,還包括: 接收到所述待切換規(guī)則文件,將所述待切換規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件在所述抓取端備份為抓取端歷史規(guī)則文件,將所述待切換規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件的抓取端版本號(hào)作為歷史規(guī)則版本號(hào),將所述待切換規(guī)則網(wǎng)站作為歷史規(guī)則網(wǎng)站,在將所述待切換規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件替換為所述待切換規(guī)則文件后,如果抓取網(wǎng)絡(luò)信息的準(zhǔn)確率降低,則將所述待切換規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件,重新替換為所述抓取端歷史規(guī)則文件。
13.—種網(wǎng)頁(yè)爬蟲抓取規(guī)則替換抓取端,其特征在于,包括: 抓取任務(wù)接收模塊,用于接收到調(diào)度網(wǎng)絡(luò)信息的調(diào)度端所發(fā)送的包括待抓取網(wǎng)站,以及與所述待抓取網(wǎng)站對(duì)應(yīng)的調(diào)度端抓取規(guī)則文件的調(diào)度端版本號(hào)的抓取任務(wù); 版本比較模塊,用于獲取 與所述待抓取網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件的抓取端版本號(hào),比較所述抓取端版本號(hào)與所述調(diào)度端版本號(hào),如果所述抓取端版本號(hào)與所述調(diào)度端版本號(hào)不一致,則將所述待抓取網(wǎng)站作為待切換規(guī)則網(wǎng)站,將所述調(diào)度端版本號(hào)作為待切換規(guī)則版本號(hào),并向所述調(diào)度端發(fā)送包括所述待切換規(guī)則網(wǎng)站以及所述待切換規(guī)則版本號(hào)的獲取新規(guī)則文件請(qǐng)求,否則不向所述調(diào)度端發(fā)送所述獲取新規(guī)則文件請(qǐng)求,對(duì)所述待抓取網(wǎng)站采用所述抓取端抓取規(guī)則文件抓取網(wǎng)絡(luò)信息; 規(guī)則切換模塊,用于接收到所述調(diào)度端響應(yīng)所述獲取新規(guī)則文件請(qǐng)求發(fā)送的待切換規(guī)則文件和所述待切換規(guī)則網(wǎng)站,將保存在所述抓取端與所述待切換規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件,替換為所述待切換規(guī)則文件,對(duì)所述待抓取網(wǎng)站采用所述待切換規(guī)則文件抓取網(wǎng)絡(luò)信息; 所述待切換規(guī)則文件為保存在所述調(diào)度端的規(guī)則文件庫(kù)且由所述待切換規(guī)則網(wǎng)站以及所述待切換規(guī)則版本號(hào)共同標(biāo)識(shí)的調(diào)度端抓取規(guī)則文件。
14.根據(jù)權(quán)利要求13所述的網(wǎng)頁(yè)爬蟲抓取規(guī)則替換抓取端,其特征在于,還包括: 規(guī)則熱替換失敗請(qǐng)求發(fā)送模塊,用于在發(fā)送所述獲取新規(guī)則文件請(qǐng)求后預(yù)設(shè)時(shí)間內(nèi)未收到所述待切換規(guī)則文件,則向所述調(diào)度端發(fā)送包括待切換規(guī)則網(wǎng)站以及待切換規(guī)則版本號(hào)的規(guī)則熱替換失敗請(qǐng)求; 重切換模塊,用于接收到所述調(diào)度端響應(yīng)所述規(guī)則熱替換失敗請(qǐng)求發(fā)送的待切換規(guī)則文件和所述待切換規(guī)則網(wǎng)站,將保存在所述抓取端與所述待切換規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件,替換為所述待切換規(guī)則文件; 規(guī)則熱替換成功請(qǐng)求發(fā)送模塊,用于在接收到所述待切換規(guī)則文件,并成功將保存在所述抓取端與所述待切換規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件,替換為所述待切換規(guī)則文件,則向所述調(diào)度端發(fā)送包括待切換規(guī)則網(wǎng)站以及待切換規(guī)則版本號(hào)的規(guī)則熱替換成功請(qǐng)求,所述熱替換成功請(qǐng)求用于所述調(diào)度端將所述待切換規(guī)則網(wǎng)站以及待切換規(guī)則版本號(hào)共同標(biāo)識(shí)的調(diào)度端抓取規(guī)則文件從所述規(guī)則文件庫(kù)移至歷史規(guī)則庫(kù)。
15.根據(jù)權(quán)利要求14所述的網(wǎng)頁(yè)爬蟲抓取規(guī)則替換抓取端,其特征在于,還包括: 準(zhǔn)確率比較模塊,用于接收到所述待切換規(guī)則文件,將與所述待切換規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件的抓取端版本號(hào)作為歷史規(guī)則版本號(hào),將所述待切換規(guī)則網(wǎng)站作為歷史規(guī)則網(wǎng)站,在將所述待切換規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件替換為所述待切換規(guī)則文件后,如果抓取網(wǎng)絡(luò)信息的準(zhǔn)確率降低,則向所述調(diào)度端發(fā)送包括歷史規(guī)則網(wǎng)站以及歷史規(guī)則版本號(hào)的歷史規(guī)則切換請(qǐng)求; 調(diào)度端歷史規(guī)則文件切換模塊,用于接收到調(diào)度端發(fā)送的調(diào)度端歷史規(guī)則文件和所述歷史規(guī)則網(wǎng)站,將保存在所述抓取端與所述歷史規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件,替換為所述歷史規(guī)則文件; 所述調(diào)度端歷史規(guī)則文件為所述調(diào)度端響應(yīng)歷史規(guī)則切換請(qǐng)求從所述歷史規(guī)則庫(kù)中獲取由所述歷史規(guī)則網(wǎng)站以及所述歷史規(guī)則版本號(hào)共同標(biāo)識(shí)的調(diào)度端抓取規(guī)則文件。
16.根據(jù)權(quán)利要求13所述的網(wǎng)頁(yè)爬蟲抓取規(guī)則替換抓取端,其特征在于,還包括: 抓取端歷史規(guī)則文件切換模塊,用于接收到所述待切換規(guī)則文件,將所述待切換規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件在所述抓取端備份為抓取端歷史規(guī)則文件,將所述待切換規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件的抓取端版本號(hào)作為歷史規(guī)則版本號(hào),將所述待切換規(guī)則網(wǎng)站作為歷史規(guī)則網(wǎng) 站,在將所述待切換規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件替換為所述待切換規(guī)則文件后,如果抓取網(wǎng)絡(luò)信息的準(zhǔn)確率降低,則將所述待切換規(guī)則網(wǎng)站對(duì)應(yīng)的抓取端抓取規(guī)則文件,重新替換為所述抓取端歷史規(guī)則文件。
【文檔編號(hào)】G06F17/30GK103488795SQ201310471399
【公開日】2014年1月1日 申請(qǐng)日期:2013年10月10日 優(yōu)先權(quán)日:2013年10月10日
【發(fā)明者】廖耀華, 黎小為 申請(qǐng)人:北京京東尚科信息技術(shù)有限公司, 北京京東世紀(jì)貿(mào)易有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
新昌县| 启东市| 桂阳县| 蓝山县| 荆州市| 二连浩特市| 嵊泗县| 江陵县| 连江县| 光泽县| 诸暨市| 石渠县| 丽江市| 开平市| 淮滨县| 阿拉善右旗| 新蔡县| 武汉市| 南投市| 金堂县| 满城县| 阜宁县| 韶关市| 邻水| 麻城市| 德保县| 乌鲁木齐市| 平乐县| 南丹县| 高平市| 稻城县| 准格尔旗| 公主岭市| 中江县| 高要市| 乐清市| 七台河市| 湘潭县| 湖北省| 梅河口市| 伊吾县|