欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

爬取網(wǎng)頁的方法及裝置與流程

文檔序號(hào):11590405閱讀:236來源:國知局

本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其涉及一種爬取網(wǎng)頁的方法及裝置。



背景技術(shù):

網(wǎng)絡(luò)爬蟲是一種按照一定的規(guī)則自動(dòng)爬取萬維網(wǎng)中網(wǎng)頁的程序或者腳本。它可以根據(jù)既定的目標(biāo),選擇性地訪問萬維網(wǎng)上的網(wǎng)頁和相關(guān)的鏈接,獲取所需要的信息。

在通過網(wǎng)絡(luò)爬蟲爬取網(wǎng)頁時(shí),若需要爬取的網(wǎng)頁數(shù)量很大,則通常會(huì)將待爬取的網(wǎng)頁的統(tǒng)一資源定位符(uniformresourcelocator,簡稱url)放到隊(duì)列中進(jìn)行緩存,每個(gè)網(wǎng)頁的url稱為一個(gè)爬蟲種子,每次由網(wǎng)絡(luò)爬蟲從緩存的隊(duì)列中按順序獲取爬蟲種子,然后進(jìn)行網(wǎng)頁的爬取。當(dāng)其中某些網(wǎng)頁需要優(yōu)先爬取時(shí),現(xiàn)有的方法為將網(wǎng)頁對(duì)應(yīng)的爬蟲種子設(shè)置優(yōu)先級(jí),當(dāng)網(wǎng)絡(luò)爬蟲從隊(duì)列中獲取種子時(shí),先查看爬蟲種子的優(yōu)先級(jí),若優(yōu)先級(jí)高,則直接獲取爬蟲種子然后進(jìn)行網(wǎng)頁的爬取,若優(yōu)先級(jí)低則將其優(yōu)先級(jí)調(diào)高并放回隊(duì)列尾部??梢钥闯?,上述在網(wǎng)絡(luò)爬蟲獲取種子的過程中,對(duì)于優(yōu)先級(jí)低的爬蟲種子需要不斷的從隊(duì)列中讀出,并檢查其優(yōu)先級(jí),然后重新插入隊(duì)列,這種方式會(huì)造成資源的耗費(fèi),降低系統(tǒng)執(zhí)行的速度。



技術(shù)實(shí)現(xiàn)要素:

鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的一種爬取網(wǎng)頁的方法及裝置。

為解決上述技術(shù)問題,一方面,本發(fā)明提供了一種爬取網(wǎng)頁的方法,該方法包括:

獲取爬蟲種子,所述爬蟲種子為網(wǎng)絡(luò)爬蟲要爬取的網(wǎng)頁的統(tǒng)一資源定位符url;

根據(jù)每個(gè)爬蟲種子的優(yōu)先級(jí)將所述爬蟲種子注入到與其優(yōu)先級(jí)對(duì)應(yīng)的隊(duì)列中,不同優(yōu)先級(jí)對(duì)應(yīng)不同隊(duì)列;

將對(duì)應(yīng)不同優(yōu)先級(jí)的隊(duì)列發(fā)送給所述網(wǎng)絡(luò)爬蟲,以使得所述網(wǎng)絡(luò)爬蟲根據(jù)預(yù)設(shè)提取規(guī)則從不同隊(duì)列中提取所述爬蟲種子,并按照提取的爬蟲種子進(jìn)行網(wǎng)頁爬取。

另一方面,本發(fā)明還提供了一種爬取網(wǎng)頁的裝置,該裝置包括:

種子獲取單元,用于獲取爬蟲種子,所述爬蟲種子為網(wǎng)絡(luò)爬蟲要爬取的網(wǎng)頁的統(tǒng)一資源定位符url;

注入單元,用于根據(jù)每個(gè)爬蟲種子的優(yōu)先級(jí)將所述爬蟲種子注入到與其優(yōu)先級(jí)對(duì)應(yīng)的隊(duì)列中,不同優(yōu)先級(jí)對(duì)應(yīng)不同隊(duì)列;

隊(duì)列發(fā)送單元,用于將對(duì)應(yīng)不同優(yōu)先級(jí)的隊(duì)列發(fā)送給所述網(wǎng)絡(luò)爬蟲,以使得所述網(wǎng)絡(luò)爬蟲根據(jù)預(yù)設(shè)提取規(guī)則從不同隊(duì)列中提取所述爬蟲種子,并按照提取的爬蟲種子進(jìn)行網(wǎng)頁爬取。

借由上述技術(shù)方案,本發(fā)明提供的爬取網(wǎng)頁的方法及裝置,能夠首先獲取爬蟲種子,即網(wǎng)絡(luò)爬蟲要抓取的網(wǎng)頁的url,然后根據(jù)每個(gè)爬蟲種子的優(yōu)先級(jí)將爬蟲種子注入到不同的隊(duì)列中,最后將不同優(yōu)先級(jí)對(duì)應(yīng)的不同的隊(duì)列發(fā)送給網(wǎng)絡(luò)爬蟲,使網(wǎng)絡(luò)爬蟲根據(jù)預(yù)設(shè)提取規(guī)則從不同的隊(duì)列中提取爬蟲種子,并按照提取的爬蟲種子進(jìn)行網(wǎng)頁爬取。與現(xiàn)有技術(shù)相比,本發(fā)明能夠?qū)⒕W(wǎng)絡(luò)爬蟲需要提取的爬蟲種子按照優(yōu)先級(jí)的不同,分別注入到不同的隊(duì)列中,然后將不同優(yōu)先級(jí)的隊(duì)列發(fā)送給網(wǎng)絡(luò)爬蟲,使網(wǎng)絡(luò)爬蟲可以按照預(yù)設(shè)提取規(guī)則從不同的隊(duì)列中提取爬蟲種子。由于不同的優(yōu)先級(jí)的爬蟲種子放在不同的隊(duì)列中,每個(gè)隊(duì)列中的優(yōu)先級(jí)是一樣的,且是按照先進(jìn)先出的順序排列的,因此不會(huì)發(fā)生由于一個(gè)隊(duì)列中存在不同優(yōu)先級(jí)的爬蟲種子而需要不斷地將優(yōu)先級(jí)低的爬蟲種子的優(yōu)先級(jí)調(diào)高后放到隊(duì)尾的問題,只需要按照預(yù)設(shè)提取規(guī)則從不同的隊(duì)列中提取爬蟲種子即可,因此可以減少資源的耗費(fèi),并提高系統(tǒng)的運(yùn)行速度。

附圖說明

通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:

圖1示出了本發(fā)明實(shí)施例提供的一種爬取網(wǎng)頁的方法流程圖;

圖2示出了本發(fā)明實(shí)施例提供的另一種爬取網(wǎng)頁的方法流程圖;

圖3示出了本發(fā)明實(shí)施例提供的一種爬取網(wǎng)頁的裝置的組成框圖;

圖4示出了本發(fā)明實(shí)施例提供的另一種爬取網(wǎng)頁的裝置的組成框圖。

具體實(shí)施方式

下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。

為解決現(xiàn)有爬取網(wǎng)頁的方法造成資源的耗費(fèi),降低系統(tǒng)執(zhí)行速度的問題,本發(fā)明實(shí)施例提供了一種爬取網(wǎng)頁的方法,如圖1所示,該方法包括:

101、獲取爬蟲種子。

爬蟲種子為網(wǎng)絡(luò)爬蟲要抓取的網(wǎng)頁的url。網(wǎng)絡(luò)爬蟲是一種自動(dòng)抓取萬維網(wǎng)中網(wǎng)頁的程序或腳本,而爬取網(wǎng)頁時(shí)是通過網(wǎng)頁的url來抓取的,因此為了爬取網(wǎng)頁首先要獲取網(wǎng)頁的url,即爬蟲種子。

102、根據(jù)每個(gè)爬蟲種子的優(yōu)先級(jí)將爬蟲種子注入到與其優(yōu)先級(jí)對(duì)應(yīng)的隊(duì)列中。

首先說明的是,本實(shí)施例中主要針對(duì)的是網(wǎng)絡(luò)爬蟲需要爬取的網(wǎng)頁量很大的情況,因此需要將爬蟲種子緩存到隊(duì)列中。又由于不同的網(wǎng)頁被爬取的優(yōu)先級(jí)可能是不同的,因此每個(gè)爬蟲種子都有不同的優(yōu)先級(jí),而優(yōu)先級(jí)的劃分是根據(jù)實(shí)際的爬取任務(wù)的需求提前確定的。然后根據(jù)確定的每個(gè)爬蟲種子的優(yōu)先級(jí)將爬蟲種子注入到與其優(yōu)先級(jí)對(duì)應(yīng)的隊(duì)列中,其中不同優(yōu)先級(jí)對(duì)應(yīng)不同隊(duì)列,每個(gè)隊(duì)列中只緩存有同一優(yōu)先級(jí)的爬蟲種子。

103、將對(duì)應(yīng)不同優(yōu)先級(jí)的隊(duì)列發(fā)送給網(wǎng)絡(luò)爬蟲。

將由步驟102得到的不同優(yōu)先級(jí)的隊(duì)列發(fā)送給網(wǎng)絡(luò)爬蟲,以使得網(wǎng)絡(luò)爬蟲根據(jù)預(yù)設(shè)提取規(guī)則從不同隊(duì)列中提取爬蟲種子。其中預(yù)設(shè)提取規(guī)則是根據(jù)實(shí)際的業(yè)務(wù)需求自由設(shè)定的。在提取到爬蟲種子后,網(wǎng)絡(luò)爬蟲會(huì)按照提取的爬蟲種子進(jìn)行網(wǎng)頁爬取。

本實(shí)施例提供的爬取網(wǎng)頁的方法,能夠首先獲取爬蟲種子,即網(wǎng)絡(luò)爬蟲要抓取的網(wǎng)頁的url,然后根據(jù)每個(gè)爬蟲種子的優(yōu)先級(jí)將爬蟲種子注入到不同的隊(duì)列中,最后將不同優(yōu)先級(jí)對(duì)應(yīng)的不同的隊(duì)列發(fā)送給網(wǎng)絡(luò)爬蟲,使網(wǎng)絡(luò)爬蟲根據(jù)預(yù)設(shè)提取規(guī)則從不同的隊(duì)列中提取爬蟲種子,并按照提取的爬蟲種子進(jìn)行網(wǎng)頁爬取。與現(xiàn)有技術(shù)相比,本實(shí)施例能夠?qū)⒕W(wǎng)絡(luò)爬蟲需要提取的爬蟲種子按照優(yōu)先級(jí)的不同,分別注入到不同的隊(duì)列中,然后將不同優(yōu)先級(jí)的隊(duì)列發(fā)送給網(wǎng)絡(luò)爬蟲,使網(wǎng)絡(luò)爬蟲可以按照預(yù)設(shè)提取規(guī)則從不同的隊(duì)列中提取爬蟲種子。由于不同的優(yōu)先級(jí)的爬蟲種子放在不同的隊(duì)列中,每個(gè)隊(duì)列中的優(yōu)先級(jí)是一樣的,且是按照先進(jìn)先出的順序排列的,因此不會(huì)發(fā)生由于一個(gè)隊(duì)列中存在不同優(yōu)先級(jí)的爬蟲種子而需要不斷地將優(yōu)先級(jí)低的爬蟲種子的優(yōu)先級(jí)調(diào)高后放到隊(duì)尾的問題,只需要按照預(yù)設(shè)提取規(guī)則從不同的隊(duì)列中提取爬蟲種子即可,因此可以減少資源的耗費(fèi),并提高系統(tǒng)的運(yùn)行速度。

進(jìn)一步的,作為對(duì)圖1所示實(shí)施例的細(xì)化及擴(kuò)展,本發(fā)明還提供了另一實(shí)施例。如圖2所示,該實(shí)施例中爬取網(wǎng)頁的方法包括:

201、獲取爬蟲種子。

本步驟的實(shí)現(xiàn)方式與圖1步驟101的實(shí)現(xiàn)方式相同,此處不再贅述。

202、分別為不同的優(yōu)先級(jí)建立對(duì)應(yīng)的隊(duì)列。

由于本實(shí)施例針對(duì)的是爬取網(wǎng)頁數(shù)量很大的情況,因此需要將爬蟲種子緩存到隊(duì)列中,使網(wǎng)絡(luò)爬蟲可以從隊(duì)列中提取爬蟲種子。而在將爬蟲種子緩存到隊(duì)列中之前,需要先建立隊(duì)列,為了實(shí)現(xiàn)后續(xù)步驟中不同的隊(duì)列中緩存不同的優(yōu)先級(jí)的爬蟲種子,因此對(duì)應(yīng)的需要針對(duì)不同的優(yōu)先級(jí)分別建立與其對(duì)應(yīng)的隊(duì)列。

203、根據(jù)每個(gè)爬蟲種子的優(yōu)先級(jí)將爬蟲種子注入到與其優(yōu)先級(jí)對(duì)應(yīng)的隊(duì)列中。

本步驟的實(shí)現(xiàn)方式與圖1步驟102的實(shí)現(xiàn)方式相同,此處不再贅述。

204、獲取預(yù)設(shè)提取規(guī)則。

本實(shí)施例中預(yù)設(shè)提取規(guī)則用于設(shè)置不同優(yōu)先級(jí)對(duì)應(yīng)的隊(duì)列的提取順序以及不同隊(duì)列中的爬蟲種子數(shù)量的提取比例,對(duì)于預(yù)設(shè)提取規(guī)則通常是根 據(jù)實(shí)際的業(yè)務(wù)需求定義的。給出具體的示例說明預(yù)設(shè)提取規(guī)則,比如網(wǎng)絡(luò)爬蟲要爬取的網(wǎng)頁對(duì)應(yīng)的爬蟲種子可以分為三個(gè)優(yōu)先級(jí)p1、p2、p3,p1優(yōu)先級(jí)最高,p3優(yōu)先級(jí)最低,且三個(gè)優(yōu)先級(jí)對(duì)應(yīng)的隊(duì)列分別為l1、l2、l3。對(duì)于這三個(gè)優(yōu)先級(jí)對(duì)應(yīng)的隊(duì)列來說,一個(gè)預(yù)設(shè)提取規(guī)則可以為:提取順序?yàn)閜1、p2、p3,提取比例為p1:p2:p3=5:2:1,表示先從p1對(duì)應(yīng)的隊(duì)列l(wèi)1中提取5倍基數(shù)的爬蟲種子,再從p2對(duì)應(yīng)的隊(duì)列l(wèi)2中提取2倍基數(shù)的爬蟲種子,最后從p3對(duì)應(yīng)的隊(duì)列l(wèi)3中提出1倍基數(shù)的爬蟲種子。

205、將對(duì)應(yīng)不同優(yōu)先級(jí)的隊(duì)列以及預(yù)設(shè)提取規(guī)則發(fā)送給網(wǎng)絡(luò)爬蟲。

將由步驟204得到的預(yù)設(shè)提取規(guī)則和由步驟203得到的對(duì)應(yīng)不同優(yōu)先級(jí)的隊(duì)列發(fā)送給網(wǎng)絡(luò)爬蟲,以使得網(wǎng)絡(luò)爬蟲根據(jù)預(yù)設(shè)提取規(guī)則從不同的隊(duì)列中提取爬蟲種子。具體的從不同的隊(duì)列中提取爬蟲種子的方式是由預(yù)設(shè)提取規(guī)則決定的,正如步驟204給出的示例來說,網(wǎng)絡(luò)爬蟲就會(huì)按照先從p1對(duì)應(yīng)的隊(duì)列l(wèi)1中提取5倍基數(shù)的爬蟲種子,再從p2對(duì)應(yīng)的隊(duì)列l(wèi)2中提取2倍基數(shù)的爬蟲種子,最后從p3對(duì)應(yīng)的隊(duì)列l(wèi)3中提出1倍基數(shù)的爬蟲種子,然后再循環(huán)地從隊(duì)列l(wèi)1、l2、l3中提取對(duì)應(yīng)基數(shù)的爬蟲種子,提取過程中,當(dāng)某一個(gè)隊(duì)列中的爬蟲種子被提取完后,直接跳過該隊(duì)列去提取下一個(gè)隊(duì)列中的爬蟲種子,直到所有隊(duì)列中的爬蟲種子都被提取完為止。

進(jìn)一步的,在實(shí)際的應(yīng)用中,有可能需要臨時(shí)更改預(yù)設(shè)提取規(guī)則或者臨時(shí)調(diào)整爬蟲種子優(yōu)先級(jí),因此需要監(jiān)聽中斷信號(hào),該中斷信號(hào)為更改預(yù)設(shè)提取規(guī)則和/或爬蟲種子優(yōu)先級(jí)發(fā)生變化的信號(hào),需要說明的是,優(yōu)先級(jí)發(fā)生變化為部分或者所有的爬蟲種子的優(yōu)先級(jí)發(fā)生變化。

若中斷信號(hào)為更改預(yù)設(shè)提取規(guī)則,則在監(jiān)聽到中斷信號(hào)后,獲取更改后的預(yù)設(shè)提取規(guī)則,并將更改后的預(yù)設(shè)提取規(guī)則發(fā)送給網(wǎng)絡(luò)爬蟲。

若中斷信號(hào)為爬蟲種子的優(yōu)先級(jí)發(fā)生變化,則根據(jù)爬蟲種子的發(fā)生變化后的優(yōu)先級(jí)將爬蟲種子注入到與其優(yōu)先級(jí)對(duì)應(yīng)的隊(duì)列中,得到新的隊(duì)列。

進(jìn)一步的,在監(jiān)聽到中斷信號(hào)的情況下,需要重新啟動(dòng)網(wǎng)絡(luò)爬蟲,以使網(wǎng)絡(luò)爬蟲可以獲取到更改后的預(yù)設(shè)提取規(guī)則并根據(jù)更改后的預(yù)設(shè)提取規(guī)則從不同的隊(duì)列中提取爬蟲種子,然后按照提取的爬蟲種子進(jìn)行網(wǎng)頁爬??; 或者使網(wǎng)絡(luò)爬蟲可以獲取新的隊(duì)列并根據(jù)預(yù)設(shè)提取規(guī)則從不同的新的隊(duì)列中提取爬蟲種子,然后按照提取的爬蟲種子進(jìn)行網(wǎng)頁爬取。

進(jìn)一步的,作為對(duì)上述圖1和圖2所示方法的實(shí)現(xiàn),本發(fā)明實(shí)施例另一實(shí)施例還提供了一種爬取網(wǎng)頁的裝置,用于對(duì)上述圖1和圖2所示的方法進(jìn)行實(shí)現(xiàn)。該裝置實(shí)施例與前述方法實(shí)施例對(duì)應(yīng),為便于閱讀,本裝置實(shí)施例不再對(duì)前述方法實(shí)施例中的細(xì)節(jié)內(nèi)容進(jìn)行逐一贅述,但應(yīng)當(dāng)明確,本實(shí)施例中的裝置能夠?qū)?yīng)實(shí)現(xiàn)前述方法實(shí)施例中的全部內(nèi)容。如圖3所示,該裝置包括:種子獲取單元31、注入單元32及隊(duì)列發(fā)送單元33。

種子獲取單元31,用于獲取爬蟲種子,爬蟲種子為網(wǎng)絡(luò)爬蟲要爬取的網(wǎng)頁的統(tǒng)一資源定位符url;

注入單元32,用于根據(jù)每個(gè)爬蟲種子的優(yōu)先級(jí)將爬蟲種子注入到與其優(yōu)先級(jí)對(duì)應(yīng)的隊(duì)列中,不同優(yōu)先級(jí)對(duì)應(yīng)不同隊(duì)列;

隊(duì)列發(fā)送單元33,用于將對(duì)應(yīng)不同優(yōu)先級(jí)的隊(duì)列發(fā)送給網(wǎng)絡(luò)爬蟲,以使得網(wǎng)絡(luò)爬蟲根據(jù)預(yù)設(shè)提取規(guī)則從不同隊(duì)列中提取爬蟲種子,并按照提取的爬蟲種子進(jìn)行網(wǎng)頁爬取。

進(jìn)一步的,如圖4所示,裝置進(jìn)一步包括:

建立單元34,用于在根據(jù)每個(gè)爬蟲種子的優(yōu)先級(jí)將爬蟲種子注入到與其優(yōu)先級(jí)對(duì)應(yīng)的隊(duì)列中之前,分別為不同的優(yōu)先級(jí)建立對(duì)應(yīng)的隊(duì)列。

進(jìn)一步的,如圖4所示,裝置進(jìn)一步包括:

規(guī)則獲取單元35,用于獲取預(yù)設(shè)提取規(guī)則,預(yù)設(shè)提取規(guī)則用于設(shè)置不同優(yōu)先級(jí)對(duì)應(yīng)的隊(duì)列的提取順序以及不同隊(duì)列中的爬蟲種子數(shù)量的提取比例;

規(guī)則發(fā)送單元36,用于將預(yù)設(shè)提取規(guī)則發(fā)送給網(wǎng)絡(luò)爬蟲,以使得網(wǎng)絡(luò)爬蟲根據(jù)預(yù)設(shè)提取規(guī)則從不同的隊(duì)列中提取爬蟲種子。

進(jìn)一步的,如圖4所示,裝置進(jìn)一步包括:

監(jiān)聽單元37,用于監(jiān)聽中斷信號(hào),中斷信號(hào)為更改預(yù)設(shè)提取規(guī)則和/或爬蟲種子的優(yōu)先級(jí)發(fā)生變化的信號(hào);

更改規(guī)則獲取單元38,用于若監(jiān)聽到中斷信號(hào)為更改預(yù)設(shè)提取規(guī)則,則獲取更改后的預(yù)設(shè)提取規(guī)則;

更改規(guī)則發(fā)送單元39,將更改后的預(yù)設(shè)提取規(guī)則發(fā)送給網(wǎng)絡(luò)爬蟲;

新隊(duì)列獲取單元310,用于若監(jiān)聽到中斷信號(hào)為爬蟲種子的優(yōu)先級(jí)發(fā)生變化,則根據(jù)爬蟲種子的發(fā)生變化后的優(yōu)先級(jí)將爬蟲種子注入到與其優(yōu)先級(jí)對(duì)應(yīng)的隊(duì)列中,得到新的隊(duì)列。

進(jìn)一步的,如圖4所示,裝置進(jìn)一步包括:

啟動(dòng)單元311,用于重新啟動(dòng)網(wǎng)絡(luò)爬蟲,以使網(wǎng)絡(luò)爬蟲根據(jù)更改后的預(yù)設(shè)提取規(guī)則從不同隊(duì)列中提取爬蟲種子和/或根據(jù)預(yù)設(shè)規(guī)則從不同的新的隊(duì)列中提取爬蟲種子。

本實(shí)施例提供的爬取網(wǎng)頁的裝置,能夠首先獲取爬蟲種子,即網(wǎng)絡(luò)爬蟲要抓取的網(wǎng)頁的url,然后根據(jù)每個(gè)爬蟲種子的優(yōu)先級(jí)將爬蟲種子注入到不同的隊(duì)列中,最后將不同優(yōu)先級(jí)對(duì)應(yīng)的不同的隊(duì)列發(fā)送給網(wǎng)絡(luò)爬蟲,使網(wǎng)絡(luò)爬蟲根據(jù)預(yù)設(shè)提取規(guī)則從不同的隊(duì)列中提取爬蟲種子,并按照提取的爬蟲種子進(jìn)行網(wǎng)頁爬取。與現(xiàn)有技術(shù)相比,本實(shí)施例能夠?qū)⒕W(wǎng)絡(luò)爬蟲需要提取的爬蟲種子按照優(yōu)先級(jí)的不同,分別注入到不同的隊(duì)列中,然后將不同優(yōu)先級(jí)的隊(duì)列發(fā)送給網(wǎng)絡(luò)爬蟲,使網(wǎng)絡(luò)爬蟲可以按照預(yù)設(shè)提取規(guī)則從不同的隊(duì)列中提取爬蟲種子。由于不同的優(yōu)先級(jí)的爬蟲種子放在不同的隊(duì)列中,每個(gè)隊(duì)列中的優(yōu)先級(jí)是一樣的,且是按照先進(jìn)先出的順序排列的,因此不會(huì)發(fā)生由于一個(gè)隊(duì)列中存在不同優(yōu)先級(jí)的爬蟲種子而需要不斷地將優(yōu)先級(jí)低的爬蟲種子的優(yōu)先級(jí)調(diào)高后放到隊(duì)尾的問題,只需要按照預(yù)設(shè)提取規(guī)則從不同的隊(duì)列中提取爬蟲種子即可,因此可以減少資源的耗費(fèi),并提高系統(tǒng)的運(yùn)行速度。

所述爬取網(wǎng)頁裝置包括處理器和存儲(chǔ)器,上述種子獲取單元31、注入單元32及隊(duì)列發(fā)送單元33等均作為程序單元存儲(chǔ)在存儲(chǔ)器中,由處理器執(zhí)行存儲(chǔ)在存儲(chǔ)器中的上述程序單元來實(shí)現(xiàn)相應(yīng)的功能。

本申請(qǐng)還提供了一種計(jì)算機(jī)程序產(chǎn)品,當(dāng)在數(shù)據(jù)處理設(shè)備上執(zhí)行時(shí),適于執(zhí)行初始化有如下方法步驟的程序代碼:獲取爬蟲種子,所述爬蟲種子為網(wǎng)絡(luò)爬蟲要爬取的網(wǎng)頁的統(tǒng)一資源定位符url;根據(jù)每個(gè)爬蟲種子的優(yōu)先級(jí)將所述爬蟲種子注入到與其優(yōu)先級(jí)對(duì)應(yīng)的隊(duì)列中,不同優(yōu)先級(jí)對(duì)應(yīng)不同隊(duì)列;將對(duì)應(yīng)不同優(yōu)先級(jí)的隊(duì)列發(fā)送給所述網(wǎng)絡(luò)爬蟲,以使得所述網(wǎng) 絡(luò)爬蟲根據(jù)預(yù)設(shè)提取規(guī)則從不同隊(duì)列中提取所述爬蟲種子,并按照提取的爬蟲種子進(jìn)行網(wǎng)頁爬取。

本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本申請(qǐng)的實(shí)施例可提供為方法、系統(tǒng)、或計(jì)算機(jī)程序產(chǎn)品。因此,本申請(qǐng)可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本申請(qǐng)可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤存儲(chǔ)器、cd-rom、光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。

本申請(qǐng)是參照根據(jù)本申請(qǐng)實(shí)施例的方法、設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器,使得通過計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。

這些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中,使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。

這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。

在一個(gè)典型的配置中,計(jì)算設(shè)備包括一個(gè)或多個(gè)處理器(cpu)、輸入/輸出接口、網(wǎng)絡(luò)接口和內(nèi)存。

存儲(chǔ)器可能包括計(jì)算機(jī)可讀介質(zhì)中的非永久性存儲(chǔ)器,隨機(jī)存取存儲(chǔ)器(ram)和/或非易失性內(nèi)存等形式,如只讀存儲(chǔ)器(rom)或閃存(flash ram)。存儲(chǔ)器是計(jì)算機(jī)可讀介質(zhì)的示例。

計(jì)算機(jī)可讀介質(zhì)包括永久性和非永久性、可移動(dòng)和非可移動(dòng)媒體可以由任何方法或技術(shù)來實(shí)現(xiàn)信息存儲(chǔ)。信息可以是計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序的模塊或其他數(shù)據(jù)。計(jì)算機(jī)的存儲(chǔ)介質(zhì)的例子包括,但不限于相變內(nèi)存(pram)、靜態(tài)隨機(jī)存取存儲(chǔ)器(sram)、動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器(dram)、其他類型的隨機(jī)存取存儲(chǔ)器(ram)、只讀存儲(chǔ)器(rom)、電可擦除可編程只讀存儲(chǔ)器(eeprom)、快閃記憶體或其他內(nèi)存技術(shù)、只讀光盤只讀存儲(chǔ)器(cd-rom)、數(shù)字多功能光盤(dvd)或其他光學(xué)存儲(chǔ)、磁盒式磁帶,磁帶磁磁盤存儲(chǔ)或其他磁性存儲(chǔ)設(shè)備或任何其他非傳輸介質(zhì),可用于存儲(chǔ)可以被計(jì)算設(shè)備訪問的信息。按照本文中的界定,計(jì)算機(jī)可讀介質(zhì)不包括暫存電腦可讀媒體(transitorymedia),如調(diào)制的數(shù)據(jù)信號(hào)和載波。

以上僅為本申請(qǐng)的實(shí)施例而已,并不用于限制本申請(qǐng)。對(duì)于本領(lǐng)域技術(shù)人員來說,本申請(qǐng)可以有各種更改和變化。凡在本申請(qǐng)的精神和原理之內(nèi)所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本申請(qǐng)的權(quán)利要求范圍之內(nèi)。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
邵东县| 紫阳县| 阳江市| 余江县| 南通市| 辽宁省| 道孚县| 新巴尔虎左旗| 井陉县| 连山| 博白县| 正镶白旗| 汕尾市| 双城市| 乳源| 汉沽区| 霍林郭勒市| 桦南县| 乌拉特中旗| 陆良县| 昌宁县| 长葛市| 湖州市| 弋阳县| 洪泽县| 马山县| 祁东县| 高唐县| 上饶市| 手机| 昔阳县| 神池县| 明星| 蒲江县| 克拉玛依市| 济宁市| 新河县| 湘乡市| 雷波县| 上高县| 漯河市|