欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

分布式網(wǎng)絡(luò)爬蟲任務(wù)調(diào)度的方法及系統(tǒng)的制作方法

文檔序號(hào):6516421閱讀:885來源:國知局
分布式網(wǎng)絡(luò)爬蟲任務(wù)調(diào)度的方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明互聯(lián)網(wǎng)搜索引擎【技術(shù)領(lǐng)域】,提供了一種分布式網(wǎng)絡(luò)爬蟲任務(wù)調(diào)度的方法及其系統(tǒng),其中,方法包括:對(duì)分布式網(wǎng)絡(luò)爬蟲集群進(jìn)行配置;第一爬蟲分析第一層鏈接對(duì)應(yīng)的網(wǎng)頁,提取網(wǎng)頁中存在的第二層鏈接;根據(jù)Hash一致性算法分配與第二層鏈接對(duì)應(yīng)的爬取任務(wù);如果第二層鏈接是分配給第一爬蟲之外的爬蟲,則將第二層鏈接對(duì)應(yīng)的爬取任務(wù)記錄到相應(yīng)序號(hào)的爬蟲對(duì)應(yīng)的爬取任務(wù)文件中;每隔預(yù)定的時(shí)間間隔將爬取任務(wù)文件打包上傳到共享目錄中;每個(gè)爬蟲定時(shí)到共享目錄中提取并執(zhí)行對(duì)應(yīng)的爬取任務(wù)。本發(fā)明提供的分布式網(wǎng)絡(luò)爬蟲任務(wù)調(diào)度的方法及其系統(tǒng),通過共享任務(wù)目錄來實(shí)現(xiàn)分布式爬蟲任務(wù)的協(xié)同任務(wù)調(diào)度,能把任務(wù)均勻分布到各個(gè)爬蟲。
【專利說明】分布式網(wǎng)絡(luò)爬蟲任務(wù)調(diào)度的方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于互聯(lián)網(wǎng)搜索引擎【技術(shù)領(lǐng)域】,尤其涉及一種分布式網(wǎng)絡(luò)爬蟲任務(wù)調(diào)度的方法及其系統(tǒng)。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)技術(shù)的高速發(fā)展,在互聯(lián)網(wǎng)搜索服務(wù)中,搜索引擎扮演著越來越重要的角色。網(wǎng)絡(luò)爬蟲是搜索引擎系統(tǒng)中十分重要的組成部分,它負(fù)責(zé)從互聯(lián)網(wǎng)中搜集網(wǎng)頁,這些頁面用于建立索引從而為搜索引擎提供支持。面對(duì)當(dāng)前極具膨脹的網(wǎng)絡(luò)信息,集中式的單機(jī)爬蟲早已無法適應(yīng)目前的互聯(lián)網(wǎng)信息規(guī)模,因此高性能的分布式網(wǎng)絡(luò)爬蟲系統(tǒng)成為目前信息采集領(lǐng)域研究的重點(diǎn)。
[0003]分布式網(wǎng)絡(luò)爬蟲的整體設(shè)計(jì)重點(diǎn)在于爬蟲如何進(jìn)行通信。目前分布式網(wǎng)絡(luò)爬蟲按通信方式不同分布式網(wǎng)路爬蟲可以分為主從模式、自治模式與混合模式三種。
[0004]這三種方式都需要實(shí)現(xiàn)比較復(fù)雜的調(diào)度機(jī)制,需要在單機(jī)爬蟲的基礎(chǔ)上做比較大的改造、搭建任務(wù)調(diào)度中心才能實(shí)現(xiàn)。

【發(fā)明內(nèi)容】

[0005]本發(fā)明的目的在于提供一種分布式網(wǎng)絡(luò)爬蟲任務(wù)調(diào)度的方法及其系統(tǒng),旨在解決現(xiàn)有分布式網(wǎng)路爬蟲調(diào)度機(jī)制復(fù)雜的技術(shù)問題。
[0006]本發(fā)明是這樣實(shí)現(xiàn)的,一種分布式網(wǎng)絡(luò)爬蟲任務(wù)調(diào)度的方法,包括:對(duì)分布式網(wǎng)絡(luò)爬蟲集群進(jìn)行配置的步驟;第一爬蟲分析第一層鏈接對(duì)應(yīng)的網(wǎng)頁,提取網(wǎng)頁中存在的第二層鏈接的步驟;根據(jù)Hash —致性算法分配與所述第二層鏈接對(duì)應(yīng)的爬取任務(wù)的步驟;如果所述第二層鏈接是分配給第一爬蟲之外的爬蟲,則將所述第二層鏈接對(duì)應(yīng)的爬取任務(wù)記錄到相應(yīng)序號(hào)的爬蟲對(duì)應(yīng)的爬取任務(wù)文件中的步驟;每隔預(yù)定的時(shí)間間隔將所述第一爬蟲之外的爬蟲對(duì)應(yīng)的爬取任務(wù)文件打包上傳到共享目錄中的步驟;以及每個(gè)爬蟲定時(shí)到所述共享目錄中提取并執(zhí)行對(duì)應(yīng)的爬取任務(wù)的步驟。
[0007]較優(yōu)的,如果所述第二層鏈接是分配給所述第一爬蟲,則將所述第二層鏈接對(duì)應(yīng)的爬取任務(wù)分配給所述第一爬蟲執(zhí)行。
[0008]較優(yōu)的,第一層鏈接是第一爬蟲的爬取任務(wù)對(duì)應(yīng)的鏈接,第二層鏈接是第一層鏈接對(duì)應(yīng)的網(wǎng)頁中存在的其他鏈接。
[0009]較優(yōu)的,所述共享目錄是存儲(chǔ)于中心服務(wù)器中,所述每個(gè)爬蟲具有一個(gè)單獨(dú)的爬蟲服務(wù)器。
[0010]較優(yōu)的,多個(gè)爬蟲共用一臺(tái)爬蟲服務(wù)器。
[0011]較優(yōu)的,所述對(duì)分布式網(wǎng)絡(luò)爬蟲集群進(jìn)行配置的步驟進(jìn)一步包括:配置所述分布式網(wǎng)絡(luò)爬蟲集群的爬蟲總數(shù)的步驟;配置所述每個(gè)爬蟲的序號(hào)的步驟;以及根據(jù)爬蟲配置文件對(duì)所述每個(gè)爬蟲進(jìn)行相同的任務(wù)配置的步驟。
[0012]本發(fā)明的另一目的在于提供一種分布式網(wǎng)絡(luò)爬蟲任務(wù)調(diào)度的系統(tǒng),包括:中心服務(wù)器,對(duì)分布式網(wǎng)絡(luò)爬蟲集群進(jìn)行配置,并根據(jù)Hash —致性算法對(duì)爬取任務(wù)進(jìn)行分配;第一網(wǎng)絡(luò)爬蟲,連接于所述中心服務(wù)器,分析第一層鏈接對(duì)應(yīng)的網(wǎng)頁,提取所述網(wǎng)頁中存在的第二層鏈接,當(dāng)所述中心服務(wù)器將所述第二層鏈接對(duì)應(yīng)的爬取任務(wù)分配給第二網(wǎng)絡(luò)爬蟲時(shí),將所述第二層鏈接對(duì)應(yīng)的爬取任務(wù)記錄到所述第二網(wǎng)絡(luò)爬蟲對(duì)應(yīng)的爬取任務(wù)文件中,并于預(yù)定的時(shí)間間隔,將所述第二網(wǎng)絡(luò)爬蟲對(duì)應(yīng)的爬取任務(wù)文件上傳到共享目錄中;以及第二網(wǎng)絡(luò)爬蟲,連接于所述中心服務(wù)器,根據(jù)所述共享目錄中與所述第二網(wǎng)絡(luò)爬蟲對(duì)應(yīng)的爬取任務(wù)文件執(zhí)行爬取任務(wù)。
[0013]較優(yōu)的,于所述中心服務(wù)器將所述第二層鏈接對(duì)應(yīng)的爬取任務(wù)分配給所述第一網(wǎng)絡(luò)爬蟲時(shí),所述第一網(wǎng)絡(luò)爬蟲進(jìn)一步執(zhí)行所述第二層鏈接對(duì)應(yīng)的爬取任務(wù)。
[0014]較優(yōu)的,還包括:第三網(wǎng)絡(luò)爬蟲,連接于所述中心服務(wù)器,當(dāng)所述中心服務(wù)器將所述第二層鏈接對(duì)應(yīng)的爬取任務(wù)分配給第三網(wǎng)絡(luò)爬蟲時(shí),根據(jù)所述共享目錄中與所述第三網(wǎng)絡(luò)爬蟲對(duì)應(yīng)的爬取任務(wù)文件執(zhí)行爬取任務(wù)。
[0015]較優(yōu)的,所述中心服務(wù)器還包括:任務(wù)交換數(shù)據(jù)庫,用于存儲(chǔ)所述共享目錄、所述第一網(wǎng)絡(luò)爬蟲以及所述第二網(wǎng)絡(luò)爬蟲的爬取任務(wù)文件。
[0016]本發(fā)明提供的分布式網(wǎng)絡(luò)爬蟲任務(wù)調(diào)度的方法及其系統(tǒng),通過共享任務(wù)目錄來實(shí)現(xiàn)分布式爬蟲任務(wù)的協(xié)同任務(wù)調(diào)度,能把任務(wù)均勻分布到各個(gè)爬蟲。
【專利附圖】

【附圖說明】
[0017]為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0018]圖1是本發(fā)明一實(shí)施例提供的分布式網(wǎng)絡(luò)爬蟲任務(wù)調(diào)度的方法的流程圖。
[0019]圖2是本發(fā)明一實(shí)施例提供的分布式網(wǎng)絡(luò)爬蟲任務(wù)調(diào)度的系統(tǒng)結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0020]為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
[0021]請(qǐng)參見圖1,圖1是本發(fā)明一實(shí)施例提供的分布式網(wǎng)絡(luò)爬蟲任務(wù)調(diào)度的方法的流程圖。如圖1所示,分布式網(wǎng)絡(luò)爬蟲任務(wù)調(diào)度的方法100包括:
步驟SlOl:對(duì)分布式網(wǎng)絡(luò)爬蟲集群進(jìn)行配置。具體來說,中心服務(wù)器配置網(wǎng)絡(luò)爬蟲集群的總數(shù),配置每個(gè)網(wǎng)絡(luò)爬蟲(以下簡稱為:爬蟲)的序號(hào),并根據(jù)爬蟲配置文件對(duì)每個(gè)爬蟲進(jìn)行相同的任務(wù)配置。其中,網(wǎng)絡(luò)爬蟲集群中包括一臺(tái)中心服務(wù)器以及多臺(tái)爬蟲服務(wù)器,中心服務(wù)器配置網(wǎng)絡(luò)爬蟲集群的爬蟲總數(shù),并配置每個(gè)爬蟲的序號(hào)。于較佳實(shí)施例中,每臺(tái)爬蟲服務(wù)器中只有一個(gè)爬蟲,中心服務(wù)器配置網(wǎng)絡(luò)爬蟲集群的爬蟲服務(wù)器總數(shù),并配置每臺(tái)爬蟲服務(wù)器的序號(hào),例如,由8臺(tái)服務(wù)器組成的分布式集群,中心服務(wù)器將爬蟲服務(wù)器總數(shù)配置為8,并配置每臺(tái)爬蟲服務(wù)器的序號(hào),S卩,將爬蟲服務(wù)器的序號(hào)分別配置為0,1,2,3,4,5,6,7。[0022]步驟S103:爬蟲X分析其爬取任務(wù)中鏈接對(duì)應(yīng)的網(wǎng)頁,提取網(wǎng)頁中存在的其他鏈接。其中,爬蟲X是指分布式網(wǎng)絡(luò)爬蟲集群中的任何一個(gè)網(wǎng)絡(luò)爬蟲,為了方便描述和理解,爬蟲X爬取任務(wù)中的鏈接可以稱為第一層鏈接,爬蟲X提取的第一層鏈接對(duì)應(yīng)的網(wǎng)頁中存在的其他鏈接可以稱為第二層鏈接,第二層鏈接可以有多個(gè)。
[0023]步驟S105:根據(jù)Hash —致性算法分配與第二層鏈接對(duì)應(yīng)的爬取任務(wù)。具體來說,中心服務(wù)器根據(jù)Hash —致性算法計(jì)算第二層鏈接應(yīng)該分配給哪個(gè)爬蟲。
[0024]步驟S107:如果第二層鏈接是分配給爬蟲X之外的爬蟲,則將第二層鏈接對(duì)應(yīng)的爬取任務(wù)記錄到相應(yīng)序號(hào)的爬蟲對(duì)應(yīng)的爬取任務(wù)文件中。具體來說,如果計(jì)算的結(jié)果為分配給爬蟲X,則將第二層鏈接對(duì)應(yīng)的爬取任務(wù)分配給爬蟲X執(zhí)行;如果計(jì)算的結(jié)果為分配給其他序號(hào)的爬蟲(爬蟲X之外的爬蟲),則將此爬取任務(wù)記錄到相應(yīng)序號(hào)的爬蟲對(duì)應(yīng)的爬取任務(wù)文件中。
[0025]步驟S109:每隔預(yù)定的時(shí)間間隔將爬蟲X之外的爬蟲對(duì)應(yīng)的爬取任務(wù)文件打包上傳到共享目錄中。其中,每個(gè)爬蟲都具有中心服務(wù)器的地址,各爬蟲的爬取任務(wù)文件都存儲(chǔ)于中心服務(wù)器的共享目錄中,預(yù)定的時(shí)間間隔是根據(jù)實(shí)際需要預(yù)先設(shè)置的。
[0026]步驟Slll:每個(gè)爬蟲定時(shí)到共享目錄中提取并執(zhí)行對(duì)應(yīng)的爬取任務(wù),其中,每個(gè)爬蟲執(zhí)行爬取任務(wù)后,會(huì)將對(duì)應(yīng)的爬取結(jié)果上傳到中心服務(wù)器的爬取結(jié)果匯總數(shù)據(jù)庫中。
[0027]以上實(shí)施例所提供的分布式網(wǎng)絡(luò)爬蟲任務(wù)調(diào)度的方法100,僅通過簡單的配置,配置爬蟲的集群總數(shù)以及集群序號(hào),并通過共享任務(wù)目錄來實(shí)現(xiàn)分布式爬蟲任務(wù)的協(xié)同調(diào)度,能把任務(wù)均勻分布到各個(gè)爬蟲,根據(jù)簡單的調(diào)度機(jī)制實(shí)現(xiàn)分布式網(wǎng)絡(luò)爬蟲的任務(wù)調(diào)度。
[0028]請(qǐng)參見圖2,圖2是本發(fā)明一實(shí)施例提供的分布式網(wǎng)絡(luò)爬蟲任務(wù)調(diào)度的系統(tǒng)結(jié)構(gòu)示意圖。如圖2所示,分布式網(wǎng)絡(luò)爬蟲任務(wù)調(diào)度的系統(tǒng)200包括:中心服務(wù)器210、網(wǎng)絡(luò)爬蟲
221、網(wǎng)絡(luò)爬蟲222、…、網(wǎng)絡(luò)爬蟲22N。其中,中心服務(wù)器210還包括任務(wù)交換數(shù)據(jù)庫211、爬取結(jié)果匯總數(shù)據(jù)庫212。
[0029]中心服務(wù)器210,對(duì)分布式網(wǎng)絡(luò)爬蟲集群進(jìn)行配置,并根據(jù)Hash —致性算法分配爬取任務(wù)。具體來說,中心服務(wù)器210配置網(wǎng)絡(luò)爬蟲集群的總數(shù)N,配置網(wǎng)絡(luò)爬蟲221、網(wǎng)絡(luò)爬蟲222、…、網(wǎng)絡(luò)爬蟲22N的序號(hào),并根據(jù)爬蟲配置文件對(duì)每個(gè)爬蟲進(jìn)行相同的任務(wù)配置。其中,網(wǎng)絡(luò)爬蟲集群中包括一臺(tái)中心服務(wù)器210以及多臺(tái)爬蟲服務(wù)器。于較佳實(shí)施例中,每臺(tái)爬蟲服務(wù)器中只有一個(gè)爬蟲,中心服務(wù)器210配置網(wǎng)絡(luò)爬蟲集群的爬蟲服務(wù)器總數(shù),并配置每臺(tái)爬蟲服務(wù)器的序號(hào),例如,由8臺(tái)爬蟲服務(wù)器組成的分布式集群,中心服務(wù)器210將爬蟲服務(wù)器總數(shù)配置為8,并配置每臺(tái)爬蟲服務(wù)器的序號(hào),即,將爬蟲服務(wù)器的序號(hào)分別配置為 0,1,2,3,4,5,6,7。
[0030]網(wǎng)絡(luò)爬蟲221,分析其爬取任務(wù)中鏈接對(duì)應(yīng)的網(wǎng)頁,提取網(wǎng)頁中存在的其他鏈接。其中,網(wǎng)絡(luò)爬蟲221是指分布式網(wǎng)絡(luò)爬蟲集群中的任何一個(gè)網(wǎng)絡(luò)爬蟲,為了方便描述和理解,網(wǎng)絡(luò)爬蟲221爬取任務(wù)中的鏈接可以稱為第一層鏈接,網(wǎng)絡(luò)爬蟲221提取的第一層鏈接對(duì)應(yīng)的網(wǎng)頁中存在的其他鏈接可以稱為第二層鏈接,第二層鏈接可以有多個(gè)。中心服務(wù)器210根據(jù)Hash —致性算法分配與第二層鏈接對(duì)應(yīng)的爬取任務(wù)應(yīng)該分配給哪個(gè)網(wǎng)絡(luò)爬蟲。如果計(jì)算的結(jié)果為分配給網(wǎng)絡(luò)爬蟲221,則將第二層鏈接對(duì)應(yīng)的爬取任務(wù)分配給網(wǎng)絡(luò)爬蟲221執(zhí)行;如果計(jì)算的結(jié)果為分配給其他序號(hào)的爬蟲(即,網(wǎng)絡(luò)爬蟲222、...、網(wǎng)絡(luò)爬蟲22N),則將此爬取任務(wù)記錄到相應(yīng)序號(hào)的爬蟲對(duì)應(yīng)的爬取任務(wù)文件中,例如,如果計(jì)算的結(jié)果為將第二層鏈接對(duì)應(yīng)的爬取任務(wù)分配給網(wǎng)絡(luò)爬蟲222,則將此爬取任務(wù)記錄到網(wǎng)絡(luò)爬蟲222對(duì)應(yīng)的爬取任務(wù)文件中。
[0031]任務(wù)交換數(shù)據(jù)庫211,用于存儲(chǔ)各爬蟲的爬取任務(wù)文件,其中,任務(wù)交換數(shù)據(jù)庫211具有一個(gè)共享目錄,各爬蟲的爬取任務(wù)文件都存儲(chǔ)于中心服務(wù)器的共享目錄中。每隔預(yù)定的時(shí)間間隔,網(wǎng)絡(luò)爬蟲221、網(wǎng)絡(luò)爬蟲222、…、網(wǎng)絡(luò)爬蟲22N都會(huì)將除自己之外的其他爬蟲對(duì)應(yīng)的爬取任務(wù)文件打包上傳到共享目錄中,預(yù)定的時(shí)間間隔是根據(jù)實(shí)際需要預(yù)先設(shè)置的。并且網(wǎng)絡(luò)爬蟲221、網(wǎng)絡(luò)爬蟲222、…、網(wǎng)絡(luò)爬蟲22N都會(huì)定時(shí)到共享目錄中提取并執(zhí)行對(duì)應(yīng)的爬取任務(wù)。
[0032]爬取結(jié)果匯總數(shù)據(jù)庫212,用于存儲(chǔ)各爬蟲的爬取結(jié)果,網(wǎng)絡(luò)爬蟲221、網(wǎng)絡(luò)爬蟲
222、…、網(wǎng)絡(luò)爬蟲22N執(zhí)行爬取任務(wù)后,會(huì)將對(duì)應(yīng)的爬取結(jié)果上傳到中心服務(wù)器210的爬取結(jié)果匯總數(shù)據(jù)庫212中。
[0033]以上實(shí)施例所提供的分布式網(wǎng)絡(luò)爬蟲任務(wù)調(diào)度的系統(tǒng)200,僅通過簡單的配置,配置爬蟲的集群總數(shù)以及集群序號(hào),并通過共享任務(wù)目錄來實(shí)現(xiàn)分布式爬蟲任務(wù)的協(xié)同調(diào)度,能把任務(wù)均勻分布到各個(gè)爬蟲,根據(jù)簡單的調(diào)度機(jī)制實(shí)現(xiàn)分布式網(wǎng)絡(luò)爬蟲的任務(wù)調(diào)度。
[0034]以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi)所作的任何修 改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1.一種分布式網(wǎng)絡(luò)爬蟲任務(wù)調(diào)度的方法,其特征在于,包括: 對(duì)分布式網(wǎng)絡(luò)爬蟲集群進(jìn)行配置的步驟; 第一爬蟲分析第一層鏈接對(duì)應(yīng)的網(wǎng)頁,提取網(wǎng)頁中存在的第二層鏈接的步驟; 根據(jù)Hash —致性算法分配與所述第二層鏈接對(duì)應(yīng)的爬取任務(wù)的步驟; 如果所述第二層鏈接是分配給第一爬蟲之外的爬蟲,則將所述第二層鏈接對(duì)應(yīng)的爬取任務(wù)記錄到相應(yīng)序號(hào)的爬蟲對(duì)應(yīng)的爬取任務(wù)文件中的步驟; 每隔預(yù)定的時(shí)間間隔將所述第一爬蟲之外的爬蟲對(duì)應(yīng)的爬取任務(wù)文件打包上傳到共享目錄中的步驟;以及 每個(gè)爬蟲定時(shí)到所述共享目錄中提取并執(zhí)行對(duì)應(yīng)的爬取任務(wù)的步驟。
2.如權(quán)利要求1所述的分布式網(wǎng)絡(luò)爬蟲任務(wù)調(diào)度的方法,其特征在于: 如果所述第二層鏈接是分配給所述第一爬蟲,則將所述第二層鏈接對(duì)應(yīng)的爬取任務(wù)分配給所述第一爬蟲執(zhí)行。
3.如權(quán)利要求1或2所述的分布式網(wǎng)絡(luò)爬蟲任務(wù)調(diào)度的方法,其特征在于: 第一層鏈接是第一爬蟲的爬取任務(wù)對(duì)應(yīng)的鏈接,第二層鏈接是第一層鏈接對(duì)應(yīng)的網(wǎng)頁中存在的其他鏈接。
4.如權(quán)利要求1或2所述的分布式網(wǎng)絡(luò)爬蟲任務(wù)調(diào)度的方法,其特征在于: 所述共享目錄是存儲(chǔ)于`中心服務(wù)器中,所述每個(gè)爬蟲具有一個(gè)單獨(dú)的爬蟲服務(wù)器。
5.如權(quán)利要求1或2所述的分布式網(wǎng)絡(luò)爬蟲任務(wù)調(diào)度的方法,其特征在于: 多個(gè)爬蟲共用一臺(tái)爬蟲服務(wù)器。
6.如權(quán)利要求1所述的分布式網(wǎng)絡(luò)爬蟲任務(wù)調(diào)度的方法,其特征在于,所述對(duì)分布式網(wǎng)絡(luò)爬蟲集群進(jìn)行配置的步驟進(jìn)一步包括: 配置所述分布式網(wǎng)絡(luò)爬蟲集群的爬蟲總數(shù)的步驟; 配置所述每個(gè)爬蟲的序號(hào)的步驟;以及 根據(jù)爬蟲配置文件對(duì)所述每個(gè)爬蟲進(jìn)行相同的任務(wù)配置的步驟。
7.一種分布式網(wǎng)絡(luò)爬蟲任務(wù)調(diào)度的系統(tǒng),其特征在于,包括: 中心服務(wù)器,對(duì)分布式網(wǎng)絡(luò)爬蟲集群進(jìn)行配置,并根據(jù)Hash —致性算法對(duì)爬取任務(wù)進(jìn)行分配; 第一網(wǎng)絡(luò)爬蟲,連接于所述中心服務(wù)器,分析第一層鏈接對(duì)應(yīng)的網(wǎng)頁,提取所述網(wǎng)頁中存在的第二層鏈接,當(dāng)所述中心服務(wù)器將所述第二層鏈接對(duì)應(yīng)的爬取任務(wù)分配給第二網(wǎng)絡(luò)爬蟲時(shí),將所述第二層鏈接對(duì)應(yīng)的爬取任務(wù)記錄到所述第二網(wǎng)絡(luò)爬蟲對(duì)應(yīng)的爬取任務(wù)文件中,并于預(yù)定的時(shí)間間隔,將所述第二網(wǎng)絡(luò)爬蟲對(duì)應(yīng)的爬取任務(wù)文件上傳到共享目錄中;以及 第二網(wǎng)絡(luò)爬蟲,連接于所述中心服務(wù)器,根據(jù)所述共享目錄中與所述第二網(wǎng)絡(luò)爬蟲對(duì)應(yīng)的爬取任務(wù)文件執(zhí)行爬取任務(wù)。
8.如權(quán)利要求7所述的分布式網(wǎng)絡(luò)爬蟲任務(wù)調(diào)度的方法,其特征在于: 于所述中心服務(wù)器將所述第二層鏈接對(duì)應(yīng)的爬取任務(wù)分配給所述第一網(wǎng)絡(luò)爬蟲時(shí),所述第一網(wǎng)絡(luò)爬蟲進(jìn)一步執(zhí)行所述第二層鏈接對(duì)應(yīng)的爬取任務(wù)。
9.如權(quán)利要求7或8所述的分布式網(wǎng)絡(luò)爬蟲任務(wù)調(diào)度的方法,其特征在于,還包括: 第三網(wǎng)絡(luò)爬蟲,連接于所述中心服務(wù)器,當(dāng)所述中心服務(wù)器將所述第二層鏈接對(duì)應(yīng)的爬取任務(wù)分配給第三網(wǎng)絡(luò)爬蟲時(shí),根據(jù)所述共享目錄中與所述第三網(wǎng)絡(luò)爬蟲對(duì)應(yīng)的爬取任務(wù)文件執(zhí)行爬取任務(wù)。
10.如權(quán)利要求7或8所述的分布式網(wǎng)絡(luò)爬蟲任務(wù)調(diào)度的方法,其特征在于,所述中心服務(wù)器還包括: 任務(wù)交換數(shù)據(jù)庫,用于存儲(chǔ)所述共享目錄、所述第一網(wǎng)絡(luò)爬蟲以及所述第二網(wǎng)絡(luò)爬蟲的爬取任務(wù)文件。`
【文檔編號(hào)】G06F17/30GK103514301SQ201310504193
【公開日】2014年1月15日 申請(qǐng)日期:2013年10月24日 優(yōu)先權(quán)日:2013年10月24日
【發(fā)明者】何學(xué)敏 申請(qǐng)人:深圳市同洲電子股份有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
芮城县| 出国| 永寿县| 洱源县| 印江| 南京市| 会同县| 武穴市| 彩票| 沾益县| 苍南县| 沧州市| 湟中县| 湘潭县| 和硕县| 凤阳县| 城步| 普兰店市| 塘沽区| 沧源| 兰州市| 阿拉善右旗| 阿拉善右旗| 青铜峡市| 高密市| 梁山县| 皋兰县| 赣州市| 三河市| 孝感市| 新竹县| 镇巴县| 克什克腾旗| 淅川县| 太谷县| 青田县| 武义县| 武川县| 拉孜县| 瑞昌市| 尉犁县|