本發(fā)明涉及數(shù)據(jù)采集領(lǐng)域,尤其涉及一種基于實(shí)測(cè)帶寬的多智能體互聯(lián)網(wǎng)數(shù)據(jù)采集任務(wù)分配方法。
背景技術(shù):
為滿足海量數(shù)據(jù)爬取的需求,現(xiàn)代爬蟲(chóng)系統(tǒng)一般采用大規(guī)模分布式架構(gòu)。在這種架構(gòu)中,如何高效配置多個(gè)數(shù)據(jù)采集節(jié)點(diǎn)的資源成為提升爬蟲(chóng)系統(tǒng)性能的關(guān)鍵問(wèn)題。傳統(tǒng)的分布式爬蟲(chóng)系統(tǒng)一般采用隨機(jī)任務(wù)調(diào)度的機(jī)制或類似機(jī)制。這種機(jī)制的問(wèn)題在于沒(méi)有考慮爬取目標(biāo)的地理位置差異,以及多個(gè)采集節(jié)點(diǎn)在采集、存儲(chǔ)方面的帶寬差異因素,更沒(méi)有運(yùn)用相應(yīng)的帶寬測(cè)試方法,因此無(wú)法做到資源的最優(yōu)配置,從而影響了分布式爬蟲(chóng)系統(tǒng)的數(shù)據(jù)采集性能。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明為克服上述不足之處,設(shè)計(jì)了一種基于實(shí)測(cè)帶寬的任務(wù)分配方法,該方法用于將多個(gè)采集任務(wù)分配給多個(gè)采集節(jié)點(diǎn),根據(jù)每個(gè)采集節(jié)點(diǎn)的狀態(tài)信息、實(shí)測(cè)帶寬情況以及待分配任務(wù)的信息,經(jīng)過(guò)算法處理后得出任務(wù)分配結(jié)果。
本發(fā)明的目的是通過(guò)以下技術(shù)方案來(lái)實(shí)現(xiàn)的:一種基于實(shí)測(cè)帶寬的多智能體互聯(lián)網(wǎng)數(shù)據(jù)采集任務(wù)分配方法,具體為:假定在環(huán)境中存在L個(gè)目標(biāo)任務(wù)T1,T2,…,TL和K個(gè)智能體節(jié)點(diǎn)A1,A2,…,AK,若K>L,則執(zhí)行單任務(wù)分配算法;否則執(zhí)行多任務(wù)分配算法;
所述的單任務(wù)分配算法步驟如下:
(1)針對(duì)每個(gè)智能體節(jié)點(diǎn)Ai與任務(wù)Tj,計(jì)算區(qū)域判決指標(biāo)cij=(任務(wù)數(shù)+1)/(BC+BS),找出區(qū)域判決指標(biāo)計(jì)算結(jié)果最小的節(jié)點(diǎn)。
BC表示任務(wù)的目標(biāo)區(qū)域與智能體所在區(qū)域的匹配度,計(jì)算方法如下:由智能體在建立種子信息表時(shí)先行從該種子頁(yè)面爬取根頁(yè)面三次,通過(guò)(爬取位數(shù))/(爬取所消耗的時(shí)間)獲取爬行帶寬,存入種子庫(kù)中相應(yīng)BC字段。
BS表示存儲(chǔ)區(qū)域與智能體所在區(qū)域的匹配度,計(jì)算方法如下:由智能體在建立種子信息表時(shí)先行將一個(gè)標(biāo)準(zhǔn)100KB文件存入存儲(chǔ)區(qū)域三次,通過(guò)(存取位數(shù))/(存取所消耗的時(shí)間)獲取存儲(chǔ)帶寬,存入種子庫(kù)中相應(yīng)BS字段。
(2)將待分配的任務(wù)分配給步驟(1)計(jì)算得到的節(jié)點(diǎn)。
所述的多任務(wù)分配算法步驟如下:
(1)在所有任務(wù)中每次分配K項(xiàng),直到剩余任務(wù)數(shù)小于K。剩余任務(wù)可以在任務(wù)數(shù)增加后再行分配,也可以以單任務(wù)方式分配;
(2)已知智能體Ai(i=1,2,…,K)完成目標(biāo)任務(wù)Tj(j=1,2,…,K)的代價(jià)矩陣為C=(cij)(i,j=1,2,…,K),其中cij的計(jì)算方法與單任務(wù)時(shí)相同;
(3)將(cij)的每行元素都減去該行的最小元素,再將所得新系數(shù)矩陣的每列元素中減去該列的最小元素,獲得等價(jià)代價(jià)矩陣C’=(c'ij);
(4)作最少的直線覆蓋所有0元素,通過(guò)找0元素進(jìn)行試分配。方法是:先找有沒(méi)有可以覆蓋K個(gè)元素的直線(行或列),若有則作該直線,若沒(méi)有則再找有沒(méi)有可以覆蓋K-1個(gè)元素的直線并作該直線,依此方法進(jìn)行下去,直到所有0元素被覆蓋。若這樣能找出不同行不同列的K個(gè)0元素(稱為獨(dú)立0元素),轉(zhuǎn)步驟(6),否則轉(zhuǎn)步驟(5);
(5)調(diào)整代價(jià)矩陣C’,在未被直線穿過(guò)的數(shù)集中,找出最小的數(shù)z,讓該數(shù)集對(duì)應(yīng)的所有行中的所有數(shù)減去z,而讓所有被直線穿過(guò)的列中的數(shù)加上z,以保證系數(shù)矩陣中不出現(xiàn)負(fù)元素,得到新系數(shù)矩陣。新系數(shù)矩陣的最優(yōu)解和原問(wèn)題相同,此時(shí)去掉直線,用新系數(shù)矩陣代替C’,返回步驟(3);
(6)以這K個(gè)獨(dú)立0元素對(duì)應(yīng)解矩陣(c’ij)中的元素為1,其余為0,得到最優(yōu)解矩陣(c”ij),即此時(shí)矩陣元素中c”ij=1所代表的結(jié)果是智能體i被分配了任務(wù)j(i,j=1,2,…,K)。
本發(fā)明的有益效果在于:本發(fā)明在實(shí)測(cè)帶寬基礎(chǔ)上,在眾多潛在的匹配方案中尋找一個(gè)總體(指采集效用和帶寬消耗之綜合)優(yōu)化的任務(wù)分配方案,它在數(shù)學(xué)形式上表現(xiàn)為在離散的、有限的數(shù)據(jù)結(jié)構(gòu)上,尋找一個(gè)滿足給定約束條件并使目標(biāo)代價(jià)最小的解,從而可以大幅提高分布式爬蟲(chóng)系統(tǒng)的爬取效率。
附圖說(shuō)明
圖1是本發(fā)明的整體流程圖;
圖2是本發(fā)明的單任務(wù)分配算法流程圖;
圖3是本發(fā)明的多任務(wù)分配算法流程圖;
圖4是本發(fā)明的多任務(wù)分配算法案例。
具體實(shí)施方式
下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明進(jìn)行進(jìn)一步描述,但本發(fā)明的保護(hù)范圍并不僅限于此。
如圖1所示,本發(fā)明提供的一種基于實(shí)測(cè)帶寬的多智能體互聯(lián)網(wǎng)數(shù)據(jù)采集任務(wù)分配方法,具體為:假定在環(huán)境中存在L個(gè)目標(biāo)任務(wù)T1,T2,…,TL和K個(gè)智能體節(jié)點(diǎn)A1,A2,…,AK,若K>L,則執(zhí)行單任務(wù)分配算法;否則執(zhí)行多任務(wù)分配算法;
所述的單任務(wù)分配算法步驟如下:
(1)針對(duì)每個(gè)智能體節(jié)點(diǎn)Ai與任務(wù)Tj,計(jì)算區(qū)域判決指標(biāo)cij=(任務(wù)數(shù)+1)/(BC+BS),找出區(qū)域判決指標(biāo)計(jì)算結(jié)果最小的節(jié)點(diǎn)。
BC表示任務(wù)的目標(biāo)區(qū)域與智能體所在區(qū)域的匹配度,計(jì)算方法如下:由智能體在建立種子信息表時(shí)先行從該種子頁(yè)面爬取根頁(yè)面三次,通過(guò)(爬取位數(shù))/(爬取所消耗的時(shí)間)獲取爬行帶寬,存入種子庫(kù)中相應(yīng)BC字段。
BS表示存儲(chǔ)區(qū)域與智能體所在區(qū)域的匹配度,計(jì)算方法如下:由智能體在建立種子信息表時(shí)先行將一個(gè)標(biāo)準(zhǔn)100KB文件存入存儲(chǔ)區(qū)域三次,通過(guò)(存取位數(shù))/(存取所消耗的時(shí)間)獲取存儲(chǔ)帶寬,存入種子庫(kù)中相應(yīng)BS字段。
(2)將待分配的任務(wù)分配給步驟(1)計(jì)算得到的節(jié)點(diǎn)。
所述的多任務(wù)分配算法步驟如下:
(1)在所有任務(wù)中每次分配K項(xiàng),直到剩余任務(wù)數(shù)小于K。剩余任務(wù)可以在任務(wù)數(shù)增加后再行分配,也可以以單任務(wù)方式分配;
(2)已知智能體Ai(i=1,2,…,K)完成目標(biāo)任務(wù)Tj(j=1,2,…,K)的代價(jià)矩陣為C=(cij)(i,j=1,2,…,K),其中cij的計(jì)算方法與單任務(wù)時(shí)相同;
(3)將(cij)的每行元素都減去該行的最小元素,再將所得新系數(shù)矩陣的每列元素中減去該列的最小元素,獲得等價(jià)代價(jià)矩陣C’=(c’ij);
(4)作最少的直線覆蓋所有0元素,通過(guò)找0元素進(jìn)行試分配。方法是:先找有沒(méi)有可以覆蓋K個(gè)元素的直線(行或列),若有則作該直線,若沒(méi)有則再找有沒(méi)有可以覆蓋K-1個(gè)元素的直線并作該直線,依此方法進(jìn)行下去,直到所有0元素被覆蓋。若這樣能找出不同行不同列的K個(gè)0元素,轉(zhuǎn)步驟(6),否則轉(zhuǎn)步驟(5);
(5)調(diào)整代價(jià)矩陣C',在未被直線穿過(guò)的數(shù)集中,找出最小的數(shù)z,讓該數(shù)集對(duì)應(yīng)的所有行中的所有數(shù)減去z,而讓所有被直線穿過(guò)的列中的數(shù)加上z,以保證系數(shù)矩陣中不出現(xiàn)負(fù)元素,得到新系數(shù)矩陣。新系數(shù)矩陣的最優(yōu)解和原問(wèn)題相同,此時(shí)去掉直線,用新系數(shù)矩陣代替C’,返回步驟(3);
(6)以這K個(gè)獨(dú)立0元素對(duì)應(yīng)解矩陣(c’ij)中的元素為1,其余為0,得到最優(yōu)解矩陣(c”ij),即此時(shí)矩陣元素中c”ij=1所代表的結(jié)果是智能體i被分配了任務(wù)j(i,j=1,2,…,K),最低總耗費(fèi)是C’中使所有=1的位置上各元素之和。
實(shí)施例1:本實(shí)施例中,在環(huán)境中存在1個(gè)目標(biāo)任務(wù)T1和6個(gè)智能體節(jié)點(diǎn)A1,A2,…,A6;因?yàn)镵=6>L=1,所以執(zhí)行單任務(wù)分配算法;單任務(wù)分配算法步驟如下:
(1)針對(duì)每個(gè)節(jié)點(diǎn),計(jì)算(節(jié)點(diǎn)上已有任務(wù)數(shù)+1)/(BC+BS)(單位:1/Mbps),找出計(jì)算結(jié)果最小的節(jié)點(diǎn)。例如六個(gè)節(jié)點(diǎn)對(duì)應(yīng)的數(shù)值依次為:30,30,20,40,10,30,則結(jié)果最小的節(jié)點(diǎn)是第五個(gè)節(jié)點(diǎn)。
(2)將待分配的任務(wù)分配給步驟(1)計(jì)算得到的節(jié)點(diǎn),也就是第五個(gè)節(jié)點(diǎn)。
實(shí)施例2:本實(shí)施例中,在環(huán)境中存在5個(gè)目標(biāo)任務(wù)T1,T2,…,T5,4個(gè)智能體節(jié)點(diǎn)A1,A2,A3,A4;因?yàn)镵=4<L=5,所以執(zhí)行多任務(wù)分配算法;多任務(wù)分配算法步驟如下:
(1)在所有任務(wù)中每次分配4項(xiàng),直到剩余任務(wù)數(shù)小于4。剩余任務(wù)可以在任務(wù)數(shù)增加后再行分配,也可以以單任務(wù)方式分配;
(2)已知智能體Ai(i=1,2,3,4)完成目標(biāo)任務(wù)Tj(j=1,2,3,4)的代價(jià)矩陣為C=(cij)(i,j=1,2,3,4),其中cij的計(jì)算方法與單任務(wù)時(shí)相同;代價(jià)矩陣C如圖4(a)所示。
(3)將(cij)的每行元素都減去該行的最小元素,見(jiàn)圖4(b),第一行減20,第二行減40,第三行減10,第四行減20;再將所得新系數(shù)矩陣的每列元素中減去該列的最小元素,獲得等價(jià)代價(jià)矩陣C’=(c’ij),如圖4(c)所示;
(4)作最少的直線覆蓋所有0元素,通過(guò)找0元素進(jìn)行試分配,如。具體為:先找有沒(méi)有可以覆蓋4個(gè)元素的直線(行或列),沒(méi)有找到,繼續(xù)找有沒(méi)有可以覆蓋3個(gè)元素的直線,仍然沒(méi)有,繼續(xù)找有沒(méi)有覆蓋2個(gè)元素的直線,找到2條作直線,繼續(xù)找有沒(méi)有覆蓋1個(gè)元素的直線,找到1條作直線。此時(shí)所有0元素被覆蓋,如圖4(d)所示。不同行不同列的0元素不足4個(gè),則轉(zhuǎn)步驟(5);
(5)調(diào)整代價(jià)矩陣C’,在未被直線穿過(guò)的數(shù)集中,找出最小的數(shù)z=20,讓該數(shù)集對(duì)應(yīng)的所有行中的所有數(shù)減去z,而讓所有被直線穿過(guò)的列中的數(shù)加上z,以保證系數(shù)矩陣中不出現(xiàn)負(fù)元素,得到新系數(shù)矩陣,如圖4(e)所示。新系數(shù)矩陣的最優(yōu)解和原問(wèn)題相同,此時(shí)去掉直線,用新系數(shù)矩陣代替C’;此時(shí)不同行不同列的0元素為4個(gè),如圖4(f),執(zhí)行步驟(6);
(6)以這4個(gè)獨(dú)立0元素對(duì)應(yīng)解矩陣(c’ij)中的元素為1,其余為0,得到最優(yōu)解矩陣(c”ij),如圖4(g),即此時(shí)矩陣元素中c”ij=1所代表的結(jié)果是智能體i被分配了任務(wù)j(i,j=1,2,3,4),在本案例中,A1,A2,A3,A4分別被分配的任務(wù)是T4,T1,T2,T3,最低總耗費(fèi)是C’中使所有=1的位置上各元素之和。
本發(fā)明的核心思想是優(yōu)先為針對(duì)特定任務(wù)采集能力強(qiáng)、負(fù)載輕的節(jié)點(diǎn)分配采集任務(wù),從而使得分布式數(shù)據(jù)采集系統(tǒng)獲得較高的采集性能。
以上所述乃是本發(fā)明的具體實(shí)施例及所運(yùn)用的技術(shù)原理,若依本發(fā)明的構(gòu)想所作的改變,其所產(chǎn)生的功能作用仍未超出說(shuō)明書(shū)及附圖所涵蓋的精神時(shí),仍應(yīng)屬本發(fā)明的保護(hù)范圍。