技術(shù)總結(jié)
本發(fā)明實施例提供的一種信息抓取方法、裝置、中央控制節(jié)點設(shè)備及分布式系統(tǒng),中央控制節(jié)點設(shè)備可以獲得客戶端子節(jié)點設(shè)備上傳的當前抓取的網(wǎng)頁的網(wǎng)頁標識并存儲,在客戶端子節(jié)點設(shè)備的工作狀態(tài)為未正常抓取狀態(tài)時,將當前抓取的網(wǎng)頁的網(wǎng)頁標識返回給客戶端子節(jié)點設(shè)備,以使客戶端子節(jié)點設(shè)備根據(jù)網(wǎng)頁標識繼續(xù)對當前抓取的網(wǎng)頁進行抓取。由于爬蟲所在的客戶端子節(jié)點設(shè)備當前抓取的網(wǎng)頁的網(wǎng)頁標識被保存到了中央控制節(jié)點設(shè)備中,因此當爬蟲所在的客戶端子節(jié)點設(shè)備本地的爬取歷史消失時,本發(fā)明仍能控制爬蟲所在的客戶端子節(jié)點設(shè)備繼續(xù)對當前抓取的網(wǎng)頁進行抓取。本發(fā)明不會導(dǎo)致網(wǎng)頁的重復(fù)抓取,提高了爬蟲的網(wǎng)頁抓取效率,節(jié)省了大量的頁面瀏覽量。
技術(shù)研發(fā)人員:林少維
受保護的技術(shù)使用者:北京金山安全軟件有限公司
文檔號碼:201510920193
技術(shù)研發(fā)日:2015.12.11
技術(shù)公布日:2017.06.20