欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種爬取網(wǎng)絡(luò)數(shù)據(jù)的方法和裝置的制造方法

文檔序號:9251076閱讀:298來源:國知局
一種爬取網(wǎng)絡(luò)數(shù)據(jù)的方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,特別涉及一種爬取網(wǎng)絡(luò)數(shù)據(jù)的方法和裝置。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,互聯(lián)網(wǎng)的應(yīng)用越來越廣泛,互聯(lián)網(wǎng)中網(wǎng)絡(luò)數(shù)據(jù)的數(shù)據(jù)量也越來越大。人們可以通過瀏覽器在互聯(lián)網(wǎng)中瀏覽網(wǎng)絡(luò)數(shù)據(jù),如新聞、視頻和小說等。為了方便用戶獲取更多的網(wǎng)絡(luò)數(shù)據(jù),一些網(wǎng)站經(jīng)常會從其他網(wǎng)站中爬取網(wǎng)絡(luò)數(shù)據(jù),將爬取到的網(wǎng)絡(luò)數(shù)據(jù)設(shè)置在本網(wǎng)站中,爬取網(wǎng)絡(luò)數(shù)據(jù)的處理通常由爬取服務(wù)器來完成。
[0003]爬取服務(wù)器中存儲有大量的網(wǎng)址,這些網(wǎng)址可以是技術(shù)人員輸入的,也可以是爬取服務(wù)器在爬取網(wǎng)絡(luò)數(shù)據(jù)的過程中獲取到的,爬取服務(wù)器會按照網(wǎng)址的獲取順序向網(wǎng)址對應(yīng)的網(wǎng)站服務(wù)器發(fā)送數(shù)據(jù)請求,網(wǎng)站服務(wù)器接收到數(shù)據(jù)請求后,會返回相應(yīng)的網(wǎng)絡(luò)數(shù)據(jù),爬取服務(wù)器則會對網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行分析,獲取有用的網(wǎng)絡(luò)數(shù)據(jù)并進(jìn)行存儲,同時(shí)還可以對其中包含的網(wǎng)址進(jìn)行存儲,用于后續(xù)的爬取過程。
[0004]在實(shí)現(xiàn)本發(fā)明的過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在以下問題:
[0005]網(wǎng)站服務(wù)器通常設(shè)置有訪問頻率的上限,由于爬取服務(wù)器按照網(wǎng)址的獲取順序向網(wǎng)站服務(wù)器發(fā)送數(shù)據(jù)請求,因此經(jīng)常會出現(xiàn)在某時(shí)間段內(nèi)向某網(wǎng)站服務(wù)器發(fā)送大量的數(shù)據(jù)請求的情況,如果發(fā)送數(shù)據(jù)請求的頻率大于該網(wǎng)站的訪問頻率的上限,該網(wǎng)站服務(wù)器將會屏蔽爬取服務(wù)器的IP (Internet Protocol,互聯(lián)網(wǎng)協(xié)議)地址,導(dǎo)致爬取服務(wù)器在一定的時(shí)間段內(nèi)無法從該網(wǎng)站服務(wù)器中爬取網(wǎng)絡(luò)數(shù)據(jù),從而使得爬取服務(wù)器爬取網(wǎng)絡(luò)數(shù)據(jù)的效率較低。

【發(fā)明內(nèi)容】

[0006]為了解決現(xiàn)有技術(shù)的問題,本發(fā)明實(shí)施例提供了一種爬取網(wǎng)絡(luò)數(shù)據(jù)的方法和裝置。所述技術(shù)方案如下:
[0007]第一方面,提供了一種爬取網(wǎng)絡(luò)數(shù)據(jù)的方法,所述方法包括:
[0008]按照預(yù)設(shè)的輪詢順序,在預(yù)先存儲的域名隊(duì)列中逐個(gè)選取待爬取的域名;
[0009]在每次選取待爬取的域名后,如果選取的域名上一次被爬取的時(shí)間與當(dāng)前時(shí)間的時(shí)間間隔超過預(yù)設(shè)的時(shí)間間隔閾值,則在所述選取的域名對應(yīng)的網(wǎng)址隊(duì)列中抽取待爬取的網(wǎng)址,對所述待爬取的網(wǎng)址進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)爬取,如果選取的域名上一次被爬取的時(shí)間與當(dāng)前時(shí)間的時(shí)間間隔未超過預(yù)設(shè)的時(shí)間間隔閾值,則選取下一個(gè)待爬取的域名。
[0010]第二方面,提供了一種爬取網(wǎng)絡(luò)數(shù)據(jù)的裝置,所述裝置包括:
[0011]選取模塊,用于按照預(yù)設(shè)的輪詢順序,在預(yù)先存儲的域名隊(duì)列中逐個(gè)選取待爬取的域名;
[0012]爬取模塊,用于在每次選取待爬取的域名后,如果選取的域名上一次被爬取的時(shí)間與當(dāng)前時(shí)間的時(shí)間間隔超過預(yù)設(shè)的時(shí)間間隔閾值,則在所述選取的域名對應(yīng)的網(wǎng)址隊(duì)列中抽取待爬取的網(wǎng)址,對所述待爬取的網(wǎng)址進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)爬取,如果選取的域名上一次被爬取的時(shí)間與當(dāng)前時(shí)間的時(shí)間間隔未超過預(yù)設(shè)的時(shí)間間隔閾值,則選取下一個(gè)待爬取的域名。
[0013]本發(fā)明實(shí)施例提供的技術(shù)方案帶來的有益效果是:
[0014]本發(fā)明實(shí)施例中,按照預(yù)設(shè)的輪詢順序,在預(yù)先存儲的域名隊(duì)列中逐個(gè)選取待爬取的域名,在每次選取待爬取的域名后,如果選取的域名上一次被爬取的時(shí)間與當(dāng)前時(shí)間的時(shí)間間隔超過預(yù)設(shè)的時(shí)間間隔閾值,則在選取的域名對應(yīng)的網(wǎng)址隊(duì)列中抽取待爬取的網(wǎng)址,對待爬取的網(wǎng)址進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)爬取,如果選取的域名上一次被爬取的時(shí)間與當(dāng)前時(shí)間的時(shí)間間隔未超過預(yù)設(shè)的時(shí)間間隔閾值,則選取下一個(gè)待爬取的域名,通過上述方法,如果需要對一個(gè)域名進(jìn)行多次爬取(每次爬取該域名下一個(gè)網(wǎng)址中的網(wǎng)絡(luò)數(shù)據(jù)),可以控制相鄰兩次爬取的時(shí)間間隔大于預(yù)設(shè)的時(shí)間間隔閾值,進(jìn)而可以控制對該域名的訪問頻率不會超過某一上限值,因此,爬取服務(wù)器的IP將不會被網(wǎng)站服務(wù)器屏蔽,從而可以提高爬取網(wǎng)絡(luò)數(shù)據(jù)的效率。
【附圖說明】
[0015]為了更清楚地說明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對實(shí)施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0016]圖1是本發(fā)明實(shí)施例提供的一種爬取網(wǎng)絡(luò)數(shù)據(jù)的方法流程圖;
[0017]圖2是本發(fā)明實(shí)施例提供的一種系統(tǒng)框架圖;
[0018]圖3是本發(fā)明實(shí)施例提供的一種爬取網(wǎng)絡(luò)數(shù)據(jù)的裝置結(jié)構(gòu)示意圖;
[0019]圖4是本發(fā)明實(shí)施例提供的一種爬取服務(wù)器的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0020]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對本發(fā)明實(shí)施方式作進(jìn)一步地詳細(xì)描述。
[0021]實(shí)施例一
[0022]本發(fā)明實(shí)施例提供了一種爬取網(wǎng)絡(luò)數(shù)據(jù)的方法,如圖1所示,該方法的處理流程可以包括如下的步驟:
[0023]步驟101,按照預(yù)設(shè)的輪詢順序,在預(yù)先存儲的域名隊(duì)列中逐個(gè)選取待爬取的域名。
[0024]步驟102,在每次選取待爬取的域名后,如果選取的域名上一次被爬取的時(shí)間與當(dāng)前時(shí)間的時(shí)間間隔超過預(yù)設(shè)的時(shí)間間隔閾值,則在選取的域名對應(yīng)的網(wǎng)址隊(duì)列中抽取待爬取的網(wǎng)址,對待爬取的網(wǎng)址進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)爬取,如果選取的域名上一次被爬取的時(shí)間與當(dāng)前時(shí)間的時(shí)間間隔未超過預(yù)設(shè)的時(shí)間間隔閾值,則選取下一個(gè)待爬取的域名。
[0025]本發(fā)明實(shí)施例中,按照預(yù)設(shè)的輪詢順序,在預(yù)先存儲的域名隊(duì)列中逐個(gè)選取待爬取的域名,在每次選取待爬取的域名后,如果選取的域名上一次被爬取的時(shí)間與當(dāng)前時(shí)間的時(shí)間間隔超過預(yù)設(shè)的時(shí)間間隔閾值,則在選取的域名對應(yīng)的網(wǎng)址隊(duì)列中抽取待爬取的網(wǎng)址,對待爬取的網(wǎng)址進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)爬取,如果選取的域名上一次被爬取的時(shí)間與當(dāng)前時(shí)間的時(shí)間間隔未超過預(yù)設(shè)的時(shí)間間隔閾值,則選取下一個(gè)待爬取的域名,通過上述方法,如果需要對一個(gè)域名進(jìn)行多次爬取(每次爬取該域名下一個(gè)網(wǎng)址中的網(wǎng)絡(luò)數(shù)據(jù)),可以控制相鄰兩次爬取的時(shí)間間隔大于預(yù)設(shè)的時(shí)間間隔閾值,進(jìn)而可以控制對該域名的訪問頻率不會超過某一上限值,因此,爬取服務(wù)器的IP將不會被網(wǎng)站服務(wù)器屏蔽,從而可以提高爬取網(wǎng)絡(luò)數(shù)據(jù)的效率。
[0026]實(shí)施例二
[0027]本發(fā)明實(shí)施例提供了一種爬取網(wǎng)絡(luò)數(shù)據(jù)的方法,該方法的執(zhí)行主體為爬取服務(wù)器。其中,爬取服務(wù)器可以是某瀏覽器的后臺服務(wù)器,也可以是某網(wǎng)站的后臺服務(wù)器,爬取服務(wù)器可以是一臺服務(wù)器,也可以是由多臺服務(wù)器組成的服務(wù)器組。
[0028]下面將結(jié)合【具體實(shí)施方式】,對圖1所示的處理流程進(jìn)行詳細(xì)的說明,內(nèi)容可以如下:
[0029]步驟101,按照預(yù)設(shè)的輪詢順序,在預(yù)先存儲的域名隊(duì)列中逐個(gè)選取待爬取的域名。
[0030]在實(shí)施中,技術(shù)人員可以在爬取服務(wù)器中預(yù)先存儲多個(gè)網(wǎng)站的域名,這些域名可以按照預(yù)先設(shè)置的輪詢順序以域名隊(duì)列的形式進(jìn)行存儲。爬取服務(wù)器中還可以對應(yīng)每個(gè)網(wǎng)站的域名存儲該域名下的多個(gè)網(wǎng)址,組成該域名對應(yīng)的網(wǎng)址隊(duì)列。爬取服務(wù)器可以按照預(yù)先設(shè)置的輪詢順序,在域名隊(duì)列中逐個(gè)選取域名,作為待爬取的域名。爬取服務(wù)器可以在達(dá)到預(yù)設(shè)的選取周期時(shí)進(jìn)行選取,也可以在接收到選取指令時(shí)進(jìn)行選取。
[0031]步驟102,在每次選取待爬取的域名后,如果選取的域名上一次被爬取的時(shí)間與當(dāng)前時(shí)間的時(shí)間間隔超過預(yù)設(shè)的時(shí)間間隔閾值,則在選取的域名對應(yīng)的網(wǎng)址隊(duì)列中抽取待爬取的網(wǎng)址,對待爬取的網(wǎng)址進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)爬取,如果選取的域名上一次被爬取的時(shí)間與當(dāng)前時(shí)間的時(shí)間間隔未超過預(yù)設(shè)的時(shí)間間隔閾值,則選取下一個(gè)待爬取的域名。
[0032]在實(shí)施中,爬取服務(wù)器中可以預(yù)先設(shè)置時(shí)間間隔閾值,該時(shí)間間隔閾值可以由技術(shù)人員通過多次試驗(yàn)得到。當(dāng)對同一域名進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)爬取的時(shí)間間隔大于時(shí)間間隔閾值時(shí),爬取服務(wù)器發(fā)送的用于爬取網(wǎng)絡(luò)數(shù)據(jù)的數(shù)據(jù)請求將不會被該域名對應(yīng)的網(wǎng)絡(luò)服務(wù)器屏蔽。
[0033]具體地,每當(dāng)爬取服務(wù)器對某域名下的網(wǎng)址進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)爬取時(shí),都可以對本次爬取網(wǎng)絡(luò)數(shù)據(jù)的起始時(shí)間進(jìn)行記錄。爬取服務(wù)器按照預(yù)設(shè)的輪詢順序選取該域名作為待爬取的域名后,可以確定記錄中上一次爬取該域名的時(shí)間與當(dāng)前時(shí)間的時(shí)間間隔,然后可以將該時(shí)間間隔與預(yù)設(shè)的時(shí)間間隔閾值進(jìn)行對比,如果該時(shí)間間隔大于預(yù)設(shè)的時(shí)間間隔閾值,則可以在該域名對應(yīng)的網(wǎng)址隊(duì)列中抽取某一網(wǎng)址,作為待爬取的網(wǎng)址,然后向該網(wǎng)址發(fā)送數(shù)據(jù)請求,上述域名對應(yīng)的網(wǎng)絡(luò)服務(wù)器則會返回相應(yīng)的網(wǎng)絡(luò)數(shù)據(jù),爬取服務(wù)器接收到網(wǎng)絡(luò)數(shù)據(jù)后,可以從網(wǎng)絡(luò)數(shù)據(jù)中獲取有價(jià)值的信息。例如,爬取
當(dāng)前第1頁1 2 3 4 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
伊川县| 福泉市| 施甸县| 泸溪县| 思南县| 北流市| 新绛县| 通海县| 临邑县| 南昌市| 丁青县| 中卫市| 安岳县| 宁武县| 黔西| 河源市| 凤山县| 尚志市| 鸡西市| 清镇市| 宜宾县| 黔东| 台州市| 杂多县| 梧州市| 沁阳市| 九龙坡区| 衡阳市| 上林县| 栖霞市| 独山县| 肃北| 林甸县| 大安市| 乐清市| 朝阳县| 德阳市| 台湾省| 嫩江县| 肥城市| 华蓥市|