欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

確定網(wǎng)站抓取流量配額的方法及設(shè)備的制作方法

文檔序號(hào):6516284閱讀:229來源:國知局
確定網(wǎng)站抓取流量配額的方法及設(shè)備的制作方法
【專利摘要】本發(fā)明公開了確定網(wǎng)站抓取流量配額的方法及設(shè)備,其中所述方法包括:獲取待抓取目標(biāo)網(wǎng)站的受訪問數(shù)據(jù);根據(jù)所述受訪問數(shù)據(jù),確定所述目標(biāo)網(wǎng)站的抓取承受流量;獲取所述目標(biāo)網(wǎng)站內(nèi)網(wǎng)頁的網(wǎng)頁質(zhì)量分布;根據(jù)所述目標(biāo)網(wǎng)站內(nèi)網(wǎng)頁的所述網(wǎng)頁質(zhì)量分布,確定抓取目標(biāo)網(wǎng)站的任務(wù)流量;根據(jù)所述目標(biāo)網(wǎng)站的抓取承受流量,以及所述抓取目標(biāo)網(wǎng)站的任務(wù)流量,確定在所述目標(biāo)網(wǎng)站上進(jìn)行網(wǎng)頁抓取的流量配額。通過本方法,能夠在搜索引擎爬蟲程序抓取網(wǎng)站中的網(wǎng)頁時(shí),更好的分配在目標(biāo)網(wǎng)站上進(jìn)行網(wǎng)頁抓取的流量配額,減少了爬蟲程序與被抓取站點(diǎn)的沖突,使爬蟲程序抓取行為與搜索引擎更新需求得到了合理的平衡。
【專利說明】確定網(wǎng)站抓取流量配額的方法及設(shè)備
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及搜索引擎【技術(shù)領(lǐng)域】,具體涉及確定網(wǎng)站抓取流量配額的方法及設(shè)備?!颈尘凹夹g(shù)】
[0002]搜索引擎是一種互聯(lián)網(wǎng)信息平臺(tái),通過搜索引擎能夠?qū)⒒ヂ?lián)網(wǎng)上的大量網(wǎng)頁信息收集起來,經(jīng)過加工處理后,建立信息數(shù)據(jù)庫和索引數(shù)據(jù)庫,用戶可以通過在搜索引擎提供的入口中輸入查詢?cè)~,從而獲取搜索引擎針對(duì)該查詢?cè)~返回的搜索結(jié)果。隨著搜索引擎技術(shù)的不斷發(fā)展和成熟,其提供的服務(wù)業(yè)越來越完善,在人們從規(guī)模龐大的互聯(lián)網(wǎng)中獲取所需信息時(shí),搜索引擎已經(jīng)成為一種非常常用,也非常便利的工具。
[0003]搜索引擎為了能夠下載互聯(lián)網(wǎng)上的網(wǎng)頁,以供分析網(wǎng)頁數(shù)據(jù)和建立索引,往往需要使用一種抓取網(wǎng)頁的工具程序,這種程序通常被稱為“爬蟲程序”或“蜘蛛程序”。由于互聯(lián)網(wǎng)上總是不停的產(chǎn)生新網(wǎng)頁,同時(shí)原有的網(wǎng)頁也在不斷的更新,因此爬蟲程序需要不停的工作,以保證搜索引擎能夠得到最新的網(wǎng)頁數(shù)據(jù)。為了提供更好的搜索結(jié)果,搜索引擎的爬蟲程序總希望能夠更快地收錄互聯(lián)網(wǎng)上的新網(wǎng)頁以及更新的原有網(wǎng)頁。但網(wǎng)頁資源位于網(wǎng)絡(luò)上的各個(gè)站點(diǎn)主機(jī)上,爬蟲程序?qū)W(wǎng)頁資源的抓取勢(shì)必會(huì)占用站點(diǎn)主機(jī)的服務(wù)資源,如站點(diǎn)主機(jī)的軟硬件處理資源,帶寬等。如果抓取網(wǎng)頁的任務(wù)超過了站點(diǎn)主機(jī)的承受范圍,就會(huì)影響到網(wǎng)站用戶的正常訪問,那么爬蟲程序的網(wǎng)頁抓取行為就成為了對(duì)網(wǎng)站不友好行為,嚴(yán)重時(shí)會(huì)導(dǎo)致影響網(wǎng)站響應(yīng)超時(shí),甚至網(wǎng)站服務(wù)器崩潰。而且,為保護(hù)網(wǎng)站的穩(wěn)定性,網(wǎng)站常常會(huì)監(jiān)控爬蟲程序的訪問,并對(duì)產(chǎn)生不友好行為的爬蟲程序采取限制,甚至禁止訪問措施。一旦爬蟲程序被限制或禁止,搜索引擎的網(wǎng)頁抓取效率會(huì)變低,甚至無法更新或下載該網(wǎng)站網(wǎng)頁資源,最終對(duì)搜索服務(wù)的提供產(chǎn)生負(fù)面影響。
[0004]同時(shí),現(xiàn)有技術(shù)中一般是由人工設(shè)定來設(shè)定爬蟲程序可對(duì)網(wǎng)站抓取的流量或頻率,這種方式雖然減少搜索引擎的爬蟲程序與被抓取網(wǎng)站的沖突,但是對(duì)網(wǎng)頁數(shù)據(jù)更新沒有得到最大體現(xiàn),因此使得爬蟲程序抓取行為與網(wǎng)站數(shù)據(jù)更新的需求沒有得到合理的平衡。

【發(fā)明內(nèi)容】

[0005]鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的確定網(wǎng)站抓取流量配額的設(shè)備和相應(yīng)的確定網(wǎng)站抓取流量配額的方法。
[0006]依據(jù)本發(fā)明的一個(gè)方面,提供了一種確定網(wǎng)站抓取流量配額的方法,包括:
[0007]獲取待抓取目標(biāo)網(wǎng)站的受訪問數(shù)據(jù);
[0008]根據(jù)所述受訪問數(shù)據(jù),確定所述目標(biāo)網(wǎng)站的抓取承受流量;
[0009]獲取所述目標(biāo)網(wǎng)站內(nèi)網(wǎng)頁的網(wǎng)頁質(zhì)量分布;
[0010]根據(jù)所述目標(biāo)網(wǎng)站內(nèi)網(wǎng)頁的所述網(wǎng)頁質(zhì)量分布,確定抓取目標(biāo)網(wǎng)站的任務(wù)流量;
[0011]根據(jù)所述目標(biāo)網(wǎng)站的抓取承受流量,以及所述抓取目標(biāo)網(wǎng)站的任務(wù)流量,確定在所述目標(biāo)網(wǎng)站上進(jìn)行網(wǎng)頁抓取的流量配額。[0012]可選地,所述獲取待抓取目標(biāo)網(wǎng)站的受訪問數(shù)據(jù),包括:
[0013]根據(jù)搜索弓I擎對(duì)所述目標(biāo)網(wǎng)站的訪問統(tǒng)計(jì)數(shù)據(jù),確定所述目標(biāo)網(wǎng)站的所述受訪問數(shù)據(jù)。
[0014]可選地,所述根據(jù)所述受訪問數(shù)據(jù),確定所述目標(biāo)網(wǎng)站的抓取承受流量,包括:
[0015]根據(jù)所述受訪問數(shù)據(jù),確定所述目標(biāo)網(wǎng)站的可承受訪問總量;
[0016]根據(jù)所述可承受訪問總量與預(yù)置的抓取壓力系數(shù),確定所述目標(biāo)網(wǎng)站的抓取承受流量。
[0017]可選地,所述根據(jù)所述受訪問數(shù)據(jù),確定所述目標(biāo)網(wǎng)站的可承受訪問總量,包括:
[0018]根據(jù)搜索引擎對(duì)所述目標(biāo)網(wǎng)站的訪問統(tǒng)計(jì)數(shù)據(jù),所述搜索引擎的市場(chǎng)占有率,用戶直接訪問量,以及網(wǎng)站冗余流量,確定所述目標(biāo)網(wǎng)站的可承受訪問總量。
[0019]可選地,所述獲取所述目標(biāo)網(wǎng)站內(nèi)網(wǎng)頁的網(wǎng)頁質(zhì)量分布,包括:
[0020]根據(jù)所述目標(biāo)網(wǎng)站內(nèi)網(wǎng)頁的pagerank,和/或網(wǎng)頁的鏈接深度,確定網(wǎng)頁的評(píng)分;
[0021]對(duì)所述目標(biāo)網(wǎng)站內(nèi)多個(gè)網(wǎng)頁的評(píng)分進(jìn)行歸一化處理,獲得各個(gè)網(wǎng)頁對(duì)應(yīng)的質(zhì)量分布。
[0022]可選地,所述獲取所述目標(biāo)網(wǎng)站內(nèi)網(wǎng)頁的網(wǎng)頁質(zhì)量分布,包括:
[0023]獲取所述目標(biāo)網(wǎng)站內(nèi)所有已收錄網(wǎng)頁的網(wǎng)頁質(zhì)量分布;
[0024]所述根據(jù)所述目標(biāo)網(wǎng)站內(nèi)網(wǎng)頁的所述網(wǎng)頁質(zhì)量分布,確定抓取目標(biāo)網(wǎng)站的任務(wù)流量,包括:
[0025]獲取所述目標(biāo)網(wǎng)站內(nèi)所有已收錄網(wǎng)頁的網(wǎng)頁質(zhì)量分布的總和,根據(jù)所述目標(biāo)網(wǎng)站內(nèi)所有網(wǎng)頁的網(wǎng)頁質(zhì)量分布的總和,確定抓取目標(biāo)網(wǎng)站的任務(wù)流量。
[0026]可選地,還包括:
[0027]獲取一個(gè)或多個(gè)任務(wù)比例因子;
[0028]所述根據(jù)所述目標(biāo)網(wǎng)站內(nèi)所有已收錄網(wǎng)頁的網(wǎng)頁質(zhì)量分布的總和,確定抓取目標(biāo)網(wǎng)站的任務(wù)流量,包括:
[0029]根據(jù)所述網(wǎng)頁質(zhì)量分布的總和與一個(gè)或多個(gè)所述任務(wù)比例因子的乘積,確定抓取目標(biāo)網(wǎng)站的任務(wù)流量。
[0030]可選地,所述獲取一個(gè)或多個(gè)任務(wù)比例因子,包括:
[0031]獲取所述目標(biāo)網(wǎng)站中,待抓取的網(wǎng)頁數(shù)占所述目標(biāo)網(wǎng)站中已收錄網(wǎng)頁總數(shù)的比例;
[0032]和/ 或,
[0033]獲取所述目標(biāo)網(wǎng)站中,不重復(fù)的網(wǎng)頁數(shù)量占所述目標(biāo)網(wǎng)站中網(wǎng)頁總數(shù)的比例。
[0034]可選地,所述獲取所述目標(biāo)網(wǎng)站中,待抓取的網(wǎng)頁數(shù)占所述目標(biāo)網(wǎng)站中網(wǎng)頁總數(shù)的比例,包括:
[0035]獲取所述目標(biāo)網(wǎng)站中,抓取歷史中更新的網(wǎng)頁數(shù),和/或,所述目標(biāo)網(wǎng)站中新產(chǎn)生的網(wǎng)頁數(shù),占所述目標(biāo)網(wǎng)站中網(wǎng)頁總數(shù)的比例。
[0036]可選地,所述獲取所述目標(biāo)網(wǎng)站中,不重復(fù)的網(wǎng)頁數(shù)量占所述目標(biāo)網(wǎng)站中網(wǎng)頁總數(shù)的比例,包括:
[0037]在對(duì)目標(biāo)網(wǎng)站的抓取歷史中,獲取和比對(duì)所抓取的網(wǎng)頁的信息指紋;
[0038]根據(jù)比對(duì)的結(jié)果獲取不重復(fù)的信息指紋數(shù),占總指紋數(shù)的比例,作為所述不重復(fù)的網(wǎng)頁數(shù)量占所述目標(biāo)網(wǎng)站中網(wǎng)頁總數(shù)的比例。
[0039]可選地,還包括:
[0040]根據(jù)抓取目標(biāo)網(wǎng)站的任務(wù)總時(shí)間確定單位時(shí)間系數(shù);
[0041]所述根據(jù)所述目標(biāo)網(wǎng)站內(nèi)所有已收錄網(wǎng)頁的網(wǎng)頁質(zhì)量分布的總和,確定抓取目標(biāo)網(wǎng)站的任務(wù)流量,包括:
[0042]根據(jù)所述網(wǎng)頁質(zhì)量分布的總和與一個(gè)或多個(gè)所述任務(wù)比例因子,以及所述單位時(shí)間系數(shù)的乘積,確定抓取目標(biāo)網(wǎng)站的任務(wù)流量。
[0043]可選地,還包括:
[0044]當(dāng)所述任務(wù)流量大于所述抓取承受流量,且兩者的差大于預(yù)置的閾值時(shí),通過調(diào)整所述任務(wù)比例因子,和/或所述單位時(shí)間系數(shù),調(diào)整所述任務(wù)流量,直至所述任務(wù)流量小于或等于所述抓取承受流量,或兩者的差小于預(yù)置的閾值。
[0045]可選地,所述根據(jù)所述目標(biāo)網(wǎng)站的抓取承受流量,以及所述抓取目標(biāo)網(wǎng)站的任務(wù)流量,確定在所述目標(biāo)網(wǎng)站上進(jìn)行網(wǎng)頁抓取的流量配額,包括:
[0046]當(dāng)所述任務(wù)流量大于所述抓取承受流量,且兩者的差小于預(yù)置的閾值時(shí),將所述任務(wù)流量確定為在所述目標(biāo)網(wǎng)站上進(jìn)行網(wǎng)頁抓取的流量配額。
[0047]根據(jù)本發(fā)明的另一方面,提供了一種確定網(wǎng)站抓取流量配額的設(shè)備,包括:
[0048]網(wǎng)站訪問數(shù)據(jù)獲取單元,適于獲取待抓取目標(biāo)網(wǎng)站的受訪問數(shù)據(jù);
[0049]網(wǎng)站承受力確定單元,適于根據(jù)所述受訪問數(shù)據(jù),確定所述目標(biāo)網(wǎng)站的抓取承受流量;
[0050]網(wǎng)頁質(zhì)量分布獲取單元,適于獲取所述目標(biāo)網(wǎng)站內(nèi)網(wǎng)頁的網(wǎng)頁質(zhì)量分布;
[0051]任務(wù)流量獲取單元,適于根據(jù)所述目標(biāo)網(wǎng)站內(nèi)網(wǎng)頁的所述網(wǎng)頁質(zhì)量分布,確定抓取目標(biāo)網(wǎng)站的任務(wù)流量;
[0052]流量配額確定單元,適于根據(jù)所述目標(biāo)網(wǎng)站的抓取承受流量,以及所述抓取目標(biāo)網(wǎng)站的任務(wù)流量,確定在所述目標(biāo)網(wǎng)站上進(jìn)行網(wǎng)頁抓取的流量配額。
[0053]可選地,所述網(wǎng)站訪問數(shù)據(jù)獲取單元,適于:
[0054]根據(jù)搜索弓丨擎對(duì)所述目標(biāo)網(wǎng)站的訪問統(tǒng)計(jì)數(shù)據(jù),確定所述目標(biāo)網(wǎng)站的所述受訪問數(shù)據(jù)。
[0055]可選地,所述網(wǎng)站承受力確定單元,包括:
[0056]訪問量確定子單元,適于根據(jù)所述受訪問數(shù)據(jù),確定所述目標(biāo)網(wǎng)站的可承受訪問總量;
[0057]所述網(wǎng)站承受力確定單元,適于根據(jù)所述可承受訪問總量與預(yù)置的抓取壓力系數(shù),確定所述目標(biāo)網(wǎng)站的抓取承受流量。
[0058]可選地,所述訪問量確定子單元,適于:
[0059]根據(jù)搜索引擎對(duì)所述目標(biāo)網(wǎng)站的訪問統(tǒng)計(jì)數(shù)據(jù),所述搜索引擎的市場(chǎng)占有率,用戶直接訪問量,以及網(wǎng)站冗余流量,確定所述目標(biāo)網(wǎng)站的可承受訪問總量。
[0060]可選地,所述網(wǎng)頁質(zhì)量分布獲取單元,適于:
[0061]根據(jù)所述目標(biāo)網(wǎng)站內(nèi)網(wǎng)頁的pagerank,和/或網(wǎng)頁的鏈接深度,確定網(wǎng)頁的評(píng)分;
[0062]對(duì)所述目標(biāo)網(wǎng)站內(nèi)多個(gè)網(wǎng)頁的評(píng)分進(jìn)行歸一化處理,獲得各個(gè)網(wǎng)頁對(duì)應(yīng)的質(zhì)量分布。[0063]可選地,所述網(wǎng)頁質(zhì)量分布獲取單元,包括:
[0064]網(wǎng)頁質(zhì)量分布獲取子單元,適于獲取所述目標(biāo)網(wǎng)站內(nèi)所有已收錄網(wǎng)頁的網(wǎng)頁質(zhì)量分布;
[0065]所述任務(wù)流量獲取單元,包括:
[0066]任務(wù)流量獲取子單元,適于獲取的所述目標(biāo)網(wǎng)站內(nèi)所有已收錄網(wǎng)頁的網(wǎng)頁質(zhì)量分布的總和,根據(jù)所述目標(biāo)網(wǎng)站內(nèi)所有已收錄網(wǎng)頁的網(wǎng)頁質(zhì)量分布的總和,確定抓取目標(biāo)網(wǎng)站的任務(wù)流量。
[0067]可選地,還包括:
[0068]任務(wù)比例因子獲取單元,適于獲取一個(gè)或多個(gè)任務(wù)比例因子;
[0069]所述任務(wù)流量獲取子單元,適于:
[0070]根據(jù)所述網(wǎng)頁質(zhì)量分布的總和與一個(gè)或多個(gè)所述任務(wù)比例因子的乘積,確定抓取目標(biāo)網(wǎng)站的任務(wù)流量。
[0071]可選地,所述任務(wù)比例因子獲取單元,適于:
[0072]獲取所述目標(biāo)網(wǎng)站中,待抓取的網(wǎng)頁數(shù)占所述目標(biāo)網(wǎng)站中已收錄網(wǎng)頁總數(shù)的比例;
[0073]和/ 或,
[0074]獲取所述目標(biāo)網(wǎng)站中,不重復(fù)的網(wǎng)頁數(shù)量占所述目標(biāo)網(wǎng)站中網(wǎng)頁總數(shù)的比例。
[0075]可選地,所述任務(wù)比例因子獲取單元,適于:
[0076]獲取所述目標(biāo)網(wǎng)站中,抓取歷史中更新的網(wǎng)頁數(shù),和/或,所述目標(biāo)網(wǎng)站中新產(chǎn)生的網(wǎng)頁數(shù),占所述目標(biāo)網(wǎng)站中網(wǎng)頁總數(shù)的比例。
[0077]可選地,所述任務(wù)比例因子獲取單元,適于:
[0078]在對(duì)目標(biāo)網(wǎng)站的抓取歷史中,獲取和比對(duì)所抓取的網(wǎng)頁的信息指紋;
[0079]根據(jù)比對(duì)的結(jié)果獲取不重復(fù)的信息指紋數(shù),占總指紋數(shù)的比例,作為所述不重復(fù)的網(wǎng)頁數(shù)量占所述目標(biāo)網(wǎng)站中網(wǎng)頁總數(shù)的比例。
[0080]可選地,還包括:
[0081]單位時(shí)間系數(shù)獲取單元,適于根據(jù)抓取目標(biāo)網(wǎng)站的任務(wù)總時(shí)間確定單位時(shí)間系數(shù);
[0082]所述任務(wù)流量獲取子單元,適于:
[0083]根據(jù)所述網(wǎng)頁質(zhì)量分布的總和與一個(gè)或多個(gè)所述任務(wù)比例因子,以及所述單位時(shí)間系數(shù)的乘積,確定抓取目標(biāo)網(wǎng)站的任務(wù)流量。
[0084]可選地,還包括:
[0085]任務(wù)流量調(diào)整單元,適于當(dāng)所述任務(wù)流量大于所述抓取承受流量,且兩者的差大于預(yù)置的閾值時(shí),通過調(diào)整所述任務(wù)比例因子,和/或所述單位時(shí)間系數(shù),調(diào)整所述任務(wù)流量,直至所述任務(wù)流量小于或等于所述抓取承受流量,或兩者的差小于預(yù)置的閾值。
[0086]可選地,所述流量配額確定單元,適于:
[0087]當(dāng)所述任務(wù)流量大于所述抓取承受流量,且兩者的差小于預(yù)置的閾值時(shí),將所述任務(wù)流量確定為在所述目標(biāo)網(wǎng)站上進(jìn)行網(wǎng)頁抓取的流量配額。
[0088]根據(jù)本發(fā)明的確定網(wǎng)站抓取流量配額的方法可以根據(jù)待抓取目標(biāo)網(wǎng)站的受訪問數(shù)據(jù),確定搜索引擎爬蟲程序?qū)δ繕?biāo)網(wǎng)站進(jìn)行抓取時(shí),目標(biāo)網(wǎng)站的所能夠承受的抓取承受流量;并且可以根據(jù)目標(biāo)網(wǎng)站內(nèi)網(wǎng)頁的網(wǎng)頁質(zhì)量分布,確定抓取目標(biāo)網(wǎng)站任務(wù)的任務(wù)流量;進(jìn)而根據(jù)目標(biāo)網(wǎng)站的抓取承受流量,以及抓取目標(biāo)網(wǎng)站的任務(wù)流量,確定在目標(biāo)網(wǎng)站上進(jìn)行網(wǎng)頁抓取的流量配額。由此解決了爬蟲程序無限制的抓取導(dǎo)致過多占用網(wǎng)站資源的問題。實(shí)現(xiàn)了在對(duì)網(wǎng)站的抓取壓力允許的情況下,對(duì)網(wǎng)站的網(wǎng)頁數(shù)據(jù)進(jìn)行有效的抓取,以減少搜索引擎的爬蟲程序與被抓取站點(diǎn)的沖突。使爬蟲程序抓取行為與搜索引擎更新需求得到合理的平衡。
[0089]上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的【具體實(shí)施方式】。
【專利附圖】

【附圖說明】
[0090]通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:
[0091]圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的網(wǎng)頁抓取的方法的流程圖;
[0092]圖2示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的確定網(wǎng)站抓取流量配額的方法的流程圖;
[0093]圖3示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的確定抓取流量的方法的流程圖;
[0094]圖4示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的確定網(wǎng)站子頻道抓取流量配額的方法的流程圖;
[0095]圖5示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的網(wǎng)頁抓取的設(shè)備的示意圖;
[0096]圖6示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的確定網(wǎng)站抓取流量配額的設(shè)備的示意圖;
[0097]圖7示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的確定抓取流量的設(shè)備的示意圖;
[0098]圖8示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的確定網(wǎng)站子頻道抓取流量配額的設(shè)備的示意圖。
【具體實(shí)施方式】
[0099]下面將參照附圖更詳細(xì)地描述本發(fā)明公開的示例性實(shí)施例。雖然附圖中顯示了本發(fā)明公開的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本發(fā)明公開而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈景l(fā)明公開的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0100]為了便于說明,首先定義如表I中所示的參數(shù)以及參數(shù)的說明:
[0101]表I
【權(quán)利要求】
1.一種確定網(wǎng)站抓取流量配額的方法,包括: 獲取待抓取目標(biāo)網(wǎng)站的受訪問數(shù)據(jù); 根據(jù)所述受訪問數(shù)據(jù),確定所述目標(biāo)網(wǎng)站的抓取承受流量; 獲取所述目標(biāo)網(wǎng)站內(nèi)網(wǎng)頁的網(wǎng)頁質(zhì)量分布; 根據(jù)所述目標(biāo)網(wǎng)站內(nèi)網(wǎng)頁的所述網(wǎng)頁質(zhì)量分布,確定抓取目標(biāo)網(wǎng)站的任務(wù)流量;根據(jù)所述目標(biāo)網(wǎng)站的抓取承受流量,以及所述抓取目標(biāo)網(wǎng)站的任務(wù)流量,確定在所述目標(biāo)網(wǎng)站上進(jìn)行網(wǎng)頁抓取的流量配額。
2.如權(quán)利要求1所述的方法,所述獲取待抓取目標(biāo)網(wǎng)站的受訪問數(shù)據(jù),包括: 根據(jù)搜索引擎對(duì)所述目標(biāo)網(wǎng)站的訪問統(tǒng)計(jì)數(shù)據(jù),確定所述目標(biāo)網(wǎng)站的所述受訪問數(shù)據(jù)。
3.如權(quán)利要求1或2所述的方法,所述根據(jù)所述受訪問數(shù)據(jù),確定所述目標(biāo)網(wǎng)站的抓取承受流量,包括: 根據(jù)所述受訪問數(shù)據(jù),確定所述目標(biāo)網(wǎng)站的可承受訪問總量; 根據(jù)所述可承受訪問總量與預(yù)置的抓取壓力系數(shù),確定所述目標(biāo)網(wǎng)站的抓取承受流量。
4.如權(quán)利要求1-3任一項(xiàng)所述的方法,所述根據(jù)所述受訪問數(shù)據(jù),確定所述目標(biāo)網(wǎng)站的可承受訪問總量,包括: 根據(jù)搜索引擎對(duì)所述目標(biāo)網(wǎng)站的訪問統(tǒng)計(jì)數(shù)據(jù),所述搜索引擎的市場(chǎng)占有率,用戶直接訪問量,以及網(wǎng)站冗余流量,確定所述目標(biāo)網(wǎng)站的可承受訪問總量。
5.如權(quán)利要求1-4任一項(xiàng)所述的方法,所述獲取所述目標(biāo)網(wǎng)站內(nèi)網(wǎng)頁的網(wǎng)頁質(zhì)量分布,包括: 根據(jù)所述目標(biāo)網(wǎng)站內(nèi)網(wǎng)頁的pagerank,和/或網(wǎng)頁的鏈接深度,確定網(wǎng)頁的評(píng)分; 對(duì)所述目標(biāo)網(wǎng)站內(nèi)多個(gè)網(wǎng)頁的評(píng)分進(jìn)行歸一化處理,獲得各個(gè)網(wǎng)頁對(duì)應(yīng)的質(zhì)量分布。
6.一種確定網(wǎng)站抓取流量配額的設(shè)備,包括: 網(wǎng)站訪問數(shù)據(jù)獲取單元,適于獲取待抓取目標(biāo)網(wǎng)站的受訪問數(shù)據(jù); 網(wǎng)站承受力確定單元,適于根據(jù)所述受訪問數(shù)據(jù),確定所述目標(biāo)網(wǎng)站的抓取承受流量; 網(wǎng)頁質(zhì)量分布獲取單元,適于獲取所述目標(biāo)網(wǎng)站內(nèi)網(wǎng)頁的網(wǎng)頁質(zhì)量分布; 任務(wù)流量獲取單元,適于根據(jù)所述目標(biāo)網(wǎng)站內(nèi)網(wǎng)頁的所述網(wǎng)頁質(zhì)量分布,確定抓取目標(biāo)網(wǎng)站的任務(wù)流量; 流量配額確定單元,適于根據(jù)所述目標(biāo)網(wǎng)站的抓取承受流量,以及所述抓取目標(biāo)網(wǎng)站的任務(wù)流量,確定在所述目標(biāo)網(wǎng)站上進(jìn)行網(wǎng)頁抓取的流量配額。
7.如權(quán)利要求6所述的設(shè)備,所述網(wǎng)站訪問數(shù)據(jù)獲取單元,適于: 根據(jù)搜索引擎對(duì)所述目標(biāo)網(wǎng)站的訪問統(tǒng)計(jì)數(shù)據(jù),確定所述目標(biāo)網(wǎng)站的所述受訪問數(shù)據(jù)。
8.如權(quán)利要求6或7所述的設(shè)備,所述網(wǎng)站承受力確定單元,包括: 訪問量確定子單元,適于根據(jù)所述受訪問數(shù)據(jù),確定所述目標(biāo)網(wǎng)站的可承受訪問總量; 所述網(wǎng)站承受力確定單元,適于根據(jù)所述可承受訪問總量與預(yù)置的抓取壓力系數(shù),確定所述目標(biāo)網(wǎng)站的抓取承受流量。
9.如權(quán)利要求6-8任一項(xiàng)所述的設(shè)備,所述訪問量確定子單元,適于: 根據(jù)搜索引擎對(duì)所述目標(biāo)網(wǎng)站的訪問統(tǒng)計(jì)數(shù)據(jù),所述搜索引擎的市場(chǎng)占有率,用戶直接訪問量,以及網(wǎng)站冗余流量,確定所述目標(biāo)網(wǎng)站的可承受訪問總量。
10.如權(quán)利要求6-9任一項(xiàng)所述的設(shè)備,所述網(wǎng)頁質(zhì)量分布獲取單元,適于: 根據(jù)所述目標(biāo)網(wǎng)站內(nèi)網(wǎng)頁的pagerank,和/或網(wǎng)頁的鏈接深度,確定網(wǎng)頁的評(píng)分; 對(duì)所述目標(biāo)網(wǎng)站 內(nèi)多個(gè)網(wǎng)頁的評(píng)分進(jìn)行歸一化處理,獲得各個(gè)網(wǎng)頁對(duì)應(yīng)的質(zhì)量分布。
【文檔編號(hào)】G06F17/30GK103544278SQ201310500682
【公開日】2014年1月29日 申請(qǐng)日期:2013年10月22日 優(yōu)先權(quán)日:2013年10月22日
【發(fā)明者】魏少俊 申請(qǐng)人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
兰州市| 郑州市| 纳雍县| 峨山| 百色市| 安达市| 龙岩市| 体育| 汶川县| 县级市| 东港市| 澜沧| 威远县| 青州市| 白水县| 潞西市| 旌德县| 资溪县| 兴业县| 曲麻莱县| 都安| 娱乐| 静乐县| 柳林县| 碌曲县| 高淳县| 涿州市| 望江县| 方山县| 江永县| 东宁县| 义马市| 云和县| 两当县| 原阳县| 连州市| 余姚市| 景宁| 景宁| 武夷山市| 囊谦县|