確定移動站點抓取配額的方法和裝置制造方法
【專利摘要】本發(fā)明公開了一種確定移動站點抓取配額的方法和裝置,其中,方法包括:查找與目標移動站點對應的PC站點;獲取所述PC站點的抓取配額;根據(jù)所述PC站點的抓取配額確定所述目標移動站點的抓取配額。根據(jù)該方案,能夠取得更高的抓取效率,不會占用過多的移動站點服務器資源,影響移動站點服務器的正常業(yè)務,同時保證了較高的抓取效率,及時為搜索用戶提供最新的搜索結果。并且移動站點的配額可根據(jù)PC站點直接得出,計算過程快捷。
【專利說明】確定移動站點抓取配額的方法和裝置
【技術領域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)【技術領域】,具體涉及一種確定移動站點抓取配額的方法和裝置。
【背景技術】
[0002]搜索引擎通過蜘蛛程序抓取互聯(lián)網(wǎng)網(wǎng)頁內容,收錄網(wǎng)頁至索引庫中。搜索引擎在收錄互聯(lián)網(wǎng)資源的時候,需要根據(jù)站點的情況、用戶訪問情況、搜索引擎的需求情況等來計算蜘蛛每天需要訪問站點的頻次。對不同的站點,搜索引擎的蜘蛛的訪問頻次是不同的。搜索引擎每天需要訪問站點的頻次數(shù)稱為蜘蛛程序分配給此站點的配額。
[0003]PC站點的配額計算已經(jīng)有了一套比較成熟的方法,因為PC站點的數(shù)據(jù)比較齊全,比如用戶的訪問情況、用戶在搜索引擎的搜索點擊情況、蜘蛛訪問站點的歷史信息、站點質量信息等。搜索引擎根據(jù)站點的上述數(shù)據(jù)為站點計算合適的配額。
[0004]對移動站點,現(xiàn)有技術一般采用與PC站點相同的方式,根據(jù)已有的移動站點配額數(shù)據(jù),為移動站點配額計算設定一個默認值,然后逐漸調整。但對于移動站點,尤其是剛剛開始收錄移動資源的搜索引擎,用于配額計算的數(shù)據(jù)較少,不能計算出合適的抓取配額。蜘蛛對網(wǎng)頁進行抓取時,會占用網(wǎng)站服務器的資源,帶寬等。如果配額過高,抓取行為占據(jù)過多服務器資源,就可能影響網(wǎng)站的正常業(yè)務。而且,網(wǎng)站服務器還可能監(jiān)控抓取行為,抓取頻次過高時,限制或禁止蜘蛛的抓取,使得搜索引擎無法及時收錄該網(wǎng)頁。而配額過低時,抓取效率較低,網(wǎng)頁收錄不及時,無法為用戶提供最新的搜索結果。
【發(fā)明內容】
[0005]鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的確定移動站點抓取配額的方法和裝置。
[0006]根據(jù)本發(fā)明的一個方面,提供了一種確定移動站點抓取配額的方法,包括:查找與目標移動站點對應的PC站點;獲取所述PC站點的抓取配額;根據(jù)所述PC站點的抓取配額確定所述目標移動站點的抓取配額。
[0007]可選地,所述查找與目標移動站點對應的PC站點進一步包括:
[0008]根據(jù)所述目標移動站點的URL獲取目標移動站點的域名特征;
[0009]獲取具有與所述目標移動站點相同域名特征的PC站點;
[0010]計算所述目標移動站點的內容與所述具有相同域名特征的PC站點的內容之間的相似度;
[0011 ] 根據(jù)所述相似度確定與所述目標移動站點對應的PC站點。
[0012]可選地,獲取所述PC站點的抓取配額進一步為:根據(jù)所述PC站點的配額計算信息計算所述PC站點的抓取配額;
[0013]可選地,所述PC站點的配額計算信息包括以下信息的一種或多種:PC站點的用戶訪問數(shù)據(jù),PC站點在搜索結果中的點擊量,PC站點的網(wǎng)頁質量信息,以及搜索引擎對PC站點的歷史抓取記錄。
[0014]可選地,所述根據(jù)所述PC站點的配額計算信息計算所述PC站點的抓取配額進一步包括:
[0015]根據(jù)所述PC站點的用戶訪問數(shù)據(jù),確定所述PC站點的抓取承受流量;
[0016]根據(jù)所述PC站點內網(wǎng)頁的網(wǎng)頁質量信息,確定所述PC站點的任務流量;
[0017]根據(jù)所述PC站點的抓取承受流量和所述PC站點的任務流量,確定所述PC站點的抓取配額。
[0018]可選地,所述根據(jù)所述PC站點的抓取配額確定所述目標移動站點的抓取配額進一步包括:
[0019]將所述PC站點的抓取配額乘以預設系數(shù)作為所述目標移動站點的初始抓取配額。
[0020]可選地,所述方法還包括:
[0021]根據(jù)所述目標移動站點的配額計算信息調整所述預設系數(shù);
[0022]可選地,所述目標移動站點的配額計算信息包括以下信息的一種或多種:目標移動站點的用戶訪問數(shù)據(jù),目標移動站點在搜索結果中的點擊量,目標移動站點的網(wǎng)頁質量信息,以及搜索引擎對目標移動站點的歷史抓取記錄。
[0023]根據(jù)本發(fā)明的另一方面,提供了一種確定移動站點抓取配額的裝置,包括:
[0024]查找模塊,適于查找與目標移動站點對應的PC站點;
[0025]獲取模塊,適于獲取PC站點的抓取配額;
[0026]配額模塊,適于根據(jù)PC站點的抓取配額計算目標移動站點的抓取配額。
[0027]可選地,所述查找模塊進一步包括:
[0028]特征獲取單元,適于根據(jù)所述目標移動站點的URL獲取目標移動站點的域名特征;
[0029]查找單元,適于查找具有與所述目標移動站點相同域名特征的PC站點;
[0030]相似度計算單元,適于計算所述目標移動站點的內容與所述具有相同域名特征的PC站點的內容之間的相似度;
[0031]關聯(lián)單元,適于根據(jù)所述相似度確定與所述目標移動站點對應的PC站點。
[0032]可選地,所述獲取模塊進一步適于:根據(jù)所述PC站點的配額計算信息計算所述PC站點的抓取配額;
[0033]其中,所述PC站點的配額計算信息包括以下信息的一種或多種:PC站點的用戶訪問數(shù)據(jù),PC站點在搜索結果中的點擊量,PC站點的網(wǎng)頁質量信息,以及搜索引擎對PC站點的歷史抓取記錄。
[0034]可選地,所述獲取模塊進一步包括:
[0035]第一計算單元,適于根據(jù)所述PC站點的用戶訪問數(shù)據(jù),確定所述PC站點的抓取承受流量;
[0036]第二計算單元,適于根據(jù)所述PC站點內網(wǎng)頁的網(wǎng)頁質量信息,確定所述PC站點的任務流量;
[0037]PC配額單元,適于根據(jù)所述PC站點的抓取承受流量和所述PC站點的任務流量,確定所述PC站點的抓取配額。
[0038]可選地,所述配額模塊進一步適于:將所述PC站點的抓取配額乘以預設系數(shù)作為所述目標移動站點的初始抓取配額。
[0039]可選地,所述裝置還包括:
[0040]調整模塊,適于根據(jù)所述目標移動站點的配額計算信息調整所述預設系數(shù);
[0041]可選地,所述目標移動站點的配額計算信息包括以下信息的一種或多種:目標移動站點的用戶訪問數(shù)據(jù),目標移動站點在搜索結果中的點擊量,目標移動站點的網(wǎng)頁質量信息,以及搜索引擎對目標移動站點的歷史抓取記錄。
[0042]根據(jù)本發(fā)明的確定移動站點抓取配額的方法和裝置,查找與目標移動站點對應的PC站點;獲取PC站點的抓取配額;根據(jù)該PC站點的抓取配額確定目標移動站點的抓取配額。本發(fā)明通過發(fā)現(xiàn)移動站點和對應PC站點抓取配額的相似性,從而充分利用了與移動站點對應的PC站點的較完善配額信息,結合移動站點配額信息,共同為移動站點確定合適的配額。根據(jù)該方案,能夠取得更高的抓取效率,不會占用過多的移動站點服務器資源,影響移動站點服務器的正常業(yè)務,同時保證了較高的抓取效率,及時為搜索用戶提供最新的搜索結果。并且移動站點的配額可根據(jù)PC站點直接得出,計算過程快捷。
[0043]上述說明僅是本發(fā)明技術方案的概述,為了能夠更清楚了解本發(fā)明的技術手段,而可依照說明書的內容予以實施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點能夠更明顯易懂,以下特舉本發(fā)明的【具體實施方式】。
【專利附圖】
【附圖說明】
[0044]通過閱讀下文優(yōu)選實施方式的詳細描述,各種其他的優(yōu)點和益處對于本領域普通技術人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的,而并不認為是對本發(fā)明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
[0045]圖1示出了根據(jù)本發(fā)明一個實施例的確定移動站點抓取配額的方法的流程圖;
[0046]圖2示出了根據(jù)本發(fā)明另一個實施例的確定移動站點專區(qū)配額的方法的流程圖;
[0047]圖3示出了根據(jù)本發(fā)明一個實施例的確定移動站點抓取配額的裝置的結構框圖;
[0048]圖4示出了根據(jù)本發(fā)明另一個實施例的確定移動站點抓取配額的裝置的結構框圖。
【具體實施方式】
[0049]下面將參照附圖更詳細地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例,然而應當理解,可以以各種形式實現(xiàn)本公開而不應被這里闡述的實施例所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,并且能夠將本公開的范圍完整的傳達給本領域的技術人員。
[0050]圖1示出了根據(jù)本發(fā)明一個實施例的確定移動站點抓取配額的方法的流程圖,如圖1所示,方法包括如下步驟:
[0051 ] 步驟SI 10,查找與目標移動站點對應的PC站點。
[0052]PC站點是指適合在普通電腦設備上顯示的站點,移動站點是指適合在移動設備,例如手機、平板電腦上顯示的站點。
[0053]通過分析當前互聯(lián)網(wǎng)站點的特點,發(fā)現(xiàn)移動站點一般具有對應的PC站點。并且與移動站點相比,搜索引擎對PC站點的收錄更為全面,可供配額計算使用的數(shù)據(jù)也更全面。
[0054]一般地,移動站點與對應的PC站點的URL具有類似的URL,而帶有一些移動站點的特征,如包含3g, mobile, m, wap等字符。一種查找目標移動站點對應的PC站點的方法是根據(jù)目標移動站點的URL特征進行PC站點的查找。
[0055]部分移動站點能夠根據(jù)訪問設備的不同返回不同的網(wǎng)頁,例如,用電腦訪問移動站點時,http請求中帶有UA(用戶代理)信息,UA信息中包含瀏覽器類型,操作系統(tǒng)類型,設備類型等。移動站點根據(jù)此次訪問的UA信息返回來的網(wǎng)頁是一個適合顯示的網(wǎng)頁。例如,PC端訪問移動站點http://m.s0.com/,網(wǎng)站服務器根據(jù)請求中的UA信息,得知訪問來自PC設備而非移動設備,而返回PC站點http://www.s0.com。
[0056]本發(fā)明中也可以通過這種方式查找PC站點,具體地,通過PC的用戶代理向目標移動站點發(fā)起請求,如果返回的是PC站點,將返回的PC站點作為與目標移動站點對應的PC站點。
[0057]查找到移動站點對應的PC站點后,還可以在數(shù)據(jù)庫中將PC站點與移動站點關聯(lián),則下次查找時,直接查詢數(shù)據(jù)庫即可。
[0058]步驟S120,獲取與目標移動站點對應的PC站點的抓取配額。
[0059]搜索引擎收錄PC站點和移動站點。在確定移動站點抓取配額時,PC站點的抓取配額是已經(jīng)計算過的。
[0060]PC站點的抓取配額隨訪問情況,歷史信息等變化。當需要重新計算PC站點的抓取配額時,可根據(jù)PC站點的配額計算信息計算PC站點的抓取配額。其中,PC站點的配額計算信息包括以下信息的一種或多種:PC站點的用戶訪問數(shù)據(jù),PC站點在搜索結果中的點擊量,PC站點的網(wǎng)頁質量信息,以及搜索引擎對PC站點的歷史抓取記錄。
[0061]本發(fā)明將PC站點的抓取配額,及配額信息作為移動站點配額計算的參考,而對PC站點抓取配額的計算方式不做限制。
[0062]步驟S130,根據(jù)PC站點的抓取配額確定目標移動站點的抓取配額。
[0063]通過分析當前互聯(lián)網(wǎng)站點的特點,發(fā)現(xiàn)移動站點的配額計算信息與對應PC站點的配額計算信息具較高的關聯(lián)性。例如,若PC站點的訪問量較高,則相應移動站點的訪問量也較高,若PC站點的網(wǎng)頁質量較高,則相應移動站點的訪問量也較高,并且PC站點和相應移動站點的類型也相同,例如,PC站點是新聞網(wǎng)站,則相應移動站點也是新聞網(wǎng)站。
[0064]根據(jù)這種關聯(lián)性,本發(fā)明對PC站點和移動站點進行類比,利用PC站點的配額或配額計算信息獲取相應移動站點的配額。
[0065]具體地,可以為移動站點的抓取配額和PC站點的抓取配額設置一個比例系數(shù)。將PC站點的抓取配額乘以該系數(shù)得到移動站點的抓取配額。該系數(shù)與移動站點的抓取配額和/或PC站點的抓取配額有關,可以是固定值或隨時間變化,例如,根據(jù)一定時間內PC站點和移動站點的用戶訪問量的比例確定該系數(shù)。
[0066]根據(jù)本發(fā)明上述實施例提供的方法,查找與目標移動站點對應的PC站點;獲取所述PC站點的抓取配額;根據(jù)所述PC站點的抓取配額確定所述目標移動站點的抓取配額。根據(jù)該方案,取得更高的抓取效率,不會占用過多的移動站點服務器資源,影響移動站點服務器的正常業(yè)務,同時保證了較高的抓取效率,及時為搜索用戶提供最新的搜索結果。并且移動站點的抓取配額可直接由PC站點的抓取配額獲取,減少了計算量,更加快速。
[0067]圖2示出了根據(jù)本發(fā)明另一個實施例的確定移動站點專區(qū)配額的方法的流程圖,如圖2所示,方法包括如下步驟:
[0068]步驟S210,根據(jù)目標移動站點的URL獲取目標移動站點的域名特征。
[0069]移動站點與對應的PC站點的URL具有類似的URL,例如,移動站點http: //m.s0.com/ 對應于 PC 站點 http://www.s0.com/。類似地,還有移動站點 3g.163.com,m.jd.com,wap.ganj1.com,分別都包含有與PC站點相同的域名特征so, 163, jd, ganji等。從移動站點的URL提取出這種作為站點標識的域名特征。
[0070]步驟S220,查找具有與目標移動站點相同域名特征的PC站點。
[0071]從已收錄的PC站點集合中查找具有與目標移動站點相同域名特征的PC站點。
[0072]步驟S230,計算目標移動站點的內容與具有相同域名特征的PC站點的內容之間的相似度。
[0073]對一個目標移動站點,具有相同域名特征的PC站點可能有多個,通過比對站點內容作進一步的判斷。
[0074]具體地,可通過比較移動站點和PC站點間的關鍵詞,站點頁面中包含的鏈接名稱、URL,以及頁面元素等計算站點之間的相似度。
[0075]若相似度大于預先設定閾值,將該站點確定為與目標移動站點對應的PC站點,執(zhí)行步驟S240。
[0076]該實施例中,通過步驟S210-S230完成對目標移動站點對應PC站點的查找。
[0077]步驟S240,根據(jù)對應PC站點的用戶訪問數(shù)據(jù),確定PC站點的抓取承受流量。
[0078]PC站點的用戶訪問數(shù)據(jù)可以從多方面獲取,如可以通過網(wǎng)站排名公布數(shù)據(jù)中獲取。另外,用戶瀏覽網(wǎng)頁常常是通過瀏覽器軟件進行的,所以也可以對用戶通過瀏覽器瀏覽的網(wǎng)頁進行統(tǒng)計,再根據(jù)瀏覽器在當前市場上的占有率,確定網(wǎng)站的訪問承受力。例如,通過瀏覽器統(tǒng)計到某網(wǎng)站的每日訪問量為150萬次,而該瀏覽器的當前市場占有率為15%,則可以確定該網(wǎng)站的日訪問總量為1000萬次,即該網(wǎng)站的訪問承受力為至少1000萬次。
[0079]還可以根據(jù)搜索引擎對PC站點的訪問統(tǒng)計數(shù)據(jù),確定PC站點的受訪問數(shù)據(jù),這是因為在用戶瀏覽網(wǎng)頁的過程中,經(jīng)常需要通過搜索引擎來訪問網(wǎng)頁,即通過搜索引擎提供的搜索結果進行跳轉來訪問網(wǎng)頁,搜索引擎可以對訪問的網(wǎng)頁進行統(tǒng)計,進而對通過搜索引擎訪問網(wǎng)站的點擊量進行統(tǒng)計,即根據(jù)搜索引擎統(tǒng)計的PC站點的訪問統(tǒng)計數(shù)據(jù),PC站點的受訪問數(shù)據(jù)。具體的,可以通過搜索引擎訪問PC站點的訪問量,除以該搜索引擎的市場占有率,作為該站點的受訪問數(shù)據(jù)。如統(tǒng)計到用戶通過搜索引擎跳轉訪問某網(wǎng)站的每日訪問量為150次,而該搜索引擎的當前市場占有率為15%,則可以確定該站點的日訪問總量為1000萬次,即該站點的訪問承受力為至少1000萬次。
[0080]此外,也可以結合使用多種方法或途徑,來獲取更加精確的PC站點的用戶訪問數(shù)據(jù)。例如結合使用上述的兩種方法,即將客戶端瀏覽器軟件的統(tǒng)計數(shù)據(jù)與搜索引擎統(tǒng)計數(shù)據(jù)結合起來,可以同時確定用戶通過搜索引擎跳轉以及非搜索引擎跳轉訪問PC網(wǎng)站的數(shù)據(jù),將兩者結合起來可以獲取更加精確的PC網(wǎng)站的用戶訪問數(shù)據(jù)。需要說明的是,站點的用戶訪問數(shù)據(jù)一般以單位時間內站點的受訪問次數(shù)來表示,如前面的描述中,是以站點的每日訪問量來描述的,當然,也可以根據(jù)具體應用情況使用其他的時間單位,如一小時內網(wǎng)站的受訪問次數(shù),本發(fā)明對此并沒有限制。
[0081]在實際應用中,可以直接將獲取到的單位時間內PC站點的用戶訪問量作為PC站點的抓取承受流量。但網(wǎng)站提供的服務常常以用戶瀏覽為主,如果直接將獲取到的網(wǎng)站的單位時間訪問量作為網(wǎng)站的抓取承受流量,有可能會超出網(wǎng)站對于蜘蛛程序抓取的承受上限,因此,在PC站點的用戶訪問數(shù)據(jù)乘以一個系數(shù),得到PC站點的抓取承受流量。該系數(shù)可以是一個百分比系數(shù),其取值范圍為(0,100%)。例如某網(wǎng)站的通過搜索引擎跳轉的每日訪問量為150次,預置的抓取壓力系數(shù)為30%,則最后確定的PC站點的抓取承受流量為45萬次每日。
[0082]步驟S250,根據(jù)PC站點內網(wǎng)頁的網(wǎng)頁質量信息,確定PC站點的任務流量。
[0083]步驟S240中獲取了 PC站點的抓取承受流量,這個PC站點的抓取承受流量可以理解為根據(jù)站點的訪問數(shù)據(jù)獲取的站點能夠承受蜘蛛程序抓取的預測值。除此之外,還需要知道蜘蛛程序對PC站點進行抓取的任務情況,即PC站點的任務流量。具體地,任務流量根據(jù)PC站點內網(wǎng)頁的網(wǎng)頁質量信息獲取,網(wǎng)頁質量信息包括網(wǎng)頁的pagerank信息和網(wǎng)頁鏈接深度等。
[0084]具體地,該步驟可以包括:獲取PC站點內所有已收錄網(wǎng)頁的網(wǎng)頁質量分布的總和,根據(jù)PC站點內所有網(wǎng)頁的網(wǎng)頁質量分布的總和,確定抓取PC站點的任務流量。
[0085]對于搜索引擎來說,可以獲取PC站點內所有已收錄網(wǎng)頁的網(wǎng)頁質量分布,進而獲取PC站點內所有已收錄網(wǎng)頁的網(wǎng)頁質量分布的總和,根據(jù)PC站點內所有網(wǎng)頁的網(wǎng)頁質量分布的總和,確定PC站點的任務流量。具體地,可以獲取PC站點中待抓取的網(wǎng)頁數(shù)占PC站點中已收錄網(wǎng)頁總數(shù)的比例;和/或,獲取PC站點中不重復的網(wǎng)頁數(shù)量占PC站點中網(wǎng)頁總數(shù)的比例。然后根據(jù)網(wǎng)頁質量分布的總和與一個或多個任務比例因子的乘積,確定抓取PC站點的任務流量。
[0086]需要說明的是,步驟S240和步驟S250之間沒有明確的順序限制,也可以先確定PC站點的網(wǎng)頁質量信息,獲取PC站點的任務流量,然后獲取PC站點的承受流量,或同步進行。
[0087]步驟S260,根據(jù)PC站點的抓取承受流量和PC站點的任務流量,確定PC站點的抓取配額。
[0088]在獲取到PC站點的抓取承受流量,以及抓取PC站點的任務流量后,可以根據(jù)這兩者確定在PC站點上進行網(wǎng)頁抓取的配額。具體地,可以對兩者進行比較,將較小一個作為在PC站點進行網(wǎng)頁抓取的配額。當然也可以采用其他的配額計算方式,此處不做贅述。
[0089]步驟S270,將PC站點的抓取配額乘以預設系數(shù)作為目標移動站點的初始抓取配額。
[0090]該預設系數(shù)與移動站點的抓取配額和/或PC站點的抓取配額有關。例如,根據(jù)PC站點和移動站點的訪問比例等確定。
[0091]可選地,步驟S270還包括:根據(jù)目標移動站點的配額計算信息調整預設系數(shù)。例如,根據(jù)目標移動站點的訪問量與PC站點訪問量的比例變化調整所述預設系數(shù)。
[0092]與PC站點的配額信息類似地,目標移動站點的配額計算信息包括以下信息的一種或多種:目標移動站點的用戶訪問數(shù)據(jù),目標移動站點在搜索結果中的點擊量,目標移動站點的網(wǎng)頁質量信息,以及搜索引擎對目標移動站點的歷史抓取記錄。
[0093]根據(jù)本發(fā)明上述實施例提供的方法,通過URL特征查找與目標移動站點對應的PC站點;根據(jù)PC站點的配額計算信息計算PC站點的抓取配額;根據(jù)所述PC站點的抓取配額確定所述目標移動站點的抓取配額。根據(jù)該方案,不會占用過多的移動站點服務器資源,影響移動站點服務器的正常業(yè)務,同時保證了較高的抓取效率,及時為搜索用戶提供最新的搜索結果。并且移動站點的抓取配額可直接由PC站點的抓取配額獲取,減少了計算量,更加快速。
[0094]圖3示出了根據(jù)本發(fā)明一個實施例的確定移動站點抓取配額的裝置的結構框圖,如圖3所示,裝置包括:
[0095]查找模塊310,適于查找與目標移動站點對應的PC站點。
[0096]PC站點是指適合在普通電腦設備上顯示的站點,移動站點是指適合在移動設備,例如手機、平板電腦上顯示的站點。
[0097]通過分析當前互聯(lián)網(wǎng)站點的特點,發(fā)現(xiàn)移動站點一般具有對應的PC站點。并且與移動站點相比,搜索引擎對PC站點的收錄更為全面,可供配額計算使用的數(shù)據(jù)也更全面。
[0098]一般地,移動站點與對應的PC站點的URL具有類似的URL,而帶有一些移動站點的特征,如包含3g, mobile, m, wap等字符。
[0099]可選地,查找模塊310根據(jù)目標移動站點的URL特征進行PC站點的查找。
[0100]部分移動站點能夠根據(jù)訪問設備的不同返回不同的網(wǎng)頁,例如,用電腦訪問移動站點時,http請求中帶有UA(用戶代理)信息,UA信息中包含瀏覽器類型,操作系統(tǒng)類型,設備類型等。移動站點根據(jù)此次訪問的UA信息返回來的網(wǎng)頁是一個適合顯示的網(wǎng)頁。例如,PC端訪問移動站點http://m.s0.com/,網(wǎng)站服務器根據(jù)請求中的UA信息,得知訪問來自PC設備而非移動設備,而返回PC站點http://www.s0.com。
[0101]查找模塊310也可以通過這種方式查找PC站點,具體地,通過PC的用戶代理向目標移動站點發(fā)起請求,如果返回的是PC站點,將返回的PC站點作為與目標移動站點對應的PC站點。
[0102]查找模塊310查找到移動站點對應的PC站點后,還可以在數(shù)據(jù)庫中將PC站點與移動站點關聯(lián),則下次查找時,直接查詢數(shù)據(jù)庫即可。
[0103]獲取模塊320,適于獲取PC站點的抓取配額。
[0104]搜索引擎收錄PC站點和移動站點。在確定移動站點抓取配額時,PC站點的抓取配額是已經(jīng)計算過的。
[0105]獲取模塊320獲取已知的PC站點的抓取配額,或者在抓取配額未知或PC站點的配額變化時根據(jù)PC站點的配額計算信息計算PC站點的抓取配額。
[0106]其中,PC站點的配額計算信息包括以下信息的一種或多種:PC站點的用戶訪問數(shù)據(jù),PC站點在搜索結果中的點擊量,PC站點的網(wǎng)頁質量信息,以及搜索引擎對PC站點的歷史抓取記錄。
[0107]配額模塊330,適于根據(jù)PC站點的抓取配額計算目標移動站點的抓取配額。
[0108]通過分析當前互聯(lián)網(wǎng)站點的特點,發(fā)現(xiàn)移動站點的配額計算信息與對應PC站點的配額計算信息具較高的關聯(lián)性。例如,若PC站點的訪問量較高,則相應移動站點的訪問量也較高,若PC站點的網(wǎng)頁質量較高,則相應移動站點的訪問量也較高,并且PC站點和相應移動站點的類型也相同,例如,PC站點是新聞網(wǎng)站,則相應移動站點也是新聞網(wǎng)站。
[0109]根據(jù)這種關聯(lián)性,本發(fā)明對PC站點和移動站點進行類比,利用PC站點的配額或配額計算信息獲取相應移動站點的配額。
[0110]具體地,配額模塊330可以為移動站點的抓取配額和PC站點的抓取配額設置一個比例系數(shù)。將PC站點的抓取配額乘以該系數(shù)得到移動站點的抓取配額。該系數(shù)與移動站點的抓取配額和/或PC站點的抓取配額有關,可以是固定值或隨時間變化,例如,根據(jù)一定時間內PC站點和移動站點的用戶訪問量的比例確定該系數(shù)。
[0111]圖4示出了根據(jù)本發(fā)明一個實施例的確定移動站點抓取配額的裝置的結構框圖,如圖4所示,裝置包括:
[0112]查找模塊410,適于查找與目標移動站點對應的PC站點。
[0113]可選地,查找模塊410進一步包括:
[0114]特征獲取單元4101,適于根據(jù)所述目標移動站點的URL獲取目標移動站點的域名特征。
[0115]移動站點與對應的PC站點的URL具有類似的URL,例如,移動站點http://m.s0.com/ 對應于 PC 站點 http://www.s0.com/。類似地,還有移動站點 3g.163.com,m.jd.com,wap.ganj1.com,分別都包含有與PC站點相同的域名特征so, 163, jd, ganji等。
[0116]特征獲取單元4101從移動站點的URL提取出這種作為站點標識的域名特征。
[0117]查找單元4102,適于獲取具有與所述目標移動站點相同域名特征的PC站點。
[0118]具體地,查找單元4102從已收錄的PC站點集合中查找具有與目標移動站點相同域名特征的PC站點。
[0119]相似度計算單元4103,適于計算所述目標移動站點的內容與所述具有相同域名特征的PC站點的內容之間的相似度。
[0120]具體地,相似度計算單元4103可通過比較移動站點和PC站點間的關鍵詞,站點頁面中包含的鏈接名稱、URL,以及頁面元素等計算站點之間的相似度。
[0121]關聯(lián)單元4104,適于根據(jù)目標移動站點與對應的PC站點的網(wǎng)頁內容相似度確定與目標移動站點對應的PC站點。
[0122]獲取模塊420,適于獲取PC站點的抓取配額。
[0123]可選地,獲取模塊420獲取已知的PC站點的抓取配額,或者在抓取配額未知或PC站點的配額變化時根據(jù)PC站點的配額計算信息計算PC站點的抓取配額。
[0124]其中,PC站點的配額計算信息包括以下信息的一種或多種:PC站點的用戶訪問數(shù)據(jù),PC站點在搜索結果中的點擊量,PC站點的網(wǎng)頁質量信息,以及搜索引擎對PC站點的歷史抓取記錄。
[0125]可選地,獲取模塊420進一步包括:
[0126]第一計算單元4201,適于根據(jù)PC站點的用戶訪問數(shù)據(jù),確定PC站點的抓取承受流量。
[0127]第一計算單元4201可以從多方面獲取PC站點的用戶訪問數(shù)據(jù),如可以通過網(wǎng)站排名公布數(shù)據(jù)中獲取。另外,用戶瀏覽網(wǎng)頁常常是通過瀏覽器軟件進行的,所以也可以對用戶通過瀏覽器瀏覽的網(wǎng)頁進行統(tǒng)計,再根據(jù)瀏覽器在當前市場上的占有率,確定網(wǎng)站的訪問承受力。例如,通過瀏覽器統(tǒng)計到某網(wǎng)站的每日訪問量為150萬次,而該瀏覽器的當前市場占有率為15%,則可以確定該網(wǎng)站的日訪問總量為1000萬次,即該網(wǎng)站的訪問承受力為至少1000萬次。
[0128]第二計算單元4202,適于根據(jù)PC站點內網(wǎng)頁的網(wǎng)頁質量信息,確定PC站點的任務流量。
[0129]第二計算單元4202獲取PC站點內所有已收錄網(wǎng)頁的網(wǎng)頁質量分布的總和,根據(jù)PC站點內所有網(wǎng)頁的網(wǎng)頁質量分布的總和,確定抓取PC站點的任務流量。
[0130]具體地,第二計算單元4202獲取PC站點內所有已收錄網(wǎng)頁的網(wǎng)頁質量分布,進而獲取PC站點內所有已收錄網(wǎng)頁的網(wǎng)頁質量分布的總和,根據(jù)PC站點內所有網(wǎng)頁的網(wǎng)頁質量分布的總和,確定PC站點的任務流量。具體地,可以獲取PC站點中待抓取的網(wǎng)頁數(shù)占PC站點中已收錄網(wǎng)頁總數(shù)的比例;和/或,獲取PC站點中不重復的網(wǎng)頁數(shù)量占PC站點中網(wǎng)頁總數(shù)的比例。然后根據(jù)網(wǎng)頁質量分布的總和與一個或多個任務比例因子的乘積,確定抓取PC站點的任務流量。
[0131]PC配額單元4203,適于根據(jù)PC站點的抓取承受流量和PC站點的任務流量,確定PC站點的抓取配額。
[0132]配額模塊430,適于根據(jù)PC站點的抓取配額計算目標移動站點的抓取配額。
[0133]具體地,配額模塊430可以對兩者進行比較,將較小一個作為在PC站點進行網(wǎng)頁抓取的配額。
[0134]可選地,配額模塊430進一步適于:將PC站點的抓取配額乘以預設系數(shù)作為目標移動站點的初始抓取配額。
[0135]可選地,裝置還包括:
[0136]調整模塊440,適于根據(jù)目標移動站點的配額計算信息調整預設系數(shù);
[0137]與PC站點的配額信息類似,目標移動站點的配額計算信息包括以下信息的一種或多種:目標移動站點的用戶訪問數(shù)據(jù),目標移動站點在搜索結果中的點擊量,目標移動站點的網(wǎng)頁質量信息,以及搜索引擎對目標移動站點的歷史抓取記錄。
[0138]根據(jù)本發(fā)明上述實施例提供的確定移動站點抓取配額的裝置,查找與目標移動站點對應的PC站點;獲取所述PC站點的抓取配額;根據(jù)所述PC站點的抓取配額確定所述目標移動站點的抓取配額。根據(jù)該方案,取得更高的抓取效率,不會占用過多的移動站點服務器資源,影響移動站點服務器的正常業(yè)務,同時保證了較高的抓取效率,及時為搜索用戶提供最新的搜索結果。并且移動站點的抓取配額可直接由PC站點的抓取配額獲取,減少了計算量,更加快捷迅速。
[0139]在此提供的算法和顯示不與任何特定計算機、虛擬系統(tǒng)或者其它設備固有相關。各種通用系統(tǒng)也可以與基于在此的示教一起使用。根據(jù)上面的描述,構造這類系統(tǒng)所要求的結構是顯而易見的。此外,本發(fā)明也不針對任何特定編程語言。應當明白,可以利用各種編程語言實現(xiàn)在此描述的本發(fā)明的內容,并且上面對特定語言所做的描述是為了披露本發(fā)明的最佳實施方式。
[0140]在此處所提供的說明書中,說明了大量具體細節(jié)。然而,能夠理解,本發(fā)明的實施例可以在沒有這些具體細節(jié)的情況下實踐。在一些實例中,并未詳細示出公知的方法、結構和技術,以便不模糊對本說明書的理解。
[0141]類似地,應當理解,為了精簡本公開并幫助理解各個發(fā)明方面中的一個或多個,在上面對本發(fā)明的示例性實施例的描述中,本發(fā)明的各個特征有時被一起分組到單個實施例、圖、或者對其的描述中。然而,并不應將該公開的方法解釋成反映如下意圖:即所要求保護的本發(fā)明要求比在每個權利要求中所明確記載的特征更多的特征。更確切地說,如下面的權利要求書所反映的那樣,發(fā)明方面在于少于前面公開的單個實施例的所有特征。因此,遵循【具體實施方式】的權利要求書由此明確地并入該【具體實施方式】,其中每個權利要求本身都作為本發(fā)明的單獨實施例。
[0142]本領域那些技術人員可以理解,可以對實施例中的設備中的模塊進行自適應性地改變并且把它們設置在與該實施例不同的一個或多個設備中??梢园褜嵤├械哪K或單元或組件組合成一個模塊或單元或組件,以及此外可以把它們分成多個子模塊或子單元或子組件。除了這樣的特征和/或過程或者單元中的至少一些是相互排斥之外,可以采用任何組合對本說明書(包括伴隨的權利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者設備的所有過程或單元進行組合。除非另外明確陳述,本說明書(包括伴隨的權利要求、摘要和附圖)中公開的每個特征可以由提供相同、等同或相似目的的替代特征來代替。
[0143]此外,本領域的技術人員能夠理解,盡管在此所述的一些實施例包括其它實施例中所包括的某些特征而不是其它特征,但是不同實施例的特征的組合意味著處于本發(fā)明的范圍之內并且形成不同的實施例。例如,在下面的權利要求書中,所要求保護的實施例的任意之一都可以以任意的組合方式來使用。
[0144]本發(fā)明的各個部件實施例可以以硬件實現(xiàn),或者以在一個或者多個處理器上運行的軟件模塊實現(xiàn),或者以它們的組合實現(xiàn)。本領域的技術人員應當理解,可以在實踐中使用微處理器或者數(shù)字信號處理器(DSP)來實現(xiàn)根據(jù)本發(fā)明實施例的確定移動站點抓取配額的裝置中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設備或者裝置程序(例如,計算機程序和計算機程序產(chǎn)品)。這樣的實現(xiàn)本發(fā)明的程序可以存儲在計算機可讀介質上,或者可以具有一個或者多個信號的形式。這樣的信號可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號上提供,或者以任何其他形式提供。
[0145]應該注意的是上述實施例對本發(fā)明進行說明而不是對本發(fā)明進行限制,并且本領域技術人員在不脫離所附權利要求的范圍的情況下可設計出替換實施例。在權利要求中,不應將位于括號之間的任何參考符號構造成對權利要求的限制。單詞“包含”不排除存在未列在權利要求中的元件或步驟。位于元件之前的單詞“一”或“一個”不排除存在多個這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當編程的計算機來實現(xiàn)。在列舉了若干裝置的單元權利要求中,這些裝置中的若干個可以是通過同一個硬件項來具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序。可將這些單詞解釋為名稱。
【權利要求】
1.一種確定移動站點抓取配額的方法,包括: 查找與目標移動站點對應的PC站點; 獲取所述PC站點的抓取配額; 根據(jù)所述PC站點的抓取配額確定所述目標移動站點的抓取配額。
2.根據(jù)權利要求1所述的方法,其中,所述查找與目標移動站點對應的PC站點進一步包括: 根據(jù)所述目標移動站點的URL獲取目標移動站點的域名特征; 獲取具有與所述目標移動站點相同域名特征的PC站點; 計算所述目標移動站點的內容與所述具有相同域名特征的PC站點的內容之間的相似度; 根據(jù)所述相似度確定與所述目標移動站點對應的PC站點。
3.根據(jù)權利要求1所述的方法,其中,獲取所述PC站點的抓取配額進一步為:根據(jù)所述PC站點的配額計算信息計算所述PC站點的抓取配額; 其中,所述PC站點的配額計算信息包括以下信息的一種或多種:PC站點的用戶訪問數(shù)據(jù),PC站點在搜索結果中的點擊量,PC站點的網(wǎng)頁質量信息,以及搜索引擎對PC站點的歷史抓取記錄。
4.根據(jù)權利要求3所述的方法,其中,所述根據(jù)所述PC站點的配額計算信息計算所述PC站點的抓取配額進一步包括: 根據(jù)所述PC站點的用戶訪問數(shù)據(jù),確定所述PC站點的抓取承受流量; 根據(jù)所述PC站點內網(wǎng)頁的網(wǎng)頁質量信息,確定所述PC站點的任務流量; 根據(jù)所述PC站點的抓取承受流量和所述PC站點的任務流量,確定所述PC站點的抓取配額。
5.根據(jù)權利要求1或3或4所述的方法,其中,所述根據(jù)所述PC站點的抓取配額確定所述目標移動站點的抓取配額進一步包括: 將所述PC站點的抓取配額乘以預設系數(shù)作為所述目標移動站點的初始抓取配額。
6.根據(jù)權利要求5所述的方法,其中,所述方法還包括: 根據(jù)所述目標移動站點的配額計算信息調整所述預設系數(shù); 其中,所述目標移動站點的配額計算信息包括以下信息的一種或多種:目標移動站點的用戶訪問數(shù)據(jù),目標移動站點在搜索結果中的點擊量,目標移動站點的網(wǎng)頁質量信息,以及搜索引擎對目標移動站點的歷史抓取記錄。
7.一種確定移動站點抓取配額的裝置,包括: 查找模塊,適于查找與目標移動站點對應的PC站點; 獲取模塊,適于獲取所述PC站點的抓取配額; 配額模塊,適于根據(jù)所述PC站點的抓取配額計算所述目標移動站點的抓取配額。
8.根據(jù)權利要求7所述的裝置,其中,所述查找模塊進一步包括: 特征獲取單元,適于根據(jù)所述目標移動站點的URL獲取目標移動站點的域名特征; 查找單元,適于查找具有與所述目標移動站點相同域名特征的PC站點; 相似度計算單元,適于計算所述目標移動站點的內容與所述具有相同域名特征的PC站點的內容之間的相似度; 關聯(lián)單元,適于根據(jù)所述相似度確定與所述目標移動站點對應的PC站點。
9.根據(jù)權利要求1所述的裝置,其中,所述獲取模塊進一步適于:根據(jù)所述PC站點的配額計算信息計算所述PC站點的抓取配額; 其中,所述PC站點的配額計算信息包括以下信息的一種或多種:PC站點的用戶訪問數(shù)據(jù),PC站點在搜索結果中的點擊量,PC站點的網(wǎng)頁質量信息,以及搜索引擎對PC站點的歷史抓取記錄。
10.根據(jù)權利要求9所述的裝置,其中,所述獲取模塊進一步包括: 第一計算單元,適于根據(jù)所述PC站點的用戶訪問數(shù)據(jù),確定所述PC站點的抓取承受流量; 第二計算單元,適于根據(jù)所述PC站點內網(wǎng)頁的網(wǎng)頁質量信息,確定所述PC站點的任務流量; PC配額單元,適于根據(jù)所述PC站點的抓取承受流量和所述PC站點的任務流量,確定所述PC站點的抓取配額。
【文檔編號】G06F17/30GK104392000SQ201410779279
【公開日】2015年3月4日 申請日期:2014年12月15日 優(yōu)先權日:2014年12月15日
【發(fā)明者】王智廣 申請人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司