一種監(jiān)測網(wǎng)站的頁面埋點(diǎn)的方法和裝置的制造方法
【專利摘要】本發(fā)明提供一種監(jiān)測網(wǎng)站的頁面埋點(diǎn)的方法和裝置。本發(fā)明的監(jiān)測網(wǎng)站的頁面埋點(diǎn)的方法包括:初始化通用符集合,其中該通用符集合中只能存儲(chǔ)不重復(fù)的數(shù)據(jù);遍歷該網(wǎng)站的全部頁面,并且在遍歷過程中,對(duì)每個(gè)當(dāng)前頁面,執(zhí)行監(jiān)測頁面埋點(diǎn)的操作,其中,所述操作包括:提取該頁面的統(tǒng)一資源定位符;根據(jù)該統(tǒng)一資源定位符,提取通用符,通用符是由同一個(gè)模板生成的各頁面的統(tǒng)一資源定位符的共同部分;嘗試將通用符保存到通用符集合中;當(dāng)保存成功,執(zhí)行模擬請求獲取該頁面并檢查該頁面是否埋點(diǎn)。
【專利說明】
一種監(jiān)測網(wǎng)站的頁面埋點(diǎn)的方法和裝置
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及計(jì)算機(jī)及其軟件技術(shù)領(lǐng)域,特別地涉及一種監(jiān)測網(wǎng)站的頁面埋點(diǎn)的方法和裝置?!颈尘凹夹g(shù)】
[0002]流量對(duì)網(wǎng)站來說是一個(gè)非常重要的信息,流量采集系統(tǒng)是網(wǎng)站采集全站流量的工具,所采集的數(shù)據(jù),可用來幫助業(yè)務(wù)人員分析頁面的pv (page view,頁面的請求數(shù)量)、uv (user view,頁面的訪問用戶數(shù)量)、流量去向、流量轉(zhuǎn)化率等指標(biāo),同時(shí)可以幫助產(chǎn)品優(yōu)化流量分配方案。
[0003]隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展,現(xiàn)有的流量采集系統(tǒng)大多采取對(duì)需要進(jìn)行流量采集的頁面進(jìn)行埋點(diǎn)的方式來獲取用戶的行為數(shù)據(jù)。埋點(diǎn),是一段編寫好的程序代碼,主要用于流量分析,不做與頁面相關(guān)的事情而是把用戶當(dāng)前點(diǎn)擊的東西,傳到服務(wù)器以達(dá)到記錄用戶點(diǎn)擊的每一步。因此,為了統(tǒng)計(jì)網(wǎng)站的流量,需要給網(wǎng)站的頁面進(jìn)行埋點(diǎn)。
[0004]為了盡可能早的發(fā)現(xiàn)網(wǎng)站中哪些頁面沒有埋點(diǎn),防止流量統(tǒng)計(jì)不到而造成流量的浪費(fèi),需要對(duì)全站的頁面埋點(diǎn)情況進(jìn)行監(jiān)測。
[0005]現(xiàn)有的監(jiān)測手段是利用爬蟲(一種按照指定規(guī)則去抓取網(wǎng)頁內(nèi)容的程序)程序?qū)θ镜捻撁嬷鸺?jí)逐次遍歷監(jiān)測。每次執(zhí)行監(jiān)測程序過程中,同一個(gè)靜態(tài)頁面可能會(huì)被遍歷多次,但是只需檢查一次埋點(diǎn),監(jiān)測程序會(huì)做相應(yīng)的頁面去重處理。
[0006]現(xiàn)在的頁面去重主要是針對(duì)靜態(tài)頁面和固定格式的url地址格式(需要過濾掉“?” 后面的請求參數(shù)),可依據(jù)url地址進(jìn)行去重,不考慮參數(shù)。比如:一組靜態(tài)頁面“http: // www.a? com/index.html/?v = 1”和“http://www.a? com/index.html?v = 2”,這兩個(gè)其實(shí)是一個(gè)頁面,只需監(jiān)測一次即可。
[0007]但是網(wǎng)站中還有相當(dāng)多的頁面是通過模板生成的,url格式不固定,已將動(dòng)態(tài)參數(shù)當(dāng)成url中的一部分,比如:
[0008]“http: //www ? a ? com/i/1-01-01” 和 “http: //www ? a ? com/i/1-02-03”,以及 “http://www.a.com/i/1000.html”和“http://www.a.com/i/1001.html”。
[0009]這兩組頁面其實(shí)也分別是相同的頁面,但是根據(jù)現(xiàn)有的url匹配技術(shù)無法直接區(qū)分每組中的兩個(gè)頁面是不是相同頁面,故而無法進(jìn)行頁面去重處理,造成的結(jié)果就是爬蟲程序一直不停的遍歷監(jiān)測這種類型的頁面,相當(dāng)大的監(jiān)測工作量都消耗在這種類型的頁面模擬請求和埋點(diǎn)監(jiān)測上。
[0010]綜上,可以看出,現(xiàn)有的逐級(jí)逐次對(duì)全站頁面進(jìn)行遍歷,監(jiān)測頁面是否已埋點(diǎn)的方法在執(zhí)行中,會(huì)出現(xiàn)重復(fù)監(jiān)測同一個(gè)頁面的情況,很浪費(fèi)計(jì)算資源,而且很耗時(shí),大大降低了埋點(diǎn)監(jiān)測的效率。
【發(fā)明內(nèi)容】
[0011]有鑒于此,本發(fā)明提供一種監(jiān)測網(wǎng)站的頁面埋點(diǎn)的方法和裝置,能夠極大地壓縮對(duì)由模板生成的動(dòng)態(tài)網(wǎng)站頁面進(jìn)行埋點(diǎn)監(jiān)測的時(shí)間,減少對(duì)頁面內(nèi)容的模擬請求量,從而提高了對(duì)網(wǎng)站的頁面埋點(diǎn)監(jiān)測的速度。
[0012]為實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的一個(gè)方面,提供了一種監(jiān)測網(wǎng)站的頁面埋點(diǎn)的方法。
[0013]—種監(jiān)測網(wǎng)站的頁面埋點(diǎn)的方法,包括:初始化通用符集合,其中所述通用符集合中只能存儲(chǔ)不重復(fù)的數(shù)據(jù);遍歷該網(wǎng)站的全部頁面,并且在遍歷過程中,對(duì)每個(gè)當(dāng)前頁面, 執(zhí)行監(jiān)測頁面埋點(diǎn)的操作,其中,所述操作包括:提取該頁面的統(tǒng)一資源定位符;根據(jù)該統(tǒng)一資源定位符,提取通用符,所述通用符是由同一個(gè)模板生成的各頁面的統(tǒng)一資源定位符的共同部分;嘗試將所述通用符保存到所述通用符集合中;當(dāng)保存成功,執(zhí)行模擬請求獲取該頁面并檢查該頁面是否埋點(diǎn)。
[0014]可選地,提取通用符的步驟包括:獲取所述統(tǒng)一資源定位符的最后一個(gè)路徑層級(jí)的內(nèi)容;判斷所述最后一個(gè)路徑層級(jí)的內(nèi)容中是否包含超文本文件的網(wǎng)頁文件擴(kuò)展名;如果包含,則所述通用符為:http: //x.com/*.html;否則,所述通用符為:http: //x.com/x/*。 [〇〇15]可選地,當(dāng)保存不成功,即所述通用符集合中已包含當(dāng)前頁面的通用符,則立即中斷對(duì)該頁面的檢查,繼續(xù)執(zhí)行對(duì)下一個(gè)頁面的檢查。[0〇16]可選地,所述通用符集合被實(shí)現(xiàn)為JAVA中的Hashset。
[0017]可選地,所述遍歷通過爬蟲程序來執(zhí)行。
[0018]根據(jù)本發(fā)明的另一方面,提供了一種監(jiān)測網(wǎng)站的頁面埋點(diǎn)的裝置。
[0019]—種監(jiān)測網(wǎng)站的頁面埋點(diǎn)的裝置,包括:初始化單元,用于初始化通用符集合,其中所述通用符集合中只能存儲(chǔ)不重復(fù)的數(shù)據(jù);監(jiān)測執(zhí)行單元,用于遍歷該網(wǎng)站的全部頁面, 并且在遍歷過程中,對(duì)每個(gè)當(dāng)前頁面,執(zhí)行埋點(diǎn)監(jiān)測,其中,所述監(jiān)測執(zhí)行單元包括:定位符提取模塊,用于提取該頁面的統(tǒng)一資源定位符;通用符提取模塊,用于根據(jù)該統(tǒng)一資源定位符,提取通用符,所述通用符是由同一個(gè)模板生成的各頁面的統(tǒng)一資源定位符的共同部分; 通用符保存模塊,用于嘗試將所述通用符保存到所述通用符集合中;埋點(diǎn)檢查模塊,用于當(dāng)保存成功,執(zhí)行模擬請求獲取該頁面并檢查該頁面是否埋點(diǎn)。
[0020]可選地,所述通用符提取模塊用于執(zhí)行如下步驟:獲取所述統(tǒng)一資源定位符的最后一個(gè)路徑層級(jí)的內(nèi)容;判斷所述最后一個(gè)路徑層級(jí)的內(nèi)容中是否包含超文本文件的網(wǎng)頁文件擴(kuò)展名;如果包含,則所述通用符為:http://x.com/*, html;否則,所述通用符為: http://x?com/x/* 〇
[0021]可選地,所述埋點(diǎn)檢查模塊還用于:當(dāng)保存不成功,即所述通用符集合中已包含當(dāng)前頁面的通用符,則立即中斷對(duì)該頁面的檢查,繼續(xù)執(zhí)行對(duì)下一個(gè)頁面的檢查。
[0022]可選地,所述通用符集合被實(shí)現(xiàn)為JAVA中的Hashset。
[0023]根據(jù)本發(fā)明的又一方面,提供了一種監(jiān)測網(wǎng)站的頁面埋點(diǎn)的裝置。[〇〇24] 一種監(jiān)測網(wǎng)站的頁面埋點(diǎn)的裝置,包括:存儲(chǔ)器和處理器,其中,所述存儲(chǔ)器存儲(chǔ)指令;所述處理器執(zhí)行所述指令用于:初始化通用符集合,其中所述通用符集合中只能存儲(chǔ)不重復(fù)的數(shù)據(jù);遍歷該網(wǎng)站的全部頁面,并且在遍歷過程中,對(duì)每個(gè)當(dāng)前頁面,執(zhí)行監(jiān)測頁面埋點(diǎn)的操作,其中,所述操作包括:提取該頁面的統(tǒng)一資源定位符;根據(jù)該統(tǒng)一資源定位符,提取通用符,所述通用符是由同一個(gè)模板生成的各頁面的統(tǒng)一資源定位符的共同部分; 嘗試將所述通用符保存到所述通用符集合中;當(dāng)保存成功,執(zhí)行模擬請求獲取該頁面并檢查該頁面是否埋點(diǎn)。
[0025]根據(jù)本發(fā)明的技術(shù)方案,通過為網(wǎng)站頁面的統(tǒng)一資源定位符URL提取通用符,并保存在不允許出現(xiàn)重復(fù)數(shù)據(jù)的集合HashSet中,可以將由同一模板生成的頁面確定為同一類型,只進(jìn)行一次埋點(diǎn)監(jiān)測,從而大大減少了網(wǎng)站頁面埋點(diǎn)監(jiān)測的時(shí)間,并減少了爬蟲程序的計(jì)算量和模擬請求量,從而提高了埋點(diǎn)監(jiān)測的速度?!靖綀D說明】
[0026]附圖用于更好地理解本發(fā)明,不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。其中:
[0027]圖1是根據(jù)本發(fā)明實(shí)施例的監(jiān)測網(wǎng)站的頁面埋點(diǎn)的方法的主要步驟示意圖;
[0028]圖2是根據(jù)本發(fā)明實(shí)施例的監(jiān)測網(wǎng)站的頁面埋點(diǎn)的方法的實(shí)現(xiàn)流程;
[0029]圖3是根據(jù)本發(fā)明實(shí)施例的URL通用符提取算法流程示意圖;
[0030]圖4是根據(jù)本發(fā)明一實(shí)施例的監(jiān)測網(wǎng)站的頁面埋點(diǎn)的裝置的主要模塊示意圖;
[0031]圖5是根據(jù)本發(fā)明另一實(shí)施例的監(jiān)測網(wǎng)站的頁面埋點(diǎn)的裝置的主要模塊示意圖?!揪唧w實(shí)施方式】
[0032]以下結(jié)合附圖對(duì)本發(fā)明的示范性實(shí)施例做出說明,其中包括本發(fā)明實(shí)施例的各種細(xì)節(jié)以助于理解,應(yīng)當(dāng)將它們認(rèn)為僅僅是示范性的。因此,本領(lǐng)域普通技術(shù)人員應(yīng)當(dāng)認(rèn)識(shí)至IJ,可以對(duì)這里描述的實(shí)施例做出各種改變和修改,而不會(huì)背離本發(fā)明的范圍和精神。同樣,為了清楚和簡明,以下的描述中省略了對(duì)公知功能和結(jié)構(gòu)的描述。
[0033]圖1是根據(jù)本發(fā)明實(shí)施例的監(jiān)測網(wǎng)站的頁面埋點(diǎn)的方法的主要步驟示意圖。如圖1 所示,本發(fā)明的監(jiān)測網(wǎng)站的頁面埋點(diǎn)的方法主要包括如下的步驟S11和步驟S12,其中,步驟 S12具體可以包括步驟S121至步驟S124。
[0034]步驟S11:初始化通用符集合,其中該通用符集合中只能存儲(chǔ)不重復(fù)的數(shù)據(jù);
[0035]步驟S12:遍歷該網(wǎng)站的全部頁面,并且在遍歷過程中,對(duì)每個(gè)當(dāng)前頁面,執(zhí)行監(jiān)測頁面埋點(diǎn)的操作。其中,所述操作具體可以包括:
[0036]步驟S121:提取該頁面的統(tǒng)一資源定位符;
[0037]步驟S122:根據(jù)該統(tǒng)一資源定位符,提取通用符,所述通用符是由同一個(gè)模板生成的各頁面的統(tǒng)一資源定位符的共同部分;
[0038]步驟S123:嘗試將所述通用符保存到所述通用符集合中;
[0039]步驟S124:當(dāng)保存成功,執(zhí)行模擬請求獲取該頁面并檢查該頁面是否埋點(diǎn)。
[0040]其中,步驟S122中在提取通用符時(shí),可以通過以下方法執(zhí)行:
[0041]獲取所述統(tǒng)一資源定位符的最后一個(gè)路徑層級(jí)的內(nèi)容;
[0042]判斷所述最后一個(gè)路徑層級(jí)的內(nèi)容中是否包含超文本文件的網(wǎng)頁文件擴(kuò)展名; [0〇43] 如果包含,則所述通用符為:http: //x ? com/* ? html;
[0044]否貝 lj,所述通用符為:http: //x ? com/x/*。
[0045]另外,當(dāng)步驟S123中嘗試將通用符保存到通用符集合中時(shí),若保存不成功,即所述通用符集合中已包含當(dāng)前頁面的通用符,則立即中斷對(duì)該頁面的檢查,繼續(xù)執(zhí)行對(duì)下一個(gè)頁面的檢查。[0〇46] 在本發(fā)明中,所述通用符集合被實(shí)現(xiàn)為JAVA中的Hashset。并且,所述遍歷通過爬蟲程序來執(zhí)行。
[0047]圖2是根據(jù)本發(fā)明實(shí)施例的監(jiān)測網(wǎng)站的頁面埋點(diǎn)的方法的實(shí)現(xiàn)流程。[〇〇48]如圖2所示,程序啟動(dòng)后,首先初始化HashSet(步驟S21),用來存放新發(fā)現(xiàn)的動(dòng)態(tài)統(tǒng)一資源定位符url的通用符。HashSet是JAVA語言里的一種數(shù)據(jù)結(jié)構(gòu),其特性是不允許出現(xiàn)重復(fù)數(shù)據(jù),因此使用HashSet可避免重復(fù)保存相同的通用符,即可避免對(duì)由同一模板生成的多個(gè)頁面進(jìn)行重復(fù)監(jiān)測。[〇〇49] 初始化HashSet完成后,即可通過爬蟲程序遍歷該網(wǎng)站的全部頁面(步驟S22)來進(jìn)行該網(wǎng)站的頁面埋點(diǎn)監(jiān)測。對(duì)于遍歷到的每個(gè)頁面,根據(jù)頁面的URL,對(duì)其關(guān)鍵信息進(jìn)行統(tǒng)計(jì),從而提取出該URL的通用符,并嘗試保存到HashSet中(步驟S23)。其中,URL的通用符實(shí)際是統(tǒng)一資源定位符URL的一部分,即一個(gè)符號(hào)串,提取該通用符的方法可總結(jié)為一個(gè)通用規(guī)則rule。經(jīng)過大量的數(shù)據(jù)訓(xùn)練,可以發(fā)現(xiàn)提取出來的通用符代表了從一個(gè)模板生成的一批頁面的urLURL通用符的提取過程請參閱圖3。
[0050]圖3是根據(jù)本發(fā)明實(shí)施例的URL通用符提取算法流程示意圖。如圖3所示,在進(jìn)行 URL通用符的提取時(shí),首先獲取統(tǒng)一資源定位符的最后一個(gè)路徑層級(jí)的內(nèi)容,也就是要截取 URL最后一個(gè)7”后面的內(nèi)容;再判斷截取的內(nèi)容中是否包含超文本文件的網(wǎng)頁文件擴(kuò)展名.htm或.html;如果包含,則將URL最后一個(gè)7”后面的內(nèi)容替換為.htm”或.html”,即可得到形如:“http: //x.com/*.htm”或“http: //x.com/*.html”的初級(jí)通用符,然后再將初級(jí)通用符中的和統(tǒng)一為以得到URL的通用符,所述通用符為: “http: //x ? com/* ? html” ;如果截取的內(nèi)容中不包含? htm或? html,則生成通用符:“http: // x ? com/*”。例如:URL為 “http: //www ? a ? com/i/1000 ? html” 的頁面所提取的通用符為 “http://www.a.com/i/*.html” ;URL為“http://www.a.com/i/l-〇2-〇3”的頁面所提取的通用符為“http://Vww_a.eom/i/*”。如此,即可將該網(wǎng)站的所有頁面的通用符進(jìn)行提取,然后返回生成的通用符,并嘗試保存在HashSet中。[〇〇51]由于HashSet中只能保存不重復(fù)的數(shù)據(jù),因此在將提取的通過符存儲(chǔ)到HashSet中時(shí),會(huì)先判斷HashSet中是否已包含該通用符(步驟S24),如果HashSet中已包含該通用符, 則說明當(dāng)前頁面已經(jīng)被監(jiān)測過,則立即結(jié)束當(dāng)前頁面的監(jiān)測(步驟S27),繼續(xù)執(zhí)行對(duì)下一個(gè)頁面的監(jiān)測;如果HashSet中未包含該通用符,則說明當(dāng)前頁面未被監(jiān)測過,則在HashSet中添加該通用符(步驟S25),并通過爬蟲程序執(zhí)行模擬請求以獲取頁面內(nèi)容,并檢查當(dāng)前頁面是否埋點(diǎn)(步驟S26),并在檢查完畢后,結(jié)束當(dāng)前頁面的監(jiān)測(步驟S27),繼續(xù)執(zhí)行對(duì)下一個(gè)頁面的監(jiān)測。[〇〇52] 根據(jù)以上的步驟,即可實(shí)現(xiàn)通過對(duì)統(tǒng)一資源定位符URL提取一個(gè)通用符,以對(duì)URL 進(jìn)行歸類,對(duì)同一類URL對(duì)應(yīng)的頁面只進(jìn)行一次埋點(diǎn)監(jiān)測,從而大大提升了頁面埋點(diǎn)監(jiān)測的效率。[〇〇53]圖4是根據(jù)本發(fā)明一實(shí)施例的監(jiān)測網(wǎng)站的頁面埋點(diǎn)的裝置的主要模塊示意圖。如圖4所示,本發(fā)明的監(jiān)測網(wǎng)站的頁面埋點(diǎn)的裝置40主要包括初始化單元41和監(jiān)測執(zhí)行單元 42,其中監(jiān)測執(zhí)行單元具體可以包括定位符提取模塊421、通用符提取模塊422、通用符保存模塊423和埋點(diǎn)檢查模塊424。[〇〇54]初始化單元41用于初始化通用符集合,其中所述通用符集合中只能存儲(chǔ)不重復(fù)的數(shù)據(jù);監(jiān)測執(zhí)行單元42用于遍歷該網(wǎng)站的全部頁面,并且在遍歷過程中,對(duì)每個(gè)當(dāng)前頁面,執(zhí)行埋點(diǎn)監(jiān)測,其中,所述監(jiān)測執(zhí)行單元42包括:
[0055]定位符提取模塊421,用于提取該頁面的統(tǒng)一資源定位符;[〇〇56]通用符提取模塊422,用于根據(jù)該統(tǒng)一資源定位符,提取通用符,所述通用符是由同一個(gè)模板生成的各頁面的統(tǒng)一資源定位符的共同部分;[〇〇57]通用符保存模塊423,用于嘗試將所述通用符保存到所述通用符集合中;[〇〇58]埋點(diǎn)檢查模塊424,用于當(dāng)保存成功,執(zhí)行模擬請求獲取該頁面并檢查該頁面是否埋點(diǎn)。[〇〇59]另外,通用符提取模塊422還可以用于執(zhí)行如下步驟:獲取所述統(tǒng)一資源定位符的最后一個(gè)路徑層級(jí)的內(nèi)容;判斷所述最后一個(gè)路徑層級(jí)的內(nèi)容中是否包含超文本文件的網(wǎng)頁文件擴(kuò)展名;如果包含,則所述通用符為:http://x.com/*.html;否則,所述通用符為: http://x?com/x/* 〇
[0060]埋點(diǎn)檢查模塊424還可以用于:當(dāng)保存不成功,即所述通用符集合中已包含當(dāng)前頁面的通用符,則立即中斷對(duì)該頁面的檢查,繼續(xù)執(zhí)行對(duì)下一個(gè)頁面的檢查。[0〇61 ]本發(fā)明中,所述通用符集合被實(shí)現(xiàn)為JAVA中的Hashset。
[0062]圖5是根據(jù)本發(fā)明另一實(shí)施例的監(jiān)測網(wǎng)站的頁面埋點(diǎn)的裝置的主要模塊示意圖。 如圖5所示,本發(fā)明的監(jiān)測網(wǎng)站的頁面埋點(diǎn)的裝置50主要包括存儲(chǔ)器51和處理器52。[〇〇63]其中,存儲(chǔ)器51存儲(chǔ)指令;處理器52執(zhí)行所述指令用于:初始化通用符集合,其中所述通用符集合中只能存儲(chǔ)不重復(fù)的數(shù)據(jù);遍歷該網(wǎng)站的全部頁面,并且在遍歷過程中,對(duì)每個(gè)當(dāng)前頁面,執(zhí)行監(jiān)測頁面埋點(diǎn)的操作,其中,所述操作包括:提取該頁面的統(tǒng)一資源定位符;根據(jù)該統(tǒng)一資源定位符,提取通用符,所述通用符是由同一個(gè)模板生成的各頁面的統(tǒng)一資源定位符的共同部分;嘗試將所述通用符保存到所述通用符集合中;當(dāng)保存成功,執(zhí)行模擬請求獲取該頁面并檢查該頁面是否埋點(diǎn)。
[0064]根據(jù)本發(fā)明實(shí)施例的技術(shù)方案,通過為網(wǎng)站頁面的統(tǒng)一資源定位符URL提取通用符,并保存在不允許出現(xiàn)重復(fù)數(shù)據(jù)的集合HashSet中,可以將由同一模板生成的頁面確定為同一類型,只進(jìn)行一次埋點(diǎn)監(jiān)測,從而大大減少了網(wǎng)站頁面埋點(diǎn)監(jiān)測的時(shí)間,并減少了爬蟲程序的計(jì)算量和模擬請求量,從而提高了埋點(diǎn)監(jiān)測的速度。
[0065]采用本發(fā)明的技術(shù)方案,通過對(duì)由模板生成的頁面的URL進(jìn)行去重,可以極大地提高單次整站頁面埋點(diǎn)監(jiān)測的速度。在實(shí)際運(yùn)行中,使用現(xiàn)有技術(shù)進(jìn)行埋點(diǎn)監(jiān)測,需用26個(gè)小時(shí)才可執(zhí)行完整站的監(jiān)測;使用本發(fā)明的方法后,單次整站監(jiān)測時(shí)間縮短到5分鐘,監(jiān)測速度提高了 300多倍。伴隨著網(wǎng)站業(yè)務(wù)的擴(kuò)展和頁面量的大幅增加,使用本發(fā)明的方法進(jìn)行網(wǎng)站頁面埋點(diǎn)監(jiān)測,將會(huì)節(jié)省更多的時(shí)間。
[0066]上述【具體實(shí)施方式】,并不構(gòu)成對(duì)本發(fā)明保護(hù)范圍的限制。本領(lǐng)域技術(shù)人員應(yīng)該明白的是,取決于設(shè)計(jì)要求和其他因素,可以發(fā)生各種各樣的修改、組合、子組合和替代。任何在本發(fā)明的精神和原則之內(nèi)所作的修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明保護(hù)范圍之內(nèi)。
【主權(quán)項(xiàng)】
1.一種監(jiān)測網(wǎng)站的頁面埋點(diǎn)的方法,其特征在于,包括:初始化通用符集合,其中所述通用符集合中只能存儲(chǔ)不重復(fù)的數(shù)據(jù);遍歷該網(wǎng)站的全部頁面,并且在遍歷過程中,對(duì)每個(gè)當(dāng)前頁面,執(zhí)行監(jiān)測頁面埋點(diǎn)的操 作,其中,所述操作包括:提取該頁面的統(tǒng)一資源定位符;根據(jù)該統(tǒng)一資源定位符,提取通用符,所述通用符是由同一個(gè)模板生成的各頁面的統(tǒng) 一資源定位符的共同部分;嘗試將所述通用符保存到所述通用符集合中;當(dāng)保存成功,執(zhí)行模擬請求獲取該頁面并檢查該頁面是否埋點(diǎn)。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,提取通用符的步驟包括:獲取所述統(tǒng)一資源定位符的最后一個(gè)路徑層級(jí)的內(nèi)容;判斷所述最后一個(gè)路徑層級(jí)的內(nèi)容中是否包含超文本文件的網(wǎng)頁文件擴(kuò)展名;如果包含,則所述通用符為:http: //x.com/*.html;否則,所述通用符為:http: //x ? com/x/*。3.根據(jù)權(quán)利要求1所述的方法,其特征在于,當(dāng)保存不成功,即所述通用符集合中已包含當(dāng)前頁面的通用符,則立即中斷對(duì)該頁面 的檢查,繼續(xù)執(zhí)行對(duì)下一個(gè)頁面的檢查。4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述通用符集合被實(shí)現(xiàn)為JAVA中的 Hashset〇5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述遍歷通過爬蟲程序來執(zhí)行。6.—種監(jiān)測網(wǎng)站的頁面埋點(diǎn)的裝置,其特征在于,包括:初始化單元,用于初始化通用符集合,其中所述通用符集合中只能存儲(chǔ)不重復(fù)的數(shù)據(jù); 監(jiān)測執(zhí)行單元,用于遍歷該網(wǎng)站的全部頁面,并且在遍歷過程中,對(duì)每個(gè)當(dāng)前頁面,執(zhí) 行埋點(diǎn)監(jiān)測,其中,所述監(jiān)測執(zhí)行單元包括:定位符提取模塊,用于提取該頁面的統(tǒng)一資源定位符;通用符提取模塊,用于根據(jù)該統(tǒng)一資源定位符,提取通用符,所述通用符是由同一個(gè)模 板生成的各頁面的統(tǒng)一資源定位符的共同部分;通用符保存模塊,用于嘗試將所述通用符保存到所述通用符集合中;埋點(diǎn)檢查模塊,用于當(dāng)保存成功,執(zhí)行模擬請求獲取該頁面并檢查該頁面是否埋點(diǎn)。7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述通用符提取模塊用于執(zhí)行如下步驟: 獲取所述統(tǒng)一資源定位符的最后一個(gè)路徑層級(jí)的內(nèi)容;判斷所述最后一個(gè)路徑層級(jí)的內(nèi)容中是否包含超文本文件的網(wǎng)頁文件擴(kuò)展名;如果包含,則所述通用符為:http: //x.com/*.html;否則,所述通用符為:http: //x ? com/x/*。8.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述埋點(diǎn)檢查模塊還用于:當(dāng)保存不成功,即所述通用符集合中已包含當(dāng)前頁面的通用符,則立即中斷對(duì)該頁面 的檢查,繼續(xù)執(zhí)行對(duì)下一個(gè)頁面的檢查。9.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述通用符集合被實(shí)現(xiàn)為JAVA中的 Hashset〇10.—種監(jiān)測網(wǎng)站的頁面埋點(diǎn)的裝置,其特征在于,包括:存儲(chǔ)器和處理器,其中,所述存儲(chǔ)器存儲(chǔ)指令;所述處理器執(zhí)行所述指令用于:初始化通用符集合,其中所述通用符集合中只能存儲(chǔ)不重復(fù)的數(shù)據(jù);遍歷該網(wǎng)站的全部頁面,并且在遍歷過程中,對(duì)每個(gè)當(dāng)前頁面,執(zhí)行監(jiān)測頁面埋點(diǎn)的操 作,其中,所述操作包括:提取該頁面的統(tǒng)一資源定位符;根據(jù)該統(tǒng)一資源定位符,提取通用符,所述通用符是由同一個(gè)模板生成的各頁面的統(tǒng) 一資源定位符的共同部分;嘗試將所述通用符保存到所述通用符集合中;當(dāng)保存成功,執(zhí)行模擬請求獲取該頁面并檢查該頁面是否埋點(diǎn)。
【文檔編號(hào)】G06F17/30GK105975599SQ201610308003
【公開日】2016年9月28日
【申請日】2016年5月11日
【發(fā)明人】張鑫
【申請人】北京京東尚博廣益投資管理有限公司