欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于分布式文件存儲的網(wǎng)站頁面內(nèi)容統(tǒng)計(jì)的方法和系統(tǒng)的制作方法

文檔序號:6536970閱讀:244來源:國知局
基于分布式文件存儲的網(wǎng)站頁面內(nèi)容統(tǒng)計(jì)的方法和系統(tǒng)的制作方法
【專利摘要】本申請公開基于分布式文件存儲的網(wǎng)站頁面內(nèi)容統(tǒng)計(jì)的方法和系統(tǒng),方法:采集訪問日志將訪問日志存入分布式文件存儲數(shù)據(jù)庫中,以小時為單位存儲到分布式文件存儲數(shù)據(jù)庫中的相應(yīng)的集合文檔中;對存儲到分布式文件存儲數(shù)據(jù)庫中的訪問日志進(jìn)行分解并找出該訪問日志中的有效日志信息,將有效日志信息與該訪問日志建立映射關(guān)系;對訪問日志下的所有有效日志信息進(jìn)行化簡操作,輸出化簡后的有效日志信息,根據(jù)化簡后的有效日志信息,輸出訪問日志下的以訪問為主鍵的點(diǎn)擊量和對應(yīng)的流量中間數(shù)據(jù)的值,或輸出訪問日志下的以訪問和會話身份為主鍵的獨(dú)立訪客數(shù)量和對應(yīng)的流量中間數(shù)據(jù)的值。本發(fā)明解決了根據(jù)業(yè)務(wù)類型方便的組合查詢條件進(jìn)行網(wǎng)站的PV、UV統(tǒng)計(jì)。
【專利說明】基于分布式文件存儲的網(wǎng)站頁面內(nèi)容統(tǒng)計(jì)的方法和系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本申請涉及網(wǎng)站數(shù)據(jù)統(tǒng)計(jì)領(lǐng)域,具體地說,是涉及一種基于分布式文件存儲的網(wǎng)站頁面內(nèi)容統(tǒng)計(jì)的方法和系統(tǒng)。
【背景技術(shù)】
[0002]現(xiàn)有技術(shù)中,MongoDB (分布式文件存儲數(shù)據(jù)庫,介于關(guān)系數(shù)據(jù)庫和非關(guān)系數(shù)據(jù)庫之間的產(chǎn)品)支持的數(shù)據(jù)結(jié)構(gòu)非常松散,是類似json的bson格式,因此可以存儲比較復(fù)雜的數(shù)據(jù)類型。Mongo最大的特點(diǎn)是支持的查詢語言非常強(qiáng)大,其語法類似于面向?qū)ο蟮牟樵冋Z言,幾乎可以實(shí)現(xiàn)類似關(guān)系數(shù)據(jù)庫單表查詢的絕大部分功能,而且還支持對數(shù)據(jù)建立索弓丨。MongoDB旨在為WEB應(yīng)用提供可擴(kuò)展的高性能數(shù)據(jù)存儲解決方案。
[0003]目前,基于文件和數(shù)據(jù)庫的網(wǎng)站需要進(jìn)行UV(獨(dú)立訪客,Unique Vistor,訪問您網(wǎng)站的一臺電腦客戶端為一個訪客)、PV (訪問量,Page View,頁面瀏覽量或點(diǎn)擊量,用戶每次刷新即被計(jì)算一次)的統(tǒng)計(jì),這兩種方式的統(tǒng)計(jì)都比較粗線條,不能靈活的根據(jù)業(yè)務(wù)類型方便的組合查詢條件。
[0004]例如:網(wǎng)站上廣告的PV、UV的統(tǒng)計(jì)。網(wǎng)站的頁面上有各種各樣的廣告鏈接,每個廣告鏈接都對應(yīng)一個id主鍵標(biāo)識。用戶點(diǎn)擊廣告鏈接便生成一個在網(wǎng)站日志中產(chǎn)生一條包含該訪客特征及廣告id主鍵的url (Uniform Resource Locator,統(tǒng)一資源定位符)訪問信息,通過對所有包含廣告id主鍵標(biāo)識的url訪問信息進(jìn)行聚合計(jì)算,可以輸出一段時間內(nèi)某一個廣告總共被點(diǎn)擊了幾次(這里被點(diǎn)擊的次數(shù)即為該段時間內(nèi)該廣告的PV),還可以得到一段時間內(nèi)有多少個訪客訪問了某一個廣告(這里計(jì)算輸出的訪客數(shù)量即為該段時間內(nèi)該廣告的UV)。然而,如之前所述這兩種方式的統(tǒng)計(jì)都比較粗線條,不能靈活的根據(jù)業(yè)務(wù)類型方便的組合查詢條件。
[0005]因此,如何解決根據(jù)業(yè)務(wù)類型方便的組合查詢條件進(jìn)行網(wǎng)站的PV、UV統(tǒng)計(jì),便成為亟待解決的技術(shù)問題。

【發(fā)明內(nèi)容】

[0006]本申請所要解決的技術(shù)問題是提供一種基于分布式文件存儲的網(wǎng)站頁面內(nèi)容統(tǒng)計(jì)的方法和系統(tǒng),以解決根據(jù)業(yè)務(wù)類型方便的組合查詢條件進(jìn)行網(wǎng)站的PV、UV統(tǒng)計(jì)的問題。
[0007]為解決上述技術(shù)問題,本申請?zhí)峁┝艘环N基于分布式文件存儲的網(wǎng)站頁面內(nèi)容統(tǒng)計(jì)的方法,其特征在于,包括:
[0008]采集訪問日志,并將所述訪問日志存入分布式文件存儲數(shù)據(jù)庫中,以小時為單位存儲到所述分布式文件存儲數(shù)據(jù)庫中的相應(yīng)的集合文檔中;
[0009]對存儲到所述分布式文件存儲數(shù)據(jù)庫中的訪問日志進(jìn)行分解并找出該訪問日志中的有效日志信息,將有效日志信息與該訪問日志建立映射關(guān)系;
[0010]對該訪問日志下的所有有效日志信息進(jìn)行化簡操作,輸出化簡后的有效日志信息,根據(jù)所述化簡后的有效日志信息,輸出該訪問日志下的以訪問為主鍵的點(diǎn)擊量和對應(yīng)的流量中間數(shù)據(jù)的值,或輸出該訪問日志下的以訪問和會話身份為主鍵的獨(dú)立訪客數(shù)量和對應(yīng)的流量中間數(shù)據(jù)的值。
[0011]優(yōu)選地,所述有效日志信息,包括:mobile字段、url字段、query字段和/或op字段。
[0012]優(yōu)選地,將有效日志信息與該訪問日志建立映射關(guān)系,進(jìn)一步為:將所述mobile字段、url字段、query字段和/或op字段的對應(yīng)值通過所述分布式文件存儲數(shù)據(jù)庫中的分布式計(jì)算中設(shè)定的該訪問日志的特征值建立映射關(guān)系。
[0013]優(yōu)選地,以小時為單位存儲到所述分布式文件存儲數(shù)據(jù)庫中的相應(yīng)的集合文檔中,進(jìn)一步為:以小時為單位,按照格式為日志通量yyyyMMddHH的方式存儲到所述分布式文件存儲數(shù)據(jù)庫中的相應(yīng)的集合文檔中。
[0014]優(yōu)選地,對該訪問日志下的所有有效日志信息進(jìn)行化簡操作,輸出化簡后的有效日志信息,根據(jù)所述化簡后的有效日志信息,輸出該訪問日志下的以訪問為主鍵的點(diǎn)擊量和對應(yīng)的流量中間數(shù)據(jù)的值,或輸出該訪問日志下的以訪問和會話身份為主鍵的獨(dú)立訪客數(shù)量和對應(yīng)的流量中間數(shù)據(jù)的值,進(jìn)一步為:
[0015]對該訪問日志下的所有有效日志信息進(jìn)行化簡操作,輸出化簡后的有效日志信息,根據(jù)所述化簡后的有效日志信息以小時、天、周、月或年為單位,輸出該訪問日志下的以訪問為主鍵的點(diǎn)擊量和對應(yīng)的流量中間數(shù)據(jù)的值,或輸出該訪問日志下的以訪問和會話身份為主鍵的獨(dú)立訪客數(shù)量和對應(yīng)的流量中間數(shù)據(jù)的值。
[0016]為解決上述技術(shù)問題,本申請還提供了一種基于分布式文件存儲的網(wǎng)站頁面內(nèi)容統(tǒng)計(jì)的系統(tǒng),其特征在于,包括:采集訪問日志模塊、查找分析模塊和化簡統(tǒng)計(jì)模塊;其中,
[0017]所述采集訪問日志模塊,將所述訪問日志存入分布式文件存儲數(shù)據(jù)庫中,以小時為單位存儲到所述分布式文件存儲數(shù)據(jù)庫中的相應(yīng)的集合文檔中;
[0018]所述查找分析模塊,對存儲到所述分布式文件存儲數(shù)據(jù)庫中的訪問日志進(jìn)行分解并找出該訪問日志中的有效日志信息,將有效日志信息與該訪問日志建立映射關(guān)系發(fā)送給所述化簡統(tǒng)計(jì)模塊;
[0019]所述化簡統(tǒng)計(jì)模塊,對該訪問日志下的所有有效日志信息進(jìn)行化簡操作,輸出化簡后的有效日志信息,根據(jù)所述化簡后的有效日志信息,輸出該訪問日志下的以訪問為主鍵的點(diǎn)擊量和對應(yīng)的流量中間數(shù)據(jù)的值,或輸出該訪問日志下的以訪問和會話身份為主鍵的獨(dú)立訪客數(shù)量和對應(yīng)的流量中間數(shù)據(jù)的值。
[0020]優(yōu)選地,所述有效日志信息,包括:m0bile字段、url字段、query字段和/或op字段。
[0021]優(yōu)選地,所述查找分析模塊,進(jìn)一步為:對存儲到所述分布式文件存儲數(shù)據(jù)庫中的訪問日志進(jìn)行分解并找出該訪問日志中的mobile字段、url字段、query字段和/或op字段,將所述mobile字段、url字段、query字段和/或op字段的對應(yīng)值通過所述分布式文件存儲數(shù)據(jù)庫中的分布式計(jì)算中設(shè)定的該訪問日志的特征值建立映射關(guān)系發(fā)送給所述化簡統(tǒng)計(jì)模塊。
[0022]優(yōu)選地,所述采集訪問日志模塊,進(jìn)一步為:將所述訪問日志存入分布式文件存儲數(shù)據(jù)庫中,以小時為單位,按照格式為日志通量yyyyMMddHH的方式存儲到所述分布式文件存儲數(shù)據(jù)庫中的相應(yīng)的集合文檔中。
[0023]優(yōu)選地,所述化簡統(tǒng)計(jì)模塊,進(jìn)一步為對該訪問日志下的所有有效日志信息進(jìn)行化簡操作,輸出化簡后的有效日志信息,根據(jù)所述化簡后的有效日志信息以小時、天、周、月或年為單位,輸出該訪問日志下的以訪問為主鍵的點(diǎn)擊量和對應(yīng)的流量中間數(shù)據(jù)的值,或輸出該訪問日志下的以訪問和會話身份為主鍵的獨(dú)立訪客數(shù)量和對應(yīng)的流量中間數(shù)據(jù)的值。
[0024]與現(xiàn)有技術(shù)相比,本申請所述的一種基于分布式文件存儲的網(wǎng)站頁面內(nèi)容統(tǒng)計(jì)的方法和系統(tǒng),達(dá)到了如下效果:
[0025]I)本申請所述的技術(shù)方案解決了根據(jù)業(yè)務(wù)類型方便的組合查詢條件進(jìn)行網(wǎng)站的PV、UV統(tǒng)計(jì)的問題,可以實(shí)現(xiàn)按天、按周、按月或者按年生成統(tǒng)計(jì)報(bào)表;
[0026]2)本申請所述的技術(shù)方案更主要是通過將分散的文本日志統(tǒng)一到分布式文件存儲數(shù)據(jù)庫進(jìn)行日志等分析,在進(jìn)行化簡最后合并生成可以實(shí)現(xiàn)按天、按周、按月或者按年生成統(tǒng)計(jì)報(bào)表。
【專利附圖】

【附圖說明】
[0027]此處所說明的附圖用來提供對本申請的進(jìn)一步理解,構(gòu)成本申請的一部分,本申請的示意性實(shí)施例及其說明用于解釋本申請,并不構(gòu)成對本申請的不當(dāng)限定。在附圖中:
[0028]圖1為本申請實(shí)施例一所述的基于分布式文件存儲的網(wǎng)站頁面內(nèi)容統(tǒng)計(jì)的方法的流程示意框圖;
[0029]圖2為本申請實(shí)施例二所述的基于分布式文件存儲的網(wǎng)站頁面內(nèi)容統(tǒng)計(jì)的系統(tǒng)的結(jié)構(gòu)框圖。
[0030]圖3為本申請實(shí)施例一中所述分布式文件存儲數(shù)據(jù)庫中的相應(yīng)的集合文檔的存儲格式圖。
【具體實(shí)施方式】
[0031]如在說明書及權(quán)利要求當(dāng)中使用了某些詞匯來指稱特定組件。本領(lǐng)域技術(shù)人員應(yīng)可理解,硬件制造商可能會用不同名詞來稱呼同一個組件。本說明書及權(quán)利要求并不以名稱的差異來作為區(qū)分組件的方式,而是以組件在功能上的差異來作為區(qū)分的準(zhǔn)則。如在通篇說明書及權(quán)利要求當(dāng)中所提及的“包含”為一開放式用語,故應(yīng)解釋成“包含但不限定于”?!按笾隆笔侵冈诳山邮艿恼`差范圍內(nèi),本領(lǐng)域技術(shù)人員能夠在一定誤差范圍內(nèi)解決所述技術(shù)問題,基本達(dá)到所述技術(shù)效果。此外,“耦接”一詞在此包含任何直接及間接的電性耦接手段。因此,若文中描述一第一裝置耦接于一第二裝置,則代表所述第一裝置可直接電性耦接于所述第二裝置,或通過其他裝置或耦接手段間接地電性耦接至所述第二裝置。說明書后續(xù)描述為實(shí)施本申請的較佳實(shí)施方式,然所述描述乃以說明本申請的一般原則為目的,并非用以限定本申請的范圍。本申請的保護(hù)范圍當(dāng)視所附權(quán)利要求所界定者為準(zhǔn)。
[0032]以下結(jié)合附圖對本申請作進(jìn)一步詳細(xì)說明,但不作為對本申請的限定。
[0033]實(shí)施例一
[0034]如圖1所示,是本申請實(shí)施例一所述的一種基于分布式文件存儲的網(wǎng)站頁面內(nèi)容統(tǒng)計(jì)的方法流程,該方法包括:[0035]步驟101,采集訪問日志,并將所述訪問日志存入分布式文件存儲數(shù)據(jù)庫中,以小時為單位存儲到所述分布式文件存儲數(shù)據(jù)庫中的相應(yīng)的集合文檔中;
[0036]步驟102,對存儲到所述分布式文件存儲數(shù)據(jù)庫中的訪問日志進(jìn)行分解并找出該訪問日志中的有效日志信息,將有效日志信息與該訪問日志建立映射關(guān)系;
[0037]步驟103,對該訪問日志下的所有有效日志信息進(jìn)行化簡操作,輸出化簡后的有效日志信息,根據(jù)所述化簡后的有效日志信息,輸出該訪問日志下的以訪問為主鍵的點(diǎn)擊量和對應(yīng)的流量中間數(shù)據(jù)的值,或輸出該訪問日志下的以訪問和會話身份為主鍵的獨(dú)立訪客數(shù)量和對應(yīng)的流量中間數(shù)據(jù)的值。
[0038]實(shí)際上,在步驟101中所述的分布式文件存儲數(shù)據(jù)庫采用Mongodb數(shù)據(jù)庫,以小時為單位,按照格式為日志通量(log_flux) yyyyMMddHH的方式存儲到所述分布式文件存儲數(shù)據(jù)庫中的相應(yīng)的集合文檔中。
[0039]步驟101中所采集的訪問日志的格式包括:訪問時間、遠(yuǎn)程訪問的主機(jī)地址(IP)、請求的方法、請求的URI路徑、響應(yīng)的狀態(tài)碼、發(fā)送的字節(jié)數(shù)、處理請求的時間、參照頁(Referer) URI路徑、用戶代理(User-Agent)、用戶唯一標(biāo)記和用戶的會話令牌(SessionID)。另外如圖3所示,為所述分布式文件存儲數(shù)據(jù)庫中的相應(yīng)的集合文檔的存儲格式。其中包括的參數(shù)的說明為:
[0040]_id:采用日志文件絕對路徑+日志行號最為唯一標(biāo)記。
[0041]head
[0042]1gFile:日志文件絕對路徑
[0043]row:日志行號
[0044]body
[0045]dateTime:方法時間
[0046]remoteIp ;遠(yuǎn)程訪問的主機(jī)IP
[0047]visit:請求路徑信息
[0048]url:請求的URI路徑
[0049]type:URI 類型(js、css、jsp 等)
[0050]query:請求參數(shù)列表
[0051]method:請求的方法
[0052]status:響應(yīng)的狀態(tài)碼
[0053]sentBytes:發(fā)送的字節(jié)數(shù)
[0054]responseTime:處理請求的時間
[0055]referrer:來源路徑信息
[0056]url:請求的URI路徑
[0057]type:URI 類型(js、css、jsp 等)
[0058]query:請求參數(shù)列表
[0059]userAgent:User-Agent 頭信息
[0060]userid:用戶唯一標(biāo)記
[0061]jsessionid:用戶的 Session ID
[0062]對于步驟102中所述有效日志信息,主要包括:m0bile字段、url字段、query字段和/或op字段。
[0063]將有效日志信息與該訪問日志建立映射關(guān)系,進(jìn)一步為:將所述mobile字段、url字段、query字段和/或op字段的對應(yīng)值通過所述分布式文件存儲數(shù)據(jù)庫中的分布式計(jì)算中設(shè)定的該訪問日志的特征值建立映射關(guān)系。
[0064]本發(fā)明中在步驟102和103中主要是通過MongoDB支持MapReduce來完成分解和化簡等的操作。
[0065]MapReduce是一種計(jì)算模型,將大批量的工作(數(shù)據(jù))分解(MAP)執(zhí)行,然后再將結(jié)果合并成最終結(jié)果(REDUCE)。這樣做的好處是可以在任務(wù)被分解后,可以通過大量機(jī)器進(jìn)行并行計(jì)算,減少整個操作的時間。本發(fā)明中使用MapReduce對原始網(wǎng)站的訪問日志信息進(jìn)行分解;然后,在采用MongoDB提供的api接口使用MapReduce功能對該MongoDB中存儲的對象(集合文檔)進(jìn)行分析(分析日志中的有效日志信息,如“mobile”、“Url”、“qUery”、“op “等對應(yīng)值,找到有效值與其建立映射既是MapReduce中Map的功能設(shè)定特征值建立必要信息映射)、化簡(針對獲取到的所有有效信息字段對應(yīng)的有效值進(jìn)行計(jì)算。既是MapReduce中的Reduce的功能),得到最后統(tǒng)計(jì)使用的必要數(shù)據(jù),同時刪除多余數(shù)據(jù)信息。
[0066]對于步驟103中的輸出該訪問日志下的以訪問為主鍵的點(diǎn)擊量和對應(yīng)的流量中間數(shù)據(jù)的值,或輸出該訪問日志下的以訪問和會話身份為主鍵的獨(dú)立訪客數(shù)量和對應(yīng)的流量中間數(shù)據(jù)的值;在實(shí)施例一中,輸出該訪問日志下的以訪問為主鍵的點(diǎn)擊量和對應(yīng)的流量中間數(shù)據(jù)的值,為以visit為主鍵的PV、流量中間數(shù)據(jù)其中主要包括:url字段、query字段、type字段和value字段等內(nèi)容。
[0067]輸出該訪問日志下的以訪問和會話身份為主鍵的獨(dú)立訪客數(shù)量和對應(yīng)的流量中間數(shù)據(jù)的值,為以visit、jsessionid為主鍵的UV、流量中間數(shù)據(jù)其中主要包括:url字段、type字段、query字段、mobil·e字段和value字段等內(nèi)容。
[0068]另外,還需要說明的是:如以廣告為例:那么廣告pv、UV統(tǒng)計(jì),在所有廣告鏈接點(diǎn)擊產(chǎn)生的日志信息中都包含adid=?這個特征值,那么所有日志信息中包含adid= ?這個特征值的即為廣告日志信息類別,該特征定義為“adid是否在日志中存在”。其他特征值還有渠道平臺特征,如:訪問渠道是網(wǎng)頁訪問wep、還是手機(jī)訪問wap在日志信息中都與其具體特征“web”或者“wap”相關(guān)聯(lián);分類條件是通過MongoDB的MapReduce和Group(聚合),對相同特征的單元進(jìn)行分組計(jì)算得到聚合結(jié)果集。每個針對具體類別的業(yè)務(wù)需求,對該類特征的值進(jìn)行分組聚合計(jì)算。例如:廣告Uv統(tǒng)計(jì),包含adid=4的廣告url訪問信息按訪問手機(jī)號group之后被聚合成一個mongodb數(shù)據(jù)對象,訪問信息條數(shù)被寫在聚合結(jié)果數(shù)據(jù)的value值中。廣告pv統(tǒng)計(jì),Goupe之后的mongodb數(shù)據(jù)對象。進(jìn)一步設(shè)置條件進(jìn)行mapReduce計(jì)算獲取到廣告Uv統(tǒng)計(jì)結(jié)果為adid=4的mongodb數(shù)據(jù)對象的個數(shù),記為count值,本例中為2個mongodb數(shù)據(jù)對象,記為2。Pv統(tǒng)計(jì)的group過程是,根據(jù)adid=4的值進(jìn)行g(shù)roup,最后mapreduce計(jì)算獲取到廣告pv統(tǒng)計(jì)結(jié)果為adid=4的mongo數(shù)據(jù)對象中count字段值的和。上述內(nèi)容中的參數(shù)只是一個實(shí)施例的應(yīng)用,并不作為具體限定內(nèi)容。
[0069]實(shí)施例二
[0070]本發(fā)明實(shí)施例二為一種基于分布式文件存儲的網(wǎng)站頁面內(nèi)容統(tǒng)計(jì)的系統(tǒng),其特征在于,包括:采集訪問日志模塊201、查找分析模塊202和化簡統(tǒng)計(jì)模塊203 ;其中,
[0071]所述采集訪問日志模塊201,與分布式文件存儲數(shù)據(jù)庫相耦接,用于采集訪問日志,并將所述訪問日志存入分布式文件存儲數(shù)據(jù)庫中,以小時為單位存儲到所述分布式文件存儲數(shù)據(jù)庫中的相應(yīng)的集合文檔中;
[0072]所述查找分析模塊202,與所述分布式文件存儲數(shù)據(jù)庫和化簡統(tǒng)計(jì)模塊203相耦接,用于對存儲到所述分布式文件存儲數(shù)據(jù)庫中的訪問日志進(jìn)行分解并找出該訪問日志中的有效日志信息,將有效日志信息與該訪問日志建立映射關(guān)系發(fā)送給所述化簡統(tǒng)計(jì)模塊;
[0073]所述化簡統(tǒng)計(jì)模塊203,與所述查找分析模塊202相耦接,用于對該訪問日志下的所有有效日志信息進(jìn)行化簡操作,輸出化簡后的有效日志信息,根據(jù)所述化簡后的有效日志信息,輸出該訪問日志下的以訪問為主鍵的點(diǎn)擊量和對應(yīng)的流量中間數(shù)據(jù)的值,或輸出該訪問日志下的以訪問和會話身份為主鍵的獨(dú)立訪客數(shù)量和對應(yīng)的流量中間數(shù)據(jù)的值。
[0074]其中,實(shí)施例二中所述的有效日志信息,包括:mobile字段、url字段、query字段和/或op字段等內(nèi)容,這里不作具體限定,具體內(nèi)容與前述方法限定的相一致。
[0075]具體地,在實(shí)施例二中所述查找分析模塊,進(jìn)一步為:對存儲到所述分布式文件存儲數(shù)據(jù)庫中的訪問日志進(jìn)行分解并找出該訪問日志中的mobile字段、url字段、query字段和/或op字段,將所述mobile字段、url字段、query字段和/或op字段的對應(yīng)值通過所述分布式文件存儲數(shù)據(jù)庫中的分布式計(jì)算中設(shè)定的該訪問日志的特征值建立映射關(guān)系發(fā)送給所述化簡統(tǒng)計(jì)模塊。
[0076]具體地,在實(shí)施例二中所述采集訪問日志模塊,進(jìn)一步為:將所述訪問日志存入分布式文件存儲數(shù)據(jù)庫中,以小時為單位,按照格式為日志通量yyyyMMddHH的方式存儲到所述分布式文件存儲數(shù)據(jù)庫中的相應(yīng)的集合文檔中。
[0077]具體地,在實(shí)施例二中所述化簡統(tǒng)計(jì)模塊,進(jìn)一步為對該訪問日志下的所有有效日志信息進(jìn)行化簡操作,輸出化簡后的有效日志信息,根據(jù)所述化簡后的有效日志信息以小時、天、周、月或年為單位,輸出該訪問日志下的以訪問為主鍵的點(diǎn)擊量和對應(yīng)的流量中間數(shù)據(jù)的值,或輸出該訪問日志下的以訪問和會話身份為主鍵的獨(dú)立訪客數(shù)量和對應(yīng)的流量中間數(shù)據(jù)的值。
[0078]由于方法部分已經(jīng)對本申請實(shí)施例一進(jìn)行了詳細(xì)描述,這里對實(shí)施例二中涉及的系統(tǒng)與方法對應(yīng)部分的展開描述省略,不再贅述。對于系統(tǒng)中具體內(nèi)容的描述可參考實(shí)施例一所述方法的內(nèi)容,這里不再具體限定。
[0079]與現(xiàn)有技術(shù)相比,本申請所述的一種基于分布式文件存儲的網(wǎng)站頁面內(nèi)容統(tǒng)計(jì)的方法和系統(tǒng),達(dá)到了如下效果:
[0080]I)本申請所述的技術(shù)方案解決了根據(jù)業(yè)務(wù)類型方便的組合查詢條件進(jìn)行網(wǎng)站的PV、UV統(tǒng)計(jì)的問題,可以實(shí)現(xiàn)按天、按周、按月或者按年生成統(tǒng)計(jì)報(bào)表;
[0081]2)本申請所述的技術(shù)方案更主要是通過將分散的文本日志統(tǒng)一到分布式文件存儲數(shù)據(jù)庫進(jìn)行日志等分析,在進(jìn)行化簡最后合并生成可以實(shí)現(xiàn)按天、按周、按月或者按年生成統(tǒng)計(jì)報(bào)表。
[0082]上述說明示出并描述了本申請的若干優(yōu)選實(shí)施例,但如前所述,應(yīng)當(dāng)理解本申請并非局限于本文所披露的形式,不應(yīng)看作是對其他實(shí)施例的排除,而可用于各種其他組合、修改和環(huán)境,并能夠在本文所述申請構(gòu)想范圍內(nèi),通過上述教導(dǎo)或相關(guān)領(lǐng)域的技術(shù)或知識進(jìn)行改動。而本領(lǐng)域人員所進(jìn)行的改動和變化不脫離本申請的精神和范圍,則都應(yīng)在本申請所附權(quán)利要求的保護(hù)范圍內(nèi)。
【權(quán)利要求】
1.一種基于分布式文件存儲的網(wǎng)站頁面內(nèi)容統(tǒng)計(jì)的方法,其特征在于,包括: 采集訪問日志,并將所述訪問日志存入分布式文件存儲數(shù)據(jù)庫中,以小時為單位存儲到所述分布式文件存儲數(shù)據(jù)庫中的相應(yīng)的集合文檔中; 對存儲到所述分布式文件存儲數(shù)據(jù)庫中的訪問日志進(jìn)行分解并找出該訪問日志中的有效日志信息,將有效日志信息與該訪問日志建立映射關(guān)系; 對該訪問日志下的所有有效日志信息進(jìn)行化簡操作,輸出化簡后的有效日志信息,根據(jù)所述化簡后的有效日志信息,輸出該訪問日志下的以訪問為主鍵的點(diǎn)擊量和對應(yīng)的流量中間數(shù)據(jù)的值,或輸出該訪問日志下的以訪問和會話身份為主鍵的獨(dú)立訪客數(shù)量和對應(yīng)的流量中間數(shù)據(jù)的值。
2.如權(quán)利要求1所述的基于分布式文件存儲的網(wǎng)站頁面內(nèi)容統(tǒng)計(jì)的方法,其特征在于,所述有效日志信息,包括mobile字段、url字段、query字段和/或op字段。
3.如權(quán)利要求2所述的基于分布式文件存儲的網(wǎng)站頁面內(nèi)容統(tǒng)計(jì)的方法,其特征在于,將有效日志信息與該訪問日志建立映射關(guān)系,進(jìn)一步為:將所述mobile字段、url字段、query字段和/或op字段的對應(yīng)值通過所述分布式文件存儲數(shù)據(jù)庫中的分布式計(jì)算中設(shè)定的該訪問日志的特征值建立映射關(guān)系。
4.如權(quán)利要求1所述的基于分布式文件存儲的網(wǎng)站頁面內(nèi)容統(tǒng)計(jì)的方法,其特征在于,以小時為單位存儲到所述分布式文件存儲數(shù)據(jù)庫中的相應(yīng)的集合文檔中,進(jìn)一步為:以小時為單位,按照格式為日志通量yyyyMMddHH的方式存儲到所述分布式文件存儲數(shù)據(jù)庫中的相應(yīng)的集合文檔中。
5.如權(quán)利要求1所述的基于分布式文件存儲的網(wǎng)站頁面內(nèi)容統(tǒng)計(jì)的方法,其特征在于,對該訪問日志下的所有有效日志信息進(jìn)行化簡操作,輸出化簡后的有效日志信息,根據(jù)所述化簡后的有效日志信息,輸出該訪問日志下的以訪問為主鍵的點(diǎn)擊量和對應(yīng)的流量中間數(shù)據(jù)的值,或輸出該訪問日`志下的以訪問和會話身份為主鍵的獨(dú)立訪客數(shù)量和對應(yīng)的流量中間數(shù)據(jù)的值,進(jìn)一步為: 對該訪問日志下的所有有效日志信息進(jìn)行化簡操作,輸出化簡后的有效日志信息,根據(jù)所述化簡后的有效日志信息以小時、天、周、月或年為單位,輸出該訪問日志下的以訪問為主鍵的點(diǎn)擊量和對應(yīng)的流量中間數(shù)據(jù)的值,或輸出該訪問日志下的以訪問和會話身份為主鍵的獨(dú)立訪客數(shù)量和對應(yīng)的流量中間數(shù)據(jù)的值。
6.一種基于分布式文件存儲的網(wǎng)站頁面內(nèi)容統(tǒng)計(jì)的系統(tǒng),其特征在于,包括:采集訪問日志模塊、查找分析模塊和化簡統(tǒng)計(jì)模塊;其中, 所述采集訪問日志模塊,將所述訪問日志存入分布式文件存儲數(shù)據(jù)庫中,以小時為單位存儲到所述分布式文件存儲數(shù)據(jù)庫中的相應(yīng)的集合文檔中; 所述查找分析模塊,對存儲到所述分布式文件存儲數(shù)據(jù)庫中的訪問日志進(jìn)行分解并找出該訪問日志中的有效日志信息,將有效日志信息與該訪問日志建立映射關(guān)系發(fā)送給所述化簡統(tǒng)計(jì)模塊; 所述化簡統(tǒng)計(jì)模塊,對該訪問日志下的所有有效日志信息進(jìn)行化簡操作,輸出化簡后的有效日志信息,根據(jù)所述化簡后的有效日志信息,輸出該訪問日志下的以訪問為主鍵的點(diǎn)擊量和對應(yīng)的流量中間數(shù)據(jù)的值,或輸出該訪問日志下的以訪問和會話身份為主鍵的獨(dú)立訪客數(shù)量和對應(yīng)的流量中間數(shù)據(jù)的值。
7.如權(quán)利要求6所述的基于分布式文件存儲的網(wǎng)站頁面內(nèi)容統(tǒng)計(jì)的系統(tǒng),其特征在于,所述有效日志信息,包括mobile字段、url字段、query字段和/或op字段。
8.如權(quán)利要求7所述的基于分布式文件存儲的網(wǎng)站頁面內(nèi)容統(tǒng)計(jì)的系統(tǒng),其特征在于,所述查找分析模塊,進(jìn)一步為:對存儲到所述分布式文件存儲數(shù)據(jù)庫中的訪問日志進(jìn)行分解并找出該訪問日志中的mobile字段、url字段、query字段和/或op字段,將所述mobile字段、url字段、query字段和/或op字段的對應(yīng)值通過所述分布式文件存儲數(shù)據(jù)庫中的分布式計(jì)算中設(shè)定的該訪問日志的特征值建立映射關(guān)系發(fā)送給所述化簡統(tǒng)計(jì)模塊。
9.如權(quán)利要求6所述的基于分布式文件存儲的網(wǎng)站頁面內(nèi)容統(tǒng)計(jì)的系統(tǒng),其特征在于,所述采集訪問日志模塊,進(jìn)一步為:將所述訪問日志存入分布式文件存儲數(shù)據(jù)庫中,以小時為單位,按照格式為日志通量yyyyMMddHH的方式存儲到所述分布式文件存儲數(shù)據(jù)庫中的相應(yīng)的集合文檔中。
10.如權(quán)利要求6所述的基于分布式文件存儲的網(wǎng)站頁面內(nèi)容統(tǒng)計(jì)的系統(tǒng),其特征在于,所述化簡統(tǒng)計(jì)模塊,進(jìn)一步為對該訪問日志下的所有有效日志信息進(jìn)行化簡操作,輸出化簡后的有效日志信息,根據(jù)所述化簡后的有效日志信息以小時、天、周、月或年為單位,輸出該訪問日志下的以訪問為主鍵的點(diǎn)擊量和對應(yīng)的流量中間數(shù)據(jù)的值,或輸出該訪問日志下的以訪問和會話身份為主鍵的獨(dú)立訪客數(shù)量和對應(yīng)的流量中間數(shù)據(jù)的值。
【文檔編號】G06F17/30GK103729479SQ201410038246
【公開日】2014年4月16日 申請日期:2014年1月26日 優(yōu)先權(quán)日:2014年1月26日
【發(fā)明者】瞿繼合, 趙哲, 曹東, 李建濤 申請人:北京北緯通信科技股份有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
乐昌市| 肃北| 黎川县| 广东省| 宁阳县| 唐山市| 秦皇岛市| 甘南县| 赫章县| 青神县| 思南县| 闸北区| 奉贤区| 河西区| 蚌埠市| 安庆市| 保山市| 绥宁县| 徐汇区| 舒兰市| 天门市| 新营市| 津市市| 六枝特区| 凭祥市| 长垣县| 万全县| 济阳县| 乐陵市| 连州市| 定南县| 吴江市| 城市| 株洲县| 贺州市| 黔江区| 门源| 英超| 定安县| 靖边县| 开原市|