專利名稱:一種分布式網(wǎng)站日志數(shù)據(jù)采集方法和分布式網(wǎng)站系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及互聯(lián)網(wǎng)數(shù)據(jù)處理技術(shù),尤其是分布式網(wǎng)站日志采集方法。
背景技術(shù):
隨著互聯(lián)網(wǎng)的普及,為了提高互聯(lián)網(wǎng)應(yīng)用中數(shù)據(jù)處理速度以及滿足數(shù)據(jù) 量越來越大的要求,很多大型網(wǎng)站逐步采用了分布式的網(wǎng)絡(luò)結(jié)構(gòu)主要在于實 現(xiàn)負載的均衡。
所述分布式的結(jié)構(gòu)是使用多個同樣角色的服務(wù)器做前臺的WEB服務(wù), 這種結(jié)構(gòu)大大方便了服務(wù)的分布規(guī)劃和擴展性。但另一方面,多個服務(wù)器的 分布設(shè)置使得網(wǎng)絡(luò)日志數(shù)據(jù)的分析統(tǒng)計也變得有些麻煩。
例如采用現(xiàn)有較通用的一款網(wǎng)頁分析工具webalizer,那么對于分布式的 網(wǎng)絡(luò)結(jié)構(gòu),就需要對每臺服務(wù)器分別做日志數(shù)據(jù)統(tǒng)計,從而帶來以下的問題
1、 數(shù)據(jù)的匯總帶來很多麻煩,比如統(tǒng)計的總訪問量需要將服務(wù)器1 (SERVER1)、服務(wù)器2 ( SERVER2 )……上指定期限內(nèi)的數(shù)據(jù)相加;
2、 對于唯一訪客數(shù)unique visits,唯一站點數(shù)unique sites的等指標(biāo)的統(tǒng) 計造成影響,基于網(wǎng)絡(luò)分布式的網(wǎng)絡(luò)結(jié)構(gòu)特點以及負載均衡的機制,上述這 些指標(biāo)的統(tǒng)計并非是將幾臺服務(wù)器上數(shù)據(jù)的代數(shù)相加。
并且,在上述問題基礎(chǔ)上,在每臺服務(wù)器上配置日志數(shù)據(jù)分析功能將提 高服務(wù)器的環(huán)境的復(fù)雜度,降低服務(wù)器運行的安全性能;并且,分布式結(jié)構(gòu) 中各服務(wù)器的日志數(shù)據(jù)分析功能需要保持一致,當(dāng)變更某一服務(wù)器上的日志 數(shù)據(jù)分析功能后,為了實現(xiàn)全網(wǎng)數(shù)據(jù)的統(tǒng)計,不得不將所有服務(wù)器上的日志 數(shù)據(jù)分析功能進行適應(yīng)性的變更,使得數(shù)據(jù)完整性不易監(jiān)控,并提高了維護 成本。因此,在一定程度上限制了分布式網(wǎng)站的可擴展性和部署。
發(fā)明內(nèi)容
本發(fā)明實施例要提供分布式網(wǎng)站日志采集方法。目的在于降低網(wǎng)絡(luò)曰志 數(shù)據(jù)統(tǒng)計的復(fù)雜度,并且提高分布式網(wǎng)站的可擴展性。
為解決上述技術(shù)問題,本發(fā)明所提供的分布式網(wǎng)站日志采集方法實施例
是通過以下技術(shù)方案實現(xiàn)的
一種分布式網(wǎng)站日志數(shù)據(jù)采集方法,包括對WEB服務(wù)器的日志數(shù)據(jù) 進行凈化處理,并將凈化處理后的日志數(shù)據(jù)上傳到集中處理服務(wù)器;集中處 理服務(wù)器將收到的日志lt據(jù)文件合并為一個文件。
上述方法中,WEB服務(wù)器上傳日志數(shù)據(jù)前,對凈化后的日志數(shù)據(jù)進行 壓縮,并標(biāo)記服務(wù)器的標(biāo)識;集中處理服務(wù)器依據(jù)服務(wù)器列表,根據(jù)所述服 務(wù)器標(biāo)識判斷預(yù)定執(zhí)行日志數(shù)據(jù)上傳的WEB服務(wù)器的日志數(shù)據(jù)是否到達。
上述方法基礎(chǔ)上,WEB服務(wù)器上傳日志數(shù)據(jù)前,進一步對壓縮后得到 的曰志數(shù)據(jù)文件生成第一校驗文件,以及將所述第一校驗文件發(fā)送到集中處 理服務(wù)器;集中處理服務(wù)器采用與WEB服務(wù)器相同的校驗算法對獲取到的 日志數(shù)據(jù)文件生成第二校驗文件,若所述第一校驗文件與所述第二校驗文件 不同,則觸發(fā)WEB服務(wù)器重新上傳日志數(shù)據(jù)文件。
相應(yīng)的本發(fā)明實施例還提供了分布式網(wǎng)站系統(tǒng),包括WEB服務(wù)器, 集中處理服務(wù)器;其中,WEB服務(wù)器,用于對已保存的日志數(shù)據(jù)進行凈化 處理,并將凈化處理后的日志數(shù)據(jù)上傳到集中處理服務(wù)器;集中處理服務(wù)器 將收到的日志數(shù)據(jù)文件合并為一個文件。
在上述系統(tǒng)結(jié)構(gòu)基礎(chǔ)上,WEB服務(wù)器,進一步用于對凈化后的日志數(shù) 據(jù)進行壓縮,并標(biāo)記服務(wù)器的標(biāo)識;集中處理服務(wù)器,用于依據(jù)服務(wù)器列表, 根據(jù)所述服務(wù)器標(biāo)識判斷預(yù)定執(zhí)行日志數(shù)據(jù)上傳的WEB服務(wù)器的日志數(shù)據(jù) 是否到達。
進一步的,WEB服務(wù)器,還包括對壓縮后得到的日志數(shù)據(jù)文件生成 第一校驗文件,以及將所述第一校驗文件發(fā)送到集中處理服務(wù)器;集中處理 服務(wù)器,還用于采用與WEB服務(wù)器相同的校驗算法對獲取到的日志數(shù)據(jù)文 件生成第二才交驗文件,若所述第一沖L驗文件與所述第二校-瞼文件不同,則觸 發(fā)WEB服務(wù)器重新上傳日志lt據(jù)文件。
由以上技術(shù)方案可以看出,本發(fā)明中在各WEB服務(wù)器上報日志數(shù)據(jù)之 前對待上報的日志數(shù)據(jù)進行凈化處理,因而,減小了集中處理服務(wù)器的工作
負荷;并且,由于本發(fā)明中各WEB服務(wù)器僅需要在上報日志數(shù)據(jù)前進行凈 化處理,與現(xiàn)有技術(shù)相比,不需要在WEB服務(wù)器配置太多的CGI環(huán)境(所 述CGI環(huán)境是一種運行在網(wǎng)絡(luò)服務(wù)器上的程序環(huán)境,該程序用于超文本傳輸 協(xié)議HTTP服務(wù)器與其它終端上的程序進行交互)或者其他特殊要求,僅利 用系統(tǒng)本身的功能就可達到本方案的要求,使得本發(fā)明WEB服務(wù)器具有較 高的安全性,并且,本發(fā)明不會出現(xiàn)現(xiàn)有技術(shù)中"為了實現(xiàn)全網(wǎng)數(shù)據(jù)的統(tǒng)計, 不得不將所有服務(wù)器上的日志數(shù)據(jù)分析功能進行統(tǒng)一化的變更",因此使得 本發(fā)明的系統(tǒng)部署簡單,提高了系統(tǒng)的可擴展性。
進一步的,基于上述方法實現(xiàn)的基礎(chǔ)上,使得本發(fā)明集中處理服務(wù)器可 以機將采集到的日志數(shù)據(jù)文件進行合并處理,因而可以避免由于用戶訪問記 錄有可能在兩臺以上的服務(wù)器上保存而導(dǎo)致數(shù)據(jù)統(tǒng)計的不準確,最終提高了 曰志數(shù)據(jù)分析的準確性。
圖1為本發(fā)明實施例方法示意圖。
具體實施例方式
本發(fā)明目的在于降低網(wǎng)絡(luò)日志數(shù)據(jù)統(tǒng)計的復(fù)雜度,并且提高分布式網(wǎng)站 的可擴展性。
為實現(xiàn)上述發(fā)明目的,參照圖1,以下具體說明本發(fā)明實施例的實現(xiàn)方式。
如圖l所示,本發(fā)明實施例系統(tǒng)包括WEB服務(wù)器和集中處理服務(wù)器, 該系統(tǒng)滿足分布式的結(jié)構(gòu),即多個同樣角色的服務(wù)器用于前臺的WEB服務(wù)。 所述方法包括以下步驟。
步驟ll,對于已保存的日志數(shù)據(jù),WEB服務(wù)器對其進行凈化處理。
所述凈化處理的目的在于過濾掉對于日志數(shù)據(jù)分析無用的數(shù)據(jù),以減少 日志數(shù)據(jù)的大小。所述過濾方法很多,例如對于Linux服務(wù)器,可以直接采 用SHELL命令,過慮掉諸如樣式、圖片等一些不需要的日志記錄。因為往 往一個用戶請求一個頁面中含有大量的腳本、樣式、圖片數(shù)據(jù),所以通過數(shù)
據(jù)凈化后,能大大減少日志文件大小,進而減少了網(wǎng)絡(luò)傳輸?shù)臅r間,并且有 助于提高對日志數(shù)據(jù)的分析效率。 '所述執(zhí)行日志數(shù)據(jù)凈化處理的時機可以選擇在WEB服務(wù)器負載低峰時段,所述服務(wù)器低峰時段可根據(jù)統(tǒng)計數(shù)據(jù)分析得到,并且隨著網(wǎng)絡(luò)應(yīng)用的發(fā) 展可根據(jù)統(tǒng)計數(shù)據(jù)結(jié)果進行調(diào)整。步驟12,對凈化處理后的日志數(shù)據(jù),WEB服務(wù)器對其進行壓縮處理生 成日志數(shù)據(jù)壓縮文件,所述壓縮文件名附加上本服務(wù)器的標(biāo)識,以便在集中 處理服務(wù)器上能夠區(qū)分不同WEB服務(wù)器發(fā)送的網(wǎng)絡(luò)日志數(shù)據(jù)壓縮文件。本 實施例中采用IP地址用于區(qū)分不同服務(wù)器的日志數(shù)據(jù)壓縮文件。除此之外, 也可以為每臺服務(wù)器編號作標(biāo)識或者采用其他標(biāo)識方法。步驟13,為了防止文件網(wǎng)絡(luò)傳輸?shù)臅r候,傳輸不完整或者出錯,因此需 要把壓縮后的文件做個文件驗證,生成第一校驗碼。本實施例中采用MD5 校驗方法,然而本發(fā)明并無意對具體采用的校驗方法進行限制。步驟14,將所述日志數(shù)據(jù)壓縮文件以及所述的第一校驗碼發(fā)送到集中處 理服務(wù)器。本實施例中采用FTP方法傳送所述日志數(shù)據(jù)壓縮文件以及所述點 第一校驗碼。本發(fā)明也可釆用其他方法傳送,如HTTP等。步驟15,集中處理服務(wù)器檢查收到的各服務(wù)器的日志數(shù)據(jù)文件(被壓縮 后的)。具體包括以下步驟的標(biāo)識,因此集中處理服務(wù)器需下載WEB服務(wù)器的IP地址配置列表,且本 實施例中采用FTP方式傳送數(shù)據(jù),因此所述配置文件格式如210.121.123.123 ftpuser ftppasswd210.121.123.124 ftpuser ftppasswd其中,ftpuser是ftp用戶名,ftppasswd是ftp驗證碼。根據(jù)配置文件列表,集中處理服務(wù)器在指定的時間段內(nèi),循環(huán)校驗個 WEB服務(wù)器的日志數(shù)據(jù)文件是否已經(jīng)到達,如果到達,則根據(jù)WEB服務(wù)器 采用的驗證方式對收到的日志數(shù)據(jù)文件進行驗證,如果所述日志數(shù)據(jù)文件還
未到達集中處理服務(wù)器,則等待預(yù)置的時長后再行檢測。本實施例中,集中處理服務(wù)器對收到的日志數(shù)據(jù)壓縮文件進行驗證的方法具體包括按照MD5校驗方法,根據(jù)獲取到的日志數(shù)據(jù)壓縮文件生成第二校驗碼, 若所述第二校驗碼與所述第一校驗碼相同,則表明所述日志數(shù)據(jù)壓縮文件傳 送正確;若所述第二校驗碼與所述第一校驗碼不同,則集中處理服務(wù)器可以 執(zhí)行步驟17,即主動觸發(fā)WEB服務(wù)器對日志數(shù)據(jù)壓縮文件進行重傳。在上述重傳機制基礎(chǔ)上,本發(fā)明實施例中進一步對重傳次數(shù)設(shè)置了門限 值,當(dāng)重傳次數(shù)達到所述門限值時,且獲取到的日志數(shù)據(jù)壓縮文件仍然未能 通過MD5驗證時,則集中處理服務(wù)器可停止對該WEB服務(wù)器的日志數(shù)據(jù)壓 縮文件進行處理,并發(fā)出告警。所述告警形式可包括發(fā)送郵件或者短信報 警,以使得網(wǎng)站維護人員可以根據(jù)實際情況進行處理,以保證整個網(wǎng)站日志 的完整性。步驟16,若集中處理服務(wù)器判斷已獲取到預(yù)定的WEB服務(wù)器的日志數(shù) 據(jù)壓縮文件,則把所述壓縮文件進行解壓;并且,因為用戶訪問記錄有可能 在兩臺以上的WEB服務(wù)器存在,為了保證數(shù)據(jù)的準確性,集中處理服務(wù)器 要將各WEB服務(wù)器的日志文件合并到一個文件當(dāng)中。由以上技術(shù)方案可以看出,本發(fā)明中在各WEB服務(wù)器上"^艮日志數(shù)據(jù)之 前對待上報的日志數(shù)據(jù)進行凈化處理,從而減少了很多不必要的記錄。這樣 在以后的日志分析過程中,將提高日志數(shù)據(jù)的分析效率,減小集中處理服務(wù) 器的工作負荷。并且,由于本發(fā)明中各WEB服務(wù)器僅需要在上報日志數(shù)據(jù)前進行凈化 處理,不需要在WEB服務(wù)器配置太多的CGI環(huán)境或者其他特殊要求,僅利 用系統(tǒng)本身的功能就可達到本方案的要求。理論上,越多的環(huán)境配置,安全 性就會相應(yīng)的下降,因此,本發(fā)明WEB服務(wù)器具有較高的安全性。因為分布式網(wǎng)站采用的WEB服務(wù)器端較多,采用現(xiàn)有的技術(shù),則改變一 點需求,則需要對每臺WEB端的腳本和程序進行調(diào)整,這樣的調(diào)整過程容易
出錯。而且每臺服務(wù)器的日志不容易作監(jiān)控,如果某臺服務(wù)器日志出現(xiàn)了不正常,很難發(fā)現(xiàn)到底是哪臺WEB服務(wù)端出現(xiàn)了問題。相比現(xiàn)有技術(shù),本發(fā)明不會出現(xiàn)現(xiàn)有技術(shù)中"為了實現(xiàn)全網(wǎng)數(shù)據(jù)的統(tǒng)計,不得不將所有服務(wù)器上的 日志數(shù)據(jù)分析功能進行統(tǒng)一化的變更",因此使得本發(fā)明的系統(tǒng)部署簡單, 提高了系統(tǒng)的可擴展性。并且由于日志數(shù)據(jù)集中在集中處理服務(wù)器中進行處 理,因此更容易確定問題并進行解決。相應(yīng)的,本發(fā)明還提供了一種分布式網(wǎng)站系統(tǒng),其特征在于,包括 WEB服務(wù)器,集中處理服務(wù)器;其中,WEB服務(wù)器,用于對已保存的曰志 數(shù)據(jù)進行凈化處理,并將凈化處理后的日志數(shù)據(jù)上傳到集中處理服務(wù)器;集 中處理服務(wù)器將收到的日志數(shù)據(jù)文件合并為一個文件。其中,所述凈化處理包括過濾日志數(shù)據(jù)中的樣式或/和圖片數(shù)據(jù)。在上述系統(tǒng)結(jié)構(gòu)基礎(chǔ)上,所述WEB服務(wù)器,進一步用于對凈化后的日 志數(shù)據(jù)進行壓縮,并標(biāo)記服務(wù)器的標(biāo)識;以及,所述集中處理服務(wù)器,用于依據(jù)服務(wù)器列表,根據(jù)所述服務(wù)器標(biāo) 識判斷預(yù)定執(zhí)行日志數(shù)據(jù)上傳的WEB服務(wù)器的日志數(shù)據(jù)是否到達。在上述系統(tǒng)結(jié)構(gòu)基礎(chǔ)上,所述WEB服務(wù)器,還包括對壓縮后得到的 日志數(shù)據(jù)文件生成第一校驗碼,以及將所述第一校驗碼發(fā)送到集中處理服務(wù) 器;以及,所述集中處理服務(wù)器,還用于采用與WEB服務(wù)器相同的校驗算 法對獲取到的日志數(shù)據(jù)文件生成第二校驗碼,若所述第一校驗碼與所述第二 校驗碼不同,則觸發(fā)WEB服務(wù)器重新上傳日志數(shù)據(jù)文件。以上對本發(fā)明實施例所提供的 一種分布式網(wǎng)站日志數(shù)據(jù)采集方法和分 布式網(wǎng)站系統(tǒng)進行了詳細介紹,本文中應(yīng)用了具體個例對本發(fā)明的原理及實 施方式進行了闡述,以上實施例的說明只是用于幫助理解本發(fā)明的實現(xiàn)方 式;同時,對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實施方 式及應(yīng)用范圍上可能會有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對 本發(fā)明的限制。
權(quán)利要求
1、一種分布式網(wǎng)站日志數(shù)據(jù)采集方法,其特征在于,包括對WEB服務(wù)器的日志數(shù)據(jù)進行凈化處理,并將凈化處理后的日志數(shù)據(jù)上傳到集中處理服務(wù)器;集中處理服務(wù)器將收到的日志數(shù)據(jù)文件合并為一個文件。
2、 如權(quán)利要求l所述的方法,其特征在于,所述凈化處理包括過濾日 志數(shù)據(jù)中的樣式或/和圖片數(shù)據(jù)。
3、 如權(quán)利要求1所述的方法,其特征在于WEB服務(wù)器上傳日志數(shù)據(jù)前,對凈化后的日志數(shù)據(jù)進行壓縮,并標(biāo)記服 務(wù)器的標(biāo)識;集中處理服務(wù)器依據(jù)服務(wù)器列表,根據(jù)所述服務(wù)器標(biāo)識判斷預(yù)定執(zhí)行日 志數(shù)據(jù)上傳的WEB服務(wù)器的日志數(shù)據(jù)是否到達。
4、 如權(quán)利要求3所述的方法,其特征在于WEB服務(wù)器上傳日志數(shù)據(jù)前,進一步對壓縮后得到的日志數(shù)據(jù)文件生成 第一校驗碼,以及將所述第一校驗碼發(fā)送到集中處理服務(wù)器;集中處理服務(wù)器采用與WEB服務(wù)器相同的校驗算法對獲取到的日志數(shù) 據(jù)文件生成第二校驗文件,若所述第一校驗碼與所述第二校驗碼不同,則觸 發(fā)WEB服務(wù)器重新上傳日志數(shù)據(jù)文件。
5、 如權(quán)利要求l所述的方法,其特征在于在預(yù)置的時間或者在服務(wù)器負載低于預(yù)置門限時啟動所述的日志數(shù)據(jù)凈 化處理。
6、 一種分布式網(wǎng)站系統(tǒng),其特征在于,包括WEB服務(wù)器,集中處理 服務(wù)器;其中,WEB服務(wù)器,用于對已保存的日志數(shù)據(jù)進行凈化處理,并將凈化處理后 的日志數(shù)據(jù)上傳到集中處理服務(wù)器;集中處理服務(wù)器將收到的日志數(shù)據(jù)文件合并為一個文件。
7、 如權(quán)利要求6所述的網(wǎng)站系統(tǒng),其特征在于,所述凈化處理包括過 濾日志數(shù)據(jù)中的樣式或/和圖片數(shù)據(jù)。
8、 如權(quán)利要求6所述的網(wǎng)站系統(tǒng),其特征在于,WEB服務(wù)器,進一步用于對凈化后的日志數(shù)據(jù)進行壓縮,并標(biāo)記服務(wù)器 的標(biāo)識;集中處理服務(wù)器,用于依據(jù)服務(wù)器列表,根據(jù)所述服務(wù)器標(biāo)識判斷預(yù)定執(zhí)行日志數(shù)據(jù)上傳的WEB服務(wù)器的日志數(shù)據(jù)是否到達。
9、 如權(quán)利要求6所述的網(wǎng)站系統(tǒng),其特征在于,WEB服務(wù)器,還包括對壓縮后得到的日志數(shù)據(jù)文件生成第一校驗碼, 以及將所述第 一校驗碼發(fā)送到集中處理服務(wù)器;集中處理服務(wù)器,還用于采用與WEB服務(wù)器相同的校驗算法對獲取到的 日志數(shù)據(jù)文件生成第二校驗碼,若所述第一校驗碼與所述第二校驗碼不同, 則觸發(fā)WEB服務(wù)器重新上傳日志數(shù)據(jù)文件。
全文摘要
本發(fā)明實施例提供了一種分布式網(wǎng)站日志數(shù)據(jù)采集方法和分布式網(wǎng)站系統(tǒng),目的在于降低網(wǎng)絡(luò)日志數(shù)據(jù)統(tǒng)計的復(fù)雜度,并且提高分布式網(wǎng)站的可擴展性。所述方法包括對WEB服務(wù)器的日志數(shù)據(jù)進行凈化處理,并將凈化處理后的日志數(shù)據(jù)上傳到集中處理服務(wù)器;集中處理服務(wù)器將收到的日志數(shù)據(jù)文件合并為一個文件。本發(fā)明減小了集中處理服務(wù)器的工作負荷;使得WEB服務(wù)器具有較高的安全性;并且,本發(fā)明的系統(tǒng)部署簡單,提高了系統(tǒng)的可擴展性。
文檔編號H04L12/24GK101163046SQ200710177939
公開日2008年4月16日 申請日期2007年11月22日 優(yōu)先權(quán)日2007年11月22日
發(fā)明者輝 寧, 濤 張 申請人:北京金山軟件有限公司;北京金山數(shù)字娛樂科技有限公司