基于Web日志數(shù)據(jù)挖掘的網(wǎng)站優(yōu)化方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于網(wǎng)絡(luò)站點優(yōu)化技術(shù)領(lǐng)域,尤其涉及一種基于Web日志數(shù)據(jù)挖掘的網(wǎng)站 優(yōu)化方法。
【背景技術(shù)】
[0002] 近年來,網(wǎng)絡(luò)技術(shù)迅速發(fā)展,隨著科技的突飛猛進,以及生活水平的日益提高, 越來越多的人喜歡到網(wǎng)上了解和搜索自己感興趣的東西,網(wǎng)絡(luò)已經(jīng)成為了人們溝通交流 的重要途徑之一。同時,網(wǎng)站作為一種新的信息平臺,受到了越來越多的公司、企業(yè)甚至 個人的重視。企業(yè)網(wǎng)站按照功能大致可以分為企業(yè)形象展示、公司產(chǎn)品推廣、信息發(fā)布和數(shù) 字商務(wù)類型。無論哪一類型的網(wǎng)站,最終目的還是要吸引客戶訪問,從而提升公司形象, 促成產(chǎn)品交易。企業(yè)網(wǎng)站的結(jié)構(gòu)設(shè)計、頁面信息等因素將會直接影響瀏覽者對企業(yè)網(wǎng)站整 體乃至整個企業(yè)的印象。
[0003] 但是,公司網(wǎng)站在運行時,不能直觀地反映出用戶的訪問習(xí)慣和訪問要求,因而 公司管理者不能很好的了解公司網(wǎng)站的運行情況對網(wǎng)站結(jié)構(gòu)進行優(yōu)化,提升用戶滿意度, 為公司帶來效益。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的發(fā)明目的是:為了解決現(xiàn)有技術(shù)中Web日志不能很好的使得網(wǎng)站得到優(yōu) 化等問題,本發(fā)明提出了一種基于Web日志數(shù)據(jù)挖掘的網(wǎng)站優(yōu)化方法。
[0005] 本發(fā)明的技術(shù)方案是:一種基于Web日志數(shù)據(jù)挖掘的網(wǎng)站優(yōu)化方法,包括以下步 驟:
[0006] A、從站點服務(wù)器獲取Web日志數(shù)據(jù);
[0007] B、對步驟A中獲取的Web日志數(shù)據(jù)進行預(yù)處理,得到用戶的訪問序列;
[0008] C、對步驟B中得到的用戶訪問序列進行數(shù)據(jù)挖掘,得到用戶訪問模式集合;
[0009] D、對步驟C中得到的用戶訪問模式集合進行篩選,根據(jù)篩選得到的用戶訪問模式 對網(wǎng)站進行優(yōu)化。
[0010] 進一步地,所述Web日志數(shù)據(jù)包括IP地址、請求時間、GET方法、被請求文件的 URUHTTP版本號、返回碼、傳輸字節(jié)數(shù)、被請求文件的頁面和代理。
[0011] 進一步地,所述步驟B對Web日志數(shù)據(jù)進行預(yù)處理,具體包括以下分步驟:
[0012] B1、對Web日志數(shù)據(jù)進行清洗,刪除無效及錯誤數(shù)據(jù)并對Web日志數(shù)據(jù)進行分類;
[0013] B2、根據(jù)Web日志數(shù)據(jù)和站點拓?fù)浣Y(jié)構(gòu)將用戶及請求訪問網(wǎng)頁進行關(guān)聯(lián),并對用 戶進行識別;
[0014] B3、將用戶的原始訪問序列劃分為若干個單次訪問序列;
[0015] B4、判斷用戶請求訪問頁面和對應(yīng)頁面請求有無鏈接關(guān)系;若用戶請求訪問頁面 和對應(yīng)頁面請求有鏈接關(guān)系,則進行下一步驟;若用戶請求訪問頁面和對應(yīng)頁面請求無鏈 接關(guān)系,則利用站點拓?fù)浣Y(jié)構(gòu)將請求頁面補充完整;
[0016] B5、根據(jù)用戶訪問第一個頁面至回退前訪問的一個頁面的訪問路徑,得到用戶的 訪問序列。
[0017] 進一步地,所述步驟B2中對用戶進行識別,具體包括以下分步驟:
[0018] B21、根據(jù)Web日志數(shù)據(jù)獲取用戶IP地址、代理和操作系統(tǒng),并對用戶集進行初始 化;
[0019] B22、判斷用戶IP地址是否相同,若用戶IP地址不相同,則將該用戶加入到用戶 集;若用戶IP地址相同,則進行下一步驟;
[0020] B23、判斷代理或者操作系統(tǒng)是否相同,若代理或者操作系統(tǒng)不同,則將該用戶加 入到用戶集;若代理或者操作系統(tǒng)都相同,則進行下一步驟;
[0021] B24、根據(jù)站點拓?fù)浣Y(jié)構(gòu)判定用戶請求訪問頁面能否從已訪問所有頁面到達(dá),若用 戶請求訪問頁面能夠從已訪問所有頁面到達(dá),則操作結(jié)束;若用戶請求訪問頁面不能從已 訪問所有頁面到達(dá),則將該用戶加入到用戶集。
[0022] 進一步地,所述步驟C具體為:根據(jù)預(yù)處理后的Web日志數(shù)據(jù),利用統(tǒng)計分析方法, 得到流量分析、低層次錯誤分析、網(wǎng)站出入口分析及用戶來源分析數(shù)據(jù);并利用關(guān)聯(lián)規(guī)則挖 掘方法,得到用戶訪問序列模式。
[0023] 本發(fā)明的有益效果是:本發(fā)明的基于Web日志數(shù)據(jù)挖掘的網(wǎng)站優(yōu)化方法,通過對 Web日志數(shù)據(jù)進行預(yù)處理,再利用統(tǒng)計分析方法和關(guān)聯(lián)規(guī)則挖掘方法對預(yù)處理后的Web日 志數(shù)據(jù)進行挖掘,得到用戶訪問規(guī)律及模式,從而對網(wǎng)站結(jié)構(gòu)進行調(diào)整及頁面內(nèi)容進行優(yōu) 化,改善了網(wǎng)站的設(shè)計,提高了用戶的訪問及瀏覽興趣。
【附圖說明】
[0024] 圖1是本發(fā)明的基于Web日志數(shù)據(jù)挖掘的網(wǎng)站優(yōu)化方法流程示意圖。
[0025] 圖2是本發(fā)明實施例中站點拓?fù)浣Y(jié)構(gòu)示意圖。
[0026] 圖3是本發(fā)明實施例中頻繁項挖掘過程示意圖。
【具體實施方式】
[0027] 為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合附圖及實施例,對 本發(fā)明進行進一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實施例僅用以解釋本發(fā)明,并不 用于限定本發(fā)明。
[0028] 如圖1所示,為本發(fā)明的基于Web日志數(shù)據(jù)挖掘的網(wǎng)站優(yōu)化方法流程示意圖。一 種基于Web日志數(shù)據(jù)挖掘的網(wǎng)站優(yōu)化方法,包括以下步驟:
[0029] A、從站點服務(wù)器獲取Web日志數(shù)據(jù);
[0030] B、對步驟A中獲取的Web日志數(shù)據(jù)進行預(yù)處理,得到用戶的訪問序列;
[0031] C、對步驟B中得到的用戶訪問序列進行數(shù)據(jù)挖掘,得到用戶訪問模式集合;
[0032] D、對步驟C中得到的用戶訪問模式集合進行篩選,根據(jù)篩選得到的用戶訪問模式 對網(wǎng)站進行優(yōu)化。
[0033] 在步驟A中,服務(wù)器是最直接的數(shù)據(jù)來源,不管靜態(tài)還是動態(tài)網(wǎng)站,只要客戶端訪 問站點就會在服務(wù)器上產(chǎn)生相應(yīng)的數(shù)據(jù),包括服務(wù)器日志,數(shù)據(jù)庫日志等。本發(fā)明從站點 Apache Tomcat服務(wù)器運行日志中獲取Web日志數(shù)據(jù),日志文件記錄每個從客戶端發(fā)起的 請求信息。這里的Web日志數(shù)據(jù)包括IP地址、請求時間、GET方法、被請求文件的URL(統(tǒng) 一資源定位符)、HTTP(Hyper Text Transfer Protocol,超文本傳輸協(xié)議)版本號、返回碼、 傳輸字節(jié)數(shù)、被請求文件的頁面和代理。如下表1所示,為本發(fā)明獲取的Web日志數(shù)據(jù)。
[0034] 表1、本發(fā)明獲取的Web日志數(shù)據(jù)
[0035]
[0036] 在步驟B中,由于網(wǎng)絡(luò)環(huán)境的復(fù)雜性和用戶環(huán)境的多樣性,Web訪問日志中很多數(shù) 據(jù)是不能使用的或者是錯誤的數(shù)據(jù),因此需要對步驟A中獲取的Web日志數(shù)據(jù)進行預(yù)處理, 具體包括以下分步驟:
[0037] B1、對Web日志數(shù)據(jù)進行清洗,刪除無效及錯誤數(shù)據(jù)并對Web日志數(shù)據(jù)進行分類;
[0038] B2、根據(jù)Web日志數(shù)據(jù)和站點拓?fù)浣Y(jié)構(gòu)將用戶及請求訪問網(wǎng)頁進行關(guān)聯(lián),并對用 戶進行識別;
[0039] B3、將用戶的原始訪問序列劃分為若干個單次訪問序列;
[0040] B4、判斷用戶請求訪問頁面和對應(yīng)頁面請求有無鏈接關(guān)系;若用戶請求訪問頁面 和對應(yīng)頁面請求有鏈接關(guān)系,則進行下一步驟;若用戶請求訪問頁面和對應(yīng)頁面請求無鏈 接關(guān)系,則利用站點拓?fù)浣Y(jié)構(gòu)將請求頁面補充完整;
[0041] B5、根據(jù)用戶訪問第一個頁面至回退前訪問的一個頁面的訪問路徑,得到用戶的 訪問序列。
[0042] 在步驟Bl中,本發(fā)明對Web日志數(shù)據(jù)進行清洗包括對無效及錯誤數(shù)據(jù)進行刪除及 對刪除處理后得到的Web日志數(shù)據(jù)進行分類。本發(fā)明通過刪除無效或者錯誤的數(shù)據(jù),減少 數(shù)據(jù)量,縮小挖掘?qū)ο螅岣邤?shù)據(jù)挖掘的效率。這里刪除無效或者錯誤的數(shù)據(jù)具體包括以下 分步驟:
[0043] B11、刪除Web日志數(shù)據(jù)中以jpg、]>68、見6、見£6、8丨;^6正和〇88、」8等結(jié)尾的記 錄數(shù)據(jù)。
[0044] 以上記錄數(shù)據(jù)是用戶非顯示請求的站點圖形文件和頁面樣式文件,這些文件通常 是站點根據(jù)請求頁面中的連接自動下載的。
[0045] B12、刪除返回代碼404 (沒有找到)、301 (永久刪除)或500 (內(nèi)部服務(wù)器