基于Web日志數(shù)據(jù)挖掘的網(wǎng)站優(yōu)化方法

文檔序號：9350019閱讀：716來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于Web日志數(shù)據(jù)挖掘的網(wǎng)站優(yōu)化方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于網(wǎng)絡(luò)站點優(yōu)化技術(shù)領(lǐng)域，尤其涉及一種基于Web日志數(shù)據(jù)挖掘的網(wǎng)站優(yōu)化方法。
【背景技術(shù)】
[0002] 近年來，網(wǎng)絡(luò)技術(shù)迅速發(fā)展，隨著科技的突飛猛進，以及生活水平的日益提高，越來越多的人喜歡到網(wǎng)上了解和搜索自己感興趣的東西，網(wǎng)絡(luò)已經(jīng)成為了人們溝通交流的重要途徑之一。同時，網(wǎng)站作為一種新的信息平臺，受到了越來越多的公司、企業(yè)甚至個人的重視。企業(yè)網(wǎng)站按照功能大致可以分為企業(yè)形象展示、公司產(chǎn)品推廣、信息發(fā)布和數(shù) 字商務(wù)類型。無論哪一類型的網(wǎng)站，最終目的還是要吸引客戶訪問，從而提升公司形象，促成產(chǎn)品交易。企業(yè)網(wǎng)站的結(jié)構(gòu)設(shè)計、頁面信息等因素將會直接影響瀏覽者對企業(yè)網(wǎng)站整體乃至整個企業(yè)的印象。
[0003] 但是，公司網(wǎng)站在運行時，不能直觀地反映出用戶的訪問習(xí)慣和訪問要求，因而公司管理者不能很好的了解公司網(wǎng)站的運行情況對網(wǎng)站結(jié)構(gòu)進行優(yōu)化，提升用戶滿意度，為公司帶來效益。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明的發(fā)明目的是：為了解決現(xiàn)有技術(shù)中Web日志不能很好的使得網(wǎng)站得到優(yōu) 化等問題，本發(fā)明提出了一種基于Web日志數(shù)據(jù)挖掘的網(wǎng)站優(yōu)化方法。
[0005] 本發(fā)明的技術(shù)方案是：一種基于Web日志數(shù)據(jù)挖掘的網(wǎng)站優(yōu)化方法，包括以下步驟：
[0006] A、從站點服務(wù)器獲取Web日志數(shù)據(jù)；
[0007] B、對步驟A中獲取的Web日志數(shù)據(jù)進行預(yù)處理，得到用戶的訪問序列；
[0008] C、對步驟B中得到的用戶訪問序列進行數(shù)據(jù)挖掘，得到用戶訪問模式集合；
[0009] D、對步驟C中得到的用戶訪問模式集合進行篩選，根據(jù)篩選得到的用戶訪問模式對網(wǎng)站進行優(yōu)化。
[0010] 進一步地，所述Web日志數(shù)據(jù)包括IP地址、請求時間、GET方法、被請求文件的 URUHTTP版本號、返回碼、傳輸字節(jié)數(shù)、被請求文件的頁面和代理。
[0011] 進一步地，所述步驟B對Web日志數(shù)據(jù)進行預(yù)處理，具體包括以下分步驟：
[0012] B1、對Web日志數(shù)據(jù)進行清洗，刪除無效及錯誤數(shù)據(jù)并對Web日志數(shù)據(jù)進行分類；
[0013] B2、根據(jù)Web日志數(shù)據(jù)和站點拓?fù)浣Y(jié)構(gòu)將用戶及請求訪問網(wǎng)頁進行關(guān)聯(lián)，并對用戶進行識別；
[0014] B3、將用戶的原始訪問序列劃分為若干個單次訪問序列；
[0015] B4、判斷用戶請求訪問頁面和對應(yīng)頁面請求有無鏈接關(guān)系；若用戶請求訪問頁面和對應(yīng)頁面請求有鏈接關(guān)系，則進行下一步驟；若用戶請求訪問頁面和對應(yīng)頁面請求無鏈接關(guān)系，則利用站點拓?fù)浣Y(jié)構(gòu)將請求頁面補充完整；
[0016] B5、根據(jù)用戶訪問第一個頁面至回退前訪問的一個頁面的訪問路徑，得到用戶的訪問序列。
[0017] 進一步地，所述步驟B2中對用戶進行識別，具體包括以下分步驟：
[0018] B21、根據(jù)Web日志數(shù)據(jù)獲取用戶IP地址、代理和操作系統(tǒng)，并對用戶集進行初始化；
[0019] B22、判斷用戶IP地址是否相同，若用戶IP地址不相同，則將該用戶加入到用戶集；若用戶IP地址相同，則進行下一步驟；
[0020] B23、判斷代理或者操作系統(tǒng)是否相同，若代理或者操作系統(tǒng)不同，則將該用戶加入到用戶集；若代理或者操作系統(tǒng)都相同，則進行下一步驟；
[0021] B24、根據(jù)站點拓?fù)浣Y(jié)構(gòu)判定用戶請求訪問頁面能否從已訪問所有頁面到達(dá)，若用戶請求訪問頁面能夠從已訪問所有頁面到達(dá)，則操作結(jié)束；若用戶請求訪問頁面不能從已訪問所有頁面到達(dá)，則將該用戶加入到用戶集。
[0022] 進一步地，所述步驟C具體為：根據(jù)預(yù)處理后的Web日志數(shù)據(jù)，利用統(tǒng)計分析方法，得到流量分析、低層次錯誤分析、網(wǎng)站出入口分析及用戶來源分析數(shù)據(jù)；并利用關(guān)聯(lián)規(guī)則挖掘方法，得到用戶訪問序列模式。
[0023] 本發(fā)明的有益效果是：本發(fā)明的基于Web日志數(shù)據(jù)挖掘的網(wǎng)站優(yōu)化方法，通過對 Web日志數(shù)據(jù)進行預(yù)處理，再利用統(tǒng)計分析方法和關(guān)聯(lián)規(guī)則挖掘方法對預(yù)處理后的Web日志數(shù)據(jù)進行挖掘，得到用戶訪問規(guī)律及模式，從而對網(wǎng)站結(jié)構(gòu)進行調(diào)整及頁面內(nèi)容進行優(yōu) 化，改善了網(wǎng)站的設(shè)計，提高了用戶的訪問及瀏覽興趣。
【附圖說明】
[0024] 圖1是本發(fā)明的基于Web日志數(shù)據(jù)挖掘的網(wǎng)站優(yōu)化方法流程示意圖。
[0025] 圖2是本發(fā)明實施例中站點拓?fù)浣Y(jié)構(gòu)示意圖。
[0026] 圖3是本發(fā)明實施例中頻繁項挖掘過程示意圖。
【具體實施方式】
[0027] 為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白，以下結(jié)合附圖及實施例，對本發(fā)明進行進一步詳細(xì)說明。應(yīng)當(dāng)理解，此處所描述的具體實施例僅用以解釋本發(fā)明，并不用于限定本發(fā)明。
[0028] 如圖1所示，為本發(fā)明的基于Web日志數(shù)據(jù)挖掘的網(wǎng)站優(yōu)化方法流程示意圖。一種基于Web日志數(shù)據(jù)挖掘的網(wǎng)站優(yōu)化方法，包括以下步驟：
[0029] A、從站點服務(wù)器獲取Web日志數(shù)據(jù)；
[0030] B、對步驟A中獲取的Web日志數(shù)據(jù)進行預(yù)處理，得到用戶的訪問序列；
[0031] C、對步驟B中得到的用戶訪問序列進行數(shù)據(jù)挖掘，得到用戶訪問模式集合；
[0032] D、對步驟C中得到的用戶訪問模式集合進行篩選，根據(jù)篩選得到的用戶訪問模式對網(wǎng)站進行優(yōu)化。
[0033] 在步驟A中，服務(wù)器是最直接的數(shù)據(jù)來源，不管靜態(tài)還是動態(tài)網(wǎng)站，只要客戶端訪問站點就會在服務(wù)器上產(chǎn)生相應(yīng)的數(shù)據(jù)，包括服務(wù)器日志，數(shù)據(jù)庫日志等。本發(fā)明從站點 Apache Tomcat服務(wù)器運行日志中獲取Web日志數(shù)據(jù)，日志文件記錄每個從客戶端發(fā)起的請求信息。這里的Web日志數(shù)據(jù)包括IP地址、請求時間、GET方法、被請求文件的URL(統(tǒng) 一資源定位符）、HTTP(Hyper Text Transfer Protocol，超文本傳輸協(xié)議）版本號、返回碼、傳輸字節(jié)數(shù)、被請求文件的頁面和代理。如下表1所示，為本發(fā)明獲取的Web日志數(shù)據(jù)。
[0034] 表1、本發(fā)明獲取的Web日志數(shù)據(jù)
[0035]
[0036] 在步驟B中，由于網(wǎng)絡(luò)環(huán)境的復(fù)雜性和用戶環(huán)境的多樣性，Web訪問日志中很多數(shù) 據(jù)是不能使用的或者是錯誤的數(shù)據(jù)，因此需要對步驟A中獲取的Web日志數(shù)據(jù)進行預(yù)處理，具體包括以下分步驟：
[0037] B1、對Web日志數(shù)據(jù)進行清洗，刪除無效及錯誤數(shù)據(jù)并對Web日志數(shù)據(jù)進行分類；
[0038] B2、根據(jù)Web日志數(shù)據(jù)和站點拓?fù)浣Y(jié)構(gòu)將用戶及請求訪問網(wǎng)頁進行關(guān)聯(lián)，并對用戶進行識別；
[0039] B3、將用戶的原始訪問序列劃分為若干個單次訪問序列；
[0040] B4、判斷用戶請求訪問頁面和對應(yīng)頁面請求有無鏈接關(guān)系；若用戶請求訪問頁面和對應(yīng)頁面請求有鏈接關(guān)系，則進行下一步驟；若用戶請求訪問頁面和對應(yīng)頁面請求無鏈接關(guān)系，則利用站點拓?fù)浣Y(jié)構(gòu)將請求頁面補充完整；
[0041] B5、根據(jù)用戶訪問第一個頁面至回退前訪問的一個頁面的訪問路徑，得到用戶的訪問序列。
[0042] 在步驟Bl中，本發(fā)明對Web日志數(shù)據(jù)進行清洗包括對無效及錯誤數(shù)據(jù)進行刪除及對刪除處理后得到的Web日志數(shù)據(jù)進行分類。本發(fā)明通過刪除無效或者錯誤的數(shù)據(jù)，減少數(shù)據(jù)量，縮小挖掘?qū)ο螅岣邤?shù)據(jù)挖掘的效率。這里刪除無效或者錯誤的數(shù)據(jù)具體包括以下分步驟：
[0043] B11、刪除Web日志數(shù)據(jù)中以jpg、]>68、見6、見￡6、8丨;^6正和〇88、」8等結(jié)尾的記錄數(shù)據(jù)。
[0044] 以上記錄數(shù)據(jù)是用戶非顯示請求的站點圖形文件和頁面樣式文件，這些文件通常是站點根據(jù)請求頁面中的連接自動下載的。
[0045] B12、刪除返回代碼404 (沒有找到）、301 (永久刪除）或500 (內(nèi)部服務(wù)器

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：唐雪飛;陳科;劉明鳴;吳亞駿;
技術(shù)所有人：成都康賽信息技術(shù)有限公司;
我是此專利的發(fā)明人

上一篇：基于智能終端的成語詞典查找方法
上一篇：一種優(yōu)化電子商務(wù)商品搜索的方法及系統(tǒng)的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

web日志挖掘相關(guān)技術(shù)

web關(guān)鍵詞優(yōu)化方法相關(guān)技術(shù)

web性能優(yōu)化方法相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于Web日志數(shù)據(jù)挖掘的網(wǎng)站優(yōu)化方法