一種基于日志挖掘的網(wǎng)站分類目錄優(yōu)化分析方法
【技術領域】
[0001] 本發(fā)明涉及一種網(wǎng)站分類目錄優(yōu)化分析方法,特別是從用戶角度出發(fā),基于日志 挖掘的一種分類目錄優(yōu)化分析方法。
【背景技術】
[0002] 網(wǎng)站分類目錄設計的是否符合用戶期望直接影響用戶對網(wǎng)站的滿意度,進而影響 用戶使用該網(wǎng)站的意愿。網(wǎng)站分類目錄優(yōu)化,是在評價網(wǎng)站現(xiàn)有分類目錄的基礎上決定是 否需要調(diào)整網(wǎng)站已有信息分類體系,若需要調(diào)整者確定如何調(diào)整。
[0003] 當前針對網(wǎng)站分類目錄體系優(yōu)化分析方法的研究還多以調(diào)查問卷、電話訪談等傳 統(tǒng)研究方法為主,研究方法本身的不足以及數(shù)據(jù)的有限性嚴重制約了研究成果的可用性。 目前大多數(shù)網(wǎng)站采用傳統(tǒng)的用戶調(diào)研方式進行用戶研究,而傳統(tǒng)方法如調(diào)查問卷、電話訪 談等基本都是通過設置特定任務或問題讓用戶完成或回答,再對用戶的完成結(jié)果進行定性 定量的分析。這些方法中都是人既作為研究的主體,又作為研究的客體,制約和影響著調(diào)查 的可靠性和適用性,并且其耗費成本高、獲得信息較宏觀,獲得數(shù)據(jù)量也相對比較有限,從 而很難全面地搜集用戶對網(wǎng)站的認知。
[0004] 此外,關于網(wǎng)站分類目錄體系的研究多以理論為主,側(cè)重于分類目錄的功能介紹、 優(yōu)缺點分析、當前網(wǎng)站分類目錄所使用的分類方法的介紹以及分類目錄不足之處等理論方 面的簡單介紹,缺少對用戶認知的關注,缺少相關實證研究。為了使網(wǎng)站分類目錄設計的更 加符合用戶期望,符合用戶的心智模型,網(wǎng)站信息組織需要從"以系統(tǒng)為中心"向"以用戶為 中心"轉(zhuǎn)換,從用戶認知角度研究網(wǎng)站信息組織。
[0005] 總的來說,網(wǎng)站分類體系優(yōu)化方法存在如下問題:(1)很難全面收集用戶關于網(wǎng) 站分類目錄的認知。(2)需要從"以系統(tǒng)為中心"向"以用戶為中心"轉(zhuǎn)換,從用戶認知角度 研究網(wǎng)站信息組織。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明所解決的技術問題在于提供一種基于日志挖掘的網(wǎng)站分類目錄優(yōu)化分析 方法。
[0007] 實現(xiàn)本發(fā)明目的的技術解決方案為:一種基于日志挖掘的網(wǎng)站分類目錄優(yōu)化分析 方法,步驟如下:
[0008] 步驟1、對網(wǎng)站日志數(shù)據(jù)進行預處理,具體為:
[0009] 步驟1-1、對日志數(shù)據(jù)字段進行凈化處理,具體是將原始日志數(shù)據(jù)中的請求協(xié)議字 段、文件名字段這些與挖掘目的不相關的字段刪除,最終保留用戶的IP地址IPNUMBERa* 問時間VISIT-??ΜΕ、瀏覽者的cookie信息COOKIE、訪問網(wǎng)址URL、訪問狀態(tài)STATUS以及當 前訪問網(wǎng)址的來源網(wǎng)址REFERER ;
[0010] 步驟1-2、對日志內(nèi)容進行凈化,具體為:判斷訪問狀態(tài)STATUS的屬性值,若屬性 值不以2、3開頭,則刪除該屬性值對應的日志項:之后判斷訪問網(wǎng)址URL和當前訪問網(wǎng)址的 來源網(wǎng)址REFERER中是否包含字符串"-catalog"或"catlist",若均沒有包含,則刪除該屬 性值對應的日志項;
[0011] 步驟1-3、對網(wǎng)址進行統(tǒng)一編號,具體為:將日志中涉及的訪問網(wǎng)址URL、當前訪問 網(wǎng)址的來源網(wǎng)址REFERER按出現(xiàn)次序用阿拉伯數(shù)字從小到大統(tǒng)一編號,若同一網(wǎng)址出現(xiàn)多 次則按網(wǎng)址第一次出現(xiàn)的次序編號;
[0012] 步驟1-4、建立網(wǎng)址目錄對應關系,具體為:分析日志項中訪問網(wǎng)址URL和當前訪 問網(wǎng)址的來源網(wǎng)址REFERER中的字符串,若存在"-catalog"字符串且"-catalog"字符串 與.html間存在"/",則.html與最近的一個"/"之間的字符串即為網(wǎng)址所在目錄名稱;若 存在"-catalog"字符串且"-catalog"字符串與.html間不存在"/"則"-catalog"字符 串與其左側(cè)最接近的"/"之間的字符串即為網(wǎng)址所在目錄名稱;若存在字符串"catlist" 貝U.html與最近的一個"/"之間的字符串即為網(wǎng)址所在目錄名稱;新建表格記錄網(wǎng)址與所 在目錄的對應關系;
[0013] 步驟1-5、對用戶進行識別,具體為:判斷日志項中是否包含瀏覽者的cookie信息 C00KIE,若包含則認為同一個瀏覽者的cookie信息COOKIE代表同一個用戶,否則認為同一 個IP地址IPNUMBER代表同一用戶;對識別出的用戶按出現(xiàn)次序用阿拉伯數(shù)字從小到大編 號;
[0014] 步驟1-6、對會話路徑進行識別,具體為,分析日志項中同一個用戶訪問時間 VISIT-??ΜΕ,若訪問時間VISIT-??ΜΕ差在30分鐘以內(nèi)則將對應的日志項提取為一個會話 路徑并用阿拉伯數(shù)字將會話路徑從小到大統(tǒng)一編號,會話路徑提取格式為:會話路徑編號、 用戶、訪問網(wǎng)址URL及訪問網(wǎng)址對應的訪問時間VISIT-??ΜΕ ;
[0015] 步驟1-7、對事務路徑進行識別,具體為,若同一個會話路徑中同一個訪問網(wǎng)址 URL出現(xiàn)次數(shù)為η次且η大于1,則將會話路徑分為η個,其中在該訪問網(wǎng)址URL第二次出 現(xiàn)前的會話路徑為第一個事務路徑;刪除會話路徑中該訪問網(wǎng)址URL第一次和第二次出現(xiàn) 間的其他訪問網(wǎng)址URL且只保留一個該訪問網(wǎng)址URL,則會話路徑中該訪問網(wǎng)址URL第三次 出現(xiàn)之前的會話路徑為第二個事務路徑;以此類推直至會話路徑中所有訪問網(wǎng)址URL只出 現(xiàn)一次為止;
[0016] 步驟1-8、對網(wǎng)站分類目錄進行編碼,具體為,按網(wǎng)站分類目錄所在層級以及目錄 間的從屬關系統(tǒng)一用阿拉伯數(shù)字編號;
[0017] 步驟1-9、將事務路徑轉(zhuǎn)化為目錄路徑,具體為,基于步驟1-4中的網(wǎng)址目錄對應 關系,找出事務路徑中每個網(wǎng)址對應的目錄,并用目錄代替事務路徑中對應的網(wǎng)址;若事務 路徑中每個網(wǎng)址轉(zhuǎn)為對應的目錄后,存在同一目錄連續(xù)出現(xiàn)次數(shù)大于1的情況,則最終保 留一個目錄;
[0018] 步驟2、利用"基于瀏覽路徑順序的方法V0B"確定任意兩個目錄路徑之間的相似 度,構(gòu)造目錄路徑相似度矩陣,所述目錄路徑相似度矩陣的第一行和第一列為步驟1-9中 轉(zhuǎn)化后的所有目錄路徑,其余均為行對應目錄與列對應目錄之間的相似度;
[0019] 利用"基于瀏覽路徑順序的方法V0B"確定任意兩個目錄路徑之間的相似度,構(gòu)造 目錄路徑相似度矩陣,具體步驟為 :
[0020] 步驟2-1、對所有的目錄路徑進行標號,依次標為Q1、Q2、Q 3……、Qni,其中m為目錄 路徑總個數(shù);
[0021] 步驟2-2、找出每個目錄路徑Q1所有的t (0〈t〈r+l且t為整數(shù))跳路徑g,具體表 示為:
[0022]
[0023] 其中i為整數(shù)且取值范圍為l〈i〈t+l !Qi = q2, . . .,qf,qi表示按序訪問的目錄, rSA包含的目錄總數(shù)目;之后,用/(10 = 14,(?標識目錄路徑Q1的特征空間;
[0024] 步驟2-3、找出任意兩個目錄路徑Q1和Qj,用"基于瀏覽路徑順序的方法V0B"計算 出Q 1和Q,目錄路徑的相似度Q,,并將其作為目錄路徑相似矩陣中的第i行第j列元素,具 體使用公式為:
[0025]
[0026] 其中 I = min (length (Qi),length (Qj) ),length (Qi)表示目錄路徑 Qi 的長度,1 表 示兩個目錄路徑中較短目錄路徑的長度;〈Qd Q,1是目錄路徑Q1和Q,在特征空間的內(nèi)積, 定義為:
[0027]
[0028] 其中gf表示目錄路徑Q1的k跳路徑;
[0029] 步驟2-4、重復步驟2-3直至算出m*m相似度矩陣中的所有元素為止,構(gòu)造成相似 度矩陣A,具體表示為:
[0030]
[0031] 兵屮m刃日求蹐佇忍個雙。
[0032] 步驟3、利用"基于矩陣變換的分裂層次聚類NHC算法"對目錄路徑相似度矩陣進 行聚類,根據(jù)目錄路徑的相似度將對應的用戶聚類直到所有類別的凝聚度都不小于〇. 95 為止;具體步驟為:
[0033] 步驟3-1、將步驟2中的目錄相似度矩陣A的行和列按數(shù)值從大到小進行排序;
[0034] 步驟3-2、將相似度矩陣按主對角線進行分塊處理矩陣得到矩陣B,具體表示為:
[0035]
[0036] 其中d是矩陣A的劃分點;
[0037] 步驟3-3、找出劃分點,具體為:計算Fd值,當Fd值最大值時d的值就為劃分點,其 中F d表示為:
[0038] Fd = Md (A11) *Md (A22) -Md (A12) *Md (A21)
[0039] 其中Md(Alj)定義為i 彡P彡2, 1彡q彡2,m為目 LlN 丄uouyozs丄 A I ^ 4/
錄路徑總個數(shù);
[0040] 步驟3-4、計算聚簇An、A22的凝聚度T,具體計算公式為:
[0041]
[0042] 其中t表示Axx方陣中的行列數(shù),M = t (t-1) /2, Q1 j表示目錄路徑Q1和目錄路徑 Qj的相似度;
[0043] 步驟3-5、分析各聚簇的凝聚度值,若所有凝聚度值不小于0. 95,則聚類結(jié)束;如 仍有聚簇其凝聚度值小于〇. 95,則將該聚簇當作新一輪的相似度矩陣A,并重復3-1步驟到 3-4步驟直到所有的聚簇凝聚度都不小于0. 95為止。
[0044] 步驟4、基于"路徑搜索法Pathfinder"挖掘出每類用戶期望的目錄體系,并與原 有分類目錄體系對比分析,給出網(wǎng)站分類目錄的具體優(yōu)化建議。具體為:
[0045] 步驟4-1、構(gòu)造