專利名稱:一種基于樹形日志模式分析的博客好友推薦方法
技術(shù)領(lǐng)域:
本發(fā)明涉及對博客服務(wù)器日志的數(shù)據(jù)分析技術(shù)和頻繁訪問模式的挖掘技術(shù), 特別是涉及一種基于樹形日志模式分析的博客好友推薦方法。
背景技術(shù):
隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,博客已經(jīng)不僅僅是一個單純的發(fā)布個人文章、信息 的平臺,在增加了各種類如留言、關(guān)注、好友等互動功能后,用戶之間會逐漸形成一個博客 圈。博客圈中包含好友、潛在好友(尚未加入好友名單的博客或者是好友的好友)和志趣相 投的其他博客等等。在博客這樣的典型《吐2. 0應(yīng)用中,建立志趣相投的用戶社會關(guān)系是決 定系統(tǒng)成敗的關(guān)鍵,因此面向博客的好友推薦已經(jīng)成為博客系統(tǒng)的主體功能。博客好友推 薦應(yīng)用通過用戶對博客的訪問行為,發(fā)現(xiàn)博客用戶間潛在的關(guān)聯(lián)性,并試著建議博客根據(jù) 關(guān)聯(lián)性將與有可能其具有共同興趣的人群轉(zhuǎn)化為好友關(guān)系。博客圈是一種復(fù)雜的樹形或者圖形結(jié)構(gòu),目前已經(jīng)存在一些面向博客的好友推薦 系統(tǒng)。他們一般基于博客間已經(jīng)建立的好友關(guān)系和服務(wù)器記錄的訪問量來做推薦,這些推 薦方法基于頻繁項挖掘或是頻繁序列挖掘,存在以下不足和缺點1)沒有考慮博客間特有 的平行鏈接關(guān)系和間接訪問特性;2)沒有考慮用戶訪問頁面的先后順序所隱藏的博客頁面 間的邏輯關(guān)系;3)沒有充分考慮網(wǎng)站組織架構(gòu)的層次關(guān)系和深度關(guān)系。
發(fā)明內(nèi)容
針對博客服務(wù)器日志所隱含的豐富的用戶行為信息和頁面組織信息,本發(fā)明的目 的在于提供一種基于樹形日志模式分析的博客好友推薦方法,是針對博客日志的,基于樹 形結(jié)構(gòu)挖掘的博客推薦方法。本發(fā)明解決其技術(shù)問題采用的技術(shù)方案是 該方法采用的步驟如下
1)解析原始日志,提取有效信息,在數(shù)據(jù)庫中創(chuàng)建會話表,用來記錄用戶的訪問路
徑;
2)針對待推薦的博客,在數(shù)據(jù)庫中找出訪問過待推薦的博客的用戶,根據(jù)用戶的訪問 日志,去回環(huán),構(gòu)建以待推薦的博客為根的訪問日志樹;
3)對構(gòu)造出的訪問日志樹做頻繁遞歸無序樹挖掘,找出符合預(yù)設(shè)要求的頻繁子樹;
4)把頻繁子樹中的節(jié)點作為候選博客好友,按設(shè)定的公式進行推薦度計算,取分值最 高的若干個進行推薦。2、根據(jù)權(quán)利要求1所述的一種基于樹形日志模式分析的博客好友推薦方法,其特 征在于所述步驟1)中解析原始日志,提取有效信息,就是用日志解析器提取服務(wù)器中的 日志,得到一個時間片內(nèi)的訪問記錄,去掉用戶請求中的冗余信息,轉(zhuǎn)化成訪問三元組 < 訪 問者,訪問時間,訪問博客 > 存入會話表中,時間片大小的選擇依據(jù)博客訪問量和運行挖掘 算法的計算機的性能,訪問者為注冊用戶的,以用戶名為“訪問者”的標(biāo)識,訪問者為匿名用戶的,以用戶IP為“訪問者”的標(biāo)識。3、根據(jù)權(quán)利要求1所述的一種基于樹形日志模式分析的博客好友推薦方法,其特 征在于所述步驟幻中針對待推薦的博客,在數(shù)據(jù)庫中找出訪問過待推薦的博客的用戶, 根據(jù)用戶的訪問日志,去回環(huán),構(gòu)建以待推薦的博客為根的訪問日志樹,就是根據(jù)網(wǎng)站的組 織結(jié)構(gòu)信息,針對待推薦的博客,在會話表中查找出訪問過該博客的用戶和用戶第一次訪 問該博客的時間,針對每個查找得到的訪問者,提取出查找得到的訪問者在訪問待推薦的 博客后訪問的其它博客的記錄;樹形結(jié)構(gòu)生成器以每個訪問者為單位構(gòu)造訪問日志樹,訪 問者訪問的每個博客對應(yīng)一個節(jié)點,每個節(jié)點包含訪問三元組信息,父子節(jié)點關(guān)系的形成 依據(jù)連續(xù)訪問請求的時間上的先后順序;對于產(chǎn)生的回環(huán),刪除訪問時間上最遲的邊,產(chǎn)生 的訪問日志樹具有三個特點第一,訪問日志樹具有相同的根節(jié)點,即為待推薦的博客;第 二,所有的訪問日志樹不存在標(biāo)簽相同的兄弟節(jié)點;第三,訪問日志樹是無序的,即每個節(jié) 點的子節(jié)點是無序的。4、根據(jù)權(quán)利要求1所述的一種基于樹形日志模式分析的博客好友推薦方法,其 特征在于所述步驟幻中對構(gòu)造出的訪問日志樹做頻繁遞歸無序樹挖掘,找出符合預(yù)設(shè) 要求的頻繁子樹,就是把所有的訪問日志樹分別記為tl,t2…tn,選擇合適的最小支持度 minsupi (0, 1),用頻繁子樹挖掘器進行挖掘,具體步驟如下
第一步、遍歷tl,t2…tn,把“訪問三元組”中“訪問博客”相同的節(jié)點歸為相同節(jié)點,統(tǒng) 計每種節(jié)點在訪問日志樹中出現(xiàn)的次數(shù)frel,對于frel>minsup*n的節(jié)點,記為頻繁子樹 EQl ;
第二步、對EQl做擴展,把兩個EQl中的節(jié)點做連接操作,構(gòu)成父子關(guān)系,形成包含2 個節(jié)點的樹,作為候選子樹,統(tǒng)計出候選子樹在所有訪問日志樹中的出現(xiàn)次數(shù)fre2,對于 fre2>minsup*n的候選子樹,記為頻繁子樹EQ2 ;
第三步、從EQ2開始,對于每棵樹的最右路徑,做枚舉擴展,每次擴展一個節(jié)點,找出所 有可能的候選子樹,統(tǒng)計出出現(xiàn)次數(shù)frei>minsUp*n的樹,記為新的頻繁子樹EQi,做類似 的遞歸操作,不斷增加挖掘的頻繁子樹的節(jié)點數(shù)目,直到?jīng)]有符合的候選子樹為止。5、根據(jù)權(quán)利要求1所述的一種基于樹形日志模式分析的博客好友推薦方法,其特 征在于所述步驟4)中把挖掘得到的頻繁子樹中的節(jié)點作為候選博客好友,按設(shè)定的公式 進行推薦度計算,取分值最高的若干個進行推薦,就是對節(jié)點數(shù)大于3的頻繁子樹,按照出 現(xiàn)頻度fre從大到小排序,依次拿出每棵頻繁子樹,做如下操作根據(jù)寬度優(yōu)先遍歷,從樹 的第2層開始,計算每個節(jié)點的推薦度R,公式如下
權(quán)利要求
1.一種基于樹形日志模式分析的博客好友推薦方法,其特征在于該方法采用的步驟如下1)解析原始日志,提取有效信息,在數(shù)據(jù)庫中創(chuàng)建會話表,用來記錄用戶的訪問路徑;2)針對待推薦的博客,在數(shù)據(jù)庫中找出訪問過待推薦的博客的用戶,根據(jù)用戶的訪問 日志,去回環(huán),構(gòu)建以待推薦的博客為根的訪問日志樹;3)對構(gòu)造出的訪問日志樹做頻繁遞歸無序樹挖掘,找出符合預(yù)設(shè)要求的頻繁子樹;4)把頻繁子樹中的節(jié)點作為候選博客好友,按設(shè)定的公式進行推薦度計算,取分值最 高的若干個進行推薦。
2.根據(jù)權(quán)利要求1所述的一種基于樹形日志模式分析的博客好友推薦方法,其特征在 于所述步驟1)中解析原始日志,提取有效信息,就是用日志解析器提取服務(wù)器中的日志, 得到一個時間片內(nèi)的訪問記錄,去掉用戶請求中的冗余信息,轉(zhuǎn)化成訪問三元組〈訪問者, 訪問時間,訪問博客〉存入會話表中,時間片大小的選擇依據(jù)博客訪問量和運行挖掘算法 的計算機的性能,訪問者為注冊用戶的,以用戶名為“訪問者”的標(biāo)識,訪問者為匿名用戶 的,以用戶IP為“訪問者”的標(biāo)識。
3.根據(jù)權(quán)利要求1所述的一種基于樹形日志模式分析的博客好友推薦方法,其特征在 于所述步驟2)中針對待推薦的博客,在數(shù)據(jù)庫中找出訪問過待推薦的博客的用戶,根據(jù) 用戶的訪問日志,去回環(huán),構(gòu)建以待推薦的博客為根的訪問日志樹,就是根據(jù)網(wǎng)站的組織結(jié) 構(gòu)信息,針對待推薦的博客,在會話表中查找出訪問過該博客的用戶和用戶第一次訪問該 博客的時間,針對每個查找得到的訪問者,提取出查找得到的訪問者在訪問待推薦的博客 后訪問的其它博客的記錄;樹形結(jié)構(gòu)生成器以每個訪問者為單位構(gòu)造訪問日志樹,訪問者 訪問的每個博客對應(yīng)一個節(jié)點,每個節(jié)點包含訪問三元組信息,父子節(jié)點關(guān)系的形成依據(jù) 連續(xù)訪問請求的時間上的先后順序;對于產(chǎn)生的回環(huán),刪除訪問時間上最遲的邊,產(chǎn)生的訪 問日志樹具有三個特點第一,訪問日志樹具有相同的根節(jié)點,即為待推薦的博客;第二, 所有的訪問日志樹不存在標(biāo)簽相同的兄弟節(jié)點;第三,訪問日志樹是無序的,即每個節(jié)點的 子節(jié)點是無序的。
4.根據(jù)權(quán)利要求1所述的一種基于樹形日志模式分析的博客好友推薦方法,其特 征在于所述步驟3)中對構(gòu)造出的訪問日志樹做頻繁遞歸無序樹挖掘,找出符合預(yù)設(shè)要 求的頻繁子樹,就是把所有的訪問日志樹分別記為tl,t2-tn,選擇合適的最小支持度 minsupi (0, 1),用頻繁子樹挖掘器進行挖掘,具體步驟如下第一步、遍歷tl,t2…tn,把“訪問三元組”中“訪問博客”相同的節(jié)點歸為相同節(jié)點,統(tǒng) 計每種節(jié)點在訪問日志樹中出現(xiàn)的次數(shù)frel,對于frel>minsup*n的節(jié)點,記為頻繁子樹 EQl ;第二步、對EQl做擴展,把兩個EQl中的節(jié)點做連接操作,構(gòu)成父子關(guān)系,形成包含2 個節(jié)點的樹,作為候選子樹,統(tǒng)計出候選子樹在所有訪問日志樹中的出現(xiàn)次數(shù)fre2,對于 fre2>minsup*n的候選子樹,記為頻繁子樹EQ2 ;第三步、從EQ2開始,對于每棵樹的最右路徑,做枚舉擴展,每次擴展一個節(jié)點,找出所 有可能的候選子樹,統(tǒng)計出出現(xiàn)次數(shù)frei>minsUp*n的樹,記為新的頻繁子樹EQi,做類似 的遞歸操作,不斷增加挖掘的頻繁子樹的節(jié)點數(shù)目,直到?jīng)]有符合的候選子樹為止。
5.根據(jù)權(quán)利要求1所述的一種基于樹形日志模式分析的博客好友推薦方法,其特征在 于所述步驟4)中把挖掘得到的頻繁子樹中的節(jié)點作為候選博客好友,按設(shè)定的公式進行 推薦度計算,取分值最高的若干個進行推薦,就是對節(jié)點數(shù)大于3的頻繁子樹,按照出現(xiàn)頻 度fre從大到小排序,依次拿出每棵頻繁子樹,做如下操作根據(jù)寬度優(yōu)先遍歷,從樹的第2 層開始,計算每個節(jié)點的推薦度R,公式如下參數(shù)說明fre為頻繁子樹的頻度;T表示是否存在直接的頁面鏈接,存在,則T為1,不 存在,則T為0 ;d是該節(jié)點的深度,根節(jié)點深度記為0 ; Wk是每層的權(quán)重參數(shù),默認為1 ; Bk為每層的分支數(shù)目,即同一父節(jié)點下兄弟節(jié)點數(shù)目;計算出所有候選節(jié)點的推薦度后,根 據(jù)需要,選出分值最高的若干個節(jié)點,取節(jié)點對應(yīng)的博客作為博客好友進行推薦。
全文摘要
本發(fā)明公開了一種基于樹形日志模式分析的博客好友推薦方法。采用離線挖掘方法,通過對服務(wù)器日志的解析,提取出訪問者對博客頁面的訪問記錄,通過分組,排序,去回環(huán)等技術(shù)進一步構(gòu)造出以待推薦的博客為根的訪問日志樹,對構(gòu)造出的訪問日志樹做頻繁挖掘,找出符合預(yù)設(shè)要求的頻繁子樹,把頻繁子樹中的節(jié)點作為候選博客好友,按設(shè)定的公式進行推薦度計算,取分值最高的若干個進行推薦。算法不同于傳統(tǒng)的基于頻繁項挖掘或頻繁序列挖掘的算法,針對博客圈特有的平行鏈接關(guān)系和間接訪問特性,采用了頻繁樹形結(jié)構(gòu)挖掘的方法,充分發(fā)掘,提取了博客間潛在的訪問聯(lián)系,并推薦給訪問用戶,提高了用戶體驗,是一種高效,實用的博客推薦方法。
文檔編號G06F17/30GK102122291SQ201110020478
公開日2011年7月13日 申請日期2011年1月18日 優(yōu)先權(quán)日2011年1月18日
發(fā)明者周健, 壽黎但, 胡天磊, 貝毅君, 陳剛, 陳珂 申請人:浙江大學(xué)