本發(fā)明涉及用戶身份識別領(lǐng)域,具體而言,通過分析用戶的訪問行為,對用戶活躍身份進(jìn)行識別劃分。技術(shù)背景隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,互聯(lián)網(wǎng)用戶的使用人數(shù)也在逐日增加,這些用戶每日訪問互聯(lián)網(wǎng)網(wǎng)站,都會產(chǎn)生大量的訪問信息,合理的利用這些訪問信息,不僅可以挖掘用戶的使用偏好,還能鑒別用戶的活躍身份,使公司從中能夠獲得巨大的商業(yè)價值。然而,通過我們對訪問量的分析發(fā)現(xiàn),雖然訪問總量很多,但冗余、垃圾、的訪問信息依然不少,訪問模塊雖多,但核心模塊卻很有限,總的訪問用戶數(shù)量龐大,但活躍用戶并不多?,F(xiàn)有的技術(shù),很難有一種系統(tǒng)的方法,能夠依據(jù)大量的訪問信息,篩選有價值的訪問內(nèi)容和有效的訪問模塊,合理的判斷用戶的活躍身份。技術(shù)實(shí)現(xiàn)要素:本發(fā)明目的是,提出一種基于訪問行為的活躍用戶身份識別方法,該方法可以有效的依據(jù)用戶對網(wǎng)站各個模塊的訪問量,根據(jù)訪問量的信息,合理判別用戶身份。本發(fā)明技術(shù)方案是:一種基于訪問行為的活躍用戶識別方法,步驟如下:1)解析用戶訪問日志,訪問日志來自于數(shù)據(jù)庫的中日志表;解析日志的任務(wù),提取用戶的有用信息:包含用戶ID、用戶姓名、用戶訪問時間、用戶訪問模塊URL;2)統(tǒng)計用戶模塊訪問次數(shù),首先應(yīng)在數(shù)據(jù)庫中建立一張訪問模塊信息的維表,該維表應(yīng)該包含各級模塊的URL地址以及各級模塊之間的對應(yīng)關(guān)系;訪問的模塊有一級至三級從高級到低級的模塊結(jié)構(gòu),若一級模塊名稱、二級模塊名稱、三級模塊中有上下級模塊缺失(比如只有上級一級模塊沒有下級二級模塊和三級模塊,或者只有上級一、二級模塊,沒有下級三級模塊),應(yīng)進(jìn)行必要的補(bǔ)充;然后,依據(jù)之前提取訪問日志信息,匹配模塊維表,統(tǒng)計用戶每天在不同模塊的訪問次數(shù);3)過濾冗余用戶和訪問模塊,根據(jù)得到的每個用戶每日模塊的訪問次數(shù),由于用戶的數(shù)量遠(yuǎn)遠(yuǎn)大于模塊的數(shù)量,用戶-模塊訪問組成的矩陣將會是一個高維稀疏的矩陣,對矩陣進(jìn)行優(yōu)化:第一是面向用戶,根據(jù)訪問量統(tǒng)計用戶頻數(shù)分布,把頻數(shù)和訪問量同時較小的用戶過濾掉,第二是面向模塊,利用SVD技術(shù)對模塊維度進(jìn)行特征抽取,舍掉不必要的特征,只留下核心模塊;4)劃分用戶身份,采用聚類領(lǐng)域的相關(guān)算法對用戶進(jìn)行劃分;考慮到只需要將用戶劃分成活躍用戶和非活躍用戶,故采用如K-means算法,其中K=2,進(jìn)行活躍用戶劃分。進(jìn)一步,具體步驟如下:S11:解析用戶訪問日志,根據(jù)留存的用戶訪問網(wǎng)站的歷史訪問日志,在對應(yīng)的BI架構(gòu)數(shù)據(jù)倉庫系統(tǒng)中,訪問日志通常放在數(shù)據(jù)倉庫層;對數(shù)據(jù)倉庫層訪問日志表解析中,首先應(yīng)該核心提取訪問用戶ID,訪問用戶的訪問時間,訪問地址URL字段;在日志處理中,限制爬蟲,日志表里有限制爬蟲字段,spider=1,限制非爬蟲;過濾內(nèi)部IP即關(guān)聯(lián)內(nèi)部IP表;訪問鏈接URL解析,由于訪問鏈接地址多種多樣,采用正則表達(dá)式對地址進(jìn)行有效的過濾,包括確立鏈接開頭地址;對于無效用戶同時排除;S12:統(tǒng)計用戶模塊訪問次數(shù),首先應(yīng)該在數(shù)據(jù)倉庫中建立好訪問模塊對應(yīng)的維表,維表包含鏈接編號即主鍵、一級模塊名稱、二級模塊名稱、三級模塊名稱、地址鏈接字段;由于訪問模塊有一級至三級從高級到低級的模塊結(jié)構(gòu),各個模塊存在層級關(guān)系,應(yīng)確立地址鏈接URL屬于的訪問模塊;有的模塊還會存在層級不全情況,用高級模塊去補(bǔ)全低級模塊;三級模塊如果為空的話,就用“設(shè)置主打模塊”去補(bǔ)充三級模塊,如果只有一個一級“登陸”模塊,就用“登陸”模塊去補(bǔ)第二級和第三級模塊;根據(jù)維表,用之前從訪問日志提取的信息去匹配維表,統(tǒng)計用戶每日訪問模塊次數(shù),處理方法應(yīng)根據(jù)訪問日期,訪問用戶ID去分組,先統(tǒng)計底層即三級模塊的訪問次數(shù),再在這基礎(chǔ)上,統(tǒng)計二級、一級模塊的次數(shù),在這同時,還需統(tǒng)計每個用戶每一級模塊下所有模塊的訪問次數(shù)總和;S13:過濾冗余用戶和訪問模塊,第一是對用戶過濾,對用戶過濾的方法用相對簡單,用基本統(tǒng)計方法即可完成,將頻率值較低和總的點(diǎn)擊次數(shù)也比較低的用戶直接過濾掉?;虿捎脤θ哂嗄K的過濾,即利用矩陣分析里面奇異值分解SVD技術(shù),將矩陣分解一種類型,數(shù)學(xué)表達(dá)形式為A=U∑V,其中A是一個m*n的矩陣,就是用戶-模塊矩陣,通過分解,得到U(m*m),∑(m*n),V(n*n)三個矩陣,其中矩陣∑是一個對角陣,主對角線上的元素就是奇異值,通常一定比例的奇異值之和就能占據(jù)到全部奇異值和的99%以上,這里取r(r<n)個奇異值,用數(shù)學(xué)來表示,A≈U(m*r)∑(m*r)V(r*n),這里用表達(dá)式右邊的部分去代替原始矩陣A,由于r(分解后的訪問模塊數(shù))的值小于n(原始的訪問模塊數(shù)),就實(shí)行了特征降維的操作;用戶-模塊當(dāng)成矩陣A,原始的一級模塊有登陸、產(chǎn)品管理、會員信息11個模塊,經(jīng)過SVD分解之后,只剩下包括登陸、前臺頁面查看5個模塊,降低了訪問模塊的冗余度;S14:劃分用戶身份,采用機(jī)器學(xué)習(xí)算法對用戶劃分大致分為兩類,一類是有監(jiān)督的學(xué)習(xí):分類,另一類是無監(jiān)督的學(xué)習(xí):聚類算法采用簡單的K-means算法;K-means算法以距離作為相似度,認(rèn)為距離越近的兩個對象,之間的相似度就越高,就應(yīng)該被劃分到同一類簇中;隨機(jī)選取K個對象作為類簇中心,然后把剩余對象劃分到與類簇中心距離最近的類簇中,然后重新計算類簇中心,重新劃分對象,直到類簇不再變化。K-means算法簡單高效,聚類效果較好,比較適合處理類似活躍用戶劃分問題。有益效果:本發(fā)明提出的一種基于訪問行為的活躍用戶身份識別方法,可以有效的依據(jù)用戶對網(wǎng)站各個模塊的訪問量,根據(jù)訪問量的信息,合理判別用戶身份。本發(fā)明是一種系統(tǒng)的方法,能夠依據(jù)大量的訪問信息,篩選有價值的訪問內(nèi)容和有效的訪問模塊,合理的判斷用戶的活躍身份。附圖說明圖1本實(shí)施例的一種基于訪問行為的活躍用戶識別方法流程圖。具體實(shí)施方案下面結(jié)合附圖和實(shí)施例,對本發(fā)明的具體實(shí)施方案作進(jìn)一步詳細(xì)描述。參閱圖1所示,本發(fā)明的實(shí)施步驟如下:S11:解析用戶訪問日志一般互聯(lián)網(wǎng)公司都會留有用戶訪問網(wǎng)站的歷史訪問日志,在對應(yīng)的BI架構(gòu)數(shù)據(jù)倉庫系統(tǒng)中,訪問日志通常放在數(shù)據(jù)倉庫層。對數(shù)據(jù)倉庫層訪問日志表解析中,首先應(yīng)該核心提取訪問用戶ID,訪問用戶訪問時間,訪問地址URL字段。在日志處理中,還應(yīng)該注意以下幾個問題,比如限制爬蟲(日志表里有限制爬蟲字段,spider=1,限制非爬蟲);過濾內(nèi)部IP(關(guān)聯(lián)內(nèi)部IP表);訪問鏈接URL解析,由于訪問鏈接地址多種多樣(PC端,觸屏端等),應(yīng)該采用如正則表達(dá)式對地址進(jìn)行有效的過濾之類的,比如確立鏈接開頭地址(http開頭、m開頭);對于無效用戶(如訪問用戶ID<=0)也應(yīng)同時排除。S12:統(tǒng)計用戶模塊訪問次數(shù)在這個方面,首先應(yīng)該在數(shù)據(jù)倉庫中建立好訪問模塊對應(yīng)的維表,維表包含鏈接編號(主鍵),一級模塊名稱、二級模塊名稱、三級模塊名稱、地址鏈接字段,維表的設(shè)計應(yīng)該滿足一定的要求。由于各個模塊存在層級關(guān)系(訪問模塊有三級結(jié)構(gòu)),應(yīng)確立好地址鏈接URL屬于的訪問模塊。有的模塊還會存在層級不全情況,如下表所示,此時應(yīng)該用高級模塊去補(bǔ)全低級模塊,比如一級“產(chǎn)品管理”模塊,二級“設(shè)置主打產(chǎn)品模塊”,三級模塊如果為空的話,就用“設(shè)置主打模塊”去補(bǔ)充三級模塊。如果只有一個一級“登陸”模塊,就用“登陸”模塊去補(bǔ)第二級和第三級模塊。鏈接編號一級模塊二級模塊三級模塊地址鏈接1商機(jī)中心管理詢價商機(jī)報價……2產(chǎn)品管理設(shè)置主打產(chǎn)品模塊設(shè)置主打產(chǎn)品模塊……3登陸登陸登陸……4……………………表1訪問模塊鏈接維表部分有了維表,就可以用之前從訪問日志提取的信息去匹配維表,統(tǒng)計用戶每日訪問模塊次數(shù),處理方法應(yīng)根據(jù)訪問日期,訪問用戶ID去分組,先統(tǒng)計底層(三級)模塊的訪問次數(shù),再在這基礎(chǔ)上,統(tǒng)計二級、一級模塊的次數(shù),在這同時,還需統(tǒng)計每個用戶每一級模塊下所有模塊的訪問次數(shù)總和。S13:過濾冗余用戶和訪問模塊有了用戶及其各個模塊的訪問次數(shù),就可以利用這些信息進(jìn)行數(shù)據(jù)分析,然而一個比較嚴(yán)重問題的就是,無論是訪問用戶,還是訪問模塊,都存在大量的冗余數(shù)據(jù),如果把用戶-模塊看成一個矩陣的話,它將會是一個高維稀疏的矩陣,直接對高維稀疏矩陣進(jìn)行數(shù)據(jù)分析,這會很大的影響后面機(jī)器學(xué)習(xí)算法的性能,所以需要一些方法對其進(jìn)行過濾。過濾分為兩個方向,第一個是對用戶過濾,對用戶過濾的方法用相對簡單,用到一些基本的統(tǒng)計學(xué)方法即可完成。這里以每個用戶一級模塊下所有模塊的訪問次數(shù)總和作為評價標(biāo)準(zhǔn),可以畫出一個頻率分布直方密度圖,把頻率值較低和總的點(diǎn)擊次數(shù)也比較低的用戶直接過濾掉。對冗余模塊的過濾相對復(fù)雜一點(diǎn),比較簡單高效的方法是利用矩陣分析里面奇異值分解(SVD)技術(shù),它是矩陣分解一種類型,數(shù)學(xué)表達(dá)形式為A=U∑V,其中A是一個m*n的矩陣,就是我們這里的用戶-模塊矩陣,通過分解,它會得到U(m*m),∑(m*n),V(n*n)三個矩陣,其中矩陣∑是一個對角陣,主對角線上的元素就是奇異值,通常一定比例的奇異值之和就能占據(jù)到全部奇異值和的99%以上,這里取r(r<n)個奇異值,用數(shù)學(xué)來表示,A≈U(m*r)∑(m*r)V(r*n),這里我們可以用表達(dá)式右邊的部分去代替原始矩陣A,由于r的值小于n,就實(shí)行了特征降維的操作。比如在這里,我們以用戶-模塊當(dāng)成矩陣A,原始的一級模塊有登陸、產(chǎn)品管理、會員信息等11個模塊,經(jīng)過SVD分解之后,只剩下登陸、前臺頁面查看等5個模塊,大大降低了訪問模塊的冗余度。S14:劃分用戶身份經(jīng)過前幾步的操作,就進(jìn)入用戶劃分的階段,機(jī)器學(xué)習(xí)算法對用戶劃分大致分為兩類,一類是有監(jiān)督的學(xué)習(xí):分類,另一類是無監(jiān)督的學(xué)習(xí):聚類。由于事先本沒有現(xiàn)成的活躍用戶和非活躍用戶訓(xùn)練集,故應(yīng)采用聚類的算法進(jìn)行劃分。聚類的算法也有很多,有基于層次的,基于密度的,由于只需將用戶劃分成活躍用戶和非活躍用戶,可以采用簡單的K-means算法。K-means算法是一種簡單高效的基于層次劃分的聚類算法,它以距離作為相似度,認(rèn)為距離越近的兩個對象,之間的相似度就越高,就應(yīng)該被劃分到同一類簇中。它的大致流程是隨機(jī)選取K個對象作為類簇中心,然后把剩余對象劃分到與類簇中心距離最近的類簇中,然后重新計算類簇中心,重新劃分對象,直到類簇不再變化。在這里,我們只需劃分活躍用戶和非活躍用戶,所以K的值為2,我們把所有用戶在某個模塊下的訪問次數(shù)作為特征,采用余弦相似度作為距離,經(jīng)過數(shù)輪跌代之后,類簇穩(wěn)定,不在變化??紤]到活躍用戶的數(shù)量遠(yuǎn)小于非活躍用戶,故我們?nèi)☆惔刂行淖鴺?biāo)值大的類簇作為活躍用戶,類簇中心坐標(biāo)值小的類簇作為非活躍用戶,這樣就完成了對用戶身份的劃分。當(dāng)前第1頁1 2 3