構建用戶實時畫像的方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種構建用戶實時畫像的方法及裝置,屬于數(shù)據(jù)處理【技術領域】。方法包括:獲取用戶的日志信息;對日志信息進行過濾,得到日志信息的關鍵字段;提取關鍵字段的標簽標識;根據(jù)標簽標識及關鍵字段,獲取當前標簽信息;根據(jù)標簽標識確定當前標簽信息對應的全部興趣類目;根據(jù)當前標簽信息獲取與每個興趣類目相對應的用戶興趣度。本發(fā)明在對日志信息進行過濾,得到關鍵字段后,提取關鍵字段的標簽標識,并根據(jù)標簽標識及關鍵字段獲取當前標簽信息;進而在確定當前標簽信息對應的興趣類目后,獲取與每個興趣類目相對應的用戶興趣度,實現(xiàn)了在獲取用戶的一個日志信息后,便重新構建用戶實時畫像,從而可根據(jù)用戶實時畫像向用戶推薦數(shù)據(jù)信息。
【專利說明】構建用戶實時畫像的方法及裝置
【技術領域】
[0001] 本發(fā)明涉及數(shù)據(jù)處理【技術領域】,特別涉及一種構建用戶實時畫像的方法及裝置。
【背景技術】
[0002] 隨著網(wǎng)絡技術的快速發(fā)展,互聯(lián)網(wǎng)已成為廣大用戶進行信息分享的平臺,因此,互 聯(lián)網(wǎng)中充斥著海量數(shù)據(jù)信息。在這種情況下,用戶往往湮沒在低價值的海量數(shù)據(jù)信息中。 所以如何向用戶推薦用戶感興趣的數(shù)據(jù)信息,成為了一個技術難題。向用戶推薦數(shù)據(jù)信息 時所采用的關鍵技術之一為建立用戶畫像,所謂的用戶畫像,是將用戶的行為屬性(例如瀏 覽、購買某商品的行為記錄)和基礎屬性(例如性別、年齡等)聚合分析(例如分析用戶對不 同商品類別的興趣度),對用戶進行建模,并基于用戶畫像為用戶推薦數(shù)據(jù)信息。因此,如何 構建用戶畫像,成為了本領域技術人員一個亟待解決的問題。
[0003] 在構建用戶畫像的過程中,一般基于Hadoop的批處理系統(tǒng)進行計算,通常采用如 下兩種方式:第一種方式,獲取并存儲用戶的日志信息,直至存儲的該用戶的日志信息數(shù)量 達到閾值后,根據(jù)存儲的該用戶的日志信息構建用戶畫像;第二種方式,獲取并存儲用戶的 日志信息,每隔預設周期根據(jù)存儲的該用戶的日志信息構建用戶畫像。
[0004] 在實現(xiàn)本發(fā)明的過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術至少存在以下問題:
[0005] 無論針對上述哪種構建用戶畫像的方式來說,均需等待一定時長后,才能構建用 戶畫像,所以時效性較差,而且在根據(jù)構建的用戶畫像向用戶推薦數(shù)據(jù)信息時精準度不高; 另外,由于等待一定時長后,才構建用戶畫像,所以在構建用戶畫像時需進行日志信息的批 量處理,導致處理過程耗時長、過程復雜且計算量大。
【發(fā)明內(nèi)容】
[0006] 為了解決現(xiàn)有技術的問題,本發(fā)明實施例提供了一種構建用戶實時畫像的方法及 裝置。所述技術方案如下:
[0007] -方面,提供了一種構建用戶實時畫像的方法,所述方法包括:
[0008] 獲取用戶的日志信息;
[0009] 對所述日志信息進行過濾,得到所述日志信息的關鍵字段;
[0010] 提取所述關鍵字段的標簽標識;
[0011] 根據(jù)所述標簽標識及所述關鍵字段,獲取當前標簽信息,所述標簽信息至少用于 指示所述標簽標識在所述日志信息的生成時間內(nèi)的出現(xiàn)次數(shù);
[0012] 根據(jù)所述標簽標識,確定所述當前標簽信息對應的全部興趣類目;
[0013] 根據(jù)所述當前標簽信息,獲取與每個興趣類目相對應的用戶興趣度;
[0014] 其中,所述關鍵字段至少包括用戶標識、日志信息的生成時間、所述日志信息的數(shù) 據(jù)源標識及產(chǎn)品標識。
[0015] 進一步地,所述提取所述關鍵字段的標簽標識,包括:
[0016] 檢測所述關鍵字段中是否包含行為類目標識;
[0017] 如果所述關鍵字段中包含行為類目標識,則將所述行為類目標識作為提取到的所 述關鍵字段的標簽標識。
[0018] 進一步地,所述檢測所述關鍵字段中是否包含行為類目標識之后,所述方法還包 括:
[0019] 如果所述關鍵字段中未包含行為類目標識,則根據(jù)所述關鍵字段中的產(chǎn)品標識獲 取與所述產(chǎn)品標識相對應的產(chǎn)品標題,并根據(jù)所述產(chǎn)品標題提取所述關鍵字段的標簽標 識。
[0020] 進一步地,所述根據(jù)所述產(chǎn)品標題提取所述關鍵字段的標簽標識,包括:
[0021] 根據(jù)預設語法規(guī)則對所述產(chǎn)品標題進行分詞處理,得到所述產(chǎn)品標題的多個分詞 結(jié)果;
[0022] 根據(jù)預設過濾條件對多個分詞結(jié)果進行過濾分析,如果得到過濾結(jié)果,則將所述 過濾結(jié)果提取為所述關鍵字段的標簽標識。
[0023] 進一步地,所述根據(jù)所述標簽標識及所述關鍵字段,獲取當前標簽信息,包括:
[0024] 檢測已存儲的多個標簽信息中是否存在包括所述標簽標識和所述標簽標識的提 取類型的標簽信息;
[0025] 如果已存儲的多個標簽信息中包括所述標簽標識和所述標簽標識的提取類型,則 將所述包括所述標簽標識和所述標簽標識的提取類型的標簽信息確定為匹配標簽信息,并 確定所述標簽標識對應的所述日志信息的生成時間是否與所述匹配標簽信息的多個預設 時間段中的一個相對應;
[0026] 如果所述標簽標識對應的所述日志信息的生成時間與所述匹配標簽信息的多個 預設時間段中的一個相對應,則對相對應的時間段中所述標簽標識的出現(xiàn)次數(shù)進行更新。 [0027] 進一步地,所述確定所述標簽標識對應的所述日志信息的生成時間是否與所述匹 配標簽信息的多個預設時間段中的一個相對應之后,所述方法還包括:
[0028] 如果所述標簽標識對應的所述日志信息的生成時間與所述匹配標簽信息的多個 預設時間段均不對應,則根據(jù)所述標簽標識對應的所述日志信息的生成時間創(chuàng)建一條單 獨的存儲項,并統(tǒng)計所述標簽標識在所述標簽標識對應的日志信息的生成時間內(nèi)的出現(xiàn)次 數(shù)。
[0029] 進一步地,所述檢測已存儲的多個標簽信息中是否存在包括所述標簽標識和所述 標簽標識的提取類型的標簽信息之后,所述方法還包括:
[0030] 如果已存儲的所述用戶的多個標簽信息均不包括所述標簽標識和所述標簽標識 的提取類型,則將所述用戶標識及所述日志信息的數(shù)據(jù)源標識作為鍵,將所述標簽標識、所 述標簽標識的提取類型及所述標簽標識的出現(xiàn)次數(shù)作為值,進行鍵值存儲,得到當前標簽 信息。
[0031] 進一步地,所述方法還包括:
[0032] 對已存儲的且存儲時長超過預設時長的預設時間段及對應的標簽標識的出現(xiàn)次 數(shù)進行刪除。
[0033] 進一步地,所述根據(jù)所述標簽信息獲取與每個興趣類目相對應的用戶興趣度,包 括:
[0034] 獲取每個興趣類目對應的多個歷史標簽信息;
[0035] 確定所述當前標簽信息及所述多個歷史標簽信息分別對應的數(shù)據(jù)源的權重值、興 趣類目的權重值、標簽標識出現(xiàn)次數(shù)及時間衰減因子;
[0036] 根據(jù)所述當前標簽信息及所述多個歷史標簽信息中每個標簽信息對應的數(shù)據(jù)源 的權重值、興趣類目的權重值、標簽標識出現(xiàn)次數(shù)及時間衰減因子,獲取與所述每個興趣類 目對應的所述用戶興趣度。
[0037] 進一步地,所述根據(jù)所述當前標簽信息及所述多個歷史標簽信息中每個標簽信息 對應的數(shù)據(jù)源的權重值、興趣類目的權重值、標簽標識出現(xiàn)次數(shù)及時間衰減因子,應用下述 公式,獲取與所述每個興趣類目對應的所述用戶興趣度,包括:
[0038]
【權利要求】
1. 一種構建用戶實時畫像的方法,其特征在于,所述方法包括: 獲取用戶的日志信息; 對所述日志信息進行過濾,得到所述日志信息的關鍵字段; 提取所述關鍵字段的標簽標識; 根據(jù)所述標簽標識及所述關鍵字段,獲取當前標簽信息,所述標簽信息至少用于指示 所述標簽標識在所述日志信息的生成時間內(nèi)的出現(xiàn)次數(shù); 根據(jù)所述標簽標識,確定所述當前標簽信息對應的全部興趣類目; 根據(jù)所述當前標簽信息,獲取與每個興趣類目相對應的用戶興趣度; 其中,所述關鍵字段至少包括用戶標識、日志信息的生成時間、所述日志信息的數(shù)據(jù)源 標識及產(chǎn)品標識。
2. 根據(jù)權利要求1所述的方法,其特征在于,所述提取所述關鍵字段的標簽標識,包 括: 檢測所述關鍵字段中是否包含行為類目標識; 如果所述關鍵字段中包含行為類目標識,則將所述行為類目標識作為提取到的所述關 鍵字段的標簽標識。
3. 根據(jù)權利要求2所述的方法,其特征在于,所述檢測所述關鍵字段中是否包含行為 類目標識之后,所述方法還包括: 如果所述關鍵字段中未包含行為類目標識,則根據(jù)所述關鍵字段中的產(chǎn)品標識獲取與 所述產(chǎn)品標識相對應的產(chǎn)品標題,并根據(jù)所述產(chǎn)品標題提取所述關鍵字段的標簽標識。
4. 根據(jù)權利要求3所述的方法,其特征在于,所述根據(jù)所述產(chǎn)品標題提取所述關鍵字 段的標簽標識,包括: 根據(jù)預設語法規(guī)則對所述產(chǎn)品標題進行分詞處理,得到所述產(chǎn)品標題的多個分詞結(jié) 果; 根據(jù)預設過濾條件對多個分詞結(jié)果進行過濾分析,如果得到過濾結(jié)果,則將所述過濾 結(jié)果提取為所述關鍵字段的標簽標識。
5. 根據(jù)權利要求1所述的方法,其特征在于,所述根據(jù)所述標簽標識及所述關鍵字段, 獲取當前標簽信息,包括: 檢測已存儲的多個標簽信息中是否存在包括所述標簽標識和所述標簽標識的提取類 型的標簽信息; 如果已存儲的多個標簽信息中包括所述標簽標識和所述標簽標識的提取類型,則將所 述包括所述標簽標識和所述標簽標識的提取類型的標簽信息確定為匹配標簽信息,并確定 所述標簽標識對應的所述日志信息的生成時間是否與所述匹配標簽信息的多個預設時間 段中的一個相對應; 如果所述標簽標識對應的所述日志信息的生成時間與所述匹配標簽信息的多個預設 時間段中的一個相對應,則對相對應的時間段中所述標簽標識的出現(xiàn)次數(shù)進行更新。
6. 根據(jù)權利要求5所述的方法,其特征在于,所述確定所述標簽標識對應的所述日志 信息的生成時間是否與所述匹配標簽信息的多個預設時間段中的一個相對應之后,所述方 法還包括: 如果所述標簽標識對應的所述日志信息的生成時間與所述匹配標簽信息的多個預設 時間段均不對應,則根據(jù)所述標簽標識對應的所述日志信息的生成時間創(chuàng)建一條單獨的存 儲項,并統(tǒng)計所述標簽標識在所述標簽標識對應的日志信息的生成時間內(nèi)的出現(xiàn)次數(shù)。
7. 根據(jù)權利要求5所述的方法,其特征在于,所述檢測已存儲的多個標簽信息中是否 存在包括所述標簽標識和所述標簽標識的提取類型的標簽信息之后,所述方法還包括: 如果已存儲的所述用戶的多個標簽信息均不包括所述標簽標識和所述標簽標識的提 取類型,則將所述用戶標識及所述日志信息的數(shù)據(jù)源標識作為鍵,將所述標簽標識、所述標 簽標識的提取類型及所述標簽標識的出現(xiàn)次數(shù)作為值,進行鍵值存儲,得到當前標簽信息。
8. 根據(jù)權利要求5至7中任一權利要求所述的方法,其特征在于,所述方法還包括: 對已存儲的且存儲時長超過預設時長的預設時間段及對應的標簽標識的出現(xiàn)次數(shù)進 行刪除。
9. 根據(jù)權利要求1所述的方法,其特征在于,所述根據(jù)所述當前標簽信息,獲取與每個 興趣類目相對應的用戶興趣度,包括: 獲取每個興趣類目對應的多個歷史標簽信息; 確定所述當前標簽信息及所述多個歷史標簽信息分別對應的數(shù)據(jù)源的權重值、興趣類 目的權重值、標簽標識出現(xiàn)次數(shù)及時間衰減因子; 根據(jù)所述當前標簽信息及所述多個歷史標簽信息中每個標簽信息對應的數(shù)據(jù)源的權 重值、興趣類目的權重值、標簽標識出現(xiàn)次數(shù)及時間衰減因子,獲取與所述每個興趣類目對 應的所述用戶興趣度。
10. 根據(jù)權利要求9所述的方法,其特征在于,所述根據(jù)所述當前標簽信息及所述多個 歷史標簽信息中每個標簽信息對應的數(shù)據(jù)源的權重值、興趣類目的權重值、標簽標識出現(xiàn) 次數(shù)及時間衰減因子,應用下述公式,獲取與所述每個興趣類目對應的所述用戶興趣度,包 括:
其中,Score指代興趣度,λ (i)為每個標簽信息對應的數(shù)據(jù)源的權重值,w(j)為每個 標簽信息對應的興趣類目的權重值,weakenFactor(t)為時間衰減因子,count(t)為每個 預設時間段內(nèi)所述標簽標識的出現(xiàn)次數(shù),m為數(shù)據(jù)源的個數(shù),η為不同數(shù)據(jù)源下標簽信息的 總數(shù),m、η、γ和b均為常數(shù)。
11. 一種構建用戶實時畫像的裝置,其特征在于,所述裝置包括: 日志信息獲取模塊,用于獲取用戶的日志信息; 過濾模塊,用于對所述日志信息獲取模塊獲取到的日志信息進行過濾,得到所述日志 信息的關鍵字段; 提取模塊,用于提取所述過濾模塊過濾得到的關鍵字段的標簽標識; 當前標簽信息獲取模塊,用于根據(jù)所述提取模塊提取的標簽標識及所述過濾模塊過濾 得到的關鍵字段,獲取當前標簽信息,所述標簽信息至少用于指示所述標簽標識在所述日 志信息的生成時間內(nèi)的出現(xiàn)次數(shù); 確定模塊,用于根據(jù)所述提取模塊提取的標簽標識,確定所述當前標簽信息對應的全 部興趣類目; 用戶興趣度獲取模塊,用于根據(jù)所述當前標簽信息獲取模塊獲取的當前標簽信息,獲 取與每個興趣類目相對應的用戶興趣度; 其中,所述關鍵字段至少包括用戶標識、日志信息的生成時間、所述日志信息的數(shù)據(jù)源 標識及產(chǎn)品標識。
12. 根據(jù)權利要求11所述的裝置,其特征在于,所述提取模塊,包括: 檢測單元,用于檢測所述關鍵字段中是否包含行為類目標識; 確定單元,用于當所述檢測單元檢測到關鍵字段中包含行為類目標識時,將所述行為 類目標識作為提取到的所述關鍵字段的標簽標識。
13. 根據(jù)權利要求12所述的裝置,其特征在于,所述提取模塊,還包括: 獲取單元,用于當所述檢測單元檢測關鍵字段中未包含行為類目標識時,根據(jù)所述關 鍵字段中的產(chǎn)品標識獲取與所述產(chǎn)品標識相對應的產(chǎn)品標題; 提取單元,用于根據(jù)所述獲取單元獲取到的產(chǎn)品標題提取所述關鍵字段的標簽標識。
14. 根據(jù)權利要求13所述的裝置,其特征在于,所述提取單元,包括: 分詞處理子單元,用于根據(jù)預設語法規(guī)則對所述獲取單元獲取的產(chǎn)品標題進行分詞處 理,得到所述產(chǎn)品標題的多個分詞結(jié)果; 過濾分析子單元,用于根據(jù)預設過濾條件對多個分詞結(jié)果進行過濾分析; 提取子單元,用于當所述過濾分析子單元得到過濾結(jié)果時,將所述過濾結(jié)果提取為所 述關鍵字段的標簽標識。
15. 根據(jù)權利要求11所述的裝置,其特征在于,所述當前標簽信息獲取模塊,包括: 檢測單元,用于檢測已存儲的多個標簽信息中是否存在包括所述標簽標識和所述標簽 標識的提取類型的標簽信息; 確定單元,用于當已存儲的多個標簽信息中包括所述標簽標識和所述標簽標識的提取 類型時,將所述包括所述標簽標識和所述標簽標識的提取類型的標簽信息確定為匹配標簽 信息,并確定所述標簽標識對應的所述日志信息的生成時間是否與所述匹配標簽信息的多 個預設時間段中的一個相對應; 更新單元,用于當所述標簽標識對應的所述日志信息的生成時間與所述匹配標簽信息 的多個預設時間段中的一個相對應時,對相對應的時間段中所述標簽標識的出現(xiàn)次數(shù)進行 更新。
16. 根據(jù)權利要求15所述的裝置,其特征在于,所述當前標簽信息獲取模塊,還包括: 創(chuàng)建單元,用于當所述標簽標識對應的所述日志信息的生成時間與所述匹配標簽信息 的多個預設時間段均不對應時,根據(jù)所述標簽標識對應的所述日志信息的生成時間創(chuàng)建一 條單獨的存儲項,并統(tǒng)計所述標簽標識在所述標簽標識對應的日志信息的生成時間內(nèi)的出 現(xiàn)次數(shù)。
17. 根據(jù)權利要求15所述的裝置,其特征在于,所述當前標簽信息獲取模塊,還包括: 生成單元,用于當已存儲的多個標簽信息均不包括所述標簽標識和所述標簽標識的提 取類型時,將所述用戶標識及所述日志信息的數(shù)據(jù)源標識作為鍵,將所述標簽標識、所述標 簽標識的提取類型及所述標簽標識的出現(xiàn)次數(shù)作為值,進行鍵值存儲,得到當前標簽信息。
18. 根據(jù)權利要求15至17中任一權利要求所述的裝置,其特征在于,所述裝置還包 括: 刪除模塊,用于對已存儲的且存儲時長超過預設時長的預設時間段及對應的標簽標識 的出現(xiàn)次數(shù)進行刪除。
19.根據(jù)權利要求11所述的裝置,其特征在于,所述用戶興趣度獲取模塊,包括: 歷史標簽信息獲取單元,用于獲取每個興趣類目對應的多個歷史標簽信息; 確定單元,用于確定所述當前標簽信息及所述多個歷史標簽信息分別對應的數(shù)據(jù)源的 權重值、興趣類目的權重值、標簽標識出現(xiàn)次數(shù)及時間衰減因子; 用戶興趣度獲取單元,用于根據(jù)所述當前標簽信息及所述多個歷史標簽信息中每個標 簽信息對應的數(shù)據(jù)源的權重值、興趣類目的權重值、標簽標識出現(xiàn)次數(shù)及時間衰減因子,獲 取與所述每個興趣類目對應的所述用戶興趣度。
【文檔編號】G06F17/30GK104090886SQ201310661820
【公開日】2014年10月8日 申請日期:2013年12月9日 優(yōu)先權日:2013年12月9日
【發(fā)明者】張文郁, 洪坤乾, 宋亞娟, 杜沖 申請人:深圳市騰訊計算機系統(tǒng)有限公司