一種基于消費者行為數(shù)據(jù)分析和分類技術(shù)的在線廣告分類推送方法及其系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)分析和預(yù)測技術(shù)領(lǐng)域,具體來說是一種基于消費者行為數(shù)據(jù)分析 和分類技術(shù)的在線廣告分類推送方法及其系統(tǒng)。
【背景技術(shù)】
[0002] 隨著移動互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,諸如手機、平板電腦以及P0S機等各種移動終 端越來越普及,受到大眾歡迎。它們使得人們可以盡量不受時間與空間的限制,隨時隨地完 成消費行為,購買到自己需求的商品。據(jù)TalkingData發(fā)布的《2014移動互聯(lián)網(wǎng)數(shù)據(jù)報告》 顯示,截止2014年年底,我國移動智能終端用戶規(guī)模達(dá)10. 6億,較2013年增長231. 7% ; 用戶平均每天使用移動應(yīng)用市場達(dá)1458秒。另有數(shù)據(jù)顯示,我國P0S機的數(shù)量呈直線趨勢 增長,到2014夏末,每萬人擁有13. 7臺P0S機。
[0003] 這些移動終端在方便人們消費的同時,也記錄下了消費者們的行為數(shù)據(jù),例如消 費者刷P0S機購物后,設(shè)備會存下消費者的購物清單:商品名、價格、銷售數(shù)量、銷售時間以 及店鋪名等;再例如消費者通過手機銀行完成網(wǎng)上購物后,相關(guān)應(yīng)用也會存下消費者的購 物清單,另外如果手機的GPS是打開的情況,消費者的位置信息也會被記錄下來。事實上, 消費者的個人特點往往表現(xiàn)在日常的消費行為上,例如,一些消費者習(xí)慣去大賣場逛早市, 那么他們會經(jīng)常在早上六點至八點出現(xiàn)在大賣場并產(chǎn)生消費行為,而另一些消費者習(xí)慣晚 上去大型購物中心Shopping,那么他們的消費行為數(shù)據(jù)多產(chǎn)生于晚上八點至十點。存留于 移動終端上的這些數(shù)據(jù)使得分析和建模消費者的行為成為一種可能。
[0004] 那么如何通過分析和建模消費者的行為,再挖掘出不同消費者的消費習(xí)慣,從技 術(shù)上實現(xiàn)已有客戶群體的粘性加固、潛在客戶的精準(zhǔn)營銷和廣告推送,已經(jīng)成為急需解決 的技術(shù)問題。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的目的是為了解決現(xiàn)有技術(shù)中無法挖掘出潛在客戶進行網(wǎng)絡(luò)在線廣告推 送的缺陷,提供一種基于消費者行為數(shù)據(jù)分析和分類技術(shù)的在線廣告分類推送方法及其系 統(tǒng)來解決上述問題。
[0006]為了實現(xiàn)上述目的,本發(fā)明的技術(shù)方案如下:
[0007]-種基于消費者行為數(shù)據(jù)分析和分類技術(shù)的在線廣告分類推送方法,包括以下步 驟:
[0008] 數(shù)據(jù)收集和預(yù)處理,從在線移動終端上收集消費者的行為數(shù)據(jù)并建立數(shù)據(jù)池,對 數(shù)據(jù)池中的數(shù)據(jù)進行預(yù)處理操作,為后續(xù)數(shù)據(jù)分析和建模提供數(shù)據(jù)支持;
[0009] 針對消費者的行為數(shù)據(jù)進行建模,建立一種面向消費者行為數(shù)據(jù)的主題模型,挖 掘出消費者與在線廣告類別、購買時間段之間的聯(lián)系;
[0010] 針對消費者進行有效分類,針對不同的消費者類別在線推送對應(yīng)類型的廣告。
[0011] 所述的數(shù)據(jù)收集和預(yù)處理包括以下步驟:
[0012] 收集數(shù)據(jù),從在線移動終端上收集消費者的行為數(shù)據(jù),并將消費者所對應(yīng)的行為 數(shù)據(jù)建立數(shù)據(jù)池;
[0013] 推送對象身份匹配,通過數(shù)據(jù)池中的消費者基本信息表,對消費者的身份進行了 逐級匹配,為具有多重身份的消費者賦予唯一身份標(biāo)識;
[0014] 數(shù)據(jù)清洗,刪除數(shù)據(jù)池中購買商品總數(shù)和購買次數(shù)均較低的消費者及其對應(yīng)的行 為數(shù)據(jù);
[0015] 劃分時間片,將一天二十四小時劃分成七個時間段,并將消費者購買的商品配以 相應(yīng)的時間段標(biāo)簽。
[0016] 所述的針對推送對象的行為數(shù)據(jù)進行建模包括以下步驟:
[0017] 行為數(shù)據(jù)的轉(zhuǎn)換,將數(shù)據(jù)池中的消費者購物清單中的用戶ID、數(shù)據(jù)元素、時間段標(biāo) 簽組合成行為數(shù)據(jù)結(jié)構(gòu),行為數(shù)據(jù)結(jié)構(gòu)如下所示:
[0018]〈用戶ID,〈購買商品,時間段標(biāo)簽》;
[0019] 主題模型的建立與分析,建立面向消費者行為數(shù)據(jù)的TMCBD主題模型,其包括以 下步驟:
[0020] 設(shè)定模型參數(shù),
[0021] ff = {ConShopList^ ConShopList2, . . . , ConShopListJ ,
[0022]W為消費者行為數(shù)據(jù)庫,ConShopListm表示第m個消費者的購物清單詳情,M表示 消費者的個數(shù);
[0023] ConShopListm= {〈product,timeLabel> "〈product,timeLabel>2,…,〈product, timeLabel>Nm}
[0024] ,〈product,timeLabel>n表示第m個消息者購買第n個商品及其購買時間,Nm表 示第m個消費者購買商品的總數(shù)量;
[0025]
[0026] 〇為商品類別集合,其中魏表示第k個商品類別,K表示商品類別數(shù);
[0027] W = { 1]) ^2, . . . ,i])M},
[0028] 表示第m個消費者在不同時間段上的購買欲望分布;
[0029]
[0030] ?為消費者在不同時間段內(nèi)對不同商品類別的購買興趣,其中0^表示第m個消 費者在時間段h上對不同商品類別的購買興趣分布,H表示時間段數(shù);
[0031] 訓(xùn)練初始TMCBD主題模型,具體步驟如下:
[0032] 隨機初始化,對消費者行為數(shù)據(jù)庫w中每位消費者購買的每個商品p,隨機地賦一 個商品類別z;
[0033] 重新掃描數(shù)據(jù)庫w,對每個商品p,按照以下公式重新采樣它的商品類別,并在w中 進行更新,
[0034]
5
[0035] i= (m,n)表示二維下標(biāo),表示第m個消費者在第h個時間段在商品類別上 的分布情況,表示第k個商品類別在商品上的分布情況,a和0為狄利克雷分布參數(shù), Z",n為中間變量,表示第m個消費者購買的第n個商品對應(yīng)的商品類別編號;E為期望平均 值;
[0036] 重復(fù)以上w的重新采樣過程直到采樣收斂或滿足預(yù)設(shè)的迭代次數(shù);
[0037] 計算公式如下:
[0038]
[0039]其中,獨筆^表示除去Pni,n,由第k個商品類別產(chǎn)生的商品中productv的個數(shù); 0t表示常量;
[0040] 計算屯,公式如下:
[0041]
[0042] 其中,?表示第m個消費者在第h個時間段內(nèi)購買的商品數(shù)量;
[0043] 計算?,公式如下:
[0044]
[0045] 其中,隸示除去Pni,n,第m個消費者在第h個時間段內(nèi)購買的商品中由第 k個商品類別產(chǎn)生的商品的個數(shù);ak表示常量;
[0046] 將〇、W和0保存并輸出[O,W,0];
[0047] 對TMCBD主題模型進行更新,生成〇_new、W_new和?_new;
[0048] 商品類別更新和新增消費者預(yù)測,對更新學(xué)習(xí)得到〇_neW、W_ne^P?_new進行 后處理操作;其包括以下步驟:
[0049] 對〇_new中每個商品類別,計算其與〇中所有商品類別的余弦相似度,
[0050]若相似度最小值小于閾值S,則將該商品類別添加至〇中;
[0051] 基于更新后的①和W_new,調(diào)整W,
[0052] 若W_new中存在W中的消費者,則結(jié)合W_new中的購買欲望分布更新該消費者 的購買欲望分布,并替換W中相應(yīng)的值;若W_new中存在W中沒有的消費者,則直接將該 消費者的購買欲望分布添加至W中;
[0053] 基于更新后的①和和?_new,調(diào)整?,
[0054] 若?_new中存在?中的消費者,則結(jié)合?_new中的購買欲望分布更新該消費者 的購買欲望分布,并替換?中相應(yīng)的值;若?_new中存在?中沒有的消費者,則直接將該 消費者的購買欲望分布添加至?中。
[0055] 所述建立消費者行為數(shù)據(jù)庫W包括以下步驟:
[0056] 設(shè)現(xiàn)有消費者行為數(shù)據(jù)中涉及K個商品類別,則
[0057]
[0058] 定義消費興趣,設(shè)第m個消費者在第h個時間段上的消費興趣為0 _,其中h取值 1至H,消費興趣0^為商品類別上的多項式分布;
[0059] 生成商品類別,
[0060] 針對第m個消費者的購物清單ConShopListm中的每個商品productn及其時間標(biāo) 簽timeLabeln,擇消費者在第timeLabeln個時間段上的消費興趣分布0 m,h;
[0061]從9h采樣生成商品productn的商品類別zn;
[0062] 生成商品,從K個商品類別中挑出編號為2_的ffc;
[0063] 再從參V中采樣生成商品products
[0064] 重復(fù)定義消費興趣、生成商品類別和生成商品步驟,直至生成整個數(shù)據(jù)庫W。
[0065] 所述的針對消費者進行有效分類包括以下步驟:
[0066] 設(shè)定類別識別器A或類別識別器B,類別識別器A對應(yīng)W,類別識別器B對應(yīng)? ;
[0067] 若分析消費者在不同時間段上的行為習(xí)慣差異,并據(jù)此劃分消費者進行分類,則 讀取W,設(shè)定類別識別器A;
[0068] 若分析消費者在不同商品類別上的行為習(xí)慣差異,并據(jù)此劃分消費者進行分類, 則讀取?,設(shè)定類別識別器B;
[0069] 聚類分析,對于輸入的W或者?,采用基于密度的聚類方法劃分消費者,自動確 定簇的個數(shù),確保同一簇內(nèi)的消費者行為習(xí)慣盡可能相似,而不同簇內(nèi)的消費者的行為習(xí) 慣盡可能不同;
[0070] 得到消費者的劃分后,直接賦予不同簇以不同的類別標(biāo)號,將這些帶有類別標(biāo)簽 的消費者及其行為習(xí)慣表示保存,作為下一步分類學(xué)習(xí)的訓(xùn)練數(shù)據(jù);
[0071] 識別器分類學(xué)習(xí),在SVM向量機中輸入訓(xùn)練數(shù)據(jù),設(shè)置選擇線性核函數(shù),學(xué)習(xí)出支 持向量及最優(yōu)分類面,保存訓(xùn)練好的分類器;
[0072] 分類提取,根據(jù)分析消費者在不同時間段上的行為習(xí)慣差異或分析消費者在不同 商品類別上的行為習(xí)慣差異的選擇需要,使用對應(yīng)的識別器A或識別器B進行類別提取操 作,完成針對消費者的分類。
[0073] -種基于消費者行為數(shù)據(jù)分析和分類技術(shù)的在線