本發(fā)明涉及計算機技術(shù)中的數(shù)據(jù)處理及推薦,具體涉及一種為汽車行業(yè)尋找目標用戶并匹配目標產(chǎn)品的推薦方法。
背景技術(shù):
隨著網(wǎng)絡技術(shù)、信息技術(shù)和計算機技術(shù)飛速發(fā)展,早在2010年,全球就進入了大數(shù)據(jù)時代。那么,如何準確地發(fā)現(xiàn)用戶的購買偏好并向其進行推薦是本發(fā)明的重點。專利CN1629884A提出了一種基于模糊邏輯的信息推薦方法,將目標商品與用戶歷史消費相匹配,然后輸出目標用戶對該件商品的興趣度。該發(fā)明能夠運用于電視節(jié)目、購物和互聯(lián)網(wǎng)信息的推薦。專利201310433589收集用戶偏好信息,然后根據(jù)用戶的偏好信息找到相似的用戶或者物品,最后計算推薦并將結(jié)果展示給消費者。
但是,汽車行業(yè)不同于一般的零售商品,普通用戶不會頻繁購買汽車,也就是說任意兩個用戶可能沒有共同的評分項,因此,傳統(tǒng)推薦算法可能沒有辦法發(fā)現(xiàn)相似用戶。
技術(shù)實現(xiàn)要素:
本發(fā)明所要解決的技術(shù)問題是:提出一種為汽車行業(yè)尋找目標用戶并匹配目標產(chǎn)品的推薦方法,自動向具有購買意向的目標用戶推薦相應汽車產(chǎn)品,從而降低公司營銷成本。
本發(fā)明解決上述技術(shù)問題所采用的方案是:
一種為汽車行業(yè)尋找目標用戶并匹配目標產(chǎn)品的推薦方法,包括以下步驟:
a.數(shù)據(jù)預處理階段:收集用戶特征信息、搜索信息和汽車銷售信息,經(jīng)過預處理后存儲至目標數(shù)據(jù)庫中;
b.預測階段:基于關聯(lián)規(guī)則選擇目標用戶,基于協(xié)同過濾方法對用戶的偏好進行預測;
c.評價及推薦階段:對預測結(jié)果進行評價,若用戶對評價結(jié)果滿意,則向用戶推薦預測的相應類型車輛,若用戶對評價結(jié)果不滿意,則返回步驟b,給出其它預測結(jié)果,然后進入步驟c,對預測結(jié)果進行評價。
作為進一步優(yōu)化,所述用戶特征信息、搜索信息和汽車銷售信息中包含的屬性指標包括:用戶名稱、性別、職業(yè)、婚姻狀況、一天內(nèi)瀏覽汽車網(wǎng)站的次數(shù)、每天停留在汽車網(wǎng)站上的時間、在汽車網(wǎng)站上的搜索行為、每款汽車對應的屬性信息、收入狀況、購車與否。
作為進一步優(yōu)化,步驟a中,所述經(jīng)過預處理包括:利用深度學習的方法對缺失數(shù)據(jù)進行填補,對于類別型數(shù)據(jù)則可以直接將其映射為新的布爾型數(shù)據(jù)(如性別可以直接映射成S1,S2,分別代表男和女);對于數(shù)值型數(shù)據(jù)(如年齡等),采用C均值模糊分類法將其劃分為多個類,產(chǎn)生隸屬度矩陣。
作為進一步優(yōu)化,步驟b中,所述基于關聯(lián)規(guī)則選擇目標用戶,基于協(xié)同過濾對用戶的偏好進行預測,具體包括:
基于目標數(shù)據(jù)庫中的數(shù)據(jù),根據(jù)關聯(lián)規(guī)則發(fā)現(xiàn)具有購買意愿的用戶作為目標用戶,然后通過獲取目標用戶的網(wǎng)上檢索記錄挖掘目標用戶相應的屬性偏好或者通過問卷調(diào)查的方式了解目標用戶相應的屬性偏好,并構(gòu)建屬性向量,最后采用協(xié)同過濾算法利用用戶-屬性評分矩陣計算用戶之間的相似度,從而基于相似度給出預測結(jié)果。
作為進一步優(yōu)化,步驟b中,所述根據(jù)關聯(lián)規(guī)則發(fā)現(xiàn)具有購買意愿的用戶作為目標用戶,具體包括:首先檢索出目標數(shù)據(jù)庫中的所有頻繁項集,然后利用頻繁項集構(gòu)造出滿足最小信任度的關聯(lián)規(guī)則,根據(jù)該關聯(lián)規(guī)則輸出具有購買意愿的目標用戶。
作為進一步優(yōu)化,步驟b中,采用協(xié)同過濾算法利用用戶-屬性評分矩陣計算用戶之間的相似度,從而基于相似度給出預測結(jié)果,具體包括:
首先構(gòu)建已購買汽車的用戶的用戶-屬性評分矩陣,然后利用皮爾森相關系數(shù)或者余弦相似度為活躍的目標用戶找出k個最相似的用戶形成用戶鄰居集合,在相似度的計算過程中,每個用戶都被看成是一個n維向量,用戶之間的相似度通過向量之間的相似度表示。
作為進一步優(yōu)化,所述用戶-屬性評分矩陣中確定的屬性包括:價格、品牌、級別、變速箱、軸距、排量、氣缸數(shù)、廠商品牌等參數(shù)。
作為進一步優(yōu)化,步驟b中,所述基于相似度給出預測結(jié)果,具體包括:
基于計算出來的相似度,推薦與目標用戶相似度最高的N位用戶購買的車型。
作為進一步優(yōu)化,步驟c中,所述對預測結(jié)果進行評價時,采用預測準確性評價指標為平均絕對誤差MAE和根均方誤差RMSE,公式分別是:
其中,rui和分別是用戶u對項目i的實際評分和預測評分,n表示待預測項目的個數(shù);這兩項指標的值越小表示預測的準確性越高。
作為進一步優(yōu)化,步驟c還包括:在向用戶推薦預測的相應類型車輛后,通過推薦準確性評價指標來評價推薦的準確性,所述推薦準確性評價指標包括準確率Precision和召回率Recall,其中
計算的結(jié)果越大,則表示推薦的準確性越高。
本發(fā)明的有益效果是:
借助關聯(lián)規(guī)則,能夠自動發(fā)現(xiàn)有購買意愿的目標用戶,并對這些目標用戶進行問卷調(diào)查,構(gòu)建目標用戶的屬性向量,并通過協(xié)同過濾機制計算目標用戶屬性與歷史用戶評分矩陣的相似度,從而基于相似度來推薦相應商品,以降低公司營銷成本。
附圖說明
圖1為推薦系統(tǒng)框架圖;
圖2為數(shù)據(jù)預處理示意圖;
圖3為預測、推薦流程圖。
具體實施方式
本發(fā)明旨在提出一種為汽車行業(yè)尋找目標用戶并匹配目標產(chǎn)品的推薦方法,自動向具有購買意向的目標用戶推薦相應汽車產(chǎn)品,從而降低公司營銷成本。
本發(fā)明中的推薦方法基于如圖1所示的推薦系統(tǒng)構(gòu)架實現(xiàn):
歷史數(shù)據(jù)庫提供原始數(shù)據(jù),通過對原始數(shù)據(jù)清理、集成、簡化等步驟,降低原始數(shù)據(jù)的維數(shù),從而生成供預測階段使用的目標數(shù)據(jù),存儲至目標數(shù)據(jù)庫中,在目標數(shù)據(jù)庫中基于關聯(lián)規(guī)則提取出目標用戶,匹配相應的推薦模型輸出預測的推薦結(jié)果,然后對預測的推薦結(jié)果進行評價,如果評價結(jié)果滿意則向用戶推薦相應商品,如果評價結(jié)果不滿意,則重新匹配推薦模型輸出其它預測的推薦結(jié)果,此外,還可以設置反饋機制,如果推薦失敗,可以修改推薦模型,在推薦成功后將信息錄入銷售數(shù)據(jù)庫。
下面對本發(fā)明中的推薦方法流程進行具體闡述:
1、數(shù)據(jù)預處理階段:首先收集用戶特征信息,搜索信息和汽車銷售信息,然后利用深度學習的方法對缺失數(shù)據(jù)進行填補,對于類別型數(shù)據(jù)則可以直接將其映射為新的布爾型數(shù)據(jù);對于數(shù)值型數(shù)據(jù),采用C均值模糊分類法將其劃分為多個類,產(chǎn)生隸屬度矩陣。數(shù)據(jù)預處理流程如圖2所示。
屬性指標包括:用戶名稱、性別(男、女)、職業(yè)(非體力勞動、少量體育勞動、體力勞動)、婚姻(已婚、未婚)、一天內(nèi)瀏覽汽車網(wǎng)站的次數(shù)(利用c均值模糊分類將該屬性分為三類)、每天停留在汽車網(wǎng)站上的時間(利用c均值模糊分類將該屬性分為三類…)、在汽車網(wǎng)站上的搜索行為(瀏覽車款,瀏覽車系,比價等)、每款汽車對應的屬性信息、收入(利用c均值模糊分類將該屬性分為三類)、購車與否(是、否)。
2、預測階段:如圖3所示,基于目標數(shù)據(jù)庫中的數(shù)據(jù),根據(jù)關聯(lián)規(guī)則發(fā)現(xiàn)具有購買意愿的目標用戶,然后通過獲取目標用戶的網(wǎng)上檢索記錄挖掘目標用戶相應的屬性偏好或者通過問卷調(diào)查的方式了解目標用戶相應的屬性偏好,然后采用協(xié)同過濾算法計算目標用戶的屬性向量與已購車用戶的評分矩陣之間的相似度,從而基于相似度給出預測結(jié)果;
其中,所述根據(jù)關聯(lián)規(guī)則發(fā)現(xiàn)具有購買意愿的目標用戶具體包括:首先檢索出目標數(shù)據(jù)庫中的所有頻繁項集,然后利用頻繁項集構(gòu)造出滿足最小信任度的關聯(lián)規(guī)則,根據(jù)該關聯(lián)規(guī)則輸出具有購買意愿的目標用戶。具體操作為:首先掃描一次布爾矩陣,矩陣中的每一行代表事務,矩陣中的列代表項目。I代表屬性,T代表用戶。其次掃描矩陣形成頻繁1-項集L1,刪除屬性集小于支持度的列。然后形成候選項集,即將兩個屬性進行組合,計算其支持度。再與設定好的最小支持度比較,小于的話刪除該用戶(行)。形成2-項集L2。以此類推直到第k項集中每一項的支持度都大于或者等于最小支持度。那么我們就找到了所有頻繁項集。
在計算相似度之前,首先構(gòu)建已購汽車用戶的用戶-屬性評分矩陣。其中屬性包括價格、品牌、級別、變速箱、軸距、排量、氣缸數(shù)、廠商品牌等參數(shù)。然后通過獲取目標用戶的網(wǎng)上檢索記錄挖掘目標用戶相應的屬性偏好或者通過問卷調(diào)查的方式了解目標用戶相應的屬性偏好,構(gòu)建屬性向量,接著利用皮爾森相關系數(shù)或者余弦相似度為活躍用戶找出k個最相似的用戶(用戶鄰居集合),在相似度的計算過程中,每個用戶都被看成是一個n維向量(Cn表示項目的個數(shù)),用戶之間的相似度就通過向量之間的相似度表示。最后,基于計算出來的相似度,推薦與目標用戶相似度最高的N位用戶購買的車型。
3、評價及推薦階段:對預測結(jié)果進行評價,若用戶對評價結(jié)果滿意,則向用戶推薦預測的相應類型車輛,若用戶對評價結(jié)果不滿意,則返回步驟2,給出其它預測結(jié)果,然后進入步驟3,對預測結(jié)果進行評價。
對預測結(jié)果進行評價,推薦算法的評價主要包括預測準確性、推薦準確性兩個方面。常用的預測準確性指標為平均絕對誤差(MAE)和根均方誤差(RMSE),公式分別是:
其中,rui和分別是用戶u對項目i的實際評分和預測評分,n表示待預測項目的個數(shù)。這兩項指標的值越小表示預測的準確性越高。
在對目標用戶進行產(chǎn)品推薦后,需要對推薦的準確性進行評價,本發(fā)明通過推薦準確性評價指標來評價推薦的準確性,所述推薦準確性評價指標包括準確率Precision和召回率Recall,其中
計算的結(jié)果越大,則表示推薦的準確性越高。