基于知識學(xué)習(xí)和隱私保護的大數(shù)據(jù)用戶購買意愿預(yù)測方法
【專利摘要】本發(fā)明公開了基于知識學(xué)習(xí)和隱私保護的大數(shù)據(jù)用戶購買意愿預(yù)測方法,其步驟如下:(1)對大量歷史數(shù)據(jù)和少量當(dāng)前數(shù)據(jù)做歸一化處理;(2)數(shù)據(jù)劃分組并構(gòu)建訓(xùn)練樣本集;(3)統(tǒng)計每一組的用戶購買意愿概率;(4)計算組標(biāo)簽;(5)使用改進的支持向量機對訓(xùn)練集訓(xùn)練;(6)構(gòu)造預(yù)測函數(shù);(7)將待預(yù)測的數(shù)據(jù)輸入到預(yù)測函數(shù)中得到預(yù)測結(jié)果。本發(fā)明使用改進的支持向量機,將當(dāng)前少量的數(shù)據(jù)組概率信息和大量的歷史數(shù)據(jù)組概率信息融入結(jié)構(gòu)風(fēng)險最小化學(xué)習(xí)框架中,通過構(gòu)造數(shù)據(jù)間相似距離項來實現(xiàn)不同時期知識的學(xué)習(xí),從而構(gòu)造了一種基于知識學(xué)習(xí)和隱私保護機制的用戶購買意愿的預(yù)測方法,可適用于大樣本的學(xué)習(xí)問題。
【專利說明】基于知識學(xué)習(xí)和隱私保護的大數(shù)據(jù)用戶購買意愿預(yù)測方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于市場營銷【技術(shù)領(lǐng)域】,涉及模式識別技術(shù),為基于知識學(xué)習(xí)和隱私保護 的大數(shù)據(jù)用戶購買意愿預(yù)測方法。
【背景技術(shù)】
[0002] 本發(fā)明屬于市場營銷【技術(shù)領(lǐng)域】,涉及模式識別技術(shù),為基于知識學(xué)習(xí)和隱私保護 的大數(shù)據(jù)用戶購買意愿預(yù)測方法。
[0003] 消費者是企業(yè)各種經(jīng)營活動的向?qū)?,消費者的購買意愿是購買行為的基礎(chǔ),可以 用來預(yù)測消費者的行為。從市場營銷角度來看,當(dāng)企業(yè)掌握消費者的購買意愿后,就可以合 理安排原材料的購買,調(diào)整產(chǎn)品的結(jié)構(gòu),制定產(chǎn)品的生產(chǎn)計劃;當(dāng)營銷人員掌握消費者的購 買意愿后,就可以有針對性地向消費者推薦相關(guān)商品,提高銷售量;當(dāng)商場、超市掌握消費 者的購買意愿后,就可以有目的地采購商品,加速商品的回轉(zhuǎn)。因此,研究用戶的購買意愿 是市場營銷研究的重要內(nèi)容,對正確引導(dǎo)居民消費和指導(dǎo)企業(yè)制定科學(xué)合理的生產(chǎn)、營銷 策略都具有重要的理論和現(xiàn)實意義。
[0004] 一般常見的用戶購買意愿的測算方法有兩類:第一類是用直接詢問的方法測量用 戶的購買意愿,如Choice Based模型,該模型設(shè)置了八個屬性指標(biāo),對每個指標(biāo)確定權(quán)重, 然后用戶對這八個指標(biāo)評分,最后根據(jù)權(quán)重和評分計算用戶對該產(chǎn)品的購買意愿。第二類 是使用信息技術(shù),如王萍使用決策樹和神經(jīng)網(wǎng)絡(luò)方法建立客戶購買意向分類模型來預(yù)測客 戶的購買傾向("運用數(shù)據(jù)挖掘技術(shù)預(yù)測客戶購買傾向--方法與實證研究",情報科學(xué), 2005年5月);吳國華等人引入幾個屬性變量,構(gòu)建描述顧客購買行為或預(yù)測購買概率的隨 機模型("顧客購買行為影響因素分析及重購概率的預(yù)測",管理工程學(xué)報,2005年1月)。 但這兩類方法都存在缺陷,第一類方法簡單易行,但指標(biāo)的權(quán)重不易控制,測算精度低,而 且方法中使用的歷史數(shù)據(jù)不足以反映當(dāng)前數(shù)據(jù)的全部特征,第二類方法的前提是顧客前后 購買間隔時間服從Ga_a分布,這在實際使用中存在很大的局限性;而且這兩類方法都不 適用于大數(shù)據(jù)情況下,特別是在模型使用過程中公開了用戶的購買意愿,沒有考慮到用戶 個人信息的保密性。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明所要解決的技術(shù)問題是:第一,現(xiàn)有的用戶購買意愿預(yù)測方法在大量歷史 相關(guān)數(shù)據(jù)和少量最新數(shù)據(jù)的場景下,預(yù)測的準(zhǔn)確度不高;第二,現(xiàn)有方法不適用于大數(shù)據(jù)場 景,訓(xùn)練模型所需的時間較長;第三,現(xiàn)有方法不能有效保護用戶個人信息的隱私性。
[0006] 本發(fā)明的技術(shù)方案是:基于知識學(xué)習(xí)和隱私保護的大數(shù)據(jù)用戶購買意愿預(yù)測方 法,使用改進的支持向量機技術(shù),將當(dāng)前少量的數(shù)據(jù)組購買意愿概率信息和大量的歷史數(shù) 據(jù)組購買意愿概率信息融入結(jié)構(gòu)風(fēng)險最小化學(xué)習(xí)框架中,通過構(gòu)造不同時期數(shù)據(jù)相似距 離項來實現(xiàn)知識的學(xué)習(xí),對用戶購買意愿進行預(yù)測,包括以下步驟:
[0007] 步驟一:對大量歷史數(shù)據(jù)樣本和少量當(dāng)前數(shù)據(jù)樣本做歸一化處理,得到初始樣本 集匕,7山=1,...,其中11為樣本的特征向量^={+1,-1}為樣本的類別標(biāo)簽4為樣本的 總個數(shù);
[0008] 步驟二:對歷史數(shù)據(jù)樣本和當(dāng)前數(shù)據(jù)樣本劃分組,所分每組數(shù)據(jù)個數(shù)大致相同,構(gòu) 建訓(xùn)練樣本集D = {Di,…,Dn,Dn+1,…,Dn+d},其中前n組為歷史數(shù)據(jù)樣本,后d組為當(dāng)前數(shù) 據(jù)樣本;
[0009] 步驟三:在每一個分組中統(tǒng)計用戶購買意愿的概率Pi,如式(1)進行計算:
[0010]
【權(quán)利要求】
1.基于知識學(xué)習(xí)和隱私保護的大數(shù)據(jù)用戶購買意愿預(yù)測方法,其特征包括如下步驟: 步驟一:對大量歷史數(shù)據(jù)樣本和少量當(dāng)前數(shù)據(jù)樣本做歸一化處理,得到初始樣本集 ^7山=1,...^,其中11為樣本的特征向量^={+1,-1}為樣本的類別標(biāo)簽』為樣本的總 個數(shù); 步驟二:對歷史數(shù)據(jù)樣本和當(dāng)前數(shù)據(jù)樣本劃分組,所分每組數(shù)據(jù)個數(shù)大致相同,構(gòu)建訓(xùn) 練樣本集D = (D1, --?,0",Dn+1, --?,0_},其中前n組為歷史數(shù)據(jù)樣本,后d組為當(dāng)前數(shù)據(jù)樣 本; 步驟三:在每一個分組中統(tǒng)計用戶購買意愿的概率Pi,如式(1)進行計算:
其中,辦)為IT ^ R?<為核空間映射函數(shù),wh和We eRBl別是歷史數(shù)據(jù)樣本和當(dāng)前數(shù) 據(jù)樣本的權(quán)向量,Ch和C。分別是歷史數(shù)據(jù)樣本和當(dāng)前數(shù)據(jù)樣本正則化參數(shù),I i和分別 為歷史數(shù)據(jù)樣本的松弛變量,h和C分別為當(dāng)前數(shù)據(jù)樣本的松弛變量,A是平衡參數(shù),為 一個正常數(shù),Ii為公式(2)計算出的組標(biāo)簽,e i和e ' i分別為歷史數(shù)據(jù)樣本和當(dāng)前數(shù)據(jù) 樣本中每組樣本的逼近精度,計算公式如以下形式:
其中Pi由公式(1)計算得出,A為一個較小的正常數(shù); 上式可以轉(zhuǎn)換成如下的二次規(guī)劃形式:
【文檔編號】G06F17/30GK104331816SQ201410588278
【公開日】2015年2月4日 申請日期:2014年10月28日 優(yōu)先權(quán)日:2014年10月28日
【發(fā)明者】倪彤光, 顧曉清, 孫霓剛, 林逸峰 申請人:常州大學(xué)