欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于多模型融合的潛在換機用戶發(fā)現(xiàn)方法與流程

文檔序號:12672332閱讀:1342來源:國知局
一種基于多模型融合的潛在換機用戶發(fā)現(xiàn)方法與流程

本發(fā)明涉及數(shù)據(jù)清洗方法、異常數(shù)據(jù)處理方法、用戶換機打標(biāo)方法、特征工程構(gòu)建方法,以及采用多模型融合進行換機用戶預(yù)測的技術(shù)。



背景技術(shù):

運營商幾乎每分每秒都在產(chǎn)生著海量業(yè)務(wù)數(shù)據(jù),如何將這些數(shù)據(jù)利用起來并產(chǎn)生價值,這就成了運營商的一個迫切需求。然而隨機投放的推送對多數(shù)用戶造成無意義的干擾。對商家而言,濫發(fā)的推送可能降低品牌聲譽,同時難以估算營銷成本?;跀?shù)據(jù)挖掘技術(shù)和手段,通過運營商提供的精確的用戶消費行為和歷史換機軌跡刻畫用戶畫像、了解用戶需求,充分利用數(shù)據(jù)挖掘和機器學(xué)習(xí)技術(shù)為運營商的業(yè)務(wù)開展提供有力支撐。

利用數(shù)據(jù)挖掘、機器學(xué)習(xí)等技術(shù)對用戶行為進行分析,發(fā)現(xiàn)潛在的換機用戶。當(dāng)前通用的方法為利用有監(jiān)督的分類器對用戶歷史換機數(shù)據(jù)、用戶app使用情況等信息來建立模型,對用戶是否換機,換機類型等做出預(yù)測。

隨著大數(shù)據(jù)時代的到來,如何有效的進行數(shù)據(jù)挖掘,從而產(chǎn)生商業(yè)價值已經(jīng)成為了一種企業(yè)必然趨勢。



技術(shù)實現(xiàn)要素:

本發(fā)明提出了一種基于多模型融合的分類算法對用戶換機行為進行預(yù)測,同時本發(fā)明還涉及到了用戶歷史行為分析、樣本標(biāo)注意、特征工程構(gòu)建、特征選擇和特征變換等領(lǐng)域的技術(shù)。

為了實現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案是:一種基于多模型融合的潛在換機用戶發(fā)現(xiàn)方法,包括以下步驟:

(1)數(shù)據(jù)采集和預(yù)處理,收集用戶的基本信息和用戶歷史換機軌跡信息,刪除異常信息,處理缺失信息,對數(shù)值型信息進行歸一化處理;利用時間窗口劃分訓(xùn)練集和測試集。用戶的基本信息和用戶歷史換機軌跡信息從運營商的用戶最近1年消費信息中獲取。

(2)特征構(gòu)建,根據(jù)步驟(1)訓(xùn)練集和測試集中的數(shù)據(jù)提取出基本信息,以及對基本信息進行擴展得到原始特征;對原始特征分別進行排序得到排序特征;用皮爾遜相關(guān)系數(shù)衡量原始特征和目標(biāo)變量之間的相關(guān)性,構(gòu)建多項式特征;將訓(xùn)練集和測試集中的無關(guān)聯(lián)屬性特征作為離散特征。

(3)模型構(gòu)建及模型融合,分別構(gòu)建樹型模型、超平面模型和惰性模型中的分類器Xgboost、LIBSVM和KNN,用訓(xùn)練集中的數(shù)據(jù)分別對分類器Xgboost,LIBSVM和KNN進行訓(xùn)練,再用訓(xùn)練后的Xgboost、LIBSVM和KNN分別訓(xùn)練測試集。

(4)用步驟(3)所述Xgboost、LIBSVM和KNN分類器分別對未知樣本進行預(yù)測,得到的多個預(yù)測結(jié)果進行加權(quán)投票為最終的預(yù)測結(jié)果。

上述步驟(1)中還包括根據(jù)用戶歷史換機軌跡信息對用戶打標(biāo)簽,具體為:過濾換機時間小于20天的用戶歷史換機軌跡;統(tǒng)計用戶在整個考察時間窗內(nèi)使用的手機機型集合(PA)和考察時間窗之前使用的手機機型集合(PB),若集合PA和PB存在差異,那么用1標(biāo)注該用戶為換機用戶,否則用0標(biāo)注該用戶不是換機用戶。

上述步驟(1)中異常信息是指用戶的特征缺失率大于50%,則刪除。處理缺失信息包括,當(dāng)用戶在某一個時間段內(nèi)使用的手機缺失,按照時間點向后滾動,即用用戶的下個時間段的手機參數(shù)填充該缺失,若用戶的下個時間段內(nèi)手機也存在缺失,那么向前滾動,即用用戶的上個時間段的手機參數(shù)填充該缺失。

所述Xgboost分類器的構(gòu)建方法如下:分別對原始特征、排序特征、離散特征、多項式特征進行特征選擇,按照特征重要性排序,在原始特征中選取前N1個特征,在排序特征中選取前N2個特征,在離散特征中選取前N3個特征,在多項式特征中選取前N4個特征(上述參數(shù)N1,N2,N3,N4隨機取值,但N1,N2,N3,N4分別小于原始特征個數(shù)、排序特征個數(shù)、離散特征個數(shù)、多項式特征個數(shù)),Xgboost模型參數(shù)在±0.5圍內(nèi)(以初始化參數(shù)值為參考,上下0.5以內(nèi)浮動)隨機擾動,生成多個不同的Xgboost模型,所有的模型投票得到Xgboost模型。

本發(fā)明利用多模型融合方法來進行潛在換機用戶挖掘,客服了傳統(tǒng)的人工識別換機用戶的局限性;同時,不同算法的結(jié)果著眼點不同,能滿足不同用戶的需求,將眾多的機器學(xué)習(xí)算法進行合理地組合更能刻畫用戶換機的多樣性、準(zhǔn)確性。通過用戶歷史數(shù)據(jù)進行訓(xùn)練,最后在數(shù)據(jù)集上進行預(yù)測,從而發(fā)現(xiàn)即將換機的高價值用戶,并精確地為用戶推送手機機型。本發(fā)明從實際問題手機終端精準(zhǔn)營銷出發(fā),將數(shù)據(jù)挖掘技術(shù)應(yīng)用到潛在手機終端更換的預(yù)測研究中,研究工作對決策及市場人員開展工作有重要的作用。

附圖說明

圖1為潛在換機用戶發(fā)現(xiàn)的流程圖;

圖2為本發(fā)明構(gòu)建Xgboost模型的流程圖;

圖3為本發(fā)明構(gòu)建KNN模型的流程圖;

圖4為本發(fā)明模型融合的流程圖;

圖5為本發(fā)明界定考察時間段內(nèi)使用的手機機型集合PA的時間軸圖。

具體實施方式

為進一步闡述本發(fā)明方案,特以貴州移動2011年至2016年用戶數(shù)據(jù)為例對本技術(shù)方案進行詳盡闡述:

1.數(shù)據(jù)采集

通過運行商獲取用戶最近1年的消費信息以及用戶的歷史機型的各種參數(shù),包括處理器、內(nèi)存、像素以及是否支持導(dǎo)航等,收集到用戶的基本信息和用戶歷史換機軌跡信息。

2.數(shù)據(jù)預(yù)處理

包括用戶基本信息和用戶歷史換機軌跡信息的處理,根據(jù)兩個數(shù)據(jù)表的描述以及物理理解進行如下處理:

由于用戶基本信息中某些特征存在缺失現(xiàn)象,針對數(shù)值型特征和枚舉型特征分別做不同的處理,flow、mou、apru等數(shù)值型特征,如果存在缺失現(xiàn)象那么就用當(dāng)前的中位數(shù)補充;性別等枚舉型特征用區(qū)別于數(shù)據(jù)集中現(xiàn)有的枚舉值填充,如“未知”。

對信息中的數(shù)值型特征進行最大最小歸一化處理。

3.數(shù)據(jù)打標(biāo)

本發(fā)明中規(guī)定換機標(biāo)準(zhǔn):考察時間段內(nèi)出現(xiàn)的手機型號中,至少有一款在考察時間段之前沒有出現(xiàn)過。軌跡數(shù)據(jù)中如果型號數(shù)據(jù)缺失,則取該用戶按時間后一記錄的型號補充,如果缺失記錄為最后條記錄,則按時間前一記錄的型號補充,如果為唯一記錄,在填充NULL型號。結(jié)合實際案例闡述如下:

對用戶打標(biāo)簽,首先過濾換機時間小于20天的用戶歷史換機軌跡的記錄,隨后統(tǒng)計用戶在整個考察時間窗內(nèi)使用的手機機型集合PA和考察時間窗之前使用的手機機型集合PB,若集合PA減去PB不為空,那么用1標(biāo)注該用戶為換機用戶,否則用0標(biāo)注該用戶不是換機用戶。

4.訓(xùn)練集和測試集劃分

訓(xùn)練集時間點:2015年9月30日;

測試集時間點:2015年12月31日;

本發(fā)明采用基于時間滑動窗口的方法劃分?jǐn)?shù)據(jù)集,在不考慮突變和周期規(guī)律的情況下,該時間序列是具有短期自相關(guān)性的,即相鄰的時間序列值具有連續(xù)性。很顯然要預(yù)測2016年1月1日-2016年3月31日用戶是否換機,離待預(yù)測時間越近的幾個月的信息與待預(yù)測值相關(guān)性較大,從已知的2015年12月31日開始倒推5個月提取用戶的消費數(shù)據(jù)作為主要特征,訓(xùn)練集的標(biāo)注和特征提取和測試集保持相同。以考察用戶在2015年10月1日-2015年12月31是否換機為例,圖5描述了在考察時間窗內(nèi)使用的手機的開始使用時間與結(jié)束時間和考察時間窗的起始點之間的關(guān)系,①手機被使用的開始時間在考察時間窗的開始時間點之前,手機被使用的結(jié)束時間在考察時間窗的結(jié)束時間點之前;②手機被使用的開始時間和結(jié)束時間在考察時間窗之內(nèi);③手機被使用的開始時間在考察時間窗的開始時間之后,手機被使用的結(jié)束時間在考察時間窗的結(jié)束時間點之后;④手機被使用的開始時間在考察時間窗的開始時間點之前,手機被使用的結(jié)束時間在考察時間窗的結(jié)束點之后。

5.特征工程構(gòu)建

前置條件:數(shù)據(jù)打標(biāo)結(jié)果,即2015年10月1日-2015年12月31日換機的用戶為訓(xùn)練集,2016年1月1日-2016年3月31日換機的用戶為測試集,用戶用ID進行標(biāo)識。

基礎(chǔ)特征

用戶基本消費數(shù)據(jù)中,樣本(用戶)在換機時間段前5個月的流量、5個月的通話時長、5個月的arpu值,一共有15個特征,因此,對于訓(xùn)練集和測試集的每一個樣本,都可以構(gòu)建一個15維的向量(加上標(biāo)簽是16維,這一維是目標(biāo)列)。

基礎(chǔ)特征擴展

①對基礎(chǔ)特征中的每個特征,分別構(gòu)建排序特征,并進行歸一化,特征增加到15+15=30個;

②添加相鄰月份流量、通話時長、arpu值的差值特征,特征增加到30+12=42個。5個月份的流量有4個相鄰月份的流量差,5個月份的通話時長有4個相鄰月份的通話時長差,5個月份的arpu值有4個相鄰月份的apru值差,4*3=12(個特征)。

③添加用戶5個月內(nèi)流量、通話時長、arpu值的標(biāo)準(zhǔn)差,均值特征,特征增加到42+6=48個。

軌跡特征

①考察時間段前,用戶最后一個手機使用時長,48+1=49個特征。

②考察時間段前,用戶曾經(jīng)使用過多少個手機,49+1=50個特征。

③考察時間段前,用戶使用的手機時長的均值、最大值、最小值,50+3=53個特征。

④用戶最后一個手機的品牌、CPU頻率、內(nèi)存、屏幕大小、是否4G,53+5=58個特征。

多項式特征

在基礎(chǔ)特征、擴展的基礎(chǔ)特征、以及基礎(chǔ)軌跡特征中,計算訓(xùn)練集中每一維特征與目標(biāo)列之間的皮爾遜相關(guān)系數(shù),取相關(guān)系數(shù)的絕對值,倒序排序,取排名前30%(48*03.3=14)的特征,然后分別對訓(xùn)練集和測試集,利用上述得到的特征進行兩兩加、減、乘,得到91*3=273個新特征。(排名前30%的特征只能采用訓(xùn)練集數(shù)據(jù),因為經(jīng)驗知識只能從訓(xùn)練集獲取,但是進階特征的構(gòu)建必須是訓(xùn)練集和測試集同步的,相當(dāng)于把從訓(xùn)練集得到的知識應(yīng)用在測試集上)。

軌跡特征擴展

計算各個品牌的手機的平均使用時長,最大使用時長,最小使用時長(不能跨越時間段),根據(jù)用戶最后一個手機的品牌,加入這3個特征,如果沒有品牌,可以選擇留空、填均值、或者把所有非著名品牌都統(tǒng)一當(dāng)作其他處理;

用戶倒數(shù)第二個手機的軌跡基礎(chǔ)特征、軌跡特征擴展。

離散特征

對用戶的某些基本屬性特征(年齡,性別)構(gòu)建離散特征;

根據(jù)對換機業(yè)務(wù)場景的理解從用戶歷史換機軌跡表中提取出用戶距考察時間段最近的已使用手機的參數(shù),內(nèi)存、屏幕尺寸、處理器類型;

對上述軌跡特征中非數(shù)值型特征進行One-hot編碼,為了避免數(shù)據(jù)稀疏和緯度災(zāi)難問題,只有當(dāng)用戶歷史換機軌跡表中品牌使用量大于設(shè)定的閾值才唯一編碼,否則對小眾品牌統(tǒng)一編碼。

6.模型構(gòu)建和融合

前置條件:特征提取進階構(gòu)建完畢,利用機器學(xué)習(xí)算法構(gòu)建模型auc達到0.66以上;

AUC(Area Under Curve,ROC曲線下的面積)為任取一對(正、反)樣本,正樣本的得分大于負(fù)樣本的得分的概率,在不平衡數(shù)據(jù)集中相比于召回率、準(zhǔn)確率更能體現(xiàn)一個分類器模型的好壞。在換機用戶預(yù)測場景中換機用戶遠(yuǎn)遠(yuǎn)小于非換機用戶的數(shù)量,因此本發(fā)明選用AUC作為評估模型優(yōu)劣的指標(biāo)。

為了表達模型的多樣性,分別選取樹型模型、超平面模型、惰性模型中典型的分類器Xgboost,LIBSVM,KNN等。

基于Xgboost分別對原始特征、排序特征、離散特征、多項式特征進行特征選擇,按照特征重要性排序,在原始特征中選取前N1個特征,在排序特征中選取前N2個特征,在離散特征中選取前N3個特征,在多項式特征中選取前N4個特征,參數(shù)N1,N2,N3,N4隨機取值,Xgboost模型參數(shù)在小范圍(±0.5)內(nèi)隨機擾動,生成多個不同的Xgboost模型,所有的模型投票得到Xgboost分類器,圖2為構(gòu)建Xgboost模型的流程圖。

由于LIBSVM參數(shù)復(fù)雜,收斂速度慢等因素不利于手動調(diào)整參數(shù),利用LIBSVM網(wǎng)格尋優(yōu)工具得到最優(yōu)模型SVM;

基于訓(xùn)練集進行Boostrap采樣,Boostrap采樣得到多份不同的數(shù)據(jù),然后用不同的參數(shù)和數(shù)據(jù)訓(xùn)練多個KNN模型,所有的模型進行投票得到模型KNN,圖3為構(gòu)建KNN模型的流程圖。

分別用上述Xgboost,SVM,KNN得到的訓(xùn)練數(shù)據(jù)的輸出結(jié)果帶到訓(xùn)練集中得到更加貼近真實結(jié)果的模型,再用這個模型訓(xùn)練測試數(shù)據(jù)結(jié)果,這樣模型會一次比一次好。

圖4為用上述多個模型得到的測試結(jié)果的偏差當(dāng)做特征作為線性模型LR(Linear Regression)的輸入,線性模型的輸出為上述每個模型的權(quán)重;用訓(xùn)練好的xgboost模型,SVM模型,KNN模型預(yù)測驗證集,相對于驗證集的真實標(biāo)簽,每個模型輸出與真是標(biāo)簽的做異或運算的結(jié)果作為線性模型的特征,最后訓(xùn)練好的線性模型參數(shù)WT為上述xgboost模型,SVM模型,KNN模型的權(quán)重。最后用上述多個異構(gòu)模型對未知樣本進行預(yù)測,用上述線性模型的參數(shù)WT,對得到的多個預(yù)測結(jié)果進行加權(quán)投票為最終的預(yù)測結(jié)果;若用戶為潛在換機用戶,那么根據(jù)用戶的消費信息以及使用過的手機推薦套餐和相似的手機品牌。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
政和县| 东兴市| 靖边县| 昔阳县| 环江| 亚东县| 巴彦县| 田林县| 祥云县| 罗江县| 姚安县| 襄城县| 汾西县| 珠海市| 孟村| 思南县| 肇庆市| 仁寿县| 隆德县| 河津市| 新巴尔虎右旗| 喀喇沁旗| 固安县| 正镶白旗| 韶山市| 宜兰市| 舒兰市| 手游| 个旧市| 馆陶县| 冕宁县| 娱乐| 阳新县| 公主岭市| 民勤县| 罗源县| 伊川县| 任丘市| 错那县| 梅州市| 黄陵县|