1.一種基于多模型融合的潛在換機用戶發(fā)現(xiàn)方法,其特征在于,包括以下步驟:
(1)數(shù)據(jù)采集和預處理,收集用戶的基本信息和用戶歷史換機軌跡信息,刪除異常信息,處理缺失信息,對數(shù)值型信息進行歸一化處理;利用時間窗口劃分訓練集、驗證集和測試集;
(2)特征構建,根據(jù)步驟(1)訓練集和測試集中的數(shù)據(jù)提取出基本信息,以及對基本信息進行擴展得到原始特征;對原始特征分別進行排序得到排序特征;用皮爾遜相關系數(shù)衡量原始特征和目標之間變量的相關性,構建多項式特征;將訓練集和測試集中的無關聯(lián)屬性特征作為離散特征;
(3)模型構建及模型融合,分別構建樹型模型、超平面模型和惰性模型中的典型的分類器Xgboost、LIBSVM和KNN,用訓練集中的數(shù)據(jù)分別對Xgboost,LIBSVM和KNN進行訓練,再用訓練后的Xgboost、LIBSVM和KNN分別訓練測試集;
(4)用步驟(3)所述Xgboost、LIBSVM和KNN分類器分別對未知樣本進行預測,得到的多個預測結果進行加權投票為最終的預測結果。
2.根據(jù)權利要求1所述一種基于多模型融合的潛在換機用戶發(fā)現(xiàn)方法,其特征在于:所述用戶的基本信息和用戶歷史換機軌跡信息從運營商的用戶最近1年消費信息中獲取。
3.根據(jù)權利要求1或2所述一種基于多模型融合的潛在換機用戶發(fā)現(xiàn)方法,其特征在于:所述步驟(1)中還包括根據(jù)用戶歷史換機軌跡信息對用戶打標簽,具體為:過濾換機時間小于20天的用戶歷史換機軌跡;統(tǒng)計用戶在整個考察時間窗內(nèi)使用的手機機型集合(PA)和考察時間窗之前使用的手機機型集合(PB),若集合PA和PB存在差異,那么用1標注該用戶為換機用戶,否則用0標注該用戶不是換機用戶。
4.根據(jù)權利要求1所述一種基于多模型融合的潛在換機用戶發(fā)現(xiàn)方法,其特征在于:所述異常信息是指用戶的特征缺失率大于50%,則刪除。
5.根據(jù)權利要求1所述一種基于多模型融合的潛在換機用戶發(fā)現(xiàn)方法,其特征在于:所述處理缺失信息包括,當用戶在某一個時間段內(nèi)使用的手機缺失,按照時間點向后滾動,即用用戶的下個時間段的手機參數(shù)填充該缺失,若用戶的下個時間段內(nèi)手機也存在缺失,那么向前滾動,即用用戶的上個時間段的手機參數(shù)填充該缺失。
6.根據(jù)權利要求1所述一種基于多模型融合的潛在換機用戶發(fā)現(xiàn)方法,其特征在于:所述Xgboost分類器的構建方法如下:分別對原始特征、排序特征、離散特征、多項式特征進行特征選擇,按照特征重要性排序,在原始特征中選取前N1個特征,在排序特征中選取前N2個特征,在離散特征中選取前N3個特征,在多項式特征中選取前N4個特征,參數(shù)N1,N2,N3,N4隨機取值,但N1,N2,N3,N4分別小于原始特征個數(shù)、排序特征個數(shù)、離散特征個數(shù)、多項式特征個數(shù),Xgboost模型參數(shù)在±0.5圍內(nèi)隨機擾動,生成多個不同的Xgboost模型,所有的模型投票得到最終的Xgboost模型。