一種基于移動互聯(lián)網(wǎng)的大數(shù)據(jù)挖掘方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明的基于移動互聯(lián)網(wǎng)的大數(shù)據(jù)挖掘方法,包括:獲取與客戶基本數(shù)據(jù)相關(guān)的、更新的客戶社會行為數(shù)據(jù);將客戶社會行為數(shù)據(jù)規(guī)范化;利用規(guī)范化的數(shù)據(jù)建立或更新行為類別數(shù)據(jù)模型;采用預測算法建立或更新客戶行為階段的預測模型;用于獲取客戶行為是否進入后續(xù)階段作為驗證數(shù)據(jù)反饋,輸出數(shù)據(jù)模型、預測模型??梢詮臉I(yè)務(wù)需求的各階段業(yè)務(wù)特點出發(fā),形成數(shù)據(jù)提取、數(shù)據(jù)建模、預測建模和預測分析輸出反饋的數(shù)據(jù)處理過程,接受上一次處理結(jié)果作為下一次迭代的輸入,形成預測模型和數(shù)據(jù)模型自學習功能,結(jié)合增量更新的數(shù)據(jù)內(nèi)容和數(shù)據(jù)類型,可以實現(xiàn)針對不同行業(yè)業(yè)務(wù)預測的靈活可信的數(shù)據(jù)處理過程。還包括基于移動互聯(lián)網(wǎng)的大數(shù)據(jù)挖掘系統(tǒng)。
【專利說明】
一種基于移動互聯(lián)網(wǎng)的大數(shù)據(jù)挖掘方法及系統(tǒng)
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及一種數(shù)據(jù)處理方法和數(shù)據(jù)處理系統(tǒng),特別是涉及一種離散的異構(gòu)數(shù)據(jù)的處理方法和數(shù)據(jù)處理系統(tǒng)。
【背景技術(shù)】
[0002]在現(xiàn)有數(shù)據(jù)分析工程中,數(shù)據(jù)之間的隱性相關(guān)性不顯著,這往往是由于數(shù)據(jù)生成具有時間離散性,數(shù)據(jù)生成時間不準確,在一定周期或時期內(nèi)隨機漂移。數(shù)據(jù)還具有異構(gòu)性,不同來源的數(shù)據(jù)量綱不同,數(shù)據(jù)經(jīng)過歸一化處理可以減小這種差異但也會造成信息丟失。當采集的數(shù)據(jù)基于數(shù)據(jù)源的行為方式時,數(shù)據(jù)的提取、轉(zhuǎn)移、加載過程與計算機技術(shù)中的通信、計算和存儲架構(gòu)不能有機結(jié)合,造成現(xiàn)實環(huán)境中海量的客觀行為數(shù)據(jù)無法進行有效數(shù)據(jù)分析,形成可靠的數(shù)據(jù)處理結(jié)果。
[0003]例如在汽車銷售領(lǐng)域,通過人為方式需要銷售人員長時間的積累才能挖掘出潛在的客戶行為數(shù)據(jù)。由于這類商品價格較高,往往也伴隨著更多的附加值,客戶在購買時普遍都持比較謹慎的行為,從意向購買行為到實際購買行為往往有3到6個月的時間間隔。銷售人員在與客戶短暫的接觸中難以獲取有價值的行為數(shù)據(jù)。往往挖掘潛在客戶獲得完整行為數(shù)據(jù)的效率極低,成本也很高。而且客戶的行為數(shù)據(jù)分散與銷售人員零散存儲,一旦人員變動會造成帶走大量客戶的行為數(shù)據(jù)缺失,造成客戶流失的情況。并且從留存資料、試乘試駕、詢價還價到購買的不同階段中,是什么具體的客觀行為導致消費者流失,又是什么原因客觀因素影響消費者行為進入下一個階段是非常不明確的。為了做細致的歸因分析,以為未來的銷售擬定合理的計劃,需相應(yīng)的數(shù)據(jù)分析處理方法。
【發(fā)明內(nèi)容】
[0004]有鑒于此,本發(fā)明實施例提供了一種基于移動互聯(lián)網(wǎng)的大數(shù)據(jù)挖掘方法,解決現(xiàn)有數(shù)據(jù)處理無法將異構(gòu)類型的時間離散化的行為數(shù)據(jù)有效處理形成客觀行為分析和預測的技術(shù)問題。
[0005]本發(fā)明實施例還提供了一種基于移動互聯(lián)網(wǎng)的大數(shù)據(jù)挖掘系統(tǒng),解決現(xiàn)有數(shù)據(jù)處理無法將異構(gòu)類型的時間離散化的行為數(shù)據(jù)有效處理形成客觀行為分析和預測的技術(shù)問題。
[0006]本發(fā)明的基于移動互聯(lián)網(wǎng)的大數(shù)據(jù)挖掘方法,包括以下步驟:
[0007]200,獲取與客戶基本數(shù)據(jù)相關(guān)的、更新的客戶社會行為數(shù)據(jù);
[0008]300,將客戶社會行為數(shù)據(jù)規(guī)范化;
[0009]400,利用規(guī)范化的數(shù)據(jù)建立或更新行為類別數(shù)據(jù)模型;
[0010]500,采用預測算法建立或更新客戶行為階段的預測模型;
[0011]600,用于獲取客戶行為是否進入后續(xù)階段作為驗證數(shù)據(jù)反饋,輸出數(shù)據(jù)模型、預測模型。
[0012]所述步驟200中還包括以下步驟:
[0013]210,從公共服務(wù)平臺檢索與客戶基本數(shù)據(jù)關(guān)聯(lián)的行為數(shù)據(jù);
[0014]220,從公共服務(wù)平臺檢索與客戶基本數(shù)據(jù)關(guān)聯(lián)的時間數(shù)據(jù)、位置數(shù)據(jù)、事件數(shù)據(jù)。
[0015]平臺包括社交平臺、購物平臺、消費平臺、門戶平臺中的部分或全部;
[0016]行為數(shù)據(jù)包括消費行為數(shù)據(jù)、選擇行為數(shù)據(jù)、關(guān)注行為數(shù)據(jù)的部分或全部;
[0017]時間數(shù)據(jù)包括出現(xiàn)行為數(shù)據(jù)積累的時間節(jié)點、位置節(jié)點、積累激活節(jié)點、積累終止節(jié)點的部分或全部。
[0018]所述步驟300中還包括以下步驟:
[0019]310,通過分布式計算資源分配規(guī)范化過程處理數(shù)據(jù);
[0020]320,通過建立數(shù)據(jù)集加速規(guī)范化過程。
[0021]所述規(guī)范化具體為:
[0022]利用Hadoop方法進行數(shù)據(jù)清洗;
[0023]利用Spark方法進行數(shù)據(jù)清洗;
[0024]檢驗數(shù)據(jù)補全缺失值;
[0025]進行數(shù)據(jù)的歸一化處理。
[0026]所述數(shù)據(jù)模型包括用戶興趣行為模型、消費能力模型、職業(yè)階段模型、家庭構(gòu)成模型、觸媒習慣模型、生活習慣模型的部分或全部。
[0027]所述步驟600的步驟包括:
[0028]獲取客戶行為是否進入后續(xù)階段作為驗證數(shù)據(jù),是則執(zhí)行步驟900,同時,將預測數(shù)據(jù)作為正例反饋步驟400,反饋步驟500,進行模型訓練;
[0029]否則執(zhí)行步驟700,同時,將預測數(shù)據(jù)作為負例反饋反饋步驟400,反饋步驟500,進行模型訓練。
[0030]還包括步驟100,根據(jù)業(yè)務(wù)需求,獲取客戶基本數(shù)據(jù)。
[0031]本發(fā)明的基于移動互聯(lián)網(wǎng)的大數(shù)據(jù)挖掘系統(tǒng),包括業(yè)務(wù)數(shù)據(jù)提取裝置、業(yè)務(wù)數(shù)據(jù)數(shù)據(jù)規(guī)范裝置、業(yè)務(wù)數(shù)據(jù)建模裝置、業(yè)務(wù)預測建模裝置和業(yè)務(wù)預測判斷裝置,其中:
[0032]業(yè)務(wù)數(shù)據(jù)提取裝置,用于獲取與客戶基本數(shù)據(jù)相關(guān)的、更新的客戶社會行為數(shù)據(jù);
[0033]業(yè)務(wù)數(shù)據(jù)數(shù)據(jù)規(guī)范裝置,用于將客戶社會行為數(shù)據(jù)規(guī)范化;
[0034]業(yè)務(wù)數(shù)據(jù)建模裝置,用于利用規(guī)范化的數(shù)據(jù)建立或更新行為類別數(shù)據(jù)模型;
[0035]業(yè)務(wù)預測建模裝置,用于采用預測算法建立或更新客戶行為階段的預測模型;
[0036]業(yè)務(wù)預測判斷裝置,用于獲取客戶行為是否進入后續(xù)階段作為驗證數(shù)據(jù)反饋,輸出數(shù)據(jù)模型、預測模型。
[0037]所述業(yè)務(wù)數(shù)據(jù)提取裝置包括關(guān)聯(lián)數(shù)據(jù)提取裝置和數(shù)據(jù)相關(guān)性提取裝置,業(yè)務(wù)數(shù)據(jù)數(shù)據(jù)規(guī)范裝置包括數(shù)據(jù)分布處理裝置和數(shù)據(jù)融合處理裝置,其中:
[0038]關(guān)聯(lián)數(shù)據(jù)提取裝置,用于從公共服務(wù)平臺檢索與客戶基本數(shù)據(jù)關(guān)聯(lián)的行為數(shù)據(jù);
[0039]數(shù)據(jù)相關(guān)性提取裝置,用于從公共服務(wù)平臺檢索與客戶基本數(shù)據(jù)關(guān)聯(lián)的時間數(shù)據(jù)、位置數(shù)據(jù)、事件數(shù)據(jù);
[0040]數(shù)據(jù)分布處理裝置,用于通過分布式計算資源分配規(guī)范化過程處理數(shù)據(jù);
[0041 ]數(shù)據(jù)融合處理裝置,用于通過建立數(shù)據(jù)集加速規(guī)范化過程。
[0042]本發(fā)明的基于移動互聯(lián)網(wǎng)的大數(shù)據(jù)挖掘方法,可以從業(yè)務(wù)需求的各階段業(yè)務(wù)特點出發(fā),形成數(shù)據(jù)提取、數(shù)據(jù)建模、預測建模和預測分析輸出反饋的數(shù)據(jù)處理過程。能夠接受每一次處理的結(jié)果作為下一次迭代的輸入,形成預測模型和數(shù)據(jù)模型自學習功能,結(jié)合增量更新的數(shù)據(jù)內(nèi)容和數(shù)據(jù)類型,可以實現(xiàn)針對不同行業(yè)業(yè)務(wù)預測的靈活可信的數(shù)據(jù)處理過程。
[0043]本發(fā)明的基于移動互聯(lián)網(wǎng)的大數(shù)據(jù)挖掘系統(tǒng),將大數(shù)據(jù)挖掘的過程形成具體的功能裝置,可以根據(jù)具體業(yè)務(wù)需要進行靈活配置,根據(jù)業(yè)務(wù)階段進行注意過程的裝置配置,形成復雜的系統(tǒng)結(jié)構(gòu)對應(yīng)復雜的業(yè)務(wù)數(shù)據(jù)挖掘分析。
【附圖說明】
[0044]圖1為本發(fā)明的基于移動互聯(lián)網(wǎng)的大數(shù)據(jù)挖掘方法一實施例的主要流程圖;
[0045]圖2為本發(fā)明的基于移動互聯(lián)網(wǎng)的大數(shù)據(jù)挖掘方法一實施例的分步流程圖;
[0046]圖3為本發(fā)明的基于移動互聯(lián)網(wǎng)的大數(shù)據(jù)挖掘方法在汽車銷售中的應(yīng)用流程圖;
[0047]圖4為本發(fā)明的基于移動互聯(lián)網(wǎng)的大數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu)示意圖一;
[0048]圖5為本發(fā)明的基于移動互聯(lián)網(wǎng)的大數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu)示意圖二。
【具體實施方式】
[0049]下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
[0050]圖紙中的步驟編號僅用于作為該步驟的附圖標記,不表示執(zhí)行順序。
[0051]如圖1所示,本發(fā)明的基于移動互聯(lián)網(wǎng)的大數(shù)據(jù)挖掘方法一實施例包括以下步驟:
[0052]100,根據(jù)業(yè)務(wù)需求,獲取客戶基本數(shù)據(jù);
[0053]200,獲取與客戶基本數(shù)據(jù)相關(guān)的(和/或更新的)客戶社會行為數(shù)據(jù);
[0054]300,將客戶社會行為數(shù)據(jù)規(guī)范化;
[0055]400,利用(數(shù)據(jù)規(guī)范化結(jié)果的)規(guī)范化的數(shù)據(jù)建立或更新行為類別數(shù)據(jù)模型;
[0056]500,采用預測算法建立(和/或更新)客戶行為階段的預測模型;
[0057]600,用于獲取客戶行為是否進入后續(xù)階段作為驗證數(shù)據(jù)反饋,輸出(包括數(shù)據(jù)模型、預測模型);
[0058]700,根據(jù)預測模型對進入后續(xù)階段進行預測;預測模型會輸出定量的判斷依據(jù);
[0059]800,將預測會進入下一階段的反饋數(shù)據(jù)相應(yīng)的客戶數(shù)據(jù)輸出,結(jié)束本次業(yè)務(wù)階段;
[0060]900,存儲更新的數(shù)據(jù)模型、預測模型。
[0061]本實施例的基于移動互聯(lián)網(wǎng)的大數(shù)據(jù)挖掘方法,可以從業(yè)務(wù)需求的各階段業(yè)務(wù)特點出發(fā),形成數(shù)據(jù)提取、數(shù)據(jù)建模、預測建模和預測分析輸出反饋的數(shù)據(jù)處理過程。能夠接受每一次處理的結(jié)果作為下一次迭代的輸入,形成預測模型和數(shù)據(jù)模型自學習功能,結(jié)合增量更新的數(shù)據(jù)內(nèi)容和數(shù)據(jù)類型,可以實現(xiàn)針對不同行業(yè)業(yè)務(wù)預測的靈活可信的數(shù)據(jù)處理過程。
[0062 ] 如圖2所示,在步驟100中還包括以下步驟:
[0063]110,獲取客戶的客戶端數(shù)據(jù);
[0064]120,獲取客戶的社會關(guān)系數(shù)據(jù)。
[0065]上述的獲取途徑通過從累積的客戶關(guān)系數(shù)據(jù)庫中的累計留存資料中獲取。
[0066]如圖2所示,在步驟200中還包括以下步驟:
[0067]210,從公共服務(wù)平臺檢索與客戶基本數(shù)據(jù)關(guān)聯(lián)的行為數(shù)據(jù);
[0068]220,從公共服務(wù)平臺檢索與客戶基本數(shù)據(jù)關(guān)聯(lián)的時間數(shù)據(jù)、位置數(shù)據(jù)、事件數(shù)據(jù)。
[0069]上述平臺包括社交平臺、購物平臺、消費平臺、門戶平臺等。
[0070]行為數(shù)據(jù)包括消費行為數(shù)據(jù)、選擇行為數(shù)據(jù)、關(guān)注行為數(shù)據(jù)等。
[0071]時間數(shù)據(jù)包括出現(xiàn)行為數(shù)據(jù)積累的時間節(jié)點、位置節(jié)點、積累激活節(jié)點、積累終止節(jié)點等。
[0072]如圖2所示,在步驟300中還包括以下步驟:
[0073]310,通過分布式計算資源分配規(guī)范化過程處理數(shù)據(jù);
[0074]320,通過建立數(shù)據(jù)集加速規(guī)范化過程。
[0075]上述規(guī)范化具體為:
[0076]利用Hadoop方法進行數(shù)據(jù)清洗;
[0077]利用Spark方法進行數(shù)據(jù)清洗;
[0078]檢驗數(shù)據(jù)補全缺失值;
[0079]進行數(shù)據(jù)的歸一化處理。
[0080]在步驟400中的數(shù)據(jù)模型包括用戶興趣行為模型、消費能力模型、職業(yè)階段模型、家庭構(gòu)成模型、觸媒習慣模型、生活習慣模型。
[0081]上述模型的數(shù)據(jù)包括但不限于:美食/烹飪、閱讀/寫作、健身/健康/體育、旅行/自駕游、音樂/唱歌/樂器/舞蹈、園藝、與寵物玩耍、油畫/素描/藝術(shù)/設(shè)計、購物/時尚、休閑/娛樂、上網(wǎng)/游戲、改裝車/車相關(guān)、投資/理財、及其他;
[0082]消費能力包括:
[0083 ] 一般消費、中檔消費、高檔消費、其他;
[0084]職業(yè)階段包括:初級階段(壓力大)、過渡階段(壓力較大)、快速上升階段、平穩(wěn)階段(沒有太大變化);
[0085]家庭構(gòu)成包括:已婚、未婚,3口之家,4口之家,5口及以上;
[0086]觸媒習慣包括:新聞類APP,汽車類APP,地圖類APP,社交類APP等;
[0087]生活習慣包括:休閑方式、品牌偏好、理財習慣、旅行習慣等。
[0088]在步驟500中的預測算法包括樸素貝葉斯、回歸、神經(jīng)網(wǎng)絡(luò)算法中的一種或一種以上的結(jié)合。
[0089]步驟600的具體步驟包括:
[0090]獲取客戶行為是否進入后續(xù)階段作為驗證數(shù)據(jù),是則執(zhí)行步驟900,同時,將預測數(shù)據(jù)作為正例反饋步驟400,反饋步驟500,進行模型訓練;否則執(zhí)行步驟700,同時,將預測數(shù)據(jù)作為負例反饋反饋步驟400,反饋步驟500,進行模型訓練。
[0091]本實施例中,提取的數(shù)據(jù)具有多維度的相關(guān)性,可以包括業(yè)戶用戶在各方面潛在的數(shù)據(jù)屬性和內(nèi)涵,保證了在不同維度下數(shù)據(jù)的完整性。數(shù)據(jù)模型形成客戶行為的合理關(guān)聯(lián)結(jié)構(gòu),進一步形成客戶行為的具體體現(xiàn),數(shù)據(jù)模型的多樣性可以形成行為數(shù)據(jù)變化過程中的多態(tài)特征,使得數(shù)據(jù)屬性和內(nèi)涵的表征更加復雜。預測模型據(jù)此可以形成精細化的數(shù)據(jù)分析方向和更復雜的數(shù)據(jù)統(tǒng)計過程。
[0092]如圖3所示,本發(fā)明的基于移動互聯(lián)網(wǎng)的大數(shù)據(jù)挖掘方法的一個汽車銷售實施例包括客戶接洽、試乘試駕、詢價還價和銷售幾個階段,每個階段都可以建立相應(yīng)的數(shù)據(jù)采集規(guī)范化、數(shù)據(jù)模型、預測模型的數(shù)字處理過程。
[0093]每個階段的數(shù)據(jù)為本階段或上一階段的增量數(shù)據(jù)或增量結(jié)果數(shù)據(jù)。
[0094]針對某一階段的優(yōu)惠或促銷業(yè)務(wù),形成相應(yīng)的模型數(shù)據(jù),比照預測形成對業(yè)務(wù)效果的獨立的測試。
[0095]每一階段的預測反饋形成迭代過程,前次迭代的結(jié)果形成必要的輸入,最終銷售的結(jié)果和預測的結(jié)果用來修正和評估模型的效果,然后進入下一輪迭代。
[0096]應(yīng)用本發(fā)明的基于移動互聯(lián)網(wǎng)的大數(shù)據(jù)挖掘方法,汽車銷售業(yè)務(wù)可以保證數(shù)據(jù)的穩(wěn)定性和可靠性,獲得潛在用戶的準確信息,準確判斷客戶的行為習慣指導業(yè)務(wù)人員進行合理的資源和成本分配。形成的細致的歸因分析,可以為銷售擬定合理的計劃數(shù)據(jù)和方向。
[0097]如圖4所示,本發(fā)明的基于移動互聯(lián)網(wǎng)的大數(shù)據(jù)挖掘系統(tǒng)的一實施例,包括業(yè)務(wù)需求形成裝置101、業(yè)務(wù)數(shù)據(jù)提取裝置201、業(yè)務(wù)數(shù)據(jù)數(shù)據(jù)規(guī)范裝置301、業(yè)務(wù)數(shù)據(jù)建模裝置401、業(yè)務(wù)預測建模裝置501、業(yè)務(wù)預測判斷裝置601和業(yè)務(wù)模型存儲裝置901,其中:
[0098]業(yè)務(wù)需求形成裝置101,用于根據(jù)業(yè)務(wù)需求,獲取客戶基本數(shù)據(jù);
[0099]業(yè)務(wù)數(shù)據(jù)提取裝置201,用于獲取與客戶基本數(shù)據(jù)相關(guān)的、更新的客戶社會行為數(shù)據(jù);
[0100]業(yè)務(wù)數(shù)據(jù)數(shù)據(jù)規(guī)范裝置301,用于將客戶社會行為數(shù)據(jù)規(guī)范化;
[0101 ]業(yè)務(wù)數(shù)據(jù)建模裝置401,用于利用規(guī)范化的數(shù)據(jù)建立或更新行為類別數(shù)據(jù)模型;
[0102]業(yè)務(wù)預測建模裝置501,用于采用預測算法建立或更新客戶行為階段的預測模型;
[0103]業(yè)務(wù)預測判斷裝置601,用于獲取客戶行為是否進入后續(xù)階段作為驗證數(shù)據(jù)反饋,輸出數(shù)據(jù)模型、預測模型;
[0104]業(yè)務(wù)模型存儲裝置901,用于存儲更新的數(shù)據(jù)模型、預測模型。
[0105]本實施例的基于移動互聯(lián)網(wǎng)的大數(shù)據(jù)挖掘系統(tǒng),將大數(shù)據(jù)挖掘的過程形成具體的功能裝置,可以根據(jù)具體業(yè)務(wù)需要進行靈活配置,根據(jù)業(yè)務(wù)階段進行注意過程的裝置配置,形成復雜的系統(tǒng)結(jié)構(gòu)對應(yīng)復雜的業(yè)務(wù)數(shù)據(jù)挖掘分析。
[0106]如圖5所示,業(yè)務(wù)需求形成裝置101包括客戶端數(shù)據(jù)提取裝置111和社會關(guān)系數(shù)據(jù)提取裝置121,業(yè)務(wù)數(shù)據(jù)提取裝置201包括關(guān)聯(lián)數(shù)據(jù)提取裝置211和數(shù)據(jù)相關(guān)性提取裝置221,業(yè)務(wù)數(shù)據(jù)數(shù)據(jù)規(guī)范裝置301包括數(shù)據(jù)分布處理裝置311和數(shù)據(jù)融合處理裝置321,其中:
[0107]客戶端數(shù)據(jù)提取裝置111,用于獲取客戶的客戶端數(shù)據(jù);
[0108]社會關(guān)系數(shù)據(jù)提取裝置121,用于獲取客戶的社會關(guān)系數(shù)據(jù);
[0109]關(guān)聯(lián)數(shù)據(jù)提取裝置211,用于從公共服務(wù)平臺檢索與客戶基本數(shù)據(jù)關(guān)聯(lián)的行為數(shù)據(jù);
[0110]數(shù)據(jù)相關(guān)性提取裝置221,用于從公共服務(wù)平臺檢索與客戶基本數(shù)據(jù)關(guān)聯(lián)的時間數(shù)據(jù)、位置數(shù)據(jù)、事件數(shù)據(jù);
[0111]數(shù)據(jù)分布處理裝置311,用于通過分布式計算資源分配規(guī)范化過程處理數(shù)據(jù);
[0112]數(shù)據(jù)融合處理裝置321,用于通過建立數(shù)據(jù)集加速規(guī)范化過程。
[0113]以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。
【主權(quán)項】
1.一種基于移動互聯(lián)網(wǎng)的大數(shù)據(jù)挖掘方法,包括以下步驟: 200,獲取與客戶基本數(shù)據(jù)相關(guān)的、更新的客戶社會行為數(shù)據(jù); 300,將客戶社會行為數(shù)據(jù)規(guī)范化; 400,利用規(guī)范化的數(shù)據(jù)建立或更新行為類別數(shù)據(jù)模型; 500,采用預測算法建立或更新客戶行為階段的預測模型; 600,用于獲取客戶行為是否進入后續(xù)階段作為驗證數(shù)據(jù)反饋,輸出數(shù)據(jù)模型、預測模型。2.如權(quán)利要求1所述的基于移動互聯(lián)網(wǎng)的大數(shù)據(jù)挖掘方法,所述步驟200中還包括以下步驟: 210,從公共服務(wù)平臺檢索與客戶基本數(shù)據(jù)關(guān)聯(lián)的行為數(shù)據(jù); 220,從公共服務(wù)平臺檢索與客戶基本數(shù)據(jù)關(guān)聯(lián)的時間數(shù)據(jù)、位置數(shù)據(jù)、事件數(shù)據(jù)。3.如權(quán)利要求2所述的基于移動互聯(lián)網(wǎng)的大數(shù)據(jù)挖掘方法,所述平臺包括社交平臺、購物平臺、消費平臺、門戶平臺中的部分或全部; 行為數(shù)據(jù)包括消費行為數(shù)據(jù)、選擇行為數(shù)據(jù)、關(guān)注行為數(shù)據(jù)的部分或全部; 時間數(shù)據(jù)包括出現(xiàn)行為數(shù)據(jù)積累的時間節(jié)點、位置節(jié)點、積累激活節(jié)點、積累終止節(jié)點的部分或全部。4.如權(quán)利要求1所述的基于移動互聯(lián)網(wǎng)的大數(shù)據(jù)挖掘方法,所述步驟300中還包括以下步驟: 310,通過分布式計算資源分配規(guī)范化過程處理數(shù)據(jù); 320,通過建立數(shù)據(jù)集加速規(guī)范化過程。5.如權(quán)利要求4所述的基于移動互聯(lián)網(wǎng)的大數(shù)據(jù)挖掘方法,所述規(guī)范化具體為: 利用Hadoop方法進行數(shù)據(jù)清洗; 利用Spark方法進行數(shù)據(jù)清洗; 檢驗數(shù)據(jù)補全缺失值; 進行數(shù)據(jù)的歸一化處理。6.如權(quán)利要求1所述的基于移動互聯(lián)網(wǎng)的大數(shù)據(jù)挖掘方法,所述數(shù)據(jù)模型包括用戶興趣行為模型、消費能力模型、職業(yè)階段模型、家庭構(gòu)成模型、觸媒習慣模型、生活習慣模型的部分或全部。7.如權(quán)利要求1所述的基于移動互聯(lián)網(wǎng)的大數(shù)據(jù)挖掘方法,所述步驟600的步驟包括: 獲取客戶行為是否進入后續(xù)階段作為驗證數(shù)據(jù),是則執(zhí)行步驟900,同時,將預測數(shù)據(jù)作為正例反饋步驟400,反饋步驟500,進行模型訓練; 否則執(zhí)行步驟700,同時,將預測數(shù)據(jù)作為負例反饋反饋步驟400,反饋步驟500,進行模型訓練。8.如權(quán)利要求1所述的基于移動互聯(lián)網(wǎng)的大數(shù)據(jù)挖掘方法,還包括步驟100,根據(jù)業(yè)務(wù)需求,獲取客戶基本數(shù)據(jù)。9.一種基于移動互聯(lián)網(wǎng)的大數(shù)據(jù)挖掘系統(tǒng),包括業(yè)務(wù)數(shù)據(jù)提取裝置(201)、業(yè)務(wù)數(shù)據(jù)數(shù)據(jù)規(guī)范裝置(301)、業(yè)務(wù)數(shù)據(jù)建模裝置(401)、業(yè)務(wù)預測建模裝置(501)和業(yè)務(wù)預測判斷裝置(601),其中: 業(yè)務(wù)數(shù)據(jù)提取裝置(201),用于獲取與客戶基本數(shù)據(jù)相關(guān)的、更新的客戶社會行為數(shù) 據(jù); 業(yè)務(wù)數(shù)據(jù)數(shù)據(jù)規(guī)范裝置(301),用于將客戶社會行為數(shù)據(jù)規(guī)范化; 業(yè)務(wù)數(shù)據(jù)建模裝置(401),用于利用規(guī)范化的數(shù)據(jù)建立或更新行為類別數(shù)據(jù)模型; 業(yè)務(wù)預測建模裝置(501 ),用于采用預測算法建立或更新客戶行為階段的預測模型;業(yè)務(wù)預測判斷裝置(601),用于獲取客戶行為是否進入后續(xù)階段作為驗證數(shù)據(jù)反饋,輸出數(shù)據(jù)模型、預測模型。10.如權(quán)利要求9所述的基于移動互聯(lián)網(wǎng)的大數(shù)據(jù)挖掘系統(tǒng),其特征在于:所述業(yè)務(wù)數(shù)據(jù)提取裝置(201)包括關(guān)聯(lián)數(shù)據(jù)提取裝置(211)和數(shù)據(jù)相關(guān)性提取裝置(221),業(yè)務(wù)數(shù)據(jù)數(shù)據(jù)規(guī)范裝置(301)包括數(shù)據(jù)分布處理裝置(311)和數(shù)據(jù)融合處理裝置(321),其中: 關(guān)聯(lián)數(shù)據(jù)提取裝置(211),用于從公共服務(wù)平臺檢索與客戶基本數(shù)據(jù)關(guān)聯(lián)的行為數(shù)據(jù);數(shù)據(jù)相關(guān)性提取裝置(221),用于從公共服務(wù)平臺檢索與客戶基本數(shù)據(jù)關(guān)聯(lián)的時間數(shù)據(jù)、位置數(shù)據(jù)、事件數(shù)據(jù); 數(shù)據(jù)分布處理裝置(311),用于通過分布式計算資源分配規(guī)范化過程處理數(shù)據(jù); 數(shù)據(jù)融合處理裝置(321 ),用于通過建立數(shù)據(jù)集加速規(guī)范化過程。
【文檔編號】G06Q30/02GK105894336SQ201610353875
【公開日】2016年8月24日
【申請日】2016年5月25日
【發(fā)明人】陳文棟
【申請人】北京比鄰弘科科技有限公司