針對(duì)快遞員周邊人群營(yíng)銷中快遞員數(shù)據(jù)的識(shí)別方法

文檔序號(hào)：6635040閱讀：699來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

針對(duì)快遞員周邊人群營(yíng)銷中快遞員數(shù)據(jù)的識(shí)別方法
【專利摘要】本發(fā)明公開一種針對(duì)快遞員周邊人群營(yíng)銷中快遞員數(shù)據(jù)的識(shí)別方法，其首先從經(jīng)分?jǐn)?shù)據(jù)倉(cāng)庫(kù)和流量數(shù)據(jù)倉(cāng)庫(kù)中獲取快遞員用戶基本信息、通信信息和位置信息，并關(guān)聯(lián)形成事實(shí)寬表；對(duì)事實(shí)寬表中的多個(gè)樣本數(shù)據(jù)進(jìn)行正負(fù)樣本分類，然后以相同正負(fù)樣本比例將事實(shí)寬表中數(shù)據(jù)分為訓(xùn)練集、驗(yàn)證集；再對(duì)訓(xùn)練集正、負(fù)樣本數(shù)據(jù)進(jìn)行預(yù)處理，進(jìn)而利用DTRA算法，生成快遞員用戶特征規(guī)則集，并依據(jù)特征規(guī)則驗(yàn)證驗(yàn)證集中的正、負(fù)樣本用戶；再利用DTRA算法生成潛在快遞員數(shù)據(jù)；最后進(jìn)行模型效果評(píng)估。本發(fā)明通過利用機(jī)器學(xué)習(xí)替代傳統(tǒng)人工經(jīng)驗(yàn)挖掘，提高數(shù)據(jù)挖掘的準(zhǔn)確度，并基于分布式大數(shù)據(jù)處理平臺(tái)，實(shí)現(xiàn)從傳統(tǒng)數(shù)據(jù)庫(kù)(Oracle)的抽樣挖掘到全量數(shù)據(jù)挖掘，提升數(shù)據(jù)挖掘性能。
【專利說明】針對(duì)快遞員周邊人群營(yíng)銷中快遞員數(shù)據(jù)的識(shí)別方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)挖掘技術(shù)，特別是一種在針對(duì)快遞員周邊人群進(jìn)行營(yíng)銷活動(dòng)過程中，快遞員數(shù)據(jù)的識(shí)別方法。

【背景技術(shù)】
[0002] 在針對(duì)快遞員周邊人群進(jìn)行營(yíng)銷活動(dòng)時(shí)，首先要對(duì)快遞員數(shù)據(jù)進(jìn)行挖掘，進(jìn)而得到其周邊營(yíng)銷目標(biāo)人群數(shù)據(jù)，其中快遞員數(shù)據(jù)的識(shí)別挖掘方法一般為，從A 口信令（在基站控制器BSC和移動(dòng)業(yè)務(wù)交互中也MSC之間傳送的控制面信令數(shù)據(jù)，例如：尋呼事件、位置更新事件、漫游事件等）中獲取用戶位置信息，從經(jīng)分?jǐn)?shù)據(jù)倉(cāng)庫(kù)獲取用戶語音話單、短信話單和用戶基礎(chǔ)資料，在傳統(tǒng)化acle數(shù)據(jù)庫(kù)中通過用戶手機(jī)號(hào)碼將用戶位置信息、語音話單信息、短信話單信息和用戶基礎(chǔ)資料關(guān)聯(lián)起來，根據(jù)下面的算法識(shí)別出快遞人員： W "人為發(fā)現(xiàn)，經(jīng)驗(yàn)挖掘"的方式，通過統(tǒng)計(jì)方法識(shí)別快遞人員，具體為， 1、連續(xù)5天工作時(shí)間（早上8點(diǎn)到下午6點(diǎn)）在固定地點(diǎn)短時(shí)間內(nèi)跟大量用戶（闊值暫定20 W上）發(fā)生短時(shí)間通話（小于一分鐘）或者短信行為，確定問疑似快遞人員； 2、小于18歲的或者大于50歲的不太可能是快遞人員，排除； 3、人工方式錄入快遞人員，移動(dòng)公司員工有網(wǎng)行為得到的快遞人員可W錄入到系統(tǒng) 中； 4、對(duì)疑似快遞人員通過外呼的方式確認(rèn)；上述數(shù)據(jù)挖掘方式，在傳統(tǒng)數(shù)據(jù)庫(kù)的racle)上識(shí)別快遞人員的過程中，準(zhǔn)確度、處理性能上具有如下缺陷： 1、識(shí)別準(zhǔn)確度低，且無法把控：人為的制定規(guī)則來識(shí)別快遞員，是通過經(jīng)驗(yàn)一點(diǎn)一點(diǎn)積累，個(gè)人業(yè)務(wù)能力有限，無法保證較高的識(shí)別準(zhǔn)確度；另外，人與人之間經(jīng)驗(yàn)不同，靠經(jīng)驗(yàn)去進(jìn)行快遞員識(shí)別，缺乏統(tǒng)一的、標(biāo)準(zhǔn)的算法，準(zhǔn)確度無法保障。
[0003] 2、性能低，且無法進(jìn)行大數(shù)據(jù)挖掘；隨著數(shù)據(jù)量的增加，數(shù)據(jù)間關(guān)聯(lián)操作較多，通過傳統(tǒng)數(shù)據(jù)庫(kù)的racle)無法滿足基本的數(shù)據(jù)挖掘分析。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明要解決的技術(shù)問題為；通過利用機(jī)器學(xué)習(xí)替代傳統(tǒng)人工經(jīng)驗(yàn)挖掘，提高數(shù) 據(jù)挖掘的準(zhǔn)確度，并基于分布式大數(shù)據(jù)處理平臺(tái)，實(shí)現(xiàn)從傳統(tǒng)數(shù)據(jù)庫(kù)的racle)的抽樣挖掘到全量數(shù)據(jù)挖掘，提升數(shù)據(jù)挖掘性能。
[0005] 本發(fā)明采取的技術(shù)手段具體為；一種針對(duì)快遞員周邊人群營(yíng)銷中快遞員數(shù)據(jù)的識(shí) 別方法，包括W下步驟： 1) 從經(jīng)分?jǐn)?shù)據(jù)倉(cāng)庫(kù)中獲取疑似快遞員用戶基本信息和通信信息；從流量數(shù)據(jù)倉(cāng)庫(kù)中獲取疑似快遞員用戶位置信息，并關(guān)聯(lián)形成一張包含多個(gè)疑似快遞員用戶信息的事實(shí)寬表； 2) 將事實(shí)寬表中多個(gè)疑似快遞員信息數(shù)據(jù)隨機(jī)分為兩部分：一部分為訓(xùn)練集，一部分為驗(yàn)證集，其中，訓(xùn)練集中的樣本數(shù)據(jù)按正、負(fù)樣本比例1 :2輸入，所述正樣本數(shù)據(jù)為已確定為快遞員的用戶，負(fù)樣本數(shù)據(jù)為已確定非快遞員的用戶； 4) 對(duì)訓(xùn)練集正、負(fù)樣本數(shù)據(jù)進(jìn)行預(yù)處理，清除其中的異常值、錯(cuò)值、空值； 5) W訓(xùn)練集中正、負(fù)樣本數(shù)據(jù)對(duì)應(yīng)的快遞員用戶特征為基礎(chǔ)數(shù)據(jù)，利用分類算法中的決策樹推理DTRA算法，生成快遞員用戶特征規(guī)則集，并找到判定是否為快遞員的因素組合； 6) 根據(jù)判定是否為快遞員的影響因素確定驗(yàn)證集中的正、負(fù)樣本用戶； 7) 利用DTRA算法，結(jié)合步驟5)中得到的因素組合，生成驗(yàn)證集中的潛在快遞員數(shù)據(jù)標(biāo) 識(shí)； 8) 模型效果評(píng)估；對(duì)原驗(yàn)證集中正負(fù)樣本數(shù)據(jù)和步驟6)得到的驗(yàn)證集中正負(fù)樣本數(shù) 據(jù)，利用混淆矩陣方法公式：真正率=步驟6)驗(yàn)證結(jié)果中的正樣本數(shù)目/原驗(yàn)證集中正樣本的數(shù)目；真負(fù)率=步驟6)驗(yàn)證結(jié)果中的負(fù)樣本數(shù)目/原驗(yàn)證集中負(fù)樣本的數(shù)目；評(píng)估真正率與真負(fù)率整體準(zhǔn)確度是否達(dá)到要求：如準(zhǔn)確度達(dá)到設(shè)定百分比則對(duì)步驟 7)生成的潛在快遞員數(shù)據(jù)標(biāo)識(shí)進(jìn)行輸出；如準(zhǔn)確度不能達(dá)到要求，則調(diào)整步驟5)中得到的因素組合中各因素相對(duì)應(yīng)的參數(shù)值，然后重復(fù)步驟6)至步驟8)，直至模型準(zhǔn)確度達(dá)到要求，輸出最終潛在快遞員數(shù)據(jù)標(biāo)識(shí)。真正率與真負(fù)率整體準(zhǔn)確度可定義為真正率與真負(fù)率的平均數(shù)，或真正率與真負(fù)率的乘積。
[0006] 本發(fā)明中經(jīng)分?jǐn)?shù)據(jù)倉(cāng)庫(kù)是通過獲取綜合營(yíng)帳、計(jì)費(fèi)、客服和結(jié)算等系統(tǒng)的數(shù)據(jù)源，構(gòu)建一個(gè)面向主題的、集成的、相對(duì)穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合，為移動(dòng)管理決策提供支持；經(jīng)分?jǐn)?shù)據(jù)倉(cāng)庫(kù)與流量數(shù)據(jù)倉(cāng)庫(kù)皆為移動(dòng)系統(tǒng)的現(xiàn)有數(shù)據(jù)倉(cāng)庫(kù)。
[0007] DTRA算法為現(xiàn)有算法，其與其它分類算法如統(tǒng)計(jì)方法、神經(jīng)網(wǎng)絡(luò)等比較起來有如下優(yōu)點(diǎn)；產(chǎn)生的分類規(guī)則易于理解，準(zhǔn)確度較高。DTRA算法適于能夠駐留于內(nèi)存的數(shù)據(jù)集，當(dāng)訓(xùn)練集無法在內(nèi)存中容納時(shí)，將報(bào)出異常。
[0008] DTRA算法分為訓(xùn)練和測(cè)試兩個(gè)階段，在構(gòu)造模型之前，要求將數(shù)據(jù)集隨機(jī)地分為訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集。在訓(xùn)練階段，使用訓(xùn)練數(shù)據(jù)集，通過分析由屬性描述的數(shù)據(jù)庫(kù)元組來構(gòu)造模型，假定每個(gè)元組屬于一個(gè)預(yù)定義的類，由一個(gè)稱作類標(biāo)號(hào)屬性的屬性來確定。訓(xùn)練數(shù)據(jù)集中的單個(gè)元組也稱作訓(xùn)練樣本，一個(gè)具體樣本的形式可為；(ul，u2,……un;c); 其中Ui表示屬性值，C表示類別。由于提供了每個(gè)訓(xùn)練樣本的類標(biāo)號(hào)，該階段也稱為有指導(dǎo)的學(xué)習(xí)，通常，模型用分類規(guī)則、判定樹或數(shù)學(xué)公式的形式提供。在測(cè)試階段，使用測(cè)試數(shù) 據(jù)集來評(píng)估模型的分類準(zhǔn)確度，如果認(rèn)為模型的準(zhǔn)確度可W接受，就可W用該模型對(duì)其它數(shù)據(jù)元組進(jìn)行分類。本發(fā)明利用DTRA算法生成驗(yàn)證集和訓(xùn)練集中快遞員用戶特征或數(shù)據(jù) 標(biāo)識(shí)的步驟為現(xiàn)有技術(shù)。
[0009] 在DTRA算法運(yùn)用中重點(diǎn)關(guān)注自變量處理方法，包括；選取并評(píng)價(jià)自變量；通過RFM 算法分析自變量與目標(biāo)變量的關(guān)系，得出各自變量對(duì)因變量的重要程度，選取對(duì)因變量影響大的自變量，去除無影響的自變量；對(duì)自變量的相關(guān)性進(jìn)行分析；W及通過相關(guān)性分析得出哪些自變量是強(qiáng)相關(guān)的，識(shí)別出兀余變量。
[0010] 本發(fā)明在進(jìn)行事實(shí)寬表數(shù)據(jù)獲取時(shí)，所需獲取的具體數(shù)據(jù)指標(biāo)參考表1所示：表I

【權(quán)利要求】
1. 針對(duì)快遞員周邊人群營(yíng)銷中快遞員數(shù)據(jù)的識(shí)別方法，其特征是，包括以下步驟： 1) 從經(jīng)分?jǐn)?shù)據(jù)倉(cāng)庫(kù)中獲取疑似快遞員用戶基本信息和通信信息；從流量數(shù)據(jù)倉(cāng)庫(kù)中獲取疑似快遞員用戶位置信息，并關(guān)聯(lián)形成一張包含多個(gè)疑似快遞員用戶信息的事實(shí)寬表； 2) 將事實(shí)寬表中多個(gè)疑似快遞員信息數(shù)據(jù)隨機(jī)分為兩部分：一部分為訓(xùn)練集，一部分為驗(yàn)證集； 3) 訓(xùn)練集中的樣本數(shù)據(jù)按正、負(fù)樣本比例1 :2輸入，所述正樣本數(shù)據(jù)為已確定為快遞員的用戶，負(fù)樣本數(shù)據(jù)為已確定非快遞員的用戶； 4) 對(duì)訓(xùn)練集正、負(fù)樣本數(shù)據(jù)進(jìn)行預(yù)處理，清除其中的異常值、錯(cuò)值、空值； 5) 以訓(xùn)練集中正、負(fù)樣本數(shù)據(jù)對(duì)應(yīng)的快遞員用戶特征為基礎(chǔ)數(shù)據(jù)，利用分類算法中的決策樹推理DTRA算法，生成快遞員用戶特征規(guī)則集，并找到判定是否為快遞員的因素組合； 6) 根據(jù)判定是否為快遞員的影響因素確定驗(yàn)證集中的正、負(fù)樣本用戶； 7) 利用DTRA算法，結(jié)合步驟5)中得到的因素組合，生成驗(yàn)證集中的潛在快遞員數(shù)據(jù)標(biāo) 識(shí)； 8) 模型效果評(píng)估：對(duì)原驗(yàn)證集中正負(fù)樣本數(shù)據(jù)和步驟6)得到的驗(yàn)證集中正負(fù)樣本數(shù) 據(jù)，利用混淆矩陣方法公式：真正率=步驟6)驗(yàn)證結(jié)果中的正樣本數(shù)目/原驗(yàn)證集中正樣本的數(shù)目；真負(fù)率=步驟6)驗(yàn)證結(jié)果中的負(fù)樣本數(shù)目/原驗(yàn)證集中負(fù)樣本的數(shù)目；評(píng)估真正率與真負(fù)率整體準(zhǔn)確度是否達(dá)到要求：如準(zhǔn)確度達(dá)到設(shè)定百分比則對(duì)步驟 7)生成的潛在快遞員數(shù)據(jù)標(biāo)識(shí)進(jìn)行輸出；如準(zhǔn)確度不能達(dá)到要求，則調(diào)整步驟5)中得到的因素組合中各因素相對(duì)應(yīng)的參數(shù)值，然后重復(fù)步驟6)至步驟8)，直至模型準(zhǔn)確度達(dá)到要求。
2. 根據(jù)權(quán)利要求1所述的方法，其特征是，從經(jīng)分?jǐn)?shù)據(jù)倉(cāng)庫(kù)中獲取的用戶基本信息包括用戶編碼、年齡、地市、區(qū)縣、時(shí)段、品牌、套餐、手機(jī)號(hào)碼和對(duì)端手機(jī)號(hào)碼信息，通信信息包括通話次數(shù)和短信次數(shù)信息；從流量數(shù)據(jù)倉(cāng)庫(kù)中獲取的位置信息包括LAC和CELL軌跡數(shù) 據(jù)信息。
3. 根據(jù)權(quán)利要求1所述的方法，其特征是，步驟8)中，設(shè)定模型準(zhǔn)確度百分比為85%。
【文檔編號(hào)】G06F17/30GK104331502SQ201410666023
【公開日】2015年2月4日申請(qǐng)日期:2014年11月19日優(yōu)先權(quán)日:2014年11月19日
【發(fā)明者】劉雷申請(qǐng)人:亞信科技（南京）有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉雷
技術(shù)所有人：亞信科技（南京）有限公司
我是此專利的發(fā)明人

上一篇：信息推送的方法及裝置制造方法
上一篇：一種多平臺(tái)的數(shù)據(jù)更新方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

人群識(shí)別相關(guān)技術(shù)

中國(guó)三高人群最新數(shù)據(jù)相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

針對(duì)快遞員周邊人群營(yíng)銷中快遞員數(shù)據(jù)的識(shí)別方法