基于cdr話單的用戶群體劃分方法和系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及通信領(lǐng)域,尤其涉及一種基于CDR話單的用戶群體劃分方法和系統(tǒng)。
【背景技術(shù)】
[0002] 隨著大數(shù)據(jù)和移動(dòng)互聯(lián)網(wǎng)的應(yīng)用和發(fā)展,基于用戶行為的分析應(yīng)用研宄也從單純 的理論研宄逐步到具體實(shí)踐的應(yīng)用。尤其是隨著Hadoop、MapReduce等大數(shù)據(jù)技術(shù)的日漸 成熟,基于大數(shù)據(jù)對(duì)用戶數(shù)據(jù)進(jìn)行分析挖掘,獲取用戶行為的實(shí)踐應(yīng)用逐漸增多。
[0003] Hadoop是最近幾年大數(shù)據(jù)應(yīng)用當(dāng)中比較熱門(mén)的,用于解決存儲(chǔ)海量數(shù)據(jù)的分布 式存儲(chǔ)系統(tǒng)。其兩大核心功能就是HDFS(Hadoop分布式文件系統(tǒng))和MapReduce。其中, HDFS是Hadoop系統(tǒng)的文件管理工具,與傳統(tǒng)的數(shù)據(jù)庫(kù)存儲(chǔ)方式不同,其數(shù)據(jù)以Block (塊) 的方式存儲(chǔ)在各個(gè)DataNode (數(shù)據(jù)節(jié)點(diǎn))上,并通過(guò)HDFS進(jìn)行統(tǒng)一管理;MapReduce是 Hadoop系統(tǒng)的任務(wù)執(zhí)行工具,其主要的思想是通過(guò)Map (映射)過(guò)程將job (任務(wù))分散到 各個(gè)DataNode節(jié)點(diǎn)上進(jìn)行處理,Map階段執(zhí)行完成后,通過(guò)Reduce (規(guī)約)將中間結(jié)果進(jìn) 行Merge (合并),并輸出最終的處理結(jié)果。
[0004] 用戶數(shù)據(jù)挖掘比較常見(jiàn)的是基于用戶的上網(wǎng)記錄詳單數(shù)據(jù),對(duì)用戶行為進(jìn)行預(yù) 測(cè),從而實(shí)現(xiàn)定向的商業(yè)行為和安全管理。例如,基于用戶的上網(wǎng)記錄,可以對(duì)用戶最近的 網(wǎng)絡(luò)行為進(jìn)行分析,包括上網(wǎng)流量、喜歡網(wǎng)站等等,對(duì)于運(yùn)營(yíng)商可以根據(jù)喜好網(wǎng)站實(shí)現(xiàn)定向 推送,根據(jù)流量變化及時(shí)提醒用戶更新套餐;對(duì)于安全部門(mén),通過(guò)獲取網(wǎng)站定向訪問(wèn)量,排 查黃色、反動(dòng)網(wǎng)站等等。
[0005] 以上應(yīng)用和分析針對(duì)的是單個(gè)用戶的行為特性,或者說(shuō)是用戶與物品(除用戶外 其他數(shù)據(jù)包括網(wǎng)站、流量等等)的關(guān)系特征進(jìn)行數(shù)據(jù)挖掘。大數(shù)據(jù)應(yīng)用和挖掘的另一個(gè)重 要方面是關(guān)心用戶與用戶之間的關(guān)系,也就是用戶群體劃分。目前用戶群體劃分的主要方 法包括兩類(lèi):
[0006] 一類(lèi)是基于"標(biāo)簽"或類(lèi)似的分類(lèi)標(biāo)識(shí)進(jìn)行劃分,比如將關(guān)注了相同"標(biāo)簽"(如電 影等)的用戶劃分為一個(gè)群體;
[0007] 另一類(lèi)是基于社交網(wǎng)站中的用戶關(guān)系進(jìn)行劃分,比如將社交網(wǎng)站中關(guān)注度高(比 如好友數(shù)高)的用戶作為主用戶,將和主用戶為好友關(guān)系的用戶都作為一個(gè)群體。
[0008] 現(xiàn)有的群體劃分的方法都是比較粗略的群體劃分?;跇?biāo)簽的用戶群體劃分的方 法中,都是根據(jù)特定需求或偏好來(lái)劃分用戶,其本身并不能代表同一標(biāo)簽下的用戶彼此有 社會(huì)交往,劃分為一個(gè)用戶群體并不合適。而基于社交網(wǎng)站中的用戶關(guān)系進(jìn)行劃分的方法 中,沒(méi)有合理的衡量方法體現(xiàn)用戶-用戶之間關(guān)系程度,比如一個(gè)主用戶的某個(gè)好友可能 與該主用戶的其它好友之間都沒(méi)有關(guān)聯(lián),并不應(yīng)該屬于同一個(gè)用戶群體。
【發(fā)明內(nèi)容】
[0009] 本發(fā)明要解決的技術(shù)問(wèn)題是如何更加精確的劃分用戶群體。
[0010] 為了解決上述問(wèn)題,本發(fā)明提供了一種基于呼叫詳細(xì)揭露CDR話單的用戶群體劃 分方法,包括:
[0011] S101、周期性獲取預(yù)定時(shí)間段中的CDR話單,根據(jù)所獲取的CDR話單中的記錄提取 出每個(gè)用戶的聯(lián)絡(luò)數(shù)據(jù),包括:該用戶作為主叫/被叫用戶時(shí)的通話次數(shù)、通話對(duì)象、通話 時(shí)長(zhǎng),以及該用戶收、發(fā)短信的次數(shù)及對(duì)象;
[0012] S102、分別根據(jù)各用戶的聯(lián)絡(luò)數(shù)據(jù),計(jì)算該用戶和該用戶的各相關(guān)用戶之間的熱 度值,所述相關(guān)用戶為與該用戶存在通話或短信的用戶;
[0013] S103、根據(jù)所述熱度值確定熱點(diǎn)中心用戶;
[0014] S104、分別在各熱點(diǎn)中心用戶的相關(guān)用戶中剔除僅與該熱點(diǎn)中心用戶存在通話或 短信的用戶;將各熱點(diǎn)中心用戶及其剔除后剩余的相關(guān)用戶各自劃分為一個(gè)用戶群體。
[0015] 可選地,用戶m與用戶n之間的所述熱度值H(m-n)為:
[0016]
【主權(quán)項(xiàng)】
1. 一種基于呼叫詳細(xì)揭露CDR話單的用戶群體劃分方法,包括: 5101、 周期性獲取預(yù)定時(shí)間段中的CDR話單,根據(jù)所獲取的CDR話單中的記錄提取出每 個(gè)用戶的聯(lián)絡(luò)數(shù)據(jù),包括:該用戶作為主叫/被叫用戶時(shí)的通話次數(shù)、通話對(duì)象、通話時(shí)長(zhǎng), 以及該用戶收、發(fā)短信的次數(shù)及對(duì)象; 5102、 分別根據(jù)各用戶的聯(lián)絡(luò)數(shù)據(jù),計(jì)算該用戶和該用戶的各相關(guān)用戶之間的熱度值, 所述相關(guān)用戶為與該用戶存在通話或短信的用戶; 5103、 根據(jù)所述熱度值確定熱點(diǎn)中心用戶; 5104、 分別在各熱點(diǎn)中心用戶的相關(guān)用戶中剔除僅與該熱點(diǎn)中心用戶存在通話或短信 的用戶;將各熱點(diǎn)中心用戶及其剔除后剩余的相關(guān)用戶各自劃分為一個(gè)用戶群體。
2. 如權(quán)利要求1所述的方法,其特征在于,用戶m與用戶n之間的所述熱度值H(m-n) 為:
其中,ps(m-n)指用戶m作為主叫呼叫用戶n的通話次數(shù);ps(n-m)是指用戶m作為被 叫用戶與用戶n通話次數(shù);ms(m-n)指用戶m作為主動(dòng)短信發(fā)起方向用戶n發(fā)送短信次數(shù); ms(n-m)指用戶m作為被動(dòng)短信發(fā)起方與用戶n發(fā)送短信次數(shù);pt(m-n)i指用戶m作為主 叫與用戶n單次通話時(shí)長(zhǎng)超過(guò)120s的部分,單位為秒,S1為用戶m作為主叫與用戶n單次 通話時(shí)長(zhǎng)超過(guò)120秒的次數(shù);pt(n-n^_指用戶m作為被叫與用戶n單次通話時(shí)長(zhǎng)超過(guò)120 秒的部分,單位為秒,S2為用戶m作為被叫與用戶n單次通話時(shí)長(zhǎng)超過(guò)120s的次數(shù);「1為 向上取整。
3. 如權(quán)利要求1所述的方法,其特征在于,所述步驟S103包括: 對(duì)于各用戶分別求出熱度值總和,包括:將該用戶和該用戶的各相關(guān)用戶之間的熱度 值累加,累加結(jié)果為所述熱度值總和; 將熱度值的總和高于預(yù)定熱度值閾值的用戶作為候選用戶; 對(duì)每?jī)蓚€(gè)各候選用戶分別進(jìn)行下述篩選操作:比較兩個(gè)候選用戶的相關(guān)用戶,統(tǒng)計(jì)重 疊的相關(guān)用戶的數(shù)量N1 ;對(duì)于所述兩個(gè)候選用戶分別計(jì)算所述數(shù)量N1與本候選用戶的相 關(guān)用戶總數(shù)量的百分比;如果其中一個(gè)候選用戶的百分比超過(guò)預(yù)定比例閾值,則剔除該候 選用戶;如果兩個(gè)百分比都超過(guò)預(yù)定比例閾值,則剔除熱度值總和較低的候選用戶; 將篩選操作后剩下的候選用戶作為所述熱點(diǎn)中心用戶。
4. 如權(quán)利要求1所述的方法,其特征在于,所述分別在各熱點(diǎn)