一種挖掘核心用戶的方法及裝置的制造方法
【專利摘要】本發(fā)明涉及數據處理領域,特別是涉及一種挖掘核心用戶的方法及裝置,能夠有效地識別需要消息的用戶,避免了大量信息浪費,該方法為:獲取用戶歷史操作數據,分別針對每一個用戶篩選出在設定歷史時段內與相應用戶關聯度最高的N個其他用戶;分別針對每一個用戶,從其對應的N個其他用戶中篩選出業(yè)務屬性特征符合預設關聯條件的其他用戶,以及將每一個用戶和對應的篩選后的其他用戶組成關聯用戶組;分別在每一個關聯用戶組中,挑選出被叫等級最高的用戶作為所在關聯用戶組的核心用戶,因此極大地提高了信息發(fā)送的針對性。
【專利說明】
-種挖掘核心用戶的方法及裝置
技術領域
[0001] 本發(fā)明設及數據處理領域,特別是設及一種挖掘核屯、用戶的方法及裝置。
【背景技術】
[0002] 在通信業(yè)務中,需要通過推送消息給用戶發(fā)送通知,但是,在實際的應用過程中, 大量的消息都是發(fā)送給無關的用戶,造成消息推送的浪費,不能實現有針對性推送消息給 用戶。
[0003] 現有技術中,盡管對用戶的關聯度有一定了解,并基于用戶間一定關聯進行消息 的推送,但是仍然不能實現對需要收到消息的用戶進行有效推送,還是存在大量消息的非 必要推送。例如,根據用戶辦理的家庭業(yè)務對用戶按家庭屬性進行分組,但是運種分組只能 判斷組中的用戶可能存在家庭屬性關聯關系,對該組中的用戶進行消息推送,仍然需要對 多人發(fā)送短信,不能將消息有效地推送給需要該消息的用戶。因此,由于無法識別需要該消 息的用戶,導致大量消息的無效發(fā)送,且發(fā)送消息的針對性較低。
【發(fā)明內容】
[0004] 本發(fā)明實施例提供一種挖掘核屯、用戶的方法及裝置,用W解決現有技術中存在無 法識別需要消息的用戶W及消息推送針對性差的問題。
[0005] 本發(fā)明實施例提供的具體技術方案如下:
[0006] 一種挖掘核屯、用戶的方法,包括:
[0007] 獲取用戶歷史操作數據,分別針對每一個用戶篩選出在設定歷史時段內與相應用 戶關聯度最高的N個其他用戶;
[0008] 分別針對每一個用戶,從其對應的N個其他用戶中篩選出業(yè)務屬性特征符合預設 關聯條件的其他用戶,W及將每一個用戶和對應的篩選后的其他用戶組成關聯用戶組;
[0009] 分別在每一個關聯用戶組中,挑選出被叫等級最高的用戶作為所在關聯用戶組的 核屯、用戶。
[0010] 因此,采用本發(fā)明的方法,通過確定關聯用戶組中的核屯、用戶,實現了有針對性的 發(fā)送信息,避免了大量信息的浪費。
[0011] 較佳的,獲取用戶歷史操作數據,分別針對一個用戶篩選出在設定歷史時段內與 一個用戶關聯度最高的N位其他用戶,包括:
[0012] 獲取用戶歷史操作數據,分別針對一個用戶篩選出在設定歷史時段內與一個用戶 通話時間最長的N位其他用戶,或者,篩選出與一個用戶通話次數最多的N位其他用戶,或 者,篩選出與一個用戶之間使用指定業(yè)務次數最多的N位其他用戶。
[0013] 較佳的,在獲取用戶歷史操作數據之前,進一步包括:
[0014] 在預處理階段,確定若干測試用戶,W及獲取若干測試用戶對應的海量數據樣本, 其中,若干測試用戶中設定比例的用戶之間的關聯關系符合指定需求,且一個數據樣本中 記錄有一個測試用戶的基本信息或測試用戶之間的至少一次業(yè)務行為;
[0015] 將海量數據樣本劃分為訓練集合和驗證集合;
[0016] 基于訓練集合包含的數據樣本,提取出測試用戶的業(yè)務屬性特征,W及確定各個 業(yè)務屬性特征在滿足測試用戶之間的關聯關系的前提下所需滿足的關聯條件;
[0017] 采用驗證集合包含的數據樣本,對關聯條件進行驗證,確定驗證通過后,對關聯條 件進行加載配置。
[0018] 較佳的,基于訓練集合包含的數據樣本,提取出測試用戶的業(yè)務屬性特征,W及確 定各個業(yè)務務屬性特征在滿足測試用戶之間的關聯關系的前提下所需滿足的關聯條件,包 括:
[0019] 基于訓練集合包含的數據樣本對預設的Μ個業(yè)務屬性特征進行檢測,篩選出非顯 著業(yè)務屬性特征,并刪除非顯著業(yè)務屬性特征,其中,非顯著業(yè)務屬性特征包含有滿足關聯 關系的至少兩種取值,且至少兩種取值的占比差達到設定闊值;
[0020] 基于訓練集合包含的數據樣本在剩余的業(yè)務屬性特征中進一步篩選出符合預設 的特征選擇標準的業(yè)務屬性特征;
[0021] 采用決策樹算法篩選出Ρ個業(yè)務屬性特征作為測試用戶的業(yè)務屬性特征,將Ρ個 業(yè)務屬性特征滿足關聯關系的取值設置為關聯條件。
[0022] 較佳的,針對任意一個用戶,從其對應的Ν個其他用戶中篩選出業(yè)務屬性特征符 合預設關聯條件的其他用戶,W及將任意一個用戶和對應的篩選后的其他用戶組成關聯用 戶組,具體包括:
[0023] 針對任意一個用戶,從其對應的Ν個其他用戶中篩選出至少一個業(yè)務屬性特征符 合至少一條預設的關聯條件的其他用戶,W及將任意一個用戶和對應的篩選后的其他用戶 組成關聯用戶組。
[0024] 較佳的,在任意一關聯用戶組中,挑選出被叫等級最高的用戶作為所在關聯用戶 組的核屯、用戶,具體包括:
[00巧]在任意一關聯用戶組中,采用化geRank算法計算每一個用戶在設定時長內的被 呼叫等級,被呼叫等級表征呼叫用戶的不同用戶的數目,將被叫等級最高的用戶確定為任 意一關聯用戶組中的核屯、用戶。
[00%] 采用優(yōu)化的化geRank算法降低了算法的空間復雜度和計算復雜度,提高了計算 效率,并解決了存儲問題。
[0027] 較佳的,進一步包括:
[0028] 將預設的推送消息發(fā)送給各個核屯、用戶。
[0029] 一種挖掘核屯、用戶的裝置,包括:
[0030] 獲取單元,用于獲取用戶歷史操作數據,分別針對每一個用戶篩選出在設定歷史 時段內與相應用戶關聯度最高的N個其他用戶;
[0031] 篩選單元,用于分別針對每一個用戶,從其對應的N個其他用戶中篩選出業(yè)務屬 性特征符合預設關聯條件的其他用戶,W及將每一個用戶和對應的篩選后的其他用戶組成 關聯用戶組;
[0032] 確定單元,用于分別在每一個關聯用戶組中,挑選出被叫等級最高的用戶作為所 在關聯用戶組的核屯、用戶。
[0033] 因此,采用本發(fā)明的方法,通過確定關聯用戶組中的核屯、用戶,實現了有針對性的 發(fā)送信息,避免了大量信息的浪費。
[0034] 較佳的,獲取用戶歷史操作數據,分別針對一個用戶篩選出在設定歷史時段內與 一個用戶關聯度最高的N位其他用戶,獲取單元具體用于:
[0035] 獲取用戶歷史操作數據,分別針對一個用戶篩選出在設定歷史時段內與一個用戶 通話時間最長的N位其他用戶,或者,篩選出與一個用戶通話次數最多的N位其他用戶,或 者,篩選出與一個用戶之間使用指定業(yè)務次數最多的N位其他用戶。
[0036] 較佳的,進一步包括:
[0037] 預處理單元,在獲取用戶歷史操作數據之前,用于在預處理階段,確定若干測試用 戶,W及獲取若干測試用戶對應的海量數據樣本,其中,若干測試用戶中設定比例的用戶之 間的關聯關系符合指定需求,且一個數據樣本中記錄有一個測試用戶的基本信息或測試用 戶之間的至少一次業(yè)務行為;
[0038] 將海量數據樣本劃分為訓練集合和驗證集合;
[0039] 基于訓練集合包含的數據樣本,提取出測試用戶的業(yè)務屬性特征,W及確定各個 業(yè)務屬性特征在滿足測試用戶之間的關聯關系的前提下所需滿足的關聯條件;
[0040] 采用驗證集合包含的數據樣本,對關聯條件進行驗證,確定驗證通過后,對關聯條 件進行加載配置。
[0041] 較佳的,基于訓練集合包含的數據樣本,提取出測試用戶的業(yè)務屬性特征,W及確 定各個業(yè)務務屬性特征在滿足測試用戶之間的關聯關系的前提下所需滿足的關聯條件,預 處理單元具體用于:
[0042] 基于訓練集合包含的數據樣本對預設的Μ個業(yè)務屬性特征進行檢測,篩選出非顯 著業(yè)務屬性特征,并刪除非顯著業(yè)務屬性特征,其中,非顯著業(yè)務屬性特征包含有滿足關聯 關系的至少兩種取值,且至少兩種取值的占比差達到設定闊值;
[0043] 基于訓練集合包含的數據樣本在剩余的業(yè)務屬性特征中進一步篩選出符合預設 的特征選擇標準的業(yè)務屬性特征;
[0044] 采用決策樹算法篩選出Ρ個業(yè)務屬性特征作為測試用戶的業(yè)務屬性特征,將Ρ個 業(yè)務屬性特征滿足關聯關系的取值設置為關聯條件。
[0045] 較佳的,針對任意一個用戶,從其對應的Ν個其他用戶中篩選出業(yè)務屬性特征符 合預設關聯條件的其他用戶,W及將任意一個用戶和對應的篩選后的其他用戶組成關聯用 戶組,篩選單元具體用于:
[0046] 針對任意一個用戶,從其對應的Ν個其他用戶中篩選出至少一個業(yè)務屬性特征符 合至少一條預設的關聯條件的其他用戶,W及將任意一個用戶和對應的篩選后的其他用戶 組成關聯用戶組。
[0047] 較佳的,在任意一關聯用戶組中,挑選出被叫等級最高的用戶作為所在關聯用戶 組的核屯、用戶,確定單元具體用于:
[0048] 在任意一關聯用戶組中,采用化geRank算法計算每一個用戶在設定時長內的被 呼叫等級,被呼叫等級表征呼叫用戶的不同用戶的數目,將被叫等級最高的用戶確定為任 意一關聯用戶組中的核屯、用戶。
[0049] 采用優(yōu)化的化geRank算法降低了算法的空間復雜度和計算復雜度,提高了計算 效率,并解決了存儲問題。 陽化日]較佳的,進一步包括:
[0051] 發(fā)送單元,用于將預設的推送消息發(fā)送給各個核屯、用戶。
【附圖說明】
[0052] 圖1為本發(fā)明實施例中推送消息的概述流程圖;
[0053] 圖2為本發(fā)明實施例中決策樹的劃分過程示意圖;
[0054] 圖3為本發(fā)明實施例中推送消息的結構示意圖。
【具體實施方式】 陽化5] 為了解決現有技術中存在消息推送針對性差的問題,本發(fā)明提供一種挖掘核屯、用 戶的方法及裝置,獲取用戶歷史操作數據,分別針對每一個用戶篩選出在設定歷史時段內 與相應用戶關聯度最高的N個其他用戶;分別針對每一個用戶,從其對應的N個其他用戶中 篩選出業(yè)務屬性特征符合預設關聯條件的其他用戶,W及將每一個用戶和對應的篩選后的 其他用戶組成關聯用戶組;分別在每一個關聯用戶組中,挑選出被叫等級最高的用戶作為 所在關聯用戶組的核屯、用戶。
[0056] 參閱圖1所示,挖掘核屯、用戶的具體實施過程如下:
[0057] 在預處理階段,在獲取用戶歷史操作數據之前,確定若干測試用戶,W及獲取若干 測試用戶對應的海量數據樣本,其中,若干測試用戶中設定比例的用戶之間的關聯關系符 合指定需求,且一個數據樣本中記錄有一個測試用戶的基本信息或測試用戶之間的至少一 次業(yè)務行為。
[0058] 例如,具有一定親密朋友關系的測試用戶和不具備親密朋友關系的測試用戶組成 測試組,獲取他們對應的海里數據樣本,其中,具備親密朋友關系的測試用戶的比例確定, 每個測試用戶與其他測試用戶之間的關聯關系已知。一個數據樣本中記錄有一個測試用戶 的基本信息,例如用戶A的身份證信息,或者記錄測試用戶之間的至少一次業(yè)務行為,例如 用戶A和用戶B之間的通話時長。
[0059] 進一步地,根據獲取的測試用戶的海量數據樣本,將具有關聯關系的測試用戶作 為目標組,不具備關聯關系的測試用戶作為對照組,將它們隨機混合在一起。進一步地,將 按關聯關系整合后的數據樣本劃分為訓練集合和驗證集合,其中訓練集為隨機混合樣本的 較大比例,例如70 %,驗證集為隨機混合樣本的較小比例,例如30 %。
[0060] 在進行業(yè)務屬性特征的抽取之前,還需對數據樣本中的極值、空值和無效值進行 處理,例如,某類數據的極值為大于所有同類數據樣本的標準差的3倍,則將該數據進行剔 除。運里的標準差的3倍為預設值,也可設置其他的倍率。
[0061] 進一步地,對測試用戶的基本信息進行衍生變量的處理,例如,將兩個測試用戶的 身份證信息,衍生為業(yè)務屬性特征,用戶1和用戶2的身份證是否相同,如表1所示,若相同 則該項標記為1,若不同,則標記為0。
[0062]
[0063] 表 1
[0064] 將海量數據樣本劃分為訓練集合和驗證集合之后,基于訓練集合包含的數據樣 本,提取出測試用戶的業(yè)務屬性特征,W及確定各個業(yè)務屬性特征在滿足測試用戶之間的 關聯關系的前提下所需滿足的關聯條件,運里主要包括W下幾步:
[0065] 首先,設置Μ個可能的業(yè)務屬性特征,作為最后確定為顯著業(yè)務屬性特征的備選 項。
[0066] 其次,基于訓練集合包含的數據樣本對預設的Μ個業(yè)務屬性特征進行檢測,篩選 出非顯著業(yè)務屬性特征,并刪除非顯著業(yè)務屬性特征,其中,非顯著業(yè)務屬性特征包含有滿 足關聯關系的至少兩種取值,且至少兩種取值的占比差達到設定闊值。
[0067] 在刪除非顯著業(yè)務屬性特征時,主要通過分布圖(針對分類變量)、直方圖(針對 數值類變量)W及變量相關系數等對輸入的業(yè)務屬性特征與關聯關系之間的關系進行分 析。若某一業(yè)務屬性特征包含有滿足關聯關系的至少兩種取值,且至少兩種取值的占比相 當,則認為該業(yè)務屬性特征不具備與關聯關系之間的顯著關聯,因此,該業(yè)務屬性特征為非 顯著業(yè)務屬性特征,需要將其刪除。
[0068] 再次,基于訓練集合包含的數據樣本在剩余的業(yè)務屬性特征中進一步篩選出符合 預設的特征選擇標準的業(yè)務屬性特征。
[0069] 其中,特征選擇標準包括缺失值的最大占比、單個類別中記錄的最大百分比、作為 記錄百分比的最大類別數、最小變異系數、最小標準差中的一種或任意種的組合。
[0070] 例如,缺失值的最大占比是指某一項業(yè)務屬性特征在訓練集合包含的數據樣本中 只占很少的比例,例如只有30%的用戶登記了該項信息,或只有30%的用戶使用了該項業(yè) 務,因該特征不具備廣泛性和普遍性,因此不能將該特征作為顯著的業(yè)務屬性特征,需要將 其刪除。
[0071] 最后,對于剩下的業(yè)務屬性特征,采用決策樹算法篩選出Ρ個業(yè)務屬性特征作為 測試用戶的業(yè)務屬性特征,將Ρ個業(yè)務屬性特征滿足關聯關系的取值設置為關聯條件。
[0072] W決策樹算法巧.0為例,首先計算剩余每一個業(yè)務屬性特征的信息增益率,將信 息增益率最大的業(yè)務屬性特征作為根節(jié)點,分為滿足關聯關系,標記為1,和不滿足關聯關 系,標記為0,接著在每個子節(jié)點上重復上述步驟,分別計算除根節(jié)點外的滿足關聯關系的 樣本和不滿足關聯關系的樣本中,信息增益率最大的業(yè)務屬性特征作為下一個節(jié)點,如此 重復上述過程直至到達預設的最小樣本量或樣本中滿足關聯關系的占比低于設定的闊值, 至此,建立關于該關聯關系的決策樹,并得到所需的業(yè)務屬性特征及相應的滿足關聯關系 的取值作為關聯條件。例如,參閱圖2所示,對于10000條用戶的數據樣本和剩余的6個業(yè) 務屬性特征A~F,針對每一個業(yè)務屬性特征的計算信息增益率,其中信息增益率最大的業(yè) 務屬性特征A作為根節(jié)點,分為滿足關聯關系,標記為1,和不滿足關聯關系,標記為0,假設 對應1的結果包括6000條樣本,對應0的結果包括4000條樣本,進一步地,對應1的結果 包括6000條樣本,繼續(xù)計算每個業(yè)務屬性特征的信息增益率,選取信息增益率最大的業(yè)務 屬性特征作為下一個節(jié)點;對應0的結果包括4000條樣本,繼續(xù)計算每個業(yè)務屬性特征的 信息增益率,選取信息增益率最大的業(yè)務屬性特征作為下一個節(jié)點。在決策樹的劃分過程 中,當樣本數量低于設定的闊值(如1500條),或樣本中滿足關聯關系的占比低于設定闊值 (如20% )時,停止樣本的繼續(xù)劃分和業(yè)務屬性特征的提取,將得到的節(jié)點作為最后篩選出 的業(yè)務屬性特征,并將業(yè)務屬性特征滿足關聯關系的取值設置為關聯條件。對于信息增益 率的計算過程不是本發(fā)明的重點,運里不再寶述。
[0073] 當業(yè)務屬性特征的篩選及其關聯條件確定后,采用驗證集合包含的數據樣本,基 于確定的業(yè)務屬性特征和關聯條件對用戶之間的關聯關系進行判斷,并與他們之間的真實 關聯關系進行比對,確定驗證通過后,對關聯條件進行加載配置。其中,采用驗證集對關聯 條件的驗證主要包括評估關聯條件的準確率、命中率和提升率。
[0074] 具體的,準確性是指關聯關系預測值和實際值相同的樣本量與所有樣本量的比 值。命中率是預測關聯關系客戶中實際關聯關系客戶的比例。提升度指識別關聯關系的準 確率與樣本中家庭關系占比的比值。
[0075] 下面基于W上海量數據樣本獲得的業(yè)務屬性特征及其關聯關系,對未知關聯關系 的用戶進行分析,建立關聯用戶組并確定核屯、用戶,具體的過程如下:
[0076] 步驟100 :獲取用戶歷史操作數據,分別針對每一個用戶篩選出在設定歷史時段 內與相應用戶關聯度最高的N個其他用戶。
[0077] 運里的用戶歷史操作數據,具體為用戶的基本身份信息,業(yè)務辦理信息W及用戶 的通話記錄等。
[0078] 獲取用戶歷史操作數據,分別針對一個用戶篩選出在設定歷史時段內與相應用戶 關聯度最高的N個其他用戶,其中,用戶相關度的條件可W有多種,具體可W采用但不限于 W下Ξ種方式:
[0079] 其一,篩選出在設定歷史時段內與一個用戶通話時間最長的N位其他用戶。
[0080] 其二,篩選出與一個用戶通話次數最多的N位其他用戶。
[0081] 其Ξ,篩選出與一個用戶之間使用指定業(yè)務次數最多的N位其他用戶。
[0082] 步驟110 :分別針對每一個用戶,從其對應的N個其他用戶中篩選出業(yè)務屬性特征 符合預設關聯條件的其他用戶,W及將每一個用戶和對應的篩選后的其他用戶組成關聯用 戶組。
[0083] 針對任意一個用戶,從其對應的N個其他用戶中篩選出至少一個業(yè)務屬性特征符 合至少一條預設的關聯條件的其他用戶,W及將任意一個用戶和對應的篩選后的其他用戶 組成關聯用戶組。
[0084] 例如,最后確定的業(yè)務屬性特征為5個,但是用戶A與用戶B之間只具備3個業(yè)務 屬性特征,其中存在1個業(yè)務屬性特征滿足最終確定的關聯條件,運時可W確定用戶A和用 戶B的關聯關系成立。
[00化]步驟120 :分別在每一個關聯用戶組中,挑選出被叫等級最高的用戶作為所在關 聯用戶組的核屯、用戶;
[0086] 在任意一關聯用戶組中,利用化geRank算法計算每一個用戶在設定時長內的被 呼叫等級,被呼叫等級表征呼叫用戶的不同用戶的數目,運里不同用戶的被呼叫等級不一 樣,對他呼叫的用戶帶來的被呼叫等級的影響也不一樣,最后將被叫等級最高的用戶確定 為任意一關聯用戶組中的核屯、用戶。
[0087]
[0088] 表 2
[0089] 其中,利用改進后的化geRank算法,即基于分解轉移矩陣的化geRank迭代算法, 根據關聯用戶組中用戶之間的主被叫行為,計算關聯用戶組中每個用戶的PR值,PR值的大 小代表用戶被叫等級的高低,PR值最大的設置為master_msiS化,該用戶為核屯、用戶,該號 碼為主號,PR值較小的設置為slave_msis化,該用戶不是核屯、用戶,該號碼為副號,參閱表 2所示。
[0090] 具體的,網頁排名化geRank是捜索引擎技術的核屯、算法之一,用于計算每個網頁 的重要程度,并為每一個頁面打分。它由Lar巧化ge和Serg巧化in在20世紀90年代后 期發(fā)明?;痝eRank算法將頁面對頁面的鏈接假設成一次投票,一個頁面的"得票數"由所有 鏈向它的頁面的重要性決定,轉到一個頁面的超鏈接相當于對該頁面投一票。一個頁面的 PR值是由所有鏈向它的頁面的重要性經過遞歸算法得到的。一個有較多鏈入的頁面會有較 高的等級,相反如果一個頁面沒有任何鏈入頁面,那么它沒有等級?;痝eRank實現了根據 鏈接指向計算出頁面價值,改變了捜索結果隨意排列的情況。此外,化geRank并不是唯一 的鏈接相關的排名算法,只是最為廣泛使用的一種,其他類似的算法還有小山頂化illtop) 算法、專家排名巧xpertRank)算法、HITS 4和信任排名算法(TrustRank)等。
[0091] 采用化geRank算法,在數據量不大的情況下,可W將用戶的通話記錄完全展開, 獲得"最大用戶數*最大用戶數"的矩陣。但是,假設有1億個通信用戶的話,那么需要存 儲"1億*1億"的用戶通信關系,假設每個通信關系對僅占用lObyte的空間,那么所有的關 系對存儲下來需要88PB。對于運樣的數據量,目前的主流系統(tǒng)難W存儲和計算,即使勉強計 算也將消耗大量的時間。
[0092] 因此,基于通信領域跟互聯網領域存在差異,本發(fā)明為優(yōu)化后的化geRank算法。 運里,用戶的主被叫可W看作是網頁的鏈入和鏈出,每一個用戶與其所在關聯用戶組構成 一個網絡,本發(fā)明采用優(yōu)化的化geRank算法計算關聯用戶組中的核屯、用戶,具體方法如 下:
[0093] 基于分解轉移矩陣的化geRank迭代計算公式如下:
[0094] X(k") = Xk · P" = C ·狂k · P+Xk .護.U + (l-c)狂k . 〇 .化,
[00河其中X嗦示k次迭代后用戶的PR值,P表示用戶間的初始主被叫構造的轉移矩 陣,為了處理關聯用戶組中的"孤島頁面集"造成的化geRank不收斂,(1-C)表示用戶隨機 的呼叫一個用戶的概率。
[0096] 該迭代公式具體由Ξ部分組成,分別W B、C和E項表示。
[0097] l、B = Xk.p
[0098] 運部分是處理主叫用戶對被叫用戶的貢獻,該項為Ξ項中最重要的一項。
陽10U 其中,B(i)表示所有給用戶i打電話的用戶對用戶i的PR值的貢獻,用戶i為被 叫用戶,共有η個用戶給用戶i打電話。 陽10引由上面公式可知,當沒有用戶主叫用戶i時,B(i) = 0。 陽103] 在一般情況下,B(i)是所有主叫i的用戶的前一次迭代結果除W該用戶的出度的 結果累加。運里需要指某個用戶的出度是指該用戶主機的用戶數,不是主叫的次數。
[0104] 在每次迭代后,下次迭代前,把每個用戶當前的PR值除W該用戶的出度,得到一 個新向量yk:
陽109] 該部分針對從懸掛用戶對其他用戶貢獻的處理。懸掛用戶指該用戶只有被叫,沒 有主叫。
陽113] 因此,對向量C的求解轉化為對標量σ的求解,而σ為上次迭代結果中所有懸掛 用戶對應的PR值的累加和。 陽 114] 3、Ε = (1-C)狂k · 〇 ·化
[0115] 運部分是對隨機呼叫的處理,即用戶的誤撥行為,為了避免迭代不收斂的情況。 陽116] 由
陽117]可得,E = (1-C) · a ·化=(1-C) (a/n, . . . , a/n),特殊情況 a = η 時, 陽11 引 Ε = (1-C) (1,…,1) = (1-C,…1-C)。
[0119] 綜合W上Ξ個部分,用戶k+1次迭代PR值公式化簡如下: 陽 120]
陽12U 即每次迭代前,先計算出yk,σ/η和(1-C),然后在迭代過程中,根據鄰接矩陣把yk 的分量累加起來,帶入上面公式。 陽122] 因此,一次迭代的計算復雜度為:
[0123] 令η為用戶總數,rid為懸掛用戶數,則計算量為: 陽124] (n-rid+1)次除法+(16n+rid)次加法,即計算復雜度為0(n)。
[0125] 另外,在迭代計算過程中,為了保證計算效率,需要把化geRank向量、每個用戶的 主叫人數保存在內存中,每次從硬盤中根據索引讀鄰接矩陣的轉置矩陣的一行(平均16個 元素)。所W在迭代過程中,空間復雜度也為〇(n)。
[01%] 此外,針對各個關聯用戶組確定的核屯、用戶,將預設的推送信息發(fā)送給各個核屯、 用戶。 陽127] 具體的,將需要推送的消息發(fā)送各個主號。
[0128] 本發(fā)明W家庭關系為例,對挖掘核屯、用戶的具體流程進行詳細說明:
[0129] 在通信業(yè)務中,用戶的家庭屬性是非常重要的屬性。對用戶按照家庭屬性進行分 組并分析出家庭組中的核屯、人物能夠實現有效地為核屯、人物發(fā)送相關信息,提高消息發(fā)送 的效率,避免大量消息無意義的發(fā)送。
[0130] W辦理親情號業(yè)務的用戶為測試用戶,確定他們之間為家庭關系,獲取測試用戶 對應的海量數據樣本。 陽131] 具體的,將與用戶A具有家庭關系的用戶作為目標組,不具備家庭關系的用戶作 為對照組,將它們隨機混合在一起。進一步地,將海量數據樣本劃分為訓練集合和驗證集 合,其中訓練集為70 %,驗證集為30 %。
[0132] 在進行業(yè)務屬性特征的抽取之前,對數據樣本中的極值、空值和無效值進行處理, 對測試用戶的基本信息進行衍生變量的處理。
[0133] 將海量數據樣本劃分為訓練集合和驗證集合之后,針對可能的業(yè)務屬性特征設置 Μ個業(yè)務屬性特征的備選項。通過分布圖(針對分類變量)、直方圖(針對數值類變量)W 及變量相關系數等對輸入的業(yè)務屬性特征與關聯關系之間的關系進行分析,刪除非顯著業(yè) 務屬性特征。
[0134] 進一步,在剩余的業(yè)務屬性特征中篩選出符合預設的特征選擇標準的業(yè)務屬性特 征。
[0135] 其中,特征選擇標準包括缺失值的最大占比(70% )、單個類別中記錄的最大百 分比(90% )、作為記錄百分比的最大類別數(95% )、最小變異系數(0. 1)、最小標準差 0). 0)。 陽 136]
陽137] 表3
[0138] 最后,對于剩下的業(yè)務屬性特征,采用決策樹算法最終得到的節(jié)點作為最后篩選 出的業(yè)務屬性特征,并將業(yè)務屬性特征滿足關聯關系的取值設置為關聯條件,運里將7個 業(yè)務屬性特征各自對應的滿足家庭關系的取值設置為關聯條件,如表3所示。
[0139] 當業(yè)務屬性特征的篩選及其關聯條件確定后,采用驗證集合包含的數據樣本,對 關聯條件進行驗證,采用驗證集對關聯條件的驗證主要包括評估關聯條件的準確率、命中 率和提升率,確定驗證通過后,對關聯條件進行加載配置。
[0140] 對于沒有辦理親情號業(yè)務的用戶,根據上面的結果判斷他所在的家庭關系組和組 中的核屯、用戶。 陽141] 具體的,獲取用戶B的歷史操作數據,篩選出在3個月內與用戶B在閑時通話總數 最多的10個其他用戶。 陽142] 分別確定用戶B與其他用戶之間的業(yè)務屬性特征,將結果輸入到表3中,至少滿足 其中的1個業(yè)務屬性特征就可W判斷確定用戶B與該用戶的家庭關聯關系成立,上述10次 輸入完成后,建立家庭用戶組。 陽14引在該家庭用戶組中,利用改進后的化geRank算法,根據關聯用戶組中用戶之間的 主被叫行為,計算關聯用戶組中每個用戶的PR值,挑選出被叫等級最高的用戶作為所在關 聯用戶組的核屯、用戶。PR值最大的設置為master_msis化,該用戶為核屯、用戶,該號碼為主 號,則其他用戶不是核屯、用戶,他們的號碼為副號。
[0144] 最后,將需要發(fā)送的消息發(fā)送給各組的核屯、用戶。
[0145] 參閱圖3所示,挖掘核屯、用戶的裝置,包括: 陽146] 獲取單元30,用于獲取用戶歷史操作數據,分別針對每一個用戶篩選出在設定歷 史時段內與相應用戶關聯度最高的N個其他用戶; 陽147] 篩選單元31,用于分別針對每一個用戶,從其對應的N個其他用戶中篩選出業(yè)務 屬性特征符合預設關聯條件的其他用戶,W及將每一個用戶和對應的篩選后的其他用戶組 成關聯用戶組;
[0148] 確定單元32,用于分別在每一個關聯用戶組中,挑選出被叫等級最高的用戶作為 所在關聯用戶組的核屯、用戶;
[0149] 較佳的,獲取用戶歷史操作數據,分別針對一個用戶篩選出在設定歷史時段內與 一個用戶關聯度最高的N位其他用戶,獲取單元30具體用于: 陽150] 獲取用戶歷史操作數據,分別針對一個用戶篩選出在設定歷史時段內與一個用戶 通話時間最長的N位其他用戶,或者,篩選出與一個用戶通話次數最多的N位其他用戶,或 者,篩選出與一個用戶之間使用指定業(yè)務次數最多的N位其他用戶。 陽151] 較佳的,進一步包括: 陽152] 預處理單元33,在獲取用戶歷史操作數據之前,用于在預處理階段,確定若干測試 用戶,W及獲取若干測試用戶對應的海量數據樣本,其中,若干測試用戶中設定比例的用戶 之間的關聯關系符合指定需求,且一個數據樣本中記錄有一個測試用戶的基本信息或測試 用戶之間的至少一次業(yè)務行為; 陽153] 將海量數據樣本劃分為訓練集合和驗證集合;
[0154] 基于訓練集合包含的數據樣本,提取出測試用戶的業(yè)務屬性特征,W及確定各個 業(yè)務屬性特征在滿足測試用戶之間的關聯關系的前提下所需滿足的關聯條件;
[01巧]采用驗證集合包含的數據樣本,對關聯條件進行驗證,確定驗證通過后,對關聯條 件進行加載配置。
[0156] 較佳的,基于訓練集合包含的數據樣本,提取出測試用戶的業(yè)務屬性特征,W及確 定各個業(yè)務務屬性特征在滿足測試用戶之間的關聯關系的前提下所需滿足的關聯條件,預 處理單元33具體用于:
[0157] 基于訓練集合包含的數據樣本對預設的Μ個業(yè)務屬性特征進行檢測,篩選出非顯 著業(yè)務屬性特征,并刪除非顯著業(yè)務屬性特征,其中,非顯著業(yè)務屬性特征包含有滿足關聯 關系的至少兩種取值,且至少兩種取值的占比差達到設定闊值;
[0158] 基于訓練集合包含的數據樣本在剩余的業(yè)務屬性特征中進一步篩選出符合預設 的特征選擇標準的業(yè)務屬性特征;
[0159] 采用決策樹算法計算每一個篩選出的業(yè)務屬性特征的每一種取值的信息增益,并 分別將每一個篩選出的業(yè)務屬性特征對應的信息增益最大的取值作為相應業(yè)務屬性特征 的信息增益,W及將信道增益最大的Ρ個業(yè)務屬性特征作為測試用戶的業(yè)務屬性特征,將Ρ 個業(yè)務屬性特征各自對應的信道增益最大的取值設置為關聯條件。
[0160] 較佳的,針對任意一個用戶,從其對應的Ν個其他用戶中篩選出業(yè)務屬性特征符 合預設關聯條件的其他用戶,W及將任意一個用戶和對應的篩選后的其他用戶組成關聯用 戶組,篩選單元31具體用于: 陽161] 針對任意一個用戶,從其對應的Ν個其他用戶中篩選出至少一個業(yè)務屬性特征符 合至少一條預設的關聯條件的其他用戶,W及將任意一個用戶和對應的篩選后的其他用戶 組成關聯用戶組。 陽162] 較佳的,在任意一關聯用戶組中,挑選出被叫等級最高的用戶作為所在關聯用戶 組的核屯、用戶,確定單元32具體用于: 陽163] 在任意一關聯用戶組中,計算每一個用戶在設定時長內的被呼叫等級,被呼叫等 級表征呼叫用戶的不同用戶的數目,將被叫等級最高的用戶確定為任意一關聯用戶組中的 核屯、用戶。 陽164] 較佳的,進一步包括:
[01化]發(fā)送單元34,用于將預設的推送信息發(fā)送給各個核屯、用戶。 陽166] 運里需要指出,確定關聯用戶組的核屯、用戶之后,不限于給核屯、用戶發(fā)送消息,還 可W用來開展其他業(yè)務。
[0167] 綜上所述,采用本發(fā)明的方法,能夠有針對性的發(fā)送信息,避免了大量信息的浪 費,根據已知關聯的海量數據抽取所需關聯關系的業(yè)務屬性特征及其關聯條件,并依據該 關聯條件對未知關系的用戶進行篩選,建立起關聯用戶組并通過優(yōu)化的化geRank算法找 到該組中的核屯、用戶,并將消息發(fā)送給核屯、用戶。
[0168] 此外,優(yōu)化的化geRank算法降低了算法的空間復雜度和計算復雜度,提高了計算 效率,并解決了存儲問題。
[0169] 本領域內的技術人員應明白,本發(fā)明的實施例可提供為方法、系統(tǒng)、或計算機程序 產品。因此,本發(fā)明可采用完全硬件實施例、完全軟件實施例、或結合軟件和硬件方面的實 施例的形式。而且,本發(fā)明可采用在一個或多個其中包含有計算機可用程序代碼的計算機 可用存儲介質(包括但不限于磁盤存儲器、CD-ROM、光學存儲器等)上實施的計算機程序產 品的形式。
[0170] 本發(fā)明是參照根據本發(fā)明實施例的方法、設備(系統(tǒng))、和計算機程序產品的流程 圖和/或方框圖來描述的。應理解可由計算機程序指令實現流程圖和/或方框圖中的每一 流程和/或方框、W及流程圖和/或方框圖中的流程和/或方框的結合??商峁┻\些計算 機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數據處理設備的處理 器W產生一個機器,使得通過計算機或其他可編程數據處理設備的處理器執(zhí)行的指令產生 用于實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能 的裝置。 陽171] 運些計算機程序指令也可存儲在能引導計算機或其他可編程數據處理設備W特 定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產生包括指 令裝置的制造品,該指令裝置實現在流程圖一個流程或多個流程和/或方框圖一個方框或 多個方框中指定的功能。
[0172] 運些計算機程序指令也可裝載到計算機或其他可編程數據處理設備上,使得在計 算機或其他可編程設備上執(zhí)行一系列操作步驟W產生計算機實現的處理,從而在計算機或 其他可編程設備上執(zhí)行的指令提供用于實現在流程圖一個流程或多個流程和/或方框圖 一個方框或多個方框中指定的功能的步驟。
[0173] 盡管已描述了本發(fā)明的優(yōu)選實施例,但本領域內的技術人員一旦得知了基本創(chuàng)造 性概念,則可對運些實施例作出另外的變更和修改。所W,所附權利要求意欲解釋為包括優(yōu) 選實施例W及落入本發(fā)明范圍的所有變更和修改。
[0174] 顯然,本領域的技術人員可W對本發(fā)明實施例進行各種改動和變型而不脫離本發(fā) 明實施例的精神和范圍。運樣,倘若本發(fā)明實施例的運些修改和變型屬于本發(fā)明權利要求 及其等同技術的范圍之內,則本發(fā)明也意圖包含運些改動和變型在內。
【主權項】
1. 一種挖掘核心用戶的方法,其特征在于,包括: 獲取用戶歷史操作數據,分別針對每一個用戶篩選出在設定歷史時段內與相應用戶關 聯度最高的N個其他用戶; 分別針對每一個用戶,從其對應的N個其他用戶中篩選出業(yè)務屬性特征符合預設關聯 條件的其他用戶,以及將每一個用戶和對應的篩選后的其他用戶組成關聯用戶組; 分別在每一個關聯用戶組中,挑選出被叫等級最高的用戶作為所在關聯用戶組的核心 用戶。2. 如權利要求1所述的方法,其特征在于,獲取用戶歷史操作數據,分別針對一個用戶 篩選出在設定歷史時段內與所述一個用戶關聯度最高的N位其他用戶,包括: 獲取用戶歷史操作數據,分別針對一個用戶篩選出在設定歷史時段內與所述一個用戶 通話時間最長的N位其他用戶,或者,篩選出與所述一個用戶通話次數最多的N位其他用 戶,或者,篩選出與所述一個用戶之間使用指定業(yè)務次數最多的N位其他用戶。3. 如權利要求1或2所述的方法,其特征在于,在獲取用戶歷史操作數據之前,進一步 包括: 在預處理階段,確定若干測試用戶,以及獲取所述若干測試用戶對應的海量數據樣本, 其中,所述若干測試用戶中設定比例的用戶之間的關聯關系符合指定需求,且一個數據樣 本中記錄有一個測試用戶的基本信息或測試用戶之間的至少一次業(yè)務行為; 將所述海量數據樣本按照關聯關系整合劃分為訓練集合和驗證集合; 基于所述訓練集合包含的數據樣本,提取出測試用戶的業(yè)務屬性特征,以及確定各個 業(yè)務屬性特征在滿足測試用戶之間的關聯關系的前提下所需滿足的關聯條件; 采用所述驗證集合包含的數據樣本,對關聯條件進行驗證,確定驗證通過后,對所述關 聯條件進行加載配置。4. 如權利要求3所述的方法,其特征在于,基于所述訓練集合包含的數據樣本,提取出 測試用戶的業(yè)務屬性特征,以及確定所述各個業(yè)務務屬性特征在滿足測試用戶之間的關聯 關系的前提下所需滿足的關聯條件,包括: 基于所述訓練集合包含的數據樣本對預設的Μ個業(yè)務屬性特征進行檢測,篩選出非顯 著業(yè)務屬性特征,并刪除所述非顯著業(yè)務屬性特征,其中,非顯著業(yè)務屬性特征包含有滿足 所述關聯關系的至少兩種取值,且所述至少兩種取值的占比差達到設定閾值; 基于所述訓練集合包含的數據樣本在剩余的業(yè)務屬性特征中進一步篩選出符合預設 的特征選擇標準的業(yè)務屬性特征; 采用決策樹算法篩選出Ρ個業(yè)務屬性特征作為測試用戶的業(yè)務屬性特征,將所述Ρ個 業(yè)務屬性特征滿足關聯關系的取值設置為所述關聯條件。5. 如權利要求1或2所述的方法,其特征在于,針對任意一個用戶,從其對應的Ν個其 他用戶中篩選出業(yè)務屬性特征符合預設關聯條件的其他用戶,以及將所述任意一個用戶和 對應的篩選后的其他用戶組成關聯用戶組,具體包括: 針對任意一個用戶,從其對應的Ν個其他用戶中篩選出至少一個業(yè)務屬性特征符合至 少一條預設的關聯條件的其他用戶,以及將所述任意一個用戶和對應的篩選后的其他用戶 組成關聯用戶組。6. 如權利要求1或2所述的方法,其特征在于,在任意一關聯用戶組中,挑選出被叫等 級最高的用戶作為所在關聯用戶組的核心用戶,具體包括: 在所述任意一關聯用戶組中,采用網頁排名PageRank算法計算每一個用戶在設定時 長內的被呼叫等級,所述被呼叫等級表征呼叫用戶的不同用戶的數目,將被叫等級最高的 用戶確定為所述任意一關聯用戶組中的核心用戶。7. 如權利要求1所述的方法,其特征在于,進一步包括: 將預設的推送消息發(fā)送給各個核心用戶。8. -種挖掘核心用戶的裝置,其特征在于,包括: 獲取單元,用于獲取用戶歷史操作數據,分別針對每一個用戶篩選出在設定歷史時段 內與相應用戶關聯度最高的N個其他用戶; 篩選單元,用于分別針對每一個用戶,從其對應的N個其他用戶中篩選出業(yè)務屬性特 征符合預設關聯條件的其他用戶,以及將每一個用戶和對應的篩選后的其他用戶組成關聯 用戶組; 確定單元,用于分別在每一個關聯用戶組中,挑選出被叫等級最高的用戶作為所在關 聯用戶組的核心用戶。9. 如權利要求8所述的裝置,其特征在于,獲取用戶歷史操作數據,分別針對一個用戶 篩選出在設定歷史時段內與所述一個用戶關聯度最高的N位其他用戶,所述獲取單元具體 用于: 獲取用戶歷史操作數據,分別針對一個用戶篩選出在設定歷史時段內與所述一個用戶 通話時間最長的N位其他用戶,或者,篩選出與所述一個用戶通話次數最多的N位其他用 戶,或者,篩選出與所述一個用戶之間使用指定業(yè)務次數最多的N位其他用戶。10. 如權利要求8或9所述的裝置,其特征在于,進一步包括: 預處理單元,在獲取用戶歷史操作數據之前,用于在預處理階段,確定若干測試用戶, 以及獲取所述若干測試用戶對應的海量數據樣本,其中,所述若干測試用戶中設定比例的 用戶之間的關聯關系符合指定需求,且一個數據樣本中記錄有一個測試用戶的基本信息或 測試用戶之間的至少一次業(yè)務行為; 將所述海量數據樣本劃分為訓練集合和驗證集合; 基于所述訓練集合包含的數據樣本,提取出測試用戶的業(yè)務屬性特征,以及確定各個 業(yè)務屬性特征在滿足測試用戶之間的關聯關系的前提下所需滿足的關聯條件; 采用所述驗證集合包含的數據樣本,對關聯條件進行驗證,確定驗證通過后,對所述關 聯條件進行加載配置。11. 如權利要求10所述的裝置,其特征在于,基于所述訓練集合包含的數據樣本,提取 出測試用戶的業(yè)務屬性特征,以及確定所述各個業(yè)務務屬性特征在滿足測試用戶之間的關 聯關系的前提下所需滿足的關聯條件,所述預處理單元具體用于: 基于所述訓練集合包含的數據樣本對預設的Μ個業(yè)務屬性特征進行檢測,篩選出非顯 著業(yè)務屬性特征,并刪除所述非顯著業(yè)務屬性特征,其中,非顯著業(yè)務屬性特征包含有滿足 所述關聯關系的至少兩種取值,且所述至少兩種取值的占比差達到設定閾值; 基于所述訓練集合包含的數據樣本在剩余的業(yè)務屬性特征中進一步篩選出符合預設 的特征選擇標準的業(yè)務屬性特征; 采用決策樹算法篩選出Ρ個業(yè)務屬性特征作為測試用戶的業(yè)務屬性特征,將所述Ρ個 業(yè)務屬性特征滿足關聯關系的取值設置為所述關聯條件。12. 如權利要求8或9所述的裝置,其特征在于,針對任意一個用戶,從其對應的N個其 他用戶中篩選出業(yè)務屬性特征符合預設關聯條件的其他用戶,以及將所述任意一個用戶和 對應的篩選后的其他用戶組成關聯用戶組,所述篩選單元具體用于: 針對任意一個用戶,從其對應的N個其他用戶中篩選出至少一個業(yè)務屬性特征符合至 少一條預設的關聯條件的其他用戶,以及將所述任意一個用戶和對應的篩選后的其他用戶 組成關聯用戶組。13. 如權利要求8或9所述的裝置,其特征在于,在任意一關聯用戶組中,挑選出被叫等 級最高的用戶作為所在關聯用戶組的核心用戶,所述確定單元具體用于: 在所述任意一關聯用戶組中,采用PageRank算法計算每一個用戶在設定時長內的被 呼叫等級,所述被呼叫等級表征呼叫用戶的不同用戶的數目,將被叫等級最高的用戶確定 為所述任意一關聯用戶組中的核心用戶。14. 如權利要求8所述的裝置,其特征在于,進一步包括: 發(fā)送單元,用于將預設的推送消息發(fā)送給各個核心用戶。
【文檔編號】G06F17/30GK105824813SQ201510002653
【公開日】2016年8月3日
【申請日】2015年1月5日
【發(fā)明人】戴潔, 鄭建兵, 顧強, 陳宇陽
【申請人】中國移動通信集團江蘇有限公司