一種相似用戶識別方法及裝置的制造方法
【技術領域】
[0001]本發(fā)明涉及數(shù)據挖掘技術領域,特別是涉及一種相似用戶識別方法及裝置。
【背景技術】
[0002]隨著信息技術的發(fā)展,互聯(lián)網、移動互聯(lián)網、物聯(lián)網能夠收集到越來越多的用戶信息,如何將這些信息采集、存儲并分析,進而發(fā)現(xiàn)不同用戶之間的相似性正在成為研究熱點。然而,現(xiàn)有技術中對相似用戶識別的方法存在著計算復雜度高、效率低、準確度低的缺點。
[0003]鑒于此,本發(fā)明提供了一種相似用戶識別方法及裝置,以使得對用戶進行相似度分析的過程效率更高、識別準確度更高。
【發(fā)明內容】
[0004]本發(fā)明的目的是提供一種相似用戶識別方法及裝置,以解決現(xiàn)有技術中對相似用戶進行識別的過程效率低以及準確度低的問題。
[0005]為解決上述技術問題,本發(fā)明提供一種相似用戶識別方法,包括:
[0006]采集當前用戶的用戶信息以及狀態(tài)信息;
[0007]通過所述用戶信息以及所述狀態(tài)信息,根據預先定義的特性因子以及權重數(shù)值的對應關系,分別確定所述當前用戶的各特性因子對應的當前權重數(shù)值,所述特性因子為滿足預設數(shù)據規(guī)則的標簽信息;
[0008]將所述當前用戶的各當前權重數(shù)值分別與預先設定的目標用戶的各權重數(shù)值進行比較,確定所述當前用戶與所述目標用戶的相似度。
[0009]可選地,所述分別確定所述當前用戶的各特性因子對應的當前權重數(shù)值包括:
[0010]根據預設規(guī)則對預設周期內的數(shù)值進行篩選,選取的數(shù)值作為所述當前用戶的各特性因子對應的當前權重數(shù)值。
[0011]可選地,所述采集當前用戶的用戶信息以及狀態(tài)信息包括:
[0012]通過數(shù)據適配器周期性采集可穿戴設備、機器爬蟲程序或人工手動輸入的當前用戶的用戶信息以及狀態(tài)信息。
[0013]可選地,在采集當前用戶的用戶信息以及狀態(tài)信息之后還包括:
[0014]將所述用戶信息以及所述狀態(tài)信息轉換為預設格式的數(shù)據;
[0015]將所述預設格式的數(shù)據緩存至第一消息隊列中,按照先進先出的規(guī)則將緩存數(shù)據發(fā)送至指定的第一計算單元;
[0016]計算所述第一消息隊列的緩存數(shù)據量,動態(tài)調整所述第一計算單元的數(shù)量;并根據所述第一計算單元反饋的計算結果,動態(tài)調整從所述第一消息隊列中獲取數(shù)據的數(shù)量;
[0017]將所述預設格式的數(shù)據存儲于預先建立的數(shù)據庫中。
[0018]可選地,所述通過所述用戶信息以及所述狀態(tài)信息,根據預先定義的特性因子以及權重數(shù)值的對應關系,分別確定所述當前用戶的各特性因子對應的當前權重數(shù)值包括:
[0019]將所述用戶信息以及所述狀態(tài)信息緩存至第二消息隊列中,按照先進先出的規(guī)則將緩存數(shù)據發(fā)送至指定的第二計算單元;
[0020]計算所述第二消息隊列中的緩存數(shù)據量,動態(tài)調整所述第二計算單元的數(shù)量;并根據所述第二計算單元反饋的計算結果,動態(tài)調整從所述第二消息隊列中獲取數(shù)據的數(shù)量;
[0021]根據預先定義的特性因子以及權重數(shù)值的對應關系,分別確定所述當前用戶的各特性因子對應的當前權重數(shù)值。
[0022]可選地,所述將所述當前用戶的各當前權重數(shù)值分別與預先設定的目標用戶的各權重數(shù)值進行比較,確定所述當前用戶與所述目標用戶的相似度包括:
[0023]將所述當前用戶的各當前權重數(shù)值以及所述目標用戶的各權重數(shù)值緩存至第三消息隊列中,按照先進先出的規(guī)則將緩存數(shù)據發(fā)送至指定的第三計算單元;
[0024]計算所述第三消息隊列中的緩存數(shù)據量,動態(tài)調整所述第三計算單元的數(shù)量;并根據所述第三計算單元反饋的計算結果,動態(tài)調整從所述第三消息隊列中獲取數(shù)據的數(shù)量;
[0025]將所述當前用戶的各當前權重數(shù)值分別與預先設定的目標用戶的各權重數(shù)值進行比較,確定所述當前用戶與所述目標用戶的相似度。
[0026]本發(fā)明還提供了一種相似用戶識別裝置,包括:
[0027]采集模塊,用于采集當前用戶的用戶信息以及狀態(tài)信息;
[0028]確定模塊,用于通過所述用戶信息以及所述狀態(tài)信息,根據預先定義的特性因子以及權重數(shù)值的對應關系,分別確定所述當前用戶的各特性因子對應的當前權重數(shù)值,所述特性因子為滿足預設數(shù)據規(guī)則的標簽信息;
[0029]識別模塊,用于將所述當前用戶的各當前權重數(shù)值分別與預先設定的目標用戶的各權重數(shù)值進行比較,確定所述當前用戶與所述目標用戶的相似度。
[0030]可選地,所述采集模塊還包括:
[0031]轉換單元,用于將所述用戶信息以及所述狀態(tài)信息轉換為預設格式的數(shù)據;
[0032]第一消息隊列單元,用于將所述預設格式的數(shù)據緩存至第一消息隊列中,按照先進先出的規(guī)則將緩存數(shù)據發(fā)送至指定的第一計算單元;
[0033]第一彈性計算單元,用于計算所述第一消息隊列的緩存數(shù)據量,動態(tài)調整所述第一計算單元的數(shù)量;并根據所述第一計算單元反饋的計算結果,動態(tài)調整從所述第一消息隊列中獲取數(shù)據的數(shù)量;
[0034]存儲單元,用于將所述預設格式的數(shù)據存儲于預先建立的數(shù)據庫中。
[0035]可選地,所述確定模塊包括:
[0036]第二消息隊列單元,用于將所述用戶信息以及所述狀態(tài)信息緩存至第二消息隊列中,按照先進先出的規(guī)則將緩存數(shù)據發(fā)送至指定的第二計算單元;
[0037]第二彈性計算單元,用于計算所述第二消息隊列中的緩存數(shù)據量,動態(tài)調整所述第二計算單元的數(shù)量;并根據所述第二計算單元反饋的計算結果,動態(tài)調整從所述第二消息隊列中獲取數(shù)據的數(shù)量;
[0038]確定單元,用于根據預先定義的特性因子以及權重數(shù)值的對應關系,分別確定所述當前用戶的各特性因子對應的當前權重數(shù)值。
[0039]可選地,所述識別模塊包括:
[0040]第三消息隊列單元,用于將所述當前用戶的各當前權重數(shù)值以及所述目標用戶的各權重數(shù)值緩存至第三消息隊列中,按照先進先出的規(guī)則將緩存數(shù)據發(fā)送至指定的第三計算單元;
[0041]第三彈性計算單元,用于計算所述第三消息隊列中的緩存數(shù)據量,動態(tài)調整所述第三計算單元的數(shù)量;并根據所述第三計算單元反饋的計算結果,動態(tài)調整從所述第三消息隊列中獲取數(shù)據的數(shù)量;
[0042]識別單元,用于將所述當前用戶的各當前權重數(shù)值分別與預先設定的目標用戶的各權重數(shù)值進行比較,確定所述當前用戶與所述目標用戶的相似度。
[0043]本發(fā)明所提供的相似用戶識別方法及裝置,通過采集當前用戶的用戶信息以及狀態(tài)信息;根據預先定義的特性因子以及權重數(shù)值的對應關系,分別確定當前用戶的各特性因子對應的當前權重數(shù)值;將當前用戶的各當前權重數(shù)值分別與預先設定的目標用戶的各權重數(shù)值進行比較,從而確定當前用戶與目標用戶的相似度??梢姡景l(fā)明提供了一種通過特性因子的權重關系對當前用戶以及目標用戶進行比較,得到二者相似度的方法及裝置,與現(xiàn)有技術相比,本申請所提供的方法及裝置效率較高、識別準確度較高。
【附圖說明】
[0044]圖1為本發(fā)明所提供的相似用戶識別方法的一種【具體實施方式】的流程圖;
[0045]圖2為將采集到的數(shù)據存儲至數(shù)據庫的過程流程圖;
[0046]圖3為確定當前用戶的各特性因子對應的當前權重數(shù)值的過程流程圖;
[0047]圖4為確定當前用戶與目標用戶的相似度的過程流程圖;
[0048]圖5為消息隊列緩存數(shù)據的工作流程圖;
[0049]圖6為彈性計算單元的工作流程圖;
[0050]圖7為本發(fā)明實施例提供的相似用戶識別裝置的結構框圖。
【具體實施方式】
[0051]為了使本技術領域的人員更好地理解本發(fā)明方案,下面結合附圖和【具體實施方式】對本發(fā)明作進一步的詳細說明。顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領域普通技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
[0052]本發(fā)明所提供的相似用戶識別方法的一種【具體實施方式】的流程圖如圖1所示,該方法包括:
[0053]步驟S101:采集當前用戶的用戶信息以及狀態(tài)信息;
[0054]具體地,可以通過數(shù)據適配器周期性采集可穿戴設備、機器爬蟲程序或人工手動輸入的當前用戶的用戶信息以及狀態(tài)信息。通過數(shù)據適配器進行采集,可兼容關系數(shù)據庫、非關系數(shù)據庫或XML等各種數(shù)據源,能夠解決現(xiàn)有技術中對異構數(shù)據處理能力差的問題。
[0055]步驟S102:通過所述用戶信息以