本申請涉及計算機信息技術領域,尤其涉及一種確定用戶身份類別的方法及裝置。
背景技術:
許多服務提供商的業(yè)務的開展依賴于對客戶資料的收集。服務提供商收集到上述客戶的資料后,會依據(jù)客戶提供的信息為客戶提供服務。
現(xiàn)有技術中對客戶資料的收集和處理,往往由客戶直接向服務提供商提供所需資料,提出服務需求,服務提供商依據(jù)客戶提供的資料為客戶提供服務。但這種方式的缺陷在于:資料的收集完全依賴于客戶主動,服務提供商只能被動接收,因此,服務提供商無法主動及時尋找到潛在客戶,并且由于客戶提供資料的局限性,也難以對客戶提供的資料進行統(tǒng)計分析。
而與此同時,隨著互聯(lián)網(wǎng)的廣泛應用,用戶在使用互聯(lián)網(wǎng)的過程中,在互聯(lián)網(wǎng)上存儲了大量帶有用戶信息的數(shù)據(jù)。如何利用用戶留存在互聯(lián)網(wǎng)上的數(shù)據(jù)對用戶進行分析處理,確定用戶的類別,例如用戶的社會身份類別,從而尋找到潛在用戶,成為了亟待解決的問題。
技術實現(xiàn)要素:
本申請實施例提供了一種確定用戶身份類別的方法和裝置,旨在對用戶相關的數(shù)據(jù)信息進行主動收集和分析處理,從而確定用戶身份類別。
為實現(xiàn)上述目的,本申請實施例提供了一種確定用戶身份類別的方法,其特征在于,所述方法包括:
接收用戶的數(shù)據(jù)信息,所述數(shù)據(jù)信息包括多個含有用戶身份信息的標記文 本;
將多個所述標記文本與關鍵詞詞庫中的屬性關鍵詞進行匹配;其中,所述關鍵詞詞庫中包括至少一個屬性關鍵詞及與屬性關鍵詞對應的類別;
統(tǒng)計所述標記文本與類別相對應的對應次數(shù);其中,所述類別對應與所述標記文本相匹配的屬性關鍵詞;
依據(jù)用戶的所述標記文本與所述類別的對應次數(shù),確定用戶身份類別。
作為優(yōu)選,本申請實施例中,在接收用戶的數(shù)據(jù)信息之后,在將多個所述標記文本與關鍵詞詞庫中的屬性關鍵詞進行匹配之前,還包括:對所述標記文本進行分詞,將所述標記文本切分成至少一個切分詞;
將多個所述標記文本與關鍵詞詞庫中的屬性關鍵詞進行匹配,包括:
將所述標記文本中的所述切分詞分別與所述屬性關鍵詞進行匹配。
作為優(yōu)選,本申請實施例中,統(tǒng)計所述標記文本與類別相對應的對應次數(shù),包括:
若所述切分詞與所述屬性關鍵詞匹配,則將所述屬性關鍵詞所對應的類別與包含所述切分詞的標記文本相對應的對應次數(shù)增加一個步長單位或者計為一個步長單位;
將相同的類別與用戶的各標記文本相對應的對應次數(shù)進行累加,確定用戶的標記文本與各類別相對應的對應次數(shù)。
作為優(yōu)選,本申請實施例中,所述數(shù)據(jù)信息還包括用戶的認證信息;
依據(jù)用戶的所述標記文本與所述類別的對應次數(shù),確定用戶身份類別,包括:
對于有認證信息的已認證用戶,將與該用戶的認證信息一致的類別作為已認證類別;將所述已認證類別對應的類別,確定為有認證信息的已認證用戶的身份類別;
依據(jù)所述已認證用戶的標記文本與所述已認證類別相對應的對應次數(shù),計算無認證信息的未認證用戶的標記文本與各類別相對應的各對應次數(shù)的分布 概率,記為第一概率;
依據(jù)所述第一概率,確定所述未認證用戶的身份類別。
作為優(yōu)選,本申請實施例中,依據(jù)所述已認證用戶的標記文本與所述已認證類別相對應的對應次數(shù),計算無認證信息的未認證用戶的標記文本與各類別相對應的各對應次數(shù)的分布概率,包括:
對所述已認證類別,計算已認證用戶的標記文本與所述已認證類別相對應的條件下,各對應次數(shù)出現(xiàn)的條件概率,記為第二概率;
對已認證用戶的標記文本與已認證類別相對應的對應次數(shù),將不大于對應次數(shù)本數(shù)的各對應次數(shù)對應的所述第二概率進行累加,記為第三概率;
依據(jù)所述第三概率,確定所述第一概率;所述第一概率與所述第三概率在所述類別和所述對應次數(shù)上一一對應。
作為優(yōu)選,本申請實施例中,對所述已認證類別,計算已認證用戶的標記文本與所述已認證類別相對應的條件下,各對應次數(shù)出現(xiàn)的條件概率,包括:
對所述已認證類別,統(tǒng)計與所述已認證類別相對應的已認證用戶的總數(shù),記為第一統(tǒng)計量;
對已認證類別與已認證用戶的標記文本相對應的對應次數(shù),統(tǒng)計各相同的對應次數(shù)出現(xiàn)的數(shù)量,記為第二統(tǒng)計量;
對已認證類別與已認證用戶的標記文本相對應的各對應次數(shù),分別以所述第二統(tǒng)計量為被除數(shù)、以所述第一統(tǒng)計量為除數(shù),計算得到已認證用戶的標記文本與所述已認證類別相對應的條件下、各對應次數(shù)出現(xiàn)的條件概率,記為所述第二概率。
作為優(yōu)選,本申請實施例中,依據(jù)所述第一概率,確定所述未認證用戶的身份類別,包括:
將所述未認證用戶的標記文本相對應的類別中所述第一概率最高的預設個類別對應的類別確定為所述未認證用戶的身份類別。
作為優(yōu)選,本申請實施例中,所述數(shù)據(jù)信息還包括用戶的注冊信息和業(yè)務 信息;
在依據(jù)所述已認證用戶的標記文本與所述已認證類別相對應的對應次數(shù),計算無認證信息的未認證用戶的標記文本與各類別相對應的各對應次數(shù)的分布概率之后,還包括:
將所述注冊信息和所述業(yè)務信息分別進行分類;
將包含同類注冊信息和同類業(yè)務信息的未認證用戶分入同一群組中;
依據(jù)未認證用戶的標記文本與各類別相對應的對應次數(shù),將與所述對應次數(shù)相應的所述第一概率作為未認證用戶的標記文本與各類別相對應的概率;
依據(jù)分入同一群組的各未認證用戶的標記文本與相同類別相對應的概率,按照預設計算規(guī)則計算得到該組用戶與各類別相對應的概率,記為第四概率;
依據(jù)所述第一概率和所述第四概率,確定所述未認證用戶的身份類別。
作為優(yōu)選,本申請實施例中,所述預設計算規(guī)則包括:
將分入同一群組的各未認證用戶的標記文本與相同類別相對應的概率進行數(shù)學平均計算或者加權平均計算。
作為優(yōu)選,本申請實施例中,依據(jù)所述第一概率和所述第四概率,確定所述未認證用戶的身份類別,包括:
將與所述未認證用戶的標記文本相對應的各類別所對應的所述第一概率和所述第四概率相比較,將概率最高的預設個類別對應的類別作為所述未認證用戶的身份類別。
作為優(yōu)選,本申請實施例中,所述標記文本包括用戶的通訊錄信息和/或用戶被其他用戶標注的備注信息。
作為優(yōu)選,本申請實施例中,在接收用戶的數(shù)據(jù)信息之后,在將多個所述標記文本與關鍵詞詞庫中的屬性關鍵詞進行匹配之前,還包括:
對所述標記文本進行預處理。
作為優(yōu)選,本申請實施例中,所述預處理包括以下處理方式中的一種或多種的組合:
將大寫字母轉(zhuǎn)化為小寫字母、將繁體字轉(zhuǎn)化為簡體字、將半角符號的字符轉(zhuǎn)化為全角符號的字符、將無效字符轉(zhuǎn)化為空格、刪除中文字符之間的空格。
作為優(yōu)選,本申請實施例中,所述處理方式還包括:
對所述標記文本中的同義詞進行同義詞替換。
本申請實施例還提供了一種確定用戶身份類別的裝置,所述裝置包括:
接收模塊,接收用戶的數(shù)據(jù)信息,所述數(shù)據(jù)信息包括多個含有用戶身份信息的標記文本;
匹配模塊,將多個所述標記文本與關鍵詞詞庫中的屬性關鍵詞進行匹配;其中,所述關鍵詞詞庫中包括至少一個屬性關鍵詞及與屬性關鍵詞對應的類別;
統(tǒng)計模塊,統(tǒng)計所述標記文本與類別相對應的對應次數(shù);其中,所述類別對應與所述標記文本相匹配的屬性關鍵詞;
身份類別確定模塊,依據(jù)用戶的所述標記文本與所述類別的對應次數(shù),確定用戶身份類別。
作為優(yōu)選,本申請實施例中,所述裝置還包括:
分詞模塊,對所述標記文本進行分詞,將所述標記文本切分成至少一個切分詞;
所述匹配模塊包括:
匹配組件,將所述標記文本中的所述切分詞分別與所述屬性關鍵詞進行匹配。
作為優(yōu)選,本申請實施例中,所述統(tǒng)計模塊包括:
判斷組件,判斷所述切分詞與所述屬性關鍵詞是否匹配;
計數(shù)組件,在所述切分詞與所述屬性關鍵詞匹配時,將所述屬性關鍵詞所對應的類別與包含所述切分詞的標記文本相對應的對應次數(shù)增加一個步長單位或者計為一個步長單位;
累加組件,將相同的類別與用戶的各標記文本相對應的對應次數(shù)進行累 加,確定用戶的標記文本與各類別相對應的對應次數(shù)。
作為優(yōu)選,本申請實施例中,所述數(shù)據(jù)信息還包括用戶的認證信息;且
所述身份類別確定模塊包括:
認證類別確定組件,對于有認證信息的已認證用戶,將與該用戶的認證信息一致的類別作為已認證類別;將所述已認證類別對應的類別,確定為有認證信息的已認證用戶的身份類別;
第一概率計算組件,依據(jù)所述已認證用戶的標記文本與所述已認證類別相對應的對應次數(shù),計算無認證信息的未認證用戶的標記文本與各類別相對應的各對應次數(shù)的分布概率,記為第一概率;
第一未認證用戶身份類別確定組件,依據(jù)所述第一概率,確定所述未認證用戶的身份類別。
作為優(yōu)選,本申請實施例中,所述第一概率計算組件包括:
第二概率計算組件,對所述已認證類別,計算已認證用戶的標記文本與所述已認證類別相對應的條件下,各對應次數(shù)出現(xiàn)的條件概率,記為第二概率;
第三概率計算單元,對已認證用戶的標記文本與已認證類別相對應的對應次數(shù),將不大于對應次數(shù)本數(shù)的各對應次數(shù)對應的所述第二概率進行累加,記為第三概率;
第一概率確定單元,依據(jù)所述第三概率,確定所述第一概率;所述第一概率與所述第三概率在所述類別和所述對應次數(shù)上一一對應。
作為優(yōu)選,本申請實施例中,所述第二概率計算組件包括:
第一統(tǒng)計量計算單元,對所述已認證類別,統(tǒng)計與所述已認證類別相對應的已認證用戶的總數(shù),記為第一統(tǒng)計量;
第二統(tǒng)計量計算單元,對已認證類別與已認證用戶的標記文本相對應的對應次數(shù),統(tǒng)計各相同的對應次數(shù)出現(xiàn)的數(shù)量,記為第二統(tǒng)計量;
第二概率計算單元,對已認證類別與已認證用戶的標記文本相對應的各對應次數(shù),分別以所述第二統(tǒng)計量為被除數(shù)、以所述第一統(tǒng)計量為除數(shù),計算得 到已認證用戶的標記文本與所述已認證類別相對應的條件下、各對應次數(shù)出現(xiàn)的條件概率,記為所述第二概率。
作為優(yōu)選,本申請實施例中,所述數(shù)據(jù)信息還包括用戶的注冊信息和業(yè)務信息;且
所述身份類別確定模塊還包括:
信息分類組件,將所述注冊信息和所述業(yè)務信息分別進行分類;
未認證用戶分組組件,將包含同類注冊信息和同類業(yè)務信息的未認證用戶分入同一群組中;
概率對應組件,依據(jù)未認證用戶的標記文本與各類別相對應的對應次數(shù),將與所述對應次數(shù)相應的所述第一概率作為未認證用戶的標記文本與各類別相對應的概率;
第四概率計算組件,依據(jù)分入同一群組的各未認證用戶的標記文本與相同類別相對應的概率,按照預設計算規(guī)則計算得到該組用戶與各類別相對應的概率,記為第四概率;
第二未認證用戶身份類別確定組件,依據(jù)所述第一概率和所述第四概率,確定所述未認證用戶的身份類別。
本申請實施例采用的上述至少一個技術方案能夠達到以下有益效果:
1、本申請實施例主動對用戶包括標記文本在內(nèi)的數(shù)據(jù)信息進行收集,并在此基礎上對標記文本按照與類別的對應關系進行分類統(tǒng)計,最終通過確定用戶的標記文本與類別的對應關系完成對數(shù)據(jù)的分析處理,確定了用戶的身份類別,解決了現(xiàn)有技術中難以主動收集數(shù)據(jù)并難以進行統(tǒng)計分析的問題。
2、本申請實施例還利用用戶的認證信息的確定性和準確性,以認證信息為基準計算出已認證的用戶的標記文本與某類別相對應的各對應次數(shù)的概率,再以此概率估算出未認證用戶的標記文本與某類別相對應的各次數(shù)的出現(xiàn)概率,由此即可評估,當未認證用戶被若干次標記為與某類別相對應時,該未認證用戶確實歸屬于該類別對應的身份類別的可信程度。
3、本申請實施例在考慮標記文本和認證信息的基礎上,進一步考慮用戶的注冊信息和業(yè)務信息,更全面地收集用戶在使用互聯(lián)網(wǎng)的過程中留存的數(shù)據(jù),并加以分析處理,從而更準確地確定用戶身份類別。
附圖說明
此處所說明的附圖用來提供對本申請的進一步理解,構(gòu)成本申請的一部分,本申請的示意性實施例及其說明用于解釋本申請,并不構(gòu)成對本申請的不當限定。在附圖中:
圖1為本申請實施例的一種確定用戶身份類別的方法的流程示意圖;
圖2為本申請實施例的第二種確定用戶身份類別的方法的流程示意圖;
圖3為本申請實施例的第三種確定用戶身份類別的方法的流程示意圖;
圖4為本申請實施例的第四種確定用戶身份類別的方法的流程示意圖;
圖5為本申請實施例的第五種確定用戶身份類別的方法的流程示意圖;
圖6為本申請實施例的第六種確定用戶身份類別的方法的流程示意圖;
圖7為本申請實施例的第七種確定用戶身份類別的方法的流程示意圖;
圖8為本申請實施例的第八種確定用戶身份類別的方法的流程示意圖;
圖9為本申請實施例的一種確定用戶身份類別的裝置的結(jié)構(gòu)示意圖;
圖10為本申請實施例的第二種確定用戶身份類別的裝置的結(jié)構(gòu)示意圖;
圖11為本申請實施例的第三種確定用戶身份類別的裝置的結(jié)構(gòu)示意圖;
圖12為本申請實施例的第四種確定用戶身份類別的裝置的結(jié)構(gòu)示意圖;
圖13為本申請實施例的第五種確定用戶身份類別的裝置的結(jié)構(gòu)示意圖;
圖14為本申請實施例的第六種確定用戶身份類別的裝置的結(jié)構(gòu)示意圖;
圖15為本申請實施例的第七種確定用戶身份類別的裝置的結(jié)構(gòu)示意圖。
具體實施方式
為使本申請的目的、技術方案和優(yōu)點更加清楚,下面將結(jié)合本申請具體實 施例及相應的附圖對本申請技術方案進行清楚、完整地描述。顯然,所描述的實施例僅是本申請一部分實施例,而不是全部的實施例?;诒旧暾堉械膶嵤├?,本領域普通技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本申請保護的范圍。
以下結(jié)合附圖,詳細說明本申請各實施例提供的技術方案。
本申請的實施例提供了一種確定用戶身份類別的方法,參見圖1所示,方法包括:
S11:接收用戶的數(shù)據(jù)信息,數(shù)據(jù)信息包括多個含有用戶身份信息的標記文本;
S12:將多個標記文本與關鍵詞詞庫中的屬性關鍵詞進行匹配;其中,關鍵詞詞庫中包括至少一個屬性關鍵詞及與屬性關鍵詞對應的類別;
S13:統(tǒng)計標記文本與類別相對應的對應次數(shù);其中,類別對應與標記文本相匹配的屬性關鍵詞;
S14:依據(jù)用戶的標記文本與類別的對應次數(shù),確定用戶身份類別。
本實施例主動對用戶包括標記文本在內(nèi)的數(shù)據(jù)信息進行收集,并在此基礎上對標記文本按照與類別的對應關系進行分類統(tǒng)計,最終通過確定用戶的標記文本與類別的對應關系完成對數(shù)據(jù)的分析處理。依據(jù)用戶的標記文本與關鍵詞詞庫中的屬性關鍵詞的對應關系,可以統(tǒng)計出各用戶的標記文本對應各類別出現(xiàn)的次數(shù),次數(shù)的多少可以一定程度上表征用戶的標記文本與相應類別可以建立對應關系的可信程度,從而可以據(jù)此確定用戶與類別的對應關系,進而確定用戶身份類別。
本實施例可應用于對用戶多種角度的分類分析。以將本實施例應用于對用戶的社會身份分析為例,關鍵詞詞庫可具體化為社會身份關鍵詞詞庫,可以將社會身份劃分成若干社會身份類別,對應本實施例的類別。每一類社會身份包含多個社會身份關鍵詞,對應本實施例中的屬性關鍵詞。更具體地,例如,可以按照行業(yè)劃分社會身份類別,則關鍵詞詞庫中可以包括飲食行業(yè)、服裝行業(yè)、 機械行業(yè)、金融行業(yè)、移動互聯(lián)網(wǎng)行業(yè)等類別;進一步地,對每一個類別,可按照各行業(yè)中的職能設定社會身份關鍵詞,以“飲食行業(yè)”這一類別為例,該類別可包含的屬性關鍵詞有廚師、服務員、收銀員、傳菜員等。
在實施本實施例時,用戶的標記文本中包含與用戶的社會身份有關的信息,例如,用戶被其某一好友標記為“廚師”,則用戶的該條標記文本與上述屬性關鍵詞“廚師”匹配,屬性關鍵詞“廚師”屬于“飲食行業(yè)”這一類別,則該用戶的該條標記文本與“飲食行業(yè)”這一類別存在一次相對應的對應關系。
作為上述實施例的一個優(yōu)選實施例,標記文本中可包括用戶的通訊錄信息和/或用戶被其他用戶標注的備注信息。這些信息由用戶自身或其他用戶標記,可以在一定程度上表征用戶的身份類別,依據(jù)這些信息有利于確定用戶身份類別。
作為上述實施例的一個優(yōu)選實施例,在S11接收用戶的數(shù)據(jù)信息之后,在S12將多個標記文本與關鍵詞詞庫中的屬性關鍵詞進行匹配之前,還包括:
對標記文本進行預處理。
對標記文本進行預處理,方便了后續(xù)對標記文本的處理,有利于避免因標記文本本身的誤差和噪音而影響確定的用戶身份類別的可信度。
作為上述實施例的一個優(yōu)選實施例,上述預處理可以包括以下處理方式中的一種或多種的組合:
將大寫字母轉(zhuǎn)化為小寫字母、將繁體字轉(zhuǎn)化為簡體字、將半角符號的字符轉(zhuǎn)化為全角符號的字符、將無效字符轉(zhuǎn)化為空格、刪除中文字符之間的空格。
進一步地,上述預處理的處理方式還可以包括:
對標記文本中的同義詞進行同義詞替換。
以上實施例中列舉的多種預處理的處理方式可以根據(jù)實施的需要擇一使用或者任意組合使用,也可以根據(jù)實施需要選擇其他未列舉的方式對標記文本進行預處理。
作為一個優(yōu)選實施例,參見圖2所示,在S11接收用戶的數(shù)據(jù)信息之后, 在S12將多個標記文本與關鍵詞詞庫中的屬性關鍵詞進行匹配之前,還包括:
S15:對標記文本進行分詞,將標記文本切分成至少一個切分詞;
S12將多個標記文本與關鍵詞詞庫中的屬性關鍵詞進行匹配,具體包括:
S121:將標記文本中的切分詞分別與屬性關鍵詞進行匹配。
作為一個優(yōu)選實施例,參見圖3所述,S13統(tǒng)計標記文本與類別相對應的對應次數(shù),包括:
若經(jīng)S131判斷切分詞與屬性關鍵詞匹配,則S132將屬性關鍵詞所對應的類別與包含切分詞的標記文本相對應的對應次數(shù)增加一個步長單位或者計為一個步長單位;
S133:將相同的類別與用戶的各標記文本相對應的對應次數(shù)進行累加,確定用戶的標記文本與各類別相對應的對應次數(shù)。
上述步驟S132中,當切分詞與屬性關鍵詞相匹配時,表示包含有切分詞的標記文本與包括有屬性關鍵詞的類別存在對應關系。對應次數(shù)“增加一個步長單位”,即當某條標記文本中有多個切分詞與某類別中的一個或多個屬性關鍵詞相匹配時,對多次匹配進行累加,以步長單位為單位增加對應次數(shù)。對應次數(shù)“計為一個步長單位”,即當某條標記文本中有多個切分詞與某類別中的一個或多個屬性關鍵詞相匹配時,對多次匹配不進行累加,只進行計數(shù),這一計數(shù)值僅表示該條標記文本是否與某類別存在對應關系。
下面以將上述實施例應用于對用戶的社會身份分析為例。包括:
(1)關鍵詞詞庫可具體化為社會身份關鍵詞詞庫。將社會身份關鍵詞詞庫記為D={D1,D2,…,Dm},其中Di表示每i類社會身份(即第i類類別),m表示社會身份的類別數(shù)(即類別的個數(shù));每一類社會身份中還包含很多對應的關鍵詞(屬性關鍵詞),記為Di={Di1,Di2,…,Din},其中Dij表示第i類社會身份中的第j個詞(即第i個類別中的第j個屬性關鍵詞),n表示第i類社會身份包含的關鍵詞的數(shù)量(即第i個類別中包含的屬性關鍵詞的數(shù)量)。
(2)將用戶A的標注信息記為S(A)={s1,s2,s3,…,st},其中si表示用戶A 被標注的第i條標記文本,t表示該用戶A的標記文本的總條數(shù)。標記文本可取為用戶上傳的通訊錄數(shù)據(jù)和/或用戶相互加好友對應的備注信息等。
(3)為規(guī)范標記文本的格式以便后續(xù)處理,優(yōu)選對標記文本進行預處理,包括將大寫字母轉(zhuǎn)化為小寫字母、將繁體字轉(zhuǎn)化為簡體字、將半角符號的字符轉(zhuǎn)化為全角符號的字符、將無效字符轉(zhuǎn)化為空格、刪除中文字符之間的空格等,還可以對標記文本中的同義詞進行同義詞替換。若選擇不在標記文本中進行同義詞替換,也可將相對應的同義詞均作為屬性關鍵詞列入關鍵詞詞庫中。
(4)在以上基礎上對標記文本進行分詞,將標記文本切分成至少一個切分詞。將用戶A的第i條標記文本si分詞后的結(jié)果記為W(si)={wi1,wi2,..,wik},其中,wij表示標記文本si的第j個切分詞,k表示標記文本si被切分成k個切分詞。
(5)對標記文本si構(gòu)建一個特征向量,即為vi=[0,0,..,0],由于總共有m種社會身份,因此該特征向量vi總共有m個0,vi[j]表示向量vi的第j個元素。
如果標記文本si中的第j個切分詞wij與某一種社會身份j中的某一個關鍵詞相匹配,那么標記文本si對應的特征向量vi的第j個元素加1(此處,步長單位具體為1),即vi[j]變成了vi[j]+1。同一條標記文本si中的多個切分詞與同一類社會身份中的多個關鍵詞相匹配,優(yōu)選在標記文本si同時與第j類社會身份中的多個關鍵詞匹配時,只累加一次,避免重復計數(shù),即若標記文本si中的第j個切分詞wij與某一種社會身份j中的某一個關鍵詞相匹配,則標記文本si對應的特征向量vi的第j個元素計為1(此處,步長單位具體為1),即vi[j]的數(shù)值由0變成了1,并不再增加。
對標記文本si的每一個切分詞做上述處理,特征向量vi中的vi[j]的數(shù)值表示標記文本si與第j種社會身份相對應的對應次數(shù)的情況。
(6)在以上基礎上,可以得到用戶A的每一條標記文本通過匹配和計算得到的特征向量,把用戶A的各條標記文本對應的特征向量進行加和,即各特征向量的對應元素相加,亦即將相同的類別與用戶A的各標記文本相對應的對 應次數(shù)進行累加,就可以得到用戶A匯總后的特征向量V(A),V(A)中的V(A)[i]的數(shù)值表示用戶A的標記文本與第i類社會身份相對應的對應次數(shù)。
在以上實施例中已統(tǒng)計完成用戶的標記文本與相匹配的屬性關鍵詞所對應的類別相對應的對應次數(shù),依據(jù)用戶的標記文本與各類別相對應的對應次數(shù),可以認為與用戶的標記文本對應的次數(shù)越多的類別越可能是用戶的身份類別,從而可以將與用戶的標記文本對應的次數(shù)最多的預設個類別對應的身份類別作為用戶的身份類別。
在某些情況下,用戶在使用互聯(lián)網(wǎng)時會上傳自己的經(jīng)官方認證的認證信息,例如身份證、工商注冊號、或者從業(yè)資格證書等。這些認證信息都能準確的表征用戶的社會身份類別。同時,一般情況下,上述實施例中的標注信息往往可以覆蓋絕大多數(shù)用戶,因此其中就會包含有認證信息的已認證用戶和無認證信息的未認證用戶。
為了更準確地確定用戶身份類別,本申請?zhí)峁┯忠粌?yōu)選實施例,參見圖4所示,所述數(shù)據(jù)信息除包括用戶的標記文本外,還包括用戶的認證信息;并且,S14依據(jù)用戶的標記文本與類別的對應次數(shù),確定用戶身份類別,包括:
S141:對于有認證信息的已認證用戶,將與該用戶的認證信息一致的類別作為已認證類別;將已認證類別對應的類別,確定為有認證信息的已認證用戶的身份類別;
S142:依據(jù)已認證用戶的標記文本與已認證類別相對應的對應次數(shù),計算無認證信息的未認證用戶的標記文本與各類別相對應的各對應次數(shù)的分布概率,記為第一概率;
S143:依據(jù)第一概率,確定未認證用戶的身份類別。
作為上述實施例的一個優(yōu)選實施例,參見圖5所示,S142依據(jù)已認證用戶的標記文本與已認證類別相對應的對應次數(shù),計算無認證信息的未認證用戶的標記文本與各類別相對應的各對應次數(shù)的分布概率,包括:
S1421:對已認證類別,計算已認證用戶的標記文本與已認證類別相對應 的條件下,各對應次數(shù)出現(xiàn)的條件概率,記為第二概率;
S1422:對已認證用戶的標記文本與已認證類別相對應的對應次數(shù),將不大于對應次數(shù)本數(shù)的各對應次數(shù)對應的第二概率進行累加,記為第三概率;
S1423:依據(jù)第三概率,確定第一概率;第一概率與第三概率在類別和對應次數(shù)上一一對應。
作為上述實施例的一個優(yōu)選實施例,參見圖6所示,S1421對已認證類別,計算已認證用戶的標記文本與已認證類別相對應的條件下,各對應次數(shù)出現(xiàn)的條件概率,包括:
S14211:對已認證類別,統(tǒng)計與已認證類別相對應的已認證用戶的總數(shù),記為第一統(tǒng)計量;
S14212:對已認證類別與已認證用戶的標記文本相對應的對應次數(shù),統(tǒng)計各相同的對應次數(shù)出現(xiàn)的數(shù)量,記為第二統(tǒng)計量;
S14213:對已認證類別與已認證用戶的標記文本相對應的各對應次數(shù),分別以第二統(tǒng)計量為被除數(shù)、以第一統(tǒng)計量為除數(shù),計算得到已認證用戶的標記文本與已認證類別相對應的條件下、各對應次數(shù)出現(xiàn)的條件概率,記為第二概率。
上述步驟S14211和步驟S14212的執(zhí)行可以并行進行,也可以按任意順序進行。
作為上述實施例的一個優(yōu)選實施例,S143依據(jù)第一概率,確定未認證用戶的身份類別,包括:
將未認證用戶的標記文本相對應的類別中第一概率最高的預設個類別對應的類別確定為未認證用戶的身份類別。
下面仍然以將上述實施例應用于對用戶的社會身份分析為例。在進行上述第(1)~(6)步驟后,已得到用戶A的特征向量V(A),V(A)中第i個元素的V(A)[i]的數(shù)值表示用戶A的標記文本與第i類社會身份相對應的對應次數(shù),可簡稱為用戶A被標記為第i類社會身份的次數(shù)。采用同樣方法可得到其他各用 戶的特征向量,即得到各用戶的標記文本與各類別相對應的對應次數(shù)。以下結(jié)合數(shù)據(jù)信息中包含認證信息的情況確定用戶身份類別,包括:
(7)對于有認證信息的已認證用戶而言,依據(jù)其認證信息已能準確確定該用戶的身份類別,因此,將該已認證用戶的已認證類別對應的類別,確定為該已認證用戶的身份類別。例如,某用戶上傳了自己的國家二級廚師證,與廚師證對應的類別為飲食行業(yè),因此,該用戶的身份類別可確定為飲食行業(yè)。
(8)對于每一類經(jīng)過認證的社會身份類別,用戶的特征向量V中與該社會身份類別對應的元素的數(shù)值即為用戶與該類社會身份對應的次數(shù)。執(zhí)行步驟S142計算得到第一概率。以下結(jié)合一具體實施例說明計算過程。假設:
a)用戶組包含用戶A、B、C、D、E、F、G
b)社會身份關鍵詞庫中包含3類社會身份
c)用戶A、B、C有認證信息,其認證信息與第2類社會身份相對應;特征向量分別為:V(A)=[3,2,0],V(B)=[6,5,9],V(C)=[2,2,6]
d)用戶D、E有認證信息,其認證信息與第3類社會身份相對應;特征向量分別為:V(D)=[3,2,7],V(E)=[7,4,9]
e)用戶F、G無認證信息,特征向量分別為:V(F)=[4,5,7],V(G)=[2,2,9]
首先執(zhí)行步驟S14211,計算第一統(tǒng)計量。針對以上舉例,被認證為第2類社會身份的已認證用戶(用戶A、用戶B、用戶C)數(shù)量為3,被認證為第3類社會身份的已認證用戶(用戶D、用戶E)數(shù)量為2,則第2類社會身份的第一統(tǒng)計量為3,第3類社會身份的第一統(tǒng)計量為2。
可同時執(zhí)行步驟S14212,統(tǒng)計得到第二統(tǒng)計量。針對以上舉例,對第2類和第3類兩類已認證的社會身份類別,第2類社會身份被2個用戶(用戶A和用戶C)標記了2次,則第2類社會身份被標記2次對應的第二統(tǒng)計量為2;第2類社會身份被1個用戶(用戶B)標記了5次,則第2類社會身份被標記5次對應的第二統(tǒng)計量為1;第3類社會身份被1個用戶(用戶D)標記了7 次,則第3類社會身份被標記7次對應的第二統(tǒng)計量為1;第3類社會身份被1個用戶(用戶E)標記了9次,則第3類社會身份被標記9次對應的第二統(tǒng)計量為1。
在此基礎上,執(zhí)行S14213計算得到第二概率。針對以上舉例,可以計算得到第2類社會身份被標記2次對應的第二概率為2/3,第2類社會身份被標記5次對應的第二概率為1/3,第3類社會身份被標記7次對應的第二概率為1/2,第3類社會身份被標記9次對應的第二概率為1/2。
然后執(zhí)行S1422計算第三概率。針對以上舉例,可以計算得到第2類社會身份被標記2次對應的第三概率為2/3,第2類社會身份被標記5次對應的第三概率為2/3+1/3,第3類社會身份被標記7次對應的第三概率為1/2,第3類社會身份被標記9次對應的第三概率為1/2+1/2。在實際實施本實施例時,用戶被標記為某社會身份的次數(shù)越多,該用戶的身份類別為該社會身份的可能性越大,概率值越趨近于1。
最后執(zhí)行S1423確定第一概率,針對以上舉例,則第2類社會身份被標記2次對應的第一概率為2/3,第2類社會身份被標記5次對應的第一概率為1,第3類社會身份被標記7次對應的第一概率為1/2,第3類社會身份被標記9次對應的第一概率為1。
(9)依據(jù)第(8)步計算得到第一概率,執(zhí)行S143依據(jù)第一概率,確定未認證用戶的身份類別。針對以上舉例,未認證用戶F的特征向量為V(F)=[4,5,7],其中,可以將第2類社會身份被標記5次對應的概率作為用戶F對應到第2類社會身份的概率,即1;將第3類社會身份被標記7次對應的概率作為用戶F對應到第3類社會身份的概率,即1/2。同理,未認證用戶G的特征向量為V(G)=[2,2,9],其中,將第2類社會身份被標記2次對應的概率作為用戶G對應到第2類社會身份的概率,即2/3;將第3類社會身份被標記9次對應的概率作為用戶G對應到第3類社會身份的概率,即1。
作為本申請實施例的一優(yōu)選實施例,參見圖7所示,S143依據(jù)第一概率, 確定未認證用戶的身份類別,具體包括:
S1431:將未認證用戶的標記文本相對應的類別中第一概率最高的預設個類別對應的類別確定為未認證用戶的身份類別。
確定未認證用戶的身份類別時,可以按照用戶對應到的各社會身份的概率進行排序,依據(jù)概率最高的預設個社會身份確定用戶身份類別。針對以上舉例,未認證用戶F對應到第2類社會身份的概率更高,因此,可確定用戶F的社會身份為第2類;未認證用戶G對應到第2類社會身份的概率更高,因此,可確定用戶G的社會身份為第2類。
圖4~圖7給出的實施例的實施原理在于:
用戶的特征向量,表示用戶的標記文本與各類社會身份相對應的對應次數(shù)。一般情況下,標記文本可以覆蓋絕大多數(shù)用戶,因此其中就有部分用戶同時包含認證信息,這些有認證信息的已認證用戶,可依據(jù)其認證信息確定對應的社會身份類別。
對于每一類已認證的社會身份,可以通過已認證用戶的特征向量,獲取已認證用戶與該社會身份類別相對應的特征向量值,即已認證用戶被標注為該類社會身份的次數(shù)。統(tǒng)計所有該類社會身份被標注的次數(shù),就可以得到每一個標注次數(shù)對應的概率分布,即:p(x|i)=已認證的第i類社會身份被標注x次的用戶數(shù)量/已認證為第i類社會身份的用戶數(shù)量。p(x|i)即表示被認證為第i類社會身份的用戶中,已認證的第i類社會身份被標注x次的用戶所占的比例。
在計算出p(x|i)的基礎上,根據(jù)第i類社會身份被標注為x次對應的概率,可以采用以下公式進一步計算出累計到x次的累積概率:
根據(jù)以上公式,可以計算出被標注為不同社會身份次數(shù)對應到是該類社會身份的概率,從而可以計算出所有用戶對應到每一類社會身份的概率。在此基礎上即可確定用戶身份類別。
作為本申請實施例的一個優(yōu)選實施例,參見圖8所示,數(shù)據(jù)信息還包括用戶的注冊信息和業(yè)務信息;
在S142依據(jù)已認證用戶的標記文本與已認證類別相對應的對應次數(shù),計算無認證信息的未認證用戶的標記文本與各類別相對應的各對應次數(shù)的分布概率之后,還包括:
S144:將注冊信息和業(yè)務信息分別進行分類;
S145:將包含同類注冊信息和同類業(yè)務信息的未認證用戶分入同一群組中;
S146:依據(jù)未認證用戶的標記文本與各類別相對應的對應次數(shù),將與對應次數(shù)相應的第一概率作為未認證用戶的標記文本與各類別相對應的概率;
S147:依據(jù)分入同一群組的各未認證用戶的標記文本與相同類別相對應的概率,按照預設計算規(guī)則計算得到該組用戶與各類別相對應的概率,記為第四概率;
S148:依據(jù)第一概率和第四概率,確定未認證用戶的身份類別。
上述實施例中,預設計算規(guī)則優(yōu)選包括:將分入同一群組的各未認證用戶的標記文本與相同類別相對應的概率進行數(shù)學平均計算或者加權平均計算。
下面仍然以將上述實施例應用于對用戶的社會身份分析為例。在進行上述第(1)~(8)步驟后,計算出無認證信息的未認證用戶的標記文本與各類別相對應的各對應次數(shù)的分布概率,即第一概率。
為了充分利用用戶的注冊信息以及用戶在各業(yè)務場景中留下的碎片化業(yè)務信息,進一步擴充認證用戶和根據(jù)標記文本找出的社會身份,可以根據(jù)在第(1)~(8)步驟后得到的第一概率,對注冊信息和業(yè)務信息中包含的社會身份信息也進行一層概率推斷。假設注冊信息和業(yè)務信息包括用戶是否有公司、在公司的職位信息(假設有10個不同的職位)、交易金額(假設考慮5種不同的交易金額級別)等,根據(jù)這些信息對用戶進行分群,根據(jù)用戶是否有公司可以把用戶分成2類,根據(jù)用戶的職位信息可以把用戶分為10類,根據(jù)交易金 額可以把用戶分成5類,最終根據(jù)這三個大類別,可以把用戶分成2*10*5=100組。
在計算得到第一概率的基礎上,已知被標注的用戶屬于每一類社會身份的概率,則對于上述100組用戶中被標注的用戶,可以得到每一組被標注用戶屬于每一類社會身份的平均概率,將該平均概率可以作為該組用戶在每一類社會身份中的概率;平均概率可以采用將分入同一群組的各用戶對應各類社會身份的概率進行數(shù)學平均計算或者加權平均計算得到。
在實際實施中,如果對于100組中的某些組中并沒有用戶被標注過,即無法通過上述步驟求取概率平均值,則使用某一個大類中被標注用戶的平均概率作為該組用戶的概率即可。
作為優(yōu)選實施例,在計算得到第一概率和第四概率的基礎上,S148依據(jù)第一概率和第四概率,確定未認證用戶的身份類別,包括:
將與未認證用戶的標記文本相對應的各類別所對應的第一概率和第四概率相比較,將概率最高的預設個類別對應的類別作為未認證用戶的身份類別。
本申請還提供了一種確定用戶身份類別的裝置的實施例,參見圖9,該裝置包括:
接收模塊11,接收用戶的數(shù)據(jù)信息,數(shù)據(jù)信息包括用戶的標記文本;
匹配模塊12,將標記文本與關鍵詞詞庫中的屬性關鍵詞進行匹配;其中,關鍵詞詞庫中包括多個類別,類別中包括至少一個屬性關鍵詞;
統(tǒng)計模塊13,統(tǒng)計標記文本與相匹配的屬性關鍵詞所對應的類別相對應的對應次數(shù);
身份類別確定模塊14,依據(jù)用戶的標記文本與類別的對應次數(shù),確定用戶身份類別。
作為一優(yōu)選實施例,參見圖10所示,裝置還包括:
分詞模塊15,對標記文本進行分詞,將標記文本切分成至少一個切分詞;且匹配模塊12包括:
匹配組件121,將標記文本中的切分詞分別與屬性關鍵詞進行匹配。
作為一優(yōu)選實施例,參見圖11所示,統(tǒng)計模塊13包括:
判斷組件131,判斷切分詞與屬性關鍵詞是否匹配;
計數(shù)組件132,在切分詞與屬性關鍵詞匹配時,將屬性關鍵詞所對應的類別與包含切分詞的標記文本相對應的對應次數(shù)增加一個步長單位或者計為一個步長單位;
累加組件133,將相同的類別與用戶的各標記文本相對應的對應次數(shù)進行累加,確定用戶的標記文本與各類別相對應的對應次數(shù)。
作為上述裝置的又一優(yōu)選實施例,上述數(shù)據(jù)信息還包括用戶的認證信息;并且,參見圖12所示,身份類別確定模塊14包括:
認證類別確定組件141,對于有認證信息的已認證用戶,將與該用戶的認證信息一致的類別作為已認證類別;將已認證類別對應的類別,確定為有認證信息的已認證用戶的身份類別;
第一概率計算組件142,依據(jù)已認證用戶的標記文本與已認證類別相對應的對應次數(shù),計算無認證信息的未認證用戶的標記文本與各類別相對應的各對應次數(shù)的分布概率,記為第一概率;
第一未認證用戶身份類別確定組件143,依據(jù)第一概率,確定未認證用戶的身份類別。
上述裝置的又一優(yōu)選實施例在于,參見圖13所示,第一概率計算組件142包括:
第二概率計算組件1421,對已認證類別,計算已認證用戶的標記文本與已認證類別相對應的條件下,各對應次數(shù)出現(xiàn)的條件概率,記為第二概率;
第三概率計算單元1422,對已認證用戶的標記文本與已認證類別相對應的對應次數(shù),將不大于對應次數(shù)本數(shù)的各對應次數(shù)對應的第二概率進行累加,記為第三概率;
第一概率確定單元1423,依據(jù)第三概率,確定第一概率;第一概率與第三 概率在類別和對應次數(shù)上一一對應。
上述裝置的又一優(yōu)選實施例在于,參見圖14所示,第二概率計算組件1421包括:
第一統(tǒng)計量計算單元14211,對已認證類別,統(tǒng)計與已認證類別相對應的已認證用戶的總數(shù),記為第一統(tǒng)計量;
第二統(tǒng)計量計算單元14212,對已認證類別與已認證用戶的標記文本相對應的對應次數(shù),統(tǒng)計各相同的對應次數(shù)出現(xiàn)的數(shù)量,記為第二統(tǒng)計量;
第二概率計算單元14213,對已認證類別與已認證用戶的標記文本相對應的各對應次數(shù),分別以第二統(tǒng)計量為被除數(shù)、以第一統(tǒng)計量為除數(shù),計算得到已認證用戶的標記文本與已認證類別相對應的條件下、各對應次數(shù)出現(xiàn)的條件概率,記為第二概率。
作為上述裝置的又一優(yōu)選實施例,數(shù)據(jù)信息還包括用戶的注冊信息和業(yè)務信息;并且,參見圖15所示,身份類別確定模塊14還包括:
信息分類組件144,將注冊信息和業(yè)務信息分別進行分類;
未認證用戶分組組件145,將包含同類注冊信息和同類業(yè)務信息的未認證用戶分入同一群組中;
概率對應組件146,依據(jù)未認證用戶的標記文本與各類別相對應的對應次數(shù),將與對應次數(shù)相應的第一概率作為未認證用戶的標記文本與各類別相對應的概率;
第四概率計算組件147,依據(jù)分入同一群組的各未認證用戶的標記文本與相同類別相對應的概率,按照預設計算規(guī)則計算得到該組用戶與各類別相對應的概率,記為第四概率;
第二未認證用戶身份類別確定組件148,依據(jù)第一概率和第四概率,確定未認證用戶的身份類別。
所述裝置與前述的方法流程描述對應,不足之處參考上述方法流程的敘述,不再一一贅述。
本領域內(nèi)的技術人員應明白,本發(fā)明的實施例可提供為方法、系統(tǒng)、或計算機程序產(chǎn)品。因此,本發(fā)明可采用完全硬件實施例、完全軟件實施例、或結(jié)合軟件和硬件方面的實施例的形式。而且,本發(fā)明可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(zhì)(包括但不限于磁盤存儲器、CD-ROM、光學存儲器等)上實施的計算機程序產(chǎn)品的形式。
本發(fā)明是參照根據(jù)本發(fā)明實施例的方法、設備(系統(tǒng))、和計算機程序產(chǎn)品的流程圖和/或方框圖來描述的。應理解可由計算機程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合。可提供這些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數(shù)據(jù)處理設備的處理器以產(chǎn)生一個機器,使得通過計算機或其他可編程數(shù)據(jù)處理設備的處理器執(zhí)行的指令產(chǎn)生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。
這些計算機程序指令也可存儲在能引導計算機或其他可編程數(shù)據(jù)處理設備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。
這些計算機程序指令也可裝載到計算機或其他可編程數(shù)據(jù)處理設備上,使得在計算機或其他可編程設備上執(zhí)行一系列操作步驟以產(chǎn)生計算機實現(xiàn)的處理,從而在計算機或其他可編程設備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。
在一個典型的配置中,計算設備包括一個或多個處理器(CPU)、輸入/輸出接口、網(wǎng)絡接口和內(nèi)存。
內(nèi)存可能包括計算機可讀介質(zhì)中的非永久性存儲器,隨機存取存儲器(RAM)和/或非易失性內(nèi)存等形式,如只讀存儲器(ROM)或閃存(flash RAM)。內(nèi)存是計算機可讀介質(zhì)的示例。
計算機可讀介質(zhì)包括永久性和非永久性、可移動和非可移動媒體可以由任 何方法或技術來實現(xiàn)信息存儲。信息可以是計算機可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序的模塊或其他數(shù)據(jù)。計算機的存儲介質(zhì)的例子包括,但不限于相變內(nèi)存(PRAM)、靜態(tài)隨機存取存儲器(SRAM)、動態(tài)隨機存取存儲器(DRAM)、其他類型的隨機存取存儲器(RAM)、只讀存儲器(ROM)、電可擦除可編程只讀存儲器(EEPROM)、快閃記憶體或其他內(nèi)存技術、只讀光盤只讀存儲器(CD-ROM)、數(shù)字多功能光盤(DVD)或其他光學存儲、磁盒式磁帶,磁帶磁磁盤存儲或其他磁性存儲設備或任何其他非傳輸介質(zhì),可用于存儲可以被計算設備訪問的信息。按照本文中的界定,計算機可讀介質(zhì)不包括暫存電腦可讀媒體(transitory media),如調(diào)制的數(shù)據(jù)信號和載波。
還需要說明的是,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、商品或者設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、商品或者設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括所述要素的過程、方法、商品或者設備中還存在另外的相同要素。
本領域技術人員應明白,本申請的實施例可提供為方法、系統(tǒng)或計算機程序產(chǎn)品。因此,本申請可采用完全硬件實施例、完全軟件實施例或結(jié)合軟件和硬件方面的實施例的形式。而且,本申請可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(zhì)(包括但不限于磁盤存儲器、CD-ROM、光學存儲器等)上實施的計算機程序產(chǎn)品的形式。
以上所述僅為本申請的實施例而已,并不用于限制本申請。對于本領域技術人員來說,本申請可以有各種更改和變化。凡在本申請的精神和原理之內(nèi)所作的任何修改、等同替換、改進等,均應包含在本申請的權利要求范圍之內(nèi)。