查找相關(guān)聯(lián)的用戶標(biāo)識的方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本申請涉及計(jì)算機(jī)技術(shù)領(lǐng)域,具體涉及信息匹配技術(shù)領(lǐng)域,尤其涉及一種查找相關(guān)聯(lián)的用戶標(biāo)識的方法和裝置。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,各種網(wǎng)絡(luò)平臺,例如網(wǎng)絡(luò)社交平臺(如QQ社交平臺)、搜索平臺(如必應(yīng)搜索平臺)、網(wǎng)上交易平臺(如京東商城)等等,逐漸成為人們生活的重要組成部分。用戶可以通過相同或不同的身份標(biāo)識(identificat1n,ID)訪問各種網(wǎng)絡(luò)平臺。對這些ID之間的關(guān)聯(lián)性進(jìn)行分析,具有應(yīng)用于各種領(lǐng)域的重要意義,例如網(wǎng)頁廣告推送、網(wǎng)絡(luò)社交平臺中的好友推薦、犯罪分子追蹤等等。
[0003]現(xiàn)有的ID之間的關(guān)聯(lián)性分析方法中,通常將ID兩兩之間的屬性信息相匹配查找相關(guān)聯(lián)的ID。然而,在這種匹配方法中,大量屬性信息相差較大的ID之間的屬性信息匹配是沒有意義的,而且計(jì)算量較大,導(dǎo)致匹配效率較低。同時(shí),這種匹配方法不考慮不同屬性對匹配結(jié)果的影響,導(dǎo)致匹配結(jié)果準(zhǔn)確度不高。因此,這種匹配方法存在著網(wǎng)絡(luò)信息相關(guān)數(shù)據(jù)利用不足,查找相關(guān)聯(lián)的ID的有效性不高的問題。
【發(fā)明內(nèi)容】
[0004]本申請的目的在于提出一種改進(jìn)的查找相關(guān)聯(lián)的用戶標(biāo)識的方法和裝置,來解決以上【背景技術(shù)】部分提到的技術(shù)問題。
[0005]—方面,本申請?zhí)峁┝艘环N查找相關(guān)聯(lián)的用戶標(biāo)識的方法,所述方法包括:獲取至少兩個用戶標(biāo)識對應(yīng)的屬性信息,其中,所述屬性信息中的每一項(xiàng)具有根據(jù)其歷史記錄生成的重要度系數(shù);基于所述重要度系數(shù),對不同用戶標(biāo)識所對應(yīng)的屬性信息進(jìn)行相互匹配,查找出相似度最高的屬性信息,生成相似屬性信息組;判斷各相似屬性信息組中不同用戶標(biāo)識對應(yīng)的屬性信息的相似度是否大于預(yù)設(shè)相似度閾值,若是,查找出相似屬性信息組所對應(yīng)的用戶標(biāo)識作為相關(guān)聯(lián)的用戶標(biāo)識。
[0006]在一些實(shí)施例中,所述基于所述重要度系數(shù),對不同用戶標(biāo)識所對應(yīng)的屬性信息進(jìn)行相互匹配,查找出與每個用戶標(biāo)識所對應(yīng)的屬性信息相似度最高的屬性信息,分別生成相似屬性信息組之前,還包括:對于所述屬性信息中的每一項(xiàng),將其重要度系數(shù)與重要度閾值相比較;如果所述重要度系數(shù)小于所述重要度閾值,則從所述屬性信息中刪除該項(xiàng)。
[0007]在一些實(shí)施例中,所述屬性信息中的每一項(xiàng)還具有通過預(yù)設(shè)的預(yù)測模型獲取的預(yù)測系數(shù),其中,所述預(yù)測系數(shù)包括該項(xiàng)屬性信息相同的不同用戶標(biāo)識屬于同一用戶的概率,所述預(yù)測模型通過多個用戶標(biāo)識的屬性信息組成的樣本集訓(xùn)練獲得。
[0008]在一些實(shí)施例中,所述基于所述重要度系數(shù),對不同用戶標(biāo)識所對應(yīng)的屬性信息進(jìn)行相互匹配,查找出與每個用戶標(biāo)識所對應(yīng)的屬性信息相似度最高的屬性信息,分別生成相似屬性信息組包括:基于所述預(yù)測系數(shù)與所述重要度系數(shù)獲得判斷系數(shù);基于所述判斷系數(shù),對不同用戶標(biāo)識所對應(yīng)的屬性信息進(jìn)行相互匹配,查找出與每個用戶標(biāo)識所對應(yīng)的屬性信息相似度最高的屬性信息,分別生成相似屬性信息組。
[0009]在一些實(shí)施例中,所述基于所述預(yù)測系數(shù)與所述重要度系數(shù)獲得判斷系數(shù)包括:對于所述屬性信息中的每一項(xiàng),將其預(yù)測系數(shù)與預(yù)測閾值相比較;如果所述預(yù)測系數(shù)小于所述預(yù)測閾值,則從所述屬性信息中刪除該項(xiàng);對于所述屬性信息中剩余的每一項(xiàng),基于所述預(yù)測系數(shù)與所述重要度系數(shù)獲得判斷系數(shù)。
[0010]在一些實(shí)施例中,所述判斷系數(shù)為所述預(yù)測系數(shù)與所述重要度系數(shù)的乘積。
[0011]在一些實(shí)施例中,所述屬性信息包括以下至少一項(xiàng):所述用戶標(biāo)識接入網(wǎng)絡(luò)的地理位置信息、所述用戶標(biāo)識所關(guān)聯(lián)的終端訪問的頁面的網(wǎng)址、所述用戶標(biāo)識所關(guān)聯(lián)的終端接入互聯(lián)網(wǎng)的互聯(lián)網(wǎng)協(xié)議地址以及所述用戶標(biāo)識所關(guān)聯(lián)的終端的搜索特征。
[0012]在一些實(shí)施例中,所述屬性信息中的每一項(xiàng)的歷史記錄包括:所述用戶標(biāo)識接入網(wǎng)絡(luò)的地理位置信息的歷史記錄包括:所在地理位置和處于該地理位置的時(shí)間;所述用戶標(biāo)識所關(guān)聯(lián)的終端訪問的頁面的網(wǎng)址的歷史記錄包括:對每個網(wǎng)址的訪問次數(shù)和/或訪問時(shí)長;所述用戶標(biāo)識所關(guān)聯(lián)的終端接入互聯(lián)網(wǎng)的互聯(lián)網(wǎng)協(xié)議地址的歷史記錄包括:接入互聯(lián)網(wǎng)的每個協(xié)議地址的時(shí)間和/或時(shí)長;以及,所述用戶標(biāo)識所關(guān)聯(lián)的終端的搜索特征的歷史記錄包括:使用的搜索詞及使用每個搜索詞進(jìn)行搜索的次數(shù)。
[0013]第二方面,本申請?zhí)峁┝艘环N查找相關(guān)聯(lián)的用戶標(biāo)識的裝置,所述裝置包括:獲取模塊,配置用于獲取至少兩個用戶標(biāo)識對應(yīng)的屬性信息,其中,所述屬性信息中的每一項(xiàng)具有根據(jù)其歷史記錄生成的重要度系數(shù);匹配模塊,配置用于基于所述重要度系數(shù),對不同用戶標(biāo)識所對應(yīng)的屬性信息進(jìn)行相互匹配,查找出相似度最高的屬性信息,生成相似屬性信息組;查找模塊,配置用于判斷各相似屬性信息組中不同用戶標(biāo)識對應(yīng)的屬性信息的相似度是否大于預(yù)設(shè)相似度閾值,若是,查找出相似屬性信息組所對應(yīng)的用戶標(biāo)識作為相關(guān)聯(lián)的用戶標(biāo)識。
[0014]在一些實(shí)施例中,所述匹配模塊之前,還包括比較模塊,所述比較模塊配置用于:對于所述屬性信息中的每一項(xiàng),將其重要度系數(shù)與重要度閾值相比較;以及,如果所述重要度系數(shù)小于所述重要度閾值,則從所述屬性信息中刪除該項(xiàng)。
[0015]在一些實(shí)施例中,所述屬性信息中的每一項(xiàng)還具有通過預(yù)設(shè)的預(yù)測模型獲取的預(yù)測系數(shù),其中,所述預(yù)測系數(shù)包括該項(xiàng)屬性信息相同的不同用戶標(biāo)識屬于同一用戶的概率,所述預(yù)測模型通過多個用戶標(biāo)識的屬性信息組成的樣本集訓(xùn)練獲得。
[0016]在一些實(shí)施例中,所述匹配模塊包括:計(jì)算單元,配置用于基于所述預(yù)測系數(shù)與所述重要度系數(shù)獲得判斷系數(shù);匹配單元,配置用于基于所述判斷系數(shù),對不同用戶標(biāo)識所對應(yīng)的屬性信息進(jìn)行相互匹配,查找出與每個用戶標(biāo)識所對應(yīng)的屬性信息相似度最高的屬性信息,分別生成相似屬性信息組。
[0017]在一些實(shí)施例中,所述計(jì)算單元包括:比較子單元,配置用于對于所述屬性信息集合中的每一項(xiàng),將其預(yù)測系數(shù)與預(yù)測閾值相比較;以及,如果所述預(yù)測系數(shù)小于所述預(yù)測閾值,則從所述屬性信息集合中刪除該項(xiàng);所述計(jì)算單元配置用于對于所述屬性信息集合中剩余的每一項(xiàng),基于所述預(yù)測系數(shù)與所述重要度系數(shù)獲得判斷系數(shù)。
[0018]在一些實(shí)施例中,所述判斷系數(shù)為所述預(yù)測系數(shù)與所述重要度系數(shù)的乘積。
[0019]在一些實(shí)施例中,所述屬性信息包括以下至少一項(xiàng):所述用戶標(biāo)識接入網(wǎng)絡(luò)的地理位置信息、所述用戶標(biāo)識所關(guān)聯(lián)的終端訪問的頁面的網(wǎng)址、所述用戶標(biāo)識所關(guān)聯(lián)的終端接入互聯(lián)網(wǎng)的互聯(lián)網(wǎng)協(xié)議地址以及所述用戶標(biāo)識所關(guān)聯(lián)的終端的搜索特征。
[0020]在一些實(shí)施例中,所述屬性信息中的每一項(xiàng)的歷史記錄包括:所述用戶標(biāo)識接入網(wǎng)絡(luò)的地理位置信息的歷史記錄包括:所在地理位置和處于該地理位置的時(shí)間;所述用戶標(biāo)識所關(guān)聯(lián)的終端訪問的頁面的網(wǎng)址的歷史記錄包括:對每個網(wǎng)址的訪問次數(shù)和/或訪問時(shí)長;所述用戶標(biāo)識所關(guān)聯(lián)的終端接入互聯(lián)網(wǎng)的互聯(lián)網(wǎng)協(xié)議地址的歷史記錄包括:接入互聯(lián)網(wǎng)的每個協(xié)議地址的時(shí)間和/或時(shí)長;以及,所述用戶標(biāo)識所關(guān)聯(lián)的終端的搜索特征的歷史記錄包括:使用的搜索詞及使用每個搜索詞進(jìn)行搜索的次數(shù)。
[0021]本申請?zhí)峁┑牟檎蚁嚓P(guān)聯(lián)的用戶標(biāo)識的方法和裝置,通過獲取至少兩個用戶標(biāo)識對應(yīng)的屬性信息,其中,屬性信息中的每一項(xiàng)具有根據(jù)其歷史記錄生成的重要度系數(shù),接著基于重要度系數(shù),對不同用戶標(biāo)識所對應(yīng)的屬性信息進(jìn)行相互匹配,查找出與每個用戶標(biāo)識所對應(yīng)的屬性信息相似度最高的屬性信息,分別生成相似屬性信息組,接著判斷各相似屬性信息組中不同用戶標(biāo)識對應(yīng)的屬性信息的相似度是否大于預(yù)設(shè)相似度閾值,若是,查找出相似屬性信息組所對應(yīng)的用戶標(biāo)識作為相關(guān)聯(lián)的用戶標(biāo)識,由于引入了屬性信息中的每一項(xiàng)的重要度系數(shù),從而體現(xiàn)出不同用戶標(biāo)識對應(yīng)的不同屬性信息的重要性,提高了查找相關(guān)聯(lián)的用戶標(biāo)識的有效性。
【附圖說明】
[0022]通過閱讀參照以下附圖所作的對非限制性實(shí)施例的詳細(xì)描述,本申請的其它特征、目的和優(yōu)點(diǎn)將會變得更明顯:
[0023]圖1示出了可以應(yīng)用本申請實(shí)施例的示例性系統(tǒng)架構(gòu);
[0024]圖2是根據(jù)本申請的查找相關(guān)聯(lián)的用戶標(biāo)識的方法的一個實(shí)