一種基于大數(shù)據(jù)的用戶標(biāo)簽合并方法
【專利摘要】本發(fā)明涉及一種基于大數(shù)據(jù)的用戶標(biāo)簽合并方法,用以將同一個(gè)用戶的不同ID合并,包括以下步驟:1)獲取多個(gè)待確認(rèn)ID用戶的至少兩個(gè)ID類型以及ID類型對(duì)應(yīng)的ID類型值記錄,所述的ID類型包括瀏覽器cookie、設(shè)備ID、Email、手機(jī)號(hào)、微信號(hào)和APP用戶ID;2)根據(jù)待確認(rèn)ID用戶的ID類型值,將具有相同ID類型值對(duì)應(yīng)的記錄合并,并且判定為同一個(gè)用戶。與現(xiàn)有技術(shù)相比,本發(fā)明具有合并高效、準(zhǔn)確等優(yōu)點(diǎn)。
【專利說明】
一種基于大數(shù)據(jù)的用戶標(biāo)簽合并方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及用戶標(biāo)簽合并方法,尤其是涉及一種基于大數(shù)據(jù)的用戶標(biāo)簽合并方 法。
【背景技術(shù)】
[0002] 不同人群信息收集平臺(tái)中判別人的標(biāo)識(shí)都不一樣,例如,PC瀏覽器下通常用 cookie來區(qū)分,手機(jī)app上用設(shè)備ID等來區(qū)分。
[0003] 同一個(gè)人在不同平臺(tái)上聯(lián)網(wǎng)時(shí),系統(tǒng)獲知的ID有很多個(gè),但事實(shí)上這些ID代表同 一個(gè)人;如何能將多種ID統(tǒng)一為一個(gè)人的ID事情就是目前業(yè)界的一個(gè)問題。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的目的就是為了克服上述現(xiàn)有技術(shù)存在的缺陷而提供一種合并高效、準(zhǔn)確 的基于大數(shù)據(jù)的用戶標(biāo)簽合并方法。
[0005] 本發(fā)明的目的可以通過以下技術(shù)方案來實(shí)現(xiàn):
[0006] 一種基于大數(shù)據(jù)的用戶標(biāo)簽合并方法,用以將同一個(gè)用戶的不同ID合并,包括以 下步驟:
[0007] 1)獲取多個(gè)待確認(rèn)ID用戶的至少兩個(gè)ID類型以及ID類型對(duì)應(yīng)的ID類型值記錄,所 述的ID類型包括瀏覽器cookie、設(shè)備ID、Email、手機(jī)號(hào)、微信號(hào)和APP用戶ID;
[0008] 2)根據(jù)待確認(rèn)ID用戶的ID類型值,將具有相同ID類型值對(duì)應(yīng)的記錄合并,并且判 定為同一個(gè)用戶。
[0009] 所述的步驟2)中,具體包括以下步驟:
[0010]當(dāng)兩條記錄中同一 ID類型對(duì)應(yīng)的ID類型值相同時(shí),則將兩條記錄保留并統(tǒng)一具有 相同ID類型值及其對(duì)應(yīng)的ID類型,同時(shí)合并其余ID類型對(duì)應(yīng)的ID類型值。
[0011]所述的步驟2)中,當(dāng)一條記錄中含有多種ID類型,且其中至少有一種ID類型含有 至少一個(gè)對(duì)應(yīng)的ID類型值時(shí),按照可靠性的優(yōu)先級(jí)順序?qū)τ涗涍M(jìn)行合并,當(dāng)高可靠性優(yōu)先 級(jí)的ID類型與低可靠性優(yōu)先級(jí)的ID類型均有對(duì)應(yīng)的ID類型值時(shí),按照高可靠性優(yōu)先級(jí)的ID 類型進(jìn)行合并,并舍棄低可靠性優(yōu)先級(jí)的ID類型的ID類型值。
[0012]所述的可靠性的優(yōu)先級(jí)順序?yàn)椋?br>[0013]個(gè)人專用的ID類型的可靠性高于公用的ID類型,其中,個(gè)人專用的ID類型包括 Email、手機(jī)號(hào)和微信號(hào),公用的ID類型包括瀏覽器cookie、設(shè)備ID和APP用戶ID。
[0014]當(dāng)舍棄低可靠性優(yōu)先級(jí)的ID類型的ID類型值后,該條記錄僅有一個(gè)ID類型且對(duì)應(yīng) 多個(gè)ID類型值時(shí),則將該條記錄拆分為多條子記錄,重新進(jìn)行合并。
[0015]與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點(diǎn):
[0016] 一、合并高效:本發(fā)明能夠從用戶ID的大數(shù)據(jù)記錄中提取相應(yīng)的ID類型值,并且進(jìn) 行合并,使得不同用戶的記錄能夠高效的合并,為根據(jù)用戶特征處理數(shù)據(jù)的系統(tǒng)(例如廣告 投放系統(tǒng))提供更為準(zhǔn)確的信息。
[0017]二、合并準(zhǔn)確:本發(fā)明通過建立可靠性的優(yōu)先級(jí)順序進(jìn)行記錄的合并,考慮到當(dāng)一 條記錄中含有多種ID類型,且其中至少有一種ID類型含有至少一個(gè)對(duì)應(yīng)的ID類型值時(shí)的復(fù) 雜情況,并且還考慮到了剔除低可靠性的ID類型值后僅有一個(gè)ID類型有多個(gè)ID值的情況, 考慮全面,合并準(zhǔn)確。
【附圖說明】
[0018]圖1為本發(fā)明的方法流程圖。
【具體實(shí)施方式】
[0019] 下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)說明。
[0020] 實(shí)施例:
[0021] 本發(fā)明的基本思路如圖1所示:
[0022]表1搜集到的初始數(shù)據(jù)表
[0025]如表1所示,當(dāng)收集到的每個(gè)人的ID只有1個(gè)時(shí),沒有辦法確認(rèn)多個(gè)記錄其實(shí)是一 個(gè)人;
[0026]如果收集的信息中至少有兩種ID時(shí),就可以根據(jù)相同ID合并的方法來判斷多個(gè)記 錄是否為同一個(gè)人。
[0027]具體方法為:
[0028]當(dāng)兩條記錄在同一種ID下的值是相同的情況下,可判定為同一人,合并兩條記錄, 并將其他類型的ID合并;合并時(shí),同一種ID的不同值放在一起。
[0029] 舉例說明:假設(shè)收集到的數(shù)據(jù)如表2所示:
[0030] 表2收集到的數(shù)據(jù)表
[0032] 對(duì)于記錄A、B,因?yàn)閑mail相同,于是可以判定其為同一個(gè)人,同理,因?yàn)橛涗汣和D, 因?yàn)槭謾C(jī)號(hào)相同,也可以判定為同一個(gè)人;
[0033]最終數(shù)據(jù)合并為表3:
[0034]表3合并后的最終數(shù)據(jù)表
[0036]注意,合并后的記錄C中,設(shè)備ID會(huì)有兩個(gè)值,也就是表示這個(gè)人會(huì)使用兩個(gè)設(shè)備; [0037] ID類型可靠性問題:
[0038]上述步驟初步合并后的數(shù)據(jù),會(huì)存在這種現(xiàn)在,一條記錄中,包含多種類型的ID, 并且至少有一種ID包含多個(gè)值;
[0039] 例如表4所示:
[0040] 表4包含多種類型的ID,并且至少有一種ID包含多個(gè)值時(shí)的情況表
[0043]上述數(shù)據(jù)中記錄bl和b2其實(shí)有問題,通常來說,cookie信息區(qū)分一個(gè)人的可靠性 不高,手機(jī)不同一般認(rèn)為是不同的人,所以記錄bl、b2、d中的cookie數(shù)據(jù)已經(jīng)沒有意義,應(yīng) 該去除;
[0044] 去除cookie之后,bl,b2記錄只包含手機(jī)號(hào)一種ID,所以還需要還原為獨(dú)立的記 錄;
[0045] 但是,設(shè)備ID也屬于可靠性不高的ID,因此,記錄c還是有效的;
[0046]另外,email、手機(jī)號(hào)同屬于高可靠的ID,所以記錄d中email、手機(jī)號(hào)的信息仍然有 效;
[0047]最后的結(jié)果將變成:
[0049] 總結(jié)一下判定有效性的方法:
[0050] 1.先對(duì)系統(tǒng)中可采集的各類型ID標(biāo)記"高可靠性"或"低可靠性";
[0051] a)-般手機(jī)號(hào)、email、微信號(hào)...等個(gè)人專用的賬號(hào)都屬于"高可靠性" ID;
[0052] b)C〇〇kie,設(shè)備號(hào)...等可能為多人使用的ID屬于"低可靠性" ID;
[0053] c)每種類型的ID,在接入系統(tǒng)的時(shí)候,就需要根據(jù)采集渠道的具體情況來確認(rèn)其 可靠性高低,上文所述僅為示例,本方法不作強(qiáng)制限定;
[0054] 2.當(dāng)一條記錄中,高可靠性ID為多值,同時(shí)低可靠性ID也有數(shù)據(jù)的情況下,此條記 錄中的低可靠性ID值沒有意義,需要去除該記錄中的第可靠性ID的值。
[0055] 3.去除了ID值的記錄如果僅包含一種ID,且為多值的時(shí)候,需要重新將這條記錄 拆分為多條;
[0056] 反復(fù)運(yùn)用上述兩個(gè)方法即可正確合并所有記錄;
[0057] 上述方法是一種思路,在具體實(shí)現(xiàn)的過程中可以進(jìn)行各種優(yōu)化來提高合并的效 率,這里就不贅述。
[0058] 模糊ID的問題
[0059]有些平臺(tái)上采集的ID可能不是一個(gè)精確值,而是一個(gè)模糊值,比如拍攝的頭像。 [0060]對(duì)于此類ID需要使用與數(shù)據(jù)類型相應(yīng)的模糊匹配算法來認(rèn)定是否算作一個(gè)ID(比 如,圖像類的ID就要用圖像識(shí)別中的相似度算法來匹配,當(dāng)判斷完兩個(gè)圖像相似度〉某個(gè)閾 值時(shí),就可以認(rèn)為兩個(gè)ID相同),然后運(yùn)用上述算法合并數(shù)據(jù),示例:表2中的兩個(gè)記錄E、F, 假設(shè)"其它ID"這一列屬于需要模糊匹配的情況,其ID值"1"和"1"'以模糊匹配規(guī)則可以算 作相等的情況下,也就可以合并記錄。
[0061]合并完數(shù)據(jù)之后,一條記錄上將包含一個(gè)人的多種ID,當(dāng)任意一個(gè)ID被捕捉到時(shí), 都可以查詢到這條記錄。為根據(jù)人群特征處理數(shù)據(jù)的系統(tǒng)(例如廣告投放系統(tǒng))提供更為準(zhǔn) 確的信息。
【主權(quán)項(xiàng)】
1. 一種基于大數(shù)據(jù)的用戶標(biāo)簽合并方法,用以將同一個(gè)用戶的不同ID合并,其特征在 于,包括以下步驟: 1) 獲取多個(gè)待確認(rèn)ID用戶的至少兩個(gè)ID類型以及ID類型對(duì)應(yīng)的ID類型值記錄,所述的 ID類型包括瀏覽器cookie、設(shè)備ID、Email、手機(jī)號(hào)、微信號(hào)和APP用戶ID; 2) 根據(jù)待確認(rèn)ID用戶的ID類型值,將具有相同ID類型值對(duì)應(yīng)的記錄合并,并且判定為 同一個(gè)用戶。2. 根據(jù)權(quán)利要求1所述的一種基于大數(shù)據(jù)的用戶標(biāo)簽合并方法,其特征在于,所述的步 驟2)中,具體包括以下步驟: 當(dāng)兩條記錄中同一 ID類型對(duì)應(yīng)的ID類型值相同時(shí),則將兩條記錄保留并統(tǒng)一具有相同 ID類型值及其對(duì)應(yīng)的ID類型,同時(shí)合并其余ID類型對(duì)應(yīng)的ID類型值。3. 根據(jù)權(quán)利要求2所述的一種基于大數(shù)據(jù)的用戶標(biāo)簽合并方法,其特征在于,所述的步 驟2)中,當(dāng)一條記錄中含有多種ID類型,且其中至少有一種ID類型含有至少一個(gè)對(duì)應(yīng)的ID 類型值時(shí),按照可靠性的優(yōu)先級(jí)順序?qū)τ涗涍M(jìn)行合并,當(dāng)高可靠性優(yōu)先級(jí)的ID類型與低可 靠性優(yōu)先級(jí)的ID類型均有對(duì)應(yīng)的ID類型值時(shí),按照高可靠性優(yōu)先級(jí)的ID類型進(jìn)行合并,并 舍棄低可靠性優(yōu)先級(jí)的ID類型的ID類型值。4. 根據(jù)權(quán)利要求3所述的一種基于大數(shù)據(jù)的用戶標(biāo)簽合并方法,其特征在于,所述的可 靠性的優(yōu)先級(jí)順序?yàn)椋?個(gè)人專用的ID類型的可靠性高于公用的ID類型,其中,個(gè)人專用的ID類型包括Email、 手機(jī)號(hào)和微信號(hào),公用的ID類型包括瀏覽器cookie、設(shè)備ID和APP用戶ID。5. 根據(jù)權(quán)利要求3所述的一種基于大數(shù)據(jù)的用戶標(biāo)簽合并方法,其特征在于,當(dāng)舍棄低 可靠性優(yōu)先級(jí)的ID類型的ID類型值后,該條記錄僅有一個(gè)ID類型且對(duì)應(yīng)多個(gè)ID類型值時(shí), 則將該條記錄拆分為多條子記錄,重新進(jìn)行合并。
【文檔編號(hào)】G06F17/30GK105912663SQ201610223304
【公開日】2016年8月31日
【申請(qǐng)日】2016年4月12日
【發(fā)明人】商志營
【申請(qǐng)人】寧波極動(dòng)精準(zhǔn)廣告?zhèn)髅接邢薰?br>