本發(fā)明涉及大數(shù)據(jù)處理,特別涉及一種用于對抗位置誤差的跨即時(shí)通信平臺精準(zhǔn)用戶鏈接方法及系統(tǒng)。
背景技術(shù):
1、即時(shí)通信作為當(dāng)今流行的一類基于位置的社交網(wǎng)絡(luò)(location?based?socialnetwork,lbsn),提供基于位置的社交發(fā)現(xiàn)服務(wù)(location?based?social?discovery,lbsd),如微信和陌陌中“附近的人”功能,使用戶獲得當(dāng)前位置附近其他用戶的身份和位置信息,產(chǎn)生了海量移動(dòng)位置數(shù)據(jù)??缂磿r(shí)通信平臺用戶鏈接是指將不同即時(shí)通信平臺上屬于同一個(gè)用戶的賬戶關(guān)聯(lián)起來。由于不同即時(shí)通信平臺上的注冊賬戶是相互獨(dú)立的,因此把一個(gè)人在不同平臺的用戶信息和行為進(jìn)行關(guān)聯(lián),有助于識別用戶多重社交身份,并通過數(shù)據(jù)融合更加精準(zhǔn)刻畫用戶畫像。通過用戶移動(dòng)軌跡鏈接跨平臺即時(shí)通信用戶,在實(shí)時(shí)軌跡補(bǔ)充、協(xié)同數(shù)字跟蹤以及軌跡預(yù)測等方面具有重要的應(yīng)用價(jià)值。
2、現(xiàn)有的跨平臺用戶鏈接方法主要分為基于用戶屬性、網(wǎng)絡(luò)關(guān)系和位置三類?;谟脩魧傩缘姆椒ㄊ峭ㄟ^衡量用戶名字、生日、愛好等屬性信息的相似性來鏈接用戶。如基于手機(jī)號實(shí)現(xiàn)跨平臺用戶關(guān)聯(lián)。由于用戶登記的屬性數(shù)據(jù)準(zhǔn)確性無法保證,且隨著隱私保護(hù)升級,大部分社交網(wǎng)絡(luò)限制了對用戶屬性資料的訪問,致使基于用戶屬性的方法受限。基于網(wǎng)絡(luò)關(guān)系的方法主要是從社交網(wǎng)絡(luò)的好友關(guān)系和網(wǎng)絡(luò)結(jié)構(gòu)入手關(guān)聯(lián)用戶。如通過端到端方式學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)的潛在語義,并通過預(yù)測網(wǎng)絡(luò)中節(jié)點(diǎn)的鄰近結(jié)構(gòu)對錨節(jié)點(diǎn)的結(jié)構(gòu)信息進(jìn)行編碼以對齊網(wǎng)絡(luò),或通過網(wǎng)絡(luò)的社會(huì)結(jié)構(gòu)對齊跨平臺用戶。這類方法往往需要從大量先驗(yàn)數(shù)據(jù)中學(xué)到潛在知識,且數(shù)據(jù)獲取困難、噪聲較大?;谖恢玫姆椒ㄒ话闶抢糜脩粑恢靡蛩氐南嗨菩枣溄涌缙脚_用戶,如基于最短距離的k-bct方法度量軌跡相似性、基于刺激信號的用戶相似性度量方法。為了準(zhǔn)確描述稀疏數(shù)據(jù)下用戶的移動(dòng)特征,可將空間劃分為網(wǎng)格,基于熵的核密度估計(jì)方法來評估用戶的相似度。但這些方法往往關(guān)注最短距離或共現(xiàn)等位置,忽視了其他位置的作用,采用網(wǎng)格距離的方法也忽略了用戶位置的實(shí)際分布情況。
3、綜上,現(xiàn)有研究方法在一定條件下能夠較好解決跨平臺用戶鏈接問題,但在處理數(shù)據(jù)信息不準(zhǔn)確的場合仍存在不足?,F(xiàn)有基于位置的方法主要依賴位置之間的比對和統(tǒng)計(jì)結(jié)果,而與由準(zhǔn)確位置構(gòu)成的軌跡不同,即時(shí)通信用戶軌跡中的位置數(shù)據(jù)通常是存在隨機(jī)誤差的,而且位置點(diǎn)數(shù)目的多少不能完全反映用戶真實(shí)的運(yùn)動(dòng)狀態(tài),致使位置數(shù)據(jù)的比對和統(tǒng)計(jì)結(jié)果不能準(zhǔn)確反映真實(shí)位置之間的關(guān)系,導(dǎo)致上述方法在解決跨即時(shí)通信平臺用戶鏈接時(shí),特別是在處理活動(dòng)空間重疊度高的場合容易發(fā)生誤判,從而降低了用戶鏈接準(zhǔn)確性,進(jìn)而在解決跨即時(shí)通信平臺用戶鏈接時(shí)存在準(zhǔn)確性不高等問題。
技術(shù)實(shí)現(xiàn)思路
1、為此,本發(fā)明提供一種用于對抗位置誤差的跨即時(shí)通信平臺精準(zhǔn)用戶鏈接方法及系統(tǒng),解決現(xiàn)有根據(jù)即時(shí)通信用戶軌跡的位置數(shù)據(jù)存在誤差、跨平臺用戶鏈接準(zhǔn)確率低等問題。
2、按照本發(fā)明所提供的設(shè)計(jì)方案,一方面,提供一種用于對抗位置誤差的跨即時(shí)通信平臺精準(zhǔn)用戶鏈接方法,包含:
3、獲取指定區(qū)域中的跨即時(shí)通信平臺用戶數(shù)據(jù),所述跨即時(shí)通信平臺用戶數(shù)據(jù)包括目標(biāo)平臺和待鏈接平臺兩者中的用戶集合及用戶軌跡集合;并對跨即時(shí)通信平臺用戶數(shù)據(jù)進(jìn)行網(wǎng)格變換處理,得到各用戶集合中用戶的網(wǎng)格軌跡及運(yùn)動(dòng)狀態(tài)軌跡;
4、在時(shí)間窗控制下獲取目標(biāo)平臺用戶軌跡與待鏈接平臺用戶軌跡之間運(yùn)動(dòng)狀態(tài)距離,以依據(jù)運(yùn)動(dòng)狀態(tài)距離得到目標(biāo)平臺用戶軌跡對應(yīng)的候選軌跡;
5、依據(jù)時(shí)間窗對用戶軌跡上的位置點(diǎn)進(jìn)行聚類,獲取目標(biāo)平臺用戶軌跡與候選軌跡之間的簇中心距離,所述時(shí)間窗采用步長可調(diào)的滾動(dòng)時(shí)間窗;
6、根據(jù)軌跡相似度權(quán)重模型對軌跡之間的簇中心距離進(jìn)行賦權(quán),以獲取目標(biāo)平臺用戶軌跡與其他候選軌跡之間的相似度,所述軌跡相似度權(quán)重模型利用網(wǎng)格貢獻(xiàn)度和運(yùn)動(dòng)序列相似度構(gòu)建,所述網(wǎng)格貢獻(xiàn)度用于表征網(wǎng)格軌跡中各網(wǎng)格擁有用戶軌跡特征信息量大小并利用網(wǎng)格軌跡熵獲取,所述運(yùn)動(dòng)序列相似度依據(jù)運(yùn)動(dòng)狀態(tài)軌跡序列并結(jié)合軌跡間的時(shí)空共現(xiàn)情況獲取;
7、依據(jù)目標(biāo)平臺用戶軌跡與其他候選軌跡之間的相似度,選取軌跡間相似度最大值的候選軌跡作為目標(biāo)平臺用戶軌跡的匹配軌跡,并將軌跡對應(yīng)的跨即時(shí)通信平臺用戶進(jìn)行鏈接。
8、作為本發(fā)明用于對抗位置誤差的跨即時(shí)通信平臺精準(zhǔn)用戶鏈接方法,進(jìn)一步地,對跨即時(shí)通信平臺用戶數(shù)據(jù)進(jìn)行網(wǎng)格變換處理,包含:
9、設(shè)置用于描述時(shí)空網(wǎng)格大小的時(shí)空粒度,所述時(shí)空粒度包括網(wǎng)格區(qū)域邊長及時(shí)間窗寬度;
10、對指定區(qū)域進(jìn)行網(wǎng)格劃分,并獲取用戶軌跡上各位置點(diǎn)對應(yīng)的網(wǎng)格編號;
11、依據(jù)時(shí)序?qū)⒕W(wǎng)格進(jìn)行排序,生成網(wǎng)格軌跡;
12、滑動(dòng)時(shí)間窗并遍歷網(wǎng)格軌跡,記錄用戶軌跡在各時(shí)間窗下的網(wǎng)格變化次數(shù),并聯(lián)合上一個(gè)時(shí)間窗內(nèi)運(yùn)動(dòng)狀態(tài),確定當(dāng)前時(shí)間窗內(nèi)軌跡運(yùn)動(dòng)狀態(tài),以生成運(yùn)動(dòng)狀態(tài)軌跡。
13、作為本發(fā)明用于對抗位置誤差的跨即時(shí)通信平臺精準(zhǔn)用戶鏈接方法,進(jìn)一步地,在時(shí)間窗控制下獲取目標(biāo)平臺用戶軌跡與待鏈接平臺用戶軌跡之間運(yùn)動(dòng)狀態(tài)距離,包含:
14、將目標(biāo)平臺中各目標(biāo)用戶軌跡與待鏈接平臺中用戶軌跡進(jìn)行比較,得到目標(biāo)平臺中各目標(biāo)用戶軌跡與待鏈接平臺中用戶軌跡之間的軌跡運(yùn)動(dòng)狀態(tài)距離;
15、依據(jù)軌跡運(yùn)動(dòng)狀態(tài)距離及軌跡中位置同現(xiàn)時(shí)間窗集合和數(shù)目獲取軌跡過濾得分,所述軌跡過濾得分用于描述位置點(diǎn)時(shí)空共現(xiàn)期間待比較匹配軌跡運(yùn)動(dòng)狀態(tài)差異均值;
16、依據(jù)軌跡過濾得分刪除待鏈接平臺中與目標(biāo)用戶軌跡不匹配的用戶軌跡,以得到目標(biāo)平臺各目標(biāo)用戶軌跡對應(yīng)的候選軌跡。
17、作為本發(fā)明用于對抗位置誤差的跨即時(shí)通信平臺精準(zhǔn)用戶鏈接方法,進(jìn)一步地,依據(jù)時(shí)間窗對用戶軌跡上的位置點(diǎn)進(jìn)行聚類,包含:
18、構(gòu)建步長動(dòng)態(tài)可調(diào)的感知時(shí)間窗,依據(jù)感知位置數(shù)據(jù)分布確定時(shí)間窗寬度,所述時(shí)間窗寬度包括時(shí)空網(wǎng)格時(shí)間粒度及滾動(dòng)步長;
19、根據(jù)目標(biāo)平臺用戶軌跡的軌跡片段之間時(shí)間間隔動(dòng)態(tài)調(diào)整時(shí)間窗的滾動(dòng)步長,并獲取對應(yīng)時(shí)間窗下目標(biāo)平臺用戶軌跡和待鏈接平臺用戶軌跡之間位置點(diǎn)的簇中心距離。
20、作為本發(fā)明用于對抗位置誤差的跨即時(shí)通信平臺精準(zhǔn)用戶鏈接方法,進(jìn)一步地,根據(jù)軌跡相似度權(quán)重模型對軌跡之間的簇中心距離進(jìn)行賦權(quán),以獲取目標(biāo)平臺用戶軌跡與其他候選軌跡之間的相似度,包含:
21、依據(jù)軌跡之間的簇中心距離獲取目標(biāo)平臺用戶軌跡和待鏈接平臺用戶軌跡的基本相似度;
22、依據(jù)網(wǎng)格軌跡中包含網(wǎng)格單元個(gè)數(shù)及用戶軌跡落入各網(wǎng)格內(nèi)的位置點(diǎn)數(shù)目獲取軌跡熵,依據(jù)軌跡熵得到網(wǎng)格軌跡中網(wǎng)格貢獻(xiàn)度;
23、依據(jù)運(yùn)動(dòng)狀態(tài)軌跡并結(jié)合目標(biāo)平臺和待鏈接平臺之間軌跡時(shí)空共現(xiàn)情況獲取目標(biāo)平臺用戶軌跡和待鏈接平臺用戶軌跡之間運(yùn)動(dòng)序列相似性;
24、基于基本相似度、網(wǎng)格貢獻(xiàn)度及運(yùn)動(dòng)序列相似性獲取目標(biāo)平臺用戶軌跡和待鏈接平臺用戶軌跡之間的相似度。
25、作為本發(fā)明用于對抗位置誤差的跨即時(shí)通信平臺精準(zhǔn)用戶鏈接方法,進(jìn)一步地,軌跡之間的相似度計(jì)算公式表示為:其中,ta、tb分別為目標(biāo)平臺用戶軌跡和待鏈接平臺用戶軌跡,μ為用于縮小距離值的調(diào)整參數(shù),ddist(ta,tb)表示軌跡間的距離值,wa∩wb為兩條軌跡中位置同現(xiàn)時(shí)間窗集合,fnum(·)為控制兩軌跡之間時(shí)空共現(xiàn)次數(shù)對相似度計(jì)算影響程度的函數(shù),msim(ta,tb)為軌跡間運(yùn)動(dòng)序列相似性計(jì)算函數(shù)。
26、作為本發(fā)明用于對抗位置誤差的跨即時(shí)通信平臺精準(zhǔn)用戶鏈接方法,進(jìn)一步地,選取軌跡間相似度最大值的候選軌跡作為目標(biāo)平臺用戶軌跡的匹配軌跡,包含:
27、對目標(biāo)平臺各用戶軌跡與候選軌跡的軌跡間相似度進(jìn)行排序,從候選軌跡中選取相似度排名靠前的若干條用戶軌跡作為與目標(biāo)平臺對應(yīng)用戶軌跡匹配的勝出軌跡。
28、再一方面,本發(fā)明還提供一種用于對抗位置誤差的跨即時(shí)通信平臺精準(zhǔn)用戶鏈接系統(tǒng),包含:跨平臺用戶數(shù)據(jù)獲取模塊、候選用戶軌跡獲取模塊、軌跡位置點(diǎn)聚類模塊、軌跡相似度計(jì)算模塊和跨平臺用戶鏈接模塊,其中,
29、跨平臺用戶數(shù)據(jù)獲取模塊,用于獲取指定區(qū)域中的跨即時(shí)通信平臺用戶數(shù)據(jù),所述跨即時(shí)通信平臺用戶數(shù)據(jù)包括目標(biāo)平臺和待鏈接平臺兩者中的用戶集合及用戶軌跡集合;并對跨即時(shí)通信平臺用戶數(shù)據(jù)進(jìn)行網(wǎng)格變換處理,得到各用戶集合中用戶的網(wǎng)格軌跡及運(yùn)動(dòng)狀態(tài)軌跡;
30、候選用戶軌跡獲取模塊,用于在時(shí)間窗控制下獲取目標(biāo)平臺用戶軌跡與待鏈接平臺用戶軌跡之間運(yùn)動(dòng)狀態(tài)距離,以依據(jù)運(yùn)動(dòng)狀態(tài)距離得到目標(biāo)平臺用戶軌跡對應(yīng)的候選軌跡;
31、軌跡位置點(diǎn)聚類模塊,用于依據(jù)時(shí)間窗對用戶軌跡上的位置點(diǎn)進(jìn)行聚類,獲取目標(biāo)平臺用戶軌跡與候選軌跡之間的簇中心距離,所述時(shí)間窗采用步長可調(diào)的滾動(dòng)時(shí)間窗;
32、軌跡相似度計(jì)算模塊,用于根據(jù)軌跡相似度權(quán)重模型對軌跡之間的簇中心距離進(jìn)行賦權(quán),以獲取目標(biāo)平臺用戶軌跡與其他候選軌跡之間的相似度,所述軌跡相似度權(quán)重模型利用網(wǎng)格貢獻(xiàn)度和運(yùn)動(dòng)序列相似度構(gòu)建,所述網(wǎng)格貢獻(xiàn)度用于表征網(wǎng)格軌跡中各網(wǎng)格擁有用戶軌跡特征信息量大小并利用網(wǎng)格軌跡熵獲取,所述運(yùn)動(dòng)序列相似度依據(jù)運(yùn)動(dòng)狀態(tài)軌跡序列并結(jié)合軌跡間的時(shí)空共現(xiàn)情況獲取;
33、跨平臺用戶鏈接模塊,用于依據(jù)目標(biāo)平臺用戶軌跡與其他候選軌跡之間的相似度,選取軌跡間相似度最大值的候選軌跡作為目標(biāo)平臺用戶軌跡的匹配軌跡,并將軌跡對應(yīng)的跨即時(shí)通信平臺用戶進(jìn)行鏈接。
34、本發(fā)明的有益效果:
35、1、本發(fā)明采用多粒度時(shí)空網(wǎng)格劃分目標(biāo)區(qū)域,通過構(gòu)建包含網(wǎng)格貢獻(xiàn)度和運(yùn)動(dòng)序列相似度的時(shí)空權(quán)重模型,分別對軌跡路過的網(wǎng)格單元和不同軌跡之間的時(shí)序移動(dòng)模式相似性賦權(quán)。在軌跡相似度計(jì)算中,通過權(quán)值區(qū)分不同特征向量的重要程度,從而在位置數(shù)據(jù)存在誤差下準(zhǔn)確提取用戶特征,使用戶鏈接具有更高的準(zhǔn)確性。
36、2、本發(fā)明通過提取軌跡的粗粒度運(yùn)動(dòng)狀態(tài),并據(jù)此對候選軌跡集進(jìn)行過濾。為全面評價(jià)過濾效果,對現(xiàn)有的命中率指標(biāo)進(jìn)行改進(jìn),提出過濾效率指標(biāo)。并進(jìn)一步通過實(shí)驗(yàn)表明,過濾方法有效減少了候選軌跡數(shù)量,提升了用戶鏈接算法的效率。
37、3、本發(fā)明考慮即時(shí)通信用戶軌跡上位置點(diǎn)出現(xiàn)的數(shù)目受用戶主觀控制、不能完全反映用戶真實(shí)的運(yùn)動(dòng)狀態(tài),通過使用時(shí)空共現(xiàn)窗口控制,對時(shí)間窗內(nèi)軌跡的簇中心距離依據(jù)權(quán)重模型加權(quán),使相似度計(jì)算與兩條軌跡間的時(shí)空共現(xiàn)窗口有關(guān),減少對位置點(diǎn)數(shù)目的依賴,有助于挖掘出稀疏數(shù)據(jù)下隱含的用戶位置和移動(dòng)特征。
38、4、本發(fā)明通過提取軌跡中位置和時(shí)序移動(dòng)特征,基于網(wǎng)格貢獻(xiàn)度和運(yùn)動(dòng)序列相似度計(jì)算軌跡間相似度,進(jìn)而完成跨即時(shí)通信平臺的用戶鏈接。并通過在公開數(shù)據(jù)集和自建數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果表明,本案方案準(zhǔn)確率具有明顯優(yōu)勢,與現(xiàn)有基于位置的典型方法k-bct、gs和tf-iwf相比,本案方案準(zhǔn)確率acc@1分別平均提升了32.86%、44.8%和14.4%,acc@3分別平均提升了30.52%、34.67%、13.19%,能夠應(yīng)用于跨即時(shí)通信平臺的用戶鏈接。