本發(fā)明涉及數(shù)據(jù)處理,尤其涉及一種社交媒體賬號中目標(biāo)對象重合度計(jì)算方法、裝置及電子設(shè)備。
背景技術(shù):
1、社交媒體中的“重疊關(guān)注用戶”指的是同時關(guān)注或喜歡兩個或多個社交媒體賬戶的用戶群體。這種現(xiàn)象在社交媒體平臺上非常常見,尤其是在那些有相似興趣、主題或受眾的品牌、個人或組織之間。這些“重疊關(guān)注用戶”成為數(shù)據(jù)處理過程中需要進(jìn)行數(shù)據(jù)處理的目標(biāo)對象。
2、現(xiàn)有技術(shù)社交媒體賬號中目標(biāo)對象重合度計(jì)算實(shí)現(xiàn)過程中,存在如下問題:
3、1.計(jì)算復(fù)雜度高:在處理大規(guī)模目標(biāo)對象數(shù)據(jù)時,現(xiàn)有方法往往計(jì)算效率低下,無法實(shí)時得出目標(biāo)對象重合度。
4、2.跨平臺目標(biāo)對象匹配難度大:不同社交媒體平臺上的用戶標(biāo)識方式不同,現(xiàn)有方法難以有效匹配跨平臺的目標(biāo)對象數(shù)據(jù)。
5、3.重合度定義單一:傳統(tǒng)方法通常通過簡單的交集/并集計(jì)算目標(biāo)對象重合度,未能考慮目標(biāo)對象互動行為、影響力等多維度因素,導(dǎo)致結(jié)果不夠準(zhǔn)確。
6、4.動態(tài)更新能力不足:在目標(biāo)對象數(shù)據(jù)實(shí)時變化的環(huán)境下,現(xiàn)有算法難以有效更新重合度分析結(jié)果,缺乏動態(tài)調(diào)整能力。
7、上述問題成為需要解決的技術(shù)問題。
技術(shù)實(shí)現(xiàn)思路
1、有鑒于此,本發(fā)明實(shí)施例提供了一種社交媒體賬號中目標(biāo)對象重合度計(jì)算方法、裝置及電子設(shè)備,至少部分解決現(xiàn)有技術(shù)中存在的問題。
2、第一方面,本發(fā)明實(shí)施例提供了一種社交媒體賬號中目標(biāo)對象重合度計(jì)算方法,包括:
3、從n個社交媒體平臺采集第一賬號a包含的目標(biāo)對象的第一數(shù)據(jù)集合da={ua,ida,ta,fa}以及第二賬號b包含的目標(biāo)對象的第二數(shù)據(jù)集合db={ub,idb,tb,fb},ua表示第一賬號a中包含的目標(biāo)對象的用戶名,ida表示第一賬號a中包含的目標(biāo)對象的用戶id,ta表示第一賬號a中包含的目標(biāo)對象的關(guān)注時間,fa表示第一賬號a中包含的目標(biāo)對象互動頻率,ub表示第二賬號b中包含的目標(biāo)對象的用戶名,idb表示第二賬號b中包含的目標(biāo)對象的用戶id,tb表示第二賬號b中包含的目標(biāo)對象的關(guān)注時間,fb表示第二賬號b中包含的目標(biāo)對象互動頻率;
4、基于用戶標(biāo)識符關(guān)聯(lián)函數(shù)fu和行為特征匹配函數(shù)ft,分別對所述第一數(shù)據(jù)集合da和所述第二數(shù)據(jù)集合db執(zhí)行跨平臺目標(biāo)對象匹配操作,得到第三數(shù)據(jù)集合da’和第四數(shù)據(jù)集合db’;
5、計(jì)算第三數(shù)據(jù)集合da’和第四數(shù)據(jù)集合db’之間的互動頻率加權(quán)值j1、多影響力加權(quán)值j2以及目標(biāo)特征畫像重合度值j3,基于互動頻率加權(quán)值j1、多影響力加權(quán)值j2以及目標(biāo)特征畫像重合度值j3,確定第一賬號a和第一賬號b所包含的目標(biāo)對象的重合度值jab;
6、在預(yù)設(shè)時間段δt內(nèi),當(dāng)?shù)谝毁~號a或第二賬號b中目標(biāo)對象的數(shù)目變化值超過預(yù)設(shè)值η時,計(jì)算發(fā)生變化的目標(biāo)對象所對應(yīng)的增量重合度值δj;
7、基于所述重合度值jab和增量重合度值δj,生成可視化圖表v、特征分析報(bào)表r以及動態(tài)趨勢追蹤數(shù)據(jù)tr。
8、根據(jù)本發(fā)明實(shí)施例的一種具體實(shí)現(xiàn)方式,所述從n個社交媒體平臺采集第一賬號a包含的目標(biāo)對象的第一數(shù)據(jù)集合da={ua,ida,ta,fa}以及第二賬號b包含的目標(biāo)對象的第二數(shù)據(jù)集合db={ub,idb,tb,fb},包括:
9、通過社交媒體平臺的api接口,采集目標(biāo)賬號的目標(biāo)對象數(shù)據(jù),目標(biāo)對象數(shù)據(jù)包括目標(biāo)對象的用戶名、用戶id、關(guān)注時間、互動頻率。
10、根據(jù)本發(fā)明實(shí)施例的一種具體實(shí)現(xiàn)方式,所述從n個社交媒體平臺采集第一賬號a包含的目標(biāo)對象的第一數(shù)據(jù)集合da={ua,ida,ta,fa}以及第二賬號b包含的目標(biāo)對象的第二數(shù)據(jù)集合db={ub,idb,tb,fb}之后,所述方法還包括:
11、對采集到的目標(biāo)對象數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,統(tǒng)一不同平臺的目標(biāo)對象標(biāo)識符格式;
12、移除目標(biāo)對象數(shù)據(jù)中包含的重復(fù)數(shù)據(jù)、無效數(shù)據(jù)和噪聲數(shù)據(jù)。
13、根據(jù)本發(fā)明實(shí)施例的一種具體實(shí)現(xiàn)方式,所述基于用戶標(biāo)識符關(guān)聯(lián)函數(shù)fu和行為特征匹配函數(shù)ft,分別對所述第一數(shù)據(jù)集合da和所述第二數(shù)據(jù)集合db執(zhí)行跨平臺目標(biāo)對象匹配操作,得到第三數(shù)據(jù)集合da’和第四數(shù)據(jù)集合db’,包括:
14、基于用戶標(biāo)識符關(guān)聯(lián)函數(shù)fu,計(jì)算用戶標(biāo)識符匹配結(jié)果集合m1:
15、
16、為用戶標(biāo)識符關(guān)聯(lián)函數(shù),用于判斷用戶名和是否匹配;
17、基于行為特征匹配函數(shù)ft,計(jì)算目標(biāo)對象i和目標(biāo)對象j的互動頻率相似度:
18、
19、設(shè)置相似度閾值θ,計(jì)算所有相似度高于閾值的目標(biāo)對象對,得到行為特征匹配結(jié)果集合m2:
20、
21、通過合并匹配結(jié)果,得到包含所有通過用戶標(biāo)識符匹配和行為特征匹配的目標(biāo)對象對的最終匹配結(jié)果集合m:
22、
23、基于最終匹配結(jié)果集合m,生成第三數(shù)據(jù)集合da'和第四數(shù)據(jù)集合db':
24、
25、。
26、根據(jù)本發(fā)明實(shí)施例的一種具體實(shí)現(xiàn)方式,所述計(jì)算第三數(shù)據(jù)集合da’和第四數(shù)據(jù)集合db’之間的互動頻率加權(quán)值j1、多影響力加權(quán)值j2以及目標(biāo)特征畫像重合度值j3,基于互動頻率加權(quán)值j1、多影響力加權(quán)值j2以及目標(biāo)特征畫像重合度值j3,確定第一賬號a和第一賬號b所包含的目標(biāo)對象的重合度值jab,包括:
27、通過計(jì)算匹配的目標(biāo)對象在兩個賬號上的互動頻率之和,并除以兩個賬號目標(biāo)對象總數(shù)的并集,得到j(luò)1:
28、
29、通過計(jì)算匹配的目標(biāo)對象在兩個賬號上的互動頻率與其影響力得分的乘積之和,并除以兩個賬號目標(biāo)對象總數(shù)的并集,得到多影響力加權(quán)值j2:
30、
31、通過計(jì)算匹配的目標(biāo)對象在兩個賬號上的互動頻率、影響力得分以及畫像特征相似度的乘積之和,并除以兩個賬號目標(biāo)對象總數(shù)的并集,得到目標(biāo)特征畫像重合度值j3:
32、
33、wai表示第一賬號a中第i個目標(biāo)對象的影響力得分,fai表示第一賬號a中第i個目標(biāo)對象的互動頻率,sv,i表示第一賬號a中第i個目標(biāo)對象的畫像特征相似度,wbj表示第二賬號b中第j個目標(biāo)對象的影響力得分,fbj表示第二賬號b中第j個目標(biāo)對象的互動頻率,sv,j表示第二賬號b中第j個目標(biāo)對象的畫像特征相似度,表示兩個賬號目標(biāo)對象總數(shù)的并集。
34、根據(jù)本發(fā)明實(shí)施例的一種具體實(shí)現(xiàn)方式,所述計(jì)算第三數(shù)據(jù)集合da’和第四數(shù)據(jù)集合db’之間的互動頻率加權(quán)值j1、多影響力加權(quán)值j2以及目標(biāo)特征畫像重合度值j3,基于互動頻率加權(quán)值j1、多影響力加權(quán)值j2以及目標(biāo)特征畫像重合度值j3,確定第一賬號a和第一賬號b所包含的目標(biāo)對象的重合度值jab,還包括:
35、設(shè)置綜合重合度值jab的計(jì)算公式:
36、
37、其中,α、β、γ為權(quán)重系數(shù),k是調(diào)整因子。
38、根據(jù)本發(fā)明實(shí)施例的一種具體實(shí)現(xiàn)方式,所述當(dāng)?shù)谝毁~號a或第二賬號b中目標(biāo)對象的數(shù)目變化值超過預(yù)設(shè)值η時,計(jì)算發(fā)生變化的目標(biāo)對象所對應(yīng)的增量重合度值δj,包括:
39、監(jiān)測第一賬號a和第二賬號b的目標(biāo)對象數(shù)目,如果任一賬號的目標(biāo)對象數(shù)目變化值超過了預(yù)設(shè)值η,則獲取變化前的第一數(shù)據(jù)集合da和第二數(shù)據(jù)集合db,以及獲取變化后的第一數(shù)據(jù)集合da'和第二數(shù)據(jù)集合db';
40、計(jì)算變化前的第一賬號a和第二賬號b的綜合重合度值jab,計(jì)算變化后的第一賬號a和第二賬號b的綜合重合度值jab';
41、計(jì)算變化前后重合度值的差值δj=jab'-jab。
42、根據(jù)本發(fā)明實(shí)施例的一種具體實(shí)現(xiàn)方式,所述基于所述重合度值jab和增量重合度值δj,生成可視化圖表v、特征分析報(bào)表r以及動態(tài)趨勢追蹤數(shù)據(jù)tr,包括:
43、利用圖表工具生成目標(biāo)對象重合度的可視化圖表v;
44、基于目標(biāo)對象畫像特征,生成目標(biāo)對象重合度特征分析表r;
45、通過動態(tài)更新模塊,實(shí)時追蹤目標(biāo)對象重合度的變化趨勢,形成動態(tài)趨勢追蹤數(shù)據(jù)tr。
46、第二方面,本發(fā)明實(shí)施例提供了一種社交媒體賬號中目標(biāo)對象重合度計(jì)算裝置,包括:
47、采集模塊,從n個社交媒體平臺采集第一賬號a包含的目標(biāo)對象的第一數(shù)據(jù)集合da={ua,ida,ta,fa}以及第二賬號b包含的目標(biāo)對象的第二數(shù)據(jù)集合db={ub,idb,tb,fb},ua表示第一賬號a中包含的目標(biāo)對象的用戶名,ida表示第一賬號a中包含的目標(biāo)對象的用戶id,ta表示第一賬號a中包含的目標(biāo)對象的關(guān)注時間,fa表示第一賬號a中包含的目標(biāo)對象互動頻率,ub表示第二賬號b中包含的目標(biāo)對象的用戶名,idb表示第二賬號b中包含的目標(biāo)對象的用戶id,tb表示第二賬號b中包含的目標(biāo)對象的關(guān)注時間,fb表示第二賬號b中包含的目標(biāo)對象互動頻率;
48、匹配模塊,基于用戶標(biāo)識符關(guān)聯(lián)函數(shù)fu和行為特征匹配函數(shù)ft,分別對所述第一數(shù)據(jù)集合da和所述第二數(shù)據(jù)集合db執(zhí)行跨平臺目標(biāo)對象匹配操作,得到第三數(shù)據(jù)集合da’和第四數(shù)據(jù)集合db’;
49、確定模塊,計(jì)算第三數(shù)據(jù)集合da’和第四數(shù)據(jù)集合db’之間的互動頻率加權(quán)值j1、多影響力加權(quán)值j2以及目標(biāo)特征畫像重合度值j3,基于互動頻率加權(quán)值j1、多影響力加權(quán)值j2以及目標(biāo)特征畫像重合度值j3,確定第一賬號a和第一賬號b所包含的目標(biāo)對象的重合度值jab;
50、計(jì)算模塊,在預(yù)設(shè)時間段δt內(nèi),當(dāng)?shù)谝毁~號a或第二賬號b中目標(biāo)對象的數(shù)目變化值超過預(yù)設(shè)值η時,計(jì)算發(fā)生變化的目標(biāo)對象所對應(yīng)的增量重合度值δj;
51、生成模塊,基于所述重合度值jab和增量重合度值δj,生成可視化圖表v、特征分析報(bào)表r以及動態(tài)趨勢追蹤數(shù)據(jù)tr。
52、第三方面,本發(fā)明實(shí)施例還提供了一種電子設(shè)備,該電子設(shè)備包括:
53、至少一個處理器;以及,
54、與該至少一個處理器通信連接的存儲器;其中,
55、該存儲器存儲有可被該至少一個處理器執(zhí)行的指令,該指令被該至少一個處理器執(zhí)行,以使該至少一個處理器能夠執(zhí)行前述任第一方面或第一方面的任一實(shí)現(xiàn)方式中的社交媒體賬號中目標(biāo)對象重合度計(jì)算方法。
56、第四方面,本發(fā)明實(shí)施例還提供了一種非暫態(tài)計(jì)算機(jī)可讀存儲介質(zhì),該非暫態(tài)計(jì)算機(jī)可讀存儲介質(zhì)存儲計(jì)算機(jī)指令,該計(jì)算機(jī)指令用于使該計(jì)算機(jī)執(zhí)行前述第一方面或第一方面的任一實(shí)現(xiàn)方式中的社交媒體賬號中目標(biāo)對象重合度計(jì)算方法。
57、第五方面,本發(fā)明實(shí)施例還提供了一種計(jì)算機(jī)程序產(chǎn)品,該計(jì)算機(jī)程序產(chǎn)品包括存儲在非暫態(tài)計(jì)算機(jī)可讀存儲介質(zhì)上的計(jì)算程序,該計(jì)算機(jī)程序包括程序指令,當(dāng)該程序指令被計(jì)算機(jī)執(zhí)行時,使該計(jì)算機(jī)執(zhí)行前述第一方面或第一方面的任一實(shí)現(xiàn)方式中的社交媒體賬號中目標(biāo)對象重合度計(jì)算方法。
58、本發(fā)明實(shí)施例中的社交媒體賬號中目標(biāo)對象重合度計(jì)算方案,包括:從n個社交媒體平臺采集第一賬號a包含的目標(biāo)對象的第一數(shù)據(jù)集合da={ua,ida,ta,fa}以及第二賬號b包含的目標(biāo)對象的第二數(shù)據(jù)集合db={ub,idb,tb,fb},ua表示第一賬號a中包含的目標(biāo)對象的用戶名,ida表示第一賬號a中包含的目標(biāo)對象的用戶id,ta表示第一賬號a中包含的目標(biāo)對象的關(guān)注時間,fa表示第一賬號a中包含的目標(biāo)對象互動頻率,ub表示第二賬號b中包含的目標(biāo)對象的用戶名,idb表示第二賬號b中包含的目標(biāo)對象的用戶id,tb表示第二賬號b中包含的目標(biāo)對象的關(guān)注時間,fb表示第二賬號b中包含的目標(biāo)對象互動頻率;基于用戶標(biāo)識符關(guān)聯(lián)函數(shù)fu和行為特征匹配函數(shù)ft,分別對所述第一數(shù)據(jù)集合da和所述第二數(shù)據(jù)集合db執(zhí)行跨平臺目標(biāo)對象匹配操作,得到第三數(shù)據(jù)集合da’和第四數(shù)據(jù)集合db’;計(jì)算第三數(shù)據(jù)集合da’和第四數(shù)據(jù)集合db’之間的互動頻率加權(quán)值j1、多影響力加權(quán)值j2以及目標(biāo)特征畫像重合度值j3,基于互動頻率加權(quán)值j1、多影響力加權(quán)值j2以及目標(biāo)特征畫像重合度值j3,確定第一賬號a和第一賬號b所包含的目標(biāo)對象的重合度值jab;在預(yù)設(shè)時間段δt內(nèi),當(dāng)?shù)谝毁~號a或第二賬號b中目標(biāo)對象的數(shù)目變化值超過預(yù)設(shè)值η時,計(jì)算發(fā)生變化的目標(biāo)對象所對應(yīng)的增量重合度值δj;基于所述重合度值jab和增量重合度值δj,生成可視化圖表v、特征分析報(bào)表r以及動態(tài)趨勢追蹤數(shù)據(jù)tr。本發(fā)明具有如下有益效果:
59、a多維度綜合分析:
60、通過引入互動頻率、影響力和目標(biāo)對象畫像特征,系統(tǒng)實(shí)現(xiàn)了對目標(biāo)對象重合度的多維度綜合分析,提供了更為精準(zhǔn)和全面的目標(biāo)對象重合度評估。
61、b跨平臺目標(biāo)對象匹配:
62、通過用戶標(biāo)識符關(guān)聯(lián)和行為特征匹配,系統(tǒng)能夠有效解決跨平臺目標(biāo)對象匹配難題,確保重合度計(jì)算的準(zhǔn)確性。
63、c實(shí)時動態(tài)更新:
64、系統(tǒng)支持增量計(jì)算和實(shí)時數(shù)據(jù)流處理,能夠在目標(biāo)對象數(shù)據(jù)變化時快速更新分析結(jié)果,確保重合度評估的實(shí)時性和動態(tài)響應(yīng)能力。
65、d高效計(jì)算且泛化能力強(qiáng):
66、優(yōu)化的算法和增量更新機(jī)制顯著提升了大規(guī)模目標(biāo)對象數(shù)據(jù)處理的效率,能夠在大數(shù)據(jù)環(huán)境下高效運(yùn)行,適用于全球任何社交媒體平臺。