本發(fā)明涉及數(shù)據(jù)處理,尤其涉及一種基于互動(dòng)行為的社交傳播路徑識(shí)別方法、裝置及電子設(shè)備。
背景技術(shù):
1、隨著社交媒體的迅速發(fā)展,信息在平臺(tái)上的傳播速度和規(guī)模都顯著增加。社交媒體成為了信息傳播的重要渠道,特別是在市場(chǎng)營銷、信息管理、公共事件傳播中,追蹤和識(shí)別信息的傳播路徑對(duì)企業(yè)和機(jī)構(gòu)至關(guān)重要。
2、現(xiàn)有技術(shù)社交傳播路徑識(shí)別實(shí)現(xiàn)過程中,存在如下問題:
3、1.缺乏對(duì)多維度互動(dòng)行為的綜合考慮:傳統(tǒng)的傳播路徑識(shí)別方法主要依賴于簡(jiǎn)單的傳播鏈分析,通常忽略了用戶的互動(dòng)行為對(duì)信息傳播的影響,導(dǎo)致傳播路徑識(shí)別不夠精確。
4、2.復(fù)雜網(wǎng)絡(luò)中傳播路徑的識(shí)別困難:社交網(wǎng)絡(luò)通常具有復(fù)雜的節(jié)點(diǎn)和連接,現(xiàn)有方法難以在大規(guī)模復(fù)雜網(wǎng)絡(luò)中快速、準(zhǔn)確地識(shí)別傳播路徑。
5、3.實(shí)時(shí)性差:現(xiàn)有的傳播路徑識(shí)別方法往往需要事后分析,無法在信息傳播的同時(shí)動(dòng)態(tài)跟蹤傳播路徑。
6、4.對(duì)跨平臺(tái)傳播的分析能力不足:信息往往通過多個(gè)社交媒體平臺(tái)傳播,現(xiàn)有方法難以跨平臺(tái)跟蹤和識(shí)別傳播路徑。
7、上述問題成為需要解決的技術(shù)問題。
技術(shù)實(shí)現(xiàn)思路
1、有鑒于此,本發(fā)明實(shí)施例提供了一種基于互動(dòng)行為的社交傳播路徑識(shí)別方法、裝置及電子設(shè)備,至少部分解決現(xiàn)有技術(shù)中存在的問題。
2、第一方面,本發(fā)明實(shí)施例提供了一種基于互動(dòng)行為的社交傳播路徑識(shí)別方法,包括:
3、通過多個(gè)社交媒體平臺(tái)api接口采集用戶的互動(dòng)行為數(shù)據(jù),并對(duì)互動(dòng)行為進(jìn)行數(shù)據(jù)清洗和標(biāo)準(zhǔn)化處理,所述互動(dòng)行為數(shù)據(jù)包括用戶id、內(nèi)容id、互動(dòng)類型和時(shí)間戳;
4、基于用戶互動(dòng)行為數(shù)據(jù)構(gòu)建信息傳播網(wǎng)絡(luò),所述傳播網(wǎng)絡(luò)包括節(jié)點(diǎn)和接觸面,通過接觸面權(quán)重計(jì)算函數(shù)計(jì)算網(wǎng)絡(luò)中每個(gè)接觸面的權(quán)重;
5、基于所述接觸面和接觸面的權(quán)重,構(gòu)建傳播特征向量vs=[lc,ss,dc,iy,ah,hc],基于傳播特征向量以及路徑計(jì)算函數(shù)fl識(shí)別并分類信息傳播路徑ts,lc表示傳播路徑長度、ss表示傳播速度、dc表示傳播層次、iy表示節(jié)點(diǎn)社交影響力,ah表示節(jié)點(diǎn)活躍度,hc表示互動(dòng)行為頻次;
6、當(dāng)新產(chǎn)生的用戶互動(dòng)行為數(shù)據(jù)超過預(yù)設(shè)值θ時(shí),更新傳播特征向量為vsd,并基于更新后的傳播特征向量vsd計(jì)算更新后的信息傳播路徑tsd;
7、分析同一用戶在多個(gè)不同社交媒體平臺(tái)的信息傳播軌跡,形成跨平臺(tái)傳播路徑特征向量g=[ts,tsd],通過跨平臺(tái)傳播路徑特征向量g分析各社交媒體平臺(tái)的傳播速度和關(guān)鍵節(jié)點(diǎn),評(píng)估不同社交平臺(tái)在信息擴(kuò)散過程中的貢獻(xiàn)值。
8、根據(jù)本發(fā)明實(shí)施例的一種具體實(shí)現(xiàn)方式,所述通過多個(gè)社交媒體平臺(tái)api接口采集用戶的互動(dòng)行為數(shù)據(jù),并對(duì)互動(dòng)行為進(jìn)行數(shù)據(jù)清洗和標(biāo)準(zhǔn)化處理,包括:
9、采集社交媒體用戶的互動(dòng)行為數(shù)據(jù),包括用戶的轉(zhuǎn)發(fā)、點(diǎn)贊、評(píng)論和分享數(shù)據(jù)。
10、根據(jù)本發(fā)明實(shí)施例的一種具體實(shí)現(xiàn)方式,所述通過多個(gè)社交媒體平臺(tái)api接口采集用戶的互動(dòng)行為數(shù)據(jù),并對(duì)互動(dòng)行為進(jìn)行數(shù)據(jù)清洗和標(biāo)準(zhǔn)化處理,還包括:
11、對(duì)采集的數(shù)據(jù)進(jìn)行清洗,去除重復(fù)、無效和噪聲數(shù)據(jù);
12、對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,包括時(shí)間格式統(tǒng)一、行為類型編碼以及用戶標(biāo)識(shí)符規(guī)范化。
13、根據(jù)本發(fā)明實(shí)施例的一種具體實(shí)現(xiàn)方式,所述基于用戶互動(dòng)行為數(shù)據(jù)構(gòu)建信息傳播網(wǎng)絡(luò),所述傳播網(wǎng)絡(luò)包括節(jié)點(diǎn)和接觸面,通過接觸面權(quán)重計(jì)算函數(shù)計(jì)算網(wǎng)絡(luò)中每個(gè)接觸面的權(quán)重,包括:
14、將每個(gè)用戶在傳播網(wǎng)絡(luò)中表示為一個(gè)節(jié)點(diǎn),節(jié)點(diǎn)的屬性包括用戶id、參與傳播的行為類型以及互動(dòng)時(shí)間;
15、將用戶之間的互動(dòng)行為設(shè)置為傳播路徑的接觸面,每條接觸面連接兩個(gè)用戶,表示這兩個(gè)用戶之間存在信息傳播關(guān)系;
16、通過權(quán)重w(i,j)表示用戶i與用戶j之間的傳播權(quán)重,接觸面的權(quán)重w(i,j)通過以下公式計(jì)算:
17、
18、f轉(zhuǎn)發(fā)(i,j)表示用戶i對(duì)用戶j內(nèi)容的轉(zhuǎn)發(fā)頻率,f評(píng)論(i,j)表示用戶i對(duì)用戶j內(nèi)容的評(píng)論頻率,f點(diǎn)贊(i,j)表示用戶i對(duì)用戶j內(nèi)容的點(diǎn)贊頻率,α、β、γ是權(quán)重參數(shù)。
19、根據(jù)本發(fā)明實(shí)施例的一種具體實(shí)現(xiàn)方式,所述基于所述接觸面和接觸面的權(quán)重,構(gòu)建傳播特征向量vs=[lc,ss,dc,iy,ah,hc],基于傳播特征向量以及路徑計(jì)算函數(shù)fl識(shí)別并分類信息傳播路徑ts,包括:
20、計(jì)算從信息源節(jié)點(diǎn)到目標(biāo)節(jié)點(diǎn)的最短路徑長度,得到傳播路徑長度lc:
21、
22、p(s,t)是從源節(jié)點(diǎn)s到目標(biāo)節(jié)點(diǎn)t的所有路徑集合,p是傳播路徑,(u,v)是路徑p上的一條接觸面,(u,v)是接觸面(u,v)的權(quán)重,λ是調(diào)節(jié)參數(shù),用于平衡接觸面權(quán)重和節(jié)點(diǎn)度的影響,degree(u)是節(jié)點(diǎn)u的度,表示連接到節(jié)點(diǎn)u的接觸面數(shù);
23、基于信息從源節(jié)點(diǎn)傳播到目標(biāo)節(jié)點(diǎn)的時(shí)間間隔,計(jì)算傳播速度ss:
24、
25、p是從源節(jié)點(diǎn)s到目標(biāo)節(jié)點(diǎn)t的最短路徑,timestamp(v)是節(jié)點(diǎn)v的時(shí)間戳,μ是調(diào)節(jié)參數(shù),用于控制接觸面權(quán)重對(duì)傳播速度的影響;
26、計(jì)算信息從源節(jié)點(diǎn)傳播到目標(biāo)節(jié)點(diǎn)經(jīng)過的層數(shù),得到傳播層次dc:
27、
28、p是從源節(jié)點(diǎn)s到目標(biāo)節(jié)點(diǎn)t的最短路徑,level(v)是節(jié)點(diǎn)v的層次編號(hào),η是調(diào)節(jié)參數(shù),用于平衡層次差和節(jié)點(diǎn)度的影響;
29、計(jì)算節(jié)點(diǎn)社交影響力iy:
30、
31、w1,w2,w3是權(quán)重參數(shù),flr(i)是節(jié)點(diǎn)i的關(guān)注用戶數(shù),itf(i)是節(jié)點(diǎn)i的互動(dòng)頻次,hsd(i)是節(jié)點(diǎn)i的歷史傳播記錄,δ是調(diào)節(jié)參數(shù),ctt(i)是節(jié)點(diǎn)i的中心性。
32、計(jì)算節(jié)點(diǎn)活躍度ah:
33、
34、w4,w5,w6是權(quán)重參數(shù),itf(i)是節(jié)點(diǎn)i的互動(dòng)頻次,itd(i)是節(jié)點(diǎn)i的互動(dòng)深度,atd(i)是節(jié)點(diǎn)i的活躍持續(xù)時(shí)間;
35、基于用戶在傳播路徑上執(zhí)行互動(dòng)行為的頻率,計(jì)算互動(dòng)行為頻次hc:
36、
37、f轉(zhuǎn)發(fā)(i,j)是用戶i對(duì)用戶j內(nèi)容的轉(zhuǎn)發(fā)頻率,f評(píng)論(i,j)是用戶i對(duì)用戶j內(nèi)容的評(píng)論頻率,f點(diǎn)贊(i,j)是用戶i對(duì)用戶j內(nèi)容的點(diǎn)贊頻率,ρ是調(diào)節(jié)參數(shù),sts(i,j)是用戶i對(duì)用戶j內(nèi)容的情感得分;
38、將計(jì)算得到的各項(xiàng)特征組合成特征向量vs=[lc,ss,dc,iy,ah,hc]。
39、根據(jù)本發(fā)明實(shí)施例的一種具體實(shí)現(xiàn)方式,所述基于所述接觸面和接觸面的權(quán)重,構(gòu)建傳播特征向量vs=[lc,ss,dc,iy,ah,hc],基于傳播特征向量以及路徑計(jì)算函數(shù)fl識(shí)別并分類信息傳播路徑ts,還包括:
40、構(gòu)建包含第一層模型和第二層模型的訓(xùn)練模型,使用堆疊方法將多個(gè)基礎(chǔ)模型的輸出作為新的特征,輸入到一個(gè)元模型中進(jìn)行最終分類,第一層元模型表示為:
41、
42、
43、
44、prf、psvm和pxgb分別代表隨機(jī)森林、支持向量機(jī)和xgboost模型的預(yù)測(cè)結(jié)果,frf、fsvm和fxgb分別代表隨機(jī)森林、支持向量機(jī)和xgboost模型;
45、第二層元模型表示為:
46、
47、
48、vm是元特征向量,fmeta是元模型,lr是二分類函數(shù);
49、使用基礎(chǔ)模型的預(yù)測(cè)結(jié)果prf,psvm,pxgb作為新的元特征向量vm,訓(xùn)練元模型fmeta,使用元模型對(duì)基礎(chǔ)模型的預(yù)測(cè)結(jié)果進(jìn)行最終分類ts:
50、。
51、根據(jù)本發(fā)明實(shí)施例的一種具體實(shí)現(xiàn)方式,所述當(dāng)新產(chǎn)生的用戶互動(dòng)行為數(shù)據(jù)超過預(yù)設(shè)值θ時(shí),更新傳播特征向量為vsd,并基于更新后的傳播特征向量vsd計(jì)算更新后的信息傳播路徑tsd,包括:
52、當(dāng)新產(chǎn)生的用戶互動(dòng)行為數(shù)據(jù)量超過預(yù)設(shè)值θ時(shí),收集并預(yù)處理新產(chǎn)生的用戶互動(dòng)行為數(shù)據(jù);
53、基于更新后的數(shù)據(jù),重新構(gòu)建傳播網(wǎng)絡(luò)中的節(jié)點(diǎn)和接觸面,并計(jì)算新的接觸面權(quán)重;
54、根據(jù)更新后的傳播網(wǎng)絡(luò),重新計(jì)算傳播特征向量,得到更新后的傳播特征向量vsd,將更新后的傳播特征向量vsd輸入到已訓(xùn)練的模型中,進(jìn)行特征標(biāo)準(zhǔn)化和特征生成,生成新的特征向量;
55、使用基礎(chǔ)模型和元模型對(duì)新的特征向量進(jìn)行預(yù)測(cè),得到更新后的信息傳播路徑tsd。
56、根據(jù)本發(fā)明實(shí)施例的一種具體實(shí)現(xiàn)方式,所述通過跨平臺(tái)傳播路徑特征向量g分析各社交媒體平臺(tái)的傳播速度和關(guān)鍵節(jié)點(diǎn),評(píng)估不同社交平臺(tái)在信息擴(kuò)散過程中的貢獻(xiàn)值,包括:
57、分析同一用戶在多個(gè)不同社交媒體平臺(tái)上的信息傳播軌跡,形成跨平臺(tái)傳播路徑特征向量g;
58、通過分析時(shí)間戳和傳播路徑,確定信息從一個(gè)節(jié)點(diǎn)傳到另一個(gè)節(jié)點(diǎn)所需的時(shí)間,從而評(píng)估每個(gè)平臺(tái)的傳播速度pts;
59、計(jì)算傳播過程中各個(gè)節(jié)點(diǎn)在不同平臺(tái)的活躍度值phy;
60、根據(jù)傳播速度pts和活躍度值phy,評(píng)估不同社交平臺(tái)在信息擴(kuò)散過程中的貢獻(xiàn)值。
61、第二方面,本發(fā)明實(shí)施例提供了一種基于互動(dòng)行為的社交傳播路徑識(shí)別裝置,包括:
62、采集模塊,通過多個(gè)社交媒體平臺(tái)api接口采集用戶的互動(dòng)行為數(shù)據(jù),并對(duì)互動(dòng)行為進(jìn)行數(shù)據(jù)清洗和標(biāo)準(zhǔn)化處理,所述互動(dòng)行為數(shù)據(jù)包括用戶id、內(nèi)容id、互動(dòng)類型和時(shí)間戳;
63、構(gòu)建模塊,基于用戶互動(dòng)行為數(shù)據(jù)構(gòu)建信息傳播網(wǎng)絡(luò),所述傳播網(wǎng)絡(luò)包括節(jié)點(diǎn)和接觸面,通過接觸面權(quán)重計(jì)算函數(shù)計(jì)算網(wǎng)絡(luò)中每個(gè)接觸面的權(quán)重;
64、識(shí)別模塊,基于所述接觸面和接觸面的權(quán)重,構(gòu)建傳播特征向量vs=[lc,ss,dc,iy,ah,hc],基于傳播特征向量以及路徑計(jì)算函數(shù)fl識(shí)別并分類信息傳播路徑ts,lc表示傳播路徑長度、ss表示傳播速度、dc表示傳播層次、iy表示節(jié)點(diǎn)社交影響力,ah表示節(jié)點(diǎn)活躍度,hc表示互動(dòng)行為頻次;
65、更新模塊,當(dāng)新產(chǎn)生的用戶互動(dòng)行為數(shù)據(jù)超過預(yù)設(shè)值θ時(shí),更新傳播特征向量為vsd,并基于更新后的傳播特征向量vsd計(jì)算更新后的信息傳播路徑tsd;
66、評(píng)估模塊,分析同一用戶在多個(gè)不同社交媒體平臺(tái)的信息傳播軌跡,形成跨平臺(tái)傳播路徑特征向量g=[ts,tsd],通過跨平臺(tái)傳播路徑特征向量g分析各社交媒體平臺(tái)的傳播速度和關(guān)鍵節(jié)點(diǎn),評(píng)估不同社交平臺(tái)在信息擴(kuò)散過程中的貢獻(xiàn)值。
67、第三方面,本發(fā)明實(shí)施例還提供了一種電子設(shè)備,該電子設(shè)備包括:
68、至少一個(gè)處理器;以及,
69、與該至少一個(gè)處理器通信連接的存儲(chǔ)器;其中,
70、該存儲(chǔ)器存儲(chǔ)有可被該至少一個(gè)處理器執(zhí)行的指令,該指令被該至少一個(gè)處理器執(zhí)行,以使該至少一個(gè)處理器能夠執(zhí)行前述任第一方面或第一方面的任一實(shí)現(xiàn)方式中的基于互動(dòng)行為的社交傳播路徑識(shí)別方法。
71、第四方面,本發(fā)明實(shí)施例還提供了一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),該非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)計(jì)算機(jī)指令,該計(jì)算機(jī)指令用于使該計(jì)算機(jī)執(zhí)行前述第一方面或第一方面的任一實(shí)現(xiàn)方式中的基于互動(dòng)行為的社交傳播路徑識(shí)別方法。
72、第五方面,本發(fā)明實(shí)施例還提供了一種計(jì)算機(jī)程序產(chǎn)品,該計(jì)算機(jī)程序產(chǎn)品包括存儲(chǔ)在非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上的計(jì)算程序,該計(jì)算機(jī)程序包括程序指令,當(dāng)該程序指令被計(jì)算機(jī)執(zhí)行時(shí),使該計(jì)算機(jī)執(zhí)行前述第一方面或第一方面的任一實(shí)現(xiàn)方式中的基于互動(dòng)行為的社交傳播路徑識(shí)別方法。
73、本發(fā)明實(shí)施例中的基于互動(dòng)行為的社交傳播路徑識(shí)別方案,包括:通過多個(gè)社交媒體平臺(tái)api接口采集用戶的互動(dòng)行為數(shù)據(jù),并對(duì)互動(dòng)行為進(jìn)行數(shù)據(jù)清洗和標(biāo)準(zhǔn)化處理,所述互動(dòng)行為數(shù)據(jù)包括用戶id、內(nèi)容id、互動(dòng)類型和時(shí)間戳;基于用戶互動(dòng)行為數(shù)據(jù)構(gòu)建信息傳播網(wǎng)絡(luò),所述傳播網(wǎng)絡(luò)包括節(jié)點(diǎn)和接觸面,通過接觸面權(quán)重計(jì)算函數(shù)計(jì)算網(wǎng)絡(luò)中每個(gè)接觸面的權(quán)重;基于所述接觸面和接觸面的權(quán)重,構(gòu)建傳播特征向量vs=[lc,ss,dc,iy,ah,hc],基于傳播特征向量以及路徑計(jì)算函數(shù)fl識(shí)別并分類信息傳播路徑ts,lc表示傳播路徑長度、ss表示傳播速度、dc表示傳播層次、iy表示節(jié)點(diǎn)社交影響力,ah表示節(jié)點(diǎn)活躍度,hc表示互動(dòng)行為頻次;當(dāng)新產(chǎn)生的用戶互動(dòng)行為數(shù)據(jù)超過預(yù)設(shè)值θ時(shí),更新傳播特征向量為vsd,并基于更新后的傳播特征向量vsd計(jì)算更新后的信息傳播路徑tsd;分析同一用戶在多個(gè)不同社交媒體平臺(tái)的信息傳播軌跡,形成跨平臺(tái)傳播路徑特征向量g=[ts,tsd],通過跨平臺(tái)傳播路徑特征向量g分析各社交媒體平臺(tái)的傳播速度和關(guān)鍵節(jié)點(diǎn),評(píng)估不同社交平臺(tái)在信息擴(kuò)散過程中的貢獻(xiàn)值。本發(fā)明具有如下有益效果:
74、a多維度互動(dòng)行為分析:
75、通過綜合分析用戶的轉(zhuǎn)發(fā)、評(píng)論、點(diǎn)贊等多維度的互動(dòng)行為,系統(tǒng)能夠更加精確地識(shí)別社交傳播路徑,提升傳播路徑識(shí)別的精度。
76、b實(shí)時(shí)傳播路徑跟蹤:
77、本發(fā)明支持信息傳播過程的實(shí)時(shí)監(jiān)控和動(dòng)態(tài)調(diào)整,能夠在信息傳播的同時(shí)識(shí)別和跟蹤傳播路徑。
78、c跨平臺(tái)傳播路徑融合:
79、系統(tǒng)能夠整合多個(gè)社交媒體平臺(tái)的數(shù)據(jù),實(shí)現(xiàn)跨平臺(tái)傳播路徑的統(tǒng)一識(shí)別,彌補(bǔ)了現(xiàn)有方法對(duì)跨平臺(tái)傳播分析能力的不足。
80、d傳播關(guān)鍵節(jié)點(diǎn)識(shí)別:
81、通過機(jī)器學(xué)習(xí)技術(shù),系統(tǒng)能夠識(shí)別信息傳播的關(guān)鍵節(jié)點(diǎn)用戶,為信息擴(kuò)散和危機(jī)應(yīng)對(duì)提供數(shù)據(jù)支持。
82、e易于部署和擴(kuò)展:
83、本發(fā)明基于通用的數(shù)據(jù)處理和分析框架,能夠靈活適應(yīng)不同規(guī)模的社交媒體平臺(tái),易于部署和擴(kuò)展。