一種提高社交網(wǎng)絡(luò)用戶產(chǎn)生內(nèi)容信息影響力準確性的方法
【專利摘要】本發(fā)明公開了一種提高社交網(wǎng)絡(luò)用戶產(chǎn)生內(nèi)容信息影響力準確性的方法,所述用戶產(chǎn)生內(nèi)容UGC包括M個關(guān)鍵詞,共有N個用戶參與所述UGC,該方法包括:建立社交網(wǎng)絡(luò)UGC成員參與機制,根據(jù)所述UGC的用戶粉絲關(guān)系構(gòu)建粉絲網(wǎng)絡(luò)無權(quán)有向圖并進行社群劃分;根據(jù)所述UGC的用戶回復關(guān)系構(gòu)建興趣網(wǎng)絡(luò)有權(quán)無向圖并進行社群劃分;根據(jù)所述成員參與機制各影響因素間的相關(guān)程度計算用戶X的社交影響力UX;根據(jù)計算用戶X發(fā)布關(guān)鍵詞K的社交影響力,m為關(guān)鍵詞K在用戶X上的傳播次數(shù),如果m=0,則SKX=0;根據(jù)公式計算關(guān)鍵詞K在所述UGC中的綜合社交影響力;計算所述M個關(guān)鍵詞在所述UGC中的綜合社交影響力之和,得到所述UGC的信息影響力INF。
【專利說明】一種提高社交網(wǎng)絡(luò)用戶產(chǎn)生內(nèi)容信息影響力準確性的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息監(jiān)測技術(shù),特別是一種提高社交網(wǎng)絡(luò)用戶產(chǎn)生內(nèi)容信息影響力準確性的方法。
【背景技術(shù)】
[0002]互聯(lián)網(wǎng)已經(jīng)進入到web2.0時代,每個用戶都可以自由發(fā)表言論,很多重要內(nèi)容或者新聞都是通過用戶產(chǎn)生內(nèi)容(UGC, User Generate Content)首先產(chǎn)生出來,繼而通過社交網(wǎng)絡(luò)廣泛傳播,最終在某個特定的社交圈子內(nèi)甚至整個社會產(chǎn)生巨大的影響力。因此,UGC影響力的研究對于信息采集、監(jiān)測、預測等都具有非常重要的作用。但是由于UGC的數(shù)量過于龐大,增加的速度非常快,很難對所有UGC進行處理,必須要篩選出質(zhì)量好而且影響力高的UGC來進行研究和利用。由此,對UGC的質(zhì)量和信息影響力評估的研究越來越受到重視。
[0003]目前關(guān)于信息影響力的研究主要應用影響力擴散模型(IDM,InfluenceDiffusion Model)及其改進模型(如影響力擴散概率模型IDPM, Influence DiffusionProbability Model等)進行分析。基于文本會話的影響力擴散模型IDM利用會話中的回復鏈結(jié)構(gòu),基于詞頻計算文本間的相似性來計算源的影響力擴散能力,每條回復擴散的影響力之和即為該文本的影響力擴散能力。該模型提出后,成為信息影響力研究的重要基石,后人對于信息影響力的研究大多是對該模型進行改進;影響力擴散概率模型IDPM通過在整個興趣空間上定義單個關(guān)鍵詞語傳播概率影響力來解決IDM模型中的影響力傳遞結(jié)構(gòu)斷層問題和灌水導致的虛假影響力傳播問題,通過考慮句子中的有效關(guān)鍵詞語來解決IDM模型中的影響力傳遞內(nèi)容斷層問題。
[0004]但是這些模型存在一些非常明顯的缺陷,如每個評論或者回復的權(quán)值都相同、沒有考慮用戶之間的關(guān)系等。以BBS上的一個帖子作為UGC為例,如圖1所示:
[0005]用戶I為信息發(fā)布者,用戶2?用戶5為用戶I的回復者,A、B、C、D、E、F為該帖子包括的關(guān)鍵詞,粗實線表示帖子在用戶中的影響力傳播關(guān)系,粗實線的方向為帖子的影響力傳播方向,點劃線表示用戶間粉絲關(guān)系,虛線表示用戶在興趣網(wǎng)絡(luò)中屬于同一社群的關(guān)系,細實線表示用戶在粉絲網(wǎng)絡(luò)中屬于同一社群的關(guān)系。
[0006]圖1中,用戶2?用戶5都回復了用戶I的帖子,不過用戶2是用戶I的粉絲,用戶3與用戶I屬于相同興趣網(wǎng)絡(luò)社群,用戶4與用戶I屬于相同粉絲網(wǎng)絡(luò)社群(但不是用戶I的粉絲),用戶5是新用戶,之前可能幾乎與用戶I沒有關(guān)系。
[0007]由此可以看出,IDPM模型中沒有對UGC的關(guān)鍵詞進行分別加權(quán)處理會導致計算UGC的信息影響力存在偏差。
【發(fā)明內(nèi)容】
[0008]有鑒于此,本發(fā)明提出了一種提高社交網(wǎng)絡(luò)用戶產(chǎn)生內(nèi)容信息影響力準確性的方法,有效解決了現(xiàn)有技術(shù)中不對UGC的關(guān)鍵詞進行分別加權(quán)處理導致計算UGC的信息影響力存在偏差的缺陷。本發(fā)明提出的技術(shù)方案是:
[0009]一種提高社交網(wǎng)絡(luò)用戶產(chǎn)生內(nèi)容信息影響力準確性的方法,該方法包括:
[0010]A.建立社交網(wǎng)絡(luò)UGC成員參與機制,確定所述成員參與機制各影響因素間的路徑系數(shù),所述路徑系數(shù)為所述成員參與機制各影響因素間的相關(guān)程度;
[0011]B.根據(jù)所述UGC的用戶粉絲關(guān)系構(gòu)建粉絲網(wǎng)絡(luò)無權(quán)有向圖,對所述粉絲網(wǎng)絡(luò)無權(quán)有向圖進行社群劃分;根據(jù)所述UGC的用戶回復關(guān)系構(gòu)建興趣網(wǎng)絡(luò)有權(quán)無向圖,對所述興趣網(wǎng)絡(luò)有權(quán)無向圖進行社群劃分;
[0012]C.根據(jù)所述成員參與機制各影響因素間的相關(guān)程度計算用戶X的社交影響力Ux ;
[0013]D.根據(jù)
【權(quán)利要求】
1.一種提高社交網(wǎng)絡(luò)用戶產(chǎn)生內(nèi)容信息影響力準確性的方法,應用于社交網(wǎng)絡(luò)用戶產(chǎn)生內(nèi)容UGC,所述UGC包括M個關(guān)鍵詞,共有N個用戶參與所述UGC,其特征在于,該方法包括: A.建立社交網(wǎng)絡(luò)UGC成員參與機制,確定所述成員參與機制各影響因素間的路徑系數(shù),所述路徑系數(shù)為所述成員參與機制各影響因素間的相關(guān)程度; B.根據(jù)所述UGC的用戶粉絲關(guān)系構(gòu)建粉絲網(wǎng)絡(luò)無權(quán)有向圖,對所述粉絲網(wǎng)絡(luò)無權(quán)有向圖進行社群劃分;根據(jù)所述UGC的用戶回復關(guān)系構(gòu)建興趣網(wǎng)絡(luò)有權(quán)無向圖,對所述興趣網(wǎng)絡(luò)有權(quán)無向圖進行社群劃分; C.根據(jù)所述成員參與機制各影響因素間的相關(guān)程度計算用戶X的社交影響力Ux;
D.根據(jù)
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述成員參與機制包括信息質(zhì)量、群體認同感、價值感知和參與四個影響因素,信息質(zhì)量和群體認同感的路徑系數(shù)為%,信息質(zhì)量和價值感知的路徑系數(shù)為a2,價值感知和群體認同感的路徑系數(shù)為a3,參與和群體認同感的路徑系數(shù)為a4。
3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述步驟C進一步包括: 根據(jù)公式
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟F進一步包括:
根據(jù)公式
5.根據(jù)權(quán)利要求2所述的方法,其特征在于,信息質(zhì)量和群體認同感的路徑系數(shù)&1=.0.333,信息質(zhì)量和價值感知的路徑系數(shù)a2 = 0.824,價值感知和群體認同感的路徑系數(shù)a3=0.624,參與和群體認同感的路徑系數(shù)a4 = 0.437。
【文檔編號】G06F17/30GK103902690SQ201410119194
【公開日】2014年7月2日 申請日期:2014年3月27日 優(yōu)先權(quán)日:2014年3月27日
【發(fā)明者】李蕾, 林鑫, 王博遠 申請人:北京郵電大學