本發(fā)明涉及的是一種網(wǎng)絡(luò)分析方法,具體地說是一種微博信息傳播預(yù)測方法。
背景技術(shù):
隨著社會網(wǎng)絡(luò)的飛速發(fā)展,人類進(jìn)入了自媒體時代。微博網(wǎng)絡(luò)作為典型的社交媒體平臺,其140字的短文本信息發(fā)送方式以及多種的交互模式,使其成為人們獲取信息、分享信息、傳播信息的重要平臺。由于微博網(wǎng)絡(luò)具有數(shù)據(jù)量大、信息碎片化嚴(yán)重、交互多樣性、信息傳播快等特性,通過系統(tǒng)審核或人工實時監(jiān)控,并不能有效地限制社交網(wǎng)絡(luò)輿情危機(jī)信息的傳播。因此微博除了成為民眾表達(dá)關(guān)切和訴求的窗口之外,也成為了虛假信息、流言蠻語滋生的平臺。
針對在特定的網(wǎng)絡(luò)輿情事件中可能產(chǎn)生微博負(fù)面輿情危機(jī)的問題,在負(fù)面輿情被大規(guī)模傳播之前需要對特定熱點輿情事件中的微博消息的傳播進(jìn)行預(yù)測。在負(fù)面信息大規(guī)模爆發(fā)之前進(jìn)行有效地處理是社會網(wǎng)絡(luò)輿情安全研究所必須解決的問題。社交網(wǎng)絡(luò)中的網(wǎng)絡(luò)輿情傳播通常是由一個或多個用戶協(xié)同來進(jìn)行大規(guī)模擴(kuò)散的。因此在研究社交網(wǎng)絡(luò)輿情傳播預(yù)測的過程中,如何針對影響信息傳播的關(guān)鍵用戶來動態(tài)調(diào)整傳播預(yù)測模型,是社交網(wǎng)絡(luò)輿情信息傳播預(yù)測的重要環(huán)節(jié)。
與本發(fā)明相關(guān)的公開報道包括:
[1]WANG Jing,LIU Zhijing,ZHAO Hui,“Micro-blogs Entity Recognition Based on DSTCRF”,Chinese Journal of Electronics,Vol.23,No.1,pp 147-150,2014;
[2]YANG Zhen,FAN Kefeng,LAI Yingxu,GAO Kaiming and WANG Yong,“Short Texts Classification Through Reference Document Expansion”,Chinese Journal of Electronics,Vol.23,No.2,2014;
[3]Yang Z,Guo J,Cai K,Tang J,Li J,Zhang L,et al.,Understanding retweeting behaviors in social networks.Proceedings of the 19th ACM international conference on Information and knowledge management;2010:ACM.1633-1636 p;
[4]Peng H-K,Zhu J,Piao D,Yan R,Zhang Y,Retweet modeling using conditional random fields.Data Mining Workshops(ICDMW),2011 IEEE 11th International Conference on;2011:IEEE.336-343 p;
[5]Zaman TR,Herbrich R,Van Gael J,Stern D,Predicting information spreading in twitter.Workshop on computational social science and the wisdom of crowds,nips;2010:Citeseer.17599-17601 p;
[6]Kupavskii A,Ostroumova L,Umnov A,Usachev S,Serdyukov P,Gusev G,et al.,Prediction of retweet cascade size over time.Proceedings of the 21st ACM international conference on Information and knowledge management;2012:ACM.2335-2338 p;
[7]Cheng J,Adamic L,Dow PA,Kleinberg JM,Leskovec J,Can cascades be predicted?Proceedings of the 23rd international conference on World wide web;2014:ACM.925-936 p;
[8]Zhao Q,Erdogdu MA,He HY,Rajaraman A,Leskovec J,SEISMIC:A Self-Exciting Point Process Model for Predicting Tweet Popularity.Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining;2015:ACM.1513-1522 p;
[9]Yang J,Leskovec J,Modeling information diffusion in implicit networks.Data Mining(ICDM),2010IEEE 10th International Conference on;2010:IEEE.599-608p;
[10]Wang CX,Guan XH,Qin Tao,Zhou YD.Modeling Opinion Leader’s Influence in Microblog Message Propagation and Its Application.Journal of Software,2015,26(6)。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的在于提供一種具有準(zhǔn)確的預(yù)測效果,并可以挖掘影響預(yù)測性能的關(guān)鍵用戶的基于關(guān)鍵用戶的微博信息傳播預(yù)測方法。
本發(fā)明的目的是這樣實現(xiàn)的:
步驟1:數(shù)據(jù)采集;
步驟2:數(shù)據(jù)處理;
步驟3:利用線性模型預(yù)測;
步驟4:基于關(guān)鍵用戶挖掘的模型調(diào)整,進(jìn)行后續(xù)預(yù)測。
本發(fā)明還可以包括:
1、所述數(shù)據(jù)采集具體包括:
步驟1.1:在微博網(wǎng)絡(luò)中實時獲取給定消息id的轉(zhuǎn)發(fā)用戶;
步驟1.2:獲取微博用戶的配置信息,所述配置信息包括關(guān)注數(shù)、粉絲數(shù)。
2、所述數(shù)據(jù)處理具體包括:
步驟2.1:根據(jù)給定的時間間隔將步驟1.1與1.2所獲得的數(shù)據(jù)劃分為多個時間窗口;
步驟2.2:選取前k個時間窗口作為訓(xùn)練數(shù)據(jù)窗口,第k+1時間窗口為預(yù)測窗口。
3、所述利用線性模型預(yù)測具體包括:
步驟3.1:首先根據(jù)訓(xùn)練集的時間窗口內(nèi)用戶的轉(zhuǎn)發(fā)量確定時間窗口內(nèi)的關(guān)鍵用戶;
步驟3.2:根據(jù)用戶的轉(zhuǎn)發(fā)數(shù)對線性函數(shù)進(jìn)行擬合,迭代的確定線性函數(shù)的待估參數(shù)值,確定預(yù)測函數(shù);
步驟3.3:將預(yù)測時間窗口的窗口值代入預(yù)測函數(shù),生成預(yù)測值。
4、所述基于關(guān)鍵用戶挖掘的模型調(diào)整具體包括:
步驟4.1:根據(jù)預(yù)測值和實際值的差異確定是否需要進(jìn)行關(guān)鍵用戶檢測;
步驟4.2:當(dāng)預(yù)測差異大于閾值時,根據(jù)該時間窗口的用戶轉(zhuǎn)發(fā)數(shù)確定關(guān)鍵用戶;
步驟4.3:利用關(guān)鍵用戶的粉絲數(shù),以及之前其他關(guān)鍵用戶的粉絲數(shù)來確定關(guān)鍵用戶的數(shù)值,來對線性模型進(jìn)行調(diào)整。
步驟4.4:利用新生成的線性模型對下一時間窗口進(jìn)行預(yù)測。
本發(fā)明提出了一種基于消息傳播中的關(guān)鍵用戶的動態(tài)線性預(yù)測模型,該模型在預(yù)測的同時檢查影響預(yù)測準(zhǔn)確性的關(guān)鍵用戶,通過關(guān)鍵用戶動態(tài)調(diào)整線性預(yù)測模型。
本發(fā)明的方法,利用從微博網(wǎng)絡(luò)上獲取的消息的用戶轉(zhuǎn)發(fā)數(shù)據(jù),通過基于關(guān)鍵用戶的動態(tài)線性模型來預(yù)測未來信息傳播的狀態(tài),并在預(yù)測的過程中實時的挖掘關(guān)鍵用戶,在新增關(guān)鍵用戶的基礎(chǔ)上對線性模型進(jìn)行改進(jìn)。
與現(xiàn)有技術(shù)相比,本發(fā)明具有如下的有益效果:
1、本發(fā)明提出一種基于關(guān)鍵用戶的微博信息傳播預(yù)測方法,該技術(shù)主要考慮信息傳播預(yù)測過程中關(guān)鍵用戶出現(xiàn)導(dǎo)致預(yù)測失準(zhǔn)的問題,來對傳統(tǒng)的線性預(yù)測模型進(jìn)行改進(jìn)。并取得了良好的預(yù)測效果。
2、本發(fā)明能夠有效的針對微博類的大規(guī)模社會網(wǎng)絡(luò),具有較為準(zhǔn)確的預(yù)測效果,并可以挖掘影響預(yù)測性能的關(guān)鍵用戶。
附圖說明
圖1是本發(fā)明的總體流程圖。
圖2是本發(fā)明的線性模型的具體示意圖。
具體實施方式
下面結(jié)合附圖和實施例對本發(fā)明作進(jìn)一步的詳細(xì)說明??梢岳斫獾氖?,此處所描述的具體實施例僅僅用于解釋本發(fā)明,而非對本發(fā)明的限定。另外還需要說明的是,為了便于描述,附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部內(nèi)容。
結(jié)合圖1,本發(fā)明的基于關(guān)鍵用戶的微博信息傳播預(yù)測方法的具體實現(xiàn)步驟如下:
步驟101:數(shù)據(jù)采集;
步驟102:數(shù)據(jù)處理;
步驟103:線性模型預(yù)測;
步驟104:基于關(guān)鍵用戶挖掘的模型調(diào)整。
步驟101中,其所述數(shù)據(jù)采集的步驟包括:
在微博網(wǎng)絡(luò)中實時獲取給定消息id的轉(zhuǎn)發(fā)用戶;
獲取微博用戶的配置信息,關(guān)注數(shù)、粉絲數(shù)等;
所述步驟102中,其所述數(shù)據(jù)處理的步驟包括:
根據(jù)給定的時間間隔將微博數(shù)據(jù)劃分為多個時間窗口;
選取前k個時間窗口作為訓(xùn)練數(shù)據(jù)窗口,第k+1時間窗口為預(yù)測窗口;
所述步驟103中,其所述線性模型預(yù)測的步驟為:
首先根據(jù)訓(xùn)練集的時間窗口內(nèi)用戶的轉(zhuǎn)發(fā)量確定時間窗口內(nèi)的關(guān)鍵用戶;
根據(jù)用戶的轉(zhuǎn)發(fā)數(shù)對線性函數(shù)進(jìn)行擬合,迭代的確定線性函數(shù)的待估參數(shù)值,確定預(yù)測函數(shù)。
將預(yù)測時間窗口的窗口值代入預(yù)測函數(shù),生成預(yù)測值。
所述步驟104中,其所述的基于關(guān)鍵用戶挖掘的模型調(diào)整:
根據(jù)預(yù)測值和實際值的差異確定是否需要進(jìn)行關(guān)鍵用戶檢測;
當(dāng)預(yù)測差異大于閾值時,根據(jù)該時間窗口的用戶轉(zhuǎn)發(fā)數(shù)確定關(guān)鍵用戶;
利用關(guān)鍵用戶的粉絲數(shù),以及之前其他關(guān)鍵用戶的粉絲數(shù)來確定關(guān)鍵用戶的數(shù)值,來對線性模型進(jìn)行調(diào)整。
利用新生成的線性模型對下一時間窗口進(jìn)行預(yù)測。
在步驟101中,數(shù)據(jù)采集是指從微博網(wǎng)絡(luò)實時獲取微博轉(zhuǎn)發(fā)用戶數(shù)據(jù)。
在步驟102中,數(shù)據(jù)處理是指將獲取的微博轉(zhuǎn)發(fā)數(shù)據(jù)按固定時間間隔劃分時間窗口。
將微博消息oid為相同值的微博微博消息按照消息的時間,以固定的時間間隔L劃分為N個微博窗口ms,ms=[win1,…,winj,…,winL],winj為第j個微博窗口,且滿足
在步驟103中,線性模型預(yù)測是指根據(jù)給定的訓(xùn)練時間窗口訓(xùn)練線性模型對下一個時間窗口進(jìn)行預(yù)測。
在線性預(yù)測模型預(yù)測的過程中僅考慮關(guān)鍵用戶對轉(zhuǎn)發(fā)規(guī)模具有影響如圖2所示,并根據(jù)圖2建立公式(1)。公式主要由三部分組成,本發(fā)明考慮微博消息制造者作為第一個關(guān)鍵用戶與其他的關(guān)鍵用戶的影響效果是不同的,因此使用參數(shù)at,bt對兩類關(guān)鍵用戶進(jìn)行區(qū)分。然后是用dt來調(diào)節(jié)其他節(jié)點帶來的部分消息轉(zhuǎn)發(fā)影響。
其中表示t時刻用戶ui的預(yù)測轉(zhuǎn)發(fā)量,表示m消息在t時刻的關(guān)鍵用戶集合。
根據(jù)公式需求,首先確定發(fā)布用戶為第一個關(guān)鍵用戶,然后根據(jù)訓(xùn)練集中用戶的被轉(zhuǎn)發(fā)數(shù)確定訓(xùn)練集關(guān)鍵用戶,最后通過公式(1)進(jìn)行預(yù)測。
在步驟104中,初始候選集合選取,是指根據(jù)預(yù)測值和實際值得差異性來確定是否進(jìn)行關(guān)鍵用戶挖掘并根據(jù)關(guān)鍵用戶改進(jìn)線性模型。
在消息的傳播過程中,訓(xùn)練集中的關(guān)鍵用戶通常很容易被確定,但當(dāng)預(yù)測時間窗口中出現(xiàn)關(guān)鍵用戶后,預(yù)測算法的準(zhǔn)確性被關(guān)鍵用戶干擾后,導(dǎo)致預(yù)測準(zhǔn)確度下降。因此本發(fā)明將關(guān)鍵用戶作為微博轉(zhuǎn)發(fā)規(guī)模預(yù)測準(zhǔn)確度的重要因素。當(dāng)關(guān)鍵用戶出現(xiàn)在預(yù)測時間窗口內(nèi)時,預(yù)測算法會產(chǎn)生相應(yīng)的預(yù)測偏差,因此本發(fā)明定義Key_Thrseshold作為關(guān)鍵用戶存在閾值,其公式如所示:
當(dāng)Key_Thrseshold<θ時,證明該時間窗口內(nèi)不存在影響預(yù)測的關(guān)鍵用戶,當(dāng)Key_Thrseshold≥θ時并且R_Fact(t)-R_Precdit(t)≥10表明該預(yù)測時間窗內(nèi)可能存在影響預(yù)測的關(guān)鍵用戶,需要對該時間窗口進(jìn)行關(guān)鍵用戶挖掘。Key_Thrseshold≥θ表明預(yù)測算法和實際值有較大的差異,R_Fact(t)-R_Precdit(t)≥10為了避免小于10的轉(zhuǎn)發(fā)規(guī)模影響閾值計算。同時當(dāng)Key_Thrseshold≤-θ時,表明之前窗口可能有部分的關(guān)鍵用戶失效,需要刪除關(guān)鍵用戶影響。
首先根據(jù)該時間窗口中的用戶自身轉(zhuǎn)發(fā)數(shù)進(jìn)行用戶排序,生成排序集合依次的將集合中的用戶添加到下列公式中,直到滿足下列公式為止。
通過找到的關(guān)鍵用戶集合對線性模型進(jìn)行動態(tài)的調(diào)整,來進(jìn)行下一步的預(yù)測。