一種微博輿情傳播范圍預(yù)測的方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及社會網(wǎng)絡(luò)建模與分析領(lǐng)域,具體設(shè)及一種微博輿情傳播范圍預(yù)測的方 法。
【背景技術(shù)】
[0002] 微博已經(jīng)成為現(xiàn)代社會最重要的新媒體平臺之一,與傳統(tǒng)媒體相比,具有及時、碎 片化、自由開放和大眾性等特征。但是任何人都可W利用微博發(fā)布不良觀點和評論,而且經(jīng) 過眾人的轉(zhuǎn)發(fā)和評論后會迅速擴散到整個社會網(wǎng)絡(luò)中。一些欺騙性的言論能夠造成社會安 全的破壞、嚴重的會引發(fā)社會群體事件。因此政府相關(guān)部口必須對微博中的輿情信息進行 分析、監(jiān)控和預(yù)測,為進一步的管理和控制做出準備。
[0003] 現(xiàn)有的互聯(lián)網(wǎng)輿情信息監(jiān)控和分析主要是關(guān)注兩個問題:一是解決對海量信息 的人工化處理的難題,提出一些利用計算機的文本分析和機器學習的方法設(shè)計而成的自動 輿情分析系統(tǒng),W此減少網(wǎng)絡(luò)輿情監(jiān)控過程中的人工勞動;二是嘗試解決網(wǎng)絡(luò)輿情發(fā)現(xiàn)精 確度的難題,通過改善和優(yōu)化文本分析、聚類算法等方法,提高文本中輿情語義挖掘的準確 性。
[0004] 經(jīng)過對現(xiàn)有技術(shù)的文獻檢索發(fā)現(xiàn),中國專利公開號為:CN101661513B,專利名稱 為:網(wǎng)絡(luò)熱點和輿情的檢測方法,該技術(shù)方案提供了網(wǎng)絡(luò)信息處理領(lǐng)域中的一種網(wǎng)絡(luò)熱點 和輿情的檢測方法,可W應(yīng)用到微博輿情的檢測和分析中。通過捜集一定時間范圍內(nèi)的微 博正文信息和評論信息,并對運些信息的文本內(nèi)容進行分詞處理、概念映射處理,消除語義 概念的不確定性,最終提取能夠反映文本內(nèi)容的特征。再利用運些內(nèi)容特征數(shù)據(jù)進行聚類, 形成若干個包含不等數(shù)量的信息文檔集合,根據(jù)各個集合包含信息文檔的數(shù)目來判定是否 為網(wǎng)絡(luò)中的熱點事件,在對熱點事件的信息文檔集合進行褒貶傾向的分析,從而掌握網(wǎng)民 對該事件的輿情觀點,W此來檢測微博輿情。 陽0化]現(xiàn)有對微博監(jiān)控和分析的方法關(guān)注自動化分析處理和輿情信息的判定,忽視了輿 情在整個在線社會網(wǎng)絡(luò)傳播趨勢的分析,無法向網(wǎng)絡(luò)輿情管控人員提供輿情傳播到了何種 程度,即無法判定某事件的輿情擴散程度。本發(fā)明從社會網(wǎng)絡(luò)整體角度來檢測和分析微博 輿情傳播,提出一種預(yù)測微博輿情傳播程度的方法,通過監(jiān)測哨兵節(jié)點的信息來判斷輿情 擴散情況。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明的目的在于解決上述問題,提供一種微博輿情傳播范圍預(yù)測的方法,通過 微博預(yù)測方法利用實際統(tǒng)計數(shù)據(jù)建立非線性模型,根據(jù)輿情事件的性質(zhì)來監(jiān)控哨兵節(jié)點的 狀態(tài)來確定微博輿情的覆蓋情況,并向網(wǎng)絡(luò)輿情管理者提供精確的輿情傳播量化數(shù)據(jù)。
[0007] 本發(fā)明解決上述問題所采用的技術(shù)方案是:
[0008] 一種微博輿情傳播范圍預(yù)測的方法,按照下列順序依次進行:
[0009] 1)構(gòu)建微博系統(tǒng)的傳播網(wǎng)絡(luò)模型:將每個微博用戶視為一個節(jié)點,根據(jù)微博的粉 絲、關(guān)注和好友關(guān)系建立節(jié)點之間的連邊,形成一個復(fù)雜的在線社會網(wǎng)絡(luò)模型;輿情傳播范 圍即輿情消息覆蓋率;
[0010] 2)在微博傳播網(wǎng)絡(luò)中選擇判斷輿情覆蓋范圍的哨兵節(jié)點;
[0011] 3)利用哨兵監(jiān)測節(jié)點建立微博輿情傳播范圍的預(yù)測模型;
[0012] 在實際微博網(wǎng)絡(luò)中對事件輿情進行實證統(tǒng)計分析,并確定預(yù)測模型中的關(guān)鍵參 數(shù)。
[0013] 優(yōu)選的,1)中所述的輿情消息覆蓋率為已獲知消息的節(jié)點集合與全部節(jié)點集合的 比值,
[0014]
[0015] 式中問表示節(jié)點數(shù),|V|為全部節(jié)點數(shù),注意全部節(jié)點指微博網(wǎng)絡(luò)中有效用戶范 圍內(nèi)的節(jié)點總數(shù);
[0016] 消息傳播過程是時間序列T={tl,t2,…,ti,ti+1,…},監(jiān)測時刻tk的信息覆蓋 率為〇k,即
,
[0017] 優(yōu)選的,3)中的預(yù)測模型為微博網(wǎng)絡(luò)哨兵節(jié)點預(yù)測信息覆蓋率的問題轉(zhuǎn)變?yōu)橛?拆(乂cF)合并到的事件來預(yù)測〇k,研究節(jié)點子集Vk與覆蓋率0之間的規(guī)律,建立預(yù)測模 型,通過探測屬于Vk的哨兵節(jié)點的信息實現(xiàn)對信息覆蓋率〇k的評估;在哨兵節(jié)點中選擇一 個節(jié)點傳播影響力。
[001引優(yōu)選的,所述的哨兵節(jié)點包括意見領(lǐng)袖節(jié)點、社區(qū)中活躍節(jié)點、不活躍節(jié)點。
[0019] 優(yōu)選的,所述的節(jié)點傳播影響力為節(jié)點的度與間接連通節(jié)點平均距離的乘積,
[0020] I (i)表示節(jié)點i的影響力,outdegree(i)為節(jié)點的出度,di.j表示與節(jié)點i間接連 通的節(jié)點j之間的距離,count (i)表示節(jié)點i間接連通的其他所有節(jié)點的個數(shù);最后建立 先用統(tǒng)計方法建立節(jié)點影響力與信息覆蓋率之間的關(guān)系模型 陽02U 0訊=f(l), 陽〇巧W0。)=f。),作為預(yù)依據(jù),探巧U若干節(jié)點是否傳播到某條信息,W此來評估 信息覆蓋率,節(jié)點j的傳播影響力為I,,則代入后得出0(1,),簡寫為0,表示用探測節(jié)點j 獲取到的信息覆蓋率;
[0023] 選S曲線作為回歸分析的基礎(chǔ)模型
[0024] 本發(fā)明的有益效果是:
[00巧]本發(fā)明在500-1000個微博節(jié)點的社會網(wǎng)絡(luò)中進行實證統(tǒng)計實驗,并W此獲取預(yù) 測模型的重要參數(shù)。然后再自行編寫網(wǎng)絡(luò)微博抓取程序來分析,并統(tǒng)計5000-10000個節(jié)點 的社會網(wǎng)絡(luò)數(shù)據(jù),用此規(guī)模的微博網(wǎng)絡(luò)驗證預(yù)測方法的準確性,實驗結(jié)果顯示預(yù)測的準確 性約為83. 2%。
【附圖說明】
[0026] 圖1是本發(fā)明影響力小節(jié)點作為源點的統(tǒng)計信息圖;
[0027]圖2是本發(fā)明影響力大節(jié)點作為源點的統(tǒng)計信息圖;
[0028] 圖3是本發(fā)明中等影響力節(jié)點作為源點的統(tǒng)計信息圖;
【具體實施方式】
[0029] 下面結(jié)合附圖與【具體實施方式】對本發(fā)明作進一步詳細描述:
[0030] 如圖1、圖2及圖3所示,本發(fā)明所述的一種微博輿情傳播范圍預(yù)測的方法,實證的 范圍是選取某大學工科四個學院的校選課學生587人,設(shè)及3個年級12個專業(yè)15個班