專利名稱:一種論壇事件傳播圖的構(gòu)建裝置及構(gòu)建方法
技術(shù)領(lǐng)域:
本發(fā)明涉及利用計(jì)算機(jī)技術(shù)輔助網(wǎng)絡(luò)信息智能分析或輿情管理的技術(shù),其特別涉 及利用自然語(yǔ)言處理和數(shù)據(jù)挖掘技術(shù)來(lái)發(fā)現(xiàn)論壇上熱點(diǎn)事件的傳播、擴(kuò)散過(guò)程的裝置和方法。
背景技術(shù):
BBS已經(jīng)成為網(wǎng)民發(fā)表觀點(diǎn)和交流思想的平臺(tái)。由于BBS具有的匿名性、開放性、 互動(dòng)性等特點(diǎn),使得網(wǎng)民可以自由的發(fā)表意見,同時(shí),BBS的廣泛應(yīng)用,給輿情管理和監(jiān)督帶 來(lái)了新的挑戰(zhàn)。BBS信息傳播的迅速往往使得信息變得不可控制,一個(gè)事件經(jīng)過(guò)網(wǎng)民的轉(zhuǎn) 載、傳播,便會(huì)在網(wǎng)絡(luò)上迅速擴(kuò)散,最終可能爆發(fā)輿論,因此需要對(duì)熱點(diǎn)事件的傳播過(guò)程實(shí) 時(shí)地發(fā)現(xiàn)和跟蹤,及時(shí)了掌握事件發(fā)展的最新動(dòng)向,從而更好地進(jìn)行網(wǎng)絡(luò)輿情監(jiān)控。發(fā)現(xiàn)論 壇之間熱點(diǎn)事件傳播過(guò)程是通過(guò)對(duì)目標(biāo)論壇信息的自動(dòng)抓取、主題檢測(cè)來(lái)發(fā)現(xiàn)熱點(diǎn)事件在 不同論壇之間的傳播過(guò)程,達(dá)到對(duì)網(wǎng)絡(luò)熱點(diǎn)事件實(shí)施準(zhǔn)確監(jiān)控和分析其來(lái)源的目的。論壇 之間熱點(diǎn)事件傳播過(guò)程發(fā)現(xiàn)的基本思路是采用文本挖掘技術(shù)處理論壇信息數(shù)據(jù)。目前國(guó)內(nèi)外在網(wǎng)絡(luò)熱點(diǎn)事件傳播過(guò)程發(fā)現(xiàn)方面取得了一定的研究成果。有些學(xué)者 從研究社會(huì)關(guān)系網(wǎng)絡(luò)入手,分析話題在論壇上的傳播過(guò)程。利用統(tǒng)計(jì)回歸模型考察各個(gè)因 素對(duì)傳播的影響[1],該方法主要說(shuō)明了論壇意見領(lǐng)袖對(duì)話題傳播有著重要的貢獻(xiàn)。隨著復(fù) 雜網(wǎng)絡(luò)研究的發(fā)展和深入,有些學(xué)者發(fā)現(xiàn)真實(shí)世界的流言的傳播也具有小世界網(wǎng)絡(luò)和無(wú)標(biāo) 度網(wǎng)絡(luò)的特性[2],這與BBS的事件傳播有著相同之處。萬(wàn)小軍等人研究了信息在各個(gè)新聞 網(wǎng)站之間的傳播轉(zhuǎn)載過(guò)程[3]。首先將一個(gè)新聞事件所有的文檔都獲取下來(lái),按發(fā)布時(shí)間排 序,依據(jù)傳播關(guān)鍵詞和相似度依次計(jì)算每個(gè)文檔的源文檔,從而得到該話題在不同網(wǎng)站之 間的整體傳播過(guò)程。趙麗提出了博客網(wǎng)絡(luò)中具有突發(fā)性的話題傳播模型[4],根據(jù)每個(gè)博客 節(jié)點(diǎn)的活躍度及外部場(chǎng)強(qiáng)計(jì)算某個(gè)博客節(jié)點(diǎn)關(guān)注話題的概率,從而預(yù)測(cè)可能參與話題的博 客節(jié)點(diǎn),該文獻(xiàn)的研究對(duì)象雖然是博客網(wǎng)絡(luò),但是研究成果對(duì)論壇話題傳播有一定的借鑒
眉、ο分析已有論壇熱點(diǎn)事件傳播過(guò)程發(fā)現(xiàn)技術(shù)可以看出,實(shí)現(xiàn)熱點(diǎn)事件傳播過(guò)程發(fā)現(xiàn) 的技術(shù)路線主要有兩條1.從行為上分析熱點(diǎn)事件的傳播過(guò)程論壇中的帖子與它的各個(gè)回復(fù)之間包含 著用戶之間的交互關(guān)系,因此可以從分析人際關(guān)系矩陣來(lái)對(duì)話題的傳播進(jìn)行研究。2.從內(nèi)容上分析熱點(diǎn)事件的傳播過(guò)程,主要依據(jù)各大網(wǎng)站對(duì)一個(gè)事件的轉(zhuǎn)載來(lái)分 析其在論壇上的傳播路徑,直觀地描述事件的整個(gè)傳播路徑和過(guò)程。目前對(duì)論壇上話題的傳播還沒有更多深入的研究,與其相關(guān)的新聞、博客的熱點(diǎn) 事件傳播有了 一定的研究基礎(chǔ)。與本發(fā)明申請(qǐng)有關(guān)的公開文件有[1]宮輝,徐渝.高效BBS社群結(jié)構(gòu)與信息傳播的影響因素[J].西安交通大學(xué)學(xué) 報(bào)(社會(huì)科學(xué)版)· 2007 (01);
[2]周輝.流言傳播的小世界網(wǎng)絡(luò)特性研究[J].武漢科技學(xué)院學(xué)報(bào).2005(01);[3]Wan, X. and J. Yang. Learning information diffusion process on theweb. in Proceedings of the 16th international conference on World WideWeb. 2007. Banff,Alberta,Canada :ACM ;[4]趙麗,袁睿翕,管曉宏.博客網(wǎng)絡(luò)中具有突發(fā)性的話題傳播模型[J].軟件學(xué) 報(bào).2009 (20)。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種能為網(wǎng)絡(luò)智能信息處理與輿情分析提供技術(shù)支持的論壇事件傳播圖的構(gòu)建裝置及構(gòu)建方法。本發(fā)明的目的是這樣實(shí)現(xiàn)的本發(fā)明的論壇事件傳播圖的構(gòu)建裝置由網(wǎng)絡(luò)事件數(shù)據(jù)收集裝置、網(wǎng)絡(luò)事件數(shù)據(jù)預(yù) 處理裝置、熱點(diǎn)事件發(fā)現(xiàn)裝置、傳播圖構(gòu)建裝置和輸出裝置連接構(gòu)成;網(wǎng)絡(luò)事件數(shù)據(jù)收集裝 置收集與某事件相關(guān)的原始數(shù)據(jù)信息輸入網(wǎng)絡(luò)事件數(shù)據(jù)預(yù)處理裝置;網(wǎng)絡(luò)事件數(shù)據(jù)預(yù)處理 裝置處理網(wǎng)絡(luò)事件數(shù)據(jù)收集裝置收集到的原始事件數(shù)據(jù),將原始事件數(shù)據(jù)轉(zhuǎn)換為適合本論 壇事件傳播圖的構(gòu)建裝置處理的表示形式即提取每篇帖子的發(fā)表時(shí)間、所在論壇、帖子文 本內(nèi)容,并將帖子文本內(nèi)容進(jìn)行分詞、特征提取,最終將帖子文本內(nèi)容以VSM的形式表現(xiàn)出 來(lái);熱點(diǎn)事件發(fā)現(xiàn)裝置對(duì)網(wǎng)絡(luò)事件數(shù)據(jù)預(yù)處理后的數(shù)據(jù)進(jìn)行聚類,將同一個(gè)事件的相關(guān)數(shù) 據(jù)聚集到一起;傳播圖構(gòu)建裝置建立事件在各個(gè)論壇之間的傳播途徑,并計(jì)算各個(gè)論壇對(duì) 事件傳播的貢獻(xiàn)值,得到傳播初始論壇、傳播核心論壇;輸出裝置輸出所發(fā)現(xiàn)的熱點(diǎn)事件的 傳播過(guò)程的詳細(xì)信息,包括在各個(gè)論壇之間的傳播途徑,以及各個(gè)論壇對(duì)事件傳播的貢獻(xiàn) 值。本發(fā)明的論壇事件傳播圖的構(gòu)建裝置還可以包括1、所述的網(wǎng)絡(luò)事件數(shù)據(jù)預(yù)處理裝置由網(wǎng)絡(luò)事件數(shù)據(jù)特征提取單元、特征權(quán)重計(jì)算 單元連接組成;網(wǎng)絡(luò)事件數(shù)據(jù)特征提取單元將能夠表達(dá)網(wǎng)絡(luò)事件數(shù)據(jù)的內(nèi)容、并且適合系 統(tǒng)處理的特征提取出來(lái);特征權(quán)重計(jì)算單元,采用TF-IDF方法計(jì)算特征的權(quán)重值,為計(jì)算 事件間相似度提供支持。2、所述的傳播圖構(gòu)建裝置由傳播圖初始化單元、傳播圖生成單元和論壇傳播權(quán)重 計(jì)算單元組成;傳播圖初始化單元對(duì)屬于一個(gè)事件的數(shù)據(jù)進(jìn)行按時(shí)間排序,確定傳播初始 論壇,并為后續(xù)分析計(jì)算做準(zhǔn)備;傳播圖生成單元根據(jù)本論壇優(yōu)先原則和相似度原則建立 兩個(gè)論壇之間的傳播聯(lián)系,從而得到事件在所有論壇上的傳播途徑;論壇傳播權(quán)重計(jì)算單 元計(jì)算每個(gè)論壇對(duì)事件傳播的貢獻(xiàn)大小,從而得到傳播事件的核心論壇。本發(fā)明的論壇事件傳播圖的構(gòu)建方法,包括以下步驟網(wǎng)絡(luò)事件信息采集步驟獲取當(dāng)前發(fā)表在各大論壇上、描述事件內(nèi)容的論壇帖子 數(shù)據(jù);網(wǎng)絡(luò)事件發(fā)現(xiàn)步驟采用Single-pass增量聚類算法對(duì)采集到的論壇帖子數(shù)據(jù)進(jìn) 行處理,發(fā)現(xiàn)當(dāng)前論壇上存在的若干網(wǎng)絡(luò)事件;傳播圖初始化步驟對(duì)屬于同一個(gè)事件的貼子數(shù)據(jù)按發(fā)表時(shí)間先后順序排序,并 提取每篇帖子的地域信息、確定傳播初始論壇,為后續(xù)分析計(jì)算做準(zhǔn)備;
傳播圖生成步驟根據(jù)本論壇優(yōu)先原則和相似度原則建立兩個(gè)論壇之間的傳播聯(lián) 系,從而得到事件在所有論壇上的傳播途徑;論壇傳播權(quán)重計(jì)算步驟計(jì)算每個(gè)論壇對(duì)事件傳播的貢獻(xiàn)大小,傳播圖中每個(gè)論 壇節(jié)點(diǎn)出度的加權(quán)和即是該論壇的傳播貢獻(xiàn)值,按貢獻(xiàn)值大小排序,從而得到傳播事件的 核心論壇;事件傳播圖輸出步驟用于輸出以有向圖形式表達(dá)的網(wǎng)絡(luò)熱點(diǎn)事件傳播途徑信 息,包括傳播事件的初始論壇,核心論壇、論壇的權(quán)值和傳播途徑信息。本發(fā)明的傳播圖建立的過(guò)程建立在以下兩個(gè)原則基礎(chǔ)上原則1 本論壇優(yōu)先原則當(dāng)一篇帖子的候選源貼有多個(gè)時(shí),優(yōu)先選擇與該帖子屬 于同一個(gè)論壇的候選源帖作為該帖子的源帖;原則2 相似度原則當(dāng)一篇帖子的候選源貼有多個(gè),并且沒有任何一個(gè)候選源帖 與該帖子屬于同一個(gè)論壇時(shí),選擇相似度最大的作為該帖子的源貼。本發(fā)明的有益效果在于,通過(guò)本發(fā)明可以實(shí)時(shí)發(fā)現(xiàn)目前發(fā)布論壇上的熱點(diǎn)事件傳 播過(guò)程和途徑信息,并且能夠了解各個(gè)論壇對(duì)事件傳播所做的貢獻(xiàn),以幫助網(wǎng)絡(luò)管理人員 能夠更為全面地了解和監(jiān)控網(wǎng)絡(luò)熱點(diǎn)事件的態(tài)勢(shì)。本發(fā)明可廣泛應(yīng)用于網(wǎng)絡(luò)輿情管理、互聯(lián)網(wǎng)智能信息處理等應(yīng)用領(lǐng)域。
附圖1本發(fā)明的裝置結(jié)構(gòu)框圖;附圖2 —個(gè)網(wǎng)絡(luò)熱點(diǎn)事件傳播過(guò)程發(fā)現(xiàn)方法的詳細(xì)流程圖;附圖3實(shí)施發(fā)明的典型應(yīng)用環(huán)境;附圖4網(wǎng)絡(luò)熱點(diǎn)事件傳播過(guò)程展現(xiàn)。
具體實(shí)施例方式下面結(jié)合附圖舉例對(duì)本發(fā)明做更詳細(xì)地描述圖1所示為一種實(shí)施多角度網(wǎng)絡(luò)事件熱點(diǎn)發(fā)現(xiàn)系統(tǒng),包括網(wǎng)絡(luò)事件數(shù)據(jù)收集裝置,用于輸入與某事件相關(guān)的原始內(nèi)容信息;網(wǎng)絡(luò)事件數(shù)據(jù)預(yù)處理裝置用于處理網(wǎng)絡(luò)事件數(shù)據(jù)收集裝置收集到的原始事件數(shù) 據(jù),將其轉(zhuǎn)換為適合本系統(tǒng)處理的表示形式;熱點(diǎn)事件發(fā)現(xiàn)裝置用于對(duì)網(wǎng)絡(luò)事件數(shù)據(jù)預(yù)處理后的數(shù)據(jù)進(jìn)行聚類,將同一個(gè)事 件的相關(guān)數(shù)據(jù)聚集到一起;傳播圖構(gòu)建裝置用于建立事件在各個(gè)論壇之間的傳播途徑,并計(jì)算各個(gè)論壇對(duì) 事件傳播的貢獻(xiàn)值,得到傳播初始論壇、傳播核心論壇;輸出裝置用于輸出系統(tǒng)所發(fā)現(xiàn)的熱點(diǎn)事件的傳播過(guò)程的詳細(xì)信息,包括在各個(gè)論壇之間的傳播途徑,以及各個(gè)論壇對(duì)事件傳播的貢獻(xiàn)值。所述的網(wǎng)絡(luò)事件數(shù)據(jù)收集裝置可以是網(wǎng)絡(luò)爬蟲,也可以是由管理員通過(guò)手工實(shí)現(xiàn)。所述的輸出裝置可以將發(fā)現(xiàn)的網(wǎng)絡(luò)熱點(diǎn)事件的傳播途徑信息輸出到個(gè)人計(jì)算機(jī)等其他的信息處理裝置及存儲(chǔ)裝置中。
圖2給出了論壇熱點(diǎn)事件傳播過(guò)程發(fā)現(xiàn)方法的原理流程圖。1.網(wǎng)絡(luò)事件數(shù)據(jù)收集本發(fā)明利用網(wǎng)絡(luò)爬蟲以增量方式采集各大論壇帖子數(shù)據(jù)。具體采集過(guò)程是基于廣度優(yōu)先策略,默認(rèn)采集深度是三層。在這種策略下,爬蟲首先采集實(shí)現(xiàn)指定種子頁(yè)面中的論 壇帖子原始數(shù)據(jù),然后采集該頁(yè)面中相關(guān)鏈接所指向頁(yè)面中的相關(guān)數(shù)據(jù),以此類推,直至全 部采集完畢。2.網(wǎng)絡(luò)事件數(shù)據(jù)預(yù)處理本發(fā)明采用向量空間模型作為網(wǎng)絡(luò)事件的形式化描述,網(wǎng)絡(luò)事件數(shù)據(jù)向量化包括 如下步驟(1)利用分詞詞典對(duì)網(wǎng)絡(luò)事件數(shù)據(jù)進(jìn)行分詞處理,提取其中的實(shí)詞,去掉虛詞和停 用詞;(2)采用TF-IDF方法確定分詞后的每個(gè)詞的權(quán)重,TF-IDF的計(jì)算方法如下式<formula>formula see original document page 6</formula>
其中Wi表示第i個(gè)特征詞的權(quán)重,TFi (t,d)表示詞t在文檔d中的出現(xiàn)頻率,N 表示文檔總數(shù),DF(t)表示包含詞t的文檔數(shù)。(3)由每個(gè)詞的權(quán)重作為分量,形成該網(wǎng)絡(luò)事件的向量表示。3.熱點(diǎn)事件發(fā)現(xiàn)本發(fā)明每個(gè)類用一個(gè)向量空間模型來(lái)描述,將后續(xù)帖子的主貼信息進(jìn)行向量化 后,計(jì)算其與各個(gè)類別的相似度,并且根據(jù)相似度的大小進(jìn)行歸類如果相似度小于新事件 閾值(假設(shè)為0.3),為該帖子新建一個(gè)類,否則,把該帖子歸為相似度最大的類別。相似度 計(jì)算采用下面的公式<formula>formula see original document page 6</formula>
其中D和T為兩個(gè)向量,Qi為向量D的第i個(gè)分量的值,Cli為向量T的第i個(gè)分 量的值,H為向量的維數(shù)。4.傳播圖構(gòu)建論壇上帖子的發(fā)布方式分為三種類型第一是原貼,即每個(gè)事件的第一篇帖子。對(duì) 于每個(gè)話題來(lái)說(shuō)只有一篇原貼;第二是受到本論壇其他帖子影響而發(fā)布的帖子,第三是受 到其他論壇影響而發(fā)布的帖子。D = < (11;(12^3,.. .,dn >為按帖子發(fā)表時(shí)間由先到后的排 序,Cl1即為該話題的原貼;對(duì)于每個(gè)屯(1 < i < = η),分析其與排在它前面的帖子的關(guān)系 若存在j,(1 =< j < i),使…與Cli屬于同一個(gè)論壇,則認(rèn)為Cli是受本論壇其他帖子的影 響而發(fā)布的,則在該論壇上建立一條指向自身的邊,邊的權(quán)值加1 ;若任何一個(gè)+(I =< j < i)都與Cli不屬于同一個(gè)論壇,則計(jì)算Cli與+ (I = < j < i)的文本相似度,選擇相似度 最大的dj,那么di是受到dj所在論壇的影響而發(fā)布的,建立一條由Clj所在論壇指向Cli所 在論壇的邊,權(quán)值為1。依據(jù)上述影響關(guān)系,可以建立起一個(gè)完整的論壇傳播圖。在建立的 論壇傳播圖基礎(chǔ)上可以計(jì)算各個(gè)論壇對(duì)傳播的貢獻(xiàn)值。一個(gè)論壇的影響力為其出度的加權(quán)和。通過(guò)對(duì)影響力大小進(jìn)行排序,可以得出對(duì)話題傳播貢獻(xiàn)大的論壇,即傳播的核心論壇。 其中采用的相似度計(jì)算方法與熱點(diǎn)事件發(fā)現(xiàn)時(shí)采用的方法相同。5.實(shí)施例場(chǎng)景與結(jié)果描述為了驗(yàn)證本發(fā)明的有效性,我們搭建了典型應(yīng)用環(huán)境,圖3為實(shí)施例的典型應(yīng)用 環(huán)境。實(shí)驗(yàn)采用AMD 0PTER0N 2G的曙光服務(wù)器,操作系統(tǒng)為2. 6. 16. 19內(nèi)核的Linux企業(yè) 版。實(shí)驗(yàn)從7個(gè)論壇上收集了關(guān)于事件“政法大學(xué)學(xué)生砍死教授”的帖子,每個(gè)論壇收 集7篇帖子。圖4展現(xiàn)了事件的傳播過(guò)程。從圖4中可知,傳播該話題的初始論壇是新華論壇,并且可知每個(gè)論壇對(duì)該話題 的貢獻(xiàn)大小新華論壇11,中華論壇7,其余論壇6。因此,新華論壇和中華論壇對(duì)該話題 的傳播貢獻(xiàn)較大,是傳播話題的核心論壇。從圖中,除了可以了解傳播某話題的核心論壇, 還可以直觀地了解到論壇之間的相互影響關(guān)系。
權(quán)利要求
一種論壇事件傳播圖的構(gòu)建裝置,其特征是由網(wǎng)絡(luò)事件數(shù)據(jù)收集裝置、網(wǎng)絡(luò)事件數(shù)據(jù)預(yù)處理裝置、熱點(diǎn)事件發(fā)現(xiàn)裝置、傳播圖構(gòu)建裝置和輸出裝置連接構(gòu)成;網(wǎng)絡(luò)事件數(shù)據(jù)收集裝置收集與某事件相關(guān)的原始數(shù)據(jù)信息輸入網(wǎng)絡(luò)事件數(shù)據(jù)預(yù)處理裝置;網(wǎng)絡(luò)事件數(shù)據(jù)預(yù)處理裝置處理網(wǎng)絡(luò)事件數(shù)據(jù)收集裝置收集到的原始事件數(shù)據(jù),將原始事件數(shù)據(jù)轉(zhuǎn)換為適合本論壇事件傳播圖的構(gòu)建裝置處理的表示形式,即提取每篇帖子的發(fā)表時(shí)間、所在論壇、帖子文本內(nèi)容,并將帖子文本內(nèi)容進(jìn)行分詞、特征提取,最終將帖子文本內(nèi)容以向量空間模型的形式表現(xiàn)出來(lái);熱點(diǎn)事件發(fā)現(xiàn)裝置對(duì)網(wǎng)絡(luò)事件數(shù)據(jù)預(yù)處理后的數(shù)據(jù)進(jìn)行聚類,將同一個(gè)事件的相關(guān)數(shù)據(jù)聚集到一起;傳播圖構(gòu)建裝置建立事件在各個(gè)論壇之間的傳播途徑,并計(jì)算各個(gè)論壇對(duì)事件傳播的貢獻(xiàn)值,得到傳播初始論壇、傳播核心論壇;輸出裝置輸出所發(fā)現(xiàn)的熱點(diǎn)事件的傳播過(guò)程的詳細(xì)信息,包括在各個(gè)論壇之間的傳播途徑,以及各個(gè)論壇對(duì)事件傳播的貢獻(xiàn)值。
2.根據(jù)權(quán)利要求1所述的論壇事件傳播圖的構(gòu)建裝置,其特征是所述的網(wǎng)絡(luò)事件數(shù) 據(jù)預(yù)處理裝置由網(wǎng)絡(luò)事件數(shù)據(jù)特征提取單元、特征權(quán)重計(jì)算單元連接組成;網(wǎng)絡(luò)事件數(shù)據(jù) 特征提取單元將能夠表達(dá)網(wǎng)絡(luò)事件數(shù)據(jù)的內(nèi)容、并且適合系統(tǒng)處理的特征提取出來(lái);特征 權(quán)重計(jì)算單元,采用TF-IDF方法計(jì)算特征的權(quán)重值,為計(jì)算事件間相似度提供支持。
3.根據(jù)權(quán)利要求1或2所述的論壇事件傳播圖的構(gòu)建裝置,其特征是所述的傳播圖 構(gòu)建裝置由傳播圖初始化單元、傳播圖生成單元和論壇傳播權(quán)重計(jì)算單元組成;傳播圖初 始化單元對(duì)屬于一個(gè)事件的數(shù)據(jù)進(jìn)行按時(shí)間排序,確定傳播初始論壇,并為后續(xù)分析計(jì)算 做準(zhǔn)備;傳播圖生成單元根據(jù)本論壇優(yōu)先原則和相似度原則建立兩個(gè)論壇之間的傳播聯(lián) 系,從而得到事件在所有論壇上的傳播途徑;論壇傳播權(quán)重計(jì)算單元計(jì)算每個(gè)論壇對(duì)事件 傳播的貢獻(xiàn)大小,從而得到傳播事件的核心論壇。
4.一種論壇事件傳播圖的構(gòu)建方法,其特征是包括以下步驟網(wǎng)絡(luò)事件信息采集步驟獲取當(dāng)前發(fā)表在各大論壇上、描述事件內(nèi)容的論壇帖子數(shù)據(jù);網(wǎng)絡(luò)事件發(fā)現(xiàn)步驟采用Single-pass增量聚類算法對(duì)采集到的論壇帖子數(shù)據(jù)進(jìn)行處 理,發(fā)現(xiàn)當(dāng)前論壇上存在的若干網(wǎng)絡(luò)事件;傳播圖初始化步驟對(duì)屬于同一個(gè)事件的貼子數(shù)據(jù)按發(fā)表時(shí)間先后順序排序,并提取 每篇帖子的地域信息、確定傳播初始論壇,為后續(xù)分析計(jì)算做準(zhǔn)備;傳播圖生成步驟根據(jù)本論壇優(yōu)先原則和相似度原則建立兩個(gè)論壇之間的傳播聯(lián)系, 從而得到事件在所有論壇上的傳播途徑;論壇傳播權(quán)重計(jì)算步驟計(jì)算每個(gè)論壇對(duì)事件傳播的貢獻(xiàn)大小,傳播圖中每個(gè)論壇節(jié) 點(diǎn)出度的加權(quán)和即是該論壇的傳播貢獻(xiàn)值,按貢獻(xiàn)值大小排序,從而得到傳播事件的核心 論壇;事件傳播圖輸出步驟用于輸出以有向圖形式表達(dá)的網(wǎng)絡(luò)熱點(diǎn)事件傳播途徑信息,包 括傳播事件的初始論壇,核心論壇、論壇的權(quán)值和傳播途徑信息。
全文摘要
本發(fā)明提供的是一種論壇事件傳播圖的構(gòu)建裝置及構(gòu)建方法。論壇事件傳播圖的構(gòu)建裝置由網(wǎng)絡(luò)事件數(shù)據(jù)收集裝置、網(wǎng)絡(luò)事件數(shù)據(jù)預(yù)處理裝置、熱點(diǎn)事件發(fā)現(xiàn)裝置、傳播圖構(gòu)建裝置和輸出裝置連接構(gòu)成。論壇事件傳播圖的構(gòu)建方法包括網(wǎng)絡(luò)事件信息采集步驟、網(wǎng)絡(luò)事件發(fā)現(xiàn)步驟、傳播圖初始化步驟、傳播圖生成步驟、論壇傳播權(quán)重計(jì)算步驟和事件傳播圖輸出步驟。通過(guò)本發(fā)明可以實(shí)時(shí)發(fā)現(xiàn)目前發(fā)布論壇上的熱點(diǎn)事件傳播過(guò)程和途徑信息,并且能夠了解各個(gè)論壇對(duì)事件傳播所做的貢獻(xiàn),以幫助網(wǎng)絡(luò)管理人員能夠更為全面地了解河監(jiān)控網(wǎng)絡(luò)熱點(diǎn)事件的態(tài)勢(shì)。本發(fā)明可廣泛應(yīng)用于網(wǎng)絡(luò)輿情管理、互聯(lián)網(wǎng)智能信息處理等應(yīng)用領(lǐng)域。
文檔編號(hào)G06F17/30GK101819585SQ20101013361
公開日2010年9月1日 申請(qǐng)日期2010年3月29日 優(yōu)先權(quán)日2010年3月29日
發(fā)明者楊武, 王巍, 苘大鵬, 趙慧杰 申請(qǐng)人:哈爾濱工程大學(xué)