專利名稱:一種基于聯(lián)合聚類的煤礦輿情監(jiān)測系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本申請屬于煤礦數(shù)據(jù)分析和數(shù)據(jù)挖掘領(lǐng)域。
背景技術(shù):
國內(nèi)的網(wǎng)絡(luò)輿情研究始于2005年,目如已成為相關(guān)學(xué)科領(lǐng)域?qū)<业年P(guān)注熱點(diǎn),方興未艾。目前的輿情研究多以群體事件、司法事件或政治事件為研究著力點(diǎn),面向公共輿情為主。“煤礦輿情”作為涉及煤礦生產(chǎn)、傳播學(xué)、中文信息處理與計(jì)算機(jī)網(wǎng)絡(luò)的交叉研究領(lǐng)域,始于2010年前后,至今仍鮮有應(yīng)用。近兩年來,煤礦生產(chǎn)的相關(guān)輿論熱點(diǎn)不斷在網(wǎng)絡(luò)上涌現(xiàn),煤礦生產(chǎn)秩序、煤礦安全與煤礦制度及監(jiān)管三者在更深層次上開始互動,新時期多種語言、文化和社會關(guān)系的博弈,通過網(wǎng)絡(luò)平臺體現(xiàn)出來。煤礦輿情呈現(xiàn)出“熱點(diǎn)頻度高、指向煤礦生產(chǎn)重大問題、誘發(fā)群體事件”的趨勢。以微博、博客、社交網(wǎng)絡(luò)、即時通訊系統(tǒng)為代表的自媒體(We Media)打破信息的控制和壟斷,在網(wǎng)絡(luò)上人們自由表達(dá)自己的態(tài)度和意見,不再像過去那么容易地?zé)o條件接受,相反,不同階層的利益訴求紛紛呈現(xiàn),不同思想觀點(diǎn)正面碰撞。在這種情況下,建設(shè)能夠覆蓋多數(shù)據(jù)源的煤礦輿情監(jiān)測系統(tǒng)十分必要,此類系統(tǒng)可針對新的媒介傳播環(huán)境,進(jìn)一步深入研究煤礦輿情的熱點(diǎn)研判方法以及自媒體帶來的影響,對煤礦輿情研究進(jìn)行豐富和完
盡
口 ο目前為止,尚未有與Web信息檢索技術(shù)相結(jié)合的煤礦輿情監(jiān)測系統(tǒng)。
發(fā)明內(nèi)容
本發(fā)明提出一種基于聯(lián)合聚類的煤礦輿情監(jiān)測系統(tǒng),該系統(tǒng)包括數(shù)據(jù)采集與內(nèi)容過濾模塊、數(shù)據(jù)預(yù)處理模塊、煤礦輿情分析模塊和輿情結(jié)果呈現(xiàn)模塊,其中數(shù)據(jù)采集與內(nèi)容過濾模塊通過指定關(guān)鍵詞、來源URL或信息主題,在源數(shù)據(jù)中過濾出煤礦領(lǐng)域信息;數(shù)據(jù)預(yù)處理模塊包括正文抽取子模塊、中文分詞子模塊、停用詞過濾子模塊、輿情熱度提取子模塊;煤礦輿情分析模塊以數(shù)據(jù)預(yù)處理模塊中的數(shù)據(jù)為基礎(chǔ),采用聯(lián)合聚類算法發(fā)現(xiàn)輿情的熱點(diǎn);輿情結(jié)果呈現(xiàn)模塊以圖表或報告形式輸出輿情結(jié)果。優(yōu)選地,在 煤礦輿情分析模塊中,聯(lián)合聚類算法的具體步驟如下:1)初始化:(1)針對文檔-特征詞二維矩陣,用X表示文檔集合X = {Xl,X2,...,X1J,Y表示特征詞集合Y = Iy1, I2, yj,其中m為文檔的總數(shù),η為集合中特征詞的個數(shù),即文檔向量的維度;(2)將m個文檔分成P組,形成P個文檔簇,分別記為C1, c2,...,cP,這P個簇組成的集合記為(:,簇(^所包含的文檔記為^42,.^^ I彡i彡p,i為自然數(shù),IciI表示簇Ci所包含的文檔數(shù)目;將η個特征詞分成Q組,形成Q個特征詞簇,分別記為11;12,...,1Q, Q個簇組成的集合記為L,簇Ij所包含的特征詞記為AWw,I,I彡j彡Q,j為自然數(shù),1 L 1示簇L所包含的特征詞數(shù)目。
2)更新向量表示:文檔Xe的向量表示記為
權(quán)利要求
1.一種基于聯(lián)合聚類的煤礦輿情監(jiān)測系統(tǒng),該系統(tǒng)包括數(shù)據(jù)采集與內(nèi)容過濾模塊、數(shù)據(jù)預(yù)處理模塊、煤礦輿情分析模塊和輿情結(jié)果呈現(xiàn)模塊,其中數(shù)據(jù)采集與內(nèi)容過濾模塊通過指定與煤礦相關(guān)的關(guān)鍵詞、來源URL或信息主題,在源數(shù)據(jù)中過濾出煤礦領(lǐng)域信息;數(shù)據(jù)預(yù)處理模塊包括正文抽取子模塊、中文分詞子模塊、停用詞過濾子模塊、輿情熱度提取子模塊;煤礦輿情分析模塊以數(shù)據(jù)預(yù)處理模塊中的數(shù)據(jù)為基礎(chǔ),采用聯(lián)合聚類算法發(fā)現(xiàn)輿情的熱點(diǎn);輿情結(jié)果呈現(xiàn)模塊以圖表或報告形式輸出輿情結(jié)果;其特征在于:在煤礦輿情分析模塊中,聯(lián)合聚類算法的具體步驟如下: 1)初始化: (1)針對文檔-特征詞二維矩陣,用X表示文檔集合X= (X1, X2,..., xj , Y表示特征詞集合Y = Iy1, y2,...,yn},其中m為文檔的總數(shù),η為集合中特征詞的個數(shù),即文檔向量的維度; (2)將m個文檔分成P組,形成P個文檔簇,分別記為C1,c2,...,CP,這P個簇組成的集合記為C,簇Ci所包含的文檔記為,I彡i彡P(guān), i為自然數(shù),I Ci I表示簇Ci所包含的文檔數(shù)目;將η個特征詞分成Q組,形成Q個特征詞簇,分別記為I1, 12,...,1Q, Q個簇組成的集合記為L,簇Ij所包含的特征詞記為A A2,…,,I彡j彡Q,j為自然數(shù),Ij I表示簇L所包含的特征詞數(shù)目。
2)更新向量表示: 文檔Xe的向量表示記為毛= 0(ΑΙ\),...,Ρ(Ζβ丨\)),I彡e彡m,e為自然數(shù),P (lj k)表示文檔Xe條件下特征詞簇Ij的概率,
全文摘要
本發(fā)明提出一種基于聯(lián)合聚類的煤礦輿情監(jiān)測系統(tǒng),該系統(tǒng)包括數(shù)據(jù)采集與內(nèi)容過濾模塊、數(shù)據(jù)預(yù)處理模塊、煤礦輿情分析模塊和輿情結(jié)果呈現(xiàn)模塊。煤礦輿情分析模塊是該系統(tǒng)中的核心模塊,采用了Web數(shù)據(jù)挖掘領(lǐng)域中的聚類算法,發(fā)明人在基于信息瓶頸理論的增量聚類方法的基礎(chǔ)上,充分考慮了部分特征以及特征和特征間的相關(guān)性,從而提高了聚類結(jié)果的準(zhǔn)確性和精確性。該系統(tǒng)面向微博、博客、論壇以及門戶網(wǎng)站等網(wǎng)絡(luò)資源,所采集的信息經(jīng)去重、中文分詞、停用詞過濾等數(shù)據(jù)預(yù)處理步驟后,建立煤礦輿情庫,同時基于文本分類、文本聚類等數(shù)據(jù)挖掘算法進(jìn)行熱點(diǎn)發(fā)現(xiàn)以及輿情熱度分析,最后以數(shù)據(jù)性圖標(biāo)以及輿情報表的形式給出監(jiān)測結(jié)果。
文檔編號G06F17/30GK103150335SQ20131003917
公開日2013年6月12日 申請日期2013年1月25日 優(yōu)先權(quán)日2013年1月25日
發(fā)明者劉永利, 賈宗璞, 王建芳, 韓秀娟, 杜守恒 申請人:河南理工大學(xué)