面向云平臺的一種政務輿情監(jiān)控方法
【技術領域】
[0001] 本發(fā)明設及云計算技術領域,尤其是面向云平臺的一種政務輿情監(jiān)控方法。
【背景技術】
[0002] 基于云數(shù)據(jù)庫的分布式實時智能監(jiān)控方法,整合互聯(lián)網(wǎng)信息采集技術及信息智能 處理技術,通過對互聯(lián)網(wǎng)海量信息自動抓取、自動分類聚類、主題檢測、專題聚焦,實現(xiàn)用戶 的網(wǎng)絡輿情監(jiān)測和新聞專題追蹤等信息需求,形成簡報、報告、圖表等分析結果,為客戶全 面掌握群眾思想動態(tài),做出正確輿論引導,提供分析依據(jù)。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明解決的技術問題在于提供面向云平臺的一種政務輿情監(jiān)控方法。
[0004] 本發(fā)明解決上述技術問題的技術方案是:
[0005] 所述的方法包括數(shù)據(jù)采集、數(shù)據(jù)預處理、數(shù)據(jù)分析及預警;所述的系統(tǒng)搭載在分布 式集群上,由一個作為主節(jié)點的爬蟲服務器和多個作為從節(jié)點的爬蟲客戶端組成,主節(jié)點 負責任務分配,子節(jié)點負責任務執(zhí)行,主從節(jié)點之間采用加密的屯、跳包進行通信;從節(jié)點上 包括數(shù)據(jù)采集、預處理、分析及預警模塊;所述的采集模塊根據(jù)用戶配置、W及知識庫抓取 論壇、新聞、貼吧、博客等數(shù)據(jù),并自動過濾重復數(shù)據(jù),構建主題數(shù)據(jù)庫;數(shù)據(jù)預處理模炔基 于規(guī)則和自動混合的方式提取正文數(shù)據(jù);數(shù)據(jù)分析及預警模塊利用機器學習的方法對清洗 后的文本進行聚類、情感分析、熱點分析,并對分析結果進行預警。
[0006] 所述的主從節(jié)點之間的通信,包括如下步驟:
[0007] 第一步,用戶開啟采集任務;
[000引第二步,主節(jié)點保存任務信息到元數(shù)據(jù)信息庫;
[0009] 第Ξ步,主節(jié)點根據(jù)用戶配置信息進行任務初始化;
[0010] 第四步,主節(jié)點根據(jù)叢節(jié)點的CPU、內(nèi)存、當前任務數(shù)等指標進行任務分配;
[00川第五步,從節(jié)點接收任務;
[0012]第六步,從節(jié)點發(fā)送成功接收任務消息到主節(jié)點;
[001引第屯步,主節(jié)點寫任務信息到元數(shù)據(jù)庫;
[0014] 第八步,從節(jié)點開始執(zhí)行任務;
[0015] 第九步,若主節(jié)點N次未接收到從節(jié)點屯、跳包,則視為叢節(jié)點巖機并記錄到日志系 統(tǒng),并重新分配任務給其他節(jié)點。
[0016] 所述的采集模塊具體處理流程是:
[0017] 第一步,獲取待采集的1]化;
[001引第二步,通過數(shù)據(jù)路由器對URL進行過濾;
[0019] 第Ξ步,抓取頁面數(shù)據(jù);
[0020] 第四步,對抓取的數(shù)據(jù)進行文本抽取,鏈接抽取,把抽取的鏈接加入待采集URL集 合;
[0021 ]第五步,自動文本特征提取,生成網(wǎng)頁指紋;
[0022] 第六步,檢測是否為有相同文章;
[0023] 第屯步,如果已有相同文章則放棄抓取返回第一步,否則對正文文本進行分詞操 作;
[0024] 第八步,用TF_IDF算法提取N個關鍵詞;
[0025] 第九步,找到與其重合度最高的m篇文章;
[0026] 第十步,若其重合度大于C則歸為相應主題數(shù)據(jù)庫;
[0027] 第十一步,建立倒排索引W供其他模塊使用。
[0028] 所述的數(shù)據(jù)分析及預警模塊具體處理流程是:
[0029] 第一步,將主題數(shù)據(jù)庫進行重構,選擇有代表性的數(shù)據(jù);
[0030] 第二步,對每篇文檔進行情感分析并計算分值化ndency e [-1,1 ];
[0031 ]第Ξ步,對上述分析結果記入預警數(shù)據(jù)庫;
[0032] 第四步,計算預警級別,預警級別
其中degreei代表第i 篇文檔的熱度,其計算公式為:
[0033] degreei=(praisei X 0.3+commenti X 0.7)/(houri+2)
[0034] 其中:praisei代表贊數(shù),commenti代表評論數(shù),houri代表發(fā)帖時間到現(xiàn)在的時差;
[0035] 第五步,根據(jù)預警策略和預警級別給予email或短信等相應預警信息。
[0036] 所述的自動文本特征提取,生成網(wǎng)頁指紋的步驟是:。
[0037] 第一步,提取正文各段落首句關鍵詞(去掉停用詞)作為文章的主特征;
[0038] 第二步,提取正文各段落的標點符號作為副特征;
[0039] 第Ξ步,分別對主特征和副特征使用Sim化sh,然后拼接兩段特征碼,得到整個文 章的指紋;
[0040] 第四步,存入緩存數(shù)據(jù)庫。
[0041] 本發(fā)明采用分布式多線程的方式提高了抓取速度,提高了新聞的時效性;通過URL 去重和使用文本相似度算法檢測文本重復性,從而節(jié)省了磁盤空間,也同時提高了抓取速 度;通過網(wǎng)頁指紋算法提高了網(wǎng)頁重復性檢測的速度W及準確度。
【附圖說明】
[0042] 下面結合附圖對本發(fā)明進一步說明:
[0043] 圖1是本發(fā)明運用框架圖;
[0044] 圖2是主從節(jié)點架構圖;
[0045]圖3是屯、數(shù)據(jù)抓取流程圖;
[0046] 圖4是數(shù)據(jù)分析流程圖。
【具體實施方式】
[0047] 如圖1至4所示,本發(fā)明方法包括數(shù)據(jù)采集、數(shù)據(jù)預處理、數(shù)據(jù)分析及預警;所述的 系統(tǒng)搭載在分布式集群上,由一個作為主節(jié)點的爬蟲服務器和多個作為從節(jié)點的爬蟲客戶 端組成,主節(jié)點負責任務分配,子節(jié)點負責任務執(zhí)行,主從節(jié)點之間采用加密的屯、跳包進行 通信;從節(jié)點上包括數(shù)據(jù)采集、預處理、分析及預警模塊;所述的采集模塊根據(jù)用戶配置、w 及知識庫抓取論壇、新聞、貼吧、博客等數(shù)據(jù),并自動過濾重復數(shù)據(jù),構建主題數(shù)據(jù)庫;數(shù)據(jù) 預處理模炔基于規(guī)則和自動混合的方式提取正文數(shù)據(jù);數(shù)據(jù)分析及預警模塊利用機器學習 的方法對清洗后的文本進行聚類、情感分析、熱點分析,并對分析結果進行預警。
[0048] 如圖2所示:所述的一個主節(jié)點和多個從節(jié)點組成,主節(jié)點負責任務分配,子節(jié)點 負責任務執(zhí)行,主從節(jié)點之間采用加密的屯、跳包進行通信,包括如下步驟:
[0049] 第一步,用戶開啟采集任務;
[0050] 第二步,主節(jié)點保存任務信息到元數(shù)據(jù)信息庫;
[0051] 第Ξ步,主節(jié)點根據(jù)用戶配置信息進行任務初始化;
[0052] 第四步,主節(jié)點根據(jù)叢節(jié)點的CPU、內(nèi)存、當前任務數(shù)等指標進行任務分配;
[0053] 第五步,從節(jié)點接收任務;
[0054] 第六步,從節(jié)點發(fā)送成功接收任務消息到主節(jié)點;
[0055] 第屯步,主節(jié)點寫任務信息到元數(shù)據(jù)庫;
[0056] 第八步,從節(jié)點開始執(zhí)行任務;
[0057] 第九步,若主節(jié)點N次未接收到從節(jié)點屯、跳包,則視為叢節(jié)點巖機并記錄到日志系 統(tǒng),并重新分配任務給其他節(jié)點。
[0058] 如圖3所示:所述的采集模塊根據(jù)用戶配置、W及知識庫抓取論壇、新聞、貼吧、博 客等數(shù)據(jù),并過濾重復數(shù)據(jù),構建主題數(shù)據(jù)庫,包括如下流程:
[0059] 第一步,獲取待采集的11化;
[0060] 第二步,通過數(shù)據(jù)路由器對ML進行過濾;
[0061] 第Ξ步,抓取頁面數(shù)據(jù);
[0062] 第四步,對抓取的數(shù)據(jù)進行文本抽取,鏈