本發(fā)明涉及大數據云計算技術領域,特別涉及一種基于數據挖掘技術的輿情監(jiān)測系統(tǒng)。
背景技術:
網絡輿情是指在互聯(lián)網上流行的對社會問題不同看法的網絡輿論,是社會輿論的一種表現形式,是通過互聯(lián)網傳播的公眾對現實生活中某些熱點、焦點問題所持的有較強影響力、傾向性的言論和觀點。網絡輿情其表現方式主要為:新聞評論、BBS論壇、博客、播客、微博、聚合新聞(RSS)、新聞跟帖及轉帖等等。
網絡輿情表達快捷、信息多元,方式互動。網絡的開放性和虛擬性,決定了網絡輿情具有以下特點:直接性、隨意性和多元化、突發(fā)性、隱蔽性、偏差性。這也對網絡輿情的監(jiān)測帶來了難度。
技術實現要素:
有鑒于此,本發(fā)明提出一種基于數據挖掘技術的輿情監(jiān)測系統(tǒng)。
一種基于數據挖掘技術的輿情監(jiān)測系統(tǒng),其包括如下單元:
數據獲取單元,用于通過網絡爬蟲程序爬取互聯(lián)網輿情初始數據;
分片單元,用于將互聯(lián)網輿情初始數據進行輸入分片,將各個輸入分片分配一個映射任務,輸入分片存儲分片長度以及記錄數據的位置的數組;
通過預先編寫的映射函數在數據存儲節(jié)點上進行映射得到中間文件;
計算單元,用于合并中間文件中的重復鍵值,以降低映射輸出文件冗余;并對合并后的鍵值進行序列化得到映射緩存文件;自動獲取各個計算節(jié)點的計算負載值,根據計算節(jié)點的計算負載值將各個映射緩存文件分配到各個計算節(jié)點中;
緩存單元,用于在內存中開辟環(huán)形內存緩沖區(qū),環(huán)形內存緩沖區(qū)用于映射輸出文件輸出;在環(huán)形內存緩沖區(qū)中創(chuàng)建配置文件,在配置文件中配置內存緩沖區(qū)的內存占用閾值;在環(huán)形內存緩沖區(qū)中內存占用大于或等于占用閾值時,保護線程暫停將數據寫入內存,并在內存中寫入溢出文件,溢出文件確定寫入磁盤的文件,并將環(huán)形內存緩沖區(qū)的文件寫入磁盤直至所有的映射輸出文件輸出完畢;
輸出單元,用于將所有的映射輸出文件并存儲到分布式文件存儲系統(tǒng)上;
建模單元,用于建立網絡輿情預測模型;
預測單元,用于從分布式文件存儲系統(tǒng)上讀取映射輸出文件并通過網絡輿情預測模型進行輿情預測。
在本發(fā)明所述的基于數據挖掘技術的輿情監(jiān)測系統(tǒng)中,
所述數據獲取單元包括:
通過網絡爬蟲程序從自定義抓取列表中取出鏈接地址,獲取網絡文本;
對網絡頁面進行檢測深度網絡數據源,取出數據噪聲,提取正文文本,進行主題相關度判定處理。
在本發(fā)明所述的基于數據挖掘技術的輿情監(jiān)測系統(tǒng)中,所述分片單元中對互聯(lián)網輿情初始數據進行輸入分片包括:
建立關聯(lián)關系表,將輸入文件拆分為位置關系值、活動關系值、結構關系值、功能關系值、功能關系值、行為關系值以及其他關系值,并將各個輸入文件的各個關系值的對應關系寫入關聯(lián)關系表中;
將各個關系值對應的數據劃入輸入分片中。
在本發(fā)明所述的基于數據挖掘技術的輿情監(jiān)測系統(tǒng)中,所述分片單元中通過預先編寫的映射函數在數據存儲節(jié)點上進行映射得到中間文件包括:
通過預先編寫的映射函數將輸入分片按照映射任務進行映射,所述映射包括按照預先設置的數據格式將輸入分片內容進行列表對齊,判斷位置關系值、活動關系值、結構關系值、功能關系值、功能關系值、行為關系值以及其他關系值是否存在,如果各個關系值存在則直接保留,如果不存在某一項或某幾項關系值,則缺失的關系值為空;各個關系的排列順序均保持一致。
在本發(fā)明所述的基于數據挖掘技術的輿情監(jiān)測系統(tǒng)中,
所述輸出單元包括:
從關聯(lián)關系表中查詢各個映射輸出文件對應的所有索引信息,將各個映射輸出文件的每個對應一個段數據插入到段列表中;記錄段數據的位置關系值、活動關系值、結構關系值、功能關系值、功能關系值、行為關系值以及其他關系值。
在本發(fā)明所述的基于數據挖掘技術的輿情監(jiān)測系統(tǒng)中,
所述分片單元中對通過預先編寫的映射函數將輸入分片按照映射任務進行映射還包括根據關聯(lián)關系表判斷輸入分片是否存在邏輯錯誤,如存在則丟棄該輸入分片。
在本發(fā)明所述的基于數據挖掘技術的輿情監(jiān)測系統(tǒng)中,
所述建模單元包括:
將所有的映射輸出文件采用聚類算法進行構造,形成有序網絡輿情數據信息;
對有序網絡輿情數據信息進行灰色累加,生成累加序列,序列公式如下:
x(1)=[x(1)(1),x(1)(2),...x(1)(n)],其中
通過統(tǒng)一化方法將生成的累加序列數據進行縮放,將其變換為[0,1]之間,歸一化的公式為:其中xi,xi’分別表示轉換前后的值,min(x)、max(x)分別表示有序網絡輿情數據信息的最大值和最小值;
建立網絡輿情灰度模型,并對預先輸入的樣本進行預測,對預測值進行累減還原運算得到網絡輿情預測值;
計算網絡閾值預測值與實際值的殘差得到殘差訓練樣本;
將殘差訓練樣本輸入反向傳播神經網絡進行訓練,并用粒子群算法進行優(yōu)化得到網絡輿情預測模型。
實施本發(fā)明提供的基于數據挖掘技術的輿情監(jiān)測系統(tǒng)與現有技術相比具有以下有益效果:通過把海量的網絡輿情數據按照預先設置的規(guī)則分割成了若干部分,分給多臺處理器并行處理;然后把各臺處理器處理后的結果進行匯總操作以得到最終結果;可以實現處理大量、非結構化的數據,提高了數據處理類型以及速度。并且通過反向傳播神經網絡得到網絡輿情預測模型,可以深入挖掘網絡輿情數據之間的變化規(guī)律,能夠有效、精準地對網絡輿情進行監(jiān)測。
附圖說明
圖1是本發(fā)明實施例的基于數據挖掘技術的輿情監(jiān)測系統(tǒng)結構框圖。
具體實施方式
如圖1所示,一種基于數據挖掘技術的輿情監(jiān)測系統(tǒng),其包括如下單元:
數據獲取單元,用于通過網絡爬蟲程序爬取互聯(lián)網輿情初始數據。
互聯(lián)網輿情初始數據的來源包括互聯(lián)網網頁、微博、微信公共號、論壇等渠道。
分片單元,用于將互聯(lián)網輿情初始數據進行輸入分片,將各個輸入分片分配一個映射任務,輸入分片存儲分片長度以及記錄數據的位置的數組;
通過預先編寫的映射函數在數據存儲節(jié)點上進行映射得到中間文件;
計算單元,用于合并中間文件中的重復鍵值,以降低映射輸出文件冗余;并對合并后的鍵值進行序列化得到映射緩存文件;自動獲取各個計算節(jié)點的計算負載值,根據計算節(jié)點的計算負載值將各個映射緩存文件分配到各個計算節(jié)點中;
緩存單元,用于在內存中開辟環(huán)形內存緩沖區(qū),環(huán)形內存緩沖區(qū)用于映射輸出文件輸出;在環(huán)形內存緩沖區(qū)中創(chuàng)建配置文件,在配置文件中配置內存緩沖區(qū)的內存占用閾值;在環(huán)形內存緩沖區(qū)中內存占用大于或等于占用閾值時,保護線程暫停將數據寫入內存,并在內存中寫入溢出文件,溢出文件確定寫入磁盤的文件,并將環(huán)形內存緩沖區(qū)的文件寫入磁盤直至所有的映射輸出文件輸出完畢;
輸出單元,用于將所有的映射輸出文件并存儲到分布式文件存儲系統(tǒng)上;
建模單元,用于建立網絡輿情預測模型;
預測單元,用于從分布式文件存儲系統(tǒng)上讀取映射輸出文件并通過網絡輿情預測模型進行輿情預測。
在本發(fā)明所述的基于數據挖掘技術的輿情監(jiān)測系統(tǒng)中,
所述數據獲取單元包括:
通過網絡爬蟲程序從自定義抓取列表中取出鏈接地址,獲取網絡文本;
對網絡頁面進行檢測深度網絡數據源,取出數據噪聲,提取正文文本,進行主題相關度判定處理。
在本發(fā)明所述的基于數據挖掘技術的輿情監(jiān)測系統(tǒng)中,所述分片單元中對互聯(lián)網輿情初始數據進行輸入分片包括:
建立關聯(lián)關系表,將輸入文件拆分為位置關系值、活動關系值、結構關系值、功能關系值、功能關系值、行為關系值以及其他關系值,并將各個輸入文件的各個關系值的對應關系寫入關聯(lián)關系表中;
將各個關系值對應的數據劃入輸入分片中。
在本發(fā)明所述的基于數據挖掘技術的輿情監(jiān)測系統(tǒng)中,所述分片單元中通過預先編寫的映射函數在數據存儲節(jié)點上進行映射得到中間文件包括:
通過預先編寫的映射函數將輸入分片按照映射任務進行映射,所述映射包括按照預先設置的數據格式將輸入分片內容進行列表對齊,判斷位置關系值、活動關系值、結構關系值、功能關系值、功能關系值、行為關系值以及其他關系值是否存在,如果各個關系值存在則直接保留,如果不存在某一項或某幾項關系值,則缺失的關系值為空;各個關系的排列順序均保持一致。
在本發(fā)明所述的基于數據挖掘技術的輿情監(jiān)測系統(tǒng)中,
所述輸出單元包括:
從關聯(lián)關系表中查詢各個映射輸出文件對應的所有索引信息,將各個映射輸出文件的每個對應一個段數據插入到段列表中;記錄段數據的位置關系值、活動關系值、結構關系值、功能關系值、功能關系值、行為關系值以及其他關系值。
在本發(fā)明所述的基于數據挖掘技術的輿情監(jiān)測系統(tǒng)中,
所述分片單元中對通過預先編寫的映射函數將輸入分片按照映射任務進行映射還包括根據關聯(lián)關系表判斷輸入分片是否存在邏輯錯誤,如存在則丟棄該輸入分片。
在本發(fā)明所述的基于數據挖掘技術的輿情監(jiān)測系統(tǒng)中,
所述建模單元包括:
將所有的映射輸出文件采用聚類算法進行構造,形成有序網絡輿情數據信息;
對有序網絡輿情數據信息進行灰色累加,生成累加序列,序列公式如下:
x(1)=[x(1)(1),x(1)(2),...x(1)(n)],其中
通過統(tǒng)一化方法將生成的累加序列數據進行縮放,將其變換為[0,1]之間,歸一化的公式為:其中xi,xi’分別表示轉換前后的值,min(x)、max(x)分別表示有序網絡輿情數據信息的最大值和最小值;
建立網絡輿情灰度模型,并對預先輸入的樣本進行預測,對預測值進行累減還原運算得到網絡輿情預測值;
計算網絡閾值預測值與實際值的殘差得到殘差訓練樣本;
將殘差訓練樣本輸入反向傳播神經網絡進行訓練,并用粒子群算法進行優(yōu)化得到網絡輿情預測模型。
實施本發(fā)明提供的基于數據挖掘技術的輿情監(jiān)測系統(tǒng)與現有技術相比具有以下有益效果:通過把海量的網絡輿情數據按照預先設置的規(guī)則分割成了若干部分,分給多臺處理器并行處理;然后把各臺處理器處理后的結果進行匯總操作以得到最終結果;可以實現處理大量、非結構化的數據,提高了數據處理類型以及速度。并且通過反向傳播神經網絡得到網絡輿情預測模型,可以深入挖掘網絡輿情數據之間的變化規(guī)律,能夠有效、精準地對網絡輿情進行監(jiān)測。
可以理解的是,對于本領域的普通技術人員來說,可以根據本發(fā)明的技術構思做出其它各種相應的改變與變形,而所有這些改變與變形都應屬于本發(fā)明權利要求的保護范圍。