欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于互聯(lián)網(wǎng)的輿情數(shù)據(jù)采集方法及系統(tǒng)的制作方法

文檔序號:9235488閱讀:872來源:國知局
一種基于互聯(lián)網(wǎng)的輿情數(shù)據(jù)采集方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)數(shù)據(jù)采集技術(shù)領(lǐng)域,尤其涉及一種基于互聯(lián)網(wǎng)的輿情數(shù)據(jù)采集方法及系統(tǒng)。
【背景技術(shù)】
[0002]網(wǎng)絡(luò)輿情是通過互聯(lián)網(wǎng)傳播的,公眾對現(xiàn)實(shí)生活中某些熱點(diǎn)、焦點(diǎn)問題所持的有較強(qiáng)影響力、傾向性的情感、態(tài)度、意見、言論或觀點(diǎn),其主要通過論壇BBS上的發(fā)帖評論及跟貼、博客Blog等實(shí)現(xiàn)并加以強(qiáng)化。由于互聯(lián)網(wǎng)具有虛擬性、隱蔽性、發(fā)散性、滲透性和隨意性等特點(diǎn),越來越多的網(wǎng)民樂意通過這種渠道來表達(dá)觀點(diǎn)、傳播思想。而且,互聯(lián)網(wǎng)成為反映社會輿情的主要載體之一。
[0003]目前,大部分部門和企業(yè)的輿情監(jiān)測和管理工作主要依靠人工來完成,人工進(jìn)行輿情監(jiān)測面臨著輿情信息收集不全、輿情信息發(fā)現(xiàn)不及時、輿情信息發(fā)現(xiàn)不準(zhǔn)確、輿情信息利用不便利等諸多問題。因此,完全靠人工進(jìn)行輿情信息的收集和上報(bào),消耗大量的時間和精力,而且效果并不理想。
[0004]在新的互聯(lián)網(wǎng)形勢下,面對這樣的困擾,需要借助互聯(lián)網(wǎng)輿情監(jiān)測工具,快速開展大規(guī)模輿情監(jiān)測機(jī)制建設(shè),來提高互聯(lián)網(wǎng)上輿情數(shù)據(jù)的采集能力和實(shí)戰(zhàn)部門的情報(bào)指導(dǎo)能力。

【發(fā)明內(nèi)容】

[0005]鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決或者減緩上述問題的基于互聯(lián)網(wǎng)的輿情數(shù)據(jù)采集方法及系統(tǒng)。
[0006]根據(jù)本發(fā)明的一個方面,提供了一種基于互聯(lián)網(wǎng)的輿情數(shù)據(jù)采集方法,該方法包括:
[0007]實(shí)時監(jiān)視各個網(wǎng)絡(luò)爬蟲的狀態(tài),根據(jù)所述各個網(wǎng)絡(luò)爬蟲的狀態(tài)調(diào)度每個網(wǎng)絡(luò)爬蟲,以實(shí)現(xiàn)對互聯(lián)網(wǎng)中各預(yù)設(shè)輿情網(wǎng)站內(nèi)容的抓取和/或?qū)ヂ?lián)網(wǎng)中其他網(wǎng)站內(nèi)容的屏蔽;
[0008]采用所述網(wǎng)絡(luò)爬蟲根據(jù)預(yù)設(shè)條件對所述各預(yù)設(shè)輿情網(wǎng)站的網(wǎng)頁內(nèi)容進(jìn)行抓取,并從抓取到的數(shù)據(jù)中提取相應(yīng)的網(wǎng)站地址;
[0009]將所述網(wǎng)站地址進(jìn)行地址解析,對解析成功的網(wǎng)站地址去重、去噪處理后進(jìn)行分類;
[0010]采用所述網(wǎng)絡(luò)爬蟲對分類成功的網(wǎng)站地址對應(yīng)網(wǎng)站的網(wǎng)頁內(nèi)容進(jìn)行抓??;
[0011]為抓取到的對應(yīng)網(wǎng)站的網(wǎng)頁內(nèi)容建立輿情數(shù)據(jù)全文索引信息,并將所述網(wǎng)頁內(nèi)容存入預(yù)設(shè)的內(nèi)容數(shù)據(jù)庫、輿情數(shù)據(jù)全文索引信息存入預(yù)設(shè)的索引數(shù)據(jù)庫。
[0012]可選的,所述實(shí)時監(jiān)視多個網(wǎng)絡(luò)爬蟲的狀態(tài),根據(jù)所述網(wǎng)絡(luò)爬蟲的狀態(tài)調(diào)度各個網(wǎng)絡(luò)爬蟲,包括:
[0013]根據(jù)用戶輸入的網(wǎng)站網(wǎng)址,預(yù)先設(shè)置互聯(lián)網(wǎng)中需要進(jìn)行網(wǎng)頁內(nèi)容抓取的輿情網(wǎng)站,以及互聯(lián)網(wǎng)中不需要進(jìn)行網(wǎng)頁內(nèi)容抓取的網(wǎng)站;
[0014]根據(jù)用戶輸入的爬蟲設(shè)置參數(shù),進(jìn)行網(wǎng)絡(luò)爬蟲的設(shè)置;
[0015]實(shí)時感知各個網(wǎng)絡(luò)爬蟲的工作狀態(tài);
[0016]根據(jù)各個網(wǎng)絡(luò)爬蟲的工作狀態(tài),產(chǎn)生爬蟲分類信息,將負(fù)擔(dān)大于第一預(yù)設(shè)值的爬蟲從當(dāng)前數(shù)據(jù)抓取任務(wù)中解放出來,并分配負(fù)擔(dān)小于第二預(yù)設(shè)值的爬蟲執(zhí)行所述數(shù)據(jù)抓取任務(wù);
[0017]對所述不需要進(jìn)行網(wǎng)頁內(nèi)容抓取的網(wǎng)站的地址進(jìn)行過濾。
[0018]可選的,所述采用所述網(wǎng)絡(luò)爬蟲根據(jù)預(yù)設(shè)條件對所述各預(yù)設(shè)輿情網(wǎng)站的網(wǎng)頁內(nèi)容進(jìn)行抓取,并從抓取到的數(shù)據(jù)中提取相應(yīng)的網(wǎng)站地址,包括:
[0019]根據(jù)預(yù)設(shè)條件對所述各預(yù)設(shè)輿情網(wǎng)站的網(wǎng)頁內(nèi)容進(jìn)行抓?。?br>[0020]計(jì)算抓取到的網(wǎng)頁信息與所述預(yù)設(shè)條件的相似度;
[0021]根據(jù)相似度大于第三預(yù)設(shè)值的網(wǎng)頁信息生成相應(yīng)的網(wǎng)站地址。
[0022]可選的,所述將所述網(wǎng)站地址進(jìn)行地址解析,對解析成功的網(wǎng)站地址去重、去噪處理后進(jìn)行分類,包括:
[0023]對所述網(wǎng)站地址進(jìn)行地址類型判斷,根據(jù)判斷結(jié)果選擇合適的地址解析器進(jìn)行地址解析,并對解析成功的網(wǎng)站地址進(jìn)行去重、去噪處理;
[0024]對去重、去噪處理后的網(wǎng)站地址進(jìn)行分類。
[0025]可選的,所述采用所述網(wǎng)絡(luò)爬蟲對分類成功的網(wǎng)站地址對應(yīng)網(wǎng)站的網(wǎng)頁內(nèi)容進(jìn)行抓取,并下載該網(wǎng)頁的全文信息,包括:
[0026]采用所述網(wǎng)絡(luò)爬蟲對分類成功的網(wǎng)站地址對應(yīng)網(wǎng)站的網(wǎng)頁內(nèi)容進(jìn)行抓取;
[0027]根據(jù)所述分類成功的網(wǎng)站地址的地址類型進(jìn)行下載器選擇,利用選出的下載器對所述網(wǎng)頁內(nèi)容進(jìn)行下載。
[0028]可選的,為抓取到的對應(yīng)網(wǎng)站的網(wǎng)頁內(nèi)容建立輿情數(shù)據(jù)全文索引信息,并將所述網(wǎng)頁內(nèi)容存入預(yù)設(shè)的內(nèi)容數(shù)據(jù)庫、輿情數(shù)據(jù)全文索引信息存入預(yù)設(shè)的索引數(shù)據(jù)庫,包括:
[0029]為抓取到的對應(yīng)網(wǎng)站的網(wǎng)頁內(nèi)容建立輿情數(shù)據(jù)全文索引信息;
[0030]將所述抓取到的對應(yīng)網(wǎng)站的網(wǎng)頁內(nèi)容存入預(yù)設(shè)的內(nèi)容數(shù)據(jù)庫、輿情數(shù)據(jù)全文索引信息存入預(yù)設(shè)的索引數(shù)據(jù)庫;
[0031]對所述索引數(shù)據(jù)庫中存儲的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析。
[0032]根據(jù)本發(fā)明的另一個方面,提供了一種基于互聯(lián)網(wǎng)的輿情數(shù)據(jù)采集系統(tǒng),所述系統(tǒng)包括數(shù)據(jù)采集單元和檢索分析單元,所述數(shù)據(jù)采集單元包括爬蟲調(diào)度子系統(tǒng)和網(wǎng)絡(luò)爬蟲子系統(tǒng);
[0033]爬蟲調(diào)度子系統(tǒng),用于實(shí)時監(jiān)視各個網(wǎng)絡(luò)爬蟲的狀態(tài),根據(jù)所述各個網(wǎng)絡(luò)爬蟲的狀態(tài)調(diào)度每個網(wǎng)絡(luò)爬蟲,以實(shí)現(xiàn)對互聯(lián)網(wǎng)中各預(yù)設(shè)輿情網(wǎng)站內(nèi)容的抓取和/或?qū)ヂ?lián)網(wǎng)中其他網(wǎng)站內(nèi)容的屏蔽;
[0034]網(wǎng)絡(luò)爬蟲子系統(tǒng),用于根據(jù)預(yù)設(shè)條件對所述各預(yù)設(shè)輿情網(wǎng)站的網(wǎng)頁內(nèi)容進(jìn)行抓取,并從抓取到的數(shù)據(jù)中提取相應(yīng)的網(wǎng)站地址;將所述網(wǎng)站地址進(jìn)行地址解析,對解析成功的網(wǎng)站地址去重、去噪處理后進(jìn)行分類;所述網(wǎng)絡(luò)爬蟲子系統(tǒng)還用于對分類成功的網(wǎng)站地址對應(yīng)網(wǎng)站的網(wǎng)頁內(nèi)容進(jìn)行抓?。?br>[0035]檢索分析單元,用于為抓取到的對應(yīng)網(wǎng)站的網(wǎng)頁內(nèi)容建立輿情數(shù)據(jù)全文索引信息,并將所述網(wǎng)頁內(nèi)容存入預(yù)設(shè)的內(nèi)容數(shù)據(jù)庫、該網(wǎng)頁的全文索引信息存入預(yù)設(shè)的索引數(shù)據(jù)庫。
[0036]可選的,所述爬蟲調(diào)度子系統(tǒng)包括:
[0037]分類配置模塊,用于根據(jù)用戶輸入的網(wǎng)站網(wǎng)址,預(yù)先設(shè)置互聯(lián)網(wǎng)中需要進(jìn)行網(wǎng)頁內(nèi)容抓取的輿情網(wǎng)站,以及互聯(lián)網(wǎng)中不需要進(jìn)行網(wǎng)頁內(nèi)容抓取的網(wǎng)站;
[0038]爬蟲配置模塊,用于根據(jù)用戶輸入的爬蟲設(shè)置參數(shù),進(jìn)行網(wǎng)絡(luò)爬蟲系統(tǒng)的設(shè)置;
[0039]狀態(tài)監(jiān)視模塊,用于實(shí)時感知各個網(wǎng)絡(luò)爬蟲的工作狀態(tài);
[0040]爬蟲分配模塊,用于根據(jù)各個網(wǎng)絡(luò)爬蟲的工作狀態(tài),產(chǎn)生爬蟲分類信息,將負(fù)擔(dān)大于第一預(yù)設(shè)值的爬蟲從當(dāng)前數(shù)據(jù)抓取任務(wù)中解放出來,并分配負(fù)擔(dān)小于第二預(yù)設(shè)值的爬蟲執(zhí)行所述數(shù)據(jù)抓取任務(wù);
[0041]站點(diǎn)過濾模塊,用于對所述不需要進(jìn)行網(wǎng)頁內(nèi)容抓取的網(wǎng)站的地址進(jìn)行過濾。
[0042]可選的,所述網(wǎng)絡(luò)爬蟲子系統(tǒng),包括:
[0043]抓取模塊,用于根據(jù)預(yù)設(shè)條件對所述各預(yù)設(shè)輿情網(wǎng)站的網(wǎng)頁內(nèi)容進(jìn)行抓??;
[0044]計(jì)算模塊,用于計(jì)算抓取到的網(wǎng)頁信息與所述預(yù)設(shè)條件的相似度;
[0045]生成模塊,用于根據(jù)相似度大于第三預(yù)設(shè)值的網(wǎng)頁信息生成相應(yīng)的網(wǎng)站地址;
[0046]地址解析模塊,用于對所述網(wǎng)站地址進(jìn)行地址類型判斷,根據(jù)判斷結(jié)果選擇合適的地址解析器進(jìn)行地址解析,并對解析成功的網(wǎng)站地址進(jìn)行去重、去噪處理;
[0047]URL管理模塊,用于對去重、去噪處理后的網(wǎng)站地址進(jìn)行分類和聚類;
[0048]所述抓取模塊,還用于對分類成功的網(wǎng)站地址對應(yīng)網(wǎng)站的網(wǎng)頁內(nèi)容進(jìn)行抓取;
[0049]地址下載模塊,用于根據(jù)所述分類成功的網(wǎng)站地址的地址類型進(jìn)行下載器選擇,利用選出的下載器對所述網(wǎng)頁內(nèi)容進(jìn)行下載。
[0050]可選的,所述檢索分析單元,包括:
[0051]索引建立模塊,用于為抓取到的對應(yīng)網(wǎng)站的網(wǎng)頁內(nèi)容建立輿情數(shù)據(jù)全文索引信息。
[0052]存儲模塊,用于將所述抓取到的對應(yīng)網(wǎng)站的網(wǎng)頁內(nèi)容存入預(yù)設(shè)的內(nèi)容數(shù)據(jù)庫、輿情數(shù)據(jù)全文索引信息存入預(yù)設(shè)的索引數(shù)據(jù)庫;
[0053]統(tǒng)計(jì)分析模塊,用于對所述索引數(shù)據(jù)庫中存儲的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析。
[0054]本發(fā)明的有益效果為:
[0055]1、本發(fā)明提供的基于互聯(lián)網(wǎng)的輿情數(shù)據(jù)采集方法及系統(tǒng),通過
當(dāng)前第1頁1 2 3 4 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
南木林县| 海门市| 科技| 长葛市| 安新县| 伽师县| 新巴尔虎左旗| 宁蒗| 保定市| 遂溪县| 沅陵县| 邢台市| 广平县| 达孜县| 九寨沟县| 胶南市| 鄂伦春自治旗| 乌恰县| 贵德县| 合江县| 屏东县| 贺州市| 星子县| 远安县| 广东省| 合水县| 米林县| 电白县| 大同县| 汶上县| 五寨县| 石台县| 个旧市| 达州市| 图们市| 黎平县| 化隆| 开阳县| 无锡市| 杭锦后旗| 信丰县|