欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種輿情信息展示系統(tǒng)及方法

文檔序號:6372199閱讀:158來源:國知局
專利名稱:一種輿情信息展示系統(tǒng)及方法
技術(shù)領域
本發(fā)明涉及網(wǎng)絡信息技術(shù)領域,特別涉及一種輿情信息展示系統(tǒng)及方法。
背景技術(shù)
網(wǎng)絡輿情是通過互聯(lián)網(wǎng)傳播的公眾對現(xiàn)實生活中某些熱點、焦點問題所持的有較強影響力、傾向性的言論和觀點,主要通過BBS論壇、博客、新聞跟帖、轉(zhuǎn)帖等實現(xiàn)并加以強化。由于互聯(lián)網(wǎng)具有虛擬性、隱蔽性、發(fā)散性、滲透性和隨意性等特點,越來越多的網(wǎng)民樂意通過這種渠道來表達觀點、傳播思想。網(wǎng)絡輿情是一股強大的輿論力量,會反作用于熱點事件并對社會發(fā)展和事態(tài)進程產(chǎn)生一定的影響。如果引導不善,負面的網(wǎng)絡輿情將對社會公共安全形成較大威脅?,F(xiàn)有技術(shù)多對網(wǎng)絡輿情完成收集工作,但均無法客觀地、直觀地反映不同地域的輿情信息。

發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是如何客觀地、直觀地反映不同地域的輿情信息。為解決上述技術(shù)問題,本發(fā)明提供了一種輿情信息展示系統(tǒng),所述系統(tǒng)包括網(wǎng)頁抓取模塊,適于抓取當前網(wǎng)絡中包含輿情信息的網(wǎng)頁;網(wǎng)頁分析模塊,適于對所述網(wǎng)頁進行分析,以獲得所述網(wǎng)頁的正文信息;地域識別模塊,適于對所述正文信息進行地域識別,以獲得所述正文信息的所屬地域并對具有相同所屬地域的網(wǎng)頁進行數(shù)量統(tǒng)計;展示模塊,適于將所述數(shù)量統(tǒng)計的結(jié)果通過地圖著色的方式進行展示。其中,所述系統(tǒng)還包括存儲模塊,適于將所述正文信息進行數(shù)據(jù)存儲。其中,所述系統(tǒng)還包括格式化模塊,適于對所述正文信息進行格式化。其中,所述地域識別模塊進一步包括Trie樹構(gòu)建子模塊,適于利用行政區(qū)域統(tǒng)計表構(gòu)建雙數(shù)組Trie樹;匹配子模塊,適于將所述正文信息中出現(xiàn)的名詞與所述雙數(shù)組Trie樹進行匹配;地域獲得子模塊,適于利用所述匹配的結(jié)果獲得所述正文信息的所屬地域。其中,所述行政區(qū)域統(tǒng)計表包括省、市、縣、鎮(zhèn)和村中至少一個行政級別的地理名
ο其中,所述匹配的結(jié)果包括地理名詞、所述地理名詞的出現(xiàn)頻次及所述地理名詞之間的行政關系。其中,所述網(wǎng)頁抓取模塊中采用網(wǎng)絡爬蟲抓取當前網(wǎng)絡中包含輿情信息的網(wǎng)頁。其中,所述正文信息包括正文內(nèi)容和/或標題。其中,當所述網(wǎng)頁為電子公告板bbs或網(wǎng)絡日志blog的網(wǎng)頁時,所述正文信息包括板塊名稱。其中,所述網(wǎng)頁分析模塊中進一步包括多維抽取子模塊,所述多維抽取子模塊,適于對所述網(wǎng)頁進行多維抽取,以獲得所述網(wǎng)頁的正文信息。
其中,所述展示模塊進一步包括結(jié)果散列子模塊,所述結(jié)果散列子模塊,適于將所述數(shù)據(jù)統(tǒng)計的結(jié)果散列到顏色的色階范圍內(nèi)來實現(xiàn)地圖著色。其中,所述展示模塊進一步包括放大縮小子模塊,所述放大縮小子模塊,適于根據(jù)需要對地圖區(qū)域的不同行政級別進行調(diào)整顯示。其中,所述系統(tǒng)還包括學習模塊,在對大量樣本做人工標識和校正后,適于采用基于支持向量機SVM的機器進行學習,直至達到預設的準確率。本發(fā)明還公開了一種輿情信息展示方法,所述方法包括抓取當前網(wǎng)絡中包含輿情信息的網(wǎng)頁;對所述網(wǎng)頁進行分析,以獲得所述網(wǎng)頁的正文信息;對所述正文信息進行地域識別,以獲得所述正文信息的所屬地域,并對具有相同 所屬地域的網(wǎng)頁進行數(shù)量統(tǒng)計;將所述數(shù)量統(tǒng)計的結(jié)果通過地圖著色的方式進行展示。其中,對所述正文信息進行地域識別之前,將所述正文信息進行數(shù)據(jù)存儲。其中,將所述正文信息進行數(shù)據(jù)存儲之前,對所述正文信息進行格式化。其中,對所述正文信息進行地域識別進一步包括利用行政區(qū)域統(tǒng)計表構(gòu)建雙數(shù)組Trie樹;將所述正文信息中出現(xiàn)的名詞與所述雙數(shù)組Trie樹進行匹配;利用所述匹配的結(jié)果獲得所述正文信息的所屬地域。其中,所述行政區(qū)域統(tǒng)計表包括省、市、縣、鎮(zhèn)和村中至少一個行政級別的地理名
ο其中,所述匹配的結(jié)果包括地理名詞、所述地理名詞的出現(xiàn)頻次及所述地理名詞之間的行政關系。其中,采用網(wǎng)絡爬蟲抓取當前網(wǎng)絡中包含輿情信息的網(wǎng)頁。其中,所述正文信息包括正文內(nèi)容和/或標題。其中,當所述網(wǎng)頁為電子公告板bbs或網(wǎng)絡日志blog的網(wǎng)頁時,所述正文信息包括板塊名稱。其中,對所述網(wǎng)頁進行分析時,對所述網(wǎng)頁進行多維抽取,以獲得所述網(wǎng)頁的正文信息。其中,將所述數(shù)量統(tǒng)計的結(jié)果通過地圖著色的方式進行展示時,將所述數(shù)據(jù)統(tǒng)計的結(jié)果散列到顏色的色階范圍內(nèi)來實現(xiàn)地圖著色。其中,將所述數(shù)量統(tǒng)計的結(jié)果通過地圖著色的方式進行展示時,根據(jù)需要對地圖區(qū)域的不同行政級別進行調(diào)整顯示。其中,對所述正文信息進行地域識別之前,在大量樣本做人工標識和校正后,采用基于支持向量機SVM的機器進行學習,直至達到預設的準確率。本發(fā)明的系統(tǒng)及方法通過對包含輿情信息的網(wǎng)頁進行地域識別,客觀地、直觀地反映了不同地域的輿情信息,不僅可以有效及時地發(fā)現(xiàn)網(wǎng)絡中已知輿情信息的區(qū)域分布狀況,還可以在未知輿情信息的萌發(fā)階段就對重點區(qū)域進行有效的識別。


圖I是按照本發(fā)明第一種實施例的輿情信息展示方法的流程圖;圖2是按照本發(fā)明第二種實施例的輿情信息展示方法的流程圖;圖3是按照本發(fā)明第三種實施例的輿情信息展示方法的流程圖;圖4是圖廣圖3所述的方法中對所述正文信息進行地域識別的流程圖;圖5是利用地圖著色進行展不的不意圖;圖6是行政級別示意圖;圖7是按照本發(fā)明第一種實施例的輿情信息展示系統(tǒng)的結(jié)構(gòu)框圖;圖8是按照本發(fā)明第二種實施例的輿情信息展示系統(tǒng)的結(jié)構(gòu)框圖;
圖9是按照本發(fā)明第三種實施例的輿情信息展示系統(tǒng)的結(jié)構(gòu)框圖;圖10是圖疒圖9的系統(tǒng)中地域識別模塊的結(jié)構(gòu)框圖。
具體實施例下面結(jié)合附圖和實施例,對本發(fā)明的具體實施例作進一步詳細描述。以下實施例用于說明本發(fā)明,但不用來限制本發(fā)明的范圍。圖I是按照本發(fā)明第一種實施例的輿情信息展示方法的流程圖;參照圖1,所述方法包括SlOl :抓取當前網(wǎng)絡中包含輿情信息的網(wǎng)頁(通常,網(wǎng)頁抓取主要分為三個方面
I、搜集新出現(xiàn)的網(wǎng)頁;2、搜集那些在上次搜集后有改變的網(wǎng)頁;3、發(fā)現(xiàn)自從上次搜集后已經(jīng)不存在了的網(wǎng)頁,并從數(shù)據(jù)庫中刪除);優(yōu)選地,本實施例中,采用網(wǎng)絡爬蟲抓取當前網(wǎng)絡中包含輿情信息的網(wǎng)頁。S102 :對所述網(wǎng)頁進行分析,以獲得所述網(wǎng)頁的正文信息;由于網(wǎng)頁中所能最大反映地域信息的部分為正文內(nèi)容,優(yōu)選地,所述正文信息包括正文內(nèi)容;同樣能夠反映地域信息的部分為標題,為提高識別精度,優(yōu)選地,所述正文信息還包括標題;當所述網(wǎng)頁為電子公告板(bbs)或網(wǎng)絡日志(blog)的網(wǎng)頁時,同樣能夠反映地域信息的部分為模塊名稱,為提高識別精度,優(yōu)選地,所述正文信息包括板塊名稱。本實施例中,對所述網(wǎng)頁進行分析時,對所述網(wǎng)頁進行多維抽取,包括標題、正文內(nèi)容、發(fā)表時間、作者、網(wǎng)站名稱、針對bbs或blog的正文信息還可以抽取出板塊名稱、瀏覽數(shù)、回復數(shù)等信息,以獲得所述網(wǎng)頁的正文信息,對網(wǎng)頁信息進行多個維度抽取。S103 :對所述正文信息進行地域識別,以獲得所述正文信息的所屬地域,并對具有相同所屬地域的網(wǎng)頁進行數(shù)量統(tǒng)計;本實施例中,數(shù)量統(tǒng)計可以單純按照所屬地域,也可以收集在所屬地域包含某些特征詞的輿情信息兩種,如可以展示3月份我國各地網(wǎng)絡輿情的分布情況,也可以展示3月份關于江蘇省某某話題的網(wǎng)絡輿情分布情況等。S104 :參照圖5,將所述數(shù)量統(tǒng)計的結(jié)果通過地圖著色的方式進行展示。本實施例中,利用所述數(shù)據(jù)統(tǒng)計的結(jié)果,結(jié)合預設的顏色值范圍給地圖進行著色,用顏色的深淺表達輿情信息的數(shù)量多少,但并不限定本發(fā)明的保護范圍。比如圖5中“山西省”的色階最深,輿情數(shù)最多,其次是輿情數(shù)非常多的“北京”、“遼寧”和“河南”,接著是輿情數(shù)較多的“廣西”、“重慶”、“吉林”和“浙江”,之后是輿情數(shù)一般的“青?!焙汀霸颇稀?,再接著是輿情數(shù)較少的“海南”、“廣東”、“湖南”、“安徽”和“內(nèi)蒙古”,其中“安徽”的輿情數(shù)為23004,剩下的地區(qū)均為輿情數(shù)非常少的地區(qū)。顏色的范圍可用#000000到來表示由深到淺,六位16進制表示的是RGB三個顏色,前兩位表示R (紅色),中間兩位表示G (綠色),最后兩位表示B (藍色)。例如,把地圖染色的主色調(diào)定義為紅色時,紅色的范圍是0(Tff共256個色階,則可以利用地域信息的數(shù)據(jù)量定義一個散列函數(shù)將數(shù)據(jù)量散列到(Γ256之間(可以采用對數(shù)函數(shù)或擬合方法計算出一個散列函數(shù))。優(yōu)選地,步驟S104中將所述數(shù)量統(tǒng)計的結(jié)果通過地圖著色的方式進行展示時,根據(jù)需要對地圖區(qū)域的不同行政級別進行調(diào)整顯示。例如可以展示3月份我國各地(即行政級別為省)網(wǎng)絡輿情的分布情況,也可以展示3月份關于江蘇省(即行政級別為市)網(wǎng)絡輿
情的分布情況等。圖2是按照本發(fā)明第二種實施例的輿情信息展示方法的流程圖;參照圖2,所述方法包括S201 :抓取當前網(wǎng)絡中包含輿情信息的網(wǎng)頁;S202 :對所述網(wǎng)頁進行分析,以獲得所述網(wǎng)頁的正文信息;S203 :將所述正文信息進行數(shù)據(jù)存儲;本實施例中,數(shù)據(jù)存儲于數(shù)據(jù)庫中,并采用持久化存儲方式,以備后續(xù)使用;S204 :對所述正文信息進行地域識別,以獲得所述正文信息的所屬地域,并對具有相同所屬地域的網(wǎng)頁進行數(shù)量統(tǒng)計;S205 :將所述數(shù)量統(tǒng)計的結(jié)果通過地圖著色的方式進行展示。圖3是按照本發(fā)明第三種實施例的輿情信息展示方法的流程圖;參照圖3,所述方法包括S301 :抓取當前網(wǎng)絡中包含輿情信息的網(wǎng)頁;S302 :對所述網(wǎng)頁進行分析,以獲得所述網(wǎng)頁的正文信息;S303 :對所述正文信息進行格式化(即將所述正文信息處理成相同的規(guī)格、樣式);S304 :將所述正文信息進行數(shù)據(jù)存儲;本實施例中,數(shù)據(jù)存儲于數(shù)據(jù)庫中,并采用持久化存儲方式;S305 :對所述正文信息進行地域識別,以獲得所述正文信息的所屬地域,并對具有相同所屬地域的網(wǎng)頁進行數(shù)量統(tǒng)計;S306 :將所述數(shù)量統(tǒng)計的結(jié)果通過地圖著色的方式進行展示。在所述實施例廣3中,對正文信息進行地域信息識別的處理,整體計算模型是利用分布式系統(tǒng)基礎架構(gòu)(hadoop),具體計算方法是利用雙數(shù)組Trie樹。其整體思想的描述如下利用行政區(qū)劃統(tǒng)計表構(gòu)建一棵雙數(shù)組Trie樹,然后用正文內(nèi)容去匹配,找出正文中所有的地理名詞,可能會出現(xiàn)多條路徑,再利用地理地名之間的行政關系和出現(xiàn)頻度設置不同的權(quán)重值,基于倒排索引的原則,對正文信息進行分詞、構(gòu)建索引等操作,并提供按照關鍵詞進行查詢的接口。對正文信息進行地域識別基于支持向量機(support vector machine, SVM)的機器學習法,利用國家郵政編碼及行政區(qū)域統(tǒng)計表對大量樣本做人工標注和校正,達到較高的準確率后(一般為95%以上),再對輿情信息進行地域識別,參照圖4,對所述正文信息進行地域識別可采用如下方式
S401 :利用行政區(qū)域統(tǒng)計表構(gòu)建雙數(shù)組Trie樹;所述行政區(qū)域統(tǒng)計表包括省、市、縣、鎮(zhèn)和村中至少一個行政級別的地理名詞;為實現(xiàn)從不同的行政級別來監(jiān)測輿情的信息量情況,優(yōu)選地,所述區(qū)域統(tǒng)計表包括省、市、縣、鎮(zhèn)和村五個行政級別的地理名詞,并且可以是以左前綴進行歸并。如河北省邯鄲市永年縣南沿村鎮(zhèn)南馬莊村是包含全五個行政級別的,同時它可以歸為向上的行政級別。參照圖6,即南沿村鎮(zhèn)的輿情信息將歸屬于永年縣的區(qū)域內(nèi),然后歸屬于邯鄲市區(qū)域內(nèi),最后歸屬于河北省的區(qū)域內(nèi)。S402 :將所述正文信息中出現(xiàn)的名詞與所述雙數(shù)組Trie樹進行匹配;S403 :利用所述匹配的結(jié)果獲得所述正文信息的所屬地域;優(yōu)選地,所述匹配的結(jié)果包括地理名詞、所述地理名詞的出現(xiàn)頻次及所述地理名詞之間的行政關系。圖7是按照本發(fā)明第一種實施例的輿情信息展示系統(tǒng)的結(jié)構(gòu)框圖;參照圖7,所述系統(tǒng)包括 網(wǎng)頁抓取模塊701,適于抓取當前網(wǎng)絡中包含輿情信息的網(wǎng)頁;網(wǎng)頁分析模塊702,適于對所述網(wǎng)頁進行分析,以獲得所述網(wǎng)頁的正文信息;地域識別模塊703,適于對所述正文信息進行地域識別,以獲得所述正文信息的所屬地域,并對具有相同所屬地域的網(wǎng)頁進行數(shù)量統(tǒng)計;展示模塊704,適于將所述數(shù)量統(tǒng)計的結(jié)果通過地圖著色的方式進行展示。圖8是按照本發(fā)明第二種實施例的輿情信息展示系統(tǒng)的結(jié)構(gòu)框圖;參照圖8,在第一種實施例的基礎上,所述系統(tǒng)還包括存儲模塊705,適于將所述正文信息進行數(shù)據(jù)存儲;圖9是按照本發(fā)明第三種實施例的輿情信息展示系統(tǒng)的結(jié)構(gòu)框圖;參照圖9,在第~■種實施例的基礎上,所述系統(tǒng)還包括格式化模塊706,適于對所述正文信息進行格式化;參照圖10,所述地域識別模塊703具體包括Trie樹構(gòu)建子模塊713,適于利用行政區(qū)域統(tǒng)計表構(gòu)建雙數(shù)組Trie樹;匹配子模塊723,適于將所述正文信息中出現(xiàn)的名詞與所述雙數(shù)組Trie樹進行匹配;地域獲得子模塊733,適于利用所述匹配的結(jié)果獲得所述正文信息的所屬地域。其中,所述行政區(qū)域統(tǒng)計表包括省、市、縣、鎮(zhèn)和村中至少一個行政級別的地理名
ο其中,所述匹配的結(jié)果包括地理名詞、所述地理名詞的出現(xiàn)頻次及所述地理名詞之間的行政關系。其中,所述網(wǎng)頁抓取模塊中采用網(wǎng)絡爬蟲抓取當前網(wǎng)絡中包含輿情信息的網(wǎng)頁。其中,所述正文信息包括正文內(nèi)容和/或標題。其中,當所述網(wǎng)頁為電子公告板bbs或網(wǎng)絡日志blog的網(wǎng)頁時,所述正文信息包括板塊名稱。其中,所述網(wǎng)頁分析模塊中進一步包括多維抽取子模塊,所述多維抽取子模塊,適于對所述網(wǎng)頁進行多維抽取,以獲得所述網(wǎng)頁的正文信息。其中,所述展示模塊進一步包括結(jié)果散列子模塊,所述結(jié)果散列子模塊,適于將所述數(shù)據(jù)統(tǒng)計的結(jié)果散列到顏色的色階范圍內(nèi)來實現(xiàn)地圖著色。其中,所述展示模塊進一步包括放大縮小子模塊,所述放大縮小子模塊,適于根據(jù)需要對地圖區(qū)域的不同行政級別進行調(diào)整顯示。其中,所述系統(tǒng)還包括學習模塊,在對大量樣本做人工標識和校正后,適于采用基于支持向量機SVM的機器進行學習,直至達到預設的準確率。
應當注意的是,在本發(fā)明的系統(tǒng)的各個部件中,根據(jù)其要實現(xiàn)的功能而對其中的部件進行了邏輯劃分,但是,本發(fā)明不受限于此,可以根據(jù)需要對各個部件進行重新劃分或者組合,例如,可以將一些部件組合為單個部件,或者可以將一些部件進一步分解為更多的子部件。本發(fā)明的各個部件實施例可以以硬件實現(xiàn),或者以在一個或者多個處理器上運行的軟件模塊實現(xiàn),或者以它們的組合實現(xiàn)。本領域的技術(shù)人員應當理解,可以在實踐中使用微處理器或者數(shù)字信號處理器(DSP)來實現(xiàn)根據(jù)本發(fā)明實施例的系統(tǒng)中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設備或者裝置程序(例如,計算機程序和計算機程序產(chǎn)品)。這樣的實現(xiàn)本發(fā)明的程序可以存儲在計算機可讀介質(zhì)上,或者可以具有一個或者多個信號的形式。這樣的信號可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號上提供,或者以任何其他形式提供。應該注意的是上述實施例對本發(fā)明進行說明而不是對本發(fā)明進行限制,并且本領域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設計出替換實施例。在權(quán)利要求中,不應將位于括號之間的任何參考符號構(gòu)造成對權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個”不排除存在多個這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當編程的計算機來實現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個可以是通過同一個硬件項來具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序??蓪⑦@些單詞解釋為名稱。以上實施例僅用于說明本發(fā)明,而并非對本發(fā)明的限制,有關技術(shù)領域的普通技術(shù)人員,在不脫離本發(fā)明的精神和范圍的情況下,還可以做出各種變化和變型,因此所有等同的技術(shù)方案也屬于本發(fā)明的范疇,本發(fā)明的專利保護范圍應由權(quán)利要求限定。
權(quán)利要求
1.一種輿情信息展示系統(tǒng),其特征在于,所述系統(tǒng)包括 網(wǎng)頁抓取模塊,適于抓取當前網(wǎng)絡中包含輿情信息的網(wǎng)頁; 網(wǎng)頁分析模塊,適于對所述網(wǎng)頁進行分析,以獲得所述網(wǎng)頁的正文信息; 地域識別模塊,適于對所述正文信息進行地域識別,以獲得所述正文信息的所屬地域并對具有相同所屬地域的網(wǎng)頁進行數(shù)量統(tǒng)計; 展示模塊,適于將所述數(shù)量統(tǒng)計的結(jié)果通過地圖著色的方式進行展示。
2.如權(quán)利要求I所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括存儲模塊,適于將所述正文信息進行數(shù)據(jù)存儲。
3.如權(quán)利要求I或2所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括格式化模塊,適于對所述正文信息進行格式化。
4.如權(quán)利要求I所述的系統(tǒng),其特征在于,所述地域識別模塊進一步包括 Trie樹構(gòu)建子模塊,適于利用行政區(qū)域統(tǒng)計表構(gòu)建雙數(shù)組Trie樹; 匹配子模塊,適于將所述正文信息中出現(xiàn)的名詞與所述雙數(shù)組Trie樹進行匹配; 地域獲得子模塊,適于利用所述匹配的結(jié)果獲得所述正文信息的所屬地域。
5.如權(quán)利要求4所述的系統(tǒng),其特征在于,所述行政區(qū)域統(tǒng)計表包括省、市、縣、鎮(zhèn)和村中至少一個行政級別的地理名詞。
6.如權(quán)利要求4所述的系統(tǒng),其特征在于,所述匹配的結(jié)果包括地理名詞、所述地理名詞的出現(xiàn)頻次及所述地理名詞之間的行政關系。
7.如權(quán)利要求I所述的系統(tǒng),其特征在于,所述網(wǎng)頁抓取模塊中采用網(wǎng)絡爬蟲抓取當前網(wǎng)絡中包含輿情信息的網(wǎng)頁。
8.如權(quán)利要求I所述的系統(tǒng),其特征在于,所述正文信息包括正文內(nèi)容和/或標題。
9.如權(quán)利要求I所述的系統(tǒng),其特征在于,當所述網(wǎng)頁為電子公告板bbs或網(wǎng)絡日志blog的網(wǎng)頁時,所述正文信息包括板塊名稱。
10.如權(quán)利要求I所述的系統(tǒng),其特征在于,所述網(wǎng)頁分析模塊中進一步包括多維抽取子模塊,所述多維抽取子模塊,適于對所述網(wǎng)頁進行多維抽取,以獲得所述網(wǎng)頁的正文信肩、O
11.如權(quán)利要求5所述的系統(tǒng),其特征在于,所述展示模塊進一步包括結(jié)果散列子模塊,所述結(jié)果散列子模塊,適于將所述數(shù)據(jù)統(tǒng)計的結(jié)果散列到顏色的色階范圍內(nèi)來實現(xiàn)地圖著色。
12.如權(quán)利要求5所述的系統(tǒng),其特征在于,所述展示模塊進一步包括放大縮小子模塊,所述放大縮小子模塊,適于根據(jù)需要對地圖區(qū)域的不同行政級別進行調(diào)整顯示。
13.如權(quán)利要求I所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括學習模塊,在對大量樣本做人工標識和校正后,適于采用基于支持向量機SVM的機器進行學習,直至達到預設的準確率。
14.一種輿情信息展示方法,其特征在于,所述方法包括 抓取當前網(wǎng)絡中包含輿情信息的網(wǎng)頁; 對所述網(wǎng)頁進行分析,以獲得所述網(wǎng)頁的正文信息; 對所述正文信息進行地域識別,以獲得所述正文信息的所屬地域,并對具有相同所屬地域的網(wǎng)頁進行數(shù)量統(tǒng)計;將所述數(shù)量統(tǒng)計的結(jié)果通過地圖著色的方式進行展示。
15.如權(quán)利要求14所述的方法,其特征在于,對所述正文信息進行地域識別之前,將所述正文信息進行數(shù)據(jù)存儲。
16.如權(quán)利要求14或15所述的方法,其特征在于,將所述正文信息進行數(shù)據(jù)存儲之前,對所述正文信息進行格式化。
17.如權(quán)利要求14所述的方法,其特征在于,對所述正文信息進行地域識別進一步包括 利用行政區(qū)域統(tǒng)計表構(gòu)建雙數(shù)組Trie樹; 將所述正文信息中出現(xiàn)的名詞與所述雙數(shù)組Trie樹進行匹配; 利用所述匹配的結(jié)果獲得所述正文信息的所屬地域。
18.如權(quán)利要求17所述的方法,其特征在于,所述行政區(qū)域統(tǒng)計表包括省、市、縣、鎮(zhèn)和村中至少一個行政級別的地理名詞。
19.如權(quán)利要求17所述的方法,其特征在于,所述匹配的結(jié)果包括地理名詞、所述地理名詞的出現(xiàn)頻次及所述地理名詞之間的行政關系。
20.如權(quán)利要求14所述的方法,其特征在于,采用網(wǎng)絡爬蟲抓取當前網(wǎng)絡中包含輿情信息的網(wǎng)頁。
21.如權(quán)利要求14所述的方法,其特征在于,所述正文信息包括正文內(nèi)容和/或標題。
22.如權(quán)利要求14所述的方法,其特征在于,當所述網(wǎng)頁為電子公告板bbs或網(wǎng)絡日志blog的網(wǎng)頁時,所述正文信息包括板塊名稱。
23.如權(quán)利要求14所述的方法,其特征在于,對所述網(wǎng)頁進行分析時,對所述網(wǎng)頁進行多維抽取,以獲得所述網(wǎng)頁的正文信息。
24.如權(quán)利要求14所述的方法,其特征在于,將所述數(shù)量統(tǒng)計的結(jié)果通過地圖著色的方式進行展示時,將所述數(shù)據(jù)統(tǒng)計的結(jié)果散列到顏色的色階范圍內(nèi)來實現(xiàn)地圖著色。
25.如權(quán)利要求14所述的方法,其特征在于,將所述數(shù)量統(tǒng)計的結(jié)果通過地圖著色的方式進行展示時,根據(jù)需要對地圖區(qū)域的不同行政級別進行調(diào)整顯示。
26.如權(quán)利要求14所述的方法,其特征在于,對所述正文信息進行地域識別之前,在大量樣本做人工標識和校正后,采用基于支持向量機SVM的機器進行學習,直至達到預設的準確率。
全文摘要
本發(fā)明公開了一種輿情信息展示系統(tǒng)及方法,涉及網(wǎng)絡信息技術(shù)領域,所述系統(tǒng)包括網(wǎng)頁抓取模塊,適于抓取當前網(wǎng)絡中包含輿情信息的網(wǎng)頁;網(wǎng)頁分析模塊,適于對所述網(wǎng)頁進行分析,以獲得所述網(wǎng)頁的正文信息;地域識別模塊,適于對所述正文信息進行地域識別,以獲得所述正文信息的所屬地域,并對具有相同所屬地域的網(wǎng)頁進行數(shù)量統(tǒng)計;展示模塊,適于將所述數(shù)量統(tǒng)計的結(jié)果通過地圖著色的方式進行展示。本發(fā)明的系統(tǒng)及方法通過對包含輿情信息的網(wǎng)頁進行地域識別,客觀地、直觀地反映了不同地域的輿情信息,不僅可以有效及時地發(fā)現(xiàn)網(wǎng)絡中已知輿情信息的區(qū)域分布狀況,還可以在未知輿情信息的萌發(fā)階段就對重點區(qū)域進行有效的識別。
文檔編號G06F17/30GK102779174SQ201210216349
公開日2012年11月14日 申請日期2012年6月26日 優(yōu)先權(quán)日2012年6月26日
發(fā)明者劉付強 申請人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
惠州市| 资兴市| 邹城市| 河南省| 达孜县| 红原县| 方山县| 濮阳县| 麦盖提县| 连平县| 大石桥市| 辽中县| 肥东县| 策勒县| 大关县| 揭阳市| 巨鹿县| 吴川市| 克东县| 青神县| 科技| 成武县| 淳化县| 满洲里市| 安化县| 搜索| 连云港市| 竹溪县| 交口县| 观塘区| 东海县| 通化县| 庄河市| 渭南市| 外汇| 根河市| 手游| 礼泉县| 阳泉市| 青河县| 门源|