欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于大數(shù)據(jù)的輿情發(fā)現(xiàn)方法

文檔序號:9349925閱讀:1079來源:國知局
一種基于大數(shù)據(jù)的輿情發(fā)現(xiàn)方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,具體涉及一種基于大數(shù)據(jù)的輿情發(fā)現(xiàn)方法。
【背景技術(shù)】
[0002] 隨著Web2. 0技術(shù)的發(fā)展,互聯(lián)網(wǎng)發(fā)生翻天覆地的變化。互聯(lián)網(wǎng)由靜態(tài)網(wǎng)頁和信 息,轉(zhuǎn)變成為人人參與的"群體智慧"的展示平臺。通過博客、微博、BBS、SNS、新聞評論等, 網(wǎng)民可以自由發(fā)布自己的觀點想法和對任何事件進行評論。在一個網(wǎng)絡(luò)互聯(lián)的時代,任何 的意見、想法都可能影響一大批人,形成網(wǎng)絡(luò)輿論。現(xiàn)階段越來越多的事件表明:網(wǎng)絡(luò)輿論 在影響社會輿論發(fā)展趨勢,甚至已經(jīng)作為一種主要社會輿論的方式。網(wǎng)民在網(wǎng)絡(luò)上有意識 或者無意識表達出來的民情民意,對社會熱點問題的關(guān)注表達出的價值取向和觀點越來越 具有研究和參考價值。
[0003] 熱點話題和熱點事件的檢測和提取成為近年話題檢測與跟蹤研究的分支之一,從 互聯(lián)網(wǎng)數(shù)據(jù)中,主要是新聞,博客,論壇,社交網(wǎng)站和搜索日志等數(shù)據(jù)中獲取熱點特征組或 者與行為短語,進行抽象提取,從而得到熱點話題。由于傳統(tǒng)博客、微博和社交網(wǎng)站上存在 與日倶增的話題和數(shù)據(jù),熱點話題可以提供給用戶搜索關(guān)鍵詞參考,例如,Baidu搜索引擎 中的熱點話題推薦,將獲取的熱點話題進行推薦,并能時時更新。這些無疑促使熱點新聞成 為輿論的焦點,廣泛的影響大眾的視線,引導(dǎo)大眾輿論,一定程度上體現(xiàn)民眾的社會政治態(tài) 度。面對多元化的網(wǎng)絡(luò)輿情表達訴求,倘若不加引導(dǎo),負面的網(wǎng)絡(luò)輿情將會對社會的公共安 全造成一定的危害。
[0004] 綜上所述,進行網(wǎng)絡(luò)輿情分析,實時把控輿情態(tài)勢,形成正面的網(wǎng)絡(luò)輿情環(huán)境,對 于構(gòu)建社會主義和諧社會具有現(xiàn)實指導(dǎo)意義。但是目前針對互聯(lián)網(wǎng)的基于文本觀點挖掘與 分類的方法還是不多,與即時的發(fā)現(xiàn)熱點、分析處理并評估輿論的要求尚有距離,因此,有 必要提供一種基于文本觀點挖掘與分類的方法。此方法應(yīng)用在及時發(fā)現(xiàn)并監(jiān)控網(wǎng)絡(luò)輿情的 熱點話題,有利于讓民眾實時了解社會熱點信息,為政府及相關(guān)部門制定政策提供輔助支 持。加強信息的梳理,保證輿情的及時、準(zhǔn)確和全面,可以有效的預(yù)防不良信息的傳播。
[0005] 此外,隨著移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等應(yīng)用的飛速發(fā)展,全球數(shù)據(jù)量出現(xiàn)了爆炸式增 長。數(shù)據(jù)量的飛速增長預(yù)示著現(xiàn)在已經(jīng)進入了大數(shù)據(jù)時代?,F(xiàn)有技術(shù)中對大數(shù)據(jù)的處理 采用基于Hadoop的平臺。Hadoop是一個開源分布式計算平臺,其核心包括HDFS(Hadoop Distributed Files System,Hadoop分布式文件系統(tǒng))。HDFS的眾多優(yōu)點(主要包括高容 錯性、高伸縮性等)允許用戶將Hadoop部署在低廉的硬件上,搭建分布式集群,構(gòu)成分布式 系統(tǒng)。HBase(Hadoop DataBase,Hadoop數(shù)據(jù)庫)是建立在分布式文件系統(tǒng)HDFS之上的提 供高可靠性、高性能、列存儲、可伸縮、實時讀寫的分布式數(shù)據(jù)庫系統(tǒng),主要用來存儲非結(jié)構(gòu) 化和半結(jié)構(gòu)化的松散數(shù)據(jù)。

【發(fā)明內(nèi)容】

[0006] 為解決現(xiàn)有技術(shù)中存在的問題,本發(fā)明提出一種基于大數(shù)據(jù)的輿情發(fā)現(xiàn)方法。
[0007] 本發(fā)明提出的一種基于大數(shù)據(jù)的輿情發(fā)現(xiàn)方法,包括:
[0008] 步驟S100,數(shù)據(jù)采集,基于分布式云計算方式對網(wǎng)絡(luò)數(shù)據(jù)進行數(shù)據(jù)采集,所述數(shù)據(jù) 采集是由網(wǎng)絡(luò)爬蟲來實現(xiàn)的;通過分布式存儲設(shè)備存儲采集的網(wǎng)絡(luò)數(shù)據(jù),所述分布式存儲 設(shè)備基于HDFS實現(xiàn);
[0009] 步驟S200,數(shù)據(jù)預(yù)處理,對步驟SlOO采集的網(wǎng)絡(luò)數(shù)據(jù)進行預(yù)處理,首先對采集的 網(wǎng)絡(luò)數(shù)據(jù)進行分詞和詞性標(biāo)注處理,然后進行標(biāo)點符號處理、表情字符處理和停用詞處理, 最后得到用于表示文本的特征項;
[0010] 步驟S300,話題抽取,基于預(yù)處理后的網(wǎng)絡(luò)數(shù)據(jù),從中抽取出話題。
[0011] 步驟S400,輿情分析,基于步驟S300抽取的話題進行輿情分析。
[0012] 其中,步驟S200進一步包括:
[0013] 高質(zhì)量詞匯提取,步驟S200所得到的每一個特征項都隱含一個質(zhì)量值,其反應(yīng)特 征項在文本中的貢獻度,特征項t的質(zhì)量Q (t)表示為:
[0015] 其中,N表示所有文檔的數(shù)量,:^表示文檔特征項t在文檔i中出現(xiàn)的次數(shù),1廣 示特征項t的長度,
[0016] 設(shè)定閾值Q,對于Q(t)>Q的特征項予以保留,否則刪除。
[0017] 其中,步驟S300包括:對步驟S200預(yù)處理得到的文本進行文本聚類,利用層次聚 類算法計算每個類中文本對象的均值,得到k-means算法的初始聚類中心。利用k-means 算法通過重新計算每個文本對象與聚類中心的距離,修正層次聚類結(jié)果中文本對象的歸 屬類,算法步驟如下:
[0018] (1)確定聚類中心的個數(shù)k ;
[0019] (2)利用層次聚類的方法對數(shù)據(jù)集進行層次聚類分析,得到k個類的均值,將它 們作為k-means的初始聚類中心;
[0020] (3)計算每個文本對象與聚類中心的距離,將文本對象劃分到離該文本對象最近 的聚類中心所代表的簇;
[0021] (4)利用得到的值重新計算每個簇的聚類中心;
[0022] (5)重復(fù)(3)和(4),直到每個文本對象所屬的類不再變化為止;
[0023] 聚類結(jié)果所得到的類即確定為話題。
[0024] 優(yōu)選的,本發(fā)明進一步包括:
[0025] 確定熱點話題,通過下列公式計算步驟S300所得到的話題的熱度,
[0026] Ri = a丄? RFi+ a 2 ? RTi+ a 3 ? CNi+ a 4 ? DNi,
[0027] 其中,Ri表示話題i的熱度,RFi:表示話題i的報道頻率,RTi:表示在預(yù)定的N天 時間內(nèi),對話題i的報道天數(shù)和所有天數(shù)的比值,CN1:表示話題i在預(yù)定天數(shù)內(nèi)的網(wǎng)民對它 的點擊閱讀數(shù)量,〇隊:表示話題i在預(yù)定天數(shù)內(nèi)的網(wǎng)民對它的評論數(shù);a p a 2、a 3、a 4為 權(quán)重系數(shù);當(dāng)R1大于給定閾值R時,將話題i確定為熱點話題。
[0028] 優(yōu)選的,本發(fā)明中所述網(wǎng)絡(luò)數(shù)據(jù)包括博客、微博、論壇、新聞報道網(wǎng)頁幾個類別的 數(shù)據(jù),對于博客、微博、論壇、新聞報道網(wǎng)頁的數(shù)據(jù)是分別獨立進行話題抽取的,假設(shè)對于 博客、微博、論壇、新聞報道網(wǎng)頁的數(shù)據(jù)所抽取的熱點話題集合分別為BLOG、M-BLOG、BBS、 NEWS,計算BLOG、M-BLOG、BBS、NEWS的交集,所得到的結(jié)果確定為第一熱點話題集合,計算 BLOG、M-BLOG、BBS、NEWS其中每三個集合的交集,所得到的所有結(jié)果的和減去第一熱點話題 集合確定為第二熱點話題集合,計算BLOG、M-BLOG、BBS、NEWS其中每二個集合的交集,所得 到的所有結(jié)果的和減去第一熱點話題集合以及第二熱點話題集合確定為第三熱點話題集 合,集合BLOG、M-BLOG、BBS、NEWS的和減去第一熱點話題集合、第二熱點話題集合以及第三 熱點話題集合的結(jié)果確定為第四熱點話題集合。
[0029] 本發(fā)明采用分布式的云計算方式,能夠?qū)Υ笠?guī)模采集的各種網(wǎng)絡(luò)數(shù)據(jù)進行挖掘、 分析;并通過對不同數(shù)據(jù)源數(shù)據(jù)分別進行計算分析,得到不同數(shù)據(jù)源的熱點話題,進而進一 步確定話題的熱度,從而能夠更加客觀的得到當(dāng)前熱點話題。本發(fā)明為黨政機關(guān)、大型企業(yè) 等單位和組織及時發(fā)現(xiàn)網(wǎng)絡(luò)敏感信息、掌握網(wǎng)絡(luò)輿情熱點、把握網(wǎng)絡(luò)輿情趨勢、應(yīng)對網(wǎng)絡(luò)輿 情危機提供自動化、系統(tǒng)化和科學(xué)化的信息支持。有效提高了所述網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)判斷 的準(zhǔn)確性,為網(wǎng)絡(luò)微信輿情信息的后續(xù)處理提供了更為真實、準(zhǔn)確的基礎(chǔ)。
【附圖說明】
[0030] 圖1為本發(fā)明輿情分析的流程圖;
【具體實施方式】
[0031 ] 下面將結(jié)合本發(fā)明的附圖,對本發(fā)明的技術(shù)方案進行清楚、完整地描述。這里將詳 細地對示例性實施例進行說明,其示例表示在附圖中。下面的描述涉及附圖時,除非另有表 示,不同附圖中的相同數(shù)字表示相同或相似的要素。以下示例性實施例中所描述的實施方 式并不代表與本發(fā)明相一致的所有實施方式。相反,它們僅是與如所附權(quán)利要求書中所詳 述的、本發(fā)明的一些方面相一致的裝置和方法的例子。
[0032] 參見圖1,本發(fā)明提出的一種基于大數(shù)據(jù)的輿情發(fā)現(xiàn)方法。本發(fā)明以下實施方式 主要是以數(shù)據(jù)源為微博的情況為例進行說明,對于數(shù)據(jù)源為博客、新聞報道網(wǎng)頁、論壇等情 況,本領(lǐng)域技術(shù)人員能夠根據(jù)所給出的方法以及本領(lǐng)域的公知技術(shù)進行實施。<
當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
聂拉木县| 灵丘县| 普定县| 贵阳市| 临高县| 民权县| 遂昌县| 大兴区| 通渭县| 邯郸县| 张北县| 宁武县| 万宁市| 北安市| 高阳县| 襄城县| 准格尔旗| 简阳市| 吕梁市| 横峰县| 静海县| 诸暨市| 敦煌市| 白城市| 察雅县| 卢龙县| 河西区| 崇礼县| 临夏县| 永安市| 都昌县| 林西县| 南靖县| 周至县| 即墨市| 宣城市| 上饶县| 克拉玛依市| 通河县| 临猗县| 秦皇岛市|