欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于大數(shù)據(jù)的輿情發(fā)現(xiàn)方法_3

文檔序號:9349925閱讀:來源:國知局
[0071] 話題的評論數(shù);如果互聯(lián)網(wǎng)上網(wǎng)民對某一熱點話題的評論數(shù)量越多,也能夠說明 話題的評論數(shù)也是影響話題相關(guān)度的一個因素。
[0072] 本申請中對于每個文本,都會標注文本的報道時間(比如新聞報道時間,博客、微 博、論壇的發(fā)表時間)、文本的點擊次數(shù)、文本的評論數(shù)目,根據(jù)文本的報道時間可以確定聚 類后得到的話題的報道頻率、話題的持續(xù)時間;根據(jù)文本的點擊次數(shù)可以確定聚類后得到 的話題的閱讀量,根據(jù)文本的評論數(shù)目可以確定聚類后得到的話題的評論數(shù)
[0073] RF1^示話題i的報道頻率;
[0074] RT1:表示在預(yù)定的N天時間內(nèi),媒體對有關(guān)話題i的有效報道天數(shù)和所有天數(shù)的 比值,當一天內(nèi)關(guān)于話題i的報道數(shù)量大于某一個閾值時,我們即認定該天就為話題i的 有效報道天數(shù);
[0075] 0隊:表示話題i在預(yù)定天數(shù)內(nèi)的網(wǎng)民對它的點擊閱讀數(shù)量;
[0076] 0隊:表示話題i在預(yù)定天數(shù)內(nèi)的網(wǎng)民對它的評論數(shù);
[0077] 話題熱度計算公式:
[0078] Ri=ai ? RFi+a2 ? RTi+a3 ? CNi+a4 ? DNi,
[0079] Ri表示話題i的熱度,a i、a 2、a 3、a 4為權(quán)重系數(shù),當R i大于給定閾值R時,將話 題i確定為熱點話題。
[0080] 本發(fā)明對于博客、微博、論壇、新聞報道網(wǎng)頁的數(shù)據(jù)是分別獨立進行話題抽取 的,假設(shè)對于博客、微博、論壇、新聞報道網(wǎng)頁的數(shù)據(jù)所抽取的熱點話題集合分別為BL0G、 M-BLOG、BBS、NEWS,計算BLOG、M-BLOG、BBS、NEWS的交集,所得到的結(jié)果確定為第一熱點話 題集合,計算BLOG、M-BLOG、BBS、NEWS其中每三個集合的交集,所得到的所有結(jié)果的和減去 第一熱點話題集合確定為第二熱點話題集合,計算BLOG、M-BLOG、BBS、NEWS其中每二個集 合的交集,所得到的所有結(jié)果的和減去第一熱點話題集合以及第二熱點話題集合確定為第 三熱點話題集合,集合BLOG、M-BLOG、BBS、NEWS的和減去第一熱點話題集合、第二熱點話題 集合以及第三熱點話題集合的結(jié)果確定為第四熱點話題集合。
[0081] 由于博客、微博、論壇、新聞報道網(wǎng)頁所反映的關(guān)注點可能會有所差異,所以當博 客、微博、論壇、新聞報道網(wǎng)頁同時關(guān)注的內(nèi)容應(yīng)該是熱度最高的內(nèi)容,博客、微博、論壇、新 聞報道網(wǎng)頁中三個同時關(guān)注的內(nèi)容熱度次之,博客、微博、論壇、新聞報道網(wǎng)頁中二個同時 關(guān)注的內(nèi)容熱度又次之,博客、微博、論壇、新聞報道網(wǎng)頁中只有一個關(guān)注的內(nèi)容熱度相對 最低。
[0082] 基于抽取確定的話題,可以進行各種輿情分析工作。
[0083] 本發(fā)明采用分布式的云計算方式,能夠?qū)Υ笠?guī)模采集的各種網(wǎng)絡(luò)數(shù)據(jù)進行挖掘、 分析;并通過對不同數(shù)據(jù)源數(shù)據(jù)分別進行計算分析,得到不同數(shù)據(jù)源的熱點話題,進而進一 步確定話題的熱度,從而能夠更加客觀的得到當前熱點話題。本發(fā)明為黨政機關(guān)、大型企業(yè) 等單位和組織及時發(fā)現(xiàn)網(wǎng)絡(luò)敏感信息、掌握網(wǎng)絡(luò)輿情熱點、把握網(wǎng)絡(luò)輿情趨勢、應(yīng)對網(wǎng)絡(luò)輿 情危機提供自動化、系統(tǒng)化和科學化的信息支持。有效提高了所述網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)判斷 的準確性,為網(wǎng)絡(luò)微信輿情信息的后續(xù)處理提供了更為真實、準確的基礎(chǔ)。
[0084] 本領(lǐng)域技術(shù)人員在考慮說明書及實踐這里公開的發(fā)明后,將容易想到本發(fā)明的其 它實施方案。本申請旨在涵蓋本發(fā)明的任何變型、用途或者適應(yīng)性變化,這些變型、用途或 者適應(yīng)性變化遵循本發(fā)明的一般性原理并包括本發(fā)明未公開的本技術(shù)領(lǐng)域中的公知常識 或慣用技術(shù)手段。
[0085] 應(yīng)當理解的是,本發(fā)明并不局限于上面已經(jīng)描述并在附圖中示出的精確結(jié)構(gòu),并 且可以在不脫離其范圍進行各種修改和改變。本發(fā)明的范圍僅由所附的權(quán)利要求來限制。
【主權(quán)項】
1. 一種基于大數(shù)據(jù)的輿情發(fā)現(xiàn)方法,包括: 步驟S100,數(shù)據(jù)采集,基于分布式云計算方式對網(wǎng)絡(luò)數(shù)據(jù)進行數(shù)據(jù)采集,所述數(shù)據(jù)采集 是由網(wǎng)絡(luò)爬蟲來實現(xiàn)的;通過分布式存儲設(shè)備存儲采集的網(wǎng)絡(luò)數(shù)據(jù),所述分布式存儲設(shè)備 基于HDFS實現(xiàn); 步驟S200,數(shù)據(jù)預(yù)處理,對步驟SlOO采集的網(wǎng)絡(luò)數(shù)據(jù)進行預(yù)處理,首先對采集的網(wǎng)絡(luò) 數(shù)據(jù)進行分詞和詞性標注處理,然后進行標點符號處理、表情字符處理和停用詞處理,最后 得到用于表示文本的特征項; 步驟S300,話題抽取,基于預(yù)處理后的網(wǎng)絡(luò)數(shù)據(jù),從中抽取出話題; 步驟S400,輿情分析,基于步驟S300抽取的話題進行輿情分析。2. 如權(quán)利要求1所述的基于大數(shù)據(jù)的輿情發(fā)現(xiàn)方法,其中,步驟S200進一步包括: 高質(zhì)量詞匯提取,步驟S200所得到的每一個特征項都隱含一個質(zhì)量值,其反應(yīng)特征項 在文本中的貢獻度,特征項t的質(zhì)量Q (t)表示為: 、' ' '·,. 其中,N表示所有文檔的數(shù)量,:^表示文檔特征項t在文檔i中出現(xiàn)的次數(shù),I t表示特 征項t的長度, 設(shè)定閾值Q,對于Q(t)>Q的特征項予以保留,否則刪除。3. 如權(quán)利要求1所述的基于大數(shù)據(jù)的輿情發(fā)現(xiàn)方法,其中,步驟S300包括:對步驟 S200預(yù)處理得到的文本進行文本聚類,利用層次聚類算法計算每個類中文本對象的均值, 得到k-means算法的初始聚類中心。利用k-means算法通過重新計算每個文本對象與聚類 中心的距離,修正層次聚類結(jié)果中文本對象的歸屬類,算法步驟如下: (1) 確定聚類中心的個數(shù)k; (2) 利用層次聚類的方法對數(shù)據(jù)集進行層次聚類分析,得到k個類的均值,將它們作 為k-means的初始聚類中心; (3) 計算每個文本對象與聚類中心的距離,將文本對象劃分到離該文本對象最近的聚 類中心所代表的簇; (4) 利用得到的值重新計算每個簇的聚類中心; (5) 重復(fù)(3)和(4),直到每個文本對象所屬的類不再變化為止; 聚類結(jié)果所得到的類即確定為話題。4. 如權(quán)利要求3所述的基于大數(shù)據(jù)的輿情發(fā)現(xiàn)方法,進一步包括: 確定熱點話題,通過下列公式計算步驟S300所得到的話題的熱度, Ri= σ 1 · RFi+ α 2 · RTi+ α 3 · CNi+ α 4 · DNi, 其中,Ri表示話題i的熱度,RF i:表示話題i的報道頻率,RT i:表示在預(yù)定的N天時間 內(nèi),對話題i的報道天數(shù)和所有天數(shù)的比值,CN1:表示話題i在預(yù)定天數(shù)內(nèi)的網(wǎng)民對它的點 擊閱讀數(shù)量,〇隊:表示話題i在預(yù)定天數(shù)內(nèi)的網(wǎng)民對它的評論數(shù)i、α 2、α3、α4為權(quán)重 系數(shù);當R1大于給定閾值R時,將話題i確定為熱點話題。5. 如權(quán)利要求1所述的基于大數(shù)據(jù)的輿情發(fā)現(xiàn)方法,其中,所述網(wǎng)絡(luò)數(shù)據(jù)包括博客、微 博、論壇、新聞報道網(wǎng)頁幾個類別的數(shù)據(jù),對于博客、微博、論壇、新聞報道網(wǎng)頁的數(shù)據(jù)是分 別獨立進行話題抽取的,假設(shè)對于博客、微博、論壇、新聞報道網(wǎng)頁的數(shù)據(jù)所抽取的熱點話 題集合分別為BLOG、M-BLOG、BBS、NEWS,計算BLOG、M-BLOG、BBS、NEWS的交集,所得到的結(jié) 果確定為第一熱點話題集合,計算BLOG、M-BLOG、BBS、NEWS其中每三個集合的交集,所得到 的所有結(jié)果的和減去第一熱點話題集合確定為第二熱點話題集合,計算BLOG、M-BLOG、BBS、 NEWS其中每二個集合的交集,所得到的所有結(jié)果的和減去第一熱點話題集合以及第二熱點 話題集合確定為第三熱點話題集合,集合BLOG、M-BLOG、BBS、NEWS的和減去第一熱點話題 集合、第二熱點話題集合以及第三熱點話題集合的結(jié)果確定為第四熱點話題集合。
【專利摘要】本發(fā)明提出了一種基于大數(shù)據(jù)的輿情發(fā)現(xiàn)方法,所述方法包括:步驟S100,數(shù)據(jù)采集,基于分布式云計算方式對網(wǎng)絡(luò)數(shù)據(jù)進行數(shù)據(jù)采集;步驟S200,數(shù)據(jù)預(yù)處理,對步驟S100采集的網(wǎng)絡(luò)數(shù)據(jù)進行預(yù)處理,首先對采集的網(wǎng)絡(luò)數(shù)據(jù)進行分詞和詞性標注處理,然后進行標點符號處理、表情字符處理和停用詞處理,最后得到用于表示文本的特征項;步驟S300,話題抽取,基于預(yù)處理后的網(wǎng)絡(luò)數(shù)據(jù),從中抽取出話題;步驟S400,輿情分析,基于步驟S300抽取的話題進行輿情分析。本發(fā)明采用分布式的云計算方式,能夠?qū)Υ笠?guī)模采集的各種網(wǎng)絡(luò)數(shù)據(jù)進行挖掘、分析。
【IPC分類】G06F17/30, G06F17/27
【公開號】CN105068991
【申請?zhí)枴緾N201510458540
【發(fā)明人】肖會
【申請人】成都鼎智匯科技有限公司
【公開日】2015年11月18日
【申請日】2015年7月30日
當前第3頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
崇文区| 仙居县| 庆元县| 青海省| 嵊泗县| 蓬安县| 兰州市| 临高县| 江源县| 即墨市| 搜索| 建始县| 乌兰县| 罗城| 岢岚县| 巴彦县| 宁河县| 柏乡县| 阜平县| 奇台县| 天水市| 济源市| 九龙城区| 中江县| 三都| 凌源市| 遂昌县| 营口市| 莲花县| 类乌齐县| 长葛市| 大悟县| 淮南市| 兴安盟| 汝州市| 康马县| 焦作市| 上饶市| 恩平市| 洪湖市| 衡阳县|