欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種針對千萬級規(guī)模微博文本的觀點挖掘方法

文檔序號:6627243閱讀:221來源:國知局
一種針對千萬級規(guī)模微博文本的觀點挖掘方法
【專利摘要】本發(fā)明公開了一種針對千萬級規(guī)模微博文本的觀點挖掘方法,首先,對某一事件或話題下的微博進行分詞,在分詞的基礎(chǔ)上,去掉其中的垃圾文本;再根據(jù)分詞的結(jié)果對微博文本進行關(guān)鍵詞對的提取;然后對提取出的關(guān)鍵詞對進行聚類;最后根據(jù)每一類的關(guān)鍵詞對,從微博文本中提取出該類下能代表事件方面或用戶觀點的文本。本發(fā)明利用中文分詞工具,考慮漢語語言的用法和搭配關(guān)系,處理千萬級規(guī)模的微博文本,具有高效性、魯棒性和易用性等優(yōu)點。適用于對千萬級規(guī)模的微博文本的方面分析,在輿情監(jiān)控、觀點分析和信息傳播擴散等領(lǐng)域有重要的應用價值。
【專利說明】一種針對千萬級規(guī)模微博文本的觀點挖掘方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于數(shù)據(jù)挖掘領(lǐng)域,涉及一種觀點挖掘技術(shù),具體的說是一種針對千萬級 規(guī)模微博文本的觀點挖掘方法。

【背景技術(shù)】
[0002] 隨著網(wǎng)民規(guī)模的不斷增大,一些社會化媒體也得到迅速地發(fā)展。以論壇、微博、微 信為代表的社會化媒體逐漸滲透到全民生活和工作的每一個層面,對人們的行為模式、心 理模式產(chǎn)生了極為深遠的影響。這些社會化媒體每天都會產(chǎn)生大量的短文本。這些短文 本中含有大量的表達事件方面或用戶觀點的信息。通過分析這些信息,人們一方面可以了 解某一事件或話題的信息擴散情況,另一方面可以通過觀察其他人對某一事件或話題的看 法,了解到其觀點偏好和行為特征,這對社會化媒體輿情監(jiān)控、社會化媒體營銷等方面有著 重要的作用。但是,社會化媒體產(chǎn)生的信息中也存在著大量的垃圾和無意義文本。如何從 摻雜著大量垃圾和無意義信息的文本中提取出能表達事件方面或用戶觀點的關(guān)鍵詞成為 當前的研究重點。


【發(fā)明內(nèi)容】

[0003] 本發(fā)明的目的是提供一種針對千萬級規(guī)模微博文本的觀點挖掘方法,該方法鑒于 中文短文本的稀疏性、實時性等特性,考慮漢語語言的用法和搭配關(guān)系,從詞的角度進行垃 圾文本的過濾,從過濾之后的微博文本中提取出關(guān)鍵詞對,再根據(jù)關(guān)鍵詞對將文本進行分 類,并篩選出具有代表性的文本。
[0004] 本發(fā)明的目的通過以下技術(shù)方案來實現(xiàn):
[0005] -種針對千萬級規(guī)模微博文本的觀點挖掘方法,其特征在于:該方法對千萬級規(guī) 模的微博文本進行關(guān)鍵詞對的提取,再對關(guān)鍵詞對進行聚類,最后根據(jù)聚類結(jié)果對代表性 文本進行篩選,具體步驟如下:
[0006] 1)對千萬級規(guī)模微博文本進行簡單過濾,將其中的無意義文本去掉;
[0007] 簡單過濾具體如下:
[0008] 微博文本存在一類文本,這一類文本沒有包含某話題或事件的一個方面,也沒有 包含用戶的意見或觀點傾向;這類文本可以歸納為以下四類:
[0009] (1)只包含"轉(zhuǎn)發(fā)微博"的文本;
[0010] ⑵以"http://"開頭的文本;
[0011] ⑶內(nèi)容為空的文本;
[0012] (4)含有多于5個符號的文本;
[0013] 第一類文本是發(fā)布該微博的用戶單純地對其他用戶所發(fā)的微博進行轉(zhuǎn)發(fā),而沒有 加上自己對這條微博的意見或觀點傾向,過濾方法:文本匹配;第二類微博多為參加某個 活動而發(fā)布的,過濾方法:正則表達式;第三類微博有可能是由于傳輸數(shù)據(jù)過程中的某些 原因而導致文本字段缺失的微博,過濾方法:字符串長度;第四類微博多為參加某個活動 而發(fā)布的,過濾方法:字符串函數(shù);由于這四類微博有著比較明顯的文本特征,因此,只需 采用簡單的規(guī)則即可實現(xiàn)這四類微博的過濾。
[0014] 2)利用中文分詞工具,對簡單過濾之后的微博文本進行分詞和詞性標注;
[0015] 分詞的目的是為了將微博文本轉(zhuǎn)化成一個個詞語;根據(jù)漢語語言的特點,能反映 事件方面或用戶觀點的詞語都是實詞;因此,在分詞的過程中需要對每一個詞語進行詞性 標注;需要對分詞之后的結(jié)果進行兩種特殊處理,一種是詞性篩選,另一種是詞頻篩選;
[0016] 詞性篩選是指將分詞結(jié)果中的名詞、形容詞、動詞保留下來,將其他詞性的詞語去 掉;
[0017] 詞頻篩選是指將分詞結(jié)果中的低頻詞和高頻詞去掉;低頻詞很可能是只在少數(shù)微 博文本中出現(xiàn)的,不具有代表性;高頻詞有兩種可能:一種是大部分微博都出現(xiàn)的詞語;另 一類是錯誤分詞以后產(chǎn)生的分詞碎片。
[0018] 3)利用分詞結(jié)果,將詞作為屬性對文本進行分類,以識別出其中的廣告文本,并將 廣告文本過濾掉;
[0019] 將廣告文本過濾轉(zhuǎn)化為一個二分類問題,通過人工標注的方式產(chǎn)生訓練樣本;根 據(jù)每一個測試樣本的測試結(jié)果,對訓練樣本進行擴充,以增加訓練樣本對不同種類的廣告 的覆蓋度;考慮廣告文本用詞的特征,在分類的過程中,本步驟用步驟2)產(chǎn)生的分詞結(jié)果 作為特征屬性構(gòu)建特征矩陣。
[0020] 4)從剩下的微博文本中提取關(guān)鍵詞對;
[0021] 關(guān)鍵詞對的提取是在高頻詞的基礎(chǔ)上進行的,首先,對經(jīng)過上一步驟保留下來的 微博文本進行詞頻統(tǒng)計,選取詞頻排名前K個詞語作為候選的高頻詞;再根據(jù)高頻詞的位 置,選取與高頻詞緊鄰的前一個和后一個詞語,構(gòu)成高頻詞和前后詞語的詞對;然后,統(tǒng)計 每一個詞對在微博文本中出現(xiàn)的次數(shù),根據(jù)如下公式計算每一個詞對的權(quán)重:
[0022] ff = FgXNc
[0023] 詞網(wǎng)中的邊的權(quán)重包括核心詞權(quán)重FjP詞對共現(xiàn)權(quán)重N。兩個部分;核心詞權(quán)重是 指這對詞對中高頻詞的權(quán)重,高頻詞出現(xiàn)的次數(shù)越多,越有可能形成這樣一條邊,說明核心 詞的權(quán)重越高;核心詞權(quán)重用高頻詞的頻率來表示;詞對共現(xiàn)權(quán)重是指這兩個詞同時緊挨 著出現(xiàn)的權(quán)重,用這兩個詞共現(xiàn)的次數(shù)來表示;
[0024] 在計算每一個詞對的權(quán)重之后,根據(jù)權(quán)重對詞對進行排序,選取權(quán)重排序前η個 詞對作為這些微博文本中的關(guān)鍵詞對。
[0025] 5)對提取出的關(guān)鍵詞對進行聚類;
[0026] 在提取出關(guān)鍵詞對之后,由于每一個關(guān)鍵詞對表達的含義可能不一樣,需要對提 取出的關(guān)鍵詞對進行聚類;采用K-means聚類算法;
[0027] K-means聚類算法是用一個距離函數(shù)來刻畫樣本點到聚類中心的聚類,根據(jù)這個 距離來將樣本點劃分到對應的類別中;采用的距離函數(shù)是余弦相似度;余弦相似度是信 息檢索中常用的相似度的計算方式,假如有兩個詞語i和j,詞語i表達成文件向量以= ( Wil,Wi2,…,?,詞語j表達成Dj = (WjD wj2,…,wjn),則這兩個詞語的余弦相似度計算公 式為:
[0028]

【權(quán)利要求】
1. 一種針對千萬級規(guī)模微博文本的觀點挖掘方法,其特征在于:該方法對千萬級規(guī)模 的微博文本進行關(guān)鍵詞對的提取,再對關(guān)鍵詞對進行聚類,最后根據(jù)聚類結(jié)果對代表性文 本進行篩選,具體步驟如下: 1) 對千萬級規(guī)模微博文本進行簡單過濾,將其中的無意義文本去掉; 2) 利用中文分詞工具,對簡單過濾之后的微博文本進行分詞和詞性標注; 3) 利用分詞結(jié)果,將詞作為屬性對文本進行分類,以識別出其中的廣告文本,并將廣告 文本過濾掉; 4) 從剩下的微博文本中提取關(guān)鍵詞對; 5) 對提取出的關(guān)鍵詞對進行聚類; 6) 根據(jù)聚類結(jié)果,對微博文本進行分類; 7) 選出每一類中能代表事件方面或用戶觀點的微博文本。
2. 根據(jù)權(quán)利要求1所述的針對千萬級規(guī)模微博文本的觀點挖掘方法,其特征在于:步 驟1)中,簡單過濾具體如下: 微博文本存在一類文本,這一類文本沒有包含某話題或事件的一個方面,也沒有包含 用戶的意見或觀點傾向;這類文本可以歸納為以下四類: (1) 只包含"轉(zhuǎn)發(fā)微博"的文本; (2) 以"http://"開頭的文本; (3) 內(nèi)容為空的文本; (4) 含有多于5個符號的文本; 第一類文本是發(fā)布該微博的用戶單純地對其他用戶所發(fā)的微博進行轉(zhuǎn)發(fā),而沒有加上 自己對這條微博的意見或觀點傾向,過濾方法:文本匹配;第二類微博多為參加某個活動 而發(fā)布的,過濾方法:正則表達式;第三類微博有可能是由于傳輸數(shù)據(jù)過程中的某些原因 而導致文本字段缺失的微博,過濾方法:字符串長度;第四類微博多為參加某個活動而發(fā) 布的,過濾方法:字符串函數(shù);由于這四類微博有著比較明顯的文本特征,因此,只需采用 簡單的規(guī)則即可實現(xiàn)這四類微博的過濾。
3. 根據(jù)權(quán)利要求1所述的針對千萬級規(guī)模微博文本的觀點挖掘方法,其特征在于:步 驟2)中,分詞的目的是為了將微博文本轉(zhuǎn)化成一個個詞語;根據(jù)漢語語言的特點,能反映 事件方面或用戶觀點的詞語都是實詞;因此,在分詞的過程中需要對每一個詞語進行詞性 標注;需要對分詞之后的結(jié)果進行兩種特殊處理,一種是詞性篩選,另一種是詞頻篩選; 詞性篩選是指將分詞結(jié)果中的名詞、形容詞、動詞保留下來,將其他詞性的詞語去掉; 詞頻篩選是指將分詞結(jié)果中的低頻詞和高頻詞去掉;低頻詞很可能是只在少數(shù)微博文 本中出現(xiàn)的,不具有代表性;高頻詞有兩種可能:一種是大部分微博都出現(xiàn)的詞語;另一類 是錯誤分詞以后產(chǎn)生的分詞碎片。
4. 根據(jù)權(quán)利要求1所述的針對千萬級規(guī)模微博文本的觀點挖掘方法,其特征在于:步 驟3)中,將廣告文本過濾轉(zhuǎn)化為一個二分類問題,通過人工標注的方式產(chǎn)生訓練樣本;根 據(jù)每一個測試樣本的測試結(jié)果,對訓練樣本進行擴充,以增加訓練樣本對不同種類的廣告 的覆蓋度;考慮廣告文本用詞的特征,在分類的過程中,本步驟用步驟2)產(chǎn)生的分詞結(jié)果 作為特征屬性構(gòu)建特征矩陣。
5. 根據(jù)權(quán)利要求1所述的針對千萬級規(guī)模微博文本的觀點挖掘方法,其特征在于:步 驟4)中,關(guān)鍵詞對的提取是在高頻詞的基礎(chǔ)上進行的,首先,對經(jīng)過上一步驟保留下來的 微博文本進行詞頻統(tǒng)計,選取詞頻排名前K個詞語作為候選的高頻詞;再根據(jù)高頻詞的位 置,選取與高頻詞緊鄰的前一個和后一個詞語,構(gòu)成高頻詞和前后詞語的詞對;然后,統(tǒng)計 每一個詞對在微博文本中出現(xiàn)的次數(shù),根據(jù)如下公式計算每一個詞對的權(quán)重: ff = FgXNc 詞網(wǎng)中的邊的權(quán)重包括核心詞權(quán)重匕和詞對共現(xiàn)權(quán)重N。兩個部分;核心詞權(quán)重是指這 對詞對中高頻詞的權(quán)重,高頻詞出現(xiàn)的次數(shù)越多,越有可能形成這樣一條邊,說明核心詞的 權(quán)重越高;核心詞權(quán)重用高頻詞的頻率來表示;詞對共現(xiàn)權(quán)重是指這兩個詞同時緊挨著出 現(xiàn)的權(quán)重,用這兩個詞共現(xiàn)的次數(shù)來表示; 在計算每一個詞對的權(quán)重之后,根據(jù)權(quán)重對詞對進行排序,選取權(quán)重排序前n個詞對 作為這些微博文本中的關(guān)鍵詞對。
6. 根據(jù)權(quán)利要求1所述的針對千萬級規(guī)模微博文本的觀點挖掘方法,其特征在于:步 驟5)中,在提取出關(guān)鍵詞對之后,由于每一個關(guān)鍵詞對表達的含義可能不一樣,需要對提 取出的關(guān)鍵詞對進行聚類;采用K-means聚類算法; K-means聚類算法是用一個距離函數(shù)來刻畫樣本點到聚類中心的聚類,根據(jù)這個距 離來將樣本點劃分到對應的類別中;采用的距離函數(shù)是余弦相似度;余弦相似度是信息 檢索中常用的相似度的計算方式,假如有兩個詞語i和j,詞語i表達成文件向量h = (Wil,Wi2,…,win),詞語j表達成Dj = (Wji, wj2,…,wjn),則這兩個詞語的余弦相似度計算公 式為:
余弦相似度最小值為0,最大值為1,其幾何意義是計算兩文件或詞語向量在高緯度空 間中的夾角,夾角越小,余弦相似度越大,角度為0°時,相似度為1 ;夾角越大,余弦相似度 越小,角度為90°時,相似度為0。
7. 根據(jù)權(quán)利要求1所述的針對千萬級規(guī)模微博文本的觀點挖掘方法,其特征在于:步 驟6)中,采用的分類流程如下:根據(jù)每一類的關(guān)鍵詞對,遍歷所分析數(shù)據(jù)集中所有的微博 文本,計算這一類關(guān)鍵詞對在每條微博中出現(xiàn)的頻數(shù),將所有關(guān)鍵詞對在該微博中出現(xiàn)的 頻數(shù)之和作為這條微博的權(quán)重;根據(jù)微博文本在每一類關(guān)鍵詞對的權(quán)重,將文本分到權(quán)重 最_的那一類關(guān)鍵詞對中。
8. 根據(jù)權(quán)利要求1所述的針對千萬級規(guī)模微博文本的觀點挖掘方法,其特征在于:步 驟7)中,根據(jù)上分類結(jié)果,對每一類微博文本進行代表性文本提??;根據(jù)計算出的權(quán)重對 代表性文本進行排序,提取每一類中權(quán)重比較高的前n條微博文本作為該類別具有代表性 的文本。
【文檔編號】G06F17/27GK104281653SQ201410472954
【公開日】2015年1月14日 申請日期:2014年9月16日 優(yōu)先權(quán)日:2014年9月16日
【發(fā)明者】吳俊杰, 伍之昂, 曹杰 申請人:南京弘數(shù)信息科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
福建省| 桦南县| 涪陵区| 大关县| 法库县| 双流县| 临洮县| 农安县| 开平市| 马公市| 日喀则市| 拉孜县| 蕉岭县| 德惠市| 琼结县| 舞钢市| 天长市| 镇宁| 华阴市| 女性| 九江市| 平顶山市| 曲麻莱县| 温宿县| 昌吉市| 稻城县| 额敏县| 莱州市| 高尔夫| 大庆市| 蓝田县| 明星| 楚雄市| 灵璧县| 天祝| 海城市| 新和县| 孟津县| 通河县| 沛县| 罗江县|