欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種中文微博的情感傾向分析方法

文檔序號:6400042閱讀:232來源:國知局
專利名稱:一種中文微博的情感傾向分析方法
技術(shù)領域
本發(fā)明屬于網(wǎng)絡信息處理技術(shù)領域,具體涉及一種針對中文微博的情感傾向分析方法。
背景技術(shù)
隨著互聯(lián)網(wǎng)的發(fā)展和Web2.0的興起,人們越來越習慣于在網(wǎng)絡上表達自己的觀點。網(wǎng)民針對某些熱點事件的看法,對于政府了解當前的輿情信息、判斷當前的輿論形勢及決策是非常有價值的。而針對商品、商家的評論,則對商家調(diào)整市場策略和買家選擇商品都有一定的幫助。現(xiàn)在網(wǎng)絡上存在海量的帶有情感傾向性的文本,依靠人工去判斷這些文本的情感傾向是不可能完成的任務,文本情感分析就是針對這個領域提出的一個新興的研究方向,它利用計算機來自動地對文本的情感傾向性進行分析。微博是一種通過關注機制分享簡短實時信息的廣播式的社交網(wǎng)絡平臺。用戶開通微博服務后,可以發(fā)表、轉(zhuǎn)發(fā)及評論消息,來標記生活、分享新鮮事、表達觀點等。微博一問世就憑借其開放性、平等性、易用性迅速吸引了大眾的目光。以新浪微博為例,截止2011年底,新浪微博的注冊用戶已達3億,日活躍用戶超過3000萬,日均發(fā)表微博數(shù)量將近I億條。微博文本的數(shù)量大,更新快,其中很多表達了用戶對某些事件的觀點和態(tài)度,研究微博文本的情感傾向性具有重要的現(xiàn)實意義。中文微博與傳統(tǒng)的中文文本相比具有明顯的差異性,微博是口語化、不規(guī)則的文本,內(nèi)容較短,用詞比較隨意,微博之間具有鏈接關系;而與英文微博相比,中文微博最長允許140個中文字符,比英文微博的140個英文字符(大概20-30個單詞)具有更豐富的內(nèi)容。因此針對傳統(tǒng)中文文本和英文微博的情感分析研究成果并不完全適用于中文微博文本。

發(fā)明內(nèi)容
本發(fā)明目的在于解決現(xiàn)有技術(shù)存在的上述問題,提出了一種中文微博的情感傾向分析方法。本發(fā)明的技術(shù)的方案為:一種中文微博的情感傾向分析方法,具體包括如下步驟:S1.對微博文本進行分類,根據(jù)文本的構(gòu)成特征將微博文本分為原創(chuàng)類文本和轉(zhuǎn)發(fā)或評論類文本;S2.根據(jù)微博文本的類型,對微博文本進行情感傾向分析。進一步的,對原創(chuàng)類文本進行情感傾向分析的具體過程如下:步驟10,對微博文本進行預處理,即提取文本中的下述字段,包括:微博中使用的表情、作者、轉(zhuǎn)發(fā)數(shù)、評論數(shù)、包含的外部鏈接、標簽、文本中是否@其他用戶、作者是否加V ;步驟11,對預處理后的微博文本進行分析,依據(jù)預先定義的情感詞典,根據(jù)是否包含情感詞、情感表情、外部鏈接來判斷文本的主客觀傾向;步驟12,如果步驟11中判斷的微博文本為客觀文本,則將微博文本的情感傾向記為中性;否則,按下述過程判斷微博文本的正負向:步驟121,將微博文本分句,將句子中的@用戶、標簽去掉,然后使用分詞工具將句子分詞并標注詞性;步驟122,根據(jù)預定義的情感詞典,情感組合短語、否定詞典、轉(zhuǎn)折詞典、句中包含的情感表情、表示感情的標點符號,來計算每句的情感傾向,然后綜合計算整個微博文本的情感傾向以及置信度;步驟123,選取情感詞、表情、否定詞、轉(zhuǎn)折詞,使用分類器來分析情感傾向;步驟124,依據(jù)步驟122及123的結(jié)果,綜合評定微博文本的情感傾向。進一步的,對轉(zhuǎn)發(fā)或評論類文本進行情感傾向分析的具體過程如下:步驟20,查找到轉(zhuǎn)發(fā)或評論類文本對應的原創(chuàng)類文本;步驟21,判斷原創(chuàng)類文本的情感傾向;步驟22,如果轉(zhuǎn)發(fā)或評論類文本的字數(shù)不大于預先設定的閾值,則轉(zhuǎn)向步驟23 ;否則,計算該轉(zhuǎn)發(fā)或評論類文本的情感傾向;步驟23,根據(jù)情感詞典和情感表情的數(shù)量來分析情感傾向,如果計算出的情感傾向為中性,則認為該文本的情感傾向與該文本對應的原創(chuàng)類文本的情感傾向相同,否則計算出的情感傾向即為該文本的情感傾向。本發(fā)明的有益效果:本發(fā)明的情感分析方法通過根據(jù)文本的構(gòu)成特征將微博文本分為原創(chuàng)類文本和轉(zhuǎn)發(fā)或評論類文本然后分別進行分析,在對網(wǎng)絡上隨機抓取的1000條微博文本進行測試,得到的 分析準確率為81%,與現(xiàn)有文獻相比,準確率有所提高;且方法過程比較簡明,實施起來比較簡單,成本低廉,具有很強的實用價值。


圖1是本發(fā)明的中文微博文本情感分析方法的流程示意圖。圖2是實施例中的原創(chuàng)類文本的情感分析的流程示意圖。
具體實施例方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面結(jié)合附圖對本發(fā)明作進一步的詳細描述。需要說明的是,本實施例是以新浪微博為例進行說明,本領域的技術(shù)人員應該意識到本發(fā)明的方法并不限于新浪微博。本發(fā)明實施例提供了一種中文微博的情感傾向分析方法,流程示意如圖1所示,具體包括如下步驟:S1.對微博文本進行分類,根據(jù)文本的構(gòu)成特征將微博文本分為原創(chuàng)類文本和轉(zhuǎn)發(fā)或評論類文本;S2.根據(jù)微博文本的類型,對微博文本進行情感傾向分析。這里依照微博的格式,將微博文本分為原創(chuàng)類文本和轉(zhuǎn)發(fā)或評論類文本,原創(chuàng)類文本定義為沒有上文關系的文本,即該文本是由作者發(fā)出,而轉(zhuǎn)發(fā)或評論文本的微博是與上文相關的,這種類型的微博都有一個原創(chuàng)類文本。以新浪微博為例,原創(chuàng)類文本微博的格式為“7月5日起國內(nèi)航空燃油附加費將下調(diào)自I日起,航空煤油出廠價從6月的每噸7464元降至6724元。國內(nèi)航空公司開始紛紛下調(diào)國內(nèi)航段燃油附加費”。而轉(zhuǎn)發(fā)的格式為“我今天凌晨訂的5號也是130??!是不是得5號開始訂才下調(diào)? 11%小新和蘋果:為毛今天定10號的機票還是130的燃油附加稅呢? ”?!?/@”為新浪微博的轉(zhuǎn)發(fā)標識符。評論的格式為“劉大懶人:叔定的4號的票啊,悲催(7 月 3 日 22:40)”。這里可以通過格式標識符將微博分類,不同的類型的文本分別處理。對原創(chuàng)類文本的微博,情感分析的流程示意圖如圖2所示,具體過程如下:步驟(2.1),對微博文本進行預處理,即從微博文本中提取一些字段,所述字段具體包括:微博中使用的表情、轉(zhuǎn)發(fā)數(shù)、評論數(shù)、是否包含外部鏈接、標簽、文本中是否@其他用戶、作者是否加V。這些字段都是顯式的在微博中出現(xiàn)的,可以直接提取;步驟(2.2),對預處理后的微博文本進行分析,依據(jù)預先定義的情感詞典,根據(jù)是否包含情感詞、情感表情、外部鏈接來判斷文本的主客觀傾向。主觀文本指作者帶有情感傾向性的,客觀文本則是作者描述了一件客觀事實,沒有情感色彩。這里可以采用如下一種方式判斷是否為客觀文本,首先,檢查文本中是否含有外部鏈接,經(jīng)觀察,含有外部鏈接的文本多為客觀新聞的轉(zhuǎn)載或推薦,不含有情感傾向,將含有鏈接的文本直接歸為客觀文本,跳到步驟(2.3),不含有鏈接的文本繼續(xù)下面的分析。由于微博的隨意性,口語化,微博文本中使用情感表情非常常見,這些情感符號一定程度上表明了作者是否具有情感傾向。因此,首先檢查微博文本中是否使用了情感表情,經(jīng)過整理,新浪微博的默認表情中,正向表情有33個,負向表情有34個,包含情感表情的,認為是主觀文本,轉(zhuǎn)向步驟(2.3),不含有情感表情的,依據(jù)是否含有情感詞來判斷是否為主客觀文本,情感詞由構(gòu)造好的情感詞表提供,構(gòu)造方式為HowNet提供的情感詞典篩選掉重復加收集的一些網(wǎng)絡詞語,例如給力、 尼瑪?shù)?,正向情感詞有4508個,負向情感詞有4369個。步驟(2.3),如果步驟(2.2)中分析出來的微博文本為客觀文本,則將微博文本的情感傾向記為中性;主觀文本按照下面方法繼續(xù)分析其正負向:步驟(2.3.1),使用“。?! ”等標點符號將主觀文本分句,由于微博中@的用戶名、使用##包含的標簽信息對文本表達情感傾向并無作用,但其中可能含有否定詞、情感詞,因此,將句子中的O用戶、標簽去掉;然后使用分詞工具將句子分詞并標注詞性。步驟(2.3.2),使用語義的方法計算情感傾向,計算過程如下:先以句子為單位,分別計算情感傾向,用w表示情感詞的權(quán)值,P表示加權(quán)系數(shù),η表示句中包含的情感詞和情感表情的個數(shù)(重復的只算I次)。正向情感詞或正向表情的權(quán)值w (詞語)為1,加權(quán)系數(shù)P (詞語)為1,負向情感詞或負向表情權(quán)值W(詞語)為-1,加權(quán)系數(shù)P(詞語)為1,如果有重復,加權(quán)系數(shù)P記為
1.1或-1.1,不累計。含有否定詞的句子(例如“不能”),查找該否定詞后面離該否定詞最近的一個情感詞,取該情感詞的加權(quán)系數(shù)P(詞語)為-1,如果沒有找到,認為該否定詞不起作用。含有雙重否定詞的句子(例如,“不得不”),或者使用表示強烈情感的標點符號(例如“?。?, !”),整句的情感系數(shù)P(句)為1.1,否則為I。. W(詞語)P(詞語)In H^O句子的情感值w (句)計算公式為:W(句)=M &;
[O 矜=0
置信度α (句)計算公式為:
權(quán)利要求
1.一種中文微博的情感傾向分析方法,具體包括如下步驟: 51.對微博文本進行分類,根據(jù)文本的構(gòu)成特征將微博文本分為原創(chuàng)類文本和轉(zhuǎn)發(fā)或評論類文本; 52.根據(jù)微博文本的類型,對微博文本進行情感傾向分析。
2.根據(jù)權(quán)利要求1所述的中文微博的情感傾向分析方法,其特征在于,對原創(chuàng)類文本進行情感傾向分析的具體過程如下: 步驟10,對微博文本進行預處理,即提取文本中的下述字段,所述字段具體包括:微博中使用的表情、作者、轉(zhuǎn)發(fā)數(shù)、評論數(shù)、包含的外部鏈接、標簽、文本中是否O其他用戶、作者是否加V ; 步驟11,對預處理后的微博文本進行分析,依據(jù)預先定義的情感詞典,根據(jù)是否包含情感詞、情感表情、外部鏈接來判斷文本的主客觀傾向; 步驟12,如果步驟11中判斷的微博文本為客觀文本,則將微博文本的情感傾向記為中性;否則,按下述過程判斷微博文本的正負向: 步驟121,將微博文本分句,將句子中的@用戶、標簽去掉,然后使用分詞工具將句子分詞并標注詞性; 步驟122,根據(jù)預定義的情感詞典,情感組合短語、否定詞典、轉(zhuǎn)折詞典、句中包含的情感表情、表示感情的標點符號,來計算每句的情感傾向,然后綜合計算整個微博文本的情感傾向以及置信度; 步驟123,選取情感詞、表情、否定詞、轉(zhuǎn)折詞,使用分類器來分析情感傾向; 步驟124,依據(jù)步 驟122及123的結(jié)果,綜合評定微博文本的情感傾向。
3.根據(jù)權(quán)利要求1或2所述的中文微博的情感傾向分析方法,其特征在于,對轉(zhuǎn)發(fā)或評論類文本進行情感傾向分析的具體過程如下: 步驟20,查找到轉(zhuǎn)發(fā)或評論類文本的原創(chuàng)類文本; 步驟21,判斷原創(chuàng)類文本的情感傾向; 步驟22,如果轉(zhuǎn)發(fā)或評論類文本的字數(shù)不大于預先設定的閾值,則轉(zhuǎn)向步驟23 ;否則,計算該轉(zhuǎn)發(fā)或評論類文本的情感傾向; 步驟23,根據(jù)情感詞典和情感表情的數(shù)量來分析情感傾向,如果計算出的情感傾向為中性,則認為該文本的情感傾向與該文本的原創(chuàng)類文本的情感傾向相同,否則,計算出的情感傾向即為該文本的情感傾向。
4.根據(jù)權(quán)利要求2所述的中文微博的情感傾向分析方法,其特征在于,綜合計算整個微博文本的情感傾向以及置信度的具體過程如下: 先以句子為單位,分別計算情感傾向,用w表示情感詞的權(quán)值,P表示加權(quán)系數(shù),η表示句中包含的情感詞和情感表情的個數(shù)(重復的只算I次)。
正向情感詞或正向表情的權(quán)值w(詞語)為1,加權(quán)系數(shù)P (詞語)為1,負向情感詞或負向表情權(quán)值w (詞語)為-1,加權(quán)系數(shù)P (詞語)為1,如果有重復,加權(quán)系數(shù)P記為1.1或-1.1,不累計;含有否定詞的句子,查找該否定詞后面離該否定詞最近的一個情感詞,取該情感詞的加權(quán)系數(shù)P (詞語)為-1,如果沒有找到,認為該否定詞不起作用,含有雙重否定詞的句子,或者使用表示強烈情感的標點符號,整句的情感系數(shù)P(句)為1.1,否則為I;句子的情感值w (句)計算公式為
5.根據(jù)權(quán)利要求4所述的中文微博的情感傾向分析方法,其特征在于,綜合評定微博文本的情感傾向的具體過程如下:
6.根據(jù)權(quán)利要求2所述的中文微博的情感傾向分析方法,其特征在于,所述的分類器具體為樸素貝葉斯分類器。
全文摘要
本發(fā)明公開了一種中文微博的情感傾向分析方法,包括步驟對微博文本進行分類,根據(jù)文本的構(gòu)成特征將微博文本分為原創(chuàng)類文本和轉(zhuǎn)發(fā)或評論類文本;根據(jù)微博文本的類型,對微博文本進行情感傾向分析。本發(fā)明的情感分析方法通過根據(jù)文本的構(gòu)成特征將微博文本分為原創(chuàng)類文本和轉(zhuǎn)發(fā)或評論類文本然后分別進行分析,實施簡單、成本低廉、準確率高等優(yōu)點,具有很強的現(xiàn)實意義和實際價值。
文檔編號G06F17/30GK103150367SQ20131007247
公開日2013年6月12日 申請日期2013年3月7日 優(yōu)先權(quán)日2013年3月7日
發(fā)明者劉紅玉, 劉丹, 高云棋, 郭成林, 彭春林 申請人:寧波成電泰克電子信息技術(shù)發(fā)展有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
年辖:市辖区| 冷水江市| 南平市| 灵宝市| 衡阳县| 隆回县| 兰溪市| 望都县| 丹棱县| 嘉祥县| 德令哈市| 平乐县| 永仁县| 合作市| 右玉县| 保亭| 潞西市| 遵义市| 章丘市| 北票市| 团风县| 乐陵市| 洛隆县| 利辛县| 六枝特区| 兰考县| 孝义市| 左权县| 高碑店市| 石河子市| 鹤峰县| 伊宁市| 双峰县| 玛纳斯县| 汶上县| 天等县| 清新县| 孝感市| 昭通市| 监利县| 吉安县|