一種基于細(xì)粒度情感詞典的心理預(yù)警模型構(gòu)建方法
【專利摘要】本發(fā)明公開(kāi)了一種基于細(xì)粒度情感詞典的心理預(yù)警模型構(gòu)建方法,該方法包括:步驟(1)、利用翻譯的方法得到ANEW詞典對(duì)應(yīng)的中文詞典;步驟(2)、詞匯篩選,刪除步驟(1)得到的中文詞典中不適用于情感分析的詞匯;步驟(3)、進(jìn)行情感值的歸一化處理,將詞語(yǔ)的情感值歸一化到?1~1之間,步驟(4)、基于同義詞林?jǐn)U展版進(jìn)行情感詞典的擴(kuò)充;步驟(5)、基于改進(jìn)的SO?PMI算法進(jìn)行詞典的擴(kuò)充;步驟(6)、對(duì)于微博文本進(jìn)行基于規(guī)則的情感傾向性分析;步驟(7)、執(zhí)行基于權(quán)重因子的情感分析算法。與現(xiàn)有技術(shù)相比,本發(fā)明不受語(yǔ)料數(shù)量的限制,可以實(shí)現(xiàn)完全無(wú)監(jiān)督的執(zhí)行,非常適合微博大量且無(wú)標(biāo)記的數(shù)據(jù)。
【專利說(shuō)明】
-種基于細(xì)粒度情感詞典的心理預(yù)譬模型構(gòu)建方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明屬于數(shù)據(jù)挖掘和信息檢索領(lǐng)域,特別是設(shè)及一種基于細(xì)粒度情感詞典的屯、 理預(yù)警模型。
【背景技術(shù)】
[0002] 目前,大部分文本分析的現(xiàn)有技術(shù)研究是針對(duì)英文文本的情感分析,其中包含極 性詞典、上下文關(guān)系轉(zhuǎn)換器等。然而,由于中文具有詞匯量大的特點(diǎn),如果采用手工標(biāo)記中 文情感資源需要付出巨大的工作量,因此如何通過(guò)已有的英文資源快速構(gòu)建出中文情感詞 匯的研究具有重要意義。
[000引在情感詞典構(gòu)建中需要對(duì)詞語(yǔ)進(jìn)行度量。S維情感模型PAD (Pleasure- displeasure ,Arousal-nonarousal ,Dominance-submissiveness)是由Mehrabian提出的具 有最廣泛的應(yīng)用的情感模型。其中P代表愉悅度Pleasure, A代表喚醒度Arousal, D代表支配 度Dominance。用PAD模型可W衡量一個(gè)詞語(yǔ)所代表的情感類別,如表1所示:
[0004] 表1、PAD每個(gè)維度對(duì)應(yīng)的情感類型舉例
[0005]
[0006]
[0007] Margaret !.Bradley和化ter J.Lang教授是佛羅里達(dá)大學(xué)屯、里研究中屯、的研究 人員,提出了用于規(guī)范英文詞匯情感等級(jí)的詞典,英文詞匯情感規(guī)范(Affective Norms for化glish Words,A肥W)eA肥W情感詞表是WPAD為原型,依照PAD的S個(gè)維度對(duì)文字材料 進(jìn)行評(píng)分。各國(guó)的研究人員也圍繞著ANEW展開(kāi)研究工作,對(duì)各國(guó)語(yǔ)言進(jìn)行評(píng)分。
【發(fā)明內(nèi)容】
[0008] 基于上述現(xiàn)有技術(shù)和存在的問(wèn)題,本發(fā)明提出了一種基于細(xì)粒度情感詞典的屯、理 預(yù)警模型構(gòu)建方法,對(duì)中文情感詞典的構(gòu)建方法和擴(kuò)充,W及對(duì)微博文本情感傾向檢測(cè)和 屯、理預(yù)警。尤其是在中文文本研究、情感分析、網(wǎng)絡(luò)輿情分析等研究方向上的基礎(chǔ)研究工 作,為其他在文本上的進(jìn)一步研究做出貢獻(xiàn),W加快在中文文本上的研究效率和提供一種 屯、理預(yù)警方法,及時(shí)發(fā)現(xiàn)文本的屯、理情感,了解網(wǎng)絡(luò)輿情和用戶的情感傾向。
[0009] 本發(fā)明提出了一種基于細(xì)粒度情感詞典的屯、理預(yù)警模型構(gòu)建方法,該方法W下步 驟:
[0010] 步驟1、利用翻譯的方法得到ANEW詞典對(duì)應(yīng)的中文詞典;
[0011] 步驟2、詞匯篩選,刪除步驟(1)得到的中文詞典中不適用于情感分析的詞匯;
[0012] 步驟3、進(jìn)行情感值的歸一化處理,將詞語(yǔ)的情感值歸一化到-1~1之間,歸一化公 式表示為:
[0013]
[0014]其中,Avevalue表示情感強(qiáng)度的平均值,Maxvalue表示情感詞所在類別的強(qiáng)度最 大值,Minvalue表示情感詞所在類別強(qiáng)度的最小值,X表示改詞的情感強(qiáng)度,Y表示歸一化后 的情感強(qiáng)度;
[0015] 步驟4、基于同義詞林?jǐn)U展版進(jìn)行情感詞典的擴(kuò)充;
[0016] 步驟5、基于改進(jìn)的SO-PMI算法進(jìn)行詞典的擴(kuò)充,具體處理如下:
[0017] 依據(jù)下式:
[001 引
[0019] SO(word) =max(Wi(word) )wij
[0020] 其中,其中,Y是調(diào)解系數(shù),Wi康示第i類情感類別中第j個(gè)基準(zhǔn)詞,Wi(word)表示 新詞word在與第i類情感詞的SO-PMI值;
[0021] 對(duì)于新詞word在不同類中計(jì)算得到的SO-PMI值,選擇其中具有最大的SO-PMI的新 詞word;
[0022] 步驟6、對(duì)于微博文本進(jìn)行基于規(guī)則的情感傾向性分析,包括分詞處理、對(duì)文本抽 取規(guī)則進(jìn)行擴(kuò)充、將極性詞進(jìn)行轉(zhuǎn)移、對(duì)程度副詞進(jìn)行處理、對(duì)于否定詞+程度副詞+情感詞 的結(jié)構(gòu)和程度副詞+否定詞+情感詞的結(jié)構(gòu)進(jìn)行分析處理,賦予不同的權(quán)重;
[0023] 巧驟7、執(zhí)行基于權(quán)重因子的情感分析算法,該算法公式表示為:
[0024]
[0025] 其中,SO(S)是語(yǔ)句S的情感傾向值(Sentiment Orientation),Wu代表第i個(gè)屬于 情感類別j的情感詞W的情感值,Cl是指修飾該情感詞的權(quán)重因子,a為調(diào)解系數(shù)。
[0026] 與現(xiàn)有技術(shù)相比,上述技術(shù)方案的優(yōu)點(diǎn)在于:不受語(yǔ)料數(shù)量的限制,可W實(shí)現(xiàn)完全 無(wú)監(jiān)督的執(zhí)行,非常適合微博大量且無(wú)標(biāo)記的數(shù)據(jù)。
【附圖說(shuō)明】
[0027] 圖1為本發(fā)明的基于細(xì)粒度情感詞典的屯、理預(yù)警模型構(gòu)建方法的整體流程示意 圖。
[002引
【具體實(shí)施方式】
[0029] W下結(jié)合附圖及【具體實(shí)施方式】,進(jìn)一步詳述本發(fā)明的技術(shù)方案。
[0030] 如圖1所示,本發(fā)明的基于細(xì)粒度情感詞典的屯、理預(yù)警模型構(gòu)建方法,流程具體包 括W下步驟:
[0031] 步驟1、進(jìn)行機(jī)器翻譯,通過(guò)人工和機(jī)器翻譯的方法得到A肥W詞典對(duì)應(yīng)的中文詞 典,該步驟具體包括W下處理:
[0032] 處理一、整理并合并A肥W詞典中的所有詞匯信息,剔除中文中不能表示的過(guò)去式 的英文詞匯;處理二、通過(guò)機(jī)器翻譯得到中英文對(duì)照表,同時(shí)在翻譯過(guò)程中,進(jìn)一步逐字排 查確認(rèn)詞匯的精確性,防止造成較大的歧義;處理=、對(duì)中英文詞典中表現(xiàn)不一致的詞條, 進(jìn)行糾正,選擇最符合情感分析的選項(xiàng)添加入詞典。最終獲得一定規(guī)模的中文詞匯;
[0033] 步驟2、詞匯篩選,刪除一些不適用于情感分析的詞匯,該步驟具體包括W下處理: 刪除在中英文預(yù)警中存在表達(dá)差異的詞匯,刪除此類會(huì)影響情感分析結(jié)果的詞語(yǔ);
[0034] 步驟3:進(jìn)行情感值的歸一化處理,將詞語(yǔ)的情感值歸一化到-1~1之間,具體包括 W下處理:ANEW中情感次的評(píng)分標(biāo)準(zhǔn)范圍為1~8,數(shù)值的從小到大表示情感的負(fù)情感強(qiáng)度 到正情感強(qiáng)度的變化范圍,考慮情感詞極性的對(duì)立性和PAD維度值的評(píng)分標(biāo)準(zhǔn),將詞語(yǔ)的強(qiáng) 度值進(jìn)行歸一化處理;采用歸一化公式如公式(1)所示,
[0035]
(1)
[0036] 其中Avevalue表示情感強(qiáng)度的平均值,Maxvalue表示情感詞所在類別的強(qiáng)度最大 值,Minvalue表示情感詞所在類別強(qiáng)度的最小值,X表示改詞的情感強(qiáng)度,Y表示歸一化后的 情感強(qiáng)度;
[0037] 步驟4、基于同義詞林?jǐn)U展版進(jìn)行情感詞典的擴(kuò)充,具體包括W下處理:處理一、選 取微博數(shù)據(jù)作為語(yǔ)料庫(kù),過(guò)濾掉出現(xiàn)頻率極低的詞匯,構(gòu)建出更高效的情感詞典;處理二、 采用哈工大同義詞詞林的詞匯相似度算法,并結(jié)合已有的語(yǔ)義詞典進(jìn)行計(jì)算詞匯語(yǔ)義相似 度;
[0038] 步驟5、基于改進(jìn)的SO-PMI算法進(jìn)行詞典的擴(kuò)充,具體包括W下處理:處理一、利用 網(wǎng)絡(luò)新詞對(duì)情感詞典進(jìn)行擴(kuò)充,選定積極情感和消極情感的基準(zhǔn)詞,分別記作PS和NS;處理 二、對(duì)新詞word與PS、NS集合計(jì)算對(duì)應(yīng)的PMI值,分別記作WP和WN。一個(gè)詞與一個(gè)詞之間的 PMI值的計(jì)算方式,如公式2所示,
[0039]
(:2>
[0040] 具甲,N巧不話科巧甲總的詞次數(shù),t' Uordi, words)表示wordi, words在語(yǔ)料庫(kù)中同 時(shí)出現(xiàn)的頻率,f (wordi)表示詞語(yǔ)word迪語(yǔ)料庫(kù)中出現(xiàn)的頻率,f (words)表示word姐語(yǔ)料 庫(kù)中出現(xiàn)的頻率,l〇g2〇函數(shù)表示W(wǎng)2為底的對(duì)數(shù)函數(shù),例如公式(2)種可假設(shè)wordi為新詞, worcb為來(lái)自PS、NS集合中的詞(反之也可W)。
[0041] 如果計(jì)算的是一個(gè)詞與一個(gè)詞語(yǔ)集合的PMI值,則如公式3所示,
[0042]
(3)
[0043] 其中,WordSet表示一個(gè)詞語(yǔ)集合,word'是WordSet中的詞語(yǔ);
[0044] 處理S、S〇-PMI值的計(jì)算公式如公式(4)所示,
[0045] SO(word)=PMI(word,PS)-PMI(word,NS) (4)
[0046] 其中,SO (word)表示詞語(yǔ)word的SO-PMI值,如果得到的值大于0則加入積極詞典, 如果得到的值小于0則加入消極詞典,否則不加入任何詞典。
[0047] 處理四、本發(fā)明改進(jìn)的方法為如公式(5),公式(6)所示
[004引 ;(5>
[0049] SO(word) =max(Wi(word) )wij (6)
[0050] 其中,丫是調(diào)解系數(shù),WU WU表示第i類情感類別中第j個(gè)基準(zhǔn)詞,Wi(word)表示新 詞word在與第i類情感詞的SO-PMI值。公式(6)表明,對(duì)于新詞word在不同類中計(jì)算得到的 SO-PMI值,選擇其中最大的即可,同時(shí)可W得到該詞所屬的類別。
[0051] 步驟六:對(duì)于微博文本進(jìn)行基于規(guī)則的情感傾向性分析,具體包括W下處理:處理 一、利用中科院計(jì)算技術(shù)研究所開(kāi)發(fā)的漢語(yǔ)詞法分析器ICLTCLAS進(jìn)行分詞處理;處理二、對(duì) 文本抽取規(guī)則進(jìn)行擴(kuò)充,得到本發(fā)明使用的文本抽取規(guī)則,抽取規(guī)則如表3所示;處理=、將 極性詞進(jìn)行轉(zhuǎn)移,對(duì)于否定詞(如不,未必等詞)修飾的情感乘上一個(gè)-1的系數(shù)。對(duì)于轉(zhuǎn)折詞 (如雖然,但是等)出現(xiàn)的句子,只對(duì)后半句進(jìn)行情感分析;處理四、對(duì)程度副詞進(jìn)行處理,按 照情感的強(qiáng)烈程度分為五級(jí),取值在0.5-3之間;處理五、對(duì)于否定詞+程度副詞+情感詞的 結(jié)構(gòu)和程度副詞+否定詞+情感詞的結(jié)構(gòu)進(jìn)行分析處理,賦予不同的權(quán)重。
[0052] 步驟7、執(zhí)行基于權(quán)重因子的情感分析算法,本發(fā)明的基于權(quán)重因子的情感分析算 '法(Text sentiment orientation classification algorithm based on weighting facto;r,WF-S0),化公式(7)所示。
[0化3]
巧)
[0054] 其中,SO(S)是語(yǔ)句S的情感傾向值(Sentiment Orientation),Wu代表第i個(gè)屬于 情感類別j的情感詞W的情感值,Cl是指修飾該情感詞的權(quán)重因子,a為調(diào)解系數(shù)。當(dāng)a為1時(shí), 文本的傾向?yàn)閯≈谐霈F(xiàn)次數(shù)最多的情感詞的類別,當(dāng)a趨向無(wú)窮大時(shí),文本傾向?yàn)樵摼渥又?情感強(qiáng)度最大的詞的類別。
[0055] 表2、宏平均實(shí)驗(yàn)對(duì)比結(jié)果
[0化6]
[0化7]
[0化引
[0059]本發(fā)明義用化P&CC(化 1:ural Language Processingfc化inese Computing)2013中 文微博傾向分析評(píng)測(cè)提供的數(shù)據(jù)。根據(jù)NLP&CC的要求,進(jìn)行情緒句的識(shí)別和分類。實(shí)驗(yàn)結(jié)果 得到的正確率為0.3420,召回率為0.8873,F(xiàn)值為0.4935。本發(fā)明在正確率上的結(jié)果雖然較 低,但是本發(fā)明的構(gòu)建情感詞典的方法具有的優(yōu)點(diǎn)為:不受語(yǔ)料數(shù)量的限制,可W實(shí)現(xiàn)完全 無(wú)監(jiān)督的執(zhí)行,非常適合微博大量且無(wú)標(biāo)記的數(shù)據(jù)。
[0060]宏平均是每一個(gè)情感類性能指標(biāo)的算術(shù)平均值,微平均是每一個(gè)實(shí)例文檔的性能 指標(biāo)的算術(shù)平均值。本發(fā)明在在微博數(shù)據(jù)情感分類(好,樂(lè),怒,哀,懼,惡,驚)實(shí)驗(yàn)中得到微 平均結(jié)果的正確率,召回率,F(xiàn)值分別為0.3332,0.2959,0.3134,宏平均結(jié)果的正確率,召回 率,F(xiàn)值分別為0.3411,0.2232,0.2698。總體得到了較為滿意的結(jié)果。如表1所示,是本發(fā)明
【主權(quán)項(xiàng)】
1. 一種基于細(xì)粒度情感詞典的心理預(yù)警模型構(gòu)建方法,其特征在于,該方法以下步驟: 步驟(1 )、利用翻譯的方法得到ANEW詞典對(duì)應(yīng)的中文詞典; 步驟(2)、詞匯篩選,刪除步驟(1)得到的中文詞典中不適用于情感分析的詞匯; 步驟(3)、進(jìn)行情感值的歸一化處理,將詞語(yǔ)的情感值歸一化到-1~1之間,歸一化公式 表示為:其中,Avevalue表示情感強(qiáng)度的平均值,Maxvalue表示情感詞所在類別的強(qiáng)度最大值, Minvalue表示情感詞所在類別強(qiáng)度的最小值,X表示改詞的情感強(qiáng)度,Y表示歸一化后的情 感強(qiáng)度; 步驟(4)、基于同義詞林?jǐn)U展版進(jìn)行情感詞典的擴(kuò)充,過(guò)濾掉語(yǔ)料庫(kù)中出現(xiàn)頻率極低的 詞匯,構(gòu)建出更高效的情感詞典;采用哈工大同義詞詞林的詞匯相似度算法,并結(jié)合已有的 語(yǔ)義詞典進(jìn)行計(jì)算詞匯語(yǔ)義相似度; 步驟(5)、基于改進(jìn)的SO-PMI算法進(jìn)行詞典的擴(kuò)充,具體處理如下: 依據(jù)下式: SO(word) =max(ffi(word/) jwij其中,其中,γ是調(diào)解系數(shù),Wl謙示第i類情感類別中第j個(gè)基準(zhǔn)詞,Wdword)表示新詞 wor d在與第i類情感詞的S0-PMI值; 對(duì)于新詞word在不同類中計(jì)算得到的S0-PMI值,選擇其中具有最大的S0-PMI的新詞 word; 步驟(6)、對(duì)于微博文本進(jìn)行基于規(guī)則的情感傾向性分析,包括分詞處理、對(duì)文本抽取 規(guī)則進(jìn)行擴(kuò)充、將極性詞進(jìn)行轉(zhuǎn)移、對(duì)程度副詞進(jìn)行處理、對(duì)于否定詞+程度副詞+情感詞的 結(jié)構(gòu)和程度副詞+否定詞+情感詞的結(jié)構(gòu)進(jìn)行分析處理,賦予不同的權(quán)重; 步驟(7)、執(zhí)行基于權(quán)重因子的情感分析算法,該算法公式表示為:其中,S0(S)是語(yǔ)句S的情感傾向值(Sentiment Orientation),Wij代表第i個(gè)屬于情感 類別j的情感詞W的情感值,G是指修飾該情感詞的權(quán)重因子,α為調(diào)解系數(shù)。
【文檔編號(hào)】G06F17/27GK105956095SQ201610286515
【公開(kāi)日】2016年9月21日
【申請(qǐng)日】2016年4月29日
【發(fā)明人】于瑞國(guó), 林榆旺, 王建榮, 于健, 喻梅, 劉江月
【申請(qǐng)人】天津大學(xué)