一種基于細(xì)粒度情感詞典的心理預(yù)警模型構(gòu)建方法

文檔序號(hào)：10580146閱讀：322來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于細(xì)粒度情感詞典的心理預(yù)警模型構(gòu)建方法
【專利摘要】本發(fā)明公開(kāi)了一種基于細(xì)粒度情感詞典的心理預(yù)警模型構(gòu)建方法，該方法包括：步驟(1)、利用翻譯的方法得到ANEW詞典對(duì)應(yīng)的中文詞典；步驟(2)、詞匯篩選，刪除步驟(1)得到的中文詞典中不適用于情感分析的詞匯；步驟(3)、進(jìn)行情感值的歸一化處理，將詞語(yǔ)的情感值歸一化到?1～1之間，步驟(4)、基于同義詞林?jǐn)U展版進(jìn)行情感詞典的擴(kuò)充；步驟(5)、基于改進(jìn)的SO?PMI算法進(jìn)行詞典的擴(kuò)充；步驟(6)、對(duì)于微博文本進(jìn)行基于規(guī)則的情感傾向性分析；步驟(7)、執(zhí)行基于權(quán)重因子的情感分析算法。與現(xiàn)有技術(shù)相比，本發(fā)明不受語(yǔ)料數(shù)量的限制，可以實(shí)現(xiàn)完全無(wú)監(jiān)督的執(zhí)行，非常適合微博大量且無(wú)標(biāo)記的數(shù)據(jù)。
【專利說(shuō)明】
-種基于細(xì)粒度情感詞典的心理預(yù)譬模型構(gòu)建方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明屬于數(shù)據(jù)挖掘和信息檢索領(lǐng)域，特別是設(shè)及一種基于細(xì)粒度情感詞典的屯、理預(yù)警模型。
【背景技術(shù)】
[0002] 目前，大部分文本分析的現(xiàn)有技術(shù)研究是針對(duì)英文文本的情感分析，其中包含極性詞典、上下文關(guān)系轉(zhuǎn)換器等。然而，由于中文具有詞匯量大的特點(diǎn)，如果采用手工標(biāo)記中文情感資源需要付出巨大的工作量，因此如何通過(guò)已有的英文資源快速構(gòu)建出中文情感詞匯的研究具有重要意義。
[000引在情感詞典構(gòu)建中需要對(duì)詞語(yǔ)進(jìn)行度量。S維情感模型PAD (Pleasure- displeasure ,Arousal-nonarousal ,Dominance-submissiveness)是由Mehrabian提出的具有最廣泛的應(yīng)用的情感模型。其中P代表愉悅度Pleasure, A代表喚醒度Arousal, D代表支配度Dominance。用PAD模型可W衡量一個(gè)詞語(yǔ)所代表的情感類別，如表1所示：
[0004] 表1、PAD每個(gè)維度對(duì)應(yīng)的情感類型舉例
[0005]
[0006]
[0007] Margaret !.Bradley和化ter J.Lang教授是佛羅里達(dá)大學(xué)屯、里研究中屯、的研究人員，提出了用于規(guī)范英文詞匯情感等級(jí)的詞典，英文詞匯情感規(guī)范(Affective Norms for化glish Words,A肥W)eA肥W情感詞表是WPAD為原型，依照PAD的S個(gè)維度對(duì)文字材料進(jìn)行評(píng)分。各國(guó)的研究人員也圍繞著ANEW展開(kāi)研究工作，對(duì)各國(guó)語(yǔ)言進(jìn)行評(píng)分。

【發(fā)明內(nèi)容】

[0008] 基于上述現(xiàn)有技術(shù)和存在的問(wèn)題，本發(fā)明提出了一種基于細(xì)粒度情感詞典的屯、理預(yù)警模型構(gòu)建方法，對(duì)中文情感詞典的構(gòu)建方法和擴(kuò)充，W及對(duì)微博文本情感傾向檢測(cè)和屯、理預(yù)警。尤其是在中文文本研究、情感分析、網(wǎng)絡(luò)輿情分析等研究方向上的基礎(chǔ)研究工作，為其他在文本上的進(jìn)一步研究做出貢獻(xiàn)，W加快在中文文本上的研究效率和提供一種屯、理預(yù)警方法，及時(shí)發(fā)現(xiàn)文本的屯、理情感，了解網(wǎng)絡(luò)輿情和用戶的情感傾向。
[0009] 本發(fā)明提出了一種基于細(xì)粒度情感詞典的屯、理預(yù)警模型構(gòu)建方法，該方法W下步驟：
[0010] 步驟1、利用翻譯的方法得到ANEW詞典對(duì)應(yīng)的中文詞典；
[0011] 步驟2、詞匯篩選，刪除步驟(1)得到的中文詞典中不適用于情感分析的詞匯；
[0012] 步驟3、進(jìn)行情感值的歸一化處理，將詞語(yǔ)的情感值歸一化到-1~1之間，歸一化公式表示為：
[0013]
[0014]其中，Avevalue表示情感強(qiáng)度的平均值，Maxvalue表示情感詞所在類別的強(qiáng)度最大值，Minvalue表示情感詞所在類別強(qiáng)度的最小值，X表示改詞的情感強(qiáng)度，Y表示歸一化后的情感強(qiáng)度；
[0015] 步驟4、基于同義詞林?jǐn)U展版進(jìn)行情感詞典的擴(kuò)充；
[0016] 步驟5、基于改進(jìn)的SO-PMI算法進(jìn)行詞典的擴(kuò)充，具體處理如下：
[0017] 依據(jù)下式：
[001 引
[0019] SO(word) =max(Wi(word) )wij
[0020] 其中，其中，Y是調(diào)解系數(shù)，Wi康示第i類情感類別中第j個(gè)基準(zhǔn)詞，Wi(word)表示新詞word在與第i類情感詞的SO-PMI值；
[0021] 對(duì)于新詞word在不同類中計(jì)算得到的SO-PMI值，選擇其中具有最大的SO-PMI的新詞word;
[0022] 步驟6、對(duì)于微博文本進(jìn)行基于規(guī)則的情感傾向性分析，包括分詞處理、對(duì)文本抽取規(guī)則進(jìn)行擴(kuò)充、將極性詞進(jìn)行轉(zhuǎn)移、對(duì)程度副詞進(jìn)行處理、對(duì)于否定詞+程度副詞+情感詞的結(jié)構(gòu)和程度副詞+否定詞+情感詞的結(jié)構(gòu)進(jìn)行分析處理，賦予不同的權(quán)重；
[0023] 巧驟7、執(zhí)行基于權(quán)重因子的情感分析算法，該算法公式表示為：
[0024]
[0025] 其中，SO(S)是語(yǔ)句S的情感傾向值(Sentiment Orientation)，Wu代表第i個(gè)屬于情感類別j的情感詞W的情感值，Cl是指修飾該情感詞的權(quán)重因子，a為調(diào)解系數(shù)。
[0026] 與現(xiàn)有技術(shù)相比，上述技術(shù)方案的優(yōu)點(diǎn)在于:不受語(yǔ)料數(shù)量的限制，可W實(shí)現(xiàn)完全無(wú)監(jiān)督的執(zhí)行，非常適合微博大量且無(wú)標(biāo)記的數(shù)據(jù)。
【附圖說(shuō)明】
[0027] 圖1為本發(fā)明的基于細(xì)粒度情感詞典的屯、理預(yù)警模型構(gòu)建方法的整體流程示意圖。
[002引
【具體實(shí)施方式】
[0029] W下結(jié)合附圖及【具體實(shí)施方式】，進(jìn)一步詳述本發(fā)明的技術(shù)方案。
[0030] 如圖1所示，本發(fā)明的基于細(xì)粒度情感詞典的屯、理預(yù)警模型構(gòu)建方法，流程具體包括W下步驟：
[0031] 步驟1、進(jìn)行機(jī)器翻譯，通過(guò)人工和機(jī)器翻譯的方法得到A肥W詞典對(duì)應(yīng)的中文詞典，該步驟具體包括W下處理：
[0032] 處理一、整理并合并A肥W詞典中的所有詞匯信息，剔除中文中不能表示的過(guò)去式的英文詞匯;處理二、通過(guò)機(jī)器翻譯得到中英文對(duì)照表，同時(shí)在翻譯過(guò)程中，進(jìn)一步逐字排查確認(rèn)詞匯的精確性，防止造成較大的歧義;處理=、對(duì)中英文詞典中表現(xiàn)不一致的詞條，進(jìn)行糾正，選擇最符合情感分析的選項(xiàng)添加入詞典。最終獲得一定規(guī)模的中文詞匯；
[0033] 步驟2、詞匯篩選，刪除一些不適用于情感分析的詞匯，該步驟具體包括W下處理：刪除在中英文預(yù)警中存在表達(dá)差異的詞匯，刪除此類會(huì)影響情感分析結(jié)果的詞語(yǔ)；
[0034] 步驟3:進(jìn)行情感值的歸一化處理，將詞語(yǔ)的情感值歸一化到-1~1之間，具體包括 W下處理:ANEW中情感次的評(píng)分標(biāo)準(zhǔn)范圍為1~8,數(shù)值的從小到大表示情感的負(fù)情感強(qiáng)度到正情感強(qiáng)度的變化范圍，考慮情感詞極性的對(duì)立性和PAD維度值的評(píng)分標(biāo)準(zhǔn)，將詞語(yǔ)的強(qiáng) 度值進(jìn)行歸一化處理;采用歸一化公式如公式(1)所示，
[0035]
(1)
[0036] 其中Avevalue表示情感強(qiáng)度的平均值，Maxvalue表示情感詞所在類別的強(qiáng)度最大值，Minvalue表示情感詞所在類別強(qiáng)度的最小值，X表示改詞的情感強(qiáng)度，Y表示歸一化后的情感強(qiáng)度；
[0037] 步驟4、基于同義詞林?jǐn)U展版進(jìn)行情感詞典的擴(kuò)充，具體包括W下處理:處理一、選取微博數(shù)據(jù)作為語(yǔ)料庫(kù)，過(guò)濾掉出現(xiàn)頻率極低的詞匯，構(gòu)建出更高效的情感詞典;處理二、采用哈工大同義詞詞林的詞匯相似度算法，并結(jié)合已有的語(yǔ)義詞典進(jìn)行計(jì)算詞匯語(yǔ)義相似度；
[0038] 步驟5、基于改進(jìn)的SO-PMI算法進(jìn)行詞典的擴(kuò)充，具體包括W下處理:處理一、利用網(wǎng)絡(luò)新詞對(duì)情感詞典進(jìn)行擴(kuò)充，選定積極情感和消極情感的基準(zhǔn)詞，分別記作PS和NS;處理二、對(duì)新詞word與PS、NS集合計(jì)算對(duì)應(yīng)的PMI值，分別記作WP和WN。一個(gè)詞與一個(gè)詞之間的 PMI值的計(jì)算方式，如公式2所示，
[0039]
(：2>
[0040] 具甲，N巧不話科巧甲總的詞次數(shù)，t' Uordi, words)表示wordi, words在語(yǔ)料庫(kù)中同時(shí)出現(xiàn)的頻率，f (wordi)表示詞語(yǔ)word迪語(yǔ)料庫(kù)中出現(xiàn)的頻率，f (words)表示word姐語(yǔ)料庫(kù)中出現(xiàn)的頻率，l〇g2〇函數(shù)表示W(wǎng)2為底的對(duì)數(shù)函數(shù)，例如公式(2)種可假設(shè)wordi為新詞， worcb為來(lái)自PS、NS集合中的詞(反之也可W)。
[0041] 如果計(jì)算的是一個(gè)詞與一個(gè)詞語(yǔ)集合的PMI值，則如公式3所示，
[0042]
(3)
[0043] 其中，WordSet表示一個(gè)詞語(yǔ)集合，word'是WordSet中的詞語(yǔ)；
[0044] 處理S、S〇-PMI值的計(jì)算公式如公式(4)所示，
[0045] SO(word)=PMI(word,PS)-PMI(word,NS) (4)
[0046] 其中，SO (word)表示詞語(yǔ)word的SO-PMI值，如果得到的值大于0則加入積極詞典，如果得到的值小于0則加入消極詞典，否則不加入任何詞典。
[0047] 處理四、本發(fā)明改進(jìn)的方法為如公式(5)，公式(6)所示
[004引 ;(5>
[0049] SO(word) =max(Wi(word) )wij (6)
[0050] 其中，丫是調(diào)解系數(shù)，WU WU表示第i類情感類別中第j個(gè)基準(zhǔn)詞，Wi(word)表示新詞word在與第i類情感詞的SO-PMI值。公式(6)表明，對(duì)于新詞word在不同類中計(jì)算得到的 SO-PMI值，選擇其中最大的即可，同時(shí)可W得到該詞所屬的類別。
[0051] 步驟六:對(duì)于微博文本進(jìn)行基于規(guī)則的情感傾向性分析，具體包括W下處理:處理一、利用中科院計(jì)算技術(shù)研究所開(kāi)發(fā)的漢語(yǔ)詞法分析器ICLTCLAS進(jìn)行分詞處理;處理二、對(duì) 文本抽取規(guī)則進(jìn)行擴(kuò)充，得到本發(fā)明使用的文本抽取規(guī)則，抽取規(guī)則如表3所示;處理=、將極性詞進(jìn)行轉(zhuǎn)移，對(duì)于否定詞(如不，未必等詞)修飾的情感乘上一個(gè)-1的系數(shù)。對(duì)于轉(zhuǎn)折詞 (如雖然，但是等）出現(xiàn)的句子，只對(duì)后半句進(jìn)行情感分析;處理四、對(duì)程度副詞進(jìn)行處理，按照情感的強(qiáng)烈程度分為五級(jí)，取值在0.5-3之間；處理五、對(duì)于否定詞+程度副詞+情感詞的結(jié)構(gòu)和程度副詞+否定詞+情感詞的結(jié)構(gòu)進(jìn)行分析處理，賦予不同的權(quán)重。
[0052] 步驟7、執(zhí)行基于權(quán)重因子的情感分析算法，本發(fā)明的基于權(quán)重因子的情感分析算 '法（Text sentiment orientation classification algorithm based on weighting facto;r,WF-S0)，化公式（7)所示。
[0化3]
巧）
[0054] 其中，SO(S)是語(yǔ)句S的情感傾向值(Sentiment Orientation),Wu代表第i個(gè)屬于情感類別j的情感詞W的情感值，Cl是指修飾該情感詞的權(quán)重因子，a為調(diào)解系數(shù)。當(dāng)a為1時(shí)，文本的傾向?yàn)閯≈谐霈F(xiàn)次數(shù)最多的情感詞的類別，當(dāng)a趨向無(wú)窮大時(shí)，文本傾向?yàn)樵摼渥又?情感強(qiáng)度最大的詞的類別。
[0055] 表2、宏平均實(shí)驗(yàn)對(duì)比結(jié)果
[0化6]
[0化7]
[0化引
[0059]本發(fā)明義用化P&CC(化 1:ural Language Processingfc化inese Computing)2013中文微博傾向分析評(píng)測(cè)提供的數(shù)據(jù)。根據(jù)NLP&CC的要求，進(jìn)行情緒句的識(shí)別和分類。實(shí)驗(yàn)結(jié)果得到的正確率為0.3420，召回率為0.8873，F(xiàn)值為0.4935。本發(fā)明在正確率上的結(jié)果雖然較低，但是本發(fā)明的構(gòu)建情感詞典的方法具有的優(yōu)點(diǎn)為:不受語(yǔ)料數(shù)量的限制，可W實(shí)現(xiàn)完全無(wú)監(jiān)督的執(zhí)行，非常適合微博大量且無(wú)標(biāo)記的數(shù)據(jù)。
[0060]宏平均是每一個(gè)情感類性能指標(biāo)的算術(shù)平均值，微平均是每一個(gè)實(shí)例文檔的性能指標(biāo)的算術(shù)平均值。本發(fā)明在在微博數(shù)據(jù)情感分類(好，樂(lè)，怒，哀，懼，惡，驚)實(shí)驗(yàn)中得到微平均結(jié)果的正確率，召回率，F(xiàn)值分別為0.3332,0.2959,0.3134,宏平均結(jié)果的正確率，召回率，F(xiàn)值分別為0.3411，0.2232，0.2698。總體得到了較為滿意的結(jié)果。如表1所示，是本發(fā)明
【主權(quán)項(xiàng)】
1. 一種基于細(xì)粒度情感詞典的心理預(yù)警模型構(gòu)建方法，其特征在于，該方法以下步驟：步驟(1 )、利用翻譯的方法得到ANEW詞典對(duì)應(yīng)的中文詞典；步驟(2)、詞匯篩選，刪除步驟(1)得到的中文詞典中不適用于情感分析的詞匯；步驟(3)、進(jìn)行情感值的歸一化處理，將詞語(yǔ)的情感值歸一化到-1~1之間，歸一化公式表示為：其中，Avevalue表示情感強(qiáng)度的平均值，Maxvalue表示情感詞所在類別的強(qiáng)度最大值， Minvalue表示情感詞所在類別強(qiáng)度的最小值，X表示改詞的情感強(qiáng)度，Y表示歸一化后的情感強(qiáng)度；步驟(4)、基于同義詞林?jǐn)U展版進(jìn)行情感詞典的擴(kuò)充，過(guò)濾掉語(yǔ)料庫(kù)中出現(xiàn)頻率極低的詞匯，構(gòu)建出更高效的情感詞典;采用哈工大同義詞詞林的詞匯相似度算法，并結(jié)合已有的語(yǔ)義詞典進(jìn)行計(jì)算詞匯語(yǔ)義相似度；步驟(5)、基于改進(jìn)的SO-PMI算法進(jìn)行詞典的擴(kuò)充，具體處理如下：依據(jù)下式： SO(word) =max(ffi(word/) jwij其中，其中，γ是調(diào)解系數(shù)，Wl謙示第i類情感類別中第j個(gè)基準(zhǔn)詞，Wdword)表示新詞 wor d在與第i類情感詞的S0-PMI值；對(duì)于新詞word在不同類中計(jì)算得到的S0-PMI值，選擇其中具有最大的S0-PMI的新詞 word；步驟(6)、對(duì)于微博文本進(jìn)行基于規(guī)則的情感傾向性分析，包括分詞處理、對(duì)文本抽取規(guī)則進(jìn)行擴(kuò)充、將極性詞進(jìn)行轉(zhuǎn)移、對(duì)程度副詞進(jìn)行處理、對(duì)于否定詞+程度副詞+情感詞的結(jié)構(gòu)和程度副詞+否定詞+情感詞的結(jié)構(gòu)進(jìn)行分析處理，賦予不同的權(quán)重；步驟(7)、執(zhí)行基于權(quán)重因子的情感分析算法，該算法公式表示為：其中，S0(S)是語(yǔ)句S的情感傾向值(Sentiment Orientation)，Wij代表第i個(gè)屬于情感類別j的情感詞W的情感值，G是指修飾該情感詞的權(quán)重因子，α為調(diào)解系數(shù)。
【文檔編號(hào)】G06F17/27GK105956095SQ201610286515
【公開(kāi)日】2016年9月21日
【申請(qǐng)日】2016年4月29日
【發(fā)明人】于瑞國(guó), 林榆旺, 王建榮, 于健, 喻梅, 劉江月
【申請(qǐng)人】天津大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：于瑞國(guó);林榆旺;王建榮;于健;喻梅;劉江月;
技術(shù)所有人：天津大學(xué);
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

情感詞典構(gòu)建相關(guān)技術(shù)

pmi算法構(gòu)建情感詞典相關(guān)技術(shù)

情感詞典相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于細(xì)粒度情感詞典的心理預(yù)警模型構(gòu)建方法