情緒觸發(fā)事件的抽取方法
【專利摘要】本發(fā)明公開了一種情緒觸發(fā)事件的抽取方法,包括以下步驟,語料處理過程:將每個篇章按標(biāo)點符號分成若干子句;根據(jù)每個子句與情緒觸發(fā)事件的關(guān)系,對每個子句進行標(biāo)注;特征提取及訓(xùn)練過程:提取訓(xùn)練語料中的子句的特征;針對訓(xùn)練語料中的所有子句訓(xùn)練出分類器;情緒觸發(fā)事件抽取過程:將待抽取的篇章按標(biāo)點符號分成若干子句;抽取每個子句的特征;用訓(xùn)練出的分類器對每個子句進行分類,判斷其是否為情緒觸發(fā)事件,并將情緒觸發(fā)事件的子句輸出。本發(fā)明情緒觸發(fā)事件的抽取方法有助于幫助自動處理和分析同情緒相關(guān)的事件,進而應(yīng)用于突發(fā)事件監(jiān)測、情感摘要等其他任務(wù)中,具有強大的實用價值。
【專利說明】情緒觸發(fā)事件的抽取方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及自然語言處理及模式識別【技術(shù)領(lǐng)域】,特別是涉及一種情緒觸發(fā)事件的抽取方法。
【背景技術(shù)】
[0002]文本情緒分析是自然語言處理(NLP)研究中的一個重要研究方向。該方向旨在研究如何自動分析文本所表達的情緒及與情緒相關(guān)的信息。目前,主流的情感分析研究主要集中在情緒分類上面,該任務(wù)旨在對文本表達的情緒(例如:高興、傷心、驚訝等)進行自動分類。然而,該任務(wù)所關(guān)注的情緒信息僅僅是情緒的類別,還是處在比較淺層的情緒信息。為了更好的理解文本表達的情緒信息,迫切需要對文本表達的關(guān)于情緒的更深層次的信息,例如,情緒的體驗者、情緒的原因、情緒的結(jié)果等,進行進一步的探討和研究。
[0003]在語言學(xué)研究方面,大多數(shù)關(guān)于情緒語言學(xué)的模型都將情緒的觸發(fā)觸發(fā)事件作為一個重要的組成部分。因此,研究情緒觸發(fā)的觸發(fā)事件可以幫助理解情緒的發(fā)展及作用的語言學(xué)機制。此外,情緒觸發(fā)事件識別的 研究有助于幫助自動處理和分析同情緒相關(guān)的事件,進而應(yīng)用于突發(fā)事件監(jiān)測、情感摘要等其他任務(wù)中。
[0004]雖然情緒分析研究已經(jīng)開展多年,但是大部分的研究主要集中在情緒識別和分類方面,對于情緒觸發(fā)事件分析的研究還未開展。
【發(fā)明內(nèi)容】
[0005]有鑒于此,本發(fā)明的目的在于提供一種情緒觸發(fā)事件的抽取方法,在給出一些訓(xùn)練樣本的情況下,提取基本特征、上下文特征和語言學(xué)特征,利用最大熵分類工具訓(xùn)練出分類器,實現(xiàn)對文本的情緒觸發(fā)事件抽取。
[0006]本發(fā)明的基本思想是:
[0007]首先,對已有的訓(xùn)練語料進行處理,將訓(xùn)練語料中的每個篇章按照標(biāo)點符號(‘,’、
’、‘ ! ’)分成多個子句,并根據(jù)其是否與情緒觸發(fā)事件重合或是其中的一個片段,給
出其相應(yīng)標(biāo)簽。然后,抽取每個子句的特征,包括基本特征,上下文特征和語言學(xué)特征,利用最大熵分類工具訓(xùn)練分類器。最后,將需要進行情緒觸發(fā)事件抽取的篇章按標(biāo)簽符號(‘,’、’)分成多個子句,用訓(xùn)練出的分類器對每個子句進行分類,判斷其是否為情緒觸發(fā)事件,將分類結(jié)果為I的子句作為情緒觸發(fā)事件輸出。
[0008]為了實現(xiàn)上述目的,本發(fā)明實施例提供的技術(shù)方案如下:
[0009]一種情緒觸發(fā)事件的抽取方法,所述方法包括以下步驟,
[0010]S1、語料處理過程:
[0011]SI 1、將每個篇章按標(biāo)點符號分成若干子句;
[0012]S12、根據(jù)每個子句與情緒觸發(fā)事件的關(guān)系,對每個子句進行標(biāo)注;
[0013]S2、特征提取及訓(xùn)練過程:
[0014]S21、提取訓(xùn)練語料中的子句的特征;[0015]S22、針對訓(xùn)練語料中的所有子句訓(xùn)練出分類器;[0016]S3、情緒觸發(fā)事件抽取過程:
[0017]S31、將待抽取的篇章按標(biāo)點符號分成若干子句;
[0018]S32、抽取每個子句的特征;
[0019]S33、用訓(xùn)練出的分類器對每個子句進行分類,判斷其是否為情緒觸發(fā)事件,并將情緒觸發(fā)事件的子句輸出。
[0020]作為本發(fā)明的進一步改進,所述步驟SI I和S31中的標(biāo)點符號包括、
![0021]作為本發(fā)明的進一步改進,所述步驟S21和S32中子句的特征包括:基本特征,上下文特征和語言學(xué)特征。
[0022]作為本發(fā)明的進一步改進,所述基本特征包括:名詞、動詞、名詞個數(shù)、動詞個數(shù)。
[0023]作為本發(fā)明的進一步改進,所述上下文特征包括前一個子句和后一個子句的基本特征。
[0024]作為本發(fā)明的進一步改進,所述語言學(xué)特征為語言學(xué)規(guī)則產(chǎn)生的特征,所述語言學(xué)規(guī)則包括:
[0025]規(guī)則1:情緒詞后面出現(xiàn)‘而’、‘因此’、‘于是’、‘就’、‘所以’、‘便’、‘使’、‘將’這
樣的觸發(fā)詞,將觸發(fā)詞后面的子句識別成情緒觸發(fā)事件;
[0026]規(guī)則2:情緒詞后面緊跟著“的”、“地”、“得”,而且后面是動詞,則該動詞為情緒觸
發(fā)事件。
[0027]作為本發(fā)明的進一步改進,所述步驟S12具體為:
[0028]若子句與情緒觸發(fā)事件重合或是情緒觸發(fā)事件中的一個片段,則該子句標(biāo)注為1,否則標(biāo)注為O。
[0029]作為本發(fā)明的進一步改進,所述步驟S33具體為:
[0030]用訓(xùn)練出的分類器對每個子句按標(biāo)注I和O進行分類,標(biāo)注為I的為情緒觸發(fā)事件,將分類結(jié)果為I的子句作為情緒觸發(fā)事件輸出。
[0031]作為本發(fā)明的進一步改進,所述步驟S22中分類器的訓(xùn)練采用最大熵分類工具。
[0032]本發(fā)明具有以下有益效果:
[0033]本發(fā)明情緒觸發(fā)事件的抽取方法有助于幫助自動處理和分析同情緒相關(guān)的事件,進而應(yīng)用于突發(fā)事件監(jiān)測、情感摘要等其他任務(wù)中,具有強大的實用價值。
【專利附圖】
【附圖說明】
[0034]為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明中記載的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0035]圖1為本發(fā)明情緒觸發(fā)事件的抽取方法的流程示意圖;
[0036]圖2為本發(fā)明一【具體實施方式】中在不同規(guī)模的標(biāo)注數(shù)據(jù)下的實驗結(jié)果。
【具體實施方式】[0037]為了使本【技術(shù)領(lǐng)域】的人員更好地理解本發(fā)明中的技術(shù)方案,下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都應(yīng)當(dāng)屬于本發(fā)明保護的范圍。
[0038]本發(fā)明主要實現(xiàn)對文本進行情緒觸發(fā)事件提取的任務(wù),為該任務(wù)建立分類模型,將之轉(zhuǎn)化為子句的分類問題。目前尚未有情緒觸發(fā)事件提取的研究,該項任務(wù)有助于幫助自動處理和分析同情緒相關(guān)的事件,進而應(yīng)用于突發(fā)事件監(jiān)測、情感摘要等其他任務(wù)中,具有強大的實用價值。
[0039]為了便于敘述,先將本發(fā)明涉及的常用的術(shù)語與標(biāo)記介紹如下:
[0040]定義1:篇章(section):用來訓(xùn)練或判斷的文本,文本長度不限,常由多個子句組成。
[0041]定義2:子句(clause):用標(biāo)點符號(‘,’、‘?!?、‘?’、‘! ’)分割篇章得到,作為本
發(fā)明中分類的基本單位。
[0042]定義3:情緒觸發(fā)事件(emotional triggers):由于某種情緒而產(chǎn)生的事件,情緒和事件之間具有因果聯(lián)系。
[0043]定義4:情緒觸發(fā)事件抽取(emotional triggers extraction):輸入是一個文本,輸出是該文本中的情緒觸發(fā)事件。
[0044]本發(fā)明的核心思想就是為該任務(wù)建立分類模型,將篇章按照標(biāo)點符號、‘?’、‘!’)分成多個子句,對每個子句建立新的標(biāo)簽,若其與情感觸發(fā)事件重合或是其中一部分,則標(biāo)注為1,否則為O。對篇章情緒觸發(fā)事件的抽取轉(zhuǎn)化為對其子句的分類問題,將分類結(jié)果為I的子句輸出作為篇章的情緒觸發(fā)事件。
[0045]本發(fā)明情緒觸發(fā)事件的抽取方法具體步驟如下:
[0046]S1、語料處理過程:
[0047]SI 1、將每個篇章按標(biāo)點符號’、‘ ! ’)分成若干子句;
[0048]S12、根據(jù)每個子句與情緒觸發(fā)事件的關(guān)系,對每個子句進行標(biāo)注。若子句與情緒觸發(fā)事件重合或是情緒觸發(fā)事件中的一個片段,則該子句標(biāo)注為I,否則標(biāo)注為O ;
[0049]S2、特征提取及訓(xùn)練過程:
[0050]S21、提取訓(xùn)練語料中的子句的特征,包括基本特征,上下文特征和語言學(xué)特征;
[0051]S22、針對訓(xùn)練語料中的所有子句采用最大熵分類工具訓(xùn)練出分類器;
[0052]S3、情緒觸發(fā)事件抽取過程:
[0053]S31、將待抽取的篇章按標(biāo)點符號’、‘ ! ’)分成若干子句;
[0054]S32、抽取每個子句的特征,包括基本特征,上下文特征和語言學(xué)特征;
[0055]S33、用訓(xùn)練出的分類器對每個子句進行分類,判斷其是否為情緒觸發(fā)事件,并將情緒觸發(fā)事件的子句輸出。具體為:用訓(xùn)練出的分類器對每個子句按標(biāo)注I和O進行分類,標(biāo)注為I的為情緒觸發(fā)事件,將分類結(jié)果為I的子句作為情緒觸發(fā)事件輸出。
[0056]結(jié)合圖1所示,本發(fā)明一【具體實施方式】中,情緒觸發(fā)事件的抽取方法主要由語料處理過程,特征提取及訓(xùn)練過程,觸發(fā)事件抽取過程組成。
[0057]語料處理過程,對原始語料進行處理,原始語料由篇章組成,具有篇章的情緒與其對應(yīng)的情緒觸發(fā)事件的標(biāo)注。語料處理過程將原始語料中的篇章按照標(biāo)點符號‘?’、‘!’)分成多個子句,根據(jù)原始語料對情緒觸發(fā)事件的標(biāo)注進行判斷,從而對每個子句進行新的標(biāo)注,若當(dāng)前子句與情緒觸發(fā)事件重合或是其中的一個片段,則標(biāo)注其為1,否則標(biāo)注為O。
[0058]特征提取及訓(xùn)練過程,對訓(xùn)練語料中的子句進行特征提取,特征主要包括基本特征,上下文特征和語言學(xué)特征,基本特征主要是詞特征,本發(fā)明中選取子句的名詞,動詞,名詞個數(shù),動詞個數(shù)作為基本特征。上下文特征主要是前一個子句和后一個子句的基本特征。語言學(xué)特征主要是相應(yīng)語言學(xué)規(guī)則產(chǎn)生的特征。訓(xùn)練過程利用最大熵分類工具訓(xùn)練出分類器。
[0059]觸發(fā)事件抽取過程,將需要進行情緒觸發(fā)事件抽取的篇章按照標(biāo)點符號(‘,’、
’)分成多個子句,用訓(xùn)練好的分類器對子句進行分類,將分類結(jié)果為I的子句作為情緒觸發(fā)事件輸出。
[0060]下面詳細(xì)說明本發(fā)明方法所涉及的各個細(xì)節(jié)問題。
[0061]1.基本特征
[0062]基本特征主要是詞特征,本發(fā)明中的基本特征主要選取名詞,動詞,名詞個數(shù),動詞個數(shù)這四種特征,具體解釋見表1:
[0063]表1:基本特征
[0064]
【權(quán)利要求】
1.一種情緒觸發(fā)事件的抽取方法,其特征在于,所述方法包括以下步驟, 51、語料處理過程: 511、將每個篇章按標(biāo)點符號分成若干子句; 512、根據(jù)每個子句與情緒觸發(fā)事件的關(guān)系,對每個子句進行標(biāo)注; 52、特征提取及訓(xùn)練過程: 521、提取訓(xùn)練語料中的子句的特征; 522、針對訓(xùn)練語料中的所有子句訓(xùn)練出分類器; 53、情緒觸發(fā)事件抽取過程: 531、將待抽取的篇章按標(biāo)點符號分成若干子句; 532、抽取每個子句的特征; 533、用訓(xùn)練出的分類器對每個子句進行分類,判斷其是否為情緒觸發(fā)事件,并將情緒觸發(fā)事件的子句輸出。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟Sll和S31中的標(biāo)點符號包括i y i y ? y ? I y?Λ0Λ.Λ.0
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟S21和S32中子句的特征包括:基本特征,上下文特征和語言學(xué)特征。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述基本特征包括:名詞、動詞、名詞個數(shù)、動詞個數(shù)。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述上下文特征包括前一個子句和后一個子句的基本特征。
6.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述語言學(xué)特征為語言學(xué)規(guī)則產(chǎn)生的特征,所述語言學(xué)規(guī)則包括: 規(guī)則1:情緒詞后面出現(xiàn)‘而’、‘因此’、‘于是’、‘就’、‘所以’、‘便’、‘使’、‘將’這樣的觸發(fā)詞,將觸發(fā)詞后面的子句識別成情緒觸發(fā)事件; 規(guī)則2:情緒詞后面緊跟著“的”、“地”、“得”,而且后面是動詞,則該動詞為情緒觸發(fā)事件。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟S12具體為: 若子句與情緒觸發(fā)事件重合或是情緒觸發(fā)事件中的一個片段,則該子句標(biāo)注為1,否則標(biāo)注為O。
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述步驟S33具體為: 用訓(xùn)練出的分類器對每個子句按標(biāo)注I和O進行分類,標(biāo)注為I的為情緒觸發(fā)事件,將分類結(jié)果為I的子句作為情緒觸發(fā)事件輸出。
9.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟S22中分類器的訓(xùn)練采用最大熵分類工具。
【文檔編號】G06F17/27GK103530283SQ201310513634
【公開日】2014年1月22日 申請日期:2013年10月25日 優(yōu)先權(quán)日:2013年10月25日
【發(fā)明者】李壽山, 高偉, 周國棟 申請人:蘇州大學(xué)