一種基于詞匯語義和句法依存的情感關(guān)鍵句識別方法
【專利摘要】本發(fā)明涉及一種基于詞匯語義和句法依存的情感關(guān)鍵句識別方法,屬于自然語言處理應(yīng)用【技術(shù)領(lǐng)域】,包括以下步驟:首先對語料及其分詞結(jié)果進行規(guī)范化處理;然后基于一定規(guī)則擴展情感詞典、創(chuàng)建關(guān)鍵詞詞典和提取依存結(jié)構(gòu)模板,并通過擴展后的情感詞典和關(guān)鍵詞詞典獲取候選情感關(guān)鍵句;最后設(shè)計一種位置打分函數(shù),輔以情感詞特征、關(guān)鍵詞特征和依存模板特征,利用這四種特征訓(xùn)練SVM分類器,并以之完成情感關(guān)鍵句的最終識別。對比現(xiàn)有技術(shù),通過采用規(guī)則與統(tǒng)計相結(jié)合的策略,能夠有效利用不同層級詞匯語義和句法依存信息進行識別,使用戶能夠更快速而且準確地找到語料中置信度較高的情感關(guān)鍵句,提高中文情感關(guān)鍵句的識別率。
【專利說明】一種基于詞匯語義和句法依存的情感關(guān)鍵句識別方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種情感關(guān)鍵句識別方法,特別涉及一種基于詞匯語義和句法依存的 情感關(guān)鍵句識別方法,屬于自然語言處理應(yīng)用【技術(shù)領(lǐng)域】。
【背景技術(shù)】
[0002] 隨著我國互聯(lián)網(wǎng)事業(yè)的迅速發(fā)展,網(wǎng)絡(luò)作為一種新型媒體不但成為各種社會思 潮、利益訴求和意識形態(tài)較量的場所,而且也成為民眾評議時政、談?wù)撌欠?、交流觀點的集 散地。有關(guān)網(wǎng)絡(luò)輿情監(jiān)測和分析的研究由此引起研究人員的重視。抽取出一篇文章的情感 關(guān)鍵句,對了解社會動態(tài)和輿情狀況有著重要的作用。但在如今這個大數(shù)據(jù)時代,海量信息 層出不窮,同時處理這么多信息無疑是件費時費力的事情。因此,我們需要一種情感關(guān)鍵句 抽取技術(shù)來幫助我們自動從海量信息中抽取出與主題相關(guān)的情感關(guān)鍵句,這是一項既有學(xué) 術(shù)意義又有實用意義的研究課題。
[0003] 情感關(guān)鍵句又叫主題情感句,情感關(guān)鍵句需要包含兩個要素:主題關(guān)鍵詞和情感 關(guān)鍵詞。主題關(guān)鍵詞用來概括篇章的主題;情感關(guān)鍵詞用來概括情感傾向。目前,關(guān)于情感 關(guān)鍵句抽取方面的研究并不多??偟膩碚f,情感關(guān)鍵句抽取的研究尚不系統(tǒng)和成熟,目前還 處于起步階段。而中文語言的靈活性及表達的多樣性,也使情感關(guān)鍵句抽取的研究相對更 加困難。目前情感關(guān)鍵句抽取的方法大多是基于規(guī)則或基于統(tǒng)計的,鮮有兩者結(jié)合的方法。 而且在抽取過程中只進行了淺層語義分析,沒有挖掘句子的深層信息。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的目的是為解決以往在情感關(guān)鍵句識別中不能有效利用詞匯語義和句法 依存信息的問題,盡可能發(fā)揮不同層級的語義、句法信息特征,提出一種基于詞匯語義和句 法依存的情感關(guān)鍵句識別方法。
[0005] 為實現(xiàn)上述目的,本發(fā)明所采用的技術(shù)方案如下:
[0006] 本發(fā)明技術(shù)方案的思想是首先對語料及其分詞結(jié)果進行規(guī)范化處理,然后基于一 定規(guī)則擴展情感詞典、創(chuàng)建關(guān)鍵詞詞典和提取依存結(jié)構(gòu)模板,并通過擴展后的情感詞典和 關(guān)鍵詞詞典獲取候選情感關(guān)鍵句;最后設(shè)計一種位置打分函數(shù),輔以情感詞特征、關(guān)鍵詞特 征和依存特征,利用這四種特征構(gòu)造 SVM分類器,找到使性能達到最優(yōu)的特征形式完成情 感關(guān)鍵句的識別。
[0007] 本發(fā)明的具體技術(shù)方案如下:
[0008] -種基于詞匯語義和句法依存的中文情感關(guān)鍵句識別方法,該方法包括以下步 驟:
[0009] 步驟一、語料預(yù)處理:對語料集S的每一個句子進行分詞、詞性標注得到帶有詞性 標注的語料集合T;分詞以及詞性標注可以手工進行,也可以使用現(xiàn)有的工具,本發(fā)明使用 中科院的分詞工具ICTCLAS對S自動分詞以及詞性標注;
[0010] 步驟二、情感詞典擴建:通過分別計算基礎(chǔ)情感詞典與候選詞集合之間的點間互 信息PMI,為每個基礎(chǔ)情感詞典中的詞語選取至多5個PMI最高的候選詞作為擴展詞,加入 基礎(chǔ)情感詞典,用這些詞加上其在語料集合中的出現(xiàn)概率生成最終的領(lǐng)域相關(guān)的情感詞典 DEL ;
[0011] 步驟三、關(guān)鍵詞詞典構(gòu)建:對于語料集S中的每一篇文章,通過LDA與textrank相 結(jié)合的方法,同時采用一種全新的加權(quán)方法PCF0為該文章在各主題建立對應(yīng)的圖模型,最 后利用textrank為圖中每個節(jié)點,即詞語打分,選擇得分較高的詞語作為本篇文章的關(guān)鍵 詞,加入關(guān)鍵詞詞典KL;
[0012] 步驟四、依存知識庫構(gòu)建:對語料集S中的每一個句子進行依存分析,然后通過依 存模板提取算法獲取依存模板,加入依存知識庫DB ;
[0013] 步驟五、候選情感關(guān)鍵句生成:分別將語料集T中的每一個句子與上文已經(jīng)構(gòu)建 好的領(lǐng)域相關(guān)的情感詞典DEL和關(guān)鍵詞詞典KL進行匹配,選擇既含有情感詞又含有關(guān)鍵詞 的句子作為候選情感關(guān)鍵句,記候選情感關(guān)鍵句的集合為A ;
[0014] 步驟六、SVM分類:將集合A置于經(jīng)過訓(xùn)練的SVM分類器中進行分類,得到情感 關(guān)鍵句集合Y和非情感關(guān)鍵句集合N,SVM分類器的訓(xùn)練特征為:情感詞特征(emotional feature),關(guān)鍵詞特征(key-word feature),依存模板特征(dependency feature)和位置 特征(position feature)這四種;
[0015] 步驟七、識別完成:輸出識別結(jié)果Y。
[0016] 有益效果
[0017] 本發(fā)明對比現(xiàn)有技術(shù),通過采用規(guī)則與統(tǒng)計相結(jié)合的策略,先通過DEL和KL篩選 出候選情感關(guān)鍵句,然后再利用SVM分類器進行分類,這樣就彌補了基于概率統(tǒng)計的機器 學(xué)習(xí)方法導(dǎo)致的錯判,兩種方法相互補充,能夠有效利用不同層級詞匯語義和句法依存信 息進行識別,使用戶能夠更快速而且準確地找到語料中置信度較高的情感關(guān)鍵句,提高中 文情感關(guān)鍵句的識別率。
【專利附圖】
【附圖說明】
[0018] 圖1為本發(fā)明方法的處理流程圖。
【具體實施方式】
[0019] 在介紹實施例以前,先做如下定義:
[0020] 情感關(guān)鍵句是指一篇文章中既能表現(xiàn)文章主題又能表現(xiàn)情感傾向的句子,需要包 含兩個要素:主題關(guān)鍵詞和情感關(guān)鍵詞。主題關(guān)鍵詞用來彰顯篇章主題;情感關(guān)鍵詞用來 表明情感傾向。
[0021] 下面結(jié)合實施例對本發(fā)明做進一步說明。
[0022] 本實施例首先介紹情感詞典的擴展方法,關(guān)鍵詞詞典的構(gòu)建方法,依存知識庫的 形成方法以及SVM分類器的特征選擇方法,最后介紹中文情感關(guān)鍵句的識別方法。
[0023] 本實施例選取第六屆中文傾向性分析評測(The Sixth Chinese Opinion Analysis Evaluation,簡稱C0AE2014)任務(wù)一:面向新聞的情感關(guān)鍵句抽取與判定提供的 數(shù)據(jù)集作為實驗語料集,用于情感詞典的擴展,關(guān)鍵詞詞典的構(gòu)建,依存知識庫的形成以及 SVM分類器的訓(xùn)練。該語料集含有多篇文章,每篇文章由多個句子組成,每個句子含有類別 標注(Y :表不是情感關(guān)鍵句/N :表不不是情感關(guān)鍵句)。
[0024] 以下文檔為語料集S中的一篇文章:
[0025]
【權(quán)利要求】
1. 一種基于詞匯語義和句法依存的中文情感關(guān)鍵句識別方法,其特征在于,包括以下 步驟: 步驟一、語料預(yù)處理:對待識別的語料集的每一個句子進行分詞、詞性標注得到帶有詞 性標注的語料集合T ; 步驟二、候選情感關(guān)鍵句生成:分別將T中的每一個句子與領(lǐng)域相關(guān)的情感詞典DEL和 關(guān)鍵詞詞典KL進行匹配,選擇既含有情感詞又含有關(guān)鍵詞的句子作為候選情感關(guān)鍵句,記 候選情感關(guān)鍵句的集合為A ; 步驟三、SVM分類器分類:從情感詞特征、關(guān)鍵詞特征、依存模板特征和位置特征四個 方面對集合A的每個句子提取特征向量,并將特征向量置于經(jīng)過訓(xùn)練的SVM分類器中進行 分類,得到情感關(guān)鍵句集合Y和非情感關(guān)鍵句集合N ; 步驟四、識別完成:輸出識別結(jié)果Y。
2. 根據(jù)權(quán)利要求1所述的一種基于詞匯語義和句法依存的中文情感關(guān)鍵句識別方法, 其特征在于,領(lǐng)域相關(guān)的情感詞典DEL構(gòu)建方法包括以下步驟: 步驟一、采用知網(wǎng)(Hownet)提供的情感分析用詞語集中的正面情感詞語、負面情感詞 語、正面評價詞語、負面評價詞語加上由臺灣大學(xué)整理和發(fā)布的簡體中文的NTUSD構(gòu)成基 礎(chǔ)情感詞典(Basic Emotion Lexicon); 步驟二、對語料集S中的所有句子進行分詞、詞性標注后得到語料集合T,按詞性篩選 出名詞、動詞和形容詞作為候選詞; 步驟三、分別計算上文構(gòu)建的Basic Emotion Lexicon中每個詞與這些候選詞之間的 點間互信息,關(guān)于兩個詞語^和《2之間的點間互信息PMI(Wl,w2)的計算公式如下(計算 過程中過濾掉P (Wi&W2),P (W),P (w2)為零的情況
): 其中P^&wJ表示…和%在同一個句子中共同出現(xiàn)的概率,P(Wi)和P(w2)分別表示 兩個詞語單獨出現(xiàn)的概率;P(Wl&w2)、P(Wl)和p(w 2)都可以通過對語料集合T的統(tǒng)計得到, 其計算公式如下: P (Wi&wJ = numsen /N P(w!) = nurnsen (wj)/N P (w2) = numsen (w2) /N 其中,numjwi&wj表示集合中即出現(xiàn)&又出現(xiàn)w2的句子數(shù),numjwi)表示出現(xiàn)&的 句子數(shù),numS6n(w2)表示出現(xiàn)w2的句子數(shù),N表示語料集合T的全部句子數(shù); 步驟四、對于Basic Emotion Lexicon中的每個詞,選取至多前5個與之點間互信 息最高的候選詞作為擴展詞,與其在語料集合T中的出現(xiàn)頻率一起加入Basic Emotion Lexicon,并對Basic Emotion Lexicon中的每個情感詞也分別計算其在語料集合T中的出 現(xiàn)概率,生成最終的領(lǐng)域相關(guān)的情感詞典DEL。
3. 根據(jù)權(quán)利要求1所述的一種基于詞匯語義和句法依存的中文情感關(guān)鍵句識別方法, 其特征在于,關(guān)鍵詞詞典的構(gòu)建方法包括以下步驟: 步驟一、對語料集S中的所有句子進行分詞、詞性標注后得到語料集合T,設(shè)置語料集 合T的主題個數(shù)為n,某個主題用Zt表示,其中t為1到n之間的自然數(shù),通過LDA模型求 出文檔-主題分布P(Zt|d)和主題-詞分布P(w|Zt);計算隨機跳轉(zhuǎn)概率P(Z t|w),計算公式 如下:
其中,m表示語料集合T中的文檔個數(shù),w表示一個詞,屯表示語料集合T的第i篇文 章 ,i G {1,2,3......whPWi)表示文章屯在語料集合T中的出現(xiàn)概率; 步驟二、對語料集合T中的每一篇文章按詞性選擇名詞和形容詞作為候選關(guān)鍵詞,并 以這些詞為節(jié)點,分別在每一個主題下構(gòu)建圖模型:圖G= (V,E),節(jié)點集合V= {Vl,v2, V3......Vk},連接從節(jié)點Vi到節(jié)點Vj的邊得到邊集(Vi, Vi) G E,其中k表示候選關(guān)鍵詞的 個數(shù),i, j G {1,2,3......,k},i 關(guān) j ; 確定兩個節(jié)點之間是否存在邊以及邊的方向的方法如下: 在原文中設(shè)置一個大小為window的滑動窗口,分別按照順序從第一個詞性為名詞或 形容詞的詞語指向窗口內(nèi)與第一個詞不同的其他詞性為名詞或形容詞的詞語,由此得到邊 集E,依次遍歷集合E中的每條邊,按以下方法對每條邊設(shè)置權(quán)重: 權(quán)重設(shè)置主要考慮四個因素:位置重要性的影響力、覆蓋重要性的影響力、頻度重要性 的影響力和共現(xiàn)重要性的影響力;對于任意兩個結(jié)點Vi和Vj,結(jié)點Vi對 Vj的影響力通過其 有向邊e =< v" Vj >傳遞,邊的權(quán)重決定了 Vj最終所獲得Vi部分的分值大小,令wu表示結(jié)點\和\的整體影響力權(quán)重,a,0,Y,S分別表示這四類不同的影響力所占的 比重,且a+@ + Y + S = 1,則兩節(jié)點之間的權(quán)值Wii可以根據(jù)下式計算: Wij = a wpos (vj, Vj) + wcov (vj, Vj) + y wfreq (vj, Vj) + 8 wco_occur (vj, Vj) a)wP〇s(vi,vj)表示節(jié)點 ' 的位置影響力傳遞到vj的權(quán)重,計算公式如下:
其中,OUt(Vi)表示以Vi為起點所指向的節(jié)點的集合,P(Vj)表示節(jié)點Vj的位置重要性 得分,具體賦值方式如下:
其中,入是一個比1大的數(shù)字,值為1. 5 ; tOWcoJv" Vj)表示節(jié)點Vi的覆蓋影響力傳遞到Vj的權(quán)重,計算公式如下:
其中,| Out (Vi) I表示節(jié)點Vi的出度; C) Wfreq (Vi,Vj)表示節(jié)點Vi的頻度影響力傳遞到Vj的權(quán)重,計算公式如下:
其中,Out(Vi)表示以ViS起點所指向的節(jié)點的集合,f(Vj)表示節(jié)點Vj所代表的詞語 在文章中出現(xiàn)的次數(shù); Vj)表示節(jié)點Vi的共現(xiàn)影響力傳遞到V」的權(quán)重,計算公式如下:
其中,Co (Vi,Vj)表示節(jié)點Vi,Vj所代表的詞語在一定窗口內(nèi)共現(xiàn)的次數(shù); 步驟三、圖模型建立完畢之后,利用textrank的思想對各節(jié)點進行打分排序,用以下 公式迭代計算每一個節(jié)點在特定主題下的得分:
其中,W(Vj,Vi)即為步驟二中求得的節(jié)點Vj,Vi之間的權(quán)值Wji ;P(Zt|Vi)即為步驟一中 求得的p(zt|w) 為阻尼因子,值為〇. 75 ;j -\表示節(jié)點'在以節(jié)點Vi為終點的節(jié) 點集合內(nèi)遍歷;按以上公式迭代前設(shè)置所有節(jié)點得分初值KZt(Vi:)為1 ;當連續(xù)兩次迭代, 所有節(jié)點得分誤差都在〇. 〇〇〇1范圍之內(nèi)時,迭代終止,將此時的得分作為每一個節(jié)點在特 定主題下的得分。 步驟四、求得每一個節(jié)點在特定主題下的得分之后,按照下述公式計算每一個節(jié)點在 一篇文章下的最終得分R(Vi):
選取最終得分排名靠前的節(jié)點,將節(jié)點所代表的候選關(guān)鍵詞與此節(jié)點的最終得分一塊 加入關(guān)鍵詞詞典KL,依此方法生成對應(yīng)于語料集合T中所有文章的最終的關(guān)鍵詞詞典KL。
4.根據(jù)權(quán)利要求1所述的一種基于詞匯語義和句法依存的中文情感關(guān)鍵句識別方法, 其特征在于,所述SVM分類器的訓(xùn)練特征包括情感詞特征、關(guān)鍵詞特征、依存模板特征和位 置特征四種,所述特征向量由這四種特征構(gòu)成的特征向量分量相連接得到,將特征向量與 對應(yīng)句子的類別置入SVM分類器完成SVM分類器的訓(xùn)練;情感詞特征、關(guān)鍵詞特征、依存模 板特征和位置特征對應(yīng)的特征向量分量的生成方法如下: 首先對訓(xùn)練用語料集進行分詞、詞性標注得到語料集合T,對T中的每一個句子按以下 方法提取各特征向量的分量: 情感詞特征的特征向量維度為9,第一維分量表示每個句子中出現(xiàn)在DEL中情感詞的 個數(shù),后八維分量分別表示這些情感詞在語料集合T中出現(xiàn)的概率;如果句子中出現(xiàn)在DEL 中情感詞的個數(shù)不足8個,不足的部分其對應(yīng)的分量概率設(shè)置為0 ;如果句子中出現(xiàn)在DEL 中情感詞的個數(shù)多于8個,按概率由大到小的順序取前8個; 關(guān)鍵詞特征的特征向量維度為9,第一維分量表示每個句子中出現(xiàn)在KL中關(guān)鍵詞的個 數(shù),后八維分量分別表示這些關(guān)鍵詞在KL中對應(yīng)的得分;如果句子中出現(xiàn)在KL中關(guān)鍵詞的 個數(shù)不足8個,不足的部分其對應(yīng)的分量概率設(shè)置為0 ;如果句子中出現(xiàn)在KL中關(guān)鍵詞的 個數(shù)多于8個,按得分由大到小的順序取前8個; 依存模板特征的特征向量維度為9,第一維分量表示從每個句子中提取的依存模板出 現(xiàn)在DB中的個數(shù),后八維分量分別表示這些依存模板在DB中對應(yīng)的出現(xiàn)概率;如果從每個 句子中提取的依存模板出現(xiàn)在DB中的個數(shù)不足8個,不足的部分其對應(yīng)的分量的出現(xiàn)概率 設(shè)置為〇 ;如果從每個句子中提取的依存模板出現(xiàn)在DB中的個數(shù)多于8個,按出現(xiàn)概率由 大到小順序取前8個; 位置特征的特征向量維度為1,其值按下式計算: scoresen (pos (sen)) = a X pos (sen) 2+b X pos (sen) +c 其中,
i表示句子所在文章中的句子總數(shù),a > 0, b < 0, pos (sen)表示 句子在文章中的位置,sen表示句子序號。
5. 根據(jù)權(quán)利要求4所述的一種基于詞匯語義和句法依存的中文情感關(guān)鍵 句識別方法,其特征在于,b = -1。
6. 根據(jù)權(quán)利要求1所述的一種基于詞匯語義和句法依存的中文情感關(guān)鍵句識別方法, 其特征在于,依存知識庫的構(gòu)建方法包括以下步驟: 步驟一、使用哈工大LTP的依存句法分析模塊分析語料集S中的所有句子得到依存分 析結(jié)果D ; 步驟二、對依存分析結(jié)果D進行分析,找到句子的中心詞,將之與在DEL或hownet提供 的情感分析用詞語集中的主張詞中出現(xiàn)的詞一起作為中心特征詞(CoreWord),以這些詞為 起點,對附屬或依存于該詞的詞匯進行關(guān)系提取,并統(tǒng)計它們相互之間的關(guān)系,根據(jù)統(tǒng)計數(shù) 據(jù)提取出符合要求的依存關(guān)系模板,形成最終的依存知識庫DB ;具體的依存關(guān)系模板提取 算法如下: 輸入:語料集S經(jīng)過分詞及詞性分析得到的語料集合T,依存分析結(jié)果D ; 輸出:依存知識庫DB ; 處理流程: Step 1 :遍歷語料集合T中每條情感關(guān)鍵句中的所有詞語,如果該詞語在上文構(gòu)建的 DEL或hownet提供的情感分析用詞語集中的主張詞中出現(xiàn),或者依存分析結(jié)果中relate = "HED",則把它作為CoreWord ; Step 2 :將與CoreWord有依存關(guān)系,parent等于CoreWord的id的詞語存入依存詞的 集合 dpWords ; Step 3 :遍歷dpWords中的每個詞與CoreWord的關(guān)系,如果其依存關(guān)系為C00,則將它 作為CoreWord重復(fù)Step2 ;如果其依存關(guān)系為WP,則將其從dpWords中刪除; Step 4 :將情感關(guān)鍵句中的所有包括CoreWorcUdpWords以及dpWords中的每一個詞與 其父節(jié)點CoreWord相互之間的依存關(guān)系存入情感關(guān)鍵句的模板集合中,并且不改變其出 現(xiàn)順序; Step 5 :從Step4中得出的模板集合中的模板按"一個前面的詞與中心詞的關(guān)系+中 心詞+-個后面的詞與中心詞的關(guān)系"、"一個前面的詞與中心詞的關(guān)系+中心詞"、"中心詞 + -個后面的詞與中心詞的關(guān)系"三種方式作為候選模板進行提取,對于同一個中心詞取最 長模板,并統(tǒng)計其在情感關(guān)鍵句、非情感關(guān)鍵句中出現(xiàn)的概率; Step 6:將由Step 5得到的候選模板集合中在情感關(guān)鍵句中出現(xiàn)的概率大于在非情 感關(guān)鍵句中出現(xiàn)概率的模板提取出來,與它在情感關(guān)鍵句中的出現(xiàn)概率一起加入依存關(guān)系 知識庫DB中,直至處理完語料集合T的所有語句。
【文檔編號】G06F17/30GK104281645SQ201410425148
【公開日】2015年1月14日 申請日期:2014年8月27日 優(yōu)先權(quán)日:2014年8月27日
【發(fā)明者】馮沖, 廖純, 劉至潤, 黃河燕 申請人:北京理工大學(xué)