基于CRFs和SVM的產(chǎn)品評(píng)論細(xì)粒度情感要素提取的制作方法
【專利摘要】本發(fā)明公開了一種基于CRFs和SVM的產(chǎn)品評(píng)論細(xì)粒度情感要素提取,包括如下步驟:a、采用CRFs模型,將評(píng)論語特征看成是序列,然后根據(jù)序列對(duì)評(píng)論語進(jìn)行位置標(biāo)注,再采取相應(yīng)規(guī)則對(duì)錯(cuò)誤標(biāo)注進(jìn)行層次過濾,完成對(duì)情感對(duì)象和情感詞的提取;b、根據(jù)提取出的情感對(duì)象、情感詞和引入的句子結(jié)構(gòu)特征,采用SVM模型對(duì)詞對(duì)進(jìn)行情感傾向性分析。本發(fā)明不僅將評(píng)論句中情感對(duì)象和情感詞一并提取出來,而且提高了情感傾向性分析中的情感分類精度,使得在情感要素抽取與情感判斷上得到提高,F(xiàn)值達(dá)到76.3%。由于詞義代碼的引入,詞義代碼提高了系統(tǒng)的泛化能力和魯棒性,使得評(píng)論結(jié)果分析的正確率和召回率均得到了較大提高。
【專利說明】基于CRFs和SVM的產(chǎn)品評(píng)論細(xì)粒度情感要素提取
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于計(jì)算機(jī)信息挖掘【技術(shù)領(lǐng)域】,涉及產(chǎn)品情感要素提取,具體的涉及基于CRFs和SVM的產(chǎn)品評(píng)論細(xì)粒度情感要素提取。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)用戶迅速增長(zhǎng)以及線上購(gòu)物的不斷普及,電子商務(wù)出現(xiàn)了爆炸式發(fā)展,雖然傳統(tǒng)購(gòu)物還無法被取締,但是網(wǎng)上購(gòu)物逐漸成為了人們的首選方式,因?yàn)樵诰W(wǎng)上購(gòu)物環(huán)境中,用戶可以通過網(wǎng)上商品評(píng)論,隨時(shí)獲得更多、更全面的購(gòu)物參考信息,對(duì)商品質(zhì)量有更全面的了解,同時(shí),用戶在購(gòu)買商品后,往往會(huì)參與到對(duì)商品的評(píng)價(jià)中,使得商品評(píng)論數(shù)據(jù)變得越來越龐大。相對(duì)商家宣傳,評(píng)論數(shù)據(jù)往往能夠更客觀的反映出產(chǎn)品的真實(shí)面貌,如質(zhì)量、外觀、用戶體驗(yàn)等等。準(zhǔn)確而快速的獲取和分析這些評(píng)論數(shù)據(jù),除了可以為用戶提供購(gòu)買決策支持,還能給商家制定銷售策略和改進(jìn)商品提供全面準(zhǔn)確的依據(jù)。
[0003]在網(wǎng)絡(luò)交易平臺(tái)上,評(píng)論數(shù)據(jù)往往較多,尤其是熱門商品,在海量的數(shù)據(jù)面前,對(duì)信息的快速獲取造成了障礙,而人工處理效率低下的缺點(diǎn)就尤為明顯。為了解決這個(gè)問題,許多電子商務(wù)網(wǎng)站采用了五星制評(píng)級(jí)方式來量化用戶對(duì)商品的評(píng)價(jià)。這種方法在一定程度上簡(jiǎn)化了評(píng)論處理,方便用戶獲取信息,但是,可能會(huì)丟失許多重要的信息。針對(duì)普通五星制的缺點(diǎn),少數(shù)網(wǎng)站細(xì)化了評(píng)價(jià)分類,如日本的Kakaku網(wǎng)上商城,針對(duì)不同類型的商品,列出大家比較關(guān)注的一些主要屬性,例如性價(jià)比等,讓用戶對(duì)產(chǎn)品的每一個(gè)屬性分別評(píng)論并評(píng)分,總體的評(píng)分匯總直接提供給用戶作為購(gòu)物參考。這種方式有了明顯的改進(jìn),但是同時(shí)帶來了一些弊端,首先是產(chǎn)品屬性集合并不是固定不變的,人們關(guān)注的屬性隨時(shí)可能發(fā)生變化,固定的屬性集合隨著時(shí)間的推移可能會(huì)漸漸變的不合理,因而需要隨著產(chǎn)品的發(fā)展和用戶的關(guān)注點(diǎn)進(jìn)行更改。其次是固定的屬性集合很有限,無法列舉出所有屬性。再次,人們喜歡使用自然語言表達(dá)觀點(diǎn)和情感,固定的屬性集合不利于提升用戶體驗(yàn)。
[0004]使用自然語言對(duì)觀點(diǎn)和認(rèn)知進(jìn)行表達(dá)是人們最自然的表達(dá)方式,這種用戶評(píng)論也給研究者帶來了新挑戰(zhàn),要從自然語言評(píng)論中自動(dòng)發(fā)現(xiàn)情感要素,因而,使用自然語言處理技術(shù)自動(dòng)處理用戶的評(píng)論數(shù)據(jù)是最理想的處理方式。
[0005]單獨(dú)的情感分類按照粒度的不同可以分為四個(gè)級(jí)別:詞級(jí)/短語級(jí)、句子級(jí)、段落、篇章級(jí)。到目前為止,學(xué)者們對(duì)句子級(jí)和篇章級(jí)的研究較多,短語級(jí)的相對(duì)較少。雖然已有不少學(xué)者在情感傾向性分析上進(jìn)行了一些研究,并且取得了不少成果,但在細(xì)粒度〈情感對(duì)象,情感詞 > 詞對(duì)抽取及情感傾向性分析方面,綜合效果距離實(shí)用仍有不少差距。
【發(fā)明內(nèi)容】
[0006]為了解決現(xiàn)有技術(shù)中的不足,本發(fā)明提出了一種基于CRFs和SVM的產(chǎn)品評(píng)論細(xì)粒度情感要素提取,以同時(shí)提取評(píng)論句中情感對(duì)象和情感詞,并對(duì)其情感傾向性進(jìn)行分析。
[0007]為實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明采用如下技術(shù)方案:基于CRFs和SVM的產(chǎn)品評(píng)論細(xì)粒度情感要素提取,包括如下步驟:[0008]a、采用條件隨機(jī)場(chǎng)模型(CRFs)將評(píng)論句中的情感對(duì)象(SS)和情感詞(SW)同步提取出來,具體步驟包括:將評(píng)論語特征看成是序列,然后根據(jù)序列對(duì)評(píng)論語進(jìn)行位置標(biāo)注,再采取相應(yīng)規(guī)則對(duì)錯(cuò)誤標(biāo)注進(jìn)行層次過濾,完成對(duì)情感對(duì)象和情感詞的提??;
[0009]b、根據(jù)提取出的情感對(duì)象、情感詞和引入的句子結(jié)構(gòu)特征,采用支持向量機(jī)(SVM)模型對(duì)情感對(duì)象和情感詞組成的詞對(duì)進(jìn)行情感傾向性分析。
[0010]所述的a步驟中評(píng)論語句的特征包括:詞本身(W)、詞性(P0S)、語法樹父節(jié)點(diǎn)詞本身(PW)、語法樹父節(jié)點(diǎn)詞性(PPOSE )、語法樹父節(jié)點(diǎn)語義角色(PDP )。
[0011]所述的位置標(biāo)注的符號(hào)集合為:BA (位于情感詞之前的情感對(duì)象)、BB (位于情感對(duì)象之前的情感詞)、EA (位于情感詞之后的情感對(duì)象)、EB (位于情感對(duì)象之后的情感詞)、SA (沒有情感詞的情感對(duì)象)、SB (沒有情感對(duì)象的情感詞)、P (標(biāo)點(diǎn)符號(hào))、0 (其他)。
[0012]所述的a步驟中的相應(yīng)規(guī)則的偽代碼為:設(shè)Currfford為當(dāng)前詞,WordLabel為當(dāng)前詞標(biāo)記,SS為當(dāng)前情感對(duì)象,Sff為當(dāng)前情感詞,SSSet為情感對(duì)象集合,WPSet為〈情感對(duì)象,情感詞 > 詞對(duì)集合;
[0013]初始化
[0014]如果WordLabel=SA 或者 WordLabel=SB 或者 WordLabel=O:
[0015]不處理
[0016]else if WordLabel=P或者當(dāng)前詞到了句子末尾:
[0017]如果SS已找到:
[0018]將SS 放入 SSSet;
[0019]如果SSSet不為空并且SW已找到:
[0020]將SSSet 和 SW 放入 WPSet ;
[0021]重新初始化
[0022]else if WordLabel=BA:
[0023]如果CurrWord和SS為并列關(guān)系:
[0024]將SS 放入 SSSet,SS 設(shè)為 CurrWord
[0025]否則:將SS和CurrWord拼接成新的SS
[0026]else if WordLabel=BB:
[0027]Sff設(shè)為WordLabel,SS設(shè)為未找到;
[0028]else if WordLabel=EA:
[0029]如果CurrWord和SS為并列關(guān)系:
[0030]將SS 放入 SSSet,SS 設(shè)為 CurrWord
[0031]否則:將SS和CurrWord拼接成新的SS
[0032]else if WordLabel=EB:
[0033]Sff設(shè)為CurrWord,再按照當(dāng)前詞標(biāo)記為P的方式處理。
[0034]所述的b步驟中句子結(jié)構(gòu)特征包括:情感對(duì)象詞義代碼(SSC)、情感詞詞義代碼(SffC),是否存在情感傾向反轉(zhuǎn)詞、情感詞基本極性。
[0035]所述的詞性(POS)包括:結(jié)構(gòu)詞、介詞、實(shí)體名、形容詞、人稱代詞、擬聲詞、地名、省略詞、語氣詞、指示代詞、表情符、嘆詞、時(shí)態(tài)詞、被動(dòng)詞、結(jié)構(gòu)助詞、型號(hào)名、副詞、事件名、序數(shù)詞、能愿動(dòng)詞、方位詞、名詞、形謂詞、機(jī)構(gòu)名、趨向動(dòng)詞、品牌名、網(wǎng)址、把動(dòng)詞、限定詞、從屬連詞、數(shù)詞、人名、量詞、動(dòng)詞、并列連詞、標(biāo)點(diǎn)、品牌、疑問代詞、時(shí)間短語。
[0036]所述的語義角色(DP)包括:主語、賓語、介賓、關(guān)聯(lián)、補(bǔ)語、疑問連動(dòng)、標(biāo)點(diǎn)、感嘆、時(shí)態(tài)、并列、連動(dòng)、的字結(jié)構(gòu)、定語、狀語、數(shù)量、地字結(jié)構(gòu)、之字結(jié)構(gòu)、語態(tài)、修飾、得字結(jié)構(gòu)。
[0037]所述的語法樹父節(jié)點(diǎn)詞本身(PW)是指在語法分析樹中,每個(gè)詞都有一個(gè)父節(jié)點(diǎn),每個(gè)詞都與其父節(jié)點(diǎn)有一定的關(guān)系。通過依存語法樹分析器得到的輸出結(jié)果是Worc^Pi/Indexi形式的數(shù)組,表示第i個(gè)詞的父節(jié)點(diǎn)為第Indexi個(gè)詞,他們之間的關(guān)系是Pi,形式化為
[0038]
【權(quán)利要求】
1.基于CRFs和SVM的產(chǎn)品評(píng)論細(xì)粒度情感要素提取,其特征在于:包括如下步驟: a、采用條件隨機(jī)場(chǎng)模型(CRFs)將評(píng)論句中的情感對(duì)象(SS)和情感詞(SW)同步提取出來,具體步驟包括:將評(píng)論語特征看成是序列,然后根據(jù)序列對(duì)評(píng)論語進(jìn)行位置標(biāo)注,再采取相應(yīng)規(guī)則對(duì)錯(cuò)誤標(biāo)注進(jìn)行層次過濾,完成對(duì)情感對(duì)象和情感詞的提??; b、根據(jù)提取出的情感對(duì)象、情感詞和引入的句子結(jié)構(gòu)特征,采用支持向量機(jī)(SVM)模型對(duì)情感對(duì)象和情感詞組成的詞對(duì)進(jìn)行情感傾向性分析。
2.根據(jù)權(quán)利要求1所述的基于CRFs和SVM的產(chǎn)品評(píng)論細(xì)粒度情感要素提取,其特征在于:所述的a步驟中評(píng)論語特征包括:詞本身(W)、詞性(POS)、語法樹父節(jié)點(diǎn)詞本身(PW)、語法樹父節(jié)點(diǎn)詞性(PPOSE)、語法樹父節(jié)點(diǎn)語義角色(PDP)。
3.根據(jù)權(quán)利要求1所述的基于CRFs和SVM的產(chǎn)品評(píng)論細(xì)粒度情感要素提取,其特征在于:所述的位置標(biāo)注的符號(hào)集合為:BA (位于情感詞之前的情感對(duì)象)、BB (位于情感對(duì)象之前的情感詞)、EA (位于情感詞之后的情感對(duì)象)、EB (位于情感對(duì)象之后的情感詞)、SA (沒有情感詞的情感對(duì)象)、SB (沒有情感對(duì)象的情感詞)、P (標(biāo)點(diǎn)符號(hào))、0 (其他)。
4.根據(jù)權(quán)利要求1所述的基于CRFs和SVM的產(chǎn)品評(píng)論細(xì)粒度情感要素提取,其特征在于:所述的a步驟中的相應(yīng)規(guī)則的偽代碼為:設(shè)CurrWord為當(dāng)前詞,WordLabeI為當(dāng)前詞標(biāo)記,SS為當(dāng)前情感對(duì)象,Sff為當(dāng)前情感詞,SSSet為情感對(duì)象集合,WPSet為〈情感對(duì)象,情感詞 > 詞對(duì)集合; 初始化
如果 WordLabel=SA 或者 WordLabel=SB 或者 WordLabel=O: 不處理 else if WordLabel=P或者當(dāng)前詞到了句子末尾: 如果SS已找到: 將SS放入SSSet ; 如果SSSet不為空并且SW已找到: 將 SSSet 和 SW 放入 WPSet ; 重新初始化
else if WordLabel=BA: 如果CurrWord和SS為并列關(guān)系: 將 SS 放入 SSSet,SS 設(shè)為 CurrWord 否則:將SS和CurrWord拼接成新的SS else if WordLabel=BB: Sff設(shè)為WordLabel,SS設(shè)為未找到; else if WordLabel=EA: 如果CurrWord和SS為并列關(guān)系: 將 SS 放入 SSSet,SS 設(shè)為 CurrWord 否則:將SS和CurrWord拼接成新的SS else if WordLabel=EB: Sff設(shè)為CurrWord,再按照當(dāng)前詞標(biāo)記為P的方式處理。
5.根據(jù)權(quán)利要求1所述的基于CRFs和SVM的產(chǎn)品評(píng)論細(xì)粒度情感要素提取,其特征在于:所述的b步驟中句子結(jié)構(gòu)特征包括:情感對(duì)象詞義代碼(SSC)、情感詞詞義代碼(SWC)、是否存在情感傾向反轉(zhuǎn)詞、情感詞基本極性。
6.根據(jù)權(quán)利要求2所述的基于CRFs和SVM的產(chǎn)品評(píng)論細(xì)粒度情感要素提取,其特征在于:所述的詞性(POS)包括:結(jié)構(gòu)詞、介詞、實(shí)體名、形容詞、人稱代詞、擬聲詞、地名、省略詞、語氣詞、指示代詞、表情符、嘆詞、時(shí)態(tài)詞、被動(dòng)詞、結(jié)構(gòu)助詞、型號(hào)名、副詞、事件名、序數(shù)詞、能愿動(dòng)詞、方位詞、名詞、形謂詞、機(jī)構(gòu)名、趨向動(dòng)詞、品牌名、網(wǎng)址、把動(dòng)詞、限定詞、從屬連詞、數(shù)詞、人名、量詞、動(dòng)詞、并列連詞、標(biāo)點(diǎn)、品牌、疑問代詞、時(shí)間短語。
7.根據(jù)權(quán)利要求2所述的基于CRFs和SVM的產(chǎn)品評(píng)論細(xì)粒度情感要素提取,其特征在于:所述的語義角色(DP)包括:主語、賓語、介賓、關(guān)聯(lián)、補(bǔ)語、疑問連動(dòng)、標(biāo)點(diǎn)、感嘆、時(shí)態(tài)、并列、連動(dòng)、的字結(jié)構(gòu)、定語、狀語、數(shù)量、地字結(jié)構(gòu)、之字結(jié)構(gòu)、語態(tài)、修飾、得字結(jié)構(gòu)。
8.根據(jù)權(quán)利要求2所述的基于CRFs和SVM的產(chǎn)品評(píng)論細(xì)粒度情感要素提取,其特征在于:所述的語法樹父節(jié)點(diǎn)詞本身(PW)是指在語法分析樹中,每個(gè)詞都有一個(gè)父節(jié)點(diǎn),每個(gè)詞都與其父節(jié)點(diǎn)有一定的關(guān)系。通過依存語法樹分析器得到的輸出結(jié)果是Wordi/Pi/Indexi形式的數(shù)組,表示第i個(gè)詞的父節(jié)點(diǎn)為第Indexi個(gè)詞,他們之間的關(guān)系是Pi,形式化為
9.根據(jù)權(quán)利要求5所述的基于CRFs和SVM的產(chǎn)品評(píng)論細(xì)粒度情感要素提取,其特征在于:所述的詞義代碼指的是具有相同或者相近意義的詞的集合的編號(hào),意義相同或者相近的詞屬于同一個(gè)集合,擁有相同的詞義代碼,由于一些詞具有多義性,所以同一個(gè)詞可能同時(shí)屬于多個(gè)集合,擁有多個(gè)詞義代碼;詞義代碼的獲取方法為:將詞轉(zhuǎn)化成向量,再使用K-means聚類算法將意義相同或者相近的詞聚合成一類,再給每一類分配一個(gè)固定的唯一的編號(hào),這個(gè)編號(hào)就是這一類詞的詞義代碼。
10.根據(jù)權(quán)利要求5所述的基于CRFs和SVM的產(chǎn)品評(píng)論細(xì)粒度情感要素提取,其特征在于:所述的情感詞基本極性判斷方式為:基本的情感詞極性通過《中國(guó)知網(wǎng)》情感詞典查得,詞典中沒有的詞使用SO-PMI算法計(jì)算極性,互信息(PMI)計(jì)算如下式:
【文檔編號(hào)】G06F17/30GK103646088SQ201310686738
【公開日】2014年3月19日 申請(qǐng)日期:2013年12月13日 優(yōu)先權(quán)日:2013年12月13日
【發(fā)明者】孫曉, 唐陳意, 葉嘉麒, 李承程, 任福繼 申請(qǐng)人:合肥工業(yè)大學(xué)