本發(fā)明涉及自然語(yǔ)言處理技術(shù)領(lǐng)域,特別是涉及一種情感分析方法及裝置。
背景技術(shù):
近些年來(lái),情感分析技術(shù)已成為自然語(yǔ)言處理研究領(lǐng)域的熱門話題,情感分析的目標(biāo)是從文本中挖掘用戶表達(dá)的觀點(diǎn)以及情感極性,挖掘文本中情感傾向可用于幫助其他用戶做決定。因此情感分析技術(shù)在自然語(yǔ)言處理研究領(lǐng)域得到了廣大研究者的關(guān)注,具有很大的應(yīng)用價(jià)值。
目前,根據(jù)訓(xùn)練文本中出現(xiàn)的所有詞作為特征進(jìn)行情感分析,而通過(guò)詞特征進(jìn)行的情感分析僅僅考慮句子的詞信息,沒有考慮句子本身的語(yǔ)義信息,這樣會(huì)造成情感分析的結(jié)果不準(zhǔn)確。例如,通過(guò)詞特征計(jì)算句子“alibaba真有錢”和句子“馬云發(fā)財(cái)啦”的相似度為0,但是實(shí)際上兩個(gè)句子的語(yǔ)義是非常相近的。因此現(xiàn)有情感分析的準(zhǔn)確率較低。
技術(shù)實(shí)現(xiàn)要素:
有鑒于此,本發(fā)明提供一種情感分析方法及裝置,主要目的在于提高情感分析的準(zhǔn)確率。
依據(jù)本發(fā)明一個(gè)方面,提供了一種情感分析方法,包括:
獲取目標(biāo)文本的語(yǔ)義特征向量及詞義特征向量;
對(duì)所述目標(biāo)文本的詞義特征向量及語(yǔ)義特征向量進(jìn)行融合得到目標(biāo)特征向量;
根據(jù)預(yù)置分類模型對(duì)所述目標(biāo)特征向量進(jìn)行分類,得到相應(yīng)的情感標(biāo)記,所述預(yù)置分類模型中存儲(chǔ)有目標(biāo)特征向量與情感標(biāo)記的對(duì)應(yīng)關(guān)系;
將得到的情感標(biāo)記作為所述目標(biāo)文本的情感分析結(jié)果。
具體的,所述獲取所述目標(biāo)文本的語(yǔ)義特征向量包括:
對(duì)所述目標(biāo)文本進(jìn)行分詞;
過(guò)濾目標(biāo)文本分詞結(jié)果中無(wú)意義的詞;
通過(guò)所述預(yù)設(shè)詞向量模型獲取過(guò)濾結(jié)果中各詞的詞向量;
對(duì)所述過(guò)濾結(jié)果中所有詞的詞向量進(jìn)行累加得到所述目標(biāo)文本的語(yǔ)義特征向量。
具體的,所述獲取所述目標(biāo)文本的詞義特征向量包括:
從所述目標(biāo)文本的過(guò)濾結(jié)果中選取單個(gè)詞特征和/或相鄰詞特征作為候選詞特征集;
對(duì)所述候選詞特征集中的詞與詞袋模型中的詞進(jìn)行同或計(jì)算,得到所述目標(biāo)文本的詞義特征向量。
具體的,所述預(yù)置分類模型采用下述方法設(shè)置:
根據(jù)預(yù)設(shè)詞向量模型獲取訓(xùn)練文本分別對(duì)應(yīng)的目標(biāo)特征向量,所述訓(xùn)練文本的目標(biāo)特征向量是融合的訓(xùn)練文本的詞義特征向量及語(yǔ)義特征向量;
根據(jù)各訓(xùn)練文本的特征向量及情感標(biāo)記訓(xùn)練所述預(yù)置分類模型。
具體的,所述預(yù)設(shè)詞向量模型采用下述方法設(shè)置:
對(duì)訓(xùn)練文本進(jìn)行分詞并過(guò)濾無(wú)意義的詞;
設(shè)置所述預(yù)設(shè)詞向量模型的維度信息;
根據(jù)分詞并過(guò)濾后的訓(xùn)練文本訓(xùn)練所述預(yù)設(shè)詞向量模型。
依據(jù)本發(fā)明另一個(gè)方面,提供了一種情感分析裝置,包括:
第一獲取單元,用于獲取目標(biāo)文本的語(yǔ)義特征向量及詞義特征向量;
融合單元,用于對(duì)所述目標(biāo)文本的詞義特征向量及語(yǔ)義特征向量進(jìn)行融合得到目標(biāo)特征向量;
第二獲取單元,用于根據(jù)預(yù)置分類模型對(duì)所述目標(biāo)特征向量進(jìn)行分類,得到相應(yīng)的情感標(biāo)記,所述預(yù)置分類模型中存儲(chǔ)有目標(biāo)特征向量與情感標(biāo)記的對(duì)應(yīng)關(guān)系;
確定單元,用于將得到的情感標(biāo)記作為所述目標(biāo)文本的情感分析結(jié)果。
具體的,所述第一獲取單元包括:
分詞模塊,用于對(duì)所述目標(biāo)文本進(jìn)行分詞;
過(guò)濾模塊,用于過(guò)濾目標(biāo)文本分詞結(jié)果中無(wú)意義的詞;
獲取模塊,用于通過(guò)所述預(yù)設(shè)詞向量模型獲取過(guò)濾結(jié)果中各詞的詞向量;
累加模塊,用于對(duì)所述過(guò)濾結(jié)果中所有詞的詞向量進(jìn)行累加得到所述目標(biāo)文本的語(yǔ)義特征向量。
進(jìn)一步地,所述第一獲取單元還包括:
選取模塊,用于從所述目標(biāo)文本的過(guò)濾結(jié)果中選取單個(gè)詞特征和/或相鄰詞特征作為候選詞特征集;
所述獲取模塊,還用于對(duì)所述候選詞特征集中的詞與詞袋模型中的詞進(jìn)行同或計(jì)算,得到所述目標(biāo)文本的詞義特征向量。
進(jìn)一步地,所述裝置還包括:訓(xùn)練單元;
所述第一獲取單元,還用于根據(jù)預(yù)設(shè)詞向量模型獲取訓(xùn)練文本分別對(duì)應(yīng)的目標(biāo)特征向量,所述訓(xùn)練文本的目標(biāo)特征向量是融合的訓(xùn)練文本的詞義特征向量及語(yǔ)義特征向量;
訓(xùn)練單元,用于根據(jù)各訓(xùn)練文本的特征向量及情感標(biāo)記訓(xùn)練所述預(yù)置分類模型。
進(jìn)一步地,所述裝置還包括:
分詞單元,用于對(duì)訓(xùn)練文本進(jìn)行分詞并過(guò)濾無(wú)意義的詞;
設(shè)置單元,用于設(shè)置所述預(yù)設(shè)詞向量模型的維度信息;
所述訓(xùn)練單元,還用于根據(jù)分詞并過(guò)濾后的訓(xùn)練文本訓(xùn)練所述預(yù)設(shè)詞向量模型。
借由上述技術(shù)方案,本發(fā)明實(shí)施例提供的技術(shù)方案至少具有下列優(yōu)點(diǎn):
本發(fā)明實(shí)施例提供的一種情感分析方法及裝置,首先獲取目標(biāo)文本的語(yǔ)義特征向量及詞義特征向量,并對(duì)所述目標(biāo)文本的詞義特征向量及語(yǔ)義特征向量進(jìn)行融合得到目標(biāo)特征向量,然后根據(jù)預(yù)置分類模型對(duì)所述目標(biāo)特征向量進(jìn)行分類,得到相應(yīng)的情感標(biāo)記,所述預(yù)置分類模型中存儲(chǔ)有目標(biāo)特征向量與情感標(biāo)記的對(duì)應(yīng)關(guān)系,最后將得到的情感標(biāo)記作為所述目標(biāo)文本的情感分析結(jié)果。與目前根據(jù)訓(xùn)練文本中出現(xiàn)的所有詞作為特征進(jìn)行情感分析相比,本發(fā)明實(shí)施例中的語(yǔ)義特征向量可充分的表示目標(biāo)文本的語(yǔ)義特征,因此通過(guò)融合的目標(biāo)特征向量既可表示目標(biāo)文本的語(yǔ)義特征也可表示目標(biāo)文本的詞義特征,從而根據(jù)目標(biāo)特征向量可準(zhǔn)確度獲取到與目標(biāo)文本對(duì)應(yīng)的情感標(biāo)記,進(jìn)而通過(guò)本發(fā)明實(shí)施例提高了情感分析的準(zhǔn)確率。
上述說(shuō)明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說(shuō)明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的具體實(shí)施方式。
附圖說(shuō)明
通過(guò)閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:
圖1示出了本發(fā)明實(shí)施例提供的一種情感分析方法流程圖;
圖2示出了本發(fā)明實(shí)施例提供的一種情感分析裝置的結(jié)構(gòu)框圖;
圖3示出了本發(fā)明實(shí)施例提供的另一種情感分析裝置的結(jié)構(gòu)框圖。
具體實(shí)施方式
下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
本發(fā)明實(shí)施例提供了一種情感分析方法,如圖1所示,具體步驟包括:
101、獲取目標(biāo)文本的語(yǔ)義特征向量及詞義特征向量。
其中,目標(biāo)文本的語(yǔ)義特征向量用于表示目標(biāo)文本的語(yǔ)義特征,目標(biāo)文本的詞義特征向量用于表示目標(biāo)文本的詞義特征。目標(biāo)文本具體可以為微博、新聞、博客等文本信息,本發(fā)明實(shí)施例不做具體限定。
在本發(fā)明實(shí)施例中,具體可以通過(guò)目標(biāo)文本中的詞向量獲取目標(biāo)文本的語(yǔ)義特征向量,即對(duì)目標(biāo)文本中所有詞的詞向量進(jìn)行相加求和,得到目標(biāo)文本的語(yǔ)義特征向量,而目標(biāo)文本的詞義特征向量則是根據(jù)預(yù)置詞袋模型得到的,即將目標(biāo)文本中的詞分別與預(yù)置詞袋模型中的詞進(jìn)行匹配得到目標(biāo)文本的詞義特征向量。其中,本發(fā)明實(shí)施例中目標(biāo)文本的詞向量是根據(jù)訓(xùn)練好的詞向量模型獲得的,即首先對(duì)目標(biāo)文本進(jìn)行分詞,然后對(duì)得到分詞結(jié)果去除停用詞、標(biāo)點(diǎn)等無(wú)用信息,最后根據(jù)訓(xùn)練好的詞向量模型查找目標(biāo)文本中各詞對(duì)應(yīng)的詞向量。
需要說(shuō)明的是,訓(xùn)練詞向量模型的過(guò)程具體為:首先搜集大量未標(biāo)注的新聞,微博等訓(xùn)練文本,然后對(duì)搜集到的訓(xùn)練文本進(jìn)行詞法分析,得到分詞結(jié)果,并去除分詞結(jié)果中的停用詞、標(biāo)點(diǎn)等無(wú)用信息,設(shè)定好詞向量模型的詞向量維度以及其他參數(shù),最后根據(jù)分詞后的文本訓(xùn)練詞向量模型。
102、對(duì)所述目標(biāo)文本的詞義特征向量及語(yǔ)義特征向量進(jìn)行融合得到目標(biāo)特征向量。
在本發(fā)明實(shí)施例中,根據(jù)目標(biāo)文本的詞義特征向量及語(yǔ)義特征向量融合得到的目標(biāo)特征向量既可表示目標(biāo)文本的語(yǔ)義特征,又可以表示目標(biāo)文本的詞義特征。融合目標(biāo)特征向量即由目標(biāo)文本的詞義特征向量和目標(biāo)文本的語(yǔ)義特征向量拼接得到的,例如,若目標(biāo)文本的語(yǔ)義特征向量為X1,…,Xn,目標(biāo)文本的詞義特征向量為B1,B2,…,Bn,則通過(guò)拼接目標(biāo)文本的詞義特征向量及語(yǔ)義特征向量得到的目標(biāo)特征向量為:X1,…,Xn,B1,B2,…,Bn。
103、根據(jù)預(yù)置分類模型對(duì)所述目標(biāo)特征向量進(jìn)行分類,得到相應(yīng)的情感標(biāo)記。
其中,所述預(yù)置分類模型中存儲(chǔ)有有目標(biāo)特征向量與情感標(biāo)記的對(duì)應(yīng)關(guān)系,預(yù)置分類模型中的目標(biāo)特征向量是根據(jù)融合訓(xùn)練文本的語(yǔ)義特征向量及詞義特征向量得到的,即預(yù)置分類模型中的目標(biāo)特征向量既可以可表示訓(xùn)練文本的語(yǔ)義特征,又可以表示訓(xùn)練文本的詞義特征,與目標(biāo)特征向量對(duì)應(yīng)的情感標(biāo)記用于表示訓(xùn)練文本的情感極性,情感標(biāo)記是由后臺(tái)人員根據(jù)訓(xùn)練文本的實(shí)際情感極性設(shè)置的,所述情感標(biāo)記具體可以為:痛苦、鄙視、仇恨、嫉妒、愉快、信任、感激、慶幸等,本發(fā)明實(shí)施例不做具體限定。
在本發(fā)明實(shí)施例中,根據(jù)預(yù)置分類模型對(duì)目標(biāo)特征向量進(jìn)行分類得到相應(yīng)的情感標(biāo)記具體過(guò)程可以:首先從預(yù)置分類模型中查找與目標(biāo)特征向量相似度最高的第一向量,然后第一向量對(duì)應(yīng)的情感標(biāo)記作為所述目標(biāo)文本的情感分析結(jié)果。例如,從預(yù)置分類模型中獲取與目標(biāo)特征向量相似度最高的第一向量是根據(jù)訓(xùn)練文本A得到的,即第一向量是由訓(xùn)練文本A的語(yǔ)義特征向量和詞義特征向量融合得到的,若訓(xùn)練文本A對(duì)應(yīng)的情感標(biāo)記為“高興”,則獲取到第一向量對(duì)應(yīng)情感標(biāo)記為“高興”,即得到目標(biāo)特征向量的情感標(biāo)記為“高興”。
對(duì)于本發(fā)明實(shí)施例,通過(guò)融合目標(biāo)文本的詞義特征向量及目標(biāo)文本的語(yǔ)義特征向量得到目標(biāo)特征向量,然后從預(yù)置分類模型中查找目標(biāo)特征向量相似度最高的第一向量,即查找與目標(biāo)文本語(yǔ)義及詞義最為相似的文本對(duì)應(yīng)的第一向量,最后將第一向量對(duì)應(yīng)的情感標(biāo)記作為目標(biāo)文本的情感分析結(jié)果。因此,本發(fā)明實(shí)施例在做情感分析過(guò)程中,充分的考慮了目標(biāo)文本的詞義特征與語(yǔ)義特征,從而通過(guò)本發(fā)明實(shí)施例可以提高情感分析的準(zhǔn)確度。
具體的,所述預(yù)置分類模型采用下述方法設(shè)置:獲取各訓(xùn)練文本分別對(duì)應(yīng)的目標(biāo)特征向量,所述訓(xùn)練文本的目標(biāo)特征向量是融合的訓(xùn)練文本的詞義特征向量及語(yǔ)義特征向量;根據(jù)各訓(xùn)練文本的特征向量及情感標(biāo)記訓(xùn)練所述預(yù)置分類模型。需要說(shuō)明的是,預(yù)置分類模型中的語(yǔ)義特征向量是根據(jù)詞向量模型得到的,即首先獲取訓(xùn)練文本中所有詞的向量,然后對(duì)同一訓(xùn)練文本中所有詞的向量進(jìn)行相加得到該訓(xùn)練文本的語(yǔ)義特征向量。
104、將得到的情感標(biāo)記作為所述目標(biāo)文本的情感分析結(jié)果。
本發(fā)明實(shí)施例提供一種情感分析方法,首先獲取目標(biāo)文本的語(yǔ)義特征向量及詞義特征向量,并對(duì)所述目標(biāo)文本的詞義特征向量及語(yǔ)義特征向量進(jìn)行融合得到目標(biāo)特征向量,然后從預(yù)置分類模型中查找與目標(biāo)特征向量相似度最高的第一向量,最后將第一向量對(duì)應(yīng)的情感標(biāo)記作為所述目標(biāo)文本的情感分析結(jié)果。由于從預(yù)置分類模型中獲取的第一向量是與目標(biāo)特征向量相似度最高的向量,即第一向量對(duì)應(yīng)的語(yǔ)義內(nèi)容及詞義內(nèi)容與目標(biāo)文本的語(yǔ)義內(nèi)容及詞義內(nèi)容相似度最高,而語(yǔ)義內(nèi)容及詞義內(nèi)容相似度較高的兩個(gè)文本之間的情感傾向大致相同,因此通過(guò)第一向量對(duì)應(yīng)的情感標(biāo)記就可以表達(dá)目標(biāo)文本的情感極性,從而根據(jù)目標(biāo)特征向量可準(zhǔn)確度獲取到與目標(biāo)文本對(duì)應(yīng)的情感標(biāo)記,進(jìn)而通過(guò)本發(fā)明實(shí)施例提高了情感分析的準(zhǔn)確率。
為了更好的對(duì)本發(fā)明實(shí)施例提供的情感分析方法進(jìn)行說(shuō)明,以下實(shí)施例將針對(duì)上述各步驟進(jìn)行細(xì)化和擴(kuò)展。
具體的,所述獲取所述目標(biāo)文本的語(yǔ)義特征向量包括:對(duì)所述目標(biāo)文本進(jìn)行分詞;過(guò)濾目標(biāo)文本分詞結(jié)果中無(wú)意義的詞;通過(guò)所述預(yù)設(shè)詞向量模型獲取過(guò)濾結(jié)果中各詞的詞向量;對(duì)所述過(guò)濾結(jié)果中所有詞的詞向量進(jìn)行累加得到所述目標(biāo)文本的語(yǔ)義特征向量。其中,所述無(wú)意義的詞可以為停用詞、標(biāo)點(diǎn)等無(wú)用信息,本發(fā)明實(shí)施例不做具體限定。
具體的,所述獲取所述目標(biāo)文本的詞義特征向量包括:從所述目標(biāo)文本的過(guò)濾結(jié)果中選取單個(gè)詞特征和/或相鄰詞特征作為候選詞特征集;對(duì)所述候選詞特征集中的詞與詞袋模型中的詞進(jìn)行同或計(jì)算,得到所述目標(biāo)文本的詞義特征向量。需要說(shuō)明的是,本發(fā)明實(shí)施例中的詞袋模型是根據(jù)訓(xùn)練文本得到的,即首先對(duì)訓(xùn)練文本進(jìn)行分詞,然后將分詞結(jié)果中詞頻較小的詞和無(wú)意義的詞過(guò)濾掉,并去除重復(fù)的詞,最后根據(jù)剩下的詞組成詞袋模型。
例如,候選詞特征集中的詞為:馬云,真,有錢;詞袋模型中的詞為:馬云,發(fā)財(cái),啦;則將候選詞特征集中的詞與詞袋模型中的詞進(jìn)行同或計(jì)算得到目標(biāo)文本的詞義特征向量為(1,0,0),即將候選詞特征集中“馬云”與詞袋模型中的“馬云”進(jìn)行同或運(yùn)算得到1;將候選詞特征集中“真”與詞袋模型中的“發(fā)財(cái)”進(jìn)行同或運(yùn)算得到0;將候選詞特征集中“有錢”與詞袋模型中的“啦”進(jìn)行同或運(yùn)算得到0。
在本發(fā)明實(shí)施例中,獲取目標(biāo)文本的詞義特征向量的具體過(guò)程為:首先需要對(duì)目標(biāo)文本進(jìn)行分詞,并去除目標(biāo)文本分詞結(jié)果中的停用詞、標(biāo)點(diǎn)等無(wú)用信息,然后選擇單個(gè)詞特征和/或相鄰詞特征作為情感分析的候選詞特征集,根據(jù)詞頻過(guò)濾等方法對(duì)候選詞特征集進(jìn)行過(guò)濾選擇有用的詞特征,最后根據(jù)詞袋模型獲取目標(biāo)文本的詞義特征向量。
在本發(fā)明實(shí)施例中,通過(guò)累加過(guò)濾結(jié)果中所有詞的向量得到目標(biāo)文本的語(yǔ)義特征向量,然后融合目標(biāo)文本的詞義特征向量及語(yǔ)義特征向量得到目標(biāo)文本的特征向量。
例如,過(guò)濾結(jié)果中的包括詞向量:W1,W2,…,Wj。其中
W1:x1,…,xn;
W2:x1,…,xn;
…
Wj:x1,…,xn。
則通過(guò)累加過(guò)濾結(jié)果中所有詞的向量W1+W2+…+Wj得到目標(biāo)文本的語(yǔ)義特征向量X1,…,Xn。若目標(biāo)文本對(duì)應(yīng)的詞義特征向量為B1,B2,…,Bn,則通過(guò)融合目標(biāo)文本的詞義特征向量及語(yǔ)義特征向量得到目標(biāo)文本的特征向量為:X1,…,Xn,B1,B2,…,Bn。
對(duì)于本發(fā)明實(shí)施例,所述預(yù)設(shè)詞向量模型采用下述方法設(shè)置:對(duì)訓(xùn)練文本進(jìn)行分詞并過(guò)濾無(wú)意義的詞;設(shè)置所述預(yù)設(shè)詞向量模型的維度信息;根據(jù)分詞并過(guò)濾后的訓(xùn)練文本訓(xùn)練所述預(yù)設(shè)詞向量模型。其中,訓(xùn)練文本為大量未標(biāo)注的新聞,微博文本等數(shù)據(jù)。
進(jìn)一步地,本發(fā)明實(shí)施例提供一種情感分析裝置,如圖2所示,所述裝置包括:第一獲取單元21、融合單元22、第二獲取單元23、確定單元24。
第一獲取單元21,用于獲取目標(biāo)文本的語(yǔ)義特征向量及詞義特征向量;
其中,目標(biāo)文本的語(yǔ)義特征向量用于表示目標(biāo)文本的語(yǔ)義特征,目標(biāo)文本的詞義特征向量用于表示目標(biāo)文本的詞義特征。目標(biāo)文本具體可以為微博、新聞、博客等文本信息,本發(fā)明實(shí)施例不做具體限定。
在本發(fā)明實(shí)施例中,具體可以通過(guò)目標(biāo)文本中的詞向量獲取目標(biāo)文本的語(yǔ)義特征向量,即對(duì)目標(biāo)文本中所有詞的詞向量進(jìn)行相加求和,得到目標(biāo)文本的語(yǔ)義特征向量,而目標(biāo)文本的詞義特征向量則是根據(jù)預(yù)置詞袋模型得到的,即將目標(biāo)文本中的詞分別與預(yù)置詞袋模型中的詞進(jìn)行匹配得到目標(biāo)文本的詞義特征向量。其中,本發(fā)明實(shí)施例中目標(biāo)文本的詞向量是根據(jù)訓(xùn)練好的詞向量模型獲得的,即首先對(duì)目標(biāo)文本進(jìn)行分詞,然后對(duì)得到分詞結(jié)果去除停用詞、標(biāo)點(diǎn)等無(wú)用信息,最后根據(jù)訓(xùn)練好的詞向量模型查找目標(biāo)文本中各詞對(duì)應(yīng)的詞向量。
需要說(shuō)明的是,訓(xùn)練詞向量模型的過(guò)程具體為:首先搜集大量未標(biāo)注的新聞,微博等訓(xùn)練文本,然后對(duì)搜集到的訓(xùn)練文本進(jìn)行詞法分析,得到分詞結(jié)果,并去除分詞結(jié)果中的停用詞、標(biāo)點(diǎn)等無(wú)用信息,設(shè)定好詞向量模型的詞向量維度以及其他參數(shù),最后根據(jù)分詞后的文本訓(xùn)練詞向量模型。
融合單元22,用于對(duì)所述目標(biāo)文本的詞義特征向量及語(yǔ)義特征向量進(jìn)行融合得到目標(biāo)特征向量;
在本發(fā)明實(shí)施例中,根據(jù)目標(biāo)文本的詞義特征向量及語(yǔ)義特征向量融合得到的目標(biāo)特征向量既可表示目標(biāo)文本的語(yǔ)義特征,又可以表示目標(biāo)文本的詞義特征。融合目標(biāo)特征向量即由目標(biāo)文本的詞義特征向量和目標(biāo)文本的語(yǔ)義特征向量拼接得到的,例如,若目標(biāo)文本的語(yǔ)義特征向量為X1,…,Xn,目標(biāo)文本的詞義特征向量為B1,B2,…,Bn,則通過(guò)拼接目標(biāo)文本的詞義特征向量及語(yǔ)義特征向量得到的目標(biāo)特征向量為:X1,…,Xn,B1,B2,…,Bn。
第二獲取單元23,用于根據(jù)預(yù)置分類模型對(duì)所述目標(biāo)特征向量進(jìn)行分類,得到相應(yīng)的情感標(biāo)記,所述預(yù)置分類模型中存儲(chǔ)有目標(biāo)特征向量與情感標(biāo)記的對(duì)應(yīng)關(guān)系;
其中,所述預(yù)置分類模型中存儲(chǔ)有特征向量與情感標(biāo)記的對(duì)應(yīng)關(guān)系,預(yù)置分類模型中的特征向量是根據(jù)融合訓(xùn)練文本的語(yǔ)義特征向量及詞義特征向量得到的,即預(yù)置分類模型中的特征向量既可以可表示訓(xùn)練文本的語(yǔ)義特征,又可以表示訓(xùn)練文本的詞義特征,與特征向量對(duì)應(yīng)的情感標(biāo)記用于表示訓(xùn)練文本的情感極性,情感標(biāo)記是由后臺(tái)人員根據(jù)訓(xùn)練文本的實(shí)際情感極性設(shè)置的,所述情感標(biāo)記具體可以為:痛苦、鄙視、仇恨、嫉妒、愉快、信任、感激、慶幸等,本發(fā)明實(shí)施例不做具體限定。
在本發(fā)明實(shí)施例中,根據(jù)預(yù)置分類模型對(duì)目標(biāo)文本的特征向量進(jìn)行分類得到相應(yīng)的情感標(biāo)記具體過(guò)程可以:首先從預(yù)置分類模型中查找與目標(biāo)特征向量相似度最高的第一向量,然后第一向量對(duì)應(yīng)的情感標(biāo)記作為所述目標(biāo)文本的情感分析結(jié)果。例如,從預(yù)置分類模型中獲取與目標(biāo)特征向量相似度最高的第一向量是根據(jù)訓(xùn)練文本A得到的,即第一向量是由訓(xùn)練文本A的語(yǔ)義特征向量和詞義特征向量融合得到的,若訓(xùn)練文本A對(duì)應(yīng)的情感標(biāo)記為“高興”,則獲取到第一向量對(duì)應(yīng)情感標(biāo)記為“高興”,即得到目標(biāo)特征向量的情感標(biāo)記為“高興”。
對(duì)于本發(fā)明實(shí)施例,通過(guò)融合目標(biāo)文本的詞義特征向量及目標(biāo)文本的語(yǔ)義特征向量得到目標(biāo)特征向量,然后從預(yù)置分類模型中查找目標(biāo)特征向量相似度最高的第一向量,即查找與目標(biāo)文本語(yǔ)義及詞義最為相似的文本對(duì)應(yīng)的第一向量,最后將第一向量對(duì)應(yīng)的情感標(biāo)記作為目標(biāo)文本的情感分析結(jié)果。因此,本發(fā)明實(shí)施例在做情感分析過(guò)程中,充分的考慮了目標(biāo)文本的詞義特征與語(yǔ)義特征,從而通過(guò)本發(fā)明實(shí)施例可以提高情感分析的準(zhǔn)確度。
具體的,所述預(yù)置分類模型采用下述方法設(shè)置:獲取各訓(xùn)練文本分別對(duì)應(yīng)的特征向量,所述訓(xùn)練文本的特征向量是融合的訓(xùn)練文本的詞義特征向量及語(yǔ)義特征向量;根據(jù)各訓(xùn)練文本的特征向量及情感標(biāo)記訓(xùn)練所述預(yù)置分類模型。需要說(shuō)明的是,預(yù)置分類模型中的語(yǔ)義特征向量是根據(jù)詞向量模型得到的,即首先獲取訓(xùn)練文本中所有詞的向量,然后對(duì)同一訓(xùn)練文本中所有詞的向量進(jìn)行相加得到該訓(xùn)練文本的語(yǔ)義特征向量。
確定單元24,用于將得到的情感標(biāo)記作為所述目標(biāo)文本的情感分析結(jié)果。
本發(fā)明實(shí)施例提供一種情感分析裝置,首先獲取目標(biāo)文本的語(yǔ)義特征向量及詞義特征向量,并對(duì)所述目標(biāo)文本的詞義特征向量及語(yǔ)義特征向量進(jìn)行融合得到目標(biāo)特征向量,然后從預(yù)置分類模型中查找與目標(biāo)特征向量相似度最高的第一向量,最后將第一向量對(duì)應(yīng)的情感標(biāo)記作為所述目標(biāo)文本的情感分析結(jié)果。由于從預(yù)置分類模型中獲取的第一向量是與目標(biāo)特征向量相似度最高的向量,即第一向量對(duì)應(yīng)的語(yǔ)義內(nèi)容及詞義內(nèi)容與目標(biāo)文本的語(yǔ)義內(nèi)容及詞義內(nèi)容相似度最高,而語(yǔ)義內(nèi)容及詞義內(nèi)容相似度較高的兩個(gè)文本之間的情感傾向大致相同,因此通過(guò)第一向量對(duì)應(yīng)的情感標(biāo)記就可以表達(dá)目標(biāo)文本的情感極性,從而根據(jù)目標(biāo)特征向量可準(zhǔn)確度獲取到與目標(biāo)文本對(duì)應(yīng)的情感標(biāo)記,進(jìn)而通過(guò)本發(fā)明實(shí)施例提高了情感分析的準(zhǔn)確率。
進(jìn)一步地,如圖3所示,所述第一獲取單元21包括:
分詞模塊211,用于對(duì)所述目標(biāo)文本進(jìn)行分詞;
過(guò)濾模塊212,用于過(guò)濾目標(biāo)文本分詞結(jié)果中無(wú)意義的詞;其中,所述無(wú)意義的詞可以為停用詞、標(biāo)點(diǎn)等無(wú)用信息,本發(fā)明實(shí)施例不做具體限定。
獲取模塊213,用于通過(guò)所述預(yù)設(shè)詞向量模型獲取過(guò)濾結(jié)果中各詞的詞向量;
累加模塊214,用于對(duì)所述過(guò)濾結(jié)果中所有詞的詞向量進(jìn)行累加得到所述目標(biāo)文本的語(yǔ)義特征向量。
進(jìn)一步地,所述第一獲取單元21還包括:
選取模塊215,用于從所述目標(biāo)文本的過(guò)濾結(jié)果中選取單個(gè)詞特征和/或相鄰詞特征作為候選詞特征集;
所述獲取模塊213,還用于對(duì)所述候選詞特征集中的詞與詞袋模型中的詞進(jìn)行同或計(jì)算,得到所述目標(biāo)文本的詞義特征向量。
需要說(shuō)明的是,本發(fā)明實(shí)施例中的詞袋模型是根據(jù)訓(xùn)練文本得到的,即首先對(duì)訓(xùn)練文本進(jìn)行分詞,然后將分詞結(jié)果中詞頻較小的詞和無(wú)意義的詞過(guò)濾掉,并去除重復(fù)的詞,最后根據(jù)剩下的詞組成詞袋模型。
例如,候選詞特征集中的詞為:馬云,真,有錢;詞袋模型中的詞為:馬云,發(fā)財(cái),啦;則將候選詞特征集中的詞與詞袋模型中的詞進(jìn)行同或計(jì)算得到目標(biāo)文本的詞義特征向量為(1,0,0),即將候選詞特征集中“馬云”與詞袋模型中的“馬云”進(jìn)行同或運(yùn)算得到1;將候選詞特征集中“真”與詞袋模型中的“發(fā)財(cái)”進(jìn)行同或運(yùn)算得到0;將候選詞特征集中“有錢”與詞袋模型中的“啦”進(jìn)行同或運(yùn)算得到0。
在本發(fā)明實(shí)施例中,通過(guò)累加過(guò)濾結(jié)果中所有詞的向量得到目標(biāo)文本的語(yǔ)義特征向量,然后融合目標(biāo)文本的詞義特征向量及語(yǔ)義特征向量得到目標(biāo)文本的特征向量。
例如,過(guò)濾結(jié)果中的包括詞向量:W1,W2,…,Wj。其中
W1:x1,…,xn;
W2:x1,…,xn;
…
Wj:x1,…,xn。
則通過(guò)累加過(guò)濾結(jié)果中所有詞的向量W1+W2+…+Wj得到目標(biāo)文本的語(yǔ)義特征向量X1,…,Xn。若目標(biāo)文本對(duì)應(yīng)的詞義特征向量為B1,B2,…,Bn,則通過(guò)融合目標(biāo)文本的詞義特征向量及語(yǔ)義特征向量得到目標(biāo)文本的特征向量為:X1,…,Xn,B1,B2,…,Bn。
進(jìn)一步地,如圖3所示,所述裝置還包括:訓(xùn)練單元25;
所述第一獲取單元21,還用于根據(jù)預(yù)設(shè)詞向量模型獲取訓(xùn)練文本分別對(duì)應(yīng)的目標(biāo)特征向量,所述訓(xùn)練文本的目標(biāo)特征向量是融合的訓(xùn)練文本的詞義特征向量及語(yǔ)義特征向量;
訓(xùn)練單元25,用于根據(jù)各訓(xùn)練文本的目標(biāo)特征向量及情感標(biāo)記訓(xùn)練所述預(yù)置分類模型。
進(jìn)一步地,所述裝置還包括:
分詞單元26,用于對(duì)訓(xùn)練文本進(jìn)行分詞并過(guò)濾無(wú)意義的詞;
設(shè)置單元27,用于設(shè)置所述預(yù)設(shè)詞向量模型的維度信息;
所述訓(xùn)練單元24,還用于根據(jù)分詞并過(guò)濾后的訓(xùn)練文本訓(xùn)練所述預(yù)設(shè)詞向量模型。
在上述實(shí)施例中,對(duì)各個(gè)實(shí)施例的描述都各有側(cè)重,某個(gè)實(shí)施例中沒有詳述的部分,可以參見其他實(shí)施例的相關(guān)描述。
可以理解的是,上述方法及裝置中的相關(guān)特征可以相互參考。另外,上述實(shí)施例中的“第一”、“第二”等是用于區(qū)分各實(shí)施例,而并不代表各實(shí)施例的優(yōu)劣。
所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡(jiǎn)潔,上述描述的系統(tǒng),裝置和單元的具體工作過(guò)程,可以參考前述方法實(shí)施例中的對(duì)應(yīng)過(guò)程,在此不再贅述。
在此提供的算法和顯示不與任何特定計(jì)算機(jī)、虛擬系統(tǒng)或者其它設(shè)備固有相關(guān)。各種通用系統(tǒng)也可以與基于在此的示教一起使用。根據(jù)上面的描述,構(gòu)造這類系統(tǒng)所要求的結(jié)構(gòu)是顯而易見的。此外,本發(fā)明也不針對(duì)任何特定編程語(yǔ)言。應(yīng)當(dāng)明白,可以利用各種編程語(yǔ)言實(shí)現(xiàn)在此描述的本發(fā)明的內(nèi)容,并且上面對(duì)特定語(yǔ)言所做的描述是為了披露本發(fā)明的最佳實(shí)施方式。
在此處所提供的說(shuō)明書中,說(shuō)明了大量具體細(xì)節(jié)。然而,能夠理解,本發(fā)明的實(shí)施例可以在沒有這些具體細(xì)節(jié)的情況下實(shí)踐。在一些實(shí)例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對(duì)本說(shuō)明書的理解。
類似地,應(yīng)當(dāng)理解,為了精簡(jiǎn)本公開并幫助理解各個(gè)發(fā)明方面中的一個(gè)或多個(gè),在上面對(duì)本發(fā)明的示例性實(shí)施例的描述中,本發(fā)明的各個(gè)特征有時(shí)被一起分組到單個(gè)實(shí)施例、圖、或者對(duì)其的描述中。然而,并不應(yīng)將該公開的方法解釋成反映如下意圖:即所要求保護(hù)的本發(fā)明要求比在每個(gè)權(quán)利要求中所明確記載的特征更多的特征。更確切地說(shuō),如下面的權(quán)利要求書所反映的那樣,發(fā)明方面在于少于前面公開的單個(gè)實(shí)施例的所有特征。因此,遵循具體實(shí)施方式的權(quán)利要求書由此明確地并入該具體實(shí)施方式,其中每個(gè)權(quán)利要求本身都作為本發(fā)明的單獨(dú)實(shí)施例。
本領(lǐng)域那些技術(shù)人員可以理解,可以對(duì)實(shí)施例中的設(shè)備中的模塊進(jìn)行自適應(yīng)性地改變并且把它們?cè)O(shè)置在與該實(shí)施例不同的一個(gè)或多個(gè)設(shè)備中??梢园褜?shí)施例中的模塊或單元或組件組合成一個(gè)模塊或單元或組件,以及此外可以把它們分成多個(gè)子模塊或子單元或子組件。除了這樣的特征和/或過(guò)程或者單元中的至少一些是相互排斥之外,可以采用任何組合對(duì)本說(shuō)明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者設(shè)備的所有過(guò)程或單元進(jìn)行組合。除非另外明確陳述,本說(shuō)明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的每個(gè)特征可以由提供相同、等同或相似目的的替代特征來(lái)代替。
此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實(shí)施例包括其它實(shí)施例中所包括的某些特征而不是其它特征,但是不同實(shí)施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實(shí)施例。例如,在下面的權(quán)利要求書中,所要求保護(hù)的實(shí)施例的任意之一都可以以任意的組合方式來(lái)使用。
本發(fā)明的各個(gè)部件實(shí)施例可以以硬件實(shí)現(xiàn),或者以在一個(gè)或者多個(gè)處理器上運(yùn)行的軟件模塊實(shí)現(xiàn),或者以它們的組合實(shí)現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以在實(shí)踐中使用微處理器或者數(shù)字信號(hào)處理器(DSP)來(lái)實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的情感分析方法及裝置(如確定網(wǎng)站內(nèi)鏈接等級(jí)的裝置)中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實(shí)現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設(shè)備或者裝置程序(例如,計(jì)算機(jī)程序和計(jì)算機(jī)程序產(chǎn)品)。這樣的實(shí)現(xiàn)本發(fā)明的程序可以存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)上,或者可以具有一個(gè)或者多個(gè)信號(hào)的形式。這樣的信號(hào)可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號(hào)上提供,或者以任何其他形式提供。
應(yīng)該注意的是上述實(shí)施例對(duì)本發(fā)明進(jìn)行說(shuō)明而不是對(duì)本發(fā)明進(jìn)行限制,并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計(jì)出替換實(shí)施例。在權(quán)利要求中,不應(yīng)將位于括號(hào)之間的任何參考符號(hào)構(gòu)造成對(duì)權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個(gè)”不排除存在多個(gè)這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計(jì)算機(jī)來(lái)實(shí)現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個(gè)可以是通過(guò)同一個(gè)硬件項(xiàng)來(lái)具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序??蓪⑦@些單詞解釋為名稱。