欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

情感傾向性分析方法和裝置的制作方法

文檔序號:6601379閱讀:505來源:國知局
專利名稱:情感傾向性分析方法和裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明總體上涉及信息處理領(lǐng)域,尤其涉及一種用于分析對研究對象的情感傾向性的方法和裝置。
背景技術(shù)
在當前的信息時代,越來越多的信息以電子信息的方式出現(xiàn)。例如隨著互聯(lián)網(wǎng)的快速發(fā)展,越來越多的人喜歡在網(wǎng)上發(fā)表他們對事情的意見,因而在網(wǎng)絡(luò)上出現(xiàn)大量包含傾向性的評論信息。人們希望通過信息處理手段來獲取這些電子信息中包含的情感傾向性。例如,在購買電子商品之前,人們會希望先得知別人對于該商品的評價是好是壞。政府部門會希望獲得人們對某一項新政策的反饋信息。如何分析和監(jiān)測電子評論信息,如何減輕人們閱讀大量相關(guān)評論信息的工作,成為了信息處理領(lǐng)域中的一個研究熱點。

發(fā)明內(nèi)容
在下文中給出了關(guān)于本發(fā)明的簡要概述,以便提供關(guān)于本發(fā)明的某些方面的基本理解。應(yīng)當理解,這個概述并不是關(guān)于本發(fā)明的窮舉性概述。它并不是意圖確定本發(fā)明的關(guān)鍵或重要部分,也不是意圖限定本發(fā)明的范圍。其目的僅僅是以簡化的形式給出某些概念,以此作為稍后論述的更詳細描述的前序。本發(fā)明旨在實現(xiàn)以比較高的準確度來分析對于研究對象的情感傾向性。為此,本發(fā)明的一個目的是提供一種用于分析情感傾向性的方法和裝置,借助該方法和裝置可以比較高的準確度來判斷對于研究對象的情感傾向性。本發(fā)明的另一個目的是提供在被計算設(shè)備執(zhí)行時使計算設(shè)備能夠執(zhí)行上述方法的處理過程的計算機程序代碼,以及其上存儲有該計算機程序代碼的計算機可讀存儲介質(zhì)及計算機程序產(chǎn)品。為了實現(xiàn)上述目的,根據(jù)本發(fā)明的一個方面,提供了一種用于分析對研究對象的情感傾向性的方法,包括獲取粗粒度的情感傾向性;獲取細粒度的情感傾向性;以及將粗粒度的情感傾向性和細粒度的情感傾向性結(jié)合,獲取對該研究對象的情感傾向性;其中獲取細粒度的情感傾向性的步驟包括基于在句子粒度或者段落粒度上確定的與主題詞相關(guān)的情感詞進行情感傾向性分析;其中獲取粗粒度的情感傾向性的步驟包括基于在段落粒度或者文檔粒度上確定的與主題詞相關(guān)的情感詞進行情感傾向性分析。根據(jù)本發(fā)明的另一個方面,提供了一種用于分析對研究對象的情感傾向性的裝置,包括粗粒度情感傾向性獲取器,其獲取粗粒度的情感傾向性;細粒度情感傾向性獲取器,其獲取細粒度的情感傾向性;以及情感傾向性結(jié)合器,其將粗粒度的情感傾向性和細粒度的情感傾向性結(jié)合,獲取對該研究對象的情感傾向性;其中細粒度情感傾向性獲取器基于在句子粒度或者段落粒度上確定的與主題詞相關(guān)的情感詞進行情感傾向性分析;其中粗粒度情感傾向性獲取器基于在段落粒度或者文檔粒度上確定的與主題詞相關(guān)的情感詞進行情感傾向性分析。
依據(jù)本發(fā)明的其它方面,還提供了相應(yīng)的計算機程序代碼、計算機可讀存儲介質(zhì)和計算機程序產(chǎn)品。在本發(fā)明所提出的方案中,結(jié)合了粗粒度分析和細粒度分析的優(yōu)點,因而提高了情感傾向性分析的性能。通過以下結(jié)合附圖對本發(fā)明的最佳實施例的詳細說明,本發(fā)明的這些以及其他優(yōu)點將更加明顯。


本發(fā)明可以通過參考下文中結(jié)合附圖所給出的描述而得到更好的理解,其中在所有附圖中使用了相同或相似的附圖標記來表示相同或者相似的部件。所述附圖連同下面的詳細說明一起包含在本說明書中并且形成本說明書的一部分,而且用來進一步舉例說明本發(fā)明的優(yōu)選實施例和解釋本發(fā)明的原理和優(yōu)點。在附圖中圖1示出了根據(jù)本發(fā)明的一個實施例的用于分析對研究對象的情感傾向性的方法的流程圖;圖2示出了用于獲取細粒度的情感傾向性的過程的流程圖;圖3示出了根據(jù)本發(fā)明的一個實施例的用于分析對研究對象的情感傾向性的裝置的示意性結(jié)構(gòu)圖;圖4示出了細粒度情感傾向性獲取器的示意性結(jié)構(gòu)圖;圖5示出了在其中可以實現(xiàn)根據(jù)本發(fā)明實施例的方法和/或裝置的通用個人計算機的示例性結(jié)構(gòu)的方框圖。
具體實施例方式在下文中將結(jié)合附圖對本發(fā)明的示范性實施例進行描述。為了清楚和簡明起見, 在說明書中并未描述實際實施方式的所有特征。然而,應(yīng)該了解,在開發(fā)任何這種實際實施例的過程中必須做出很多特定于實施方式的決定,以便實現(xiàn)開發(fā)人員的具體目標,例如,符合與系統(tǒng)及業(yè)務(wù)相關(guān)的那些限制條件,并且這些限制條件可能會隨著實施方式的不同而有所改變。此外,還應(yīng)該了解,雖然開發(fā)工作有可能是非常復(fù)雜和費時的,但對得益于本公開內(nèi)容的本領(lǐng)域技術(shù)人員來說,這種開發(fā)工作僅僅是例行的任務(wù)。在此,還需要說明的一點是,為了避免因不必要的細節(jié)而模糊了本發(fā)明,在附圖中僅僅示出了與根據(jù)本發(fā)明的方案密切相關(guān)的裝置結(jié)構(gòu)和/或處理步驟,而省略了與本發(fā)明關(guān)系不大的其他細節(jié)。目前,為了在文檔級別上分析對研究對象的情感傾向性,主要是以文檔整體作為研究對象,將情感傾向性判斷歸結(jié)為情感分類問題,采用機器學(xué)習(xí)的方法,利用人工標注文本傾向性的訓(xùn)練語料、基于一元(Unigram)和二元(Bigram)等特征以及采用貝葉斯 (Bayesian) (n|fi|/l (SupportVector Machine)(Maximum Entropy)
器,或者利用情感傾向性詞典,通過將文檔中的詞和短語的傾向性進行平均,來判斷文檔的傾向性。也就是說,現(xiàn)有技術(shù)中主要在粗粒度的水平上來分析文檔級別的情感傾向性。發(fā)明人注意到,一個文檔中可能包含多個主題,對每個主題可能具有不同的情感。 因此僅僅在文檔粒度上分析情感傾向性可能不能達到滿意的精確率。例如對于某個電子產(chǎn)
4品如手機,其包括多個部件,例如屏幕、按鍵、色彩等等。這些部件的重要程度彼此不同,并且對于每個部件都可能存在不同的情感傾向性,而文檔粒度的分析并未對此加以考慮。因此,本發(fā)明提出了從多個粒度來衡量情感傾向性的方案,其中不但考慮了文檔整體的傾向性,還針對所給定的主題,獲取該主題的細粒度的情感傾向性,并采用組合的方式對得到的結(jié)果進行分析,從而得到最終的結(jié)果。圖1是示出了根據(jù)本發(fā)明一個實施例的用于分析對研究對象的情感傾向性的方法的流程圖。需要說明的是,在執(zhí)行根據(jù)圖1所示的方法之前,已經(jīng)獲取了給定主題的文檔信息。例如,可以首先接收從網(wǎng)絡(luò)上收集到的各種商品評論信息。在此,可以采用現(xiàn)有的各種信息收集方法,例如,采用面向互聯(lián)網(wǎng)的網(wǎng)絡(luò)爬蟲的方式,或者采用指定數(shù)據(jù)來源的方式, 來定期地自動從網(wǎng)絡(luò)上收集評論信息。隨后可以對所收集到的評論信息進行包括分句、分詞、詞性標注等在內(nèi)的各種預(yù)處理,以獲得包括在所收集到的評論信息中的眾多評論語句的詞、詞性向量。在此可以采用已有的自然語言處理方法來對評論信息進行預(yù)處理。并且,對于上述處理之后的文檔信息進行了特征選擇,從全體特征集合中選擇出對分類有較大貢獻的特征組成特征子集,并且盡可能不失去原有數(shù)據(jù)價值。例如,在對評論信息進行分詞等處理之后,在特征集合中包括分詞處理得到的所有詞,這些詞中通常只有一部分對于分類是有用的。因此可以利用文檔頻度、互信息、信息增益、CHI統(tǒng)計、信息增益等,從不同的方面來對特征對文檔的重要程度進行度量,以選擇出對分類有較大貢獻的特征組成特征子集。本發(fā)明采用向量空間模型進行文本的形式化表示,采用文本中出現(xiàn)的詞特征作為文本的特征項。為了分析情感傾向性,除包含主題信息的特征外,還引入了情感詞典,獲取了情感信息特征。例如,在對于手機這種電子產(chǎn)品的評論信息中,“清晰”可能具有褒義的情感信息特征,而“模糊”可能具有貶義的情感信息特征。上述預(yù)處理是本領(lǐng)域技術(shù)人員所熟知的,因此這里不再進一步詳述。在上述處理之后,本發(fā)明提出了一種用于分析對研究對象的情感傾向性的方法。在步驟SllO中,獲取粗粒度的情感傾向性。特別地,粗粒度可以是文檔粒度或者段落粒度,也即在該步驟中獲取文檔級別或者段落級別上的情感傾向性。為了在粗粒度上進行情感傾向性分析,在此可以使用傳統(tǒng)的文本分類方法來進行分析,其中融入在預(yù)處理中獲取的、情感分類特有的情感信息特征,從而判斷對研究對象的粗粒度的情感傾向性,例如判斷對于研究對象的觀點的褒貶義。對此優(yōu)選的是采用支持向量機分類方法。當然也可以使用其它任何分類方法。支持向量機分類方法是一種統(tǒng)計學(xué)習(xí)方法,它是基于有序風險最小化歸納法,通過在特征空間構(gòu)建具有最大間隔的最佳超平面來進行的。在使用支持向量機來分類之前, 已經(jīng)事先對支持向量機進行了訓(xùn)練,訓(xùn)練語料包括客觀文檔集合、主觀褒義文檔集合、主觀貶義文檔集合等等。每個文檔集合含有指定的文檔數(shù)目,如1,000篇。支持向量機分類方法是本領(lǐng)域技術(shù)人員常用的分類方法,因此這里不再詳細闡述。通過進行粗粒度的分析,可以得到對于研究對象的粗粒度的情感傾向性。例如,可以將情感傾向性分為多個級別,例如根據(jù)實際需要可以分為褒義、中性和貶義,或者也可能分為褒義、偏褒義、中性、偏貶義、貶義等等。下面主要以情感傾向性分為褒義、中性和貶義來進行闡述。對于更多級別的劃分,本領(lǐng)域技術(shù)人員容易根據(jù)本發(fā)明的方案進行相應(yīng)的修改。由于在粗粒度分析中考慮了所有出現(xiàn)在文檔或者段落中的內(nèi)容信息和情感信息,可以衡量研究對象的整體上的主觀性,因此粗粒度的分析性能比較穩(wěn)定。然而,發(fā)明人注意到,一個研究對象的主題詞可能包含多個下級主題詞,對每個下級主題詞可能具有不同的情感傾向性。例如對于主題詞“手機”,可能還包含下級主題詞“屏幕”、“按鍵”、“外觀”、“電池”等等。這些下級主題詞可能具有不同的重要性,而簡單地將整篇文檔的情感傾向性作為研究對象的主題詞的情感傾向性來獲得的粗粒度的情感傾向性并沒有對此加以考慮,因而其精確度有待進一步提高。因此,在根據(jù)本發(fā)明的用于分析對研究對象的情感傾向性的方法中,還進一步包括步驟S120 獲取細粒度的情感傾向性。特別地,細粒度可以是段落粒度或者句子粒度,也即在該步驟中獲取段落級別或者句子級別上的情感傾向性。在此需要說明的是,細粒度是相對于粗粒度而確定的,當粗粒度是文檔粒度時,細粒度可以是段落粒度或者句子粒度,而當粗粒度是段落粒度時,細粒度是句子粒度。圖2示出了用于獲取細粒度的情感傾向性的過程的一種實施方式的流程圖。如圖 2所示,為了獲取細粒度的情感傾向性,在步驟S1201中首先獲取與主題詞相關(guān)的情感詞。 考慮到同一研究對象可能具有不同的稱謂,并且如前所述可能具有不同的下級主題,研究對象的主題詞可以首先根據(jù)詞典、知識庫以及網(wǎng)絡(luò)信息等等進行一定的擴展,以使信息更為準確。例如,對于研究對象手機,除了主題詞“手機”之外,還可以考慮擴展的主題詞“移動電話”、“蜂窩電話”等等。此外,主題詞也可以包括下級主題詞,例如主題詞“手機”可以包括下級主題詞“屏幕”、“按鍵”、“外觀”、“電池”等等。與主題詞相關(guān)的情感詞包括與下級主題詞相關(guān)的情感詞。需要說明的是,與主題詞的相關(guān)包括與主題詞在空間上相關(guān)、和/或在語義上相關(guān)和/或在邏輯上相關(guān)。在空間上相關(guān)例如可以是與主題詞在同一個句子中、在同一段中等等。在語義上相關(guān)例如指的是某個情感詞在語義上是用于修飾主題詞的,例如“清晰”通常是用于修飾“屏幕”等等。邏輯上相關(guān)指的是某個情感詞從邏輯上分析應(yīng)當是修飾某個主題詞的。由于在大多數(shù)情況下主題詞和相關(guān)的情感詞會在相同的句子中出現(xiàn),因此優(yōu)選的是,僅考慮與主題詞和情感詞在相同句子中出現(xiàn)的情況,也即針對文檔中的同時包含主題詞和情感詞的句子來獲取細粒度的情感傾向性。這種方式的優(yōu)點是可以比較簡單地得到細粒度的分析結(jié)果。發(fā)明人注意到,人們在進行評論時習(xí)慣于在主題詞附近給出其情感或評論信息, 因此優(yōu)選的是以主題詞為中心,基于情感詞典采用最近鄰匹配方法確定與主題詞相關(guān)的情感詞。該最近鄰匹配方法是本領(lǐng)域技術(shù)人員常用的手段,在此不再詳細描述。在獲取了與主題詞相關(guān)的情感詞之后,在步驟S1203中確定細粒度的情感傾向性。優(yōu)選的是,在確定細粒度的情感傾向性的步驟中,根據(jù)情感詞在詞典中的傾向性, 考慮轉(zhuǎn)折、否定等句式,對其極性進行判別。此外,根據(jù)一種實施形式,可以根據(jù)與同一主題詞相關(guān)的情感詞中的褒義詞與貶義詞的個數(shù)來確定對該主題詞的細粒度的情感傾向性。例如,可以使用基于學(xué)習(xí)的分類器來確定對該主題詞的細粒度的情感傾向性。這種分類器事先已經(jīng)過訓(xùn)練,從而可以根據(jù)對該主題詞的褒義詞與貶義詞的個數(shù)來確定情感傾向性。此外,例如也可以根據(jù)褒義詞與貶義詞的個數(shù)的比值來確定對該主題詞的細粒度的情感傾向性。具體而言,可以利用如下公式Polarity(D) = N (pos)/N (neg)其中Polarity(D)表示文檔D的針對某個主題詞的情感傾向性,N(pos)表示在文檔D中包含的具有褒義的主題詞-情感詞對的個數(shù),而N(neg)表示在文檔D中包含的具有貶義的主題詞-情感詞對的個數(shù)。可以認為當Polarity(D)大于1時,針對該主題詞的情感傾向性為褒義,小于1時為貶義,等于1時為中性。當然也可以設(shè)置相應(yīng)的閾值,例如認為Polarity(D)在1. 1到0. 9之間為中性,大于1. 1為褒義,小于0. 9為貶義。對于將情感傾向性劃分為更多級別的情況,本領(lǐng)域技術(shù)人員可以相應(yīng)地設(shè)置閾值。此外,由于不同的褒義詞和貶義詞例如“還可以”、“不錯”、“非常好”表達的褒貶情感的程度不同,因此可以對于褒義詞與貶義詞分別設(shè)置相應(yīng)的分值,并根據(jù)褒義詞與貶義詞的分值的平均數(shù)來確定對該主題詞的細粒度的情感傾向性。在此需要說明的是,分值的平均數(shù)指的是褒義詞和貶義詞的分值在整個文檔/段落上的平均表現(xiàn)。例如,可以對于 “不錯”設(shè)置分值為1,“非常好”設(shè)置分值為2,“較差”設(shè)置分值為-1,而“非常差”設(shè)置分值為-2。在分析情感傾向性時可以將所有褒義詞和貶義詞的分值相加,以此作為平均數(shù),如果大于零或者大于某個閾值,則認為是褒義,等等。此外也可能的是,將褒義詞和貶義詞按照分值先進行求和,隨后利用特定函數(shù)將該分值的和轉(zhuǎn)化到特定區(qū)間中。例如利用Sigmoid 函數(shù)來將分值的和轉(zhuǎn)化到特定區(qū)間,并將該轉(zhuǎn)化后的值作為平均數(shù)。利用特定函數(shù)來轉(zhuǎn)化分值的和到特定區(qū)間是本領(lǐng)域技術(shù)人員的常用手段,在此不再進一步闡述。在獲取細粒度的情感傾向性的步驟S120之后,在根據(jù)本發(fā)明的用于分析對研究對象的情感傾向性的方法中,還進一步包括步驟S130 將粗粒度的情感傾向性和細粒度的情感傾向性結(jié)合,獲取對該研究對象的情感傾向性。根據(jù)一種實施形式,可以根據(jù)要求對粗粒度的情感傾向性和細粒度的情感傾向性分別設(shè)置不同的權(quán)重,并將粗粒度的情感傾向性和細粒度的情感傾向性進行加權(quán)組合。發(fā)明人注意到,由于粗粒度的情感傾向性分析的精確度往往不能令人滿意,而細粒度的情感傾向性分析雖然查全率可能比較低,但是對于所獲取的主題詞-情感詞對的分析結(jié)果精確度比較高。因此優(yōu)選的是,將粗粒度的情感傾向性和細粒度的情感傾向性結(jié)合的步驟包括將粗粒度的情感傾向性作為初始傾向性,當粗粒度的情感傾向性不是中性時,利用細粒度的情感傾向性來修正粗粒度的情感傾向性,而當粗粒度的情感傾向性是中性時,不對該情感傾向性來進行修正。例如,當粗粒度的情感傾向性分析結(jié)果為褒義,而細粒度的情感傾向性分析結(jié)果為貶義時,則采用細粒度的情感傾向性分析結(jié)果作為最終的結(jié)果。事實上,這種組合方式可以視為是前述“加權(quán)組合”方式的一種特例。在根據(jù)本發(fā)明上述實施例的用于分析對研究對象的情感傾向性的方法中,結(jié)合了粗粒度分析和細粒度分析的優(yōu)點,因而提高了情感傾向性分析的性能。相應(yīng)地,圖3示出了根據(jù)本發(fā)明的一個實施例的用于分析對研究對象的情感傾向性的裝置30的示意性結(jié)構(gòu)圖。如從圖3中可以看到的那樣,用于分析對研究對象的情感傾向性的裝置20包括 粗粒度情感傾向性獲取器310,細粒度情感傾向性獲取器320,以及情感傾向性結(jié)合器330。
粗粒度情感傾向性獲取器310被配置用于獲取粗粒度的情感傾向性。特別地,粗粒度可以是文檔粒度或者段落粒度,也即粗粒度情感傾向性獲取器310被配置用于獲取文檔級別或者段落級別上的情感傾向性。為了在粗粒度上進行情感傾向性分析,在此可以使用傳統(tǒng)的文本分類方法來進行分析,其中融入在預(yù)處理中獲取的、情感分類特有的情感信息特征,從而判斷對研究對象的粗粒度的情感傾向性,例如判斷對于研究對象的觀點的褒貶義。對此優(yōu)選的是采用支持向量機分類方法。當然也可以使用其它任何分類方法。通過進行粗粒度的分析,可以得到對于研究對象的粗粒度的情感傾向性。由于在粗粒度分析中考慮了所有出現(xiàn)在文檔或者段落中的內(nèi)容信息和情感信息,可以衡量研究對象的整體上的主觀性,因此粗粒度的分析性能比較穩(wěn)定。此外,裝置20中的細粒度情感傾向性獲取器320被配置用于獲取細粒度的情感傾向性。特別地,細粒度可以是段落粒度或者句子粒度,也即在該步驟中獲取段落級別或者句子級別上的情感傾向性。在此需要說明的是,細粒度是相對于粗粒度而確定的,當粗粒度是文檔粒度時,細粒度可以是段落粒度或者句子粒度,而當粗粒度是段落粒度時,細粒度是句子粒度。圖4示出了細粒度情感傾向性獲取器320的示意性結(jié)構(gòu)圖。如圖4所示,細粒度情感傾向性獲取器320包括情感詞獲取器3201,其被配置用于獲取與主題詞相關(guān)的情感詞。考慮到同一研究對象可能具有不同的稱謂,并且如前所述可能具有不同的下級主題,研究對象的主題詞可以首先根據(jù)詞典、知識庫以及網(wǎng)絡(luò)信息等等進行一定的擴展,以使信息更為準確。關(guān)于如何獲取與主題詞相關(guān)的情感詞以及對主題詞的擴展,具體可以參照方法部分的描述,這里不再贅述。。此外,細粒度情感傾向性獲取器320還包括細粒度情感傾向性確定器3203,其被配置用于確定細粒度的情感傾向性。優(yōu)選的是,細粒度情感傾向性確定器3203被配置用于在確定細粒度的情感傾向性的過程中,根據(jù)情感詞在詞典中的傾向性,考慮轉(zhuǎn)折、否定等句式,對其極性進行判別。此外,根據(jù)一種實施形式,細粒度情感傾向性確定器3203可以被配置用于根據(jù)與同一主題詞相關(guān)的情感詞中的褒義詞與貶義詞的個數(shù)來確定對該主題詞的細粒度的情感傾向性??梢允褂没趯W(xué)習(xí)的分類器來確定對該主題詞的細粒度的情感傾向性。這種分類器事先已經(jīng)過訓(xùn)練,從而可以根據(jù)對該主題詞的褒義詞與貶義詞的個數(shù)來確定情感傾向性。此外,例如也可以根據(jù)褒義詞與貶義詞的個數(shù)的比值來確定對該主題詞的細粒度的情感傾向性。。具體而言,可以利用如下公式Polarity(D) = N (pos)/N (neg)其中Polarity(D)表示文檔D的針對某個主題詞的情感傾向性,N(pos)表示在文檔D中包含的具有褒義的主題詞-情感詞對的個數(shù),而N(neg)表示在文檔D中包含的具有貶義的主題詞-情感詞對的個數(shù)。可以認為當Polarity(D)大于1時,針對該主題詞的情感傾向性為褒義,小于1時為貶義,等于1時為中性。當然也可以設(shè)置相應(yīng)的閾值,例如認為Polarity(D)在1. 1到0. 9之間為中性,大于1. 1為褒義,小于0. 9為貶義。對于將情感傾向性劃分為更多級別的情況,本領(lǐng)域技術(shù)人員可以相應(yīng)地設(shè)置閾值。此外,由于不同的褒義詞和貶義詞例如“還可以”、“不錯”、“非常好”表達的褒貶情感的程度不同,因此細粒度情感傾向性確定器3203可以被配置用于對于褒義詞與貶義詞分別設(shè)置相應(yīng)的分值,并根據(jù)褒義詞與貶義詞的分值的平均數(shù)來確定對該主題詞的細粒度的情感傾向性。裝置30的情感傾向性結(jié)合器330被配置用于將粗粒度的情感傾向性和細粒度的情感傾向性結(jié)合,獲取對該研究對象的情感傾向性。根據(jù)一種實施形式,情感傾向性結(jié)合器330可以根據(jù)要求對粗粒度的情感傾向性和細粒度的情感傾向性分別設(shè)置不同的權(quán)重,并將粗粒度的情感傾向性和細粒度的情感傾向性進行加權(quán)組合。發(fā)明人注意到,由于粗粒度的情感傾向性分析的精確度往往不能令人滿意,而細粒度的情感傾向性分析雖然查全率可能比較低,但是對于所獲取的主題詞-情感詞對的分析結(jié)果精確度比較高。因此優(yōu)選的是,情感傾向性結(jié)合器330被配置用于將粗粒度的情感傾向性作為初始傾向性,當粗粒度的情感傾向性不是中性時,利用細粒度的情感傾向性來修正粗粒度的情感傾向性,而當粗粒度的情感傾向性是中性時,不對該情感傾向性來進行修正。例如,當粗粒度的情感傾向性分析結(jié)果為褒義,而細粒度的情感傾向性分析結(jié)果為貶義時,則采用細粒度的情感傾向性分析結(jié)果作為最終的結(jié)果。在根據(jù)本發(fā)明上述實施例的用于分析對研究對象的情感傾向性的裝置30中,結(jié)合了粗粒度分析和細粒度分析的優(yōu)點,因而提高了情感傾向性分析的性能。另外,應(yīng)理解,本文所述的各種示例和實施例均是示例性的,本發(fā)明不限于此。上述裝置中各個組成模塊、單元可通過軟件、固件、硬件或其組合的方式進行配置。配置可使用的具體手段或方式為本領(lǐng)域技術(shù)人員所熟知,在此不再贅述。在通過軟件或固件實現(xiàn)的情況下,從存儲介質(zhì)或網(wǎng)絡(luò)向具有專用硬件結(jié)構(gòu)的計算機(例如圖5所示的通用計算機500)安裝構(gòu)成該軟件的程序,該計算機在安裝有各種程序時,能夠執(zhí)行各種功能等。在圖5中,中央處理單元(CPU) 501根據(jù)只讀存儲器(ROM) 502中存儲的程序或從存儲部分508加載到隨機存取存儲器(RAM) 503的程序執(zhí)行各種處理。在RAM 503中,也根據(jù)需要存儲當CPU 501執(zhí)行各種處理等等時所需的數(shù)據(jù)。CPU 50UROM 502和RAM 503經(jīng)由總線504彼此連接。輸入/輸出接口 505也連接到總線504。下述部件連接到輸入/輸出接口 505 輸入部分506(包括鍵盤、鼠標等等)、輸出部分507(包括顯示器,比如陰極射線管(CRT)、液晶顯示器(LCD)等,和揚聲器等)、存儲部分508(包括硬盤等)、通信部分509(包括網(wǎng)絡(luò)接口卡比如LAN卡、調(diào)制解調(diào)器等)。通信部分509經(jīng)由網(wǎng)絡(luò)比如因特網(wǎng)執(zhí)行通信處理。根據(jù)需要,驅(qū)動器510也可連接到輸入/輸出接口 505。可拆卸介質(zhì)511比如磁盤、光盤、磁光盤、半導(dǎo)體存儲器等等根據(jù)需要被安裝在驅(qū)動器510上,使得從中讀出的計算機程序根據(jù)需要被安裝到存儲部分508中。在通過軟件實現(xiàn)上述系列處理的情況下,從網(wǎng)絡(luò)比如因特網(wǎng)或存儲介質(zhì)比如可拆卸介質(zhì)511安裝構(gòu)成軟件的程序。本領(lǐng)域的技術(shù)人員應(yīng)當理解,這種存儲介質(zhì)不局限于圖5所示的其中存儲有程序、與設(shè)備相分離地分發(fā)以向用戶提供程序的可拆卸介質(zhì)511??刹鹦督橘|(zhì)511的例子包含磁盤(包含軟盤(注冊商標))、光盤(包含光盤只讀存儲器(⑶-ROM)和數(shù)字通用盤 (DVD))、磁光盤(包含迷你盤(MD)(注冊商標))和半導(dǎo)體存儲器?;蛘?,存儲介質(zhì)可以是 ROM 502、存儲部分508中包含的硬盤等等,其中存有程序,并且與包含它們的設(shè)備一起被分發(fā)給用戶。本發(fā)明還提出一種存儲有機器可讀取的指令代碼的程序產(chǎn)品。所述指令代碼由機器讀取并執(zhí)行時,可執(zhí)行上述根據(jù)本發(fā)明實施例的方法。相應(yīng)地,用于承載上述存儲有機器可讀取的指令代碼的程序產(chǎn)品的存儲介質(zhì)也包括在本發(fā)明的公開中。所述存儲介質(zhì)包括但不限于軟盤、光盤、磁光盤、存儲卡、存儲棒等寸。最后,還需要說明的是,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的
要素。此外,在沒有更多限制的情況下,由語句“包括一個......”限定的要素,并不排除在
包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。以上雖然結(jié)合附圖詳細描述了本發(fā)明的實施例,但是應(yīng)當明白,上面所描述的實施方式只是用于說明本發(fā)明,而并不構(gòu)成對本發(fā)明的限制。對于本領(lǐng)域的技術(shù)人員來說,可以對上述實施方式作出各種修改和變更而沒有背離本發(fā)明的實質(zhì)和范圍。因此,本發(fā)明的范圍僅由所附的權(quán)利要求及其等效含義來限定。通過以上的描述不難看出,根據(jù)本發(fā)明的實施例,提供了如下的方案附記1. 一種用于分析對研究對象的情感傾向性的方法,包括-獲取粗粒度的情感傾向性;-獲取細粒度的情感傾向性;以及-將粗粒度的情感傾向性和細粒度的情感傾向性結(jié)合,獲取對該研究對象的情感傾向性;其中獲取細粒度的情感傾向性的步驟包括基于在句子粒度或者段落粒度上確定的與主題詞相關(guān)的情感詞進行情感傾向性分析;其中獲取粗粒度的情感傾向性的步驟包括基于在段落粒度或者文檔粒度上確定的與主題詞相關(guān)的情感詞進行情感傾向性分析。附記2.根據(jù)附記1所述的方法,其中獲取細粒度的情感傾向性的步驟被進一步配置為根據(jù)與同一主題詞相關(guān)的情感詞中的褒義詞與貶義詞的個數(shù)來確定對該主題詞的細粒度的情感傾向性。附記3.根據(jù)附記2所述的方法,其中獲取細粒度的情感傾向性的步驟被進一步配置為根據(jù)所述褒義詞與貶義詞的個數(shù)的比值來確定對該主題詞的細粒度的情感傾向性。附記4.根據(jù)附記2所述的方法,其中獲取細粒度的情感傾向性的步驟被進一步配置為根據(jù)所述褒義詞與貶義詞的分值的平均數(shù)來確定對該主題詞的細粒度的情感傾向性。附記5.根據(jù)附記1所述的方法,其中所述主題詞包括下級主題詞,與所述主題詞相關(guān)的情感詞包括與下級主題詞相關(guān)的情感詞。附記6.根據(jù)附記2所述的方法,其中與主題詞相關(guān)包括與主題詞在空間上相關(guān)、 和/或在語義上相關(guān)和/或在邏輯上相關(guān)。附記7.根據(jù)附記1所述的方法,其中將粗粒度的情感傾向性和細粒度的情感傾向性結(jié)合的步驟包括將粗粒度的情感傾向性和細粒度的情感傾向性進行加權(quán)組合。
附記8.根據(jù)附記1所述的方法,其中將粗粒度的情感傾向性和細粒度的情感傾向性結(jié)合的步驟包括將文檔粒度的情感傾向性作為初始傾向性,當文檔粒度的情感傾向性不是中性時,利用細粒度的情感傾向性來修正文檔粒度的情感傾向性。附記9. 一種用于分析對研究對象的情感傾向性的裝置00),包括-粗粒度情感傾向性獲取器(310),其獲取粗粒度的情感傾向性;-細粒度情感傾向性獲取器(320),其獲取細粒度的情感傾向性;以及-情感傾向性結(jié)合器(330),其將粗粒度的情感傾向性和細粒度的情感傾向性結(jié)合,獲取對該研究對象的情感傾向性;其中細粒度情感傾向性獲取器(320)基于在句子粒度或者段落粒度上確定的與主題詞相關(guān)的情感詞進行情感傾向性分析;其中粗粒度情感傾向性獲取器(310)基于在段落粒度或者文檔粒度上確定的與主題詞相關(guān)的情感詞進行情感傾向性分析。附記10.根據(jù)附記9所述的裝置(20),其中細粒度情感傾向性獲取器(320)包括 細粒度情感傾向性確定器(3203),其用于根據(jù)與同一主題詞相關(guān)的情感詞中的褒義詞與貶義詞的個數(shù)來確定對該主題詞的細粒度的情感傾向性。附記11.根據(jù)附記10所述的裝置(20),其中細粒度情感傾向性確定器(3203)進一步根據(jù)所述褒義詞與貶義詞的個數(shù)的比值來確定對該主題詞的細粒度的情感傾向性。附記12.根據(jù)附記10所述的裝置(20),其中細粒度情感傾向性確定器(3203)進一步根據(jù)所述褒義詞與貶義詞的分值的平均數(shù)來確定對該主題詞的細粒度的情感傾向性。附記13.根據(jù)附記9所述的裝置(20),其中所述主題詞包括下級主題詞,與所述主題詞相關(guān)的情感詞包括與下級主題詞相關(guān)的情感詞。附記14.根據(jù)附記9所述的裝置(20),其中與主題詞相關(guān)包括與主題詞在空間上相關(guān)、和/或在語義上相關(guān)和/或在邏輯上相關(guān)。附記15.根據(jù)附記9所述的裝置(20),其中情感傾向性結(jié)合器(330)將粗粒度的情感傾向性和細粒度的情感傾向性進行加權(quán)組合。附記16.根據(jù)附記9所述的裝置(20),其中情感傾向性結(jié)合器(330)將文檔粒度的情感傾向性作為初始傾向性,當文檔粒度的情感傾向性不是中性時,利用細粒度的情感傾向性來修正文檔粒度的情感傾向性。附記17. —種程序產(chǎn)品,該程序產(chǎn)品包括機器可執(zhí)行的指令,當在信息處理設(shè)備上執(zhí)行所述指令時,所述指令使得所述信息處理設(shè)備執(zhí)行如附記1所述的方法。附記18. —種存儲介質(zhì),該存儲介質(zhì)包括機器可讀的程序代碼,當在信息處理設(shè)備上執(zhí)行所述程序代碼時,所述程序代碼使得所述信息處理設(shè)備執(zhí)行如附記1所述的方法。
權(quán)利要求
1.一種用于分析對研究對象的情感傾向性的方法,包括-獲取粗粒度的情感傾向性;-獲取細粒度的情感傾向性;以及-將粗粒度的情感傾向性和細粒度的情感傾向性結(jié)合,獲取對該研究對象的情感傾向性;其中獲取細粒度的情感傾向性的步驟包括基于在句子粒度或者段落粒度上確定的與主題詞相關(guān)的情感詞進行情感傾向性分析;其中獲取粗粒度的情感傾向性的步驟包括基于在段落粒度或者文檔粒度上確定的與主題詞相關(guān)的情感詞進行情感傾向性分析。
2.一種用于分析對研究對象的情感傾向性的裝置(20),包括-粗粒度情感傾向性獲取器(310),其獲取粗粒度的情感傾向性;-細粒度情感傾向性獲取器(320),其獲取細粒度的情感傾向性;以及-情感傾向性結(jié)合器(330),其將粗粒度的情感傾向性和細粒度的情感傾向性結(jié)合,獲取對該研究對象的情感傾向性;其中細粒度情感傾向性獲取器(320)基于在句子粒度或者段落粒度上確定的與主題詞相關(guān)的情感詞進行情感傾向性分析;其中粗粒度情感傾向性獲取器(310)基于在段落粒度或者文檔粒度上確定的與主題詞相關(guān)的情感詞進行情感傾向性分析。
3.根據(jù)權(quán)利要求2所述的裝置(20),其中細粒度情感傾向性獲取器(320)包括細粒度情感傾向性確定器(3203),其用于根據(jù)與同一主題詞相關(guān)的情感詞中的褒義詞與貶義詞的個數(shù)來確定對該主題詞的細粒度的情感傾向性。
4.根據(jù)權(quán)利要求3所述的裝置(20),其中細粒度情感傾向性確定器(320 進一步根據(jù)所述褒義詞與貶義詞的個數(shù)的比值來確定對該主題詞的細粒度的情感傾向性。
5.根據(jù)權(quán)利要求3所述的裝置(20),其中細粒度情感傾向性確定器(320 進一步根據(jù)所述褒義詞與貶義詞的分值的平均數(shù)來確定對該主題詞的細粒度的情感傾向性。
6.根據(jù)權(quán)利要求2所述的裝置(20),其中所述主題詞包括下級主題詞,與所述主題詞相關(guān)的情感詞包括與下級主題詞相關(guān)的情感詞。
7.根據(jù)權(quán)利要求2所述的裝置(20),其中與主題詞相關(guān)包括與主題詞在空間上相關(guān)、 和/或在語義上相關(guān)和/或在邏輯上相關(guān)。
8.根據(jù)權(quán)利要求2所述的裝置(20),其中情感傾向性結(jié)合器(330)將粗粒度的情感傾向性和細粒度的情感傾向性進行加權(quán)組合。
9.根據(jù)權(quán)利要求2所述的裝置(20),其中情感傾向性結(jié)合器(330)將文檔粒度的情感傾向性作為初始傾向性,當文檔粒度的情感傾向性不是中性時,利用細粒度的情感傾向性來修正文檔粒度的情感傾向性。
全文摘要
本發(fā)明公開了一種用于分析對研究對象的情感傾向性的方法和裝置。所述方法包括獲取粗粒度的情感傾向性;獲取細粒度的情感傾向性;以及將粗粒度的情感傾向性和細粒度的情感傾向性結(jié)合,獲取對該研究對象的情感傾向性;其中獲取細粒度的情感傾向性的步驟包括基于在句子粒度或者段落粒度上確定的與主題詞相關(guān)的情感詞進行情感傾向性分析;其中獲取粗粒度的情感傾向性的步驟包括基于在段落粒度或者文檔粒度上確定的與主題詞相關(guān)的情感詞進行情感傾向性分析。
文檔編號G06F17/27GK102236636SQ20101015778
公開日2011年11月9日 申請日期2010年4月26日 優(yōu)先權(quán)日2010年4月26日
發(fā)明者于浩, 夏迎炬, 孟遙, 張姝, 賈文杰 申請人:富士通株式會社
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
大港区| 崇仁县| 兴文县| 旬阳县| 明水县| 岳阳市| 汤阴县| 六枝特区| 江源县| 新乡市| 乌拉特前旗| 万全县| 苏尼特左旗| 汝南县| 泸定县| 项城市| 民勤县| 都匀市| 乡城县| 尉犁县| 彰化市| 堆龙德庆县| 平安县| 长白| 花莲市| 中西区| 晋宁县| 日照市| 蒙阴县| 诸城市| 鲁山县| 连平县| 黎城县| 金寨县| 武汉市| 中西区| 时尚| 山阴县| 靖江市| 新建县| 瑞金市|