專利名稱:將詞典知識合并入svm學(xué)習(xí)以改進情感分類的制作方法
技術(shù)領(lǐng)域:
本申請目的在于自動的分類,并且更特別地目的在于自動的情感分類,其中情感分類被理解為是特定類型的文本分類,其用作分類信息(諸如以文本的形式)的意見或情感,當(dāng)其涉及特定的論題或主題時。
背景技術(shù):
兩種典型的用于情感分析的方法是詞典查找和機器學(xué)習(xí)。詞典查找方法通常從正面的和負面的單詞的詞典開始。例如,“漂亮的”被確認為正面的單詞并且“丑陋的”被確認為負面的單詞。文本的總的情感由一組單詞的情感和在所述文本中出現(xiàn)的表達確定。綜合性的情感詞典可以提供簡單然而有效的用于情感分析的解決方案,因為其是普通的并且不需要預(yù)先的訓(xùn)練。因此,已經(jīng)花費關(guān)注和努力用于構(gòu)建這樣的詞典。然而,對 該方法的重大的挑戰(zhàn)是許多單詞的極性依賴于領(lǐng)域和上下文。例如,“長”在“長的電池壽命”中是正面的并且在“長的快門遲滯”中是負面的。當(dāng)前的情感詞典不捕獲情感表達的這樣的領(lǐng)域和上下文敏感性。它們排除這樣的領(lǐng)域和上下文依賴的情感表達或者基于從某個語料庫(corpus)(諸如通過因特網(wǎng)而被訪問的萬維網(wǎng))收集的統(tǒng)計資料而用總的極性趨勢標記它們。雖然排除這樣的表達導(dǎo)致差的覆蓋范圍,用極性趨勢簡單地標記它們導(dǎo)致差的精度。由于這些限制,機器學(xué)習(xí)方法已經(jīng)正在情感分析的領(lǐng)域中得到日益增加的普及。諸如使用支持向量機(SVM)的那些機器學(xué)習(xí)方法不依靠情感詞典以確定單詞和表達的極性,并且可以自動地學(xué)習(xí)一些在訓(xùn)練數(shù)據(jù)中示出的上下文相關(guān)性。例如,如果“長的電池壽命”和“長的快門遲滯”在所述訓(xùn)練數(shù)據(jù)中分別被標記為正面的和負面的,學(xué)習(xí)算法可以學(xué)會當(dāng)其與短語“電池壽命”相關(guān)聯(lián)時“長”是正面的,而當(dāng)與短語‘快門遲滯’相關(guān)聯(lián)時其是負面的。然而,這樣的方法的成功嚴重地依賴所述訓(xùn)練數(shù)據(jù)。對于情感分析的任務(wù),由于自然語言的豐富,數(shù)據(jù)不足是不能被容易地解決的固有問題。特別地,人們傾向于使用不同的表達來表示相同的情感,并且也傾向于在相同的句子或文件中不重復(fù)他們的情感。因此,收集足夠表示人們?nèi)绾螌τ诟鞣N主題表達情感的訓(xùn)練數(shù)據(jù)是非常困難的。與一些其它文本分類任務(wù)相比,該數(shù)據(jù)不足問題已經(jīng)導(dǎo)致了對情感分類的相對低的準確度。因此,盡管最近的研究已經(jīng)顯示對于情感分析的任務(wù),機器學(xué)習(xí)方法通常優(yōu)于所述詞典查找方法,忽視由情感詞典提供的優(yōu)勢和知識可能不是最優(yōu)的。然而,少數(shù)研究已經(jīng)致力于將這兩種方法相結(jié)合以改進情感分類。一些已經(jīng)探索使用通用情感詞典以改進短語的上下文極性的識別。一些其它最近的研究已顯示將通用情感詞典合并到機器學(xué)習(xí)算法中可以改進在文件級別上的情感分類的準確度。在所有這些工作中,通用情感詞典包含具有獨立于上下文/領(lǐng)域的極性的單詞。本情感分類器系統(tǒng)和方法不同于這些以前的方法。
發(fā)明內(nèi)容
用于內(nèi)容的情感分類的情感分類器。方面分類器被配置為將內(nèi)容分類為與信息的特定方面相關(guān),所述方面分類器合并所述領(lǐng)域特定情感詞典的至少一部分。極性分類器隨后被配置為將由所述方面分類器分類的內(nèi)容分類為具有下列之一信息的特定方面的正面的情感、信息的特定方面的負面的情感,或者將其分類為不具有關(guān)于信息的特定方面的情感。所述極性分類器也合并所述領(lǐng)域特定情感詞典的至少一部分。
圖I示出了具有兩個子詞典的名稱詞典,包括主題子詞典和情感子詞典;圖2示出了根據(jù)本申請的呈現(xiàn)語料庫過濾的方法的流程圖;圖3示出了顯示用于使用語言模式進行網(wǎng)絡(luò)(web)搜索和過濾的處理的流程圖;
圖4是顯示由圖3的方法識別的一些噪聲單詞的圖;圖5是示出了將極性提供給領(lǐng)域特定詞典的單詞和/或短語的方法的流程圖;圖6提供了示出具有方面分類器和極性分類器的情感分類器的框圖;圖7是描繪了圖6的所述情感分類器的操作的流程圖;圖8是顯示了屬于類的點之間的距離的例圖;圖9描繪了在領(lǐng)域特定詞典的創(chuàng)建的過程期間本申請的系統(tǒng);圖10描繪了在當(dāng)所述情感分類器正在被訓(xùn)練時的過程期間的本系統(tǒng)的結(jié)構(gòu);以及圖11描繪了當(dāng)所述情感分類器正在工作時本系統(tǒng)的結(jié)構(gòu)。
具體實施例方式情感分類系統(tǒng)和方法被公開,其將情感詞典作為先驗知識與機器學(xué)習(xí)方法(諸如支持向量機(SVM))結(jié)合以改進情感分析的準確度。所描述的系統(tǒng)和方法為該學(xué)習(xí)目的產(chǎn)生領(lǐng)域特定情感詞典。所采取的實現(xiàn)上面的概念的實驗的結(jié)果顯示與通用的領(lǐng)域獨立的情感詞典相比,被結(jié)合進機器學(xué)習(xí)方法中的領(lǐng)域特定詞典導(dǎo)致在所述情感分類過程中的更顯著的準確度改進。此處所描述的情感分類系統(tǒng)(在此處也被稱為情感分類器或二級情感分類器)和方法提供了信息的方面的精細粒度的情感分析。注意到的是在本公開中,信息的方面(在此處也被稱為信息方面)是普通術(shù)語,其在其它使用中包括產(chǎn)品的方面(例如,產(chǎn)品方面一諸如照相機的方面),主題(例如,主題方面一諸如天氣),等等。以包含單詞和/或短語的文本(即,內(nèi)容)的形式提供所述信
肩、O在下文中,為了解釋的目的,所述情感分類任務(wù)主要針對分類照相機評論。S卩,對于照相機評論中的每個句子,所公開的情感分類器被配置為預(yù)測在研究中的句子是否討論任何照相機方面(例如,所述照相機的電池壽命;由照相機拍攝的圖片的質(zhì)量,等等),并且如果該句子討論被考慮的照相機方面,則所述情感分類器識別相關(guān)聯(lián)的情感(例如,是意見正面的或負面的)。此處所描述的實驗結(jié)果顯示通過結(jié)合由本方法產(chǎn)生的領(lǐng)域特定情感詞典,所述情感分類任務(wù)的準確度被顯著地改進。
如所討論的,僅少數(shù)研究已致力于合并詞典查找和機器學(xué)習(xí)方法以改進情感分類。不像之前的工作(在其中僅通用情感詞典被使用),本情感分類器不僅將通用情感詞典而且將領(lǐng)域特定情感詞典結(jié)合到所述學(xué)習(xí)機(例如,SVM學(xué)習(xí))中,以改進情感分類的準確度。所述領(lǐng)域特定情感詞典包括指示各種主題或領(lǐng)域的詞典以及由具有與特定的主題或領(lǐng)域相關(guān)聯(lián)的極性的單詞或短語組成的詞典。例如,在被進行的實驗中,關(guān)于“電池壽命”建立領(lǐng)域特定詞典,其包括諸如“電池”的單詞的第一詞典和諸如“快速地負面的”和“長的正面的”的單詞或短語的第二詞典。所述第一詞典由對“照相機電池壽命”的主題而言是好的指示符的單詞或短語組成,而所述第二詞典由具有對“電池壽命”的主題而言的特定的極性的單詞或短語組成。例如,“快速地”和“長的”可能在不同的領(lǐng)域中不攜帶負面的和正面的情感。如果所述領(lǐng)域是不同的,則它們也可以攜帶相反的情感。更重要地,所述實驗結(jié)果顯示雖然通用情感詞典僅提供了較小的準確度改進,結(jié)合領(lǐng)域特定詞典(字典)導(dǎo)致了對所述情感分類任務(wù)的更顯著的改進。第二,所述之前的工作探索了結(jié)合詞典知識以改進在文件級別的情感分類(即,將整個文件分類為是正面的或者負面的)的優(yōu)勢。與這些工作相比,本情感分類器是精細粒度的。特別地,情感分類在句子級別被執(zhí)行,并且對于每個句子,所述情感分類器不僅預(yù)測句子是否是正面的、負面的或者客觀的,而且其也預(yù)測與該情感相關(guān)聯(lián)的主要主題。所述實驗表明由發(fā)明者建立的領(lǐng)域特定詞典(字典)導(dǎo)致對這些任務(wù)的兩者的改進。關(guān)于情感詞典的構(gòu)建,之前的研究已集中在產(chǎn)生通用字典。這些方法范圍從手動的方法到半自動化的和自動化的方法。在本公開中,使用下列的結(jié)合建立所述領(lǐng)域特定情感詞典(i)語料庫過濾,(ii)使用語言模式的網(wǎng)絡(luò)搜索和(iii)字典擴展技術(shù)。下面詳細地描述了該構(gòu)建。 I.產(chǎn)生領(lǐng)域特定詞典下面使用數(shù)字照相機的主題作為其例子描述了產(chǎn)生領(lǐng)域特定詞典的方法。然而,將被理解的是該方法也適用于其它的領(lǐng)域并且所述照相機的主題僅僅作為方便的例子而被提供。如上面所討論的,許多單詞或短語的情感是依賴于上下文或領(lǐng)域的。例如,如果其與“電池壽命”的照相機方面相關(guān)聯(lián),則“長的”是正面的。然而,當(dāng)其與“快門遲滯”的照相機方面相關(guān)聯(lián)時,相同的單詞攜載負面的情感。因此,當(dāng)試圖確定所述相關(guān)聯(lián)的情感時,知道正被討論的主題/領(lǐng)域是至關(guān)重要的?;谠撚^察,領(lǐng)域/主題特定詞典被建立,覆蓋指示特定領(lǐng)域的表達和指示與該特定領(lǐng)域相關(guān)聯(lián)的不同的情感的表達兩者。例如,如在圖I中所顯示的,關(guān)于領(lǐng)域/主題“照相機圖片質(zhì)量”100的詞典由兩個子詞典組成。第一子詞典102包括在數(shù)字照相機的領(lǐng)域中對“圖片質(zhì)量”的領(lǐng)域/主題而言是好的指示符的單詞和/或短語,諸如圖片、圖像、照片、關(guān)閉等等。如果所述相關(guān)聯(lián)的領(lǐng)域/主題是照相機圖片質(zhì)量100,則另一個子詞典104包括攜載正面的或負面的情感的單詞和/或短語。例如,該第二子詞典104會指示當(dāng)它們與圖片的質(zhì)量相關(guān)聯(lián)(即,領(lǐng)域/主題照相機圖片質(zhì)量100)時,雖然“銳利的”和“清晰的”是正面的,“模糊的”是負面的。通過使用所述的下列的組合,該目標被實現(xiàn)(i)語料庫過濾,(ii)用語言模式的網(wǎng)絡(luò)搜索和(iii)字典擴展。在下面的小節(jié)中詳細地描述了這些技術(shù)中的每個。語料庫過濾語料庫過濾方法200在圖2中被示出。最初,帶注釋的訓(xùn)練語料庫被提供(202)。如果針對所關(guān)心的領(lǐng)域/主題訓(xùn)練語料庫不存在,則將需要以本領(lǐng)域已知的方式構(gòu)建一個。例如,在考慮照相機評論時,通過注釋每個評論(其是所述訓(xùn)練語料庫的一部分)而構(gòu)建訓(xùn)練語料庫。更特別地,用照相機方面以及在該句子中被表達的相關(guān)聯(lián)的情感注釋要被包括在所述訓(xùn)練語料庫中的每個包括的照相機評論的每個句子。一旦被構(gòu)造(或者如果合適的訓(xùn)練語料庫已經(jīng)存在),其直接使用該資源以建立用于領(lǐng)域特定詞典的構(gòu)建的基礎(chǔ)。接著,對于每個信息方面(例如,諸如“耐久性”、‘圖片質(zhì)量’等等的照相機方面),在被標記為表達該方面的訓(xùn)練句子中存在的所有內(nèi)容單詞和/或短語被提取(204)。被提取的所述內(nèi)容單詞和/或短語包括名詞、動詞、形容詞、副詞以及它們的否定形式。根據(jù)該提取的內(nèi)容,針對每個信息方面的初始的詞典列表被形成(206)。
隨后,對于在針對所述照相機方面的每個的所述列表中的每個單詞和/或短語,檢查被進行以查看該單詞或短語是否也存在在任何其它的照相機方面的詞典列表中(208)。如果是,則從所述詞典去除該單詞和/或短語(210)。如果該單詞和/或短語不在任何其它列表上,則該單詞和/或短語被保持在所述列表上(212)。這些步驟被重復(fù)直到?jīng)]有額外的單詞和/或短語被留下(214)。在該過濾的步驟之后,對于每個照相機方面獲得詞典的列表,其在所述訓(xùn)練語料庫中僅包含對該照相機方面而言是唯一的單詞和/或短語(216)。使用該方法產(chǎn)生的詞典的質(zhì)量通常是非常高的。例如,基于具有覆蓋23類(即,22個照相機方面和“無”的類,意思是所述22個照相機方面中一個也沒有被討論)的2131句子的相對小的訓(xùn)練語料庫產(chǎn)生下面的關(guān)于照相機方面“耐久性”的詞典。耐久性詞典[刮痕、構(gòu)造、建造、搖動(rock)、修理、損害、易壞的、不易壞的、垃圾(junk)、堅固的、較堅固的、堅硬的、耐用的、堅韌的、彎曲的、牢固的、不值得的、穩(wěn)固的、廢料(rug)、破產(chǎn)的(broke)、防彈的]然而,該方法的缺點是所述詞典的覆蓋范圍將完全地依靠所述語料庫的覆蓋范圍,并且注釋寬的覆蓋范圍的訓(xùn)練語料庫是費時的、昂貴的并且有時由于自然語言的豐富而對諸如情感分析的任務(wù)而言是非常困難的。通過經(jīng)由網(wǎng)絡(luò)搜索和使用語言模式的過濾以及字典擴展而擴增從所述訓(xùn)練語料庫獲得的所述初始的領(lǐng)域特定詞典,該缺點被克服。在接著的兩個小節(jié)中示出了這兩個方法。1.2使用語言模式的網(wǎng)絡(luò)搜索和過濾轉(zhuǎn)向圖3,流程圖300被顯示,用于使用語言模式的網(wǎng)絡(luò)搜索和過濾以改進從所述訓(xùn)練語料庫獲得的所述領(lǐng)域特定詞典的覆蓋范圍。最初,語言模式被設(shè)計(在該例子中,兩個這樣的語言模式被設(shè)計)并且被用作搜索查詢以發(fā)現(xiàn)概念上與所關(guān)心的信息方面相關(guān)聯(lián)的更多的單詞和短語(例如,所述照相機方面)(302)。在所述照相機評論例子中使用的兩個語言模式是模式I : ‘照相機方面包括模式2 :照相機方面+ ‘種子單詞和*’
在這兩個模式中,“照相機方面”指諸如“照相機附件”和“照相機價格”的表達?!胺N子單詞”指用于特定的照相機方面的種子單詞。例如,“便宜的”和“昂貴的”可以用作用于照相機方面價格的種子單詞。注意在模式I中,所述照相機方面名稱被包括作為精確的搜索查詢的一部分,而在模式2中,所述照相機方面名稱用作用于所述搜索查詢的上下文。取決于所述信息方面的語義特性,選擇特定的模式(例如,在所述照相機方面的例子中,所述兩個模式中的一個被選擇以發(fā)現(xiàn)概念上與該方面相關(guān)的表達(304)。例如,雖然‘照相機附件包括*’對于發(fā)現(xiàn)附件表達是非常有效的,‘照相機圖片+ ‘清晰的和*’ ’對于發(fā)現(xiàn)與照相機圖片相關(guān)的表達是更好的。所述選擇的語言模式被提供給搜索引擎,所述搜索引擎將所述模式作為查詢發(fā)送到因特網(wǎng),導(dǎo)致搜索結(jié)果被返回(306)。例如,當(dāng)模式I被使用時,其作為查詢被發(fā)送到搜索引擎。在該實驗集中,搜索引擎Bing(來自微軟公司)被使用,盡管將被理解的是其它的搜索引擎也可以被使用(例如,Google、Yahoo、等等)。接著,從所述返回的搜索結(jié)果提取 相關(guān)的單詞(308)。例如,當(dāng)模式I被使用時,提取由所述搜索引擎返回的前50個結(jié)果中在“包括(include) ”或“包括(includes)”之后的單詞或短語。在每個返回的結(jié)果中,跟隨在“包括(include) ”或“包括(includes) ”之后的單詞被提取直到“包括(include) ”或“包括(includes)”之后的第一句子邊界被到達。接下來的步驟是從所述提取的單詞中去除諸如“該(the)”(除了別的以外)的普通非用詞(stop words)和諸如“具有(with)”和“的(of) ” (除了別的以外)的功能單詞(310)。最后,所剩余的單詞被添加到由圖2的過程形成的所述合適的領(lǐng)域特定詞典的列表中(312)。使用該方法,隨后的用于照相機附件的詞典在所述照相機例子中被產(chǎn)生。附件詞典[芯片、多個芯片、殼、袋、卡片、軟件、三腳架、條帶、電纜、適配(adapt)、充電器、端口、存儲器、罩、連接器、工具(kit)、附件、手套、帶子、上邊帶、麥克風(fēng)(mic)、束帶圈(beltloop)、閃存、程序、皮革、包裝、連接、非帶子、非條帶、拉鏈]作為進一步的例子,當(dāng)模式2被使用時,前50個返回的結(jié)果中的單詞被提取。然而,不同的算法被用于濾出這些返回的結(jié)果中的噪聲。例如,為了發(fā)現(xiàn)概念上與照相機的圖片質(zhì)量相關(guān)的表達,“照相機圖片”被用作上下文單詞并且“清晰的”被用作種子單詞。該模式將匹配“清晰的和銳利的”和“清晰的和正常的”兩者。然而,雖然“銳利的”通常被用于描述圖片質(zhì)量,“正常的”不是。為了過濾諸如“正常的”的噪聲單詞,候選單詞的每個被用作模式2中的新的種子單詞,并且如果由所述新的查詢返回的前50個結(jié)果包括原始的種子單詞“清晰的”,則所述候選單詞被保留。否則,其被丟棄。例如,在所述實驗中,雖然‘照相機圖片+ ‘銳利的和*’ ’將返回匹配“銳利的和清晰的”的結(jié)果,‘照相機圖片+ “正常的和
將不會返回匹配“正常的和清晰的”的結(jié)果。通過該方法,“銳利的”可以區(qū)別于“正常的”,并且“正常的”被識別為噪聲單詞。圖4顯示了當(dāng)概念上與照相機圖片相關(guān)的表達在所述的實驗期間被提取時一些由該方法識別的噪聲單詞(400)。在該圖中,由空的圓形表示的單詞被識別為噪聲并且從所述照相機圖片質(zhì)量詞典中被去除。相反,由實心圓形表示的單詞被保留在所述詞典中。在一個實施例中,當(dāng)使用模式2時,被用于構(gòu)建領(lǐng)域特定詞典的算法被如下識別算法I :FindingRelatedWords,其依次使用被識別為如下的算法算法2 HarvestByBing和算法 3 :isReversible。
使用該方法,通過使用模式2作為具有兩個種子單詞“清晰的”和“模糊的”的搜索查詢而建立下面的用于照相機圖片質(zhì)量的詞典。圖片質(zhì)量詞典[清晰的、銳利的、顏色、明亮的、京瓷(Kyocera)、響應(yīng)、適度的(sober)、穩(wěn)定的、整齊的、鮮艷的、分解、細節(jié)、紋理、安全的、流動的、黑暗的、陽光充足的、暗淡的、清新的(crisp)、焦點、圖案、曲線、藍色、潮濕的、不清楚的(fuzzy)、橙色、黃色、灰色、模糊的、模糊、青色、不清楚的(indistinct)、粒狀的、霧濁的、模糊的(blurred)]
Algorithm: FindingRelatedWords
Input: seedworcl. contextword, depth Output: relateclwordset unprocessed. = fseedword]; relateclwords = [seed.word]; foreach Depth in [l...i¥] do tempset =[];
foreach word in unprocessed do
newwords = HarvestBy Bi ng(word,
contextword);
foreach newworti in newwords do if isReversahleiword, newword,
contextwo rd) then
Add newword to tempset;
foreach newwmri in tempset doI Add newword to related words
unprocessed = tempset; return relateclwords算法I :FindingRelatedWords
AlgorithiB HarvestBy.Bing Input: word,contextword Output: newwords
LPattern = contextword + “wo.rd and ; newwords = words matchig # in fexts of top 50 results returned from Bing using LPattern as a query;
return newwords算法2 HarvestByBing
Algorithm: isReversable Input; word, newword, contextword Output: True or False newwords = Harves tThrougIiBing(new word, contextword);
if word in newwords then I return True
else 丨 return False算法3 :isReversible
I. 3字典擴展盡管在建立通用情感詞典時通過查找被記錄在字典中的同義詞和反義詞的擴展是通常使用的方法,該方法被發(fā)現(xiàn)不總是適合于建立領(lǐng)域特定詞典。原因在于建立領(lǐng)域特定詞典要求發(fā)現(xiàn)概念上相關(guān)的表達;然而,概念上相關(guān)的表達不必要是同義詞或反義詞。例如,“銳利的”和“清晰的”概念上與照相機圖片質(zhì)量相關(guān),但是它們不是從語言觀點上看的真正的同義詞。然而,有時,使用字典仍然可以是非常有效的。例如,使用模式2通過網(wǎng)絡(luò)搜索和過濾建立下面的用于照相機價格的詞典。價格詞典[便宜的、最低的、折扣、廣告的(promo)、票證(coupon)、促銷(promote)、昂貴的、有價值的、價值]通過包括如在下面所顯示的在WordNet (Fellbaum,1998)中的“便宜的”和“昂貴的”的同義詞,進一步擴展所述價格詞典是可能的。WordNet中的“昂貴的”的同義詞[昂貴的、大價(big-ticket)、高價(high-ticket)、貴重的、高價的(high-priced)、價格高的、昂貴的(pricy)、昂貴的(dearly-won)、費用大的(costly)、定價過高的]Wordnet中的“便宜的”的同義詞[便宜的、不昂貴的、廉價的、減價的、削價、不值錢的、非常便宜的、低預(yù)算的、低成本的、低價的、買得起的、便宜的(dime)、花費極少的(penny)、便宜的(halfpenny)]I. 4領(lǐng)域特定極性詞典到現(xiàn)在為止已經(jīng)公開了領(lǐng)域特定詞典的結(jié)構(gòu),例如,已經(jīng)描述了如何已為不同的照相機方面建立領(lǐng)域特定詞典。接下來的步驟是在每個領(lǐng)域詞典中將攜載正面的情感的表達從那些攜載負面的情感的表達分離。例如,能夠建立下面的用于“圖片質(zhì)量”的子詞典是所期望的。圖片質(zhì)量正面的詞典[清晰的、銳利的、明亮的、適度的、穩(wěn)定的、整齊的、鮮艷的、陽光充足的、清新的]圖片質(zhì)量負面的詞典[黑暗的、暗淡的、潮濕的、不清楚的(fuzzy)、灰色的、模糊的、模糊、不清楚的(indistinct)、粒狀的、霧池的、模糊的(blurred)]轉(zhuǎn)向圖5,描述向如上面所描述的領(lǐng)域特定詞典中的單詞和/或短語提供極性的方法的流程圖500被示出(502)。對于通過語料庫過濾、網(wǎng)絡(luò)搜索和字典擴展的組合而被構(gòu)建的所述產(chǎn)生的詞典(例如,所述圖片質(zhì)量詞典)中的每個表達(例如,單詞或短語),檢查被進行以查看正被檢查的單詞或短語是否僅出現(xiàn)在被標記為表達正面的意見或負面的意見(例如,關(guān)于所述照相機的圖片質(zhì)量)的所述訓(xùn)練數(shù)據(jù)中(504)。如果其是正面的意見,則該表達被包括到所述圖片質(zhì)量正面的詞典中(506),而如果其是負面的意見,則該表達被包括到所述圖片質(zhì)量負面的詞典中(508)。已經(jīng)示出了用于構(gòu)建領(lǐng)域特定情感詞典的本方法,接著描述如何將詞典知識結(jié)合到SVM學(xué)習(xí)中以改進情感分類。2.將詞典知識結(jié)合到SVM學(xué)習(xí)中以改進情感分類 已經(jīng)產(chǎn)生了包含正面的領(lǐng)域特定子詞典和負面的領(lǐng)域特定子詞典的領(lǐng)域特定詞典,本公開現(xiàn)在描述將所述領(lǐng)域特定詞典中的單詞和表達結(jié)合到機器學(xué)習(xí)系統(tǒng)中以便執(zhí)行如下的情感分類任務(wù)。對于關(guān)于照相機的每個評論句子,所述情感分類器需要預(yù)測在該句子中討論的照相機方面以及關(guān)于該照相機方面的相關(guān)聯(lián)的情感兩者。例如,對于下面的評論句子(I)其使用兩個⑵電池并且所述電池比我的使用四個⑷電池維持的上一個照相機持續(xù)更長。所述情感分類器將識別該句子表達關(guān)于所述照相機的電池壽命的正面的意見。通過采用如在圖6中所示的兩步情感分類器600 (具有方面分類器602和極性分類器604)以執(zhí)行兩步分類,該目標被實現(xiàn)。在步驟I,情感分類器600的方面分類器602被訓(xùn)練以預(yù)測正被討論的方面(例如,所述照相機方面)。在步驟2,情感分類器600的極性分類器604被訓(xùn)練以預(yù)測與該方面相關(guān)聯(lián)的情感。最后,在集合器606中將所述兩步預(yù)測結(jié)果集合在一起以產(chǎn)生最后的預(yù)測。在該兩步中,所述詞典知識被結(jié)合到常規(guī)的機器學(xué)習(xí)系統(tǒng)(例如,SVM學(xué)習(xí))中。為了示出該方法,下面的句子(2)被用作與圖7的流程圖700相結(jié)合的例子,其中句子(2)被呈現(xiàn)到所述SVM (702)。(2)外殼是堅硬的因此其給所述照相機額外的好的保護。在常規(guī)的SVM學(xué)習(xí)中使用名詞、動詞、形容詞和副詞作為特征單詞,該句子被表示為下面的單詞矢量(704)。[外殼、堅硬的、給、照相機、額外的、好的、保護]所述產(chǎn)生的詞典被結(jié)合到所述SVM中(706)。通過該結(jié)合在所述詞典中被編碼的知識,附加的特征被自動地產(chǎn)生并且被插入到上面的表示中。例如,當(dāng)執(zhí)行步驟I方面分類時(708),由于上面的表示中的特征單詞“外殼”被列在關(guān)于照相機附件的領(lǐng)域特定詞典中,附加的特征單詞“附件”被插入,并且下面的新的表
示被產(chǎn)生。[外殼、堅硬的、給、照相機、額外的、好的、保護、附件]。通過這樣做,如果所述句子中存在照相機附件的表達則所述照相機方面是“附件”的可能性被提升。
在極性預(yù)測的下一步(710)中,從多視角問題回答(MPQA)意見語料庫(例如,參見Wiebe等人,2005)提取的領(lǐng)域特定情感詞典和通用的獨立于領(lǐng)域的情感詞典兩者被結(jié)合。僅提取被指示為來自所述MPQA意見語料庫的脫離上下文的強主觀的單詞。例如,因為“好的”被指示為所述MPQA詞典中的正面的單詞,特征單詞“正面的”將被插入。此外,如果用于句子(2)的所述第一步預(yù)測結(jié)果是“附件”,并且“堅硬的”在關(guān)于照相機附件的領(lǐng)域特定詞典中也是正面的單詞,則額外的特征單詞“正面的”將在如在下面所示的針對所述第二步極性預(yù)測的用于句子(2)的最后的表示中被產(chǎn)生。[外殼、堅硬的、給、照相機、額外的、好的、保護、正面的、正面的]。因此,關(guān)于“附件”的方面,“正面的”預(yù)測被提升(例如,因此當(dāng)附加的單詞被識別為正面的單詞時,對應(yīng)的附加的額外的特征“正面的”將被加在所述最后的表示中。所述實驗顯示將詞典知識結(jié)合到SVM學(xué)習(xí)中顯著地改進了所述分類任務(wù)的準確度;與通用MPQA情感詞典相比,所述構(gòu)建的領(lǐng)域特定詞典是更有效的。在接下來的小節(jié)中,實驗設(shè)置和結(jié)果被報告。3.實驗設(shè)置和結(jié)果在所述實驗中執(zhí)行的情感分析任務(wù)是組合的45-方式(45-way)的情感分類任務(wù)。這45個類源自與照相機購買相關(guān)的22個方面(諸如,“圖片質(zhì)量”、“IXD屏幕”、“電池壽命”和“客戶支持”)和它們的相關(guān)聯(lián)的極性值“正面的”和“負面的”,以及關(guān)于任何所述22個方面的無意見的類。這樣的類的例子是“圖片質(zhì)量正面的”。目標是將每個輸入句子映射到所述45個類中的一個。如在前面的小節(jié)中所述的,對所述任務(wù)執(zhí)行兩步分類。即,最后的組合的分類器由兩個分類器組成。第一個是方面分類器,其執(zhí)行23-方式的照相機方面分類。第二個是極性分類器,其執(zhí)行3-方式(正面的、負面的和無)的分類。根據(jù)這兩個分類器產(chǎn)生的預(yù)測集合最后的預(yù)測。所述分類準確度被定義如下。
權(quán)利要求
1.一種用于內(nèi)容的情感分類的情感分類器,包括 方面分類器,所述方面分類器被配置為將內(nèi)容分類為與信息的特定方面相關(guān),所述方面分類器結(jié)合領(lǐng)域特定情感詞典的至少一部分;以及 極性分類器,所述極性分類器被配置為將由所述方面分類器分類的所述內(nèi)容分類為具有下列之一信息的所述特定方面的正面的情感、信息的所述特定方面的負面的情感,或者將由所述方面分類器分類的所述內(nèi)容分類為不具有信息的所述特定方面的情感,所述極性分類器結(jié)合所述領(lǐng)域特定情感詞典的至少一部分。
2.如權(quán)利要求I所述的情感分類器,其中所述方面分類器進一步結(jié)合通用情感詞典。
3.如權(quán)利要求I所述的情感分類器,其中所述極性分類器進一步結(jié)合通用情感詞典。
4.如權(quán)利要求I所述的情感分類器,所述情感分類器被實現(xiàn)為支持向量機。
5.如權(quán)利要求I所述的情感分類器,其中所述內(nèi)容是以句子的形式被配置的文本,所述句子具有單詞和/或短語。
6.如權(quán)利要求5所述的情感分類器,進一步被配置為在所述句子級別將所述內(nèi)容分類為關(guān)于信息的所述特定方面是正面的、負面的或者不具有情感。
7.如權(quán)利要求6所述的情感分類器,進一步被配置為在所述句子級別預(yù)測與所述情感相關(guān)聯(lián)的主要主題。
8.如權(quán)利要求I所述的情感分類器,其中所述領(lǐng)域特定情感詞典由下列配置(i)來自已被過濾的注釋的語料庫的領(lǐng)域特定單詞和/或短語,( )通過使用預(yù)定的語言模式搜索萬維網(wǎng)并過濾所返回的搜索結(jié)果而獲得的領(lǐng)域特定單詞和/或短語,以及(iii)通過字典擴展技術(shù)而獲得的領(lǐng)域特定單詞和/或短語。
9.如權(quán)利要求8所述的情感分類器,其中所述領(lǐng)域特定詞典包括將所述領(lǐng)域特定單詞和/或短語分類為與信息的所述方面中的一個相關(guān)聯(lián)的子詞典,和將情感關(guān)聯(lián)到信息的所述分類的一個方面的另一子詞典。
10.一種執(zhí)行內(nèi)容的情感分類的方法,包括 通過方面分類器將內(nèi)容分類為與信息的特定方面相關(guān),其中所述方面分類器結(jié)合領(lǐng)域特定情感詞典的至少一部分;以及 通過使用極性分類器將由所述方面分類器分類的所述內(nèi)容分類為具有下列之一信息的所述特定方面的正面的情感、信息的所述特定方面的負面的情感,或者將由所述方面分類器分類的所述內(nèi)容分類為不具有信息的所述特定方面的情感,其中所述極性分類器結(jié)合所述領(lǐng)域特定情感詞典的至少一部分。
11.如權(quán)利要求10所述的方法,其中所述方面分類器進一步結(jié)合通用情感詞典。
12.如權(quán)利要求10所述的方法,其中所述極性分類器進一步結(jié)合通用情感詞典。
13.如權(quán)利要求10所述的方法,其中所述方面分類器和所述極性分類器被集合在一起以形成被實現(xiàn)為支持向量機的情感分類器。
14.如權(quán)利要求10所述的方法,其中所述內(nèi)容是以句子的形式而被配置的文本,所述句子具有單詞和短語。
15.如權(quán)利要求14所述的方法,進一步包括在所述句子級別將所述內(nèi)容分類為是信息的所述特定方面的正面的情感、負面的情感或不具有信息的所述特定方面的情感。
16.如權(quán)利要求15所述的方法,進一步包括在所述句子級別預(yù)測與所述情感相關(guān)聯(lián)的主要主題。
17.如權(quán)利要求10所述的方法,其中所述領(lǐng)域特定情感詞典由下列配置(i)通過過濾注釋的語料庫獲得領(lǐng)域特定單詞和/或短語,( )通過使用預(yù)定語言模式經(jīng)由因特網(wǎng)搜索萬維網(wǎng)并且過濾返回的搜索結(jié)果而獲得領(lǐng)域特定單詞和/或短語,以及(iii)在通過(i)和(ii)獲得的領(lǐng)域特定單詞和/或短語上執(zhí)行字典擴展操作。
18.如權(quán)利要求17所述的方法,其中已從所述注釋的語料庫被過濾的單詞和/或短語已經(jīng)通過下列而被過濾 識別信息的方面; 從所述注釋的語料庫提取被標記為表達信息的所述識別的方面的句子中的單詞和/或短語; 從所述提取的單詞和/或短語形成對應(yīng)于信息的所述識別的方面的詞典的初始列表; 對照于針對信息的其它方面的詞典的其它初始列表,檢查來自針對信息的所述識別的方面的詞典的所述初始列表的單詞和/或短語; 過濾出匹配來自針對信息的其它方面的詞典的任何其它初始列表的單詞和/或短語的任何來自針對信息的所述方面的詞典的所述初始列表的單詞和/或短語;以及 針對信息的所述方面產(chǎn)生過濾的詞典的列表,表示領(lǐng)域特定詞典。
19.如權(quán)利要求17所述的方法,其中通過搜索萬維網(wǎng)或因特網(wǎng)而獲得的內(nèi)容通過下列而被獲得 產(chǎn)生對應(yīng)于選擇的信息的方面的語言模式; 選擇所述產(chǎn)生的語言模式中的一個; 通過搜索引擎將所述選擇的語言模式發(fā)送到萬維網(wǎng)或因特網(wǎng)以獲得基于所述選擇的語言模式的搜索結(jié)果; 從所述從所述搜索返回的結(jié)果提取單詞和/或短語; 通過下列之一過濾出噪聲單詞和/或短語(i)去除預(yù)定的非用單詞和/或短語或( )使用候選內(nèi)容(單詞)中的每個作為新的種子內(nèi)容(單詞)并且重新進行搜索,并且當(dāng)所述原始的種子內(nèi)容(單詞)被重新調(diào)整時保持所述內(nèi)容(單詞),否則過濾出所述內(nèi)容(單詞);以及 添加保留到所述領(lǐng)域特定詞典的單詞和/或短語。
20.如權(quán)利要求17所述的方法,其中所述字典擴展包括發(fā)現(xiàn)針對所述列表中的單詞和/或短語的同義詞和反義詞中的至少一個,并且將所述同義詞和反義詞中的至少一個添加到所述列表。
全文摘要
用于內(nèi)容的情感分類的情感分類器。方面分類器被配置為將內(nèi)容分類為與信息的特定方面相關(guān),所述方面分類器結(jié)合所述領(lǐng)域特定情感詞典的至少一部分。極性分類器隨后被配置為將由所述方面分類器分類的所述內(nèi)容分類為具有下列之一信息的所述特定方面的正面的情感、信息的所述特定方面的負面的情感,或者將由所述方面分類器分類的所述內(nèi)容分類為不具有關(guān)于信息的所述特定方面的情感。所述極性分類器也結(jié)合所述領(lǐng)域特定情感詞典的至少一部分。
文檔編號G06F17/30GK102760153SQ20121013000
公開日2012年10月31日 申請日期2012年4月20日 優(yōu)先權(quán)日2011年4月21日
發(fā)明者B·陳, J·方 申請人:帕洛阿爾托研究中心公司