專利名稱:評價信息抽取方法和設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)據(jù)挖掘領(lǐng)域,特別涉及用于抽取評價信息的方法與設(shè)備。
背景技術(shù):
隨著因特網(wǎng)的發(fā)展,越來越多的人已不再滿足簡單被動地接受互聯(lián)網(wǎng)信息,而是在網(wǎng)絡(luò)上發(fā)表自己的觀點、發(fā)布個性化信息。這些評論和看法通常會發(fā)布在購物網(wǎng)站、論壇、個人博客和微博等多種網(wǎng)絡(luò)媒介上。其中不乏用戶的產(chǎn)品評論和讀者對事件、政策看法等。通過觀點挖掘(Opinion Mining)技術(shù),分析和挖掘這些評論性文本內(nèi)容,可以幫助個人和機構(gòu)了解大眾對于產(chǎn)品、事件、政策等所持的普遍意見和態(tài)度,輔助決策,以便做出有針對性的優(yōu)化、引導、改善或補救等措施??梢?,觀點挖掘技術(shù)具有非常巨大的應(yīng)用價值。觀點挖掘主要是針對具有主觀性的文本(例如詞語、短語、句子、篇章等情感文本),自動獲取有用的評價信息和相關(guān)知識。觀點挖掘的主要目標是識別出文本中的評價信息,進而實現(xiàn)傾向性分析。目前主要有三種得到評價信息的方法。第一種方法是,基于同現(xiàn)模板的半自動的評價信息抽取方法。該方法定義評價信息為三元組(Subject,Attribute, Value),將評價信息的每個元素作為同現(xiàn)模板的槽值,通過同現(xiàn)模板從待分析的情感文本中匹配評價信息的三個元素。例如一個同現(xiàn)模板 <Attribute>of〈Sub ject>is〈Value>,待分析的情感文本為 “The picture of this camera is great. ”,對該句子使用同現(xiàn)模板進行匹配來抽取三元組,分別為〈this camera〉、〈the picture〉、〈great〉。該方法需要構(gòu)建Subject、Attribute以及Value三個詞典,為每個詞典手工挑選種子詞語進行初始化以及挑選了多個出現(xiàn)頻率較高的同現(xiàn)模板。首先,生成 Attribute和Value ;其次,通過人工篩選生成的Attribute和Value,將篩選過后的正確的 Attribute和Value放入到各自的詞典中。該方法存在的問題是,同現(xiàn)模板種類較為單一, 涵蓋面較窄,從而導致召回率低,選擇過程需要進行人工篩選。第二種方法是,基于搭配詞典的評價信息抽取方法。通過研究評價信息二元組 (觀點詞語,對象特征)來獲取評價信息。該方法首先需要建立三個詞典,第一個詞典是觀點詞語詞典,第二個詞典是通過手工搜集得到的對象特征詞典,第三個詞典是通過手工創(chuàng)建的鏈接說明詞典,其中,鏈接說明詞典主要是句法關(guān)系的描述。該方法通過使用觀點詞語詞典和對象特征詞典,在情感文本中標注其所含有的觀點詞語和對象特征,使用鏈接說明詞典,根據(jù)每一對觀點詞語和對象特征的句法關(guān)系來判斷他們是否是正確的搭配對,從而獲取評價信息。該方法存在的問題是,容易遺漏一些類型的句法關(guān)系,從而導致召回率低, 構(gòu)建詞典需要手工完成,并且詞典的可移植性差。第三種方法是,基于語法路徑詞典的評價信息抽取方法(參見申請?zhí)枮?200910082342. I、發(fā)明名稱為“獲取評價單元、建立句法路徑詞典的方法、裝置及系統(tǒng)”的中國發(fā)明專利申請)。該方法是利用句法路徑描述產(chǎn)品特征與觀點詞之間的關(guān)系。它首先需要構(gòu)建句法路徑詞典,在識別情感文本語料庫所有產(chǎn)品特征詞和觀點詞語,創(chuàng)建所有產(chǎn)品特征與觀點詞語之間的句法路徑,并對這些句法路徑泛化,計算泛化后的句法路徑的出現(xiàn)頻次,達到一定閾值的句法路徑作為標準句法路徑,插入句法路徑詞典。在獲得句法路徑詞典后,識別輸入情感文本的產(chǎn)品特征和觀點詞,然后對其進行句法分析,并建立相應(yīng)的句法樹。根據(jù)句法路徑詞典,查詢該句法樹能夠與標準句法路徑匹配的路徑,那么這條路徑所連接的產(chǎn)品特征與觀點詞語可以作為評價單元或評價信息。該方法存在的問題是,所依賴的詞典和句法分析器等資源多,系統(tǒng)復雜度較高,由于所產(chǎn)生的句法路徑詞典容易遺漏一些句法關(guān)系,從而導致召回率低,必然導致擴展性降低。
發(fā)明內(nèi)容
針對以上問題,本發(fā)明提供了一種具有低復雜度、低詞典依賴性并且高效的評價信息抽取方案。根據(jù)本發(fā)明的第一方面,提供了一種評價信息抽取方法,包括步驟從語料庫中獲取觀點詞語集合和對象特征集合;基于觀點詞語集合與對象特征集合之間的關(guān)聯(lián)性、觀點詞語集合成員相似性以及對象特征集合成員相似性,優(yōu)化觀點詞語集合和對象特征集合; 以及根據(jù)優(yōu)化的觀點詞語集合和優(yōu)化的對象特征集合,抽取評價信息。根據(jù)本發(fā)明的第二方面,提供了一種評價信息抽取設(shè)備,包括獲取裝置,用于從語料庫中獲取觀點詞語集合和對象特征集合;優(yōu)化裝置,用于基于觀點詞語集合與對象特征集合之間的關(guān)聯(lián)性、觀點詞語集合成員相似性以及對象特征集合成員相似性,優(yōu)化觀點詞語集合和對象特征集合;以及抽取裝置,用于根據(jù)優(yōu)化的觀點詞語集合和優(yōu)化的對象特征集合,抽取評價信息。通過以下對說明本發(fā)明原理的優(yōu)選實施方式的描述,并結(jié)合附圖,本發(fā)明的其他特征以及優(yōu)點將會是顯而易見的。
通過以下結(jié)合附圖的說明,并且隨著對本發(fā)明的更全面了解,本發(fā)明的其他目的和效果將變得更加清楚和易于理解,其中圖I是按照本發(fā)明的一個實施例的評價信息抽取方法的流程圖;圖2是按照本發(fā)明的另一個實施例的評價信息抽取方法的流程圖;圖3是按照本發(fā)明的另一個實施例的評價信息抽取方法的流程圖;圖4是按照本發(fā)明的另一個實施例的評價信息抽取方法的流程圖;圖5是按照本發(fā)明的一個實施例的評價信息抽取設(shè)備的方框圖。在所有的上述附圖中,相同的標號表示具有相同、相似或相應(yīng)的特征或功能。
具體實施例方式以下結(jié)合附圖對本發(fā)明進行更詳細的解釋和說明。應(yīng)當理解,本發(fā)明的附圖及實施例僅用于示例性作用,并非用于限制本發(fā)明的保護范圍。為了清楚起見,首先對本發(fā)明中所使用的術(shù)語作以解釋。I.語料庫在本發(fā)明中,語料庫可以包括若干文本文件,根據(jù)預先設(shè)定的處理粒度,可以對各文本文件進行預處理,從而得到若干文本單元。文本單元是對象特征和觀點詞語共現(xiàn)的最小語言單位。文本單元可以是自由文本,例如可以是詞語、短語、句子、段落、整篇文章等及其任意組合。2.評價信息在本發(fā)明中,評價信息可以包含對象特征和觀點詞語。觀點詞語,是文本單元中用于表達觀點的評價詞語或短語,例如,觀點詞語可以是 “好”、“高”、“美麗”、“優(yōu)雅”、“便宜”等。對象特征,是文本單元中的被觀點詞語所修飾的評價對象,包括產(chǎn)品、服務(wù)等。例如,對象特征可以是“油耗”、“外觀”、“價格”、“安全性”、“操控性”等。評價信息,是文本單元中所包含的觀點詞語與相應(yīng)的對象特征所構(gòu)成的配對,它具有明確的觀點極性(褒義、貶義、中性)。評價信息可以是包含對象特征和觀點詞語的二元組,即,對象特征,觀點詞語。例如,對于3個文本單元“大排量汽車的油耗很高”、“這款手機的價格高”、“該品牌車的操控性很好”,可以得到評價信息油耗,高價格,高操控性,好。3.觀點詞語集合和對象特征集合之間的關(guān)聯(lián)性如果可以從同一個文本單元中找到觀點詞語和對象特征,則認為該觀點詞語和對象特征具有關(guān)聯(lián)性。根據(jù)從語料庫中得到的大量文本單元,可以通過查找觀點詞語、對象特征以及二者的關(guān)聯(lián)性來得到觀點詞語的出現(xiàn)頻次、對象特征的出現(xiàn)頻次以及二者具有關(guān)聯(lián)性的頻次。在本發(fā)明中,將觀點詞語集合中包含的各個觀點詞語以及對象特征集合中包含的各個對象特征之間的關(guān)聯(lián)性及其頻次,稱為觀點詞語集合和對象特征集合之間的關(guān)聯(lián)性。例如,假設(shè)存在4個文本單元“大排量汽車的油耗很高”、“這款手機的價格高”、“該品牌車的操控性很好”、“購買的打印機價格過高”,其中觀點詞語集合中包含2個觀點詞語 “好”、“高”,其中“好”的出現(xiàn)頻次為1,“高”的出現(xiàn)頻次為3。對象特征集合中包含3個對象特征“油耗”、“價格”、“操控性”,其中“油耗”的出現(xiàn)頻次為1,“價格”出現(xiàn)頻次為2,“操控性”的出現(xiàn)頻次為I。由于觀點詞語“好”與對象特征“油耗”沒有在同一個文本單元出現(xiàn)(簡稱“同現(xiàn)”)過,因此二者沒有關(guān)聯(lián)性,將二者的關(guān)聯(lián)性的頻次記為“O”。相應(yīng)地可以得到,觀點詞語“好”與對象特征“價格”以及“操控性”都具有關(guān)聯(lián)性,其對應(yīng)頻次分別可以記為“I”。類似地,對于觀點詞語“高”,同樣可以得到其與對象特征“油耗”、“價格”、“操控性”分別是否具有關(guān)聯(lián)性以及該關(guān)聯(lián)性的頻次。以下示例性地示出包含2個觀點詞語“好”、 “高”的觀點詞語集合(以“O”表示)以及包含3個對象特征“油耗”、“價格”、“操控性”的對象特征集合(以“F”表示)之間的關(guān)聯(lián)性表I觀點詞語集合與對象特征集合之間的關(guān)聯(lián)性
權(quán)利要求
1.一種評價信息抽取方法,包括從語料庫中獲取觀點詞語集合和對象特征集合;基于所述觀點詞語集合與所述對象特征集合之間的關(guān)聯(lián)性、所述觀點詞語集合成員相似性以及所述對象特征集合成員相似性,優(yōu)化所述觀點詞語集合和所述對象特征集合;以及根據(jù)優(yōu)化的觀點詞語集合和優(yōu)化的對象特征集合,抽取評價信息。
2.根據(jù)權(quán)利要求I的方法,其中從語料庫中獲取觀點詞語集合和對象特征集合包括對語料庫進行預處理以得到文本單元;基于得到的文本單元,根據(jù)觀點詞語抽取規(guī)則得到觀點詞語集合;以及基于得到的文本單元,根據(jù)對象特征抽取規(guī)則得到對象特征集合。
3.根據(jù)權(quán)利要求2的方法,其中所述觀點詞語抽取規(guī)則包括從文本單元中抽取以下中的一項或多項作為觀點詞語緊隨程度副詞之后的序列片段、形容詞、內(nèi)部不含虛詞的片段、長度小于等于最大觀點詞語長度的片段、頻率大于最小觀點詞語發(fā)生頻率的片段。
4.根據(jù)權(quán)利要求2的方法,其中所述對象特征抽取規(guī)則包括從文本單元中抽取以下中的一項或多項作為對象特征基本名詞短語、基本名詞短語的組合、基本名詞短語與名詞/動名詞的組合、基本名詞短語與限定性定語、限定性定語與名詞/動名詞的組合、內(nèi)部不含虛詞的片段、長度小于等于最大對象特征長度的片段、頻率大于最小對象特征發(fā)生頻率的片段。
5.根據(jù)權(quán)利要求I的方法,其中基于所述觀點詞語集合與所述對象特征集合之間的關(guān)聯(lián)性、所述觀點詞語集合成員相似性以及所述對象特征集合成員相似性,優(yōu)化所述觀點詞語集合和所述對象特征集合包括基于所述關(guān)聯(lián)性,根據(jù)所述觀點詞語集合和所述對象特征集合中的第一集合的分數(shù)計算所述觀點詞語集合和所述對象特征集合中的第二集合的分數(shù);利用第二集合成員相似性調(diào)整第二集合的分數(shù);基于所述關(guān)聯(lián)性,根據(jù)調(diào)整后的第二集合的分數(shù)計算第一集合的分數(shù);利用第一集合成員相似性調(diào)整第一集合的分數(shù),以便基于所述關(guān)聯(lián)性根據(jù)調(diào)整后的第一集合的分數(shù)計算第二集合的分數(shù);以及當調(diào)整后的第一集合的分數(shù)與調(diào)整前的第一集合的分數(shù)之間的差異達到預定要求時、 或者當調(diào)整后的第二集合的分數(shù)與調(diào)整前的第二集合的分數(shù)之間的差異達到預定要求時, 按照調(diào)整后的第一集合的分數(shù)對所述第一集合中的成員進行排序、并且按照調(diào)整后的第二集合的分數(shù)對所述第二集合中的成員進行排序。
6.根據(jù)權(quán)利要求I的方法,其中基于所述觀點詞語集合與所述對象特征集合之間的關(guān)聯(lián)性、所述觀點詞語集合成員相似性以及所述對象特征集合成員相似性,優(yōu)化所述觀點詞語集合和所述對象特征集合包括利用所述觀點詞語集合和所述對象特征集合中的第一集合成員相似性調(diào)整第一集合的分數(shù);基于所述關(guān)聯(lián)性,根據(jù)調(diào)整后的第一集合的分數(shù)計算所述觀點詞語集合和所述對象特征集合中的第二集合的分數(shù);利用第二集合成員相似性調(diào)整第二集合的分數(shù),以便基于所述關(guān)聯(lián)性根據(jù)調(diào)整后的第二集合的分數(shù)計算第一集合的分數(shù);以及當調(diào)整后的第一集合的分數(shù)與調(diào)整前的第一集合的分數(shù)之間的差異達到預定要求時、 或者當調(diào)整后的第二集合的分數(shù)與調(diào)整前的第二集合的分數(shù)之間的差異達到預定要求時, 按照調(diào)整后的第一集合的分數(shù)對所述第一集合中的成員進行排序、并且按照調(diào)整后的第二集合的分數(shù)對所述第二集合中的成員進行排序。
7.根據(jù)權(quán)利要求5或6的方法,還包括基于第一集合內(nèi)的每個成員在所述語料庫中的頻次信息,根據(jù)預定義策略對所述第一集合的分數(shù)進行初始化。
8.根據(jù)權(quán)利要求5或6的方法,其中利用第一集合成員相似性調(diào)整第一集合的分數(shù)包括基于所述第一集合成員相似性和先驗可信度,對所述第一集合的分數(shù)進行調(diào)整,得到調(diào)整分數(shù),當調(diào)整分數(shù)與所述第一集合的分數(shù)之間的差異達到預定要求時,將所述調(diào)整分數(shù)作為調(diào)整后的第一集合的分數(shù)并且停止調(diào)整所述第一集合的分數(shù),以及當調(diào)整分數(shù)與所述第一集合的分數(shù)之間的差異未達到預定要求時,利用所述調(diào)整分數(shù)更新所述第一集合的分數(shù);其中利用第二集合成員相似性調(diào)整第二集合的分數(shù)包括基于所述第二集合成員相似性和先驗可信度,對所述第二集合的分數(shù)進行調(diào)整,得到調(diào)整分數(shù),當調(diào)整分數(shù)與所述第二集合的分數(shù)之間的差異達到預定要求時,將所述調(diào)整分數(shù)作為調(diào)整后的第二集合的分數(shù)并且停止調(diào)整所述第二集合的分數(shù),以及當調(diào)整分數(shù)與所述第二集合的分數(shù)之間的差異未達到預定要求時,利用所述調(diào)整分數(shù)更新所述第二集合的分數(shù)。
9.根據(jù)權(quán)利要求I的方法,其中根據(jù)優(yōu)化的觀點詞語集合和優(yōu)化的對象特征集合抽取評價信息包括根據(jù)預定觀點詞語閾值從優(yōu)化的觀點詞語集合中抽取排序在先的觀點詞語;根據(jù)預定對象特征閾值從優(yōu)化的對象特征集合中抽取排序在先的對象特征;以及基于所述觀點詞語集合與所述對象特征集合之間的關(guān)聯(lián)性,從所述排序在先的觀點詞語和所述排序在先的對象特征得到評價信息。
10.一種評價信息抽取設(shè)備,包括獲取裝置,用于從語料庫中獲取觀點詞語集合和對象特征集合;優(yōu)化裝置,用于基于所述觀點詞語集合與所述對象特征集合之間的關(guān)聯(lián)性、所述觀點詞語集合成員相似性以及所述對象特征集合成員相似性,優(yōu)化所述觀點詞語集合和所述對象特征集合;以及抽取裝置,用于根據(jù)優(yōu)化的觀點詞語集合和優(yōu)化的對象特征集合,抽取評價信息。
11.根據(jù)權(quán)利要求10的設(shè)備,其中所述獲取裝置包括用于對語料庫進行預處理以得到文本單元的裝置;用于基于得到的文本單元,根據(jù)觀點詞語抽取規(guī)則得到觀點詞語集合的裝置;以及用于基于得到的文本單元,根據(jù)對象特征抽取規(guī)則得到對象特征集合的裝置。
12.根據(jù)權(quán)利要求11的設(shè)備,其中所述觀點詞語抽取規(guī)則包括從文本單元中抽取以下中的一項或多項作為觀點詞語緊隨程度副詞之后的序列片段、形容詞、內(nèi)部不含虛詞的片段、長度小于等于最大觀點詞語長度的片段、大于最小觀點詞語發(fā)生頻率的片段。
13.根據(jù)權(quán)利要求11的設(shè)備,其中所述對象特征抽取規(guī)則包括從文本單元中抽取以下中的一項或多項作為對象特征基本名詞短語、基本名詞短語的組合、基本名詞短語與名詞/動名詞的組合、基本名詞短語與限定性定語、限定性定語與名詞/動名詞的組合、內(nèi)部不含虛詞的片段、長度小于等于最大對象特征長度的片段、頻率大于最小對象特征發(fā)生頻率的片段。
14.根據(jù)權(quán)利要求10的設(shè)備,其中所述優(yōu)化裝置包括第一轉(zhuǎn)移計算裝置,用于基于所述關(guān)聯(lián)性,根據(jù)所述觀點詞語集合和所述對象特征集合中的第一集合的分數(shù)計算所述觀點詞語集合和所述對象特征集合中的第二集合的分數(shù);第二調(diào)整裝置,用于利用第二集合成員相似性調(diào)整第二集合的分數(shù);第二轉(zhuǎn)移計算裝置,用于基于所述關(guān)聯(lián)性,根據(jù)調(diào)整后的第二集合的分數(shù)計算第一集合的分數(shù);第一調(diào)整裝置,用于利用第一集合成員相似性調(diào)整第一集合的分數(shù),以便基于所述關(guān)聯(lián)性根據(jù)調(diào)整后的第一集合的分數(shù)計算第二集合的分數(shù);以及排序裝置,用于當調(diào)整后的第一集合的分數(shù)與調(diào)整前的第一集合的分數(shù)之間的差異達到預定要求時、或者當調(diào)整后的第二集合的分數(shù)與調(diào)整前的第二集合的分數(shù)之間的差異達到預定要求時,按照調(diào)整后的第一集合的分數(shù)對所述第一集合中的成員進行排序、并且按照調(diào)整后的第二集合的分數(shù)對所述第二集合中的成員進行排序。
15.根據(jù)權(quán)利要求10的設(shè)備,其中所述優(yōu)化裝置包括第一調(diào)整裝置,用于利用所述觀點詞語集合和所述對象特征集合中的第一集合成員相似性調(diào)整第一集合的分數(shù);轉(zhuǎn)移計算裝置,用于基于所述關(guān)聯(lián)性,根據(jù)調(diào)整后的第一集合的分數(shù)計算所述觀點詞語集合和所述對象特征集合中的第二集合的分數(shù);第二調(diào)整裝置,用于利用第二集合成員相似性調(diào)整第二集合的分數(shù),以便基于所述關(guān)聯(lián)性根據(jù)調(diào)整后的第二集合的分數(shù)計算第一集合的分數(shù);以及排序裝置,用于當調(diào)整后的第一集合的分數(shù)與調(diào)整前的第一集合的分數(shù)之間的差異達到預定要求時、或者當調(diào)整后的第二集合的分數(shù)與調(diào)整前的第二集合的分數(shù)之間的差異達到預定要求時,按照調(diào)整后的第一集合的分數(shù)對所述第一集合中的成員進行排序、并且按照調(diào)整后的第二集合的分數(shù)對所述第二集合中的成員進行排序。
16.根據(jù)權(quán)利要求14或15的設(shè)備,其中所述優(yōu)化裝置還包括用于基于第一集合內(nèi)的每個成員在所述語料庫中的頻次信息,根據(jù)預定義策略對所述第一集合的分數(shù)進行初始化的裝置。
17.根據(jù)權(quán)利要求14或15的設(shè)備,其中所述第一調(diào)整裝置包括用于基于所述第一集合成員相似性和先驗可信度,對所述第一集合的分數(shù)進行調(diào)整,得到調(diào)整分數(shù)的裝置,用于當調(diào)整分數(shù)與所述第一集合的分數(shù)之間的差異達到預定要求時,將所述調(diào)整分數(shù)作為調(diào)整后的第一集合的分數(shù)并且停止調(diào)整所述第一集合的分數(shù)的裝置,以及用于當調(diào)整分數(shù)與所述第一集合的分數(shù)之間的差異未達到預定要求時,利用所述調(diào)整分數(shù)更新所述第一集合的分數(shù)的裝置;其中所述第二調(diào)整裝置包括用于基于所述第二集合成員相似性和先驗可信度,對所述第二集合的分數(shù)進行調(diào)整, 得到調(diào)整分數(shù)的裝置,用于當調(diào)整分數(shù)與所述第二集合的分數(shù)之間的差異達到預定要求時,將所述調(diào)整分數(shù)作為調(diào)整后的第二集合的分數(shù)并且停止調(diào)整所述第二集合的分數(shù)的裝置,以及用于當調(diào)整分數(shù)與所述第二集合的分數(shù)之間的差異未達到預定要求時,利用所述調(diào)整分數(shù)更新所述第二集合的分數(shù)的裝置。
18.根據(jù)權(quán)利要求10的設(shè)備,其中所述抽取裝置包括用于根據(jù)預定觀點詞語閾值從優(yōu)化的觀點詞語集合中抽取排序在先的觀點詞語的裝置;用于根據(jù)預定對象特征閾值從優(yōu)化的對象特征集合中抽取排序在先的對象特征的裝置;以及用于基于所述觀點詞語集合與所述對象特征集合之間的關(guān)聯(lián)性,從所述排序在先的觀點詞語和所述排序在先的對象特征得到評價信息的裝置。
全文摘要
本發(fā)明公開了一種評價信息抽取方法和設(shè)備,該方法包括從語料庫中獲取觀點詞語集合和對象特征集合;基于觀點詞語集合與對象特征集合之間的關(guān)聯(lián)性、觀點詞語集合成員相似性以及對象特征集合成員相似性,優(yōu)化觀點詞語集合和對象特征集合;以及根據(jù)優(yōu)化的觀點詞語集合和優(yōu)化的對象特征集合,抽取評價信息。
文檔編號G06F17/30GK102609424SQ201110035018
公開日2012年7月25日 申請日期2011年1月21日 優(yōu)先權(quán)日2011年1月21日
發(fā)明者王大亮, 胡長建, 許洪志, 趙凱, 邱立坤 申請人:日電(中國)有限公司