專利名稱::一種面向網(wǎng)絡評論的觀點主題識別方法和系統(tǒng)的制作方法
技術領域:
:本發(fā)明涉及數(shù)據(jù)挖掘、機器學習、中文信息處理
技術領域:
,特別是涉及一種面向網(wǎng)絡評論的觀點主題識別方法和系統(tǒng)。
背景技術:
:目前,隨著信息傳播技術的發(fā)展和普及,互聯(lián)網(wǎng)已成為當今社會人們獲取信息的重要渠道?;ヂ?lián)網(wǎng)快捷、方便的特性,以及強大的交互能力,為人們交流思想、闡明觀點、發(fā)表意見提供了新的平臺。通過互聯(lián)網(wǎng),人們對社會公共事務特別是社會熱點焦點問題發(fā)表有一定影響力、帶傾向性的意見或言論,針對這類文本的觀點分析具有廣泛的實用價值。然而,網(wǎng)絡中可供人們談論的主題非常多,并且網(wǎng)絡評論的觀點主題會隨著評論數(shù)據(jù)的變化而改變。因此首先需要完成網(wǎng)絡評論中談論主題的自動識別,從而實現(xiàn)評論的觀點分析?,F(xiàn)有的觀點主題識別方法都是在限定領域內展開,其方法的基本思想是在特定領域內,觀點主題具有比較穩(wěn)定的特性。如產(chǎn)品評論領域,針對特定產(chǎn)品評論的觀點主題一般為產(chǎn)品名稱、產(chǎn)品元件及其相關屬性,并且在一定時間段內不會變動。由于特定領域內的觀點主題具備這種穩(wěn)定特性,目前常見的識別方法是首先通過全自動或半自動的方式構建特征本體庫,再由查詢匹配確定評論的主題。在特征本體庫的構建過程中,一般選取名詞和名詞短語作為候選主題,再通過各種規(guī)則進行篩選從而確定領域的特征本體。上述方法中的觀點主題識別是通過查詢已經(jīng)構建的特征本體庫實現(xiàn),致使觀點分析局限于該特定領域而無法得到擴展。由于網(wǎng)絡中人們談論話題的多樣性,并且隨著時間的推移會不斷涌現(xiàn)出新的話題,如網(wǎng)絡輿情分析中不同事件對應不同的觀點主題,構建特征本體庫的方法不再有效,需要對觀點主題進行自動識別。
發(fā)明內容有鑒于此,本發(fā)明的目的在于提供一種面向網(wǎng)絡評論的觀點主題識別方法,克服觀點分析的領域限制,不需構建本體庫,從整體的角度識別觀點主題,有效避開了單句觀點分析存在的困難,在面對寬領域和隨時間動態(tài)改變的網(wǎng)絡評論數(shù)據(jù)實現(xiàn)自動識別短語模式的觀點主題。為達到上述目的,本發(fā)明的面向網(wǎng)絡評論的觀點主題識別方法,包括以下步驟a.文本輸入輸入評論源和所有評論文本;b.文本預處理對輸入的文本進行詞語切分和詞性標注,去除停用詞、標點符號和特定虛詞,并統(tǒng)計詞語的詞頻信息;c.主題詞判決計算詞語權重值,如果詞語權重值大于設定的閾值,則該詞語判斷為觀點主題詞;d.主題構建將零散的觀點主題詞合并成為完整的觀點主題;e.主題篩選通過觀點主題過濾確定有效的觀點主題。進一步,在c步驟中,計算詞語權重時,權重因素包括整體詞頻權重、詞性權重、詞語出現(xiàn)的位置權重和詞語長度權重。進一步,在計算整體詞頻權重時,引入同義詞林消除同義詞引起的主題分散問題。進一步,所述權重因素還包括詞語情感權重,計算詞語情感權重時,引入情感詞庫,詞語出現(xiàn)在包含情感詞的句子中的歸一化頻率為詞語情感權重。進一步,所述的閾值可以設定為固定值或百分比,也可根據(jù)不同的話題選取不同的閾值,也可以根據(jù)詞語權重值的中位數(shù)或均值動態(tài)計算閾值。進一步,在d步驟中,以觀點主題詞為線索詞,并添加位置約束條件,采用位置相關的頻繁項挖掘算法,實現(xiàn)未登錄詞和詞組類型的觀點主題識別。進一步,在所述的頻繁項挖掘算法中,根據(jù)實際情況限定線索詞周圍詞語的窗口長度。進一步,觀點主題過濾包括詞性組合過濾、單字選擇過濾和包含關系過濾。本發(fā)明的另一個目的在于提供一種實現(xiàn)上述面向網(wǎng)絡評論的觀點主題識別方法的系統(tǒng),該系統(tǒng)包括評論輸入模塊,用于輸入評論源和所有評論文本;預處理模塊,用于實現(xiàn)包括詞語切分、詞性標注、去除停用詞、標點符號和特定虛詞、統(tǒng)計詞語的詞頻信息的操作;主題詞判決模塊,用于根據(jù)權重計算公式計算詞語權重值并根據(jù)設定的閾值判別觀點主題詞;主題構建模塊,用于將零散的觀點主題詞通過頻繁項挖掘算法合并成為完整的觀點主題;主題篩選模塊,用于通過詞性組合過濾、單字選擇過濾和包含關系過濾,最終確定有效的觀點主題。本發(fā)明的有益效果是由于現(xiàn)有的面向產(chǎn)品評論的觀點主題識別方法在普通評論數(shù)據(jù)中不再有效,并且現(xiàn)有的面向網(wǎng)絡評論的觀點分析方法需要一種方法能夠自動識別觀點的主題。與現(xiàn)有技術相比,本發(fā)明提供了一種面向網(wǎng)絡評論的觀點主題識別方法和系統(tǒng),它克服了觀點分析的領域限制,不需構建本體庫。它從整體的角度識別觀點主題,有效地避開了單句觀點分析存在的困難,并且本發(fā)明能夠自動識別短語模式的觀點主題,適合于寬領域和隨時間動態(tài)改變的網(wǎng)絡評論數(shù)據(jù)本發(fā)明的其他優(yōu)點、目標和特征在某種程度上將在隨后的說明書中進行闡述,并且在某種程度上,基于對下文的考察研究對本領域技術人員而言將是顯而易見的,或者可以從本發(fā)明的實踐中得到教導。本發(fā)明的目標和其他優(yōu)點可以通過下面的說明書以及附圖中所特別指出的結構來實現(xiàn)和獲得。圖1為本發(fā)明方法實施例一的操作步驟流程圖;圖2為本發(fā)明方法實施例二的操作步驟流程4圖3為本發(fā)明系統(tǒng)模塊連接示意圖。具體實施例方式下面結合附圖和實施例對本發(fā)明作進一步描述。實施例一本實施例對網(wǎng)絡評論產(chǎn)生的相關知識進行描述,認為主觀性評論的發(fā)表都是由一個源事件引起,如網(wǎng)絡新聞評論中的新聞、論壇中的首帖、產(chǎn)品評論中的產(chǎn)品信息或產(chǎn)品屬性列表等,這里將它們統(tǒng)稱為評論源。一般情況下,人們?yōu)g覽關注的評論源并發(fā)表自己的主觀性意見,因此可以認為評論源是網(wǎng)絡評論的觸發(fā)者。本實施例對評論源進行分析,識別出評論源中受到評論者關注的主題詞;再根據(jù)位置相關的關聯(lián)規(guī)則挖掘算法構建候選的觀點主題;最后通過制定的規(guī)則過濾不符合要求的候選主題。如圖1所示,本實施例實現(xiàn)網(wǎng)絡評論的觀點主題識別方法的步驟如下步驟S21為評論源輸入,選擇網(wǎng)絡評論中的評論源,由一組字符序列組成,用符號s表示。步驟S22對評論源進行預處理;首先進行詞語切分和詞性標注,得到有序的詞語序列S=〈Wsl,Ws2,…,w^〉,其中W表示詞語;去除停用詞、標點符號和特定虛詞后,歸納相同詞語得到一組詞語集合s',其中s'中的詞語都屬于詞語序列s,且s'內的每個詞語都不相同。S23為評論輸入,選擇各個評論者發(fā)表的評論信息,用符號ri表示,評論集為R={巧,r2,…,rJ,并對評論集R進行詞語切分。步驟S24,對詞語集合s'中的各個詞語w。j(j二1,…,r)進行權重計算,確定其反映觀點主題的能力;本實施例用詞語的權重值W(w。j)(j=1,2,…,r)評估,其中對觀點主題判斷產(chǎn)生影響的主要因素包括整體詞頻、詞性信息、位置信息和詞語長度信息,具體實施時需要如下計算步驟參步驟S241,計算整體詞頻權重,即各個詞語w。j在評論源s和評論集R中總共出現(xiàn)的頻數(shù),它反映評論者的關注程度,用Freq(Wej)表示,F(xiàn)req(Wej)G{1,2,};參步驟S242,計算詞性權重,觀點主題中不同詞性詞語所占的比例各不相同,本實施例中認為名詞和動詞占有最大的比例,用Pos(w。j)表示,1《Pos(w。j)《2;參步驟S243,計算位置權重,詞語w。j在評論源中所處的位置信息(如標題、段落首句等),表明評論源的發(fā)表者對詞語重要性的評估,記為Loc(w。j),Loc(w。j)G{1,3/2,2};參步驟S244,計算詞語長度權重,不同長度詞語所蘊含的具體語義存在差異,用Len(wCj)描述,1《Len(wCj)《2。綜合以上四個權重因素,詞語權重值表示為<formula>formulaseeoriginaldocumentpage5</formula>當詞語w。j的權重值W(w。j)大于設定閾值9w時,認為該詞為受到評論者關注的主題詞;S25表示頻繁項挖掘步驟,由于受到未登錄詞和短語類型的觀點主題的影響,許多觀點主題無法作為整體被分詞程序切分,需要將零散的主題詞合并為完整的觀點主題。本發(fā)明采用位置相關的關聯(lián)規(guī)則挖掘算法實現(xiàn),即為算法添加位置約束條件要求頻繁k項集只與它在事務上相鄰的上一項和下一項來產(chǎn)生兩個不同的k+l項候選集。這里,選擇S24中確定的主題詞作為線索詞,利用關聯(lián)規(guī)則算法挖掘滿足最小支持度P^的頻繁項集,作為候選觀點主題;在主題過濾步驟S26中,設定的觀點主題過濾方法包括詞性組合過濾,如"V+A(動詞+形容詞)"、"N+A(名詞+形容詞)"等不符合主題詞性組合的候選項;單字選擇過濾,過濾除名詞和字符串以外的單字符候選項;包含關系過濾,即長字符主題中的各個子集必須包含足夠的獨立項才能形成單獨的觀點主題;經(jīng)過以上步驟即得到已識別的觀點主題S27。例如事件"央視在中國全面停播NBA"中,評論源中滿足權重值設定閾值的部分主題詞如下表所示關鍵詞<table>tableseeoriginaldocumentpage6</column></row><table>通過位置相關的關聯(lián)規(guī)則挖掘以后,得到候選的觀點主題包含1-頻繁項、2_頻繁項和3-頻繁項,其中1-頻繁項如上表所示,2-頻繁項和3-頻繁項如下表所示2<table>tableseeoriginaldocumentpage6</column></row><table>由觀點主題過濾方法,過濾除名詞以外的單字符候選項"停"、"播"和"大";比較3_頻繁項"停播NBA"的子集(2-頻繁項)"停播"和"播NBA","停播"的獨立項(即不包含在"停播NBA"中的頻數(shù)為267,大于設定閾值,而"播NBA"的獨立項頻數(shù)為26,不符合閾值要求,因此過濾候選觀點主題"播NBA"。本實施例中,對網(wǎng)絡評論產(chǎn)生的相關知識描述不局限于網(wǎng)絡新聞評論中的新聞、論壇中的首帖、產(chǎn)品評論中的產(chǎn)品信息或產(chǎn)品屬性列表這三種形式的網(wǎng)絡評論,在實際應用中,還可以是相關形式的網(wǎng)絡資源,如Blog評論、日志評論等。本實施例中,權重值比較的閾值可以設定為某一固定值,也可根據(jù)不同的話題選取不同的閾值,或根據(jù)中位數(shù)、均值等動態(tài)計算閾值。本實施例中,為了提高位置相關的關聯(lián)規(guī)則的計算效率,可根據(jù)實際情況限定線索詞周圍詞語的范圍,如選擇線索詞Wi左右各三個詞語組成窗口3,Wi—2,Wi—pWi,wi+1,wi+2,wi+3],當評論形式比較簡潔時,還可選擇更短的窗口。實施例二本實施例考慮到實際情況中網(wǎng)絡評論中的觀點主題不僅來源于評論源,評論者也會提出與評論源相關的主題?;谝陨鲜聦?,本實施例將網(wǎng)絡評論的觀點主題分為兩類評論*,觀點主題在評論源中出現(xiàn);評論#,觀點主題沒有出現(xiàn)于評論源中,而是由評論者提出。本實施例不僅考慮評論源中的觀點主題,也識別評論中的反復出現(xiàn)的觀點主題。同時,加入兩個基礎語義詞典——同義詞林,克服同義詞引起的主題分散問題;和情感詞庫,更加精確地判斷觀點主題所在的句子。在識別出網(wǎng)絡評論的觀點主題后,確定主題之間的關系將有利于后續(xù)針對主題的觀點分析。本實施例僅提供一種簡單的動詞作用對象的一種確定方法,例如評論"贊成停播!"中識別"停播"的對象為"NBA"。如圖2所示,本施例實現(xiàn)網(wǎng)絡評論的觀點主題識別方法的步驟如下步驟S41為評論源輸入,選擇網(wǎng)絡評論中的評論源,由一組字符序列組成,用符號s表示;步驟S42為評論輸入,選擇網(wǎng)絡評論中的所有評論,用符號&表示,評論集為R={ri,r2,…,rj;步驟S43進行文本預處理,對輸入的兩路文本進行詞語切分和詞性標注,然后去除停用詞、標點符號和特定虛詞后,統(tǒng)計各個詞語的詞頻信息,并將所有出現(xiàn)于評論源中的詞語和其余詞語中頻數(shù)占前10%的詞語送入步驟S44;在步驟S44中,對步驟S43送入的詞語wdj(j=1,…,q)進行權重計算,確定其反映觀點主題的能力。本實施例也使用詞語的權重值W(Wdj)(j=1,2,…,q)進行評估,其中對觀點主題判斷產(chǎn)生影響的主要因素包括整體詞頻、詞性信息、位置信息、詞語長度和詞語情感信息,具體計算權重值時,包括以下步驟參步驟S441,計算整體詞頻,即詞語wdj在評論源s和評論集R中總共出現(xiàn)的頻數(shù)f(wdj)。與實施一不同的是本實施例加入同義詞林消除同義詞引起的主題分散問題,搜尋詞語Wdj在同義詞林中的所有具有同義關系的詞語w'ti(i=l,…,m),以及這些同義詞在集合{s,R}中的頻數(shù)f'ti。整體詞頻用Freq(Wdj)表示,用a表示可變參數(shù),參步驟S442、S443和S444的操作與實施例一相同,分別為計算詞性信息權重、計算詞語位置信息權重和計算詞語長度權重的步驟;參S445為計算詞語情感信息權重的步驟,詞語Wdj出現(xiàn)在包含情感詞的句子中的歸一化頻率。情感詞對句子的主觀性具有很好的指示作用,并且情感詞的對象一般為觀點主題。評論的句子中包含情感詞,則觀點主題出現(xiàn)的概率增大。用Sen(Wdj)表示詞語Wdj和情感詞共處同一句的句子數(shù)量除以最大值后的歸一化頻率。綜合以上因素,權重值表示為W(wcj)=Freq(wdj)Pos(wdj)Loc(wdj)Len(wdj)Sen(wdj),(j=1,2,…,q)當詞語Wdj的權重值W(Wdj)大于設定閾值9'w時,認為該詞為受到評論者關注的主題詞;步驟S47和S48分別是頻繁項挖掘和主題過濾,其操作與實施例一相同;本實施中還需要步驟S49對觀點主題進行簡單的組織。如果兩個主題ti和tj,其中ti為動詞,tj由ti(或ti在同義詞林中的同義詞)加上名詞(或命名實體)組成,則認為ti作用于該名詞(或命名實體);經(jīng)過以上步驟,就得到本實施例已識別的觀點主題S4A。本實施例中,S43過程將所有出現(xiàn)于評論源中的詞語和其余詞語中頻數(shù)占前10%的詞語送入步驟S44,也可以設定為固定值,如頻數(shù)為前十名的詞語;本實施例中,同義詞林中詞語的關系選擇相等、同義,而不考慮不等、同類關系;情感詞庫除了常用的書面語情感詞外,還應針對網(wǎng)絡評論數(shù)據(jù)收入網(wǎng)絡情感詞。如圖3所示,本發(fā)明的種面向網(wǎng)絡評論的觀點主題識別系統(tǒng),包括評論輸入模塊5-1,輸入評論源和所有評論文本;預處理模塊5-2,實現(xiàn)詞語切分和詞性標注,去除停用詞、標點符號和特定虛詞,統(tǒng)計詞語的詞頻信息等操作;主題詞判決模塊5-3,根據(jù)權重計算公式和設定的閾值判斷觀點主題詞;主題構建模塊5-4,將部分零散的觀點主題詞通過關聯(lián)規(guī)則挖掘算法合并成為完整的觀點主題;主題篩選模塊5-5,通過詞性組合和其它預先制定的規(guī)則確定有效的觀點主題。最后說明的是,以上實施例僅用以說明本發(fā)明的技術方案而非限制,本領域普通技術人員對本發(fā)明的技術方案所做的其他修改或者等同替換,只要不脫離本發(fā)明技術方案的精神和范圍,均應涵蓋在本發(fā)明的權利要求范圍當中。權利要求一種面向網(wǎng)絡評論的觀點主題識別方法,其特征在于,該方法包括以下步驟a.文本輸入輸入評論源和所有評論文本;b.文本預處理對輸入的文本進行詞語切分和詞性標注,去除停用詞、標點符號和特定虛詞,并統(tǒng)計詞語的詞頻信息;c.主題詞判決計算詞語權重值,如果詞語權重值大于設定的閾值,則該詞語判斷為觀點主題詞;d.主題構建將零散的觀點主題詞合并成為完整的觀點主題;e.主題篩選通過觀點主題過濾確定有效的觀點主題。2.根據(jù)權利要求1所述的面向網(wǎng)絡評論的觀點主題識別方法,其特征在于c步驟中,計算詞語權重時,權重因素包括整體詞頻權重、詞性權重、詞語出現(xiàn)的位置權重和詞語長度權重。3.根據(jù)權利要求2所述面向網(wǎng)絡評論的觀點主題識別方法,其特征在于計算整體詞頻權重時,引入同義詞林消除同義詞引起的主題分散問題。4.根據(jù)權利要求2所述面向網(wǎng)絡評論的觀點主題識別方法,其特征在于所述權重因素還包括詞語情感權重,計算詞語情感權重時,引入情感詞庫,詞語出現(xiàn)在包含情感詞的句子中的歸一化頻率為詞語情感權重。5.根據(jù)權利要求3或4所述的面向網(wǎng)絡評論的觀點主題識別方法,其特征在于所述的閾值可以設定為固定值或百分比,也可根據(jù)不同的話題選取不同的閾值,也可以根據(jù)詞語權重值的中位數(shù)或均值動態(tài)計算閾值。6.根據(jù)權利要求5所述的面向網(wǎng)絡評論的觀點主題識別方法,其特征在于d步驟中,以觀點主題詞為線索詞,并添加位置約束條件,采用位置相關的頻繁項挖掘算法,實現(xiàn)未登錄詞和詞組類型的觀點主題識別。7.根據(jù)權利要求6所述的面向網(wǎng)絡評論的觀點主題識別方法,其特征在于在所述的頻繁項挖掘算法中,根據(jù)實際情況限定線索詞周圍詞語的窗口長度。8.根據(jù)權利要求7所述的面向網(wǎng)絡評論的觀點主題識別方法,其特征在于觀點主題過濾包括詞性組合過濾、單字選擇過濾和包含關系過濾。9.實現(xiàn)根據(jù)權利要求1所述方法的面向網(wǎng)絡評論的觀點主題識別系統(tǒng),其特征在于,該系統(tǒng)包括評論輸入模塊,用于輸入評論源和所有評論文本;預處理模塊,用于實現(xiàn)包括詞語切分、詞性標注、去除停用詞、標點符號和特定虛詞、統(tǒng)計詞語的詞頻信息的操作;主題詞判決模塊,用于根據(jù)權重計算公式計算詞語權重值并根據(jù)設定的閾值判別觀點主題詞;主題構建模塊,用于將零散的觀點主題詞通過頻繁項挖掘算法合并成為完整的觀點主題;主題篩選模塊,用于通過詞性組合過濾、單字選擇過濾和包含關系過濾,最終確定有效的觀點主題。全文摘要本發(fā)明公開了一種面向網(wǎng)絡評論的觀點主題識別方法和系統(tǒng),其方法包括步驟a.文本輸入,輸入評論源和所有評論文本;b.文本預處理,對輸入的文本進行詞語切分和詞性標注,去除停用詞、標點符號和特定虛詞,并統(tǒng)計詞語的詞頻信息;c.主題詞判決,計算詞語權重值,如果詞語權重值大于設定的閾值,則該詞語判斷為觀點主題詞;d.主題構建,將零散的觀點主題詞合并成為完整的觀點主題;e.主題篩選,通過觀點主題過濾確定有效的觀點主題;本發(fā)明克服觀點分析方法和系統(tǒng)的領域限制,不需構建本體庫,從整體的角度識別觀點主題,有效避開了單句觀點分析存在的困難,在面對寬領域和隨時間動態(tài)改變的網(wǎng)絡評論數(shù)據(jù)實現(xiàn)自動識別短語模式的觀點主題。文檔編號G06F17/27GK101727487SQ20091022730公開日2010年6月9日申請日期2009年12月4日優(yōu)先權日2009年12月4日發(fā)明者周杰,李弼程,李真,林琛,陳剛申請人:中國人民解放軍信息工程大學