專利名稱:通過計算機智能分析漢語文字情感傾向的方法
通過計算機智能分析漢語文字情感傾向的方法技術領域
本發(fā)明屬于計算機智能分析技術領域,具體涉及一種通過計算機智能分析漢語文字情感傾向的方法。
背景技術:
上世紀60年代,文本的情感傾向分析這一領域剛剛開始,隨著電子商務的發(fā)展,上世紀90年代以來,語義傾向性研究在國外才得到普遍關注,并迅速發(fā)展起來。 Hatzivassiloglou. V, McKeown K. R.在1997年首先開始了詞匯的語義傾向性研究。他們主要是針對形容詞作傾向性分析,利用詞匯之間的連詞(and,or, but等)訓練生成詞匯間的同意或翻譯傾向的連接圖,然后用聚類的方法將詞匯聚成褒義和貶義兩類。
漢語意見挖掘方法和技術的研究起步較晚。在漢語文本語義傾向自動識別方面, 徐琳宏、林鴻飛等提出了基于語義理解的文本傾向性識別機制,計算詞匯與知網中已標注褒貶性的詞匯之間的相似度,獲取詞匯的傾向性,加強對文本褒貶義強度的識別;在漢語句子語義極性分析和觀點抽取研究方面,婁德成、姚天昉等利用自然語言處理技術,對漢語語句進行了語義極性分析和觀點抽取,提出了計算詞語的上下文極性的算法,并且分析了主題和極性修飾成分的匹配關系,研究并開發(fā)了用于漢語汽車論壇的意見挖掘系統(tǒng)(姚天昉、 聶青陽等);王素格研究了基于Web的評論文本情感分類問題,進行了多層次語言粒度分析。 目前,中文詞匯傾向性研究和商品評論挖掘才剛剛起步,由于中文和英文的差異,傳統(tǒng)的基于統(tǒng)計的方法很難準確地表達句子的觀點,因此,借助自然語言處理技術,對句子的成分和結構進行語法分析,不僅增強語義理解的可靠性,而且還能提高極性分析的準確性。
但是目前的算法只是單純的針對于短語或者依賴句法分析,這樣就使得分析的精準度不高,尤其是召回率令人不滿意。本發(fā)明因此而來。發(fā)明內容
本發(fā)明目的在于提供一種通過計算機智能分析漢語文字情感傾向的方法,解決了現(xiàn)有技術中通過計算機分析漢語語言精準度不高、召回率令人不滿意等問題。
為了解決現(xiàn)有技術中的這些問題,本發(fā)明提供的技術方案是
一種通過計算機智能分析漢語文字情感傾向的方法,其特征在于所述方法包括以下步驟
(I)讀取漢語文字段落文件,將漢語文字段落文件進行斷句,然后對斷句進行分詞,詞性標注,句法依存關系標注,形成XML文檔;
(2)讀取XML文檔,遍歷句子提取句法依存關系對,基于詞典對提取的詞進行賦值;將正極性詞詞典中的詞賦值為1,負極性詞典中的詞賦值為-I ;程度副詞根據(jù)程度不同分為5個等級,分別賦值為1.8,1.5,1.2,0. 9,O. 5 ;否定副詞根據(jù)否定程度分為-1,-I. 5兩個等級;
(3)遍歷詞典,按照公式情感得分=否定詞*副詞之和*形容詞,獲得漢語文字段落文件的情感得分;根據(jù)情感得分判斷漢語文字段落文件的情感傾向。
優(yōu)選的,所述方法步驟(2)中提取句法依存關系對包括以下步驟
Al)提取斷句中所有的形容詞,根據(jù)形容詞的位置向句首上搜索,判斷形容詞的前面4個詞是否有副詞;如有副詞,則進行記錄保存;
A2)判斷形容詞是否在依存關系對的左側;當形容詞在依存關系對的左側時,查找左側的依存類型并保存相應的詞;否則查找依存關系對右側的依存類型并保存相應的詞;依次循環(huán)。
本發(fā)明技術方案旨在提高文本情感傾向分析的準確率和召回率,本發(fā)明技術方案在進行智能分析前,將漢語文字段落進行斷句后,將句子進行預處理,包括分詞,詞性標注和句法依存關系標記,然后遍歷句子提取關系對。
本發(fā)明技術方案中分詞指將一個漢字序列切分成一個一個單獨的詞。分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程。在英文的行文中,單詞之間是以空格作為自然分界符的,而中文只是字、句和段能通過明顯的分界符來簡單劃界,唯獨詞沒有一個形式上的分界符,雖然英文也同樣存在短語的劃分問題,不過在詞這一層上,中文比之英文要復雜的多、困難的多。
詞性標注即為對給定的一個分好詞的句子,每一個詞附上相應的詞性。例如對晚上喝水進行分詞和詞性標注的過程如下
權利要求
1.一種通過計算機智能分析漢語文字情感傾向的方法,其特征在于所述方法包括以下步驟 (1)讀取漢語文字段落文件,將漢語文字段落文件進行斷句,然后對斷句進行分詞,詞性標注,句法依存關系標注,形成XML文檔; (2)讀取XML文檔,遍歷句子提取句法依存關系對,基于詞典對提取的詞進行賦值;將正極性詞詞典中的詞賦值為1,負極性詞典中的詞賦值為-I ;程度副詞根據(jù)程度不同分為5個等級,分別賦值為I. 8,I. 5,I. 2,O. 9,O. 5 ;否定副詞根據(jù)否定程度分為_1,-I. 5兩個等級; (3)遍歷詞典,按照公式情感得分=否定詞*副詞之和*形容詞,獲得漢語文字段落文件的情感得分;根據(jù)情感得分判斷漢語文字段落文件的情感傾向。
2.根據(jù)權利要求I所述的方法,其特征在于所述方法步驟(2)中提取句法依存關系對包括以下步驟 Al)提取斷句中所有的形容詞,根據(jù)形容詞的位置向句首上搜索,判斷形容詞的前面4個詞是否有副詞;如有副詞,則進行記錄保存; A2)判斷形容詞是否在依存關系對的左側;當形容詞在依存關系對的左側時,查找左側的依存類型并保存相應的詞;否則查找依存關系對右側的依存類型并保存相應的詞;依次循環(huán)。
全文摘要
本發(fā)明公開了一種通過計算機智能分析漢語文字情感傾向的方法,其特征在于所述方法包括以下步驟(1)讀取漢語文字段落文件,將漢語文字段落文件進行斷句,然后對斷句進行分詞,詞性標注,句法依存關系標注,形成XML文檔;(2)讀取XML文檔,遍歷句子提取句法依存關系對,基于詞典對提取的詞進行賦值;將正極性詞詞典中的詞賦值為1,負極性詞典中的詞賦值為-1;程度副詞根據(jù)程度不同分為5個等級,分別賦值為1.8,1.5,1.2,0.9,0.5;否定副詞根據(jù)否定程度分為-1,-1.5兩個等級;(3)遍歷詞典,按照公式情感得分=否定詞*副詞之和*形容詞,獲得漢語文字段落文件的情感得分;根據(jù)情感得分判斷漢語文字段落文件的情感傾向。
文檔編號G06F17/27GK102929863SQ201210438608
公開日2013年2月13日 申請日期2012年11月6日 優(yōu)先權日2012年11月6日
發(fā)明者陳國慶, 王嘉玲 申請人:蘇州兩江科技有限公司