專利名稱:分類器的構(gòu)建方法及裝置、中文文本情感分類方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及自然語(yǔ)言處理及模式識(shí)別技術(shù)領(lǐng)域,尤其涉及一種分類器的構(gòu)建方法及裝置、中文文本情感分類方法及系統(tǒng)。
背景技術(shù):
隨著Web2.0的蓬勃發(fā)展,互聯(lián)網(wǎng)上產(chǎn)生了大量大眾對(duì)于人物、事件、產(chǎn)品的等帶有感情色彩的評(píng)論信息,用戶通過(guò)瀏覽這些評(píng)論信息可以了解大眾輿論對(duì)于某一事件或產(chǎn)品的看法,由于評(píng)論信息的信息量較大,用戶如果單純地依靠人工去收集和整理,會(huì)浪費(fèi)大量的時(shí)間和精力,因此,迫切需要利用計(jì)算機(jī)幫助用戶快速獲取和整理這些評(píng)論信息,文本情感分析技術(shù)應(yīng)運(yùn)而生。所謂文本情感分析,就是利用計(jì)算機(jī)幫助用戶快速獲取、整理和分析評(píng)論信息,對(duì)帶有情感色彩的主觀性文本進(jìn)行分析、處理、歸納和推理的過(guò)程。其中,文本情感分類是文本情感分析的一項(xiàng)基本內(nèi)容,其按不同的粒度可分為句子級(jí)、篇章級(jí)等,對(duì)于句子級(jí)和篇章級(jí),文本情感分類是指將文本分為正面文本和負(fù)面文本,例如,“我很喜歡這個(gè)產(chǎn)品”,通過(guò)文本情感分類,這句話將被分類為正面文本,而“這本書(shū)是在太差了”將被分類為負(fù)面文本。目前,常用的文本情感分類方法是基于監(jiān)督方法的,該方法用領(lǐng)域被標(biāo)記的數(shù)據(jù)訓(xùn)練特定領(lǐng)域的分類,這種方法雖然取得了較好的分類效果,但由于其需要大量人工標(biāo)注語(yǔ)料庫(kù),因此,構(gòu)建分類器的時(shí)間較長(zhǎng),而且,如果換一個(gè)領(lǐng)域就必須重新標(biāo)注語(yǔ)料,即領(lǐng)域依賴性較大。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明提供了一種分類器的構(gòu)建方法及裝置、中文文本情感分類方法及系統(tǒng),用以解決現(xiàn)有的分類方法構(gòu)建分類器的時(shí)間較長(zhǎng)且應(yīng)用領(lǐng)域依賴性較大的問(wèn)題。其技術(shù)方案如下一種分類器的構(gòu)建方法,包括獲取待標(biāo)注樣本集并從所述待標(biāo)注樣本集中獲取一個(gè)待標(biāo)注樣本,其中,所述待標(biāo)注樣本集包括至少兩個(gè)待標(biāo)注樣本;查找所述待標(biāo)注樣本中的情感詞,并獲取每個(gè)情感詞的情感極性,其中,所述情感極性包括正面和負(fù)面;轉(zhuǎn)變所述待標(biāo)注樣本中符合情感極性轉(zhuǎn)變規(guī)則的情感詞的情感極性;統(tǒng)計(jì)所述待標(biāo)注樣本中情感極性為正面的情感詞的數(shù)量和情感極性為負(fù)面的情感詞的數(shù)量;根據(jù)所述情感極性為正面的情感詞的數(shù)量與情感極性為負(fù)面的情感詞的數(shù)量確定所述待標(biāo)注樣本的情感極性,得到標(biāo)注樣本;依據(jù)所述標(biāo)注樣本利用自學(xué)習(xí)的方法對(duì)所述待標(biāo)注樣本集中其它待標(biāo)注樣本進(jìn)行標(biāo)注,得到標(biāo)注樣本集;
利用所述標(biāo)注樣本集中的標(biāo)注樣本構(gòu)建最大熵分類器。優(yōu)選地,轉(zhuǎn)變所述待標(biāo)注樣本中符合情感極性轉(zhuǎn)變規(guī)則的情感詞的情感極性包括如果待標(biāo)注樣本中的情感詞所在的句子中出現(xiàn)了否定關(guān)鍵詞,則轉(zhuǎn)變?cè)撉楦性~的情感極性;如果待標(biāo)注樣本中的情感詞所在的句子的下一句或下一段落出現(xiàn)了轉(zhuǎn)折關(guān)鍵詞,則轉(zhuǎn)變?cè)撉楦性~的情感極性;和/或,如果待標(biāo)注樣本中的情感詞所在的句子出現(xiàn)了能愿關(guān)鍵詞,則轉(zhuǎn)變?cè)撉楦性~的情感極性。優(yōu)選地,所述根據(jù)所述情感極性為正面的情感詞的數(shù)量與情感極性為負(fù)面的情感詞的數(shù)量確定所述待標(biāo)注樣本的情感極性包括如果情感極性為正面的情感詞的數(shù)量與情感極性為負(fù)面的情感詞的數(shù)量的差值大于設(shè)定閾值,則確定所述待標(biāo)注樣本的情感極性為正面;如果情感極性為負(fù)面的情感詞的數(shù)量與情感極性為正面的情感詞的數(shù)量的差值大于所述設(shè)定閾值,則確定所述待標(biāo)注樣本的情感極性為負(fù)面。優(yōu)選地,根據(jù)所述情感極性為正面的情感詞的數(shù)量與情感極性為負(fù)面的情感詞的數(shù)量確定所述待標(biāo)注樣本的情感極性,得到標(biāo)注樣本包括利用所述標(biāo)注樣本構(gòu)建最大熵分類器;利用所述最大熵分類器對(duì)所述待標(biāo)注樣本集中其它待標(biāo)注樣本進(jìn)行標(biāo)分類,得到分類結(jié)果;根據(jù)所述分類結(jié)果確定每個(gè)待標(biāo)注樣本的情感極性,得到標(biāo)注樣本集。一種中文文本情感分類方法,包括上述的分類器的構(gòu)建方法,還包括利用構(gòu)建的最大熵分類器對(duì)待分類的中文文本進(jìn)行分類?!N分類器的構(gòu)建裝置,包括獲取單元、查找單元、極性轉(zhuǎn)變單元、統(tǒng)計(jì)單元、確定單元、自學(xué)習(xí)單元和分類器構(gòu)建單元;所述獲取單元,用于獲取待標(biāo)注樣本集并從所述待標(biāo)注樣本集中獲取一個(gè)待標(biāo)注樣本,其中,所述待標(biāo)注樣本集包括至少兩個(gè)待標(biāo)注樣本;所述查找單元,用于查找所述待標(biāo)注樣本中的情感詞,并獲取每個(gè)情感詞的情感極性,其中,所述情感極性包括正面和負(fù)面;所述極性轉(zhuǎn)變單元,用于轉(zhuǎn)變所述待標(biāo)注樣本中符合情感極性轉(zhuǎn)變規(guī)則的情感詞的情感極性; 所述統(tǒng)計(jì)單元,用于統(tǒng)計(jì)所述待標(biāo)注樣本中情感極性為正面的情感詞的數(shù)量和情感極性為負(fù)面的情感詞的數(shù)量;所述確定單元,用于根據(jù)所述情感極性為正面的情感詞的數(shù)量與情感極性為負(fù)面的情感詞的數(shù)量確定所述待標(biāo)注樣本的情感極性,得到標(biāo)注樣本;所述自學(xué)習(xí)單元,用于依據(jù)所述標(biāo)注樣本利用自學(xué)習(xí)的方法對(duì)所述待標(biāo)注樣本集中其它待標(biāo)注樣本進(jìn)行標(biāo)注,得到標(biāo)注樣本集;所述分類器構(gòu)建單元,用于利用所述標(biāo)注樣本集中的標(biāo)注樣本構(gòu)建最大熵分類器。
優(yōu)選地,所述極性轉(zhuǎn)變單元包括第一極性轉(zhuǎn)變子單元、第二極性轉(zhuǎn)變子單元和/或第三極性轉(zhuǎn)變子單元;所述第一極性轉(zhuǎn)變子單元,用于當(dāng)待標(biāo)注樣本中的情感詞所在的句子中出現(xiàn)了否定關(guān)鍵詞時(shí),轉(zhuǎn)變?cè)撉楦性~的情感極性;所述第二極性轉(zhuǎn)變子單元,用于當(dāng)待標(biāo)注樣本中的情感詞所在的句子的下一句或下一段落出現(xiàn)了轉(zhuǎn)折關(guān)鍵詞時(shí),轉(zhuǎn)變?cè)撉楦性~的情感極性;所述第三極性轉(zhuǎn)變子單元,用于當(dāng)待標(biāo)注樣本中的情感詞所在的句子出現(xiàn)了能愿關(guān)鍵詞時(shí),轉(zhuǎn)變?cè)撉楦性~的情感極性。優(yōu)選地,所述確定單元包括第一確定子單元和第二確定子單元;所述第一確定子單元,用于當(dāng)情感極性為正面的情感詞的數(shù)量與情感極性為負(fù)面的情感詞的數(shù)量的差值大于設(shè)定閾值時(shí),確定所述待標(biāo)注樣本的情感極性為正面;所述第二確定子單元,用于當(dāng)情感極性為負(fù)面的情感詞的數(shù)量與情感極性為正面的情感詞的數(shù)量的差值大于所述設(shè)定閾值時(shí),確定所述待標(biāo)注樣本的情感極性為負(fù)面。優(yōu)選地,所述自學(xué)習(xí)單元包括分類器構(gòu)建子單元、分類子單元和第三確定子單元;所述分類器構(gòu)建子單元,用于利用所述標(biāo)注樣本構(gòu)建最大熵分類器;所述分類子單元,用于利用所述最大熵分類器對(duì)所述待標(biāo)注樣本集中其它待標(biāo)注樣本進(jìn)行標(biāo)分類,得到分類結(jié)果;第三確定子單元,用于根據(jù)所述分類結(jié)果確定每個(gè)待標(biāo)注樣本的情感極性?!N中文文本情感分類系統(tǒng),包括上述的分類器的構(gòu)建裝置,還包括分類單元;所述分類單元,用于利用所述分類器的構(gòu)建裝置構(gòu)建的最大熵分類器對(duì)待分類的中文文本進(jìn)行分類。本發(fā)明提供的分類器的構(gòu)建方法及裝置、中文文本情感分類方法及系統(tǒng),應(yīng)用情感極性轉(zhuǎn)變規(guī)則對(duì)情感器的情感極性進(jìn)行極性轉(zhuǎn)變,并且依據(jù)標(biāo)注樣本利用自學(xué)習(xí)的方法對(duì)待標(biāo)注樣本集中其它待標(biāo)注樣本進(jìn)行標(biāo)注,將根據(jù)標(biāo)注樣本集的標(biāo)注樣本構(gòu)建的最大熵分類器作為中文文本情感分類的分類器。本發(fā)明提供的分類器的構(gòu)建方法及裝置、中文文本情感分類方法及系統(tǒng),避免了人工標(biāo)注訓(xùn)練樣本浪費(fèi)的人耗代價(jià),縮短了用于中文文本情感分類的分類器的構(gòu)建時(shí)間,同時(shí),提高了中文文本情感分類的正確率。
為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)提供的附圖獲得其他的附圖。圖1為本發(fā)明實(shí)施例提供的分類器的構(gòu)建方法的流程示意圖;圖2為本發(fā)明實(shí)施例提供的中文文本情感分類系統(tǒng)的結(jié)構(gòu)示意圖。
具體實(shí)施例方式下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。本發(fā)明提供了一種分類器的構(gòu)建方法,圖1為該方法的流程圖,該方法可以包括SlOl :獲取待標(biāo)注樣本集并從所述標(biāo)注樣本集中獲取一個(gè)待標(biāo)注樣本,其中,待標(biāo)注樣本集包括至少兩個(gè)待標(biāo)注樣本。S102 :查找待標(biāo)注樣本中的情感詞,并獲取每個(gè)情感詞的情感極性,其中,情感詞的情感極性包括正面和負(fù)面。S103 :轉(zhuǎn)變待標(biāo)注樣本中符合情感極性轉(zhuǎn)變規(guī)則的情感詞的情感極性。 S104 :統(tǒng)計(jì)待標(biāo)注樣本中情感極性為正面的情感詞的數(shù)量和情感極性為負(fù)面的情感詞的數(shù)量。S105 :根據(jù)情感極性為正面的情感詞的數(shù)量與情感極性為負(fù)面的情感詞的數(shù)量確定待標(biāo)注樣本的情感極性,得到標(biāo)注樣本。S106 :依據(jù)標(biāo)注樣本利用自學(xué)習(xí)的方法對(duì)待標(biāo)注樣本集中其它待標(biāo)注樣本進(jìn)行標(biāo)注,得到標(biāo)注樣本集,該標(biāo)注樣本集中包括了所有的標(biāo)注樣本。S107 :利用標(biāo)注樣本集中的標(biāo)注樣本構(gòu)建最大熵分類器。在本發(fā)明的另一實(shí)施例中,步驟S102可以包括對(duì)照預(yù)置的情感詞與情感極性的對(duì)應(yīng)表,在待標(biāo)注樣本中查找情感詞,并根據(jù)對(duì)應(yīng)表獲取與情感詞對(duì)應(yīng)的情感極性。表I給出了一情感詞與情感極性的對(duì)應(yīng)表需要說(shuō)明的是,本實(shí)施例并不限定于表I所列舉的情感詞,還可有其它情感詞。表I
權(quán)利要求
1.一種分類器的構(gòu)建方法,其特征在于,包括 獲取待標(biāo)注樣本集并從所述待標(biāo)注樣本集中獲取一個(gè)待標(biāo)注樣本,其中,所述待標(biāo)注樣本集包括至少兩個(gè)待標(biāo)注樣本; 查找所述待標(biāo)注樣本中的情感詞,并獲取每個(gè)情感詞的情感極性,其中,所述情感極性包括正面和負(fù)面; 轉(zhuǎn)變所述待標(biāo)注樣本中符合情感極性轉(zhuǎn)變規(guī)則的情感詞的情感極性; 統(tǒng)計(jì)所述待標(biāo)注樣本中情感極性為正面的情感詞的數(shù)量和情感極性為負(fù)面的情感詞的數(shù)量; 根據(jù)所述情感極性為正面的情感詞的數(shù)量與情感極性為負(fù)面的情感詞的數(shù)量確定所述待標(biāo)注樣本的情感極性,得到標(biāo)注樣本; 依據(jù)所述標(biāo)注樣本利用自學(xué)習(xí)的方法對(duì)所述待標(biāo)注樣本集中其它待標(biāo)注樣本進(jìn)行標(biāo)注,得到標(biāo)注樣本集; 利用所述標(biāo)注樣本集中的標(biāo)注樣本構(gòu)建最大熵分類器。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,轉(zhuǎn)變所述待標(biāo)注樣本中符合情感極性轉(zhuǎn)變規(guī)則的情感詞的情感極性包括 如果待標(biāo)注樣本中的情感詞所在的句子中出現(xiàn)了否定關(guān)鍵詞,則轉(zhuǎn)變?cè)撉楦性~的情感極性; 如果待標(biāo)注樣本中的情感詞所在的句子的下一句或下一段落出現(xiàn)了轉(zhuǎn)折關(guān)鍵詞,則轉(zhuǎn)變?cè)撉楦性~的情感極性; 和/或,如果待標(biāo)注樣本中的情感詞所在的句子出現(xiàn)了能愿關(guān)鍵詞,則轉(zhuǎn)變?cè)撉楦性~的情感極性。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述情感極性為正面的情感詞的數(shù)量與情感極性為負(fù)面的情感詞的數(shù)量確定所述待標(biāo)注樣本的情感極性包括 如果情感極性為正面的情感詞的數(shù)量與情感極性為負(fù)面的情感詞的數(shù)量的差值大于設(shè)定閾值,則確定所述待標(biāo)注樣本的情感極性為正面; 如果情感極性為負(fù)面的情感詞的數(shù)量與情感極性為正面的情感詞的數(shù)量的差值大于所述設(shè)定閾值,則確定所述待標(biāo)注樣本的情感極性為負(fù)面。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,依據(jù)所述標(biāo)注樣本利用自學(xué)習(xí)的方法對(duì)所述待標(biāo)注樣本集中其它待標(biāo)注樣本進(jìn)行標(biāo)注,得到標(biāo)注樣本集包括 利用所述標(biāo)注樣本構(gòu)建最大熵分類器; 利用所述最大熵分類器對(duì)所述待標(biāo)注樣本集中其它待標(biāo)注樣本進(jìn)行標(biāo)分類,得到分類結(jié)果; 根據(jù)所述分類結(jié)果確定每個(gè)待標(biāo)注樣本的情感極性,得到標(biāo)注樣本集。
5.一種中文文本情感分類方法,其特征在于,包括如權(quán)利要求1-4中任意一項(xiàng)所述的分類器的構(gòu)建方法,還包括 利用構(gòu)建的最大熵分類器對(duì)待分類的中文文本進(jìn)行分類。
6.一種分類器的構(gòu)建裝置,其特征在于,包括獲取單元、查找單元、極性轉(zhuǎn)變單元、統(tǒng)計(jì)單元、確定單元、自學(xué)習(xí)單元和分類器構(gòu)建單元; 所述獲取單元,用于獲取待標(biāo)注樣本集并從所述待標(biāo)注樣本集中獲取一個(gè)待標(biāo)注樣本,其中,所述待標(biāo)注樣本集包括至少兩個(gè)待標(biāo)注樣本; 所述查找單元,用于查找所述待標(biāo)注樣本中的情感詞,并獲取每個(gè)情感詞的情感極性,其中,所述情感極性包括正面和負(fù)面; 所述極性轉(zhuǎn)變單元,用于轉(zhuǎn)變所述待標(biāo)注樣本中符合情感極性轉(zhuǎn)變規(guī)則的情感詞的情感極性; 所述統(tǒng)計(jì)單元,用于統(tǒng)計(jì)所述待標(biāo)注樣本中情感極性為正面的情感詞的數(shù)量和情感極性為負(fù)面的情感詞的數(shù)量; 所述確定單元,用于根據(jù)所述情感極性為正面的情感詞的數(shù)量與情感極性為負(fù)面的情感詞的數(shù)量確定所述待標(biāo)注樣本的情感極性,得到標(biāo)注樣本; 所述自學(xué)習(xí)單元,用于依據(jù)所述標(biāo)注樣本利用自學(xué)習(xí)的方法對(duì)所述待標(biāo)注樣本集中其它待標(biāo)注樣本進(jìn)行標(biāo)注,得到標(biāo)注樣本集; 所述分類器構(gòu)建單元,用于利用所述標(biāo)注樣本集中的標(biāo)注樣本構(gòu)建最大熵分類器。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述極性轉(zhuǎn)變單元包括第一極性轉(zhuǎn)變子單元、第二極性轉(zhuǎn)變子單元和/或第三極性轉(zhuǎn)變子單元; 所述第一極性轉(zhuǎn)變子單元,用于當(dāng)待標(biāo)注樣本中的情感詞所在的句子中出現(xiàn)了否定關(guān)鍵詞時(shí),轉(zhuǎn)變?cè)撉楦性~的情感極性; 所述第二極性轉(zhuǎn)變子單元,用于當(dāng)待標(biāo)注樣本中的情感詞所在的句子的下一句或下一段落出現(xiàn)了轉(zhuǎn)折關(guān)鍵詞時(shí),轉(zhuǎn)變?cè)撉楦性~的情感極性; 所述第三極性轉(zhuǎn)變子單元,用于當(dāng)待標(biāo)注樣本中的情感詞所在的句子出現(xiàn)了能愿關(guān)鍵詞時(shí),轉(zhuǎn)變?cè)撉楦性~的情感極性。
8.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述確定單元包括第一確定子單元和第二確定子單元; 所述第一確定子單元,用于當(dāng)情感極性為正面的情感詞的數(shù)量與情感極性為負(fù)面的情感詞的數(shù)量的差值大于設(shè)定閾值時(shí),確定所述待標(biāo)注樣本的情感極性為正面; 所述第二確定子單元,用于當(dāng)情感極性為負(fù)面的情感詞的數(shù)量與情感極性為正面的情感詞的數(shù)量的差值大于所述設(shè)定閾值時(shí),確定所述待標(biāo)注樣本的情感極性為負(fù)面。
9.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述自學(xué)習(xí)單元包括分類器構(gòu)建子單元、分類子單元和第三確定子單元; 所述分類器構(gòu)建子單元,用于利用所述標(biāo)注樣本構(gòu)建最大熵分類器; 所述分類子單元,用于利用所述最大熵分類器對(duì)所述待標(biāo)注樣本集中其它待標(biāo)注樣本進(jìn)行標(biāo)分類,得到分類結(jié)果; 第三確定子單元,用于根據(jù)所述分類結(jié)果確定每個(gè)待標(biāo)注樣本的情感極性。
10.一種中文文本情感分類系統(tǒng),其特征在于,包括如權(quán)利要求6-9中任意一項(xiàng)所述的分類器的構(gòu)建裝置,還包括分類單元; 所述分類單元,用于利用所述分類器的構(gòu)建裝置構(gòu)建的最大熵分類器對(duì)待分類的中文文本進(jìn)行分類。
全文摘要
本申請(qǐng)?zhí)峁┝艘环N分類器的構(gòu)建方法及裝置、中文文本情感分類方法及系統(tǒng),分類方法包括從待標(biāo)注樣本集中獲取一個(gè)待標(biāo)注樣本,查找待標(biāo)注樣本中的情感詞并獲取每個(gè)情感詞的情感極性,轉(zhuǎn)變待標(biāo)注樣本中符合情感極性轉(zhuǎn)變規(guī)則的情感詞的情感極性;統(tǒng)計(jì)待標(biāo)注樣本中情感極性為正面和負(fù)面的情感詞的數(shù)量;根據(jù)情感極性為正面的情感詞的數(shù)量與情感極性為負(fù)面的情感詞的數(shù)量確定待標(biāo)注樣本的情感極性,得到標(biāo)注樣本;利用標(biāo)注樣本對(duì)待標(biāo)注樣本集中其它待標(biāo)注樣本進(jìn)行標(biāo)注,得到標(biāo)注樣本集;利用標(biāo)注樣本集中構(gòu)建最大熵分類器,利用最大熵分類器對(duì)待分類的中文文本進(jìn)行分類。本申請(qǐng)?zhí)峁┑姆椒?、裝置及系統(tǒng)縮短了中文文本的分類時(shí)間,提高了分類準(zhǔn)確率。
文檔編號(hào)G06F17/28GK103020249SQ20121055644
公開(kāi)日2013年4月3日 申請(qǐng)日期2012年12月19日 優(yōu)先權(quán)日2012年12月19日
發(fā)明者李壽山, 張小倩, 周國(guó)棟 申請(qǐng)人:蘇州大學(xué)