多種語(yǔ)言文本數(shù)據(jù)分類處理方法
【專利摘要】本發(fā)明公開(kāi)了一種自學(xué)習(xí)的涉及多語(yǔ)言數(shù)據(jù)處理分類方法,包括通過(guò)第一種子詞中文或者外文“很”抽取候選情感詞,然后進(jìn)行停用詞過(guò)濾,停用詞表從語(yǔ)料庫(kù)中自動(dòng)獲??;步驟2,通過(guò)第二種子詞“好”和第三種子詞“差”或者外文“好”“差”對(duì)情感詞和情感文本同時(shí)進(jìn)行支持或反對(duì)聚類;通過(guò)半監(jiān)督學(xué)習(xí)構(gòu)建情感分類器,先從聚類的結(jié)果中挑選確信的樣本訓(xùn)練初始分類器,然后融合文本的情感得分和分類器的后驗(yàn)概率來(lái)挑選新樣本加入訓(xùn)練集。本發(fā)明提出的面向多語(yǔ)言傾向性分析的方法是語(yǔ)言無(wú)關(guān)的,無(wú)需借助機(jī)器翻譯系統(tǒng)和大規(guī)模雙語(yǔ)詞典,直接在目標(biāo)語(yǔ)言上學(xué)習(xí)情感分類器,具有最小資源依賴性,對(duì)于每種目標(biāo)語(yǔ)言,僅僅需要三個(gè)種子詞而不需要其他先驗(yàn)知識(shí)。
【專利說(shuō)明】多種語(yǔ)言文本數(shù)據(jù)分類處理方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,涉及海量文本數(shù)據(jù)傾向性分析,尤其是面向多語(yǔ)言(不熟悉語(yǔ)言)的自動(dòng)情感分類方法。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)的快速發(fā)展和全球化進(jìn)程的加快,因特網(wǎng)所提供的信息資源呈現(xiàn)出多語(yǔ)言化的特點(diǎn)。全球標(biāo)準(zhǔn)互聯(lián)網(wǎng)用戶調(diào)查和分析權(quán)威機(jī)構(gòu)Nielsen Net Ratings的調(diào)查數(shù)據(jù)顯示,從2000年到2008年的9年間,全世界各種語(yǔ)言的網(wǎng)絡(luò)使用增長(zhǎng)率達(dá)到305. 5%。因特網(wǎng)資源的多語(yǔ)言性及用戶對(duì)母語(yǔ)和非母語(yǔ)熟悉程度的差異性,不可避免地給用戶利用網(wǎng)絡(luò)信息帶來(lái)了語(yǔ)言障礙。
[0003]網(wǎng)絡(luò)正悄然無(wú)息地影響著人們的生活習(xí)慣,隨著論壇、博客、評(píng)論、微博等網(wǎng)絡(luò)交流平臺(tái)不斷涌現(xiàn),人們?cè)絹?lái)越習(xí)慣于在網(wǎng)上發(fā)表主觀性的言論,這些言論用于表達(dá)自己對(duì)于日常事件、產(chǎn)品、政策等的觀點(diǎn)和看法,使得網(wǎng)上存在大量帶有情感傾向性的文本。情感分析是一種重要的信息組織方式,研究的是自動(dòng)挖掘和分析文本中的立場(chǎng)、觀點(diǎn)、看法、情緒、好惡等主觀信息。
[0004]多語(yǔ)言情感分析具有極其重要的研究意義:
[0005]從理論上看,情感傾向性分析是自然語(yǔ)言處理、人工智能、甚至認(rèn)知科學(xué)領(lǐng)域所面臨的重要研究課題之一。情感傾向性研究所取得的每一個(gè)進(jìn)步,都有助于加深我們對(duì)人類的智能、語(yǔ)言、思維等問(wèn)題的了解。
[0006]網(wǎng)絡(luò)因其開(kāi)放性和虛擬性,已經(jīng)成為民意表達(dá)的重要通道和空間。利用多語(yǔ)言的情感傾向性分析技術(shù),可以更加及時(shí)地了解世界各地網(wǎng)絡(luò)社會(huì)民意。
[0007]同時(shí),多數(shù)產(chǎn)品生產(chǎn)、銷售廠商希望通過(guò)跟蹤用戶對(duì)產(chǎn)品的回饋意見(jiàn)來(lái)獲得改進(jìn)產(chǎn)品質(zhì)量的針對(duì)性意見(jiàn);潛在的消費(fèi)者也希望通過(guò)網(wǎng)上真實(shí)的評(píng)價(jià)信息來(lái)調(diào)整個(gè)人的購(gòu)買意向。利用多語(yǔ)言情感傾向性分析技術(shù)對(duì)多語(yǔ)言的產(chǎn)品評(píng)論觀點(diǎn)進(jìn)行組織和分類,有利于人們更全面地了解產(chǎn)品,培育潛在消費(fèi)群體。
[0008]綜上所述,多語(yǔ)言情感傾向性分析研究不但具有深遠(yuǎn)的理論價(jià)值,而且有著廣闊的應(yīng)用前景,可以創(chuàng)造較大的社會(huì)和經(jīng)濟(jì)效益。
[0009]近年來(lái),特定語(yǔ)言(比如英文或中文)的情感傾向性研究取得了很大的進(jìn)步,然而多語(yǔ)言(非特定語(yǔ)言或不熟悉語(yǔ)言)的情感傾向性研究卻沒(méi)有太大突破。
[0010]通常情況下,多語(yǔ)言的情感分類主要通過(guò)跨語(yǔ)言的思路來(lái)解決,大致歸納為以下二種:
[0011]米用 KCCA (Kernel Canonical Correlation Analysis)、LSI (Latent SemanticIndexing)等方法,不依賴于翻譯資源,以平行語(yǔ)料為基礎(chǔ)完成源和目標(biāo)語(yǔ)言的空間轉(zhuǎn)換。LSI方法是跨語(yǔ)言信息檢索領(lǐng)域常用的僅依據(jù)平行語(yǔ)料就可以進(jìn)行源和目標(biāo)語(yǔ)言空間轉(zhuǎn)換的方法。但是,雙語(yǔ)平行語(yǔ)料依然是稀缺資源,大規(guī)模的雙語(yǔ)平行語(yǔ)料獲取不易,而且每切換一種語(yǔ)言就需要一批雙語(yǔ)平行語(yǔ)料,代價(jià)太高。[0012]借助統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)來(lái)進(jìn)行跨語(yǔ)言情感分類器遷移。一方面,可以將有標(biāo)注的源語(yǔ)言數(shù)據(jù)集翻譯成目標(biāo)語(yǔ)言,然后在翻譯后的訓(xùn)練語(yǔ)料上訓(xùn)練分類器對(duì)測(cè)試集進(jìn)行判別;另一方面,可以將目標(biāo)語(yǔ)言測(cè)試集翻譯成源語(yǔ)言,然后直接應(yīng)用在源語(yǔ)言上訓(xùn)練的分類器。然而,基于機(jī)器翻譯的方法會(huì)損失跨語(yǔ)言情感分析的精度。一方面,機(jī)器翻譯系統(tǒng)生成唯一解,所以翻譯未必正確;另一方面,機(jī)器翻譯系統(tǒng)依賴于訓(xùn)練集,當(dāng)目標(biāo)語(yǔ)言的領(lǐng)域與訓(xùn)練集相差較大時(shí)性能不佳。
[0013]借助雙語(yǔ)詞典來(lái)進(jìn)行跨語(yǔ)言情感分類器遷移。在有監(jiān)督學(xué)習(xí)中,可以先在源語(yǔ)言上學(xué)習(xí)情感分類器,然后借助雙語(yǔ)詞典將特征空間翻譯成目標(biāo)語(yǔ)言;在無(wú)監(jiān)督學(xué)習(xí)中,可以將源語(yǔ)言的情感詞典通過(guò)雙語(yǔ)詞典翻譯成目標(biāo)語(yǔ)言。然而,大部分基于雙語(yǔ)詞典的工作在選取翻譯詞的時(shí)候沒(méi)有考慮情感詞的上下文依賴關(guān)系。此外,情感詞的極性(支持或反對(duì))具有領(lǐng)域依賴性,面對(duì)不同實(shí)體會(huì)表現(xiàn)出不同極性,所以將通用的情感詞典用于特定領(lǐng)域往往性能不佳。
[0014]綜上所述,多語(yǔ)言的情感傾向性分析主要存在以下兩個(gè)問(wèn)題:
[0015](I)多語(yǔ)言情感分析過(guò)于依賴外部資源
[0016]大部分多語(yǔ)言情感分析技術(shù)是依賴于機(jī)器翻譯或者雙語(yǔ)詞典的。如果沒(méi)有機(jī)器翻譯系統(tǒng)或編纂好的雙語(yǔ)詞典,多語(yǔ)言情感分析的工作將很難進(jìn)行。
[0017](2)多語(yǔ)言情感分析性能差強(qiáng)人意
[0018]首先,基于機(jī)器翻譯的方法會(huì)損失跨語(yǔ)言情感分析的精度。其次,大部分基于雙語(yǔ)詞典的工作在選取翻譯詞的時(shí)候沒(méi)有考慮情感詞的上下文依賴關(guān)系。最后,不同語(yǔ)言的情感表達(dá)差異很大,從原始空間導(dǎo)出的模型被轉(zhuǎn)換到目標(biāo)語(yǔ)言空間時(shí)存在信息損失。
【發(fā)明內(nèi)容】
[0019]為了解決上述問(wèn)題,本發(fā)明的目的在于公開(kāi)多種語(yǔ)言文本數(shù)據(jù)分類處理方法及系統(tǒng),在既不借助外部資源(統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)和雙語(yǔ)詞典),也沒(méi)有任何標(biāo)注數(shù)據(jù)的情況下,僅僅用三個(gè)種子詞去完成多語(yǔ)言的自動(dòng)情感分類,這種語(yǔ)言無(wú)關(guān)的解決方案不僅具有最少的資源依賴性,而且實(shí)際分類性能可以接近或超過(guò)基于翻譯的方法。
[0020]具體地講,本發(fā)明公開(kāi)了一種自學(xué)習(xí)的涉及多語(yǔ)言數(shù)據(jù)處理分類方法,包括如下步驟:
[0021]步驟1,通過(guò)第一種子詞中文或者外文“很”抽取候選情感詞,然后進(jìn)行停用詞過(guò)濾,停用詞表從語(yǔ)料庫(kù)中自動(dòng)獲??;
[0022]步驟I具體包括:
[0023]步驟21,統(tǒng)計(jì)語(yǔ)料庫(kù)中所有詞的詞頻,將超過(guò)一定閾值的高頻詞看作停用詞,自動(dòng)獲得停用詞表;
[0024]步驟22,如果停用詞表中出現(xiàn)情感詞(情感詞通過(guò)“很”自動(dòng)獲取后),則將情感詞自動(dòng)濾除,只保留非情感詞的停用詞,得到非情感詞集合。
[0025]步驟2,通過(guò)第二種子詞“好”和第三種子詞“差”或者外文“好” “差”對(duì)情感詞和情感文本同時(shí)進(jìn)行支持或反對(duì)聚類;
[0026]步驟2具體包括:
[0027]步驟31,對(duì)情感詞和情感文本進(jìn)行粗略標(biāo)注為正/負(fù);文本中所包含的所有情感詞均被賦予相同的傾向性;
[0028]步驟32,對(duì)每個(gè)情感詞指定一個(gè)唯一的極性,引入KL距離法對(duì)極性模糊的情感詞進(jìn)行消歧;
[0029]步驟33,對(duì)情感詞和情感文本進(jìn)行迭代聚類;
[0030]步驟34,用消歧后的情感詞來(lái)重新標(biāo)注情感文本作為標(biāo)注集,然后再用該標(biāo)注集重新標(biāo)注情感詞,如此反復(fù),迭代進(jìn)行。
[0031]步驟3,通過(guò)半監(jiān)督學(xué)習(xí)構(gòu)建情感分類器,先從步驟2聚類的結(jié)果中挑選確信的樣本訓(xùn)練初始分類器,然后融合文本的情感得分和分類器的后驗(yàn)概率來(lái)挑選新樣本加入訓(xùn)練集。
[0032]步驟3具體包括:
[0033]步驟41,從標(biāo)注集中挑選最確信的樣本作為初始訓(xùn)練集,然后在初始訓(xùn)練集上訓(xùn)練分類器;
[0034]步驟42,從分類器的預(yù)測(cè)結(jié)果中挑選最確信的樣本加入訓(xùn)練集重新訓(xùn)練分類器,迭代進(jìn)行。
[0035]步驟41具體包括:
[0036]步驟51,將所有的文本按照情感詞得分進(jìn)行排序,然后挑選得分最高的文本作為初始集,用于提聞初始訓(xùn)練集的準(zhǔn)確率;
[0037]步驟52,新機(jī)制將分類器生成的后驗(yàn)概率和文本的情感得分相加,用于防止自學(xué)習(xí)過(guò)程中的分類偏移。
[0038]所述的涉及多語(yǔ)言數(shù)據(jù)處理分類方法,步驟2還包括步驟24,對(duì)于集合S中的每一個(gè)詞統(tǒng)計(jì)“很”的出現(xiàn)頻率,并根據(jù)公式計(jì)算權(quán)重:
[0039]
【權(quán)利要求】
1.一種自學(xué)習(xí)的涉及多語(yǔ)言數(shù)據(jù)處理分類方法,其特征在于,包括如下步驟: 步驟1,通過(guò)第一種子詞中文或者外文“很”抽取候選情感詞,然后進(jìn)行停用詞過(guò)濾,停用詞表從語(yǔ)料庫(kù)中自動(dòng)獲?。? 步驟2,通過(guò)第二種子詞“好”和第三種子詞“差”或者外文“好” “差”對(duì)情感詞和情感文本同時(shí)進(jìn)行支持或反對(duì)聚類; 步驟3,通過(guò)半監(jiān)督學(xué)習(xí)構(gòu)建情感分類器,先從步驟2聚類的結(jié)果中挑選確信的樣本訓(xùn)練初始分類器,然后融合文本的情感得分和分類器的后驗(yàn)概率來(lái)挑選新樣本加入訓(xùn)練集。
2.如權(quán)利要求1所述的涉及多語(yǔ)言數(shù)據(jù)處理分類方法,其特征在于,所述步驟I包括: 步驟21,統(tǒng)計(jì)語(yǔ)料庫(kù)中所有詞的詞頻,將超過(guò)一定閾值的高頻詞看作停用詞,自動(dòng)獲得停用詞表; 步驟22,如果停用詞表中出現(xiàn)情感詞,則將情感詞濾除,只保留非情感詞的停用詞,得到非情感詞集合。
3.如權(quán)利要求2所述的涉及多語(yǔ)言數(shù)據(jù)處理分類方法,其特征在于,所述步驟2包括: 步驟31,對(duì)情感詞和情感文本進(jìn)行粗略標(biāo)注為正/負(fù);文本中所包含的所有情感詞均被賦予相同的傾向性; 步驟32,對(duì)每個(gè)情感詞指定一個(gè)唯一的極性,引入KL距離法對(duì)極性模糊的情感詞進(jìn)行消歧; 步驟33,對(duì)情感詞和情感文本進(jìn)行迭代聚類; 步驟34,用消歧后的情感詞 來(lái)重新標(biāo)注情感文本作為標(biāo)注集,然后再用該標(biāo)注集重新標(biāo)注情感詞,如此反復(fù),迭代進(jìn)行。
4.如權(quán)利要求3所述的涉及多語(yǔ)言數(shù)據(jù)處理分類方法,其特征在于,所述步驟3包括: 步驟41,從標(biāo)注集中挑選最確信的樣本作為初始訓(xùn)練集,然后在初始訓(xùn)練集上訓(xùn)練分類器; 步驟42,從分類器的預(yù)測(cè)結(jié)果中挑選最確信的樣本加入訓(xùn)練集重新訓(xùn)練分類器,迭代進(jìn)行。
5.如權(quán)利要求3所述的涉及多語(yǔ)言數(shù)據(jù)處理分類方法,其特征在于,所述步驟3包括: 步驟43,將所有的文本按照情感詞得分進(jìn)行排序,然后挑選得分最高的文本作為初始集,用于提高初始訓(xùn)練集的準(zhǔn)確率; 步驟44,新機(jī)制將分類器生成的后驗(yàn)概率和文本的情感得分相加,用于防止自學(xué)習(xí)過(guò)程中的分類偏移。
6.如權(quán)利要求2所述的涉及多語(yǔ)言數(shù)據(jù)處理分類方法,其特征在于,步驟2還包括步驟24,對(duì)于集合S中的每一個(gè)詞統(tǒng)計(jì)“很”的出現(xiàn)頻率,并根據(jù)公式計(jì)算權(quán)重:
Σ /..I., (“o’,/)
7.如權(quán)利要求2所述的涉及多語(yǔ)言數(shù)據(jù)處理分類方法,其特征在于,所述KL距離法,用于衡量?jī)蓚€(gè)分布的差距; 假設(shè)有兩個(gè)概率分布,P代表正類文本和Q代表負(fù)類文本,它們的KL距離被定義為:
8.如權(quán)利要求2所述的涉及多語(yǔ)言數(shù)據(jù)處理分類方法,其特征在于,所述步驟33中,在每一輪的迭代過(guò)程中,文本的極性由當(dāng)前最新的情感詞來(lái)判定,每一篇文檔d的情感得分被定義為:
【文檔編號(hào)】G06F17/27GK103488623SQ201310397617
【公開(kāi)日】2014年1月1日 申請(qǐng)日期:2013年9月4日 優(yōu)先權(quán)日:2013年9月4日
【發(fā)明者】程學(xué)旗, 林政 , 張瑾, 譚松波, 徐學(xué)可 申請(qǐng)人:中國(guó)科學(xué)院計(jì)算技術(shù)研究所