本發(fā)明涉及語(yǔ)義辨識(shí)技術(shù)領(lǐng)域,具體而言,涉及一種情感標(biāo)識(shí)的辨識(shí)方法和一種情感標(biāo)識(shí)的辨識(shí)系統(tǒng)。
背景技術(shù):
隨著互聯(lián)網(wǎng)的飛速發(fā)展,社交網(wǎng)絡(luò)和電子商務(wù)日益融入人們生活。網(wǎng)絡(luò)空間上隨處可見(jiàn)對(duì)公眾人物、熱點(diǎn)事件、網(wǎng)購(gòu)商品和影視作品等等的評(píng)論言論。通常這些評(píng)論的文本長(zhǎng)度較短,口語(yǔ)化,且?guī)в袕?qiáng)烈的個(gè)人情感色彩。通常文本情感傾向分析技術(shù)依賴(lài)領(lǐng)域情感詞典,情感詞庫(kù)的構(gòu)建是文本情感分析任務(wù)的一個(gè)重要環(huán)節(jié)。在豐富、完善的情感詞表基礎(chǔ)上,可對(duì)文本中的觀點(diǎn)、立場(chǎng)以及情感傾向進(jìn)行識(shí)別、分類(lèi)、提煉、整合、追蹤和分析研究。
相關(guān)技術(shù)中,雖然存在一些通用的情感詞庫(kù),但是情感標(biāo)識(shí)(如詞語(yǔ)和表情符號(hào)等)具有很強(qiáng)的領(lǐng)域相關(guān)性。例如,一個(gè)詞語(yǔ)的褒貶傾向并不是在所有領(lǐng)域都是一致的,一個(gè)情感詞庫(kù)也不可能涵蓋所有領(lǐng)域。不同領(lǐng)域的情感標(biāo)識(shí)有明顯的差異。例如,在表達(dá)上網(wǎng)的網(wǎng)速時(shí)“快”是正面評(píng)價(jià)詞,而在表達(dá)手機(jī)電池使用時(shí)間時(shí)“快”是負(fù)面評(píng)價(jià)詞。因此,詞語(yǔ)在領(lǐng)域內(nèi)的褒貶傾向鮮明更為重要。一般依據(jù)規(guī)范書(shū)面語(yǔ)通過(guò)專(zhuān)家知識(shí)得到的通用情感詞詞典很難適用于復(fù)雜的互聯(lián)網(wǎng)環(huán)境。
另外,通過(guò)手工構(gòu)建情感詞詞典需要大量的人工干預(yù)和人工判斷,存在較大的隨意性和主觀性。無(wú)法及時(shí)收錄最新的網(wǎng)絡(luò)流行語(yǔ),而且缺乏不同領(lǐng)域之間的移植性,不能由機(jī)器自動(dòng)遷移到其他領(lǐng)域,無(wú)法考慮詞語(yǔ)的領(lǐng)域?qū)傩?,不能從?wèn)題領(lǐng)域角度考慮詞的情感傾向,具有一定的局限性。
因此,如何提高情感標(biāo)識(shí)的辨識(shí)的準(zhǔn)確性成為亟待解決的技術(shù)問(wèn)題。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明正是基于上述技術(shù)問(wèn)題至少之一,提出了一種新的情感標(biāo)識(shí)的辨識(shí)方案,通過(guò)根據(jù)情感標(biāo)識(shí)的使用頻率確定種子詞及其文本集合,并根據(jù)似然比模型確定候選詞語(yǔ)與種子詞的相關(guān)性數(shù)值,針對(duì)不同文本語(yǔ)境對(duì)情感標(biāo)識(shí)進(jìn)行識(shí)別,適用于多種互聯(lián)網(wǎng)社交平臺(tái)。
有鑒于此,根據(jù)本發(fā)明的第一方面的實(shí)施例,提出了一種情感標(biāo)識(shí)的辨識(shí)方法,包括:根據(jù)情感標(biāo)識(shí)的使用頻率確定種子詞和種子詞對(duì)應(yīng)的文本集合;在對(duì)應(yīng)的文本集合中確定候選詞語(yǔ);根據(jù)預(yù)設(shè)的似然比模型確定候選詞語(yǔ)與種子詞的相關(guān)性數(shù)值,以根據(jù)相關(guān)性數(shù)值確定候選詞語(yǔ)對(duì)應(yīng)的情感標(biāo)識(shí)。
在該技術(shù)方案中,通過(guò)根據(jù)情感標(biāo)識(shí)的使用頻率確定種子詞及其文本集合,并根據(jù)似然比模型確定候選詞語(yǔ)與種子詞的相關(guān)性數(shù)值,針對(duì)不同文本語(yǔ)境對(duì)情感標(biāo)識(shí)進(jìn)行識(shí)別,適用于多種互聯(lián)網(wǎng)社交平臺(tái)。
其中,結(jié)合種子詞的文本集合的語(yǔ)境,考慮候選詞語(yǔ)在上述文本集合中出現(xiàn)的概率,例如,候選詞語(yǔ)在種子詞的相鄰位置出現(xiàn)的概率,更能反映候選詞語(yǔ)與種子詞的相關(guān)性。
在上述技術(shù)方案中,優(yōu)選地,根據(jù)預(yù)設(shè)的似然比模型確定候選詞語(yǔ)與種子詞的相關(guān)性數(shù)值,以根據(jù)相關(guān)性數(shù)值確定候選詞語(yǔ)對(duì)應(yīng)的情感標(biāo)識(shí),具體包括以下步驟:將種子詞記作s,同時(shí)將候選詞語(yǔ)記作w,確定文本集合中的種子詞的相鄰文本段落;計(jì)算候選詞語(yǔ)屬于相鄰文本段落的條件概率,并記作p(w|s);計(jì)算候選詞語(yǔ)屬于文本集合的概率,并記作p(w),并將候選詞語(yǔ)出現(xiàn)在文本集合的次數(shù)記作k;根據(jù)第一公式計(jì)算候選詞語(yǔ)的依賴(lài)性系數(shù),依賴(lài)性系數(shù)記作m(w,s),其中,第一公式為
在該技術(shù)方案中,通過(guò)計(jì)算種子詞的依賴(lài)性系數(shù),確定依賴(lài)性系數(shù)大于零即確定p(w|s)大于p(w),對(duì)候選詞語(yǔ)進(jìn)行進(jìn)一步地篩選,并且根據(jù)依賴(lài)性系數(shù)從大到小的順序?qū)⒖记楦性~語(yǔ)進(jìn)行排序,更利于快速地確定 情感標(biāo)識(shí)的語(yǔ)義特性。
在上述任一項(xiàng)技術(shù)方案中,優(yōu)選地,根據(jù)預(yù)設(shè)的似然比模型確定候選詞語(yǔ)與種子詞的相關(guān)性數(shù)值,以根據(jù)相關(guān)性數(shù)值確定候選詞語(yǔ)對(duì)應(yīng)的情感標(biāo)識(shí),具體還包括以下步驟:創(chuàng)建參考情感詞語(yǔ)的二維矩陣,二維矩陣的行對(duì)應(yīng)于參考情感詞語(yǔ)向量或種子詞向量,二維矩陣的列對(duì)應(yīng)于文本集合的向量;確定二維矩陣的特征值,二維矩陣的左特征向量矩陣和右特征向量矩陣,以及二維矩陣的特征值組成的對(duì)角矩陣;根據(jù)左特征向量矩陣、右特征向量矩陣、對(duì)角矩陣和第二公式計(jì)算二維矩陣的低秩近似矩陣,其中,第二公式為c=u×∑×vt,c表征低秩近似矩陣,u表征左特征向量矩陣,vt表征右特征向量矩陣,∑表征特征值組成的對(duì)角矩陣。
在該技術(shù)方案中,通過(guò)創(chuàng)建參考情感詞語(yǔ)的二維矩陣,并進(jìn)一步地確定二維矩陣的低秩相似矩陣,減小了計(jì)算量,有利于進(jìn)一步地快速計(jì)算參考候選詞語(yǔ)和種子詞的相關(guān)性。
在上述任一項(xiàng)技術(shù)方案中,優(yōu)選地,根據(jù)預(yù)設(shè)的似然比模型確定候選詞語(yǔ)與種子詞的相關(guān)性數(shù)值,以根據(jù)相關(guān)性數(shù)值確定候選詞語(yǔ)對(duì)應(yīng)的情感標(biāo)識(shí),具體還包括以下步驟:根據(jù)第三公式分別對(duì)參考情感詞語(yǔ)和種子詞進(jìn)行空間變化處理,以變換至語(yǔ)義空間進(jìn)行識(shí)別,其中,第三公式為
在該技術(shù)方案中,考慮詞之間的語(yǔ)義關(guān)聯(lián)特征,從隱含語(yǔ)義分析(latentsemanticsanalysis)的角度,為衡量情感種子詞s和候選詞語(yǔ)w在低維語(yǔ)義空間的相似度,需要把文本集合從原始詞空間映射到語(yǔ)義空間。假設(shè)文本集合經(jīng)去噪、分詞、得到詞-文檔(term-document)矩陣c(行表示某個(gè)詞,列表示某篇文檔),那么該矩陣奇異值分解(singularvaluedecomposition)得到c=u×∑×vt,其中矩陣u和v是矩陣c的左右奇異值特征矩陣,∑是對(duì)角元為奇異值的對(duì)角矩陣。當(dāng)取奇異值最大的前k個(gè)元素時(shí),∑k是對(duì)角元為奇異值的對(duì)角矩陣,uk和vk矩陣的列為奇 異值對(duì)應(yīng)的特征向量矩陣,得到矩陣c的低秩近似為ck=uk×∑k×vkt。
在上述任一項(xiàng)技術(shù)方案中,優(yōu)選地,根據(jù)預(yù)設(shè)的似然比模型確定候選詞語(yǔ)與種子詞的相關(guān)性數(shù)值,以根據(jù)相關(guān)性數(shù)值確定候選詞語(yǔ)對(duì)應(yīng)的情感標(biāo)識(shí),具體還包括以下步驟:根據(jù)第四公式計(jì)算參考情感詞語(yǔ)與種子詞的相關(guān)性系數(shù),其中,第四公式為r(w,s)=t(w)t×t(s),t(w)t表征t(w)的轉(zhuǎn)置矩陣,r(w,s)表征相關(guān)性系數(shù)。
在該技術(shù)方案中,通過(guò)計(jì)算參考情感詞語(yǔ)與種子詞的相關(guān)系系數(shù),參考情感詞語(yǔ)的相關(guān)語(yǔ)義直觀地轉(zhuǎn)換為相關(guān)性系數(shù),以供服務(wù)器根據(jù)相關(guān)系系數(shù)閾值進(jìn)行語(yǔ)義辨識(shí),另外,還可以將相關(guān)性系數(shù)生成列表提示給服務(wù)器維護(hù)人員,以進(jìn)一步地進(jìn)行人工篩選,以循環(huán)生成新的種子詞。
根據(jù)本發(fā)明的第二方面的實(shí)施例,提出了一種情感標(biāo)識(shí)的辨識(shí)系統(tǒng),包括:確定單元,用于根據(jù)情感標(biāo)識(shí)的使用頻率確定種子詞和種子詞對(duì)應(yīng)的文本集合;確定單元還用于:在對(duì)應(yīng)的文本集合中確定候選詞語(yǔ);確定單元還用于:根據(jù)預(yù)設(shè)的似然比模型確定候選詞語(yǔ)與種子詞的相關(guān)性數(shù)值,以根據(jù)相關(guān)性數(shù)值確定候選詞語(yǔ)對(duì)應(yīng)的情感標(biāo)識(shí)。
在該技術(shù)方案中,通過(guò)根據(jù)情感標(biāo)識(shí)的使用頻率確定種子詞及其文本集合,并根據(jù)似然比模型確定候選詞語(yǔ)與種子詞的相關(guān)性數(shù)值,針對(duì)不同文本語(yǔ)境對(duì)情感標(biāo)識(shí)進(jìn)行識(shí)別,適用于多種互聯(lián)網(wǎng)社交平臺(tái)。
其中,結(jié)合種子詞的文本集合的語(yǔ)境,考慮候選詞語(yǔ)在上述文本集合中出現(xiàn)的概率,例如,候選詞語(yǔ)在種子詞的相鄰位置出現(xiàn)的概率,更能反映候選詞語(yǔ)與種子詞的相關(guān)性。
在上述技術(shù)方案中,優(yōu)選地,確定單元還用于:將種子詞記作s,同時(shí)將候選詞語(yǔ)記作w,確定文本集合中的種子詞的相鄰文本段落;確定單元還用于:計(jì)算候選詞語(yǔ)屬于相鄰文本段落的條件概率,并記作p(w|s);確定單元還用于:計(jì)算候選詞語(yǔ)屬于文本集合的概率,并記作p(w),并將候選詞語(yǔ)出現(xiàn)在文本集合的次數(shù)記作k;確定單元還用于:根據(jù)第一公式計(jì)算候選詞語(yǔ)的依賴(lài)性系數(shù),依賴(lài)性系數(shù)記作m(w,s),其中,第一公式為
在該技術(shù)方案中,通過(guò)計(jì)算種子詞的依賴(lài)性系數(shù),確定依賴(lài)性系數(shù)大于零即確定p(w|s)大于p(w),對(duì)候選詞語(yǔ)進(jìn)行進(jìn)一步地篩選,并且根據(jù)依賴(lài)性系數(shù)從大到小的順序?qū)⒖记楦性~語(yǔ)進(jìn)行排序,更利于快速地確定情感標(biāo)識(shí)的語(yǔ)義特性。
在上述任一項(xiàng)技術(shù)方案中,優(yōu)選地,還包括:創(chuàng)建單元,用于創(chuàng)建參考情感詞語(yǔ)的二維矩陣,二維矩陣的行對(duì)應(yīng)于參考情感詞語(yǔ)向量或種子詞向量,二維矩陣的列對(duì)應(yīng)于文本集合的向量;確定單元還用于:確定二維矩陣的特征值,二維矩陣的左特征向量矩陣和右特征向量矩陣,以及二維矩陣的特征值組成的對(duì)角矩陣;確定單元還用于:根據(jù)左特征向量矩陣、右特征向量矩陣、對(duì)角矩陣和第二公式計(jì)算二維矩陣的低秩近似矩陣,其中,第二公式為c=u×∑×vt,c表征低秩近似矩陣,u表征左特征向量矩陣,vt表征右特征向量矩陣,∑表征特征值組成的對(duì)角矩陣。
在該技術(shù)方案中,通過(guò)創(chuàng)建參考情感詞語(yǔ)的二維矩陣,并進(jìn)一步地確定二維矩陣的低秩相似矩陣,減小了計(jì)算量,有利于進(jìn)一步地快速計(jì)算參考候選詞語(yǔ)和種子詞的相關(guān)性。
在上述任一項(xiàng)技術(shù)方案中,優(yōu)選地,還包括:空間變化單元,用于根據(jù)第三公式分別對(duì)參考情感詞語(yǔ)和種子詞進(jìn)行空間變化處理,以變換至語(yǔ)義空間進(jìn)行識(shí)別,其中,第三公式為
在該技術(shù)方案中,考慮詞之間的語(yǔ)義關(guān)聯(lián)特征,從隱含語(yǔ)義分析(latentsemanticsanalysis)的角度,為衡量情感種子詞s和候選詞語(yǔ)w在低維語(yǔ)義空間的相似度,需要把文本集合從原始詞空間映射到語(yǔ)義空間。假設(shè)文本集合經(jīng)去噪、分詞、得到詞-文檔(term-document)矩陣c(行表示某個(gè)詞,列表示某篇文檔),那么該矩陣奇異值分解(singularvaluedecomposition)得到c=u×∑×vt,其中矩陣u和v是矩陣c的左 右奇異值特征矩陣,∑是對(duì)角元為奇異值的對(duì)角矩陣。當(dāng)取奇異值最大的前k個(gè)元素時(shí),∑k是對(duì)角元為奇異值的對(duì)角矩陣,uk和vk矩陣的列為奇異值對(duì)應(yīng)的特征向量矩陣,得到矩陣c的低秩近似為ck=uk×∑k×vkt。
在上述任一項(xiàng)技術(shù)方案中,優(yōu)選地,確定單元還用于:根據(jù)第四公式計(jì)算參考情感詞語(yǔ)與種子詞的相關(guān)性系數(shù),其中,第四公式為r(w,s)=t(w)t×t(s),t(w)t表征t(w)的轉(zhuǎn)置矩陣,r(w,s)表征相關(guān)性系數(shù)。
在該技術(shù)方案中,通過(guò)計(jì)算參考情感詞語(yǔ)與種子詞的相關(guān)系系數(shù),參考情感詞語(yǔ)的相關(guān)語(yǔ)義直觀地轉(zhuǎn)換為相關(guān)性系數(shù),以供服務(wù)器根據(jù)相關(guān)系系數(shù)閾值進(jìn)行語(yǔ)義辨識(shí),另外,還可以將相關(guān)性系數(shù)生成列表提示給服務(wù)器維護(hù)人員,以進(jìn)一步地進(jìn)行人工篩選,以循環(huán)生成新的種子詞。
通過(guò)以上技術(shù)方案,通過(guò)根據(jù)情感標(biāo)識(shí)的使用頻率確定種子詞及其文本集合,并根據(jù)似然比模型確定候選詞語(yǔ)與種子詞的相關(guān)性數(shù)值,針對(duì)不同文本語(yǔ)境對(duì)情感標(biāo)識(shí)進(jìn)行識(shí)別,適用于多種互聯(lián)網(wǎng)社交平臺(tái)。
附圖說(shuō)明
圖1示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的情感標(biāo)識(shí)的辨識(shí)方法的示意流程圖;
圖2示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的情感標(biāo)識(shí)的辨識(shí)系統(tǒng)的示意框圖;
圖3示出了根據(jù)本發(fā)明的另一個(gè)實(shí)施例的情感標(biāo)識(shí)的辨識(shí)系統(tǒng)的示意框圖;
圖4示出了根據(jù)本發(fā)明的另一個(gè)實(shí)施例的情感標(biāo)識(shí)的辨識(shí)方法的示意流程圖。
具體實(shí)施方式
為了能夠更清楚地理解本發(fā)明的上述目的、特征和優(yōu)點(diǎn),下面結(jié)合附圖和具體實(shí)施方式對(duì)本發(fā)明進(jìn)行進(jìn)一步的詳細(xì)描述。需要說(shuō)明的是,在不沖突的情況下,本申請(qǐng)的實(shí)施例及實(shí)施例中的特征可以相互組合。
在下面的描述中闡述了很多具體細(xì)節(jié)以便于充分理解本發(fā)明,但是, 本發(fā)明還可以采用其他不同于在此描述的其他方式來(lái)實(shí)施,因此,本發(fā)明的保護(hù)范圍并不受下面公開(kāi)的具體實(shí)施例的限制。
圖1示出了根據(jù)本發(fā)明的實(shí)施例的情感標(biāo)識(shí)的辨識(shí)方法的示意流程圖。
如圖1所示,根據(jù)本發(fā)明的實(shí)施例的情感標(biāo)識(shí)的辨識(shí)方法,包括:步驟102,根據(jù)情感標(biāo)識(shí)的使用頻率確定種子詞和種子詞對(duì)應(yīng)的文本集合;步驟104,在對(duì)應(yīng)的文本集合中確定候選詞語(yǔ);步驟106,根據(jù)預(yù)設(shè)的似然比模型確定候選詞語(yǔ)與種子詞的相關(guān)性數(shù)值,以根據(jù)相關(guān)性數(shù)值確定候選詞語(yǔ)對(duì)應(yīng)的情感標(biāo)識(shí)。
在該技術(shù)方案中,通過(guò)根據(jù)情感標(biāo)識(shí)的使用頻率確定種子詞及其文本集合,并根據(jù)似然比模型確定候選詞語(yǔ)與種子詞的相關(guān)性數(shù)值,針對(duì)不同文本語(yǔ)境對(duì)情感標(biāo)識(shí)進(jìn)行識(shí)別,適用于多種互聯(lián)網(wǎng)社交平臺(tái)。
其中,結(jié)合種子詞的文本集合的語(yǔ)境,考慮候選詞語(yǔ)在上述文本集合中出現(xiàn)的概率,例如,候選詞語(yǔ)在種子詞的相鄰位置出現(xiàn)的概率,更能反映候選詞語(yǔ)與種子詞的相關(guān)性。
在上述技術(shù)方案中,優(yōu)選地,根據(jù)預(yù)設(shè)的似然比模型確定候選詞語(yǔ)與種子詞的相關(guān)性數(shù)值,以根據(jù)相關(guān)性數(shù)值確定候選詞語(yǔ)對(duì)應(yīng)的情感標(biāo)識(shí),具體包括以下步驟:將種子詞記作s,同時(shí)將候選詞語(yǔ)記作w,確定文本集合中的種子詞的相鄰文本段落;計(jì)算候選詞語(yǔ)屬于相鄰文本段落的條件概率,并記作p(w|s);計(jì)算候選詞語(yǔ)屬于文本集合的概率,并記作p(w),并將候選詞語(yǔ)出現(xiàn)在文本集合的次數(shù)記作k;根據(jù)第一公式計(jì)算候選詞語(yǔ)的依賴(lài)性系數(shù),依賴(lài)性系數(shù)記作m(w,s),其中,第一公式為
在該技術(shù)方案中,通過(guò)計(jì)算種子詞的依賴(lài)性系數(shù),確定依賴(lài)性系數(shù)大于零即確定p(w|s)大于p(w),對(duì)候選詞語(yǔ)進(jìn)行進(jìn)一步地篩選,并且根據(jù)依賴(lài)性系數(shù)從大到小的順序?qū)⒖记楦性~語(yǔ)進(jìn)行排序,更利于快速地確定情感標(biāo)識(shí)的語(yǔ)義特性。
在上述任一項(xiàng)技術(shù)方案中,優(yōu)選地,根據(jù)預(yù)設(shè)的似然比模型確定候選詞語(yǔ)與種子詞的相關(guān)性數(shù)值,以根據(jù)相關(guān)性數(shù)值確定候選詞語(yǔ)對(duì)應(yīng)的情感標(biāo)識(shí),具體還包括以下步驟:創(chuàng)建參考情感詞語(yǔ)的二維矩陣,二維矩陣的行對(duì)應(yīng)于參考情感詞語(yǔ)向量或種子詞向量,二維矩陣的列對(duì)應(yīng)于文本集合的向量;確定二維矩陣的特征值,二維矩陣的左特征向量矩陣和右特征向量矩陣,以及二維矩陣的特征值組成的對(duì)角矩陣;根據(jù)左特征向量矩陣、右特征向量矩陣、對(duì)角矩陣和第二公式計(jì)算二維矩陣的低秩近似矩陣,其中,第二公式為c=u×∑×vt,c表征低秩近似矩陣,u表征左特征向量矩陣,vt表征右特征向量矩陣,∑表征特征值組成的對(duì)角矩陣。
在該技術(shù)方案中,通過(guò)創(chuàng)建參考情感詞語(yǔ)的二維矩陣,并進(jìn)一步地確定二維矩陣的低秩相似矩陣,減小了計(jì)算量,有利于進(jìn)一步地快速計(jì)算參考候選詞語(yǔ)和種子詞的相關(guān)性。
在上述任一項(xiàng)技術(shù)方案中,優(yōu)選地,根據(jù)預(yù)設(shè)的似然比模型確定候選詞語(yǔ)與種子詞的相關(guān)性數(shù)值,以根據(jù)相關(guān)性數(shù)值確定候選詞語(yǔ)對(duì)應(yīng)的情感標(biāo)識(shí),具體還包括以下步驟:根據(jù)第三公式分別對(duì)參考情感詞語(yǔ)和種子詞進(jìn)行空間變化處理,以變換至語(yǔ)義空間進(jìn)行識(shí)別,其中,第三公式為
在該技術(shù)方案中,考慮詞之間的語(yǔ)義關(guān)聯(lián)特征,從隱含語(yǔ)義分析(latentsemanticsanalysis)的角度,為衡量情感種子詞s和候選詞語(yǔ)w在低維語(yǔ)義空間的相似度,需要把文本集合從原始詞空間映射到語(yǔ)義空間。假設(shè)文本集合經(jīng)去噪、分詞、得到詞-文檔(term-document)矩陣c(行表示某個(gè)詞,列表示某篇文檔),那么該矩陣奇異值分解(singularvaluedecomposition)得到c=u×∑×vt,其中矩陣u和v是矩陣c的左右奇異值特征矩陣,∑是對(duì)角元為奇異值的對(duì)角矩陣。當(dāng)取奇異值最大的前k個(gè)元素時(shí),∑k是對(duì)角元為奇異值的對(duì)角矩陣,uk和vk矩陣的列為奇異值對(duì)應(yīng)的特征向量矩陣,得到矩陣c的低秩近似為ck=uk×∑k×vkt。
在上述任一項(xiàng)技術(shù)方案中,優(yōu)選地,根據(jù)預(yù)設(shè)的似然比模型確定候選詞語(yǔ)與種子詞的相關(guān)性數(shù)值,以根據(jù)相關(guān)性數(shù)值確定候選詞語(yǔ)對(duì)應(yīng)的情感標(biāo)識(shí),具體還包括以下步驟:根據(jù)第四公式計(jì)算參考情感詞語(yǔ)與種子詞的相關(guān)性系數(shù),其中,第四公式為r(w,s)=t(w)t×t(s),t(w)t表征t(w)的轉(zhuǎn)置矩陣,r(w,s)表征相關(guān)性系數(shù)。
在該技術(shù)方案中,通過(guò)計(jì)算參考情感詞語(yǔ)與種子詞的相關(guān)系系數(shù),參考情感詞語(yǔ)的相關(guān)語(yǔ)義直觀地轉(zhuǎn)換為相關(guān)性系數(shù),以供服務(wù)器根據(jù)相關(guān)系系數(shù)閾值進(jìn)行語(yǔ)義辨識(shí),另外,還可以將相關(guān)性系數(shù)生成列表提示給服務(wù)器維護(hù)人員,以進(jìn)一步地進(jìn)行人工篩選,以循環(huán)生成新的種子詞。
圖2示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的情感標(biāo)識(shí)的辨識(shí)系統(tǒng)的示意框圖。
如圖2所示,根據(jù)本發(fā)明的一個(gè)實(shí)施例的情感標(biāo)識(shí)的辨識(shí)系統(tǒng)200,包括:確定單元202,用于根據(jù)情感標(biāo)識(shí)的使用頻率確定種子詞和種子詞對(duì)應(yīng)的文本集合;確定單元202還用于:在對(duì)應(yīng)的文本集合中確定候選詞語(yǔ);確定單元202還用于:根據(jù)預(yù)設(shè)的似然比模型確定候選詞語(yǔ)與種子詞的相關(guān)性數(shù)值,以根據(jù)相關(guān)性數(shù)值確定候選詞語(yǔ)對(duì)應(yīng)的情感標(biāo)識(shí)。
在該技術(shù)方案中,通過(guò)根據(jù)情感標(biāo)識(shí)的使用頻率確定種子詞及其文本集合,并根據(jù)似然比模型確定候選詞語(yǔ)與種子詞的相關(guān)性數(shù)值,針對(duì)不同文本語(yǔ)境對(duì)情感標(biāo)識(shí)進(jìn)行識(shí)別,適用于多種互聯(lián)網(wǎng)社交平臺(tái)。
其中,結(jié)合種子詞的文本集合的語(yǔ)境,考慮候選詞語(yǔ)在上述文本集合中出現(xiàn)的概率,例如,候選詞語(yǔ)在種子詞的相鄰位置出現(xiàn)的概率,更能反映候選詞語(yǔ)與種子詞的相關(guān)性。
在上述技術(shù)方案中,優(yōu)選地,確定單元202還用于:將種子詞記作s,同時(shí)將候選詞語(yǔ)記作w,確定文本集合中的種子詞的相鄰文本段落;確定單元202還用于:計(jì)算候選詞語(yǔ)屬于相鄰文本段落的條件概率,并記作p(w|s);確定單元202還用于:計(jì)算候選詞語(yǔ)屬于文本集合的概率,并記作p(w),并將候選詞語(yǔ)出現(xiàn)在文本集合的次數(shù)記作k;確定單元202還用于:根據(jù)第一公式計(jì)算候選詞語(yǔ)的依賴(lài)性系數(shù),依賴(lài)性系數(shù)記作m(w,s),其中,第一公式為
在該技術(shù)方案中,通過(guò)計(jì)算種子詞的依賴(lài)性系數(shù),確定依賴(lài)性系數(shù)大于零即確定p(w|s)大于p(w),對(duì)候選詞語(yǔ)進(jìn)行進(jìn)一步地篩選,并且根據(jù)依賴(lài)性系數(shù)從大到小的順序?qū)⒖记楦性~語(yǔ)進(jìn)行排序,更利于快速地確定情感標(biāo)識(shí)的語(yǔ)義特性。
在上述任一項(xiàng)技術(shù)方案中,優(yōu)選地,還包括:創(chuàng)建單元204,用于創(chuàng)建參考情感詞語(yǔ)的二維矩陣,二維矩陣的行對(duì)應(yīng)于參考情感詞語(yǔ)向量或種子詞向量,二維矩陣的列對(duì)應(yīng)于文本集合的向量;確定單元202還用于:確定二維矩陣的特征值,二維矩陣的左特征向量矩陣和右特征向量矩陣,以及二維矩陣的特征值組成的對(duì)角矩陣;確定單元202還用于:根據(jù)左特征向量矩陣、右特征向量矩陣、對(duì)角矩陣和第二公式計(jì)算二維矩陣的低秩近似矩陣,其中,第二公式為c=u×∑×vt,c表征低秩近似矩陣,u表征左特征向量矩陣,vt表征右特征向量矩陣,∑表征特征值組成的對(duì)角矩陣。
在該技術(shù)方案中,通過(guò)創(chuàng)建參考情感詞語(yǔ)的二維矩陣,并進(jìn)一步地確定二維矩陣的低秩相似矩陣,減小了計(jì)算量,有利于進(jìn)一步地快速計(jì)算參考候選詞語(yǔ)和種子詞的相關(guān)性。
在上述任一項(xiàng)技術(shù)方案中,優(yōu)選地,還包括:空間變化單元206,用于根據(jù)第三公式分別對(duì)參考情感詞語(yǔ)和種子詞進(jìn)行空間變化處理,以變換至語(yǔ)義空間進(jìn)行識(shí)別,其中,第三公式為
在該技術(shù)方案中,考慮詞之間的語(yǔ)義關(guān)聯(lián)特征,從隱含語(yǔ)義分析(latentsemanticsanalysis)的角度,為衡量情感種子詞s和候選詞語(yǔ)w在低維語(yǔ)義空間的相似度,需要把文本集合從原始詞空間映射到語(yǔ)義空間。假設(shè)文本集合經(jīng)去噪、分詞、得到詞-文檔(term-document)矩陣c (行表示某個(gè)詞,列表示某篇文檔),那么該矩陣奇異值分解(singularvaluedecomposition)得到c=u×∑×vt,其中矩陣u和v是矩陣c的左右奇異值特征矩陣,∑是對(duì)角元為奇異值的對(duì)角矩陣。當(dāng)取奇異值最大的前k個(gè)元素時(shí),σk是對(duì)角元為奇異值的對(duì)角矩陣,uk和vk矩陣的列為奇異值對(duì)應(yīng)的特征向量矩陣,得到矩陣c的低秩近似為ck=uk×σk×vkt。
在上述任一項(xiàng)技術(shù)方案中,優(yōu)選地,確定單元202還用于:根據(jù)第四公式計(jì)算參考情感詞語(yǔ)與種子詞的相關(guān)性系數(shù),其中,第四公式為r(w,s)=t(w)t×t(s),t(w)t表征t(w)的轉(zhuǎn)置矩陣,r(w,s)表征相關(guān)性系數(shù)。
在該技術(shù)方案中,通過(guò)計(jì)算參考情感詞語(yǔ)與種子詞的相關(guān)系系數(shù),參考情感詞語(yǔ)的相關(guān)語(yǔ)義直觀地轉(zhuǎn)換為相關(guān)性系數(shù),以供服務(wù)器根據(jù)相關(guān)系系數(shù)閾值進(jìn)行語(yǔ)義辨識(shí),另外,還可以將相關(guān)性系數(shù)生成列表提示給服務(wù)器維護(hù)人員,以進(jìn)一步地進(jìn)行人工篩選,以循環(huán)生成新的種子詞。
圖3示出了根據(jù)本發(fā)明的另一個(gè)實(shí)施例的情感標(biāo)識(shí)的辨識(shí)系統(tǒng)的示意框圖。
如圖3所示,根據(jù)本發(fā)明的另一個(gè)實(shí)施例的情感標(biāo)識(shí)的辨識(shí)系統(tǒng)300,包括:文本采集模塊302、種子詞生成模塊304、情感詞擴(kuò)展模塊306和人工校驗(yàn)?zāi)K308。
(1)文本采集模塊302用于:確定特定領(lǐng)域,也即文本情感分析的應(yīng)用領(lǐng)域,比如網(wǎng)民購(gòu)買(mǎi)商品后的評(píng)論、網(wǎng)民對(duì)社會(huì)民生事件的評(píng)論等等。確定領(lǐng)域之后,通過(guò)網(wǎng)絡(luò)爬蟲(chóng)對(duì)特定領(lǐng)域相關(guān)的評(píng)論文本進(jìn)行定向采集。
例如,對(duì)于商品評(píng)論內(nèi)容,因?yàn)樵u(píng)論通常集中在某些固定的購(gòu)物網(wǎng)站,可以采集某一段時(shí)間段某一類(lèi)商品的所有評(píng)論。對(duì)于網(wǎng)絡(luò)輿情事件,如微博等社交網(wǎng)絡(luò)上的討論和評(píng)論內(nèi)容,由于社交網(wǎng)絡(luò)數(shù)據(jù)大,內(nèi)容紛繁復(fù)雜且噪音多,可采用在某一段時(shí)間內(nèi)由關(guān)鍵詞詞組定義的某一類(lèi)事件過(guò)濾出事件相關(guān)的微博文本。
(2)情感種子詞生成模塊304用于:分析領(lǐng)域相關(guān)評(píng)論文本中具有強(qiáng)烈感情色彩的詞匯。情感種子詞是在領(lǐng)域內(nèi)有明確的褒貶傾向,而且是較為常用的詞。有些詞的情感傾向非常明確,但與領(lǐng)域的相關(guān)度很低,被 使用的概率比較低,那么這些詞的敏感度就會(huì)降低,可能與絕大多數(shù)詞的語(yǔ)義相似度都較小。比如,“溫文爾雅”是個(gè)正面的詞,屬于成語(yǔ),偏書(shū)面用,但在商品評(píng)論里幾乎不會(huì)有人使用這個(gè)詞。
生成情感種子詞的文本集合,首先通過(guò)特定領(lǐng)域的文本采集模塊302得到特定領(lǐng)域語(yǔ)料庫(kù),經(jīng)過(guò)去噪、去重、分詞和詞性標(biāo)注等處理,統(tǒng)計(jì)其中高頻的形容詞和副詞,如果是社交媒體文本,情感標(biāo)識(shí)還包括表情符號(hào)。候選詞匯作為潛在的種子詞,需要對(duì)候選詞匯諸如形容詞、副詞、以及表情符號(hào)按詞頻降序排列。如果是商品評(píng)論并且有商品的打分?jǐn)?shù)據(jù),可進(jìn)一步根據(jù)詞所對(duì)應(yīng)文本的打分得到情感詞的極性。最后,對(duì)長(zhǎng)度不超過(guò)100的高頻修飾詞表,經(jīng)人工干預(yù)的手段,挑選種子詞,并標(biāo)記其情感極性。
(3)候情感詞擴(kuò)展模塊306用于:利用大規(guī)模的無(wú)標(biāo)注的文本集合,結(jié)合情感種子詞,通過(guò)分析不同詞之間的統(tǒng)計(jì)特征、語(yǔ)義關(guān)聯(lián)特征實(shí)現(xiàn)情感詞的擴(kuò)展。
(4)人工校驗(yàn)?zāi)K308用于:對(duì)情感種子詞的候選詞、擴(kuò)展得到的情感詞列表進(jìn)行人工校驗(yàn)。需要指出的是此處的人工校驗(yàn)是針對(duì)已經(jīng)排序的候選列表,通常比較正確的情感詞都出現(xiàn)在列表中排名靠前,所以所需的人工篩選工作量是極少的。
由于領(lǐng)域情感詞數(shù)目有限,不同的情感種子詞擴(kuò)展出的情感詞存在交叉重復(fù)的可能,可以利用這一特性,在遍歷不同種子詞的擴(kuò)展集時(shí),自動(dòng)排除已經(jīng)通過(guò)人工審核的詞,這樣進(jìn)一步減少人工干預(yù)的程度。
情感詞擴(kuò)展集審核去重:假設(shè)情感種子詞集合為{si},經(jīng)上述算法自動(dòng)得到情感詞擴(kuò)展集合t1,再經(jīng)人工校驗(yàn)得到情感詞集r1;s2經(jīng)上述算法自動(dòng)得到情感詞擴(kuò)展集合t1,從中扣除已知情感詞,只需對(duì)(t1-r1)集合進(jìn)行人工校驗(yàn),得到t2,依次類(lèi)推。
圖4示出了根據(jù)本發(fā)明的另一個(gè)實(shí)施例的情感標(biāo)識(shí)的辨識(shí)方法的示意流程圖。
如圖4所示,根據(jù)本發(fā)明的另一個(gè)實(shí)施例的情感標(biāo)識(shí)的辨識(shí)方法,包括:步驟402,根據(jù)情感標(biāo)識(shí)所在領(lǐng)域確定文本集合,對(duì)文本集合進(jìn)行去 噪和分詞等預(yù)處理,并進(jìn)行詞頻統(tǒng)計(jì)和詞性標(biāo)注,經(jīng)過(guò)人工干預(yù)得到種子詞;步驟404,特征統(tǒng)計(jì)步驟406,語(yǔ)義統(tǒng)計(jì);步驟408,候選情感詞列表,經(jīng)過(guò)人工干預(yù)篩選得到該領(lǐng)域內(nèi)的情感詞。
以上結(jié)合附圖詳細(xì)說(shuō)明了本發(fā)明的技術(shù)方案,考慮到如何提高情感標(biāo)識(shí)的辨識(shí)的準(zhǔn)確性成的技術(shù)問(wèn)題。因此,本發(fā)明提出了一種新的情感標(biāo)識(shí)的辨識(shí)方案,通過(guò)根據(jù)情感標(biāo)識(shí)的使用頻率確定種子詞及其文本集合,并根據(jù)似然比模型確定候選詞語(yǔ)與種子詞的相關(guān)性數(shù)值,針對(duì)不同文本語(yǔ)境對(duì)情感標(biāo)識(shí)進(jìn)行識(shí)別,適用于多種互聯(lián)網(wǎng)社交平臺(tái)。
以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,對(duì)于本領(lǐng)域的技術(shù)人員來(lái)說(shuō),本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。