本發(fā)明屬于機器學(xué)習(xí)技術(shù)領(lǐng)域,尤其涉及一種文本話題和情感的聯(lián)合檢測方法及裝置。
背景技術(shù):
聯(lián)合話題情感混合模型的主要目標(biāo)是通過對大量的文本集合進行分析、處理,歸納總結(jié)并推理出文本所隱含的語義結(jié)構(gòu)和情感傾向,以鑒別其所討論的話題和情感傾向。近年來,隨著移動互聯(lián)網(wǎng)的迅猛普及和發(fā)展,微博、博客、論壇、微信等大量新興社會媒體不斷涌現(xiàn),使得用戶在個人電腦和移動終端表達意見、分享評論變得越來越便捷,因此越來越多的不同年齡段的用戶都積極的參與到產(chǎn)品、服務(wù)、新聞等的實體評論中。面對海量的數(shù)據(jù),如何有效地對其內(nèi)容進行組織、整理、挖掘和分析,以準確識別出其中包含的觀點信息和情感傾向,對于各個行業(yè)的企業(yè)及時了解用戶訴求,掌握市場態(tài)勢有著重要的現(xiàn)實意義,同時也是自然語言處理領(lǐng)域研究的熱點問題。
由于概率話題模型(例如,潛在狄利克雷分布LDA)以詞作為基本屬性,將文本表示為詞的集合,是一種有效捕捉文檔隱含話題的無監(jiān)督學(xué)習(xí)方法,因此,大部分聯(lián)合話題情感分析方法是在概率話題模型的基礎(chǔ)上進行擴展。然而,現(xiàn)有提出的聯(lián)合話題情感分析方法,大多只是從數(shù)據(jù)本身的屬性出發(fā),以詞為基本特征,基于詞共現(xiàn)統(tǒng)計進行話題概率計算,每個詞都被看作是一個單一的實體,各詞語、語句之間語義層面的聯(lián)系考慮較少,難以滿足實際應(yīng)用的需要。一般說來,共現(xiàn)次數(shù)越多的詞,越有可能被分配在同一話題下。但當(dāng)語料數(shù)較少或文本篇幅較短時,文本特征稀疏并且維度較高,這種單純依靠詞頻統(tǒng)計進行話題和情感分配的方法往往會因為語義信息不足而造成情感分布和話題分布的結(jié)果不夠理想。另一方面,這些方法大多都引入了情感種子詞,完全依賴這些特有領(lǐng)域的情感知識先驗信息來識別語料中的正向和負向詞,然而同一個詞在不同的語句中可能有著不同的情感傾向。并且當(dāng)種子詞典的詞比較少,且比較單一時,這些情感先驗的影響就會受到限制,從而降低了獲取的話題下情感分布的準確度。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的在于提供一種文本話題和情感的聯(lián)合檢測方法及裝置,旨在解決現(xiàn)有技術(shù)的文本情感和話題聯(lián)合檢測準確率不高的問題。
一方面,本發(fā)明提供了一種文本話題和情感的聯(lián)合檢測方法,所述方法包括下述步驟:
使用預(yù)設(shè)的情感詞典計算輸入的目標(biāo)文本中每個詞的初始情感傾向;
將預(yù)先獲取的外部語料的詞向量設(shè)置為所述目標(biāo)文本的詞向量的初始值;
使用預(yù)設(shè)的話題情感混合模型對輸入的目標(biāo)文本進行訓(xùn)練,以得到所述目標(biāo)文本中各個情感話題對與詞之間的初始分配;
根據(jù)所述目標(biāo)文本中每個詞的初始情感傾向、所述詞向量的初始值以及所述各個情感話題對與詞之間的初始分配,對所述目標(biāo)文本中包括的每篇文檔進行掃描,對掃描到的每個訓(xùn)練目標(biāo)詞執(zhí)行預(yù)設(shè)的話題和情感檢測步驟,以得到所述目標(biāo)文本所涉及的話題和情感。
另一方面,本發(fā)明提供了一種文本話題和情感的聯(lián)合檢測裝置,其特征在于,所述裝置包括:
情感傾向計算單元,用于使用預(yù)設(shè)的情感詞典計算輸入的目標(biāo)文本中每個詞的初始情感傾向;
詞向量設(shè)置單元,用于將預(yù)先獲取的外部語料的詞向量設(shè)置為所述目標(biāo)文本的詞向量的初始值;
文本訓(xùn)練單元,用于使用預(yù)設(shè)的話題情感混合模型對輸入的目標(biāo)文本進行訓(xùn)練,以得到所述目標(biāo)文本中各個情感話題對與詞之間的初始分配;
話題情感獲取單元,用于根據(jù)所述目標(biāo)文本中每個詞的初始情感傾向、所述詞向量的初始值以及所述各個情感話題對與詞之間的初始分配,對所述目標(biāo)文本中包括的每篇文檔進行掃描,對掃描到的每個訓(xùn)練目標(biāo)詞執(zhí)行預(yù)設(shè)的話題和情感檢測步驟,以得到所述目標(biāo)文本所涉及的話題和情感。
本發(fā)明使用預(yù)設(shè)的情感詞典計算輸入的目標(biāo)文本中每個詞的初始情感傾向,將預(yù)先獲取的外部語料的詞向量設(shè)置為目標(biāo)文本的詞向量的初始值,使用預(yù)設(shè)的話題情感混合模型對輸入的目標(biāo)文本進行訓(xùn)練,以得到目標(biāo)文本中各個情感話題對與詞之間的初始分配,最終根據(jù)目標(biāo)文本中每個詞的初始情感傾向、詞向量的初始值以及各個情感話題對與詞之間的初始分配,對目標(biāo)文本中包括的每篇文檔進行掃描,對掃描到的每個訓(xùn)練目標(biāo)詞執(zhí)行預(yù)設(shè)的話題和情感檢測步驟,以得到所述目標(biāo)文本的話題和情感,從而提高了獲得的目標(biāo)文本的話題和情感的準確度。
附圖說明
圖1是本發(fā)明實施例一提供的文本話題和情感的聯(lián)合檢測方法的實現(xiàn)流程圖;
圖2是本發(fā)明實施例二提供的文本話題和情感的聯(lián)合檢測裝置的結(jié)構(gòu)示意圖;以及
圖3是本發(fā)明實施例三提供的文本話題和情感的聯(lián)合檢測裝置的優(yōu)選結(jié)構(gòu)示意圖。
具體實施方式
為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合附圖及實施例,對本發(fā)明進行進一步詳細說明。應(yīng)當(dāng)理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
以下結(jié)合具體實施例對本發(fā)明的具體實現(xiàn)進行詳細描述:
實施例一:
圖1示出了本發(fā)明實施例一提供的文本話題和情感的聯(lián)合檢測方法的實現(xiàn)流程,為了便于說明,僅示出了與本發(fā)明實施例相關(guān)的部分,詳述如下:
在步驟S101中,使用預(yù)設(shè)的情感詞典計算輸入的目標(biāo)文本中每個詞的初始情感傾向。
在本發(fā)明實施例中,接收到用戶發(fā)送的文本話題和情感獲取請求后,使用預(yù)設(shè)的情感詞典計算輸入的目標(biāo)文本中每個詞的初始情感傾向。目標(biāo)文本可以是公用的傳統(tǒng)話題檢測數(shù)據(jù)樣本,也可以為來自網(wǎng)絡(luò)的微博、博客、論壇、商品在線評論數(shù)據(jù)等數(shù)據(jù)文檔。當(dāng)然,在獲取后這些文檔后,應(yīng)對這些文檔進行預(yù)處理,例如,分詞、去停用詞、高低頻詞以及非法字符等,以得到本發(fā)明實施例中的目標(biāo)文本。優(yōu)選地,使用HowNet詞典計算輸入的目標(biāo)文本中每個詞的初始情感傾向,以提高目標(biāo)文本中每個詞的初始情感傾向的準確度,加快目標(biāo)文本的話題和情感獲取速度。
在步驟S102中,將預(yù)先獲取的外部語料的詞向量設(shè)置為目標(biāo)文本的詞向量的初始值。
在本發(fā)明實施例中,外部擴展語料可作為目標(biāo)文本對應(yīng)的原始數(shù)據(jù)的語義補充,使用預(yù)設(shè)詞向量訓(xùn)練程序?qū)Λ@取的外部擴展語料進行預(yù)訓(xùn)練,以得到外部擴展語料中各個詞語的詞向量,進而利用得到的詞向量對目標(biāo)文本的詞向量進行初始化。
具體地,外部語料應(yīng)盡可能地包含目標(biāo)文本中的所有詞語,這樣,可保證目標(biāo)文本中的每個詞都能從外部語料獲取一個初始的詞向量作為該詞語義和詞義的補充,用于進一步學(xué)習(xí)詞向量和話題向量。優(yōu)選地,外部擴展語料為維基百科或百度百科,從而得到提高詞向量訓(xùn)練的效率。優(yōu)選地,預(yù)設(shè)的詞向量訓(xùn)練程序為word2vec或者GloVe工具,從而簡化詞向量的訓(xùn)練過程,提高訓(xùn)練速度,保證了訓(xùn)練結(jié)果的穩(wěn)定性。
在步驟S103中,使用預(yù)設(shè)的話題情感混合模型對輸入的目標(biāo)文本進行訓(xùn)練,以得到目標(biāo)文本中各個情感話題對與詞之間的初始分配。
在本發(fā)明實施例中,預(yù)設(shè)的話題情感混合模型用于獲取目標(biāo)文本中各個情感話題對與詞之間的初始分配。優(yōu)選地,預(yù)設(shè)的話題情感混合模型為文本弱監(jiān)督聯(lián)合情感-話題檢測模型(Weakly Supervised Joint Sentiment-Topic Detection from text,縮寫為JST)模型,從而提高各個情感話題對與詞之間的初始分配的準確率。
在步驟S104中,根據(jù)目標(biāo)文本中每個詞的初始情感傾向、詞向量的初始值以及各個情感話題對與詞之間的初始分配,對目標(biāo)文本中包括的每篇文檔進行掃描,對掃描到的每個訓(xùn)練目標(biāo)詞執(zhí)行預(yù)設(shè)的話題和情感檢測步驟,以得到目標(biāo)文本所涉及的話題和情感。
在本發(fā)明實施例中,目標(biāo)文本可以看成是由多篇文檔組成,多篇文檔可以涉及相同或不同的情感和話題。具體在獲取目標(biāo)文本所涉及的話題和情感時,可根據(jù)目標(biāo)文本中每個詞的初始情感傾向、詞向量的初始值以及所述各個情感話題對與詞之間的初始分配,對目標(biāo)文本中包括的每篇文檔進行掃描,對掃描到的每個訓(xùn)練目標(biāo)詞執(zhí)行預(yù)設(shè)的話題和情感檢測步驟。
在本發(fā)明實施例中,預(yù)設(shè)的話題和情感檢測步驟包括:
(1)利用對目標(biāo)文本的話題向量進行學(xué)習(xí),其中,為L2正則化項,μ為正則化因子,vk為話題k對應(yīng)的話題向量,為話題k下詞wi出現(xiàn)的次數(shù),代表詞wi對應(yīng)的詞向量表示。這樣,可以使得話題向量的學(xué)習(xí)速度更快、學(xué)習(xí)準確率更高。
(2)使用計算每篇文檔情感和話題向量對應(yīng)下的詞向量概率分布,vk代表話題向量,W為語料庫中詞典內(nèi)包含的詞的集合,w′i為詞典中的詞。
(3)根據(jù)公式
更新訓(xùn)練目標(biāo)詞對應(yīng)的情感傾向和話題,其中,表示文本情感下話題的分布,表示文本下情感的分布,表示情感下話題詞的分布。α、β、γ表示Dirichlet先驗超參數(shù),λ表示服從伯努利分布的參數(shù),ν表示話題向量,ω表示詞向量,V、T、L分別表示詞典大小、話題個數(shù)、情感標(biāo)簽的個數(shù)。表示除文檔d中的第i個詞外,情感l(wèi)中被分配到話題k的詞的個數(shù),表示文檔d中的第i個詞被分配到情感l(wèi)的次數(shù),但不包含當(dāng)前分配,表示除文檔d中的第i個詞外,情感l(wèi)下分配到的詞的總數(shù),表示當(dāng)前詞i被分配到情感l(wèi)中話題k的詞的次數(shù),但不包含當(dāng)前分配,表示除當(dāng)前詞i外,情感l(wèi)下分配到話題k的詞的總數(shù)。這樣,可將詞共現(xiàn)的詞頻統(tǒng)計狄利克雷多項式概率分布元和話題-詞向量元MulT(wi|νkωT)結(jié)合,充分利用詞頻統(tǒng)計和詞向量的優(yōu)點,拓展詞的語義信息,最終使情感-話題與詞語的匹配更精準。
本發(fā)明使用預(yù)設(shè)的情感詞典計算輸入的目標(biāo)文本中每個詞的初始情感傾向,將預(yù)先獲取的外部語料的詞向量設(shè)置為目標(biāo)文本的詞向量的初始值,使用預(yù)設(shè)的話題情感混合模型對輸入的目標(biāo)文本進行訓(xùn)練,以得到目標(biāo)文本中各個情感話題對與詞之間的初始分配,最終根據(jù)目標(biāo)文本中每個詞的初始情感傾向、詞向量的初始值以及各個情感話題對與詞之間的初始分配,對目標(biāo)文本中包括的每篇文檔進行掃描,對掃描到的每個訓(xùn)練目標(biāo)詞執(zhí)行預(yù)設(shè)的話題和情感檢測步驟,以得到所述目標(biāo)文本的話題和情感,從而提高了獲得的目標(biāo)文本的話題和情感的準確度。
本領(lǐng)域普通技術(shù)人員可以理解實現(xiàn)上述實施例方法中的全部或部分步驟是可以通過程序來指令相關(guān)的硬件來完成,所述的程序可以存儲于一計算機可讀取存儲介質(zhì)中,所述的存儲介質(zhì),如ROM/RAM、磁盤、光盤等。
實施例二:
圖2示出了本發(fā)明實施例二提供的文本話題和情感的聯(lián)合檢測裝置的結(jié)構(gòu),為了便于說明,僅示出了與本發(fā)明實施例相關(guān)的部分,其中包括:
情感傾向計算單元21,用于使用預(yù)設(shè)的情感詞典計算輸入的目標(biāo)文本中每個詞的初始情感傾向;
詞向量設(shè)置單元22,用于將預(yù)先獲取的外部語料的詞向量設(shè)置為所述目標(biāo)文本的詞向量的初始值;
文本訓(xùn)練單元23,用于使用預(yù)設(shè)的話題情感混合模型對輸入的目標(biāo)文本進行訓(xùn)練,以得到所述目標(biāo)文本中各個情感話題對與詞之間的初始分配;以及
話題情感獲取單元24,用于根據(jù)目標(biāo)文本中每個詞的初始情感傾向、詞向量的初始值以及各個情感話題對與詞之間的初始分配,對目標(biāo)文本中包括的每篇文檔進行掃描,對掃描到的每個訓(xùn)練目標(biāo)詞執(zhí)行預(yù)設(shè)的話題和情感檢測步驟,以得到目標(biāo)文本所涉及的話題和情感。
優(yōu)選地,如圖3所示,在本發(fā)明實施例中,話題情感獲取單元24包括:
詞向量學(xué)習(xí)單元241,用于利用對目標(biāo)文本的話題向量進行學(xué)習(xí),其中,為L2正則化項,μ為正則化因子,vk為話題k對應(yīng)的話題向量,為話題k下詞wi出現(xiàn)的次數(shù),代表詞wi對應(yīng)的詞向量表示;
分布計算單元242,用于使用計算每篇文檔情感和話題向量對應(yīng)下的詞向量概率分布,vk代表話題向量,代表詞wi對應(yīng)的詞向量表示,W為語料庫中詞典內(nèi)包含的詞的集合,w′i為詞典中的詞;以及
情感話題更新單元243,用于根據(jù)更新訓(xùn)練目標(biāo)詞對應(yīng)的情感傾向和話題,其中,表示文本情感下話題的分布,表示文本下情感的分布,表示情感下話題詞的分布,α、β、γ表示Dirichlet先驗超參數(shù),λ表示服從伯努利分布的參數(shù),ν表示話題向量,ω表示詞向量,V、T、L分別表示詞典大小、話題個數(shù)、情感標(biāo)簽的個數(shù),表示除文檔d中的第i個詞外,情感l(wèi)中被分配到話題k的詞的個數(shù),表示文檔d中的第i個詞被分配到情感l(wèi)的次數(shù),但不包含當(dāng)前分配,表示除文檔d中的第i個詞外,情感l(wèi)下分配到的詞的總數(shù),表示當(dāng)前詞i被分配到情感l(wèi)中話題k的詞的次數(shù),但不包含當(dāng)前分配,表示除當(dāng)前詞i外,情感l(wèi)下分配到話題k的詞的總數(shù)。
進一步優(yōu)選地,文本話題和情感的聯(lián)合檢測裝置還包括:
語料獲取單元30,用于獲取外部擴展語料,以作為目標(biāo)文本對應(yīng)的原始數(shù)據(jù)的語義補充;以及
語料訓(xùn)練單元31,用于使用預(yù)設(shè)詞向量訓(xùn)練程序?qū)Λ@取的外部擴展語料進行預(yù)訓(xùn)練,以得到外部擴展語料中各個詞語的詞向量。
優(yōu)選地,外部擴展語料為維基百科或百度百科,預(yù)設(shè)詞向量訓(xùn)練程序為word2vec或者GloVe工具。優(yōu)選地,預(yù)設(shè)的情感詞典為HowNet詞典,預(yù)設(shè)的話題情感混合模型為JST模型。
在本發(fā)明實施例中,文本話題和情感的聯(lián)合檢測裝置的各單元可由相應(yīng)的硬件或軟件單元實現(xiàn),各單元可以為獨立的軟、硬件單元,也可以集成為一個軟、硬件單元,在此不用以限制本發(fā)明。各單元的具體實施方式可參考實施例一的描述,在此不再贅述。
以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。