基于多任務(wù)學(xué)習(xí)的中文交互文本情感與話題識別方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及對中文交互文本進行情感與話題識別的方法,具體涉及一種基于多任 務(wù)學(xué)習(xí)的中文交互文本情感與話題識別方法。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,E-Learning憑借其"資源共享"、"隨時隨地"等多種 優(yōu)勢迅速被人們接受,但同時也存在自身的缺點,由于學(xué)習(xí)者之間、師生之間時空分離,缺 乏情感交流和反饋,教師無法實時掌握學(xué)生的學(xué)習(xí)動態(tài),很難對學(xué)生給出綜合全面的學(xué)習(xí) 評價。在e-Learning系統(tǒng)中,如何發(fā)現(xiàn)學(xué)習(xí)者的情感并對學(xué)習(xí)者的負面情感加以調(diào)整、識 別學(xué)習(xí)者感興趣的話題已經(jīng)成為當(dāng)前的研究熱點。
[0003] 目前對文本進行情感與話題識別有多種方法,但是與傳統(tǒng)文本相比較,交互文本 具有句子長度較短、非語言符號較多等特點為交互文本的情感和話題識別帶來了新的挑 戰(zhàn),傳統(tǒng)的識別方法已不完全適用于交互文本。同時傳統(tǒng)的方法是將情感識別與話題識別 這兩個任務(wù)分開進行,比如利用SVM、決策樹等單任務(wù)學(xué)習(xí)方法分別構(gòu)建情感和話題的分類 模型,使這兩個任務(wù)之間相互獨立,該方法雖然日趨成熟,但是不能挖掘并利用不同任務(wù)之 間的內(nèi)在聯(lián)系,所以,能夠?qū)Χ鄠€任務(wù)同時識別的多任務(wù)學(xué)習(xí)方法成為一種重要解決方案, 該方法可以利用任務(wù)之間的相關(guān)性來提高不同任務(wù)的分類效果,從而彌補單任務(wù)學(xué)習(xí)的這 點不足,同時解決了訓(xùn)練樣本較少、模型泛化能力差等問題。
[0004] 目前,與項目相關(guān)的專利,例如"一種基于情感分析在線檢測微博熱點事件的方 法"(CN201310403005. 4)已授權(quán),它通過情感分析對在線微博文本進行情感抽取,進而實現(xiàn) 在線實時檢測出微博熱點事件的目的,但是此專利并未結(jié)合e-Learning交互文本的自身 特性,較為單一。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的目的在于提供一種基于多任務(wù)學(xué)習(xí)的中文交互文本情感與話題識別方 法,以克服現(xiàn)有技術(shù)的問題,本發(fā)明利用多任務(wù)學(xué)習(xí)方法挖掘并利用交互文本中情感與話 題的內(nèi)在聯(lián)系提高二者的識別效果。
[0006] 為達到上述目的,本發(fā)明采用如下技術(shù)方案:
[0007] 基于多任務(wù)學(xué)習(xí)的中文交互文本情感與話題識別方法,包括以下步驟:
[0008] 1)中文交互文本的特征提取
[0009] 將中文交互文本的每條話輪表示為特征項集合,根據(jù)人與人之間的交互歷史數(shù)據(jù) 提取交互文本的傾向性特征;
[0010] 2)中文交互文本情感與話題識別
[0011] 采用多任務(wù)學(xué)習(xí)方法識別中文交互文本的情感與話題,利用基于上下文的多任務(wù) 分類模型構(gòu)建方法識別中文交互文本的情感與話題;
[0012] 3)對新用戶的情感和話題識識別效果進行改進
[0013] 用戶的交互文本數(shù)據(jù)量分布不均勻,老用戶或活躍用戶交互文本的數(shù)據(jù)量大,而 新用戶或不活躍的用戶交互文本的數(shù)據(jù)量很少,針對此問題,采用隨機游走與多任務(wù)學(xué)習(xí) 相結(jié)合的方法,利用歷史數(shù)據(jù)豐富并且分類精度高的老用戶或活躍用戶的數(shù)據(jù)來協(xié)助預(yù)測 新用戶或不活躍用戶情感與話題的類別。
[0014] 在中文交互文本的特征提取階段,提取中文交互文本的傾向性特征,將每條交互 文本表示為特征項集合,傾向性特征的提取步驟為:首先基于說話者之間的交互文本構(gòu)建 有向圖〈V,E>,其中圖的頂點集V = Ivi, i = 1,2,…,Μ},M表示說話者的人數(shù),¥;表示說話 者,邊集£_g〖/χ〖/,(vi,vj)eE表示說話者v i回復(fù)說話者v_j,另外這里將vi對v_j的第k次 回復(fù)記為然后在說話者¥1與V j的交互文本數(shù)據(jù)中,分別統(tǒng)計屬于有情感、無情感、某特 定話題和非某特定話題四個類別的話輪數(shù),并計算出各個類別的概率值;最后利用這些概 率值計算傾向性特征,計算公式為:
[0016] 其中,Γ(<)表示文本^的傾向性特征值,IabelJP label b表示文本的類別標(biāo)簽, 在情感識別中,IabelJP label b分別表示有情感和無情感,在話題識別中,label 3和label b 分別表示某特定話題和非某特定話題
>表示在\對V ,的所有回復(fù)記錄中,類別 標(biāo)簽為IabelJ^i率值;
[0017] 根據(jù)交互文本的交互順序?qū)⒃捿嗊M行排序,將當(dāng)前話輪《的前一個話輪和后 一個話輪所屬的情感與話題的類別作為4的上下文信息,將對當(dāng)前話輪< 進行情感與 話題識別作為"一級任務(wù)";結(jié)合當(dāng)前話輪4上下文的類別標(biāo)簽對當(dāng)前文本4進行情感和話 題的識別,稱為"二級任務(wù)";對訓(xùn)練集中的交互文本進行特征提取后形成兩個特征向量數(shù) 據(jù)集Xl和X2,其中,Xl為情感識別的數(shù)據(jù)集,X2為話題識別的數(shù)據(jù)集,在Xl和X2的特征 向量中,包括統(tǒng)計特征、交互特征、詞頻特征和傾向性特征,分別如下:
[0018] a)統(tǒng)計特征Fl :12維,包括句子的長度、出現(xiàn)最多的詞語個數(shù)、單個字個數(shù)、詞語 個數(shù)、正面情感詞個數(shù)、負面情感詞個數(shù)、標(biāo)點符號個數(shù)、名詞頻數(shù)、副詞頻數(shù)、字符個數(shù)、動 詞個數(shù)和形容詞個數(shù);
[0019] b)交互特征F2 :9維,包括性別、情感符號、情感圖片、特殊標(biāo)點符號、擬聲詞、語氣 詞、嘆詞、時間詞語和非漢語詞;
[0020] c)詞頻特征F3 :采用基于TF-IDF的聚集文檔候選詞篩選方法選取前1000維特征 信息;
[0021] d)傾向性特征F4:即由公式⑴計算得到的Γ(<)。
[0022] y e [-1,1]為每條樣本情感與話題的類別標(biāo)簽,在情感識別中,-1表示負面情感, 1表示正面情感;在話題識別中,-1表示某特定話題,1表示非某特定話題;構(gòu)建"一級任務(wù)" 的多任務(wù)分類模型過程如公式(2)所示:
[0024] 其中,X e {XI,X2},即X是情感識別的特征向量數(shù)據(jù)集與話題識別的特征向量數(shù) 據(jù)集;L個任務(wù)的未知參數(shù)w組合起來為W = (W1, W2, ...,W1) ;L個任務(wù)的未知偏重組合起來 為κ = ( κ κ 2, . . .,κ J
為交互文本< 所標(biāo)注的情感與話題的類別標(biāo)簽 的似然概率密度函數(shù),對于第1個任務(wù),似然概率密度函數(shù)滿足均值為wf Xy,方差為gf 的Gaussian分布;p(W| σ,Ω)為未知參數(shù)W的先驗概率密度函數(shù),滿足均值為σ,方差為 Ω的Gaussian分布,通過求公式(2)的最大后驗概率求解未知參數(shù)W,最大后驗概率F (W) 的計算公式如下:
[0029] 其中,Puprantex^ P d_rantext分別為交互文本與前一個話輪Sf1和后一個話輪的 的情感與話題的類別標(biāo)簽構(gòu)建的后驗概率;為"二級任務(wù)"添加權(quán)重β,與"一級任務(wù)" 加和,得到整體后驗概率公式:
[0030] Fmp= F+ β F _text ( β G [0, !]) (6)
[0031] 其中,F(xiàn)map為整體后驗概率,F(xiàn)為"一級任務(wù)"的多任務(wù)分類模型,F(xiàn) rantext為"二級任 務(wù)"的多任務(wù)分類模型;
[0032] 利用高斯密度函數(shù)將公式(6)展開,得到公式(7):
[0034] 其中,Q1是第1個任務(wù)對應(yīng)的數(shù)據(jù)集中交互文本的話輪總數(shù);:< 是第1個任務(wù)對 應(yīng)的數(shù)據(jù)集中的第q個話輪對應(yīng)的特征向量值,同時其對應(yīng)的標(biāo)簽為J1! ; β為設(shè)置的任務(wù) 權(quán)重向量,假設(shè):
[0035] Ω ^ 〇
[0036] tr(Q) = 1 (8)
[0037] 得到待優(yōu)化的目標(biāo)函數(shù)為:
[0040] 將公式(9)轉(zhuǎn)換成了一個凸函數(shù)的二次規(guī)劃問題,公式如下所示:
[0042] 利用拉格朗日算子將公式(10)轉(zhuǎn)化為無約束條件的規(guī)劃問題進行最優(yōu)化求解, 得到整個函數(shù)取最小值時未知參數(shù)W的取值。
[0043] 用戶的交互文本數(shù)據(jù)量分布不均勻,針對無法提取傾向性特征的新用戶或不活躍 用戶,采用隨機游走算法利用與新用戶或不活躍用戶數(shù)據(jù)相似的老用戶或活躍用戶的數(shù)據(jù) 協(xié)助預(yù)測新用戶或不活躍用戶情感與話題的類別,步驟為:
[0044] Stepl :以所有話輪的特征向量集為頂點構(gòu)建加權(quán)無向圖:G = (T,Z,H),其中圖 的頂點集T = {tx, X = 1,2,…,N},N表示話輪總數(shù),tx表示第X條話輪的特征向量,邊集 ZdVJ%. H = [hxy]NXN,其中hxy為連接頂點t x,ty的邊z xy的權(quán)重,h xy的計算方法如公式 (11)所示:
[0046] 其中,dis (tx, ty)表示頂點tx和頂點t y在圖上的最短路徑長度;
[0047] 另外,構(gòu)建頂點對角矩陣D,如公式12所示:
[0051] St印2 :計算頂點間的轉(zhuǎn)移概率矩陣,基于圖G = (T,Z,H)中頂點集T上的隨機游 走的轉(zhuǎn)移概率公式為:
[0053] 其中,Pxy表示從頂點t x-步轉(zhuǎn)移到頂點t』勺概率,P = [p xy]NXN,表示轉(zhuǎn)移矩陣, 其計算方法如公式(15)所示:
[0054] P = D 1H (15)
[0055] Step3