一種融合多信息源的個(gè)性化在線新聞評(píng)論情緒預(yù)測(cè)方法
【專利摘要】本發(fā)明提出了一種融合多信息源的個(gè)性化在線新聞評(píng)論情緒預(yù)測(cè)方法。本發(fā)明的方法是在基于單一信息源的在線新聞評(píng)論情緒預(yù)測(cè)的基礎(chǔ)上提出了一種融合多信息源的在線新聞評(píng)論情緒預(yù)測(cè)方法。單一的信息源從用戶評(píng)論,新聞文本和用戶情緒投票這三個(gè)方面分別對(duì)在線新聞評(píng)論情緒進(jìn)行預(yù)測(cè),本發(fā)明通過結(jié)合多種異構(gòu)信息源,極大地提高了預(yù)測(cè)的準(zhǔn)確性。本發(fā)明提出的方法顯著地優(yōu)于其他在線新聞評(píng)論情緒預(yù)測(cè)的替代方法,并且在處理大量差異較大的評(píng)論集合時(shí)更具優(yōu)勢(shì)。本發(fā)明可用于用戶情感分析和輿情監(jiān)督。
【專利說明】一種融合多信息源的個(gè)性化在線新聞評(píng)論情緒預(yù)測(cè)方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于web信息檢索與挖掘領(lǐng)域,具體涉及異構(gòu)新聞內(nèi)容,評(píng)論內(nèi)容,用戶情 感等多種信息源,對(duì)在線新聞評(píng)論情緒進(jìn)行預(yù)測(cè)的方法。
【背景技術(shù)】
[0002] 在線新聞服務(wù)作為主要的網(wǎng)絡(luò)信息載體,已經(jīng)成為人們生活中不可或缺的新聞信 息來源。在線新聞逐漸取代了報(bào)紙、廣播、電視新聞等傳統(tǒng)的新聞接收方式,以及時(shí)、全面、 便捷的特點(diǎn)深受廣大網(wǎng)民的喜愛。越來越多的人養(yǎng)成了每天在網(wǎng)絡(luò)上瀏覽新聞的習(xí)慣,從 在線新聞中實(shí)時(shí)了解新聞?dòng)嵪?,同時(shí)針對(duì)新聞事件或其他用戶的觀點(diǎn),發(fā)表自己的評(píng)論,抒 發(fā)自己的主觀情感。
[0003] 情感預(yù)測(cè)(sentiment prediction)是情感分析研究中最重要的子任務(wù)之一,是指 對(duì)給定文本所蘊(yùn)含的情感進(jìn)行預(yù)測(cè)。情感預(yù)測(cè)問題通常采用分類的方法來解決,即給定一 個(gè)帶有情感的文本,假設(shè)它蘊(yùn)含的整體情感是唯一的一種,將該文本的整體情感劃分到某 一種情感類別中,達(dá)到預(yù)測(cè)該文本情感的目的。利用分類方法解決的情感預(yù)測(cè)問題,又被稱 為情感分類(sentiment classification)。情感分類與文本分類(text classification)都 是基于文本內(nèi)容的分類問題,但文本分類的目標(biāo)是識(shí)別文本的主題(topic),而情感分類是 判別文本所蘊(yùn)含的情感信息。
[0004] 情感分析方面的研究工作現(xiàn)在主要是基于情感類別標(biāo)注數(shù)據(jù)的監(jiān)督學(xué)習(xí)方法?;?于情感類別標(biāo)注訓(xùn)練數(shù)據(jù)集,構(gòu)建高性能情感分類器,來分析文本的情感類別。Pang等最 早提出利用監(jiān)督學(xué)習(xí)方法來解決文本情感分類問題,其策略是選用多種特征選擇方法,利 用樸素貝葉斯(naiVe Bayes)、最大熵(maximum entropy)和支持向量機(jī)(support vector machine, SVM)等模型對(duì)電影評(píng)論中所蘊(yùn)含的情感進(jìn)行極性劃分。Mullen和Collier基于 短語語義傾向信息、形容詞、文本主題知識(shí)等多種信息源,利用支持向量機(jī)模型對(duì)電影評(píng)論 進(jìn)行情感分類。Pang等將文本的主觀/客觀分類問題轉(zhuǎn)換為求解句子連接圖的最小分割問 題,構(gòu)建了一個(gè)基于最小分割的分類器對(duì)文本進(jìn)行分類。Gamon利用對(duì)數(shù)似然比進(jìn)行特征選 擇,使用支持向量機(jī)模型對(duì)顧客反饋數(shù)據(jù)進(jìn)行情感分析。在中文文本情感分析方面,Tan針 對(duì)文檔級(jí)別提出了一種基于經(jīng)驗(yàn)學(xué)習(xí)的方法,利用四種特征選取方法和五種機(jī)器學(xué)習(xí)方法 對(duì)中文文檔進(jìn)行情感分類,測(cè)試和比較各方法的性能。
[0005] 上述工作是對(duì)新聞文章的情緒進(jìn)行分類和預(yù)測(cè),一般來說,新聞文章所含有的情 緒更多地屬于新聞撰寫者,并不能代表所有用戶閱讀新聞之后的情緒。本發(fā)明則是針對(duì)在 線新聞的用戶評(píng)論,研究用戶在閱讀新聞之后的觀點(diǎn)和情緒。
[0006] 同時(shí),在新聞評(píng)論情緒預(yù)測(cè)問題中,單一的信息源不能反映所有用戶的情感,不同 的信息源可從不同的角度解讀新聞評(píng)論中的用戶情緒,且對(duì)于不同的評(píng)論,不同信息源的 情緒預(yù)測(cè)指示性和可靠性不同。對(duì)于不同的評(píng)論,某些信息源可能比其他的信息源更值得 信賴且更具有指示性,不同的信息源應(yīng)該有不同的權(quán)重,以反映它們對(duì)不同評(píng)論的重要程 度。如何結(jié)合多種異構(gòu)信息源進(jìn)行在線新聞評(píng)論情緒預(yù)測(cè),如何為不同的評(píng)論分配相應(yīng)的 異構(gòu)信息源結(jié)合權(quán)重,從而提高情緒預(yù)測(cè)的準(zhǔn)確性,是一個(gè)重要的研究問題。
【發(fā)明內(nèi)容】
[0007] 針對(duì)目前絕大部分情感分析是針對(duì)新聞文章而進(jìn)行分類和預(yù)測(cè)的,本發(fā)明融合了 新聞的評(píng)論,新聞本身和用戶情緒投票三種方法對(duì)用戶的情感進(jìn)行預(yù)測(cè),同時(shí)通過分配恰 當(dāng)?shù)臋?quán)重,使情緒預(yù)測(cè)的結(jié)果更準(zhǔn)確。
[0008] 本發(fā)明提出了一種融合多信息源的個(gè)性化在線新聞評(píng)論情緒預(yù)測(cè)方法,結(jié)合了多 種異構(gòu)信息源,采用再分類的方法,解決用戶新聞評(píng)論的情緒預(yù)測(cè)問題。
[0009] 該方法可自動(dòng)地根據(jù)評(píng)論的特征來識(shí)別評(píng)論的不同潛在類別,為每一個(gè)類別的評(píng) 論建立二層邏輯斯謫回歸模型預(yù)測(cè)評(píng)論的情緒。根據(jù)評(píng)論的類型特征不同,不同類的評(píng)論 將采取不同的異構(gòu)信息源結(jié)合權(quán)重。
[0010] 本發(fā)明提出的一種融合多信息源的個(gè)性化在線新聞評(píng)論情緒預(yù)測(cè)方法的主要步 驟如下:
[0011] 第1、基于單一信息源的在線新聞評(píng)論情緒預(yù)測(cè) [0012] 第1. 1、基于評(píng)論內(nèi)容的情緒預(yù)測(cè) [0013] 定義1 :輸入文本的特征向量的定義
[0014] ①·所有文檔的標(biāo)引詞組成的空間為特征空間Ω = {tl,t2,…,tn},hi = 1,2,…,n,為在所有文檔中互異的標(biāo)引詞,包括字、單詞或詞組,η為特征的個(gè)數(shù);
[0015] ②.一個(gè)文檔d可以在特征空間Ω上用標(biāo)引詞組成的向量來表示,即輸入文本的 特征向量d = {txl, tx2,…,txn},txi表示文檔d中第i個(gè)標(biāo)引詞&的權(quán)重;
[0016] ③.本發(fā)明使用的是將標(biāo)引詞在文檔中出現(xiàn)的次數(shù)作為特征權(quán)重;
[0017] 定義2 :評(píng)論文檔的形式化定義
[0018] 給定一個(gè)用戶新聞評(píng)論文檔集合C,C= {c(1),c(2),…,c(N)};
[0019] 定義3 :新聞文檔的形式化定義
[0020] 存在一個(gè)與評(píng)論文檔集合C對(duì)應(yīng)的在線新聞文檔集合D,D = {d(1),d(2),…,d(M)};
[0021] 定義4 :情緒類別的形式化定義
[0022] 用戶在閱讀新聞#0 e D后對(duì)其中的新聞事件發(fā)表了自己的評(píng)論c(i) e C,同時(shí)抒 發(fā)了某種情緒,即本文研究所關(guān)注的新聞評(píng)論中的用戶情緒;
[0023] 給定一個(gè)預(yù)定義的情緒類別標(biāo)簽(class label)集合E,E = R1, e2,…,eK},ek代 表新聞評(píng)論中可能表達(dá)情緒的類別標(biāo)簽,集合E即是該情緒分類問題的輸出空間;
[0024] 定義5 :評(píng)論特征向量的表示
[0025] 選取新聞評(píng)論c(i) e C的一些特征構(gòu)成特征向量來表示該評(píng)論, X⑴=兄),4'...乂')},矸)表示評(píng)論c(i)的第j個(gè)特征;
[0026] 所有特征向量存在的空間構(gòu)成了該情緒分類問題的特征空間,同時(shí)也是該情緒分 類問題的輸入空間;
[0027] 定義6 :評(píng)論標(biāo)注向量的表示
[0028] 每個(gè)評(píng)論c(i) eC對(duì)應(yīng)一個(gè)標(biāo)注向量y(i)表示評(píng)論c(i)表達(dá)的情緒, = (jfW'···,#} ·,如果評(píng)論c(i)標(biāo)注的情緒是ek類,則
【權(quán)利要求】
1. 一種融合多信息源的個(gè)性化在線新聞評(píng)論情緒預(yù)測(cè)方法,包括如下步驟: 第1、基于單一信息源的在線新聞評(píng)論情緒預(yù)測(cè) 第1. 1、基于評(píng)論內(nèi)容的情緒預(yù)測(cè) 定義1 :輸入文本的特征向量的定義 ① .所有文檔的標(biāo)引詞組成的空間為特征空間Ω=Itpt2,…,?η}4,?= 1,2^··,η, 為在所有文檔中互異的標(biāo)引詞,包括字、單詞或詞組,η為特征的個(gè)數(shù); ②.一個(gè)文檔d在特征空間Ω上用標(biāo)引詞組成的向量來表示,即輸入文本的特征向量 d=ltxl,tx2,…,txn},txi表示文檔d中第i個(gè)標(biāo)引詞&的權(quán)重; ③ .本發(fā)明是將標(biāo)引詞在文檔中出現(xiàn)的次數(shù)作為特征權(quán)重; 定義2 :評(píng)論文檔的形式化定義 給定一個(gè)用戶新聞評(píng)論文檔集合C,C= {c(1),c(2),…,c(N)}; 定義3 :新聞文檔的形式化定義 存在一個(gè)與評(píng)論文檔集合C對(duì)應(yīng)的在線新聞文檔集合D,D= {d(1),d(2),…,d(M)}; 定義4:情緒類別的形式化定義 用戶在閱讀新聞#0eD后對(duì)其中的新聞事件發(fā)表了自己的評(píng)論c(i)eC,同時(shí)抒發(fā)了 某種情緒,即本文研究所關(guān)注的新聞評(píng)論中的用戶情緒; 給定一個(gè)預(yù)定義的情緒類別標(biāo)簽(classlabel)集合E,E=Ie^e2, 代表新 聞評(píng)論中可能表達(dá)情緒的類別標(biāo)簽,集合E即是該情緒分類問題的輸出空間; 定義5 :評(píng)論特征向量的表示 選取新聞評(píng)論c(i)eC的一些特征構(gòu)成特征向量xu> ^R"來表示該評(píng)論, X0') = ,xy)表示評(píng)論c(i)的第j個(gè)特征; 所有特征向量存在的空間構(gòu)成了該情緒分類問題的特征空間,同時(shí)也是該情緒分類問 題的輸入空間; 定義6 :評(píng)論標(biāo)注向量的表示 每個(gè)評(píng)論c(1)eC對(duì)應(yīng)一個(gè)標(biāo)注向量y(1)表示評(píng)論c(1)表達(dá)的情緒,/> =Of如果評(píng)論c(i>標(biāo)注的情緒是ek類,則
定義7 :訓(xùn)練集的形式化定義 整個(gè)訓(xùn)練集表示為T= {(x(1),y(1)),(x(2),y(2)),…(x(N),y(N))};在輸入空間和輸出空間 上分別定義隨機(jī)變量X和Y,所有的輸入評(píng)論特征向量與輸出情緒類別標(biāo)簽均看成是隨機(jī) 變量X和Y的取值; 定義8 :基于評(píng)論內(nèi)容的邏輯斯謫回歸模型的定義 給定一個(gè)評(píng)論c及其特征向量X,根據(jù)多元邏輯斯謫回歸模型,它被分到情緒ek類的條 件概率分布為由特征線性函數(shù)表示的軟最大函數(shù),
其中,X= (X11X2, ...,xn, 1}eRn+1,COk = {(〇kl,COk2,…,C0kn,bk}eRn+1 為對(duì)于情緒ek 的權(quán)值向量參數(shù); 定義9 :基于評(píng)論內(nèi)容的邏輯斯謫回歸模型優(yōu)化目標(biāo)函數(shù)定義 經(jīng)驗(yàn)風(fēng)險(xiǎn)是訓(xùn)練數(shù)據(jù)集的平均損失,按照經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化求最優(yōu)模型,即求解最優(yōu)化 問題:
該模型在定義8的基礎(chǔ)上使用了負(fù)的極小化對(duì)數(shù)似然函數(shù),其中N表示文檔類型的數(shù) 目,K表示情緒類別的個(gè)數(shù),λ彡〇是系數(shù),用以權(quán)衡經(jīng)驗(yàn)風(fēng)險(xiǎn)和正則化項(xiàng); 第1. 2、基于用戶情緒投票的情緒預(yù)測(cè) 對(duì)于一個(gè)新聞d,用戶在閱讀該新聞后可對(duì)其中的新聞事件發(fā)表評(píng)論以抒發(fā)情緒,也可 使用網(wǎng)站提供的用戶情緒投票功能,在給定的候選情緒類別標(biāo)簽集合E=Ie1,e2,…,eK}中 選擇與自己想要表達(dá)的情緒相同或相近的情緒類別標(biāo)簽; 定義10 :用戶投票的形式化定義 將新聞的用戶情緒投票信息作為針對(duì)該新聞發(fā)表的所有評(píng)論的元數(shù)據(jù)(metadata), 即每個(gè)評(píng)論c含有與其對(duì)應(yīng)新聞相同的用戶情緒投票信息,用P= (P1,P2,…PK}表示, Pk是用戶對(duì)情緒ek的投票數(shù)目; 定義11 :評(píng)論表達(dá)情緒條件概率的定義 假設(shè)新聞評(píng)論中情緒的分布與用戶情緒投票中各情緒的分布相同,給定一個(gè)評(píng)論c,可 用情緒所得票數(shù)占總票數(shù)的比例,作為該評(píng)論c表達(dá)情緒的條件概率,即
第1. 3、基于新聞內(nèi)容的情緒預(yù)測(cè) 定義12:標(biāo)引詞的形式化定義 選取新聞文本內(nèi)容和評(píng)論文本內(nèi)容的標(biāo)引詞,Ω=It1,t2,…,tm},h,i= 1,2, 為在所有新聞文檔和評(píng)論文檔中互異的標(biāo)引詞;每個(gè)標(biāo)引詞在文檔中的權(quán)重構(gòu)成該文檔的 特征向量,特征向量存在的空間構(gòu)成了該分類問題的特征空間,也是該分類問題的輸入空 間; 定義13:新聞特征向量的表示 計(jì)算新聞d(i)eD中標(biāo)引詞的權(quán)重,用標(biāo)引詞權(quán)重構(gòu)成的特征向量表示該新 聞的文本內(nèi)容,則新聞d(i)表示為表示新聞d⑴的第j個(gè)特征, 即標(biāo)引詞tj,j= 1,2,…,m,在新聞d(i)的權(quán)重; 定義14 :新聞標(biāo)注向量的表示 每個(gè)新聞d(i)eD含有的用戶情緒投票信息,用= }表示,其中A是 用戶對(duì)情緒ek,k= 1,2,…,K,的投票數(shù)目; 對(duì)新聞的用戶情緒投票統(tǒng)計(jì)信息進(jìn)行歸一化處理,得到每個(gè)情緒ek所得票數(shù)占總票數(shù) 的比例,即
將,={μ?,…,〇作為其對(duì)應(yīng)新聞d(i>所表達(dá)情緒的概率分布,即新聞d(i>的情 緒標(biāo)注向量; 定義15 :訓(xùn)練集的形式化定義 ?和μ是定義在輸入空間和輸出空間上的隨機(jī)變量;整個(gè)評(píng)論訓(xùn)練數(shù)據(jù)集表示為τ={(θ(1),μ(1)),(θ(2),μ(2)),...,(θ?,μ(Μ))},由Ρ(Θ,μ)獨(dú)立同分布產(chǎn)生; 定義16 :基于新聞內(nèi)容的邏輯斯謫回歸模型的定義 給定一個(gè)新聞(1(1)及其特征向量Θ(i),根據(jù)多元邏輯斯謫回歸模型,該新聞被分到情緒ek類的條件概率分布為由特征線性函數(shù)表示的軟最大函數(shù),即
其中,#={牝成>,.'.,把),以1^+1,?={> 1;1,?,..,^1!1>1;}£1^1為對(duì)于情緒%的 權(quán)值向量參數(shù); 定義17 :基于新聞內(nèi)容的邏輯斯謫回歸模型優(yōu)化目標(biāo)函數(shù)的定義 與以評(píng)論內(nèi)容作為信息源的邏輯斯謫回歸模型類似,基于新聞內(nèi)容的優(yōu)化目標(biāo)函數(shù)采 用結(jié)構(gòu)風(fēng)險(xiǎn)最小策略選取最優(yōu)模型,即選取經(jīng)驗(yàn)風(fēng)險(xiǎn)與正則化項(xiàng)之和最小的模型; 設(shè):=PtXy=?iΘ=#;),整個(gè)訓(xùn)練數(shù)據(jù)集T的似然是每個(gè)實(shí)例似然的乘積
整個(gè)訓(xùn)練數(shù)據(jù)集的對(duì)數(shù)似然函數(shù)為
經(jīng)驗(yàn)風(fēng)險(xiǎn)是關(guān)于訓(xùn)練數(shù)據(jù)集的平均損失,按照經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化求最優(yōu)模型,即求解最 優(yōu)化問題:
其中,λ彡O是系數(shù),用以權(quán)衡經(jīng)驗(yàn)風(fēng)險(xiǎn)和正則化項(xiàng); 第2、融合多信息源的個(gè)性化在線新聞評(píng)論情緒預(yù)測(cè) 第2.1、問題的形式化定義 定義18 :特征向量的表示 對(duì)于評(píng)論(:(1)eC,將其由多種單一信息源情緒預(yù)測(cè)方法輸出的對(duì)于每個(gè)情緒 類別ekeE(k= 1,2, ···,!()的條件概率分布與常量1 一起作為該評(píng)論的特征Ψω, ,={〇匕?,以>,1},11為特征的個(gè)數(shù),為情緒類別個(gè)數(shù)1(的整倍數(shù),即11=別,3£1 β即異構(gòu)信息源種類的個(gè)數(shù);所有特征向量存在的空間構(gòu)成該分類問題的特征空間,也是 輸入空間; 采用以評(píng)論內(nèi)容作為信息源基于邏輯斯謫回歸模型的情緒預(yù)測(cè)方法S_CC、以新聞內(nèi)容 作為信息源的情緒預(yù)測(cè)方法S_CN以及以用戶情緒投票作為信息源的情緒預(yù)測(cè)方法S_UEV 這三種異構(gòu)信息源的輸出結(jié)果進(jìn)行情緒預(yù)測(cè),則特征向量V(i)為
其中,^^、/4?}分別是方法S_CC、S_CN、S_UEV輸出的對(duì)于情緒類別ekeE的條 件概率分布k= 1,2,…,K; 定義19 :標(biāo)注向量的表示 每個(gè)評(píng)論c(1)eC對(duì)應(yīng)一個(gè)標(biāo)注向量y(1)來表示評(píng)論c(1)表達(dá)的情緒, / /·W};如果評(píng)論c(i)標(biāo)注的情緒是ek類,則
(2.2) 定義20 :訓(xùn)練集的形式化定義 于是整個(gè)訓(xùn)練集表示為T= {(V(1),y(1)),U(2),y(2)),···,U(N),y(N))};在輸入空間和 輸出空間上分別定義隨機(jī)變量X和Y,所有的輸入評(píng)論與輸出情緒類別分別看成是隨機(jī)變 量X和Y的取值; 第2. 2、基于潛在評(píng)論類別的個(gè)性化情緒預(yù)測(cè)方法 定義21 :基于潛在評(píng)論類別的再分類方法的定義
其中,Z為潛在評(píng)論類別的個(gè)數(shù),f(i)是評(píng)論c(i)的用于選擇評(píng)論潛在類別的特征向量,az是潛在類別z的權(quán)重參數(shù);這就是結(jié)合多種異構(gòu)信息源基于潛在類別再分類方法的形式 化表述; 定義22 :潛在類別個(gè)數(shù)定義 本發(fā)明選擇Akaike信息量準(zhǔn)則(AkaikeInformationCriteria,AIC)作為模型選擇 準(zhǔn)則來獲取最優(yōu)的潛在類別個(gè)數(shù)
其中,Z是潛在類別的個(gè)數(shù),K是情緒類別的個(gè)數(shù),η是異構(gòu)信息源特征向量的維數(shù),m是用于選擇評(píng)論潛在類別的特征向量的維數(shù),ZXKXn即所有參數(shù)ω的個(gè)數(shù),ZXm是所有 參數(shù)α的個(gè)數(shù)。
【文檔編號(hào)】G06F17/30GK104462487SQ201410798427
【公開日】2015年3月25日 申請(qǐng)日期:2014年12月19日 優(yōu)先權(quán)日:2014年12月19日
【發(fā)明者】張瑩, 俞力, 王超, 楊志帆, 袁曉潔 申請(qǐng)人:南開大學(xué)