一種基于文本情感分析的搜索引擎系統(tǒng)的制作方法
【專(zhuān)利摘要】本發(fā)明涉及一種基于文本情感分析的搜索引擎系統(tǒng),包括情感分析、情感值與關(guān)鍵詞統(tǒng)計(jì)、索引建立和熱點(diǎn)話題提取4部分。情感分析部分負(fù)責(zé)完成對(duì)文本內(nèi)容進(jìn)行情感分析。情感值與關(guān)鍵詞統(tǒng)計(jì)部分對(duì)情感分析的結(jié)果進(jìn)行統(tǒng)計(jì),分析每個(gè)話題隨著時(shí)間的推移,各種情感出現(xiàn)頻率的變化,并提取涉及該話題的文本內(nèi)容中的出現(xiàn)頻次最高的關(guān)鍵詞。索引建立部分對(duì)情感值和關(guān)鍵詞統(tǒng)計(jì)數(shù)據(jù)建立索引,便于對(duì)其檢索。熱點(diǎn)話題提取部分對(duì)當(dāng)前分析的網(wǎng)絡(luò)文本進(jìn)行實(shí)時(shí)監(jiān)控,發(fā)現(xiàn)大家議論的熱點(diǎn)話題。本發(fā)明在對(duì)網(wǎng)民言論進(jìn)行情感分析的基礎(chǔ)上,分析每個(gè)話題的熱度曲線和網(wǎng)民議論該話題時(shí)提到的關(guān)鍵詞,并實(shí)現(xiàn)話題搜索和熱點(diǎn)話題的提取。
【專(zhuān)利說(shuō)明】—種基于文本情感分析的搜索引擎系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種基于文本情感分析的搜索引擎系統(tǒng),適用于對(duì)互聯(lián)網(wǎng)上大量文本 信息的統(tǒng)計(jì)和監(jiān)控。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)的發(fā)展,各種網(wǎng)絡(luò)應(yīng)用油然而生。網(wǎng)民在互聯(lián)網(wǎng)上可以發(fā)表各種言論, 因此產(chǎn)生了海量的文本信息。這些信息的數(shù)據(jù)來(lái)源可以是博客、論壇、微博等。傳統(tǒng)的搜索 引擎對(duì)這些數(shù)據(jù)建立索引,用戶可以根據(jù)自己的檢索意圖提交查詢(xún),然后得到大量的檢索 結(jié)果。但逐個(gè)閱讀每個(gè)結(jié)果的所有內(nèi)容將耗費(fèi)大量的時(shí)間。
【發(fā)明內(nèi)容】
[0003]本發(fā)明要解決的問(wèn)題:克服傳統(tǒng)搜索引擎返回的結(jié)果太多,用戶很難逐條讀完,無(wú) 法短時(shí)間內(nèi)獲得大家對(duì)某話題的主要態(tài)度和情感。本發(fā)明提供一種基于文本情感分析的搜 索引擎系統(tǒng),使用戶能在短時(shí)間內(nèi)了解各話題的討論情況,發(fā)現(xiàn)實(shí)時(shí)熱點(diǎn),進(jìn)行輿情監(jiān)控。
[0004]本發(fā)明的技術(shù)方案:一種基于文本情感分類(lèi)的搜索引擎系統(tǒng)包括:情感分類(lèi)模 塊、情感值與關(guān)鍵詞統(tǒng)計(jì)模塊、索引建立模塊和熱點(diǎn)話題提取模塊;
[0005]所述情感分類(lèi)模塊,完成對(duì)文本內(nèi)容進(jìn)行情感分類(lèi);利用樸素貝葉斯分類(lèi)器對(duì)網(wǎng) 民發(fā)布的文本內(nèi)容進(jìn)行情感分類(lèi),分類(lèi)結(jié)果分為高興、低落、憤怒和厭惡四種情感;
[0006]所述情感值與關(guān)鍵詞統(tǒng)計(jì)模塊,對(duì)情感分類(lèi)模塊得到的四種情感進(jìn)行統(tǒng)計(jì);統(tǒng)計(jì) 網(wǎng)民發(fā)布的文本中每個(gè)話題在每天的四種情感出現(xiàn)的頻次,分析每個(gè)話題展示隨著時(shí)間的 推移,該話題的熱度和情感值變化;同時(shí)提取涉及該話題的文本內(nèi)容中出現(xiàn)頻次最高的關(guān) 鍵詞,以標(biāo)簽云(Tag Cloud)的形式展示出來(lái),作為網(wǎng)民對(duì)該話題的討論摘要;
[0007]所述索引建立模塊,對(duì)情感值與關(guān)鍵詞統(tǒng)計(jì)模塊得到的情感值和關(guān)鍵詞統(tǒng)計(jì)數(shù)據(jù) 建立索引,便于檢索;為熱點(diǎn)話題提取1旲塊和web service提供每天的情感值和關(guān)鍵詞統(tǒng) 計(jì)數(shù)據(jù),供web service進(jìn)行展示;幫助熱點(diǎn)話題提取模塊提取當(dāng)前熱點(diǎn)話題。Web service 將統(tǒng)計(jì)數(shù)據(jù)可視化后展現(xiàn)給用戶;
[0008]熱點(diǎn)話題提取模塊,從索引模塊中獲取當(dāng)前分析的網(wǎng)絡(luò)文本的情感和關(guān)鍵詞統(tǒng)計(jì) 數(shù)據(jù),使用熱點(diǎn)話題提取算法,提取出所分析的網(wǎng)絡(luò)文本中所討論的熱點(diǎn)話題。提取出的熱 點(diǎn)話題通過(guò)web service進(jìn)行展示。
[0009]所述情感分類(lèi)模塊中使用樸素貝葉斯分類(lèi)器對(duì)文本情感進(jìn)行分類(lèi)的具體實(shí)現(xiàn)過(guò) 程為:
[0010]( I)手工將表情符按情感類(lèi)別進(jìn)行標(biāo)注;
[0011](2)去掉重復(fù)和無(wú)效的數(shù)據(jù),并抽選出含有表情符號(hào)的文本,將所帶表情符所屬情 感類(lèi)別作為該文本的情感標(biāo)注,作為訓(xùn)練數(shù)據(jù);
[0012](3)利用自動(dòng)抽取出的訓(xùn)練數(shù)據(jù)訓(xùn)練貝葉斯分類(lèi)器;
[0013](4)使用所訓(xùn)練的貝葉斯分類(lèi)器對(duì)文本進(jìn)行分類(lèi)。[0014]所述訓(xùn)練數(shù)據(jù)對(duì)樸素貝葉斯分類(lèi)器訓(xùn)練時(shí),實(shí)行增量式訓(xùn)練,不斷使用新數(shù)據(jù)進(jìn) 行訓(xùn)練,提聞1旲型的準(zhǔn)確度。
[0015]所述情感值與關(guān)鍵詞統(tǒng)計(jì)模塊中情感值統(tǒng)計(jì)具體實(shí)現(xiàn)為:
[0016](I)將情感分類(lèi)模塊獲得的情感分類(lèi)結(jié)果和原網(wǎng)絡(luò)文本存儲(chǔ)到文本文件中,作為 情感值統(tǒng)計(jì)模塊的輸入。
[0017](2)對(duì)網(wǎng)絡(luò)文本進(jìn)行中文分詞,每條網(wǎng)絡(luò)文本生成一個(gè)單詞向量。
[0018](3)統(tǒng)計(jì)每天所有話題topic的情感值e的出現(xiàn)頻次,形成當(dāng)天的情感值統(tǒng)計(jì)數(shù) 據(jù)。
[0019]所述情感值與關(guān)鍵詞統(tǒng)計(jì)模塊中關(guān)鍵詞統(tǒng)計(jì)為:以天為單位統(tǒng)計(jì)當(dāng)天提到某話題 的所有文本內(nèi)容中,出現(xiàn)頻率最高的30個(gè)關(guān)鍵詞,關(guān)鍵詞的形式為b1-gram形式,所述30 個(gè)關(guān)鍵詞構(gòu)成該話題在當(dāng)天的“標(biāo)簽云”。
[0020]所述情感值與關(guān)鍵詞統(tǒng)計(jì)模塊中情感值統(tǒng)計(jì)為:以天為單位,統(tǒng)計(jì)每個(gè)話題每天 的四種情感值出現(xiàn)的頻率,繪制為曲線圖進(jìn)行展示。曲線圖的橫坐標(biāo)為日期,縱坐標(biāo)為頻 率,圖上共有四條曲線,分別代表四類(lèi)情感值出現(xiàn)頻率隨著時(shí)間的變化。
[0021]所述索引建立模塊具體實(shí)現(xiàn)過(guò)程:
[0022]( I)將統(tǒng)計(jì)好的情感值與關(guān)鍵詞數(shù)據(jù)存儲(chǔ)到文本文件中,每天一個(gè)文件;
[0023](2)將數(shù)據(jù)統(tǒng)計(jì)文件加載到計(jì)算機(jī)內(nèi)存中,在內(nèi)存中以“天”為單位建立hash索 弓I,便于快速檢索到某天的所有話題的情感值與關(guān)鍵詞統(tǒng)計(jì)數(shù)據(jù)。
[0024]所述熱點(diǎn)話題提取模塊具體實(shí)現(xiàn)過(guò)程:
[0025](I)從情感值與關(guān)鍵詞統(tǒng)計(jì)模塊獲取當(dāng)天某話題的統(tǒng)計(jì)數(shù)據(jù)和前一天該話題的統(tǒng) 計(jì)數(shù)據(jù);
[0026](2)對(duì)該話題當(dāng)天的熱度和前一天的熱度進(jìn)行對(duì)比,使用熱度計(jì)算算法,計(jì)算出該 話題在當(dāng)天的熱度;
[0027](3)對(duì)所有話題的熱度進(jìn)行排序,提取出當(dāng)天的熱點(diǎn)話題。
[0028]本發(fā)明與現(xiàn)有技術(shù)相比的優(yōu)點(diǎn)在于:本發(fā)明能夠從海量數(shù)據(jù)中統(tǒng)計(jì)出各話題的熱 度變化、情感值變化和討論的主要關(guān)鍵詞。使用戶能在短時(shí)間內(nèi)了解各話題的討論情況,發(fā) 現(xiàn)實(shí)時(shí)熱點(diǎn),進(jìn)行輿情監(jiān)控。
【專(zhuān)利附圖】
【附圖說(shuō)明】
[0029]圖1為本發(fā)明的組成框圖;
[0030]圖2為本發(fā)明中的情感分類(lèi)模塊實(shí)現(xiàn)流程圖;
[0031]圖3為本發(fā)明中的情感值與關(guān)鍵詞統(tǒng)計(jì)模塊實(shí)現(xiàn)流程圖;
[0032]圖4為本發(fā)明中的索引建立模塊實(shí)現(xiàn)流程圖;
[0033]圖5為本發(fā)明中的和熱點(diǎn)話題提取模塊實(shí)現(xiàn)流程圖;
[0034]圖6,圖7,圖8分別是情感值統(tǒng)計(jì)和關(guān)鍵詞統(tǒng)計(jì)效果;
[0035]圖9是熱點(diǎn)話題提取效果。
【具體實(shí)施方式】
[0036]如圖1所示,本發(fā)明系統(tǒng)包括情感分類(lèi)模塊、情感值與關(guān)鍵詞統(tǒng)計(jì)模塊、索引建立模塊和熱點(diǎn)話題提取模塊四部分。情感分類(lèi)部分負(fù)責(zé)完成對(duì)文本內(nèi)容進(jìn)行情感分析。情感值與關(guān)鍵詞統(tǒng)計(jì)部分對(duì)情感分析的結(jié)果進(jìn)行統(tǒng)計(jì),分析每個(gè)話題隨著時(shí)間的推移,各種情感出現(xiàn)頻率的變化,并提取涉及該話題的文本內(nèi)容中的出現(xiàn)頻次最高的關(guān)鍵詞。索引建立部分對(duì)情感值和關(guān)鍵詞統(tǒng)計(jì)數(shù)據(jù)建立索引,便于對(duì)其檢索。熱點(diǎn)話題提取部分對(duì)當(dāng)前分析的網(wǎng)絡(luò)文本進(jìn)行實(shí)時(shí)監(jiān)控,發(fā)現(xiàn)大家議論的熱點(diǎn)話題。
[0037]下面具體介紹上述四個(gè)模塊實(shí)現(xiàn)過(guò)程。
[0038](一)情感分類(lèi)模塊
[0039]如圖2所示,對(duì)網(wǎng)民發(fā)布的文本進(jìn)行情感分析,分類(lèi)為高興、低落、憤怒和厭惡;使用樸素貝葉斯分類(lèi)器對(duì)文本情感進(jìn)行分類(lèi),具體實(shí)現(xiàn)為:
[0040](1)表情符號(hào)蘊(yùn)含了豐富的情感信息,可以通過(guò)表情符號(hào)為文本標(biāo)注情感類(lèi)別,首先將情感符號(hào)手工標(biāo)注為高興、低落、憤怒和厭惡四類(lèi)情感,分別定義為情感值1,2,3,4。
[0041](2)將文本記為tp,進(jìn)行分詞后得到(Wp,1, wp,2,...,wp,ntp)單詞向量,其中wp,j為文本tp對(duì)應(yīng)的單詞向量的第j個(gè)單詞。
[0042](3)若文本tp中含有表情符號(hào)E,則將tp的情感自動(dòng)標(biāo)注為情感符號(hào)E在第(1) 步中手工標(biāo)注的類(lèi)別k,并作為貝葉斯分類(lèi)器的訓(xùn)練數(shù)據(jù)對(duì)模型進(jìn)行更新。
[0043]在訓(xùn)練過(guò)程中需要統(tǒng)計(jì)得出類(lèi)別Cp出現(xiàn)的概率P(Cp)與在類(lèi)別k下單詞出現(xiàn)的概率 P(wp,j|cp = k)。
[0044]根據(jù)P (cp = k)的含義,可得,
[0045]
【權(quán)利要求】
1.一種基于文本情感分類(lèi)的搜索引擎系統(tǒng),其特征在于包括:情感分類(lèi)模塊、情感值與關(guān)鍵詞統(tǒng)計(jì)模塊、索引建立模塊和熱點(diǎn)話題提取模塊;所述情感分類(lèi)模塊,完成對(duì)文本內(nèi)容進(jìn)行情感分類(lèi);利用樸素貝葉斯分類(lèi)器對(duì)網(wǎng)民發(fā)布的文本內(nèi)容進(jìn)行情感分類(lèi),分類(lèi)結(jié)果分為高興、低落、憤怒和厭惡四種情感;所述情感值與關(guān)鍵詞統(tǒng)計(jì)模塊,對(duì)情感分類(lèi)模塊得到的四種情感進(jìn)行統(tǒng)計(jì);統(tǒng)計(jì)網(wǎng)民發(fā)布的文本中每個(gè)話題在每天的四種情感出現(xiàn)的頻次,分析每個(gè)話題展示隨著時(shí)間的推移,該話題的熱度和情感值變化;同時(shí)提取涉及該話題的文本內(nèi)容中出現(xiàn)頻次最高的關(guān)鍵詞,以標(biāo)簽云(Tag Cloud)的形式展示出來(lái),作為網(wǎng)民對(duì)該話題的討論摘要;所述索引建立模塊,對(duì)情感值與關(guān)鍵詞統(tǒng)計(jì)模塊得到的情感值和關(guān)鍵詞統(tǒng)計(jì)數(shù)據(jù)建立索引,便于檢索;為熱點(diǎn)話題提取模塊和web service提供每天的情感值和關(guān)鍵詞統(tǒng)計(jì)數(shù)據(jù),供web service進(jìn)行展示;幫助熱點(diǎn)話題提取模塊提取當(dāng)前熱點(diǎn)話題。Web service將統(tǒng)計(jì)數(shù)據(jù)可視化后展現(xiàn)給用戶;熱點(diǎn)話題提取模塊,從索引模塊中獲取當(dāng)前分析的網(wǎng)絡(luò)文本的情感和關(guān)鍵詞統(tǒng)計(jì)數(shù)據(jù),使用熱點(diǎn)話題提取算法,提取出所分析的網(wǎng)絡(luò)文本中所討論的熱點(diǎn)話題。提取出的熱點(diǎn)話題通過(guò)web service進(jìn)行展示。
2.根據(jù)權(quán)利要求1所述的一種基于文本情感分類(lèi)的搜索引擎系統(tǒng),其特征在于:所述情感分類(lèi)模塊中使用樸素貝葉斯分類(lèi)器對(duì)文本情感進(jìn)行分類(lèi)的具體實(shí)現(xiàn)過(guò)程為:(1)手工將表情符按情感類(lèi)別進(jìn)行標(biāo)注;(2)去掉重復(fù)和無(wú)效的數(shù)據(jù),并抽選出含有表情符號(hào)的文本,將所帶表情符所屬情感類(lèi)別作為該文本的情感標(biāo)注,作為訓(xùn)練數(shù)據(jù);(3)利用自動(dòng)抽取出的訓(xùn)練數(shù)據(jù)訓(xùn)練貝葉斯分類(lèi)器;(4 )使用所訓(xùn)練的貝葉斯分類(lèi)器對(duì)文本進(jìn)行分類(lèi)。
3.根據(jù)權(quán)利要求2所述的`一種基于文本情感分類(lèi)的搜索引擎系統(tǒng),其特征在于:所述訓(xùn)練數(shù)據(jù)對(duì)樸素貝葉斯分類(lèi)器訓(xùn)練時(shí),實(shí)行增量式訓(xùn)練,不斷使用新數(shù)據(jù)進(jìn)行訓(xùn)練,提高模型的準(zhǔn)確度。
4.根據(jù)權(quán)利要求1所述的一種基于文本情感分類(lèi)的搜索引擎系統(tǒng),其特征在于:所述情感值與關(guān)鍵詞統(tǒng)計(jì)模塊中情感值統(tǒng)計(jì)具體實(shí)現(xiàn)為:(1)將情感分類(lèi)模塊獲得的情感分類(lèi)結(jié)果和原網(wǎng)絡(luò)文本存儲(chǔ)到文本文件中,作為情感值統(tǒng)計(jì)模塊的輸入。(2)對(duì)網(wǎng)絡(luò)文本進(jìn)行中文分詞,每條網(wǎng)絡(luò)文本生成一個(gè)單詞向量。(3)統(tǒng)計(jì)每天所有話題topic的情感值e的出現(xiàn)頻次,形成當(dāng)天的情感值統(tǒng)計(jì)數(shù)據(jù)。
5.根據(jù)權(quán)利要求1所述的一種基于文本情感分類(lèi)的搜索引擎系統(tǒng),其特征在于:所述情感值與關(guān)鍵詞統(tǒng)計(jì)模塊中關(guān)鍵詞統(tǒng)計(jì)為:以天為單位統(tǒng)計(jì)當(dāng)天提到某話題的所有文本內(nèi)容中,出現(xiàn)頻率最高的30個(gè)關(guān)鍵詞,關(guān)鍵詞的形式為b1-gram形式,所述30個(gè)關(guān)鍵詞構(gòu)成該話題在當(dāng)天的“標(biāo)簽云”。
6.根據(jù)權(quán)利要求1所述的一種基于文本情感分類(lèi)的搜索引擎系統(tǒng),其特征在于:所述情感值與關(guān)鍵詞統(tǒng)計(jì)模塊中情感值統(tǒng)計(jì)為:以天為單位,統(tǒng)計(jì)每個(gè)話題每天的四種情感值出現(xiàn)的頻率,繪制為曲線圖進(jìn)行展示;曲線圖的橫坐標(biāo)為日期,縱坐標(biāo)為頻率,圖上共有四條曲線,分別代表四類(lèi)情感值出現(xiàn)頻率隨著時(shí)間的變化。
7.根據(jù)權(quán)利要求1所述的一種基于文本情感分類(lèi)的搜索引擎系統(tǒng),其特征在于:所述索引建立模塊具體實(shí)現(xiàn)過(guò)程:(1)將統(tǒng)計(jì)好的情感值與關(guān)鍵詞數(shù)據(jù)存儲(chǔ)到文本文件中,每天一個(gè)文件;(2)將數(shù)據(jù)統(tǒng)計(jì)文件加載到計(jì)算機(jī)內(nèi)存中,在內(nèi)存中以“天”為單位建立hash索引,便于快速檢索到某天的所有話題的情感值與關(guān)鍵詞統(tǒng)計(jì)數(shù)據(jù)。
8.根據(jù)權(quán)利要求1所述的一種基于文本情感分類(lèi)的搜索引擎系統(tǒng),其特征在于:所述熱點(diǎn)話題提取模塊具體實(shí)現(xiàn)過(guò)程:(1)從情感值與關(guān)鍵詞統(tǒng)計(jì)模塊獲取當(dāng)天某話題的統(tǒng)計(jì)數(shù)據(jù)和前一天該話題的統(tǒng)計(jì)數(shù)據(jù);(2)對(duì)該話題當(dāng)天的熱度和前一天的熱度進(jìn)行對(duì)比,使用熱度計(jì)算算法,計(jì)算出該話題在當(dāng)天的熱度;(3)對(duì)所有話題的熱度進(jìn) 行排序,提取出當(dāng)天的熱點(diǎn)話題。
【文檔編號(hào)】G06F17/30GK103605658SQ201310479475
【公開(kāi)日】2014年2月26日 申請(qǐng)日期:2013年10月14日 優(yōu)先權(quán)日:2013年10月14日
【發(fā)明者】許可, 趙吉昌, 董力, 范銳, 李森棟 申請(qǐng)人:北京航空航天大學(xué)