欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種自動更新的文檔情感分析系統(tǒng)及方法與流程

文檔序號:11251060閱讀:573來源:國知局
一種自動更新的文檔情感分析系統(tǒng)及方法與流程

本發(fā)明涉及人工智能技術(shù)領(lǐng)域,特別是一種自動更新的文檔情感分析系統(tǒng)及對應(yīng)的方法。



背景技術(shù):

常用的文檔情感識別技術(shù)通常采用:先收集大量的情感詞,如高興、興奮、憤怒、悲傷等,并對每個情感詞進行量化分值,然后將這些詞組成情感詞庫。使用時利用情感詞庫去和目標(biāo)文檔匹配,當(dāng)情感詞庫中的情感詞和目標(biāo)文檔中出現(xiàn)的詞匹配成功時,即按之前量化的該詞的量化分值來進行打分,最后將分?jǐn)?shù)匯總得到該篇文檔的情感指數(shù)。

舉例如下:

高興(1分)、憤怒(-1分)……

在某篇文檔中共出現(xiàn)高興50次,憤怒10次,當(dāng)該篇文檔最終的情感分?jǐn)?shù)為50+(-10)=40分。

如滿分是100分,當(dāng)出現(xiàn)評分是80以上、90以上或者負(fù)的90以下、80以下時,其結(jié)果相對較準(zhǔn)確;但是,如果評分在50左右時,則難以判斷,因為50分時會有多種情況,比如整篇文檔出現(xiàn)的都是中性詞,或者有一半正向情感詞和一半負(fù)向情感詞,最后的分?jǐn)?shù)都有可能是50分。

因此,采用上述的文檔情感評分方法存在諸多弊端,首先情感詞庫不能自動更新,需要人為的添加情感詞進去,以及人為的為其賦予分值,影響結(jié)果的客觀性;其次,單純的分?jǐn)?shù)并不一定能夠完全反應(yīng)出文檔情感的真實情況。



技術(shù)實現(xiàn)要素:

本發(fā)明為解決上述問題,提供了一種自動更新的文檔情感分析系統(tǒng)及方法,不僅提高文檔情感評分的準(zhǔn)確性和客觀性,而且能夠自動更新情感詞庫,管理更方便。

為實現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案為:

一種自動更新的文檔情感分析系統(tǒng),其包括:

情感詞庫構(gòu)建模塊,其通過收集初始情感詞,并計算每個初始情感詞的向量值,根據(jù)所述初始情感詞和對應(yīng)的向量值進行構(gòu)建初始情感詞庫;

情感詞匹配模塊,提取目標(biāo)文檔中的情感詞,根據(jù)向量值將提取的文檔情感詞與所述初始情感詞進行匹配,并計算所述文檔情感詞與所述初始情感詞的向量值匹配度;

文檔情感評分模塊,根據(jù)所述向量值匹配度對所述文檔情感詞進行統(tǒng)計評分,得到所述目標(biāo)文檔的情感值;

情感詞庫更新模塊,將向量值匹配度大于預(yù)設(shè)閾值的文檔情感詞加入到所述情感詞庫,得到更新后的情感詞庫。

優(yōu)選的,所述的情感詞庫構(gòu)建模塊構(gòu)建初始情感詞庫時,還進一步對收集的初始情感詞進行分類,包括以下類別:正向情感詞、負(fù)向情感詞、中性情感詞;所述的情感詞庫更新模塊更新情感詞庫時,根據(jù)所述文檔情感詞所匹配的初始情感詞的類別,將所述文檔情感詞加入情感詞庫的對應(yīng)的類別中。

優(yōu)選的,所述的文檔情感評分模塊中,根據(jù)所述向量值匹配度對所述文檔情感詞進行統(tǒng)計評分,當(dāng)所述向量值匹配度為100%完全匹配時,則賦予所述文檔情感詞的評分為滿分;當(dāng)所述向量值匹配度為部分匹配時,則賦予所述文檔情感詞的評分為滿分的對應(yīng)百分比。

優(yōu)選的,所述的文檔情感評分模塊中,根據(jù)所述向量值匹配度對所述文檔情感詞進行統(tǒng)計評分,包括統(tǒng)計所述文檔情感詞的類別、評分、數(shù)量;即,所述目標(biāo)文檔的情感值=(正向情感詞的評分*數(shù)量)+(負(fù)向情感詞的評分*數(shù)量)+(中性情感詞的評分*數(shù)量)。

優(yōu)選的,所述的文檔情感評分模塊中,根據(jù)所述向量值匹配度對所述文檔情感詞進行統(tǒng)計評分,是指將所述向量值匹配度大于預(yù)設(shè)閾值的文檔情感詞加入到評分統(tǒng)計中,并對所述向量值匹配度小于或等于預(yù)設(shè)閾值的文檔情感詞忽略不計。

對應(yīng)的,本發(fā)明還提供了一種自動更新的文檔情感分析方法,其包括以下步驟:

a.收集初始情感詞,并計算每個初始情感詞的向量值,根據(jù)所述初始情感詞和對應(yīng)的向量值進行構(gòu)建初始情感詞庫;

b.提取目標(biāo)文檔中的情感詞,根據(jù)向量值將提取的文檔情感詞與所述初始情感詞進行匹配,并計算所述文檔情感詞與所述初始情感詞的向量值匹配度;

c.根據(jù)所述向量值匹配度對所述文檔情感詞進行統(tǒng)計評分,得到所述目標(biāo)文檔的情感值;

d.將向量值匹配度大于預(yù)設(shè)閾值的文檔情感詞加入到所述情感詞庫,得到更新后的情感詞庫。

優(yōu)選的,所述的步驟a中構(gòu)建初始情感詞庫時,還進一步對收集的初始情感詞進行分類,包括以下類別:正向情感詞、負(fù)向情感詞、中性情感詞;所述的步驟d中更新情感詞庫時,根據(jù)所述文檔情感詞所匹配的初始情感詞的類別,將所述文檔情感詞加入情感詞庫的對應(yīng)的類別中。

優(yōu)選的,所述的步驟c中,根據(jù)所述向量值匹配度對所述文檔情感詞進行統(tǒng)計評分,當(dāng)所述向量值匹配度為100%完全匹配時,則賦予所述文檔情感詞的評分為滿分;當(dāng)所述向量值匹配度為部分匹配時,則賦予所述文檔情感詞的評分為滿分的對應(yīng)百分比。

優(yōu)選的,所述的步驟c中,根據(jù)所述向量值匹配度對所述文檔情感詞進行統(tǒng)計評分,包括統(tǒng)計所述文檔情感詞的類別、評分、數(shù)量;即,所述目標(biāo)文檔的情感值=(正向情感詞的評分*數(shù)量)+(負(fù)向情感詞的評分*數(shù)量)+(中性情感詞的評分*數(shù)量)。

優(yōu)選的,所述的步驟c中,根據(jù)所述向量值匹配度對所述文檔情感詞進行統(tǒng)計評分,是指將所述向量值匹配度大于預(yù)設(shè)閾值的文檔情感詞加入到評分統(tǒng)計中,并對所述向量值匹配度小于或等于預(yù)設(shè)閾值的文檔情感詞忽略不計。

本發(fā)明的有益效果是:

1、利用情感詞匹配進行循環(huán)自動更新情感詞庫,效率更高,準(zhǔn)確性更好;

2、利用向量值進行情感詞的相似度匹配,并將匹配度較高的情感詞加入評分統(tǒng)計,提高匹配范圍,便評分結(jié)果更接近真實情況;

3、加入匹配計數(shù),為最終結(jié)果值提供輔助性判斷。

附圖說明

此處所說明的附圖用來提供對本發(fā)明的進一步理解,構(gòu)成本發(fā)明的一部分,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中:

圖1為本發(fā)明一種自動更新的文檔情感分析系統(tǒng)的結(jié)構(gòu)示意圖;

圖2為本發(fā)明一種自動更新的文檔情感分析方法的流程簡圖。

具體實施方式

為了使本發(fā)明所要解決的技術(shù)問題、技術(shù)方案及有益效果更加清楚、明白,以下結(jié)合附圖及實施例對本發(fā)明進行進一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實施例僅用以解釋本發(fā)明,并不用于限定本發(fā)明。

如圖1所示,本發(fā)明的一種自動更新的文檔情感分析系統(tǒng),其包括:

情感詞庫構(gòu)建模塊,其通過收集初始情感詞,并計算每個初始情感詞的向量值,根據(jù)所述初始情感詞和對應(yīng)的向量值進行構(gòu)建初始情感詞庫;

情感詞匹配模塊,提取目標(biāo)文檔中的情感詞,根據(jù)向量值將提取的文檔情感詞與所述初始情感詞進行匹配,并計算所述文檔情感詞與所述初始情感詞的向量值匹配度;

文檔情感評分模塊,根據(jù)所述向量值匹配度對所述文檔情感詞進行統(tǒng)計評分,得到所述目標(biāo)文檔的情感值;

情感詞庫更新模塊,將向量值匹配度大于預(yù)設(shè)閾值的文檔情感詞加入到所述情感詞庫,得到更新后的情感詞庫。

其中,計算所述初始情感詞或所述文檔情感詞的向量值的方法,可采用w2v算法。

所述的情感詞庫構(gòu)建模塊構(gòu)建初始情感詞庫時,還進一步對收集的初始情感詞進行分類,包括以下類別:正向情感詞、負(fù)向情感詞、中性情感詞。

所述的情感詞庫更新模塊更新情感詞庫時,根據(jù)所述文檔情感詞所匹配的初始情感詞的類別,將所述文檔情感詞加入情感詞庫的對應(yīng)的類別中。

所述的文檔情感評分模塊中,根據(jù)所述向量值匹配度對所述文檔情感詞進行統(tǒng)計評分,當(dāng)所述向量值匹配度為100%完全匹配時,則賦予所述文檔情感詞的評分為滿分;當(dāng)所述向量值匹配度為部分匹配時,則賦予所述文檔情感詞的評分為滿分的對應(yīng)百分比。例如,以滿分為1分為例:如情感詞庫中,初始情感詞為“高興”,匹配到文檔情感詞為“興奮”,其向量值匹配度為90%,則計0.9分。假設(shè)向量值匹配度的預(yù)設(shè)閾值為80%,由于該文檔情感詞“興奮”的匹配度90%超過預(yù)設(shè)閾值,則把“興奮”加入到情感詞庫中,并按初始情感詞“高興”的所屬類別,將“興奮”加入至正向情感詞的分組中,在下次計算文檔的情感值時,“興奮”一詞作為情感詞庫直接使用。

所述的文檔情感評分模塊中,根據(jù)所述向量值匹配度對所述文檔情感詞進行統(tǒng)計評分,除了計算評分的分值,情感詞的數(shù)量和類別也是重要參考數(shù)據(jù)。本實施例中的統(tǒng)計評分包括統(tǒng)計所述文檔情感詞的類別、評分、數(shù)量;其中,情感詞的數(shù)量可直接通過匹配次數(shù)進行計數(shù),將匹配數(shù)量作為評估依據(jù)之一。所述目標(biāo)文檔的情感值=(正向情感詞的評分*數(shù)量)+(負(fù)向情感詞的評分*數(shù)量)+(中性情感詞的評分*數(shù)量)。例如,情感值的滿分100,最后得分為50,可能存在兩種情況:一是正向情感詞和負(fù)向情感詞匹配數(shù)量較為接近時,可以判斷該篇文檔的情感具有爭議性;另一種是匹配成功的大多都是中性情感詞,可以判斷該篇文檔的情感為中立。現(xiàn)有技術(shù)僅簡單的計算分值是無法區(qū)別上述兩種情況,本發(fā)明的方法可根據(jù)評分統(tǒng)計結(jié)果區(qū)分相同分值的不同實際情況,使得分析結(jié)果更客觀。

所述的文檔情感評分模塊中,根據(jù)所述向量值匹配度對所述文檔情感詞進行統(tǒng)計評分,是指將所述向量值匹配度大于預(yù)設(shè)閾值的文檔情感詞加入到評分統(tǒng)計中,并對所述向量值匹配度小于或等于預(yù)設(shè)閾值的文檔情感詞忽略不計,一方面,可提供評分的準(zhǔn)確性,避免誤判;另一方面,減少計算量,提高分析效率。

如圖2所示,本發(fā)明還提供了一種自動更新的文檔情感分析方法,其包括以下步驟:

a.收集初始情感詞,并計算每個初始情感詞的向量值,根據(jù)所述初始情感詞和對應(yīng)的向量值進行構(gòu)建初始情感詞庫;

b.提取目標(biāo)文檔中的情感詞,根據(jù)向量值將提取的文檔情感詞與所述初始情感詞進行匹配,并計算所述文檔情感詞與所述初始情感詞的向量值匹配度;

c.根據(jù)所述向量值匹配度對所述文檔情感詞進行統(tǒng)計評分,得到所述目標(biāo)文檔的情感值;

d.將向量值匹配度大于預(yù)設(shè)閾值的文檔情感詞加入到所述情感詞庫,得到更新后的情感詞庫。

所述的步驟a中構(gòu)建初始情感詞庫時,還進一步對收集的初始情感詞進行分類,包括以下類別:正向情感詞、負(fù)向情感詞、中性情感詞;所述的步驟d中更新情感詞庫時,根據(jù)所述文檔情感詞所匹配的初始情感詞的類別,將所述文檔情感詞加入情感詞庫的對應(yīng)的類別中。

所述的步驟c中,根據(jù)所述向量值匹配度對所述文檔情感詞進行統(tǒng)計評分,當(dāng)所述向量值匹配度為100%完全匹配時,則賦予所述文檔情感詞的評分為滿分;當(dāng)所述向量值匹配度為部分匹配時,則賦予所述文檔情感詞的評分為滿分的對應(yīng)百分比。

所述的步驟c中,根據(jù)所述向量值匹配度對所述文檔情感詞進行統(tǒng)計評分,包括統(tǒng)計所述文檔情感詞的類別、評分、數(shù)量;即,所述目標(biāo)文檔的情感值=(正向情感詞的評分*數(shù)量)+(負(fù)向情感詞的評分*數(shù)量)+(中性情感詞的評分*數(shù)量)。

所述的步驟c中,根據(jù)所述向量值匹配度對所述文檔情感詞進行統(tǒng)計評分,是指將所述向量值匹配度大于預(yù)設(shè)閾值的文檔情感詞加入到評分統(tǒng)計中,并對所述向量值匹配度小于或等于預(yù)設(shè)閾值的文檔情感詞忽略不計。

需要說明的是,本說明書中的各個實施例均采用遞進的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。對于方法實施例而言,由于其與系統(tǒng)實施例基本相似,所以描述的比較簡單,相關(guān)之處參見系統(tǒng)實施例的部分說明即可。

并且,在本文中,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。另外,本領(lǐng)域普通技術(shù)人員可以理解實現(xiàn)上述實施例的全部或部分步驟可以通過硬件來完成,也可以通過程序來指令相關(guān)的硬件完成,所述的程序可以存儲于一種計算機可讀存儲介質(zhì)中,上述提到的存儲介質(zhì)可以是只讀存儲器,磁盤或光盤等。

上述說明示出并描述了本發(fā)明的優(yōu)選實施例,應(yīng)當(dāng)理解本發(fā)明并非局限于本文所披露的形式,不應(yīng)看作是對其他實施例的排除,而可用于各種其他組合、修改和環(huán)境,并能夠在本文發(fā)明構(gòu)想范圍內(nèi),通過上述教導(dǎo)或相關(guān)領(lǐng)域的技術(shù)或知識進行改動。而本領(lǐng)域人員所進行的改動和變化不脫離本發(fā)明的精神和范圍,則都應(yīng)在本發(fā)明所附權(quán)利要求的保護范圍內(nèi)。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
清流县| 理塘县| 雅安市| 江都市| 宁阳县| 佛冈县| 微山县| 榆树市| 英吉沙县| 彩票| 台东县| 岱山县| 长兴县| 土默特右旗| 乐亭县| 会昌县| 罗甸县| 肇源县| 北宁市| 紫阳县| 邹平县| 广河县| 杭锦后旗| 蓬安县| 青海省| 大化| 甘洛县| 石阡县| 全椒县| 泾源县| 苍溪县| 怀远县| 大化| 富阳市| 汾阳市| 东丰县| 玛纳斯县| 鹿邑县| 繁昌县| 桑日县| 庆城县|