本發(fā)明屬于文字信息處理領(lǐng)域,尤其涉及一種基于深度信念網(wǎng)絡(luò)的短文本特征提取及情感分析方法。
背景技術(shù):
情感分析的主要內(nèi)容是發(fā)現(xiàn)文本所攜帶的主觀性意見(jiàn),包含信息主體的想法、愛(ài)好、情感表達(dá)等方面,是一個(gè)多學(xué)科融合的任務(wù),涉及nlp(naturallanguageprocessing)、ir(informationretrieval)、ai(artificialintelligence)等眾多領(lǐng)域。
短文本情感分析研究是伴隨著國(guó)內(nèi)外新型社交工具的出現(xiàn)而發(fā)展的新興方向,相對(duì)于傳統(tǒng)文本的觀點(diǎn)和情感傾向分析,短文本由于內(nèi)容簡(jiǎn)短,特征稀疏,語(yǔ)法表達(dá)隨意,充斥著大量的表情元素等非標(biāo)準(zhǔn)表達(dá)詞語(yǔ)及短句。傳統(tǒng)文本情感分析方法可以借鑒但同時(shí)存在許多需要改進(jìn)的方面,如何彌補(bǔ)現(xiàn)有方法的不足,提高短文本情感分類的準(zhǔn)確度,是工業(yè)界及學(xué)術(shù)界研究的重點(diǎn)。
現(xiàn)有的特征提取算法主要有文檔頻率(documentfrequency,df)、卡方檢驗(yàn)(chi-squarestatistic,chi)、信息增益(informationgain,ig)、tf*idf(termfrequency–inversedocumentfrequency)等算法。
文檔頻率:以某個(gè)特征項(xiàng)在某個(gè)類別中出現(xiàn)的文檔數(shù)作為特征權(quán)值的標(biāo)準(zhǔn),從而導(dǎo)致該方法的理論性不強(qiáng),獲得的結(jié)果與領(lǐng)域的關(guān)聯(lián)性差。
卡方檢驗(yàn):在計(jì)算方法中只是關(guān)心詞是否在文檔中出現(xiàn),而不關(guān)心出現(xiàn)的次數(shù),因此該算法可能會(huì)夸大低頻詞的作用。
信息增益:信息增益考慮某個(gè)特征項(xiàng)對(duì)于整個(gè)語(yǔ)料庫(kù)的信息量貢獻(xiàn),不能夠針對(duì)某個(gè)類別進(jìn)行特征選擇,因此信息增益較為適合做全局的特征選擇。
tf*idf:可能會(huì)夸大tf值計(jì)算時(shí),較長(zhǎng)文檔中較高頻率特征項(xiàng)的作用,因此使用時(shí)常將tf值歸一化。
綜上,基于規(guī)則的情感分析方法不能有效的利用文本潛在的語(yǔ)義信息,傳統(tǒng)機(jī)器學(xué)習(xí)特征提取的方法主要基于概率統(tǒng)計(jì)的方法,存在固有的缺陷,為了彌補(bǔ)這些方法的不足,本發(fā)明在擴(kuò)展重構(gòu)短文本的基礎(chǔ)上引入深度學(xué)習(xí)工具深度信念網(wǎng)絡(luò),對(duì)短文本特征進(jìn)行深度自適應(yīng)學(xué)習(xí),經(jīng)過(guò)實(shí)驗(yàn)證明,該方法能夠較好的發(fā)現(xiàn)并提取更高質(zhì)量的潛在語(yǔ)義特征,較大幅度的提高情感分類的性能。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明提供一種基于深度信念網(wǎng)絡(luò)的短文本特征提取及情感分析方法,實(shí)現(xiàn)了基于深度學(xué)習(xí)算法-深度信念網(wǎng)絡(luò)的短文本特征自適應(yīng)抽取,并以此進(jìn)行情感傾向判定,通過(guò)與傳統(tǒng)特征提取方法進(jìn)行對(duì)比發(fā)現(xiàn),本方法能夠更有效的發(fā)現(xiàn)潛在特征語(yǔ)義信息,提高了情感特征提取的質(zhì)量,從而提高了情感分類的性能。
為實(shí)現(xiàn)上述目的,本發(fā)明采用如下的技術(shù)方案:
一種基于深度學(xué)習(xí)的新型短文本特征提取及情感分析方法包括以下步驟:
步驟1、獲取微博短文本語(yǔ)料集合、同義詞典、語(yǔ)義遞進(jìn)關(guān)聯(lián)詞、微博表情詞典、分詞模型。
步驟2、對(duì)短文本進(jìn)行擴(kuò)展重構(gòu),包括:
(2.1)將微博語(yǔ)料按照轉(zhuǎn)發(fā)評(píng)論關(guān)系構(gòu)建上下文關(guān)聯(lián)樹(shù);
(2.2)利用語(yǔ)義遞進(jìn)關(guān)聯(lián)詞典尋找上下文中與原始微博情感傾向相同的語(yǔ)料對(duì)原始文本進(jìn)行擴(kuò)展重構(gòu);
步驟3、短文本分詞及預(yù)處理,包括:
(3.1)將獲得表情符號(hào)詞典加入到分詞模型詞庫(kù)中,然后利用該優(yōu)化的分詞模型對(duì)擴(kuò)展后的短文本語(yǔ)料進(jìn)行分詞;
(3.2)將分詞后的語(yǔ)料進(jìn)行停用詞過(guò)濾,標(biāo)點(diǎn)符號(hào)過(guò)濾;
步驟4,詞語(yǔ)相似度計(jì)算模型構(gòu)建,具體工作如下:
將收集整理的同義詞典與分詞預(yù)處理后的詞語(yǔ)利用word2vec進(jìn)行詞語(yǔ)相似度訓(xùn)練,獲得詞語(yǔ)相似度計(jì)算模型;
步驟5、短文本特征向量擴(kuò)展,包括:
(5.1)將分詞預(yù)處理后的短文本分詞集合利用特征提取算法進(jìn)行大規(guī)模粗粒度特征抽取,獲得候選特征集合;
(5.2)利用詞語(yǔ)相似度計(jì)算模型對(duì)候選特征集合進(jìn)行詞語(yǔ)擴(kuò)展,利用構(gòu)建的語(yǔ)義相似度計(jì)算模型,依次對(duì)每個(gè)特征詞計(jì)算出余弦相似度大于0.8的相似詞集合,擴(kuò)展到現(xiàn)有的特征詞集合中;
步驟6、對(duì)擴(kuò)展后的候選特征集合基于深度信念網(wǎng)絡(luò)的特征深度自適應(yīng)抽?。?/p>
步驟7、將深度信念網(wǎng)絡(luò)獲得特征集合利用機(jī)器學(xué)習(xí)分類算法進(jìn)行分類訓(xùn)練,獲得分類預(yù)測(cè)模型;
步驟8、利用分類預(yù)測(cè)模型將測(cè)試數(shù)據(jù)集進(jìn)行情感標(biāo)注。
作為優(yōu)選,步驟8中具體過(guò)程如下:
(1)將測(cè)試訓(xùn)練集經(jīng)過(guò)上述相同的步驟進(jìn)行文本擴(kuò)展、分詞、特征擴(kuò)展、深度信念網(wǎng)絡(luò)特征提取;
(2)利用分類預(yù)測(cè)模型對(duì)未標(biāo)注的測(cè)試數(shù)據(jù)進(jìn)行情感傾向判定,將獲得的情感分類結(jié)果輸出給用戶。
本發(fā)明具有以下技術(shù)效果:
能夠緩解微博等短文本篇章簡(jiǎn)短、特征缺失等問(wèn)題,利用評(píng)論轉(zhuǎn)發(fā)等上下文信息,基于語(yǔ)義遞進(jìn)關(guān)聯(lián)詞對(duì)原文本進(jìn)行擴(kuò)展重構(gòu),該方法能夠豐富情感語(yǔ)義表達(dá),對(duì)特征提取及情感傾向判定具有積極意義。
深度信念網(wǎng)絡(luò)由多層玻爾茲曼機(jī)構(gòu)成,經(jīng)過(guò)深度信念網(wǎng)絡(luò)的預(yù)訓(xùn)練過(guò)程,各層玻爾茲曼機(jī)能夠獨(dú)立無(wú)監(jiān)督的訓(xùn)練候選特征,確保特征向量能夠映射到不同特征空間的同時(shí),盡可能保留原有特征信息。
由于每一層玻爾茲曼機(jī)為獨(dú)立無(wú)監(jiān)督的訓(xùn)練,只能達(dá)到局部最優(yōu),為克服這一缺點(diǎn),利用反向傳播網(wǎng)絡(luò)將錯(cuò)誤信息由高到低傳播至每一層玻爾茲曼機(jī),能夠?qū)γ恳粚硬柶澛鼨C(jī)進(jìn)行微調(diào),力爭(zhēng)達(dá)到整體最優(yōu)。
引入深度信念網(wǎng)絡(luò)對(duì)特征進(jìn)行深度自適應(yīng)學(xué)習(xí),可以克服基于概率統(tǒng)計(jì)特征提取算法固有的缺陷,更好的挖掘文本所涵蓋的潛在語(yǔ)義特征,發(fā)現(xiàn)更高質(zhì)量的特征。為進(jìn)一步豐富特征密度,利用分布式語(yǔ)義相似度算法對(duì)特征向量進(jìn)行詞語(yǔ)級(jí)別的擴(kuò)展,該方法能夠更深層次的利用文本潛在語(yǔ)義信息,提高情感特征提取的質(zhì)量。
附圖說(shuō)明
圖1基于深度信念網(wǎng)絡(luò)的短文本特征提取及情感分類方法流程圖;
圖2基于上下文的短文本擴(kuò)展重構(gòu)的示意圖;
圖3深度信念網(wǎng)絡(luò)預(yù)訓(xùn)練與微調(diào)示意圖;
圖4深度信念網(wǎng)絡(luò)特征提取與情感傾向判定的示意圖;
圖5語(yǔ)義相似度模型舉例的示意圖;
圖6特征向量擴(kuò)展示意圖。
具體實(shí)施方式
如圖1所示,本發(fā)明提供一種基于深度信念網(wǎng)絡(luò)的短文本特征提取及情感分析方法包括以下步驟:
步驟1、基礎(chǔ)語(yǔ)料及工具收集整理,主要包括如下方面:
(1)收集微博短文本語(yǔ)料集合,并按照一定比例劃分訓(xùn)練集與測(cè)試集,將訓(xùn)練集的數(shù)據(jù)進(jìn)行人工標(biāo)注。
(2)收集整理同義詞典,包括哈工大同義詞林、復(fù)旦大學(xué)中文同義詞庫(kù)等資料,為詞語(yǔ)語(yǔ)義相似度模型構(gòu)建鑒定基礎(chǔ)。
(3)收集整理語(yǔ)義遞進(jìn)關(guān)聯(lián)詞,通過(guò)結(jié)合中文連詞及微博短文本的特點(diǎn),我們對(duì)微博中常用的語(yǔ)義遞進(jìn)關(guān)聯(lián)詞進(jìn)行整理,該類連接詞能夠延伸原微博表達(dá)的情感傾向,為短文本擴(kuò)展重構(gòu)提供基礎(chǔ)語(yǔ)料,語(yǔ)義遞進(jìn)關(guān)聯(lián)詞例如:“贊”“說(shuō)得對(duì)”,“強(qiáng)烈支持”,“頂”等等。
(4)整理標(biāo)注微博表情詞典。微博涵蓋大量表情符號(hào),例如:“[高興]”,“[大哭]”等,該類符號(hào)通常含有較為明確的情感傾向,我們認(rèn)為該類符號(hào)在短文本情感分析中應(yīng)該作為原子詞來(lái)確定情感,但現(xiàn)有的分詞模型詞庫(kù)并未涵蓋該類詞語(yǔ),因此本文收集整理該類符號(hào),將其加入分詞模型詞庫(kù),確保分詞時(shí)將其劃分為原子詞。
(5)收集常用分詞模型,常用機(jī)器學(xué)習(xí)分類算法,學(xué)習(xí)深度信念網(wǎng)絡(luò)的原理及使用,為情感分析做好鑒定較為扎實(shí)的理論基礎(chǔ)。
步驟2、對(duì)短文本進(jìn)行擴(kuò)展重構(gòu),主要工作如下:
(1)將原始微博語(yǔ)料按照轉(zhuǎn)發(fā)評(píng)論關(guān)系構(gòu)建上下文關(guān)聯(lián)樹(shù),通過(guò)該關(guān)聯(lián)樹(shù)能夠分析短文本上下之間的關(guān)聯(lián)關(guān)系。
(2)利用構(gòu)建語(yǔ)義遞進(jìn)關(guān)聯(lián)詞典尋找上下文中與原始微博情感傾向相同的語(yǔ)料對(duì)原始文本進(jìn)行擴(kuò)展重構(gòu),該方法能夠擴(kuò)展原始短文本的語(yǔ)義豐富度。上下文擴(kuò)展示意圖如圖2所示。
步驟3、短文本分詞及預(yù)處理,主要工作如下:
(1)將獲得表情符號(hào)詞典加入到分詞模型詞庫(kù)中,然后利用該優(yōu)化的分詞模型對(duì)擴(kuò)展后的短文本語(yǔ)料進(jìn)行分詞。
(2)將分詞后的語(yǔ)料進(jìn)行停用詞過(guò)濾,標(biāo)點(diǎn)符號(hào)過(guò)濾等。
步驟4,詞語(yǔ)相似度計(jì)算模型構(gòu)建,具體工作如下:
將收集整理的同義詞典與分詞預(yù)處理后的詞語(yǔ)利用word2vec進(jìn)行詞語(yǔ)相似度訓(xùn)練,獲得詞語(yǔ)相似度計(jì)算模型。
步驟5、短文本特征向量擴(kuò)展,主要工作如下:
(1)為了兼顧深度信念網(wǎng)絡(luò)的學(xué)習(xí)效率與準(zhǔn)確度,我們首先將分詞預(yù)處理后的短文本分詞集合利用傳統(tǒng)特征提取算法進(jìn)行大規(guī)模粗粒度特征抽取,獲得候選特征集合。
(2)利用詞語(yǔ)相似度計(jì)算模型對(duì)候選特征集合進(jìn)行詞語(yǔ)擴(kuò)展,利用構(gòu)建的語(yǔ)義相似度計(jì)算模型,依次對(duì)每個(gè)特征詞計(jì)算出余弦相似度大于0.8的相似詞集合,擴(kuò)展到現(xiàn)有的特征詞集合中,如圖5所示。
首先特征詞原始數(shù)據(jù)中的情感詞“開(kāi)心”,“夢(mèng)寐以求”通過(guò)word2vec詞語(yǔ)語(yǔ)義相似度計(jì)算模型得到語(yǔ)義相近詞“高興”、“渴望”,由此更新其在特征向量中的權(quán)值,該方法能夠緩解短文本的特征稀疏問(wèn)題。特征擴(kuò)展的具體過(guò)程如圖6所示。
步驟6、基于深度信念網(wǎng)絡(luò)進(jìn)行特征深度自適應(yīng)學(xué)習(xí),具體過(guò)程如下:
對(duì)擴(kuò)展后的候選特征集合基于深度信念網(wǎng)絡(luò)的特征深度自適應(yīng)抽取,該方法能夠克服傳統(tǒng)基于概率統(tǒng)計(jì)的方法所固有的缺點(diǎn),能夠更好的發(fā)現(xiàn)特征潛在的信息,提高特征抽取的質(zhì)量。
深度信念網(wǎng)絡(luò)經(jīng)過(guò)正向預(yù)訓(xùn)練過(guò)程,盡可能的將特征向量映射到不同的特征空間時(shí)保留更多的特征信息,并能利用反向網(wǎng)絡(luò)傳播將錯(cuò)誤信息自上而下傳播至每一層玻爾茲曼機(jī),以此微調(diào)整個(gè)深度信念網(wǎng)絡(luò),深度信念網(wǎng)絡(luò)訓(xùn)練與微調(diào)過(guò)程如圖3所示。
經(jīng)過(guò)深度信念網(wǎng)絡(luò)預(yù)訓(xùn)練與微調(diào)過(guò)程能夠獲得較高質(zhì)量的特征,通過(guò)將特征向量輸入到分類算法中驗(yàn)證深度信念網(wǎng)絡(luò)特征提取質(zhì)量的高低。整體流程如圖4所示。
步驟7、利用分類模型對(duì)特征進(jìn)行分類訓(xùn)練,即,將深度信念網(wǎng)絡(luò)獲得特征集合利用機(jī)器學(xué)習(xí)分類算法進(jìn)行分類訓(xùn)練,獲得分類預(yù)測(cè)模型;
步驟8、將測(cè)試數(shù)據(jù)集進(jìn)行情感標(biāo)注,具體過(guò)程如下:
(1)將測(cè)試訓(xùn)練集經(jīng)過(guò)上述相同的步驟進(jìn)行文本擴(kuò)展、分詞、特征擴(kuò)展、深度信念網(wǎng)絡(luò)特征提取。
(2)利用分類預(yù)測(cè)模型對(duì)未標(biāo)注的測(cè)試數(shù)據(jù)進(jìn)行情感傾向判定,將獲得的情感分類結(jié)果輸出給用戶。
實(shí)施例1:
傳統(tǒng)提取特征的方法主要基于概率統(tǒng)計(jì)的方式,不能充分發(fā)現(xiàn)文本潛在的語(yǔ)義信息,從而不能更好的進(jìn)行特征訓(xùn)練來(lái)確定短文本情感傾向;本發(fā)明實(shí)施例提供一種基于深度學(xué)習(xí)的新型短文本特征提取及情感分析方法包含如下具體步驟:
將所有的語(yǔ)料集合按照8:2的比例劃分為訓(xùn)練集與測(cè)試集,利用訓(xùn)練集對(duì)本發(fā)明提取的方法進(jìn)行模型訓(xùn)練,利用測(cè)試集測(cè)試本發(fā)明方法相比較于傳統(tǒng)方法的優(yōu)劣。
對(duì)訓(xùn)練語(yǔ)料集進(jìn)行人工情感傾向標(biāo)注,積極情感傾向標(biāo)注為1,中性情感傾向標(biāo)注為0,消極情感傾向標(biāo)注為-1。
數(shù)據(jù)預(yù)處理,數(shù)據(jù)預(yù)處理能夠更好的規(guī)范微博短文本文字表達(dá),剔除文本亂碼,進(jìn)行分詞、詞性標(biāo)注等,去除停用詞。
構(gòu)建短文本關(guān)聯(lián)樹(shù),一條微博可能含有大量的評(píng)論、轉(zhuǎn)發(fā)等上下文信息,以原始微博文本為基準(zhǔn),構(gòu)建原始微博與轉(zhuǎn)發(fā)評(píng)論的關(guān)聯(lián)thread。
構(gòu)建語(yǔ)義遞進(jìn)關(guān)聯(lián)詞典,通過(guò)語(yǔ)義遞進(jìn)關(guān)聯(lián)詞確定評(píng)論轉(zhuǎn)發(fā)等上下文語(yǔ)料是否與原始微博內(nèi)容具有相同的情感傾向,語(yǔ)義遞進(jìn)關(guān)聯(lián)詞典樣例,如:“確實(shí)是”,“贊”,“非常認(rèn)同”“說(shuō)得對(duì)”等等。
由thread關(guān)聯(lián)樹(shù)及語(yǔ)義遞進(jìn)關(guān)聯(lián)詞典對(duì)原始微博內(nèi)容進(jìn)行擴(kuò)展重構(gòu),豐富短文本的語(yǔ)義信息。
構(gòu)建微博表情詞典。微博等短文本充斥著大量表情符號(hào)等網(wǎng)絡(luò)元素,通過(guò)收集微博表情將其加入分詞詞典,確保分詞模型將其作為一個(gè)整體詞切分,例如:“[給力]”、“[淚流滿面]”等。
微博等短文本含有較多的網(wǎng)絡(luò)流行語(yǔ),為保證分詞模型將這些流行語(yǔ)作為整體詞,利用信息熵和點(diǎn)互信息實(shí)現(xiàn)新詞自動(dòng)發(fā)現(xiàn),將其加入分詞模型詞典中。如:“我去”、“藍(lán)瘦香菇”等等。
將表情詞及新詞加入ictclas分詞模型后,利用分詞模型對(duì)經(jīng)過(guò)預(yù)處理及擴(kuò)展的短文本進(jìn)行分詞,例如:“哎呦我去,本寶寶不開(kāi)心[大哭]”,原始分詞結(jié)果:“哎呦/我/去/,/本/寶寶/不開(kāi)心/[/大哭/]”,經(jīng)過(guò)優(yōu)化后的結(jié)果:“哎呦/我去/,/本/寶寶/不開(kāi)心/[大哭]”。
為保證深度信念網(wǎng)絡(luò)學(xué)習(xí)的效率及準(zhǔn)確度,首先利用傳統(tǒng)特征提取算法tf*idf對(duì)特征詞進(jìn)行大規(guī)模初篩,構(gòu)建較大規(guī)模的候選特征詞集合。
引入分布式語(yǔ)義計(jì)算模型,對(duì)分詞后的微博語(yǔ)料集進(jìn)行詞語(yǔ)語(yǔ)義相似度模型的訓(xùn)練構(gòu)建。
對(duì)候選特征詞集合利用語(yǔ)義相似度計(jì)算模型進(jìn)行特征向量擴(kuò)展,豐富特征表示密度。
按照深度信念網(wǎng)絡(luò)輸入層的格式要求,統(tǒng)計(jì)每個(gè)特征項(xiàng)出現(xiàn)頻率構(gòu)建輸入向量。
指定深度信念網(wǎng)絡(luò)玻爾茲曼機(jī)訓(xùn)練層數(shù)、輸出特征維度等模型參數(shù)初始化深度信念網(wǎng)絡(luò)。
將構(gòu)造的輸入向量經(jīng)過(guò)多層玻爾茲曼機(jī)單獨(dú)無(wú)監(jiān)督的訓(xùn)練,確保特征向量映射到不同的特征空間時(shí),能盡可能的保留原有特征信息。
利用反向傳播網(wǎng)絡(luò)將每一層的錯(cuò)誤信息自頂向下傳播到每一層玻爾茲曼機(jī),微調(diào)整個(gè)深度信念網(wǎng)絡(luò)。
經(jīng)過(guò)預(yù)訓(xùn)練與微調(diào)過(guò)程,深度信念網(wǎng)絡(luò)會(huì)將經(jīng)過(guò)深度自適應(yīng)學(xué)習(xí)獲得的特征向量輸出。
將輸出的特征向量構(gòu)造適合于不同機(jī)器學(xué)習(xí)分類算法的輸入向量,以便驗(yàn)證特征抽取的質(zhì)量高低。
分別利用不同的機(jī)器學(xué)習(xí)分類算法對(duì)獲得的特征向量進(jìn)行學(xué)習(xí)訓(xùn)練,獲得訓(xùn)練模型。
將測(cè)試集合利用上述相同的步驟抽取特征向量,然后利用所獲得的分類模型對(duì)其進(jìn)行情感傾向標(biāo)注。
利用大連理工大學(xué)、中國(guó)知網(wǎng)、臺(tái)灣大學(xué)等情感詞典資源合并匯總后構(gòu)建情感詞典庫(kù)。
針對(duì)漢語(yǔ)語(yǔ)法規(guī)則構(gòu)造通用情感判定規(guī)則,為基于規(guī)則的情感判定方法鑒定基礎(chǔ)。
利用情感詞典及規(guī)則方式對(duì)測(cè)試集合進(jìn)行情感傾向計(jì)算,記錄測(cè)試集合的準(zhǔn)確率、召回率及f1值以便與本發(fā)明方法對(duì)比。
利用傳統(tǒng)特征提取算法tf*idf、信息增益等方法提取特征向量,并采用與本發(fā)明相同的機(jī)器學(xué)習(xí)分類算法進(jìn)行情感傾向訓(xùn)練標(biāo)注,以便對(duì)比與本發(fā)明所采用方法的優(yōu)劣。
統(tǒng)計(jì)本發(fā)明測(cè)試集上的準(zhǔn)確率、召回率及f1值,對(duì)比與傳統(tǒng)規(guī)則和機(jī)器學(xué)習(xí)方法分類的性能。
根據(jù)對(duì)比結(jié)果調(diào)整深度信念網(wǎng)絡(luò)輸出特征維度的大小,重復(fù)上述操作獲得調(diào)整后的實(shí)驗(yàn)結(jié)果,通過(guò)對(duì)比不同的參數(shù),獲得較好效果的學(xué)習(xí)訓(xùn)練參數(shù)。
調(diào)整分類算法的參數(shù)及對(duì)比利用弱學(xué)習(xí)分類器增強(qiáng)算法等對(duì)特征進(jìn)一步增強(qiáng)訓(xùn)練,提高分類算法的分類性能。
經(jīng)過(guò)實(shí)驗(yàn)結(jié)果驗(yàn)證,本發(fā)明提出的方法能夠發(fā)現(xiàn)更高質(zhì)量的特征,能夠更有效的挖掘特征的潛在語(yǔ)義,能夠較好的提高短文本情感分類的性能。