本發(fā)明涉及數(shù)據(jù)處理和數(shù)據(jù)挖掘領(lǐng)域,具體涉及一種評(píng)論數(shù)據(jù)的處理方法及處理裝置。
背景技術(shù):
隨著信息技術(shù)的發(fā)展,互聯(lián)網(wǎng)已經(jīng)成為當(dāng)今社會(huì)人們獲取信息的重要渠道,互聯(lián)網(wǎng)快捷、方便的特性,以及強(qiáng)大的交互能力,為人們交流思想、闡明觀點(diǎn)、發(fā)表意見提供了新的平臺(tái),因此也產(chǎn)生了大量的評(píng)論數(shù)據(jù),比如微博中的評(píng)論數(shù)據(jù)、電子商務(wù)中關(guān)于商品的評(píng)論數(shù)據(jù)等。評(píng)論數(shù)據(jù)通常帶有人們的情感傾向,情感傾向可認(rèn)為是主體對(duì)某一客體主觀存在的內(nèi)心喜惡,比如可以理解為人們對(duì)某客體表達(dá)自身觀點(diǎn)所持的態(tài)度是支持還是反對(duì),是正面情感還是負(fù)面情感。例如“贊美”與“表揚(yáng)”為褒義詞,表達(dá)正面情感,而“齷齪”與“丑陋”為貶義詞,表達(dá)負(fù)面情感。對(duì)評(píng)論數(shù)據(jù)的情感傾向進(jìn)行分類標(biāo)記,可以方便對(duì)大量的評(píng)論數(shù)據(jù)進(jìn)行分析,幫助企業(yè)、政府、消費(fèi)者等更好的把握用戶的偏好,從而對(duì)自己的產(chǎn)品或者工作上的改進(jìn)產(chǎn)生良好的指導(dǎo)作用。
現(xiàn)有技術(shù)中,大多是基于情感詞典或者分析評(píng)論語句的語法而得到評(píng)論語句的情感傾值,最后根據(jù)情感傾值判定評(píng)論語句的情感傾向。
但是,簡(jiǎn)單的基于情感詞典或者評(píng)論語句的語法,忽略了網(wǎng)絡(luò)語言靈活性的特點(diǎn),對(duì)評(píng)論語句的情感傾向的判斷不夠準(zhǔn)確。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明提供一種評(píng)論數(shù)據(jù)的處理方法及處理裝置,用于解決現(xiàn)有技術(shù)對(duì)評(píng)論語句的情感傾向的判斷不夠準(zhǔn)確。
本發(fā)明實(shí)施例的一方面提供了一種評(píng)論數(shù)據(jù)的處理方法,包括:
獲取情感傾向已知的樣本評(píng)論語句;
計(jì)算所述樣本評(píng)論語句的句向量;
利用所述樣本評(píng)論語句的句向量與所述樣本評(píng)論語句的情感傾向?qū)趯W(xué)習(xí)的分類器進(jìn)行訓(xùn)練,得到情感分類器;
利用所述情感分類器對(duì)待測(cè)評(píng)論語句的情感傾向進(jìn)行預(yù)測(cè)。
結(jié)合第一方面,在第一方面的第一種可能的實(shí)現(xiàn)方式中,所述情感傾向包括第一情感、第二情感和第三情感;
所述情感分類器包括第一情感模型、第二情感模型和第三情感模型,所述第一情感模型用于計(jì)算所述待測(cè)評(píng)論語句的情感傾向?yàn)榈谝磺楦械牡谝桓怕?,所述第二情感模型用于?jì)算所述待測(cè)評(píng)論語句的情感傾向?yàn)榈诙楦械牡诙怕剩龅谌楦心P陀糜谟?jì)算所述待測(cè)評(píng)論語句的情感傾向?yàn)榈谌楦械牡谌怕省?/p>
結(jié)合第一方面的第一種可能的實(shí)現(xiàn)方式,在第一方面的第二種可能的實(shí)現(xiàn)方式中,利用所述樣本評(píng)論語句的句向量與所述樣本評(píng)論語句的情感傾向?qū)趯W(xué)習(xí)的分類器進(jìn)行訓(xùn)練得到所述第一情感模型,包括:
判斷所述樣本評(píng)論語句的情感傾向是否為第一情感;
若是,則將所述樣本評(píng)論語句的句向量加入預(yù)建的所述第一情感模型的第一集合;
若否,則將所述樣本評(píng)論語句的句向量加入預(yù)建的所述第一情感模型的第二集合;
利用所述第一集合和所述第二集合進(jìn)行二分類訓(xùn)練建模,得到所述第一情感模型;
利用所述第一情感模型對(duì)待測(cè)評(píng)論語句的情感傾向進(jìn)行預(yù)測(cè)包括:
利用所述第一情感模型計(jì)算所述待測(cè)評(píng)論語句的句向量屬于所述第一情感模型的第一集合的概率。
結(jié)合第一方面的第二種可能的實(shí)現(xiàn)方式,在第一方面的第三種可能的實(shí)現(xiàn)方式中,利用所述情感分類器對(duì)待測(cè)評(píng)論語句的情感傾向進(jìn)行預(yù)測(cè)包括:
分別利用所述第一情感模型、所述第二情感模型和所述第三情感模型對(duì)所述待測(cè)評(píng)論語句的情感傾向進(jìn)行預(yù)測(cè),得到第一概率、第二概率和第三概率;
確定所述第一概率、所述第二概率和所述第三概率中取值最大的概率對(duì)應(yīng)的情感模型為目標(biāo)情感模型;
確定所述目標(biāo)情感模型對(duì)應(yīng)的情感傾向?yàn)樗龃郎y(cè)評(píng)論語句的情感傾向。
結(jié)合第一方面、第一方面的第一種可能的實(shí)現(xiàn)方式、第一方面的第二種可能的實(shí)現(xiàn)方式和第一方面的第三種可能的實(shí)現(xiàn)方式之中任意一種,在第一方面的第四種可能的實(shí)現(xiàn)方式中,所述計(jì)算所述樣本評(píng)論語句的句向量包括:
對(duì)所述樣本評(píng)論語句進(jìn)行分詞,得到樣本詞集合;
利用基于Word2Vec的神經(jīng)網(wǎng)絡(luò)計(jì)算所述樣本詞集合中的樣本詞的詞向量,得到所述樣本評(píng)論語句對(duì)應(yīng)的樣本詞向量集合;
計(jì)算所述樣本詞向量集合的中心向量,作為所述樣本評(píng)論語句的句向量。
本發(fā)明實(shí)施例的第二方面提供了一種評(píng)論數(shù)據(jù)的處理裝置,包括:
獲取模塊,用于獲取情感傾向已知的樣本評(píng)論語句;
計(jì)算模塊,用于計(jì)算所述樣本評(píng)論語句的句向量;
訓(xùn)練模塊,用于利用所述樣本評(píng)論語句的句向量與所述樣本評(píng)論語句的情感傾向?qū)趯W(xué)習(xí)的分類器進(jìn)行訓(xùn)練,得到情感分類器;
預(yù)測(cè)模塊,用于利用所述情感分類器對(duì)待測(cè)評(píng)論語句的情感傾向進(jìn)行預(yù)測(cè)。
結(jié)合第二方面,在第二方面的第一種可能的實(shí)現(xiàn)方式中,所述情感傾向包括第一情感、第二情感和第三情感;
所述情感分類器包括第一情感模型、第二情感模型和第三情感模型,所述第一情感模型用于計(jì)算所述待測(cè)評(píng)論語句的情感傾向?yàn)榈谝磺楦械牡谝桓怕?,所述第二情感模型用于?jì)算所述待測(cè)評(píng)論語句的情感傾向?yàn)榈诙楦械牡诙怕?,所述第三情感模型用于?jì)算所述待測(cè)評(píng)論語句的情感傾向?yàn)榈谌楦械牡谌怕省?/p>
結(jié)合第二方面的第一種可能的實(shí)現(xiàn)方式,在第二方面的第二種可能的實(shí)現(xiàn)方式中,所述訓(xùn)練模塊包括第一訓(xùn)練子模塊,所述第一訓(xùn)練子模塊用于利用所述樣本評(píng)論語句的句向量與所述樣本評(píng)論語句的情感傾向?qū)趯W(xué)習(xí)的分類器進(jìn)行訓(xùn)練得到所述第一情感模型,所述第一訓(xùn)練子模塊包括:
判斷單元,用于判斷所述樣本評(píng)論語句的情感傾向是否為第一情感;
第一添加單元,用于當(dāng)所述判斷單元判定所述樣本評(píng)論語句的情感傾向是第一情感時(shí),將所述樣本評(píng)論語句的句向量加入預(yù)建的所述第一情感模型的第一集合;
第二添加單元,用于當(dāng)所述判斷單元判定所述樣本評(píng)論語句的情感傾向不是第一情感時(shí),將所述樣本評(píng)論語句的句向量加入預(yù)建的所述第一情感模型的第二集合;
建模單元,用于利用所述第一集合和所述第二集合進(jìn)行二分類訓(xùn)練建模,得到所述第一情感模型;
所述預(yù)測(cè)模塊包括第一預(yù)測(cè)單元,用于利用所述第一情感模型對(duì)待測(cè)評(píng)論語句的情感傾向進(jìn)行預(yù)測(cè),所述第一預(yù)測(cè)單元包括:
計(jì)算子單元,用于利用所述第一情感模型計(jì)算所述待測(cè)評(píng)論語句的句向量屬于所述第一情感模型的第一集合的概率。
結(jié)合第二方面的第二種可能的實(shí)現(xiàn)方式,在第二方面的第三種可能的實(shí)現(xiàn)方式中,所述預(yù)測(cè)模塊包括:
預(yù)測(cè)子模塊,用于分別利用所述第一情感模型、所述第二情感模型和所述第三情感模型對(duì)所述待測(cè)評(píng)論語句的情感傾向進(jìn)行預(yù)測(cè),得到第一概率、第二概率和第三概率,所述預(yù)測(cè)單元包括所述第一預(yù)測(cè)子單元;
第一確定子模塊,用于確定所述第一概率、所述第二概率和所述第三概率中取值最大的概率對(duì)應(yīng)的情感模型為目標(biāo)情感模型;
第二確定子模塊,用于確定所述目標(biāo)情感模型對(duì)應(yīng)的情感傾向?yàn)樗龃郎y(cè)評(píng)論語句的情感傾向。
結(jié)合第二方面、第二方面的第一種可能的實(shí)現(xiàn)方式、第二方面的第二種可能的實(shí)現(xiàn)方式和第二方面的第三種可能的實(shí)現(xiàn)方式之中任意一種,在第二方面的第四種可能的實(shí)現(xiàn)方式中,所述計(jì)算模塊包括:
分詞子模塊,用于對(duì)所述樣本評(píng)論語句進(jìn)行分詞,得到樣本詞集合;
第一計(jì)算子模塊,用于利用基于Word2Vec的神經(jīng)網(wǎng)絡(luò)計(jì)算所述樣本詞集合中的樣本詞的詞向量,得到所述樣本評(píng)論語句對(duì)應(yīng)的樣本詞向量集合;
第二計(jì)算子模塊,用于計(jì)算所述樣本詞向量集合的中心向量,作為所述樣本評(píng)論語句的句向量。
從以上技術(shù)方案可以看出,本發(fā)明實(shí)施例具有以下優(yōu)點(diǎn):
本發(fā)明獲取情感傾向已知的樣本評(píng)論語句,計(jì)算所述樣本評(píng)論語句的句向量,利用所述樣本評(píng)論語句的句向量與所述樣本評(píng)論語句的情感傾向?qū)趯W(xué)習(xí)的分類器進(jìn)行訓(xùn)練,得到情感分類器,并利用所述情感分類器對(duì)待測(cè)評(píng)論語句的情感傾向進(jìn)行預(yù)測(cè),本發(fā)明為基于大數(shù)據(jù)的情感傾向預(yù)測(cè),和簡(jiǎn)單的基于情感詞典或者評(píng)論語句的語法進(jìn)行預(yù)測(cè)相比,對(duì)評(píng)論語句的情感傾向的判斷更加準(zhǔn)確。
附圖說明
圖1是本發(fā)明評(píng)論數(shù)據(jù)的處理方法一個(gè)實(shí)施例示意圖;
圖2是本發(fā)明對(duì)基于學(xué)習(xí)的分類器進(jìn)行訓(xùn)練得到第一情感模型的方法一個(gè)實(shí)施例示意圖;
圖3是本發(fā)明評(píng)論數(shù)據(jù)的處理方法另一個(gè)實(shí)施例示意圖;
圖4是本發(fā)明評(píng)論數(shù)據(jù)的處理裝置一個(gè)實(shí)施例示意圖;
圖5是本發(fā)明評(píng)論數(shù)據(jù)的處理裝置另一個(gè)實(shí)施例示意圖。
具體實(shí)施方式
本發(fā)明實(shí)施例提供了一種評(píng)論數(shù)據(jù)的處理方法及處理裝置,用于提高對(duì)評(píng)論數(shù)據(jù)的情感傾向判斷的準(zhǔn)確性。
為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明方案,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分的實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都應(yīng)當(dāng)屬于本發(fā)明保護(hù)的范圍。
本發(fā)明的說明書和權(quán)利要求書及上述附圖中的術(shù)語“第一”、“第二”、“第三”、“第四”等(如果存在)是用于區(qū)別類似的對(duì)象,而不必用于描述特定的順序或先后次序。應(yīng)該理解這樣使用的數(shù)據(jù)在適當(dāng)情況下可以互換,以便這里描述的實(shí)施例能夠以除了在這里圖示或描述的內(nèi)容以外的順序?qū)嵤?。此外,術(shù)語“包括”和“具有”以及他們的任何變形,意圖在于覆蓋不排他的包含,例如,包含了一系列步驟或單元的過程、方法、系統(tǒng)、產(chǎn)品或設(shè)備不必限于清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或?qū)τ谶@些過程、方法、產(chǎn)品或設(shè)備固有的其它步驟或單元。
為便于理解,下面對(duì)本發(fā)明實(shí)施例中的具體流程進(jìn)行描述,請(qǐng)參閱圖1,本發(fā)明實(shí)施例中評(píng)論數(shù)據(jù)的處理方法一個(gè)實(shí)施例包括:
101、獲取情感傾向已知的樣本評(píng)論語句;
獲取情感傾向已知的樣本評(píng)論語句,每個(gè)樣本評(píng)論語句對(duì)應(yīng)一個(gè)確定的情感傾向。
102、計(jì)算樣本評(píng)論語句的句向量;
得到情感傾向已知的樣本評(píng)論語句之后,可以計(jì)算樣本評(píng)論語句的句向量。
103、利用樣本評(píng)論語句的句向量與樣本評(píng)論語句的情感傾向?qū)趯W(xué)習(xí)的分類器進(jìn)行訓(xùn)練,得到情感分類器;
計(jì)算得到樣本評(píng)論語句的句向量之后,可以利用樣本評(píng)論語句的句向量和樣本評(píng)論語句的情感傾向?qū)趯W(xué)習(xí)的分類器進(jìn)行訓(xùn)練,得到情感分類器。
104、利用情感分類器對(duì)待測(cè)評(píng)論語句的情感傾向進(jìn)行預(yù)測(cè)。
得到情感分類器之后,可以利用情感分類器對(duì)待測(cè)評(píng)論語句的情感傾向進(jìn)行預(yù)測(cè)。
本發(fā)明獲取情感傾向已知的樣本評(píng)論語句,并計(jì)算樣本評(píng)論語句的句向量,之后利用樣本評(píng)論語句的句向量與樣本評(píng)論語句的情感傾向?qū)趯W(xué)習(xí)的分類器進(jìn)行訓(xùn)練,得到情感分類器,并利用情感分類器對(duì)待測(cè)評(píng)論語句的情感傾向進(jìn)行預(yù)測(cè),由于本發(fā)明為基于大數(shù)據(jù)的情感傾向預(yù)測(cè),和簡(jiǎn)單的基于情感詞典或者評(píng)論語句的語法進(jìn)行預(yù)測(cè)相比,對(duì)評(píng)論語句的情感傾向的判斷更加準(zhǔn)確。
大多數(shù)的情感極性判斷都是正面和負(fù)面的二分類判斷,而本發(fā)明中可以對(duì)至少三種情感進(jìn)行判斷,也就是說,獲取的樣本評(píng)論語句,其情感傾向可以包括第一情感、第二情感和第三情感,相應(yīng)的,情感分類器可以包括第一情感模型、第二情感模型和第三情感模型,第一情感模型用于計(jì)算待測(cè)評(píng)論語句的情感傾向?yàn)榈谝磺楦械牡谝桓怕?,第二情感模型用于?jì)算待測(cè)評(píng)論語句的情感傾向?yàn)榈诙楦械牡诙怕?,第三情感模型用于?jì)算待測(cè)評(píng)論語句的情感傾向?yàn)榈谌楦械牡谌怕省T谶@里,第一情感傾向、第二情感傾向和第三情感傾向可以分別指正面情感、負(fù)面情感和中性情感。由于本發(fā)明中多了一個(gè)中性的預(yù)測(cè),不同于常規(guī)的正負(fù)面的二分類預(yù)測(cè),因此本發(fā)明的情感傾向預(yù)測(cè)結(jié)果更準(zhǔn)確。
若情感分類器包括第一情感模型、第二情感模型和第三情感模型,那么圖1對(duì)應(yīng)的實(shí)施例中,利用樣本評(píng)論語句的句向量與樣本評(píng)論語句的情感傾向?qū)趯W(xué)習(xí)的分類器進(jìn)行訓(xùn)練,得到情感分類器,就包括利用樣本評(píng)論語句的句向量與樣本評(píng)論語句的情感傾向?qū)趯W(xué)習(xí)的分類器進(jìn)行訓(xùn)練,分別得到第一情感模型、第二情感模型和第三情感模型。作為優(yōu)選,下面具體說明,在獲取情感傾向已知的樣本評(píng)論語句,并計(jì)算樣本評(píng)論語句的句向量之后,利用樣本評(píng)論語句的句向量與樣本評(píng)論語句的情感傾向?qū)趯W(xué)習(xí)的分類器進(jìn)行訓(xùn)練得到第一情感模型的具體過程,請(qǐng)參閱圖2,對(duì)基于學(xué)習(xí)的分類器進(jìn)行訓(xùn)練得到第一情感模型的方法包括:
201、判斷樣本評(píng)論語句的情感傾向是否為第一情感,若是,則執(zhí)行步驟202,若否,則執(zhí)行步驟203;
對(duì)獲取到的情感傾向已知的樣本評(píng)論語句進(jìn)行判斷,判斷其情感傾向是否為第一情感,若樣本評(píng)論語句的情感傾向是第一情感,則執(zhí)行步驟202,若樣本評(píng)論語句的情感傾向不是第一情感,則執(zhí)行步驟203。
202、將樣本評(píng)論語句的句向量加入預(yù)建的第一情感模型的第一集合;
若判定樣本評(píng)論語句的情感傾向是第一情感,則將樣本評(píng)論語句的句向量加入預(yù)建的第一情感模型的第一集合。
203、將樣本評(píng)論語句的句向量加入預(yù)建的第一情感模型的第二集合;
若判定樣本評(píng)論語句的情感傾向是第一情感,則將樣本評(píng)論語句的句向量加入預(yù)建的第一情感模型的第二集合。
204、利用第一集合和第二集合進(jìn)行二分類訓(xùn)練建模,得到第一情感模型;
通過步驟201至步驟203,可以將獲取的樣本評(píng)論語句分為兩類,一類位于第一集合中,另一類位于第二集合中,第一集合中的樣本評(píng)論語句對(duì)應(yīng)的情感傾向?yàn)榈谝磺楦校诙现械臉颖驹u(píng)論語句對(duì)應(yīng)的情感傾向?yàn)榉堑谝磺楦?。接下來可以利用第一集合和第二集合進(jìn)行二分類訓(xùn)練建模,具體的,可以將第一集合中的樣本評(píng)論語句的標(biāo)簽設(shè)為第一情感,將第一情感的標(biāo)簽值設(shè)為1,將第二集合中的樣本評(píng)論語句的標(biāo)簽設(shè)為非第一情感,將非第一情感的標(biāo)簽值設(shè)為0,將標(biāo)記有第一情感和非第一情感的樣本評(píng)論語句用于Logistic二分類訓(xùn)練建模,得到第一情感模型,之后可以根據(jù)Logistic二分類預(yù)測(cè)遠(yuǎn)離,以預(yù)測(cè)待測(cè)評(píng)論語句的標(biāo)簽為第一情感的概率,即待測(cè)評(píng)論語句屬于第一情感的第一集合的概率,或者說,待測(cè)評(píng)論語句的情感傾向?yàn)榈谝磺楦械母怕省?/p>
在獲取情感傾向已知的樣本評(píng)論語句,并計(jì)算樣本評(píng)論語句的句向量之后,利用樣本評(píng)論語句的句向量與樣本評(píng)論語句的情感傾向?qū)趯W(xué)習(xí)的分類器進(jìn)行訓(xùn)練,得到第二情感模型和第三情感模型的過程,與上述得到第一情感模型的過程類似,此處不再贅述。得到第二情感模型和第三情感模型之后,可以分別利用第二情感模型和第三情感模型對(duì)待測(cè)評(píng)論語句的情感傾向進(jìn)行預(yù)測(cè),即計(jì)算待測(cè)評(píng)論語句的情感傾向?yàn)榈诙楦械母怕室约坝?jì)算待測(cè)評(píng)論語句的情感傾向?yàn)榈谌楦械母怕省?/p>
如上,若情感傾向包括第一情感、第二情感和第三情感,情感分類器包括第一情感模型、第二情感模型和第三情感模型,請(qǐng)參閱圖3,本發(fā)明實(shí)施例中評(píng)論數(shù)據(jù)的處理方法另一個(gè)實(shí)施例包括:
301、獲取情感傾向已知的樣本評(píng)論語句;
獲取情感傾向已知的樣本評(píng)論語句,每個(gè)樣本評(píng)論語句對(duì)應(yīng)一個(gè)確定的情感傾向。由于評(píng)論對(duì)象不同,用戶表達(dá)自身情感傾向所常用的評(píng)論語句往往有很大差異,比如對(duì)政府政策的評(píng)論語句和對(duì)商品的評(píng)論語句,其常用詞匯、句式等往往有很大差異。因此,為了提高情感分類器的準(zhǔn)確性,可以針對(duì)不同的評(píng)論對(duì)象構(gòu)建不同的情感分類器。在本實(shí)施例中,以評(píng)論對(duì)象為商品為例進(jìn)行說明。
獲取情感傾向已知的樣本評(píng)論語句的方法可以為:
1、獲取商品的評(píng)論語句,并通過人工分析并標(biāo)記評(píng)論語句的情感傾向,標(biāo)記類別有第一情感、第二情感和第三情感,標(biāo)記后的評(píng)論語句即為情感傾向已知的樣本評(píng)論語句;
2、通過網(wǎng)絡(luò)爬蟲工具,從電商網(wǎng)站上分別爬取情感傾向?yàn)榈谝磺楦械脑u(píng)論語句、情感傾向?yàn)榈诙楦械脑u(píng)論語句以及情感傾向?yàn)榈谌楦械脑u(píng)論語句。經(jīng)過此步驟之后,便獲得一定數(shù)量的情感傾向已知的樣本評(píng)論語句。
上述兩種方法僅作為舉例,在實(shí)際使用中,也可以通過其他方法獲取情感傾向已知的樣本評(píng)論語句,此處不做具體限定。
302、對(duì)樣本評(píng)論語句進(jìn)行分詞,得到樣本詞集合;
獲取到樣本評(píng)論語句之后,可以利用分詞工具對(duì)樣本評(píng)論語句進(jìn)行分詞。具體的,可以為:把樣本評(píng)論語句存入到分布式數(shù)據(jù)庫(kù),從并行計(jì)算框架中讀入分布式數(shù)據(jù)庫(kù)中的樣本評(píng)論語句,并利用標(biāo)準(zhǔn)的分詞工具對(duì)分布式數(shù)據(jù)庫(kù)中的樣本評(píng)論語句進(jìn)行并行化分詞,之后將每條評(píng)論語句對(duì)應(yīng)的分詞結(jié)果保存到分布式數(shù)據(jù)庫(kù)中,每條評(píng)論語句對(duì)應(yīng)的分詞結(jié)果(或者說樣本詞)組成一個(gè)樣本詞集合。
303、利用基于Word2Vec的神經(jīng)網(wǎng)絡(luò)計(jì)算樣本詞集合中的樣本詞的詞向量,得到樣本評(píng)論語句對(duì)應(yīng)的樣本詞向量集合;
在得到樣本詞集合之后,可以將樣本詞集合中的每個(gè)分詞結(jié)果,或者說樣本詞集合中的每個(gè)樣本詞轉(zhuǎn)換為數(shù)值向量。具體的,可以為:從分布式數(shù)據(jù)庫(kù)中讀入樣本評(píng)論語句對(duì)應(yīng)的樣本詞集合,在并行計(jì)算框架中調(diào)用基于神經(jīng)網(wǎng)絡(luò)的Word2Vec算法,將樣本詞集合中的樣本詞轉(zhuǎn)換為對(duì)應(yīng)的數(shù)值向量,為了將此處的數(shù)值向量與句向量區(qū)分開,可以將樣本詞對(duì)應(yīng)的數(shù)據(jù)向量稱作詞向量。將每個(gè)樣本詞集合中的所有樣本詞轉(zhuǎn)換為對(duì)應(yīng)的詞向量之后,可以將每個(gè)樣本詞集合對(duì)應(yīng)的詞向量組成樣本詞向量集合。
304、計(jì)算樣本詞向量集合的中心向量,作為樣本評(píng)論語句的句向量;
得到樣本詞向量集合之后,可以計(jì)算該樣本詞向量集合中的樣本詞向量的中心向量,并將計(jì)算得到的中心向量作為該樣本評(píng)論語句的句向量。在實(shí)際使用中,也可以計(jì)算該樣本詞向量集合的樣本詞向量的平均向量或者和向量,此處不做具體限定。
305、利用樣本評(píng)論語句的句向量與樣本評(píng)論語句的情感傾向?qū)趯W(xué)習(xí)的分類器進(jìn)行訓(xùn)練,分別得到第一情感模型、第二情感模型和第三情感模型;
在計(jì)算得到樣本評(píng)論語句的句向量之后,可以利用樣本評(píng)論語句的句向量與樣本評(píng)論語句的情感傾向?qū)趯W(xué)習(xí)的分類器進(jìn)行訓(xùn)練,分別得到第一情感模型、第二情感模型和第三情感模型,具體的步驟可以參閱圖2對(duì)應(yīng)的實(shí)施例。
306、分別利用第一情感模型、第二情感模型和第三情感模型對(duì)待測(cè)評(píng)論語句的情感傾向進(jìn)行預(yù)測(cè),得到第一概率、第二概率和第三概率;
得到第一情感模型、第二情感模型和第三情感模型之后,可以對(duì)情感傾向未知的商品評(píng)論語句的情感傾向進(jìn)行預(yù)測(cè),比如對(duì)實(shí)時(shí)從本商鋪的評(píng)論數(shù)據(jù)中獲取的新增商品評(píng)論語句進(jìn)行預(yù)測(cè),為了表述方便,將這部分評(píng)論語句稱為待測(cè)評(píng)論語句。那么,得到第一情感模型、第二情感模型和第三情感模型之后,可以分別利用第一情感模型、第二情感模型和第三情感模型對(duì)待測(cè)評(píng)論語句的情感傾向進(jìn)行預(yù)測(cè)??梢岳玫谝磺楦心P蛯?duì)待測(cè)評(píng)論語句的情感傾向進(jìn)行預(yù)測(cè),可以得到該待測(cè)評(píng)論語句的情感傾向?yàn)榈谝磺楦械母怕蕿榈谝桓怕???梢岳玫诙楦心P蛯?duì)該待測(cè)評(píng)論語句的情感傾向進(jìn)行預(yù)測(cè),可以得到該待測(cè)評(píng)論語句的情感傾向?yàn)榈诙楦械母怕蕿榈诙怕?。可以利用第三情感模型?duì)該待測(cè)評(píng)論語句的情感傾向進(jìn)行預(yù)測(cè),可以得到該待測(cè)評(píng)論語句的情感傾向?yàn)榈谌楦械母怕蕿榈谌怕省@们楦心P蛯?duì)待測(cè)評(píng)論語句進(jìn)行預(yù)測(cè)的具體過程請(qǐng)參閱圖2對(duì)應(yīng)的實(shí)施例。
307、確定第一概率、第二概率和第三概率中取值最大的概率對(duì)應(yīng)的情感模型為目標(biāo)情感模型;
分別利用第一情感模型、第二情感模型和第三情感模型計(jì)算得到第一概率、第二概率和第三概率之后,可以對(duì)三者的大小進(jìn)行比較,確定第一概率、第二概率和第三概率中取值最大的概率對(duì)應(yīng)的情感模型為目標(biāo)情感模型。假設(shè)第一概率的取值最大,那么第一概率對(duì)應(yīng)的情感模型為第一情感模型,之后可以將第一情感模型確定為目標(biāo)情感模型。
308、確定目標(biāo)情感模型對(duì)應(yīng)的情感傾向?yàn)榇郎y(cè)評(píng)論語句的情感傾向。
確定目標(biāo)情感模型之后,可以確定目標(biāo)情感模型對(duì)應(yīng)的情感傾向?yàn)榇郎y(cè)評(píng)論語句的情感傾向。在本實(shí)施例中,假設(shè)第一情感模型為目標(biāo)情感模型,那么待測(cè)評(píng)論語句的情感傾向?yàn)榈谝磺楦小?/p>
上面對(duì)本發(fā)明實(shí)施例中的評(píng)論數(shù)據(jù)的處理方法進(jìn)行了描述,下面對(duì)本發(fā)明實(shí)施例中的評(píng)論數(shù)據(jù)的處理裝置進(jìn)行描述。
請(qǐng)參閱圖4,本發(fā)明實(shí)施例中評(píng)論數(shù)據(jù)的處理裝置的一個(gè)實(shí)施例包括:
獲取模塊401,用于獲取情感傾向已知的樣本評(píng)論語句;
計(jì)算模塊402,用于計(jì)算樣本評(píng)論語句的句向量;
訓(xùn)練模塊403,用于利用樣本評(píng)論語句的句向量與樣本評(píng)論語句的情感傾向?qū)趯W(xué)習(xí)的分類器進(jìn)行訓(xùn)練,得到情感分類器;
預(yù)測(cè)模塊404,用于利用情感分類器對(duì)待測(cè)評(píng)論語句的情感傾向進(jìn)行預(yù)測(cè)。
請(qǐng)參閱圖5,本發(fā)明實(shí)施例中評(píng)論數(shù)據(jù)的處理裝置的另一個(gè)實(shí)施例包括:
獲取模塊501,用于獲取情感傾向已知的樣本評(píng)論語句。
計(jì)算模塊502,用于計(jì)算樣本評(píng)論語句的句向量,計(jì)算模塊602包括:
分詞子模塊5021,用于對(duì)樣本評(píng)論語句進(jìn)行分詞,得到樣本詞集合;
第一計(jì)算子模塊5022,用于利用基于Word2Vec的神經(jīng)網(wǎng)絡(luò)計(jì)算樣本詞集合中的樣本詞的詞向量,得到樣本評(píng)論語句對(duì)應(yīng)的樣本詞向量集合;
第二計(jì)算子模塊5023,用于計(jì)算樣本詞向量集合的中心向量,作為樣本評(píng)論語句的句向量。
訓(xùn)練模塊503,用于利用樣本評(píng)論語句的句向量與樣本評(píng)論語句的情感傾向?qū)趯W(xué)習(xí)的分類器進(jìn)行訓(xùn)練,得到第一情感模型、第二情感模型和第三情感模型;
預(yù)測(cè)模塊504,用于利用第一情感模型、第二情感模型和第三情感模型對(duì)待測(cè)評(píng)論語句的情感傾向進(jìn)行預(yù)測(cè),預(yù)測(cè)模塊604包括:
預(yù)測(cè)子模塊5041,用于分別利用第一情感模型、第二情感模型和第三情感模型對(duì)待測(cè)評(píng)論語句的情感傾向進(jìn)行預(yù)測(cè),得到第一概率、第二概率和第三概率,預(yù)測(cè)單元包括第一預(yù)測(cè)子單元;
第一確定子模塊5042,用于確定第一概率、第二概率和第三概率中取值最大的概率對(duì)應(yīng)的情感模型為目標(biāo)情感模型;
第二確定子模塊5043,用于確定目標(biāo)情感模型對(duì)應(yīng)的情感傾向?yàn)榇郎y(cè)評(píng)論語句的情感傾向。
所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡(jiǎn)潔,上述描述的系統(tǒng),裝置和單元的具體工作過程,可以參考前述方法實(shí)施例中的對(duì)應(yīng)過程,在此不再贅述。
所述的幾個(gè)實(shí)施例中,應(yīng)該理解到,所揭露的系統(tǒng),裝置和方法,可以通過其它的方式實(shí)現(xiàn)。例如,以上所描述的裝置實(shí)施例僅僅是示意性的,例如,單元的劃分,僅僅為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式,例如多個(gè)單元或組件可以結(jié)合或者可以集成到另一個(gè)系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點(diǎn),所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,裝置或單元的間接耦合或通信連接,可以是電性,機(jī)械或其它的形式。
作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上??梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部單元來實(shí)現(xiàn)本實(shí)施例方案的目的。
另外,在本發(fā)明各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理單元中,也可以是各個(gè)單元單獨(dú)物理存在,也可以兩個(gè)或兩個(gè)以上單元集成在一個(gè)單元中。上述集成的單元既可以采用硬件的形式實(shí)現(xiàn),也可以采用軟件功能單元的形式實(shí)現(xiàn)。
集成的單元如果以軟件功能單元的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時(shí),可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的全部或部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例方法的全部或部分步驟。而前述的存儲(chǔ)介質(zhì)包括:U盤、移動(dòng)硬盤、只讀存儲(chǔ)器(ROM,Read-Only Memory)、隨機(jī)存取存儲(chǔ)器(RAM,Random Access Memory)、磁碟或者光盤等各種可以存儲(chǔ)程序代碼的介質(zhì)。
以上,以上實(shí)施例僅用以說明本發(fā)明的技術(shù)方案,而非對(duì)其限制;盡管參照前述實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對(duì)前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對(duì)其中部分技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的精神和范圍。