本申請涉及文本處理領(lǐng)域,具體而言,涉及一種模型訓(xùn)練方法及裝置和語句情感識別方法及裝置。
背景技術(shù):
用戶輸入的語句中通常蘊含用戶的情感,現(xiàn)有技術(shù)中主要根據(jù)語句中的情感關(guān)鍵詞或者標點符號、表情符號等來識別語句的情感。然而,當分析的該語句中沒有出現(xiàn)情感類詞語或者機器不好識別的情感時,這種識別方式準確率比較低,比如:你不會唱歌?該句是悲傷、憤怒還是高興的情感,需要結(jié)合上下文理解,在“你不會唱歌?真沒用!”,“你不會唱歌?好可惜”,“你不會唱歌?好啊,我也不會,他們唱,我們玩?!狈謩e表示憤怒、悲傷、高興的情感。而該語句中并沒有包含有明確的情感傾向的詞語,因此,現(xiàn)有技術(shù)中無法識別出這些語句的情感。
針對上述的問題,目前尚未提出有效的解決方案。
技術(shù)實現(xiàn)要素:
本申請實施例提供了一種模型訓(xùn)練方法及裝置和語句情感識別方法及裝置,以至少解決現(xiàn)有技術(shù)中對語句中所包含的情感識別準確性低的技術(shù)問題。
根據(jù)本申請實施例的一個方面,提供了一種模型訓(xùn)練方法,其特征在于,包括:獲取帶有情感標記的文本信息,其中,所述文本信息包括按照預(yù)先定義的情感類型標記的多條語句,每條語句攜帶有與其對應(yīng)的情感標記;確定所述文本信息中每條語句對應(yīng)的語句向量,其中,所述語句向量為用于唯一表示對應(yīng)的語句的多維數(shù)組;將每條語句對應(yīng)的情感標記及其對應(yīng)的語句向量輸入到循環(huán)神經(jīng)網(wǎng)絡(luò),訓(xùn)練得到神經(jīng)網(wǎng)絡(luò)模型,其中,所述神經(jīng)網(wǎng)絡(luò)模型用于識別語句中的情感類型。
進一步地,確定所述文本信息中每條語句對應(yīng)的語句向量包括:對所述文本信息中每條語句進行分詞處理;查找每條語句分詞后的每個詞語對應(yīng)的詞向量,其中,所述詞向量為用于唯一表示對應(yīng)的詞語的多維數(shù)組;根據(jù)每條語句中每個詞語對應(yīng)的詞向量確定出相應(yīng)語句的語句向量。
進一步地,在查找每條語句分詞后的每個詞語對應(yīng)的詞向量之前,所述模型訓(xùn)練方法還包括:采集預(yù)設(shè)數(shù)據(jù)量的文本信息,得到文本信息集合;利用機器學(xué)習(xí)方式生成所述文本信息集合中每個詞語的詞向量,得到詞向量集;其中,查找每條語句分詞后的每個詞語對應(yīng)的詞向量包括:從所述詞向量集中查找出所述分詞后的每個詞語對應(yīng)的詞向量。
進一步地,根據(jù)每條語句中每個詞語對應(yīng)的詞向量確定出相應(yīng)語句的語句向量包括:對于每條語句,將其包含的所有詞語對應(yīng)的詞向量相加,得到詞向量和,其中,詞向量相加是指詞向量中相應(yīng)位置的數(shù)值加和得到的與詞向量具有相同數(shù)量維度的向量;將所述詞向量和除以詞語的個數(shù),得到所述語句向量,其中,所述詞向量和除以詞語的個數(shù)是指所述詞向量和中每個位置的數(shù)值除以詞語的個數(shù)。
根據(jù)本申請實施例的另一方面,還提供了一種語句情感識別方法,包括:確定待測文本中每條語句對應(yīng)的語句向量;將待測文本中每條語句對應(yīng)的語句向量輸入到神經(jīng)網(wǎng)絡(luò)模型中,利用所述神經(jīng)網(wǎng)絡(luò)模型識別出所述待測文本中每條語句的情感類型。
根據(jù)本申請實施例的另一方面,還提供了一種模型訓(xùn)練裝置,包括:獲取單元,用于獲取帶有情感標記的文本信息,其中,所述文本信息包括按照預(yù)先定義的情感類型標記的多條語句,每條語句攜帶有與其對應(yīng)的情感標記;確定單元,用于確定所述文本信息中每條語句對應(yīng)的語句向量,其中,所述語句向量為用于唯一表示對應(yīng)的語句的多維數(shù)組;訓(xùn)練單元,用于將每條語句對應(yīng)的情感標記及其對應(yīng)的語句向量輸入到循環(huán)神經(jīng)網(wǎng)絡(luò),訓(xùn)練得到神經(jīng)網(wǎng)絡(luò)模型,其中,所述神經(jīng)網(wǎng)絡(luò)模型用于識別語句中的情感類型。
進一步地,所述確定單元包括:分詞模塊,用于對所述文本信息中每條語句進行分詞處理;查詢模塊,用于查找每條語句分詞后的每個詞語對應(yīng)的詞向量,其中,所述詞向量為用于唯一表示對應(yīng)的詞語的多維數(shù)組;確定模塊,用于根據(jù)每條語句中每個詞語對應(yīng)的詞向量確定出相應(yīng)語句的語句向量。
進一步地,所述模型訓(xùn)練裝置還包括:采集單元,用于在查找每條語句分詞后的每個詞語對應(yīng)的詞向量之前,采集預(yù)設(shè)數(shù)據(jù)量的文本信息,得到文本信息集合;生成單元,用于利用機器學(xué)習(xí)方式生成所述文本信息集合中每個詞語的詞向量,得到詞向量集;其中,所述查詢模塊具體用于從所述詞向量集中查找出所述分詞后的每個詞語對應(yīng)的詞向量。
進一步地,所述確定模塊包括:第一計算子模塊,用于對于每條語句,將其包含的所有詞語對應(yīng)的詞向量相加,得到詞向量和,其中,詞向量相加是指詞向量中相應(yīng) 位置的數(shù)值加和得到的與詞向量具有相同數(shù)量維度的向量;第二計算子模塊,用于將所述詞向量和除以詞語的個數(shù),得到所述語句向量,其中,所述詞向量和除以詞語的個數(shù)是指所述詞向量和中每個位置的數(shù)值除以詞語的個數(shù)。
根據(jù)本申請實施例的另一方面,還提供了一種語句情感識別裝置,包括:向量確定單元,用于確定待測文本中每條語句對應(yīng)的語句向量;識別單元,用于將待測文本中每條語句對應(yīng)的語句向量輸入到神經(jīng)網(wǎng)絡(luò)模型中,利用所述神經(jīng)網(wǎng)絡(luò)模型識別出所述待測文本中每條語句的情感類型。
根據(jù)本申請實施例,獲取帶有情感標記的文本信息,其中,文本信息包括按照預(yù)先定義的情感類型標記的多條語句,每條語句攜帶有與其對應(yīng)的情感標記;確定文本信息中每條語句對應(yīng)的語句向量,其中,語句向量為用于唯一表示對應(yīng)的語句的多維數(shù)組;將每條語句對應(yīng)的情感標記及其對應(yīng)的語句向量輸入到循環(huán)神經(jīng)網(wǎng)絡(luò),訓(xùn)練得到神經(jīng)網(wǎng)絡(luò)模型,以便于利用神經(jīng)網(wǎng)絡(luò)模型來識別語句中的情感類型,解決了現(xiàn)有技術(shù)中對語句中所包含的情感識別準確性低的技術(shù)問題,達到了提高語句中情感識別準確率的效果。
附圖說明
此處所說明的附圖用來提供對本申請的進一步理解,構(gòu)成本申請的一部分,本申請的示意性實施例及其說明用于解釋本申請,并不構(gòu)成對本申請的不當限定。在附圖中:
圖1是根據(jù)本申請實施例的模型訓(xùn)練方法的流程圖;
圖2是根據(jù)本申請實施例的語句情感識別方法的流程圖;
圖3是根據(jù)本申請實施例的模型訓(xùn)練裝置的示意圖;
圖4是根據(jù)本申請實施例的語句情感識別裝置的示意圖。
具體實施方式
為了使本技術(shù)領(lǐng)域的人員更好地理解本申請方案,下面將結(jié)合本申請實施例中的附圖,對本申請實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本申請一部分的實施例,而不是全部的實施例?;诒旧暾堉械膶嵤├绢I(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都應(yīng)當屬于本申請保護的范圍。
需要說明的是,本申請的說明書和權(quán)利要求書及上述附圖中的術(shù)語“第一”、“第二”等是用于區(qū)別類似的對象,而不必用于描述特定的順序或先后次序。應(yīng)該理解這樣使用的數(shù)據(jù)在適當情況下可以互換,以便這里描述的本申請的實施例能夠以除了在這里圖示或描述的那些以外的順序?qū)嵤?。此外,術(shù)語“包括”和“具有”以及他們的任何變形,意圖在于覆蓋不排他的包含,例如,包含了一系列步驟或單元的過程、方法、系統(tǒng)、產(chǎn)品或設(shè)備不必限于清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或?qū)τ谶@些過程、方法、產(chǎn)品或設(shè)備固有的其它步驟或單元。
根據(jù)本申請實施例,提供了一種模型訓(xùn)練方法的方法實施例,需要說明的是,在附圖的流程圖示出的步驟可以在諸如一組計算機可執(zhí)行指令的計算機系統(tǒng)中執(zhí)行,并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。
圖1是根據(jù)本申請實施例的模型訓(xùn)練方法的流程圖,如圖1所示,該方法包括如下步驟:
步驟S102,獲取帶有情感標記的文本信息,其中,文本信息包括按照預(yù)先定義的情感類型標記的多條語句,每條語句攜帶有與其對應(yīng)的情感標記。
本申請實施例的帶有情感標記的文本信息,可以是預(yù)先采集的文本信息的樣本,通過人工對其中每條語句的情感進行標記,形成的文本信息。其中,語句的情感類別可以根據(jù)需要進行設(shè)置,情感分類可以為自定義的標準分類,如語句情感若分為三種:正面、中立、負面,則分別用1,0,-1進行標記對應(yīng)情感,或者分為五種:快樂、悲傷、憤怒、恐懼和厭惡等。
步驟S104,確定文本信息中每條語句對應(yīng)的語句向量,其中,語句向量為用于唯一表示對應(yīng)的語句的多維數(shù)組。
在獲取到帶有情感標記的文本信息之后,確定出該文本中每條語句對應(yīng)的語句向量,每條語句對應(yīng)的語句向量可以是按照預(yù)先定義的規(guī)則生成的語句向量,不同語句對應(yīng)的語句向量各不相同。由于文本信息中每條語句攜帶有與其對應(yīng)的情感標記,因此,每條語句對應(yīng)的語句向量也對應(yīng)著與該語句相同的情感標記。
步驟S106,將每條語句對應(yīng)的情感標記及其對應(yīng)的語句向量輸入到循環(huán)神經(jīng)網(wǎng)絡(luò),訓(xùn)練得到神經(jīng)網(wǎng)絡(luò)模型,其中,神經(jīng)網(wǎng)絡(luò)模型用于識別語句中的情感類型。
本實施例中,在確定出文本信息每條語句對應(yīng)的語句向量之后,將攜帶有情感標記的語句向量依次輸入到循環(huán)神經(jīng)網(wǎng)絡(luò)中進行訓(xùn)練得到神經(jīng)網(wǎng)絡(luò)模型。
通過將文本中的語句對應(yīng)的語句向量輸入到循環(huán)神經(jīng)網(wǎng)絡(luò),機器可以記憶語句中的詞語及其組合及其對應(yīng)的情感標記,并以神經(jīng)網(wǎng)絡(luò)模型中的參數(shù)(神經(jīng)網(wǎng)絡(luò)模型中參數(shù)確定,大部分為矩陣)記憶這些詞語及其組合及其對應(yīng)的情感標記。
當使用該神經(jīng)網(wǎng)絡(luò)模型進行語句的情感識別時,能夠根據(jù)語句的上下文來有效、快速地識別出文本中語句的情感類型,相對于現(xiàn)有技術(shù)中通過情感關(guān)鍵詞等來識別語句情感的方式,本實施例通過神經(jīng)網(wǎng)絡(luò)模型對語句情感識別的準確率大大提高。
根據(jù)本申請實施例,獲取帶有情感標記的文本信息,其中,文本信息包括按照預(yù)先定義的情感類型標記的多條語句,每條語句攜帶有與其對應(yīng)的情感標記;確定文本信息中每條語句對應(yīng)的語句向量,其中,語句向量為用于唯一表示對應(yīng)的語句的多維數(shù)組;將每條語句對應(yīng)的情感標記及其對應(yīng)的語句向量輸入到循環(huán)神經(jīng)網(wǎng)絡(luò),訓(xùn)練得到神經(jīng)網(wǎng)絡(luò)模型,以便于利用神經(jīng)網(wǎng)絡(luò)模型來識別語句中的情感類型,解決了現(xiàn)有技術(shù)中對語句中所包含的情感識別準確性低的技術(shù)問題,達到了提高語句中情感識別準確率的效果。
優(yōu)選地,確定文本信息中每條語句對應(yīng)的語句向量包括:對文本信息中每條語句進行分詞處理;查找每條語句分詞后的每個詞語對應(yīng)的詞向量,其中,詞向量為用于唯一表示對應(yīng)的詞語的多維數(shù)組;根據(jù)每條語句中每個詞語對應(yīng)的詞向量確定出相應(yīng)語句的語句向量。
本實施例中,對于語句向量的確定,可以是將每條語句進行分詞處理,然后查詢每條語句中每個詞語對應(yīng)的詞向量。其中,分詞結(jié)果為按照原有語句將詞進行順序排列,包括標點符號例如,將“你不會唱歌?”分詞為“你不會唱歌?”,或者為“你不會唱歌?”。其中,每個詞語的詞向量可以從預(yù)先生成的詞向量集中查詢每個詞語對應(yīng)的詞向量,也可以利用預(yù)先生成的規(guī)則生成每個詞語對應(yīng)的詞向量。
根據(jù)語句中的詞語對應(yīng)的詞向量生成該語句對應(yīng)的語句向量可以是把該語句中每個詞對應(yīng)的詞向量相加得到該語句對應(yīng)的語句向量,即將每個詞向量相應(yīng)位置上的數(shù)值相加得到的值作為語句向量該相應(yīng)位置上的數(shù)值;或者,把該語句中每個詞對應(yīng)的詞向量相加之后除以詞向量個數(shù),即將每個詞向量相應(yīng)位置上的數(shù)值相加再除以詞向量個數(shù),得到的值作為語句向量該相應(yīng)位置上的數(shù)值。
進一步地,在查找每條語句分詞后的每個詞語對應(yīng)的詞向量之前,模型訓(xùn)練方法還包括:采集預(yù)設(shè)數(shù)據(jù)量的文本信息,得到文本信息集合;利用機器學(xué)習(xí)方式生成文本信息集合中每個詞語的詞向量,得到詞向量集;其中,查找每條語句分詞后的每個 詞語對應(yīng)的詞向量包括:從詞向量集中查找出分詞后的每個詞語對應(yīng)的詞向量。
本實施例中,采集大量文本信息,作為訓(xùn)練文本集,利用機器學(xué)習(xí)方法生成詞向量,得到每個業(yè)務(wù)類型相關(guān)文本的詞向量集。其中,用機器學(xué)習(xí)方法生成詞向量,可以是利用谷歌word2vec進行詞向量訓(xùn)練等方法得到。
通過預(yù)先生成的詞向量集,以便于在根據(jù)詞向量生成語句向量時,可以直接從詞向量集中查詢相應(yīng)詞語的詞向量,從而提高語句向量的確定的效率。
進一步地,根據(jù)每條語句中每個詞語對應(yīng)的詞向量確定出相應(yīng)語句的語句向量包括:對于每條語句,將其包含的所有詞語對應(yīng)的詞向量相加,得到詞向量和,其中,詞向量相加是指詞向量中相應(yīng)位置的數(shù)值加和得到的與詞向量具有相同數(shù)量維度的向量;將詞向量和除以詞語的個數(shù),得到語句向量,其中,詞向量和除以詞語的個數(shù)是指詞向量和中每個位置的數(shù)值除以詞語的個數(shù)。
本實施例中,把該語句中每個詞對應(yīng)的詞向量相加之后除以詞向量個數(shù),即將每個詞向量相應(yīng)位置上的數(shù)值相加再除以詞向量個數(shù),得到的值作為語句向量該相應(yīng)位置上的數(shù)值。
例如,對于“你不會唱歌?”的語句向量,將其進行分詞,得到“你不會唱歌?”,假設(shè)其中“你”對應(yīng)的詞向量為[1,0,0,0,0,……],“不會”對應(yīng)的詞向量為[0,1,0,0,0,……],“唱歌”對應(yīng)的詞向量為[0,0,1,0,0,……],“?”對應(yīng)的詞向量為[0,0,0,0,1,……],那么計算得到的該語句對應(yīng)的語句向量為[0.25,0.25,0.25,0,0.25,……]。
本申請實施例的模型訓(xùn)練方法的一種可選方式包括:
步驟一、采集大量的文本信息,作為訓(xùn)練文本集。
步驟二、對上述訓(xùn)練文本集進行分詞,利用機器學(xué)習(xí)方法生成文本中每個詞的詞向量,得到詞向量集。其中,用機器學(xué)習(xí)方法生成的詞向量可以是利用谷歌word2vec進行詞向量訓(xùn)練等方法得到。
步驟三、采集新的文本信息,并對該文本信息進行分詞,并對文本信息中每條語句的情感分類進行人工標注,作為語句情感訓(xùn)練集。其中,情感分類可以為自定義的標準分類,如語句情感若分為三種:正面、中立、負面,則分別用1,0,-1進行標記對應(yīng)情感,或者分為五種:快樂、悲傷、憤怒、恐懼和厭惡。
步驟四、根據(jù)上述詞向量集得到語句情感訓(xùn)練集中每條語句對應(yīng)的帶有情感標注 的語句向量,作為語句向量訓(xùn)練集。其中,語句向量的計算方法可以為:把句中每個詞對應(yīng)的詞向量相加除以詞向量個數(shù)。
步驟五、用RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))模型對步驟四中得到的語句向量訓(xùn)練集進行訓(xùn)練,得到RNN訓(xùn)練模型。其中,以語句向量為RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))初始模型的輸入內(nèi)容,機器可以記憶語句中詞語及其組合形式、語句的情感標注,并以模型中的參數(shù)記憶這些組合。
本申請實施例中,將語句與情感用數(shù)據(jù)表示后,并進行機器學(xué)習(xí),能有效快速地基于上下文語義,識別文本語句的情感類型,解決了現(xiàn)有技術(shù)中根據(jù)語句的語義識別語句情感分類準確性低的問題,達到了提高語句情感分類準確性的效果。
根據(jù)本申請實施例還提供了一種語句情感識別方法,該語句情感識別方法可以用于通過本申請上述實施例的模型訓(xùn)練方法訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)模型來識別待測語句的業(yè)務(wù)類型。如圖2所示,該語句情感識別方法包括:
步驟S202,確定待測文本中每條語句對應(yīng)的語句向量。
對于待測語句對應(yīng)的語句向量的確定,可以參照本申請上述實施例中關(guān)于采集的帶有情感標記的文本信息中的語句對應(yīng)的語句向量的確定方式,這里不做贅述。
步驟S204,將待測文本中每條語句對應(yīng)的語句向量輸入到神經(jīng)網(wǎng)絡(luò)模型中,利用神經(jīng)網(wǎng)絡(luò)模型識別出待測文本中每條語句的情感類型。
本申請實施例的神經(jīng)網(wǎng)絡(luò)模型為本申請上述實施例的模型訓(xùn)練方法訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)模型。將待測文本的語句向量,輸入RNN訓(xùn)練模型,可以得到每個語句的情感類型,如標記為1表示正面,標記為0表示中立,標記為-1表示負面,標記取決于對情感類型的標記的定義方式。
由于通過將文本中的語句對應(yīng)的語句向量輸入到循環(huán)神經(jīng)網(wǎng)絡(luò),機器可以記憶語句中的詞語及其組合及其對應(yīng)的情感標記,并以神經(jīng)網(wǎng)絡(luò)模型中的參數(shù)(神經(jīng)網(wǎng)絡(luò)模型中參數(shù)確定,大部分為矩陣)記憶這些詞語及其組合及其對應(yīng)的情感標記,因此,當使用該神經(jīng)網(wǎng)絡(luò)模型進行語句的情感識別時,能夠根據(jù)語句的上下文來,有效、快速地識別出文本中語句的情感類型,相對于現(xiàn)有技術(shù)中通過情感關(guān)鍵詞等來識別語句情感的方式,本實施例通過神經(jīng)網(wǎng)絡(luò)模型對語句情感識別的準確率大大提高。
本申請實施例還提供了一種模型訓(xùn)練裝置,該裝置可以用于執(zhí)行本申請實施例的模型訓(xùn)練方法,如圖3所示,該裝置包括:獲取單元301、確定單元303和訓(xùn)練單元305。
獲取單元301用于獲取帶有情感標記的文本信息,其中,文本信息包括按照預(yù)先定義的情感類型標記的多條語句,每條語句攜帶有與其對應(yīng)的情感標記。
本申請實施例的帶有情感標記的文本信息,可以是預(yù)先采集的文本信息的樣本,通過人工對其中每條語句的情感進行標記,形成的文本信息。其中,語句的情感類別可以根據(jù)需要進行設(shè)置,情感分類可以為自定義的標準分類,如語句情感若分為三種:正面、中立、負面,則分別用1,0,-1進行標記對應(yīng)情感,或者分為五種:快樂、悲傷、憤怒、恐懼和厭惡等。
確定單元303用于確定文本信息中每條語句對應(yīng)的語句向量,其中,語句向量為用于唯一表示對應(yīng)的語句的多維數(shù)組。
在獲取到帶有情感標記的文本信息之后,確定出該文本中每條語句對應(yīng)的語句向量,每條語句對應(yīng)的語句向量可以是按照預(yù)先定義的規(guī)則生成的語句向量,不同語句對應(yīng)的語句向量各不相同。由于文本信息中每條語句攜帶有與其對應(yīng)的情感標記,因此,每條語句對應(yīng)的語句向量也對應(yīng)著與該語句相同的情感標記。
訓(xùn)練單元305用于將每條語句對應(yīng)的情感標記及其對應(yīng)的語句向量輸入到循環(huán)神經(jīng)網(wǎng)絡(luò),訓(xùn)練得到神經(jīng)網(wǎng)絡(luò)模型,其中,神經(jīng)網(wǎng)絡(luò)模型用于識別語句中的情感類型。
本實施例中,在確定出文本信息每條語句對應(yīng)的語句向量之后,將攜帶有情感標記的語句向量依次輸入到循環(huán)神經(jīng)網(wǎng)絡(luò)中進行訓(xùn)練得到神經(jīng)網(wǎng)絡(luò)模型。
通過將文本中的語句對應(yīng)的語句向量輸入到循環(huán)神經(jīng)網(wǎng)絡(luò),機器可以記憶語句中的詞語及其組合及其對應(yīng)的情感標記,并以神經(jīng)網(wǎng)絡(luò)模型中的參數(shù)(神經(jīng)網(wǎng)絡(luò)模型中參數(shù)確定,大部分為矩陣)記憶這些詞語及其組合及其對應(yīng)的情感標記。
當使用該神經(jīng)網(wǎng)絡(luò)模型進行語句的情感識別時,能夠根據(jù)語句的上下文來有效、快速地識別出文本中語句的情感類型,相對于現(xiàn)有技術(shù)中通過情感關(guān)鍵詞等來識別語句情感的方式,本實施例通過神經(jīng)網(wǎng)絡(luò)模型對語句情感識別的準確率大大提高。
根據(jù)本申請實施例,獲取帶有情感標記的文本信息,其中,文本信息包括按照預(yù)先定義的情感類型標記的多條語句,每條語句攜帶有與其對應(yīng)的情感標記;確定文本信息中每條語句對應(yīng)的語句向量,其中,語句向量為用于唯一表示對應(yīng)的語句的多維數(shù)組;將每條語句對應(yīng)的情感標記及其對應(yīng)的語句向量輸入到循環(huán)神經(jīng)網(wǎng)絡(luò),訓(xùn)練得到神經(jīng)網(wǎng)絡(luò)模型,以便于利用神經(jīng)網(wǎng)絡(luò)模型來識別語句中的情感類型,解決了現(xiàn)有技術(shù)中對語句中所包含的情感識別準確性低的技術(shù)問題,達到了提高語句中情感識別準確率的效果。
優(yōu)選地,確定單元包括:分詞模塊,用于對文本信息中每條語句進行分詞處理;查詢模塊,用于查找每條語句分詞后的每個詞語對應(yīng)的詞向量,其中,詞向量為用于唯一表示對應(yīng)的詞語的多維數(shù)組;確定模塊,用于根據(jù)每條語句中每個詞語對應(yīng)的詞向量確定出相應(yīng)語句的語句向量。
本實施例中,對于語句向量的確定,可以是將每條語句進行分詞處理,然后查詢每條語句中每個詞語對應(yīng)的詞向量。其中,分詞結(jié)果為按照原有語句將詞進行順序排列,包括標點符號例如,將“你不會唱歌?”分詞為“你不會唱歌?”,或者為“你不會唱歌?”。其中,每個詞語的詞向量可以從預(yù)先生成的詞向量集中查詢每個詞語對應(yīng)的詞向量,也可以利用預(yù)先生成的規(guī)則生成每個詞語對應(yīng)的詞向量。
根據(jù)語句中的詞語對應(yīng)的詞向量生成該語句對應(yīng)的語句向量可以是把該語句中每個詞對應(yīng)的詞向量相加得到該語句對應(yīng)的語句向量,即將每個詞向量相應(yīng)位置上的數(shù)值相加得到的值作為語句向量該相應(yīng)位置上的數(shù)值;或者,把該語句中每個詞對應(yīng)的詞向量相加之后除以詞向量個數(shù),即將每個詞向量相應(yīng)位置上的數(shù)值相加再除以詞向量個數(shù),得到的值作為語句向量該相應(yīng)位置上的數(shù)值。
進一步地,模型訓(xùn)練裝置還包括:采集單元,用于在查找每條語句分詞后的每個詞語對應(yīng)的詞向量之前,采集預(yù)設(shè)數(shù)據(jù)量的文本信息,得到文本信息集合;生成單元,用于利用機器學(xué)習(xí)方式生成文本信息集合中每個詞語的詞向量,得到詞向量集;其中,查詢模塊具體用于從詞向量集中查找出分詞后的每個詞語對應(yīng)的詞向量。
本實施例中,采集大量文本信息,作為訓(xùn)練文本集,利用機器學(xué)習(xí)方法生成詞向量,得到每個業(yè)務(wù)類型相關(guān)文本的詞向量集。其中,用機器學(xué)習(xí)方法生成詞向量,可以是利用谷歌word2vec進行詞向量訓(xùn)練等方法得到。
通過預(yù)先生成的詞向量集,以便于在根據(jù)詞向量生成語句向量時,可以直接從詞向量集中查詢相應(yīng)詞語的詞向量,從而提高語句向量的確定的效率。
進一步地,確定模塊包括:第一計算子模塊,用于對于每條語句,將其包含的所有詞語對應(yīng)的詞向量相加,得到詞向量和,其中,詞向量相加是指詞向量中相應(yīng)位置的數(shù)值加和得到的與詞向量具有相同數(shù)量維度的向量;第二計算子模塊,用于將詞向量和除以詞語的個數(shù),得到語句向量,其中,詞向量和除以詞語的個數(shù)是指詞向量和中每個位置的數(shù)值除以詞語的個數(shù)。
本實施例中,把該語句中每個詞對應(yīng)的詞向量相加之后除以詞向量個數(shù),即將每個詞向量相應(yīng)位置上的數(shù)值相加再除以詞向量個數(shù),得到的值作為語句向量該相應(yīng)位 置上的數(shù)值。
例如,對于“你不會唱歌?”的語句向量,將其進行分詞,得到“你不會唱歌?”,假設(shè)其中“你”對應(yīng)的詞向量為[1,0,0,0,0,……],“不會”對應(yīng)的詞向量為[0,1,0,0,0,……],“唱歌”對應(yīng)的詞向量為[0,0,1,0,0,……],“?”對應(yīng)的詞向量為[0,0,0,0,1,……],那么計算得到的該語句對應(yīng)的語句向量為[0.25,0.25,0.25,0,0.25,……]。
所述模型訓(xùn)練裝置包括處理器和存儲器,上述獲取單元301、確定單元303和訓(xùn)練單元305等均作為程序單元存儲在存儲器中,由處理器執(zhí)行存儲在存儲器中的上述程序單元。
處理器中包含內(nèi)核,由內(nèi)核去存儲器中調(diào)取相應(yīng)的程序單元。內(nèi)核可以設(shè)置一個或以上,通過調(diào)整內(nèi)核參數(shù)來訓(xùn)練得到神經(jīng)網(wǎng)絡(luò)模型。
存儲器可能包括計算機可讀介質(zhì)中的非永久性存儲器,隨機存取存儲器(RAM)和/或非易失性內(nèi)存等形式,如只讀存儲器(ROM)或閃存(flash RAM),存儲器包括至少一個存儲芯片。
本申請還提供了一種計算機程序產(chǎn)品的實施例,當在數(shù)據(jù)處理設(shè)備上執(zhí)行時,適于執(zhí)行初始化有如下方法步驟的程序代碼:獲取帶有情感標記的文本信息,其中,文本信息包括按照預(yù)先定義的情感類型標記的多條語句,每條語句攜帶有與其對應(yīng)的情感標記;確定文本信息中每條語句對應(yīng)的語句向量,其中,語句向量為用于唯一表示對應(yīng)的語句的多維數(shù)組;將每條語句對應(yīng)的情感標記及其對應(yīng)的語句向量輸入到循環(huán)神經(jīng)網(wǎng)絡(luò),訓(xùn)練得到神經(jīng)網(wǎng)絡(luò)模型,其中,神經(jīng)網(wǎng)絡(luò)模型用于識別語句中的情感類型。
根據(jù)本申請實施例還提供了一種語句情感識別裝置,該錯別字識別裝置可以用于執(zhí)行本申請實施例提供的語句情感識別方法。如圖4所示,該語句情感識別裝置包括:向量確定單元401和識別單元403。
向量確定單元401用于確定待測文本中每條語句對應(yīng)的語句向量。
對于待測語句對應(yīng)的語句向量的確定,可以參照本申請上述實施例中關(guān)于采集的帶有情感標記的文本信息中的語句對應(yīng)的語句向量的確定方式,這里不做贅述。
識別單元403用于將待測文本中每條語句對應(yīng)的語句向量輸入到神經(jīng)網(wǎng)絡(luò)模型中,利用神經(jīng)網(wǎng)絡(luò)模型識別出待測文本中每條語句的情感類型。
本申請實施例的神經(jīng)網(wǎng)絡(luò)模型為本申請上述實施例的模型訓(xùn)練方法訓(xùn)練得到的神 經(jīng)網(wǎng)絡(luò)模型。將待測文本的語句向量,輸入RNN訓(xùn)練模型,可以得到每個語句的情感類型,如標記為1表示正面,標記為0表示中立,標記為-1表示負面,標記取決于對情感類型的標記的定義方式。
由于通過將文本中的語句對應(yīng)的語句向量輸入到循環(huán)神經(jīng)網(wǎng)絡(luò),機器可以記憶語句中的詞語及其組合及其對應(yīng)的情感標記,并以神經(jīng)網(wǎng)絡(luò)模型中的參數(shù)(神經(jīng)網(wǎng)絡(luò)模型中參數(shù)確定,大部分為矩陣)記憶這些詞語及其組合及其對應(yīng)的情感標記,因此,當使用該神經(jīng)網(wǎng)絡(luò)模型進行語句的情感識別時,能夠根據(jù)語句的上下文來,有效、快速地識別出文本中語句的情感類型,相對于現(xiàn)有技術(shù)中通過情感關(guān)鍵詞等來識別語句情感的方式,本實施例通過神經(jīng)網(wǎng)絡(luò)模型對語句情感識別的準確率大大提高。
所述語句情感識別裝置包括處理器和存儲器,上述向量確定單元401和識別單元403等均作為程序單元存儲在存儲器中,由處理器執(zhí)行存儲在存儲器中的上述程序單元。
處理器中包含內(nèi)核,由內(nèi)核去存儲器中調(diào)取相應(yīng)的程序單元。內(nèi)核可以設(shè)置一個或以上,通過調(diào)整內(nèi)核參數(shù)來識別待測文本中語句的情感類型。
存儲器可能包括計算機可讀介質(zhì)中的非永久性存儲器,隨機存取存儲器(RAM)和/或非易失性內(nèi)存等形式,如只讀存儲器(ROM)或閃存(flash RAM),存儲器包括至少一個存儲芯片。
本申請還提供了一種計算機程序產(chǎn)品的實施例,當在數(shù)據(jù)處理設(shè)備上執(zhí)行時,適于執(zhí)行初始化有如下方法步驟的程序代碼:確定待測文本中每條語句對應(yīng)的語句向量;將待測文本中每條語句對應(yīng)的語句向量輸入到神經(jīng)網(wǎng)絡(luò)模型中,利用神經(jīng)網(wǎng)絡(luò)模型識別出待測文本中每條語句的情感類型。
上述本申請實施例序號僅僅為了描述,不代表實施例的優(yōu)劣。
在本申請的上述實施例中,對各個實施例的描述都各有側(cè)重,某個實施例中沒有詳述的部分,可以參見其他實施例的相關(guān)描述。
在本申請所提供的幾個實施例中,應(yīng)該理解到,所揭露的技術(shù)內(nèi)容,可通過其它的方式實現(xiàn)。其中,以上所描述的裝置實施例僅僅是示意性的,例如所述單元的劃分,可以為一種邏輯功能劃分,實際實現(xiàn)時可以有另外的劃分方式,例如多個單元或組件可以結(jié)合或者可以集成到另一個系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,單元或模塊的間接耦合或通信連接,可以是電性或其它的形式。
所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個單元上??梢愿鶕?jù)實際的需要選擇其中的部分或者全部單元來實現(xiàn)本實施例方案的目的。
另外,在本申請各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以采用硬件的形式實現(xiàn),也可以采用軟件功能單元的形式實現(xiàn)。
所述集成的單元如果以軟件功能單元的形式實現(xiàn)并作為獨立的產(chǎn)品銷售或使用時,可以存儲在一個計算機可讀取存儲介質(zhì)中?;谶@樣的理解,本申請的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻的部分或者該技術(shù)方案的全部或部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品存儲在一個存儲介質(zhì)中,包括若干指令用以使得一臺計算機設(shè)備(可為個人計算機、服務(wù)器或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本申請各個實施例所述方法的全部或部分步驟。而前述的存儲介質(zhì)包括:U盤、只讀存儲器(ROM,Read-Only Memory)、隨機存取存儲器(RAM,Random Access Memory)、移動硬盤、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。
以上所述僅是本申請的優(yōu)選實施方式,應(yīng)當指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本申請原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也應(yīng)視為本申請的保護范圍。