本申請涉及自然語言理解及語音信號處理技術(shù)領(lǐng)域,尤其涉及一種語音數(shù)據(jù)情感檢測方法和裝置及系統(tǒng)。
背景技術(shù):
隨著呼叫中心業(yè)務(wù)的不斷發(fā)展,客服服務(wù)總量越來越大,客戶對服務(wù)的質(zhì)量要求也越來越高;對于呼叫中心來說,服務(wù)質(zhì)量是呼叫中心的生存之本;尤其是在客戶帶著情緒或疑問撥入熱線時,客服人員很難在第一時間了解客戶的真實想法和需求,無法做出準(zhǔn)確的應(yīng)答,進而容易放大客戶的不滿情緒,客服在這種情況下也容易出現(xiàn)帶有情緒的表達;因此,為了提高服務(wù)質(zhì)量,呼叫中心一般會對客服與客戶的通話進行監(jiān)測,同時對客服的語音數(shù)據(jù)進行情感檢測,當(dāng)客服出現(xiàn)不滿情緒時,給出提示,方便客服及時調(diào)整自己的情緒。
相關(guān)技術(shù)中,語音數(shù)據(jù)情感檢測方法一般通過對語音信號進行分析的方法進行情感檢測,具體檢測時,首先接收待檢測語音數(shù)據(jù);然后對所述待檢測語音數(shù)據(jù)進行信號分析,如分析待檢測語音數(shù)據(jù)音量、語速、能量、基頻、聲調(diào)等時域特征,設(shè)定相應(yīng)閾值,判斷待檢測語音數(shù)據(jù)的情感類型。
所述方法僅僅對語音數(shù)據(jù)進行聲學(xué)上的分析,由于一些帶有情感色彩的詞語往往在聲學(xué)上沒有明顯的異常,僅僅通過分析語音信號無法檢測出語音數(shù)據(jù)所屬情感,從而導(dǎo)致語音數(shù)據(jù)的情感類型的檢測準(zhǔn)確度較低。
技術(shù)實現(xiàn)要素:
本申請旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。
為此,本申請的一個目的在于提出一種語音數(shù)據(jù)情感檢測方法,該方法可以提高語音數(shù)據(jù)的情感類型的檢測準(zhǔn)確度。
本申請的另一個目的在于提出一種語音數(shù)據(jù)情感檢測裝置。
本申請的另一個目的在于提出一種語音數(shù)據(jù)情感檢測系統(tǒng)。
為達到上述目的,本申請第一方面實施例提出的語音數(shù)據(jù)情感檢測方法,包括:接收待檢測語音數(shù)據(jù);獲取所述待檢測語音數(shù)據(jù)的情感檢測特征和歷史狀態(tài)特征,所述情感檢測特征包括:聲學(xué)情感檢測特征和語義情感檢測特征;根據(jù)預(yù)先構(gòu)建的情感檢測模型、所述情感檢測特征和所述歷史狀態(tài)特征,識別所述待檢測語音數(shù)據(jù)的情感類型,所述情感檢測模型根據(jù)獲取的語音數(shù)據(jù)樣本的情感檢測特征和歷史狀態(tài)特征構(gòu)建得到。
本申請第一方面實施例提出的語音數(shù)據(jù)情感檢測方法,通過依據(jù)情感檢測模型以及聲學(xué)上和語義上的特征進行識別,可以提高語音數(shù)據(jù)的情感檢測的準(zhǔn)確度。
為達到上述目的,本申請第二方面實施例提出的語音數(shù)據(jù)情感檢測裝置,包括:接收模塊,用于接收待檢測語音數(shù)據(jù);獲取模塊,用于獲取所述待檢測語音數(shù)據(jù)的情感檢測特征和歷史狀態(tài)特征,所述情感檢測特征包括:聲學(xué)情感檢測特征和語義情感檢測特征;識別模塊,用于根據(jù)預(yù)先構(gòu)建的情感檢測模型、所述情感檢測特征和所述歷史狀態(tài)特征,識別所述待檢測語音數(shù)據(jù)的情感類型,所述情感檢測模型根據(jù)獲取的語音數(shù)據(jù)樣本的情感檢測特征和歷史狀態(tài)特征構(gòu)建得到。
本申請第二方面實施例提出的語音數(shù)據(jù)情感檢測裝置,通過依據(jù)情感檢測模型以及聲學(xué)上和語義上的特征進行識別,可以提高語音數(shù)據(jù)的情感檢測的準(zhǔn)確度。
為達到上述目的,本申請第三方面實施例提出的語音數(shù)據(jù)情感檢測系統(tǒng),包括:客戶端,用于采集說話人說出的待檢測語音數(shù)據(jù);服務(wù)端,用于接收所述客戶端發(fā)送的所述待檢測語音數(shù)據(jù);獲取所述待檢測語音數(shù)據(jù)的情感檢測特征和歷史狀態(tài)特征,所述情感檢測特征包括:聲學(xué)情感檢測特征和語義情感檢測特征;以及,根據(jù)預(yù)先構(gòu)建的情感檢測模型、所述情感檢測特征和所述歷史狀態(tài)特征,識別所述待檢測語音數(shù)據(jù)的情感類型,所述情感檢測模型根據(jù)獲取的語音數(shù)據(jù)樣本的情感檢測特征和歷史狀態(tài)特征構(gòu)建得到。
本申請第三方面實施例提出的語音數(shù)據(jù)情感檢測系統(tǒng),通過依據(jù)情感檢測模型以及聲學(xué)上和語義上的特征進行識別,可以提高語音數(shù)據(jù)的情感檢測的準(zhǔn)確度。
本申請附加的方面和優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本申請的實踐了解到。
附圖說明
本申請上述的和/或附加的方面和優(yōu)點從下面結(jié)合附圖對實施例的描述中將變得明顯和容易理解,其中:
圖1是本申請一個實施例提出的語音數(shù)據(jù)情感檢測方法的流程示意圖;
圖2是本申請另一個實施例提出的語音數(shù)據(jù)情感檢測方法的流程示意圖;
圖3是本申請另一個實施例提出的語音數(shù)據(jù)情感檢測方法的流程示意圖;
圖4是本申請實施例中獲取情感檢測特征的方法的流程示意圖;
圖5是本申請一個實施例提出的語音數(shù)據(jù)情感檢測裝置的結(jié)構(gòu)示意圖;
圖6是本申請另一個實施例提出的語音數(shù)據(jù)情感檢測裝置的結(jié)構(gòu)示意圖;
圖7是本申請一個實施例提出的語音數(shù)據(jù)情感檢測系統(tǒng)的結(jié)構(gòu)示意圖。
具體實施方式
下面詳細描述本申請的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號表示相同或類似的模塊或具有相同或類似功能的模塊。下面通過參考附圖描述的實施例是示例性的,僅用于解釋本申請,而不能理解為對本申請的限制。相反,本申請的實施例包括落入所附加權(quán)利要求書的精神和內(nèi)涵范圍內(nèi)的所有變化、修改和等同物。
圖1是本申請一個實施例提出的語音數(shù)據(jù)情感檢測方法的流程示意圖。
如圖1所示,本實施例的方法包括:
S11:接收待檢測語音數(shù)據(jù)。
待檢測語音數(shù)據(jù)例如為客服與客戶通話時的客服語音數(shù)據(jù)。當(dāng)然,所述待檢測語音數(shù)據(jù)也可以為其它語音數(shù)據(jù),如客戶語音數(shù)據(jù)、采訪時采訪人的語音數(shù)據(jù)、會議時主持人的語音數(shù)據(jù)等,具體可以根據(jù)應(yīng)用需求確定。
待檢測語音數(shù)據(jù)可以以句為單位,從而可以對應(yīng)每句語音數(shù)據(jù)進行情感檢測,得到每句語音數(shù)據(jù)的情感類型,以便根據(jù)檢測得到的情感類型及時通知客服注意自己的情緒,如說話用詞或說話語氣等。
以句為單位的待檢測語音數(shù)據(jù)可以為單句語音數(shù)據(jù),或者,也可以為多句連續(xù)語音數(shù)據(jù)中的每一句。
S12:獲取所述待檢測語音數(shù)據(jù)的情感檢測特征和歷史狀態(tài)特征,所述情感檢測特征包括:聲學(xué)情感檢測特征和語義情感檢測特征。
聲學(xué)情感檢測特征是指語音數(shù)據(jù)的聲學(xué)上的特征,語義情感檢測特征是指語音數(shù)據(jù)的語義上的特征。
在后續(xù)內(nèi)容中,還會涉及獲取樣本的情感檢測特征的步驟,因此,此處的語音數(shù)據(jù)以及后續(xù)的樣本可以統(tǒng)稱為待提取語音數(shù)據(jù)。具體的獲取待提取語音數(shù)據(jù)的情感檢測特征的方法可以參見后續(xù)內(nèi)容。
以句為單位對語音數(shù)據(jù)情感進行檢測時,當(dāng)前句的語音數(shù)據(jù)的歷史狀態(tài)特征是指當(dāng)前句所屬的一段語音數(shù)據(jù)中,當(dāng)前句之前的每句語音數(shù)據(jù)的情感類型,當(dāng)待檢測語音數(shù)據(jù)為單句語音數(shù)據(jù)或多句連續(xù)語音數(shù)據(jù)的首句時,歷史狀態(tài)特征為0;當(dāng)待檢測語音數(shù)據(jù)為多句連續(xù)語音數(shù)據(jù)的非首句時,則待檢測語音數(shù)據(jù)的歷史狀態(tài)特征為連續(xù)語音數(shù)據(jù)中當(dāng)前句之前每句待檢測語音數(shù)據(jù)的情感類型。
S13:根據(jù)預(yù)先構(gòu)建的情感檢測模型、所述情感檢測特征和所述歷史狀態(tài)特征,識別所述待檢測語音數(shù)據(jù)的情感類型,所述情感檢測模型根據(jù)獲取的語音數(shù)據(jù)樣本的情感檢測特征和歷史狀態(tài)特征構(gòu)建得到。
具體構(gòu)建情感檢測模型的方法可以參見后續(xù)描述。
情感檢測模型的輸入為情感檢測特征和歷史狀態(tài)特征,輸出為情感類型信息,從而在獲取到待檢測語音數(shù)據(jù)的情感檢測特征和歷史狀態(tài)特征后,將獲取的情感檢測特征和歷史狀態(tài)特征作為情感檢測模型的輸入,得到情感檢測模型輸出的情感類型信息,再根據(jù)情感類型信息確定待檢測語音數(shù)據(jù)的情感類型,比如,情感類型信息為每種預(yù)設(shè)情感類型的概率值,則將概率值最高的情感類型確定為待檢測語音數(shù)據(jù)的情感類型。
所述語音數(shù)據(jù)的情感類型是指按照語音數(shù)據(jù)中句子的情感將句子劃分的類型,情感類型包括但不限于:中性、負向、正向等。
進一步地,在檢測得到語音數(shù)據(jù)的情感類型后,可以將情感類型及時通知給說話人,以便說話人及時注意自己的情緒;所述說話人如客服。
在具體實施時,以客戶端與服務(wù)端結(jié)合實現(xiàn)為例,客戶端如安裝在客服設(shè)備、采訪設(shè)備、會議設(shè)備、手機、平板電腦、車載設(shè)備等終端上的應(yīng)用程序(APP),客戶端與服務(wù)端可以通過網(wǎng)絡(luò)連接通信。
如圖2所示,結(jié)合客戶端與服務(wù)端,語音數(shù)據(jù)情感檢測流程可以包括:
S21:客戶端采集說話人說出的待檢測語音數(shù)據(jù)。
S22:客戶端將檢測得到的待檢測語音數(shù)據(jù)發(fā)送給服務(wù)端。
客戶端可以通過與服務(wù)端之間的網(wǎng)絡(luò)連接將待檢測語音數(shù)據(jù)發(fā)送給服務(wù)端。
S23:服務(wù)端接收客戶端發(fā)送的待檢測語音數(shù)據(jù)。
S24:服務(wù)端獲取所述待檢測語音數(shù)據(jù)的情感檢測特征和歷史狀態(tài)特征,所述情感檢測特征包括:聲學(xué)情感檢測特征和語義情感檢測特征。
S25:服務(wù)端根據(jù)預(yù)先構(gòu)建的情感檢測模型、所述情感檢測特征和所述歷史狀態(tài)特征,識別所述待檢測語音數(shù)據(jù)的情感類型,所述情感檢測模型根據(jù)獲取的語音數(shù)據(jù)樣本的情感檢測特征和歷史狀態(tài)特征構(gòu)建得到。
進一步地,該方法還可以包括:
S26:服務(wù)端根據(jù)識別得到的情感類型向客戶端發(fā)送通知消息。
S27:客戶端將通知消息反饋給說話人。
如情感類型為負向時,服務(wù)端通過客戶端向說話人反饋注意自己情緒的通知消息。
服務(wù)端發(fā)送給客戶端的通知消息可以為文本形式,客戶端向說話人反饋時可以以文本或語音形式,在語音形式時,可以采用語音合成技術(shù)將文本轉(zhuǎn)換為語音。
上述各步驟的具體內(nèi)容可以參見各實施例中的相關(guān)描述,在此不再詳述。
可以理解的是,上述的客戶端和服務(wù)端可以分別位于不同的物理設(shè)備中,如客戶端位于用戶側(cè)的終端設(shè)備中,服務(wù)端位于服務(wù)器中,終端設(shè)備與服務(wù)器通過網(wǎng)絡(luò)連接;或者,客戶端和服務(wù)端可以位于相同的物理設(shè)備中,例如,在終端設(shè)備中集成客戶端和服務(wù)端的功能,從而可以在終端設(shè)備本地完成語音數(shù)據(jù)情感檢測。
本實施例中,通過依據(jù)情感檢測模型以及聲學(xué)上和語義上的特征進行識別,可以提高語音數(shù)據(jù)的情感檢測的準(zhǔn)確度。
圖3是本申請另一個實施例提出的語音數(shù)據(jù)情感檢測方法的流程示意圖。
本實施例以客戶端與服務(wù)端結(jié)合執(zhí)行為例。
如圖3所示,本實施例的方法包括:
S31:服務(wù)端構(gòu)建情感檢測模型。
所述情感檢測模型通過預(yù)先收集大量語音數(shù)據(jù),分別從語義和聲學(xué)上提取所述語音數(shù)據(jù)的情感檢測特征構(gòu)建得到,具體構(gòu)建時,以句為單位檢測每句語音數(shù)據(jù)的情感類型,對于后面的語音數(shù)據(jù),可以利用前面語音數(shù)據(jù)的檢測結(jié)果輔助檢測,以提高情感檢測模型構(gòu)建的準(zhǔn)確度,具體構(gòu)建方法如后續(xù)內(nèi)容所示。
S32:客戶端檢測得到說話人的待檢測語音數(shù)據(jù)。
S33:客戶端將待檢測語音數(shù)據(jù)發(fā)送給服務(wù)端。
S34:服務(wù)端接收待檢測語音數(shù)據(jù)。
S35:服務(wù)端獲取所述待檢測語音數(shù)據(jù)的情感檢測特征和歷史狀態(tài)特征,所述情感檢測特征包括:聲學(xué)情感檢測特征和語義情感檢測特征。
S36:服務(wù)端根據(jù)預(yù)先構(gòu)建的情感檢測模型、所述情感檢測特征和所述歷史狀態(tài)特征,識別所述待檢測語音數(shù)據(jù)的情感類型,所述情感檢測模型根據(jù)獲取的語音數(shù)據(jù)樣本的情感檢測特征和歷史狀態(tài)特征構(gòu)建得到。
可以理解的是,本實施例未做詳細說明的部分,可以參見其他實施例中的相關(guān)部分。
如圖3所示,構(gòu)建情感檢測模型的方法可以包括:
S311:獲取語音數(shù)據(jù)樣本。
語音數(shù)據(jù)樣本是指已有的語音數(shù)據(jù),具體可以采用收集的方式得到,或者也可以預(yù)先根據(jù)應(yīng)用需求錄制得到,或者,也可以直接從日志等數(shù)據(jù)庫中直接獲取。為了提高模型的準(zhǔn)確度,最好獲取盡量多的語音數(shù)據(jù)樣本。
以收集語音數(shù)據(jù)為例,所述語音數(shù)據(jù)一般根據(jù)應(yīng)用需求收集,如需要對客服與客戶通話時客服的語音數(shù)據(jù)進行情感檢測時,則需要收集大量客服與客戶通話時的客服語音數(shù)據(jù),具體收集時,可以收集單句的語音數(shù)據(jù),也可以收集多句連續(xù)語音數(shù)據(jù);當(dāng)然,也可以收集其它領(lǐng)域的語音數(shù)據(jù),如會議錄音等;
S312:對所述語音數(shù)據(jù)樣本進行語音識別,得到識別文本數(shù)據(jù)樣本。
在獲取到語音數(shù)據(jù)樣本后,可以采用各種相關(guān)技術(shù)對語音數(shù)據(jù)樣本進行語音識別,將語音識別后得到的識別文本數(shù)據(jù)稱為識別文本數(shù)據(jù)樣本。
S313:獲取對所述識別文本數(shù)據(jù)樣本標(biāo)注的情感類型,并將所述標(biāo)注的情感類型作為所述語音數(shù)據(jù)樣本的情感類型。
在對識別文本數(shù)據(jù)樣本進行標(biāo)注時,可以以句為單位進行標(biāo)注。
具體的,可以先判斷語音數(shù)據(jù)樣本為單句或者多句連續(xù)的語音數(shù)據(jù),如果為單句,則將語音識別得到的識別文本數(shù)據(jù)樣本作為單句文本數(shù)據(jù),并標(biāo)注該單句文本數(shù)據(jù)的情感類型。如果為多句連續(xù)的語音數(shù)據(jù),則劃分得到每句識別文本數(shù)據(jù),并對每句識別文本數(shù)據(jù)分別進行標(biāo)注。具體判斷語音數(shù)據(jù)為單句或多句,可以根據(jù)語音數(shù)據(jù)的長度,也可以根據(jù)語音數(shù)據(jù)包含的靜音段長度及相應(yīng)靜音段數(shù)判斷,具體過程可以參見各種相關(guān)技術(shù),在此不再詳述。
在對多句進行劃分時,可以根據(jù)識別文本數(shù)據(jù)中的標(biāo)點信息進行劃分,比如,將以標(biāo)點逗號“,”,句號“?!保瑔柼枴??”,及感嘆號“!”結(jié)尾的識別文本數(shù)據(jù)作為一句,具體的,在識別文本數(shù)據(jù)中添加標(biāo)點信息的方法可以參照各種相關(guān)技術(shù)。
具體標(biāo)注時,一般通過領(lǐng)域?qū)<覙?biāo)注每句識別文本數(shù)據(jù)樣本的情感類型,每種情感類型可以使用數(shù)字表示;所述情感類型可以根據(jù)應(yīng)用需求確定,如客服語音數(shù)據(jù)的情感類型一般為中性和負向,這與客服受過專業(yè)培訓(xùn)相關(guān),客服說話時的情感基本上都比較中性,如可以使用1表示,偶爾會出現(xiàn)有個人情緒的語音數(shù)據(jù),即情感類型為負向,如可以使用2表示;當(dāng)然,如果收集的語音數(shù)據(jù)為其它領(lǐng)域語音數(shù)據(jù),如會議錄音,所述情感類型一般為正向、中性和負向;可以分別使用1、2、3表示,當(dāng)然,也可以使用其它數(shù)字表示,具體不作限定。
S314:獲取所述語音數(shù)據(jù)樣本的情感檢測特征和歷史狀態(tài)特征。
情感檢測特征包括從聲學(xué)上提取的聲學(xué)情感檢測特征和從語義上提取的語義情感檢測特征,語義情感檢測特征主要通過分析語音數(shù)據(jù)的識別文本,提取相應(yīng)語義情感檢測特征,聲學(xué)情感檢測特征主要通過分析語音數(shù)據(jù)的聲學(xué)信息,提取相應(yīng)聲學(xué)情感檢測特征,從而保證語音數(shù)據(jù)描述的全面性,更有利于提高語音數(shù)據(jù)情感檢測的準(zhǔn)確性,具體提取方法如圖4所示。
以句為單位對語音數(shù)據(jù)樣本進行處理,當(dāng)前句的語音數(shù)據(jù)樣本的歷史狀態(tài)特征是指當(dāng)前句語音數(shù)據(jù)樣本之前的每句語音數(shù)據(jù)樣本的情感類型,如果當(dāng)前句語音數(shù)據(jù)樣本不存在之前的語音數(shù)據(jù)樣本,如當(dāng)前句語音數(shù)據(jù)樣本為單句語音數(shù)據(jù)樣本或者多句連續(xù)語音數(shù)據(jù)樣本中的首句,則歷史狀態(tài)特征可以設(shè)置為0;如果當(dāng)前句語音數(shù)據(jù)樣本為多句連續(xù)語音數(shù)據(jù)樣本中的非首句,則歷史狀態(tài)特征為所述多句連續(xù)語音數(shù)據(jù)樣本中當(dāng)前句語音數(shù)據(jù)樣本之前的每句語音數(shù)據(jù)樣本的情感類型,如將所述當(dāng)前句語音數(shù)據(jù)樣本之前的每句語音數(shù)據(jù)樣本的情感類型組成向量作為當(dāng)前句語音數(shù)據(jù)樣本的歷史狀態(tài)特征。
S315:根據(jù)所述語音數(shù)據(jù)樣本的情感檢測特征和歷史狀態(tài)特征以及所述語音數(shù)據(jù)樣本的情感類型,進行模型訓(xùn)練,構(gòu)建得到情感檢測模型。
具體構(gòu)建時,將每句語音數(shù)據(jù)樣本對應(yīng)的情感檢測特征和歷史狀態(tài)特征作為輸入特征,將相應(yīng)的情感類型作為輸出特征,由每句語音數(shù)據(jù)樣本對應(yīng)的輸入特征和輸出特征組成一組訓(xùn)練數(shù)據(jù),依據(jù)訓(xùn)練數(shù)據(jù)和預(yù)先確定的模型結(jié)構(gòu)進行訓(xùn)練,構(gòu)建得到情感檢測模型。所述情感檢測模型的結(jié)構(gòu)為模式識別中常用分類模型,如支持向量機模型、決策樹模型、神經(jīng)網(wǎng)絡(luò)模型及條件隨機場模型等,尤其是使用條件隨機場模型效果最好,具體訓(xùn)練過程可以參見相應(yīng)模型結(jié)構(gòu)對應(yīng)的訓(xùn)練過程,在此不再詳述。
下面對上述涉及的提取情感檢測特征的方法進行說明。
待檢測語音數(shù)據(jù)和語音數(shù)據(jù)樣本可以通常為待提取語音數(shù)據(jù),獲取待提取語音數(shù)據(jù)的情感檢測特征的方法可以如圖4所示。
情感檢測特征包括語義情感檢測特征和聲學(xué)情感檢測特征。
如圖4所示,獲取待提取語音數(shù)據(jù)的情感檢測特征的方法可以包括:
S41:對待提取語音數(shù)據(jù)進行語音識別,得到識別文本數(shù)據(jù)。
語音識別可以采用各種相關(guān)技術(shù),在此不再詳細說明。
S42:對識別文本數(shù)據(jù)進行語義特征提取,得到語義情感檢測特征,所述語義情感檢測特征包括如下項中的至少一項:
句長度特征、句中重復(fù)詞數(shù)特征、句向量特征、句子情感極性特征。
上述各特征的提取方法如下所述:
(1)句長度特征
所述句長度特征指每句識別文本數(shù)據(jù)包含的詞數(shù),具體提取時,需要對每句識別文本數(shù)據(jù)進行分詞,根據(jù)分詞結(jié)果統(tǒng)計每句識別文本數(shù)據(jù)中詞數(shù)。
(2)句中重復(fù)詞數(shù)特征
所述句中重復(fù)詞數(shù)特征指每句識別文本數(shù)據(jù)中重復(fù)出現(xiàn)的詞數(shù),具體提取時,直接根據(jù)識別文本數(shù)據(jù)分詞結(jié)果,找出每句識別文本數(shù)據(jù)中重復(fù)出現(xiàn)的詞,統(tǒng)計所述重復(fù)出現(xiàn)詞總數(shù)即可;
如識別文本數(shù)據(jù)為“嗯可以的嗯可以”中,“嗯”和“可以”為重復(fù)出現(xiàn)的詞,則重復(fù)出現(xiàn)詞總數(shù)為2。
(3)句向量特征
所述句向量特征指將每句識別文本數(shù)據(jù)映射到一個高維向量空間中,具體提取時,可以先將每句識別文本數(shù)據(jù)中包含的詞向量化,得到每個詞的詞向量;然后再將同一句識別文本數(shù)據(jù)中詞的詞向量相加后,得到詞向量的和向量,將所述和向量作為句向量;當(dāng)然也可以采用其它方法提取句向量,如采用模型訓(xùn)練的方法提取,具體過程參見各種相關(guān)技術(shù)相同,在此不再詳述。
(4)句子情感極性特征
所述句子情感極性指每句識別文本數(shù)據(jù)與不同情感類型識別文本數(shù)據(jù)的距離,具體提取方法如下所述:
首先,計算每種情感類型識別文本數(shù)據(jù)中詞的語義類,具體計算時,直接對每種情感類型語音數(shù)據(jù)對應(yīng)識別文本數(shù)據(jù)包含的詞進行語義聚類,得到每種情感類型識別文本數(shù)據(jù)包含詞的語義類,即將每種情感類型識別文本數(shù)據(jù)中詞劃分為多個語義類;具體聚類時,可以直接使用每種情感類型識別文本數(shù)據(jù)中詞的詞向量進行語義聚類,具體聚類過程參見各種相關(guān)技術(shù),如聚類算法使用k-means方法對每種情感類型識別文本數(shù)據(jù)中詞進行聚類,如聚成10類,則每種情感類型識別文本數(shù)據(jù)中詞被劃分為10個語義類;
其次,分別計算每種情感類型識別文本數(shù)據(jù)中詞的語義類的中心點,具體計算時,可以直接根據(jù)每個語義類中詞的詞向量平均值作為每個語義類的中心點,所述語義類中詞的詞向量的平均值為語義類中所有詞的詞向量的和與語義類中所有詞總數(shù)的比值;
然后,分別計算每句識別文本數(shù)據(jù)中每個詞與每個語義類中心點的語義距離,得到每個詞與每個語義類的語義距離向量,所述距離一般為歐式距離,當(dāng)然也可以為其它距離,具體不作限定;如當(dāng)前句有5個詞,有2種情感類型,每種情感類型有10個語義類,則當(dāng)前句中每個詞與每個語義類的語義距離向量大小為1x20;
最后,計算每句識別文本數(shù)據(jù)中每個詞與每個語義類中心點的語義距離向量的平均值,將所述語義距離向量的平均值作為每句識別文本的情感極性特征。
通過S41-S42可以獲取到語義情感檢測特征。通過如下的S43可以獲取到聲學(xué)情感檢測特征。
S43:直接對待提取語音數(shù)據(jù)進行聲學(xué)特征提取,得到聲學(xué)情感檢測特征,所述聲學(xué)情感檢測特征包括如下項中的至少一項:
短時斜率變化率、短時平均能量、短時平均過零率、短時自相關(guān)系數(shù)、短時平均幅度差。
可以理解的是,S41-S42與S43無時序限制關(guān)系。
對待提取語音數(shù)據(jù)進行聲學(xué)特征提取時,可以以每句語音數(shù)據(jù)為單位,提取每句語音數(shù)據(jù)的上述聲學(xué)情感檢測特征中的至少一項。
上述各聲學(xué)情感檢測特征的提取方法如下:
所述短時平均能量、短時平均過零率、短時自相關(guān)系數(shù)、短時平均幅度差提取時,直接以句為單位提取即可,具體提取方法可參見各種相關(guān)技術(shù)。
所述短時斜率變化率即每句語音數(shù)據(jù)包含的情感詞對應(yīng)語音信號斜率穿過零軸的次數(shù),即斜率由正變?yōu)樨?,或由負變?yōu)檎拇螖?shù);具體提取時,先根據(jù)預(yù)先構(gòu)建的情感詞表,檢測每句語音數(shù)據(jù)對應(yīng)識別文本中包含的所有情感詞;再找到每個情感詞對應(yīng)語音數(shù)據(jù)段,計算所述語音數(shù)據(jù)段的斜率,具體計算方法與現(xiàn)有技術(shù)相同,在此不再詳述,統(tǒng)計所述語音數(shù)據(jù)段斜率穿過零軸的次數(shù),得到所述語音數(shù)據(jù)段的斜率變化率;最后將每句語音數(shù)據(jù)情感詞對應(yīng)語音數(shù)據(jù)段的斜率變化率的均值作為當(dāng)前句語音數(shù)據(jù)的斜率變化率;如果語音數(shù)據(jù)對應(yīng)識別文本未檢測到情感詞,則該句的斜率變化率為0;
需要說明的是,計算每句語音數(shù)據(jù)的斜率變化率時,在檢測到每句語音數(shù)據(jù)包含的情感詞后,也可分別向每個情感詞前后擴展一或多個詞,找到擴展后的詞對應(yīng)語音數(shù)據(jù)段,計算所述擴展后的語音數(shù)據(jù)段的斜率變化率。
如上,可以獲取情感檢測特征,從而可以依據(jù)樣本的情感檢測特征構(gòu)建情感檢測模型,以及,依據(jù)待檢測語音數(shù)據(jù)的情感檢測特征識別待檢測語音數(shù)據(jù)的情感類型。
圖5是本申請一個實施例提出的語音數(shù)據(jù)情感檢測裝置的結(jié)構(gòu)示意圖。
如圖5所示,本實施例的裝置50包括:接收模塊51、獲取模塊52和識別模塊53。
接收模塊51,用于接收待檢測語音數(shù)據(jù);
獲取模塊52,用于獲取所述待檢測語音數(shù)據(jù)的情感檢測特征和歷史狀態(tài)特征,所述情感檢測特征包括:聲學(xué)情感檢測特征和語義情感檢測特征;
識別模塊53,用于根據(jù)預(yù)先構(gòu)建的情感檢測模型、所述情感檢測特征和所述歷史狀態(tài)特征,識別所述待檢測語音數(shù)據(jù)的情感類型,所述情感檢測模型根據(jù)獲取的語音數(shù)據(jù)樣本的情感檢測特征和歷史狀態(tài)特征構(gòu)建得到。
一些實施例中,參見圖6,該裝置50還包括:用于構(gòu)建情感檢測模型的構(gòu)建模塊54,所述構(gòu)建模塊54具體用于:
獲取語音數(shù)據(jù)樣本;
對所述語音數(shù)據(jù)樣本進行語音識別,得到識別文本數(shù)據(jù)樣本;
獲取對所述識別文本數(shù)據(jù)樣本標(biāo)注的情感類型,并將所述標(biāo)注的情感類型作為所述語音數(shù)據(jù)樣本的情感類型;
獲取所述語音數(shù)據(jù)樣本的情感檢測特征和歷史狀態(tài)特征;
根據(jù)所述語音數(shù)據(jù)樣本的情感檢測特征和歷史狀態(tài)特征以及所述語音數(shù)據(jù)樣本的情感類型,進行模型訓(xùn)練,構(gòu)建得到情感檢測模型。
一些實施例中,所述獲取模塊52用于獲取待檢測語音數(shù)據(jù)的語義情感檢測特征,包括:
對待檢測語音數(shù)據(jù)進行語音識別,得到識別文本數(shù)據(jù);
對識別文本數(shù)據(jù)進行語義特征提取,得到語義情感檢測特征,所述語義情感檢測特征包括如下項中的至少一項:
句長度特征、句中重復(fù)詞數(shù)特征、句向量特征、句子情感極性特征。
一些實施例中,所述獲取模塊52獲取的所述句子情感極性特征采用如下方法提取得到:
計算每種情感類型識別文本數(shù)據(jù)中詞的語義類;
分別計算每種情感類型識別文本數(shù)據(jù)中詞的語義類的中心點;
分別計算每句識別文本數(shù)據(jù)中每個詞與每個語義類中心點的語義距離,得到每個詞與每個語義類的語義距離向量;
計算每句識別文本數(shù)據(jù)中每個詞與每個語義類中心點的語義距離向量的平均值,將所述語義距離向量的平均值作為每句識別文本的情感極性特征
一些實施例中,所述獲取模塊52用于獲取待檢測語音數(shù)據(jù)的聲學(xué)情感檢測特征,包括:
直接對所述待檢測語音數(shù)據(jù)進行聲學(xué)特征提取,得到聲學(xué)情感檢測特征,所述聲學(xué)情感檢測特征包括如下項中的至少一項:
短時斜率變化率、短時平均能量、短時平均過零率、短時自相關(guān)系數(shù)、短時平均幅度差。
一些實施例中,所述待檢測語音數(shù)據(jù)以句為單位進行處理,所述獲取模塊52獲取的所述歷史狀態(tài)特征包括:
如果所述待檢測語音數(shù)據(jù)為單句語音數(shù)據(jù)或者多句連續(xù)語音數(shù)據(jù)的首句,則所述歷史狀態(tài)特征為0;或者,
如果所述待檢測語音數(shù)據(jù)為多句連續(xù)語音數(shù)據(jù)的非首句時,則所述歷史狀態(tài)特征為所述多句連續(xù)語音數(shù)據(jù)中所述待檢測語音數(shù)據(jù)之前的每句語音數(shù)據(jù)的情感類型。
可以理解的是,本實施例的裝置與上述方法實施例對應(yīng),具體內(nèi)容可以參見方法實施例的相關(guān)描述,在此不再詳細說明。
本實施例中,通過依據(jù)情感檢測模型以及聲學(xué)上和語義上的特征進行識別,可以提高語音數(shù)據(jù)的情感檢測的準(zhǔn)確度。
圖7是本申請一個實施例提出的語音數(shù)據(jù)情感檢測系統(tǒng)的結(jié)構(gòu)示意圖。
如圖7所示,本實施例的系統(tǒng)包括:客戶端71和服務(wù)端72。
客戶端71,用于采集說話人說出的待檢測語音數(shù)據(jù);
服務(wù)端72,用于接收所述客戶端發(fā)送的所述待檢測語音數(shù)據(jù);獲取所述待檢測語音數(shù)據(jù)的情感檢測特征和歷史狀態(tài)特征,所述情感檢測特征包括:聲學(xué)情感檢測特征和語義情感檢測特征;以及,根據(jù)預(yù)先構(gòu)建的情感檢測模型、所述情感檢測特征和所述歷史狀態(tài)特征,識別所述待檢測語音數(shù)據(jù)的情感類型,所述情感檢測模型根據(jù)獲取的語音數(shù)據(jù)樣本的情感檢測特征和歷史狀態(tài)特征構(gòu)建得到。
一些實施例中,所述服務(wù)端72還用于:根據(jù)識別得到的情感類型向客戶端發(fā)送通知消息;
所述客戶端71還用于:將所述通知消息反饋給所述說話人。
圖7中以客戶端與服務(wù)端通過無線網(wǎng)絡(luò)連接為例,可以理解的是,客戶端與服務(wù)端也可以通過有線網(wǎng)絡(luò)連接,或者,如果客戶端與服務(wù)端集成在同一設(shè)備中,客戶端與服務(wù)端可以通過設(shè)備內(nèi)部的總線連接。
可以理解的是,服務(wù)端的功能與上述的裝置一致,因此,服務(wù)端的具體組成可以參見圖5或圖6所示的裝置,在此不再詳述。
本實施例中,通過依據(jù)情感檢測模型以及聲學(xué)上和語義上的特征進行識別,可以提高語音數(shù)據(jù)的情感檢測的準(zhǔn)確度。
可以理解的是,上述各實施例中相同或相似部分可以相互參考,在一些實施例中未詳細說明的內(nèi)容可以參見其他實施例中相同或相似的內(nèi)容。
需要說明的是,在本申請的描述中,術(shù)語“第一”、“第二”等僅用于描述目的,而不能理解為指示或暗示相對重要性。此外,在本申請的描述中,除非另有說明,“多個”的含義是指至少兩個。
流程圖中或在此以其他方式描述的任何過程或方法描述可以被理解為,表示包括一個或更多個用于實現(xiàn)特定邏輯功能或過程的步驟的可執(zhí)行指令的代碼的模塊、片段或部分,并且本申請的優(yōu)選實施方式的范圍包括另外的實現(xiàn),其中可以不按所示出或討論的順序,包括根據(jù)所涉及的功能按基本同時的方式或按相反的順序,來執(zhí)行功能,這應(yīng)被本申請的實施例所屬技術(shù)領(lǐng)域的技術(shù)人員所理解。
應(yīng)當(dāng)理解,本申請的各部分可以用硬件、軟件、固件或它們的組合來實現(xiàn)。在上述實施方式中,多個步驟或方法可以用存儲在存儲器中且由合適的指令執(zhí)行系統(tǒng)執(zhí)行的軟件或固件來實現(xiàn)。例如,如果用硬件來實現(xiàn),和在另一實施方式中一樣,可用本領(lǐng)域公知的下列技術(shù)中的任一項或他們的組合來實現(xiàn):具有用于對數(shù)據(jù)信號實現(xiàn)邏輯功能的邏輯門電路的離散邏輯電路,具有合適的組合邏輯門電路的專用集成電路,可編程門陣列(PGA),現(xiàn)場可編程門陣列(FPGA)等。
本技術(shù)領(lǐng)域的普通技術(shù)人員可以理解實現(xiàn)上述實施例方法攜帶的全部或部分步驟是可以通過程序來指令相關(guān)的硬件完成,所述的程序可以存儲于一種計算機可讀存儲介質(zhì)中,該程序在執(zhí)行時,包括方法實施例的步驟之一或其組合。
此外,在本申請各個實施例中的各功能單元可以集成在一個處理模塊中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個模塊中。上述集成的模塊既可以采用硬件的形式實現(xiàn),也可以采用軟件功能模塊的形式實現(xiàn)。所述集成的模塊如果以軟件功能模塊的形式實現(xiàn)并作為獨立的產(chǎn)品銷售或使用時,也可以存儲在一個計算機可讀取存儲介質(zhì)中。
上述提到的存儲介質(zhì)可以是只讀存儲器,磁盤或光盤等。
在本說明書的描述中,參考術(shù)語“一個實施例”、“一些實施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結(jié)合該實施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特點包含于本申請的至少一個實施例或示例中。在本說明書中,對上述術(shù)語的示意性表述不一定指的是相同的實施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點可以在任何的一個或多個實施例或示例中以合適的方式結(jié)合。
盡管上面已經(jīng)示出和描述了本申請的實施例,可以理解的是,上述實施例是示例性的,不能理解為對本申請的限制,本領(lǐng)域的普通技術(shù)人員在本申請的范圍內(nèi)可以對上述實施例進行變化、修改、替換和變型。