專利名稱:識別語音信號中所承載的情感狀態(tài)的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語音信號識別技木,尤其涉及生成語音情感模型的方法和設(shè)備,以及識別語音信號中所承載的情感狀態(tài)的方法和設(shè)備。
背景技術(shù):
語音是人類最重要的交流工具之一,可以承載和傳遞多種不同的信息,如語義內(nèi)容、說話人身份、語言種類、情感狀態(tài)等。語音情感識別是研究如何通過語音信號識別說話人的情感狀態(tài)。通過獲取語音信號中蘊含的豐富情感信息,可識別說話人通過語音表達的情感狀態(tài)。中國專利第200610097301. 6號公開ー種基于支持向量機的語音情感識別方法,提取基音頻率軌跡、振幅、共振峰頻率軌跡等聲學(xué)特征;加入性別規(guī)整,對說話人性別的差異進行處理;采用支持向量機(SVM)訓(xùn)練情感識別模型,為每ー種情感狀態(tài)訓(xùn)練ー個SVM模型,用最少支持向量在錯分樣本和算法復(fù)雜度之間獲得識別結(jié)果。非專利文獻Hidden Markov model-based speech emotion recognition (B.Schuller, G.Rigoll,M. Lang, Proceedings of ICASSP 2003,HongKong,China,2003,401-405)研究了隱馬爾科夫模型(HMM)在語音情感識別中的應(yīng)用,對于基音頻率和能量提取全局統(tǒng)計特征,利用単一狀態(tài)的HMM進行情感識別,對于語音信號的短時特征,利用連續(xù)的HMM進行情感識別。非專利文獻 Emotion recognition of speech in Mandarin based onneura丄network(Q. Wang, B.Xie, G. C. Chen, Proceedings of the IstChinese Conference onAffective Computing and Intelligent Interaction(ACII), Beijing, China,2003,185-190)研究了人工神經(jīng)網(wǎng)絡(luò)(ANN)在語音情感識別中的應(yīng)用,提取了基音頻率、能量、以及語速等特征,分別利用0C0N、AC0N、LVQ三種類型的ANN,對漢語情感語音進行情感識別。
發(fā)明內(nèi)容
本發(fā)明的一個實施例是ー種生成語音情感模型的方法,包括以下步驟通過無監(jiān)瞀聚類將標(biāo)注為同一情感狀態(tài)的多個情感語音樣本聚類成η個子類,每個子類對應(yīng)于同一情感狀態(tài)的不同情感表達方式中的ー種情感表達方式;以及為每個子類中的情感語音樣本生成一個語音情感模型,從而得到分別對應(yīng)于η個子類的η個語音情感模型,η個語音情感模型用于識別語音信號所承載的不同情感表達方式的情感狀態(tài),其中η為大于或等于2的整數(shù)。本發(fā)明的一個實施例是ー種生成語音情感模型的設(shè)備,包括無監(jiān)瞀聚類部,通過無監(jiān)瞀聚類將標(biāo)注為同一情感狀態(tài)的多個情感語音樣本聚類成η個子類,每個子類對應(yīng)于同一情感狀態(tài)的不同情感表達方式中的ー種情感表達方式;以及語音情感模型生成部,為每個子類中的情感語音樣本生成一個語音情感模型,從而得到分別對應(yīng)于η個子類的η個語音情感模型,η個語音情感模型用于識別語音信號所承載的不同情感表達方式的情感狀態(tài),其中η為大于或等于2的整數(shù)。
本發(fā)明的一個實施例是ー種識別語音信號中所承載的情感狀態(tài)的方法,包括以下步驟將預(yù)處理后的語音信號與至少ー個情感狀態(tài)中的每ー個情感狀態(tài)的η個語音情感模型中的每ー個分別進行相似度匹配,以識別語音信號所承載的不同情感表達方式的每ー個情感狀態(tài),其中,同一情感狀態(tài)的η個語音情感模型中的每ー個對應(yīng)于同一情感狀態(tài)的不同情感表達方式中的ー種情感表達方式,以及η為大于或等于2的整數(shù)。本發(fā)明的一個實施例是ー種識別語音信號中所承載的情感狀態(tài)的設(shè)備,包括語音情感識別部,將預(yù)處理后的語音信號與至少ー個情感狀態(tài)中的每ー個情感狀態(tài)的η個語音情感模型中的每ー個分別進行相似度匹配,以識別語音信號所承載的不同情感表達方式的每ー個情感狀態(tài),其中,同一情感狀態(tài)的η個語音情感模型中的每ー個對應(yīng)于同一情感狀態(tài)的不同情感表達方式中的ー種情感表達方式,以及η為大于或等于2的整數(shù)。
參照下面結(jié)合附圖對本發(fā)明實施例的說明,會更加容易地理解本發(fā)明的以上和其它目的、特點和優(yōu)點。在附圖中,相同的或?qū)?yīng)的技術(shù)特征或部件將采用相同或?qū)?yīng)的附圖標(biāo)記來表示。圖I是示出根據(jù)本發(fā)明的一個實施例的生成語音情感模型的設(shè)備的示例性結(jié)構(gòu)的框圖;圖2是示出根據(jù)本發(fā)明的一個實施例的語音情感模型生成部的示例性結(jié)構(gòu)的框圖;圖3是示出根據(jù)本發(fā)明的另ー個實施例的語音情感模型生成部的示例性結(jié)構(gòu)的框圖;圖4是示出根據(jù)本發(fā)明的另ー個實施例的生成語音情感模型的設(shè)備的示例性結(jié)構(gòu)的框圖;圖5是示出根據(jù)本發(fā)明的一個實施例的生成語音情感模型的方法的示例性過程的流程圖;圖6是示出根據(jù)本發(fā)明的一個實施例的生成步驟的示例性過程的流程圖;圖7是示出根據(jù)本發(fā)明的另ー個實施例的生成步驟的示例性過程的流程圖;圖8是示出根據(jù)本發(fā)明的另ー個實施例的生成語音情感模型的方法的示例性過程的流程圖;圖9是示出根據(jù)本發(fā)明的一個實施例的修正步驟的示例性過程的流程圖;圖10是示出根據(jù)本發(fā)明的一個實施例的識別語音信號中所承載的情感狀態(tài)的設(shè)備的示例性結(jié)構(gòu)的框圖;圖11是示出根據(jù)本發(fā)明的一個實施例的語音情感識別部的示例性結(jié)構(gòu)的框圖;圖12是示出根據(jù)本發(fā)明的一個實施例的識別語音信號中所承載的情感狀態(tài)的方法的示例性過程的流程圖;圖13是示出根據(jù)本發(fā)明的一個實施例的識別步驟的示例性過程的流程圖。
具體實施方式
本文中所用的術(shù)語,僅僅是為了描述特定的實施例,而不意圖限定本發(fā)明。本文中所用的単數(shù)形式的“一”和“該”,_在也包括復(fù)數(shù)形式,除非上下文中明確地另行指出。還要知道,“包含” 一詞在本說明書中使用時,說明存在所指出的特征、整體、步驟、操作、単元和/或組件,但是并不排除存在或増加ー個或多個其它特征、整體、步驟、操作、単元和/或組件,以及/或者它們的組合。下面參照附圖來說明本發(fā)明的實施例。應(yīng)當(dāng)注意,為了清楚的目的,附圖和說明中省略了與本發(fā)明無關(guān)的、本領(lǐng)域普通技術(shù)人員已知的部件和處理的表示和描述。流程圖和/或框圖的每個方框以及流程圖和/或框圖中各方框的組合,都可以由計算機程序指令實現(xiàn)。這些計算機程序指令可以提供給通用計算機、專用計算機或其它可編程數(shù)據(jù)處理裝置的處理器,從而生產(chǎn)出ー種機器,使得通過計算機或其它可編程數(shù)據(jù)處理裝置執(zhí)行的這些指令,產(chǎn)生實現(xiàn)流程圖和/或框圖中的方框中規(guī)定的功能/操作的裝置。 也可以把這些計算機程序指令存儲在能指令計算機或其它可編程數(shù)據(jù)處理裝置以特定方式工作的計算機可讀介質(zhì)中,這樣,存儲在計算機可讀介質(zhì)中的指令產(chǎn)生ー個包括實現(xiàn)流程圖和/或框圖中的方框中規(guī)定的功能/操作的指令裝置(instruction means)的制造品。也可以把計算機程序指令加載到計算機或其它可編程數(shù)據(jù)處理裝置上,使得在計算機或其它可編程數(shù)據(jù)處理裝置上執(zhí)行一系列操作步驟,以產(chǎn)生計算機實現(xiàn)的過程,從而在計算機或其它可編程裝置上執(zhí)行的指令就提供實現(xiàn)流程圖和/或框圖中的方框中規(guī)定的功能/操作的過程。應(yīng)當(dāng)明白,附圖中的流程圖和框圖,圖示了按照本發(fā)明各種實施例的系統(tǒng)、方法和計算機程序產(chǎn)品的可能實現(xiàn)的體系架構(gòu)、功能和操作。在這點上,流程圖或框圖中的每個方框可以代表一個模塊、程序段、或代碼的一部分,所述模塊、程序段、或代碼的一部分包含一個或多個用于實現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應(yīng)當(dāng)注意,在有些作為替換的實現(xiàn)中,方框中所標(biāo)注的功能也可以以不同于附圖中所標(biāo)注的順序發(fā)生。例如,兩個接連地表示的方框?qū)嶋H上可以基本并行地執(zhí)行,它們有時也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個方框、以及框圖和/或流程圖中的方框的組合,可以用執(zhí)行規(guī)定的功能或操作的專用的基于硬件的系統(tǒng)來實現(xiàn),或者可以用專用硬件與計算機指令的組合來實現(xiàn)。情感的表示是語音情感識別的重要基礎(chǔ)之一,情感表示方法主要有以下兩種基本情感論和情感維度論?;厩楦姓撜J為情感是離散的實體,并且存在數(shù)種“基本情感”,其它情感都可以由基本情感修改和/或組合得到。在語音情感識別中應(yīng)用基本情感論時,存在以下ー些不足基本情感論提供的粒度過大,不易分辨人類豐富、細膩的情感,如緊張、焦慮、郁悶、挫折感等;另外,基本情感論也不能提供有效的建模方法來解決人與人之間在情感認知和心理體驗上的差異。情感維度論是用連續(xù)的維度空間來描述情感,用情感在維度空間中的相對距離來衡量彼此的相似性和差異性,且情感狀態(tài)轉(zhuǎn)變是逐漸的和平穩(wěn)的。在語音情感識別中應(yīng)用情感維度論,也存在以下一些問題維度論情感空間中所有的點都是用數(shù)值表示的,不僅缺少直觀性,也難以理解和體驗;另外,情感空間各維度的測量手段和計算方法,在客觀性和確定性上也與人們的期待有差距。發(fā)明人通過觀察認識到,不同人的情感表達方式具有差異性。例如,對于“高興”,不同的人會有“高興”的不同的表達方式。如果為某ー種情感狀態(tài)僅建立一種語音情感模型,則無法表示同一情感狀態(tài)的各種不同的情感表達方式,導(dǎo)致語音情感識別的可靠性差。發(fā)明人相應(yīng)認識到,人類的情感豐富且復(fù)雜,同一情感狀態(tài)具有各種不同的情感表達方式,并且情感狀態(tài)的轉(zhuǎn)變是逐漸的和平穩(wěn)的,因此可以用連續(xù)的維度空間來描述情感。同時,不同的情感狀態(tài)之間又具有相対的邊界,從而可以將不同的情感狀態(tài)彼此區(qū)分開。基于人類情感的上述特點,本發(fā)明通過無監(jiān)瞀聚類將標(biāo)注為同一情感狀態(tài)的多個情感語音樣本聚類成η個子類,每個子類對應(yīng)于同一情感狀態(tài)的不同情感表達方式中的ー種情感表達方式;并且為每個子類中的情感語音樣本生成一個語音情感模型,從而得到分別對應(yīng)于η個子類的η個語音情感模型,η個語音情感模型用于識別語音信號所承載的不同情感表達方式的情感狀態(tài),其中η為大于或等于2的整數(shù)。圖I是示出根據(jù)本發(fā)明的一個實施例的生成語音情感模型的設(shè)備的示例性結(jié)構(gòu)的框圖。如圖I所示,該生成語音情感模型的設(shè)備包括無監(jiān)瞀聚類部101和語音情感模型生成部102。無監(jiān)瞀聚類部101通過無監(jiān)瞀聚類將標(biāo)注為同一情感狀態(tài)的多個情感語音樣本聚類成η個子類,每個子類對應(yīng)于同一情感狀態(tài)的不同情感表達方式中的ー種情感表達方式;語音情感模型生成部102為每個子類中的情感語音樣本生成一個語音情感模型,從而得到分別對應(yīng)于η個子類的η個語音情感模型,η個語音情感模型用于識別語音信號所承載的不同情感表達方式的情感狀態(tài),其中η為大于或等于2的整數(shù)??梢酝ㄟ^各種方式來收集情感語音樣本,例如來自非專業(yè)演員的錄音數(shù)據(jù),或者來自電視劇的演員錄音數(shù)據(jù),或者來自廣播、電視中訪談類節(jié)目的錄音數(shù)據(jù)等。對于非專業(yè)演員的錄音數(shù)據(jù),例如通過設(shè)計不同的對話場景,以兩人對話的形式錄制語音,通過一方的話語激發(fā)另一方產(chǎn)生期待的情感變化,以獲得真實性較高的情感語音樣本。參考語音呼叫中心經(jīng)常發(fā)生的事情來編寫錄音語料,以保證對話內(nèi)容的合理性。挑選ー些性格特點不同、文化背景不同的錄音人員,可以盡可能涵蓋不同情感表達方式的情感語音。另外兩種情感語音可以從電視、電影、廣播等多媒體文件中截取。收集的情感語音樣本可以以數(shù)據(jù)庫的形式存儲到標(biāo)注情感語音庫中。本領(lǐng)域技術(shù)人員可以理解,收集的情感語音數(shù)據(jù)也可以以其它形式存儲。無監(jiān)瞀聚類的方法例如是最近距離聚類法、系統(tǒng)聚類法、逐步形成聚類法等。然而應(yīng)當(dāng)明白,可采用的無監(jiān)瞀聚類的方法并不限于此。通過無監(jiān)瞀聚類,每種情感狀態(tài)可以建立多個語音情感模型。例如,當(dāng)有“高興”、“中性”、“生氣”三種情感狀態(tài)時,針對“高興”可能聚類出四個語音情感模型Η1、Η2、Η3和Η4,針對“中性”可能聚類出兩個語音情感模型Ml和M2,針對“生氣”可能聚類出六個語音情感模型Al、Α2、A3、Α4、Α5和Α6。這些不同情感狀態(tài)的多個語音情感模型以數(shù)據(jù)庫的形式存儲到情感模型知識庫中。本領(lǐng)域技術(shù)人員可以理解,這些不同情感狀態(tài)的多個語音情感模型也可以以其它形式存儲。圖2是示出根據(jù)本發(fā)明的一個實施例的語音情感模型生成部的示例性結(jié)構(gòu)的框 圖。語音情感模型生成部102包括聲學(xué)模型建立部202和分類器訓(xùn)練部203。聲學(xué)模型建立部202根據(jù)從每個子類中的情感語音樣本中所提取的聲學(xué)特征建立每個子類的聲學(xué)模型??梢蕴崛〉穆晫W(xué)特征有很多種,例如基音頻率軌跡、振幅、共振峰頻率軌跡等。然而應(yīng)當(dāng)明白,可提取的聲學(xué)特征并不限于此。分類器訓(xùn)練部203訓(xùn)練與每個子類的聲學(xué)模型相適應(yīng)的情感分類器??梢圆捎枚喾N方法來建立聲學(xué)模型和訓(xùn)練情感分類器,例如可以采用支持向量機(SVM)、隱馬爾科夫模型(HMM)、人工神經(jīng)網(wǎng)絡(luò)(ANN)等方法。具體的SVM、HMM、ANN等方法由于眾多文獻都有詳細論述,這里就不再展開說明。然而應(yīng)當(dāng)明白,可采用的方法并不限于此。
由聲學(xué)模型建立部202得到的聲學(xué)模型和由分類器訓(xùn)練部203得到的分類器構(gòu)成了初始的語音情感模型。語音情感模型可以以數(shù)據(jù)庫的形式存儲到語音情感模型知識庫中。本領(lǐng)域技術(shù)人員可以理解,語音情感模型也可以以其它形式存儲。圖3是示出根據(jù)本發(fā)明的另ー個實施例的語音情感模型生成部的示例性結(jié)構(gòu)的框圖。圖3所示的情感模型生成部102’與圖2所示的基本相同,不同在于圖3所示的情感模型生成部102’還包括語音情感模型更新部204。語音情感模型更新部204根據(jù)所標(biāo)注的多個情感語音樣本與所述初始的語音情感模型的匹配結(jié)果更新初始的語音情感模型的參數(shù)。經(jīng)過更新的語音情感模型可以以數(shù)據(jù)庫的形式存儲到語音情感模型知識庫中。本領(lǐng)域技術(shù)人員可以理解,經(jīng)過更新的語音情感模型也可以以其它形式存儲。圖4是示出根據(jù)本發(fā)明的另ー個實施例的生成語音情感模型的設(shè)備的示例性結(jié)構(gòu)的框圖。圖4所示的生成語音情感模型的設(shè)備與圖I所示的基本相同,不同在于圖4所示的生成語音情感模型的設(shè)備還包括語音情感模型測試部7010和測試結(jié)果反饋部7012。其中,語音情感模型測試部7010采用所述標(biāo)注情感語音樣本對生成的語音情感模型進行測試,根據(jù)測試結(jié)果生成所述標(biāo)注情感語音樣本的新標(biāo)注信息;測試結(jié)果反饋部7012將所述新標(biāo)注信息與相應(yīng)的原始的標(biāo)注信息進行比較,若不一致,則采用所述新標(biāo)注信息修正所述相應(yīng)的原始的標(biāo)注信息。由于充分利用標(biāo)注情感語音樣本對生成的語音情感模型進行測試,能夠避免由情感語音樣本的標(biāo)注錯誤導(dǎo)致的模型缺陷,訓(xùn)練得到更加魯棒的語音情感模型。圖5是示出根據(jù)本發(fā)明的一個實施例的生成語音情感模型的方法的示例性過程的流程圖。如圖5所示,該方法從步驟500開始。在步驟501中,通過無監(jiān)瞀聚類將標(biāo)注為同一情感狀態(tài)的多個情感語音樣本聚類成η個子類,每個子類對應(yīng)于同一情感狀態(tài)的不同情感表達方式中的ー種情感表達方式;在步驟502中,為每個子類中的情感語音樣本生成一個語音情感模型,從而得到分別對應(yīng)于η個子類的η個語音情感模型,η個語音情感模型用于識別語音信號所承載的不同情感表達方式的情感狀態(tài),其中η為大于或等于2的整數(shù)。該方法在步驟503結(jié)束??梢酝ㄟ^各種方式來收集情感語音樣本,例如來自非專業(yè)演員的錄音數(shù)據(jù),或者來自電視劇的演員錄音數(shù)據(jù),或者來自廣播、電視中訪談類節(jié)目的錄音數(shù)據(jù)等。無監(jiān)瞀聚類的方法例如是最近距離聚類法、系統(tǒng)聚類法、逐步形成聚類法等。然而應(yīng)當(dāng)明白,可采用的無監(jiān)瞀聚類的方法并不限于此。圖6是示出根據(jù)本發(fā)明的一個實施例的生成步驟的示例性過程的流程圖。如圖6所示,在步驟5020中,根據(jù)從每個子類中的情感語音樣本中所提取的聲學(xué)特征建立所述每個子類的聲學(xué)模型。接著,在步驟5022中,訓(xùn)練與每個子類的聲學(xué)模型相適應(yīng)的情感分類器。最后,在步驟503結(jié)束??梢圆捎枚喾N方法來建立聲學(xué)模型和訓(xùn)練情感分類器,例如可以采用支持向量機(SVM)、隱馬爾科夫模型(HMM)、人工神經(jīng)網(wǎng)絡(luò)(ANN)等方法。具體的SVM、HMM、ANN等方法由于眾多文獻都有詳細論述,這里就不再展開說明。然而應(yīng)當(dāng)明白,可采用的方法并不限于此。由步驟5020得到的聲學(xué)模型和由步驟5022得到的分類器構(gòu)成了初始的語音情感模型。語音情感模型可以以數(shù)據(jù)庫的形式存儲到語音情感模型知識庫中。本領(lǐng)域技術(shù)人員可以理解,語音情感模型也可以以其它形式存儲。圖7是示出根據(jù)本發(fā)明的另ー個實施例的生成步驟的示例性過程的流程圖。圖7所示的生成步驟與圖6所示的基本相同,下面僅描述不同之處。在步驟5024中,判斷是否對初始的語音情感模型進行更新。如果為“是”,則執(zhí)行步驟5026;如果為“否”,則結(jié)束(步驟503)。在步驟5026中,根據(jù)所標(biāo)注的多個情感語音樣本與所述初始的語音情感模型的匹配結(jié)果更新初始的語音情感模型的參數(shù)。執(zhí)行完步驟5026后,返回步驟5020。經(jīng)過更新的語音情感模型可以以數(shù)據(jù)庫的形式存儲到語音情感模型知識庫中。本領(lǐng)域技術(shù)人員可以理解,經(jīng)過更新的語音情感模型也可以以其它形式存儲。圖8是示出根據(jù)本發(fā)明的另ー個實施例的生成語音情感模型的方法的示例性過程的流程圖。圖8所示的生成語音情感模型的方法與圖5所示的基本相同,下面僅描述不同之處。如圖8所示,在步驟603中,判斷是否對標(biāo)注情感語音樣本進行修正。如果為“是”,則執(zhí)行步驟604;如果為“否”,則結(jié)束(步驟605)。在步驟604中,采用標(biāo)注情感語音樣本對生成的語音情感模型進行測試,井根據(jù)測試結(jié)果修正所述標(biāo)注情感語音樣本的標(biāo)注信息。由于充分利用標(biāo)注情感語音樣本對生成的語音情感模型進行測試,能夠避免由情感語音樣本的標(biāo)注錯誤所導(dǎo)致的模型缺陷,訓(xùn)練得到更加魯棒的語音情感模型。執(zhí)行完步驟604后,返回到步驟603。圖9是示出根據(jù)本發(fā)明的一個實施例的修正步驟的示例性過程的流程圖。如圖9所示,在步驟6040中,采用所述標(biāo)注情感語音樣本對生成的語音情感模型進行測試,根據(jù)測試結(jié)果生成所述標(biāo)注情感語音樣本的新標(biāo)注信息。接著,在步驟6042中,將新標(biāo)注信息與相應(yīng)的原始的標(biāo)注信息進行比較。在步驟6044中,判斷新標(biāo)注信息與相應(yīng)的原始的標(biāo)注信息是否一致。如果一致,則返回步驟603 ;若不一致,執(zhí)行步驟6046。在步驟6046中,采用新標(biāo)注信息修正相應(yīng)的原始的標(biāo)注信息。執(zhí)行完步驟6046后,返回步驟603。圖10是示出根據(jù)本發(fā)明的一個實施例的識別語音信號中所承載的情感狀態(tài)的設(shè)備的示例性結(jié)構(gòu)的框圖。該識別語音信號中所承載的情感狀態(tài)的設(shè)備包括語音情感識別部103。語音情感識別部103將預(yù)處理后的語音信號與至少ー個情感狀態(tài)中的每ー個情感狀態(tài)的η個語音情感模型中的每ー個分別進行相似度匹配,以識別語音信號所承載的不同情 感表達方式的每ー個情感狀態(tài),其中,同一情感狀態(tài)的η個語音情感模型中的每ー個對應(yīng)于同一情感狀態(tài)的不同情感表達方式中的ー種情感表達方式,并且η為大于或等于2的整數(shù)。圖11是示出根據(jù)本發(fā)明的一個實施例的語音情感識別部的示例性結(jié)構(gòu)的框圖。語音情感識別部103包括模型語音情感模型匹配部401和投票部403。語音情感模型匹配部401計算在所述語音情感模型中的每ー個的條件下預(yù)處理后的語音信號承載語音情感模型中的每ー個的相應(yīng)情感狀態(tài)的概率值,從計算得到的概率值中選擇前幾個作為投票候選概率值。例如,若存在“高興”、“中性”、“生氣”3種情感狀態(tài)的12個語音情感模型,其中針對“高興”有四個語音情感模型Η1、Η2、Η3和Η4,針對“中性”有兩個語音情感模型Ml和M2,針對“生氣”有六個語音情感模型A1、A2、A3、A4、A5和A6。計算在12個語音情感模型中的每ー個的條件下預(yù)處理后的語音信號承載該12個語音情感模型中的每ー個的相應(yīng)情感狀態(tài)的概率值,這樣共得到12個概率值。從這12個概率值中選擇前N個作為投票候選概率值。投票部403對N個投票候選概率值按對應(yīng)的情感狀態(tài)進行計票,將相應(yīng)投票候選概率值的數(shù)目最大的情感狀態(tài)確定為語音信號所承載的情感狀態(tài)。將N個投票候選概率值按照語音情感模型對應(yīng)的情感狀態(tài)進行分類,統(tǒng)計每類中投票候選概率值的票數(shù)(即語音情感模型出現(xiàn)的次數(shù))。如果相應(yīng)投票候選概率值的數(shù)目最大的情感狀態(tài)的數(shù)目為2或2以上,則分別計算每個情感狀態(tài)的相應(yīng)投票候選概率值的數(shù)目之和,將最大投票候選概率值的數(shù)目之和的相應(yīng)情感狀態(tài)確定為語音信號所承載的情感狀態(tài)。所確定的情感狀態(tài)所對應(yīng)的語音情感模型的概率值中,最大的概率值就是輸入的語音信號所承載的情感狀態(tài)與該語音情感模型之間的相似度。以上述“3種情感的12個模型”為例,模型匹配部401得到12個概率值,取這些概率值中最大的N = 5個作為投票候選概率值。例如,如果“高興”的H2模型的概率值為O. 9,“生氣”的A2模型的概率值O. 85,“高興”的H3模型的概率值為O. 82,“中性”的Ml模型的概率值為O. 76,“高興”的H4模型的概率值為O. 68,則“高興”的票數(shù)計為3,“生氣”的票數(shù)計為1,“中性”的票數(shù)計為I。由干“高興”的票數(shù)最多,因此當(dāng)前語音信號所承載的情感狀態(tài)被確定為“高興”。在“高興”對應(yīng)的3個模型H2、H3和H4中,模型H2的概率值最大,因此確定“高興”以模型H2的情感表達方式來表達,情感相似度為O. 9。再例如,如果“高興”的H2模型的概率值為O. 9,“生氣”的A2模型的概率值為O. 85,“高興”的H3模型的概率值為O. 82,“中性”的Ml模型的概率值為O. 76,“生氣”的A5模型的概率值為O. 68,則“高興”的票數(shù)計為2,“生氣”的票數(shù)計為2,“中性”的票數(shù)計為1,其中,“高興”對應(yīng)的2個模型的概率值之和為O. 9 (H2) +0. 82 (H3) = I. 72 ;“生氣”對應(yīng)的2個模型的概率值之和為0.85 (A2)+0.68 (A5) =1.53。由于“高興”對應(yīng)的2個模型的概率值之和I. 72大于“生氣”對應(yīng)的2個模型的概率值之和I. 53,因此當(dāng)前語音信號所承載的情感狀態(tài)被確定為“高興”。在“高興”對應(yīng)的2個模型H2、H3中,模型H2的概率值最大,因此確定“高興”以模型H2的情感表達方式來表達,情感相似度為O. 9。圖12是示出根據(jù)本發(fā)明的一個實施例的識別語音信號中所承載的情感狀態(tài)的方法的示例性過程的流程圖。如圖12所示,該方法從步驟800開始。接著,在步驟801中,將預(yù)處理后的語音信號與至少ー個情感狀態(tài)中的每ー個情感狀態(tài)的η個語音情感模型中的每ー個分別進行相似度匹配,以識別語音信號所承載的不同情感表達方式的每ー個情感狀態(tài),其中,同一情感狀態(tài)的η個語音情感模型中的每ー個對應(yīng)于同一情感狀態(tài)的不同情感表達方式中的ー種情感表達方式,并且η為大于或等于2的整數(shù)。最后,在步驟802結(jié)束。圖13是示出根據(jù)本發(fā)明的一個實施例的識別步驟的示例性過程的流程圖。如圖13所示,從步驟800開始。接著,在步驟8010中,計算在語音情感模型中的每ー個的條件下預(yù)處理后的語音信號承載語音情感模型中的每ー個的相應(yīng)情感狀態(tài)的概率值,從計算得到的概率值中選擇前幾個作為投票候選概率值。
接著,在步驟8012中,對投票候選概率值按對應(yīng)的情感狀態(tài)進行計票,將包含投票候選概率值的數(shù)目最大的情感狀態(tài)確定為語音信號所承載的情感狀態(tài)。將這些投票候選概率值按照語音情感模型對應(yīng)的情感狀態(tài)進行分類,統(tǒng)計每類中投票候選概率值的票數(shù)(即語音情感模型出現(xiàn)的次數(shù))。如果相應(yīng)投票候選概率值的數(shù)目最大的情感狀態(tài)的數(shù)目為2或2以上,則分別計算每個所述情感狀態(tài)的相應(yīng)投票候選概率值的數(shù)目之和,將最大投票候選概率值的數(shù)目之和的相應(yīng)情感狀態(tài)確定為語音信號所承載的情感狀態(tài)。所確定的情感狀態(tài)所對應(yīng)的語音情感模型的概率值中,最大的概率值就是輸入的語音信號所承載的情感狀態(tài)與該語音情感模型之間的相似度。最后,在步驟802結(jié)束。還需要指出的是,執(zhí)行上述系列處理的步驟可以自然地按照說明的順序按時間順序執(zhí)行,但是并不需要一定按照時間順序執(zhí)行。某些步驟可以并行或彼此獨立地執(zhí)行。在前面的說明書中參照特定實施例描述了本發(fā)明。然而本領(lǐng)域的普通技術(shù)人員理 解,在不偏離如權(quán)利要求書限定的本發(fā)明的范圍的前提下可以進行各種修改和改變。
權(quán)利要求
1.一種生成語音情感模型的方法,包括以下步驟 通過無監(jiān)督聚類將標(biāo)注為同一情感狀態(tài)的多個情感語音樣本聚類成n個子類,每個子類對應(yīng)于所述同一情感狀態(tài)的不同情感表達方式中的一種情感表達方式;以及 為每個子類中的情感語音樣本生成一個語音情感模型,從而得到分別對應(yīng)于所述n個子類的n個語音情感模型,所述n個語音情感模型用于識別語音信號所承載的不同情感表達方式的所述情感狀態(tài), 其中,n為大于或等于2的整數(shù)。
2.根據(jù)權(quán)利要求I所述的方法,其中所述生成步驟包括以下步驟 根據(jù)從所述每個子類中的情感語音樣本中所提取的聲學(xué)特征建立所述每個子類的聲學(xué)模型;以及 訓(xùn)練與所述每個子類的聲學(xué)模型相適應(yīng)的情感分類器, 其中,所述聲學(xué)模型和所述情感分類器構(gòu)成初始的語音情感模型。
3.根據(jù)權(quán)利要求2所述的方法,其中所述生成步驟還包括以下步驟 根據(jù)所標(biāo)注的多個情感語音樣本與所述初始的語音情感模型的匹配結(jié)果更新所述初始的語音情感模型的參數(shù)。
4.根據(jù)權(quán)利要求1-3中任一項所述的方法,在所述生成步驟之后還包括以下步驟 采用所標(biāo)注的多個情感語音樣本對生成的語音情感模型進行測試,并根據(jù)測試結(jié)果生成所標(biāo)注的多個情感語音樣本的新標(biāo)注信息;以及 將所述新標(biāo)注信息與相應(yīng)的原始的標(biāo)注信息進行比較,若不一致,則采用所述新標(biāo)注信息修正所述相應(yīng)的原始的標(biāo)注信息。
5.一種生成語音情感模型的設(shè)備,包括 無監(jiān)督聚類部,通過無監(jiān)督聚類將標(biāo)注為同一情感狀態(tài)的多個情感語音樣本聚類成n個子類,每個子類對應(yīng)于所述同一情感狀態(tài)的不同情感表達方式中的一種情感表達方式;以及 語音情感模型生成部,為每個子類中的情感語音樣本生成一個語音情感模型,從而得到分別對應(yīng)于所述n個子類的n個語音情感模型,所述n個語音情感模型用于識別語音信號所承載的不同情感表達方式的所述情感狀態(tài), 其中,n為大于或等于2的整數(shù)。
6.根據(jù)權(quán)利要求5所述的設(shè)備,其中所述語音情感模型生成部進一步包括 聲學(xué)模型建立部,根據(jù)從所述每個子類中的情感語音樣本中所提取的聲學(xué)特征建立所述每個子類的聲學(xué)模型;以及 分類器訓(xùn)練部,訓(xùn)練與所述每個子類的聲學(xué)模型相適應(yīng)的情感分類器, 其中,所述聲學(xué)模型和所述情感分類器構(gòu)成初始的語音情感模型。
7.根據(jù)權(quán)利要求6所述的設(shè)備,其中所述情感模型生成部還包括 語音情感模型更新部,根據(jù)所標(biāo)注的多個情感語音樣本與所述初始的語音情感模型的匹配結(jié)果更新所述初始的語音情感模型的參數(shù)。
8.根據(jù)權(quán)利要求5-7中任一項所述的設(shè)備,所述設(shè)備還包括 語音情感模型測試部,采用所標(biāo)注的多個情感語音樣本對生成的語音情感模型進行測試,并根據(jù)測試結(jié)果生成所標(biāo)注的多個情感語音樣本的新標(biāo)注信息;以及測試結(jié)果反饋部,將所述新標(biāo)注信息與相應(yīng)的原始的標(biāo)注信息進行比較,若不一致,則采用所述新標(biāo)注信息修正所述相應(yīng)的原始的標(biāo)注信息。
9.一種識別語音信號中所承載的情感狀態(tài)的方法,包括以下步驟 將預(yù)處理后的語音信號與至少一個情感狀態(tài)中的每一個情感狀態(tài)的n個語音情感模型中的每一個分別進行相似度匹配,以識別所述語音信號所承載的不同情感表達方式的所述每一個情感狀態(tài), 其中,同一情感狀態(tài)的n個語音情感模型中的每一個對應(yīng)于所述同一情感狀態(tài)的不同情感表達方式中的一種情感表達方式,以及n為大于或等于2的整數(shù)。
10.根據(jù)權(quán)利要求9所述的方法,其中所述識別步驟包括以下步驟 計算在所述語音情感模型中的每一個的條件下所述預(yù)處理后的語音信號承載所述語音情感模型中的每一個的相應(yīng)情感狀態(tài)的概率值,從計算得到的概率值中選擇前幾個作為投票候選概率值;以及 對所述投票候選概率值按對應(yīng)的情感狀態(tài)進行計票,將包含投票候選概率值的數(shù)目最大的情感狀態(tài)確定為所述語音信號所承載的情感狀態(tài)。
11.根據(jù)權(quán)利要求10所述的方法,其中, 如果所述相應(yīng)投票候選概率值的數(shù)目最大的情感狀態(tài)的數(shù)目為2或2以上,則分別計算每個所述情感狀態(tài)的相應(yīng)投票候選概率值的數(shù)目之和,將最大投票候選概率值的數(shù)目之和的相應(yīng)情感狀態(tài)確定為所述語音信號所承載的情感狀態(tài)。
12.—種識別語音信號中所承載的情感狀態(tài)的設(shè)備,包括 語音情感識別部,將預(yù)處理后的語音信號與至少一個情感狀態(tài)中的每一個情感狀態(tài)的n個語音情感模型中的每一個分別進行相似度匹配,以識別所述語音信號所承載的不同情感表達方式的所述每一個情感狀態(tài), 其中,同一情感狀態(tài)的n個語音情感模型中的每一個對應(yīng)于所述同一情感狀態(tài)的不同情感表達方式中的一種情感表達方式,以及n為大于或等于2的整數(shù)。
13.根據(jù)權(quán)利要求12所述的設(shè)備,其中所述語音情感識別部包括 語音情感模型匹配部,計算在所述語音情感模型中的每一個的條件下所述預(yù)處理后的語音信號承載所述語音情感模型中的每一個的相應(yīng)情感狀態(tài)的概率值,從計算得到的概率值中選擇前幾個作為投票候選概率值;以及 投票部,對所述投票候選概率值按對應(yīng)的情感狀態(tài)進行計票,將相應(yīng)投票候選概率值的數(shù)目最大的情感狀態(tài)確定為所述語音信號所承載的情感狀態(tài)。
14.根據(jù)權(quán)利要求13所述的設(shè)備,其中, 如果所述相應(yīng)投票候選概率值的數(shù)目最大的情感狀態(tài)的數(shù)目為2或2以上,則分別計算每個所述情感狀態(tài)的相應(yīng)投票候選概率值的數(shù)目之和,將最大投票候選概率值的數(shù)目之和的相應(yīng)情感狀態(tài)確定為所述語音信號所承載的情感狀態(tài)。
全文摘要
公開了一種生成語音情感模型的方法、設(shè)備以及識別語音信號中所承載的情感狀態(tài)的方法、設(shè)備。生成語音情感模型的方法包括以下步驟通過無監(jiān)督聚類將標(biāo)注為同一情感狀態(tài)的多個情感語音樣本聚類成n個子類,每個子類對應(yīng)于同一情感狀態(tài)的不同情感表達方式中的一種情感表達方式;以及為每個子類中的情感語音樣本生成一個語音情感模型,從而得到分別對應(yīng)于n個子類的n個語音情感模型,n個語音情感模型用于識別語音信號所承載的不同情感表達方式的情感狀態(tài),其中,n為大于或等于2的整數(shù)。
文檔編號G10L15/00GK102637433SQ20111003731
公開日2012年8月15日 申請日期2011年2月9日 優(yōu)先權(quán)日2011年2月9日
發(fā)明者徐明星, 徐露, 李鵬, 王彬, 郭慶, 陸應(yīng)亮 申請人:富士通株式會社, 清華大學(xué)