本發(fā)明涉及人工智能,尤其涉及一種長時(shí)語音的多情緒感知定位方法及系統(tǒng)。
背景技術(shù):
1、一種長時(shí)語音的多情緒感知定位方法適用于處理包含多個(gè)情緒變化的長時(shí)間語音片段,這在情感計(jì)算、智能客服、心理健康監(jiān)測等領(lǐng)域具有廣泛的應(yīng)用價(jià)值。例如,在智能客服系統(tǒng)中,客戶的情緒可能隨著對(duì)話內(nèi)容的變化而波動(dòng),使用這種方法可以實(shí)時(shí)定位出客戶在對(duì)話過程中的不同情緒狀態(tài),從而幫助系統(tǒng)做出更加個(gè)性化和情感化的響應(yīng)。此外,在心理健康監(jiān)測中,該方法能夠識(shí)別并跟蹤個(gè)體在長時(shí)間對(duì)話或獨(dú)白中的情緒變化,為臨床診斷和心理干預(yù)提供數(shù)據(jù)支持。
2、隨著現(xiàn)代人工智能技術(shù)和音頻處理能力的不斷增強(qiáng),基于深度學(xué)習(xí)的一種長時(shí)語音的多情緒感知定位方法遇到了如下阻礙:
3、一、在語音領(lǐng)域,尚未有完善的長時(shí)語音多情緒定位方法被提出,針對(duì)于單一情感標(biāo)簽的語音情感定位,僅存王穎志等人在2023年自動(dòng)語音識(shí)別與理解研討會(huì)上發(fā)表的《語音情感分段:情感何時(shí)出現(xiàn)?》提出的語音情感定位(sed)方法,雖然能夠識(shí)別語音中的情感變化并確定其邊界,但其在處理長時(shí)語音時(shí)存在局限性。sed方法主要依賴幀級(jí)分類和后處理技術(shù)來定位情感邊界,這種方法難以有效捕捉長時(shí)依賴關(guān)系,因?yàn)閹?jí)處理的時(shí)間上下文有限,尤其是在處理包含多個(gè)情緒變化的長時(shí)間對(duì)話時(shí),其定位精度和穩(wěn)定性會(huì)受到影響。
4、二、在長時(shí)語音多情緒標(biāo)簽定位方法的背景下,還有一篇較為接近的工作是王冰等人發(fā)表的《speechee:用于語音事件抽取的新基準(zhǔn)》,文中提出speechee任務(wù),旨在從語音中提取事件信息,填補(bǔ)語音事件提取領(lǐng)域的空白。但speechee任務(wù)的主要劣處在于其無法同時(shí)識(shí)別和定位語音中的情緒變化。盡管speechee關(guān)注從語音中提取事件信息,并解決了事件觸發(fā)詞和論元識(shí)別的問題,但它忽視了情緒信息的提取,而情緒是語音理解中不可忽視的重要維度。此外,speechee任務(wù)在處理長時(shí)間語音時(shí),缺乏對(duì)情緒動(dòng)態(tài)變化的精確定位能力,尤其是在多個(gè)情緒交替出現(xiàn)的場景下,其模型難以捕捉到情緒隨時(shí)間的細(xì)微波動(dòng)。這使得speechee在需要多情緒標(biāo)簽定位的復(fù)雜語音情感分析任務(wù)中表現(xiàn)出明顯的局限性。
技術(shù)實(shí)現(xiàn)思路
1、基于背景技術(shù)存在的技術(shù)問題,本發(fā)明提出了一種長時(shí)語音的多情緒感知定位方法及系統(tǒng),增強(qiáng)了多情緒識(shí)別的準(zhǔn)確性和魯棒性。
2、本發(fā)明提出的一種長時(shí)語音的多情緒感知定位方法,將待識(shí)別的長時(shí)語音輸入到已訓(xùn)練完成的時(shí)序多尺度空間對(duì)偶模型中,輸出所述長時(shí)語音中的多個(gè)情緒狀態(tài);
3、時(shí)序多尺度空間對(duì)偶模型的訓(xùn)練過程如下:
4、步驟一、獲取多種情緒的長時(shí)語音,并通過通用語音預(yù)訓(xùn)練模型分別提取為初始長時(shí)語音特征向量,以構(gòu)成訓(xùn)練數(shù)據(jù)集;
5、步驟二、將初始長時(shí)語音特征向量歸一化后輸入到低維時(shí)序ssd架構(gòu)模塊中,以得到低維狀態(tài)空間對(duì)偶輸出;
6、步驟三、將低維狀態(tài)空間對(duì)偶輸出沿時(shí)間維度進(jìn)行時(shí)序下采樣和層歸一化操作,將在時(shí)間維度上縮小一半的特征輸入到中維時(shí)序ssd架構(gòu)模塊,得到中維狀態(tài)空間對(duì)偶輸出;
7、步驟四、將中維狀態(tài)空間對(duì)偶輸出沿其時(shí)間維度進(jìn)行時(shí)序下采樣和層歸一化操作,將在時(shí)間維度上縮小一半的特征輸入到高維時(shí)序ssd架構(gòu)模塊,得到高維狀態(tài)空間對(duì)偶輸出;
8、步驟五、將低維狀態(tài)空間對(duì)偶輸出、中維狀態(tài)空間對(duì)偶輸出和高維狀態(tài)空間對(duì)偶輸出進(jìn)行特征融合操作,將融合得到的復(fù)雜長時(shí)多情感語音時(shí)序特征輸入到情緒解析模塊,以預(yù)測最終的多情緒標(biāo)簽及時(shí)間定位信息;
9、步驟六、基于步驟五輸出的多情緒標(biāo)簽及時(shí)間定位信息構(gòu)建總損失函數(shù),反向傳播調(diào)整時(shí)序多尺度空間對(duì)偶模型中的可訓(xùn)練參數(shù),從而訓(xùn)練時(shí)序多尺度空間對(duì)偶模型。
10、進(jìn)一步地,在步驟二至五中,低維時(shí)序ssd架構(gòu)模塊、中維時(shí)序ssd架構(gòu)模以及高維時(shí)序ssd架構(gòu)模塊的結(jié)構(gòu)一致,均包括門控機(jī)制、一維卷積層、激活層和狀態(tài)空間對(duì)偶模型,時(shí)序ssd架構(gòu)模塊對(duì)輸入特征的處理過程如下:
11、輸入特征通過全連接層后作為狀態(tài)空間對(duì)偶模型的輸入;
12、輸入特征依次通過全連接層、一維卷積層、激活層后作為狀態(tài)空間對(duì)偶模型的輸入;
13、將輸入特征經(jīng)過門控機(jī)制的輸出與狀態(tài)空間對(duì)偶模型的輸出作積得到狀態(tài)空間對(duì)偶輸出。
14、進(jìn)一步地,狀態(tài)空間對(duì)偶模型對(duì)于輸入特征的計(jì)算公式如下:
15、st=atst-1+btxt
16、yt=ctst
17、其中,st,st-1分別表示時(shí)間t、t-1時(shí)的隱藏狀態(tài)向量,at,bt,ct分別為隨著時(shí)間t變化的矩陣參數(shù),xt,yt分別為時(shí)間t時(shí)的狀態(tài)空間對(duì)偶模型的輸入特征和輸出特征;
18、其中,狀態(tài)空間對(duì)偶模型對(duì)at設(shè)置:將所有對(duì)角元素設(shè)置為相同值,并將所有非對(duì)角元素設(shè)置為零。
19、進(jìn)一步地,所述門控機(jī)制對(duì)輸入特征的處理過程為:輸入特征依次經(jīng)過全連接層、激活層后的輸出作為門控機(jī)制的輸出。
20、進(jìn)一步地,在步驟五中,將低維狀態(tài)空間對(duì)偶輸出、中維狀態(tài)空間對(duì)偶輸出和高維狀態(tài)空間對(duì)偶輸出進(jìn)行特征融合操作,得到復(fù)雜長時(shí)多情感語音時(shí)序特征,具體為:
21、將中維狀態(tài)空間對(duì)偶輸出和高維狀態(tài)空間對(duì)偶輸出分別進(jìn)行線性插值,以在時(shí)間維度上恢復(fù)至于低維狀態(tài)空間對(duì)偶輸出相同維度;
22、將低維狀態(tài)空間對(duì)偶輸出、線性插值后的中維狀態(tài)空間對(duì)偶輸出、線性插值后的高維狀態(tài)空間對(duì)偶輸出拼接后經(jīng)過線性層降維操作,輸出復(fù)雜長時(shí)多情感語音時(shí)序特征。
23、進(jìn)一步地,在步驟五中,情緒解析模塊包括多情緒分類模塊和時(shí)間定位模塊,情緒解析模塊的處理過程具體為:
24、將復(fù)雜長時(shí)多情感語音時(shí)序特征輸入到多情緒分類模塊,經(jīng)過平均池化和多層感知機(jī)操作以輸出多情緒標(biāo)簽;
25、將復(fù)雜長時(shí)多情感語音時(shí)序特征輸入到時(shí)間定位模塊,經(jīng)過全連接層、激活層操作以輸出時(shí)間定位信息。
26、進(jìn)一步地,在步驟六中,總損失函數(shù)的構(gòu)建為:
27、基于預(yù)測輸出的多情緒標(biāo)簽以及真實(shí)情感標(biāo)簽構(gòu)建交叉熵?fù)p失函數(shù);
28、基于預(yù)測輸出的時(shí)間定位信息以及真實(shí)的時(shí)間定位信息構(gòu)建均方誤差損失函數(shù);
29、基于交叉熵?fù)p失函數(shù)和均方誤差損失函數(shù)之和構(gòu)建總損失函數(shù)。
30、一種長時(shí)語音的多情緒感知定位系統(tǒng),將待識(shí)別的長時(shí)語音輸入到已訓(xùn)練完成的時(shí)序多尺度空間對(duì)偶模型中,輸出所述長時(shí)語音中的多個(gè)情緒狀態(tài);
31、時(shí)序多尺度空間對(duì)偶模型的訓(xùn)練過程如下:
32、步驟一、獲取多種情緒的長時(shí)語音,并通過通用語音預(yù)訓(xùn)練模型分別提取為初始長時(shí)語音特征向量,以構(gòu)成訓(xùn)練數(shù)據(jù)集;
33、步驟二、將初始長時(shí)語音特征向量歸一化后輸入到低維時(shí)序ssd架構(gòu)模塊中,以得到低維狀態(tài)空間對(duì)偶輸出;
34、步驟三、將低維狀態(tài)空間對(duì)偶輸出沿時(shí)間維度進(jìn)行時(shí)序下采樣和層歸一化操作,將在時(shí)間維度上縮小一半的特征輸入到中維時(shí)序ssd架構(gòu)模塊,得到中維狀態(tài)空間對(duì)偶輸出;
35、步驟四、將中維狀態(tài)空間對(duì)偶輸出沿其時(shí)間維度進(jìn)行時(shí)序下采樣和層歸一化操作,將在時(shí)間維度上縮小一半的特征輸入到高維時(shí)序ssd架構(gòu)模塊,得到高維狀態(tài)空間對(duì)偶輸出;
36、步驟五、將低維狀態(tài)空間對(duì)偶輸出、中維狀態(tài)空間對(duì)偶輸出和高維狀態(tài)空間對(duì)偶輸出進(jìn)行特征融合操作,得到復(fù)雜長時(shí)多情感語音時(shí)序特征,并將復(fù)雜長時(shí)多情感語音時(shí)序特征輸入情緒解析模塊,以預(yù)測最終的多情緒標(biāo)簽及時(shí)間定位信息;
37、步驟六、基于步驟五輸出的多情緒標(biāo)簽及時(shí)間定位信息構(gòu)建總損失函數(shù),反向傳播調(diào)整時(shí)序多尺度空間對(duì)偶模型中的可訓(xùn)練參數(shù),從而訓(xùn)練時(shí)序多尺度空間對(duì)偶模型。
38、本發(fā)明提供的一種長時(shí)語音的多情緒感知定位方法及系統(tǒng)的優(yōu)點(diǎn)在于:結(jié)合了低維時(shí)序ssd架構(gòu)模塊、中維時(shí)序ssd架構(gòu)模塊、高維時(shí)序ssd架構(gòu)模塊和情緒解析模塊實(shí)現(xiàn)了在時(shí)序多尺度視角下,對(duì)于長時(shí)語音序列的多情緒感知定位。這種獨(dú)特的架構(gòu)設(shè)計(jì)使得時(shí)序多尺度空間對(duì)偶模型能從多個(gè)尺度中汲取豐富的長時(shí)語音情感信息,有效捕捉長期和短期時(shí)間信息,增強(qiáng)了多情緒識(shí)別的準(zhǔn)確性和魯棒性,創(chuàng)新性地提出了長時(shí)語音多情緒感知定位這一新任務(wù)。另外,引入的狀態(tài)空間對(duì)偶模型通過其在長時(shí)序多尺度的選擇性遺忘以保留關(guān)鍵信息的特性,有效解決了傳統(tǒng)深度學(xué)習(xí)模型在處理長時(shí)序語音時(shí)的性能瓶頸,提高了模型的計(jì)算效率,為實(shí)現(xiàn)長時(shí)語音序列的多情緒感知定位應(yīng)用提供了可能性。