本發(fā)明屬于ai語(yǔ)音識(shí)別,更具體地說(shuō),尤其涉及基于ai的語(yǔ)音情緒識(shí)別模型的訓(xùn)練方法。
背景技術(shù):
1、語(yǔ)音情感識(shí)別是一項(xiàng)研究人類(lèi)語(yǔ)音中所蘊(yùn)含情感信息的技術(shù),用于識(shí)別和分析說(shuō)話(huà)者語(yǔ)音中的情感狀態(tài),包括愉快、悲傷、憤怒、焦慮等??梢酝ㄟ^(guò)分析語(yǔ)音中的聲調(diào)、語(yǔ)速、語(yǔ)音質(zhì)量等特征來(lái)判斷說(shuō)話(huà)者的情感狀態(tài),從而幫助人們更好地理解和交流。
2、語(yǔ)音情感識(shí)別的發(fā)展情況可以追溯到20世紀(jì)80年代,當(dāng)時(shí)研究人員開(kāi)始嘗試使用語(yǔ)音信號(hào)處理技術(shù)來(lái)識(shí)別說(shuō)話(huà)者的情感狀態(tài)。隨著人工智能和機(jī)器學(xué)習(xí)技術(shù)的不斷發(fā)展,語(yǔ)音情感識(shí)別技術(shù)也得到了長(zhǎng)足的進(jìn)步。現(xiàn)在,語(yǔ)音情感識(shí)別已經(jīng)被廣泛應(yīng)用于語(yǔ)音助手、客服機(jī)器人、情感分析等領(lǐng)域。
3、目前,語(yǔ)音情感識(shí)別技術(shù)已經(jīng)可以實(shí)現(xiàn)高準(zhǔn)確度的情感識(shí)別,可以識(shí)別出說(shuō)話(huà)者的情感狀態(tài),并據(jù)此做出相應(yīng)的回應(yīng)或處理。在商業(yè)、醫(yī)療、教育等領(lǐng)域都有著廣泛的應(yīng)用前景,可以幫助人們更好地理解和交流,提高人機(jī)交互的效率和舒適度。
4、隨著人工智能和語(yǔ)音識(shí)別技術(shù)的不斷發(fā)展,語(yǔ)音情感識(shí)別技術(shù)也將會(huì)得到進(jìn)一步的改進(jìn)和應(yīng)用。
5、在進(jìn)行人工智能運(yùn)用到語(yǔ)音識(shí)別中的時(shí)候,需要對(duì)語(yǔ)音識(shí)別模型進(jìn)行訓(xùn)練,使得語(yǔ)音識(shí)別模型能夠?qū)崿F(xiàn)對(duì)語(yǔ)音進(jìn)行快速的識(shí)別,并且提高語(yǔ)音識(shí)別的精準(zhǔn)度。
6、然而現(xiàn)有技術(shù)存在一些問(wèn)題:現(xiàn)有的語(yǔ)音識(shí)別模型在訓(xùn)練的時(shí)候,雖然通過(guò)大量的樣本進(jìn)行訓(xùn)練處理,但是不對(duì)語(yǔ)音信息進(jìn)行處理,造成模型的訓(xùn)練較為緩慢,并且識(shí)別的準(zhǔn)確率較低,因此我們提出基于ai的語(yǔ)音情緒識(shí)別模型的訓(xùn)練方法。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)現(xiàn)有技術(shù)存在的問(wèn)題,本發(fā)明的目的是提供基于ai的語(yǔ)音情緒識(shí)別模型的訓(xùn)練方法,使得情緒語(yǔ)音識(shí)別數(shù)據(jù)通過(guò)stft獲得的2d矩陣,并且對(duì)情緒語(yǔ)音識(shí)別數(shù)據(jù)進(jìn)行特征提取,并且搭建能量信息模板庫(kù),從而提高識(shí)別模型的訓(xùn)練效率和精準(zhǔn)度。
2、為實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:基于ai的語(yǔ)音情緒識(shí)別模型的訓(xùn)練方法,包括如下步驟:
3、s1、收集大量的數(shù)據(jù)信息:采集大量的情緒語(yǔ)音識(shí)別數(shù)據(jù)集,并且將采集的情緒語(yǔ)音識(shí)別數(shù)據(jù)集分成訓(xùn)練集、驗(yàn)證集和測(cè)試集;
4、s2、對(duì)采集的情緒語(yǔ)音識(shí)別數(shù)據(jù)集進(jìn)行預(yù)處理:將采集的情緒語(yǔ)音識(shí)別數(shù)據(jù)集進(jìn)行去噪聲、去靜音、音頻格式轉(zhuǎn)換和數(shù)據(jù)歸一化處理;
5、s3、對(duì)采集的情緒語(yǔ)音識(shí)別數(shù)據(jù)集進(jìn)行轉(zhuǎn)換成聲譜圖:將情緒語(yǔ)音識(shí)別數(shù)據(jù)集通過(guò)stft獲得的2d矩陣,使得情緒語(yǔ)音識(shí)別數(shù)據(jù)集在不同時(shí)間和頻率上顯示能量分布;
6、s4、通過(guò)卷積神經(jīng)網(wǎng)絡(luò)提取聲譜圖中的特征:采用卷積神經(jīng)網(wǎng)絡(luò)從聲譜圖中提取局部特征,有效捕捉到不同情感狀態(tài)的能量信息,并且采用多輪特征提取,再將所有的不同情感狀態(tài)的能量信息進(jìn)行形成集合,通過(guò)計(jì)算能量信息的平均值、最大值和最小值計(jì)算得到不同情感狀態(tài)的能量信息值的范圍值;
7、s5、將不同情感狀態(tài)的能量信息進(jìn)行存儲(chǔ):將卷積神經(jīng)網(wǎng)絡(luò)中提取局部特征的能量信息進(jìn)行存儲(chǔ),形成情感狀態(tài)的能量信息模板庫(kù);
8、s6、對(duì)模型進(jìn)行評(píng)估處理:將驗(yàn)證集和測(cè)試集輸入到模型中,通過(guò)模型實(shí)現(xiàn)對(duì)驗(yàn)證集和測(cè)試集進(jìn)行情緒預(yù)測(cè),實(shí)現(xiàn)對(duì)驗(yàn)證集和測(cè)試集的預(yù)測(cè)結(jié)果進(jìn)行打上標(biāo)簽,然后驗(yàn)證集和測(cè)試集的實(shí)際標(biāo)簽進(jìn)行比對(duì),生成混合矩陣,獲取預(yù)測(cè)的概率信息,實(shí)現(xiàn)對(duì)精確率、召回率和f1分?jǐn)?shù)進(jìn)行計(jì)算,更全面地衡量模型性能。
9、具體的,所述s1中情緒語(yǔ)音識(shí)別數(shù)據(jù)集中包括等樣本數(shù)的憤怒、厭惡、恐懼、幸福、悲傷、驚訝和中立情感;
10、所述情緒語(yǔ)音識(shí)別數(shù)據(jù)集中的訓(xùn)練集、驗(yàn)證集和測(cè)試集的占比分別為訓(xùn)練集70%-80%,驗(yàn)證集和測(cè)試集各占10%-15%。
11、具體的,所述s2中的去噪聲使用音頻去噪算法去除背景噪聲;
12、去靜音用于去除情緒語(yǔ)音識(shí)別數(shù)據(jù)集中靜音部分或無(wú)用的前后空白段;
13、音頻格式轉(zhuǎn)換用于將情緒語(yǔ)音識(shí)別數(shù)據(jù)集統(tǒng)一轉(zhuǎn)為wav格式;
14、數(shù)據(jù)歸一化用于對(duì)情緒語(yǔ)音識(shí)別數(shù)據(jù)集進(jìn)行歸一化處理。
15、具體的,所述去噪聲采用的是卷積濾波算法,所述卷積濾波算法的計(jì)算公式如下:
16、,
17、其中,是輸入信號(hào);是濾波器系數(shù);是輸出信號(hào);
18、所述數(shù)據(jù)歸一化的計(jì)算公式如下:
19、,
20、其中,為輸入的歷史對(duì)話(huà)記錄,是數(shù)據(jù)集中的最小值,是數(shù)據(jù)集中的最大值,將情緒語(yǔ)音識(shí)別數(shù)據(jù)集縮放到[0,1]的范圍內(nèi)。
21、具體的,所述s3中的stft的計(jì)算公式如下:
22、;
23、其中,是在時(shí)間和頻率下的stft結(jié)果;是原始信號(hào);是一個(gè)窗函數(shù),限制了傅里葉變換的時(shí)間范圍;是傅里葉變換的核心復(fù)指數(shù);
24、stft的結(jié)果是一個(gè)復(fù)數(shù)矩陣,其中每個(gè)元素代表時(shí)間點(diǎn)和頻率點(diǎn)的幅度和相位信息;
25、通過(guò)stft得到的2d矩陣包含以下信息:
26、每一行代表一個(gè)頻率成分;
27、每一列代表一個(gè)時(shí)間段內(nèi)的頻譜信息;
28、矩陣的形態(tài),
29、設(shè)定信號(hào)的總長(zhǎng)度為n,窗口長(zhǎng)度為w,窗口重疊的長(zhǎng)度為o;
30、矩陣的行數(shù)對(duì)應(yīng)頻率軸的分辨率,是窗口長(zhǎng)度w除以2,得到了頻率點(diǎn)數(shù)w/2;
31、矩陣的列數(shù)對(duì)應(yīng)時(shí)間軸的分辨率,由滑動(dòng)窗口的步長(zhǎng)決定,設(shè)步長(zhǎng)為s,則矩陣的列數(shù)是;
32、最終得到的矩陣大小是:。
33、具體的,所述stft計(jì)算的結(jié)果是一個(gè)復(fù)數(shù)矩陣,每個(gè)元素由幅度和相位組成,幅度表示頻率成分的強(qiáng)度,相位表示信號(hào)在頻率下的相對(duì)位置;
34、幅度的表示為;
35、相位的表示為;
36、通過(guò)取復(fù)數(shù)的模來(lái)得到每個(gè)時(shí)頻點(diǎn)的幅度譜,或者通過(guò)相位角來(lái)得到相位譜;
37、幅度譜的計(jì)算公式如下:
38、;
39、其中,和分別是復(fù)數(shù)的實(shí)部和虛部;
40、相位譜的計(jì)算公式如下:
41、。
42、具體的,所述s4中卷積神經(jīng)網(wǎng)絡(luò)從聲譜圖中提取局部特征的計(jì)算如下:
43、聲譜圖的一個(gè)局部區(qū)域是時(shí)間和頻率軸上的取值,且如下所示:
44、,
45、其中,橫軸表示不同的時(shí)間點(diǎn),縱軸表示不同的頻率成分;矩陣中的每個(gè)元素表示在時(shí)間和頻率上的某一組合下的能量、幅度值或者相對(duì)位置;
46、卷積核,3×3的卷積核:
47、;
48、卷積操作:
49、卷積操作就是對(duì)每個(gè)局部區(qū)域的加權(quán)和:
50、;
51、輸出特征圖y在位置的值是:
52、;
53、其中,是輸出特征圖上的第位置的值,表示卷積操作的結(jié)果;是輸入聲譜圖在位置上的值,且是卷積核的索引;是卷積核在位置上的權(quán)重值;是卷積核的尺寸。
54、具體的,所述s4中能量信息進(jìn)行形成集合的計(jì)算如下:
55、即將憤怒、厭惡、恐懼、幸福、悲傷、驚訝和中立情感的能量信息分別形成一個(gè)集合,且集合的形式為:
56、;
57、平均值的計(jì)算如下:
58、;
59、并且,最大值為,最小值為;
60、則不同情感狀態(tài)的能量信息值的范圍值為。
61、具體的,所述s6中的混合矩陣中的橫軸和縱軸分別表示為預(yù)測(cè)標(biāo)簽和實(shí)際標(biāo)簽;根據(jù)大量的模型預(yù)測(cè)結(jié)果將預(yù)測(cè)的數(shù)值填充到混合矩陣中,并且混合矩陣的對(duì)角線設(shè)為預(yù)測(cè)為正類(lèi),實(shí)際也為正類(lèi)的樣本數(shù),表示模型正確地識(shí)別了正類(lèi)樣本,且設(shè)有;非對(duì)角線上的預(yù)測(cè)為負(fù)類(lèi),即預(yù)測(cè)為負(fù)類(lèi),但實(shí)際為正類(lèi)的樣本數(shù),表示預(yù)測(cè)錯(cuò)誤的負(fù)類(lèi)樣本,且設(shè)有。
62、具體的,所述s6中的精確率、召回率和f1分?jǐn)?shù)的計(jì)算公式如下:
63、所述精確率的計(jì)算公式如下:
64、;
65、表示正確分類(lèi)的正類(lèi)樣本占所有樣本的比例,精確率高意味著預(yù)測(cè)為正類(lèi)的樣本中,正類(lèi)的預(yù)測(cè)正確率高;
66、所述召回率的計(jì)算公式如下:
67、;
68、表示正確分類(lèi)的正類(lèi)樣本占負(fù)類(lèi)樣本的比例,召回率高意味著實(shí)際為正類(lèi)的樣本都能被正確預(yù)測(cè)為正類(lèi);
69、所述f1分?jǐn)?shù)的計(jì)算公式如下:
70、;
71、表示精確率和召回率的調(diào)和平均值,f1分?jǐn)?shù)介于0和1之間,值越大表示模型的預(yù)測(cè)結(jié)果準(zhǔn)確率高。
72、本發(fā)明的技術(shù)效果和優(yōu)點(diǎn):
73、本發(fā)明通過(guò)采集大量的情緒語(yǔ)音識(shí)別數(shù)據(jù)集,并且按照訓(xùn)練集70%-80%,驗(yàn)證集和測(cè)試集各占10%-15%進(jìn)行劃分,便于語(yǔ)音識(shí)別模型的訓(xùn)練和測(cè)試處理,通過(guò)對(duì)大量的情緒語(yǔ)音識(shí)別數(shù)據(jù)集進(jìn)行預(yù)處理,提高大量的情緒語(yǔ)音識(shí)別數(shù)據(jù)集的精準(zhǔn)度,能夠消除大量的情緒語(yǔ)音識(shí)別數(shù)據(jù)集中的白噪聲和空白段;以及對(duì)大量的情緒語(yǔ)音識(shí)別數(shù)據(jù)集進(jìn)行格式轉(zhuǎn)換,以及通過(guò)歸一化處理,降低大量的情緒語(yǔ)音識(shí)別數(shù)據(jù)集的語(yǔ)音維度,并且還能夠降低后續(xù)計(jì)算的計(jì)算壓力;
74、通過(guò)stft獲得的2d矩陣,使得情緒語(yǔ)音識(shí)別數(shù)據(jù)集在不同時(shí)間和頻率上顯示能量分布,并且stft的結(jié)果是一個(gè)復(fù)數(shù)矩陣,其中每個(gè)元素代表時(shí)間點(diǎn)和頻率點(diǎn)的幅度和相位信息,獲得情緒語(yǔ)音識(shí)別數(shù)據(jù)集的能量、幅度值或者相對(duì)位置,便于后續(xù)識(shí)別模型對(duì)情緒語(yǔ)音識(shí)別數(shù)據(jù)集進(jìn)行訓(xùn)練,通過(guò)對(duì)情緒語(yǔ)音識(shí)別數(shù)據(jù)集進(jìn)行能量、幅度值或者相對(duì)位置的計(jì)算,使得識(shí)別模型能夠?qū)崿F(xiàn)對(duì)情緒語(yǔ)音識(shí)別數(shù)據(jù)集進(jìn)行訓(xùn)練分析,并且結(jié)合計(jì)算得到的能量、幅度值或者相對(duì)位置進(jìn)行建立聲譜圖,提高計(jì)算的效率;
75、并且通過(guò)卷積神經(jīng)網(wǎng)絡(luò)從聲譜圖中提取局部特征,通過(guò)卷積核和聲譜圖之間的計(jì)算處理,實(shí)現(xiàn)對(duì)情緒語(yǔ)音識(shí)別數(shù)據(jù)集進(jìn)行特征提取,并且對(duì)憤怒、厭惡、恐懼、幸福、悲傷、驚訝和中立情感的能量信息分別形成一個(gè)特征集合,以及通過(guò)平均值、最大值和最小值計(jì)算得到不同情感狀態(tài)的能量信息值的范圍值,便于將情緒語(yǔ)音識(shí)別數(shù)據(jù)集、標(biāo)簽、特征集合和能量信息值的范圍值進(jìn)行建立鍵值對(duì)存儲(chǔ),形成情感狀態(tài)的能量信息模板庫(kù),便于后續(xù)進(jìn)行預(yù)測(cè)語(yǔ)音情緒的時(shí)候,進(jìn)行匹配識(shí)別,提高識(shí)別的精準(zhǔn)度和效率;
76、通過(guò)將驗(yàn)證集和測(cè)試集輸入到識(shí)別模型中,對(duì)驗(yàn)證集和測(cè)試集預(yù)測(cè)結(jié)果進(jìn)行記錄,生成混合矩陣,獲取預(yù)測(cè)的概率信息,實(shí)現(xiàn)對(duì)精確率、召回率和f1分?jǐn)?shù)進(jìn)行計(jì)算,更全面地衡量模型性能,實(shí)現(xiàn)對(duì)識(shí)別模型進(jìn)行評(píng)估。
77、通過(guò)以下參照附圖對(duì)本發(fā)明的示例性實(shí)施例的詳細(xì)描述,本發(fā)明的其它特征及其優(yōu)點(diǎn)將會(huì)變得清楚。