本發(fā)明屬于語音情感識別,具體涉及一種基于師生模型的多任務約束端到端含噪語音情感識別方法。
背景技術:
1、目前,在理想環(huán)境條件下,語音情感識別系統(tǒng)已展現(xiàn)出卓越性能。然而,當這些系統(tǒng)應用于現(xiàn)實世界時,環(huán)境噪聲會干擾語音信號中的有效信息,從而使得檢測顯著的語音情感表征變得極為困難。研究人員從多個方面展開了針對性的嘗試,包括預處理操作以改善或消除原始語音信號中的噪聲,選擇對噪聲更具魯棒性的特征,以及構建更為魯棒和穩(wěn)定的模型。
2、預處理算法通過減少或消除噪聲的影響來改善語音信號質量。現(xiàn)有的方法包括譜減法、基于最優(yōu)修正對數(shù)譜幅度估計器的音頻增強方法,以及使用濾波器進行預處理的方法等等?;谏疃葘W習的語音增強在識別嘈雜語音中的情緒方面也逐漸顯現(xiàn)出優(yōu)勢。例如,一項研究使用長短期記憶(long?short?term?memory,lstm)架構構建增強模型,結合改進的語音存在概率來估計lstm結構掩碼的后處理方法,從而提高了識別準確性。chakraborty等人研究了一種基于噪聲梅爾頻率倒譜系數(shù)的矢量泰勒級數(shù)展開的特征補償技術,并通過具有聽覺掩蔽公式的矢量泰勒級數(shù)展開改進該技術,展示了顯著的性能優(yōu)勢。
3、特征選擇旨在確定最相關的特征,從更廣泛的特征集合中提取特征并降低數(shù)據(jù)維數(shù),以減少過擬合并增加可解釋性。在噪聲環(huán)境下的語音情感識別研究中,研究者們探討并提出了多種特征提取策略,包括噪聲自適應、說話人自適應、結合說話人和噪聲的自適應以及噪聲特定特征選擇等。這些方法通常與基于相關性的特征子集選擇和順序浮動前向搜索相結合,以提高模型在含噪環(huán)境下的性能。bandela等人提出了一種基于低級描述符性能的特征選擇方法,使用卷積神經(jīng)網(wǎng)絡(convolutional?neural?network,cnn)結構在compare2013特征集的65個低級描述符上進行測試,評估不同特征選擇方法的噪聲魯棒性。實驗結果顯示,該方法在10db噪聲下將語音情感識別性能分別提高24.4%(喚醒)、23.9%(優(yōu)勢)和43.2%(效價)。
4、針對噪聲干擾的情況,建立更具魯棒性和穩(wěn)健性的模型是提高整體模型識別率的關鍵方法之一。triantafyllopoulos等人研究了訓練可擴展的深度學習架構,以增強低信噪比環(huán)境下的音頻信號。zhu?zhou等人提出了一種虛擬放大法和一個魯棒的多場景語音情感識別系統(tǒng),通過修改音頻的環(huán)境條件后合成新的數(shù)據(jù)庫,模擬不同水平的高斯白噪聲、真實世界噪聲和混響下的實驗。tan等人使用半監(jiān)督學習技術識別音樂情感,并進行了嘈雜環(huán)境下的學生訓練實驗,貢獻了更多的靈感與思考。guimaraes等人使用噪聲和混響來增強訓練數(shù)據(jù),并將課程學習和多任務學習方法相結合,構建了一個基于hubert的語音情感識別模型,實驗結果表明,該模型在“野外”語音應用中表現(xiàn)出一定的優(yōu)勢。jaiswal等人研究了噪聲對人類和機器感知情緒的影響,并探索了去噪特征空間和語音增強算法與情緒識別模型的集成方法。
技術實現(xiàn)思路
1、本發(fā)明目的在于針對上述現(xiàn)有技術的缺陷和不足,提出了一種基于師生模型的多任務約束端到端含噪語音情感識別方法,利用教師模型通過多任務訓練提煉顯著情感特征,并借鑒知識蒸餾指導學生模型訓練,提升準確性和魯棒性;引入多級增強損失機制,使學生模型在中間層學習教師模型的關鍵情感信息,使含噪語音特征逼近干凈語音特征,結合超參數(shù)損失函數(shù)提升含噪環(huán)境下的模型準確率;采用語音增強輔助任務與多級增強損失結合,構建復合型多層級語音增強輔助結構,增強含噪環(huán)境下的魯棒性;測試階段僅關注學生模型的核心流程,無需依賴教師模型或輔助任務,降低測試復雜度,提升測試速率。
2、本發(fā)明為解決其技術問題所采用的技術方案是:提供一種基于師生模型的多任務約束端到端含噪語音情感識別方法,所述該方法包括如下步驟,
3、步驟1:將干凈語音信號輸入到教師模型,教師模型由7個一維卷積層構成的cnn特征編碼器和12個transformer層組成的wav2vec?2.0模型級聯(lián)構成,然后通過全連接層,獲得字母向量和情感軟標簽,在語音識別和情感識別聯(lián)合約束下精調教師模型網(wǎng)絡;
4、步驟2:將含噪語音信號輸入到學生模型,學生模型情感預測任務由7個一維卷積層構成的cnn特征編碼器和12個transformer層組成的wav2vec?2.0模型級聯(lián)構成,然后通過全連接層,獲得預測標簽;
5、步驟3:將含噪語音信號輸入到學生模型,學生模型語音增強任務由7個一維卷積層構成的cnn特征編碼器與12個transformer層和7個一維轉置卷積層組成的語音增強結構組成,輸出預測語音;
6、步驟4:根據(jù)所提出多重聯(lián)合損失函數(shù),形成了一個復合型的約束機制,用以引導和規(guī)范學生模型的訓練過程,提升含噪環(huán)境下模型準確率的效果;
7、步驟5:對所提出的一種基于師生模型的多任務約束端到端含噪語音情感識別方法進行性能評估。
8、進一步地,所述步驟1的具體步驟為:
9、步驟1-1:輸入的含噪語音信號音頻波形x經(jīng)過7個一維卷積層得到下采樣的音頻特征z;
10、步驟1-2:特征編碼器輸出下采樣的音頻特征z經(jīng)過12個transformer層得到上下文表示c;
11、步驟1-3:上下文表示c經(jīng)過全連接層得到字母向量和情感軟標簽yit,其中字母向量不再參與后續(xù)任務。
12、進一步地,所述步驟2的具體步驟為:
13、步驟2-1:輸入的干凈語音信號音頻波形x’經(jīng)過7個一維卷積層得到下采樣的音頻特征z’;
14、步驟2-2:特征編碼器輸出下采樣的音頻特征z’經(jīng)過12個transformer層得到上下文表示c’;
15、步驟2-3:上下文表示c’經(jīng)過全連接層得到情感標簽參與后續(xù)任務。
16、進一步地,所述步驟3的具體步驟為:
17、步驟3-1:輸入的干凈語音信號音頻波形x’經(jīng)過7個一維卷積層得到下采樣的音頻特征z’;
18、步驟3-2:特征編碼器輸出下采樣的音頻特征z’經(jīng)過12個transformer層得到上下文表示c’;
19、步驟3-3:上下文表示c’經(jīng)過語音重建模塊得到預測語音參與后續(xù)任務。
20、進一步地,所述步驟3-3中,實現(xiàn)語音重建模塊的具體方法包括如下步驟:
21、步驟3-3-1:構建語音重建模塊模塊,由7個與cnn特征提取器維度匹配的轉置卷積神經(jīng)網(wǎng)絡構成;
22、步驟3-3-2:使用殘差連接技術,將cnn特征提取器的奇數(shù)層網(wǎng)絡輸出與語音重建模塊的對應層輸出相連接,有效地促進了網(wǎng)絡內部信息的流通。
23、進一步地,所述步驟4的具體步驟為:
24、步驟4-1:蒸餾損失kl的計算公式表達為:
25、
26、其中,是教師模型得到的第i個樣本的軟標簽,是由學生模型得到的第i個樣本的軟預測,t為蒸餾溫度系數(shù),為情感軟標簽,為情感標簽,得到蒸餾損失;
27、步驟4-2:構建情感標簽損失函數(shù)為多分類交叉熵損失函數(shù):
28、
29、其中,m表示樣本數(shù),n表示情感類別數(shù),p(xij)表示對于觀測樣本i屬于類別j的預測概率,得到情感標簽損失;
30、步驟4-3:構建多級增強損失函數(shù):
31、
32、其中,定義m為樣本數(shù)量,為教師模型第i層的輸出,代表學生網(wǎng)絡模型第i層輸出的特征向量,即學生模型模型第i層的預測值,i表示教師模型和學生模型的transformer網(wǎng)絡的層數(shù);
33、分別計算了教師模型與學生模型transformer網(wǎng)絡偶數(shù)層間的損失,共計6層,公式如下:
34、
35、得到多級增強損失;
36、步驟4-4:構建尺度不變信噪比損失函數(shù)(si-snr):
37、
38、其中,stargct表示目標信號(即原始干凈語音信號),enoisc表示噪聲信號(即增強信號與目標信號之間的差異),||·||2表示l2范數(shù),即信號能量的度量,得到語音增強損失;
39、步驟4-5:將蒸餾損失、情感標簽損失、多級增強損失與語音增強損失聯(lián)合約束的形式,共同約束學生模型的訓練:
40、lall=αlkl+(1-α)lce+βls+γlsi-snr,
41、其中,α為蒸餾損失的權重,β為多級增強損失的權重,γ為語音增強損失的權重。
42、進一步地,所述步驟5中,對所提出的一種基于師生模型的多任務約束端到端含噪語音情感識別方法進行性能評估的的具體步驟為:
43、步驟5-1:將基于師生模型的多任務約束端到端含噪語音情感識方法與去除教師模型的方法進行消融實驗,驗證師生模型的有效性;
44、步驟5-2:將基于師生模型的多任務約束端到端含噪語音情感識方法與去除多級增強連接的方法進行消融實驗,驗證師生模型的有效性;
45、步驟5-3:將基于師生模型的多任務約束端到端含噪語音情感識方法與去除語音增強的方法進行消融實驗,驗證語音增強模塊的有效性;
46、步驟5-4:討論聯(lián)合約束中權重損失的權重的具體取值,探究出最優(yōu)的權重值。
47、有益效果:
48、1、本發(fā)明使用教師學生模型并借鑒知識蒸餾的思想,通過教師模型的多任務訓練,提煉出純凈、顯著的情感特征,以指導學生模型的訓練過程,提升了模型的準確性和魯棒性,增強了泛化能力。
49、2、本發(fā)明引入了一種多級增強損失機制,讓學生模型能夠在中間層學習到教師模型從干凈語音中提取的關鍵情感信息,使學生模型從含噪語音中學習到的特征逼近干凈語音的特征,本發(fā)明通過多個超參數(shù)將多個損失函數(shù)聯(lián)合起來,可以達到針對含噪環(huán)境下提升模型準確率的效果。
50、3、本發(fā)明采用了語音增強輔助任務的思想,將語音增強輔助任務與多級增強損失相結合,實現(xiàn)了復合型多層級的語音增強輔助結構,提升了語音情感識別任務在含噪環(huán)境下的魯棒性。
51、4、本發(fā)明在測試階段時,僅需關注學生模型中特定于語音情感識別分類的核心流程,而無需依賴教師模型或學生模型中設計的輔助任務支線,顯著降低了測試過程中所需處理的模型復雜度,從而在不犧牲準確性的前提下,有效地提升了測試的執(zhí)行速率。