本發(fā)明屬于語(yǔ)音分離,具體涉及一種基于通道注意力機(jī)制和transformer的端到端含噪語(yǔ)音分離方法。
背景技術(shù):
1、語(yǔ)音分離任務(wù)源自經(jīng)典的“雞尾酒會(huì)問(wèn)題”,即在含有相互重疊的說(shuō)話人語(yǔ)音以及復(fù)雜背景噪聲下,辨析和理解每位說(shuō)話人所講的內(nèi)容就變得較為困難。生活中許多場(chǎng)景(比如會(huì)議語(yǔ)音轉(zhuǎn)錄、多媒體處理等)都往往涉及語(yǔ)音分離技術(shù)的應(yīng)用,并且大部分場(chǎng)景都包含一定的背景噪聲。而語(yǔ)音技術(shù)的發(fā)展,不僅是為了提高語(yǔ)音分離系統(tǒng)提取到的說(shuō)話人語(yǔ)音的質(zhì)量,更多的也是為了能夠顯著且有效地降低背景噪聲的干擾,提高語(yǔ)音分離系統(tǒng)的對(duì)背景噪聲的魯棒性,這一點(diǎn)在現(xiàn)實(shí)中的許多應(yīng)用場(chǎng)景下具有十分重要的意義。
2、語(yǔ)音分離的目標(biāo)不僅僅是從含噪混合信號(hào)中分離出單個(gè)說(shuō)話者的語(yǔ)音,而且還包括識(shí)別和分割出單個(gè)說(shuō)話者的語(yǔ)音片段,以便用作其他重要的下游任務(wù)的輸入。在這一過(guò)程中作為上游任務(wù)的語(yǔ)音分離系統(tǒng)可作為智能設(shè)備的預(yù)處理模塊,最后根據(jù)用戶特定應(yīng)用場(chǎng)景下的需求,做出相應(yīng)的下游任務(wù)(比如自動(dòng)語(yǔ)音識(shí)別、語(yǔ)音情感分析等)適配。而深度學(xué)習(xí)技術(shù)在這一過(guò)程中扮演著越來(lái)越重要的角色。深度學(xué)習(xí)技術(shù)的應(yīng)用涵蓋圖像、自然語(yǔ)音處理、信號(hào)處理以及其他相關(guān)領(lǐng)域,它是對(duì)人腦思維方式的一種更為深刻的學(xué)習(xí)和借鑒,并且在一些領(lǐng)域中,深度學(xué)習(xí)技術(shù)的表現(xiàn)甚至可以與人類的智慧相媲美。特別是隨著人工智能技術(shù)和高性能硬件設(shè)備(如cpu和gpu)的迅速發(fā)展和進(jìn)步,一些基于深度學(xué)習(xí)的語(yǔ)音分離技術(shù)已不再受軟硬件固有特性的限制,許多語(yǔ)音分離算法已經(jīng)部署到實(shí)際應(yīng)用中。利用深度學(xué)習(xí)技術(shù)能夠很好地識(shí)別出說(shuō)話人在含噪混合語(yǔ)信號(hào)中的語(yǔ)音模式(包括說(shuō)話人與背景噪聲之間、不同說(shuō)話人之間),顯著改善和提升了人們和智能機(jī)器對(duì)說(shuō)話人語(yǔ)音的理解。
3、現(xiàn)如今許多基于深度學(xué)習(xí)的語(yǔ)音分離技術(shù),主要涉及從時(shí)域或者時(shí)頻域聯(lián)合分析的方法,后者雖然能夠充分利用語(yǔ)音信號(hào)時(shí)頻域信息的互補(bǔ)性,但是許多算法往往涉及較高的計(jì)算量和參數(shù)量,這一對(duì)于資源受限的場(chǎng)景存在一定的約束。并且用于將時(shí)域語(yǔ)音信號(hào)變換到時(shí)頻域的短時(shí)傅里葉變換技術(shù)對(duì)于語(yǔ)音信號(hào)中的不同頻率分量具有相同感受野(窗尺寸)的缺陷,在一定程度上也限制了基于時(shí)頻域語(yǔ)音分離系統(tǒng)性能的提升。目前主流的語(yǔ)音分離模型從整體上都可以看作是編碼器+分離模塊+解碼器的結(jié)構(gòu)(這一結(jié)構(gòu)源自conv-tasnet模型),編碼器用于獲得輸入含噪語(yǔ)音信號(hào)中的潛在特征表示,接著分離器負(fù)責(zé)從特征空間中進(jìn)一步學(xué)習(xí)和捕捉說(shuō)話人的語(yǔ)音模式和降低背景噪聲的干擾,獲得估計(jì)信號(hào)的掩碼。最后通過(guò)解碼器,將分離模塊得到的說(shuō)話人語(yǔ)音從潛在特征空間映射到真實(shí)語(yǔ)音信號(hào)空間。
4、基于conv-tasnet的端到端結(jié)構(gòu),不僅僅在語(yǔ)音分離領(lǐng)域得到了許多應(yīng)用,也給其他語(yǔ)音(如語(yǔ)音增強(qiáng))任務(wù)以及其他領(lǐng)域的模型架構(gòu)產(chǎn)生了深刻的影響。在conv-tasnet網(wǎng)絡(luò)中,分離模塊是通過(guò)堆疊多個(gè)的一維卷積層來(lái)捕捉和表征語(yǔ)音時(shí)域波形中信息的動(dòng)態(tài)時(shí)間變化進(jìn)而對(duì)說(shuō)話人的語(yǔ)音模式進(jìn)行建模,但是多層堆疊的卷積操作使得分離模塊學(xué)習(xí)到了的特征掩碼信息存在一定的冗余,這在一定程度上降低了語(yǔ)音分離系統(tǒng)的有效性,對(duì)此需要對(duì)分離模塊輸出的特征進(jìn)行合理地過(guò)濾和篩選。另外,conv-tasnet編碼器和分離模塊缺乏對(duì)語(yǔ)音全局上下文依賴關(guān)系的充分利用,因?yàn)榭赡茉谀撤N情況下基于上下文信息的背景噪聲對(duì)含噪聲語(yǔ)音分離系統(tǒng)的性能具有潛在的促進(jìn)作用。而無(wú)論是語(yǔ)音的局部特性還是全局特性,對(duì)于語(yǔ)音分離系統(tǒng)分離出不同說(shuō)話人的語(yǔ)音和降低背景噪聲的干擾都十分重要。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明目的在于針對(duì)上述現(xiàn)有技術(shù)的缺陷和不足,提出了一種基于通道注意力機(jī)制和transformer的端到端含噪語(yǔ)音分離方法,提出從特征的通道維度執(zhí)行通道注意力,分別作用于編碼器和分離器當(dāng)中,并且本發(fā)明的方法在通道注意力完成決策之前引入了額外的時(shí)序感知和上下文信息,時(shí)域感知有助于增強(qiáng)特征的語(yǔ)音時(shí)序特性,上下文信息的存在有效地提高了通道注意力機(jī)制中通道權(quán)重分配的合理性,實(shí)現(xiàn)對(duì)語(yǔ)音特征的有效過(guò)濾和篩選。其次,本發(fā)明提出雙向lstm-transformer編碼層來(lái)提升編碼器輸出特征的全局表達(dá)和建模能力,進(jìn)一步提高編碼器進(jìn)行特征編碼的有效性。
2、本發(fā)明為解決其技術(shù)問(wèn)題所采用的技術(shù)方案是:一種基于道注意力機(jī)制和transformer的端到端含噪語(yǔ)音分離方法,所述該方法包括如下步驟:
3、步驟1:輸入的含噪聲混合信號(hào)smix是由來(lái)自兩個(gè)說(shuō)話人各自的干凈語(yǔ)音信號(hào)s1、s2和環(huán)境背景噪聲n疊加而成,首先通過(guò)一個(gè)卷積0層和四個(gè)級(jí)聯(lián)且參數(shù)共享的卷積1層對(duì)輸入混合信號(hào)進(jìn)行預(yù)處理,接著利用時(shí)序感知上下文通道注意力層和雙向lstm-transformer編碼器層分別對(duì)預(yù)處理結(jié)果進(jìn)行特征篩選和賦予全局上下文信息,以獲得語(yǔ)音信號(hào)有效且具備一定上下文建模能力的潛在特征表示fencoder;
4、步驟2:由多個(gè)級(jí)聯(lián)的1維卷積層和時(shí)序感知上下文通道注意力層組成的分離器基本模塊的三個(gè)級(jí)聯(lián)逐步處理特征fencoder,并生成語(yǔ)音分離掩碼mask,最后將掩碼mask與編碼器輸出的混合信號(hào)潛在特征表示fencoder進(jìn)行元素乘法,以分離出混合信號(hào)中每位說(shuō)話人語(yǔ)音以及背景噪聲對(duì)應(yīng)的潛在空間特征fseparator;
5、步驟3:分離器輸出的特征表示fseparator最終會(huì)通過(guò)與編碼器前端的四個(gè)級(jí)聯(lián)卷積1層和一個(gè)卷積0層相對(duì)應(yīng)的轉(zhuǎn)置卷積層所組成的解碼器,完成從潛在特征空間到真實(shí)時(shí)域語(yǔ)音信號(hào)空間和背景噪聲信號(hào)空間的映射,解碼器最終輸出所估計(jì)的三個(gè)時(shí)域信號(hào),分別對(duì)應(yīng)兩個(gè)說(shuō)話人各自的語(yǔ)音信號(hào)和背景噪聲信號(hào)
6、步驟4:由語(yǔ)音分離的整體損失函數(shù)對(duì)語(yǔ)音分離系統(tǒng)的性能進(jìn)行約束和優(yōu)化;
7、步驟5:對(duì)所提出的一種基于通道注意力機(jī)制和transformer的端到端含噪語(yǔ)音分離方法進(jìn)行性能評(píng)估。
8、進(jìn)一步地,所述步驟1的具體步驟為:
9、步驟1-1:時(shí)域含噪混合語(yǔ)音信號(hào)通過(guò)卷積0層,經(jīng)過(guò)卷積核尺寸為l/2=16、步幅s=l/2為的1維卷積,得到近似平穩(wěn)且相互存在重疊的語(yǔ)音段smix-k,輸出通道數(shù)為c0=512,并使用prelu獲取特征的非線性表達(dá)能力;
10、步驟1-2:將分段后的語(yǔ)音信號(hào)smix-k進(jìn)一步通過(guò)四個(gè)級(jí)聯(lián)且參數(shù)共享的卷積1層,減少模型訓(xùn)練參數(shù)的同時(shí)進(jìn)一步提高語(yǔ)音特征的表達(dá)能力;
11、步驟1-3:將經(jīng)過(guò)一個(gè)卷積0層和四個(gè)卷積1層后輸出的語(yǔ)音非線性特征映射通過(guò)時(shí)序感知上下文通道注意力層,在其輸出通道維度進(jìn)行特征的篩選,過(guò)濾掉冗余特征,并提高對(duì)分離比較有用的特征的有效性;
12、步驟1-4:對(duì)在通道維度進(jìn)行基于注意力機(jī)制的特征篩選后的輸出結(jié)果增強(qiáng)語(yǔ)音分離系統(tǒng)對(duì)語(yǔ)音信號(hào)的全局建模能力,通過(guò)雙向lstm-transformer編碼器層最終得到有效且具有一定全局上下文信息的語(yǔ)音信號(hào)的潛在特征表示fencoder。
13、進(jìn)一步地,所述步驟1-2中,實(shí)現(xiàn)四個(gè)級(jí)聯(lián)且參數(shù)共享的卷積1層的具體方法包括如下步驟:
14、步驟1-2-1:由帶有膨脹卷積功能的1維卷積和非線性激活函數(shù)prelu所組成單個(gè)卷積1層,提高語(yǔ)音特征映射的非線性表達(dá)能力,1維卷積輸入通道數(shù)、輸出通道數(shù)、卷積核尺寸、卷積核步幅、膨脹卷積擴(kuò)張率、卷積填充數(shù)分別為512、512、3、1、1、1;
15、步驟1-2-2:將四個(gè)卷積1層進(jìn)行級(jí)聯(lián),并且四層之間實(shí)現(xiàn)參數(shù)共享。
16、進(jìn)一步地,所述步驟1-3中,實(shí)現(xiàn)時(shí)序感知上下文通道注意力層的具體方法包括如下步驟:
17、步驟1-3-1:對(duì)所述步驟1-2的輸出增加時(shí)序感知特性;
18、步驟1-3-2:對(duì)所述步驟1-3-1的輸出引入上下文關(guān)系,以便為后續(xù)通道注意力模塊提供合理的通道權(quán)重分配;
19、步驟1-3-3:對(duì)具有時(shí)序感知上下文的語(yǔ)音特征在通道維度進(jìn)行特征賦權(quán)和篩選。
20、進(jìn)一步地,所述步驟1-3-1中,實(shí)現(xiàn)具有時(shí)序感知特性的語(yǔ)音特征表示的具體方法包括如下步驟:
21、步驟1-3-1-1:將輸入特征的最后一個(gè)維度平均池化為1,只保留時(shí)間維度,進(jìn)而充分學(xué)習(xí)輸入信號(hào)在時(shí)域的動(dòng)態(tài)變化,這一操作可定義為:
22、
23、其中n是輸入特征最后一維的維度數(shù)目,xt和yt分別表示第t個(gè)時(shí)間點(diǎn)上的特征,fgap代表全局平均池化;
24、步驟1-3-1-2:將僅保留時(shí)間維度的結(jié)果通過(guò)1×1卷積執(zhí)行通道變換;
25、步驟1-3-1-3:relu激活以提供非線性表達(dá)能力;
26、步驟1-3-1-4:1×1卷積再次對(duì)語(yǔ)音的時(shí)域特性進(jìn)行學(xué)習(xí),并通過(guò)sigmoid函數(shù)計(jì)算權(quán)重,作為對(duì)輸入特征的時(shí)序感知;
27、步驟1-3-1-5:將學(xué)習(xí)到的對(duì)輸入特征的時(shí)序感知權(quán)重與輸入特征進(jìn)行元素乘法,為時(shí)域信號(hào)增加全局的時(shí)序感知特性。
28、進(jìn)一步地,所述步驟1-3-2中,實(shí)現(xiàn)具有時(shí)序感知上下文語(yǔ)音特征的具體方法包括如下步驟:
29、步驟1-3-2-1:將所述步驟1-3-1-5的二維輸出通過(guò)1×1卷積增加通道數(shù);
30、步驟1-3-2-2:合并上一步輸出的后兩個(gè)維度;
31、步驟1-3-2-3:1×1卷積對(duì)所述步驟1-3-2-2二維輸出結(jié)果的通道維度進(jìn)行壓縮,計(jì)算上下文特征;
32、步驟1-3-2-4:應(yīng)用softmax函數(shù)計(jì)算上下文特征的掩碼;
33、步驟1-3-2-5:將上下文特征與上下文掩碼進(jìn)行元素乘法,進(jìn)而獲得具時(shí)序感知上下文的語(yǔ)音特征。
34、進(jìn)一步地,所述步驟1-3-3中,實(shí)現(xiàn)對(duì)具有時(shí)序感知上下文的語(yǔ)音特征在通道維度進(jìn)行特征賦權(quán)和篩選的具體方法包括如下步驟:
35、步驟1-3-3-1:1×1卷積對(duì)所述步驟1-3-2-5的輸出結(jié)果變換其通道數(shù);
36、步驟1-3-3-2:層歸一化增強(qiáng)語(yǔ)音特征和模型訓(xùn)練的穩(wěn)定性;
37、步驟1-3-3-3:再次應(yīng)用1×1卷積執(zhí)行通道數(shù)的變換;
38、步驟1-3-3-4:sigmoid函數(shù)為所述步驟1-3-1-5輸出結(jié)果估計(jì)其在通道維度的注意力分?jǐn)?shù)(即為每個(gè)通道所分配的權(quán)重),其中由于注意力分?jǐn)?shù)的獲取涉及語(yǔ)音的全局上下文信息,這使得通道權(quán)重的分配更加合理和有效;
39、步驟1-3-3-5:將所述步驟1-3-1-5輸出與其對(duì)應(yīng)通道注意力分?jǐn)?shù)在通道維度做元素乘法,進(jìn)而完成在通道維度對(duì)時(shí)序感知上下文語(yǔ)音特征的有效篩選。
40、進(jìn)一步地,所述步驟1-4中,實(shí)現(xiàn)雙向lstm-transformer編碼器層的具體方法包括如下步驟:
41、步驟1-4-1:通過(guò)transformer編碼器層的多頭注意力機(jī)制,增強(qiáng)所述步驟1-3-3-5輸出結(jié)果中的語(yǔ)音時(shí)序長(zhǎng)距離依賴關(guān)系;
42、步驟1-4-2:將所述步驟1-3-3-5輸出的具有時(shí)序感知上下文語(yǔ)音特征與所述步驟1-4-1結(jié)果相加并應(yīng)用層歸一化,平滑輸出的同時(shí)有助于保證模型訓(xùn)練的穩(wěn)定性和防止梯度爆炸以及梯度消失;
43、步驟1-4-3:使用帶有全局感知雙向lstm的前饋層增加語(yǔ)音特征的全局建模和表達(dá)能力;
44、步驟1-4-4:將所述步驟1-4-2與步驟1-4-3的輸出相加并應(yīng)用層歸一化,在此,得到編碼器最終輸出的語(yǔ)音潛在特征表示fencoder,以供分離器進(jìn)一步學(xué)習(xí)。
45、進(jìn)一步地,所述步驟1-4-1中,實(shí)現(xiàn)多頭注意力機(jī)制的具體方法包括如下步驟:
46、步驟1-4-1-1:定義多頭注意力機(jī)制中頭的數(shù)量h,不同頭負(fù)責(zé)關(guān)注輸入特征不同的特征和信息角度,并捕捉語(yǔ)音時(shí)序特征中的全局依賴關(guān)系,提高模型對(duì)語(yǔ)音信號(hào)上下文關(guān)系的理解和建模能力;
47、步驟1-4-1-2:每個(gè)頭內(nèi)部計(jì)算關(guān)于輸入特征的k(key)、q(query)和v(value),不同頭擁有不同的計(jì)算k、q和v的權(quán)重矩陣,其參數(shù)是可學(xué)習(xí)的;
48、步驟1-4-1-3:softmax計(jì)算每個(gè)頭的注意力分?jǐn)?shù),注意力分?jǐn)?shù)與v相乘得到輸入特征關(guān)于注意力的特征表示;
49、步驟1-4-1-4:將多頭的輸出結(jié)果進(jìn)行拼接,并與一個(gè)的參數(shù)可學(xué)習(xí)的權(quán)重矩陣相乘,最終形成對(duì)輸入特征的多頭注意力特征表示。
50、進(jìn)一步地,所述步驟1-4-3中,實(shí)現(xiàn)帶有全局感知雙向lstm的前饋層的具體方法包括如下步驟:
51、步驟1-4-3-1:將所述步驟1-4-2輸出復(fù)制一份,并將其中一份按照隱藏時(shí)間維度進(jìn)行反轉(zhuǎn),即時(shí)間倒序;
52、步驟1-4-3-2:對(duì)隱藏時(shí)間維度正序和倒序的語(yǔ)音特征分別送入lstm網(wǎng)絡(luò),并將兩個(gè)輸出進(jìn)行拼接,進(jìn)一步增強(qiáng)所述步驟1-4-1輸出的多通道語(yǔ)音注意力特征的全局上下文表達(dá)和建模能力;
53、步驟1-4-3-3:relu激活和一個(gè)線性層進(jìn)一步提高特征的非線性表達(dá)能力。
54、進(jìn)一步地,所述步驟2中,實(shí)現(xiàn)分離器的具體步驟包括:
55、步驟2-1:對(duì)所述步驟1的輸出應(yīng)用層歸一化,提高模型訓(xùn)練的穩(wěn)定性,隨后借助1×1卷積變換通道數(shù);
56、步驟2-2:由級(jí)聯(lián)的1維卷積層和所述步驟1-3中構(gòu)建的時(shí)序感知上下文通道注意力層構(gòu)建分離器的基本模塊;
57、步驟2-3:將所述步驟2-2所得到的分離器基本模塊級(jí)聯(lián)三次;
58、步驟2-4:將級(jí)聯(lián)的三個(gè)分離器基本模塊中的相關(guān)輸出進(jìn)行特征聚合以及非線性映射,以獲得語(yǔ)音分離掩碼mask;
59、步驟2-5:將語(yǔ)音分離掩碼mask與編碼器輸出特征fencoder相乘,得到兩個(gè)說(shuō)話人語(yǔ)音信號(hào)以及背景噪聲信號(hào)對(duì)應(yīng)的潛在特征估計(jì)fseparator。
60、進(jìn)一步地,所述步驟2-2中,實(shí)現(xiàn)分離器基本模塊的具體方法包括如下步驟:
61、步驟2-2-1:構(gòu)建1維卷積層;
62、步驟2-2-2:將所述步驟2-2-1所構(gòu)建的1維卷積層按照膨脹因子2m(其中m=0,1,2,3,4,5,6,7)依次級(jí)聯(lián),即將1維卷積層堆疊八次;
63、步驟2-2-3:接著將所述步驟2-2-2的輸出送入所述步驟1-3所構(gòu)建的時(shí)序感知上下文通道注意力層,在通道維度執(zhí)行合理的特征篩選并賦予特征一定的上下文信息,進(jìn)而完成分離器基本模塊的構(gòu)建。
64、進(jìn)一步地,所述步驟2-2-1中,實(shí)現(xiàn)1維卷積層的具體方法包括如下步驟:
65、步驟2-2-1-1:1×1卷積對(duì)輸入執(zhí)行通道變換以適應(yīng)后續(xù)層的計(jì)算;
66、步驟2-2-1-2:prelu激活和層歸一化分別用于增強(qiáng)特征的非線性和模型訓(xùn)練的穩(wěn)定性;
67、步驟2-2-1-3:將所述步驟2-2-1-2的輸出送入深度卷積,在減少計(jì)算量的同時(shí),提升卷積核參數(shù)的使用效率;
68、步驟2-2-1-4:prelu激活并層歸一化;
69、步驟2-2-1-5:應(yīng)用兩個(gè)并列的1×1卷積對(duì)所述步驟2-2-1-4的輸出執(zhí)行不同通道數(shù)的變換,其中一個(gè)卷積輸出與所述步驟2-2-1-1的輸出進(jìn)行元素相加,最終得到1維卷積層的兩個(gè)輸出。
70、進(jìn)一步地,所述步驟2-4中,將級(jí)聯(lián)的三個(gè)分離器基本模塊中的相關(guān)輸出進(jìn)行特征聚合以及非線性映射得到最終語(yǔ)音分離掩碼的具體方法包括如下步驟:
71、步驟2-4-1:將三個(gè)級(jí)聯(lián)的分離器基本模塊中的1維卷積層和時(shí)序感知上下文通道注意力層的輸出相加,獲得分離器級(jí)聯(lián)模塊整體的特征聚合表示fsum;
72、步驟2-4-2:prelu對(duì)聚合的特征fsum進(jìn)行非線性映射;
73、步驟2-4-3:1×1卷積調(diào)整通道數(shù)以適應(yīng)后續(xù)激活層;
74、步驟2-4-4:sigmoid分別計(jì)算在編碼器輸出的混合特征fencoder中兩個(gè)說(shuō)話人語(yǔ)音以及背景噪聲所對(duì)應(yīng)的掩碼mask。
75、進(jìn)一步地,所述步驟3的具體步驟包括:
76、步驟3-1:將所述步驟2輸出的分離特征fseparator經(jīng)過(guò)四個(gè)級(jí)聯(lián)的轉(zhuǎn)置卷積層,其卷積核尺寸、步幅和擴(kuò)張因子等與編碼器前端四個(gè)級(jí)聯(lián)的卷積1層相對(duì)應(yīng),且參數(shù)不共享,逐步學(xué)習(xí)具有真實(shí)語(yǔ)音信號(hào)和背景噪聲信號(hào)時(shí)域波形的特征表示;
77、步驟3-2:最后經(jīng)過(guò)與編碼器最前端卷積0層相對(duì)應(yīng)的轉(zhuǎn)置卷積層,得到分離出的兩個(gè)說(shuō)話人語(yǔ)音時(shí)域信號(hào)以及背景噪聲時(shí)域信號(hào)。
78、進(jìn)一步地,所述步驟4的具體步驟包括:
79、步驟4-1:定義語(yǔ)音分離的整體損失函數(shù),
80、losstotal=losssi-snr+αlossmr,
81、其中l(wèi)osssi-snr=-si-snr表示尺度不變的信噪比損失函數(shù)(si-snr),輸入為分離信號(hào)與對(duì)應(yīng)的目標(biāo)信號(hào),用于減少兩個(gè)說(shuō)話人的語(yǔ)音估計(jì)及背景噪聲估計(jì)與真實(shí)說(shuō)話人語(yǔ)音和背景噪聲的差距,lossmr對(duì)應(yīng)多分辨率(multi-resolution,mr)損失,旨在同時(shí)考慮語(yǔ)音時(shí)域和頻域信息的基礎(chǔ)上改善分離語(yǔ)音的質(zhì)量和更為有效地剔除說(shuō)話人語(yǔ)音中的噪聲,α是人為可調(diào)的超參數(shù),用于調(diào)整多分辨率損失對(duì)語(yǔ)音分離系統(tǒng)性能的貢獻(xiàn)和影響程度;
82、步驟4-2:應(yīng)用置換不變的訓(xùn)練策略,降低模型分離性能對(duì)說(shuō)話人順序的依賴,增強(qiáng)模型的泛化能力,通過(guò)梯度下降逐步減少語(yǔ)音分離算法的整體損失。
83、進(jìn)一步地,所述步驟5中,對(duì)所提出的一種基于通道注意力機(jī)制和transformer的端到端含噪語(yǔ)音分離方法進(jìn)行性能評(píng)估的具體方法包括如下步驟:
84、步驟5-1:將一種基于通道注意力機(jī)制和transformer的端到端含噪語(yǔ)音分離方法與現(xiàn)有的時(shí)域語(yǔ)音分離模型進(jìn)行對(duì)比,驗(yàn)證其整體性能;
85、步驟5-2:將一種基于通道注意力機(jī)制和transformer的端到端含噪語(yǔ)音分離方法與基于transformer的端到端含噪語(yǔ)音分離方法進(jìn)行對(duì)比,驗(yàn)證時(shí)序感知上下文通道注意力層的有效性;
86、步驟5-3:將一種基于通道注意力機(jī)制和transformer的端到端含噪語(yǔ)音分離方法與基于通道注意力機(jī)制的端到端含噪語(yǔ)音分離方法進(jìn)行對(duì)比,驗(yàn)證雙向lstm-transformer編碼器層的有效性。
87、有益效果:
88、1、本發(fā)明為了篩選出對(duì)分離有用的特征,提出從特征的通道維度執(zhí)行通道注意力,分別作用于編碼器和分離器當(dāng)中,并且本發(fā)明的方法在通道注意力完成決策之前引入了額外的時(shí)序感知和上下文信息,時(shí)域感知有助于增強(qiáng)特征的語(yǔ)音時(shí)序特性,上下文信息的存在有效地提高了通道注意力機(jī)制中通道權(quán)重分配的合理性,實(shí)現(xiàn)對(duì)語(yǔ)音特征的有效過(guò)濾和篩選。
89、2、本發(fā)明為了提升語(yǔ)音分離系統(tǒng)中編碼器得到的語(yǔ)音潛在特征的全局表達(dá)和建模能力,基于transformer編碼器層和帶有雙向lstm的前饋層來(lái)構(gòu)建雙向lstm的transformer編碼器層,在提升編碼器特征編碼有效性的同時(shí)增強(qiáng)系統(tǒng)對(duì)語(yǔ)音時(shí)序的全局建模能力,從而進(jìn)一步增強(qiáng)系統(tǒng)在含噪條件下執(zhí)行語(yǔ)音分離的性能。
90、3、本發(fā)明也將噪聲信號(hào)進(jìn)行估計(jì),所估計(jì)的噪聲信號(hào)的也間接反映了語(yǔ)音分離系統(tǒng)的性能,特別是從說(shuō)話人語(yǔ)音中剔除噪聲的干擾。另外,估計(jì)的噪聲有助于加強(qiáng)模型從混合特征表示中學(xué)習(xí)說(shuō)話人語(yǔ)音和噪聲之間的差異和聯(lián)系,提高模型對(duì)噪聲的魯棒性,因?yàn)橛行┣闆r下噪聲對(duì)于語(yǔ)音分離的效果也具有一定的促進(jìn)作用。