背景技術(shù):
1、機(jī)器學(xué)習(xí)能夠用于執(zhí)行廣泛范圍的任務(wù),諸如自然語(yǔ)言處理、信息檢索和圖像處理。機(jī)器學(xué)習(xí)的一個(gè)重要應(yīng)用涉及對(duì)時(shí)變信號(hào)的處理,諸如音頻信號(hào)或視頻信號(hào)。然而,用于處理時(shí)變信號(hào)的常規(guī)機(jī)器學(xué)習(xí)技術(shù)具有各種缺陷,如下文詳細(xì)討論的。
技術(shù)實(shí)現(xiàn)思路
1、提供本概要以便以簡(jiǎn)化的形式介紹一些概念,這些概念將在下文的詳細(xì)說(shuō)明中進(jìn)一步描述。本概要并不旨在標(biāo)識(shí)所請(qǐng)求保護(hù)的主題的關(guān)鍵特征或基本特征,也并不旨在用于限制所請(qǐng)求保護(hù)的主題的范圍。
2、描述總體涉及針對(duì)時(shí)變信號(hào)的對(duì)齊的技術(shù)。一個(gè)示例包括能夠在計(jì)算設(shè)備上執(zhí)行的方法或技術(shù)。所述方法或技術(shù)能夠包括將第一時(shí)變信號(hào)和第二時(shí)變信號(hào)輸入到訓(xùn)練模型中。所述方法或技術(shù)也能夠包括使用訓(xùn)練模型的注意力層對(duì)所述第一時(shí)變信號(hào)與所述第二時(shí)變信號(hào)執(zhí)行時(shí)間對(duì)齊,以獲得時(shí)間對(duì)齊的第一時(shí)變信號(hào)。所述方法或技術(shù)也能夠包括至少基于時(shí)間對(duì)齊的第一時(shí)變信號(hào)來(lái)增強(qiáng)所述第二時(shí)變信號(hào),并且輸出經(jīng)增強(qiáng)的第二時(shí)變信號(hào)。
3、另一示例包括具有硬件處理單元和存儲(chǔ)計(jì)算機(jī)可讀指令的存儲(chǔ)資源的系統(tǒng)。當(dāng)由所述硬件處理單元執(zhí)行時(shí),所述計(jì)算機(jī)可讀指令能夠使得所述系統(tǒng)訪問(wèn)包括第一時(shí)變信號(hào)、第二時(shí)變信號(hào)和目標(biāo)時(shí)變信號(hào)的訓(xùn)練數(shù)據(jù)。所述計(jì)算機(jī)可讀指令也能夠使得所述系統(tǒng)將所述第一時(shí)變信號(hào)和所述第二時(shí)變信號(hào)輸入到具有注意力層的模型中,所述注意力層將所述第一時(shí)變信號(hào)與所述第二時(shí)變信號(hào)對(duì)齊,以獲得時(shí)間上對(duì)齊的第一時(shí)變信號(hào)。所述計(jì)算機(jī)可讀指令也能夠使得所述系統(tǒng)至少基于時(shí)間對(duì)齊的第一時(shí)變信號(hào)來(lái)增強(qiáng)所述第二時(shí)變信號(hào),以獲得經(jīng)增強(qiáng)的第二時(shí)變信號(hào)。所述計(jì)算機(jī)可讀指令也能夠使得所述系統(tǒng)至少基于在所述經(jīng)增強(qiáng)的第二時(shí)變信號(hào)與所述目標(biāo)時(shí)變信號(hào)之間的差值來(lái)修改所述模型的參數(shù)。
4、另一示例包括計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)能夠存儲(chǔ)指令,所述指令當(dāng)由計(jì)算設(shè)備執(zhí)行時(shí),使得所述計(jì)算設(shè)備執(zhí)行動(dòng)作。所述動(dòng)作能夠包括接收第一時(shí)變信號(hào)和第二時(shí)變信號(hào)。所述動(dòng)作也能夠包括使用神經(jīng)網(wǎng)絡(luò)的注意力層將所述第一時(shí)變信號(hào)與所述第二時(shí)變信號(hào)對(duì)齊。
1.一種方法,包括:
2.根據(jù)權(quán)利要求1所述的方法,所述第一時(shí)變信號(hào)和所述第二時(shí)變信號(hào)包括音頻信號(hào)。
3.根據(jù)權(quán)利要求2所述的方法,所述第一時(shí)變信號(hào)包括遠(yuǎn)端信號(hào),并且所述第二時(shí)變信號(hào)包括麥克風(fēng)信號(hào)。
4.根據(jù)權(quán)利要求3所述的方法,所述經(jīng)增強(qiáng)的第二時(shí)變信號(hào)包括預(yù)測(cè)的近端信號(hào),所述增強(qiáng)包括從所述麥克風(fēng)信號(hào)中移除以下中的至少一項(xiàng):噪聲、失真或回聲。
5.根據(jù)權(quán)利要求4所述的方法,其中,所述執(zhí)行時(shí)間對(duì)齊包括:
6.根據(jù)權(quán)利要求5所述的方法,其中,所述加權(quán)包括:使用根據(jù)所述麥克風(fēng)幀產(chǎn)生的線性投影作為查詢,并且使用根據(jù)所述多個(gè)遠(yuǎn)端幀產(chǎn)生的線性投影作為鍵。
7.根據(jù)權(quán)利要求6所述的方法,其中,所述加權(quán)包括計(jì)算權(quán)重向量,所述權(quán)重向量具有與所述查詢和所述鍵中的每個(gè)鍵的相似度相對(duì)應(yīng)的權(quán)重。
8.根據(jù)權(quán)利要求7所述的方法,其中,所述加權(quán)是使用softmax層來(lái)執(zhí)行的,并且所述相似度是使用對(duì)所述查詢和所述鍵中的每個(gè)鍵的點(diǎn)積運(yùn)算來(lái)計(jì)算的。
9.根據(jù)權(quán)利要求8所述的方法,其中,所述經(jīng)加權(quán)的遠(yuǎn)端幀包括由所述權(quán)重向量加權(quán)的所述多個(gè)遠(yuǎn)端幀的總和。
10.根據(jù)權(quán)利要求9所述的方法,其中,所述增強(qiáng)包括確定抑制掩碼并且使用所述抑制掩碼來(lái)修改所述麥克風(fēng)信號(hào),并且所述抑制掩碼是由已經(jīng)與所述注意力層聯(lián)合訓(xùn)練的所述經(jīng)訓(xùn)練的模型的一個(gè)或其他層來(lái)確定的。
11.一種系統(tǒng),包括:
12.根據(jù)權(quán)利要求11所述的系統(tǒng),其中,所述目標(biāo)時(shí)變信號(hào)包括語(yǔ)音片段,所述第一時(shí)變信號(hào)包括根據(jù)所述語(yǔ)音片段生成的遠(yuǎn)端信號(hào),并且所述第二時(shí)變信號(hào)包括根據(jù)所述語(yǔ)音片段生成的麥克風(fēng)信號(hào)。
13.根據(jù)權(quán)利要求12所述的系統(tǒng),所述參數(shù)是至少基于使用所述經(jīng)增強(qiáng)的第二時(shí)變信號(hào)的頻域表示和所述目標(biāo)時(shí)變信號(hào)的頻域表示計(jì)算的損耗函數(shù)來(lái)修改的。
14.根據(jù)權(quán)利要求13所述的系統(tǒng),其中,所述模型輸出抑制掩碼,并且所述經(jīng)增強(qiáng)的第二時(shí)變信號(hào)是通過(guò)使用所述抑制掩碼修改所述麥克風(fēng)信號(hào)來(lái)獲得的。
15.根據(jù)權(quán)利要求14所述的系統(tǒng),其中,所述指令當(dāng)由所述處理器執(zhí)行時(shí),使得所述系統(tǒng):