1.一種基于多參考線索融合的目標(biāo)語(yǔ)音提取方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述一種基于多參考線索融合的目標(biāo)語(yǔ)音提取方法,其特征在于,將待提取的多通道混合語(yǔ)音通過特征提取模塊,計(jì)算混合語(yǔ)音的復(fù)數(shù)譜和空間特征,并得到混合語(yǔ)音特征圖,包括:使用短時(shí)傅里葉變換將待分離的時(shí)域多通道混合語(yǔ)音變換到時(shí)頻域,得到多通道混合語(yǔ)音的復(fù)數(shù)譜;引入通道間相位差作為輸入特征,計(jì)算多通道混合語(yǔ)音的空間特征;根據(jù)所述復(fù)數(shù)譜和空間特征,形成混合語(yǔ)音特征圖。
3.根據(jù)權(quán)利要求1所述一種基于多參考線索融合的目標(biāo)語(yǔ)音提取方法,其特征在于,將目標(biāo)說話人的方位信息和參考語(yǔ)音通過嵌入特征提取模塊,結(jié)合方向特征和聲紋特征,得到目標(biāo)說話人的嵌入特征,包括:計(jì)算導(dǎo)向矢量,并將導(dǎo)向矢量的實(shí)部和虛部沿特征維度拼接后作為輸入的方向特征;采用預(yù)訓(xùn)練的經(jīng)典說話人識(shí)別模型ecapa-tdnn作為聲音線索編碼器,用于提供目標(biāo)說話人的聲紋特征;根據(jù)所述方向特征和聲紋特征形成目標(biāo)說話人的嵌入特征。
4.根據(jù)權(quán)利要求1所述一種基于多參考線索融合的目標(biāo)語(yǔ)音提取方法,其特征在于,所述基于雙路徑fastformer神經(jīng)網(wǎng)絡(luò)的主提取網(wǎng)絡(luò),包括頻譜建模單元、子帶建模單元和全帶建模單元;其中,所述頻譜建模單元,用于對(duì)輸入的混合語(yǔ)音特征圖和目標(biāo)說話人的嵌入特征進(jìn)行特征提取和升維,并使用混洗卷積注意力模塊提取頻譜局部信息和頻譜空間信息;所述子帶建模單元,用于通過卷積增強(qiáng)的輸入全連接層在每一幀混合語(yǔ)音特征圖中融合嵌入特征,在卷積增強(qiáng)的多頭注意力模塊中將嵌入特征與具有全局時(shí)間上下文信息的全局查詢向量結(jié)合,以及利用交叉線性注意力模塊融合頻譜建模單元獲取的局部特征與卷積增強(qiáng)模塊輸出的子帶特征;所述全帶建模單元與子帶建模單元的架構(gòu)相同,但不包括嵌入特征融合。
5.根據(jù)權(quán)利要求1所述一種基于多參考線索融合的目標(biāo)語(yǔ)音提取方法,其特征在于,將輸出的高維特征表示通過掩碼估計(jì)模塊,將其轉(zhuǎn)化為估計(jì)分離語(yǔ)音的復(fù)數(shù)掩碼,并將掩碼作用于混合語(yǔ)音信號(hào)的復(fù)數(shù)譜,包括:所述基于雙路徑fastformer神經(jīng)網(wǎng)絡(luò)的主提取網(wǎng)絡(luò)的輸出分為兩路,分別進(jìn)行幅度估計(jì)和相位估計(jì),分別得到混合語(yǔ)音的幅度譜和相位譜;根據(jù)所述幅度譜和相位譜,得到混合語(yǔ)音的復(fù)數(shù)譜。
6.根據(jù)權(quán)利要求1所述一種基于多參考線索融合的目標(biāo)語(yǔ)音提取方法,其特征在于,將提取的目標(biāo)說話人語(yǔ)音輸入對(duì)比學(xué)習(xí)模塊,使得目標(biāo)說話人缺席的混合語(yǔ)音也能輸出正確的提取語(yǔ)音,包括:針對(duì)目標(biāo)語(yǔ)音、目標(biāo)說話人存在的混合語(yǔ)音及目標(biāo)說話人缺席的混合語(yǔ)音,分別獲取通過目標(biāo)語(yǔ)音提取網(wǎng)絡(luò)提取的輸出,并構(gòu)建訓(xùn)練樣本;根據(jù)所述訓(xùn)練樣本,利用確定的對(duì)比學(xué)習(xí)損失函數(shù)進(jìn)行訓(xùn)練,使得目標(biāo)說話人缺席的混合語(yǔ)音也能輸出正確的提取語(yǔ)音。
7.一種基于多參考線索融合的目標(biāo)語(yǔ)音提取裝置,其特征在于,包括:
8.一種電子設(shè)備,其特征在于,包括:至少一個(gè)處理器、至少一個(gè)存儲(chǔ)器和通信接口;其中,所述處理器、存儲(chǔ)器和通信接口相互間進(jìn)行通信;所述存儲(chǔ)器存儲(chǔ)有被所述處理器執(zhí)行的程序指令,所述處理器調(diào)用所述程序指令,以執(zhí)行權(quán)利要求1至6任一項(xiàng)權(quán)利要求所述的方法。
9.一種非暫態(tài)計(jì)算機(jī)讀存儲(chǔ)介質(zhì),其特征在于,所述非暫態(tài)計(jì)算機(jī)讀存儲(chǔ)介質(zhì)存儲(chǔ)計(jì)算機(jī)指令,所述計(jì)算機(jī)指令使所述計(jì)算機(jī)執(zhí)行權(quán)利要求1至6中任一項(xiàng)權(quán)利要求所述的方法。