一種基于多參考線索融合的目標(biāo)語(yǔ)音提取方法及裝置

文檔序號(hào)：40540425發(fā)布日期：2025-01-03 10:59閱讀：來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)>一種基于多參考線索融合的目標(biāo)語(yǔ)音提取方法及裝置

技術(shù)特征：

1.一種基于多參考線索融合的目標(biāo)語(yǔ)音提取方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述一種基于多參考線索融合的目標(biāo)語(yǔ)音提取方法，其特征在于，將待提取的多通道混合語(yǔ)音通過特征提取模塊，計(jì)算混合語(yǔ)音的復(fù)數(shù)譜和空間特征，并得到混合語(yǔ)音特征圖，包括：使用短時(shí)傅里葉變換將待分離的時(shí)域多通道混合語(yǔ)音變換到時(shí)頻域，得到多通道混合語(yǔ)音的復(fù)數(shù)譜；引入通道間相位差作為輸入特征，計(jì)算多通道混合語(yǔ)音的空間特征；根據(jù)所述復(fù)數(shù)譜和空間特征，形成混合語(yǔ)音特征圖。

3.根據(jù)權(quán)利要求1所述一種基于多參考線索融合的目標(biāo)語(yǔ)音提取方法，其特征在于，將目標(biāo)說話人的方位信息和參考語(yǔ)音通過嵌入特征提取模塊，結(jié)合方向特征和聲紋特征，得到目標(biāo)說話人的嵌入特征，包括：計(jì)算導(dǎo)向矢量，并將導(dǎo)向矢量的實(shí)部和虛部沿特征維度拼接后作為輸入的方向特征；采用預(yù)訓(xùn)練的經(jīng)典說話人識(shí)別模型ecapa-tdnn作為聲音線索編碼器，用于提供目標(biāo)說話人的聲紋特征；根據(jù)所述方向特征和聲紋特征形成目標(biāo)說話人的嵌入特征。

4.根據(jù)權(quán)利要求1所述一種基于多參考線索融合的目標(biāo)語(yǔ)音提取方法，其特征在于，所述基于雙路徑fastformer神經(jīng)網(wǎng)絡(luò)的主提取網(wǎng)絡(luò)，包括頻譜建模單元、子帶建模單元和全帶建模單元；其中，所述頻譜建模單元，用于對(duì)輸入的混合語(yǔ)音特征圖和目標(biāo)說話人的嵌入特征進(jìn)行特征提取和升維，并使用混洗卷積注意力模塊提取頻譜局部信息和頻譜空間信息；所述子帶建模單元，用于通過卷積增強(qiáng)的輸入全連接層在每一幀混合語(yǔ)音特征圖中融合嵌入特征，在卷積增強(qiáng)的多頭注意力模塊中將嵌入特征與具有全局時(shí)間上下文信息的全局查詢向量結(jié)合，以及利用交叉線性注意力模塊融合頻譜建模單元獲取的局部特征與卷積增強(qiáng)模塊輸出的子帶特征；所述全帶建模單元與子帶建模單元的架構(gòu)相同，但不包括嵌入特征融合。

5.根據(jù)權(quán)利要求1所述一種基于多參考線索融合的目標(biāo)語(yǔ)音提取方法，其特征在于，將輸出的高維特征表示通過掩碼估計(jì)模塊，將其轉(zhuǎn)化為估計(jì)分離語(yǔ)音的復(fù)數(shù)掩碼，并將掩碼作用于混合語(yǔ)音信號(hào)的復(fù)數(shù)譜，包括：所述基于雙路徑fastformer神經(jīng)網(wǎng)絡(luò)的主提取網(wǎng)絡(luò)的輸出分為兩路，分別進(jìn)行幅度估計(jì)和相位估計(jì)，分別得到混合語(yǔ)音的幅度譜和相位譜；根據(jù)所述幅度譜和相位譜，得到混合語(yǔ)音的復(fù)數(shù)譜。

6.根據(jù)權(quán)利要求1所述一種基于多參考線索融合的目標(biāo)語(yǔ)音提取方法，其特征在于，將提取的目標(biāo)說話人語(yǔ)音輸入對(duì)比學(xué)習(xí)模塊，使得目標(biāo)說話人缺席的混合語(yǔ)音也能輸出正確的提取語(yǔ)音，包括：針對(duì)目標(biāo)語(yǔ)音、目標(biāo)說話人存在的混合語(yǔ)音及目標(biāo)說話人缺席的混合語(yǔ)音，分別獲取通過目標(biāo)語(yǔ)音提取網(wǎng)絡(luò)提取的輸出，并構(gòu)建訓(xùn)練樣本；根據(jù)所述訓(xùn)練樣本，利用確定的對(duì)比學(xué)習(xí)損失函數(shù)進(jìn)行訓(xùn)練，使得目標(biāo)說話人缺席的混合語(yǔ)音也能輸出正確的提取語(yǔ)音。

7.一種基于多參考線索融合的目標(biāo)語(yǔ)音提取裝置，其特征在于，包括：

8.一種電子設(shè)備，其特征在于，包括：至少一個(gè)處理器、至少一個(gè)存儲(chǔ)器和通信接口；其中，所述處理器、存儲(chǔ)器和通信接口相互間進(jìn)行通信；所述存儲(chǔ)器存儲(chǔ)有被所述處理器執(zhí)行的程序指令，所述處理器調(diào)用所述程序指令，以執(zhí)行權(quán)利要求1至6任一項(xiàng)權(quán)利要求所述的方法。

9.一種非暫態(tài)計(jì)算機(jī)讀存儲(chǔ)介質(zhì)，其特征在于，所述非暫態(tài)計(jì)算機(jī)讀存儲(chǔ)介質(zhì)存儲(chǔ)計(jì)算機(jī)指令，所述計(jì)算機(jī)指令使所述計(jì)算機(jī)執(zhí)行權(quán)利要求1至6中任一項(xiàng)權(quán)利要求所述的方法。

技術(shù)總結(jié)
本發(fā)明公開一種基于多參考線索融合的目標(biāo)語(yǔ)音提取方法，包括：將待提取的多通道混合語(yǔ)音通過特征提取模塊，計(jì)算混合語(yǔ)音的復(fù)數(shù)譜和空間特征，得到混合語(yǔ)音特征圖；將目標(biāo)說話人的方位信息和參考語(yǔ)音通過嵌入特征提取模塊，結(jié)合方向特征和聲紋特征，得到目標(biāo)說話人的嵌入特征；將混合語(yǔ)音特征圖和目標(biāo)說話人的嵌入特征輸入基于雙路徑Fastformer神經(jīng)網(wǎng)絡(luò)的主提取網(wǎng)絡(luò)，得到待提取語(yǔ)音的高維特征表示；將高維特征表示通過掩碼估計(jì)模塊轉(zhuǎn)化為估計(jì)分離語(yǔ)音的復(fù)數(shù)掩碼，將掩碼作用于混合語(yǔ)音信號(hào)的復(fù)數(shù)譜；通過逆短時(shí)傅里葉變換重構(gòu)估計(jì)提取語(yǔ)音的時(shí)域波形；將提取的目標(biāo)說話人語(yǔ)音輸入對(duì)比學(xué)習(xí)模塊，使得目標(biāo)說話人缺席的混合語(yǔ)音也能輸出正確的提取語(yǔ)音。

技術(shù)研發(fā)人員：張海劍,周雨嬈,陳佳佳,左世玉,吳思瑾
受保護(hù)的技術(shù)使用者：武漢大學(xué)
技術(shù)研發(fā)日：
技術(shù)公布日：2025/1/2

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁(yè)1 2

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

<tr id="y3whj"></tr>

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于多參考線索融合的目標(biāo)語(yǔ)音提取方法及裝置