欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于多參考線索融合的目標(biāo)語音提取方法及裝置

文檔序號:40540425發(fā)布日期:2025-01-03 10:59閱讀:12來源:國知局
一種基于多參考線索融合的目標(biāo)語音提取方法及裝置

本發(fā)明屬于語音分離與提取領(lǐng)域,特別涉及一種基于多參考線索融合的目標(biāo)語音提取方法及裝置。


背景技術(shù):

1、語音作為人類溝通互動的核心載體,憑借其自然流暢、操作簡便及信息傳遞的高效性,已然成為當(dāng)代人機(jī)互動領(lǐng)域中不可或缺的關(guān)鍵要素。在日常生活中,我們無時無刻不置身于多樣化的聲音環(huán)境中,其中,我們關(guān)注的聲音往往與周遭其他聲源產(chǎn)生的多余噪音及環(huán)境反射所引發(fā)的混響相互交織,難以區(qū)分。鑒于此,有效剝離出我們感興趣的聲音成分,使之從復(fù)雜的背景干擾中脫穎而出,對于維護(hù)人際溝通的清晰無礙、確保人機(jī)互動中指令的精確傳達(dá),具有舉足輕重的價值。

2、語音分離作為語音前端信號處理領(lǐng)域的一項基本任務(wù),旨在從多人說話的混合語音中分離或提取出感興趣的語音信號,在多個領(lǐng)域發(fā)揮著重要的作用,為人們的日常生活帶來了極大的便利。根據(jù)是否提供目標(biāo)說話人的參考信息,語音分離可以分為多說話人分離和目標(biāo)語音提取兩種類型。由于多說話人分離在應(yīng)用到實際場景中時還需要解決通道排序、說話人數(shù)目變換和說話人追蹤等問題,相比之下,目標(biāo)語音提取算法根據(jù)提供的參考信息從混合語音中提取特定的說話人語音,不僅避免了語音分離中的通道排列問題,而且具有更廣的適用場景,因此逐漸成為語音前端處理領(lǐng)域的研究熱點(diǎn)。

3、近年來,基于各種類型參考信息的目標(biāo)語音提取算法相繼提出,如基于聲紋特征的目標(biāo)語音提取算法、基于空間特征的目標(biāo)語音提取算法和基于視頻的目標(biāo)語音提取算法等。然而大多數(shù)算法僅依賴單一類型的參考信息提取目標(biāo)說話人語音,當(dāng)目標(biāo)說話人參考信息與干擾說話人特征相似度較高時,容易出現(xiàn)目標(biāo)混淆情況,導(dǎo)致提取效果顯著下降,這也是制約目標(biāo)語音提取算法性能提升的關(guān)鍵因素之一。此外,現(xiàn)有目標(biāo)語音提取算法通常假設(shè)目標(biāo)說話人在混合語音中處于持續(xù)活躍的狀態(tài),導(dǎo)致對于目標(biāo)說話人缺席的語音片段抑制能力較差,嚴(yán)重影響了提取語音的質(zhì)量。


技術(shù)實現(xiàn)思路

1、為克服上述現(xiàn)有技術(shù)的不足,本發(fā)明提供一種基于多參考線索融合的目標(biāo)語音提取方法及裝置,通過引入目標(biāo)說話人的方位信息和聲紋信息共同作為參考特征,實現(xiàn)對目標(biāo)說話人語音的準(zhǔn)確提取。

2、根據(jù)本發(fā)明說明書的一方面,提供一種基于多參考線索融合的目標(biāo)語音提取方法,包括:

3、將待提取的多通道混合語音通過特征提取模塊,計算混合語音的復(fù)數(shù)譜和空間特征,并得到混合語音特征圖;

4、將目標(biāo)說話人的方位信息和參考語音通過嵌入特征提取模塊,結(jié)合方向特征和聲紋特征,得到目標(biāo)說話人的嵌入特征;

5、將混合語音特征圖和目標(biāo)說話人的嵌入特征輸入基于雙路徑fastformer神經(jīng)網(wǎng)絡(luò)的主提取網(wǎng)絡(luò),輸出待提取語音的高維特征表示;

6、將輸出的高維特征表示通過掩碼估計模塊,將其轉(zhuǎn)化為估計分離語音的復(fù)數(shù)掩碼,并將掩碼作用于混合語音信號的復(fù)數(shù)譜;

7、通過逆短時傅里葉變換重構(gòu)估計提取語音的時域波形;

8、將提取的目標(biāo)說話人語音輸入對比學(xué)習(xí)模塊,使得目標(biāo)說話人缺席的混合語音也能輸出正確的提取語音。

9、作為進(jìn)一步的技術(shù)方案,將待提取的多通道混合語音通過特征提取模塊,計算混合語音的復(fù)數(shù)譜和空間特征,并得到混合語音特征圖,包括:使用短時傅里葉變換將待分離的時域多通道混合語音變換到時頻域,得到多通道混合語音的復(fù)數(shù)譜;引入通道間相位差作為輸入特征,計算多通道混合語音的空間特征;根據(jù)所述復(fù)數(shù)譜和空間特征,形成混合語音特征圖。

10、作為進(jìn)一步的技術(shù)方案,將目標(biāo)說話人的方位信息和參考語音通過嵌入特征提取模塊,結(jié)合方向特征和聲紋特征,得到目標(biāo)說話人的嵌入特征,包括:計算導(dǎo)向矢量,并將導(dǎo)向矢量的實部和虛部沿特征維度拼接后作為輸入的方向特征;采用預(yù)訓(xùn)練的經(jīng)典說話人識別模型ecapa-tdnn作為聲音線索編碼器,用于提供目標(biāo)說話人的聲紋特征;根據(jù)所述方向特征和聲紋特征形成目標(biāo)說話人的嵌入特征。

11、作為進(jìn)一步的技術(shù)方案,所述基于雙路徑fastformer神經(jīng)網(wǎng)絡(luò)的主提取網(wǎng)絡(luò),包括頻譜建模單元、子帶建模單元和全帶建模單元;其中,所述頻譜建模單元,用于對輸入的混合語音特征圖和目標(biāo)說話人的嵌入特征進(jìn)行特征提取和升維,并使用混洗卷積注意力模塊提取頻譜局部信息和頻譜空間信息;所述子帶建模單元,用于通過卷積增強(qiáng)的輸入全連接層在每一幀混合語音特征圖中融合嵌入特征,在卷積增強(qiáng)的多頭注意力模塊中將嵌入特征與具有全局時間上下文信息的全局查詢向量結(jié)合,以及利用交叉線性注意力模塊融合頻譜建模單元獲取的局部特征與卷積增強(qiáng)模塊輸出的子帶特征;所述全帶建模單元與子帶建模單元的架構(gòu)相同,但不包括嵌入特征融合。

12、作為進(jìn)一步的技術(shù)方案,將輸出的高維特征表示通過掩碼估計模塊,將其轉(zhuǎn)化為估計分離語音的復(fù)數(shù)掩碼,并將掩碼作用于混合語音信號的復(fù)數(shù)譜,包括:所述基于雙路徑fastformer神經(jīng)網(wǎng)絡(luò)的主提取網(wǎng)絡(luò)的輸出分為兩路,分別進(jìn)行幅度估計和相位估計,分別得到混合語音的幅度譜和相位譜;根據(jù)所述幅度譜和相位譜,得到混合語音的復(fù)數(shù)譜。

13、作為進(jìn)一步的技術(shù)方案,將提取的目標(biāo)說話人語音輸入對比學(xué)習(xí)模塊,使得目標(biāo)說話人缺席的混合語音也能輸出正確的提取語音,包括:針對目標(biāo)語音、目標(biāo)說話人存在的混合語音及目標(biāo)說話人缺席的混合語音,分別獲取通過目標(biāo)語音提取網(wǎng)絡(luò)提取的輸出,并構(gòu)建訓(xùn)練樣本;根據(jù)所述訓(xùn)練樣本,利用確定的對比學(xué)習(xí)損失函數(shù)進(jìn)行訓(xùn)練,使得目標(biāo)說話人缺席的混合語音也能輸出正確的提取語音。

14、根據(jù)本發(fā)明說明書的一方面,提供一種基于多參考線索融合的目標(biāo)語音提取裝置,包括:

15、特征提取模塊,用于根據(jù)待提取的多通道混合語音,計算混合語音的復(fù)數(shù)譜和空間特征,并得到混合語音特征圖;

16、嵌入特征提取模塊,用于根據(jù)目標(biāo)說話人的方位信息和參考語音,結(jié)合方向特征和聲紋特征,得到目標(biāo)說話人的嵌入特征;

17、網(wǎng)絡(luò)提取模塊,用于根據(jù)混合語音特征圖和目標(biāo)說話人的嵌入特征,結(jié)合基于雙路徑fastformer神經(jīng)網(wǎng)絡(luò)的主提取網(wǎng)絡(luò),得到待提取語音的高維特征表示;

18、掩碼估計模塊,用于將得到的高維特征表示轉(zhuǎn)化為估計分離語音的復(fù)數(shù)掩碼,并將掩碼作用于混合語音信號的復(fù)數(shù)譜;

19、重構(gòu)估計模塊,用于通過逆短時傅里葉變換重構(gòu)估計提取語音的時域波形;

20、對比學(xué)習(xí)模塊,用于將提取的目標(biāo)說話人語音輸入對比學(xué)習(xí)模塊,使得目標(biāo)說話人缺席的混合語音也能輸出正確的提取語音

21、根據(jù)本發(fā)明說明書的一方面,提供一種電子設(shè)備,包括:至少一個處理器、至少一個存儲器和通信接口;其中,所述處理器、存儲器和通信接口相互間進(jìn)行通信;所述存儲器存儲有被所述處理器執(zhí)行的程序指令,所述處理器調(diào)用所述程序指令,以執(zhí)行所述的方法。

22、根據(jù)本發(fā)明說明書的一方面,提供一種非暫態(tài)計算機(jī)讀存儲介質(zhì),所述非暫態(tài)計算機(jī)讀存儲介質(zhì)存儲計算機(jī)指令,所述計算機(jī)指令使所述計算機(jī)執(zhí)行所述的方法。

23、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果在于:

24、1)綜合利用方位特征和聲紋特征兩種特征作為參考信息。本發(fā)明能夠更全面地理解目標(biāo)說話人特征,實現(xiàn)更準(zhǔn)確、更穩(wěn)定的目標(biāo)語音提取,提高目標(biāo)語音提取系統(tǒng)的性能和魯棒性。

25、2)降低目標(biāo)混淆情況的概率,并提升對目標(biāo)語音缺席場景的感知度。本發(fā)明引入了對比學(xué)習(xí)訓(xùn)練策略,進(jìn)一步抑制目標(biāo)語音缺席片段。

26、3)降低網(wǎng)絡(luò)參數(shù)量和計算量。本發(fā)明使用了深度可分離卷積、多頭線形注意力等輕量化結(jié)構(gòu),同時保證了能準(zhǔn)確高效地從多通道混合語音中分離出目標(biāo)說話人語音,且在不同的數(shù)據(jù)集上表現(xiàn)出顯著的泛化能力。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
仙居县| 石景山区| 仁寿县| 泽普县| 宁阳县| 理塘县| 盈江县| 安义县| 固始县| 陆河县| 桃园县| 福泉市| 聂荣县| 方城县| 泸州市| 兴安县| 广丰县| 沙湾县| 图木舒克市| 上杭县| 新巴尔虎右旗| 奉新县| 湘潭县| 准格尔旗| 科尔| 江安县| 石棉县| 油尖旺区| 龙里县| 平陆县| 台中市| 霍城县| 托克托县| 六盘水市| 澄迈县| 大名县| 怀远县| 沅江市| 岱山县| 绥化市| 呼伦贝尔市|