欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

說話人驗證模型訓(xùn)練方法、裝置、介質(zhì)及設(shè)備

文檔序號:40545893發(fā)布日期:2025-01-03 11:05閱讀:13來源:國知局
說話人驗證模型訓(xùn)練方法、裝置、介質(zhì)及設(shè)備

本發(fā)明涉及智能語音,尤其涉及一種說話人驗證模型訓(xùn)練方法、裝置、介質(zhì)及設(shè)備。


背景技術(shù):

1、智能語音技術(shù)在如火如荼地發(fā)展,在很多場景中都應(yīng)用了智能語音技術(shù)。比如說:智能家居的喚醒,智能機器人的對話,但也存在一些非法的不安全的領(lǐng)域也同樣在應(yīng)用著語音技術(shù)。例如,通過語音攻擊欺詐手段實現(xiàn)仿造他人聲音的目的,進行一些欺詐行為。

2、目前,常見的語音攻擊欺詐手段主要有三種,分別是語音合成、語音轉(zhuǎn)換、錄音重放。語音合成和語音轉(zhuǎn)換即基于神經(jīng)網(wǎng)絡(luò)模型等技術(shù)合成/轉(zhuǎn)換出和真人發(fā)聲近似的語音數(shù)據(jù)。錄音重放是指攻擊者在某些場景下用錄音設(shè)備錄制了受攻擊者的聲音,然后再用錄制的聲音播放出來給系統(tǒng)假冒受攻擊者本人的聲音來欺騙系統(tǒng)、欺騙聽者。

3、針對上述語音攻擊欺詐手段,現(xiàn)階段已存在一定的抗攻擊、防語音欺詐、鑒偽技術(shù)。當前主流的抗攻擊鑒偽方法一般為:對語音進行語音特征提取,再將提取到的語音特征輸入到預(yù)先訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型進行真?zhèn)闻袆e,輸出判別的結(jié)果。但是這種在特征維度判定的方法往往會忽略到聲音本質(zhì)的其它特性,從而導(dǎo)致模型識別不夠準確,等誤差率(eer)也不夠理想。

4、因此,當前亟需出現(xiàn)一種說話人驗證模型訓(xùn)練方法,以減少語音特征提取中的數(shù)據(jù)信息的損失。


技術(shù)實現(xiàn)思路

1、鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的一種說話人驗證模型訓(xùn)練方法、裝置、介質(zhì)及設(shè)備。

2、本發(fā)明的其他特性和優(yōu)點將通過下面的詳細描述變得顯然,或部分地通過本發(fā)明的實踐而習(xí)得。

3、根據(jù)本發(fā)明實施例的第一方面,提供了一種說話人驗證模型訓(xùn)練方法,所述說話人驗證模型訓(xùn)練方法包括:

4、對獲取的語音音頻數(shù)據(jù)進行波形數(shù)據(jù)提取,得到語音音頻數(shù)據(jù)對應(yīng)的音頻波形數(shù)據(jù);

5、將所述音頻波形數(shù)據(jù)輸入至預(yù)設(shè)分類模型中,以通過所述預(yù)設(shè)分類模型輸出所述語音音頻數(shù)據(jù)對應(yīng)的預(yù)測標簽,所述預(yù)設(shè)分類模型包括由多個特征模塊組成殘差網(wǎng)絡(luò)的信號處理層,且所述殘差網(wǎng)絡(luò)內(nèi)多個所述特征模塊的步幅不相同;

6、根據(jù)預(yù)先獲取的所述語音音頻數(shù)據(jù)對應(yīng)的防偽標簽和所述預(yù)設(shè)分類模型輸出的預(yù)測標簽,確定所述預(yù)設(shè)分類模型的損失值;

7、通過所述損失值對所述預(yù)設(shè)分類模型進行參數(shù)調(diào)整,得到說話人驗證模型。

8、根據(jù)本發(fā)明實施例的第二方面,提供了一種說話人驗證模型訓(xùn)練裝置,所述裝置包括:

9、波形提取模塊,用于對獲取的語音音頻數(shù)據(jù)進行波形數(shù)據(jù)提取,得到語音音頻數(shù)據(jù)對應(yīng)的音頻波形數(shù)據(jù);

10、分類預(yù)測模塊,用于將所述音頻波形數(shù)據(jù)輸入至預(yù)設(shè)分類模型中,以通過所述預(yù)設(shè)分類模型輸出所述語音音頻數(shù)據(jù)對應(yīng)的預(yù)測標簽,所述預(yù)設(shè)分類模型包括由多個特征模塊組成殘差網(wǎng)絡(luò)的信號處理層,且所述殘差網(wǎng)絡(luò)內(nèi)多個所述特征模塊的步幅不相同;

11、損失計算模塊,用于根據(jù)預(yù)先獲取的所述語音音頻數(shù)據(jù)對應(yīng)的防偽標簽和所述預(yù)設(shè)分類模型輸出的預(yù)測標簽,確定所述預(yù)設(shè)分類模型的損失值;

12、輸出模塊,用于通過所述損失值對所述預(yù)設(shè)分類模型進行參數(shù)調(diào)整,得到說話人驗證模型。

13、根據(jù)本發(fā)明實施例的第三方面,提供了一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)中存儲有計算機程序指令,所述計算機程序指令由處理器加載并執(zhí)行以實現(xiàn)如上述任一項所述的方法所執(zhí)行的操作。

14、根據(jù)本發(fā)明實施例的第四方面,提供了一種電子設(shè)備,包括處理器和存儲器,所述存儲器存儲有能夠被所述處理器執(zhí)行的計算機程序指令,所述處理器執(zhí)行所述計算機程序指令時,實現(xiàn)如上述任一所述的方法的指令。

15、本發(fā)明實施例中提供的技術(shù)方案,至少具有如下技術(shù)效果或優(yōu)點:

16、本發(fā)明實施例提供的一種說話人驗證模型訓(xùn)練方法、裝置、介質(zhì)及設(shè)備,所述方法采用語音音頻數(shù)據(jù)的波形數(shù)據(jù)作為預(yù)設(shè)分類模型的輸入,減少了數(shù)據(jù)信息的損失,采取監(jiān)督學(xué)習(xí)的方式利用真實的防偽標簽對模型的預(yù)測標簽進行輔助判定,以確定所述預(yù)設(shè)分類模型的損失值,通過所述損失值對所述預(yù)設(shè)分類模型進行參數(shù)調(diào)整,利用最小化輸出和真實標簽之間的誤差來訓(xùn)練整個模型,而不是通過逐步訓(xùn)練不同組件對整個模型的參數(shù)進行調(diào)整訓(xùn)練,實現(xiàn)了說話人識別驗證模型的訓(xùn)練,提高了訓(xùn)練效率降低了成本,訓(xùn)練得到的所述說話人識別驗證模型有效克服了現(xiàn)有技術(shù)中語音特征提取時數(shù)據(jù)信息損失的問題。

17、上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點能夠更明顯易懂,以下特舉本發(fā)明的具體實施方式。



技術(shù)特征:

1.一種說話人驗證模型訓(xùn)練方法,其特征在于,所述方法包括:

2.根據(jù)權(quán)利要求1所述的說話人驗證模型訓(xùn)練方法,其特征在于,所述對獲取的語音音頻數(shù)據(jù)進行波形數(shù)據(jù)提取之前,還包括:

3.根據(jù)權(quán)利要求1所述的說話人驗證模型訓(xùn)練方法,其特征在于,所述對獲取的語音音頻數(shù)據(jù)進行波形數(shù)據(jù)提取,得到語音音頻數(shù)據(jù)對應(yīng)的音頻波形數(shù)據(jù)包括:

4.根據(jù)權(quán)利要求1所述的說話人驗證模型訓(xùn)練方法,其特征在于,所述預(yù)設(shè)分類模型包括預(yù)強調(diào)層、信號處理層、注意力層、循環(huán)神經(jīng)網(wǎng)絡(luò)層以及全連接層;所述將所述音頻波形數(shù)據(jù)輸入至預(yù)設(shè)分類模型中,以通過所述預(yù)設(shè)分類模型輸出所述語音音頻數(shù)據(jù)對應(yīng)的預(yù)測標簽包括:

5.根據(jù)權(quán)利要求4所述的說話人驗證模型訓(xùn)練方法,其特征在于:所述信號處理層包括四個特征模塊,分別為第一擴展特征圖模塊、第二擴展特征圖模塊、第三擴展特征圖模塊以及卷積層,所述第一擴展特征圖模塊、第二擴展特征圖模塊、第三擴展特征圖模塊以及卷積層組成殘差網(wǎng)絡(luò),所述第一擴展特征圖模塊、第二擴展特征圖模塊、第三擴展特征圖模塊的結(jié)構(gòu)相同,其中,所述第一擴展特征圖模塊與第二擴展特征圖模塊設(shè)置的步幅不相同,且所述第一擴展特征圖模塊與第二擴展特征圖模塊設(shè)置的步幅大于所述第三擴展特征圖模塊以及卷積層設(shè)置的步幅。

6.根據(jù)權(quán)利要求5所述的說話人驗證模型訓(xùn)練方法,其特征在于,所述通過所述信號處理層對所述預(yù)處理波形數(shù)據(jù)進行信號變換處理,并提取特征信息得到音頻特征數(shù)據(jù)包括:

7.根據(jù)權(quán)利要求4所述的說話人驗證模型訓(xùn)練方法,其特征在于,所述通過所述全連接層將所述增強特征映射到輸出空間,輸出所述語音音頻數(shù)據(jù)對應(yīng)的預(yù)測標簽包括:

8.一種說話人驗證模型訓(xùn)練裝置,應(yīng)用于權(quán)利要求1-7任一項所述的說話人驗證模型訓(xùn)練方法,其特征在于,所述裝置包括:

9.一種計算機可讀存儲介質(zhì),其特征在于,所述計算機可讀存儲介質(zhì)中存儲有計算機程序指令,所述計算機程序指令由處理器加載并執(zhí)行以實現(xiàn)如權(quán)利要求1-7任一項所述的方法所執(zhí)行的操作。

10.一種電子設(shè)備,包括處理器和存儲器,其特征在于,所述存儲器存儲有能夠被所述處理器執(zhí)行的計算機程序指令,所述處理器執(zhí)行所述計算機程序指令時,實現(xiàn)如權(quán)利要求1-7中任一所述的方法的指令。


技術(shù)總結(jié)
本發(fā)明公開了一種說話人驗證模型訓(xùn)練方法、裝置、介質(zhì)及設(shè)備,所述方法包括:對獲取的語音音頻數(shù)據(jù)進行波形提取,得到語音音頻數(shù)據(jù)對應(yīng)的音頻波形數(shù)據(jù);將所述音頻波形數(shù)據(jù)輸入至預(yù)設(shè)分類模型中,以通過所述預(yù)設(shè)分類模型輸出所述語音音頻數(shù)據(jù)對應(yīng)的預(yù)測標簽;根據(jù)語音音頻數(shù)據(jù)對應(yīng)的防偽標簽和預(yù)測標簽,確定所述預(yù)設(shè)分類模型的損失值;通過所述損失值對所述預(yù)設(shè)分類模型進行參數(shù)調(diào)整,得到說話人驗證模型。本發(fā)明采取監(jiān)督學(xué)習(xí)的方式利用真實的防偽標簽對模型的預(yù)測標簽進行輔助判定,利用最小化輸出和真實標簽之間的誤差來訓(xùn)練整個模型,提高了訓(xùn)練效率降低了成本。

技術(shù)研發(fā)人員:王昕,王嵐,許超
受保護的技術(shù)使用者:北京大學(xué)深圳研究院
技術(shù)研發(fā)日:
技術(shù)公布日:2025/1/2
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
驻马店市| 松滋市| 囊谦县| 台北县| 易门县| 万全县| 巴彦淖尔市| 朔州市| 富民县| 马边| 玉田县| 三门峡市| 开鲁县| 多伦县| SHOW| 五常市| 双鸭山市| 仙桃市| 华池县| 晋江市| 平陆县| 巴彦县| 南康市| 安康市| 长治县| 聊城市| 罗甸县| 沙田区| 娄烦县| 崇州市| 莒南县| 永州市| 兴业县| 漯河市| 新宾| 盐城市| 资阳市| 达孜县| 祁连县| 松潘县| 陆丰市|