欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于多尺度GMM-ResNet模型的語音偽造檢測(cè)方法

文檔序號(hào):40443696發(fā)布日期:2024-12-24 15:18閱讀:35來源:國(guó)知局
一種基于多尺度GMM-ResNet模型的語音偽造檢測(cè)方法

本發(fā)明涉及語音偽造檢測(cè),具體為一種基于多尺度gmm-resnet模型的語音偽造檢測(cè)方法。


背景技術(shù):

1、自動(dòng)說話人確認(rèn)(automatic?speaker?verfication,asv)系統(tǒng)是一種根據(jù)說話人的聲音信息進(jìn)行身份認(rèn)證的系統(tǒng),目前正被廣泛用于手機(jī)解鎖、智能門禁、銀行身份驗(yàn)證等各種生活場(chǎng)景。隨著近年來深度學(xué)習(xí)模型的應(yīng)用,asv系統(tǒng)也取得了重大進(jìn)展,展現(xiàn)了其良好的性能。但同時(shí)也容易受到合成或轉(zhuǎn)換語音的偽造攻擊,合成語音偽造檢測(cè)系統(tǒng)致力于解決這一問題。

2、在實(shí)際應(yīng)用中,盡管語音偽造檢測(cè)技術(shù)已經(jīng)越來越成熟,但仍然會(huì)面臨模型泛化性能不足的問題。這是由于實(shí)際應(yīng)用場(chǎng)景往往更容易受到未知攻擊類型的語音攻擊,因此需要采取有效的語音偽造檢測(cè)方法,降低各種編解碼器和傳輸通道對(duì)語音偽造檢測(cè)系統(tǒng)的影響,提高模型的泛化性能。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的在于提供一種基于多尺度gmm-resnet模型的語音偽造檢測(cè)方法,以解決上述背景技術(shù)中提出的問題。

2、為實(shí)現(xiàn)上述目的,本申請(qǐng)?zhí)峁┝巳缦路桨福?/p>

3、一種基于多尺度gmm-resnet模型的語音偽造檢測(cè)方法,該語音偽造檢測(cè)方法的具體步驟流程如下:

4、s1、獲取說話人真實(shí)語音數(shù)據(jù)及偽造語音數(shù)據(jù)作為原始語音數(shù)據(jù);

5、s2、計(jì)算所述原始語音數(shù)據(jù)的線性頻率倒譜系數(shù)特征;

6、s3、采用128階、256和512階高斯混合模型對(duì)所述原始語音數(shù)據(jù)的線性頻率倒譜系數(shù)特征分別進(jìn)行建模,并分別在所述原始語音數(shù)據(jù)上進(jìn)行訓(xùn)練,得到不同階的高斯混合模型,包括128階高斯混合模型、256階高斯混合模型和512階高斯混合模型;

7、s4、將所述原始語音數(shù)據(jù)的線性頻率倒譜系數(shù)特征同時(shí)作為128階高斯混合模型、256階高斯混合模型和512階高斯混合模型的輸入,分別計(jì)算得到128階、256階和512階的對(duì)數(shù)高斯概率特征;

8、s5、構(gòu)建多尺度gmm-resnet模型,將基于上述三種不同階的對(duì)數(shù)高斯概率特征作為多尺度gmm-resnet模型的輸入,對(duì)所述多尺度gmm-resnet模型進(jìn)行訓(xùn)練,訓(xùn)練好的多尺度gmm-resnet模型用于對(duì)新的語音數(shù)據(jù)進(jìn)行偽造檢測(cè)。

9、優(yōu)選的,所述語音高斯混合模型采用最大期望算法進(jìn)行訓(xùn)練。

10、優(yōu)選的,所述s4包括:

11、s4.1、計(jì)算所述原始語音數(shù)據(jù)的線性頻率倒譜系數(shù)特征x的對(duì)數(shù)高斯概率特征y,其大小等于高斯混合模型的階數(shù),其中每個(gè)分量yi計(jì)算公式為:

12、yi=log(wi·pi(x))

13、其中:wi為高斯混合模型的第i個(gè)高斯分量權(quán)重,pi(x)為單高斯概率密度函數(shù),μi為均值向量,σi為協(xié)方差矩陣,如公式所示:

14、

15、s4.2、對(duì)yi進(jìn)行均值方差歸一化,得到最終的對(duì)數(shù)高斯概率特征fi:

16、

17、其中:和是所有所述基于原始語音高斯混合模型的對(duì)數(shù)高斯概率特征的均值與方差。

18、優(yōu)選的,所述s5包括:

19、s5.1、構(gòu)建多尺度對(duì)數(shù)高斯概率特征融合網(wǎng)絡(luò),將基于所述128階高斯混合模型、256階高斯混合模型、512階高斯混合模型得到的概率特征作為多尺度對(duì)數(shù)高斯概率特征融合網(wǎng)絡(luò)的輸入;

20、s5.2、多尺度對(duì)數(shù)高斯概率特征融合網(wǎng)絡(luò)將三種不同尺度的對(duì)數(shù)高斯概率特征分別進(jìn)行加權(quán)融合,且系數(shù)加權(quán)和為1,融合后得到128維、256維和512維三種尺度的特征;

21、s5.3、構(gòu)建三個(gè)多尺度特征聚合resnet模型,將上述融合后的128維特征、256維特征和512維特征分別作為各自多尺度特征聚合resnet模型的輸入;

22、s5.4、三個(gè)多尺度特征聚合resnet模型將三組特征分別映射成三組二維向量;

23、s5.5、將上述得到的二維向量進(jìn)行自適應(yīng)最大池化操作,得到固定大小的三組一維向量;

24、s5.6、將所述固定大小的三組一維向量進(jìn)行拼接,得到一組一維向量,并輸入到全連接線性層,通過softmax函數(shù)輸出真實(shí)語音和偽造語音標(biāo)簽的得分;

25、s5.7、根據(jù)所述分類得分判斷語音是真實(shí)語音還是偽造語音。

26、優(yōu)選的,所述s5.1包括:

27、s5.1.1、多尺度對(duì)數(shù)高斯概率特征融合網(wǎng)絡(luò)采用模塊化結(jié)構(gòu),共有三個(gè)模塊;

28、s5.1.2、每個(gè)多尺度對(duì)數(shù)高斯概率特征融合模塊都包括兩個(gè)卷積層、一個(gè)批量歸一化層,其中卷積層使用一維卷積;

29、s5.1.3、每個(gè)多尺度對(duì)數(shù)高斯概率特征融合模塊中的輸入特征均為128階、256階和512階三種尺度的對(duì)數(shù)高斯概率特征。

30、優(yōu)選的,所述s5.3包括:

31、s5.3.1、每個(gè)多尺度特征聚合resnet網(wǎng)絡(luò)路徑都采用模塊化的結(jié)構(gòu),共有六個(gè)模塊;

32、s5.3.2、每個(gè)多尺度特征聚合resnet網(wǎng)絡(luò)路徑中的模塊都包括卷積層、批量歸一化層、非線性激活層,其中卷積層使用一維卷積;

33、s5.3.3、每個(gè)多尺度特征聚合resnet網(wǎng)絡(luò)路徑中的輸入特征通道數(shù)分別為128,256,512。

34、優(yōu)選的,所述s5.7包括:

35、s5.7.1、根據(jù)分類結(jié)果得到真實(shí)語音和偽造語音的得分值;

36、s5.7.2、如果真實(shí)語音的得分值大于偽造語音的得分值,則判斷說話人語音為真實(shí)語音;如果真實(shí)語音的得分值小于偽造語音的得分值,則判斷說話人語音為偽造語音。

37、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:

38、本申請(qǐng)公開了采用基于一維卷積的resnet殘差塊;用128階、256階和512階的高斯混合模型分別對(duì)語音數(shù)據(jù)進(jìn)行進(jìn)行建模,提取不同尺度的對(duì)數(shù)高斯概率特征,結(jié)合多尺度gmm-resnet模型能夠有效提高語音偽造檢測(cè)系統(tǒng)的性能,多尺度gmm-resnet模型主要包含兩部分:多尺度對(duì)數(shù)高斯概率特征融合和多尺度特征聚合resnet模型。多尺度lgp特征融合將基于不同階數(shù)的gmm得到的三種不同尺度lgp特征進(jìn)行加權(quán)融合,從而促進(jìn)不同尺度lgp特征之間的信息交換。多尺度特征聚合resnet模型通過對(duì)每個(gè)resnet塊輸出的特征進(jìn)行聚合,充分融合網(wǎng)絡(luò)內(nèi)不同層級(jí)的特征信息,從而提高網(wǎng)絡(luò)的特征提取能力。



技術(shù)特征:

1.一種基于多尺度gmm-resnet模型的語音偽造檢測(cè)方法,其特征在于,該語音偽造檢測(cè)方法的具體步驟流程如下:

2.根據(jù)權(quán)利要求1所述的一種基于多尺度gmm-resnet模型的語音偽造檢測(cè)方法,其特征在于,所述語音高斯混合模型采用最大期望算法進(jìn)行訓(xùn)練。

3.根據(jù)權(quán)利要求1所述的一種基于多尺度gmm-resnet模型的語音偽造檢測(cè)方法,其特征在于,所述s4包括:

4.根據(jù)權(quán)利要求1所述的一種基于多尺度gmm-resnet模型的語音偽造檢測(cè)方法,其特征在于,所述s5包括:

5.根據(jù)權(quán)利要求4所述的一種基于多尺度gmm-resnet模型的語音偽造檢測(cè)方法,其特征在于,所述s5.1包括:

6.根據(jù)權(quán)利要求4所述的一種基于多尺度gmm-resnet模型的語音偽造檢測(cè)方法,其特征在于,所述s5.3包括:

7.根據(jù)權(quán)利要求4所述的一種基于多尺度gmm-resnet模型的語音偽造檢測(cè)方法,其特征在于,所述s5.7包括:


技術(shù)總結(jié)
本發(fā)明屬于語音偽造檢測(cè)技術(shù)領(lǐng)域,具體為一種基于多尺度GMM?ResNet模型的語音偽造檢測(cè)方法,獲取說話人真實(shí)語音數(shù)據(jù)及偽造語音數(shù)據(jù)作為原始語音數(shù)據(jù),多尺度GMM?ResNet模型主要包含兩部分:多尺度對(duì)數(shù)高斯概率特征融合和多尺度特征聚合ResNet模型,多尺度LGP特征融合將基于不同階數(shù)的GMM得到的三種不同尺度LGP特征進(jìn)行加權(quán)融合,從而促進(jìn)不同尺度LGP特征之間的信息交換,多尺度特征聚合ResNet模型通過對(duì)每個(gè)ResNet塊輸出的特征進(jìn)行聚合,充分融合網(wǎng)絡(luò)內(nèi)不同層級(jí)的特征信息,從而提高網(wǎng)絡(luò)的特征提取能力。

技術(shù)研發(fā)人員:雷震春,周勇,馬明磊
受保護(hù)的技術(shù)使用者:江西師范大學(xué)
技術(shù)研發(fā)日:
技術(shù)公布日:2024/12/23
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
安仁县| 洛隆县| 井陉县| 杨浦区| 湛江市| 平顺县| 浦城县| 衡阳县| 周至县| 蒙山县| 宁化县| 商南县| 平湖市| 辽阳市| 蒲城县| 高陵县| 扎囊县| 仙游县| 商城县| 渑池县| 乐陵市| 胶州市| 商河县| 犍为县| 阿瓦提县| 儋州市| 惠安县| 虞城县| 南溪县| 盐亭县| 南宫市| 富源县| 右玉县| 陇川县| 桐梓县| 宝清县| 辛集市| 洪湖市| 合阳县| 福海县| 皮山县|