一種基于多尺度GMM-ResNet模型的語音偽造檢測(cè)方法

文檔序號(hào)：40443696發(fā)布日期：2024-12-24 15:18閱讀：35來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明涉及語音偽造檢測(cè)，具體為一種基于多尺度gmm-resnet模型的語音偽造檢測(cè)方法。

背景技術(shù)：

1、自動(dòng)說話人確認(rèn)(automatic?speaker?verfication，asv)系統(tǒng)是一種根據(jù)說話人的聲音信息進(jìn)行身份認(rèn)證的系統(tǒng)，目前正被廣泛用于手機(jī)解鎖、智能門禁、銀行身份驗(yàn)證等各種生活場(chǎng)景。隨著近年來深度學(xué)習(xí)模型的應(yīng)用，asv系統(tǒng)也取得了重大進(jìn)展，展現(xiàn)了其良好的性能。但同時(shí)也容易受到合成或轉(zhuǎn)換語音的偽造攻擊，合成語音偽造檢測(cè)系統(tǒng)致力于解決這一問題。

2、在實(shí)際應(yīng)用中，盡管語音偽造檢測(cè)技術(shù)已經(jīng)越來越成熟，但仍然會(huì)面臨模型泛化性能不足的問題。這是由于實(shí)際應(yīng)用場(chǎng)景往往更容易受到未知攻擊類型的語音攻擊，因此需要采取有效的語音偽造檢測(cè)方法，降低各種編解碼器和傳輸通道對(duì)語音偽造檢測(cè)系統(tǒng)的影響，提高模型的泛化性能。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的在于提供一種基于多尺度gmm-resnet模型的語音偽造檢測(cè)方法，以解決上述背景技術(shù)中提出的問題。

2、為實(shí)現(xiàn)上述目的，本申請(qǐng)?zhí)峁┝巳缦路桨福?/p>

3、一種基于多尺度gmm-resnet模型的語音偽造檢測(cè)方法，該語音偽造檢測(cè)方法的具體步驟流程如下：

4、s1、獲取說話人真實(shí)語音數(shù)據(jù)及偽造語音數(shù)據(jù)作為原始語音數(shù)據(jù)；

5、s2、計(jì)算所述原始語音數(shù)據(jù)的線性頻率倒譜系數(shù)特征；

6、s3、采用128階、256和512階高斯混合模型對(duì)所述原始語音數(shù)據(jù)的線性頻率倒譜系數(shù)特征分別進(jìn)行建模，并分別在所述原始語音數(shù)據(jù)上進(jìn)行訓(xùn)練，得到不同階的高斯混合模型，包括128階高斯混合模型、256階高斯混合模型和512階高斯混合模型；

7、s4、將所述原始語音數(shù)據(jù)的線性頻率倒譜系數(shù)特征同時(shí)作為128階高斯混合模型、256階高斯混合模型和512階高斯混合模型的輸入，分別計(jì)算得到128階、256階和512階的對(duì)數(shù)高斯概率特征；

8、s5、構(gòu)建多尺度gmm-resnet模型，將基于上述三種不同階的對(duì)數(shù)高斯概率特征作為多尺度gmm-resnet模型的輸入，對(duì)所述多尺度gmm-resnet模型進(jìn)行訓(xùn)練，訓(xùn)練好的多尺度gmm-resnet模型用于對(duì)新的語音數(shù)據(jù)進(jìn)行偽造檢測(cè)。

9、優(yōu)選的，所述語音高斯混合模型采用最大期望算法進(jìn)行訓(xùn)練。

10、優(yōu)選的，所述s4包括：

11、s4.1、計(jì)算所述原始語音數(shù)據(jù)的線性頻率倒譜系數(shù)特征x的對(duì)數(shù)高斯概率特征y，其大小等于高斯混合模型的階數(shù),其中每個(gè)分量yi計(jì)算公式為：

12、yi＝log(wi·pi(x))

13、其中：wi為高斯混合模型的第i個(gè)高斯分量權(quán)重，pi(x)為單高斯概率密度函數(shù)，μi為均值向量，σi為協(xié)方差矩陣，如公式所示：

14、

15、s4.2、對(duì)yi進(jìn)行均值方差歸一化，得到最終的對(duì)數(shù)高斯概率特征fi：

16、

17、其中：和是所有所述基于原始語音高斯混合模型的對(duì)數(shù)高斯概率特征的均值與方差。

18、優(yōu)選的，所述s5包括：

19、s5.1、構(gòu)建多尺度對(duì)數(shù)高斯概率特征融合網(wǎng)絡(luò)，將基于所述128階高斯混合模型、256階高斯混合模型、512階高斯混合模型得到的概率特征作為多尺度對(duì)數(shù)高斯概率特征融合網(wǎng)絡(luò)的輸入；

20、s5.2、多尺度對(duì)數(shù)高斯概率特征融合網(wǎng)絡(luò)將三種不同尺度的對(duì)數(shù)高斯概率特征分別進(jìn)行加權(quán)融合，且系數(shù)加權(quán)和為1，融合后得到128維、256維和512維三種尺度的特征；

21、s5.3、構(gòu)建三個(gè)多尺度特征聚合resnet模型，將上述融合后的128維特征、256維特征和512維特征分別作為各自多尺度特征聚合resnet模型的輸入；

22、s5.4、三個(gè)多尺度特征聚合resnet模型將三組特征分別映射成三組二維向量；

23、s5.5、將上述得到的二維向量進(jìn)行自適應(yīng)最大池化操作，得到固定大小的三組一維向量；

24、s5.6、將所述固定大小的三組一維向量進(jìn)行拼接，得到一組一維向量，并輸入到全連接線性層，通過softmax函數(shù)輸出真實(shí)語音和偽造語音標(biāo)簽的得分；

25、s5.7、根據(jù)所述分類得分判斷語音是真實(shí)語音還是偽造語音。

26、優(yōu)選的，所述s5.1包括：

27、s5.1.1、多尺度對(duì)數(shù)高斯概率特征融合網(wǎng)絡(luò)采用模塊化結(jié)構(gòu)，共有三個(gè)模塊；

28、s5.1.2、每個(gè)多尺度對(duì)數(shù)高斯概率特征融合模塊都包括兩個(gè)卷積層、一個(gè)批量歸一化層，其中卷積層使用一維卷積；

29、s5.1.3、每個(gè)多尺度對(duì)數(shù)高斯概率特征融合模塊中的輸入特征均為128階、256階和512階三種尺度的對(duì)數(shù)高斯概率特征。

30、優(yōu)選的，所述s5.3包括：

31、s5.3.1、每個(gè)多尺度特征聚合resnet網(wǎng)絡(luò)路徑都采用模塊化的結(jié)構(gòu)，共有六個(gè)模塊；

32、s5.3.2、每個(gè)多尺度特征聚合resnet網(wǎng)絡(luò)路徑中的模塊都包括卷積層、批量歸一化層、非線性激活層，其中卷積層使用一維卷積；

33、s5.3.3、每個(gè)多尺度特征聚合resnet網(wǎng)絡(luò)路徑中的輸入特征通道數(shù)分別為128，256，512。

34、優(yōu)選的，所述s5.7包括：

35、s5.7.1、根據(jù)分類結(jié)果得到真實(shí)語音和偽造語音的得分值；

36、s5.7.2、如果真實(shí)語音的得分值大于偽造語音的得分值，則判斷說話人語音為真實(shí)語音；如果真實(shí)語音的得分值小于偽造語音的得分值，則判斷說話人語音為偽造語音。

37、與現(xiàn)有技術(shù)相比，本發(fā)明的有益效果是：

38、本申請(qǐng)公開了采用基于一維卷積的resnet殘差塊；用128階、256階和512階的高斯混合模型分別對(duì)語音數(shù)據(jù)進(jìn)行進(jìn)行建模，提取不同尺度的對(duì)數(shù)高斯概率特征，結(jié)合多尺度gmm-resnet模型能夠有效提高語音偽造檢測(cè)系統(tǒng)的性能，多尺度gmm-resnet模型主要包含兩部分：多尺度對(duì)數(shù)高斯概率特征融合和多尺度特征聚合resnet模型。多尺度lgp特征融合將基于不同階數(shù)的gmm得到的三種不同尺度lgp特征進(jìn)行加權(quán)融合，從而促進(jìn)不同尺度lgp特征之間的信息交換。多尺度特征聚合resnet模型通過對(duì)每個(gè)resnet塊輸出的特征進(jìn)行聚合，充分融合網(wǎng)絡(luò)內(nèi)不同層級(jí)的特征信息，從而提高網(wǎng)絡(luò)的特征提取能力。

技術(shù)特征：

1.一種基于多尺度gmm-resnet模型的語音偽造檢測(cè)方法，其特征在于，該語音偽造檢測(cè)方法的具體步驟流程如下：

2.根據(jù)權(quán)利要求1所述的一種基于多尺度gmm-resnet模型的語音偽造檢測(cè)方法，其特征在于，所述語音高斯混合模型采用最大期望算法進(jìn)行訓(xùn)練。

3.根據(jù)權(quán)利要求1所述的一種基于多尺度gmm-resnet模型的語音偽造檢測(cè)方法，其特征在于，所述s4包括：

4.根據(jù)權(quán)利要求1所述的一種基于多尺度gmm-resnet模型的語音偽造檢測(cè)方法，其特征在于，所述s5包括：

5.根據(jù)權(quán)利要求4所述的一種基于多尺度gmm-resnet模型的語音偽造檢測(cè)方法，其特征在于，所述s5.1包括：

6.根據(jù)權(quán)利要求4所述的一種基于多尺度gmm-resnet模型的語音偽造檢測(cè)方法，其特征在于，所述s5.3包括：

7.根據(jù)權(quán)利要求4所述的一種基于多尺度gmm-resnet模型的語音偽造檢測(cè)方法，其特征在于，所述s5.7包括：

技術(shù)總結(jié)
本發(fā)明屬于語音偽造檢測(cè)技術(shù)領(lǐng)域，具體為一種基于多尺度GMM?ResNet模型的語音偽造檢測(cè)方法，獲取說話人真實(shí)語音數(shù)據(jù)及偽造語音數(shù)據(jù)作為原始語音數(shù)據(jù)，多尺度GMM?ResNet模型主要包含兩部分：多尺度對(duì)數(shù)高斯概率特征融合和多尺度特征聚合ResNet模型，多尺度LGP特征融合將基于不同階數(shù)的GMM得到的三種不同尺度LGP特征進(jìn)行加權(quán)融合，從而促進(jìn)不同尺度LGP特征之間的信息交換，多尺度特征聚合ResNet模型通過對(duì)每個(gè)ResNet塊輸出的特征進(jìn)行聚合，充分融合網(wǎng)絡(luò)內(nèi)不同層級(jí)的特征信息，從而提高網(wǎng)絡(luò)的特征提取能力。

技術(shù)研發(fā)人員：雷震春,周勇,馬明磊
受保護(hù)的技術(shù)使用者：江西師范大學(xué)
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/23

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：雷震春,周勇,馬明磊
技術(shù)所有人：江西師范大學(xué)
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于多尺度GMM-ResNet模型的語音偽造檢測(cè)方法