本發(fā)明涉及語音偽造檢測(cè),具體為一種基于多尺度gmm-resnet模型的語音偽造檢測(cè)方法。
背景技術(shù):
1、自動(dòng)說話人確認(rèn)(automatic?speaker?verfication,asv)系統(tǒng)是一種根據(jù)說話人的聲音信息進(jìn)行身份認(rèn)證的系統(tǒng),目前正被廣泛用于手機(jī)解鎖、智能門禁、銀行身份驗(yàn)證等各種生活場(chǎng)景。隨著近年來深度學(xué)習(xí)模型的應(yīng)用,asv系統(tǒng)也取得了重大進(jìn)展,展現(xiàn)了其良好的性能。但同時(shí)也容易受到合成或轉(zhuǎn)換語音的偽造攻擊,合成語音偽造檢測(cè)系統(tǒng)致力于解決這一問題。
2、在實(shí)際應(yīng)用中,盡管語音偽造檢測(cè)技術(shù)已經(jīng)越來越成熟,但仍然會(huì)面臨模型泛化性能不足的問題。這是由于實(shí)際應(yīng)用場(chǎng)景往往更容易受到未知攻擊類型的語音攻擊,因此需要采取有效的語音偽造檢測(cè)方法,降低各種編解碼器和傳輸通道對(duì)語音偽造檢測(cè)系統(tǒng)的影響,提高模型的泛化性能。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提供一種基于多尺度gmm-resnet模型的語音偽造檢測(cè)方法,以解決上述背景技術(shù)中提出的問題。
2、為實(shí)現(xiàn)上述目的,本申請(qǐng)?zhí)峁┝巳缦路桨福?/p>
3、一種基于多尺度gmm-resnet模型的語音偽造檢測(cè)方法,該語音偽造檢測(cè)方法的具體步驟流程如下:
4、s1、獲取說話人真實(shí)語音數(shù)據(jù)及偽造語音數(shù)據(jù)作為原始語音數(shù)據(jù);
5、s2、計(jì)算所述原始語音數(shù)據(jù)的線性頻率倒譜系數(shù)特征;
6、s3、采用128階、256和512階高斯混合模型對(duì)所述原始語音數(shù)據(jù)的線性頻率倒譜系數(shù)特征分別進(jìn)行建模,并分別在所述原始語音數(shù)據(jù)上進(jìn)行訓(xùn)練,得到不同階的高斯混合模型,包括128階高斯混合模型、256階高斯混合模型和512階高斯混合模型;
7、s4、將所述原始語音數(shù)據(jù)的線性頻率倒譜系數(shù)特征同時(shí)作為128階高斯混合模型、256階高斯混合模型和512階高斯混合模型的輸入,分別計(jì)算得到128階、256階和512階的對(duì)數(shù)高斯概率特征;
8、s5、構(gòu)建多尺度gmm-resnet模型,將基于上述三種不同階的對(duì)數(shù)高斯概率特征作為多尺度gmm-resnet模型的輸入,對(duì)所述多尺度gmm-resnet模型進(jìn)行訓(xùn)練,訓(xùn)練好的多尺度gmm-resnet模型用于對(duì)新的語音數(shù)據(jù)進(jìn)行偽造檢測(cè)。
9、優(yōu)選的,所述語音高斯混合模型采用最大期望算法進(jìn)行訓(xùn)練。
10、優(yōu)選的,所述s4包括:
11、s4.1、計(jì)算所述原始語音數(shù)據(jù)的線性頻率倒譜系數(shù)特征x的對(duì)數(shù)高斯概率特征y,其大小等于高斯混合模型的階數(shù),其中每個(gè)分量yi計(jì)算公式為:
12、yi=log(wi·pi(x))
13、其中:wi為高斯混合模型的第i個(gè)高斯分量權(quán)重,pi(x)為單高斯概率密度函數(shù),μi為均值向量,σi為協(xié)方差矩陣,如公式所示:
14、
15、s4.2、對(duì)yi進(jìn)行均值方差歸一化,得到最終的對(duì)數(shù)高斯概率特征fi:
16、
17、其中:和是所有所述基于原始語音高斯混合模型的對(duì)數(shù)高斯概率特征的均值與方差。
18、優(yōu)選的,所述s5包括:
19、s5.1、構(gòu)建多尺度對(duì)數(shù)高斯概率特征融合網(wǎng)絡(luò),將基于所述128階高斯混合模型、256階高斯混合模型、512階高斯混合模型得到的概率特征作為多尺度對(duì)數(shù)高斯概率特征融合網(wǎng)絡(luò)的輸入;
20、s5.2、多尺度對(duì)數(shù)高斯概率特征融合網(wǎng)絡(luò)將三種不同尺度的對(duì)數(shù)高斯概率特征分別進(jìn)行加權(quán)融合,且系數(shù)加權(quán)和為1,融合后得到128維、256維和512維三種尺度的特征;
21、s5.3、構(gòu)建三個(gè)多尺度特征聚合resnet模型,將上述融合后的128維特征、256維特征和512維特征分別作為各自多尺度特征聚合resnet模型的輸入;
22、s5.4、三個(gè)多尺度特征聚合resnet模型將三組特征分別映射成三組二維向量;
23、s5.5、將上述得到的二維向量進(jìn)行自適應(yīng)最大池化操作,得到固定大小的三組一維向量;
24、s5.6、將所述固定大小的三組一維向量進(jìn)行拼接,得到一組一維向量,并輸入到全連接線性層,通過softmax函數(shù)輸出真實(shí)語音和偽造語音標(biāo)簽的得分;
25、s5.7、根據(jù)所述分類得分判斷語音是真實(shí)語音還是偽造語音。
26、優(yōu)選的,所述s5.1包括:
27、s5.1.1、多尺度對(duì)數(shù)高斯概率特征融合網(wǎng)絡(luò)采用模塊化結(jié)構(gòu),共有三個(gè)模塊;
28、s5.1.2、每個(gè)多尺度對(duì)數(shù)高斯概率特征融合模塊都包括兩個(gè)卷積層、一個(gè)批量歸一化層,其中卷積層使用一維卷積;
29、s5.1.3、每個(gè)多尺度對(duì)數(shù)高斯概率特征融合模塊中的輸入特征均為128階、256階和512階三種尺度的對(duì)數(shù)高斯概率特征。
30、優(yōu)選的,所述s5.3包括:
31、s5.3.1、每個(gè)多尺度特征聚合resnet網(wǎng)絡(luò)路徑都采用模塊化的結(jié)構(gòu),共有六個(gè)模塊;
32、s5.3.2、每個(gè)多尺度特征聚合resnet網(wǎng)絡(luò)路徑中的模塊都包括卷積層、批量歸一化層、非線性激活層,其中卷積層使用一維卷積;
33、s5.3.3、每個(gè)多尺度特征聚合resnet網(wǎng)絡(luò)路徑中的輸入特征通道數(shù)分別為128,256,512。
34、優(yōu)選的,所述s5.7包括:
35、s5.7.1、根據(jù)分類結(jié)果得到真實(shí)語音和偽造語音的得分值;
36、s5.7.2、如果真實(shí)語音的得分值大于偽造語音的得分值,則判斷說話人語音為真實(shí)語音;如果真實(shí)語音的得分值小于偽造語音的得分值,則判斷說話人語音為偽造語音。
37、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:
38、本申請(qǐng)公開了采用基于一維卷積的resnet殘差塊;用128階、256階和512階的高斯混合模型分別對(duì)語音數(shù)據(jù)進(jìn)行進(jìn)行建模,提取不同尺度的對(duì)數(shù)高斯概率特征,結(jié)合多尺度gmm-resnet模型能夠有效提高語音偽造檢測(cè)系統(tǒng)的性能,多尺度gmm-resnet模型主要包含兩部分:多尺度對(duì)數(shù)高斯概率特征融合和多尺度特征聚合resnet模型。多尺度lgp特征融合將基于不同階數(shù)的gmm得到的三種不同尺度lgp特征進(jìn)行加權(quán)融合,從而促進(jìn)不同尺度lgp特征之間的信息交換。多尺度特征聚合resnet模型通過對(duì)每個(gè)resnet塊輸出的特征進(jìn)行聚合,充分融合網(wǎng)絡(luò)內(nèi)不同層級(jí)的特征信息,從而提高網(wǎng)絡(luò)的特征提取能力。
1.一種基于多尺度gmm-resnet模型的語音偽造檢測(cè)方法,其特征在于,該語音偽造檢測(cè)方法的具體步驟流程如下:
2.根據(jù)權(quán)利要求1所述的一種基于多尺度gmm-resnet模型的語音偽造檢測(cè)方法,其特征在于,所述語音高斯混合模型采用最大期望算法進(jìn)行訓(xùn)練。
3.根據(jù)權(quán)利要求1所述的一種基于多尺度gmm-resnet模型的語音偽造檢測(cè)方法,其特征在于,所述s4包括:
4.根據(jù)權(quán)利要求1所述的一種基于多尺度gmm-resnet模型的語音偽造檢測(cè)方法,其特征在于,所述s5包括:
5.根據(jù)權(quán)利要求4所述的一種基于多尺度gmm-resnet模型的語音偽造檢測(cè)方法,其特征在于,所述s5.1包括:
6.根據(jù)權(quán)利要求4所述的一種基于多尺度gmm-resnet模型的語音偽造檢測(cè)方法,其特征在于,所述s5.3包括:
7.根據(jù)權(quán)利要求4所述的一種基于多尺度gmm-resnet模型的語音偽造檢測(cè)方法,其特征在于,所述s5.7包括: