本發(fā)明屬于聲紋識別,具體涉及一種基于mamba模型的自適應(yīng)聲紋識別系統(tǒng)。
背景技術(shù):
1、隨著信息技術(shù)的飛速發(fā)展,個(gè)人身份驗(yàn)證技術(shù)在安全性和便捷性方面的需求日益增長。聲紋識別作為一種生物特征識別方法,因其非侵入性、易于采集和用戶友好等特點(diǎn),受到了廣泛關(guān)注。聲紋識別系統(tǒng)通過分析個(gè)體語音的聲學(xué)特征,實(shí)現(xiàn)對說話人身份的自動驗(yàn)證,廣泛應(yīng)用于安全監(jiān)控、移動設(shè)備解鎖、金融服務(wù)等多個(gè)領(lǐng)域。然而,現(xiàn)有的聲紋識別系統(tǒng)在面對環(huán)境噪音、錄音質(zhì)量差異、說話風(fēng)格變化等實(shí)際應(yīng)用挑戰(zhàn)時(shí),仍存在識別準(zhǔn)確度和魯棒性不足的問題。此外,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,如何有效結(jié)合傳統(tǒng)聲紋識別算法與深度學(xué)習(xí)模型,提升系統(tǒng)的泛化能力和抗干擾能力,成為了當(dāng)前研究的熱點(diǎn)。
2、經(jīng)對現(xiàn)有技術(shù)文獻(xiàn)的檢索發(fā)現(xiàn),在說話人識別的領(lǐng)域內(nèi),深度神經(jīng)網(wǎng)絡(luò)(dnns)已經(jīng)成為構(gòu)建高效識別系統(tǒng)的主要驅(qū)動力。最近的研究進(jìn)展表明,從傳統(tǒng)的時(shí)間延遲神經(jīng)網(wǎng)絡(luò)(tdnn)架構(gòu)向基于resnet的模型轉(zhuǎn)移是一種明顯趨勢。tdnn模型通過統(tǒng)計(jì)池化層有效地聚合時(shí)間信息,而resnet模型則通過其中的殘差塊(resblock)利用二維卷積層處理語音信號。盡管resnet模型在處理三維張量時(shí)能夠保留時(shí)間信息,但它們在空間維度上的縮減,特別是時(shí)間軸上的縮減,可能會導(dǎo)致時(shí)間信息的丟失。為了解決這一問題,choi等人提出了一種新穎的temporal-bottleneck?resnet(tb-resnet)模型,該模型通過其構(gòu)建塊內(nèi)的時(shí)間瓶頸配置來捕獲和保留幀級上下文,從而增強(qiáng)了統(tǒng)計(jì)池化層的性能。tb-resnet模型在voxceleb1測試集上的表現(xiàn)超越了傳統(tǒng)的resnet模型,顯著降低了等錯(cuò)誤率(eer)和最小檢測成本函數(shù)(mindcf),證明了其在自動說話人驗(yàn)證任務(wù)中的有效性。此外,通過引入注意力機(jī)制和數(shù)據(jù)增強(qiáng)技術(shù),tb-resnet模型進(jìn)一步提升了說話人嵌入的質(zhì)量,并增強(qiáng)了系統(tǒng)的泛化能力。這一研究成果不僅推動了asv技術(shù)的發(fā)展,也為未來的研究提供了新的方向。
技術(shù)實(shí)現(xiàn)思路
1、為了彌補(bǔ)現(xiàn)有技術(shù)的不足,本發(fā)明目的在于提供一種基于mamba模型的自適應(yīng)聲紋識別系統(tǒng),通過創(chuàng)新的網(wǎng)絡(luò)架構(gòu)設(shè)計(jì),融合了局部和全局特征提取的優(yōu)勢,顯著提高了聲紋識別的準(zhǔn)確性和魯棒性;采用模塊化設(shè)計(jì),不僅增強(qiáng)了升級和調(diào)整的靈活性,而且通過一系列先進(jìn)的數(shù)據(jù)處理和網(wǎng)絡(luò)訓(xùn)練技術(shù),有效提升了聲紋特征的表達(dá)能力和模型的泛化性能。
2、所述的一種基于mamba模型的自適應(yīng)聲紋識別系統(tǒng),包括語音采集模塊、語音增強(qiáng)模塊、語音特征提取模塊、語譜圖增強(qiáng)模塊、模型訓(xùn)練模塊和模型決策模塊,
3、所述語音采集模塊用于采集語音數(shù)據(jù);
4、所述語音增強(qiáng)模塊用于對采集的語音數(shù)據(jù)進(jìn)行增強(qiáng)處理,包括添加混響、添加噪聲、添加速度擾動和頻域掩蔽;
5、所述語音特征提取模塊用于提取增強(qiáng)處理后的語音數(shù)據(jù)特征,包括聲學(xué)特征提取、特征正則化處理、fbank特征提取和特征向量的網(wǎng)絡(luò)輸入;
6、所述語音語譜圖增強(qiáng)模塊用于對語音的fbank特征數(shù)據(jù)進(jìn)行語譜圖增強(qiáng)處理,包括頻域掩碼處理和時(shí)域掩碼處理;fbank特征是通過對語音信號進(jìn)行頻率域分析后生成的80維特征向量,在增強(qiáng)處理中,模塊將對fbank特征應(yīng)用頻域掩碼和時(shí)域掩碼處理,從而提高語譜圖的表達(dá)能力;
7、所述模型訓(xùn)練模塊用于建立聲紋識別模型并對該模型進(jìn)行訓(xùn)練,采用基于mamba的自適應(yīng)聲紋識別方法建立聲紋識別模型和訓(xùn)練模型;
8、所述模型決策模塊用于實(shí)時(shí)評估和反饋模型訓(xùn)練的效果,包括評估模型和模型迭代。
9、進(jìn)一步地,針對所述語音增強(qiáng)模塊:
10、所述添加混響用以通過模擬不同環(huán)境下的聲音反射和延遲疊加,增強(qiáng)語音數(shù)據(jù)的真實(shí)性和多樣性,混響的添加可以模擬從小型房間到大型禮堂等不同空間的聲音效果;
11、所述添加噪聲用以向語音數(shù)據(jù)中引入不同類型的背景噪聲,提高模型對于實(shí)際環(huán)境中噪聲的魯棒性;
12、所述添加速度擾動用以通過對語音信號進(jìn)行時(shí)間伸縮處理,實(shí)現(xiàn)語音播放速度的微調(diào),從而產(chǎn)生稍慢或稍快的語音信號;
13、所述頻域掩蔽用以在特定頻率添加噪聲或調(diào)制信號,模擬真實(shí)環(huán)境中的干擾,提升模型對復(fù)雜聲音環(huán)境的魯棒性和適應(yīng)性。
14、進(jìn)一步地,針對所述語音特征提取模塊:
15、所述聲學(xué)特征提取用以從采集到的語音數(shù)據(jù)中提取聲學(xué)特征;
16、所述特征正則化處理用以對提取出的聲學(xué)特征進(jìn)行正則化處理,可以消除數(shù)據(jù)中的噪聲和不規(guī)則性;
17、所述fbank特征提取用以對經(jīng)過正則化處理后的語音數(shù)據(jù)進(jìn)一步進(jìn)行fbank特征提取,生成一個(gè)80維fbank特征向量;
18、所述特征向量的網(wǎng)絡(luò)輸入用以將所得到的80維fbank特征向量送入語譜圖增強(qiáng)模塊,而后將被送入基于mamba的聲紋識別網(wǎng)絡(luò)中。
19、進(jìn)一步地,針對所述語譜圖增強(qiáng)模塊:
20、所述頻域掩碼處理具體操作為:在fbank特征的頻域范圍內(nèi),隨機(jī)選擇寬度為0至8的頻段進(jìn)行掩碼處理;所述頻域掩碼處理是將選定頻段內(nèi)的頻譜值設(shè)置為0,以模擬在實(shí)際應(yīng)用中可能遇到的頻譜信息損失或干擾;
21、所述時(shí)域掩碼處理具體操作為:在fbank特征的時(shí)域范圍內(nèi),隨機(jī)選擇寬度為0至10的時(shí)段進(jìn)行掩碼處理;所述時(shí)域掩碼處理是將選定時(shí)段內(nèi)的頻譜值設(shè)置為0,以模擬語音信號在不同時(shí)間段的損失或干擾。
22、進(jìn)一步地,針對所述模型訓(xùn)練模塊,基于mamba的自適應(yīng)聲紋識別方法的具體步驟如下:
23、s1.利用基于mamba的網(wǎng)絡(luò)對特征數(shù)據(jù)進(jìn)行學(xué)習(xí),形成聲紋識別模型;
24、s2.在聲紋識別模型中,語音識別過程開始于將輸入的語譜圖分割成較小的片段,隨后這些片段被映射成一系列的token,vim模型中的編碼器接收這些token,并對每個(gè)token執(zhí)行兩個(gè)獨(dú)立的線性變換以提取深層特征;vim模型采用雙向處理機(jī)制,模擬雙向神經(jīng)網(wǎng)絡(luò)層的功能,即同時(shí)在正向和逆向上處理token序列,捕捉語音信號中的信息;
25、s3.在每個(gè)處理方向上,首先應(yīng)用一維卷積操作來提取局部特征,隨后通過sigmoid線性單元激活函數(shù)來增強(qiáng)非線性表達(dá)能力;并在token序列中加入額外的可學(xué)習(xí)分類標(biāo)記;
26、s4.在卷積和激活操作之后,執(zhí)行額外的線性變換,并應(yīng)用softplus函數(shù),確保所有輸出值都是正數(shù),為狀態(tài)空間模型序列建模功能的標(biāo)記做好準(zhǔn)備;然后,引入門控機(jī)制來調(diào)節(jié)信息流,該機(jī)制通過將狀態(tài)空間模型的輸出與經(jīng)過silu激活的正向和逆向序列的元素相乘,控制每個(gè)方向處理對最終結(jié)果的貢獻(xiàn)大??;
27、s5.采用殘差連接將原始輸入序列與門控輸出相加,輸出一個(gè)新的標(biāo)記序列;
28、s6.在使用mamba進(jìn)行聲紋識別的同時(shí),通過快速傅里葉變換(fft)對語譜圖提取mfccs特征,并將其依次通過時(shí)延神經(jīng)網(wǎng)絡(luò)模塊(tdnn)和densenet模塊進(jìn)行目標(biāo)局部特征的提?。籹6.在使用mamba進(jìn)行聲紋識別的同時(shí),通過快速傅里葉變換對語譜圖提取梅爾頻率倒譜系數(shù)特征,并將提取的梅爾頻率倒譜系數(shù)特征依次通過時(shí)延神經(jīng)網(wǎng)絡(luò)模塊和densenet模塊進(jìn)行目標(biāo)局部特征的提??;
29、s7.通過上述densenet模塊和tdnn模塊提取到的目標(biāo)局部特征,會成為注意力策略池的輸入信息;注意力策略池能夠提取語音數(shù)據(jù)中的關(guān)鍵信息,賦予不同幀的語音特征以不同的權(quán)重,得到更具區(qū)分度的聲紋向量;
30、s8.經(jīng)過注意力策略池后,局部特征將在全連接模塊中進(jìn)行整合,形成全局特征。
31、進(jìn)一步地,所述步驟s6中,時(shí)延神經(jīng)網(wǎng)絡(luò)模塊由三個(gè)標(biāo)準(zhǔn)的時(shí)延神經(jīng)網(wǎng)絡(luò)層和n個(gè)特殊結(jié)構(gòu)的時(shí)延神經(jīng)網(wǎng)絡(luò)層組成,其中n是大于1的整數(shù);
32、densenet模塊包括兩個(gè)卷積層和兩個(gè)殘差層,其中第一卷積層對收到的語音聲學(xué)特征進(jìn)行卷積處理,提取語音數(shù)據(jù)的局部特征;通過兩個(gè)殘差層的跳躍連接使得網(wǎng)絡(luò)學(xué)習(xí)到更加有效的特征表示,并緩解在深層網(wǎng)絡(luò)訓(xùn)練中的梯度消失問題;通過第二卷積層對第二殘差層輸出的特征圖進(jìn)行卷積處理,對特征圖的頻域特征和原始的頻域和通道特征進(jìn)行合并,用于輔助mamba模塊進(jìn)行聲紋識別。
33、進(jìn)一步地,所述步驟s7中,注意力策略池模塊以目標(biāo)局部特征作為輸入信息,輸出語音加權(quán)聲紋向量;對于一個(gè)含有t幀的語音x=x1,x2,…,xt,經(jīng)過所述網(wǎng)絡(luò)可計(jì)算得到一個(gè)具有t幀的語音向量h=h1,h2,…,ht,其中h的尺度為dh×t,語音特征權(quán)重a的計(jì)算方式如下:
34、a=σ(g(hw1)w2),
35、式中,w1是一個(gè)dh×dr的矩陣,w2是一個(gè)dr×dh的矩陣,g(·)表示激活函數(shù),σ表示sigmoid函數(shù),a=a1,a2,…,at,a的尺度為dh×t;
36、基于注意力策略池計(jì)算得到的語音向量的均值μ為:
37、
38、其中,at是第t幀語音向量的權(quán)重,ht是第t幀語音向量,t表示語音總幀數(shù);
39、基于注意力策略池計(jì)算得到的語音向量的標(biāo)準(zhǔn)差σ為:
40、
41、其中,at是第t幀語音向量的權(quán)重,ht是第t幀語音向量,μ是語音向量的均值,t表示語音總幀數(shù);
42、經(jīng)過注意力策略池得到的聲紋向量v表示為:
43、
44、式中,μ是語音向量的均值,σ是語音向量的標(biāo)準(zhǔn)差。
45、進(jìn)一步地,所述步驟s8中,全連接模塊包含兩個(gè)全連接層:第一全連接層負(fù)責(zé)接收來自注意力策略池模塊的聲紋向量,并計(jì)算得到聲紋嵌入向量;第二全連接層則負(fù)責(zé)接收第一全連接層輸出的聲紋嵌入向量,并在此基礎(chǔ)上預(yù)測和輸出語音信息對應(yīng)的分類信息。
46、進(jìn)一步地,針對所述模型決策模塊:
47、所述評估模型用以測試判別使用當(dāng)前階段訓(xùn)練得到的聲紋識別模型進(jìn)行實(shí)時(shí)反饋模型訓(xùn)練的效果評估,包括但不限于錯(cuò)誤接受率、錯(cuò)誤拒接率、等錯(cuò)誤率、最小檢測代價(jià)函數(shù);
48、所述模型迭代用以通過多次迭代更新訓(xùn)練模型,基于densenet和tdnn的自適應(yīng)聲紋識別方法將得到一個(gè)成熟的聲紋識別網(wǎng)絡(luò)模型。
49、與現(xiàn)有技術(shù)相比,本發(fā)明有以下優(yōu)點(diǎn):
50、1)本系統(tǒng)通過綜合利用先進(jìn)的網(wǎng)絡(luò)架構(gòu)和算法,實(shí)現(xiàn)了聲紋識別系統(tǒng)中魯棒性與準(zhǔn)確性的平衡,為聲紋識別技術(shù)的發(fā)展提供了新的視角和解決方案。具體而言,本發(fā)明通過精心設(shè)計(jì)的網(wǎng)絡(luò)架構(gòu)和算法優(yōu)化,實(shí)現(xiàn)了在確保高識別準(zhǔn)確度的同時(shí),展現(xiàn)出較好的魯棒性。該系統(tǒng)在多種噪聲條件下和不同說話風(fēng)格中均能保持較低的等錯(cuò)誤率(eer),證明了其在聲紋識別任務(wù)中的高度魯棒性和準(zhǔn)確性;mamba模塊的雙向狀態(tài)空間模型有效地捕獲了聲紋的局部細(xì)節(jié)和全局上下文,增強(qiáng)了系統(tǒng)對復(fù)雜語音特征的識別能力,在圖2的mamba模塊中體現(xiàn);tdnn模塊強(qiáng)化了系統(tǒng)對時(shí)間序列特征的敏感度,而densenet模塊則通過其密集連接提升了特征的傳遞和融合,兩者的結(jié)合顯著提升了模型的魯棒性。
51、2)在開源說話人識別語料集voxceleb上的測試結(jié)果表明,本發(fā)明在聲紋識別性能上取得了顯著提升,驗(yàn)證了系統(tǒng)設(shè)計(jì)的有效性。voxceleb數(shù)據(jù)集包含超過7000位名人的超過100萬段語音片段,這些片段是通過語音識別和面部驗(yàn)證技術(shù)從youtube視頻中提取的,用于研究和發(fā)展說話人識別和驗(yàn)證系統(tǒng)。