一種基于Mamba模型的自適應(yīng)聲紋識別系統(tǒng)

文檔序號：40616483發(fā)布日期：2025-01-10 18:21閱讀：4來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明屬于聲紋識別，具體涉及一種基于mamba模型的自適應(yīng)聲紋識別系統(tǒng)。

背景技術(shù)：

1、隨著信息技術(shù)的飛速發(fā)展，個(gè)人身份驗(yàn)證技術(shù)在安全性和便捷性方面的需求日益增長。聲紋識別作為一種生物特征識別方法，因其非侵入性、易于采集和用戶友好等特點(diǎn)，受到了廣泛關(guān)注。聲紋識別系統(tǒng)通過分析個(gè)體語音的聲學(xué)特征，實(shí)現(xiàn)對說話人身份的自動驗(yàn)證，廣泛應(yīng)用于安全監(jiān)控、移動設(shè)備解鎖、金融服務(wù)等多個(gè)領(lǐng)域。然而，現(xiàn)有的聲紋識別系統(tǒng)在面對環(huán)境噪音、錄音質(zhì)量差異、說話風(fēng)格變化等實(shí)際應(yīng)用挑戰(zhàn)時(shí)，仍存在識別準(zhǔn)確度和魯棒性不足的問題。此外，隨著深度學(xué)習(xí)技術(shù)的發(fā)展，如何有效結(jié)合傳統(tǒng)聲紋識別算法與深度學(xué)習(xí)模型，提升系統(tǒng)的泛化能力和抗干擾能力，成為了當(dāng)前研究的熱點(diǎn)。

2、經(jīng)對現(xiàn)有技術(shù)文獻(xiàn)的檢索發(fā)現(xiàn)，在說話人識別的領(lǐng)域內(nèi)，深度神經(jīng)網(wǎng)絡(luò)(dnns)已經(jīng)成為構(gòu)建高效識別系統(tǒng)的主要驅(qū)動力。最近的研究進(jìn)展表明，從傳統(tǒng)的時(shí)間延遲神經(jīng)網(wǎng)絡(luò)(tdnn)架構(gòu)向基于resnet的模型轉(zhuǎn)移是一種明顯趨勢。tdnn模型通過統(tǒng)計(jì)池化層有效地聚合時(shí)間信息，而resnet模型則通過其中的殘差塊(resblock)利用二維卷積層處理語音信號。盡管resnet模型在處理三維張量時(shí)能夠保留時(shí)間信息，但它們在空間維度上的縮減，特別是時(shí)間軸上的縮減，可能會導(dǎo)致時(shí)間信息的丟失。為了解決這一問題，choi等人提出了一種新穎的temporal-bottleneck?resnet(tb-resnet)模型，該模型通過其構(gòu)建塊內(nèi)的時(shí)間瓶頸配置來捕獲和保留幀級上下文，從而增強(qiáng)了統(tǒng)計(jì)池化層的性能。tb-resnet模型在voxceleb1測試集上的表現(xiàn)超越了傳統(tǒng)的resnet模型，顯著降低了等錯(cuò)誤率(eer)和最小檢測成本函數(shù)(mindcf)，證明了其在自動說話人驗(yàn)證任務(wù)中的有效性。此外，通過引入注意力機(jī)制和數(shù)據(jù)增強(qiáng)技術(shù)，tb-resnet模型進(jìn)一步提升了說話人嵌入的質(zhì)量，并增強(qiáng)了系統(tǒng)的泛化能力。這一研究成果不僅推動了asv技術(shù)的發(fā)展，也為未來的研究提供了新的方向。

技術(shù)實(shí)現(xiàn)思路

1、為了彌補(bǔ)現(xiàn)有技術(shù)的不足，本發(fā)明目的在于提供一種基于mamba模型的自適應(yīng)聲紋識別系統(tǒng)，通過創(chuàng)新的網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)，融合了局部和全局特征提取的優(yōu)勢，顯著提高了聲紋識別的準(zhǔn)確性和魯棒性；采用模塊化設(shè)計(jì)，不僅增強(qiáng)了升級和調(diào)整的靈活性，而且通過一系列先進(jìn)的數(shù)據(jù)處理和網(wǎng)絡(luò)訓(xùn)練技術(shù)，有效提升了聲紋特征的表達(dá)能力和模型的泛化性能。

2、所述的一種基于mamba模型的自適應(yīng)聲紋識別系統(tǒng)，包括語音采集模塊、語音增強(qiáng)模塊、語音特征提取模塊、語譜圖增強(qiáng)模塊、模型訓(xùn)練模塊和模型決策模塊，

3、所述語音采集模塊用于采集語音數(shù)據(jù)；

4、所述語音增強(qiáng)模塊用于對采集的語音數(shù)據(jù)進(jìn)行增強(qiáng)處理，包括添加混響、添加噪聲、添加速度擾動和頻域掩蔽；

5、所述語音特征提取模塊用于提取增強(qiáng)處理后的語音數(shù)據(jù)特征，包括聲學(xué)特征提取、特征正則化處理、fbank特征提取和特征向量的網(wǎng)絡(luò)輸入；

6、所述語音語譜圖增強(qiáng)模塊用于對語音的fbank特征數(shù)據(jù)進(jìn)行語譜圖增強(qiáng)處理，包括頻域掩碼處理和時(shí)域掩碼處理；fbank特征是通過對語音信號進(jìn)行頻率域分析后生成的80維特征向量，在增強(qiáng)處理中，模塊將對fbank特征應(yīng)用頻域掩碼和時(shí)域掩碼處理，從而提高語譜圖的表達(dá)能力；

7、所述模型訓(xùn)練模塊用于建立聲紋識別模型并對該模型進(jìn)行訓(xùn)練，采用基于mamba的自適應(yīng)聲紋識別方法建立聲紋識別模型和訓(xùn)練模型；

8、所述模型決策模塊用于實(shí)時(shí)評估和反饋模型訓(xùn)練的效果，包括評估模型和模型迭代。

9、進(jìn)一步地，針對所述語音增強(qiáng)模塊：

10、所述添加混響用以通過模擬不同環(huán)境下的聲音反射和延遲疊加，增強(qiáng)語音數(shù)據(jù)的真實(shí)性和多樣性，混響的添加可以模擬從小型房間到大型禮堂等不同空間的聲音效果；

11、所述添加噪聲用以向語音數(shù)據(jù)中引入不同類型的背景噪聲，提高模型對于實(shí)際環(huán)境中噪聲的魯棒性；

12、所述添加速度擾動用以通過對語音信號進(jìn)行時(shí)間伸縮處理，實(shí)現(xiàn)語音播放速度的微調(diào)，從而產(chǎn)生稍慢或稍快的語音信號；

13、所述頻域掩蔽用以在特定頻率添加噪聲或調(diào)制信號，模擬真實(shí)環(huán)境中的干擾，提升模型對復(fù)雜聲音環(huán)境的魯棒性和適應(yīng)性。

14、進(jìn)一步地，針對所述語音特征提取模塊：

15、所述聲學(xué)特征提取用以從采集到的語音數(shù)據(jù)中提取聲學(xué)特征；

16、所述特征正則化處理用以對提取出的聲學(xué)特征進(jìn)行正則化處理，可以消除數(shù)據(jù)中的噪聲和不規(guī)則性；

17、所述fbank特征提取用以對經(jīng)過正則化處理后的語音數(shù)據(jù)進(jìn)一步進(jìn)行fbank特征提取，生成一個(gè)80維fbank特征向量；

18、所述特征向量的網(wǎng)絡(luò)輸入用以將所得到的80維fbank特征向量送入語譜圖增強(qiáng)模塊，而后將被送入基于mamba的聲紋識別網(wǎng)絡(luò)中。

19、進(jìn)一步地，針對所述語譜圖增強(qiáng)模塊：

20、所述頻域掩碼處理具體操作為：在fbank特征的頻域范圍內(nèi)，隨機(jī)選擇寬度為0至8的頻段進(jìn)行掩碼處理；所述頻域掩碼處理是將選定頻段內(nèi)的頻譜值設(shè)置為0，以模擬在實(shí)際應(yīng)用中可能遇到的頻譜信息損失或干擾；

21、所述時(shí)域掩碼處理具體操作為：在fbank特征的時(shí)域范圍內(nèi)，隨機(jī)選擇寬度為0至10的時(shí)段進(jìn)行掩碼處理；所述時(shí)域掩碼處理是將選定時(shí)段內(nèi)的頻譜值設(shè)置為0，以模擬語音信號在不同時(shí)間段的損失或干擾。

22、進(jìn)一步地，針對所述模型訓(xùn)練模塊，基于mamba的自適應(yīng)聲紋識別方法的具體步驟如下：

23、s1.利用基于mamba的網(wǎng)絡(luò)對特征數(shù)據(jù)進(jìn)行學(xué)習(xí)，形成聲紋識別模型；

24、s2.在聲紋識別模型中，語音識別過程開始于將輸入的語譜圖分割成較小的片段，隨后這些片段被映射成一系列的token，vim模型中的編碼器接收這些token，并對每個(gè)token執(zhí)行兩個(gè)獨(dú)立的線性變換以提取深層特征；vim模型采用雙向處理機(jī)制，模擬雙向神經(jīng)網(wǎng)絡(luò)層的功能，即同時(shí)在正向和逆向上處理token序列，捕捉語音信號中的信息；

25、s3.在每個(gè)處理方向上，首先應(yīng)用一維卷積操作來提取局部特征，隨后通過sigmoid線性單元激活函數(shù)來增強(qiáng)非線性表達(dá)能力；并在token序列中加入額外的可學(xué)習(xí)分類標(biāo)記；

26、s4.在卷積和激活操作之后，執(zhí)行額外的線性變換，并應(yīng)用softplus函數(shù)，確保所有輸出值都是正數(shù)，為狀態(tài)空間模型序列建模功能的標(biāo)記做好準(zhǔn)備；然后，引入門控機(jī)制來調(diào)節(jié)信息流，該機(jī)制通過將狀態(tài)空間模型的輸出與經(jīng)過silu激活的正向和逆向序列的元素相乘，控制每個(gè)方向處理對最終結(jié)果的貢獻(xiàn)大??；

27、s5.采用殘差連接將原始輸入序列與門控輸出相加，輸出一個(gè)新的標(biāo)記序列；

28、s6.在使用mamba進(jìn)行聲紋識別的同時(shí)，通過快速傅里葉變換(fft)對語譜圖提取mfccs特征，并將其依次通過時(shí)延神經(jīng)網(wǎng)絡(luò)模塊(tdnn)和densenet模塊進(jìn)行目標(biāo)局部特征的提?。籹6.在使用mamba進(jìn)行聲紋識別的同時(shí)，通過快速傅里葉變換對語譜圖提取梅爾頻率倒譜系數(shù)特征，并將提取的梅爾頻率倒譜系數(shù)特征依次通過時(shí)延神經(jīng)網(wǎng)絡(luò)模塊和densenet模塊進(jìn)行目標(biāo)局部特征的提??；

29、s7.通過上述densenet模塊和tdnn模塊提取到的目標(biāo)局部特征，會成為注意力策略池的輸入信息；注意力策略池能夠提取語音數(shù)據(jù)中的關(guān)鍵信息，賦予不同幀的語音特征以不同的權(quán)重，得到更具區(qū)分度的聲紋向量；

30、s8.經(jīng)過注意力策略池后，局部特征將在全連接模塊中進(jìn)行整合，形成全局特征。

31、進(jìn)一步地，所述步驟s6中，時(shí)延神經(jīng)網(wǎng)絡(luò)模塊由三個(gè)標(biāo)準(zhǔn)的時(shí)延神經(jīng)網(wǎng)絡(luò)層和n個(gè)特殊結(jié)構(gòu)的時(shí)延神經(jīng)網(wǎng)絡(luò)層組成，其中n是大于1的整數(shù)；

32、densenet模塊包括兩個(gè)卷積層和兩個(gè)殘差層，其中第一卷積層對收到的語音聲學(xué)特征進(jìn)行卷積處理，提取語音數(shù)據(jù)的局部特征；通過兩個(gè)殘差層的跳躍連接使得網(wǎng)絡(luò)學(xué)習(xí)到更加有效的特征表示，并緩解在深層網(wǎng)絡(luò)訓(xùn)練中的梯度消失問題；通過第二卷積層對第二殘差層輸出的特征圖進(jìn)行卷積處理，對特征圖的頻域特征和原始的頻域和通道特征進(jìn)行合并，用于輔助mamba模塊進(jìn)行聲紋識別。

33、進(jìn)一步地，所述步驟s7中，注意力策略池模塊以目標(biāo)局部特征作為輸入信息，輸出語音加權(quán)聲紋向量；對于一個(gè)含有t幀的語音x＝x1,x2,…,xt，經(jīng)過所述網(wǎng)絡(luò)可計(jì)算得到一個(gè)具有t幀的語音向量h＝h1,h2,…,ht，其中h的尺度為dh×t，語音特征權(quán)重a的計(jì)算方式如下：

34、a＝σ(g(hw1)w2)，

35、式中，w1是一個(gè)dh×dr的矩陣，w2是一個(gè)dr×dh的矩陣，g(·)表示激活函數(shù)，σ表示sigmoid函數(shù)，a＝a1,a2,…,at，a的尺度為dh×t；

36、基于注意力策略池計(jì)算得到的語音向量的均值μ為：

37、

38、其中，at是第t幀語音向量的權(quán)重，ht是第t幀語音向量，t表示語音總幀數(shù)；

39、基于注意力策略池計(jì)算得到的語音向量的標(biāo)準(zhǔn)差σ為：

40、

41、其中，at是第t幀語音向量的權(quán)重，ht是第t幀語音向量，μ是語音向量的均值，t表示語音總幀數(shù)；

42、經(jīng)過注意力策略池得到的聲紋向量v表示為：

43、

44、式中，μ是語音向量的均值，σ是語音向量的標(biāo)準(zhǔn)差。

45、進(jìn)一步地，所述步驟s8中，全連接模塊包含兩個(gè)全連接層：第一全連接層負(fù)責(zé)接收來自注意力策略池模塊的聲紋向量，并計(jì)算得到聲紋嵌入向量；第二全連接層則負(fù)責(zé)接收第一全連接層輸出的聲紋嵌入向量，并在此基礎(chǔ)上預(yù)測和輸出語音信息對應(yīng)的分類信息。

46、進(jìn)一步地，針對所述模型決策模塊：

47、所述評估模型用以測試判別使用當(dāng)前階段訓(xùn)練得到的聲紋識別模型進(jìn)行實(shí)時(shí)反饋模型訓(xùn)練的效果評估，包括但不限于錯(cuò)誤接受率、錯(cuò)誤拒接率、等錯(cuò)誤率、最小檢測代價(jià)函數(shù)；

48、所述模型迭代用以通過多次迭代更新訓(xùn)練模型，基于densenet和tdnn的自適應(yīng)聲紋識別方法將得到一個(gè)成熟的聲紋識別網(wǎng)絡(luò)模型。

49、與現(xiàn)有技術(shù)相比，本發(fā)明有以下優(yōu)點(diǎn)：

50、1)本系統(tǒng)通過綜合利用先進(jìn)的網(wǎng)絡(luò)架構(gòu)和算法，實(shí)現(xiàn)了聲紋識別系統(tǒng)中魯棒性與準(zhǔn)確性的平衡，為聲紋識別技術(shù)的發(fā)展提供了新的視角和解決方案。具體而言，本發(fā)明通過精心設(shè)計(jì)的網(wǎng)絡(luò)架構(gòu)和算法優(yōu)化，實(shí)現(xiàn)了在確保高識別準(zhǔn)確度的同時(shí)，展現(xiàn)出較好的魯棒性。該系統(tǒng)在多種噪聲條件下和不同說話風(fēng)格中均能保持較低的等錯(cuò)誤率(eer)，證明了其在聲紋識別任務(wù)中的高度魯棒性和準(zhǔn)確性；mamba模塊的雙向狀態(tài)空間模型有效地捕獲了聲紋的局部細(xì)節(jié)和全局上下文，增強(qiáng)了系統(tǒng)對復(fù)雜語音特征的識別能力，在圖2的mamba模塊中體現(xiàn)；tdnn模塊強(qiáng)化了系統(tǒng)對時(shí)間序列特征的敏感度，而densenet模塊則通過其密集連接提升了特征的傳遞和融合，兩者的結(jié)合顯著提升了模型的魯棒性。

51、2)在開源說話人識別語料集voxceleb上的測試結(jié)果表明，本發(fā)明在聲紋識別性能上取得了顯著提升，驗(yàn)證了系統(tǒng)設(shè)計(jì)的有效性。voxceleb數(shù)據(jù)集包含超過7000位名人的超過100萬段語音片段，這些片段是通過語音識別和面部驗(yàn)證技術(shù)從youtube視頻中提取的，用于研究和發(fā)展說話人識別和驗(yàn)證系統(tǒng)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李奕哲,石興民,楊佳文,張一航,劉子陽,蔣世杰
技術(shù)所有人：杭州師范大學(xué)
我是此專利的發(fā)明人

上一篇：牽引護(hù)頸儀的制作方法
上一篇：一種氫燃料電動汽車用儲能電池的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于Mamba模型的自適應(yīng)聲紋識別系統(tǒng)