1.一種基于mamba模型的自適應(yīng)聲紋識(shí)別系統(tǒng),其特征在于,包括語音采集模塊、語音增強(qiáng)模塊、語音特征提取模塊、語譜圖增強(qiáng)模塊、模型訓(xùn)練模塊和模型決策模塊,
2.根據(jù)權(quán)利要求1所述的一種基于mamba模型的自適應(yīng)聲紋識(shí)別系統(tǒng),其特征在于,針對(duì)所述語音增強(qiáng)模塊:
3.根據(jù)權(quán)利要求1所述的一種基于mamba模型的自適應(yīng)聲紋識(shí)別系統(tǒng),其特征在于,針對(duì)所述語音特征提取模塊:
4.根據(jù)權(quán)利要求1所述的一種基于mamba模型的自適應(yīng)聲紋識(shí)別系統(tǒng),其特征在于,針對(duì)所述語譜圖增強(qiáng)模塊:
5.根據(jù)權(quán)利要求1所述的一種基于mamba模型的自適應(yīng)聲紋識(shí)別系統(tǒng),其特征在于,針對(duì)所述模型訓(xùn)練模塊,基于mamba的自適應(yīng)聲紋識(shí)別方法的具體步驟如下:
6.根據(jù)權(quán)利要求5所述的一種基于mamba模型的自適應(yīng)聲紋識(shí)別系統(tǒng),其特征在于,所述步驟s6中,時(shí)延神經(jīng)網(wǎng)絡(luò)模塊由三個(gè)標(biāo)準(zhǔn)的時(shí)延神經(jīng)網(wǎng)絡(luò)層和n個(gè)特殊結(jié)構(gòu)的時(shí)延神經(jīng)網(wǎng)絡(luò)層組成,其中n是大于1的整數(shù);
7.根據(jù)權(quán)利要求5所述的一種基于mamba模型的自適應(yīng)聲紋識(shí)別系統(tǒng),其特征在于,所述步驟s7中,注意力策略池模塊以目標(biāo)局部特征作為輸入信息,輸出語音加權(quán)聲紋向量;對(duì)于一個(gè)含有t幀的語音x=x1,x2,…,xt,經(jīng)過所述網(wǎng)絡(luò)可計(jì)算得到一個(gè)具有t幀的語音向量h=h1,h2,…,ht,其中h的尺度為dh×t,語音特征權(quán)重a的計(jì)算方式如下:
8.根據(jù)權(quán)利要求5所述的一種基于mamba模型的自適應(yīng)聲紋識(shí)別系統(tǒng),其特征在于,所述步驟s8中,全連接模塊包含兩個(gè)全連接層:第一全連接層負(fù)責(zé)接收來自注意力策略池模塊的聲紋向量,并計(jì)算得到聲紋嵌入向量;第二全連接層則負(fù)責(zé)接收第一全連接層輸出的聲紋嵌入向量,并在此基礎(chǔ)上預(yù)測(cè)和輸出語音信息對(duì)應(yīng)的分類信息。
9.根據(jù)權(quán)利要求1-8任一項(xiàng)所述的一種基于mamba模型的自適應(yīng)聲紋識(shí)別系統(tǒng),其特征在于,針對(duì)所述模型決策模塊: