本發(fā)明涉及語音識(shí)別,具體為一種用于語音識(shí)別的線性復(fù)雜度模型架構(gòu)。
背景技術(shù):
1、近年來,大量研究集中在對(duì)conformer的結(jié)構(gòu)改進(jìn),旨在進(jìn)一步降低計(jì)算開銷并提升識(shí)別性能。例如,branchformer(peng?et?al.,2022)通過引入并行分支對(duì)不同范圍的上下文特征進(jìn)行建模,其中一個(gè)分支采用卷積門控多層感知機(jī)(cgmlp)捕獲局部上下文特征,另一個(gè)分支利用自注意機(jī)制捕捉長(zhǎng)程特征依賴關(guān)系,branchformer結(jié)構(gòu)如圖1所示,
2、但是該結(jié)構(gòu)存在兩個(gè)問題:第一,局部特征和全局特征完全分離的方式是主流模式,但這種進(jìn)行局部特征和全局特征獨(dú)立提取再拼接融合的方式,并沒有解決全局特征和局部特征實(shí)時(shí)都在相互影響的問題,因此本文在提取局部特征和全局特征的同時(shí),適當(dāng)?shù)脑诰植刻卣骱腿痔卣魈崛√幚頃r(shí)進(jìn)行了提前融合,來解決全局特征和局部特征實(shí)時(shí)相互影響的問題。
3、第二,注意力計(jì)算復(fù)雜度高,對(duì)硬件設(shè)備依賴嚴(yán)重。mlp?mixer(tolstikhin?etal.,?2021)通過固定大小的mlp在時(shí)間維度上進(jìn)行令牌混合,在多個(gè)任務(wù)上展示了與多頭自注意機(jī)制(mhsa)相媲美的性能(choe?et?al.,?2022)。但是,鑒于語音任務(wù)通常涉及可變長(zhǎng)度的序列,mlp?mixer在語音任務(wù)中的應(yīng)用受限,導(dǎo)致其性能表現(xiàn)不佳。
技術(shù)實(shí)現(xiàn)思路
1、本部分的目的在于概述本發(fā)明的實(shí)施方式的一些方面以及簡(jiǎn)要介紹一些較佳實(shí)施方式。在本部分以及本申請(qǐng)的說明書摘要和發(fā)明名稱中可能會(huì)做些簡(jiǎn)化或省略以避免使本部分、說明書摘要和發(fā)明名稱的目的模糊,而這種簡(jiǎn)化或省略不能用于限制本發(fā)明的范圍。
2、因此,本發(fā)明的目的是提供一種用于語音識(shí)別的線性復(fù)雜度模型架構(gòu),在提取局部特征和全局特征的同時(shí),適當(dāng)?shù)脑诰植刻卣骱腿痔卣魈崛√幚頃r(shí)進(jìn)行了提前融合,來解決全局特征和局部特征實(shí)時(shí)相互影響的問題。
3、為解決上述技術(shù)問題,根據(jù)本發(fā)明的一個(gè)方面,本發(fā)明提供了如下技術(shù)方案:
4、一種用于語音識(shí)別的線性復(fù)雜度模型架構(gòu),其包括:amlp分支和卷積分支;
5、所述amlp分支使用mlp替代注意力機(jī)制,并在mlp基礎(chǔ)上添加注意力平均池化層,在保持線性復(fù)雜度的同時(shí),確保注意力權(quán)重均勻分布,并獲取全面的全局特征;
6、所述卷積分支利用卷積空間門控單元捕獲增強(qiáng)的局部特征關(guān)系,并通過與amlp分支交互信息的通道,將局部特征與全局特征進(jìn)行混合,為全局特征補(bǔ)充局部特征。
7、作為本發(fā)明所述的一種用于語音識(shí)別的線性復(fù)雜度模型架構(gòu)的一種優(yōu)選方案,其中,還包括前饋神經(jīng)網(wǎng)絡(luò)模塊,所述前饋神經(jīng)網(wǎng)絡(luò)模塊位于模型架構(gòu)的兩端。
8、作為本發(fā)明所述的一種用于語音識(shí)別的線性復(fù)雜度模型架構(gòu)的一種優(yōu)選方案,其中,所述amlp分支對(duì)輸入信息進(jìn)行全局上下文建模,具體步驟如下:
9、利用兩個(gè)mlp,針對(duì)第一個(gè)時(shí)間的特征維度從輸入本身動(dòng)態(tài)生成w1、w2,以此類推,直到第t個(gè)時(shí)長(zhǎng)的特征維度,所有維度的特征權(quán)重描述方式如公式:
10、;
11、其中,k∈1,2;
12、對(duì)輸入序列x中的每個(gè)時(shí)間步長(zhǎng)xt應(yīng)用多層感知機(jī)mlpk(xt)生成各自時(shí)間段的權(quán)重,得到所有時(shí)間步長(zhǎng)下的特征權(quán)重,然后將這些權(quán)重堆疊成一個(gè)可變高度的權(quán)重矩陣wk,從而適用于可變長(zhǎng)序列;
13、在獲取權(quán)重的同時(shí),計(jì)算復(fù)雜度與輸入序列的時(shí)間長(zhǎng)度t呈線性關(guān)系,通過如下公式輸出:
14、;
15、其中,是非線性的;
16、上述公式中,權(quán)重矩陣mlp2對(duì)每個(gè)時(shí)間步長(zhǎng)應(yīng)用局部變換,生成局部貢獻(xiàn),然后與對(duì)應(yīng)時(shí)間步的輸入序列做內(nèi)積,將這些局部貢獻(xiàn)的結(jié)果通過全局求和得到整體表示,再通過非線性變換得到全局投影矩陣,每個(gè)局部變換的結(jié)果mlp1(xt)通過全局投影矩陣進(jìn)行投影,整合為最終的輸出矩陣。
17、作為本發(fā)明所述的一種用于語音識(shí)別的線性復(fù)雜度模型架構(gòu)的一種優(yōu)選方案,其中,所述amlp分支具有amlp模塊,amlp模塊包括超混合網(wǎng)絡(luò)和加性注意力,超混合網(wǎng)絡(luò)用于動(dòng)態(tài)獲取全局信息;加性注意力對(duì)超混合網(wǎng)絡(luò)獲取的全局信息進(jìn)一步凝練,最后將結(jié)果輸入到下一層的hyper?mixer模塊;
18、amlp模塊利用多層感知機(jī)構(gòu)成的hypermixer提取全局信息,再通過加性注意力對(duì)輸出矩陣進(jìn)行加權(quán)平均,得到具有全局上下文信息的向量,進(jìn)一步對(duì)線性計(jì)算處理的注意力結(jié)果利用softmax進(jìn)行歸一化,得到注意力權(quán)重,公式如下:
19、;
20、其中,是可訓(xùn)練的權(quán)重向量,是縮放因子,全局上下文信息向量計(jì)算公式如下:
21、。
22、作為本發(fā)明所述的一種用于語音識(shí)別的線性復(fù)雜度模型架構(gòu)的一種優(yōu)選方案,其中,所述卷積分支執(zhí)行如下步驟:
23、對(duì)特征序列進(jìn)行非線性變換;
24、然后,將其送入關(guān)鍵模塊線性門控csgu中,接著,將特征序列沿隱藏層維度切割為相等的兩個(gè)特征序列,對(duì)進(jìn)行層歸一化,并使用深度卷積獲取強(qiáng)局部特征;
25、最后,將進(jìn)行逐元素乘積,得到最終的局部特征矩陣:
26、。
27、作為本發(fā)明所述的一種用于語音識(shí)別的線性復(fù)雜度模型架構(gòu)的一種優(yōu)選方案,其中,所述卷積分支在卷積空間門控單元的基礎(chǔ)上,添加全局和局部特征混合的卷積空間門控特征混合單元,用來混合來自卷積的局部上下文信息與amlp分支的全局上下文信息;
28、所述卷積分支線性計(jì)算如下:首先將強(qiáng)局部特征矩陣與全局特征矩陣amlp(x)進(jìn)行拼接,得到保留了兩種完整信息的新特征矩陣,然后,將其送入門控線性單元,并與逐元素乘積,得到的特征矩陣和未與全局特征混合的矩陣進(jìn)行殘差連接,具體公式表示如下:
29、;
30、;
31、;
32、其中,與是相同的。
33、與現(xiàn)有技術(shù)相比,本發(fā)明具有的獨(dú)創(chuàng)效果是:本發(fā)明提出的hmbformer架構(gòu),是一種具有線性時(shí)間復(fù)雜度的新型架構(gòu),旨在消除語音識(shí)別中對(duì)自注意機(jī)制的依賴,降低計(jì)算復(fù)雜度。hmbformer架構(gòu)使用多個(gè)線性組件對(duì)全局上下文信息進(jìn)行補(bǔ)充,可以高效且充分的利用全局和局部特征信息,從而實(shí)現(xiàn)較好的語音識(shí)別性能。
1.一種用于語音識(shí)別的線性復(fù)雜度模型架構(gòu),其特征在于,包括:amlp分支和卷積分支;
2.根據(jù)權(quán)利要求1所述的一種用于語音識(shí)別的線性復(fù)雜度模型架構(gòu),其特征在于,還包括前饋神經(jīng)網(wǎng)絡(luò)模塊,所述前饋神經(jīng)網(wǎng)絡(luò)模塊位于模型架構(gòu)的兩端。
3.根據(jù)權(quán)利要求1所述的一種用于語音識(shí)別的線性復(fù)雜度模型架構(gòu),其特征在于,所述amlp分支對(duì)輸入信息進(jìn)行全局上下文建模,具體步驟如下:
4.根據(jù)權(quán)利要求1所述的一種用于語音識(shí)別的線性復(fù)雜度模型架構(gòu),其特征在于,所述amlp分支具有amlp模塊,amlp模塊包括超混合網(wǎng)絡(luò)和加性注意力,超混合網(wǎng)絡(luò)用于動(dòng)態(tài)獲取全局信息;加性注意力對(duì)超混合網(wǎng)絡(luò)獲取的全局信息進(jìn)一步凝練,最后將結(jié)果輸入到下一層的hyper?mixer模塊;
5.根據(jù)權(quán)利要求1所述的一種用于語音識(shí)別的線性復(fù)雜度模型架構(gòu),其特征在于,所述卷積分支執(zhí)行如下步驟:
6.根據(jù)權(quán)利要求1所述的一種用于語音識(shí)別的線性復(fù)雜度模型架構(gòu),其特征在于,所述卷積分支在卷積空間門控單元的基礎(chǔ)上,添加全局和局部特征混合的卷積空間門控特征混合單元,用來混合來自卷積的局部上下文信息與amlp分支的全局上下文信息;