本發(fā)明涉及語(yǔ)音識(shí)別的,特別涉及一種基于自適應(yīng)的ai大模型流式語(yǔ)音識(shí)別方法、裝置以及設(shè)備。
背景技術(shù):
1、語(yǔ)音識(shí)別技術(shù)在眾多領(lǐng)域有著廣泛的應(yīng)用需求,如智能語(yǔ)音助手、語(yǔ)音控制系統(tǒng)、自動(dòng)語(yǔ)音轉(zhuǎn)錄等。
2、在實(shí)際應(yīng)用場(chǎng)景中,在語(yǔ)音識(shí)別模型的處理方面,傳統(tǒng)的語(yǔ)音識(shí)別模型大多是基于固定結(jié)構(gòu)和參數(shù)的設(shè)計(jì)。然而,語(yǔ)音數(shù)據(jù)本身具有高度的多樣性和動(dòng)態(tài)變化性,不同的說(shuō)話(huà)人、口音、語(yǔ)言風(fēng)格以及語(yǔ)音內(nèi)容都會(huì)導(dǎo)致語(yǔ)音特征的分布發(fā)生變化。固定的模型結(jié)構(gòu)和參數(shù)無(wú)法自適應(yīng)地應(yīng)對(duì)這些變化,例如在面對(duì)新的語(yǔ)音模式或者特殊口音時(shí),模型的識(shí)別能力會(huì)顯著下降。
3、在神經(jīng)網(wǎng)絡(luò)解碼階段,傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)無(wú)法根據(jù)輸入的語(yǔ)音數(shù)據(jù)自適應(yīng)地生長(zhǎng)和調(diào)整,不能動(dòng)態(tài)地適應(yīng)不同的語(yǔ)音特征組合和變化,造成語(yǔ)音識(shí)別結(jié)果的質(zhì)量不佳。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的主要目的為提供一種基于自適應(yīng)的ai大模型流式語(yǔ)音識(shí)別方法、裝置以及設(shè)備,旨在克服當(dāng)前語(yǔ)音識(shí)別模型的語(yǔ)音識(shí)別結(jié)果不佳的缺陷。
2、為實(shí)現(xiàn)上述目的,本發(fā)明提供了一種基于自適應(yīng)的ai大模型流式語(yǔ)音識(shí)別方法,包括以下步驟:
3、對(duì)采集到的流式語(yǔ)音信號(hào)進(jìn)行降噪以及語(yǔ)音增強(qiáng),得到初步語(yǔ)音信號(hào);
4、對(duì)所述初步語(yǔ)音信號(hào)進(jìn)行特征提取,得到語(yǔ)音特征向量;
5、將所述語(yǔ)音特征向量輸入至自適應(yīng)的ai大模型中,得到語(yǔ)音識(shí)別結(jié)果;
6、其中,所述ai大模型具體用于:
7、對(duì)所述語(yǔ)音特征向量進(jìn)行多層感知機(jī)編碼,得到初始編碼向量;
8、根據(jù)所述語(yǔ)音特征向量的分布變化動(dòng)態(tài)調(diào)整聚類(lèi)算法的聚類(lèi)中心和聚類(lèi)數(shù)量,以對(duì)所述初始編碼向量進(jìn)行聚類(lèi),得到聚類(lèi)后的編碼向量;
9、通過(guò)自適應(yīng)調(diào)整權(quán)重的注意力機(jī)制,依據(jù)語(yǔ)音上下文信息動(dòng)態(tài)為聚類(lèi)后的編碼向量分配權(quán)重,并進(jìn)行加權(quán)處理;
10、將加權(quán)后的編碼向量輸入至基于自適應(yīng)生長(zhǎng)結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)中進(jìn)行解碼,得到所述語(yǔ)音識(shí)別結(jié)果。
11、進(jìn)一步地,所述將加權(quán)后的編碼向量輸入至基于自適應(yīng)生長(zhǎng)結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)中進(jìn)行解碼,得到所述語(yǔ)音識(shí)別結(jié)果,包括:
12、對(duì)加權(quán)后的編碼向量進(jìn)行特征分布分析,根據(jù)特征分布動(dòng)態(tài)調(diào)整神經(jīng)元之間的連接權(quán)重;
13、根據(jù)語(yǔ)音數(shù)據(jù)在時(shí)間序列上的變化特點(diǎn),調(diào)整神經(jīng)元之間的連接數(shù)量;
14、基于調(diào)整后的神經(jīng)元對(duì)加權(quán)后的編碼向量進(jìn)行解碼,得到所述語(yǔ)音識(shí)別結(jié)果。
15、進(jìn)一步地,所述將加權(quán)后的編碼向量輸入至基于自適應(yīng)生長(zhǎng)結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)中進(jìn)行解碼,得到所述語(yǔ)音識(shí)別結(jié)果,包括:
16、實(shí)時(shí)檢測(cè)加權(quán)后的編碼向量的信息熵,當(dāng)信息熵高于預(yù)設(shè)閾值時(shí),在神經(jīng)網(wǎng)絡(luò)的隱藏層中按照預(yù)設(shè)比例增加神經(jīng)元數(shù)量,新增加的神經(jīng)元與周?chē)窠?jīng)元的連接權(quán)重根據(jù)當(dāng)前加權(quán)編碼向量各維度的相關(guān)性動(dòng)態(tài)初始化;對(duì)原有神經(jīng)元之間的連接權(quán)重通過(guò)基于梯度的優(yōu)化算法進(jìn)行調(diào)整,從而完成解碼得到所述語(yǔ)音識(shí)別結(jié)果。
17、進(jìn)一步地,所述得到語(yǔ)音識(shí)別結(jié)果之后,包括:
18、基于語(yǔ)言模型和聲學(xué)模型對(duì)所述語(yǔ)音識(shí)別結(jié)果進(jìn)行校正處理,得到流式語(yǔ)音識(shí)別校正結(jié)果。
19、進(jìn)一步地,所述對(duì)所述語(yǔ)音特征向量進(jìn)行多層感知機(jī)編碼,得到初始編碼向量,包括:
20、對(duì)所述語(yǔ)音特征向量按特征維度進(jìn)行分組;
21、對(duì)于每組語(yǔ)音特征向量,通過(guò)第一層感知機(jī)基于初始化權(quán)重矩陣的線(xiàn)性變換,得到中間特征向量;
22、對(duì)所述中間特征向量進(jìn)行非線(xiàn)性激活,得到激活特征向量;其中,激活函數(shù)依輸入的中間特征向量的能量水平動(dòng)態(tài)調(diào)整斜率參數(shù);
23、將激活特征向量輸入第二層感知機(jī),得到初始編碼向量;所述第二層感知機(jī)的權(quán)重矩陣通過(guò)反向傳播和小批次梯度下降優(yōu)化,依據(jù)激活特征向量在批次中的變化動(dòng)態(tài)調(diào)整學(xué)習(xí)率。
24、進(jìn)一步地,根據(jù)所述語(yǔ)音特征向量的分布變化動(dòng)態(tài)調(diào)整聚類(lèi)算法的聚類(lèi)中心和聚類(lèi)數(shù)量,以對(duì)所述初始編碼向量進(jìn)行聚類(lèi),得到聚類(lèi)后的編碼向量,包括:
25、基于核密度估計(jì)法分析所述語(yǔ)音特征向量在各維度的概率密度分布,確定出峰值、峰值間距、寬度以及周?chē)蛄渴杳艹潭龋?/p>
26、依據(jù)峰值確定聚類(lèi)算法的聚類(lèi)中心,根據(jù)峰值間距、寬度以及周?chē)蛄渴杳芄浪憔垲?lèi)數(shù)量;
27、基于k-means算法,將所述初始編碼向量分配到最近的聚類(lèi),得到聚類(lèi)后的編碼向量。
28、進(jìn)一步地,所述通過(guò)自適應(yīng)調(diào)整權(quán)重的注意力機(jī)制,依據(jù)語(yǔ)音上下文信息動(dòng)態(tài)為聚類(lèi)后的編碼向量分配權(quán)重,并進(jìn)行加權(quán)處理,包括:
29、分析語(yǔ)音上下文信息,提取語(yǔ)義關(guān)鍵元素、停頓特征、語(yǔ)調(diào)趨勢(shì),并轉(zhuǎn)化為上下文特征向量;
30、計(jì)算聚類(lèi)后的編碼向量與上下文特征向量的相關(guān)性,根據(jù)相關(guān)性自適應(yīng)調(diào)整聚類(lèi)后的編碼向量對(duì)應(yīng)的注意力權(quán)重,將所述注意力權(quán)重與聚類(lèi)后的編碼向量進(jìn)行加權(quán)計(jì)算。
31、本發(fā)明還提供了一種基于自適應(yīng)的ai大模型流式語(yǔ)音識(shí)別裝置,包括:
32、處理單元,用于對(duì)采集到的流式語(yǔ)音信號(hào)進(jìn)行降噪以及語(yǔ)音增強(qiáng),得到初步語(yǔ)音信號(hào);
33、提取單元,用于對(duì)所述初步語(yǔ)音信號(hào)進(jìn)行特征提取,得到語(yǔ)音特征向量;
34、識(shí)別單元,用于將所述語(yǔ)音特征向量輸入至自適應(yīng)的ai大模型中,得到語(yǔ)音識(shí)別結(jié)果;
35、其中,所述ai大模型具體用于:
36、對(duì)所述語(yǔ)音特征向量進(jìn)行多層感知機(jī)編碼,得到初始編碼向量;
37、根據(jù)所述語(yǔ)音特征向量的分布變化動(dòng)態(tài)調(diào)整聚類(lèi)算法的聚類(lèi)中心和聚類(lèi)數(shù)量,以對(duì)所述初始編碼向量進(jìn)行聚類(lèi),得到聚類(lèi)后的編碼向量;
38、通過(guò)自適應(yīng)調(diào)整權(quán)重的注意力機(jī)制,依據(jù)語(yǔ)音上下文信息動(dòng)態(tài)為聚類(lèi)后的編碼向量分配權(quán)重,并進(jìn)行加權(quán)處理;
39、將加權(quán)后的編碼向量輸入至基于自適應(yīng)生長(zhǎng)結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)中進(jìn)行解碼,得到所述語(yǔ)音識(shí)別結(jié)果。
40、本發(fā)明還提供一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器中存儲(chǔ)有計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述任一項(xiàng)所述方法的步驟。
41、本發(fā)明還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述任一項(xiàng)所述的方法的步驟。
42、本發(fā)明提供的基于自適應(yīng)的ai大模型流式語(yǔ)音識(shí)別方法、裝置以及設(shè)備,包括:對(duì)采集到的流式語(yǔ)音信號(hào)進(jìn)行降噪以及語(yǔ)音增強(qiáng),得到初步語(yǔ)音信號(hào);對(duì)所述初步語(yǔ)音信號(hào)進(jìn)行特征提取,得到語(yǔ)音特征向量;將所述語(yǔ)音特征向量輸入至自適應(yīng)的ai大模型中,得到語(yǔ)音識(shí)別結(jié)果;其中,所述ai大模型具體用于:對(duì)所述語(yǔ)音特征向量進(jìn)行多層感知機(jī)編碼,得到初始編碼向量;根據(jù)所述語(yǔ)音特征向量的分布變化動(dòng)態(tài)調(diào)整聚類(lèi)算法的聚類(lèi)中心和聚類(lèi)數(shù)量,以對(duì)所述初始編碼向量進(jìn)行聚類(lèi),得到聚類(lèi)后的編碼向量;通過(guò)自適應(yīng)調(diào)整權(quán)重的注意力機(jī)制,依據(jù)語(yǔ)音上下文信息動(dòng)態(tài)為聚類(lèi)后的編碼向量分配權(quán)重,并進(jìn)行加權(quán)處理;將加權(quán)后的編碼向量輸入至基于自適應(yīng)生長(zhǎng)結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)中進(jìn)行解碼,得到所述語(yǔ)音識(shí)別結(jié)果。在本發(fā)明中,通過(guò)在自適應(yīng)的ai大模型中,自適應(yīng)生長(zhǎng)結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)中進(jìn)行解碼,提升語(yǔ)音識(shí)別結(jié)果的質(zhì)量,克服了當(dāng)前語(yǔ)音識(shí)別模型的語(yǔ)音識(shí)別結(jié)果不佳的缺陷。