本技術(shù)涉及人工智能,特別是涉及一種基于端到端的跨語言大模型的語音識別方法、裝置及設(shè)備。
背景技術(shù):
1、語音識別技術(shù)是將語音信號自動轉(zhuǎn)換為文本的過程,作為人與機器交互的重要技術(shù)之一,其廣泛應(yīng)用于智能助手、語音控制等領(lǐng)域。語音識別的流程一般包括以下幾個步驟:
2、(1)語音信號采集:通過話筒輸入語音信號,將聲波轉(zhuǎn)換為電壓信號,再通過a/d(模擬數(shù)字轉(zhuǎn)換)裝置進行采樣,從而將連續(xù)的電壓信號轉(zhuǎn)換為計算機能夠處理的數(shù)字信號。
3、(2)特征提?。簭牟杉降恼Z音信號中提取出關(guān)鍵特征,例如聲學(xué)特征、時間特征、序列特征等,這些特征是后續(xù)語音識別模型進行分析和處理的基礎(chǔ),能夠反映語音信號中的主要信息。
4、(3)模型訓(xùn)練:語音識別系統(tǒng)的核心在于模型訓(xùn)練。傳統(tǒng)的兩階段模型包括聲學(xué)模型和語言模型。聲學(xué)模型將提取的聲學(xué)特征與語音信號的物理特征對應(yīng),從而為每個聲學(xué)單元打分。語言模型則基于語言學(xué)理論,預(yù)測不同詞語或詞組序列的概率,幫助理解并生成符合上下文的文本。模型訓(xùn)練通常使用大規(guī)模數(shù)據(jù)集,通過預(yù)訓(xùn)練模型或統(tǒng)計方法提高模型的識別準(zhǔn)確度和泛化能力。
5、(4)解碼:解碼階段通過結(jié)合聲學(xué)模型和語言模型的結(jié)果,生成最有可能的文本輸出,最終完成語音到文本的轉(zhuǎn)換。
6、隨著深度學(xué)習(xí)技術(shù)的發(fā)展,聲學(xué)模型和語言模型也從傳統(tǒng)的隱馬爾可夫系列模型逐漸轉(zhuǎn)為基于大模型神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)模型,基于深度學(xué)習(xí)的聲學(xué)和語言模型在處理復(fù)雜語音信號時表現(xiàn)出了顯著的性能提升。但是由于兩階段模型的架構(gòu)設(shè)計,使得聲學(xué)模型和語言模型之間存在特征不匹配的問題,限制了模型的識別上限。
7、為了解決這一問題,近年來出現(xiàn)了端到端語音識別模型,例如paraformer等。與傳統(tǒng)兩階段模型不同,端到端模型通過直接將輸入的語音信號映射到輸出文本,減少了中間步驟帶來的誤差累積。然而,這類模型在處理新詞、熱詞以及跨語言識別等場景時,依然面臨一定的挑戰(zhàn)。為了提高其在這些領(lǐng)域的性能,往往需要引入額外的語言模型進行輔助解碼。
8、因此,雖然語音識別技術(shù)在深度學(xué)習(xí)的推動下取得了顯著進步,但在準(zhǔn)確性、泛化能力和跨語言適應(yīng)性方面,依然有很大的優(yōu)化空間。
技術(shù)實現(xiàn)思路
1、基于此,有必要針對上述技術(shù)問題,提供一種基于端到端的跨語言大模型的語音識別方法、裝置及設(shè)備。
2、一種基于端到端的跨語言大模型的語音識別方法,所述方法包括:
3、構(gòu)建跨語言大模型,跨語言大模型由語音編碼模塊、文本編碼模塊、特征對齊模塊和解碼模塊組成;
4、獲取由多組語音文本標(biāo)簽對構(gòu)成的訓(xùn)練數(shù)據(jù)集,并將訓(xùn)練數(shù)據(jù)集輸入跨語言大模型進行端到端訓(xùn)練,直至得到訓(xùn)練好的跨語言大模型;其中,在每組語音文本標(biāo)簽對中,文本標(biāo)簽的前端拼接有跨語言識別提示詞,跨語言識別提示詞用于在訓(xùn)練過程中,提示模型將文本標(biāo)簽翻譯為目標(biāo)語言的文本;
5、將待識別的語音信號輸入訓(xùn)練好的跨語言模型,通過語音編碼模塊對輸入的語音信號分別進行過濾器特征與wav2vec2特征提取和拼接,得到語音特征向量;通過文本編碼模塊根據(jù)跨語言識別提示詞,對語音信號對應(yīng)的文本標(biāo)簽進行文本的嵌入特征表示,得到文本嵌入特征向量;通過特征對齊模塊將語音特征向量的維度與文本嵌入特征向量的維度進行對齊;通過解碼模塊對文本編碼模塊輸出的文本嵌入特征向量與特征對齊模塊輸出的維度對齊后的語音特征向量進行特征向量拼接以及解碼翻譯,輸出得到目標(biāo)語言的語音識別文本。
6、在其中一個實施例中,通過語音編碼模塊對輸入的語音信號分別進行過濾器特征與wav2vec2特征提取和拼接,得到語音特征向量,包括:
7、語音編碼模塊由過濾器特征提取模塊、wav2vec2預(yù)訓(xùn)練模型和特征拼接模塊組成;
8、過濾器特征提取模塊用于對輸入的語音信號依次進行預(yù)加重、分幀、加窗、快速傅里葉變換、梅爾譜濾波以及對數(shù)運算處理,輸出得到過濾器特征;
9、wav2vec2預(yù)訓(xùn)練模型用于對輸入的語音信號依次進行卷積編碼和上下文表征,輸出得到wav2vec2特征;
10、特征拼接模塊用于對過濾器特征和wav2vec2特征進行特征維度的拼接,輸出得到語音特征向量。
11、在其中一個實施例中,wav2vec2預(yù)訓(xùn)練模型由編碼器網(wǎng)絡(luò)、上下文網(wǎng)絡(luò)以及離散化網(wǎng)絡(luò)組成;
12、編碼器網(wǎng)絡(luò)通過若干個卷積層對輸入的語音信號進行特征提取,輸出得到卷積特征;上下文網(wǎng)絡(luò)通過若干個時間步長編碼器對卷積特征進行上下文表征,輸出得到wav2vec2特征;離散化網(wǎng)絡(luò)通過對卷積特征進行離散化處理后,根據(jù)離散化后的卷積特征與wav2vec2特征計算損失,并根據(jù)損失對wav2vec2預(yù)訓(xùn)練模型進行訓(xùn)練。
13、在其中一個實施例中,對過濾器特征和wav2vec2特征進行特征維度的拼接,輸出得到語音特征向量,包括:
14、通過單個卷積層按照設(shè)定的卷積步長對過濾器特征進行特征維度卷積變換,得到變換后的過濾器特征;
15、基于變換后的過濾器特征的特征維度,對wav2vec2特征進行設(shè)定步長的鄰近點融合,得到變換后的wav2vec2特征,并保持變換后的過濾器特征與變換后的wav2vec2特征的特征維度一致;
16、對變換后的過濾器特征與變換后的wav2vec2特征進行拼接,輸出得到語音特征向量。
17、在其中一個實施例中,特征對齊模塊采用多層感知機將語音特征向量的維度映射為文本嵌入特征向量的維度,保持二者的維度一致。
18、在其中一個實施例中,解碼模塊在對文本編碼模塊輸出的文本嵌入特征向量與特征對齊模塊輸出的維度對齊后的語音特征向量進行特征向量拼接后,將得到的拼接特征向量輸入大語言模型進行解碼翻譯,輸出得到目標(biāo)語言的語音識別文本。
19、一種基于端到端的跨語言大模型的語音識別裝置,所述裝置包括:
20、模型構(gòu)建單元,用于構(gòu)建跨語言大模型,跨語言大模型由語音編碼模塊、文本編碼模塊、特征對齊模塊和解碼模塊組成;
21、模型訓(xùn)練單元,用于獲取由多組語音文本標(biāo)簽對構(gòu)成的訓(xùn)練數(shù)據(jù)集,并將訓(xùn)練數(shù)據(jù)集輸入跨語言大模型進行端到端訓(xùn)練,直至得到訓(xùn)練好的跨語言大模型;其中,在每組語音文本標(biāo)簽對中,文本標(biāo)簽的前端拼接有跨語言識別提示詞,跨語言識別提示詞用于在訓(xùn)練過程中,提示模型將文本標(biāo)簽翻譯為目標(biāo)語言的文本;
22、語音識別單元,用于將待識別的語音信號輸入訓(xùn)練好的跨語言模型,通過語音編碼模塊對輸入的語音信號分別進行過濾器特征與wav2vec2特征提取和拼接,得到語音特征向量;通過文本編碼模塊根據(jù)跨語言識別提示詞,對語音信號對應(yīng)的文本標(biāo)簽進行文本的嵌入特征表示,得到文本嵌入特征向量;通過特征對齊模塊將語音特征向量的維度與文本嵌入特征向量的維度進行對齊;通過解碼模塊對文本編碼模塊輸出的文本嵌入特征向量與特征對齊模塊輸出的維度對齊后的語音特征向量進行特征向量拼接以及解碼翻譯,輸出得到目標(biāo)語言的語音識別文本。
23、一種計算機設(shè)備,包括存儲器和處理器,所述存儲器存儲有計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)以下步驟:
24、構(gòu)建跨語言大模型,跨語言大模型由語音編碼模塊、文本編碼模塊、特征對齊模塊和解碼模塊組成;
25、獲取由多組語音文本標(biāo)簽對構(gòu)成的訓(xùn)練數(shù)據(jù)集,并將訓(xùn)練數(shù)據(jù)集輸入跨語言大模型進行端到端訓(xùn)練,直至得到訓(xùn)練好的跨語言大模型;其中,在每組語音文本標(biāo)簽對中,文本標(biāo)簽的前端拼接有跨語言識別提示詞,跨語言識別提示詞用于在訓(xùn)練過程中,提示模型將文本標(biāo)簽翻譯為目標(biāo)語言的文本;
26、將待識別的語音信號輸入訓(xùn)練好的跨語言模型,通過語音編碼模塊對輸入的語音信號分別進行過濾器特征與wav2vec2特征提取和拼接,得到語音特征向量;通過文本編碼模塊根據(jù)跨語言識別提示詞,對語音信號對應(yīng)的文本標(biāo)簽進行文本的嵌入特征表示,得到文本嵌入特征向量;通過特征對齊模塊將語音特征向量的維度與文本嵌入特征向量的維度進行對齊;通過解碼模塊對文本編碼模塊輸出的文本嵌入特征向量與特征對齊模塊輸出的維度對齊后的語音特征向量進行特征向量拼接以及解碼翻譯,輸出得到目標(biāo)語言的語音識別文本。
27、一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)以下步驟:
28、構(gòu)建跨語言大模型,跨語言大模型由語音編碼模塊、文本編碼模塊、特征對齊模塊和解碼模塊組成;
29、獲取由多組語音文本標(biāo)簽對構(gòu)成的訓(xùn)練數(shù)據(jù)集,并將訓(xùn)練數(shù)據(jù)集輸入跨語言大模型進行端到端訓(xùn)練,直至得到訓(xùn)練好的跨語言大模型;其中,在每組語音文本標(biāo)簽對中,文本標(biāo)簽的前端拼接有跨語言識別提示詞,跨語言識別提示詞用于在訓(xùn)練過程中,提示模型將文本標(biāo)簽翻譯為目標(biāo)語言的文本;
30、將待識別的語音信號輸入訓(xùn)練好的跨語言模型,通過語音編碼模塊對輸入的語音信號分別進行過濾器特征與wav2vec2特征提取和拼接,得到語音特征向量;通過文本編碼模塊根據(jù)跨語言識別提示詞,對語音信號對應(yīng)的文本標(biāo)簽進行文本的嵌入特征表示,得到文本嵌入特征向量;通過特征對齊模塊將語音特征向量的維度與文本嵌入特征向量的維度進行對齊;通過解碼模塊對文本編碼模塊輸出的文本嵌入特征向量與特征對齊模塊輸出的維度對齊后的語音特征向量進行特征向量拼接以及解碼翻譯,輸出得到目標(biāo)語言的語音識別文本。
31、上述基于端到端的跨語言大模型的語音識別方法、裝置及設(shè)備,相較于現(xiàn)有技術(shù),具備以下技術(shù)效果:
32、1、本技術(shù)引入跨語言識別提示詞拼接到文本標(biāo)簽前端,基于跨語言識別提示詞可在模型訓(xùn)練過程中,提示模型將文本標(biāo)簽翻譯為目標(biāo)語言的文本,使得構(gòu)建的跨語言大模型具備多語言識別的能力,即可以將一個語言的音頻識別為另一個語言的文本。并且,跨語言識別提示詞會影響到跨語言大模型的每一層參數(shù)學(xué)習(xí),但是不會增加額外的學(xué)習(xí)參數(shù),簡化了模型的設(shè)計和訓(xùn)練過程。
33、2、本技術(shù)采用過濾器特征與wav2vec2特征聯(lián)合提取的方法進行語音特征提取,兩種方式聯(lián)合提取能夠獲得更加全面和多樣化的語音特征,可以更好地適應(yīng)不同語言的識別任務(wù)需求。并且通過對兩種語音特征進行特征維度的拼接,組合了過濾器特征中的基礎(chǔ)聲學(xué)特性和wav2vec2特征中的高級語義特性,使得模型在訓(xùn)練過程中能夠利用更多的信息進行學(xué)習(xí),無需進行語言模型的迭代更新以及熱詞新詞發(fā)現(xiàn)等輔助工作,提升了語音特征表示的能力,顯著提升了語音識別的準(zhǔn)確度以及魯棒性。