基于強制解碼的語言相似性評估方法、語音識別方法及相關設備

文檔序號：40594717發(fā)布日期：2025-01-07 20:35閱讀：6來源：國知局

本發(fā)明涉及語音識別，尤其涉及基于強制解碼的語言相似性評估方法、語音識別方法及相關設備。

背景技術：

1、在語音識別領域，盡管不同語言在發(fā)音結構及表現(xiàn)形式上有所不同，但其高維特征具備相似的分布模式，即不同語言的相似語義具有相近的高維特征。多語言聯(lián)合訓練可以充分借助不同語言之間的內在關系，使多語言深度信息相互促進，互為增強，輔助目標語言語音識別性能提升。研究表明，提升模型對各語言的鑒別能力更有助于多語言語音識別性能的提升，而如何在模型多語言聯(lián)合訓練時引入有效的語言相關知識則是提升其語言鑒別能力的關鍵。

2、當前，語言信息引入的方法可分為基于先驗知識的方法、基于數(shù)據(jù)驅動的方法以及基于預訓練模型的方法。綜合來看，基于先驗知識的方法需要領域專家的經驗和專業(yè)知識，雖然有效但成本昂貴，不能適應如今的智能化趨勢。基于數(shù)據(jù)驅動的方法依賴于訓練數(shù)據(jù)，只有具備足夠數(shù)據(jù)量時映射網絡才會展示出較好的性能，得到可信的相似性結果，這種數(shù)據(jù)依賴性導致其適用性不強?；陬A訓練模型的方法是近幾年來的主流方法，但當前研究僅針對語音的語言種類這一被人類規(guī)定的顯式信息評判語言相似性，而未能探索語言間的隱式信息對相似性評估的作用。因此，在采用現(xiàn)有的語言相似性方法來進行后續(xù)的語音識別時，語音識別結果準確率有待提高。

技術實現(xiàn)思路

1、為了解決現(xiàn)有評估語言相似性技術中存在沒有探索語言間的隱式信息對相似性評估的問題，以及基于現(xiàn)有的語言相似性方法進行語音識別存在識別結果準確率較低的問題，本發(fā)明提供一種基于強制解碼的語言相似性評估方法以及基于語言相似性的語音識別方法。

2、第一方面，本發(fā)明提供的一種基于強制解碼的語言相似性評估方法，包括：

3、s101：選擇多語言語音模型，并指定所述多語言語音模型的目標語言；所述多語言語音模型用于將輸入的源語言語音解碼為目標語言文本；

4、s102：將源語言語音輸入至所述多語言語音模型以將其強制解碼為目標語言文本，并得到所述目標語言文本的歸一化后驗概率；

5、s103：基于所述歸一化后驗概率計算源語言和目標語言之間的語言相似性評分。

6、進一步地，所述語言相似性評分的計算公式如下：

7、

8、其中，α表示語言相似性評分，jst表示解碼的目標語言文本的詞量，p(·)表示歸一化后驗概率，表示源語言s的第n條語音解碼為目標語言t的文本中的第j個詞。

9、第二方面，本發(fā)明提供的一種基于語言相似性的語音識別方法，包括：

10、s201：構建多語言語音識別數(shù)據(jù)集；

11、s202：在所述多語言語音識別數(shù)據(jù)集中，指定目標語言，并將其余語言均作為候選的源語言，采用如權利要求1或2所述的語言相似性評估方法，得到各個候選的源語言與目標語言之間的語言相似性評分；

12、s203：選取語言相似性評分較高的源語言數(shù)據(jù)與目標語言數(shù)據(jù)進行混合作為訓練數(shù)據(jù)集，基于所述訓練數(shù)據(jù)集對給定的多語言語音模型進行多語聯(lián)合微調，得到語音識別模型；

13、s204：將待識別目標語言語音輸入所述語音識別模型，得到語音識別結果。

14、進一步地，所述多語言語音識別數(shù)據(jù)集包括語音數(shù)據(jù)和語言文本數(shù)據(jù)；其中，所述語言文本數(shù)據(jù)主要是由每條語音數(shù)據(jù)所對應的語言文本構成的。

15、進一步地，所述多語言語音模型采用mms模型。

16、第三方面，本發(fā)明提供的一種基于語言相似性的語言識別系統(tǒng)，包括：

17、數(shù)據(jù)集構建模塊，用于獲取多語言語音數(shù)據(jù)，并構建多語言語音數(shù)據(jù)集；其中所述多語言語音數(shù)據(jù)集包含語音數(shù)據(jù)和文本數(shù)據(jù)，每條語言數(shù)據(jù)都有與之對應的文本數(shù)據(jù)；

18、語言相似性評估模塊，用于在所述多語言語音識別數(shù)據(jù)集中，指定目標語言并將其余語言均作為候選的源語言，采用語言相似性評估方法得到各個候選的源語言與目標語言之間的語言相似性評分；

19、模型訓練模塊，用于對語言相似性評分進行排序并選取分數(shù)高的源語言數(shù)據(jù)和目標語言數(shù)據(jù)混合，對給定的多語言語音模型進行多語聯(lián)合微調，得到語音識別模型；

20、語音識別模塊，用于將待識別目標語言語音輸入所述語音識別模型，得到語音識別文本。

21、第四方面，本發(fā)明提供的一種電子設備，包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序，其特征在于，所述處理器執(zhí)行所述程序時實現(xiàn)如上所述的方法。

22、第五方面，本發(fā)明提供的一種計算機可讀存儲介質，其上存儲有計算機程序，所述計算機程序被處理器運行時執(zhí)行如上所述的方法。

23、本發(fā)明的有益效果：

24、本發(fā)明提供的一種基于語言相似性的語音識別方法，通過將源語言語音強制解碼為目標語言文本，并將其歸一化后驗作為語言相似性判定依據(jù)，隱式的計算跨語言內在表征的相似性，能有效的評估語言之間的相似性，并將其應用于多語言語音識別，進而提升目標語言的語音識別性能。

技術特征：

1.一種基于強制解碼的語言相似性評估方法，其特征在于，包括：

2.根據(jù)權利要求1所述的基于強制解碼的語言相似性評估方法，其特征在于，所述語言相似性評分的計算公式如下：

3.一種基于語言相似性的語音識別方法，其特征在于，包括：

4.根據(jù)權利要求3所述的基于語言相似性的語音識別方法，其特征在于，所述多語言語音識別數(shù)據(jù)集包括語音數(shù)據(jù)和語言文本數(shù)據(jù)；其中，所述語言文本數(shù)據(jù)主要是由每條語音數(shù)據(jù)所對應的語言文本構成的。

5.根據(jù)權利要求3所述的基于語言相似性的語音識別方法，其特征在于，所述多語言語音模型采用mms模型。

6.一種基于語言相似性的語音識別系統(tǒng)，其特征在于，包括：

7.一種電子設備，包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序，其特征在于，所述處理器執(zhí)行所述程序時實現(xiàn)如權利要求1-5任一項所述的方法。

8.一種計算機可讀存儲介質，其上存儲有計算機程序，其特征在于，所述計算機程序被處理器運行時執(zhí)行如權利要求1-5任一項的所述的方法。

技術總結
本發(fā)明提供了基于強制解碼的語言相似性評估方法、語音識別方法及相關設備。其中，基于強制解碼的語言相似性評估方法包括：S101：選擇多語言語音模型，并指定所述多語言語音模型的目標語言；所述多語言語音模型用于將輸入的源語言語音解碼為目標語言文本；S102：將源語言語音輸入至所述多語言語音模型以將其強制解碼為目標語言文本，并得到所述目標語言文本的歸一化后驗概率；S103：基于所述歸一化后驗概率計算源語言和目標語言之間的語言相似性評分?；诖朔椒ㄟ€提供了基于語言相似性的語音識別方法及相關設備。通過將源語言語音強制解碼為目標語言文本，隱式的計算跨語言內在表征的相似性，并基于相似性評分進行語音識別進而提升識別性能。

技術研發(fā)人員：屈丹,劉云鵬,高子涵,郝朝龍,楊緒魁,牛銅
受保護的技術使用者：中國人民解放軍網絡空間部隊信息工程大學
技術研發(fā)日：
技術公布日：2025/1/6

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：屈丹,劉云鵬,高子涵,郝朝龍,楊緒魁,牛銅
技術所有人：中國人民解放軍網絡空間部隊信息工程大學
我是此專利的發(fā)明人

上一篇：一種便于移動式光伏發(fā)電裝置的制作方法
上一篇：一種便于固定的落地式充電樁安裝底座的制作方法

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于強制解碼的語言相似性評估方法、語音識別方法及相關設備

基于強制解碼的語言相似性評估方法、語音識別方法及相關設備