欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

語音識(shí)別糾錯(cuò)數(shù)據(jù)集構(gòu)建方法、電子設(shè)備、介質(zhì)及產(chǎn)品與流程

文檔序號(hào):40536938發(fā)布日期:2025-01-03 10:56閱讀:12來源:國知局
語音識(shí)別糾錯(cuò)數(shù)據(jù)集構(gòu)建方法、電子設(shè)備、介質(zhì)及產(chǎn)品與流程

本申請涉及語音識(shí)別,尤其涉及一種語音識(shí)別糾錯(cuò)數(shù)據(jù)集構(gòu)建方法、電子設(shè)備、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)及計(jì)算機(jī)程序產(chǎn)品。


背景技術(shù):

1、由于自動(dòng)語音識(shí)別(automatic?speech?recognition,asr)技術(shù)在進(jìn)行語音識(shí)別時(shí),語音到文本的轉(zhuǎn)換過程中會(huì)產(chǎn)生錯(cuò)誤,語音識(shí)別糾錯(cuò)需求也隨之產(chǎn)生。大語言模型由于其突出的語義理解能力常被用來對語音識(shí)別得到的文本進(jìn)行糾錯(cuò),而大語言模型在被用來開執(zhí)行語音識(shí)別糾錯(cuò)的任務(wù)前,需要通過包括一定數(shù)量的錯(cuò)誤語音識(shí)別文本的數(shù)據(jù)集進(jìn)行訓(xùn)練。

2、目前有些語音識(shí)別糾錯(cuò)數(shù)據(jù)集的構(gòu)建方案中,為了擴(kuò)充語音識(shí)別糾錯(cuò)數(shù)據(jù)集的規(guī)模,會(huì)采用人為引入錯(cuò)誤的方式,如替換參考文本中的一些文字為發(fā)音相近的字,來制造語音識(shí)別待糾錯(cuò)樣本數(shù)據(jù),但這種方式與實(shí)際的語音識(shí)別場景不符,可能會(huì)引入真實(shí)使用的語音識(shí)別模型中很少發(fā)生的語音識(shí)別錯(cuò)誤,影響糾錯(cuò)模型的訓(xùn)練準(zhǔn)確率。

3、上述內(nèi)容僅用于輔助理解本申請的技術(shù)方案,并不代表承認(rèn)上述內(nèi)容是現(xiàn)有技術(shù)。


技術(shù)實(shí)現(xiàn)思路

1、本申請的主要目的在于提供一種語音識(shí)別糾錯(cuò)數(shù)據(jù)集構(gòu)建方法、電子設(shè)備、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)及計(jì)算機(jī)程序產(chǎn)品,旨在解決目前的語音識(shí)別糾錯(cuò)數(shù)據(jù)集訓(xùn)練的語音識(shí)別糾錯(cuò)模型的準(zhǔn)確率偏低的技術(shù)問題。

2、為實(shí)現(xiàn)上述目的,本申請?zhí)岢鲆环N語音識(shí)別糾錯(cuò)數(shù)據(jù)集構(gòu)建方法,所述的語音識(shí)別糾錯(cuò)數(shù)據(jù)集構(gòu)建方法包括:

3、從預(yù)設(shè)的語音語料庫獲取語料數(shù)據(jù);

4、將所述語料數(shù)據(jù)分別輸入到至少兩個(gè)不同架構(gòu)的語音識(shí)別模型中,得到各所述語音識(shí)別模型分別輸出的語音識(shí)別文本;

5、根據(jù)各所述語音識(shí)別模型分別輸出的語音識(shí)別文本,構(gòu)建語音識(shí)別糾錯(cuò)數(shù)據(jù)集,其中,所述語音識(shí)別糾錯(cuò)數(shù)據(jù)集用于訓(xùn)練語音識(shí)別糾錯(cuò)模型。

6、在一實(shí)施例中,所述語音語料庫至少包括第一語音語料庫和第二語音語料庫,所述第一語音語料庫中的語料數(shù)據(jù)的平均語句長度小于所述第二語音語料庫的平均語句長度;

7、所述從預(yù)設(shè)的語音語料庫獲取語料數(shù)據(jù)的步驟包括:

8、從所述第一語音語料庫獲取語句長度小于或等于預(yù)設(shè)長度的語料數(shù)據(jù);

9、從所述第二語音語料庫獲取語句長度長于所述預(yù)設(shè)長度的語料數(shù)據(jù)。

10、在一實(shí)施例中,在所述構(gòu)建語音識(shí)別糾錯(cuò)數(shù)據(jù)集的步驟之后,所述方法還包括:

11、將所述語音識(shí)別糾錯(cuò)數(shù)據(jù)集中所述第一語音語料庫對應(yīng)的語音識(shí)別文本劃分為短語句子集;

12、將所述語音識(shí)別糾錯(cuò)數(shù)據(jù)集中所述第二語音語料庫對應(yīng)的語音識(shí)別文本劃分為長語句子集。

13、在一實(shí)施例中,在所述構(gòu)建語音識(shí)別糾錯(cuò)數(shù)據(jù)集的步驟之后,所述方法還包括:

14、根據(jù)所述語音識(shí)別糾錯(cuò)數(shù)據(jù)集中各語音識(shí)別文本的語句長度,將所述語音識(shí)別糾錯(cuò)數(shù)據(jù)集劃分為短語句子集和長語句子集;

15、其中,所述短語句子集中的語音識(shí)別文本的語句長度小于或等于所述預(yù)設(shè)長度,所述長語句子集中的語音識(shí)別文本的語句長度大于所述預(yù)設(shè)長度。

16、在一實(shí)施例中,在所述構(gòu)建語音識(shí)別糾錯(cuò)數(shù)據(jù)集的步驟之后,所述方法還包括:

17、獲取所述語音識(shí)別糾錯(cuò)數(shù)據(jù)集中各語音識(shí)別文本的字符錯(cuò)誤率;

18、通過刪除所述語音識(shí)別糾錯(cuò)數(shù)據(jù)集中字符錯(cuò)誤率為0的語音識(shí)別文本,調(diào)整所述語音識(shí)別糾錯(cuò)數(shù)據(jù)集中字符錯(cuò)誤率為0的語音識(shí)別文本的比例,得到更新后的語音識(shí)別糾錯(cuò)數(shù)據(jù)集;

19、其中,更新后的構(gòu)建語音識(shí)別糾錯(cuò)數(shù)據(jù)集中字符錯(cuò)誤率為0的語音識(shí)別文本的比例為預(yù)設(shè)比例。

20、在一實(shí)施例中,在所述構(gòu)建語音識(shí)別糾錯(cuò)數(shù)據(jù)集的步驟之后,所述方法還包括:

21、統(tǒng)計(jì)所述語音識(shí)別糾錯(cuò)數(shù)據(jù)集中語音識(shí)別文本的字符錯(cuò)誤率的統(tǒng)計(jì)指標(biāo),所述統(tǒng)計(jì)指標(biāo)至少包括平均數(shù)、中位數(shù)以及方差;

22、統(tǒng)計(jì)所述字符錯(cuò)誤率中的替換率、添加率以及刪除率;

23、其中,所述字符錯(cuò)誤率的統(tǒng)計(jì)指標(biāo)、所述替換率、所述添加率以及所述刪除率用于評估所述語音識(shí)別糾錯(cuò)模型的性能。

24、在一實(shí)施例中,所述語音識(shí)別模型至少包括第一語音識(shí)別模型和第二語音識(shí)別模型,所述第一語音識(shí)別模型至少包括cnn網(wǎng)絡(luò)和hmm模型,第二語音識(shí)別模型包括特征提取模塊、編碼器以及解碼器;

25、所述將所述語料數(shù)據(jù)分別輸入到至少兩個(gè)不同架構(gòu)的語音識(shí)別模型中,得到各所述語音識(shí)別模型分別輸出的語音識(shí)別文本的步驟包括:

26、提取所述語料數(shù)據(jù)的特征向量,通過預(yù)設(shè)的cnn網(wǎng)絡(luò)對所述特征向量進(jìn)行聲學(xué)建模,輸出對應(yīng)的發(fā)音單元的概率分布;

27、將所述發(fā)音單元的概率分布輸入到hmm模型,通過hmm模型預(yù)測得到對應(yīng)的語音識(shí)別文本;

28、通過特征提取模塊提取所述語料數(shù)據(jù)的音頻特征,通過編碼器對所述音頻特征進(jìn)行編碼,得到語義信息;

29、通過解碼器將所述語義信息轉(zhuǎn)換成對應(yīng)的語音識(shí)別文本。

30、此外,為實(shí)現(xiàn)上述目的,本申請還提出一種電子設(shè)備,所述設(shè)備包括:存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述計(jì)算機(jī)程序配置為實(shí)現(xiàn)如上文所述的語音識(shí)別糾錯(cuò)數(shù)據(jù)集構(gòu)建方法的步驟。

31、此外,為實(shí)現(xiàn)上述目的,本申請還提出一種存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)為計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上文所述的語音識(shí)別糾錯(cuò)數(shù)據(jù)集構(gòu)建方法的步驟。

32、此外,為實(shí)現(xiàn)上述目的,本申請還提供一種計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)程序產(chǎn)品包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上文所述的語音識(shí)別糾錯(cuò)數(shù)據(jù)集構(gòu)建方法的步驟。

33、本申請?zhí)岢隽艘环N語音識(shí)別糾錯(cuò)數(shù)據(jù)集構(gòu)建方法,在語音識(shí)別糾錯(cuò)數(shù)據(jù)集構(gòu)建方法中,首先從預(yù)設(shè)的語音語料庫獲取語料數(shù)據(jù),然后將所述語料數(shù)據(jù)分別輸入到至少兩個(gè)不同架構(gòu)的語音識(shí)別模型中,得到各所述語音識(shí)別模型分別輸出的語音識(shí)別文本,不同架構(gòu)的語音識(shí)別模型會(huì)輸出不同質(zhì)量的語音識(shí)別文本,以為語音識(shí)別模型的訓(xùn)練、評估、糾錯(cuò)提供不同類型的樣本數(shù)據(jù),增加了語音識(shí)別糾錯(cuò)數(shù)據(jù)集中錯(cuò)誤特征的多樣性和豐富性,而且采用訓(xùn)練語音語料數(shù)據(jù)和語音識(shí)別模型得到的語音識(shí)別文本的錯(cuò)誤類型更符合實(shí)際語音識(shí)別場景中容易出現(xiàn)的錯(cuò)誤類型,有利于提升語音識(shí)別糾錯(cuò)模型的訓(xùn)練效果,最后根據(jù)各所述語音識(shí)別模型分別輸出的語音識(shí)別文本,構(gòu)建語音識(shí)別糾錯(cuò)數(shù)據(jù)集,得到的語音識(shí)別糾錯(cuò)數(shù)據(jù)集可以用于訓(xùn)練語音識(shí)別糾錯(cuò)模型,還可以用于語音識(shí)別糾錯(cuò)模型的性能評估和微調(diào)等,進(jìn)一步提升語音識(shí)別糾錯(cuò)模型的糾錯(cuò)能力和準(zhǔn)確率。



技術(shù)特征:

1.一種語音識(shí)別糾錯(cuò)數(shù)據(jù)集構(gòu)建方法,其特征在于,所述語音識(shí)別糾錯(cuò)數(shù)據(jù)集構(gòu)建方法包括:

2.如權(quán)利要求1所述的語音識(shí)別糾錯(cuò)數(shù)據(jù)集構(gòu)建方法,其特征在于,所述語音語料庫至少包括第一語音語料庫和第二語音語料庫,所述第一語音語料庫中的語料數(shù)據(jù)的平均語句長度小于所述第二語音語料庫的平均語句長度;

3.如權(quán)利要求2所述的語音識(shí)別糾錯(cuò)數(shù)據(jù)集構(gòu)建方法,其特征在于,在所述構(gòu)建語音識(shí)別糾錯(cuò)數(shù)據(jù)集的步驟之后,所述方法還包括:

4.如權(quán)利要求1所述的語音識(shí)別糾錯(cuò)數(shù)據(jù)集構(gòu)建方法,其特征在于,在所述構(gòu)建語音識(shí)別糾錯(cuò)數(shù)據(jù)集的步驟之后,所述方法還包括:

5.如權(quán)利要求1所述的語音識(shí)別糾錯(cuò)數(shù)據(jù)集構(gòu)建方法,其特征在于,在所述構(gòu)建語音識(shí)別糾錯(cuò)數(shù)據(jù)集的步驟之后,所述方法還包括:

6.如權(quán)利要求1所述的語音識(shí)別糾錯(cuò)數(shù)據(jù)集構(gòu)建方法,其特征在于,在所述構(gòu)建語音識(shí)別糾錯(cuò)數(shù)據(jù)集的步驟之后,所述方法還包括:

7.如權(quán)利要求1所述語音識(shí)別糾錯(cuò)數(shù)據(jù)集構(gòu)建方法,其特征在于,所述語音識(shí)別模型至少包括第一語音識(shí)別模型和第二語音識(shí)別模型,所述第一語音識(shí)別模型至少包括cnn網(wǎng)絡(luò)和hmm模型,第二語音識(shí)別模型包括特征提取模塊、編碼器以及解碼器;

8.一種電子設(shè)備,其特征在于,所述設(shè)備包括:存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述計(jì)算機(jī)程序配置為實(shí)現(xiàn)如權(quán)利要求1至7中任一項(xiàng)所述的語音識(shí)別糾錯(cuò)數(shù)據(jù)集構(gòu)建方法的步驟。

9.一種存儲(chǔ)介質(zhì),其特征在于,所述存儲(chǔ)介質(zhì)為計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至7中任一項(xiàng)所述的語音識(shí)別糾錯(cuò)數(shù)據(jù)集構(gòu)建方法的步驟。

10.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至7任一項(xiàng)所述的方法。


技術(shù)總結(jié)
本申請公開了一種語音識(shí)別糾錯(cuò)數(shù)據(jù)集構(gòu)建方法、電子設(shè)備、介質(zhì)及產(chǎn)品,涉及語音識(shí)別技術(shù)領(lǐng)域,語音識(shí)別糾錯(cuò)數(shù)據(jù)集構(gòu)建方法包括:從預(yù)設(shè)的語音語料庫獲取語料數(shù)據(jù);將語料數(shù)據(jù)分別輸入到至少兩個(gè)不同架構(gòu)的語音識(shí)別模型中,得到各語音識(shí)別模型分別輸出的語音識(shí)別文本;根據(jù)各語音識(shí)別模型分別輸出的語音識(shí)別文本,構(gòu)建語音識(shí)別糾錯(cuò)數(shù)據(jù)集。本申請的技術(shù)方案通過不同架構(gòu)的語音識(shí)別模型增加錯(cuò)誤特征的多樣性,更貼合實(shí)際使用場景,能有效提高對語音識(shí)別糾錯(cuò)模型的訓(xùn)練效果。

技術(shù)研發(fā)人員:葛嫻,宋元峰,姜迪
受保護(hù)的技術(shù)使用者:深圳前海微眾銀行股份有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/1/2
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1
连城县| 万载县| 始兴县| 牡丹江市| 林州市| 湘西| 定安县| 钟山县| 静宁县| 安康市| 佛教| 尚义县| 呼伦贝尔市| 横峰县| 故城县| 绍兴县| 兴和县| 云南省| 海宁市| 河源市| 桂东县| 昭通市| 金山区| 平和县| 江口县| 拉萨市| 长白| 佛坪县| 昌宁县| 无棣县| 舒兰市| 合水县| 延津县| 河南省| 曲阳县| 明溪县| 铜山县| 农安县| 绥德县| 富顺县| 通河县|