本申請涉及語音識(shí)別,尤其涉及一種語音識(shí)別糾錯(cuò)數(shù)據(jù)集構(gòu)建方法、電子設(shè)備、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)及計(jì)算機(jī)程序產(chǎn)品。
背景技術(shù):
1、由于自動(dòng)語音識(shí)別(automatic?speech?recognition,asr)技術(shù)在進(jìn)行語音識(shí)別時(shí),語音到文本的轉(zhuǎn)換過程中會(huì)產(chǎn)生錯(cuò)誤,語音識(shí)別糾錯(cuò)需求也隨之產(chǎn)生。大語言模型由于其突出的語義理解能力常被用來對語音識(shí)別得到的文本進(jìn)行糾錯(cuò),而大語言模型在被用來開執(zhí)行語音識(shí)別糾錯(cuò)的任務(wù)前,需要通過包括一定數(shù)量的錯(cuò)誤語音識(shí)別文本的數(shù)據(jù)集進(jìn)行訓(xùn)練。
2、目前有些語音識(shí)別糾錯(cuò)數(shù)據(jù)集的構(gòu)建方案中,為了擴(kuò)充語音識(shí)別糾錯(cuò)數(shù)據(jù)集的規(guī)模,會(huì)采用人為引入錯(cuò)誤的方式,如替換參考文本中的一些文字為發(fā)音相近的字,來制造語音識(shí)別待糾錯(cuò)樣本數(shù)據(jù),但這種方式與實(shí)際的語音識(shí)別場景不符,可能會(huì)引入真實(shí)使用的語音識(shí)別模型中很少發(fā)生的語音識(shí)別錯(cuò)誤,影響糾錯(cuò)模型的訓(xùn)練準(zhǔn)確率。
3、上述內(nèi)容僅用于輔助理解本申請的技術(shù)方案,并不代表承認(rèn)上述內(nèi)容是現(xiàn)有技術(shù)。
技術(shù)實(shí)現(xiàn)思路
1、本申請的主要目的在于提供一種語音識(shí)別糾錯(cuò)數(shù)據(jù)集構(gòu)建方法、電子設(shè)備、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)及計(jì)算機(jī)程序產(chǎn)品,旨在解決目前的語音識(shí)別糾錯(cuò)數(shù)據(jù)集訓(xùn)練的語音識(shí)別糾錯(cuò)模型的準(zhǔn)確率偏低的技術(shù)問題。
2、為實(shí)現(xiàn)上述目的,本申請?zhí)岢鲆环N語音識(shí)別糾錯(cuò)數(shù)據(jù)集構(gòu)建方法,所述的語音識(shí)別糾錯(cuò)數(shù)據(jù)集構(gòu)建方法包括:
3、從預(yù)設(shè)的語音語料庫獲取語料數(shù)據(jù);
4、將所述語料數(shù)據(jù)分別輸入到至少兩個(gè)不同架構(gòu)的語音識(shí)別模型中,得到各所述語音識(shí)別模型分別輸出的語音識(shí)別文本;
5、根據(jù)各所述語音識(shí)別模型分別輸出的語音識(shí)別文本,構(gòu)建語音識(shí)別糾錯(cuò)數(shù)據(jù)集,其中,所述語音識(shí)別糾錯(cuò)數(shù)據(jù)集用于訓(xùn)練語音識(shí)別糾錯(cuò)模型。
6、在一實(shí)施例中,所述語音語料庫至少包括第一語音語料庫和第二語音語料庫,所述第一語音語料庫中的語料數(shù)據(jù)的平均語句長度小于所述第二語音語料庫的平均語句長度;
7、所述從預(yù)設(shè)的語音語料庫獲取語料數(shù)據(jù)的步驟包括:
8、從所述第一語音語料庫獲取語句長度小于或等于預(yù)設(shè)長度的語料數(shù)據(jù);
9、從所述第二語音語料庫獲取語句長度長于所述預(yù)設(shè)長度的語料數(shù)據(jù)。
10、在一實(shí)施例中,在所述構(gòu)建語音識(shí)別糾錯(cuò)數(shù)據(jù)集的步驟之后,所述方法還包括:
11、將所述語音識(shí)別糾錯(cuò)數(shù)據(jù)集中所述第一語音語料庫對應(yīng)的語音識(shí)別文本劃分為短語句子集;
12、將所述語音識(shí)別糾錯(cuò)數(shù)據(jù)集中所述第二語音語料庫對應(yīng)的語音識(shí)別文本劃分為長語句子集。
13、在一實(shí)施例中,在所述構(gòu)建語音識(shí)別糾錯(cuò)數(shù)據(jù)集的步驟之后,所述方法還包括:
14、根據(jù)所述語音識(shí)別糾錯(cuò)數(shù)據(jù)集中各語音識(shí)別文本的語句長度,將所述語音識(shí)別糾錯(cuò)數(shù)據(jù)集劃分為短語句子集和長語句子集;
15、其中,所述短語句子集中的語音識(shí)別文本的語句長度小于或等于所述預(yù)設(shè)長度,所述長語句子集中的語音識(shí)別文本的語句長度大于所述預(yù)設(shè)長度。
16、在一實(shí)施例中,在所述構(gòu)建語音識(shí)別糾錯(cuò)數(shù)據(jù)集的步驟之后,所述方法還包括:
17、獲取所述語音識(shí)別糾錯(cuò)數(shù)據(jù)集中各語音識(shí)別文本的字符錯(cuò)誤率;
18、通過刪除所述語音識(shí)別糾錯(cuò)數(shù)據(jù)集中字符錯(cuò)誤率為0的語音識(shí)別文本,調(diào)整所述語音識(shí)別糾錯(cuò)數(shù)據(jù)集中字符錯(cuò)誤率為0的語音識(shí)別文本的比例,得到更新后的語音識(shí)別糾錯(cuò)數(shù)據(jù)集;
19、其中,更新后的構(gòu)建語音識(shí)別糾錯(cuò)數(shù)據(jù)集中字符錯(cuò)誤率為0的語音識(shí)別文本的比例為預(yù)設(shè)比例。
20、在一實(shí)施例中,在所述構(gòu)建語音識(shí)別糾錯(cuò)數(shù)據(jù)集的步驟之后,所述方法還包括:
21、統(tǒng)計(jì)所述語音識(shí)別糾錯(cuò)數(shù)據(jù)集中語音識(shí)別文本的字符錯(cuò)誤率的統(tǒng)計(jì)指標(biāo),所述統(tǒng)計(jì)指標(biāo)至少包括平均數(shù)、中位數(shù)以及方差;
22、統(tǒng)計(jì)所述字符錯(cuò)誤率中的替換率、添加率以及刪除率;
23、其中,所述字符錯(cuò)誤率的統(tǒng)計(jì)指標(biāo)、所述替換率、所述添加率以及所述刪除率用于評估所述語音識(shí)別糾錯(cuò)模型的性能。
24、在一實(shí)施例中,所述語音識(shí)別模型至少包括第一語音識(shí)別模型和第二語音識(shí)別模型,所述第一語音識(shí)別模型至少包括cnn網(wǎng)絡(luò)和hmm模型,第二語音識(shí)別模型包括特征提取模塊、編碼器以及解碼器;
25、所述將所述語料數(shù)據(jù)分別輸入到至少兩個(gè)不同架構(gòu)的語音識(shí)別模型中,得到各所述語音識(shí)別模型分別輸出的語音識(shí)別文本的步驟包括:
26、提取所述語料數(shù)據(jù)的特征向量,通過預(yù)設(shè)的cnn網(wǎng)絡(luò)對所述特征向量進(jìn)行聲學(xué)建模,輸出對應(yīng)的發(fā)音單元的概率分布;
27、將所述發(fā)音單元的概率分布輸入到hmm模型,通過hmm模型預(yù)測得到對應(yīng)的語音識(shí)別文本;
28、通過特征提取模塊提取所述語料數(shù)據(jù)的音頻特征,通過編碼器對所述音頻特征進(jìn)行編碼,得到語義信息;
29、通過解碼器將所述語義信息轉(zhuǎn)換成對應(yīng)的語音識(shí)別文本。
30、此外,為實(shí)現(xiàn)上述目的,本申請還提出一種電子設(shè)備,所述設(shè)備包括:存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述計(jì)算機(jī)程序配置為實(shí)現(xiàn)如上文所述的語音識(shí)別糾錯(cuò)數(shù)據(jù)集構(gòu)建方法的步驟。
31、此外,為實(shí)現(xiàn)上述目的,本申請還提出一種存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)為計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上文所述的語音識(shí)別糾錯(cuò)數(shù)據(jù)集構(gòu)建方法的步驟。
32、此外,為實(shí)現(xiàn)上述目的,本申請還提供一種計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)程序產(chǎn)品包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上文所述的語音識(shí)別糾錯(cuò)數(shù)據(jù)集構(gòu)建方法的步驟。
33、本申請?zhí)岢隽艘环N語音識(shí)別糾錯(cuò)數(shù)據(jù)集構(gòu)建方法,在語音識(shí)別糾錯(cuò)數(shù)據(jù)集構(gòu)建方法中,首先從預(yù)設(shè)的語音語料庫獲取語料數(shù)據(jù),然后將所述語料數(shù)據(jù)分別輸入到至少兩個(gè)不同架構(gòu)的語音識(shí)別模型中,得到各所述語音識(shí)別模型分別輸出的語音識(shí)別文本,不同架構(gòu)的語音識(shí)別模型會(huì)輸出不同質(zhì)量的語音識(shí)別文本,以為語音識(shí)別模型的訓(xùn)練、評估、糾錯(cuò)提供不同類型的樣本數(shù)據(jù),增加了語音識(shí)別糾錯(cuò)數(shù)據(jù)集中錯(cuò)誤特征的多樣性和豐富性,而且采用訓(xùn)練語音語料數(shù)據(jù)和語音識(shí)別模型得到的語音識(shí)別文本的錯(cuò)誤類型更符合實(shí)際語音識(shí)別場景中容易出現(xiàn)的錯(cuò)誤類型,有利于提升語音識(shí)別糾錯(cuò)模型的訓(xùn)練效果,最后根據(jù)各所述語音識(shí)別模型分別輸出的語音識(shí)別文本,構(gòu)建語音識(shí)別糾錯(cuò)數(shù)據(jù)集,得到的語音識(shí)別糾錯(cuò)數(shù)據(jù)集可以用于訓(xùn)練語音識(shí)別糾錯(cuò)模型,還可以用于語音識(shí)別糾錯(cuò)模型的性能評估和微調(diào)等,進(jìn)一步提升語音識(shí)別糾錯(cuò)模型的糾錯(cuò)能力和準(zhǔn)確率。
1.一種語音識(shí)別糾錯(cuò)數(shù)據(jù)集構(gòu)建方法,其特征在于,所述語音識(shí)別糾錯(cuò)數(shù)據(jù)集構(gòu)建方法包括:
2.如權(quán)利要求1所述的語音識(shí)別糾錯(cuò)數(shù)據(jù)集構(gòu)建方法,其特征在于,所述語音語料庫至少包括第一語音語料庫和第二語音語料庫,所述第一語音語料庫中的語料數(shù)據(jù)的平均語句長度小于所述第二語音語料庫的平均語句長度;
3.如權(quán)利要求2所述的語音識(shí)別糾錯(cuò)數(shù)據(jù)集構(gòu)建方法,其特征在于,在所述構(gòu)建語音識(shí)別糾錯(cuò)數(shù)據(jù)集的步驟之后,所述方法還包括:
4.如權(quán)利要求1所述的語音識(shí)別糾錯(cuò)數(shù)據(jù)集構(gòu)建方法,其特征在于,在所述構(gòu)建語音識(shí)別糾錯(cuò)數(shù)據(jù)集的步驟之后,所述方法還包括:
5.如權(quán)利要求1所述的語音識(shí)別糾錯(cuò)數(shù)據(jù)集構(gòu)建方法,其特征在于,在所述構(gòu)建語音識(shí)別糾錯(cuò)數(shù)據(jù)集的步驟之后,所述方法還包括:
6.如權(quán)利要求1所述的語音識(shí)別糾錯(cuò)數(shù)據(jù)集構(gòu)建方法,其特征在于,在所述構(gòu)建語音識(shí)別糾錯(cuò)數(shù)據(jù)集的步驟之后,所述方法還包括:
7.如權(quán)利要求1所述語音識(shí)別糾錯(cuò)數(shù)據(jù)集構(gòu)建方法,其特征在于,所述語音識(shí)別模型至少包括第一語音識(shí)別模型和第二語音識(shí)別模型,所述第一語音識(shí)別模型至少包括cnn網(wǎng)絡(luò)和hmm模型,第二語音識(shí)別模型包括特征提取模塊、編碼器以及解碼器;
8.一種電子設(shè)備,其特征在于,所述設(shè)備包括:存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述計(jì)算機(jī)程序配置為實(shí)現(xiàn)如權(quán)利要求1至7中任一項(xiàng)所述的語音識(shí)別糾錯(cuò)數(shù)據(jù)集構(gòu)建方法的步驟。
9.一種存儲(chǔ)介質(zhì),其特征在于,所述存儲(chǔ)介質(zhì)為計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至7中任一項(xiàng)所述的語音識(shí)別糾錯(cuò)數(shù)據(jù)集構(gòu)建方法的步驟。
10.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至7任一項(xiàng)所述的方法。