本公開涉及語音識(shí)別領(lǐng)域,尤其涉及一種多方言語音識(shí)別模型的訓(xùn)練方法、裝置及電子設(shè)備。
背景技術(shù):
1、語音識(shí)別技術(shù)在生活中的應(yīng)用已經(jīng)非常廣泛,在實(shí)際的語音交互過程中,方言仍然是語音識(shí)別繞不開的一個(gè)技術(shù)難點(diǎn)。目前,我國方言種類多,且方言數(shù)據(jù)的獲取比普通話更困難,因此方言數(shù)據(jù)量少,這導(dǎo)致訓(xùn)練多方言語音識(shí)別模型存在數(shù)據(jù)稀疏的問題,訓(xùn)練得到的模型魯棒性差,識(shí)別效果不佳。
技術(shù)實(shí)現(xiàn)思路
1、為了解決上述技術(shù)問題或者至少部分地解決上述技術(shù)問題,本公開提供了一種多方言語音識(shí)別模型的訓(xùn)練方法、裝置及電子設(shè)備,可以區(qū)分不同語言類型,準(zhǔn)確識(shí)別不同語言類型的語音文本內(nèi)容。
2、為了實(shí)現(xiàn)上述目的,本公開實(shí)施例提供的技術(shù)方案如下:
3、第一方面,本公開提供一種多方言語音識(shí)別模型的訓(xùn)練方法,該方法包括:
4、獲取樣本語音和標(biāo)注語音,樣本語音包括普通話語音和不同類型的方言語音;標(biāo)注語音是樣本語音對(duì)應(yīng)的真實(shí)文本內(nèi)容和真實(shí)語言類型;
5、將樣本語音和標(biāo)注語音輸入初始語音識(shí)別模型;其中,初始語音識(shí)別模型包括初始語音識(shí)別模塊和初始方言分類模塊;
6、根據(jù)初始語音識(shí)別模塊以及初始方言分類模塊的輸出結(jié)果,訓(xùn)練初始語音識(shí)別模型的模型參數(shù),得到收斂的多方言語音識(shí)別模型。
7、作為本公開一種可選實(shí)施方式,初始語音識(shí)別模塊包括第一損失函數(shù)層,初始方言分類模塊包括第二損失函數(shù)層;初始語音識(shí)別模塊輸出第一損失函數(shù)值,初始方言分類模塊輸出第二損失函數(shù)值;
8、根據(jù)初始語音識(shí)別模塊以及初始方言分類模塊的輸出結(jié)果,訓(xùn)練初始語音識(shí)別模型的模型參數(shù),得到收斂的多方言語音識(shí)別模型,包括:
9、在第一損失函數(shù)值和/或第二損失函數(shù)值大于預(yù)設(shè)損失閾值的情況下,返回調(diào)整初始語音識(shí)別模型的模型參數(shù);直至第一損失函數(shù)值和第二損失函數(shù)值均小于或等于預(yù)設(shè)損失閾值,訓(xùn)練得到多方言語音識(shí)別模型。
10、作為本公開一種可選實(shí)施方式,初始語音識(shí)別模型還包括:與初始語音識(shí)別模塊和初始方言分類模塊相連接的初始語音預(yù)處理模塊;
11、將樣本語音和標(biāo)注語音輸入初始語音識(shí)別模型之后,根據(jù)初始語音識(shí)別模塊以及初始方言分類模塊的輸出結(jié)果,訓(xùn)練初始語音識(shí)別模型的模型參數(shù),得到收斂的多方言語音識(shí)別模型之前,包括:
12、通過初始語音預(yù)處理模塊對(duì)樣本語音進(jìn)行預(yù)處理得到三維矩陣,三維矩陣表示樣本語音的聲學(xué)特征;
13、對(duì)三維矩陣進(jìn)行解碼得到樣本語音對(duì)應(yīng)的預(yù)測(cè)文本特征,并由第一損失函數(shù)層根據(jù)預(yù)測(cè)文本特征和真實(shí)文本內(nèi)容計(jì)算第一損失函數(shù)值;
14、對(duì)三維矩陣進(jìn)行分類處理得到所樣本語音對(duì)應(yīng)的預(yù)測(cè)語言類型特征,并由第二損失函數(shù)層根據(jù)預(yù)測(cè)語言類型特征和真實(shí)語言類型計(jì)算第二損失函數(shù)值。
15、作為本公開一種可選實(shí)施方式,對(duì)三維矩陣進(jìn)行分類處理得到所樣本語音對(duì)應(yīng)的預(yù)測(cè)語言類型特征,包括:
16、對(duì)三維矩陣進(jìn)行池化處理,將三維矩陣轉(zhuǎn)換為第一矩陣;
17、計(jì)算第一矩陣對(duì)應(yīng)的注意力權(quán)重矩陣,并將注意力權(quán)重矩陣和三維矩陣相乘得到計(jì)算結(jié)果;
18、在三維矩陣的預(yù)設(shè)維度上,對(duì)計(jì)算結(jié)果進(jìn)行加權(quán)求和,得到樣本語音中每一句語音對(duì)應(yīng)的語言類型特征;
19、對(duì)樣本語音中每一句語音對(duì)應(yīng)的語言類型特征進(jìn)行解碼,確定預(yù)測(cè)語言類型特征。
20、作為本公開一種可選實(shí)施方式,獲取樣本語音和標(biāo)注語音之后,將樣本語音和標(biāo)注語音輸入初始語音識(shí)別模型之前,包括:
21、構(gòu)建待定語音識(shí)別模塊;
22、基于待定語音識(shí)別模塊對(duì)樣本語音進(jìn)行語音識(shí)別,獲取待定語音識(shí)別模塊識(shí)別的錯(cuò)誤率,錯(cuò)誤率表示待定語音識(shí)別模塊預(yù)測(cè)的文本內(nèi)容與樣本語音的真實(shí)語音文本內(nèi)容不同的概率;
23、在錯(cuò)誤率大于或等于預(yù)設(shè)錯(cuò)誤率的情況下,確定錯(cuò)誤率對(duì)應(yīng)的待定語音識(shí)別模塊的特殊輸出節(jié)點(diǎn);
24、按照特殊輸出節(jié)點(diǎn)增加待定語音識(shí)別模塊的輸出節(jié)點(diǎn),得到初始語音識(shí)別模塊。
25、作為本公開一種可選實(shí)施方式,該方法還包括:獲取待識(shí)別語音;將待識(shí)別語音輸入多方言語音識(shí)別模型,得到多方言語音識(shí)別模型輸出的語音文本內(nèi)容和語言類型。
26、作為本公開一種可選實(shí)施方式,第一損失函數(shù)層是連接時(shí)序分類損失函數(shù)層,第二損失函數(shù)層是交叉熵?fù)p失函數(shù)層。
27、第二方面,本公開提供一種多方言識(shí)別模型的訓(xùn)練裝置,包括:
28、獲取模塊,用于:獲取樣本語音和標(biāo)注語音,樣本語音包括普通話語音和不同類型的方言語音;標(biāo)注語音是樣本語音對(duì)應(yīng)的真實(shí)文本內(nèi)容和真實(shí)語言類型;
29、處理模塊,用于:將樣本語音和標(biāo)注語音輸入初始語音識(shí)別模型;其中,初始語音識(shí)別模型包括:初始語音識(shí)別模塊和初始方言分類模塊;
30、訓(xùn)練模塊,用于:根據(jù)初始語音識(shí)別模塊以及初始方言分類模塊的輸出結(jié)果,訓(xùn)練初始語音識(shí)別模型的模型參數(shù),得到收斂的多方言語音識(shí)別模型。
31、作為本公開一種可選實(shí)施方式,初始語音識(shí)別模塊包括第一損失函數(shù)層,初始方言分類模塊包括第二損失函數(shù)層;初始語音識(shí)別模塊輸出第一損失函數(shù)值,初始方言分類模塊輸出第二損失函數(shù)值;
32、訓(xùn)練模塊,具體用于:在第一損失函數(shù)值和/或第二損失函數(shù)值大于預(yù)設(shè)損失閾值的情況下,返回調(diào)整初始語音識(shí)別模型的模型參數(shù);直至第一損失函數(shù)值和第二損失函數(shù)值均小于或等于預(yù)設(shè)損失閾值,訓(xùn)練得到多方言語音識(shí)別模型。
33、作為本公開一種可選實(shí)施方式,初始語音識(shí)別模型還包括:與初始語音識(shí)別模塊和初始方言分類模塊相連接的初始語音預(yù)處理模塊;
34、將樣本語音和標(biāo)注語音輸入初始語音識(shí)別模型之后,根據(jù)初始語音識(shí)別模塊以及初始方言分類模塊的輸出結(jié)果,訓(xùn)練初始語音識(shí)別模型的模型參數(shù),得到收斂的多方言語音識(shí)別模型之前,包括:
35、通過初始語音預(yù)處理模塊對(duì)樣本語音進(jìn)行預(yù)處理得到三維矩陣,三維矩陣表示樣本語音的聲學(xué)特征;
36、對(duì)三維矩陣進(jìn)行解碼得到樣本語音對(duì)應(yīng)的預(yù)測(cè)文本特征,并由第一損失函數(shù)層根據(jù)預(yù)測(cè)文本特征和真實(shí)文本內(nèi)容計(jì)算第一損失函數(shù)值;
37、對(duì)三維矩陣進(jìn)行分類處理得到所樣本語音對(duì)應(yīng)的預(yù)測(cè)語言類型特征,并由第二損失函數(shù)層根據(jù)預(yù)測(cè)語言類型特征和真實(shí)語言類型計(jì)算第二損失函數(shù)值。
38、作為本公開一種可選實(shí)施方式,對(duì)三維矩陣進(jìn)行分類處理得到所樣本語音對(duì)應(yīng)的預(yù)測(cè)語言類型特征,包括:
39、對(duì)三維矩陣進(jìn)行池化處理,將三維矩陣轉(zhuǎn)換為第一矩陣;
40、計(jì)算第一矩陣對(duì)應(yīng)的注意力權(quán)重矩陣,并將注意力權(quán)重矩陣和三維矩陣相乘得到計(jì)算結(jié)果;
41、在三維矩陣的預(yù)設(shè)維度上,對(duì)計(jì)算結(jié)果進(jìn)行加權(quán)求和,得到樣本語音中每一句語音對(duì)應(yīng)的語言類型特征;
42、對(duì)樣本語音中每一句語音對(duì)應(yīng)的語言類型特征進(jìn)行解碼,確定預(yù)測(cè)語言類型特征。
43、作為本公開一種可選實(shí)施方式,獲取樣本語音和標(biāo)注語音之后,將樣本語音和標(biāo)注語音輸入初始語音識(shí)別模型之前,包括:
44、構(gòu)建待定語音識(shí)別模塊;
45、基于待定語音識(shí)別模塊對(duì)樣本語音進(jìn)行語音識(shí)別,獲取待定語音識(shí)別模塊識(shí)別的錯(cuò)誤率,錯(cuò)誤率表示待定語音識(shí)別模塊預(yù)測(cè)的文本內(nèi)容與樣本語音的真實(shí)語音文本內(nèi)容不同的概率;
46、在錯(cuò)誤率大于或等于預(yù)設(shè)錯(cuò)誤率的情況下,確定錯(cuò)誤率對(duì)應(yīng)的待定語音識(shí)別模塊的特殊輸出節(jié)點(diǎn);
47、按照特殊輸出節(jié)點(diǎn)增加待定語音識(shí)別模塊的輸出節(jié)點(diǎn),得到初始語音識(shí)別模塊。
48、作為本公開一種可選實(shí)施方式,該裝置還用于:獲取待識(shí)別語音;將待識(shí)別語音輸入多方言語音識(shí)別模型,得到多方言語音識(shí)別模型輸出的語音文本內(nèi)容和語言類型。
49、作為本公開一種可選實(shí)施方式,第一損失函數(shù)層是連接時(shí)序分類損失函數(shù)層,第二損失函數(shù)層是交叉熵?fù)p失函數(shù)層。
50、第三方面,本公開提供一種電子設(shè)備,包括:處理器、存儲(chǔ)器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被所述處理器執(zhí)行時(shí)實(shí)現(xiàn)如第一方面或其任意一種可選的實(shí)施方式所述的多方言語音識(shí)別模型的訓(xùn)練方法。
51、第四方面,本公開提供一種車輛,包括如第二方面或其任意一種可選的實(shí)施方式所述的多語音識(shí)別模型的訓(xùn)練裝置,或者,如第三方面所述的電子設(shè)備。
52、第五方面,本公開提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),包括:所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如第一方面或其任意一種可選的實(shí)施方式所述的多方言語音識(shí)別模型的訓(xùn)練方法。
53、第六方面,本公開提供一種計(jì)算機(jī)程序產(chǎn)品,包括:當(dāng)所述計(jì)算機(jī)程序產(chǎn)品在計(jì)算機(jī)上運(yùn)行時(shí),使得所述計(jì)算機(jī)實(shí)現(xiàn)如第一方面或其任意一種可選的實(shí)施方式所述的多方言語音識(shí)別模型的訓(xùn)練方法。
54、本公開實(shí)施例提供的多方言語音識(shí)別模型的訓(xùn)練方法,該方法獲取包括普通話語音和不同類型的方言語音的樣本語音,以及樣本標(biāo)注語音,該樣本標(biāo)注語音包括樣本語音對(duì)應(yīng)的真實(shí)文本內(nèi)容和真實(shí)語言類型,在訓(xùn)練過程中,將樣本語音和標(biāo)注語音輸入初始語音識(shí)別模型,其中該初始語音識(shí)別模型包括初始語音識(shí)別模塊和初始方言分類模塊,以得到初始語音識(shí)別模塊和初始方言分類模塊的輸出結(jié)果,進(jìn)而根據(jù)輸出結(jié)果訓(xùn)練初始語音識(shí)別模塊的模型參數(shù),得到收斂的多方言語音識(shí)別模型。本公開利用普通話語音和不同類型的方言語音作為樣本進(jìn)行模型訓(xùn)練,解決模型訓(xùn)練過程存在的數(shù)據(jù)稀疏問題,有利于提升模型的魯棒性。