欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

多方言語音識(shí)別模型的訓(xùn)練方法、裝置及電子設(shè)備與流程

文檔序號(hào):40562547發(fā)布日期:2025-01-03 11:22閱讀:13來源:國知局
多方言語音識(shí)別模型的訓(xùn)練方法、裝置及電子設(shè)備與流程

本公開涉及語音識(shí)別領(lǐng)域,尤其涉及一種多方言語音識(shí)別模型的訓(xùn)練方法、裝置及電子設(shè)備。


背景技術(shù):

1、語音識(shí)別技術(shù)在生活中的應(yīng)用已經(jīng)非常廣泛,在實(shí)際的語音交互過程中,方言仍然是語音識(shí)別繞不開的一個(gè)技術(shù)難點(diǎn)。目前,我國方言種類多,且方言數(shù)據(jù)的獲取比普通話更困難,因此方言數(shù)據(jù)量少,這導(dǎo)致訓(xùn)練多方言語音識(shí)別模型存在數(shù)據(jù)稀疏的問題,訓(xùn)練得到的模型魯棒性差,識(shí)別效果不佳。


技術(shù)實(shí)現(xiàn)思路

1、為了解決上述技術(shù)問題或者至少部分地解決上述技術(shù)問題,本公開提供了一種多方言語音識(shí)別模型的訓(xùn)練方法、裝置及電子設(shè)備,可以區(qū)分不同語言類型,準(zhǔn)確識(shí)別不同語言類型的語音文本內(nèi)容。

2、為了實(shí)現(xiàn)上述目的,本公開實(shí)施例提供的技術(shù)方案如下:

3、第一方面,本公開提供一種多方言語音識(shí)別模型的訓(xùn)練方法,該方法包括:

4、獲取樣本語音和標(biāo)注語音,樣本語音包括普通話語音和不同類型的方言語音;標(biāo)注語音是樣本語音對(duì)應(yīng)的真實(shí)文本內(nèi)容和真實(shí)語言類型;

5、將樣本語音和標(biāo)注語音輸入初始語音識(shí)別模型;其中,初始語音識(shí)別模型包括初始語音識(shí)別模塊和初始方言分類模塊;

6、根據(jù)初始語音識(shí)別模塊以及初始方言分類模塊的輸出結(jié)果,訓(xùn)練初始語音識(shí)別模型的模型參數(shù),得到收斂的多方言語音識(shí)別模型。

7、作為本公開一種可選實(shí)施方式,初始語音識(shí)別模塊包括第一損失函數(shù)層,初始方言分類模塊包括第二損失函數(shù)層;初始語音識(shí)別模塊輸出第一損失函數(shù)值,初始方言分類模塊輸出第二損失函數(shù)值;

8、根據(jù)初始語音識(shí)別模塊以及初始方言分類模塊的輸出結(jié)果,訓(xùn)練初始語音識(shí)別模型的模型參數(shù),得到收斂的多方言語音識(shí)別模型,包括:

9、在第一損失函數(shù)值和/或第二損失函數(shù)值大于預(yù)設(shè)損失閾值的情況下,返回調(diào)整初始語音識(shí)別模型的模型參數(shù);直至第一損失函數(shù)值和第二損失函數(shù)值均小于或等于預(yù)設(shè)損失閾值,訓(xùn)練得到多方言語音識(shí)別模型。

10、作為本公開一種可選實(shí)施方式,初始語音識(shí)別模型還包括:與初始語音識(shí)別模塊和初始方言分類模塊相連接的初始語音預(yù)處理模塊;

11、將樣本語音和標(biāo)注語音輸入初始語音識(shí)別模型之后,根據(jù)初始語音識(shí)別模塊以及初始方言分類模塊的輸出結(jié)果,訓(xùn)練初始語音識(shí)別模型的模型參數(shù),得到收斂的多方言語音識(shí)別模型之前,包括:

12、通過初始語音預(yù)處理模塊對(duì)樣本語音進(jìn)行預(yù)處理得到三維矩陣,三維矩陣表示樣本語音的聲學(xué)特征;

13、對(duì)三維矩陣進(jìn)行解碼得到樣本語音對(duì)應(yīng)的預(yù)測(cè)文本特征,并由第一損失函數(shù)層根據(jù)預(yù)測(cè)文本特征和真實(shí)文本內(nèi)容計(jì)算第一損失函數(shù)值;

14、對(duì)三維矩陣進(jìn)行分類處理得到所樣本語音對(duì)應(yīng)的預(yù)測(cè)語言類型特征,并由第二損失函數(shù)層根據(jù)預(yù)測(cè)語言類型特征和真實(shí)語言類型計(jì)算第二損失函數(shù)值。

15、作為本公開一種可選實(shí)施方式,對(duì)三維矩陣進(jìn)行分類處理得到所樣本語音對(duì)應(yīng)的預(yù)測(cè)語言類型特征,包括:

16、對(duì)三維矩陣進(jìn)行池化處理,將三維矩陣轉(zhuǎn)換為第一矩陣;

17、計(jì)算第一矩陣對(duì)應(yīng)的注意力權(quán)重矩陣,并將注意力權(quán)重矩陣和三維矩陣相乘得到計(jì)算結(jié)果;

18、在三維矩陣的預(yù)設(shè)維度上,對(duì)計(jì)算結(jié)果進(jìn)行加權(quán)求和,得到樣本語音中每一句語音對(duì)應(yīng)的語言類型特征;

19、對(duì)樣本語音中每一句語音對(duì)應(yīng)的語言類型特征進(jìn)行解碼,確定預(yù)測(cè)語言類型特征。

20、作為本公開一種可選實(shí)施方式,獲取樣本語音和標(biāo)注語音之后,將樣本語音和標(biāo)注語音輸入初始語音識(shí)別模型之前,包括:

21、構(gòu)建待定語音識(shí)別模塊;

22、基于待定語音識(shí)別模塊對(duì)樣本語音進(jìn)行語音識(shí)別,獲取待定語音識(shí)別模塊識(shí)別的錯(cuò)誤率,錯(cuò)誤率表示待定語音識(shí)別模塊預(yù)測(cè)的文本內(nèi)容與樣本語音的真實(shí)語音文本內(nèi)容不同的概率;

23、在錯(cuò)誤率大于或等于預(yù)設(shè)錯(cuò)誤率的情況下,確定錯(cuò)誤率對(duì)應(yīng)的待定語音識(shí)別模塊的特殊輸出節(jié)點(diǎn);

24、按照特殊輸出節(jié)點(diǎn)增加待定語音識(shí)別模塊的輸出節(jié)點(diǎn),得到初始語音識(shí)別模塊。

25、作為本公開一種可選實(shí)施方式,該方法還包括:獲取待識(shí)別語音;將待識(shí)別語音輸入多方言語音識(shí)別模型,得到多方言語音識(shí)別模型輸出的語音文本內(nèi)容和語言類型。

26、作為本公開一種可選實(shí)施方式,第一損失函數(shù)層是連接時(shí)序分類損失函數(shù)層,第二損失函數(shù)層是交叉熵?fù)p失函數(shù)層。

27、第二方面,本公開提供一種多方言識(shí)別模型的訓(xùn)練裝置,包括:

28、獲取模塊,用于:獲取樣本語音和標(biāo)注語音,樣本語音包括普通話語音和不同類型的方言語音;標(biāo)注語音是樣本語音對(duì)應(yīng)的真實(shí)文本內(nèi)容和真實(shí)語言類型;

29、處理模塊,用于:將樣本語音和標(biāo)注語音輸入初始語音識(shí)別模型;其中,初始語音識(shí)別模型包括:初始語音識(shí)別模塊和初始方言分類模塊;

30、訓(xùn)練模塊,用于:根據(jù)初始語音識(shí)別模塊以及初始方言分類模塊的輸出結(jié)果,訓(xùn)練初始語音識(shí)別模型的模型參數(shù),得到收斂的多方言語音識(shí)別模型。

31、作為本公開一種可選實(shí)施方式,初始語音識(shí)別模塊包括第一損失函數(shù)層,初始方言分類模塊包括第二損失函數(shù)層;初始語音識(shí)別模塊輸出第一損失函數(shù)值,初始方言分類模塊輸出第二損失函數(shù)值;

32、訓(xùn)練模塊,具體用于:在第一損失函數(shù)值和/或第二損失函數(shù)值大于預(yù)設(shè)損失閾值的情況下,返回調(diào)整初始語音識(shí)別模型的模型參數(shù);直至第一損失函數(shù)值和第二損失函數(shù)值均小于或等于預(yù)設(shè)損失閾值,訓(xùn)練得到多方言語音識(shí)別模型。

33、作為本公開一種可選實(shí)施方式,初始語音識(shí)別模型還包括:與初始語音識(shí)別模塊和初始方言分類模塊相連接的初始語音預(yù)處理模塊;

34、將樣本語音和標(biāo)注語音輸入初始語音識(shí)別模型之后,根據(jù)初始語音識(shí)別模塊以及初始方言分類模塊的輸出結(jié)果,訓(xùn)練初始語音識(shí)別模型的模型參數(shù),得到收斂的多方言語音識(shí)別模型之前,包括:

35、通過初始語音預(yù)處理模塊對(duì)樣本語音進(jìn)行預(yù)處理得到三維矩陣,三維矩陣表示樣本語音的聲學(xué)特征;

36、對(duì)三維矩陣進(jìn)行解碼得到樣本語音對(duì)應(yīng)的預(yù)測(cè)文本特征,并由第一損失函數(shù)層根據(jù)預(yù)測(cè)文本特征和真實(shí)文本內(nèi)容計(jì)算第一損失函數(shù)值;

37、對(duì)三維矩陣進(jìn)行分類處理得到所樣本語音對(duì)應(yīng)的預(yù)測(cè)語言類型特征,并由第二損失函數(shù)層根據(jù)預(yù)測(cè)語言類型特征和真實(shí)語言類型計(jì)算第二損失函數(shù)值。

38、作為本公開一種可選實(shí)施方式,對(duì)三維矩陣進(jìn)行分類處理得到所樣本語音對(duì)應(yīng)的預(yù)測(cè)語言類型特征,包括:

39、對(duì)三維矩陣進(jìn)行池化處理,將三維矩陣轉(zhuǎn)換為第一矩陣;

40、計(jì)算第一矩陣對(duì)應(yīng)的注意力權(quán)重矩陣,并將注意力權(quán)重矩陣和三維矩陣相乘得到計(jì)算結(jié)果;

41、在三維矩陣的預(yù)設(shè)維度上,對(duì)計(jì)算結(jié)果進(jìn)行加權(quán)求和,得到樣本語音中每一句語音對(duì)應(yīng)的語言類型特征;

42、對(duì)樣本語音中每一句語音對(duì)應(yīng)的語言類型特征進(jìn)行解碼,確定預(yù)測(cè)語言類型特征。

43、作為本公開一種可選實(shí)施方式,獲取樣本語音和標(biāo)注語音之后,將樣本語音和標(biāo)注語音輸入初始語音識(shí)別模型之前,包括:

44、構(gòu)建待定語音識(shí)別模塊;

45、基于待定語音識(shí)別模塊對(duì)樣本語音進(jìn)行語音識(shí)別,獲取待定語音識(shí)別模塊識(shí)別的錯(cuò)誤率,錯(cuò)誤率表示待定語音識(shí)別模塊預(yù)測(cè)的文本內(nèi)容與樣本語音的真實(shí)語音文本內(nèi)容不同的概率;

46、在錯(cuò)誤率大于或等于預(yù)設(shè)錯(cuò)誤率的情況下,確定錯(cuò)誤率對(duì)應(yīng)的待定語音識(shí)別模塊的特殊輸出節(jié)點(diǎn);

47、按照特殊輸出節(jié)點(diǎn)增加待定語音識(shí)別模塊的輸出節(jié)點(diǎn),得到初始語音識(shí)別模塊。

48、作為本公開一種可選實(shí)施方式,該裝置還用于:獲取待識(shí)別語音;將待識(shí)別語音輸入多方言語音識(shí)別模型,得到多方言語音識(shí)別模型輸出的語音文本內(nèi)容和語言類型。

49、作為本公開一種可選實(shí)施方式,第一損失函數(shù)層是連接時(shí)序分類損失函數(shù)層,第二損失函數(shù)層是交叉熵?fù)p失函數(shù)層。

50、第三方面,本公開提供一種電子設(shè)備,包括:處理器、存儲(chǔ)器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被所述處理器執(zhí)行時(shí)實(shí)現(xiàn)如第一方面或其任意一種可選的實(shí)施方式所述的多方言語音識(shí)別模型的訓(xùn)練方法。

51、第四方面,本公開提供一種車輛,包括如第二方面或其任意一種可選的實(shí)施方式所述的多語音識(shí)別模型的訓(xùn)練裝置,或者,如第三方面所述的電子設(shè)備。

52、第五方面,本公開提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),包括:所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如第一方面或其任意一種可選的實(shí)施方式所述的多方言語音識(shí)別模型的訓(xùn)練方法。

53、第六方面,本公開提供一種計(jì)算機(jī)程序產(chǎn)品,包括:當(dāng)所述計(jì)算機(jī)程序產(chǎn)品在計(jì)算機(jī)上運(yùn)行時(shí),使得所述計(jì)算機(jī)實(shí)現(xiàn)如第一方面或其任意一種可選的實(shí)施方式所述的多方言語音識(shí)別模型的訓(xùn)練方法。

54、本公開實(shí)施例提供的多方言語音識(shí)別模型的訓(xùn)練方法,該方法獲取包括普通話語音和不同類型的方言語音的樣本語音,以及樣本標(biāo)注語音,該樣本標(biāo)注語音包括樣本語音對(duì)應(yīng)的真實(shí)文本內(nèi)容和真實(shí)語言類型,在訓(xùn)練過程中,將樣本語音和標(biāo)注語音輸入初始語音識(shí)別模型,其中該初始語音識(shí)別模型包括初始語音識(shí)別模塊和初始方言分類模塊,以得到初始語音識(shí)別模塊和初始方言分類模塊的輸出結(jié)果,進(jìn)而根據(jù)輸出結(jié)果訓(xùn)練初始語音識(shí)別模塊的模型參數(shù),得到收斂的多方言語音識(shí)別模型。本公開利用普通話語音和不同類型的方言語音作為樣本進(jìn)行模型訓(xùn)練,解決模型訓(xùn)練過程存在的數(shù)據(jù)稀疏問題,有利于提升模型的魯棒性。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
乌鲁木齐市| 朔州市| 兴仁县| 福州市| 三门峡市| 罗江县| 柘城县| 肃宁县| 寿宁县| 汝阳县| 扶绥县| 冷水江市| 阳原县| 曲靖市| 杂多县| 西宁市| 桑日县| 区。| 页游| 德化县| 焉耆| 嘉定区| 长丰县| 武平县| 泸溪县| 元氏县| 黑水县| 昭通市| 恩施市| 志丹县| 黔西县| 红河县| 潞城市| 阜宁县| 荣昌县| 新绛县| 甘孜县| 宁德市| 育儿| 武城县| 团风县|