欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

口吃語音識別方法、裝置、計算機(jī)設(shè)備及存儲介質(zhì)與流程

文檔序號:40572039發(fā)布日期:2025-01-03 11:33閱讀:24來源:國知局
口吃語音識別方法、裝置、計算機(jī)設(shè)備及存儲介質(zhì)與流程

本申請涉及人工智能,尤其涉及一種口吃語音識別方法、裝置、計算機(jī)設(shè)備及存儲介質(zhì)。


背景技術(shù):

1、在人工智能技術(shù)領(lǐng)域,數(shù)據(jù)不平衡是一個常見問題,尤其是在語音識別(automati?c?speech?recogn?it?i?on,asr)和文本轉(zhuǎn)語音(text-to-speech,tts)技術(shù)的具體應(yīng)用時。由于口吃數(shù)據(jù)集的稀缺性,現(xiàn)有的預(yù)設(shè)asr模型對口吃語音的識別準(zhǔn)確度存在不足,使得口吃語音的識別準(zhǔn)確度較低。因此,如何對口吃事件進(jìn)行預(yù)測,并提高口吃語音識別的準(zhǔn)確度成為了亟需解決的技術(shù)問題。


技術(shù)實現(xiàn)思路

1、本申請的主要目的在于提供一種口吃語音識別方法、裝置、計算機(jī)設(shè)備及存儲介質(zhì),以提高口吃語音識別的準(zhǔn)確度。

2、第一方面,本申請?zhí)峁┮环N口吃語音識別方法,所述口吃語音識別方法包括以下步驟:

3、獲取用于識別目標(biāo)口吃語音的初始文本信息;將所述初始文本信息輸入至目標(biāo)口吃預(yù)測器進(jìn)行預(yù)測,根據(jù)所述目標(biāo)口吃預(yù)測器的預(yù)測結(jié)果生成目標(biāo)文本信息;將所述目標(biāo)文本信息輸入至預(yù)設(shè)語音識別模型,在所述預(yù)設(shè)語音識別模型中識別所述目標(biāo)文本信息對應(yīng)的所述目標(biāo)口吃語音。

4、第二方面,本申請還提供一種口吃語音識別裝置,所述口吃語音識別裝置包括:

5、初始文本信息確定模塊,用于獲取用于識別目標(biāo)口吃語音的初始文本信息;預(yù)測模塊,用于將所述初始文本信息輸入至目標(biāo)口吃預(yù)測器進(jìn)行預(yù)測,根據(jù)所述目標(biāo)口吃預(yù)測器的預(yù)測結(jié)果生成目標(biāo)文本信息;目標(biāo)語音識別模塊,用于將所述目標(biāo)文本信息輸入至預(yù)設(shè)語音識別模型,在所述預(yù)設(shè)語音識別模型中識別所述目標(biāo)文本信息對應(yīng)的所述目標(biāo)口吃語音。

6、第三方面,本申請還提供一種計算機(jī)設(shè)備,所述計算機(jī)設(shè)備包括處理器、存儲器、以及存儲在所述存儲器上并可被所述處理器執(zhí)行的計算機(jī)程序,其中所述計算機(jī)程序被所述處理器執(zhí)行時,實現(xiàn)如上述的口吃語音識別方法。

7、第四方面,本申請還提供一種計算機(jī)可讀存儲介質(zhì),所述計算機(jī)可讀存儲介質(zhì)上存儲有計算機(jī)程序,其中所述計算機(jī)程序被處理器執(zhí)行時,實現(xiàn)如上述的口吃語音識別方法。

8、本申請?zhí)峁┮环N口吃語音識別方法,裝置、計算機(jī)設(shè)備及存儲介質(zhì),通過獲取用于識別目標(biāo)口吃語音的初始文本信息;將所述初始文本信息輸入至目標(biāo)口吃預(yù)測器進(jìn)行預(yù)測,根據(jù)所述目標(biāo)口吃預(yù)測器的預(yù)測結(jié)果生成目標(biāo)文本信息;將所述目標(biāo)文本信息輸入至預(yù)設(shè)語音識別模型,在所述預(yù)設(shè)語音識別模型中識別所述目標(biāo)文本信息對應(yīng)的所述目標(biāo)口吃語音,通過將初始文本信息輸入至目標(biāo)口吃預(yù)測器,并根據(jù)目標(biāo)口吃預(yù)測器的預(yù)測結(jié)果得到目標(biāo)預(yù)測類別,將目標(biāo)預(yù)測類別添加至初始文本信息的預(yù)設(shè)位置,得到目標(biāo)文本信息,將目標(biāo)口吃語音輸入至預(yù)設(shè)語音識別模型,得到目標(biāo)口吃語音,提高了口吃語音識別的準(zhǔn)確度。



技術(shù)特征:

1.一種口吃語音識別方法,其特征在于,包括:

2.根據(jù)權(quán)利要求1所述的口吃語音識別方法,其特征在于,所述將所述初始文本信息輸入至目標(biāo)口吃預(yù)測器進(jìn)行預(yù)測,根據(jù)所述目標(biāo)口吃預(yù)測器的預(yù)測結(jié)果生成目標(biāo)文本信息,包括:

3.根據(jù)權(quán)利要求2所述的口吃語音識別方法,其特征在于,全部的初始文本信息包括第一文本信息和第二文本信息,在將所述目標(biāo)預(yù)測類別添加至所述初始文本信息的預(yù)設(shè)位置,生成所述目標(biāo)文本信息之前,所述方法還包括:

4.根據(jù)權(quán)利要求3所述的口吃語音識別方法,其特征在于,所述基于預(yù)設(shè)選擇器對全部的所述初始文本信息進(jìn)行分類處理,得到所述預(yù)設(shè)選擇器分類后的所述第一文本信息和所述第二文本信息,包括:

5.根據(jù)權(quán)利要求1所述的口吃語音識別方法,其特征在于,所述預(yù)設(shè)語音識別模型包括前端模型和聲學(xué)模型,所述將所述目標(biāo)文本信息輸入至預(yù)設(shè)語音識別模型,在所述預(yù)設(shè)語音識別模型中識別所述目標(biāo)文本信息對應(yīng)的所述目標(biāo)口吃語音,包括:

6.根據(jù)權(quán)利要求1所述的口吃語音識別方法,其特征在于,在將所述初始文本信息輸入至目標(biāo)口吃預(yù)測器進(jìn)行預(yù)測之前,所述方法還包括:

7.根據(jù)權(quán)利要求1所述的口吃語音識別方法,其特征在于,所述將所述目標(biāo)文本信息輸入至預(yù)設(shè)語音識別模型,在所述預(yù)設(shè)語音識別模型中識別所述目標(biāo)文本信息對應(yīng)的所述目標(biāo)口吃語音之后,所述方法還包括:

8.一種口吃語音識別裝置,其特征在于,包括:

9.一種計算機(jī)設(shè)備,其特征在于,所述計算機(jī)設(shè)備包括存儲器和處理器;

10.一種計算機(jī)可讀存儲介質(zhì),其特征在于,所述計算機(jī)可讀存儲介質(zhì)存儲有計算機(jī)程序,所述計算機(jī)程序被處理器執(zhí)行時使所述處理器實現(xiàn)如權(quán)利要求1至7中任一項所述的口吃語音識別方法。


技術(shù)總結(jié)
本申請涉及人工智能技術(shù)領(lǐng)域,提供一種口吃語音識別方法、裝置、計算機(jī)設(shè)備及存儲介質(zhì),該方法包括:獲取用于識別目標(biāo)口吃語音的初始文本信息;將所述初始文本信息輸入至目標(biāo)口吃預(yù)測器進(jìn)行預(yù)測,根據(jù)所述目標(biāo)口吃預(yù)測器的預(yù)測結(jié)果生成目標(biāo)文本信息;將所述目標(biāo)文本信息輸入至預(yù)設(shè)語音識別模型,在所述預(yù)設(shè)語音識別模型中識別所述目標(biāo)文本信息對應(yīng)的所述目標(biāo)口吃語音,提高了口吃語音識別的準(zhǔn)確性。

技術(shù)研發(fā)人員:張旭龍,王健宗,程寧,唐浩彬
受保護(hù)的技術(shù)使用者:平安科技(深圳)有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/1/2
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
无为县| 泸西县| 婺源县| 罗田县| 太谷县| 瓮安县| 黄石市| 尉氏县| 巴彦淖尔市| 旺苍县| 德格县| 宝兴县| 平舆县| 沙田区| 临海市| 罗定市| 长沙市| 枣阳市| 西丰县| 石阡县| 绥芬河市| 扎兰屯市| 科技| 天全县| 辉南县| 黄山市| 杨浦区| 乐业县| 大宁县| 莒南县| 保德县| 庆云县| 松滋市| 包头市| 江油市| 贵州省| 永善县| 朝阳区| 灵台县| 依安县| 汝阳县|