口吃語音識別方法、裝置、計算機(jī)設(shè)備及存儲介質(zhì)與流程

文檔序號：40572039發(fā)布日期：2025-01-03 11:33閱讀：24來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本申請涉及人工智能，尤其涉及一種口吃語音識別方法、裝置、計算機(jī)設(shè)備及存儲介質(zhì)。

背景技術(shù)：

1、在人工智能技術(shù)領(lǐng)域，數(shù)據(jù)不平衡是一個常見問題，尤其是在語音識別(automati?c?speech?recogn?it?i?on，asr)和文本轉(zhuǎn)語音(text-to-speech，tts)技術(shù)的具體應(yīng)用時。由于口吃數(shù)據(jù)集的稀缺性，現(xiàn)有的預(yù)設(shè)asr模型對口吃語音的識別準(zhǔn)確度存在不足，使得口吃語音的識別準(zhǔn)確度較低。因此，如何對口吃事件進(jìn)行預(yù)測，并提高口吃語音識別的準(zhǔn)確度成為了亟需解決的技術(shù)問題。

技術(shù)實現(xiàn)思路

1、本申請的主要目的在于提供一種口吃語音識別方法、裝置、計算機(jī)設(shè)備及存儲介質(zhì)，以提高口吃語音識別的準(zhǔn)確度。

2、第一方面，本申請?zhí)峁┮环N口吃語音識別方法，所述口吃語音識別方法包括以下步驟：

3、獲取用于識別目標(biāo)口吃語音的初始文本信息；將所述初始文本信息輸入至目標(biāo)口吃預(yù)測器進(jìn)行預(yù)測，根據(jù)所述目標(biāo)口吃預(yù)測器的預(yù)測結(jié)果生成目標(biāo)文本信息；將所述目標(biāo)文本信息輸入至預(yù)設(shè)語音識別模型，在所述預(yù)設(shè)語音識別模型中識別所述目標(biāo)文本信息對應(yīng)的所述目標(biāo)口吃語音。

4、第二方面，本申請還提供一種口吃語音識別裝置，所述口吃語音識別裝置包括：

5、初始文本信息確定模塊，用于獲取用于識別目標(biāo)口吃語音的初始文本信息；預(yù)測模塊，用于將所述初始文本信息輸入至目標(biāo)口吃預(yù)測器進(jìn)行預(yù)測，根據(jù)所述目標(biāo)口吃預(yù)測器的預(yù)測結(jié)果生成目標(biāo)文本信息；目標(biāo)語音識別模塊，用于將所述目標(biāo)文本信息輸入至預(yù)設(shè)語音識別模型，在所述預(yù)設(shè)語音識別模型中識別所述目標(biāo)文本信息對應(yīng)的所述目標(biāo)口吃語音。

6、第三方面，本申請還提供一種計算機(jī)設(shè)備，所述計算機(jī)設(shè)備包括處理器、存儲器、以及存儲在所述存儲器上并可被所述處理器執(zhí)行的計算機(jī)程序，其中所述計算機(jī)程序被所述處理器執(zhí)行時，實現(xiàn)如上述的口吃語音識別方法。

7、第四方面，本申請還提供一種計算機(jī)可讀存儲介質(zhì)，所述計算機(jī)可讀存儲介質(zhì)上存儲有計算機(jī)程序，其中所述計算機(jī)程序被處理器執(zhí)行時，實現(xiàn)如上述的口吃語音識別方法。

8、本申請?zhí)峁┮环N口吃語音識別方法，裝置、計算機(jī)設(shè)備及存儲介質(zhì)，通過獲取用于識別目標(biāo)口吃語音的初始文本信息；將所述初始文本信息輸入至目標(biāo)口吃預(yù)測器進(jìn)行預(yù)測，根據(jù)所述目標(biāo)口吃預(yù)測器的預(yù)測結(jié)果生成目標(biāo)文本信息；將所述目標(biāo)文本信息輸入至預(yù)設(shè)語音識別模型，在所述預(yù)設(shè)語音識別模型中識別所述目標(biāo)文本信息對應(yīng)的所述目標(biāo)口吃語音，通過將初始文本信息輸入至目標(biāo)口吃預(yù)測器，并根據(jù)目標(biāo)口吃預(yù)測器的預(yù)測結(jié)果得到目標(biāo)預(yù)測類別，將目標(biāo)預(yù)測類別添加至初始文本信息的預(yù)設(shè)位置，得到目標(biāo)文本信息，將目標(biāo)口吃語音輸入至預(yù)設(shè)語音識別模型，得到目標(biāo)口吃語音，提高了口吃語音識別的準(zhǔn)確度。

技術(shù)特征：

1.一種口吃語音識別方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的口吃語音識別方法，其特征在于，所述將所述初始文本信息輸入至目標(biāo)口吃預(yù)測器進(jìn)行預(yù)測，根據(jù)所述目標(biāo)口吃預(yù)測器的預(yù)測結(jié)果生成目標(biāo)文本信息，包括：

3.根據(jù)權(quán)利要求2所述的口吃語音識別方法，其特征在于，全部的初始文本信息包括第一文本信息和第二文本信息，在將所述目標(biāo)預(yù)測類別添加至所述初始文本信息的預(yù)設(shè)位置，生成所述目標(biāo)文本信息之前，所述方法還包括：

4.根據(jù)權(quán)利要求3所述的口吃語音識別方法，其特征在于，所述基于預(yù)設(shè)選擇器對全部的所述初始文本信息進(jìn)行分類處理，得到所述預(yù)設(shè)選擇器分類后的所述第一文本信息和所述第二文本信息，包括：

5.根據(jù)權(quán)利要求1所述的口吃語音識別方法，其特征在于，所述預(yù)設(shè)語音識別模型包括前端模型和聲學(xué)模型，所述將所述目標(biāo)文本信息輸入至預(yù)設(shè)語音識別模型，在所述預(yù)設(shè)語音識別模型中識別所述目標(biāo)文本信息對應(yīng)的所述目標(biāo)口吃語音，包括：

6.根據(jù)權(quán)利要求1所述的口吃語音識別方法，其特征在于，在將所述初始文本信息輸入至目標(biāo)口吃預(yù)測器進(jìn)行預(yù)測之前，所述方法還包括：

7.根據(jù)權(quán)利要求1所述的口吃語音識別方法，其特征在于，所述將所述目標(biāo)文本信息輸入至預(yù)設(shè)語音識別模型，在所述預(yù)設(shè)語音識別模型中識別所述目標(biāo)文本信息對應(yīng)的所述目標(biāo)口吃語音之后，所述方法還包括：

8.一種口吃語音識別裝置，其特征在于，包括：

9.一種計算機(jī)設(shè)備，其特征在于，所述計算機(jī)設(shè)備包括存儲器和處理器；

10.一種計算機(jī)可讀存儲介質(zhì)，其特征在于，所述計算機(jī)可讀存儲介質(zhì)存儲有計算機(jī)程序，所述計算機(jī)程序被處理器執(zhí)行時使所述處理器實現(xiàn)如權(quán)利要求1至7中任一項所述的口吃語音識別方法。

技術(shù)總結(jié)
本申請涉及人工智能技術(shù)領(lǐng)域，提供一種口吃語音識別方法、裝置、計算機(jī)設(shè)備及存儲介質(zhì)，該方法包括：獲取用于識別目標(biāo)口吃語音的初始文本信息；將所述初始文本信息輸入至目標(biāo)口吃預(yù)測器進(jìn)行預(yù)測，根據(jù)所述目標(biāo)口吃預(yù)測器的預(yù)測結(jié)果生成目標(biāo)文本信息；將所述目標(biāo)文本信息輸入至預(yù)設(shè)語音識別模型，在所述預(yù)設(shè)語音識別模型中識別所述目標(biāo)文本信息對應(yīng)的所述目標(biāo)口吃語音，提高了口吃語音識別的準(zhǔn)確性。

技術(shù)研發(fā)人員：張旭龍,王健宗,程寧,唐浩彬
受保護(hù)的技術(shù)使用者：平安科技（深圳）有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2025/1/2

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張旭龍,王健宗,程寧,唐浩彬
技術(shù)所有人：平安科技（深圳）有限公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

口吃語音識別方法、裝置、計算機(jī)設(shè)備及存儲介質(zhì)與流程

口吃語音識別方法、裝置、計算機(jī)設(shè)備及存儲介質(zhì)與流程